(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023055570
(43)【公開日】2023-04-18
(54)【発明の名称】臨床テキスト情報時系列データ作製方法及び装置、並びに、臨床テキスト情報時系列可視化表示方法及び装置、並びに、臨床テキスト情報時系列可視化システム
(51)【国際特許分類】
G16H 10/60 20180101AFI20230411BHJP
G16H 70/40 20180101ALI20230411BHJP
【FI】
G16H10/60
G16H70/40
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021165067
(22)【出願日】2021-10-06
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「医療用語オントロジーと医療表現アノテーション・コーパスの構築」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】504143441
【氏名又は名称】国立大学法人 奈良先端科学技術大学院大学
(74)【代理人】
【識別番号】110000822
【氏名又は名称】弁理士法人グローバル知財
(72)【発明者】
【氏名】矢田 竣太郎
(72)【発明者】
【氏名】荒牧 英治
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA23
5L099AA25
(57)【要約】 (修正有)
【課題】直感的な時系列表示が行える臨床テキスト情報時系列データ作製方法及び装置並びに臨床テキスト情報時系列可視化表示方法及び装置並びに臨床テキスト情報時系列可視化システムを提供する。
【解決手段】臨床テキスト情報時系列データ作製装置1は、臨床現場で作成される臨床テキストを入力し、臨床テキストに含まれる、病名、検査名、薬品名、処置名及び臨床医学表現と時間表現を、抽出しタグ付けする臨床テキスト情報抽出手段5と、臨床医学表現と時間表現のタグ付けが行われた臨床テキストのアノテーションファイルを入力する入力手段2と、臨床テキスト情報抽出手段5により抽出及びタグ付けされたアノテーションファイル又は入力したアノテーションファイルに対して、時間表現と臨床医学表現との時間関係を識別する時間関係識別手段3と、臨床医学表現を時間表現に沿って時系列データ14化する時系列データ化手段4を備える。
【選択図】
図4
【特許請求の範囲】
【請求項1】
臨床現場で作成される臨床テキストに含まれる、病名、検査名、薬品名、処置名、及び臨床段階表現の少なくとも1つの臨床医学表現と時間表現とを抽出してタグ付けし、前記時間表現と前記臨床医学表現との時間的情報を表す時間関係を識別し、前記臨床医学表現を前記時間表現に沿って時系列データ化することを特徴とする臨床テキスト情報時系列データ作製方法。
【請求項2】
前記時間関係は、前記臨床医学表現が、
1)前記時間表現に発生もしくは存在する、
2)前記時間表現より前に発生もしくは存在し、かつ、前記時間表現には存在しない、
3)前記時間表現より後で発生もしくは存在し、かつ、前記時間表現には存在しない、
4)前記時間表現に発生もしくは存在し、かつ、前記時間表現より後まで存在する、
5)前記時間表現より前から発生もしくは存在し、かつ、前記時間表現まで存在する、
の5種類に分類され識別されることを特徴とする請求項1に記載の臨床テキスト情報時系列データ作製方法。
【請求項3】
前記時間表現は、日付、時間、期間、頻度、年齢、及び臨床特有の少なくとも6種類の表現に分類され識別されることを特徴とする請求項1又は2に記載の臨床テキスト情報時系列データ作製方法。
【請求項4】
前記時間表現には、前記臨床テキストの作成日時が含まれ、前記臨床テキストのメタデータとして情報付与されることを特徴とする請求項1~3の何れかに記載の臨床テキスト情報時系列データ作製方法。
【請求項5】
前記臨床医学表現のタグ付けの種類は、更に、部位表現、変化表現、特徴表現の少なくとも何れかが加わることを特徴とする請求項1~4の何れかに記載の臨床テキスト情報時系列データ作製方法。
【請求項6】
請求項1~5の何れかに記載の臨床テキスト情報時系列データ作製方法を用いて作製された前記臨床テキストにおける臨床医学表現の時系列データの表示方法であって、
前記時間表現に従って時間表示軸を表示し、
前記臨床医学表現を前記時間関係に従ってタグ種別毎に前記時間表示軸に対応させて表示する、
ことを特徴とする臨床テキスト情報時系列可視化表示方法。
【請求項7】
臨床現場で作成される臨床テキストに含まれる、病名、検査名、薬品名、処置名、及び臨床段階表現の少なくとも1つの臨床医学表現と時間表現とを抽出しタグ付けされた前記臨床テキストのアノテーションファイルを入力する入力手段と、
入力した前記アノテーションファイルに対して、前記時間表現と前記臨床医学表現との時間的情報を表す時間関係を識別する時間関係識別手段と、
前記臨床医学表現を前記時間表現に沿って時系列データ化する時系列データ化手段、
を備えることを特徴とする臨床テキスト情報時系列データ作製装置。
【請求項8】
前記臨床テキストを入力し、前記臨床テキストに含まれる、病名、検査名、薬品名、処置名、及び臨床段階表現の少なくとも1つの臨床医学表現と時間表現を、学習済み言語処理モデルを用いて、抽出しタグ付けする臨床テキスト情報抽出手段、を更に備えたことを特徴とする請求項7に記載の臨床テキスト情報時系列データ作製装置。
【請求項9】
請求項7又は8に記載の臨床テキスト情報時系列データ作製装置に、直接又はネットワークを介して接続された表示端末であって、
前記時間表現に従って時間表示軸を表示し、前記臨床医学表現を前記時間関係に従ってタグ種別毎に前記時間表示軸に対応させて表示する表示手段、を備えたことを特徴とする臨床テキスト情報時系列可視化表示装置。
【請求項10】
臨床現場で作成される臨床テキストを入力し、前記臨床テキストに含まれる、病名、検査名、薬品名、処置名、及び臨床段階表現の少なくとも1つの臨床医学表現と時間表現を、学習済み言語処理モデルを用いて、抽出しタグ付けし、タグ付けされた前記臨床テキストのアノテーションファイルを出力する医療エンティティアノテーション用第1サーバと、
前記第1サーバから前記臨床テキストのアノテーションファイルを入力し、前記アノテーションファイルに対して、前記時間表現と前記臨床医学表現との時間的情報を表す時間関係を識別し、前記臨床医学表現を前記時間表現に沿って時系列データ化し、時系列データ化された時系列データを出力する医療エンティティ間関係アノテーション用第2サーバと、
前記第1サーバに対して前記臨床テキストを出力し、前記第2サーバから前記時系列データを入力し、前記時間表現に従って時間表示軸を表示し、前記臨床医学表現を前記時間関係に従ってタグ種別毎に前記時間表示軸に対応させて表示するクライアント端末、がネットワーク接続された臨床テキスト情報時系列可視化システム。
【請求項11】
前記第1サーバと前記第2サーバが一体化された請求項10に記載の臨床テキスト情報時系列可視化システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子カルテ等の臨床テキストに記載された、患者の病変・症状の変遷や投薬・検査の実施状況を時系列データ化、及び、時系列表示形式へと可視化する技術に関するものである。
【背景技術】
【0002】
従来から、病院やクリニック等の医療の現場では、電子カルテシステムが多く利用されている。しかしながら、電子カルテシステムは、機能が多く複雑で、患者の検査歴や治療歴を一覧し難いという問題がある。すなわち、現場では、医学研究や実際の臨床業務の観点から重要な情報は、自由記述欄にほとんどの情報が記入されているのが現状であり、前回の診察に関する情報を見やすくするために医師は今回診察の自由記述欄に前回の記述をコピーアンドペーストする運用が一般化してしまっている。
患者の病変・症状の変遷、検査歴や治療歴を、医師が一瞥で理解しやすくするためには、時系列(タイムライン)に沿って病変・症状や投薬・検査の変遷を可視化することが有用であり、医療現場ではクリニカルパスと呼ばれる方式が活用されている。これは主に、入院患者の治療歴・予定を日程表形式で整理するもので、医師・看護師・薬剤師などからなるチーム医療を効率化するほか、その直感的な分かり易さから患者への治療方針の説明に用いられる。しかし、このような可視化は現状では手作業で実施されているといった実情である。
【0003】
電子カルテ等の自由記述欄に記載されたテキスト情報を構造化する技術としては、テキスト情報の自由入力を受け付け、自由入力されたテキスト情報と自由入力されたテキスト情報に基づく構造化情報とを表示させる機能を備えた情報処理システムが知られている(特許文献1を参照)。しかしながら、特許文献1の情報処理システムは、自由入力可能なテキスト入力を行う者に、テキスト情報の構造化を意識させながらその入力を行わせるものであり、患者の病変・症状の変遷や投薬・検査の実施状況を時系列形式へ可視化できるものではない。
【0004】
また、電子カルテに記載された、患者の病変・症状の変遷や投薬・検査の実施状況を時系列形式へ可視化する技術としては、テキストからの時系列可視化システムの要件に関して提案した技術が知られている(非特許文献1を参照)。しかしながら、非特許文献1に開示された技術では、テキストにおける自然言語の言語処理部分について全く言及しておらず、時系列表示に求められる要件のみを示したに過ぎないという問題がある。また、時系列形式の可視化の要件についても、臨床医学を踏まえているものの、時間軸を明示しないといった問題もある。
【0005】
また、古典的な言語処理技術とルールベースの処理を組み合わせることにより、時系列可視化に取り組んだ技術が知られている(非特許文献2を参照)。しかしながら、非特許文献2に開示された技術は、1例の文書のみで検証された技術に過ぎず、言語表現と時間関係の複雑さを鑑みれば手書きのルールだけで多様な臨床テキストには対応できないことが明白である。また、時系列表示も医学に特化しない一般的な既存のツールに情報を流し込んだだけであり、実用性に乏しいという問題もある。
【0006】
電子カルテ等の臨床テキストの時系列可視化の技術的基盤は、臨床テキストから臨床医学的事実を抽出する言語処理部分と、抽出された臨床医学的事実を可視化する時系列表示部分に分けられる。しかしながら、上述のように、特許文献1、非特許文献1,2に開示された技術は、いずれも実現性・実用性に乏しいものであった。
【先行技術文献】
【特許文献】
【0007】
【非特許文献】
【0008】
【非特許文献1】C.Hallett,”Multi-modal presentationof medical histories”, 13th international conference on Intelligent userinterfaces, Association for Computing Machinery (IUI’08), pp.80-89, 2008.
【非特許文献2】H.Jung et al.,”BuildingTimelines from Narrative Clinical Records: Initial Results Based-on Deep NaturalLanguage Understanding”, BioNLP 2011 Workshop,Association for Computational Linguistics, pp. 146-154, 2011.
【発明の概要】
【発明が解決しようとする課題】
【0009】
かかる状況に鑑みて、本発明は、電子カルテなどの多様な臨床テキストから言語処理で臨床医学表現を抽出し、臨床医学特有の時間表現を自動的に解析して時系列データを作製し、直感的な時系列表示が行える臨床テキスト情報時系列データ作製方法及び装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
上記課題を解決すべく、本発明の臨床テキスト情報時系列データ作製方法は、臨床現場で作成される臨床テキストに含まれる、病名、検査名、薬品名、処置名、及び臨床段階表現の少なくとも1つの臨床医学表現と時間表現とを抽出してタグ付けし、時間表現と臨床医学表現との時間的情報を表す時間関係を識別し、臨床医学表現を時間表現に沿って時系列データ化する。
【0011】
かかる構成によれば、電子カルテやCT読影レポートなど臨床現場で作成される臨床テキストから、言語処理によって臨床医学表現を抽出してタグ付けし、臨床医学特有の時間表現を自動的に解析して時系列データを作製し、直感的な時系列表示を行うことができる。
臨床テキストからの情報抽出には、学習済みの言語処理モデルを用いる。言語処理モデルによって、日本語や英語などの自然言語における臨床医学表現およびそれらの間の関係、並びに、時間に関する時間表現および前後・同時的関係が付与され、臨床テキストに記載された臨床医学的事実(病変の発生や投薬・検査の実施状況など)を自動的に解釈する。
ここで、臨床テキストとは、電子カルテ(診療記録)や、レントゲンやCTの読影所見といった臨床現場で作成されるテキストのことである。
病名、検査名、薬品名、処置名、及び臨床段階表現が含まれる臨床医学表現とは、医学的概念を表す言語表現であり、臨床段階表現とは、入院、退院、受診、服薬指導、化学療法などの表現である。時間関係とは、臨床医学表現の間の関係のうち、ある事態がいつ起きたのか、ある状態がいつ存在したのか、といった時間的な情報を表す関係のことである。時間表現に沿って時系列データ化とは、臨床医学表現を、時間表現のタイムラインに沿って、時間関係を用いて、時系列データ化することである。臨床テキストにおける特有の時間表現(「手術前」「手術後」「入院前」「退院後」「5クール目」などを含む)に対して、臨床テキストに記載された通りの時系列で臨床医学的事実をその種類(病変、投薬、検査など)に応じて並べることができる。
なお、臨床医学表現の抽出とタグ付けは、同時的又は異時的に行われる。
【0012】
本発明の臨床テキスト情報時系列データ作製方法において、時間関係は、臨床医学表現が、下記1)~5)の5種類に分類され識別されることが好ましい。
1)臨床医学表現が、時間表現に発生もしくは存在する(以下、「同時関係」という。)。
2)臨床医学表現が、時間表現より前に発生もしくは存在し、かつ、時間表現には存在しない(以下、「事前関係」という。)。
3)臨床医学表現が、時間表現より後で発生もしくは存在し、かつ、時間表現には存在しない(以下、「事後関係」という。)。
4)臨床医学表現が、時間表現に発生もしくは存在し、かつ、時間表現より後まで存在する(以下、「開始関係」という。)。
5)臨床医学表現が、時間表現より前から発生もしくは存在し、かつ、時間表現まで存在する(以下、「終了関係」という。)。
【0013】
上記1)~5)の5種類に分類され識別されることにより、臨床テキストへの時間関係の情報付与を精度良く行うことができる。本発明では、臨床医学的応用に特化した時系列データ化を図るべく、既存の時間表現・時間関係に関する言語的仕様を再構成し、1)~5)の5種類の時間関係タイプをデザインした。5種類の時間関係タイプは、臨床テキストからの抽出対象として考慮すべき時間表現と、臨床医学的事実とを結びつける時間関係の必要十分な構成である。
【0014】
臨床医学表現には、それぞれ状態属性が付加されており、状態属性には、「予定」、「実施」、「不実施」の種別タグが付与されている。状態属性の値は、その周囲の文脈における特定の時点を基準としたときの状態を表したものであり、時間に相対的に決定される。
同時関係では、状態属性が「予定」である場合には、(実施予定日など)その時点に予定されていることを意味し、状態属性が「実施」である場合には、その時点で実施されたことを意味し、状態属性が「不実施」である場合には、その時点では実施されなかった(その時点での実施が見送られた)ことを意味する。
また、事前関係とは、状態属性が「予定」である場合には、その時点より前のある時点での実施が予定されていることを意味し、状態属性が「実施」である場合には、その時点より前のある時点で実施されたことを意味し、状態属性が「不実施」である場合には、その時点よりも前のある時点では実施されなかったことを意味する。
また、事後関係とは、状態属性が「予定」である場合には、その時点より後のある時点での実施が予定されていることを意味し、状態属性が「実施」である場合には、その時点よりも後のある時点で実施されたことを意味し、状態属性が「不実施」である場合には、その時点よりも後のある時点では実施されなかったことを意味する。
また、開始関係とは、状態属性が「予定」である場合には、その時点から開始することが予定されていることを意味し、状態属性が「実施」である場合には、それまで実施していなかったが、その時点に開始したことを意味し、状態属性が「不実施」である場合には、それまで実施していたが、その時点に終了したことを意味する。
また、終了関係とは、状態属性が「予定」である場合には、その時点で終了することが予定されていることを意味し、状態属性が「実施」である場合には、それまで実施していたが、その時点に終了したことを意味し、状態属性が「不実施」である場合には、それまで実施していなかったが、その時点に開始したことを意味する。
【0015】
本発明の臨床テキスト情報時系列データ作製方法において、時間表現のタグは、「日付表現」、「時間表現」、「期間表現」、「頻度表現」、「年齢表現」、「臨床特有表現」の少なくとも6種類の表現に分類され識別されることが好ましい。臨床テキストからの抽出対象として考慮すべき時間表現として、日付、時間、期間、頻度、年齢、臨床特有の少なくとも6種類の表現に分類され識別されることにより、より正確な分類が可能となる。なお、上記の6種類に加えて、何れの種類にも適さない場合を配慮し、「何れにも非該当」の1種類を加えて7種類としてもよい。日付、時間、期間、頻度、年齢、臨床特有の6種類の時間表現タイプと上述の5種類の時間関係(同時関係、事前関係、事後関係、開始関係、終了関係)によって、30種類(6×5)のタイプに識別して、臨床医学的事実を発生日や実施日だけでなく始端・終端がないこともある「期間」としても時系列表示に落とし込むことを可能にする。
ここで、頻度とは、「3日おき」などの日付の集合や実施回数などであり、臨床特有とは、「入院前」「治療後」や「3クール目」などの臨床における特有な表現をいう。
【0016】
本発明の臨床テキスト情報時系列データ作製方法において、時間表現には、臨床テキストの作成日時が含まれ、臨床テキストのメタデータとして情報付与されてもよい。
時間表現として、臨床テキストの作成日時(Document
Creation Time;DCT)が含まれることにより、より正確な時系列データの作製が可能となる。なお、DCTは、テキスト中に明示的に出現せず、臨床テキストのメタデータとして情報付与される。
【0017】
本発明の臨床テキスト情報時系列データ作製方法において、臨床医学表現のタグ付けの種類は、更に、部位表現、変化表現、特徴表現の少なくとも何れかが加わることが好ましい。
臨床医学表現のタグ付けの種類として、部位表現や、変化表現、特徴表現などが加えられることにより、より精度の高い時系列データの作製が可能になる。
部位表現とは、疾病・病変の発生部位を表す表現で、病名では特定できない体の部位を示す表現である。
変化表現とは、病変や検査値・薬品値、治療に関わる変化を表す表現であり、例えば、「腫瘤の『増大』」や「2.5mgに『減量』」などの表現である。また、特徴表現とは、病変や症状、部位の尺度・値・範囲・程度などに関する修飾的な表現であり、例えば、「少量」とか「2.5cm×5cm」などの表現である。
【0018】
本発明の臨床テキスト情報時系列可視化表示方法は、上記の何れかに記載の臨床テキスト情報時系列データ作製方法を用いて作製された臨床テキストにおける臨床医学表現の時系列データの表示方法であって、時間表現に従って時間表示軸を表示し、臨床医学表現を時間関係に従ってタグ種別毎に時間表示軸に対応させて表示する。
これにより、臨床医学特有の時間表現を踏まえた直感的な時系列表示が可能となる。なお、時間軸は、2次元表示における横軸、縦軸の何れでもよく、また、例えば3次元的表示における1軸に割り当ててもよい。
【0019】
本発明の臨床テキスト情報時系列データ作製装置は、臨床現場で作成される臨床テキストに含まれる、病名、検査名、薬品名、処置名、及び臨床段階表現の少なくとも1つの臨床医学表現と時間表現とを抽出しタグ付けされた臨床テキストのアノテーションファイルを入力する入力手段と、入力したアノテーションファイルに対して、時間表現と臨床医学表現との時間的情報を表す時間関係を識別する時間関係識別手段と、臨床医学表現を時間表現に沿って時系列データ化する時系列データ化手段、を備える。
【0020】
本発明の臨床テキスト情報時系列データ作製装置は、臨床テキストを入力し、臨床テキストに含まれる、病名、検査名、薬品名、処置名、及び臨床段階表現の少なくとも1つの臨床医学表現と時間表現を、学習済み言語処理モデルを用いて、抽出しタグ付けする臨床テキスト情報抽出手段を更に備えたことが好ましい。
ここで、言語処理モデルは、既存の言語処理モデルに対して、臨床医学表現(病名、検査名、薬品名処置名、臨床段階表現)及び時間表現を精度よく識別できるように学習させたものを利用することができる。
【0021】
本発明の臨床テキスト情報時系列可視化表示装置は、上記の本発明の臨床テキスト情報時系列データ作製装置に直接又はネットワークを介して接続された表示端末であって、時間表現に従って時間表示軸を表示し、臨床医学表現を時間関係に従ってタグ種別毎に時間表示軸に対応させて表示する表示手段を備えることが好ましい。
【0022】
本発明の臨床テキスト情報時系列可視化システムは、臨床現場で作成される臨床テキストを入力し、臨床テキストに含まれる、病名、検査名、薬品名、処置名、及び臨床段階表現の少なくとも1つの臨床医学表現と時間表現を、学習済み言語処理モデルを用いて、抽出しタグ付けし、タグ付けされた臨床テキストのアノテーションファイルを出力する医療エンティティアノテーション用第1サーバと、第1サーバから臨床テキストのアノテーションファイルを入力し、アノテーションファイルに対して、時間表現と臨床医学表現との時間的情報を表す時間関係を識別し、臨床医学表現を時間表現に沿って時系列データ化し、時系列データ化された時系列データを出力する医療エンティティ間関係アノテーション用第2サーバと、第1サーバに対して臨床テキストを出力し、第2サーバから時系列データを入力し、時間表現に従って時間表示軸を表示し、臨床医学表現を時間関係に従ってタグ種別毎に時間表示軸に対応させて表示するクライアント端末、がネットワーク接続される。
かかる構成とされることにより、臨床テキストを出力したクライアント端末に、時系列データを入力して可視化表示することが可能となる。
【0023】
本発明の臨床テキスト情報時系列可視化システムは、第1サーバと第2サーバが一体化されたものでもよい。
第1サーバと第2サーバが一体化される構成とすることにより、医療エンティティアノテーション用第1サーバと、医療エンティティ間関係アノテーション用第2サーバとが統合されたよりシンプルな構成のシステムとすることができる。
【発明の効果】
【0024】
本発明の臨床テキスト情報時系列データ作製方法及び装置によれば、多様な臨床医学テキストから高性能な言語処理で情報抽出し、臨床医学特有の時間表現を踏まえた直感的な時系列表示を行うことができるといった効果がある。これにより、本発明は、先行技術がいずれも到達していない実現性・実用性を言語処理と時系列表示について同時に達成できる。
【図面の簡単な説明】
【0025】
【
図1】臨床テキスト情報時系列データ作製方法及び臨床テキスト情報時系列可視化表示方法の概要図
【
図2】臨床テキスト情報時系列データ作製方法の説明図(1)
【
図3】臨床テキスト情報時系列データ作製方法の説明図(2)
【
図4】実施例1の臨床テキスト情報時系列データ作製装置及び臨床テキスト情報時系列可視化表示装置の機能ブロック図
【
図5】実施例1の臨床テキスト情報時系列可視化システムの構成図
【
図6】実施例1の臨床テキスト情報時系列可視化システムのデータフロー図
【
図7】診療記録を用いた実験例におけるタグ付けイメージ図(1)
【
図8】診療記録を用いた実験例におけるタグ付けイメージ図(2)
【
図9】診療記録を用いた実験例におけるタグ付けイメージ図(3)
【
図10】診療記録を用いた実験例におけるタグ付けイメージ図(4)
【
図11】診療記録を用いた実験例におけるタグ付けイメージ図(5)
【
図12】診療記録を用いた実験例における時系列可視化イメージ図
【
図13】読影所見を用いた実験例におけるタグ付けイメージ図(1)
【
図14】読影所見を用いた実験例におけるタグ付けイメージ図(2)
【
図15】読影所見を用いた実験例における時系列可視化イメージ図
【
図16】実施例2の臨床テキスト情報時系列データ作製装置の機能ブロック図
【
図17】実施例3の臨床テキスト情報時系列データ作製装置の機能ブロック図
【
図18】実施例4の臨床テキスト情報時系列データ作製装置及び臨床テキスト情報時系列可視化表示装置の機能ブロック図
【
図19】実施例5の臨床テキスト情報時系列可視化システムの構成図
【
図20】実施例5の臨床テキスト情報時系列可視化システムのデータフロー図
【発明を実施するための形態】
【0026】
以下、本発明の実施形態の一例を、図面を参照しながら詳細に説明していく。なお、本発明の範囲は、以下の実施例や図示例に限定されるものではなく、幾多の変更及び変形が可能である。
【0027】
図1は、本発明の臨床テキスト情報時系列データ作製方法及び臨床テキスト情報時系列可視化表示方法の概要図であり、(1)は電子カルテや読影レポートなどの臨床テキスト、(2)は臨床テキストから臨床医学表現(以下、医療エンティティともいう。)を抽出しタグ付け(分類・識別)した後のイメージ、(3)はタグ付けした医療エンティティの間に成立する関係を付与した後のイメージ、(4)は臨床テキスト情報を時系列に可視化(表示)したイメージを示している。
本発明の臨床テキスト情報時系列データ作製方法は、
図1(1)及び(2)に示すように、臨床テキスト11から臨床医学表現を抽出しタグ付けしてアノテーションファイル12とし、
図1(3)に示すように、時間関係を識別して、タグ同士の関係付け13を行い、臨床医学表現を時系列化とする。このように、臨床テキストに含まれる情報を時系列データ化することにより、
図1(4)に示す時系列表示10のように臨床テキスト情報の時系列を可視化する。
【0028】
図2は、本発明の臨床テキスト情報時系列データ作製方法の説明図を示している。
図2に示すように、本発明の臨床テキスト情報時系列データ作製方法は、臨床現場で作成される臨床テキストに含まれる、病名、検査名、薬品名、処置名、及び臨床段階表現の少なくとも1つの臨床医学表現と時間表現とを抽出してタグ付けし、時間表現と臨床医学表現との時間的情報を表す時間関係を識別し、臨床医学表現を時間表現に沿って時系列データ化する。
【0029】
臨床テキストに含まれる時間表現は、「日付」、「時間」、「期間」、「頻度」、「年齢」、「臨床特有」の6種類、又は、さらに「何れにも非該当」の1種類を加えて7種類に分類される。
1)日付:日歴に焦点をあてた日付表現
2)時間:一日のうちのある時点に焦点をあてた表現や不定の現在を表す「今」、「現在」などの時刻表現
3)期間:時間軸上の両端ではなく期間全体を表すことに焦点をあてた期間表現
4)頻度:複数の日付・時刻・期間に焦点をあてた頻度集合表現
5)年齢:年齢に関する表現
6)臨床特有:「術後」など医療に特徴的な時間表現
7)何れにも非該当:上記1)~6)のどれにも該当しない場合
【0030】
時間表現のタグは、「前」や「後」だけにタグを付与することはせず、「検査前」、「術後」、「切除後」、「3ヶ月後」、「5年前」のように複合語単位で付与する。また、「10月1日から」、「11月11日より」、「12月31日まで」などの「から」、「より」、「まで」といった助詞には時間表現タグは付与しない。ただし、これらの助詞は、後述する時間関係の分類に利用する。
【0031】
時間表現と臨床医学表現との時間関係の識別は、臨床テキスト中の臨床医学表現と時間表現の間の時間的関係(時間関係)を識別し分類することである。以下、時間関係の説明において、ある臨床医学表現(E1)から時間表現(E2)への同時関係を「TA(E1,E2)」のように示す。
【0032】
本発明において、時間関係は、臨床医学表現と時間表現の間の関係のうち、ある事態(臨床医学表現)がいつ起きたのか、ある状態(臨床医学表現)がいつ存在したのか、といった時間的な情報を表す関係を言い、臨床医学表現が、下記1)~5)の5種類に分類され識別される。
1)同時関係:臨床医学表現が、時間表現に発生もしくは存在する。
2)事前関係:臨床医学表現が、時間表現より前に発生もしくは存在し、かつ、時間表現には存在しない。
3)事後関係:臨床医学表現が、時間表現より後で発生もしくは存在し、かつ、時間表現には存在しない。
4)開始関係:臨床医学表現が、時間表現に発生もしくは存在し、かつ、時間表現より後まで存在する。
5)終了関係:臨床医学表現が、時間表現より前から発生もしくは存在し、かつ、時間表現まで存在する。
【0033】
ここで、時間表現は、臨床テキスト中のテキストに時間表現タグが付与されたものをいうが、それだけでなく、概念としての文書作成日時(DCT)が含まれる。一般に、DCTはテキスト中に明示的に出現せず、テキストのメタデータとして与えられる。
以下、例文を示しながら、5種類の時間関係について説明する。
【0034】
(同時関係について)
時間関係TA(E1,E2)は、臨床医学表現E1が時間表現E2に相当する時間で起こったことを表す時間関係である。臨床医学表現E1の開始・終了時点が厳密に時間表現E2と一致している必要はない。正確な開始・終了時点が不明だが「凡そ時間表現E2ごろ」である場合、臨床医学表現E1が時間表現E2に相当する時間に包含されていると解釈できる場合も含め、同時関係とする。但し、臨床医学表現E1と時間表現E2の開始・終了時点に関して、下記1)~4)のケースのように、時間的な前後関係が臨床テキスト中に明示されている場合には、該当する時間関係(事前関係、事後関係、開始関係、終了関係)を同時関係よりも優先する。
1)臨床医学表現E1の終了時点が時間表現E2より前である場合には、事前関係を優先する。
2)臨床医学表現E1の開始時点が時間表現E2より後である場合には、事後関係を優先する。
3)臨床医学表現E1の開始時点が時間表現E2である場合には、開始関係を優先する。
4)臨床医学表現E1の終了時点が時間表現E2である場合には、終了関係を優先する。
【0035】
【0036】
上記例文No.1では、検査A(=検査名)が、〇年〇月〇日(=時間表現:日付)に実施されており、検査Aと日付との間には同時関係が付与される。上記例文No.2では、〇年〇月〇日(=時間表現:日付)に、症状B(=病名)と診断(=処置)され、そのまま入院(=臨床表現)しており、診断・入院と日付との間には同時関係が付与される。上記例文No.3では、症状Cの経過が記されているが、テキスト中に時間表現はない。この場合には、文書作成日時(DCT:日付・時刻)が時間表現として採用でき、文書作成日時に経過観察(=処置)されたことになる。上記例文No.4では、薬剤D(=薬品名)が2週間(=時間表現:期間)、処方(=処置)されており、薬剤Dと期間との間には同時関係が付与される。上記例文No.5では、前回レントゲン(〇年〇月〇日)の記載から、レントゲン(=検査名)が〇年〇月〇日(=時間表現:日付)に実施されており、検査名と日付との間には同時関係が付与される。
【0037】
上記例文No.2のように、同時関係は多くの事例に適用され、時間的な前後関係や期間が必ずしも明確でない場合がある。上記例文No.2では、「症状B」は、「〇年〇月〇日」より前から存在していた可能性もあり、また、その後も完治せずに継続している可能性がある。このように、開始・終了時点は定かでなく、「〇年〇月〇日」に存在していたことのみが臨床テキストから明らかである場合も、同時関係が付与される。また、例文No.4のように、「薬剤D」の使用は「2週間」の間に複数回発生しているケースもあり得る。すなわち、同時関係によって、臨床医学表現E1は時間軸上の時間表現E2に位置づけられるが、実際には単一の出来事であるとは限られない。
【0038】
(事前関係について)
事前関係は、臨床医学表現E1が時間軸上において時間表現E2より前の出来事である場合、すなわち、臨床医学表現E1の終了時点が時間表現E2の開始時点より前である場合に付与される。
下記例文No.6では、〇年〇月〇日に入院は、上述の同時関係であるが、通院(=臨床表現)していたのは、〇年〇月〇日より前の出来事であり、臨床表現と日付との間には事前関係が付与される。また、下記例文No.7では、症状Aが改善(=症状)したのは、〇月〇日(=日付)よりから前の出来事であり、症状と日付との間には事前関係が付与される。
【0039】
【0040】
(事後関係について)
事後関係は、臨床医学表現E1が時間軸上において時間表現E2より後の出来事である場合、すなわち、臨床医学表現E1の開始時点が時間表現E2の終了時点より後である場合に付与される。
下記例文No.8では、〇年〇月〇日より発熱(=症状1)が続き、正常(=症状2)に戻ったのは〇年〇月〇日より後の出来事であり、症状2と日付との間には事後関係が付与される。なお、症状1と日付との間には後述する開始関係が付与される。
【0041】
【0042】
(開始関係について)
開始関係は、臨床医学表現E1が時間軸上において時間表現E2に始まった出来事である場合、すなわち、臨床医学表現E1の開始時点が時間表現E2である場合に付与される。特に、「開始」や「~から」といった表現が手がかりになる。
下記例文No.9では、〇年〇月〇日から薬品Cの投薬を開始していることから、薬品C(=薬品名)を投与されたのは〇年〇月〇日に始まった出来事であり、薬品Cと日付との間には開始関係が付与される。なお、上記例文No.8において、発熱(症状1)は、日付から始まった出来事であり、上述のとおり、発熱と日付との間には開始関係が付与される。
【0043】
【0044】
(終了関係について)
終了関係は、臨床医学表現E1が時間軸上において時間表現E2に終了した出来事である場合、すなわち、臨床医学表現E1の終了時点が時間表現E2である場合に付与される。特に、「終了」や「~までに」といった表現が手がかりになる。
下記例文No.10では、〇月〇日(=日付)に検査Dをし(検査Dと日付との間は同時関係である)、その結果、在宅酸素療法(=治療)が不要となり終了であることから、在宅酸素療法(=治療)は〇月〇日に終了した出来事であり、在宅酸素療法と日付との間には終了関係が付与される。下記例文No.11では、〇月〇日(=日付)、この2週間(=期間)、足の親指の付け根が腫れている(=症状)のであることから、〇月〇日から遡る2週間、症状があることから、症状と日付との間には終了関係が付与される。下記例文No.12では、この2か月(=期間)、MRI画像において陰影の変化無し(=症状)であり、特に日付は明記されていないが、DCTから日付が判明し、日付から遡る2か月、変化無しであることから、症状と日付との間には終了関係が付与される。
【0045】
【0046】
時間表現は、単独で時間軸上のある時点に一意に対応する絶対的な時間表現と、そうでない相対的な時間表現がある。絶対的な時間表現は「令和3年10月1日」といった具体的な日付である。DCTも絶対的な時間表現である。一方、相対的な時間表現は「前回」や「術後」と言った、それ自体では正確な日時を決められない表現である。相対的な時間表現については、単独では時間軸上の位置が決まらないため、時間関係を付与し、絶対的な時間表現と関係づける必要がある。適切な絶対表現が存在しない場合には、相対的な時間表現同士の時間関係を可能なかぎり付与し、時間的な前後関係が部分的に表現できる場合もある。
相対的な時間表現のうち、臨床特有のものとしては、「術後」、「処置後」、「切除後」等の表現がある。例えば、「術後」の場合、字義通りには手術終了以降の期間を指すが、ここでは「手術の後の一定期間」と解釈する。言い換えると、手術終了から現在に至るまでの長い期間とはせず、手術が影響を及ぼした限定的な期間を指しているものとする。その上で、時間関係を付与する際には、「術後」の影響が続いている期間内であるかどうかを文脈で判断し、それによって付与する時間関係(同時関係、事前関係、事後関係、開始関係、終了関係)の何れかを選択する。
【0047】
検査名、処置(診断、治療など)といった医療エンティティには、前述の状態属性が付与される。状態属性の値は、その周囲の文脈における特定の時点を基準としたときの状態を表したものであり、時間に相対的に決定される。そのため、同じ文中であっても、ある時点では「予定」の状態である検査が、それより後のある時点では「実施」の状態である可能性がある。
状態属性をもつ医療エンティティ間の時間関係アノテーションでは、状態属性の値を踏まえた上で、実際の時間軸上での順序関係と整合するように時間関係の種類を決定する必要がある。
下記表6~8は、臨床医学表現の一例として、検査、処置、薬品に関して、状態属性の3種類(予定、実施、不実施)と、5種類の時間関係の組み合わせに対し、時間的解釈を示す。
【0048】
【0049】
【0050】
【0051】
図3は、臨床テキスト情報時系列データ作製方法の説明図を示している。
図3における時系列表示10aは時系列表示10の一例を示すものである。上述のように臨床医学表現と時間表現とを抽出してタグ付けし、時間表現と臨床医学表現との時間的情報を表す時間関係を識別し、臨床医学表現を時間表現に沿って時系列データ化することにより、時間軸上のある時点に一意に対応する絶対的時間表現(「9月17日」、「10月3日」)と、そうでない相対的時間表現(「以後」、「その後」)を、時系列表示10aのように時系列化し、時間表現の時系列(時間軸)に対応させて、臨床医学表現の模式図を表示する。
【実施例0052】
(臨床テキスト情報時系列データ作製装置及び臨床テキスト情報時系列可視化表示装置)
図4は、実施例1の臨床テキスト情報時系列データ作製装置及び臨床テキスト情報時系列可視化表示装置の機能ブロック図を示している。
図4に示すように、実施例1の臨床テキスト情報時系列データ作製装置1は、臨床テキスト情報抽出手段5、入力手段2、時間関係識別手段3及び時系列データ化手段4を備える。
臨床テキスト情報抽出手段5は、臨床現場で作成される臨床テキストを入力し、臨床テキストに含まれる、病名、検査名、薬品名、処置名、及び臨床段階表現の少なくとも1つの臨床医学表現と時間表現を、学習済み言語処理モデルを用いて、抽出しタグ付けするものである。
入力手段2は、臨床医学表現と時間表現のタグ付けが行われた臨床テキストのアノテーションファイルを入力するものである。したがって、実施例1の臨床テキスト情報時系列データ作製装置では、臨床テキスト情報抽出手段5を用いて、臨床現場で作成される臨床テキストを入力して時系列データ14化を行うこともできるし、入力手段2を用いて、アノテーションファイルを入力して時系列データ14化を行うこともできる構成である。
時間関係識別手段3は、臨床テキスト情報抽出手段5により抽出及びタグ付けされたアノテーションファイル、又は、入力したアノテーションファイルに対して、時間表現と臨床医学表現との時間関係を識別する。
時系列データ化手段4は、臨床医学表現を時間表現に沿って時系列データ14化するものである。
【0053】
また、実施例1では、更に臨床テキスト情報時系列可視化表示装置60を備える。臨床テキスト情報時系列可視化表示装置60は、表示手段6を備える。表示手段6は、臨床テキスト情報時系列データ作製装置1に、直接又はネットワークを介して接続された表示端末であって、臨床テキスト情報時系列データ作製装置1により生成された時系列データ14につき、時間表現に従って時間表示軸を表示し、臨床医学表現を時間関係に従ってタグ種別毎に時間表示軸に対応させて表示するものである。
時系列表示では、臨床テキストに記載された時間点(絶対的時間表現に加えて、相対的時間表現を含む)を時系列順に横軸に並べ、抽出された臨床医学表現の種類を縦軸に並べる。そして各種類の臨床医学表現を横軸の対応する期間に配置することで、臨床テキスト中の臨床医学的事実の時系列表示を行う。
【0054】
(臨床テキスト情報時系列可視化システム)
図5は、実施例1の臨床テキスト情報時系列可視化システムの構成図を示している。
図5に示すように、臨床テキスト情報時系列可視化システム101は、サーバ7及びクライアント端末8が、ネットワーク9に接続され、データの送受信が可能となったものである。
サーバ7は、臨床現場で作成される臨床テキストを入力し、臨床テキストに含まれる、病名、検査名、薬品名、処置名、及び臨床段階表現の少なくとも1つの臨床医学表現と時間表現を、学習済み言語処理モデルを用いて、抽出しタグ付けして、タグ付けされた臨床テキストのアノテーションファイルとし、アノテーションファイルに対して、時間表現と臨床医学表現との時間的情報を表す時間関係を識別し、臨床医学表現を時間表現に沿って時系列データ化し、時系列データ化された時系列データを出力する。
クライアント端末8は、サーバ7に対して臨床テキストを出力し、サーバ7から時系列データを入力し、時間表現に従って時間表示軸を表示し、臨床医学表現を時間関係に従ってタグ種別毎に時間表示軸に対応させて表示する。
すなわち、臨床テキスト情報時系列可視化システム101は、後述する実施例5の臨床テキスト情報時系列可視化システム102とは異なり、医療エンティティアノテーション用の第1サーバと医療エンティティ間関係アノテーション用第2サーバが一体化された構成となっている。これにより、シンプルな構成のシステムとすることができる。
なお、クライアント端末8としては、ここではノートPCを図示しているが、デスクトップPCなどのその他のPCや、タブレット端末やスマートフォンなど、幅広い端末を利用可能である。
【0055】
図6は、実施例1の臨床テキスト情報時系列可視化システムのデータフロー図を示している。
図6に示すように、クライアント端末8は、サーバ7に対して臨床テキストを出力する(ステップS01)。当該臨床テキストは、サーバ7に入力される(ステップS02)。
サーバ7において、臨床医学表現及び時間表現が抽出され(ステップS03)、タグ付けされ、タグ付けされた臨床テキストのアノテーションファイルが生成される(ステップS04)。サーバ7は、タグ付けされた臨床テキストのアノテーションファイルに対して、時間表現と臨床医学表現との時間的情報を表す時間関係を識別する(ステップS05)。サーバ7は、臨床医学表現を時間表現に沿って時系列データ化し(ステップS06)、時系列データ化された時系列データを出力する(ステップS07)。
クライアント端末8は、サーバ7から時系列データを入力し(ステップS08)、時系列表示を行う(ステップS09)。
【0056】
実施例1では、電子カルテの自由記述部分に相当する診療記録テキスト、又は読影所見に、本発明の臨床テキスト情報時系列データ作製方法及び可視化表示方法を用いた例について説明する。何れの実験においても、事前学習済みの機械学習言語モデルのBERT(Bidirectional Encoder Representations from Transformers)を用いて、入力された臨床テキストから、病名・薬品名・検査名・処置名・臨床段階表現を含む臨床医学表現と、時間表現とを識別しタグ付けし、タグ付けした臨床医学表現と時間表現との間の時間関係(5種類)を識別し、時系列データ化して時系列表示を行った。BERTは、2018年にGoogle社のJacob Devlinらの論文で発表された自然言語処理モデルであり、AI(人工知能)技術を用いて、ヒトの言語(自然言語)で使用される単語を高次元のベクトルに置き換える分散表現にして処理する。下記表9は、機械学習言語モデルBERTの学習パラメータを表している。
【0057】
【0058】
(診療記録を用いた実験例)
図7~11は、診療記録を用いた実験例におけるタグ付けイメージ図であり、それぞれ(1)は臨床テキスト、(2)はタグ付けされたテキストファイルを示している。なお、
図7~11は、全体として1つの臨床テキストであるが、説明の便宜上分割して表示したものである。
図7~11の(1)に示すように、臨床テキストはフリーテキストで記載されている。そして、
図7(2)に示すように、タグ付けされたテキストファイルでは、「今回」との記載に時間表現(日付)のタグが付されている。また、「進行胃癌」や「S-1+CDDP療法」との記載にもそれぞれ臨床医学表現に関するタグが付されている。
図8(2)に示すタグ付けされたテキストファイルでは、「39歳」との記載に時間表現(年齢)のタグが付されている。また、「2008年2月」、「8月」及び「9月」との記載には、時間表現(日付)のタグが付されている。また、「健診」や「異常所見」等の記載にもそれぞれ臨床医学表現に関するタグが付されている。
【0059】
ここで、「2008年2月」(日付)の時間表現と、「健診」(検査)及び「異常所見」(病気)の臨床医学表現との時間関係は、「同時関係」と識別される。
「8月」(日付)の時間表現と、「腹囲」(検査)の臨床医学表現との時間関係は、「同時関係」と識別される。「8月」(日付)の時間表現と、「腹満感」(病気)及び「食思不振」(病気)の臨床医学表現との時間関係は、「8月より」から「開始関係」と識別される。
「9月」(日付)の時間表現と、「嘔気」(病気)の臨床医学表現との時間関係は、「開始関係」と識別される。「9月」(日付)の時間表現と、「近医受診」(臨床特有)の臨床医学表現との時間関係は、「同時関係」と識別される。
【0060】
図9(2)に示すタグ付けされたテキストファイルでは、「同年9月17日」、「以後」及び「10月3日」との記載に、時間表現(日付)のタグが付されている。「2週間」との記載には、時間表現(期間)のタグが付され、「治療開始当初」との記載には、時間表現(臨床特有)のタグが付されている。また、「S-1」や「80mg/m
2」等の記載にもそれぞれ臨床医学表現に関するタグが付されている。
【0061】
ここで、「同年9月17日」(日付)の時間表現と、「5-HT3容体拮抗薬」(投薬)の臨床医学表現との時間関係は、「同時関係」と識別され、「S-1」(投薬)、(1行目の)「CDDP」(投薬)及び(3行目の)「CDDP」(投薬)の臨床医学表現との時間関係は、「開始関係」と識別される。
「以後」(日付)の時間表現と、「インジセトロン」(投薬)の臨床医学表現との時間関係は、「開始関係」と識別され、「服薬指導」(臨床)の臨床医学表現との時間関係は、「同時関係」と識別される。
「10月3日」(日付)の時間表現と、「中心静脈栄養法(以下TPN)」(処置)の臨床医学表現との時間関係は、「開始関係」と識別される。
【0062】
図10(2)に示すタグ付けされたテキストファイルでは、「その後」との記載に、時間表現(日付)のタグが付され、「6クール目終了後」との記載には、時間表現(臨床特有)のタグが付されている。また、「経口栄養剤」や「TPN」等の記載にもそれぞれ臨床医学表現に関するタグが付されている。
【0063】
ここで、
図9(2)に示す「10月3日」(日付)の時間表現と、
図10(2)に示す「経口栄養剤」(投薬)、「栄養剤」(投薬)及び「TPN」(処置)の臨床医学表現との時間関係は、「開始関係」と識別される。
「その後」(日付)の時間表現と、「栄養剤」(投薬)及び「主病変」(病気)の臨床医学表現との時間関係は、「同時関係」と識別される。
「6クール目終了後」(臨床特有)の時間表現と、「発熱、骨髄抑制」(病気)の臨床医学表現との時間関係は、「同時関係」と識別され、「化学療法」(臨床)の臨床医学表現との時間関係は、「開始関係」と識別される。
【0064】
図11(2)に示すタグ付けされたテキストファイルでは、「今回」との記載に、時間表現(日付)のタグが付されている。また、「S-1+CDDP療法」や「服薬指導」等の記載にもそれぞれ臨床医学表現に関するタグが付されている。
【0065】
図12は、診療記録を用いた実験例における時系列可視化イメージ図であり、時系列データをディスプレイ(図示せず)上に可視化して表示したイメージを示している。図中の「+」はポジティブ(病気の陽性所見)、「-」はネガティブ(病気の陰性所見)を表し、チェック表示は検査や投薬が実施されたことを表している。
図12に示すように、「検査」、「処置」、「病気」及び「臨床」といった項目に分類され、臨床医学表現が整理され分かり易く表示される。上部には「2008年2月」、「8月」といった時間表現が時系列に従って左方から右方へと順に表示されている。
例えば、
図8(1)に示す臨床テキストでは、「2008年2月の健診では異常所見はなかった。」とフリーテキストで記載されているのみであったが、
図12では、「2008年2月」に検査として「健診」が行われ、「病気」として「異常所見」が「なかった(-)」ことが一目で分かる表示となっている。
【0066】
「以後」や「その後」といった時間表現について、フリーテキストである臨床テキストから時間関係を把握するためには当該臨床テキストを詳細に読み込む必要があるが、
図12では、
図9(1)に示す「以後」との記載が「同年9月17日」より後であり、かつ「10月3日」より前であることが容易に分かり、「服薬指導」がどのタイミングで行われたのかといった内容を一目で確認できる。また、「8月」や「9月」といった時間表現も、それだけでは何年の「8月」であるのか、「9月」であるのかといったことは不明であるが、本発明の臨床テキスト情報時系列データ作製方法及び可視化表示方法を用いることにより、他の時間表現との時間関係を正確に時系列データとし、可視化することが可能である。
なお、
図12に示すような各時間表現同士の間隔は、実際の時間間隔に合わせて調整してもよいし、また臨床医学表現の記載の量などに合わせて調整してもよい。
【0067】
下記表10は、診療記録又は読影所見を用いた場合の本発明の臨床テキスト情報時系列データ作製方法の性能値を示している。表現認識は、病名、検査名、薬品名、処置名、臨床段階表現、部位表現、変化表現、特徴表現及び保留の臨床医学表現9種と、時間表現(日付、時間、期間、頻度、年齢、臨床特有、及び何れにも非該当の7種全てを対象)の計10種の認識率の平均値である。時間関係認識は、同時関係、事前関係、事後関係、開始関係、終了関係の計5種類各々の認識率及びそれらの平均値を、それぞれ表している。
下記表10に示されるように、診療記録を用いた場合では、本発明の臨床テキスト情報時系列データ作製方法を用いることにより、臨床医学表現認識で10分類の臨床医学表現のF1値を平均して0.86以上、主要な時間関係である同時関係の認識でF1値0.7程度以上を達成し、多様な臨床テキストで実用に耐え得ることが判った。
したがって、本発明の臨床テキスト情報時系列データ作製方法及び可視化表示方法を用いることにより、正確かつ迅速な診断や治療が可能である。
【0068】
【0069】
(読影所見を用いた実験例)
次に、読影所見テキストに本発明の臨床テキスト情報時系列データ作製方法及び可視化表示方法を用いた例について説明する。
図13及び14は、読影所見を用いた実験例におけるタグ付けイメージ図であり、それぞれ(1)は臨床テキスト、(2)はタグ付けされたテキストファイルを示している。なお、
図13及び14は、全体として1つの臨床テキストであるが、説明の便宜上分割して表示したものである。
図13(1)及び
図14(1)に示すように、本実験例においても、臨床テキストはフリーテキストで記載されている。そして、
図13(2)に示すタグ付けされたテキストファイルでは、「1年前」、(3行目の)「前回」及び(4行目の)「前回」との記載には、時間表現(日付)のタグが付されている。また、「CT」や「左肺上区S1+2」等の記載にもそれぞれ臨床医学表現に関するタグが付されている。これに対して、
図14(2)に示すタグ付けされたテキストファイルでは、時間表現のタグは付されていないが、「右部気管傍など縦隔」や「小リンパ節」等の記載に、それぞれ臨床医学表現に関するタグが付されている。
【0070】
ここで、
図13(2)に示す「1年前」(日付)の時間表現と、「CT」(検査)の臨床医学表現との時間関係は、「1年前の」から「同時関係」と識別される。
DCT(文書作成日時)と、「partsolidGGN」(部位)、「すりガラス影」(部位)、「bulla」(部位)、「小結節」(部位)、「線状策状影」(部位)、「小リンパ節」(部位)、「腫大」(部位)及び「GGN」(部位)の臨床医学表現との時間関係は、「同時関係」と識別される。
また、DCT(文書作成日時)と、「上皮内腺癌(AIS)、微小浸潤腺癌(MIA)などの腫瘍性病変」(病気)、「陳旧性炎症性変化」(病気)、(
図13(2)8行目の)「食道裂孔ヘルニア」(病気)、「胸水」(病気)、「脾腫」(病気)、「AISやMIA」(病気)及び(
図14(2)6行目の)「食道裂孔ヘルニア」(病気)の臨床医学表現との時間関係は、「同時関係」と識別される。
【0071】
図15は、読影所見を用いた実験例における時系列可視化イメージ図であり、時系列データをディスプレイ上に可視化表示したイメージを示している。
図15に示すように、部位に関する項目(「左肺上区S1+2」、「両肺尖部」、「右肺上葉・中葉や左肺下葉」、「右部気管傍など縦隔」及び「左肺上区」)と、「検査」、「病気」の各項目に分類され、臨床医学表現が整理され分かり易く表示される。上部には「1年前」及び「DCT」(作成日時)との時間表現が時系列に従って表示されている。図中の「+」はポジティブ(病気の陽性所見)、「-」はネガティブ(病気の陰性所見)、「?」は疑いを表し、チェック表示は検査や投薬が実施されたことを表している。
例えば、
図13(1)に示す臨床テキストでは、「1年前のCTと比較しました。」とフリーテキストで記載されているのみであるが、
図15では、時系列表示の略中央に「DCT」(作成日時)が表示され、左方に「1年前」と表示され、更に、「検査」の項目であり、かつ「1年前」との表示の下方の位置に「CT」と表示され、1年前のCTと比較していることが一目で分かる表示となっている。
【0072】
また、「DCT」(文書作成日時)における各所見についても、例えば、「右肺上葉・中葉や左肺下葉」の部位に「小結節」を認め、更に「右肺上葉・中葉や左肺下葉」の部位の「左側」に「線状策状影」を認める所見であることが一目で確認できる。
更に、
図13(1)に示す臨床テキストで、「左肺上区S1+2に長径18mm大のpartsolidGGNは内部の充実部分は前回よりも減少しているもの」と記載されている箇所について、
図15に示すように、内部の充実部分が前回よりも減少していることを図示している。ここでは図示しないが、グラデーションなどの表示手法を利用して、当該所見が次第に減少していることを可視化してもよい。
【0073】
上記表10に示されるように、読影所見を用いた場合では、本発明の臨床テキスト情報時系列データ作製方法を用いることにより、読影所見テキストからの臨床医学表現及び時間関係の認識性能がF1値で平均0.9を超えることが判った。