(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024075224
(43)【公開日】2024-06-03
(54)【発明の名称】言語処理装置、言語処理方法、およびプログラム
(51)【国際特許分類】
G16H 10/60 20180101AFI20240527BHJP
【FI】
G16H10/60
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022186502
(22)【出願日】2022-11-22
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(71)【出願人】
【識別番号】504143441
【氏名又は名称】国立大学法人 奈良先端科学技術大学院大学
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】宇野 裕
(72)【発明者】
【氏名】安藤 晶
(72)【発明者】
【氏名】矢田 竣太郎
(72)【発明者】
【氏名】若宮 翔子
(72)【発明者】
【氏名】荒牧 英治
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA23
(57)【要約】 (修正有)
【課題】言語処理の結果に対する説明責任を果たすことを支援する言語処理装置、言語処理方法およびプログラムを提供する。
【解決手段】言語処理装置1は、ベクトル化されたテキスト情報からの固有表現、看護に関する固有表現、医療に関する固有表現を抽出する固有表現抽出部2と、患者情報テーブル、固有表現および言語処理に関連するイベントにかかる固有表現を選択し、選択した固有表現に基づいて医療に関する言語処理を行う言語処理部3と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
テキスト情報から、医療に関する固有表現を抽出する固有表現抽出部と、
前記固有表現に基づいて医療に関する言語処理を行う言語処理部と
を備える言語処理装置。
【請求項2】
患者の情報が、構造化されたテーブルと前記テキスト情報とに分けて管理されており、
前記言語処理部は、前記テーブルおよび前記固有表現に基づいて前記言語処理を行う
請求項1に記載の言語処理装置。
【請求項3】
前記テキスト情報は、医療機関内で前記患者に発生したイベントを表す
請求項2に記載の言語処理装置。
【請求項4】
前記言語処理部は、前記言語処理に関連する前記イベントにかかる固有表現を選択し、選択した固有表現に基づいて前記言語処理を行う
請求項3に記載の言語処理装置。
【請求項5】
前記固有表現抽出部は、ベクトル化された前記テキスト情報から前記固有表現を抽出する
請求項1に記載の言語処理装置。
【請求項6】
前記固有表現抽出部は、看護に関する固有表現を抽出する
請求項1に記載の言語処理装置。
【請求項7】
前記言語処理部は、テンプレートを用いて医療文書を作成する
請求項1に記載の言語処理装置。
【請求項8】
コンピュータが、
テキスト情報から、医療に関する固有表現を抽出し、
前記固有表現に基づいて医療に関する言語処理を行う
言語処理方法。
【請求項9】
コンピュータに、
テキスト情報から、医療に関する固有表現を抽出する処理と、
前記固有表現に基づく医療に関する言語処理と
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は言語処理装置、言語処理方法、およびプログラムに関する。
【背景技術】
【0002】
医療文書の作成を支援する技術が提案されている。非特許文献1では、言語モデルを用いたテンプレート生成、自動補間、および誤字修正が試みられている。非特許文献2は、症状名を含む8種類の医療固有表現を抽出し、それらを用いてSOAP式カルテを生成する技術を開示している。非特許文献3は、エンティティの認識を介さないエンドツーエンドの方式により、臨床会話テキストからSOAP(Subjective Objective Assessment Plan)式カルテの下書きを生成する技術を開示している。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Liu, P. J.: Learning to Write Notes in Electronic Health Records, arXiv preprint arXiv:1808.02622 (2018)
【非特許文献2】Jeblee, S., Khan Khattak, F., Crampton, N.,Mamdani, M., and Rudzicz, F.: Extracting relevant information from physician-patient dialogues for automated clinical note taking, in Proceedings of the Tenth International Workshop on Health Text Mining and Information Analysis (LOUHI 2019), pp. 65-74, Hong Kong (2019), Association for Computational Linguistics
【非特許文献3】Enarvi, S., Amoia, M., Del-Agua Teba, M., Delaney,B., Diehl, F., Gallopyn, G., Hahn, S., Harris, K., McGrath, L., Pan, Y., Pinto, J., Rubini, L., Ruiz, M., Singh, G., Stemmer, F., Sun, W., Vozila, P., Lin, T., and Ramamurthy, R.: Generating Medical Reports from Patient-Doctor Conversations Using Sequence-to-Sequence Models,in Proceedings of the First Workshop on Natural Language Processing for Medical Conversations, pp. 22-30, Online (2020), Association for Computational Linguistics
【発明の概要】
【発明が解決しようとする課題】
【0004】
エンドツーエンドの言語処理を行う場合、結果の解釈性に乏しく、医療機関において求められる説明責任を果たすことが難しいという問題があった。
【0005】
本開示は上記課題を解決するためにされたものであって、言語処理の結果に対する説明責任を果たすことを支援する言語処理装置、言語処理方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示にかかる言語処理装置は、
テキスト情報から、医療に関する固有表現を抽出する固有表現抽出部と、
前記固有表現に基づいて医療に関する言語処理を行う言語処理部と
を備える。
【0007】
本開示にかかる言語処理方法は、
コンピュータが、
テキスト情報から、医療に関する固有表現を抽出し、
前記固有表現に基づいて医療に関する言語処理を行う。
【0008】
本開示にかかるプログラムは、
コンピュータに、
テキスト情報から、医療に関する固有表現を抽出する処理と、
前記固有表現に基づく医療に関する言語処理と
を実行させる。
【発明の効果】
【0009】
本開示によれば、言語処理の結果に対する説明責任を果たすことを支援する言語処理装置、言語処理方法、およびプログラムを提供できる。
【図面の簡単な説明】
【0010】
【
図1】実施形態1にかかる言語処理装置の構成を示すブロック図である。
【
図2】実施形態2にかかる言語処理装置の構成を示すブロック図である。
【
図3】実施形態2にかかるイベントデータを説明する図である。
【
図4】実施形態2で生成されるドキュメントを説明する図である。
【発明を実施するための形態】
【0011】
実施形態1
以下、図面を参照して本実施の形態について説明する。
図1は、実施形態1にかかる言語処理装置1の構成を説明する図である。言語処理装置1は、固有表現抽出部2および言語処理部3を備えている。
【0012】
固有表現抽出部2は、テキスト情報から、医療に関する固有表現を抽出する。
【0013】
言語処理部3は、固有表現に基づいて医療に関する言語処理を行う。
【0014】
言語処理装置1は、テキスト情報から固有表現を抽出し、固有表現に基づいて言語処理を行う。固有表現は人間に解釈可能な情報であるため、言語処理の結果に対する説明責任を果たすことを支援できる。
【0015】
なお、言語処理装置1は、図示しない構成としてプロセッサ、メモリ、および記憶装置を備えるものである。また、当該記憶装置には、本実施形態にかかる言語処理方法の処理が実装されたコンピュータプログラムが記憶されている。そして、当該プロセッサは、記憶装置からコンピュータプログラムを前記メモリへ読み込ませ、当該コンピュータプログラムを実行する。これにより、前記プロセッサは、固有表現抽出部2および言語処理部3の機能を実現する。
【0016】
または、固有表現抽出部2および言語処理部3は、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry)、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。また、プロセッサとして、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)等を用いることができる。
【0017】
実施形態2
図2は、実施形態2にかかる医療言語処理装置10の構成を示すブロック図である。医療言語処理装置10は、実施形態1にかかる言語処理装置1の具体例である。
【0018】
医療言語処理装置10は、電子カルテ記憶部11、医療固有表現抽出器12、イベントデータ記憶部13、および医療言語処理部14を備えている。
【0019】
電子カルテ記憶部11は、患者の診療記録を記憶する。診療記録は、医師が記入するものに限定されず、検査記録や看護記録等も含む広義の診療情報を表している。
【0020】
全ての情報をテーブルで管理すると空欄の数が膨大になってしまうため、診療記録は、構造化済みテーブル111とテキスト情報112とに分けて管理される。構造化済みテーブル111は、単にテーブルとも言われる。
【0021】
構造化済みテーブル111は、患者の属性(例:年齢、身長、体重、性別)などテーブルで管理するのに適した情報をテーブル形式で記憶されている。構造化済みテーブル111は、複数のテーブルを含んでよい。例えば、構造化済みテーブル111は、患者の属性を表すテーブルと、病気や治療法に関する情報を表すテーブルとを含んでいてもよい。
【0022】
テキスト情報112は、各患者に発生したイベントをテキスト形式で記憶されている。テキスト情報112は、SOAP式カルテに記録される主観情報、客観情報、評価情報、および計画情報を含んでいてもよい。テキスト情報112は、経時記録とも言われる。テキスト情報112は、ベクトル化されていてもよい。
【0023】
医療固有表現抽出器12は、固有表現抽出部2の具体例である。医療固有表現抽出器12は、テキスト情報112から医療に関する固有表現(医療固有表現と言う)を抽出する。医療固有表現抽出器12は、いわゆる深層学習によって構築される。医療固有表現抽出器12は、看護に関する固有表現を抽出してもよい。
【0024】
例えば、テキスト情報112が「右側肺底部に右側優位に網状影や牽引性気管支拡張像を認めます。」(入力文1と言う)である場合、医療固有表現抽出器12は、「右側肺底部」、「右側」、「優位」、および「網状影や牽引性気管支拡張像」という4つの医療固有表現を抽出する。入力文1は、放射線読影の結果として記録されるテキスト情報112に対応している。
【0025】
各医療固有表現は、予め定義された固有表現分類に分類される。「右側肺底部」および「右側」は、解剖学的部位を表す固有表現分類に分類される。「優位」は、特徴および尺度を表す固有表現分類に分類される。「網状影や牽引性気管支拡張像」は、症状を表す固有表現分類に分類される。
【0026】
解剖学的部位を表す固有表現分類は、開始タグ<a>および終了タグ</a>で囲んで表される。特徴および尺度を表す固有表現分類は、開始タグ<f>および終了タグ</f>で囲んで表される。
【0027】
症状を表す固有表現分類は、開始タグ<d certainty={"positive" or "suspicious" or "negative" or "general"}>および終了タグ</d>で囲んで表される。"positive"は症状が実際に認められたことを表し、"suspicious"は症状に該当するのではないかと疑われていることを表し、"negative"は症状が否定されたことを表し、"general"は一般的な症状に関する記述を表す。例えば、実際に認められた症状を表す固有表現分類は、開始タグ<d certainty="positive">および終了タグ</d>で囲んで表される。
【0028】
したがって、医療固有表現抽出器12は、入力文1から、<a>右側肺底部</a><a>右側</a><f>優位</f><d certainty="positive">網状影や牽引性気管支拡張像</d>という抽出結果を出力する。入力文1は、4つの固有表現を並べた列に変換される。
【0029】
また、例えば、テキスト情報112が「創部ガーゼに淡黄色の染み出し少量あり」(入力文2と言う)である場合、医療固有表現抽出器12は、「創部」、「淡黄色の染み出し」、および「少量」という3つの医療固有表現(例:看護に関する固有表現)を抽出する。入力文2は、看護記録として記録されるテキスト情報112に対応している。
【0030】
「創部」は、解剖学的部位を表す固有表現分類に分類される。「淡黄色の染み出し」は、症状を表す固有表現分類に分類される。「少量」は、特徴および尺度を表す固有表現分類に分類される。
【0031】
したがって、医療固有表現抽出器12は、入力文2から、<a>創部</a><d certainty="positive">淡黄色の染み出し</d><f>少量</f>という抽出結果を出力する。入力文2は、3つの固有表現を並べた列に変換される。
【0032】
上記説明で使用したタグはあくまでも一例である。各固有表現が別形式のタグで囲まれてもよい。
【0033】
イベントデータ記憶部13は、医療固有表現の抽出結果をイベントデータ131として記憶する。
図3は、イベントデータ131の一例を説明する図である。
【0034】
イベントデータ131は、イベントが発生した日時(例:X月Y日ZZ時)に関する日時情報1311、イベントを識別するイベントID1312、およびエンティティ情報1313を含んでいる。イベントデータ131は、患者IDをさらに含んでいてもよい。また、イベントデータ131は、医療者(医療従事者)のIDを含んでいてもよい。
【0035】
エンティティ情報1313は、固有表現(エンティティとも言う)ごとの固有表現分類(タイプとも言う)と内容(コンテンツ)を表す。
図3には、入力文1から抽出されるエンティティ情報1313と、入力文2から抽出されるエンティティ情報1313とが示されている。例えば、「右側肺底部」というコンテンツを有するエンティティ1のタイプは、解剖学的部位であり、<a>で表されている。
【0036】
図2に戻り、医療言語処理部14は、言語処理部3の具体例である。医療言語処理部14は、構造化済みテーブル111とイベントデータ131とに基づいて、医療言語処理を行う。医療言語処理部14は、機械学習によって構築されたAI(Artificial Intelligence)モデルであってもよい。医療言語処理部14は、例えば、イベントデータ131から、患者に発生した主要なイベントにかかる固有表現を選択し、選択した固有表現に基づいて言語処理を行ってもよい。主要なイベントとは、対象となる言語処理(例:医療文書の生成)に関連するイベントである。例えば、手術等の説明書の作成においては、患者の症状に関する情報を含むイベントが、主要なイベントに該当する。
【0037】
医療言語処理部14は、具体的には医療文書の生成を行う。医療文書は、医療テキストであってもよい。医療言語処理部14は、医療文書のテンプレートが記録された外部データベースを参照し、医療文書の生成を行ってもよい。なお、医療言語処理部14によって生成された文書は、下書きとして用いられてもよい。
【0038】
図4は、医療言語処理部14によって生成される医療文書の例を説明する図である。業務ごとに作成すべき文書が定められている。手術業務に関連して、説明書(手術、麻酔、検査、処置、治療法)を生成してもよい。症状説明に関連して、レセプト(症状詳記)や診療内容説明書を生成してもよい。患者の入院決定時には、入退院センター連絡票や服薬指導依頼を生成してもよい。患者の入院時や手術前には、入院診療計画書や手術前確認チェックシートを生成してもよい。患者の退院時には、退院サマリーを生成してもよい。他の医療機関と連携する際や患者を診断した際には、初診返礼状や院外紹介状、院内紹介状、病院所定の診断書を生成してもよい。また、医療保険や手当の請求にかかる診断書、生活保護受給者用の診断書、身体障碍者用の診断書を生成してもよい。また、医療言語処理部14は、各診療科(例:消化器内科、放射線科)に特有の医療文書を生成してもよい。例えば、化学療法同意書、胃瘻(Percutaneous Endoscopic Gastrostomy)造設同意書、胃瘻チェックリスト、放射線治療依頼文書、診療内容説明書等を生成してもよい。例えば、胃瘻チェックリストは、消化器内科で必要になる書類である。
【0039】
例えば、退院サマリーは、患者が退院する際等に、患者の受け入れ先に情報を伝達するために作成される。退院サマリーは、医師や看護師によって作成される。退院サマリーには、患者の基本情報に加えて、病気の経過や看護上の問題点などが記録される場合がある。この場合、医療言語処理部14は、構造化済みテーブル111に基づいて患者の基本情報を文書化でき、イベントデータ131に基づいて病気の経過や看護上の問題点を文書化できる。看護上の問題点は、例えば、SOAP式の電子カルテに含まれるテキスト情報112から抽出可能である。
【0040】
最後に実施形態2が奏する効果について説明する。医療言語処理を行う方法として、電子カルテに含まれるテキスト情報をベクトル化し、ベクトルに基づいて言語処理を行うAIモデルを構築する方法が考えられる。例えば、文脈の取り込み、BERT(Bidirectional Encoder Representations from Transformers)などの深層言語モデル、レザバ、単語ベクトル等の技術を用いることで、上記方法を実行できると考えられる。しかしながら、深層学習ベースのAI等を用いる場合、言語処理のもととなるベクトルと言語処理の結果(例:医療文書)を見ても、どのように言語処理が行われたかを理解できない。したがって、医療機関において求められる説明責任を果たすことができないという問題があった。
【0041】
実施形態2では、ベクトル等で表されるテキスト情報112から一旦イベントデータ131を作成し、イベントデータ131に基づいて言語処理を行う。イベントデータ131は、人間に解釈可能であり、かつ、機械に扱いやすい中間データである。実施形態2により、機械的に医療言語処理を行うことと、どのような理由で医療言語処理の結果が生じたかを説明することとを両立できる。
【0042】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【符号の説明】
【0043】
1 言語処理装置
2 固有表現抽出部
3 言語処理部
10 医療言語処理装置
11 電子カルテ記憶部
111 構造化済みテーブル
112 テキスト情報
12 医療固有表現抽出器
13 イベントデータ記憶部
131 イベントデータ
1311 日時情報
1312 イベントID
1313 エンティティ情報
14 医療言語処理部