(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-09
(45)【発行日】2024-01-17
(54)【発明の名称】診察テキストの実体と属性とそれらの関係の共同抽出方法及び装置
(51)【国際特許分類】
G16H 10/00 20180101AFI20240110BHJP
【FI】
G16H10/00
(21)【出願番号】P 2022046607
(22)【出願日】2022-03-23
【審査請求日】2022-03-23
(31)【優先権主張番号】202110348806.X
(32)【優先日】2021-03-31
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ルォイ チョン
(72)【発明者】
【氏名】ヨンウエイ ジャン
(72)【発明者】
【氏名】シャヌシャヌ ジアン
(72)【発明者】
【氏名】ビヌ ドォン
【審査官】梅岡 信幸
(56)【参考文献】
【文献】中国特許出願公開第109800411(CN,A)
【文献】中国特許出願公開第112163416(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
(57)【特許請求の範囲】
【請求項1】
プロセッサが実行する、診察テキストの実体と属性とそれらの関係の共同抽出方法であって、
処理対象の診察テキストを、検査結果を含む構造化データに変換するステップと、
前記構造化データに含まれる前記検査結果を、第1のデータとその種別である属性、実体、該第1のデータ間の関係とその種別が記された学習用テキストに含まれる検査結果を入力とし、前記学習用テキスト内の属性および実体を含む第1のデータの抽出結果を出力するように事前に学習済みの境界抽出モデルに入力し、前記検査結果の属性と実体を含む全ての第1のデータの抽出結果を出力するステップと、
前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化を行い、位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成するステップと、
任意の実体と属性の2つの前記第1のデータの特徴ベクトル及び前記任意の実体と属性の2つの前記第1のデータの前、中間、後に存在する第1のデータの特徴ベクトルである前文特徴ベクトルと、中間文特徴ベクトル及び後文特徴ベクトルを接続することで前記任意の実体と属性の第1のデータ関係特徴ベクトルを生成するステップと、
前記任意の実体と属性の2つの前記第1のデータと前記任意の実体と属性の2つの前記第1のデータの関係を表す前記第1のデータ関係特徴ベクトルの二部グラフを生成し、前記任意の実体と属性の2つの前記第1のデータの特徴ベクトル、前記任意の実体と属性の2つの前記第1のデータの関係を表す前記第1のデータ関係特徴ベクトルを、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第1のデータおよび前記第1のデータの関係の種別ラベルを出力するステップと、
を含み、
前記グラフ畳み込みネットワークモデルの学習を行うステップをさらに含み、
前記グラフ畳み込みネットワークモデルの学習を行うステップは、
前記学習用テキスト内の前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成するステップと、
前記学習用テキスト内の任意の1つの実体と属性の第1のデータ関係特徴ベクトルであって、2つの前記第1のデータの特徴ベクトルと、2つの前記第1のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルとからなる前記第1のデータ関係特徴ベクトルを生成するステップと、
前記学習用テキスト内の前記第1のデータおよび第1のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第1のデータの特徴ベクトルおよび前記第1のデータ関係の特徴ベクトルを用いてグラフ畳み込みネットワークモデルの学習を行うステップであって、前記グラフ畳み込みネットワークモデルへの入力が、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力が、第1のデータと第1のデータ関係の種別である、ステップと、
を含むことを特徴とする、診察テキストの実体と属性とそれらの関係の共同抽出方法。
【請求項2】
前記境界抽出モデルの学習を行うステップをさらに含み、
前記境界抽出モデルの学習を行うステップは、
第1のデータとその種別、および第1のデータ間の関係とその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換するステップと、
前記学習用テキストを用いて境界抽出モデルの学習を行うステップであって、前記境界抽出モデルが、前記検査結果を入力とし、前記学習用テキスト内の属性および実体を含む第1のデータのすべての抽出結果を出力とする、ステップと、
を含むことを特徴とする、請求項1に記載の診察テキストの実体と属性とそれらの関係の共同抽出方法。
【請求項3】
前記境界抽出モデルの学習を行う学習目標が、損失関数L
span最小化することであり、L
spanは、下記式より求められる、
ことを特徴とする、請求項2に記載の診察テキストの実体と属性とそれらの関係の共同抽出方法。
【数1】
(式中、
(外1)
は、前記検査結果において、前記境界抽出モデルによって予測されたi番目のラベルであり、sは、入力される前記検査結果であり、W
spanは、前記境界抽出モデルの重みパラメータであり、前記境界抽出モデルは、双方向の長短記憶ネットワークと分類器を含み、h
iは、前記双方向の長短記憶ネットワークから出力する単語特徴ベクトル表現であり、|s|は、前記検査結果の長さであり、t
iは、前記検査結果におけるi番目の単語の真のラベルである。)
【請求項4】
前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Lを最小化することであり、Lは、下記式より求められる、
ことを特徴とする、請求項1に記載の診察テキストの実体と属性とそれらの関係の共同抽出方法。
【数2】
(式中、L
eaは、前記グラフ畳み込みネットワークモデルにおける第1のデータ種別の損失関数であり、L
relは、前記グラフ畳み込みネットワークモデルにおける第1のデータ関係種別の損失関数であり、
(外2)
は、前記グラフ畳み込みネットワークモデルによって予測されるi番目の第1のデータの種別ラベルであり、e
iは、i番目の第1のデータであり、sは、入力される前記検査結果であり、W
ea,W
relは、前記グラフ畳み込みネットワークモデルの重みパラメータであり、F
eiは、前記グラフ畳み込みネットワークモデルから出力するi番目の第1のデータの特徴ベクトル表現であり、
(外3)
は、すべての第1のデータの総数であり、t
iは、i番目の第1のデータの真のラベルであり、
(外4)
は、前記グラフ畳み込みネットワークモデルによって予測されるr
ijの種別ラベルであり、r
ijは、第1のデータiと第1のデータjの関係であり、F
rijは、前記グラフ畳み込みネットワークモデルから出力するr
ijの特徴ベクトル表現であり、|r
ij|は、すべての関係の総数であり、lは、関係r
ijの真のラベルである。)
【請求項5】
処理対象テキストを構造化データに変換することは、
検査項目用語の辞書を用いて、前記処理対象テキストの検査項目を抽出することと、
時間抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出することと、
テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出することと、
前記検査項目、検査時間、及び検査結果のマッピング関係を確立すること、
を含むことを特徴とする、請求項1に記載の診察テキストの実体と属性とそれらの関係の共同抽出方法。
【請求項6】
処理対象の診察テキストを、検査結果を含む構造化データに変換する構造化モジュールと、
前記構造化データに含まれる前記検査結果を、第1のデータとその種別である属性、実体、該第1のデータ間の関係とその種別が記された学習用テキストに含まれる検査結果を入力とし、前記学習用テキスト内の属性および実体を含む第1のデータの抽出結果を出力するように事前に学習済みの境界抽出モデルに入力し、前記検査結果の属性と実体を含む全ての第1のデータの抽出結果を出力する境界抽出モジュールと、
前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成し、任意の実体と属性の2つの前記第1のデータの特徴ベクトル及び前記任意の実体と属性の2つの前記第1のデータの前、中間、後に存在する第1のデータの特徴ベクトルである前文特徴ベクトルと、中間文特徴ベクトル及び後文特徴ベクトルを接続することで前記任意の実体と属性の第1のデータ関係特徴ベクトルを生成する特徴ベクトル生成モジュールと、
前記任意の実体と属性の2つの前記第1のデータと前記任意の実体と属性の2つの前記第1のデータの関係を表す前記第1のデータ関係特徴ベクトルの二部グラフを生成し、前記任意の実体と属性の2つの前記第1のデータの特徴ベクトル、前記任意の実体と属性の2つの前記第1のデータの関係を表す前記第1のデータ関係特徴ベクトルを、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第1のデータおよび前記第1のデータの関係の種別ラベルを出力する処理モジュールと、
を含み、
第2の学習モジュールをさらに含み、
前記第2の学習モジュールは、
前記学習用テキスト内の前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成し、前記学習用テキスト内の任意の1つの実体と属性の第1のデータ関係特徴ベクトルであって、2つの前記第1のデータの特徴ベクトルと、2つの前記第1のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルを含む前記第1のデータ関係特徴ベクトルを生成する特徴ベクトル生成ユニットと、
前記学習用テキスト内の前記第1のデータおよび第1のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第1のデータの特徴ベクトルおよび前記第1のデータ関係の特徴ベクトルを用いて、グラフ畳み込みネットワークモデルの学習を行い、前記グラフ畳み込みネットワークモデルへの入力は、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力は、第1のデータと第1のデータ関係の種別である、第2の学習ユニットと、
を備えることを特徴とする、診察テキストの実体と属性とそれらの関係の共同抽出装置。
【請求項7】
第1の学習モジュールをさらに備え、
前記第1の学習モジュールは、
第1のデータとその種別、第1のデータ間の関係及びその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換する構造化ユニットと、
前記学習用テキストを用いて、境界抽出モデルの学習を行う第1の学習ユニットであって、前記境界抽出モデルへの入力が前記検査結果であり、出力が前記学習用テキスト内の全ての第1のデータの抽出結果であり、前記第1のデータが、前記学習用テキスト内の属性と実体を含む、前記第1の学習ユニットと、
を含むことを特徴とする、請求項6に記載の診察テキストの実体と属性とそれらの関係の共同抽出装置。
【請求項8】
前記境界抽出モデルの学習を行う学習目標が、損失関数L
spanを最小化することであり、L
spanは、下記式から求められる、
ことを特徴とする、請求項7に記載の診察テキストの実体と属性とそれらの関係の共同抽出装置。
【数3】
(式中、
(外5)
は、前記検査結果において、前記境界抽出モデルによって予測されたi番目のラベルであり、sは、入力される前記検査結果であり、W
spanは、前記境界抽出モデルの重みパラメータであり、前記境界抽出モデルは、双方向の長短記憶ネットワークと分類器を含み、h
iは、前記双方向の長短記憶ネットワークから出力する単語特徴ベクトル表現であり、|s|は、前記検査結果の長さであり、t
iは、前記検査結果におけるi番目の単語の真のラベルである。)
【請求項9】
前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Lを最小化することであり、Lは、下記式から求められる、
ことを特徴とする、請求項6に記載の診察テキストの実体と属性とそれらの関係の共同抽出装置。
【数4】
(式中、L
eaは、前記グラフ畳み込みネットワークモデルにおける第1のデータ種別の損失関数であり、L
relは、前記グラフ畳み込みネットワークモデルにおける第1のデータ関係種別の損失関数であり、
(外6)
は、前記グラフ畳み込みネットワークモデルによって予測されるi番目の第1のデータの種別ラベルであり、e
iは、i番目の第1のデータであり、sは、入力される前記検査結果であり、W
ea,W
relは、前記グラフ畳み込みネットワークモデルの重みパラメータであり、F
eiは、前記グラフ畳み込みネットワークモデルから出力するi番目の第1のデータの特徴ベクトル表現であり、
(外7)
は、すべての第1のデータの総数であり、t
iは、i番目の第1のデータの真のラベルであり、
(外8)
は、前記グラフ畳み込みネットワークモデルによって予測されるr
ijの種別ラベルであり、r
ijは、第1のデータiと第1のデータjの関係であり、F
rijは、前記グラフ畳み込みネットワークモデルから出力するr
ijの特徴ベクトル表現であり、|r
ij|は、すべての関係の総数であり、lは、関係r
ijの真のラベルである。)
【請求項10】
前記構造化モジュールは、
検査項目用語の辞書を用いて、
処理対象テキストの検査項目を抽出する第1の抽出ユニットと、
時刻抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時刻を抽出する第2の抽出ユニットと、
テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出する第3の抽出ユニットと、
前記検査項目、検査時間、および検査結果の間のマッピング関係を確立するマッピング関係確立ユニットと、
を含むことを特徴とする、請求項6に記載の診察テキストの実体と属性とそれらの関係の共同抽出装置。
【請求項11】
コンピュータに、請求項1から5のいずれか1項に記載の診察テキストの実体と属性とそれらの関係の共同抽出方法を実行させるためのプログラム。
【請求項12】
請求項11に記載のプログラムを記憶しているコンピュータ読取可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ抽出の分野に関し、具体的には、診察テキスト(健康診断テキスト)の実体と属性とそれらの関係の共同抽出方法、装置に関する。
【背景技術】
【0002】
情報研究の分野において、情報抽出技術は、欠かすことのできない核心技術である。情報検索などの情報処理技術とは異なり、情報抽出においては、命名実体の識別と実体間の関係の抽出が必要となるが、中国語のテキストでは、単語の多様な変化、単語の構成の複雑さ、明白な標識の無さなどにより、中国語で命名された実体の識別と関係の抽出がより困難である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明の実施形態が解決しようとする技術的課題は、診察テキストの実体と属性とそれらの関係の共同抽出結果の精度を向上させ、診察テキストの実体と属性とそれらの関係の共同抽出の効率を向上させることができる、診察テキストの実体と属性とそれらの関係の共同抽出方法、装置を提供することである。
【課題を解決するための手段】
【0004】
本発明の実施形態の一態様によれば、診察テキストの実体と属性とそれらの関係の共同抽出方法であって、
処理対象テキストを、検査結果を含む構造化データに変換するステップと、
前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の属性と実体を含む全ての第1のデータの抽出結果を出力するステップと、
前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化を行い、位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成するステップと、
任意の1つの実体と属性の第1のデータ関係特徴ベクトルを生成するステップであって、前記第1のデータ関係特徴ベクトルが、2つの前記第1のデータの特徴ベクトル及び2つの前記第1のデータの前文特徴ベクトルと、中間文特徴ベクトル及び後文特徴ベクトルを含む、前記第1のデータ関係特徴ベクトルを生成するステップと、
前記第1のデータと前記第1のデータ関係の二部グラフを生成し、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第1のデータおよび前記第1のデータ関係の種別(クラス)ラベルを出力するステップと、
を含む診察テキストの実体と属性とそれらの関係の共同抽出方法を提供する。
【0005】
また、本発明の少なくとも1つの実施形態によれば、前記方法は、前記境界抽出モデルの学習を行うステップをさらに含み、前記境界抽出モデルの学習を行うステップは、
第1のデータとその種別、および第1のデータ間の関係とその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換するステップと、
前記学習用テキストを用いて境界抽出モデルの学習を行うステップであって、前記境界抽出モデルが、前記検査結果を入力とし、前記学習用テキスト内の属性および実体を含む第1のデータのすべての抽出結果を出力とする、ステップと、を含む。
【0006】
また、本発明の少なくとも1つの実施形態によれば、前記境界抽出モデルの学習を行う学習目標が、損失関数L
spanを最小化することであり、L
spanは、下記式より求められる。
【数1】
式中、
(外1)
は、前記検査結果において、前記境界抽出モデルによって予測されたi番目のラベルであり、sは、入力される前記検査結果であり、W
spanは、前記境界抽出モデルの重みパラメータであり、前記境界抽出モデルは、双方向の長短記憶ネットワークと分類器を含み、h
iは、前記双方向の長短記憶ネットワークから出力する単語特徴ベクトル表現であり、|s|は、前記検査結果の長さであり、t
iは、前記検査結果におけるi番目の単語の真のラベルである。
【0007】
また、本発明の少なくとも1つの実施形態によれば、前記方法は、前記グラフ畳み込みネットワークモデルの学習を行うステップをさらに含み、前記グラフ畳み込みネットワークモデルの学習を行うステップは、
前記学習用テキスト内の前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成するステップと、
前記学習用テキスト内の任意の1つの実体と属性の第1のデータ関係特徴ベクトルを生成するステップであって、2つの前記第1のデータの特徴ベクトルと、2つの前記第1のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルとからなる前記第1のデータ関係特徴ベクトルを生成するステップと、
前記学習用テキスト内の前記第1のデータおよび第1のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第1のデータの特徴ベクトルおよび前記第1のデータ関係の特徴ベクトルを用いてグラフ畳み込みネットワークモデルの学習を行うステップであって、前記グラフ畳み込みネットワークモデルへの入力が、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力が、第1のデータと第1のデータ関係の種別である、ステップと、を含む。
【0008】
また、本発明の少なくとも1つの実施形態によれば、前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Lを最小化することであり、Lは、下記式より求められる。
【数2】
【0009】
式中、L
eaは、前記グラフ畳み込みネットワークモデルにおける第1のデータ種別の損失関数であり、L
relは、前記グラフ畳み込みネットワークモデルにおける第1のデータ関係種別の損失関数であり、
(外2)
は、前記グラフ畳み込みネットワークモデルによって予測されるi番目の第1のデータの種別ラベルであり、e
iは、i番目の第1のデータであり、sは、入力される前記検査結果であり、W
ea,W
relは、前記グラフ畳み込みネットワークモデルの重みパラメータであり、F
eiは、前記グラフ畳み込みネットワークモデルから出力するi番目の第1のデータの特徴ベクトル表現であり、
(外3)
は、すべての第1のデータの総数であり、t
iは、i番目の第1のデータの真のラベルであり、
(外4)
は、前記グラフ畳み込みネットワークモデルによって予測されるr
ijの種別ラベルであり、r
ijは、第1のデータiと第1のデータjの関係であり、F
rijは、前記グラフ畳み込みネットワークモデルから出力するr
ijの特徴ベクトル表現であり、|r
ij|は、すべての関係の総数であり、lは、関係r
ijの真のラベルである。
【0010】
また、本発明の少なくとも1つの実施形態によれば、処理対象テキストを構造化データに変換することは、
検査項目用語の辞書を用いて、前記処理対象テキストの検査項目を抽出することと、
時間抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出することと、
テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出することと、
前記検査項目、検査時間、及び検査結果のマッピング関係を確立すること、を含む。
【0011】
本発明の実施形態の他の態様によれば、処理対象テキストを、検査結果を含む構造化データに変換する構造化モジュールと、
前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の属性と実体を含む全ての第1のデータの抽出結果を出力する境界抽出モジュールと、
前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成し、任意の1つの実体と属性の第1のデータ関係特徴ベクトルを生成し、任意の実体と属性の第1のデータ関係特徴ベクトルであって、前記第1のデータの2つの特徴ベクトルと、前記第1のデータの2つの前文の特徴ベクトルと、中間文の特徴ベクトルと、後文の特徴ベクトルとを含む、前記第1のデータ関係特徴ベクトルを生成する特徴ベクトル生成モジュールと、
前記第1のデータと前記第1のデータ関係の二部グラフを生成し、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第1のデータと前記第1のデータ関係の種別ラベルを出力する処理モジュールと、を含む診察テキストの実体と属性とそれらの関係の共同抽出装置を提供する。
【0012】
また、本発明の少なくとも1つの実施形態によれば、前記装置は、第1の学習モジュールをさらに備え、前記第1の学習モジュールは、
第1のデータとその種別、第1のデータ間の関係及びその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換する構造化ユニットと、
前記学習用テキストを用いて、境界抽出モデルの学習を行う第1の学習ユニットであって、前記境界抽出モデルへの入力が前記検査結果であり、出力が前記学習用テキスト内の全ての第1のデータの抽出結果であり、前記第1のデータが、前記学習用テキスト内の属性と実体を含む、前記第1の学習ユニットと、を含む。
【0013】
また、本発明の少なくとも1つの実施形態によれば、前記境界抽出モデルの学習を行う学習目標が、損失関数L
spanを最小化することであり、L
spanは、下記式から求められる。
【数3】
式中、
(外5)
は、前記検査結果において、前記境界抽出モデルによって予測されたi番目のラベルであり、sは、入力される前記検査結果であり、W
spanは、前記境界抽出モデルの重みパラメータであり、前記境界抽出モデルは、双方向の長短記憶ネットワークと分類器を含み、h
iは、前記双方向の長短記憶ネットワークから出力する単語特徴ベクトル表現であり、|s|は、前記検査結果の長さであり、t
iは、前記検査結果におけるi番目の単語の真のラベルである。
【0014】
また、本発明の少なくとも1つの実施形態によれば、前記装置は、第2の学習モジュールをさらに含み、前記第2の学習モジュールは、
前記学習用テキスト内の前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成し、前記学習用テキスト内の任意の1つの実体と属性の第1のデータ関係特徴ベクトルであって、2つの前記第1のデータの特徴ベクトルと、2つの前記第1のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルを含む前記第1のデータ関係特徴ベクトルを生成する特徴ベクトル生成ユニットと、
前記学習用テキスト内の前記第1のデータおよび第1のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第1のデータの特徴ベクトルおよび前記第1のデータ関係の特徴ベクトルを用いて、グラフ畳み込みネットワークモデルの学習を行い、前記グラフ畳み込みネットワークモデルへの入力は、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力は、第1のデータと第1のデータ関係の種別である、第2の学習ユニットと、を備える。
【0015】
また、本発明の少なくとも1つの実施形態によれば、前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Lを最小化することであり、Lは、下記式から求められる。
【数4】
【0016】
式中、L
eaは、前記グラフ畳み込みネットワークモデルにおける第1のデータ種別の損失関数であり、L
relは、前記グラフ畳み込みネットワークモデルにおける第1のデータ関係種別の損失関数であり、
(外6)
は、前記グラフ畳み込みネットワークモデルによって予測されるi番目の第1のデータの種別ラベルであり、e
iは、i番目の第1のデータであり、sは、入力される前記検査結果であり、W
ea,W
relは、前記グラフ畳み込みネットワークモデルの重みパラメータであり、F
eiは、前記グラフ畳み込みネットワークモデルから出力するi番目の第1のデータの特徴ベクトル表現であり、
(外7)
は、すべての第1のデータの総数であり、t
iは、i番目の第1のデータの真のラベルであり、
(外8)
は、前記グラフ畳み込みネットワークモデルによって予測されるr
ijの種別ラベルであり、r
ijは、第1のデータiと第1のデータjの関係であり、F
rijは、前記グラフ畳み込みネットワークモデルから出力するr
ijの特徴ベクトル表現であり、|r
ij|は、すべての関係の総数であり、lは、関係r
ijの真のラベルである。
【0017】
また、本発明の少なくとも1つの実施形態によれば、前記構造化モジュールは、
検査項目用語の辞書を用いて、前記処理対象テキスト内の検査項目を抽出する第1の抽出ユニットと、
時刻抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時刻を抽出する第2の抽出ユニットと、
テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出する第3の抽出ユニットと、
前記検査項目、検査時間、および検査結果の間のマッピング関係を確立するマッピング関係確立ユニットと、を含む。
【0018】
さらに、本発明の実施形態は、コンピュータプログラムが格納されているコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項1から6のいずれか1項に記載の診察テキストの実体と属性とそれらの関係の共同抽出方法のステップを実施するコンピュータ読取可能な記憶媒体を提供する。
【発明の効果】
【0019】
本発明の実施形態により提供される診察テキストの実体と属性とそれらの関係の共同抽出方法および装置は、先行技術に比べて、処理対象テキストを構造化データに変換した後、実体と属性の抽出を行うことで、データのノイズを低減し、特徴の抽出を容易にすることができ、また、計算性能を向上させることができる。さらに、第1のデータのテキスト特徴ベクトルおよび位置特徴ベクトル統合して第1のデータの特徴ベクトルとすることで、実体と属性とその関連情報をより適切に表現することができる。本実施形態の技術的解決策は、効率的かつ容易に実施することができ、診察テキストの実体と属性とそれらの関係の共同抽出結果の精度を向上させることができ、診察テキストの実体と属性とそれらの関係の共同抽出の効率を向上させることができる。
【図面の簡単な説明】
【0020】
本発明の実施形態の技術的解決策をより明確に示すために、以下、本発明の実施形態の説明に必要な添付図面を簡単に説明するが、以下の説明における添付図面は、本発明の一部の実施形態に過ぎず、創造的な労力を要することなく、これらの添付図面から他の図面が得られることは当業者に自明である。
【
図1】本発明の実施形態に係る診察テキストの実体と属性とそれらの関係の共同抽出方法の概略フローチャートである。
【
図2】本発明の一実施形態に係る診察テキストの模式図である。
【
図3】本発明の実施形態に係る構造化データの模式図である。
【
図4】本発明の実施形態に係る第1のデータの抽出概略図である。
【
図5】本発明の実施形態に係る位置符号化の模式図である。
【
図6】本発明の実施形態に係るspanノードの生成概略図である。
【
図7】本発明の実施形態に係るspan関係ノードの生成概略図である。
【
図8】本発明の実施形態に係る診察テキストの実体と属性とその関係の共同抽出装置の構造概略図である。
【
図9】本発明の実施形態に係る診察テキストの実体と属性とその関係の共同抽出装置の構成概略図である。
【発明を実施するための形態】
【0021】
本発明が解決しようとする技術的な問題、技術的な解決策、および利点を明確にするために、以下、添付の図面および具体的な実施形態と併せて詳細に説明する。以下の説明では、具体的な構成や部品などの特定の詳細は、本発明の実施形態の全体的な理解を助けるためにのみ提供されている。このため、本発明の範囲と精神から逸脱することなく、本明細書に記載されている実施形態に様々な変更や修正を加えることができることは、当業者に自明である。さらに、公知の機能や構成に関する説明は、わかりやすく簡潔にするために省略している。
【0022】
本明細書全体で言及している「一つの実施形態」または「一実施形態」とは、実施形態に関連する特定の特徴、構造、または特性が、本発明の少なくとも1つの実施形態に含まれることを意味することを理解されたい。したがって、本明細書中に登場する「一つの実施形態において」または「一実施形態において」は、必ずしも同じ実施形態を意味するものではない。さらに、これらの特定の特徴、構造、または特性は、任意の適切な方法で1つまたは複数の実施形態で組み合わせることができる。
【0023】
本発明の様々な実施形態において、以下の各工程のシリアル番号の大きさは、実行の順序を意味するものではなく、各工程の実行順序は、その機能と固有の論理によって決定されるものであり、本発明の実施形態の実施工程を何ら制限するものではないことを理解されたい。
【0024】
本発明の実施形態においては、診察テキストの実体と属性とそれらの関係の共同抽出のための方法および装置を提供し、これにより、診察テキストの実体と属性とそれらの関係の共同抽出結果の精度を向上させ、診察テキストの実体と属性とそれらの関係の共同抽出の効率を向上させることができる。
【実施例1】
【0025】
本発明の実施形態は、
図1に示すようなステップを含む、診察テキストの実体と属性とそれらの関係の共同抽出方法を提供する。
【0026】
ステップ101において、処理対象テキストを構造化データに変換し、前記構造化データは検査の結果を含む。
【0027】
本実施形態においては、処理対象テキストは診察テキストであってもよく、具体的な例としては、
図2に示すような診察テキストが挙げられる。診察テキストの文章は長く、実体や属性の抽出には適していないため、処理対象テキストを一定の形式の構造化データに変換する必要がある。
【0028】
本実施形態においては、検査項目用語辞書を使用して前記処理対象テキスト内の検査項目を抽出することができる。検査項目用語辞書は、大量の医療データ(診療ガイドライン、カルテなどを含む)から、ルールによりかつ手作業による補足で、収集・整理された後、検査項目用語辞書の用語が長いものから短いものへと長さに応じてソートされ、最長一致抽出原理により、例えば、TCT、コルポスコピー生検病理検査などの検査項目を診察テキストから抽出する。
【0029】
本実施形態においては、時間抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出することができる。多数の診察テキストにおける検査時間の可能な出現形態を統計した後、検査時間は検査結果に対し、検査結果の前(正順)または検査結果の後(逆順)という相対的な位置関係を有することが判明したため、正順時間抽出法や逆順時間抽出法によって前記処理対象テキスト内の検査時間を抽出することができる。
【0030】
本実施形態においては、テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出することができる。多数の診察テキストを調査した結果、診察テキストでは、検査時間、検査項目、検査結果が、通常、隣り合っており、異なる検査記述は、通常、ピリオド、セミコロン、エクスクラメーションマーク、クエスチョンマークなどの分割を示す記号で区切られているため、前記処理対象テキスト内の検査結果は、テキストの句読点とテキストの距離に基づいて抽出することができることがわかった。
【0031】
その後、抽出した検査項目、検査時間、検査結果を1つずつマッピングして、前記検査項目、検査時間、検査結果のマッピング関係を確立し、構造化データを形成する。
【0032】
1つの具体的な例として、処理対象テキストは、
図2に示すような診察テキストであり、変換後に形成される構造化データは、
図3に示すようなものとなる。
【0033】
ステップ102において、前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の全ての第1のデータの抽出結果を出力し、前記第1のデータは前記処理対象テキスト内の属性と実体からなる。
【0034】
該実施形態においては、境界抽出モデルを事前に学習させる必要があり、境界抽出モデルへの入力は、診察テキスト中の診察結果であり、出力は、診察テキスト中の全ての第1のデータ(spanで表され、実体と属性を含む)の抽出結果である。
【0035】
本実施形態においては、境界抽出モデルは、任意の実体抽出モデルを用いることができ、具体例としては、
図4に示すように、前記境界抽出モデルは、双方向の長短記憶ネットワークBiLSTMモデルと分類器softmaxを含む。
【0036】
境界抽出モデルの学習を行う際、学習用テキストを構造化データに変換し、前記構造化データは、検査時間、検査項目、検査結果、およびこれらの対応関係で構成され、前記学習用テキストには、第1のデータとその種別、第1のデータ間の関係とその種別が記されており、前記学習用テキストを用いて境界抽出モデルの学習を行い、前記境界抽出モデルの入力は、前記検査結果であり、出力は、前記学習用テキスト内の全ての第1のデータの抽出結果であり、前記第1のデータは、前記学習用テキスト内の属性と実体を含む。
【0037】
図4に示すように、1つの具体的な例においては、境界抽出モデルの入力は、「一部上皮細胞非典型増殖、傾向」であり、出力はspanの抽出結果であり、具体的には、一連のラベルの形式である。ここで、“B”はspanの開始位置を示し、“I”はspanに属していることを、“O”はspanに属していないことを示し、“A”は該spanが1つの属性であることを、“E”は、該spanが1つの実体であることを示す。
【0038】
前記境界抽出モデルの学習を行う学習目標は、損失関数L
spanを最小化することであり、L
spanは、下記式より求められる。
【数5】
式中、
(外9)
は、前記検査結果において、前記境界抽出モデルによって予測されたi番目のラベルであり、sは、入力される前記検査結果であり、W
spanは、前記境界抽出モデルの重みパラメータであり、前記境界抽出モデルは、双方向の長短記憶ネットワークと分類器を含み、h
iは、前記双方向の長短記憶ネットワークから出力する単語特徴ベクトル表現であり、|s|は、前記検査結果の長さであり、t
iは、前記検査結果におけるi番目の単語の真のラベルである。
【0039】
境界抽出モデルの学習が済み、ステップ101で得られた検査結果を境界抽出モデルに入力すると、出力されるspanを得ることができるが、このステップではspanを出力するだけで、spanの種別は与えない。本実施形態においては、spanの種別は、実体と属性を含み、実体は、主に、
図4の「増殖」のような、疾病、病変、症状等を指し、属性は、病変の発生部位(
図4の「一部上皮細胞」)や、病変の性質(
図4の「非典型」)など、これらの実体を説明する用語を指している。
【0040】
ステップ103において、前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成し、任意の1つの実体と属性の第1のデータ関係特徴ベクトルを生成し、前記第1のデータ関係特徴ベクトルは、2つの前記第1のデータの特徴ベクトルと、2つの前記第1のデータの前文特徴ベクトル、中間文特徴ベクトル及び後文特徴ベクトルを含んでいる。
【0041】
ここで、第1のデータはspanノードと呼ばれることがあり、第1のデータの関係はspan間の関係ノードと呼ばれることがあり、spanノードとspan間の関係ノードは、以降にグラフ畳み込みネットワークモデルに入力されるノードである。第1のデータの関係は、2つの第1のデータの関係であり、該2つの第1のデータは、任意の1つの実体と、1つの属性を含む。
【0042】
ステップ102で得られたspanの境界結果と、BiLSTMモデルの最終出力のテキストベクトル特徴表現は、次元変換モデルを経て、1つのspan(複数の単語特徴ベクトルで表現される)から、1つの特徴ベクトル表現に変換され、該spanのテキスト特徴ベクトルが表され、ここで、次元変換モデルは、CNN(畳み込みニューラルネットワーク)+pooling(プーリング層)モデルなどであってもよく、他の次元変換モデルであってもよい。
【0043】
また、位置符号化機構によって、span位置特徴ベクトル表現を生成し、spanテキスト特徴ベクトル表現とspan位置特徴ベクトル表現とを接続し、該spanの特徴ベクトルを表してもよい。
【0044】
spanの位置符号化機構を
図5に示す。ステップ102で得られたspan(すなわち、実体と属性であり、
図5のa1、a2、e3、a4、a5、e6となる)は、個々に1つの位置を占める、有用なspanと呼ばれ、その他のテキストコンテンツ中の句読点は、1つの位置を示す、無用なspan(
図5のコンマ「、」)と見なされ、有用なspanと有用なspanの間、または有用なspanと句読点の間にあるテキスト(
図5の「傾向」)も、個々に1つの位置を占める、無用なspanと呼ばれる。最後に、すべてのspan(有用なspanと無用なspanの両方)に、テキストの左から右への順に位置番号(
図5の1、2、3、4、5、6、7、8)をつけることで、有用なspan間の位置距離関係を特徴づけることができ、このような位置距離関係は、最終的なspan種別やspan関係種別の予測に非常に有効な情報となる。
【0045】
spanの位置番号は、次元変換モデルによって1つの特徴ベクトル表現である、span位置特徴ベクトルp
i(
図5におけるp
1、p
2、p
3、p
4、p
5、p
6)に変換される。
【0046】
図6に示すように、有用なspanの位置特徴ベクトルp
iと特徴ベクトルs
iを接続して有用なspanの特徴ベクトルh
iを得る。すなわち、以下のように、spanノードを生成する。
【数6】
【0047】
span関係とは、
図5のa1とe3の間に形成される関係r
13のように、実体と属性の関係である。span関係ノードの特徴には、大きく分けて、1)該span関係を形成する実体span(即ち、e3)と、属性span(即ち、a1)の特徴、2)これら2つのspanの前と、中間と、後に存在する文脈の特徴の、2つの部分がある。
【0048】
該span関係を形成する実体spanと属性spanに関しては、それぞれ各自の特徴ベクトルが生成される。
【0049】
文脈の特徴における前文、中間文、後文については、
図7に示すように、span特徴ベクトル形成と同じプロセスで、次元変換モデルを用いてそれぞれの部分を変換し、前文、中間文、後文の特徴ベクトルを形成した後、この5つの部分の特徴を接続してサイズ変換を行うことにより、最終的なspan関係特徴ベクトルが形成され、すなわちspan関係ノードが生成される。
【0050】
ここで、サイズ変化は、spanの関係特徴ベクトルのサイズとspanの特徴ベクトルのサイズの一致を確保するためである。サイズ変化は、MLP(Multilayer Neural Network)モデルによって実現可能になる。
【0051】
ステップ104において、前記第1のデータと前記第1のデータ関係の二部グラフを生成し、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第1のデータと前記第1のデータ関係の種別ラベルを出力する。
【0052】
本実施形態においては、グラフ畳み込みネットワークモデルを事前に学習させる必要があり、グラフ畳み込みネットワークモデルへの入力は、spanノードとspan関係ノード及びこれらの構造的関係であり、該構造的関係は、すなわち、spanノードとspan関係ノードの二部グラフにおける接続関係、すなわち、第1のデータの特徴ベクトルと第1のデータ関係の特徴ベクトル及びそれらの間の構造的関係であり、出力は、ノードの種別、すなわち、第1のデータと第1のデータの関係の種別ラベルである。
【0053】
span関係ノードは、該span関係ノードを形成する2つのspanノードのそれぞれに接続され、二部グラフが形成される。
図7に示すように、spanノードh
1、spanノードh
3、およびspan関係ノードr
13を用いて二部グラフを生成することができる。該二部グラフにおいて、span関係ノードr
13は、それぞれspanノードh
1およびspanノードh
3に接続されており、span関係ノードr
13とspanノードh
1の接続関係、span関係ノードr
13とspanノードh
3の接続関係は、つまり、spanノードとspan関係ノードの構造的関係であり、すなわち、第1のデータの特徴ベクトルと第1のデータ関係の特徴ベクトルの構造的関係である。
【0054】
本実施形態においては、グラフ畳み込みネットワークモデルは、GCN(Graph Convolutional Neural Network)モデルと分類器softmaxを含む。
【0055】
ここで、前記グラフ畳み込みネットワークモデルの学習を行うステップが、
前記学習用テキスト内の前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成するステップと、
前記学習用テキスト内の任意の1つの実体と属性の第1のデータ関係特徴ベクトルであって、2つの前記第1のデータの特徴ベクトルと、2つの前記第1のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルとからなる前記第1のデータ関係特徴ベクトルを生成するステップと、
前記学習用テキスト内の前記第1のデータおよび第1のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第1のデータの特徴ベクトルおよび前記第1のデータ関係の特徴ベクトルを用いてグラフ畳み込みネットワークモデルの学習を行うステップであって、前記グラフ畳み込みネットワークモデルへの入力が、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力が、第1のデータと第1のデータ関係の種別である、ステップと、を含む。
【0056】
ここで、前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Lを最小化することであり、Lは、下記式より求められる。
【数7】
【0057】
式中、L
eaは、前記グラフ畳み込みネットワークモデルにおける第1のデータ種別の損失関数であり、L
relは、前記グラフ畳み込みネットワークモデルにおける第1のデータ関係種別の損失関数であり、
(外10)
は、前記グラフ畳み込みネットワークモデルによって予測されるi番目の第1のデータの種別ラベルであり、e
iは、i番目の第1のデータであり、sは、入力される前記検査結果であり、W
ea,W
relは、前記グラフ畳み込みネットワークモデルの重みパラメータであり、F
eiは、前記グラフ畳み込みネットワークモデルから出力するi番目の第1のデータの特徴ベクトル表現であり、
(外11)
は、すべての第1のデータの総数であり、t
iは、i番目の第1のデータの真のラベルであり、
(外12)
は、前記グラフ畳み込みネットワークモデルによって予測されるr
ijの種別ラベルであり、r
ijは、第1のデータiと第1のデータjの関係であり、F
rijは、前記グラフ畳み込みネットワークモデルから出力するr
ijの特徴ベクトル表現であり、|r
ij|は、すべての関係の総数であり、lは、関係r
ijの真のラベルである。
【0058】
共同抽出モデル全体の学習目標は、最小の全損失関数スコアを得ることであり、その後、モデルのパラメータが保存され、該モデルを予測に使用することができる。ステップ103で得られたspanノードとspan関係ノードは、学習済みのグラフ畳み込みネットワークモデルに入力され、softmaxなどの分類器を用いた特徴の分類が行われ、各ノードの種別が出力される。
【0059】
本実施形態においては、spanノードとspan関係ノードを用いてノードの種別を取得し、ノード間の関係を考慮することで、診察テキストの実体と属性とそれらの関係の共同抽出結果の精度を向上させることができ、また、診察テキストの実体と属性とそれらの関係の共同抽出の効率を向上させることができる。
【0060】
本実施形態においては、実体ノードの種別は、疾病、症状、病変などであり、属性ノードの種別は、部位、性質などであり、関係ノードの種別は、実体ノードの種別と属性ノードの種別の2つの組み合わせで構成されており、ノードの種別は、実用に応じて種類を調整することができる。
【0061】
本実施形態においては、処理対象テキストを構造化データに変換した後に実体と属性の抽出を行うことで、データのノイズを減らし、特徴の抽出を容易にし、さらに計算性能を向上させることができる。また、第1のデータの特徴ベクトルとして、第1のデータのテキスト特徴ベクトルと位置特徴ベクトルを組み合わせることで、実体と属性とそれらの関係情報をより適切に表現することができる。本実施形態の技術的解決策は、効率的かつ容易に実施することができ、診察テキストの実体と属性とそれらの関係の共同抽出結果の精度を向上させることができ、診察テキストの実体と属性とそれらの関係の共同抽出の効率を向上させることができる。
【実施例2】
【0062】
本発明の実施形態においては、さらに、
図8に示すような構成を備えた、診察テキストの実体と属性とそれらの関係の共同抽出装置を提供する。
【0063】
構造化モジュール21は、処理対象テキストを構造化データに変換するためのものであり、前記構造化データは検査結果を含む。
【0064】
本実施形態においては、処理対象テキストは診察テキストであってもよく、具体的な例としては、
図2に示すような診察テキストが挙げられる。診察テキストの文章は長く、実体や属性の抽出には適していないため、処理対象テキストを一定の形式の構造化データに変換する必要がある。
【0065】
ここで、前記構造化モジュール21は、以下のユニットを備えている。
【0066】
第1の抽出ユニットは、検査項目用語辞書を使用して前記処理対象テキスト内の検査項目を抽出するためのものである。
【0067】
本実施形態においては、検査項目用語辞書を使用して前記処理対象テキスト内の検査項目を抽出することができる。検査項目用語辞書は、大量の医療データ(診療ガイドライン、カルテなどを含む)から、ルールによりかつ手作業による補足で、収集・整理された後、検査項目用語辞書の用語が長いものから短いものへと長さに応じてソートされ、最長一致抽出原理により、例えば、TCT、コルポスコピー生検病理検査などの検査項目を診察テキストから抽出する。
【0068】
第2の抽出ユニットは、時間抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出するためのものである。
【0069】
本実施形態においては、時間抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出することができる。多数の診察テキストにおける検査時間の可能な出現形態を統計した後、検査時間は検査結果に対し、検査結果の前(正順)または検査結果の後(逆順)という相対的な位置関係を有することが判明したため、正順時間抽出法や逆順時間抽出法によって前記処理対象テキスト内の検査時間を抽出することができる。
【0070】
第3の抽出ユニットは、テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出するためのものである。
【0071】
本実施形態においては、テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出することができる。多数の診察テキストを調査した結果、診察テキストでは、検査時間、検査項目、検査結果が、通常、隣り合っており、異なる検査記述は、通常、ピリオド、セミコロン、エクスクラメーションマーク、クエスチョンマークなどの分割を示す記号で区切られているため、前記処理対象テキスト内の検査結果は、テキストの句読点とテキストの距離に基づいて抽出することができることがわかった。
【0072】
マッピング関係確立ユニットは、前記検査項目、検査時間、及び検査結果間のマッピング関係を確立するためのものである。
【0073】
その後、抽出した検査項目、検査時間、検査結果を1つずつマッピングして、前記検査項目、検査時間、検査結果間のマッピング関係を確立し、構造化データを形成する。
【0074】
1つの具体的な例として、処理対象テキストは、
図2に示すような診察テキストであり、変換後に形成される構造化データは、
図3に示すようなものとなる。
【0075】
境界抽出モジュール22は、前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の全ての第1のデータの抽出結果を出力するものであり、前記第1のデータは前記処理対象テキスト内の属性と実体からなる。
【0076】
該実施形態においては、境界抽出モデルを事前に学習させる必要があり、境界抽出モデルへの入力は、診察テキスト中の診察結果であり、出力は、診察テキスト中の全ての第1のデータ(spanで表され、実体と属性を含む)の抽出結果である。
【0077】
本実施形態においては、境界抽出モデルは、任意の実体抽出モデルを用いることができ、具体例としては、
図4に示すように、前記境界抽出モデルは、双方向の長短記憶ネットワークBiLSTMモデルと分類器softmaxを含む。
【0078】
図4に示すように、1つの具体的な例においては、境界抽出モデルの入力は、「一部上皮細胞非典型増殖、傾向」であり、出力はspanの抽出結果であり、具体的には、一連のラベルの形式である。ここで、“B”はspanの開始位置を示し、“I”はspanに属していることを、“O”はspanに属していないことを示し、“A”は該spanが1つの属性であることを、“E”は、該spanが1つの実体であることを示す。
【0079】
境界抽出モデルの学習が済み、得られた検査結果を境界抽出モデルに入力すると、出力されるspanを得ることができるが、このステップではspanを出力するだけで、spanの種別は与えない。本実施形態においては、spanの種別は、実体と属性を含み、実体は、主に、
図4の「増殖」のような、疾病、病変、症状等を指し、属性は、病変の発生部位(
図4の「一部上皮細胞」)や、病変の性質(
図4の「非典型」)など、これらの実体を説明する用語を指している。
【0080】
ベクトル生成モジュール23は、前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成し、任意の1つの実体と属性の第1のデータ関係特徴ベクトルを生成し、前記第1のデータ関係特徴ベクトルは、2つの前記第1のデータの特徴ベクトルと、2つの前記第1のデータの前文特徴ベクトル、中間文特徴ベクトル及び後文特徴ベクトルを含んでいる。
【0081】
ここで、第1のデータはspanノードと呼ばれることがあり、第1のデータの関係はspan間の関係ノードと呼ばれることがあり、spanノードとspan間の関係ノードは、以降にグラフ畳み込みネットワークモデルに入力されるノードである。第1のデータの関係は、2つの第1のデータの関係であり、該2つの第1のデータは、任意の1つの実体と、1つの属性を含む。
【0082】
得られたspanの境界結果と、BiLSTMモデルの最終出力のテキストベクトル特徴表現は、次元変換モデルを経て、1つのspan(複数の単語特徴ベクトルで表現される)から、1つの特徴ベクトル表現に変換され、該spanのテキスト特徴ベクトルが表され、ここで、次元変換モデルは、CNN(畳み込みニューラルネットワーク)+pooling(プーリング層)モデルなどであってもよく、他の次元変換モデルであってもよい。
【0083】
また、位置符号化機構によって、span位置特徴ベクトル表現を生成し、spanテキスト特徴ベクトル表現とspan位置特徴ベクトル表現とを接続し、該spanの特徴ベクトルを表してもよい。
【0084】
spanの位置符号化機構は、
図5に示すように、抽出モジュール22から得られたspan(すなわち、実体と属性であり、
図5のa1、a2、e3、a4、a5、e6となる)は、個々に1つの位置を占める、有用なspanと呼ばれ、その他のテキストコンテンツ中の句読点は、1つの位置を示す、無用なspan(
図5のコンマ「、」)と見なされ、有用なspanと有用なspanの間、または有用なspanと句読点の間にあるテキスト(
図5の「傾向」)も、個々に1つの位置を占める、無用なspanと呼ばれる。最後に、すべてのspan(有用なspanと無用なspanの両方)に、テキストの左から右への順に位置番号(
図5の1、2、3、4、5、6、7、8)をつけることで、有用なspan間の位置距離関係を特徴づけることができ、このような位置距離関係は、最終的なspan種別やspan関係種別の予測に非常に有効な情報となる。
【0085】
spanの位置番号は、次元変換モデルによって1つの特徴ベクトル表現である、span位置特徴ベクトルp
i(
図5におけるp
1、p
2、p
3、p
4、p
5、p
6)に変換される。
【0086】
図6に示すように、有用なspanの位置特徴ベクトルp
iと特徴ベクトルs
iを接続して有用なspanの特徴ベクトルh
iを得る。すなわち、以下のように、spanノードを生成する。
【数8】
【0087】
span関係とは、
図5のa1とe3の間に形成される関係r
13のように、実体と属性の関係である。span関係ノードの特徴には、大きく分けて、1)該span関係を形成する実体span(即ち、e3)と、属性span(即ち、a1)の特徴、2)これら2つのspanの前と、中間と、後に存在する文脈の特徴の、2つの部分がある。
【0088】
該span関係を形成する実体spanと属性spanに関しては、それぞれ各自の特徴ベクトルが生成される。
【0089】
文脈の特徴における前文、中間文、後文については、
図7に示すように、span特徴ベクトル形成と同じプロセスで、次元変換モデルを用いてそれぞれの部分を変換し、前文、中間文、後文の特徴ベクトルを形成した後、この5つの部分の特徴を接続してサイズ変換を行うことにより、最終的なspan関係特徴ベクトルが形成され、すなわちspan関係ノードが生成される。
【0090】
ここで、サイズ変化は、spanの関係特徴ベクトルのサイズとspanの特徴ベクトルのサイズの一致を確保するためである。サイズ変化は、MLP(Multilayer Neural Network)モデルによって実現可能になる。
【0091】
処理モジュール24は、前記第1のデータと前記第1のデータ関係の二部グラフを生成し、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第1のデータと前記第1のデータ関係の種別ラベルを出力する。
【0092】
本実施形態においては、グラフ畳み込みネットワークモデルを事前に学習させる必要があり、グラフ畳み込みネットワークモデルへの入力は、spanノードとspan関係ノード及びこれらの構造的関係であり、該構造的関係は、すなわち、spanノードとspan関係ノードの二部グラフにおける接続関係、すなわち、第1のデータの特徴ベクトルと第1のデータ関係の特徴ベクトル及びそれらの間の構造的関係であり、出力は、ノードの種別、すなわち、第1のデータと第1のデータの関係の種別ラベルである。
【0093】
得られたspanノードとspan関係ノードは、学習済みのグラフ畳み込みネットワークモデルに入力され、softmaxなどの分類器を用いた特徴の分類が行われ、各ノードの種別が出力される。
【0094】
本実施形態においては、実体ノードの種別は、疾病、症状、病変などであり、属性ノードの種別は、部位、性質などであり、関係ノードの種別は、実体ノードの種別と属性ノードの種別の2つの組み合わせで構成されており、ノードの種別は、実用に応じて種類を調整することができる。
【0095】
なお、本発明の少なくとも1つの実施形態においては、前記装置は、さらに第1の学習モジュールを備え、前記第1の学習モジュールは、
第1のデータとその種別、第1のデータ間の関係及びその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換する構造化ユニットと、
前記学習用テキストを用いて、境界抽出モデルの学習を行う第1の学習ユニットであって、前記境界抽出モデルへの入力が前記検査結果であり、出力が前記学習用テキスト内の全ての第1のデータの抽出結果であり、前記第1のデータが、前記学習用テキスト内の属性と実体を含む、前記第1の学習ユニットと、を有する。
【0096】
また、本発明の少なくとも1つの実施形態においては、前記境界抽出モデルの学習を行う学習目標が、損失関数L
spanを最小化することであり、L
spanは、下記式から求められる。
【数9】
【0097】
式中、
(外13)
は、前記検査結果において、前記境界抽出モデルによって予測されたi番目のラベルであり、sは、入力される前記検査結果であり、W
spanは、前記境界抽出モデルの重みパラメータであり、前記境界抽出モデルは、双方向の長短記憶ネットワークと分類器を含み、h
iは、前記双方向の長短記憶ネットワークから出力する単語特徴ベクトル表現であり、|s|は、前記検査結果の長さであり、t
iは、前記検査結果におけるi番目の単語の真のラベルである。
【0098】
また、本発明の少なくとも1つの実施形態においては、前記装置は、第2の学習モジュールをさらに含み、前記第2の学習モジュールは、
前記学習用テキスト内の前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成し、前記学習用テキスト内の任意の1つの実体と属性の第1のデータ関係特徴ベクトルであって、2つの前記第1のデータの特徴ベクトルと、2つの前記第1のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルを含む前記第1のデータ関係特徴ベクトルを生成する特徴ベクトル生成ユニットと、
前記学習用テキスト内の前記第1のデータおよび第1のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第1のデータの特徴ベクトルおよび前記第1のデータ関係の特徴ベクトルを用いて、グラフ畳み込みネットワークモデルの学習を行い、前記グラフ畳み込みネットワークモデルへの入力は、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力は、第1のデータと第1のデータ関係の種別である、第2の学習ユニットと、を有する。
【0099】
また、本発明の少なくとも1つの実施形態においては、前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Lを最小化することであり、Lは、下記式から求められる。
【数10】
【0100】
式中、L
eaは、前記グラフ畳み込みネットワークモデルにおける第1のデータ種別の損失関数であり、L
relは、前記グラフ畳み込みネットワークモデルにおける第1のデータ関係種別の損失関数であり、
(外14)
は、前記グラフ畳み込みネットワークモデルによって予測されるi番目の第1のデータの種別ラベルであり、e
iは、i番目の第1のデータであり、sは、入力される前記検査結果であり、W
ea,W
relは、前記グラフ畳み込みネットワークモデルの重みパラメータであり、F
eiは、前記グラフ畳み込みネットワークモデルから出力するi番目の第1のデータの特徴ベクトル表現であり、
(外15)
は、すべての第1のデータの総数であり、t
iは、i番目の第1のデータの真のラベルであり、
(外16)
は、前記グラフ畳み込みネットワークモデルによって予測されるr
ij種別ラベルであり、r
ijは、第1のデータiと第1のデータjの関係であり、F
rijは、前記グラフ畳み込みネットワークモデルから出力するr
ijの特徴ベクトル表現であり、|r
ij|は、すべての関係の総数であり、lは、関係r
ijの真のラベルである。
【0101】
本実施形態においては、処理対象テキストを構造化データに変換した後に実体と属性の抽出を行うことで、データのノイズを減らし、特徴の抽出を容易にし、さらに計算性能を向上させることができる。また、第1のデータの特徴ベクトルとして、第1のデータのテキスト特徴ベクトルと位置特徴ベクトルを組み合わせることで、実体と属性とそれらの関係情報をより適切に表現することができる。本実施形態の技術的解決策は、効率的かつ容易に実施することができ、診察テキストの実体と属性とそれらの関係の共同抽出結果の精度を向上させることができ、診察テキストの実体と属性とそれらの関係の共同抽出の効率を向上させることができる。
【実施例3】
【0102】
本発明の実施形態は、さらに、
図9に示すような、診察テキストの実体と属性とその関係の共同抽出装置30を提供する。該共同抽出装置は、
プロセッサ32、および
コンピュータプログラム命令が格納されているメモリ34を備え、
前記コンピュータプログラム命令が前記プロセッサによって実行されると、前記プロセッサ32に、
処理対象テキストを、検査結果を含む構造化データに変換するステップと、
前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の属性と実体を含む全ての第1のデータの抽出結果を出力するステップと、
前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化を行い、位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成するステップと、
任意の1つの実体と属性の第1のデータ関係特徴ベクトルを生成するステップであって、前記第1のデータ関係特徴ベクトルが、2つの前記第1のデータの特徴ベクトル及び2つの前記第1のデータの前文特徴ベクトルと、中間文特徴ベクトル及び後文特徴ベクトルを含む、ステップと、
前記第1のデータと前記第1のデータ関係の二部グラフを生成し、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第1のデータおよび前記第1のデータ関係の種別ラベルを出力するステップと、を実行させる。
【0103】
さらに、
図9に示すように、診察テキストの実体や属性とその関係の共同抽出装置30は、ネットワークインターフェース31、入力装置33、ハードディスク35、及び表示装置36をさらに含む。
【0104】
上記の各インターフェースと装置は、バスアーキテクチャを介して相互に接続されていてもよい。バスアーキテクチャは、相互に接続された任意の数のバスとブリッジを含むことができる。具体的には、プロセッサ32に代表される1つまたは複数のCPU(Central Processing Unit)と、メモリ34に代表される1つまたは複数のメモリの各種回路が接続されている。また、バスアーキテクチャは、周辺機器、電圧レギュレータ、パワー管理回路など、他の様々な回路を接続してもよい。バスアーキテクチャがこれらのコンポーネント間の接続通信を可能にするために使用されていることが理解できる。バスアーキテクチャには、データバスの他に、電源バス、制御バス、ステータス信号バスが含まれるが、これらはすべて当技術分野で公知されているため、ここでは詳細な説明は省略する。
【0105】
前記ネットワークインターフェース31は、ネットワーク(インターネット、LANなど)に接続され、ネットワークから学習テキストや処理対象テキストなどの関連データを取得し、ハードディスク35に格納してもよい。
【0106】
前記入力装置33は、操作者が入力した様々な指示を受け取り、実行用にプロセッサ32へ送ってもよい。前記入力装置33は、キーボードや、クリック装置(例えば、マウス、トラックボール(trackball)、タッチパネル、またはタッチスクリーンなど)を含むことができる。
【0107】
前記表示装置36は、プロセッサ32によるコマンド実行から得られた結果を表示してもよい。
【0108】
前記メモリ34は、オペレーティング・システムの動作に必要なプログラムとデータ、及びプロセッサ32の演算中の中間結果などのデータを記憶するためのものである。
【0109】
本発明の実施形態におけるメモリ34は、揮発性メモリであっても不揮発性メモリであってもよく、あるいは揮発性メモリと不揮発性メモリの両方を含んでいてもよいことは理解できる。不揮発性メモリは、ROM(読み取り専用メモリ)、PROM(プログラマブル読み取り専用メモリ)、EPROM(消去可能プログラマブル読み取り専用メモリ)、EEPROM(電気的消去可能プログラマブル読み取り専用メモリ)、フラッシュメモリなどがある。揮発性メモリは、外部キャッシュとして用いられるRAM(ランダムアクセスメモリ)であってもよい。本明細書に記載されている装置および方法のメモリ34は、これらのメモリおよび他の任意の適切な種類のメモリを含むが、これらに限定されるものではない。
【0110】
いくつかの実施例においては、メモリ34は、オペレーティング・システム341およびアプリケーション342という要素、実行可能モジュールまたはデータ構造、またはそれらのサブセット、またはそれらの拡張セットを格納する。
【0111】
ここで、オペレーティング・システム341は、フレームワーク層、コアライブラリ層、ドライバ層などの様々なシステムプログラムを含み、ハードウェアベースのタスクを処理するだけでなく、様々な基本操作を実行するために使用される。アプリケーション342は、ブラウザ(Browser)などの、各種アプリケーション操作を実行するための各種アプリケーションを含む。本発明の実施形態の方法を実施するプログラムは、アプリケーション342に含まれていてもよい。
【0112】
前記プロセッサ32は、前記メモリ34に格納されているアプリケーションおよびデータを呼び出して実行する場合、具体的には、アプリケーション342に格納されているプログラムまたは命令であってもよく、処理対象テキストを、検査結果を含む構造化データに変換し、前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の属性と実体を含む全ての第1のデータの抽出結果を出力し、前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化を行い、位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成し、任意の1つの実体と属性の第1のデータ関係特徴ベクトルを生成し、前記第1のデータ関係特徴ベクトルが、2つの前記第1のデータの特徴ベクトル及び2つの前記第1のデータの前文特徴ベクトルと、中間文特徴ベクトル及び後文特徴ベクトルを含み、前記第1のデータと前記第1のデータ関係の二部グラフを生成し、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第1のデータおよび前記第1のデータ関係の種別ラベルを出力する。
【0113】
さらに、前記プロセッサ32は、前記メモリ34に格納されているアプリケーションおよびデータを呼び出して実行する場合は、具体的には、アプリケーション342に格納されているプログラムまたは命令であってもよく、第1のデータとその種別、および第1のデータ間の関係とその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換し、前記学習用テキストを用いて境界抽出モデルの学習を行い、前記境界抽出モデルが、前記検査結果を入力とし、前記学習用テキスト内の属性および実体を含む第1のデータのすべての抽出結果を出力とする。
【0114】
ここで、前記境界抽出モデルの学習を行う学習目標が、損失関数L
spanを最小化することであり、L
spanは、下記式より求められる。
【数11】
式中、
(外17)
は、前記検査結果において、前記境界抽出モデルによって予測されたi番目のラベルであり、sは、入力される前記検査結果であり、W
spanは、前記境界抽出モデルの重みパラメータであり、前記境界抽出モデルは、双方向の長短記憶ネットワークと分類器を含み、h
iは、前記双方向の長短記憶ネットワークから出力する単語特徴ベクトル表現であり、|s|は、前記検査結果の長さであり、t
iは、前記検査結果におけるi番目の単語の真のラベルである。
【0115】
さらに、前記プロセッサ32は、前記メモリ34に格納されたアプリケーションおよびデータを呼び出して実行する場合は、具体的には、アプリケーション342に格納されたプログラムまたは命令であってもよく、オープンデータを取得し、前記オープンデータは、クエリ命令および前記クエリ命令に対応するクエリ結果を含み、前記オープンデータを用いてクエリデータ生成モデルを生成するための学習を行い、前記クエリデータ生成モデルは、入力されたクエリ結果に基づいて、前記クエリ結果に対応するクエリ命令を生成し、前記クエリデータ生成モデルに特定の領域の文書を入力して、前記第1の学習データを生成する。
【0116】
さらに、前記プロセッサ32は、前記メモリ34に格納された前記アプリケーションおよびデータを呼び出して実行する場合は、具体的には、アプリケーション342に格納されたプログラムまたは命令であってもよく、前記学習用テキスト内の前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成し、前記学習用テキスト内の任意の1つの実体と属性の第1のデータ関係特徴ベクトルであって、2つの前記第1のデータの特徴ベクトルと、2つの前記第1のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルとからなる前記第1のデータ関係特徴ベクトルを生成し、前記学習用テキスト内の前記第1のデータおよび第1のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第1のデータの特徴ベクトルおよび前記第1のデータ関係の特徴ベクトルを用いてグラフ畳み込みネットワークモデルの学習を行い、前記グラフ畳み込みネットワークモデルへの入力が、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力が、第1のデータと第1のデータ関係の種別である。
【0117】
ここで、前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Lを最小化することであり、Lは、下記式より求められる。
【数12】
【0118】
式中、L
eaは、前記グラフ畳み込みネットワークモデルにおける第1のデータ種別の損失関数であり、L
relは、前記グラフ畳み込みネットワークモデルにおける第1のデータ関係種別の損失関数であり、
(外18)
は、前記グラフ畳み込みネットワークモデルによって予測されるi番目の第1のデータの種別ラベルであり、e
iは、i番目の第1のデータであり、sは、入力される前記検査結果であり、W
ea,W
relは、前記グラフ畳み込みネットワークモデルの重みパラメータであり、F
eiは、前記グラフ畳み込みネットワークモデルから出力するi番目の第1のデータの特徴ベクトル表現であり、
(外19)
は、すべての第1のデータの総数であり、t
iは、i番目の第1のデータの真のラベルであり、
(外20)
は、前記グラフ畳み込みネットワークモデルによって予測されるr
ijの種別ラベルであり、r
ijは、第1のデータiと第1のデータiの関係であり、F
rijは、前記グラフ畳み込みネットワークモデルから出力するr
ijの特徴ベクトル表現であり、|r
ij|は、すべての関係の総数であり、lは、関係r
ijの真のラベルである。
【0119】
さらに、前記プロセッサ32は、前記メモリ34に格納された前記アプリケーションおよびデータを呼び出して実行する場合は、具体的には、アプリケーション342に格納されたプログラムまたは命令であってもよく、検査項目用語の辞書を用いて、前記処理対象テキストの検査項目を抽出し、時間抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出し、テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出し、前記検査項目、検査時間、及び検査結果のマッピング関係を確立する。
【0120】
本発明の上記実施形態で開示された方法は、プロセッサ32に適用されてもよく、プロセッサ32によって実施されてもよい。プロセッサ32は、信号の処理能力を有する集積回路チップであってもよい。実施において、上記方法の各ステップは、プロセッサ32のハードウェアの集積論理回路によって、またはソフトウェア形式の命令によって達成されてもよい。前述のプロセッサ32は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)や、他のプログラマブル・ロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントであってもよく、本発明の実施形態で開示されている様々な方法、ステップ、および論理ブロック図を実装または実行することができる。汎用プロセッサは、マイクロプロセッサであってもよく、或いは、プロセッサは、従来の任意のプロセッサなどであってもよい。本発明の実施形態に併せて開示された方法のステップは、ハードウェアの復号化処理装置による実行に直接具現化されてもよく、復号化処理装置のハードウェアモジュールとソフトウェアモジュールの組み合わせによって実行されてもよい。ソフトウェアモジュールは、ランダムメモリ、フラッシュメモリ、リードオンリーメモリ、プログラマブルリードオンリーメモリまたは電気的に消去可能なプログラマブルメモリ、レジスタ等の当技術分野で十分に確立された記憶媒体に配置することができる。記憶媒体は、メモリ34に配置されており、プロセッサ32は、メモリ34の情報を読み込み、ハードウェアと連携して前述の方法のステップを達成する。
【0121】
ここで説明したこれらの実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの組み合わせで実施可能なことは理解できる。ハードウェア実施の場合、処理ユニットは、1つまたは複数の特殊用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブル・ロジックデバイス(PLD)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本願に記載された機能を実行するための他の電子ユニット、またはそれらの組み合わせで実施することができる。
【0122】
ソフトウェア実施の場合は、本明細書に記述された機能を実行するモジュール(例えば、プロシージャ、ファンクションなど)によって本明細書に記載された技術を実施してもよい。ソフトウェアコードは、メモリに格納され、プロセッサによって実行されてもよい。メモリは、プロセッサ内に実装されていても、プロセッサの外部に実装されていてもよい。
【実施例4】
【0123】
本発明の実施形態は、コンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ読み取り可能な記憶媒体は、コンピュータプログラムを格納し、前記コンピュータプログラムは、プロセッサによって実行されると、前記プロセッサに、
処理対象テキストを、検査結果を含む構造化データに変換するステップと、
前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の属性と実体を含む全ての第1のデータの抽出結果を出力するステップと、
前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化を行い、位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成するステップと、
任意の1つの実体と属性の第1のデータ関係特徴ベクトルを生成するステップであって、前記第1のデータ関係特徴ベクトルが、2つの前記第1のデータの特徴ベクトル及び2つの前記第1のデータの前文特徴ベクトルと、中間文特徴ベクトル及び後文特徴ベクトルを含む、ステップと、
前記第1のデータと前記第1のデータ関係の二部グラフを生成し、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第1のデータおよび前記第1のデータ関係の種別ラベルを出力するステップと、を実行させる。
【0124】
いくつかの実施例においては、前記コンピュータプログラムは、前記プロセッサによって実行されると、前記プロセッサに、
第1のデータとその種別、および第1のデータ間の関係とその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換するステップと、
前記学習用テキストを用いて境界抽出モデルの学習を行うステップであって、前記境界抽出モデルが、前記検査結果を入力とし、前記学習用テキスト内の属性および実体を含む第1のデータのすべての抽出結果を出力とする、ステップと、を実行させる。
【0125】
ここで、前記境界抽出モデルの学習を行う学習目標が、損失関数L
spanを最小化することであり、L
spanは、下記式より求められる。
【数13】
【0126】
式中、
(外21)
は、前記検査結果において、前記境界抽出モデルによって予測されたi番目のラベルであり、sは、入力される前記検査結果であり、W
spanは、前記境界抽出モデルの重みパラメータであり、前記境界抽出モデルは、双方向の長短記憶ネットワークと分類器を含み、h
iは、前記双方向の長短記憶ネットワークから出力する単語特徴ベクトル表現であり、|s|は、前記検査結果の長さであり、t
iは、前記検査結果におけるi番目の単語の真のラベルである。
【0127】
いくつかの実施例においては、前記コンピュータプログラムが、前記プロセッサによって実行されると、前記プロセッサに、
前記学習用テキスト内の前記第1のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第1のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第1のデータの特徴ベクトルを形成するステップと、
前記学習用テキスト内の任意の1つの実体と属性の第1のデータ関係特徴ベクトルであって、2つの前記第1のデータの特徴ベクトルと、2つの前記第1のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルとからなる前記第1のデータ関係特徴ベクトルを生成するステップと、
前記学習用テキスト内の前記第1のデータおよび第1のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第1のデータの特徴ベクトルおよび前記第1のデータ関係の特徴ベクトルを用いてグラフ畳み込みネットワークモデルの学習を行うステップであって、前記グラフ畳み込みネットワークモデルへの入力が、前記第1のデータの特徴ベクトル、前記第1のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力が、第1のデータと第1のデータ関係の種別である、ステップと、を実行させる。
【0128】
ここで、前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Lを最小化することであり、Lは、下記式より求められる。
【数14】
【0129】
式中、L
eaは、前記グラフ畳み込みネットワークモデルにおける第1のデータ種別の損失関数であり、L
relは、前記グラフ畳み込みネットワークモデルにおける第1のデータ関係種別の損失関数であり、
(外22)
は、前記グラフ畳み込みネットワークモデルによって予測されるi番目の第1のデータの種別ラベルであり、e
iは、i番目の第1のデータであり、sは、入力される前記検査結果であり、W
ea,W
relは、前記グラフ畳み込みネットワークモデルの重みパラメータであり、F
eiは、前記グラフ畳み込みネットワークモデルから出力するi番目の第1のデータの特徴ベクトル表現であり、
(外23)
は、すべての第1のデータの総数であり、t
iは、i番目の第1のデータの真のラベルであり、
(外24)
は、前記グラフ畳み込みネットワークモデルによって予測されるr
ijの種別ラベルであり、r
ijは、第1のデータiと第1のデータjの関係であり、F
rijは、前記グラフ畳み込みネットワークモデルから出力するr
ijの特徴ベクトル表現であり、|r
ij|は、すべての関係の総数であり、lは、関係r
ijの真のラベルである。
【0130】
いくつかの実施例においては、前記コンピュータプログラムは、前記プロセッサによって実行されると、前記プロセッサに、
検査項目用語の辞書を用いて、前記処理対象テキストの検査項目を抽出するステップと、
時間抽出ルールやテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出するステップと、
テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出するステップと、
前記検査項目、検査時間、及び検査結果のマッピング関係を確立するステップを実行させる。
【0131】
以上が本発明の好ましい実施形態であり、本明細書に記載されている原理を逸脱することなく、当業者であればいくつかの改良や修正が可能であり、これらの改良や修正も本発明の保護範囲内のものと見なされるべきである。