特許7416113 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特許7416113診察テキストの実体と属性とそれらの関係の共同抽出方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-09

(45)【発行日】2024-01-17

(54)【発明の名称】診察テキストの実体と属性とそれらの関係の共同抽出方法及び装置

(51)【国際特許分類】

G16H 10/00 20180101AFI20240110BHJP

【ＦＩ】

G16H10/00

【請求項の数】 12

(21)【出願番号】P 2022046607

(22)【出願日】2022-03-23

(65)【公開番号】P2022159048

(43)【公開日】2022-10-17

【審査請求日】2022-03-23

(31)【優先権主張番号】202110348806.X

(32)【優先日】2021-03-31

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】000006747

【氏名又は名称】株式会社リコー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】ルォイチョン

(72)【発明者】

【氏名】ヨンウエイジャン

(72)【発明者】

【氏名】シャヌシャヌジアン

(72)【発明者】

【氏名】ビヌドォン

【審査官】梅岡信幸

(56)【参考文献】

【文献】中国特許出願公開第１０９８００４１１（ＣＮ，Ａ）

【文献】中国特許出願公開第１１２１６３４１６（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｈ１０／００－８０／００

(57)【特許請求の範囲】

【請求項1】

プロセッサが実行する、診察テキストの実体と属性とそれらの関係の共同抽出方法であって、
処理対象の診察テキストを、検査結果を含む構造化データに変換するステップと、
前記構造化データに含まれる前記検査結果を、第１のデータとその種別である属性、実体、該第１のデータ間の関係とその種別が記された学習用テキストに含まれる検査結果を入力とし、前記学習用テキスト内の属性および実体を含む第１のデータの抽出結果を出力するように事前に学習済みの境界抽出モデルに入力し、前記検査結果の属性と実体を含む全ての第１のデータの抽出結果を出力するステップと、
前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化を行い、位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成するステップと、
任意の実体と属性の２つの前記第１のデータの特徴ベクトル及び前記任意の実体と属性の２つの前記第１のデータの前、中間、後に存在する第１のデータの特徴ベクトルである前文特徴ベクトルと、中間文特徴ベクトル及び後文特徴ベクトルを接続することで前記任意の実体と属性の第１のデータ関係特徴ベクトルを生成するステップと、
前記任意の実体と属性の２つの前記第１のデータと前記任意の実体と属性の２つの前記第１のデータの関係を表す前記第１のデータ関係特徴ベクトルの二部グラフを生成し、前記任意の実体と属性の２つの前記第１のデータの特徴ベクトル、前記任意の実体と属性の２つの前記第１のデータの関係を表す前記第１のデータ関係特徴ベクトルを、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第１のデータおよび前記第１のデータの関係の種別ラベルを出力するステップと、
を含み、
前記グラフ畳み込みネットワークモデルの学習を行うステップをさらに含み、
前記グラフ畳み込みネットワークモデルの学習を行うステップは、
前記学習用テキスト内の前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成するステップと、
前記学習用テキスト内の任意の１つの実体と属性の第１のデータ関係特徴ベクトルであって、２つの前記第１のデータの特徴ベクトルと、２つの前記第１のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルとからなる前記第１のデータ関係特徴ベクトルを生成するステップと、
前記学習用テキスト内の前記第１のデータおよび第１のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第１のデータの特徴ベクトルおよび前記第１のデータ関係の特徴ベクトルを用いてグラフ畳み込みネットワークモデルの学習を行うステップであって、前記グラフ畳み込みネットワークモデルへの入力が、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力が、第１のデータと第１のデータ関係の種別である、ステップと、
を含むことを特徴とする、診察テキストの実体と属性とそれらの関係の共同抽出方法。

【請求項2】

前記境界抽出モデルの学習を行うステップをさらに含み、
前記境界抽出モデルの学習を行うステップは、
第１のデータとその種別、および第１のデータ間の関係とその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換するステップと、
前記学習用テキストを用いて境界抽出モデルの学習を行うステップであって、前記境界抽出モデルが、前記検査結果を入力とし、前記学習用テキスト内の属性および実体を含む第１のデータのすべての抽出結果を出力とする、ステップと、
を含むことを特徴とする、請求項１に記載の診察テキストの実体と属性とそれらの関係の共同抽出方法。

【請求項3】

前記境界抽出モデルの学習を行う学習目標が、損失関数Ｌ_ｓｐａｎ最小化することであり、Ｌ_ｓｐａｎは、下記式より求められる、
ことを特徴とする、請求項２に記載の診察テキストの実体と属性とそれらの関係の共同抽出方法。

【数1】

（式中、
（外１）

は、前記検査結果において、前記境界抽出モデルによって予測されたｉ番目のラベルであり、ｓは、入力される前記検査結果であり、Ｗ_ｓｐａｎは、前記境界抽出モデルの重みパラメータであり、前記境界抽出モデルは、双方向の長短記憶ネットワークと分類器を含み、ｈ_ｉは、前記双方向の長短記憶ネットワークから出力する単語特徴ベクトル表現であり、｜ｓ｜は、前記検査結果の長さであり、ｔ_ｉは、前記検査結果におけるｉ番目の単語の真のラベルである。）

【請求項4】

前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Ｌを最小化することであり、Ｌは、下記式より求められる、
ことを特徴とする、請求項１に記載の診察テキストの実体と属性とそれらの関係の共同抽出方法。

【数2】

（式中、Ｌ_ｅａは、前記グラフ畳み込みネットワークモデルにおける第１のデータ種別の損失関数であり、Ｌ_ｒｅｌは、前記グラフ畳み込みネットワークモデルにおける第１のデータ関係種別の損失関数であり、
（外２）

は、前記グラフ畳み込みネットワークモデルによって予測されるｉ番目の第１のデータの種別ラベルであり、ｅ_ｉは、ｉ番目の第１のデータであり、ｓは、入力される前記検査結果であり、Ｗ_ｅａ，Ｗ_ｒｅｌは、前記グラフ畳み込みネットワークモデルの重みパラメータであり、Ｆ_ｅｉは、前記グラフ畳み込みネットワークモデルから出力するｉ番目の第１のデータの特徴ベクトル表現であり、
（外３）

は、すべての第１のデータの総数であり、ｔ_ｉは、ｉ番目の第１のデータの真のラベルであり、
（外４）

は、前記グラフ畳み込みネットワークモデルによって予測されるｒ_ｉｊの種別ラベルであり、ｒ_ｉｊは、第１のデータｉと第１のデータｊの関係であり、Ｆ_ｒｉｊは、前記グラフ畳み込みネットワークモデルから出力するｒ_ｉｊの特徴ベクトル表現であり、｜ｒ_ｉｊ｜は、すべての関係の総数であり、ｌは、関係ｒ_ｉｊの真のラベルである。）

【請求項5】

処理対象テキストを構造化データに変換することは、
検査項目用語の辞書を用いて、前記処理対象テキストの検査項目を抽出することと、
時間抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出することと、
テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出することと、
前記検査項目、検査時間、及び検査結果のマッピング関係を確立すること、
を含むことを特徴とする、請求項１に記載の診察テキストの実体と属性とそれらの関係の共同抽出方法。

【請求項6】

処理対象の診察テキストを、検査結果を含む構造化データに変換する構造化モジュールと、
前記構造化データに含まれる前記検査結果を、第１のデータとその種別である属性、実体、該第１のデータ間の関係とその種別が記された学習用テキストに含まれる検査結果を入力とし、前記学習用テキスト内の属性および実体を含む第１のデータの抽出結果を出力するように事前に学習済みの境界抽出モデルに入力し、前記検査結果の属性と実体を含む全ての第１のデータの抽出結果を出力する境界抽出モジュールと、
前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成し、任意の実体と属性の２つの前記第１のデータの特徴ベクトル及び前記任意の実体と属性の２つの前記第１のデータの前、中間、後に存在する第１のデータの特徴ベクトルである前文特徴ベクトルと、中間文特徴ベクトル及び後文特徴ベクトルを接続することで前記任意の実体と属性の第１のデータ関係特徴ベクトルを生成する特徴ベクトル生成モジュールと、
前記任意の実体と属性の２つの前記第１のデータと前記任意の実体と属性の２つの前記第１のデータの関係を表す前記第１のデータ関係特徴ベクトルの二部グラフを生成し、前記任意の実体と属性の２つの前記第１のデータの特徴ベクトル、前記任意の実体と属性の２つの前記第１のデータの関係を表す前記第１のデータ関係特徴ベクトルを、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第１のデータおよび前記第１のデータの関係の種別ラベルを出力する処理モジュールと、
を含み、
第２の学習モジュールをさらに含み、
前記第２の学習モジュールは、
前記学習用テキスト内の前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成し、前記学習用テキスト内の任意の１つの実体と属性の第１のデータ関係特徴ベクトルであって、２つの前記第１のデータの特徴ベクトルと、２つの前記第１のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルを含む前記第１のデータ関係特徴ベクトルを生成する特徴ベクトル生成ユニットと、
前記学習用テキスト内の前記第１のデータおよび第１のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第１のデータの特徴ベクトルおよび前記第１のデータ関係の特徴ベクトルを用いて、グラフ畳み込みネットワークモデルの学習を行い、前記グラフ畳み込みネットワークモデルへの入力は、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力は、第１のデータと第１のデータ関係の種別である、第２の学習ユニットと、
を備えることを特徴とする、診察テキストの実体と属性とそれらの関係の共同抽出装置。

【請求項7】

第１の学習モジュールをさらに備え、
前記第１の学習モジュールは、
第１のデータとその種別、第１のデータ間の関係及びその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換する構造化ユニットと、
前記学習用テキストを用いて、境界抽出モデルの学習を行う第１の学習ユニットであって、前記境界抽出モデルへの入力が前記検査結果であり、出力が前記学習用テキスト内の全ての第１のデータの抽出結果であり、前記第１のデータが、前記学習用テキスト内の属性と実体を含む、前記第１の学習ユニットと、
を含むことを特徴とする、請求項６に記載の診察テキストの実体と属性とそれらの関係の共同抽出装置。

【請求項8】

前記境界抽出モデルの学習を行う学習目標が、損失関数Ｌ_ｓｐａｎを最小化することであり、Ｌ_ｓｐａｎは、下記式から求められる、
ことを特徴とする、請求項７に記載の診察テキストの実体と属性とそれらの関係の共同抽出装置。

【数3】

（式中、
（外５）

【請求項9】

前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Ｌを最小化することであり、Ｌは、下記式から求められる、
ことを特徴とする、請求項６に記載の診察テキストの実体と属性とそれらの関係の共同抽出装置。

【数4】

（式中、Ｌ_ｅａは、前記グラフ畳み込みネットワークモデルにおける第１のデータ種別の損失関数であり、Ｌ_ｒｅｌは、前記グラフ畳み込みネットワークモデルにおける第１のデータ関係種別の損失関数であり、
（外６）

は、すべての第１のデータの総数であり、ｔ_ｉは、ｉ番目の第１のデータの真のラベルであり、
（外８）

【請求項10】

前記構造化モジュールは、
検査項目用語の辞書を用いて、処理対象テキストの検査項目を抽出する第１の抽出ユニットと、
時刻抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時刻を抽出する第２の抽出ユニットと、
テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出する第３の抽出ユニットと、
前記検査項目、検査時間、および検査結果の間のマッピング関係を確立するマッピング関係確立ユニットと、
を含むことを特徴とする、請求項６に記載の診察テキストの実体と属性とそれらの関係の共同抽出装置。

【請求項11】

コンピュータに、請求項１から５のいずれか１項に記載の診察テキストの実体と属性とそれらの関係の共同抽出方法を実行させるためのプログラム。

【請求項12】

請求項１１に記載のプログラムを記憶しているコンピュータ読取可能な記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ抽出の分野に関し、具体的には、診察テキスト（健康診断テキスト）の実体と属性とそれらの関係の共同抽出方法、装置に関する。

【背景技術】

【0002】

情報研究の分野において、情報抽出技術は、欠かすことのできない核心技術である。情報検索などの情報処理技術とは異なり、情報抽出においては、命名実体の識別と実体間の関係の抽出が必要となるが、中国語のテキストでは、単語の多様な変化、単語の構成の複雑さ、明白な標識の無さなどにより、中国語で命名された実体の識別と関係の抽出がより困難である。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本発明の実施形態が解決しようとする技術的課題は、診察テキストの実体と属性とそれらの関係の共同抽出結果の精度を向上させ、診察テキストの実体と属性とそれらの関係の共同抽出の効率を向上させることができる、診察テキストの実体と属性とそれらの関係の共同抽出方法、装置を提供することである。

【課題を解決するための手段】

【0004】

本発明の実施形態の一態様によれば、診察テキストの実体と属性とそれらの関係の共同抽出方法であって、
処理対象テキストを、検査結果を含む構造化データに変換するステップと、
前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の属性と実体を含む全ての第１のデータの抽出結果を出力するステップと、
前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化を行い、位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成するステップと、
任意の１つの実体と属性の第１のデータ関係特徴ベクトルを生成するステップであって、前記第１のデータ関係特徴ベクトルが、２つの前記第１のデータの特徴ベクトル及び２つの前記第１のデータの前文特徴ベクトルと、中間文特徴ベクトル及び後文特徴ベクトルを含む、前記第１のデータ関係特徴ベクトルを生成するステップと、
前記第１のデータと前記第１のデータ関係の二部グラフを生成し、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第１のデータおよび前記第１のデータ関係の種別（クラス）ラベルを出力するステップと、
を含む診察テキストの実体と属性とそれらの関係の共同抽出方法を提供する。

【0005】

また、本発明の少なくとも１つの実施形態によれば、前記方法は、前記境界抽出モデルの学習を行うステップをさらに含み、前記境界抽出モデルの学習を行うステップは、
第１のデータとその種別、および第１のデータ間の関係とその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換するステップと、
前記学習用テキストを用いて境界抽出モデルの学習を行うステップであって、前記境界抽出モデルが、前記検査結果を入力とし、前記学習用テキスト内の属性および実体を含む第１のデータのすべての抽出結果を出力とする、ステップと、を含む。

【0006】

また、本発明の少なくとも１つの実施形態によれば、前記境界抽出モデルの学習を行う学習目標が、損失関数L_spanを最小化することであり、L_spanは、下記式より求められる。

【数1】

式中、
（外１）

は、前記検査結果において、前記境界抽出モデルによって予測されたi番目のラベルであり、sは、入力される前記検査結果であり、W_spanは、前記境界抽出モデルの重みパラメータであり、前記境界抽出モデルは、双方向の長短記憶ネットワークと分類器を含み、h_iは、前記双方向の長短記憶ネットワークから出力する単語特徴ベクトル表現であり、|s|は、前記検査結果の長さであり、t_iは、前記検査結果におけるi番目の単語の真のラベルである。

【0007】

また、本発明の少なくとも１つの実施形態によれば、前記方法は、前記グラフ畳み込みネットワークモデルの学習を行うステップをさらに含み、前記グラフ畳み込みネットワークモデルの学習を行うステップは、
前記学習用テキスト内の前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成するステップと、
前記学習用テキスト内の任意の１つの実体と属性の第１のデータ関係特徴ベクトルを生成するステップであって、２つの前記第１のデータの特徴ベクトルと、２つの前記第１のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルとからなる前記第１のデータ関係特徴ベクトルを生成するステップと、
前記学習用テキスト内の前記第１のデータおよび第１のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第１のデータの特徴ベクトルおよび前記第１のデータ関係の特徴ベクトルを用いてグラフ畳み込みネットワークモデルの学習を行うステップであって、前記グラフ畳み込みネットワークモデルへの入力が、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力が、第１のデータと第１のデータ関係の種別である、ステップと、を含む。

【0008】

また、本発明の少なくとも１つの実施形態によれば、前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Lを最小化することであり、Lは、下記式より求められる。

【数2】

【0009】

式中、L_eaは、前記グラフ畳み込みネットワークモデルにおける第１のデータ種別の損失関数であり、L_relは、前記グラフ畳み込みネットワークモデルにおける第１のデータ関係種別の損失関数であり、
（外２）

は、前記グラフ畳み込みネットワークモデルによって予測されるi番目の第１のデータの種別ラベルであり、e_iは、i番目の第１のデータであり、sは、入力される前記検査結果であり、W_ea，W_relは、前記グラフ畳み込みネットワークモデルの重みパラメータであり、F_eiは、前記グラフ畳み込みネットワークモデルから出力するi番目の第１のデータの特徴ベクトル表現であり、
（外３）

は、すべての第１のデータの総数であり、t_iは、i番目の第１のデータの真のラベルであり、
（外４）

は、前記グラフ畳み込みネットワークモデルによって予測されるr_ijの種別ラベルであり、r_ijは、第１のデータiと第１のデータjの関係であり、F_rijは、前記グラフ畳み込みネットワークモデルから出力するr_ijの特徴ベクトル表現であり、|r_ij|は、すべての関係の総数であり、lは、関係r_ijの真のラベルである。

【0010】

また、本発明の少なくとも１つの実施形態によれば、処理対象テキストを構造化データに変換することは、
検査項目用語の辞書を用いて、前記処理対象テキストの検査項目を抽出することと、
時間抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出することと、
テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出することと、
前記検査項目、検査時間、及び検査結果のマッピング関係を確立すること、を含む。

【0011】

本発明の実施形態の他の態様によれば、処理対象テキストを、検査結果を含む構造化データに変換する構造化モジュールと、
前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の属性と実体を含む全ての第１のデータの抽出結果を出力する境界抽出モジュールと、
前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成し、任意の１つの実体と属性の第１のデータ関係特徴ベクトルを生成し、任意の実体と属性の第１のデータ関係特徴ベクトルであって、前記第１のデータの２つの特徴ベクトルと、前記第１のデータの２つの前文の特徴ベクトルと、中間文の特徴ベクトルと、後文の特徴ベクトルとを含む、前記第１のデータ関係特徴ベクトルを生成する特徴ベクトル生成モジュールと、
前記第１のデータと前記第１のデータ関係の二部グラフを生成し、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第１のデータと前記第１のデータ関係の種別ラベルを出力する処理モジュールと、を含む診察テキストの実体と属性とそれらの関係の共同抽出装置を提供する。

【0012】

また、本発明の少なくとも１つの実施形態によれば、前記装置は、第１の学習モジュールをさらに備え、前記第１の学習モジュールは、
第１のデータとその種別、第１のデータ間の関係及びその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換する構造化ユニットと、
前記学習用テキストを用いて、境界抽出モデルの学習を行う第１の学習ユニットであって、前記境界抽出モデルへの入力が前記検査結果であり、出力が前記学習用テキスト内の全ての第１のデータの抽出結果であり、前記第１のデータが、前記学習用テキスト内の属性と実体を含む、前記第１の学習ユニットと、を含む。

【0013】

また、本発明の少なくとも１つの実施形態によれば、前記境界抽出モデルの学習を行う学習目標が、損失関数L_spanを最小化することであり、L_spanは、下記式から求められる。

【数3】

式中、
（外５)

【0014】

また、本発明の少なくとも１つの実施形態によれば、前記装置は、第２の学習モジュールをさらに含み、前記第２の学習モジュールは、
前記学習用テキスト内の前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成し、前記学習用テキスト内の任意の１つの実体と属性の第１のデータ関係特徴ベクトルであって、２つの前記第１のデータの特徴ベクトルと、２つの前記第１のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルを含む前記第１のデータ関係特徴ベクトルを生成する特徴ベクトル生成ユニットと、
前記学習用テキスト内の前記第１のデータおよび第１のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第１のデータの特徴ベクトルおよび前記第１のデータ関係の特徴ベクトルを用いて、グラフ畳み込みネットワークモデルの学習を行い、前記グラフ畳み込みネットワークモデルへの入力は、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力は、第１のデータと第１のデータ関係の種別である、第２の学習ユニットと、を備える。

【0015】

また、本発明の少なくとも１つの実施形態によれば、前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Lを最小化することであり、Lは、下記式から求められる。

【数4】

【0016】

式中、L_eaは、前記グラフ畳み込みネットワークモデルにおける第１のデータ種別の損失関数であり、L_relは、前記グラフ畳み込みネットワークモデルにおける第１のデータ関係種別の損失関数であり、
（外６）

は、すべての第１のデータの総数であり、t_iは、i番目の第１のデータの真のラベルであり、
（外８）

【0017】

また、本発明の少なくとも１つの実施形態によれば、前記構造化モジュールは、
検査項目用語の辞書を用いて、前記処理対象テキスト内の検査項目を抽出する第１の抽出ユニットと、
時刻抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時刻を抽出する第２の抽出ユニットと、
テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出する第３の抽出ユニットと、
前記検査項目、検査時間、および検査結果の間のマッピング関係を確立するマッピング関係確立ユニットと、を含む。

【0018】

さらに、本発明の実施形態は、コンピュータプログラムが格納されているコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項１から６のいずれか１項に記載の診察テキストの実体と属性とそれらの関係の共同抽出方法のステップを実施するコンピュータ読取可能な記憶媒体を提供する。

【発明の効果】

【0019】

本発明の実施形態により提供される診察テキストの実体と属性とそれらの関係の共同抽出方法および装置は、先行技術に比べて、処理対象テキストを構造化データに変換した後、実体と属性の抽出を行うことで、データのノイズを低減し、特徴の抽出を容易にすることができ、また、計算性能を向上させることができる。さらに、第１のデータのテキスト特徴ベクトルおよび位置特徴ベクトル統合して第１のデータの特徴ベクトルとすることで、実体と属性とその関連情報をより適切に表現することができる。本実施形態の技術的解決策は、効率的かつ容易に実施することができ、診察テキストの実体と属性とそれらの関係の共同抽出結果の精度を向上させることができ、診察テキストの実体と属性とそれらの関係の共同抽出の効率を向上させることができる。

【図面の簡単な説明】

【0020】

本発明の実施形態の技術的解決策をより明確に示すために、以下、本発明の実施形態の説明に必要な添付図面を簡単に説明するが、以下の説明における添付図面は、本発明の一部の実施形態に過ぎず、創造的な労力を要することなく、これらの添付図面から他の図面が得られることは当業者に自明である。

【図1】本発明の実施形態に係る診察テキストの実体と属性とそれらの関係の共同抽出方法の概略フローチャートである。

【図2】本発明の一実施形態に係る診察テキストの模式図である。

【図3】本発明の実施形態に係る構造化データの模式図である。

【図4】本発明の実施形態に係る第１のデータの抽出概略図である。

【図5】本発明の実施形態に係る位置符号化の模式図である。

【図6】本発明の実施形態に係るspanノードの生成概略図である。

【図7】本発明の実施形態に係るspan関係ノードの生成概略図である。

【図8】本発明の実施形態に係る診察テキストの実体と属性とその関係の共同抽出装置の構造概略図である。

【図9】本発明の実施形態に係る診察テキストの実体と属性とその関係の共同抽出装置の構成概略図である。

【発明を実施するための形態】

【0021】

本発明が解決しようとする技術的な問題、技術的な解決策、および利点を明確にするために、以下、添付の図面および具体的な実施形態と併せて詳細に説明する。以下の説明では、具体的な構成や部品などの特定の詳細は、本発明の実施形態の全体的な理解を助けるためにのみ提供されている。このため、本発明の範囲と精神から逸脱することなく、本明細書に記載されている実施形態に様々な変更や修正を加えることができることは、当業者に自明である。さらに、公知の機能や構成に関する説明は、わかりやすく簡潔にするために省略している。

【0022】

本明細書全体で言及している「一つの実施形態」または「一実施形態」とは、実施形態に関連する特定の特徴、構造、または特性が、本発明の少なくとも１つの実施形態に含まれることを意味することを理解されたい。したがって、本明細書中に登場する「一つの実施形態において」または「一実施形態において」は、必ずしも同じ実施形態を意味するものではない。さらに、これらの特定の特徴、構造、または特性は、任意の適切な方法で１つまたは複数の実施形態で組み合わせることができる。

【0023】

本発明の様々な実施形態において、以下の各工程のシリアル番号の大きさは、実行の順序を意味するものではなく、各工程の実行順序は、その機能と固有の論理によって決定されるものであり、本発明の実施形態の実施工程を何ら制限するものではないことを理解されたい。

【0024】

本発明の実施形態においては、診察テキストの実体と属性とそれらの関係の共同抽出のための方法および装置を提供し、これにより、診察テキストの実体と属性とそれらの関係の共同抽出結果の精度を向上させ、診察テキストの実体と属性とそれらの関係の共同抽出の効率を向上させることができる。

【実施例1】

【0025】

本発明の実施形態は、図１に示すようなステップを含む、診察テキストの実体と属性とそれらの関係の共同抽出方法を提供する。

【0026】

ステップ１０１において、処理対象テキストを構造化データに変換し、前記構造化データは検査の結果を含む。

【0027】

本実施形態においては、処理対象テキストは診察テキストであってもよく、具体的な例としては、図２に示すような診察テキストが挙げられる。診察テキストの文章は長く、実体や属性の抽出には適していないため、処理対象テキストを一定の形式の構造化データに変換する必要がある。

【0028】

本実施形態においては、検査項目用語辞書を使用して前記処理対象テキスト内の検査項目を抽出することができる。検査項目用語辞書は、大量の医療データ（診療ガイドライン、カルテなどを含む）から、ルールによりかつ手作業による補足で、収集・整理された後、検査項目用語辞書の用語が長いものから短いものへと長さに応じてソートされ、最長一致抽出原理により、例えば、TCT、コルポスコピー生検病理検査などの検査項目を診察テキストから抽出する。

【0029】

本実施形態においては、時間抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出することができる。多数の診察テキストにおける検査時間の可能な出現形態を統計した後、検査時間は検査結果に対し、検査結果の前（正順）または検査結果の後（逆順）という相対的な位置関係を有することが判明したため、正順時間抽出法や逆順時間抽出法によって前記処理対象テキスト内の検査時間を抽出することができる。

【0030】

本実施形態においては、テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出することができる。多数の診察テキストを調査した結果、診察テキストでは、検査時間、検査項目、検査結果が、通常、隣り合っており、異なる検査記述は、通常、ピリオド、セミコロン、エクスクラメーションマーク、クエスチョンマークなどの分割を示す記号で区切られているため、前記処理対象テキスト内の検査結果は、テキストの句読点とテキストの距離に基づいて抽出することができることがわかった。

【0031】

その後、抽出した検査項目、検査時間、検査結果を１つずつマッピングして、前記検査項目、検査時間、検査結果のマッピング関係を確立し、構造化データを形成する。

【0032】

１つの具体的な例として、処理対象テキストは、図２に示すような診察テキストであり、変換後に形成される構造化データは、図３に示すようなものとなる。

【0033】

ステップ１０２において、前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の全ての第１のデータの抽出結果を出力し、前記第１のデータは前記処理対象テキスト内の属性と実体からなる。

【0034】

該実施形態においては、境界抽出モデルを事前に学習させる必要があり、境界抽出モデルへの入力は、診察テキスト中の診察結果であり、出力は、診察テキスト中の全ての第１のデータ（spanで表され、実体と属性を含む）の抽出結果である。

【0035】

本実施形態においては、境界抽出モデルは、任意の実体抽出モデルを用いることができ、具体例としては、図４に示すように、前記境界抽出モデルは、双方向の長短記憶ネットワークBiLSTMモデルと分類器softmaxを含む。

【0036】

境界抽出モデルの学習を行う際、学習用テキストを構造化データに変換し、前記構造化データは、検査時間、検査項目、検査結果、およびこれらの対応関係で構成され、前記学習用テキストには、第１のデータとその種別、第１のデータ間の関係とその種別が記されており、前記学習用テキストを用いて境界抽出モデルの学習を行い、前記境界抽出モデルの入力は、前記検査結果であり、出力は、前記学習用テキスト内の全ての第１のデータの抽出結果であり、前記第１のデータは、前記学習用テキスト内の属性と実体を含む。

【0037】

図４に示すように、１つの具体的な例においては、境界抽出モデルの入力は、「一部上皮細胞非典型増殖、傾向」であり、出力はspanの抽出結果であり、具体的には、一連のラベルの形式である。ここで、“B”はspanの開始位置を示し、“I”はspanに属していることを、“O”はspanに属していないことを示し、“A”は該spanが１つの属性であることを、“E”は、該spanが１つの実体であることを示す。

【0038】

前記境界抽出モデルの学習を行う学習目標は、損失関数L_spanを最小化することであり、L_spanは、下記式より求められる。

【数5】

式中、
（外９）

【0039】

境界抽出モデルの学習が済み、ステップ１０１で得られた検査結果を境界抽出モデルに入力すると、出力されるspanを得ることができるが、このステップではspanを出力するだけで、spanの種別は与えない。本実施形態においては、spanの種別は、実体と属性を含み、実体は、主に、図４の「増殖」のような、疾病、病変、症状等を指し、属性は、病変の発生部位（図４の「一部上皮細胞」）や、病変の性質（図４の「非典型」）など、これらの実体を説明する用語を指している。

【0040】

ステップ１０３において、前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成し、任意の１つの実体と属性の第１のデータ関係特徴ベクトルを生成し、前記第１のデータ関係特徴ベクトルは、２つの前記第１のデータの特徴ベクトルと、２つの前記第１のデータの前文特徴ベクトル、中間文特徴ベクトル及び後文特徴ベクトルを含んでいる。

【0041】

ここで、第１のデータはspanノードと呼ばれることがあり、第１のデータの関係はspan間の関係ノードと呼ばれることがあり、spanノードとspan間の関係ノードは、以降にグラフ畳み込みネットワークモデルに入力されるノードである。第１のデータの関係は、２つの第１のデータの関係であり、該２つの第１のデータは、任意の１つの実体と、１つの属性を含む。

【0042】

ステップ１０２で得られたspanの境界結果と、BiLSTMモデルの最終出力のテキストベクトル特徴表現は、次元変換モデルを経て、１つのspan（複数の単語特徴ベクトルで表現される）から、１つの特徴ベクトル表現に変換され、該spanのテキスト特徴ベクトルが表され、ここで、次元変換モデルは、CNN（畳み込みニューラルネットワーク）＋pooling(プーリング層）モデルなどであってもよく、他の次元変換モデルであってもよい。

【0043】

また、位置符号化機構によって、span位置特徴ベクトル表現を生成し、spanテキスト特徴ベクトル表現とspan位置特徴ベクトル表現とを接続し、該spanの特徴ベクトルを表してもよい。

【0044】

spanの位置符号化機構を図５に示す。ステップ１０２で得られたspan（すなわち、実体と属性であり、図５のa１、a２、e３、a４、a５、e６となる）は、個々に１つの位置を占める、有用なspanと呼ばれ、その他のテキストコンテンツ中の句読点は、１つの位置を示す、無用なspan（図５のコンマ「、」）と見なされ、有用なspanと有用なspanの間、または有用なspanと句読点の間にあるテキスト（図５の「傾向」）も、個々に１つの位置を占める、無用なspanと呼ばれる。最後に、すべてのspan（有用なspanと無用なspanの両方）に、テキストの左から右への順に位置番号（図５の１、２、３、４、５、６、７、８）をつけることで、有用なspan間の位置距離関係を特徴づけることができ、このような位置距離関係は、最終的なspan種別やspan関係種別の予測に非常に有効な情報となる。

【0045】

spanの位置番号は、次元変換モデルによって１つの特徴ベクトル表現である、span位置特徴ベクトルp_i（図５におけるp_１、p_２、p_３、p_４、p_５、p_６)に変換される。

【0046】

図６に示すように、有用なspanの位置特徴ベクトルp_iと特徴ベクトルs_iを接続して有用なspanの特徴ベクトルh_iを得る。すなわち、以下のように、spanノードを生成する。

【数6】

【0047】

span関係とは、図５のa１とe３の間に形成される関係r₁₃のように、実体と属性の関係である。span関係ノードの特徴には、大きく分けて、１）該span関係を形成する実体span（即ち、e３）と、属性span（即ち、a１）の特徴、２）これら２つのspanの前と、中間と、後に存在する文脈の特徴の、２つの部分がある。

【0048】

該span関係を形成する実体spanと属性spanに関しては、それぞれ各自の特徴ベクトルが生成される。

【0049】

文脈の特徴における前文、中間文、後文については、図７に示すように、span特徴ベクトル形成と同じプロセスで、次元変換モデルを用いてそれぞれの部分を変換し、前文、中間文、後文の特徴ベクトルを形成した後、この５つの部分の特徴を接続してサイズ変換を行うことにより、最終的なspan関係特徴ベクトルが形成され、すなわちspan関係ノードが生成される。

【0050】

ここで、サイズ変化は、spanの関係特徴ベクトルのサイズとspanの特徴ベクトルのサイズの一致を確保するためである。サイズ変化は、MLP（Multilayer Neural Network）モデルによって実現可能になる。

【0051】

ステップ１０４において、前記第１のデータと前記第１のデータ関係の二部グラフを生成し、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第１のデータと前記第１のデータ関係の種別ラベルを出力する。

【0052】

本実施形態においては、グラフ畳み込みネットワークモデルを事前に学習させる必要があり、グラフ畳み込みネットワークモデルへの入力は、spanノードとspan関係ノード及びこれらの構造的関係であり、該構造的関係は、すなわち、spanノードとspan関係ノードの二部グラフにおける接続関係、すなわち、第１のデータの特徴ベクトルと第１のデータ関係の特徴ベクトル及びそれらの間の構造的関係であり、出力は、ノードの種別、すなわち、第１のデータと第１のデータの関係の種別ラベルである。

【0053】

span関係ノードは、該span関係ノードを形成する２つのspanノードのそれぞれに接続され、二部グラフが形成される。図７に示すように、spanノードh_１、spanノードh_３、およびspan関係ノードr_１３を用いて二部グラフを生成することができる。該二部グラフにおいて、span関係ノードr_１３は、それぞれspanノードh_１およびspanノードh_３に接続されており、span関係ノードr_１３とspanノードh_１の接続関係、span関係ノードr_１３とspanノードh_３の接続関係は、つまり、spanノードとspan関係ノードの構造的関係であり、すなわち、第１のデータの特徴ベクトルと第１のデータ関係の特徴ベクトルの構造的関係である。

【0054】

本実施形態においては、グラフ畳み込みネットワークモデルは、GCN（Graph Convolutional Neural Network）モデルと分類器softmaxを含む。

【0055】

ここで、前記グラフ畳み込みネットワークモデルの学習を行うステップが、
前記学習用テキスト内の前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成するステップと、
前記学習用テキスト内の任意の１つの実体と属性の第１のデータ関係特徴ベクトルであって、２つの前記第１のデータの特徴ベクトルと、２つの前記第１のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルとからなる前記第１のデータ関係特徴ベクトルを生成するステップと、
前記学習用テキスト内の前記第１のデータおよび第１のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第１のデータの特徴ベクトルおよび前記第１のデータ関係の特徴ベクトルを用いてグラフ畳み込みネットワークモデルの学習を行うステップであって、前記グラフ畳み込みネットワークモデルへの入力が、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力が、第１のデータと第１のデータ関係の種別である、ステップと、を含む。

【0056】

ここで、前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Lを最小化することであり、Lは、下記式より求められる。

【数7】

【0057】

式中、L_eaは、前記グラフ畳み込みネットワークモデルにおける第１のデータ種別の損失関数であり、L_relは、前記グラフ畳み込みネットワークモデルにおける第１のデータ関係種別の損失関数であり、
（外１０)

は、すべての第１のデータの総数であり、t_iは、i番目の第１のデータの真のラベルであり、
（外１２）

は、前記グラフ畳み込みネットワークモデルによって予測されるr_ijの種別ラベルであり、r_ijは、第１のデータiと第１のデータjの関係であり、F_rijは、前記グラフ畳み込みネットワークモデルから出力するr_ijの特徴ベクトル表現であり、|r_ij|は、すべての関係の総数であり、ｌは、関係r_ijの真のラベルである。

【0058】

共同抽出モデル全体の学習目標は、最小の全損失関数スコアを得ることであり、その後、モデルのパラメータが保存され、該モデルを予測に使用することができる。ステップ１０３で得られたspanノードとspan関係ノードは、学習済みのグラフ畳み込みネットワークモデルに入力され、softmaxなどの分類器を用いた特徴の分類が行われ、各ノードの種別が出力される。

【0059】

本実施形態においては、spanノードとspan関係ノードを用いてノードの種別を取得し、ノード間の関係を考慮することで、診察テキストの実体と属性とそれらの関係の共同抽出結果の精度を向上させることができ、また、診察テキストの実体と属性とそれらの関係の共同抽出の効率を向上させることができる。

【0060】

本実施形態においては、実体ノードの種別は、疾病、症状、病変などであり、属性ノードの種別は、部位、性質などであり、関係ノードの種別は、実体ノードの種別と属性ノードの種別の２つの組み合わせで構成されており、ノードの種別は、実用に応じて種類を調整することができる。

【0061】

本実施形態においては、処理対象テキストを構造化データに変換した後に実体と属性の抽出を行うことで、データのノイズを減らし、特徴の抽出を容易にし、さらに計算性能を向上させることができる。また、第１のデータの特徴ベクトルとして、第１のデータのテキスト特徴ベクトルと位置特徴ベクトルを組み合わせることで、実体と属性とそれらの関係情報をより適切に表現することができる。本実施形態の技術的解決策は、効率的かつ容易に実施することができ、診察テキストの実体と属性とそれらの関係の共同抽出結果の精度を向上させることができ、診察テキストの実体と属性とそれらの関係の共同抽出の効率を向上させることができる。

【実施例2】

【0062】

本発明の実施形態においては、さらに、図８に示すような構成を備えた、診察テキストの実体と属性とそれらの関係の共同抽出装置を提供する。

【0063】

構造化モジュール２１は、処理対象テキストを構造化データに変換するためのものであり、前記構造化データは検査結果を含む。

【0064】

【0065】

ここで、前記構造化モジュール２１は、以下のユニットを備えている。

【0066】

第１の抽出ユニットは、検査項目用語辞書を使用して前記処理対象テキスト内の検査項目を抽出するためのものである。

【0067】

【0068】

第２の抽出ユニットは、時間抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出するためのものである。

【0069】

【0070】

第３の抽出ユニットは、テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出するためのものである。

【0071】

【0072】

マッピング関係確立ユニットは、前記検査項目、検査時間、及び検査結果間のマッピング関係を確立するためのものである。

【0073】

その後、抽出した検査項目、検査時間、検査結果を１つずつマッピングして、前記検査項目、検査時間、検査結果間のマッピング関係を確立し、構造化データを形成する。

【0074】

【0075】

境界抽出モジュール２２は、前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の全ての第１のデータの抽出結果を出力するものであり、前記第１のデータは前記処理対象テキスト内の属性と実体からなる。

【0076】

【0077】

【0078】

【0079】

境界抽出モデルの学習が済み、得られた検査結果を境界抽出モデルに入力すると、出力されるspanを得ることができるが、このステップではspanを出力するだけで、spanの種別は与えない。本実施形態においては、spanの種別は、実体と属性を含み、実体は、主に、図４の「増殖」のような、疾病、病変、症状等を指し、属性は、病変の発生部位（図４の「一部上皮細胞」）や、病変の性質（図４の「非典型」）など、これらの実体を説明する用語を指している。

【0080】

ベクトル生成モジュール２３は、前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成し、任意の１つの実体と属性の第１のデータ関係特徴ベクトルを生成し、前記第１のデータ関係特徴ベクトルは、２つの前記第１のデータの特徴ベクトルと、２つの前記第１のデータの前文特徴ベクトル、中間文特徴ベクトル及び後文特徴ベクトルを含んでいる。

【0081】

【0082】

得られたspanの境界結果と、BiLSTMモデルの最終出力のテキストベクトル特徴表現は、次元変換モデルを経て、１つのspan（複数の単語特徴ベクトルで表現される）から、１つの特徴ベクトル表現に変換され、該spanのテキスト特徴ベクトルが表され、ここで、次元変換モデルは、CNN（畳み込みニューラルネットワーク）＋pooling(プーリング層）モデルなどであってもよく、他の次元変換モデルであってもよい。

【0083】

【0084】

spanの位置符号化機構は、図５に示すように、抽出モジュール２２から得られたspan（すなわち、実体と属性であり、図５のa１、a２、e３、a４、a５、e６となる）は、個々に１つの位置を占める、有用なspanと呼ばれ、その他のテキストコンテンツ中の句読点は、１つの位置を示す、無用なspan（図５のコンマ「、」）と見なされ、有用なspanと有用なspanの間、または有用なspanと句読点の間にあるテキスト（図５の「傾向」）も、個々に１つの位置を占める、無用なspanと呼ばれる。最後に、すべてのspan（有用なspanと無用なspanの両方）に、テキストの左から右への順に位置番号（図５の１、２、３、４、５、６、７、８）をつけることで、有用なspan間の位置距離関係を特徴づけることができ、このような位置距離関係は、最終的なspan種別やspan関係種別の予測に非常に有効な情報となる。

【0085】

【0086】

【数8】

【0087】

【0088】

該span関係を形成する実体spanと属性spanに関しては、それぞれ各自の特徴ベクトルが生成される。

【0089】

【0090】

【0091】

処理モジュール２４は、前記第１のデータと前記第１のデータ関係の二部グラフを生成し、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第１のデータと前記第１のデータ関係の種別ラベルを出力する。

【0092】

【0093】

得られたspanノードとspan関係ノードは、学習済みのグラフ畳み込みネットワークモデルに入力され、softmaxなどの分類器を用いた特徴の分類が行われ、各ノードの種別が出力される。

【0094】

【0095】

なお、本発明の少なくとも１つの実施形態においては、前記装置は、さらに第１の学習モジュールを備え、前記第１の学習モジュールは、
第１のデータとその種別、第１のデータ間の関係及びその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換する構造化ユニットと、
前記学習用テキストを用いて、境界抽出モデルの学習を行う第１の学習ユニットであって、前記境界抽出モデルへの入力が前記検査結果であり、出力が前記学習用テキスト内の全ての第１のデータの抽出結果であり、前記第１のデータが、前記学習用テキスト内の属性と実体を含む、前記第１の学習ユニットと、を有する。

【0096】

また、本発明の少なくとも１つの実施形態においては、前記境界抽出モデルの学習を行う学習目標が、損失関数L_spanを最小化することであり、L_spanは、下記式から求められる。

【数9】

【0097】

式中、
（外１３）

【0098】

また、本発明の少なくとも１つの実施形態においては、前記装置は、第２の学習モジュールをさらに含み、前記第２の学習モジュールは、
前記学習用テキスト内の前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成し、前記学習用テキスト内の任意の１つの実体と属性の第１のデータ関係特徴ベクトルであって、２つの前記第１のデータの特徴ベクトルと、２つの前記第１のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルを含む前記第１のデータ関係特徴ベクトルを生成する特徴ベクトル生成ユニットと、
前記学習用テキスト内の前記第１のデータおよび第１のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第１のデータの特徴ベクトルおよび前記第１のデータ関係の特徴ベクトルを用いて、グラフ畳み込みネットワークモデルの学習を行い、前記グラフ畳み込みネットワークモデルへの入力は、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力は、第１のデータと第１のデータ関係の種別である、第２の学習ユニットと、を有する。

【0099】

また、本発明の少なくとも１つの実施形態においては、前記グラフ畳み込みネットワークモデルと前記境界抽出モデルからなる共同抽出モデルの学習を行う学習目標が、損失関数Lを最小化することであり、Lは、下記式から求められる。

【数10】

【0100】

式中、L_eaは、前記グラフ畳み込みネットワークモデルにおける第１のデータ種別の損失関数であり、L_relは、前記グラフ畳み込みネットワークモデルにおける第１のデータ関係種別の損失関数であり、
（外１４）

は、すべての第１のデータの総数であり、t_iは、i番目の第１のデータの真のラベルであり、
（外１６）

は、前記グラフ畳み込みネットワークモデルによって予測されるr_ij種別ラベルであり、r_ijは、第１のデータiと第１のデータjの関係であり、F_rijは、前記グラフ畳み込みネットワークモデルから出力するr_ijの特徴ベクトル表現であり、|r_ij|は、すべての関係の総数であり、ｌは、関係r_ijの真のラベルである。

【0101】

【実施例3】

【0102】

本発明の実施形態は、さらに、図９に示すような、診察テキストの実体と属性とその関係の共同抽出装置３０を提供する。該共同抽出装置は、
プロセッサ３２、および
コンピュータプログラム命令が格納されているメモリ３４を備え、
前記コンピュータプログラム命令が前記プロセッサによって実行されると、前記プロセッサ３２に、
処理対象テキストを、検査結果を含む構造化データに変換するステップと、
前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の属性と実体を含む全ての第１のデータの抽出結果を出力するステップと、
前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化を行い、位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成するステップと、
任意の１つの実体と属性の第１のデータ関係特徴ベクトルを生成するステップであって、前記第１のデータ関係特徴ベクトルが、２つの前記第１のデータの特徴ベクトル及び２つの前記第１のデータの前文特徴ベクトルと、中間文特徴ベクトル及び後文特徴ベクトルを含む、ステップと、
前記第１のデータと前記第１のデータ関係の二部グラフを生成し、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第１のデータおよび前記第１のデータ関係の種別ラベルを出力するステップと、を実行させる。

【0103】

さらに、図９に示すように、診察テキストの実体や属性とその関係の共同抽出装置３０は、ネットワークインターフェース３１、入力装置３３、ハードディスク３５、及び表示装置３６をさらに含む。

【0104】

上記の各インターフェースと装置は、バスアーキテクチャを介して相互に接続されていてもよい。バスアーキテクチャは、相互に接続された任意の数のバスとブリッジを含むことができる。具体的には、プロセッサ３２に代表される１つまたは複数のCPU（Central Processing Unit）と、メモリ３４に代表される１つまたは複数のメモリの各種回路が接続されている。また、バスアーキテクチャは、周辺機器、電圧レギュレータ、パワー管理回路など、他の様々な回路を接続してもよい。バスアーキテクチャがこれらのコンポーネント間の接続通信を可能にするために使用されていることが理解できる。バスアーキテクチャには、データバスの他に、電源バス、制御バス、ステータス信号バスが含まれるが、これらはすべて当技術分野で公知されているため、ここでは詳細な説明は省略する。

【0105】

前記ネットワークインターフェース３１は、ネットワーク（インターネット、LANなど）に接続され、ネットワークから学習テキストや処理対象テキストなどの関連データを取得し、ハードディスク３５に格納してもよい。

【0106】

前記入力装置３３は、操作者が入力した様々な指示を受け取り、実行用にプロセッサ３２へ送ってもよい。前記入力装置３３は、キーボードや、クリック装置（例えば、マウス、トラックボール（trackball）、タッチパネル、またはタッチスクリーンなど）を含むことができる。

【0107】

前記表示装置３６は、プロセッサ３２によるコマンド実行から得られた結果を表示してもよい。

【0108】

前記メモリ３４は、オペレーティング・システムの動作に必要なプログラムとデータ、及びプロセッサ３２の演算中の中間結果などのデータを記憶するためのものである。

【0109】

本発明の実施形態におけるメモリ３４は、揮発性メモリであっても不揮発性メモリであってもよく、あるいは揮発性メモリと不揮発性メモリの両方を含んでいてもよいことは理解できる。不揮発性メモリは、ROM(読み取り専用メモリ)、PROM(プログラマブル読み取り専用メモリ)、EPROM(消去可能プログラマブル読み取り専用メモリ)、EEPROM(電気的消去可能プログラマブル読み取り専用メモリ)、フラッシュメモリなどがある。揮発性メモリは、外部キャッシュとして用いられるRAM(ランダムアクセスメモリ)であってもよい。本明細書に記載されている装置および方法のメモリ３４は、これらのメモリおよび他の任意の適切な種類のメモリを含むが、これらに限定されるものではない。

【0110】

いくつかの実施例においては、メモリ３４は、オペレーティング・システム３４１およびアプリケーション３４２という要素、実行可能モジュールまたはデータ構造、またはそれらのサブセット、またはそれらの拡張セットを格納する。

【0111】

ここで、オペレーティング・システム３４１は、フレームワーク層、コアライブラリ層、ドライバ層などの様々なシステムプログラムを含み、ハードウェアベースのタスクを処理するだけでなく、様々な基本操作を実行するために使用される。アプリケーション３４２は、ブラウザ（Browser）などの、各種アプリケーション操作を実行するための各種アプリケーションを含む。本発明の実施形態の方法を実施するプログラムは、アプリケーション３４２に含まれていてもよい。

【0112】

前記プロセッサ３２は、前記メモリ３４に格納されているアプリケーションおよびデータを呼び出して実行する場合、具体的には、アプリケーション３４２に格納されているプログラムまたは命令であってもよく、処理対象テキストを、検査結果を含む構造化データに変換し、前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の属性と実体を含む全ての第１のデータの抽出結果を出力し、前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化を行い、位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成し、任意の１つの実体と属性の第１のデータ関係特徴ベクトルを生成し、前記第１のデータ関係特徴ベクトルが、２つの前記第１のデータの特徴ベクトル及び２つの前記第１のデータの前文特徴ベクトルと、中間文特徴ベクトル及び後文特徴ベクトルを含み、前記第１のデータと前記第１のデータ関係の二部グラフを生成し、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第１のデータおよび前記第１のデータ関係の種別ラベルを出力する。

【0113】

さらに、前記プロセッサ３２は、前記メモリ３４に格納されているアプリケーションおよびデータを呼び出して実行する場合は、具体的には、アプリケーション３４２に格納されているプログラムまたは命令であってもよく、第１のデータとその種別、および第１のデータ間の関係とその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換し、前記学習用テキストを用いて境界抽出モデルの学習を行い、前記境界抽出モデルが、前記検査結果を入力とし、前記学習用テキスト内の属性および実体を含む第１のデータのすべての抽出結果を出力とする。

【0114】

ここで、前記境界抽出モデルの学習を行う学習目標が、損失関数L_spanを最小化することであり、L_spanは、下記式より求められる。

【数11】

式中、
（外１７）

【0115】

さらに、前記プロセッサ３２は、前記メモリ３４に格納されたアプリケーションおよびデータを呼び出して実行する場合は、具体的には、アプリケーション３４２に格納されたプログラムまたは命令であってもよく、オープンデータを取得し、前記オープンデータは、クエリ命令および前記クエリ命令に対応するクエリ結果を含み、前記オープンデータを用いてクエリデータ生成モデルを生成するための学習を行い、前記クエリデータ生成モデルは、入力されたクエリ結果に基づいて、前記クエリ結果に対応するクエリ命令を生成し、前記クエリデータ生成モデルに特定の領域の文書を入力して、前記第１の学習データを生成する。

【0116】

さらに、前記プロセッサ３２は、前記メモリ３４に格納された前記アプリケーションおよびデータを呼び出して実行する場合は、具体的には、アプリケーション３４２に格納されたプログラムまたは命令であってもよく、前記学習用テキスト内の前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成し、前記学習用テキスト内の任意の１つの実体と属性の第１のデータ関係特徴ベクトルであって、２つの前記第１のデータの特徴ベクトルと、２つの前記第１のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルとからなる前記第１のデータ関係特徴ベクトルを生成し、前記学習用テキスト内の前記第１のデータおよび第１のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第１のデータの特徴ベクトルおよび前記第１のデータ関係の特徴ベクトルを用いてグラフ畳み込みネットワークモデルの学習を行い、前記グラフ畳み込みネットワークモデルへの入力が、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力が、第１のデータと第１のデータ関係の種別である。

【0117】

【数12】

【0118】

式中、L_eaは、前記グラフ畳み込みネットワークモデルにおける第１のデータ種別の損失関数であり、L_relは、前記グラフ畳み込みネットワークモデルにおける第１のデータ関係種別の損失関数であり、
（外１８）

は、すべての第１のデータの総数であり、t_iは、i番目の第１のデータの真のラベルであり、
（外２０）

は、前記グラフ畳み込みネットワークモデルによって予測されるr_ijの種別ラベルであり、r_ijは、第１のデータiと第１のデータiの関係であり、F_rijは、前記グラフ畳み込みネットワークモデルから出力するr_ijの特徴ベクトル表現であり、|r_ij|は、すべての関係の総数であり、lは、関係r_ijの真のラベルである。

【0119】

さらに、前記プロセッサ３２は、前記メモリ３４に格納された前記アプリケーションおよびデータを呼び出して実行する場合は、具体的には、アプリケーション３４２に格納されたプログラムまたは命令であってもよく、検査項目用語の辞書を用いて、前記処理対象テキストの検査項目を抽出し、時間抽出ルールとテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出し、テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出し、前記検査項目、検査時間、及び検査結果のマッピング関係を確立する。

【0120】

本発明の上記実施形態で開示された方法は、プロセッサ３２に適用されてもよく、プロセッサ３２によって実施されてもよい。プロセッサ３２は、信号の処理能力を有する集積回路チップであってもよい。実施において、上記方法の各ステップは、プロセッサ３２のハードウェアの集積論理回路によって、またはソフトウェア形式の命令によって達成されてもよい。前述のプロセッサ３２は、汎用プロセッサ、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールドプログラマブルゲートアレイ（FPGA）や、他のプログラマブル・ロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントであってもよく、本発明の実施形態で開示されている様々な方法、ステップ、および論理ブロック図を実装または実行することができる。汎用プロセッサは、マイクロプロセッサであってもよく、或いは、プロセッサは、従来の任意のプロセッサなどであってもよい。本発明の実施形態に併せて開示された方法のステップは、ハードウェアの復号化処理装置による実行に直接具現化されてもよく、復号化処理装置のハードウェアモジュールとソフトウェアモジュールの組み合わせによって実行されてもよい。ソフトウェアモジュールは、ランダムメモリ、フラッシュメモリ、リードオンリーメモリ、プログラマブルリードオンリーメモリまたは電気的に消去可能なプログラマブルメモリ、レジスタ等の当技術分野で十分に確立された記憶媒体に配置することができる。記憶媒体は、メモリ３４に配置されており、プロセッサ３２は、メモリ３４の情報を読み込み、ハードウェアと連携して前述の方法のステップを達成する。

【0121】

ここで説明したこれらの実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの組み合わせで実施可能なことは理解できる。ハードウェア実施の場合、処理ユニットは、１つまたは複数の特殊用途向け集積回路（ASIC）、デジタル信号プロセッサ（DSP）、デジタル信号処理装置（DSPD）、プログラマブル・ロジックデバイス（PLD）、フィールド・プログラマブル・ゲート・アレイ（FPGA）、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本願に記載された機能を実行するための他の電子ユニット、またはそれらの組み合わせで実施することができる。

【0122】

ソフトウェア実施の場合は、本明細書に記述された機能を実行するモジュール（例えば、プロシージャ、ファンクションなど）によって本明細書に記載された技術を実施してもよい。ソフトウェアコードは、メモリに格納され、プロセッサによって実行されてもよい。メモリは、プロセッサ内に実装されていても、プロセッサの外部に実装されていてもよい。

【実施例4】

【0123】

本発明の実施形態は、コンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ読み取り可能な記憶媒体は、コンピュータプログラムを格納し、前記コンピュータプログラムは、プロセッサによって実行されると、前記プロセッサに、
処理対象テキストを、検査結果を含む構造化データに変換するステップと、
前記検査結果を事前に学習済みの境界抽出モデルに入力し、前記処理対象テキスト内の属性と実体を含む全ての第１のデータの抽出結果を出力するステップと、
前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化を行い、位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成するステップと、
任意の１つの実体と属性の第１のデータ関係特徴ベクトルを生成するステップであって、前記第１のデータ関係特徴ベクトルが、２つの前記第１のデータの特徴ベクトル及び２つの前記第１のデータの前文特徴ベクトルと、中間文特徴ベクトル及び後文特徴ベクトルを含む、ステップと、
前記第１のデータと前記第１のデータ関係の二部グラフを生成し、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および両者の前記二部グラフにおける接続関係を、事前に学習済みのグラフ畳み込みネットワークモデルに入力し、前記第１のデータおよび前記第１のデータ関係の種別ラベルを出力するステップと、を実行させる。

【0124】

いくつかの実施例においては、前記コンピュータプログラムは、前記プロセッサによって実行されると、前記プロセッサに、
第１のデータとその種別、および第１のデータ間の関係とその種別がマークされている学習用テキストを、検査時間、検査項目、検査結果、およびこれらの対応関係からなる構造化データに変換するステップと、
前記学習用テキストを用いて境界抽出モデルの学習を行うステップであって、前記境界抽出モデルが、前記検査結果を入力とし、前記学習用テキスト内の属性および実体を含む第１のデータのすべての抽出結果を出力とする、ステップと、を実行させる。

【0125】

ここで、前記境界抽出モデルの学習を行う学習目標が、損失関数L_spanを最小化することであり、L_spanは、下記式より求められる。

【数13】

【0126】

式中、
（外２１）

【0127】

いくつかの実施例においては、前記コンピュータプログラムが、前記プロセッサによって実行されると、前記プロセッサに、
前記学習用テキスト内の前記第１のデータの単語特徴ベクトルをテキスト特徴ベクトルに変換し、かつ前記第１のデータの位置符号化により位置特徴ベクトルを生成し、前記テキスト特徴ベクトルと前記位置特徴ベクトルを接続して前記第１のデータの特徴ベクトルを形成するステップと、
前記学習用テキスト内の任意の１つの実体と属性の第１のデータ関係特徴ベクトルであって、２つの前記第１のデータの特徴ベクトルと、２つの前記第１のデータの前文特徴ベクトル、中間文特徴ベクトル、及び後文特徴ベクトルとからなる前記第１のデータ関係特徴ベクトルを生成するステップと、
前記学習用テキスト内の前記第１のデータおよび第１のデータ関係を用いて二部グラフを生成し、前記学習用テキスト内の前記第１のデータの特徴ベクトルおよび前記第１のデータ関係の特徴ベクトルを用いてグラフ畳み込みネットワークモデルの学習を行うステップであって、前記グラフ畳み込みネットワークモデルへの入力が、前記第１のデータの特徴ベクトル、前記第１のデータ関係の特徴ベクトル、および前記二部グラフにおける両者の接続関係であり、出力が、第１のデータと第１のデータ関係の種別である、ステップと、を実行させる。

【0128】

【数14】

【0129】

式中、L_eaは、前記グラフ畳み込みネットワークモデルにおける第１のデータ種別の損失関数であり、L_relは、前記グラフ畳み込みネットワークモデルにおける第１のデータ関係種別の損失関数であり、
（外２２）

は、すべての第１のデータの総数であり、t_iは、i番目の第１のデータの真のラベルであり、
（外２４）

【0130】

いくつかの実施例においては、前記コンピュータプログラムは、前記プロセッサによって実行されると、前記プロセッサに、
検査項目用語の辞書を用いて、前記処理対象テキストの検査項目を抽出するステップと、
時間抽出ルールやテンプレートを用いて、前記処理対象テキスト内の検査時間を抽出するステップと、
テキストの句読点とテキストの距離に基づいて、前記処理対象テキスト内の検査結果を抽出するステップと、
前記検査項目、検査時間、及び検査結果のマッピング関係を確立するステップを実行させる。

【0131】

以上が本発明の好ましい実施形態であり、本明細書に記載されている原理を逸脱することなく、当業者であればいくつかの改良や修正が可能であり、これらの改良や修正も本発明の保護範囲内のものと見なされるべきである。

【図1】