(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-08
(45)【発行日】2024-02-19
(54)【発明の名称】多中心医学診断知識グラフ表示学習方法及びシステム
(51)【国際特許分類】
G16H 50/70 20180101AFI20240209BHJP
H04L 9/08 20060101ALI20240209BHJP
G06F 18/2323 20230101ALI20240209BHJP
【FI】
G16H50/70
H04L9/08 E
G06F18/2323
H04L9/08 C
(21)【出願番号】P 2023535611
(86)(22)【出願日】2022-08-25
(86)【国際出願番号】 CN2022114879
(87)【国際公開番号】W WO2023025255
(87)【国際公開日】2023-03-02
【審査請求日】2023-06-09
(31)【優先権主張番号】202110995013.7
(32)【優先日】2021-08-27
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】100128347
【氏名又は名称】西内 盛二
(72)【発明者】
【氏名】李 ▲勁▼松
(72)【発明者】
【氏名】池 ▲勝▼▲強▼
(72)【発明者】
【氏名】田 雨
(72)【発明者】
【氏名】周 天舒
【審査官】吉田 誠
(56)【参考文献】
【文献】国際公開第2016/157314(WO,A1)
【文献】特開2014-228907(JP,A)
【文献】特開2008-083928(JP,A)
【文献】中国特許出願公開第106951684(CN,A)
【文献】中国特許出願公開第111739595(CN,A)
【文献】中国特許出願公開第107610770(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00 - 80/00
H04L 9/08
G06F 18/2323
(57)【特許請求の範囲】
【請求項1】
グローバル医学診断知識グラフ構築モジュール、医学診断知識グラフ配信モジュール、疾患診断共起情報統計モジュール、データ暗号化算出モジュール及び知識表示学習モジュールを含む多中心医学診断知識グラフ表示学習システムにより実行される多中心医学診断知識グラフ表示学習方法であって、ステップ1~ステップ5を含み、
前記ステップ1では、
前記グローバル医学診断知識グラフ構築モジュールは第1のサーバ
を介してグローバル医学診断知識グラフを構築し、前記グローバル医学診断知識グラフが有向非巡回グラフの形式で医学診断概念の階層構造を表現し、リーフノードと祖先ノードの2つの部分で構成され、前記リーフノードが最も小さい疾患分類コードであり、その祖先ノードがリーフノード疾患分類コードに対応する上層疾患分類コードであり、
前記ステップ2では、
前記医学診断知識グラフ配信モジュールは第1のサーバ
を介して構築されたグローバル医学診断知識グラフを各医療機構参加者に配信し、
前記ステップ3では、
前記疾患診断共起情報統計モジュールは各医療機構参加者の内部で疾患診断共起情報統計を行い、具体的には、
ある医療機構参加者電子カルテにおける全ての疾患分類コードの集合を
として記し、総計で|C|種の疾患分類コードがあり、医療機構参加者の各患者のカルテを複数回診療とみなし、
として記し、総計でT回診療し、毎回診療する疾患分類コードセットをV
tとして記し、V
tにおける各疾患分類コードの上層疾患分類コードをV
tに加入し、強化疾患分類コードセットを取得してV
t’として記し、V
t’におけるコードの任意の2つを組み合わせてコードペアを構成し、コードペアの共起情報を算出することと、
医学診断知識グラフにおける全ての疾患分類コードの集合を
として記し、総計でN種の疾患分類コードがある(
)ことと、当該医療機構参加者が医学診断知識グラフにおける全ての疾患分類コードに基づいて共起マトリックスMを構築し、共起マトリックスMの第i行の第j列の元素M
ijが2つのコード
と
の共起情報
を表現し、pが当該医療機構参加者における患者総数を表現し、m
p
ijが2つのコード
と
の患者pのある回で診療する強化疾患分類コードセットV
t’における共起情報を表すこととを含み、
前記ステップ4では、
前記データ暗号化算出モジュールがデータ
に対して暗号化算出
を行うことであって、第2のサーバが暗号化アルゴリズム、暗号化キー、復号化アルゴリズム及び復号化キーを生成し、かつ暗号化アルゴリズム及び暗号化キーを各医療機構参加者に配信することと、各医療機構参加者が暗号化アルゴリズム及び暗号化キーを用いてその共起マトリックスを暗号化して第1のサーバにアップロードすることと、第1のサーバが暗号文状態において、同じ2つのコードの共起情報を加算し、暗号文状態におけるグローバル共起マトリックスを取得して、第2のサーバに送信することと、第2のサーバが復号化アルゴリズム及び復号化キーによりグローバル共起マトリックスを取得し、第1のサーバに返信することとを含み、
前記ステップ5では、
前記知識表示学習モジュールが知識表示学習
を行うことであって、第1のサーバにおいて、各疾患分類コードを実数からなる1つの表現ベクトルとして表現し、以下の目標関数Jを作成し、
【数4】
ここで、W
iとW
jがそれぞれコード
と
の表現ベクトルであり、b
iとb
jがそれぞれ2つの表現ベクトルのバイアス項であり、X
ijがグローバル共起マトリックスにおけるコード
と
の共起情報を表現し、fが重み関数であることと、
収束するまで目標関数を最適化し、2つの表現ベクトルW
iとW
jを取得することとを含む
ことを特徴とする多中心医学診断知識グラフ表示学習方法。
【請求項2】
前記第1のサーバ及び第2のサーバがいずれも第3者のサーバであり、第3者のサーバが正直である必要があり、第3者のサーバの間は相互に通信することができ、各医療機構参加者の内部にそれぞれの電子カルテデータベースが配備され、電子カルテデータベースにおける原データが各医療機構参加者から離れることは、許可されず、各医療機構参加者の間は相互通信を直接的に行うことができず、第3者のサーバと通信しかできない
ことを特徴とする請求項1に記載の多中心医学診断知識グラフ表示学習方法。
【請求項3】
グローバル医学診断知識グラフを構築する過程において、使用される医学診断本体がICD、CCS、SNOMEDを含む
ことを特徴とする請求項1に記載の多中心医学診断知識グラフ表示学習方法。
【請求項4】
構築された医学診断知識グラフが辞書形式で記憶され、辞書における各元素が1つの疾患の階層構造情報を記録する
ことを特徴とする請求項1に記載の多中心医学診断知識グラフ表示学習方法。
【請求項5】
強化疾患分類コードセットV
t’の構築は具体的に、医学診断知識グラフにおいてリーフノードに対応する祖先ノードをルックアップし、共同祖先ノードに対応する上層疾患分類コードをV
tに繰り返して加入する必要がある
ことを特徴とする請求項1に記載の多中心医学診断知識グラフ表示学習方法。
【請求項6】
前記ステップ3において、あるコードペアにおける2つのコードc
i、c
jについて、コードペアの共起情報算出式が下記の通りであり、
【数1】
ここで、
がV
t’にc
iの出現する回数であり、
がV
t’にc
jの出現する回数であり、d
ijが2つのコードc
i、c
j間の距離であり、
がコードペアの共起情報である
ことを特徴とする請求項1に記載の多中心医学診断知識グラフ表示学習方法。
【請求項7】
前記ステップ3において、m
p
ijの算出は具体的に、2つのコード
と
が患者pのある回で診療する強化疾患分類コードセットV
t’に同時に出現した場合、当該患者のこの回のV
t’においてコードc
iがコード
に等しいことを見つけ、コードc
jがコード
に等しいことを見つけることができ、m
p
ijが
に等しく、そうでない場合、m
p
ijが0に等しい
ことを特徴とする請求項6に記載の多中心医学診断知識グラフ表示学習方法。
【請求項8】
前記ステップ4は具体的に、
K個の医療機構参加者のK個の共起マトリックスを
として記し、任意の2つのコード
と
の共起情報を
として記することと、
第2のサーバが加法同型暗号化アルゴリズムを利用して暗号化アルゴリズムENC、復号化アルゴリズムDEC、暗号化キーKEY
E及び復号化キーKEY
Dを取得し、暗号化アルゴリズムENC及び暗号化キーKEY
Eを各医療機構参加者に送信することと、
安全加法重合を実現する過程において、任意の2つのコードの共起情報に対して、各医療機構参加者がまず共起情報を暗号文として暗号化し、
として記し、そして暗号文を第1のサーバに送信することと、
第1のサーバが直接に暗号文を操作することと、加法同型性によれば、暗号文の積を算出するだけでよく、2つのコード
と
の暗号化後の共起情報EncX
ij式が下記の通りであり、
【数2】
医学診断知識グラフにおける任意の2つの疾患分類コードについて、いずれも暗号文状態における2つのコード共起情報を算出し、最終的に暗号文状態におけるグローバル共起マトリックスEncXを取得することと、
第1のサーバがEncXを第2のサーバに送信し、第2のサーバが復号化を取得してグローバル共起マトリックスX、すなわち、
を取得して、第1のサーバに返信することと、を含む
ことを特徴とする請求項1に記載の多中心医学診断知識グラフ表示学習方法。
【請求項9】
前記ステップ5において、fが以下のセグメント関数を採用し、
【数5】
ここで、MAXとαがいずれもハイパーパラメータであり、実験結果に応じて最適な値を設定し、共起情報がMAXを超えた後、f(X
ij)が1である一定のレベルを維持する
ことを特徴とする請求項1に記載の多中心医学診断知識グラフ表示学習方法。
【請求項10】
多中心医学診断知識グラフ表示学習システムであって、グローバル医学診断知識グラフ構築モジュール、医学診断知識グラフ配信モジュール、疾患診断共起情報統計モジュール、データ暗号化算出モジュール及び知識表示学習モジュールを含み、
前記グローバル医学診断知識グラフ構築モジュールは、第1のサーバ上でグローバル医学診断知識グラフを構築することに用いられ、前記グローバル医学診断知識グラフが有向非巡回グラフの形式で医学診断概念の階層構造を表現し、リーフノードと祖先ノードの2つの部分で構成され、前記リーフノードが最も小さい疾患分類コードであり、その祖先ノードがリーフノード疾患分類コードに対応する上層疾患分類コードであり、
前記医学診断知識グラフ配信モジュールは、第1のサーバで構築されたグローバル医学診断知識グラフを各医療機構参加者に配信し、
前記疾患診断共起情報統計モジュールは、各医療機構参加者に配備することと、ある医療機構参加者電子カルテにおける全ての疾患分類コードの集合を
として記し、総計で|C|種の疾患分類コードがあり、医療機構参加者の各患者のカルテを複数回診療とみなし、
として記し、総計でT回診療し、毎回診療する疾患分類コードセットをV
tとして記し、V
tにおける各疾患分類コードの上層疾患分類コードをV
tに加入し、強化疾患分類コードセットを取得してV
t’として記することと、V
t’におけるコードの任意の2つを組み合わせてコードペアを構成し、コードペアの共起情報を算出することと、医学診断知識グラフにおける全ての疾患分類コードの集合を
として記し、総計でN種の疾患分類コードがある(
)ことと、当該医療機構参加者が医学診断知識グラフにおける全ての疾患分類コードに基づいて共起マトリックスMを構築し、共起マトリックスMの第i行の第j列の元素M
ijが2つのコード
と
の共起情報
を表現し、Pが当該医療機構参加者における患者総数を表現し、m
p
ijが2つのコード
と
の患者Pのある回で診療する強化疾患分類コードセットV
t’における共起情報を表すこととに使用され、
前記データ暗号化算出モジュールは、第2のサーバが暗号化アルゴリズム、暗号化キー、復号化アルゴリズム及び復号化キーを生成し、かつ暗号化アルゴリズム及び暗号化キーを各医療機構参加者に配信することと、各医療機構参加者が暗号化アルゴリズム及び暗号化キーを用いてその共起マトリックスを暗号化して第1のサーバにアップロードすることと、第1のサーバが暗号文状態において、同じ2つのコードの共起情報を加算し、暗号文状態におけるグローバル共起マトリックスを取得して、第2のサーバに送信することと、第2のサーバが復号化アルゴリズム及び復号化キーによりグローバル共起マトリックスを取得し、第1のサーバに返信することとに使用され、
前記知識表示学習モジュールは、第1のサーバに配備され、各疾患分類コードを実数からなる1つの表現ベクトルとして表現し、以下の目標関数Jを作成し、
【数4】
ここで、W
iとW
jがそれぞれコード
と
の表現ベクトルであり、b
iとb
jがそれぞれ2つの表現ベクトルのバイアス項であり、X
ijがグローバル共起マトリックスにおけるコード
と
の共起情報を表現し、fが重み関数であることと、
収束するまで目標関数を最適化し、2つの表現ベクトルW
iとW
jを取得することとにに使用される
ことを特徴とする多中心医学診断知識グラフ表示学習システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、医療情報技術分野に属し、特に多中心医学診断知識グラフ表示学習方法及びシステムに属する。
【背景技術】
【0002】
知識グラフは、構造化の形式で客観世界における概念、エンティティ及びそれらの関係を記述し、情報を人間の認知世界により近い形式で表現し、情報をより適切に整理、管理及び理解する能力を提供し、知識のマイニング、分析、知識間の相互関係の構築、描写及び表示に使用できる。表示学習は、研究対象の意味情報を密な低次元のエンティティベクトルとして表示することを目的とする。知識グラフ表示学習は、主に知識グラフにおけるエンティティ及び関係を表示学習し、大規模な知識グラフ及び原データの学習と訓練により、知識の低次元の密な空間での分布ベクトル表示を取得することができ、エンティティと関係の意味情報を表示し、知識の算出と推理を容易にする。
【0003】
医学本体を利用して階層化臨床構造と医学概念との間の関係をエンコードし、大量のデータに対する需要を減少することができ、情報を失うことなく検索空間を効果的に減少する。幸いなことに、医療保健分野には多くの組織の良好な本体があり、例えば、国際疾患分類(ICD)、臨床分類ソフトウェア(CCS)または医学臨床用語システム化命名(SNOMED)がある。医学本体において、互いに近いノード(すなわち、医学概念)は、類似する患者に関連する可能性が高く、これにより、我々はそれらの間で知識を伝達することができる。データ量がディープ学習モデルを訓練するのに不十分である場合、医学本体を使用することは有用である可能性がある。さらにデータ量が十分である場合、情報を損失しない前提で、モデルを簡略化する方法として、学習により本体構造に適合するより多くの解釈可能な表現が得られる。
【0004】
医療知識グラフ構造情報に基づく知識表示学習モデルは、複雑な関係モデリングとデータの希薄性による意味表現能力低下などの問題を解決できない。既存の研究作業は、知識グラフ自体構造以外の大量のテキスト情報を利用し、知識グラフ構造情報を拡張してデータの希薄性による影響を低減する。従来方法は、データに固有の構造及び相関情報を無視している。また、プライバシー保護及びデータ安全の前提でデータ量を拡張し、知識表示学習に使用する方法が欠いている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、従来技術の欠点に対して、多中心医学診断知識グラフ表示学習方法及びシステムを提出し、各医療機構参加者のデータプライバシーと安全を保護する前提で、多中心データを利用し、データ密度を高め、また、大規模な知識グラフ及び原データを学習する過程において、知識源における人間の認知に適合する階層情報と複雑な関連関係を統合し、データ間の相関関係をマイニングし、意味情報を豊かにし、これにより、データの希薄性による意味表現能力低下の問題を解決する。
【課題を解決するための手段】
【0006】
本発明の目的は、以下の技術的解決手段により実現される。
【0007】
本発明の一様態は、多中心医学診断知識グラフ表示学習方法を開示しており、当該方法は、連合学習と同型暗号化に基づき、多中心データを利用し、階層情報と複雑な関連関係を組み合わせて、構造情報の知識表示学習を実現し、具体的に、ステップ1~ステップ5を含み、
前記ステップ1では、第1のサーバがグローバル医学診断知識グラフを構築し、前記グローバル医学診断知識グラフが有向非巡回グラフの形式で医学診断概念の階層構造を表現し、リーフノードと祖先ノードの2つの部分で構成され、前記リーフノードが最も小さい疾患分類コードであり、その祖先ノードがリーフノード疾患分類コードに対応する上層疾患分類コードであり、
前記ステップ2では、第1のサーバが構築されたグローバル医学診断知識グラフを各医療機構参加者に配信し、
前記ステップ3では、各医療機構参加者の内部で疾患診断共起情報統計を行うステップであって、具体的には、
ある医療機構参加者電子カルテにおける全ての疾患分類コードの集合を
として記し、総計で|C|種の疾患分類コードがあり、医療機構参加者の各患者のカルテを複数回診療とみなし、
として記し、総計でT回診療し、毎回診療する疾患分類コードセットをV
tとして記し、V
tにおける各疾患分類コードの上層疾患分類コードをV
tに加入し、強化疾患分類コードセットを取得してV
t’として記し、V
t’におけるコードの任意の2つを組み合わせてコードペアを構成し、コードペアの共起情報を算出することと、医学診断知識グラフにおける全ての疾患分類コードの集合を
として記し、総計でN種の疾患分類コードがある(
)ことと、当該医療機構参加者が医学診断知識グラフにおける全ての疾患分類コードに基づいて共起マトリックスMを構築し、共起マトリックスMの第i行の第j列の元素M
ijが2つのコード
と
の共起情報
を表現し、pが当該医療機構参加者における患者総数を表現し、m
p
ijが2つのコード
と
の患者pのある回で診療する強化疾患分類コードセットV
t’における共起情報を表すこととを含み、
前記ステップ4では、データ暗号化算出であって、第2のサーバが暗号化アルゴリズム、暗号化キー、復号化アルゴリズム及び復号化キーを生成し、かつ暗号化アルゴリズム及び暗号化キーを各医療機構参加者に配信することと、各医療機構参加者が暗号化アルゴリズム及び暗号化キーを用いてその共起マトリックスを暗号化して第1のサーバにアップロードすることと、第1のサーバが暗号文状態において、同じ2つのコードの共起情報を加算し、暗号文状態におけるグローバル共起マトリックスを取得して、第2のサーバに送信することと、第2のサーバが復号化アルゴリズム及び復号化キーによりグローバル共起マトリックスを取得し、第1のサーバに返信することと、を含み、
前記ステップ5では、知識表示学習であって、第1のサーバにおいて、各疾患分類コードを実数からなる1つの表現ベクトルとして表現し、以下の目標関数Jを作成し、
【数4】
ここで、W
iとW
jがそれぞれコード
と
の表現ベクトルであり、b
iとb
jがそれぞれ2つの表現ベクトルのバイアス項であり、X
ijがグローバル共起マトリックスにおけるコード
と
の共起情報を表現し、fが重み関数であることと、
収束するまで目標関数を最適化し、2つの表現ベクトルW
iとW
jを取得することとを含む。
【0008】
さらに、前記第1のサーバ及び第2のサーバがいずれも第3者のサーバであり、第3者のサーバが正直である必要があり、第3者のサーバの間は相互に通信することができ、各医療機構参加者の内部にそれぞれの電子カルテデータベースが配備され、電子カルテデータベースにおける原データが各医療機構参加者から離れることは、許可されず、各医療機構参加者の間は相互通信を直接的に行うことができず、第3者のサーバと通信しかできない。
【0009】
さらに、グローバル医学診断知識グラフを構築する過程において、使用される医学診断本体がICD、CCS、SNOMEDを含む。
【0010】
さらに、構築された医学診断知識グラフが辞書形式で記憶され、辞書における各元素が1つの疾患の階層構造情報を記録する。
【0011】
さらに、強化疾患分類コードセットVt’の構築は具体的に、医学診断知識グラフにおいてリーフノードに対応する祖先ノードをルックアップし、共同祖先ノードに対応する上層疾患分類コードをVtに繰り返して加入する必要がある。
【0012】
さらに、前記ステップ3において、あるコードペアにおける2つのコードc
i、c
jについて、コードペアの共起情報算出式が下記の通りであり、
【数1】
ここで、
がV
t’にc
iの出現する回数であり、
がV
t’にc
jの出現する回数であり、d
ijが2つのコードc
i、c
j間の距離であり、
がコードペアの共起情報である。
【0013】
さらに、前記ステップ3において、m
p
ijの算出は具体的に、2つのコード
と
が患者pのある回で診療する強化疾患分類コードセットV
t’に同時に出現した場合、当該患者のこの回のV
t’においてコードc
iがコード
に等しいことを見つけ、コードc
jがコード
に等しいことを見つけることができ、m
p
ijが
に等しく、そうでない場合、m
p
ijが0に等しい。
【0014】
さらに、前記ステップ4は具体的に、
K個の医療機構参加者のK個の共起マトリックスを
として記し、任意の2つのコード
と
の共起情報を
として記することと、
第2のサーバが加法同型暗号化アルゴリズムを利用して暗号化アルゴリズムENC、復号化アルゴリズムDEC、暗号化キーKEY
E及び復号化キーKEY
Dを取得し、暗号化アルゴリズムENC及び暗号化キーKEY
Eを各医療機構参加者に送信することと、
安全加法重合を実現する過程において、任意の2つのコードの共起情報に対して、各医療機構参加者がまず共起情報を暗号文として暗号化し、
として記し、そして暗号文を第1のサーバに送信することと、
第1のサーバが直接に暗号文を操作することと、加法同型性によれば、暗号文の積を算出するだけでよく、2つのコード
と
の暗号化後の共起情報EncX
ij式が下記の通りであり、
【数2】
医学診断知識グラフにおける任意の2つの疾患分類コードについて、いずれも暗号文状態における2つのコード共起情報を算出し、最終的に暗号文状態におけるグローバル共起マトリックスEncXを取得することと、
第1のサーバがEncXを第2のサーバに送信し、第2のサーバが復号化を取得してグローバル共起マトリックスX、すなわち、
を取得して、第1のサーバに返信することと、を含む。
【0015】
さらに、前記ステップ5において、fが以下のセグメント関数を採用し、
【数5】
ここで、MAXとαがいずれもハイパーパラメータであり、実験結果に応じて最適な値を設定し、共起情報がMAXを超えた後、f(X
ij)が1である一定のレベルを維持する。
【0016】
本発明の別の様態は、多中心医学診断知識グラフ表示学習システムを開示しており、当該システムは、グローバル医学診断知識グラフ構築モジュール、医学診断知識グラフ配信モジュール、疾患診断共起情報統計モジュール、データ暗号化算出モジュール及び知識表示学習モジュールを含み、
前記グローバル医学診断知識グラフ構築モジュールは、第1のサーバ上でグローバル医学診断知識グラフを構築することに用いられ、前記グローバル医学診断知識グラフが有向非巡回グラフの形式で医学診断概念の階層構造を表現し、リーフノードと祖先ノードの2つの部分で構成され、前記リーフノードが最も小さい疾患分類コードであり、その祖先ノードがリーフノード疾患分類コードに対応する上層疾患分類コードであり、
前記医学診断知識グラフ配信モジュールは、第1のサーバで構築されたグローバル医学診断知識グラフを各医療機構参加者に配信し、
前記疾患診断共起情報統計モジュールは、各医療機構参加者に配備することと、ある医療機構参加者電子カルテにおける全ての疾患分類コードの集合を
として記し、総計で|C|種の疾患分類コードがあり、医療機構参加者の各患者のカルテを複数回診療とみなし、
として記し、総計でT回診療し、毎回診療する疾患分類コードセットをV
tとして記し、V
tにおける各疾患分類コードの上層疾患分類コードをV
tに加入し、強化疾患分類コードセットを取得してV
t’として記することと、V
t’におけるコードの任意の2つを組み合わせてコードペアを構成し、コードペアの共起情報を算出することと、医学診断知識グラフにおける全ての疾患分類コードの集合を
として記し、総計でN種の疾患分類コードがある(
)ことと、当該医療機構参加者が医学診断知識グラフにおける全ての疾患分類コードに基づいて共起マトリックスMを構築し、共起マトリックスMの第i行の第j列の元素M
ijが2つのコード
と
の共起情報
を表現し、Pが当該医療機構参加者における患者総数を表現し、m
p
ijが2つのコード
と
の患者Pのある回で診療する強化疾患分類コードセットV
t’における共起情報を表すこととに使用され、
前記データ暗号化算出モジュールは、第2のサーバが暗号化アルゴリズム、暗号化キー、復号化アルゴリズム及び復号化キーを生成し、かつ暗号化アルゴリズム及び暗号化キーを各医療機構参加者に配信することと、各医療機構参加者が暗号化アルゴリズム及び暗号化キーを用いてその共起マトリックスを暗号化して第1のサーバにアップロードすることと、第1のサーバが暗号文状態において、同じ2つのコードの共起情報を加算し、暗号文状態におけるグローバル共起マトリックスを取得して、第2のサーバに送信することと、第2のサーバが復号化アルゴリズム及び復号化キーによりグローバル共起マトリックスを取得し、第1のサーバに返信することとに使用され、
前記知識表示学習モジュールは、第1のサーバに配備され、各疾患分類コードを実数からなる1つの表現ベクトルとして表現し、以下の目標関数Jを作成し、
【数4】
ここで、W
iとW
jがそれぞれコード
と
の表現ベクトルであり、b
iとb
jがそれぞれ2つの表現ベクトルのバイアス項であり、X
ijがグローバル共起マトリックスにおけるコード
と
の共起情報を表現し、fが重み関数であることと、
収束するまで目標関数を最適化し、2つの表現ベクトルW
iとW
jを取得することとにに使用される。
【発明の効果】
【0017】
本発明の有益な効果としては、
1.既存の医学診断本体(ICD、CCS、SNOMED等)に基づき、有向非巡回グラフの形式で医学診断概念の階層構造を表現し、グローバル医学診断知識グラフを構築する。グローバル医学診断知識グラフを利用して、全ての疾患分類コードの共起マトリックスを構築し、各ペアのコードの共起情報を算出し、同時に出現するコードペアが多く、距離が近いほど、共起情報が大きくなる。
2.連合学習に基づき、各医療機構参加者のデータプライバシーと安全を保護する前提で、多中心データを利用し、共起情報を加算し、データ密度を高め、データ希薄性の問題を解決する。
3.大規模な知識グラフ及び原データを学習する過程において、知識源における人間の認知に適切する階層情報と複雑な関連関係を統合し、データ間の相関関係をマイニングし、意味情報を豊かにし、知識の高品質表現形態を学習し、知識の算出と推理を容易にする。
【図面の簡単な説明】
【0018】
【
図1】本発明の実施例による多中心医学診断知識グラフ表示学習方法のネットワークアーキテクチャ概略図である。
【
図2】本発明の実施例による多中心医学診断知識グラフ表示学習方法の実現フローチャートである。
【
図3】本発明の実施例による医学診断知識グラフ構造示例である。
【発明を実施するための形態】
【0019】
本発明の上記目的、特徴及び利点をより分かりやすくするために、以下、図面を参照して本発明の実施形態を詳細に説明する。
【0020】
本発明を十分に理解するために、以下の説明では、多くの具体的な詳細が記載されているが、本発明は、ここで説明するものとは異なる他の方式で実施することもでき、当業者は、本発明の意味合いに違反することなく、同様の拡張を行うことができるため、本発明は、以下に開示される具体的な実施例に限定されない。
【0021】
本発明は、多中心医学診断知識グラフ表示学習方法を提供し、当該方法は、連合学習と同型暗号化に基づき、多中心データを利用し、階層情報と複雑な関連関係を組み合わせて、構造情報の知識表示学習を実現する。当該方法は、
図1に示すネットワークアーキテクチャに基づくものであり、2つの第3者のサーバ(第1のサーバと第2のサーバ)と複数の医療機構参加者を含み、第3者のサーバが正直である必要があり、第3者のサーバの間は相互通信することができる。各医療機構参加者の内部にそれぞれの電子カルテデータベースが配備され、電子カルテデータベースにおける原データが各医療機構参加者から離れることは、許可されない。各医療機構参加者の間は相互通信を直接的に行うことができず、第3者のサーバと通信しかできない。
【0022】
図2に示すように、本実施例による多中心医学診断知識グラフ表示学習方法のステップは、下記の通りである。
【0023】
1.グローバル医学診断知識グラフ構築
第1のサーバがグローバル医学診断知識グラフの構築を担当する。グローバル医学診断知識グラフは、有向非巡回グラフの形式で医学診断概念の階層構造を表現する。グローバル医学診断知識グラフリーフノードと祖先ノードの2つの部分で構成され、ここでリーフノードが最も小さい疾患分類コードであり、その祖先ノードがリーフノード疾患分類コードに対応する上層疾患分類コードである。
本実施例においてICD10を医学診断本体として使用し、グローバル医学診断知識グラフを構築する。ここで、医学診断本体は、さらにCCS、SNOMEDなどの医学分野で常用される知識源を選択してもよい。ウイルス性咽頭炎を例とし、ウイルス性咽頭炎J02.801がリーフノードであり、ICD10における疾患階層情報に基づき、
図3に示すように、その祖先ノードである呼吸器疾患J00-J99、急性上気道感染J00-J06、急性咽頭炎J02を構築する。
構築された医学診断知識グラフが辞書形式で記憶され、辞書における各元素が1つの疾患の階層構造情報を記録する。ウイルス性咽頭炎を例とし、階層構造情報を{J02.801:[J02.801,root,J00-J99,J00-J06,J02]}として記憶し、rootがルートノードを代表する。
【0024】
2.医学診断知識グラフ配信
第1のサーバが構築されたグローバル医学診断知識グラフを各医療機構参加者に配信する。知識グラフは公開されて取得されるため、暗号化されていなくてもよい。
【0025】
3.各医療機構参加者の内部で疾患診断共起情報統計を行う
各医療機構参加者電子カルテにおける全ての疾患分類コードの集合を
として記し、総計で|C|種の疾患分類コードがある。当該医療機構参加者の各患者のカルテを複数回診療とみなし、
として記し、総計でT回診療し、毎回診療する疾患分類コードセットをV
tとして記する。
医療機構参加者は、1回の診療V
tを単位とし、V
tに各疾患分類コードの上層疾患分類コードを加入することにより、強化疾患分類コードセットを取得してV
t’として記し、すなわち、医学診断知識グラフにおいてリーフノードに対応する祖先ノードをルックアップし、共同祖先ノードに対応する上層疾患分類コードを繰り返して加入する必要がある。
各疾患分類コード及びその上層疾患分類コードのV
t’における出現回数を算出する。V
t’におけるコードの任意の2つを組み合わせてコードペアを構成し、コードペアにおける2つのコードの出現回数を乗算することにより、当該コードペアの共起情報を算出する。同時に、コードペアにおける2つのコード間の距離を算出し、すなわち、2つのノードを接続する最短経路に含まれるエッジの数を算出し、距離の逆数を重みとする。
あるコードペアにおける2つのコードc
i、c
jに対して、コードペアの共起情報は、下記の通りであり、
【数1】
ここで、
がV
t’にc
iの出現する回数であり、
がV
t’にc
jの出現する回数であり、d
ijが2つのコードc
i、c
j間の距離であり、
がコードペアの共起情報である。
医学診断知識グラフにおける全ての疾患分類コードの集合を
として記し、総計でN種の疾患分類コードがある(
)。当該医療機構参加者が医学診断知識グラフにおける全ての疾患分類コードに基づいて共起マトリックスMを構築し、表1に示す通りである。M
ijが2つのコード
と
の共起情報
を表現し、Pが当該医療機構参加者中患者の総数を表現し、m
p
ijが2つのコード
と
の患者pのある回で診療する強化疾患分類コードセットV
t’における共起情報を表現し、2つのコード
と
が患者pのある回で診療する強化疾患分類コードセットV
t’に同時に出現した場合、当該患者のこの回のV
t’においてコードc
iがコード
に等しいことを見つけ、コードc
jがコード
に等しいことを見つけることができ、m
p
ijが
に等しく、そうでない場合、0として記する。共起マトリックスMが対称し、M
ijとM
jiとが等しく、対角線が同じ疾患分類コードの共起情報であり、0として記する。
表1共起マトリックス構造示例
図3の医学診断知識グラフを例とし、仮に患者のある回で診療する疾患診断がウイルス性咽頭炎及び急性喉頭炎であるとすると、V
t=[J02.801,J04.000]であり、上層疾患分類コードを加入することにより、V
t’=[J02.801,J02,J00-J06,J00-J99,root,J04.000,J04,J00-J06,J00-J99,root]として強化し、コードJ02.801の出現回数が1、J00-J06の出現回数が2、両者間の距離が2、共起情報の値が1である。
【0026】
4.データ暗号化算出
第2のサーバが暗号化アルゴリズム、暗号化キー、復号化アルゴリズム及び復号化キーを生成し、かつ暗号化アルゴリズム及び暗号化キーを各医療機構参加者に配信する。各医療機構参加者が暗号化アルゴリズム及び暗号化キーを用いてその共起マトリックスを暗号化して第1のサーバにアップロードする。第1のサーバが暗号文状態において、同じ2つのコードの共起情報を加算し、暗号文状態におけるグローバル共起マトリックスを取得して、第2のサーバに送信する。第2のサーバが復号化アルゴリズム及び復号化キーによりグローバル共起マトリックスを取得し、第1のサーバに返信する。プロセス全体でデータリークのリスクはない。具体的な実現流れは下記の通りである。
K個の医療機構参加者のK個の共起マトリックスを
として記し、任意の2つのコード
と
の共起情報を
として記する。
第2のサーバが加法同型暗号化アルゴリズムを利用して暗号化アルゴリズムENC、復号化アルゴリズムDEC、暗号化キーKEY
E及び復号化キーKEY
Dを取得し、暗号化アルゴリズムENC及び暗号化キーKEY
Eを各医療機構参加者に送信する。
次に、安全加法重合を実現する過程において、任意の2つのコードの共起情報に対して、各医療機構参加者がまず共起情報を暗号文として暗号化し、
として記し、そして暗号文を第1のサーバに送信する。
第1のサーバは復号化操作を実行しないが、暗号文を直接操作する。加法同型性によれば、暗号文の積を算出するだけでよく、2つのコード
と
暗号化後の共起情報EncX
ij式が下記の通りであり、
【数2】
。
医学診断知識グラフにおける任意の2つの疾患分類コードについて、何れも上記ステップに従って、暗号文状態における2つのコード共起情報を算出し、最終的に暗号文状態におけるグローバル共起マトリックスEncXを取得する。第1のサーバがEncXを第2のサーバに送信し、第2のサーバが復号化してグローバル共起マトリックスX、すなわち、
を取得し、第1のサーバに返信する。
【0027】
5.知識表示学習
第1のサーバにおいて、GloVeアルゴリズム原理によれば、各疾患分類コードを実数からなる1つの表現ベクトルとして表現し、当該表現ベクトルとグローバル共起マトリックスの間の関係は以下の通り表現し、
【数3】
ここで、W
iとW
jがそれぞれ最終的に求める必要がある疾患分類コード
と
の表現ベクトルであり、128次元の、値が-0.1~0.1間のランダムベクトルにランダムに初期化される。上付き文字Tが転置操作を表現する。b
iとb
jがそれぞれ2つの表現ベクトルのバイアス項であり、初期値が0である。X
ijがグローバル共起マトリックスXにおけるコード
と
の共起情報を表現する。
上記式に基づき、目標関数Jを作成し、
【数4】
ここで、fが重み関数である。共起の多いコードペアがより高い重みを得るために、fが非減少関数であり、同時に、この重みが大きすぎてはならず、一定のレベルに達した後に増加してはならない。2つのコード
と
が一緒に出現しない場合、すなわち、X
ij=0の場合、それらは目標関数の算出に参加せず、すなわち、
である。以上の要求に基づき、fが以下のセグメント関数を採用し、
【数5】
すなわち、共起情報がしきい値MAXを超えた後、その重みが1である一定のレベルを維持する。ハイパーパラメータMAX及びαが実験結果に応じて最適な値を設定し、それぞれ100及び0.75に設定してもよい。
目標関数最適化過程がAdaDelta勾配降下アルゴリズムを採用し、グローバル共起マトリックスXにおける元素をランダムサンプリングし、学習率を0.05として設定し、収束するまで50回反復し、2つの表現ベクトルW
iとW
jを取得する。
知識グラフ表示学習によって得られた表現ベクトルは、疾患間の類似性を算出するために使用できるだけでなく、それを患者カルテと組み合わせて、ディープ学習モデルに統合して予測タスクを完成することもできる。例えば、患者の履歴診療記録に基づき、次回の診療に出現する可能性がある疾患を予測する。電子カルテにおいて、各患者のカルテ記録を複数回診療とみなすことができ、毎回診療には一連の疾患分類コード、すなわち、C’のサブセットが含まれる。患者のある回で診療する疾患分類コードセットがバイナリベクトル
として表現してもよく、ここで、i番目の元素は当該患者のこの回の診療にコード
が出現しているか否かを代表し、出現している場合、1であり、そうでない場合、0である。ディープ学習モデル訓練において、患者の毎回診療するバイナリベクトルx
tと表現ベクトルとを乗算して非線形変換を行い、RNN予測モデルの入力として、次回の診療する疾患分類コードを予測取得して、出現する可能性がある疾患を予測することができる。
【0028】
本発明の実施例は、多中心医学診断知識グラフ表示学習システムをさらに提供し、当該システムは、
第1のサーバ上でグローバル医学診断知識グラフを構築するためのものであって、前記グローバル医学診断知識グラフが有向非巡回グラフの形式で医学診断概念の階層構造を表現し、リーフノードと祖先ノードの2つの部分で構成され、前記リーフノードが最も小さい疾患分類コードであり、その祖先ノードがリーフノード疾患分類コードに対応する上層疾患分類コードであるグローバル医学診断知識グラフ構築モジュールと、
第1のサーバで構築されたグローバル医学診断知識グラフを各医療機構参加者に配信するための医学診断知識グラフ配信モジュールと、
各医療機構参加者に配備することと、ある医療機構参加者電子カルテにおける全ての疾患分類コードの集合を
として記し、総計で|C|種の疾患分類コードがあり、医療機構参加者の各患者のカルテを複数回診療とみなし、
として記し、総計でT回診療し、毎回診療する疾患分類コードセットをV
tとして記し、V
tにおける各疾患分類コードの上層疾患分類コードをV
tに加入し、強化疾患分類コードセットを取得してV
t’として記することと、V
t’におけるコードの任意の2つを組み合わせてコードペアを構成し、コードペアの共起情報を算出することと、医学診断知識グラフにおける全ての疾患分類コードの集合を
として記し、総計でN種の疾患分類コードがある(
)ことと、当該医療機構参加者が医学診断知識グラフにおける全ての疾患分類コードに基づいて共起マトリックスMを構築し、共起マトリックスMの第i行の第j列の元素M
ijが2つのコード
と
の共起情報
を表現し、Pが当該医療機構参加者における患者総数を表現し、m
p
ijが2つのコード
と
の患者Pのある回で診療する強化疾患分類コードセットV
t’における共起情報を表現することとに使用される疾患診断共起情報統計モジュールと、
第2のサーバが暗号化アルゴリズム、暗号化キー、復号化アルゴリズム及び復号化キーを生成し、かつ暗号化アルゴリズム及び暗号化キーを各医療機構参加者に配信することと、各医療機構参加者が暗号化アルゴリズム及び暗号化キーを用いてその共起マトリックスを暗号化して第1のサーバにアップロードすることと、第1のサーバが暗号文状態において、同じ2つのコードの共起情報を加算し、暗号文状態におけるグローバル共起マトリックスを取得して、第2のサーバに送信することと、第2のサーバが復号化アルゴリズム及び復号化キーによりグローバル共起マトリックスを取得し、第1のサーバに返信することとに使用されるデータ暗号化算出モジュールと、
第1のサーバに配備され、各疾患分類コードを実数からなる1つの表現ベクトルとして表現し、以下の目標関数Jを作成し、
【数4】
ここで、W
iとW
jがそれぞれコード
と
の表現ベクトルであり、b
iとb
jがそれぞれ2つの表現ベクトルのバイアス項であり、X
ijがグローバル共起マトリックスにおけるコード
と
の共起情報を表現し、fが重み関数であることと、
収束するまで目標関数を最適化し、2つの表現ベクトルW
iとW
jを取得することとに使用される知識表示学習モジュールと、
を備える。
【0029】
以上は、本発明の好ましい実施形熊だけであり、本発明は好ましい実施例で以上のように開示されているが、本発明を限定するものではない。当業者であれば、本発明の技術的解決手段の範囲から逸脱することなく、上記開示された方法及び技術内容を利用して本発明の技術的解決手段に対して多くの可能な変動及び修飾を行い、又は同等変化の等価実施例に修正することができる。したがって、本発明の技術的解決手段の内容から逸脱せず、本発明の技術的思想に基ついて以上の実施例に対して行われたいかなる簡単な修正、同等変化及び修飾は、いずれも依然として本発明の技術的解決手段の保護範囲内に属する。