(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-20
(45)【発行日】2022-10-28
(54)【発明の名称】機械学習に基づく医療データ分類方法、装置、コンピュータデバイス及び記憶媒体
(51)【国際特許分類】
G06F 16/35 20190101AFI20221021BHJP
G16H 10/60 20180101ALI20221021BHJP
【FI】
G06F16/35
G16H10/60
(21)【出願番号】P 2021506440
(86)(22)【出願日】2019-06-12
(86)【国際出願番号】 CN2019090873
(87)【国際公開番号】W WO2020177230
(87)【国際公開日】2020-09-10
【審査請求日】2021-02-05
(31)【優先権主張番号】201910171593.0
(32)【優先日】2019-03-07
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517406065
【氏名又は名称】平安科技(深▲せん▼)有限公司
【氏名又は名称原語表記】PING AN TECHNOLOGY (SHENZHEN) CO.,LTD.
【住所又は居所原語表記】23F,Ping’an Financial Center,No.5033 Yitian Road,Fu’an Community of Futian Street,Futian District Shenzhen,Guangdong 518000 China
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】チェン,シャンシャン
(72)【発明者】
【氏名】ルアン,シャオウェン
(72)【発明者】
【氏名】スー,リャン
【審査官】早川 学
(56)【参考文献】
【文献】中国特許出願公開第107863147(CN,A)
【文献】中国特許出願公開第107785075(CN,A)
【文献】衛藤亮太ほか,深層学習を用いた電子カルテ医療情報の多角的解析,情報処理学会研究報告 [online] ,情報処理学会,2017年09月11日,Vol.2017-DBS-165, No.8,pp.1-7,[検索日 2017.09.11], Internet<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=183361&file_id=1&file_no=1>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G16H 10/60-10/65
(57)【特許請求の範囲】
【請求項1】
端末が送信した医療データ分類要求を受信するステップであって、前記医療データ分類要求は診療録情報を含むステップと、
予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数の
第1のテキストベクトルを得るステップと、
前記複数の
第1のテキストベクトルに特徴抽出を行って、複数の
第2のテキストベクトル及び対応する特徴次元値を得るステップと、
ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数の
第2のテキストベクトル及び対応する特徴次元値を走査して計算するステップであって、前記ターゲット分類器は複数の医療データでトレーニングして得られるステップと、
前記複数の
第2のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数の
第2のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るステップと、
前記診療録情報に対応するカテゴリ結果を前記端末に
送信するステップとを含む、機械学習に基づく医療データ分類方法。
【請求項2】
前記診療録情報には複数のテキストデータが含まれ、前記診療録情報に単語分割処理を行う前記ステップは、
予め設定された複数の医療用語を含む医療用語集を取得し、前記診療録情報中の複数のテキストデータと前記医療用語集とのマッチングを行って、前記診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出するステップと、
マッチング後のテキストデータに基づいて前記診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得るステップと、
前記単語分割後の複数のテキストデータにベクトル変換を行って、複数の
第1のテキストベクトルを得るステップとを含むことを特徴とする、請求項1に記載の方法。
【請求項3】
前記複数の
第1のテキストベクトルに特徴抽出を行って、複数の
第2のテキストベクトル及び対応する特徴次元値を得る前記ステップは、
前記複数の
第1のテキストベクトルの単語出現頻度及び逆文書頻度を計算するステップと、
前記単語出現頻度及び前記逆文書頻度に基づいて、予め設定されたアルゴリズムに従って複数の
第1のテキストベクトルの重みを計算するステップと、
前記重みが予め設定された閾値に達する
第2のテキストベクトルを抽出するステップと、
予め設定されたアルゴリズム及び前記重みに基づいて前記
第2のテキストベクトルに対応する特徴次元値を計算するステップとを含むことを特徴とする、請求項1に記載の方法。
【請求項4】
前記ターゲット分類器を構築するステップは、
複数の医療データを取得し、前記複数の医療データに基づいて対応するトレーニングセットデータ及び検証セットデータを生成するステップと、
前記トレーニングセットデータ中の複数の医療データにクラスター分析を行って、クラスタリング結果を得るステップと、
前記クラスタリング結果に特徴抽出を行って、複数の特徴変数を抽出するステップと、
予め設定されたニューラルネットワークモデルを取得し、前記ニューラルネットワークモデルによって前記トレーニングセットデータをトレーニングすることにより、複数の特徴変数に対応する特徴次元値及び重みを得、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築するステップと、
前記検証セットデータを利用して前記初期分類器の更なるトレーニング及び検証を行い、前記検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、所定のターゲット分類器を得るステップとを含むことを特徴とする、請求項1に記載の方法。
【請求項5】
テキストには複数のテキストセンテンスが含まれ、前記複数のテキストセンテンスがテキストブロックを構成し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数の
第2のテキストベクトル及び対応する特徴次元値を走査して複数のテキストベクトルに対応するカテゴリを計算する前記ステップは、
前記ターゲット分類器を利用して前記特徴次元値から前記複数の
第2のテキストベクトル間の相関性を計算し、前記相関性に基づいて前記テキストで文と認められるテキストセンテンスを計算し、前記テキストセンテンスのセンテンスベクトルを計算するステップと、
前記センテンスベクトルの特徴を抽出し、前記複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出するステップと、
前記テキストブロックベクトルの各カテゴリに対応する確率を計算し、予め設定された確率値に達するカテゴリを抽出し、前記テキストブロックに対して対応するカテゴリタグを追加するステップとを含むことを特徴とする、請求項1から4のいずれか1項に記載の方法。
【請求項6】
予め設定された頻度に基づいて、予め設定されたデータベースから複数の過去医療データを取得するステップと、
複数の過去医療データにクラスター分析を行って、分析結果を得るステップと、
前記分析結果に基づいて特徴選択を行って、複数の特徴変数を得るステップと、
予め設定されたアルゴリズムに従って複数の特徴変数の重みを計算するステップと、
複数の特徴変数及び対応する重みに基づいて前記ターゲット分類器の最適化を行って調整するステップとをさらに含むことを特徴とする、請求項1に記載の方法。
【請求項7】
端末が送信した医療データ分類要求を受信するために用いられ、前記医療データ分類要求は診療録情報を含む要求受信モジュールと、
予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数の
第1のテキストベクトルを得るための単語分割処理モジュールと、
前記複数の
第1のテキストベクトルに特徴抽出を行って、複数の
第2のテキストベクトル及び対応する特徴次元値を得るための特徴抽出モジュールと、
ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数の
第2のテキストベクトル及び対応する特徴次元値を走査して計算するために用いられ、前記ターゲット分類器は複数の医療データでトレーニングして得られるデータ分類モジュールであって、前記複数の
第2のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数の
第2のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るデータ分類モジュールと、
前記診療録情報に対応するカテゴリ結果を前記端末に
送信するためのデータプッシュ通知モジュールとを含む、機械学習に基づく医療データ分類装置。
【請求項8】
前記単語分割処理モジュールは予め設定された複数の医療用語を含む医療用語集を取得し、前記診療録情報中の複数のテキストデータと前記医療用語集とのマッチングを行って、前記診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出し、マッチング後のテキストデータに基づいて前記診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得、前記単語分割後の複数のテキストデータをベクトル化して、複数の
第1のテキストベクトルを得るためにも用いられることを特徴とする、請求項7に記載の装置。
【請求項9】
前記特徴抽出モジュールは、前記複数の
第1のテキストベクトルの単語出現頻度及び逆文書頻度を計算し、前記単語出現頻度及び前記逆文書頻度に基づいて、予め設定されたアルゴリズムに従って複数の
第1のテキストベクトルの重みを計算し、前記重みが予め設定された閾値に達する
第2のテキストベクトルを抽出し、予め設定されたアルゴリズム及び前記重みに基づいて前記
第2のテキストベクトルに対応する特徴次元値を計算するためにも用いられることを特徴とする、請求項7に記載の装置。
【請求項10】
分類器構築モジュールであって、複数の医療データを取得し、前記複数の医療データに基づいて対応するトレーニングセットデータ及び検証セットデータを生成し、前記トレーニングセットデータ中の複数の医療データにクラスター分析を行って、クラスタリング結果を得、前記クラスタリング結果に特徴抽出を行って、複数の特徴変数を抽出し、予め設定されたニューラルネットワークモデルを取得し、前記ニューラルネットワークモデルによって前記トレーニングセットデータをトレーニングすることにより、複数の特徴変数に対応する特徴次元値及び重みを得、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築し、前記検証セットデータを利用して前記初期分類器の更なるトレーニング及び検証を行い、前記検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、所定のターゲット分類器を得るための分類器構築モジュールをさらに含むことを特徴とする、請求項7に記載の装置。
【請求項11】
テキストには複数のテキストセンテンスが含まれ、前記複数のテキストセンテンスがテキストブロックを構成し、前記データ分類モジュールは、前記ターゲット分類器を利用して前記特徴次元値から前記複数の
第2のテキストベクトル間の相関性を計算し、前記相関性に基づいて前記テキストで文と認められるテキストセンテンスを計算し、前記テキストセンテンスのセンテンスベクトルを計算し、前記センテンスベクトルの特徴を抽出し、前記複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出し、前記テキストブロックベクトルの各カテゴリに対応する確率を計算し、予め設定された確率値に達するカテゴリを抽出し、前記テキストブロックに対して対応するカテゴリタグを追加するためにも用いられることを特徴とする、請求項7に記載の装置。
【請求項12】
モデル最適化モジュールであって、予め設定された頻度に基づいて、予め設定されたデータベースから複数の過去医療データを取得し、複数の過去医療データにクラスター分析を行って、分析結果を得、前記分析結果に基づいて特徴選択を行って、複数の特徴変数を得、予め設定されたアルゴリズムに従って複数の特徴変数の重みを計算し、複数の特徴変数及び対応する重みに基づいて前記ターゲット分類器の最適化を行って調整するモデル最適化モジュールをさらに含むことを特徴とする、請求項7に記載の装置。
【請求項13】
メモリと、プロセッサとを含み、前記メモリには少なくとも1つのコンピュータ可読コマンドが記憶されており、前記コンピュータ可読コマンドが前記プロセッサによってロードされると、
端末が送信した医療データ分類要求を受信するステップであって、前記医療データ分類要求は診療録情報を含むステップと、
予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数の
第1のテキストベクトルを得るステップと、
前記複数の
第1のテキストベクトルに
対して特徴抽出を行って、複数の
第2のテキストベクトル及び対応する特徴次元値を得るステップと、
ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数の
第2のテキストベクトル及び対応する特徴次元値を走査して計算するステップであって、前記ターゲット分類器は複数の医療データでトレーニングして得られるステップと、
前記複数の
第2のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数の
第2のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るステップと、
前記診療録情報に対応するカテゴリ結果を前記端末に
送信するステップとが実行される、コンピュータデバイス。
【請求項14】
不揮発性コンピュータ可読記憶媒体であって、前記
不揮発性コンピュータ可読記憶媒体には少なくとも1つのコンピュータ可読コマンドが記憶されており、前記コンピュータ可読コマンドがプロセッサによってロードされると、
端末が送信した医療データ分類要求を受信するステップであって、前記医療データ分類要求は診療録情報を含むステップと、
予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数の
第1のテキストベクトルを得るステップと、
前記複数の
第1のテキストベクトルに特徴抽出を行って、複数の
第2のテキストベクトル及び対応する特徴次元値を得るステップと、
ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数の
第2のテキストベクトル及び対応する特徴次元値を走査して計算するステップであって、前記ターゲット分類器は複数の医療データでトレーニングして得られるステップと、
前記複数の
第2のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数の
第2のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るステップと、
前記診療録情報に対応するカテゴリ結果を前記端末に
送信するステップとが実行される、不揮発性コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2019年3月7日に中国国家知識産権局に提出された「機械学習に基づく医療データ分類方法、装置及びコンピュータデバイス」と題する中国特許出願第2019101715930号の優先権を主張し、その全体が引用により本願に組み込まれる。
【0002】
本発明は、コンピュータ技術分野に関し、特に、機械学習に基づく医療データ分類方法、装置、コンピュータデバイス及び記憶媒体に関する。
【背景技術】
【0003】
近年、がんの罹患率が増加の一途をたどり、がんは重要な健康課題として見なされるようになる。がんの早期診断と治療はがん患者の生存率を明らかに高めることができる。コンピュータ技術及び医療技術の急速な発展に伴い、大量の医療データに対するスマート分類方法が出現し、例えば、診療録や医療書籍から特定の診療録を取り出して構造化された単語リストを抽出し、診療録別テーマモデルを構築し、診療録のテーマによってトレーニングして対応するカテゴリを得る。あるいは、経験や関連の知識を利用して入力サンプルをトレーニングし、がんのタイプを分類する。これは医療従事者の作業負荷の軽減にもつながる。
【0004】
従来の医療データ分類方法では、分類分析の対象データは昔から使われるデータがほとんどで、データの由来が限られるため、実際のユーザーの診療録情報に対して分類分析を行うことができず、しかも診療録情報の多くが複雑でかつ具体的な経過分析及び記録書面で、医療書面の性質上、診療録情報で用語が正確でなければ意味が伝わらない。
【発明の概要】
【0005】
コンピュータデバイスが実行する機械学習に基づく医療データ分類方法であって、端末が送信した医療データ分類要求を受信するステップであって、前記医療データ分類要求は診療録情報を含むステップと、予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数のテキストベクトルを得るステップと、前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るステップと、ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算するステップであって、前記ターゲット分類器は複数の医療データでトレーニングして得られるステップと、前記複数のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るステップと、前記診療録情報に対応するカテゴリ結果を前記端末にプッシュ通知するステップとを含む。
【0006】
一態様では、前記診療録情報には複数のテキストデータが含まれ、前記診療録情報に単語分割処理を行う前記ステップは、予め設定された医療用語集を取得するステップであって、前記医療用語集には複数の医療用語が含まれるステップと、前記診療録情報中の複数のテキストデータと前記医療用語集とのマッチングを行って、前記診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出するステップと、マッチング後のテキストデータに基づいて前記診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得るステップと、前記単語分割後の複数のテキストデータにベクトル変換を行って、複数のテキストベクトルを得るステップとを含む。
【0007】
一態様では、前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得る前記ステップは、前記複数のテキストベクトルの単語出現頻度及び逆文書頻度を計算するステップと、前記単語出現頻度及び前記逆文書頻度に基づいて、予め設定されたアルゴリズムに従って複数のテキストベクトルの重みを計算するステップと、前記重みが予め設定された閾値に達するテキストベクトルを抽出するステップと、予め設定されたアルゴリズム及び前記重みに基づいて前記テキストベクトルに対応する特徴次元値を計算するステップとを含む。
【0008】
一態様では、前記ターゲット分類器を構築するステップは、複数の医療データを取得し、前記複数の医療データに基づいて対応するトレーニングセットデータ及び検証セットデータを生成するステップと、前記トレーニングセットデータ中の複数の医療データにクラスター分析を行って、クラスタリング結果を得るステップと、前記クラスタリング結果に特徴抽出を行って、複数の特徴変数を抽出するステップと、予め設定されたニューラルネットワークモデルを取得し、前記ニューラルネットワークモデルによって前記トレーニングセットデータをトレーニングすることにより、複数の特徴変数に対応する特徴次元値及び重みを得、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築するステップと、前記検証セットデータを利用して前記分類器の更なるトレーニング及び検証を行い、前記検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、所定のターゲット分類器を得るステップとを含む。
【0009】
一態様では、テキストには複数のテキストセンテンスが含まれ、前記複数のテキストセンテンスがテキストブロックを構成し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して複数のテキストベクトルに対応するカテゴリを計算するステップは、前記ターゲット分類器を利用して前記特徴次元値から前記複数のテキストベクトル間の相関性を計算し、前記相関性に基づいて前記テキストで文と認められるテキストセンテンスを計算し、前記テキストセンテンスのセンテンスベクトルを計算するステップと、前記センテンスベクトルの特徴を抽出し、前記複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出するステップと、前記テキストブロックベクトルの各カテゴリに対応する確率を計算し、予め設定された確率値に達するカテゴリを抽出し、前記テキストブロックに対して対応するカテゴリタグを追加するステップとを含む。
【0010】
一態様では、前記方法は、予め設定された頻度に基づいて、予め設定されたデータベースから複数の過去医療データを取得するステップと、複数の過去医療データにクラスター分析を行って、分析結果を得るステップと、前記分析結果に基づいて特徴選択を行って、複数の特徴変数を得るステップと、予め設定されたアルゴリズムに従って複数の特徴変数の重みを計算するステップと、複数の特徴変数及び対応する重みに基づいて前記ターゲット分類器の最適化を行って調整するステップとをさらに含む。
【0011】
機械学習に基づく医療データ分類装置であって、端末が送信した医療データ分類要求を受信するために用いられ、前記医療データ分類要求は診療録情報を含む要求受信モジュールと、予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数のテキストベクトルを得るための単語分割処理モジュールと、前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るための特徴抽出モジュールと、ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算するために用いられ、前記ターゲット分類器は複数の医療データでトレーニングして得られるデータ分類モジュールであって、前記複数のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るためのデータ分類モジュールと、前記診療録情報に対応するカテゴリ結果を前記端末にプッシュ通知するためのデータプッシュ通知モジュールとを含む。
【0012】
一態様例では、前記単語分割処理モジュールは、予め設定された複数の医療用語を含む医療用語集を取得し、前記診療録情報中の複数のテキストデータと前記医療用語集とのマッチングを行って、前記診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出し、マッチング後のテキストデータに基づいて前記診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得、前記単語分割後後の複数のテキストデータをベクトル化して、複数のテキストベクトルを得るためにも用いられる。
【0013】
コンピュータデバイスであって、メモリと、プロセッサとを含み、前記メモリには少なくとも1つのコンピュータ可読コマンドが記憶されており、前記コンピュータ可読コマンドが前記プロセッサによってロードされると、端末が送信した医療データ分類要求を受信するステップであって、前記医療データ分類要求は診療録情報を含むステップと、予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数のテキストベクトルを得るステップと、前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るステップと、ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算するステップであって、前記ターゲット分類器は複数の医療データでトレーニングして得られるステップと、前記複数のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るステップと、前記診療録情報に対応するカテゴリ結果を前記端末にプッシュ通知するステップとが実行される。
【0014】
不揮発性コンピュータ可読記憶媒体であって、前記記憶媒体には少なくとも1つのコマンドが記憶されており、前記コンピュータ可読記憶媒体には少なくとも1つのコンピュータ可読コマンドが記憶されており、前記コンピュータ可読コマンドがプロセッサによってロードされると、端末が送信した医療データ分類要求を受信するステップであって、前記医療データ分類要求は診療録情報を含むステップと、予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数のテキストベクトルを得るステップと、前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るステップと、ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算するステップであって、前記ターゲット分類器は複数の医療データでトレーニングして得られるステップと、前記複数のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るステップと、前記診療録情報に対応するカテゴリ結果を前記端末にプッシュ通知するステップとが実行される。
【0015】
次の図面及び説明で本発明の1つ以上の実施例が詳細に記載される。本発明の他の特徴及び利点は明細書、図面、特許請求の範囲の記載から明らかになる。
【図面の簡単な説明】
【0016】
次に、実施例の説明に使用する図面を簡単に紹介する。言うまでもないが、次に言及される図面は本発明のいくつかの実施例が対象になり、当業者であれば、新規性のある作業をしなくても、これらの図面から他の図面を得ることができる。
【
図1】一実施例に係る機械学習に基づく医療データ分類方法の適用シーンの図である。
【
図2】一実施例に係る機械学習に基づく医療データ分類方法のフローチャートである。
【
図3】一実施例で診療録情報に単語分割処理を行うステップのフローチャートである。
【
図4】一実施例でターゲット分類器を構築するステップのフローチャートである。
【
図5】一実施例に係る機械学習に基づく医療データ分類装置の構造のブロック図である。
【
図6】一実施例に係るコンピュータデバイスの内部構造図である。
【発明を実施するための形態】
【0017】
次に、本発明の技術的解決手段及び利点が明らかになるよう、実施例及び図面を参照して、本発明の一層詳細な説明を行う。なお、ここに記載される実施例は、本発明の限定にならず、本発明を説明するためのものに過ぎない。
【0018】
本発明に係る機械学習に基づく医療データ分類方法は、
図1の適用シーンに適用される。端末102はネットワークによってサーバー104と通信を行う。医療従事者は対応する端末102を利用してサーバー104に医療データ分類要求を送信することができ、医療データ分類要求には診療録情報が含まれる。サーバー104は端末102が送信した医療データ分類要求を受信した後、診療録情報に単語分割処理を行って、複数のテキストベクトルを得、さらに複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得る。さらにサーバー104はターゲット分類器を取得し、ターゲット分類器は複数の医療データでトレーニングして得られ、ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値に分類分析を行って、効率的に診療録情報に対応するカテゴリ結果を得ることができ、さらにサーバー104は診療録情報に対応するカテゴリ結果を対応する端末102にプッシュ通知する。診療録情報に効率的な単語分割及び特徴抽出を行い、予めトレーニングして構築された分類器を利用して抽出されたテキストデータを分類することにより、診療録情報の分類の正確率が効果的に高められる。非限定的であるが、端末102は様々なタイプのパソコン、ノートパソコン、スマートフォン、タブレットパソコン、ポータブルウェアラブルデバイスであってもよく、サーバー104は単独のサーバー又は複数のサーバーからなるサーバークラスターとして実装することができる。
【0019】
一実施例では、
図2に示すとおり、機械学習に基づく医療データ分類方法を提供し、当該方法が
図1のサーバーに適用されるのを例に説明する。以下のステップ202~ステップ212を含む。
ステップ202で、端末が送信した医療データ分類要求を受信し、医療データ分類要求は診療録情報を含む。
【0020】
診療録情報は受診者のID情報、個人資産情報、既往歴記録情報、過去の診断情報等を含んでもよい。医療従事者が受診者を診断する時には、対応する端末を利用して受診者の診療録情報を取得してもよく、診療録情報は医療従事者が入力した情報を含んでもよいし、受診者のID情報によってデータベースから取得された診療録情報を含んでもよい。端末が当該受診者の診療録情報を取得した後、診療録情報に基づいてサーバーに医療データ分類要求を送信し、医療データ分類要求には診療録情報及びID情報が含まれる。
【0021】
さらに、サーバーは受診者のID情報によって第三者データベースから当該受診者の過去の診療録情報(例えば、当該受診者の他の医療機関での診療録情報)を取得することにより、当該受診者に対応する完全な診療録情報を効率的に取得することができる。
【0022】
ステップ204で、予め設定された医療用語集を取得し、医療用語集中の医療用語に基づいて診療録情報に単語分割処理を行って、複数のテキストベクトルを得る。
【0023】
診療録情報に単語分割処理を行う前に、サーバーは大量の医療データを取得し、前記大量の医療データに意味分析を行ってもよく、例えば、予め設定された意味分析モデルによって大量の医療データに意味分析を行って、複数のカテゴリの医療用語を得る。さらに、サーバーは分析して得た医療用語を利用して医療分野の複数のカテゴリに対応する医療用語集を生成する。
【0024】
サーバーは端末が送信した医療データ分類要求を受信した後、診療録情報に単語分割処理を行う。具体的には、サーバーは予め設定された医療用語集を取得し、医療用語集には大量の医療用語及び対応するベクトルが含まれる。次にサーバーは診療録情報中の複数のテキストデータと医療用語集中の複数の医療用語とのマッチングを行い、具体的には、サーバーは予め設定された距離アルゴリズムによって診療録情報中のテキストデータと医療用語との類似度を計算し、診療録情報中のテキストデータと医療用語とのマッチング度を算出してもよい。さらにサーバーは予め設定されたマッチング度に達するテキストデータを抽出する。次にサーバーはマッチング後のテキストデータに基づいて診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得る。さらにサーバーは単語分割後の複数のテキストデータをベクトル化し、テキストデータを対応する定量情報に変換することによって、複数のテキストデータに対応する複数のテキストベクトルを得る。
【0025】
ステップ206で、複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得る。
【0026】
サーバーは診療録情報に対応するテキストベクトルに単語分割を行って、複数のテキストベクトルを得た後、テキストデータに特徴抽出を行う。サーバーは予め設定されたアルゴリズムに従って単語分割後の複数のテキストベクトルの重みを計算する。例えば、サーバーはTF-IDFアルゴリズムによって複数のテキストベクトルのTF値及びIDF値を計算することができ、TF(Term Frequency、単語出現頻度)は文書中のテキストベクトルの出現頻度を示す。IDF(Inverse Document Frequency、逆文書頻度)は単語の一般的な重要度を示す尺度である。複数の単語のTF値及びIDF値に基づいて複数の対応する重みを計算し、例えば、TF値とIDF値の積を計算してテキストベクトルに対応する重みを得ることができ、さらにサーバーはテキストベクトルの重みに基づいてテキストベクトルに特徴抽出を行って、予め設定された閾値に達するテキストベクトルを抽出する。
【0027】
予め設定された閾値に達するテキストベクトルを抽出した後、サーバーは予め設定されたアルゴリズム及びテキストベクトルの重みに基づいて複数のテキストベクトルの特徴次元値を算出し、特徴次元値はテキストベクトルの属する特徴次元を表す。テキストベクトルの重みを算出し、重みによってテキストベクトルをフィルタリングすることにより、効率的にテキストベクトルに特徴抽出を行って、テキストベクトルに対応する特徴次元値を得ることができる。
【0028】
ステップ208で、ターゲット分類器を取得し、ターゲット分類器の複数のニューラルネットワークノードによって複数のテキストベクトル及び対応する特徴次元値を走査して計算し、ターゲット分類器は複数の医療データでトレーニングして得られる。
【0029】
ステップ210で、複数のテキストベクトルに対応するターゲットノードまで走査すると、ターゲットノードに基づいて複数のテキストベクトルに対応するカテゴリ確率を計算し、カテゴリ確率に基づいて診療録情報に対応するカテゴリ結果を得る。
【0030】
ターゲット分類器を取得する前に、サーバーは予めターゲット分類器を構築しこれをトレーニングしてもよい。具体的には、サーバーは予めローカルデータベース又は第三者データベースから大量の医療データを取得し、複数の医療データに基づいて対応するトレーニングセットデータ及び検証セットデータを生成してもよい。サーバーは医療データに対応する複数のフィールドのデータをベクトル化して、複数のテキストデータに対応する特徴ベクトルを得、特徴ベクトルを対応する特徴変数に変換する。さらにサーバーは予め設定されたクラスタリングアルゴリズムを用いてトレーニングセットデータに対応する特徴変数にクラスター分析を行って、予め設定された閾値に達する特徴変数を抽出する。次にサーバーは予め設定されたニューラルネットワークモデルを取得し、ニューラルネットワークモデルによってトレーニングセットデータをトレーニングすることにより、複数の特徴変数に対応する特徴次元値及び重みを得、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築する。検証セットデータを利用して分類器の更なるトレーニング及び検証を行い、検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、所定のターゲット分類器を得る。
【0031】
テキストデータに特徴抽出を行って、複数のテキストデータに対応する多次元ベクトルを得た後、サーバーはトレーニング済みのターゲット分類器を取得し、複数のテキストベクトル及び対応する次元特徴値をターゲット分類器に入力し、ここで、ターゲット分類器には複数の予め設定されたニューラルネットワーク層ノード及び対応するノード重みが含まれる。ターゲット分類器中の複数のノードに予め設定された損失関数によって複数のテキストベクトル及び対応する次元特徴値を走査して計算して、複数のテキストベクトルに対応するターゲットノードを得、ターゲットノードに基づいて複数のテキストベクトルに対応するカテゴリ確率を計算し、カテゴリ確率によってテキストベクトルに対応するカテゴリ結果を得、さらに診療録情報に対応するカテゴリ結果を得る。
【0032】
ステップ212で、診療録情報に対応するカテゴリ結果を端末にプッシュ通知する。
【0033】
ターゲット分類器によって診療録情報を分類して、診療録情報に対応するカテゴリ結果を得た後、サーバーは診療録情報に対応するカテゴリ結果を対応する端末にプッシュ通知する。診療録情報に効率的な単語分割及び特徴抽出を行い、予めトレーニングして構築されたターゲット分類器を利用して抽出されたテキスト情報を分類することにより、診療録情報の分類の正確率を効果的に高めることができ、医療従事者がプッシュ通知された診療録情報に対応するカテゴリ結果に基づいて効率的に診断することに役立ち、医療従事者の診断効率を効果的に高める。
【0034】
例えば、診療録情報には受診者に対応する過去の診療録情報が含まれ、複数の既往歴の説明、過去の処方情報、過去の診断情報等データが含まれる。診療録情報に複数回のスクリーニング及びテキスト抽出を行った後、予めトレーニングされたターゲット分類器を利用して抽出されたテキストに分類分析を行い、当該受診者の診療録情報中の全てのデータに分類分析を行った後、当該診療録情報に対応するカテゴリ結果が得られる。例えば、受診者ががんに罹患している場合には、分類によってがんのカテゴリが特定される。
【0035】
前記機械学習に基づく医療データ分類方法では、サーバーは端末が送信した医療データ分類要求を受信した後、医療データ分類要求に含まれた診療録情報に単語分割処理を行うことにより、効率的に医療分野別に単語分割を行って複数のテキストベクトルを得ることができ、さらにサーバーは複数のテキストベクトルに特徴抽出を行って、効率的に複数のテキストベクトル及び対応する特徴次元値を抽出することができる。さらにサーバーはターゲット分類器を取得し、ターゲット分類器は複数の医療データでトレーニングして得られ、ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算し、複数のテキストベクトルに対応するターゲットノードまで走査すると、ターゲットノードに基づいて複数のテキストベクトルに対応するカテゴリ確率を計算し、カテゴリ確率に基づいて診療録情報に対応するカテゴリ結果を得ることにより、効率的に診療録情報に対応するカテゴリ結果を得ることができ、予めトレーニングして構築された分類器を利用して抽出されたテキストデータを分類することにより、診療録情報の分類の正確率が効果的に高められる。次にサーバーは診療録情報に対応するカテゴリ結果を対応する端末にプッシュ通知する。このようにして医療従事者がプッシュ通知された診療録情報に対応するカテゴリ結果に基づいて効率的に判断を与えることができ、診療録情報を正確に分類することにより、医療データの処理効率を効果的に高めることができる。
【0036】
一実施例では、
図3に示すとおり、診療録情報には複数のテキストデータが含まれ、診療録情報に単語分割処理を行うステップは、具体的にステップ302~ステップ306を含む。
ステップ302で、予め設定された医療用語集を取得し、医療用語集には複数の医療用語が含まれ、診療録情報中の複数のテキストデータと医療用語集とのマッチングを行って、診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出する。
【0037】
ステップ304で、マッチング後のテキストデータに基づいて診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得る。
【0038】
ステップ306で、単語分割後の複数のテキストデータにベクトル変換を行って、対応する複数のテキストベクトルを得る。
【0039】
医療データを処理する前に、サーバーは予め医療用語集を構築してもよい。具体的には、サーバーは大量の医療データを取得し、前記大量の医療データに意味分析を行ってもよく、例えば、予め設定された意味分析モデルによって大量の医療データに意味分析を行って、複数のカテゴリの医療用語を得る。さらに、サーバーは分析して得た医療用語を利用して医療分野の複数のカテゴリに対応する医療用語集を生成する。
【0040】
医療従事者は対応する端末を利用してサーバーに医療データ分類要求を送信してもよく、医療データ分類要求には診療録情報が含まれる。サーバーは端末が送信した医療データ分類要求を受信した後、医療データ分類要求中の診療録情報に単語分割処理を行う。具体的には、サーバーは予め設定された医療用語集を取得し、医療用語集には大量の医療用語及び対応するベクトルが含まれる。次にサーバーは診療録情報中の複数のテキストデータと医療用語集中の複数の医療用語とのマッチングを行い、具体的には、サーバーは予め設定された距離アルゴリズムによって診療録情報中のテキストデータと医療用語との類似度を計算し、診療録情報中のテキストデータと医療用語とのマッチング度を算出してもよい。さらにサーバーは予め設定されたマッチング度に達するテキストデータを抽出する。次にサーバーはマッチング後のテキストデータに基づいて診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得る。
【0041】
さらにサーバーは単語分割後の複数のテキストデータをベクトル化し、テキストデータを対応する定量情報に変換することによって、複数のテキストデータに対応する複数のテキストベクトルを得る。例えば、Doc2Vec及びWord2Vecアルゴリズムによって単語分割後の複数のテキストデータに単語のベクトル化及び段落のベクトル化を行って、対応するテキストベクトルを得てもよい。ここで、テキストベクトルはキャラクタベクトル、ワードベクトル、センテンスベクトル等を含んでもよい。
【0042】
サーバーは複数のテキストデータに対応するテキストベクトルを得た後、予め設定されたアルゴリズムに従ってテキストベクトルの特徴次元値を算出し、複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得る。さらにサーバーは予め設定された分類器を取得し、分類器によって複数のテキストベクトル及び対応する特徴次元値に分類分析を行って、効率的に診療録情報に対応するカテゴリ結果を得ることができ、さらにサーバーは診療録情報に対応するカテゴリ結果を対応する端末にプッシュ通知する。診療録情報に効率的な単語分割及び特徴抽出を行い、予めトレーニングして構築された分類器を利用して抽出されたテキスト情報を分類することにより、診療録情報の分類の正確率を効果的に高めることができ、医療従事者がプッシュ通知された診療録情報に対応するカテゴリ結果に基づいて効率的に診断することに役立つ。
【0043】
一実施例では、複数のテキストデータに特徴抽出を行って、複数のテキストベクトルに対応する多次元ベクトルを得るステップは、複数のテキストベクトルの単語出現頻度及び逆文書頻度を算出するステップと、単語出現頻度及び逆文書頻度に基づいて、予め設定されたアルゴリズムに従って複数のテキストベクトルの重みを計算するステップと、重みが予め設定された閾値に達するテキストベクトルを抽出するステップと、予め設定されたアルゴリズム及び重みに基づいて、テキストベクトルに対応する特徴次元値を計算するステップとを含む。
【0044】
医療従事者は対応する端末を利用してサーバーに医療データ分類要求を送信してもよく、医療データ分類要求には診療録情報が含まれる。サーバーは端末が送信した医療データ分類要求を受信した後、医療データ分類要求中の診療録情報に単語分割処理を行って、複数のテキストベクトルを得る。
【0045】
診療録情報に対応する複数のテキストベクトルを得た後、サーバーは予め設定されたアルゴリズムに従って単語分割後の複数のテキストベクトルの重みを計算する。例えば、サーバーはTF-IDFアルゴリズムによって複数のテキストベクトルのTF値及びIDF値を計算することができ、TF(Term Frequency、単語出現頻度)はテキストベクトルの出現頻度を示す。IDF(Inverse Document Frequency、逆文書頻度)は単語の一般的な重要度を示す尺度である。複数の単語のTF値及びIDF値に基づいて複数の対応する重みを計算し、例えば、TF値とIDF値の積を計算してテキストデータに対応する重みを得ることができる。
【0046】
例えば、下式で複数のテキストベクトルのTF値を計算してもよい。
【数1】
テキストベクトルのIDF値の計算式は次のものであってもよい。
【数2】
テキストベクトルの重みの計算式は次のものであってもよい。
【数3】
【0047】
テキストベクトルtを含む文書が少ない(nが小さい)ほど、IDFが大きいため、テキストベクトルtで効率的にカテゴリを区分することができる。あるカテゴリの文書Cでエントリーtを含む文書の数量がmで、他のカテゴリでtを含む文書の総数がkであれば、tを含む文書の総数はn=m+kであり、mが大きいと、nが大きく、IDF計算式から得たIDFの値が小さく、これは当該エントリーtで効率的にカテゴリを区分できないことを示す。あるカテゴリの文書でエントリーが頻繁に出現する場合には、当該エントリーが効果的に当該カテゴリのテキストの特徴を示すことができ、当該エントリーは重みが高い。TFとIDFの積を計算して、テキストベクトルの重みを算出すると、サーバーはテキストベクトルの重みに基づいてテキストベクトルに特徴抽出を行って、予め設定された閾値に達するテキストベクトルを抽出する。
【0048】
予め設定された閾値に達するテキストベクトルを抽出した後、サーバーは予め設定されたアルゴリズム及びテキストベクトルの重みに基づいて複数のテキストベクトルの特徴次元値を算出し、特徴次元値はテキストベクトルの属する特徴次元を表す。テキストベクトルは複数の特徴次元を含んでもよく、テキストベクトルの重みを算出した後、サーバーは重みを利用してテキストベクトルの特徴次元の重要度を計算して、テキストベクトルに対応する特徴次元値を得てもよい。テキストベクトルの重みを算出し、重みによってテキストベクトルをフィルタリングすることにより、効率的にテキストベクトルに特徴抽出を行って、テキストベクトルに対応する特徴次元値を得ることができる。
【0049】
一実施例では、
図4に示すとおり、ターゲット分類器を取得する前に、ターゲット分類器を構築するステップをさらに含み、当該ステップは具体的にステップ402~ステップ410を含む。
ステップ402で、複数の医療データを取得し、複数の医療データに基づいて対応するトレーニングセットデータ及び検証セットデータを生成する。
【0050】
ターゲット分類器を取得する前に、サーバーはターゲット分類器を構築しこれをトレーニングする必要がある。具体的には、サーバーは予めローカルデータベース又は第三者データベースから大量の医療データを取得してもよく、医療データは医療診断情報、臨床データ及び調査研究データ等を含んでもよい。サーバーは大量の医療データからトレーニングセットデータ及び検証セットデータを生成し、ここで、トレーニングセットデータは人力でタグを付与したデータであってもよい。
【0051】
ステップ404で、トレーニングセットデータ中の複数の医療データにクラスター分析を行って、クラスタリング結果を得る。
【0052】
ステップ406で、クラスタリング結果に特徴抽出を行って、複数の特徴変数を抽出する。
【0053】
ステップ408で、予め設定されたニューラルネットワークモデルを取得し、ニューラルネットワークモデルによってトレーニングセットデータをトレーニングすることにより、複数の特徴変数に対応する特徴次元値及び重みを得、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築する。
【0054】
ステップ410で、検証セットデータを利用して分類器の更なるトレーニング及び検証を行い、検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、所定のターゲット分類器を得る。
【0055】
サーバーはまずトレーニングセットデータ中の医療データにデータクリーニング及びデータ前処理を行い、具体的には、サーバーは医療データに対応する複数のフィールドのデータをベクトル化して、複数のテキストデータに対応する特徴ベクトルを得、特徴ベクトルを対応する特徴変数に変換する。さらにサーバーは特徴変数に誘導処理を行って、処理後の複数の特徴変数を得る。例えば、特徴変数に欠落値の補足、異常値の抽出と置換等を行う。
【0056】
さらにサーバーは予め設定されたクラスタリングアルゴリズムを用いてトレーニングセットデータに対応する特徴変数にクラスター分析を行う。例えば、予め設定されたクラスタリングアルゴリズムはk-means(k平均法)によってクラスタリングする方法であってもよい。サーバーは特徴変数に複数回のクラスタリングを行った後、複数のクラスタリング結果を得る。さらにサーバーは予め設定されたアルゴリズムに従って複数の特徴変数間の類似度を計算し、類似度が予め設定された閾値に達する特徴変数を抽出する。
【0057】
例えば、サーバーは複数のクラスタリング結果中の特徴変数をそれぞれ組み合わせて、複数の組み合わせ特徴変数を得てもよい。ターゲット変数を取得し、ターゲット変数を利用して複数の組み合わせ特徴変数の相関性検証を行う。検証に問題がない場合に、組み合わせ特徴変数にインタラクティブタグを追加する。インタラクティブタグを追加した組み合わせ特徴変数を利用して対応する特徴変数を解析する。インタラクティブタグを追加した組み合わせ特徴変数は予め設定された閾値に達する特徴変数であってもよく、サーバーは予め設定された閾値に達する特徴変数を抽出する。特徴変数に特徴処理及び特徴抽出を行うことにより、価値のある特徴変数を効率的に抽出することができる。
【0058】
サーバーは予め設定された機械学習モデルを取得し、例えば、決定木に基づくXgboot機械学習モデルであってもよい。例えば、機械学習モデルには複数のニューラルネットワークモデルが含まれ、ニューラルネットワークモデルは予め設定された入力層、複数のLSTM層、ドロップアウト(dropout)層及び出力層を含んでもよい。ニューラルネットワークモデルには複数のネットワークノードが含まれ、ここで、各層のネットワークノードのドロップアウト率は0.2であってもよい。ニューラルネットワークモデルのLSTM層は活性化関数及び損失関数を含み、LSTM層によって出力された全結合人工ニューラルネットワークも対応する活性化関数を含む。ニューラルネットワークモデルは誤差決定のための計算方法をさらに含み、例えば、平均二乗誤差アルゴリズムを用いてもよく、重みパラメータの決定のための反復更新方法をさらに含み、例えば、RMSpropアルゴリズムを用いてもよい。ニューラルネットワークモデルには出力結果の次元削減のために、通常のニューラルネットワーク層をさらに含んでもよい。
【0059】
サーバーは予め設定されたニューラルネットワークモデルを取得した後、学習及びトレーニングのためにトレーニングセットデータ中の医療データをニューラルネットワークモデルに入力する。サーバーはトレーニングセット中の大量の医療データをトレーニングした後、複数の特徴変数に対応する特徴次元値及び重みを得ることができ、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築する。
【0060】
サーバーは初期分類器を得た後、検証セットデータを取得し、検証セットデータ中の大量の医療データによって構築された初期分類器のトレーニング及び検証を行う。検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、トレーニング済みのターゲット分類器を得る。大量の医療データのトレーニング及び学習により、予測正確率が高い分類器を効率的に構築することができ、医療データの分類の正確率を効果的に高める。
【0061】
一実施例では、テキストには複数のテキストセンテンスが含まれ、複数のテキストセンテンスがテキストブロックを構成し、分類器の複数のニューラルネットワークノードによって複数のテキストベクトル及び対応する特徴次元値を走査して複数のテキストベクトルに対応するカテゴリを計算するステップは、ターゲット分類器を利用して特徴次元値から複数のテキストベクトル間の相関性を計算し、相関性に基づいてテキストで文と認められるテキストセンテンスを計算し、テキストセンテンスのセンテンスベクトルを計算するステップと、センテンスベクトルの特徴を抽出し、複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出するステップと、テキストブロックベクトルの各カテゴリに対応する確率を計算し、予め設定された確率値に達するカテゴリを抽出し、テキストブロックに対して対応するカテゴリタグを追加するステップとを含む。
【0062】
医療従事者は対応する端末を利用してサーバーに医療データ分類要求を送信してもよく、医療データ分類要求には診療録情報が含まれる。サーバーは端末が送信した医療データ分類要求を受信した後、医療データ分類要求中の診療録情報に単語分割処理を行って、複数のテキストデータに対応するテキストベクトルを得る。さらにサーバーはテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得る。
【0063】
サーバーは複数のテキストベクトル及び対応する特徴次元値を抽出した後、ターゲット分類器を取得し、複数のテキストベクトル及び対応する特徴次元値をターゲット分類器の入力とする。ここで、ターゲット分類器には複数の予め設定されたニューラルネットワーク層ノード及び対応するノード重みが含まれ、ターゲット分類器中の複数のニューラルネットワーク層ノードによって複数のテキストベクトル及び対応する特徴次元値を走査して計算する。具体的には、テキストには複数の単語及び短い文、即ちテキストセンテンスが含まれてもよい。テキストベクトルはワードベクトル及びフレーズベクトルを含んでもよい。サーバーはまずテキストベクトル及び対応する次元特徴値に基づいてテキスト中の複数のテキストベクトル間の相関性を算出し、相関性に基づいてテキストで文と認められるテキストセンテンスを計算し、テキストセンテンスに対応するセンテンスベクトルを算出してもよい。次にサーバーはセンテンスベクトルの特徴を抽出し、複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出する。ここで、テキストブロックは複数のテキストセンテンスを含み、テキストブロックベクトルは複数のセンテンスベクトルから構成されてもよい。サーバーは複数のニューラルネットワーク層ノードに予め設定された損失関数によってテキストブロックベクトルの各カテゴリに属する確率を計算し、カテゴリ確率に基づいて複数のテキストブロックベクトルを次のニューラルネットワーク層ノードに入力して計算し、複数のテキストブロックベクトルに対応するターゲットノードを得ると、ターゲットノードによって複数のテキストブロックベクトルに対応するカテゴリ確率を算出し、カテゴリ確率が最も高いカテゴリ結果を取得することにより、複数のテキストブロックベクトルの属するカテゴリ結果を得る。大量のデータでトレーニングして得たターゲット分類器を利用して診療録情報中のテキストベクトルを分類することにより、効率的にかつ正確に診療録情報の属するカテゴリを得ることができ、診療録情報の分類の正確率を効果的に高めることができる。
【0064】
一実施例では、当該方法は、予め設定された頻度に基づいて、予め設定されたデータベースから複数の過去医療データを取得するステップと、複数の過去医療データにクラスター分析を行って、分析結果を得るステップと、分析結果に基づいて特徴選択を行って、複数の特徴変数を得るステップと、予め設定されたアルゴリズムに従って複数の特徴変数の重みを計算するステップと、複数の特徴変数及び対応する重みに基づいて分類器の最適化を行って調整するステップとをさらに含む。
【0065】
サーバーはトレーニングしてターゲット分類器を得た後、予め設定された頻度に基づいて分類器のパラメータの最適化を行って調整してもよい。具体的には、サーバーは予め設定された頻度に基づいてローカルデータベース又は第三者データベースから大量の過去医療データを取得してもよく、例えば、予め設定された頻度は1か月、3か月、6か月等であってもよく、サーバーは過去1か月、3か月又は6か月までの医療データを取得することができ、過去の医療データは医療診断情報、臨床データ及び調査研究データ等を含んでもよい。
【0066】
サーバーはまず大量の過去医療データを取得してデータクリーニング及びデータ前処理を行い、具体的には、サーバーは過去医療データに対応する複数のフィールドのデータをベクトル化し、複数のフィールドのデータに対応する特徴変数を得、特徴変数に誘導処理を行って、処理後の複数の特徴変数を得る。例えば、特徴変数に欠落値の補足、異常値の抽出と置換等を行う。
【0067】
さらにサーバーは予め設定されたクラスタリングアルゴリズムを用いてトレーニングセットデータに対応する特徴変数にクラスター分析を行う。例えば、予め設定されたクラスタリングアルゴリズムはk-means(k平均法)によってクラスタリングする方法であってもよい。サーバーは特徴変数に複数回のクラスタリングを行った後、複数のクラスタリング結果を得る。さらにサーバーは予め設定されたアルゴリズムに従って複数の特徴変数間の類似度を計算し、類似度が予め設定された閾値に達する特徴変数を抽出する。
【0068】
例えば、サーバーは複数のクラスタリング結果中の特徴変数をそれぞれ組み合わせて、複数の組み合わせ特徴変数を得てもよい。ターゲット変数を取得し、ターゲット変数を利用して複数の組み合わせ特徴変数の相関性検証を行う。検証に問題がない場合に、組み合わせ特徴変数にインタラクティブタグを追加する。インタラクティブタグを追加した組み合わせ特徴変数を利用して対応する特徴変数を解析する。インタラクティブタグを追加した組み合わせ特徴変数は予め設定された閾値に達する特徴変数であってもよく、サーバーは予め設定された閾値に達する特徴変数を抽出する。特徴変数に特徴処理及び特徴抽出を行うことにより、価値のある特徴変数を効率的に抽出することができる。
【0069】
さらにサーバーは予め設定されたアルゴリズムに従って複数の特徴変数の重みを計算し、複数の特徴変数及び対応する重みに基づいてターゲット分類器の最適化を行って調整する。具体的には、サーバーは複数の特徴変数及び対応する重みに基づいてターゲット分類器のパラメータを調整してもよく、効率的にターゲット分類器のパラメータの最適化を行って調整することができる。
【0070】
なお、
図2~
図4のフローチャートで各ステップは矢印に従って順番に示されるが、これらのステップは必ずしも矢印が示す順番に実行されるとは限らない。本明細書で指定がない限り、これらのステップの実行に順番上の制限はなく、これらのステップは他の順番で実行されてもよい。また、
図2~
図4で少なくとも一部のステップは複数のサブステップ又は複数のステージを含んでもよく、これらのサブステップ又はステージは必ずしも同時に実行されるとは限らず、異なる時間で実行されてもよく、これらのサブステップ又はステージの実行は必ずしも順番通り行うとは限らず、他のステップ、サブステップ又はステージの少なくとも一部と入れ替えて実行されてもよい。
【0071】
一実施例では、
図5に示すとおり、機械学習に基づく医療データ分類装置を提供し、要求受信モジュール502と、単語分割処理モジュール504と、特徴抽出モジュール506と、データ分類モジュール508と、データプッシュ通知モジュール510とを含み、ここで、要求受信モジュール502は、端末が送信した医療データ分類要求を受信するために用いられ、医療データ分類要求は診療録情報を含む。
単語分割処理モジュール504は、予め設定された医療用語集を取得し、医療用語集中の医療用語に基づいて診療録情報に単語分割処理を行って、複数のテキストベクトルを得るために用いられる。
特徴抽出モジュール506は、複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るために用いられる。
データ分類モジュール508は、ターゲット分類器を取得し、ターゲット分類器の複数のニューラルネットワークノードによって複数のテキストベクトル及び対応する特徴次元値を走査して計算するために用いられ、ターゲット分類器は複数の医療データでトレーニングして得られ、さらに、複数のテキストベクトルに対応するターゲットノードまで走査すると、ターゲットノードに基づいて複数のテキストベクトルに対応するカテゴリ確率を計算し、カテゴリ確率に基づいて診療録情報に対応するカテゴリ結果を得るために用いられる。
データプッシュ通知モジュール510は、診療録情報に対応するカテゴリ結果を端末にプッシュ通知するために用いられる。
【0072】
一実施例では、診療録情報には複数のテキストデータが含まれ、単語分割処理モジュール504は予め設定された複数の医療用語を含む医療用語集を取得し、診療録情報中の複数のテキストデータと医療用語集とのマッチングを行って、診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出し、マッチング後のテキストデータに基づいて診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得、単語分割後の複数のテキストデータをベクトル化し、複数のテキストベクトルを得るためにも用いられる。
【0073】
一実施例では、特徴抽出モジュール506は複数のテキストベクトルの単語出現頻度及び逆文書頻度を計算し、単語出現頻度及び逆文書頻度に基づいて、予め設定されたアルゴリズムに従って複数のテキストベクトルの重みを計算し、重みが予め設定された閾値に達するテキストベクトルを抽出し、予め設定されたアルゴリズム及び重みに基づいて、テキストベクトルに対応する特徴次元値を計算するためにも用いられる。
【0074】
一実施例では、当該装置はターゲット分類器構築モジュールをさらに含み、前記モジュールは、複数の医療データを取得し、複数の医療データに基づいて対応するトレーニングセットデータ及び検証セットデータを生成し、トレーニングセットデータ中の複数の医療データにクラスター分析を行って、クラスタリング結果を得、クラスタリング結果に特徴抽出を行って、複数の特徴変数を抽出し、予め設定されたニューラルネットワークモデルを取得し、ニューラルネットワークモデルによってトレーニングセットデータをトレーニングすることにより、複数の特徴変数に対応する特徴次元値及び重みを得、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築し、検証セットデータを利用して分類器の更なるトレーニング及び検証を行い、検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、所定のターゲット分類器を得るために用いられる。
【0075】
一実施例では、テキストには複数のテキストセンテンスが含まれ、複数のテキストセンテンスがテキストブロックを構成し、データ分類モジュール508はターゲット分類器を利用して特徴次元値から複数のテキストベクトル間の相関性を計算し、相関性に基づいてテキストで文と認められるテキストセンテンスを計算し、テキストセンテンスのセンテンスベクトルを計算し、センテンスベクトルの特徴を抽出し、複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出し、テキストブロックベクトルの各カテゴリに対応する確率を計算し、予め設定された確率値に達するカテゴリを抽出し、テキストブロックに対して対応するカテゴリタグを追加するためにも用いられる。
【0076】
一実施例では、当該装置はターゲット分類器最適化モジュールをさらに含み、前記モジュールは予め設定された頻度に基づいて、予め設定されたデータベースから複数の過去医療データを取得し、複数の過去医療データにクラスター分析を行って、分析結果を得、分析結果に基づいて特徴選択を行って、複数の特徴変数を得、予め設定されたアルゴリズムに従って複数の特徴変数の重みを計算し、複数の特徴変数及び対応する重みに基づいてターゲット分類器の最適化を行って調整するために用いられる。
【0077】
機械学習に基づく医療データ分類装置の具体的な説明は機械学習に基づく医療データ分類方法に関する上記の具体的な説明を参照することができ、ここでその説明は省略する。前記機械学習に基づく医療データ分類装置の各モジュールは全て又は一部がソフトウェア、ハードウェア又は両者の組み合わせとして実装することができる。前記各モジュールはハードウェアとしてコンピュータデバイスのプロセッサに埋め込まれ又は独立して設けられてもよいし、プロセッサが前記各モジュールに対応する動作を呼び出して実行するようにソフトウェアとしてコンピュータデバイスのメモリに記憶されてもよい。
【0078】
一実施例では、コンピュータデバイスを提供し、当該コンピュータデバイスはサーバーであってもよく、その内部構造は
図6に示すとおりであってもよい。当該コンピュータデバイスはシステムバスを介して接続されたプロセッサ、メモリ、ネットワークインタフェース及びデータベースを含む。ここで、当該コンピュータデバイスのプロセッサはコンピューティング機能及びコントロール機能を提供するために用いられる。当該コンピュータデバイスのメモリは不揮発性記憶媒体、内部ストレージを含む。当該不揮発性記憶媒体にはオペレーティングシステム、コンピュータ可読コマンド及びデータベースが記憶されている。当該内部ストレージは不揮発性記憶媒体内のオペレーティングシステム及びコンピュータ可読コマンドの動作環境を提供する。当該コンピュータデバイスのデータベースは医療データ、診療録情報等データを記憶するために用いられる。当該コンピュータデバイスのネットワークインタフェースはネットワークによって外部の端末と接続して通信するために用いられる。当該コンピュータ可読コマンドがプロセッサによって実行される時には、本発明の任意の一実施例に係る機械学習に基づく医療データ分類方法のステップが実行される。
【0079】
当業者が理解したように、
図6に示す構造は、本発明の技術的解決手段に関連する部分の構造のブロック図であり、本発明の技術的解決手段が適用されるコンピュータデバイスを限定するものではなく、コンピュータデバイスによって図示よりも多くの又は少ないコンポーネントを含んでもよいし、一部のコンポーネントを組み合わせてもよいし、コンポーネントの構成が異なってもよい。
【0080】
当業者が理解したように、前記実施例の方法の全ての又は一部のプロセスの実行は、コンピュータ可読コマンドが関連のハードウェアに指示を与えることで完了してもよく、前記コンピュータ可読コマンドは不揮発性コンピュータ可読記憶媒体に記憶されてもよく、当該コンピュータ可読コマンドが実行される時には、前記各方法の実施例のプロセスが行われてもよい。ここで、本発明の各実施例でメモリ、記憶、データベース又は他の媒体が言及される場合に、いずれも不揮発性及び/又は揮発性メモリが含まれる。不揮発性メモリには読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、フラッシュメモリが含まれる。揮発性メモリにはランダムアクセスメモリ(RAM)、外部キャッシュメモリが含まれる。非限定的にRAMは、例えば、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張SDRAM(ESDRAM)、シンクリンク(Synchlink)DRAM(SLDRAM)、ラムバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトラムバスダイナミックRAM(DRDRAM)、ラムバスダイナミックRAM(RDRAM)等の様々なタイプであってもよい。
【0081】
前記実施例に係る各技術的特徴は任意に組み合わせることができ、説明の簡素化のために、前記実施例の各技術的特徴の可能な組み合わせの全てを説明しているわけではない。ただし、これらの技術的特徴の組み合わせに矛盾するものがなければ、本明細書の記載範囲と見なされる。
【0082】
前記実施例は本発明のいくつかの実施形態を具体的にかつ詳細に説明しているが、これは発明特許の範囲を限定するものと見なされない。なお、当業者は本発明の趣旨を逸脱することなく様々な変形や改善を行うことができ、これらも本発明の保護範囲に含まれる。したがって、本発明の保護範囲は付記の特許請求の範囲に準拠する。