IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ・インターナショナル・テクノロジー・(シェンチェン)・カンパニー・リミテッドの特許一覧

<>
  • 特許-医療データ検証方法、装置及び電子機器 図1
  • 特許-医療データ検証方法、装置及び電子機器 図2
  • 特許-医療データ検証方法、装置及び電子機器 図3
  • 特許-医療データ検証方法、装置及び電子機器 図4
  • 特許-医療データ検証方法、装置及び電子機器 図5
  • 特許-医療データ検証方法、装置及び電子機器 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-25
(45)【発行日】2023-06-02
(54)【発明の名称】医療データ検証方法、装置及び電子機器
(51)【国際特許分類】
   G06F 16/383 20190101AFI20230526BHJP
【FI】
G06F16/383
【請求項の数】 19
(21)【出願番号】P 2021154386
(22)【出願日】2021-09-22
(65)【公開番号】P2021193617
(43)【公開日】2021-12-23
【審査請求日】2021-09-22
(31)【優先権主張番号】202011053052.7
(32)【優先日】2020-09-29
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520231511
【氏名又は名称】バイドゥ・インターナショナル・テクノロジー・(シェンチェン)・カンパニー・リミテッド
【氏名又は名称原語表記】BAIDU INTERNATIONAL TECHNOLOGY (SHENZHEN) CO., LTD.
【住所又は居所原語表記】1/F,East Tower,Baidu International Building, No.6,Haitian 1st Road,Binhai Community,Yuehai Street,Nanshan District,Shenzhen,Guangdong Province 518000,P.R.China
(74)【代理人】
【識別番号】100118913
【弁理士】
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【弁理士】
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100201466
【弁理士】
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】ファン, ツォウ
(72)【発明者】
【氏名】シ, ヤビン
(72)【発明者】
【氏名】ジャン, イェ
(72)【発明者】
【氏名】チャイ, チュンガン
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】中国特許出願公開第111640511(CN,A)
【文献】中国特許出願公開第111259112(CN,A)
【文献】特開2019-049954(JP,A)
【文献】特開2011-129997(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
コンピュータによって実行される医療データ検証方法であって、
検証対象の医療データ及び候補ドキュメントを取得するステップと、
自然言語処理モデルを使用して前記医療データ及び候補ドキュメントを処理して、前記医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得するステップと、
前記各特徴ベクトルに基づいて、N個の方式を使用して前記医療データと候補ドキュメントとの相関性を計算して、N個の関連ベクトルを取得するステップであって、Nは1よりも大きい正の整数であるステップと、
前記N個の関連ベクトルに対して融合計算を行って、前記候補ドキュメントに基づく場合の前記医療データの信頼度として、前記医療データと前記候補ドキュメントとの全体的な相関性を決定するステップと、
を含む医療データ検証方法。
【請求項2】
前記医療データには、エンティティ、属性及び属性値が含まれ、
前記医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得するステップが、
前記エンティティに対応する第1の特徴ベクトル、前記属性に対応する第2の特徴ベクトル、前記属性値に対応する第3の特徴ベクトル、及び前記候補ドキュメントに対応する第4の特徴ベクトルを取得するステップを含む請求項1に記載の方法。
【請求項3】
前記医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得するステップが、
前記エンティティと属性に対応する第5の特徴ベクトル、前記属性と属性値に対応する第6の特徴ベクトル、及び前記エンティティと属性値に対応する第7の特徴ベクトルのうちの少なくとも1つを取得するステップを含む請求項2に記載の方法。
【請求項4】
前記N個の方式を使用して前記医療データと候補ドキュメントとの相関性を計算して、N個の関連ベクトルを取得するステップが、
N個の方式をそれぞれ使用して、前記第1の特徴ベクトルと前記第4の特徴ベクトルとの相関性を計算して、N個の第1のタイプの関連ベクトルを取得するステップと、
N個の方式をそれぞれ使用して、前記第2の特徴ベクトルと前記第4の特徴ベクトルとの相関性を計算して、N個の第2のタイプの関連ベクトルを取得するステップと、
N個の方式をそれぞれ使用して、前記第3の特徴ベクトルと前記第4の特徴ベクトルとの相関性を計算して、N個の第3のタイプの関連ベクトルを取得するステップと、
を含む請求項2に記載の方法。
【請求項5】
前記N個の関連ベクトルに対して融合計算を行って、前記候補ドキュメントに基づく場合の前記医療データの信頼度として、前記医療データと前記候補ドキュメントとの全体的な相関性を決定するステップが、
前記N個の第1のタイプの関連ベクトルを融合させて、第1の融合ベクトルを取得するステップと、
前記N個の第2のタイプの関連ベクトルを融合させて、第2の融合ベクトルを取得するステップと、
前記N個の第3のタイプの関連ベクトルを融合させて、第3の融合ベクトルを取得するステップと、
前記第1の融合ベクトル、第2の融合ベクトル及び第3の融合ベクトルに対して融合計算を行って、前記候補ドキュメントに基づく場合の前記医療データの信頼度として、前記医療データと前記候補ドキュメントとの全体的な相関性を決定するステップと、
を含む請求項4に記載の方法。
【請求項6】
前記N個の関連ベクトルに対して融合計算を行って、前記候補ドキュメントに基づく場合の前記医療データの信頼度を決定するステップが、
前記N個の第1のタイプの関連ベクトル、N個の第2のタイプの関連ベクトル及びN個の第3のタイプの関連ベクトルを融合させて、第4の融合ベクトルを生成するステップと、
前記第4の融合ベクトルを計算して、前記候補ドキュメントに基づく場合の前記医療データの信頼度として、前記医療データと前記候補ドキュメントとの全体的な相関性を決定するステップと、
を含む請求項4に記載の方法。
【請求項7】
前記N個の関連ベクトルに対して融合計算を行うことが、
各方式に対応する重み値を決定するステップと、
各方式に対応する重み値に基づいて、前記N個の関連ベクトルを重み付けして融合させるステップと、
を含む請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記検証対象の医療データ及び候補ドキュメントを取得するステップが、
検証対象の医療データ及びそれに対応する記述テキストを取得するステップと、
前記記述テキストとデータベースにおける各ドキュメントとの相関性に基づいて、前記データベースから前記記述テキストに関連付けられた候補ドキュメントを取得するステップと、
を含む請求項1から6のいずれか一項に記載の方法。
【請求項9】
検証対象の医療データ及び候補ドキュメントを取得するための第1の取得モジュールと、
自然言語処理モデルを使用して前記医療データ及び候補ドキュメントを処理して、前記医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得するための第2の取得モジュールと、
前記各特徴ベクトルに基づいて、N個の方式を使用して前記医療データと候補ドキュメントとの相関性を計算して、N個の関連ベクトルを取得するための第3の取得モジュールであって、Nは1よりも大きい正の整数である第3の取得モジュールと、
前記N個の関連ベクトルに対して融合計算を行って、前記候補ドキュメントに基づく場合の前記医療データの信頼度として、前記医療データと前記候補ドキュメントとの全体的な相関性を決定するための決定モジュールと、
を備える医療データ検証装置。
【請求項10】
前記医療データには、エンティティ、属性及び属性値が含まれ、
前記第2の取得モジュールが、
前記エンティティに対応する第1の特徴ベクトル、前記属性に対応する第2の特徴ベクトル、前記属性値に対応する第3の特徴ベクトル、及び前記候補ドキュメントに対応する第4の特徴ベクトルを取得するための第1の取得ユニットを備える請求項9に記載の装置。
【請求項11】
前記第2の取得モジュールが、
前記エンティティと属性に対応する第5の特徴ベクトル、前記属性と属性値に対応する第6の特徴ベクトル、及び前記エンティティと属性値に対応する第7の特徴ベクトルのうちの少なくとも1つを取得するための第2の取得ユニットを備える請求項10に記載の装置。
【請求項12】
前記第3の取得モジュールが、
N個の方式をそれぞれ使用して、前記第1の特徴ベクトルと前記第4の特徴ベクトルとの相関性を計算して、N個の第1のタイプの関連ベクトルを取得するための第1の計算ユニットと、
N個の方式をそれぞれ使用して、前記第2の特徴ベクトルと前記第4の特徴ベクトルとの相関性を計算して、N個の第2のタイプの関連ベクトルを取得するための第2の計算ユニットと、
N個の方式をそれぞれ使用して、前記第3の特徴ベクトルと前記第4の特徴ベクトルとの相関性を計算して、N個の第3のタイプの関連ベクトルを取得するための第3の計算ユニットと、
を備える請求項10に記載の装置。
【請求項13】
前記決定モジュールが、
前記N個の第1のタイプの関連ベクトルを融合させて、第1の融合ベクトルを取得するための第1の融合ユニットと、
前記N個の第2のタイプの関連ベクトルを融合させて、第2の融合ベクトルを取得するための第2の融合ユニットと、
前記N個の第3のタイプの関連ベクトルを融合させて、第3の融合ベクトルを取得するための第3の融合ユニットと、
前記第1の融合ベクトル、第2の融合ベクトル及び第3の融合ベクトルに対して融合計算を行って、前記候補ドキュメントに基づく場合の前記医療データの信頼度として、前記医療データと前記候補ドキュメントとの全体的な相関性を決定するための第1の決定ユニットと、
を備える請求項12に記載の装置。
【請求項14】
前記決定モジュールが、
前記N個の第1のタイプの関連ベクトル、N個の第2のタイプの関連ベクトル及びN個の第3のタイプの関連ベクトルを融合させて、第4の融合ベクトルを生成するための第4の融合ユニットと、
前記第4の融合ベクトルを計算して、前記候補ドキュメントに基づく場合の前記医療データの信頼度として、前記医療データと前記候補ドキュメントとの全体的な相関性を決定するための第2の決定ユニットと、
を備える請求項12に記載の装置。
【請求項15】
前記決定モジュールが、
各方式に対応する重み値を決定するための第3の決定ユニットと、
各方式に対応する重み値に基づいて、前記N個の関連ベクトルを重み付けして融合させるための第5の融合ユニットと、
を備える請求項9から14のいずれか一項に記載の装置。
【請求項16】
前記第1の取得モジュールが、
検証対象の医療データ及びそれに対応する記述テキストを取得するための第3の取得ユニットと、
前記記述テキストとデータベースにおける各ドキュメントとの相関性に基づいて、前記データベースから前記記述テキストに関連付けられた候補ドキュメントを取得するための第4の取得ユニットと、
を備える請求項9から14のいずれか一項に記載の装置。
【請求項17】
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサに通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも1つのプロセッサが請求項1から8のいずれか一項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
【請求項18】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項1から8のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項19】
コンピュータに請求項1から8のいずれか一項に記載の方法を実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、コンピュータ技術の分野に関し、特にAI医療、深層学習、知識グラフ、自然言語処理などの人工知能技術の分野に関し、医療データ検証方法、装置及び電子機器を提供する。
【背景技術】
【0002】
医療データ検証技術は、医療グラフの構築を支援するために使用できる。例えば、医療グラフを構築する過程では、取得された医療データを検証して、当該医療データの信頼度を判定し、裏付けとなる証拠を与え、さらに信頼度の高い医療データとそれに対応する裏付けとなる証拠を関連付けて、医療グラフデータとして医療グラフに記憶して、医療グラフの内容を豊かにして拡張し、医療グラフデータの精度を向上させる。
【0003】
関連技術では、人工知能、深層学習、自然言語処理などの技術の発展に伴い、深層学習モデルにより医療データの検証を実現することができる。例えば、複数の直列接続された深層学習モデルの構造を設計し、大規模なラベル付きデータによって複数の直列接続された深層学習モデルをトレーニングし、さらにトレーニング済みの複数の直列接続された深層学習モデルを使用して、医療データの基本的な特徴に基づいて医療データの信頼度を検証することができる。
【0004】
しかしながら、複数の直列接続された深層学習モデルが誤差の累積を引き起こし、医療業界ではデータの精度に対する要件が非常に厳しいため、複数の深層学習モデルを直列接続して医療データを検証する方法の精度が低くなる。
【発明の概要】
【0005】
本出願は、医療データ検証方法、装置、電子機器及び記憶媒体を提供する。
【0006】
本出願の一態様によれば、検証対象の医療データ及び候補ドキュメントを取得するステップと、自然言語処理モデルを使用して前記医療データ及び候補ドキュメントを処理して、前記医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得するステップと、前記各特徴ベクトルに基づいて、N個の方式を使用して前記医療データと候補ドキュメントとの相関性を計算して、N個の関連ベクトルを取得するステップであって、Nは1よりも大きい正の整数であるステップと、前記N個の関連ベクトルに対して融合計算を行って、前記候補ドキュメントに基づく場合の前記医療データの信頼度を決定するステップと、を含む医療データ検証方法が提供される。
【0007】
本出願の別の態様によれば、検証対象の医療データ及び候補ドキュメントを取得するための第1の取得モジュールと、自然言語処理モデルを使用して前記医療データ及び候補ドキュメントを処理して、前記医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得するための第2の取得モジュールと、前記各特徴ベクトルに基づいて、N個の方式を使用して前記医療データと候補ドキュメントとの相関性を計算して、N個の関連ベクトルを取得するための第3の取得モジュールであって、Nは1よりも大きい正の整数である第3の取得モジュールと、前記N個の関連ベクトルに対して融合計算を行って、前記候補ドキュメントに基づく場合の前記医療データの信頼度を決定するための決定モジュールと、を備える医療データ検証装置が提供される。
【0008】
本出願のさらなる別の態様によれば、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサに通信可能に接続されるメモリと、を備える電子機器であって、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも1つのプロセッサが前記医療データ検証方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器が提供される。
【0009】
本出願のさらなる別の態様によれば、コンピュータに前記医療データ検証方法を実行させるためのコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体が提供される。
本出願のさらなる別の態様によれば、コンピュータに前記医療データ検証方法を実行させるためのコンピュータプログラムが提供される。
【発明の効果】
【0010】
本出願の技術案によれば、関連技術において複数の深層学習モデルを直列接続して医療データを検証する方法の精度が比較的低いという問題が解決される。自然言語処理モデルを使用して検証対象の医療データ及び候補ドキュメントを処理して、医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得し、各特徴ベクトルに基づいて、複数の方式を使用して医療データと候補ドキュメントとの相関性を計算して、複数の関連ベクトルを取得し、さらに複数の関連ベクトルに対して融合計算を行って、候補ドキュメントに基づく場合の医療データの信頼度を決定する。これにより、エンドツーエンドの深層学習モデルにより、複数の方式を使用して医療データと候補ドキュメントとの相関性を計算して、医療データと候補ドキュメントとの間の関連及び相違を多次元から正確に表し、エンドツーエンドモデルに誤差が累積されず、医療データの検証の精度が向上する。
【0011】
なお、ここで説明される内容が本出願の実施例の肝心な特徴又は重要な特徴を特定することを意図するものではなく、本出願の範囲を制限するためのものではないことを理解すべきである。本出願の他の特徴は、以下の説明から理解しやすくなる。
【図面の簡単な説明】
【0012】
図面は、この技術案がよりよく理解されるために使用され、本出願を限定するものではない。
図1】本出願の実施例により提供される医療データ検証方法の概略フローチャートである。
図2】本出願の実施例により提供される分類モデルの概略構造図である。
図3】本出願の実施例により提供される別の医療データ検証方法の概略フローチャートである。
図4】本出願の実施例により提供されるさらなる別の医療データ検証方法の概略フローチャートである。
図5】本出願の実施例により提供される医療データ検証装置の概略構造図である。
図6】本出願の実施例の医療データ検証方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0013】
以下、図面を参照して本出願の例示的な実施例を説明し、理解を容易にするために、その中には本出願の実施例の様々な詳細を含んでおり、それらは単なる例示的なものとみなされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解すべきである。同様に、明確及び簡潔するために、以下の説明では、公知の機能及び構造についての説明を省略する。
【0014】
以下、本出願の技術案に関わる技術分野について簡単に説明する。
【0015】
人工知能は、コンピュータに人間のある特定の思惟プロセスとインテリジェントな行動(学習、推論、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方を含む。人工知能ハードウェア技術は、一般的に、コンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、知識グラフ技術などのいくつかの主要な方向を含む。
【0016】
AI医療は、インターネットに依存して、インフラストラクチャの構築及びデータの収集により、人工知能技術及びビッグデータサービスを医療業界に適用させ、医療業界の診断効率及びサービス品質を向上させ、医療リソースの不足、人口の高齢化の問題をより良く解決する。AI医療は、「人工知能+医療」に簡略化されてもよく、医療関連分野のアプリケーションシナリオに対する人工知能技術のエンパワーメント現象である。具体的には、AIは、医用画像診断、慢性疾患管理とライフスタイルガイダンス、疾患スクリーニングと病理研究、医薬品開発などの分野に適しており、精密医学における遺伝子型と表現型の区別を埋めることに役立つ。
【0017】
深層学習は、機械学習分野における新しい研究方向であり、機械学習に導入されて、最初の目標である人工知能に近づけている。深層学習は、サンプルデータの内在法則と表現レベルを学習することであり、これらの学習プロセスで取得された情報は、文字、画像及び音声などのデータの解釈に非常に役立つ。その究極の目標は、機械が人間のように分析及び学習能力を持ち、文字、画像及び音声などのデータを認識できるようにすることである。深層学習は、検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディア学習、音声、推奨及びパーソナライズ技術、及びその他の関連分野で多くの結果を達成する。
【0018】
知識グラフは、図書情報業界では知識ドメイン可視化又は知識ドメインマッピングマップと呼ばれ、知識発展プロセスと構造の関係を示す一連の様々なグラフであり、可視化技術を使用して知識リソース及びそのキャリアを説明し、知識とそれらの相互関係をマイニング、分析、構築、描画及び表示する。知識グラフは、応用数学、グラフィックス、情報可視化技術、情報科学などの学科の理論及び方法を、計測学の引用分析、共起分析などの方法と組み合わせ、可視化グラフを使用して学科のコア構造、発展履歴、フロンティア分野及び全体的な知識アーキテクチャをイメージ的に表示して多学科融合の目的を達成する現代理論である。
【0019】
自然言語処理は、コンピュータ科学の分野と人工知能の分野における重要な方向である。それは、人間とコンピュータの間の効果的な通信を自然言語で実現できる様々な理論及び方法を研究している。自然言語処理は、言語学、コンピュータ科学、数学を統合した科学である。したがって、この分野の研究は、自然言語、即ち人々が日常的に使用する言語に関わるため、言語学の研究と密接に関連しているが、重要な違いがある。自然言語処理は、自然言語の一般的な研究ではなく、自然言語通信を効果的に実現できるコンピュータシステム、特にその中のソフトウェアシステムの研究である。したがって、それはコンピュータ科学の一部である。
【0020】
本出願の実施例は、関連技術における複数の深層学習モデルを直列接続して医療データを検証する方法の精度が低いという問題に対して、医療データ検証方法を提供する。
【0021】
以下、図面を参照して本出願により提供される医療データ検証方法、装置、電子機器及び記憶媒体について詳細に説明する。
【0022】
図1は、本出願の実施例により提供される医療データ検証方法の概略フローチャートである。
【0023】
図1に示すように、当該医療データ検証方法は、以下のステップ101~104を含む。
【0024】
ステップ101において、検証対象の医療データ及び候補ドキュメントを取得する。
【0025】
なお、本出願の実施例に係る医療データ検証方法は、本出願の実施例に係る医療データ検証装置によって実行されてもよく、本出願の実施例に係る医療データ検証装置は、本出願の実施例に係る医療データ検証方法を実行するために、任意の電子機器内に配置されてもよい。
【0026】
ここで、検証対象の医療データとは、現在精度を検証する必要がある医療事実を指してもよい。
【0027】
ここで、候補ドキュメントは、医学書籍、医学論文など、又は医学書籍、医学論文の断片などの予め収集及び記憶された権威のある医学的コンテンツであってもよい。
【0028】
本出願の実施例では、異なるアプリケーションシナリオに対して異なる方式を使用して検証対象の医療データ及び候補ドキュメントを取得することができる。選択可能に、本出願の実施例に係る医療データ検証方法がオフラインシナリオに適用される場合、ネットワーク又は各医療機関の医療情報システムから、医師による診断中に作成された大量の診断データを予め取得して検証対象の医療データセットを構成し、検証対象の医療データセットから検証対象の医療データとして毎回医療データを1つ取得することができ、様々な文献、論文データベースから医療に関連する文献を予め取得してドキュメントセットを構成することができ、さらに、検証対象の医療データが取得された場合、ドキュメントセット内のすべてのドキュメントを候補ドキュメントとしてもよいし、検証対象の医療データをキーワードとしてドキュメントセットを検索して、ドキュメントセットから検証対象の医療データに関連するドキュメントを候補ドキュメントとして取得してもよい。
【0029】
選択可能に、本出願の実施例に係る医療データ検証方法がオンラインシナリオに適用される場合、例えば、医療機関の支援診断システムに適用される場合、様々な文献、論文データベースから医療に関連する文献を予め取得してドキュメントセットを構成し、医療機関の医療情報システムのサーバーに記憶することができ、サーバーは、医師のクライアントからリアルタイムで取得された、医師によって作成された診断データを、検証対象の医療データとしることができ、さらに検証対象の医療データが取得された場合、ドキュメントセット内のすべてのドキュメントを候補ドキュメントとしてもよいし、検証対象の医療データをキーワードとしてドキュメントセットを検索して、ドキュメントセットから検証対象の医療データに関連するドキュメントを候補ドキュメントとして取得してもよい。
【0030】
ステップ102において、自然言語処理モデルを使用して医療データ及び候補ドキュメントを処理して、医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得する。
【0031】
ここで、自然言語処理モデルは、ERNIE(enhanced representation
from knowledge integration,知識が強化された意味表現)モデル、BERTモデルなどであってもよい。実際に使用する場合、適切な自然言語処理モデルを選択することができ、本出願の実施例は、これに限定されない。
【0032】
なお、医療知識ベースから大量の医療知識を予め抽出し、抽出された大量の医療知識を使用して自然言語処理モデルを予めトレーニングして、医療業界シナリオにおける自然言語処理モデルの認識性能を向上させることができる。
【0033】
本出願の実施例では、深層学習モデルを構築して、深層学習モデルにより医療データの検証を実現することができる。例えば、PaddlePaddle深層学習コンピューティングフレームワークの深層学習モデルに基づいて、分類モデルを設計することができ、モデル構造は、図2に示すように、自然言語処理モデル、N個の計算方式に対応するN個の分類器、完全接続層及びsoftmax層を含み、CLSは分類モデルによって出力された信頼度である。
【0034】
本出願の実施例では、検証対象の医療データ及び候補ドキュメントを自然言語処理モデルに入力することにより、自然言語処理モデルが、検証対象の医療データ及び候補ドキュメントに対して認識処理をそれぞれ行い、例えば、まず検証対象の医療データ及び候補ドキュメントに対して単語分割処理を行って、検証対象の医療データに含まれる各基本ユニット、及び候補ドキュメントに含まれる各基本ユニットを決定し、次に検証対象の医療データに含まれる各基本ユニットに対応するベクトル表現、即ち検証対象の医療データに対応する各特徴ベクトル、及び候補ドキュメントに含まれる各基本ユニットに対応するベクトル表現、即ち候補ドキュメントに対応する各特徴ベクトルを決定することができる。
【0035】
なお、基本ユニットは、文字、単語、及びフレーズのうちのいずれかの粒度であってもよく、自然言語処理モデル自体の動作原理に関連し、本出願の実施例は、これに限定されない。
【0036】
ステップ103において、各特徴ベクトルに基づいて、N個の方式を使用して医療データと候補ドキュメントとの相関性を計算して、N個の関連ベクトルを取得し、Nは1よりも大きい正の整数である。
【0037】
ここで、関連ベクトルとは、検証対象の医療データと候補ドキュメントとの関連程度を特徴づけることができるベクトルを指す。
【0038】
本出願の実施例では、複数の計算方式を使用して検証対象の医療データと候補ドキュメントとの相関性を計算して、検証対象の医療データと候補ドキュメントとの相関性の表現の精度を向上させ、さらに医療データの検証の精度を向上させることができる。
【0039】
可能な一実現形態として、まず検証対象の医療データに対応する各特徴ベクトルを統合して、検証対象の医療データに対応する第1の特徴行列を生成することができ、候補ドキュメントに対応する各特徴ベクトルを統合して、候補ドキュメントに対応する第2の特徴行列を生成することができる。次に、N個の方式をそれぞれ使用して第1の特徴行列及び第2の特徴行列を計算し、各方式に対応する計算結果を関連ベクトルとして決定する。
【0040】
なお、実際に使用する場合、N個の方式は、softmax演算、減算演算、コサイン演算、サイン演算、タンジェント演算、加算演算、乗算演算及び除算演算などの演算方式のうちのN個を含むことができ、本出願の実施例は、これらに限定されない。
【0041】
なお、ある方式による第1の特徴行列と第2の特徴行列の計算結果が依然として行列である場合、計算された行列を変換して、計算された行列をベクトル形態に変換することにより、当該方式で計算された関連ベクトルを生成することができる。例えば、計算された行列の各行の要素又は各列の要素に対して合計又は平均値を計算して、計算された行列を関連ベクトルに変換することができる。
【0042】
例えば、検証対象の医療データにはm個の文字が含まれ、対応する各特徴ベクトルはn次元の行ベクトルであり、候補ドキュメントにはk個の文字が含まれ、対応する特徴ベクトルはn次元の行ベクトルであり、Nの値は3であり、N個の方式は、それぞれsoftmax演算、減算演算、コサイン演算である場合、検証対象の医療データに対応する第1の特徴行列の次元はm×nであり、候補ドキュメントに対応する第2の特徴行列の次元はk×nであり、第1の特徴行列と第2の特徴行列に対して、softmax演算、減算演算、コサイン演算をそれぞれ行って、検証対象の医療データと候補ドキュメントとの間の3つの関連ベクトルを生成することができる。
【0043】
ステップ104において、N個の関連ベクトルに対して融合計算を行って、候補ドキュメントに基づく場合の医療データの信頼度を決定する。
【0044】
本開示の実施例では、検証対象の医療データと候補ドキュメントとの間のN個の関連ベクトルが決定された後、分類モデル内の完全接続層によってN個の関連ベクトルに対して融合計算を行い、N個の関連ベクトルの融合結果に基づいてsoftmax層によって分類処理を行って、候補ドキュメントに基づく検証対象の医療データの信頼度を出力することができる。具体的には、候補ドキュメントに基づく検証対象の医療データの信頼度が高いほど、候補ドキュメントを裏付けとなる証拠として、検証対象の医療データが信頼できることを証明する可能性が高くなることを示し、逆に、候補ドキュメントを裏付けとなる証拠として、検証対象の医療データが信頼できることを証明する可能性が低くなることを示す。
【0045】
可能な一実現形態として、医療グラフを構築するシナリオでは、候補ドキュメントに基づく医療データの信頼度が決定された後、検証対象の医療データの信頼度が信頼度閾値以上である場合、検証対象の医療データが成立すると決定し、対応する候補ドキュメントを当該検証対象の医療データに関連付けて記憶し、医療グラフを拡張することができる。
【0046】
なお、検証対象の医療データに対応する候補ドキュメントが複数である場合、いずれかの候補ドキュメントに基づく検証対象の医療データの信頼度が信頼度閾値以上である場合、検証対象の医療データが成立すると決定し、当該検証対象の医療データの信頼度が最大の候補ドキュメントを、当該検証対象の医療データに関連付けて記憶し、医療グラフを拡張することができる。
【0047】
本出願の実施例に係る技術案によれば、自然言語処理モデルを使用して検証対象の医療データ及び候補ドキュメントを処理して、医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得し、各特徴ベクトルに基づいて、複数の方式を使用して医療データと候補ドキュメントとの相関性を計算して、複数の関連ベクトルを取得し、さらに複数の関連ベクトルに対して融合計算を行って、候補ドキュメントに基づく場合の医療データの信頼度を決定する。これにより、エンドツーエンドの深層学習モデルにより、複数の方式を使用して医療データと候補ドキュメントと間の相関性を計算して、医療データと候補ドキュメントとの間の関連及び相違を多次元から正確に表し、エンドツーエンドモデルに誤差が累積されず、医療データの検証の精度が向上する。
【0048】
本出願の可能な一実現形態では、検証対象の医療データは、SPOトリプルの形態で表されてもよく、Sがエンティティを表し、Pが属性を表し、Oが属性値を表し、さらにS、P、Oのそれぞれと候補証拠との関連性に基づいて、検証対象の医療データが成立するか否かを決定することにより、医療データの検証の精度がさらに向上する。
【0049】
以下、図3を参照して本出願の実施例により提供される医療データ検証方法をさらに説明する。
【0050】
図3は、本出願の実施例により提供される別の医療データ検証方法の概略フローチャートである。
【0051】
図3に示すように、当該医療データ検証方法は、以下のステップ201~206を含む。
【0052】
ステップ201において、検証対象の医療データ及び候補ドキュメントを取得する。
【0053】
上記ステップ201の具体的な実現プロセス及び原理について、上記実施例の詳細な説明を参照することができ、ここでは説明を省略する。
【0054】
ステップ202において、自然言語処理モデルを使用して医療データ及び候補ドキュメントを処理して、医療データに含まれるエンティティに対応する第1の特徴ベクトル、属性に対応する第2の特徴ベクトル、属性値に対応する第3の特徴ベクトル、及び候補ドキュメントに対応する第4の特徴ベクトルを取得し、ここで、医療データには、エンティティ、属性及び属性値が含まれる。
【0055】
本出願の実施例では、各検証対象の医療データは、SPOトリプルの形態で表されてもよく、Sがエンティティを表し、Pが属性を表し、Oが属性値を表す。ここで、エンティティとは、具体的な疾患を指してもよく、属性は、臨床的特徴、病因及び病理、検査及び検証、手術推奨、治療計画、投薬推奨、薬効、及び合併症のうちの少なくとも1つを含んでもよく、属性値とは、対応する属性の具体的な値を指す。医療データ<麻疹、症状、皮膚斑状丘疹>を例とすると、エンティティSは麻疹であり、属性Pは症状であり、属性値Oは皮膚斑状丘疹である。
【0056】
本出願の実施例では、検証対象の医療データの表現形態がSPOトリプルである場合、検証対象の医療データと候補ドキュメントを「S[SEP]P[SEP]O[SEP]PARA」の形態で自然言語処理モデルに入力することにより、自然言語処理モデルが、検証対象の医療データに含まれるエンティティ、属性、属性値及び候補ドキュメントに対して認識処理をそれぞれ行い、エンティティ、属性、属性値及び候補ドキュメントに対応するベクトル表現、すなわちエンティティに対応する第1の特徴ベクトル、属性に対応する第2の特徴ベクトル、属性値に対応する第3の特徴ベクトル、及び候補ドキュメントに対応する第4の特徴ベクトルをそれぞれ出力することができる。ここで、PARAは、候補ドキュメントであり、[SEP]は、セパレータである。
【0057】
なお、自然言語処理モデルがエンティティ、属性、属性値及び候補ドキュメントをそれぞれ複数の基本ユニットに分割して処理して、各基本ユニットに対応するベクトル表現を生成する場合、第1の特徴ベクトル、第2の特徴ベクトル、第3の特徴ベクトル及び第4の特徴ベクトルは、いずれも複数のベクトル表現で構成されてもよく、即ち、第1の特徴ベクトル、第2の特徴ベクトル、第3の特徴ベクトル及び第4の特徴ベクトルの表現形態は、行列であってもよい。
【0058】
さらに、医療データのエンティティと属性の間、及び属性と属性値の間に強い依存関係があるため、SPに対応するベクトル表現とPOに対応するベクトル表現とを決定して、医療データの表現の精度を向上させることができる。即ち、本出願の実施例の可能な一実現形態では、上記方法は、エンティティと属性に対応する第5の特徴ベクトル、属性と属性値に対応する第6の特徴ベクトル、及びエンティティと属性値に対応する第7の特徴ベクトルのうちの少なくとも1つを取得するステップをさらに含むことができる。
【0059】
本出願の実施例では、自然言語処理モデルを予めトレーニングすることにより、自然言語処理モデルが、入力された医療データのエンティティ、属性及び属性値に基づいて、エンティティと属性に対応する第5の特徴ベクトル、属性と属性値に対応する第6の特徴ベクトル、及びエンティティと属性値に対応する第7の特徴ベクトルのうちの少なくとも1つを決定して、エンティティと属性の関係、属性と属性値の関係、及びエンティティと属性値の関係などの複数の側面から、検証対象の医療データを全面的かつ完全に説明することができる。
【0060】
可能な一実現形態として、医療データについては、エンティティと属性との関係情報、及び属性と属性値との関係情報がより重要であるため、自然言語処理モデルによりエンティティと属性に対応する第5の特徴ベクトル、及び属性と属性値に対応する第6の特徴ベクトルを生成することができる。
【0061】
ステップ203において、N個の方式をそれぞれ使用して、第1の特徴ベクトルと第4の特徴ベクトルとの相関性を計算して、N個の第1のタイプの関連ベクトルを取得する。
【0062】
本出願の実施例では、検証対象の医療データ及び候補ドキュメントのベクトル表現が自然言語処理モデルによって決定された後、エンティティと候補ドキュメントとの関連性、属性と候補ドキュメントとの関連性、及び属性値と候補ドキュメントとの関連性をそれぞれ決定して、医療検証データと候補ドキュメントとの相関性を多次元から説明することができ、これにより、医療データの検証の精度がさらに向上する。
【0063】
可能な一実現形態として、まずN個の方式をそれぞれ使用して第1の特徴ベクトルと第4の特徴ベクトルを計算し、各方式に対応する計算結果を、エンティティと候補ドキュメントとの相関性を特徴付けるための第1のタイプの関連ベクトルとして決定することができる。
【0064】
ステップ204において、N個の方式をそれぞれ使用して、第2の特徴ベクトルと第4の特徴ベクトルとの相関性を計算して、N個の第2のタイプの関連ベクトルを取得する。
【0065】
本出願の実施例では、N個の方式をそれぞれ使用して第2の特徴ベクトルと第4の特徴ベクトルを計算し、各方式に対応する計算結果を、属性と候補ドキュメントとの相関性を特徴付けるための第2のタイプの関連ベクトルとして決定することができる。
【0066】
ステップ205において、N個の方式をそれぞれ使用して、第3の特徴ベクトルと第4の特徴ベクトルとの相関性を計算して、N個の第3のタイプの関連ベクトルを取得する。
【0067】
本出願の実施例では、N個の方式をそれぞれ使用して第3の特徴ベクトルと第4の特徴ベクトルを計算し、各方式に対応する計算結果を、属性値と候補ドキュメントとの相関性を特徴付けるための第3のタイプの関連ベクトルとして決定することができる。
【0068】
なお、本実施例におけるN個の方式は、上記実施例で説明された演算方式と同じであってもよく、第1のタイプの関連ベクトル、第2のタイプの関連ベクトル、及び第3のタイプの関連ベクトルを決定する具体的な実現プロセス及び原理については、上記実施例の詳細な説明を参照することができ、ここで説明を省略する。
【0069】
さらに、上記ステップにおいてエンティティと属性に対応する第5の特徴ベクトル、属性と属性値に対応する第6の特徴ベクトル、及びエンティティと属性値に対応する第7の特徴ベクトルが自然言語処理モデルによって生成された場合、N個の方式を使用して第5の特徴ベクトルと第4の特徴ベクトルを計算し、各方式に対応する計算結果を、SPと候補ドキュメントとの相関性を特徴付けるための第5のタイプの関連ベクトルとして決定し、N個の方式を使用して第6の特徴ベクトルと第4の特徴ベクトルを計算し、各方式に対応する計算結果を、POと候補ドキュメントとの相関性を特徴付けるための第6のタイプの関連ベクトルとして決定し、N個の方式を使用して第7の特徴ベクトルと第4の特徴ベクトルを計算し、各方式に対応する計算結果を、SOと候補ドキュメントとの相関性を特徴付けるための第7のタイプの関連ベクトルとして決定することができる。
【0070】
ステップ206において、関連ベクトルに対して融合計算を行って、候補ドキュメントに基づく場合の前記医療データの信頼度を決定する。
【0071】
本出願の実施例では、検証対象の医療データに対応するSPOトリプル及び候補ドキュメントの各タイプの連ベクトルが決定された後、完全接続層によって各タイプの関連ベクトルに対して融合計算を行って、候補ドキュメントに基づく検証対象の医療データの信頼度を生成することができる。
【0072】
可能な一実現形態として、各タイプの関連ベクトルに対してそれぞれ融合処理を行って、エンティティ、属性、属性値のそれぞれと候補ドキュメントとの全体的な関連性を決定することができる。即ち、本出願の実施例の可能な一実現形態では、上記ステップ206は、N個の第1のタイプの関連ベクトルを融合させて、第1の融合ベクトルを取得するステップと、N個の第2のタイプの関連ベクトルを融合させて、第2の融合ベクトルを取得するステップと、N個の第3のタイプの関連ベクトルを融合させて、第3の融合ベクトルを取得するステップと、第1の融合ベクトル、第2の融合ベクトル及び第3の融合ベクトルに対して融合計算を行って、候補ドキュメントに基づく場合の医療データの信頼度を決定するステップと、を含むことができる。
【0073】
本出願の実施例では、N個の第1のタイプの関連ベクトルをスプライスして、第1の融合ベクトルを生成してもよいし、N個の第1のタイプの関連ベクトルの和を第1の融合ベクトルとして決定してもよいし、N個の第1のタイプの関連ベクトルの平均値を第1の融合ベクトルとして決定してもよいし、N個の第1のタイプの関連ベクトルの重要度に基づいて、N個の第1の関連ベクトルにそれぞれ異なる重み値を付与し、N個の第1のタイプの関連ベクトルの重み付け和を第1の融合ベクトルとして決定してもよい。
【0074】
それに応じて、上記と同じ方式を使用してN個の第2のタイプの関連ベクトル、及びN個の第3のタイプの関連ベクトルに対してそれぞれ融合処理を行って、第2の融合ベクトル及び第3の融合ベクトルを生成することができ、ここでは説明を省略する。
【0075】
なお、第1のタイプの関連ベクトル、第2のタイプの関連ベクトル及び第3のタイプの関連ベクトルを融合する方式は、以上に挙げられたものを含むことができるが、これらに限定されない。実際に使用する場合、実際のニーズ及び具体的なアプリケーションシナリオに応じて、各タイプの関連ベクトルの融合処理の方式を決定することができ、本出願の実施例は、これに限定されない。
【0076】
本出願の実施例では、第1の融合ベクトルは、検証対象の医療データ内のエンティティと候補ドキュメントとの全体的な相関性を反映することができ、第2の融合ベクトルは、検証対象の医療データ内の属性と候補ドキュメントとの全体的な相関性を反映することができ、第3の融合ベクトルは、検証対象の医療データの属性値と候補ドキュメントとの全体的な相関性を反映することができ、これにより、分類モデルにおけるsoftmax層によって第1の融合ベクトル、第2の融合ベクトル及び第3の融合ベクトルに対して融合計算を行って、検証対象の医療データと候補ドキュメントとの全体的な相関性、即ち候補ドキュメントに基づく検証対象の医療データの信頼度を生成することができる。
【0077】
なお、上記ステップでN個の第5のタイプの関連ベクトル、N個の第6のタイプの関連ベクトル又はN個の第7のタイプの関連ベクトルが生成された場合、上記方式に従って第5のタイプの関連ベクトル、第6のタイプの関連ベクトル及び第7のタイプの関連ベクトルに対してそれぞれ融合処理を行って、第5の融合ベクトル、第6の融合ベクトル及び第7の融合ベクトルを生成することができる。さらに、第1の融合ベクトル、第2の融合ベクトル、第3の融合ベクトル、第5の融合ベクトル、第6の融合ベクトル及び第7の融合ベクトルに対して融合計算を行って、候補ドキュメントに基づく場合の医療データの信頼度を決定することができる。
【0078】
別の可能な実現形態として、各タイプの関連ベクトルを直接融合させて、融合されたベクトルによって検証対象の医療データと候補ドキュメントとの全体的な関連度を特徴付けることができる。即ち、本出願の実施例の可能な一実現形態では、上記方法は、N個の第1のタイプの関連ベクトル、N個の第2のタイプの関連ベクトル及びN個の第3のタイプの関連ベクトルを融合させて、第4の融合ベクトルを生成するステップと、第4の融合ベクトルを計算して、候補ドキュメントに基づく場合の医療データの信頼度を決定するステップと、をさらに含むことができる。
【0079】
本出願の実施例では、N個の第1のタイプの関連ベクトルと、N個の第2のタイプの関連ベクトルと、N個の第3のタイプの関連ベクトルとをスプライスして、第4の融合ベクトルを生成してもよいし、N個の第1のタイプの関連ベクトルと、N個の第2のタイプの関連ベクトルと、N個の第3のタイプの関連ベクトルとの和を第4の融合ベクトルとして決定してもよいし、N個の第1のタイプの関連ベクトルと、N個の第2のタイプの関連ベクトルと、N個の第3のタイプの関連ベクトルとの平均値を第4の融合ベクトルとして決定してもよいし、エンティティ、属性及び属性値と候補ドキュメントとの間の関連の重要度に基づいて、第1のタイプの関連ベクトル、第2のタイプの関連ベクトル及び第3のタイプの関連ベクトルにそれぞれ異なる重み値を付与し、N個の第1のタイプの関連ベクトルと、N個の第2のタイプの関連ベクトルと、N個の第3のタイプの関連ベクトルとの重み付け和を第4の融合ベクトルとして決定してもよい。
【0080】
なお、第1のタイプの関連ベクトル、第2のタイプの関連ベクトル及び第3のタイプの関連ベクトルを融合する方式は、以上に挙げられたものを含むことができるが、これらに限定されない。実際に使用する場合、実際のニーズ及び具体的なアプリケーションシナリオに応じて、関連ベクトルの融合処理の方式を決定することができ、本出願の実施例は、これに限定されない。
【0081】
なお、上記ステップでN個の第5のタイプの関連ベクトル、N個の第6のタイプの関連ベクトル又はN個の第7のタイプの関連ベクトルが生成された場合、上記方式に従ってN個の第1のタイプの関連ベクトル、N個の第2のタイプの関連ベクトル、N個の第3のタイプの関連ベクトル、N個の第5のタイプの関連ベクトル、N個の第6のタイプの関連ベクトル及びN個の第7のタイプの関連ベクトルに対して融合処理を行って、第4の融合ベクトルを生成することができる。
【0082】
本出願の実施例では、第4の融合ベクトルは、検証対象の医療データと候補ドキュメントとの全体的な相関性を反映することができ、これにより、分類モデルにおけるsoftmax層によって第4の融合ベクトルを計算して、検証対象の医療データと候補ドキュメントとの全体的な相関性、即ち候補ドキュメントに基づく検証対象の医療データの信頼度を生成することができる。
【0083】
本出願の実施例の技術案によれば、検証対象の医療データをSPOトリプルの形態で表し、自然言語処理モデルを使用して検証対象の医療データ及び候補ドキュメントを処理して、医療データのエンティティに対応する第1の特徴ベクトル、属性に対応する第2の特徴ベクトル、属性値に対応する第3の特徴ベクトル、及び候補ドキュメントに対応する第4の特徴ベクトルを取得し、複数の方式を使用してエンティティ、属性、属性値と候補ドキュメントとの間の相関性をそれぞれ計算して、複数の第1のタイプ、第2のタイプ及び第3のタイプの関連ベクトルを取得し、さらに複数のタイプの関連ベクトルに対して融合計算を行って、候補ドキュメントに基づく場合の医療データの信頼度を決定する。これにより、エンドツーエンドの深層学習モデルにより、複数の方式を使用して、医療データの各データ次元から医療データと候補ドキュメントとの相関性を計算して、医療データと候補ドキュメントとの間の関連及び相違を多次元から正確に表し、エンドツーエンドモデルに誤差が累積されず、医療データの検証の精度がさらに向上する。
【0084】
本出願の可能な一実現形態では、まず権威のある医療データベースから検証対象の医療データに関連するドキュメントを候補ドキュメントとして検索して、候補ドキュメントの数を減少することができ、ベクトル間の関連度を計算する注目点が異なる計算方式によって異なるため、異なる関連ベクトルの重要度は異なり、したがって、異なる計算方式に異なる重みを付与して、医療データと候補ドキュメントとの関連性の表現の精度をさらに向上させることができる。
【0085】
以下、図4を参照して本出願の実施例により提供される医療データ検証方法をさらに説明する。
【0086】
図4は、本出願の実施例により提供されるさらなる別の医療データ検証方法の概略フローチャートである。
【0087】
図4に示すように、当該医療データ検証方法は、以下のステップ301~306を含む。
【0088】
ステップ301において、検証対象の医療データ及びそれに対応する記述テキストを取得する。
【0089】
ここで、検証対象の医療データに対応する記述テキストとは、検証対象の医療データを抽出するときに使用される元のテキストを指してもよい。
【0090】
本開示の実施例では、実際のアプリケーションシナリオに応じて、患者の医療レコード、医師によって発行された診断書、投薬レコードなどの元のテキストから、SPOトリプルデータを抽出して、検証対象の医療データを構成し、検証対象の医療データの抽出が依拠する要素テキストを、対応する記述テキストとして決定することができる。
【0091】
例えば、本出願の実施例に係る医療データ検証方法が医療機関の支援診断シナリオに適用される場合、サーバーが医師のクライアントから送信された「体表面に皮膚丘疹が現れ、麻疹と診断された」という診断結果を取得するため、診断結果から抽出された検証対象の医療データは、<麻疹、症状、皮膚斑状丘疹>であり、「体表面に皮膚丘疹が現れ、麻疹と診断された」という診断結果を、対応する記述テキストとして決定することができる。
【0092】
ステップ302において、記述テキストとデータベースにおける各ドキュメントとの相関性に基づいて、データベースから記述テキストに関連付けられた候補ドキュメントを取得する。
【0093】
本出願の実施例では、記述テキストを検索キーワードとしてデータベースで検索し、又は記述テキストからキーワードを抽出し、さらに抽出されたキーワードを検索キーワードとしてデータベースで検索することにより、記述テキストとデータベースにおける各ドキュメントとの相関性を決定し、さらに記述テキストとデータベースにおける各ドキュメントとの相関性に基づいて、データベースにおける各ドキュメントを降順でソートし、次に各ドキュメントから記述テキストとの相関性が高いドキュメントを候補ドキュメントとして選択することができる。例えば、記述テキストとの関連が最も高いM(Mは正の整数であり、例えば、M=1)個のドキュメントを候補ドキュメントとして決定してもよいし、相関性閾値を予め設定し、記述テキストとの相関性が相関性閾値以上であるドキュメントを候補ドキュメントとして決定してもよく、本出願の実施例は、これに限定されない。
【0094】
例えば、予め設定された相関性閾値が0.8であり、記述テキストが「体表面に皮膚丘疹が現れ、麻疹と診断された」であり、この記述テキストをキーワードとしてデータベースで検索し、ドキュメントA「《疫学》第8版第5節 麻疹:麻疹(measles)は、麻疹ウイルス(measles virus)によって引き起こされるウイルス感染症であり、中国の法定感染症の中で、それはクラスBの感染症に属している。その主な臨床症状には、発熱、咳、鼻水などの他のカタル症状及び結膜炎が含まれ、特徴的な症状は、口腔粘膜麻疹スポット(Koplik spots)及び皮膚丘疹である」と記述テキストとの相関性が0.9であると決定されるため、《疫学》第8版第5節 麻疹におけるこのドキュメントを候補ドキュメントとして決定することができる。
【0095】
なお、データベースは、予め指定された医療データベースであってもよく、医療データベースには、書籍、雑誌及び論文など、様々な権威のある医療資料が記憶されてもよい。
【0096】
ステップ303において、自然言語処理モデルを使用して医療データ及び候補ドキュメントを処理して、医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得する。
【0097】
ステップ304において、各特徴ベクトルに基づいて、N個の方式を使用して医療データと候補ドキュメントとの相関性を計算して、N個の関連ベクトルを取得し、Nは1よりも大きい正の整数である。
【0098】
上記ステップ303~304の具体的な実現プロセス及び原理について、上記実施例の詳細な説明を参照することができ、ここでは説明を省略する。
【0099】
ステップ305において、各計算方式に対応する重み値を決定する。
【0100】
本出願の実施例では、複数の方式を使用して医療データと候補ドキュメントとの相関性を計算する場合、ベクトル間の相違及び関連に対する注目点が各計算方式によって異なるため、医療データと候補ドキュメントとの相関性を特徴付ける時の各関連ベクトルの重要度が異なり、したがって、相関性の表現に対する各計算方式の重要度に応じて、各計算方式に対応する重み値を決定することができる。例えば、N個の計算方式は、それぞれsoftmax演算、減算演算、コサイン演算であり、コサイン演算の重み値がsoftmax演算の重み値よりも大きく、softmax演算の重み値が減算演算の重み値よりも大きいことを決定することができる。
【0101】
なお、上記例は、例示的なものだけであり、本出願を制限するものと見なすことができない。実際に使用する場合、実際のニーズ及び各計算方式の特性に応じて、各計算方式に対応する重み値を決定することができ、本出願の実施例は、これを限定しない。
【0102】
ステップ306において、各計算方式に対応する重み値に基づいて、N個の関連ベクトルを重み付けして融合させて、候補ドキュメントに基づく場合の医療データの信頼度を決定する。
【0103】
本開示の実施例では、N個の関連ベクトルに対して融合処理を行う場合、各関連ベクトルに対応する計算方式の重み値に基づいて、N個の関連ベクトルの重み付け和を決定し、分類モデルのsoftmax層を使用して、N個の関連ベクトルの重み付け和に基づいて、候補ドキュメントに基づく検証対象の医療データの信頼度を決定することができる。
【0104】
本出願の実施例に係る技術案によれば、検証対象の医療データに対応する記述テキストに基づいて、データベースから検証対象の医療データに関連付けられた候補ドキュメントを検索し、自然言語処理モデルを使用して検証対象の医療データ及び候補ドキュメントを処理して、医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得し、各特徴ベクトルに基づいて、複数の方式を使用して医療データと候補ドキュメントとの相関性を計算して、複数の関連ベクトルを取得し、さらに各計算方式に対応する重み値に基づいて、N個の関連ベクトルを重み付けして融合させて、候補ドキュメントに基づく場合の医療データの信頼度を決定する。これにより、権威のある医療データベースから検証対象の医療データに関連するドキュメントを候補ドキュメントとして検索して、候補ドキュメントの数を減少し、各計算方式の重要度に基づいて、各関連ベクトルに異なる重み値を付与することにより、医療データと候補ドキュメントとの関連性の表現の精度をさらに向上させ、医療データの検証の精度をさらに向上させるだけでなく、医療データの検証の計算の複雑さも低下する。
【0105】
上記実施例を実現するために、本出願は、医療データ検証装置をさらに提供する。
【0106】
図5は、本出願の実施例により提供される医療データ検証装置の概略構造図である。
【0107】
図5に示すように、当該医療データ検証装置40は、検証対象の医療データ及び候補ドキュメントを取得するための第1の取得モジュール41と、自然言語処理モデルを使用して医療データ及び候補ドキュメントを処理して、医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得するための第2の取得モジュール42と、各特徴ベクトルに基づいて、N個の方式を使用して医療データと候補ドキュメントとの相関性を計算して、N個の関連ベクトルを取得するための第3の取得モジュール43であって、Nは1よりも大きい正の整数である第3の取得モジュール43と、N個の関連ベクトルに対して融合計算を行って、候補ドキュメントに基づく場合の医療データの信頼度を決定するための決定モジュール44と、を備える。
【0108】
実際に使用する場合、本出願の実施例により提供される医療データ検証装置は、前記医療データ検証方法を実行するために、任意の電子機器内に配置されてもよい。
【0109】
本出願の実施例に係る技術案によれば、自然言語処理モデルを使用して検証対象の医療データ及び候補ドキュメントを処理して、医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得し、各特徴ベクトルに基づいて、複数の方式を使用して医療データと候補ドキュメントとの相関性を計算して、複数の関連ベクトルを取得し、さらに複数の関連ベクトルに対して融合計算を行って、候補ドキュメントに基づく場合の医療データの信頼度を決定する。これにより、エンドツーエンドの深層学習モデルにより、複数の方式を使用して医療データと候補ドキュメントとの相関性を計算して、医療データと候補ドキュメントとの間の関連及び相違を多次元から正確に表現し、エンドツーエンドモデルに誤差が累積されず、医療データの検証の精度が向上する。
【0110】
本出願の可能な一実現形態では、上記医療データには、エンティティ、属性及び属性値が含まれ、それに応じて、上記第2の取得モジュール42は、エンティティに対応する第1の特徴ベクトル、属性に対応する第2の特徴ベクトル、属性値に対応する第3の特徴ベクトル、及び候補ドキュメントに対応する第4の特徴ベクトルを取得するための第1の取得ユニットを備える。
【0111】
さらに、本出願の実施例の別の可能な実現形態では、上記第2の取得モジュール42は、エンティティと属性に対応する第5の特徴ベクトル、属性と属性値に対応する第6の特徴ベクトル、及びエンティティと属性値に対応する第7の特徴ベクトルのうちの少なくとも1つを取得するための第2の取得ユニットをさらに備える。
【0112】
さらに、本出願の実施例の別の可能な実現形態では、上記第3の取得モジュール43は、N個の方式をそれぞれ使用して、第1の特徴ベクトルと第4の特徴ベクトルとの相関性を計算して、N個の第1のタイプの関連ベクトルを取得するための第1の計算ユニットと、N個の方式をそれぞれ使用して、第2の特徴ベクトルと第4の特徴ベクトルとの相関性を計算して、N個の第2のタイプの関連ベクトルを取得するための第2の計算ユニットと、N個の方式をそれぞれ使用して、第3の特徴ベクトルと第4の特徴ベクトルとの相関性を計算して、N個の第3のタイプの関連ベクトルを取得するための第3の計算ユニットと、を備える。
【0113】
さらに、本出願の別の可能な実現形態では、上記決定モジュール44は、N個の第1のタイプの関連ベクトルを融合させて、第1の融合ベクトルを取得するための第1の融合ユニットと、N個の第2のタイプの関連ベクトルを融合させて、第2の融合ベクトルを取得するための第2の融合ユニットと、N個の第3のタイプの関連ベクトルを融合させて、第3の融合ベクトルを取得するための第3の融合ユニットと、第1の融合ベクトル、第2の融合ベクトル及び第3の融合ベクトルに対して融合計算を行って、候補ドキュメントに基づく場合の医療データの信頼度を決定するための第1の決定ユニットと、を備える。
【0114】
さらに、本出願の別の可能な実現形態では、上記決定モジュール44は、N個の第1のタイプの関連ベクトル、N個の第2のタイプの関連ベクトル及びN個の第3のタイプの関連ベクトルを融合させて、第4の融合ベクトルを生成するための第4の融合ユニットと、第4の融合ベクトルを計算して、候補ドキュメントに基づく場合の医療データの信頼度を決定するための第2の決定ユニットと、を備える。
【0115】
さらに、本出願の別の可能な実現形態では、上記決定モジュール44は、各計算方式に対応する重み値を決定するための第3の決定ユニットと、各計算方式に対応する重み値に基づいて、N個の関連ベクトルを重み付けして融合させるための第5の融合ユニットと、を備える。
【0116】
さらに、本出願の実施例の別の可能な実現形態では、上記第1の取得モジュール41は、検証対象の医療データ及びそれに対応する記述テキストを取得するための第3の取得ユニットと、記述テキストとデータベースにおける各ドキュメントとの相関性に基づいて、データベースから記述テキストに関連付けられた候補ドキュメントを取得するための第4の取得ユニットと、を備える。
【0117】
なお、以上の図1図3図4に示す医療データ検証方法の実施例についての説明は、当該実施例の医療データ検証装置40にも適用するため、ここでは説明を省略する。
【0118】
本出願の実施例に係る技術案によれば、検証対象の医療データをSPOトリプルの形態で表し、自然言語処理モデルを使用して検証対象の医療データ及び候補ドキュメントを処理して、医療データのエンティティに対応する第1の特徴ベクトル、属性に対応する第2の特徴ベクトル、属性値に対応する第3の特徴ベクトル、及び候補ドキュメントに対応する第4の特徴ベクトルを取得し、複数の方式を使用してエンティティ、属性、属性値と候補ドキュメントとの相関性をそれぞれ計算して、複数の第1のタイプ、第2のタイプ、及び第3のタイプの関連ベクトルを取得し、さらに複数の関連ベクトルに対して融合計算を行って、候補ドキュメントに基づく場合の医療データの信頼度を決定する。これにより、エンドツーエンドの深層学習モデルにより、複数の方式を使用して、医療データの様々なデータ次元から医療データと候補ドキュメントとの相関性を計算して、医療データと候補ドキュメントとの間の関連及び相違を多次元から正確に表し、エンドツーエンドモデルに誤差が累積されず、医療データの検証の精度がさらに向上する。
【0119】
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される医療データ検証方法を実行させる。
【0120】
図6に示すように、それは、本出願の実施例に係る医療データ検証方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、大型コンピュータ及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタルプロセス、セルラー電話、スマートフォン、ウェアラブルデバイス及び他の類似するコンピューティングデバイスなどの様々な形態の移動装置を表すこともできる。本明細書に示されているコンポーネント、それらの接続と関係、及びそれらの機能は、例だけであり、本明細書に説明及び/又は要求される本出願の実現を制限することを意図しない。
【0121】
図6に示すように、当該電子機器は、1つ又は複数のプロセッサ501と、メモリ502と、高速インターフェース及び低速インターフェースを備える、各コンポーネントを接続するためのインターフェースとを備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられてもよいし、又は必要に応じて他の方式で取り付けられてもよい。プロセッサは、外部入力/出力装置(インターフェースに結合された表示デバイスなど)にGUIのグラフィック情報を表示するためにメモリ内又はメモリ上に記憶される命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要の場合、複数のプロセッサ及び/又は複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作(例えば、サーバーアレイ、ブレードサーバー、又はマルチプロセッサシステムとして)を提供する。図6では、一つのプロセッサ501が例として挙げられる。
【0122】
メモリ502は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、少なくとも1つのプロセッサが本出願により提供される医療データ検証方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供される医療データ検証方法を実行させるためのコンピュータ命令が記憶されている。
【0123】
メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における医療データ検証方法に対応するプログラム命令/モジュール(例えば、図5に示す第1の取得モジュール41、第2の取得モジュール42、第3の取得モジュール43及び決定モジュール44)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ501は、メモリ502に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバーの様々な機能アプリケーション及びデータ処理を実行し、即ち上記の方法の実施例における医療データ検証方法を実現する。
【0124】
メモリ502は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域には、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムが記憶されてもよく、データ記憶領域には、医療データ検証方法の電子機器の使用によって作成されたデータなどが記憶されてもよい。また、メモリ502は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリ、例えば少なくとも一つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスをさらに備えることができる。いくつかの実施例では、メモリ502は、プロセッサ501に対して遠隔に設けられたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介して医療データ検証方法の電子機器に接続されてもよい。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びそれらの組み合わせを含むが、これらに限定されない。
【0125】
医療データ検証方法の電子機器は、入力装置503と出力装置504とをさらに備えることができる。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バス又は他の方式で接続されてもよく、図6では、バスで接続されることが例として挙げられる。
【0126】
入力装置503は、入力された数字又は文字情報を受信し、医療データ検証方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを備えることができる。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイとプラズマディスプレイを備えることができるが、これらに限定されない。いくつかの実施形態では、表示機器は、タッチスクリーンであってもよい。
【0127】
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現されてもよい。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムで実施され、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び/又は解釈されてもよく、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を当該記憶システム、当該少なくとも一つの入力装置及び当該少なくとも一つの出力装置に伝送することができる。
【0128】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、かつ高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実現されてもよい。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0129】
ユーザとのインタラクションを提供するために、本明細書で説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、情報をユーザに表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供するために使用されてもよく、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
【0130】
本明細書で説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは当該グラフィカルユーザインタフェース又は当該ウェブブラウザによって本明細書で説明されるシステム及び技術の実施形態とのインタラクションを行うことができる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施されてもよい。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
【0131】
コンピュータシステムは、クライアントとサーバーとを備えることができる。クライアントとサーバーは、一般的には、互いに離れており、通常、通信ネットワークを介してインタラクションを行う。クライアントとサーバーとの関係は、対応するコンピュータ上で実行されかつ相互にクライアント-サーバー関係を有するコンピュータプログラムによって生成される。サーバーは、クラウドコンピューティングサーバー又はクラウドホストとも呼ばれるクラウドサーバーであってもよく、従来の物理ホスト及びVPS(Virtual Private Server:仮想プライベートサーバー)サービスの管理が難しく、サービス拡張性が低いという欠陥を解決するためのクラウドコンピューティングサービスシステムのホスト製品である。
【0132】
本出願の実施例に係る技術案によれば、自然言語処理モデルを使用して検証対象の医療データ及び候補ドキュメントを処理して、医療データ及び候補ドキュメントにそれぞれ対応する各特徴ベクトルを取得し、各特徴ベクトルに基づいて、複数の方式を使用して医療データと候補ドキュメントとの相関性を計算して、複数の関連ベクトルを取得し、さらに複数の関連ベクトルに対して融合計算を行って、候補ドキュメントに基づく場合の医療データの信頼度を決定する。これにより、エンドツーエンドの深層学習モデルにより、複数の方式を使用して医療データと候補ドキュメントとの相関性を計算して、医療データと候補ドキュメントとの間の関連及び相違を多次元から正確に表し、エンドツーエンドモデルに誤差が累積されず、医療データの検証の精度が向上する。
【0133】
なお、上記に示された様々な形態のフローを使用して、ステップを並べ替え、追加し、又は削除することができることを理解すべきである。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示される技術案の所望の結果を実現することができれば、本明細書では、限定しない。
【0134】
上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことができることを理解すべきである。本出願の精神及び原則の範囲内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6