特許第6963535号(P6963535)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

<>
  • 特許6963535-分析方法、分析装置及びプログラム 図000002
  • 特許6963535-分析方法、分析装置及びプログラム 図000003
  • 特許6963535-分析方法、分析装置及びプログラム 図000004
  • 特許6963535-分析方法、分析装置及びプログラム 図000005
  • 特許6963535-分析方法、分析装置及びプログラム 図000006
  • 特許6963535-分析方法、分析装置及びプログラム 図000007
  • 特許6963535-分析方法、分析装置及びプログラム 図000008
  • 特許6963535-分析方法、分析装置及びプログラム 図000009
  • 特許6963535-分析方法、分析装置及びプログラム 図000010
  • 特許6963535-分析方法、分析装置及びプログラム 図000011
  • 特許6963535-分析方法、分析装置及びプログラム 図000012
  • 特許6963535-分析方法、分析装置及びプログラム 図000013
  • 特許6963535-分析方法、分析装置及びプログラム 図000014
  • 特許6963535-分析方法、分析装置及びプログラム 図000015
  • 特許6963535-分析方法、分析装置及びプログラム 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6963535
(24)【登録日】2021年10月19日
(45)【発行日】2021年11月10日
(54)【発明の名称】分析方法、分析装置及びプログラム
(51)【国際特許分類】
   G06F 16/35 20190101AFI20211028BHJP
【FI】
   G06F16/35
【請求項の数】13
【全頁数】19
(21)【出願番号】特願2018-107916(P2018-107916)
(22)【出願日】2018年6月5日
(65)【公開番号】特開2019-212034(P2019-212034A)
(43)【公開日】2019年12月12日
【審査請求日】2020年11月6日
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001678
【氏名又は名称】特許業務法人藤央特許事務所
(72)【発明者】
【氏名】明石 大
(72)【発明者】
【氏名】大崎 高伸
(72)【発明者】
【氏名】三好 利昇
【審査官】 原 秀人
(56)【参考文献】
【文献】 特表2017−524200(JP,A)
【文献】 特開2003−085194(JP,A)
【文献】 特開2012−234314(JP,A)
【文献】 特開2002−183381(JP,A)
【文献】 特開2017−173866(JP,A)
【文献】 特開2016−045727(JP,A)
【文献】 米国特許出願公開第2017/0262430(US,A1)
【文献】 国際公開第2015/186205(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
G16H10/20
(57)【特許請求の範囲】
【請求項1】
プロセッサとメモリを有する計算機で、要素間の類似度を分析する分析方法であって、
前記計算機が、医療行為の要素を含む医療データを読み込む第1のステップと、
前記計算機が、前記医療行為の要素の集合に対して予め設定された第1のキーで前記医療行為の要素を整列する第2のステップと、
前記計算機が、前記医療データから前記医療行為の要素の集合に対応する第2のキーを取得して、前記整列された前記医療行為の要素の集合に前記第2のキーを組み合わせて学習データを生成する第3のステップと、
前記計算機が、ニューラルネットワークで前記学習データの学習を実施して前記医療行為の要素の分散表現を算出する第4のステップと、
前記計算機が、前記分散表現に基づいて前記医療行為の要素間の類似度を算出する第5のステップと、
を含み、
前記第1のキーが、前記医療行為を実施した時間情報であり、
前記第2のキーが、傷病名の情報であることを特徴とする分析方法。
【請求項2】
請求項1に記載の分析方法であって、
前記第3のステップは、
前記医療行為の要素の集合の中から選択したひとつの医療行為の要素を第1の学習データとするステップと、
前記選択した医療行為の要素の周辺要素を取得して、当該周辺要素に前記第2のキーを追加して第2の学習データを生成するステップと、
を含むことを特徴とする分析方法。
【請求項3】
請求項1に記載の分析方法であって、
前記第3のステップは、
前記傷病名の情報を前記医療行為の要素の集合に組み合わせる際に、
前記傷病名の情報が複数存在する場合には、主傷病に対応する傷病名の情報を選択し、
前記選択した傷病名の情報の時間情報と、前記医療行為の時間情報とを比較して、前記傷病名の情報の時間情報が、前記医療行為の時間情報よりも早いものを選択し、前記傷病名の情報と前記医療行為の要素の集合とを組み合わせて学習データを生成することを特徴とする分析方法。
【請求項4】
請求項1に記載の分析方法であって、
前記第2のステップは、
前記医療行為の要素の集合から、保険点数が所定の閾値以下の医療行為の要素を削除することを特徴とする分析方法。
【請求項5】
請求項1に記載の分析方法であって、
前記計算機が、前記算出された類似度に基づいて、医療行為と比較対象医療行為の対応関係を設定した類似度情報を生成する第6のステップと、
前記計算機が、ルール番号と、対象項目と、対応医療行為を含むルール情報を読み込む第7のステップと、
前記計算機が、前記対応医療行為からひとつの要素を選択して前記類似度情報を検索し、前記医療行為と一致し、かつ類似度が所定値以上の比較対象医療行為を選択する第8のステップと、
前記計算機が、前記ルール情報の対象項目と選択された前記比較対象医療行為の組み合わせのうち、前記ルール情報に存在しない組み合わせを新たなルールの候補として出力する第9のステップと、
をさらに含むことを特徴とする分析方法。
【請求項6】
請求項5に記載の分析方法であって、
前記所定値は、
前記ルール番号と前記対象項目が同一である対応医療行為同士の類似度を所定値とすることを特徴とする分析方法。
【請求項7】
プロセッサとメモリを有して、要素間の類似度を分析する分析装置であって、
医療行為の要素を含む医療データを読み込んで、前記医療行為の要素の集合に対して予め設定された第1のキーで前記医療行為の要素を整列し、前記医療データから前記医療行為の要素の集合に対応する第2のキーを取得して、前記整列された前記医療行為の要素の集合に前記第2のキーを組み合わせて学習データを生成するデータ整形部と、
ニューラルネットワークで前記学習データの学習を実施して前記医療行為の要素の分散表現を算出し、前記分散表現に基づいて前記医療行為の要素間の類似度を算出する類似度計算部と、を有し、
前記第1のキーが、前記医療行為を実施した時間情報であり、
前記第2のキーが、傷病名の情報であることを特徴とする分析装置。
【請求項8】
請求項7に記載の分析装置であって、
前記データ整形部は、
前記医療行為の要素の集合の中から選択したひとつの医療行為の要素を第1の学習データとし、前記選択した医療行為の要素の周辺要素を取得して、当該周辺要素に前記第2のキーを追加して第2の学習データを生成することを特徴とする分析装置。
【請求項9】
請求項7に記載の分析装置であって、
前記データ整形部は、
前記傷病名の情報を前記医療行為の要素の集合に組み合わせる際に、
前記傷病名の情報が複数存在する場合には、主傷病に対応する傷病名の情報を選択し、
前記選択した傷病名の情報の時間情報と、前記医療行為の時間情報とを比較して、前記傷病名の情報の時間情報が、前記医療行為の時間情報よりも早いものを選択し、前記傷病名の情報と前記医療行為の要素の集合とを組み合わせて学習データを生成することを特徴とする分析装置。
【請求項10】
請求項7に記載の分析装置であって、
前記データ整形部は、
前記医療行為の要素の集合から、保険点数が所定の閾値以下の医療行為の要素を削除することを特徴とする分析装置。
【請求項11】
請求項7に記載の分析装置であって、
新たなルールの候補を生成するパターン抽出部をさらに有し、
前記類似度計算部は、
前記算出された類似度に基づいて、医療行為と比較対象医療行為の対応関係を設定した類似度情報を生成し、
前記パターン抽出部は、
ルール番号と、対象項目と、対応医療行為を含むルール情報を読み込んで、前記対応医療行為からひとつの要素を選択して前記類似度情報を検索し、前記医療行為と一致し、かつ類似度が所定値以上の比較対象医療行為を選択し、前記ルール情報の対象項目と選択された前記比較対象医療行為の組み合わせのうち、前記ルール情報に存在しない組み合わせを新たなルールの候補として出力することを特徴とする分析装置。
【請求項12】
請求項11に記載の分析装置であって、
前記所定値は、
前記ルール番号と前記対象項目が同一である対応医療行為同士の類似度を所定値とすることを特徴とする分析装置。
【請求項13】
プロセッサとメモリを有する計算機で、要素間の類似度を分析させるためのプログラムであって、
医療行為の要素を含む医療データを読み込む第1のステップと、
前記医療行為の要素の集合に対して予め設定された第1のキーで前記医療行為の要素を整列する第2のステップと、
前記医療データから前記医療行為の要素の集合に対応する第2のキーを取得して、前記整列された前記医療行為の要素の集合に前記第2のキーを組み合わせて学習データを生成する第3のステップと、
ニューラルネットワークで前記学習データの学習を実施して前記医療行為の要素の分散表現を算出する第4のステップと、
前記分散表現に基づいて前記医療行為の要素間の類似度を算出する第5のステップと、
を前記計算機に実行させ、
前記第1のキーが、前記医療行為を実施した時間情報であり、
前記第2のキーが、傷病名の情報であることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、医療データ分析システム及び医療データを分析する技術に関する。
【背景技術】
【0002】
近年、世界的に医療費の高騰が課題となっており、データヘルスとしてデータに基づく医療の効率化が求められている。本効率化の例としては、社会保険分野における支払基金の支払い請求の審査業務の自動化や、既存のある疾患に有効な治療薬から別の疾患に有効な薬品を見つけ出すドラッグリポジショニングなどが挙げられる。
【0003】
医療データに記載される医療行為は、数千種類〜数万種類の項目が存在し、審査業務自動化のためのルール抽出や、ドラッグリポジショニングなどのデータ分析の際にルールの組合せのパターンが膨大な数となる。そのため、どの医療行為がどういう分類に属するかといった分類情報の構築し、解析対象となるデータのパターンを集約することが重要となる。
【0004】
しかし、医療行為の分類は、解釈によって分類方法が様々であり、人手による医療行為の分類はルールが膨大となるため困難である。そのため、医療データに記載される実際の医療行為のパターンを分析することで、医療行為の分類表の生成を自動化する技術が必要であると考えられる。
【0005】
非特許文献1は、自然言語処理で使用されるword2vecと呼ばれる手法であり、文章の中の単語同士の類似度を、単語の周辺に出現する単語群から計算する手法である。これを医療データの解析に適用した場合、医療行為同士の類似度を、併記されている傷病名や他の医療行為などから、計算することが可能だと考えられる。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean 著、“Efficient Estimation of Word Representations in Vector Space”、[online]、2013年6月13日、[平成 30年5月10日検索]、インターネット〈URL:https://gul.gu.se/public/pp/public_courses/course77642/published/1502887098742/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf〉
【発明の概要】
【発明が解決しようとする課題】
【0007】
一方で、レセプトや電子カルテといった実際の医療データは、傷病や医療行為の対応関係などは考慮されず、一様に行番号順に記載されているのみに過ぎない。そのため、非特許文献1を用いて医療行為間の類似度を計算しても、類似度の精度が向上せず、間違った分類を行う可能性がある。
【0008】
そこで本発明は、上記問題点に鑑みてなされたもので、医療データから類似した医療行為の分類情報を自動的に抽出することを目的とする。
【課題を解決するための手段】
【0009】
本発明は、プロセッサとメモリを有する計算機で、要素間の類似度を分析する分析方法であって、前記計算機が、医療行為の要素を含む医療データを読み込む第1のステップと、前記計算機が、前記医療行為の要素の集合に対して予め設定された第1のキーで前記医療行為の要素を整列する第2のステップと、前記計算機が、前記医療データから前記医療行為の要素の集合に対応する第2のキーを取得して、前記整列された前記医療行為の要素の集合に前記第2のキーを組み合わせて学習データを生成する第3のステップと、前記計算機が、ニューラルネットワークで前記学習データの学習を実施して前記医療行為の要素の分散表現を算出する第4のステップと、前記計算機が、前記分散表現に基づいて前記医療行為の要素間の類似度を算出する第5のステップと、を含み、前記第1のキーが、前記医療行為を実施した時間情報であり、前記第2のキーが、傷病名の情報である。
【発明の効果】
【0010】
本発明によれば、医療データから類似した医療行為の分類情報を自動的に抽出することが可能となる。
【図面の簡単な説明】
【0011】
図1】本発明の実施例を示し、医療データ分析システムの構成の一例を示すブロック図である。
図2】本発明の実施例を示し、レセプト共通情報の一例を示す図である。
図3】本発明の実施例を示し、傷病名情報の一例を示す図である。
図4】本発明の実施例を示し、診療行為情報の一例を示す図である。
図5】本発明の実施例を示し、医薬品情報の一例を示す図である。
図6】本発明の実施例を示し、特定器材情報の一例を示す図である。
図7】本発明の実施例を示し、整形処理の一例を示す図である。
図8】本発明の実施例を示し、類似度計算処理の一例を示す図である。
図9A】本発明の実施例を示し、類似度計算部で行われる学習の一例を示す図である。
図9B】本発明の実施例を示し、分散表現の一例を示す図である。
図10】本発明の実施例を示し、医療行為分類化処理の一例を示すフローチャートである。
図11】本発明の実施例を示し、GUIの一例を示す図である。
図12】本発明の実施例を示し、新規ルール抽出処理の一例を示すフローチャートである。
図13】本発明の実施例を示し、ルール情報の一例を示す図である。
図14】本発明の実施例を示し、類似度情報の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態を添付図面に基づいて説明する。
【0013】
本実施例では、医療データ(例えば、レセプト情報、電子カルテ情報)に記載される医療行為について、医療行為間の類似度を、その医療行為の周辺に併記される他の医療行為及び傷病名から計算し、類似した医療行為をグループとして抽出する例を示す。類似した医療行為をグループ化することで、医療行為の出現パターンを集約してモデル化を容易にしたり、審査自動化のルールを簡易化することが可能となる。
【0014】
<システム全体の構成>
本発明の実施例における医療データ分析システムの構成の一例を図1に示す。医療データ分析システムは、医療データ分析装置10と、データベース20とで構成される。医療データ分析装置10は、演算装置11と、メモリ12と、出力部13と、入力部14と、記憶装置15から構成される。なお、データベース20は、医療データ分析装置10からアクセス可能であればよく、外部の計算機がデータベースを提供する構成でも良い。
【0015】
入力部14は、マウスや、キーボードまたはタッチパネルなどのユーザインターフェースであり、医療データ分析装置10への入力を受け付ける。出力部13は、医療データ分析装置10による演算結果を出力するディスプレイやプリンタを指す。
【0016】
記憶装置15は、磁気ディスクドライブや不揮発性メモリなどの不揮発性記憶装置を指し、本発明を実現する各種プログラムと、プログラムの実行結果を保持する。メモリ12には、記憶装置15に格納されたプログラムが展開される。演算装置11は、CPUあるいはGPUなどのプロセッサを指し、メモリ12上に展開されたプログラムを実行する。
【0017】
本実施例では、記憶装置15にデータ整形部110と、類似度計算部120と、可視化部130と、パターン抽出部150がプログラムとして格納される例を示す。
【0018】
データベース20は、医療情報格納部210と、整形情報格納部220と、分類情報格納部230と、分散表現格納部240と、ルール情報格納部250とを有している。医療情報格納部210は、入力部14から入力された医療データを格納する。
【0019】
医療データは、レセプト情報及び電子カルテ情報を含む。レセプト情報は、レセプト共通情報310と、傷病名情報320と、診療行為情報330と、医薬品情報340、及び特定器材情報350を含む。なお、レセプト情報は、上記以外にも入院または外来、保険点数、症状詳記、コメントなどの情報も含むが、本実施例の説明には不要のため、記載を省略する。
【0020】
整形情報格納部220と、分散表現格納部240と、分類情報格納部230と、ルール情報格納部250は、本発明の各プログラムが生成する情報を格納する。整形情報格納部220は、レセプトの整形情報410を格納する。分散表現格納部240は、分散表現420を格納する。分類情報格納部230は、分類情報430及び類似度情報3000を格納する。ルール情報格納部250は、ルール情報2000を格納する。
【0021】
データベース20に保持されている情報は、必ずしもデータベース20上で保持される必要はなく、医療データ分析装置10の記憶装置15に保持してもよい。
【0022】
CPU等を含む演算装置11は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、演算装置11は、データ整形プログラムに従って処理することでデータ整形部110として機能する。他のプログラムについても同様である。さらに、演算装置11は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
【0023】
また、類似度計算部120は、類似度計算プログラムとニューラルネットワーク125を含む。なお、本実施例では、ニューラルネットワーク125をソフトウェアで実装する例を示すが、これに限定されるものではない。例えば、GPU(Graphics Processing Unit)やFPGA(Field Programmable Gate Array )等のハードウェアでニューラルネットワーク125を実現しても良い。
【0024】
医療データ分析装置10の各機能を実現するプログラム、テーブル等の情報は、記憶装置15や不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
【0025】
医療データ分析装置10で行われる処理の概要は、まず、データ整形部110が、医療データを入力として、整形情報410を生成する。次に、整形情報410と傷病名情報320から学習データを生成し、ニューラルネットワーク125を用いて学習し、分散表現420を生成し、医療行為間の類似度を計算して類似度情報3000及び分類情報430を生成する。
【0026】
パターン抽出部150は、類似度情報3000に基づいて、医療行為のパターンから新規のルールの候補を抽出する。可視化部130は、医療データ分析装置10で算出された情報を出力部13に出力する。
【0027】
以下、各種情報、及び各部について詳細を説明する。
【0028】
<医療データ(レセプト情報)>
図2は、レセプト共通情報310の構成の一例を示す図である。レセプト共通情報310は、患者の情報やレセプト種別といったレセプトの基本情報を保持する。レセプト共通情報310は、検索番号1001と、行番号1002と、患者氏名1003と、性別1005と、年齢1004と、診療年月1006を構成項目として含んでいる。
【0029】
検索番号1001には、レセプトを一意に識別するための識別子が格納される。行番号1002は、当該情報がレセプトに記載される行番号である。性別1005及び年齢1004は、当該加入者の性別及び年齢である。診療年月1006には、加入者が医療機関を受診した年及び月が格納される。
【0030】
図3は、傷病名情報320の構成の一例を示す図である。傷病名情報320は、検索番号1001と、行番号1002と、傷病名コード1101と、傷病名1102と、主傷病1103と、診療開始日1104を構成項目として含んでいる。
【0031】
検索番号1001は、レセプトを一意に識別するための識別子が格納され、レセプト共通情報310の検索番号1001(図2)と同じ番号を用いる。行番号1002は当該情報がレセプトに記載される行番号であり、レセプト共通情報310の行番号1002と同様である。
【0032】
傷病名コード1101は、レセプトに記載される傷病名コードである。傷病名1102は、当該傷病名コード1101に対応する傷病の名称である。主傷病1103は、当該傷病名が当該レセプトにおいて主傷病である場合は「1」が設定され、そうでない場合は「0」が設定されるフラグ情報である。診療開始日1104は当該傷病に対する診療を開始した日付である。なお、一件のレセプトには、複数の傷病名が記載可能である。
【0033】
図4は、診療行為情報330の構成の一例を示す図である。診療行為情報330は、検索番号1001と、行番号1002と、診療行為コード1201と、診療行為名1202と、点数1203と、算定日情報1204とを構成項目として含んでいる。
【0034】
検索番号1001は、レセプトを一意に識別するための識別子であり、レセプト基本情報の検索番号1001(図2)と同じ番号を用いる。行番号1002は当該情報がレセプトに記載される行番号であり、レセプト共通情報310の行番号1002と同様である。
【0035】
診療行為コード1201は、レセプトに記載された診療行為を識別するための識別子である。点数1203は、当該診療行為の保険点数である。診療行為名122は、当該診療行為コード1201に対応する診療行為の名称である。算定日情報1204は、診療行為を実施した日にちである。なお、1件のレセプトには、複数の診療行為名が記載可能である。
【0036】
図5は、医薬品情報340の構成の一例を示す図である。医薬品情報340は、検索番号1001と、行番号1002と、医薬品コード1301と、医薬品名1302と、点数1303と、算定日情報1304とを構成項目として含んでいる。
【0037】
検索番号1001は、レセプトを一意に識別するための識別子であり、レセプト基本情報の検索番号1001(図2)と同じ番号を用いる。行番号1002は当該情報がレセプトに記載される行番号であり、レセプト共通情報310の行番号1002と同様である。
【0038】
医薬品コード1301は、レセプトに記載された医薬品を識別するための医薬品コードである。医薬品名1302は、当該医薬品コードに対応する医薬品の名称である。点数1303は、当該医薬品の保険点数である。算定日情報1304は医薬品を投与した日にちである。なお、1件のレセプトには、複数の医薬品名が記載可能である。
【0039】
図6は、特定器材情報350の構成の一例を示す図である。特定器材情報350は、検索番号1001と、行番号1002と、特定器材コード1401と、特定器材名1402と、点数1403と、算定日情報1404、1405を構成項目として含んでいる。
【0040】
検索番号1001は、レセプトを一意に識別するための識別子であり、レセプト基本情報の検索番号1001(図2)と同じ番号を用いる。行番号1002は当該情報がレセプトに記載される行番号であり、レセプト共通情報310の行番号1002と同様である。
【0041】
特定器材コード1401は、レセプトに記載された特定器材を識別するための特定器材コードである。特定器材名1402は、当該特定器材コードに対応する特定器材の名称である。点数1403は、当該特定器材の保険点数である。算定日情報1404、1405は特定器材を使用した日にちである。なお、1件のレセプトには、複数の特定器材名が記載可能である。
【0042】
また、本発明の実施例では、医療データとしてレセプト情報を例に説明をするが、例えば電子カルテのような情報にも本発明は適用可能である。
【0043】
<データ整形処理の詳細>
次に、データ整形部110で行われる処理について説明する。データ整形部110は、医療情報格納部210に記憶されている医療データからレセプト情報を集計及び統合し、医療行為をレセプト単位で時系列順に整列した形式に整形し、整形情報410を出力する。
【0044】
図7は、整形情報410の構成例を示す図である。図7を用いて、データ整形部110の処理を説明する。
【0045】
データ整形部110は検索番号1001を集計のキーとして、傷病名情報320と、診療行為情報330と、医薬品情報340から、検索番号1001毎の診療行為コード1201と、医薬品コード1301と、特定器材コード1401と、それぞれの算定日情報1204、1304、1404を取得する。
【0046】
なお、本実施例では、診療行為コード1201と、医薬品コード1301と、特定器材コード1401は医療行為の要素とする。
【0047】
データ整形部110は、取得した算定日情報1204、1205、1304、1305、1404、1405を元に、診療行為コード1201と、医薬品コード1301及び特定器材コード1401を時系列(第1のキー)順に整列し、時系列順医療行為情報1501として保持する。また、時系列順医療行為情報1501と対応した算定日情報を、算定日情報1502として保持する。データ整形部110は、上記処理によって整形情報410を生成する。
【0048】
なお、医療行為を時系列順に整列する際に、保険点数が閾値以下の医療行為は削除してもよい。審査業務の観点では、保険点数の小さい医療行為は査定対象になる割合が少なく影響が小さいため、点数の小さい医療行為を削除することで、医療行為間の類似度の精度を向上させられる可能性がある。また、検索番号1001毎の時系列順医療行為情報1501は、医療行為の要素の集合である。
【0049】
<類似度計算処理詳細>
次に、類似度計算部120の処理の詳細について説明する。類似度計算部120は、整形情報410と傷病名情報320とを組み合わせて学習データを生成し、医療行為間の類似度を計算する。
【0050】
図8を用いて、類似度計算部120が整形情報410及び傷病名情報320を組み合わせて、学習データを生成する処理について説明する。
【0051】
類似度計算部120は、まず整形情報410から検索番号1001をキーとしてレセプトを1つ選択し、選択したレセプトの時系列順医療行為情報1501を取得する。時系列順医療行為情報1501の先頭の医療行為を第1の学習データ510として選択し、選択した医療行為の周辺の医療行為をウインドウサイズ分取得する。
【0052】
図8は、ウインドウサイズを「1」として、類似度計算部120がウインドウサイズを考慮したうえでIY001を第1の学習データ510(要素)として選択し、その前後幅1の範囲であるSI001とSI002を、周辺の医療行為(周辺要素)として取得している。
【0053】
次に、類似度計算部120は、傷病名情報320から検索キーが一致する傷病名コード1101を取得する。取得した傷病名コード1101の中から、診療開始日が第1の学習データ510の医療行為の算定日よりも早い傷病名コード1101のみを取得する。類似度計算部120は、取得した傷病名コード1101と、周辺の医療行為を組み合わせて第2の学習データ520を生成する。
【0054】
類似度計算部120は、先頭の医療行為について第1と第2の学習データ510、520の組合せを生成した後、時系列順医療行為情報1501に含まれる次の医療行為を選択して図8に示したウインドウをずらし、再度第1と第2の学習データ510、520の組合せを生成する。これを時系列順医療行為情報1501の末尾まで繰り返したあと、整形情報410の次のレセプトを選択し、同様の処理を繰り返す。
【0055】
上記の処理によって、整形情報410から第1の学習データ510と第2の学習データ520の組合せによって学習データが生成される。
【0056】
なお、類似度計算部120は、傷病名コード1101と周辺の医療行為を組み合わせる際、複数の傷病名コード1101の中から、主傷病1103である傷病名コード1101を1つのみ選択してもよい。最も影響の大きい傷病名に対象を絞ることで、医療行為間の類似度の計算の精度を向上させられる可能性がある。
【0057】
次に、図9Aを用いて、類似度計算部120が図8で生成した学習データを使用して、医療行為間の類似度を計算する処理を説明する。
【0058】
類似度計算部120は、図8にて生成した第1と第2の学習データ510、520のペアをニューラルネットワーク125の入出力とした学習を行い、医療行為を数値化したベクトル情報の行列を生成する。
【0059】
類似度計算部120が使用するニューラルネットワーク125の構造の例を、図9Aに示す。本実施例の類似度計算部120が用いるニューラルネットワーク125の構成は入力層、隠れ層、出力層からなり、隠れ層は1つのみとする。
【0060】
入力層はone−hotベクトルと呼ばれる形式をとり、時系列順医療行為情報1501の有無を0か1の数値で表現したスカラ値からなるベクトルであり、1つのone−hotベクトルでは、1となる値は1つのみしか存在しない。
【0061】
隠れ層は、図9Bに示す分散表現420の重み行列を保持する。分散表現420は、医療行為421と、重み行列422で構成される。重み行列422の一行は一つの医療行為を数値化したベクトル情報を表す。この重み行列422は、自然言語処理の分野において単語分散表現や、単語埋め込みとも呼ばれる。以降、本発明の説明において、学習により生成した隠れ層の重み行列422のことを分散表現と呼称する。
【0062】
出力層は、一列が一つの医療行為を数値化したベクトル情報を保持する。類似度計算部120は、第1の学習データ510を入力とし、第2の学習データ520を出力として隠れ層の重み行列422を学習することで、医療行為の分散表現420を生成する。
【0063】
そして、類似度計算部120は、生成した医療行為の分散表現420を使用することで、医療行為同士の類似度を計算することが可能となる。なお、図9Aの説明ではニューラルネットワークの構造をskip−gramと呼ばれるモデルに基づいて説明したが、これに限定されるものではない。例えば、CBOW(Countinuous Bag−of−Words)と呼ばれる入出力を逆とした構造で学習を行ってもかまわない。
【0064】
類似度計算部120は、生成した医療行為の分散表現420に対してcos類似度などを計算することで、医療行為間の類似度の算出及びグループ化を行う。
【0065】
<医療行為分類化処理>
上記の各部の説明を踏まえたうえで、図10を用いて、医療データ分析システム全体としての医療行為分類化処理のフローチャートを説明する。
【0066】
まず、ステップS001において、医療データ分析装置10は、分類の対象とするレセプトを絞り込む条件として、傷病名コードや医療機関名、入院または外来、解析期間とする年月などを、入力部14から受け付ける。医療データ分析装置10を利用するユーザは上記以外にも、レセプトに記載される一般的な項目のいずれについても条件として指定してもよい。条件を指定しない場合、医療データ分析装置10は、データベース20に格納される全てのレセプト情報を対象として以降の処理を実施する。
【0067】
次に、ステップS002において、医療データ分析装置10のデータ整形部110は、データベース20の医療情報格納部210から分類対象とするレセプト情報を取得し、レセプト情報の医療行為を時系列順の形式に整形した整形情報410を生成する。ここで生成された整形情報410は、データベース20もしくは記憶装置15に中間データとして格納してもよいし、メモリ12上に保持してもよい。
【0068】
次に、ステップS003にて、類似度計算部120は、対象とするレセプト情報の中から1つのレセプトと、当該レセプトの検索番号1001を選択する。
【0069】
次に、ステップS004にて、類似度計算部120は、上記選択した検索番号1001をキーとして、整形情報410及び傷病名情報320を取得する。そして、類似度計算部120は、整形情報410に含まれる時系列順医療行為情報1501から、先頭の医療行為を選択する。
【0070】
次に、ステップS005にて、類似度計算部120は、選択した先頭の医療行為を第1の学習データ510とし、その周辺の医療行為と傷病名コード1101を組み合わせた第2の学習データ520を生成する。
【0071】
次に、ステップS006にて、類似度計算部120は、時系列順医療行為1501の末尾まで処理を実施したかを判定する。もし末尾まで処理していない場合、ステップS004に戻り、時系列順医療行為情報1501から次の医療行為を選択し、ステップS004〜S006の処理を繰り返す。末尾まで処理している場合は、ステップS007に進む。
【0072】
次に、ステップS007にて、類似度計算部120は、対象となる全てのレセプトに対して処理を実施したか否かを判定する。もし全てのレセプトを処理していない場合、ステップS003に戻り、次のレセプトを選択して、ステップS003〜S007の処理を繰り返す。全てのレセプトを処理している場合、ステップS008に進む。
【0073】
次に、ステップS008にて、類似度計算部120は、上記生成された第1と第2の学習データ510、520の組合せを使用して、ニューラルネットワーク125による学習を実施し、医療行為の分散表現420を生成する。
【0074】
次に、類似度計算部120は、ステップS009にて、生成した医療行為の分散表現420を用いて、全ての医療行為に対して類似度の計算を実施して、図14に示す類似度情報3000を生成する。
【0075】
類似度情報3000は、図14で示すように医療行為3001と、比較対象医療行為3002と、類似度3003からひとつのエントリが構成される。類似度3003は「−1」から「1」の間の値をとり、値が「1」に近いほうが、医療行為3001と比較対象医療行為3002間の類似度が高いことを表す。
【0076】
さらに、類似度情報3000の中から、類似度が閾値以上の医療行為群(医療行為3001と比較対象医療行為3002)を同一のグループとして分類した、図11に示す分類情報430を生成する。
【0077】
上記処理によって、医療データ分析装置10は、レセプト情報を含む医療データを入力として、第1の学習データ510と第2の学習データ520を生成してニューラルネットワーク125で学習を実施する。そして、医療データ分析装置10の類似度計算部120は、学習結果から医療行為の分散表現420を生成し、さらに分散表現420から類似度情報3000を生成する。そして、類似度計算部120は類似度に基づいて医療行為同士を分類した分類情報430を生成することができる。
【0078】
<分類情報の利用例>
生成した分類情報430は、例えば、レセプトや審査自動化のルールに記載される医療行為を集約することで、データ分析のモデルを単純化したり、ルールの集約を行うことが可能となる。
【0079】
また、生成した分類情報430から、既存の医薬品の新しい使われ方を発見するなど、ドラッグリポジショニングなどの新規医療知識の抽出にも利用できる可能性が考えられる。
【0080】
新規医療知識を抽出する例として、例えば、医療データ分析装置10の記憶装置15に新規分類抽出部(図示省略)と、データベース20に既知分類情報を追加で保持してもよい。既知分類情報は、ユーザが薬効分類などの医療知識に基づいた分類情報を入力部14から設定してもよいし、過去に類似度計算部120が生成した分類情報でもよい。
【0081】
新規分類抽出部は、類似度計算部120が生成した分類情報と、既知分類情報との比較を行い、分類情報430分類情報430の中に、既知分類情報には含まれない分類が存在するか否かを検知し、該当する分類情報を新規分類情報として出力する。
【0082】
<類似度情報を用いた新規審査ルール候補生成の例>
以上述べた、類似度情報3000および分類情報430を用いて、新規に審査ルールの候補を抽出する手順の例について図12のフローチャートを用いて説明する。
【0083】
まず、ステップS101において、医療データ分析装置10は医療行為分類化処理を実施し、類似度情報3000を取得する。なお、医療行為分類化処理は、図10に示した処理と同じ処理である。
【0084】
次に、医療データ分析装置10のパターン抽出部150はステップS102において、図13に示すルール情報2000からルール番号を選択し、該当するエントリの対象項目と対応医療行為を全て取得する。なお、ルール情報2000は予め審査のルールが設定されたテーブルである。
【0085】
図13においてルール情報2000は、ルール番号2001と、対象項目2002と、対応医療行為2003と、審査結果2004からひとつのエントリが構成される。対象項目2002には、傷病名あるいは医療行為が記載される。対応医療行為2003には、医療行為(診療行為コード1201や医薬品コード1301または特定器材コード1401)が記載される。審査結果2004には、「適応」、「適応外」、「背反」、「禁忌」といった審査結果の情報が記載される。
【0086】
レセプトに記載される項目の中に、対象項目2002と対応医療行為2003の組合せが含まれる場合、該当する組合せは審査結果2004に記載の通りに判定される。なお、ルール情報2000はあらかじめユーザが入力部14を介して入力または生成しておいたものとする。
【0087】
さらに、ルール情報2000には、本フローチャートで抽出した新規ルールの候補を、ユーザが類似度情報3000などから妥当性を判定した上で、入力部14より追加で登録することが可能である。また、ルール情報2000の1つのルール番号2001につき、1つの対象項目2002と、審査の観点で同じ効能または効果かつ同じ審査結果2004となる1つ以上の対応医療行為2003がまとまっているものとする。
【0088】
次に、ステップS103において、パターン抽出部150は、上記ステップS102で取得した対応医療行為2003の中から1つを検索キーとして選択する。パターン抽出部150は、ステップS101で生成した類似度情報3000の中から医療行為3001が検索キーと一致するエントリを検索し、一致するエントリの中から、類似度3003が閾値以上となる比較対象医療行為3002を取得する。
【0089】
類似度3003の閾値は、例えば、ステップS103で取得した比較対象医療行為3002のうち、ステップS102で選択した対応医療行為2003に含まれ、かつ最も類似度が小さい比較対象医療行為3002の類似度3003を閾値として設定してよい。これは、ステップS102で選択した対応医療行為2003は、同じ効能または効果を有するため、これを基準として類似度の閾値を設定することで、類似した医療行為を抽出できるためである。また、類似度3003の閾値は、ステップS103で検索の結果一致した医療行為3001に対応する先発医薬品もしくは後発医薬品がある場合は、医療行為3001と対応する先発医薬品もしくは後発医薬品の間の類似度を閾値として設定してもよい。
【0090】
また、類似度3003の閾値はユーザが入力部14を介して固定値を設定してもよく、閾値の代わりに、類似度3003が高い順に上位N個(Nはユーザが指定可)の比較対象医療行為3002を取得してもよい。
【0091】
次に、ステップS104において、パターン抽出部150は、ステップS102で取得した対象項目2002と、ステップS103で取得した比較対象医療行為3002の組合せのうち、ルール情報2000に存在しないものを新規ルールの候補として抽出する。
【0092】
次に、ステップS105において、パターン抽出部150は、全ての対応医療行為2003を処理したか否かを判定し、処理し終わっていない場合はステップS103に戻り上記処理を繰り返す。一方、処理し終わった場合はステップS106へと進む。
【0093】
次に、ステップS106において、パターン抽出部150は、全てのルール番号2001を選択し終えたか否かを判定し、選択していない場合はステップS102に戻り、上記処理を繰り返す。一方、処理が終わっている場合、パターン抽出部150は、抽出した新規ルールの候補全てを出力し、新規ルール抽出処理を終了する。医療データ分析装置10のユーザは、出力された新規ルールの候補のうち、全てあるいは一部を選択し、新規ルールをルール情報2000に登録する。
【0094】
図12のフローチャートでは、ユーザが設定した既存のルール情報と、分散表現により生成した医療行為の類似度の情報をもとに、新規のルール候補を抽出する例を示した。この他の新規ルール候補抽出の例を以下に示す。
【0095】
例の1つとして、まず、医療データ分析装置10がレセプトに既存のルール情報2000を適用して、いずれのルールにも該当しないような医療行為を抽出する。次に、パターン抽出部150は、抽出した医療行為を検索キーとして、類似度情報3000から類似度の高い比較対象医療行為3002を取得する。ここで、類似度の高い医療行為とは、前述と同様に、類似度が高い順に上位N個でもよいし、閾値以上の類似度を有する比較対象医療行為でもよい。
【0096】
次に、パターン抽出部150は、取得した比較対象医療行為3002を対応医療行為2003として含むエントリを、ルール情報2000から取得する。次に、パターン抽出部150は、取得したエントリの対象項目2002と、いずれのルールにも該当しなかった医療行為の組合せを生成し、これを新規ルールの候補として出力する。
【0097】
以上により、いずれのルールにも該当していない医療行為を検出してルールに組み込み、審査ルールを拡充することが可能となる。
【0098】
その他の例として、医療データ分析装置10は、レセプトに記載された項目を、図11の分類情報430で集約したものを入力データとし、該当レセプトの審査結果の情報を教師ラベルとした上で、決定木やアソシエーション分析といったパターンマッチングを用いて、レセプトの記載項目のパターンを審査ルールの候補として抽出してもよい。
【0099】
<可視化処理>
図11を用いて、可視化部130の処理について説明する。可視化部130は、類似度計算部120が生成した分類情報430や、医療行為の分散表現420に基づいた医療行為間の距離情報の可視化を行う。図11は、類似度のグラフと統計情報440と分類情報430を含む画面1300の一例を示す。
【0100】
図11の画面1300では、医療行為の分散表現420に基づいて医療行為間の類似度を二次元の散布図で表示したグラフ1310や、分類情報430が保持する医療行為をグループ化した表形式の情報が表示される。図11に示すグラフ1310は主成分分析により分散表現から作成した特徴量1及び特徴量2をグラフの軸として、医療行為間の類似度の距離を表現している。その他にも、レセプトのデータ数や医療行為数の平均、最小、最大などの基本的な統計情報440や、ユーザが設定するウインドウサイズ1320や、グループ化の閾値1330、グループ名の入力欄1340が表示される。
【0101】
<まとめ>
以上のように、本実施例の医療データ分析装置10では、データ整形部110が医療データからレセプト情報を取得して、レセプト情報の検索番号1001毎に医療行為の要素を時系列順(第1のキー)で集計した整形情報410を生成する。なお、医療行為の要素は、例えば、診療行為コード1201や医薬品コード1301または特定器材コード1401を含む。
【0102】
次に、類似度計算部120は、整形情報410の時系列順医療行為情報1501からひとつの要素を選択して第1の学習データ510とする。類似度計算部120は、整形情報410の時系列順医療行為情報1501から周辺要素を選択し、当該整形情報410のエントリに対応する傷病名コード1101(第2のキー)を取得して、当該傷病名コード1101を周辺要素に加えた情報を第2の学習データ520とする。
【0103】
類似度計算部120は、ニューラルネットワーク125で第1の学習データ510入力と、第2の学習データ520を出力として学習を実行して、分散表現420を算出する。そして、類似度計算部120は、分散表現420に基づいて類似度情報3000を算出し、類似度に基づいて時系列順医療行為情報1501の要素(医療行為)をグループとして分類した分類情報430を生成する。
【0104】
以上により、医療行為間の類似度を精度良く算出して、医療データから類似した医療行為(の要素)の分類情報430を自動的に抽出することが可能となる。
【0105】
また、類似度計算部120は、傷病名コード1101が複数ある場合には、主傷病である傷病名の中から1つを選択することで、医療行為間の類似度の算出精度を確保することができる。なお、時系列順医療行為情報1501の要素のうち、保険点数が閾値以下の医療行為は学習データセットから削除してもよい。これにより、査定対象になる割合が少なく影響が小さい医療行為を除外することで、医療行為間の類似度の精度を向上させることができる。
【0106】
また、本実施例の医療データ分析装置10では、審査のルールが予め設定されたルール情報2000の候補を生成することができる。ルール情報2000は、医療行為の要素や傷病名の情報を含む対象項目2002と、対象項目2002に関連する医療行為に関する対応医療行為2003と、対象項目2002と対応医療行為2003に関する審査結果2004から構成される。
【0107】
類似度計算部120は、対応医療行為2003をひとつ選択して類似度情報3000の医療行為3001と一致するエントリから類似度が所定値以上の比較対象医療行為3002を選択する。ルール情報2000の対象項目2002と選択された比較対象医療行為3002の組み合わせのうち、ルール情報2000に存在しない組み合わせを新たなルールの候補として出力する。
【0108】
これにより、医療データを追加または更新したときに、新たなルールの候補を自動的に検出することができる。
【0109】
また、類似度計算部120は、類似度情報3000を用いてレセプトに記載された要素を集約した入力データと、レセプトの審査結果である教師データをパターンマッチング(決定木もしくはアソシエーション分析)に入力し、審査ルールとしてパターン(ルール)情報を出力し、レセプトに記載された要素を集約する際に、同一グループの要素の類似度以上の要素同士を集約し、同一グループで集約された要素は同一の効能を持つ医療行為の要素の集合である。
【0110】
なお、本発明の実施形態は、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
【0111】
上記の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
【0112】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。
【0113】
また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
【0114】
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0115】
10 医療データ分析装置
20 データベース
210 医療情報格納部
220 整形情報格納部
230 分類情報格納部
240 分散表現格納部
110 データ整形部
120 類似度計算部
130 可視化部
140 パターン抽出部
310 レセプト共通情報
320 傷病名情報
330 診療行為情報
340 医薬品情報
350 特定器材情報
410 整形情報
420 分散表現
430 分類情報430
510 第1の学習データ
520 第2の学習データ
図1
図2
図3
図4
図5
図6
図7
図8
図9A
図9B
図10
図11
図12
図13
図14