特許6963535 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特許6963535分析方法、分析装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9A
9B
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6963535

(24)【登録日】2021年10月19日

(45)【発行日】2021年11月10日

(54)【発明の名称】分析方法、分析装置及びプログラム

(51)【国際特許分類】

G06F 16/35 20190101AFI20211028BHJP

【ＦＩ】

G06F16/35

【請求項の数】13

【全頁数】19

(21)【出願番号】特願2018-107916(P2018-107916)

(22)【出願日】2018年6月5日

(65)【公開番号】特開2019-212034(P2019-212034A)

(43)【公開日】2019年12月12日

【審査請求日】2020年11月6日

(73)【特許権者】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001678

【氏名又は名称】特許業務法人藤央特許事務所

(72)【発明者】

【氏名】明石大

(72)【発明者】

【氏名】大崎高伸

(72)【発明者】

【氏名】三好利昇

【審査官】原秀人

(56)【参考文献】

【文献】特表２０１７−５２４２００（ＪＰ，Ａ）

【文献】特開２００３−０８５１９４（ＪＰ，Ａ）

【文献】特開２０１２−２３４３１４（ＪＰ，Ａ）

【文献】特開２００２−１８３３８１（ＪＰ，Ａ）

【文献】特開２０１７−１７３８６６（ＪＰ，Ａ）

【文献】特開２０１６−０４５７２７（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１７／０２６２４３０（ＵＳ，Ａ１）

【文献】国際公開第２０１５／１８６２０５（ＷＯ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１６／００−１６／９５８

Ｇ１６Ｈ１０／２０

(57)【特許請求の範囲】

【請求項1】

プロセッサとメモリを有する計算機で、要素間の類似度を分析する分析方法であって、
前記計算機が、医療行為の要素を含む医療データを読み込む第１のステップと、
前記計算機が、前記医療行為の要素の集合に対して予め設定された第１のキーで前記医療行為の要素を整列する第２のステップと、
前記計算機が、前記医療データから前記医療行為の要素の集合に対応する第２のキーを取得して、前記整列された前記医療行為の要素の集合に前記第２のキーを組み合わせて学習データを生成する第３のステップと、
前記計算機が、ニューラルネットワークで前記学習データの学習を実施して前記医療行為の要素の分散表現を算出する第４のステップと、
前記計算機が、前記分散表現に基づいて前記医療行為の要素間の類似度を算出する第５のステップと、
を含み、
前記第１のキーが、前記医療行為を実施した時間情報であり、
前記第２のキーが、傷病名の情報であることを特徴とする分析方法。

【請求項2】

請求項１に記載の分析方法であって、
前記第３のステップは、
前記医療行為の要素の集合の中から選択したひとつの医療行為の要素を第１の学習データとするステップと、
前記選択した医療行為の要素の周辺要素を取得して、当該周辺要素に前記第２のキーを追加して第２の学習データを生成するステップと、
を含むことを特徴とする分析方法。

【請求項3】

請求項１に記載の分析方法であって、
前記第３のステップは、
前記傷病名の情報を前記医療行為の要素の集合に組み合わせる際に、
前記傷病名の情報が複数存在する場合には、主傷病に対応する傷病名の情報を選択し、
前記選択した傷病名の情報の時間情報と、前記医療行為の時間情報とを比較して、前記傷病名の情報の時間情報が、前記医療行為の時間情報よりも早いものを選択し、前記傷病名の情報と前記医療行為の要素の集合とを組み合わせて学習データを生成することを特徴とする分析方法。

【請求項4】

請求項１に記載の分析方法であって、
前記第２のステップは、
前記医療行為の要素の集合から、保険点数が所定の閾値以下の医療行為の要素を削除することを特徴とする分析方法。

【請求項5】

請求項１に記載の分析方法であって、
前記計算機が、前記算出された類似度に基づいて、医療行為と比較対象医療行為の対応関係を設定した類似度情報を生成する第６のステップと、
前記計算機が、ルール番号と、対象項目と、対応医療行為を含むルール情報を読み込む第７のステップと、
前記計算機が、前記対応医療行為からひとつの要素を選択して前記類似度情報を検索し、前記医療行為と一致し、かつ類似度が所定値以上の比較対象医療行為を選択する第８のステップと、
前記計算機が、前記ルール情報の対象項目と選択された前記比較対象医療行為の組み合わせのうち、前記ルール情報に存在しない組み合わせを新たなルールの候補として出力する第９のステップと、
をさらに含むことを特徴とする分析方法。

【請求項6】

請求項５に記載の分析方法であって、
前記所定値は、
前記ルール番号と前記対象項目が同一である対応医療行為同士の類似度を所定値とすることを特徴とする分析方法。

【請求項7】

プロセッサとメモリを有して、要素間の類似度を分析する分析装置であって、
医療行為の要素を含む医療データを読み込んで、前記医療行為の要素の集合に対して予め設定された第１のキーで前記医療行為の要素を整列し、前記医療データから前記医療行為の要素の集合に対応する第２のキーを取得して、前記整列された前記医療行為の要素の集合に前記第２のキーを組み合わせて学習データを生成するデータ整形部と、
ニューラルネットワークで前記学習データの学習を実施して前記医療行為の要素の分散表現を算出し、前記分散表現に基づいて前記医療行為の要素間の類似度を算出する類似度計算部と、を有し、
前記第１のキーが、前記医療行為を実施した時間情報であり、
前記第２のキーが、傷病名の情報であることを特徴とする分析装置。

【請求項8】

請求項７に記載の分析装置であって、
前記データ整形部は、
前記医療行為の要素の集合の中から選択したひとつの医療行為の要素を第１の学習データとし、前記選択した医療行為の要素の周辺要素を取得して、当該周辺要素に前記第２のキーを追加して第２の学習データを生成することを特徴とする分析装置。

【請求項9】

請求項７に記載の分析装置であって、
前記データ整形部は、
前記傷病名の情報を前記医療行為の要素の集合に組み合わせる際に、
前記傷病名の情報が複数存在する場合には、主傷病に対応する傷病名の情報を選択し、
前記選択した傷病名の情報の時間情報と、前記医療行為の時間情報とを比較して、前記傷病名の情報の時間情報が、前記医療行為の時間情報よりも早いものを選択し、前記傷病名の情報と前記医療行為の要素の集合とを組み合わせて学習データを生成することを特徴とする分析装置。

【請求項10】

請求項７に記載の分析装置であって、
前記データ整形部は、
前記医療行為の要素の集合から、保険点数が所定の閾値以下の医療行為の要素を削除することを特徴とする分析装置。

【請求項11】

請求項７に記載の分析装置であって、
新たなルールの候補を生成するパターン抽出部をさらに有し、
前記類似度計算部は、
前記算出された類似度に基づいて、医療行為と比較対象医療行為の対応関係を設定した類似度情報を生成し、
前記パターン抽出部は、
ルール番号と、対象項目と、対応医療行為を含むルール情報を読み込んで、前記対応医療行為からひとつの要素を選択して前記類似度情報を検索し、前記医療行為と一致し、かつ類似度が所定値以上の比較対象医療行為を選択し、前記ルール情報の対象項目と選択された前記比較対象医療行為の組み合わせのうち、前記ルール情報に存在しない組み合わせを新たなルールの候補として出力することを特徴とする分析装置。

【請求項12】

請求項１１に記載の分析装置であって、
前記所定値は、
前記ルール番号と前記対象項目が同一である対応医療行為同士の類似度を所定値とすることを特徴とする分析装置。

【請求項13】

プロセッサとメモリを有する計算機で、要素間の類似度を分析させるためのプログラムであって、
医療行為の要素を含む医療データを読み込む第１のステップと、
前記医療行為の要素の集合に対して予め設定された第１のキーで前記医療行為の要素を整列する第２のステップと、
前記医療データから前記医療行為の要素の集合に対応する第２のキーを取得して、前記整列された前記医療行為の要素の集合に前記第２のキーを組み合わせて学習データを生成する第３のステップと、
ニューラルネットワークで前記学習データの学習を実施して前記医療行為の要素の分散表現を算出する第４のステップと、
前記分散表現に基づいて前記医療行為の要素間の類似度を算出する第５のステップと、
を前記計算機に実行させ、
前記第１のキーが、前記医療行為を実施した時間情報であり、
前記第２のキーが、傷病名の情報であることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、医療データ分析システム及び医療データを分析する技術に関する。

【背景技術】

【0002】

近年、世界的に医療費の高騰が課題となっており、データヘルスとしてデータに基づく医療の効率化が求められている。本効率化の例としては、社会保険分野における支払基金の支払い請求の審査業務の自動化や、既存のある疾患に有効な治療薬から別の疾患に有効な薬品を見つけ出すドラッグリポジショニングなどが挙げられる。

【0003】

医療データに記載される医療行為は、数千種類〜数万種類の項目が存在し、審査業務自動化のためのルール抽出や、ドラッグリポジショニングなどのデータ分析の際にルールの組合せのパターンが膨大な数となる。そのため、どの医療行為がどういう分類に属するかといった分類情報の構築し、解析対象となるデータのパターンを集約することが重要となる。

【0004】

しかし、医療行為の分類は、解釈によって分類方法が様々であり、人手による医療行為の分類はルールが膨大となるため困難である。そのため、医療データに記載される実際の医療行為のパターンを分析することで、医療行為の分類表の生成を自動化する技術が必要であると考えられる。

【0005】

非特許文献１は、自然言語処理で使用されるｗｏｒｄ２ｖｅｃと呼ばれる手法であり、文章の中の単語同士の類似度を、単語の周辺に出現する単語群から計算する手法である。これを医療データの解析に適用した場合、医療行為同士の類似度を、併記されている傷病名や他の医療行為などから、計算することが可能だと考えられる。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean 著、“Efficient Estimation of Word Representations in Vector Space”、［online］、２０１３年６月１３日、［平成３０年５月１０日検索］、インターネット〈URL：https://gul.gu.se/public/pp/public_courses/course77642/published/1502887098742/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf〉

【発明の概要】

【発明が解決しようとする課題】

【0007】

一方で、レセプトや電子カルテといった実際の医療データは、傷病や医療行為の対応関係などは考慮されず、一様に行番号順に記載されているのみに過ぎない。そのため、非特許文献１を用いて医療行為間の類似度を計算しても、類似度の精度が向上せず、間違った分類を行う可能性がある。

【0008】

そこで本発明は、上記問題点に鑑みてなされたもので、医療データから類似した医療行為の分類情報を自動的に抽出することを目的とする。

【課題を解決するための手段】

【0009】

本発明は、プロセッサとメモリを有する計算機で、要素間の類似度を分析する分析方法であって、前記計算機が、医療行為の要素を含む医療データを読み込む第１のステップと、前記計算機が、前記医療行為の要素の集合に対して予め設定された第１のキーで前記医療行為の要素を整列する第２のステップと、前記計算機が、前記医療データから前記医療行為の要素の集合に対応する第２のキーを取得して、前記整列された前記医療行為の要素の集合に前記第２のキーを組み合わせて学習データを生成する第３のステップと、前記計算機が、ニューラルネットワークで前記学習データの学習を実施して前記医療行為の要素の分散表現を算出する第４のステップと、前記計算機が、前記分散表現に基づいて前記医療行為の要素間の類似度を算出する第５のステップと、を含み、前記第１のキーが、前記医療行為を実施した時間情報であり、前記第２のキーが、傷病名の情報である。

【発明の効果】

【0010】

本発明によれば、医療データから類似した医療行為の分類情報を自動的に抽出することが可能となる。

【図面の簡単な説明】

【0011】

【図1】本発明の実施例を示し、医療データ分析システムの構成の一例を示すブロック図である。

【図2】本発明の実施例を示し、レセプト共通情報の一例を示す図である。

【図3】本発明の実施例を示し、傷病名情報の一例を示す図である。

【図4】本発明の実施例を示し、診療行為情報の一例を示す図である。

【図5】本発明の実施例を示し、医薬品情報の一例を示す図である。

【図6】本発明の実施例を示し、特定器材情報の一例を示す図である。

【図7】本発明の実施例を示し、整形処理の一例を示す図である。

【図8】本発明の実施例を示し、類似度計算処理の一例を示す図である。

【図9A】本発明の実施例を示し、類似度計算部で行われる学習の一例を示す図である。

【図9B】本発明の実施例を示し、分散表現の一例を示す図である。

【図10】本発明の実施例を示し、医療行為分類化処理の一例を示すフローチャートである。

【図11】本発明の実施例を示し、ＧＵＩの一例を示す図である。

【図12】本発明の実施例を示し、新規ルール抽出処理の一例を示すフローチャートである。

【図13】本発明の実施例を示し、ルール情報の一例を示す図である。

【図14】本発明の実施例を示し、類似度情報の一例を示す図である。

【発明を実施するための形態】

【0012】

以下、本発明の実施形態を添付図面に基づいて説明する。

【0013】

本実施例では、医療データ（例えば、レセプト情報、電子カルテ情報）に記載される医療行為について、医療行為間の類似度を、その医療行為の周辺に併記される他の医療行為及び傷病名から計算し、類似した医療行為をグループとして抽出する例を示す。類似した医療行為をグループ化することで、医療行為の出現パターンを集約してモデル化を容易にしたり、審査自動化のルールを簡易化することが可能となる。

【0014】

＜システム全体の構成＞
本発明の実施例における医療データ分析システムの構成の一例を図１に示す。医療データ分析システムは、医療データ分析装置１０と、データベース２０とで構成される。医療データ分析装置１０は、演算装置１１と、メモリ１２と、出力部１３と、入力部１４と、記憶装置１５から構成される。なお、データベース２０は、医療データ分析装置１０からアクセス可能であればよく、外部の計算機がデータベースを提供する構成でも良い。

【0015】

入力部１４は、マウスや、キーボードまたはタッチパネルなどのユーザインターフェースであり、医療データ分析装置１０への入力を受け付ける。出力部１３は、医療データ分析装置１０による演算結果を出力するディスプレイやプリンタを指す。

【0016】

記憶装置１５は、磁気ディスクドライブや不揮発性メモリなどの不揮発性記憶装置を指し、本発明を実現する各種プログラムと、プログラムの実行結果を保持する。メモリ１２には、記憶装置１５に格納されたプログラムが展開される。演算装置１１は、ＣＰＵあるいはＧＰＵなどのプロセッサを指し、メモリ１２上に展開されたプログラムを実行する。

【0017】

本実施例では、記憶装置１５にデータ整形部１１０と、類似度計算部１２０と、可視化部１３０と、パターン抽出部１５０がプログラムとして格納される例を示す。

【0018】

データベース２０は、医療情報格納部２１０と、整形情報格納部２２０と、分類情報格納部２３０と、分散表現格納部２４０と、ルール情報格納部２５０とを有している。医療情報格納部２１０は、入力部１４から入力された医療データを格納する。

【0019】

医療データは、レセプト情報及び電子カルテ情報を含む。レセプト情報は、レセプト共通情報３１０と、傷病名情報３２０と、診療行為情報３３０と、医薬品情報３４０、及び特定器材情報３５０を含む。なお、レセプト情報は、上記以外にも入院または外来、保険点数、症状詳記、コメントなどの情報も含むが、本実施例の説明には不要のため、記載を省略する。

【0020】

整形情報格納部２２０と、分散表現格納部２４０と、分類情報格納部２３０と、ルール情報格納部２５０は、本発明の各プログラムが生成する情報を格納する。整形情報格納部２２０は、レセプトの整形情報４１０を格納する。分散表現格納部２４０は、分散表現４２０を格納する。分類情報格納部２３０は、分類情報４３０及び類似度情報３０００を格納する。ルール情報格納部２５０は、ルール情報２０００を格納する。

【0021】

データベース２０に保持されている情報は、必ずしもデータベース２０上で保持される必要はなく、医療データ分析装置１０の記憶装置１５に保持してもよい。

【0022】

ＣＰＵ等を含む演算装置１１は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、演算装置１１は、データ整形プログラムに従って処理することでデータ整形部１１０として機能する。他のプログラムについても同様である。さらに、演算装置１１は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

【0023】

また、類似度計算部１２０は、類似度計算プログラムとニューラルネットワーク１２５を含む。なお、本実施例では、ニューラルネットワーク１２５をソフトウェアで実装する例を示すが、これに限定されるものではない。例えば、ＧＰＵ（Graphics Processing Unit）やＦＰＧＡ（Field Programmable Gate Array ）等のハードウェアでニューラルネットワーク１２５を実現しても良い。

【0024】

医療データ分析装置１０の各機能を実現するプログラム、テーブル等の情報は、記憶装置１５や不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶デバイス、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

【0025】

医療データ分析装置１０で行われる処理の概要は、まず、データ整形部１１０が、医療データを入力として、整形情報４１０を生成する。次に、整形情報４１０と傷病名情報３２０から学習データを生成し、ニューラルネットワーク１２５を用いて学習し、分散表現４２０を生成し、医療行為間の類似度を計算して類似度情報３０００及び分類情報４３０を生成する。

【0026】

パターン抽出部１５０は、類似度情報３０００に基づいて、医療行為のパターンから新規のルールの候補を抽出する。可視化部１３０は、医療データ分析装置１０で算出された情報を出力部１３に出力する。

【0027】

以下、各種情報、及び各部について詳細を説明する。

【0028】

＜医療データ（レセプト情報）＞
図２は、レセプト共通情報３１０の構成の一例を示す図である。レセプト共通情報３１０は、患者の情報やレセプト種別といったレセプトの基本情報を保持する。レセプト共通情報３１０は、検索番号１００１と、行番号１００２と、患者氏名１００３と、性別１００５と、年齢１００４と、診療年月１００６を構成項目として含んでいる。

【0029】

検索番号１００１には、レセプトを一意に識別するための識別子が格納される。行番号１００２は、当該情報がレセプトに記載される行番号である。性別１００５及び年齢１００４は、当該加入者の性別及び年齢である。診療年月１００６には、加入者が医療機関を受診した年及び月が格納される。

【0030】

図３は、傷病名情報３２０の構成の一例を示す図である。傷病名情報３２０は、検索番号１００１と、行番号１００２と、傷病名コード１１０１と、傷病名１１０２と、主傷病１１０３と、診療開始日１１０４を構成項目として含んでいる。

【0031】

検索番号１００１は、レセプトを一意に識別するための識別子が格納され、レセプト共通情報３１０の検索番号１００１（図２）と同じ番号を用いる。行番号１００２は当該情報がレセプトに記載される行番号であり、レセプト共通情報３１０の行番号１００２と同様である。

【0032】

傷病名コード１１０１は、レセプトに記載される傷病名コードである。傷病名１１０２は、当該傷病名コード１１０１に対応する傷病の名称である。主傷病１１０３は、当該傷病名が当該レセプトにおいて主傷病である場合は「１」が設定され、そうでない場合は「０」が設定されるフラグ情報である。診療開始日１１０４は当該傷病に対する診療を開始した日付である。なお、一件のレセプトには、複数の傷病名が記載可能である。

【0033】

図４は、診療行為情報３３０の構成の一例を示す図である。診療行為情報３３０は、検索番号１００１と、行番号１００２と、診療行為コード１２０１と、診療行為名１２０２と、点数１２０３と、算定日情報１２０４とを構成項目として含んでいる。

【0034】

検索番号１００１は、レセプトを一意に識別するための識別子であり、レセプト基本情報の検索番号１００１（図２）と同じ番号を用いる。行番号１００２は当該情報がレセプトに記載される行番号であり、レセプト共通情報３１０の行番号１００２と同様である。

【0035】

診療行為コード１２０１は、レセプトに記載された診療行為を識別するための識別子である。点数１２０３は、当該診療行為の保険点数である。診療行為名１２２は、当該診療行為コード１２０１に対応する診療行為の名称である。算定日情報１２０４は、診療行為を実施した日にちである。なお、１件のレセプトには、複数の診療行為名が記載可能である。

【0036】

図５は、医薬品情報３４０の構成の一例を示す図である。医薬品情報３４０は、検索番号１００１と、行番号１００２と、医薬品コード１３０１と、医薬品名１３０２と、点数１３０３と、算定日情報１３０４とを構成項目として含んでいる。

【0037】

【0038】

医薬品コード１３０１は、レセプトに記載された医薬品を識別するための医薬品コードである。医薬品名１３０２は、当該医薬品コードに対応する医薬品の名称である。点数１３０３は、当該医薬品の保険点数である。算定日情報１３０４は医薬品を投与した日にちである。なお、１件のレセプトには、複数の医薬品名が記載可能である。

【0039】

図６は、特定器材情報３５０の構成の一例を示す図である。特定器材情報３５０は、検索番号１００１と、行番号１００２と、特定器材コード１４０１と、特定器材名１４０２と、点数１４０３と、算定日情報１４０４、１４０５を構成項目として含んでいる。

【0040】

【0041】

特定器材コード１４０１は、レセプトに記載された特定器材を識別するための特定器材コードである。特定器材名１４０２は、当該特定器材コードに対応する特定器材の名称である。点数１４０３は、当該特定器材の保険点数である。算定日情報１４０４、１４０５は特定器材を使用した日にちである。なお、１件のレセプトには、複数の特定器材名が記載可能である。

【0042】

また、本発明の実施例では、医療データとしてレセプト情報を例に説明をするが、例えば電子カルテのような情報にも本発明は適用可能である。

【0043】

＜データ整形処理の詳細＞
次に、データ整形部１１０で行われる処理について説明する。データ整形部１１０は、医療情報格納部２１０に記憶されている医療データからレセプト情報を集計及び統合し、医療行為をレセプト単位で時系列順に整列した形式に整形し、整形情報４１０を出力する。

【0044】

図７は、整形情報４１０の構成例を示す図である。図７を用いて、データ整形部１１０の処理を説明する。

【0045】

データ整形部１１０は検索番号１００１を集計のキーとして、傷病名情報３２０と、診療行為情報３３０と、医薬品情報３４０から、検索番号１００１毎の診療行為コード１２０１と、医薬品コード１３０１と、特定器材コード１４０１と、それぞれの算定日情報１２０４、１３０４、１４０４を取得する。

【0046】

なお、本実施例では、診療行為コード１２０１と、医薬品コード１３０１と、特定器材コード１４０１は医療行為の要素とする。

【0047】

データ整形部１１０は、取得した算定日情報１２０４、１２０５、１３０４、１３０５、１４０４、１４０５を元に、診療行為コード１２０１と、医薬品コード１３０１及び特定器材コード１４０１を時系列（第１のキー）順に整列し、時系列順医療行為情報１５０１として保持する。また、時系列順医療行為情報１５０１と対応した算定日情報を、算定日情報１５０２として保持する。データ整形部１１０は、上記処理によって整形情報４１０を生成する。

【0048】

なお、医療行為を時系列順に整列する際に、保険点数が閾値以下の医療行為は削除してもよい。審査業務の観点では、保険点数の小さい医療行為は査定対象になる割合が少なく影響が小さいため、点数の小さい医療行為を削除することで、医療行為間の類似度の精度を向上させられる可能性がある。また、検索番号１００１毎の時系列順医療行為情報１５０１は、医療行為の要素の集合である。

【0049】

＜類似度計算処理詳細＞
次に、類似度計算部１２０の処理の詳細について説明する。類似度計算部１２０は、整形情報４１０と傷病名情報３２０とを組み合わせて学習データを生成し、医療行為間の類似度を計算する。

【0050】

図８を用いて、類似度計算部１２０が整形情報４１０及び傷病名情報３２０を組み合わせて、学習データを生成する処理について説明する。

【0051】

類似度計算部１２０は、まず整形情報４１０から検索番号１００１をキーとしてレセプトを１つ選択し、選択したレセプトの時系列順医療行為情報１５０１を取得する。時系列順医療行為情報１５０１の先頭の医療行為を第１の学習データ５１０として選択し、選択した医療行為の周辺の医療行為をウインドウサイズ分取得する。

【0052】

図８は、ウインドウサイズを「１」として、類似度計算部１２０がウインドウサイズを考慮したうえでＩＹ００１を第１の学習データ５１０（要素）として選択し、その前後幅１の範囲であるＳＩ００１とＳＩ００２を、周辺の医療行為（周辺要素）として取得している。

【0053】

次に、類似度計算部１２０は、傷病名情報３２０から検索キーが一致する傷病名コード１１０１を取得する。取得した傷病名コード１１０１の中から、診療開始日が第１の学習データ５１０の医療行為の算定日よりも早い傷病名コード１１０１のみを取得する。類似度計算部１２０は、取得した傷病名コード１１０１と、周辺の医療行為を組み合わせて第２の学習データ５２０を生成する。

【0054】

類似度計算部１２０は、先頭の医療行為について第１と第２の学習データ５１０、５２０の組合せを生成した後、時系列順医療行為情報１５０１に含まれる次の医療行為を選択して図８に示したウインドウをずらし、再度第１と第２の学習データ５１０、５２０の組合せを生成する。これを時系列順医療行為情報１５０１の末尾まで繰り返したあと、整形情報４１０の次のレセプトを選択し、同様の処理を繰り返す。

【0055】

上記の処理によって、整形情報４１０から第１の学習データ５１０と第２の学習データ５２０の組合せによって学習データが生成される。

【0056】

なお、類似度計算部１２０は、傷病名コード１１０１と周辺の医療行為を組み合わせる際、複数の傷病名コード１１０１の中から、主傷病１１０３である傷病名コード１１０１を１つのみ選択してもよい。最も影響の大きい傷病名に対象を絞ることで、医療行為間の類似度の計算の精度を向上させられる可能性がある。

【0057】

次に、図９Ａを用いて、類似度計算部１２０が図８で生成した学習データを使用して、医療行為間の類似度を計算する処理を説明する。

【0058】

類似度計算部１２０は、図８にて生成した第１と第２の学習データ５１０、５２０のペアをニューラルネットワーク１２５の入出力とした学習を行い、医療行為を数値化したベクトル情報の行列を生成する。

【0059】

類似度計算部１２０が使用するニューラルネットワーク１２５の構造の例を、図９Ａに示す。本実施例の類似度計算部１２０が用いるニューラルネットワーク１２５の構成は入力層、隠れ層、出力層からなり、隠れ層は１つのみとする。

【0060】

入力層はｏｎｅ−ｈｏｔベクトルと呼ばれる形式をとり、時系列順医療行為情報１５０１の有無を０か１の数値で表現したスカラ値からなるベクトルであり、１つのｏｎｅ−ｈｏｔベクトルでは、１となる値は１つのみしか存在しない。

【0061】

隠れ層は、図９Ｂに示す分散表現４２０の重み行列を保持する。分散表現４２０は、医療行為４２１と、重み行列４２２で構成される。重み行列４２２の一行は一つの医療行為を数値化したベクトル情報を表す。この重み行列４２２は、自然言語処理の分野において単語分散表現や、単語埋め込みとも呼ばれる。以降、本発明の説明において、学習により生成した隠れ層の重み行列４２２のことを分散表現と呼称する。

【0062】

出力層は、一列が一つの医療行為を数値化したベクトル情報を保持する。類似度計算部１２０は、第１の学習データ５１０を入力とし、第２の学習データ５２０を出力として隠れ層の重み行列４２２を学習することで、医療行為の分散表現４２０を生成する。

【0063】

そして、類似度計算部１２０は、生成した医療行為の分散表現４２０を使用することで、医療行為同士の類似度を計算することが可能となる。なお、図９Ａの説明ではニューラルネットワークの構造をｓｋｉｐ−ｇｒａｍと呼ばれるモデルに基づいて説明したが、これに限定されるものではない。例えば、ＣＢＯＷ（ＣｏｕｎｔｉｎｕｏｕｓＢａｇ−ｏｆ−Ｗｏｒｄｓ）と呼ばれる入出力を逆とした構造で学習を行ってもかまわない。

【0064】

類似度計算部１２０は、生成した医療行為の分散表現４２０に対してｃｏｓ類似度などを計算することで、医療行為間の類似度の算出及びグループ化を行う。

【0065】

＜医療行為分類化処理＞
上記の各部の説明を踏まえたうえで、図１０を用いて、医療データ分析システム全体としての医療行為分類化処理のフローチャートを説明する。

【0066】

まず、ステップＳ００１において、医療データ分析装置１０は、分類の対象とするレセプトを絞り込む条件として、傷病名コードや医療機関名、入院または外来、解析期間とする年月などを、入力部１４から受け付ける。医療データ分析装置１０を利用するユーザは上記以外にも、レセプトに記載される一般的な項目のいずれについても条件として指定してもよい。条件を指定しない場合、医療データ分析装置１０は、データベース２０に格納される全てのレセプト情報を対象として以降の処理を実施する。

【0067】

次に、ステップＳ００２において、医療データ分析装置１０のデータ整形部１１０は、データベース２０の医療情報格納部２１０から分類対象とするレセプト情報を取得し、レセプト情報の医療行為を時系列順の形式に整形した整形情報４１０を生成する。ここで生成された整形情報４１０は、データベース２０もしくは記憶装置１５に中間データとして格納してもよいし、メモリ１２上に保持してもよい。

【0068】

次に、ステップＳ００３にて、類似度計算部１２０は、対象とするレセプト情報の中から１つのレセプトと、当該レセプトの検索番号１００１を選択する。

【0069】

次に、ステップＳ００４にて、類似度計算部１２０は、上記選択した検索番号１００１をキーとして、整形情報４１０及び傷病名情報３２０を取得する。そして、類似度計算部１２０は、整形情報４１０に含まれる時系列順医療行為情報１５０１から、先頭の医療行為を選択する。

【0070】

次に、ステップＳ００５にて、類似度計算部１２０は、選択した先頭の医療行為を第１の学習データ５１０とし、その周辺の医療行為と傷病名コード１１０１を組み合わせた第２の学習データ５２０を生成する。

【0071】

次に、ステップＳ００６にて、類似度計算部１２０は、時系列順医療行為１５０１の末尾まで処理を実施したかを判定する。もし末尾まで処理していない場合、ステップＳ００４に戻り、時系列順医療行為情報１５０１から次の医療行為を選択し、ステップＳ００４〜Ｓ００６の処理を繰り返す。末尾まで処理している場合は、ステップＳ００７に進む。

【0072】

次に、ステップＳ００７にて、類似度計算部１２０は、対象となる全てのレセプトに対して処理を実施したか否かを判定する。もし全てのレセプトを処理していない場合、ステップＳ００３に戻り、次のレセプトを選択して、ステップＳ００３〜Ｓ００７の処理を繰り返す。全てのレセプトを処理している場合、ステップＳ００８に進む。

【0073】

次に、ステップＳ００８にて、類似度計算部１２０は、上記生成された第１と第２の学習データ５１０、５２０の組合せを使用して、ニューラルネットワーク１２５による学習を実施し、医療行為の分散表現４２０を生成する。

【0074】

次に、類似度計算部１２０は、ステップＳ００９にて、生成した医療行為の分散表現４２０を用いて、全ての医療行為に対して類似度の計算を実施して、図１４に示す類似度情報３０００を生成する。

【0075】

類似度情報３０００は、図１４で示すように医療行為３００１と、比較対象医療行為３００２と、類似度３００３からひとつのエントリが構成される。類似度３００３は「−１」から「１」の間の値をとり、値が「１」に近いほうが、医療行為３００１と比較対象医療行為３００２間の類似度が高いことを表す。

【0076】

さらに、類似度情報３０００の中から、類似度が閾値以上の医療行為群（医療行為３００１と比較対象医療行為３００２）を同一のグループとして分類した、図１１に示す分類情報４３０を生成する。

【0077】

上記処理によって、医療データ分析装置１０は、レセプト情報を含む医療データを入力として、第１の学習データ５１０と第２の学習データ５２０を生成してニューラルネットワーク１２５で学習を実施する。そして、医療データ分析装置１０の類似度計算部１２０は、学習結果から医療行為の分散表現４２０を生成し、さらに分散表現４２０から類似度情報３０００を生成する。そして、類似度計算部１２０は類似度に基づいて医療行為同士を分類した分類情報４３０を生成することができる。

【0078】

＜分類情報の利用例＞
生成した分類情報４３０は、例えば、レセプトや審査自動化のルールに記載される医療行為を集約することで、データ分析のモデルを単純化したり、ルールの集約を行うことが可能となる。

【0079】

また、生成した分類情報４３０から、既存の医薬品の新しい使われ方を発見するなど、ドラッグリポジショニングなどの新規医療知識の抽出にも利用できる可能性が考えられる。

【0080】

新規医療知識を抽出する例として、例えば、医療データ分析装置１０の記憶装置１５に新規分類抽出部（図示省略）と、データベース２０に既知分類情報を追加で保持してもよい。既知分類情報は、ユーザが薬効分類などの医療知識に基づいた分類情報を入力部１４から設定してもよいし、過去に類似度計算部１２０が生成した分類情報でもよい。

【0081】

新規分類抽出部は、類似度計算部１２０が生成した分類情報と、既知分類情報との比較を行い、分類情報４３０分類情報４３０の中に、既知分類情報には含まれない分類が存在するか否かを検知し、該当する分類情報を新規分類情報として出力する。

【0082】

＜類似度情報を用いた新規審査ルール候補生成の例＞
以上述べた、類似度情報３０００および分類情報４３０を用いて、新規に審査ルールの候補を抽出する手順の例について図１２のフローチャートを用いて説明する。

【0083】

まず、ステップＳ１０１において、医療データ分析装置１０は医療行為分類化処理を実施し、類似度情報３０００を取得する。なお、医療行為分類化処理は、図１０に示した処理と同じ処理である。

【0084】

次に、医療データ分析装置１０のパターン抽出部１５０はステップＳ１０２において、図１３に示すルール情報２０００からルール番号を選択し、該当するエントリの対象項目と対応医療行為を全て取得する。なお、ルール情報２０００は予め審査のルールが設定されたテーブルである。

【0085】

図１３においてルール情報２０００は、ルール番号２００１と、対象項目２００２と、対応医療行為２００３と、審査結果２００４からひとつのエントリが構成される。対象項目２００２には、傷病名あるいは医療行為が記載される。対応医療行為２００３には、医療行為（診療行為コード１２０１や医薬品コード１３０１または特定器材コード１４０１）が記載される。審査結果２００４には、「適応」、「適応外」、「背反」、「禁忌」といった審査結果の情報が記載される。

【0086】

レセプトに記載される項目の中に、対象項目２００２と対応医療行為２００３の組合せが含まれる場合、該当する組合せは審査結果２００４に記載の通りに判定される。なお、ルール情報２０００はあらかじめユーザが入力部１４を介して入力または生成しておいたものとする。

【0087】

さらに、ルール情報２０００には、本フローチャートで抽出した新規ルールの候補を、ユーザが類似度情報３０００などから妥当性を判定した上で、入力部１４より追加で登録することが可能である。また、ルール情報２０００の１つのルール番号２００１につき、１つの対象項目２００２と、審査の観点で同じ効能または効果かつ同じ審査結果２００４となる１つ以上の対応医療行為２００３がまとまっているものとする。

【0088】

次に、ステップＳ１０３において、パターン抽出部１５０は、上記ステップＳ１０２で取得した対応医療行為２００３の中から１つを検索キーとして選択する。パターン抽出部１５０は、ステップＳ１０１で生成した類似度情報３０００の中から医療行為３００１が検索キーと一致するエントリを検索し、一致するエントリの中から、類似度３００３が閾値以上となる比較対象医療行為３００２を取得する。

【0089】

類似度３００３の閾値は、例えば、ステップＳ１０３で取得した比較対象医療行為３００２のうち、ステップＳ１０２で選択した対応医療行為２００３に含まれ、かつ最も類似度が小さい比較対象医療行為３００２の類似度３００３を閾値として設定してよい。これは、ステップＳ１０２で選択した対応医療行為２００３は、同じ効能または効果を有するため、これを基準として類似度の閾値を設定することで、類似した医療行為を抽出できるためである。また、類似度３００３の閾値は、ステップＳ１０３で検索の結果一致した医療行為３００１に対応する先発医薬品もしくは後発医薬品がある場合は、医療行為３００１と対応する先発医薬品もしくは後発医薬品の間の類似度を閾値として設定してもよい。

【0090】

また、類似度３００３の閾値はユーザが入力部１４を介して固定値を設定してもよく、閾値の代わりに、類似度３００３が高い順に上位Ｎ個（Ｎはユーザが指定可）の比較対象医療行為３００２を取得してもよい。

【0091】

次に、ステップＳ１０４において、パターン抽出部１５０は、ステップＳ１０２で取得した対象項目２００２と、ステップＳ１０３で取得した比較対象医療行為３００２の組合せのうち、ルール情報２０００に存在しないものを新規ルールの候補として抽出する。

【0092】

次に、ステップＳ１０５において、パターン抽出部１５０は、全ての対応医療行為２００３を処理したか否かを判定し、処理し終わっていない場合はステップＳ１０３に戻り上記処理を繰り返す。一方、処理し終わった場合はステップＳ１０６へと進む。

【0093】

次に、ステップＳ１０６において、パターン抽出部１５０は、全てのルール番号２００１を選択し終えたか否かを判定し、選択していない場合はステップＳ１０２に戻り、上記処理を繰り返す。一方、処理が終わっている場合、パターン抽出部１５０は、抽出した新規ルールの候補全てを出力し、新規ルール抽出処理を終了する。医療データ分析装置１０のユーザは、出力された新規ルールの候補のうち、全てあるいは一部を選択し、新規ルールをルール情報２０００に登録する。

【0094】

図１２のフローチャートでは、ユーザが設定した既存のルール情報と、分散表現により生成した医療行為の類似度の情報をもとに、新規のルール候補を抽出する例を示した。この他の新規ルール候補抽出の例を以下に示す。

【0095】

例の１つとして、まず、医療データ分析装置１０がレセプトに既存のルール情報２０００を適用して、いずれのルールにも該当しないような医療行為を抽出する。次に、パターン抽出部１５０は、抽出した医療行為を検索キーとして、類似度情報３０００から類似度の高い比較対象医療行為３００２を取得する。ここで、類似度の高い医療行為とは、前述と同様に、類似度が高い順に上位Ｎ個でもよいし、閾値以上の類似度を有する比較対象医療行為でもよい。

【0096】

次に、パターン抽出部１５０は、取得した比較対象医療行為３００２を対応医療行為２００３として含むエントリを、ルール情報２０００から取得する。次に、パターン抽出部１５０は、取得したエントリの対象項目２００２と、いずれのルールにも該当しなかった医療行為の組合せを生成し、これを新規ルールの候補として出力する。

【0097】

以上により、いずれのルールにも該当していない医療行為を検出してルールに組み込み、審査ルールを拡充することが可能となる。

【0098】

その他の例として、医療データ分析装置１０は、レセプトに記載された項目を、図１１の分類情報４３０で集約したものを入力データとし、該当レセプトの審査結果の情報を教師ラベルとした上で、決定木やアソシエーション分析といったパターンマッチングを用いて、レセプトの記載項目のパターンを審査ルールの候補として抽出してもよい。

【0099】

＜可視化処理＞
図１１を用いて、可視化部１３０の処理について説明する。可視化部１３０は、類似度計算部１２０が生成した分類情報４３０や、医療行為の分散表現４２０に基づいた医療行為間の距離情報の可視化を行う。図１１は、類似度のグラフと統計情報４４０と分類情報４３０を含む画面１３００の一例を示す。

【0100】

図１１の画面１３００では、医療行為の分散表現４２０に基づいて医療行為間の類似度を二次元の散布図で表示したグラフ１３１０や、分類情報４３０が保持する医療行為をグループ化した表形式の情報が表示される。図１１に示すグラフ１３１０は主成分分析により分散表現から作成した特徴量1及び特徴量２をグラフの軸として、医療行為間の類似度の距離を表現している。その他にも、レセプトのデータ数や医療行為数の平均、最小、最大などの基本的な統計情報４４０や、ユーザが設定するウインドウサイズ１３２０や、グループ化の閾値１３３０、グループ名の入力欄１３４０が表示される。

【0101】

＜まとめ＞
以上のように、本実施例の医療データ分析装置１０では、データ整形部１１０が医療データからレセプト情報を取得して、レセプト情報の検索番号１００１毎に医療行為の要素を時系列順（第１のキー）で集計した整形情報４１０を生成する。なお、医療行為の要素は、例えば、診療行為コード１２０１や医薬品コード１３０１または特定器材コード１４０１を含む。

【0102】

次に、類似度計算部１２０は、整形情報４１０の時系列順医療行為情報１５０１からひとつの要素を選択して第１の学習データ５１０とする。類似度計算部１２０は、整形情報４１０の時系列順医療行為情報１５０１から周辺要素を選択し、当該整形情報４１０のエントリに対応する傷病名コード１１０１（第２のキー）を取得して、当該傷病名コード１１０１を周辺要素に加えた情報を第２の学習データ５２０とする。

【0103】

類似度計算部１２０は、ニューラルネットワーク１２５で第１の学習データ５１０入力と、第２の学習データ５２０を出力として学習を実行して、分散表現４２０を算出する。そして、類似度計算部１２０は、分散表現４２０に基づいて類似度情報３０００を算出し、類似度に基づいて時系列順医療行為情報１５０１の要素（医療行為）をグループとして分類した分類情報４３０を生成する。

【0104】

以上により、医療行為間の類似度を精度良く算出して、医療データから類似した医療行為（の要素）の分類情報４３０を自動的に抽出することが可能となる。

【0105】

また、類似度計算部１２０は、傷病名コード１１０１が複数ある場合には、主傷病である傷病名の中から１つを選択することで、医療行為間の類似度の算出精度を確保することができる。なお、時系列順医療行為情報１５０１の要素のうち、保険点数が閾値以下の医療行為は学習データセットから削除してもよい。これにより、査定対象になる割合が少なく影響が小さい医療行為を除外することで、医療行為間の類似度の精度を向上させることができる。

【0106】

また、本実施例の医療データ分析装置１０では、審査のルールが予め設定されたルール情報２０００の候補を生成することができる。ルール情報２０００は、医療行為の要素や傷病名の情報を含む対象項目２００２と、対象項目２００２に関連する医療行為に関する対応医療行為２００３と、対象項目２００２と対応医療行為２００３に関する審査結果２００４から構成される。

【0107】

類似度計算部１２０は、対応医療行為２００３をひとつ選択して類似度情報３０００の医療行為３００１と一致するエントリから類似度が所定値以上の比較対象医療行為３００２を選択する。ルール情報２０００の対象項目２００２と選択された比較対象医療行為３００２の組み合わせのうち、ルール情報２０００に存在しない組み合わせを新たなルールの候補として出力する。

【0108】

これにより、医療データを追加または更新したときに、新たなルールの候補を自動的に検出することができる。

【0109】

また、類似度計算部１２０は、類似度情報３０００を用いてレセプトに記載された要素を集約した入力データと、レセプトの審査結果である教師データをパターンマッチング（決定木もしくはアソシエーション分析）に入力し、審査ルールとしてパターン（ルール）情報を出力し、レセプトに記載された要素を集約する際に、同一グループの要素の類似度以上の要素同士を集約し、同一グループで集約された要素は同一の効能を持つ医療行為の要素の集合である。

【0110】

なお、本発明の実施形態は、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。

【0111】

上記の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、ＤＢ、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「ＤＢ」、「キュー」等について単に「情報」と呼ぶことがある。

【0112】

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。

【0113】

また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

【0114】

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

【符号の説明】

【0115】

１０医療データ分析装置
２０データベース
２１０医療情報格納部
２２０整形情報格納部
２３０分類情報格納部
２４０分散表現格納部
１１０データ整形部
１２０類似度計算部
１３０可視化部
１４０パターン抽出部
３１０レセプト共通情報
３２０傷病名情報
３３０診療行為情報
３４０医薬品情報
３５０特定器材情報
４１０整形情報
４２０分散表現
４３０分類情報４３０
５１０第１の学習データ
５２０第２の学習データ

【図1】