【文献】
和田貴久 他,部分構造に基づく構造類似性を用いた特徴抽出システムとその応用,Journal of the DBSJ,日本データベース学会,2008年 6月27日,Vol.7,No.1,p.187−192
【文献】
福田遼平 他,時系列上の階層関係に注目した特徴抽出手法の検討,電子情報通信学会 第18回データ工学ワークショップ論文集[online]DEWS2007 HIROSHIMA,2007年 6月 1日,Internet<URL:http://www.ieice.org/iss/de/DEWS/DEWS2007/pdf/e9-2.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0012】
(データ構造抽出装置の構成)
図1は、本発明の実施の形態に係るデータ構造抽出装置の構成の一例を示す図である。
【0013】
データ構造抽出装置1は、CPU等から構成され各部を制御するとともに各種のプログラムを実行する制御部10と、HDD(Hard Disk Drive)やフラッシュメモリ等の記憶媒体から構成され情報を記憶する記憶部11とを備え、例えば、患者臨床情報及び診療行為の電子データの解析に用いられる。
【0014】
制御部10は、後述するデータ構造抽出プログラム110を実行することで、パターン抽出手段100、サポートベクトル生成手段101、サポートベクトル分類手段102、共通サポート計算手段103、閾値設定手段104、パターン再抽出手段105、出力判断手段106及び出力手段107等として機能する。
【0015】
パターン抽出手段100は、抽出手段の一例であり、解析対象である電子データとして記憶部11から後述するDPCデータ111に含まれる複数の比較対象のデータ(以下、「サポート」という。)からデータ構造の一例として、対象として患者名を根ノードとした見本のツリー構造(以下、「パターン」という。)を複数取得する。ここで、パターンとは、パターン抽出技法を用いて、ツリー構造を有する複数のデータに予め定めた頻度(第1の閾値)で出現する共通のツリー構造として抽出されるもののことをいう。
【0016】
なお、パターン抽出手段100は、周知のパターン抽出技法を用いることで、複数のサポート間で後述するEファイル及びFファイルが共通したものをパターンとして抽出する。周知のパターン抽出技法として、例えば、シーケンシャル・パターン・マイニングのPrefix Span、BIDE、CloSpan等又はサブツリーマイニング等を用いることができる。
【0017】
サポートベクトル生成手段101は、パターン抽出手段100が抽出したパターン毎にサポートの集合をベクトル化し、後述するサポートベクトルを生成する。
【0018】
サポートベクトル分類手段102は、サポートベクトル生成手段101が生成したサポートベクトル間の相関係数を計算し、この相関関数に基づいてサポートベクトルを複数のグループに分類する。
【0019】
共通サポート計算手段103は、サポートベクトル分類手段102が分類したグループに属するパターン間に共通するサポートの数を計算する。
【0020】
閾値設定手段104は、同じサポートベクトルのグループに属するパターン間に共通するサポートの集合が存在し、パターンのそれぞれに共通するサポート以外の他のサポートが存在する場合、共通するサポートの集合に含まれるサポートの数を第2の閾値として設定する。
【0021】
パターン再抽出手段105は、抽出手段の他の一例であり、閾値設定手段104が設定した第2の閾値に基づいてパターン抽出手段100が抽出しなかったパターンを抽出する。なお、パターン再抽出手段105を用いる代わりにパターン抽出手段100により第2の閾値に基づいてパターンを抽出するものであってもよい。
【0022】
出力判断手段106は、同じサポートベクトルのグループに属するパターン間に共通するサポートの集合が存在し、一方のパターンに共通するサポート以外の他のサポートが存在する場合、当該一方のパターンを出力しないと判断する。
【0023】
出力手段107は、パターン抽出手段100が抽出したパターンから出力判断手段106が出力しないと判断したパターンを削除し、パターン再抽出手段が抽出したパターンを加えて、パターン抽出結果として出力する。
【0024】
記憶部11は、制御部10を上述した各手段として動作させるデータ構造抽出プログラム110、DPCデータ111及び閾値情報112等を記憶する。
【0025】
DPCデータ111は、分析可能な全国統一形式の患者臨床情報及び診療行為の電子データセットである。患者臨床情報は、例えば、患者基本情報、病名、術式、各種のスコア・ステージ分類等であり、診療行為情報は、診療行為、医薬品、医療材料、実施日、回数・数量、診療科、病棟、保険種別等である。
【0026】
また、DPCデータ111は、基本となるデータとして様式1、Eファイル及びFファイルと呼ばれるデータを有する。様式1とは、患者の臨床情報、傷病名、術式、補助治療等である。Eファイルとは、実施日、回数、診療科、病棟、オーダ医師等の情報である。Fファイルとは、Eファイルの詳細な内容であり、例えば、行為、薬剤、材料、数量等の情報である。
【0027】
本実施の形態では、患者を根ノードとし、その患者に属する日時データ及びEファイルを内部ノード、Eファイルに属するFファイルを葉ノードとして構成されるツリー構造をサポートとし、複数のサポートに予め定めた頻度以上で現れるサポートのデータ構造をパターンとして取得して、取得されたパターン間で類似度を算出し、算出された類似度に基づいて複数のパターンの集合を抽出する。
【0028】
閾値情報112は、パターン抽出手段100が用いる予め定められた第1の閾値と、閾値設定手段104が設定した第2の閾値とを格納する。
【0029】
図2は、パターン抽出手段100のパターンの取得元となるDPCデータ111のサポートの構成の一例を示す概略図である。
【0030】
DPCデータ111から取得される複数のサポート200a、200b…は、患者に属する日時データ22と、日時データ22に属するEファイル21と、Eファイル21に属するFファイルとを有し、ツリー構造を構成する。
【0031】
図3は、DPCデータ111から抽出されるパターンの構成の一例を示す概略図である。
【0032】
DPCデータ111から抽出されるパターン2a及びパターン2bは、患者に属する日時データ22と、日時データ22に属するEファイル21と、Eファイル21に属するFファイルとを有し、ツリー構造を構成する。
【0033】
(データ構造抽出装置の動作)
以下に、データ構造抽出装置の動作例を各図を参照しつつ、(1)パターン抽出動作、(2)サポート分類動作、(3)パターン出力動作に分けて説明する。
【0034】
図9は、データ構造抽出装置の動作例を示すフローチャートである。
【0035】
(1)パターン抽出動作
まず、パターン抽出手段100は、記憶部11のDPCデータ111からパターンを抽出する対象となる複数のサポートを取得する(S1)。
【0036】
図4は、データ構造抽出装置のパターン抽出動作を示すフローチャートである。
【0037】
以下、説明を簡単にするため、
図4に示すように簡略表示した6つのサポート200A〜200Fを取得した場合について説明する。
【0038】
パターン抽出手段100は、サポート200A〜200DからEファイル21a及び21bを含むパターン2
1を抽出し、サポート200B、200E及び200FからEファイル21c及びFファイル20cを含むパターン2
2を抽出する。
【0039】
(2)サポート分類動作
次に、サポートベクトル生成手段101は、パターン抽出手段100が抽出したパターン2
1及び2
2のそれぞれについてサポートの集合をベクトル化してサポートベクトルを生成する(S4)。
【0040】
図5は、サポートベクトルの構成の一例を示す概略図である。
【0041】
サポートベクトルSV1は、パターン2
1についてのサポートベクトルであり、サポート200A、200B…の順でベクトルの成分が記載されている。例えば、サポート200Aはパターン2
1を含むためベクトル成分は「1」であり、サポート200Fはパターン2
1を含まないためベクトル成分は「0」である。サポートベクトルSV2も同様に記載される。
【0042】
次に、サポートベクトル分類手段102は、サポートベクトル間の相関係数として内積を算出する(S4)。サポートベクトルSV1とSV2との内積は、1/√6となる。
【0043】
次に、サポートベクトル分類手段102は、サポートベクトルを以下に説明するようにクラスタリング(分類)する(S5)。以下に説明する例では、ステップS1においてサポートが7つ抽出され、7つのサポートそれぞれについてサポートベクトルSV1〜SV7が生成され、サポートベクトルSV1〜SV7間の内積が計算されたものとする。
【0044】
図6は、サポートベクトルの分類動作を説明するための図である。
【0045】
図6に示すように、サポートベクトル分類手段102は、それぞれの内積で行列を生成する。内積の値の大きなものがサポートベクトルに対応したパターンが類似していることを示す。そこで、サポートベクトル分類手段102は、内積の値に応じてサポートベクトルをクラスタリングし、サポートベクトルSV1〜SV5のクラスター1と、サポートベクトルSV6及びSV7のクラスター2とに分類する。
【0046】
次に、サポートベクトル分類手段102は、分類したサポートグループをパターンで表上にマッピングする。マッピングの結果を以下に示す。
【0047】
(3)パターン出力動作
図10は、データ構造抽出装置のパターン出力動作の一例を示すフローチャートである。また、
図7(a)〜(c)は、サポートベクトル分類手段がマッピングした表及び出力手段107が出力する出力内容の一例を示す概略図である。
【0048】
まず、共通サポート計算手段103は、クラスタリングされたサポートグループ間の共通サポート数を計算する(S11)。
図7(a)に示すようにマッピングされた例において、「サポートグループ1」のサポートを概略化して図示すると
図7(b)に示すようになるが、各パターン1〜5において共通するサポートの数、ここでは「8」を共通サポート数として計算する。
【0049】
次に、「サポートグループ1」のように各パターンに共通サポート以外のサポートを含む場合(S12;Yes)、閾値設定手段104は、共通サポート数を第2の閾値として閾値情報112を設定する(S13)。
【0050】
次に、パターン再抽出手段105は、第1の閾値より小さく第2の閾値より以上の条件で「サポートグループ1」の共通サポートに該当する「パターン8」を再抽出する(S14)。
【0051】
次に、「サポートグループ2」に対して上記動作を繰り返す(S16)。「サポートグループ2」は、各パターンに共通サポート以外のサポートを含まない場合(S12;No)である。
【0052】
図8(a)〜(c)は、サポートベクトル分類手段がマッピングした表及び出力手段107が出力する出力内容の一例を示す概略図である。
【0053】
図8(a)に示すようにマッピングされた例において、「サポートグループ2」のサポートを概略化して図示すると
図8(b)に示すようになるが、出力判断手段106は、共通サポート以外のサポートを含む「パターン6」は、共通サポートが支配的である「パターン7」に比べて意味が薄い(重要度が低い)と判断できるため、「パターン6」を出力しないと判断する(S15)。
【0054】
次に、出力手段107は、ステップS12で各パターンに共通サポート以外のサポートを含むと判断された「サポートグループ1」については、パターン抽出手段100が抽出した「パターン1」〜「パターン5」に加え、パターン再抽出手段105が再抽出した「パターン8」を、
図7(c)に示すように「サポートグループ1」の出力内容107aとして出力する(S17)。
【0055】
また、出力手段107は、ステップS12で各パターンに共通サポート以外のサポートを含まないと判断された「サポートグループ2」については、出力判断手段106が出力しないと判断した「パターン6」を除き、「パターン7」を、
図8(c)に示すように「サポートグループ2」の出力内容107bとして出力する(S17)。
【0056】
[実施例]
図11(a)及び(b)は、データ構造抽出装置1によって抽出されるパターンの一例を示す概略図である。
【0057】
図11(a)に示すように、Eファイル21g、21h及びFファイル20gを含むパターン2
3のみ有する患者のサポートが「4名」、Eファイル21g、21h及びFファイル20g、20hを含むパターン2
3有する患者のサポートが「8名」、Eファイル21g及びFファイル20g、20hを含むパターン2
3のみ有する患者のサポートが「4名」存在する場合を考える。
【0058】
このとき、第1の閾値を「12」とすると、パターン抽出手段100は、パターン2
4はパターン2
3及び2
5を含み、パターン2
3のサポート数がパターン2
3と2
4のサポート数の和である「12」であり、パターン2
3のサポート数がパターン2
5と2
4のサポート数の和である「12」であるため、パターン2
3び2
5を抽出し、サポート数が「8」であるパターン2
4は抽出しない。
【0059】
しかし、パターン2
4は、パターン2
3及び2
5より患者の多い重要度の高いパターンであるため、抽出すべきパターンである。ここで、閾値設定手段104は、パターン抽出手段100によって抽出されたパターン2
3及び2
5に共通サポートが存在すると判断し、第2の閾値を共通サポート数である「8」に設定する。
【0060】
その結果、パターン再抽出手段105は、パターン抽出手段100が抽出しなかった重要度の高いパターン2
4を抽出する。
【0061】
次に、
図11(b)に示すように、Eファイル21g、21h及びFファイル20gを含むパターン2
3のみ有する患者のサポートが「2名」、Eファイル21g、21h及びFファイル20g、20hを含むパターン2
3有する患者のサポートが「10名」存在する場合を考える。
【0062】
このとき、第1の閾値を「9」とすると、パターン抽出手段100は、パターン2
4はパターン2
3を含み、パターン2
3のサポート数がパターン2
3と2
4のサポート数の和である「12」であり、パターン2
3のサポート数が「10」であるため、パターン2
3び2
4を抽出する。
【0063】
しかし、パターン2
3は、パターン2
4に比べて患者の少ない重要度の低いパターンであるため、抽出すべきでないパターンである。そこで、出力判断手段107は、パターン2
3を出力すべきでないパターンであると判断する。
【0064】
[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で種々な変形が可能である。例えば、本発明はDPCデータ111にのみ適用されるものではなく、木構造を代表とする任意のデータ構造を有するデータの集合であれば同様に適用することができる。
【0065】
また、上記実施の形態で使用されるデータ構造抽出プログラム110は、CD−ROM等の記憶媒体から装置内の記憶部に読み込んでも良く、インターネット等のネットワークに接続されているサーバ装置等から装置内の記憶部にダウンロードしてもよい。また、上記実施の形態で使用される手段100〜107の一部または全部をASIC等のハードウェアによって実現してもよい。