(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-04
(45)【発行日】2024-06-12
(54)【発明の名称】変換システム、変換プログラムおよび変換方法
(51)【国際特許分類】
G06F 16/17 20190101AFI20240605BHJP
【FI】
G06F16/17 100
(21)【出願番号】P 2023542254
(86)(22)【出願日】2022-06-30
(86)【国際出願番号】 JP2022026432
(87)【国際公開番号】W WO2023021863
(87)【国際公開日】2023-02-23
【審査請求日】2023-12-01
(31)【優先権主張番号】P 2021134170
(32)【優先日】2021-08-19
(33)【優先権主張国・地域又は機関】JP
【早期審査対象出願】
(73)【特許権者】
【識別番号】520495788
【氏名又は名称】株式会社Yuimedi
(74)【代理人】
【識別番号】110004163
【氏名又は名称】弁理士法人みなとみらい特許事務所
(72)【発明者】
【氏名】グライムス 英美里
(72)【発明者】
【氏名】和智 大二郎
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特開2008-108144(JP,A)
【文献】特開2005-202850(JP,A)
【文献】特開2006-277642(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
入力データを定形データに変換するための変換システムであって、
変換の規則を示す設定ファイルを登録する設定手段と、
前記設定ファイルに基づいて、入力データを定形データに変換する変換手段と、
前記設定ファイルに基づく変換におけるエラーを検出するエラー検出手段と、
前記エラーに基づく表示及び、前記設定ファイルの修正に関する入力を受け付けるための表示を含む、変換結果画面を表示処理する表示手段と、
変換前のデータと変換後のデータを定義した複数の変換辞書を格納するデータベースと、
を備え、
入力データ及び定形データは、それぞれ形式の異なる複数のカラムにより構成され、
前記設定ファイルは、定形データのカラムごとに対応する入力データのカラムを示す対応情報と、カラムごとに指定された形式に入力データを変換するための変換処理を定義する変換情報と、を含み、
前記変換手段は、
前記対応情報に基づいて、入力データにおける1又は複数のカラムを、定形データにおける1又は複数のカラムに対応付ける、マッピング処理、及び、
前記変換情報及び前記マッピング処理の結果による対応付けに基づいて、入力データの各カラムを定形データに変換する変換処理を実行し、
前記変換処理として、
前記変換前のデータ及び前記入力データを比較し、複数の前記変換辞書のうち、前記変換前のデータ及び前記入力データが最も一致する変換辞書を抽出し、当該変換辞書に基づいて、当該入力データの各カラムを定形データに変換し、
前記エラー検出手段は、前記マッピング処理及び/又は変換処理におけるエラーを、定形データのカラムごとに検出し、
前記変換結果画面は、前記エラーに基づく表示として、定形データのカラムごとのエラー数又はエラー率を表示する、変換システム。
【請求項2】
前記エラー検出手段は、前記設定ファイルに基づいて入力データから定形データにおけるカラムを取得できなかった場合に当該カラムのエラーとして検出する、請求項
1に記載の変換システム。
【請求項3】
前記エラー検出手段は、入力データから得られた値が、定形データのカラムとして異常な値であった場合に当該カラムのエラーとして検出する、請求項
1又は請求項
2に記載の変換システム。
【請求項4】
カラムごとのエラー数又はエラー率に基づいて、前記設定ファイルの修正に関する提案を生成する修正提案手段を更に備え、
前記変換結果画面は、前記エラーに基づく表示として前記提案を表示する、請求項
1から請求項
3の何れかに記載の変換システム。
【請求項5】
前記変換結果画面は、修正された設定ファイルに基づいて変換が行われた場合に、設定ファイルの修正前後の前記エラーに基づく表示を含む、請求項1から請求項
4の何れかに記載の変換システム。
【請求項6】
前記定形データは、ある入力データに対する変換処理において、ユーザによって指定された収集項目に基づいて決定される請求項1から請求項
4の何れかに記載の変換システム。
【請求項7】
入力データを定形データに変換するための変換プログラムであって、
変換の規則を示す設定ファイルを登録する設定手段と、
前記設定ファイルに基づいて、入力データを定形データに変換する変換手段と、
前記設定ファイルに基づく変換におけるエラーを検出するエラー検出手段と、
前記エラーに基づく表示及び、前記設定ファイルの修正に関する入力を受け付けるための表示を含む、変換結果画面を表示処理する表示手段と、
変換前のデータと変換後のデータを定義した複数の変換辞書を格納するデータベースと、
としてコンピュータを機能させ、
入力データ及び定形データは、それぞれ形式の異なる複数のカラムにより構成され、
前記設定ファイルは、定形データのカラムごとに対応する入力データのカラムを示す対応情報と、カラムごとに指定された形式に入力データを変換するための変換処理を定義する変換情報と、を含み、
前記変換手段は、
前記対応情報に基づいて、入力データにおける1又は複数のカラムを、定形データにおける1又は複数のカラムに対応付ける、マッピング処理、及び、
前記変換情報及び前記マッピング処理の結果による対応付けに基づいて、入力データの各カラムを定形データに変換する変換処理を実行し、
前記変換処理として、
前記変換前のデータ及び前記入力データを比較し、複数の前記変換辞書のうち、前記変換前のデータ及び前記入力データが最も一致する変換辞書を抽出し、当該変換辞書に基づいて、当該入力データの各カラムを定形データに変換し、
前記エラー検出手段は、前記マッピング処理及び/又は変換処理におけるエラーを、定形データのカラムごとに検出し、
前記変換結果画面は、前記エラーに基づく表示として、定形データのカラムごとのエラー数又はエラー率を表示する、変換プログラム。
【請求項8】
入力データを定形データに変換するための変換方法であって、
変換の規則を示す設定ファイルを登録する設定ステップと、
前記設定ファイルに基づいて、入力データを定形データに変換する変換ステップと、
前記設定ファイルに基づく変換におけるエラーを検出するエラー検出ステップと、
前記エラーに基づく表示及び、前記設定ファイルの修正に関する入力を受け付けるための表示を含む、変換結果画面を表示処理する表示ステップと、
変換前のデータと変換後のデータを定義した複数の変換辞書をデータベースに格納するステップと、
をコンピュータが実行し、
入力データ及び定形データは、それぞれ形式の異なる複数のカラムにより構成され、
前記設定ファイルは、定形データのカラムごとに対応する入力データのカラムを示す対応情報と、カラムごとに指定された形式に入力データを変換するための変換処理を定義する変換情報と、を含み、
前記変換ステップにおいて、
前記対応情報に基づいて、入力データにおける1又は複数のカラムを、定形データにおける1又は複数のカラムに対応付ける、マッピング処理、及び、
前記変換情報及び前記マッピング処理の結果による対応付けに基づいて、入力データの各カラムを定形データに変換する変換処理が実行され、
前記変換処理として、
前記変換前のデータ及び前記入力データが比較され、複数の前記変換辞書のうち、前記変換前のデータ及び前記入力データが最も一致する変換辞書が抽出され、当該変換辞書に基づいて、当該入力データの各カラムが定形データに変換され、
前記エラー検出ステップにおいて、前記マッピング処理及び/又は変換処理におけるエラーが、定形データのカラムごとに検出され、
前記変換結果画面において、前記エラーに基づく表示として、定形データのカラムごとのエラー数又はエラー率が表示される、変換方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力データを定形データに変換するための変換システム、変換プログラムおよび変換方法に関する。
【背景技術】
【0002】
データの分析を行うためには、前提としてデータが統一された形式に整っている必要がある。しかしながら特に医療分野においては、病院システムや担当者の入力方式によってデータの形式が異なっていることが多くあり、分析が容易ではないという課題があった。
【0003】
この点に関し、従来からデータを標準規格形式に変更するための技術が知られている。特許文献1には、所定の形式のデータに含まれる各項目について、ソースデータのどの項目が対応するのかの選択を受け付けて、更に項目ごとの変換処理を指定させることで、変換定義の作成を支援する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述の通り医療データの形式は病院や担当者、担当部署や対象の傷病等によっても様々である。ここで医療データの分析においては、病院をまたいだ多数のデータを用いることが多く、この場合、特許文献1のような変換定義を、入力データの種類の数だけ作成することが必要であった。すると、データ分析を目的としてデータの形式統一を図る場合、その変換のために膨大な労力を要するという課題があった。
【0006】
上記の事情から、例えば入力データの作成者に変換定義の作成を依頼する等、変換定義の作成を分担するという方法が考えられる。しかしながら、変換定義を作成するためには、入力データの内容だけではなく、変換処理についても理解が必要である。例えば病院の担当者や事務員等、データの変換に関して知識のない者が変換定義の作成を行う場合、適切な変換定義を作成することが難しいという課題があった。また変換定義を作成しても、知識のない者にとってはそれが適切であるかを判断することが難しく、結果として作成される変換定義の質が作成者の能力に依存してしまい、一定の質で変換定義を作成することが難しいという課題があった。
【0007】
以上の現状に鑑みて、本発明は、データ変換を支援する新規な技術を提案することを課題とする。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明は、入力データを定形データに変換するための変換システムであって、変換の規則を示す設定ファイルを登録する設定手段と、前記設定ファイルに基づいて、入力データを定形データに変換する変換手段と、前記設定ファイルに基づく変換におけるエラーを検出するエラー検出手段と、前記エラーに基づく表示及び、前記設定ファイルの修正に関する入力を受け付けるための表示を含む、変換結果画面を表示処理する表示手段と、を備える。
【0009】
このような構成とすることで、設定ファイルに基づく変換におけるエラーを検出し、エラーに基づく表示と設定ファイルの修正に関する入力を受け付けるための表示を含む変換結果画面を表示することによって、作成された設定ファイルの適切性をユーザが容易に認識することができる。また設定ファイルの修正及び修正後のエラーの確認を反復して行うことにより、誰でも容易に設定ファイルの質の向上を目指すことができる。
【0010】
本発明の好ましい形態では、入力データ及び定形データは、それぞれ形式の異なる複数のカラムにより構成され、前記設定ファイルは、定形データのカラムごとに対応する入力データのカラムを示す対応情報と、カラムごとに指定された形式に入力データを変換するための変換処理を定義する変換情報と、を含み、前記変換手段は、前記対応情報に基づいて、入力データにおける1又は複数のカラムを、定形データにおける1又は複数のカラムに対応付ける、マッピング処理、及び、前記変換情報及び前記マッピング処理の結果による対応付けに基づいて、入力データの各カラムを定形データに変換する変換処理を実行し、前記エラー検出手段は、前記マッピング処理及び/又は変換処理におけるエラーを、定形データのカラムごとに検出し、前記変換結果画面は、前記エラーに基づく表示として、定形データのカラムごとのエラー数又はエラー率を表示する。
【0011】
このような構成とすることで、カラムごとにエラーが検出されるため、ユーザは設定ファイルの修正をより容易に検討することができる。
【0012】
より好ましい形態では、前記変換システムは、変換前のデータと変換後のデータを定義した複数の変換辞書をデータベースに格納し、前記変換手段は、前記変換処理として、前記変換前データ及び前記入力データを比較し、複数の前記変換辞書のうち、前記変換前データ及び前記入力データが最も一致する変換辞書を抽出し、当該変換辞書に基づいて、当該入力データの各カラムを定形データに変換する。
【0013】
このような構成とすることで、入力データと最も一致する変換辞書を抽出することができる。これにより、入力データの定形データへの変換を効率的に行うことができる。
【0014】
本発明の好ましい形態では、前記エラー検出手段は、前記設定ファイルに基づいて入力データから定形データにおけるカラムを取得できなかった場合に当該カラムのエラーとして検出する。
【0015】
本発明の好ましい形態では、前記エラー検出手段は、入力データから得られた値が、定形データのカラムとして異常な値であった場合に当該カラムのエラーとして検出する。
【0016】
このような構成とすることで、カラムごとに、必須項目の漏れや異常値をエラーとして検出し、ユーザに情報提供を行うことが可能となる。
【0017】
本発明の好ましい形態では、カラムごとのエラー数又はエラー率に基づいて、前記設定ファイルの修正に関する提案を生成する修正提案手段を更に備え、前記変換結果画面は、前記エラーに基づく表示として前記提案を表示する。
【0018】
このような構成とすることで、知識のないユーザであっても容易に設定ファイルの修正を検討することが可能となる。
【0019】
本発明の好ましい形態では、前記変換結果画面は、修正された設定ファイルに基づいて変換が行われた場合に、設定ファイルの修正前後の前記エラーに基づく表示を含む。
【0020】
このような構成とすることで、設定ファイルの修正によってどのようにエラーが変化したかを表示し、当該修正の是非を検討するための情報をユーザに提供することができる。
【0021】
より好ましい形態では、前記定形データは、ある入力データに対する変換処理において、ユーザによって指定された収集項目に基づいて決定される。
【0022】
このような構成とすることで、ユーザが希望する情報を収集項目として指定することによって、希望する情報への変換処理を実行することができる。
【0023】
上記課題を解決するために、本発明は、入力データを定形データに変換するための変換プログラムであって、変換の規則を示す設定ファイルを登録する設定手段と、前記設定ファイルに基づいて、入力データを定形データに変換する変換手段と、前記設定ファイルに基づく変換におけるエラーを検出するエラー検出手段と、前記エラーに基づく表示及び、前記設定ファイルの修正に関する入力を受け付けるための表示を含む、変換結果画面を表示処理する表示手段と、としてコンピュータを機能させる。
【0024】
上記課題を解決するために、本発明は、入力データを定形データに変換するための変換方法であって、変換の規則を示す設定ファイルを登録する設定ステップと、前記設定ファイルに基づいて、入力データを定形データに変換する変換ステップと、前記設定ファイルに基づく変換におけるエラーを検出するエラー検出ステップと、前記エラーに基づく表示及び、前記設定ファイルの修正に関する入力を受け付けるための表示を含む、変換結果画面を表示処理する表示ステップと、をコンピュータが実行する。
【発明の効果】
【0025】
本発明によれば、データ変換を支援する新規な技術を提案することができる。特に作成された設定ファイルに基づく変換のエラーと、設定ファイルの修正に関する入力を行うための表示と、を表示することにより、効率的に設定ファイルの修正を支援することができる。
【図面の簡単な説明】
【0026】
【
図1】本発明の実施形態における変換システムの機能ブロック図である。
【
図2】本発明の実施形態における変換システムの変換の設定例を示す概念図である 。
【
図3】本発明の実施形態における変換システムにおける設定ファイルの作成画面の 表示例である。
【
図4】本発明の実施形態における変換システムの設定ファイル作成に係る処理手順 の例を示すフローチャートである。
【
図5】本発明の実施形態における変換システムの変換結果画面の表示例である。
【
図6】本発明の実施形態における変換システムの変換結果画面の表示例である。
【
図7】本発明の実施形態における変換システムの変換結果画面の表示例である。
【
図8】本発明の実施形態における変換システムの変換結果画面の表示例である。
【
図9】本発明の別の実施形態における変換システムの構成を示すブロック図である。
【発明を実施するための形態】
【0027】
(実施形態1)
以下、図面を用いて、本発明の変換システムについて説明する。なお、以下に示す実施形態は本発明の一例であり、本発明を以下の実施形態に限定するものではなく、様々な構成を採用することもできる。
【0028】
例えば、本実施形態では変換システムの構成、動作等について説明するが、同様の構成の方法、装置、コンピュータプログラム等も、同様の作用効果を奏することができる。また、プログラムは、記録媒体に記憶させてもよい。この記録媒体を用いれば、例えばコンピュータにプログラムをインストールすることができる。ここで、プログラムを記憶した記録媒体は、例えばCD-ROM等の非一過性の記録媒体であっても良い。
【0029】
本発明は、任意の形式で作成された入力データを、事前に定義された形式の定形データに変換するための変換処理を定義した設定ファイルを作成するためのシステムに関する。ここで入力データとは、分析の材料としたいデータであって、各医療機関等において様々な形式で作成されるデータである。また定形データとは、特定の形式に従ったデータを指す。本実施形態では、同一の形式で作成された複数の入力データを、まとめて定形データに変換することを想定して説明する。
【0030】
図1は、本実施形態の変換システムを構成する変換装置1の機能ブロック図である。本実施形態では、単一のコンピュータが後述の各手段を備え、変換装置1として機能する構成を示すが、複数のコンピュータが相互に通信することによって本実施形態の変換装置1を実現してもよい。また、変換装置1と1又は複数のクライアントとがネットワークを介して通信し、変換装置1がサーバとして機能して、クライアントからの入力に基づいて処理を行い、処理結果をクライアントに送信する、クライアントサーバシステムの形態を採用してもよい。
【0031】
変換装置1としては、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の演算装置、RAM(Random Access Memory)等の主記憶装置、HDD(Hard Disk Drive)やSSD(Solid State Drive)、フラッシュメモリ等の補助記憶装置、ネットワークへの接続手段を含む種々の入出力装置等を備えた一般的なコンピュータ装置を利用することができる。記憶装置に専用のプログラム(変換プログラム)を記憶し、当該プログラムによって演算装置を後述の各手段として機能させることにより、任意のコンピュータを本実施形態の変換装置1として利用できる。
【0032】
変換装置1は、設定手段11と、変換手段12と、エラー検出手段13と、修正提案手段14と、表示手段15と、を備え、データベースDBと有線又は無線で相互に通信可能に構成される。なおデータベースDBは、変換装置1の内部に備えられていてもよい。
【0033】
設定手段11は、変換の規則を示す設定ファイルをデータベースDBに登録する。本実施形態では、ユーザから、入力データと定形データのカラムの対応を指定する入力を受け付けて対応情報を生成し、また定形データのカラムごとに、指定された形式に入力データを変換するための変換処理を指定する入力を受け付けて変換情報を生成して、対応情報及び変換情報を含む設定ファイルをデータベースDBに登録する。
【0034】
図2は、本実施形態における設定ファイルの概念を表す図である。左の列から順に、定形データのカラム、それに対応する入力データのカラム(対応情報)、入力データのカラムを定形データに適合する形式に変換するための変換処理(変換情報)、をそれぞれ示している。本発明では、定形データとして、複数のカラムを含む変換先のデータの形式が指定されている。例えば、カラムとして、患者ID、身長、体重をはじめ、傷病の状態を示す情報等を示す情報を含むデータを、定形データとして指定することが想定される。本実施形態では、定形データの定義を示す、各カラムの値の範囲や数値又は文字列等のデータ形式が、定義情報として事前にデータベースDBに登録される。
【0035】
次に、設定ファイルを作成する処理について、
図3の表示例を参照して説明する。
図3は本実施形態において設定ファイルを作成するためにユーザに対して表示される設定画面W1の表示例である。本実施形態では、変換を行いたい入力データのファイルを指定すると、
図3のような設定画面W1が表示される。設定画面W1は、定形データにおけるカラムを列挙する定形データ列W11と、定形データにおける各カラムに対応する入力データのカラムを選択するための対応情報入力部W12と、各カラムを定形データの形式に変換するための変換処理を入力するための変換情報入力部W13と、を備える。
【0036】
形式が統一されていないデータを扱う場合、カラムの名称が定形データと入力データとで異なっていたり、定形データでは複数のカラムに分かれているべき情報が、入力データ上ひとつのカラムに含まれていたりする場合があり、データに含まれる情報の項目を示すカラムの定義を対応付ける必要がある。このような入力データと定形データとのカラムの対応付けを示すのが対応情報である。
【0037】
対応情報入力部W12においては、定形データ列W11に記載のカラムごとに、当該カラムに入力されるべき情報が含まれる入力データのカラムの選択を受け付け、選択されたカラムを特定する情報が、対応情報として登録される。具体的には、対応情報入力部W12の三角印を選択することにより、入力データに含まれるカラムがリスト表示され、ユーザはその中から適切なカラムを選択すればよい。なお、定形データにおいてはひとつのカラムで表現されている情報が、入力データ上は複数のカラムにまたがっている場合には、対応情報入力部W12において「+」のボタンを選択することで入力欄が追加され、定形データのひとつのカラムに対して複数の入力データのカラムを対応付けることができる。この場合には、変換情報入力部W13においてユーザが変換処理として複数のカラムをマージする処理を指定する。
【0038】
また、対応情報入力部W12において選択された入力データのカラムにおける情報を、対応する定形データのカラムに変換するための処理手順を定義するのが、変換情報である。変換情報入力部W13においては、対応情報入力部W12に入力された入力データのカラムを、定形データ列のカラムに変換するための変換処理の入力を受け付ける。例えば、定形データの「patient_id」は半角英数として定義されているのに対し、入力データにおける患者ID(対応情報において指定されたカラム)が全角入力されている場合には、半角に変換する処理を指定することが想定される。
【0039】
変換処理としてはこの他にも、例えば定形データは「height」と「weight」が別のカラムとして定義されているのに対し、入力データでは身長と体重がひとつのカラムにカンマ区切りで入力されているような場合に、両方のカラムの対応情報を入力データの「身長/体重」のカラムとした上で、「height」のカラムの変換情報入力部W13においてカンマ以降の文字列を削除する処理、また「weight」のカラムの変換情報入力部W13においてカンマ以前の文字列を削除する処理を指定すること等が想定される。これにより、対象の定形データのカラムに対応付けて、変換処理を示す変換情報がデータベースDBに登録される。
【0040】
変換情報入力部W13の三角印が選択されると、このような変換処理を選択する操作部が設定画面W1に重畳して表示される。変換情報としては、ひとつのカラムについて複数の処理をその順序の指定とともに設定することが可能であり、例えば、入力データのカラムについて前後の不要な文字列を削除する処理の次に、単位を統一するための数値の変換処理を行う等の指定を行ってもよい。また条件分岐により、変換処理を異ならせる等、任意の処理を変換情報入力部W13において受け付けて、変換情報として登録可能であってよい。
【0041】
このように設定手段11はユーザの入力を受け付け、対応情報及び変換情報を設定ファイルとして登録する。なお上述の通り、入力データには様々な形式が想定されるため、多様な入力データに対応するために設定ファイルも複数登録可能である。また、例えば同じ病院の異なる部署において作成された入力データでは、似通った形式となることがある。このような場合には、設定画面W1において既に登録済みの設定ファイルの選択を受け付けて当該設定ファイルにおける対応情報及び変換情報を初期入力して表示し、その編集を受け付けることで新たな設定ファイルの作成を行うことが可能であってもよい。
【0042】
本実施形態では、以上のようにして新たな設定ファイルが作成されると、ユーザが画面下部の「登録・変換」の表示を選択することで、続いて入力データの変換が実行され、その実行結果に基づいてユーザが設定ファイルの修正を行う。このようにして、設定ファイルの作成、変換の実行、変換結果の確認、結果に基づく設定ファイルの修正、の手順をユーザが反復して行うことにより、知識のないユーザでも適切な設定ファイルを作成することができる。
【0043】
次に
図4を参照して、作成された設定ファイルによる入力データの変換から設定ファイルの修正までの処理手順を詳細に説明する。まず変換対象の入力データと、利用する設定ファイルと、が指定されると、
図4の処理が開始される。ここで本実施形態では、複数の患者についてそれぞれ複数のカラムの情報を含む表形式のデータが、入力データとして想定される。入力データの変換においては、まずステップS1で、変換手段12がマッピング処理を実行する。マッピング処理においては、変換手段12が対応情報に基づいて、定形データの各カラムに対応する入力データの各カラムの情報をコピーした、中間データを作成する。中間データは、定形データにおいて定義された複数のカラムを備えるデータであり、対応情報に基づいて各カラムに入力データの対応するカラムの情報をコピーしたデータである。
【0044】
次にステップS2においては、変換手段12が変換処理を実行する。変換処理においては、それぞれ定形データのカラムに対応する中間データの各カラムに対して、変換情報において定義された処理を実行する。
【0045】
例えば入力データの「身長/体重」のカラムにおいて「165,55」等と登録されている場合、定形データの「height」のカラムの対応情報として入力データの「身長/体重」のカラムを指定する。すると中間データとしては、「height」のカラムにこの情報がこのまま登録される。そして「height」のカラムの変換情報としては、「カンマ以降の文字列を削除する処理」を登録することにより、変換処理において中間データから「,55」が削除されて「165」の文字列を「height」のカラムとして得ることができる。
【0046】
このようにして、対応情報に基づき中間データの生成を行うマッピング処理(ステップS1)及び、変換情報に基づき中間データの加工を行う変換処理(ステップS2)を実行することで、入力データを定形データに変換することができる。しかし、データの変換について知識がないユーザの場合、適切な設定ファイルを一度で作成することは難しい。したがって本発明は、更に設定データに基づく変換の結果として、エラーを抽出する。
【0047】
ステップS3では、マッピング処理、変換処理のそれぞれの過程について、エラー検出手段13が、定形データのカラムごとにエラーを抽出する。本実施形態では、対応情報が指定されているにもかかわらず入力データのカラムから定形データのカラムに対応する情報を取得できなかった場合、及び、定形データのカラムとして変換された情報が事前に登録された定形データの形式を満たしていない場合に、エラーとして検出する。
【0048】
例えば入力データにおいてそもそも指定されたカラムの情報が欠損していた場合には、中間データの作成時に問題が発生するため、マッピング処理における当該カラムのエラーとして検出される。また例えばデータは入力されているものの設定ファイルの変換情報に従って処理した結果データが欠損した場合や、異常な値となった場合には、それぞれ変換処理における当該カラムの欠損及び異常値のエラーとして検出される。
【0049】
また本実施形態のエラー検出手段13は、変換の回数と、エラー数と、エラー率と、をそれぞれ定形データのカラムごとに算出する。ここで変換の回数とは、中間データから定形データを得るまでに実行されたひとまとまり処理の数を意味する。またエラー率とは、エラー数を入力データの数で割って得られる割合を意味する。即ち、入力データのうち、変換の過程でエラーが発生したデータの割合を意味する。なお変換の回数、エラー数及びエラー率は、全カラムを総合した値についても算出される。
【0050】
このようにして変換及びエラー検出が完了すると、表示手段15がエラーの情報を表示処理して、変換装置1に接続されたディスプレイに変換結果画面が表示される。
図5~8は、変換結果画面の表示例を示す図である。
【0051】
本実施形態では、ステップS4で、変換結果画面としてまず
図5に示す結果サマリ画面W2が表示される。結果サマリ画面W2は、エラー検出手段13が算出した、変換の回数、エラー数及びエラー率を、入力データ全体及び定形データのカラムごとに表示する。
【0052】
また本実施形態では、更に修正提案手段14が、エラー検出手段13によって算出された数値に基づいて、設定ファイルの修正に関する提案情報を生成する。本実施形態の修正提案手段14は、特定のカラムのエラー数及びエラー率が所定の閾値を超える場合に、当該カラムについての提案情報を生成する。ここで更に、エラーがマッピング処理において多く発生しているか、変換処理において多く発生しているかを閾値や割合によって判断して、マッピング処理に関する提案情報又は変換処理に関する提案情報のうち適切な提案情報を生成する。またマッピング処理における欠損のエラー数又はエラー率が所定の閾値を超える場合には、入力データの確認を促す提案情報を生成する。
【0053】
例えば
図5の例では、他のカラムと比較して「size_y_unknown」や「size_z_unknown」のエラー数やエラー率が高い。このような場合に、修正提案手段14はこれらのカラムについて提案情報を生成し、表示手段15に受け渡す。
【0054】
表示手段15は、修正提案手段14によって提案情報が受け渡された場合には、変換の回数、エラー数及びエラー率とともに提案情報を表示処理して、結果サマリ画面W2においては
図5のように修正提案W21が表示される。
【0055】
ここで、画面下部の「設定ファイル修正画面へ」の表示が選択されると、前述の設定画面W1が、変換に使用した設定ファイルの情報が入力された状態で表示される。また本実施形態において修正提案W21のカラム名はリンクとして表示され、当該リンクが選択されると、前述の設定画面W1における、対象のカラムの入力欄が表示される。即ち、本実施形態においては、結果サマリ画面W2の「設定ファイル修正画面へ」の表示及び修正提案W21におけるカラム名のリンクが、設定ファイルの修正に関する入力を受け付けるための表示として機能する。
【0056】
また画面下部の「変換結果詳細へ」の表示が選択されると、
図6~8に示す詳細画面W3が表示される。
図6はマッピング処理の結果、
図7は変換処理の結果、
図8は変換処理の結果に基づく異常値検出の結果をそれぞれ示している。
【0057】
マッピング処理の結果としては、各データのカラムごとにそれぞれ中間データが表示されており、中間データにおいて欠損がある場合には対象のデータの欠損カラムを識別可能に表示する。
図6の例では、「patient_id」が20001のデータにおける、「smoke_status」のカラムが欠損している状態を表している。
【0058】
また変換処理の結果としては、各データのカラムごとに変換処理により得られたデータが表示されており、変換処理の過程でエラーが発生したカラム、及び変換処理により値を取得できなかったカラムを識別可能に表示する。
図7の例では、「patient_id」が20001のデータにおける、「size_z_unknown」のカラム、「patient_id」が20002のデータにおける「size_x_unknown」、「size_y_unknown」、「size_z_unknown」のカラムの変換処理により値を取得できなかった状態を表している。
【0059】
また変換処理の結果に基づく異常値検出の結果としては、各データとしては
図7と同様の情報が表示されるとともに、値が取得されたものの、データベースDBに登録された定形データの定義情報における値の範囲外のデータや、入力規則を満たさないデータのカラムを識別可能に表示する。ここで本実施形態では、
図7でエラー表示された欠損のカラムについては強調表示せず、他のカラムと同様に表示する。
【0060】
ここで、詳細画面W3においては、エラーの種類によって表示形態を異ならせてもよい。例えば
図8の例において、データ型が定義情報と異なる場合と、値の範囲が定義情報を超えている場合と、で異なる色で呈色することが想定される。これにより、どのようなエラーが多いのかをユーザが感覚的に認識して設定ファイルの修正に役立てることができる。
【0061】
このような詳細画面W3の上部には、「設定ファイルの修正」のボタンが表示される。このボタンが選択されると、サマリ画面W2の「設定ファイル修正画面へ」のボタンが選択された場合と同様に、前述の設定画面W1が、変換に使用した設定ファイルの情報が入力された状態で表示される。即ち、本実施形態においては、詳細画面W3の「設定ファイル修正」の表示が、設定ファイルの修正に関する入力を受け付けるための表示として機能する。
【0062】
図5~8のような変換結果画面において、設定ファイルの修正を行なうための入力が受け付けらなかった場合(
図4のステップS5でN)には、最新版の設定ファイルを保存して処理を終了する。一方、修正入力があった場合、即ち、変換結果画面において修正を希望する入力が行われて、設定ファイルに基づく入力済みの設定画面W1が表示され、設定画面W1を介して設定ファイルの修正が行われ、再度「登録・変換」の表示が選択された場合(
図4のステップS5でY)には、再度ステップS1~ステップS5までを繰り返す。これにより、ユーザが設定ファイルの作成、変換の試行、その結果確認、それに基づく設定ファイルの修正、の手順を繰り返すことにより、不慣れなユーザであっても適切な設定ファイルを作成することができる。
【0063】
ここで、同じ入力データに対する2回目以降の変換表示の場合、即ち、
図4のステップS6の後に行われた変換の結果を表示する場合には、前述の
図5に示したサマリ画面W2において、全体及びカラムごとの変換処理数、エラー数及びエラー率の各項目について、前回の変換における数値との差分(
図5の数値の後の()内)が表示される。これにより、設定ファイルの修正前である前回の変換と比較して、エラーや処理数の増減を確認することができるため、ユーザは修正が適切であったか否かを判断しやすくなる。これにより、設定ファイルの修正及び変換の試行の繰り返しによる、設定ファイルの作成をより効果的に支援することができる。
【0064】
以上のように、本実施形態の変換システムによれば、設定ファイルに基づく変換におけるエラーに関する表示と、設定ファイルの修正に関する入力を受け付けるための表示と、を変換結果画面において同時に表示することにより、ユーザによる設定ファイルの作成・修正とその設定ファイルによる変換の試行を支援して、効率的かつ適切な設定ファイル作成に役立てることができる。また更に本実施形態の変換システムによれば、カラムごとにマッピング処理及び変換処理を実行してエラー検出することにより、ユーザに対して設定ファイルの修正内容についての参考情報を提供し、より効果的に設定ファイルの作成を支援することができる。
【0065】
(実施形態2)
次いで、実施形態2では、複数の医療機関等がプロジェクトとして共通の入力データを定形データに変換する場合について説明する。サーバのデータベースDB2には、プロジェクト毎に、設定ファイルが登録されており、各医療機関等は当該プロジェクトに参加することによって、当該プロジェクトに対する定形データのカラムを受け取る。そして、当該カラムに基づいて、それぞれの入力データを定形データに変換する為の設定ファイルを登録する。
【0066】
また、実施形態2では、端末DB(実施形態1のデータベースDBに相当)又はサーバのデータベースDB2には、プロジェクト情報、データの変換を定義した変換辞書及び、特定の文字列が設定されている検出用辞書が事前に登録されている場合について説明する。
【0067】
実施形態1では、設定ファイルにおいて入力された変換情報に基づいて、入力データの各カラムが定形データに変換された(
図3の例では、全角で入力された「患者ID」が半角の「patient_id」に変換されている)。一方、本実施形態では、設定ファイルに基づく変換情報に加えて、変換辞書に基づいて、入力データの各カラムが定形データに変換される。また、実施形態1では、変換後のデータの形式が、定形データの形式を満たすか否かによってエラーが検出されたが、本実施形態では、変換後のデータの形式に加えて又は替えて、検出用辞書に設定された文字列と一致するか否かによってエラーが検出される。
【0068】
本実施形態では、変換後のデータに含まれた一組のカラムを収集項目と呼称する。また以下の説明では、本実施形態に係るシステムが、各機能構成を機能させ、実施形態1と共通する部分については省略する。
【0069】
図9は、本実施形態における変換システムの構成を示すブロック図である。
図9に示すように、変換システムは、複数の医療機関端末(1A、1B、・・、以下代表して1Aとする)及び、サーバ2によって構成され、それらが通信ネットワークNWを介して通信可能に構成されている。
【0070】
本実施形態において、医療機関端末1Aは、本発明に係る変換プログラムがインストールされており、変換装置1と同じ機能構成を備える。また、医療機関端末1Aは、入力データ、複数の変換辞書及び、検出用辞書を登録する端末DBと有線又は無線で相互に通信可能に接続されている。
【0071】
ここで、変換辞書とは、入力データの変換を定義する複数の変換辞書が事前に登録されている情報である。具体的に変換辞書は、変換前のデータと変換後のデータを定義するディクショナリ形式の情報であって、変換辞書毎に、変換前の文字列と変換後の文字列の組合わせを複数含む。変換辞書として、例えば、標準的な医療用語への変換を定義した標準変換辞書や、医療機関毎に使用する用語への変換を定義した独自変換辞書等、がある。
【0072】
ここで、検出用辞書とは、変換後のデータを検出する為の情報である。具体的に検出用辞書は、変換後のデータとして利用可能な特定の文字列をリスト形式で含む情報である。特定の文字列として、例えば、国が掲示している医薬品名、傷病名等がある。
【0073】
本実施形態において、サーバ2は、データベースDB2にプロジェクト情報、プロジェクト情報に基づいて設定された設定ファイルを登録する。ここで、プロジェクト情報は、プロジェクトIDによって一意に特定され、プロジェクトIDに紐づけて、1又は複数の収集項目(定形データのカラム名のセット)が事前に登録されている。そして、収集項目には、1又は複数のカラム毎に定義情報が紐づけされている。例えば、収集項目として「血液検査値」が登録され、そのカラムとして「WBC(White Blood Cell)」、「血中ヘモグロビン濃度」が紐づけて登録される。即ち、収集項目は、配下のカラムやその定義情報の分類を示す情報である。
【0074】
本実施形態における、設定ファイルは、プロジェクト情報に対応する収集項目に基づいて特定される定形データのカラムを含む。具体的には
図3の設定ファイルは、「patient_id」、「gender」、「height」を定形データのカラムとして含む。なお、本実施形態では、医療機関端末1が変換手段12を備えるが、サーバ2が変換手段12を備え、医療機関端末1から受け取った設定ファイル及び入力データに基づいて、定形データを生成してもよい。
【0075】
なお、本実施形態において、変換辞書及び/又は検出用辞書は、端末DBに登録されているが、データベースDB2に登録されていてもよい。その場合、医療機関端末1Aは、通信ネットワークNWを介して変換処理又は検出の対象とするデータをサーバ2に送信し、変換処理/検出をサーバ2に実行させることで、変換処理結果及び検出結果を受け取ってもよい。
【0076】
本実施形態において、変換手段12は、複数の変換辞書のうち特定の変換辞書に基づいて、入力データの各カラムを定形データに変換する。具体的に変換手段12は、変換前のデータ及び入力データを比較し、複数の前記変換辞書のうち、変換前のデータ及び入力データが最も一致する変換辞書を抽出し、当該変換辞書に基づいて、当該入力データの各カラムを定形データに変換する。
【0077】
より具体的に変換手段12は、入力データの各カラムの文字列及び、複数の変換辞書の変換前のデータの文字列を比較し、入力データの全てのカラムの文字列と変換前のデータの文字列が最も一致する変換辞書を抽出し、当該変換辞書に基づいて、当該入力データの各カラムを定形データ(変換後データ)に変換する。
【0078】
なお、本実施形態において変換手段12は、入力データの全てのカラムの文字列と変換前のデータの文字列が最も一致する変換辞書をひとつ抽出したが、入力データのカラム毎に、変換辞書を抽出してもよい。即ち、入力データのカラム毎に、変換前のデータと入力データを比較して、変換辞書を抽出し、カラム毎に変換処理を行ってもよい。
【0079】
本実施形態において、検出手段13は、検出辞書に基づいて、変化後データの各カラムのエラー検出を行う。具体的には、検出手段13は、変換情報及び/又は変換辞書に基づいて定形データの形式に変換された入力データに対して、検出用辞書を用いる。そして、検出手段13は、当該入力データの各カラムの文字列のうち、検出用辞書に含まれる文字列と一致しないデータがある場合に、エラーを検出する。
【0080】
また、検出手段13は、収集項目に対応する複数の定形データのデータ形式と、変換後データと、に基づいて、エラー検出を行う。具体的に検出手段13は、変換後データの各カラムのデータ形式が、定形データのデータの型(文字列、数字、日付)と一致しない場合には、エラーを検出する。また更に、検出手段13は、変換後データが空値であるか否かによって、エラーを検出してもよく、変換後データの各カラムに同一の文字列がある場合にエラーを検出してもよい。
【0081】
なお、本実施形態において、変換手段12は、入力データに対して変換辞書及び変換情報のどちらか一方の変換処理を行うが、変換辞書による変換処理を行った後更に、変換情報を用いて変換処理を行ってもよい。また反対に、変換情報による変換処理を行った後更に、変換辞書を用いて変換処理を行ってもよい。またなお、本実施形態において、検出手段13は、定形データの形式に変換された入力データに対してエラー検出を行ったが、入力データの各カラムに対してエラー検出を行った後に、入力データを定形データに変換してもよい。
【0082】
以上のように、本実施形態の変換システムによれば、変換辞書を用いることにより、変換辞書を入力することなく入力データを定形データに変換することができる。また更に本実施形態の変換システムによれば、検出用辞書を用いることにより、文字列に対する詳細なエラー検出を行うことができる。そしてこれら効果によって、より効率的かつ適切な変換処理を実行してエラー検出することができ、ユーザに対して設定ファイルの修正内容についての参考情報を提供し、より効果的に設定ファイルの作成を支援することができる。
【符号の説明】
【0083】
1 :変換装置
11 :設定手段
12 :変換手段
13 :エラー検出手段
14 :修正提案手段
15 :表示手段
W1 :設定画面
W11 :定形データ列
W12 :対応情報入力部
W13 :変換情報入力部
W2 :サマリ画面
W21 :修正提案
W3 :詳細画面