(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023103884
(43)【公開日】2023-07-27
(54)【発明の名称】リネージ管理システム及びリネージ管理方法
(51)【国際特許分類】
G06F 16/21 20190101AFI20230720BHJP
【FI】
G06F16/21
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022004668
(22)【出願日】2022-01-14
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】増田 博亮
(72)【発明者】
【氏名】樫山 俊彦
(72)【発明者】
【氏名】高田 実佳
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175CA01
5B175CA07
(57)【要約】
【課題】より適切なリネージ管理が可能な情報処理システムを提供する。
【解決手段】リネージ単位管理システム3は、1以上の要素を含む入力データから1以上の要素を含む出力データを生成するデータ処理の処理内容に基づいて、リネージ単位を決定する。リネージ管理システム4は、リネージ単位に従って、入力データの要素と出力データの要素との対応関係を示すリネージ情報を生成する。したがって、データ処理の内容に応じたリネージ単位に従って、リネージ情報が生成されるため、より適切なリネージ管理が可能となる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
1以上の要素を含む入力データと前記入力データから生成される1以上の要素を含む出力データとの各要素間の対応関係を示すリネージ情報を生成するリネージ管理システムにおいて、
前記入力データから前記出力データを生成するデータ処理の処理内容に基づいて、前記対応関係を規定する単位であるリネージ単位を決定する規則管理部と、
前記リネージ単位に従って、前記リネージ情報を生成するリネージ管理部と、を有するリネージ管理システム。
【請求項2】
前記規則管理部は、前記対応関係に応じたリネージ単位推定値を算出し、前記リネージ単位推定値と、前記リネージ単位と閾値との関係を示す閾値表とに基づいて、前記リネージ単位を決定する、請求項1に記載のリネージ管理システム。
【請求項3】
前記規則管理部は、前記入力データ及び前記出力データを含む対象データが前記対応関係に関する判定条件に該当するか否かを判断し、当該判断結果に基づいて、前記リネージ単位推定値を算出する、請求項2に記載のリネージ管理システム。
【請求項4】
前記規則管理部は、複数の前記判定条件のそれぞれについて、前記対象データが前記判定条件に該当するか否かを判断し、前記対象データが該当した前記判定条件に基づいて、前記リネージ単位推定値を算出する、請求項3に記載のリネージ管理システム。
【請求項5】
前記規則管理部は、前記対象データが該当した前記判定条件のそれぞれに対して予め割り当てられた数値の和をリネージ単位推定値として算出する、請求項4に記載のリネージ管理システム。
【請求項6】
前記入力データ及び前記出力データは、テーブル構造を有するテーブルデータであり、
前記要素は、前記テーブルデータの各セルに格納されている、請求項1に記載のリネージ管理システム。
【請求項7】
前記リネージ単位は、前記テーブルデータのカラム単位と、前記テーブルデータのセル単位とのいずれかである、請求項6に記載のリネージ管理システム。
【請求項8】
前記リネージ単位は、前記テーブルデータのカラム単位と、前記テーブルデータのセル単位と、前記テーブルデータのセルに関する条件式単位とのいずれかである、請求項6に記載のリネージ管理システム。
【請求項9】
プロセッサを有し、1以上の要素を含む入力データと前記入力データから生成される1以上の要素を含む出力データとの各要素間の対応関係を示すリネージ情報を生成するリネージ管理システムによるリネージ管理方法であって、
前記プロセッサは、前記入力データから前記出力データを生成するデータ処理の処理内容に基づいて、前記対応関係を規定する単位であるリネージ単位を決定し、
前記プロセッサは、前記リネージ単位に従って、前記リネージ情報を生成する、リネージ管理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、リネージ管理システム及びリネージ管理方法に関する。
【背景技術】
【0002】
近年、機械学習モデルが注目されており、特に医療及び介護などの現場では、信頼性の高い機械学習モデルが求められている。機械学習モデルの信頼性を担保するためには、適切な学習データを用いて機械学習モデルを構築する必要がある。学習データは、現場などで取得されたデータを加工するなどして生成されるため、学習データが適切か否かを判断するためには、その学習データに至るまでのデータの変遷を追跡できるリネージ情報を管理するリネージ管理が必要となる。
【0003】
特許文献1及び2には、リネージ管理を実現する技術が開示されている。特許文献1及び2に記載の技術では、データ処理を要求するクエリを解析することで、クエリに応じたデータ処理の入力データと出力データとの対応関係が特定され、その対応関係に基づいてリネージ情報が生成される。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】米国特許出願公開第2020/0210427号明細書
【特許文献2】米国特許出願公開第2017/0270022号明細書
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1及び2に記載の技術では、入力データと出力データの各要素の対応関係がテーブル単位又はカラム単位で特定されているため、細やかなリネージ情報を取得することができず、十分なリネージ管理を行えないことがある。例えば、データ処理において、縦持ち構造を有する入力データが横持ち構造を有する出力データに変換された場合、入力データのカラムと出力データのカラムとの対応関係は1対多となるため、カラム単位によるリネージ情報では、出力データの要素から入力データの要素を追跡することが難しい。
【0006】
本開示の目的は、より適切なリネージ管理が可能なリネージ管理システム及びリネージ管理方法を提供することにある。
【課題を解決するための手段】
【0007】
本開示の一態様に従うリネージ管理システムは、1以上の要素を含む入力データと前記入力データから生成される1以上の要素を含む出力データとの各要素間の対応関係を示すリネージ情報を生成するリネージ管理システムにおいて、前記入力データから前記出力データを生成するデータ処理の処理内容に基づいて、前記対応関係を規定する単位であるリネージ単位を決定する規則管理部と、
前記リネージ単位に従って、前記リネージ情報を生成するリネージ管理部と、を有する。
【発明の効果】
【0008】
本発明によれば、より適切なリネージ管理が可能となる。
【図面の簡単な説明】
【0009】
【
図1】本開示の一実施形態の情報処理システムの構成を示す図である。
【
図2】データ管理システムのハードウェア構成の一例を示す図である。
【
図3】データ管理システムの機能的な構成の一例を示す図である。
【
図4】データ分析システムの機能的な構成の一例を示す図である。
【
図5】リネージ単位管理システムの機能的な構成の一例を示す図である。
【
図6】リネージ管理システムの機能的な構成の一例を示す図である。
【
図9】データ処理の実行ログの一例を示す図である。
【
図10】リネージ単位判定条件テーブルの一例を示す図である。
【
図11】リネージ単位判定テーブルの一例を示す図である。
【
図12】カラム単位リネージテーブルの一例を示す図である。
【
図13】条件式単位リネージテーブルの一例を示す図である。
【
図14】セル単位リネージテーブルの一例を示す図である。
【
図15】情報システムの動作の一例を説明するためのフローチャートでる。
【
図16】リネージ単位推定値算出処理の一例を説明するためのフローチャートである。
【
図18】リネージ単位判定条件設定画面の一例を示す図である。
【
図19】リネージ表示内容入力画面の一例を示す図である。
【
図20】データリネージ表示画面の一例を示す図である。
【
図21】リネージ単位推定値算出処理の他の例を説明するためのフローチャートである。
【発明を実施するための形態】
【0010】
以下、本開示の実施形態について図面を参照して説明する。
【0011】
(第1の実施形態)
図1は、本開示の第1の実施形態の情報処理システムの構成を示す図である。
図1に示す情報処理システムは、データ管理システム1と、データ分析システム2と、リネージ単位管理システム3と、リネージ管理システム4とを有する。また、データ管理システム1、データ分析システム2、リネージ単位管理システム3及びリネージ管理システム4は、ネットワーク5を介して相互に通信可能に接続されている。また、データ管理システム1、データ分析システム2、リネージ単位管理システム3及びリネージ管理システム4の少なくとも1つが情報処理システムを利用する利用者が使用する端末(図示せず)とネットワーク5を介して相互に通信可能に接続されてもよい。
【0012】
図2は、データ管理システム1のハードウェア構成の一例を示す図である。
図2に示すようにデータ管理システム1は、記憶装置51と、CPU52と、入力装置53と、出力装置54と、ネットワークインタフェース(NW I/F)55とを有し、それらがバス線56を介して相互に接続される。
【0013】
記憶装置51は、メモリのような主記憶装置(図示せず)と、HDD(Hard Disk Drive)及びSSD(Solid State Drive)のような補助記憶装置(図示せず)とを含む。記憶装置51は、CPU52の動作を規定するプログラム、並びに、CPU52にて使用及び生成される種々の情報を記憶する。CPU52は、記憶装置51に記憶されたプログラムを読み取り、その読み取ったプログラムを実行することで種々の処理を実行するプロセッサである。
【0014】
入力装置53は、利用者から種々の情報が入力される装置であり、出力装置54は、利用者に対して種々の情報を出力(例えば、表示)する装置である。ネットワークインタフェース55は、ネットワーク5を介して、データ管理システム1、データ分析システム2、リネージ管理システム4及び端末のような外部装置と通信可能に接続する装置である。
【0015】
なお、データ管理システム1、データ分析システム2及びリネージ管理システム4のハードウェア構成は、
図2に示したリネージ単位管理システム3のハードウェア構成と同様であるため、その説明を省略する。
【0016】
図3は、データ管理システム1の機能的な構成の一例を示す図である。
図3に示すデータ管理システム1は、データ処理を実行する処理部であり、データベース11と、データベース管理部12とを有する。
【0017】
データベース11は、データ処理で使用及び生成されるデータを格納する格納部である。データは、1以上の要素を含むデータであり、本実施形態では、テーブル構造を有するテーブルデータである。この場合、データの各要素は、テーブルの各セルに格納される。
【0018】
データベース管理部12は、データベース11に格納するデータを管理する。例えば、データベース管理部12は、利用者からのデータ処理要求であるクエリに応じたデータ処理を行う。具体的には、データベース管理部12は、クエリに従ってデータベース11からデータを読み出し、その読み出したデータである入力データに対してデータ処理を行い、そのデータ処理により生成されたデータである出力データをデータベース11に格納する。クエリは、本実施形態では、SQL文で記述されている。
【0019】
図4は、データ分析システム2の機能的な構成の一例を示す図である。
図4に示すデータ分析システム2は、データ処理を解析する解析部であり、データ処理取得部21と、データ処理解析部22と、データ処理格納部23とを有する。
【0020】
データ処理取得部21は、データ管理システム1のデータベース管理部12が行ったデータ処理の実行ログ及びクエリを取得する。
【0021】
データ処理解析部22は、データ処理取得部21にて取得されたデータ処理のログ情報である実行ログを解析して、データ処理の内容を示すデータ処理情報を生成する。
【0022】
データ処理格納部23は、データ処理解析部22にて生成されたデータ処理情報を格納する。
【0023】
図5は、リネージ単位管理システム3の機能的な構成の一例を示す図である。
図5に示すリネージ単位管理システム3は、データ処理の入力データの要素と出力データの要素との対応関係を規定するリネージ規則であるリネージ単位を決定する規則管理部であり、リネージ単位判定条件格納部31と、閾値格納部32と、リネージ単位管理部33と、リネージ単位推定値算出部34と、リネージ単位判定部35とを有する。
【0024】
リネージ単位判定条件格納部31は、リネージ単位を判定するための判定条件であるリネージ単位判定条件を示すリネージ単位判定条件テーブルを格納する。本実施形態では、リネージ単位判定条件は、複数ある。閾値格納部32は、リネージ単位を判定するための閾値である判定閾値を示す閾値表であるリネージ単位判定テーブルを格納する。判定閾値は、複数あってもよい。
【0025】
リネージ単位管理部33は、利用者からの指示に基づいて、リネージ単位判定条件テーブル及びリネージ単位判定テーブルをリネージ単位判定条件格納部31及び閾値格納部32に設定する。
【0026】
リネージ単位推定値算出部34は、データ分析システム2のデータ処理格納部23に格納されたデータ処理情報と、リネージ単位判定条件格納部31に格納されたリネージ単位判定条件テーブルとに基づいて、データ処理における対象データ(入力データ及び出力データ)のリネージ単位を判定するための推定値であるリネージ単位推定値を算出する。リネージ単位推定値は、例えば、データ処理の入力データの要素と出力データの要素との対応関係に応じた値である。リネージ単位推定値算出部34は、具体的には、データ処理情報に基づいて、対象データがリネージ単位判定条件テーブルに示されるリネージ単位判定条件に該当するか否を判断し、当該判断結果に基づいて、リネージ単位推定値を算出する。
【0027】
リネージ単位判定部35は、リネージ単位推定値算出部34にて算出されたリネージ単位推定値と、閾値格納部32に格納されたリネージ単位判定テーブルにて示される判定閾値とを比較し、その比較結果に基づいて、対象データのリネージ単位を判定する。
【0028】
図6は、リネージ管理システム4の機能的な構成の一例を示す図である。
図6に示すリネージ管理システム4は、対象データの要素間の対応関係を示すリネージ情報を生成するリネージ管理部であり、リネージ管理部41と、リネージ記録部42と、リネージ表示部43と、カラム単位リネージ格納部44と、条件式単位リネージ格納部45と、セル単位リネージ格納部46とを有する。
【0029】
リネージ管理部41は、リネージ単位判定部35にて判定されたリネージ単位に基づいて、対象データのリネージ情報を生成する。
【0030】
リネージ記録部42は、リネージ管理部41が生成したリネージ情報を、そのリネージ単位に応じた格納部に記録する。本実施形態では、リネージ単位には、対象データの各要素の対応関係をカラム単位で規定する規則である「カラム単位」と、対象データの各要素の対応関係をセルの関する条件式単位で規定する規則である「条件式単位」と、対象データの価ぅ要素の対応関係をセル単位で規定する規則である「セル単位」とがある。リネージ記録部42は、カラム単位のリネージ情報をカラム単位リネージ格納部44に格納し、条件式単位のリネージ情報を条件式単位リネージ格納部45に格納し、セル単位のリネージ情報をセル単位リネージ格納部46に格納する。
【0031】
リネージ表示部43は、種々の情報を表示する。例えば、リネージ表示部43は、カラム単位リネージ格納部44、条件式単位リネージ格納部45及びセル単位リネージ格納部46に格納されたリネージ情報を表示する。情報の表示先は、特に限定されず、リネージ管理システム4などの出力装置でもよいし、利用者が使用する端末の表示画面などでもよい。
【0032】
なお、
図3~
図6に示した各機能部は、例えば、
図2に示したCPU52が記憶装置51に記憶されたプログラムを読み取り、その読み取ったプログラムを実行することで実現される。
【0033】
図7及び
図8は、データ管理システム1のデータベース11に記録されているデータの一例を示す図である。
図7及び
図8では、データとして、健康診断(以下、健診と略す)に関するデータ、特にBMI(Body Mass Index)値に関するデータが例示されているが、データの種類は特に限定されない。
【0034】
図7及び
図8の例では、データベース11は、データとして、
図7に示す、基礎疾患別患者数テーブル100、第1健診テーブル110及び第2健診テーブル120と、
図8に示す、基礎疾患累計テーブル200、健診日テーブル210及びBMI値異常テーブル220とを有する。
【0035】
基礎疾患別患者数テーブル100は、健診が行われた地区を識別する地区番号を格納するカラム101と、健診が行われた日時である健診日時を格納するカラム102と、高血圧と判断された患者の数である高血圧患者数を格納するカラム103と、糖尿病と判断された患者の数である糖尿病患者数を格納するカラム104を有する。
【0036】
第1健診テーブル110は、地区番号を格納するカラム111と、健診日時を格納するカラム112と、BMI値が30以上の患者の数であるBMI値30以上患者数を格納するカラム113とを有する。
【0037】
第2健診テーブル120は、地区番号を格納するカラム121と、健診日時を格納するカラム122と、BMI値が異常と判断された患者の数であるBMI値異常患者数を格納するカラム123とを有する。
【0038】
基礎疾患累計テーブル200は、地区番号を格納するカラム201と、健診日時を格納するカラム202と、基礎疾患を有する患者の数である基礎疾患患者数を格納するカラム203とを有する。
【0039】
健診日テーブル210は、地区番号を格納するカラム211と、健診日時を格納するカラム212と、BMI値30以上患者数を格納するカラム212とを有する。
【0040】
BMI値異常テーブル220は、健診日時を格納するカラム221と、地区3(地区番号が「3」の地区)におけるBMI値異常患者数を格納するカラム222と、地区4(地区番号が「4」の地区)におけるBMI値異常患者数を格納するカラム223とを有する。
【0041】
図9は、データ処理の実行ログの一例を示す図である。
図9に示す実行ログ300は、カラム301~305を有する。カラム301は、実行されたデータ処理を識別する実行IDを格納する。カラム302は、データ処理にて使用された入力データである入力テーブルを識別する入力テーブル名を格納する。カラム303は、データ処理にて生成された出力データである出力テーブルを識別する出力テーブル名を格納する。カラム304は、実行されたデータ処理を要求したクエリを示す実行SQL情報を格納する。カラム305は、データ処理が実行された日時である実行時間を格納する。
【0042】
図10は、リネージ単位判定条件テーブルの一例を示す図である。
図10に示すリネージ単位判定条件テーブル400は、カラム401~404を有する。
【0043】
カラム401は、リネージ単位判定条件を識別する条件IDを格納する。カラム402は、リネージ単位判定条件である判定基準を格納する。カラム403は、判定基準をリネージ単位の判定に使用するか否かを示す状態情報を格納する。カラム404は、判定基準に割り当てられた数値である重み値を格納する。
【0044】
判定基準は、本実施形態では、「出力データは入力データから特定の条件に従って抽出したデータである」、「入出力のレコード数(入力データと出力データのレコード数)が一致していない」、「出力データは入力データの集合関数(複数の集合関数の組み合わせを含む)で表現されない」、「入力データの要素が条件に応じて異なる出力先カラムと対応する」、及び、「入力データにリネージ単位が設定されている」を含む。集合関数は、SQLに備わっている関数(SUM及びMAXなど)である。なお、あるデータ処理の出力データが別のデータ処理の入力データとなることがあり、その場合には、別のデータ処理の入力データにはリネージ単位が既に設定されていることとなる。
【0045】
状態情報は、判定基準をリネージ単位の判定に使用する場合、「Active」を示し、判定基準をリネージ単位の判定に使用しない場合、「Non-Active」を示す。重みは、
図10の例では、全て同じ値であるが、異なる値でもよい。
【0046】
図11は、リネージ単位判定テーブルの一例を示す図である。
図11に示すリネージ単位判定テーブルは、カラム501~503を有する。
【0047】
カラム501は、判定閾値を識別する閾値IDを格納する。カラム502は、判定閾値を格納する。カラム502は、判定閾値に対応するリネージ単位を格納する。
【0048】
【0049】
図12は、カラム単位のリネージ情報であるカラム単位リネージテーブルの一例を示す図である。
図12に示すカラム単位リネージテーブル600は、カラム601~608を有する。
【0050】
カラム601は、リネージ情報を識別するリネージIDを格納する。カラム602は、リネージ単位を格納する。なお、
図12~
図14では、リネージ単位として、カラム単位を「1」、条件式単位を「2」、セル単位を「3」としている。カラム603は、入力データを識別する入力テーブル名を格納する。カラム604は、入力データにおいて出力データと対応関係が存在するカラムを識別する入力カラム名を格納する。カラム605は、データ処理の処理内容を格納する。カラム606は、出力データを識別する出力テーブル名を格納する。カラム607は、出力データにおいて入力カラム名のカラムと対応関係が存在する出力カラムを識別する出力カラム名を格納する。カラム608は、リネージ情報を登録した日時である登録時間を格納する。
【0051】
図13は、条件式単位のリネージ情報である条件式単位リネージテーブルの一例を示す図である。
図13に示す条件式単位リネージテーブル700は、カラム701~709を有する。
【0052】
カラム701は、リネージ情報を識別するリネージIDを格納する。カラム702は、リネージ単位を格納する。カラム703は、入力テーブル名を格納する。カラム704は、入力カラム名を格納する。カラム705は、条件式を格納する。カラム706は、データ処理に処理内容を格納する。カラム707は、出力テーブル名を格納する。カラム708は、出力カラムを識別する出力カラム名を格納する。カラム709は登録時間を格納する。
【0053】
カラム705に格納される条件式は、入力カラム名のカラムに含まれるセルに関する条件であり、例えば、
図13の例では、健診日時の値が「2021/07/01」であるセルを対応づける条件である。
【0054】
図14は、セル単位のリネージ情報であるセル単位リネージテーブルの一例を示す図である。
図14に示すセル単位リネージテーブル800は、カラム801~812を有する。
【0055】
カラム801は、リネージを識別するIDを格納する。カラム802は、リネージ単位を格納する。カラム803は、入力テーブル名を格納する。カラム804は、入力カラム名を格納する。カラム805は、入力データにおいて出力データのセルと対応関係が存在するセルを識別するための入力識別キーを格納し、カラム806は、入力識別キーの値である入力識別値を格納する。
【0056】
カラム807は、データ処理の処理内容を格納する。カラム808は出力テーブル名を格納する。カラム809は、出力カラム名を格納する。カラム810は、出力データにおいて入力データのセルと対応関係が存在するセルを識別するための出力識別キーを格納し、カラム811は、出力識別キーの値である出力識別値を格納する。カラム812は、本登録時間を格納する。
【0057】
図15は、本実施形態の情報システムの動作の一例を説明するためのフローチャートでる。
【0058】
先ず、リネージ管理システム4は、リネージ単位判定条件及び判定閾値をそれぞれリネージ単位管理システム3のリネージ単位判定条件格納部31及び閾値格納部32に設定する(ステップS101)。
【0059】
その後、データ管理システム1のデータベース管理部12は、利用者の端末などからのクエリを受信すると、そのクエリに従ってデータベース11からデータを読み出し、その読み出したデータである入力データに対してデータ処理を実行し、そのデータ処理により生成されたデータである出力データをデータベース11に格納する。このとき、データベース管理部12は、データ処理の実行ログを生成してデータベース11に格納する(ステップS102)。
【0060】
データ分析システム2のデータ処理取得部21は、データ管理システム1によるデータ処理の実行を検知し、そのデータ処理に応じた実行ログを取得する(ステップS103)。
【0061】
データ処理解析部22は、データ処理取得部21にて取得された実行ログを解析して、データ処理の内容を示すデータ処理情報を生成し、データ処理格納部23に格納する(ステップS104)。
【0062】
その後、リネージ単位管理システム3のリネージ単位推定値算出部34は、データ処理格納部23に格納されたデータ処理情報と、リネージ単位判定条件格納部31に格納されたリネージ単位判定条件テーブルとに基づいて、リネージ単位推定値を算出する推定値算出処理(
図16参照)を実行する(ステップS105)。
【0063】
リネージ単位判定部35は、リネージ単位推定値算出部34にて算出されたリネージ単位推定値と閾値格納部32に格納されたリネージ単位判定テーブルとに基づいて、対象データのリネージ単位を判定する(ステップS106)。具体的には、リネージ単位判定部35は、リネージ単位推定値とリネージ単位判定テーブル内の判定閾値とを比較し、その比較結果に基づいて、対象データのリネージ単位を判定する。
【0064】
そして、リネージ管理システム4のリネージ管理部41は、リネージ単位判定部35にて判定されたリネージ単位に基づいて、対象データのリネージ情報を生成する(ステップS107)。
【0065】
リネージ記録部42は、リネージ管理部41が生成したリネージ情報を、リネージ単位に応じて、カラム単位リネージ格納部44、条件式単位リネージ格納部45及びセル単位リネージ格納部46のいずれかに格納する(ステップS108)。
【0066】
その後、リネージ表示部43は、種々の情報を表示する。例えば、リネージ表示部43は、カラム単位リネージ格納部44、条件式単位リネージ格納部45及びセル単位リネージ格納部46に格納されたリネージ情報を表示し(ステップS109)、処理を終了する。なお、リネージ表示部43は、リネージ情報を加工して表示してもよい
【0067】
図16は、
図15のステップS105のリネージ単位推定値算出処理の一例を説明するためのフローチャートである。
【0068】
リネージ単位推定値算出処理では、先ず、リネージ単位推定値算出部34は、対象データが
図10のIDが「1」の判定基準である判定基準1「出力データは入力データから特定の条件に従って抽出したデータである」に該当しているか否かを判断する(ステップS201)。
【0069】
判定基準1に該当している場合、リネージ単位推定値算出部34は、判定基準1に対応する判定値「A」を1とする(ステップS202)。一方、判定基準1に該当していない場合、リネージ単位推定値算出部34は、判定値「A」を0とする(ステップS203)。
【0070】
続いて、リネージ単位推定値算出部34は、対象データが
図10のIDが「2」の判定基準である判定基準2「出力のレコード数が一致していない」に該当しているか否かを判断する(ステップS204)。
【0071】
判定基準2に該当している場合、リネージ単位推定値算出部34は、判定基準2に対応する判定値「B」を1とする(ステップS205)。一方、判定基準2に該当していない場合、リネージ単位推定値算出部34は、判定値「B」を0とする(ステップS206)。
【0072】
続いて、リネージ単位推定値算出部34は、対象データが
図10のIDが「3」の判定基準である判定基準3「出力データは入力データの集合関数で表現されない」に該当しているか否かを判断する(ステップS207)。
【0073】
判定基準3に該当している場合、リネージ単位推定値算出部34は、判定基準3に対応する判定値「C」を1とする(ステップS208)。一方、判定基準3に該当していない場合、リネージ単位推定値算出部34は、判定値「C」を0とする(ステップS209)。
【0074】
続いて、リネージ単位推定値算出部34は、対象データが
図10のIDが「4」の判定基準である判定基準4「入力データの要素が条件に応じて異なる出力先カラムと対応する」に該当しているか否かを判断する(ステップS210)。
【0075】
判定基準4に該当している場合、リネージ単位推定値算出部34は、判定基準4に対応する判定値「D」を1とする(ステップS211)。一方、判定基準4に該当していない場合、リネージ単位推定値算出部34は、判定値「D」を0とする(ステップS212)。
【0076】
続いて、リネージ単位推定値算出部34は、対象データが
図10のIDが「5」の判定基準である判定基準5「入力データにリネージ単位が設定されている」に該当しているか否かを判断する(ステップS213)。
【0077】
判定基準5に該当している場合、リネージ単位推定値算出部34は、判定基準5に対応する判定値「E」を1とする(ステップS214)。一方、判定基準5に該当していない場合、リネージ単位推定値算出部34は、判定基準5に対応する判定値「E」を0とする(ステップS215)。
【0078】
その後、リネージ単位推定値算出部34は、
図10に示す各判定基準1~5の重み値を用いて、各判定基準1~5の判定値A~Eの重み付き和を算出する(ステップS216)。各判定基準1~5の重み値をx
1~x
5とすると、重み付き和Yは、Y=Ax
1+bx
2+Cx
3+Dx
4+Ex
5となる。
【0079】
リネージ単位推定値算出部34は、重み付き和Yをリネージ単位推定値として算出して(ステップS217)、リネージ単位推定値算出処理を終了する。
【0080】
例えば、データ処理が
図7の基礎疾患別患者数テーブル100のカラム103の値とカラム104の値とを加えて、
図8の基礎疾患累計テーブル200を生成する処理の場合、対象データ(基礎疾患別患者数テーブル100及び基礎疾患累計テーブル200)は、判定基準3のみに該当する。このため、判定値Cが1、他の判定値が0なり、リネージ単位推定値が1となる。この場合、リネージ単位判定テーブル500を用いると、リネージ単位はカラム単位となる。
【0081】
また、データ処理が
図7の第1健診テーブル110のカラム112の値が「2021-07-01」を抽出して、
図8の健診日テーブル210を生成する処理の場合、対象データ(第1健診テーブル110及び健診日テーブル210)は、判定基準1及び3のみに該当する。このため、判定値A及びCが1、他の判定値が0となり、リネージ単位推定値が2となる。この場合、リネージ単位判定テーブル500を用いると、リネージ単位は条件式単位となる。
【0082】
また、データ処理が
図7の第1健診テーブル110及び第2健診テーブル120における地区3及び地区4のBMI値30以上患者数とBMI値異常患者数との合計を算出して、
図8のBMI値異常テーブル220を生成する処理の場合、対象データ(第1健診テーブル110、第2健診テーブル120及びBMI値異常テーブル220)は、判定基準1~4に該当する。このため、判定値A~Dが1、判定値Eが0となり、リネージ単位推定値が4となる。この場合、リネージ単位判定テーブル500を用いると、リネージ単位はセル単位となる。
【0083】
なお、
図7に示した基礎疾患別患者数テーブル100、第1健診テーブル110及び第2健診テーブル120にはリネージ単位が設定されていないものとした。
【0084】
図17~
図20は、リネージ表示部43が表示する表示画面の一例を示す図である。
【0085】
図17は、メイン画面の一例を示す図である。
図17に示すメイン画面1000は、
図15のステップS101及びS109などの処理で表示される画面であり、設定ボタン1001と、表示ボタン1002とを含む。設定ボタン1001は、リネージ単位判定条件及び判定閾値を設定するためボタンである。表示ボタン1002は、リネージ情報を表示するためのボタンである。
【0086】
図18は、リネージ単位判定条件設定画面の一例を示す図である。
図18に示すリネージ単位判定条件設定画面1100は、リネージ単位判定条件及び判定閾値を設定するための画面であり、例えば、
図17の設定ボタン1001が押下された際に表示される。
【0087】
リネージ単位判定条件設定画面1100は、リネージ単位判定条件表1101と、追加ボタン1102と、修正ボタン1103と、削除ボタン1104と、リネージ単位判定表1105と、修正ボタン1106と、戻りボタン1107とを有する。
【0088】
リネージ単位判定条件表1101は、現在設定されているリネージ単位判定条件テーブルの内容を示す。追加ボタン1102は、判定基準をリネージ単位判定条件テーブルに追加するためのボタンである。修正ボタン1103は、リネージ単位判定条件テーブルの内容を修正するためのボタンである。削除ボタン1104は、判定基準をリネージ単位判定条件テーブルから削除するためのボタンである。
【0089】
リネージ単位判定表1105は、現在設定されているリネージ単位判定テーブルの内容を示す。修正ボタン1106は、リネージ単位判定テーブルの内容を修正するためのボタンである。
【0090】
戻りボタン1108は、リネージ単位判定条件及び判定閾値の設定を終了してメイン画面1000に戻るためのボタンである。
【0091】
図19は、リネージ表示内容入力画面の一例を示す図である。
図19に示すリネージ表示内容入力画面1200は、表示するリネージ情報の内容を設定するための画面であり、例えば、
図17の表示ボタン1002が押下された際に表示される。
【0092】
リネージ表示内容入力画面1200は、項目入力欄1201と、対象単位入力欄1203と、対象データ名入力欄1204と、表示リネージ単位入力欄1205と、実行ボタン1206と、戻りボタン1207とを有する。
【0093】
項目入力欄1201は、表示するリネージ情報の項目を入力するための欄である。対象単位入力欄1203は、表示するリネージ情報の単位を入力するための欄である。対象データ名入力欄1204は、表示するリネージ情報のデータ(出力データ)の名称を入力するための欄である。表示リネージ単位入力欄1205は、表示するリネージ情報のデータのリネージ単位入を入力するための欄である。
【0094】
実行ボタン1206は、入力欄1201~1205に入力された内容を確定して、リネージ情報を表示するためのボタンである。戻るボタン1207は、リネージ情報の表示を中止して、メイン画面1000に戻るためのボタンである。
【0095】
図20は、データリネージ表示画面の一例を示す図である。
図20に示すデータリネージ表示画面1300は、入力データ1301と、出力データ1302と、リンク情報1303とを有する。
【0096】
入力データ1301及び出力データ1302は、互いに対応関係を有するデータである。リンク情報1303は、入力データ1301及び出力データ1302の対応関係を示す情報であり、
図20の例では、入力データ1301及び出力データ1302における互いに対応関係を有するセルの関係を示す。
【0097】
以上説明したように本実施形態によれば、リネージ単位管理システム3は、1以上の要素を含む入力データから1以上の要素を含む出力データを生成するデータ処理の処理内容に基づいて、リネージ単位を決定する。リネージ管理システム4は、リネージ単位に従って、入力データの要素と出力データの要素との対応関係を示すリネージ情報を生成する。したがって、データ処理の内容に応じたリネージ単位に従って、リネージ情報が生成されるため、より適切なリネージ管理が可能となる。
【0098】
また、本実施形態では、リネージ単位推定値とリネージ単位判定テーブルとに基づいてリネージ単位が決定される。リネージ単位推定値は、具体的には、入力データ及び出力データを含む対象データがリネージ単位判定条件に該当するか否かの判断結果に基づいて算出される。このため、データ処理に応じた適切な判定条件に基づいてリネージ単位が決定されるため、より適切なリネージ管理が可能となる。
【0099】
また、本実施形態では、リネージ単位判定条件は複数あるため、より適切にリネージ単位を決定することができる。
【0100】
また、本実施形態では、対象データが該当したリネージ単位判定条件のそれぞれに対して割り当てられた重み値の和であるリネージ単位推定値に応じて、リネージ単位が決定される。したがって、リネージ単位判定条件の重要度などを考慮してリネージ単位を決定することが可能となるため、より適切にリネージ単位を決定することができる。
【0101】
また、本実施形態では、リネージ単位は、カラム単位、セル単位及び条件式単位を含む。このため、テーブルデータに適したリネージ単位を決定することが可能となる。
【0102】
(第2の実施形態)
次に第2の実施形態について説明する。
【0103】
本実施形態では、第1の実施形態と比べて、
図15のステップS105のリネージ単位推定値算出処理が異なる。
【0104】
図21は、本実施形態のリネージ単位推定値算出処理の一例を説明するためのフローチャートである。
【0105】
本実施形態のリネージ単位推定値算出処理では、先ず、リネージ単位推定値算出部34は、閾値格納部32からリネージ単位判定テーブルを取得し(ステップS301)、リネージ単位判定条件格納部31からリネージ単位判定条件テーブルを取得する(ステップS302)。
【0106】
リネージ単位推定値算出部34は、データ分析システム2のデータ処理格納部23に格納されたデータ処理情報に基づいて、データ処理における対象データがリネージ単位判定条件テーブルにて示される判定基準(リネージ単位判定条件)のいずれかに該当するか否かを判断する(ステップS303)。この判断は、例えば、
図16のステップS201~S215までの処理を行うことでできる。
【0107】
判定基準のいずれかに該当する場合、リネージ単位推定値算出部34は、リネージ単位判定条件テーブルに基づいて、該当する判定基準のそれぞれの重み値の和をリネージ単位推定値として算出する(ステップS304)。そして、リネージ単位判定部35は、リネージ単位推定値とリネージ単位判定テーブル内の判定閾値とを比較し、その比較結果に基づいて、対象データのリネージ単位を判定し(ステップS305)、処理を終了する。
【0108】
一方、判定基準のいずれにも該当しない場合、リネージ単位判定部35は、リネージ単位判定テーブルに基づいて、対象データのリネージ単位を判定し(ステップS306)、処理を終了する。
【0109】
以上説明したように本実施形態によれば、対象データが判定基準のいずれにも該当しない場合でも、適切なリネージ規則を判定することが可能となる。
【0110】
上述した本開示の実施形態は、本開示の説明のための例示であり、本開示の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本開示の範囲を逸脱することなしに、他の様々な態様で本開示を実施することができる。
【符号の説明】
【0111】
1:データ管理システム 2:データ分析システム 3:リネージ単位管理システム 4:リネージ管理システム 11:データベース 12:データベース管理部 21:データ処理取得部 22:データ処理解析部 23:データ処理格納部 31:リネージ単位判定条件格納部 32:閾値格納部 33:リネージ単位管理部 34:リネージ単位推定値算出部 35:リネージ単位判定部 41:リネージ管理部 42:リネージ記録部 43:リネージ表示部 44:カラム単位リネージ格納部 45:条件式単位リネージ格納部 46:セル単位リネージ格納部