IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士フイルム株式会社の特許一覧

特開2024-157440教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム
<>
  • 特開-教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム 図1
  • 特開-教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム 図2
  • 特開-教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム 図3
  • 特開-教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム 図4
  • 特開-教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム 図5
  • 特開-教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム 図6
  • 特開-教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム 図7
  • 特開-教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム 図8
  • 特開-教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム 図9
  • 特開-教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム 図10
  • 特開-教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム 図11
  • 特開-教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024157440
(43)【公開日】2024-11-07
(54)【発明の名称】教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラム
(51)【国際特許分類】
   G16H 50/70 20180101AFI20241030BHJP
【FI】
G16H50/70
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023071811
(22)【出願日】2023-04-25
(71)【出願人】
【識別番号】306037311
【氏名又は名称】富士フイルム株式会社
(74)【代理人】
【識別番号】110001988
【氏名又は名称】弁理士法人小林国際特許事務所
(72)【発明者】
【氏名】金田 隆大
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA21
(57)【要約】
【課題】教師データの安全性及び品質の安定性を保ちながら、特定のデータの削除が可能である教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラムを提供する。
【解決手段】教師データ管理装置はプロセッサを備え、プロセッサは、検診データと検診データに基づいて生成された診断データとを関連付けた教師データをデータ保管部に保管し、データ保管部から特定の検診データを削除し、削除した検診データに関連付けられていた診断データを特定し、特定した診断データに基づいて、削除した検診データに擬似的な擬似検診データを生成し、擬似検診データを、特定した診断データと関連付けてデータ保管部に保管する。
【選択図】図1
【特許請求の範囲】
【請求項1】
プロセッサを備え、
前記プロセッサは、
個人が受診した検診により得られる検診データと前記検診データに基づいて生成された診断データとを関連付けて有する教師データをデータ保管部に保管し、
前記データ保管部から特定の前記検診データを削除し、
削除した前記検診データに関連付けられていた前記診断データを特定し、
特定した前記診断データに基づいて、削除した前記検診データに擬似的な擬似検診データを生成し、
前記擬似検診データを、特定した前記診断データと関連付けて前記データ保管部に保管する教師データ管理装置。
【請求項2】
特定の前記検診データは、前記個人から情報提供の同意が撤回された内容を含む前記検診データである請求項1に記載の教師データ管理装置。
【請求項3】
前記擬似検診データは、削除した前記検診データが有する特徴と同様の特徴を有する前記検診データである請求項1に記載の教師データ管理装置。
【請求項4】
前記擬似検診データは、削除した前記検診データと完全には一致しない前記検診データである請求項1に記載の教師データ管理装置。
【請求項5】
前記データ保管部は、検診を受診した前記個人の個人IDと前記検診データとを第1仮名IDにより紐付け、かつ、前記第1仮名IDと前記診断データとを第2仮名IDにより紐付けることにより、前記個人ID、前記検診データ及び前記診断データとを関連付けて有する前記教師データを保管する請求項1に記載の教師データ管理装置。
【請求項6】
前記プロセッサは、前記個人IDと前記第1仮名IDとからなる仮名逆引きテーブルと、前記第1仮名IDと前記検診データとからなる仮名検診テーブルと、前記第1仮名IDと前記第2仮名IDとからなる検診診断逆引きテーブルと、前記第2仮名IDと前記診断データとからなる仮名診断テーブルとを生成し、
前記データ保管部は、前記仮名逆引きテーブル、前記仮名検診テーブル、前記検診診断逆引きテーブル、及び前記仮名診断テーブルを、前記データ保管部に保管する請求項5に記載の教師データ管理装置。
【請求項7】
前記プロセッサは、データ保管部から特定の個人の前記検診データを削除する場合、前記仮名逆引きテーブルにおける特定の個人の前記個人ID及びこれに紐付けられた特定の前記第1仮名ID、前記仮名検診テーブルにおける特定の前記第1仮名ID及びこれに紐付けられた特定の前記検診データ、並びに、前記検診診断逆引きテーブルにおける特定の前記第1仮名ID及びこれに紐付けられた特定の前記第2仮名IDを削除する請求項6に記載の教師データ管理装置。
【請求項8】
前記プロセッサは、擬似検診データ生成モデルにより前記擬似検診データを生成し、
前記擬似検診データ生成モデルは、削除した前記検診データと前記診断データとを入力することにより前記擬似検診データを生成するよう学習が行われた学習済みモデルである請求項1に記載の教師データ管理装置。
【請求項9】
前記プロセッサは、削除した前記検診データと前記擬似検診データとの一致度を示す再構成誤差を算出し、
前記擬似検診データ作成モデルは、前記再構成誤差の絶対値が正数になるように前記擬似検診データを生成する請求項8に記載の教師データ管理装置。
【請求項10】
前記擬似検診データ作成モデルは、削除した前記検診データと前記診断データとを入力することにより前記擬似検診データを生成する生成モデルと、生成した前記擬似検診データを評価する評価モデルとが接続されたモデルである請求項8に記載の教師データ管理装置。
【請求項11】
検診データと前記検診データに基づいて生成された診断データとを関連付けた教師データをデータ保管部に保管するステップと、
前記データ保管部から、特定の前記検診データを削除するステップと、
削除した前記検診データに関連付けられていた前記診断データを特定するステップと、
特定した前記診断データに基づいて、削除した前記検診データに擬似的な擬似検診データを生成するステップと、
前記擬似検診データを、特定した前記診断データと関連付けて前記データ保管部に保管するステップとを備える教師データ管理方法。
【請求項12】
コンピュータに、
検診データと前記検診データに基づいて生成された診断データとを関連付けた教師データとしてデータ保管部に保管する機能と、
前記データ保管部から、特定の前記検診データを削除する機能と、
削除した前記検診データに関連付けられていた前記診断データを特定する機能と、
特定した前記診断データに基づいて、削除した前記検診データに擬似的な擬似検診データを生成する機能と、
前記擬似検診データを、特定した前記診断データと関連付けて前記データ保管部に保管する機能とを実行させる教師データ管理用プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラムに関する。
【背景技術】
【0002】
近年、医療分野において、医療において得られる各種の医用データを用いた機械学習の技術が開発されている。しかしながら、上記のような医用データには個人情報が含まれ得るため、機械学習に用いる医用データを個人情報保護の観点から安全に取り扱うことが検討されている。
【0003】
例えば、患者からの患者情報と診療情報とを分散して記憶し、第三者に提供する際に、患者の同意情報も提供する提供装置が知られている(特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2022-143911号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
個人情報保護の観点から、個人から同意を得て各種の利用のために提供された個人情報であっても、個人の意思表示により提供を撤回することができる(オプトアウト)。この場合、提供を撤回する意思表示の後は、この個人情報を利用しないようにする必要がある。
【0006】
しかしながら、個人情報を含むデータを学習モデルのための教師データ等に利用していた場合等、提供が撤回されたデータを削除することにより、教師データの品質の安定性が損なわれる場合があった。教師データの品質の安定性が損なわれることにより、これを用いた学習モデルの精度等が低下する懸念があった。
【0007】
本発明は、教師データの安全性及び品質の安定性を保ちながら、特定のデータの削除が可能である教師データ管理装置、教師データ管理方法、及び教師データ管理用プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の教師データ管理装置は、プロセッサを備え、プロセッサは、個人が受診した検診により得られる検診データと検診データに基づいて生成された診断データとを関連付けて有する教師データをデータ保管部に保管し、データ保管部から特定の検診データを削除し、削除した検診データに関連付けられていた診断データを特定し、特定した診断データに基づいて、削除した検診データに擬似的な擬似検診データを生成し、擬似検診データを、特定した診断データと関連付けてデータ保管部に保管する。
【0009】
特定の検診データは、個人から情報提供の同意が撤回された内容を含む検診データであることが好ましい。
【0010】
擬似検診データは、削除した検診データが有する特徴と同様の特徴を有する検診データであることが好ましい。
【0011】
擬似検診データは、削除した検診データと完全には一致しない検診データであることが好ましい。
【0012】
データ保管部は、検診を受診した個人の個人IDと検診データとを第1仮名IDにより紐付け、かつ、第1仮名IDと診断データとを第2仮名IDにより紐付けることにより、個人ID、検診データ及び診断データとを関連付けて有する教師データを保管することが好ましい。
【0013】
プロセッサは、個人IDと第1仮名IDとからなる仮名逆引きテーブルと、第1仮名IDと検診データとからなる仮名検診テーブルと、第1仮名IDと第2仮名IDとからなる検診診断逆引きテーブルと、第2仮名IDと診断データとからなる仮名診断テーブルとを生成し、データ保管部は、仮名逆引きテーブル、仮名検診テーブル、検診診断逆引きテーブル、及び仮名診断テーブルを、データ保管部に保管することが好ましい。
【0014】
プロセッサは、データ保管部から特定の個人の検診データを削除する場合、仮名逆引きテーブルにおける特定の個人の個人ID及びこれに紐付けられた特定の第1仮名ID、仮名検診テーブルにおける特定の第1仮名ID及びこれに紐付けられた特定の検診データ、並びに、検診診断逆引きテーブルにおける特定の第1仮名ID及びこれに紐付けられた特定の第2仮名IDを削除することが好ましい。
【0015】
プロセッサは、擬似検診データ生成モデルにより擬似検診データを生成し、擬似検診データ生成モデルは、削除した検診データと診断データとを入力することにより擬似検診データを生成するよう学習が行われた学習済みモデルであることが好ましい。
【0016】
プロセッサは、削除した検診データと擬似検診データとの一致度を示す再構成誤差を算出し、擬似検診データ作成モデルは、再構成誤差の絶対値が正数になるように擬似検診データを生成することが好ましい。
【0017】
擬似検診データ作成モデルは、削除した検診データと診断データとを入力することにより擬似検診データを生成する生成モデルと、生成した擬似検診データを評価する評価モデルとが接続されたモデルであることが好ましい。
【0018】
本発明の教師データ管理方法は、検診データと検診データに基づいて生成された診断データとを関連付けた教師データをデータ保管部に保管するステップと、データ保管部から、特定の検診データを削除するステップと、削除した検診データに関連付けられていた診断データを特定するステップと、特定した診断データに基づいて、削除した検診データに擬似的な擬似検診データを生成するステップと、擬似検診データを、特定した診断データと関連付けてデータ保管部に保管するステップとを備える。
【0019】
本発明の教師データ管理用プログラムは、コンピュータに、検診データと検診データに基づいて生成された診断データとを関連付けた教師データとしてデータ保管部に保管する機能と、データ保管部から、特定の検診データを削除する機能と、削除した検診データに関連付けられていた診断データを特定する機能と、特定した診断データに基づいて、削除した検診データに擬似的な擬似検診データを生成する機能と、擬似検診データを、特定した診断データと関連付けてデータ保管部に保管する機能とを実行させる。
【発明の効果】
【0020】
本発明によれば、教師データの安全性及び品質の安定性を保ちながら、特定のデータの削除を可能とする。
【図面の簡単な説明】
【0021】
図1】教師データ管理装置の機能を説明するブロック図である。
図2】教師データ管理装置を含む医療情報管理システムの構成を説明する説明図である。
図3】データ保管部が有する各種のテーブルを説明する説明図である。
図4】仮名逆引きテーブルの内容を説明する説明図である。
図5】仮名検診テーブルの内容を説明する説明図である。
図6】検診診断逆引きテーブルの内容を説明する説明図である。
図7】仮名診断テーブルの内容を説明する説明図である。
図8】検診データの削除を説明する説明図である。
図9】擬似検診データ生成部の機能を説明するブロック図である。
図10】擬似検診データ生成部の機能を説明する説明図である。
図11】再構成精度抑制部の機能を説明する説明図である。
図12】教師データ管理装置における処理の流れを説明するフローチャートである。
【発明を実施するための形態】
【0022】
本発明の教師データ管理装置等の実施形態の一例について説明する。まず、以下の実施形態の一形態を得るに至った経緯を説明する。機械学習技術を用いた医用学習モデルを生成する際に、個人の検診データ及び検診データに基づく診断データを教師データとして医用学習モデルを生成していた。
【0023】
個人情報の保護の観点から、一度提供された個人情報であっても提供者の意思表示によ提供を撤回することができる(オプトアウト)。この場合、蓄積された教師データの中から該当する個人情報を含むデータを削除しなければならず、その結果として、この教師データにより学習を行う学習モデルの精度等が低下することが起こりうる。
【0024】
そこで、本発明では、学習モデルの精度等の低下をもたらす教師データの品質を低下させず、教師データの品質の安定性を保ちながら、特定のデータの削除が可能である教師データ管理装置等を提供する。
【0025】
本発明の教師データ管理装置等によれば、削除対象となった個人情報を含む検診データに紐付く診断情報から、擬似的に検診データを生成し、これを、削除された個人情報である検診データの代わりのダミーデータとして使用する。削除された個人情報の代わりにダミーデータを用いて学習することで、学習モデルの質の低下を最低限に抑えることができた。
【0026】
本明細書では、教師データ、検診データ、又は診断データという場合には、各データが1つの場合、複数の場合、及びデータセットである場合を含む。なお、本実施形態では、教師データとして医用データ、例えば、検診データ、診断データ等を用るが、本発明は、医用データ以外のデータを用いることができる。例えば、顧客の個人情報を取り扱う金融に関するデータを含む教師データ等にも本発明は適用可能である。また、本明細書では、「学習モデル」には、学習済みのモデルを含む場合がある。
【0027】
本発明の教師データ管理装置は、機械学習に用いる教師データを管理する装置である。図1に示すように、教師データ管理装置10は、データ保管部11、検診データ削除部12、診断データ特定部13、擬似検診データ生成部14、及び、擬似検診データ置換部15とを備える。
【0028】
データ保管部11は、検診データと検診データに基づいて生成された診断データとを関連付けて有する教師データを保管する。検診データと診断データとは、独立して保管することが好ましい。これにより、それぞれについて削除等の編集が可能となる。この場合、検診データと診断データとを紐付ける別のデータを備えることにより、両者の関連付けを行うことが好ましい。
【0029】
検診データとは、個人が検診を受けたこと等によって得られた各種検査の結果を含むデータであり、一般的に健診データと記載されるものも含む。診断データとは、医師が、検診データ等に基づいて診断した診断結果を含むデータである。教師データとは、機械学習アルゴリズムである学習モデルによって学習するために用いられる正解のラベルが付されたデータセットである。検診データに対しては、正解のラベルは検診データに基づいて医師が診断した診断データである。したがって、教師データは、検診により得られる検診データと検診データに基づいて生成された診断データとを関連付けて有するデータセットである。
【0030】
教師データは、学習モデルの学習に使用することができるものであればよい。好ましくは、この教師データを用いて学習モデルに学習をさせた学習済みモデルに、診断データが未知である検診データを入力した場合に、この検診データに対応した正解である診断データを出力するような学習を行うことが可能な教師データであることが好ましい。
【0031】
検診データ削除部12は、データ保管部11から特定の検診データを削除する。ユーザがデータ保管部11から削除したい検診データを指定し、これを特定の検診データとする。データ保管部11に保管された検診データのうち、検診データの元となる検診を受診した個人から、検診データについて情報提供の同意が撤回された等の理由により、この検診データを削除したい場合がありうる。例えば、同意撤回後に、データ保管部11が保管するこの検診データが含まれる教師データを使用する場合には、情報提供の同意が撤回された対象の検診データをデータ保管部11から削除してから使用することが必要となる。
【0032】
診断データ特定部13は、削除した検診データに関連付けられていた診断データを特定する。検診データと診断データとは関連付けられているため、削除した検診データから、この検診データに関連付けられる診断データが特定可能である。特定された診断データは、擬似検診データ生成部14が使用する。
【0033】
擬似検診データ生成部14は、特定した診断データに基づいて、削除した検診データに擬似的な擬似検診データを生成する。削除した検診データに擬似的な擬似検診データとは、削除した検診データとは異なるが、その性質、特徴等が削除した検診データに類似しているデータを意味する。性質、特徴等とは、教師データとしての性質、特徴等である。したがって、性質、特徴等が削除した検診データに類似している場合、この擬似検診データを教師データとして用いた場合に、削除した検診データを教師データとして用いた場合と比較して、得られる学習済みモデルにおいて差が少ない。すなわち、削除した検診データに擬似的な擬似検診データは、削除した検診データを含む教師データと擬似検診データを含む教師データとの両者をそれぞれ用いて学習モデルを学習させた場合に、どちらの教師データを用いたのか、学習済みモデルが出力する結果からは見分けがつかないように似ているといった擬似的な検診データであることが好ましい。
【0034】
擬似検診データは、上記したように、削除した検診データが有する特徴と同様の特徴を有する検診データであることが好ましい。この場合の特徴とは、具体的には、データの分布、傾向、統計的特徴等であり、削除した検診データと擬似検診データとは、類似のデータの分布、傾向、統計的特徴等を持つものであることが好ましい。
【0035】
また、擬似検診データは、削除した検診データと完全には一致しないデータであることが好ましい。擬似的な擬似検診データが、削除した検診データと完全に一致するデータである場合、削除しようとする検診データとの区別がつかず、検診データを削除することにならないおそれがある。検診データ自体の特異的な特徴により個人が特定可能な場合もあり得る。擬似検診データが、削除した検診データと完全には一致しないデータであることにより、削除を希望する検診データが削除されていることを明確にすることができる。
【0036】
なお、完全には一致しないデータとは、特定の検診データが複数の値等を含むデータである場合、削除した検診データと擬似検診データとにおいて、すべての値等が一致するデータをいう。したがって、擬似検診データは、削除した検診データと一部が一致するものであってもよい。
【0037】
以上のように、削除した検診データと擬似検診データとは、同様の特徴を有するため、特定の検診データを削除する前の教師データと、特定の検診データを削除して、代わりに、擬似検診データを含むようにした教師データとにより、それぞれ学習モデルを学習させた学習済みモデルにおいて、どちらの教師データを用いたものであるのか、学習済みモデルが出力する結果からは見分けがつかないようなものとなる。したがって、擬似検診データを含むようにした教師データを学習に用いた場合であっても学習済みモデルの品質を保つようにすることが可能となり、このような教師データは、品質の低下が最低限に抑えられるため、品質の安定性が保たれる。
【0038】
擬似検診データの生成には、生成モデルである擬似検診データ生成モデルを用いることができる。擬似検診データ生成モデルは、削除した検診データとこの検診データに基づいて生成された診断データとを入力することにより、擬似検診データを出力するように学習が行われた学習済みの生成モデルである。好ましくは、擬似検診データ生成モデルは、削除した検診データと完全には一致しないが、この検診データに擬似的な擬似検診データを出力するように学習される。したがって、擬似検診データ生成モデルは、入力した検診データに類似した検診データを復元するような機能を有する。
【0039】
擬似検診データ生成モデルは、検診データに擬似的な擬似検診データを出力できるものであればいずれの学習モデルを採用してもよく、教師あり学習用の学習モデル、又は、教師なし学習用の学習モデルのいずれを用いてもよい。擬似検診データ生成用モデルは、生成する擬似検診データが優れることから、ニューラルネットワーク(neural network、NN)モデルを用いることが好ましい。より好ましくは、多数の隠れ層を持つ深いネットワーク構造であるディープニューラルネットワーク(Deep Neural Network、DNN)が好ましい。
【0040】
また、擬似検診データ生成モデルの学習モデルの構成として、入力した検診データに擬似的なデータを正解のラベルである診断データを与えることにより好ましく作成できることから、生成器と識別器とを有する教師あり学習モデルに分類される条件付き敵対的生成ネットワーク(Conditional Generative Adversarial Networks、Conditional GAN)、教師あり学習モデルに分類される条件付き変分オートエンコーダー(Conditional Variational Autoencoders、Conditional VAE)等の生成モデルを用いてもよい。
【0041】
擬似検診データ置換部15は、擬似検診データを、削除した検診データと関連付けられていた特定の診断データと関連付けて、データ保管部11に保管する。すなわち、擬似検診データ置換部15は、削除した検診データの代わりとして、擬似検診データ生成部14が生成した擬似検診データを、特定の診断データと関連付けてデータ保管部11に保管する。したがって、特定の検診データを削除した後は、擬似検診データとこれに関連付けられた診断データとが、削除した検診データとこれに対応する診断データとを置換するようにして教師データを形成し、データ保管部11に保管される。
【0042】
以上のように、教師データ管理装置10は、データ保管部11に保管している教師データにおいて、任意の特定のデータを削除することができるため、教師データは不適切なデータを含まず、教師データの安全性を保つことができる。また、特定のデータを削除しても、性質、特徴等が類似する擬似検診データを生成し、削除したデータの代わりに用いることができるため、教師データの品質の安定性が保たれる。したがって、教師データ管理装置10は、教師データの安全性及び品質の安定性を保ちながら、特定のデータの削除を可能とする。
【0043】
次に、教師データ管理装置10等について、実施形態の一例を図面に基づいて説明する。図2に示すように、診療情報管理システム20は、病院等の医療施設において診療情報を管理するコンピュータシステムである。診療情報管理システム20は、教師データ管理装置10と、サーバ群21と、クライアント端末22とを備え、これらはネットワーク23により通信可能に接続される。
【0044】
教師データ管理装置10は、図2に示すように医療施設内に設置されることが、個人情報管理の点から好ましい。この場合は、ネットワーク23は、医療施設内に敷設されたLAN(Local Area Network)等である。なお、教師データ管理装置10は、個人情報の管理を適切に行うことが可能であれば、医療施設外に設置してもよい。
【0045】
教師データ管理装置10は、プロセッサを備えるコンピュータをベースに、オペレーティングシステムプログラムと、クライアントプログラム等のアプリケーションプログラムをインストールして構成する。教師データ管理装置10は、ストレージ(図示せず)に、オペレーティングシステム等の他、教師データ管理用プログラムを記憶する。
【0046】
教師データ管理用プログラムは、教師データ管理装置10を構成するコンピュータに、教師データ管理装置10としての機能を実行させるためのアプリケーションプログラムである。教師データ管理装置10が起動すると、教師データ管理装置10が備えるプロセッサ(図示せず)がメモリ(図示せず)と協働して教師データ管理用プログラムを実行し、データ保管部11、検診データ削除部、診断データ特定部13、擬似検診データ生成部14、擬似検診データ置換部15等として機能する。
【0047】
サーバ群21は、教師データ管理装置10に、検査データ等を提供する。サーバ群21は、電子カルテサーバ24、画像サーバ25、レポートサーバ26等を含む。
【0048】
電子カルテサーバ24は、電子カルテを格納するカルテデータベース24Aを有する。電子カルテは、1または複数の診療データの集合体である。具体的には、電子カルテは、検診データ及び検診データに基づいて生成された診断データを含む。その他、診察記録、検体検査の結果、患者のバイタルサイン、検査等のオーダ、治療記録、会計データ等の診療データを含む。
【0049】
画像サーバ25は、いわゆるPACS(Picture Archiving and Communication System)サーバであり、医用画像が格納される画像データベース25Aを有する。医用画像とは、CT検査、MRI検査、X線検査、超音波検査、または内視鏡検査等の各種画像検査で得られる画像である。これらの医用画像は、例えばDICOM(Digital Imaging and Communications in Medicine)規格に準拠したフォーマットで記録する。
【0050】
レポートサーバ26は、読影レポート等の医用レポートを格納するレポートデータベース26Aを有する。医用レポートとは、読影レポート、精密検査レポートを含み、画像検査、検体検査等の検査で得た画像や数値及び所見をまとめた報告書である。医用画像の読影及び読影レポートの作成は読影医が行う。
【0051】
クライアント端末22は、医師、検査技師、または看護師等の医療スタッフが直接的に操作するコンピュータ(タブレット端末等である場合を含む)等である。クライアント端末22は、サーバ群21の各種サーバに対する操作、教師データ管理装置10に対する操作が可能である。医師は、クライアント端末22により、サーバ群21にアクセスし、検診データの確認及びこの検診データに基づいて生成した診断データを、教師データ管理装置10に保管することができる。また、教師データ管理装置10のデータ保管部11に保管されている検診データであって、削除したい検診データを特定して、削除を指示することができる。
【0052】
上記の電子カルテ、医用画像、及び、レポートには、それぞれ、患者毎に付与される個人ID(identifier)が付帯する。また、教師データ管理装置10は、電子カルテサーバ24、画像サーバ25、レポートサーバ26等から得られる各種のデータを、診療支援装置等(図示せず)により解析することにより得られる各種の情報、これらの情報に基づき医師が診断した結果等を、検診データ又は診断データとして得てもよい。例えば、教師データ管理装置10は、画像サーバ25から得られるCT検査画像を診療支援装置が解析して得た各種の検査結果を検診データとして得てもよく、また、この検査結果に基づいて医師がクライアント端末22を用いて診断して生成した診断データを得てもよい。
【0053】
教師データ管理装置10は、サーバ群21から得た、個人が受診した検診により得られる検診データと、この検診データに基づいて生成された診断データとを関連付けて有する教師データをデータ保管部11に保管する。
【0054】
データ保管部11は、好ましくは、教師データにおいて、検診を受診した個人の個人IDと検診データとを第1仮名IDにより紐付け、かつ、第1仮名IDと診断データとを第2仮名IDに紐づける態様で保管する。
【0055】
データ保管部11は、これらのデータを複数のテーブル又はデータベースにより保管することが好ましい。テーブルは、関連するデータを表形式で整理して格納するための構造物であり、行と列からなる表形式のデータを保持する。データベースは、複数のテーブルを含み、場合によっては、複数のテーブル間の関係性を保持する場合がある。データ保管部11は、データの削除が容易であることから、これらのデータをテーブルにより保管することがより好ましい。
【0056】
データ保管部11は、個人ID、検診データ、及び診断データを、それぞれ別のテーブルにより保管することが好ましい。第1仮名ID及び第2仮名IDとにより、個人ID、検診データ、及び診断データは、別々のテーブルにより保管されていても、個人IDからそれぞれを逆引きしてたどることが可能なように保管することが好ましい。また、それぞれのデータを個別のテーブルとして保管することにより、個別のテーブルのいずれかが漏洩したとしても、個人IDから直接検診データ及び/又は診断データを得ることができず、また、その逆も不可能であるため、個人情報保護の観点から安全性を高く保つことができる。
【0057】
データ保管部11は、好ましくは、個人IDと第1仮名IDとからなる仮名逆引きテーブルと、第1仮名IDと検診データとからなる仮名検診テーブルと、第1仮名IDと第2仮名IDとからなる検診診断逆引きテーブルと、第2仮名IDと診断データとからなる仮名診断テーブルとを生成する。
【0058】
図3に示すように、具体的には、データ保管部11は、個人IDと第1仮名IDとが紐付けられた仮名逆引きテーブル31、第1仮名IDと検診データである具体的な測定データとが紐付けられた仮名検診テーブル32、第1仮名IDと第2仮名IDとが紐付けられた検診診断逆引きテーブル33、及び、第2仮名IDと検診データから医師が診断した結果である診断データとが紐付けられた仮名診断テーブル34を備えることが好ましい。これらのテーブルにより、上記したように、教師データにおいて、検診を受診した個人の個人IDと検診データとを第1仮名IDにより紐付け、かつ、第1仮名IDと診断データとを第2仮名IDに紐づける。
【0059】
図4に示すように、仮名逆引きテーブル31は、個人ID35と第1仮名ID36とが紐付けられたデータである。図4では、個人ID35として「田中太郎」と第1仮名ID36である「ano001」とが紐付けられており、同様に、個人ID35として「木村花子」と第1仮名ID36である「ano002」とが紐付けられていることが示されている。
【0060】
図5に示すように、仮名検診テーブル32は、第1仮名ID36と具体的な測定データである検診データ37とが紐付けられたデータである。図5では、第1仮名ID36として「ano001」と検診データ37である「身長:177、体重:67、γGTP:28等」とが紐付けられており、同様に、第1仮名ID36として「ano002」と検診データ37である「身長:158、体重:124、γGTP:93等」とが紐付けられていることが示されている。
【0061】
図6に示すように、検診診断逆引きテーブル33は、第1仮名ID36と第2仮名ID38とが紐付けられたデータである。図6では、第1仮名ID36として「ano001」と第2仮名ID38である「unknown001」とが紐付けられており、同様に、第1仮名ID36として「ano002」と第2仮名ID38である「unknown002」とが紐付けられていることが示されている。
【0062】
図7に示すように、検診診断逆引きテーブル33は、第2仮名ID38と診断データ39とが紐付けられたデータである。図7では、第2仮名ID38として「unknown001」と診断データ39である「所見なし」とが紐付けられており、同様に、第2仮名ID38として「unknown002」と診断データ39である「肥満」とが紐付けられていることが示されている。
【0063】
上記のように保管されている検診データ37は、各種の利用のために、検診を受診した個人から検診データ37の情報提供の同意が取得されている。一旦同意したとしても、個人が検診データ37に関する情報提供の同意を撤回することが可能である。同意が撤回された後は、同意を撤回した個人の検診データ37を使用することはできない。したがって、同意を撤回した個人の検診データ37を、データ保管部11から削除する必要がある。また、個人が情報提供の同意を撤回する場合以外であっても、検診データ37又は診断データ39において、より好ましい教師データとするために、検診データ37又は診断データ39を削除する等の編集を行いたい場合が考えられる。
【0064】
データ保管部11から、特定の個人の検診データ37を削除する場合、検診データ削除部12は、仮名逆引きテーブル31における特定の個人の個人ID35及びこれに紐付けられた特定の第1仮名ID36、仮名検診テーブル32における特定の第1仮名ID36及びこれに紐付けられた特定の検診データ37、並びに、検診診断逆引きテーブル33における特定の第1仮名ID35及びこれに紐付けられた特定の第2仮名ID38を削除する。これにより、情報提供の同意を撤回した個人の検診データ37が削除される。また、診断データ39と個人ID35との紐付けが解除され、診断データ39を特定の個人を識別できないように匿名化して残すことができる。
【0065】
図8に示すように、検診データ削除部12は、特定の個人である「木村花子」が情報提供の撤回を行ったために、「木村花子」の検診データ37を削除する場合、仮名逆引きテーブルにおける個人ID35である「木村花子」及びこれに紐付けられた第1仮名ID36である「ano002」、仮名検診テーブル32における特定の第1仮名ID36である「ano002」及びこれに紐付けられた特定の検診データ37である「身長:158、体重:124、γGTP:93等」、並びに、検診診断逆引きテーブル33における特定の第1仮名ID35である「ano002」及びこれに紐付けられた特定の第2仮名ID38である「unknown002」を削除する。これにより、情報提供の同意を撤回した個人の検診データ37が削除される。また、診断データ39である「肥満」と個人ID35「木村花子」との紐付けが解除され、診断データ39である「肥満」を「木村花子」のものであると識別できないように匿名化して残すことができる。
【0066】
診断データ特定部13は、検診データ削除部12が特定の検診データ37を削除する過程において、削除する検診データ37に対応する第2仮名ID38を記憶し、第2仮名ID38から、削除した検診データ37に関連付けられていた診断データ39を特定する。この際、診断データ特定部13は、検診診断逆引きテーブル33の複製を有していてもよい。これにより、記憶していた第2仮名ID38に対応する診断データ39を容易に得ることができる一方、個人を特定するデータを有さないため、個人情報の保護の観点から安全性を保つことができる。
【0067】
図8に示すように、診断データ特定部13は、第2仮名ID38である「unknown002」が削除される場合、第2仮名ID38を記憶し、検診診断逆引きテーブル33の複製を参照することにより、これに関連付けられていた診断データ39を「肥満」と特定する。
【0068】
擬似検診データ生成部14は、削除した検診データ37に擬似的な擬似検診データを作成する。その際、削除した検診データ37とは完全に一致しないものとするために、再構成誤差を算出することが好ましい。すなわち、擬似検診データ生成部14は、削除した検診データ37と擬似検診データとの一致度を示す再構成誤差を算出し、擬似検診データ生成モデルは、再構成誤算の絶対値が正数になるように擬似検診データを生成することが好ましい。
【0069】
図9に示すように、擬似検診データ生成部14は、擬似データ生成ニューラルネット部(以下、擬似データ生成NN部という)41と再構成精度抑制部42とを備える。再構成精度抑制部42を備えることにより、擬似データ生成NN部41は、削除した検診データ37と擬似的であり、かつ、完全には一致しない擬似検診データを出力する。
【0070】
擬似データ生成NN部41は、ニューラルネットワークモデルを用いた学習済みモデルであり、仮名検診テーブル32における検診データ37と仮名診断テーブル34における診断データ39とから、削除した個人の検診データ37及び診断データ39とを入力データ51として入力することにより、入力した各個人の検診データ37に擬似的な擬似検診データを出力データ52として出力するよう学習されている。
【0071】
擬似データ生成NN部41が備える学習済みモデルは、精度が良い場合、削除した検診データ37と同一のデータを再現する可能性がある。そこで、再構成精度抑制部42により、恣意的に再構成精度を抑制することが好ましい。
【0072】
図10に示すように、擬似検診データ生成部14は、仮名検診テーブル32における検診データ37と仮名診断テーブル34における診断データ39とから、削除した個人の検診データ37及び診断データ39である、「身長:177、体重:67、γGTP:28、診断:初見なし」と「身長:158、体重:124、γGTP:93、診断:肥満」との2件のデータを、入力データ51として取得する。擬似検診データ生成部14は、擬似データ生成NN部41と再構成精度抑制部42とにより、出力データ52を出力する。出力データには、2件のデータそれぞれの擬似検診データ53である。
【0073】
出力データ52は、入力データ51「身長:177、体重:67、γGTP:28、診断:初見なし」に対しては、擬似検診データ53として「身長:180、体重:65、γGTP:30」を、診断データ39である「診断:初見なし」と関連付けた上で出力したものである。同様に、入力データ51「身長:158、体重:124、γGTP:93、診断:肥満」に対しては、擬似検診データ53として「身長:160、体重:120、γGTP:100」を、診断データ39である「診断:肥満」と関連付けた上で出力したものである。
【0074】
これらの擬似検診データ53は、入力データ51が含む削除された検診データ37と完全に同一ではなく、かつ、削除された検診データ37と同様の特徴を有する。擬似検診データ53が、削除された検診データ37と同様の特徴を有することから、出力された擬似検診データ53を教師データとして学習モデルに用いた場合に、削除された検診データ37を教師データとして学習モデルに用いた場合と比べて、学習済みモデルが出力する結果等において劣化することがない。したがって、擬似検診データ53を含む教師データは、検診データ37を削除する前と比べて、教師データとしての安定性が保たれる。
【0075】
なお、図11に示すように、再構成精度抑制部42が算出する再構成誤差は、入力データ51と出力データ52とから算出される。そして、算出された再構成誤差54は、擬似データ生成NN部41の学習の際に擬似データ生成NN部41にフィードバックされる。これにより、擬似データ生成NN部41は、入力データ51に含まれる削除した個人の検診データ37と、完全には一致しない擬似検診データ53を好適に出力することができる。
【0076】
再構成誤差54の算出については、入力データ51と出力データ52との2つのデータの誤差を算出する方法であればいずれを用いてもよいが、再構成誤差が正数になる、すなわち、誤差を0にしないようにすればよい。2つのデータ間の誤差を算出する方法としては、単純な差の絶対値による誤差の他、平均絶対誤差(MAE、Mean Absolute Error)、平均二乗誤差(MSE、Mean Squared Error)、平方根平均二乗誤差(RMSE、Root Mean Squared Error)等の、一般的に用いられる方法を採用することができる。いずれの方法を採用しても、誤差が0にならないようにすることにより、すなわち、再構成誤差54が正数になるように擬似データ生成NN部41を制御し、入力データ51と出力データ52とが一致しないようにすることができる。
【0077】
なお、再構成誤差54は正数ではあるが、大きすぎる正数であると、削除した検診データ37と、出力された擬似検診データ53との違いが大きくなり、同様の特徴を持ったものとならないおそれがあるため、再構成誤差54は、予め設定した閾値以下であることが好ましい。
【0078】
なお、擬似検診データ作成モデル自体が、再構成精度抑制部42の機能を有していても良い。すなわち、擬似検診データ作成モデルは、削除した検診データとこれに対応する診断データとを入力することにより、擬似検診データ53を生成する生成モデルと、生成した擬似検診データ53を評価する評価モデルとが接続されたモデルであってもよい。これにより、擬似検診データ作成モデル自体が、入力データ51と完全に一致する出力データ52を出力することが防げるため、好ましい。
【0079】
このようなモデルとして、生成モデルである生成器と評価モデルである識別器とを有する教師あり学習モデルに分類される条件付き敵対的生成ネットワーク(Conditional Generative Adversarial Networks、Conditional GAN)、教師あり学習モデルに分類される条件付き変分オートエンコーダー(Conditional Variational Autoencoders、Conditional VAE)等の生成モデル等が挙げられる。生成器と識別器とを有するモデルを用いて正解のラベルである診断データを与えることにより学習させることにより、入力データ51と出力データ52とを評価して、適切な出力データ52を出力することができる。
【0080】
擬似検診データ置換部15は、出力データ52である擬似検診データ53と診断データ39とが関連付けられた教師データを、削除した検診データ37を含む教師データと置換してデータ保管部11に保管する。この際、教師データとして用いた際の検証等のために、検診データ37である生のデータと、擬似検診データ53とを区別可能としてもよい。擬似検診データ53にラベルを付す、検診データ37にラベルを付す等を行うことができる。
【0081】
なお、上記実施形態では、複数の検診データ37のうちの一部を、擬似検診データ53とすることについて記載しているが、複数の検診データ37のすべてを擬似検診データ53としてもよい。この場合、生成される教師データは、すべてが現実に得られた検診データ37ではないが、検診データ37の特徴を有するものであるため、個人情報保護の観点で安全性が高く、しかも、現実の検診データ37の特徴を有するものであるため、教師データとして妥当性が高いため、優れた教師データとなる。
【0082】
そして、教師データ管理装置10が管理する教師データについて、すべての検診データが擬似検診データ53である場合は、個人情報保護の観点からの安全性が保たれるとして、教師データ管理装置10が管理している教師データを、医療施設内から医療施設外の第三者に渡すことにより、各種の利用に供することが可能となる場合がある。したがって、教師データ管理装置10によれば、有益な教師データを提供することが可能となる。
【0083】
次に、図12に示すフローチャートを用いて、教師データ管理装置10による処理の流れを説明する。個人が検診を受診した際に得られる検診データ37について、各種の利用のために同意を得ている場合、検診データ37と、この検診データ37に基づいて医師が生成した診断データ39とが関連付けられ、これらを教師データとする。教師データは、機械学習における学習モデルの学習のため等に、データ保管部11に保管する(ステップST110)。
【0084】
例えば、自身の検診データ37により個人が特定されると考えた場合等、この個人は検診データ37の利用に関する情報提供の同意を撤回する。同意が撤回された場合、例えば、検診を行った病院従業者等が、クライアント端末22(図2参照)から、データ保管部11に保管されている検診データを削除する指示を行う(ステップST120)。指示に基づき、検診データ削除部12は、データ保管部11から検診データ37を削除する(ステップST130)。
【0085】
診断データ特定部13は、検診データ削除部12が検診データ37を削除する際に、削除する検診データ37の情報を得て、削除した検診データに対応する診断データ39を特定する(ステップST140)。また、擬似検診データ生成部14も、削除した検診データ37の情報及びこれに対応する診断データ39の情報を得て、擬似検診データ53を生成する(ステップST150)。擬似検診データ53は、診断データ39と関連づけられた形で生成されてもよい。
【0086】
擬似検診データ置換部15は、擬似検診データ53と、削除した検診データ37に対応する診断データ39とを関連付けた教師データを作成し、作成した教師データを、削除した検診データ37を有する教師データの代わりに、データ保管部11に保管する。
【0087】
上記実施形態において、データ保管部11、検診データ削除部12、診断データ特定部13、擬似検診データ生成部14、擬似検診データ置換部15等の各種の処理を実行する処理部(processing unit)のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウエア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、GPU(Graphical Processing Unit)、FPGA (Field Programmable Gate Array) などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、各種の処理を実行するために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
【0088】
1つの処理部は、これら各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合せ(例えば、複数のFPGA、CPUとFPGAの組み合わせ、またはCPUとGPUの組み合わせ等)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、多色に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウエアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。単色に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
【0089】
さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた形態の電気回路(circuitry)である。また、記憶部のハードウェア的な構造はHDD(hard disc drive)やSSD(solid state drive)等の記憶装置である。
【0090】
上記記載から、以下の付記項1ないし10に記載の教師データ管理装置10を把握することができる。
【0091】
[付記項1]
プロセッサを備え、
前記プロセッサは、
個人が受診した検診により得られる検診データと前記検診データに基づいて生成された診断データとを関連付けて有する教師データをデータ保管部に保管し、
前記データ保管部から特定の前記検診データを削除し、
削除した前記検診データに関連付けられていた前記診断データを特定し、
特定した前記診断データに基づいて、削除した前記検診データに擬似的な擬似検診データを生成し、
前記擬似検診データを、特定した前記診断データと関連付けて前記データ保管部に保管する教師データ管理装置。
【0092】
[付記項2]
特定の前記検診データは、前記個人から情報提供の同意が撤回された内容を含む前記検診データである付記項1に記載の教師データ管理装置。
【0093】
[付記項3]
前記擬似検診データは、削除した前記検診データが有する特徴と同様の特徴を有する前記検診データである付記項1または2に記載の教師データ管理装置。
【0094】
[付記項4]
前記擬似検診データは、削除した前記検診データと完全には一致しない前記検診データである付記項1ないし3のいずれか1項に記載の教師データ管理装置。
【0095】
[付記項5]
前記データ保管部は、検診を受診した前記個人の個人IDと前記検診データとを第1仮名IDにより紐付け、かつ、前記第1仮名IDと前記診断データとを第2仮名IDにより紐付けることにより、前記個人ID、前記検診データ及び前記診断データとを関連付けて有する前記教師データを保管する付記項1ないし4のいずれか1項に記載の教師データ管理装置。
【0096】
[付記項6]
前記プロセッサは、前記個人IDと前記第1仮名IDとからなる仮名逆引きテーブルと、前記第1仮名IDと前記検診データとからなる仮名検診テーブルと、前記第1仮名IDと前記第2仮名IDとからなる検診診断逆引きテーブルと、前記第2仮名IDと前記診断データとからなる仮名診断テーブルとを生成し、
前記データ保管部は、前記仮名逆引きテーブル、前記仮名検診テーブル、前記検診診断逆引きテーブル、及び前記仮名診断テーブルを、前記データ保管部に保管する付記項5に記載の教師データ管理装置。
【0097】
[付記項7]
前記プロセッサは、データ保管部から特定の個人の前記検診データを削除する場合、前記仮名逆引きテーブルにおける特定の個人の前記個人ID及びこれに紐付けられた特定の前記第1仮名ID、前記仮名検診テーブルにおける特定の前記第1仮名ID及びこれに紐付けられた特定の前記検診データ、並びに、前記検診診断逆引きテーブルにおける特定の前記第1仮名ID及びこれに紐付けられた特定の前記第2仮名IDを削除する付記項6に記載の教師データ管理装置。
【0098】
[付記項8]
前記プロセッサは、擬似検診データ生成モデルにより前記擬似検診データを生成し、
前記擬似検診データ生成モデルは、削除した前記検診データと前記診断データとを入力することにより前記擬似検診データを生成するよう学習が行われた学習済みモデルである付記項1ないし7のいずれか1項にに記載の教師データ管理装置。
【0099】
[付記項9]
前記プロセッサは、削除した前記検診データと前記擬似検診データとの一致度を示す再構成誤差を算出し、
前記擬似検診データ作成モデルは、前記再構成誤差の絶対値が正数になるように前記擬似検診データを生成する付記項8に記載の教師データ管理装置。
【0100】
[付記項10]
前記擬似検診データ作成モデルは、削除した前記検診データと前記診断データとを入力することにより前記擬似検診データを生成する生成モデルと、生成した前記擬似検診データを評価する評価モデルとが接続されたモデルである付記項8に記載の教師データ管理装置。
【符号の説明】
【0101】
10 教師データ管理装置
11 データ保管部
12 検診データ削除部
13 診断データ特定部
14 擬似検診データ生成部
15 擬似検診データ置換部
20 診療情報管理システム
21 サーバ群
22 クライアント端末
23 ネットワーク
24 電子カルテサーバ
24A カルテデータベース
25 画像サーバ
25A 画像データベース
26 レポートサーバ
26A レポートデータベース
31 仮名逆引きテーブル
32 仮名検診テーブル
33 検診診断逆引きテーブル
34 仮名診断テーブル
35 個人ID
36 第1仮名ID
37 検診データ
38 第2仮名ID
39 診断データ
41 擬似データ生成NN部
42 再構成精度抑制部
51 入力データ
52 出力データ
53 擬似検診データ
54 再構成誤差
ST110~ST160 ステップ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12