IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人日本大学の特許一覧

<>
  • 特開-データ生成装置及びデータ生成方法 図1
  • 特開-データ生成装置及びデータ生成方法 図2
  • 特開-データ生成装置及びデータ生成方法 図3
  • 特開-データ生成装置及びデータ生成方法 図4
  • 特開-データ生成装置及びデータ生成方法 図5
  • 特開-データ生成装置及びデータ生成方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024130290
(43)【公開日】2024-09-30
(54)【発明の名称】データ生成装置及びデータ生成方法
(51)【国際特許分類】
   G16H 50/00 20180101AFI20240920BHJP
【FI】
G16H50/00
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023039932
(22)【出願日】2023-03-14
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1) 発行日(公開日) 令和4年11月18日/11月24日 刊行物 JPW2022 第96回日本薬理学会年会/第43回日本臨床薬理学会学術総会 抄録集及び日程表・プログラム 掲載研究抄録 (Web公開URL: https://society.main.jp/jpw2022/download/pdf/jscpt03.pdf(Web公開URL: https://society.main.jp/jpw2022/timetable/program_3-pc.html) <資 料> JPW2022 開催概要 <資 料> JPW2022 抄録集 掲載研究抄録 <資 料> JPW2022 日程表・プログラム (2) 開催日(公開日) 令和4年12月2日 (会期:令和4年11月30日~12月3日) 集会名、開催場所 JPW2022 第96回日本薬理学会年会/第43回日本臨床薬理学会学術総会 パシフィコ横浜(神奈川県横浜市西区みなとみらい一丁目1番1号) <資 料> JPW2022 展示ポスター (3) 発行日(公開日) 令和5年2月1日 刊行物 令和5年電気学会全国大会 プログラム講演要旨 掲載研究論文要旨(Web公開URL: https://gakkai-web.net/iee/program/2023/data/html/general/general5.html#333-A2) <資 料> 令和5年電気学会全国大会 開催案内 <資 料> 令和5年電気学会全国大会 プログラム <資 料> 令和5年電気学会全国大会 掲載研究論文要旨 (4) 発行日(公開日) 令和5年3月1日 刊行物 令和5年電気学会全国大会講演論文集 講演番号3-090、第141頁 論文名「符号化器を用いたGANによる合成患者データ生成」一般社団法人電気学会 発行 <資 料> 令和5年電気学会全国大会 講演論文集 掲載研究論文
(71)【出願人】
【識別番号】899000057
【氏名又は名称】学校法人日本大学
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100126882
【弁理士】
【氏名又は名称】五十嵐 光永
(72)【発明者】
【氏名】関 弘翔
(72)【発明者】
【氏名】辻 泰弘
(72)【発明者】
【氏名】細野 裕行
(72)【発明者】
【氏名】宮野 咲紀
(72)【発明者】
【氏名】若月(尾上) 知佳
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA03
(57)【要約】
【課題】敵対的生成ネットワークを用いて合成データを生成する際に合成データの性質を制御することを図る。
【解決手段】制御部は、実在データを用いて、実潜在変数から生成された合成データである再構成データの真偽を識別器により判定させ、当該判定結果により生成器及び符号化器を学習させ、実在データを用いて、非実潜在変数から生成された合成データの真偽を識別器により判定させ、当該判定結果により生成器及び符号化器を学習させ、実在データを用いて再構成データの真偽を識別器により判定させ、当該判定結果により識別器を学習させ、実在データを用いて合成データの真偽を判定させ、当該判定結果により識別器を学習させ、符号識別器により非実潜在変数を用いて実潜在変数の真偽を判定させ、当該判定の結果により符号識別器を学習させる。
【選択図】図1
【特許請求の範囲】
【請求項1】
敵対的生成ネットワークを用いて合成データを生成するデータ生成装置において、
入力潜在変数から合成データを生成する生成器と、
第2データを用いて第1データの真偽を判定する識別器と、
実在データから潜在変数である実潜在変数を生成する符号化器と、
前記実潜在変数とは異なる非実潜在変数を取得する非実潜在変数取得部と、
前記実潜在変数と前記非実潜在変数との類似度を判定する符号識別器と、
制御部と、を備え、
学習段階において、
前記制御部は、実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、
さらに、前記制御部は、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、
前記制御部は、実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、
さらに、前記制御部は、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、
前記制御部は、前記符号識別器により非実潜在変数を用いて実潜在変数の真偽を判定させ、当該判定の結果により符号識別器を学習させる、
データ生成装置。
【請求項2】
運用段階において、
前記制御部は、前記類似度に基づいて、非実潜在変数の中から実際に前記生成器に使用する入力潜在変数を選択し、
前記生成器は、当該選択された入力潜在変数から合成データを生成する、
請求項1に記載のデータ生成装置。
【請求項3】
前記実在データは、実在する人から取得された医療データである実在医療データであり、
前記生成器は、前記実在医療データから生成された前記実潜在変数から再構成される医療データである再構成医療データを生成し、
前記生成器は、前記非実潜在変数から新規の医療データである合成医療データを生成する、
請求項1又は2のいずれか1項に記載のデータ生成装置。
【請求項4】
敵対的生成ネットワークを用いて合成データを生成するデータ生成装置が実行するデータ生成方法であって、
前記データ生成装置は、
入力潜在変数から合成データを生成する生成器と、
第2データを用いて第1データの真偽を判定する識別器と、
実在データから潜在変数である実潜在変数を生成する符号化器と、
前記実潜在変数と前記実潜在変数とは異なる非実潜在変数との類似度を判定する符号識別器と、を備え、
前記データ生成方法は、
実在データから潜在変数である実潜在変数を生成する実潜在変数生成ステップと、
前記非実潜在変数を取得する非実潜在変数取得ステップと、
学習ステップと、を含み、
前記学習ステップにおいて、
実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、
さらに、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、
実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、
さらに、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、
前記符号識別器により非実潜在変数を用いて実潜在変数の真偽を判定させ、当該判定の結果により符号識別器を学習させる、
データ生成方法。
【請求項5】
運用段階において、
前記類似度に基づいて、非実潜在変数の中から実際に前記生成器に使用する入力潜在変数を選択するステップと、
前記生成器により、当該選択された入力潜在変数から合成データを生成するステップと、
をさらに含む請求項4に記載のデータ生成方法。
【請求項6】
前記実在データは、実在する人から取得された医療データである実在医療データであり、
前記生成器は、前記実在医療データから生成された前記実潜在変数から再構成される医療データである再構成医療データを生成し、
前記生成器は、前記非実潜在変数から新規の医療データである合成医療データを生成する、
請求項4又は5のいずれか1項に記載のデータ生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ生成装置及びデータ生成方法に関する。
【背景技術】
【0002】
従来、医薬品開発において例えば新薬の臨床試験を行う際に、試験条件に合致する患者が集まらず、予定症例数を満足することが難しい状況が発生していた。この対処の一例として医薬品開発の効率化を目的とする臨床試験シミュレーションでは、実際に観測されている被験者のデータからブートストラップリサンプリングや多変量正規分布などにより仮想被験者を生成している。一方、情報科学の分野では、深層学習等の機械学習技術により、医療データのようないわゆる表形式のデータを大量に学習し、似た性質を持つ合成データを生成する「Conditional Tabular Generative Adversarial Networks(CTGAN)」と呼ばれるデータ生成方法が提案されている(例えば、非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Lei Xu et al., “Modeling Tabular Data using Conditional GAN”, NeurIPS2019, 2019.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、上述したブートストラップリサンプリングは、観測されている情報の再活用であるため、現実のデータが持つ相関構造といった性質を保持できるが、観測済みのデータしか生成できない。したがって、十分に観測されていない被験者を仮想的に生成することはできない。また多変量正規分布は、分布を仮定することで未観測のデータも新規に生成できるが、属性同士が線形に関係することに加え単峰性の分布を持つという、比較的強力な仮定があり、現実離れした属性を持つ被験者を生成し得る問題がある。
【0005】
また上述したCTGAN等のように、大量のデータを基に、潜在変数と呼ばれるノイズベクトルから合成データを生成する生成器を学習する敵対的生成ネットワーク(Generative Adversarial Networks:GAN)により、多様性に富む合成データを生成することが可能になりつつある。しかし、基になる潜在変数と生成される合成データとの間の関係性が不明であり、生成する合成データの性質を制御することが難しいという課題がある。
【0006】
本発明は、このような事情を考慮してなされたものであり、その目的は、敵対的生成ネットワークを用いて合成データを生成する際に合成データの性質を制御することができる、データ生成装置及びデータ生成方法を提供することを課題とする。
【課題を解決するための手段】
【0007】
本発明の一態様は、敵対的生成ネットワークを用いて合成データを生成するデータ生成装置において、入力潜在変数から合成データを生成する生成器と、第2データを用いて第1データの真偽を判定する識別器と、実在データから潜在変数である実潜在変数を生成する符号化器と、前記実潜在変数とは異なる非実潜在変数を取得する非実潜在変数取得部と、前記実潜在変数と前記非実潜在変数との類似度を判定する符号識別器と、制御部と、を備え、学習段階において、前記制御部は、実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、さらに、前記制御部は、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、前記制御部は、実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、さらに、前記制御部は、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、前記制御部は、前記符号識別器により非実潜在変数を用いて実潜在変数の真偽を判定させ、当該判定の結果により符号識別器を学習させる、データ生成装置である。
【0008】
本発明の一態様は、上記のデータ生成装置において、運用段階において、前記制御部は、前記類似度に基づいて、非実潜在変数の中から実際に前記生成器に使用する入力潜在変数を選択し、前記生成器は、当該選択された入力潜在変数から合成データを生成する、データ生成装置である。
【0009】
本発明の一態様は、上記のデータ生成装置において、前記実在データは、実在する人から取得された医療データである実在医療データであり、前記生成器は、前記実在医療データから生成された前記実潜在変数から再構成される医療データである再構成医療データを生成し、前記生成器は、前記非実潜在変数から新規の医療データである合成医療データを生成する、データ生成装置である。
【0010】
本発明の一態様は、敵対的生成ネットワークを用いて合成データを生成するデータ生成装置が実行するデータ生成方法であって、前記データ生成装置は、入力潜在変数から合成データを生成する生成器と、第2データを用いて第1データの真偽を判定する識別器と、実在データから潜在変数である実潜在変数を生成する符号化器と、前記実潜在変数と前記実潜在変数とは異なる非実潜在変数との類似度を判定する符号識別器と、を備え、前記データ生成方法は、実在データから潜在変数である実潜在変数を生成する実潜在変数生成ステップと、前記非実潜在変数を取得する非実潜在変数取得ステップと、学習ステップと、を含み、前記学習ステップにおいて、実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、さらに、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、さらに、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、前記符号識別器により非実潜在変数を用いて実潜在変数の真偽を判定させ、当該判定の結果により符号識別器を学習させる、データ生成方法である。
【0011】
本発明の一態様は、上記のデータ生成方法において、運用段階において、前記類似度に基づいて、非実潜在変数の中から実際に前記生成器に使用する入力潜在変数を選択するステップと、前記生成器により、当該選択された入力潜在変数から合成データを生成するステップと、をさらに含むデータ生成方法である。
【0012】
本発明の一態様は、上記のデータ生成方法において、前記実在データは、実在する人から取得された医療データである実在医療データであり、前記生成器は、前記実在医療データから生成された前記実潜在変数から再構成される医療データである再構成医療データを生成し、前記生成器は、前記非実潜在変数から新規の医療データである合成医療データを生成する、データ生成方法である。
【発明の効果】
【0013】
本発明によれば、敵対的生成ネットワークを用いて合成データを生成する際に合成データの性質を制御することができるという効果が得られる。
【図面の簡単な説明】
【0014】
図1】一実施形態に係るデータ生成装置の構成例を示すブロック図である。
図2】一実施形態に係るデータ生成方法の学習段階の手順の一例を示すフローチャートである。
図3】一実施形態に係るデータ生成方法の学習段階の手順の一例を示すフローチャートである。
図4】一実施形態に係るデータ生成方法の学習段階の手順の一例を示すフローチャートである。
図5】一実施形態に係るデータ生成方法の学習段階の手順の一例を示すフローチャートである。
図6】一実施形態に係るデータ生成方法の運用段階の手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0015】
以下、図面を参照し、本発明の実施形態について説明する。
図1は、一実施形態に係るデータ生成装置の構成例を示すブロック図である。図1に示すデータ生成装置1は、敵対的生成ネットワーク(GAN)を用いて合成データを生成する。図1において、データ生成装置1は、生成器11と、識別器12と、符号化器13と、非実潜在変数取得部14と、符号識別器15と、制御部16とを備える。
【0016】
データ生成装置1の各機能は、データ生成装置1がCPU(Central Processing Unit:中央演算処理装置)及びメモリ等のコンピュータハードウェアを備え、CPUがメモリに格納されたコンピュータプログラムを実行することにより実現される。なお、データ生成装置1として、汎用のコンピュータ装置を使用して構成してもよく、又は、専用のハードウェア装置として構成してもよい。例えば、データ生成装置1は、インターネット等の通信ネットワークに接続されるサーバコンピュータを使用して構成されてもよい。また、データ生成装置1の各機能はクラウドコンピューティングにより実現されてもよい。また、データ生成装置1は、単独のコンピュータにより実現するものであってもよく、又はデータ生成装置1の機能を複数のコンピュータに分散させて実現するものであってもよい。
【0017】
以下、本実施形態に係るデータ生成装置及びデータ生成方法について、合成データとして医療データを生成する場合を例に挙げて説明する。
【0018】
データ生成装置1には、実在医療データInが入力される。実在医療データInは、実在する患者等の人(被験者)から取得された医療データである。例えば、実在医療データInは、特定の疾患に罹っている患者や移植患者や健診受診者などから取得された医療データである。特定の疾患は、限定されないが、例えば慢性腎臓病、認知症、2型糖尿病、肺がん、リウマチ等である。医療データは、被験者属性として例えば性別、年齢およびBMI等を有し、臨床検査値として例えばALT、ASTおよびSCR等を有する。実在医療データInは、表形式のデータであってよい。
【0019】
生成器11は、入力潜在変数から合成データを生成する。識別器12は、第2データ(真のデータ)を用いて第1データ(偽のデータ)の真偽を判定する。
【0020】
符号化器13は、実在医療データInから潜在変数を生成する。符号化器13が実在医療データInから生成する潜在変数を、説明の便宜上、実潜在変数と称する。符号化器13は、実在医療データInから生成した実潜在変数Taを生成器11へ出力する。生成器11は、符号化器13から入力された実潜在変数Ta(入力潜在変数)から合成データを生成する。生成器11が実潜在変数Taから生成する合成データを、説明の便宜上、再構成データTbと称する。また実潜在変数Taは、符号識別器15へ出力される。
【0021】
非実潜在変数取得部14は、実潜在変数Taとは異なる複数の潜在変数を取得する。非実潜在変数取得部14が取得する潜在変数を、説明の便宜上、非実潜在変数と称する。例えば、非実潜在変数取得部14は、ノイズベクトルを発生し、発生したノイズベクトルを非実潜在変数に用いてもよい。例えば、非実潜在変数取得部14は、実潜在変数Taに対して所定の演算や加工を施したデータを非実潜在変数に用いてもよい。非実潜在変数取得部14は、取得した非実潜在変数Fを符号識別器15へ出力する。
【0022】
非実潜在変数取得部14は、非実潜在変数Faを生成器11へ出力する。学習段階では、非実潜在変数Faは、非実潜在変数Fである。運用段階では、非実潜在変数Faは、複数の非実潜在変数Fの中から制御部16により選択された非実潜在変数である。生成器11は、非実潜在変数取得部14から入力された非実潜在変数Fa(入力潜在変数)から合成データを生成する。生成器11が非実潜在変数Faから生成する合成データを、説明の便宜上、合成データFbと称する。
【0023】
符号識別器15は、実潜在変数Taと非実潜在変数Fとの類似度Bを判定する。例えば、符号識別器15は、類似度Bとして、実潜在変数Taと非実潜在変数Fとの分布間距離を算出してもよい。符号識別器15は、当該判定結果の類似度Bを制御部16へ出力する。
【0024】
制御部16は、データ生成装置1の制御を行う。例えば、制御部16は、生成器11に関して、入力潜在変数から、被験者属性として性別、年齢およびBMIを有し且つ臨床検査値としてALT、ASTおよびSCRを有する合成データを生成するように、生成器11を構築してもよい。この場合、生成器11は、実潜在変数Taから、被験者属性として性別、年齢およびBMIを有し且つ臨床検査値としてALT、ASTおよびSCRを有する再構成データTbを生成する。また生成器11は、非実潜在変数Faから、被験者属性として性別、年齢およびBMIを有し且つ臨床検査値としてALT、ASTおよびSCRを有する合成データFbを生成する。
【0025】
識別器12は、第2データ(真のデータ)を用いて、第1データ(偽のデータ)の真偽を判定する。例えば、識別器12は、第2データとして再構成データTbを用いて、第1データとしての合成データFbの真偽を判定する。例えば、識別器12は、第2データとして実在医療データInを用いて、第1データとしての合成データFbの真偽を判定する。例えば、識別器12は、第2データとして実在医療データInを用いて、第1データとしての再構成データTbの真偽を判定する。識別器12は、それぞれの真偽判定結果Aを制御部16へ出力する。例えば、識別器12は、真偽判定結果Aとして、第2データ(真のデータ)と第1データ(偽のデータ)との分布間距離を算出してもよい。
【0026】
非実潜在変数取得部14は、複数の非実潜在変数Fを取得する。
運用段階において、制御部16は、符号識別器15による判定結果の類似度Bに基づいて、複数の非実潜在変数Faの中から実際に生成器11の入力潜在変数に用いる非実潜在変数Faを選択する。この非実潜在変数選択結果は、非実潜在変数取得部14へ通知される。運用段階において、非実潜在変数取得部14は、制御部16から通知された非実潜在変数選択結果に示される非実潜在変数Faを生成器11へ出力する。運用段階において、生成器11は、制御部16の非実潜在変数選択結果に示される非実潜在変数Fa(入力潜在変数)から合成データFbを生成する。
【0027】
学習段階において、生成器11及び符号化器13の学習では、制御部16は、実在医療データInを識別器12の第2データ(真のデータ)に使用し、且つ実潜在変数Taを生成器11に入力して生成器11により生成された再構成データTbを識別器12の第1データ(偽のデータ)に使用して、識別器12により再構成データTbの真偽を判定させ、当該判定の結果である真偽判定結果Aにより生成器11及び符号化器13を学習させる。さらに、生成器11及び符号化器13の学習では、制御部16は、実在医療データInを識別器12の第2データ(真のデータ)に使用し、且つ非実潜在変数Faとして非実潜在変数Fを生成器11に入力して生成器11により生成された合成データFbを識別器12の第1データ(偽のデータ)に使用して、識別器12により合成データFbの真偽を判定させ、当該判定の結果である真偽判定結果Aにより生成器11及び符号化器13を学習させる。
また学習段階において、識別器12の学習では、制御部16は、実在医療データInを識別器12の第2データ(真のデータ)に使用し、且つ実潜在変数Taを生成器11に入力して生成器11により生成された再構成データTbを識別器12の第1データ(偽のデータ)に使用して、識別器12により再構成データTbの真偽を判定させ、当該判定の結果である真偽判定結果Aにより識別器12を学習させる。さらに、識別器12の学習では、制御部16は、実在医療データInを識別器12の第2データ(真のデータ)に使用し、且つ非実潜在変数Faとして非実潜在変数Fを生成器11に入力して生成器11により生成された合成データFbを識別器12の第1データ(偽のデータ)に使用して、識別器12により合成データFbの真偽を判定させ、当該判定の結果である真偽判定結果Aにより識別器12を学習させる。
また学習段階において、符号識別器15の学習では、制御部16は、符号識別器15により非実潜在変数F(真のデータ)を用いて実潜在変数Ta(偽のデータ)の真偽を判定させ、当該判定の結果により符号識別器15を学習させる。
これらの学習では、符号化器13が作る実潜在変数空間が非実在潜在変数空間と同じになるように学習させる。これにより、人為的に分布を既知にすることができる非実在潜在変数空間に沿うように実潜在変数空間を符号化器13が生成するようにし、その符号化器13が生成した実潜在変数Taを用いて生成器11により再構成データTbを生成することができるようになれば、任意で生成する非実潜在変数Fから実在データに近い合成データFbを生成することができるようになる。
なお、学習段階において、非実潜在変数F、実潜在変数Ta、再構成データTb、及び合成データFbは、学習の都度再取得してもよいし、複数の学習において再利用してもよい。
【0028】
生成器11、符号化器13及び識別器12の学習においては、モード別正規化による多峰性分布を考慮してもよい。例えば、生成器11が、入力潜在変数から、被験者属性として性別、年齢およびBMIを有し且つ臨床検査値としてALT、ASTおよびSCRを有する合成データを生成する場合、合成データFb及び再構成データTb各々について、被験者属性の項目「性別」、「年齢」および「BMI」別に、各臨床検査値「ALT」、「AST」および「SCR」を正規化して識別器12に入力させる。これにより、被験者属性の項目「性別」、「年齢」および「BMI」に起因する臨床検査値「ALT」、「AST」および「SCR」の多峰性を低減させて識別器12による真偽判定を行うことができ、当該真偽判定の精度を向上させる効果が得られる。
又は、被験者属性として年齢並びに臨床検査値としてALT、ASTおよびSCRそれぞれで合成データFb及び再構成データTbのクラスタリングを行い、分布の山が何個あるかを考慮して、年齢、ALT、ASTおよびSCRそれぞれで合成データFb及び再構成データTbの正規化を行ってもよい。これにより、生成器11の性能向上(例えば幅広いレンジに対応可能になる等)の効果が得られる。
【0029】
また、生成器11の学習においては、距離学習(Metric Learning)を適用してもよい。例えば、生成器11が、入力潜在変数から、被験者属性として性別、年齢およびBMIを有し且つ臨床検査値としてALT、ASTおよびSCRを有する合成データを生成する場合、同一疾患の被験者に関する実潜在変数Taは距離を近くし、一方、異なる疾患の被験者に関する実潜在変数Taは距離を遠くするように、生成器11を構成させてもよい。
【0030】
次に図2図6を参照して本実施形態に係るデータ生成方法を説明する。図2図5は、本実施形態に係るデータ生成方法の学習段階の手順の一例を示すフローチャートである。図6は、本実施形態に係るデータ生成方法の運用段階の手順の一例を示すフローチャートである。
【0031】
[学習段階]
図2図5を参照して、本実施形態に係るデータ生成方法の学習段階を説明する。図2には、本実施形態に係るデータ生成方法の学習段階の全体手順の一例が示されている。図2において、本実施形態に係るデータ生成方法の学習段階は、生成器11及び符号化器13の学習(ステップS100)と、識別器12の学習(ステップS200)と、符号識別器15の学習(ステップS300)とを有する。なお、生成器11及び符号化器13の学習(ステップS100)と、識別器12の学習(ステップS200)と、符号識別器15の学習(ステップS300)との順番に関して、図2に示される順番は一例であり、これに限定されず、任意の順番でよい。
【0032】
図3を参照して、本実施形態に係る生成器11及び符号化器13の学習(ステップS100)について説明する。図3には、本実施形態に係る生成器11及び符号化器13の学習の手順の一例が示されている。
【0033】
(ステップS101) 符号化器13は、データ生成装置1に入力された実在医療データInから実潜在変数Taを生成する。
【0034】
(ステップS102) 非実潜在変数取得部14は、複数の非実潜在変数Fを取得する。
【0035】
(ステップS103) 制御部16は、実潜在変数Taを生成器11に入力して生成器11により再構成データTbを生成させる。また制御部16は、非実潜在変数Fを非実潜在変数Faとして生成器11に入力して生成器11により合成データFbを生成させる。
【0036】
(ステップS104) 制御部16は、実在医療データInを識別器12の第2データ(真のデータ)に使用し、且つ実潜在変数Taを生成器11に入力して生成器11により生成された再構成データTbを識別器12の第1データ(偽のデータ)に使用して、識別器12により再構成データTbの真偽を判定させ、当該判定の結果である真偽判定結果Aにより生成器11及び符号化器13を学習させる。さらに、制御部16は、実在医療データInを識別器12の第2データ(真のデータ)に使用し、且つ非実潜在変数Faとして非実潜在変数Fを生成器11に入力して生成器11により生成された合成データFbを識別器12の第1データ(偽のデータ)に使用して、識別器12により合成データFbの真偽を判定させ、当該判定の結果である真偽判定結果Aにより生成器11及び符号化器13を学習させる。
【0037】
図4を参照して、本実施形態に係る識別器12の学習(ステップS200)について説明する。図4には、本実施形態に係る識別器12の学習の手順の一例が示されている。
【0038】
(ステップS201) 制御部16は、実在医療データInを識別器12の第2データ(真のデータ)に使用し、且つ実潜在変数Taを生成器11に入力して生成器11により生成された再構成データTbを識別器12の第1データ(偽のデータ)に使用して、識別器12により再構成データTbの真偽を判定させる。さらに、制御部16は、実在医療データInを識別器12の第2データ(真のデータ)に使用し、且つ非実潜在変数Faとして非実潜在変数Fを生成器11に入力して生成器11により生成された合成データFbを識別器12の第1データ(偽のデータ)に使用して、識別器12により合成データFbの真偽を判定させる。
【0039】
(ステップS202) 制御部16は、ステップS201の各判定の結果である真偽判定結果Aにより識別器12を学習させる。
【0040】
図5を参照して、本実施形態に係る符号識別器15の学習(ステップS300)について説明する。図5には、本実施形態に係る符号識別器15の学習の手順の一例が示されている。
【0041】
(ステップS301) 制御部16は、非実潜在変数Fを真のデータとし且つ実潜在変数Taを偽のデータとして、符号識別器15により非実潜在変数F(真のデータ)を用いて実潜在変数Ta(偽のデータ)の真偽を判定させる。
【0042】
(ステップS302) 制御部16は、ステップS301の判定の結果により符号識別器15を学習させる。
【0043】
[運用段階]
図6を参照して、本実施形態に係るデータ生成方法の運用段階を説明する。図6には、本実施形態に係るデータ生成方法の運用段階の手順の一例が示されている。
(ステップS1) 符号化器13は、データ生成装置1に入力された実在医療データInから実潜在変数Taを生成する。
【0044】
(ステップS2) 非実潜在変数取得部14は、複数の非実潜在変数Fを取得する。
【0045】
(ステップS3) 符号識別器15は、実潜在変数Taと非実潜在変数Fとの類似度Bを判定する。
【0046】
(ステップS4) 制御部16は、類似度Bに基づいて、複数の非実潜在変数Faの中から実際に生成器11の入力潜在変数に用いる非実潜在変数Faを選択する。
【0047】
(ステップS5) 生成器11は、ステップS4で選択された非実潜在変数Fa(入力潜在変数)から合成データFbを生成する。
【0048】
本実施形態によれば、複数の非実潜在変数Fの中から実潜在変数Taとの類似度Bに基づいて選択された非実潜在変数Faを用いて合成データFbを生成することにより、当該合成データFbの性質を制御することができる。これにより、例えば、合成データFbとして医療データを生成する場合に、生成される医療データを、医薬品開発における例えば新薬の臨床試験の試験条件に合致するように制御することが可能になる。例えば、合成データFbとして、特定の疾患の性質を満足する医療データを生成することができる。例えば、合成データFbとして、未知の疾患の性質を持つ医療データを生成することができる。また、本実施形態によれば、未知の疾患の性質を特徴ベクトルで表現することにより、既知の疾患の性質を特徴ベクトルとの間の距離を測ることができるようになる。
【0049】
なお、上述した実施形態では、合成データとして医療データを生成する場合を例に挙げたが、医療データ以外の各種のデータを生成する場合に適用可能である。
【0050】
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【0051】
また、上述したデータ生成装置1の機能を実現するためのコンピュータプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するようにしてもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disc)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0052】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【符号の説明】
【0053】
1…データ生成装置、11…生成器、12…識別器、13…符号化器、14…非実潜在変数取得部、15…符号識別器、16…制御部
図1
図2
図3
図4
図5
図6