(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-16
(45)【発行日】2024-01-24
(54)【発明の名称】学習方法、混合率予測方法及び学習装置
(51)【国際特許分類】
G16B 40/00 20190101AFI20240117BHJP
G01N 33/48 20060101ALI20240117BHJP
G01N 33/50 20060101ALI20240117BHJP
G16B 25/00 20190101ALI20240117BHJP
C12Q 1/68 20180101ALN20240117BHJP
【FI】
G16B40/00
G01N33/48 M
G01N33/48 Z
G01N33/50 P
G16B25/00
C12Q1/68
(21)【出願番号】P 2020527651
(86)(22)【出願日】2019-06-27
(86)【国際出願番号】 JP2019025676
(87)【国際公開番号】W WO2020004575
(87)【国際公開日】2020-01-02
【審査請求日】2022-06-27
(31)【優先権主張番号】P 2018124385
(32)【優先日】2018-06-29
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】515130201
【氏名又は名称】株式会社Preferred Networks
(74)【代理人】
【識別番号】100145403
【氏名又は名称】山尾 憲人
(74)【代理人】
【識別番号】100131808
【氏名又は名称】柳橋 泰雄
(74)【代理人】
【識別番号】100163902
【氏名又は名称】市川 奈月
(72)【発明者】
【氏名】阿部 幹
(72)【発明者】
【氏名】岡野原 大輔
(72)【発明者】
【氏名】大野 健太
(72)【発明者】
【氏名】武本 瑞貴
【審査官】渡邉 加寿磨
(56)【参考文献】
【文献】特表2018-512071(JP,A)
【文献】米国特許出願公開第2018/0057859(US,A1)
【文献】特表2017-530693(JP,A)
【文献】国際公開第2018/012601(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G16B 5/00-99/00
G16C 10/00-99/00
G16Z 99/00
C12Q 1/68
G01N 33/48
G01N 33/50
(57)【特許請求の範囲】
【請求項1】
少なくとも1台のコンピュータが、
各種類の細胞における遺伝子の発現量に関するデータと仮想の混合度合いとに基づいて、前記仮想の混合度合いと仮想の遺伝子発現量との組を含む学習用データセットを作成するステップと、
細胞群の遺伝子の発現量に関するデータが入力されると、前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように
、前記学習用データセットを用いて機械学習モデルを学習するステップ
と、
を実行する学習方法。
【請求項2】
前記仮想の遺伝子発現量は、前記仮想の混合度合いと、個々の細胞の前記遺伝子の発現量に関するデータとの積により算出された値である、
請求項1に記載の学習方法。
【請求項3】
前記仮想の混合度合いは、乱数を用いて決定された値である、請求項1又は2に記載の学習方法。
【請求項4】
前記仮想の遺伝子発現量は、前記仮想の混合度合いに対して所定のノイズを掛けるとともに正規化して得られた新たな仮想の混合度合いと、個々の細胞の前記遺伝子の発現量に関するデータとを用いて求められた値である、
請求項1乃至3のいずれか1に記載の学習方法。
【請求項5】
前記少なくとも1台のコンピュータが、
前記仮想の遺伝子発現量を前記機械学習モデルに入力することで出力される出力データと、前記仮想の混合度合いとの誤差を用いて、前記機械学習モデルを学習する、
請求項1乃至4のいずれか1に記載の学習方法。
【請求項6】
前記機械学習モデルは、ニューラルネットワークである、
請求項1乃至5のいずれか1に記載の学習方法。
【請求項7】
前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
請求項1乃至6のいずれか1に記載の学習方法。
【請求項8】
前記細胞群はバルク細胞である、
請求項1乃至7のいずれか1に記載の学習方法。
【請求項9】
前記遺伝子の発現量に関するデータは、少なくとも既存のデータセット又はRNA-Seq解析のいずれかを用いて測定されたデータである、
請求項1乃至8のいずれか1に記載の学習方法。
【請求項10】
前記学習用データセットを作成するステップは、第1のコンピュータが実行し、
前記学習するステップは、前記第1のコンピュータとは異なる第2のコンピュータが実行する、
請求項1乃至9のいずれか1に記載の学習方法。
【請求項11】
記憶装置にアクセス可能なプロセッサを含む少なくとも1台のコンピュータが実行するモデル生成方法であって、
請求項1乃至
10のいずれか1に記載の学習方法を用いて、機械学習モデルを生成する、モデル生成方法。
【請求項12】
少なくとも1台のコンピュータに、請求項1乃至
10のいずれか1の学習方法を実行させる、
学習プログラム。
【請求項13】
少なくとも1台のコンピュータが、
細胞群の遺伝子の発現量に関するデータを取得するステップと、
前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように予め学習された機械学習モデルに前記発現量に関するデータを入力して、前記混合度合いに関する情報を予測するステップと、を
実行し、
前記機械学習モデルは、学習を実行する装置が仮想のデータを用いて学習したモデルである、
予測方法。
【請求項14】
前記機械学習モデルは、ニューラルネットワークである、
請求項13に記載の予測方法。
【請求項15】
前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
請求項13又は14に記載の予測方法。
【請求項16】
前記細胞群はバルク細胞である、
請求項13乃至15のいずれか1に記載の予測方法。
【請求項17】
前記発現量に関するデータは、少なくともDNAマイクロアレイによる解析又はRNA-Seq解析のいずれかを用いて測定されたデータである、
請求項13乃至16のいずれか1に記載の予測方法。
【請求項18】
前記少なくとも1台のコンピュータが前記学習を実行する装置を含む、
請求項13乃至17のいずれか1に記載の予測方法。
【請求項19】
前記仮想のデータは、データ作成を実行する装置が各種類の細胞における遺伝子の発現量に関するデータと仮想の混合度合いとに基づいて生成した、仮想の遺伝子発現量を含む学習データである、
請求項13乃至18のいずれか1に記載の予測方法。
【請求項20】
前記少なくとも1台のコンピュータが前記データ作成を実行する装置を含む、
請求項19に記載の予測方法。
【請求項21】
記憶装置にアクセス可能なプロセッサを含む学習を実行する装置であって、
前記プロセッサが、細胞群の遺伝子の発現量に関するデータが入力されると、前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように
、学習用データセットを用いて機械学習モデルを学習し、
前記学習用データセットは、少なくとも1台のコンピュータが各種類の細胞における遺伝子の発現量に関するデータと仮想の混合度合いとに基づいて作成した、前記仮想の混合度合いと仮想の遺伝子発現量との組を含む、
装置。
【請求項22】
前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
請求項21記載の装置。
【請求項23】
前記少なくとも1台のコンピュータが前記学習を実行する装置を含む、
請求項21又は22に記載の装置。
【請求項24】
記憶装置にアクセス可能なプロセッサを含む予測を実行する装置であって、
前記プロセッサが、細胞群の遺伝子の発現量に関するデータを取得し、前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように予め学習された機械学習モデルに前記発現量に関するデータを入力して、前記混合度合いに関する情報を予測
し、
前記機械学習モデルは、少なくとも1台のコンピュータが仮想のデータを用いて学習したモデルである、
装置。
【請求項25】
前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
請求項24に記載の装置。
【請求項26】
前記少なくとも1台のコンピュータが前記予測を実行する装置を含む、
請求項24又は25に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、学習方法、混合率予測方法及び学習装置に関する。
【背景技術】
【0002】
免疫療法等の開発において、疾病における免疫状態の変化を把握することは重要な課題である。これに対して、近年、免疫細胞の遺伝子毎の発現量(遺伝子発現量)を示すデータを用いて、組織中の細胞種(細胞の種類)毎の混合率を予測する手法が研究されている。このような研究では、例えば、複数の種類の細胞が混合された細胞群(以降、「バルク細胞」と表す。)を用いて、このバルク細胞に含まれる細胞種毎の混合率を予測することが行われている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、従来の手法では、バルク細胞に含まれる細胞種毎の混合率を高精度かつ迅速に予測することが困難な場合があった。
【0004】
例えば、或る細胞種の混合率が低い場合、この細胞種の混合率を高精度に予測することが困難であった。また、予測手法によっては、バルク細胞に含まれる細胞種毎の混合率(又は或る細胞種の混合率)を予測するために、それぞれのバルク細胞をモデル化する必要があり、混合率の予測に時間を要することがあった。
【0005】
本発明の実施の形態は、上記の点に鑑みてなされたものであり、細胞群に含まれる細胞種毎の混合率を高精度かつ迅速に予測することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するため、本発明の実施の形態は、予測対象とする細胞群の遺伝子毎の発現量を示す細胞群発現量データが入力されると、細胞群に含まれる細胞の混合率を出力するように機械学習モデルを学習させるステップを含み、学習させるステップは、複数の学習データの間で互いに異なる仮想の混合率である仮想混合率を任意に設定し、各種類の細胞における遺伝子発現量を示す元データに基づいて、学習データ毎に、仮想混合率に対応する仮想の遺伝子発現量である仮想発現量を求めることで生成されたデータを含む、学習用データセットを用いる。
【発明の効果】
【0007】
細胞群に含まれる細胞種毎の混合率を高精度かつ迅速に予測することができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の実施の形態における混合率予測装置の予測の概念を説明する図である。
【
図2】本発明の実施の形態における混合率予測装置で使用する学習データを説明する図である。
【
図3】本発明の実施の形態における混合率予測装置の学習データの生成を示す図である。
【
図4】本発明の実施の形態における混合率予測装置の機能構成の一例を示す図である。
【
図5】本発明の実施の形態における混合率予測装置のハードウェア構成の一例を示す図である。
【
図6】学習用データセット作成処理の一例を示すフローチャートである。
【
図7】学習処理の一例を示すフローチャートである。
【
図8】予測処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。本発明の実施の形態では、バルク細胞に含まれる細胞種毎の混合率を高精度かつ迅速に予測することが可能な混合率予測装置10について説明する。まず、
図1~3を用いて、混合率予測の概念について説明し、続いて、
図4を用いて、混合率予測装置10の構成を具体的に説明する。ここで、混合率とは、バルク細胞に含まれる細胞種の割合のことである。また、バルク細胞とは、複数の種類の細胞が混合された細胞群のことである。混合率は、含有率や存在比率等と称されても良い。
【0010】
なお、本発明の実施の形態では、一例として、複数の種類の免疫細胞を混合したサンプル細胞をバルク細胞とする。ただし、バルク細胞には、免疫細胞以外の種々の細胞(例えば、がん細胞、筋細胞、神経細胞等)が含まれていても良い。
【0011】
本発明の実施の形態における混合率予測装置10は、
図1に示すように、例えば学習済みのニューラルネットワークにより実現される予測器に対して、バルク細胞の遺伝子発現量を示すデータ(以降、「バルク細胞発現量データ」とも表す。)を入力することで、このバルク細胞に含まれる細胞種毎の混合率を示すデータ(以降、「混合率予測データ」とも表す。)を出力する。
【0012】
図2に示すように、混合率予測装置10は、『仮想混合率』及び『仮想発現量』を含む複数の学習データからなる学習用データセットにより、機械学習モデルを学習させる。
図2に示すように、各学習データは、それぞれ1の仮想バルクに関して生成された仮想のデータである。
図2に示す例は、学習データ用セットは、学習データ1~3を含むが、学習用データセットが含む学習データの数は限定されない。
【0013】
図3に混合率予測装置10における学習データの生成の概念を示す。混合率予測装置10は、まず、バルク細胞に含まれる細胞種の混合率を予測するため、複数の細胞の遺伝子発現量を用いて、仮想のバルク細胞である仮想バルク細胞を生成する。具体的には、
図3は、『細胞1』、『細胞2』及び『細胞3』を用いて、『仮想バルク細胞1』、『仮想バルク細胞2』及び『仮想バルク細胞3』を生成する一例である。ここで、「仮想バルク細胞」は、実際に存在するものではなく、後述する混合率予測に利用する学習データを生成するために演算で得られた仮想のものである。
【0014】
図3に示す例では、各細胞は、それぞれ『遺伝子A』、『遺伝子B』及び『遺伝子C』によって構成される。具体的には、「細胞1」は、遺伝子Aの遺伝子発現量が「A1」、遺伝子Bの遺伝子発現量が「B1」、遺伝子Cの遺伝子発現量が「C1」であるとする。また、「細胞2」は、遺伝子Aの遺伝子発現量が「A2」、遺伝子Bの遺伝子発現量が「B2」、遺伝子Cの遺伝子発現量が「C2」であるとする。さらに、「細胞3」は、遺伝子Aの遺伝子発現量が「A3」、遺伝子Bの遺伝子発現量が「B3」、遺伝子Cの遺伝子発現量が「C3」であるとする。なお、細胞1~3及び遺伝子A~Cは、説明のため、簡略化した名称である。また、実際の細胞を構成する遺伝子の数および種類も異なる。
【0015】
まず、混合率予測装置10は、各細胞について、仮想混合率を設定する。
図3の例では、仮想混合率として、(1)『細胞1:80%、細胞2:10%、細胞3:10%』、(2)『細胞1:50%、細胞2:30%、細胞3:20%』、(3)『細胞1:20%、細胞2:40%、細胞3:40%』が設定された。
【0016】
その後、混合率予測装置10は、仮想混合率(1)により『細胞1』を80%、『細胞2』を10%、『細胞3』を10%の各割合で混合し、『仮想バルク細胞1』を生成する。そして、混合率予測装置10は、細胞1~3を構成する各遺伝子A~Cの割合A1~C1をそれぞれ用いて、『仮想バルク細胞1』を構成する各遺伝子A~Cの仮想の遺伝子発現量である仮想発現量A4~C4を求める。
【0017】
同様に、混合率予測装置10は、仮想混合率(2)で『仮想バルク細胞2』を生成し、各遺伝子A~Cの仮想発現量A5~C5を求める。また、混合率予測装置10は、仮想混合率(3)で『仮想バルク細胞3』を生成し、各遺伝子A~Cの仮想発現量A6~C6を求める。
【0018】
このように、本発明に係る混合率予測装置10では、学習データとして十分な量のバルク細胞の情報が得られない場合であっても、仮想混合率及び仮想発現量を学習データとして用いることが可能となり、バルク細胞の遺伝子発現量から細胞の混合率を予測することが可能となる。すなわち、混合率予測装置10では、計測等によって得られたデータではなく、生成の処理によって得られた仮想の情報である学習データを用いて、予測を実現することができる。換言すると、混合率予測装置10では、従来の学習処理ではなく、仮想データで学習するという新しい方法を利用する。
【0019】
以下では、予測器の学習に用いるデータセット(学習用データセット)を作成する「学習用データセット作成処理」と、学習用データセットを用いて予測器を学習する「学習処理」と、予測器によりバルク細胞に含まれる細胞種毎の混合率を予測する「予測処理」とを説明する。
【0020】
なお、本発明の実施の形態では、一例として、予測器が学習済みのニューラルネットワークにより実現される場合について説明する。ただし、予測器は、学習済みのニューラルネットワークに限られず、決定木や、サポートベクターマシン等の種々の機械学習モデルにより実現されていても良い。
【0021】
<機能構成>
続いて、本発明の実施の形態における混合率予測装置10の機能構成について、
図4を参照しながら説明する。
図4は、本発明の実施の形態における混合率予測装置10の機能構成の一例を示す図である。
【0022】
図4に示すように、本発明の実施の形態における混合率予測装置10は、データセット作成部101と、学習部102と、予測部103とを有する。また、混合率予測装置10は、記憶装置において、遺伝子発現量データ211、仮想混合率データ212、仮想発現量データ(以降、「仮想バルク細胞発現量データ」とも表す。)213及び学習データ214等の各種のデータを記憶し、利用することができる。
図4に示す記憶装置は、RAM205、ROM206及び補助記憶装置208等の記憶手段であって、各データは、いずれかの記憶手段に記憶されうる。
【0023】
データセット作成部101は、学習用データセット作成処理を実行する。すなわち、データセット作成部101は、細胞種毎の遺伝子発現量データ211を入力として、学習用データセット215を作成する。ここで、データセット作成部101には、混合率生成部111と、バルク細胞作成部112と、学習データ作成部113とが含まれる。
【0024】
混合率生成部111は、バルク細胞に含まれる細胞種毎の仮想的な混合率を示す仮想混合率データ212を生成する。このとき、混合率生成部111は、複数の仮想混合率データ212を生成する。
【0025】
バルク細胞作成部112は、仮想混合率データ212毎に、細胞種毎の遺伝子発現量データ211と、当該仮想混合率データ212とを用いて、仮想的なバルク細胞の遺伝子発現量を示す仮想バルク細胞発現量データ213を作成する。
【0026】
学習データ作成部113は、仮想混合率データ212毎に、仮想バルク細胞発現量データ213と、当該仮想混合率データ212との組を学習データ214として作成する。これにより、複数の学習データ214によって構成される学習用データセット215が作成される。なお、
図4の例では、学習用データセット215は、3つの学習データ214で構成されるが、上述したように、学習用データセット215が含む学習データ214の数は限定されない。
【0027】
学習部102は、学習処理を実行する。すなわち、学習部102は、学習用データセット215に含まれる各学習データ214を用いて、ニューラルネットワークのパラメータを更新する。これにより、ニューラルネットワークが学習され、予測器が実現される。
【0028】
予測部103は、学習済みのニューラルネットワークにより実現される予測器であり、予測処理を実行する。すなわち、予測部103は、バルク細胞の遺伝子発現量を示すバルク細胞発現量データを入力として、このバルク細胞に含まれる細胞種毎の混合率の予測値を示す混合率予測データを出力する。
【0029】
なお、
図4に示す例では、データセット作成部101と、学習部102と、予測部103との3つの機能部を1台の混合率予測装置10が有している場合を示しているが、これらの各機能部は複数の装置が分散して有していても良い。例えば、本発明の実施の形態における混合率予測装置10は、データセット作成部101を有するデータセット作成装置と、学習部102及び予測部103を有する予測装置とで構成されていても良い。また、更に、この予測装置は、学習処理のみを行う装置と、予測処理のみを行う装置とで構成されていても良い。
【0030】
<ハードウェア構成>
次に、本発明の実施の形態における混合率予測装置10のハードウェア構成について、
図5を参照しながら説明する。
図5は、本発明の実施の形態における混合率予測装置10のハードウェア構成の一例を示す図である。
【0031】
図5に示すように、本発明の実施の形態における混合率予測装置10は、入力装置201と、表示装置202と、外部I/F203と、通信I/F204と、RAM(Random Access Memory)205と、ROM(Read Only Memory)206と、プロセッサ207と、補助記憶装置208とを有する。これら各ハードウェアは、それぞれがバス209により相互に接続されている。
【0032】
入力装置201は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置202は、例えばディスプレイ等であり、混合率予測装置10の各種の処理結果を表示する。なお、混合率予測装置10は、入力装置201及び表示装置202のうちの少なくとも一方を有していなくても良い。
【0033】
外部I/F203は、外部装置とのインタフェースである。外部装置には、記録媒体203a等がある。混合率予測装置10は、外部I/F203を介して、記録媒体203a等の読み取りや書き込み等を行うことができる。記録媒体203aには、混合率予測装置10が有する各機能部(すなわち、データセット作成部101、学習部102及び予測部103)を実現する1以上のプログラム等が記録されていても良い。
【0034】
記録媒体203aには、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
【0035】
通信I/F204は、混合率予測装置10を通信ネットワークに接続するためのインタフェースである。混合率予測装置10が有する各機能部を実現する1以上のプログラムは、通信I/F204を介して、所定のサーバ装置等から取得(ダウンロード)されても良い。
【0036】
RAM205は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM206は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ROM206には、例えば、OS(Operating System)に関する設定や通信ネットワークに関する設定等が格納されている。
【0037】
プロセッサ207は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等であり、ROM206や補助記憶装置208等からプログラムやデータをRAM205上に読み出して処理を実行する演算装置である。混合率予測装置10が有する各機能部は、例えば補助記憶装置208に格納されている1以上のプログラムがプロセッサ207に実行させる処理により実現される。なお、混合率予測装置10は、プロセッサ207として、CPUとGPUとの両方を有していても良いし、CPU又はGPUのいずれか一方のみを有していても良い。
【0038】
補助記憶装置208は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置208には、例えば、OS、各種アプリケーションソフトウェア、混合率予測装置10が有する各機能部を実現する1以上のプログラム等がある。
【0039】
本発明の実施の形態における混合率予測装置10は、
図5に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。なお、
図5に示す例では、本発明の実施の形態における混合率予測装置10が1台の装置(コンピュータ)で実現されている場合について説明したが、これに限られない。本発明の実施の形態における混合率予測装置10は、複数台の装置(コンピュータ)で実現されていても良い。
【0040】
<学習用データセット作成処理>
以降では、学習用データセット作成処理について、
図6を参照しながら説明する。
図6は、学習用データセット作成処理の一例を示すフローチャートである。
【0041】
まず、データセット作成部101は、細胞種毎の遺伝子発現量データを取得する(ステップS101)。ここで、遺伝子の種類の総数をM、細胞種の総数をNで表した場合、細胞種n(1≦n≦N)の遺伝子発現量データxnは、M次元ベクトルで表される。すなわち、細胞種nにおける遺伝子M(1≦m≦M)の発現量をxmnとして、xn=(x1n,・・・,xMn)tと表される。なお、tは転置を表す。
【0042】
このような細胞種毎の遺伝子発現量データとしては、例えば、LM22データセットを用いることができる。LM22データセットは、均一な集団に分画された22種類の各免疫細胞における547種類の遺伝子の発現量を計測したデータのセットである。LM22データセットの詳細は、例えば、上記の非特許文献1を参照されたい。また、LM22データセット以外にも、例えば、シングルセルRNA-Seq解析により、細胞種毎の遺伝子発現量データを得ることもできる。
【0043】
以降では、N種類の細胞種におけるM種類の遺伝子の発現量をそれぞれM次元ベクトルで表した遺伝子発現量データx1,・・・,xNが入力されたものとして説明を続ける。
【0044】
データセット作成部101の混合率生成部111は、複数の仮想混合率データを生成する(ステップS102)。ここで、仮想混合率データの生成数をPで表した場合、p(1≦p≦P)番目の仮想混合率データapは、N次元ベクトル(つまり、細胞種の総数を次元数とするベクトル)で表される。すなわち、バルク細胞に含まれる細胞種n(1≦n≦N)の混合率をanpとして、ap=(a1p,・・・,aNp)tと表される。したがって、混合率生成部111は、p毎に、a1p+・・・+aNp=1を満たし、かつ、0以上1以下の値の乱数a1p,・・・,aNpを生成することで、P個の仮想混合率データa1,・・・,aPを生成する。なお、Pとしては、ユーザによって任意の自然数を設定することができる。
【0045】
次に、データセット作成部101のバルク細胞作成部112は、仮想混合率データ毎に、細胞種毎の遺伝子発現量データと、当該仮想混合率データとを用いて、仮想バルク細胞発現量データを作成する(ステップS103)。ここで、バルク細胞作成部112は、例えば、細胞種毎の遺伝子発現量データx1,・・・,xNを列ベクトルする行列をX=(x1,・・・,xN)として、行列Xと、仮想混合率データapとの行列積を計算することで、仮想バルク細胞発現量データypを作成する。すなわち、バルク細胞作成部112は、p=1,・・・,Pに対して、yp=Xapを計算する。これにより、M次元ベクトルy1,・・・,yPが得られる。これら各ypは、仮想的なバルク細胞pにおけるM種類の遺伝子の発現量を表している。
【0046】
なお、バルク細胞作成部112は、仮想混合率データapに対して所定のノイズを掛けた上で、正規化した仮想混合率データbpを用いて、yp=Xbpを計算し、仮想バルク細胞発現量データypを作成しても良い。仮想混合率データbpは、例えば、apの各要素anp(1≦n≦N)に対して所定のノイズ(例えば、salt pepper noiseやlognormal noise等)を掛けた上で、これらノイズを掛けた各要素anp(1≦n≦N)の和が1となるように正規化することで作成される。
【0047】
なお、上述した仮想混合率データbpを用いた仮想バルク細胞発現量データyp=Xbpが作成された場合は、学習データ作成部113は、p=1,・・・,Pに対して、仮想バルク細胞発現量データyp=Xbpと、ノイズを掛ける前の仮想混合率データapとの組(yp,ap)を学習データとする。
【0048】
以上により、本発明の実施の形態における混合率予測装置10では、実際の計測として得られた細胞種毎の遺伝子発現量データ(例えば、LM22データセット等)を用いて、学習用データセットD={(yp,ap)|p=1,・・・,P}が作成される。ここで、上述したように、ypは仮想的なバルク細胞の遺伝子発現量を示すデータであり、apはこの仮想バルク細胞に含まれる細胞種毎の混合率を示すデータ(すなわち、正解データ)である。後述するように、この学習用データセットDを用いて、予測器を実現するニューラルネットワークの学習が行われる。
【0049】
なお、上記のステップS101では、同一の細胞種の遺伝子発現量データが複数入力されても良い。例えば、細胞種iの遺伝子発現量データxiとxi´とが入力されても良い。この場合、遺伝子発現量データx1,・・・,xi,・・・,xNと、遺伝子発現量データx1,・・・,xi´,・・・,xNとに対して、上記のステップS103~ステップS104をそれぞれ実行すれば良い。これにより、学習用データセットD={(yp,ap)|p=1,・・・,P}と、D´={(yp´,ap)|p=1,・・・,P}とが作成される。したがって、この場合、これらの学習用データセットD及びD´を用いて、予測器を実現するニューラルネットワークの学習を行えば良い。同一の細胞種の遺伝子発現量データが3以上入力された場合も同様である。
【0050】
<学習処理>
以降では、学習処理について、
図7を参照しながら説明する。
図7は、学習処理の一例を示すフローチャートである。なお、上記の学習用データセット作成処理で複数の学習用データセットが作成された場合、例えば、学習用データセット毎に、以降のステップS201~ステップS203が実行されれば良い。
【0051】
まず、学習部102は、学習用データセットD={(yp,ap)|p=1,・・・,P}を入力する(ステップS201)。
【0052】
次に、学習部102は、学習用データセットDに含まれる各学習データ(yp,ap)を用いて、所定の誤差関数による誤差を計算する(ステップS202)。すなわち、学習部102は、仮想バルク細胞発現量データypを予測部103(すなわち、学習済みでないニューラルネットワーク)に入力して、仮想バルク細胞pに含まれる細胞種毎の混合率を示す出力データap^を得る。そして、学習部102は、出力データap^と、正解データapとの誤差を所定の誤差関数により計算する。ここで、誤差関数としては、例えば、softmax cross entropyやmean squared error等が用いられる。
【0053】
次に、学習部102は、上記のステップS202で計算された誤差を用いて、ニューラルネットワークのパラメータを更新する(ステップS203)。すなわち、学習部102は、例えば、誤差逆伝播法等を用いて、誤差が最小となるようにパラメータを更新する。これにより、予測器を実現するニューラルネットワークが学習される。
【0054】
以上により、本発明の実施の形態における混合率予測装置10では、予測器を実現する学習済みニューラルネットワークを得ることができる。
【0055】
<予測処理>
以降では、予測処理について、
図8を参照しながら説明する。
図8は、予測処理の一例を示すフローチャートである。
【0056】
予測部103は、バルク細胞発現量データyを入力する(ステップS301)。なお、バルク細胞発現量データyは、例えば、バルク細胞の遺伝子発現量を既知の手法(例えば、DNAマイクロアレイによる解析やRNA-Seq解析等)で測定することで得られる。
【0057】
次に、予測部103は、予測器により、バルク細胞発現量データyに対応するバルク細胞に含まれる細胞種毎の混合率を予測して、この予測値を示す混合率予測データaを出力する(ステップS302)。これにより、N種類の細胞種の混合率をN次元ベクトルで表した混合率予測データaが得られる。
【0058】
以上により、本発明の実施の形態における混合率予測装置10では、バルク細胞発現量データyから混合率予測データaが得ることができる。このように、本発明の実施の形態における混合率予測装置10では、従来の手法と異なり、バルク細胞の遺伝子発現量から、このバルク細胞に含まれる細胞種毎の混合率を直接予測することができる。しかも、本発明の実施の形態における混合率予測装置10では、従来の手法と異なり、混合率の予測のためにバルク細胞をモデル化する必要がないため、バルク細胞に含まれる細胞種毎の混合率を迅速に予測することができる。
【0059】
<従来手法との比較例>
ここで、従来手法と、本発明の実施の形態の手法との予測精度の比較例について、
図9を参照しながら説明する。
図9は、従来手法との比較例を示す図である。
図9に示す例では、バルク細胞発現量データyとして、GSE20300データセットを使用した。
【0060】
図9(a)は、従来手法として、上記の非特許文献1に記載されているCIBERSORTを用いた場合における混合率の実測値と予測値との関係を点としてプロットした図である。一方で、
図9(b)は、本発明の実施の形態の手法を用いた場合における混合率の実測値と予測値との関係を点としてプロットした図である。なお、
図9(a)及び(b)では、比較を容易にするため、22種類の細胞種のうち、19種の細胞種をまとめて「PMNs」として、この「PMNs」と、細胞種「Lymphocytes」と、細胞種「monocytes」とをプロットした。また、この22種類に含まれる細胞種の1つである細胞種「Eosinophils」については対象外とした。
【0061】
図9(a)に示す例では、プロットした各点から得られる回帰直線はy=0.48x+15.60で表され、相関係数はr=0.77である。一方で、
図9(b)に示す例では、各点から得られる回帰直線はy=1.07x-1.84で表され、相関係数はr=0.93である。なお、回帰直線がy=xに近い程、予測精度が高いことを表す。
【0062】
これにより、本発明の実施の形態における混合率予測装置10では、CIBERSORT等の従来手法と比較して、高い精度で混合率が予測できていることがわかる。
【0063】
<まとめ>
以上のように、本発明の実施の形態における混合率予測装置10は、学習済みのニューラルネットワークにより実現される予測器によって、バルク細胞における遺伝子発現量を示すデータから、このバルク細胞に含まれる細胞種毎の混合率を予測することができる。この予測器を学習するにあたり、本発明の実施の形態における混合率予測装置10では、細胞種毎の遺伝子発現量を示すデータを用いて、仮想的なバルク細胞の遺伝子発現量を示すデータと、この仮想的なバルク細胞に含まれる細胞種毎の混合率を示すデータとの組である学習データを生成する。
【0064】
このため、本発明の実施の形態における混合率予測装置10によれば、バルク細胞における遺伝子発現量と、このバルク細胞に含まれる細胞種毎の混合率とを実験等によって測定することが困難な場合であっても、学習用データセットを容易に作成することができる。
【0065】
また、本発明の実施の形態における混合率予測装置10では、上記のように学習された予測器を用いることで、例えば、遺伝子発現量に線形性を仮定できないような場合であっても、高い精度で混合率を予測することができる。ここで、遺伝子発現量に線形性を仮定できる場合とは、バルク細胞の遺伝子発現量が、各細胞種の遺伝子発現量と、当該細胞種の混合率との積の総和で表現できる場合(更に、この総和と、ノイズを表す項との和で表現できる場合も含む)のことである。
【0066】
なお、本発明の実施の形態では、バルク細胞に含まれる細胞種毎の混合率を予測する場合について説明したが、これに限られず、例えば、未知の化学物質に含まれる成分毎の混合率を予測する場合等にも応用可能である。また、本発明の実施の形態は、純粋なもの(又は要素)の信号が得られるような問題設定において、未知の信号毎の混合率を推定する任意のタスクに応用可能である。
【0067】
また、上述の実施の形態では、混合率予測装置10内にデータセット作成部101を備えることとしたが、これに限られない。つまり、データセット作成部101と、学習部102または予測部103は、それぞれデータセット作成装置、学習装置、予測装置として、異なる装置として設けられてもよい。
【0068】
本発明は、具体的に開示された上記の実施の形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
【符号の説明】
【0069】
10 混合率予測装置
101 データセット作成部
102 学習部
103 予測部
111 混合率生成部
112 バルク細胞作成部
113 学習データ作成部