(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-09
(45)【発行日】2023-03-17
(54)【発明の名称】個々の細胞情報から組織高次元情報を推定する装置、方法、プログラム
(51)【国際特許分類】
G16B 45/00 20190101AFI20230310BHJP
【FI】
G16B45/00
(21)【出願番号】P 2019562119
(86)(22)【出願日】2018-12-26
(86)【国際出願番号】 JP2018047908
(87)【国際公開番号】W WO2019131785
(87)【国際公開日】2019-07-04
【審査請求日】2021-12-24
(31)【優先権主張番号】P 2017250042
(32)【優先日】2017-12-26
(33)【優先権主張国・地域又は機関】JP
【新規性喪失の例外の表示】特許法第30条第2項適用 (公開1) 開催日 平成29年6月27日~29日 集会名第12回国際ゲノム会議 開催場所 学術総合センター 一橋講堂(東京都千代田区一ツ橋2丁目1番2号) (公開2) 開催日 平成29年7月6日~7日 集会名 シングルセルサイエンスシンポジウム 開催場所 理化学研究所横浜キャンパス交流棟1Fホール(神奈川県横浜市鶴見区末広町1-7-22) (公開3) 掲載日 平成29年11月4日 http://www.cira.kyoto-u.ac.jp/e/pressrelease/seminar/170614-100000.html (公開4) 開催日 平成29年11月6日~8日集会名 CiRA 2017 国際シンポジウム 開催場所 京都市勧業館みやこめっせ(京都市左京区岡崎成勝寺町9-1) (公開5) 掲載日 平成29年11月8日 http://www.cira.kyoto-u.ac.jp/retreat/2017/ (公開6) 開催日 平成29年11月10日 集会名 CiRA RETREAT 2017 開催場所 びわ湖大津プリンスホテル(滋賀県大津市におの浜4-7-7)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成29年度、国立研究開発法人日本医療研究開発機構、「再生医療実現拠点ネットワークプログラム iPS細胞研究中核拠点」「再生医療用iPS細胞ストック開発拠点」委託研究開発、産業技術力強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】森 智弥
(72)【発明者】
【氏名】藤渕 航
【審査官】岡北 有平
(56)【参考文献】
【文献】MORI, Tomoya,Development of 3D Tissue Reconstruction Method from Single-cell RNA-seq Data,GENOMICS AND COMPUTATIONAL BIOLOGY,ドイツ,Kernel Press,2017年01月26日,Vol.3, No.1,p.1-4
【文献】LU, Wen,Reconstructing Complex Tissues from Single-Cell Analyses,CELL,米国,Cell Press,2014年05月08日,Vol.157, Issue 4,p.771-773
【文献】TREUTLEIN, Barbara,Reconstructing lineage hierarchies of the distal lung epithelium using single-cell RNA-seq,NATURE,英国,Nature Publishing,2014年05月15日,Vol.509,p.371-375
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
生体組織を複数のグループに分割した各グループに含まれる各遺伝子の発現量を含む発現量情報を取得する取得部と、
Gene Ontology解析に基づいて、前記取得部によって取得された前記発現量情報の前記
遺伝子のうち、所定の遺伝子の発現量情報を抽出する抽出部と、
前記抽出部によって抽出された
前記発現量情報に含まれる前記各グループに含まれる前記所定の遺伝子の発現量を成分とする特徴ベクトルと、三次元空間に配置され前記生体組織を構成する複数のユニットのそれぞれに割り当てられる重みベクトルとの間のユークリッド距離を算出し、前記各グループのそれぞれについて前記ユークリッド距離が前記複数のユニットのうち最も短いユニットを、前記生体組織の前記各グループのそれぞれの三次元位置
に対応するユニットとして算出する算出部と、
を備える組織高次元情報推定装置。
【請求項2】
生体組織を複数のグループに分割した各グループに含まれる各遺伝子の発現量を含む発現量情報を取得する取得部と、
遺伝子の発現量の主成分分析及びGene Ontology解析に基づいて、前記取得部によって
取得された前記発現量情報の前記遺伝子のうち、所定の遺伝子の発現量情報を抽出する抽出部と、
前記抽出部によって抽出された前記発現量情報に含まれる前記各グループに含まれる前記所定の遺伝子の発現量を成分とする特徴ベクトルと、三次元空間に配置され前記生体組織を構成する複数のユニットのそれぞれに割り当てられる重みベクトルとの間のユークリッド距離を算出し、前記各グループのそれぞれについて前記ユークリッド距離が前記複数のユニットのうち最も短いユニットを、前記生体組織の前記各グループのそれぞれの三次元位置に対応するユニットとして算出する算出部と、
を備える組織高次元情報推定装置。
【請求項3】
前記抽出部は、前記所定の遺伝子の発現量情報として、細胞接着関連遺伝子の発現量情報を抽出する、請求項1
または2に記載の組織高次元情報推定装置。
【請求項4】
前記抽出部は、前記所定の遺伝子の発現量情報として、リボソーム関連遺伝子、ncRNA関連遺伝子、及び、アポトーシス関連遺伝子のうちの少なくとも1つに関連する遺伝
子の発現量情報を抽出する、請求項1
または2に記載の組織高次元情報推定装置。
【請求項5】
前記抽出部は、前記所定の遺伝子の発現量情報として、少なくとも、心室中隔形成に関連する遺伝子の発現量情報を抽出する、請求項1
または2に記載の組織高次元情報推定装置。
【請求項6】
前記抽出部は、前記所定の遺伝子の発現量情報として、少なくとも、DNA結合阻害剤に関連する遺伝子の発現量情報を抽出する、請求項1
または2に記載の組織高次元情報推定装置。
【請求項7】
コンピュータが、
生体組織を複数のグループに分割した各グループに含まれる各遺伝子の発現量を含む発現量情報を取得し、
Gene Ontology解析に基づいて、取得された前記発現量情報の前記遺伝子のうち、所定
の遺伝子の発現量情報を抽出し、
抽出された
前記発現量情報に含まれる前記各グループに含まれる前記所定の遺伝子の発現量を成分とする特徴ベクトルと、三次元空間に配置され前記生体組織を構成する複数のユニットのそれぞれに割り当てられる重みベクトルとの間のユークリッド距離を算出し、前記各グループのそれぞれについて前記ユークリッド距離が前記複数のユニットのうち最も短いユニットを、前記生体組織の前記各グループのそれぞれの
三次元位置に対応するユニットとして算出する、
ことを実行する組織高次元情報推定方法。
【請求項8】
コンピュータが、
生体組織を複数のグループに分割した各グループに含まれる各遺伝子の発現量を含む発現量情報を取得し、
Gene Ontology解析に基づいて、取得された前記発現量情報の前記遺伝子のうち、所定
の遺伝子の発現量情報を抽出し、
抽出された
前記発現量情報に含まれる前記各グループに含まれる前記所定の遺伝子の発現量を成分とする特徴ベクトルと、三次元空間に配置され前記生体組織を構成する複数のユニットのそれぞれに割り当てられる重みベクトルとの間のユークリッド距離を算出し、前記各グループのそれぞれについて前記ユークリッド距離が前記複数のユニットのうち最も短いユニットを、前記生体組織の前記各グループのそれぞれの
三次元位置に対応するユニットとして算出する、
ことを実行するための組織高次元情報推定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、個々の細胞情報から組織高次元情報を推定する装置、方法、プログラムに関する。
【背景技術】
【0002】
ヒトiPS細胞(induced pluripotent stem cells)等から三次元的な生体組織を人工的に再構築することは、再生医療分野等において注目されている技術の一つである。これまでに細胞シートや3Dバイオプリンタを用いた技術が開発され、それらの有用性が報告されてきた(非特許文献1、2)が、生体組織の構造は非常に複雑であるため、三次元的かつ機能的に完全な再構築には未だ至っていない。
【0003】
一方で、近年では1細胞レベルという高解像度で細胞の状態を観察できる技術が開発され、生体組織における個々の細胞の不均一性を捉えることができるようになりつつある。さらには、その1細胞解析技術を用いて、ヒトの全ての細胞種を詳細に調べてカタログ化することを目的とした国際プロジェクトHuman Cell Atlas(非特許文献3)が開始されるなど、組織を形成する最小の機能単位である細胞情報の詳細が今後公開されていくことが予想される。
【0004】
それらを踏まえ、近年では個々の細胞プロファイル、特に1細胞RNA-seq解析によって得られた遺伝子発現データから、個々の細胞の生体組織における元の三次元位置を計算機によって推定して三次元組織を再構築する技術がいくつか報告されている(非特許文献4-7)。それらはランドマーク法とアブ・イニシオ法の2種類に大きく分けることができる。ランドマーク法ではin situハイブリダイゼーションによって得られた個々の遺伝子発現の空間的な情報を参照しながら、RNA-seq解析によって得られた遺伝子発現情報に基づいて各細胞の三次元位置を推定する(非特許文献4、5)。一方で、アブ・イニシオ法は、そのような参照データを用いずに、遺伝子発現情報のみから主成分分析によって得られた主成分得点に従って各細胞を三次元空間にマッピングする(非特許文献6、7)。
【先行技術文献】
【非特許文献】
【0005】
【文献】M. Kawatou et al., Modelling torsade de pointes arrhythmias in vitro in 3D human iPS cell-engineered heart tissue, Nature Communications 8:1078 (11 pages) (2017).
【文献】H.-W. Kang et al., A 3D bioprinting system to produce human-scale tissue constructs with structural integrity, Nature Biotechnology 34(3), pp.312-319 (2016).
【文献】O. R.-R et al., The Human Cell Atlas: from vision to reality, Nature 550, pp.451-453 (2017).
【文献】R. Satija et al., Spatial reconstruction of single-cell gene expression data, Nature Biotechnology 33(5), pp.495-502 (2015).
【文献】K. Achim et al., High-throughput spatial mapping of single-cell RNA-seq data to tissue of origin, Nature Biotechnology 33(5), pp.503-509 (2015).
【文献】R. Durruthy-Durruthy et al., Reconstruction of the mouse otocyst and early neuroblast lineage at single-cell resolution, Cell 157, pp.964-978 (2014).
【文献】J. Durruthy-Durruthy et al., Spatiotemporal reconstruction of the human blastocyst by single-cell gene-expression analysis informs induction of naive pluripotency, Developmental Cell 38, pp.100-115 (2017).
【文献】T. Mori et al., Development of 3D tissue reconstruction method from single-cell RNA-seq data, Genomics and Computational Biology 3(1), e53 (4 pages) (2017).
【文献】G. Peng et al., Spatial Transcriptome for the Molecular Annotation of Lineage Fates and Cell Identity in Mid-gastrula Mouse Embryo, Developmental Cell 33, pp.681-697 (2016).
【文献】T. Kohonen, Self-organizing maps, Springer Series in Information Sciences, vol.30. Springer, third edition (2001).
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、ランドマーク法はスループットの観点からその実用性に問題があり、また、これまでのアブ・イニシオ法は再構築というよりはデータの可視化に近く、再構築の精度の観点から実用性に問題がある。
【0007】
細胞種特異的なマーカー遺伝子の発現を考慮した主成分分析に基づくマウス胚盤胞の三次元再構築手法の開発が行われている(非特許文献8)が、マーカーが未知の細胞種が含まれている場合に適用することが難しく、様々な生体組織への応用が困難である。
【0008】
マーカー遺伝子に依存せずに、遺伝子の発現量を含む個々の細胞情報から、生体組織の三次元位置情報である組織高次元情報を推定できることが望ましい。
【0009】
本発明は、個々の細胞情報から組織高次元情報を推定することを目的とする。
【課題を解決するための手段】
【0010】
上記課題を解決するために、以下の手段を採用する。
【0011】
即ち、第1の態様は、
生体組織を複数のグループに分割した各グループに含まれる各遺伝子の発現量を含む発現量情報を取得する取得部と、
前記取得部によって取得された前記発現量情報の前記遺伝子のうち、所定の遺伝子の発現量情報を抽出する抽出部と、
前記抽出部によって抽出された前記遺伝子の前記発現量情報に基づいて、前記生体組織の前記各グループのそれぞれの三次元位置を算出する算出部と、を備える組織高次元情報推定装置である。
【0012】
開示の態様は、プログラムが情報処理装置によって実行されることによって実現されてもよい。即ち、開示の構成は、上記した態様における各手段が実行する処理を、情報処理装置に対して実行させるためのプログラム、或いは当該プログラムを記録したコンピュータ読み取り可能な記録媒体として特定することができる。また、開示の構成は、上記した各手段が実行する処理を情報処理装置が実行する方法をもって特定されてもよい。開示の構成は、上記した各手段が実行する処理を行う情報処理装置を含むシステムとして特定されてもよい。
【発明の効果】
【0013】
本発明によれば、個々の細胞情報から組織高次元情報を推定することができる。
【図面の簡単な説明】
【0014】
【
図1】
図1は、本実施形態の組織高次元情報推定装置の構成例を示す図である。
【
図2】
図2は、コンピュータのハードウェア構成例を示す図である。
【
図3】
図3は、組織高次元情報推定装置の生体組織の細胞の三次元位置算出の動作フローの例を示す図である。
【
図4】
図4は、取得部102が取得する遺伝子発現量のデータの例を示す図である。
【
図5】
図5は、Biological Process カテゴリに属するGOに対して解析を行った結果得られた、発現変動遺伝子の出現率から統計的に有意な上位10個のGOを示す表である。
【
図6】
図6は、マウス原腸胚(E7.0)の構造の可視化を説明する図である。
【
図7】
図7は、マウス原腸胚の三次元位置推定の評価について説明する図である。
【
図8】
図8は、マウス原腸胚の三次元位置推定の評価結果の例を示す図である。
【
図9】
図9は、「all」の場合におけるマウス原腸胚の三次元再構築の成功モデルの可視化の例を示す図である。
【
図10】
図10は、三次元位置推定の成功率の分布とポアソン分布とを示す図である。
【
図11】
図11は、各GOにおけるフィルタリング後の遺伝子数と成功率の相関を示す図である。
【
図12】
図12は、主成分分析により選択した158遺伝子を用いた場合の、成功率上位のGOを示した表である。
【
図13】
図13は、主成分分析により選択した158遺伝子を用いずにGOに含まれる遺伝子群のみを用いた場合の成功率上位のGOを示した表である。
【
図14】
図14は、選択した遺伝子群の発現に基づく細胞サンプルのクラスタリングの例を示す図である。
【
図15】
図15は、類似度に基づいた再構築モデルの可視化における線分に対する最近点を示す図である。
【
図16】
図16は、GOに基づいた再構築結果を示す図である。
【
図17】
図17は、GO:0060412、およびGO:0060412と組み合わせた場合に再構築の成功率が85%以上を示したGOを示す図である。
【
図18】
図18は、成功率が85%以上を示した2つのGOの組み合わせを示す図である。
【
図19】
図19は、GO:0060412を含むGOのペアに基づいた再構築結果を示す図である。
【
図20】
図20は、成功率が96%以上を示した3つのGOの組み合わせを示す図である。
【
図21】
図21は、成功率が98%以上を示した4つのGOの組み合わせを示す図である。
【
図22】
図22は、成功率が99%以上を示した5つのGOの組み合わせを示す図である。
【
図23】
図23は、成功率が99%以上を示した6つのGOの組み合わせを示す図である。
【
図24】
図24は、成功率が99%以上を示した5つのGOに含まれる遺伝子を示す図である。
【
図25】
図25は、2つの遺伝子を除去した場合に成功率99%以上を示した遺伝子の組み合わせを示す図である。
【
図26】
図26は、遺伝子Id2を単体もしくはペアで除去した場合の成功率と分散を示す図である。
【
図27】
図27は、異なる遺伝子セットに対する再構築の成功率、細胞サンプル位置の分散及び2種類の再構築モデルを示す図である。
【発明を実施するための形態】
【0015】
以下、図面を参照して実施形態について説明する。実施形態の構成は例示であり、発明の構成は、開示の実施形態の具体的構成に限定されない。発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
【0016】
〔実施形態〕
ここでは、生体組織の三次元位置推定(再構築)の精度と汎化性を向上させるため、細胞種特異的なマーカー遺伝子の情報を用いる代わりに、Gene Ontology(GO)に基づいた特徴遺伝子の抽出と自己組織化マップ(Self-organizing map: SOM)を組み合わせた生体組織の三次元位置推定(再構築)手法について説明する。GOは、遺伝子の機能等による分類である。1つの遺伝子がGOの複数のグループに分類されることもある。また、GOのいずれのグループにも分類されていない遺伝子もある。
【0017】
〈構成例〉
図1は、本実施形態の組織高次元情報推定装置の構成例を示す図である。
図1の組織高次元情報推定装置100は、取得部102、抽出部104、算出部106、格納部108を有する。組織高次元情報推定装置100は、生体組織の個々の細胞の遺伝子発現量等の細胞情報に基づいて、生体組織の三次元位置情報(組織高次元情報)を推定する。
【0018】
取得部102は、計算対象の生体組織の個々の細胞の遺伝子の発現量情報を含む細胞情報を格納部108や他の情報処理装置等から取得する。個々の細胞の遺伝子の発現量情報は、複数の細胞を含むグループの遺伝子の発現量情報であってもよい。
【0019】
抽出部104は、取得部102が取得した細胞情報から、三次元位置を推定する際に使用する遺伝子の細胞情報(発現量情報)を抽出する。使用する遺伝子は、所定の規則に従って抽出される。
【0020】
算出部106は、個々の細胞の抽出された遺伝子の発現量情報に基づいて、個々の細胞の三次元位置情報を算出する。個々の細胞の三次元位置情報は、個々の細胞の遺伝子発現ドメインに対応する。
【0021】
格納部108は、組織高次元情報推定装置100で使用する計算対象の生体組織の個々の細胞の遺伝子の発現量情報を含む細胞情報等を格納する。また、格納部108は、Gene Ontology(GO)による遺伝子の分類を格納する。
【0022】
組織高次元情報推定装置100は、PC(Personal Computer)、ワークステーション(WS、Work Station)、スマートフォン、携帯電話、タブレット型端末のような専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。
【0023】
図2は、コンピュータのハードウェア構成例を示す図である。組織高次元情報推定装置100は、
図2に示すようなコンピュータ90によって実現される。
図2のコンピュータ90は、プロセッサ91、メモリ92、記憶部93、入力部94、出力部95、通信制御部96を有する。これらは、互いにバスによって接続される。メモリ92及び記憶部93は、コンピュータ読み取り可能な記録媒体である。情報処理装置であるコンピュータのハードウェア構成は、
図2に示される例に限らず、適宜構成要素の省略、置換、追加が行われてもよい。
【0024】
コンピュータ90は、プロセッサ91が記録媒体に記憶されたプログラムをメモリ92の作業領域にロードして実行し、プログラムの実行を通じて各構成部等が制御されることによって、所定の目的に合致した機能を実現することができる。
【0025】
プロセッサ91は、例えば、CPU(Central Processing Unit)やDSP(Digital Signal Processor)である。
【0026】
メモリ92は、例えば、RAM(Random Access Memory)やROM(Read Only Memory)を含む。メモリ92は、主記憶装置とも呼ばれる。
【0027】
記憶部93は、例えば、EPROM(Erasable Programmable ROM)、ハードディスクドライブ(HDD、Hard Disk Drive)である。また、記憶部93は、リムーバブルメディア、即ち可搬記録媒体を含むことができる。リムーバブルメディアは、例えば、USB(Universal Serial Bus)メモリ、あるいは、CD(Compact Disc)やDVD(Digital Versatile Disc)のようなディスク記録媒体である。記憶部93は、二次記憶装置とも呼ばれる。
【0028】
記憶部93は、各種のプログラム、各種のデータ及び各種のテーブルを読み書き自在に記録媒体に格納する。記憶部93には、オペレーティングシステム(Operating System :OS)、各種プログラム、各種テーブル等が格納される。記憶部93に格納される情報は、メモリ92に格納されてもよい。また、メモリ92に格納される情報は、記憶部93に格納されてもよい。
【0029】
オペレーティングシステムは、ソフトウェアとハードウェアとの仲介、メモリ空間の管理、ファイル管理、プロセスやタスクの管理等を行うソフトウェアである。オペレーティングシステムは、通信インタフェースを含む。通信インタフェースは、通信制御部96を介して接続される他の外部装置等とデータのやり取りを行うプログラムである。外部装置等には、例えば、他のコンピュータ、外部記憶装置等が含まれる。
【0030】
入力部94は、キーボード、ポインティングデバイス、ワイヤレスリモコン、タッチパネル等を含む。また、入力部94は、カメラのような映像や画像の入力装置や、マイクロフォンのような音声の入力装置を含むことができる。
【0031】
出力部95は、LCD(Liquid Crystal Display)、EL(Electroluminescence)パネル、CRT(Cathode Ray Tube)ディスプレイ、PDP(Plasma Display Panel)等の表示装置、プリンタ等の出力装置を含む。また、出力部95は、スピーカのような音声の出力装置を含むことができる。
【0032】
通信制御部96は、他の装置と接続し、コンピュータ90と他の装置との間の通信を制御する。通信制御部96は、例えば、LAN(Local Area Network)インタフェースボード、無線通信のための無線通信回路、有線通信のための通信回路である。LANインタフェースボードや無線通信回路は、インターネット等のネットワークに接続される。
【0033】
組織高次元情報推定装置100を実現するコンピュータは、プロセッサが補助記憶装置に記憶されているプログラムを主記憶装置にロードして実行することによって、取得部102、抽出部104、算出部106としての機能を実現する。一方、格納部108は、主記憶装置または補助記憶装置の記憶領域に設けられる。
【0034】
組織高次元情報推定装置100の各ユニットは、ハードウェアの構成要素、ソフトウェアの構成要素、又は、これらの組み合わせとして、それぞれ実現され得る。
【0035】
ハードウェアの構成要素は、ハードウェア回路であり、例えば、FPGA(Field Programmable Gate Array)、特定用途向け集積回路(ASIC)、ゲートアレイ、論理ゲートの組み合わせ、アナログ回路等がある。
【0036】
ソフトウェアの構成要素は、ソフトウェアとして所定の処理を実現する部品である。ソフトウェアの構成要素は、ソフトウェアを実現する言語、開発環境等を限定する概念ではない。
【0037】
プログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくても、並列的または個別に実行される処理を含む。プログラムを記述するステップの一部が省略されてもよい。
【0038】
〈動作例〉
図3は、組織高次元情報推定装置の生体組織の細胞の三次元位置算出の動作フローの例を示す図である。ここでは、組織高次元情報推定装置100は、生体組織であるマウス原腸胚(E7.0)の各細胞の遺伝子発現量のデータから、マウス原腸胚(E7.0)の各細胞の三次元位置情報を推定する。ここで、遺伝子発現は、遺伝子の情報が細胞において構造や機能に変換される過程である。遺伝子発現量は、遺伝子発現される量である。
【0039】
S101では、組織高次元情報推定装置100の取得部102は、生体組織の細胞の遺伝子発現量のデータ(発現量情報)を、格納部108や他の情報処理装置等から取得する。遺伝子発現量のデータには、生体組織の各細胞または各細胞グループに含まれる各遺伝子についての遺伝子発現量が含まれる。
【0040】
(マウス原腸胚の遺伝子発現データ)
ここでは、細胞の三次元位置推定をする生体組織の例として、マウス原腸胚(E7.0)を取り上げる。本実施形態における生体組織は、マウス原腸胚(E7.0)に限定されるものではない。
【0041】
マウス原腸胚(E7.0)の遺伝子毎の遺伝子発現量のデータは、Pengらによって取得され(非特許文献9)、NCBI(National Center for Biotechnology Information)のGEO(Gene Expression Omnibus)に公開されている。このデータは、マウス原腸胚(E7.0)から切り出された11枚の凍結切片の4つの部位(anterior, posterior, left, right)から取得された遺伝子毎の遺伝子発現量のデータを含む。凍結切片には、4つの部位うちの一部しか含まないものもある。このデータには、各凍結切片の各部位による41サンプル(細胞サンプル)が含まれる。このデータには、各サンプルの遺伝子発現量がFPKM(fragments per kilobase of exon per million reads mapped)に正規化された値で保存されている。各サンプルには、23361種類の遺伝子が含まれる。各サンプルのデータは、約20細胞を含む細胞グループにおけるデータである。Pengらは、このデータを解析することで、マウス原腸胚(E7.0)が4つの遺伝子発現ドメイン(D1: anterior, D2: lateral-distal, D3: lateral-proximal, D4: posterior)に分かれ、各サンプルがいずれかのドメインに属することを既に報告している(非特許文献9)。組織高次元情報推定装置100は、各サンプルの立体配置を、自己組織化マップを用いて、遺伝子発現量から推定する。
【0042】
図4は、取得部102が取得する遺伝子発現量のデータの例を示す図である。遺伝子発現量のデータでは、細胞または細胞グループを識別するサンプルIDと、当該細胞等に含まれる遺伝子の名称である遺伝子名と、当該遺伝子の発現量である遺伝子発現量とが対応付けられている。当該データには、細胞または細胞グループに含まれるすべての遺伝子についての遺伝子発現量が含まれ得る。
【0043】
S102では、抽出部104は、取得部102で取得された遺伝子発現量のデータから、三次元位置推定で使用する遺伝子(特徴遺伝子)の遺伝子発現量を抽出する。細胞または細胞グループに含まれるすべての遺伝子を三次元位置推定で使用しても、三次元位置推定の成功率が上がるとは限らない。遺伝子の中には、細胞等の三次元位置との関連性が低い遺伝子があると考えられるからである。そこで、抽出部104は、細胞等の三次元位置と関連性が高いと考えられる遺伝子の遺伝子発現量を抽出する。抽出方法として、様々な抽出方法が考えられ、どのような抽出方法が採用されてもよい。
【0044】
(マウス原腸胚の三次元位置推定に用いる特徴遺伝子の抽出)
ここでは、抽出部104は、マウス原腸胚(E7.0)の各サンプルに含まれる23361遺伝子から三次元位置の推定に有用な特徴遺伝子の抽出を行う。他の生体組織の場合でも、同様に抽出してもよい。一般的に細胞周期に関する遺伝子の発現は、サンプル間で分散が大きく、細胞のクラスタリングの妨げになる。そこで、抽出部104は、MGI(Mouse Genome Informatics)データベースのGene Ontology Browserを用いて細胞周期に関連するGO:0022402とその配下のGOに属する遺伝子のリストを取得し、遺伝子発現量のデータからそれらの遺伝子を除去する。さらに、抽出部104は、2サンプル以上でFPKM値が1より大きく、かつ全サンプル間の分散(log10(FPKM+1))が0.05より大きい5585遺伝子を取り出した後、遺伝子発現量をlog10(FPKM+1)にスケーリングする。
【0045】
さらに、抽出部104は、遺伝子発現量の主成分分析(principal component analysis: PCA)の結果から得られる第一主成分と第二主成分においてloadingの値が最も大きかった40遺伝子と最も小さかった40遺伝子の計158遺伝子(重複した遺伝子は除去)を取り出し、三次元位置を推定するための特徴遺伝子とする。ここでは、上位と下位の40遺伝子としたが、これらの遺伝子数は、それぞれ、増減してもよい。抽出部104は、細胞接着に関連する遺伝子(GO:0098609)の抽出も行う。細胞接着に関連する遺伝子(細胞接着関連遺伝子)は、細胞の三次元位置に関連性があると考えられる。
【0046】
さらに、抽出部104は、Gene Ontology(GO)解析に基づく特徴遺伝子抽出も行う。GO解析では、フィルタリング後に残った5585遺伝子に対して、まず4つの遺伝子発現ドメイン間で発現変動がある遺伝子を取得するため、Kruskal-Wallis検定を行った後、得られたp値をBenjamini-Hochberg法を用いてFDR(False Discovery Rate)値に変換し、FDRが0.01未満の遺伝子を発現変動遺伝子とする。GO解析では、各GOにおける発現変動遺伝子の出現率から統計的に有意なGOを求める。抽出部104は、GO解析によって当該出現率が上位(例えば、10位以内)の1または複数のGOに含まれる遺伝子を特徴遺伝子として抽出し得る。
【0047】
図5は、Biological Process カテゴリに属するGOに対して解析を行った結果得られた、発現変動遺伝子の出現率から統計的に有意な上位10個のGOを示す表である。即ち、発現変動遺伝子の出現率の高い方から10個のGOを示す。
【0048】
ここでは、特徴遺伝子の抽出には、例えば、プログラミング言語Rが使用される。ここでは、特に低発現遺伝子の除去にはRパッケージ“genefilter”の“genefilter”関数が、主成分分析とKruskal-Wallis検定にはRの標準ライブラリ関数“prcomp”と“kruskal.test”が、GO解析にはRパッケージ“topGO”の“runTest”関数と“GenTable”関数が、それぞれ使用される。
【0049】
特徴遺伝子の抽出に、他のプログラミング言語や他の関数等が使用されてもよい。また、抽出部104は、他の方法により、すべての遺伝子から特徴遺伝子を抽出してもよい。
【0050】
S103では、算出部106は、抽出部104で抽出された特徴遺伝子の遺伝子発現量を使用して、細胞等の三次元位置を推定する。
【0051】
(マウス原腸胚の自己組織化マップに基づく三次元再構築)
ここでは、算出部106は、抽出されたマウス原腸胚の特徴遺伝子の遺伝子発現量のデータから各サンプルの三次元位置を、自己組織化マップを用いて推定する。自己組織化マップとは、Kohonenによって提案された教師無し学習によるクラスタリング手法の一種である(非特許文献10)。通常の自己組織化マップでは、高次元データを二次元平面上へ射影するが、ここでは、三次元平面上に射影する。
【0052】
入力として与えられたサンプルj(j=1,2,...,41)の特徴ベクトルをx
j(x
j1,x
j2,...,x
jp)とする。pは、遺伝子の数である。特徴ベクトルの各成分は、各遺伝子の遺伝子発現量を表す。出力層の三次元空間は8(=2×2×2)個のユニット(出力ユニット)を含む。出力層の構造はx軸方向、y軸方向、z軸方向にそれぞれ2つのユニットが並んだ合計8つのユニットによる立方体の構造である。これは、マウス原腸胚構造が、xy平面上で4つ(anterior, posterior, left, right)、z軸方向で2つ(proximal, distal)の部位から構成されていることを想定している。各ユニットには、重みベクトルm
i(m
j1,m
j2,...,m
jp)(i=1,2,...,
8)が割り当てられているとする。入力サンプルjとすべてのユニットiとの間の
ユークリッド距離を算出し、最も類似度の高いユニットc(best matching unit: BMU)を求める。
【数1】
【0053】
ここで、arg minは、最小値を与える引数を示す関数である。次に時刻tにおける出力層のすべてのユニットの重みベクトルm
i(t)を次の式に基づいて、更新する。
【数2】
【0054】
hcj(t)iは、ユニットcからの距離によって決定される近傍関数であり、mi(t)を更新する際に、xjの影響をどれだけ受けるかを調整する。また、α(t)は学習率、σは近傍領域の半径を調節する関数、rcj(t)とriはユニットcとiの出力層における位置ベクトルである。自己組織化マップのアルゴリズムはすべての入力サンプルjに対して、学習ステップtが事前に与えられた学習回数Tに到達するまで重みベクトルmiの更新を繰り返す。学習回数Tは、miが収束するのに十分な回数とする。
【0055】
通常の自己組織化マップでは、サンプルjが入力される順序によって出力結果が異なるが、ここでは、入力順序が結果に影響を及ぼさないバッチ学習自己組織化マップが採用される。
【0056】
さらに、ここでは、出力層を、通常の自己組織化マップの二次元平面から、三次元空間に拡張した三次元バッチ学習自己組織化マップが採用される。通常の自己組織化マップの学習ステップでは、BMUとその周辺のユニットのすべてが近傍関数に従って、学習の影響を受けるが、マウスの原腸胚(E7.0)の構造が中空構造であることを考慮して、ここでは、BMUに対してxy平面上で対角に位置するユニットは、学習の影響を受けないように制約を導入する。即ち、xy平面上で対角に位置するユニット間の距離(rcj(t)とriとの距離)を無限大とすることで、近傍関数の値を0とする。また、BMUを探索する際の類似度の指標としてユークリッド距離を用いる代わりに、類似度計算にカーネル法を導入したカーネル自己組織化マップが適用されてもよい。
【0057】
このようにして、算出部106は、重みベクトルmi(t)を更新し、各サンプルjに対して、ユニットcを求める。各ユニットは、三次元位置に対応するため、これにより、各サンプルjの三次元位置が推定される。
【0058】
三次元バッチ学習自己組織化マップは、例えば、プログラミング言語Pythonを使用して実装される。遺伝子発現データの操作と学習ステップで実行される内部の行列計算にはPythonパッケージ“Pandas”と“NumPy”が用いられる。カーネル法の導入に必要なカーネル行列の計算には、例えばPythonの機械学習パッケージ“scikit-learn”の“pairwise_kernels”関数を用いれば、線形カーネル、多項式カーネル、シグモイドカーネル、そしてガウシアンカーネル(RBFカーネル)といった多様なカーネルを適用することができる。
【0059】
(推定されたマウス原腸胚(E7.0)の構造の可視化)
図6は、マウス原腸胚(E7.0)の構造の可視化を説明する図である。左図は8つのユニットから構成される立方体型の三次元自己組織化マップ、黒点はユニットm
jに属する入力サンプルjをそれぞれ示す。右図はマウス原腸胚構造を模した放物面を表しており、入力サンプルjが算出部106の計算によって、この放物面上の点(x′
i,y′
i,z′
i)に射影される。
【0060】
算出部106によって推定された三次元位置に基づいて、細胞を放物面に射影することでマウスの原腸胚構造を可視化する。具体的には、三次元バッチ自己組織化マップの出力層である8つのユニットから構成される立方体構造の中心を原点とし、ユニットm
iの中心座標をそれぞれ(x
i,y
i,z
i)(i=1,2,...,8)とする。ただし、x
i,y
i,z
iはそれぞれ0.5もしくは-0.5の値をとる。学習の結果、入力サンプルjがユニットm
iに分類された場合、次のように、頂点を(0,0,-1)とする放物面上の点(x′
i,y′
i,z′
i)へサンプルjを射影する。
【数3】
【0061】
ここで、θとεは同じユニットに分類されたサンプルどうしが射影の際に重ならないようにするために加えられる実数値である。ただし、-0.4≦ε≦0.4、θは(xi,yi)が(0.5,0.5),(-0.5,0.5),(-0.5,-0.5),(0.5,-0.5)のとき、それぞれ0≦θ≦π/2,π/2≦θ≦π,π≦θ≦(3/2)π,(3/2)π≦θ≦2πをとる実数値であり、三次元位置推定の際は一様乱数により決定する。
【0062】
可視化プログラムは、例えば、プログラミング言語Rを用いて実装することができる。描画には三次元プロット用Rパッケージ“rgl”の関数“plot.3d”を用いることができる。
【0063】
(マウス原腸胚の三次元位置推定の評価方法)
図7は、マウス原腸胚の三次元位置推定の評価について説明する図である。左図は、三次元再構築モデル、右図はマウス原腸胚構造を示す。
【0064】
マウス原腸胚の三次元位置推定の評価は、先に説明した4つの遺伝子発現ドメインD1からD4の相対的な位置関係を三次元位置推定の結果と実際のマウス原腸胚構造間で比較することによって行われる。入力データの41サンプルがそれぞれどのドメインに属するかは既にPengらによって示されている。それぞれのドメインに属するサンプル群の座標の重心座標(xDi,yDi,zDi)(i=1,2,3,4)から各ドメインが属する自己組織化マップ上のユニットを決定する。各ドメインのサンプル群の重心位置が存在するユニットの中心位置を、各ドメインの位置とする。4つのドメインが正しく配置されているかを表す評価値(fitness)は以下の計算(1)から(5)によって求める。
(1)s=0とする。
(2)D1とD4がxy方向において対角に位置するならsにs+1を代入する。
(3)D2とD3がz軸方向において隣接しているならsにs+1を代入する。
(4)Di(i∈{1,4})とDj(j∈{2,3})がxy方向において隣接しているなら、それぞれ、sにs+1を代入する。
(5)fitnessにs/6を代入する。
【0065】
ここでは、6通りの評価項目で評価しているため、規格化のために6で割っている。ここでは、2つのドメインの相対位置関係を評価項目としたが、3つ以上のドメインの相対位置関係を評価項目としてもよい。2つのドメインの2種類以上の相対位置関係を評価項目としてもよい。
【0066】
(マウス原腸胚の三次元位置推定の評価結果)
図8は、マウス原腸胚の三次元位置推定の評価結果の例を示す図である。ここでは、抽出部104で、主成分分析(PCA)よる抽出(158遺伝子)、主成分分析による抽出とGO解析による抽出(
図5)を組みわせたものの例を示す。「all」は、は主成分分析により抽出された遺伝子、
図5に掲載されているすべてのGOに属する遺伝子、かつ、cell-cell adhesion(GO:0098609)に属する遺伝子を特徴遺伝子として利用した結果を示す。ここでは、各抽出された遺伝子のセットに対して、異なった初期状態から100回の三次元位置推定を行い、上記した評価値が1になる確率(成功率)を求めている。自己組織化マップのクラスタリング結果はマップの初期状態の影響を受けるため、異なった初期状態から100回の三次元位置推定を行っている。
【0067】
ここでは、自己組織化マップの近傍領域σと学習率αの初期値をそれぞれ0.6,1.0とし、乱数のseedを0から99まで変化させている。その結果、主成分分析(PCA)により抽出された遺伝子のみを用いて三次元構築を行った場合には遺伝子発現ドメインを正しく配置することができていない。これは、主成分分析ではサンプルをクラスタリングすることはできるが遺伝子発現ドメインまでを正しく配置するには不十分であることを示している。一方で、細胞接着因子や他の特徴遺伝子を加えた場合には成功率が上昇しており、特にcell-cell adhesionの寄与が大きいことが示されている。
【0068】
図9は、「all」の場合におけるマウス原腸胚の三次元再構築の成功モデルの可視化の例を示す図である。
図9のD1からD4はそれぞれPengら(非特許文献9)によって示された遺伝子発現ドメインを示すが、D1(anterior)とD4(posterior)とが対角にあり、D2(lateral-distal)とD3(lateral-proximal)が上下に位置するように配置されており、実際の遺伝子発現ドメインの配置と類似していることが分かる。
【0069】
(その他)
上記では、GO解析に基づいて統計的に有意なGOによる三次元位置推定(再構築)を行ったが、4つのドメイン間で発現に変動がある遺伝子を抽出する際、ドメインの情報を入力データに付随して与えていたため、教師データありの三次元位置推定手法と言える。しかしながら、ドメインの分割が明らかでない場合にはKruskal-Wallis検定による多群間比較を行うことができないため、有意なGOを特定することが難しい。そこで、ここでは、別のGO解析として、マウスの遺伝子が属する全17217種のGOに対して網羅的に再構築を行い、統計的に有意なGOを探索(抽出)する。
【0070】
ここでは、まず17217種のGOのうち、属する遺伝子数が1000以下であり、かつ、上記のフィルタリング処理後に残った5585遺伝子から上記の主成分分析により選択した158遺伝子を除いた5427遺伝子の中に少なくとも1つ以上の遺伝子が含まれている11727種のGOを取り出した。取り出された各GOに含まれる遺伝子群と主成分分析により選択した158遺伝子を用いて上記と同様の計算を行うことで、それぞれのGOに対する三次元位置推定の成功率を計算する。
【0071】
図10は、三次元位置推定の成功率の分布とポアソン分布とを示す図である。左図は11727種のGOを用いてそれぞれ再構築を行った際の成功率の分布を表している(GOを用いない場合も含む)。横軸は成功率(%)、縦軸は密度(度数/総数)、プロットの上に表示されている整数値は度数を示している。右図は成功率の平均値0.269を平均値μとするポアソン分布であり、横軸kは成功回数、縦軸は確率変数Xの値がkとなる確率を示している。
【0072】
図10において、成功率の最大値は14%、平均値は0.269であり、成功率が2%以上となるGOは上位5%以内に含まれる。さらに、成功率の分布を、平均μが0.269のポアソン分布で近似した場合、成功率が2%以上となる事象が発生する確率(p値)は2.64×10
-3であるため、有意水準を5%とした場合に成功率が2%以上となるGOは統計学的に有意であると言える。
【0073】
図11は、各GOにおけるフィルタリング後の遺伝子数と成功率の相関を示す図である。横軸は各GOに属する遺伝子のうち、再構築に用いられた遺伝子の数を、縦軸は再構築の成功率をそれぞれ示しており、点線は回帰直線を示している。左図は主成分分析によって得られた158遺伝子とGOに属する遺伝子を用いた結果(相関係数=0.548)を、右図はGOに属する遺伝子のみを用いた場合の結果(相関係数=0.039)を示している。
【0074】
さらに、各GOに対して、フィルタリング後に残った遺伝子数と成功率との相関を調べたところ、相関係数は0.548を示した一方で、回帰直線から大きく外れたGOが見られ、それらはいずれも成功率が8%以上であった(
図11(左))。
【0075】
図12は、主成分分析により選択した158遺伝子を用いた場合の、成功率上位のGOを示した表である。成功率上位にはリボソーム、ncRNA、アポトーシスに関するGOが含まれており、これらが再構築の精度向上に寄与していることが分かる。
【0076】
図13は、主成分分析により選択した158遺伝子を用いずにGOに含まれる遺伝子群のみを用いた場合の成功率上位のGOを示した表である。
【0077】
ここでは、全17217種のGOのうち、属する遺伝子数が1000以下であり、かつ、フィルタリング処理後に残った5585遺伝子のうち3つ以上の遺伝子が含まれている6408種のGOを取り出して同様の計算を行っている。その結果、成功率は最大で31%を示したが、GOの遺伝子のみを用いた場合は、次の図に示すように、主成分分析により選択した遺伝子も用いた場合に比べて、細胞サンプルのクラスタリング精度が低く、4つのドメインを正しく分類することが困難であった。よって、各細胞をドメインに分類するためには主成分分析による遺伝子選択を含むことが好ましい。しかしながら、主成分分析によって得られた遺伝子のみでは成功率が0%であったことから(
図8)、再構築には各細胞をドメインに分けるために必要な遺伝子群と各ドメインを三次元的に正しく配置させるために必要な遺伝子群を選択する必要があると言える。今回の計算では、これらの遺伝子群の選択方法として主成分分析とGOを用いたが、遺伝子群の選択方法は無数に存在するため、三次元位置推定に有効な遺伝子セットをより正しく選択することで、成功率がさらに向上する可能性がある。
【0078】
図14は、選択した遺伝子群の発現に基づく細胞サンプルのクラスタリングの例を示す図である。横軸は細胞サンプルを示しており、それぞれ4つの遺伝子発現ドメインD1、D2、D3、D4のどれに属しているかを示している。縦軸は遺伝子を示している。各ヒートマップは白色から黒色へと変化するに従って遺伝子の発現量が増加していることを表している。
【0079】
〈実施形態の作用、効果〉
組織高次元情報推定装置100は、マウス原腸胚などの生体組織を複数に分割した各グループ(細胞や細胞グループ)の各遺伝子の発現量を含む発現量情報を取得し、取得された発現量情報の遺伝子のうち、所定の遺伝子の発現量情報を抽出し、抽出された遺伝子の発現量情報に基づいて、生体組織の各グループのそれぞれの三次元位置を算出する。組織高次元情報推定装置100は、個々の遺伝子発現の空間的な情報を参照することなく、抽出されたグループ(細胞や細胞グループ)毎の遺伝子(特徴遺伝子)の遺伝子発現量により、元の生体組織における個々のグループの三次元位置を推定して立体構造を組み上げることができる。
【0080】
マウスの原腸胚(E7.0)から得られた遺伝子発現データに本実施形態の方法を適用させた結果、細胞接着関連遺伝子が再構築の精度に大きく寄与していることが分かる。主成分分析とGO解析を用いた網羅的な三次元位置推定では、統計解析の結果、約500種のGOが再構築の精度向上に有意に寄与していることが分かる。一方で、再構築の成功率が高い上位にはリボソーム、ncRNA、アポトーシスなどに関連したGOが含まれている。よって、リボソーム関連遺伝子、ncRNA関連遺伝子、アポトーシス関連遺伝子等は、再構築の精度向上に寄与していることが分かる。また、主成分分析によって選択した遺伝子を用いなかった場合には、三次元位置推定の成功率は高いものの、細胞サンプルのクラスタリング精度が低い。このため、三次元位置推定には各細胞サンプルをドメインに分けるために必要な遺伝子群と各ドメインを三次元的に正しく配置させるために必要な遺伝子群を選択することが望ましい。また、技術的観点からは、三次元位置推定の精度向上のためには自己組織化マップの詳細なパラメータチューニングがすることが好ましい。
【0081】
〔変形例〕
ここでは、確率的自己組織化マップ及び類似度に基づいた再構築モデルの可視化について説明する。当該可視化は、上記の構成と共通点を有する。ここでは、主に相違点について説明する。組織高次元情報推定装置100は、ここで説明する方法で、生体組織の個々の細胞の遺伝子発現量等の細胞情報に基づいて、生体組織の三次元位置情報を推定することができる。取得部102は、マウス原腸胚などの生体組織を複数に分割した各グループ(細胞や細胞グループ)の各遺伝子の発現量を含む発現量情報を取得する。抽出部104は、取得された発現量情報の遺伝子のうち、後述する選択方法などにより所定の遺伝子の発現量情報を抽出する。算出部106は、抽出された遺伝子の発現量情報に基づいて、後述する確率的自己組織化マップにより、生体組織の各グループのそれぞれの三次元位置を算出する。
【0082】
また、ここでは、再構築モデルの評価に、成功率(Success rate)に加えて、クラスタリング結果の評価値を示す細胞サンプル位置の分散(Variance)を導入する例について説明する。GOに基づいた網羅的なマウス原腸胚三次元再構築実験では、特定のGOの組み合わせでは成功率が99%、さらにここから遺伝子Arl13bとSmad7を除いた場合に成功率が100%に達する。組織高次元情報推定装置100は、確率的自己組織化マップを用いること及び適切な遺伝子群を選択(抽出)することで、クラスタリングの精度を上げつつ、より高い成功率を得ることができる。
【0083】
(確率的自己組織化マップ)
上記の自己組織化マップでは、出力層のユニット数が極端に少ない場合に学習が早期に収束することがある。ここでは、漸進的に収束する確率的自己組織化マップが使用される。確率的自己組織化マップでは、時刻tにおける近傍関数hcj(t)i(t)に確率関数rndを導入することで漸進的に収束させることができる。確率的自己組織化マップの近傍関数は、次のように表される。
【0084】
【0085】
ただし、rnd(0.5,1)は、0.5以上1未満の一様乱数を生成する関数である。rcj(t)及びriは、それぞれ、出力層におけるBMUであるユニットcj(t)及び任意のユニットiの位置ベクトルである。σは、近傍領域の半径を調整する関数である。αは、学習率を決定する関数である。
【0086】
(類似度に基づいた再構築モデルの可視化)
上記のマウス原腸胚再構築モデルの可視化では、同一の出力ユニット内にマップされた細胞サンプルの位置がランダムに決定される。一方、類似度に基づいた再構築モデルの可視化では、各ユニットの重みベクトルと細胞サンプルの特徴ベクトルとの間の類似度をサンプルの位置に反映させる。類似度に基づいた再構築モデルの可視化は、次の手順により行われる。
【0087】
(1)出力ユニットi=(x
i,y
i,z
i)(i=1,2,...,8)の重みベクトルm
iを算出する。ここでは、重みベクトルm
iを算出する際の近傍関数h
cj(t)i(t)として、確率的自己組織化マップの近傍関数が使用されて、重みベクトルm
iが算出される。
(2)細胞サンプルjが属するユニットの重みベクトルAを始点とし、x方向に隣接するユニットの重みベクトルBを終点とするベクトルを求める。
(3)細胞サンプルjの位置Pの直線ABに対する最近点Xを求め、直線AXの距離||x||を算出する。距離||x||は、次のように表される。細胞サンプルjの特徴ベクトルと、細胞サンプルjが属するユニットの重みベクトルAとが類似しているほど、AとPとの距離が近くなる。距離||x||は、細胞サンプルjの特徴ベクトルと、細胞サンプルjが属するユニットの重みベクトルAとの類似度を反映している。
【数5】
ただし、
【数6】
である。また、||・||は、ベクトルのノルム(大きさ)を示す(
図15)。
(4)||x||を||b||で正規化した値d
xを計算する。
【数7】
(5)y方向及びz方向に対しても、同様に、d
y及びd
zを算出する。
(6)出力ユニットiに属する細胞サンプルjの座標(三次元座標)を(x
j,y
j,z
j)=(x
i+d
x,y
i+d
y,z
i+d
z)とする。
(7)上記の例と同様に細胞サンプルを放物面に投影する。ただし、θは次の式によって算出される。
【数8】
【0088】
(再構築モデルの評価)
確率的自己組織化マップによって再構築されたモデルは成功率と細胞サンプル位置の分散によって評価される。成功率については、上記と同様である。細胞サンプル位置の分散は、次の式に従って算出される。細胞サンプル位置の分散は小さいほど、クラスタリングの精度が高いことを示し、望ましい。
【数9】
ただし、Tは総試行回数、Dはドメインの数を示している。v
tix、v
tiy、v
tizは、それぞれ、第t回の試行におけるドメインiに属する細胞サンプル位置のx方向、y方向、z方向の分散を示している。
【0089】
(マウス原腸胚構造の再構築)
〈GOにより分類された遺伝子群に基づく再構築〉
マウスの遺伝子が属する全17940種のGOに対して、網羅的に再構築を行い成功率を算出した。17940種のGOのうち、遺伝子群が1000以下であり、かつ、入力としたマウス原腸胚遺伝子発現データのフィルタリング処理(2サンプル以上で、FPKM値が1より大きく、かつ、全サンプル間におけるlog
10(FPKM+1)の分散値が0.05より大きい遺伝子を取り出す処理)の後に残った5585遺伝子のうち3つ以上の遺伝子が含まれている6778種類のGOに対して独立に再構築実験を行ったところ、GO:0060412(ventricular septum morphogenesis:心室中隔形成)の成功率が最高値84%を示した(
図16)。
【0090】
図16は、フィルタリング処理された後の6778種類のGOに対する再構築実験の結果を示す図である。
図16の横軸はマウス原腸胚構造の再構築の成功率であり、縦軸は、細胞サンプル位置の分散である。
【0091】
さらに、高い成功率を示す遺伝子群を見つけるため、GO:0060412と当該GOを除いた6777種類のGOとの間のすべてのペアに対して再構築を行ったところ22のペアの成功率が85%以上を示し、その最高値は95%であった(
図17、
図18、
図19)。
【0092】
図19は、GO:0060412を含むGOのペアに基づいた再構築結果を示す図である。
図19の横軸はマウス原腸胚構造の再構築の成功率(Success rate)、縦軸は細胞サンプル位置の分散(Variance)を示している。
図19の例では、22のGOのペアが成功率85%以上を示している。
【0093】
次に、この22のGOから選択した2つのGOにGO:0060412を加えた3つのGOの組み合わせすべて(
22C
2=231通り)に対して同様の実験を行ったところ、成功率が96%以上を示した組み合わせが5つあり、その最高値は97%であった(
図20)。
【0094】
さらに、同じこの22のGOから選択された3つ及び4つのGOとGO:0060412を加えた計4つもしくは計5つのGOの組み合わせ(
22C
3=1540通り、
22C
4=7315通り)に対して再構築を行ったところ、GOの組み合わせ(GO:0060412、GO:0005021、GO:2000392(もしくはGO:2000394)、GO:0031994、GO:0070986)の場合に成功率が最高値99%を示した(
図21、
図22)。ここで、GO:2000392とGO:2000394に含まれるフィルタリング後の遺伝子群は同一であった。また、成功率が100%となる6つのGOの組み合わせ(
22C
5=26334通り)は存在しなかった(
図23)。
【0095】
(遺伝子の除去と組み合わせた再構築)
上記で成功率が99%を示した5つのGOの組み合わせには20種類の遺伝子が含まれている(
図24)。ここで、さらにこの遺伝子群から1つまたは2つの遺伝子を除去した後に、同様の再構築実験を行ったところ、1つの遺伝子を除去した場合に成功率は減少したが、Arl13b(ADP-ribosylation factor-like 13B)とSmad7(SMAD family member 7)の2つを同時に除去したところ成功率が100%に達した(
図25)。一方では、Id2(Inhibitor of DNA binding 2:DNA結合阻害剤2)が単体で除去された場合には成功率が50%、その他の遺伝子とペアで除去された場合には最小で8%まで減少したことから、Id2は再構築に有効な遺伝子であると考えられる(
図26)。
【0096】
図27は、異なる遺伝子セットに対する再構築の成功率(Success rate)と細胞サンプル位置の分散(Variance)及び2種類の再構築モデル(Random(ランダムモデル)とSimilarity-based(類似度に基づいたモデル))を示す図である。GO:0060412に含まれる遺伝子群のみを用いた場合は成功率が84%であったが、4つのGOを加え、さらに2つに遺伝子を除去した場合に、成功率がそれぞれ99%と100%となった。ランダムモデルは各出力ユニット内の細胞サンプルの位置はランダムに決定されているが、類似度に基づいたモデルは出力ユニットの重みベクトルと各細胞サンプルの特徴ベクトルの類似度が出力ユニットの重みベクトルの位置からの距離に反映されている。
【0097】
以上の実施形態等は、可能な限り組み合わせて実施され得る。
【0098】
〈コンピュータ読み取り可能な記録媒体〉
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
【0099】
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体内には、CPU、メモリ等のコンピュータを構成する要素を設け、そのCPUにプログラムを実行させてもよい。
【0100】
また、このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD-ROM、CD-R/W、DVD、DAT、8mmテープ、メモリカード等がある。
【0101】
また、コンピュータ等に固定された記録媒体としてハードディスクやROM等がある。
【符号の説明】
【0102】
90 :コンピュータ
91 :プロセッサ
92 :メモリ
93 :記憶部
94 :入力部
95 :出力部
96 :通信制御部
100 :組織高次元情報推定装置
102 :取得部
104 :抽出部
106 :算出部
108 :格納部