(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024061054
(43)【公開日】2024-05-07
(54)【発明の名称】遺伝子候補を抽出する方法、遺伝子候補を活用する方法、及び、プログラム
(51)【国際特許分類】
C12Q 1/68 20180101AFI20240425BHJP
C12Q 1/06 20060101ALI20240425BHJP
C12Q 1/02 20060101ALI20240425BHJP
【FI】
C12Q1/68
C12Q1/06
C12Q1/02
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022168731
(22)【出願日】2022-10-21
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和3年10月24日に、情報計算化学生物学会が主催する恒例の年次学会であるCBI学会2021年大会のウェブサイトにおいて公開した。 令和3年10月26日に、情報計算化学生物学会が主催する恒例の年次学会であるCBI学会2021年大会のオンラインセッションにおいて公開した。
(71)【出願人】
【識別番号】322004393
【氏名又は名称】株式会社エビデント
(71)【出願人】
【識別番号】509013703
【氏名又は名称】公立大学法人福島県立医科大学
(74)【代理人】
【識別番号】100121083
【弁理士】
【氏名又は名称】青木 宏義
(74)【代理人】
【識別番号】100138391
【弁理士】
【氏名又は名称】天田 昌行
(74)【代理人】
【識別番号】100074099
【弁理士】
【氏名又は名称】大菅 義之
(74)【代理人】
【識別番号】100182936
【弁理士】
【氏名又は名称】矢野 直樹
(72)【発明者】
【氏名】高木 浩輔
(72)【発明者】
【氏名】高木 基樹
(72)【発明者】
【氏名】合田 和史
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA01
4B063QA19
4B063QA20
4B063QQ02
4B063QQ08
4B063QQ42
4B063QQ52
4B063QR32
4B063QR35
4B063QR72
4B063QR77
4B063QR90
4B063QS36
4B063QS39
4B063QX01
(57)【要約】
【課題】複雑な形態的特徴をもつオルガノイドサンプルなどの顕微鏡画像を用いて同一種類の癌の特徴に関連する遺伝子候補を特定する。
【解決手段】患者の癌検体を由来として培養された細胞集塊の顕微鏡画像を取得する。その細胞集塊の遺伝子発現量の計測値を取得する。顕微鏡画像に基づいて、同一の癌検体から培養された細胞集塊のグループと他の癌検体から培養された細胞集塊のグループとの形態的な違いを識別可能な複数次元のベクトル量で表現された形態特徴量を取得する。形態特徴量に対して遺伝子発現量の計測値をフィッティングした関数へ取得した形態特徴量を入力して遺伝子発現量の予測値を取得する。遺伝子発現量の予測値と計測値とに基づいて遺伝子発現量の予測精度を見積もる。見積もった予測精度に基づいて、細胞集塊の形態変化に関連した遺伝子を遺伝子候補として抽出する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
個々の患者の癌の特徴に関係する遺伝子候補を抽出する方法であって、
(a)前記患者の癌検体を由来として培養された細胞集塊の顕微鏡画像を取得する工程と、
(b)前記工程(a)に用いられた、前記癌検体あるいは前記癌検体から培養された前記細胞集塊の遺伝子発現量の計測値を取得する工程と、
(c)前記工程(a)で取得した前記顕微鏡画像に基づいて、同一の癌検体から培養された細胞集塊のグループと他の癌検体から培養された細胞集塊のグループとの形態的な違いを識別可能な複数次元のベクトル量で表現された形態特徴量を取得する工程と、
(d)前記形態特徴量を入力とし前記遺伝子発現量の計測値を出力とするフィッティングが行われた関数へ前記工程(c)で取得した前記形態特徴量を入力することで取得した前記遺伝子発現量の予測値と、前記工程(b)で取得した前記遺伝子発現量の計測値とに基づいて、前記遺伝子発現量の予測精度を見積もる工程と、
(e)前記工程(d)で見積もった前記予測精度に基づいて、前記細胞集塊の形態変化に関連した遺伝子を前記遺伝子候補として抽出する工程と、
を含む、方法。
【請求項2】
前記工程(a)は、
前記細胞集塊に薬剤を投与する前に前記細胞集塊の顕微鏡画像を取得する工程と、
前記細胞集塊に薬剤を投与した後に前記細胞集塊の顕微鏡画像を取得する工程と、を含む
請求項1記載の方法。
【請求項3】
(f)前記工程(c)で取得した前記形態特徴量の入力に対して前記工程(b)で取得した前記遺伝子発現量の計測値を出力する前記関数をフィッティングする工程を、さらに含む
請求項1記載の方法。
【請求項4】
(g)前記工程(a)に用いられた、前記癌検体あるいは前記癌検体から培養された前記細胞集塊の前記遺伝子発現量以外の生化学データ、あるいは、前記患者の診断又は治療の過程で取得された臨床データ、を取得する工程を、さらに含み、
前記工程(f)において、前記関数を、前記工程(g)で取得したデータと前記工程(c)で取得した前記形態特徴量の組み合わせの入力に対して、前記工程(b)で取得した前記遺伝子発現量の計測値を出力するように、フィッティングする
請求項2記載の方法。
【請求項5】
前記工程(c)において、前記形態特徴量を、病理診断の過程で取得された臨床データを用いて複数の癌検体を分類した複数のグループの形態的な違いを識別可能に取得する
請求項1記載の方法。
【請求項6】
前記工程(c)における前記形態特徴量の取得を、ディープラーニング技術を用いて行う
請求項1記載の方法。
【請求項7】
前記工程(f)における前記関数のフィッティングを、ディープラーニング技術を用いて行う
請求項1記載の方法。
【請求項8】
前記工程(e)は、
前記遺伝子発現量の計測値の変動を統計的に見積もる工程と、
前記予測精度と前記変動の大きさとに基づいて前記遺伝子候補を抽出する工程と、を含む
請求項1記載の方法。
【請求項9】
請求項1に記載の遺伝子候補を抽出する方法を用いて抽出した遺伝子候補の活用方法であって、
抽出された前記遺伝子候補に基づいて、患者の癌の分類又は診断の支援、若しくは、前記患者に対する薬剤の効果の予測を行う工程
を含む方法。
【請求項10】
コンピュータに、
(a)患者の癌検体を由来として培養された細胞集塊の顕微鏡画像を取得する処理と、
(b)前記処理(a)に用いられた、前記癌検体あるいは前記癌検体から培養された前記細胞集塊の遺伝子発現量の計測値を取得する処理と、
(c)前記処理(a)で取得した前記顕微鏡画像に基づいて、同一の癌検体から培養された細胞集塊のグループと他の癌検体から培養された細胞集塊のグループとの形態的な違いを識別可能な複数次元のベクトル量で表現された形態特徴量を取得する処理と、
(d)前記形態特徴量を入力とし前記遺伝子発現量の計測値を出力とするフィッティングが行われた関数へ前記処理(c)で取得した前記形態特徴量を入力することで取得した前記遺伝子発現量の予測値と、前記処理(b)で取得した前記遺伝子発現量の計測値とに基づいて、前記遺伝子発現量の予測精度を見積もる処理と、
(e)前記処理(d)で見積もった前記予測精度に基づいて、前記細胞集塊の形態変化に関連した遺伝子を前記患者の癌の特徴に関係する遺伝子候補として抽出する処理と、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書の開示は、患者由来の細胞を使った培養サンプルや細胞集塊をイメージング(画像を取得)し、それを解析することによって個々の患者の癌に関係する遺伝子候補を抽出する方法、その遺伝子候補を活用する方法、及び、プログラムに関する。
【背景技術】
【0002】
遺伝子などの患者固有の情報を癌の診断や治療に役立てる試みは近年盛んに行われている。例えば、特定の遺伝子の変異やそれに伴う発現の変化は癌の悪性度や抗癌剤の効き目などに関係していることが知られている(いわゆる、癌関連遺伝子や癌遺伝マーカーなど)。最近では、癌疾患に関連した遺伝子や臨床情報などのデータを組み合わせた統合的な解析をする研究が盛んに行われるようになっており、注目される分野となっている。
【0003】
癌や腫瘍は、不均一で多様な細胞により構成されている。そのために、癌や腫瘍疾患は複雑な様相をみせる。これは腫瘍の大きな特徴の一つである。最近では、生体内での振る舞いを模倣した細胞集塊(オルガノイドと呼ばれる三次元構造)をマルチウェルプレート等のウエル内で再現することが、これらの複雑な腫瘍の研究のための有効な手段として注目されている。これらの腫瘍の複雑さを特徴づける指標として遺伝子の発現や薬剤反応が用いられているが、顕微鏡画像を用いることもオルガノイドサンプル内の複雑な挙動を理解するための重要な手がかりを与えると考えられている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】“A review on machine learning principles for multi-view biological data integration”, Briefings in Bioinformatics, Volume 19, Issue 2, March 2018, Pages 325-340
【非特許文献2】“Multi-omic and multi-view clustering algorithms: review and cancer benchmark”, Nucleic Acids Research, Volume 46, Issue 20, 16 November 2018, Pages 10546-10562
【非特許文献3】“Integrating spatial gene expression and breast tumour morphology via deep learning”, Nature Biomedical Engineering, Volume 4, Pages827-834 (2020)
【非特許文献4】“Pheno-seq - linking visual features and gene expression in 3D cell culture systems”, Scientific Reports, Volume 9, Article number 12367 (2019)
【発明の概要】
【発明が解決しようとする課題】
【0005】
オルガノイドが個々の腫瘍の特徴を反映している一方で、その特徴がどのようなものであるかを特定することは難しい。具体的には、同じ癌患者に由来する培養されたオルガノイド間で形態的な違いや大きさの違いなどが異なる多様性を呈することがある。これらのことにより、同一の癌から培養したオルガノイドに共通する特徴を特定することを困難にしている。また、複雑な形態的特徴を持つオルガノイドの顕微鏡画像から形態的特徴を単に数値化してそこから得られるデータから共通の特徴を抽出(探し出す)ことは困難であった。
【0006】
従って、複雑、かつ多様な形態的特徴をもつ共通の腫瘍に由来するオルガノイドサンプルにおいて患者の疾患を特徴づける原因や因子を見つける方法が求められていた。具体的には、薬剤反応の違いをもたらす遺伝子を同定することは、薬剤奏効性の予測や新規薬剤の開発などに役立つと期待されている。
【0007】
以上のような実情を踏まえ、本発明の一側面に係る目的は、複雑な形態的特徴をもつオルガノイドサンプルなどの顕微鏡画像を用いて、同一種類の癌の特徴に関連する遺伝子候補を特定することである。
【課題を解決するための手段】
【0008】
本発明の一態様に係る方法は、個々の患者の癌の特徴に関係する遺伝子候補を抽出する方法であって、(a)顕微鏡を用いて、前記患者の癌検体を由来として培養された細胞集塊の画像を取得する工程と、(b)前記工程(a)に用いられた、前記癌検体あるいは前記癌検体から培養された前記細胞集塊の遺伝子発現量を計測する工程と、(c)前記工程(a)で取得した前記画像に基づいて、同一の癌検体から培養された細胞集塊のグループと他の癌検体から培養された細胞集塊のグループとの形態的な違いを識別可能な複数次元のベクトル量で表現された形態特徴量を取得する工程と、(d)前記工程(c)で取得した前記形態特徴量の入力に対して、前記工程(b)で計測した前記遺伝子発現量を出力するように、関数をフィッティングする工程と、(e)前記工程(d)でフィッティングした前記関数の出力である前記遺伝子発現量の予測値を、前記工程(b)で計測した前記遺伝子発現量の計測値と比較することで、前記遺伝子発現量の予測精度を見積もる工程と、(f)前記工程(e)で見積もった前記予測精度に基づいて前記細胞集塊の形態変化に関連した遺伝子を選択し、選択した前記遺伝子に基づいて前記遺伝子候補を抽出する工程と、を含む。
【0009】
本発明の別の態様に係る方法は、上記態様の遺伝子候補を抽出する方法を用いて抽出した遺伝子候補の活用方法であって、前記遺伝子候補の遺伝子発現量の予測値を用いて、患者の癌の分類又は診断の支援、若しくは、前記患者に対する薬剤の効果の予測を行う工程を含む。
【0010】
本発明の一態様に係るプログラムは、コンピュータに、(a)顕微鏡を用いて、患者の癌検体を由来として培養された細胞集塊の画像を取得する処理と、(b)前記処理(a)に用いられた、前記癌検体あるいは前記癌検体から培養された前記細胞集塊の遺伝子発現量を計測する処理と、(c)前記処理(a)で取得した前記画像に基づいて、同一の癌検体から培養された細胞集塊のグループと他の癌検体から培養された細胞集塊のグループとの形態的な違いを識別可能な複数次元のベクトル量で表現された形態特徴量を取得する処理と、(d)前記処理(c)で取得した前記形態特徴量の入力に対して、前記処理(b)で計測した前記遺伝子発現量を出力するように、関数をフィッティングする処理と、(e)前記処理(d)でフィッティングした前記関数の出力である前記遺伝子発現量の予測値を、前記処理(b)で計測した前記遺伝子発現量の計測値と比較することで、前記遺伝子発現量の予測精度を見積もる処理と、(f)前記処理(e)で見積もった前記予測精度に基づいて前記細胞集塊の形態変化に関連した遺伝子を選択し、選択した前記遺伝子に基づいて、前記患者の癌の特徴に関係する遺伝子候補を抽出する処理と、を実行させる。
【発明の効果】
【0011】
上記の態様によれば、顕微鏡画像を用いて同一種類の癌の特徴に関連する遺伝子候補を特定することができる。
【図面の簡単な説明】
【0012】
【
図1】ディープニューラルネットワーク(DNN)を用いた一連の処理の流れを示す図である。
【
図2】F-PDOの顕微鏡画像を示す模式図である。
【
図3】F-PDOの別の顕微鏡画像を示す模式図である。
【
図4】F-PDOの更に別の顕微鏡画像を示す模式図である。
【
図5】F-PDOの更に別の顕微鏡画像を示す模式図である。
【
図6】顕微鏡画像から画像パッチを生成する様子を示した図である。
【
図7】第1のモデルのレイヤ構成例を示した図である。
【
図8】第1のモデルで得られる画像特徴量を、次元削減手法を用いて可視化した図である。
【
図9】画像特徴量のパターンを可視化した図である。
【
図10】カラーCCDで取得したカラー画像を例示した図である。
【
図11】第1のモデルで得られる画像特徴量とオートエンコーダで得られる画像特徴量を、次元削減手法を用いて可視化した図である。
【
図12】第1のモデルで得られる画像特徴量のパターンとオートエンコーダで得られる画像特徴量のパターンを可視化した図である。
【
図13】第2のモデルのレイヤ構成例を示した図である。
【
図14】ラベル毎に計測された遺伝子発現量を可視化した図である。
【
図15】各遺伝子の遺伝子発現量の予測精度と分散の関係を示した図である。
【
図16】候補遺伝子の抽出方法を説明するための図である。
【
図17】第3のモデルのレイヤ構成例を示した図である。
【
図18】ラベル毎に計測された薬物応答を可視化した図である。
【
図22】システムを実現するためのコンピュータのハードウェア構成を例示した図である。
【
図23】遺伝子候補を抽出し活用する処理のフローチャートである。
【発明を実施するための形態】
【0013】
以下、個々の患者の癌の特徴に関係する遺伝子候補を抽出する方法、及び、その遺伝子候補の活用方法を説明する。これらの方法は、公立大学法人福島県立医科大学の患者由来腫瘍オルガノイドコレクション(F-PDO(登録商標))のうちの肺癌由来オルガノイドの、遺伝子発現、薬剤反応、顕微鏡画像のデータセットを使用した研究を通じて発案されたものである。
【0014】
図1は、ディープニューラルネットワーク(DNN)を用いた一連の処理の流れを示す図である。
図1に示すように、上述した遺伝子候補を抽出する方法、及び、その遺伝子候補の活用方法は、望ましくは、3つのディープニューラルネットワーク(モデル1、モデル2、モデル3)を用いて行われる。
【0015】
図1に示すように、入力データセット10はディープニューラルネットワークによって段階的に順次処理される。最初に画像用の畳み込みニューラルネットワーク(CNN)であるモデル1が、次に遺伝子発現量予測用の回帰モデルであるモデル2と薬剤反応予測用の回帰モデルであるモデル3が、それぞれ適用される。なお、入力データセット10は、入力画像データセットであり、より具体的には、顕微鏡画像のデータセットである。本研究では、入力データセット10として、上述したF-PDO(登録商標)の顕微鏡画像のデータセットが使用された。
【0016】
<第1のモデル>
第1のモデルであるモデル1では、入力データセット10の次元をより小さな次元のベクトルに変換することで、画像特徴量30(画像特徴ベクトルともいう)を生成する。モデル1とモデル1を用いて生成する画像特徴量30について説明する。
【0017】
図2から
図5は、F-PDOの顕微鏡画像を示す模式図である。F-PDOの顕微鏡画像には予めラベルが付与されている。ラベルは、由来している腫瘍、すなわち、どのような癌であるか、及び、どの患者由来のものかを表している。
図2から
図5の各々には同じラベルが付与された3枚の画像が示されている。即ち、各図の3枚の画像は、同じ癌患者に由来する顕微鏡画像を示している。
【0018】
図2(a)及び
図2(b)は20倍の位相差対物レンズを用いて顕微鏡で取得したグレースケール画像(画像14a、画像14b)を示している。
図2(c)は10倍の明視野対物レンズを用いてカラーCCDカメラ搭載の顕微鏡で取得したカラー画像(画像14c)である。いずれの画像にもラベル名“RLUN14‐2”が付されている。
【0019】
なお、
図3から
図5のそれぞれ3枚の画像(画像20a、画像20b、画像20c、画像16a、画像16b、画像16c、画像21a、画像21b、画像21c)は、
図2の3枚の画像と同様の設定で取得した画像であり、それぞれラベル名“RLUN20”、“RLUN16‐2”、“RLUN21”が付されている。
【0020】
図2から
図5に示すように、F-PDOは均一ではない細胞によって構成されており、複雑な形態を持っている。
【0021】
本研究では、モデル1の学習用データの収集のため、上述した4種類のラベルの各々が付与されたサンプル(検体)について、20倍の位相差対物レンズを用いて1360×1024ピクセルのグレースケール画像を20枚ずつ撮影した。また、異なる設定で撮影された画像についてもモデル1が有効に機能することを確認するために、上述した4種類を含む25種類のラベルの各々が付与されたサンプルについて、10倍の明視野対物レンズとカラーCCDを用いて1920×1440ピクセルのカラー画像を4枚ずつ撮影した。
【0022】
図6は、顕微鏡画像から画像パッチを生成する様子を示した図である。
図7は、第1のモデルのレイヤ構成例を示した図である。
図6及び
図7を参照しながら、収集した顕微鏡画像を用いて行うモデル1の学習について説明する。
【0023】
まず、収集した顕微鏡画像(原画像とも記す)から64×64画素の画像パッチを生成し、その中からランダムに位置を選び、1枚の原画像に対して100パッチを採取した。ここでは、グレースケール画像を用いた。
図6には、顕微鏡画像20bから画像パッチPを生成する様子を示している。グレースケール画像から生成された画像パッチPの各々は、カラー画像(カラー次元=3)から生成される画像パッチの数に合わせるため、3回複製した。
【0024】
そして、生成した画像パッチPを用いてこのモデルを最適化する学習を行った。具体的には、画像パッチPの入力に対して損失関数であるスパースカテゴリカルクロスエントロピーを最小化するように学習した。 この学習は、各回ランダムにデータセットをバッチサイズ100のサブセットに分けて行われた。これを100エポック繰り返し行った。
【0025】
なお、モデル1は、畳み込みニューラルネットワーク(CNN)であり、
図7に示すように、畳み込み層1aと、それに続く平坦化層1bと、2つの完全連結層1c及び完全連結層1dを含み、さらに、最終的にソフトマックス関数で処理された結果を出力する出力層1eを含んでいる。畳み込み層1aは32×32×3次元のベクトル量を出力し、中間層である完全連結層1c及び完全連結層1dはそれぞれ128次元と10次元のベクトル量を出力するように、モデル1は設計されている。
【0026】
図8は、第1のモデルで得られる画像特徴量を、次元削減手法を用いて可視化した図である。
図9は、画像特徴量のパターンを可視化した図である。
図8及び
図9を参照しながら、モデル1の中間層から出力される画像特徴量30について説明する。なお、ここでは、画像特徴量30は、顕微鏡画像からラベルを推論する過程において完全連結層1dから出力される10次元のベクトル量である。
【0027】
図8は、画像特徴量30をt-distributed stochastic neighbor embedding(t-SNE)により低次元空間に射影した様子を示している。
図8に示す散布
図31の各プロットは、1つの画像パッチから得られる画像特徴量30に対応し、ラベルに応じて異なる色で表示されている。
図8に示すように、同じラベルが付与された画像パッチから得られる画像特徴量30に対応するプロットは互いに密接して分布し、異なるラベルが付与された画像パッチから得られる画像特徴量30に対応するプロットは互いに離間して分布している。
図8を参照することで、モデル1は、画像よりも低い次元の画像特徴量30を、どのような癌であるか及びどの患者由来のものかを表現する情報として出力できることが確認できる。
【0028】
また、
図9は、同じラベルが付与された画像パッチから得られる画像特徴量30を次元毎に平均化し、その値を濃度で示したヒートマップである。
図9に示すヒートマップ32の縦軸と横軸は、それぞれ、ラベルと画像特徴量30の要素番号を示している。即ち、同一のオルガノイドの画像から取得した複数の画像パッチから得られた複数の画像特徴量30の平均値が濃度として示されている。
図9を参照することで、サンプル(ラベル)の違いによって、画像特徴量30のどの次元が強くどの次元が弱いかなどを示す、画像特徴量30のパターンが異なることが確認できる。
【0029】
図8及び
図9に示されるように、画像特徴量30は、同一の癌検体から培養された細胞集塊のグループと他の癌検体から培養された細胞集塊のグループとの形態的な違いを識別可能な複数次元のベクトル量で表現された形態特徴量である。従って、適切に学習されたモデル1によれば、画像に表れている個々の患者の癌に固有の形態的な特徴を画像よりも低い複数次元のベクトル量(画像特徴量30)に変換して抽出することができる。
【0030】
図10は、カラーCCDで取得したカラー画像を例示した図である。
図11は、第1のモデルで得られる画像特徴量30とオートエンコーダで得られる画像特徴量を、次元削減手法を用いて可視化した図である。
図12は、第1のモデルで得られる画像特徴量30のパターンとオートエンコーダで得られる画像特徴量のパターンを可視化した図である。
図10から
図12を参照しながら、第1のモデルを用いて画像特徴量30を取得する方法の頑健性及び安定性と、第1のモデルに求められる要件について説明する。
【0031】
図10に示すカラー画像のデータセットは、上述した10倍の明視野対物レンズとカラーCCDを用いて取得された1920×1440ピクセルのカラー画像のデータセットであり、
図2(c)、
図3(c)、
図4(c)、
図5(c)に示す画像14c、画像20c、画像16c、画像21cを含んでいる。
図8及び
図9では、グレースケール画像を用いた場合の結果を示したが、画像特徴量30の取得には、
図10に示すカラー画像が用いられてもよい。この場合も同様の結果を得ることができる。
【0032】
具体的には、
図11(a)の散布
図33に示すように、カラー画像を用いた場合であっても、モデル1は、画像特徴量30を、どのような癌であるか及びどの患者由来のものかを表現する情報として出力できることができる。また、
図12(a)のヒートマップ34に示すように、カラー画像を用いた場合であっても、モデル1では、サンプル(ラベル)の違いによって画像特徴量30のパターンが異なることが確認できる。
【0033】
従って、モデル1によれば、画像特徴量30を、グレースケール画像やカラー画像といった撮影設定によらず、同一の癌検体から培養された細胞集塊のグループと他の癌検体から培養された細胞集塊のグループとの形態的な違いを識別可能な複数次元のベクトル量で表現された形態特徴量として出力可能である。
【0034】
モデル1の代わりに、オートエンコーダー(AE)を用いた別のニューラルネットワークモデルをテストした。AEモデルでは、入力した画像と同じ画像を再構成するように学習が行われる。ここで用いたAEモデルは、入力画像を、32×32×3の畳み込み層と、ドロップアウト層(ドロップアウト率=0.1)と、2×2の最大プーリング層からなる層集合で符号化した。さらに、この層集合を3回適用し、さらに平坦化層、1024ノードからなる層、10ノードからなる層で処理した。その後、符号化した情報を同様の構成で逆符号化した。学習のハイパーパラメータには、バッチサイズ100を、エポック数100を用いた。
【0035】
上述したAEモデルの中間層である10ノードからなる層から得られる画像特徴量は、モデル1から得られる画像特徴量30と同様に、入力画像よりも低い複数次元のベクトル量である。しかしながら、
図11(b)の散布
図41に示すように、AEモデルが生成する画像特徴量は、サンプルによらずt-SNEを用いて出力される空間上にランダムに分布し、どのような癌であるか及びどの患者由来のものかを表現しない。また、
図12(b)のヒートマップ42に示すように、AEモデルが生成する画像特徴量は、サンプル(ラベル)によらず似通ったパターンを有する。
【0036】
この結果から、AEモデルでは、ラベルで識別される個々の癌集塊の特徴をうまく捉えられないことが確認できる。その理由は、AEモデルはオルガノイドのラベルを無視して、単純に各画像のみを対象とした処理を実行しているからである。この場合も、各パッチの画像特徴量を得ることはできる。しかしながら、
図12を参照することで分かるように、モデル1で得られる画像特徴量30と比較すると、元の組織間の差異(各ラベルごとの差異)が減少していることが確認できる。この結果から、各オルガノイドの特徴量を取得するには、個々の画像が持つ特徴だけではなく、異なるラベルを持つオルガノイドの複数の画像群を比較して共通する特徴を抽出する、モデル1のようなモデルが必要であることがわかる。
【0037】
従って、個々の癌集塊の特徴を捉える用途で、モデル1の代わりにAEモデルを使用することはできない。第1のモデルは、モデル1のように、画像特徴量を、同一の癌検体から培養された細胞集塊のグループと他の癌検体から培養された細胞集塊のグループとの形態的な違いを識別可能な複数次元のベクトル量で表現された形態特徴量として出力するように構成されるべきである。そのためには、第1のモデルは、例えば、ラベルなど個々の癌の特徴に関連する情報を出力する分類モデル又は回帰モデルとして構成されることが望ましい。
【0038】
また、上記の例においては、第1のモデルは、画像のラベル(由来となったもとの癌組織)の差異を表現する画像特徴量を抽出するものと言い換えることができる。しかしながら、第1のモデルは、画像に付与されたラベルの代わりに別の指標によってグループ分けされるグループを識別する回帰モデルであってもよい。この場合も、別の指標によって識別されるグループのオルガノイドに共通する形態的特徴を示す画像特徴量を抽出することができる。別の指標は、例えば、病理診断結果などの臨床データであるが、臨床データそのものに限らず臨床データを用いて医師等によって判断されたグループを特定する情報であってもよい。即ち、第1のモデルは、形態特徴量を、病理診断の過程で取得された臨床データを用いて複数の癌検体を分類した複数のグループの形態的な違いを識別可能に取得するモデルであってもよい。
【0039】
また、上記の例においては、1枚の画像から画像特徴量30を抽出したが、例えば薬剤を投与した後のオルガノイドの画像を取得し、これを薬剤投与前の画像と比較することで、薬剤投与による形態変化の特徴量を抽出してもよい。この処理によって、ラベル間の差異はより強調されることになるため、後述する工程における遺伝子発現量の予測精度の向上が期待できる。また、後述する工程における薬剤反応の予測精度の向上も期待できる。
【0040】
<第2のモデル>
第2のモデルであるモデル2では、画像特徴量30から遺伝子発現量(予測値50)を予測する。以降では、モデル2で予測した遺伝発現量とシーケンサ等の計測器で計測した遺伝子発現量を区別するため、必要に応じて、前者を遺伝子発現量の予測値といい、後者を遺伝発現量の計測値と記す。モデル2の推論結果である遺伝子発現量(予測値50)は、測定値と比較することで遺伝子毎の予測精度を評価するために使用される。さらに、遺伝子毎の予測精度に基づいて、癌に関連する遺伝子候補が抽出される。
【0041】
一般的に、癌やオルガノイドにおける形態や薬剤反応に係る特徴は、少数の遺伝子によって評価されている。そこで、これらの遺伝子と顕微鏡画像との関連性を示すために、第1のモデルで抽出された画像特徴量30を用いて、PDOの基本的な生物学的プロファイルの一つである遺伝子発現との相関を解析した。
【0042】
図13は、第2のモデルのレイヤ構成例を示した図である。解析に当たり、
図13に示すような、ディープニューラルネットワーク(DNN)の回帰モデルであるモデル2を学習させた。モデル2は、モデル1から出力される10次元の画像特徴量30を入力データとして14400の遺伝子の発現量を予測するモデルである。学習には、25の異なるサンプルを用いた。各サンプルの遺伝子発現量を計測し、モデル2の出力が遺伝子発現量の計測値に近づくように学習を行った。
【0043】
なお、このモデル2に対して行われる学習は、モデル1から出力される画像特徴量30の入力に対して、サンプルから計測した遺伝子発現量を出力するように、関数であるモデル2をフィッティングすることと言い換えることができる。
【0044】
図13では、簡略化して示されているが、モデル2は、それぞれ10、18、54、162の次元を有する4層からなる全結合層を有し、出力次元は14400である。各層は、活性化関数を用いない完全線形接続である。損失関数には平均二乗誤差を用い、この値を最小化するように学習が実行された。学習のハイパーパラメータには、入力データ数Nに対して、バッチサイズ50を、エポック数15を用いた。
【0045】
一般に、画像の入力データに対しては、隣接するピクセル情報を比較するようなConvolution処理の有効性がよく知られている。このため、画像を入力データとする第1のモデルではConvolutional Neural Network (CNN)の手法を用いた。しかしながら、第2のモデルの入力は画像ではないため、このような処理は必ずしも必要ではない。そこで、第2のモデルではConvolution処理を実行しない単純なDeep Neural Network(複数の層を組み合わせたニューラルネットワークでディープラーニングの技術として総称されるもの)を採用した。
【0046】
モデル2は、画像特徴量30に基づいて遺伝子発現量の予測を行うが、モデル2の入力データは、画像特徴量30のみに限らない。画像特徴量30と他の補助的なデータと組み合わせたデータを入力データとして利用してもよい。例えば、「細胞活性などの生化学データ」や「患者の診断や治療の過程で取得された臨床データ」などは、各腫瘍あるいは各患者を特徴づける指標として広く用いられている。これらのデータを画像特徴量30とつなぎ合わせること(データの連結(concatenate))はニューラルネットワーク処理技術では一般的に広く用いられており、モデル2でもこのようなデータを入力データとして利用してもよい。
【0047】
図14は、ラベル毎に計測された遺伝子発現量を可視化した図である。FDOの遺伝子発現データセットには、25の異なるサンプル(ラベル)について、それぞれ14400のヒト転写産物の発現レベルから推定されたプロファイルが含まれている。
図14に示すヒートマップ51には、サンプル間での遺伝子発現量の分散を考慮して、このうちの100個の遺伝子が選択され、その選択されたもののみが示されている。なお、ヒートマップ51は、横軸がラベル、縦軸が遺伝子であり、濃度で遺伝子発現量を表している。
【0048】
図15及び
図16は、各遺伝子の遺伝子発現量の予測精度と分散の関係を示した図である。
図15及び
図16に示す散布
図61の各プロットは各遺伝子に対応する。なお、散布
図61は、サンプル毎(又は同種の癌のサンプルグループ毎)に作成される。
図15及び
図16に示す散布
図61の縦軸と横軸は、それぞれ、遺伝子発現量の予測精度、遺伝子発現量の分散を示していて、[0,1]の範囲で正規化されている。
図16に示す領域62内の遺伝子を、そのサンプルにおける遺伝子候補として抽出した。
【0049】
具体的には、まず、モデル1で得られた画像特徴量30を入力としてモデル2によって得られる遺伝子発現量の予測値を各オルガノイドサンプルについて平均化し、各遺伝子を代表する遺伝子発現量の予測値50として算出した。より具体的には、上述した予測はクロスバリデーション法(3-fold cross-validation)を用いて25サンプルで行った。検証は無作為に選んだ3サンプルに対して行い、残りの22サンプルのデータセットに対してモデル2を学習させた。この学習を10回繰り返し、検証用データセットを用いてサンプル毎に各遺伝子の発現量を予測した。予測値50が算出されると、その後、予測精度を評価した。予測精度は、予測を10回繰り返して得られた10個の予測値50を1セットとし、予測値50と答え(計測値)のピアソンの相関係数で評価した。一方、分散は、サンプル毎ではなく18サンプルの計測値から計算された。
【0050】
図15及び
図16に示す散布
図61において、比較的右側の予測精度の高い領域にあるプロットに対応する遺伝子は、そのオルガノイドの画像特徴量からそれら遺伝子の発現量を予測できることを示している。つまり、これらの遺伝子はそのオルガノイドの画像特徴量との相関が高く、形態的な違いの原因となる候補遺伝子であると考えられる。一方、散布
図61において、比較的左側の予測精度の低い領域にあるプロットに対応する遺伝子は、そのオルガノイドの画像特徴量から遺伝子発現量を予測できないことから、PDOの形態の多様性とは無関係であると考えられる。
【0051】
従って、散布
図61の比較的右側の領域の遺伝子を、個々の患者の癌の特徴を示す有力な遺伝子候補と見做すことができる。さらに、遺伝子選択精度を向上させるために、発現量の統計的なバラつきを示す分散を追加的な基準として使用することが望ましい。その理由は、異なるサンプル間での発現量の変化が小さいということは、これらの遺伝子がサンプル群間で共通であるか、全く不活性であることを示すからである。そこで、分散の小さい遺伝子をPDOの形態的変化に関連する遺伝子候補から除外した。残った遺伝子は、
図16の領域62にプロットされた遺伝子であり、分散が大きく予測と計測の相関が高い遺伝子である。これらの遺伝子はサンプルごとの特徴を反映して変化している可能性を高く、個々の患者の癌の特徴を示す有力な遺伝子候補である。
【0052】
<第3のモデル>
第3のモデルであるモデル3は、モデル2を用いて算出される予測精度と分散に基づいて選択された遺伝子候補のセット60から薬物応答70を予測する。モデル2を用いた遺伝子候補の選択効果を確認するために、PDOの他の特徴的なプロファイルである薬物反応について、遺伝子候補を用いて予測精度を推定した。
【0053】
まず、
図16の領域62で示すように、分散の大きい遺伝子を特定し、さらに、閾値により予測精度の高いものを選択した。ここでは、予測精度の閾値を予測値と実験値の相関係数として十分に大きな値となる0.8に設定した。そして、この閾値で囲まれた領域62から、目的に応じて任意のn個(nは遺伝子数:n=3,5,8,10)の遺伝子を選択し、これらを遺伝子候補として決定した。なお、決定した遺伝子数nの妥当性は、例えば、
図19を参照しながら後述する薬物応答性の予測精度を評価することで検証可能である。
【0054】
ここでは、分散の大きいものから順にn個の遺伝子を選択しているが、一方で別のデータセットに今回のモデルを適用した場合、分散の値及びこれらの分布は異なる。この場合、一つの方法としてnの値を固定して、例えばn=10個の遺伝子を分散の値が高いものから順番に選択することが可能である。あるいは、分散の閾値を固定して、領域62内の遺伝子をすべて選択することも可能である。さらに、分散及び相関係数の閾値をユーザーが任意に変更し、遺伝子を選択するなど、複数の方法で実施することが可能である。
【0055】
この例では、分散を組み合わせた遺伝子候補選択手法を実行したが、より単純な場合として予測精度のみを指標として遺伝子候補選択することも可能である。
【0056】
これらの選択された遺伝子候補のセットを用いて、
図17に示すモデル3により薬剤反応性の予測を行った。
図17は、第3のモデルのレイヤ構成例を示した図である。
図18は、ラベル毎に計測された薬効を可視化した図である。モデル3は、
図17に示すように、3層からなる全結合層を有するDNN回帰モデルである。損失関数には平均二乗誤差を用いる。
図17に示すモデル3の出力値と
図18に示す計測値との平均二乗誤差を最小化するように学習が実行された。この回帰モデルを用いて18サンプルを用いて、それぞれ76化学物質についてAUC値で評価した薬物応答を予測した。予測精度は、クロスバリデーション法(5重クロスバリデーション)により、18サンプルを用いて評価した。
【0057】
図19は、薬物応答性の予測精度を示す図である。
図19で示されるように、3遺伝子、5遺伝子付近の結果では、決定係数R2(予測精度を評価するために一般的に用いられる統計的な指標。ピアソンの相関係数と似た定義で与えられる。)の値は0.5程度となり、ニューラルネットワークモデルの性能は中程度であることがわかる。また、
図19から、モデル2を用いた上述した遺伝子候補選択モデルは、ランダム選択の場合と比較して、3遺伝子から10遺伝子まで比較的高い予測精度を維持していることもわかる。これらの結果は、遺伝子候補選択モデルが薬剤反応予測に有効であることを示している。また、遺伝子数nは、ランダム選択よりも高い予測精度が得られる3から10程度の値を選択することが妥当であると評価できる。
【0058】
なお、ここでは、選択された遺伝子候補をもとに薬剤反応予測を行ったが、他の関連するデータを同様の手法で予測に応用することも可能である。実際、複数の遺伝子群のデータから、患者群の分類(患者の層別化)や詳細な診断を行うことは広く実施されている。
【0059】
<システム構成例>
図20及び
図21は、上述したモデルを利用したシステム構成例を示した図である。
図20に示すシステム100は、上述したモデル1とモデル2を含むシステムである。システム100では、
図20に示すように、患者毎にラベルされた複数のオルガノイド画像を用いてモデル1を学習させ、さらに、モデル1からの出力(画像特徴量)と複数の患者の各々の遺伝子発現データを用いてモデル2を学習させる。これにより、予測精度や分散などの閾値を設定することで、複数の患者のそれぞれの癌に関連する遺伝子候補を利用者に提供することができる。なお、遺伝子候補の提供方法は特に限定されない。例えば、表示装置に遺伝子候補に表示させことで、利用者に提供してもよい。また、必要なタイミングで読み出せるように記憶装置に格納されてもよい。その他、印刷やメールなどによって利用者に提供されてもよい。
【0060】
また、モデル1の学習が完了している場合には、システム100へ入力される画像には、必ずしもラベルが付与されていなくてもよい。複数の患者のオルガノイド画像と複数の患者の遺伝子発現データが入力されてもよい。この場合も、患者毎に遺伝子候補を抽出することができる。
【0061】
図21に示すシステム200は、上述したモデル1とモデル2とモデル3を含むシステムである。システム200では、モデル1とモデル2とモデル3の学習は予め行われている。この場合、未知の患者のオルガノイド画像をその患者の遺伝子発現データとともに入力するだけで、その患者の癌に関連する遺伝子候補から高い薬剤反応を示す薬剤を特定することができる。従って、その患者の治療等に有効な薬剤をその効果の程度とともに出力することができる。出力情報の一例は、(薬剤A:効き目1.0、薬剤B:効き目0.6、薬剤C:効き目0.1)などである。このように、有効な薬剤のみではなく効き目の弱い薬剤も予測可能である。
【0062】
図22は、上述したシステムを実現するためのコンピュータ90のハードウェア構成を例示した図である。
図22に示すハードウェア構成は、例えば、プロセッサ91、メモリ92、記憶装置93、読取装置94、通信インタフェース96、及び入出力インタフェース97を備える。なお、プロセッサ91、メモリ92、記憶装置93、読取装置94、通信インタフェース96、及び入出力インタフェース97は、例えば、バス98を介して互いに接続されている。
【0063】
プロセッサ91は、記憶装置93に格納されているプログラムを読み出して実行することで、上述したモデルが動作する。メモリ92は、例えば、半導体メモリであり、RAM領域およびROM領域を含んでもよい。記憶装置93は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、または外部記憶装置である。
【0064】
読取装置94は、例えば、プロセッサ91の指示に従って記憶媒体95にアクセスする。記憶媒体95は、例えば、半導体デバイス、磁気的作用により情報が入出力される媒体、光学的作用により情報が入出力される媒体などにより実現される。
【0065】
通信インタフェース96は、例えば、プロセッサ91の指示に従って、他の装置と通信する。入出力インタフェース97は、例えば、入力装置および出力装置との間のインタフェースである。入出力インタフェース97には、例えば、ディスプレイ、キーボード、マウスなどが接続されている。
【0066】
プロセッサ91が実行するプログラムは、例えば、下記の形態でコンピュータ90に提供される。
(1)記憶装置93に予めインストールされている。
(2)記憶媒体95により提供される。
(3)プログラムサーバなどのサーバから提供される。
【0067】
なお、
図22を参照して述べた、システムを実現するためのコンピュータ90のハードウェア構成は例示であり、実施形態はこれに限定されるものではない。例えば、上述の構成の一部が、削除されてもよく、また、新たな構成が追加されてもよい。また、別の実施形態では、例えば、上述の電気回路の一部または全部の機能がFPGA(Field Programmable Gate Array)、SoC(System-on-a-Chip)、ASIC(Application Specific Integrated Circuit)、およびPLD(Programmable Logic Device)などによるハードウェアとして実装されてもよい。
【0068】
上述した実施形態は、発明の理解を容易にするために具体例を示したものであり、本発明はこれらの実施形態に限定されるものではない。上述の実施形態を変形した変形形態および上述した実施形態に代替する代替形態が包含され得る。つまり、各実施形態は、その趣旨および範囲を逸脱しない範囲で構成要素を変形することが可能である。また、1つ以上の実施形態に開示されている複数の構成要素を適宜組み合わせることにより、新たな実施形態を実施することができる。また、各実施形態に示される構成要素からいくつかの構成要素を削除してもよく、または実施形態に示される構成要素にいくつかの構成要素を追加してもよい。さらに、各実施形態に示す処理手順は、矛盾しない限り順序を入れ替えて行われてもよい。即ち、本発明の遺伝子候補を抽出する方法、遺伝子候補を活用する方法、及び、プログラムは、特許請求の範囲の記載を逸脱しない範囲において、さまざまな変形、変更が可能である。
【0069】
例えば、上述した3つのモデルには、必ずしもディープラーニング技術を用いる必要はない。例えば、画像特徴量を抽出する第1のモデルは、患者の癌に固有の特徴量を抽出できる限り、CNNの代わりに人間が予め設計した画像特徴量、例えば、輪郭形状などから識別される画像中のオルガノイド領域のサイズや形態量(例えば丸み凹凸など)を画像特徴量として抽出してもよい。また、遺伝子発現量を出力する第2のモデルは、ニューラルネットワークの代わりに、計測された遺伝子発現量へのフィッティングに一般的な回帰分析の手法(最も単純なものは最小二乗法など)を用いることで得られた関数で代用してもよい。第3のモデルについても第2のモデルと同様である。なお、第1から第3のモデルのいずれも、対象とするデータが複雑な場合は、一般的なディープラーニング技術が有効である。ただし、比較的単純な場合(今回よりも少数のサンプル群や、より少数の遺伝子群のみをインプットとして用いるような場合)は、ディープラーニング技術に限らず上記のような比較的単純な手法を用いることが可能である。
【0070】
図23は、上述した個々の患者の癌の特徴に関係する遺伝子候補を抽出し活用する処理のフローチャートである。
図23に示すように、遺伝子候補を抽出する方法は、以下の6つの工程を含むことが望ましい。
1.患者の癌検体を由来として培養された細胞集塊の顕微鏡画像を取得する工程(ステップS1)
2.工程1.に用いられた、癌検体あるいは癌検体から培養された細胞集塊の遺伝子発現量の計測値を取得する工程(ステップS2)
3.工程1.で取得した顕微鏡画像に基づいて、同一の癌検体から培養された細胞集塊のグループと他の癌検体から培養された細胞集塊のグループとの形態的な違いを識別可能な複数次元のベクトル量で表現された形態特徴量を取得する工程(ステップS3)
4.形態特徴量を入力とし遺伝子発現量の計測値を出力とするフィッティングが行われた関数へ工程3.で取得した形態特徴量を入力することで取得した前記遺伝子発現量の予測値と、工程2.で取得した遺伝子発現量の計測値とに基づいて、遺伝子発現量の予測精度を見積もる工程(ステップS4)
5.工程4.で見積もった予測精度に基づいて、細胞集塊の形態変化に関連した遺伝子を遺伝子候補として抽出する工程(ステップS5)
6.工程4.で抽出された遺伝子候補に基づいて、患者の癌の分類又は診断の支援、若しくは、患者に対する薬剤の効果の予測を行う工程(ステップS6)
【0071】
ステップS1では、顕微鏡を用いて顕微鏡画像を取得してもよく、すでに取得済みの顕微鏡画像を取得してもよい。また、ステップS1では、細胞集塊に薬剤を投与する前に細胞集塊の顕微鏡画像を取得し、さらに、細胞集塊に薬剤を投与した後に細胞集塊の顕微鏡画像を取得してもよい。これらの画像の変化をステップS3の入力に利用してもよい。
【0072】
ステップS2では、ステップS1で取得した顕微鏡画像に関連するサンプル(癌検体、細胞集塊)の遺伝子発現量の計測値を取得する。ここでは、シーケンサなどを用いて計測してもよく、計測済みの計測値を取得してもよい。
【0073】
ステップS3では、ステップS1で取得した顕微鏡画像に基づいて形態特徴量を取得する。ここでは、上述した第1のモデルを用いて形態特徴量(画像特徴量)を取得すればよい。なお、第1のモデルが学習済みであれば、顕微鏡画像にはラベルが付与されている必要はない。この場合、形態特徴量の取得は、ディープラーニング技術を用いて行われてもよい。
【0074】
なお、形態特徴量は、病理診断の過程で取得された臨床データを用いて複数の癌検体を分類した複数のグループの形態的な違いを識別可能な特徴量である。ステップS3では、そのような形態特徴量が取得される。
【0075】
ステップS4では、ステップS3で取得した形態特徴量に基づいて遺伝子発現量を予測し、計測値との比較から遺伝子毎の予測精度を見積もる。遺伝子発現量の予測には、上述した第2のモデルを用いればよい。
【0076】
なお、ステップS4の以前に、ステップS3で取得した形態特徴量の入力に対してステップS2で取得した遺伝子発現量の計測値を出力する関数をフィッティングする工程が設けられてもよい。その工程により、第2のモデルが最適化されてもよい。この場合、関数のフィッティングは、ディープラーニング技術を用いて行われてもよい。
【0077】
さらに、関数のフィッティングに用いられる入力には、形態特徴量に加えて、癌検体あるいは癌検体から培養された細胞集塊の遺伝子発現量以外の生化学データが用いられてもよく、患者の診断又は治療の過程で取得された臨床データが用いられてもよい。そのため、これらのデータを取得する工程がフィッティング工程の前に設けられてもよい。その場合、ステップS4でも形態特徴量とこれらのデータの組み合わせが関数に入力されることが望ましい。
【0078】
ステップS5では、ステップS4で見積もった遺伝子毎の予測精度に基づいて、遺伝子候補を抽出する。具体的には予測精度が高い遺伝子を優先して抽出すればよい。さらに望ましくは、予測精度が高く、且つ、サンプル間での発現量の分散が大きい遺伝子を優先して抽出すればよい。即ち、ステップS5は、遺伝子発現量の計測値の変動を統計的に見積もる工程と、その見積もった変動の大きさとステップS4で見積もった予測精度とに基づいて遺伝子候補を抽出する工程を含んでもよい。なお、抽出した遺伝子候補は、表示装置に表示してもよく、ファイルに出力してもよい。
【0079】
ステップS6では、ステップS5で抽出した遺伝子候補から、患者がどのような種類の癌であるの診断の支援を行う。若しくは、ステップS5で抽出した遺伝子候補から、患者に対する各薬剤の効果を予測する。薬剤の効果予測には第3のモデルを用いればよい。
【符号の説明】
【0080】
1、2、3 :モデル
1a :畳み込み層
1b :平坦化層
1c、1d :完全連結層
1e :出力層
10 :入力データセット
30 :画像特徴量
31、33、41、61 :散布図
32、34、42、51 :ヒートマップ
50 :予測値
60 :セット
62 :領域
70 :薬物応答
90 :コンピュータ
91 :プロセッサ
92 :メモリ
100、200 :システム