(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024025663
(43)【公開日】2024-02-26
(54)【発明の名称】タンパク発現量推定方法、推定システムおよび推定装置
(51)【国際特許分類】
G01N 21/64 20060101AFI20240216BHJP
G01N 33/53 20060101ALI20240216BHJP
【FI】
G01N21/64 Z
G01N33/53 D
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023103830
(22)【出願日】2023-06-26
(31)【優先権主張番号】P 2022127501
(32)【優先日】2022-08-10
(33)【優先権主張国・地域又は機関】JP
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TWEEN
(71)【出願人】
【識別番号】593106918
【氏名又は名称】株式会社ファンケル
(71)【出願人】
【識別番号】521269001
【氏名又は名称】サイトロニクス株式会社
(74)【代理人】
【識別番号】100162396
【弁理士】
【氏名又は名称】山田 泰之
(74)【代理人】
【識別番号】100194803
【弁理士】
【氏名又は名称】中村 理弘
(72)【発明者】
【氏名】東ヶ崎 健
(72)【発明者】
【氏名】山川(當山) 亜利沙
(72)【発明者】
【氏名】香西 昌平
【テーマコード(参考)】
2G043
【Fターム(参考)】
2G043AA03
2G043BA16
2G043EA01
2G043FA02
2G043LA03
(57)【要約】
【課題】細胞におけるタンパク質の発現量を、細胞の非蛍光染色像から推定する方法を提供すること。
【解決手段】複数枚の学習用細胞非蛍光染色像において細胞領域外の背景の輝度値をゼロとした画像と、前記学習用細胞非蛍光染色像と同一の領域における特定タンパク質の蛍光染色像を画像処理して得られる1細胞輝度平均像とを教師データとして機械学習させた機械学習モデルを用いて、細胞の非蛍光染色像から各細胞における特定タンパク質の発現量を推定する工程、
を有することを特徴とするタンパク発現量推定方法。
【選択図】
図4
【特許請求の範囲】
【請求項1】
複数枚の学習用細胞非蛍光染色像において細胞領域外の背景の輝度値をゼロとした画像と、前記学習用細胞非蛍光染色像と同一の領域における特定タンパク質の蛍光染色像を画像処理して得られる1細胞輝度平均像とを教師データとして機械学習させた機械学習モデルを用いて、細胞の非蛍光染色像から各細胞における特定タンパク質の発現量を推定する工程、
を有することを特徴とするタンパク発現量推定方法。
【請求項2】
細胞領域として、第二の機械学習モデルを用いて推定された細胞領域(機械学習)を用いることを特徴とする請求項1に記載のタンパク発現量推定方法。
【請求項3】
ヒト表皮ケラチノサイト細胞における特定タンパク質の発現量を推定することを特徴とする請求項1または2に記載のタンパク発現量推定方法。
【請求項4】
2種以上のタンパク質の発現量を推定することを特徴とする請求項1または2に記載のタンパク発現量推定方法。
【請求項5】
Hsp27、DJ-1、Gal-7、p14、NGAL、Arg-1、CYR61、IL-1α、IL-6、GLB1、ANGPTL4、COL7、NFκB、p53、p21、IL-33からなる群から選択される1以上のタンパク質の発現量を推定することを特徴とする請求項1または2に記載のタンパク発現量推定方法。
【請求項6】
細胞非蛍光染色像において細胞領域外の背景の輝度値をゼロとした画像を入力データとし、
複数枚の学習用細胞非蛍光染色像と同一の領域における特定タンパク質の蛍光染色像を画像処理して得られる1細胞輝度平均像とを教師データとして機械学習させた機械学習モデルを用いて、前記入力データから各細胞における特定タンパク質の発現量を推定するシステムであって、
前記入力データを記憶する記憶部と、
前記1細胞輝度平均像を教師データとして機械学習させた機械学習モデル部と、
前記入力データが教師データの範囲内であるか否かの判定を行う判定部と、を備え、
前記判定部が、
前記入力データが教師データの範囲外であると判定した場合にはエラーメッセージを表示し、
前記入力データが教師データの範囲内であると判定した場合には前記入力データを前記機械学習モデルに読み込ませ、前記機械学習モデルからの出力に基づき、前記細胞非蛍光染色像中の特定タンパク質の発現量を推定して算出して表示することを特徴とする、タンパク発現量推定システム。
【請求項7】
請求項6に記載のシステムを備えた、タンパク発現量推定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、細胞におけるタンパク発現量の推定方法、推定システム、推定装置に関する。
【背景技術】
【0002】
ヒトの体内には、約37兆個の細胞が存在し、それぞれ約2万の遺伝子から約10万種のタンパク質を産生するといわれている。人体は、これらの細胞・分子が相互に関係しながら複雑な生化学反応を行い、生命活動を維持・推進している。ヒト生体内における生命現象の理解には、これらの相互作用について知ることが重要であり、それぞれの細胞と遺伝子、タンパク質発現に関する時空間情報を同時に取得して解析することができれば、生命現象の理解は大きく発展すると考えられる。また、近年、個々の細胞が一様に振る舞うのではなく、少数の細胞が細胞集団全体を制御している現象や、一部の老化細胞が慢性的な炎症を引き起こすこと等により、組織・臓器全体の機能を低下させることが報告されており、このことからも、従来の細胞の平均的な解析ではなく、1細胞レベルでの解析手法のニーズが高まっている。
【0003】
これまで、細胞内の遺伝子・タンパク質を評価する手法や細胞の観察方法が、多く開発されてきた(非特許文献1、2)。しかし、前述のような1細胞としての遺伝子・タンパク質発現を時空間情報と同時に解析する手法は、未だ開発されていない。細胞内のタンパク質や遺伝子を網羅的に解析する手法としては、種々のOmics解析やマイクロアレイ解析があるが、これらの手法では、一度の測定に細胞数百万個分の遺伝子やタンパク質が必要となり、細胞の時空間情報や細胞個々の情報を維持することはできない。また、近年盛んにおこなわれているシングルセル解析も、時空間情報を同時に得ることは困難である。一方、時空間情報を維持しながら個々の細胞中の遺伝子・タンパク質発現を知る方法として、蛍光・発光を用いたライブセルイメージングがあるが、最大でも4~6種程度を追跡することが限界であり、網羅的にタンパク・遺伝子の量を知ることは難しい。これらの評価系は、抗原抗体反応や塩基の相補性、PCR反応などの生化学的現象を応用して特異性確保とシグナル増幅を行いながら、endpointとして吸光、蛍光、発光などに変換して検出・定量する原理を用いている。そのため、取得可能な情報量は、化学的、物理的な制約、検出器の感度、電磁波の波長分離精度などに依存し、前述のような多種、多量の細胞および遺伝子・タンパク量発現と時空間情報を同時に取得することは、大きな障壁があり、新たな概念をベースとした評価技術が必要と考えられる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Coons AH., et al., Proc. Soc. Exp. Biol., Med. 47, 200~202 (1941).
【非特許文献2】M.Chalfie et al.: Science, 263, 802(1994).
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、細胞におけるタンパク質の発現量を、細胞の非蛍光染色像から推定する方法、システム、および装置を提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明の課題を解決するための手段は、以下のとおりである。
1.複数枚の学習用細胞非蛍光染色像において細胞領域外の背景の輝度値をゼロとした画像と、前記学習用細胞非蛍光染色像と同一の領域における特定タンパク質の蛍光染色像を画像処理して得られる1細胞輝度平均像とを教師データとして機械学習させた機械学習モデルを用いて、細胞の非蛍光染色像から各細胞における特定タンパク質の発現量を推定する工程、
を有することを特徴とするタンパク発現量推定方法。
2.細胞領域として、第二の機械学習モデルを用いて推定された細胞領域(機械学習)を用いることを特徴とする1.に記載のタンパク発現量推定方法。
3.ヒト表皮ケラチノサイト細胞における特定タンパク質の発現量を推定することを特徴とする1.または2.に記載のタンパク発現量推定方法。
4.2種以上のタンパク質の発現量を推定することを特徴とする1.~3.のいずれかに記載のタンパク発現量推定方法。
5.Hsp27、DJ-1、Gal-7、p14、NGAL、Arg-1、CYR61、IL-1α、IL-6、GLB1、ANGPTL4、COL7、NFκB、p53、p21、IL-33からなる群から選択される1以上のタンパク質の発現量を推定することを特徴とする1.~4.のいずれかに記載のタンパク発現量推定方法。
6.細胞非蛍光染色像において細胞領域外の背景の輝度値をゼロとした画像を入力データとし、
複数枚の学習用細胞非蛍光染色像と同一の領域における特定タンパク質の蛍光染色像を画像処理して得られる1細胞輝度平均像とを教師データとして機械学習させた機械学習モデルを用いて、前記入力データから各細胞における特定タンパク質の発現量を推定するシステムであって、
前記入力データを記憶する記憶部と、
前記1細胞輝度平均像を教師データとして機械学習させた機械学習モデル部と、
前記入力データが教師データの範囲内であるか否かの判定を行う判定部と、を備え、
前記判定部が、
前記入力データが教師データの範囲外であると判定した場合にはエラーメッセージを表示し、
前記入力データが教師データの範囲内であると判定した場合には前記入力データを前記機械学習モデルに読み込ませ、前記機械学習モデルからの出力に基づき、前記細胞非蛍光染色像中の特定タンパク質の発現量を推定して算出して表示することを特徴とする、タンパク発現量推定システム。
7.6.に記載のシステムを備えた、タンパク発現量推定装置。
【発明の効果】
【0007】
本発明のタンパク発現量推定方法、推定システムは、細胞の非蛍光染色像から、各細胞における特定タンパク質の発現量を、非常に容易に推定することができる。本発明のタンパク発現量推定方法、推定システムは、非蛍光染色像を用いるものであるため、細胞に蛍光免疫染色処理による余計な刺激を与えることなく培養しながら撮像が可能であり、また、非蛍光染色像に映る細胞それぞれにおける複数種のタンパク質の発現量を推定することができるため、どの細胞でどのタイミングで複数種のタンパク質が発現しているのか、というタンパク質発現についての時空間情報を得ることができ、生命現象の解明に大きく貢献することができる。
本発明のタンパク発現量推定方法により、マーカータンパク質の発現量を推定することができるため、そのマーカータンパク質が関わる様々な状態を容易に知ることができる。
【図面の簡単な説明】
【0008】
【
図1】ヒト表皮ケラチノサイト細胞の明視野像(上)と蛍光染色像(下)。
【
図2】
図1上に示す明視野像(左)と、これを第2の機械学習モデルで細胞領域(機械学習)を特定し、細胞領域(機械学習)以外の背景の輝度値をゼロとした画像(右)。
【
図3】
図1下に示す蛍光染色像(左)と、これを画像処理して得た1細胞輝度平均像(右)。
【
図4】DJ-1の1細胞輝度平均像(上)と、対応する明視野像から機械学習モデルが推定した推定像(下)。
【
図5】1細胞輝度平均像における各細胞領域の輝度値の実測値(縦軸)と、機械学習モデルが対応する明視野像から推定した推定像における各細胞領域の輝度値の推定値(横軸)との相関関係を示すグラフ。
【
図6】1細胞輝度平均像における各細胞領域の輝度値の実測値(縦軸)と、機械学習モデルが対応する明視野像から推定した推定像における各細胞領域の輝度値の推定値(横軸)との相関関係を示すグラフ。
【
図7】1細胞輝度平均像における各細胞領域の輝度値の実測値(縦軸)と、機械学習モデルが対応する明視野像から推定した推定像における各細胞領域の輝度値の推定値(横軸)との相関関係を示すグラフ。
【
図8】1細胞輝度平均像における各細胞領域の輝度値の実測値(縦軸)と、機械学習モデルが対応する明視野像から推定した推定像における各細胞領域の輝度値の推定値(横軸)との相関関係を示すグラフ。
【発明を実施するための形態】
【0009】
「タンパク発現量の推定方法」
本発明のタンパク発現量の推定方法(以下、推定方法ともいう)は、複数枚の学習用細胞非蛍光染色像において細胞領域外の背景の輝度値をゼロとした像と、この学習用細胞非蛍光染色像と同一の領域における特定タンパク質の蛍光染色像を画像処理して得られる1細胞輝度平均像とを教師データとして機械学習させた機械学習モデルを用いて、細胞の非蛍光染色像から各細胞における特定タンパク質の発現量を推定する工程を有する。
【0010】
本発明の推定方法は、機械学習させる細胞の種類と蛍光染色させるタンパク質の種類を選択することにより、学習させた細胞における学習させたタンパク質の発現量を推定することができる。そのため、本発明の推定方法により特定タンパク質の発現量を推定する細胞の種類、及び、発現量を推定するタンパク質の種類は特に限定されない。
【0011】
本発明の推定方法において、特定タンパク質の発現量を推定する機械学習モデル(以下、第1の機械学習モデルともいう)に学習させるための学習用細胞非蛍光染色像と特定タンパク質の蛍光染色像は、従来公知の方法により得ることができる。非蛍光染色像は、透過光観察(微分干渉法、位相差法、暗視野観察法などを含む)または反射光観察により得られる蛍光染色像以外の像であればよく、これらの中で、撮像が容易であるため、透過光観察による明視野像、位相差像、微分干渉像のいずれかであることが好ましく、明視野像であることがより好ましい。細胞像は、細胞観察が可能な顕微鏡を用いて撮像することができ、汎用の蛍光顕微鏡、例えば、オリンパス社製の蛍光顕微鏡BX51、キーエンス社製のオールインワン顕微鏡BZ-X810、ゼネラル・エレクトリック社製のin celll analyzer 2200などを用いることができる。撮像条件は、細胞の詳細が確認できるものであれば制限されないが、例えば、1.0μm/pixel以上の解像度で約20万画素以上の条件等が挙げられる。ヒト表皮ケラチノサイト細胞の明視野像と蛍光染色像を
図1に示す。
【0012】
まず、学習用細胞の非蛍光染色像と蛍光染色像において、個々の細胞それぞれの細胞領域を特定する。細胞領域の特定方法は特に制限されず、例えば、画像処理システムを用いて明度や輝度に閾値を設定する等の公知の画像処理方法により個々の細胞の外縁を特定し、必要に応じて人が目視で修正する方法、細胞領域を学習させた第2の機械学習モデルを用いて推定し、必要に応じて人が目視で修正する方法等が挙げられる。
【0013】
細胞領域を特定するための第2の機械学習モデルとしては、例えば、複数枚の第2の学習用細胞像と、第2の学習用細胞像における細胞質等を染色した蛍光像を画像処理により必要に応じてコントラスト強調等した後に明度等の閾値により確定した細胞領域とを、細胞領域を正解画像として推測するように機械学習させた機械学習モデルを用いることができる。この第2の学習用細胞像としては、透過光観察(微分干渉法、位相差法、暗視野観察法などを含む)または反射光観察により得られる像を用いることができるが、第1の機械学習モデルが学習する非蛍光染色像と同一の撮像方法による像であることが、第1の機械学習モデルで使用する非蛍光染色像の細胞領域をより高い精度で特定できるため好ましい。第2の学習用細胞像は、第1の機械学習モデルが学習する学習用細胞非蛍光染色像と同一であってもよく、異なっていてもよい。また、この第2の機械学習モデルは、第1の機械学習モデルと同一の機械学習モデルとすることもできる。
第2の機械学習モデルにより推定された細胞領域(機械学習)を用いることにより、非蛍光染色像の細胞領域(機械学習)の特定と、その後の第1の機械学習モデルによる各細胞における特定タンパク質の発現量の推定を、演算装置を用いて一連の流れで行うことができる。
【0014】
学習用細胞非蛍光染色像において、細胞領域を特定し、細胞領域外である背景の輝度値をゼロとする。
図2に、
図1上に示す明視野像と、これを第2の機械学習モデルで細胞領域(機械学習)を特定し、細胞領域(機械学習)以外の背景の輝度値をゼロとした画像を示す。
【0015】
図1(下)に示すように、蛍光染色像は、核、細胞小器官、細胞質等の細胞内の部位によりタンパク質の発現量が異なるため、同一細胞内でも輝度が異なる。この蛍光染色像において、細胞領域を特定し、個々の細胞領域の蛍光輝度値の総和と細胞面積とから個々の細胞領域内の輝度値を平均化し、1細胞輝度平均像とする。
図3に、
図1下に示す蛍光染色像と、これを画像処理して得た1細胞輝度平均像を示す。
図3に示すように、1細胞輝度平均像は、特定タンパク質の発現が多い細胞は明るく、特定タンパク質の発現が少ない細胞は暗く表される。
【0016】
そして、例えば、
図2(右)に示す細胞領域外の背景の輝度値をゼロとした画像と
図3(右)に示す1細胞輝度平均像とを、1細胞輝度平均像を正解画像として推測するように機械学習させることにより、非蛍光染色像から各細胞における特定タンパク質の発現量を推測することのできる(第1の)機械学習モデルを構築することができる。細胞の状態によりタンパク質発現量は異なるため、様々な状態の細胞画像を学習させることが好ましく、例えば、汎用の細胞培養下に加え、分化促進条件下、老化促進条件下、界面活性剤等の化学物質を与えて毒性を誘引した条件下、紫外線などによるダメージを与えた条件下、炎症反応を惹起させた条件下など様々な条件下等における細胞状態を学習させることが好ましい。また、細胞を学習させる像の枚数は、多いほうが好ましく、例えば、条件毎に100枚以上であることが好ましく、150枚以上であることがより好ましく、200枚以上であることがさらに好ましい。
【0017】
本発明の推定方法により機械学習モデルを用いて得られた推定像における各細胞領域の輝度値の推定値と、蛍光染色像から得られる細胞領域の輝度値の実測値との相関係数(r)は、0.2以上が好ましく、0.3以上がより好ましく、0.4以上がさらに好ましく、0.5以上がよりさらに好ましく、0.6以上がよりさらに好ましく、0.7以上がよりさらに好ましく、0.8以上がよりさらに好ましい。なお、本発明の推定方法は、学習枚数を増やすほど相関係数を高くすることができる。そのため、非蛍光染色像から推定したタンパク質発現量の推定値と、同一の領域における特定タンパク質の蛍光染色像を得られる場合はこの蛍光染色像画像処理して得られる1細胞輝度平均像とを、例えば、相関係数0.4以上となるまで学習させることが、精度向上の点から好ましい。
【0018】
このように、非蛍光染色像の細胞領域外の背景の輝度値をゼロとした画像と、1細胞輝度平均像とを機械学習した第1の機械学習モデルにより、細胞の非蛍光染色像から各細胞における特定タンパク質の発現量を推定することができる。また、複数のタンパク質毎に異なる1細胞輝度平均像を学習させた機械学習モデルを用いることにより、1枚の非蛍光染色像から学習済みの複数のタンパク質の発現量を同時に推定することができる。
本発明の推定方法は、例えば、Hsp27、DJ-1、Gal-7、p14、NGAL、Arg-1、CYR61、IL-1α、IL-6、GLB1、ANGPTL4、COL7、NFκB、p53、p21、IL-33からなる群から選択される1または2以上のタンパク質の発現量を推定することができる。
【0019】
Hsp27は、一連のヒートショック蛋白質ファミリーの一つとして知られている分子量27kDの蛋白質で分子シャペロンとしての機能を有している。細胞の保護機能を担っているといわれており、免疫ストレスにともなって皮膚での遺伝子発現が増加することが知られている。
DJ-1は、公知の生理活性タンパク質で、神経細胞や皮膚細胞を含む広範なヒト細胞に存在しており、189のアミノ酸からなる。DJ-1は、酸化ストレスによる神経細胞死を抑制する効果を有することが知られている。
Gal-7(Galectin-7)は、分子量14,944Daの細胞内タンパク質である。一般的には細胞間どうし、細胞と細胞外マトリックス間で細胞の増殖を制御している。アポトーシス関連タンパク質でJNKの活性やシトクロームCの放出を制御している。細胞質、核、また細胞外にも分泌されている。ヒト表皮で最初にクローニングされたガレクチンサブファミリーのメンバーで、培養表皮角化細胞の研究からガレクチン7は角質化の程度に影響を受けず、総ての表皮細胞に発現する。
【0020】
p14(p14ARF)は、分子量14kDaのタンパク質で、通常の細胞内での発現量は少ないが、ヒト腫瘍細胞において多く発現が観られ、癌遺伝子の発現に応答して蓄積されると考えられている。蓄積には、p53依存性または、細胞周期の停止とアポトーシスにつながるp53非依存性のシグナル伝達について報告がある。腫瘍マーカーおよび老化マーカーとして着目されている。
NGAL(Neutrophil gelatinase-associated lipocalin)は、皮膚角層中に存在するリポカリンファミリーに属するタンパク質である。NGALは、健常人の血中や尿中に存在し、その量は各種の炎症性疾患や細菌感染時に上昇することが知られている。また急性腎機能障害の血中マーカーとされているほか、各種の腫瘍マーカーとしても注目を集めている。
Arg-1(Arginase 1)は、分子量34,735Daの細胞内タンパク質で、L-アルギニンをL-オルニチンと尿素に加水分解する一方向反応酵素である。肝臓に局在するが、腎臓、脳、乳腺、皮膚にもごくわずかに認められ、欠損するとアルギニン血症をおこし、精神発育遅延、痙攣性四肢麻痺を来すことが知られている。
CYR(Cysteine rich protein)は、CCNファミリーに属する、40-45kDaの細胞外分泌されるシグナリングタンパク質で、細胞接着、遊走、血管新生に関与する。また、紫外線や加齢により増加し、コラーゲン合成の抑制、MMPを誘導することが知られている。CYR61は、癌増殖や慢性炎症に関連する疾患のバイオマーカーとしても着目されている。
【0021】
IL-1α(Interleukin-1α)は、サイトカインと呼ばれる生理活性物質の一種である。IL-1αは、炎症反応に関与することが知られており、炎症、損傷、免疫応答に関与していることが知られている。
IL-6(Interleukin-6)は、サイトカインと呼ばれる生理活性物質の一種である。免疫応答や炎症反応に関与することが知られている。
GLB1(BETA-GALACTOSIDASE-1)は、ガングリオシド、糖タンパク質、およびグリコサミノグリカンからベータ結合末端ガラクトシル残基を切断する酵素の一種。老化マーカーとして使用されている。
ANGPTL4(Angiopoietin Like Protein-4)は、糖質および脂質の代謝において重要な調整物質で、LPL(lipoprotein lipase)活性を阻害することで遊離脂肪酸の取り込みを調整する。
【0022】
COL7(VII型コラーゲン)は、皮膚基底膜と真皮との接着に寄与するAnchoring Fibrilsの主要構成成分であり、IV型コラーゲンなどの細胞外マトリクスと結合して上皮基底膜の組織化および接着に寄与する。
NFκB(Nuclear factor kappa-light-chain-enhancer of activated B cells)は、転写因子として働くタンパク質複合体である。NFκBは、ストレス、紫外線等により活性化され、免疫反応において中心な役割を果たす転写因子の1つであり、炎症反応、細胞増殖、アポトーシスなどの生理現象に関与している。
p53は、分子量53kDaのタンパク質で、多くの種類の腫瘍において腫瘍抑制因子として作用する。また、生理学的環境および細胞タイプに応じて、細胞の増殖抑制やアポトーシスを誘導する。老化マーカーとして用いられる。
p21は、サイクリン依存性キナーゼ阻害因子およびCDK相互作用タンパク質1として知られ、G1期における細胞周期の調整因子として機能し、細胞の分化促進、増殖阻害などに関係する。細胞老化のマーカーとして用いられる。
IL-33(Interleukin-33)は上皮細胞および内皮細胞に局在するサイトカインの一種であり、NF-kappa-BやMAPKシグナリングパスウェイを活性化し、免疫系や炎症反応に寄与する。
【0023】
本発明の機械学習のモデルの学習の方法としては、教師あり学習、教師なし学習、強化学習、深層強化学習、半教師あり学習等の公知の方法のいずれでもよいが、より精度高くタンパク質の発現量を推定する観点で、教師あり学習、強化学習、半教師あり学習を用いることが好ましい。機械学習のモデルとしては、例えば、線形回帰、正則化、サポートベクターマシン、決定木・ランダムフォレスト、k近傍法、ロジスティック回帰、ニューラルネットワーク、ディープラーニングなどの一般的に用いられている技法のいずれを用いても良い。
【0024】
「タンパク発現量の推定システム」
本発明のタンパク発現量推定システム(以下、推定システムともいう)は、細胞非蛍光色染色像において細胞領域外の背景の輝度値をゼロとした画像を入力データとして、複数枚の学習用細胞非蛍光染色像と同一の領域における特定タンパク質の蛍光染色像を画像処理して得られる1細胞輝度平均像とを教師データとして機械学習させた機械学習モデルを用いて、入力データである細胞非蛍光染色像から各細胞における特定のタンパク質の発現量を推定して出力するシステムである。
本発明の推定システムは、入力データを記憶する記憶部と、1細胞輝度平均像を教師データとして機械学習させた機械学習モデル部と、入力データが教師データの範囲内であるか否かの判定を行う判定部とを備え、この判定部が、入力データが教師データの範囲外であると判定した場合にはエラーメッセージを表示し、入力データが教師データの範囲内であると判定した場合にはこの入力データを機械学習モデルに読み込ませ、機械学習モデルからの出力に基づき、細胞の非蛍光染色像中の各細胞領域における特定タンパク質の発現量を推定して算出して表示することができる。
この機械学習モデル部は、上記した本発明の推定方法における第1の機械学習モデルを実行することができるものであればよく、第2の機械学習モデルも実行できることが好ましい。
【0025】
「タンパク発現量の推定装置」
本発明のタンパク発現量推定装置(以下、推定装置ともいう)は、本発明の推定システムを備えた装置のことをいう。
本発明の推定装置は、本発明の推定システムの少なくとも一部を内蔵した演算部を備え、その他に、顕微鏡等の撮像部、画像処理を行う画像処理部、外部とデータをやり取りする通信部等を有することができる。また、機械学習モデル部、判定部、画像処理部等の少なくとも一部は、通信部を通じて通信する外部サーバーで処理するクラウド型であってもよい。
【実施例0026】
実験1
・細胞培養
白人由来正常ヒト表皮ケラチノサイト(NHEK)(Lonza,Basel,Switzerland)は、EpiLife(Life Technologies,Carlsbad,CA,U.S.A.)にHumedia-KG2(Kurabo Industries,Osaka,Japan)を添加し、37℃、5%CO2下で培養した。培養には培養面積75cm2フラスコ(Sumitomo Bakelite Co.,Ltd.,Osaka,Japan)を使用し、観察時にはガラスボトムタイプの96Well plate(Greiner,Frickenhausen,Germany)の外周Wellを除いたWellに播種し、8割程度コンフルであることを確認して、以下の実験を行った。
また、様々な状態における細胞の画像を取得するため、老化促進培地CnT-AG2(CELLnTEC ADVANCED CELL SYSTEMS AG,Bern,Switzerland)、分化促進培地CnT-PR-3D(CELLnTEC ADVANCED CELL SYSTEMS AG)、および毒性刺激のためSodium Dodecyl Sulfate(SDS)を最大10%となるようCnT-PR(CELLnTEC ADVANCED CELL SYSTEMS AG)に希釈し、7段階に倍々希釈して条件を振り分けた。
【0027】
・蛍光免疫染色
NHEKは、4%paraformaldehyde in PBS(PFA)に4℃下で1時間に浸潤させて固定化し、0.1% Tween20 in PBSを用いて、4℃下で1時間膜透過処理を行った後、StartingBlock blocking
buffer (Thermo Fisher scientific,MA,U.S.A)を用いて、4℃下で1晩ブロッキング処理を行った。その後、細胞内各種タンパク質の染色の為、後述の各種抗体をStartingBlock blocking bufferで500倍に希釈して4℃にて一晩浸潤させた。
【0028】
抗体は、goat anti-human HSP27(R&D Systems,MU,U.S.A.),Goat Anti-Human Park7/DJ-1 Antibody(R&D Systems),Goat Anti-Human Galectin-7(R&D Systems),anti-p14 Mouse-Mono(Abnova,Taipei,Taiwan),Rat Anti-Human Lipocalin-2/NGAL Capture Antibody(R&D Systems),Mouse Monoclonal Arginase1 antibody(R&D Systems),Rabbit Anti-human CYR61/CCn1
Antibody(abcam)を用いた。
さらに、Tween20 in PBSを用いて洗浄した後、二次抗体(Alexa Fluor488 goat anti-mouse IgG,Alexa Flour488 goat anti-rabbit IgG,Alexa488 mouse-anti-goat IgG)を1000倍、および核染色としてDAPI(DOJINDO LABORATORIES,Kumamoto,Japan)を5000倍になるように、StartingBlock blocking bufferで希釈して1時間、37℃にて浸潤させて、各抗体(Hsp27、DJ-1、Gal-7、p14、NGAL、Arg-1、CYR61)を蛍光標識した。
【0029】
・観察
固定化および蛍光染色したNHEKは、倒立型蛍光位相差顕微鏡BZ-X810(KEYENCE,Osaka,Japan)を用いて、20倍位相差1Dryレンズ(NA:0.45)を用い、画素数1920×1440にて明視野像と蛍光像を撮像した。撮像は、赤外線によるオートフォーカス機能を全Wellに適応し、各Wellあたり5視野撮影した、1Plate(1マーカー)当たり300枚の画像を取得して、機械学習に用いた。
【0030】
・機械学習
(細胞領域推定)
明視野像とこの明視野像において細胞質を染色した蛍光像(主にHsp27)から明度の閾値により確定した細胞領域とを組み合わせて機械学習させ、細胞領域を正解画像として推測することのできる第2の機械学習モデルを構築した。機械学習は、Convolutional Neural Network(CNN)U-Netを用いて行った。
実際の明視野像と、この第2の機械学習モデルが推定した細胞領域(機械学習)とを目視で比較したところ、第2の機械学習モデルにより、明視野像からおおよその細胞の細胞領域を認識可能であることが確認された。
【0031】
(タンパク質発現量推定)
明視野像において、蛍光像(主にHsp27)から明度の閾値により確定された細胞領域(機械学習)外の背景を輝度値0として除去した。
免疫蛍光染色像において明度の閾値により確定された個々の細胞領域の、蛍光輝度値の総和と面積とから個々の細胞領域内の輝度値を平均化し、1細胞輝度平均像とした。異なるタンパク質を染色した各種免疫蛍光染色像で操作を行った。
染色したタンパク質ごとに、背景の輝度値を0とした明視野像と、それに対応する1細胞輝度平均像とを培地ごとに150セット、計600セット機械学習させ、1細胞輝度平均像を正解画像として推測する事のできる機械学習モデルを構築した。機械学習は、Convolutional Neural Network(CNN)U-Netを用いて行った。
【0032】
図4に、DJ-1の蛍光像から得た1細胞輝度平均像と、対応する明視野像から機械学習モデルが推定した推定像とを示す。
実際の蛍光染色像から得られた1細胞輝度平均像における各細胞領域の輝度値の実測値と、機械学習モデルを用いて得られた推定像における各細胞領域の輝度値の推定値とを相関解析して、各種タンパク質の発現量の推定方法の検証を行った。検証には、機械学習モデルの構築のために学習させていない、通常培養した細胞の画像150セットを用いた。結果を表1、
図5、6に示す。
【0033】
【0034】
表1に示すように、本発明のタンパク発現量推定方法により、非蛍光染色像である明視野像のみから、蛍光染色することなくタンパク発現量を高い精度で推定することができた。
【0035】
実験2
抗体として、Mouse Anti-IL-1 alpha/IL-1F1 Antibody(R&D Systems)、Mouse anti-Human IL-6 Antibody(R&D Systems)、Mouse anti-Beta Galactosidase antibody(Proteintech,IL,U.S.A.)、Mouse anti-Angiopoietin-like Protein4/ANGPTL4 Antibody(NOVUS,CO,U.S.A.)、Rabbit anti-Collagen VII Antibody(abcom)、Mouse anti-NFKB p65(7G6) Monoclonal Antibody(Bioss,MT,U.S.A.)、Mouse anti-p53 Antibody(Santa Cruz,CA,U.S.A.)、Mouse anti-Waf1/Cip1/CDKN1A p21 Antibody(Santa Cruz)、Home Rabbit anti-IL33 antibody(Gene Tex,CA,U.S.A.)を用いた。
【0036】
それ以外は上記実験1と同様にして、実際の蛍光染色像から得られた1細胞輝度平均像における各細胞領域の輝度値の実測値と、機械学習モデルを用いて得られた推定像における各細胞領域の輝度値の推定値とを相関解析して、各種タンパク質の発現量の推定方法の検証を行った。検証には、機械学習モデルの構築のために学習させていない、通常培養した細胞の画像150セットを用いた。結果を表2、3、
図7、8に示す。
【0037】
【0038】
【0039】
表2、3に示すように、本発明のタンパク発現量推定方法により、非蛍光染色像である明視野像のみから、蛍光染色することなくタンパク発現量を高い精度で推定することができた。