IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ポートライ インコーポレイテッドの特許一覧

特表2024-518035空間遺伝子発現情報に基づいて組織イメージの細胞構成を予測する装置及び方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-24
(54)【発明の名称】空間遺伝子発現情報に基づいて組織イメージの細胞構成を予測する装置及び方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240417BHJP
   G06V 20/69 20220101ALI20240417BHJP
   G01N 33/48 20060101ALI20240417BHJP
【FI】
G06T7/00 630
G06V20/69
G06T7/00 350B
G01N33/48 M
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023563310
(86)(22)【出願日】2022-02-14
(85)【翻訳文提出日】2023-10-13
(86)【国際出願番号】 KR2022002158
(87)【国際公開番号】W WO2022220385
(87)【国際公開日】2022-10-20
(31)【優先権主張番号】10-2021-0049331
(32)【優先日】2021-04-15
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2021-0110364
(32)【優先日】2021-08-20
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.3GPP
2.ブルートゥース
(71)【出願人】
【識別番号】523389604
【氏名又は名称】ポートライ インコーポレイテッド
【氏名又は名称原語表記】Portrai Inc.
【住所又は居所原語表記】SO-003, Basement 1, 78-18, Dongsulla-gil, Jongno-gu, Seoul 03136, Republic of Korea
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ホンユン チェ
(72)【発明者】
【氏名】ヨンテ キム
(72)【発明者】
【氏名】クウォン ジュン ナ
【テーマコード(参考)】
2G045
5L096
【Fターム(参考)】
2G045AA24
2G045CB01
2G045FB03
2G045JA03
5L096AA06
5L096BA06
5L096BA13
5L096CA02
5L096DA02
5L096EA03
5L096EA07
5L096EA35
5L096FA16
5L096FA62
5L096FA69
5L096HA11
5L096KA04
(57)【要約】
空間遺伝子発現情報に基づいて組織イメージの細胞構成を予測する装置は、検査対象体に対する組織イメージを受信する通信モジュール;組織イメージから細胞構成情報を予測するプログラムが記憶されたメモリ;及びプログラムを実行するプロセッサ;を含み、プログラムは、空間転写体情報、及びこれと空間的に整合された組織イメージからなる学習データに基づいて学習された細胞構成予測モデルに組織イメージを入力することによって細胞構成情報を予測し、空間転写体情報は、空間情報を含む転写体データ、及び空間情報を共有する組織イメージデータを含むものであって、空間情報は、組織イメージデータの2次元平面に配置された複数のスポットに対する位置情報を意味するものであって、各スポットの座標を含む。
【特許請求の範囲】
【請求項1】
空間遺伝子発現情報に基づいて組織イメージの細胞構成を予測する装置において、
検査対象体に対する組織イメージを受信する通信モジュール;
前記組織イメージから細胞構成情報を予測するプログラムが記憶されたメモリ;及び
前記プログラムを実行するプロセッサ;を含み、
前記プログラムは、空間転写体情報、及びこれと空間的に整合された組織イメージからなる学習データに基づいて学習された細胞構成予測モデルに前記組織イメージを入力することによって前記細胞構成情報を予測し、
前記空間転写体情報は、空間情報を含む転写体データ、及び前記空間情報を共有する組織イメージデータを含むものであって、
前記空間情報は、前記組織イメージデータに配置された複数のスポットに対する位置情報を意味するものであって、各スポットの座標を含むものである、組織イメージの細胞構成予測装置。
【請求項2】
前記細胞構成予測モデルは、既に収集された人又は動物の組織別の前記空間転写体情報と、前記各スポットの座標別に分類した前記転写体データに対する前記細胞構成情報とをマッチングさせた学習データに基づいて構築されたものである、請求項1に記載の組織イメージの細胞構成予測装置。
【請求項3】
前記細胞構成予測モデルは、前記組織イメージデータを予め設定された大きさのパッチ組織イメージに分割するイメージ分割部、前記転写体データを通じてラベリングされた細胞群の類型別の細胞分布情報を出力する分子マーカーモデル部、及び前記パッチ組織イメージに含まれた前記複数のスポットのうちスポットの中央座標値に基づいて前記転写体データでラベリングされた前記細胞構成情報を抽出する予測部を含むものである、請求項2に記載の組織イメージの細胞構成予測装置。
【請求項4】
前記細胞構成予測モデルのイメージ分割部は、前記スポットの座標に基づいて前記転写体データと前記組織イメージデータとをマッチングする過程と、予め設定された大きさの四角ボックスを、前記複数のスポットが含まれた前記組織イメージデータに配置する過程と、前記複数のスポットのうち中間に位置したスポットの座標が前記四角ボックスの中央座標値になるように、前記組織イメージデータを少なくとも一つ以上の前記パッチ組織イメージに抽出する過程と、を行うように構築されたものである、請求項3に記載の組織イメージの細胞構成予測装置。
【請求項5】
前記細胞構成予測モデルの分子マーカーモデル部は、インターネットに公開された既存の組織イメージが含む細胞群の類型別細胞分布情報と、各単一細胞種類が含む転写体データとをマッチングさせた学習データに基づいて構築されたものである、請求項3に記載の組織イメージの細胞構成予測装置。
【請求項6】
前記プログラムは、前記細胞構成情報として、前記組織イメージから予測した細胞群の類型に対する情報、及び各細胞群の類型別の細胞分布情報を示したヒートマップ組織イメージを含むものである、請求項3に記載の組織イメージの細胞構成予測装置。
【請求項7】
組織イメージの細胞構成予測装置を用いて空間遺伝子発現情報に基づいて組織イメージの細胞構成を予測する方法において、
検査対象体に対する組織イメージを受信する段階;及び
空間転写体情報、及びこれと空間的に整合された組織イメージからなる学習データに基づいて学習された細胞構成予測モデルに前記組織イメージを入力することによって前記細胞構成情報を予測する段階;を含み、
前記空間転写体情報は、空間情報を含む転写体データ、及び前記空間情報を共有する組織イメージデータを含むものであって、
前記空間情報は、前記組織イメージデータに配置された複数のスポットに対する位置情報を意味するものであって、各スポットの座標を含むものである、組織イメージの細胞構成予測方法。
【請求項8】
前記細胞構成予測モデルは、既に収集された人又は動物の組織別の前記空間転写体情報と、前記各スポットの座標別に分類した前記転写体データに対する前記細胞構成情報とをマッチングさせた学習データに基づいて構築されたものである、請求項7に記載の組織イメージの細胞構成予測方法。
【請求項9】
前記細胞構成予測モデルは、前記組織イメージデータを予め設定された大きさのパッチ組織イメージに分割するイメージ分割部、前記転写体データを通じてラベリングされた細胞群の類型別の細胞分布情報を出力する分子マーカーモデル部、及び前記パッチ組織イメージに含まれた前記複数のスポットのうちスポットの中央座標値に基づいて前記転写体データでラベリングされた前記細胞構成情報を抽出する予測部を含むものである、請求項8に記載の組織イメージの細胞構成予測方法。
【請求項10】
前記細胞構成予測モデルのイメージ分割部は、前記スポットの座標に基づいて前記転写体データと前記組織イメージデータとをマッチングする過程と、予め設定された大きさの四角ボックスを、前記複数のスポットが含まれた前記組織イメージデータに配置する過程と、前記複数のスポットのうち中間に位置したスポットの座標が前記四角ボックスの中央座標値になるように、前記組織イメージデータを少なくとも一つ以上の前記パッチ組織イメージに抽出する過程と、を行うように構築されたものである、請求項9に記載の組織イメージの細胞構成予測方法。
【請求項11】
前記細胞構成予測モデルの分子マーカーモデル部は、インターネットに公開された既存の組織イメージが含む細胞群の類型別の細胞分布情報と、各単一細胞種類が含む転写体データとをマッチングさせた学習データに基づいて構築されたものである、請求項9に記載の組織イメージの細胞構成予測方法。
【請求項12】
前記細胞構成情報を予測する段階は、前記細胞構成情報として、前記組織イメージから予測した細胞群の類型に対する情報、及び各細胞群の類型別の細胞分布情報を示したヒートマップ組織イメージを含むものである、請求項9に記載の組織イメージの細胞構成予測方法。
【請求項13】
請求項7乃至12のいずれか1項による組織イメージの細胞構成予測方法を行うためのコンピュータープログラムが記録された非一時的コンピューター判読可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、空間遺伝子発現情報に基づいて組織イメージの細胞構成を予測する装置及び方法に関する。
【背景技術】
【0002】
組織の顕微鏡イメージは、多様な細胞で構成された情報を有しており、各細胞は、機能によって複雑な構造をなしている。このような複雑な構造から機能的に区分された細胞の種類を見出し、バイオマーカーを得るためには、単純な組織イメージ以外の分子特異的な染色方法(免疫組織化学染色やFISH(Fluorescence in Situ Hybridization))などが広く活用されている。
【0003】
このような分子レベルの病理イメージの場合、分子情報を一実験当たり一つ又は数個レベルの種類ずつのみ獲得することができ、組織に対する追加的な実験過程と材料が必要である。
【0004】
近年開発されて活用されている空間転写体技術(Spatially Resolved Transcriptome)は、一度に数百から数万種類の遺伝子発現情報を獲得し、組織位置情報を保存しながら遺伝子発現情報の獲得が可能である。
【0005】
一方、単純組織イメージ(hematoxylin and eosin staining)から形態学的に組織の構成を区分するラベリング(labeling)作業は、病理組織イメージの専門家によって行われている。これに基づいて、近年、組織イメージから病理組織イメージのラベリングを予測するディープラーニング技術が開発されている。
【0006】
これと関連して、大韓民国登録特許第10-2108050号(発明の名称:増強コンボリューションネットワークを介した乳癌組織学イメージ分類方法及びその装置)は、増強コンボリューションネットワークを介した乳癌組織学イメージ分類方法に関するものを開示している。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、上述した問題を解決するためのものであって、空間情報を共有する転写体及び組織イメージを含む空間転写体情報に基づいて学習された細胞構成予測モデルに、空間転写体情報のない一般的な組織イメージを入力し、組織内の細胞の複雑な構成情報を予測する装置及び方法を提供することを一つの技術的課題とする。
【0008】
ただし、本実施例が達成しようとする技術的課題は、上記のような技術的課題に限定されなく、更に他の技術的課題が存在し得る。
【課題を解決するための手段】
【0009】
上述した技術的課題を解決するための技術的手段として、本発明の第1側面に係る空間遺伝子発現情報に基づいて組織イメージの細胞構成を予測する装置は、検査対象体に対する組織イメージを受信する通信モジュール;組織イメージから細胞構成情報を予測するプログラムが記憶されたメモリ;及びプログラムを実行するプロセッサ;を含み、プログラムは、空間転写体情報、及びこれと空間的に整合された組織イメージからなる学習データに基づいて学習された細胞構成予測モデルに組織イメージを入力することによって細胞構成情報を予測し、空間転写体情報は、空間情報を含む転写体データ、及び空間情報を共有する組織イメージデータを含むものであって、空間情報は、組織イメージデータの2次元平面に配置された複数のスポットに対する位置情報を意味するものであって、各スポットの座標を含む。
【0010】
また、本発明の第2側面に係る組織イメージの細胞構成予測装置を用いて空間遺伝子発現情報に基づいて組織イメージの細胞構成を予測する方法は、検査対象体に対する組織イメージを受信する段階;及び空間転写体情報、及びこれと空間的に整合された組織イメージからなる学習データに基づいて学習された細胞構成予測モデルに組織イメージを入力することによって細胞構成情報を予測する段階;を含み、空間転写体情報は、空間情報を含む転写体データと、空間情報を共有する組織イメージデータとを含むもので、空間情報は、組織イメージデータの2次元平面に配置された複数のスポットに対する位置情報を意味するものであって、各スポットの座標を含む。
【発明の効果】
【0011】
本発明の一実施例によると、容易に獲得可能な組織イメージ(H&E staining)の形態学的な情報のみで多様な細胞の構成情報を予測できる学習モデルを提示することができる。
【0012】
また、多様な疾患で確保された組織イメージ、及び空間情報を共有する転写体データが含まれた空間転写体情報を学習データとして活用し、組織又は疾病の種類別に細胞の構成情報を予測できる学習モデルを提示することができる。
【0013】
一方、以前、組織イメージ(H&E staining)から組織の細部分類を推定するディープラーニングベースのアルゴリズムが報告されたことがあるが、該当の技術は、組織イメージ専門家の視覚的判読及びラベリングが必須的であるという短所を有していた。また、このようなラベリングは、時間と努力が多く消耗され、評価者間の差を誘発するという問題を有していた。併せて、分子レベルの情報を提供するものではないので、細部的な分子-機能的細胞分類下の分布を類推するアルゴリズムの開発が難しかった。
【0014】
しかし、本発明は、上述した問題を解決し、一つ目、多様な疾患で細胞群の多様性を定量化する数値として活用され得る。すなわち、学習モデルに単純組織イメージのみを入力し、細胞群の多様性に対する定量情報を獲得することができる。これは、多様な疾患(癌、炎症性疾患など)の病態生理研究、新規の治療技術開発研究、診断的バイオマーカー開発研究などに多様に応用され得る。
【0015】
二つ目、学習モデルに単純組織イメージのみを入力し、分子機能的細胞を定量化することができる。これは、特定の疾患の特性及び深刻程度を示したり、治療効果を予測できるバイオマーカーとしての活用価値を有する。
【0016】
例えば、腫瘍で癌細胞以外の炎症細胞が密集した場合、腫瘍免疫治療の反応性予測とも密接に関連しているという事実がよく知られている。すなわち、本発明に係る学習モデルに入力された単純組織イメージは、炎症細胞の分布情報を予測することができ、定量的バイオマーカーとして活用され得る。
【図面の簡単な説明】
【0017】
図1】本発明の一実施例に係る組織イメージの細胞構成予測装置の構成を示したブロック図である。
図2】本発明の一実施例に係る細胞構成予測モデルの構成を示した概念図である。
図3】本発明の一実施例に係る細胞構成予測モデルのイメージ分割部を説明するための図である。
図4】本発明の一実施例に係る細胞構成予測モデルの分子マーカーモデル部を説明するための図である。
図5】本発明の一実施例に係る細胞構成予測モデルに入力した組織イメージから予測した細胞構成情報を示した図である。
図6】本発明の一実施例に係る細胞構成予測モデルに入力した組織イメージから予測した細胞構成情報を示した図である。
図7】本発明の一実施例に係る細胞構成予測モデルに入力した組織イメージから予測した細胞構成情報を示した図である。
図8】本発明の一実施例に係る細胞構成予測モデルに入力した組織イメージから予測した細胞構成情報を示した図である。
図9】本発明の一実施例に係る組織イメージの細胞構成予測方法を示したフローチャートである。
【発明を実施するための形態】
【0018】
以下では、添付の図面を参照して本発明を詳細に説明する。ただし、本発明は、様々な異なる形態で具現可能であり、ここで説明する各実施例に限定されない。また、添付の図面は、本明細書に開示された実施例を容易に理解するためのものに過ぎなく、添付の図面によって本明細書に開示された技術的思想が制限されることはない。図面において、本発明を明確に説明するために説明と関係のない部分は省略し、図面に示した各構成要素の大きさ、形態、及び形状は多様に変形可能である。明細書全体において、同一/類似する部分に対しては同一/類似する図面符号を付した。
【0019】
以下の説明で使用される構成要素に対する接尾辞である「モジュール」及び「部」などは、明細書作成の容易さのみを考慮して付与又は混用されるものであって、それ自体で互いに区別される意味又は役割を有するものではない。また、本明細書に開示された実施例を説明するにおいて、関連した公知技術に対する具体的な説明が、本明細書に開示された実施例の要旨を不明瞭にし得ると判断される場合、それについての詳細な説明は省略した。
【0020】
明細書全体において、一つの部分が他の部分と「連結(接続、接触又は結合)」されているとしたとき、これは、「直接連結(接続、接触又は結合)」されている場合のみならず、その中間に他の部材を挟んで「間接的に連結(接続、接触又は結合)」されている場合も含む。また、一つの部分が一つの構成要素を「含む(「備える」又は「設ける」)」としたとき、これは、特に反対の記載がない限り、他の構成要素を除外するものではなく、他の構成要素をさらに「含む(「備える」又は「設ける」)」ことができることを意味する。
【0021】
本明細書で使用される「第1」、「第2」などの序数を示す各用語は、一つの構成要素を他の構成要素から区別する目的でのみ使用され、各構成要素の順序や関係を制限するものではない。例えば、本発明の第1構成要素は第2構成要素と命名することができ、これと同様に、第2構成要素も第1構成要素と命名することができる。
【0022】
図1は、本発明の一実施例に係る組織イメージの細胞構成予測装置の構成を示したブロック図である。
【0023】
図1を参照すると、組織イメージの細胞構成予測装置100は、通信モジュール110、メモリ120及びプロセッサ130を含み、データベース140をさらに含むことができる。組織イメージの細胞構成予測装置100は、検査対象体に対する組織イメージを受信し、これを用いて細胞構成情報を予測する動作を行う。
【0024】
このために、組織イメージの細胞構成予測装置100は、ネットワークを介してサーバーや他の端末に接続できるコンピューターや携帯用端末機で具現され得る。ここで、コンピューターは、例えば、ウェブブラウザー(WEB Browser)が搭載されたノートパソコン、デスクトップ(desktop)、ラップトップ(laptop)などを含み、携帯用端末機は、例えば、携帯性及び移動性が保障される無線通信装置であって、各種スマートフォン、タブレットPC、スマートウォッチなどの全ての種類のハンドヘルド(Handheld)ベースの無線通信装置を含むことができる。
【0025】
ネットワークは、各端末及び各装置などのそれぞれのノード相互間の情報交換が可能な連結構造を意味するものであって、近距離通信網(LAN:Local Area Network)、広域通信網(WAN:Wide Area Network)、インターネット(WWW:World Wide Web)、有無線データ通信網、電話網、有無線TV通信網などを含む。無線データ通信網の一例には、3G、4G、5G、3GPP(3rd Generation Partnership Project)、LTE(Long Term Evolution)、WIMAX(World Interoperability for Microwave Access)、ワイファイ(Wi-Fi)、ブルートゥース通信、赤外線通信、超音波通信、可視光通信(VLC:Visible Light Communication)、ライファイ(LiFi)などが含まれるが、これに限定されることはない。
【0026】
通信モジュール110は、検査対象体に対する組織イメージを受信する。このとき、組織イメージは、顕微鏡を通じて一般に容易に獲得が可能な組織イメージであって、空間転写体情報を含まない。通信モジュール110は、他のネットワーク装置との有無線連結を通じて制御信号又はデータ信号などの信号を送受信するために必要なハードウェア及びソフトウェアを含む装置を含むことができる。
【0027】
メモリ120には、通信モジュール110を介して受信した組織イメージから細胞構成情報を予測するプログラムが記憶される。このとき、細胞構成情報を予測するプログラムは、空間転写体情報、及びこれと空間的に整合された組織イメージからなる学習データに基づいて学習された細胞構成予測モデルに組織イメージを入力することによって細胞構成情報を予測する。細胞構成情報の具体的な内容に対しては、後で説明することにする。
【0028】
このとき、メモリ120は、電源が供給されない場合にも、記憶された情報を継続して維持する非揮発性記憶装置、及び記憶された情報を維持するために電力を必要とする揮発性記憶装置を通称するものと解釈しなければならない。メモリ120は、プロセッサ130が処理するデータを一時的又は永久的に記憶する機能を行うことができる。メモリ120は、記憶された情報を維持するために電力が必要な揮発性記憶装置以外にも、磁気記憶媒体(magnetic storage media)又はフラッシュ記憶媒体(flash storage media)を含み得るが、本発明の範囲がこれに限定されることはない。
【0029】
プロセッサ130は、メモリ120に記憶された細胞構成情報を予測するプログラムを実行し、その実行結果として、対象体に対する細胞構成情報を出力する。
【0030】
一例において、プロセッサ130は、マイクロプロセッサ(microprocessor)、中央処理装置(central processing unit:CPU)、プロセッサコア(processor core)、マルチプロセッサ(multiprocessor)、ASIC(application-specific integrated circuit)、FPGA(field programmable gate array)などの形態で具現され得るが、本発明の範囲がこれに限定されることはない。
【0031】
データベース140には、通信モジュール110を介して受信される組織イメージや、細胞構成予測モデルの学習のための多様なデータが記憶され得る。また、データベース140は、細胞構成情報抽出プログラムによって抽出された細胞構成情報を累積的に記憶し、このような細胞構成情報をベースにして、組織イメージによって分子機能的細胞を定量化する多様な応用に活用できるようにする。
【0032】
以下、細胞構成情報を抽出する細胞構成予測モデルに対して説明する。
【0033】
図2は、本発明の一実施例に係る細胞構成予測モデルの構成を示した概念図である。図3は、本発明の一実施例に係る細胞構成予測モデルのイメージ分割部を説明するための図である。
【0034】
空間転写体情報20は、空間情報を含む転写体データ、及び空間情報を共有する組織イメージデータを含むものである。空間情報は、組織イメージデータの2次元平面に配置された複数のスポット212に対する位置情報を意味するものであって、各スポット212の座標を含む。ここで、組織イメージデータは、複数のスポットの座標が含まれた特殊のスライドを用いてH&E染色を行った後で撮影した組織イメージであって、従来技術に該当するので、これに対する詳細な説明は省略する。
【0035】
すなわち、空間転写体情報20は、各スポット212ごとに数百個から数万個の転写体データを獲得したデータであって、スポット212の座標を用いて転写体データと組織イメージデータとが空間的に整合可能なデータである。
【0036】
細胞構成予測モデル200は、既に収集された人又は動物の組織別の空間転写体情報20と、各スポット212の座標別に分類した転写体データに対する細胞構成情報240とをマッチングさせた学習データに基づいて構築されたものである。
【0037】
細胞構成予測モデル200は、イメージ分割部210、分子マーカーモデル部220及び予測部230を含む。
【0038】
イメージ分割部210は、組織イメージデータを予め設定された大きさのパッチ組織イメージに分割する。
【0039】
イメージ分割部210は、スポット212の座標に基づいて転写体データと組織イメージデータとをマッチングする過程と、予め設定された大きさの四角ボックスを、複数のスポット212が含まれた組織イメージデータに配置する過程と、複数のスポット212のうち中間に位置したスポット212の座標が四角ボックスの中央座標値213になるように、組織イメージデータを少なくとも一つ以上のパッチ組織イメージ211に抽出する過程とを行うように構築されたものである。
【0040】
例えば、パッチ組織イメージ211の大きさは、128×128のイメージサイズであってもよく、パッチの一辺の長さは510μmであってもよい。
【0041】
例示的には、イメージ分割部210は、スポット(転写体データを獲得する空間単位)の座標に基づいて、転写体データを組織イメージデータとマッチングさせることができる。続いて、スポット212の中央座標値213に基づいて、組織イメージデータは、一定の大きさの四角形(四角ボックス)サイズを有する複数のパッチイメージ(パッチ組織イメージ)に分割され得る。その後、分子マーカーモデル部220は、分割されたパッチ組織イメージ211に含まれた転写体データに基づいて各細胞群の類型別の細胞分布情報(細胞の密集程度)を出力することができる。
【0042】
分子マーカーモデル部220は、転写体データを通じてラベリングされた細胞群の類型別の細胞分布情報を出力する。例示的には、分子マーカーモデル部220は、CellDARTモデルで構成されてもよいが、これに限定されたものではなく、既存の組織イメージ(H&E staining)で組織の細部分類を推定するディープラーニングベースのアルゴリズムで構成されてもよい。
【0043】
図4は、本発明の一実施例に係る細胞構成予測モデルの分子マーカーモデル部を説明するための図である。
【0044】
一方、図4を参照すると、分子マーカーモデル部220は、インターネットに公開された既存の組織イメージが含む細胞群の類型別の細胞分布情報241と、各単一細胞種類242が含む転写体データとをマッチングさせた学習データに基づいて構築され得る。分子マーカーモデル部220は、既存の研究により、公開された転写体データでラベリングされた細胞群の細胞分布情報241、及び各単一細胞種類に対する情報242からなる学習データに基づいて構築されたCellDARTモデルを用いて細胞構成情報240を出力することができる。例示的には、CellDARTモデルは、ソース分類器(source classifier)及びドメイン分類器(domain classifier)を含む特徴抽出器を含む。CellDARTモデルは、既存の転写体データセットを前処理し、各細胞クラスター(cell cluster)に対する統合されたマーカー遺伝子を抽出する。続いて、プーリングされたクラスターマーカー(pooled cluster marker)と空間転写体情報との間の共有された転写体データがダウンストリーム分析(downstream analysis)のために選択される。次に、単一細胞データ(single-cell data)から8個の細胞を無作為に選択し、無作為加重値を付与することによって20000個の類似点を生成する。
【0045】
特徴抽出器は、類似点で細胞分画を推定し、類似点を空間スポットと区別するように学習される。まず、ドメイン分類器を除外した神経網の加重値がアップデートされ、次に、スポットと類似スポットに対するデータラベルが反転され、ドメイン分類器のみがアップデートされる。最後に、学習されたCellDARTモデルが空間転写体データに適用され、各スポットの細胞比率を推定することができる。CellDARTモデルにおいて、細胞を推定するための単一細胞転写体データには、公開されたデータを活用し、既存の研究によってラベリングされた細胞別の名称が適用され得る。これは、公開された技術に該当するので、これに対する詳細な説明は省略する。
【0046】
再度図2を参照すると、予測部230は、パッチ組織イメージ211に含まれた複数のスポット212のうちスポット212の中央座標値213に基づいて転写体データでラベリングされた細胞構成情報240を抽出する。
【0047】
例示的には、予測部230は、パッチ組織イメージ211に対する前処理過程を含むことができる。前処理過程は、H&E染色に対するステイン標準化(Stain Normalization)を行うことができる。例えば、パッチ組織イメージ211は、畳み込みニューラルネットワークの学習過程に入力されるデータに対して回転、左右上下対称、拡大及び縮小(20%範疇)、各RGBチャンネル別の変化を任意の関数として行い、データの増量を行うことができる。
【0048】
一例として、畳み込みニューラルネットワークは、イメージネットベースのResNet-50をベースとし、イメージネットで訓練されたパラメーターを優先的に適用した後、訓練過程でアップデートすることができる。また、全体のパッチ組織イメージ211の5%は、内部確認(Validation)用に活用することができる。全体の学習過程では、1回のミニバッチ(mini-batch)当たりに64個のパッチ組織イメージ及び細胞群を入力し、最適化過程では、アダム最適化(Adam optimizer)を適用することができる。学習率(Learning Rate)は0.0001に設定し、全体のエポック(epoch)は100回に設定することができる。また、モデル訓練のための損失関数(loss function)としては、細胞密集程度に対する分布を考慮してポアソン損失(Poisson Loss)を活用した。
【0049】
図5乃至図8は、本発明の一実施例に係る細胞構成予測モデルに入力した組織イメージから予測した細胞構成情報を示した図である。
【0050】
プログラムは、細胞構成情報240として、組織イメージ21から予測した細胞群の類型に対する情報、及び各細胞群の類型別の細胞分布情報を示したヒートマップ組織イメージを含む。
【0051】
図5は、本発明の細胞構成予測モデル200に組織のH&Eイメージを入力し、予測した細胞群の類型別の細胞構成情報を示した図である。
【0052】
図示したように、本発明の細胞構成予測モデル200に独立した組織イメージデータのパッチを入力し、細胞密集程度の推定イメージが生成され得る。
【0053】
これは、5%を任意に選定した内部確認セット(validation set)の転写体から予測した細胞群の密集程度、及びH&Eイメージのパッチ組織イメージから予測したモデルの結果を示したものである。横軸は、ディープラーニングモデルとH&Eイメージのパッチ組織イメージから予測した値であって、縦軸は、転写体データから獲得した細胞の密集程度を示したものである。
【0054】
図6(a)は、組織イメージ21から予測した細胞群の類型に対する情報であって、図6(b)は、各細胞群の類型別の細胞分布情報を示したヒートマップ組織イメージである。本発明の細胞構成予測モデル200に、Visiumで獲得した組織イメージを入力し、パッチ組織イメージをベースにして適用したとき、骨髄類型(Myeloid Type)の細胞分布情報を推定したヒートマップ組織イメージが出力され得る。
【0055】
図7は、独立的なモデルの作動有無を評価するために外部に公開されたデータであって、肺腺癌の組織イメージパッチ別に病理学者の意見に従ってリンパ球に浸透する腫瘍(Tumor Infiltrating Lymphocytes)がパッチ内に存在するかどうかを知らせるデータセットにおいて、TILが存在するパッチで統計的に有意にさらに高いT/NK細胞の値が出ることを確認した。
【0056】
図8(a)は、独立的なデータとして、公開された肺腺癌のH&Eイメージであって、本発明の細胞構成予測モデル200に公開された肺腺癌のイメージを入力すると、図8(b)に示したように、組織内の細胞群の類型別に細胞分布情報が予測され得る。
【0057】
以下では、上述した図1乃至図8に示した構成のうち、同一の構成についての説明は省略する。
【0058】
図9は、本発明の一実施例に係る組織イメージの細胞構成予測方法を示したフローチャートである。
【0059】
本発明の一実施例に係る組織イメージの細胞構成予測装置100を用いて空間遺伝子発現情報に基づいて組織イメージの細胞構成を予測する方法は、検査対象体に対する組織イメージ21を受信する段階(S110)と、空間転写体情報20及び分子マーカーからなる学習データに基づいて学習された細胞構成予測モデル200に組織イメージ21を入力することによって細胞構成情報を予測する段階(S120)とを含む。このとき、空間転写体情報20は、空間情報を含む転写体データ、及び空間情報を共有する組織イメージデータを含むものである。空間情報は、組織イメージデータの2次元平面に配置された複数のスポット212に対する位置情報を意味するものであって、各スポット212の座標を含む。
【0060】
細胞構成予測モデル200は、既に収集された人又は動物の組織別の空間転写体情報20と、各スポット212の座標別に分類した転写体データに対する細胞構成情報240とをマッチングさせた学習データに基づいて構築されたものである。
【0061】
細胞構成予測モデル200は、組織イメージデータを予め設定された大きさのパッチ組織イメージに分割するイメージ分割部210、転写体データを通じてラベリングされた細胞群の類型別の細胞分布情報を出力する分子マーカーモデル部220、及びパッチ組織イメージ211に含まれた複数のスポット212のうちスポット212の中央座標値213に基づいて転写体データでラベリングされた細胞構成情報240を抽出する予測部230を含む。
【0062】
細胞構成予測モデル200のイメージ分割部210は、スポット212の座標に基づいて転写体データと組織イメージデータとをマッチングする過程と、予め設定された大きさの四角ボックスを、複数のスポット212が含まれた組織イメージデータに配置する過程と、複数のスポット212のうち中間に位置したスポット212の座標が四角ボックスの中央座標値213になるように、組織イメージデータを少なくとも一つ以上のパッチ組織イメージ211に抽出する過程とを行うように構築されたものである。
【0063】
細胞構成情報を予測する段階(S120)は、細胞構成情報240として、組織イメージ21から予測した細胞群の類型に対する情報、及び各細胞群の類型別の細胞分布情報を示したヒートマップ組織イメージを含む。
【0064】
以上説明した細胞構成予測方法は、コンピューターによって実行されるプログラムモジュールなどのコンピューターによって実行可能な命令語を含む記録媒体の形態でも具現され得る。コンピューター判読可能な媒体は、コンピューターによってアクセスされ得る任意の可用媒体であってもよく、揮発性及び非揮発性媒体、分離型及び非分離型媒体を全て含む。また、コンピューター判読可能な媒体は、コンピューター記憶媒体を含むことができる。コンピューター記憶媒体は、コンピューター判読可能な命令語、データ構造、プログラムモジュール又はその他のデータなどの情報を記憶するための任意の方法又は技術で具現された揮発性及び非揮発性、分離型及び非分離型媒体を全て含む。
【0065】
本発明の属する技術分野で通常の知識を有する者であれば、上述した説明に基づいて本発明の技術的思想や必須的な特徴を変更せずとも、他の具体的な形態に容易に変形可能であることを理解できるだろう。そのため、以上で記述した各実施例は、全ての面で例示的なものであって、限定的なものではないことを理解しなければならない。本発明の範囲は、後述する特許請求の範囲によって示され、特許請求の範囲の意味及び範囲、そして、その均等概念から導出される全ての変更又は変形した形態は、本発明の範囲に含まれるものと解釈しなければならない。
図1
図2(a)】
図2(b)】
図3
図4
図5
図6(a)】
図6(b)】
図7
図8
図9
【国際調査報告】