(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-05
(45)【発行日】2024-09-13
(54)【発明の名称】マルチパラメータ細胞・細胞内撮像データから細胞表現型多様性を特徴付けるシステム及び方法
(51)【国際特許分類】
G01N 33/48 20060101AFI20240906BHJP
G01N 33/483 20060101ALI20240906BHJP
G01N 27/62 20210101ALI20240906BHJP
G01N 21/64 20060101ALI20240906BHJP
C12M 1/34 20060101ALI20240906BHJP
【FI】
G01N33/48 M
G01N33/483 C
G01N27/62 V
G01N21/64 F
C12M1/34 B
(21)【出願番号】P 2021567980
(86)(22)【出願日】2020-05-13
(86)【国際出願番号】 US2020032637
(87)【国際公開番号】W WO2020232094
(87)【国際公開日】2020-11-19
【審査請求日】2023-04-21
(32)【優先日】2019-05-14
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】506147560
【氏名又は名称】ユニバーシティ オブ ピッツバーグ-オブ ザ コモンウェルス システム オブ ハイヤー エデュケーション
【氏名又は名称原語表記】UNIVERSITY OF PITTSBURGH OF THE COMMONWEALTH SYSTEM OF HIGHER EDUCATION
(74)【代理人】
【識別番号】110001438
【氏名又は名称】弁理士法人 丸山国際特許事務所
(72)【発明者】
【氏名】チェンヌボトラ,スリニバス シー.
(72)【発明者】
【氏名】プッラーラ,フィリッポ
(72)【発明者】
【氏名】ファーマン,サマンサ エー.
【審査官】三木 隆
(56)【参考文献】
【文献】国際公開第2018/022979(WO,A1)
【文献】特開2013-178232(JP,A)
【文献】国際公開第2018/095516(WO,A1)
【文献】特表2019-505041(JP,A)
【文献】特開2016-101171(JP,A)
【文献】決定木,フリー百科事典『ウィキペディア(Wikipedia)』,2019年06月12日,https://ja.wikipedia.org/wiki/%E6%B1%BA%E5%AE%9A%E6%9C%A8
【文献】Danai Laksameethanasan,cellXpress: a fast and user-friendly software platform for profiling cellular phenotypes,Bioinformatics,2013年10月22日,Vol.14 No.Suppl 16,Page.S4
【文献】Alberto Santamaria-Pang,ROBUST SINGLE CELL QUANTIFICATION OF IMMUNE CELL SUBTYPES IN HISTOLOGICAL SAMPLES,2017 IEEE EMBS International Conference on Biomedical & Health Informatics (BHI), Orlando, FL, USA,2017年,Page.121-124
【文献】Eliot T. McKinley,Optimized multiplex immunofluorescence single-cell analysis reveals tuft cell heterogeneity,JCI Insight,2017年06月02日,Vol.2 No.11,Page.e93487
【文献】Di Z,Ultra High Content Image Analysis and Phenotype Profiling of 3D Cultured Micro-Tissues,PLoS ONE,2014年10月07日,Vol.9 No.10,Page.e109688
(58)【調査した分野】(Int.Cl.,DB名)
G01N 33/48
G01N 33/483
G01N 27/62
G01N 21/64
C12M 1/34
(57)【特許請求の範囲】
【請求項1】
幾人の患者からの幾つかの組織サンプル又は幾つかの多細胞インビトロモデルのマルチパラメータ細胞・細胞内撮像データから細胞表現型を特徴付ける方法
において、
複数の細胞を示しているセグメンテーションされたマルチパラメータ細胞・細胞内撮像データを受け取るステップであって、前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データは、前記マルチパラメータ細胞・細胞内撮像データに対して細胞セグメンテーションを実行することによって生成される、ステップと、
複数の計算表現型を特定して複数のレベルを有する細胞表現型ツリーを生成するために、前記セグメント化されたマルチパラメータ細胞・細胞内撮像データにソフト/確率的クラスタリングを再帰的に適用するステップと、
を含んでおり、
前記細胞表現型ツリーは複数の末端ノードを含んでおり、各末端ノードは、前記複数の計算表現型のうちの1つを表しており、前記セグメント化されたマルチパラメータ細胞・細胞内撮像データの各細胞は複数の帰属確率を有しており、
各帰属確率は、その細胞が前記複数の計算表現型の1つに属する確率を示しており、各細胞は、その細胞が有する帰属確率に基づいて前記複数の計算表現型のうちの1又は複数に確率的に割り当てられ、
前記複数の細胞のサブセットは非特殊化細胞であり、
前記複数の帰属確率は所定の閾値未満であり、
前記複数のレベルの各々において、非特殊化細胞の帰属確率は帰属信頼度項及び空間的コヒーレンス項に基づいて最適化されており、偽陽性の非特殊化細胞をフィルタリングすることで、非特殊化細胞が割り当てられている前記1又は複数の計算表現型における非特殊化細胞の帰属信頼度を促進し、非特殊化細胞間の空間的コヒーレンスを促進する、方法。
【請求項2】
各末端ノードの大きさは、その末端ノードの計算表現型に割り当てられている細胞のフラクションに対応する、請求項
1に記載の方法。
【請求項3】
前記マルチパラメータ細胞・細胞内撮像データは、多重化乃至高多重化免疫蛍光バイオマーカーデータ又は多重化乃至高多重化質量分析ベースバイオマーカーデータを含む、請求項1に記載の方法。
【請求項4】
前記複数の計算表現型を用いて多因子分析(MFA)モデルのパラメータを作成するステップを更に含む、請求項1に記載の方法。
【請求項5】
前記MFAモデルのパラメータを用いてカルバック・ライブラー(KL)発散メトリックを適用して、前記複数の計算表現型のうちの任意の2つの間の差を定量化するステップを更に含む、請求項
4に記載の方法。
【請求項6】
前記カルバック・ライブラー(KL)発散メトリックを適用した結果に基づいてヒートマップを生成するステップを更に含む、請求項
5に記載の方法。
【請求項7】
前記ソフト/確率的クラスタリングは複数のクラスターを含んでおり、各クラスターは前記複数の計算表現型の各々に対応しており、各クラスターは、パラメトリックな低次元部分空間の階層的混合であると定義されており、前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データの各細胞は、全てのクラスターによって確率的に
帰属されている、請求項1に記載の方法。
【請求項8】
ソフト/確率的クラスタリングを再帰的に適用するステップは、前記階層的混合の部分空間の間の角度に適用される閾値を含む再帰の停止基準を使用して、前記複数の計算表現型が互いに異なることを保証する、請求項
7に記載の方法。
【請求項9】
前記
帰属信頼度項は、クラスター割当てのスパース性を促進
し、各細胞が前記複数のクラスターの1つに完全に属しようと試みることを意味する
、請求項
7に記載の方法。
【請求項10】
前記
複数の帰属確率は、交互方向乗数法(ADMM)を用いて最適化される、請求項
9に記載の方法。
【請求項11】
ソフト/確率的クラスタリングを再帰的に適用するステップは、(i)結果のクラスターが細胞の1%未満の
帰属を取得する場合、(ii)前記細胞表現型ツリーが所定の深さの閾値を超えたと判断される場合、又は、(iii)平均ベクトル間の角度と因子負荷空間とが両方とも所定の閾値を下回る場合に再帰を停止する停止基準を用いる、請求項
7に記載の方法。
【請求項12】
コンピュータによって実行されると、前記コンピュータに請求項1に記載の方法を実行させる命令を含む1又は複数のプログラムを格納した非一時的なコンピュータ可読媒体。
【請求項13】
細胞表現型を特徴付けるためのコンピュータシステムにおいて、
処理装置を備えており、前記処理装置は、
複数の細胞を示しているセグメンテーションされたマルチパラメータ細胞・細胞内撮像データを受け取るステップであって、前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データは、前記マルチパラメータ細胞・細胞内撮像データに対して細胞セグメンテーションを実行することによって生成される、ステップと、
複数の計算表現型を特定して複数のレベルを有する細胞表現型ツリーを生成するために、前記セグメント化されたマルチパラメータ細胞・細胞内撮像データにソフト/確率的クラスタリングを再帰的に適用するステップと、
を実行するように構成された細胞表現型特徴付けコンポーネントを含
んでおり、
前記細胞表現型ツリーは複数の末端ノードを含んでおり、各末端ノードは、前記複数の計算表現型のうちの1つを表しており、前記セグメント化されたマルチパラメータ細胞・細胞内撮像データの各細胞は複数の帰属確率を有しており、
各帰属確率は、その細胞が前記複数の計算表現型の1つに属する確率を示しており、各細胞は、その細胞が有する帰属確率に基づいて前記複数の計算表現型のうちの1又は複数に確率的に割り当てられ、
前記複数の細胞のサブセットは非特殊化細胞であり、
前記複数の帰属確率は所定の閾値未満であり、
前記複数のレベルの各々において、非特殊化細胞の帰属確率は帰属信頼度項及び空間的コヒーレンス項に基づいて最適化されており、偽陽性の非特殊化細胞をフィルタリングすることで、非特殊化細胞が割り当てられている前記1又は複数の計算表現型における非特殊化細胞の帰属信頼度を促進し、非特殊化細胞間の空間的コヒーレンスを促進する、コンピュータシステム。
【請求項14】
各末端ノードの大きさは、その末端ノードの計算表現型に割り当てられている細胞のフラクションに対応する、請求項
13に記載のシステム。
【請求項15】
前記マルチパラメータ細胞・細胞内撮像データが、多重化乃至高多重化免疫蛍光バイオマーカーデータ又は多重化乃至高多重化質量分析ベースバイオマーカーデータを含む、請求項
13に記載のシステム。
【請求項16】
前記細胞表現型特徴付けコンポーネントは、前記複数の計算表現型を用いて多因子分析(MFA)モデルのパラメータを作成するように更に構成されている、請求項
13に記載のシステム。
【請求項17】
前記細胞表現型特徴付けコンポーネントは、前記MFAモデルのパラメータを用いてカルバック・ライブラー(KL)発散メトリックを適用して、前記複数の計算表現型のうちの任意の2つの間の差を定量化するように更に構成されている、請求項
16に記載の
システム。
【請求項18】
前記細胞表現型特徴付けコンポーネントは、前記カルバック・ライブラー(KL)発散メトリックを適用した結果に基づいてヒートマップを生成するように更に構成されている、請求項
17に記載のシステム。
【請求項19】
前記ソフト/確率的クラスタリングは複数のクラスターを含んでおり、各クラスターは前記複数の計算表現型の各々に対応しており、各クラスターは、パラメトリックな低次元部分空間の階層的混合であると定義されており、前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データの各細胞は、全てのクラスターによって確率的に
帰属されている、請求項
13に記載のシステム。
【請求項20】
ソフト/確率的クラスタリングを再帰的に適用するステップは、前記階層的混合の部分空間の間の角度に適用される閾値を含む再帰の停止基準を使用して、前記複数の計算表現型が互いに異なることを保証する、請求項
19に記載のシステム。
【請求項21】
前記
帰属信頼度項は、クラスター割当てのスパース性を促進
し、各細胞が前記複数のクラスターの1つに完全に属しようと試みることを意味する、請求項
19に記載のシステム。
【請求項22】
前記
複数の帰属確率は、交互方向乗数法(ADMM)を用いて最適化される、請求項
21に記載のシステム。
【請求項23】
ソフト/確率的クラスタリングを再帰的に適用するステップは、(i)結果のクラスターが細胞の1%未満の
帰属を取得する場合、(ii)前記細胞表現型ツリーが所定の深さの閾値を超えたと判断される場合、又は(iii)平均ベクトル間の角度と因子負荷空間が両方とも所定の閾値を下回る場合に再帰を停止する停止基準を用いる、請求項
19に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
<政府契約>
本発明は、国立衛生研究所(NIH)によって授与された助成金#CA204826を貰って政府の支援を受けてなされた。政府は本発明において一定の権利を有している。
【0002】
<発明の分野>
本発明は、デジタルパソロジーに関しており、特に、様々なイメージングモダリティから得られたマルチパラメータ細胞・細胞内撮像データ(例えば、多重化乃至高多重化(hyperplexed)撮像データ)から、様々な細胞型とその活性化(細胞表現型)とを特徴付け、且つ分類するための教師なし階層学習システム及び方法に関する。
【背景技術】
【0003】
デジタルパソロジーとは、組織学的に染色された組織サンプルを取得、保存、及び表示することを指しており、セカンドオピニオンテレパソロジー、免疫染色の解釈、術中テレパソロジーなどのニッチな用途で当初は注目を集めている。通常、デジタルパソロジーでは、複数のスライドで構成される大量の患者データが生検サンプルから生成されて、病理医が高解像度モニターでそれらのスライドを見ることで評価される。手作業が含まれることから、現在のワークフローの実務は時間がかかり、エラーが発生しやすく、主観的である。
【0004】
組織は、複数の異なる細胞型が空間的に相互に連絡し合う異種細胞システムである。デジタルパソロジーの課題の一つは、様々な多重化乃至高多重化イメージングモダリティから得られるマルチパラメータ細胞・細胞内撮像データから、様々な細胞型とその活性化とをどのようにして正確且つ効率的に特徴付けるかということである。
【発明の概要】
【0005】
ある実施形態では、幾人の患者からの幾つかの組織サンプル又は幾つかの多細胞インビトロモデルのマルチパラメータ細胞・細胞内撮像データから細胞表現型を特徴付ける方法が提供される。その方法は、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データを受け取るステップであって、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データは、マルチパラメータ細胞・細胞内撮像データに対して細胞セグメンテーションを実行することによって生成される、ステップと、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データに対して再帰的分解を行い、複数の計算表現型を特定するステップと、を含んでいる。再帰的分解は、分解の各レベルがソフト/確率的クラスタリング及び空間正則化を含む複数のレベルの分解を含み、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データの各細胞は、複数の計算表現型(computational phenotypes)のうちの1又は複数に確率的に割り当てられる/帰属する。より具体的には、例えば、そのような確率的割当て/帰属は、細胞は、表現型Aに属するX%の確率、表現型Bに属するY%の確率等を有する可能性があることを意味する。ある特定の実装態様では、細胞は、視覚化及び解釈を容易にするために、複数の計算表現型のうちの1つのみに確定的に割り当てられてよい。
【0006】
別の実施形態では、幾人の患者からの幾つかの組織サンプル又は幾つかの多細胞インビトロモデルのマルチパラメータ細胞・細胞内撮像データから細胞表現型を特徴付けるコンピュータシステムが提供される。そのシステムは、細胞表現型特徴付けコンポーネントを含む処理装置を含んでおり、当該細胞表現型特徴付けコンポーネントは、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データを受け取ることであって、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データは、マルチパラメータ細胞・細胞内撮像データに対して細胞セグメンテーションを実行することによって生成される、ことと、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データに対して再帰的分解を行い、複数の計算表現型を特定することとを行うように構成されている。再帰的分解は、分解の各レベルがソフト/確率的クラスタリング及び空間正則化を含む複数のレベルの分解を含む。セグメンテーションされたマルチパラメータ細胞・細胞内撮像データの各細胞は、複数の計算表現型のうちの1又は複数に確率的に割り当てられる。
【図面の簡単な説明】
【0007】
【
図1】
図1は、開示された概念の例示的な実施形態に基づいた、多重化乃至高多重化撮像データで細胞表現型多様性を特徴付ける方法のフローチャートである。
【
図2】
図2は、
図1の方法に従って生成された2つの例示的サブコホートについての例示的な細胞表現型の樹形図の模式図である。
【
図3】
図3は、開示された概念の一態様に従って生成され得る例示的なヒートマップの模式図である。
【
図4】
図4は、開示された概念の一態様に従って生成され得る例示的な画像であって、開示された概念のサブコホートの結果に基づいて細胞境界が色分けされている。
【
図5】
図5は、開示された概念の例示的な実施形態に基づいた、マルチパラメータ細胞・細胞内撮像データから細胞型及びその活性化(細胞表現型)を特徴付けて分類するための例示的なデジタルパソロジーシステムの概略図である。
【発明を実施するための形態】
【0008】
本明細書では、「ある」や「その」の単数形は、文脈が明らかに別のことを示さない限り、複数への言及を含む。
【0009】
本明細書では、2つ以上の部品又は構成要素が「結合」されている旨の記載は、繋がりが発生する限りにおいて、直接又は間接的に、即ち、1又は複数の中間部品又は構成要素を介して部品が結合される、又は一緒に動作することを意味する。
【0010】
本明細書では、用語「幾つか」は、1又は1よりも大きい整数(即ち、複数)を意味する。
【0011】
本明細書では、用語「コンポーネント」及び「システム」は、ハードウェア、ハードウェアとソフトウェアの組合せ、ソフトウェア、又は実行中のソフトウェアの何れかである、コンピュータ関連エンティティに言及することを意図している。例えば、コンポーネントは、プロセッサ上で実行されるプロセス、プロセッサ、オブジェクト、実行可能ファイル、実行スレッド、プログラム、及び/又はコンピュータであってよく、また、これらに限定されない。例えば、サーバーで実行されているアプリケーションとサーバーの両方がコンポーネントとされてよい。1又は複数のコンポーネントは、プロセス及び/又は実行スレッド内に常駐することができ、コンポーネントは、1つのコンピュータに局在し、及び/又は、2つ以上のコンピュータ間で分散することができる。ユーザーに情報を表示する幾つかの方法は、スクリーンショットとして特定の図又はグラフで示されて説明されているが、関連する技術分野の当業者は、他の様々な代替手段が採用できることを認識であろう。
【0012】
本明細書では、用語「多重化イメージング(multiplexed imaging)」は、最大7つのバイオマーカーを使用する撮像手法を意味し、用語「多重化画像」は、多重化イメージングを用いて作成された画像を意味する。
【0013】
本明細書では、用語「高多重化イメージング(hyperplexed imaging)」は、7つを超えるバイオマーカーを使用する撮像手法を意味し、用語「高多重化画像」は、高多重化イメージングを用いて作成された画像を意味する。
【0014】
本明細書では、用語「多重化乃至高多重化イメージング」は、多重化イメージング及び/又は高多重化イメージングを含むものとし、用語「多重化乃至高多重化画像」は、多重化画像及び/又は高多重化画像を含むものとする。
【0015】
例えば、上、下、左、右、上側、下側、前、後、及びそれらの派生語など、本明細書で使用される方向に関する語句は、図面に示された要素の方向に関しており、明示的に記載されていない限り、特許請求の範囲を限定しない。
【0016】
以下、開示される概念を、本発明の完全な理解を提供するために、説明の目的で、多くの具体的な詳細に関して説明する。しかしながら、開示される概念は、本発明の精神及び範囲から逸脱することなく、これらの具体的な詳細を伴わずに実施することができることは明らかであろう。
【0017】
開示された概念は、様々なイメージングモダリティから得られた多重化乃至高多重化撮像データにおいて細胞表現型多様性を特徴付けるための、新規な教師なし階層学習技術を提供するものである。例示的な実施形態では、開示された概念は、本明細書において、高多重化免疫蛍光バイオマーカーデータの形態であるマルチパラメータ細胞・細胞内撮像データから、様々な細胞型及びその活性化(細胞表現型)を特徴付けて分類することに関連して記載されている。しかしながら、これは単に例示的であることを意図しており、開示された概念は、任意の空間的マルチパラメータ細胞・細胞内撮像データに関連して使用されてよく、当該撮像データは、以下のイメージングモダリティの何れかを使用して得られた画像診断データを含んでいるが、これらに限定されないことは理解されるであろう:透過光、H&EとIHCの組合せ(1乃至複数のバイオマーカー)、蛍光、免疫蛍光(抗体、ナノボディを含むがこれらに限定されない)、生細胞バイオマーカーの多重化、高多重化、質量分析(CyTOFを含むがこれに限定されない)、空間トランスクリプトミクス(FISHを含むが、これに限定されない)、及び電子顕微鏡。ターゲットには、組織サンプル(ヒトや動物)と、組織や臓器のインビトロモデル(ヒトや動物)とが含まれるが、これらに限定されない。
【0018】
本明細書で詳しく説明されるように、開示された概念の主たるアイデアの1つは、ユーザー定義型の表現型ではなく、データ駆動型の表現型を採用していることである。より具体的には、病態生物学の文献では、「バイオマーカーAは陽性、バイオマーカーBは陽性、バイオマーカーCは陰性、これは表現型Xを意味する」というように、ユーザーが表現型(ユーザー定義の表現型)を定義することは非常に一般的である。この種のユーザーによる表現型の定義は、自動的に発見されるデータ駆動型の表現型が存在しないことを意味する。本明細書で詳細に説明されるように、開示された概念は、自動的に発見されるデータ駆動型の表現型を可能にするものであって、故に、現在この分野で受け入れられているものとは大きく異なっている。むしろ、開示された概念のアプローチは教師なしであり、また、ユーザー定義型の表現型を自動的に識別する可能性が高い。また、開示された概念のアプローチは、疾患の進行によりデータに出現した新規の表現型(データ駆動型の表現型)を特定し、特徴付けることができるという点で、仮説生成型である。
【0019】
故に、本明細書で詳細に説明されるように、開示された概念の計算フェノタイピング手法は、2つのステップ、即ち、(i)ソフト/確率的クラスタリング及び(ii)空間正則化(spatial regularization)を含んでおり、それらは、撮像データに再帰的に適用される(即ち、再帰的分解)。例示的な実施形態では、再帰的分解の結果が使用されて、計算表現型ツリーが生成されて、計算表現型ツリーでは、ツリーの末端ノード(葉)は、入力データセットで発見された別個の計算表現型を示す。それらの異なる計算表現型は、再帰的分解によって決定される最終的な多因子分析(MFA)モデルの成分を構成する。
【0020】
表現型の多様性(例えば、上皮腸細胞(epithelial enterocytes)、骨髄マクロファージ、リンパT細胞、間葉系線維芽細胞)を考慮して、開示された概念では、各クラスターをパラメトリックな低次元部分空間の階層的混合と定義する。表現型の活性化の連続性(例えば、上皮から間葉への転移)を考慮して、各細胞は、ツリーのどのクラスターにも確率的に帰属する。更に、クラスター割当てを空間正則化することで、組織構造に配慮した空間的コヒーレンスを実現する。加えて、例示的な実施形態では、再帰的分解はバイナリーであって、即ち、混合モデルは、ツリーの各レベルで2つの成分を有している。例示的な実施形態における再帰の停止基準は、結果として得られる表現型が互いに異なることを保証して過剰適合を回避するために、混合モデルの部分空間の間の角度に適用される閾値である。開示された概念はまた、例示的な実施形態では、カルバック・ライブラー(KL)発散メトリックを適用し、MFAモデルパラメータを使用して、任意の2つの計算表現型の違いを更に定量化して、帰属確率が最も高い表現型に各細胞を割り当てることにより、組織サンプル内の表現型の空間分布を視覚化する。
【0021】
上述したように、開示された概念の教師なし機械学習アルゴリズムは、パラメトリックな混合モデルを用いた確率的クラスタリングと、結果として得られるクラスター割当ての空間正則化とを再帰的に適用する。例示的な実施形態では、確率的クラスタリングアルゴリズムは、因子分析(FA)及び確率的主成分分析(PPCA)を含むが、これらに限定されない。更に、確率的混合モデルには、混合因子分析、ガウス混合モデル、及びPPCA(MMPCA)を混合したものが含まれるが、これらに限定されない。ある特定の実施態様では、開示された概念は、混合因子分析を使用して、期待値最大化アルゴリズムによってモデルのパラメータを学習する。
【0022】
更に、別の特定の実施態様では、開示された概念は、空間正則化のための新規なコスト関数を採用している。具体的には、目的コスト関数は2つの項で構成されている。最初の項は、クラスター割当てのスパース性を促進する。これは、各細胞が1つのクラスターに完全に属そうと試みることを意味する。2番目の項は、空間的コヒーレンスを促進し、これは、細胞のクラスター割当てが不定である場合、クラスター割当てを更新する際に近隣の他の細胞からの支援を求めることを意味する。更に、目的関数には、各細胞についてのクラスター割当ての合計が1になるという更なる制約が存在する。また、空間的コヒーレンスを促進するために、各細胞はカットオフ距離内にある隣の細胞と接続される。開示された概念はまた、交互方向乗数法(ADMM)アプローチを使用してよい。
【0023】
クラスターへの細胞の確率的割当てのため、例示的な実施形態では、階層の全てのレベルは、対応する混合モデルの構築と評価に全ての細胞データを使用するが、細胞は適切に重み付けされる。これらの重みはまた、空間正則化のステップにも影響する。計算で導出された表現型について最も識別力のあるバイオマーカーを見つけるために、開示された概念は、混合因子分析モデルにおける成分の平均ベクトルと部分空間方向の違いとに基づいて、バイオマーカーに対してランク付け操作を実行してよい。最後に、混合モデルの成分部分空間の間の角度がカットオフ値を下回ると、階層構造は終了する。
【0024】
図1は、開示された概念の例示的な実施形態に基づいた、多重化乃至高多重化撮像データで細胞表現型多様性を特徴付ける方法のフローチャートである。
図1を参照すると、その方法はステップ5で始まっており、(非限定的な例示的な実施形態では、高多重化免疫蛍光バイオマーカーデータの形態の)マルチパラメータ細胞・細胞内撮像データが、コホートからの複数の組織サンプルから生成され、当該コホートは、非限定的な例示的な実施形態では、癌患者コホートである。しかしながら、これは例示であることのみを意図しており、データは、任意の患者コホート(即ち、任意の疾患)から得られてよいことは理解されよう。より具体的には、非限定的な例示的実施形態では、複数のHxIF画像スタックが、患者コホートから得られた切除された組織サンプルのホルマリン固定パラフィン包埋(FFPE)組織マイクロアレイ(TMA)から生成される。理解できるように、HxIF画像スタックの生成には、各スタックについて、複数のバイオマーカーを画像化するために、幾つかの蛍光タグで各組織切片を繰り返し標識することを含む多重化(本実施形態では高多重化)イメージングプロセスを用いて、各組織切片から複数の高解像度多重化画像を生成することが含まれる。
【0025】
説明のために本明細書に記載されている非限定的な例示的実施形態では、GE Healthcare Cell DIVE(登録商標)(以前はMultiOmyxと呼ばれていた)HxIFイメージング・画像処理ワークフロー機器を使用して、
図1のステップ5で取得されるマルチパラメータ細胞・細胞内撮像データを生成することができる。これは例示的なものであって、マルチパラメータ細胞・細胞内撮像データは、他の既知の又は今後開発される技術を使用して生成できることは理解されるであろう。
【0026】
例示的な実施形態のCell DIVEシステムは、2乃至3種類のバイオマーカーとDAPI(4′,6-ジアミノ-2-フェニルインドール)核対比染色剤を、標識-画像-色素不活性化の反復サイクルによって順次多重化して、50種類以上のバイオマーカーの高多重化イメージングを行うことができる。このアプローチの広範な検証により、試験されたエピトープの大半が色素不活性化プロセスに極めて強いことが示されている。少なくとも50回の繰り返しサイクルについて、サンプルの生物学的完全性(biological integrity)が保たれることがわかっている。
【0027】
より具体的には、例示的な実施形態では、Cell DIVEを用いたデータ生成は、別個の蛍光プローブで標識された2つ又は3つの抗体による非破壊周期的免疫蛍光標識(non-destructive cyclical immunofluorescence labeling)、撮像、及びその後の蛍光の消光を伴う。このプロセスが繰り返されて、必要な抗体(バイオマーカー)が全て捕捉される。例示的な実施形態では、データは各関心領域で撮影された画像スタックで構成されており、画像スタック全体は、幾つかの撮影ラウンドの各々について複数の画像で構成されている。各ラウンドには、全てラウンドの画像を登録するための基準となる核(DAPI)画像が含まれる。各ラウンドの画像の定量化には、測定された各バイオマーカーの蛍光強度が含まれる。また、自家蛍光を除去する目的で、クエンチングラウンドの後に画像が取得される。また、Cell DIVE画像の処理には、視野全体の不均一な照明の補正と、自家蛍光の除去と、登録と、登録の失敗、画像のぼやけや飽和、その他の画像の問題などの幾つかのカテゴリの欠陥の自動品質管理(QC)検出とが含まれる。画像及びデータは、組織及び細胞の一連の品質チェックと、log2変換と、正規化ステップとを受ける。バッチ処理からのデータを統合するために、各バイオマーカーは対照中央値に正規化される。例示的な実施形態では、画像はTIFF形式で取得され、画像メタデータは、どの画像がどのスライドから得られたかの出所と取得の特徴とを保存する単純な構造を有するファイルに入れられる。選択されたバイオマーカーは、特定の細胞系統と、癌遺伝子と、腫瘍抑制因子と、細胞活性化状態を示す翻訳後タンパク質修飾とについてのタンパク質マーカーである。このデータにはまた、組織学的腫瘍グレード、癌のステージ、性別、年齢、10年間のフォローアップモニタリングなどの臨床情報も含まれる。
【0028】
説明目的で本明細書に記載されている、開示された概念の特定の非限定的な例示的実施形態では、ステップ5にて、56個の特定のバイオマーカーがマルチパラメータ細胞・細胞内撮像データを生成するために使用される。しかしながら、これは例示目的のみを意図しており、より多く若しくは少ない及び/又は異なるバイオマーカーもまた、開示された概念の範囲内で使用されてよいことは理解されるであろう。
【0029】
ステップ5に続いて、方法はステップ10に進む。ステップ10では、取得したマルチパラメータ細胞・細胞内撮像データに対して細胞セグメンテーションを実行して、各組織サンプルの各細胞をセグメント化する。例示的な実施形態では、細胞セグメンテーションは、構造バイオマーカー(NaKATPase(細胞膜、境界)、S6(細胞質)、DAPI(核))の集まりを使用して行われる。タンパク質発現及び標準偏差は、各細胞マスク(cell mask)内のバイオマーカー強度の中央値で定量化されて、log2スケールに変換される。細胞は、各細胞に対して生成された個々のQCスコア(不正確な登録、不整合、又は組織喪失を示す0.7~0.8未満のスコアは含まれない)を使用し、セグメンテーションされた細胞内コンパートメントあたりのピクセル数に基づいてフィルタリングされる。
【0030】
次に、ステップ15では、分解の各レベルでのソフト/確率的クラスタリング及び空間正則化を含む再帰的分解が、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データに対して実行される。この再帰的分解により、細胞の各々が複数の計算表現型の1又は複数に確率的に割り当てられた細胞表現型ツリーが作成される(即ち、各細胞は確率的に1又は複数の計算表現型に属する)。ある特定の実装態様では、各クラスター/計算表現型は、パラメトリックな低次元部分空間の階層的混合であると定義され、各細胞は、全てのクラスター/計算表現型によって確率的に帰属される。
【0031】
開示された概念の方法論は、任意のサイズのコホートの入力に対して実行されてよい。説明の目的で本明細書に記載される特定の例示的実施形態では、開示された概念は、5年以内の疾患再発に基づく癌患者のオリジナルの完全コホートのサブコホート(NED、REC)で実施された。
図1のステップ15に従って生成されたサブコホートの例示的な細胞表現型ツリー20A及び20Bが、
図2に概略的に示されている。細胞表現型ツリー20A及び20Bでは、各ノード22(説明を容易にするために幾つかの例示的ノードのみに符号22が付されている)は計算表現型を表し、大きさは、(
図2に示されるサイズキー24に基づく)そのクラスター/表現型に対する過半数の
帰属を有する細胞の割合に対応する。停止基準に基づく端末ノード22には、黒いアウトラインが示されている。推定された生物学的ラベルは、可能な場合に、識別可能なバイオマーカーのセットに基づいて書き込まれる。各表現型内で、細胞は、特
殊化(specialized)(
帰属確率>0.95)又は非特
殊化(non-specialized)(
帰属確率<0.95)と見なされる。各表現型における特
殊化細胞と非特
殊化細胞の割合は、データセット全体を基準にして示されている(全ての値の合計は、100%になる)。全ての表現型に広がる非特
殊化細胞の非常に小さなサブセット(7%)が存在することに注意のこと。この例では、各サブコホートの規模は大きく異なるが(NED=154、REC=59)、RECサブコホートでは表現型の不均一性が大きく、よく知られた腫瘍の増殖亢進特性を裏付けている。加えて、これらの結果は、幹細胞が受ける過剰増殖と分化を示している。その理由は、RECサブコホートが3つの幹様表現型を識別しているのに対し、NEDサブコホートは1つしか識別していないからである。
【0032】
開示された概念の更なる態様によれば、計算表現型の各ペア間の差異は、カルバック・ライブラー(KL)発散メトリックを使用して定量化される。特に、各計算表現型は、平均ベクトル及び共分散行列で記述される分布と考えることができる。KL発散は、相対的類似性ランキング尺度である。結果は、
図3に概略的に示されるヒートマップ26に視覚化されており、分離線は、各サブコホートの境界と各ツリーの上皮及び間質の枝を示す。このパネルの水平方向と対角線方向に沿ったノードは同じであり、対応するツリーに色分けされている。便宜上、対角線に沿ったノードには、ランク付けされた判別バイオマーカーに基づいて人力で推測された生物学的特性(可能な場合)が含まれている。上皮-上皮表現型と間質-間質表現型との間のKL発散メトリックに基づく類似性は、開示された概念の方法の安定性及び一貫性を示している(例えば、生物学的に、上皮計算表現型は、上皮-間質計算表現型よりも似ているはずである)。また、この指標は、計算表現型が高次元であるため、同様な推定生物学的特性を持つ表現型間の違いを示している(例えば、幹-幹計算表現型はKL発散に基づいて同一ではない)。更に、各アウトカムベースのコホート(NED、REC)から代表的なステージI、II、IIIの患者を選択し、開示された概念のサブコホートの結果に基づいて細胞境界を色分けした組織サンプルが、
図4に示す画像28で可視化され得る(各細胞は、本明細書で述べたように、最も高い
帰属確率に基づいて1つの表現型に割り当てることができる)。
【0033】
更に、説明のために本明細書に記載されている特定の例示的な実施形態では、ステップ15は以下に説明する方法で実行される。しかしながら、これは例示を目的としたものであって、ステップ15を実行するための代替方法は、開示された概念の範囲内で企図されていることは理解されるであろう。
【0034】
まず、この特定の例示的な実施形態では、高多重化データセットは高次元空間で記述されており、各細胞
【数1】
は、適切に定量化されたバイオマーカー発現のp次元ベクトルによって記述される。更に、高多重化データセットは、固有の低次元表現を持っていると仮定される。低次元因子負荷量
【数2】
、潜在変数
【数3】
、平均ベクトル
【数4】
、ノイズ項
【数5】
で記述される混合因子分析:
【数6】
(pはバイオマーカーの数、kは低次元の潜在空間である)が使用される。潜在因子
【数7】
は、ゼロ平均で単位分散の正規分布N(0,I)から生成され、ノイズ項
【数8】
は、N(0,Ψ)から抽出される。Iは単位分散であり、また、Ψは対角行列と仮定される。この構成では、
【数9】
は、ゼロ平均で共分散がΛΛ
T+Ψ[8]で分布する。
【0035】
<ソフトクラスタリング>
通常、細胞フェノタイピング法は、各細胞が1つのみのクラスターに属する(ハードクラスタリング)という仮定の下で構築されており、既存の表現型の連続性に起因して複数の表現型に属する可能性のある特定の細胞を識別できる余地がない。混合因子分析(MFA)を用いると、この特定の例示的な実施形態における開示された概念は、パラメータ
【数10】
を用いて、細胞をM個の成分(クラスター)としてモデル化し、ここでΠ
jは成分の重みである:
【数11】
MFAモデルの各成分にはニ次元の潜在空間が選択されているが、これは入力の分散を捉えるのに十分であることが観察されているからである。期待値最小化(EM)アルゴリズムは、モデルパラメータを推定するために使用される。EMアルゴリズムはランダムなパラメータセットで初期化されており、全体的に最適なソリューションに収束することが保証されていない。これを償って安定性を確保するために、この特定の例示的な実施形態で開示される概念は、各々がランダムに初期化される100回の異なるEM最適化を実行する。各最適化により、一組のモデルパラメータを持つMFAモデルがもたらされる。モデルパラメータの各組についてバイオマーカーランキング(識別バイオマーカーのセクションを参照)が計算され、全てのバイオマーカーランキングが集計されて、平均ランキングが計算される。バイオマーカーランキングが平均ランキングに最も近い(ユークリッド距離)モデルがコンセンサスモデルとして選択されて、最適な部分空間表現を提供しているとみなされる。MFAモデルでは、ソフトクラスタリング確率が得られる-各細胞x
cは、各クラスターjに属する固有の確率を有しており、それはΩ
cjと表される。
【0036】
<空間正則化>
このソフトクラスタリングは、腫瘍内不均一性(ITH)に至らせる重要な成分であるTMEの空間的複雑さに依存しない。空間ITHの特性と腫瘍の空間組織構造とに基づいて、細胞の近傍は空間的にコヒーレントであると予想される(例えば、上皮/腫瘍細胞は、他の上皮/腫瘍細胞に囲まれ、又は、空間的に近接しているが、腫瘍浸潤リンパ球や他の間質細胞の存在が考慮に入れられる)。細胞の特定を促進するために、空間正則化コンポーネントが追加されて、非特
殊化細胞の
帰属確率が最適化される。空間正則化ステップは、以下のように与えられる
帰属信頼度(ownership confidence)と空間的コヒーレンスの2つの項からなる目的関数を最適化する:
【数12】
第一項は、
帰属確率のエントロピーを最小化して、細胞の特定を促進する。第二項は空間的コヒーレンスを促進し、ここで、w
jkは細胞iと細胞jの間の重みであって、2つの細胞間の距離の逆数として計算される:
【数13】
距離の閾値(0.5μm/ピクセルにて100ピクセル)が使用されて、コミュニケーションをするには離れすぎている細胞間の影響が排除される。
【0037】
目的関数は、交互方向乗数法(ADMM)を使用して最適化される。確率的
帰属信頼度(第一項)と空間的コヒーレンス(第二項)は等しい重みを保持する必要があるため、調整パラメータλを計算して、第二項を第一項の範囲にスケーリングすることが想定される:
【数14】
ここで、N
optは最適化されている細胞の数であり、maxEntropyはエントロピー関数の最大値(=1)である。空間的コヒーレンスと
帰属信頼度が目的関数において等しい重みを保持する必要があるという仮定を緩和すると、パラメータ空間は大きくなるであろう。空間的コヒーレンスの重みが大きいほど、近傍が均一になり、非特
殊化細胞の組がより大きくなる。逆に、
帰属信頼度の重みを大きくすると、全ての非特
殊化細胞が破棄(abolishment)されることになる。調整パラメータが等しい重みを示す場合、安定且つ一貫した結果が得られる。細胞は同じ組織サンプル内でしか隣り合うことができず、故に、計算速度及び効率を上げるために、空間正則化は各組織サンプルに対して独立して行われる。
【0038】
<再帰的分解>
この特定の例示的な実施形態における開示された概念で表現型発見のプロセスを自動化するために、再帰的確率アプローチが使用され、各ステップでは、M=2の成分で最も支配的なクラスターを分解する。各再帰ステップでは、ソフトクラスタリングのステップは、低次元の潜在空間MFAを用いる。その後、空間正則化によって結果として得られる細胞ごとの
帰属確率を最適化し、
帰属信頼度及び空間的コヒーレンスを増進させることで偽陽性の非特
殊化細胞をフィルタリングする。各クラスターjについて得られたパラメータ(
帰属確率Ω
j、平均ベクトル
【数15】
、因子負荷量Λ
j)は次の再帰ステップに渡され、各クラスターは更にサブクラスターに分解される。このプロセスは、試行されたクラスター分割が、次の停止基準の何れかを無効にするまで続行される:1)結果のクラスターが細胞の1%未満の
帰属を取得する、2)ツリーが指定された深さの閾値を超えた、又は、3)平均ベクトル間の角度と因子負荷空間(factor loading space)が両方とも指定された閾値を下回る。
【0039】
<識別バイオマーカー>
この特定の例示的な実施形態における再帰的クラスタリング又は分割の各々は、高次元の平均ベクトル
【数16】
を有する2つのクラスターをもたらす。バイオマーカーの識別順序を決定するために、この方法は、各バイオマーカーjについて比率差(proportional difference)を計算してソートする:
【数17】
平均ベクトルの絶対差は、高バイオマーカー値の範囲のバイオマーカーの選択にバイアスをかける可能性があることから、この方法では、比率差を選択して、比較のためにバイオマーカーを均等なレベルに配置する。
【0040】
<計算表現型の比較>
本明細書の他の箇所で説明されているように、ツリーの末端ノード(つまり、葉)は、入力データセットで検出された別個の計算表現型を示しており、再帰的分解によって決定される最終的なMFAモデルの成分を構成する。MFAモデルでは、各計算表現型jは、各細胞について
帰属確率c(Ω
cj)を保持している。これらの
帰属確率を使用して、この例示的な実施形態の方法は、加重平均
【数18】
と加重共分散
【数19】
を計算して、計算表現型を記述する。加えて、本明細書の他の箇所で述べたように、カルバック・ライブラー発散メトリックは、任意の2つの分布を比較するための相対的類似性ランキング尺度である。故に、本実施形態では、計算表現型の2つの組の差は、KL発散メトリックを用いて分類される。2つのガウス型多変量分布
【数20】
のKL発散は、次のようになる:
【数21】
KL発散は対称的ではなく、平均KL発散尺度が計算される:
【数22】
【0041】
<共通細胞比較(Common-cell comparison)>
更に、この特定の実施形態では、各細胞は、最も高い
帰属確率に基づいて1つの表現型に割り当てることができる(細胞-ラベル)。入力コホートに共通の組織サンプルがある場合(ALL-DATAやステージIなど)、導かれた2つの組の計算表現型からの細胞-ラベルが比較され得る。混同行列が計算されて、結果として得られた細胞表現型ラベルが比較されてよい。具体的には、細胞表現型iと細胞表現型jについて、混同行列確率は以下のようになる:
【数23】
【0042】
<可視化のための代表的な患者の体系的選択>
上述したように、本実施形態では、細胞は、最も高い
帰属確率の値に基づいた計算表現型に割り当てられ得る(細胞-ラベル)。C個の表現型に対して、この方法は、各患者iに見られた各表現型のフラクションを計算し、ベクトル
【数24】
を形成する。このフラクションを計算する場合、この方法は、特
殊化細胞(
帰属確率>0.95)のみを考慮し、結果にバイアスをかける遷移細胞及び希少細胞を回避する。各アウトカムステージベースのグループ(例えば、NED-Stage I、NED-Stage II、NED-Stage III)について、この方法は平均表現型フラクションベクトル
【数25】
も計算し、平均に最も近い患者を選択する(ユークリッド距離)。
【0043】
図5は、本明細書に記載されている開示された概念の例示的な実施形態に基づいた、マルチパラメータ細胞・細胞内撮像データから細胞型及びその活性化(細胞表現型)を特徴付けて分類するための例示的なデジタルパソロジーシステム30の概略図である。
図5に見られるように、システム30は、本明細書に記載されているようにマルチパラメータ細胞・細胞内撮像データを生成/受信し、本明細書に記載されているようにそのデータを処理して細胞を特徴付けて分類するように構成及び設定されたコンピュータデバイスである。システム30は、例えば、PC、ラップトップコンピュータ、タブレットコンピュータ、又は、本明細書に記載された機能を実行するように構成された他の適切なデバイスであってよいが、これらに限定されない。システム30は、入力装置32(キーボードなど)と、ディスプレイ34(LCDなど)と、処理装置36とを含む。ユーザーは、入力装置32を使用して処理装置36に入力を与えることができ、処理装置36は、ディスプレイ34に出力信号を与えて、ディスプレイ34が本明細書で詳細に説明したような情報(例えば、本明細書で説明したツリー、ヒートマップや画像)をユーザーに表示することを可能にする。処理装置36は、プロセッサ及びメモリを備えている。プロセッサは、例えば、限定ではないが、マイクロプロセッサ(μP)、マイクロコントローラ、又はその他の適切な処理デバイスであって、メモリとインターフェースしている。メモリは、コンピュータの内部ストレージ領域のようなデータストレージの場合、RAM、ROM、EPROM、EEPROM、FLASH(登録商標)や、ストレージレジスタを提供するその他のもの、例えば、コンピュータ読み取り可能な媒体のような様々なタイプの内部及び/又は外部ストレージメディアの1又は複数であってよく、揮発性メモリ又は不揮発性メモリであってよい。メモリには、プロセッサによって実行可能な幾つかのルーチンが格納されており、本明細書に記載されているように開示された概念を実施するためのルーチンを含んでいる。特に、処理装置36は、細胞表現型特徴付けコンポーネント38を含んでおり、細胞表現型特徴付けコンポーネント38は、様々な実施形態において本明細書に記載されているように、様々なイメージングモダリティから得られたマルチパラメータ細胞・細胞内撮像データ(例えば、多重化乃至高多重化撮像データ)から、様々な細胞型とその活性化(細胞表現型)を分類するように構成されている。
【0044】
更に、上述の開示された概念の説明は、インサイチュのマルチパラメータ細胞・細胞内撮像データに基づいており、それを利用している。しかしながら、それは限定を意味していないことは理解されるであろう。むしろ、開示された概念は、基礎研究や臨床翻訳のために、インビトロの微小生理学的モデルと併せて使用できることは理解されるだろう。多細胞インビトロモデルは、インビトロでの疾患進行のメカニズムの調査と、薬物のテストと、移植で使用可能なこれらのモデルの構造的構成及び内容の特徴付けとに適用可能な、ヒト組織を要約している時空間的細胞異質性と異種細胞間コミュニケーションの研究を可能する。
【0045】
最後に、これまで腫瘍切片から得られた撮像データについて説明してきたが、この開示された概念は、他の種類の組織切片から得られた撮像データ、及び/又は、中実の未切片サンプルに入り込むことができるイメージングモダリティを用いて未切片サンプルから得られた撮像データにも適用できることは理解されるであろう。
【0046】
特許請求の範囲において、括弧の間に置かれた符号は、特許請求の範囲を限定するものと解釈してはならない。「備える」又は「含む」という言葉は、特許請求の範囲に記載されているもの以外の要素又は工程の存在を排除するものではない。幾つかの手段を列挙している装置請求項では、これらの手段の幾つかが、1つの同じハードウェアによって具現化されてもよい。要素に先行する「ある」という言葉は、そのような要素が複数存在することを排除するものではない。幾つかの手段を列挙している任意の装置請求項では、これらの手段のうちの幾つかが、1つの同じハードウェアによって具現化されてもよい。ある要素が相互に異なる従属形式請求項に記載されているという事実だけで、これらの要素を組み合わせては使用できないことを示しているわけではない。
【0047】
本発明は、最も実用的で好ましい実施形態であると現在考えられている実施形態に基づいて説明することを目的として、詳細に説明されてきたが、そのような詳細はあくまでもその目的のためのものであり、本発明は、開示された実施形態に限定されるものではなく、逆に、添付の特許請求の範囲の精神及び範囲内にある変更及び均等な構成を含むことが意図されていることを理解のこと。例えば、本発明は、可能な範囲で、任意の実施形態の1又は複数の特徴を、任意の他の実施形態の1又は複数の特徴と組み合わせることができることを意図していることを理解のこと。