(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-13
(45)【発行日】2022-12-21
(54)【発明の名称】大規模マルチパラメータデータセットの可視化、比較分析、及び自動差異検出
(51)【国際特許分類】
G01N 15/14 20060101AFI20221214BHJP
C12Q 1/6869 20180101ALI20221214BHJP
C12Q 1/68 20180101ALI20221214BHJP
C12Q 1/04 20060101ALI20221214BHJP
C12N 15/09 20060101ALN20221214BHJP
【FI】
G01N15/14 B
C12Q1/6869
C12Q1/68
C12Q1/04
C12N15/09 Z
(21)【出願番号】P 2019560637
(86)(22)【出願日】2018-05-23
(86)【国際出願番号】 US2018034199
(87)【国際公開番号】W WO2018217933
(87)【国際公開日】2018-11-29
【審査請求日】2021-05-12
(32)【優先日】2017-05-25
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】517389757
【氏名又は名称】フロージョー エルエルシー
【氏名又は名称原語表記】FlowJo, LLC
【住所又は居所原語表記】385 Williamson Way, Ashland, Oregon 97520, United States of America
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】ローダラー マリオ
(72)【発明者】
【氏名】スタドニスキー マイケル ディー
【審査官】北条 弥作子
(56)【参考文献】
【文献】特開2006-230333(JP,A)
【文献】特開昭63-259442(JP,A)
【文献】特表2012-505460(JP,A)
【文献】米国特許出願公開第2016/0170980(US,A1)
【文献】特表2009-527766(JP,A)
【文献】特開昭62-031815(JP,A)
【文献】特開平05-209821(JP,A)
【文献】米国特許出願公開第2003/0009470(US,A1)
【文献】特表2010-527469(JP,A)
【文献】Mario Roederer,Frequency Difference Gating: A Multivariate Method for Identifying Subsets That Differ Between Samples,Cytometry,2001年,45,pp.56-64
【文献】Chiaowen Hsiao,Mapping Cell Populations in Flow Cytometry Data for Cross-Sample Comparison Using the Friedman-Rafsky Test Statistic as a Distance Measure,Cytometry Part A,2016年,89A,pp.71-88
【文献】Mario Roederer,Probability Binning Comparison: A Metric for Quantitating Univariate Distribution Differences,Cytometry,45,pp.37-46
(58)【調査した分野】(Int.Cl.,DB名)
G01N 15/00-15/14
G01N 33/48-33/98
C12Q 1/00- 3/00
C12N 15/00-15/90
G06F 3/048
(57)【特許請求の範囲】
【請求項1】
n次元データセット間の差異を可視化する、コンピュータで実施される方法であって、
1つ以上の処理装置の制御下で、
連結されたデータセットを取得するために、n次元データの第1のデータセット及びn次元データの第2のデータセットを連結するステップであって、前記n次元データは複数の次元の複数のイベントを含む、前記連結するステップと、
前記第1及び第2のデータセットにおいて、前記連結されたデータセットにおける次元
縮約を実施するステップと、
前記イベントのマッピングにおいて頻度差ゲーティングを実施するステップと、
前記頻度差ゲーティングから、ディスプレイ装置に表示する為の可視化を生成するステップであって、前記可視化は、多変量空間において、指定の閾値に従って、前記第1のデータセットからのイベントの頻度が、前記第2のデータセットからのイベントの頻度と異なる領域を示す、前記生成するステップと、
を含む、コンピュータで実施される方法。
【請求項2】
前記第1及び第2のデータセットはマルチパラメータ細胞試料データを含む、請求項1に記載の、コンピュータで実施される方法。
【請求項3】
ユーザ入力に応じて前記指定の閾値を調節するステップと、
前記調節された指定の閾値に基づいて前記可視化を調節するステップと、
を更に含む、請求項1に記載の、コンピュータで実施される方法。
【請求項4】
前記指定の閾値は複数の指定の閾値を含む、請求項1に記載の、コンピュータで実施される方法。
【請求項5】
前記可視化を生成する前記ステップは、前記頻度差ゲーティングに少なくとも部分的に基づいて前記領域を色分けするステップを含む、請求項1に記載の、コンピュータで実施される方法。
【請求項6】
前記指定の閾値は、前記第1のデータセットからのイベントの頻度が、前記第2のデータセットからのイベントの頻度より大きいとして分類された1つ以上の領域を識別する上位閾値を含む、請求項1に記載の、コンピュータで実施される方法。
【請求項7】
前記指定の閾値は、前記第2のデータセットからのイベントの頻度が、前記第1のデータセットからのイベントの頻度より大きい1つ以上の領域を識別する下位閾値を含む、請求項1に記載の、コンピュータで実施される方法。
【請求項8】
前記指定の閾値は、イベントの頻度が前記第1のデータセットと前記第2のデータセットとの間と同等である1つ以上の領域を識別する中間範囲境界を含む、請求項1に記載の、コンピュータで実施される方法。
【請求項9】
頻度差ゲーティングを実施する前記ステップは、
前記第1のデータセット及び前記第2のデータセットの中の複数の指定の分布のうちの各分布の二変量頻度推定に従って、次元当たり複数のビンを有する多次元ヒストグラムを生成するステップ
を含む、
請求項1に記載の、コンピュータで実施される方法。
【請求項10】
頻度差ゲーティングを実施する前記ステップは更に、
前記ヒストグラムをイベント数で正規化するステップ
を含む、
請求項9に記載の、コンピュータで実施される方法。
【請求項11】
頻度差ゲーティングを実施する前記ステップは更に、
前記正規化されたヒストグラムの各要素についての差異ヒストグラムを生成するステップ
を含む、
請求項10に記載の、コンピュータで実施される方法。
【請求項12】
頻度差ゲーティングを実施する前記ステップは更に、
プロセッサが前記差異ヒストグラムを両正規化するステップ
を含む、
請求項11に記載の、コンピュータで実施される方法。
【請求項13】
前記可視化を生成する前記ステップは、
前記両正規化された差異ヒストグラムのヒートマップをレンダリングするステップ
を含む、
請求項12に記載の、コンピュータで実施される方法。
【請求項14】
ユーザが前記可視化を通して指定した少なくとも1つのゲートに基づいて、第3のデータセットを生成するステップ
を更に含む、請求項1に記載の、コンピュータで実施される方法。
【請求項15】
前記第1のデータセットは対照試料を含む、請求項1に記載の、コンピュータで実施される方法。
【請求項16】
前記対照試料は、健康組織由来の細胞データに相当する、請求項15に記載の、コンピュータで実施される方法。
【請求項17】
前記対照試料は、がん組織由来の細胞データに相当する、請求項15に記載の、コンピュータで実施される方法。
【請求項18】
1つ以上の処理装置と、
前記1つ以上の処理装置によって実行されると、
頻度差ゲーティングを行う為の閾値を受け取るステップと、
複数の次元の第1の複数のイベントを含む、n次元データの第1のデータセットを受け取るステップと、
少なくとも前記複数の次元の第2の複数のイベントを含む、n次元データの第2のデータセットを受け取るステップと、
連結されたデータセットを取得するために、前記第1のデータセット及び前記第2のデータセットを連結するステップと、
前記第1及び第2のデータセットにおけるイベントのマッピングを取得するために前記連結されたデータセットにおける次元縮約を実施するステップと、
前記イベントのマッピングにおいて実施された頻度差ゲーティングに少なくとも部分的に基づいて、イベントの集団を画定する頻度差ゲートを識別するステップであって、前記ゲートは、多変量空間において、前記閾値に従って、前記第1のデータセットからのイベントの頻度が、前記第2のデータセットからのイベントの頻度と異なる領域を識別する、前記識別するステップと、
前記頻度差ゲートによって画定された前記集団に含まれる、前記第1のデータセット及び前記第2のデータセットからのイベントの表現を含む可視化を表示させるステップであって、前記可視化は、前記多変量空間において、前記閾値に従って、前記第1のデータセットからのイベントの前記頻度が、前記第2のデータセットからのイベントの前記頻度と異なる領域を示す、前記表示させるステップと、
をシステムに実施させる命令を含むコンピュータ可読記憶媒体と、
を含むシステム。
【請求項19】
前記閾値は、
前記第1のデータセットからのイベントの頻度が、前記第2のデータセットからのイベントの頻度より大きいとして分類された1つ以上の領域を識別する上位閾値、
前記第2のデータセットからのイベントの頻度が、前記第1のデータセットからのイベントの頻度より大きい1つ以上の領域を識別する下位閾値、又は
イベントの頻度が前記第1のデータセットと前記第2のデータセットとの間と同等である1つ以上の領域を識別する中間範囲境界、
のうちの少なくとも1つを含む、
請求項18に記載の、システム。
【請求項20】
前記コンピュータ可読記憶媒体は、前記1つ以上の処理装置によって実行されると、少なくとも、
前記第1のデータセット及び前記第2のデータセットの中の複数の指定の分布のうちの各分布の二変量頻度推定に従って、次元当たり複数のビンを有する多次元ヒストグラムを生成する
ことによって前記頻度差ゲートを識別することを前記システムに行わせる命令を含む、
請求項18に記載の、システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、参照により全体が本明細書に組み込まれている、2017年5月25日に出願された米国仮特許出願第62/511342号、件名「APPLIED COMPUTER TECHNOLOGY FOR VISUALIZATION,COMPARATIVE ANALYSIS,AND AUTOMATED DIFFERENCE DETECTION FOR LARGE MULTI-PARAMETER DATA SETS」の、35U.S.C.§119(e)に基づく優先権の利益を主張するものである。出願データシートに明示されているあらゆる全ての優先権主張、又はこれらに対する全ての訂正も、37C.F.R.§1.57に基づいて、参照により本明細書に組み込まれている。
【0002】
本開示は、全般的には自動粒子評価の分野に関し、具体的には、大規模マルチパラメータデータセットに対するコンピュータ支援試料分析及び粒子特性評価の機能に関する。
【背景技術】
【0003】
フローサイトメータ及びスキャンサイトメータなどの粒子分析器は、光散乱及び蛍光などの電気光学測定に基づく粒子特性評価を可能にする分析ツールである。例えば、フローサイトメータでは、流体懸濁液中の粒子(例えば、分子、検体結合ビーズ、又は個別細胞)が検出領域に通され、検出領域では、粒子が(典型的には1つ以上のレーザからの)励起光に曝露され、粒子の光散乱特性及び蛍光特性が測定される。典型的には、検出を容易にする為に、粒子又は粒子の成分に対し、蛍光染料によるラベリングが行われる。スペクトル的に明確に異なる複数の蛍光染料を使用して様々な粒子又は成分のラベリングを行うことにより、多種多様な粒子又は成分の同時検出が可能である。幾つかの実施態様では、分析器において、多種多様な光検出器が、測定対象の散乱パラメータのそれぞれに対して1つずつ、並びに検出対象の、異なる染料のそれぞれに対して1つ以上ずつ使用される。例えば、幾つかの実施形態には、染料ごとに2つ以上のセンサ又は検出器が使用されるスペクトル構成が含まれる。取得されるデータは、光散乱検出器及び蛍光放射のそれぞれについて測定された信号を含む。
【0004】
粒子分析器は更に、測定されたデータを記録する手段、及びデータを分析する手段を含んでよい。例えば、データの記憶及び分析は、検出用電子回路に接続されたコンピュータを使用して実施されてよい。例えば、データは表形式で記憶されてよく、表の各行は1つの粒子のデータに対応し、各列は、測定される特性のそれぞれに対応する。粒子分析器からのデータの記憶に「FCS」ファイル形式などの標準ファイル形式を使用することにより、別々のプログラム及び/又はマシンを使用してデータを分析することが容易になる。現行の分析方法では、データは、典型的には、可視化しやすいように、1次元ヒストグラム又は2次元(2D)プロットで表示されるが、多次元データの可視化には他の方法が使用されてよい。
【0005】
例えば、フローサイトメータを使用して測定されるパラメータとしては、典型的には、ほぼ順方向に沿う狭い角度で粒子から散乱する励起波長の光量(前方散乱(FSC)と呼ばれる)、励起レーザに対して垂直な方向に粒子から散乱される励起光量(側方散乱(SSC)と呼ばれる)、並びにある範囲のスペクトル波長にわたって信号を測定する1つ以上の検出器において蛍光分子から放出されるか、又はその特定の検出器又は検出器アレイにおいて主に検出される蛍光染料から放出される光量がある。様々な細胞タイプの識別が、蛍光染料でラベリングされた抗体又は他の蛍光プローブで様々な細胞タンパク質又は他の成分をラベリングすることによって得られる、それぞれの細胞タイプの光散乱特性及び蛍光放出によって可能である。
【0006】
フローサイトメータもスキャンサイトメータも市販されており、例えば、BD Biosciences(San Jose,Calif.)が販売している。フローサイトメトリについては、例えば、Landy et al.(eds.),Clinical Flow Cytometry,Annals of the New York Academy of Sciences Volume 677(1993)、Bauer et al.(eds.),Clinical Flow Cytometry:Principles and Applications,Williams & Wilkins(1993)、Ormerod(ed.),Flow Cytometry:A Practical Approach,Oxford Univ.Press(1994)、Jaroszeski et al.(eds.),Flow Cytometry Protocols,Methods in Molecular Biology No.91, Humana Press(1997)、及びPractical Shapiro,Flow Cytometry,4th ed.,Wiley-Liss(2003)に記載されており、これらは全て、参照によって本明細書に組み込まれている。蛍光イメージング顕微鏡検査については、例えば、参照によって本明細書に組み込まれているPawley(ed.),Handbook of Biological Confocal Microscopy,2nd Edition,Plenum Press(1989)に記載されている。
【0007】
特定の粒子分析器(例えば、多色フローサイトメトリ)による細胞(又は他の粒子)の分析から得られたデータは多次元であり、各細胞は、測定されたパラメータによって指定される多次元空間における点に対応する。細胞又は粒子の集団は、データ空間においては点のクラスタとして識別される。クラスタの識別、及びそれによる集団の識別は、データの(「散乱プロット」又は「ドットプロット」と呼ばれる)1つ以上の2次元プロットとして表示される集団の周囲にゲートを描くことによって手動で実施可能である。或いは、クラスタの識別、並びに集団の境界線を指定するゲートの決定が自動で行われることが可能である。自動ゲーティングの方法の例が、例えば、米国特許第4,845,653号明細書、同第5,627,040号明細書、同第5,739,000号明細書、同第5,795,727号明細書、同第5,962,238号明細書、同第6,014,904号明細書、及び同第6,944,338号明細書、並びに米国特許出願公開第2012/0245889号明細書に記載されており、それぞれ参照によって本明細書に組み込まれている。
【発明の概要】
【課題を解決するための手段】
【0008】
本開示のシステム、方法、及び装置は、それぞれが幾つかの革新的な態様を有しており、これらのどの1つも、本明細書に開示の望ましい属性を単独で担うものではない。
【0009】
革新された一態様では、n次元データセット間の差異を可視化する、コンピュータで実施される方法が提供される。コンピュータで実施される本方法は、1つ以上の処理装置の制御下で実施されてよい。本方法は、n次元データの第1のデータセット及びn次元データの第2のデータセットに対して頻度差ゲーティングを実施するステップを含む。このn次元データは、複数の次元の複数のイベントを含む。本方法は更に、頻度差ゲーティングされたデータから、ディスプレイ装置に表示する為の可視化を生成するステップであって、可視化は、多変量空間において、指定の閾値に従って、第1のデータセットからのイベントの頻度が、第2のデータセットからのイベントの頻度と異なる領域を示す、可視化を生成するステップを含む。
【0010】
コンピュータで実施される本方法の幾つかの実施態様では、第1及び第2のデータセットはマルチパラメータ細胞試料データを含む。
【0011】
幾つかの実施態様では、コンピュータで実施される本方法は更に、ユーザ入力に応じて指定の閾値を調節するステップと、調節された指定の閾値に基づいて可視化を調節するステップと、を含む。指定の閾値は、複数の指定の閾値を含むか又は表してよい。コンピュータで実施される本方法は、頻度差ゲーティングに少なくとも部分的に基づいて領域を色分けするステップを実施することによって、可視化を生成するステップを含んでよい。指定の閾値は、第1のデータセットからのイベントの頻度が、第2のデータセットからのイベントの頻度より大きいとして分類された1つ以上の領域を識別する上位閾値を含んでよい。追加又は代替として、指定の閾値は、第2のデータセットからのイベントの頻度が、第1のデータセットからのイベントの頻度より大きい1つ以上の領域を識別する下位閾値を含んでよい。幾つかの実施態様では、指定の閾値は、イベントの頻度が第1のデータセットと第2のデータセットとの間と同等である1つ以上の領域を識別する中間範囲境界を含む。
【0012】
本方法は、第1のデータセット及び第2のデータセットの中の複数の指定の分布のうちの各分布の二変量頻度推定に従って、次元当たり複数のビンを有する多次元ヒストグラムを生成するステップを実施することによって、頻度差ゲーティングを実施してよい。頻度差ゲーティングは更に、ヒストグラムをイベント数で正規化するステップを含んでよい。頻度差ゲーティングは更に、正規化されたヒストグラムの各要素についての差異ヒストグラムを生成するステップを含んでよい。幾つかの実施態様では、頻度差ゲーティングは更に、プロセッサが差異ヒストグラムを両正規化するステップを含む。両正規化されたヒストグラムを使用する場合、可視化を生成するステップは、両正規化された差異ヒストグラムのヒートマップをレンダリングするステップを含んでよい。
【0013】
本方法の幾つかの実施例は、ユーザが可視化を通して指定した少なくとも1つのゲートに基づいて、第3のデータセットを生成するステップを含む。第1のデータセットは対照試料を含んでよく、例えば、健康な物質からの細胞データ、又はがん性の物質からの細胞データを対照試料として含んでよい。
【0014】
別の革新的態様では、システムが提供される。本システムは、1つ以上の処理装置と、1つ以上の処理装置によって実行されると、受け取られたデータセットに対して頻度差ゲーティングを行う為の閾値を受け取るステップと、複数の次元の第1の複数のイベントを含む、n次元データの第1のデータセットを受け取るステップと、少なくとも上記複数の次元の第2の複数のイベントを含む、n次元データの第2のデータセットを受け取るステップと、n次元データの第1のデータセット及びn次元データの第2のデータセットに対する頻度差ゲーティングに少なくとも部分的に基づいて、イベントの集団を画定する頻度差ゲートを識別するステップであって、このゲートは、多変量空間において、上記閾値に従って、第1のデータセットからのイベントの頻度が、第2のデータセットからのイベントの頻度と異なる領域を識別する、上記識別するステップと、頻度差ゲートによって画定された集団に含まれる、第1のデータセット及び第2のデータセットからのイベントの表現を含む可視化を表示させるステップであって、可視化は、多変量空間において、上記閾値に従って、第1のデータセットからのイベントの頻度が、第2のデータセットからのイベントの頻度と異なる領域を示す、上記表示させるステップと、を本システムに実施させる命令を含むコンピュータ可読記憶媒体と、を含む。
【0015】
幾つかの実施態様では、上記閾値は、第1のデータセットからのイベントの頻度が、第2のデータセットからのイベントの頻度より大きいとして分類された1つ以上の領域を識別する上位閾値、第2のデータセットからのイベントの頻度が、第1のデータセットからのイベントの頻度より大きい1つ以上の領域を識別する下位閾値、又はイベントの頻度が第1のデータセットと第2のデータセットとの間と同等である1つ以上の領域を識別する中間範囲境界のうちの少なくとも1つを含む。
【0016】
上記コンピュータ可読記憶媒体は、1つ以上の処理装置によって実行されると、少なくとも、第1のデータセット及び第2のデータセットの中の複数の指定の分布のうちの各分布の二変量頻度推定に従って、次元当たり複数のビンを有する多次元ヒストグラムを生成することによって、頻度差ゲートを識別することを本システムに行わせる命令を含んでよい。
【図面の簡単な説明】
【0017】
【
図1】本明細書に記載の革新的なデータ処理及び可視化の手法をサポートする為に使用可能な一例示的コンピュータシステムを示す。
【
図3】頻度差ゲーティング及び可視化の方法の一例示的プロセスフローを示す。
【
図4A】生成可能な頻度差ゲーティング可視化の例を示す。
【
図4B】生成可能な頻度差ゲーティング可視化の例を示す。
【
図4C】生成可能な頻度差ゲーティング可視化の例を示す。
【発明を実施するための形態】
【0018】
単一細胞は病気の基本単位を表しうるが、フローサイトメトリ分析(細胞当たり40個超のパラメータ)及び単一細胞シーケンシング分析(細胞当たり10,000個から60,000個超のパラメータ)における技術の台頭が、近視眼的であり、時間がかかり、順次的な手動ステップであるか又は計算コストが高く、非決定性であるデータ縮約アプローチによって阻害される可能性がある。これは当該技術分野においてたびたび取り上げられる問題であり、当該技術分野ではこの問題の解決策を編み出そうと悪戦苦闘してきた。この、決定論の欠如は、あらゆるタイプのデータ分析(特に生命科学)を下支えする、意味のある試料比較を妨げる。即ち、対照試料、又は健康な「正常」試料との比較は決定的に重要な構成要素であるが、単一細胞を扱う科学では、大幅に拡大された表現型空間においてそのような意味のある比較を実施する為に懸命に悪戦苦闘している。
【0019】
大規模マルチパラメータデータセットによってもたらされる問題に対処する為の特徴について述べる。即ち、人間は本質的に、大規模マルチパラメータデータセットに関して、十分な探索も意味のある比較も行うことができない。特に、試料内比較及び試料間比較に関して言えば、人間(例えば、科学の専門家)は、予備知識及び専門知識が根底にある為に信じられないほどバイアスがかかる可能性がある。生物学的差異の決定要因となる大きな差異は、実際には、手動ゲーティングによるデータの手動分析では包含されない細胞サブセットに起因する可能性のあることが示されている(M.D.Stadnisky,S.Siddiq,J.Almarode,J.Quinn,A.Hart.Reproducible Reduction: Deterministic tSNE using regression trees enables intra-sample comparison.CYTO 2016:XXXI Congress of the International Society for the Advancement of Cytometry.Seattle,Washington.June 2016を参照)。即ち、健康な患者と病状との間の生物学的な反応又は差異をつかさどる表現型が、研究室の研究者らによって完全に見落とされる可能性がある。粒子データの比較におけるこれらのアプローチの限界を明確に示す2つの例について後で詳述する。
【0020】
体がどのようにして免疫細胞数を数えて調整するかを調べる研究(Roederer et.al.The genetic architecture of the human immune system:a bioresource for autoimmunity and disease pathogenesis.Cell.2015 Apr 9;161(2):387-403.doi:10.1016/j.cell.2015.02.046.Epub 2015 Mar 12.を参照)からの具体例を用いる場合、既知の可能な集団(「トレイト(特徴)」、「Another Application of Technology」を参照)が以下のように多数存在する。
【0021】
カノニカル:あらかじめ定義された、又は「既知の」、又は記述されたサブセット。
TCM=CD45RA-CCR7+CD28+
TREG=CD45RO+CD127-CD25+CD39+
【0022】
所与の抗体パネルに関しては、50+超のカノニカル集団が識別可能となるカノニカルがある。しかしながら、後述の2つの具体例で示されるように、このアプローチでは多くのサブセットが見落とされる。更に、このアプローチは、カノニカル集団が(1)適正に定義されていて(2)周知であるという基本的な前提に基づいている。しかし、もしカノニカル集団が適正に定義されていないとしたらどうであろうか?単一細胞シーケンシング分析では、現行のカノニカルパネルを使用して細胞をサブセット化して識別する場合に、分析間隙が偏りなく示される。例えば、先天性リンパ球に関して行われた最近の研究では、本願発明者等は、各カノニカルILCサブセットに対して、これまでに報告されていない3~5個の追加マーカを定義し、各カノニカルサブセットに対して3個の「新たな」子サブセットを定義した。実際、各細胞は当然のことながらユニークであり、従って、1つの重要な要因は、カノニカルサブセットから分かることを分析し、これを、本明細書に記載の革新的なアプローチと組み合わせることである。
【0023】
一代替分析プロセスは、あらゆるものを一度に分析すること、即ち、マーカのあらゆる可能な組み合わせを分析することを含んでよい。このアプローチの一利点は、分析においていかなる組み合わせも見落とされず、しかも、カノニカル集団が識別可能なことである。ただし、このアプローチには不利点もあり、それは、n次元データセットに対して計算を行うアルゴリズムを実行することが必要である為に、膨大なリソースが必要になることである。データ量の一例として、本願発明者等は、数千個の細胞の1つ1つについて、12種類のタンパク質と60,000個超のmRNA及びスプライス変異とを調べるアルゴリズムをデータセットに対して実行した。これは、それぞれが数百から数千の細胞を有する多数の試料について、個々の細胞当たり100,000個超のパラメータを分析する他の実験に比べると低スループットの実験のように思われるかもしれない。重要なこととして、この種のスループットは、治療と病状とを突き合わせることができないことで阻害される為、その分析に基づく多くの研究が本質的に記述的なままである。モダリティを1つだけ使用して(例えば、フローサイトメトリで調べられた7つのパネルを使用して)体がどのようにして免疫細胞数を数えて調整するかを調べる研究からの別の例として、以下が存在した。
59個の「リネージ」
全部で77,941個のサブセット
684個のMFI値
合計:78,683個のトレイト
…そしてこれは、研究された各ツインペアに利用可能な他のデータストリームと組み合わせる前である。
【0024】
そのような大規模多次元データセットの処理に必要なリソースは、動作可能時間内に結果を出す為に利用可能なリソース、又は動作可能時間内に結果を出すことを期待されているリソースを超える可能性がある。リソースには、計算リソース、電力リソース、メモリリソース、ネットワークリソース。送受信リソース等がある。
【0025】
n次元空間での発見を扱いやすいものにする為には、検討対象のランダム変数の数を減らして「無相関」の主要変数のセットを取得するデータ縮約が、有用な可視化手法である。これにより、n次元データの射影を表し、それ自体の更なる分析が可能な、新しいパラメータを探索する視覚的手法が得られる。データ縮約には特徴抽出及び特徴選択という2つのアプローチがあるが、特徴抽出は、単一細胞の科学において広く使用されており、特に、主成分分析(PCA)及びt分布型確率的近傍埋め込み法(t-SNE)において使用されている。
【0026】
PCAは、基礎(例えば「ロー」)データの分散を表す、主成分と呼ばれる線形無相関変数(例えば、新しいパラメータ)の抽出に使用可能である。しかしながら、本願発明者等、並びに他者は、PCAの最大の利点が失敗の原因にもなることを示している。「PCAでは、データの可能な線形射影のセットの範囲での最適な表現が重要な限界でもある-線形射影は正確な表現を生成するには制限的すぎる可能性がある」(Shekhar,Karthik et al.“Automatic classification of cellular expression by nonlinear stochastic embedding (ACCENSE).”Proceedings of the National Academy of Sciences 111.1(2014):202-207)。本願発明者等の研究結果では、PCAは、低次元(例えば、8パラメータ)データセットに関して、科学の専門家によって識別されるクラスタを識別することができない。更に、単一細胞シーケンシングでは、PCAは、転写産物の数に敏感である。
【0027】
これらの限界を克服する為に、最近では、単一細胞にt-SNEを適用する研究が多く行われている。t-SNEは、強力な非線形特徴抽出手法である。t-SNEの諸態様の説明が、Van der Maaten,Laurens, and Geoffrey Hinton.“Visualizing data using t-SNE.”Journal of Machine Learning Research 9.2579-2605(2008):85 and Van Der Maaten,Laurens,Eric Postma、並びにJaap Van den Herik.“Dimensionality reduction:a comparative.”J Mach Learn Res 10(2009):66-71にあり、これらはそれぞれ、参照によって本明細書に組み込まれている。t-SNEは、各高次元オブジェクトを2次元点又は3次元点によってモデル化する。これは、類似のオブジェクトが近くの点によってモデル化され、非類似のオブジェクトが遠くの点によってモデル化されるように行われる。これは、最近傍にあるものが、一緒にサブセットにグループ化されてよい類似の細胞を反映する為、生物学的な可視化及び分析に有用である。
【0028】
t-SNEは、異なる2つのアプローチで単一細胞サイトメトリに適合されてきており、これには、(1)パーティション化及びパフォーマンス並びにクラスタ化(Amir,El-ad David et al.“viSNE enables visualization of high dimensional single-cell data and reveals phenotypic heterogeneity of leukemia.”Nature biotechnology 31.6(2013):545-552.)、並びに(2)クラスタ化及び適用(Shekhar,Karthik et al.“Automatic classification of cellular expression by nonlinear stochastic embedding(ACCENSE).”Proceedings of the National Academy of Sciences 111.1(2014):202-207.)が追加された。t-SNEは、単一細胞シーケンシングにおいて集団を識別することに有望であるとされ、有効に使用されてきた(Macosko,Evan Z et al.“Highly parallel genome-wide expression profiling of individual cells using nanoliter droplets.”Cell 161.5(2015):1202-1214.;Tirosh,Itay et al.“Dissecting the multicellular ecosystem of metastatic melanoma by single-cell RNA-seq.”Science 352.6282(2016):189-196.)。
【0029】
しかしながら、相互に関係している幾つかの重大な課題が残っている。1つの課題は計算コストである。t-SNEを含む分析システムの場合、計算コストの定量化は、基準実装の場合はО(N2)、又はBarnes-Hut実装の場合はO(N log N)のスケーリングが不十分なスローランタイムとして行われる。計算コストは、パラメータ/トレイトの数だけでなく、単独粒子測定値(例えば、イベント数、細胞数等)の数によっても押し上げられる。何千ものパラメータ及びイベントにわたる実行は、分析待ちのランタイムが長くなる可能性があり、或いは単純に、スーパーコンピュータ/サーバクラスタなどの膨大なリソースがない限り、実現不可能である。
【0030】
別の課題は、上述の決定論に関連する。t-SNEはデータの非パラメトリックマッピングを学習する為、試料外推定の容易に利用可能な方法はない。この結果、同じデータセットに対してt-SNEを2回実行すると、それらの可視化が異なる2つのものになりやすい。このような非決定論は、そのアルゴリズムにつきものであり、データファイルを連結することを必要とし、これは、例えば、健康な組織と病気の組織とを組み合わせて1つのファイルとし、その組み合わせたデータファイルに対してt-SNEを実行して差異の可視化を試みることによって行われる。これについては、後の例#2において詳細に説明する。
【0031】
別の課題は、実施可能な分析的比較に関連する。比較は、上述の課題の両方を極端に困難なものにする。即ち、N個の試料のペアワイズ比較を行うことは(N(N-1))/2回の比較(従って、N2の能力)につながるが、nワイズ比較は、この既に不十分な計算能力よりも悪い。この課題に対しては、全てのトレイトが有用であるとは限らないという理由で、幾つかのパラメータ/トレイトの事前選択が行われてよい。これは、(1)「問題にならない」と見なされるものがあること(更なる分析のメリットがないほど希少な細胞(リネージの0.5%未満))、並びに(2)イントラアッセイ及び時間軸方向の変動性対照群に基づいて(アッセイ又は生物学的に)変動性が高すぎるものがあることによる。しかしながら、分析の都合上、n次元空間のどこにフォーカスすべきかについての何らかのガイダンスが与えられる。意味のある比較を行う手段がない場合、1つの答えは明確な差異にフォーカスすることであるが、これは、現実の正確な反映にはならない可能性があり、また、分析的に厳密な形で引き出すことが難しい可能性がある。
【0032】
本明細書に記載の特徴は、被験者のあらゆるサブグループにわたって複雑な高次元データセットを比較する、統計的に厳密な方法を提供し、ハイパラメータデータに対する、診断用の深い表現型解析アプローチを初めてもたらすものである。
【0033】
単一細胞アッセイの内容は過去数年間でかなり増えたが、これらのハイパラメータデータセットを使用して最も基本的なタスク、即ち、比較を行う能力は著しく限定されている。桁数に関して言えば、本分野は、生態の観察に(例えば、倍率が40倍の)巨大な双眼鏡を使用するレベルから(例えば、倍率が8,000倍の)ハッブル望遠鏡を使用するレベルまで進んだが、観察される天体の差異を比較する、意味のある方法が全く欠落している。探索及び発見を行うシステム及び方法は存在するが、これらは、意味のある分析作業をあまり行うことができない。
【0034】
記載の特徴(その例示的実施形態が本明細書に開示されている)は、単一細胞の生物学における限界を克服する。それらの特徴により、n次元データが診断ツールとして使用されるようになる。記載のアプローチは、プレシジョンメディシン(精密医療)の為に患者を階層化すること、手動分析時間を短縮すること、未確認の細胞集団を迅速且つ再現性よく明らかにするメカニズムを提供すること、並びに大規模な単一細胞の検査結果を比較する機会を作ることに用いられてよい。
【0035】
免疫学者は、その名の通り、システム生物学者ではなく、上述の「カノニカル」集団を使用する例に見られるように、病気又は免疫細胞機能を理解しようとする場合に、少数の入手可能な細胞タイプを深く調べることに特化する場合がある。これは、多くの細胞タイプ(即ち、それらの機能性、相互作用、及び識別)の専門家になるには時間と訓練が必要である為である。
【0036】
この、既知/カノニカル集団のバイアスを例示し、厳密な比較が生命科学及び精密医療の実現手段として極めて明白に必要であることを示す、2つの現実的な例を考える。これらの例は、生命科学におけるより大規模な問題の実例となることを理解されたい。
【0037】
例1:ワクチン研究におけるCD8+ T細胞
ワクチン接種後のCD8+ T細胞のハイパラメータサイトメトリ研究において、著者等は、分析及び結果をカノニカルCD8+ T細胞サブセットに限定した(Newell et.al.Cytometry by Time-of-Flight Shows Combinatorial Cytokine Expression and Virus-Specific Cell Niches within a Continuum of CD8+ T Cell Phenotypes Immunity,2012.)。本願発明者等は、このデータを更に分析したが、それにはまず、異なる6名の患者からのCD8+ T細胞データを連結した(例えば、組み合わせた)。その後、本願発明者等は、t-SNEを用いて25パラメータデータ空間を縮約した。
【0038】
異なる6名の患者の連結されたCD8+ T細胞データは、明らかに、異なる2つの免疫シグネチャを含んでいた。本願発明者等の実験では、6名の患者のうちの4名が、トラディショナルゲート(例えば、「カノニカル」集団)から外れた細胞タイプによって区別された。
【0039】
この、免疫シグネチャの差異は、現行の分析アプローチの限界を示している。精密医療の実施態様において、現行の枠組みは、患者の固有の免疫シグネチャ(例えば、CD8+ T細胞反応)を比較する厳密な方法を提供していない。このことは、現行の分析手法では患者間の差異を識別することがほとんど不可能である可能性を示唆している。そして、このことは、免疫シグネチャ全体を識別する能力を制限し、従って、精密医療の実施を妨げる。
【0040】
発見の実施態様においては、既存の枠組みは、ワクチンに対する全く異なる2つの反応を差別化しうる細胞サブセットを全て抽出する厳密な方法を提供していない。細胞タイプがカノンから外れて存在する可能性は、カノニカル集団にフォーカスすることが、公表された研究をいかに動かしうるかを示す。これは更に、患者を単純に2つのグループに分け、そこで何が異なるかを「データに問う」ツールが存在しないことを明確に示している。
【0041】
例2:がんにおける先天性リンパ系細胞及び組織特異的な免疫反応
ハイパラメータサイトメトリからの別の例では、本願発明者等は、異なる3つの器官(結腸、肝臓、及び肺)にある健康な組織と腫瘍の免疫反応を比較するメタ分析を実施した。
【0042】
特に、本願発明者等は、細胞の単一細胞シーケンシングにおいて同じ比較の問題を観測した。そこでは、本願発明者等は、別の細胞サブセットの一部に見える所与の色のデータ点によって表された、「可塑性」であるか、又はおそらくは別の細胞サブセットに分化する細胞を厳密に抽出したい。
【0043】
例えば、(60,000個のmRNA及びスプライス変異体のうちの)免疫細胞サブセット中の最も差別的に発現した遺伝子のうちの847個のt-SNE散乱プロットを考える。散乱プロットにおいては、フローサイトメトリにより「カノニカル」定義を使用して表現型を表す色が使用されてよい。847個の遺伝子は、クラスタを含むことがカノニカルフロー定義によって「予測」されない細胞を含んでよい。しかしながら、散乱プロットは、色によってのみ差別化される発現遺伝子を示す為、いかなる種類の厳密且つ自動的な様式でも、異なるこれらの細胞を取り出すことは、現時点では不可能である。これらの細胞は、潜在的に有意な差異が検出されないまま、カノニカルに分析された細胞の中に埋もれる可能性がある。
【0044】
従って、上述の例に示されるように、次元が災いのもとなのではなく、[R.E.Bellman;Rand Corporation(1957).Dynamic Programming.Princeton University Press.Republished:Richard Ernest Bellman(2003).Dynamic Programming.Courier Dover Publications.& Richard Ernest Bellman(1961).Adaptive Control Processes:a guided tour.Princeton University Press.]、拡大された表現型窓(そこでは各細胞サブセットが生物学的意味を有し、病気との相関を有しうるが、専門家によって見落とされるおそれがある)によって情報が不整合になり、その結果、既知の表現型が急減したり、他の細胞サブセットにほとんど注意が払われなかったりする。これは、サイトメトリの全レベルで大量のデータ(例えば、「標準の」10色アッセイ=1024個の可能な関心対象の表現型)が発見プロセスにおいて休眠状態になることにつながる。更に、試料同士を比較する方法がない場合、生物学者はいかにして、データ空間内で、例えば、実際に病気と相関があり、従って病気を差別化/促進する表現型に着目することになるのか?
【0045】
しかしながら、より多くのパラメータを収集して、この発見プロセスに携わることは、「多いほどよい」ことの実践ではなく、疾病率又は治療の有効性の関連要因を見つけることにおいて非常に重要である。ある研究者が、特定の免疫反応において重要な4つのパラメータ(「マーカ」と呼ばれる)の組み合わせで定義されるT-細胞のサブセットを探しているとする。使用するマーカの数が4未満の場合、その研究者は、他の無関係な細胞集団を分析に含め、それによって、関心対象の細胞を検出する能力が低くなる。使用するマーカの数が少ないほど、無関係な細胞ばかりが測定されるようになって「ノイズ」が増え、結果として、重要な細胞、即ち、防御と相関がある細胞の検出が減る。一般に、バルク測定を行うと、有意な関連性の発見が困難になる。しかしながら、防御の関連要因を見つけるのに必要なマーカのアプリオリな数は不明である。防御反応はほぼ確実に、複数の官能基のパターンを発現する細胞を含む。従って、本システムは、より多くの細胞のより多くのマーカを調べることにより、疾病率又は治療の有効性と相関がありうる細胞サブセットを識別することが可能である。記載の革新的な機能を用いることにより、病気において重要な、新しいサブセット及び予期しないサブセットが識別されることがある。
【0046】
従って、狭いフォーカス範囲を越えて、発見にフォーカスした研究に単一細胞技術を活用しようとする科学者等は、困難であり、非決定性であり、再現性のない道筋に直面する。
【0047】
当該技術分野には、このデータセットに対して発見分析を実行する為に使用可能な従来式ソリューションが幾つか存在する。1つは手動分析である。手動分析は、イベントデータの可視化プロットを精査することを含んでよい。別のソリューションは、KS分析、コックス分析、カイ二乗分析のような基礎統計を含んでよい。ただし、これは、敏感すぎることが判明する場合がある。更に、この統計は、ゲーティングの方法を提供せず、典型的には、一変量分析に限定される。
【0048】
別のソリューションは、生命情報科学者に頼ることを含んでよい。希なケースでは、研究者が生命情報科学者と手を組む。生命情報科学者は、特殊なスキルを活用してデータを分析することが可能である。
【0049】
別のアプローチは、多次元データの分析にフォーカスすることに役立つ縮約を行うことである。縮約の一例として、木可視化(SPADE、X-shift、flowSOM)又は進行推定(Wanderlust、Pseudotime)がある。しかしながら、これらの縮約は非決定性であり、何の比較機能も提供しない。上述のように、PCAは縮約の別の選択肢であるが、妥当性確認の懸念を伴う。別の選択肢としてt-SNEがあるが、このアプローチに関する問題について既に概説した。例えば、t-SNEデータ縮約処理では、ローデータからの情報が失われるが、可能な限り多くの「関連性」を保持しようとする。これらの手間にもかかわらず、t-SNEは、グローバル領域ではなくローカル領域において関連性を保持するようにデータを2次元にクランプし、それによって、潜在的に有意な差異を見落とす可能性が残る。
【0050】
従来式のアプローチは、幾つかの点が問題になりうる。当該技術分野では、試料間の大規模マルチパラメータデータセットの顕著な差異の意味ある識別及び可視化にコンピュータ技術を適用する方法に関する技術的改良が求められている。この問題の一ソリューションとして、頻度差ゲーティング(FDG)に基づく可視化の為の特徴について説明する。
【0051】
図1は、本明細書に記載の革新的なデータ処理及び可視化の手法をサポートする為に使用可能な一例示的コンピュータシステム100を示す。例示的コンピュータシステム100は、プロセッサ102、メモリ104、データベース106、及びディスプレイ108を含み、これらは、バス110などの相互接続技術を介して互いに通信することが可能である。
【0052】
プロセッサ102は、本明細書に記載の動作を実施することに適する任意のプロセッサの形態を取ってよい。例えば、ラップトップ又はワークステーションのCPUは、プロセッサ102として使用することに適するであろう。当然のことながら、プロセッサ102は複数のプロセッサを含んでよく、これには、ネットワークを介して互いに通信して本明細書に記載のタスクを実施する、分散した複数のプロセッサ(例えば、クラウドコンピューティング処理リソース)が含まれてよい。メモリ104は、本明細書に記載のタスクの実行においてプロセッサ102と協働することに適する任意のコンピュータメモリの形態を取ってよい。当然のことながら、メモリ104は、複数のメモリ装置の形態を取ってよく、これには、ネットワーク全体にわたって分散するメモリが含まれてよい。同様に、データベース106は、プロセッサ102からアクセス可能な任意のデータリポジトリ(例えば、コンピュータ上のファイルシステム、リレーショナルデータベース等)の形態を取ってよく、当然のことながら、データベース106は、分散した複数のデータベース(例えば、クラウドストレージ)の形態を取ってよい。ディスプレイ108は、本明細書に記載の可視化を生成できるコンピュータモニタ又はスクリーンの形態を取ってよい。
【0053】
本明細書に記載の特徴は、n次元データセットに適用可能であり、このデータセットは、試料データ112(例えば、細胞遺伝子発現データ又は他の粒子測定データ)の形態を取ってよい。細胞遺伝子発現データは、(例えば、他のシーケンシングアプローチのうちのRNAシーケンシング(RNASeq)及び単一細胞RNAシーケンシング(scRNA-Seq)の測定の為に)次世代シーケンシングによって生成されてよい。しかしながら、これは一例に過ぎず、他の、細胞遺伝子発現データ生成手法も用いられてよい。別の例として、デジタル液滴及び逆転写酵素を含むポリメラーゼ連鎖反応アプローチがある。更に別の例として、数ある中でも特に、フローサイトメトリによるRNA測定、並びにマイクロアレイがあり、これらは、DNA及び/又はRNAの定量化を含むデータファイルを生成するか、又はソフトウェアプログラムを通して、ロー読み取りデータを処理して(一次分析及び二次分析)、遺伝子発現データファイル若しくは他の生物学的マーカを生成する。
【0054】
試料データ112は大規模マルチパラメータデータセットとして特性化されることが可能であるが、このデータセットは、意味のある可視化を生成することの困難さに関して特別な技術的課題を提起しており、これは特に、生物学的関連情報が意味のあるものとしてユーザに対して視覚的に提示されるように基礎生物学に関して検討される場合が該当する。例えば、細胞遺伝子発現データは、多数の個別細胞及び細胞集団に関するデータを含んでよく、各細胞又は細胞集団に関するパラメータの数は10,000~60,000以上に達しうる。試料データ112は、分析及び可視化プログラム114の実行時に、データベース106にあるファイルから読み出され、プロセッサ102によって処理される複数のデータ構造116としてメモリ104にロードされてよい。分析及び可視化プログラム114は、非一時的コンピュータ可読記憶媒体(例えば、メモリ104)に記憶されている複数のプロセッサ実行可能命令の形態のプロセッサ実行可能コンピュータコードを含んでよい。
【0055】
図2Aは、細胞遺伝子発現データセットの例を示しており、各細胞(又は細胞集団)が、複数のパラメータに関連付けられた細胞IDで識別されており、各パラメータは、ID、及び細胞IDに関連する値を有する。示されているように、細胞の遺伝子発現データは高次元であり、各細胞に関するパラメータの数は、細胞当たり、又は細胞集団当たり、10,000~60,000以上に達する場合がある。細胞データ中のパラメータの例として、当該細胞の多数の遺伝子の遺伝子発現の数がある。従って、「細胞1」の「パラメータ1」は「遺伝子1」に対応してよく、その値は、「細胞1」における「遺伝子1」の発現数であってよい。同様に、「細胞1」の「パラメータ2」は「遺伝子2」に対応してよく、その値は、「細胞1」における「遺伝子2」の発現数であってよい。
【0056】
図2Bは、細胞遺伝子発現データ例を表形式で示す。表200の各行は別々の細胞に対応し(「細胞」列を参照)、「遺伝子1」、「遺伝子2」等のラベルが付けられた各列は別々の遺伝子に対応し、表の各セルは、各当該細胞の当該遺伝子の遺伝子発現数を示す。この表は、遺伝子以外のパラメータを含んでもよい。例えば、細胞遺伝子発現データ112は、t分布型確率的近傍埋め込み法(tSNE)、主成分分析(PCA)、線形判別分析(LDA)等のようなパラメータのデータ値を各表セルに含んでよく、これらのデータ値によって表される分析計算の値は、n個のパラメータ全体にわたって個別細胞間の差異を捕捉したものである。細胞遺伝子発現データ112は、幾つかのフォーマット(例えば、CSVファイル、データベース表(例えば、リレーショナルデータベースのリレーショナルデータとして)、スペアデータ表現、バイナリフォーマット等)のいずれで記憶されてもよい。
【0057】
図3は、頻度差ゲーティング及び可視化の方法の一例示的プロセスフローを示す。本方法は、全体又は一部が、記載された装置のうちの1つ以上によって実施されてよい。幾つかの実施態様では、分析及び可視化プログラム114は、図示されている方法の少なくとも一部を実施する命令を含んでよい。ブロック300~306は、試料データを分析の為に準備するオプションを示す。
【0058】
第1のオプションの場合、本システムは、試料の相互比較の為に、ブロック300において、連結されるべきファイルを受け取ってよい。例えば、第1のファイルは検査試料に相当してよく、第2のファイルは対照試料に相当してよい。各ファイルは多次元試料データ(例えば、
図2A及び2Bに示された細胞データ)に相当する。ファイルを受け取ることは、研究者のコンピュータからアップロードされたファイルを受け取ることを含んでよい。幾つかの実施態様では、ファイルは、フローサイトメータなどの粒子分析器から受け取られてよい。簡潔さの為に、ここでは2つのファイルを参照するが、連結は、3つ以上のファイルに基づいてもよい。
【0059】
ブロック300で、本システムは2つのファイルを連結する。ファイルを連結することは、ファイルからの試料データを含む表又は他のデータ構造に、エントリのソースを示す新しいパラメータを生成することを含んでよい。例えば、表が連結に使用される場合は、試料データのカテゴリを識別する列で、第1のファイル(検査試料)からのデータか、第2のファイル(対照試料)からのデータかが追加されてよい。
【0060】
ブロック302で、本システムは、ユーザ入力に応じて、連結されたファイルのサブセットを選択する。これは、インタフェースを使用して1つ又は複数のゲートを描くこと、又は、カテゴリ変数(例えば、病状)に基づいて試料及び/又は試料の結果のデータをサブセット化することであってよい。これらの値は、ユーザインタフェースから受け取られて、システムによって処理されて、適切なサブセットが識別されてよい。例えば、ユーザインタフェースに提示されたプロットにユーザがゲートを描いた場合は、ゲート内に含まれたイベントが、連結されたファイルのサブセットに関連付けられてよい。
【0061】
ブロック306で、本システムは、1つのファイルからの異なる2つの集団に対して、又は、比較するデータファイルを連結することによって構築されたサマリファイルに対して、データ縮約動作を実施する。いずれの場合も、データ縮約は、個別に実施されるのではなく、1セット/マトリックスのデータに対して実施される。データ縮約動作の一例として、t-SNEデータ縮約がある。実施可能なデータ縮約動作の別の例として、主成分分析(PCA)、線形判別分析(LDA)、及びローカル接線空間アライメント(LTSA)がある。データ縮約動作によって、第1及び第2のデータセットに関する新しいパラメータ(例えば、表200の各セルに関するtSNE値)が生成される。この時点で、多次元データは、後述のようにブロック308から始まる比較分析の為の準備が整う。データファイルが既にデータ縮約の結果であるパラメータを少なくとも有している場合には、ブロック306は実施不要である。
【0062】
第2のオプションの場合、ブロック304で、ユーザが1つの試料の中でゲート又は集団を識別する。これにより、ユーザは、(ブロック302~304のように試料を相互分析するのと異なり)単一細胞の中の様々な集団を比較分析することが可能になる。そして、ゲート/集団が識別された後に、ブロック306が実施可能になり、それによって、ブロック308から始まる比較分析の為の準備が整った多次元データが生成される。
【0063】
ブロック308で、プロセッサは、ユーザ入力に応じて、n次元データのうちのn個のサブセットを比較の為に選択する。一例として、nは2であってよく、これにより、サブセットA及びサブセットBが指定される。これらのサブセットは、頻度差ゲーティングによって比較評価される第1及び第2のデータセットに相当してよい。例えば、サブセット選択は、試料データが検査集団のものか対照集団のものか(例えば、がんの集団のものか健康の集団のものか)を識別するパラメータのようなカテゴリ変数に基づいて行われてよい。しかしながら、当然のこととして、これらのサブセットは、n次元データ中の任意のパラメータ(例えば、ブロック300で生成されたがん組織対健康組織パラメータ)に基づいて指定されてよい。
【0064】
次に、ブロック310で、プロセッサは、サブセットA及びBからn個のパラメータを選択して、サブセットA及びBを比較する為のベースを指定する。一例として、nは2であってよい。選択されたパラメータは、n次元データ中に存在するパラメータ、n次元データから導出されたパラメータ、及び/又は他のデータ縮約アプローチによって生成されたパラメータであってよい。分布は、様々な試料から得られてよく、更に、n個のパラメータを比較の為に共有する、同じ試料のサブセットからも得られてよい。
【0065】
次に、ブロック311で、プロセッサは、二変量頻度推定を生成する。これは、コンパレータ試料ごとに2次元ヒストグラムを計算することによって行われる。このヒストグラムは、イベント数で正規化され、必須ではないが通常は、可変幅カーネル平滑化を用いて平滑化される。これは、平滑化された輪郭又は擬似色プロットを生成する為に用いられるものと同じである。
【0066】
ブロック312で、プロセッサは、ヒストグラムの各要素(例えば、ビン)について、2つの差異ヒストグラムを計算する。正の値は、領域がより多くのイベントを第1のコンパレータに有することを示し、負の値は、領域がより多くのイベントを第2のコンパレータに有することを示す。
【0067】
次に、ブロック313で、差異ヒストグラムが両正規化される。この場合、より多くのイベントを第1のコンパレータに有する領域に対応する、0より大きい値が、(ヒストグラム中の最大差異が100になるように)0~100にスケール変更される。同様に、より多くのイベントを第2のコンパレータに有する領域に対応する、0より小さい値が、0~-100にスケール変更される(当然のことながら、複数の差異ヒストグラムが生成されて比較されるバッチ分析では、ユーザは、あらゆるヒストグラムに当てはまるグローバルな正負のスケール変更ファクタを選択することにより、比較可能性を高めることが可能である)。
【0068】
次に、ブロック314で、結果として得られたヒストグラムが(差異の程度に色をマッピングする)ヒートマップレンダラを使用して描かれるが、当然のことながら、これは、ディスプレイ装置で他の表示タイプを使用するレンダリングを含んでよい。ブロック314で、プロセッサは、二変量分布に従ってサブセットAとサブセットBの差異を視覚的に示す可視化を生成する。これは、当該技術分野における従来式のシステムでは利用できなかったマルチパラメータデータセットへの新たな見通しをユーザに提供する、新しい強力な可視化である。この可視化は、サブセットA及びBに対して選択された集団のオーバレイを提供する。このオーバレイは、サブセットBに対してサブセットAから最も高頻度で集まる領域(例えば、色1)及びサブセットAに対してサブセットBから最も高頻度で集まる領域(例えば、色2)を視覚的に示すように色分けされてよい。
【0069】
図4Aは、そのような可視化の一例を示す。
図4Aは、2つの試料(サブセットA:HD血液、サブセットB:患者の血液)をパラメータ空間(t-SNE P 1/2対t-SNE P 2/2)にオーバレイしたプロットを示す。指定の閾値に従って、サブセットBよりサブセットAのほうがイベントの頻度が高いことが頻度差ゲーティングによって明らかにされている、プロット中の領域(例えば、
図4Aの500)が第1の色/陰影(例えば、青)で示されており、指定の閾値に従って、サブセットAよりサブセットBのほうがイベントの頻度が高いことが頻度差ゲーティングによって明らかにされている、プロット中の領域(例えば、
図4Aの502)が第2の色/陰影(例えば、赤)で示されている。色分けは、可視化の参照符号504で示されるように、頻度差の大きさに応じて色付け/陰影付けの強度を変化させることが可能である。
【0070】
頻度差ゲーティングの指定の閾値は、固定閾値であってよく、調節可能な閾値であってもよい。例えば、可視化は、ユーザが入力510及び512で指定の閾値を調節することが可能なインタラクティブ可視化であってよい。
図4Aの例では、ユーザは、(サブセットBよりサブセットAにおいて高頻度である)高ゲート境界の閾値を入力510で指定することが可能である。具体的には、ゲーティング(サブセット選択)の為に、ユーザは、領域に含める差異値の範囲を入力する。例えば、0~100(最大)は、イベントが第1のコンパレータにおいてより高頻度である全ての領域を選択する。差異がより大きな領域を選択する場合は、より厳密な値が使用されてよい。
図4Aの例では、ユーザは、(サブセットAよりサブセットBにおいて高頻度である)低ゲート境界の閾値を入力512で指定することも可能である。しかしながら、これも当然のこととして、単一閾値が使用されてよく、その場合、ゲーティングは、「サブセットAにおいてより高頻度」か「サブセットBにおいてより高頻度」かの2値選択であるが、本願発明者等は、
図4Aに示されるような複数閾値が、データの生物学的特性についてのより深い見通しをもたらしうると確信している。
【0071】
ユーザは、この可視化に基づいて、
図3のブロック315で、提示された頻度差に基づいて、任意のゲートを作成するかどうかを選択してよい。ユーザは、「ゲートを作成」ボタン516を選択した後に、ユーザ入力領域514で、複数のゲートのうちのいずれをデータから作成できるかを確認することが可能である。領域514の選択肢は、(1)「上位ゲートを作成」、(2)「下位ゲートを作成」、及び(3)「中間範囲ゲートを作成」を含み、(1)「上位ゲートを作成」を選択すると、イベントが第1のコンパレータ(0~100)においてより高頻度である領域がゲーティングされ、差異がより大きな領域を選択する場合は、フィールド510で、より厳しい値を設定することが可能であり、(2)「下位ゲートを作成」を選択すると、イベントが第2のコンパレータ(0~-100)においてより高頻度である領域がゲーティングされ、差異がより大きな領域を選択する場合は、フィールド512で、より厳しい値を設定することが可能であり、(3)「中間範囲ゲートを作成」を選択すると、高ゲートからも低ゲートからも外れる領域がゲーティングされる。このように様々にゲーティングされる領域は、データに対する様々な見通しをユーザに提供しうる。これは、ある様式では互いに異なり(例えば、イベント頻度の高低)、又はある様式では互いに同じである領域がユーザにとって生物学的に興味深いものでありうる為である。
【0072】
図4Bは、可視化がいかにして、ユーザ入力に基づいてインタラクティブに調節されうるかの一例を示す。
図4Bでは、ユーザは、指定のゲーティングされた領域のみを表示するようにプロットを制御するオプションを選択しており、それは、この例では、イベントが、(100中の)20に等しい第1のコンパレータにおいてより高頻度であり、イベントが、(-100中の)-20に設定された第2のコンパレータにおいてより高頻度である、指定の上位ゲートである。これにより、
図4Bに示されるように色分け/陰影付けが行われた領域(例えば、500/502)が生成される。
【0073】
可視化に対するインタラクティブ制御の別の例は、感度制御及び特異性制御を含んでよい。各コンパレータが被験者のグループで構成される場合(例えば、第1のコンパレータがそれ自体、n人の被験者のサブセットで構成される場合)には、3つの統計(特異性、感度、p値)だけが計算される。そして、これらの統計は、各被験者におけるイベントのどのフラクションが選択済み領域に収まるかについて計算されてよい。これらは、感度及び特異性の計算に使用される。図示されていないが、P値が計算され、これは、グループ1の被験者対グループ2の被験者のゲートにおけるイベントのフラクションに対するスチューデントt-検定である。感度制御は、比較された集団におけるイベントのどのフラクションが、作成時のゲートに現れるかを調整することが可能であり、これは、
図4Cではスライダコントロール520として示されている。特異性制御は、ゲートにおけるイベントのどのフラクションが、比較された集団に由来するか(例えば、ゲートの「純度」)を調整することが可能であり、これは、
図4Cではスライダコントロール521として示されている。
【0074】
領域514及びボタン516でゲーティング選択肢が選択されると、本システムは、指定されたゲートに対応するデータセットを生成する(ブロック320)。そして、これらの指定されたゲートは、更にn個の試料の間の差異を全て探索する為に、クラスタ化又はサブセット化されてよい。更に、ゲートは、遺伝子のタンパク質の発現に関する、それらの他のパラメータに関して探索されてよく、これは、それらの集団を構成する細胞サブセットを識別する為である。作成されたゲートによって指定された、細胞/イベントのサブセットは、対照集団に付加されてよい。
【0075】
従って、当然のことながら、本明細書に記載の頻度差ゲーティング手法は、複雑な多変量分布を探索し、複数の測定値に基づいて試料間の差異を定量化する強力なツールをユーザに提供する。そのようなツールにより、ユーザは、当該技術分野の従来式システムでは利用できない大規模マルチパラメータセットに対する見通しを生成することが可能になる。例えば、頻度差ゲーティングにより、多変量空間において、試料間でイベントの頻度が統計的に有意に異なる領域を迅速に識別する、偏りのないツールが得られる。このように識別された領域は、幾つかの有用な用途のいずれかで使用されてよく、そのような用途として、(1)刺激に反応する細胞を識別すること、(2)病気に関連付けられた、表現型又は表現の差異を識別することがあるが、これらに限定されない。更に、頻度差ゲーティングは、他の試料に適用されて、「応答物」の数を定量化することが可能である。
【0076】
これら及び他の特徴を通して、本発明の例示的実施形態は、応用生命情報科学の技術分野に顕著な技術的進歩をもたらす。
【0077】
以下に具体的に明示する、本明細書で使用されている用語は以下の定義を有する。このセクションで特に定義されているわけでない、本明細書で使用されている用語は全て、本発明が帰属する当業者が共通に理解する意味を有する。
【0078】
本明細書では「システム」、「機器(instrument)」、「装置(apparatus)」、及び「装置(device)」は、概して、(例えば、機械的且つ電子的な)ハードウェアコンポーネントと、実施態様によっては、それに関連するソフトウェアコンポーネント(例えば、グラフィックス制御に特化されたコンピュータプログラム)と、の両方を包含する。
【0079】
本明細書では「イベント」は、概して、単一粒子(例えば、細胞又は合成粒子)から測定されたデータのパケットを意味する。典型的には、単一粒子から測定されたデータは多数のパラメータを含み、これらのパラメータには、1つ以上の光散乱パラメータと、粒子から検出された蛍光から導出された少なくとも1つのパラメータ又は特徴(例えば、蛍光強度)とが含まれる。従って、各イベントは測定値及び特徴のベクトルとして表され、測定されたパラメータ又は特徴のそれぞれは、データ空間の1つの次元に対応する。幾つかの実施形態では、単一粒子から測定されたデータは、画像データ、電気的データ、時間的データ、又は音響データを含んでよい。幾つかの生物学的応用では、イベントデータは、特定のタンパク質又は遺伝子の発現を示す定量的な生物学的データに対応しうる。
【0080】
本明細書では、粒子(例えば、細胞又は他の粒子)の「集団」又は「副集団」は、概して、測定されたパラメータデータがデータ空間内でクラスタを形成するように、1つ以上の測定されたパラメータに関する特性(例えば、光学特性、インピーダンス特性、又は時間特性)を有する粒子グループを意味する。従って、集団は、データ中のクラスタとして認識される。逆に、各データクラスタは、概して、特定タイプの細胞又は粒子の集団に相当するものとして解釈されるが、典型的には、ノイズ又はバックグラウンドに相当するクラスタも観測される。クラスタは、(例えば、測定されたパラメータのサブセットに関する)次元のサブセットにおいて定義されてよく、細胞又は粒子の測定値から抽出された、測定されたパラメータ又は特徴のサブセットだけが異なる集団に相当する。
【0081】
本明細書では「ゲート」は、概して、関心対象のデータのサブセットを識別する分級器境界を意味する。サイトメトリでは、ゲートは、特別の関心の対象のイベントのグループの境界となってよい。本明細書では「ゲーティング」は、概して、所与のデータセットに対して指定されたゲートを使用してデータを分類するプロセスを意味し、ゲートは、場合によってはブール論理を用いて結合された1つ以上の関心対象領域であってよい。
【0082】
本明細書では「イベント」は、概して、単一粒子(例えば、細胞又は合成粒子)から測定されたデータの組み合わせパケットを意味する。典型的には、単一粒子から測定されたデータは多数のパラメータ又は特徴を含み、これらのパラメータ又は特徴には、1つ以上の光散乱パラメータ又は特徴と、測定された蛍光から導出された少なくとも1つの他のパラメータ又は特徴とが含まれる。従って、各イベントは、パラメータ及び特徴の測定値のベクトルとして表され、測定されたパラメータ又は特徴のそれぞれは、データ空間の1つの次元に対応する。
【0083】
本明細書では「決定する(determine)」又は「決定する(determining)」という語句は、多種多様なアクションを包含する。例えば、「決定する(determining)」ことは、計算すること、演算すること、処理すること、導出すること、調査すること、ルックアップすること(例えば、表、データベース、又は別のデータ構造をルックアップすること)、確認すること等を包含しうる。更に、「決定する(determining)」ことは、受け取ること(例えば、情報を受け取ること)、アクセスすること(例えば、メモリ内のデータにアクセスすること)等を包含しうる。更に、「決定する(determining)」ことは、解決すること(resolving)、選択すること(selecting)、選択すること(choosing)、確定させること(establishing)等を包含しうる。
【0084】
本明細書では「提供する(provide)」又は「提供する(providing)」という用語は、多種多様なアクションを包含する。例えば、「提供する(providing)」ことは、値を、後で取り出す為の場所に格納すること、値をレシピエントに直接送信すること、値への参照を送信又は格納すること等を包含しうる。「提供する(providing)」ことは更に、エンコードすること、デコードすること、暗号化すること、復号すること、妥当性を検査すること、検証すること等を包含しうる。
【0085】
本明細書では「選択的に(selectively)」又は「選択的な(selective)」という語句は、多種多様なアクションを包含しうる。例えば、「選択的な(selective)」プロセスは、複数の選択肢から1つの選択肢を決定することを包含しうる。「選択的な(selective)」プロセスは、決定を行う為の、動的に決定された入力、事前設定された入力、又はユーザが起動した入力のうちの1つ以上を包含しうる。幾つかの実施態様では、選択機能を提供するn入力スイッチが含まれてよい(nは、選択を行う為に使用される入力の数である)。
【0086】
本明細書では「メッセージ」という用語は、情報を伝達(例えば、送信又は受信)する為の多種多様なフォーマットを包含する。メッセージは、XML文書、固定フィールドメッセージ、カンマ区切りメッセージ等のような、情報のマシン可読な集合を包含しうる。メッセージは、幾つかの実施態様では、情報の1つ以上の表現を送信する為に利用される信号を包含しうる。単数形として述べたが、当然のことながら、メッセージは、複数の部分がある形で構成、送信、記憶、受信等が行われてよい。
【0087】
本明細書では、アイテムのリスト「のうちの少なくとも1つ」を参照する語句は、単一メンバを含む、それらのアイテムの任意の組み合わせを意味する。一例として、「a、b、又はcのうちの少なくとも1つ」は、a、b、c、a~b、a~c、b~c、及びa~b~cを網羅するものとする。
【0088】
当業者であれば理解されるように、情報、メッセージ、及び信号は、多種多様な技術及び手法のうちの任意のものを用いて表現されてよい。例えば、上記説明の全体にわたって参照されてよいデータ、命令、コマンド、情報、信号、ビット、シンボル、及びチップは、電圧、電流、電磁波、磁界又は磁性粒子、光場又は光粒子、又はこれらの任意の組み合わせで表現されてよい。
【0089】
更に、当業者であれば理解されるように、本明細書に開示の実施形態に関連して説明された様々な例示的な論理ブロック、モジュール、回路、及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、又は両者の組み合わせとして実施されてよい。この、ハードウェア及びソフトウェアの互換性を明確に示す為に、ここまで、様々な例示的なコンポーネント、ブロック、モジュール、回路、及びステップが、主にそれらの機能性の観点から説明されてきた。そのような機能性がハードウェアとして実施されるか、ソフトウェアとして実施されるかは、システム全体に課せられた特定の、用途及び設計の制約に依存する。当業者であれば、特定の用途ごとに様々な方式で記載の機能性を実施することが可能であるが、そのような実施の決定は、本発明の範囲からの逸脱を引き起こすものと解釈されるべきではない。
【0090】
本明細書に記載の手法は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせで実施されてよい。そのような手法は、特別にプログラムされたイベント処理コンポーネント、無線通信装置、又は集積回路装置などの様々な装置のいずれにおいて実施されてもよい。モジュール又はコンポーネントとして記載された任意の複数の特徴が、集積論理装置で一緒に実施されてよく、或いは、別個であるが相互運用可能な複数の論理装置として別個に実施されてよい。これらの手法は、ソフトウェアの形で実施される場合は、少なくとも部分的には、実行されると、上述の方法のうちの1つ以上を実施する命令を含むプログラムコードを含むコンピュータ可読なデータ記憶媒体によって実現されてよい。コンピュータ可読なデータ記憶媒体は、包装材を含んでよい、コンピュータプログラム製品の一部を成してよい。コンピュータ可読媒体は、メモリ又はデータ記憶媒体を含んでよく、例えば、ランダムアクセスメモリ(RAM)(例えば、同期式動的ランダムアクセスメモリ(SDRAM))、読み出し専用メモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、電気的消去可能プログラム可能読み出し専用メモリ(EEPROM)、フラッシュメモリ、磁気式又は光学式データ記憶媒体等を含んでよい。コンピュータ可読媒体は、非一時的記憶媒体であってよい。追加又は代替として、これらの手法は、少なくとも一部が、プログラムコードを命令又はデータ構造の形態で搬送又は伝達し、コンピュータ装置によるアクセス、読み出し、及び/又は実行が可能である、コンピュータ可読な通信媒体(例えば、伝搬信号又は伝搬波)によって実現されてよい。
【0091】
プログラムコードは、特にプログラムされたグラフィックスプロセッサによって実行されてよく、このグラフィックスプロセッサは1つ以上のプロセッサを含んでよく、例えば、1つ以上のデジタル信号プロセッサ(DSP)、構成可能なマイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又は他の等価な集積論理回路又はディスクリート論理回路を含んでよい。そのようなグラフィックスプロセッサは、本開示に記載の手法のいずれかを実施するように特別に構成されてよい。コンピュータ装置の組み合わせ、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、1つ以上のマイクロプロセッサとDSPコアとの組み合わせ、又は他の任意のそのような、少なくとも部分データ接続性における構成が、記載の特徴のうちの1つ以上を実施してよい。従って、本明細書では「プロセッサ」という用語は、上述の構造のいずれか、又は上述の構造の任意の組み合わせ、又は他の任意の、本明細書に記載の手法の実施に適する構造又は装置を意味してよい。更に、態様によっては、本明細書に記載の機能性は、エンコード及びデコード用として構成された専用ソフトウェアモジュール又はハードウェアモジュールの中で提供されてよく、或いは、特殊化されたグラフィックコントロールカードに組み込まれてよい。
【0092】
本明細書に開示の方法は、記載の方法を達成する為の1つ以上のステップ又はアクションを含む。これらの方法ステップ及び/又はアクションは、特許請求項の範囲から逸脱しない限り、互いに入れ替え可能である。言い換えると、ステップ又はアクションの順序が特に指定されない限り、個々のステップ及び/又はアクションの順序及び/又は使用は、特許請求項の範囲から逸脱しない限り、変更可能である。
【0093】
本発明の様々な実施形態を説明してきた。これら及び他の実施形態は、以下の特許請求項の範囲内にある。