(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-13
(54)【発明の名称】生物学的疾患及び障害の動的ラマンプロファイリングのためのシステム及び方法
(51)【国際特許分類】
G16H 50/20 20180101AFI20231206BHJP
G01N 21/65 20060101ALI20231206BHJP
【FI】
G16H50/20
G01N21/65
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023533674
(86)(22)【出願日】2021-12-03
(85)【翻訳文提出日】2023-07-13
(86)【国際出願番号】 US2021061885
(87)【国際公開番号】W WO2022120225
(87)【国際公開日】2022-06-09
(32)【優先日】2020-12-04
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】513321467
【氏名又は名称】アイカーン スクール オブ メディシン アット マウント サイナイ
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】アローラ,マニッシュ
(72)【発明者】
【氏名】カーティン,ポール
(72)【発明者】
【氏名】オースティン,クリスティン
【テーマコード(参考)】
2G043
5L099
【Fターム(参考)】
2G043AA03
2G043AA06
2G043BA16
2G043CA05
2G043EA03
2G043EA10
2G043FA02
2G043JA01
2G043KA01
2G043KA02
2G043NA05
5L099AA04
(57)【要約】
本開示は、疾患又は障害に関する対象の診断状態を予測するための方法及びシステムを提供する。この方法は、対象の生物学的試料をレーザに曝露することと、曝露された生物学的試料から複数のラマンスペクトルを取得することと、複数のラマンスペクトルを処理して、複数のラマンスペクトルの空間マップを生成することと、複数のラマンスペクトルの空間マップに少なくとも部分的に基づいて、疾患又は障害に関する対象の診断状態を予測することと、を含み得る。分析することは、基礎となる生物学的プロセスの時間的ダイナミクスを判定することを含み得る。
【選択図】
図3
【特許請求の範囲】
【請求項1】
疾患又は障害に関する対象の診断状態を予測するための方法であって、
(a)対象の生物学的試料を光源に曝露することと、
(b)前記生物学的試料から複数のラマンスペクトルを取得することと、
(c)前記複数のラマンスペクトルを処理して、前記複数のラマンスペクトルの空間マップを生成することと、
(d)前記複数のラマンスペクトルの前記空間マップに少なくとも部分的に基づいて、前記疾患又は障害に関する前記対象の診断状態を予測することと、を含む、方法。
【請求項2】
前記生物学的試料が、歯試料、毛髪試料、爪試料、又はそれらの任意の組み合わせを含む、請求項1に記載の方法。
【請求項3】
前記対象の時間的反応を示す前記空間マップの時間ストレスプロファイルの変化を検出又は監視することを更に含む、請求項1又は2に記載の方法。
【請求項4】
前記時間的反応が、生物学的反応、生理学的反応、解剖学的反応、治療反応、ストレス関連反応、又はそれらの組み合わせの反応を含む、請求項3に記載の方法。
【請求項5】
前記複数のラマンスペクトルが、約200~約3700の波数を含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
取得することが、ラマン分光顕微鏡を使用することを含む、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記ラマン分光顕微鏡が、50倍の空中結合対物レンズ、63倍の水浸結合対物レンズ、又はそれらの任意の組み合わせを含む、請求項6に記載の方法。
【請求項8】
前記光源が、レーザを含み、前記レーザが、約785nmの波長、約532nmの波長、又はそれらの任意の組み合わせを含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記取得することが、約0.2秒~約0.3秒の積分時間を使用して行われる、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記取得することが、前記複数のラマンスペクトルのうちのラマンスペクトルを取得した後、約2ミクロン~約5ミクロンのステップサイズを伴って前記生物学的試料を移動させることを含む、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記疾患又は障害が、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎臓病、腎移植拒絶反応、小児がん、又はこれらの任意の組み合わせを含む、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記疾患又は障害が、ASDを含む、請求項1~10のいずれか一項に記載の方法。
【請求項13】
前記疾患又は障害に関する前記対象の診断状態を予測することが、訓練されたモデルを使用して、前記空間マップを処理することを含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記訓練されたモデルが、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、勾配ブーストアルゴリズム、及びそれらの任意の組み合わせからなる群から選択される、請求項13に記載の方法。
【請求項15】
前記訓練されたモデルが、勾配ブーストされたアンサンブルモデルを含む、請求項13に記載の方法。
【請求項16】
前記訓練されたモデルが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、1つ以上の特徴を処理するように構成される、請求項13に記載の方法。
【請求項17】
前記訓練されたモデルが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、2つ以上の特徴を処理するように構成される、請求項16に記載の方法。
【請求項18】
前記訓練されたモデルが、少なくとも約80%の感度を伴って前記疾患又は障害に関する診断状態を予測する、請求項1~17のいずれか一項に記載の方法。
【請求項19】
前記訓練されたモデルが、少なくとも約80%の特異性を伴って前記疾患又は障害に関する診断状態を予測する、請求項1に記載の方法。
【請求項20】
前記訓練されたモデルが、少なくとも約80%の陽性予測値を伴って前記疾患又は障害に関する診断状態を予測する、請求項1に記載の方法。
【請求項21】
前記訓練されたモデルが、少なくとも約80%の陰性予測値を伴って前記疾患又は障害に関する診断状態を予測する、請求項1に記載の方法。
【請求項22】
前記訓練されたモデルが、少なくとも約0.80の受信者動作特性曲線下面積(AUROC)を伴って前記疾患又は前記障害に関する診断状態を予測する、請求項1に記載の方法。
【請求項23】
1つ以上のプロセッサと、前記1つ以上のプロセッサによる実行のための1つ以上のプログラムを記憶するメモリと、を備えるデバイスであって、前記1つ以上のプログラムが、
(a)対象のラマンシグネチャに関連付けられる前記対象の生物学的試料上の基準線に沿った複数の位置における各それぞれの位置をサンプリングし、それによって、複数のラマンスペクトルを取得することであって、前記複数のラマンスペクトルにおける各ラマンスペクトルが、前記複数の位置における異なる位置に対応し、前記複数の位置における各位置が、前記ラマンシグネチャに関連付けられる前記生物学的試料の異なる成長期間を表す、サンプリングすることと、
(b)前記生物学的試料上の基準線全体にわたって前記複数のラマンスペクトルの各々を分析し、それによって、第1のデータセットを取得することと、
(c)前記対応する複数の前記ラマンスペクトル測定値からそれぞれの第2のデータセットを導出することであって、前記特徴の対応するセットにおける各それぞれの特徴が、前記ラマンスペクトルにおける連続した変動によって判定される、導出することと、
(d)訓練されたモデルを使用して前記特徴を処理して、前記ラマンシグネチャに関連付けられる疾患又は障害に関する対象の診断状態を予測することと、を行うための命令を含む、デバイス。
【請求項24】
前記生物学的試料が、歯試料、毛髪試料、爪試料、又はそれらの任意の組み合わせを含む、請求項23に記載のデバイス。
【請求項25】
前記命令が、前記対象の時間的反応を示す前記複数の位置にわたる前記ラマンスペクトルの変化を検出又は監視することを更に含む、請求項23又は24に記載のデバイス。
【請求項26】
前記時間的反応が、生物学的反応、生理学的反応、解剖学的反応、治療反応、ストレス関連反応、又はそれらの組み合わせの反応を含む、請求項25に記載のデバイス。
【請求項27】
前記複数のラマンスペクトルが、約200~約3700の波数を含む、請求項23~26のいずれか一項に記載のデバイス。
【請求項28】
サンプリングが、ラマン分光顕微鏡を使用することを含む、請求項23~27のいずれか一項に記載のデバイス。
【請求項29】
前記ラマン分光顕微鏡が、50倍の空中結合対物レンズ、63倍の水浸結合対物レンズ、又はそれらの任意の組み合わせを含む、請求項28に記載のデバイス。
【請求項30】
前記サンプリングが、前記生物学的試料を光源に曝露して、前記複数の位置において前記複数のラマンスペクトルの前記ラマンスペクトルを生成することを含む、請求項23に記載のデバイス。
【請求項31】
前記光源が、レーザを含み、前記レーザが、約785nmの波長、約532nmの波長、又はそれらの任意の組み合わせを含む、請求項30に記載のデバイス。
【請求項32】
前記命令が、平行移動を更に含み、平行移動が、前記複数のラマンスペクトルのうちのラマンスペクトルを取得した後、前記生物学的試料を約2ミクロン~約5ミクロンのステップサイズを伴って前記複数の位置のうちの第1の位置から第2の位置に移動させることを含む、請求項23~31のいずれか一項に記載のデバイス。
【請求項33】
前記平行移動が、約0.2秒~約0.3秒の積分時間を使用して実行される、請求項32に記載のデバイス。
【請求項34】
前記疾患又は障害が、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎疾患、腎移植拒絶反応、小児がん、又はこれらの任意の組み合わせを含む、請求項23~33のいずれか一項に記載のデバイス。
【請求項35】
前記疾患又は障害が、自閉症スペクトラム障害(ASD)を含む、請求項23~33のいずれか一項に記載のデバイス。
【請求項36】
前記疾患又は障害に関する対象の診断状態を予測することが、訓練されたモデルを用いて前記複数の位置にわたる前記ラマンスペクトルにおける変化を処理することを含む、請求項23~35のいずれか一項に記載のデバイス。
【請求項37】
前記訓練されたモデルが、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、勾配ブーストアルゴリズム、及びそれらの任意の組み合わせからなる群から選択される、請求項36に記載のデバイス。
【請求項38】
前記訓練されたモデルが、勾配ブーストされたアンサンブルモデルを含む、請求項36に記載のデバイス。
【請求項39】
前記訓練されたモデルが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、1つ以上の特徴を処理するように構成される、請求項36に記載のデバイス。
【請求項40】
前記訓練されたモデルが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、2つ以上の特徴を処理するように構成される、請求項36に記載のデバイス。
【請求項41】
前記訓練されたモデルが、少なくとも約80%の感度を伴って前記疾患又は障害に関する診断状態を予測する、請求項23に記載のデバイス。
【請求項42】
前記訓練されたモデルが、少なくとも約80%の特異性を伴って前記疾患又は障害に関する診断状態を予測する、請求項23に記載のデバイス。
【請求項43】
前記訓練されたモデルが、少なくとも約80%の陽性予測値を伴って前記疾患又は障害に関する診断状態を予測する、請求項23に記載のデバイス。
【請求項44】
前記訓練されたモデルが、少なくとも約80%の陰性予測値を伴って前記疾患又は障害に関する診断状態を予測する、請求項23に記載のデバイス。
【請求項45】
前記訓練されたモデルが、少なくとも約0.80の受信者動作特性曲線下面積(AUROC)を伴って前記疾患又は障害に関する診断状態を予測する、請求項23に記載のデバイス。
【請求項46】
非一時的コンピュータ可読記憶媒体及び非一時的コンピュータ可読記憶媒体に埋め込まれた1つ以上のコンピュータプログラムであって、前記1つ以上のコンピュータプログラムが、コンピュータシステムによって実行されると、前記コンピュータシステムに、
(a)対象のラマンシグネチャに関連付けられる前記対象の生物学的試料上の基準線に沿った複数の位置における各それぞれの位置をサンプリングし、それによって、複数のラマンスペクトルを取得することであって、前記複数のラマンスペクトルにおける各ラマンスペクトルが、前記複数の位置における異なる位置に対応し、前記複数の位置における各位置が、前記ラマンシグネチャに関連付けられる前記生物学的試料の異なる成長期間を表す、サンプリングすることと、
(b)前記生物学的試料上の基準線全体にわたって前記複数のラマンスペクトルの各々を分析し、それによって、第1のデータセットを取得することと、
(c)前記対応する複数の前記ラマンスペクトル測定値からそれぞれの第2のデータセットを導出することであって、前記特徴の対応するセットにおける各それぞれの特徴が、前記ラマンスペクトルにおける連続した変動によって判定される、導出することと、
(d)訓練されたモデルを使用して前記特徴を処理して、前記ラマンシグネチャに関連付けられる疾患又は障害に関する対象の診断状態を予測することと、を含む、方法を実行させる、非一時的コンピュータ可読記憶媒体。
【請求項47】
前記生物学的試料が、歯試料、毛髪試料、爪試料、又はそれらの任意の組み合わせを含む、請求項46に記載の非一時的コンピュータ可読記憶媒体。
【請求項48】
前記方法が、前記対象の時間的反応を示す前記複数の位置にわたる前記ラマンスペクトルの変化を検出又は監視することを更に含む、請求項46又は47に記載の非一時的コンピュータ可読記憶媒体。
【請求項49】
前記時間的反応が、生物学的反応、生理学的反応、解剖学的反応、治療反応、ストレス関連反応、又はそれらの組み合わせの反応を含む、請求項48に記載の非一時的コンピュータ可読記憶媒体。
【請求項50】
前記複数のラマンスペクトルが、約200~約3700の波数を含む、請求項46~49のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項51】
サンプリングが、ラマン分光顕微鏡を使用することを含む、請求項46~50のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項52】
前記ラマン分光顕微鏡が、50倍の空中結合対物レンズ、63倍の水浸結合対物レンズ、又はそれらの任意の組み合わせを含む、請求項51に記載の非一時的コンピュータ可読記憶媒体。
【請求項53】
サンプリングが、前記生物学的試料を光源に曝露して、前記複数の位置において前記複数のラマンスペクトルの前記ラマンスペクトルを生成することを含む、請求項46~52のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項54】
前記光源が、レーザを含み、前記レーザが、約785nmの波長、約532nmの波長、又はそれらの任意の組み合わせを含む、請求項53に記載の非一時的コンピュータ可読記憶媒体。
【請求項55】
前記命令が、平行移動を更に含み、平行移動が、前記複数のラマンスペクトルのうちのラマンスペクトルを取得した後、前記生物学的試料を約2ミクロン~約5ミクロンのステップサイズを伴って前記複数の位置のうちの第1の位置から第2の位置まで移動させることを含む、請求項46~54のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項56】
平行移動が、約0.2秒~約0.3秒の積分時間を使用して実行される、請求項55に記載の非一時的コンピュータ可読記憶媒体。
【請求項57】
前記疾患又は障害が、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎臓病、腎臓移植拒絶反応、小児がん、又はこれらの任意の組み合わせを含む、請求項46~56のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項58】
前記疾患又は障害が、自閉症スペクトラム障害(ASD)を含む、請求項46~56のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項59】
前記疾患又は障害に関する対象の診断状態を予測することが、訓練されたモデルを用いて前記複数の位置にわたる前記ラマンスペクトルにおける変化を処理することを含む、請求項46~58のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項60】
前記訓練されたモデルが、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、勾配ブーストアルゴリズム、及びそれらの任意の組み合わせからなる群から選択される、請求項59に記載の非一時的コンピュータ可読記憶媒体。
【請求項61】
前記訓練されたモデルが、勾配ブーストされたアンサンブルモデルを含む、請求項59に記載の非一時的コンピュータ可読記憶媒体。
【請求項62】
前記訓練されたモデルが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、1つ以上の特徴を処理するように構成される、請求項59に記載の非一時的コンピュータ可読記憶媒体。
【請求項63】
前記訓練されたモデルが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、2つ以上の特徴を処理するように構成される、請求項59に記載の非一時的コンピュータ可読記憶媒体。
【請求項64】
前記訓練されたモデルが、少なくとも約80%の感度を伴って前記疾患又は障害に関する診断状態を予測する、請求項46に記載の非一時的コンピュータ可読記憶媒体。
【請求項65】
前記訓練されたモデルが、少なくとも約80%の特異性を伴って前記疾患又は障害に関する診断状態を予測する、請求項46に記載の非一時的コンピュータ可読記憶媒体。
【請求項66】
前記命令が、少なくとも約80%の陽性予測値を伴って前記疾患又は障害に関する対象の診断状態を予測することを更に含む、請求項46に記載の非一時的コンピュータ可読記憶媒体。
【請求項67】
前記訓練されたモデルが、少なくとも約80%の陽性予測値を伴って前記疾患又は障害に関する診断状態を予測する、請求項46に記載の非一時的コンピュータ可読記憶媒体。
【請求項68】
前記訓練されたモデルが、少なくとも約80%の陰性予測値を伴って前記疾患又は障害に関する診断状態を予測する、請求項46に記載の非一時的コンピュータ可読記憶媒体。
【請求項69】
モデルを訓練するための方法であって、
1つ以上のプロセッサと、前記1つ以上のプロセッサによって実行するための1つ以上のプログラムを記憶するメモリと、を有するコンピュータシステムにおいて、
(a)複数の訓練対象における訓練対象の第1のサブセットが、ラマンシグネチャに関連付けられる第1の生物学的状態を有することに対応する第1の診断状態を有し、前記複数の訓練対象における訓練対象の第2のサブセットが、前記ラマンシグネチャに関連付けられる前記第1の生物学的状態を有しないことに対応する第2の診断状態を有する、前記複数の訓練対象における各それぞれの訓練対象について、
(i)前記対象の前記ラマンシグネチャに関連付けられる前記対象の生物学的試料上の基準線に沿った複数の位置における各それぞれの位置をサンプリングし、それによって、複数のラマンスペクトルを取得することであって、前記複数のラマンスペクトルにおける各ラマンスペクトルが、前記複数の位置における異なる位置に対応し、前記複数の位置における各位置が、前記ラマンシグネチャに関連付けられる前記対象の前記生物学的試料の異なる成長期間を表す、サンプリングすることと、
(ii)生物学的試料上の基準線全体にわたって各ラマンスペクトルを分析し、それによって、第1のデータセットを取得することと、
(iii)前記対応する複数のラマンスペクトルからそれぞれの第2のデータセットを導出することであって、前記特徴の対応するセットにおける各それぞれの特徴が、ラマンスペクトルにおける連続した変動によって判定される、導出することと、
(b)(i)前記複数の訓練対象における各訓練対象の各それぞれの第2のデータセットの前記特徴の対応するセットと、(ii)前記第1の診断状態及び前記第2の診断状態の中から選択される、前記複数の訓練対象における各訓練対象の前記対応する診断状態と、を用いて、訓練されていないか又は部分的に訓練されていないモデルを訓練し、それによって、試験対象の前記ラマンシグネチャに関連付けられる生物学的試料から取得された特徴のセットにおける特徴の値に基づいて、前記試験対象が前記ラマンシグネチャに関連付けられる前記第1の生物学的状態を有するかどうかに関する指標を提供する訓練されたモデルを取得することと、を含む、方法。
【請求項70】
前記訓練されたモデルが、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、勾配ブーストアルゴリズム、及びそれらの任意の組み合わせからなる群から選択される、請求項69に記載の方法。
【請求項71】
前記訓練されたモデルが、多項分類器である、請求項69に記載の方法。
【請求項72】
前記訓練されたモデルが、二項分類器である、請求項69に記載の方法。
【請求項73】
前記第1の生物学的状態が、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎臓病、腎臓移植拒絶反応、及び小児がんからなる群から選択される、請求項69に記載の方法。
【請求項74】
ラマンシグネチャに関連付けられた前記第1の生物学的状態について前記試験対象を評価することが、更に、前記ラマンシグネチャに関連付けられる前記第1の生物学的状態と、前記ラマンシグネチャに関連付けられる前記第1の生物学的状態とは異なる、前記ラマンシグネチャに関連付けられる第2の生物学的状態とを区別することを含む、請求項69~73のいずれか一項に記載の方法。
【請求項75】
前記第1の生物学的状態が、自閉症スペクトラム障害であり、前記第2の生物学的状態が、注意欠陥/多動性障害である、請求項74に記載の方法。
【請求項76】
前記試験対象が、ヒトである、請求項69~75のいずれか一項に記載の方法。
【請求項77】
前記ヒトが、12歳未満である、請求項76に記載の方法。
【請求項78】
前記対象が、1歳未満である、請求項76に記載の方法。
【請求項79】
前記それぞれの訓練対象の前記ラマンシグネチャに関連付けられる前記対応する生物学的試料が、毛幹、歯、及び爪からなる群から選択される、請求項69~78のいずれか一項に記載の方法。
【請求項80】
前記それぞれの訓練対象の前記ラマンシグネチャに関連付けられる前記対応する生物学的試料が、前記毛幹であり、前記基準線が、前記毛幹の長手方向に対応する、請求項79に記載の方法。
【請求項81】
前記それぞれの訓練対象の前記ラマンシグネチャに関連付けられる前記対応する生物学的試料が、前記歯であり、前記基準線が、前記歯の新生児線を含む、成長帯を横切る方向に対応する、請求項79に記載の方法。
【請求項82】
前記それぞれの訓練対象の前記対応する生物学的試料に沿った前記対応する複数の位置における第1の位置が、前記それぞれの訓練対象の前記対応する生物学的試料の先端に最も近い位置に対応するように、前記対応する複数の位置が配列される、請求項69~81のいずれか一項に記載の方法。
【請求項83】
前記対応する複数のラマンスペクトル測定値における各トレースが、複数のデータポイントを含み、各データポイントが、前記複数の位置における前記それぞれの位置のインスタンスである、請求項69~82のいずれか一項に記載の方法。
【請求項84】
前記特徴の対応するセットが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmaxからなる群から選択される、請求項69~83のいずれか一項に記載の方法。
【請求項85】
前記対応する複数の位置が、少なくとも1000、1500、2000、2500、3000、3500、4000、4500、又は5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000、又は10000を超える位置を含む、請求項69~83のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本出願は、2020年12月4日に出願された米国特許出願第63/121,800号の利益を主張するものであり、当該特許出願は、参照により本明細書に組み込まれる。
【背景技術】
【0002】
動的な生物学的反応は、ヒトにとって構造的及び機能的に重要な基本的な生物学的プロセスを示し得る。例えば、異常な動的生物学的反応は、疾患及び障害などの多くの生物学的状態と関連し得る。かかる生物学的状態の例としては、神経学的状態(例えば、自閉症スペクトラム障害、統合失調症、又は注意欠陥/多動性障害(ADHD))、神経変性状態(例えば、筋萎縮性側索硬化症(ALS)、アルツハイマー病、パーキンソン病、及びハンチントン病)、並びにがん(例えば、小児がん)が挙げられ得る。
【発明の概要】
【0003】
上記の背景を考えると、生物学的状態の診断、特に非侵襲的診断のための正確な方法及びシステムの必要性が存在する。そのような診断は、生物学的状態の診断のための非侵襲的方法によって検出可能なバイオマーカーの正確なプロファイリングに基づくことができる。本開示は、対象から非侵襲的に得られた生物学的試料からの動的生物学的反応データの分析に基づいて、生物学的状態を正確に診断するための改良されたシステム及び方法を提供する。生物学的状態の正確な診断のためのそのような改善されたシステム及び方法は、生物学的試料のラマンプロファイリングと、人工知能データ分析との組み合わせに基づいてもよい。本開示は、例えば、生物学的状態の診断のための生物学的試料バイオマーカーを提供することによって、これらのニーズに対処する。生物学的試料は、増分成長に関連付けられるヒト生物学的試料を含む。そのような生物学的試料は、毛幹、歯、及び爪であり得る。本開示の非侵襲的バイオマーカーは、幼児、場合によっては、1歳未満の乳児の診断に使用することができる。
【0004】
一態様では、本開示は、対象の疾患又は障害に関する対象の診断状態を予測するための方法であって、(a)対象の生物学的試料を光源に曝露することであって、生物学的試料が、歯試料、毛髪試料、又は爪試料を含む、曝露することと、(b)曝露された生物学的試料から複数のラマンスペクトルを取得することと、(c)複数のラマンスペクトルを処理して、複数のラマンスペクトルの空間マップを生成することと、(d)複数のラマンスペクトルの空間マップに少なくとも部分的に基づいて、疾患又は障害に関する対象の診断状態を予測することと、を含む、方法を提供する。いくつかの実施形態では、光源は、レーザを備える。
【0005】
いくつかの実施形態では、分析することは、基礎的な生物学的プロセスの時間的ダイナミクスを判定する。いくつかの実施形態では、分析することは、処理前に複数のラマンスペクトルの次元を(例えば、独立成分分析によって)低減させることを含む。いくつかの実施形態では、光信号は、光源(例えば、レーザ)によって生成される。いくつかの実施形態では、生物学的試料は、歯試料を含む。いくつかの実施形態では、本方法は、対象の時間的反応を示す時間的ストレスプロファイルの変化を検出又は監視することを更に含む。いくつかの実施形態では、時間的反応は生化学的反応を含む。いくつかの実施形態では、時間的反応は、生物学的反応、生理学的反応、解剖学的反応、治療反応、ストレス関連反応、又はそれらの組み合わせを含む。いくつかの実施形態では、複数のラマンスペクトルは、約200~約3700の波数を含む。いくつかの実施形態では、取得することは、ラマン分光顕微鏡を使用することを含む。いくつかの実施形態では、ラマン分光顕微鏡は、50倍の空中結合対物レンズ、63倍の水浸結合対物レンズ、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、レーザは、約785nmの波長、約532nmの波長、又はこれらの任意の組み合わせを含む。いくつかの実施形態では、取得することは、約0.2秒~約0.3秒の積分時間を使用して行われる。いくつかの実施形態では、取得することは、複数のラマンスペクトルのうちのラマンスペクトルを取得した後に、生物学的試料を約2ミクロン~約5ミクロンのステップサイズを伴って移動させることを含む。
【0006】
いくつかの実施形態では、疾患又は障害は、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎疾患、腎移植拒絶反応、小児がん又はそれらの任意の組み合わせを含む。いくつかの実施形態では、疾患又は障害は、ASDである。いくつかの実施形態では、対象は、ヒトである。いくつかの実施形態では、対象は、成人である。いくつかの実施形態では、対象は約12歳~約5歳である。いくつかの実施形態では、ヒトは、約12、11、10、9、8、7、5、4、3、2、又は1歳未満である。いくつかの実施形態では、ヒトは、少なくとも約1、2、3、4、5、6、7、8、9、10、11、又は12歳である。いくつかの実施形態では、時間ラマンプロファイルの少なくとも一部分は、対象の出生前期間に対応する。
【0007】
いくつかの実施形態では、疾患又は障害に関する対象の診断状態を予測することは、訓練されたモデルを使用して空間マップを処理することを含む。いくつかの実施形態では、処理することは、(例えば、再発定量分析によって)空間マップから特徴を抽出することと、訓練されたモデルを使用して特徴を分析することと、を含む。いくつかの実施形態では、処理することは、例えば、独立成分分析(ICA)及び/又は主成分分析(PCA)を含む次元低減技術を適用し、それに続いて、再発定量分析(RQA)を適用して、ICA/PCAから導出される次元を記述する計算特徴を抽出することによって、空間マップから導出される時間的ダイナミクスの計算分析を含む。いくつかの実施形態では、訓練されたモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、勾配ブーストアルゴリズム(例えば、勾配ブーストされた決定木などの機械学習アルゴリズムの勾配ブースト実装形態)、及びそれらの任意の組み合わせからなる群から選択される。いくつかの実施形態では、訓練されたモデルは、勾配ブーストされたアンサンブルモデルを含む。いくつかの実施形態では、訓練されたモデルは、再発率、決定論、平均対角線長、最大対角線長、発散、対角線長におけるシャノンエントロピー、再発の傾向、層状性、トラッピング時間、最大垂直線長、垂直線長におけるシャノンエントロピー、平均再発時間、再発時間におけるシャノンエントロピー、最も可能性の高い再発の回数、及び/又はそれらの任意の組み合わせからなる群から選択される、1つ以上の特徴を処理するように構成される。いくつかの実施形態では、訓練されたモデルは、再発率、決定論、平均対角線長、最大対角線長、発散、対角線長におけるシャノンエントロピー、再発の傾向、層状性、トラッピング時間、最大垂直線長、垂直線長におけるシャノンエントロピー、平均再発時間、再発時間におけるシャノンエントロピー、最も可能性の高い再発の回数、及び/又はそれらの任意の組み合わせからなる群から選択される、2つ以上の特徴を処理するように構成される。
【0008】
いくつかの実施形態では、方法は、好適なコホート集団(例えば、以下の実施例の節において提供されるものなど)にわたって疾患又は障害に関する診断状態を予測する際に少なくとも約70%、75%、80%、85%又は90%の感度を有するモデルを使用して、疾患又は障害に関する対象の診断状態を予測することを更に含む。
【0009】
いくつかの実施形態では、方法は、好適なコホート集団にわたって疾患又は障害に関する診断状態を予測する際に最大約70%、75%、80%、85%又は90%の感度を有するモデルを使用して、疾患又は障害に関する対象の診断状態を予測することを更に含む。
【0010】
いくつかの実施形態では、方法は、好適なコホート集団にわたって疾患又は障害に関する診断状態を予測する際に少なくとも約70%、75%、80%、85%又は90%の特異性を有するモデルを使用して、疾患又は障害に関する対象の診断状態を予測することを更に含む。
【0011】
いくつかの実施形態では、方法は、好適なコホート集団にわたって疾患又は障害に関する診断状態を予測する際に最大約70%、75%、80%、85%又は90%の特異性を有するモデルを使用して、疾患又は障害に関する対象の診断状態を予測することを更に含む。
【0012】
いくつかの実施形態では、方法は、好適なコホート集団にわたって疾患又は障害に関する診断状態を予測する際に少なくとも約70%、75%、80%、85%又は90%の陽性予測値を有するモデルを用いて、疾患又は障害に関する対象の診断状態を予測することを更に含む。
【0013】
いくつかの実施形態では、方法は、好適なコホート集団にわたって疾患又は障害に関する診断状態を予測する際に最大約70%、75%、80%、85%又は90%の陽性予測値を有するモデルを用いて、疾患又は障害に関する対象の診断状態を予測することを更に含む。
【0014】
いくつかの実施形態では、方法は、好適なコホート集団にわたって疾患又は障害に関する診断状態を予測する際に少なくとも約70%、75%、80%、85%又は90%の陰性予測値を有するモデルを用いて、疾患又は障害に関する対象の診断状態を予測することを更に含む。
【0015】
いくつかの実施形態では、方法は、好適なコホート集団にわたって疾患又は障害に関する診断状態を予測する際に最大約70%、75%、80%、85%又は90%の陰性予測値を有するモデルを用いて、疾患又は障害に関する対象の診断状態を予測することを更に含む。
【0016】
いくつかの実施形態では、本方法は、好適なコホート集団に対して、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.82、少なくとも約0.84、少なくとも約0.86、少なくとも約0.88、又は少なくとも約0.90の受信者動作特性曲線下面積(AUROC)を有する疾患又は障害に対する診断状態を予測するモデルを用いて、疾患又は障害に関する対象の診断状態を予測することを更に含む。
【0017】
別の態様では、本開示は、1つ以上のプロセッサと、1つ以上のプロセッサによる実行のための1つ以上のプログラムを記憶するメモリと、を含むデバイスを提供し、1つ以上のプログラムは、(a)対象のラマンシグネチャに関連付けられる対象の生物学的試料上の基準線に沿った複数の位置における各それぞれの位置をサンプリングし、それによって、複数のラマンスペクトルを取得することであって、複数のラマンスペクトルにおける各ラマンスペクトルが、複数の位置における異なる位置に対応し、複数の位置における各位置が、ラマンシグネチャに関連付けられる生物学的試料の異なる成長期間を表す、サンプリングすることと、(b)生物学的試料上の基準線全体にわたって複数のラマンスペクトルの各々を分析し、それによって、第1のデータセットを取得することと、(c)対応する複数のラマンスペクトル測定値からそれぞれの第2のデータセットを導出することであって、特徴の対応するセットにおける各それぞれの特徴が、ラマンスペクトルにおける連続した変動によって判定される、導出することと、(d)訓練されたモデルを使用して特徴を処理して、ラマンシグネチャに関連付けられる疾患又は障害に関する対象の診断状態を予測することと、を行うための命令を含む、デバイスを提供する。いくつかの実施形態では、それぞれの第2のデータセットは、対応する複数のラマンスペクトル測定値に再発定量分析又は関連する方法を適用することによって導出される。いくつかの実施形態では、ラマンスペクトルを分析することは、宇宙線除去、バックグラウンド補正、正規化、ピークフィッティング、又はそれらの任意の組み合わせを含む。
【0018】
いくつかの実施形態では、生物学的試料は、歯試料、毛髪試料、爪試料、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、命令は、対象の時間的反応を示す複数の位置にわたるラマンスペクトルの変化を検出又は監視することを更に含む。いくつかの実施形態では、時間的反応は、生物学的反応、生理学的反応、解剖学的反応、治療反応、ストレス関連反応、又はそれらの組み合わせの反応を含む。いくつかの実施形態では、複数のラマンスペクトルは、約200~約3700の波数を含む。いくつかの実施形態では、サンプリングは、ラマン分光顕微鏡を使用することを含む。いくつかの実施形態では、ラマン分光顕微鏡は、50倍の空中結合対物レンズ、63倍の水浸結合対物レンズ、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、サンプリングは、生物学的試料を光源に曝露して、複数の位置において複数のラマンスペクトルのうちのラマンスペクトルを生成することを含む。いくつかの実施形態では、光源は、レーザを含み、レーザは、約785nmの波長、約532nmの波長、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、命令は、平行移動を更に含み、平行移動は、複数のラマンスペクトルのうちのラマンスペクトルを取得した後に、約2ミクロン~約5ミクロンのステップサイズを伴って生物学的試料を複数の位置のうちの第1の位置から第2の位置に移動させることを含む。いくつかの実施形態では、平行移動は、約0.2秒~約0.3秒の積分時間を使用して行われる。いくつかの実施形態では、疾患又は障害は、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎疾患、腎移植拒絶反応、小児がん又はそれらの任意の組み合わせを含む。いくつかの実施形態では、疾患又は障害は、ASDである。いくつかの実施形態では、疾患又は障害に関する対象の診断状態を予測することは、訓練されたモデルを用いて複数の位置にわたるラマンスペクトルの変化を処理することを含む。いくつかの実施形態では、訓練されたモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、勾配ブーストアルゴリズム、及びそれらの任意の組み合わせからなる群から選択される。いくつかの実施形態では、訓練されたモデルは、勾配ブーストされたアンサンブルモデルを含む。いくつかの実施形態では、訓練されたモデルは、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、1つ以上の特徴を処理するように構成される。いくつかの実施形態では、訓練されたモデルは、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、2つ以上の特徴を処理するように構成される。
【0019】
別の態様では、本開示は、非一時的コンピュータ可読記憶媒体と、非一時的コントローラ可読記憶媒体に埋め込まれた1つ以上のコンピュータプログラムと、を提供し、1つ以上のコンピュータプログラムは、コンピュータシステムによって実行されると、コンピュータシステムに、(a)対象のラマンシグネチャに関連付けられる対象の生物学的試料上の基準線に沿った複数の位置における各それぞれの位置をサンプリングし、それによって、複数のラマンスペクトルを取得することであって、複数のラマンスペクトルにおける各ラマンスペクトルが、複数の位置における異なる位置に対応し、複数の位置における各位置が、ラマンシグネチャに関連付けられる生物学的試料の異なる成長期間を表す、サンプリングすることと、(b)生物学的試料上の基準線全体にわたって複数のラマンスペクトルの各々を分析し、それによって、第1のデータセットを取得することと、(c)対応する複数のラマンスペクトル測定値からそれぞれの第2のデータセットを導出することであって、特徴の対応するセットにおける各それぞれの特徴が、ラマンスペクトルにおける連続した変動によって判定される、導出することと、(d)訓練されたモデルを使用して特徴を処理して、ラマンシグネチャに関連付けられる疾患又は障害に関する対象の診断状態を予測することと、を含む、方法を実行させる、非一時的コンピュータ可読記憶媒体及びコンピュータプログラムを提供する。いくつかの実施形態では、それぞれの第2のデータセットは、対応する複数のラマンスペクトル測定値に再発定量分析又は関連する方法を適用することによって導出される。いくつかの実施形態では、ラマンスペクトルを分析することは、宇宙線除去、バックグラウンド補正、正規化、ピークフィッティング、又はそれらの任意の組み合わせを含む。
【0020】
いくつかの実施形態では、生物学的試料は、歯試料、毛髪試料、爪試料、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、本方法は、対象の時間的反応を示す複数の位置にわたるラマンスペクトルの変化を検出又は監視することを更に含む。いくつかの実施形態では、時間的反応は、生物学的反応、生理学的反応、解剖学的反応、治療反応、ストレス関連反応、又はそれらの組み合わせの反応を含む。いくつかの実施形態では、複数のラマンスペクトルは、約200~約3700の波数を含む。いくつかの実施形態では、サンプリングは、ラマン分光顕微鏡を使用することを含む。いくつかの実施形態では、ラマン分光顕微鏡は、50倍の空中結合対物レンズ、63倍の水浸結合対物レンズ、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、サンプリングは、生物学的試料を光源に曝露して、複数の位置において複数のラマンスペクトルのうちのラマンスペクトルを生成することを含む。いくつかの実施形態では、光源は、レーザを含み、レーザは、約785nmの波長、約532nmの波長、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、命令は、平行移動を更に含み、平行移動は、複数のラマンスペクトルのうちのラマンスペクトルを取得した後に、約2ミクロン~約5ミクロンのステップサイズを伴って生物学的試料を複数の位置のうちの第1の位置から第2の位置に移動させることを含む。いくつかの実施形態では、平行移動は、約0.2秒~約0.3秒の積分時間を使用して行われる。いくつかの実施形態では、疾患又は障害は、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎疾患、腎移植拒絶反応、小児がん又はそれらの任意の組み合わせを含む。いくつかの実施形態では、疾患又は障害は、ASDである。いくつかの実施形態では、疾患又は障害に関する対象の診断状態を予測することは、訓練されたモデルを用いて複数の位置にわたるラマンスペクトルの変化を処理することを含む。いくつかの実施形態では、訓練されたモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、勾配ブーストアルゴリズム、及びそれらの任意の組み合わせからなる群から選択される。いくつかの実施形態では、訓練されたモデルは、勾配ブーストされたアンサンブルモデルを含む。いくつかの実施形態では、訓練されたモデルは、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、1つ以上の特徴を処理するように構成される。いくつかの実施形態では、訓練されたモデルは、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、2つ以上の特徴を処理するように構成される。
【0021】
別の態様では、本開示は、モデルを訓練する方法であって、1つ以上のプロセッサと、1つ以上のプロセッサによって実行するための1つ以上のプログラムを記憶するメモリと、を有するコンピュータシステムにおいて、(a)複数の訓練対象における訓練対象の第1のサブセットが、ラマンシグネチャに関連付けられる第1の生物学的状態を有することに対応する第1の診断状態を有し、複数の訓練対象における訓練対象の第2のサブセットが、ラマンシグネチャに関連付けられる第1の生物学的状態を有しないことに対応する第2の診断状態を有する、複数の訓練対象における各それぞれの訓練対象について、(i)対象のラマンシグネチャに関連付けられる対象の生物学的試料上の基準線に沿った複数の位置における各それぞれの位置をサンプリングし、それによって、複数のラマンスペクトルを取得することであって、複数のラマンスペクトルにおける各ラマンスペクトルが、複数の位置における異なる位置に対応し、複数の位置における各位置が、ラマンシグネチャに関連付けられる対象の生物学的試料の異なる成長期間を表す、サンプリングすることと、(ii)生物学的試料上の基準線全体にわたって各ラマンスペクトルを分析し、それによって、第1のデータセットを取得することと、(iii)対応する複数のラマンスペクトルからそれぞれの第2のデータセットを導出することであって、特徴の対応するセットにおける各それぞれの特徴が、ラマンスペクトルにおける連続した変動によって判定される、導出することと、(b)(i)複数の訓練対象における各訓練対象の各それぞれの第2のデータセットの特徴の対応するセットと、(ii)第1の診断状態及び第2の診断状態の中から選択される、複数の訓練対象における各訓練対象の対応する診断状態と、を用いて、訓練されていないか又は部分的に訓練されていないモデルを訓練し、それによって、試験対象のラマンシグネチャに関連付けられる生物学的試料から取得された特徴のセットにおける特徴の値に基づいて、試験対象がラマンシグネチャに関連付けられる第1の生物学的状態を有するかどうかに関する指標を提供する訓練されたモデルを取得することと、を含む、方法を提供する。いくつかの実施形態では、それぞれの第2のデータセットは、対応する複数のラマンスペクトル測定値に再発定量分析又は関連する方法を適用することによって導出される。いくつかの実施形態では、ラマンスペクトルを分析することは、宇宙線除去、バックグラウンド補正、正規化、ピークフィッティング、又はそれらの任意の組み合わせを含む。
【0022】
いくつかの実施形態では、訓練されたモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングモデルアルゴリズム、教師ありクラスタリングモデルアルゴリズム、回帰モデル、又は勾配ブーストアルゴリズム(例えば、勾配ブーストされた決定木などの機械学習アルゴリズムの勾配ブースト実装形態)である。いくつかの実施形態では、訓練されたモデルは、多項分類器である。いくつかの実施形態では、訓練されたモデルは、二項分類器である。いくつかの実施形態では、訓練されたモデルは、リグレッサである。いくつかの実施形態では、第1の生物学的状態は、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎疾患、腎臓移植拒絶反応、及び小児がんからなる群から選択される。
【0023】
いくつかの実施形態では、ラマンシグネチャに関連付けられる第1の生物学的状態について試験対象を評価することは、ラマンシグネチャに関連付けられる第1の生物学的状態の存在と、ラマンシグネチャに関連付けられる第1の生物学的状態の非存在とを区別することを更に含む。いくつかの実施形態では、ラマンシグネチャに関連付けられる第1の生物学的状態について試験対象を評価することは、ラマンシグネチャに関連付けられる第1の生物学的状態と、ラマンシグネチャに関連付けられる第1の生物学的状態とは異なるラマンシグネチャに関連付けられる第2の生物学的状態とを区別することを更に含む。いくつかの実施形態では、第1の生物学的状態は、自閉症スペクトラム障害であり、第2の生物学的状態は、定型発達であり、すなわち、神経発達障害の非存在である。いくつかの実施形態では、第1の生物学的状態は自閉症スペクトラム障害であり、第2の生物学的状態は注意欠陥/多動性障害である。いくつかの実施形態では、試験対象は、ヒトである。いくつかの実施形態では、試験対象は、成人である。いくつかの実施形態では、ヒトは、約12~約5歳である。いくつかの実施形態では、ヒトは、約12、11、10、9、8、7、5、4、3、2、又は1歳未満である。いくつかの実施形態では、ヒトは、少なくとも約1、2、3、4、5、6、7、8、9、10、11、又は12歳である。いくつかの実施形態では、ラマンプロファイルの時間プロファイルの少なくとも一部分は、対象の出生前期間に対応する。
【0024】
いくつかの実施形態では、それぞれの訓練対象のラマンシグネチャに関連付けられる対応する生物学的試料は、毛幹、歯、及び爪からなる群から選択される。いくつかの実施形態では、それぞれの訓練対象のラマンシグネチャに関連付けられる対応する生物学的試料は、毛幹であり、基準線は、毛幹の長手方向に対応する。いくつかの実施形態では、それぞれの訓練対象のラマンシグネチャに関連付けられる対応する生物学的試料は歯であり、基準線は、歯の新生児線を含む成長帯域にわたる方向に対応する。いくつかの実施形態では、対応する複数の位置は、それぞれの訓練対象の対応する生物学的試料に沿った対応する複数の位置における第1の位置が、それぞれの訓練対象の対応する生物学的試料の先端に最も近い位置に対応するように配列される。いくつかの実施形態では、対応する複数のラマンスペクトル測定値における各トレースは、複数のデータポイントを含み、各データポイントは、複数の位置におけるそれぞれの位置のインスタンスである。いくつかの実施形態では、特徴の対応するセットは、再発率、決定論、平均対角線長、最大対角線長、発散、対角線長におけるシャノンエントロピー、再発の傾向、層状性、トラッピング時間、最大垂直線長、垂直線長におけるシャノンエントロピー、平均再発時間、再発時間におけるシャノンエントロピー、最も可能性の高い再発の回数、及び/又はそれらの任意の組み合わせからなる群から選択される。いくつかの実施形態では、対応する複数の位置は、少なくとも1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000、又は10000を超える位置を含む。
【0025】
本開示の別の態様は、1つ以上のコンピュータプロセッサによって実行されると、上記又は本明細書の他の場所の方法のいずれかを実装する、機械実行可能コードを含む非一時的コンピュータ可読媒体を提供する。
【0026】
本開示の別の態様は、1つ以上のコンピュータプロセッサと、コンピュータプロセッサに結合されたコンピュータメモリと、を含むシステムを提供する。コンピュータメモリは、1つ以上のコンピュータプロセッサによって実行されると、本明細書の上記又は他の場所の方法のいずれかを実装する機械実行可能コードを含む。
【0027】
本開示の更なる態様及び利点は、以下の詳細な説明から当業者に容易に明らかになるであろう。それにおいては、本開示の例示的な実施形態のみが示され、説明される。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく、様々な明白な点で修正が可能である。したがって、図面及び説明は、限定ではなく、本質的に例示とみなされるべきである。
【0028】
参照による援用
本明細書において言及される全ての刊行物、特許、及び特許出願は、各個々の刊行物、特許、又は特許出願が参照により組み込まれることが具体的かつ個別に示されたときと同じ程度に、本明細書において参照により組み込まれる。参照により組み込まれる刊行物及び特許又は特許出願が本明細書に含まれる開示と矛盾する範囲において、本明細書は、そのような矛盾する材料に取って代わり、かつ/又は優先することを意図する。
【図面の簡単な説明】
【0029】
本発明の新規特徴は、添付の特許請求の範囲に詳細に述べられる。本発明の原理が利用される例示的な実施形態を記載する以下の詳細な説明、及び付属の図面(本明細書では「図」とも呼ばれる)を参照することにより、本発明の特徴及び利点のより良好な理解が得られる。
【0030】
【
図1】本開示のコンピューティングデバイス100のブロック図の例を示す。
【
図3】生物学的状態について対象を評価するための方法300のフローチャートを示す。
【
図4】本明細書で提供される方法を実装するようにプログラムされるか、又はそうでなければ構成されるコンピュータシステムを示す。
【
図5】自閉症スペクトラム障害(ASD)の診断状態を予測するためのモデル精度の例であって、自閉症スペクトラム障害の対象を評価する開示された方法の精度を評価するための実験的受信者動作特性(ROC)曲線によって示されるような、ラマン波形のICAによって導出された次元へのRQAの適用から導出される特徴を利用するモデル精度の例を示す。デバイスのパフォーマンスは、様々な分類閾値でのパフォーマンスの尺度を提供するROCプロットの曲線下面積(AUC)を計算することによって測定される。ここで、AUCは0.86であり、堅牢で正確な予測パフォーマンスを示す。
【
図6】自閉症スペクトラム障害について対象を評価する開示された方法の精度を評価するための実験的受信者動作特性(ROC)曲線によって示されるように、ラマン波形のICAによって導出される次元へのRQAの適用から導出される特徴を利用して、筋萎縮性側索硬化症(ALS)の診断状態を予測するためのモデル精度の例を示す。デバイスのパフォーマンスは、様々な分類閾値でのパフォーマンスの尺度を提供するROCプロットの曲線下面積(AUC)を計算することによって測定される。ここで、AUCは0.88であり、堅牢で正確な予測パフォーマンスを示す。
【発明を実施するための形態】
【0031】
本発明の様々な実施形態が本明細書に示され、記載されているが、そのような実施形態が例としてのみ提供されることは、当業者には明白であろう。本発明から逸脱することなく、多数の変形、変更、及び置換がここで当業者に想起され得る。本明細書に記載される本発明の実施形態に対する様々な代替案が、使用され得ることは理解されるべきである。
【0032】
動的な生物学的反応は、ヒトにとって構造的及び機能的に重要な基本的な生物学的プロセスを示し得る。例えば、異常な動的生物学的反応は、疾患及び障害などの多くの生物学的状態と関連し得る。かかる生物学的状態の例としては、神経学的状態(例えば、自閉症スペクトラム障害、統合失調症、又は注意欠陥/多動性障害(ADHD))、神経変性状態(例えば、筋萎縮性側索硬化症(ALS)、アルツハイマー病、パーキンソン病、及びハンチントン病)、並びにがん(例えば、小児がん)が挙げられ得る。
【0033】
上記の背景を考えると、生物学的状態の診断、特に非侵襲的診断のための正確な方法及びシステムの必要性が存在する。そのような診断は、生物学的状態の診断のための非侵襲的方法によって検出可能なバイオマーカーの正確なプロファイリングに基づくことができる。本開示は、対象から非侵襲的に得られた生物学的試料からの動的生物学的反応データの分析に基づいて、生物学的状態を正確に診断するための改良されたシステム及び方法を提供する。生物学的状態の正確な診断のためのそのような改善されたシステム及び方法は、生物学的試料のラマンプロファイリングと、人工知能データ分析との組み合わせに基づいてもよい。本開示は、例えば、生物学的状態の診断のための生物学的試料バイオマーカーを提供することによって、これらのニーズに対処する。生物学的試料は、増分成長に関連付けられるヒト生物学的試料を含む。そのような生物学的試料は、毛幹、歯、及び爪であり得る。本開示の非侵襲的バイオマーカーは、幼児、場合によっては、1歳未満の乳児の診断に使用することができる。いくつかの場合には、子供は約12歳~約5歳であり得る。いくつかの実施形態では、ヒトは、約12、11、10、9、8、7、5、4、3、2、又は1歳未満であり得る。いくつかの実施形態では、ヒトは、少なくとも約1、2、3、4、5、6、7、8、9、10、11、又は12歳であり得る。
【0034】
一態様では、本開示は、疾患又は障害に関する対象の診断状態を予測するための方法であって、(a)対象の生物学的試料を光源に曝露することであって、生物学的試料が、歯試料、毛髪試料、又は爪試料を含む、曝露することと、(b)曝露された生物学的試料から複数のラマンスペクトルを取得することと、(c)複数のラマンスペクトルを処理して、複数のラマンスペクトルの空間マップを生成することと、(d)複数のラマンスペクトルの空間マップに少なくとも部分的に基づいて、疾患又は障害に関する対象の診断状態を予測することと、を含む、方法を提供する。いくつかの実施形態では、光源は、レーザを備える。
【0035】
いくつかの実施形態では、分析することは、基礎的な生物学的プロセスの時間的ダイナミクスを判定する。いくつかの実施形態では、分析することは、処理前に(例えば、独立成分分析によって)複数のラマンスペクトルの次元を低減させることを含む。いくつかの実施形態では、光信号は、光源(例えば、レーザ)によって生成される。いくつかの実施形態では、生物学的試料は、歯試料を含む。いくつかの実施形態では、本方法は、対象の時間的反応を示す時間的ストレスプロファイルの変化を検出又は監視することを更に含む。いくつかの実施形態では、時間的反応は生化学的反応を含む。いくつかの実施形態では、時間的反応は、生物学的反応、生理学的反応、解剖学的反応、治療反応、ストレス関連反応、又はそれらの組み合わせを含む。いくつかの実施形態では、複数のラマンスペクトルは、約200~約3700の波数を含む。いくつかの実施形態では、取得することは、ラマン分光顕微鏡を使用することを含む。いくつかの実施形態では、ラマン分光顕微鏡は、50倍の空中結合対物レンズ、63倍の水浸結合対物レンズ、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、レーザは、約785nmの波長、約532nmの波長、又はこれらの任意の組み合わせを含む。いくつかの実施形態では、取得することは、約0.2秒~約0.3秒の積分時間を使用して行われる。いくつかの実施形態では、取得することは、複数のラマンスペクトルのうちのラマンスペクトルを取得した後に、生物学的試料を約2ミクロン~約5ミクロンのステップサイズを伴って移動させることを含む。
【0036】
いくつかの実施形態では、本明細書に開示されるシステム及び方法は、ラマン分光法単独で、又は他の技術と組み合わせて使用し得る。そのような技術は、レーザアブレーション誘導結合プラズマ質量分析(LA-ICP-MS)、C反応性免疫組織化学蛍光染色などを含み得る。いくつかの実施形態では、技法を組み合わせることは、所与の技法のみの診断精度又は精度を向上させ得る。いくつかの実施形態では、LA-ICP-MSの付加は、ラマン分光法の診断力を補完し得る所与の生物学的試料の複数の非侵襲的金属代謝バイオマーカーを提供し得る。いくつかの実施形態では、金属代謝バイオマーカーは、亜鉛、スズ、マグネシウム、銅、ヨウ化物、リチウム、アルミニウム、リン、硫黄、カルシウム、クロム、マンガン、鉄、コバルト、ニッケル、ヒ素、ストロンチウム、カドミウム、スズ、ヨウ素、バリウム、水銀、鉛、ビスマス、モリブデン、又はそれらの任意の組み合わせを含み得る。いくつかの実施形態では、C反応性タンパク質免疫組織化学蛍光の付加によって、炎症の時間変動を提供してラマン分光法の診断力を補完し得る。
【0037】
いくつかの実施形態では、疾患又は障害は、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎疾患、腎移植拒絶反応、小児がん又はそれらの任意の組み合わせを含む。いくつかの実施形態では、疾患又は障害は、ASDである。いくつかの実施形態では、対象は、ヒトである。いくつかの実施形態では、対象は、成人である。いくつかの実施形態では、対象は約12歳~約5歳である。いくつかの実施形態では、ヒトは、約12、11、10、9、8、7、5、4、3、2、又は1歳未満である。いくつかの実施形態では、ヒトは、少なくとも約1、2、3、4、5、6、7、8、9、10、11、又は12歳である。いくつかの実施形態では、時間ラマンプロファイルの少なくとも一部分は、対象の出生前期間に対応する。
【0038】
いくつかの実施形態では、疾患又は障害に関する対象の診断状態を予測することは、訓練されたモデルを使用して空間マップを処理することを含む。いくつかの実施形態では、処理することは、(例えば、再発定量分析によって)空間マップから特徴を抽出することと、訓練されたモデルを使用して特徴を分析することと、を含む。いくつかの実施形態では、処理することは、例えば、独立成分分析(ICA)及び/又は主成分分析(PCA)を含む次元低減技術を適用し、それに続いて、再発定量分析(RQA)を適用して、ICA/PCAから導出される次元を記述する計算特徴を抽出することによって、空間マップから導出される時間的ダイナミクスの計算分析を含む。
【0039】
いくつかの実施形態では、この訓練されたモデルは、複数のパラメータを含み、「パラメータ」という用語は、モデル内の1つ以上の入力、出力、及び/又は機能に影響を与える(例えば、修正、調整、及び/又は調整する)ことができる(例えば、モデルがリグレッサ又は分類器である場合)、モデル内の内部又は外部要素(例えば、重み及び/又はハイパーパラメータ)の任意の係数又は同様に任意の値を指す。例えば、いくつかの実施形態では、モデルのパラメータは、モデルの挙動、学習、及び/又はパフォーマンスを制御、修正、調整、及び/又は調整するために使用され得る任意の係数、重み、及び/又はハイパーパラメータを指す。いくつかの例では、パラメータは、モデルへの入力(例えば、特徴)の影響を増加又は減少させるために使用される。非限定的な例として、いくつかの実施形態では、パラメータは、ノード(例えば、ニューラルネットワーク)の影響を増加又は減少させるために使用され、ノードは、1つ以上の活性化関数を含む。モデルの特定の入力、出力、及び/又は機能へのパラメータの割り当ては、所与のモデルの任意の1つのパラダイムに限定されないが、所望のパフォーマンスのために任意の好適なモデルで使用され得る。いくつかの実施形態では、パラメータは、固定値を有する。いくつかの実施形態では、パラメータの値は、手動及び/又は自動的に調整可能である。いくつかの実施形態では、パラメータの値は、モデルの検証及び/又は訓練プロセスによって(例えば、エラー最小化及び/又は逆伝播方法によって)修正される。いくつかの実施形態では、本開示のモデルは、複数のパラメータを含む。いくつかの実施形態では、モデル(例えば、訓練されていない、部分的に訓練された、又は完全に訓練されたモデル)に関連付けられる複数のパラメータは、n個のパラメータであり、n≧2、n≧5、n≧10、n≧25、n≧40、n≧50、n≧75、n≧100、n≧125、n≧150、n≧200、n≧225、n≧250、n≧350、n≧500、n≧600、n≧750、n≧1,000、n≧2,000、n≧4,000、n≧5,000、n≧7,500、n≧10,000、n≧20,000、n≧40,000、n≧75,000、n≧100,000、n≧200,000、n≧500,000、n≧1x106、n≧5x106、又はn≧1x107である。いくつかの実施形態では、nは、10,000~1×107、100,000~5×106、又は500,000~1×106である。
【0040】
いくつかの実施形態では、訓練されたモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、勾配ブーストアルゴリズム(例えば、勾配ブーストされた決定木などの機械学習アルゴリズムの勾配ブースト実装形態)、及びそれらの任意の組み合わせからなる群から選択される。いくつかの実施形態では、訓練されたモデルは、勾配ブーストされたアンサンブルモデルを含む。いくつかの実施形態では、訓練されたモデルは、再発率、決定論、平均対角線長、最大対角線長、発散、対角線長におけるシャノンエントロピー、再発の傾向、層状性、トラッピング時間、最大垂直線長、垂直線長におけるシャノンエントロピー、平均再発時間、再発時間におけるシャノンエントロピー、最も可能性の高い再発の回数、及び/又はそれらの任意の組み合わせからなる群から選択される、1つ以上の特徴を処理するように構成される。いくつかの実施形態では、訓練されたモデルは、再発率、決定論、平均対角線長、最大対角線長、発散、対角線長におけるシャノンエントロピー、再発の傾向、層状性、トラッピング時間、最大垂直線長、垂直線長におけるシャノンエントロピー、平均再発時間、再発時間におけるシャノンエントロピー、最も可能性の高い再発の回数、及び/又はそれらの任意の組み合わせからなる群から選択される、2つ以上の特徴を処理するように構成される。いくつかの実施形態では、方法は、少なくとも約80%の感度を伴って疾患又は障害に関する対象の診断状態を予測することを更に含む。いくつかの実施形態では、方法は、最大約80%の感度を伴って疾患又は障害に関する対象の診断状態を予測することを更に含む。いくつかの実施形態では、方法は、少なくとも約80%の特異性を伴って疾患又は障害に関する対象の診断状態を予測することを更に含む。いくつかの実施形態では、方法は、最大約80%の特異性を伴って疾患又は障害に関する対象の診断状態を予測することを更に含む。いくつかの実施形態では、方法は、少なくとも約80%の陽性予測値を伴って疾患又は障害に関する対象の診断状態を予測することを更に含む。いくつかの実施形態では、方法は、最大約80%の陽性予測値を伴って疾患又は障害に関する対象の診断状態を予測することを更に含む。いくつかの実施形態では、少なくとも約80%の陰性予測値を伴って疾患又は障害に関する対象の診断状態を予測することを更に含む。いくつかの実施形態では、方法は、最大約80%の陰性予測値を伴って疾患又は障害に関する対象の診断状態を予測することを更に含む。いくつかの実施形態では、方法は、少なくとも約0.80の受信者動作特性曲線下面積(AUROC)を伴って疾患又は障害に関する対象の診断状態を予測することを更に含む。
【0041】
別の態様では、本開示は、1つ以上のプロセッサと、1つ以上のプロセッサによる実行のための1つ以上のプログラムを記憶するメモリと、を含むデバイスを提供し、1つ以上のプログラムは、(a)対象のラマンシグネチャに関連付けられる対象の生物学的試料上の基準線に沿った複数の位置における各それぞれの位置をサンプリングし、それによって、複数のラマンスペクトルを取得することであって、複数のラマンスペクトルにおける各ラマンスペクトルが、複数の位置における異なる位置に対応し、複数の位置における各位置が、ラマンシグネチャに関連付けられる生物学的試料の異なる成長期間を表す、サンプリングすることと、(b)生物学的試料上の基準線全体にわたって複数のラマンスペクトルの各々を分析し、それによって、第1のデータセットを取得することと、(c)対応する複数のラマンスペクトル測定値からそれぞれの第2のデータセットを導出することであって、特徴の対応するセットにおける各それぞれの特徴が、ラマンスペクトルにおける連続した変動によって判定される、導出することと、(d)訓練されたモデルを使用して特徴を処理して、ラマンシグネチャに関連付けられる疾患又は障害に関する対象の診断状態を予測することと、を行うための命令を含む、デバイスを提供する。いくつかの実施形態では、それぞれの第2のデータセットは、対応する複数のラマンスペクトル測定値に再発定量分析又は関連する方法を適用することによって導出される。いくつかの実施形態では、ラマンスペクトルを分析することは、宇宙線除去、バックグラウンド補正、正規化、ピークフィッティング、又はそれらの任意の組み合わせを含む。
【0042】
別の態様では、本開示は、非一時的コンピュータ可読記憶媒体と、非一時的コントローラ可読記憶媒体に埋め込まれた1つ以上のコンピュータプログラムと、を提供し、1つ以上のコンピュータプログラムは、コンピュータシステムによって実行されると、コンピュータシステムに、(a)対象のラマンシグネチャに関連付けられる対象の生物学的試料上の基準線に沿った複数の位置における各それぞれの位置をサンプリングし、それによって、複数のラマンスペクトルを取得することであって、複数のラマンスペクトルにおける各ラマンスペクトルが、複数の位置における異なる位置に対応し、複数の位置における各位置が、ラマンシグネチャに関連付けられる生物学的試料の異なる成長期間を表す、サンプリングすることと、(b)生物学的試料上の基準線全体にわたって複数のラマンスペクトルの各々を分析し、それによって、第1のデータセットを取得することと、(c)対応する複数のラマンスペクトル測定値からそれぞれの第2のデータセットを導出することであって、特徴の対応するセットにおける各それぞれの特徴が、ラマンスペクトルにおける連続した変動によって判定される、導出することと、(d)訓練されたモデルを使用して特徴を処理して、ラマンシグネチャに関連付けられる疾患又は障害に関する対象の診断状態を予測することと、を含む、方法を実行させる、非一時的コンピュータ可読記憶媒体及びコンピュータプログラムを提供する。いくつかの実施形態では、それぞれの第2のデータセットは、対応する複数のラマンスペクトル測定値に再発定量分析又は関連する方法を適用することによって導出される。いくつかの実施形態では、ラマンスペクトルを分析することは、宇宙線除去、バックグラウンド補正、正規化、ピークフィッティング、又はそれらの任意の組み合わせを含む。
【0043】
別の態様では、本開示は、モデルを訓練する方法であって、1つ以上のプロセッサと、1つ以上のプロセッサによって実行するための1つ以上のプログラムを記憶するメモリと、を有するコンピュータシステムにおいて、(a)複数の訓練対象における訓練対象の第1のサブセットが、ラマンシグネチャに関連付けられる第1の生物学的状態を有することに対応する第1の診断状態を有し、複数の訓練対象における訓練対象の第2のサブセットが、ラマンシグネチャに関連付けられる第1の生物学的状態を有しないことに対応する第2の診断状態を有する、複数の訓練対象における各それぞれの訓練対象について、(i)対象のラマンシグネチャに関連付けられる対象の生物学的試料上の基準線に沿った複数の位置における各それぞれの位置をサンプリングし、それによって、複数のラマンスペクトルを取得することであって、複数のラマンスペクトルにおける各ラマンスペクトルが、複数の位置における異なる位置に対応し、複数の位置における各位置が、ラマンシグネチャに関連付けられる対象の生物学的試料の異なる成長期間を表す、サンプリングすることと、(ii)生物学的試料上の基準線全体にわたって各ラマンスペクトルを分析し、それによって、第1のデータセットを取得することと、(iii)対応する複数のラマンスペクトルからそれぞれの第2のデータセットを導出することであって、特徴の対応するセットにおける各それぞれの特徴が、ラマンスペクトルにおける連続した変動によって判定される、導出することと、(b)(i)複数の訓練対象における各訓練対象の各それぞれの第2のデータセットの特徴の対応するセットと、(ii)第1の診断状態及び第2の診断状態の中から選択される、複数の訓練対象における各訓練対象の対応する診断状態と、を用いて、訓練されていないか又は部分的に訓練されていないモデルを訓練し、それによって、試験対象のラマンシグネチャに関連付けられる生物学的試料から取得された特徴のセットにおける特徴の値に基づいて、試験対象がラマンシグネチャに関連付けられる第1の生物学的状態を有するかどうかに関する指標を提供する訓練されたモデルを取得することと、を含む、方法。いくつかの実施形態では、それぞれの第2のデータセットは、対応する複数のラマンスペクトル測定値に再発定量分析又は関連する方法を適用することによって導出される。いくつかの実施形態では、ラマンスペクトルを分析することは、宇宙線除去、バックグラウンド補正、正規化、ピークフィッティング、又はそれらの任意の組み合わせを含む。
【0044】
いくつかの実施形態では、訓練されたモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングモデルアルゴリズム、教師ありクラスタリングモデルアルゴリズム、回帰モデル、又は勾配ブーストアルゴリズム(例えば、勾配ブーストされた決定木などの機械学習アルゴリズムの勾配ブースト実装形態)である。いくつかの実施形態では、訓練されたモデルは、多項分類器である。いくつかの実施形態では、訓練されたモデルは、二項分類器である。いくつかの実施形態では、第1の生物学的状態は、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎疾患、腎臓移植拒絶反応、及び小児がんからなる群から選択される。
【0045】
いくつかの実施形態では、ラマンシグネチャに関連付けられる第1の生物学的状態について試験対象を評価することは、ラマンシグネチャに関連付けられる第1の生物学的状態の存在と、ラマンシグネチャに関連付けられる第1の生物学的状態の非存在とを区別することを更に含む。いくつかの実施形態では、ラマンシグネチャに関連付けられる第1の生物学的状態について試験対象を評価することは、ラマンシグネチャに関連付けられる第1の生物学的状態と、ラマンシグネチャに関連付けられる第1の生物学的状態とは異なるラマンシグネチャに関連付けられる第2の生物学的状態とを区別することを更に含む。いくつかの実施形態では、第1の生物学的状態は、自閉症スペクトラム障害であり、第2の生物学的状態は、定型発達であり、すなわち、神経発達障害の非存在である。いくつかの実施形態では、第1の生物学的状態は自閉症スペクトラム障害であり、第2の生物学的状態は注意欠陥/多動性障害である。いくつかの実施形態では、試験対象は、ヒトである。いくつかの実施形態では、試験対象は、成人である。いくつかの実施形態では、ヒトは、約12~約5歳である。いくつかの実施形態では、ヒトは、約12、11、10、9、8、7、5、4、3、2、又は1歳未満である。いくつかの実施形態では、ヒトは、少なくとも約1、2、3、4、5、6、7、8、9、10、11、又は12歳である。いくつかの実施形態では、ラマンプロファイルの時間プロファイルの少なくとも一部分は、対象の出生前期間に対応する。
【0046】
いくつかの実施形態では、それぞれの訓練対象のラマンシグネチャに関連付けられる対応する生物学的試料は、毛幹、歯、及び爪からなる群から選択される。いくつかの実施形態では、それぞれの訓練対象のラマンシグネチャに関連付けられる対応する生物学的試料は、毛幹であり、基準線は、毛幹の長手方向に対応する。いくつかの実施形態では、それぞれの訓練対象のラマンシグネチャに関連付けられる対応する生物学的試料は歯であり、基準線は、歯の新生児線を含む成長帯域にわたる方向に対応する。いくつかの実施形態では、対応する複数の位置は、それぞれの訓練対象の対応する生物学的試料に沿った対応する複数の位置における第1の位置が、それぞれの訓練対象の対応する生物学的試料の先端に最も近い位置に対応するように配列される。いくつかの実施形態では、対応する複数のラマンスペクトル測定値における各トレースは、複数のデータポイントを含み、各データポイントは、複数の位置におけるそれぞれの位置のインスタンスである。いくつかの実施形態では、特徴の対応するセットは、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される。いくつかの実施形態では、対応する複数の位置は、少なくとも1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000、又は10000を超える位置を含む。
【0047】
例示的なシステムの詳細は、本開示のコンピューティングデバイス100のブロック図の例を示す
図1と併せて説明される。いくつかの実装形態では、デバイス100は、1つ以上のプロセッシングユニットCPU102(プロセッサとも称される)と、1つ以上のネットワークインターフェース104と、ユーザインターフェース106と、非永続メモリ111、永続メモリ112と、これらのコンポーネントを相互接続するための1つ以上の通信バス114と、を含む。1つ以上の通信バス114は、システムコンポーネント間の通信を相互接続及び制御する回路(チップセットと呼ばれることもある)を任意選択的に含む。非永続メモリ111は、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含み、一方、永続メモリ112は、典型的には、CD-ROM、デジタル汎用ディスク(DVD)、又は他の光学ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、又は他の磁気ストレージデバイス、磁気ディスクストレージデバイス、光学ディスクストレージデバイス、フラッシュメモリデバイス、又は他の不揮発性固体ストレージデバイスを含む。永続メモリ112は、任意選択的に、CPU102から遠隔に位置する1つ以上のストレージデバイスを含む。永続メモリ112、及び非永続メモリ112内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を含む。いくつかの実装形態では、非永続メモリ111又は代替的に非一時的コンピュータ可読記憶媒体は、場合によっては永続メモリ112とともに、以下のプログラム、モジュール、及びデータ構造、又はそのサブセットを記憶し、すなわち、様々な基本システムサービスに対処し、かつハードウェア依存タスクを実行するための手順を含む任意選択的なオペレーティングシステム116と、システム100を他のデバイス及び/又は通信ネットワーク104と接続するための任意選択的なネットワーク通信モジュール(又は命令)118と、生物学的状態について対象を評価するための訓練されたモデルのための任意選択的な分類器訓練モジュール120と、1つ以上の訓練対象124についての特徴データを含む、訓練対象からの生物学的試料についてのデータセットのための任意選択的なデータストア122であって、特徴データが、特徴126の各々に関連付けられるパラメータ、及び診断状態128(例えば、それぞれの訓練対象が生物学的状態を有すると診断されたか、又は生物学的状態を有すると診断されていないことの指標)を含む、データストア122と、生物学的状態を区別するモデルを検証するための任意選択的な分類器検証モジュール130と、生物学的状態と、検証対象からの生物学的試料についてのデータセットのための任意選択的なデータストア132と、例えば、分類器訓練モジュール120を使用して訓練されたように、生物学的状態を有する対象を分類するための任意選択的な患者分類モジュール134と、を記憶する。
【0048】
様々な実装形態では、上述の識別された要素のうちの1つ以上は、前述のメモリデバイスのうちの1つ以上に記憶され、上述の機能を実行するための命令のセットに対応する。上記の識別されたモジュール、データ、又はプログラム(例えば、命令のセット)は、別個のソフトウェアプログラム、手順、データセット、又はモジュールとして実装される必要はなく、したがって、これらのモジュール及びデータの様々なサブセットは、様々な実装形態で組み合わされてもよく、又は別様に再配置されてもよい。いくつかの実装形態では、非永続メモリ111は、任意選択的に、上記で識別されたモジュール及びデータ構造のサブセットを記憶する。更に、いくつかの実施形態では、メモリは、上述されていない追加のモジュール及びデータ構造を記憶する。いくつかの実施形態では、上記の識別された要素のうちの1つ以上は、視覚化システム100のコンピュータシステム以外のコンピュータシステムに記憶され、このコンピュータシステムは、視覚化システム100によってアドレス指定可能であり、それによって、視覚化システム100は、必要なときにそのようなデータの全て又は一部分を取り出すことができる。
【0049】
いくつかの実施形態では、システム100は、化学分析を実行するための1つ以上の分析デバイスに接続されるか、又はそれらの分析デバイスを含む。例えば、任意選択的なネットワーク通信モジュール(又は命令)118は、例えば、通信ネットワーク104を介して、システム100を1つ以上の分析デバイスと接続するように構成される。いくつかの実施形態では、1つ以上の分析デバイスは、レーザアブレーション誘導結合プラズマ質量分析計(LA-ICP-MS)、蛍光イメージセンサ、又はラマン分光分析計を含む。
【0050】
図1は、「システム100」を描写するが、図は、本明細書に記載される実装形態の構造的な概略図ではなく、コンピュータシステムに存在し得る様々な特徴の機能的な説明としてより意図される。実際には、当業者によって認識されるように、別個に示される項目は組み合わされてもよく、いくつかの項目は分離されてもよい。更に、
図1は、非永続メモリ111内のある特定のデータ及びモジュールを描写するが、これらのデータ及びモジュールのいくつか又は全ては、永続メモリ112内に記憶されてもよい。
【0051】
いくつかの実施形態では、本開示の方法は、生物学的試料(例えば、毛幹を含む1本の毛髪)を得ることを含む。対象は、ヒトであり得る。いくつかの実施形態では、対象は、12歳以下の小児(例えば、小児は、5歳、4歳、3歳、2歳、1歳、9ヶ月、6ヶ月、3ヶ月、又は1ヶ月以下の小児)である。いくつかの実施形態では、小児は、約12歳~約5歳である。いくつかの実施形態では、ヒトは、約12、11、10、9、8、7、5、4、3、2、又は1歳未満である。いくつかの実施形態では、ヒトは、少なくとも約1、2、3、4、5、6、7、8、9、10、11、又は12歳である。いくつかの実施形態では、対象は、成人である。いくつかの実施形態では、対象は、成人である。
図2Aは、毛幹を含む対象の毛髪試料の例を示す。毛髪試料は、(例えば、はさみの助けを借りて)対象から単に切り取られてもよい。毛髪試料を取得する方法は、非侵襲的であり得る。得られた毛髪試料は、1cmの最小長さを有し得る(例えば、毛髪試料は、長さが1cm、2cm、3cm、4cm、又は5cmである)。毛髪試料は、毛髪の任意の部分(例えば、先端又は先端と卵胞との間の部分)を含み得る。特に、毛小胞を含む毛髪試料については特別な要件はない。
図2Bは、対象の歯試料の例を示す。
図2Cは、対象の爪試料の例を示す。爪又は毛髪の例では、生物学的試料を取得することは、爪又は毛髪がサンプリングされ得るように対象を位置決めすることを指し得る。爪試料は、爪全体又は切り取った爪を含み得る。
【0052】
いくつかの実施形態では、得られた生物学的試料は、生物学的試料を1つ以上の溶媒及び/又は界面活性剤を用いて洗浄及び乾燥することによって前処理されるなど、前処理される。生物学的試料が毛髪である場合には、毛髪試料は、TRITON X-100(登録商標)及び超純金属遊離水(例えば、MILLI-Q(登録商標)水)の溶液中で洗浄され、オーブン内で(例えば、60℃で)一晩乾燥され得る。前処理は、接着フィルム(例えば、両面テープ)を有するガラススライド(例えば、顕微鏡ガラススライド)上に毛幹を配置することによって、測定のために毛幹を準備することを更に含み得る。毛幹は、毛幹が実質的に真っ直ぐであるように位置決めされ得る。毛幹を含むガラススライドは、分析を実行するために、測定システム(例えば、レーザアブレーション誘導結合プラズマ質量分析計(LA-ICP-MS)、蛍光イメージセンサ、又はラマン分光分析計)の中に、又はその付近に配置され得る。生物学的試料が歯又は爪である場合、生物学的試料の表面は、(例えば、界面活性剤、水、又は1つ以上の溶媒によって)洗浄され得る。試料は、分析を実行するために、分割され、次いで、測定システム(例えば、レーザアブレーション誘導結合プラズマ質量分析計(LA-ICP-MS)、蛍光イメージセンサ、又はラマン分光分析計)の中に、又はその付近に配置され得る。
【0053】
図3は、疾患又は障害に関する対象の診断状態を予測するための方法など、生物学的状態について対象を評価するための方法300のフローチャートを示す。方法300は、(動作302のように)対象の生物学的試料を光源に曝露することを含み得る。いくつかの場合には、光源は、レーザを含み得る。いくつかの実施形態では、分析することは、基礎的な生物学的プロセスの時間的ダイナミクスを判定する。いくつかの実施形態では、分析することは、処理前に複数のラマンスペクトルの次元を(例えば、独立成分分析によって)低減させることを含む。いくつかの実施形態では、光信号は、光源(例えば、レーザ)によって生成される。生物学的試料は、歯試料、毛髪試料、又は爪試料を含んでもよい。次に、方法300は、(動作304のように)曝露された生物学的試料から複数のラマンスペクトルを取得することを含み得る。次に、方法300は、(動作306のように)複数のラマンスペクトルを処理して、複数のラマンスペクトルの空間マップを生成することを含み得る。次に、方法300は、(動作308のように)複数のラマンスペクトルの空間マップに少なくとも部分的に基づいて、疾患又は障害に関する対象の診断状態を予測することを含み得る。
【0054】
いくつかの実施形態では、複数のラマンスペクトルは、50倍の空中結合対物レンズ又は63倍の水浸結合対物レンズを含むラマン分光顕微鏡を使用して取得される。いくつかの実施形態では、レーザは、約785nmの波長、又は約532nmの波長を含む。いくつかの実施形態では、取得することは、約0.2秒~約0.3秒の積分時間を使用して行われる。いくつかの実施形態では、取得することは、複数のラマンスペクトルのうちのラマンスペクトルを取得した後に、生物学的試料を約2ミクロン~約5ミクロンのステップサイズを伴って移動させることを含む。
【0055】
いくつかの実施形態では、分析することは、取得されたラマンスペクトルに少なくとも部分的に基づいて時間ラマンプロファイルを生成することと、ラマンスペクトルの変動の時間プロファイルを分析することと、を含む。いくつかの実施形態では、時間ラマンプロファイルの少なくとも一部分は、対象の出生前期間に対応する。
【0056】
測定データは、生物学的試料に沿った複数の位置で連続して生物学的試料から収集され得る。いくつかの実施形態では、対応する複数の位置は、少なくとも1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000、又は10000を超える位置を含む。いくつかの実施形態では、それぞれの位置は互いに隣接している。この方法によって、生物学的試料上の異なる位置に対応する各領域は、それによって、動的(例えば、時間変動)存在量測定に関連付けられ得る。いくつかの実施形態では、それぞれの位置は所定の距離分離される。いくつかの実施形態では、サンプリングは、毛髪試料などの生物学的試料の先端に最も近いそれぞれの位置(例えば、対象の最も若い年齢に対応する位置)から開始する生物学的試料の基準線に沿って行われる。一般に、サンプリングの方向が知られている限り、サンプリングは先端又は根に最も近いそれぞれの位置から開始することができ、適切な訓練されたモデルが分析に使用される。
【0057】
サンプリングは、データポイントのセットを生成し得る。データポイントの各セットは、生物学的試料に沿った複数の位置で測定された動的生物学的反応を示す物質の測定値(例えば、存在量又は濃度)に対応し得る。生物学的試料の基準線上の各位置は、生物学的試料の特定の成長時間に対応し得る。いくつかの実施形態では、毛幹の例において、各位置は、約20分間の毛髪成長期間(例えば、5マイクロメートルのレーザステップサイズ及び1ヶ月当たり1cmの毛髪成長の平均速度を使用して計算される毛髪成長期間)に対応する。生物学的試料の基準線に沿った複数の位置を成長の対応する期間に相関させることによって、複数のトレースを含む第1のデータセットが取得される。各トレースは、生物学的試料から測定された動的生物学的反応を示す物質の測定値(例えば、存在量又は濃度)の時間依存性存在量を含む。例えば、位置間の距離は、生物学的試料の推定される成長(例えば、生物学的時間)に対応し得る。例えば、存在量は、1.2cmの距離に沿った毛髪試料について測定されてもよく、この距離は、約35日の生物学的時間に対応する。生物学的時間は、毛髪成長の平均速度(例えば、1ヶ月当たり1cm)を使用することによって推定することができる。
【0058】
いくつかの実施形態では、ラマンスペクトルのデータ分析は、宇宙線除去、バックグラウンド補正、スペクトル正規化、ピークフィッティング、又はそれらの任意の組み合わせを含み得る。
【0059】
いくつかの実施形態では、データ分析は、生物学的試料から測定された動的生物学的反応を示す物質の時間依存性存在量(例えば、時間依存性濃度)に対応するトレースに対して実行されてもよい。これは、データをクリーンアップするためのカスタマイズされた動作(例えば、時間スパンにわたってデータを平滑化すること、及び/又は所定の閾値よりも高い又は低いデータポイントを削除すること)を含み得る。いくつかの実施形態では、データ分析は、隣接するデータポイント間の平均絶対差の少なくとも1倍、2倍、又は3倍の標準偏差である隣接するデータポイント間の平均絶対差を有するデータポイントをトレースから除去することを含む。
【0060】
いくつかの実施形態では、データ分析は、次元低減ステップを更に含み、それによって、ラマンスペクトルの高次元アレイは、導出された時間変動成分の低次元アレイに分解される。次元低減のための方法には、独立成分分析(ICA)、主成分分析(PCA)、非負値行列因数分解(NNMF)、並びに関連する教師なし及び教師あり方法が含まれる。
【0061】
いくつかの実施形態では、データ分析は、更に、時間依存性トレース、又は時間依存性トレースに適用される次元低減技術(ICA/PCA)から導出される成分に対して、再発定量分析(RQA)を実行し、トレースの動的周期的特性を記述する特徴のセットを取得することを含む。RQAは、時間依存性トレース又は時間依存性トレースから導出される成分の変動を測定する。RQAは、所与の波形における周期的特性を記述する特徴の推定を伴い、これには、再発率、決定論、平均対角線長、最大対角線長、発散、対角線長におけるシャノンエントロピー、再発の傾向、層状性、トラッピング時間、最大垂直線長、垂直線長におけるシャノンエントロピー、平均再発時間、再発時間におけるシャノンエントロピー、最も可能性の高い再発の回数、及び/又はそれらの任意の組み合わせが含まれる。RQAの方法及び特徴は、例えば、Webber et al.in“Simpler Methods Do It Better:Success of Recurrence Quantification Analysis as a General Purpose Data Analysis Tool,”Physics Letters A 373,3753-3756(2009)and by Marwan et al.in“Recurrence Plots for the Analysis of Complex Systems,”Physics Reports 438,237-239(2007)を参照されたく、それぞれの内容は参照によりその全体が本明細書に組み込まれる。いくつかの実施形態では、時間依存性トレースは、フーリエ変換、ウェーブレット分析、及びコシノール分析などの他の分析方法を使用することによって分析される。そのような技術を適用して、周波数成分及びそれらに関連付けられる電力のスペクトル分析を含む同様のメトリックを導出することができる。これらのメトリック及び関連する派生的尺度は、予測分類の目的のために、生物学的試料から得られた時間依存性トレースを分析するために、RQAから導出される特徴の代わりに使用することができる。
【0062】
RQAは、それぞれの取得されたトレースの動的時間構造を視覚化及び分析する再発プロットの構築を含む。そのような再発プロットは、所与の配列をその配列の時間差導出に対してプロットすることによって、連続測定における相動的プロセスを示すことができる。毛幹から測定された一次元トレースから、追加の次元が計算的に導出され、相図と称される高次元空間にトレースが埋め込まれ、ここで、tは元のトレースの値を指し、次元(t+τ)及び(t+2τ)は、元の時系列を間隔τ遅延させることから導出される。その後、埋め込まれた相図上で後続の分析を行い、再発プロット及び再発定量分析を構築する。再発プロットは、相図における各点に閾値関数を適用することによって、相図から導出され得る。通常、白又は黒の空間として表される正方形のバイナリ行列からなる対応する再発プロット上で、所与の点には、各時間間隔で1の値が割り当てられ、相図における別の点は、割り当てられた閾値境界の空間的限界を共有する。RQA法は、所与のシステムにおける状態間の遅延の間隔を調べるために再発プロットに適用され、黒い点は、システムが同じ状態を再訪するときの時間間隔を反映する。システムが状態の所与のパターンを連続的に繰り返す周期的なプロセスは、再発プロットにおいて黒い対角線として現れるが、安定性の期間は正方形構造として現れ、スプリアス反復は黒い点として現れ、一意のイベントは白いスペースとして現れる。
【0063】
いくつかの実施形態では、再発プロットは、単一の物質又は2つの物質の組み合わせのトレースのために構築される(例えば、2つの物質の対話型周期パターンを視覚化するために構築される。これは、交差再発定量分析、又はジョイント再発定量分析と称され得る)。いくつかの実施形態では、再発プロットは、3つ以上の物質の組み合わせに対して構築される。
【0064】
いくつかの実施形態では、データ分析は、再発プロットを分析して、再発プロットに関連付けられる特徴のセットを取得することを含む。「律動特徴」又は「動的特徴」と同義に称され得る特徴は、複数のトレースに存在する周期性、予測可能性、及び遷移性を記述する定量的尺度を提供する。特徴は、再発率、決定論、平均対角線長、最大対角線長、発散、対角線長におけるシャノンエントロピー、再発の傾向、層状性、トラッピング時間、最大垂直線長、垂直線長におけるシャノンエントロピー、平均再発時間、再発時間におけるシャノンエントロピー、最も可能性の高い再発の回数、及び/又はそれらの任意の組み合わせを含むセットから選択される。
【0065】
いくつかの実施形態では、データ分析は、取得された特徴のセットを訓練されたモデルに入力することを更に含む。いくつかの実施形態では、訓練されたモデルは、生物学的状態を有する対象の確率を取得するための予測計算アルゴリズムを含む。いくつかの実施形態では、予測計算アルゴリズムは、以下の計算を実行する。
【数1】
ここで、p(対象)は、対象が第1の生物学的状態を有する確率であり、eは、オイラー数であり、αは、β
1×
1+…+β
k×
kがゼロに等しいときに対象が生物学的状態を有する確率に関連付けられる計算されたパラメータであり、x
1、…、x
kは、特徴のセットにおける各特徴について導出される値に対応し、特徴のセットは、1からkまでの特徴を含み、β
1、…、β
kは、1からkまでの特徴を含む特徴のセットにおける各特徴に関連付けられる重みパラメータに対応する。
【0066】
重みパラメータβ1、…、βkは、モデル訓練に基づいて定義され得る。確率p(対象)は、0~1の範囲の数として提供されてもよく、ここで、1は、対象が生物学的状態を有する100%の確率に対応する。
【0067】
いくつかの実施形態では、データ分析は、取得された確率p(対象)に閾値を適用することを含む。取得された確率p(対象)が所定の閾値を上回る場合、対象は生物学的状態を有すると評価される。取得された確率が閾値を下回る場合、対象は、生物学的状態を有していないと評価される。いくつかの実施形態では、閾値は、約0.3~0.6の間である(例えば、所定の閾値は、約0.3、0.35、0.4、0.45、0.5、0.55、又は0.6である)。確率的閾値に割り当てられる値は、受信者動作特性(ROC)チャートの使用を介して、モデルの訓練中に既定されるか、又は推定され得、使用される最適閾値は、最大曲線下面積(ROC-AUC)をもたらす値に対応する。いくつかの実施形態では、取得された確率は、関連するオッズ(例えば、OR=p/(1-p)のような確率から導出され得るオッズ比(OR))の観点から表される。例えば、評価は、対象が生物学的状態を有するオッズを評価することを含む。
【0068】
いくつかの実施形態では、データ分析は、第1の生物学的状態を代替的状態、例えば、第2の生物学的状態から区別することを含む。いくつかの実施形態では、代替的状態には、どの既知の状態(例えば、定型発達状態(NT))にも関連付けられない。いくつかの実施形態では、第1の生物学的状態は自閉症スペクトラム障害(ASD)に関連付けられ、代替的状態は注意欠陥/多動性障害(ADHD)に関連付けられる。いくつかの実施形態では、代替的状態は、任意の他の神経発達状態、又は2つの神経発達状態の併存診断である。したがって、データ分析は、2つの神経発達状態を区別する(例えば、自閉症スペクトラム障害とADHDとを区別するか、又はASDと、ASD及びADHDの両方と診断される併存(CM)症例とを区別する)ことが可能であり得る。
【0069】
患者の医師及び治療チームなどの医療提供者は、患者データ(例えば、動的生物学的反応データ又は他の健康データ)、及び/又はそのようなデータから生成された予測又は評価にアクセスすることができる。データ分析結果に基づいて、医療提供者は、臨床的決定又は転帰を判定し得る。
【0070】
例えば、医師は、少なくとも部分的に、対象における予測される疾患又は障害に基づいて、患者が病院又は他の臨床現場において1つ以上の臨床試験を受けるように指示し得る。これらの指示は、特定の所定の基準(例えば、疾患又は障害の可能性についての最小閾値)が満たされるときに提供され得る。
【0071】
そのような最小閾値は、例えば、少なくとも約5%の可能性、少なくとも約10%の可能性、少なくとも約20%の可能性、少なくとも約25%の可能性、少なくとも約30%の可能性、少なくとも約35%の可能性、少なくとも約40%の可能性、少なくとも約45%の可能性、少なくとも約50%の可能性、少なくとも約55%の可能性、少なくとも約60%の可能性、少なくとも約65%の可能性、少なくとも約70%の可能性、少なくとも約75%の可能性、少なくとも約80%の可能性、少なくとも約85%の可能性、少なくとも約90%の可能性、少なくとも約95%の可能性、少なくとも約96%の可能性、少なくとも約97%の可能性、少なくとも約98%の可能性、又は少なくとも約99%の可能性であり得る。
【0072】
別の例として、医師は、治療有効量の治療薬(例えば、薬物)、臨床手順、又は患者に施される更なる臨床試験を、対象における予測される疾患又は障害に少なくとも部分的に基づいて処方し得る。例えば、医師は、患者における炎症の兆候に応じて抗炎症治療薬を処方し得る。
【0073】
モデル
本開示の方法及びシステムは、様々な疾患又は障害のためのシグネチャを開発するために、人工知能技術の外部能力を利用又はアクセスすることができる。これらのシグネチャを使用して、疾患又は障害を正確に予測することができる(例えば、標準的な臨床ケアよりも数ヶ月又は数年早く)。そのような予測能力を使用して、医療提供者(例えば、医師)は、情報に基づいた正確なリスクベースの決定を行うことができ、それによって、患者に提供されるケア及びモニタリングの質を向上させることができる。
【0074】
本開示の方法及びシステムは、対象(患者)から取得した動的生物学的反応データを分析して、対象が疾患又は障害を有する可能性を生成することができる。例えば、システムは、訓練された(例えば、予測)アルゴリズムを取得された動的生物学的反応データに適用して、疾患又は障害を有する対象の可能性を生成し得る。訓練されたアルゴリズムは、取得された動的生物学的反応データを処理して、疾患又は障害を有する対象の可能性を生成するように構成された、機械学習ベースの分類器などの人工知能ベースのモデルを含み得る。モデルは、患者の1つ以上のコホートからの臨床データセットを使用して、例えば、患者の臨床健康データ及び/又は動的生物学的反応データを入力として使用し、患者の既知の臨床健康転帰(例えば、疾患又は障害)をモデルへの出力として使用して訓練され得る。
【0075】
モデルは、1つ以上の機械学習アルゴリズムを含み得る。機械学習アルゴリズムの例としては、サポートベクトルマシン(SVM)、ナイーブベイズ分類、ランダムフォレスト、ニューラルネットワーク(例えば、ディープニューラルネットワーク(DNN)、再帰型ニューラルネットワーク(RNN)、ディープRNN、長短期記憶(LSTM)再帰型ニューラルネットワーク(RNN)、又はゲート付き再帰型ユニット(GRU)、又は他の教師あり学習アルゴリズム、又は分類及び回帰のための教師なし機械学習、統計的、又は深層学習アルゴリズムが挙げられ得る。モデルは、同様に、複数の予測モデルからなるアンサンブルモデルの推定を含み得、例えば、勾配ブースト決定木の構築において、勾配ブーストなどの技法を利用し得る。モデルは、患者データに対応する1つ以上の訓練データセットを使用して訓練され得る。
【0076】
訓練データセットは、例えば、共通の臨床特性(特徴)及び臨床転帰(ラベル)を有する患者の1つ以上のコホートから生成され得る。訓練データセットは、特徴及び特徴に対応するラベルのセットを含み得る。特徴は、動的生物学的反応データ、電子医療記録(EMR)から導出される患者の人口統計学的情報、及び医療観察を含むアルゴリズム入力に対応し得る。特徴は、例えば、動的生物学的反応データの特定の範囲又はカテゴリなどの臨床特性を含み得る。特徴は、患者の年齢、患者の病歴、他の病状、現在又は過去の薬物、及び最後の観察からの時間などの患者情報を含み得る。例えば、所与の時点で所与の患者から収集された特徴のセットは、所与の時点での患者の健康状態又は状態を示すことができるシグネチャとして集合的に働き得る。
【0077】
例えば、動的生物学的反応データ及び他の健康測定値の範囲は、連続測定値の複数の互いに素な連続範囲として表され得、動的生物学的反応データ及び他の健康測定値のカテゴリは、測定値の複数の互いに素なセット(例えば、{「高」、「低」}、{「高」、「正常」}、{「低」、「正常」}、{「高」、「境界線高」、「正常」、「低」}など)として表され得る。臨床的特徴はまた、疾患又は障害の診断、以前に施した臨床治療(例えば、薬物、外科的治療、化学療法、放射線療法、免疫療法など)、行動要因、又は他の健康状態(例えば、高血圧、高血糖、高コレステロール血症又は高血中コレステロール、アレルギー反応又は他の副作用の病歴など)などの、患者の健康歴を示す臨床標識を含み得る。
【0078】
標識は、例えば、対象(例えば、患者)における疾患又は障害の存在、非存在、診断、又は予後などの臨床転帰を含み得る。臨床転帰は、患者における疾患又は障害の存在、非存在、診断、又は予後に関連付けられる時間的特徴を含み得る。例えば、時間的特徴は、患者が以前の臨床転帰(例えば、退院、薬物などの治療薬の投与、外科的手術などの臨床的処置を受けることなど)の後の特定の期間内に疾患又は障害が発生したことを示し得る。そのような期間は、例えば、約1時間、約2時間、約3時間、約4時間、約6時間、約8時間、約10時間、約12時間、約14時間、約16時間、約18時間、約20時間、約22時間、約24時間、約2日、約3日、約4日、約5日、約6日、約7日、約10日、約2週間、約3週間、約4週間、約1ヶ月、約2ヶ月、約3ヶ月、約4ヶ月、約6ヶ月、約8ヶ月、約10ヶ月、約1年、又は約1年を超えてもよい。
【0079】
入力特徴は、データをビンに集約することによって、又は代替的にワンホットエンコーディングを使用することによって構造化され得る。入力はまた、固定された期間にわたって別々の動的生物学的反応データ又は他の測定値間で計算された相互相関、及び離散導関数又は連続した測定値間の有限差など、前述の入力から導出された特徴値又はベクトルを含み得る。そのような期間は、例えば、約1時間、約2時間、約3時間、約4時間、約6時間、約8時間、約10時間、約12時間、約14時間、約16時間、約18時間、約20時間、約22時間、約24時間、約2日、約3日、約4日、約5日、約6日、約7日、約10日、約2週間、約3週間、約4週間、約1ヶ月、約2ヶ月、約3ヶ月、約4ヶ月、約6ヶ月、約8ヶ月、約10ヶ月、約1年、又は約1年を超えてもよい。
【0080】
訓練記録は、観察のシーケンスから構築され得る。そのようなシーケンスは、データ処理を容易にするために固定された長さを含み得る。例えば、シーケンスは、ゼロパディングされてもよく、又は単一の患者の記録の独立したサブセットとして選択されてもよい。
【0081】
モデルは、入力特徴を処理して、1つ以上の分類、1つ以上の予測、又はそれらの組み合わせを含む出力値を生成し得る。例えば、そのような分類又は予測は、健康/正常な健康状態(例えば、疾患又は障害の非存在)又は有害な健康状態(例えば、疾患又は障害の存在)のバイナリ分類、カテゴリーラベルの群間の分類(例えば、「疾患又は障害なし」、「明らかな疾患又は障害」、及び「疾患又は障害の疑い」)、特定の疾患又は障害を発症する可能性(例えば、相対的な可能性又は確率)、疾患又は障害の存在を示すスコア、患者が経験する全身性炎症のレベルを示すスコア、患者の死亡確率を示す「リスク因子」、患者が疾患又は障害を発症したと予想される時間の予測、及び任意の数値的予測の信頼区間を含み得る。様々な機械学習技術は、機械学習技術の出力が、モデルの後続の層又はサブセクションへの入力特徴としても使用され得るようにカスケードされ得る。
【0082】
(例えば、モデルの重み及び相関を判定することによって)モデルを訓練して、リアルタイムの分類又は予測を生成するために、モデルを、データセットを使用して訓練することができる。そのようなデータセットは、統計的に有意な分類又は予測を生成するのに十分な大きさであり得る。例えば、データセットは、動的生物学的反応データ及び他の測定値、並びに病院又は他の臨床環境からの動的生物学的反応データ及び他の測定値を含む、非識別データのデータベースを含み得る。
【0083】
データセットは、訓練データセット、展開データセット、及び試験データセットなどのサブセット(例えば、離散又は重複)に分割され得る。例えば、データセットは、データセットの80%を含む訓練データセットと、データセットの10%を含む展開データセットと、データセットの10%を含む試験データセットとに分割され得る。訓練データセットは、データセットの約10%、約20%、約30%、約40%、約50%、約60%、約70%、約80%、又は約90%を含み得る。展開データセットは、データセットの約10%、約20%、約30%、約40%、約50%、約60%、約70%、約80%、又は約90%を含み得る。試験データセットは、データセットの約10%、約20%、約30%、約40%、約50%、約60%、約70%、約80%、又は約90%を含み得る。訓練セット(例えば、訓練データセット)は、サンプリングの独立性を確保するために、1つ以上の患者コホートに対応するデータのセットのランダムサンプリングによって選択され得る。代替的に、訓練セット(例えば、訓練データセット)は、サンプリングの独立性を確保するために、1つ以上の患者コホートに対応するデータのセットの比例サンプリングによって選択され得る。
【0084】
モデル予測の精度を向上させ、モデルの過学習を低減させるために、データセットを増強して、訓練セット内の試料の数を増加させることができる。例えば、データ増強は、訓練レコード内の観測の順序を再配置することを含み得る。欠落観測を有するデータセットに対応するために、欠落データを補完する方法、例えば、フォワードフィッティング、バックフィッティング、線形補間、及びマルチタスクガウスプロセスが使用されてもよい。交絡因子を除去するために、データセットをフィルタリングすることができる。例えば、データベース内で、患者のサブセットを除外してもよい。
【0085】
モデルは、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)、ディープニューラルネットワーク(DNN)、再帰型ニューラルネットワーク(RNN)、又はディープRNNなどの1つ以上のニューラルネットワークを含み得る。再帰型ニューラルネットワークは、長短期記憶(LSTM)ユニット又はゲート付き再帰型ユニット(GRU)であり得るユニットを含み得る。例えば、モデルは、バイタルサイン及び他の測定値、患者の病歴、及び/又は患者の人口統計などの入力特徴のセットを有するニューラルネットワークを含むアルゴリズムアーキテクチャを含み得る。ニューラルネットワーク技法、例えば、ドロップアウト又は正則化は、過学習を防止するために、モデルを訓練する間に使用され得る。ニューラルネットワークは、複数のサブネットワークを含み得、各サブネットワークは、異なるタイプの出力情報の分類又は予測を生成するように構成される(例えば、ニューラルネットワークの全体的な出力を形成するために組み合わされ得る)。機械学習モデルは、代替的に、ランダムフォレスト、分類及び回帰木、サポートベクトルマシン、判別分析、回帰技術、並びにそれらのアンサンブル及び勾配ブーストされたバリエーションを含む、統計的アルゴリズム又は関連するアルゴリズムを利用し得る。
【0086】
モデルが疾患又は障害の分類又は予測を生成するとき、通知(例えば、アラート又はアラーム)が生成され、病院内の患者の治療チームの医師、看護師、又は他のメンバーなどの医療提供者に送信され得る。通知は、自動電話、ショートメッセージサービス(SMS)又はマルチメディアメッセージサービス(MMS)メッセージ、電子メール、又はダッシュボード内のアラートを介して送信され得る。通知は、疾患又は障害の予測、予測される疾患又は障害の可能性、疾患又は障害の予想される発症までの時間、可能性又は時間の信頼区間、又は疾患又は障害についての推奨される治療コースなどの出力情報を含み得る。
【0087】
モデルのパフォーマンスを検証するために、異なるパフォーマンスメトリックが生成され得る。例えば、受信者動作曲線(AUROC)下面積を使用して、モデルの診断能力を判定し得る。例えば、モデルは、調整可能である分類閾値を使用し得、それによって、特異性及び感度が調整可能になり、受信者動作曲線(ROC)を使用して、特異性及び感度の異なる値に対応する異なる動作点を識別することができる。
【0088】
データセットが十分に大きくないときなどのいくつかの場合には、異なる訓練データセット及び試験データセットにわたってモデルの堅牢性を評価するために交差検証が行われ得る。
【0089】
感度、特異性、精度、陽性予測値(PPV)、陰性予測値(NPV)、AUPRC、AUROCなどのパフォーマンスメトリックを計算するために、以下の定義を使用してもよい。「偽陽性」とは、陽性の転帰又は結果が誤って又は時期尚早に生成された(例えば、疾患又は障害の実際の発症の前に、又は発症なしに)転帰を指し得る。「真陽性」は、患者が疾患又は障害を有するとき(例えば、患者が疾患又は障害の症状を示すか、又は患者の記録が疾患又は障害を示す)、陽性の転帰又は結果が正しく生成された転帰を指し得る。「偽陰性」は、陰性の結果又は結果が生成されたが、患者が疾患又は障害を有する(例えば、患者が疾患又は障害の症状を示すか、又は患者の記録が疾患又は障害を示す)転帰を指し得る。「真陰性」とは、陰性の転帰又は結果が生成された転帰を指し得る(例えば、疾患又は障害の実際の発症の前、又は発症のない状態)。
【0090】
モデルは、診断精度測定に対応する最小所望の値を有するなど、精度又はパフォーマンスについての特定の所定の条件が満たされるまで訓練され得る。例えば、診断精度測定値は、対象における疾患又は障害の発生の可能性の予測に対応し得る。別の例として、診断精度測定値は、対象が以前に治療された疾患又は障害の悪化又は再発の可能性の予測に対応してもよい。診断精度測定の例としては、疾患又は障害を検出又は予測する診断精度に対応する感度、特異性、陽性予測値(PPV)、陰性予測値(NPV)、精度、精度-再現率曲線下面積(AUPRC)、及び受信者動作特性(ROC)曲線下面積(AUC)(AUROC)が挙げられ得る。
【0091】
例えば、そのような所定の状態は、疾患又は障害を予測する感度が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の値を含むことができる。
【0092】
別の例として、そのような所定の状態は、疾患又は障害を予測する特異性が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の値を含むことができる。
【0093】
別の例として、そのような所定の状態は、疾患又は障害を予測する陽性予測値(PPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の値を含むことができる。
【0094】
別の例として、そのような所定の状態は、疾患又は障害を予測する陰性予測値(NPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の値を含むことができる。
【0095】
別の例として、そのような所定の条件は、疾患又は障害を予測する受信者動作特性(ROC)曲線下面積(AUC)(AUROC)が、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、又は少なくとも約0.99の値を含むことができる。
【0096】
別の例として、そのような所定の条件は、疾患又は障害を予測する精度-再現率曲線下面積(AUPRC)が、少なくとも約0.10、少なくとも約0.15、少なくとも約0.20、少なくとも約0.25、少なくとも約0.30、少なくとも約0.35、少なくとも約0.40、少なくとも約0.45、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、又は少なくとも約0.99の値を含むことができる。
【0097】
いくつかの実施形態では、訓練されたモデルは、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の感度を伴って疾患又は障害を予測するように訓練又は構成されてもよい。
【0098】
いくつかの実施形態では、訓練されたモデルは、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の特異性を伴って疾患又は障害を予測するように訓練又は構成されてもよい。
【0099】
いくつかの実施形態では、訓練されたモデルは、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の陽性予測値(PPV)を伴って疾患又は障害を予測するように訓練又は構成されてもよい。
【0100】
いくつかの実施形態では、訓練されたモデルは、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の陰性予測値(NPV)を伴って疾患又は障害を予測するように訓練又は構成されてもよい。
【0101】
いくつかの実施形態では、訓練されたモデルは、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、又は少なくとも約0.99の受信者動作特性(ROC)曲線下面積(AUC)(AUROC)を伴って疾患又は障害を予測するように訓練されてもよく、又は構成されてもよい。
【0102】
いくつかの実施形態では、訓練されたモデルは、少なくとも約0.10、少なくとも約0.15、少なくとも約0.20、少なくとも約0.25、少なくとも約0.30、少なくとも約0.35、少なくとも約0.40、少なくとも約0.45、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.97、少なくとも約0.98、又は少なくとも約0.99の適合率-再現率曲線下面積(AUPRC)を有する疾患又は障害を予測するように訓練又は構成されてもよい。
【0103】
訓練データセットは、訓練対象(例えば、ヒト)から収集され得る。各訓練は、生物学的状態を有すると診断されたか、又は生物学的状態を有すると診断されていないことを示す診断状態を有する。いくつかの実施形態では、訓練対象は、12歳以下(例えば、5歳、4歳、3歳、2歳、1歳、生後9ヶ月、6ヶ月、3ヶ月又は1ヶ月以下)の小児である。いくつかの実施形態では、小児は、約12歳~約5歳である。いくつかの実施形態では、ヒトは、約12、11、10、9、8、7、5、4、3、2、又は1歳未満である。いくつかの実施形態では、ヒトは、少なくとも約1、2、3、4、5、6、7、8、9、10、11、又は12歳である。以下の訓練手順は、複数の訓練対象における各訓練対象について実行することができる。
【0104】
訓練対象の生物学的試料上の基準線の複数の位置をサンプリングして、それによって、複数の動的生物学的反応試料を取得し得る。対応する複数の位置における異なる位置についての、対応する複数の動的生物学的反応試料における各動的生物学的反応試料、及び対応する生物学的試料の異なる成長期間を表す、対応する複数の位置における各位置。次に、生物学的反応試料の各それぞれの位置を(例えば、レーザアブレーション誘導結合プラズマ質量分析計(LA-ICP-MS)、蛍光イメージセンサ、又はラマン分光分析計を使用して)分析して、複数のトレースを取得する。対応する複数のトレースにおける各トレースは、対応する複数の動的生物学的反応試料から経時的に集合的に判定される、対応する物質の存在量測定に対応する。
【0105】
次に、それぞれの第2のデータセットは、特徴の対応するセットを含む対応する複数のトレースから取得され得、特徴の対応するセットにおける各それぞれの特徴は、再発定量分析又は関連する方法を、ラマン波形又はICA/PCA又は関連する次元低減技術を介してラマン波形から導出される次元に適用することによって評価されるような、対応する複数のトレースにおける1つ以上の物質の存在量の変化によって判定される。
【0106】
次に、(i)複数の訓練対象における各訓練対象の各それぞれの第2のデータセットの特徴の対応するセットと、(ii)第1の診断状態及び第2の診断状態の中から選択される、複数の訓練対象における各訓練対象の対応する診断状態と、を有する、訓練されていないか又は部分的に訓練されていないモデルが生成されてもよく、それによって、訓練されたモデルが取得される。訓練されたモデルは、試験対象の生物学的試料から取得された特徴のセットの特徴の値に基づいて、試験対象が第1の生物学的状態を有するかどうかに関する指標を提供する。いくつかの実施形態では、訓練されたモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、又はそれらの任意の組み合わせ若しくは変形であり、特に、記載されたアルゴリズムの勾配ブースト実装形態、例えば、勾配ブーストされた決定木を含む。いくつかの実施形態では、訓練された機械学習モデルは、勾配ブーストされたアンサンブルアルゴリズムを利用する。いくつかの実施形態では、訓練されたモデルは、多項又は二項分類器である。いくつかの実施形態では、訓練されたモデルを使用して、試料が第1の生物学的状態を有する対象から導出されたか否かに関するバイナリ予測を行うことができ、又は、診断を有さない対象を、第1の生物学的状態、又は第1の生物学的状態とは異なる第2の生物学的状態を有する対象から区別する多項予測であってもよい。
【0107】
いくつかの実施形態では、モデルはニューラルネットワーク又は畳み込みニューラルネットワークである。Vincent et al.,2010,“Stacked denoising autoencoders:Learning useful representation in a deep network with a local denoising criterion,”J Mach Learn Res 11,pp.3371-3408、Larochelle et al.,2009,“Exploring strategies for training deep neural networks,”J Mach Learn Res 10,pp.1-40、及びHassoun,1995,Fundamentals of Artificial Neural Networks,Massachusetts Institute of Technologyを参照されたい。これらは各々、参照により本明細書に組み込まれる。
【0108】
ラマン波形の教師なし次元低減において本明細書に記載されるような独立成分分析(ICA)は、Lee,T.-W.(1998):Independent component analysis:Theory and applications,Boston,Mass:Kluwer Academic Publishers,ISBN 0-7923-8261-7、及びHyvarinen,A.;Karhunen,J.;Oja,E.(2001):Independent Component Analysis,New York:Wiley,ISBN 978-0-471-40540-5に記載されている。この文献は、参照によりその全体が本明細書に組み込まれる。
【0109】
ラマン波形の教師なし次元低減において本明細書に記載されるような主成分分析(PCA)は、Jolliffe,I.T.(2002).Principal Component Analysis.Springer Series in Statistics.New York:Springer-Verlag.doi:10.1007/b98835.ISBN 978-0-387-95442-4に記載されている。この文献は、参照によりその全体が本明細書に組み込まれる。
【0110】
SVMは、Cristianini and Shawe-Taylor,2000,“An Introduction to Support Vector Machines,”Cambridge University Press,Cambridge、Boser et al.,1992,“A training algorithm for optimal margin classifiers,”in Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory,ACM Press,Pittsburgh,Pa.,pp.142-152、Vapnik,1998,Statistical Learning Theory,Wiley,New York、Mount,2001,Bioinformatics:sequence and genome analysis,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.、Duda,Pattern Classification,Second Edition,2001,John Wiley & Sons,nc.,pp.259,262-265、及びHastie,2001,The Elements of Statistical Learning,Springer,New York、及びFurey et al.,2000,Bioinformatics 16,906-914に記載されており、これらは各々、参照によりその全体が本明細書に組み込まれる。分類に使用される場合、SVMは、ラベル付けされたデータから、最大限に離れたハイパープレーンを使用して、バイナリラベル付けされたデータの所与のセットを分離する。線形分離が不可能な場合、SVMは、特徴空間への非線形マッピングを自動的に実現する「カーネル」の技術と組み合わせて機能することができる。特徴空間内のSVMによって見出される超平面は、入力空間内の非線形決定境界に対応する。
【0111】
決定木分類器は、参照により本明細書に組み込まれるDuda,2001,Pattern Classification,John Wiley & Sons,Inc.,New York,pp.395-396によって概説されている。決定木に基づく方法は、特徴空間を長方形のセットに分割し、各々に(定数のような)モデルを適合させる。いくつかの実施形態では、決定木はランダムフォレスト回帰である。使用され得る1つの特定のアルゴリズムは、分類及び回帰木(CART)である。他の特定の決定木アルゴリズムには、ID3、C4.5、MART、及びランダムフォレストが含まれるが、これらに限定されない。CART、ID3、及びC4.5は、参照により本明細書に組み込まれるDuda,2001,Pattern Classification,John Wiley & Sons,Inc.,New York,pp.396-408 and pp.411-412に記載されている。CART、MART、及びC4.5は、参照によりその全体が本明細書に組み込まれるHastie et al.,2001,The Elements of Statistical Learning,Springer-Verlag,New York,Chapter 9に記載されている。ランダムフォレストは、参照によりその全体が本明細書に組み込まれるBreiman,1999,“Random Forests-Random Features,”Technical Report 567,Statistics Department,U.C.Berkeley,September 1999に記載されている。
【0112】
クラスタリング(例えば、教師なしクラスタリングモデルアルゴリズム及び教師ありクラスタリングモデルアルゴリズム)は、参照によりその全体が本明細書に組み込まれるDuda and Hart,Pattern Classification and Scene Analysis,1973,John Wiley & Sons,Inc.,New York(以下「Duda 1973」)の211-256ページに記載されている。Duda 1973の6.7節に記載されているように、クラスタリング問題は、データセット内の自然なグループを見つけることの1つとして説明される。自然なグループを識別するために、2つの問題が対処される。まず、2つの試料間の類似度(又は非類似度)を測定する方法が判定される。このメトリック(類似度尺度)は、あるクラスタにおける試料が他のクラスタにおける試料よりも互いに似ていることを保証するために使用される。第二に、類似度尺度を使用してデータをクラスタに区分するためのメカニズムが判定される。類似度尺度はDuda 1973の6.7節で議論されており、クラスタリング調査を開始する1つの方法は、距離関数を定義し、訓練セット内の全ての試料ペア間の距離の行列を計算することである。距離が類似度の良好な尺度である場合、同じクラスタにおける参照エンティティ間の距離は、異なるクラスタにおける参照エンティティ間の距離よりも有意に短くなる。しかし、Duda 1973の215ページに記載されているように、クラスタリングは距離メトリックの使用を必要としない。例えば、非メトリック類似度関数s(x,x’)を使用して、2つのベクトルx及びx’を比較することができる。従来、s(x,x’)は、x及びx’が何らかの形で「類似している」ときにその値が大きい対称関数である。非メトリック類似度関数s(x,x’)の例は、Duda 1973の218ページに提供されている。データセット内の点間の「類似度」又は「非類似度」を測定するための方法が選択されると、クラスタリングでは、データの任意のパーティションのクラスタリング品質を測定する基準関数を必要になる。基準関数を極端化するデータセットのパーティションは、データをクラスタ化するために使用される。Duda 1973の217ページを参照されたい。基準関数については、Duda 1973の6.8節で考察されている。最近では、Duda et al.,Pattern Classification,2nd edition,John Wiley & Sons,Inc.,New Yorkが出版された。537~563ページにクラスタリングについて詳細に記載されている。クラスタリング手法の詳細については、Kaufman and Rousseeuw,1990,Finding Groups in Data:An Introduction to Cluster Analysis,Wiley,New York,N.Y.;Everitt,1993,Cluster analysis(3d ed.),Wiley,New York,N.Y.、及びBacker,1995,Computer-Assisted Reasoning in Cluster Analysis,Prentice Hall,Upper Saddle River,New Jerseyを参照されたい。これらは各々、参照により本明細書に組み込まれる。本開示で使用することができる特定の例示的なクラスタリング技術には、階層的クラスタリング(最近傍アルゴリズム、最遠傍アルゴリズム、平均リンケージアルゴリズム、重心アルゴリズム、又は二乗和アルゴリズムを使用する凝集クラスタリング)、k平均法クラスタリング、ファジィk平均法クラスタリングアルゴリズム、及びJarvis-Patrickクラスタリングが含まれるが、これらに限定されない。いくつかの実施形態では、クラスタリングは、教師なしクラスタリングを含み、この場合、訓練セットがクラスタ化されるときに、どのクラスタが形成されるべきかについての先入観が課されない。
【0113】
マルチカテゴリロジットモデルのような回帰モデルは、参照によりその全体が本明細書に組み込まれるAgresti,An Introduction to Categorical Data Analysis,1996,John Wiley & Sons,Inc.,New York,Chapter 8に記載されている。いくつかの実施形態では、このモデルは、参照によりその全体が本明細書に組み込まれる、Hastie et al.,2001,The Elements of Statistical Learning,Springer-Verlag,New Yorkに開示されるリグレッサモデルを利用する。いくつかの実施形態では、勾配ブーストモデルは、例えば、本明細書で説明される分類アルゴリズムを目的として使用され、これらの勾配ブーストモデルは、Boehmke,Bradley;Greenwell,Brandon(2019).“Gradient Boosting”.Hands-On Machine Learning with R.Chapman& Hall.pp.221-245.ISBN 978-1-138-49568-5に記載されている。この文献は、参照によりその全体が本明細書に組み込まれる。いくつかの実施形態では、アンサンブルモデリング技術は、例えば、本明細書に記載の分類アルゴリズムに向かって使用され、これらのアンサンブルモデリング技術は、本明細書の分類モデルの実装形態に記載され、Zhou Zhihua(2012).Ensemble Methods:Foundations and Algorithms.Chapman and Hall/CRC.ISBN 978-1-439-83003-1で説明されている。この文献は、参照によりその全体が本明細書に組み込まれる。
【0114】
いくつかの実施形態では、機械学習分析は、データ分析を実行する命令を含む、1つ以上のプログラム(例えば、
図1の非永続メモリ111又は永続メモリ112に記憶された1つ以上のプログラム)を実行するデバイスによって実行される。いくつかの実施形態では、データ分析は、少なくとも1つのプロセッサ(例えば、処理コア102)と、データ分析を実行する命令を含むメモリ(例えば、非永続メモリ111又は永続メモリ112に記憶された1つ以上のプログラム)と、を含むシステムによって実行される。
【0115】
コンピュータシステム
本開示は、本開示の方法を実装するようにプログラムされたコンピュータシステムを提供する。
図4は、例えば、歯試料のラマンシグネチャを取得し、歯試料にわたって空間的にラマンスペクトルを分析し、時間ラマンプロファイルを生成し、訓練されたモデルを使用してデータを処理し、及び疾患又は障害に関する被験者の診断状態を予測するようにプログラムされるか、又はそうでなければ構成されるコンピュータシステム401を示す。コンピュータシステム401は、例えば、歯試料を染色すること、染色された歯試料の蛍光画像を取得すること、染色された歯試料にわたって空間的に蛍光強度を分析すること、炎症の時間プロファイルを生成すること、時間プロファイルのダイナミクスを測定すること、訓練されたモデルを使用してデータを処理すること、疾患又は障害に関する対象の診断状態を予測することなど、本開示のセンサデータ分析の様々な態様を調節することができる。コンピュータシステム401は、ユーザの電子デバイス、又は電子デバイスに対して遠隔に配置されたコンピュータシステムであり得る。電子デバイスは、モバイル電子デバイスであってもよい。
【0116】
コンピュータシステム401は、中央処理ユニット(CPU、本明細書では「プロセッサ」及び「コンピュータプロセッサ」も含む)405を含み、中央処理ユニット405は、シングルコア又はマルチコアプロセッサ、又は並列処理のための複数のプロセッサであり得る。コンピュータシステム401はまた、メモリ又はメモリ位置410(例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)と、電子記憶ユニット415(例えば、ハードディスク)と、1つ以上の他のシステムと通信するための通信インターフェース420(例えば、ネットワークアダプタ)と、キャッシュ、他のメモリ、データストレージ及び/又は電子ディスプレイアダプタなどの周辺デバイス425と、を含む。メモリ410、記憶ユニット415、インターフェース420、及び周辺デバイス425は、マザーボードなどの通信バス(実線)を通じてCPU405と通信している。記憶ユニット415は、データを記憶するためのデータ記憶ユニット(又はデータリポジトリ)であり得る。コンピュータシステム401は、通信インターフェース420の助けを借りて、コンピュータネットワーク(「ネットワーク」)430に動作可能に結合され得る。ネットワーク430は、インターネット、インターネット及び/若しくはエクストラネット、又はインターネットと通信しているイントラネット及び/若しくはエクストラネットであり得る。いくつかの場合には、ネットワーク430は、電気通信及び/又はデータネットワークである。ネットワーク430は、1つ以上のコンピュータサーバを含むことができ、コンピュータサーバは、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる。ネットワーク430は、いくつかの場合には、コンピュータシステム401の助けを借りて、ピアツーピアネットワークを実装することができ、ピアツーピアネットワークは、コンピュータシステム401に結合されたデバイスがクライアント又はサーバとして動作することを可能にし得る。
【0117】
CPU405は、一連の機械可読命令を実行することができ、機械可読命令は、プログラム又はソフトウェアで具現化され得る。命令は、メモリ410などのメモリ位置に記憶されてもよい。命令は、CPU405に指示することができ、CPU405は、その後、本開示の方法を実装するようにCPU405をプログラムするか、又は他の方法で構成することができる。CPU405によって実行される動作の例は、フェッチ、デコード、実行、及び書き戻しを含むことができる。
【0118】
CPU405は、集積回路などの回路の一部分であり得る。システム401の1つ以上の他の構成要素は、回路に含まれてもよい。いくつかの場合には、回路は特定用途向け集積回路(ASIC)である。
【0119】
記憶ユニット415は、ドライバ、ライブラリ、及び保存されたプログラムなどのファイルを記憶することができる。記憶ユニット415は、ユーザデータ、例えば、ユーザプリファレンス及びユーザプログラムを記憶することができる。いくつかの場合には、コンピュータシステム401は、イントラネット又はインターネットを通じてコンピュータシステム401と通信しているリモートサーバ上に位置するなど、コンピュータシステム401の外部にある1つ以上の追加のデータ記憶ユニットを含むことができる。
【0120】
コンピュータシステム401は、ネットワーク430を通じて1つ以上のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム401は、ユーザ(例えば、医療提供者)のリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例としては、パーソナルコンピュータ(例えば、ポータブルPC)、スレート又はタブレットPC(例えば、Apple(登録商標)iPad、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone、Android対応デバイス、Blackberry(登録商標))、又はパーソナルデジタルアシスタントが挙げられる。ユーザは、ネットワーク430を介してコンピュータシステム401にアクセスすることができる。
【0121】
本明細書に記載される方法は、例えば、メモリ410又は電子記憶ユニット415上などの、コンピュータシステム401の電子記憶位置上に記憶された機械(例えば、コンピュータプロセッサ)実行可能コードによって実装され得る。機械実行可能コード又は機械可読コードは、ソフトウェアの形態で提供することができる。使用中、コードは、プロセッサ405によって実行され得る。いくつかの場合には、コードは、記憶ユニット415から取り出され、プロセッサ405による即時アクセスのためにメモリ410に記憶されることができる。いくつかの状況では、電子記憶ユニット415は排除され得、機械実行可能命令はメモリ410に記憶される。
【0122】
コードは、コードを実行するように適合されたプロセッサを有するマシンとともに使用するように事前コンパイルされ、構成され得るか、又はランタイム中にコンパイルされ得る。コードは、事前コンパイルされた方法又はコンパイルされたままの方法でコードを実行するのを可能にするように選択できるプログラミング言語で提供することができる。
【0123】
コンピュータシステム401などの本明細書に提供されるシステム及び方法の態様は、プログラミングにおいて具体化され得る。技術の様々な態様は、典型的には、一種の機械可読媒体で搬送されるか又は具体化される機械(又はプロセッサ)実行可能コード及び/又は関連データの形態である「製品」又は「製造物品」と考えられ得る。機械実行可能コードは、メモリ(例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)又はハードディスクなどの電子記憶ユニットに記憶され得る。「記憶」型媒体は、コンピュータ、プロセッサなどの有形メモリ、又は様々な半導体メモリ、テープドライブ、ディスクドライブなどの、有形メモリの関連モジュールのうちのいずれか若しくは全てを含むことができ、これらの媒体は、ソフトウェアプログラミングのためにいつでも非一時的な記憶を提供し得る。ソフトウェアの全て又は一部分は、インターネット又は様々な他の電気通信ネットワークを通じて通信され得る。そのような通信は、例えば、あるコンピュータ又はプロセッサから別のコンピュータ、例えば、管理サーバ又はホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にし得る。したがって、ソフトウェア要素を担持し得る別のタイプの媒体は、ローカルデバイス間の物理的インターフェースを介し、有線及び光固定回線ネットワークを通じて様々なエアリンクを介して使用されるような光波、電波、及び電磁波を含む。有線又は無線リンク、光学リンクなどのそのような波を搬送する物理的要素も、ソフトウェアを担持する媒体とみなされ得る。本明細書で使用される場合、非一時的な有形の「記憶」媒体に限定されない限り、コンピュータ又は機械「可読媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。
【0124】
したがって、コンピュータ実行可能コードなどの機械可読媒体は、有形記憶媒体、搬送波媒体、又は物理伝送媒体を含むがこれらに限定されない多くの形態をとり得る。不揮発性記憶媒体は、例えば、図面に示されるデータベースなどを実装するために使用され得る、任意のコンピュータなどにおける記憶デバイスのいずれかなどの光学又は磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリなどの動的メモリを含む。有形伝送媒体には、同軸ケーブル、コンピュータシステム内のバスを構成するワイヤを含む銅線及び光ファイバーが含まれる。搬送波伝送媒体は、電気信号又は電磁信号、又は無線周波(RF)及び赤外線(IR)データ通信中に生成されるような音響波又は光波の形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVD、又はDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROM、及びEPROM、FLASH-EPROM、任意の他のメモリチップ若しくはカートリッジ、データ若しくは命令を運ぶ搬送波、そのような搬送波を運ぶケーブル若しくはリンク、又はコンピュータがプログラミングコード及び/若しくはデータを読み取ることができる任意の他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、実行のために1つ以上の命令の1つ以上のシーケンスをプロセッサに搬送することに関与し得る。
【0125】
コンピュータシステム401は、例えば、蛍光画像データ、ラマン画像データ、ラマンスペクトルデータ、時間ラマンプロファイル、及びモデルを提供するためのユーザインターフェース(UI)440を含む電子ディスプレイ435を含むか、又はそれと通信することができる。UIの例としては、限定されないが、グラフィカルユーザインターフェース(GUI)及びウェブベースユーザインターフェースが挙げられる。
【0126】
本開示の方法及びシステムは、1つ以上のアルゴリズムによって実装することができる。アルゴリズムは、中央処理ユニット405による実行時にソフトウェアによって実装することができる。アルゴリズムは、例えば、歯試料のラマン画像を取得し、歯試料にわたって空間的にラマンスペクトルを分析し、時間ラマンプロファイルを生成し、訓練されたモデルを使用してデータを処理し、疾患又は障害に関する被験者の診断状態を予測することができる。
【実施例】
【0127】
実施例1:自閉症スペクトラム障害(ASD)疾患リスクを判定するための歯試料における動的ラマン分光プロファイル
本開示の方法及びシステムを使用して、歯試料における動的ラマン分光プロファイルを生成し、その後分析して、対象における疾患リスクを判定した。一般に、生物学的反応の時間的ダイナミクス(例えば、生理学的反応)は、試料(例えば、歯試料)に刻印されていることが判明した。この時間的ダイナミクスを分析して、対象の疾患リスクを判定することができる。自閉症スペクトラム障害を有する第1のセット及び自閉症スペクトラム障害(ASD)を有さない第2のセットの小児の2つのセットにおいて、胎児(出生前)発達及び幼児期を含む期間中に、動的ラマン分光プロファイルが生成された。動的ラマン分光プロファイルを分析して新規特徴を明らかにした。この特徴によって、自閉症の症例と対照が正確に区別された。例えば、若年期分光シグネチャは、後の人生におけるASDの疾患リスクを明らかにすることが見出された。これとは対照的に、自閉症の臨床診断は通常、3~4歳頃に判定される。
【0128】
各小児対象から一次歯試料を取得した。歯試料を分割し、ラマン分光シグナルを歯試料上で測定して、出生前及び出生後の生理学的反応を示す時間ラマン分光プロファイルを開発した。時間プロファイルを本開示の機械学習アルゴリズムを使用して分析し、疾患リスク(例えば、自閉症)を判定するための非常に正確なモデルを訓練した。
【0129】
図5は、自閉症スペクトラム障害の対象を評価する開示された方法の精度を評価するための実験的受信者動作特性(ROC)曲線によって示されるような、ラマン波形のICAによって導出される次元へのRQAの適用から導出される特徴を利用した自閉症スペクトラム障害(ASD)の診断の分類器精度の例を示す。ROC曲線は、バイナリ分類器のパフォーマンスを評価するために使用することができる。ROC曲線は、特異性(真陰性率とも呼ばれる)に対する感度(真陽性率とも呼ばれる)としてプロットされる。完全な分類器は、100%感度及び100%特異性、並びに1.0の曲線下面積(AUC)を有し得る。
図5に示されるように、動的ラマンRQA動的プロファイルに基づいて対象におけるASDの存在を判定するように構成された分類器は、0.861の受信者動作特性(ROC)曲線下面積(AUC)を有し、95%信頼区間(CI)が、0.769~0.954であった。受信者動作特性(ROC)は、変化する閾値としての分類器の感度及び特異性値が確率論的予測にどのように割り当てられるかを示す。
【0130】
したがって、本開示の方法及びシステムを使用したラマン分光シグネチャの分析は、小児対象から非侵襲的に取得された生物学的試料(例えば、歯試料)上で測定された分光シグネチャのみを使用して、0.86AUCを超える自閉症の疾患リスクを判定することに成功した。これらの結果は、若年期の人間生理学のダイナミクスが後に疾患に関連付けられ、そのことを本開示の方法及びシステムを使用して正確に検出及びプロファイリングすることができることを実証する。
【0131】
実施例2:筋萎縮性側索硬化症リスクを判定するための歯試料における動的ラマン分光プロファイル
本開示の方法及びシステムを使用して、歯試料における動的ラマン分光プロファイルを生成し、その後分析して、対象における疾患リスクを判定した。一般に、生物学的反応の時間的ダイナミクス(例えば、生理学的反応)は、試料(例えば、歯試料)に刻印されていることが見出され、この時間的ダイナミクスを分析して、対象の疾患リスクを判定することができる。動的ラマン分光学プロファイルは、筋萎縮性側索硬化症(ALS)を有する第1のセット及びALSを有しない第2のセットの成人の2つのセットにおいて、幼児期及び青年期を含む期間中に生成された。動的ラマン分光学プロファイルを分析して新規特徴を明らかにした。この特徴によって、ALS症例が対照から正確に区別された。例えば、若年期分光シグネチャは、後の人生におけるALSの疾患リスクを明らかにすることが見出された。
【0132】
各成人対象から永久歯試料を取得した。歯試料を分割し、ラマン分光信号を歯試料上で測定して、幼児期及び青年期の生理学的反応を示す時間ラマン分光プロファイルを開発した。時間プロファイルを本開示の機械学習アルゴリズムを使用して分析し、疾患リスク(例えば、ALS)を判定するための非常に正確なモデルを訓練した。
【0133】
図6は、自閉症スペクトラム障害の対象を評価する開示された方法の精度を評価するための実験的受信者動作特性(ROC)曲線によって示されるような、ラマン波形のICAによって導出される次元へのRQAの適用から導出される特徴を利用したALSの診断の分類器精度の例を示す。ROC曲線は、バイナリ分類器のパフォーマンスを評価するために使用することができる。ROC曲線は、特異性(真陰性率とも呼ばれる)に対する感度(真陽性率とも呼ばれる)としてプロットされる。完全な分類器は、100%感度及び100%特異性、並びに1.0の曲線下面積(AUC)を有し得る。
図6に示されるように、動的ラマンRQA動的プロファイルに基づいて対象におけるASDの存在を判定するように構成された分類器は、0.880の受信者動作特性(ROC)曲線下面積(AUC)を有し、95%信頼区間(CI)が、0.658~1.000であった。受信者動作特性(ROC)は、変化する閾値としての分類器の感度及び特異性値が確率論的予測にどのように割り当てられるかを示す。
【0134】
したがって、本開示の方法及びシステムを使用したラマン分光シグネチャの分析は、成人からの生物学的試料(例えば、歯試料)上で測定された分光シグネチャのみを使用して、0.88AUCを超えるALSの疾患リスクを判定することに成功した。これらの結果は、若年期の人間生理学のダイナミクスが後に疾患に関連付けられ、そのことを本開示の方法及びシステムを使用して正確に検出及びプロファイリングすることができることを実証する。
【0135】
本明細書の他の箇所に記載の方法は、実施形態に従った動作のステップ又はセットを示すが、当業者は、本明細書に記載の教示に基づいて多くの変形を認識するであろう。これらのステップは、異なる順序で完了することができる。ステップは追加又は省略することができる。いくつかのステップは、サブステップを含み得る。多くのステップは、有益であれば何回でも繰り返され得る。
【0136】
それぞれの方法又は動作のセットのうちの1つ以上のステップは、本明細書で説明されるような回路、例えば、フィールドプログラマブルゲートアレイのためのプロセッサ又はプログラマブルアレイロジックなどの論理回路のうちの1つ以上を用いて実行されてよい。例えば、回路は、方法又は動作のセットのそれぞれのステップのうちの1つ以上を提供するようにプログラムされ得、プログラムは、コンピュータ可読メモリ上に記憶されたプログラム命令、又は例えば、プログラム可能アレイ論理又はフィールドプログラマブルゲートアレイなどの論理回路のプログラムされたステップを含み得る。
【0137】
本発明の好ましい実施形態が本明細書に示され、記載されているが、そのような実施形態が例としてのみ提供されることは、当業者には明白であろう。本発明は、明細書内に提供される特定の実施例によって限定されることを意図するものではない。本発明は、前述の明細書を参照して説明されてきたが、本明細書における実施形態の説明及び図示は、限定的な意味で解釈されることを意図するものではない。本発明から逸脱することなく、多数の変形、変更、及び置換がここで当業者に想起されるであろう。更に、本発明の全ての態様は、様々な条件及び変数に依存する、本明細書に記載される特定の描写、構成又は相対的な割合に限定されないことを理解されたい。本明細書に記載される本発明の実施形態に対する様々な代替案が、本発明の実施において用いられ得ることは理解されるべきである。したがって、本発明は、そのような代替物、修正、変形、又は同等物もカバーすることが企図される。以下の特許請求の範囲は、本発明の範囲を定義し、これらの特許請求の範囲及びそれらの等価物の範囲内の方法及び構造が、それらによって包含されることが意図される。
【0138】
実施形態
実施形態1.疾患又は障害に関する対象の診断状態を予測するための方法であって、(a)対象の生物学的試料を光源に曝露することと、(b)生物学的試料から複数のラマンスペクトルを取得することと、(c)複数のラマンスペクトルを処理して、複数のラマンスペクトルの空間マップを生成することと、(d)複数のラマンスペクトルの空間マップに少なくとも部分的に基づいて、疾患又は障害に関する対象の診断状態を予測することと、を含む、方法。
実施形態2.生物学的試料が、歯試料、毛髪試料、爪試料、又はこれらの任意の組み合わせを含む、実施形態1に記載の方法。
実施形態3.対象の時間的反応を示す空間マップの時間ストレスプロファイルの変化を検出又は監視することを更に含む、実施形態1又は2に記載の方法。
実施形態4.時間的反応が、生物学的反応、生理学的反応、解剖学的反応、治療反応、ストレス関連反応、又はそれらの組み合わせの反応を含む、実施形態3に記載の方法。
実施形態5.複数のラマンスペクトルが、約200~約3700の波数を含む、実施形態1~4のいずれか1つに記載の方法。
実施形態6.取得することが、ラマン分光顕微鏡を使用することを含む、実施形態1~5のいずれか1つに記載の方法。
実施形態7.ラマン分光顕微鏡が、50倍の空中結合対物レンズ、63倍の水浸結合対物レンズ、又はそれらの任意の組み合わせを含む、実施形態6に記載の方法。
実施形態8.光源が、レーザを含み、レーザが、約785nmの波長、約532nmの波長、又はこれらの任意の組み合わせを含む、実施形態1~7のいずれか1つに記載の方法。
実施形態9.取得することが、約0.2秒~約0.3秒の積分時間を使用して行われる、実施形態1~8のいずれか1つに記載の方法。
実施形態10.取得することが、複数のラマンスペクトルのうちのラマンスペクトルを取得した後、約2ミクロン~約5ミクロンのステップサイズを伴って生物学的試料を移動させることを含む、実施形態1~9のいずれか1つに記載の方法。
実施形態11.疾患又は障害が、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎臓病、腎移植拒絶反応、小児がん、又はこれらの任意の組み合わせを含む、実施形態1~10のいずれか1つに記載の方法。
実施形態12.疾患又は障害が、ASDを含む、実施形態1~10のいずれか1つに記載の方法。
実施形態13.疾患又は障害に関する対象の診断状態を予測することが、訓練されたモデルを使用して空間マップを処理することを含む、実施形態1~12のいずれか1つに記載の方法。
実施形態14.訓練されたモデルが、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、勾配ブーストアルゴリズム、及びそれらの任意の組み合わせからなる群から選択される、実施形態13に記載の方法。
実施形態15.訓練されたモデルが、勾配ブーストされたアンサンブルモデルを含む、実施形態13に記載の方法。
実施形態16.訓練されたモデルが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、1つ以上の特徴を処理するように構成されている、実施形態13に記載の方法。
実施形態17.訓練されたモデルが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、2つ以上の特徴を処理するように構成されている、実施形態16に記載の方法。
実施形態18.訓練されたモデルが、少なくとも約80%の感度を伴って疾患又は障害に関する診断状態を予測する、実施形態1~17のいずれか1つに記載の方法。
実施形態19.訓練されたモデルが、少なくとも約80%の特異性を伴って疾患又は障害に関する診断状態を予測する、実施形態1に記載の方法。
実施形態20.訓練されたモデルが、少なくとも約80%の陽性予測値を伴って疾患又は障害に関する診断状態を予測する、実施形態1に記載の方法。
実施形態21.訓練されたモデルが、少なくとも約80%の陰性予測値を伴って疾患又は障害に関する診断状態を予測する、実施形態1に記載の方法。
実施形態22.訓練されたモデルが、少なくとも約0.80の受信者動作特性曲線下面積(AUROC)を伴って疾患又は障害に関する診断状態を予測する、実施形態1に記載の方法。
実施形態23.1つ以上のプロセッサと、1つ以上のプロセッサによる実行のための1つ以上のプログラムを記憶するメモリと、を備えるデバイスであって、1つ以上のプログラムが、(a)対象のラマンシグネチャに関連付けられる対象の生物学的試料上の基準線に沿った複数の位置における各それぞれの位置をサンプリングし、それによって、複数のラマンスペクトルを取得することであって、複数のラマンスペクトルにおける各ラマンスペクトルが、複数の位置における異なる位置に対応し、複数の位置における各位置が、ラマンシグネチャに関連付けられる生物学的試料の異なる成長期間を表す、サンプリングすることと、(b)生物学的試料上の基準線全体にわたって複数のラマンスペクトルの各々を分析し、それによって、第1のデータセットを取得することと、(c)対応する複数のラマンスペクトル測定値からそれぞれの第2のデータセットを導出することであって、特徴の対応するセットにおける各それぞれの特徴が、ラマンスペクトルにおける連続した変動によって判定される、導出することと、(d)訓練されたモデルを使用して特徴を処理して、ラマンシグネチャに関連付けられる疾患又は障害に関する対象の診断状態を予測することと、を行うための命令を含む、デバイス。
実施形態24.生物学的試料が、歯試料、毛髪試料、爪試料、又はそれらの任意の組み合わせを含む、実施形態23に記載のデバイス。
実施形態25.命令が、対象の時間的反応を示す複数の位置にわたるラマンスペクトルの変化を検出又は監視することを更に含む、実施形態23又は24に記載のデバイス。
実施形態26.時間的反応が、生物学的反応、生理学的反応、解剖学的反応、治療反応、ストレス関連反応、又はそれらの組み合わせの反応を含む、実施形態25に記載のデバイス。
実施形態27.複数のラマンスペクトルが、約200~約3700の波数を含む、実施形態23~26のいずれか1つに記載のデバイス。
実施形態28.サンプリングが、ラマン分光顕微鏡を使用することを含む、実施形態23~27のいずれか1つに記載のデバイス。
実施形態29.ラマン分光顕微鏡が、50倍の空中結合対物レンズ、63倍の水浸結合対物レンズ、又はこれらの任意の組み合わせを含む、実施形態28に記載のデバイス。
実施形態30.サンプリングが、生物学的試料を光源に曝露して、複数の位置で複数のラマンスペクトルのうちのラマンスペクトルを生成することを含む、実施形態23に記載のデバイス。
実施形態31.光源が、レーザを含み、レーザが、約785nmの波長、約532nmの波長、又はこれらの任意の組み合わせを含む、実施形態30に記載のデバイス。
実施形態32.命令が、平行移動を更に含み、平行移動が、複数のラマンスペクトルのうちのラマンスペクトルを取得した後に、約2ミクロン~約5ミクロンのステップサイズを伴って生物学的試料を、複数の位置のうちの第1の位置から第2の位置に移動させることを含む、実施形態23~31のいずれか1つに記載のデバイス。
実施形態33.平行移動が、約0.2秒~約0.3秒の積分時間を使用して行われる、実施形態32に記載のデバイス。
実施形態34.疾患又は障害が、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎疾患、腎移植拒絶反応、小児がん、又はこれらの任意の組み合わせを含む、実施形態23~33のいずれか1つに記載のデバイス。
実施形態35.疾患又は障害が、自閉症スペクトラム障害(ASD)を含む、実施形態23~33のいずれか1つに記載のデバイス。
実施形態36.疾患又は障害に関する対象の診断状態を予測することが、訓練されたモデルを用いて複数の位置にわたるラマンスペクトルの変化を処理することを含む、実施形態23~35のいずれか1つに記載のデバイス。
実施形態37.訓練されたモデルが、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、勾配ブーストアルゴリズム、及びそれらの任意の組み合わせからなる群から選択される、実施形態36に記載のデバイス。
実施形態38.訓練されたモデルが、勾配ブーストされたアンサンブルモデルを含む、実施形態36に記載のデバイス。
実施形態39.訓練されたモデルが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、1つ以上の特徴を処理するように構成される、実施形態36に記載のデバイス。
実施形態40.訓練されたモデルが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、2つ以上の特徴を処理するように構成される、実施形態36に記載のデバイス。
実施形態41.訓練されたモデルが、少なくとも約80%の感度を伴って疾患又は障害に関する診断状態を予測する、実施形態23に記載のデバイス。
実施形態42.訓練されたモデルが、少なくとも約80%の特異性を伴って疾患又は障害に関する診断状態を予測する、実施形態23に記載のデバイス。
実施形態43.訓練されたモデルが、少なくとも約80%の陽性予測値を伴って疾患又は障害に関する診断状態を予測する、実施形態23に記載のデバイス。
実施形態44.訓練されたモデルが、少なくとも約80%の陰性予測値を伴って疾患又は障害に関する診断状態を予測する、実施形態23に記載のデバイス。
実施形態45.訓練されたモデルが、少なくとも約0.80の受信者動作特性曲線下面積(AUROC)を伴って疾患又は障害に関する診断状態を予測する、実施形態23に記載のデバイス。
実施形態46.非一時的コンピュータ可読記憶媒体及び非一時的コンピュータ可読記憶媒体に埋め込まれた1つ以上のコンピュータプログラムであって、1つ以上のコンピュータプログラムが、コンピュータシステムによって実行されると、コンピュータシステムに、(a)対象のラマンシグネチャに関連付けられる対象の生物学的試料上の基準線に沿った複数の位置における各それぞれの位置をサンプリングし、それによって、複数のラマンスペクトルを取得することであって、複数のラマンスペクトルにおける各ラマンスペクトルが、複数の位置における異なる位置に対応し、複数の位置における各位置が、ラマンシグネチャに関連付けられる生物学的試料の異なる成長期間を表す、サンプリングすることと、(b)生物学的試料上の基準線全体にわたって複数のラマンスペクトルの各々を分析し、それによって、第1のデータセットを取得することと、(c)対応する複数のラマンスペクトル測定値からそれぞれの第2のデータセットを導出することであって、特徴の対応するセットにおける各それぞれの特徴が、ラマンスペクトルにおける連続した変動によって判定される、導出することと、(d)訓練されたモデルを使用して特徴を処理して、ラマンシグネチャに関連付けられる疾患又は障害に関する対象の診断状態を予測することと、を含む方法を実行させる、非一時的コンピュータ可読記憶媒体。
実施形態47.生物学的試料が、歯試料、毛髪試料、爪試料、又はそれらの任意の組み合わせを含む、実施形態46に記載の非一時的コンピュータ可読記憶媒体。
実施形態48.方法が、対象の時間的反応を示す複数の位置にわたるラマンスペクトルの変化を検出又は監視することを更に含む、実施形態46又は47に記載の非一時的コンピュータ可読記憶媒体。
実施形態49.時間的反応が、生物学的反応、生理学的反応、解剖学的反応、治療反応、ストレス関連反応、又はそれらの組み合わせの反応を含む、実施形態48に記載の非一時的コンピュータ可読記憶媒体。
実施形態50.複数のラマンスペクトルが、約200~約3700の波数を含む、実施形態46~49のいずれか1つに記載の非一時的コンピュータ可読記憶媒体。
実施形態51.サンプリングが、ラマン分光顕微鏡を使用することを含む、実施形態46~50のいずれか1つに記載の非一時的コンピュータ可読記憶媒体。
実施形態52.ラマン分光顕微鏡が、50倍の空中結合対物レンズ、63倍の水浸結合対物レンズ、又はこれらの任意の組み合わせを含む、実施形態51に記載の非一時的コンピュータ可読記憶媒体。
実施形態53.サンプリングが、生物学的試料を光源に曝露して、複数の位置で複数のラマンスペクトルのうちのラマンスペクトルを生成することを含む、実施形態46~52のいずれか1つに記載の非一時的コンピュータ可読記憶媒体。
実施形態54.光源が、レーザを含み、レーザが、約785nmの波長、約532nmの波長、又はこれらの任意の組み合わせを含む、実施形態53に記載の非一時的コンピュータ可読記憶媒体。
実施形態55.命令が、平行移動を更に含み、平行移動が、複数のラマンスペクトルのラマンスペクトルを取得することに続いて、生物学的試料を約2ミクロン~約5ミクロンのステップサイズを伴って複数の位置のうちの第1の位置から第2の位置に移動させることを含む、実施形態46~54のいずれか1つに記載の非一時的コンピュータ可読記憶媒体。
実施形態56.平行移動が、約0.2秒~約0.3秒の積分時間を使用して実行される、実施形態55に記載の非一時的コンピュータ可読記憶媒体。
実施形態57.疾患又は障害が、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎疾患、腎移植拒絶反応、小児がん又はそれらの任意の組み合わせを含む、実施形態46~56のいずれか1つに記載の非一時的コンピュータ可読記憶媒体。
実施形態58.疾患又は障害が、自閉症スペクトラム障害(ASD)を含む、実施形態46~56のいずれか1つに記載の非一時的コンピュータ可読記憶媒体。
実施形態59.疾患又は障害に関する対象の診断状態を予測することが、訓練されたモデルを用いて複数の位置にわたるラマンスペクトルにおける変化を処理することを含む、実施形態46~58のいずれか1つに記載の非一時的コンピュータ可読記憶媒体。
実施形態60.訓練されたモデルが、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、勾配ブーストアルゴリズム、及びそれらの任意の組み合わせからなる群から選択される、実施形態59に記載の非一時的コンピュータ可読記憶媒体。
実施形態61.訓練されたモデルが、勾配ブーストされたアンサンブルモデルを含む、実施形態59に記載の非一時的コンピュータ可読記憶媒体。
実施形態62.訓練されたモデルが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、1つ以上の特徴を処理するように構成される、実施形態59に記載の非一時的コンピュータ可読記憶媒体。
実施形態63.訓練されたモデルが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmax、及びそれらの任意の組み合わせからなる群から選択される、2つ以上の特徴を処理するように構成される、実施形態59に記載の非一時的コンピュータ可読記憶媒体。
実施形態64.訓練されたモデルが、少なくとも約80%の感度を伴って疾患又は障害に関する診断状態を予測する、実施形態46に記載の非一時的コンピュータ可読記憶媒体。
実施形態65.訓練されたモデルが、少なくとも約80%の特異性を伴って疾患又は障害に関する診断状態を予測する、実施形態46に記載の非一時的コンピュータ可読記憶媒体。
実施形態66.命令が、少なくとも約80%の陽性予測値を伴って疾患又は障害に関する患者の診断状態を予測することを更に含む、実施形態46に記載の非一時的コンピュータ可読記憶媒体。
実施形態67.訓練されたモデルが、少なくとも約80%の陽性予測値を伴って疾患又は障害に関する診断状態を予測する、実施形態46に記載の非一時的コンピュータ可読記憶媒体。
実施形態68.訓練されたモデルが、少なくとも約80%の陰性予測値を伴って疾患又は障害に関する診断状態を予測する、実施形態46に記載の非一時的コンピュータ可読記憶媒体。
実施形態69.モデルを訓練するための方法であって、1つ以上のプロセッサと、1つ以上のプロセッサによって実行するための1つ以上のプログラムを記憶するメモリと、を有するコンピュータシステムにおいて、(a)複数の訓練対象における訓練対象の第1のサブセットが、ラマンシグネチャに関連付けられる第1の生物学的状態を有することに対応する第1の診断状態を有し、複数の訓練対象における訓練対象の第2のサブセットが、ラマンシグネチャに関連付けられる第1の生物学的状態を有しないことに対応する第2の診断状態を有する、複数の訓練対象における各それぞれの訓練対象について、(i)対象のラマンシグネチャに関連付けられる対象の生物学的試料上の基準線に沿った複数の位置における各それぞれの位置をサンプリングし、それによって、複数のラマンスペクトルを取得することであって、複数のラマンスペクトルにおける各ラマンスペクトルが、複数の位置における異なる位置に対応し、複数の位置における各位置が、ラマンシグネチャに関連付けられる対象の生物学的試料の異なる成長期間を表す、サンプリングすることと、(ii)生物学的試料上の基準線全体にわたって各ラマンスペクトルを分析し、それによって、第1のデータセットを取得することと、(iii)対応する複数のラマンスペクトルからそれぞれの第2のデータセットを導出することであって、特徴の対応するセットにおける各それぞれの特徴が、ラマンスペクトルにおける連続した変動によって判定される、導出することと、(b)(i)複数の訓練対象における各訓練対象の各それぞれの第2のデータセットの特徴の対応するセットと、(ii)第1の診断状態及び第2の診断状態の中から選択される、複数の訓練対象における各訓練対象の対応する診断状態と、を用いて、訓練されていないか又は部分的に訓練されていないモデルを訓練し、それによって、試験対象のラマンシグネチャに関連付けられる生物学的試料から取得された特徴のセットにおける特徴の値に基づいて、試験対象がラマンシグネチャに関連付けられる第1の生物学的状態を有するかどうかに関する指標を提供する訓練されたモデルを取得することと、を含む、方法。
実施形態70.訓練されたモデルが、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、回帰アルゴリズム、勾配ブーストアルゴリズム、及びそれらの任意の組み合わせからなる群から選択される、実施形態69に記載の方法。
実施形態71.訓練されたモデルが、多項分類器である、実施形態69に記載の方法。
実施形態72.訓練されたモデルが、二項分類器である、実施形態69に記載の方法。
実施形態73.第1の生物学的条件が、自閉症スペクトラム障害(ASD)、注意欠陥/多動性障害(ADHD)、筋萎縮性側索硬化症(ALS)、統合失調症、過敏性腸疾患(IBD)、小児腎疾患、腎臓移植拒絶反応、及び小児がんからなる群から選択される、実施形態69に記載の方法。
実施形態74.ラマンシグネチャに関連付けられる第1の生物学的状態について試験対象を評価することが、ラマンシグネチャに関連付けられる第1の生物学的状態と、ラマンシグネチャに関連付けられる第1の生物学的状態とは異なるラマンシグネチャに関連付けられる第2の生物学的状態とを区別することを更に含む、実施形態69~73のいずれか1つに記載の方法。
実施形態75.第1の生物学的状態が、自閉症スペクトラム障害であり、第2の生物学的状態が、注意欠陥/多動性障害である、実施形態74に記載の方法。
実施形態76.試験対象が、ヒトである、実施形態69~75のいずれか1つに記載の方法。
実施形態77.ヒトが、12歳未満である、実施形態76に記載の方法。
実施形態78.ヒトが、1歳未満である、実施形態76に記載の方法。
実施形態79.それぞれの訓練対象のラマンシグネチャに関連付けられる対応する生物学的試料が、毛幹、歯、及び爪からなる群から選択される、実施形態69~78のいずれか1つに記載の方法。
実施形態80.それぞれの訓練対象のラマンシグネチャに関連付けられる対応する生物学的試料が、毛幹であり、基準線が、毛幹の長手方向に対応する、実施形態79に記載の方法。
実施形態81.それぞれの訓練対象のラマンシグネチャに関連付けられる対応する生物学的試料が、歯であり、基準線が、歯の新生児線を含む、成長帯を横切る方向に対応する、実施形態79に記載の方法。
実施形態82.それぞれの訓練対象の対応する生物学的試料に沿った対応する複数の位置における第1の位置が、それぞれの訓練対象の対応する生物学的試料の先端に最も近い位置に対応するように、対応する複数の位置が配列される、実施形態69~81のいずれか1つに記載の方法。
実施形態83.対応する複数のラマンスペクトル測定値における各トレースが、複数のデータポイントを含み、各データポイントが、複数の位置におけるそれぞれの位置のインスタンスである、実施形態69~82のいずれか1つに記載の方法。
実施形態84.特徴の対応するセットが、層状性、エントロピー、トラッピング時間(TT)、平均対角線長(MDL)、再発時間(RT)、Vmax、決定論、Lmaxからなる群から選択される、実施形態69~83のいずれか1つに記載の方法。
実施形態85.対応する複数の位置が、少なくとも1000、1500、2000、2500、3000、3500、4000、4500、又は5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000、又は10000を超える位置を含む、実施形態69~83のいずれか1つに記載の方法。
【国際調査報告】