IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ノバルティス アーゲーの特許一覧

特許7550160COPDから喘息を区別するためのデジタル解決策
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-04
(45)【発行日】2024-09-12
(54)【発明の名称】COPDから喘息を区別するためのデジタル解決策
(51)【国際特許分類】
   G16H 50/20 20180101AFI20240905BHJP
   A61B 5/08 20060101ALI20240905BHJP
【FI】
G16H50/20
A61B5/08
【請求項の数】 26
(21)【出願番号】P 2021553842
(86)(22)【出願日】2020-03-10
(65)【公表番号】
(43)【公表日】2022-05-06
(86)【国際出願番号】 IB2020052063
(87)【国際公開番号】W WO2020183365
(87)【国際公開日】2020-09-17
【審査請求日】2023-03-03
(31)【優先権主張番号】62/817,210
(32)【優先日】2019-03-12
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504389991
【氏名又は名称】ノバルティス アーゲー
(74)【代理人】
【識別番号】100092783
【弁理士】
【氏名又は名称】小林 浩
(74)【代理人】
【識別番号】100095360
【弁理士】
【氏名又は名称】片山 英二
(74)【代理人】
【識別番号】100120134
【弁理士】
【氏名又は名称】大森 規雄
(74)【代理人】
【識別番号】100187964
【弁理士】
【氏名又は名称】新井 剛
(72)【発明者】
【氏名】ヤン,エリック ファイ-ユ
(72)【発明者】
【氏名】マストリディス,ポール
(72)【発明者】
【氏名】ゴールドバーグ,エリ
(72)【発明者】
【氏名】カオ,フイ
(72)【発明者】
【氏名】イアノッティ,ニコラス ヴィンセント
(72)【発明者】
【氏名】フィスター,パスカル
【審査官】早川 学
(56)【参考文献】
【文献】米国特許出願公開第2012/0328606(US,A1)
【文献】米国特許出願公開第2010/0042563(US,A1)
【文献】特開2015-082259(JP,A)
【文献】特開2015-036961(JP,A)
【文献】特開2015-080720(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
A61B 5/08-5/097
(57)【特許請求の範囲】
【請求項1】
1つ又は複数のプロセッサと、
1つ又は複数の入力要素と、
メモリと、
前記メモリに記憶される1つ又は複数のプログラムと
を含むシステムであって、
前記1つ又は複数のプログラムは、
前記1つ又は複数の入力要素を介して、第1の患者に対応する患者データの組を受信することであって、前記患者データの組は、前記第1の患者に行われた少なくとも1つの生理学的試験の結果に基づく少なくとも1つの生理学的入力を含む、受信することと、
前記患者データの組に基づいて、1つ又は複数のデータ相関基準の組が満たされているか否かを判断することであって、前記1つ又は複数のデータ相関基準の組は、教師なし機械学習アルゴリズムを、1つ又は複数の表現型差を有する第1の複数の患者からのデータを含む患者データの第1の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む、判断することと、
前記1つ又は複数のデータ相関基準の組が満たされているという判断に従って、
第1の診断モデルを前記患者データの組に適用することに基づいて、前記第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第1の兆候を判断することであって、前記第1の診断モデルは、喘息の兆候、COPDの兆候並びに喘息及びCOPDの兆候を判断することが可能であり、前記第1の診断モデルは、第1の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第2の複数の患者からのデータを含む患者データの第2の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む、判断することと、
前記第1の兆候を出力することと、
前記1つ又は複数のデータ相関基準の組が満たされていないという判断に従って、
第2の診断モデルを前記患者データの組に適用することに基づいて、前記第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第2の兆候を判断することであって、
前記第2の診断モデルは、喘息の兆候、COPDの兆候並びに喘息及びCOPDの兆候を判断することが可能であり、
前記第2の診断モデルは、第2の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第3の複数の患者からのデータを含む患者データの第3の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含み、
前記患者データの第3の過去の組は、前記患者データの第2の過去の組と異なる、判断することと、
前記第2の兆候を出力することと
を行うための命令を含む、システム。
【請求項2】
前記1つ又は複数のプログラムは、前記第1の診断モデルを前記患者データの組に前記適用することに基づいて、前記第1の兆候に対応する第1の信頼スコアを判断するための命令を更に含む、請求項1に記載のシステム。
【請求項3】
前記1つ又は複数のプログラムは、前記第2の診断モデルを前記患者データの組に前記適用することに基づいて、前記第2の兆候に対応する第2の信頼スコアを判断するための命令を更に含む、請求項1に記載のシステム。
【請求項4】
前記1つ又は複数のプログラムは、少なくとも前記患者データに基づいて、1つ又は複数のデータ充足基準の組が満たされているか否かを判断するための命令を更に含み、
前記1つ又は複数のデータ相関基準の組が満たされているか否かの前記判断は、前記1つ又は複数のデータ充足基準が満たされているという判断に従って実行される、請求項1に記載のシステム。
【請求項5】
前記1つ又は複数のデータ充足基準の組は、前記患者データの組が、前記第1の患者が年齢65歳超であることを示す入力を含む場合に満たされる、請求項4に記載のシステム。
【請求項6】
前記1つ又は複数のデータ充足基準の組は、前記患者データの組が、患者年齢入力、患者性別入力、患者身長入力又は患者体重入力の少なくとも1つを含む場合に満たされる、請求項4に記載のシステム。
【請求項7】
前記患者データの組は、前記第1の患者の年齢、性別、体重、肥満度指数及び人種からなる群から選択される1つ又は複数の入力を含む複数の入力を含む、請求項1に記載のシステム。
【請求項8】
前記患者に行われる前記少なくとも1つの生理学的試験は、肺活量測定デバイスを使用して前記患者に行われる肺機能試験を含む、請求項1に記載のシステム。
【請求項9】
前記少なくとも1つの生理学的入力は、前記肺活量測定デバイスから受信される、請求項8に記載のシステム。
【請求項10】
前記少なくとも1つの生理学的入力は、1秒量(FEV1)測定値、努力肺活量(FVC)測定値、前記FVC測定値に対する前記FEV1測定値の割合(1秒率)からなる群から選択される1つ又は複数の生理学的入力を含む、請求項1に記載のシステム。
【請求項11】
前記患者に行われる前記少なくとも1つの生理学的試験は、呼気一酸化窒素濃度(FeNO)デバイスを使用して前記患者に行われる呼気一酸化窒素試験を含む、請求項1に記載のシステム。
【請求項12】
前記教師なし機械学習アルゴリズムを前記患者データの第1の過去の組に前記適用することは、1つ又は複数のサーバで行われ、前記システムは、前記1つ又は複数のサーバから前記1つ又は複数のデータ相関基準の組を受信する、請求項1に記載のシステム。
【請求項13】
前記患者データの第1の過去の組に含まれる前記1つ又は複数の呼吸状況に関するデータは、喘息、COPD、喘息及びCOPDの両方又は喘息でもCOPDでもないという真の診断を含む、請求項1に記載のシステム。
【請求項14】
前記1つ又は複数のデータ相関基準の組は、患者が、前記1つ又は複数の教師なし機械学習アルゴリズムを前記患者データの第1の過去の組に前記適用することに基づいて生成される患者の1つ又は複数のクラスタのうちのクラスタ内に入るという要件を含み、
前記患者データの組に基づいて、前記1つ又は複数のデータ相関基準の組が満たされているか否かを判断することは、前記患者データの組に基づいて、前記第1の患者が前記患者の1つ又は複数のクラスタのうちのクラスタ内に入るか否かを判断することを含む、請求項1に記載のシステム。
【請求項15】
前記患者データの組に基づいて、前記第1の患者が前記患者の1つ又は複数のクラスタのうちのクラスタ内に入るか否かを判断することは、1つ又は複数の教師なし機械学習モデルを前記患者データの組に適用することを含み、
前記1つ又は複数の教師なし機械学習モデルは、前記1つ又は複数の教師なし機械学習アルゴリズムを前記患者データの第1の過去の組に前記適用することに基づく、請求項14に記載のシステム。
【請求項16】
前記1つ又は複数のデータ相関基準の組は、患者が、前記1つ又は複数の教師なし機械学習アルゴリズムを前記患者データの第1の過去の組の少なくとも一部に前記適用することに基づいて生成されるカバーマニフォールド内に入るという要件を含み、
前記患者データの組に基づいて、前記1つ又は複数のデータ相関基準の組が満たされるか否かを判断することは、前記患者データの組に基づいて、前記第1の患者が前記カバーマニフォールド内に入るか否かを判断することを含む、請求項1に記載のシステム。
【請求項17】
前記第1の教師あり機械学習アルゴリズムを前記患者データの第2の過去の組に前記適用することは、1つ又は複数のサーバで行われ、
前記システムは、前記1つ又は複数のサーバから前記第1の診断モデルを受信する、請求項1に記載のシステム。
【請求項18】
前記患者データの第2の過去の組は、前記1つ又は複数のデータ相関基準の組を満たす前記第3の複数の患者のうちの1人又は複数の患者からのデータを含む、前記患者データの第3の過去の組のサブセットである、請求項1に記載のシステム。
【請求項19】
前記第2の教師あり機械学習アルゴリズムを前記患者データの第3の過去の組に前記適用することは、1つ又は複数のサーバで行われ、
前記システムは、前記1つ又は複数のサーバから前記第2の診断モデルを受信する、請求項1に記載のシステム。
【請求項20】
前記第1の教師あり機械学習アルゴリズム及び前記第2の教師あり機械学習アルゴリズムは、同じ教師あり機械学習アルゴリズムである、請求項1に記載のシステム。
【請求項21】
前記患者データの第3の過去の組及び前記患者データの第1の過去の組は、患者データの同じ過去の組である、請求項1に記載のシステム。
【請求項22】
前記兆候を出力することは、前記兆候を前記システムのディスプレイに表示することを含む、請求項1に記載のシステム。
【請求項23】
モバイルデバイスである、請求項1に記載のシステム。
【請求項24】
1つ又は複数のサーバである、請求項1に記載のシステム。
【請求項25】
1つ又は複数のプロセッサと、1つ又は複数の入力要素とを含む計算システムにおいて、
前記1つ又は複数の入力要素を介して、第1の患者に対応する患者データの組を受信するステップであって、前記患者データの組は、前記第1の患者に行われた少なくとも1つの生理学的試験の結果に基づく少なくとも1つの生理学的入力を含む、ステップと、
前記患者データの組に基づいて、1つ又は複数のデータ相関基準の組が満たされているか否かを判断するステップであって、前記1つ又は複数のデータ相関基準の組は、教師なし機械学習アルゴリズムを、1つ又は複数の表現型差を有する第1の複数の患者からのデータを含む患者データの第1の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む、ステップと、
前記1つ又は複数のデータ相関基準の組が満たされているという判断に従って、
第1の診断モデルを前記患者データの組に適用することに基づいて、前記第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第1の兆候を判断するステップであって、前記第1の診断モデルは、喘息の兆候、COPDの兆候並びに喘息及びCOPDの兆候を判断することが可能であり、前記第1の診断モデルは、第1の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第2の複数の患者からのデータを含む患者データの第2の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む、ステップと、
前記第1の兆候を出力するステップと、
前記1つ又は複数のデータ相関基準の組が満たされていないという判断に従って、
第2の診断モデルを前記患者データの組に適用することに基づいて、前記第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第2の兆候を判断するステップであって、
前記第2の診断モデルは、喘息の兆候、COPDの兆候並びに喘息及びCOPDの兆候を判断することが可能であり、
前記第2の診断モデルは、第2の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第3の複数の患者からのデータを含む患者データの第3の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含み、
前記患者データの第3の過去の組は、前記患者データの第2の過去の組と異なる、ステップと、
前記第2の兆候を出力するステップと
を含む方法。
【請求項26】
1つ又は複数の入力要素を有する電子デバイスの1つ又は複数のプロセッサによって実行されるように構成される1つ又は複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、
前記1つ又は複数のプログラムは、
前記1つ又は複数の入力要素を介して、第1の患者に対応する患者データの組を受信することであって、前記患者データの組は、前記第1の患者に行われた少なくとも1つの生理学的試験の結果に基づく少なくとも1つの生理学的入力を含む、受信することと、
前記患者データの組に基づいて、1つ又は複数のデータ相関基準の組が満たされているか否かを判断することであって、前記1つ又は複数のデータ相関基準の組は、教師なし機械学習アルゴリズムを、1つ又は複数の表現型差を有する第1の複数の患者からのデータを含む患者データの第1の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む、判断することと、
前記1つ又は複数のデータ相関基準の組が満たされているという判断に従って、
第1の診断モデルを前記患者データの組に適用することに基づいて、前記第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第1の兆候を判断することであって、前記第1の診断モデルは、喘息の兆候、COPDの兆候並びに喘息及びCOPDの兆候を判断することが可能であり、前記第1の診断モデルは、第1の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第2の複数の患者からのデータを含む患者データの第2の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む、判断することと、
前記第1の兆候を出力することと、
前記1つ又は複数のデータ相関基準の組が満たされていないという判断に従って、
第2の診断モデルを前記患者データの組に適用することに基づいて、前記第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第2の兆候を判断することであって、
前記第2の診断モデルは、喘息の兆候、COPDの兆候並びに喘息及びCOPDの兆候を判断することが可能であり、
前記第2の診断モデルは、第2の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第3の複数の患者からのデータを含む患者データの第3の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含み、
前記患者データの第3の過去の組は、前記患者データの第2の過去の組と異なる、判断することと、
前記第2の兆候を出力することと
を行うための命令を含む、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、患者の喘息及び慢性閉塞性肺疾患(COPD)を評価及び区別するためのシステム及びプロセスに関し、より詳細には、喘息及び/又はCOPDの予測診断を提供するためのコンピュータベースのシステム及びプロセスに関する。
【背景技術】
【0002】
喘息及び慢性閉塞性肺疾患(COPD)は、両方とも世界中で数百万もの個人に影響を及ぼしている一般的な閉塞性肺疾患である。喘息は、発症がアレルギー等の特定のトリガーに関連することが多い気道反応亢進の慢性炎症性疾患である。これとは対照的に、COPDは、一般に喫煙によって生じる有害粒子又はガスへの肺の慢性炎症性反応に起因する永続的な気流制限を特徴とする進行性疾患である。
【0003】
息切れ及び喘鳴等の幾つかの主要な症状を共有するにも関わらず、喘息及びCOPDは、治療及び管理に関してかなり異なる。喘息及びCOPDを治療する薬剤は、同じクラスからのものであり得、それらの多くは、両方の疾患に使用することができる。しかしながら、特に疾患の異なるステージにおいて、治療の経路及び薬剤の組合せは、異なることが多い。更に、喘息及びCOPDを有する個人は、ペット、樹木花粉及び喫煙等の個人的なトリガーを避けることが推奨されるが、COPDを有する一部の個人は、酸素が投与されるか、又は肺リハビリテーション、新しい呼吸法、日常生活を送る異なる方法及びパーソナルエクササイズトレーニングの学習にフォーカスしたプログラムを受けることもある。したがって、COPDから喘息を正確に区別することは、いずれかの疾患を有する個人の適切な治療、したがって増悪及び入院の低減に直接寄与する。
【0004】
患者の喘息とCOPDとを区別するために、医師は、典型的には、患者の症状、病歴及び環境に関する情報を集める。利用できるプロセス及びツールを使用して患者情報及びデータを集めた後、喘息とCOPDとの鑑別診断は、最終的に医師に任せられ、したがって医師の経験又は知識による影響を受け得る。更に、個人が長期喘息を有する場合又は喘息の発病が個人の寿命の後の段階で生じる場合、喘息及びCOPDの症例及び症状の類似性に起因して、- 利用できる情報及びデータがある場合でも - 喘息とCOPDとの区別がはるかに難しくなる。その結果、医師は、多くの場合、喘息とCOPDとを誤診し、不適切な治療、死亡率の増大及び患者の生活の質の低下に繋がる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
したがって、医師が利用できる経験又は知識に主に依存しない、患者のCOPDから喘息を区別するための、より確実であり正確であり、且つ再現可能なシステム及びプロセスが必要とされている。
【課題を解決するための手段】
【0006】
慢性閉塞性肺疾患(COPD)から喘息を区別し、且つ喘息及び/又はCOPDの予測診断を提供するための1つ又は複数の診断モデルの診断適用のためのシステム及びプロセスが提供される。1つ又は複数の例によれば、計算システムは、1つ又は複数のプロセッサと、1つ又は複数の入力要素と、メモリと、メモリに記憶される1つ又は複数のプログラムとを含む。1つ又は複数のプログラムは、1つ又は複数の入力要素を介して、第1の患者に対応する患者データの組を受信するための命令を含み、患者データの組は、第1の患者に行われた少なくとも1つの生理学的試験の結果に基づく少なくとも1つの生理学的入力を含む。1つ又は複数のプログラムは、患者データの組に基づいて、1つ又は複数のデータ相関基準の組が満たされているか否かを判断するための命令を更に含み、1つ又は複数のデータ相関基準の組は、教師なし機械学習アルゴリズムを、1つ又は複数の表現型差を有する第1の複数の患者からのデータを含む患者データの第1の過去の組に適用することに基づき、表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む。1つ又は複数のプログラムは、1つ又は複数のデータ相関基準の組が満たされているという判断に従って、第1の診断モデルを患者データの組に適用することに基づいて、第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第1の兆候を判断するための命令を更に含み、第1の診断モデルは、第1の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第2の複数の患者からのデータを含む患者データの第2の過去の組に適用することに基づき、表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む。1つ又は複数のプログラムは、第1の兆候を出力するための命令を更に含む。
【0007】
1つ又は複数のプログラムは、1つ又は複数のデータ相関基準の組が満たされていないという判断に従って、第2の診断モデルを患者データの組に適用することに基づいて、第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第2の兆候を判断するための命令を更に含み、第2の診断モデルは、第2の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第3の複数の患者からのデータを含む患者データの第3の過去の組に適用することに基づき、表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含み、患者データの第3の過去の組は、患者データの第2の過去の組と異なる。1つ又は複数のプログラムは、第2の兆候を出力するための命令を更に含む。
【0008】
上記機能を実行する実行可能な命令は、任意選択的に、非一時的コンピュータ可読媒体又は1つ若しくは複数のプロセッサによって実行されるように構成される他のコンピュータプログラム製品に含まれる。
【図面の簡単な説明】
【0009】
図1】患者の喘息及びCOPDを鑑別診断する例示的なシステムを示す。
図2】幾つかの実施形態による例示的な機械学習システムを示す。
図3】幾つかの実施形態による例示的な電子デバイスを示す。
図4】患者の喘息及びCOPDを鑑別診断する2つの教師あり機械学習モデルを生成する例示的なコンピュータ化されたプロセスを示す。
図5】喘息及び/又はCOPDと診断された複数の患者の匿名化電子健康記録を含む例示的なデータセットの一部を示す。
図6】事前処理後の例示的なデータセットの一部を示す。
図7】特徴量エンジニアリング後の例示的なデータセットの一部を示す。
図8】2つの教師なし機械学習アルゴリズムを例示的なデータセットに適用し、例示的なデータセットから全てのアウトライア/表現型ミスを除去した後の例示的なデータセットの一部を示す。
図9】患者の喘息及びCOPDを鑑別診断する第1の診断モデル及び第2の診断モデルを生成する例示的なコンピュータ化されたプロセスを示す。
図10】患者の喘息及びCOPDを鑑別診断する例示的なコンピュータ化されたプロセスを示す。
図11A図11図11Aは、第1の患者及び第2の患者に対応する2つの例示的な組の患者データを示す。図11Bは、事前処理後の第1の患者及び第2の患者に対応する2つの例示的な組の患者データを示す。図11Cは、特徴量エンジニアリング後の2つの例示的な組の患者データを示す。図11Dは、2つの例示的な組の患者データに2つの教師なし機械学習モデルを適用した後の2つの例示的な組の患者データを示す。図11Eは、2つの例示的な組の患者データのそれぞれに別個の教師あり機械学習モデルを適用した後の2つの例示的な組の患者データを示す。
図11B】(上記の通り。)
図11C】(上記の通り。)
図11D】(上記の通り。)
図11E】(上記の通り。)
図12】第1の患者が、喘息及びCOPDからなる群から選択される1つ又は複数の呼吸状況を有するか否かの第1の兆候及び第2の兆候を判断する例示的なコンピュータ化されたプロセスを示す。
図13A-D】図13図13A~Hは、性別に基づいて階層化した患者データの特徴量エンジニアリングテストセットのサブセットにガウス混合モデルを適用したことに基づく、例示的なインライア及びアウトライア分類結果を表す棒グラフを示す。
図13E-H】(上記の通り。)
図14】教師あり機械学習モデル(患者のインライアデータセットを使用してトレーニングされた)を患者データのテストセットに適用したことからの、喘息及び/又はCOPD分類結果を表す受診者動作特性曲線を示す。
【発明を実施するための形態】
【0010】
以下の説明は、例示的なシステム、デバイス、方法、パラメータ等を記載する。しかしながら、そのような説明は、本開示の範囲への限定として意図されず、代わりに例示的な実施形態の説明として提供されることを認識されたい。例えば、特定の実施形態例が例示として示される添付図面が参照される。本開示の範囲から逸脱せずに、そのような実施形態例に対する変更形態がなされ得ることを理解されたい。
【0011】
1.計算システム
ここで、幾つかの実施形態により本明細書に記載される技法を実行する電子デバイス及びシステムの例に注目する。図1は、電子デバイス(例えば、電子デバイス300等)の例示的なシステム100を示す。システム100は、クライアントシステム102を含む。幾つかの例では、クライアントシステム102は、1つ又は複数のデバイス(例えば、300)を含む。例えば、クライアントシステム102は、ヘルスケアプロバイダ(HCP)計算システム(例えば、1つ又は複数のパーソナルコンピュータ(例えば、デスクトップ、ラップトップ))を表すことができ、HCPによる患者データの入力、収集及び/又は処理並びに患者データ分析の出力(例えば、予後情報)に使用することができる。更なる例では、クライアントシステム102は、1つ又は複数のHCP電子デバイス及び/又はシステム108に接続され、患者データの入力及び収集に使用される患者のデバイス(例えば、家庭用医療デバイス、スマートフォン、タブレット、デスクトップコンピュータ又はラップトップコンピュータ等のパーソナル電子デバイス)を表すことができる。幾つかの例では、クライアントシステム102は、一緒にネットワーク接続された1つ又は複数の電子デバイス(例えば、300)を含む。幾つかの例では、クライアントシステム102は、患者データを受信し、且つ/又はそのような患者データの処理のために1つ又は複数のリモートシステム(例えば、112、126)と通信するコンピュータプログラム又はアプリケーション(1つ又は複数のプロセッサによって実行可能な命令を含む)を含む。
【0012】
クライアントシステム102は、接続104を介してネットワーク106に接続される。接続104は、1つ又は複数の他の電子デバイス又はシステム(例えば、112、126)とのデータの送信及び/又は受信を行うのに使用することができる。ネットワーク106は、無線電気通信ネットワーク、携帯電話ネットワーク、時分割多元アクセス(TDMA)ネットワーク、符号分割多元アクセス(CDMA)ネットワーク、モバイル通信用グローバールシステム(GSM)、第三世代(3G)ネットワーク、第四世代(4G)ネットワーク、衛星通信ネットワーク及び他の通信ネットワーク等の通信信号の送受信を可能にする任意のタイプのネットワークを含み得る。ネットワーク106は、広域ネットワーク(WAN)(例えば、インターネット)、ローカルエリアネットワーク(LAN)及びパーソナルエリアネットワーク(PAN)の1つ又は複数を含み得る。幾つかの例では、ネットワーク106は、データネットワークと、電気通信ネットワークと、データ及び電気通信ネットワークの組合せとの組合せを含む。システム及びリソース102、112及び/又は126は、ネットワーク106を介して信号を送受信する(有線又は無線)ことにより互いと通信する。幾つかの例では、ネットワーク106は、クラウド計算リソース(例えば、システム112)へのアクセスを提供し、クラウド計算リソースは、ネットワーク106を経由して利用可能な弾性/オンデマンド計算及び/又は記憶リソースであり得る。用語「クラウド」サービスは、一般に、ユーザのデバイスでローカルに実行されず、むしろ1つ又は複数のネットワークを介して1つ又は複数のリモートデバイスから届けられるサービスを指す。
【0013】
クラウド計算システム112は、接続108を介してネットワーク106に接続される。接続108は、1つ又は複数の他の電子デバイス又はシステムとデータを送信及び/又は受信するのに使用することができ、任意の適したタイプのデータ接続(例えば、有線、無線又は有線と無線との任意の組合せ)であり得る。幾つかの例では、クラウド計算システム112は、スケーラブル/弾性計算リソースを有する分散システム(例えば、リモート環境)である。幾つかの例では、計算リソースは、1つ又は複数の計算リソース114(例えば、データ処理ハードウェア)を含む。幾つかの例では、そのようなリソースは、1つ又は複数の記憶リソース116(例えば、メモリハードウェア)を含む。クラウド計算システム112は、患者データ(例えば、クライアントシステム102から受信される)の処理(例えば、1つ又は複数の機械学習モデルの適用、1つ又は複数のアルゴリズムの適用)を実行することができる。幾つかの例では、クラウド計算システム112は、患者データを受信し(例えば、102等の1つ又は複数のリモートクライアントシステムから)、処理するサービス(例えば、1つ又は複数のプロセッサによって実行可能な命令を含むコンピュータプログラム又はアプリケーション)をホストする。このようにして、クラウド計算システム112は、患者データ分析サービスを複数のヘルスケアプロバイダに提供することができる(例えば、ネットワーク106を介して)。サービスは、クライアントシステム102で実行可能なクライアントアプリケーション(例えば、モバイルアプリケーション、ウェブサイトアプリケーション又は命令の組を含むダウンロード可能なプログラム)をクライアントシステム102に提供するか、又は他の方法で利用できるようにする。幾つかの例では、クライアントシステム(例えば、102)は、アプリケーションプログラミングインターフェースを使用してクラウド計算システム(例えば、112)上のサーバ側アプリケーション(例えば、サービス)と通信する。
【0014】
幾つかの例では、クラウド計算システム112は、データベース120を含む。幾つかの例では、データベース120は、クラウド計算システム112の外部(例えば、リモート)にある。幾つかの例では、データベース120は、患者データ、アルゴリズム、機械学習モデル又はクラウド計算システム112により使用される任意の他の情報の1つ又は複数の記憶に使用される。
【0015】
幾つかの例では、システム100は、クラウド計算リソース126を含む。幾つかの例では、クラウド計算リソース126は、外部データ処理及び/又はデータ記憶サービスをクラウド計算システム112に提供する。例えば、クラウド計算リソース126は、クラウド計算システム112により指示されるように、機械学習モデルトレーニング等のリソース集約的処理タスクを実行することができる。幾つかの例では、クラウド計算リソース126は、接続124を介してネットワーク106に接続される。接続124は、1つ又は複数の他の電子デバイス又はシステムとデータを送信及び/又は受信するのに使用することができ、任意の適したタイプのデータ接続(例えば、有線、無線又は有線と無線との任意の組合せ)であり得る。例えば、クラウド計算システム112及びクラウド計算リソース126は、ネットワーク106並びに接続108及び124を介して通信することができる。幾つかの例では、クラウド計算リソース126は、接続122を介してクラウド計算システム112に接続される。接続122は、1つ又は複数の他の電子デバイス又はシステムとデータを送信及び/又は受信するのに使用することができ、任意の適したタイプのデータ接続(例えば、有線、無線又は有線と無線との任意の組合せ)であり得る。例えば、クラウド計算システム112及びクラウド計算リソース126は、プライベート接続である接続122を介して通信することができる。
【0016】
幾つかの例では、クラウド計算リソース126は、スケーラブル/弾性計算リソースを有する分散システム(例えば、リモート環境)である。幾つかの例では、計算リソースは1つ又は複数の計算リソース128(例えば、データ処理ハードウェア)を含む。幾つかの例では、そのようなリソースは、1つ又は複数の記憶リソース130(例えば、メモリハードウェア)を含む。クラウド計算リソース126は、患者データ(例えば、クライアントシステム102又はクラウド計算システム112から受信される)の処理(例えば、1つ又は複数の機械学習モデルの適用、1つ又は複数のアルゴリズムの適用)を実行することができる。幾つかの例では、クラウド計算システム(例えば、112)は、アプリケーションプログラミングインターフェースを使用してクラウド計算リソース(例えば、126)と通信する。
【0017】
幾つかの例では、クラウド計算リソース126は、データベース134を含む。幾つかの例では、データベース134は、クラウド計算リソース126の外部(例えば、リモート)にある。幾つかの例では、データベース134は、クラウド計算リソース126により使用される患者データ、アルゴリズム、機械学習モデル又は任意の他の情報の1つ又は複数の記憶に使用される。
【0018】
図2は、幾つかの実施形態による例示的な機械学習システム200を示す。幾つかの実施形態では、機械学習システム(例えば、200)は、1つ又は複数の電子デバイス(例えば、300)で構成される。幾つかの実施形態では、機械学習システムは、1つ又は複数の機械学習アルゴリズムのトレーニング、1つ又は複数の機械学習モデルの適用並びに機械学習モデル出力の結果の出力及び/又は操作の1つ又は複数に関連するタスクを実行する1つ又は複数のモジュールを含む。機械学習システム200は、幾つかの例示的なモジュールを含む。幾つかの実施形態では、モジュールは、ハードウェア(例えば、専用回路)、ソフトウェア(例えば、1つ又は複数のプロセッサによって実行される命令を含むコンピュータプログラム)又はハードウェア及びソフトウェアの両方の何らかの組合せで実施される。幾つかの実施形態では、機械学習システム200のモジュールに関して以下に説明する機能は、ローカルに接続、リモートに接続又は両方の何らかの組合せである2つ以上の電子デバイスにより実行される。例えば、機械学習システム200のモジュールに関して以下に説明される機能は、互いからリモートに配置された電子デバイスにより実行することができる(例えば、システム112内のデバイスは、データ調整を実行し、システム126内のデバイスは、機械学習トレーニングを実行する)。
【0019】
幾つかの実施形態では、機械学習システム200は、データ検索モジュール210を含む。データ検索モジュール210は、機械学習アルゴリズム及び/又は機械学習モデルを使用した処理についての入力データの取得及び/又は受信に関連する機能を提供することができる。例えば、データ検索モジュール210は、クライアントシステム(例えば、102)又はサーバシステム(例えば、112)とインターフェースして、1つ又は複数の通信プロトコルを介した通信の確立及びデータ転送の管理を含む処理が行われるデータを受信し得る。
【0020】
幾つかの実施形態では、機械学習システム200は、データ調整モジュール212を含む。データ調整モジュール212は、入力データを処理に向けて準備するのに関連する機能を提供することができる。例えば、データ調整は、複数の画像のサイズを均一にすること(例えば、クロッピング、リサイジング)、データの拡張(例えば、1つの画像をとり、わずかに異なるバリエーションを作成すること(例えば、ピクセルリスケーリング、刈り込み、ズーム、回転/反転により)、外挿、特徴量エンジニアリング)、画像プロパティの調整(例えば、コントラスト、鮮鋭度)又はデータのフィルタリング等を含むことができる。
【0021】
幾つかの実施形態では、機械学習システム200は、機械学習トレーニングモデル214を含む。機械学習トレーニングモジュール214は、1つ又は複数のトレーニング済み機械学習モデルを作成するために、1つ又は複数の機械学習アルゴリズムのトレーニングに関連する機能を提供することができる。
【0022】
「機械学習」の概念は、概して、1つ又は複数のタスクを、そのようなタスクを実行するように明示的にプログラムされずに実行するための1つ又は複数の電子デバイスの使用を指す。機械学習アルゴリズムは、1つ又は複数のタスク(例えば、入力画像の1つ又は複数のクラスへの分類、入力画像内の特徴の識別及び分類、入力データに基づく値の予測)を実行するように、アルゴリズムをトレーニングデータの組に適用することにより「トレーニング」されて、「機械学習モデル」(例えば、非トレーニングデータに適用されて、タスクを実行することができる)を作成することができる。「機械学習モデル」(本明細書では「機械学習モデルアーチファクト」又は「機械学習アーチファクト」とも呼ばれる)は、機械学習アルゴリズムをトレーニングするプロセスにより作成されるアーチファクトを指す。機械学習モデルは、入力を適用して出力を取得することができる数学的表現(例えば、数式)であり得る。本明細書で参照される場合、機械学習モデルを「適用」することは、機械学習モデルを使用して入力データを処理(例えば、入力データを使用して数学的計算を実行)し、何らかの出力を得ることを指すことができる。
【0023】
機械学習アルゴリズムのトレーニングは、「教師あり」又は「教師なし」のいずれかであり得る。一般的に、教師あり機械学習アルゴリズムは、入力データ及び所望の出力の両方(例えば、各入力データについて、機械学習モデルが実行すべき処理タスクへの正確な答え(「ターゲット」又は「ターゲット属性」とも呼ばれる))を含むトレーニングデータを処理することにより、機械学習モデルを構築する。教師ありトレーニングは、入力データに基づいて予測するのに使用されるモデルの開発に有用である。教師なし機械学習アルゴリズムは、入力データのみを含む(出力を含まない)トレーニングデータを処理することにより機械学習モデルを構築する。教師なしトレーニングは、入力データ内の構造を特定するのに有用である。
【0024】
機械学習アルゴリズムは、人工ニューラルネットワーク、深層ニューラルネットワーク、畳み込みニューラルネットワーク、多層パーセプトロン等の1つ又は複数の使用を含め、多様な技法を使用して実施することができる。
【0025】
再び図2を参照すると、幾つかの例では、機械学習トレーニングモジュール214は、トレーニングされる1つ又は複数の機械学習アルゴリズム216を含む。幾つかの例では、機械学習トレーニングモジュール214は、1つ又は複数の機械学習パラメータ218を含む。例えば、機械学習アルゴリズムのトレーニングは、もたらされる機械学習モデルの性能に影響する、定義することができる(例えば、ユーザにより)1つ又は複数のパラメータ218を使用することを含むことができる。機械学習システム200は、そのようなパラメータを受信し(例えば、電子デバイスにおけるユーザ入力を介して)、トレーニング中に使用するために記憶することができる。例示的なパラメータは、ストライド、プーリング層設定、カーネルサイズ、フィルタ数等を含むが、このリストは、網羅的であることを意図されない。
【0026】
幾つかの例では、機械学習システム200は、機械学習モデル出力モジュール220を含む。機械学習モデル出力モジュール220は、例えば、トレーニングデータの処理に基づいて機械学習モデルを出力することに関連する機能を提供することができる。機械学習モデルを出力することは、機械学習モデルを1つ又は複数のリモートデバイスに送信することを含むことができる。例えば、クラウド計算リソース126の電子デバイスで実施される機械学習システム200は、クライアントシステム102とシステム112との間で送信された患者データを処理するに当たり使用するために、機械学習モデルをクラウド計算システム112に送信することができる。
【0027】
図3は、幾つかの例により使用することができる例示的な電子デバイス300を示す。電子デバイス300は、例えば、PC、スマートフォン、サーバ、ワークステーションコンピュータ又は医療デバイス等を表すことができる。幾つかの例では、電子デバイス300は、入力/出力(I/O)セクション302、1つ又は複数のプロセッサ304及びメモリ306を接続するバス308を含む。幾つかの例では、電子デバイス300は、1つ又は複数のネットワークインターフェースデバイス310(例えば、ネットワークインターフェースカード、アンテナ)を含む。幾つかの例では、I/Oセクション302は、1つ又は複数のネットワークインターフェースデバイス310に接続される。幾つかの例では、電子デバイス300は、1つ又は複数の人間入力デバイス312(例えば、キーボード、マウス、タッチ式スクリーン)を含む。幾つかの例では、I/Oセクション302は、1つ又は複数の人間入力デバイス312に接続される。幾つかの例では、電子デバイス300は、1つ又は複数のディスプレイデバイス314(例えば、コンピュータモニタ、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ)を含む。幾つかの例では、I/Oセクション302は、1つ又は複数のディスプレイデバイス314に接続される。幾つかの例では、I/Oセクション302は、1つ又は複数の外部ディスプレイデバイスに接続される。幾つかの例では、電子デバイス300は、1つ又は複数の撮像デバイス316(例えば、カメラ、医療画像を捕捉するデバイス)を含む。幾つかの例では、I/Oセクション302は、撮像デバイス316(例えば、コンピュータ可読媒体を含むデバイス、コンピュータ可読媒体とインターフェースするデバイス)に接続される。
【0028】
幾つかの例では、メモリ306は、幾つかの例により本明細書に記載の技法を実行するための1つ又は複数のコンピュータプログラム(例えば、コンピュータ実行可能命令を含む)及び/又はデータを記憶(例えば、有形に具現)する1つ又は複数のコンピュータ可読媒体を含む。幾つかの例では、メモリ306のコンピュータ可読媒体は、非一時的コンピュータ可読媒体である。本明細書に記載の技法の結果に基づく少なくとも幾つかの値は、続く使用のためにメモリ306等のメモリに保存することができる。幾つかの例では、コンピュータプログラムは、ソフトウェアアプリケーションとしてメモリ306にダウンロードされる。幾つかの例では、1つ又は複数のプロセッサ304は、上述した技法を実行する1つ又は複数の特定用途向けチップセットを含む。
【0029】
2.喘息及びCOPDを鑑別診断するプロセス
図4は、患者の喘息及びCOPDを鑑別診断する2つの教師あり機械学習モデルを生成する例示的なコンピュータ化されたプロセスを示す。幾つかの例では、プロセス400は、図1に示されるシステム100の1つ又は複数の特徴を有するシステムにより実行される。例えば、プロセス400の1つ又は複数のブロックは、クライアントシステム102、クラウド計算システム112及び/又はクラウド計算リソース126により実行することができる。
【0030】
ブロック402において、計算システム(例えば、クライアントシステム102、クラウド計算システム112及び/又はクラウド計算リソース126)は、外部ソース(例えば、データベース120又はデータベース134)からの喘息及び/又はCOPDに関連する匿名化電子健康記録を含むデータセットを受信する(例えば、データ検索モジュール210を介して)。幾つかの例では、外部ソースは、市販のデータベースである。他の例では、外部ソースは、プライベートキーオピニオンリーダ(「KOL」)データベースである。データセットは、喘息及び/又はCOPDと診断された複数の患者の匿名化電子健康記録を含む。幾つかの例では、データセットは、喘息及び/又はCOPDと診断された数百万人の患者の匿名化電子健康記録を含む。電子健康記録は、複数の患者のそれぞれの複数のデータ入力を含む。複数のデータ入力は、患者の特徴、生理学的測定値及び喘息及び/又はCOPDの診断に関連する他の情報を表す。電子健康記録は、複数の患者のそれぞれの喘息及び/又はCOPDの診断を更に含む。幾つかの例では、計算システムは、種々のソースから喘息及び/又はCOPDに関連する匿名化電子健康記録を含む2つ以上のデータセットを受信する(例えば、市販のデータベースから1つのデータセット及びKOLデータベースから別のデータセットを受信する)。これらの例では、ブロック402は、計算システムが受信したデータセットを結合して、1つの結合データセットにすることを更に含む。
【0031】
図5は、喘息及び/又はCOPDと診断された複数の患者の匿名化電子健康記録を含む例示的なデータセットの一部を示す。特に、図5は、例示的なデータセット500の一部を示す。示されるように、例示的なデータセット500は、患者1~患者nの複数のデータ入力及び喘息又はCOPD診断を含む。特に、複数のデータ入力は、患者の年齢、性別(例えば、男性又は女性)、人種/民族性(例えば、白人、ヒスパニック、アジア人、アフリカ系アメリカ人等)、胸部ラベル(例えば、胸部絞扼感、胸部圧迫感等)、1秒量(FEV1)測定値、努力肺活量(FVC)測定値、身長、体重、喫煙ステータス(例えば、1年当たりの煙草のパック数)、咳嗽ステータス(例えば、時々、断続的、軽い、慢性的等)、呼吸困難ステータス(例えば、労作性、時々等)及び好酸球(EOS)数を含む。幾つかのデータ入力(例えば、咳嗽ステータス、呼吸困難ステータス等)は、患者がそのデータ入力の値を提供していない(例えば、データ入力が患者に該当しない場合)ことを表す「記述子なし」値を有する。
【0032】
幾つかの例では、ブロック402において受信されるデータセットは、複数の患者のうちの1人又は複数の患者の例示的なデータセット500に含まれるよりも多くのデータ入力を含む。追加のデータ入力の幾つかの例には、患者の肥満度指数(BMI)、1秒率、メジアン1秒率(例えば、患者のFEV1及びFVCが2回以上測定された場合)、喘鳴ステータス(例えば、荒い、両側性、わずか、長期等)、喘鳴ステータス変化(例えば、増加、低下等)、咳のタイプ(例えば、通常の咳、喀痰を伴う咳等)、呼吸困難のタイプ(例えば、発作性夜間呼吸困難、偏側臥呼吸、扁平呼吸等)、呼吸困難ステータス変化(例えば、改善、悪化等)、慢性鼻炎カウント(例えば、陽性診断回数)、アレルギー性鼻炎カウント(例えば、陽性診断回数)、胃食道逆流症カウント(例えば、陽性診断回数)、場所データ(例えば、患者宅の気圧及び平均アレルゲンカウント)及び睡眠データ(例えば、一晩当たりの平均睡眠時間)がある(しかし、これらに限定されない)。更に、幾つかの例では、データセットは、データセットに含まれる複数の患者のうちの1人又は複数の患者の画像データ(例えば、胸部レントゲン写真/X線像)を含む。幾つかの例では、ブロック402において受信されるデータセットは、複数の患者のうちの1人又は複数の患者の例示的なデータセット500に含まれるデータよりも少ないデータ入力を含む。
【0033】
図4に戻ると、ブロック404において、計算システムは、ブロック402において受信したデータセットを事前処理する(例えば、データ調整モデル212を介して)。計算システムが2つ以上のデータセットをブロック402において受信する上記例では、計算システムは、1つの結合データセットを事前処理する。図4に示されるように、ブロック404におけるデータセットの事前処理は、ブロック404Aにおいて、データセットから繰り返しのデータ、無意味なデータ又は不必要なデータを除去することと、ブロック404Bにおいて、データセットに含まれるデータ入力値の測定の単位を合わせることとを含む。幾つかの例では、ブロック404Aにおいて繰り返しのデータ、無意味なデータ又は不必要なデータを除去することは、データセットに含まれる複数の患者のうちの1人又は複数の患者の繰り返しのデータ、無意味なデータ及び/又は不必要なデータを除去することを含む。例えば、データ入力は、喘息及び/又はCOPDの診断に重要であると識別されていない(例えば、医師及び研究科学者により)場合、不必要である。幾つかの例では、ブロック404Aにおいて繰り返しのデータ、無意味なデータ又は不必要なデータを除去することは、1人又は複数の患者のデータ入力が1つ又は複数のコアデータ入力を含まない場合、それらの1人又は複数の患者(及びそれらの対応するデータ入力の全て)をデータセットから全体的に除去することを含む。コアデータ入力の幾つかの例には、患者の年齢、性別、身長及び/又は体重がある(しかし、これらに限定されない)。
【0034】
幾つかの例では、ブロック404Bにおいてデータセットに含まれるデータ入力値の測定の単位を合わせることは、全てのデータ入力値を対応する尺度値に変換すること(適用可能な場合)を含む。例えば、データ入力値を対応する尺度値に変換することは、データセット内の患者の身長の全てのデータ入力値をセンチメートル(cm)に変換すること及び/又はデータセット内の患者の体重の全てのデータ入力値をキログラム(kg)に変換することを含む。
【0035】
幾つかの例では、ブロック404は、ブロック404A及びブロック404Bの一方を含まない。例えば、ブロック404は、ブロック402において受信したデータセット内に繰り返しのデータ、無意味なデータ又は不必要なデータがない場合、ブロック404Aを含まない。幾つかの例では、ブロック404は、ブロック402において受信したデータセットに含まれるデータ入力値の全ての測定単位が既に合わせられている(例えば、既にメートル単位である)場合、ブロック404Bを含まない。
【0036】
図6は、事前処理後の例示的なデータセットの一部を示す。特に、図6は、例示的なデータセット500の事前処理に基づいて計算システムにより生成される例示的なデータセット600の一部を示す。示されるように、計算システムは、例示的なデータセット500から全ての患者の人種/民族性データ入力を除去した。この例では、計算システムは、患者の人種/民族性が不必要なデータ入力であると判断したため、例示的なデータセット500から全ての患者の人種/民族性データ入力を除去した。特に、この例では、患者の人種/民族性は喘息及び/又はCOPDの診断に重要であるとして識別されていない(例えば、医師及び研究科学者により)ため、計算システムは、患者の人種/民族性が不必要なデータ入力であると判断した。更に、計算システムは、患者1及び患者4(並びにそれらの全ての対応するデータ入力)を全体的に例示的なデータセット500から除去した。この例では、患者1及び患者4のデータ入力がコアデータ入力を含まなかったため、計算システムは、患者1及び患者4を例示的なデータセット500から除去した。特に、患者の性別及び患者の年齢は、両方ともコアデータ入力であったが、患者1のデータ入力は、患者の性別データ入力(例えば、男性(M)又は女性(F))を含まず、患者4のデータ入力は、患者の年齢データ入力を含まなかった。
【0037】
計算システムは、患者19(及び患者19の全ての対応するデータ入力)も例示的なデータセット500から全体的に除去した。この例では、計算システムは、患者19が患者2の複製である(例えば、患者19及び患者2の全てのデータ入力が同一であり、したがって、患者19は、患者2の繰り返しであった)と判断したため、患者19を例示的なデータセット500から全体的に除去した。最後に、計算システムは、患者2の患者体重データ入力並びに患者11及び患者12の患者身長データ入力の単位を合わせた。特に、計算システムは、患者2の患者体重データ入力の値/単位を220ポンド(lb)から100キログラム(kg)に変換し、患者11及び患者12の患者身長データ入力の値/単位を5.5フィート(ft)及び5.8ftからそれぞれ170センチメートル(cm)及び177cmに変換した。
【0038】
図4に戻ると、ブロック406において、計算システムは、ブロック404において生成された事前処理済みデータセットを特徴量エンジニアリングする(例えば、データ調整モデル212を介して)。示されるように、ブロック406において事前処理済みデータセットを特徴量エンジニアリングすることは、ブロック406Aにおいて、1人又は複数の患者の複数のデータ入力の1つ又は複数のデータ入力の値に基づいて、データセットに含まれる複数の患者のうちの1人又は複数の患者の1つ又は複数の新しいデータ入力の値を計算(例えば、外挿)することを含む。計算システムが計算する1つ又は複数の新しいデータ入力の値の幾つかの例には、患者のBMI、1秒率、予測FEV1、予測FVC及び/又は予測1秒率(例えば、予測FVCに対する予測FEV1の比率)がある(しかし、これらに限定されない)。幾つかの例では、複数のデータ入力の1つ又は複数のデータ入力の値に基づいて1つ又は複数の新しいデータ入力の値を計算することは、関連する研究及び/又は学術文献内で利用可能な既存のモデルに基づいて、1つ又は複数の新しいデータ入力の値を計算すること(例えば、患者の性別及び人種データ入力値に基づいて予測患者FEV1データ入力の値を計算すること)を含む。幾つかの例では、複数のデータ入力の1つ又は複数のデータ入力の値に基づいて1つ又は複数の新しいデータ入力の値を計算することは、患者の年齢、性別及び/又は人種/民族性が合致した平均(例えば、医師及び/又は研究科学者により提供される平均、関連する研究及び/又は学術文献内の平均等)に基づいて、1つ又は複数の新しいデータ入力の値を計算することを含む。幾つかの例では、ブロック406Aは、1つ又は複数の新しいデータ入力の値を計算した後、計算システムが、1人又は複数の患者の1つ又は複数の新しいデータ入力をデータセットに追加することを更に含む。
【0039】
ブロック406において事前処理済みデータセットを特徴量エンジニアリングすることは、ブロック406Bにおいて、計算システムが、データセットに含まれる複数の患者のそれぞれの1つ又は複数のカテゴリデータ入力に対応するカイ二乗統計と、データセットに含まれる複数の患者のそれぞれの1つ又は複数の非カテゴリデータ入力に対応する分散分析(ANOVA)F検定統計とを計算することを更に含む。カテゴリデータ入力は、非数値データ入力値を有するデータ入力を含む。非数値データ入力値の幾つかの例には、患者の胸部ラベルデータ入力の「胸部絞扼感」又は「胸部圧迫感」及び患者の咳嗽ステータスデータ入力の「断続的」、「軽い」、「時々」又は「記述子なし」がある(しかし、これらに限定されない)。非カテゴリデータ入力は、数値データ入力値を有するデータ入力を含む。
【0040】
計算システムは、カイ二乗及びANOVA F検定統計を利用して、データセットに含まれる喘息又はCOPD診断(例えば、データセットの「ターゲット属性」)に関連したデータセットに含まれる1つ又は複数のデータ入力の値間の分散を測定する。したがって、計算システムは、計算されたカイ二乗及びANOVA F検定統計に基づいて、クラスから独立し、したがって喘息及び/又はCOPD診断を予測するようにデータセットを使用して機械学習アルゴリズムをトレーニングするのに有用ではなく、且つ/又は関連がない可能性が最も高い1つ又は複数のデータ入力を特定する。換言すれば、計算システムは、データセットに含まれる他のデータ入力と比較した場合、データセットに含まれる喘息又はCOPD診断に関連して高い分散を有する1つ又は複数のデータ入力(データセットに含まれるデータ入力の)を特定する。幾つかの例では、クラスから独立している可能性が最も高い1つ又は複数のデータ入力を特定することは、計算システムが、データセットに基づいて、交差検証を加えた再帰的特徴量削減(RFECV)を実行すること(例えば、カイ二乗及びANOVA F検定統計を計算した後)を更に含む。幾つかの例では、ブロック406Bは、計算システムが、データセットに含まれる複数の患者のうちの1人又は複数の患者についてクラスから独立している可能性が最も高いと判断した1つ又は複数のデータ入力を除去することを更に含む。
【0041】
ブロック406において事前処理済みデータセットを特徴量エンジニアリングすることは、計算システムが、ブロック406Cにおいて、データセットに含まれる複数の患者のそれぞれのカテゴリデータ入力をワンホット符号化することを更に含む。上述したように、カテゴリデータ入力は、非数値データ入力値を有するデータ入力を含む。ブロック406Cに関して、カテゴリデータ入力は、データセットに含まれる喘息又はCOPDの診断を更に含む(喘息又はCOPDの診断は、非数値であるため)。ワンホット符号化は、カテゴリデータ入力値を、機械学習アルゴリズムのトレーニングに使用することができる形態に変換するプロセスであり、幾つかの場合、トレーニング済み機械学習アルゴリズムの予測能力を改善する。したがって、データセットに含まれる複数の患者のそれぞれのカテゴリデータ入力値をワンホット符号化することは、複数の患者の非数値データ入力値及び喘息又はCOPDの診断のそれぞれを、非数値データ入力値及び喘息又はCOPD診断を表す数値及び/又は二進値に変換することを含む。例えば、患者の胸部ラベルデータ入力の非数値データ入力値「胸部絞扼感」及び「胸部圧迫感」は、それぞれ二進値0及び1に変換される。同様に、喘息診断及びCOPD診断もそれぞれ二進値0及び1に変換される。
【0042】
図7は、特徴量エンジニアリング後の例示的なデータセットの一部を示す。特に、図7は、例示的なデータセット600の特徴量エンジニアリングに基づいて計算システムにより生成される例示的なデータセット700の一部を示す。示されるように、計算システムは、例示的なデータセット600に含まれる複数の患者(例えば、患者2、患者3及び患者5~患者n)のそれぞれの5つの新しいデータ入力の値を計算し、新しいデータ入力を例示的なデータセット600に追加した。特に、計算システムは、例示的なデータセット600に含まれる複数の患者のそれぞれの患者BMI、1秒率、予測FEV1、予測FVC及び予測1秒率の値を計算し、新しいデータ入力を追加した。先に説明したように、計算システムは、(1)複数の患者のそれぞれの複数のデータ入力の1つ又は複数のデータ入力の値、(2)関連する研究及び/又は学術文献内で利用可能な既存のモデル、及び/又は(3)患者の年齢及び/又は性別合致平均(しかし、人種/民族性データ入力は、例示的なデータセット500の事前処理中に除去されたため、人種/民族性合致平均に基づかない)に基づいて新しいデータ入力の値を計算することができた。例えば、計算システムは、例示的なデータセット600に含まれる複数の患者のそれぞれの身長及び体重データ入力の値並びにBMIを計算する既存のモデル(例えば、BMI=kg単位の体重/(cm単位の身長/100))に基づいて、患者BMIデータ入力の値を特定することができた。
【0043】
図7に示されるように、計算システムは、例示的なデータセット600に含まれる複数の患者のそれぞれのEOSカウントデータ入力も除去した。特に、この例では、計算システムは、例示的なデータセット600に含まれる複数の患者のそれぞれのカテゴリデータ入力に対応するカイ二乗統計と、例示的なデータセット600に含まれる複数の患者のそれぞれの非カテゴリデータ入力に対応するANOVA F検定統計とを計算した。次に、計算システムは、計算されたANOVA F検定統計に基づいて、患者のEOSカウントデータ入力がクラスから独立し(例えば、他のデータ入力と比較して)、したがって例示的なデータセット600を使用して機械学習アルゴリズムをトレーニングするのに有用ではなく、且つ/又は関係がない可能性が高いと判断した。なお、EOSカウントは、非カテゴリデータ入力であるため、計算システムは、ANOVA F検定統計に基づいてEOSカウントデータ入力に関するこの判断を行った。患者EOSカウントデータ入力がクラスから独立している可能性が高いと判断した後、計算システムは、例示的なデータセット600に含まれる複数の患者のそれぞれのEOSカウントデータ入力を除去した。
【0044】
最後に、図7に示されるように、計算システムは、例示的なデータセット600に含まれる複数の患者のそれぞれのカテゴリデータ入力値もワンホット符号化した。特に、計算システムは、例示的なデータセット600に含まれる複数の患者のそれぞれの患者性別、胸部ラベル、喘鳴タイプ、咳嗽ステータス及び呼吸困難ステータスデータ入力の非数値を、非数値を表す二進値に変換した。例えば、患者胸部ラベルデータ入力に関して、計算システムは、全ての「胸部絞扼感」値を二進値「0」に変換し、全ての「胸部圧迫感」値を二進値「1」に変換した。別の例として、喘鳴タイプデータ入力に関して、計算システムは、全ての「喘鳴」値を二進値「001」に変換し、全ての「呼気喘鳴」を二進値「010」に変換し、全ての「吸気喘鳴」を二進値「100」に変換した。更に、計算システムは、全ての「喘息」値を二進値「0」に変換し、全ての「COPD」値を二進値「1」に変換することにより、例示的なデータセット400に含まれる複数の患者のそれぞれの喘息又はCOPD診断をワンホット符号化した。
【0045】
図4に戻ると、ブロック408において、計算システムは、2つの教師なし機械学習アルゴリズム(例えば、機械学習アルゴリズム216に含まれる)を、ブロック406において生成された特徴量エンジニアリングされたデータセットに適用する(例えば、機械学習トレーニングモジュール214を介して)。計算システムがデータセットに適用する第1の教師なし機械学習アルゴリズムは、均一マニフォールド近似投影(UMAP)アルゴリズムである。データセットの次元削減表現は、1つ又は複数の座標の形態のデータセットに含まれる複数の患者のそれぞれのデータ入力値の次元削減表現を含む。幾つかの例では、UMAPアルゴリズムをデータセットに適用することは、二次元座標(例えば、x及びy座標)の形態のデータセットに含まれる複数の患者のそれぞれのデータ入力値の二次元表現を生成する。他の例では、UMAPアルゴリズムをデータセットに適用することは、三次元以上の次元(例えば、三次元表現)を有する、データセットに含まれる複数の患者のそれぞれのデータ入力値の次元削減表現を生成する。幾つかの例では、計算システムは、上述したUMAPアルゴリズムの適用の代わりに、1つ又は複数の他のアルゴリズム及び/又は技法を適用して、データセットの次元数を非線形的に低減して、データセットの次元削減表現を生成する。そのようなアルゴリズム及び/又は技法の幾つかの例には、アイソマップ(又は他の非線形次元削減法)、ロバスト特徴スケーリング後の主成分分析(PCA)又は線形判別分析(LDA)及び普通の特徴スケーリング後のPCA又はLDAがある(しかし、これらに限定されない)。
【0046】
幾つかの例では、データセットに含まれる複数の患者のそれぞれのデータ入力値の次元削減表現を生成した後(例えば、1つ又は複数の座標の形態において)、計算システムは、データ入力値の次元削減表現をデータセットに患者のそれぞれの1つ又は複数の新しいデータ入力として追加する。例えば、計算システムが、二次元座標の形態において、データセットに含まれる各患者のデータ入力値の二次元表現を生成する上記例では、計算システムは、実質的に、複数の患者の各患者の二次元座標の各座標の新しいデータ入力を追加する。
【0047】
更に、UMAPアルゴリズムをデータセットに適用した後、計算システムは、特徴量エンジニアリングされたデータセットの次元数の非線形削減を表すUMAPモデル(例えば、機械学習モデルアーチファクト)を生成する(例えば、機械学習モデル出力モジュール220を介して)。次に、更に詳細に以下に説明するように、計算システムが、生成されたUMAPモデルを、例えば特徴量エンジニアリングされたデータセットに含まれない患者に対応する複数のデータ入力を含む患者データの組に適用する場合、計算システムは、データセットに含まれない患者のデータ入力値の次元削減表現を求める(UMAPモデルの適用に基づいて)。特に、計算システムは、計算システムが特徴量エンジニアリングされたデータセットの次元数を削減するのと同じように、患者データの組を非線形的に削減することにより特徴量エンジニアリングされたデータセットに含まれない患者のデータ入力値の次元削減表現を求める。
【0048】
特徴量エンジニアリングされたデータセットに含まれる複数の患者のそれぞれのデータ入力値の次元削減表現を生成した後(例えば、1つ又は複数の座標の形態において)、計算システムは、階層密度に基づくノイズあり空間クラスタリング(HDBSCAN)教師なし機械学習アルゴリズムをデータ入力値の次元削減表現に適用する。HDBSCANアルゴリズムをデータセットの次元削減表現に適用することは、1人又は複数の患者のデータ入力値の次元削減表現及び1つ又は複数の類似性/相関閾値要件(以下に更に詳細に考察する)に基づいて、データセットに含まれる複数の患者のうちの1人又は複数の患者を患者の1つ又は複数のクラスタ(グループ等)にクラスタリングする。患者の1つ又は複数の生成されたクラスタの患者の生成された各クラスタは、データ入力値の同様/相関した次元削減表現(例えば、同様/相関した座標)を有する2人以上の患者を含む。患者の1つのクラスタにクラスタリングされた1人又は複数の患者は、「インライア」及び/又は「表現型ヒット」と呼ばれる。幾つかの例では、計算システムは、先に触れたHDBSCANアルゴリズムを適用する代わりに、1つ又は複数の他のアルゴリズムをデータセットに適用して、データセットに含まれる複数の患者のうちの1人又は複数の患者を患者の1つ又は複数のクラスタにクラスタリングする。そのようなアルゴリズムの幾つかの例には、K平均クラスタリングアルゴリズム、平均シフトクラスタリングアルゴリズム及び密度に基づくノイズあり空間クラスタリング(DBSCAN)アルゴリズムがある(しかし、これらに限定されない)。
【0049】
なお、幾つかの例では、データセットに含まれる複数の患者のうちの1人又は複数の患者は、患者のクラスタにクラスタリングされない。患者のクラスタにクラスタリングされない1人又は複数の患者は、「アウトライア」及び/又は「表現型ミス」と呼ばれる。例えば、計算システムは、患者のデータ入力値の次元削減表現が1つ又は複数の類似性/相関閾値要件を満たさないと判断する(データセットの次元削減表現へのHDBSCANアルゴリズムの適用に基づいて)場合、患者を患者のクラスタにクラスタリングしない。
【0050】
幾つかの例では、1つ又は複数の類似性/相関閾値要件は、患者のクラスタにクラスタリングされるには、患者のデータ入力値の次元削減表現の各座標(例えば、三次元表現の場合、x、y及びz座標)が特定の数値範囲内に入るという要件を含む。幾つかの例では、1つ又は複数の類似性/相関閾値要件は、患者のデータ入力値の次元削減表現の少なくとも1つの座標が、1人又は複数の他の患者のデータ入力値の次元削減表現の対応する座標への特定の近さ内に入るという要件を含む。幾つかの例では、1つ又は複数の類似性/相関閾値要件は、患者のデータ入力値の次元削減表現の全ての座標が、データセットに含まれる最小数の他の患者の次元削減表現の対応する座標への特定の近さ内に入るという要件を含む。幾つかの例では、1つ又は複数の類似性/相関閾値要件は、患者のデータ入力値の次元削減表現の全ての座標がクラスタ重心(例えば、クラスタの中心点)への特定の近さ内に入るという要件を含む。これらの例では、計算システムは、計算システムがHDBSCANアルゴリズムのデータセットへの適用に基づいて生成する1つ又は複数のクラスタのそれぞれのクラスタ重心を求める。
【0051】
幾つかの例では、1つ又は複数の類似性/相関閾値要件は、予め決定される。幾つかの例では、計算システムは、データセットの次元削減表現又はデータセット自体へのHDBSCANアルゴリズムの適用に基づいて、1つ又は複数の類似性/相関閾値要件を生成する。
【0052】
HDBSCANアルゴリズムをデータセットに含まれる複数の患者のそれぞれのデータ入力値の次元削減表現に適用した後、計算システムは、データセットのクラスタ構造を表すHDBSCANモデル(例えば、機械学習モデル出力モジュール220を介して)(例えば、1つ又は複数の生成されたクラスタ並びにデータセットに含まれるインライア及びアウトライアの相対位置を表す機械学習モデルアーチファクト)を生成する。次に、更に詳細に以下に説明するように、計算システムが生成されたHDBSCANモデルを、例えばデータセットに含まれない患者の患者データの組に含まれるデータ入力値の次元削減表現に適用する場合、計算システムは、患者が、データセットに含まれる複数の患者に対応する1つ又は複数の生成されたクラスタの1つに入るか否かを判断する(HDBSCANモデルの適用に基づいて)。換言すれば、計算システムは、患者のデータ入力値の次元削減表現へのHDBSCANモデルの適用に基づいて、各患者が、データセットに含まれる複数の患者に対応する1つ又は複数の生成されたクラスタに関してインライア/表現型ヒットであるか、又はアウトライア/表現型ミスであるかを判断する。
【0053】
幾つかの例では、ステップ408において、計算システムは、UMAP及びHDBSCANアルゴリズムの代わりに、1つ又は複数のガウス混合モデルアルゴリズムを特徴量エンジニアリングされたデータセットに適用する。ガウス混合モデルアルゴリズムは、UMAP及びHDBSCANアルゴリズムのように、教師なし機械学習アルゴリズムである。更に、UMAP及びHDBSCANアルゴリズムの特徴量エンジニアリングされたデータセットへの適用と同様に、1つ又は複数のガウス混合モデルアルゴリズムのデータセットへの適用は、計算システムがデータセットに含まれる患者をインライア又はアウトライアとして分類できるようにする。特に、計算システムは、1つ又は複数のガウス混合モデルアルゴリズムのデータセットへの適用に基づいて、データセットのカバーマニフォールド(例えば、表面マニフォールド)を求める。次に、計算システムは、患者がカバーマニフォールド内に入るか否かに基づいて、患者がインライアであるか、又はアウトライアであるかを判断する(例えば、患者がカバーマニフォールド内に入る場合、患者は、インライアである)。しかしながら、ガウス混合モデルアルゴリズムは、拒絶確率が調整可能であり、それにより、データセットに含まれる患者がカバーマニフォールド内に入る確率、したがって患者がアウトライアとして分類される確率を計算システムが調整できるようにする点で追加の利点を提供する。
【0054】
幾つかの例では、ステップ408において、計算システムは、データセットに含まれる特定のデータ入力(例えば、性別、喫煙ステータス、1秒量、1秒率、BMI、症状の数又は体重)に基づいて、特徴量エンジニアリングされたデータセットを階層化し、次に別個のガウス混合モデルアルゴリズムをデータセットの階層化された各サブセットに適用する。例えば、計算システムは、性別に基づいてデータセットを階層化する場合、続けてあるガウス混合モデルアルゴリズムをデータセットに含まれる男性患者のみに適用し、別のガウス混合モデルアルゴリズムをデータセットに含まれる女性患者のみに適用する。階層化されたサブセットに含まれる患者をインライア又はアウトライアとして分類することに加えて、上述したようにデータセットを階層化することにより、計算システムは、特徴量エンジニアリングされたデータセットに含まれる他のデータ入力値に依存するデータ入力値を考慮に入れることができる。例えば、1秒量値及び1秒率値は、性別に高度に依存する(例えば、女性の正常な1秒量測定値は、男性では異常になる)ため、別個のガウス混合モデルアルゴリズムを女性患者のサブセット及び男性患者のサブセットに適用することにより、計算システムは、患者をインライア又はアウトライアとして分類する際(例えば、トレーニング済みガウス混合モデルを患者データに適用する際)、1秒量及び1秒率の依存性を考慮に入れることができる。したがって、これは、インライア又はアウトライアとしての計算システムの患者の分類を改善する(例えば、分類精度及び特異性を上げる)。
【0055】
例えば、図13A~Hは、性別に基づいて階層化された患者データの特徴量エンジニアリングされたテストセットのサブセットへの、ガウス混合モデルの適用に基づく例示的なインライア及びアウトライア分類結果を表す棒グラフを示す。特に、図13A~Dは、患者データのテストセットに含まれる女性患者へのガウス混合モデル(女性患者のデータのみを含んだ患者のトレーニングデータセットを使用してトレーニングされた)の適用に対応する、インライア(すなわち「異常」)及びアウトライア(すなわち「正常」)分類結果を表す棒グラフを示す。図13E~Hは、患者データのテストセットに含まれる男性患者へのガウス混合モデル(男性患者のデータのみを含んだ患者のトレーニングデータセットを使用してトレーニングされた)の適用に対応する、インライア及びアウトライア分類(ここでもグラフにおいてそれぞれ「異常」及び「正常」と呼ばれる)結果を表す棒グラフを示す。更に、図13A~Hに示される棒グラフは、グラフがインライア患者及びアウトライア患者の特定のデータ入力の値の分布を示すように、患者データのテストセットに含まれる特定のデータ入力に対応する(特に図13A図13B図13E及び図13Fでは1秒量、図13C図13D図13G及び図13HではBMI)。示されるように、アウトライア患者(「正常」と呼ばれる患者)は、データ入力値(この場合、1秒量及びBMI)に規格外/異常値を有する傾向が低く、これは、図13A図13C図13E及び図13Gに示されるデータ入力値分布がインライア患者(「異常」と呼ばれる患者)のデータ入力値よりも均一であり、散乱の程度が低いことの理由である。これは、部分的には、インライア又はアウトライアとしてテストセットに含まれる患者を分類する際、計算システムが、性別に依存するデータ入力値における差を考慮に入れられるようにする、性別に基づいて階層化されたトレーニングデータサブセットを用いてトレーニングされたガウス混合モデルの計算システムの適用に起因する。
【0056】
ブロック410において、計算システムは、アウトライア/表現型ミス(例えば、患者のクラスタにクラスタリングされない、データセットに含まれる複数の患者のうちの1人又は複数の患者)をデータセットから除去することにより、インライアデータセットを生成する(例えば、データ調整モジュール212を介して)。特に、計算システムは、データセットに残っている患者のみが、計算システムがブロック408において生成された患者の1つ又は複数のクラスタの1つにクラスタリングした患者(例えば、インライア/表現型ヒット)であるように、アウトライア/表現型ミス(及び対応するデータ入力の全て)をデータセットから全体的に除去する。
【0057】
図8は、例示的なデータセットに2つの教師なし機械学習アルゴリズムを適用し、例示的なデータセットから全てのアウトライア/表現型ミスを除去した後の例示的なデータセットの一部を示す。特に、図8は、例示的なデータセット800を示し、例示的なデータセット800は、(1)UMAPアルゴリズムを例示的なデータセット700に適用して、二次元座標の形態で例示的なデータセット700に含まれる各患者のデータ入力値の二次元表現を生成し、(2)各患者の2つの新しいデータ入力(例えば、相関X及び相関Y)として、各患者のデータ入力値の二次元表現を例示的なデータセット700に追加し、(3)HDBSCANアルゴリズムを患者のデータ入力値の二次元表現に適用して、例示的なデータセット700に含まれる複数の患者を患者の複数のクラスタにクラスタリングし、(4)複数のアウトライア/表現型ミスを除去した後、計算システムにより生成される。図7における例示的なデータセット700の部分に示される患者のこの例では、計算システムは、患者12~患者18の各患者の二次元座標が1つ又は複数の類似性/相関閾値要件を満たさないという判断に基づいて、例示的なデータセット700の患者12~患者18を除去した。換言すれば、患者12~患者18は、患者のクラスタにクラスタリングされず、したがってアウトライア/表現型ミスであったため、計算システムは、患者12~患者18を除去した。更に、患者2、患者3、患者5~11及び患者nのそれぞれの二次元座標が1つ又は複数の類似性/相関閾値要件を満たしたという判断に基づいて、計算システムは、患者2、患者3、患者5~11及び患者nを例示的なデータセット700から除去しなかった。換言すれば、患者2、患者3、患者5~11及び患者nは、それぞれ患者のクラスタにクラスタリングされ、したがってインライア/表現型ヒットであったため、計算システムは、患者2、患者3、患者5~11及び患者nを除去しなかった。
【0058】
例えば、図8に示されるように、計算システムは、1つ又は複数の類似性/相関閾値要件に基づいて、患者2、患者3、患者5~11及び患者nのそれぞれを4つのクラスタの1つにクラスタリングした。特に、患者の第1のクラスタは、患者2(例えば、9.34(X)及び13.41(Y))、患者6(例えば、9.27(X)及び13.38(Y))並びに患者11(例えば、9.51(X)及び13.33(Y))を含む。患者の第2のクラスタは、患者3(例えば、-2.65(X)及び-7.94(Y))、患者8(例えば、-2.55(X)及び-7.85(Y))並びに患者n(例えば、-2.63(X)及び-7.91(Y))を含む。患者の第3のクラスタは、患者5(例えば、8.81(X)及び-2.31(Y))並びに患者9(例えば、8.32(X)及び-2.11(Y))を含む。最後に、患者の第4のクラスタは、患者7(例えば、-2.68(X)及び3.55(Y))並びに患者10(例えば、-2.88(X)及び3.76(Y))を含む。
【0059】
図4に戻ると、ブロック412において、計算システムは、教師あり機械学習アルゴリズム(例えば、機械学習アルゴリズム216に含まれる)を、ブロック410において生成されたインライアデータセットに適用する(例えば、機械学習トレーニングモジュール214を介して)ことにより教師あり機械学習モデルを生成する(例えば、機械学習モデル出力モジュール220を介して)。インライアデータセットに適用される教師あり機械学習アルゴリズムの幾つかの例には、XGBoost、PyTorch、scikit-learn、Caffe2、Chainer、Microsoft Cognitive Toolkit又はTensorFlowを使用して生成される教師あり機械学習アルゴリズムがある(しかし、これらに限定されない)。教師あり機械学習アルゴリズムをインライアデータセットに適用することは、計算システムが、ターゲット属性としてインライアデータセットに含まれる各患者の喘息/COPD診断をラベル付けし、続けてインライアデータセットを使用して教師あり機械学習アルゴリズムをトレーニングすることを含む。以下で考察するように、ターゲット属性は、教師あり機械学習アルゴリズムが予測するようにトレーニングされる「正しい答え」を表す。したがって、この場合、教師あり機械学習アルゴリズムは、インライアデータセットに類似するデータ(例えば、複数のデータ入力を含む患者データ)が提供された場合、教師あり機械学習アルゴリズムが喘息及び/又はCOPD診断を予測するように学習し得るように、インライアデータセット(例えば、インライアデータセットのデータ入力)を使用してトレーニングされる。幾つかの例では、教師あり機械学習アルゴリズムをインライアデータセットに適用することは、インライアデータセットを第1の部分(本明細書では「インライアトレーニングセット」と呼ばれる)及び第2の部分(本明細書では「インライアバリデーションセット」と呼ばれる)に分割し、インライアトレーニングセットに含まれる1人又は複数の患者のそれぞれの喘息/COPD診断をターゲット属性としてラベル付けし、インライアトレーニングセットを使用して教師あり機械学習アルゴリズムをトレーニングすることを含む。例えば、インライアトレーニングセットは、インライアデータセットに含まれる1人又は複数の患者と、その1人又は複数の患者のデータ入力及び対応する喘息/COPD診断の全てとを含む。
【0060】
教師あり機械学習アルゴリズムをトレーニングした後、計算システムは、教師あり機械学習モデル(例えば、機械学習モデルアーチファクト)を生成する。教師あり機械学習モデルを生成することは、計算システムが、1つ又は複数の教師あり機械学習アルゴリズムのトレーニングに基づいて、インライアデータセットに含まれる患者のデータ入力を患者の対応する喘息/COPD診断(例えば、ターゲット属性)にマッピングする1つ又は複数のパターンを決定する。その後、計算システムは、1つ又は複数のパターンを表す教師あり機械学習モデル(例えば、1つ又は複数のパターンを表す機械学習モデルアーチファクト)を生成する。更に詳細に以下で考察するように、計算システムは、インライアデータセットに類似するデータ(例えば、複数のデータ入力を含む患者データ)が提供された場合、生成された教師あり機械学習モデルを使用して、喘息及び/又はCOPD診断を予測する。
【0061】
インライアデータセットがインライアトレーニングセット及びインライアバリデーションセットに分割される例では、教師あり機械学習モデルを生成することは、インライアバリデーションセットを使用して教師あり機械学習モデル(教師あり機械学習アルゴリズムをインライアトレーニングセットに適用することにより生成される)を検証する計算システムを更に含む。教師あり機械学習モデルを検証することは、教師あり機械学習モデルを生成した教師あり機械学習アルゴリズムのトレーニングに使用したデータと類似するデータが提供された場合、ターゲット属性を正確に予測する教師あり機械学習モデルの能力を評価する。これらの例では、計算システムは、教師あり機械学習モデルを検証して、上述したトレーングプロセス中に使用されるインライアデータセットと類似する患者データ(例えば、複数のデータ入力を含む患者データ)が提供された場合、喘息及び/又はCOPD診断を正確に予測する教師あり機械学習モデルの能力を評価する。
【0062】
種々のタイプの教師あり機械学習モデル検証法がある。検証のタイプの幾つかの例には、k分割交差検証、階層化k分割交差検証、リーブpアウト交差検証等がある。幾つかの例では、計算システムは、1つのタイプの検証を使用して、教師あり機械学習モデル(教師あり機械学習アルゴリズムをインライアトレーニングセットに適用することにより生成される)を検証する。他の例では、計算システムは、2つ以上のタイプの検証を使用して、教師あり機械学習モデルを検証する。更に、幾つかの例では、インライアトレーニングセット内の患者数、インライアバリデーションセット内の患者数、教師あり機械学習アルゴリズムがトレーニングされる回数及び/又は教師あり機械学習モデルが検証される回数は、検証プロセス中、計算システムが使用する検証のタイプに基づく。
【0063】
教師あり機械学習モデルを検証することは、計算システムが、教師あり機械学習モデルが予測するターゲット属性であるため、インライアバリデーションセットに含まれる各患者の喘息/COPD診断を除去することを含む。インライアバリデーションセットに含まれる各患者の喘息/COPDシンダを除去した後、計算システムは、教師あり機械学習モデルが各患者のデータ入力値に基づいて各患者の喘息及び/又はCOPD診断予測を判断するように、教師あり機械学習モデルをインライアバリデーションセットに含まれる患者のデータ入力値に適用する。その後、計算システムは、喘息及び/又はCOPD診断を予測する教師あり機械学習モデルの能力を評価し、これは、計算システムが、患者の判断された喘息及び/又はCOPD診断予測を患者の真の喘息/COPD診断(例えば、インライアバリデーションセットから除去された診断)と比較することを含む。幾つかの例では、喘息及び/又はCOPD診断を予測する教師あり機械学習モデルの能力を評価する計算システムの方法は、検証プロセス中に使用される検証のタイプに基づく。
【0064】
幾つかの例では、喘息及び/又はCOPD診断を予測する教師あり機械学習モデルの能力を評価することは、計算システムが、教師あり機械学習モデルの予測能力を表す1つ又は複数の分類性能尺度を決定することを含む。1つ又は複数の分類性能尺度の幾つかの例には、F1スコア(Fスコア又はF測定としても知られる)、受診者動作特性(ROC)曲線、曲線下面積(AUC)尺度(例えば、ROC曲線下の面積に基づく尺度)、ログ損失尺度、正確性尺度、精度尺度、特異性尺度及びリコール尺度(感度尺度としても知られる)がある。幾つかの例では、計算システムは、1つ又は複数の決定された分類性能尺度が1つ又は複数の対応する所定の分類性能尺度閾値を満たすまで、上記トレーニング及び検証プロセスを繰り返して実行する(例えば、インライアトレーニングセット及びインライアバリデーションセット又はその変形を使用して)。これらの例では、計算システムにより生成された教師あり機械学習モデルは、それぞれが1つ又は複数の対応する所定の分類性能尺度閾値を満たす1つ又は複数の分類性能尺度に関連する教師あり機械学習モデルである。
【0065】
幾つかの例では、教師あり機械学習モデルを検証することは、計算システムが、教師あり機械学習モデルのハイパーパラメータを調整/最適化する(例えば、教師あり機械学習モデルの生成に使用された特定の教師あり機械学習アルゴリズムに固有の技法を使用して)ことを更に含む。教師あり機械学習モデルのハイパーパラメータの調整/最適化(「ディープ最適化」とも呼ばれる)は、教師あり機械学習モデルのデフォルトハイパーパラメータを維持する(「基本最適化」とも呼ばれる)のとは対照的に、教師あり機械学習モデルの性能を最適化し、したがって正確な予測を行う能力を改善する(例えば、モデルの正確性、感度等のモデルの性能尺度を改善する)。
【0066】
例えば、以下の表(1)は、教師あり機械学習モデルのハイパーパラメータが、モデルの検証中に調整/最適化されなかった(すなわち基本最適化)場合、患者データのテストセットに教師あり機械学習モデルを適用したことに基づく喘息及び/又はCOPD予測結果(例えば、正しく予想された真のラベル/診断の割合)を含む。他方、以下の表(2)は、教師あり機械学習モデルのハイパーパラメータが、モデルの検証中に調整/最適化された(すなわちディープ最適化)場合、患者データの同じテストセットに教師あり機械学習モデルを適用したことに基づく喘息及び/又はCOPD予測結果(例えば、正しく予測された真のラベル/診断の割合)を含む。示されるように、基本最適化教師あり機械学習モデルは、喘息、COPD並びに喘息及びCOPD(「ACO」)をかなり高い正確性及び感度で予測したが、ディープ最適化教師あり機械学習モデルの正確性及び感度は、更に高かった。
【0067】
【表1】
【0068】
【表2】
【0069】
幾つかの例では、教師あり機械学習モデルを検証した後(且つ幾つかの例では教師あり機械学習モデルに対応する1つ又は複数の性能尺度を特定した後)、計算システムは、インライアデータセットに含まれるデータ入力に基づいて特徴選択を実行して、喘息及び/又はCOPD(例えば、教師あり機械学習モデルの診断予測に最大の影響を有するデータ入力)の予測に関して最も重要なデータ入力を絞り込む。特に、計算システムは、再帰的特徴量削減、ピアソン相関フィルタリング、カイ二乗フィルタリング、ラッソ回帰及び/又はツリーベースの選択(例えば、ランダムフォレスト)等の1つ又は複数の特徴選択技法を使用して、インライアデータセットに含まれるデータ入力の重要性を特定する。例えば、表(1)及び表(2)を参照して先に考察した基本最適化及びディープ最適化教師あり機械学習モデルに特徴選択を実行した後、計算システムは、2つの教師あり機械学習モデルのトレーニングに使用されるインライアデータセットに含まれる最も重要なデータ入力が1秒率、1秒量、1年当たりの煙草のパック数、患者の年齢、呼吸困難の発生、患者が現在、喫煙者であるか否か、患者のBMI、患者がアレルギー性鼻炎と診断されているか否か、喘鳴の発生、咳嗽の発生、患者が慢性鼻炎と診断されているか否か及び患者が以前に一度も喫煙したことがないかどうかであった。幾つかの例では、計算システムは、特徴選択を介して最も重要なデータ入力を決定した後、最も重要であると判断されたデータ入力の値のみを含む縮小インライアトレーニングデータ及び縮小インライアバリデーションセットを使用して教師あり機械学習モデルを再トレーニングし、再検証する。このようにして、計算システムは、削減された数のデータ入力に基づいて喘息及び/又はCOPD診断を正確に予測することができる教師あり機械学習モデルを生成する。診断予測を判断する際、教師あり機械学習アルゴリズムが処理する必要があるデータ量が少ない(すなわちデータ入力値が少ない)ため、これは、したがって、教師あり機械学習アルゴリズムが正確な予測を行うことができる速度を上げる。
【0070】
インライアデータセットを生成し(例えば、ブロック408のプロセスに従って)、続けて教師あり機械学習アルゴリズムをインライアデータセットに適用することに基づいて教師あり機械学習モデルを生成することは、教師あり機械学習アルゴリズムを、インライア/表現型ヒット及びアウトライア/表現型ミスを含むより大きいデータに適用することにより教師あり機械学習モデルを単に生成することよりも優れた利点を提供する。例えば、インライアデータセットは、類似/相関するデータ入力値を有する患者のみを含むため、計算システムは、インライア患者と類似/相関するデータ入力値を有する患者に適用される場合、非常に高い正確性で喘息及び/又はCOPD診断を予測する教師あり機械学習モデルを生成することが可能である。
【0071】
例えば、図14は、患者データのテストセットへの教師あり機械学習モデル(患者のインライアデータセットを使用してトレーニングされた)の適用からの喘息及び/又はCOPD分類結果を表す受信者動作特性曲線を示す。更に、以下の表(3)は、患者データのテストセットへの教師あり機械学習モデル(患者のインライアデータセットを使用してトレーニングされた)の適用に基づく喘息及び/又はCOPD予測結果(例えば、正確に予測された真のラベル/診断及び不正確に予測された真のラベル/診断の割合)を含む。特に、図14及び表(3)の両方の教師あり機械学習モデルは、同じ教師あり機械学習モデルであり、図13A~Hに関して上述したガウス混合モデルを特徴量エンジニアリングされたトレーニングデータセットに適用することにより生成されたインライアトレーニングデータセットを使用してトレーニングされた。図14及び表(3)の両方に示されるように、教師あり機械学習モデルは、非常に高いAUC(ROC曲線下面積)尺度及び正確性で喘息、COPD又は喘息及びCOPD(「ACO」)を有するものとして、患者データのテストセットに含まれる患者を分類することが可能であった。上述したように、教師あり機械学習モデルの高い正確性の分類は、少なくとも部分的に、教師あり機械学習モデルが、例えば、インライア及びアウトライアの患者の両方を含むデータセットの代わりに、インライアデータセットを使用してトレーニングされたことに起因する。
【0072】
【表3】
【0073】
ブロック414において、計算システムは、教師あり機械学習アルゴリズム(例えば、機械学習アルゴリズム216に含まれる)をブロック406において生成された特徴量エンジニアリングされたデータセットに適用する(例えば、機械学習トレーニングモジュール214を介して)ことにより、教師あり機械学習モデルを生成する(例えば、機械学習モデル出力モジュール220を介して)。ブロック414は、ブロック412と同一であるが、計算システムは、教師あり機械学習アルゴリズムを各ブロックにおいて異なるデータセットに適用する。例えば、ブロック412において、計算システムは、教師あり機械学習アルゴリズムをインライアデータセット(1つ又は複数の教師なし機械学習アルゴリズムをブロック406において生成された特徴量エンジニアリングされたデータセットに適用することにより生成される)に適用する一方、ブロック414において、計算システムは、ブロック406において特徴量エンジニアリングされたデータセットが生成された後、同じ教師あり機械学習アルゴリズムを直接、特徴量エンジニアリングされたデータセットに適用する。幾つかの例では、計算システムは、ブロック412及びブロック414において異なる教師あり機械学習アルゴリズムを使用する。例えば、計算システムは、ブロック412において、第1の教師あり機械学習アルゴリズムをインライアデータセットに適用し、ブロック414において、第2の教師あり機械学習アルゴリズムを特徴量エンジニアリングされたデータセットに適用する。
【0074】
図9は、患者の喘息及びCOPDを鑑別診断する第1の診断モデル及び第2の診断モデルを生成する例示的なコンピュータ化されたプロセスを示す。幾つかの例では、プロセス900は、図1に示されるシステム100の1つ又は複数の特性を有するシステムにより実行される。例えば、プロセス900のブロックは、クライアントシステム102、クラウド計算システム112及び/又はクラウド計算リソース126により実行することができる。
【0075】
ブロック902において、計算システム(例えば、クライアントシステム102、クラウド計算システム112及び/又はクラウド計算リソース126)は、患者データの第1の過去の組(例えば、例示的なデータセット500)を受信する(例えば、図4のブロック402を参照して上述したように)。患者データの第1の過去の組は、患者の特徴及び/又は1つ又は複数の呼吸状況に関して1つ又は複数の表現型差を有する第1の複数の患者からのデータを含む。幾つかの例では、表現型差は、1つ又は複数の呼吸状況に関するデータを含む。幾つかの例では、1つ又は複数の呼吸状況に関するデータは、喘息、COPD、喘息及びCOPDの両方又は喘息でもCOPDでもないという真の診断を含む。これらの例では、真の診断は、1人又は複数の医師及び/又は研究科学者により確認された診断である。
【0076】
ブロック904において、計算システムは、ブロック902において受信した患者データの第1の過去の組を事前処理し(例えば、図4のブロック404を参照して上述したように)、患者データの事前処理済みの第1の過去の組(例えば、例示的なデータセット600)を生成する。ブロック906において、計算システムは、患者データの事前処理済みの第1の過去の組を特徴量エンジニアリングし(例えば、図4のブロック406を参照して上述したように)、患者データの特徴量エンジニアリング済みの第1の過去の組(例えば、例示的なデータセット700)を生成する。
【0077】
ブロック908において、計算システムは、1つ又は複数の教師なし機械学習アルゴリズムを患者データの特徴量エンジニアリング済みの第1の過去の組に適用する(例えば、図4のブロック408を参照して上述したように)。幾つかの例では、計算システムは、1つ又は複数の教師なし機械学習アルゴリズムを、患者データの特徴量エンジニアリング済みの第1の過去の組の1つ又は複数の階層化サブセット(例えば、性別、喫煙ステータス、1秒量、1秒率、BMI、症状数又は体重)に適用する。
【0078】
ブロック910において、計算システムは、1つ又は複数の教師なし機械学習アルゴリズム(例えば、UMAPアルゴリズム、HDBSCANアルゴリズム及び/又はガウス混合モデルアルゴリズム)を患者データの特徴量エンジニアリング済みの第1の過去の組に適用することに基づいて、1つ又は複数のデータ相関基準の組を生成する。幾つかの例では、ブロック910において、計算システムは、1つ又は複数の教師なし機械学習アルゴリズムを、患者データの特徴量エンジニアリング済みの第1の過去の組の1つ又は複数の階層化サブセットに適用することに基づいて、1つ又は複数のデータ相関基準の組を生成する。
【0079】
幾つかの例では、1つ又は複数のデータ相関基準の組は、1つ若しくは複数の教師なし機械学習アルゴリズムを患者データの特徴量エンジニアリング済みの第1の過去の組又は患者データの特徴量エンジニアリング済みの第1の過去の組の1つ若しくは複数の階層化サブセットに適用すること(例えば、図4のブロック408を参照して上述したように)に基づいて計算システムにより生成される1つ又は複数の教師なし機械学習モデル(例えば、例えばUMAPモデル、HDBSCANモデル及び/又はガウス混合モデル)を含む。幾つかの例では、1つ又は複数のデータ相関基準の組は、患者が、1つ又は複数の教師なし機械学習アルゴリズムを患者データの特徴量エンジニアリング済みの第1の過去の組に適用することにより生成される患者の1つ又は複数のクラスタのクラスタ内に入るという要件を含む。他の例では、1つ又は複数のデータ相関基準の組は、患者が、1つ又は複数の教師なし機械学習アルゴリズムを患者データの特徴量エンジニアリング済みの第1の過去の組(又は患者データの特徴量エンジニアリング済みの第1の過去の組の階層化サブセット(例えば、性別、喫煙ステータス、1秒量、1秒率、BMI、症状数又は体重に基づいて階層化される))に適用することにより生成される患者のカバーマニフォールド内に入るという要件を含む。
【0080】
ブロック912において、計算システムは、患者データの第2の過去の組(例えば、例示的なデータセット800)を生成する。患者データの第2の過去の組は、患者特徴に関する1つ又は複数の表現型差及び/又は1つ又は複数の呼吸状況を有する第2の複数の患者からのデータを含む。幾つかの例では、表現型差は、1つ又は複数の呼吸状況に関するデータを含む。幾つかの例では、1つ又は複数の呼吸状況に関するデータは、喘息、COPD、喘息及びCOPDの両方又は喘息でもCOPDでもないという真の診断を含む。これらの例では、真の診断は、1人又は複数の医師及び/又は研究科学者により確認された診断である。幾つかの例では、患者データの第2の過去の組は、ブロック910において生成された1つ又は複数のデータ相関基準の組を満たす、患者データの第1の過去の組に含まれる第1の複数の患者のうちの1人又は複数の患者からのデータを含む患者データの第1の過去の組のサブセットである。
【0081】
ブロック914において、計算システムは、1つ又は複数の教師あり機械学習アルゴリズムを、ブロック912において生成された患者データの第2の過去の組に適用すること(例えば、図4のブロック412を参照して上述したように)により、第1の診断モデルを生成する。
【0082】
ブロック916において、計算システムは、1つ又は複数の教師あり機械学習アルゴリズムを患者データの第3の過去の組に適用することにより第2の診断モデルを生成する。患者データの第3の過去の組は、患者特徴及び/又は1つ又は複数の呼吸状況に関する1つ又は複数の表現型差を有する第3の複数の患者からのデータを含む。幾つかの例では、表現型差は、呼吸状況に関するデータを含む。幾つかの例では、1つ又は複数の呼吸状況に関するデータは、喘息、COPD、喘息及びCOPDの両方又は喘息でもCOPDでもないという真の診断を含む。これらの例では、真の診断は、1人又は複数の医師及び/又は研究科学者により確認された診断である。幾つかの例では、患者データの第3の過去の組及び患者データの第1の過去の組は、患者データの同じ過去の組(例えば、例示的なデータセット500)である。幾つかの例では、ブロック912における患者データの第2の過去の組は、患者データの第3の過去の組のサブセットである。これらの例では、患者データの第2の過去の組は、ブロック910において生成された1つ又は複数のデータ相関基準の組を満たす、患者データの第3の過去の組に含まれる第3の複数の患者のうちの1人又は複数からのデータを含む。更に詳細に以下で考察するように、計算システムは、ブロック914において生成された第1の診断モデル及び/又はブロック916において生成された第2の診断モデルを患者データに適用して、患者の喘息及び/又はCOPD診断を予測する。
【0083】
図10は、患者の喘息及びCOPDを鑑別診断する例示的なコンピュータ化されたプロセスを示す。幾つかの例では、プロセス1000は、図1に示されるシステム100の1つ又は複数の特徴を有するシステムにより実行される。例えば、プロセス1000のブロックは、クライアントシステム102、クラウド計算システム112及び/又はクラウド計算リソース126により実行することができる。
【0084】
ブロック1002において、計算システム(例えば、クライアントシステム102、クラウド計算システム112及び/又はクラウド計算リソース126)は、1つ又は複数の入力要素(例えば、人間入力デバイス312及び/又はネットワークインターフェース310)を介して、患者に対応する患者データの組を受信する。患者データの組は、患者の特徴、生理学的測定値並びに/或いは喘息及び/又はCOPDの診断に関連する他の情報を表す複数のデータ入力を含む。幾つかの例では、患者の生理学的測定値を表すデータ入力は、少なくとも1つの患者に行われる生理学的試験の結果(例えば、患者により自ら行われるか又は医師、臨床医若しくは他の個人により行われる肺機能試験、呼気一酸化窒素試験(FeNO試験等)等)を含む。更に、幾つかの例では、計算システムは、ネットワーク(例えば、ネットワーク106)を経由して1つ又は複数の生理学的試験デバイスから、患者の生理学的測定値を表すデータ入力の1つ又は複数を受信する(例えば、ネットワークインターフェース310を介して)。そのような生理学的試験デバイスの幾つかの例には、肺活量測定デバイス、FeNOデバイス及び胸部X線撮像(X線)デバイスがある(しかし、これらに限定されない)。
【0085】
図11Aは、第1の患者及び第2の患者に対応する2つの例示的な組の患者データを示す。特に、図11Aは、患者Aに対応する例示的な組の患者データ11102と、患者Bに対応する例示的な患者データの組1104とを含む。示されるように、例示的な組の患者データ1102及び1104は、それぞれ患者A及び患者Bの複数のデータ入力を含む。特に、複数のデータ入力は、患者の年齢、性別(例えば、男性又は女性)、人種/民族性(例えば、白人、ヒスパニック、アジア人、アフリカ系アメリカ人等)、胸部ラベル(例えば、胸部絞扼感、胸部圧迫感等)、1秒量(FEV1)測定値、努力肺活量(FVC)測定値、身長、体重、喫煙ステータス(例えば、1年当たりの煙草のパック数)、咳嗽ステータス(例えば、時々、断続的、軽い、慢性的等)、呼吸困難ステータス(例えば、労作性、時々等)及び好酸球(EOS)数を含む。
【0086】
幾つかの例では、ブロック1002において受信される患者データの組は、図11Aの例示的な組の患者データ1102及び例示的な組の患者データ1104に示される物よりも多くのデータ入力を含む。追加のデータ入力の幾つかの例には、患者BMI、1秒率、メジアン一秒率(例えば、患者のFEV1及びFVCが2回以上測定された場合)、喘鳴ステータス(例えば、荒い、両側性、わずか、長期等)、喘鳴ステータス変化(例えば、増加、低下等)、咳のタイプ(例えば、通常の咳、喀痰を伴う咳等)、呼吸困難のタイプ(例えば、発作性夜間呼吸困難、偏側臥呼吸、扁平呼吸等)、呼吸困難ステータス変化(例えば、改善、悪化等)、慢性鼻炎カウント(例えば、陽性診断回数)、アレルギー性鼻炎カウント(例えば、陽性診断回数)、胃食道逆流症カウント(例えば、陽性診断回数)、場所データ(例えば、患者宅の気圧及び平均アレルゲンカウント)及び睡眠データ(例えば、一晩当たりの平均睡眠時間)がある(しかし、これらに限定されない)。更に、幾つかの例では、患者データの組は、画像データを含む。画像データの一例には、胸部X線(例えば、X線像)がある(しかし、これらに限定されない)。幾つかの例では、ブロック1002において受信される患者データの組は、図11Aの例示的な組の患者データ1102及び例示的な組の患者データ1104に示されるよりも少ないデータ入力を含む。
【0087】
図10に戻ると、ブロック1004において、計算システムは、ブロック1002において受信した患者データの組が、患者の喘息及びCOPDを鑑別診断するのに十分なデータを含むか否かを判断する。患者データの組が十分なデータを含むか否かを判断することは、患者データの組が1つ又は複数のデータ充足要件を満たすか否かを判断することを含む。幾つかの例では、1つ又は複数のデータ充足要件は、患者データの組が最小数のデータ入力を含むという要件を含む。幾つかの例では、1つ又は複数のデータ充足要件は、患者データの組が1つ又は複数のコアデータ入力を含むという要件を含む。1つ又は複数のコアデータ入力の幾つかの例には、患者の年齢、性別、身長及び/又は体重がある(しかし、これらに限定されない)。幾つかの例では、1つ又は複数のデータ充足要件は、1つ又は複数のデータ入力が特定の値範囲を有するという要件を含む。例えば、1つのそのようなデータ入力値範囲要件は、患者の年齢データ入力値が65以上であるという要件である。幾つかの例では、1つ又は複数のデータ充足要件は、第1の教師あり機械学習モデル及び第2の教師あり機械学習モデルの生成(例えば、図4のブロック412及び414を参照して上述したように)に使用されるデータセットに含まれる患者のデータ入力値に基づく。第1の教師あり機械学習モデル及び第2の教師あり機械学習モデルは、ブロック1014及びブロック1018を参照して更に詳細に以下で考察する。
【0088】
ブロック1006において、ブロック1002において受信した患者データの組が十分なデータを含んでいないという判断に従い、計算システムは、患者の喘息及びCOPDの鑑別診断を取り止める。
【0089】
ブロック1008において、ブロック1002において受信した患者データの組が十分なデータを含んでいるという判断に従い、計算システムは、患者データの組を事前処理する。図10に示されるように、ブロック1008において患者データの組を事前処理することは、ブロック1008Aにおいて、患者データの組から繰り返しのデータ、無意味なデータ又は不必要なデータを除去することと、ブロック1008Bにおいて、患者データの組に含まれるデータ入力値の測定値の単位を合わせることとを含む。幾つかの例では、ブロック1008Aにおいて繰り返しのデータ、無意味なデータ又は不必要なデータを除去することは、患者データの組から繰り返しのデータ、無意味なデータ又は不必要なデータを除去することを含む。例えば、データ入力は、喘息及び/又はCOPDの診断に重要であると識別されていない(例えば、医師及び研究科学者により)場合、不必要である。幾つかの例では、データ入力は、計算システムにより前に計算された(例えば、図4のブロック406を参照して上述したように)カイ二乗及び/又はANOVA F検定統計に基づいて、クラスから独立しており、したがって喘息及びCOPDの鑑別診断に有用ではない可能性が高い場合、不必要である。示されるように、ブロック1008において患者データの組を事前処理することは、1つ又は複数のデータ入力値の測定値の単位を合わせることを更に含む。幾つかの例では、測定値の単位を合わせることは、全てのデータ入力値を対応する尺度値に変換すること(適用可能な場合)を含む。例えば、データ入力値を対応する尺度値に変換することは、患者データの組内の患者身長の値をセンチメートル(cm)に変化すること及び/又は患者データの組内の患者体重の値をキログラム(kg)に変換することを含む。
【0090】
幾つかの例では、ブロック1008は、ブロック1008A及びブロック1008Bの一方を含まない。例えば、ブロック1008は、ブロック1002において受信したデータセット内に繰り返しのデータ、無意味なデータ又は不必要なデータがない場合、ブロック808Aを含まない。幾つかの例では、ブロック1008は、ブロック1002において受信したデータセットに含まれるデータ入力値の全ての測定単位が既に合わせられている(例えば、既にメートル単位である)場合、ブロック1008Bを含まない。
【0091】
図11Bは、事前処理後の第1の患者及び第2の患者に対応する2つの例示的な組の患者データを示す。特に、図11Bは、図11Aの患者Aに対応する例示的な組の患者データ1102及び患者Bに対応する例示的な組の患者データ1104の事前処理に基づいて計算システムにより生成された患者Aに対応する例示的な組の患者データ1106及び患者Bに対応する例示的な組の患者データ1108を示す。示されるように、計算システムは、例示的な組の患者データ1102及び例示的な組の患者データ1104から人種/民族性データ入力を除去した。この例では、計算システムは、患者の人種/民族性が不必要なデータ入力であるという判断に基づいて、例示的な組の患者データ1102及び例示的な組の患者データ1104から患者人種/民族性データ入力を除去した。特に、この例では、患者の人種/民族性は喘息及び/又はCOPDの診断に重要であるとして識別されていない(例えば、医師及び研究科学者により)ため、計算システムは、患者の人種/民族性が不必要なデータ入力であると判断した。
【0092】
更に、計算システムにより前に計算されたカイ二乗統計に基づいて、EOSカウントがクラスから独立し、したがって喘息及びCOPDの鑑別診断に有用ではない可能性が高いため、計算システムは、例示的な組の患者データ1102及び例示的な組の患者データ1104から患者EOSカウントデータ入力を除去した。例示的な組の患者データ1102及び例示的な組の患者データ1104の例の測定値の単位は、既に合わせられていた(例えば、患者身長データ入力値は、既にcm単位であり、患者体重データ入力値は、既にkg単位であった等)ため、この例での事前処理は、計算システムが測定値の単位を合わせることを含まなかった。
【0093】
図10に戻ると、ブロック1010において、計算システムは、ブロック1008において生成された事前処理済みの患者データの組を特徴量エンジニアリングする。示されるように、ブロック1010において事前処理済みの患者データの組を特徴量エンジニアリングすることは、ブロック1010Aにおける患者の複数のデータ入力の1つ又は複数データ入力の値に基づいて1つ又は複数の新しいデータ入力の値を計算(例えば、外挿及び/又は補定)することを含む。計算システムが計算する1つ又は複数の新しいデータ入力の値の幾つかの例には、患者BMI、1秒率、予測FEV1、予測FVC及び/又は予測1秒率(例えば、予測FVCに対する予測FEV1の割合)がある(しかし、これらに限定されない)。幾つかの例では、患者の複数のデータ入力の1つ又は複数のデータ入力の値に基づいて1つ又は複数の新しいデータ入力の値を計算することは、関連する研究及び/又は学術文献内で利用可能な既存のモデルに基づいて1つ又は複数の新しいデータ入力の値を計算する(例えば、患者の性別及び人種データ入力値に基づいて予測FEV1データ入力の値を計算する)ことを含む。幾つかの例では、患者の複数のデータ入力の1つ又は複数のデータ入力の値に基づいて1つ又は複数の新しいデータ入力の値を計算することは、患者の年齢、性別及び/又は人種/民族性合致平均(例えば、医師及び/又は研究科学者により提供される平均、関連する研究及び/又は学術文献内の平均等)に基づいて1つ又は複数の新しいデータ入力の値を計算することを含む。1つ又は複数の新しいデータ入力の値を計算した後、計算システムは、1つ又は複数の新しいデータ入力を患者データの組に追加/補定する。
【0094】
ブロック1010において事前処理済みの患者データの組を特徴量エンジニアリングすることは、計算システムが、ブロック1010Bにおいて、患者データの組に含まれるカテゴリデータ入力(例えば、非数値を有するデータ入力)をワンホット符号化することを更に含む。患者データの組に含まれるカテゴリデータ入力をワンホット符号化することは、患者データの組内の非数値データ入力値のそれぞれを、非数値データ入力値を表す数値及び/又は二進値に変換することを含む。例えば、非数値データ入力値を二進値に変換することは、計算システムが、患者の胸部ラベルデータ入力の非数値データ入力値「胸部絞扼感」及び「胸部圧迫感」をそれぞれ二進値0及び1に変換することを含む。
【0095】
図11Cは、特徴量エンジニアリング後の2つの例示的な組の患者データを示す。特に、図11Cは、例示的な組の患者データ1106及び例示的な組の患者データ1108の特徴量エンジニアリングに基づいて計算システムにより生成された患者Aに対応する例示的な組の患者データ1110及び患者Bに対応する例示的な組の患者データ1112を示す。示されるように、計算システムは、患者A及び患者Bの両方の5つの新しいデータ入力の値を計算し、続けて新しいデータ入力を例示的な組の患者データ1106及び例示的な組の患者データ1108に追加した。特に、計算システムは、患者A及び患者Bの患者BMI、1秒率、予測FEV1、予測FVC及び/又は予測1秒率についての値を計算し、それらの新しいデータ入力を追加した。先に説明したように、計算システムは、(1)各患者の1つ又は複数のデータ入力の値、(2)関連する研究及び/又は学術文献内で利用可能な既存のモデル、及び/又は(3)患者の年齢及び/又は性別合致平均(しかし、人種/民族性データ入力は、例示的な組の患者データの事前処理中に除去されたため、人種/民族性合致平均に基づかない)に基づいて新しいデータ入力の値を計算することができた。例えば、計算システムは、BMIを計算する既存のモデルと、例示的な組の患者データ1106及び例示的な組の患者データ1108に含まれる患者A及び患者Bのそれぞれの身長及び体重データ入力の値とに基づいて患者BMIデータ入力の値を求めることができた。
【0096】
図11Cに示されるように、計算システムは、患者A及び患者Bの両方の幾つかのカテゴリデータ入力の値もワンホット符号化する。特に、計算システムは、例示的な組の患者データ1106及び例示的な組の患者データ1108に含まれる患者の性別、胸部ラベル、喘鳴タイプ、咳嗽ステータス及び呼吸困難ステータスカテゴリデータ入力についての非数値を、非数値を表す二進値に変換した。例えば、患者の胸部ラベルデータ入力について、計算システムは、患者Bの「胸部絞扼感」値を二進値「0」に変換し、患者Aの「胸部圧迫感」値を二進値「1」に変換した。別の例として、喘鳴タイプデータ入力に関して、計算システムは、患者A及び患者Bの両方の「喘鳴」値を二進値「0」に変換した。計算システムは、患者A及び患者Bの両方の患者性別、咳嗽ステータス及び呼吸困難ステータスデータ入力についても同様の変換を行った。
【0097】
図10に戻ると、ブロック1012において、計算システムは、ブロック1010において生成された特徴量エンジニアリング済みの患者データの組に2つの教師なし機械学習モデルを適用する。まず、計算システムは、UMAPモデルを患者データの組に適用する。UMAPモデルは、計算システムがUMAPアルゴリズムを患者のトレーニングデータセットに適用すること(例えば、図4のブロック408を参照して上述したように)により生成される。計算システムがUMAPモデルを患者データの組に適用することは、計算システムが、トレーニングデータセットの次元数を非線形的に削減し、トレーニングデータセットの次元削減表現を生成するのと同じように、患者データの組の次元数を非線形的に削減し、患者データの組の次元削減表現を生成する。幾つかの例では、患者データの組の次元削減表現は、1つ又は複数の座標の形態(例えば、二次元x及びy座標の形態)での患者のデータ入力値の次元削減表現を含む。
【0098】
幾つかの例では、患者のデータ入力値の次元削減表現を生成した後(例えば、1つ又は複数の座標の形態において)、計算システムは、1つ又は複数の新しいデータ入力として次元削減表現を患者データの組に追加する。例えば、計算システムが二次元座標の形態で患者のデータ入力値の二次元表現を生成する上記例では、計算システムは、続けて、二次元座標の各座標の新しいデータ入力を患者データの組に追加する。
【0099】
UMAPモデルを使用して患者のデータ入力値の次元削減表現を生成した後、計算システムは、HDBSCANモデルを患者データの組の次元削減表現(例えば、UMAPモデルを患者データの組に適用することを介して生成される)に適用する。HDBSCANモデルは、計算システムがHDBSCANアルゴリズムを、UMAPモデルに関して先に考察したトレーニングデータセットの次元削減表現に適用することにより生成される(例えば、図4のブロック408を参照して上述したように)。幾つかの例では、計算システムがHDBSCANモデルを患者データの組の次元削減表現に適用することは、患者のデータ入力値の次元削減表現及び1つ又は複数の類似性/相関閾値要件(更に詳細に以下で考察する)に基づいて、計算システムがHDBSCANアルゴリズムを患者のトレーニングデータセットに適用することにより先に生成された1つ又は複数のクラスタの1つにクラスタリングする。患者が患者の1つ又は複数の先に生成されたクラスタの1つにクラスタリングされる場合、患者は、「インライア」及び/又は「表現型ヒット」と呼ばれる。
【0100】
幾つかの例では、患者は、患者の1つ又は複数の先に生成されたクラスタの1つにクラスタリングされない。患者の1つ又は複数の先に生成されたクラスタの1つのクラスタにクラスタリングされない患者は、「アウトライア」及び/又は「表現型ミス」と呼ばれる。例えば、計算システムは、患者のデータ入力値の次元削減表現が1つ又は複数の類似性/相関閾値要件を満たさないと判断する(患者データの組の次元削減表現にHDBSCANモデルを適用することに基づいて)場合、患者の1つ又は複数の先に生成されたクラスタの1つのクラスタに患者をクラスタリングしない。
【0101】
幾つかの例では、1つ又は複数の類似性/相関閾値要件は、患者の1つ又は複数の先に生成されたクラスタの1つにクラスタリングされるには、患者のデータ入力値の次元削減表現の各座標(例えば、三次元表現の場合、x、y及びz座標)が特定の数値範囲内に入るという要件を含む。これらの例では、特定の数値範囲は、1つ又は複数の先に生成されたクラスタにクラスタリングされた患者の次元削減表現座標に基づく。幾つかの例では、1つ又は複数の類似性/相関閾値要件は、患者のデータ入力値の次元削減表現の少なくとも1つの座標が、患者の1つ又は複数の先に生成されたクラスタの少なくとも1つにおける1人又は複数の患者のデータ入力値の次元削減表現の対応する座標への特定の近さ内に入るという要件を含む。幾つかの例では、1つ又は複数の類似性/相関閾値要件は、患者のデータ入力値の次元削減表現の全ての座標が、患者の1つ又は複数の先に生成されたクラスタの少なくとも1つにおける最小数の患者の次元削減表現の対応する座標への特定の近さ内に入るという要件を含む。幾つかの例では、1つ又は複数の類似性/相関閾値要件は、患者のデータ入力値の次元削減表現の全ての座標がクラスタ重心(例えば、クラスタの中心点)への特定の近さ内に入るという要件を含む。これらの例では、計算システムは、計算システムがHDBSCANアルゴリズムを上述した患者のトレーニングデータセットの次元削減表現に適用することに基づいて生成する1つ又は複数の先に生成されたクラスタのそれぞれのクラスタ重心を求める。
【0102】
図11Dは、2つの例示的な組の患者データに2つの教師なし機械学習モデルを適用した後の2つの例示的な組の患者データを示す。特に、図11Dは、(1)UMAPモデルを患者Aに対応する例示的な組の患者データ1110及び患者Bに対応する例示的な組の患者データ1112に適用して、例示的なデータセット1110内の患者Aのデータ入力値及び例示的なデータセット1112内の患者Bのデータ入力値の二次元表現を生成し、(2)患者A及び患者Bのデータ入力値の二次元表現を各患者の2つの新しいデータ入力の形態(例えば、相関X及び相関Y)で例示的な組の患者データ1110及び例示的な組の患者データ1112にそれぞれ追加した後、計算システムにより生成された患者Aに対応する例示的な組の患者データ1114及び患者Bに対応する例示的な組の患者データ1116を示す。
【0103】
図11Dに示されるように、患者Aは、相関X値9.31及び相関Y値13.33を有する一方、患者Bは、相関X値1.25及び相関Y値1.5を有する。先に触れたように、計算システムは、HDBSCANモデルを患者A及び患者Bに対応する相関X及び相関Yに適用し、各患者の相関X値及び相関Y値と、1つ又は複数の類似性/相関閾値要件とに基づいて患者A及び/又は患者Bを患者の1つ又は複数の先に生成されたクラスタの1つのクラスタにクラスタリングする。この例では、患者の1つ又は複数の先に生成されたクラスタは、図8を参照して先に考察した患者の4つのクラスタである。したがって、患者A及び患者Bの相関X値及び相関Y値と、1つ又は複数の類似性/相関閾値要件とに基づいて、計算システムは、患者Aを、患者2、患者6及び患者11(図8の)を含む患者のクラスタにクラスタリングしたが、患者Bは、患者の4つのクラスタのいずれにもクラスタリングしなかった。換言すれば、計算システムは、患者Aがインライア/表現型ヒットであり、患者Bがアウトライア/表現型ミスであると判断した。
【0104】
図10に戻ると、幾つかの例では、ブロック1012において、計算システムは、UMAPモデル及びHDBSCANモデルの代わりにガウス混合モデルを特徴量エンジニアリング済みの患者データの組に適用して、患者をインライア又はアウトライアとして分類する。ガウス混合モデルは、計算システムがガウス混合モデルアルゴリズムを患者のトレーニングデータセットに適用する(例えば、図4のブロック408を参照して上述したように)ことにより生成される。例えば、計算システムは、上述したUMAPモデルのトレーニングに使用されたものと同じ患者のトレーニングデータセットを使用してガウス混合モデルをトレーニングする。幾つかの例では、計算システムは、患者の階層化トレーニングデータセットに含まれる特定のデータ入力(例えば、性別、喫煙ステータス、FEV1、1秒率、BMI、症状数又は体重)に基づいてトレーニングされたガウス混合モデルを適用する。これらの例では、計算システムが患者データに適用するガウス混合モデルは、患者のトレーニングデータセットが階層化された特定のデータ入力の患者データ値に依存する。例えば、ガウス混合モデルが、女性の患者のデータのみを含む患者のトレーニングデータセット(例えば、性別に基づいて階層化された患者のトレーニングデータセット)に基づいてトレーニングされた場合、患者データの組により、患者が女性であることが示されるとき、計算システムは、ガウス混合モデルをその患者データの組に適用する。
【0105】
幾つかの例では、計算システムがガウス混合モデルを特徴量エンジニアリング済みの患者データの組に適用することは、計算システムがガウス混合モデルアルゴリズムを患者のトレーニングデータセット(又は患者のトレーニングデータセットの階層化サブセット)に適用することにより先に生成されたカバーマニフォールドに患者をグループ化する。患者が先に生成されたカバーマニフォールド内にグループ化される場合、患者は、「インライア」及び/又は「表現型ヒット」と呼ばれる。幾つかの例では、患者は、先に生成されたカバーマニフォールドにグループ化されない。先に生成されたカバーマニフォールドにグループ化されない患者は、「アウトライア」及び/又は「表現型ミス」と呼ばれる。
【0106】
ブロック1014において、患者がインライア/表現型ヒットであるという判断に従い、計算システムは、第1の教師あり機械学習モデルを患者データの組に適用することにより、第1の喘息及び/又はCOPD予測診断を判断する。第1の教師あり機械学習モデルは、計算システムが教師あり機械学習アルゴリズムをインライア患者のトレーニングデータセットに適用すること(例えば、図4のブロック412を参照して上述したように)により生成される教師あり機械学習モデルである。インライア患者のトレーニングデータセットは、計算システムがUMAPモデル及びHDBSCANモデルを生成すること(ブロック812を参照)に関して上述した患者のトレーニングデータセットにUMAPアルゴリズム及びHDBSCANアルゴリズムを適用することに基づいて、計算システムがインライア患者として判断した複数の患者の患者データの組に含まれるデータ入力の1つ又は複数を含む。第1の教師あり機械学習モデルを患者データの組に適用する前に、患者がインライア/表現型ヒットであるか否かを判断する(例えば、UMAP、HBDSCAN及び/又はガウス混合モデルを使用して)ことは、患者データの組が、高度に正確な喘息及び/又はCOPD診断を行うのに十分なデータを計算システムに提供する場合のみ、計算システムが第1の教師あり機械学習モデルを患者データの組に適用することを保証するのに役立つ。したがって、これにより、計算システムは、非常に高い信頼度で喘息及び/又はCOPD診断を判断できるようになる(以下で考察するように)。
【0107】
ブロック1016において、計算システムは、第1の喘息及び/又はCOPD予測診断を出力する。例えば、第1の喘息及び/又はCOPD予測診断は、図3のディスプレイデバイス314により出力される。
【0108】
ブロック1018において、患者がアウトライア/表現型ミスであるという判断に従い、計算システムは、第2の教師あり機械学習モデルを患者データの組に適用することにより第2の喘息及び/又はCOPD予測診断を判断する。第2の教師あり機械学習モデルは、計算システムが教師あり機械学習アルゴリズムを患者の特徴量エンジニアリング済みトレーニングデータセットに適用すること(例えば、図4のブロック414を参照して上述するように)により生成される教師あり機械学習モデルである。患者の特徴量エンジニアリング済みトレーニングデータセットは、計算システムが特徴量エンジニアリング済みトレーニングデータセットをインライア/表現型ヒット及びアウトライア/表現型ミスに分ける(例えば、図7を参照して上述したように)前に、複数の患者の患者データの組に含まれる1つ又は複数のデータ入力を含む
【0109】
ブロック1020において、計算システムは、第2の喘息及び/又はCOPD予測診断を出力する。例えば、第1の喘息及び/又はCOPD予測診断は、図3のディスプレイデバイス314により出力される。
【0110】
幾つかの例では、計算システムは、喘息及び/又はCOPD予測診断に対応する信頼スコアを判断する。例えば、計算システムは、第1の教師あり機械学習モデルを患者データの組に適用すること(ブロック1014を参照して上述したように)に基づいて信頼スコアを判断する。幾つかの例では、計算システムは、第2の教師あり機械学習モデルを患者データの組に適用すること(ブロック1016を参照して上述したように)に基づいて信頼スコアを判断する。幾つかの例では、計算システムは、喘息及び/又はCOPD予測診断と共に信頼スコアを出力する。例えば、計算システムは、ブロック1016において、第1の喘息及び/又はCOPD予測診断に対応する信頼スコアを出力し、且つ/又はブロック1020において、第2の喘息及び/又はCOPD予測診断に対応する信頼スコアを出力する。
【0111】
幾つかの例では、信頼スコアは、喘息及び/又はCOPD予測診断が正しい(例えば、患者が真に予測された呼吸状況を有する)ことの予測確率を表す。幾つかの例では、予測確率を特定することは、計算システムが、喘息及び/又はCOPD予測診断に対応するロジット関数(例えば、ログオッズ)を特定し、続けてロジット関数の逆関数に基づいて(例えば、ログオッズの逆ロジット変換に基づいて)予測確率を特定することを含む。この予測確率特定は、教師あり機械学習モデルのトレーニングに使用されるデータに基づいて変わる。例えば、類似/相関するデータを使用してトレーニングされた教師あり機械学習モデル(例えば、第1の教師あり機械学習モデル)は、部分的に類似しない/相関しないデータによりモデルにもたらされる不確実性及び/又はばらつきに起因して、類似しない/相関しないデータを用いてトレーニングされた教師あり機械学習モデル(例えば、第2の教師あり機械学習モデル)よりも高い予測確率を有する分類(例えば、予測)を生成する。幾つかの例では、計算システムは、1つ又は複数の他のロジスティック回帰ベースの方法に基づいて予測確率を特定する。
【0112】
幾つかの例では、信頼スコアの出力に加えて、計算システムは、計算システムが出力する1つ又は複数の信頼スコアの視覚的内訳(例えば、各信頼スコアの視覚的内訳)を出力(例えば、ディスプレイに表示)する。信頼スコアの視覚的内訳は、対応する喘息及び/又はCOPD予測診断の計算システムの判断に関して最も影響を与えたデータ入力値を示す(例えば、それらのデータ入力値がどのように予測診断に近づけるか又は遠ざけるかを示す)ことにより、計算システムが信頼スコアをどのように生成したかを表す。例えば、視覚的内訳は、患者データに含まれる1つ又は複数のデータ入力値(例えば、最も影響が大きいデータ入力値)の棒を含む棒グラフであり得、各棒の長さ又は高さは、各データ入力値が予測診断の判断に対して有した相対的な重要度及び/又は影響度を表す(例えば、データ入力の棒が長いほど、そのデータ入力値が予測診断の判断に対して有した影響度が大きくなる)。
【0113】
図11Eは、2つの例示的な組の患者データのそれぞれに別個の教師あり機械学習モデルを適用した後の2つの例示的な組の患者データを示す。特に、図11Eは、患者Aに対応する例示的な組の患者データ1118及び患者Bに対応する例示的な組の患者データ1120を示し、これらは、両方とも喘息及び/又はCOPD予測診断及び対応する信頼スコアを含む。図11Dに関して先に触れたように、計算システムは、患者Aがインライア/表現型ヒットであり、患者Bがアウトライア/表現型ミスであると判断した。したがって、患者Aは、インライア/表現型ヒットであると計算システムが判断したため、計算システムは、第1の教師あり機械学習モデルを、例示的な組の患者データ1114に含まれる患者Aのデータ入力値に適用すること(例えば、ブロック1014を参照して上述したように)により患者AのCOPD予測診断を判断する。しかしながら、患者Bがアウトライア/表現型ミスであると計算システムが判断したため、計算システムは、第2の教師あり機械学習モデルを、例示的な組の患者データ1116に含まれる患者Bのデータ入力値に適用すること(例えば、ブロック1016を参照して上述したように)により患者Bの喘息予測診断を判断する。
【0114】
更に、図11Eに示されるように、計算システムは、患者AのCOPD予測診断に対応する信頼スコア95%及び患者Bの喘息予測診断に対応する信頼スコア85%を特定する。図4のブロック412に関して先に触れたように、1つ又は複数の教師なし機械学習アルゴリズムをより大きい患者セット(図7の例示的なデータセット700等)に適用することによりインライア患者セット(図8の例示的なデータセット800等)を生成し、続けて教師あり機械学習アルゴリズムをインライア患者セットに適用することにより教師あり機械学習モデルを生成することの利点は、教師あり機械学習モデルが、その後、インライア患者(例えば、図10のブロック1012においてインライア/表現型ヒットであると判断された患者)セットに含まれる患者と類似/相関するデータを有する患者に適用されるとき、より高い正確性/精度(したがってより高い信頼度)で予測(この場合、喘息及び/又はCOPD予測診断)を行うことである。したがって、この例では、患者Aは、少なくとも計算システムが、第1の教師あり機械学習モデルを患者Aのデータ入力値に適用することにより患者Aをインライア/表現型ヒットと判断し、したがって患者AのCOPD予測診断を判断したため、非常に高い信頼スコア95%を有する。患者Bの信頼スコア85%は、それでもなお高いが、少なくとも計算システムが、第2の教師あり機械学習モデルを患者Bのデータ入力値に適用することにより患者Bをアウトライア/表現型ミスと判断し、したがって患者Bの喘息予測診断を判断したため、患者Aの信頼スコアほど高くはない。
【0115】
図12は、第1の患者が、喘息及びCOPDからなる群から選択される1つ又は複数の呼吸状況を有するか否かの第1の兆候及び第2の兆候を判断する例示的なコンピュータ化されたプロセスを示す。幾つかの例では、プロセス1200は、図1に示されるシステム100の1つ又は複数の特徴を有するシステムにより実行される。例えば、プロセス1200のブロックは、クライアントシステム102、クラウド計算システム112及び/又はクラウド計算リソース126により実行することができる。
【0116】
ブロック1202において、計算システム(例えば、クライアントシステム102、クラウド計算システム112及び/又はクラウド計算リソース126)は、第1の患者に対応する患者データの組を受信する(例えば、図10のブロック1002を参照して上述したように)。患者データの組は、複数の入力を含む。幾つかの例では、複数の入力は、第1の患者の年齢、性別、体重、BMI及び人種を表す1つ又は複数の入力を含む。幾つかの例では、患者データの組は、1つ又は複数の生理学的試験デバイスを使用して第1の患者に行われた1つ又は複数の生理学的試験の結果に基づく1つ又は複数の生理学的入力を含む。例えば、1つ又は複数の生理学的入力の少なくとも1つは、肺活量測定デバイスを使用して第1の患者に行われる肺機能試験(例えば、FEV1測定、FVC測定、一秒率測定等)及び/又はFeNOデバイスを使用して第1の患者に行われる呼気一酸化窒素試験(例えば、一酸化窒素測定)に基づく。幾つかの例では、計算システムは、ネットワーク(例えば、ネットワーク106)を経由して1つ又は複数の生理学的試験デバイスから1つ又は複数の生理学的入力を受信する。
【0117】
ブロック1204において、計算システムは、第1の患者に対応する患者データの組が1つ又は複数データ相関基準の組を満たすか否かを判断する(例えば、図10のブロック1012を参照して上述したように)。幾つかの例では、1つ又は複数データ相関基準の組は、1つ又は複数の教師なし機械学習アルゴリズム(例えば、UMPAアルゴリズム、HDBSCANアルゴリズム及び/又はガウス混合モデルアルゴリズム)を患者データの第1の過去の組に適用すること(例えば、図4のブロック408及び図9のブロック910を参照して上述したように)に基づく。他の例では、1つ又は複数データ相関基準の組は、1つ又は複数の教師なし機械学習アルゴリズム(例えば、ガウス混合モデルアルゴリズム)を患者データの第1の過去の組の1つ又は複数の階層化サブセット(例えば、性別、喫煙ステータス、FEV1、1秒率、BMI、症状数又は体重に基づいて階層化される)に適用することに基づく。
【0118】
幾つかの例では、1つ又は複数データ相関基準の組は、1つ又は複数の教師なし機械学習アルゴリズムを患者データの第1の過去の組又は患者データの第1の過去の組の階層化サブセットに適用すること(例えば、図4のブロック408及び図9のブロック910を参照して上述したように)に基づいて計算システムにより生成される1つ又は複数の教師なし機械学習モデル(例えば、1つ又は複数の教師なし機械学習モデルアーチファクト(例えば、UMAPモデル、HDBSCANモデル及び/又はガウス混合モデル))を含む。これらの例では、患者データの組が1つ又は複数データ相関基準の組を満たすか否かを判断することは、1つ又は複数の教師なし機械学習モデルを患者データの組に適用し、1つ又は複数の教師なし機械学習モデルを患者データの組に適用すること(例えば、図10のブロック1012を参照して上述したように)に基づいて、患者データの組が患者の第1の過去の組に含まれる1人又は複数の患者に対応するデータに相関するか否かを判断することを含む。
【0119】
幾つかの例では、1つ又は複数データ相関基準の組は、患者が、1つ又は複数の教師なし機械学習アルゴリズムを患者データの第1の過去の組に適用すること(例えば、図4のブロック408及び図9のブロック910を参照して上述したように)により生成される患者の1つ又は複数のクラスタのうちのクラスタ内に入るという要件を含む。これらの例では、患者データの組が1つ又は複数のデータ相関基準の組を満たすか否かを判断することは、第1の患者が患者の1つ又は複数のクラスタのうちのクラスタ内に入るか否かを判断する(例えば、患者が患者の1つ又は複数のクラスタ農地のクラスタ内に入る場合、第1の患者に対応する患者データの組は1つ又は複数のデータ相関基準の組を満たす)ことを含む。
【0120】
他の例では、1つ又は複数のデータ相関基準の組は、患者が、1つ又は複数の教師なし機械学習アルゴリズムを患者データの特徴量エンジニアリング済みの第1の過去の組(又は患者データの特徴量エンジニアリング済みの第1の過去の組の階層化サブセット(例えば、例えば性別、喫煙ステータス、FEV1、1秒率、BMI、症状数又は体重に基づいて階層化される))に適用することにより生成される患者のカバーマニフォールド内に入るという要件を含む。これらの例では、患者データの組が1つ又は複数のデータ相関基準の組を満たすか否かを判断することは、第1の患者がカバーマニフォールド内に入るか否かを判断する(例えば、患者がカバーマニフォールド内に入る場合、第1の患者に対応する患者データの組は1つ又は複数のデータ相関基準の組を満たす)ことを含む。
【0121】
ブロック1206において、第1の患者に対応する患者データの組が、1つ又は複数のデータ相関基準の組を満たすという判断に従い、計算システムは、第1の診断モデルを第1の患者に対応する患者データの組に適用することに基づいて、第1の患者が、喘息及びCOPDからなる群から選択される1つ又は複数の呼吸状況を有するか否かの第1の兆候を判断する(例えば、図10のブロック1014を参照して上述したように)。第1の診断モデルは、第1の教師あり機械学習アルゴリズムを患者データの第2の過去の組に適用すること(例えば、図4のブロック412及び図9のブロック914を参照して上述したように)に基づく。幾つかの例では、第1の教師あり機械学習アルゴリズムを患者データの第2の過去の組に適用することは、計算システムの1つ又は複数のクラウド計算システム(例えば、クラウド計算システム112及び/又はクラウド計算リソース126)で行われる。これらの例では、計算システムのユーザデバイス(例えば、クライアントシステム102)は、1つ又は複数のクラウド計算システムからネットワーク(例えば、ネットワーク106)を経由して第1の診断モデルを受信する。
【0122】
ブロック1208において、計算システムは、第1の患者が、喘息及び/又はCOPDからなる群から選択される1つ又は複数の呼吸状況を有するか否かの第1の兆候を出力する(例えば、図10のブロック1016を参照して上述したように)。
【0123】
ブロック1210において、第1の患者に対応する患者データの組が、1つ又は複数のデータ相関基準の組を満たさないという判断に従い、計算システムは、第2の診断モデルを第1の患者に対応する患者データの組に適用することに基づいて、喘息及びCOPDからなる群から選択される1つ又は複数の呼吸状況を有するか否かの第2の兆候を判断する(例えば、図10のブロック1018を参照して上述したように)。第2の診断モデルは、第2の教師あり機械学習アルゴリズムを第3の組の患者データに適用すること(例えば、図4のブロック414及び図9のブロック916を参照して上述したように)に基づく。幾つかの例では、第2の教師あり機械学習アルゴリズムを患者データの第3の過去の組に適用することは、計算システムの1つ又は複数のクラウド計算システム(例えば、クラウド計算システム112及び/又はクラウド計算リソース126)で行われる。これらの例では、計算システムのユーザデバイス(例えば、クライアントシステム102)は、1つ又は複数のクラウド計算システムからネットワーク(例えば、ネットワーク106)を経由して第2の診断モデルを受信する。
【0124】
ブロック1212において、計算システムは、第1の患者が、喘息及びCOPDからなる群から選択される1つ又は複数の呼吸状況を有するか否かの第2の兆候を出力する(例えば、図10のブロック1020を参照して上述したように)。
なお、本発明には、下記態様が含まれることを付記する。
[態様1]
システムであって、
1つ又は複数のプロセッサと、
1つ又は複数の入力要素と、
メモリと、
前記メモリに記憶される1つ又は複数のプログラムと
を含み、前記1つ又は複数のプログラムは、
前記1つ又は複数の入力要素を介して、第1の患者に対応する患者データの組を受信することであって、前記患者データの組は、前記第1の患者に行われた少なくとも1つの生理学的試験の結果に基づく少なくとも1つの生理学的入力を含む、受信することと、
前記患者データの組に基づいて、1つ又は複数のデータ相関基準の組が満たされているか否かを判断することであって、前記1つ又は複数のデータ相関基準の組は、教師なし機械学習アルゴリズムを、1つ又は複数の表現型差を有する第1の複数の患者からのデータを含む患者データの第1の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む、判断することと、
前記1つ又は複数のデータ相関基準の組が満たされているという判断に従って、
第1の診断モデルを前記患者データの組に適用することに基づいて、前記第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第1の兆候を判断することであって、前記第1の診断モデルは、第1の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第2の複数の患者からのデータを含む患者データの第2の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む、判断することと、
前記第1の兆候を出力することと、
前記1つ又は複数のデータ相関基準の組が満たされていないという判断に従って、
第2の診断モデルを前記患者データの組に適用することに基づいて、前記第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第2の兆候を判断することであって、
前記第2の診断モデルは、第2の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第3の複数の患者からのデータを含む患者データの第3の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含み、
前記患者データの第3の過去の組は、前記患者データの第2の過去の組と異なる、判断することと、
前記第2の兆候を出力することと
を行うための命令を含む、システム。
[態様2]
前記1つ又は複数のプログラムは、前記第1の診断モデルを前記患者データの組に前記適用することに基づいて、前記第1の兆候に対応する第1の信頼スコアを判断するための命令を更に含む、態様1に記載のシステム。
[態様3]
前記1つ又は複数のプログラムは、前記第2の診断モデルを前記患者データの組に前記適用することに基づいて、前記第2の兆候に対応する第2の信頼スコアを判断するための命令を更に含む、態様1に記載のシステム。
[態様4]
前記1つ又は複数のプログラムは、少なくとも前記患者データに基づいて、1つ又は複数のデータ充足基準の組が満たされているか否かを判断するための命令を更に含み、
前記1つ又は複数のデータ相関基準の組が満たされているか否かの前記判断は、前記1つ又は複数のデータ充足基準が満たされているという判断に従って実行される、態様1に記載のシステム。
[態様5]
前記1つ又は複数のデータ充足基準の組は、前記患者データの組が、前記第1の患者が年齢65歳超であることを示す入力を含む場合に満たされる、態様4に記載のシステム。
[態様6]
前記1つ又は複数のデータ充足基準の組は、前記患者データの組が、患者年齢入力、患者性別入力、患者身長入力又は患者体重入力の少なくとも1つを含む場合に満たされる、態様4に記載のシステム。
[態様7]
前記患者データの組は、前記第1の患者の年齢、性別、体重、肥満度指数及び人種からなる群から選択される1つ又は複数の入力を含む複数の入力を含む、態様1に記載のシステム。
[態様8]
前記患者に行われる前記少なくとも1つの生理学的試験は、肺活量測定デバイスを使用して前記患者に行われる肺機能試験を含む、態様1に記載のシステム。
[態様9]
前記少なくとも1つの生理学的入力は、前記肺活量測定デバイスから受信される、態様8に記載のシステム。
[態様10]
前記少なくとも1つの生理学的入力は、1秒量(FEV1)測定値、努力肺活量(FVC)測定値、前記FVC測定値に対する前記FEV1測定値の割合(1秒率)からなる群から選択される1つ又は複数の生理学的入力を含む、態様1に記載のシステム。
[態様11]
前記患者に行われる前記少なくとも1つの生理学的試験は、呼気一酸化窒素濃度(FeNO)デバイスを使用して前記患者に行われる呼気一酸化窒素試験を含む、態様1に記載のシステム。
[態様12]
前記教師なし機械学習アルゴリズムを前記患者データの第1の過去の組に前記適用することは、1つ又は複数のサーバで行われ、前記システムは、前記1つ又は複数のサーバから前記1つ又は複数のデータ相関基準の組を受信する、態様1に記載のシステム。
[態様13]
前記患者データの第1の過去の組に含まれる前記1つ又は複数の呼吸状況に関するデータは、喘息、COPD、喘息及びCOPDの両方又は喘息でもCOPDでもないという真の診断を含む、態様1に記載のシステム。
[態様14]
前記1つ又は複数のデータ相関基準の組は、患者が、前記1つ又は複数の教師なし機械学習アルゴリズムを前記患者データの第1の過去の組に前記適用することに基づいて生成される患者の1つ又は複数のクラスタのうちのクラスタ内に入るという要件を含み、
前記患者データの組に基づいて、前記1つ又は複数のデータ相関基準の組が満たされているか否かを判断することは、前記患者データの組に基づいて、前記第1の患者が前記患者の1つ又は複数のクラスタのうちのクラスタ内に入るか否かを判断することを含む、態様1に記載のシステム。
[態様15]
前記患者データの組に基づいて、前記第1の患者が前記患者の1つ又は複数のクラスタのうちのクラスタ内に入るか否かを判断することは、1つ又は複数の教師なし機械学習モデルを前記患者データの組に適用することを含み、
前記1つ又は複数の教師なし機械学習モデルは、前記1つ又は複数の教師なし機械学習アルゴリズムを前記患者データの第1の過去の組に前記適用することに基づく、態様14に記載のシステム。
[態様16]
前記1つ又は複数のデータ相関基準の組は、患者が、前記1つ又は複数の教師なし機械学習アルゴリズムを前記患者データの第1の過去の組の少なくとも一部に前記適用することに基づいて生成されるカバーマニフォールド内に入るという要件を含み、
前記患者データの組に基づいて、前記1つ又は複数のデータ相関基準の組が満たされるか否かを判断することは、前記患者データの組に基づいて、前記第1の患者が前記カバーマニフォールド内に入るか否かを判断することを含む、態様1に記載のシステム。
[態様17]
前記第1の教師あり機械学習アルゴリズムを前記患者データの第2の過去の組に前記適用することは、1つ又は複数のサーバで行われ、
前記システムは、前記1つ又は複数のサーバから前記第1の診断モデルを受信する、態様1に記載のシステム。
[態様18]
前記患者データの第2の過去の組は、前記1つ又は複数のデータ相関基準の組を満たす前記第3の複数の患者のうちの1人又は複数の患者からのデータを含む、前記患者データの第3の過去の組のサブセットである、態様1に記載のシステム。
[態様19]
前記第2の教師あり機械学習アルゴリズムを前記患者データの第3の過去の組に前記適用することは、1つ又は複数のサーバで行われ、
前記システムは、前記1つ又は複数のサーバから前記第2の診断モデルを受信する、態様1に記載のシステム。
[態様20]
前記第1の教師あり機械学習アルゴリズム及び前記第2の教師あり機械学習アルゴリズムは、同じ教師あり機械学習アルゴリズムである、態様1に記載のシステム。
[態様21]
前記患者データの第3の過去の組及び前記患者データの第1の過去の組は、患者データの同じ過去の組である、態様1に記載のシステム。
[態様22]
前記兆候を出力することは、前記兆候を前記システムのディスプレイに表示することを含む、態様1に記載のシステム。
[態様23]
モバイルデバイスである、態様1に記載のシステム。
[態様24]
1つ又は複数のサーバである、態様1に記載のシステム。
[態様25]
方法であって、
1つ又は複数のプロセッサと、1つ又は複数の入力要素とを含む計算システムにおいて、
前記1つ又は複数の入力要素を介して、第1の患者に対応する患者データの組を受信することであって、前記患者データの組は、前記第1の患者に行われた少なくとも1つの生理学的試験の結果に基づく少なくとも1つの生理学的入力を含む、受信することと、
前記患者データの組に基づいて、1つ又は複数のデータ相関基準の組が満たされているか否かを判断することであって、前記1つ又は複数のデータ相関基準の組は、教師なし機械学習アルゴリズムを、1つ又は複数の表現型差を有する第1の複数の患者からのデータを含む患者データの第1の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む、判断することと、
前記1つ又は複数のデータ相関基準の組が満たされているという判断に従って、
第1の診断モデルを前記患者データの組に適用することに基づいて、前記第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第1の兆候を判断することであって、前記第1の診断モデルは、第1の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第2の複数の患者からのデータを含む患者データの第2の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む、判断することと、
前記第1の兆候を出力することと、
前記1つ又は複数のデータ相関基準の組が満たされていないという判断に従って、
第2の診断モデルを前記患者データの組に適用することに基づいて、前記第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第2の兆候を判断することであって、
前記第2の診断モデルは、第2の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第3の複数の患者からのデータを含む患者データの第3の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含み、
前記患者データの第3の過去の組は、前記患者データの第2の過去の組と異なる、判断することと、
前記第2の兆候を出力することと
を含む方法。
[態様26]
1つ又は複数の入力要素を有する電子デバイスの1つ又は複数のプロセッサによって実行されるように構成される1つ又は複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記1つ又は複数のプログラムは、
前記1つ又は複数の入力要素を介して、第1の患者に対応する患者データの組を受信することであって、前記患者データの組は、前記第1の患者に行われた少なくとも1つの生理学的試験の結果に基づく少なくとも1つの生理学的入力を含む、受信することと、
前記患者データの組に基づいて、1つ又は複数のデータ相関基準の組が満たされているか否かを判断することであって、前記1つ又は複数のデータ相関基準の組は、教師なし機械学習アルゴリズムを、1つ又は複数の表現型差を有する第1の複数の患者からのデータを含む患者データの第1の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む、判断することと、
前記1つ又は複数のデータ相関基準の組が満たされているという判断に従って、
第1の診断モデルを前記患者データの組に適用することに基づいて、前記第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第1の兆候を判断することであって、前記第1の診断モデルは、第1の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第2の複数の患者からのデータを含む患者データの第2の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含む、判断することと、
前記第1の兆候を出力することと、
前記1つ又は複数のデータ相関基準の組が満たされていないという判断に従って、
第2の診断モデルを前記患者データの組に適用することに基づいて、前記第1の患者が、喘息及び慢性閉塞性肺疾患(COPD)からなる群から選択される1つ又は複数の呼吸状況を有するか否かの第2の兆候を判断することであって、
前記第2の診断モデルは、第2の教師あり機械学習アルゴリズムを、1つ又は複数の表現型差を有する第3の複数の患者からのデータを含む患者データの第3の過去の組に適用することに基づき、前記表現型差は、少なくとも、1つ又は複数の呼吸状況に関するデータを含み、
前記患者データの第3の過去の組は、前記患者データの第2の過去の組と異なる、判断することと、
前記第2の兆候を出力することと
を行うための命令を含む、非一時的コンピュータ可読記憶媒体。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図11C
図11D
図11E
図12
図13A-D】
図13E-H】
図14