(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-02
(54)【発明の名称】宿主ファージ応答を解釈するための機械学習システム
(51)【国際特許分類】
G16B 40/20 20190101AFI20230222BHJP
G16B 20/00 20190101ALI20230222BHJP
【FI】
G16B40/20
G16B20/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022539347
(86)(22)【出願日】2020-12-23
(85)【翻訳文提出日】2022-07-29
(86)【国際出願番号】 US2020066788
(87)【国際公開番号】W WO2021138183
(87)【国際公開日】2021-07-08
(32)【優先日】2019-12-31
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】517317347
【氏名又は名称】アダプティブ ファージ セラピューティクス, インコーポレイテッド
【氏名又は名称原語表記】Adaptive Phage Therapeutics, Inc.
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】コーエン, ロブ
(72)【発明者】
【氏名】メリル, グレッグ
(72)【発明者】
【氏名】バレット-サン, ミゲル
(72)【発明者】
【氏名】アグラワル, プリイェシュ
(57)【要約】
宿主ファージ応答のためのデータセットおよび標識を受信することと、機械学習モデルを訓練することと、試験細菌の増殖を阻害する際の試験ファージの有効性を推定するためにこのモデルを使用することとを含む、宿主ファージ応答データを解釈するための機械学習モデルを生成するコンピュータ実装方法。本発明は、宿主ファージ応答データを分析/解釈するための改良された自動化方法、例えば、ヒトの解釈に基づく変動性を低減するため、または少なくとも既存の方法に対する有用な代替物を提供するための改良された自動化方法を提供する。
【特許請求の範囲】
【請求項1】
宿主ファージ応答データを解釈するための機械学習モデルを訓練するためのコンピュータ実装方法であって、前記方法が、
コンピューティングシステムによって、宿主ファージ応答データセットおよび標識を受信またはアップロードすることであって、前記宿主ファージ応答データセットが、宿主細菌がファージの存在下で増殖する複数の宿主-ファージ組合せの各々についての時系列データセットを含み、宿主-ファージ組合せに関連する前記時系列データセット内の各データポイントが、特定の時点において前記それぞれのファージの存在下での前記それぞれの宿主細菌の増殖を示すパラメータの測定値を含み、各時系列データセットが、前記宿主細菌の増殖を阻害する際の前記ファージの有効性を示す関連標識を有することと、
各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることと、
各フィットについての要約パラメータのセットを生成することであって、前記要約パラメータは、1またはそれを超えるモデル係数、適合度、R
2、誤差、残差、または残差の要約統計量を含むことと、
前記時系列データセットのうちの1つへの各フィットについての前記要約パラメータのセットと、前記フィットされた時系列データセットについての前記関連付けられた標識とを含む訓練データセット上で機械学習モデルを訓練することと、
試験ファージおよび試験細菌を使用して得られた宿主ファージ応答時系列データセットを使用して試験細菌の増殖を阻害する際の前記試験ファージの有効性を推定するために、その後の使用のために電子フォーマットで機械学習モデルをエクスポートまたは保存することと、
を含む、コンピュータ実装方法。
【請求項2】
各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることが、前記第1の時間窓にわたって単一の関数をフィットさせることを含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることは、前記第1の時間窓にわたって少なくとも2つの関数をフィットさせることを含み、前記関数の各々は異なる関数形式を有する、請求項1に記載のコンピュータ実装方法。
【請求項4】
各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることは、複数のフィットを実行することを含み、各フィットは、時間セグメントにわたって関数をフィットさせることを含み、前記第1の時間窓は、最も早い時間セグメントの開始および最も遅い時間セグメントの終了によって定義され、各時間セグメントは前記第1の時間窓よりも短い、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記時間セグメントは不連続時間セグメントである、請求項4に記載のコンピュータ実装方法。
【請求項6】
時間セグメントの数が少なくとも3つである、請求項4に記載のコンピュータ実装方法。
【請求項7】
第1の期間の終了が24時間またはそれ未満である、請求項1に記載のコンピュータ実装方法。
【請求項8】
前記少なくとも1つの関数は、1またはそれを超える一次関数または多項式関数である、請求項1に記載のコンピュータ実装方法。
【請求項9】
前記機械学習モデルが、試験ファージが試験細菌の増殖を阻害するのに有効であるか否かを示す二項アウトカムを生成する二項分類器である、請求項1に記載のコンピュータ実装方法。
【請求項10】
前記機械学習モデルが、試験ファージが試験細菌の増殖を阻害するのに有効である確率を推定する確率的分類器である、請求項1に記載のコンピュータ実装方法。
【請求項11】
宿主ファージ応答データを解釈するためのコンピュータ実装方法であって、前記方法が、
コンピューティングシステムによって、電子フォーマットで保存され、宿主応答データセットを分類するように構成された訓練された機械学習モデルをロードすることと、
試験ファージについての宿主応答データセットを受信および/またはアップロードすることであって、前記宿主応答データセットが時系列データセットを含み、前記時系列データセットの各データポイントが、特定の時点において前記試験ファージの存在下での宿主細菌の増殖を示すパラメータの測定値を含む、受信および/またはアップロードすることと、
第1の時間窓にわたって少なくとも1つの関数をフィットさせることと、
フィッティングのための要約パラメータのセットを生成することと、
要約パラメータのセットを訓練された機械学習モデルに提供することによって、宿主細菌の増殖を阻害する際の前記試験ファージの有効性の推定値を得ることと、
前記試験ファージの前記有効性の前記推定値を報告することと、を含む、方法。
【請求項12】
追加のデータポイントを含む更新された宿主応答データセットを受信することと、前記フィットさせる、生成する、取得するおよび報告するステップを繰り返すことをさらに含み、前記推定値を報告することは、前記試験ファージが有効である確率の推定値を含む、請求項11に記載のコンピュータ実装方法。
【請求項13】
分類予想値を決定することをさらに含み、前記試験ファージの前記有効性の前記推定値を報告することが、前記分類予想値を報告することをさらに含み、前記分類予想値を決定することが、
第1の時間窓の終わりに、前記試験ファージについての前記宿主応答データセットの現在の状態と一致する状態を有する宿主-ファージ組合せに基づいて、履歴の宿主応答データセットのサブセットを選択することであって、前記履歴の宿主応答データセットが、複数の宿主-ファージ組合せの各々についての時系列データセットを含み、宿主-ファージ組合せに関連する前記時系列データセット内の各データポイントが、特定の時点において前記それぞれのファージの存在下での前記それぞれの細菌の増殖を示すパラメータの測定値を含み、各時系列データセットが、アッセイ期間にわたって増殖を阻害する際の前記ファージの有効性の関連する推定値を有することと、
前記試験ファージの前記有効性の前記推定値と一致する前記アッセイ期間にわたる増殖阻害における前記ファージの前記有効性の推定値を用いて、前記履歴の宿主応答データセットの前記サブセットの割合を決定することによって、分類予想値を決定することと、を含む請求項11に記載のコンピュータ実装方法。
【請求項14】
前記試験ファージについての前記宿主応答データセットの現在の状態と一致する前記状態を決定することが、前記試験ファージの前記有効性の前記推定値と一致する前記第1の時間窓の終わりと一致する時間に分類出力を有する宿主-ファージ組合せに基づいて決定される、請求項13に記載のコンピュータ実装方法。
【請求項15】
前記試験ファージについての前記宿主応答データセットの現在の状態と一致する前記状態を決定することが、前記試験ファージの前記有効性の前記推定値と一致する前記第1の時間窓の終わりに一致する時間に分類出力および前記第1の時間窓の終わりの前記試験ファージの時系列値の所定の範囲内の前記第1の時間窓の終わりの時系列値を有する宿主-ファージ組合せに基づいて決定される、請求項13に記載のコンピュータ実装方法。
【請求項16】
追加のデータポイントを含む更新された宿主応答データセットを受信することと、前記フィットさせる、生成する、取得するおよび報告するステップを繰り返すことと、をさらに含み、前記推定値を報告することは、前記分類予想値の更新された推定値を含む、請求項13に記載のコンピュータ実装方法。
【請求項17】
前記方法は、複数の宿主応答データセットについて繰り返され、前記方法は、
試験細菌に対して有効であると推定される少なくとも2つの試験ファージのセットを得ることと、
前記セット中の各試験ファージについての1またはそれを超える作用機構の推定値を得ることと、
各試験ファージについて推定された作用機構に基づいて、前記セット中の試験ファージの各対についての多様性の尺度を得ることと、
前記得られた多様性の尺度に基づいて、治療用ファージ製剤に使用するための少なくとも2つのファージを選択することと、をさらに含む、請求項11に記載のコンピュータ実装方法。
【請求項18】
前記作用機構が、前記試験ファージを配列決定することによって測定される、請求項17に記載の方法。
【請求項19】
宿主ファージ応答データを解釈するための機械学習モデルを訓練するためのコンピュータ実行可能命令を含む非一時的コンピュータプログラム製品であって、前記命令が、
宿主ファージ応答データセットおよび標識を受信することであって、前記宿主ファージ応答データセットは、宿主細菌がファージの存在下で増殖する複数の宿主-ファージ組合せの各々についての時系列データセットを含み、宿主-ファージ組合せに関連する前記時系列データセット内の各データポイントは、特定の時点において前記それぞれのファージの存在下での前記それぞれの細菌の増殖を示すパラメータの測定値を含み、各時系列データセットは、前記宿主細菌の増殖を阻害する際の前記ファージの有効性を示す関連標識を有することと、
各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることと、
1またはそれを超えるモデル係数、適合度、R
2、誤差、残差、または残差の要約統計量を含む、各フィットについての要約パラメータのセットを生成することと、
前記時系列データセットのうちの1つへの各フィットについての要約パラメータの前記セットと、前記フィットされた時系列データセットについての前記関連標識と、を含む訓練データセット上で機械学習モデルを訓練することと、
前記機械学習モデルを電子フォーマットでエクスポートすることと、のためにコンピュータによって実行可能である、非一時的コンピュータプログラム製品。
【請求項20】
宿主ファージ応答データを解釈するためのコンピュータ実行可能命令を含む非一時的コンピュータプログラム製品であって、前記命令が、
宿主応答データセットを分類するように構成された訓練された機械学習モデルをロードすることと、
試験ファージについての宿主応答データセットを受信することであって、前記宿主応答データセットは、時系列データセットを含み、前記時系列データセット内の各データポイントは、特定の時点において前記試験ファージの存在下での宿主細菌の増殖を示すパラメータの測定値を含むことと、
第1の時間窓にわたって少なくとも1つの関数をフィットさせることと、
前記フィッティングのための要約パラメータのセットを生成することと、
前記要約パラメータのセットを前記訓練された機械学習モデルに提供することによって、宿主細菌の増殖を阻害する際の前記試験ファージの有効性の推定値を得ることと、
前記試験ファージの前記有効性の前記推定値を報告することと、のためにコンピュータによって実行可能である、非一時的コンピュータプログラム製品。
【請求項21】
コンピューティング装置であって、
少なくとも1つのメモリと、
少なくとも1つのプロセッサとを含み、前記メモリが、
宿主ファージ応答データセットおよび標識を受信することであって、前記宿主ファージ応答データセットが、宿主細菌がファージの存在下で増殖する複数の宿主-ファージ組合せの各々についての時系列データセットを含み、宿主-ファージ組合せに関連する前記時系列データセット内の各データポイントは、特定の時点において前記それぞれのファージの存在下での前記それぞれの宿主細菌の増殖を示すパラメータの測定値を含み、各時系列データセットは、前記宿主細菌の増殖を阻害する際の前記ファージの有効性を示す関連標識を有することと、
各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることと、
1またはそれを超えるモデル係数、適合度、R
2、誤差、残差、または残差の要約統計量を含む、各フィットについての要約パラメータのセットを生成することと、
前記時系列データセットのうちの1つへの各フィットについての前記要約パラメータのセットと、前記フィットされた時系列データセットについての前記関連標識と、を含む訓練データセット上で機械学習モデルを訓練することと、
電子フォーマットで前記機械学習モデルをエクスポートまたは保存することであって、使用中、前記訓練された機械学習モデルが、試験ファージおよび試験細菌を使用して得られた宿主ファージ応答時系列データセットを使用して、前記試験細菌の増殖を阻害する際の前記試験ファージの前記有効性を推定するために使用される、エクスポートまたは保存することと、
を行うように前記プロセッサを構成する命令を含む、コンピューティング装置。
【請求項22】
コンピューティング装置であって、
少なくとも1つのメモリと、
少なくとも1つのプロセッサを含み、前記メモリが、
宿主応答データセットを分類するように構成された訓練された機械学習モデルをロードすることと、
試験ファージについての宿主応答データセットを受信することであって、前記宿主応答データセットが、時系列データセットを含み、前記時系列データセット内の各データポイントは、特定の時点において前記試験ファージの存在下での宿主細菌の増殖を示すパラメータの測定値を含むことと、
第1の時間窓にわたって少なくとも1つの関数をフィットさせることと、
前記フィットのための要約パラメータのセットを生成することと、
前記要約パラメータのセットを前記訓練された機械学習モデルに提供することによって、前記宿主細菌の増殖を阻害する際の前記試験ファージの有効性の推定値を得ることと、
前記試験ファージの前記有効性の前記推定値を報告することと、
を行うように前記プロセッサを構成する命令を含む、コンピューティング装置。
【請求項23】
少なくとも2つのファージを含む治療用ファージ製剤であって、前記少なくとも2つのファージが、
宿主細菌がファージの存在下で増殖する複数の宿主-ファージ組合せについて宿主ファージ応答データを解釈するように構成された訓練された機械学習モデルを使用することによって、試験細菌に対して有効であると推定される少なくとも2つの試験ファージのセットを得ることと、
前記セット中の各試験ファージについての1またはそれを超える作用機構の推定値を得ることと、
各試験ファージについて前記推定された作用機構に基づいて、前記セット中の試験ファージの各対についての多様性の尺度を得ることと、
前記得られた多様性の尺度に基づいて、前記治療用ファージ製剤に使用するための少なくとも2つのファージを選択することと、
によって選択された、治療用ファージ製剤。
【請求項24】
前記作用機構が、前記試験ファージを配列決定することによって測定される、請求項23に記載の治療用ファージ製剤。
【発明の詳細な説明】
【技術分野】
【0001】
技術分野
本開示は、宿主-ファージ応答データを解釈するための機械学習ベースの方法に関する。
【背景技術】
【0002】
背景
以下の説明では、背景および導入目的のために、特定の物品および方法を説明する。本明細書に含まれるものは、先行技術の「承認」と解釈されるべきではない。出願人は、適切な場合には、本明細書で参照される物品および方法が、適用される法的規定の下で先行技術を構成しないことを明示する権利を明確に留保する。
【0003】
多剤耐性(Multiple drug resistant:MDR)細菌が、驚くべき速度で出現している。現在、米国では毎年少なくとも200万件の感染がMDR生物によって引き起こされ、約23,000人が死亡すると推定されている。さらに、遺伝子工学および合成生物学はまた、さらなる強毒性微生物の生成をもたらし得ると考えられる。
【0004】
例えば、黄色ブドウ球菌(Staphylococcus aureus)は、皮膚および軟部組織感染症(SSTI)、肺炎、壊死性筋膜炎、および血流感染症を引き起こし得るグラム陽性細菌である。メチシリン耐性黄色ブドウ球菌(S.aureus)(「MRSA」)は、MRSAが8万を超える侵襲性感染症の原因であり、関連する死亡は12,000件に近く、院内感染症の主な原因であるため、臨床現場では大きな関心事となっているMDR生物である。さらに、世界保健機関(WHO)は、MRSAを国際的に懸念される生物として特定した。
【0005】
急速に発生し広がる毒性微生物の潜在的な脅威および抗菌剤耐性を考慮して、細菌感染に対する代替臨床処置が開発されている。MDR感染症のための1つのそのような潜在的処置は、ファージの使用を含む。バクテリオファージ(「ファージ」は、特定の細菌宿主内で複製し、特定の細菌宿主を死滅させることができる多様な一連のウイルスである。ファージを抗菌薬として利用する可能性は、20世紀の初期にそれらを最初に単離した後に調査され、いくつかの国では抗菌剤として臨床的に使用されており、ある程度成功している。それにもかかわらず、ファージ治療は、ペニシリンの発見後に米国では大部分が中止され、ごく最近になってファージ治療法に関心が集まっている。
【0006】
ファージの治療的使用の成功は、感染に関連する細菌分離株の増殖を死滅または阻害することができるファージ株を投与する能力に依存する。細菌株に対するファージ感受性をスクリーニングするための実験的実験室技術が開発されている(すなわち、細菌増殖を阻害する有効性)。しかしながら、これらの技術は時間がかかり、主観的であり、試験ファージの存在下で細菌株を増殖させることを試みることを含む。数時間後、細菌増殖を溶解(死滅)または阻害するファージの能力の評価は、手動の目視検査によって推定される(宿主-ファージ応答)。
【0007】
そのような試験の1つは、試験ファージの配置および細菌の感染から生じる細菌叢の透明帯の形成を測定する半固体培地アッセイであるプラークアッセイである。プラークアッセイは単純であるが、プラークの形態およびサイズは、実験者、培地および他の条件によって変化し得る。より最近では、OmniLog(商標)システムを使用してファージ増殖を評価するために、自動化されたハイスループットの間接液体溶解アッセイシステムが開発された(Biolog,Inc)。OmniLog(商標)システムは、レドックス化学を使用して普遍的なレポーターとして細胞呼吸を使用するカメラおよびコンピュータに連結された自動プレートベースのインキュベーターシステムである。プレートのウェルはそれぞれ、増殖培地、テトラゾリウム色素、(宿主)細菌株およびファージを(対照/較正ウェルと共に)含有する。細菌の活発な増殖の間、細胞呼吸はテトラゾリウム色素を減少させ、色の変化を生じる。ファージ感染の成功およびその後のその宿主細菌におけるファージの増殖は、細菌の増殖および呼吸の減少ならびに付随する色の減少をもたらす。カメラは複数の時点で画像を収集し、画像内の各ウェルを分析して色尺度を生成する。これは、経時的な色変化の時系列データセットが収集されるように、初期色または基準色を参照することができる(すなわち、比色アッセイ)。各ウェルの時系列データセット(すなわち宿主-ファージ組合せ)がグラフ化され、次いで、ユーザはグラフの各々(例えば、96ウェルプレートについての96個のグラフ)を(主観的に)検討する。ユーザは、自分の経験、直感的および暗黙の知識を使用してグラフを解釈し、宿主-ファージ応答を推定する。これは、解釈が主観的であり、特定の日にグラフを精査するユーザのスキルレベルおよび/または注意力に依存するので、変動性または品質の増加をもたらす。
【0008】
したがって、宿主ファージ応答データを分析/解釈するための改良された自動化方法、例えば、ヒトの解釈に基づく変動性を低減するため、または少なくとも既存の方法に対する有用な代替物を提供するための改良された自動化方法を開発する必要がある。さらに、自動化された手法は、人間の解釈に基づく変動性を低減する。
【発明の概要】
【課題を解決するための手段】
【0009】
要旨
第1の態様によれば、提供されるのは、宿主ファージ応答データを解釈するための機械学習モデルを訓練するためのコンピュータ実装方法であって、この方法は、
コンピューティングシステムによって、宿主ファージ応答データセットおよび標識を受信またはアップロードすることであって、宿主ファージ応答データセットが、宿主細菌がファージの存在下で増殖する複数の宿主-ファージ組合せの各々についての時系列データセットを含み、宿主-ファージ組合せに関連する時系列データセット内の各データポイントが、特定の時点においてそれぞれのファージの存在下でのそれぞれの宿主細菌の増殖を示すパラメータの測定値を含み、各時系列データセットが、宿主細菌の増殖を阻害する際のファージの有効性を示す関連標識を有することと、
各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることと、
各フィットについての要約パラメータのセットを生成することであって、要約パラメータは、1またはそれを超えるモデル係数、適合度、R2、誤差、残差、または残差の要約統計量を含むことと、
時系列データセットのうちの1つへの各フィットについての要約パラメータのセットと、フィットされた時系列データセットについての関連付けられた標識とを含む訓練データセット上で機械学習モデルを訓練することと、
試験ファージおよび試験細菌を使用して得られた宿主ファージ応答時系列データセットを使用して試験細菌の増殖を阻害する際の試験ファージの有効性を推定するために、その後の使用のために電子フォーマットで機械学習モデルをエクスポートまたは保存することと、
を含む、コンピュータ実装方法である。
【0010】
一形態では、各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることは、第1の時間窓にわたって単一の関数をフィットさせることを含む。別の形態では、各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることは、第1の時間窓にわたって少なくとも2つの関数をフィットさせることを含み、各関数は異なる関数形式を有する。別の形態では、各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることは、複数のフィットを実行することを含み、各フィットは、時間セグメントにわたって関数をフィットさせることを含み、第1の時間窓は、最も早い時間セグメントの開始および最も遅い時間セグメントの終了によって定義され、各時間セグメントは第1の時間窓よりも短い。時間セグメントは、連続または不連続な時間セグメントであり得る。一形態では、いくつかの時間セグメントは少なくとも3つである。一形態では、第1の期間の終了は24時間またはそれ未満である。一形態では、少なくとも1つの関数は、1またはそれを超える一次関数または多項式関数である。
【0011】
一形態では、機械学習モデルは、試験ファージが試験細菌の増殖を阻害するのに有効であるか否かを示す二項アウトカムを生成する二項分類器である。別の形態では、機械学習モデルは、試験ファージが試験細菌の増殖を阻害するのに有効である確率を推定する確率的分類器である。
【0012】
第2の態様によれば、提供されるのは、宿主ファージ応答データを解釈するためのコンピュータ実装方法であって、方法が、
コンピューティングシステムによって、電子フォーマットで保存され、宿主応答データセットを分類するように構成された訓練された機械学習モデルをロードすることと、
試験ファージについての宿主応答データセットを受信および/またはアップロードすることであって、宿主応答データセットが時系列データセットを含み、時系列データセットの各データポイントが、特定の時点において試験ファージの存在下での宿主細菌の増殖を示すパラメータの測定値を含むことと、
第1の時間窓にわたって少なくとも1つの関数をフィットさせることと、
フィッティングのための要約パラメータのセットを生成することと、
要約パラメータのセットを訓練された機械学習モデルに提供することによって、宿主細菌の増殖を阻害する際の試験ファージの有効性の推定値を得ることと、
試験ファージの有効性の推定値を報告することとを含む、方法である。
【0013】
一形態では、本方法は、追加のデータポイントを含む更新された宿主応答データセットを受信することと、フィットさせる、生成する、取得するおよび報告するステップを繰り返すことをさらに含み、推定値を報告することは、試験ファージが有効である確率の推定値を含む。
【0014】
一形態では、本方法は、複数の宿主応答データセットについて繰り返してよく、この方法は、
試験細菌に対して有効であると推定される少なくとも2つの試験ファージのセットを得ることと、
セット中の各試験ファージについての1またはそれを超える作用機構の推定値を得ることと、
各試験ファージについて推定された作用機構に基づいて、セット中の試験ファージの各対についての多様性の尺度を得ることと、
得られた多様性の尺度に基づいて、治療用ファージ製剤に使用するための少なくとも2つのファージを選択することと、をさらに含む。
【0015】
好ましい実施形態において、各試験ファージに対する作用機構は、試験ファージを配列決定することによって決定される。
【0016】
上記の方法は、コンピューティング装置において上記の方法のいずれかを実施するための命令を含む非一時的なコンピュータプログラム製品で実施することができる。上記の方法はまた、少なくとも1つのメモリと、上記の方法を実施するように構成された少なくとも1つのプロセッサとを備えるコンピューティング装置において実施されてもよい。
【0017】
第3の態様によれば、提供されるのは、宿主ファージ応答データを解釈するための機械学習モデルを訓練するためのコンピュータ実行可能命令を含む非一時的コンピュータプログラム製品であって、命令が、
宿主ファージ応答データセットおよび標識を受信することであって、宿主ファージ応答データセットは、宿主細菌がファージの存在下で増殖する複数の宿主-ファージ組合せの各々についての時系列データセットを含み、宿主-ファージ組合せに関連する時系列データセット内の各データポイントは、特定の時点においてそれぞれのファージの存在下でのそれぞれの細菌の増殖を示すパラメータの測定値を含み、各時系列データセットは、宿主細菌の増殖を阻害する際のファージの有効性を示す関連標識を有することと、
各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることと、
1またはそれを超えるモデル係数、適合度、R2、誤差、残差、または残差の要約統計量を含む、各フィットについての要約パラメータのセットを生成することと、
時系列データセットのうちの1つへの各フィットについての要約パラメータのセットと、時系列データセットについての関連標識と、を含む訓練データセット上で機械学習モデルを訓練することと、
機械学習モデルを電子フォーマットでエクスポートすることと、を含む、非一時的コンピュータプログラム製品である。
【0018】
第4の態様によれば、提供されるのは、宿主ファージ応答データを解釈するためのコンピュータ実行可能命令を含む非一時的コンピュータプログラム製品であって、この命令は、
宿主応答データセットを分類するように構成された訓練された機械学習モデルをロードすることと、
試験ファージについての宿主応答データセットを受信することであって、宿主応答データセットは、時系列データセットを含み、時系列データセット内の各データポイントは、特定の時点において試験ファージの存在下での宿主細菌の増殖を示すパラメータの測定値を含むことと、
第1の時間窓にわたって少なくとも1つの関数をフィットさせることと、
フィッティングのための要約パラメータのセットを生成することと、
要約パラメータのセットを訓練された機械学習モデルに提供することによって、宿主細菌の増殖を阻害する際の試験ファージの有効性の推定値を得ることと、
試験ファージの有効性の推定値を報告することと、のためにコンピュータによって実行可能である、非一時的コンピュータプログラム製品である。
【0019】
第5の態様によれば、提供されるのは、コンピューティング装置であって、
少なくとも1つのメモリと、
少なくとも1つのプロセッサであって、メモリが、
宿主ファージ応答データセットおよび標識を受信することであって、宿主ファージデータセットが、宿主細菌がファージの存在下で増殖する複数の宿主-ファージ組合せの各々についての時系列データセットを含み、宿主-ファージ組合せに関連する時系列データセット内の各データポイントは、特定の時点においてそれぞれのファージの存在下でのそれぞれの細菌の増殖を示すパラメータの測定値を含み、各時系列データセットは、宿主細菌の増殖を阻害する際のファージの有効性を示す関連標識を有することと、
各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることと、
1またはそれを超えるモデル係数、適合度、R2、誤差、残差、または残差の要約統計量を含む、各フィットについての要約パラメータのセットを生成することと、
時系列データセットのうちの1つへの各フィットについての要約パラメータのセットと、フィットされた時系列データセットについての関連標識と、を含む訓練データセット上で機械学習モデルを訓練することと、
電子フォーマットで機械学習モデルをエクスポートまたは保存することであって、使用中、訓練された機械学習モデルが、試験ファージおよび試験細菌を使用して得られた宿主ファージ応答時系列データセットを使用して、試験細菌の増殖を阻害する際の試験ファージの有効性を推定するために使用されることと、
を行うようにプロセッサを構成する命令を含む、プロセッサと、を含むコンピューティング装置である。
【0020】
第6の態様によれば、提供されるのは、コンピューティング装置であって、
少なくとも1つのメモリと、
少なくとも1つのプロセッサであって、メモリが、
宿主応答データセットを分類するように構成された訓練された機械学習モデルをロードすることと、
試験ファージについての宿主応答データセットを受信することであって、宿主応答データセットが、時系列データセットを含み、時系列データセット内の各データポイントは、特定の時点において試験ファージの存在下での宿主細菌の増殖を示すパラメータの測定値を含むことと、
第1の時間窓にわたって少なくとも1つの関数をフィットさせることと、
フィットのための要約パラメータのセットを生成することと、
要約パラメータのセットを訓練された機械学習モデルに提供することによって、宿主細菌の増殖を阻害する際の試験ファージの有効性の推定値を得ることと、
試験ファージの有効性の推定値を報告することと、
を行うようにプロセッサを構成する命令を含む、プロセッサと、を含むコンピューティング装置である。
【0021】
第6の態様によれば、提供されるのは、少なくとも2つのファージを含む治療用ファージ製剤であって、少なくとも2つのファージが、
宿主細菌がファージの存在下で増殖する複数の宿主-ファージ組合せについて宿主ファージ応答データを解釈するように構成された訓練された機械学習モデルを使用することによって、試験細菌に対して有効であると推定される少なくとも2つの試験ファージのセットを得ることと、
セット中の各試験ファージについての1またはそれを超える作用機構の推定値を得ることと、
各試験ファージについて推定された作用機構に基づいて、セット中の試験ファージの各対についての多様性の尺度を得ることと、
得られた多様性の尺度に基づいて、治療用ファージ製剤に使用するための少なくとも2つのファージを選択することと、
によって選択された、治療用ファージ製剤である。
【0022】
好ましい実施形態において、各試験ファージに対する作用機構は、試験ファージを配列決定することによって決定される。
【図面の簡単な説明】
【0023】
本開示の実施形態は、添付の図面を参照して説明される。
【0024】
【
図1-1】
図1は、一実施形態による、宿主ファージ応答データを解釈するための機械学習モデルを訓練するための方法のフローチャートである。
【
図1-2】
図1は、一実施形態による、宿主ファージ応答データを解釈するための機械学習モデルを訓練するための方法のフローチャートである。
【0025】
【
図2】
図2は、一実施形態による、複数の宿主-ファージ応答データセットのプロットである。
【0026】
【
図3】
図3は、一実施形態による、コンピューティング装置の概略図である。
【0027】
【
図4】
図4は、一実施形態による、ファージが細菌宿主の増殖を阻害しない(有効でない/効果的でない)第1の宿主-ファージ時系列データセット、およびファージが細菌宿主の増殖を阻害する(有効/効果的である)第2の宿主-ファージ時系列データセットにフィットするいくつかの曲線の比較である。
【0028】
【
図5-1】
図5は、一実施形態による、機械学習モデルが宿主-ファージ時系列データセットの有効性を正しく分類するのにかかる時間を示すプロットのセットである。
【
図5-2】
図5は、一実施形態による、機械学習モデルが宿主-ファージ時系列データセットの有効性を正しく分類するのにかかる時間を示すプロットのセットである。
【0029】
以下の説明において、同様の参照符号は、図面全体を通して同様のまたは対応する部分を示す。
【発明を実施するための形態】
【0030】
実施形態の説明
本明細書および特許請求の範囲で使用される場合、単数形「a」、「an」、および「the」は、文脈が明らかにそうでないことを指示しない限り、複数の言及を含む。例えば、「細胞(a cell)」という用語は、それらの混合物を含む複数の細胞を含む。「核酸分子(a nucleic acid molecule)」という用語は、複数の核酸分子を含む。「ファージ製剤(A phage formulation)」は、少なくとも1つのファージ製剤、ならびに複数のファージ製剤、すなわち2つ以上のファージ製剤を意味し得る。当業者によって理解されるように、「ファージ」という用語は、単一のファージまたは2つ以上のファージを指すために使用することができる。
【0031】
本発明は、本発明の成分ならびに本明細書に記載の他の成分または要素「を含む(comprise)」(オープンエンド)または「から本質的になる」ことができる。本明細書で使用される場合、「を含む(comprising)」は、列挙された要素、または構造もしくは機能におけるそれらの等価物、ならびに列挙されていない任意の他の要素または複数の要素を意味する。「有する」および「含む(including)」という用語はまた、文脈上別段の示唆がない限り、オープンエンドと解釈されるべきである。本明細書で使用される場合、「から本質的になる」は、追加の成分が特許請求される発明の基本的かつ新規な特徴を実質的に変化させない場合に限り、本発明が特許請求されるものに加えて成分を含み得ることを意味する。
【0032】
本明細書で使用される場合、「対象」は、脊椎動物、好ましくは哺乳動物、より好ましくはヒトである。哺乳動物には、マウス、サル、ヒト、家畜、スポーツ動物およびペットが含まれるが、これらに限定されない。他の好ましい実施形態では、「対象」は、げっ歯類(例えば、モルモット、ハムスター、ラット、マウス)、ネズミ科(例えば、マウス)、イヌ科(例えば、犬)、ネコ科(例えば、ネコ)、ウマ科(例えば、ウマ)、霊長類、サル(例えば、サルまたは類人猿)、サル(例えば、マーモセット、ヒヒ)、または類人猿(例えばゴリラ、チンパンジー、オランウータン、テナガザル)である。他の実施形態では、非ヒト哺乳動物、特にヒトにおける治療有効性を実証するためのモデルとして従来使用されている哺乳動物(例えば、マウス、霊長類、ブタ、イヌまたはウサギ動物)を使用することができる。好ましくは、「対象」は、細菌感染症、特に多剤耐性細菌によって引き起こされる感染症に罹患している可能性がある得る任意の生物、例えば任意の動物またはヒトを包含する。
【0033】
本明細書で理解されるように、「それを必要とする対象」には、それだけに限らないが、多剤耐性細菌感染症、微生物感染症または複数菌感染症を含む細菌感染症に罹患している任意のヒトまたは動物が含まれる。実際、本方法は、特定の病原種を標的とするために使用され得ることが本明細書で企図されるが、本方法はまた、限定されないが、多剤耐性細菌病原体を含む本質的にすべてのヒトおよび/または動物の細菌病原体に対して使用され得る。したがって、特定の実施形態では、本発明の方法を使用することによって、当業者は、多剤耐性(MDR)細菌病原体を含む多くの異なる臨床的に関連する細菌病原体に対する個別化ファージ製剤を設計および作製することができる。
【0034】
本明細書で理解されるように、医薬組成物の「有効量」は、対象において治療上有益な応答を誘発する、例えば対象において細菌病原体を根絶するのに適した組成物の量を指す。そのような応答には、例えば、細菌感染に関連する1またはそれを超える病理学的症状を予防、改善、処置、阻害および/または軽減することが含まれ得る。
【0035】
「約(about)」または「およそ(approximately)」という用語は、当業者によって決定される特定の値の許容され得る範囲内を意味し、これは値がどのように測定または決定されるか、例えば測定システムの制限に部分的に依存するであろう。例えば、「約」は、所与の値の20%まで、好ましくは10%まで、より好ましくは5%まで、より好ましくはさらに1%までの範囲を意味することができる。あるいは、特に生物学的システムまたは方法に関して、この用語は、一桁以内、例えば、値の5倍以内、または2倍以内を意味し得る。特に明記しない限り、「約」という用語は、特定の値に対して許容され得る誤差範囲内、例えば±1~20%、好ましくは±1~10%、より好ましくは±1~5%を意味する。さらなる実施形態では、「約」は、+/-5%を意味すると理解されるべきである。
【0036】
値の範囲が提供される場合、その範囲の上限と下限との間の各介在値、およびその記載された範囲内の任意の他の記載値または介在値が本発明に含まれることが理解される。これらのより小さい範囲の上限および下限は、独立してより小さい範囲に含まれてもよく、記載された範囲内の任意の具体的に除外された限界を条件として、本発明に包含される。記載された範囲が限界の一方または両方を含む場合、それらの含まれる限界の両方を除外した範囲も本発明に含まれる。
【0037】
本明細書に列挙されるすべての範囲は、2つの値の範囲「間」を列挙するものを含む終点を含む。「約、」、「一般に、」、「実質的に、」、「およそ」などの用語は、絶対的ではなく、先行技術で読まれないように用語または値を修飾するものと解釈されるべきである。そのような用語は、それらの用語が当業者によって理解されるように、状況およびそれらが修飾する用語によって定義される。これは、少なくとも、値を測定するために使用される所与の技法についての予想される実験誤差、技法誤差、および機器誤差の程度を含む。
【0038】
本明細書で使用される場合、2またはそれを超える項目のリストで使用される場合の「および/または」という用語は、列挙された特性のいずれか1つが存在し得るか、または列挙された特性の2またはそれを超える任意の組み合わせが存在し得ることを意味する。例えば、組成物が特徴A、Bおよび/またはCを含有すると記載されている場合、組成物はA特徴のみ、B単独、C単独、AおよびBの組み合わせ、AおよびCの組み合わせ、BおよびCの組み合わせ、またはA、BおよびCの組み合わせを含むことができる。
【0039】
「ファージ感受性」または「感受性プロファイル」という用語は、ファージによる感染および/または死滅および/または増殖阻害に感受性の細菌株を意味する。すなわち、ファージは、細菌株の増殖を阻害するのに有効または効果的である。
【0040】
「ファージ非感受性」または「ファージ耐性」または「ファージ耐性」または「耐性プロファイル」という用語は、ファージおよび/または増殖阻害による感染および/または死滅に対して非感受性、好ましくは非常に非感受性の細菌株を意味すると理解される。すなわち、ファージは、細菌株の増殖を阻害するのに有効でも効果的でもない。
【0041】
本明細書で使用される「治療用ファージ製剤」、「治療有効ファージ製剤」、「ファージ製剤」などの用語は、それを必要とする対象に投与した場合に細菌感染症の臨床的に有益な処置を提供することができる1またはそれを超えるファージを含む組成物を指すと理解される。
【0042】
本明細書で使用される場合、「組成物」という用語は、1またはそれを超える精製ファージを含む医薬組成物を含むがこれらに限定されない、本明細書に開示される「ファージ製剤」を包含する。「医薬組成物」は、当業者によく知られており、典型的には、様々な従来の薬学的に許容され得る賦形剤、担体、緩衝剤、および/または希釈剤から選択される不活性成分と組み合わせて製剤化された活性医薬成分を含む。「薬学的に許容され得る」という用語は、細胞、細胞培養物、組織または生物などの生物系と適合する非毒性物質を指すために使用される。薬学的に許容され得る賦形剤、担体、緩衝剤および/または希釈剤の例は、当業者によく知られており、例えば、Remington’s Pharmaceutical Sciences(最新版)、Mack Publishing Company、Easton、Paに見出すことができる。例えば、薬学的に許容され得る賦形剤には、湿潤剤または乳化剤、pH緩衝化物質、結合剤、安定剤、保存剤、増量剤、吸着剤、消毒剤、洗剤、糖アルコール、ゲル化剤または増粘剤、香味剤および着色剤が含まれるが、これらに限定されない。薬学的に許容され得る担体としては、高分子、例えばタンパク質、多糖類、ポリ乳酸、ポリグリコール酸、ポリマーアミノ酸、アミノ酸コポリマー、トレハロース、脂質凝集体(油滴またはリポソームなど)、および不活性ウイルス粒子が挙げられる。薬学的に許容され得る希釈剤としては、限定されないが、水、生理食塩水およびグリセロールが挙げられる。
【0043】
本明細書で使用される場合、「推定する」という用語は、多種多様な動作を包含する。例えば、「推定すること」は、計算、コンピュータ処理、処理、決定、導出、調査、ルックアップ(例えば、テーブル、データベース、または別のデータ構造を検索する)、確認などを含むことができる。また、「推定」は、受信(例えば、情報の受信)、アクセス(例えば、メモリ内のデータにアクセスすること、)などを含み得る。また、「推定」は、解決、選択、選定、確立などを含むことができる。
【0044】
宿主ファージ応答を解釈するための機械学習モデルを訓練し、次いで宿主ファージ応答を解釈するための機械学習モデルのその後の使用のためのコンピュータ実装方法およびシステムの実施形態をここで説明する。
【0045】
図1Aは、一実施形態による宿主ファージ応答データを解釈するための機械学習モデルを訓練するための方法100のフローチャートであり、
図1Bは、訓練された機械学習モデルを使用して宿主ファージ応答データを解釈するための方法200のフローチャートである。
【0046】
図1Aを参照すると、宿主ファージ応答データ100を解釈するための機械学習モデルを訓練する方法は、宿主ファージ応答データセットおよび標識110を受信することを含む。データセットは、複数の宿主-ファージ組合せの各々についての時系列データセットを含む。宿主-ファージ組合せに関連する時系列データセットの各データポイントは、特定の時点においてそれぞれのファージの存在下でのそれぞれの細菌の増殖を示すパラメータの測定値を含む。さらに、訓練目的のために、各時系列データセットは、細菌の増殖を阻害する際のファージの有効性を示す関連標識を有する。明確にするために、増殖の指標には、試験ファージによる細菌の溶解の指標などの増殖の欠如を示すことが含まれる。これは、通常、有効(すなわち、細菌を阻害または溶解する)の場合は「1」または「TRUE」、有効でない/効果がない場合は「0」または「FALSE」などの二項フラグまたは値である。いくつかの実施形態では、値は確率推定値とすることができ、閾値を決定または変更して時系列データセットを分類することができる。
【0047】
図2は、一実施形態による複数の宿主-ファージ応答データセット10のプロット1である。これらは、任意の単位での増殖の指標を時間の関数としてプロットする。増殖の指標は、色素の色または細菌の増殖もしくは呼吸の他の指標の測定、ならびに比色分析および非比色分析を含む細菌の溶解の測定などの増殖不足の測定であり得る。経時的に、データセットは2つのデータセットのグループに分割される。宿主-ファージ応答の第1のセット20は、ファージが有効でない応答、すなわち、ファージが効果的ではなく、初期遅滞期(または期間)11から始まり、続いてファージの存在下で細菌が増殖し続ける増殖期(または期間)12、および、例えばウェルに完全に定着したかまたはいくらかの増殖限界に達したときに細菌の増殖が安定する安定化期(または期間)13が続くS字型増殖曲線(すなわち、シグモイド曲線)を有する応答に対応する。宿主-ファージ応答の第2のセット30は、ファージが有効である応答、すなわち、ファージが細菌の増殖を阻害するのに効果的であり、増殖曲線が線形でかなり平坦であるか、または経時的にわずかに上昇する応答、に対応する。
【0048】
各ウェルの画像(すなわち宿主-ファージ応答)または各ウェルの時系列データセットで直接機械学習モデルを訓練するのではなく、第1の時間窓にわたって各宿主-ファージ組合せ(すなわち、各ウェル)の時系列データセットに1またはそれを超える関数を最初にフィットさせる。第1の時間窓は、時系列データセットによってまたがる時間のサブセットであってもよい。例えば、データセットは、0~36時間にまたがってよく、第1の時間窓は、0~24時間、1~24時間、2~30時間または0~36時間であり得る。例えば、一実施形態では、式1に示す形式の三次多項式を各ウェルの時系列データにフィットさせる。
【数1】
(独立変数であるxは時間であり、従属変数であるyは細菌の相対呼吸指数であり、色の変化によって示される。)回帰係数としても知られるフィットされた係数A
0、A
1、A
2、およびA
3は、フィット(または回帰)の要約パラメータであり、これらの要約パラメータは、機械学習モデルを訓練するために使用される訓練データセットの入力特徴として提供される。誤差項、相関係数、決定係数、ANOVAなどのフィッティング方法から返される追加の要約パラメータ(または要約統計量)もまた、要約パラメータの一部として提供され得る。訓練中、入力特徴には、宿主-ファージ応答を示す標識(例えば、1=良好/有効、0=不良/効果的でない)が提供され、機械学習モデルを訓練するために使用される。
【0049】
関数をフィットさせることは、分類を容易にするためにデータセットのプロパティを要約する方法を提供する。一連の生画像またはさらには完全な時系列データセットを提供することは、オーバーフィッティングにつながるか、または効率的な分類を可能にするには多すぎるパラメータを提供する可能性がある。関数をフィットさせることにより、データセットの特性を要約することができ、より効率的で正確な分類を可能にする。そこで、上記実施形態では、三次多項式をフィットさせた。これは、機械学習モデルのデータセットを要約するいくつかのフィットされたパラメータ(例えば4つ)を提供し(データ削減を達成する)、三次多項式は、無効なファージについてのS字形のファージ-宿主応答データの曲率、および高次係数A2およびA3が0に近いであろう可能性が高いため、有効なファージのほぼ線形(非)増殖曲線の両方を捕捉することができるので選択された。そのような関数はまた、部分的に効果的なファージをピックアップする。すなわち、阻害されない増殖の極値と完全に阻害された増殖の極値との間の曲線である。しかしながら、一次関数、二次、または高次多項式、ならびに対数、指数、累乗、三角関数、Bスプライン、シグモイド曲線、非一次関数、回帰モデル、および組み合わせを含む非多項式関数を含む、様々な他のフィッティング関数を使用できることが理解されよう。典型的には、フィットされた関数は、機械学習モデルへの入力として提供することができるいくつかのパラメータによってパラメータ化される。関数は、最小二乗ベースの方法を含む、フィットされた関数に対する残差の何らかのパラメータまたは損失関数を最小化しようと試みる回帰/曲線フィッティング方法を使用してフィットされてもよく、反復、重み付け、および/またはロバストな回帰方法を使用してもよい。
【0050】
図2を参照すると、阻害されていない増殖および完全に阻害された増殖の2つの極値は、非常に異なる関数形式、すなわち、阻害された増殖のほぼ線形曲線と比較して、阻害されていない増殖のほぼ「S」字型の曲線(すなわち、シグモイド曲線)(または同等に傾斜または傾斜したステップ関数)であることにも留意されたい。したがって、一実施形態では、フィットされた関数は、所望の曲線/事例(ファージ有効性)のうちの1つを模倣する形態を有するように選択することができ、他の事例では、フィットされた関数がデータセットの実際の形状の良好な推定器/要約ではないため、残差は大きくなるか、または不均一であるだろうことに留意されたい。したがって、残差または誤差は大きくなるか、または構造を示す/ゼロ平均正規分布に従わない。したがって、加えて、または代替として、これらの残差/誤差、または残差/誤差に基づく要約パラメータを、モデルを訓練するためのパラメータとして提供することができる。残差/誤差は、相関係数r、決定係数(R
2)、回帰係数εもしくは誤差行列ε、または残差の要約パラメータ/統計、例えば、残差分布の標準偏差、四分位範囲、5つの数値要約(最小、下四分位、中央値、上四分位、最大)、残差分布のいくつかの所定の分位(例えば、10%および90%)分位であってもよい。さらに、適合度試験を残差および機械学習モデルへの入力として使用される適合度試験の出力に適用することができる。
【0051】
これは、
図4にさらに示されており、これは、一実施形態による、ファージが細菌宿主の増殖を阻害しない(有効でない/効果的でない)第1の宿主-ファージ時系列データセット41、およびファージが細菌宿主の増殖を阻害する(有効/効果的である)第2の宿主-ファージ時系列データセット42にフィットするいくつかの曲線の比較である。三次多項式43、五次多項式45および線形フィット47をそれぞれ第1の宿主-ファージ時系列データセット41にフィットさせた。同様に、三次多項式44、五次多項式46および線形フィット48をそれぞれ第二の宿主-ファージ時系列データセット42にフィットさせた。表1は、フィットされたモデルパラメータを列挙している。
表1 フィットされたモデルパラメータ
【表1】
【0052】
図4から、三次多項式および五次多項式が同様のフィッティング性能を提供し、特に第2のデータセットの場合、曲線は線形(線形曲線)であり、したがって高次係数(A2、A3、A4、A5)は実質的に0であることが分かる。最も注目すべきことに、第1のデータセットに対する線形フィット47は、増殖誘導曲率のために非常に悪く、0.467のR
2値を生成したが、線形フィットは、第二のデータセットを良好にモデル化し、0.865のR
2値を有する。したがって、モデル推定値を提供することに加えて、適合度(例えば、R
2)の尺度、または標準偏差、残差の四分位範囲などの残差の何らかのパラメータ化を提供することは、宿主-ファージ応答データセットの分離を支援するために機械学習モデルに追加の情報を提供する。いくつかの実施形態では、いくつかの関数を同じ期間にわたってフィットさせることができる。例えば、一次関数と三次多項式の両方を同じ0~24時間の期間にわたってフィットさせることができる。これらの実施形態では、要約パラメータは、両方のフィッティング関数からフィットされたパラメータ(例えば、係数および/または誤差)を含む。
【0053】
さらに、
図2および
図4から明らかなように、曲線10は、明確な期、すなわち遅滞期11、(潜在的)増殖期12、および安定化期13を示す。したがって、一実施形態では、第1の期間(例えば、0~20時間)にわたって単一の関数をフィットさせるのではなく、本発明者らは、各フィットが第1の時間窓よりも短い時間セグメントにわたる複数のフィットを実行する。例えば、上記の場合、本発明者らは、遅滞期に対する第1のフィット、増殖期に対する第2のフィット、および安定化期に対する第3のフィットを行うことができる。この実施形態では、第1の時間窓は、最も早い時間セグメントの開始および最も遅い時間セグメントの終了によって定義される。これらのフィットは、時間セグメントが時間窓にまたがる連続セグメントである区分的またはセグメント化されたフィッティング/回帰であり得る(すなわち、各関数は異なる時間窓にわたってフィットされる)。例えば、0~20時間の第1の期間を定義するために、第1の関数は、0~7時間などの第1のフィット時間セグメントにわたってフィットさせることができ、第2の関数は、7~14時間などの第2の時間セグメントにわたってフィットさせることができ、第3の関数は、第3の時間セグメント14~20時間にわたってフィットさせることができる。これらの時間セグメント(またはフィッティング時間期間または時間部分)は、第1の期間に連続してまたがる(すなわち、区分的にフィットする)ことができ、またはいくつかの実施形態では、時間セグメントは、1つの時間セグメントの終わりと別の時間セグメント(例えば3~7時間、9~13時間、17~20時間)の始まりとの間に時間ギャップが存在するように、第1の時間窓に不連続にまたがることができる。さらに、時間セグメントは、1つの時間セグメントの終わりの一部が別の時間セグメント(例えば、0~10時間、5~15時間、10~20時間)の始まりの一部と重複するように、部分的に重複する期間であってもよい。一実施形態では、時間セグメントは固定幅とすることができ、時間セグメントはスライディング時間セグメントである。同じタイプのフィッティング関数(例えば、線形、三次多項式などの同じ関数形式を有する)が各時間セグメント(すなわち、単一の関数が各別個の時間セグメントにフィットされる)にフィットされてもよく、または異なるタイプもしくは形式を有する複数の関数が各時間セグメントにフィットされてもよい。例えば、一実施形態では、区分的線形フィットが少なくとも3つの時間セグメントで実行され、各時間セグメントのR
2値が機械学習モデルへの入力パラメータの1つとして提供される。良好なファージは、フィッティング時間セグメントの各々においてR
2が1に近いことによって示される。異なる関数形式/タイプが各セグメントにフィットされる場合、これらは境界を越えて連続することに限定される必要はない。
【0054】
したがって、上記を考慮して、本発明者らは、フィッティングステップ(
図1Aのステップ120)を、各時系列データセットについて、第1の時間窓にわたって少なくとも1つの関数をフィットさせることとして一般化することができる。説明したように、これは、単一の時間窓にわたる単一の関数、同じ単一の時間窓にわたる複数の関数、または時間セグメントにわたってそれぞれ複数の関数をフィットさせることができ、第1の時間窓は、最も早い時間セグメントの開始および最も遅い時間セグメントの終了によって定義され、各時間セグメントは第1の時間窓よりも短い。時間セグメントはそれぞれ異なる時間であってもよく、連続的にまたは非連続的に第1の時間窓にまたがってもよい。次に、本発明者らは、要約するステップ130を実行し、このステップでは、フィッティングステップの結果は、機械学習モデル(すなわち、機械学習モデルへの入力として提供される)を訓練するために使用される各フィットの要約パラメータのセットを生成するために使用され、続いて、試験宿主-ファージ応答データセットを分類するための訓練モデルへの入力として使用される。要約パラメータは、1またはそれを超えるモデル係数/フィットされたパラメータ、適合度、R
2、誤差、残差、または残差の要約統計量を含む。
【0055】
各データセットセットの要約パラメータのセットが決定(または推定)されると、これを使用して、機械学習モデルを訓練するための入力として使用される訓練データセット(および検証データセット)を作成することができる。ステップ140で、次に、本発明者らは、宿主-ファージ組合せについての時系列データセットへのフィットについての要約パラメータのセットと、時系列データセットについての関連標識とを含む訓練データセット上で機械学習モデルを訓練することに進む。入力データセットは行列としてフォーマットすることができ、各行は宿主-ファージ組合せ(またはむしろウェル内のファージの存在下での宿主の増殖の観察の時系列データセット)を表し、列はフィットされた係数を表す。しかしながら、データセットは、ネットワーク化された保存デバイスおよび/またはデータベースを含む1またはそれを超える保存デバイスにわたって他のフォーマットまたは表現で保存されてもよいことが理解されよう。次いで、機械学習モデルの訓練および検証評価のために、各行(例えば、追加の列として追加される)に標識を割り当てることができる。
【0056】
これらの実施形態では、機械学習アルゴリズムは、訓練されると、宿主-ファージ応答データセットから試験宿主細菌に対する試験ファージの有効性を推定(分類)するために使用することができる教師あり分類アプローチである。ブースト木分類器、ランダムフォレスト分類器、決定木分類器、サポートベクタマシン(SVM)分類器、ロジスティック分類器などの一連の機械学習分類器を使用することができる。いくつかの実施形態では、分類器は確率的分類器である。すなわち、単に二項分類(例えば有効であるか否か)を発行するのではなく、分類器はクラス確率を出力する。確率的分類器には、単純ベイズ、二項回帰モデル、離散選択モデル、決定木およびブースティングベースの分類器が含まれる。
【0057】
機械学習訓練は、完全なデータセットを第1の訓練データセットと第2の検証データセットとに分離することを含む。訓練データセットは、全データセットの約60~80%であることが好ましい。この訓練データセットは、機械学習モデルによって使用され、有効なファージを正確に同定するための分類器モデルを作成する。第2のセットは検証データセットであり、これは通常、データセットの少なくとも10%、より好ましくは20~40%である。このデータセットは、訓練データセットを使用して作成されたモデルの精度を検証するために使用される。データは、訓練データセットおよび検証データセットにランダムに割り当てられ得る。いくつかの実施形態では、訓練データセットおよび検証データセットに対してチェックを実行して、それぞれに同様の割合の良好/不良ファージが存在することを確認することができる。
【0058】
いくつかの実施形態では、複数の訓練-検証サイクルが実行される(交差検証)。各訓練-検証サイクルにおいて、データセットは訓練および検証データセットにランダムに割り当てられ、モデルを訓練するために使用される。これは何度も繰り返され、異なるサイクルから選択された最良のモデルまたは複数の良好な性能のモデルを識別することができ、結果はアンサンブル投票手法を使用して組み合わされる。例えば、各モデルは、ファージが有効であるかどうかを予測するかどうか、および分類を出力するために使用される多数決に投票することができる。そのような方法はまた、例えば多数のサイズに基づいて粗い信頼推定値を提供することもできる。
【0059】
交差検証が使用されるいくつかの実施形態では、データセットは、3つのデータセット、すなわち訓練データセット、検証データセット、およびホールドアウトまたは試験データセットに割り当てられてもよい。第3のホールドアウトまたは試験データセットは、通常、全データセットの約10~20%であり、機械学習分類器を訓練するためまたは交差検証には使用されない。このホールドアウトデータセットは、機械学習分類器モデルの精度の偏りのない推定値を提供する。
【0060】
機械学習モデルが訓練されると、次に、本発明者らは、ステップ150において、コンピューティングシステム(同じまたは異なるコンピューティングシステム)によるその後の使用のために、機械学習モデルを電子フォーマットでエクスポートまたは保存して、試験ファージおよび試験細菌を使用して得られた宿主ファージ応答時系列データセットを使用して、試験細菌の増殖を阻害する際の試験ファージの有効性を推定する。モデルは、新しい宿主-ファージ応答データを分類するためにモデルを実行するように構成された別のコンピュータデバイスにロードするための機械学習コード/APIの適切な関数を使用して、電子モデルファイルにエクスポートまたは保存することができる。いくつかの実施形態では、機械学習モデルは、機械学習モデルを訓練するために使用されるのと同じコンピューティングデバイス上で後で使用するために保存される。電子モデルファイルは、機械学習コード/API(例えば、exportModel()およびloadModel())の一部として供給される標準関数を使用してエクスポートし、次に読み出す(リロードする)ことができる定義されたフォーマットを有する機械学習コード/ライブラリによって生成された電子ファイルであってもよい。ファイル形式は、機械可読形式を含む二項形式、またはテキスト形式であってもよく、シリアライズ表現であってもよい。電子ファイルは、JSON、YAMLまたは同様のデータ転送プロトコルを使用して、別のコンピューティングシステムに送信されるか、またはネットワーク保存場所を含む保存場所に保存されてもよい。いくつかの実施形態では、モデルをさらに特徴付けることができるか、または別のコンピューティングデバイス/サーバ上で別のモデルを構築するのを支援することができる、モデル精度、訓練データセット記述などのモデルパラメータと共に追加のモデルメタデータをエクスポート/保存および送信することができる。
【0061】
次いで、ステップ160において、機械学習モデルをコンピューティングシステムまたは装置によって使用して、試験ファージおよび試験細菌を使用して得られた宿主ファージ応答時系列データセットを使用して、試験細菌の増殖を阻害する際の試験ファージの有効性を推定する。これは、宿主ファージ応答データ200を解釈するための方法のフローチャートである
図1Bのフローチャートにさらに示されている。これは、訓練された機械学習モデルを使用して、同じコンピュータシステムもしくは装置または別のコンピュータシステムもしくは装置上で実行することができる。
【0062】
ステップ210において、本発明者らは、宿主応答データセットをコンピューティングシステムに分類するように構成された訓練された機械学習モデルをロードする。これは、訓練された機械学習モデルを記述するステップ150でエクスポートされた電子ファイルを受信することと、(コンピューティングシステムによって)電子ファイルを読み出して、プロセッサによる実行のためにメモリ内に訓練された機械学習モデルを再構築することと、を含むことができる。明確にするために、これは訓練データを必要とせず、訓練データから学習された分類器の構成を記述または特徴付けるだけでよい。ステップ220において、本発明者らは、試験ファージに対する宿主応答データセットを受信する。これは、ウェブポータルを介してコンピューティングシステムにアップロードされてもよく、または宿主応答データセットを生成した装置に関連するコンピューティング装置によって電子ファイルとして送信されてもよく、または宿主応答データセットを生成した装置に関連するコンピューティング装置は、宿主応答データセットを(ネットワークストレージなどの)保存場所内の電子ファイルとして保存してもよく、コンピューティングシステムは、保存場所内の新たに受信されたファイルについて保存場所を定期的にポーリングしてもよい。訓練データセットの場合と同様に、データセットは、時系列データセット内の各データポイントが、特定の時点において試験ファージの存在下での宿主細菌の増殖を示すパラメータの測定値を含む時系列データセットを含む。ステップ230で、次に、本発明者らは、少なくとも1つの関数を第1の時間窓にわたってフィットさせ、次いで、ステップ240において、本発明者らは、フィットのための要約パラメータのセット(例えば、モデルパラメータおよび/または誤差/残差推定値)を生成する。ステップ230および240は、訓練された機械学習モデルへの入力データが訓練データと同じ方法で生成されているように、ステップ120および130と等価である。本発明者らは要約パラメータのセットを渡すので、フィット(または複数のフィット)が実行される時間窓は、訓練に使用される時間窓と同一である必要はないことに留意されたい。しかしながら、時間窓は、フィットされたパラメータの信頼できる推定器を得るために、同じもしくは類似しているか、または少なくともフィットに十分であることが好ましい。同様に、機械学習モデルの訓練中に使用されたのと同じフィッティングプロセスを使用して、機械学習モデルによる分類のための同等の要約パラメータを生成する必要がある。例えば、本発明者らが、第1の時間窓にわたって単一の関数をフィットさせるか、第1の時間窓にわたって複数の関数をフィットさせるか、または第1の時間窓の一部である期間にわたってそれぞれフィットされる複数の関数をフィットさせるかは、同等の要約パラメータを生成できるように機械学習モデルがどのように訓練されたかに基づいて決定される。ステップ250で、次に、本発明者らは、要約パラメータのセットを機械学習モデルに提供することによって、宿主/試験細菌の増殖を阻害する際の試験ファージの有効性の推定値を得る。すなわち、訓練された機械学習モデルは、入力データセットを分類する。ステップ260で、次に、本発明者らは、試験ファージの有効性の推定値をレポートする。このレポートは、ファージが有効であるか否か(すなわち、無効である)などの二項出力であり得る。いくつかの実施形態では、機械学習モデルはまた、分類の信頼推定値を出力することができる。レポートは、PDFファイルなどの電子記録であってもよいし、コンピューティングシステムのユーザインターフェースを介して提供される電子レポートであってもよい。例えば、宿主応答データセットをアップロードするために使用されるウェブインターフェースはまた、レポートを発行するために使用されてもよく、例えば、実行されると有効性の推定値を組み込む保存されたテンプレートを使用してレポートを生成する自動レポート生成モジュール(例えば、Microsoftレポートサービス)を使用してもよい。さらに、システムは、ユーザが複数の宿主応答データセットをアップロードし、すべての結果を単一のレポートでレポートすることを可能にするように構成することができる。
【0063】
表2は、1000行を含むデータセットで試験した様々な機械学習モデルからの検証結果を示す。このデータセットを、データの80%を含む訓練セットと、データの残りの20%を含む試験セットとに分割した。
表2 機械学習モデル検証結果
【表2】
【0064】
ランダムフォレスト分類器、決定木分類器、およびロジスティック分類器は、このデータセットに対して最も性能の良い分類器であった。しかしながら、ブースト木分類器およびSVM分類器の性能は、これらの3つのモデルよりもわずかに低いだけであった。さらに、精度が試験実行ごとに異なると予想されることを考えると、これは、上記の機械学習モデルのいずれも許容され得る可能性が高いことを示している。一実施形態では、機械学習モデルは、ランダムフォレスト分類器、決定木分類器、またはロジスティック分類器のいずれかである。
【0065】
図4から、遅滞期(すなわち約6~7時間)の後、2つの曲線が分岐し始めることが分かる。したがって、モデルがどのくらい迅速に不良なファージを区別することができるかを調べるために、インシリコ実験を行って、機械学習モデルがどのくらい迅速に試験宿主-ファージ応答データセットを確実に分類することができるかを調べた。この実験では、機械学習モデルを各宿主-ファージ応答の完全なデータセットにフィットさせ、次いで、一連の試験フィットをデータセットに対して実施し、15分間隔を使用して、漸進的に増加する時間窓にわたって各フィットを実施した。すなわち、時間窓(0、t)にわたって試験フィットが実行され、tは後続の各試験フィットに対して15分増加し、次いで、フィットされたパラメータが訓練された機械学習モデルに提供された。上述したように、訓練された機械学習モデルは、要約パラメータのセットのみを必要とし、フィットされたデータセットの時間窓は、モデルを訓練するために使用されるものと同一である必要はない。
【0066】
図5は、一実施形態による、機械学習モデルが宿主-ファージ時系列データセットの有効性を正しく分類するのにかかる時間を示す48個のプロットのセットである。プロットの各々は、試験フィットの分類が完全なデータセットの機械学習モデルから得られた分類と一致するかどうかを示し、15分間隔の各々において「1」は一致を示し、「0」は不一致を示す。したがって、各プロットは、機械学習アルゴリズムが正しい/安定した推定値を生成するのにかかる時間を示している。
【0067】
驚くべきことではないが、プロットは最初の数時間で著しく変動するが、10~20時間の間に正しい推定値に落ち着く傾向がある。特に、A3、C3およびH3は、ファージが増殖を阻害するのに効果的な場合であり、これらはそれぞれ機械学習モデルが信頼できる推定値を作成するのに約20時間(時点51)かかる。これは、ファージが効果的でないA1、A4およびC2とは対照的であり、これらは10時間後(時点54)に安定した推定値を達成する。しかしながら、B5およびD5などの無効ファージを有するいくつかの細胞は、安定化するのにより長い時間がかかる(時点55)。
【0068】
これらの結果は、機械学習モデルが10時間後に不良ファージを迅速に予測するのに適度に正確であるが、効果的なファージが同定されるのにはより長い時間、この場合は約20時間かかることを示唆している。これは、この期間が20時間に及ぶべきであることを示唆しているが、明らかに無効なファージを選択するために10時間後に試験を行うことができる。しかしながら、最小の望ましい期間は、使用されるフィッティング関数、そのフィットが行われる時間窓(例えば、単一または区分的なフィット)、および宿主-ファージ応答試験に使用されるウェルの増殖培地にある程度依存するだろう。
【0069】
一実施形態では、フィッティングステップは、宿主ファージ実験の過程中に繰り返し実施することができる。すなわち、実験が進行し、さらなる画像およびデータが利用可能になるにつれて、データセットは追加のデータポイント(すなわち、追加の時間)で更新され、フィッティング関数は更新されたデータセット上でリフィットおよび分類される。これは、各新しいフィットに時間窓を徐々に増加させることに相当する。別の実施形態では、さらなるデータが利用可能になるにつれてフィッティングプロセスがスライディング時間窓を効果的に使用するように、フィッティング時間窓の幅を固定することができる。これらの実施形態では、確率的分類器を使用して分類確率を出力することができる。あるいは、分類予想値は、各新しい時点/フィットで推定することができる。分類予想値は、現在時刻における現在状態と一致する点を含む履歴のデータの分布を使用して決定された現在状態を条件として分類結果が正しい確率(または尤度)の推定値である。すなわち、アッセイにおける所与の時間における所与のパラメータのセットで、所与のファージについての分類アウトカム(すなわち、は現在の分類結果であり、期待結果である。)の信頼性の尺度である数を生成することができる。例えば、新しいデータを15分ごとに取得することができ、分類器の決定を各時点について保存することができる。各点での分類予想値を取得するために、本発明者らは、一致する現在の状態を有する履歴のデータセットのサブセットを抽出する。第1の実施形態では、これは、現在の時点で同じ分類アウトカムを有するデータセットであり得る。このサブセットを取得した後、次に、本発明者らは、分類結果の現在の推定値が最終的な分類結果と同じであったサブセットの割合を決定し(例えば、アッセイ完了後の分類)、その割合(またはその割合に基づく数)を返す。時間が経過するにつれて、これは最終値で安定すると予想される。すなわち、24時間にわたって実施されたアッセイについて、本発明者らは、50%(すなわち、不安定な推定値)の確率で4時間で分類結果を得ることができる。12時間までに確率は75%(正確である可能性がある)であってよく、20時間までに確率は99%(正確である可能性が高い)であり得る。別の実施形態では、データセットは、現在の時点で同じ分類アウトカムを有し、現在の時点で観察された増殖尺度(すなわち時系列値)のいくつかの所定の範囲内の増殖尺度(すなわち時系列値)を有するデータセットであり得る。これは、増殖値(
図2のy軸値)を間隔またはビンのセット(例えば、0~0.1、0.1~0.2、0.3~0.4など)に分割することによって達成することができる。次に、本発明者らは、観察された増殖尺度がどの間隔/ビンに含まれるかを同定し、同じ現在の分類結果で同時に同じ間隔/ビンで増殖尺度を観察した履歴データのサブセットを選択する。このサブセットを取得した後、次に、本発明者らは、現在の分類結果が最終的な分類結果と同じであったサブセットの割合を決定する(すなわち、現在の分類結果であり、予想される分類結果である)。代替的な実施形態では、データセットは、上述のように現在の時点で観察された増殖尺度のある範囲内の増殖尺度を有するデータセットであり得る(すなわち、データセットの選択は現在の分類結果を無視する)。次に、本発明者らは、現在の分類結果と一致する最終的な分類結果を有するこのサブセットの最終的な分類結果の割合を返す。したがって、分類予想値は、履歴データセットで利用可能なより長い時系列(およびアウトカム)を活用することによって、現在の分類結果の信頼性または安定性の早期尺度を提供することができる。
【0070】
上記の実施形態は、宿主細菌に対して1またはそれを超える有効なファージを同定するために使用することができる。例えば、
図5では、3つの有効なファージ(A3、C3およびH3)が同定された。複数のファージを同じ宿主細菌に対して試験する場合、最も効果的なファージの治療用ファージ製剤を処置のために生成することができる。どのファージを含めるかの選択は、有効なファージの多様性の尺度を使用して得ることができる。一実施形態において、多様性の尺度は、ファージ間の異なる作用機構を示す。この多様性の尺度は、ファージを配列決定し、バイオインフォマティクスの方法またはデータセットを使用して機能的効果/会合を推定することによって推定することができ、これらを使用して1またはそれを超える作用機構標識(これらは、GeneOntologyデータベースまたは生物学的ネットワークのデータベースなどの制御されたオントロジーから選択することができる)を割り当てることができる。したがって、ファージの組み合わせは、異なる作用機構を有するものに基づいて選択することができ、またはファージが複数の可能な作用機構のセットを割り当てられている場合、ファージは、最も異なるセットを有する2つのファージに基づいて選択することができる(すなわち、可能な作用機構の最小重複)。重複する作用方法は、生物学的ネットワークもしくは経路、またはGeneOntology(GO)term(またはGO termの下流)、またはGO-CAMモデルの共有に基づいて定義することができる。例えば、ファージの各対は、両方のリストによって共有されない作用機構の数に基づいてスコアを割り当てられ得る。最大スコアは、最も多様な(重複しない)リストを示す。別の例では、スコアは重み付けスコアであり得る。例えば、以前のスコアを2つのリストサイズの合計で除算して、リストサイズの重みを付けることができる。配列に関連する作用機構の証拠を考慮する重み付けを適用するなど、他の重み付けまたはスコアリング関数を使用することができる。可能な作用機構の多様性を評価する他の方法もまた、バイオインフォマティクスデータマイニングまたは生物学的ネットワーク/経路分析に基づいて使用することができる。このアプローチは、あたかも第2のファージが異なる作用機構を有するかのように、単一のファージの作用機構に適合する細菌に対して堅牢性を提供し、効果的なままである可能性が高い。
【0071】
したがって、本明細書に記載の実施形態は、宿主ファージ応答データを分析/解釈するための自動化方法を有利に提供する。機械学習モデルの訓練のための入力として、1またはそれを超える関数をフィットさせて、要約パラメータを生成するアプローチを使用することによって、機械学習モデルを分類器として効率的に訓練することができる。要約データを使用する方法は、展開時のデータサイズおよびサンプリング頻度とは大きく無関係である、すなわち、データが毎分または15分毎にサンプリングされる場合、訓練およびその後の展開は依然として計算された要約パラメータまで減少する。このアプローチは、細菌感染症、特に多剤耐性感染症を有する患者を処置するためのファージ形成に含めるためのファージを同定するために使用することができる。本方法はまた、産業現場の浄化などのために細菌汚染領域を浄化するために使用することができるファージを同定するために使用することができる。これらのファージ製剤は、上記の異なる作用機構を有する2またはそれを超えるファージを含み得る。
【0072】
上記の方法の変形も行うことができる。一実施形態において、履歴データセットは、アッセイ中に(すなわち、全アッセイ期間の前のある時点で)実施された場合に分類を改善するために使用される。この実施形態では、現在の期間(例えば0~6時間)にわたってフィット(または複数のフィット)が実行される。次いで、同じ期間にわたるフィット結果が履歴データセットの各宿主-ファージプロファイルについて得られ、(現在の期間にわたる)現在の宿主-ファージ組合せに対するフィット結果と同様のフィット結果を有することに基づいて、履歴データセットのサブセットが選択される。すなわち、本発明者らは、この時点まで(またはこの時点までのある時間範囲にわたって)観察されたファージ-宿主曲線と同様のファージ-宿主曲線を有する履歴データセットのサブセットを同定する。類似のファージ-宿主曲線の決定は、相関尺度(例えば、相互相関または類似の類似性尺度)を使用して行うことができる。次に、本発明者らは、(単にフィット値を超える)分類器へのさらなる入力として、履歴データセットから追加のデータを提供する。一実施形態では、これは、最終的に有効であった履歴データセットのこのサブセットの割合であり得る。
【0073】
一実施形態では、大量の宿主-ファージ応答訓練データが利用可能なモデルを生成するために、深層学習法を使用することができる。深層学習法では、典型的には分類層を有する畳み込みニューラルネットの多くの層を含むニューラルネットワークが、タスク依存の「損失関数」を最小化するためにモデルのパラメータまたは重み付けを最適化することによって訓練される。例えば、本発明者らが、二項宿主-ファージ応答分類問題、すなわち宿主-ファージ応答時系列のセットを正確に2つのカテゴリに分離することを考慮する場合、フィットされた関数パラメータは、2つの関心カテゴリを表すために二項出力標識、例えば0または1を計算するモデルを実行される。次いで、予測された出力がグラウンドトゥルース標識と比較され、損失(または誤差)が計算される。二項分類の例では、二項交差エントロピー損失関数が最も一般的に使用される損失関数である。この関数から得られた損失値を使用して、本発明者らはネットワーク内の各層の入力に対する誤差勾配を計算することができる。このプロセスは、バックプロパゲーションとして知られている。直感的に、これらの勾配は、画像の各々についてより正確な予測を得るために重みをどのように修正(または最適化)するかをネットワークに知らせる。
【0074】
しかしながら、実際には、訓練の1回の反復または「エポック」でネットワーク更新を計算することは困難で、得策ではなく、または不可能でさえあり得る。多くの場合、これは、ネットワークが大量のデータを必要とし、変更可能な多数のパラメータを含むことに起因する。これを解決するために、多くの場合、フルセットの代わりにデータのミニバッチが使用される。これらのバッチの各々は、データセットからランダムに引き出され、データセット全体の統計を近似するのに十分に大きいバッチサイズが選択される。次いで、停止条件が満たされるまで(すなわち、収束するまで、または予め定義されたメトリックに従って満足のいく結果が達成されるまで、)、ミニバッチにわたって最適化が適用される。このプロセスは、確率的勾配減衰率(SGD)として知られており、ニューラルネットワークを最適化する標準的なプロセスである。通常、オプティマイザは、数十万から数百万回の反復で実行される。さらに、ニューラルネットワーク最適化は非凸であり、損失関数によって定義されるパラメータ空間には多くの極小値が存在することが多い。直感的に、これは、ネットワーク内の重みとデータとの間の複雑な相互作用に起因して、ほぼ同一の出力をもたらす多くのほぼ等しく有効な重みの組み合わせがあることを意味する。深層学習モデル、または畳み込みニューラルネットの多くの層を含むニューラルネットワークアーキテクチャは、通常、グラフィックス処理装置(GPU)を使用して訓練される。GPUは、中央処理装置(CPU)と比較して線形代数を計算するのに非常に効率的である。
【0075】
機械学習訓練と同様に、ニューラルネットを訓練することは、複数の訓練検証サイクルを実行することを含む。各訓練-検証サイクルにおいて、使用可能な全データセットの各ランダム化は、3つのデータセットに分割される。第1のデータセットが訓練データセットである前と同様に、好ましくは全データセットの約70~80%である。このデータセットは、標識された訓練データに基づいて有効なファージを正確に同定するための分類器モデルを作成するために使用される。第2のセットは検証データセットであり、これは通常、データセットの少なくとも10%である。このデータセットは、訓練データセットを使用して作成されたモデルの精度を検証または試験するために使用される。このデータセットは、モデルを作成するために使用される訓練データセットとは無関係であるが、モデル訓練の進行を監視および最適化するために使用されるため、検証データセットは依然として精度にわずかな正のバイアスを有する。したがって、訓練は、この特定の検証データセットの精度を最大にするモデルを対象とする傾向があり、これは、より一般的に他のデータセットに適用される場合、必ずしも最良のモデルではない可能性がある。したがって、典型的にはデータセットの約10~20%であるブラインド検証データセットとして知られている第3のデータセットを有することがしばしば好ましい(しかし、必要ではない)。この検証は、最終モデルが作成および選択されたときにモデリングおよび検証プロセスの終わりに行われ、使用されて最終モデルの最終的な不偏精度評価を行い、検証データセットを用いて正のバイアスに対処する。検証データセットの精度は、上述の理由からブラインド検証データセットよりも高い可能性が高いが、ブラインド検証データセットの結果は、モデルの精度のより信頼性の高い尺度である。
【0076】
機械学習モデルは、データセット上の複数の訓練-検証サイクルを使用して訓練される。理解を容易にするために、データセットを行列としてフォーマットすることができ、各行は宿主-ファージ実験(時系列)を表し、列はフィットされた係数を表す。しかしながら、データセットは、ネットワーク化された保存デバイスを含む1またはそれを超える保存デバイスにわたって他のフォーマットまたは表現で保存されてもよいことが理解されよう。訓練-検証サイクルは、以下のフレームワークに従う。
【0077】
訓練データはバッチに分割される。各バッチの行数(時系列)は自由モデルパラメータであるが、アルゴリズムがどれだけ速く、どれだけ安定して学習するかを制御する。各バッチの後、ネットワークの重みが調整され、これまでの実行全体の精度が評価される。すべての行が評価されたとき、本発明者らは1つのエポックが実行されたと言う。次いで、訓練セットは再ランダム化され、訓練は次のエポックのために再び先頭から開始する。訓練中に、データセットのサイズ、データセットの複雑さ、および訓練されているモデルの複雑さに依存する数の、いくつかのエポックを実行することができる。いくつかの実施形態では、エポックの数は、100~1000またはそれを超えるいずれかであり得る。各エポックの後、モデルは、モデルがどの程度正確であるかの進捗の感覚を提供するために、任意の訓練を行わずに検証セット上で実行される。これは、より多くのエポックが実行されるべきかどうか、またはより多くのエポックが過訓練をもたらす場合に、ユーザまたはシステムを案内するために使用され得る。検証セットは、全体的なモデルパラメータ(ハイパーパラメータ)の選択を導き、したがって、真にブラインドセットではない。モデルが訓練されると、ブラインド検証データセットを使用して最終精度を評価する。
【0078】
深層学習では、一連の自由パラメータを使用して、検証セットに対するモデル訓練を最適化する。重要なパラメータの1つは学習率であり、これは各バッチの後に基礎となるニューロン重みがどれだけ調整されるかによって決定される。典型的には、モデルを訓練するとき、本発明者らは、データの過訓練または過フィットを回避しようとする。これは、モデルに含まれるパラメータが多すぎてフィットさせることができず、本質的にデータを「記憶」し、一般化可能性と訓練または検証セットの精度を交換する場合に発生する。過訓練の可能性は、学習速度の減速または減衰(例えば、nエポックごとに学習率を半分にする)、テンソル初期化、(以前の訓練済みのモデルを開始点として使用する)事前訓練、およびモデルをより真に一般化するように強制するドロップアウト層またはバッチ正規化などのノイズの追加を含む様々な方策によって改善することができる。ドロップアウト正則化は、整流器の受信範囲内にすべての入力重み0を設定するランダムな機会を導入することによって、ネットワークを効果的に単純化する。ノイズを導入することにより、過度の特殊化に依存することなく、残りの整流器がデータの表現に正しくフィットすることを効果的に保証する。これにより、ニューラルネットは、より効果的に一般化することができ、ネットワーク重みの特定の値に対する感度が低くなる。同様に、バッチ正規化は、整流段階への前駆として入力重みをゼロ平均および単位分散にシフトすることによって、より迅速な学習および一般化を可能にすることができる。
【0079】
深層学習を実行する際に、許容され得る分類を達成するためにニューロン重みを変更するための方法論は、最適化プロトコルを指定する必要性を含む。すなわち、「精度」または「損失」(以下で説明する)の所与の定義に対して、どの程度の重みを正確に調整すべきか、および学習率の値をどのように使用すべきかは、指定する必要があるいくつかの技法を有する。適切な最適化技術には、運動量(および/またはネステロフ加速勾配)を伴う確率的勾配降下法(Stochastic Gradient Descent:SGD)、デルタを伴う適応勾配法(Adaptive Gradient with Delta:Adadelta)、適応モーメント推定法(Adaptive Moment Estimation:Adam)、二乗平均平方根伝搬法(Root-Mean-Square Propagation:RMSProp)、および限定メモリのブロイデン・フレッチャー・ゴールドファーブ・シャンノ法(Broyden-Fletcher-Goldfarb-Shanno:L-MBFGS)アルゴリズムが含まれる。これらの方法に加えて、不均一な学習率を含めることも可能である。すなわち、畳み込み層の学習率は、分類器の学習率よりもはるかに大きいまたは小さいと特定することができる。これは、事前訓練されたモデルの場合に有用であり、分類器の下のフィルタへの変更は、より「凍結」されたままにされるべきであり、分類器は、事前訓練が追加の再訓練によって取り消されないように再訓練される。
【0080】
オプティマイザは、特定の損失または精度の尺度が与えられた場合に重みをどのように更新するかを指定するが、いくつかの実施形態では、損失関数は分布効果を組み込むように修正される。これらは、交差エントロピー損失、推論分布、またはカスタム損失関数を含むことができる。
【0081】
交差エントロピー損失は、一般的に使用される損失関数であり、グラウンドトゥルースと予測値との間の単純な平均二乗差を上回る傾向がある。ネットワークの結果がソフトマックス層を通過する場合、交差エントロピーの分布はより良好な精度をもたらす。これは、離れた外れ値に過度に重み付けしないことによって、入力データを正しく分類する可能性を自然に最大化するためである。宿主-ファージ時系列のバッチを表す入力アレイ、バッチ、および有効性を表すクラス(すなわち、ファージは細菌増殖を阻害することが良好または不良である)の場合、交差エントロピー損失は以下のように定義される。
【数2】
データがクラスバイアスを含む場合、すなわち、良好なファージ例よりも不良である(またはその逆である)場合、損失関数は、少数のクラスの要素を誤って分類することがより重くペナルティを課されるように比例的に重み付けされるべきである。これは、式(2)の右辺に係数を事前乗算すること
【数3】
によって達成され、式中、N[class]は各クラスのデータセットの総数である。必要に応じて、偽陽性と比較して偽陰性の数を減らすために、重みを良好なファージに向かって手動でバイアスをかけることも可能である。
【0082】
いくつかの実施形態では、推論分布を使用することができる。ファージを分類する際には、高い精度を求めることが重要であるが、高い転写性をモデルに求めることも重要である。すなわち、スコアの分布を理解することは多くの場合有益であり、高い精度を求めることが重要な目標であるが、有効な(良好な)ファージと非有効な(不良な)ファージとを確実性のマージンを伴って確実に分離することは、このモデルがホールドアウト試験セットに十分に一般化されるという指標である。試験セットの精度は、同じファージ宿主グラフを分類する熟練した分析者の精度を比較するなどのベンチマークを使用することができるため、一般化可能性を保証することは、各エポックのモデルの成功のバッチごとの評価にも組み込まれるべきである。
【0083】
図3は、本明細書に記載のコンピュータ実装方法のいずれか1つを実行するように構成された例示的なコンピューティングシステムを示す図である。コンピューティングシステムは、方法の実施形態を実行するようにプロセッサを構成するための命令を格納する1またはそれを超えるメモリに動作可能に接続された1またはそれを超えるプロセッサを備えることができる。これに関連して、コンピューティングシステムは、例えば、1またはそれを超えるプロセッサ、メモリ、ストレージ、および入力/出力デバイス(例えば、モニタ、キーボード、ディスクドライブ、ネットワークインターフェース、インターネット接続など)を含むことができる。しかしながら、コンピューティングシステムは、プロセスのいくつかまたはすべての態様を実行するための回路または他の専用ハードウェアを含むことができる。コンピューティングシステムは、オールインワンコンピュータ、デスクトップコンピュータ、ラップトップ、タブレットまたはモバイルコンピューティング装置および任意の関連する周辺デバイスなどのコンピューティング装置であってもよい。コンピュータシステムは、サーバベースのシステムおよびクラウドベースのコンピューティングシステムを含む分散システムであってもよい。いくつかの動作設定では、コンピューティングシステムは、1またはそれを超えるユニットを含むシステムとして構成されてもよく、その各々は、ソフトウェア、ハードウェア、またはそれらの何らかの組み合わせのいずれかでプロセスのいくつかの態様を実行するように構成される。例えば、ユーザインターフェースは、デスクトップコンピュータまたはタブレットコンピュータ上に提供されてもよく、一方、機械学習モデルの訓練および訓練された機械学習モデルの実行は、クラウドベースのサーバシステムを含むサーバベースのシステム上で実行されてもよく、ユーザインターフェースは、そのようなサーバと通信するように構成される。ユーザインターフェースは、ウェブポータルとして提供することができ、1つのコンピュータ上のユーザが、リモートコンピューティング装置またはシステム(例えば、サーバまたはクラウドシステム)上で処理することができ、結果(すなわち、レポート)をユーザまたは他のコンピューティング装置上の他のユーザに戻すデータセットをアップロードすることを可能にする。
【0084】
本明細書に開示された実施形態に関連して説明された方法またはアルゴリズムのステップは、ハードウェア、プロセッサによって実行されるソフトウェアモジュール、またはこれら2つの組み合わせで直接具現化され得る。ハードウェア実装の場合、処理は、1またはそれを超える特定用途向け集積回路(application specific integrated circuit:ASIC)、デジタル信号プロセッサ(digital signal processor:DSP)、デジタル信号処理デバイス(digital signal processing device:DSPD)、プログラマブルロジックデバイス(programmable logic device:PLD)、フィールドプログラマブルゲートアレイ(field programmable gate array:FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本明細書に記載の機能を実行するように設計された他の電子ユニット、またはそれらの組み合わせ内で実装され得る。コンピュータプログラム、コンピュータコード、または命令としても知られるソフトウェアモジュールは、いくつかのソースコードまたはオブジェクトコードセグメントまたは命令を含むことができ、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD-ROM、DVD-ROM、ブルーレイディスク、または任意の他の形態のコンピュータ可読媒体などの任意のコンピュータ可読媒体に存在することができる。いくつかの態様では、コンピュータ読取可能な媒体は、非一時的なコンピュータ読取可能な媒体(例えば、有形の媒体)を備え得る。別の態様では、コンピュータ可読媒体は、プロセッサと一体であってもよい。プロセッサおよびコンピュータ可読媒体は、ASICまたは関連デバイスに存在してもよい。ソフトウェアコードはメモリユニットに保存されてもよく、プロセッサはそれらを実行するように構成されてもよい。メモリユニットは、プロセッサ内またはプロセッサの外部に実装されてもよく、その場合、当該技術分野で知られているように様々な手段を介してプロセッサに通信可能に結合することができる。
【0085】
具体的には、
図3は、本明細書に記載のプロセスを実行するために使用することができるいくつかの構成要素を有するコンピューティングシステム(300)を示す。例えば、入力/出力(input/output:「I/O」)インターフェース330と、1またはそれを超える中央処理装置「central processing unit:CPU」(340)と、メモリ部(350)と、を備える。I/Oインターフェース(330)は、ディスプレイ(320)、キーボード(310)、ディスク保存部(390)、媒体駆動ユニット(360)などの入力および出力デバイスに接続される。媒体駆動ユニット(360)は、プログラム(380)および/またはデータを含むことができるコンピュータ可読媒体(370)を読み取り/書き込むことができる。I/Oインターフェースは、所定の通信プロトコル(例えば、Bluetooth(登録商標)、Zigbee(登録商標)、IEEE 802.15、IEEE 802.11、TCP/IP、UDPなど)を使用して別のデバイス内の同等の通信モジュールと通信するためのネットワークインターフェースおよび/または通信モジュールを備えることができる。これは、単一のコンピューティング装置、またはクラウドベースのコンピューティングシステムを含む分散コンピューティング装置または分散コンピューティングシステムであってもよい。
【0086】
一実施形態では、機械学習モデルは、AI/機械学習ベースのアプリケーションを構築するためにApple(および以前のTuri)によって開発されたパイソンベースの機械学習ライブラリであるTuri Create(apple.github.io/turicreate)を使用して生成された。しかしながら、他の実施形態では、SciKit-Learn、Tensorflow、およびPyTorchなどの同様の機械学習ライブラリ/パッケージを使用することができる。これらは、典型的には、ブースト木分類器、ランダムフォレスト分類器、決定木分類器、サポートベクタマシン(SVM)分類器、ロジスティック分類器などの複数の異なる分類器を実装する。これらをそれぞれ試験し、最良の性能の分類器を選択することができる。コンピュータプログラムは、ユーザインターフェースを提供し、機械学習ライブラリを呼び出し、結果をエクスポートするために、例えば、汎用プログラミング言語(例えば、Pascal、C、C++、Java(登録商標)、Python、JSONなど)または何らかの特殊な特定用途向け言語で書かれてもよい。
【0087】
本明細書に記載の方法のいずれかを実行するためのコンピュータ実行可能命令を含む非一時的コンピュータプログラム製品または保存媒体も生成することができる。非一時的コンピュータ可読媒体は、コンピュータによって上述のプロセスのいずれか1つを実行するための1またはそれを超えるコンピュータプログラムを格納(例えば、有形に具現化する)するために使用することができる。1またはそれを超えるプロセッサと、メモリと、1またはそれを超えるプログラムとを備えるコンピュータシステムがさらに提供され、1またはそれを超えるプログラムは、メモリに保存され、1またはそれを超えるプロセッサによって実行されるように構成され、1またはそれを超えるプログラムは、本明細書に記載の方法のいずれかを実行するための命令を含む。
【0088】
当業者は、情報および信号が様々な技術および技法のいずれかを使用して表され得ることを理解するであろう。例えば、データ、命令、コマンド、情報、信号、ビット、シンボル、およびチップは、上記の説明を通して参照されてもよく、電圧、電流、電磁波、磁場もしくは粒子、光場もしくは粒子、またはそれらの任意の組み合わせによって表されてもよい。
【0089】
当業者は、本明細書に開示された実施形態に関連して説明された様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェアもしくは命令、または両方の組み合わせとして実装され得ることをさらに理解するであろう。ハードウェアとソフトウェアとのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップが、それらの機能に関して一般的に上述されている。そのような機能がハードウェアとして実装されるかソフトウェアとして実装されるかは、特定の用途およびシステム全体に課される設計制約に依存する。当業者は、説明された機能を特定の用途ごとに様々な方法で実施することができるが、そのような実施決定は、本発明の範囲からの逸脱を引き起こすと解釈されるべきではない。
【0090】
以下の明細書および特許請求の範囲を通して、文脈上別段の要求がない限り、「含む(comprise)」および「含む(include)」という用語および「含む(comprising)」および「含む(including)」などの変形は、記載された整数または整数群の包含を意味するが、任意の他の整数または整数群の排除を意味しないと理解される。
【0091】
本明細書における任意の先行技術への言及は、そのような先行技術が共通の一般知識の一部を形成することを示唆する任意の形態の承認ではなく、そのように解釈されるべきではない。
【0092】
本開示は、その使用において、記載された特定の1つまたは複数の用途に限定されないことが当業者には理解されよう。本開示は、その好ましい実施形態において、本明細書に記載または描写される特定の要素および/または特徴に関しても、制限されない。本開示は、開示された1つまたは複数の実施形態に限定されず、添付の特許請求の範囲によって記載および定義される範囲から逸脱することなく、多数の再構成、修正および置換が可能であることが理解されよう。
【国際調査報告】