(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-15
(54)【発明の名称】電子記録を用いた決定木ガイドラインの自動並列処理
(51)【国際特許分類】
G06F 16/28 20190101AFI20241108BHJP
【FI】
G06F16/28
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024532959
(86)(22)【出願日】2022-11-23
(85)【翻訳文提出日】2024-07-26
(86)【国際出願番号】 US2022050958
(87)【国際公開番号】W WO2023101884
(87)【国際公開日】2023-06-08
(32)【優先日】2021-12-03
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】514099673
【氏名又は名称】エフ・ホフマン-ラ・ロシュ・アクチェンゲゼルシャフト
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】アルコーン, チャールズ
(72)【発明者】
【氏名】ウー, アレクサンダー
(72)【発明者】
【氏名】ヤオ, ウェイ
(72)【発明者】
【氏名】チャン, チュイ
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175CA07
5B175HB03
5B175KA11
(57)【要約】
決定木をトラバースするための機械学習モデルであって、機械学習モデルは、第1の組のキー値ペアと、キー値ペアを使用する対象固有の基準とを含む構造化データセットから訓練される、機械学習モデル。第1の組のキー値ペアは、多次元空間内の対象固有点に投影される第2の組のキー値ペアに変換される。決定木は、決定ノードおよびリーフノードを含む。各リーフノードは、リーフノード固有の軌跡を介してルートノードに接続される。各決定ノードは、第2の組のキー値ペアの値を使用する基準に対応する。各リーフノードについて、多次元空間内のリーフノード固有点が、リーフノード固有の軌跡を使用して判定され、類似度スコアが、リーフノード固有点および対象固有点を使用して判定される。リーフノードのサブセットは、スコアを使用して同定される。サブセットの各リーフノードの状態またはプロトコル情報が取得される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
第1の組のキー値ペアを含む構造化データセットにアクセスすることであって、前記第1の組のキー値ペアの各々が、対象の評価結果またはプロトコル特性を特徴付ける、アクセスすること、
前記第1の組のキー値ペアを第2の組のキー値ペアに変換することであって、前記第2の組のキー値ペアにおける少なくともいくつかのキーが、前記第1の組のキー値ペアにおける各キーとは異なる、変換すること、
多次元空間内の対象固有点を同定するために前記第2の組のキー値ペアを投影すること、
複数の決定ノードおよび複数リーフノードを含む1つまたは複数の決定木にアクセスすることであって、前記複数のリーフノードの各々は、リーフノード固有の軌跡を介してルートノードに接続され、前記複数の決定ノードの各々は、前記第2の組のキー値ペアにおける少なくとも1つの値に基づく基準に対応する、アクセスすること、
前記1つまたは複数の決定木内の各リーフノードについて、前記リーフノード固有の軌跡に基づいて前記多次元空間内のリーフノード固有点を決定すること、
前記1つまたは複数の決定木内の各リーフノードについて、前記リーフノード固有点および前記対象固有点に基づいて類似度スコアを判定すること、
前記類似度スコアに基づいて前記複数リーフノードの不完全なサブセットを同定すること、
前記不完全なサブセット内の各リーフノードに関連付けられた状態またはプロトコル情報を取得すること、ならびに
前記状態または前記プロトコル情報を含む前記対象に関連する出力を生成すること
を含む、コンピュータ実装方法。
【請求項2】
前記1つまたは複数の決定木における各リーフノードについて、前記リーフノード固有点を決定することが、
テキスト抽出を使用して前記リーフノード固有の軌跡を第1のリーフノード固有データセットに変換すること、
前記第1のリーフノード固有データセットをリーフノード固有の組のキー値ペアに変換すること、および
前記リーフノード固有点を同定するために、第2のリーフノード固有の組のキー値ペアを投影すること、
を含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記類似度スコアを判定することが、コサイン類似度関数を適用することを含む、請求項1に記載のコンピュータ実装方法。
【請求項4】
用語セットの各用語について、前記1つまたは複数の決定木内のリーフノードに関連付けられたリーフノード固有の軌跡にわたって前記用語が発生する頻度を示す逆軌跡頻度を判定すること、および
前記用語セットの各用語について、前記リーフノード固有の軌跡の各々で前記用語が発生する頻度を示す用語頻度を判定すること、をさらに含み、
前記第2の組のキー値ペアの値は、前記判定された逆軌跡頻度および前記用語頻度に基づいて定められる、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記出力が、前記不完全なサブセット内の各ノードについて、前記リーフノード固有の軌跡内の決定ノードによって表されるクエリをさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記出力が、前記対象の潜在的な処置を同定するプロトコル情報を含む、請求項1に記載のコンピュータ実装方法。
【請求項7】
前記構造化データセットが、前記第1の組のキー値ペアの各々について、初期タイムスタンプを含み、前記第1の組のキー値ペアを第2の組のキー値ペアに変換することは、
前記第1の組のキー値ペアのうちの特定のキー値ペアをインデックス付けイベントとして分類すること、
前記第1の組のキー値ペアの各キー値ペアについて、前記キー値ペアと関連付けられた前記初期タイムスタンプおよび前記特定のキー値ペアと関連付けられた前記初期タイムスタンプを使用して修正タイムスタンプを生成すること、
特定のイベントが別の特定のイベントの発生に対して特定の期間内に発生したかどうかを判定するためのクエリを、前記1つまたは複数の決定木における決定ノードが含むことを検出することであって、前記別の特定のイベントが前記インデックス付けイベントに対応する、検出すること、
前記第1の組のキー値ペアが、前記特定のイベントを表し特定の時間範囲内の修正タイムスタンプに関連付けられた第1の特定のキー値ペアを含むかどうかを判定するためにクエリを実行すること、ならびに
前記クエリの結果に基づいて第2の特定のキー値ペアを定めることであって、前記第2の組のキー値ペアが第2のキー値ペアを含む、定めること、
を含む、請求項1に記載のコンピュータ実装方法。
【請求項8】
1つ以上のデータプロセッサに、動作のセットを実行させるように構成された命令を含む、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品であって、前記動作のセットが、
第1の組のキー値ペアを含む構造化データセットにアクセスすることであって、前記第1の組のキー値ペアの各々が、対象の評価結果またはプロトコル特性を特徴付ける、アクセスすること、
前記第1の組のキー値ペアを第2の組のキー値ペアに変換することであって、前記第2の組のキー値ペアにおける少なくともいくつかのキーが、前記第1の組のキー値ペアにおける各キーとは異なる、変換すること、
多次元空間内の対象固有点を同定するために前記第2の組のキー値ペアを投影すること、
複数の決定ノードおよび複数リーフノードを含む1つまたは複数の決定木にアクセスすることであって、前記複数のリーフノードの各々は、リーフノード固有の軌跡を介してルートノードに接続され、前記複数の決定ノードの各々は、前記第2の組のキー値ペアにおける少なくとも1つの値に基づく基準に対応する、アクセスすること、
前記1つまたは複数の決定木内の各リーフノードについて、前記リーフノード固有の軌跡に基づいて前記多次元空間内の前記リーフノード固有点を決定すること、
前記1つまたは複数の決定木内の各リーフノードについて、前記リーフノード固有点および前記対象固有点に基づいて類似度スコアを判定すること、
前記類似度スコアに基づいて不完全なサブセットの前記複数リーフノードを同定すること、
前記不完全なサブセット内の各リーフノードに関連付けられた状態またはプロトコル情報を取得すること、および
前記状態または前記プロトコル情報を含む前記対象に関連する出力を生成すること
を含む、コンピュータプログラム製品。
【請求項9】
前記1つまたは複数の決定木における各リーフノードについて、前記リーフノード固有点を決定することが、
テキスト抽出を使用して前記リーフノード固有の軌跡を第1のリーフノード固有データセットに変換すること、
前記第1のリーフノード固有データセットをリーフノード固有の組のキー値ペアに変換すること、および
前記リーフノード固有点を同定するために、第2のリーフノード固有の組のキー値ペアを投影すること、
を含む、請求項8に記載のコンピュータプログラム製品。
【請求項10】
前記類似度スコアを判定することが、コサイン類似度関数を適用することを含む、請求項8に記載のコンピュータプログラム製品。
【請求項11】
前記動作のセットが、
用語セットの各用語について、前記1つまたは複数の決定木内のリーフノードに関連付けられたリーフノード固有の軌跡にわたって前記用語が発生する頻度を示す逆軌跡頻度を判定すること、および
前記用語セットの各用語について、前記リーフノード固有の軌跡の各々で前記用語が発生する頻度を示す用語頻度を判定すること、をさらに含み、
前記第2の組のキー値ペアの値は、前記判定された逆軌跡頻度および前記用語頻度に基づいて定められる、請求項8に記載のコンピュータプログラム製品。
【請求項12】
前記出力が、前記不完全なサブセット内の各ノードについて、前記リーフノード固有の軌跡内の決定ノードによって表されるクエリをさらに含む、請求項8に記載のコンピュータプログラム製品。
【請求項13】
前記出力が、前記対象の潜在的な処置を同定するプロトコル情報を含む、請求項8に記載のコンピュータプログラム製品。
【請求項14】
前記構造化データセットが、前記第1の組のキー値ペアの各々について、初期タイムスタンプを含み、前記第1の組のキー値ペアを第2の組のキー値ペアに変換することは、
前記第1の組のキー値ペアのうちの特定のキー値ペアをインデックス付けイベントとして分類すること、
前記第1の組のキー値ペアの各キー値ペアについて、前記キー値ペアと関連付けられた前記初期タイムスタンプおよび前記特定のキー値ペアと関連付けられた前記初期タイムスタンプを使用して修正タイムスタンプを生成すること、
特定のイベントが別の特定のイベントの発生に対して特定の期間内に発生したかどうかを判定するためのクエリを、前記1つまたは複数の決定木における決定ノードが含むことを検出することであって、前記別の特定のイベントが前記インデックス付けイベントに対応する、検出すること、
前記第1の組のキー値ペアが、前記特定のイベントを表し前記特定の時間範囲内の修正タイムスタンプに関連付けられた第1の特定のキー値ペアを含むかどうかを判定するためにクエリを実行すること、および
前記クエリの結果に基づいて第2の特定のキー値ペアを定めることであって、前記第2の組のキー値ペアが第2のキー値ペアを含む、定めること、
を含む、請求項8に記載のコンピュータプログラム製品。
【請求項15】
1つ以上のデータプロセッサと、
命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令が、前記1つ以上のデータプロセッサで実行されたときに、前記1つ以上のデータプロセッサに、
第1の組のキー値ペアを含む構造化データセットにアクセスすることであって、前記第1の組のキー値ペアの各々が、対象の評価結果またはプロトコル特性を特徴付ける、アクセスすること、
前記第1の組のキー値ペアを第2の組のキー値ペアに変換することであって、前記第2の組のキー値ペアにおける少なくともいくつかのキーが、前記第1の組のキー値ペアにおける各キーとは異なる、変換すること、
多次元空間内の対象固有点を同定するために前記第2の組のキー値ペアを投影すること、
複数の決定ノードおよび複数のリーフノードを含む1つまたは複数の決定木にアクセスすることであって、前記複数リーフノードの各々は、リーフノード固有の軌跡を介してルートノードに接続され、前記複数の決定ノードの各々は、前記第2の組のキー値ペアにおける少なくとも1つの値に基づく基準に対応する、アクセスすること、
前記1つまたは複数の決定木内の各リーフノードについて、前記リーフノード固有の軌跡に基づいて前記多次元空間内の前記リーフノード固有点を決定すること、
前記1つまたは複数の決定木内の各リーフノードについて、前記リーフノード固有点および前記対象固有点に基づいて類似度スコアを判定すること、
前記類似度スコアに基づいて不完全なサブセットの前記複数リーフノードを同定すること、
前記不完全なサブセット内の各リーフノードに関連付けられた状態またはプロトコル情報を取得すること、および
前記状態または前記プロトコル情報を含む前記対象に関連する出力を生成すること
を含む動作のセットを実行させる、非一時的コンピュータ可読記憶媒体と、
を含む、システム。
【請求項16】
前記1つまたは複数の決定木における各リーフノードについて、前記リーフノード固有点を決定することが、
テキスト抽出を使用して前記リーフノード固有の軌跡を第1のリーフノード固有データセットに変換すること、
前記第1のリーフノード固有データセットをリーフノード固有の組のキー値ペアに変換すること、および
前記リーフノード固有点を同定するために、第2のリーフノード固有の組のキー値ペアを投影すること、
を含む、請求項15に記載のシステム。
【請求項17】
前記類似度スコアを判定することが、コサイン類似度関数を適用することを含む、請求項15に記載のシステム。
【請求項18】
前記動作のセットが、
用語セットの各用語について、前記1つまたは複数の決定木内のリーフノードに関連付けられたリーフノード固有の軌跡にわたって前記用語が発生する頻度を示す逆軌跡頻度を判定すること、および
前記用語セットの各用語について、前記リーフノード固有の軌跡の各々で前記用語が発生する頻度を示す用語頻度を判定すること、をさらに含み、
前記第2の組のキー値ペアの値は、前記判定された逆軌跡頻度および前記用語頻度に基づいて定められる、請求項15に記載のシステム。
【請求項19】
前記出力が、前記不完全なサブセット内の各ノードについて、前記リーフノード固有の軌跡内の決定ノードによって表されるクエリをさらに含む、請求項15に記載のシステム。
【請求項20】
前記出力が、前記対象の潜在的な処置を同定するプロトコル情報を含む、請求項15に記載のシステム。
【請求項21】
前記構造化データセットが、前記第1の組のキー値ペアの各々について、初期タイムスタンプを含み、前記第1の組のキー値ペアを第2の組のキー値ペアに変換することが、
前記第1の組のキー値ペアのうちの特定のキー値ペアをインデックス付けイベントとして分類すること、
前記第1の組のキー値ペアの各キー値ペアについて、前記キー値ペアと関連付けられた前記初期タイムスタンプおよび前記特定のキー値ペアと関連付けられた前記初期タイムスタンプを使用して修正タイムスタンプを生成すること、
特定のイベントが別の特定のイベントの発生に対して特定の期間内に発生したかどうかを判定するためのクエリを、前記1つまたは複数の決定木における決定ノードが含むことを検出することであって、前記別の特定のイベントが前記インデックス付けイベントに対応する、検出すること、
前記第1の組のキー値ペアが、前記特定のイベントを表し前記特定の時間範囲内の修正タイムスタンプに関連付けられた第1の特定のキー値ペアを含むかどうかを判定するためにクエリを実行すること、および
前記クエリの結果に基づいて第2の特定のキー値ペアを定めることであって、前記第2の組のキー値ペアが第2のキー値ペアを含む、定めること、
を含む、請求項15に記載のシステム。
【請求項22】
1つ以上のデータプロセッサに、動作のセットを実行させるように構成された命令を含む、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品であって、前記動作のセットが、
第1の組のキー値ペアを含む構造化データセットにアクセスすることであって、前記第1の組のキー値ペアの各々が、対象の評価結果またはプロトコル特性を特徴付ける、アクセスすること、
前記第1の組のキー値ペアを第2の組のキー値ペアに変換することであって、前記第2の組のキー値ペアにおける少なくともいくつかのキーが、前記第1の組のキー値ペアにおける各キーとは異なる、変換すること、
多次元空間内の対象固有点を同定するために前記第2の組のキー値ペアを投影すること、
複数の決定ノードおよび複数のリーフノードを含む1つまたは複数の決定木にアクセスすることであって、前記複数のリーフノードの各々は、リーフノード固有の軌跡を介してルートノードに接続され、前記複数の決定ノードの各々は、前記第2の組のキー値ペアにおける少なくとも1つの値に基づく基準に対応する、アクセスすること、
前記1つまたは複数の決定木内の各リーフノードについて、前記リーフノード固有の軌跡に基づいて前記多次元空間内の前記リーフノード固有点を決定すること、
前記1つまたは複数の決定木内の各リーフノードについて、前記リーフノード固有点および前記対象固有点に基づいて類似度スコアを判定すること、
前記類似度スコアに基づいて不完全なサブセットの前記複数のリーフノードを同定すること、
前記不完全なサブセット内の各リーフノードに関連付けられた状態またはプロトコル情報を取得すること、および
前記状態または前記プロトコル情報を含む前記対象に関連する出力を生成すること
を含む、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年12月3日に出願された米国仮特許出願第63/285,685号の優先権および利益を主張するものであり、その全体があらゆる目的のために参照により本明細書に組み込まれる。
【背景技術】
【0002】
特定の問題に対処するために、またはその後の望ましくない結果を回避または延期しようとするために、プロトコルが頻繁に使用されている。しかしながら、プロトコルが有効である可能性が現在の状態およびイベント履歴に依存していることが多々あるため、特定のユースケースのためのプロトコルを選択することは困難であり得る。
【0003】
例えば、セキュリティの脅威からコンピューティングシステムを保護するためにプロトコルが使用されると仮定する。所与のプロトコルの有効性は、コンピューティングシステムに記憶されているデータのタイプ、コンピューティングシステムが接続されているネットワークのタイプ、コンピューティングシステムが以前に認可なしにアクセスされたかどうかなどに依存し得る。別の例として、プロトコルが特定のヒト対象の疾患の進行を阻害するために使用されると仮定する。所与のプロトコルの有効性は、対象がどの疾患サブタイプを有するか、疾患の進行の現在のレベル、および対象の人口統計に依存し得る。
【0004】
さらに、プロトコルを選択することは、異なる状態の組み合わせおよび異なる先行イベントの組み合わせを組み合わせて考慮することを含むことが多い。その後、様々な意思決定者が様々なプロトコル選択に到達し得る。
【0005】
さらにまた、プロトコルの選択を知らせるために、様々な場合に様々なタイプおよび量のデータが入手可能な場合がある。したがって、可変のサイズおよびタイプの入力データを有用な出力に確実に変換することができる技術を同定することは特に困難であり得る。
【0006】
いくつかの産業では、プロトコルの選択にわたるノイズおよび変動性を除去し、一貫した解釈可能なプロトコル選択を容易にするために、ガイドラインが使用されている。しかしながら、いくつかのガイドライン(例えば、臨床診療ガイドライン)は、特に複雑であり(例えば、印刷されると、何百もの相互参照のページに及ぶプロトコル要素を含む)、および/または新しい情報が入手可能になると頻繁に変更される。したがって、人間の意思決定者がガイドラインを効率的にナビゲートすることは困難であり得、また、頻繁な変更により、ソフトウェアを介して実装することが高額になる可能性がある。例えば、上流での考慮または決定の変更は、一部またはすべての下流での決定の各々がどのように行われるべきかに影響を及ぼし得る。(コンピューティングシステムまたは対象の年齢が1または2つの年齢群にあるかどうかを特徴付けることから、年齢が1または4つの年齢群にあるかどうかにということに考慮が変更される場合を考える。その時、4つの年齢群すべてを、元の2つの年齢群のものと比較して、異なる後続の考慮事項に関連付けることができる)複雑さおよび頻繁な変更により、ガイドラインがあまり使用されなくなる可能性がある。
【0007】
したがって、プロトコルのより効率的で一貫した選択を容易にする技術を同定して使用することが有利であろう。
【発明の概要】
【0008】
変換および投影を使用して状態または有効なプロトコルを予測するためのコンピュータ実装方法が提供される。第1の組のキー値ペアを含む構造化データセットがアクセスされる。第1の組のキー値ペアの各々は、対象の評価結果またはプロトコル特性を特徴付ける。第1の組のキー値ペアは、第2の組のキー値ペアに変換され、第2の組のキー値ペアの少なくともいくつかのキーは、第1の組のキー値ペアの各キーとは異なる。第2の組のキー値ペアは、多次元空間内の対象固有点を同定するために投影される。複数の決定ノードおよび複数のリーフノードを含む1つまたは複数の決定木がアクセスされる。複数のリーフノードの各々は、リーフノード固有の軌跡を介してルートノードに接続される。複数の決定ノードの各々は、第2の組のキー値ペアにおける少なくとも1つの値に基づく基準に対応する。1つまたは複数の決定木内の各リーフノードについて、多次元空間内のリーフノード固有点が、リーフノード固有の軌跡に基づいて判定される。1つまたは複数の決定木内の各リーフノードについて、リーフノード固有点および対象固有点に基づいて類似度スコアが判定される。複数の不完全なサブセットのリーフノードは、類似度スコアに基づいて同定される。不完全なサブセット内の各リーフノードに関連付けられた状態情報またはプロトコル情報が取得される。状態またはプロトコル情報を含む対象に関連付けられた出力が生成される。
【0009】
1つまたは複数の決定木における各リーフノードについて、リーフノード固有点を決定することは、テキスト抽出を使用してリーフノード固有の軌跡を第1のリーフノード固有データセットに変換すること、第1のリーフノード固有データセットをリーフノード固有の組のキー値ペアに変換すること、およびリーフノード固有点を同定するために、第2のリーフノード固有の組のキー値ペアを投影すること、を含むことができる。
【0010】
類似度スコアを判定することは、コサイン類似度関数を適用することを含むことができる。
【0011】
方法は、用語セットの各用語について、1つまたは複数の決定木内のリーフノードに関連付けられたリーフノード固有の軌跡にわたって用語が発生する頻度示す逆軌跡頻度を判定すること、および/またはリーフノード固有の軌跡の各々で用語が発生する頻度を示す用語頻度を判定すること、をさらに含み得、第2の組のキー値ペアの値は、判定された逆軌跡頻度および/または用語頻度に基づいて定められる。
【0012】
出力は、不完全なサブセット内の各ノードについて、リーフノード固有の軌跡内の決定ノードによって表されるクエリをさらに含むことができる。
【0013】
出力は、対象の潜在的な処置を同定するプロトコル情報を含むことができる。
【0014】
構造化データセットは、第1の組のキー値ペアの各々について、初期タイムスタンプを含み得、第1の組のキー値ペアを第2の組のキー値ペアに変換することは、第1の組のキー値ペアのうちの特定のキー値ペアをインデックス付けイベントとして分類すること、第1の組のキー値ペアの各キー値ペアについて、キー値ペアと関連付けられた初期タイムスタンプおよび特定のキー値ペアと関連付けられた初期タイムスタンプを使用して修正タイムスタンプを生成すること、特定のイベントが別の特定のイベントの発生に対して特定の期間内に発生したかどうかを判定するためのクエリを、1つまたは複数の決定木における決定ノードが含むことを検出することであって、別の特定のイベントがインデックス付けイベントに対応する、検出すること、第1の組のキー値ペアが、特定のイベントを表し、特定の時間範囲内の修正タイムスタンプに関連付けられた第1の特定のキー値ペアを含むかどうかを判定するためにクエリを実行すること、およびクエリの結果に基づいて第2の特定のキー値ペアを定めることであって、第2の組のキー値ペアが第2のキー値ペアを含む、定めること、を含むことができる。
【0015】
本開示のいくつかの実施形態は、1つまたは複数のデータプロセッサを含むシステムを含む。いくつかの実施形態において、本システムは、命令を含む非一時的コンピュータ可読記憶媒体であって、これらの命令が、1つ以上のデータプロセッサ上で実行されるときに、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部または全部ならびに/あるいは1つ以上のプロセスの一部または全部を実行させる、非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品であって、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部または全部ならびに/あるいは1つ以上のプロセスの一部または全部を実行させるように構成された命令を含む、コンピュータプログラム製品を含む。
【0016】
採用された用語および表現は、説明の用語として使用されたものであり、限定を意味するものではなく、このような用語および表現の使用には、示され、説明された特徴またはその一部の等価物を排除する意図はないが、特許請求された発明の範囲内で様々な変更が可能であることが認識される。したがって、特許請求の範囲に記載された本発明は、実施形態および任意の特徴によって具体的に開示されているが、本明細書に開示された概念の変更および変形を当業者であれば行ってよく、そのような変更および変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあるとみなされることを理解されたい。
【図面の簡単な説明】
【0017】
本開示は、以下の添付の図面と併せて説明される。
【0018】
【
図1】本発明のいくつかの実施形態による、より効率的な処理および更新を容易にするために決定木を変換し、変換された決定木を使用するためのコンピューティングネットワーク100を示す。
【0019】
【
図2】本発明のいくつかの実施形態による、予測された状態またはプロトコル情報を同定するために多次元空間を生成および使用することによって決定木およびデータセットを変換するための例示的なプロセスを示す。
【0020】
【0021】
【
図4】対象の例示的な構造化されていないデータセットの対応する部分を示す。
【0022】
【
図5A】例示的な対象データ(例えば、構造化された対象データを生成するために使用される)において入手可能なデータに対応する変数と、例示的な決定木における決定ノード内で同定されるクエリに関連する変数との間の例示的な並列関係を示す。
【
図5B】例示的な対象データ(例えば、構造化された対象データを生成するために使用される)において入手可能なデータに対応する変数と、例示的な決定木における決定ノード内で同定されるクエリに関連する変数との間の例示的な並列関係を示す。
【
図5C】例示的な対象データ(例えば、構造化された対象データを生成するために使用される)において入手可能なデータに対応する変数と、例示的な決定木における決定ノード内で同定されるクエリに関連する変数との間の例示的な並列関係を示す。
【0023】
【
図6A】2つの原理ページを参照する(リンクする)決定木におけるノードを示す。
【0024】
【
図6B】構造化データセットに対応する情報と、決定木への変換されたナビゲーションに関するマッピングされた情報とを示す。
【0025】
【
図6C】2つの例示的な決定木経路における基準を示す。
【0026】
【
図7】多次元空間における投影を使用して生成された結果の精度を特徴付ける例示的なパフォーマンスメトリックを示す。
【0027】
添付の図面において、同様の構成要素および/または特徴は、同じ参照ラベルを有することができる。さらに、同じタイプの様々な構成要素は、参照ラベルの後に同様の構成要素を区別するダッシュおよび第2のラベルを続けることによって区別され得る。本明細書において第1の参照ラベルのみが使用される場合、説明は、第2の参照ラベルに関係なく、同じ第1の参照ラベルを有する同様の構成要素のいずれか1つに適用可能である。
【発明を実施するための形態】
【0028】
I.概要
いくつかの実施形態では、ガイドラインのセットの決定木は、決定木内の異なる軌跡を区別する用語を検出することによって変換される。次いで、決定木内の各軌跡および/またはリーフノードを多次元空間内の点として表すことができ、異なる次元は異なる用語(例えば、キー値ペア、キー値ペアからのキー、条件、または1つもしくは複数の条件を評価した潜在的な結果を含み得る)に対応し、各次元の値は、用語が対応する軌跡に存在する頻度を示す。ユースケース固有データセット(例えば、個々の対象またはシステムに対応する)は、キー値ペアのセットを含むことができ、これらのペアは、多次元空間内のユースケース固有点にマッピングするように変換することができる。さらに、決定木の各リーフノード(決定の潜在的な結果を表すノードを含むことができるが、軌跡の終端を必ずしも表さない)が、多次元空間に投影され得る。ユースケース固有点とリーフノードに関連付けられた各点との間の距離を判定することができ、最短距離に関連付けられたリーフノードにユースケースを割り当てることができる。次いで、リーフノードに対応する情報を取得して出力することができる。
【0029】
したがって、この手法は、決定木におけるクエリの反復的かつ時間のかかる処理を回避する。変換技術はさらに、欠損値を有するデータセットの取り扱いを容易にする。欠損値に起因して決定ノードで「スタック」されるのではなく、適用可能な対応するクエリは、本質的に無視されるか、または代替案において考慮され得る。さらに、決定木をナビゲートする反復手法を回避することによって、所与のユースケースのリーフノードを同定するように定義されたコードは、一連のネストされた条件付き文をアンラップする必要なしに、決定木の変化の検出に応答して容易に更新することができる。
II.決定木の並列処理のための例示的なシステム
【0030】
図1は、より効率的な処理および更新を容易にするために決定木を変換し、変換された決定木を使用するための例示的なネットワーク100を示す。ネットワーク100は、コンピューティングシステム(例えば、クラウドコンピューティングシステム、サーバ、1つまたは複数のコンピュータなどである)を含むことができる決定木処理システム105を含む。決定木処理システム105は、1つまたは複数の決定木115にアクセスする決定木モニタ110を含む。決定木モニタ110は、(例えば)決定木110を含むウェブページからデータをスクラップすること、決定木を含むファイルをダウンロードすること、または別のコンピューティングシステムから(決定木115を含む)電子メッセージを受信することによって、決定木110にアクセスすることができる。
【0031】
決定木115は、決定ノードのセットおよびリーフノードのセットを含む。各決定ノードはクエリを含む。各リーフノードは、特定のプロトコルまたは特定の予測状態を表す。例えば、リーフノードは、コンピューティングシステムにおける予測された現在のセキュリティリスクまたは対象の病状の予測された状態を表すことができる。別の例として、リーフノードは、コンピューティングシステムの安全の確保または症状の処置を容易にするために実行され得る1つまたは複数の特定の動作を含むプロトコルを表すことができる。
【0032】
各決定ノードクエリは、ガイドラインにおける予測または推奨に関連する(例えば、通知)変数の値を要求することができる。各決定ノードクエリは、1つもしくは複数の用語および/または1つもしくは複数の対象固有のキー値ペア(例えば、その各々は、所与の用語および特定であるが関連する値に対応することができる)の評価を含むことができる。評価は、1つまたは複数の基準のそれぞれ、どれ、またはいずれかが満たされているかを判定することを含むことができる。
【0033】
場合によっては、所与の決定木115内のリーフノードは、互いに対して一意であるが、複数の軌道がルートノードを所与のリーフノードに接続することができる。例えば、各リーフノードは、異なる推奨プロトコル(例えば、処置)を同定する情報に関連付けられ得るが、所与のリーフノードは、複数の一連の潜在的なクエリ応答を介してルートノードに接続され得る。場合によっては、決定木内の各リーフノードは、各リーフノードがクエリ応答の特定のセットに対応するように、ただ1つの軌跡を介してルートノードに接続される。この場合、少なくとも一部のリーフノードが、同一の情報に対応付けられていてもよい(例えば、同じプロトコルの推奨に対応することができる)。
【0034】
テキスト抽出器120は、決定ノード内のクエリを検出するために、決定木115からテキストを抽出する。各一意のリーフノードについて、テキスト抽出器120は、ルートノードとリーフノードとを接続する軌跡に関連付けられたクエリおよび応答を同定する1つまたは複数のテキスト文字列を含むように、リーフノード固有データセット125を定義する。
【0035】
いくつかの単語(または数字または他の文字の列)は、異なるリーフノード固有データセット125間の区別に寄与し得るが、他の単語はそうでなくてもよい。例えば、すべてのリーフノード固有データセット125は、「the」という単語の多くの使用を含むことができ、これは、「the」という単語の検出が、どのリーフノード固有データセット125が評価されているかに関する情報を提供しないことを意味する。一方、特定の第四選択処置が以前に投与されたことを示す単語の列を検出することは、どのリーフノード固有データセット125が評価されているかに関する実質的な情報を提供することができる。
【0036】
したがって、トークン化コントローラ130は、決定木内の複数のリーフノードに対応するリーフノード固有データセット125をまとめて処理して、様々な用語がデータセットを区別する程度を同定することができる。処理は、各用語および各リーフノード固有データセットについて、用語がデータセットに出現した回数を判定することを含むことができる。この量は、用語頻度を定義するために、リーフノード固有データセットの用語の総数に基づいて正規化され得る(しかし、そうである必要はない)。用語は、単一の単語、複数の単語、(1つまたは複数のスペースを含む、または1つまたは複数のスペースを欠く)テキスト文字列などを含むことができる。トークン化コントローラ130は、長いテキストを単語および句に分解するように構成することができる。処理は、各用語について、その用語が出現した異なるリーフノード固有データセットの数位内であることに基づく逆文書頻度を判定することをさらに含むことができる。逆文書頻度は、その用語が出現したリーフノード固有データセットの数で割ったリーフノード固有データセットの総数の対数として定義され得る。ベクトル化コントローラ(図示せず)は、用語頻度および逆文書頻度に基づいて、各用語-軌跡ペアに対する暫定スコアを生成することができる。例えば、暫定スコアは、リーフノード固有データセット125の用語頻度と逆文書頻度との積であってもよい。スコアは、(例えば)用語に関連する暫定スコアの最大値として(軌跡間で)各用語についてさらに定義されてもよい。場合によっては、ベクトル化コントローラ(図示せず)は、用語スコアを各用語に割り当てるために用語頻度-逆文書頻度技術を使用する。
【0037】
場合によっては、教師あり学習を使用して、軌跡が決定ノードからどのリーフノードに接続するかに関する予測をサポートする用語の同定を容易にする。例えば、レコードに基づく決定ノードの評価が、決定ノードから所与の次のノードへの移動をもたらすことを示すために、レコードのセットに(例えば、ヒトによって、またはコードを使用することによって)ラベルを付けることができる。例示すると、レコードのセットは、1つまたは複数のCTスキャンを特徴付けるレポートを含むことができ、ラベルは、腫瘍の数が所定の閾値を超えたかどうかにかかわらず、決定木(例えば、推奨される後続のアクションに対応するノードで終了する)の部分的または完全な軌跡を示すことができる。ラベルは、人間のレビューワによって手動で同定されてもよいし、コンピュータによって支援されてもよい。様々な技法(例えば、教師あり学習)を使用して、ラベル予測を反復的に改善することができる。ラベルは、所与の現在の進行が癌のどの段階に対応するか(例えば、決定ノードからの様々な分岐が進行の異なる段階に対応する場合)、または所与の疾患が特定の期間に進行した程度を報告が示すかどうかを示すことができる。次いで、機械学習モデル(例えば、自然言語モデル)は、様々なレポートおよびラベルを使用して、決定ノードの決定をどのように評価するかに関して有益な1つまたは複数の選択機能、トークン、および/またはキー値ペアを同定することができる。
【0038】
決定木が特に大きい場合、完全に監督された学習をサポートするのに十分なラベルを取得することが困難な場合がある。このデータの問題は、個々の決定ノードに対応する軌跡方向が不均衡であり得るという事実によって増幅される。例示すると、所与の決定ノードは、別の方向に進む0.01%と比較して、ある方向に進むインスタンスの99.99%に対応することができる。モデルがバイアスされないことを保証するために、他の方向に対応する十分なサンプルを確保すること、および/またはバランス技術を適用することが重要であり得る。
【0039】
決定ノード内のレイヤ全体に複数の不平衡決定ノードが存在する可能性があるため、これが可能な範囲および/またはこの手法のコスト(例えば、時間、リソース、および/または財務コスト)は複雑になる可能性がある。したがって、ラベリング努力に集中することが有利であり得る。焦点は、(例えば)過小表示された軌跡ラベルに優先順位を付けること、および/または1つまたは複数の過小表示された特徴に優先順位を付けることを含むことができる。場合によっては、フォーカスは、1つまたは複数の軌道に関連する1つまたは複数の(例えば)過小表現された特徴に優先順位を付けて、過小表現された中間ノードまたは過小表現されたエッジノードをもたらすことを含み得る。例えば、特徴重要度技術を適用して、様々な決定ノードが軌跡出力(例えば、基礎となる分岐確率および/またはデータの入手可能性を考慮して)に影響を与える程度、および/または決定ノードについて以前に観察または予測された不均衡を同定することができる。したがって、示されていない経路ラベルに対応するコンテキスト特化ラベルを確保する重要性を予測する優先順位付けを設定することができる。
【0040】
場合によっては、トークンは、決定ノードの進歩にとって重要な学習された特徴に基づいて同定することができる。場合によっては、コンテキスト特化ラベル(例えば、潜在的に他のデータ)に対応するトークンを利用する(例えば)訓練を実施してもよい。これらの予測は、入力データセットから欠落していた値を予測するために、および/または所与のインスタンスに対応する軌跡の部分的または完全な残りの部分を予測するために使用され得る。
【0041】
トークン化コントローラ130は、所定の閾値(例えば、絶対閾値または相対閾値)を超えるかまたは満たす用語スコアを割り当てられた各用語に対してキーを定義することができる。各リーフノードについて、トークン化コントローラ130は、その後、定義された各キーを含み、または表し、かつ(各キーについて)対応するリーフノード固有データセットにおいてキーが検出されたか否かを示す対応する値を含む、リーフノード固有のキー値ペア135のセットを定義することができる。キーまたはトークンに対応する「値」は、(例えば)特定のカテゴリ、特定の数値、特定の範囲内の値、カテゴリの特定のグループ内のカテゴリ、または所与の条件を満たす値を含むことができることが理解されよう(条件は、別のキーまたは変数に対応する値に潜在的にさらに依存し得る)。トークン化コントローラ130は、決定木経路内の(または対象データの)各テキスト文字列をトークンに分解する(例えば、1つの単語、2つの単語などを含むことができるnグラム)。キー値ペアの値は、リーフノードに関連するテキストでキーが検出された回数または頻度(複数の用語にわたって)を同定するために定義され得る。キーは、1つまたは複数の単語、数字、記号などのいずれかに対応し得ることが理解されよう。例えば、キー値のペアは、先週以内に収集された対象のスキャンで検出された病変の数が、2~3週間前に同じ対象をイメージングすることによって得られたスキャンで検出された病変の数の70%~90%であることを示すことができる。したがって(例えば)、トークンは、教師ありまたは教師なし学習に基づいて同定することができ、トークンは、1つまたは複数の特定の変数、およびトークンが関係する1つまたは複数の条件(例えば、1つまたは複数の閾値または一致を含む)を同定することができる。キーは、所与の決定ノードの関心のある変数が病変の相対数に関連することを同定することができ、値は、病変の正確な相対数(または病変の正確な相対数が入る所与の範囲)を同定することができる。
【0042】
ベクトル化コントローラ(図示せず)は、多次元空間内のリーフノード固有点145として、リーフノード固有のキー値ペア135のセットの各々に値のセットを格納することができ、一次元は異なる決定木軌跡を表し、別の次元は異なるキーを表す。キーは、リーフノード固有データセット125のサブセットのみにあった用語を選択することを優先することによって定義されている場合があるので、リーフノード固有点145は、多次元空間内の各々から分離され得る。場合によっては、リーフノード固有点145は、リーフノード固有のキー値ペア135のセットの値のスケーリングされたバージョンを含むように定義され、各値に適用されるスケーリング係数は、対応するキーに関連付けられた用語スコア(例えば、正の相関がある)に基づく。場合によっては、リーフノード固有点145は、範囲またはカテゴリに対応するかまたはそれを表す少なくとも1つの値を含むことができる。この場合、リーフノード固有点145は、多次元空間内の領域、体積、または部分空間に対応することができる。
【0043】
ユーザデバイス150は、決定木処理システム105に通信を送信して、特定のユースケースについて1つまたは複数のリーフノードおよび/または1つまたは複数のリーフノードに関連する情報が同定されることを要求することができる。例えば、要求は、対象の現在または最近の時点に関連付けられた任意のリーフノード、または対象の所定の閾値を超える発生確率に関連付けられた任意のリーフノード(例えば、所与の期間の中または所与の将来の時点において)を同定する要求に対応することができる。特定のユースケースは、特定の時点における特定の対象に対応することができる。例えば、各リーフノードが特定の処置プロトコルを同定する情報に関連付けられている場合、ユーザデバイス150は、現時点で所与の対象に対する上位5つの処置推奨の同定を要求することができる。
【0044】
要求は、ユースケース固有の構造化データセット155を含んでもよいし、ユースケース固有の構造化データセット155にアクセスする方法に関する情報を含んでもよい。ユースケース固有の構造化データセット155は、特定のユースケース(例えば、特定の対象)に対応するキー値ペアのセットを含むことができる。ユースケース固有の構造化データセット155は、1つ以上のログメッセージを含み得る(例えば、キー値ペアを含み得る)。ユースケース固有の構造化データセット155は、(例えば)対象の人口統計、過去の診断、いずれかの現在の診断、最近の症状、検査結果、イメージングの結果、バイタルサイン、専門家の査定、入院などを伝達するタイムスタンプ付きの順次順序付けられたキー値ペア(例えば、1つまたは複数のログメッセージにおいて)を含む電子健康記録の一部または全部を含むことができる。ユースケース固有の構造化データセット155の1つ、複数、またはすべてのキーのそれぞれについて、キーは潜在的にリーフノード固有のキー値ペア135に存在しない。
【0045】
ユースケース固有の構造化データセット155内のデータは、最初に複数のソースから提供されていてもよい。データアグリゲータ160は、これらのソースからデータを収集し、データを構造化することができる(例えば、事前定義されたキーを使用する)。
【0046】
決定木処理システム105のインターフェースコントローラ165は、ユーザデバイス150およびユースケース固有の構造化データセット155から要求を受信することができる。次いで、トークン化コントローラ130は、ユースケース固有の構造化データセット155を、リーフノード固有のキー値ペア135で使用されるものと同じキーを含むユースケース固有のキー値ペア170に変換することができる。ユースケース固有の構造化データセット155は既にキー値ペアを含むことができるため、特定の用語の検索は、所与のデータセットが決定木115を使用して定義された所与のキーに関する情報を含むかどうかを検出するには不十分であり得る。むしろ、マッピングおよび/またはルックアップテーブルを使用して、トークン化コントローラ130によって定義された各キーについて、ユースケース固有の構造化データセット155を使用して対応する値をどのように判定するかを判定することができる。場合によっては、マッピングは、マッピングされたキーが同一であるか、同じタイプまたは非常に類似したタイプのデータを表す1対1のマッピングであってもよい。場合によっては、マッピングは、トークン化コントローラ130によって定義された単一のキーを、ユースケース固有の構造化データセット155の複数のキーに関連付ける。例えば、「悪性リンパ腫」というキーは((ホジキンリンパ腫:YES)OR(「非ホジキンリンパ腫:YES)AND(悪性:YES))にマッピングされ、それによってユースケース固有の構造化データセット155内の3つのキーに関連し得る。トークンが同定された後、マッピングを同定するために、トークン化コントローラ130は、変換ルックアップテーブルを使用して、トークン化コントローラ130によって定義されたキーを、ユースケース固有の構造化データセット155内の1つまたは複数のキーと関連付け、対応する値を変換するために使用されるべき任意の論理および/または数学を同定することができる。
【0047】
場合によっては、マッピングは、ユースケース固有の構造化データセット155内のタイムスタンプの評価に関する。タイムスタンプを評価することは、インデックスの日付(例えば、特定の診断が行われた日付として)を定義すること、インデックスの日付に対応するように他のタイムスタンプを修正することを含むことができる。次に、診断日に対応するある期間に所与のイベントが発生したかどうかを表すものとしてキーが定義されている場合(例えば、所与の処置が受けられたか、または疾患の所与のステージに到達したか)、トークン化コントローラ130は、ユースケース固有の構造化データセット155が、その期間の持続時間よりも短い修正されたタイムスタンプに関連付けられたイベントに対応するコードを同定するログメッセージを含むかどうかを判定することができる。
【0048】
投影コントローラ140は、ユースノード固有のキー値ペア170の値の組を、多次元空間におけるユースケース固有点175として記憶することができる。場合によっては、値は、ユースケース固有点175とリーフノード固有点との間の距離に基づいてスケーリングされる。
【0049】
類似度スコアは、点間の距離に基づいてもよく、および/または点間の距離と負の相関があってもよい。例えば、類似度スコアは、距離の逆数、距離の負、または距離を引いた定数であってもよい。
【0050】
場合によっては、類似度スコアおよび/または距離は、コサイン類似度スコア、相関、または別の比較メトリックを使用して生成される。
【0051】
類似度スコアコントローラ180は、類似度スコアを使用して、要求に対して不完全なサブセットのリーフノードを選択することができる。不完全なサブセットは、決定木115内の他のリーフノードに対して最も高い類似度スコアに関連付けられたリーフノードに対応することができる。不完全なサブセットは、絶対または相対類似度スコアの閾値を超える類似度スコアに対応するリーフノードとして定義することができる。例えば、不完全なサブセットは、n個の最高の類似度スコアに対応するリーフノードを含むことができる(nはユーザによって事前定義または指定される)。
【0052】
決定木モニタ110は、サブセット内の各リーフノードに対応する情報を取り出すことができる。情報は、(例えば)リーフノードの名前、リーフノードのメタデータ、および/またはリーフノード表現で引用されたコンテンツ(例えば、リーフノードリンクファイルまたは文書からのコンテンツ)を含むことができる。情報は、実施するための予測された現在の状態(例えば、疾患の予測される段階、または悪意のある脅威に対する予測されるセキュリティレベル)または推奨プロトコル(例えば、処置計画またはセキュリティ強化)を含むことができる。例えば、プロトコルは、組成物または活性薬剤投与量、および/またはスケジュール(組成物または活性薬剤がいつ投与されるかを示す)を同定することができる。
【0053】
インターフェースコントローラ165は、リーフノードのサブセット(またはその処理されたバージョン)について検索された情報をユーザデバイス150に送信することができる。インターフェースコントローラ165は、軌道のサブセットの各々に関連付けられたキー値ペアをさらに同定することができる。したがって、ユーザは、どのキー値ペアが所与の予測状態または所与のプロトコルの同定をもたらしたかを同定することができる。同定は、リーフノード固有のキー値ペアを同定することができ、また、ユースケース固有のキー値ペア170内のそのようなペアにおける任意の逸脱を同定することもできる。したがって、ユーザのキー値ペアが軌跡の各キー値ペアと一致しない場合でも、任意の軌跡の逸脱を伝達することができる。さらに、この自動化は、非反復的な処理を容易にし、非反復的な処理は、決定ノードをトラバースするための従来の技術よりもかなりの時間を節約し、複雑な決定木(例えば、不明確な決定を解決する)を経ることを試みる人間よりも膨大な時間を節約する。
III.決定木の並列処理のための例示的なシステム
【0054】
図2は、本発明のいくつかの実施形態による、予測された状態またはプロトコル情報を同定するために多次元空間を生成および使用することによって決定木およびデータセットを変換するための例示的なプロセスを示す。
【0055】
ブロック202において、インターフェースコントローラ165は、第1の組のキー値ペアを含む構造化データセットにアクセスする。構造化データセットは、特定の構造(例えば、所定の組のキーからのキーを含み、特定の順序で存在するキー値ペアを有し、および/またはログファイル内にある)に対応することができる。構造化データセットは、ユースケース固有の構造化データセットとすることができる。
【0056】
ブロック204において、トークン化コントローラ130は、第1の組のキー値ペアを第2の組のキー値ペアに変換する。第2の組のキー値ペアの少なくともいくつかのキーの各々は、第1の組のキー値ペアの任意のキーと異なっていてもよい。変換は、(例えば)第1の組のキー値ペアの中の単一の対応する値を同定することによって、第2の組のキー値ペアのうちの所与の第2のキー値ペアを判定すること、第1の組のキー値ペアにおける複数の値を使用して計算を実行すること、または、第1の組のキー値ペアの単一の対応する値の変換を実行すること(例えば、数値を範囲またはその逆にマッピングし、値の負を同定し、単位を変換するなど)を含むことができる。
【0057】
第2の組のキー値ペアのキーは、トークン化コントローラ130によって、単独でまたは組み合わせて、1つまたは複数の決定木における異なる軌跡を区別する際に有益である変数を含むように同定される場合がある。第2の組のキー値ペアのスコアは、不完全なサブセットのリーフ-ノッド軌跡にある頻度が、他のものよりも、著しく高次であると表現される用語を強調表示するように、TF-IDFを使用することによって、選択されている可能性がある。
【0058】
ブロック206において、投影コントローラ140は、多次元空間内の対象固有点を同定するために第2の組のキー値ペアを投影する。例えば、対象固有点は、第2の組のキー値ペアの値の一部または全部を含むことができる。別の例として、第2の組のキー値ペア内の値の1つ、複数、またはすべてのそれぞれをスケーリング(例えば、対応するキーに関連付けられたTF-IDF値に基づいて)することができ、対象固有点は、スケーリングされた値を含むことができる。
【0059】
ブロック208において、決定木モニタ110は、1つまたは複数の決定木にアクセスする。1つまたは複数の決定木の各々は、決定ノードのセットおよびリーフノードのセットを含む。決定木は、1つまたは複数のガイドライン(例えば、特定の対象をどのように診断または処置するかに関して)に対応することができる。
【0060】
ブロック210において、投影コントローラ140は、リーフノードのセット内の各リーフノードについて、多次元空間内のリーフノード固有点を決定する。例えば、決定木からのテキストを抽出することができ、リーフノード固有キー値ペアのセットを同定することができる。キー値ペアは、トークン化コントローラ130によって、単独でまたは組み合わせて、1つまたは複数の決定木における異なる軌跡を区別する際に有益である変数を含むように同定されるキーを含むことができる。リーフノード固有キー値ペアのキーは、nグラムトークン化を使用して選択されている場合がある。TF-IDFは、所与の用語が他の用語よりも頻度が著しく高く見える程度を示すために、キー値ペアの値を計算するために利用され得る。リーフノード固有キー値ペアのキーの一部または全部は、第2の組のキー値ペアのキーと同じであってもよく、またはそれに対応してもよい。
【0061】
ブロック212において、類似度スコアコントローラ180は、リーフノードの組の各リーフノードについて、対応するリーフノード固有点に基づき、また対象固有の点に基づいて、類似度スコアを決定する。類似度スコアは、所定のスケールに沿った数値であってもよい。類似度スコアは、多次元空間内の対象固有点とリーフノード固有点との間の距離に基づいて決定されてもよく、またはそれらを含んでもよい。追加的または代替的に、類似度スコアは、多次元空間内の対象固有点とリーフノード固有点との間のコサイン類似度スコアに基づいて決定されてもよく、またはそれらを含んでもよい。
【0062】
ブロック214において、類似度スコアコントローラ180は、類似度スコアに基づいて決定木におけるリーフノードの組の不完全なサブセットを同定する。決定木が単一のリーフノードと交差するかまたは単一のリーフノードで終わる複数の軌道を含む場合、不完全なサブセットを同定することは、決定木における軌道の不完全なサブセットを同定することを含むことができる。
【0063】
不完全なサブセットのリーフノードは、1つまたは複数のリーフノードを含むことができる。
【0064】
不完全なサブセットを同定することは、所定のまたはユーザ選択の絶対または相対閾値を超える類似度スコアに関連付けられた各リーフノード(または軌跡)を同定することを含むことができる。例えば、不完全なサブセットは、90%または0.9を超える類似度スコアと関連付けられたリーフノードを含むことができる。別の例として、不完全なサブセットは、リーフノードにわたる上位4つの類似度スコアに関連付けられたリーフノードを含むことができる。
【0065】
ブロック216において、決定木モニタ110は、リーフノードの組のサブセットの各リーフノードに関連する状態情報またはプロトコル情報を取得する。例えば、状態情報は、特定の疾患、疾患ステージ、疾患サブタイプ、疾患進行、所与の処置クラスに対する応答性などを同定することができる。追加または代替の例として、プロトコル情報は推奨処置(例えば、治療)を同定することができる。処置の同定は、特定の有効成分、組成物、投与経路、投与量および/またはスケジュールを同定することができる。情報は、(例えば)決定木のソース、決定木を生成するために使用されたファイルまたは情報のソース、外部ソース、または内部ソースから検索され得る。情報は、(例えば)検索関数を使用して検索され得る。
【0066】
ブロック218において、インターフェースコントローラ165は、対象に関連する出力を生成し、対象は、状態情報もしくはプロトコル情報またはそれらの処理されたバージョンを含む。出力は、サブセット内のリーフノードに至る対応する1つまたは複数の軌跡に関する情報をさらに含むことができる。例えば、所与の軌跡内の各決定ノードについて、出力は、クエリおよび評価された対応する値(または任意の対応する値が評価に入手可能であったかどうか)を同定することができる。
【0067】
次いで、出力をユーザデバイスに送信することができる(例えば、ウェブページまたは電子通信を介して)。
IV.実施例
IV.A.実施例1-構造化された対象データを使用して決定木を評価する例示的な挑戦
【0068】
図3Aおよび
図3Bは決定木の選択部分を示し、
図4は構造化されていない対象のセットの対応する部分を示す。
図3Aにおいて、決定木の現在のトラバースは、特定の遺伝子変異(ALK再編成)が検出されたことを示している。決定木の図示された部分のトラバースにおいて行われるべき第1の決定は、一次全身治療が行われる前にこの突然変異が発見されたか、またはそのような投与中に発見されたかである。再構成が治療前に発見された場合、ツリーのトラバースは決定ノードに進み、どの一次治療がなされたかを同定する。一方、治療中に再構成が発見された場合、ツリーのトラバースは決定ノードに進み、計画された全身治療が完了した後にどの治療がなされたかを同定する。次の決定ノードは、進行が発生したか否かに関するクエリを含む。
【0069】
一次全身治療の前にALK再編成が発見された場合、使用された一次治療は、アレクチニブ、リガチニブ、ロラチニブまたはセルチニブのうちの1つであった。進行が生じると、決定木のトラバースは
図3Bに示す決定木の部分に進む。評価されるべき次のクエリは、対象が無症候性か症候性であるかである。後者の場合、症状が脳の症状であるか全身性であるかを判定すべきである。全身性の場合、次のクエリは、症状を限られた転移または複数の病変として特徴付けることである。
【0070】
図3Aおよび
図3Bに表された決定ノードのクエリに対する応答の少なくともいくつかは、
図4に示された、対象の構造化されていないセットを使用して判定することができるが、自動化された手法を使用してこれらの応答を判定することは困難である。例えば、構造化データセットは縦方向である。縦方向データはまた、変数およびサイズに関して多様であり得る。このような多様なデータを意味のある方法で確実に変換するためのプロトコルを同定することは、特に困難なことがある。さらに、イベントの時間的関係を同定するには、様々なイベントを日付および/または時間的順序情報と整列させるために異なるフィールドから引き出す必要がある。さらに、決定木(例えば、症状が全身症状であるか脳の症状であるか)によって要求されたデータのいくつかは入手可能ではなく、推論されなければならない。さらに、構造化データセットは欠落データ(例えば、バイオマーカー試験日を参照のこと)である。さらに、上述したように、対象データの図示の例は構造化されていない。データを構造化データに変換するためにプロトコルを実装することができるが、どの変数を追跡することが重要であるかを判定しようと試みることは(決定木の複雑さおよび決定木の頻繁な変更を考慮すると)困難であり、欠落データに関する問題および様々なタイプのイベントの相対的なタイミングを判定することに関する難題に対処しない。
【0071】
対象データおよび決定木が異なるキーまたはラベルを参照し得ることを考えると、決定木の構造に依存するクエリを評価することは、対象データの情報を決定木において同定された変数にマッピングする能力に依存し得る。
図5Aは、概念がどのように表現されるかということの間の違いに基づいて、対象データがどのように決定木変数にマップされ得るか、ということの2つの例を示す。例えば、「腺癌、大細胞、NOS」は、「非扁平上皮」と同義である。別の例として、図示の例は、構造化データが、異なる表現であるデータ(例えば、「BRAF」)か、または異なるレベルの精度のデータ(例えば、「BRAFV600E」)をどのように含むことができるかを示している。
【0072】
図5Bは、決定木クエリが、対象データを使用した導出を必要とするか、または対象データを使用してアクセス不可能であり得る時間的シーケンスにどのように関連し得るかの2つの例を示す。例えば、左の表は、一次処置を受けた時間に対する(推定糸球体濾過率を検出するための)バイオマーカー試験が行われた時間に関する決定木クエリを表す。この場合、バイオマーカー試験の日付は、一次処置が開始された日付と同様に、対象データにおいて入手可能であった。主題データは、イベント間の時間差またはイベントが発生した順序の明示的な同定を欠く場合があるが、この情報は、決定木クエリを評価するために重要であり得る。例えば、図示の右の表に示すように、決定木における時間的関係クエリは、「進行」が一次治療またはその後の治療で発生したかどうかに基づくことができる。別の例として、クエリは、特定の化合物「オシメルチニブ」で「進行」が発生したかどうかに基づくことができる。しかしながら、対象データは、進行日「2018-06-30」などの日付を提示し得る。その後、論理および数学変換を実行して、対象データをガイドラインのクエリに対して標準化することができる。さらに別の例として、対象データにおける死亡も進行事象をマークし、死亡日を進行日として扱い、結果として時間的関係を伴って導出することができる。
【0073】
図5Cは、決定木クエリが定量メトリックに関する例を示す。しかしながら、対象データに含まれた試験結果は、決定木で指定された閾値とは異なる値でキャップされた測定値および範囲を含む。さらに、主題データは、カテゴリテスト結果(例えば、不成功/不確定テスト)、および決定木のノードによって評価されるものとは異なる粒度の結果を含む。したがって、クエリを評価するために、決定木で指定された閾値が対象データで同定された範囲にある状況をどのように処理するかを示すために論理を実装する必要がある。
【0074】
図6A~
図6Bの各々は、対象データを決定木におけるクエリに関係する値にマッピングするシナリオを示す。
図6Aは、2つの原理ページ、5のNSCLC-K1および5のNSCLC-K2を参照する(リンクする)決定木におけるノードを示す。2つの原理ページは、キュレートされ、リーフノード固有データセットに供給されたコンテンツを含む。2つの原理ページ(図示せず)は、使用される薬剤プロトコルの情報を含む。ハイパーリンク化されたフレーズ自体が使用された場合、リンクされたページ内の情報は失われる。したがって、5のNSCLC-K1および5のNSCLC-K2を文字通りに扱う代わりに、5のNSCLC-K1および5のNSCLC-K2のページからのテキスト情報を抽出し、決定木の現在のバージョンに付加することができる。このようにして、トークン化コントローラは、さらなるステップのためにこれらの2つのページからの情報をトークン化することができ、したがってより良好な一致を可能にする。
【0075】
図6Bは、構造化データセットに対応する情報と、決定木への変換されたナビゲーションに関するマッピングされた情報とを示す。ここで、決定木で同定されたクエリは、対象が複数の病変を有するかどうかに関する。この情報は、対象データに具体的には存在しないが、対象データが3つの領域(脳、脊髄、および骨)のそれぞれに悪性新生物があることを示すことを所与とすると、対象が複数の病変を有すると推測され得る。決定木で同定される別のクエリは、転移が「限局的」かどうかである。ここでも、対象データが異なる領域で新生物を同定するという事実は、転移が起こったことを示唆している。しかし、ガイドラインに「限局的」は定められていない。したがって、マッピングは、何が「限局的」(例えば、新生物が検出されたいくつかの身体領域の下限閾値を同定することして)として適格であるかを定義してもよい。
【0076】
さらに別の例示的な挑戦として、
図6Cに示すように、腺癌の特定の処置の同定に至る経路におけるキーは、扁平上皮癌(例えば、単一のキーが異なる、すなわち「腺癌」対「扁平上皮」)の特定の処置の同定に至る経路におけるキーと相対頻度が非常に類似している場合がある。したがって、これらの組織学的サブタイプと診断された対象は、トークン化およびベクトル化が2つの経路に無差別に適用される場合、アルゴリズムが2つの経路を混同し得るので、誤った経路に割り当てられ得るかまたは分類され得る。この可能性に対処するために、2つの経路の識別を容易にするために、腺癌経路における腺癌キーにおいて、腺癌経路の重み(相対頻度)を増加させた。
IV.B.実施例2-
【0077】
侵襲的な非小細胞肺癌を有する36,469人の対象のそれぞれについての構造化データセットにアクセスした。対象データには、6つの突然変異のいずれかが対象の55%(n=20,093)で入手可能であり、対象の45%(n=16,365)で入手不可能であったかどうかを示すバイオマーカー試験データが含まれた。
【0078】
各対象について、対象データを、第1の組のキー値ペアを含む構造化された対象データに変換した。次いで、構造化された対象データを第2の組のキー値ペアに変換し、第2の組のキー値ペアのキーは、第1の組のキー値ペアのキーとは異なっていた。第2の組のキー値ペアのキーは、複数の決定木にわたって一貫性なく使用される決定木の用語(決定ノードでクエリを定義するために用語使用される)を同定することによって選択され、それにより、用語の相対頻度(逆軌跡頻度によってスケーリングされた用語頻度)を示すデータがキーの選択を知らせる。具体的には、nグラムトークン化を使用してキーまたはトークンを同定した(例えば、1ワード、2ワード、および3ワードのトークン)。次いで、トークンを多次元空間に投影することにより、構造化データの表現を数値ベクトルに変換することができる。
【0079】
図7は、所与の対象を正しい決定軌跡に一致させるアルゴリズムのパフォーマンスの予備評価を示す。パフォーマンスを表すために2つのメトリックが選択される。第1の精度メトリックは、正しく一致するガイドラインパス内のノードの数に基づく。例えば、対象の真の決定木軌跡が、4つのノードA→B→C→Dからなり、予測はA→F→Dである場合、精度メトリックはAcc=2/3=0.666である。これは、2つの予測ノードが真のパスの中にあり、予測の長さが分母で3として使用されたことを反映している。
【0080】
第2の精度メトリックはレーベンシュタイン距離に基づいており、レーベンシュタイン距離は、対象に適用される真の軌跡を表す1つのシーケンスを、対象に適用される際に投影される軌跡に変更するために必要な単一の編集(挿入、欠失または置換)の最小数である。例えば、対象の真の決定木の軌跡が4つのノードA→B→C→Dで、予測はA→F→Dからなる場合、精度メトリックはAcc=1-3/4=0.25である。これは、投影された軌跡を真の軌跡に変換するために、Fの削除、Bの追加、およびCの追加の少なくとも3つの操作が必要であることを意味する。4は、グラウンドトゥルースの長さを示し、グラウンドトゥルースと使用される投影との間の長い方である。次に、1から分数(3/4)を減算して精度スコアを生成する。
【0081】
図7の精度スコアを導出するために、35人の対象(7つのカテゴリの5人の対象)について軌跡を手動で同定した。カテゴリは、バイオマーカー検査結果に対する対象の分布を反映するように選択された。次に、前述の両方のタイプの精度スコアを計算し、そのカテゴリの5人の対象間で平均して、図示のチャートに示すような数を生成した。
【0082】
ここでの試験事例は一般化可能性を欠いている可能性があるため、スコア自体が既存のアルゴリズムにわたって比較されることを意図しない。しかしながら、スコアは、開発中にアルゴリズムのパフォーマンスを監視することができるように、内部の品質管理目的に有用であり得る。さらに、スコアを評価して、アルゴリズムがどのカテゴリの対象に対して良好または不良に機能するかを推測することができる。
【0083】
図7に示す表の第1のヘッダ行は、第2の組のキー値ペアの選択キーを同定する。これらのキーの各々は、バイオマーカーが検出されたかどうかを示すために「はい」または「いいえ」のラベルと関連付けることができる。2行目の数字は、各バイオマーカーについて、そのカテゴリ内の5人の対象にわたる予測された軌跡の平均カウント精度スコアを同定する。精度スコアは、手動で構築された軌跡が真の軌跡であると仮定することによって計算された。3行目の数字は、(同様に、対応する手動で同定された軌跡との比較に基づいて)そのカテゴリ内の5人の対象にわたる平均レーベンシュタイン精度スコアを同定する。
V.さらなる考察
【0084】
本開示のいくつかの実施形態は、1つまたは複数のデータプロセッサを含むシステムを含む。いくつかの実施形態において、本システムは、命令を含む非一時的コンピュータ可読記憶媒体であって、これらの命令が、1つ以上のデータプロセッサ上で実行されるときに、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部または全部ならびに/あるいは1つ以上のプロセスの一部または全部を実行させる、非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品であって、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部または全部ならびに/あるいは1つ以上のプロセスの一部または全部を実行させるように構成された命令を含む、コンピュータプログラム製品を含む。
【0085】
採用された用語および表現は、説明の用語として使用されたものであり、限定を意味するものではなく、このような用語および表現の使用には、示され、説明された特徴またはその一部の等価物を排除する意図はないが、特許請求された発明の範囲内で様々な変更が可能であることが認識される。よって、特許請求の範囲に記載された本発明は、実施形態および任意の特徴によって具体的に開示されているが、本明細書に開示された概念の変更および変形は、当業者によってあてにされてもよく、そのような変更および変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあると見なされることが理解されるべきである。
【0086】
本明細書は、好ましい例示的実施形態のみを提供し、本開示の範囲、応用性、または構成を限定することは意図されていない。もっと正確に言えば、好ましい例示的実施形態の記載は、当業者に、さまざまな実施形態を実現するための実施可能な説明を提供するであろう。添付の特許請求の範囲に示されるような趣旨および範囲から逸脱することなく、要素の機能および配置において様々な変更がなされてよいことが理解される。
【0087】
実施形態の完全な理解を提供するために、以下の説明において具体的な詳細が与えられる。しかしながら、これらの具体的な詳細なしで実施形態が実施されてもよいことが理解されよう。例えば、回路、システム、ネットワーク、プロセス、および他の構成要素は、実施形態を不必要な詳細で不明瞭にしないために、ブロック図の形態の構成要素として示されることがある。他の事例では、実施形態を不明瞭にすることを避けるために、周知の回路、プロセス、アルゴリズム、構造、および技術は不必要な詳細なしに示されることがある。
【手続補正書】
【提出日】2024-08-16
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
第1の組のキー値ペアを含む構造化データセットにアクセスすることであって、前記第1の組のキー値ペアの各々が、対象の評価結果またはプロトコル特性を特徴付ける、アクセスすること、
前記第1の組のキー値ペアを第2の組のキー値ペアに変換することであって、前記第2の組のキー値ペアにおける少なくともいくつかのキーが、前記第1の組のキー値ペアにおける各キーとは異なる、変換すること、
多次元空間内の対象固有点を同定するために前記第2の組のキー値ペアを投影すること、
複数の決定ノードおよび複数のリーフノードを含む1つまたは複数の決定木にアクセスすることであって、前記複数のリーフノードの各々は、リーフノード固有の軌跡を介してルートノードに接続され、前記複数の決定ノードの各々は、前記第2の組のキー値ペアにおける少なくとも1つの値に基づく基準に対応する、アクセスすること、
前記1つまたは複数の決定木内の各リーフノードについて、前記リーフノード固有の軌跡に基づいて前記多次元空間内のリーフノード固有点を決定すること、
前記1つまたは複数の決定木内の各リーフノードについて、前記リーフノード固有点および前記対象固有点に基づいて類似度スコアを判定すること、
前記類似度スコアに基づいて前記複数のリーフノードの不完全なサブセットを同定すること、
前記不完全なサブセット内の各リーフノードに関連付けられた状態またはプロトコル情報を取得すること、ならびに
前記状態または前記プロトコル情報を含む前記対象に関連する出力を生成すること
を含む、コンピュータ実装方法。
【請求項2】
前記1つまたは複数の決定木における各リーフノードについて、前記リーフノード固有点を決定することが、
テキスト抽出を使用して前記リーフノード固有の軌跡を第1のリーフノード固有データセットに変換すること、
前記第1のリーフノード固有データセットをリーフノード固有の組のキー値ペアに変換すること、および
前記リーフノード固有点を同定するために、第2のリーフノード固有の組のキー値ペアを投影すること、
を含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記類似度スコアを判定することが、コサイン類似度関数を適用することを含む、請求項1に記載のコンピュータ実装方法。
【請求項4】
用語セットの各用語について、前記1つまたは複数の決定木内のリーフノードに関連付けられたリーフノード固有の軌跡にわたって前記用語が発生する頻度を示す逆軌跡頻度を判定すること、および
前記用語セットの各用語について、前記リーフノード固有の軌跡の各々で前記用語が発生する頻度を示す用語頻度を判定すること、をさらに含み、
前記第2の組のキー値ペアの値は、前記判定された逆軌跡頻度および前記用語頻度に基づいて定められる、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記出力が、前記不完全なサブセット内の各ノードについて、前記リーフノード固有の軌跡内の決定ノードによって表されるクエリをさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記出力が、前記対象の潜在的な処置を同定するプロトコル情報を含む、請求項1に記載のコンピュータ実装方法。
【請求項7】
前記構造化データセットが、前記第1の組のキー値ペアの各々について、初期タイムスタンプを含み、前記第1の組のキー値ペアを第2の組のキー値ペアに変換することは、
前記第1の組のキー値ペアのうちの特定のキー値ペアをインデックス付けイベントとして分類すること、
前記第1の組のキー値ペアの各キー値ペアについて、前記キー値ペアと関連付けられた前記初期タイムスタンプおよび前記特定のキー値ペアと関連付けられた前記初期タイムスタンプを使用して修正タイムスタンプを生成すること、
特定のイベントが別の特定のイベントの発生に対して特定の期間内に発生したかどうかを判定するためのクエリを、前記1つまたは複数の決定木における決定ノードが含むことを検出することであって、前記別の特定のイベントが前記インデックス付けイベントに対応する、検出すること、
前記第1の組のキー値ペアが、前記特定のイベントを表し特定の時間範囲内の修正タイムスタンプに関連付けられた第1の特定のキー値ペアを含むかどうかを判定するためにクエリを実行すること、ならびに
前記クエリの結果に基づいて第2の特定のキー値ペアを定めることであって、前記第2の組のキー値ペアが第2のキー値ペアを含む、定めること、
を含む、請求項1に記載のコンピュータ実装方法。
【請求項8】
1つ以上のデータプロセッサに、動作のセットを実行させるように構成された命令を含む、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品であって、前記動作のセットが、
第1の組のキー値ペアを含む構造化データセットにアクセスすることであって、前記第1の組のキー値ペアの各々が、対象の評価結果またはプロトコル特性を特徴付ける、アクセスすること、
前記第1の組のキー値ペアを第2の組のキー値ペアに変換することであって、前記第2の組のキー値ペアにおける少なくともいくつかのキーが、前記第1の組のキー値ペアにおける各キーとは異なる、変換すること、
多次元空間内の対象固有点を同定するために前記第2の組のキー値ペアを投影すること、
複数の決定ノードおよび複数のリーフノードを含む1つまたは複数の決定木にアクセスすることであって、前記複数のリーフノードの各々は、リーフノード固有の軌跡を介してルートノードに接続され、前記複数の決定ノードの各々は、前記第2の組のキー値ペアにおける少なくとも1つの値に基づく基準に対応する、アクセスすること、
前記1つまたは複数の決定木内の各リーフノードについて、前記リーフノード固有の軌跡に基づいて前記多次元空間内
のリーフノード固有点を決定すること、
前記1つまたは複数の決定木内の各リーフノードについて、前記リーフノード固有点および前記対象固有点に基づいて類似度スコアを判定すること、
前記類似度スコアに基づいて不完全なサブセットの前記複数のリーフノードを同定すること、
前記不完全なサブセット内の各リーフノードに関連付けられた状態またはプロトコル情報を取得すること、および
前記状態または前記プロトコル情報を含む前記対象に関連する出力を生成すること
を含む、コンピュータプログラム製品。
【請求項9】
前記1つまたは複数の決定木における各リーフノードについて、前記リーフノード固有点を決定することが、
テキスト抽出を使用して前記リーフノード固有の軌跡を第1のリーフノード固有データセットに変換すること、
前記第1のリーフノード固有データセットをリーフノード固有の組のキー値ペアに変換すること、および
前記リーフノード固有点を同定するために、第2のリーフノード固有の組のキー値ペアを投影すること、
を含む、請求項8に記載のコンピュータプログラム製品。
【請求項10】
前記類似度スコアを判定することが、コサイン類似度関数を適用することを含む、請求項8に記載のコンピュータプログラム製品。
【請求項11】
前記動作のセットが、
用語セットの各用語について、前記1つまたは複数の決定木内のリーフノードに関連付けられたリーフノード固有の軌跡にわたって前記用語が発生する頻度を示す逆軌跡頻度を判定すること、および
前記用語セットの各用語について、前記リーフノード固有の軌跡の各々で前記用語が発生する頻度を示す用語頻度を判定すること、をさらに含み、
前記第2の組のキー値ペアの値は、前記判定された逆軌跡頻度および前記用語頻度に基づいて定められる、請求項8に記載のコンピュータプログラム製品。
【請求項12】
前記出力が、前記不完全なサブセット内の各ノードについて、前記リーフノード固有の軌跡内の決定ノードによって表されるクエリをさらに含む、請求項8に記載のコンピュータプログラム製品。
【請求項13】
前記出力が、前記対象の潜在的な処置を同定するプロトコル情報を含む、請求項8に記載のコンピュータプログラム製品。
【請求項14】
前記構造化データセットが、前記第1の組のキー値ペアの各々について、初期タイムスタンプを含み、前記第1の組のキー値ペアを第2の組のキー値ペアに変換することは、
前記第1の組のキー値ペアのうちの特定のキー値ペアをインデックス付けイベントとして分類すること、
前記第1の組のキー値ペアの各キー値ペアについて、前記キー値ペアと関連付けられた前記初期タイムスタンプおよび前記特定のキー値ペアと関連付けられた前記初期タイムスタンプを使用して修正タイムスタンプを生成すること、
特定のイベントが別の特定のイベントの発生に対して特定の期間内に発生したかどうかを判定するためのクエリを、前記1つまたは複数の決定木における決定ノードが含むことを検出することであって、前記別の特定のイベントが前記インデックス付けイベントに対応する、検出すること、
前記第1の組のキー値ペアが、前記特定のイベントを表
し特定の時間範囲内の修正タイムスタンプに関連付けられた第1の特定のキー値ペアを含むかどうかを判定するためにクエリを実行すること、および
前記クエリの結果に基づいて第2の特定のキー値ペアを定めることであって、前記第2の組のキー値ペアが第2のキー値ペアを含む、定めること、
を含む、請求項8に記載のコンピュータプログラム製品。
【請求項15】
1つ以上のデータプロセッサと、
命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令が、前記1つ以上のデータプロセッサで実行されたときに、前記1つ以上のデータプロセッサに、
請求項1から7のいずれか一項に記載のコンピュータ実装方法を実行させる、非一時的コンピュータ可読記憶媒体と、
を含む、システム。
【国際調査報告】