(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-21
(45)【発行日】2023-08-29
(54)【発明の名称】病状診断のための機械学習法などの機械学習法において使用する新規特徴の発見
(51)【国際特許分類】
G16H 50/20 20180101AFI20230822BHJP
A61B 5/00 20060101ALI20230822BHJP
G06N 20/00 20190101ALI20230822BHJP
G06N 3/02 20060101ALI20230822BHJP
【FI】
G16H50/20
A61B5/00 G
G06N20/00
G06N3/02
(21)【出願番号】P 2020524693
(86)(22)【出願日】2018-07-18
(86)【国際出願番号】 IB2018000902
(87)【国際公開番号】W WO2019016598
(87)【国際公開日】2019-01-24
【審査請求日】2021-04-12
(32)【優先日】2017-07-18
(33)【優先権主張国・地域又は機関】US
【前置審査】
(73)【特許権者】
【識別番号】520019953
【氏名又は名称】アナリティクス フォア ライフ インコーポレイテッド
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100109335
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100141553
【氏名又は名称】鈴木 信彦
(74)【代理人】
【識別番号】100176418
【氏名又は名称】工藤 嘉晃
(72)【発明者】
【氏名】グルーシー ポール
(72)【発明者】
【氏名】バートン ティモシー
(72)【発明者】
【氏名】コーソウシ アリ
(72)【発明者】
【氏名】ドゥームラ アビナヴ
(72)【発明者】
【氏名】グプタ サニー
【審査官】森田 充功
(56)【参考文献】
【文献】特表2006-518062(JP,A)
【文献】特開2011-227838(JP,A)
【文献】米国特許出願公開第2005/0131847(US,A1)
【文献】国際公開第2017/019707(WO,A1)
【文献】米国特許第05394509(US,A)
【文献】平澤 宏太郎 Kotaro HIRASAWA 他,遺伝的共生アルゴリズム Genetic Symbiosis Algorithm,計測自動制御学会論文集 第35巻 第9号 Transactions of the Society of Instrument and Control Engineers,日本,社団法人計測自動制御学会 THE SOCIETY OF INSTRUMENT AND CONTROL ENGINEERS,1999年09月30日,第35巻,p.1-9
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
A61B 5/00
G06N 20/00
G06N 3/02
(57)【特許請求の範囲】
【請求項1】
1人又は2人以上の患者内の1又は2以上の病状を診断する機械学習において使用する特徴を発見するためのシステムであって、
少なくとも1人の患者から生理学的信号データを受け取るように構成された機械と、
前記受け取った生理学的データを、複数の患者の生理学的データを含む患者データストアに記憶するように構成された第1のコンポーネントと、
前記複数の患者のうちの1人又は2人以上の患者の各々について、
前記少なくとも1人の患者の、各タイプが対応する患者の少なくとも1つの生理学的出力を表す1又は2以上のタイプの生理学的信号データを前記患者データストアから受け取り、
前記受け取った生理学的信号データのタイプ毎に、対応する生理学的データ信号から少なくとも1つの値を抽出する、
ように構成された第2のコンポーネントと、
生理学的データのタイプ毎に、
前記タイプの生理学的データが受け取られた前記1人又は2人以上の患者の各々について、
前記対応する生理学的データから抽出された前記少なくとも1つの値に複数の特徴生成器を適用して前記タイプの生理学的データの特徴を生成し、
前記生成された特徴に基づいて、前記タイプの生理学的データのための1又は2以上の特徴ベクトルを生成する、
ように構成された第3のコンポーネントと、
各生成された特徴ベクトルについて、該特徴ベクトルの新規性スコアを計算するように構成された第4のコンポーネントと、
前記複数の特徴ベクトルの中から、前記計算された新規性スコアに基づいて、新規性スコアと新規性閾値とを比較することによって新規性が決定される少なくとも1つの新規特徴ベクトルを識別するように構成され、前記新規性閾値は、少なくとも部分的に、前記計算された新規性スコアに基づいて新規性スコアのnパーセンタイルを決定することによって計算される、第5のコンポーネントと、
前記複数の特徴生成器の中から、新規特徴ベクトルを生成した各特徴生成器を識別するように構成された第6のコンポーネントと、
前記識別された特徴生成器の各々を変異させて別の特徴生成器世代を生成するように構成された第7のコンポーネントと、
を備えることを特徴とするシステム。
【請求項2】
前記機械は、広帯域生体電位測定装置を含む、
請求項1に記載のシステム。
【請求項3】
メモリ及びプロセッサを有するコンピュータシステムによって実行された場合に、前記コンピュータシステムに機械学習において使用する特徴の発見方法を実行させる命令を記憶したコンピュータ可読媒体であって、前記方法は、
複数の特徴生成器の各々について、
複数のデータ信号の各々について、
前記データ信号から値を抽出するステップと、
前記抽出した値に前記特徴生成器を適用して特徴値を生成するステップと、
前記特徴生成器が、前記生成された特徴値に基づいて
特徴ベクトルを生成するステップと、
複数の
生成された特徴ベクトルの各特徴ベクトルについて、
前記特徴ベクトルの新規性スコアを
計算するステップと、
前記複数の特徴ベクトルの中から、前記計算された新規性スコアに基づいて少なくとも1つの新規特徴ベクトルを識別するステップ
であって、新規性スコアと、少なくとも部分的に、前記計算された新規性スコアのnパーセンタイルを決定することによって計算された新規性閾値とを比較するステップを含む、少なくとも1つの新規特徴ベクトルを識別するステップと、
前記複数の特徴生成器の中から、新規特徴ベクトルを生成した各特徴生成器を識別するステップと、
前記識別された特徴生成器の各々を変異させて別の特徴生成器世代を生成するステップと、
を含む、ことを特徴とするコンピュータ可読媒体。
【請求項4】
前記方法は、
前記複数の特徴生成器をランダムに生成するステップを
さらに含み、式木を含む第1の特徴生成器を生成するステップは、
複数のノードを含む二分木を生成するステップと、
前記複数のノードの各々について、前記ノードに演算子、値又は方程式を割り当てるステップと、
を含む、請求項3に記載のコンピュータ可読媒体。
【請求項5】
前記方法は、
前記複数の特徴生成器をランダムに生成するステップをさらに含み、ニューラルネットワークを含む第
1の特徴生成器を生成するステップが、前記ニューラルネットワークの複数の結合重みの各々についてランダムに値を生成するステップを含む、ステップをさらに含む、
請求項
3に記載のコンピュータ可読媒体。
【請求項6】
第1の特徴生成器を変異させるステップは、前記第1の特徴生成器に、点変異、ランダム組み換え、サブツリー変異、又はこれらのいずれかの組み合わせのうちの少なくとも1つを適用するステップを含む、
請求項
3に記載のコンピュータ可読媒体。
【請求項7】
第1の特徴ベクトルの新規性スコアを計算するステップは、
前記第1の特徴ベクトル以外の複数の特徴ベクトルの各々について、前記第1の特徴ベクトルと前記第1の特徴ベクトル以外の前記特徴ベクトルとの間の差分値を計算するステップと、
前記計算した差分値を集約するステップと、
を含む、請求項3に記載のコンピュータ可読媒体。
【請求項8】
前記計算した差分値を集約するステップは、前記計算した差分値に基づいて平均値を計算するステップを含む、
請求項
7に記載のコンピュータ可読媒体。
【請求項9】
前記方法は、少なくとも1人の患者によって提供された生理学的データの少なくとも1つの表現に、変異した特徴生成器を適用するステップをさらに含む、
請求項
3に記載のコンピュータ可読媒体。
【請求項10】
第1の特徴生成器を変異させるステップは、前記第1の特徴生成器に、サブツリー変異を適用するステップを含む、
請求項3に記載のコンピュータ可読媒体。
【請求項11】
メモリ及びプロセッサを有するコンピュータシステムによって実行される、機械学習において使用する特徴の発見方法であって、
複数の特徴生成器の各々について、
複数のデータ信号の各々について、
前記データ信号から値を抽出するステップと、
前記抽出した値に前記特徴生成器を適用して特徴値を生成するステップと、
前記特徴生成器が、前記生成された特徴値に基づいて特徴ベクトルを生成するステップと、
複数の生成された特徴ベクトル
の各々について、
前記特徴ベクトルの新規性スコアを計算するステップと、
前記複数の特徴ベクトルの中から、前記計算された新規性スコアに基づいて少なくとも1つの新規特徴ベクトルを識別するステップ
であって、新規性スコアと
、少なくとも部分的に、前記計算された新規性スコアのnパーセンタイルを決定することによって計算された新規性閾値とを比較するステップを含む、
少なくとも1つの新規特徴ベクトルを識別するステップと、
前記複数の特徴生成器の中から、新規特徴ベクトルを生成した各特徴生成器を識別するステップと、
前記識別された特徴生成器の各々を変異させて別の特徴生成器世代を生成するステップと、
を含む、ことを特徴とする方法。
【請求項12】
少なくとも部分的に、前記計算された新規性スコアに基づいて平均新規性スコアを決定することによって、前記新規性閾値を計算するステップをさらに含む、
請求項11に記載の方法。
【請求項13】
少なくとも部分的に、前記計算された新規性スコアに基づいて新規性スコアのnパーセンタイルを決定することによって、前記新規性閾値を計算するステップをさらに含む、
請求項
11に記載の方法。
【請求項14】
少なくとも部分的に、前記計算された新規性スコアの中からn番目に高い新規性スコアを決定することによって、前記新規性閾値を計算するステップをさらに含む、
請求項
11に記載の方法。
【請求項15】
前記識別された少なくとも1つの新規特徴ベクトルに少なくとも部分的に基づいて予測モデルを生成するステップをさらに含む、
請求項
11に記載の方法。
【請求項16】
それぞれが患者に対応する複数の入力信号の各々について、前記生成された予測モデルに少なくとも部分的に基づいて、対応する患者の転帰を予測するステップをさらに含む、
請求項15に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照〕
本出願は、2017年7月18日に出願された「病状診断のための機械学習法などの機械学習法において使用する新規特徴の発見(DISCOVERING NOVEL FEATURES TO USE IN MACHINE LEARNING TECHNIQUES, SUCH AS MACHINE LEARNING TECHNIQUES FOR DIAGNOSING MEDICAL CONDITIONS)」という名称の米国特許出願第15/653,433号に対する優先権を主張するものであり、この文献はその全体が引用により本明細書に組み入れられる。
【0002】
〔関連出願〕
本出願は、2013年8月19日に出願された「心臓血管系を特性化する非侵襲的方法及びシステム(NON-INVASIVE METHOD AND SYSTEM FOR CHARACTERIZING CARDIOVASCULAR SYSTEMS)」という名称の米国特許出願第13/970,580号~現米国特許第9,289,150号、2016年3月4日に出願された「心臓血管系を特性化する非侵襲的方法及びシステム」という名称の米国特許出願第15/061,090号、2017年5月5日に出願された「心臓血管系を特性化する非侵襲的方法及びシステム」という名称の米国特許出願第15/588,148号、2012年9月6日に出願された「電気生理学的信号を評価するシステム及び方法(SYSTEM AND METHOD FOR EVALUATING AN ELECTROPHYSIOLOGICAL SIGNAL)」という名称の米国特許出願第13/605,364号~現米国特許第8,923,958号、2013年8月19日に出願された「全死因死亡率及び突然心臓死リスクのための、心臓血管系を特性化する非侵襲的方法及びシステム(NON-INVASIVE METHOD AND SYSTEM FOR CHARACTERIZING CARDIOVASCULAR SYSTEMS FOR ALL-CAUSE MORTALITY AND SUDDEN CARDIAC DEATH RISK)」という名称の米国特許出願第13/970,582号~現米国特許第9,408,543号、2016年7月11日に出願された「全死因死亡率及び突然心臓死リスクのための、心臓血管系を特性化する非侵襲的方法及びシステム」という名称の米国特許出願第15/207,214号、2014年6月4日に出願された「哺乳類の心室サイズ及び力学的機能を推定するための非侵襲的心電図法(NONINVASIVE ELECTROCARDIOGRAPHIC METHOD FOR ESTIMATING MAMMALIAN CARDIAC CHAMBER SIZE AND MECHANICAL FUNCTION)」という名称の米国特許出願第14/295,615号、2013年11月12日に出願された「哺乳類の心室サイズ及び力学的機能を推定する非侵襲的心電図法」という名称の米国特許出願第14/077,993号、2015年1月14日に出願された「ブドウ糖、糖化ヘモグロビン及びその他の血液成分を推定する非侵襲的方法(NONINVASIVE METHOD FOR ESTIMATING GLUCOSE, GLYCOSYLATED HEMOGLOBIN AND OTHER BLOOD CONSTITUENTS)」という名称の米国特許出願第14/596,541号~現米国特許第9,597,021号、2017年3月16日に出願された「ブドウ糖、糖化ヘモグロビン及びその他の血液成分を推定する非侵襲的方法」という名称の米国特許出願第15/460,341号、2015年2月12日に出願された「単一チャネルデータから心臓血管系を特性化する方法及びシステム(METHOD AND SYSTEM FOR CHARACTERIZING CARDIOVASCULAR SYSTEMS FROM SINGLE CHANNEL DATA)」という名称の米国特許出願第14/620,388号、2016年6月24日に出願された「数理解析及び機械学習を使用して病気を診断する方法及びシステム(METHODS AND SYSTEMS USING MATHEMATICAL ANALYSIS AND MACHINE LEARNING TO DIAGNOSE DISEASE)」という名称の米国特許出願第15/192,639号、2016年8月26日に出願された「生理学的信号取得装置(BIOSIGNAL ACQUISITION DEVICE)」という名称の米国特許出願第15/248,838号、2016年9月21日に出願された「心臓位相空間断層撮影のためのグラフィカルユーザインターフェイス(GRAPHICAL USER INTERFACE FOR CARDIAC PHASE-SPACE TOMOGRAPHY)」という名称の米国仮特許出願第62/397,895号、2017年6月26日に出願された「心筋虚血の測定、狭窄の同定、定位、及び冠血流予備量比推定のための非侵襲的方法及びシステム(NON-INVASIVE METHOD AND SYSTEM FOR MEASURING MYOCARDIAL ISCHEMIA, STENOSIS IDENTIFICATION, LOCALIZATION AND FRACTIONAL FLOW RESERVE ESTIMATION)」という名称の米国特許出願第15/633,330号、並びに本出願と同時に出願された「機械学習法において使用するゲノムの発見(DISCOVERING GENOMES TO USE IN MACHINE LEARNING TECHNIQUES)」という名称の米国特許出願第15/653,441号に関連する。上述した各出願及び交付済み特許は、その全体が引用により本明細書に組み入れられる。
【背景技術】
【0003】
機械学習法は、入力データセットに基づいて結果を予測する。例えば、機械学習法は、天候パターンや地質学的活動の予測、及び医療診断の提供などのために使用されている。機械学習法は、それぞれが何らかの測定可能な測定データの態様を表す訓練データセット(すなわち、それぞれ予測すべき結果が既知である測定データセット)を使用して生成された一連の特徴に依拠して、1又は2以上の予測モデルの生成及び調整を行う。例えば、測定信号(例えば、複数の被験者からの心拍信号)を分析して、これらの信号に関する周波数、平均値及びその他の統計情報を収集することができる。機械学習法は、これらの特徴を使用して、冠動脈疾患(CAD)を含む何らかの形の心臓血管疾患(CVD)などの1又は2以上の状態にこれらの特徴を関連付けるモデルの生成及び調整を行い、診断未確定の患者又は将来的天候パターンなどの未知の結果を有するデータソースにこのモデルを適用することができる。従来、これらの特徴は、領域専門家と共に働くデータサイエンティストによって手動で選択され組み合わされてきた。
【先行技術文献】
【非特許文献】
【0004】
【文献】Christopher M.Bishop著、「パターン認識及び機械学習(Pattern Recognition and Machine Learning)」、2006年、(米国議会図書館管理番号:2006922522;ISBN-10:0-387-31073-8)
【発明の概要】
【発明が解決しようとする課題】
【0005】
機械学習法は、特徴に依拠して予測モデルを生成するので、通常は、特徴識別及び生成プロセスが機械学習プロセスの重要な部分である。本発明者らは、より正確なモデルを生成する基礎をもたらす特徴を手動で識別することにはコストと時間が掛かる(及びこのような特徴を生成することはさらに困難である)と分かった。従って、本発明者らは、自動発見を行う施設を開業することを想起してこれに帰着した。
【課題を解決するための手段】
【0006】
いくつかの実施形態では、この施設が、時系列信号及び/又は生理学的信号などの他の信号に基づいて病気診断などのための予測モデルを構築して評価する機械学習パイプラインの一部として動作する。機械学習プロセスは、特徴を使用して訓練データセット内のパターンを識別し、これらのパターンに基づいて予測モデルを生成する。これらの予測モデルを、検証データセット(すなわち、結果は既知であるがモデルの訓練には使用されなかったデータセット)を使用して検証し、病状の診断を行うことなどの入力データからの結果を予測するために新たな入力データに適用することができる。新たなデータ及び新たな特徴が生成又は取得されると、機械学習プロセスは、新たな特徴を組み入れ、場合によっては他の特徴に似すぎていると判断されるような他の特徴を廃棄することによって、これらのモデルの予測能力を改善する。
【0007】
いくつかの実施形態では、施設が、それぞれが各入力データセットから1又は2以上の値を抽出する特徴生成器の組を識別しようと努め、その後に抽出した値を組み合わせ及び/又は操作する。施設は、各特徴生成器を訓練観察セットに適用することによって特徴生成器を評価する。各特徴生成器について、これらが各訓練観察に対して指定する値の抽出及び組み合わせ/操作を実行することによって生成される値の組は、特徴生成器の「特徴ベクトル」と呼ばれる。施設は、これらの特徴ベクトルを互いに比較してその新規性(すなわち、これらが他の特徴ベクトルとどのように異なるか)を評価する。新規として識別された特徴ベクトルを生成した特徴生成器は、機械学習パイプラインが構成して評価したモデルへの入力として使用できる一連の特徴に追加される。さらに、新規として識別された特徴ベクトルを生成するために使用された各特徴生成器は、新たな世代の特徴生成器を生成するように修正される。施設は、同様に訓練観察から生成された特徴ベクトルの新規性を評価することによって、新たな世代の特徴生成器を評価する。施設は、複数世代にわたってこのプロセスを繰り返して、機械学習プロセスのためのさらなる特徴を提供する。
【図面の簡単な説明】
【0008】
【
図1A】いくつかの実施形態による、特徴生成器に適用できる様々なタイプの変異を示すデータ構造図である。
【
図1B】いくつかの実施形態による、特徴生成器に適用できる様々なタイプの変異を示すデータ構造図である。
【
図1C】いくつかの実施形態による、特徴生成器に適用できる様々なタイプの変異を示すデータ構造図である。
【
図1D】いくつかの実施形態による、特徴生成器に適用できる様々なタイプの変異を示すデータ構造図である。
【
図1E】いくつかの実施形態による、特徴生成器に適用できる様々なタイプの変異を示すデータ構造図である。
【
図1F】いくつかの実施形態による、特徴生成器に適用できる様々なタイプの変異を示すデータ構造図である。
【
図1G】いくつかの実施形態による、特徴生成器に適用できる様々なタイプの変異を示すデータ構造図である。
【
図2】いくつかの実施形態における、施設の動作環境を示すブロック図である。
【
図3】いくつかの実施形態における、発見コンポーネントの処理を示すフロー図である。
【
図4】いくつかの実施形態における、プロセスコンポーネントの処理を示すフロー図である。
【
図5】いくつかの実施形態における、特徴生成器適用コンポーネントの処理を示すフロー図である。
【
図6】いくつかの実施形態における、新規特徴ベクトル識別コンポーネントの処理を示すフロー図である。
【発明を実施するための形態】
【0009】
例えば、機械学習法に使用する新規特徴を発見するための施設は、医療診断予測モデリングタスクに使用することができる。この例では、施設が、複数の患者又は被験者について、(例えば、1秒未満、約数秒、約10秒、約30秒、及び最大約5分、約1時間又はそれ以上などの)一定期間にわたる何らかのタイプの患者の生理学的出力又は状態に関連する、脳波図などの1又は2以上の生理学的データセットを受け取る。これらのデータは、施設の動作と同時又はほぼ同時にリアルタイム又は近リアルタイムで受け取ることも、或いはそれ以前に受け取ることもできる。いくつかの例では、施設が、各患者からの信号が安定・一貫した初期状態において開始することを確実にするように、信号のいくつかの部分を廃棄する。さらに、データを正規化して、潜在的に誤解を与える情報を削除することもできる。例えば、施設は、センサの接触又は他の非生理学的データに起因する信号強度の変動を考慮するように、信号データの振幅を正規化(例えば、zスコアに変換)することができる。別の例として、心臓信号の場合には、施設がピーク検索を実行し、信号内で識別される最初の心拍前、及び信号内で識別される最後の心拍後のあらゆるデータを廃棄することができる。
【0010】
いくつかの実施形態では、施設が一連の信号に一連の特徴生成器を適用して、信号と特徴生成器との組み合わせ毎に信号の特徴値を生成する。従って、各特徴値は、基礎となる信号データの何らかの特性を表す。1つの例では、施設が、1000人の患者のそれぞれの患者データを受け取り、これらのデータに1又は2以上の特徴生成器を適用して、1人の患者のデータに対する特徴生成器の適用毎に特徴値(又は一連の特徴値)を生成する。施設は、特徴ベクトルが1人の患者につき1つの特徴値を記憶するように、単一の特徴生成器が「特徴ベクトル」内に生成した特徴値を収集する。特徴ベクトルが生成されると、これらを比較して、それぞれが他の各特徴ベクトルに対してどのように異なるかを判断することができる。施設は、各特徴ベクトルの距離メトリックを計算して、対応する特徴生成器の新規性を評価する。施設は、評価された新規性に基づいて、(1)提供された特徴生成器を新たな予測モデルの基礎とする目的で、新規特徴ベクトルを生成した特徴生成器を機械学習プロセスに提供し、(2)これらの特徴生成器を修正して新たな世代の特徴生成器を形成する。施設は、この進化過程を繰り返して、機械学習プロセスが使用するためのさらなる新規特徴を識別する。
【0011】
いくつかの実施形態では、施設が、受け取ったデータセット毎に、データから異なる1又は2以上の値の組を計算又は識別する。例えば、心電図の一部として生成されたデータの場合、施設は、データ内の大域的及び局所的最大値及び最小値を識別し、データから周波数/期間情報を計算し、一定期間にわたるデータの平均値(例えば、QRS複合中に生成された平均期間及び値)を計算することなどを行う。いくつかの例では、施設が、受け取ったデータを変換し、変換されたデータから1又は2以上の値の組を抽出する。施設は、受け取った信号データを、データの1又は2以上の(連続)導関数を取ること、データの1又は2以上の部分導関数を取ること、データを統合すること、データの勾配を計算すること、データに関数を適用すること、フーリエ変換を適用すること、線形変換又は行列変換を適用すること、トポロジーメトリック(topology metrics)/特徴を生成すること、計算幾何学メトリック(computational geometry metrics)/特徴を生成すること、及び微分多様体メトリック(differential manifold metrics)/特徴などを生成することなどのあらゆる数の方法で変換することができる。このようにして、施設は、多様な特徴セットをもたらすためにデータの多重視点を生成する。これらの変換は一例として示したものであるが、当業者であれば、あらゆる数の方法でデータを変換することができると認識するであろう。
【0012】
1つの例では、施設が、複数の入力信号(例えば、患者に接続された異なる電極又はリードによって収集された入力信号、並びに広帯域生体電位測定装置のリード及びS
pO
2(血中酸素飽和率)のチャネルからの信号などの多モード信号)及び/又は変換信号を受け取り、サンプリング期間にわたる信号の平均値を信号毎に計算することによって信号データから値を抽出する。この例では、患者当たり4つの信号を表しているが、当業者であれば、施設による処理及びさらなる分析のためにあらゆる数の信号をモニタし、及び/又は受け取ることができると認識するであろう。従って、この例では、以下のように各患者の抽出データをこれらの経時的平均値の組として表すことができる。
【表1】
表1は、n人の各患者についての平均信号値の組(A、B、C及びD)を表す。ここでは平均値を使用しているが、当業者であれば、信号が閾値を超えている時間、及び1つの信号の値が閾値を超えている間の別の信号の値などのあらゆるタイプのデータを基礎となるデータ信号から抽出又は計算することができると認識するであろう。
【0013】
いくつかの実施形態では、施設が、受信信号からデータが抽出された後に、抽出データ、未加工又は前処理信号データ及び変換データなどの受信又は生成されたデータに1又は2以上の特徴生成器を適用する。特徴生成器は、信号データの少なくとも一部又は代表を入力として受け取り、対応する出力値(又は値の組)(すなわち、「特徴」)を生成する。1組の特徴生成器は、以下の方程式を含む。
【数1】
【数2】
【数3】
ここでのA、B、C及びDは、それぞれ特定の患者のデータから抽出された値を表し、S(t)は、時間tにおける信号の値を信号毎に表す。方程式1では、例えばF1が特徴名を表し、方程式A+C-Dが対応する特徴生成器を表す。いくつかの例では、施設が、1つの特徴生成器が別の特徴生成器への入力としての役割を果たす、以下のような複合特徴生成器を利用する。
【数4】
この例では、施設が、表1に示す各患者の抽出データに特徴生成器を適用して、以下の表2に示すような(各患者につき1つの)3つの値の特徴ベクトルを特徴生成器毎に生成する。
【表2】
【0014】
この例では、施設が、表1に示す抽出データに各特徴生成器F1、F2及びF3を適用して、各患者の値を含む対応する特徴ベクトルを特徴生成器毎に生成している。例えば、抽出データに特徴生成器F1を適用することによって生成された特徴ベクトルは、患者1の-29.76の値、及び患者2の-0.6の値などを含む。従って、各特徴ベクトルは、各患者の生理学的データ(すなわち、特徴生成器が適用された生理学的データで表される患者)の少なくとも一部に基づく対応する特徴生成器の署名(signature)(必ずしも一意的ではない)を特定の特徴生成器について表す。いくつかの例では、特徴生成器が、式木、ニューラルネットワークなどの異なる構造又はモデルを使用して表される。当業者であれば、施設は、特徴ベクトルの生成においてあらゆる数の特徴生成器及びあらゆる数の生理学的データセット(又はその一部)を利用することができると認識するであろう。いくつかの実施形態では、施設が、ありとあらゆる利用可能な特徴生成器を使用するのではなく、特徴ベクトルの生成において使用するための複数の以前に生成された特徴生成器をランダムに選択する。いくつかの実施形態では、施設が、例えば式木をランダムに生成し、ニューラルネットワーク内の接続にランダムに重みを割り当てることなどによって特徴生成器を形成及び/又は修正する。
【0015】
いくつかの実施形態では、複数の特徴ベクトルを生成した後に施設が何らかの形の新規性検索を使用して、生成された特徴ベクトルの中から最も「新規性の高い」特徴ベクトルを識別する。新規性は、特定の特徴ベクトルが(現在の反復中に施設によって生成されたあらゆる特徴ベクトル、及びいずれかの以前の反復において選択された特徴生成器によって生成された特徴ベクトルで構成される)他の比較用特徴ベクトルセットの各々とどのように異なるかに対応し、比較用セットの特徴ベクトルとの差分が大きければ大きいほど新規性が高い。施設は、新規性の尺度として距離の形態(すなわち、各特徴ベクトルが他の特徴ベクトルからどれほど「遠い」か)を使用する。この場合、施設は、生成された特徴ベクトル毎に、その特徴ベクトルと他の生成された各特徴ベクトルとの間の距離を計算し、特徴ベクトルの平均値又は平均(例えば、算術平均、幾何平均、調和平均など)距離値、又は特徴ベクトルと他の生成された各特徴ベクトルとの間の総(合計)距離の計算、特徴ベクトルのモード距離値、中央距離値及び最大距離値の識別などの、生成された距離値の集約を実行する。例えば、表2の(患者1、2及びnの)特徴ベクトルを使用して、各特徴ベクトルセットの距離を以下のように計算することができる。
F1~F2の距離:
【数5】
F1~F3の距離:
【数6】
F2~F3の距離:
【数7】
この例では、2つの各ベクトル間の差分を計算する手段として各特徴ベクトル間の総ユークリッド距離を計算した。施設は、現在(すなわち、現世代)の特徴生成器の組によって生成された特徴ベクトルに加え、前の世代で選択された特徴生成器によって生成された特徴ベクトルも含む。いくつかの例では、施設が、各特徴ベクトルにランダム生成された重みなどの重みを適用し、及び/又は比較の前に各特徴ベクトルセットを正規化する。従って、この例における各特徴ベクトルの距離測定値は以下のようになる。
【表3】
【0016】
この例では、施設が、各特徴ベクトルの「新規性スコア」又は「適合性スコア」として機能する計算距離に基づいて、最も「新規性の高い」特徴ベクトルを識別する。施設は、他のベクトルとの平均距離が最も大きな特徴ベクトル(例えば、F3によって生成された特徴ベクトル)、及びMAX距離が最も大きな特徴ベクトル(例えば、F1及びF3によって生成された特徴ベクトル)などを識別する。いくつかの例では、識別される新規特徴ベクトルの数が、5、10、100、500などの所定の値に固定(又は制限(capped))される。他の例では、識別される新規特徴ベクトルの数が、新規性スコア、及び分析された特徴ベクトルの平均新規性スコアを上回る所定の数の標準偏差よりも高い新規性スコアを有するいずれかの特徴ベクトルなどに基づいて、分析された特徴ベクトルの上位10%などに動的に決定される。その後、これらの識別された各新規特徴ベクトルを生成した特徴生成器を、機械学習パイプラインが構成して評価したモデルへの入力として使用できる一連の特徴に追加することができる。これらのモデルは、例えば診断、予測、治療又はその他の分析、科学、健康に関する目的又はその他の目的で患者データに適用することができる。
【0017】
いくつかの実施形態では、施設が、識別された新規特徴ベクトルを生成するために使用された特徴生成器を機械学習プロセスによる使用のために提供することに加え、識別された新規特徴ベクトルを生成するために使用された特徴生成器をランダムに変異又は修正する。各変異は、対応する特徴生成器に何らかの変化をもたらし、新たな世代の特徴生成器に寄与するために使用できる新たなバージョンの特徴生成器を形成する。施設は、この新たな特徴生成器を使用して新たな特徴ベクトルを生成し、その後に新たな特徴ベクトルの新規性を評価する。さらに、対応する特徴生成器をさらに変異させて、この特徴ベクトル及び特徴生成の構築プロセスを継続することができる。例えば、F1
0=A+C-Dなどの方程式の形で表される特徴生成器は、方程式の1又は2以上の要素をランダムに選択し、選択した(単複の)要素を他の要素(例えばランダムに選択された(単複の)要素)に置き換えることによって変異させることができる。この例では、AをBに置き換えてF1
1=B+C-Dを形成することによって、又はC-Dを
【数8】
に置き換えて
【数9】
を生成することによって方程式を変化させることができる。この例では、世代マーカを表す、又は各特徴生成器に値する下付き文字0及び1が含まれている。換言すれば、F1
0は、世代0(すなわち、第1世代)における上記(方程式1)のF1を表し、F1
1は、世代1(すなわち、第2世代)におけるF1の変異バージョンを表し、他も同様である。いくつかの例では、
【数10】
又は
【数11】
のように、前の世代(又はその変換)が次世代の要素として含まれる。
【0018】
図1A~
図1Gは、開示する技術のいくつかの実施形態による、特徴生成器に適用できる様々な変異タイプを示すデータ構造図を含む。
図1Aは、F1
0による式木を表し、
図1Bは、F2
0による式木を表す。この例では、各方程式が式木の形態で表される。
図1C及び
図1Dは、F1
0の点変異を表す。式木への点変異は、1つの値を別の値に置き換えること、値を変換すること、1つの演算子を別の演算子に置き換えることなどの、式木内の1又は2以上のノードへの修正を引き起こす。
図1Cでは、施設が
図1Aの加算演算子101Aを乗算演算子を表すノード101Cに置き換えており、従ってこの例ではF1
1=A×(C-D)になる。
図1Dでは、施設が、ノード101Dが加算演算子ノード101Aを乗算演算子に置き換え、ノード102Dがノード102AのAをBに置き換え、ノード103Dが減算演算子ノード103Aを加算演算子に置き換え、ノード104Dがノード104DのDを7の値に置き換えるようにノード101D、102D、103D及び104Dの各々を変異させており、従ってこの例ではF1
1=B×(C+7)になる。
【0019】
いくつかの例では、施設が、2つの異なる特徴生成器の少なくとも一部のランダム組み換えなどの組み合わせを可能にする1又は2以上の有性生殖法を使用して特徴生成器を変異させる。
図1Eは、F1
0の「ランダム組み換え」変異を表す。ランダム組み換えでは、1又は2以上の式木からのサブツリーが継ぎ合わされる。この例では、サブツリー105Aがサブツリー105Bに継ぎ合わされた結果、F1
1=A+A*S(4)になっている。
図1Fは、F2
0のサブツリー変異を表す。サブツリー変異では、式木のサブツリーが、ランダム生成されたサブツリー、又は別の式木から(例えば、ランダムに)選択されたサブツリーなどの別のサブツリーに置き換えられる。この例では、サブツリー106B(単一ノード)が
図1Aの式木全体に置き換えられた結果、
【数12】
になっている。当業者であれば、施設は、特徴生成器に他の変異を適用することもでき、特徴生成器の1又は2以上の要素にあらゆる数の変異を同時に適用することもできると認識するであろう。例えば、施設は、式木の1つの要素に対してサブツリー変異を実行する一方で、式木の1又は2以上のノードに対して点変異を実行することができる。
【0020】
図1Gは、ニューラルネットワーク100と、それぞれがニューラルネットワークの異なる世代に対応する結合重みセットである対応する複数の結合重み(w
0~w
7)の組120とを表す。いくつかの例では、重み毎に乱数発生器を呼び出して重みの値を生成することによって、ニューラルネットワークの初期重みセットが生成される。同様に、再び乱数発生器を呼び出して新たな重みの値を生成することによって次の世代を生成することができる。いくつかの実施形態では、施設が、単純に乱数発生器を呼び出して新たな重みを生成するのではなく、以前に生成された重みにw0(next)=w0(previous)*rand(MAX)などの何らかの変換を適用することによって各重みを変異させ、ここでのw0(next)は、生成される世代の結合重みw0の値を表し、w0(previous)は、結合重みの最も近い前の世代の結合重みw0の値を表し、rand()は、乱数発生器によって発生した値を表し、MAXは、ユーザが提供する、又は施設が自動的に生成する、乱数発生器に対する最大値制約を表す。当業者であれば、各重みは、あらゆる数の方法でランダムに生成及び/又は変換することができると認識するであろう。
【0021】
いくつかの実施形態では、施設が、特徴生成器を変異させた後に、この次の世代の特徴生成器を患者データに適用し、新たな世代の特徴生成器によって生成された新規特徴ベクトルを識別し、機械学習プロセスによる診断モデルの訓練及び試験において使用される識別された新規特徴ベクトルを提供することによって新規特徴発見プロセスを継続する。また、施設は、新規特徴を生成した特徴生成器をさらに変異させる。施設は、ある世代の特徴生成器が(例えば、約5、10、100などの)閾値数未満の新規特徴ベクトルを生成した時点、及び(例えば、約3、15、50、1000などの)所定数の世代が生成された時点などの終端点に達するまでこのプロセスを実行する。
【0022】
このようにして、施設は、診断又は予測モデルを訓練する機械学習プロセスの一部として使用できる新規特徴セットを生成して識別するための新たな方法を提供する。従って、開示する技術は、1)機械学習プロセスを通じて生成される予測モデル、及び2)基礎となるデータを収集するために使用される広帯域生体電位測定装置などの測定装置及びシステムの両方の診断能力及び値を、これらの装置によって生成されるデータの値及びその能力を強化することによって大幅に改善して、(例えば、CVDなどの)状態の診断又は心筋梗塞を患う可能性などの将来的な転帰の予測を低侵襲的に素早く行う。従って、開示する技術は、分析データに基づく結果の診断又は予測に関する問題を解決する。例えば、医療分野では、これらの方法を使用して早期のさらに正確な診断を取得することにより、患者内の病状の存在又は不在を検証するために必要な全体的検査回数、及び初期診断を行うために必要なさらなる検査に関連するコストなどを抑えることができる。さらに、開示する技術は、新規特徴を識別及び生成するための新たな方法と、従って診断及び予測モデルを訓練するための新規特徴セット又はベクトルとを提供することによって、診断的機械学習法の有効性を改善する。
【0023】
図2は、開示する技術のいくつかの実施形態による、施設が動作する環境200を示すブロック図である。この例では、環境200が、サービスプロバイダ210と、信号レコーダ230と、データプロバイダ240と、患者250と、(単複の)ネットワーク260とを含む。この例では、サービスプロバイダが、発見コンポーネント221と、処理コンポーネント222と、特徴生成器適用コンポーネント223と、新規特徴ベクトル識別コンポーネント224と、患者データストア225と、モデルストア226と、特徴ベクトルストア227と、特徴生成器ストア228とを含む施設220を含む。発見コンポーネント221は、施設によって呼び出され、受け取ったデータに基づいて特徴生成器を識別して変異させる。処理コンポーネント222は、発見コンポーネントによって呼び出され、診断機(例えば、広帯域生体電位測定装置)からの未加工信号データ、3D画像データなどの患者信号データの処理及び変換を行う。特徴生成器適用コンポーネント223は、発見コンポーネントによって呼び出され、処理され変換された患者信号データに1又は2以上の特徴生成器の組を適用する。新規特徴ベクトル識別コンポーネント224は、発見コンポーネントによって呼び出され、例えば1又は2以上の特徴生成器によって生成された一群の特徴ベクトルから最も新規性の高い特徴ベクトルを識別する。患者データストア225は、未加工の生理学的データ、変換された生理学的データ、伝記的情報(biographical information)、人口動態情報などの生理学的患者データを含む。これらのデータは、対応する各患者のプライバシーを保護するために匿名で記憶し、その送信及び記憶が1996年の(改正)米国医療保険の携行性と責任に関する法律、欧州データ保護条令、カナダ個人情報保護及び電子文書法、1998年のオーストラリアプライバシー法、2015年の日本の(改正)個人情報保護法、州及び地方の法律及び法令などのあらゆる準拠法及びその施行規則に従うことを確実にするように処理して暗号化することができる。モデルストア226は、Christopher M.Bishop著、「パターン認識及び機械学習(Pattern Recognition and Machine Learning)」、2006年、(米国議会図書館管理番号:2006922522;ISBN-10:0-387-31073-8)に記載されている機械学習法などの機械学習法を訓練データに適用することによって生成されるモデルに関する情報を記憶し、この文献はその全体が引用により本明細書に組み入れられる。特徴ベクトルストア227は、生理学的データセットに1又は2以上の特徴生成器を適用することによって生成された特徴ベクトルセットを記憶する。特徴生成器ストア228は、患者生理学的データに適用できる特徴生成器の組を記憶し、複数世代の特徴生成器を含むことができる。この例では、施設220と、モニタ、プリンタ、スピーカなどの1又は2以上の出力装置232と、設定コントロール、キーボード、生理学的データリーダなどの1又は2以上の入力装置234とを含む信号レコーダ230が、電極235を介して患者250に接続される。従って、施設は、この例と同様に、患者及びその他の診断装置から離れて、及び/又は広帯域生体電位測定装置(すなわち、不変のスペクトル成分を有するものを含むフィルタ処理されていない電気生理学的信号を取り込むように構成されたいずれかの装置)などの診断装置又はその一部と共に動作するように構成することができる。従って、施設は、生理学的データの読み取りと共にリアルタイムで動作するように構成することも、及び/又は以前に記録された生理学的データに適用することもできる。それぞれがデータストア242を含むデータプロバイダ240は、遠隔地(例えば、業務用施設、サードパーティデータプロバイダなどが利用できない病院又はクリニック)で記録された生理学的患者データなどの、施設が分析又は使用するための情報、並びに他の場所で形成又は生成された特徴ベクトル及び/又は特徴生成器などを提供することができる。ネットワーク260は、インターネット及びローカルエリアネットワークなどの、環境200の様々な要素が通信を行えるようにする通信リンクを表す。
【0024】
様々な例では、これらのコンピュータシステム及び他の装置が、サーバコンピュータシステム、デスクトップコンピュータシステム、ラップトップコンピュータシステム、ネットブック、タブレット、携帯電話機、携帯情報端末、テレビ、カメラ、自動車コンピュータ、電子メディアプレーヤ、機器、ウェアラブル装置、及び/又はその他のハードウェアなどを含むことができる。いくつかの実施形態では、施設が、広帯域生体電位測定装置(又は不変のスペクトル成分を有する電気生理学的信号を含む、フィルタ処理されていない電気生理学的信号を取り込むように構成されたいずれかの装置)、脳波計装置、放射線装置及び音声記録装置などの専用コンピュータシステム上で動作することができる。様々な例では、コンピュータシステム及び装置が、コンピュータプログラムを実行するように構成された中央処理装置(「CPU」)、試験中のマルチスレッドプログラム、デバッガ、施設、カーネルを含むオペレーティングシステム及び装置ドライバを含むプログラム及びデータを使用中に記憶するように構成されたコンピュータメモリ、プログラム及びデータ(例えば、ファームウェアなど)を永続的に記憶するように構成されたハードドライブ又はフラッシュドライブなどの永続記憶装置、フロッピーディスク、フラッシュメモリ装置、CD-ROM又はDVDなどのコンピュータ可読記憶媒体に記憶されたプログラム及びデータを読み取るように構成された、フロッピー、フラッシュ、CD-ROM又はDVDドライブなどのコンピュータ可読記憶媒体ドライブ、並びにインターネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ポイントツーポイントダイアルアップ接続、携帯電話ネットワーク、又は別のネットワーク、並びにルータ、スイッチ及び様々なタイプの送信機、受信機又はコンピュータ可読送信媒体を含む様々な例におけるそのネットワーキングハードウェアなどを介してデータの送信及び/又は受信を行うためにコンピュータシステムを他のコンピュータシステムに接続するように構成されたネットワーク接続のうちの1つ又は2つ以上を含む。上述したように構成されたコンピュータシステムを使用して施設の動作をサポートすることができるが、当業者であれば、様々なコンポーネントを有する様々なタイプ及び構成の装置を使用して施設を実装することができると容易に理解するであろう。施設の要素は、1又は2以上のコンピュータ又は他の装置によって実行されるプログラムモジュールなどのコンピュータ実行可能命令という一般的状況で説明することができる。一般に、プログラムモジュールは、特定のタスクを実行し、又は特定の抽象データ型を実装するように構成された、ルーチン、プログラム、オブジェクト、コンポーネント及び/又はデータ構造などを含み、暗号化することができる。さらに、プログラムモジュールの機能は、様々な実施例において望まれる通りに組み合わせ又は分散させることができる。さらに、C++などの、又はXML(拡張可能マークアップ言語)、HTML(ハイパーテキストマークアップ言語)、JavaScript(登録商標)、AJAX(非同期的JavaScript(登録商標)及びXML)技術、或いは無線アクセスプロトコル(WAP)などの、表示可能なデータを形成する他のいずれかのスクリプト又は方法でのウェブページとしてなどの様々な方法のいずれかで表示ページを実装することもできる。通常、プログラムモジュールの機能は、クラウドベースの実装、ウェブアプリケーション及びモバイル装置のモバイルアプリケーションなどを含む様々な実施形態において望まれる通りに組み合わせ又は分散させることができる。
【0025】
以下の説明では、開示する技術を実施できる好適なコンピュータ環境の簡潔な一般的説明を示す。必須ではないが、開示する技術の態様は、サーバコンピュータ、無線装置又はパーソナルコンピュータなどの汎用データ処理装置によって実行されるルーチンなどのコンピュータ実行可能命令という一般的状況で説明する。当業者であれば、開示する技術の態様は、インターネット又は他のネットワーク対応機器、(携帯情報端末(PDA)を含む)ハンドヘルド装置、ウェアラブルコンピュータ(例えば、健康指向のウェアラブルコンピュータ装置)、(ボイスオーバーIP(VoIP)電話を含む)様々なセルラー又は携帯電話機、ダム端末、メディアプレーヤ、ゲーム装置、マルチプロセッサシステム、マイクロプロセッサベース又はプログラマブル消費者電子機器、セットトップボックス、ネットワークPC、ミニコンピュータ、メインフレームコンピュータなどを含む他の通信構成、データ処理構成又はコンピュータシステム構成と共に実施することもできると理解するであろう。実際に、本明細書では「コンピュータ」、「サーバ」、「ホスト」及び「ホストシステム」などの用語を一般に同義的に使用し、これらは上記の装置及びシステムのうちのいずれか、並びにいずれかのデータプロセッサを意味する。
【0026】
開示する技術の態様は、本明細書で詳細に説明するコンピュータ実行可能命令のうちの1つ又は2つ以上を実行するように特別にプログラム、構成又は構築された特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、グラフィクスプロセッシングユニット(GPU)、マルチコアプロセッサなどの専用コンピュータ又はデータプロセッサにおいて具体化することができる。いくつかの機能などの開示する技術の態様は、単一の装置において独占的に実行されるように説明しているが、開示する技術は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)又はインターネットなどの通信ネットワークを通じてリンクされた異なる処理装置間で機能又はモジュールが共有される分散コンピュータ環境で実施することもできる。分散コンピュータ環境では、プログラムモジュールを局所的メモリ記憶装置及び遠隔メモリ記憶装置の両方に配置することができる。
【0027】
開示する技術の態様は、磁気的又は光学的に読み取り可能なコンピュータディスク、配線チップ又は事前プログラムチップ(例えば、EEPROM半導体チップ)、ナノテクノロジーメモリ、生物学的メモリ又はその他のコンピュータ可読記憶媒体を含む有形コンピュータ可読媒体に記憶又は分散することができる。或いは、開示する技術の態様に従うコンピュータ実装命令、データ構造、画面表示及びその他のデータは、インターネット又は(無線ネットワークを含む)他のネットワークを介して伝播媒体上の伝播信号(例えば、(単複の)電磁波、音波など)上に一定期間にわたって分散させることも、或いはいずれかのアナログ又はデジタルネットワーク(パケット交換型、回路交換型、又は他のスキーム)上に提供することもできる。さらに、コンピュータ可読記憶媒体という用語は、信号(例えば、伝播信号)又は一時的媒体を含まない。
【0028】
図3は、開示する技術のいくつかの実施形態による、発見コンポーネント221の処理を示すフロー図である。発見コンポーネント221は、施設によって呼び出され、選択された患者データに基づいて新規特徴ベクトルを識別する。ブロック305において、このコンポーネントは、信号レコーダから直接受け取られた未加工信号データなどの生理学的信号データ、別の装置又はサイトからの以前に生成された生理学的信号などを受け取る。診断及びその他の目的で患者から生理学的信号(例えば、電気生理学的信号、生理学的信号)を収集して分析する技術は、例えば活動量計、心エコー図、広帯域生体電位測定機器、脳波図、筋電図、電気眼球図記録法、電気皮膚反応、心拍数モニタ、磁気共鳴映像法、脳磁気図、筋音図及びウェアラブルテクノロジー装置(例えば、FITBIT)などを含む複数のものが存在する。これらのシステムによって提供されるデータは、医学的関心の識別及び病状の診断に役に立つこともあるが、診断プロセスの出発点にすぎないことが多い。さらに、これらのシステムの大部分の特異性を考慮すると、これらが分析するデータは、システム自体の、又は技術者、医師又は他のヘルスケアプロバイダなどの複雑さを抑えるように(このような場合、視覚的複雑性などを抑えるように)過剰にフィルタ処理されることによって、未利用の診断値を有する可能性があるデータが排除されてしまうことが多い。ブロック310において、コンポーネントは、信号データ処理コンポーネントを呼び出して受信信号データを処理して変換することにより、複数のデータセット及び変換データを生成することができる。ブロック315において、コンポーネントは、世代値を0に等しく設定する。ブロック320において、コンポーネントは、例えば式木をランダムに生成し、ニューラルネットワークの一連の重みをランダムに生成し、以前に生成された特徴生成器の組のうちの1つ又は2つ以上をランダムに変異させることなどによって、1又は2以上の特徴生成器を生成する。ブロック325において、コンポーネントは、特徴生成器適用コンポーネントを呼び出して、生成された特徴生成器を1又は2以上の処理済み信号データセットに適用して特徴ベクトルセットを生成する。ブロック330において、コンポーネントは、新規特徴ベクトル識別コンポーネントを呼び出して、特徴生成器によって生成された一群の特徴ベクトルの中から最も新規性の高い特徴ベクトルを識別する。ブロック335において、コンポーネントは、識別された特徴ベクトルを生成した特徴生成器を特徴生成器ストアなどに記憶する。ブロック340において、コンポーネントは世代変数を増分する。判定ブロック345において、世代変数が世代閾値以上である場合、コンポーネントは終了し、そうでなければブロック350に進む。コンポーネントは、少なくとも閾値数の新規特徴ベクトルを生成しない特徴生成器の生成数などの他の停止条件を使用することもできる。ブロック350において、コンポーネントは、識別された特徴生成器を複製し、変異させた後にブロック325にループバックし、1又は2以上の処理済み信号データセットに変異した特徴生成器を適用する。上述したように、コンポーネントは、1又は2以上の式木に複数の点変異及び/又はランダム組み換えを適用すること、及びニューラルネットワークの一連の結合重みをランダムに生成することなどの1又は複数のあらゆるタイプの変異を特徴生成器に適用することができる。
【0029】
図4は、開示する技術のいくつかの実施形態による、処理コンポーネント222の処理を示すフロー図である。処理コンポーネント222は、特徴発見コンポーネントによって呼び出されて患者信号データの処理及び変換を行う。コンポーネントは、ブロック405~465において、患者から受け取られた生理学的データを表す受信信号の組(又はデータセットの組)の各信号(又はデータセット)をループする。ブロック410において、コンポーネントは、受信信号に対し、信号に1又は2以上の信号フィルタを適用すること、データに対してピーク検索を実行して無関係な情報を廃棄すること、受信信号をダウンサンプリングすること、受信信号をアップサンプリングすること、受信信号をサブサンプリングすること、アナログ信号をデジタル信号に変換すること、及び画像データを信号データに変換すること、などの前処理を行う。ブロック415において、コンポーネントは、前処理信号を患者データストアなどに記憶する。信号データは、匿名で(すなわち、対応する患者を明示的又は非明示的に識別することなく)記憶することができる。一方で、1人の患者からの複数の信号を訓練及び診断目的で併用できるように、同じ患者に関連する信号データの異なるインスタンスに匿名化された一意の識別子を関連付けることもできる。ブロック420において、コンポーネントは、記憶された信号データから1又は2以上の値を抽出する。ブロック425において、コンポーネントは、1又は2以上の抽出された値を記憶する。ブロック430において、コンポーネントは、信号に適用すべきあらゆる変換を識別する。例えば、施設は、一連の変換又は変換関数(例えば、フーリエ変換、信号に適用すべき関数、導関数及び偏導関数など)の指示を記憶して特定の信号に適用することができる。別の例として、施設は、変換カタログの中から1又は2以上の変換をランダムに選択して信号データに適用することもできる。ブロック435~460では、コンポーネントが各変換をループして信号データに変換を適用する。ブロック440において、コンポーネントは信号に変換を適用する(例えば、特定の変数に対する第3の導関数を計算したり、信号データに1つの関数を適用することによって生成される合成関数の結果(すなわち、信号データを表す関数)を計算したりなどを行う)。ブロック445において、コンポーネントは、変換された信号データを患者データストアなどに記憶する。ブロック450において、コンポーネントは、変換された信号データから1又は2以上の値を抽出する。ブロック455において、コンポーネントは、1又は2以上の抽出された値を記憶する。ブロック460において、適用すべきいずれかの変換がさらに識別された場合、コンポーネントは次の変換を選択してブロック435にループバックして信号データに変換を適用し、そうでなければブロック465に進む。ブロック465において、分析すべき信号がさらに存在する場合、コンポーネントは次の信号を選択してブロック405にループバックして次の信号を処理し、そうでなければ終了する。
【0030】
図5は、開示する技術のいくつかの実施形態による、特徴生成器適用コンポーネント223の処理を示すフロー図である。特徴生成器適用コンポーネント223は、発見コンポーネントによって呼び出され、前処理され変換された信号データ、モデル化信号データなどの信号データに1又は2以上の特徴生成器の組を適用する。コンポーネントは、ブロック510~570において、受け取られた各特徴生成器の組をループし、受信信号データセット内の各信号に特徴生成器を適用する。例えば、受信信号データは、複数の患者の各々の複数の信号データセット、及びそのデータの複数の変換などを含むことができる。ブロック520~550では、コンポーネントが各信号をループして信号データに特徴生成器を適用する。ブロック530において、コンポーネントは、現在選択されている信号データに現在選択されている特徴生成器を適用する。例えば、コンポーネントは、現在選択されている信号データの各前処理バージョン、及びそのデータのいずれかの変換バージョンに特徴生成器を適用することができる。別の例として、コンポーネントは、変数の組を有する特徴生成器に、モデル化された信号データによって生成された係数を「プラグイン」又は代入して出力特徴値を生成する。別の例として、コンポーネントは、モデル化された信号データの1又は2以上の要素をニューラルネットワークに適用して出力特徴値を生成することができる。ブロック540において、コンポーネントは出力値を記憶する。ブロック550において、分析すべき信号がさらに存在する場合、コンポーネントは次の信号を選択してブロック520にループバックして次の信号を処理し、そうでなければブロック560に進む。ブロック560において、コンポーネントは、生成された各特徴値を含む特徴ベクトルを生成し、特徴生成器に関連する特徴ベクトルを特徴ベクトルストアなどに記憶する。例えば、特徴ベクトルは、一連の特徴、及び対応する特徴生成器へのリンク又は対応する特徴生成器の識別子を含むことができる。コンポーネントは、特徴ベクトルの生成に使用された信号データに特徴ベクトルを関連付けることもできる。ブロック570において、処理すべき特徴生成器がさらに存在する場合、コンポーネントは次の特徴生成器を選択してブロック510にループバックして特徴生成器を処理し、そうでなければ特徴ベクトルを戻す。
【0031】
図6は、開示する技術のいくつかの実施形態による、新規特徴ベクトル識別コンポーネント224の処理を示すフロー図である。この例では、施設が、特徴ベクトルセットを受け取るとともに、特徴生成器の識別子などの、対応する特徴生成器に関する情報を特徴ベクトル毎に受け取る。ブロック605において、コンポーネントは、例えば新規であることが認められた前世代の特徴生成器によって生成された特徴ベクトルと、現世代の特徴ベクトルによって生成された特徴ベクトルとを含む、比較用特徴ベクトルセットを収集する。例えば、コンポーネントは、特徴ストアから新規特徴ベクトルセットをランダムに選択することができる。いくつかの例では、特徴ベクトルを取り出すための要求が、50以上(低閾値)かつ5000以下(高閾値)などの、取り出すべき各特徴ベクトルの特徴値の数の上限及び下限を含む。コンポーネントは、ブロック610~640において、現世代の特徴生成器の各特徴ベクトルをループして、その対応する各特徴ベクトルが、比較用特徴ベクトルセットの各特徴ベクトルとどのように異なるかを判定する。コンポーネントは、ブロック615~630において、比較用特徴ベクトルセットの各特徴ベクトルをループして、各特徴ベクトルと現在選択されている特徴生成器の特徴ベクトルとを比較する。ブロック620において、コンポーネントは、比較用セットの現在選択されている特徴ベクトルと、現在選択されている特徴生成器の特徴ベクトルとの間の差分値を計算する。例えば、コンポーネントは、各特徴ベクトル間の距離値を計算することができる。ブロック625において、コンポーネントは、計算された差分値を記憶する。ブロック630において、比較すべき特徴ベクトルがさらに存在する場合、コンポーネントは次の特徴ベクトルを選択してブロック615にループバックして特徴ベクトルを処理し、そうでなければブロック635に進む。ブロック635において、コンポーネントは、平均距離又は最大距離などの記憶された差分値に基づいて、現在選択されている特徴生成器の新規性スコアを計算し、この新規性スコアを特徴生成器に関連付けて(例えば特徴生成器ストアに)記憶する。ブロック640において、評価すべき特徴生成器がさらに存在する場合、コンポーネントは次の特徴生成器を選択してブロック615にループバックして特徴生成器を処理し、そうでなければブロック645に進む。コンポーネントは、ブロック645~660において、計算された新規性スコアに基づいて各特徴ベクトルが新規であるかどうかを試験し、いずれかの対応する特徴生成器を識別する。判定ブロック650において、現在選択されている特徴生成器の新規性スコアが新規性閾値よりも高い場合、コンポーネントはブロック655に進み、そうでなければブロック660に進む。新規性閾値は、ユーザから新規性閾値を受け取ること、及び新規性スコアの組に基づいて新規性閾値を計算すること(例えば、平均値、平均値プラス25%、上位n個(nはユーザによって提供され、又は施設によって自動的に生成される)、上位10パーセンタイル)などのあらゆる数の方法で生成又は決定することができる。従って、新規性閾値は、施設が新たな特徴生成器及び対応する特徴を生成して試験していることを確実にするように、例えば現在の新規性閾値を上回る新たな特徴生成器が存在しない世代の数に基づいて動的に(例えば、世代毎に)変化することができる。ブロック655において、コンポーネントは、現在選択されている特徴ベクトルを新規として識別する。ブロック660において、処理すべき特徴ベクトルがさらに存在する場合、コンポーネントは次の特徴ベクトルを選択してブロック645にループバックして特徴ベクトルを処理し、そうでなければ終了する。
【0032】
以上、本明細書では、開示する技術の特定の実施形態を例示目的で示したが、開示する技術の範囲から逸脱することなく様々な修正を行うことができると理解されるであろう。例えば、開示する技術は、天候パターン、地質活動の予測、又はサンプル入力データに基づいて予測を行う他のいずれかの分野などの医療分野以外の分野に適用することもできる。以下では、請求項の数を抑えるために、開示する技術のいくつかの態様をいくつかの請求項形態で示すが、出願人は、開示する技術の様々な態様をあらゆる数の請求項形態において企図する。従って、開示する技術は、添付の特許請求の範囲によるものを除いて限定されない。
【符号の説明】
【0033】
305 信号データを受信
310 信号データを処理
315 世代=0
320 特徴生成器を生成
325 特徴生成器を適用
330 新規特徴ベクトルを識別
335 識別された特徴ベクトル及び対応する生成器を記憶
340 世代=世代+1
345 生成≧世代閾値?
350 変異