(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6332598
(24)【登録日】2018年5月11日
(45)【発行日】2018年5月30日
(54)【発明の名称】表現型予測のためのエピスタシスの効率的なモデル化のための特徴選択方法、情報処理システム、及びコンピュータ・プログラム
(51)【国際特許分類】
G06F 19/18 20110101AFI20180521BHJP
【FI】
G06F19/18
【請求項の数】15
【全頁数】15
(21)【出願番号】特願2014-5564(P2014-5564)
(22)【出願日】2014年1月16日
(65)【公開番号】特開2014-139787(P2014-139787A)
(43)【公開日】2014年7月31日
【審査請求日】2016年12月20日
(31)【優先権主張番号】13/745914
(32)【優先日】2013年1月21日
(33)【優先権主張国】US
(31)【優先権主張番号】14/030743
(32)【優先日】2013年9月18日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
(74)【代理人】
【識別番号】100108501
【弁理士】
【氏名又は名称】上野 剛史
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(72)【発明者】
【氏名】ラクシュミー・ピー・パリダ
(72)【発明者】
【氏名】ダン・ヘ
(72)【発明者】
【氏名】デーヴィッド・ホーズ
【審査官】
宮久保 博幸
(56)【参考文献】
【文献】
国際公開第2006/088208(WO,A1)
【文献】
特表2012−502398(JP,A)
【文献】
特表2006−503346(JP,A)
【文献】
特開2010−224815(JP,A)
【文献】
特表2009−523285(JP,A)
【文献】
特表2008−503589(JP,A)
【文献】
特開2011−180120(JP,A)
【文献】
特開2006−048429(JP,A)
【文献】
Gayan, J.,A method for detecting epistasis in genome-wide studies using case-control multi-locus association analysis,BMC genomics,2008年 7月31日,Vol.9,p.360
(58)【調査した分野】(Int.Cl.,DB名)
G06F 19/18
(57)【特許請求の範囲】
【請求項1】
エピスタシス効果をモデル化するためのマーカーを選択するための、コンピュータによって実行される方法であって、
遺伝子マーカー集合と表現型とをプロセッサによって受け取ることと、
前記遺伝子マーカー集合の各々について、前記表現型に関する関連性スコアを判定することと、
最も高い関連性スコアを有する、前記遺伝子マーカー集合内の遺伝子マーカーの前記関連性スコアに基づいて、閾値を設定することと、
前記遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアを判定することと、
前記少なくとも1つの相互作用を、前記閾値を満たす前記少なくとも1つの相互作用の前記関連性スコアに基づいて、上位k特徴集合に追加することと
を含み、ここで前記上位k特徴集合内の各々の特徴が、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうちの一方であり、前記少なくとも1つの相互作用の前記関連性スコアを判定することが、
前記少なくとも1つの遺伝子マーカーが前記閾値を上回る関連性スコアを含む相互作用に関連付けられる確率を判定することと、
前記確率に基づいて、前記少なくとも1つの遺伝子マーカーに関連する複数の相互作用についての分析を行うかを判定することと
を含む、コンピュータによって実行される方法。
【請求項2】
前記遺伝子マーカー集合の各々について判定される前記関連性スコアが、前記遺伝子マーカー集合の前記各々と前記表現型との間の相互情報量に基づくものである、請求項1に記載のコンピュータによって実行される方法。
【請求項3】
前記少なくとも1つの相互作用について判定される前記関連性スコアが、前記少なくとも1つの相互作用と前記表現型との間の相互情報量に基づくものである、請求項1に記載のコンピュータによって実行される方法。
【請求項4】
前記遺伝子マーカー集合から遺伝子マーカー部分集合を無作為抽出することと、
前記遺伝子マーカー部分集合から、少なくとも1つの追加の遺伝子マーカーを選択することと
をさらに含む、請求項1に記載のコンピュータによって実行される方法。
【請求項5】
前記少なくとも1つの相互作用の前記関連性スコアを判定することが、
前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー部分集合の各々との間の第1の複数の相互作用の各々について、前記表現型に関する関連性スコアを含む第1の関連性スコア集合を判定することであって、前記第1の関連性スコア集合に関連付けられた正規分布に基づいて、前記確率が判定される、当該判定することと、
前記確率を、確率閾値と比較することと、
前記確率が前記確率閾値を満たすことに基づいて、前記分析を行うものと判定し、前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の残りの遺伝子マーカーの集合との間の第2の複数の相互作用の各々についての関連性スコアを含む第2の関連性スコア集合を判定することと
を含み、ここで、前記第2の複数の相互作用が、前記少なくとも1つの遺伝子マーカーに関連する前記複数の相互作用であり、かつ、前記少なくとも1つの相互作用を含み、前記残りの遺伝子マーカーの集合が、前記少なくとも1つの追加の遺伝子マーカーを含む、
請求項4に記載のコンピュータによって実行される方法。
【請求項6】
エピスタシス効果をモデル化するためのマーカーを選択するための、コンピュータによって実行される方法であって、
遺伝子マーカー集合と表現型とをプロセッサによって受け取ることと、
前記遺伝子マーカー集合の各々について、前記表現型に関する関連性スコアを判定することと、
最も高い関連性スコアを有する、前記遺伝子マーカー集合内の遺伝子マーカーの前記関連性スコアに基づいて、閾値を設定することと、
前記遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアを判定することと、
前記少なくとも1つの相互作用を、前記閾値を満たす前記少なくとも1つの相互作用の前記関連性スコアに基づいて、上位k特徴集合に追加することと
を含み、ここで前記上位k特徴集合内の各々の特徴が、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうちの一方であり、前記方法は、
前記遺伝子マーカー集合から遺伝子マーカー部分集合を無作為抽出することと、
前記遺伝子マーカー部分集合から、少なくとも1つの追加の遺伝子マーカーを選択することと
をさらに含み、
前記少なくとも1つの相互作用の前記関連性スコアを判定することが、
前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー部分集合の各々との間の第1の複数の相互作用の各々について、前記表現型に関する関連性スコアを含む第1の関連性スコア集合を判定することと、
前記第1の関連性スコア集合に関連付けられた正規分布に基づいて、前記少なくとも1つの遺伝子マーカーが前記閾値を上回る関連性スコアを含む相互作用に関連付けられる確率を判定することと、
前記確率を、確率閾値と比較することと、
前記確率閾値を満たす前記確率に基づいて、前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の残りの遺伝子マーカーの集合との間の第2の複数の相互作用の各々についての関連性スコアを含む第2の関連性スコア集合を判定することと
を含み、ここで、前記第2の複数の相互作用が、前記少なくとも1つの相互作用を含み、前記残りの遺伝子マーカーの集合が、前記少なくとも1つの追加の遺伝子マーカーを含む、
コンピュータによって実行される方法。
【請求項7】
前記少なくとも1つの相互作用を前記上位k特徴集合に追加することに基づいて、最も低い関連性スコアに関連付けられた遺伝子マーカー及び相互作用のうちの一方を前記上位k特徴集合から除去することにより、更新された上位k特徴集合を生成すること
をさらに含む、請求項1に記載のコンピュータによって実行される方法。
【請求項8】
前記閾値を、更新された上位k特徴内の遺伝子マーカー及び相互作用のうちの一方に関連付けられた最も高い関連性スコアに従って更新すること
をさらに含む、請求項7に記載のコンピュータによって実行される方法。
【請求項9】
前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの追加の相互作用についての関連性スコアを判定することと、
前記少なくとも1つの追加の相互作用の関連性スコアを、前記更新された閾値と比較することと、
前記少なくとも1つの追加の相互作用を、前記更新された閾値を満たす前記少なくとも1つの追加の相互作用の前記関連性スコアに基づいて、前記上位k特徴集合に追加することと
をさらに含む、請求項8に記載のコンピュータによって実行される方法。
【請求項10】
前記上位k特徴集合の部分集合内の各々の特徴が、前記表現型に対する関連性を最大化し、且つ、選択された他の特徴に対する冗長性を最小化する、請求項1に記載のコンピュータによって実行される方法。
【請求項11】
エピスタシス効果をモデル化するためのマーカーを選択するための情報処理システムであって、
メモリと、
前記メモリに通信可能に結合されたプロセッサと、
前記メモリ及び前記プロセッサに結合された特徴選択モジュールと
を含み、前記特徴選択モジュールが、
遺伝子マーカー集合と表現型とをプロセッサによって受け取ることと、
前記遺伝子マーカー集合の各々について、前記表現型に関する関連性スコアを判定することと、
最も高い関連性スコアを有する、前記遺伝子マーカー集合内の遺伝子マーカーの前記関連性スコアに基づいて、閾値を設定することと、
前記遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアを判定することと、
前記少なくとも1つの相互作用を、前記閾値を満たす前記少なくとも1つの相互作用の前記関連性スコアに基づいて、上位k特徴集合に追加することと
を含む方法を実行するように構成され、ここで前記上位k特徴集合内の各々の特徴が、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうち1つであり、前記少なくとも1つの相互作用の前記関連性スコアを判定することが、
前記少なくとも1つの遺伝子マーカーが前記閾値を上回る関連性スコアを含む相互作用に関連付けられる確率を判定することと、
前記確率に基づいて、前記少なくとも1つの遺伝子マーカーに関連する複数の相互作用についての分析を行うかを判定することと
を含む、情報処理システム。
【請求項12】
エピスタシス効果をモデル化するためのマーカーを選択するための情報処理システムであって、
メモリと、
前記メモリに通信可能に結合されたプロセッサと、
前記メモリ及び前記プロセッサに結合された特徴選択モジュールと
を含み、前記特徴選択モジュールが、
遺伝子マーカー集合と表現型とをプロセッサによって受け取ることと、
前記遺伝子マーカー集合の各々について、前記表現型に関する関連性スコアを判定することと、
最も高い関連性スコアを有する、前記遺伝子マーカー集合内の遺伝子マーカーの前記関連性スコアに基づいて、閾値を設定することと、
前記遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアを判定することと、
前記少なくとも1つの相互作用を、前記閾値を満たす前記少なくとも1つの相互作用の前記関連性スコアに基づいて、上位k特徴集合に追加することと
を含む方法を実行するように構成され、ここで前記上位k特徴集合内の各々の特徴が、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうち1つであり
前記特徴選択モジュールが実行する方法が、
前記遺伝子マーカー集合から遺伝子マーカー部分集合を無作為抽出することと、
前記遺伝子マーカー部分集合から、少なくとも1つの追加の遺伝子マーカーを選択することと
をさらに含み、
前記少なくとも1つの相互作用の前記関連性スコアを判定することが、
前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー部分集合の各々との間の第1の複数の相互作用の各々について、前記表現型に関する関連性スコアを含む第1の関連性スコア集合を判定することと、
前記第1の関連性スコア集合に関連付けられた正規分布に基づいて、前記少なくとも1つの遺伝子マーカーが前記閾値を上回る関連性スコアを含む相互作用に関連付けられる確率を判定することと、
前記確率を、確率閾値と比較することと、
前記確率閾値を満たす前記確率に基づいて、前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の残りの遺伝子マーカーの集合との間の第2の複数の相互作用の各々についての関連性スコアを含む第2の関連性スコア集合を判定することと
を含み、ここで、前記第2の複数の相互作用が、前記少なくとも1つの相互作用を含み、
前記残りの遺伝子マーカーの集合が、前記少なくとも1つの追加の遺伝子マーカーを含む、情報処理システム。
【請求項13】
前記特徴選択モジュールが実行する方法が、
前記少なくとも1つの相互作用を前記上位k特徴集合に追加することに基づいて、最も低い関連性スコアに関連付けられた遺伝子マーカー及び相互作用のうちの一方を前記上位k特徴集合から除去することにより、更新された上位k特徴集合を生成すること、
をさらに含む、請求項11に記載の情報処理システム。
【請求項14】
前記特徴選択モジュールが実行する方法が、
前記閾値を、更新された上位k特徴内の遺伝子マーカー及び相互作用のうちの一方に関連付けられた最も高い関連性スコアに従って更新することと、
前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの追加の相互作用についての関連性スコアを判定することと、
前記少なくとも1つの追加の相互作用の関連性スコアを、前記更新された閾値と比較することと、
前記少なくとも1つの追加の相互作用を、前記更新された閾値を満たす前記少なくとも1つの追加の相互作用の前記関連性スコアに基づいて、前記上位k特徴集合に追加することと、
をさらに含む、請求項13に記載の情報処理システム。
【請求項15】
コンピュータに実行されることにより、前記コンピュータに請求項1乃至10のいずれかに記載の方法を実行させるコンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に計算生物学の分野に関し、より具体的には、表現型予測のために遺伝子エピスタシスをモデル化するための特徴を選択することに関する。
【背景技術】
【0002】
特徴選択方法は、分類及び回帰の問題にとって重大である。これは、例えば、大規模な学習アプリケーション、特に、変数の量が標本数より遥かに多い、遺伝子発現データ及び遺伝子型などの生物学データに関する学習アプリケーションにおいて共通している。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Peng他、「Feature selection based on mutual information criteria of max−dependecy, max−relevance,and min−redundancy」、Pattern Analysis and Machine Intelligence、IEEE Transactions、2005年、第27巻、第8号、pp.1226−1238
【発明の概要】
【発明が解決しようとする課題】
【0004】
「次元の呪い」問題は、学習アルゴリズムの計算効率に影響を与えるだけでなく、これらのアルゴリズムの性能の低下にもつながる。この問題に対処するために、これらの特徴に対して学習アルゴリズムが訓練される種々の特徴選択方法を利用することができる。
【課題を解決するための手段】
【0005】
1つの実施形態において、エピスタシス効果をモデル化するためのマーカーを選択するためのコンピュータによって実行される方法が開示される。コンピュータによって実行される方法は、遺伝子マーカー集合と表現型とをプロセッサによって受け取ることを含む。遺伝子マーカー集合の各々について、表現型に関する関連性スコアが判定される。最も高い関連性スコアを有する、遺伝子マーカー集合内の遺伝子マーカーの関連性スコアに基づいて、閾値が設定される。遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、少なくとも1つの遺伝子マーカーと遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアが判定される。少なくとも1つの相互作用が、閾値を満たす該少なくとも1つの相互作用の関連性スコアに基づいて、上位k特徴集合に追加される。上位k特徴集合内の各々の特徴は、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうちの一方である。上位k特徴集合の部分集合が、身体的形質に対するエピスタシスの効果をモデル化するために選択される。
【0006】
別の実施形態において、エピスタシス効果をモデル化するためのマーカーを選択するための情報処理システムが開示される。情報処理システムは、メモリと、該メモリに通信可能に結合されたプロセッサとを含む。特徴選択モジュールが、メモリ及びプロセッサに通信可能に結合される。特徴選択モジュールは、ある方法を実施するように構成される。その方法は、遺伝子マーカー集合と表現型とを受け取ることを含む。遺伝子マーカー集合の各々について、表現型に関する関連性スコアが判定される。最も高い関連性スコアを有する、遺伝子マーカー集合内の遺伝子マーカーの関連性スコアに基づいて、閾値が設定される。遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、少なくとも1つの遺伝子マーカーと遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアが判定される。少なくとも1つの相互作用が、閾値を満たす該少なくとも1つの相互作用の関連性スコアに基づいて、上位k特徴集合に追加される。上位k特徴集合内の各々の特徴は、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうちの一方である。上位k特徴集合の部分集合が、身体的形質に対するエピスタシスの効果をモデル化するために選択される。
【0007】
更なる実施形態において、エピスタシス効果をモデル化するためのマーカーを選択するための、非一時的なコンピュータ・プログラム製品が開示される。コンピュータ・プログラム製品は、処理回路による読み出しが可能な、該処理回路がある方法を実施するために実行する命令を格納するストレージ媒体を含む。この方法は、遺伝子マーカー集合と表現型とを受け取ることを含む。遺伝子マーカー集合の各々について、表現型に関する関連性スコアが判定される。最も高い関連性スコアを有する、遺伝子マーカー集合内の遺伝子マーカーの関連性スコアに基づいて、閾値が設定される。遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、少なくとも1つの遺伝子マーカーと遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアが判定される。少なくとも1つの相互作用が、閾値を満たす該少なくとも1つの相互作用の関連性スコアに基づいて、上位k特徴集合に追加される。上位k特徴集合内の各々の特徴は、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうちの一方である。上位kの特徴セットの部分集合が、身体的形質に対するエピスタシスの効果をモデル化するために選択される。
【0008】
添付の図面において、個別の図の全てを通じて同様の参照符号は同一要素又は機能的に類似した要素を指し示し、それら図面は、以下の詳細な説明と共に本明細書に組み入れられ且つ本明細書の一部を構成するものであり、種々の実施形態を更に例証する役目、及び全て本発明に従う種々の原理及び利点を説明する役目を果たす。
【図面の簡単な説明】
【0009】
【
図1】本発明の1つの実施形態による動作環境の一例を示すブロック図である。
【
図2】本発明の1つの実施形態による、エピスタシス効果をモデル化するためのマーカーの選択の一例を示す操作フロー図である。
【発明を実施するための形態】
【0010】
図1は、本発明の1つの実施形態による1つの動作環境100の全般的な概要を示す。特に、
図1は、本発明の実施形態において利用することができる情報処理システム102を示す。
図1に示される情報処理システム102は、適切なシステムの一例に過ぎず、上記の本発明の実施形態の使用又は機能の範囲を限定することを意図したものではない。
図1の情報処理システム102は、上述の機能のいずれかを実装及び/又は実行することができる。任意の適切に構成された処理システムを本発明の実施形態における情報処理システム102として用いることができる。
【0011】
図1に示されるように、情報処理システム102は、汎用コンピューティング・デバイスの形態で示される。情報処理システム102のコンポーネントは、1つ又は複数のプロセッサ又は処理ユニット104、システム・メモリ106、及び、システム・メモリ106を含む種々のシステム・コンポーネントをプロセッサ104に結合するバス108を含むことができるが、これらに限定されるものではない。
【0012】
バス108は、メモリ・バス又はメモリ・コントローラ、周辺バス、アクセラレーテッド・グラフィックス・ポート、及び、種々のバス・アーキテクチャのいずれかを用いるプロセッサ又はローカル・バスを含む、幾つかのタイプのバス構造のうちのいずれか1つ又は複数を表す。限定ではなく例として、このようなアーキテクチャは、Industry Standard Architecture(ISA)バス、Micro Channel Architecture(MCA)バス、Enhanced ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカル・バス、及びPeripheral Component Interconnects(PCI)バスを含む。
【0013】
システム・メモリ106は、1つの実施形態において、後述の1つ又は複数の実施形態を実施するように構成された特徴選択モジュール109を含む。例えば、1つの実施形態において、特徴選択モジュール109は、最大関連性及び最小冗長性基準に基づくエピスタシス特徴選択プロセスに合わせて構成される。この特徴選択機構は、本明細書において「EMRMR」と呼ばれる。より詳細に後述するように、EMRMRを用いて、特徴選択モジュール109は、表現型予測のための効率的なエピスタシスのモデル化のために、最大関連性及び最小冗長性基準を用いて特徴空間から特徴の集合を選択する。
図1では、特徴選択モジュール109がメイン・メモリ内に存在しているように示されているが、特徴選択モジュール109は、プロセッサ104内に存在してもよく、別個のハードウェア・コンポーネントであってもよく、及び/又は、複数の情報処理システム及び/又はプロセッサにわたって分散していてもよいことに留意されたい。
【0014】
システム・メモリ106はまた、ランダム・アクセス・メモリ(RAM)110及び/又はキャッシュ・メモリ112といった、揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。情報処理システム102は、他の取り外し可能/取り外し不可能、揮発性/不揮発性のコンピュータ・システム・ストレージ媒体をさらに含むことができる。単なる例として、1つ又は複数の剛体ディスク及び/又は磁気媒体といった、取り外し不可能又は取り外し可能な不揮発性媒体(典型的には「ハード・ドライブ」と呼ばれる)との間の読み出し及び書き込みのために、ストレージ・システム114を設けることができる。取り外し可能な不揮発性磁気ディスク(例えば、「フロッピィ・ディスク」)との間の読み出し及び書き込みのための磁気ディスク・ドライブと、CD−ROM、DVD−ROM又は他の光媒体などの取り外し可能な不揮発性光ディスクとの間の読み出し及び書き込みのための光ディスク・ドライブとを設けることができる。このような例においては、各々は、1つ又は複数のデータ媒体インターフェースによってバス108に接続することができる。メモリ106は、本発明の実施形態の機能を実行するように構成されたプログラム・モジュールの組を有する少なくとも1つのプログラム製品を含むことができる。
【0015】
限定ではなく例として、メモリ106内に、プログラム・モジュール118の組を有するプログラム/ユーティリティ116、並びにオペレーティング・システム、1つ又は複数のアプリケーション・プログラム、他のプログラム・モジュール、及びプログラム・データを、格納することができる。オペレーティング・システム、1つ又は複数のアプリケーション・プログラム、他のプログラム・モジュール、及びプログラム・データ、又はそれらのいくつかの組み合わせの各々は、ネットワーキング環境の実装形態を含むことができる。プログラム・モジュール118は、一般に、本発明の実施形態の機能及び/又は方法を実行する。
【0016】
情報処理システム102はまた、キーボード、ポインティング・デバイス、ディスプレイ122などといった1つ又は複数の外部デバイス120、ユーザが情報処理システム102と対話することを可能にする1つ又は複数のデバイス、及び/又は、コンピュータ・システム/サーバ102が1つ又は複数の他のコンピューティング・デバイスと通信することを可能にするいずれかのデバイス(例えば、ネットワーク・カード、モデムなど)と通信することができる。このような通信は、I/Oインターフェース124を経由して行うことができる。さらにまた、情報処理システム102は、ローカル・エリア・ネットワーク(LAN)、汎用広域ネットワーク(WAN)、及び/又はパブリック・ネットワーク(例えば、インターネット)などの1つ又は複数のネットワークと、ネットワーク・アダプタ126を介して通信することができる。示されるように、ネットワーク・アダプタ126は、情報処理システム102の他のコンポーネントと、バス108を介して通信する。情報処理システム102とともに他のハードウェア及び/又はソフトウェア・コンポーネントもまた使用できることを理解されたい。例として、限定されるものではないが、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部のディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、及びデータ・アーカイブ・ストレージ・システムが挙げられる。
【0017】
特徴選択に関する1つの基準は、最大関連性及び最小冗長性(MRMR:Maximum−Relevance and Minimum−Redundancy)と呼ばれる。MRMRは、その階級値に最も大きく関連する、且つまた、互いに対する依存性が最も小さい特徴を貪欲に選択する。MRMRにおいて、最大関連性基準は、個々の特徴と階級変数との間の全ての相互情報量の値の平均値を最大にする特徴を探索する。しかしながら、最大関連性のみに基づく特徴選択は、高い冗長性を有する特徴を選択する傾向があり、すなわち選択された特徴の相関性が高くなる傾向がある。これらの高度に相関する特徴のうちの幾つかを除去しても、それぞれの階級弁別力は全く変化しないか又は問題にならない量しか変化しないであろう。従って、最小冗長性基準は、相互排反する特徴を選択するために利用される。MRMRに関するより詳細な議論は、その全体が引用よりここに組み入れられる非特許文献1において与えられる。
【0018】
表現型予測問題において、入力は、一般に、ある表現型値と、遺伝子型値(本明細書においては「特徴」、「マーカー」及び「遺伝子型」とも呼ばれる)の集合とを各々が有する、標本の集合である。表現型予測におけるタスクは、この入力データを用いてモデルを訓練して、更なる遺伝子型データを用いて入手できない表現型データを予測できるようにすることである。従って、回帰は次式で表され、
【数1】
式中、Yは表現型、X
iはi番目の遺伝子型値、dは遺伝子型の総数、β
iはi番目の遺伝子型に関する回帰係数であり、eは、典型的には正規分布であると仮定した場合の、誤差である。遺伝子型の数は、通常、標本の数より遥かに多いので、予測は、「次元の呪い」問題の影響を被る。
【0019】
エピスタシスは、異なる遺伝子型が互いに相互作用することがある現象である。エピスタシス効果がある場合、エピスタシス回帰モデルの1つのタイプは次式で与えることができ、
【数2】
式中、X
iX
jは、i番目とj番目の遺伝子型の遺伝子型値の積であり、これら2つの遺伝子型の相互作用を表す。可能な全てのエピスタシス対の数はO(d
2)であり、ここでdは遺伝子型の数である。dは通常、数万から数百万に及ぶので、しらみつぶし探索は、中程度のデータ集合に対してすら実行不可能である。特徴空間が数万から数百万にも及ぶような問題設定において、しらみつぶし探索は、完了するまで数週間から数年もかかることがある。従って、より効率的な方法を開発することは非常に重要である。
【0020】
エピスタシス効果検出には貪欲戦略が適用されており、この場合、周辺効果(marginal effect)が高いマーカーの部分集合が最初に選択される。次に、エピスタシスに関する統計的検定が、この部分集合内の全てのマーカー間、又は部分集合内のマーカーと残りのマーカーとの間で行われる。これらの戦略に伴う1つの問題は、一般に、存在が実証されているが周辺効果が低いマーカー間の全ての可能なエピスタシスが欠落するということである。従って、1つ又は複数の実施形態は、あらゆるマーカーを1つ1つ評価し、そのマーカーが有意なエピスタシス効果をもたらす確率を計算するモデルを提供する。その確率が特定の閾値より高い場合に、そのマーカーと残りのマーカーとの間の全ての相互作用が解析される。
【0021】
1つの実施形態において、特徴選択モジュール109は、入力として、遺伝子マーカーなどの特徴の集合と表現型などの階級/目標値とを各々が含む、訓練標本の集合を受け取る。別の実施形態において、特徴選択モジュール109はまた、各々が訓練標本と同じ特徴の集合のみを含み、目標値が欠落している検定標本の集合も受け取る。選択される特徴の数kもまた、入力として特徴選択モジュール109で受け取る。1つの実施形態において、特徴は行として表すことができ、標本は列として表すことができる。従って、訓練標本及び検定標本は、同じ列(特徴)を含むが、異なる行(標本)を含む。他の実施形態においては、検定標本を受け取らず、EMRMR選択プロセスは訓練標本に対してのみ行われることに留意されたい。特徴選択モジュール109により行われるEMRMR特徴選択プロセスの出力は、特徴の集合及びエピスタシス効果(即ち、相互作用)である。検定標本も入力として特徴選択モジュール109に与えられる場合、選択された特徴の集合をさらに処理して、検定標本から欠落している目標値を予測するためのモデルを構築することができる。
【0022】
上記の入力に基づいて、特徴選択モジュール109は、訓練標本のみを考慮して、全ての特徴の関連性スコアを次式に従って判定し、
【数3】
式中、Iは所与の特徴x
j(例えば、マーカー)と階級値c(例えば、表現型)との間の相互情報量である。2つの変数xとyとの相互情報量Iは、同時周辺確率p(x)及びp(y)並びに確率分布p(x,y)に基づいて、次式のように定義することができる。
【数4】
変数の相互情報量Iを判定するには、他の方法を用いることもできることに留意されたい。
【0023】
特徴選択モジュール109は、次に、全ての特徴をその関連性スコアを使用してランク付けする。特徴選択モジュール109は、上位k番目の特徴の関連性スコアに従って閾値Kを設定する。この閾値は、Kより低い関連性スコアを有する相互作用が選択されることを防ぐ。閾値Kは、相互作用を上位k特徴集合へと追加することによって、より効率的に相互作用を排除するようにさらに改良される。例えば、訓練標本の中の特徴ごとに、特徴選択モジュール109は、所与の特徴と訓練標本の集合内のその他の特徴との間の相互作用を解析する。特徴選択モジュール109は、これらの相互作用ごとに、式3及び式4に関して上で論じたのと同様の方法で階級値に関する関連性スコアを判定する。
【0024】
特徴選択モジュール109は、次に、この関連性スコアを閾値Kと比較する。関連性スコアが閾値Kより大きければ、特徴選択モジュール109は、その相互作用を上位k特徴集合に追加する。次いで、上位k特徴集合内で最も低くランク付けされた特徴である最下位の特徴を除去することにより、上位k特徴集合が更新される。閾値Kは、更新された特徴集合内のk番目の特徴の現在の関連性スコアで動的に更新される。従って、閾値Kが高くなるにつれて、ある相互作用が選択されることはより難しくなり、そのことにより1つ又は複数の実施形態のモデルがより効率的になる。
【0025】
1つの実施形態において、特徴選択モジュール109は、所与の特徴とその他の全ての特徴との間の全ての相互作用を考慮する必要はないことに留意されたい。例えば、この実施形態では、特徴選択モジュール109は、その特徴と他の特徴との間の少数の相互作用を無作為抽出し、これら抽出された相互作用の関連性スコアを計算する。具体的には、特徴選択モジュール109は、全ての特徴が独立に生成されると仮定する。所与の特徴を考えると、特徴選択モジュール109は、全ての特徴の集合からf個の特徴を無作為抽出する。次に、所与の特徴とf個の選択されたマーカーの集合の各々との間の各々の相互作用の関連性スコアが、上述の方法と同様にして判定される。
【0026】
特徴選択モジュール109は、このとき、所与の特徴が関与する相互作用の関連性スコアが正規分布に従うものと仮定する。f個の関連性スコアを用いて、特徴選択モジュール109は、正規分布の平均及び標準偏差を推定する。次にこの分布を用いて、且つ、特徴の総数がNとして与えられると、特徴選択モジュール109は、N−1個の可能な相互作用の中から少なくとも1つの有意な関連性スコアが見いだされる確率を計算し、ここで、スコアは現在のスコア閾値Kより高ければ有意である。確率が所定の閾値P、例えば0.005より低ければ、この特徴はスキップされる。確率が閾値Pより高ければ、特徴選択モジュール109は、この所与の特徴と残りの全ての特徴との間の相互作用を検討/検定する。
【0027】
例えば、特徴選択モジュール109は、所与の特徴と全ての特徴の集合内の残りの特徴との間の相互作用の関連性スコアを、既に上述した方法と同様に判定する。特徴選択モジュール109は、これらの関連性スコアを閾値Kと比較する。関連性スコアが閾値Kより大きければ、その相互作用が上位k特徴集合に追加され、集合内の最下位の特徴が除去される。閾値Kは、更新された特徴集合内のk番目の特徴の現在の関連性スコアで動的に更新され、この更新された特徴集合は、いまやマーカー及び相互作用の両方を含むことになる。上記プロセスは、訓練集合内の全ての特徴が検討されるまで続けられ、上位k特徴の最終的な集合が生成される。特徴選択モジュール109は次に、この上位k特徴の最終的な集合を出力する。
【0028】
次いで、MRMRプロセス、例えば、その全体を引用によりここに組み入れる「Transductive Feature Selection With Maximum−Relevancy and Minimum−Redundancy Criteria」という名称の、同一出願人による係属中の米国特許出願番号第13/745,930号において考察されている転導的(transductive)MRMR(TMRMR)プロセス(これに限定されないが)を用いて、特徴の部分集合を上位k特徴から選択することができる。この実施形態において、特徴の部分集合内の各々の特徴は、表現型との関連性を最大化し、且つ、他の選択された特徴に関する冗長性を最小化する。
【0029】
図2は、エピスタシス効果をモデル化するためのマーカーを選択するためのプロセス全体の一例を示す操作フロー図である。操作フロー図は、ステップ202において開始し、ステップ204に直接進む。特徴選択モジュール109は、ステップ204において、遺伝子マーカー集合と表現型とを受け取る。特徴選択モジュール109は、ステップ206において、その表現型に関する関連性スコアを遺伝子マーカー集合の各々について判定する。特徴選択モジュール109は、ステップ208において、最も高い関連性スコアを有する、遺伝子マーカー集合内の遺伝子マーカーの関連性スコアに基づいて、閾値を設定する。特徴選択モジュール109は、ステップ210において、遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、該少なくとも1つの遺伝子マーカーと遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアを判定する。特徴選択モジュール109は、ステップ212において、少なくとも1つの相互作用を、閾値を満たす該少なくとも1つの相互作用の関連性スコアに基づいて、上位k特徴集合に追加する。上位k特徴集合内の各々の特徴は、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうちの一方である。制御フローは、ステップ214において終了する。
【0030】
当業者により認識されるように、本発明の態様は、システム、方法又はコンピュータ・プログラム製品として具体化することができる。従って、本発明の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又はソフトウェアの態様とハードウェアの態様とを組み合わせた実施形態の形態をとることができ、これらは全て、本明細書において一般的に「回路」、「モジュール」又は「システム」と呼ぶことができる。さらに、本発明の態様は、具体化されたコンピュータ可読プログラム・コードを有する1つ又は複数のコンピュータ可読媒体内に具体化されたコンピュータ・プログラム製品の形態をとることができる。
【0031】
1つ又は複数のコンピュータ可読媒体の任意の組み合わせを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読ストレージ媒体とすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子、磁気、光、電磁気、赤外線、若しくは半導体のシステム、装置、若しくはデバイス、又は上記のもののいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例(非網羅的なリスト)として、1つ又は複数の配線を有する電気的接続、携帯用コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、光ファイバ、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD−ROM)、光記憶装置、磁気記憶装置、又は上記のもののいずれかの適切な組み合わせが挙げられる。本明細書の文脈において、コンピュータ可読ストレージ媒体は、命令処理システム、装置若しくはデバイスによって又はそれらとの関連で用いるためのプログラムを収容又は格納することができる任意の有形媒体とすることができる。
【0032】
コンピュータ可読信号媒体は、コンピュータ可読プログラム・コードが、例えばベースバンド内に又は搬送波の一部としてその中に具体化された、伝搬データ信号を含むことができる。このような伝搬信号は、これらに限定されるものではないが、電磁気、光又はこれらのいずれかの適切な組み合わせを含む、種々の形態のいずれかを取ることができる。コンピュータ可読信号媒体は、コンピュータ可読ストレージ媒体ではなく、且つ、命令処理システム、装置若しくはデバイスによって又はこれらと関連して用いるためのプログラムを通信、伝搬、又は搬送することができる、任意のコンピュータ可読媒体とすることができる。
【0033】
コンピュータ可読媒体上に具体化されたプログラム・コードは、これらに限定されるものではないが、無線、有線、光ファイバ・ケーブル、RFなど、又は上記のもののいずれかの適切な組み合わせを含む、任意の適切な媒体を用いて伝送することができる。
【0034】
本発明の態様のための動作を実行するためのコンピュータ・プログラム・コードは、Java、Smalltalk、C++などのようなオブジェクト指向型プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続き型プログラミング言語を含む、1つ又は複数のプログラミング言語の任意の組み合わせで記述することができる。プログラム・コードは、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で独立型ソフトウェアパッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。後者のシナリオにおいては、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は、外部コンピュータへの接続がなされる場合もある(例えば、インターネット・サービス・プロバイダを用いるインターネットを通じて)。
【0035】
本発明の態様を、本発明の種々の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して上で論じた。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ・プログラム命令によって実装することができることが理解されるであろう。これらのコンピュータ・プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサにより実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実装するための手段を生成するようにすることができる。
【0036】
これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイスに特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実装する命令を含む製品を製造するようにすることもできる。
【0037】
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で、コンピュータ実装プロセスを生成するための一連の動作ステップを実施させてコンピュータ実装プロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実装するためのプロセスを提供するようにすることもできる。
【0038】
本明細書において用いられる用語は、特定の実施形態を説明する目的のためのものにすぎず、本発明を限定することを意図したものではない。本明細書において用いられる場合、単数形「a」、「an」及び「the」は、文脈が明らかにそうでないことを示していない限り、複数形も同様に含むことが意図される。「含む(comprises)」及び/又は「含んでいる(comprising)」という用語は、本明細書において用いられる場合、言明された特徴、整数、ステップ、動作、要素、及び/又はコンポーネントの存在を指定するが、1つ又は複数の他の特徴、整数、ステップ、動作、要素、コンポーネント、及び/又はそれらの群の存在又は追加を排除するものではないことが、さらに理解されるであろう。
【0039】
本発明の種々の説明は、例示及び説明の目的で提示されたものであるが、網羅的であることを意図するものではなく、又は本発明を開示された形態の限定することを意図するものでもない。本発明の範囲及び思想から逸脱することのない多くの変更及び変形が、当業者には明らかであろう。実施形態は、本発明の原理及び実際の適用を最も良く説明するように、且つ、当業者が、企図された特定の使用に適するように種々の修正を伴う種々の実施形態について本発明を理解することを可能にするように選択され、説明がなされた。
【符号の説明】
【0040】
100:動作環境
102:情報処理システム
104:処理ユニット
106:システム・メモリ
108:バス
109:特徴選択モジュール
110:ランダム・アクセス・メモリ(RAM)
112:キャッシュ・メモリ
114:ストレージ・システム
116:プログラム・ユーティリティ
118:プログラム・モジュール
120:外部デバイス
122:ディスプレイ
124:I/Oインターフェース
126:ネットワーク・アダプタ