(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022176173
(43)【公開日】2022-11-25
(54)【発明の名称】生物学的配列を分類する方法、コンピュータプログラム、コンピュータ実装方法(未知のゲノムおよび直近既知ゲノムの識別)
(51)【国際特許分類】
G16B 40/30 20190101AFI20221117BHJP
G06N 3/08 20060101ALI20221117BHJP
G06N 3/04 20060101ALI20221117BHJP
【FI】
G16B40/30
G06N3/08
G06N3/04
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2022079466
(22)【出願日】2022-05-13
(31)【優先権主張番号】17/321,371
(32)【優先日】2021-05-14
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】パストレ ヴィト パオロ
(72)【発明者】
【氏名】クニトミ マーク
(72)【発明者】
【氏名】ビアンコ サイモン
(57)【要約】 (修正有)
【課題】生物学的配列を分類する方法、コンピュータプログラム及びコンピュータ実装方法(未知のゲノム及び直近既知ゲノムの識別)を提供する。
【解決手段】生物学的配列を分類する方法は、生物学的配列に関するトレーニングセットを提供する段階、トレーニングセットおよび生物学的配列を配列フラグメントに分割する段階、トレーニングセットの配列フラグメントおよび生物学的配列の配列フラグメントから特徴ベクトルを抽出する段階、トレーニングセットの配列フラグメントから抽出された特徴ベクトルに対応する生物学的配列の配列フラグメントから抽出された特徴ベクトルを識別する段階、生物学的配列の配列フラグメントからの特徴ベクトルの、トレーニングセットの配列フラグメントからの特徴ベクトルからの発散の平均の程度を含む閾値を確立する段階及び生物学的配列の配列フラグメントの抽出された特徴の中からアノマリを検出する段階を備える。
【選択図】なし
【特許請求の範囲】
【請求項1】
生物学的配列を分類する方法であって、
関心のある生物学的配列に関する生物学的配列のトレーニングセットを提供する段階と、
前記トレーニングセットおよび前記関心のある生物学的配列を配列フラグメントに分割する段階と、
前記トレーニングセットの配列フラグメントから、および前記関心のある生物学的配列の配列フラグメントから特徴ベクトルを抽出する段階と、
前記トレーニングセットの配列フラグメントから抽出された前記特徴ベクトルに対応する、前記関心のある生物学的配列の配列フラグメントから抽出された前記特徴ベクトルを識別する段階と、
前記関心のある生物学的配列の配列フラグメントからの前記特徴ベクトルの、前記トレーニングセットの配列フラグメントからの前記特徴ベクトルからの発散の平均の程度を含む閾値を確立する段階であって、前記閾値は前記関心のある生物学的配列の配列フラグメントの分類に関するパーセンテージを設定する、段階と、
前記関心のある生物学的配列の前記配列フラグメントの前記抽出された特徴の中からアノマリを検出する段階であって、前記アノマリは前記閾値から外れた配列フラグメントである、段階と、
を備える、方法。
【請求項2】
前記閾値に属する前記関心のある生物学的配列の配列フラグメントが、既知の生物学的配列に割り当てられる、請求項1に記載の方法。
【請求項3】
前記アノマリが、直近の既知の生物学的配列に割り当てられる、請求項1に記載の方法。
【請求項4】
前記関心のある生物学的配列が、ゲノム配列、遺伝子配列、タンパク質配列、およびタンパク質ドメイン配列で構成される群から選択される、請求項1に記載の方法。
【請求項5】
前記ゲノム配列が微生物ゲノム配列である、請求項4に記載の方法。
【請求項6】
前記特徴ベクトルが、ディープラーニングアルゴリズムによって前記関心のある生物学的配列の配列フラグメントから抽出される、請求項1に記載の方法。
【請求項7】
前記特徴ベクトルが、畳み込みニューラルネットワークによって前記関心のある生物学的配列の配列フラグメントから抽出される、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記畳み込みニューラルネットワークが、最大プーリングアルゴリズムを備える、請求項7に記載の方法。
【請求項9】
生物学的配列を分類するコンピュータプログラムであって、前記コンピュータプログラムは、1または複数のコンピュータ可読記憶媒体、および1または複数のコンピュータ可読記憶媒体上にまとめて記憶されるプログラム命令を備え、前記プログラム命令は、
関心のある生物学的配列に関する配列フラグメントのトレーニングセットを有するディープラーニングアルゴリズムをトレーニングするためのプログラム命令であって、前記ディープラーニングアルゴリズムは、前記トレーニングセットから特徴ベクトルを抽出する、プログラム命令と、
前記トレーニングされたディープラーニングアルゴリズムを前記関心のある生物学的配列の配列フラグメントに適用し、前記配列フラグメントから抽出された特徴ベクトルを取得するプログラム命令と、
前記トレーニングセットから抽出された前記特徴ベクトルおよび前記関心のある生物学的配列から抽出された前記特徴ベクトルをクラスタリングし、前記関心のある生物学的配列の前記抽出された特徴ベクトルの、前記トレーニングセットの前記抽出された特徴ベクトルからの発散の平均の程度を計算するためのプログラム命令と、
発散の前記平均の程度に基づいて閾値を確立するためのプログラム命令であって、前記閾値は前記関心のある生物学的配列の前記配列フラグメントの分類に関するパーセンテージを設定する、プログラム命令と、
前記関心のある生物学的配列の前記配列フラグメントの前記抽出された特徴の中からアノマリを検出するためのプログラム命令であって、前記アノマリは前記閾値から外れた配列フラグメントである、プログラム命令と、を備える、
コンピュータプログラム。
【請求項10】
前記閾値に属する前記関心のある生物学的配列の配列フラグメントが、既知の生物学的配列に割り当てられる、請求項9に記載のコンピュータプログラム。
【請求項11】
前記アノマリが、直近の既知の生物学的配列に割り当てられる、請求項9に記載のコンピュータプログラム。
【請求項12】
前記関心のある生物学的配列が、ゲノム配列、遺伝子配列、タンパク質配列、タンパク質ドメイン配列、およびそれらの組み合わせで構成される群れから選択される、請求項9に記載のコンピュータプログラム。
【請求項13】
前記ゲノム配列が微生物ゲノム配列である、請求項12に記載のコンピュータプログラム。
【請求項14】
前記ディープラーニングアルゴリズムが、畳み込みニューラルネットワークを備える、請求項9から13のいずれか一項に記載のコンピュータプログラム。
【請求項15】
前記畳み込みアルゴリズムが、最大プーリングアルゴリズムを備える、請求項14に記載のコンピュータプログラム。
【請求項16】
生物学的配列を分類するコンピュータ実装方法であって、前記コンピュータ実装方法は、
未知のウイルス種の配列に関連する配列フラグメントのトレーニングセットを確立する段階と、
前記トレーニングセットによって畳み込みアルゴリズムをトレーニングする段階であって、畳み込みネットワークは、前記トレーニングセットの前記配列フラグメントから特徴ベクトルを抽出する、段階と、
前記未知のウイルス種の配列フラグメントに、前記トレーニングされた畳み込みアルゴリズムを適用する段階であって、前記畳み込みアルゴリズムは前記未知のウイルス種の前記配列フラグメントから特徴ベクトルを抽出する、段階と、
前記トレーニングセットから抽出された前記特徴ベクトルおよび前記未知のウイルス種から抽出された前記特徴ベクトルをクラスタリングし、前記トレーニングセットの前記抽出された特徴ベクトルから、前記未知のウイルス種の前記抽出された特徴ベクトルの発散の平均の程度を計算する段階と、
発散の前記平均の程度に基づいて閾値を確立する段階であって、前記閾値は前記未知のウイルス種の前記配列フラグメントの分類のためのパーセンテージを設定する、段階と、
前記未知のウイルス種の前記配列フラグメントの前記抽出された特徴の中からアノマリを検出する段階であって、前記アノマリは前記閾値から外れた配列である、段階と、
を備える、コンピュータ実装方法。
【請求項17】
前記閾値に属する前記未知のウイルス種の配列フラグメントが、既知のウイルス種配列に割り当てられる、請求項16に記載のコンピュータ実装方法。
【請求項18】
前記アノマリが、直近の既知のウイルス種配列に割り当てられる、請求項16に記載のコンピュータ実装方法。
【請求項19】
前記畳み込みアルゴリズムが、畳み込みニューラルネットワークである、請求項16に記載のコンピュータ実装方法。
【請求項20】
前記畳み込みアルゴリズムが、最大プーリングアルゴリズムを備える、請求項16から19のいずれか一項に記載のコンピュータ実装方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般バイオインフォマティクスに関し、より具体的には、未知および直近既知ゲノムを識別するためのディープラーニング人工知能の使用に関する。
【背景技術】
【0002】
ウイルス病原体の分類学的分類は、公共安全のために重要である。例えば、ウイルスまたは別の病原体の名を決定する能力は、多くの場合、食品安全性、臨床例における治療法の選択肢、および疫学的調査において可能性のある伝送の連鎖の判断の観点から、政府および公共サービス機関によって取られる行動の針路を設定する。生きている生命体の多様性は、病原体を検出する、病原体と戦う、および病原体を分類する能力における困難を提示する。高スループットシーケンシングのコストの減少およびアクセス可能性の増加によって、シーケンシングされたゲノムの数は急速に増加してきた。ゲノムシーケンシングの向上によって、データをスケーリングする方法においてデータの増加がもたらされる。データの純粋な量(2017年11月にGenBankには>100,000のゲノムがある)は、多様なウイルス、バクテリア、真菌などの取り込みの機会を与えるが、大量のデータはまた、このデータから意味を持つ特徴を計算的に導出する方法の開発のための課題も与える。標準の生物情報分類ソフトウェアの使用は、関心のある生命体から入ってくるすべてのゲノムデータを組み込む大スケールのデータベースに依存する。データが増えるにつれて、これらの方法の計算的負荷は、記憶、メモリ、および計算時間の目的のためにますます実行不能になっている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
ディープラーニング分類子の1つの欠陥は、モデルがトレーニングされたデータに関する外れ値として、与えられた観測値を呼び出すことが一般に不可能なことである。ナイーブなディープラーニング分類子は、最良の利用可能な候補に基づいて予測を行うであろう。このアプローチは、まだ発見されていないウイルス種などの種の場合に問題である。外れ値配列を検出する能力と共に、ウイルスゲノムを特徴づける特徴、および多様性のコンテキストにおける集団を決定する能力は、公衆衛生および食品安全性に関して有益である。
【課題を解決するための手段】
【0004】
一態様において、本発明は、生物学的配列を分類する方法に関し、方法は、関心のある生物学的配列に関する生物学的配列のトレーニングセットを提供する段階と、トレーニングセットおよび関心のある生物学的配列を配列フラグメントに分割する段階と、トレーニングセットの配列フラグメントから、および関心のある生物学的配列の配列フラグメントから特徴ベクトルを抽出する段階と、トレーニングセットの配列フラグメントから抽出された特徴ベクトルに対応する、関心のある生物学的配列の配列フラグメントから抽出された特徴ベクトルを識別する段階と、関心のある生物学的配列の配列フラグメントからの特徴ベクトルの、トレーニングセットの配列フラグメントからの特徴ベクトルからの発散の平均の程度を含む閾値を確立する段階であって、閾値は関心のある生物学的配列の配列フラグメントの分類に関するパーセンテージを設定する、段階と、関心のある生物学的配列の配列フラグメントの抽出された特徴の中からアノマリを検出する段階であって、アノマリは閾値から外れた配列フラグメントである、段階と、を備える。
【0005】
別の態様において、本発明は、生物学的配列を分類するコンピュータプログラム製品に関し、コンピュータプログラム製品は、1または複数のコンピュータ可読記憶媒体、および1または複数のコンピュータ可読記憶媒体上にまとめて記憶されるプログラム命令を備え、プログラム命令は、関心のある生物学的配列に関する配列フラグメントのトレーニングセットを有するディープラーニングアルゴリズムをトレーニングするためのプログラム命令であって、ディープラーニングアルゴリズムは、トレーニングセットから特徴ベクトルを抽出する、プログラム命令と、トレーニングされたディープラーニングアルゴリズムを関心のある生物学的配列の配列フラグメントに適用し、配列フラグメントから抽出された特徴ベクトルを取得するプログラム命令と、トレーニングセットから抽出された特徴ベクトルおよび関心のある生物学的配列から抽出された特徴ベクトルをクラスタリングし、トレーニングセットの抽出された特徴ベクトルから関心のある生物学的配列の抽出された特徴ベクトルの発散の平均の程度を計算するためのプログラム命令と、発散の平均の程度に基づいて閾値を確立するためのプログラム命令であって、閾値は関心のある生物学的配列の配列フラグメントの分類に関するパーセンテージを設定する、プログラム命令と、関心のある生物学的配列の配列フラグメントの抽出された特徴の中からアノマリを検出するためのプログラム命令であって、アノマリは閾値から外れた配列フラグメントである、プログラム命令と、を備える。
【0006】
さらなる態様において、本発明は、生物学的配列を分類するコンピュータ実装方法に関し、コンピュータ実装方法は、関心のある生物学的配列に関連する配列フラグメントのトレーニングセットによってディープラーニングアルゴリズムをトレーニングする段階であって、ディープラーニングアルゴリズムは、トレーニングセットから特徴ベクトルを抽出する、段階と、関心のある生物学的配列の配列フラグメントに、トレーニングされたディープラーニングアルゴリズムを適用し、配列フラグメントから抽出された特徴ベクトルを取得する段階と、トレーニングセットから抽出された特徴ベクトルおよび関心のある生物学的配列から抽出された特徴ベクトルをクラスタリングし、トレーニングセットの抽出された特徴ベクトルから、関心のある生物学的配列の抽出された特徴ベクトルの発散の平均の程度を計算する段階と、発散の平均の程度に基づいて閾値を確立する段階であって、閾値は関心のある生物学的配列の配列フラグメントの分類のためのパーセンテージを設定する、段階と、関心のある生物学的配列の配列フラグメントの抽出された特徴の中からアノマリを検出する段階であって、アノマリは閾値から外れた配列フラグメントである、段階と、を備える。
【0007】
本発明の追加的な態様あるいは実施形態またはその組み合わせが、限定されることなく、以下に記載される発明の詳細な説明において提供されるであろう。
【図面の簡単な説明】
【0008】
【
図1】150-マーのウイルスゲノムサンプルから40のウイルスゲノムを識別および分類する最大プーリングを有する、1次元畳み込みニューラルネットワーク(1-D CNN)の概略的な表現である。
【
図2】直近のウイルスゲノムを、1-D CNNによって識別および分類された40のウイルスゲノムへと識別して分類する、ワークフローの概略的な表現である。
【発明を実施するための形態】
【0009】
本発明の、好ましい態様もしくは実施形態またはその組み合わせであると現在考えられていることの説明が、以下に記載される。機能、目的、または構造におけるいかなる代替または変更も、添付の特許請求の範囲によって包含されるように意図される。そうでない旨の文脈での明確な指示がない限り、本明細書および添付の特許請求の範囲において使用されるとき、単数形「1つの(a)」、「1つの(an)」、および「その(the)」には複数の指示対象が含まれる。明細書および添付の特許請求の範囲において使用されるとき、用語「備え(comprise)」、「備える(comprised)」、「含む(comprises)」、もしくは「含み(comprising)」、またはその組み合わせは、明示されたコンポーネント、要素、特徴、もしくはステップ、またはその組み合わせの存在を指定するが、1または複数の他のコンポーネント、要素、特徴、もしくはステップ、またはその組み合わせの存在または追加を除外しない。
【0010】
本明細書で使用されるとき、用語「ディープラーニング」は、データの処理および分類において人間の脳の動作を模倣する人工知能(AI)機能を指す。ディープラーニングベースのAIは、構造化されておらず、ラベル付けされていないデータからの学習が可能である。動作中に、ディープラーニングベースのAIプログラムは、任意の入力xおよび任意の出力yが相互関係または因果関係によって関連づけられると想定し、それらの間の未知の関数(f(x)=y)を近似するように学習することによって、入力と出力の間に相互関係を見つける。
【0011】
本明細書で使用されるとき、用語「ニューラルネットワーク」は、シミュレーションされたニューロンの集合を有する、人間の脳をモデルにしたディープラーニング分類アルゴリズムを指す。各ニューロンは、生物学的な軸索シナプス樹状突起接続に類似したリンクを介して他のノードに接続されるノードである。各リンクは、1つのノードの、別のノードへの影響の強度を決定する重みを有する。ニューラルネットワークは、例を処理することによって学習し(すなわち、トレーニングされ)、ニューラルネットワークの各々が既知の入力および出力を含み、入力および出力はそれらの間に確率的に重み付けされた関連を形成する。動作中に、例示的な入力の間の類似性による入力データをラベル付けされていないニューラルネットワークグループが、自動的にグループから特徴を抽出し、同様の特徴でグループをクラスタリングし、トレーニングのためのラベリングされたデータセットがあるとき、出力データを分類する。ニューラルネットワークによって認識されたパターンは数値的であり、ベクトルに含まれ、それらは変換されなければならない。ニューラルネットワークベクトルの例は、限定するものではないが、イメージ、音、テキスト、時、またはそれらの組み合わせを含む。
【0012】
本明細書に使用されるとき、用語「畳み込みニューラルネットワーク」または「CNN」は、ニューラルネットワークがデータを解析するように適用される、分類アルゴリズムである。CNNは、1次元(1-D)、2次元(2-D)、または3次元(3-D)であってよい。一般に、1-D CNNは音声およびテキストデータに使用され、2-D CNNは画像データに使用され、3-D CNNは3-D 画像データに使用される。CNNは畳み込みカーネルを使用し、それは、入力データから特徴を抽出し、抽出された特徴から予測を行うように使用される、学習可能なフィルタ行列である。カーネル行列は、ストライド値だけ入力データに沿って移動する。例えば、ストライド値が2の場合、カーネルは入力行列におけるデータが2列だけ移動する。1-D CNNにおいて、入力データは1次元であり、畳み込みカーネルは時間の軸に沿って1次元でスライドする。2-D CNNにおいて、入力データは2次元であり、カーネルは高さおよび幅の軸に沿って2次元でスライドする。3-D CNNにおいて、入力データは3次元であり、カーネルは高さ、幅およびボリュームの軸に沿って3次元でスライドする。
【0013】
一般に、畳み込み層は入力を畳み込み、その結果を次の層に渡す。十分に接続される間に、フィードフォワードニューラルネットワークが、特徴を学習してデータを分類するように使用され得る。CNNは、1つの層における各ニューロンが、次の層上のすべてのニューロンに接続される、多層で十分に接続されたネットワーク(パーセプトロンとしても知られる)を正則化(regularize)する。CNNの十分に接続された層の性質は、過剰適合データへと至り、それは正則化されなければならない。CNNは、より小さい、より簡潔なパターンを使用して複雑なパターンを組み立てるように、データの階層的パターンを利用することにより正則化する。CNNは、入力層、隠された中間層、および出力層で構成される。隠された中間層は、畳み込みを実行する。畳み込み層を通って渡した後、データは特徴マップへと抽象化されたものになり、それは前の層に適用された畳み込みカーネルの出力である。
【0014】
本明細書で行われるディープラーニングへのすべての言及は、ディープラーニングベースのAIのサブセットとしてのニューラルネットワークおよびCNNを含むことが、理解されるべきである。
【0015】
本明細書で使用されるとき、用語「最大プーリング」は、個別の畳み込み層に続くCNNに追加される動作を指す。最大プーリングが畳み込み層の後に追加されるので、畳み込み動作からの出力は、最大プーリング演算への入力である。CNNに追加されたとき、最大プーリングは、前の畳み込み層からのデータ出力を削減する。最大プーリング出力が畳み込み層に入力されるとき、CNNは、本来の入力画像のより広い面積を解析しており、故に、分析のためのパラメータの数と、CNNシステム上の計算負荷を削減する。最大プーリングは、より低い値を破棄しながら前進する高いデータ値を維持することによって、CNN分析に固有の過学習もまた削減する。
【0016】
本明細書に使用されるとき、用語「Yパーセンタイル」はディープラーニング後退変数を指す。ディープラーニングにおいて、入力変数はXで識別され、出力値は、Y=f(X)となるようなYで識別され、f(X)は予測値であり、Yは調整されるパラメータである。例えば、予測値に関するYパーセンテージが75%に設定されるとき、出力値が予測値を下回る可能性が75%であり、出力値が予測値を上回る可能性が25%である。
【0017】
本明細書で使用されるとき、用語「k-マー」は、DNA配列内に含まれる長さkのヌクレオチド(すなわち、ATGC)の文字列を指す。例示の目的で、配列「AATCGCC」は7つのモノマ(A、A、T、C、G、C、C)、6つの2-マー(AA、AT、TC、CG、GC、CC)、5つの3-マー(AAT、ATC、TCG、CGC、GCC)、4つの4-マー(AATC、ATCG、TCGC、CGCC)、3つの5-マー(AATCG、ATCGC、TCGCC)、2つの6-マー(AATCGC、ATCGCC)、および1つの7-マー(AATCGCC)を有する。
【0018】
本明細書で使用されるとき、用語「ワンホット符号化(one-hot encoding)」は、ビット群の中で、1つの変数が単一のハイ(1)(「ワンホット」)として識別され、他のすべてがロー(0)として識別されるような、処理前カテゴリ変数のための計算方法を指す。ワンホット符号化は、例えばヌクレオチドなどの非数値的入力変数が、AIシステムにおいて計算的に分析するのに適した数値的値になることを可能にする。表1は、7-マーAATCGCCに関するワンホットコーディング二値行列の一例を提供する。中に示されるように、分析を受けているヌクレオチドは値(1)によって表され、残りのヌクレオチドは値(0)を有する。表1
【表1】
【0019】
本明細書で使用されるとき、用語「ゲノム配列」は、任意の生きている生物のゲノム全体の中に存在するヌクレオチド塩基の順序を指す。本明細書に記載される方法において予期されるゲノムの例は、限定するものではないが、動物、昆虫、植物、微生物を含む。微生物の例は、限定するものではないが、ウイルス、バクテリア、古細菌、真菌、モールド、原生動物、蠕虫、およびプリオンを含む。用語「遺伝子配列」は、任意の生きている生物の1または複数の形質の表現を完全にまたは部分的に制御する、ヌクレオチド塩基の順序を指す。用語「タンパク質配列」は、タンパク質またはペプチドのすべてまたは一部のアミノ酸配列を指す。用語「タンパク質ドメイン配列」は、安定であり、タンパク質配列の残りと独立して折り畳まれる、タンパク質配列の保存された部分を指す。
【0020】
以下の考察において、ウイルス配列が例示的配列として使用されるが、本発明は、本明細書に記載されるときに非ウイルス遺伝子配列への応用を有することが、理解されるべきである。
【0021】
ディープラーニングは、分類学的分類に必要とされる計算的負荷を削減する能力を有する。データの予測的特徴を学習することによって、ディープラーニングアプローチは、単純化バイオインフォマティクスアプローチではデータの幅によって近似することのみ可能な、複合潜在特徴を取り込むことができる。ディープラーニング分類子の1つの欠陥は、モデルがトレーニングされたデータに関する外れ値として、与えられた観測値を呼び出すことが一般に不可能なことである。ナイーブなディープラーニング分類子は、最良の利用可能な候補に基づいて予測を行うであろう。このアプローチは、まだ発見されていないウイルス種などの種の場合に問題である。外れ値配列を検出する能力と共に、ウイルスゲノムを特徴づける特徴、および多様性のコンテキストにおける集団を決定する能力は、公衆衛生および食品安全性に関して有益である。
【0022】
分類学的同定の配列に基づく分類の最新式の方法は、クエリ配列を、位置合わせまたは疑似位置合わせのいずれかによって、グラウンドトゥルースラベリングされた配列の参考データベースと比較することによって実行される。疑似位置合わせ方法が、パラメータ選択が原因のいくらかの解釈可能性および可変性を犠牲にして、より大きい速度を提供するのに対して、位置合わせ方法は一般に、最も正確で解釈可能であるとみなされる。位置合わせおよび疑似位置合わせ方法の両者とも、高い類似性の配列を比較するときに良好にはたらく。クエリが、参考データベース内の種のいかなるものとも異なる種のものであるとき、この状況の認識のためのメカニズムは存在しない。ディープラーニングモデルによって実行される機械学習分類(MLC)による分類は、記憶およびメモリ使用量の観点で高速でありかつ軽量である、位置合わせおよび疑似位置合わせ方法の両者への代替案を提供する。いくつかのディープラーニングに基づく分類モデルが、バクテリアのために開発されたが、しかしながら、それらのモデルのすべては、16S遺伝子を符号化するゲノムの単一領域のみを分類するようにトレーニングされている。ディープラーニングモデルは、固定された次元の行列またはテンソルなどの、不変のフォーマットであるデータ構造に依存するので、比較的狭いサイズ分布を維持する単一遺伝子の使用は、ディープラーニングモデルをトレーニングするために有用であるが、しかしながら、単一遺伝子による分類は、一般的な分類学的分類のためには効果的でなく、不適切である。
【0023】
一般的な分類学的分類のために、選択された遺伝子は、(i)関心のあるゲノムにおいて普遍的に存在し、(ii)すべての例の間で同様の長さであり、(iii)トレーニング目的のために、分類学的分類ラベルの多様性の代表でなければならない(例えば、各分類群は、そうでなければ異なる分類群から区別できなくなる、遺伝子に関して一意的に定義する配列を有さなければならない)。遺伝子配列において観測された相違は、変異率の集積(生命体の間で異なる)、自然選択(環境に依存する)、および時間であり、それらのすべては異なる遺伝子の間で一定ではない。低速の変異を有する遺伝子は、関連性が近い生命体に関して乏しい解像度を提供し、高速の変異を有する遺伝子は、関連性が遠い生命体に関して乏しい解像度を提供する。
【0024】
本明細書に記載されるディープラーニングワークフローは、ゲノム分類および外れ値異常検出に関する生物学的配列のフラグメントを解析する方法を実装する。外れ値異常検出に関して、入力は出所が未知の生物学的配列フラグメントであり、出力は、出所が未知の生物学的種と表現型特性を共有し得る直近の既知の生物学的ゲノムである。ワークフローは、ゲノム分類、既知のゲノム内の変異の識別、および未知の種の直近のクラスの識別のための用途を有する。ワークフローにおけるディープラーニングアルゴリズムの使用は、ワークフローを、大量のデータセットに関してスケーリング可能にする。
【0025】
ワークフローの実装における第1のステップは、深い特徴抽出を実行するためのディープラーニングアルゴリズムのトレーニングである。
図1および2において、ディープラーニングアルゴリズムは、CNN過学習を削減するように各畳み込み層の後に挿入される、2つの畳み込み層および2つの最大プーリングレイヤを有する1-D CNNのディープな特徴抽出器1である。1-D CNNが生物学的配列フラグメントから特徴ベクトルの形で特徴を抽出することができるように、1-D CNNは配列データ上でトレーニングされなければならない。前処理のために、解析されるべき配列フラグメントは、4つの塩基からなるk-マーに分割され、それらはワンホット符号化によって二値行列へと構造化される。
図1および2において、150-マーのウイルス配列フラグメントが、ウイルスゲノムを識別および分類するように1-D CNNをトレーニングするために使用される。150-マーのフラグメントを、ワンホット符号化によって前処理を行う二値行列へと構造化した後、150-マーの配列は、1-D CNNに入力される。2つの畳み込みおよび最大プーリングレイヤによる処理の後、1-D CNN出力は40-マーのウイルス配列フラグメントとなる。
【0026】
トレーニングセットから抽出された特徴は、対応する重心3を計算しながら、フラグメントごとにゲノム特徴空間2にマッピングされる。
図2におけるゲノム特徴マップは、各々が自身の計算された質量中心を有する10クラスのクラスタを示す。ゲノム特徴空間にマッピングされた、抽出された特徴の各々に関して、クラスタ内密度の平均の程度は、式(1)によって計算される。
【数1】
ここで、dは特徴jの中で計算されたユークリッド距離であり、μ
jはN個のサンプルに関する距離の平均値であり、Nはトレーニングサンプルの数であり、σ
iは出力σ
0,σ
1,...,σ
Mであり、Mは特徴の全体の数である。クラスタ内密度の平均の程度は、重心に関する距離の分布の計算された標準偏差に対応する。
【0027】
抽出された特徴の畳み込みアルゴリズムおよびマッピングのトレーニングに続き、新しい未知のサンプル4が、分類のためのワークフローにもたらされてよい。トレーニングサンプルと同様に、新しいサンプルが、二値行列へと前処理され、ディープな特徴抽出器を介して実行され、クラスタと同様にゲノム特徴マップへのものとしてマッピングされる。新しいサンプルのクラスタ内密度もまた、式(1)によって計算される。ラベル付けされていないトレーニングデータとは異なり、新しい未知のサンプルはラベル付けされる。
【0028】
新しいサンプルを分類するために、出力スコア5が、新しいサンプルにおける入力特徴の各々と、各特徴のトレーニング分散の平均値との差として計算される。特徴の全体の数Mによる入力のために、入力への直近のクラスXは、式(2)によって計算される各特徴sjに関する出力スコアを有する。
(2)sj=(dj-μj) 出力s0,s1、...sMに関して
ここで、dは特徴jの中で計算されたユークリッド距離であり、μjはトレーニングサンプルに関する距離の平均値である。
【0029】
アノマリを識別するように閾値6が、トレーニングサンプルからの新しいサンプルの分散の平均程度からヒューリスティックに決定され、発散の平均程度は、スコアとクラスタ間密度6の程度との間の差である。閾値θは、Yパーセンタイル(例えば75%)より上であるトレーニングサンプルのパーセンタイル値であり、Yは調整されるパラメータである。特徴Mによるサンプル入力のために、密度の程度deg
jは式(3)によって計算される。
(3)deg
j=s
j-σ
j 出力deg
0,deg
1、...deg
Mに関して
ここで、s
jは各特徴jに関する出力スコアであり、σ
jは各特徴jに関するクラスタ内密度の程度である。アノマリに関するスコアは式(4)によって計算される。
(4)s
j>θ*deg
j
* 出力deg
0
*,deg
1
*、...deg
M
*に関して
ここで、発散deg
j
*の程度がスコアs
jより高い場合、次に特徴は異常フラグメントとみなされる。値θおよびM
*は、トレーニングゲノムの中の特定の数k-マーが外れ値であるという制約のもとでの線形検索によってヒューリスティックに決定される。例えば、
図1および2の40-マー出力を参照して、畳み込みアルゴリズムに関する閾値を95%に設定することは、アルゴリズムを、アノマリへ分類されたサンプルの数が95:5になるまで実行させるであろう。95%閾値の結果は、未知のウイルスゲノム(例1)を表す2つのウイルスゲノム(40-マー出力の5%)による、40-マー出力からの38個の異なるウイルスゲノム(95%)の分類である。未知のウイルスゲノムサンプルがM
*個より多くの特徴において異常である場合、ゲノムは異常としてラベリングされ、直近のゲノムは直近のクラスX(例2)として決定されたものとなる。ワークフローの出力7は、(i)ゲノムがトレーニング(既知)セットに属すると認識される場合、ウイルスゲノム種である、または、(ii)アノマリの場合には直近既知ゲノムである。
【0030】
本発明は、統合のあらゆる可能な技術詳細レベルにおけるシステム、方法もしくはコンピュータプログラム製品、またはその組み合わせであってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令が記憶されたコンピュータ可読記憶媒体(または複数の媒体)を含み得る。
【0031】
コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、限定されないが、電子ストレージデバイス、磁気ストレージデバイス、光学ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、または上記の任意の適切な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非包括的リストはまた、以下の、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピディスク、命令が記録されたパンチカードまたは溝における凸構造などの機械的符号化デバイス、および、上記の任意の適切な組み合わせを含み得る。本明細書において使用される場合、コンピュータ可読記憶媒体は、電波または他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を伝播する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または、ワイヤを通じて伝送される電気信号など、それ自体で一時的な信号として解釈されるべきでない。
【0032】
本明細書において記載されるコンピュータ可読プログラム命令は、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワークもしくは無線ネットワークまたはその組み合わせなどのネットワークを介して、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスへダウンロードされ得るか、または、外部コンピュータもしくは外部ストレージデバイスへダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバまたはその組み合わせを備え得る。各コンピューティング/処理デバイスにおけるネットワークアダプタカードまたはネットワークインタフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それらのコンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体への記憶のために転送する。
【0033】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、あるいはSmalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語などの手続き型プログラミング言語もしくは同様のプログラミング言語、を含む1または複数のプログラミング言語のあらゆる組み合わせで記述された、ソースコードまたはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、スタンドアロンのソフトウェアパッケージとして、ユーザのコンピュータ上で部分的にかつリモートコンピュータ上で部分的に、または、リモートコンピュータもしくはサーバ上で全体的に実行し得る。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続され得るか、または、接続は、(例えば、インターネットサービスプロバイダを使用してインターネットを通じて)外部コンピュータに行われ得る。いくつかの実施形態において、例えば、グラフィクス処理ユニット(GPU)、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブルロジックアレイ(PLA)を含む電子回路は、本発明の態様を実行するべく、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることにより、コンピュータ可読プログラム命令を実行し得る。
【0034】
本発明の態様は、本明細書において、発明の実施形態による方法、装置(システム)、およびコンピュータプログラム製品のフローチャート図もしくはブロック図またはその組み合わせを参照して記載されている。フローチャート図もしくはブロック図またはその組み合わせの各ブロック、並びにフローチャート図もしくはブロック図またはその組み合わせにある各ブロックの組み合わせは、コンピュータ可読プログラム命令で実装され得ることが理解されるであろう。
【0035】
これらのコンピュータ可読プログラム命令は、マシンを生じさせるために、コンピュータのプロセッサ、または、他のプログラム可能なデータ処理装置に提供され得る。それにより、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行する命令は、フローチャートもしくはブロック図またはその組み合わせのブロックまたは複数のブロックにおいて指定される機能/動作を実装するための手段を形成する。これらのコンピュータ可読プログラム命令は、命令を記憶したコンピュータ可読記憶媒体が、フローチャートもしくはブロック図またはその組み合わせの単数のブロックまたは複数のブロックにおいて指定されている機能/動作の態様を実装する命令を含む製品を備えるように、コンピュータ、プログラム可能なデータ処理装置、もしくは他のデバイスまたはその組み合わせに特定の方式で機能するよう指示することができるコンピュータ可読記憶媒体に記憶されてもよい。
【0036】
コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能な装置、または他のデバイス上で一連の動作ステップを実行させてコンピュータ実装プロセスを生成するように、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスにロードして、コンピュータ、他のプログラム可能な装置、または他のデバイス上で実行される命令が、フローチャートもしくはブロック図またはその組み合わせの単数のブロックもしくは複数のブロックにおいて指定されている機能/動作を実装するようにしてもよい。
【0037】
図面内のフローチャートおよびブロック図は、本発明の様々な実施形態による、システム、方法、およびコンピュータプログラム製品の考えられる実装のアーキテクチャ、機能、および動作を示す。これに関連して、フローチャートまたはブロック図の各ブロックは、指定されている論理機能を実装するための1または複数の実行可能命令を備える、命令のモジュール、セグメント、または一部を表すことがある。いくつかの代替的な実装において、ブロックに記載された機能は、図に記載された順序から外れて生じてもよい。例えば、連続して示される2つのブロックは、実際には、1つのステップとして実現され、部分的または全体的に時間的に重複する様式で、同時に、または実質的に同時に実行され得るか、または、場合により、関連する機能に依存してブロックが逆の順序で実行され得る。また、ブロック図もしくはフローチャート図またはその組み合わせの図の各ブロック、およびブロック図もしくはフローチャート図またはその組み合わせの図のブロックの組み合わせは、指定されている機能または動作を実行する特殊目的ハードウェアベースのシステムによって実装可能であるか、または特殊目的ハードウェアとコンピュータ命令との組み合わせを実行することができることも留意されるであろう。
【0038】
本発明の様々な態様もしくは実施形態またはその組み合わせの説明は、例示を目的として提示されているが、包括的であることを意図するものではなく、開示されている実施形態に限定されることを意図するものでもない。記載されている実施形態の範囲および主旨から逸脱することなく、多くの修正および変形が当業者には明らかとなるであろう。本明細書で使用する専門用語は、態様もしくは実施形態またはその組み合わせの原理、実際の応用、もしくは市場で見られる技術に対する技術的改善点を最も良く説明するように、または、当業者が本明細書で開示する態様もしくは実施形態またはその組み合わせを理解できるように選択された。実験
【0039】
以下の例は、本明細書に記載された発明の態様および実施形態をどのように行って使用するかの完全な開示を、当業者に提供するように記載される。変数に関する精度を確実にするように努力が行われてきたが、実験誤差および偏差は考慮されるべきである。すべてのコンポーネントは、そうでない旨を示されない限り、商業的に取得されたものである。例1未知のウイルス単離の分類
【0040】
未知のウイルス単離(例えば、新しいウイルス、または以前識別されたウイルス種の一例のいずれか)が、本明細書に記載される生物学的分類処理によって分類された。前処理、すなわち既知のウイルス特徴空間を構築するために、40のウイルス種に属する100のウイルスゲノムが収集された。100のウイルスゲノムは、k-マーを使用して表された。ゲノムk-マーは、25の塩基がオーバーラップした150の塩基の配列に分割された。各配列は、サイズ4(塩基ACGTの数を表す)×150(k-マーの数、すなわち配列の長さ)のバイナリイメージに変換された。
【0041】
配列は、本明細書で記載されるように、1D CNN(本明細書では「ニューラルネットワーク」と称される)によって処理され、それはニューラルネットワークによってゲノムをマッピングし、配列の各々に関して40の特徴のセットを生成し、40の特徴の配列は40の寸法ベクトルに対応し、(i)各ウイルス種に属する各ウイルスゲノムは40の特徴へとマッピングされ、(ii)重心はマッピング空間における既知のゲノムの各々に関して計算された。
【0042】
既知のウイルス種の各々に関して、重心から対応するクラスへの距離の標準偏差が計算された。これは、種に関する重心と、その種に属するゲノムから抽出された(すなわち、マッピングされた40の特徴からの)k-マーとの間のユークリッド距離の計算によって行われた。
【0043】
次に、未知のウイルス種に関して、未知のウイルス種に関するゲノムがk-マーに分割され、バイナリイメージに変換された。k-マーの各々に関して、各k-マーを既知の種のうち1つに、または未知の種に属するものとして分類するように、ニューラルネットワークが使用され、出力は、未知のウイルス種に関する最も可能性がある種であった。未知の配列は次に、上に記載された40の特徴空間へとマッピングされた。40の特徴の各々に関して、スコアが計算され、スコアは、未知のゲノム特徴と、予測されたクラスに属するトレーニング配列の平均値との間の差を表す。分散の程度もまた、40の特徴の各々に関して計算され、分散の程度は、スコアと密度の程度の差であり、後者は式(3)で計算される。40の特徴の各々に関する発散の計算された程度は次に、予測されたクラスに関する閾値と比較された。閾値が、トレーニングサンプルに関する発散の平均程度に基づいてヒューリスティックに計算された。トレーニングサンプルに関して、平均からの距離は95%(すなわち、75%のYパーセンタイルより上の値)に設定され、畳み込みアルゴリズムは、未知のゲノム(および可能なアノマリ)を表す2つのウイルスゲノムを有する40の特徴空間から38のウイルスゲノムを分類する結果(
図1および2)である、アノマリに分類されたサンプルの数が95:5になるまで実行された。例2未知のウイルスゲノムがウイルスアノマリであるかどうかの決定
【0044】
例1からの2つの未知のウイルスゲノムに関して、一方(または両者)が、スコア(本明細書に以前に記載されたように計算された)より高い分散の程度を有する場合、次に、未知のウイルスゲノムが、異常なフラグメントであるとみなされる。未知のウイルスゲノムが予測された種と同様であるが、トレーニングセットに含まれる既知のウイルスゲノムと著しく異なる場合、未知のウイルスゲノムは、既知のウイルスの変異かもしれず、または、予測された種と、ある特徴を共有するウイルスかもしれない。
【0045】
例1に記載されたように、一度トレーニングが実行されると、既知のゲノムに関する閾値のセットが決定される。各ウイルスゲノムサンプルに関して、各ゲノムを最も可能性のあるクラスに割り当てることによって分類するように、トレーニングされたニューラルネットワークが使用される。次に、分散のスコアおよび程度が、以前に本明細書に記載されたように計算される。最後に、未知のウイルスゲノムがアノマリであるかどうか査定するように、発散の程度は、対応する閾値と比較される。