特許7393439 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ビージーアイジェノミクスカンパニーリミテッドの特許一覧 ▶ ビージーアイヘルス（エイチケー）カンパニーリミテッドの特許一覧

特許7393439遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-28

(45)【発行日】2023-12-06

(54)【発明の名称】遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置

(51)【国際特許分類】

G16B 30/00 20190101AFI20231129BHJP

【ＦＩ】

G16B30/00

【請求項の数】 10

(21)【出願番号】P 2021571845

(86)(22)【出願日】2020-11-06

(65)【公表番号】

(43)【公表日】2023-01-27

(86)【国際出願番号】 CN2020127101

(87)【国際公開番号】W WO2022082879

(87)【国際公開日】2022-04-28

【審査請求日】2021-12-02

(31)【優先権主張番号】202011139823.4

(32)【優先日】2020-10-22

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】521527185

【氏名又は名称】ビージーアイジェノミクスカンパニーリミテッド

(73)【特許権者】

【識別番号】521527196

【氏名又は名称】ビージーアイヘルス（エイチケー）カンパニーリミテッド

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100107515

【弁理士】

【氏名又は名称】廣田浩一

(74)【代理人】

【識別番号】100107733

【弁理士】

【氏名又は名称】流良広

(74)【代理人】

【識別番号】100115347

【弁理士】

【氏名又は名称】松田奈緒子

(72)【発明者】

【氏名】ヨウジン・チャン

(72)【発明者】

【氏名】チュアン・ユー

(72)【発明者】

【氏名】リンシャン・コン

(72)【発明者】

【氏名】フゥイ・ホー

(72)【発明者】

【氏名】ゾンチュアン・ホー

(72)【発明者】

【氏名】シャンチェン・ジン

【審査官】鈴木和樹

(56)【参考文献】

【文献】特開２０１４－１４６３１８（ＪＰ，Ａ）

【文献】特表２０２０－５２１２１６（ＪＰ，Ａ）

【文献】特表２０１９－５２１４３４（ＪＰ，Ａ）

【文献】特表２０１９－５１０３２３（ＪＰ，Ａ）

【文献】中国特許出願公開第１０３２７９４４５（ＣＮ，Ａ）

【文献】中国特許出願公開第１０６２９５２５０（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００－９９／００

(57)【特許請求の範囲】

【請求項1】

遺伝子シークエンシングデータ処理装置に適用される遺伝子シークエンシングデータ処理方法であって、
前記遺伝子シークエンシングデータ処理装置は、アドバンストＲＩＳＣマシンアーキテクチャ（ＡＲＭアーキテクチャ）、ＧＰＵアーキテクチャ及びＰＣＩバスを含む異種マルチコアアーキテクチャであり、前記ＡＲＭアーキテクチャは前記ＰＣＩバスを介して前記ＧＰＵアーキテクチャに接続され、前記ＡＲＭアーキテクチャは少なくとも１つのＣＰＵモジュールを含み、前記ＧＰＵアーキテクチャは少なくとも１つのＧＰＵモジュールを含み、前記方法は、
アイドル状態の前記ＣＰＵモジュールが、遺伝子シークエンシングデータをバッチ単位で読み取り、バッチ遺伝子シークエンシングデータを得るステップＳ１と、
アイドル状態の前記ＣＰＵモジュールが、遺伝子解析方法を分割して第１のアルゴリズムと第２のアルゴリズムを得るステップＳ２と、
アイドル状態の前記ＣＰＵモジュールが、前記第１のアルゴリズムに基づいて前記バッチ遺伝子シークエンシングデータを分割して各短いシーケンスを得て、各前記短いシーケンス及び前記第２のアルゴリズムをアイドル状態のＧＰＵモジュールに送信するステップＳ３と、
アイドル状態の前記ＧＰＵモジュールが、前記第２のアルゴリズムに基づいて各前記短いシーケンスを計算し、計算結果をアイドル状態の前記ＣＰＵモジュールに送信するステップＳ４と、
アイドル状態の前記ＣＰＵモジュールが、前記計算結果及び前記第１のアルゴリズムに基づいてバッチ処理結果を計算するステップＳ５と、を含み、
前記遺伝子シークエンシングデータ処理が完了するまでステップＳ１～Ｓ５を繰り返し、アイドル状態の前記ＣＰＵモジュールが、各前記バッチ処理結果を統合演算し、最終的な処理結果を得るステップと、を含む、
ことを特徴とする遺伝子シークエンシングデータ処理方法。

【請求項2】

アイドル状態の前記ＣＰＵモジュールは、各前記ＧＰＵモジュールをスキャンし、アイドル状態のＧＰＵモジュールの数及び各アイドル状態のＧＰＵモジュールのデータ処理量を決定し、前記アイドル状態のＧＰＵモジュールの数及び各前記データ処理量に基づいて遺伝子シークエンシングデータをバッチ単位で読み取る、
ことを特徴とする請求項１に記載の遺伝子シークエンシングデータ処理方法。

【請求項3】

前記遺伝子解析方法に用いる遺伝子解析アルゴリズムは、遺伝子アライメントアルゴリズム、Ｄｏｔｐｌｏｔアルゴリズム、ｂｌａｓｔアルゴリズム、ＰＡＭアルゴリズム、ＨＭＭアルゴリズム及びＡＩ推定アルゴリズムを含む、
ことを特徴とする請求項１に記載の遺伝子シークエンシングデータ処理方法。

【請求項4】

前記遺伝子アライメントアルゴリズムは、ＢＷＴアルゴリズムを含み、前記第１のアルゴリズムは、アンカーポイント切断アルゴリズムを含み、
アイドル状態の前記ＣＰＵモジュールは、前記バッチ遺伝子シークエンシングデータに対して、アンカーポイント切断アルゴリズムを用いてアンカーポイントを固定させ、前記アンカーポイントを中心に前後にＮ個のｂｐ長だけ延長し、ＮＥＯＮ命令を用いて前記バッチ遺伝子シークエンシングデータを２Ｎ＋１個のｂｐ長で切断し、各前記短いシーケンスを得て、Ｎは任意の正の整数である、
ことを特徴とする請求項３に記載の遺伝子シークエンシングデータ処理方法。

【請求項5】

各前記短いシーケンスを得るステップは、
次の式を用いて計算して前記短いシーケンスを得るステップであって、

【数1】

ここで、ｘは、アンカーポイントの数を表し、Ｎは、延長するｂｐの数を表し、Ｌは、前記バッチ遺伝子シークエンシングデータの長さを表すステップを含む、
ことを特徴とする請求項４に記載の遺伝子シークエンシングデータ処理方法。

【請求項6】

前記第２のアルゴリズムは、Ｈａｓｈアルゴリズムであり、
アイドル状態の前記ＧＰＵモジュールは、前記Ｈａｓｈアルゴリズムに基づいて各前記短いシーケンスに対してＨａｓｈ演算を行い、Ｈａｓｈ計算結果を得て、前記Ｈａｓｈ計算結果をアイドル状態の前記ＣＰＵモジュールに送信し、ここで、前記Ｈａｓｈの計算結果は、ＢＷＴアルゴリズム行列の値であり、ＢＷＴアルゴリズム行列の計算に用いられる、
ことを特徴とする請求項３又は４に記載の遺伝子シークエンシングデータ処理方法。

【請求項7】

前記第１のアルゴリズムは、ＢＷＴ行列変換アルゴリズムをさらに含み、
アイドル状態の前記ＣＰＵモジュールは、前記ＢＷＴ行列変換アルゴリズムを用いて前記ＢＷＴアルゴリズム行列を変換し、前記短いシーケンスのＢＷＴ変換結果を得る、
ことを特徴とする請求項６に記載の遺伝子シークエンシングデータ処理方法。

【請求項8】

前記遺伝子アライメントアルゴリズムは、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムを含み、前記第２のアルゴリズムは、スコア行列アルゴリズムを含み、
アイドル状態の前記ＧＰＵモジュールは、前記スコア行列アルゴリズム、各前記短いシーケンス及び参照種配列に基づいてＳｍｉｔｈ－Ｗａｔｅｒｍａｎスコア行列を計算し、前記Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎスコア行列をアイドル状態の前記ＣＰＵモジュールに送信する、
ことを特徴とする請求項３に記載の遺伝子シークエンシングデータ処理方法。

【請求項9】

Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎスコア行列を計算するステップは、
次の式を用いて計算してＳｍｉｔｈ－Ｗａｔｅｒｍａｎスコア行列を得るステップであって、

【数2】

ここで、Ｍは、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎスコア行列を表し、Ｒは、参照種候補区間シーケンスの長さであり、Ｃは、アイドル状態の前記ＣＰＵモジュールから受信された各短いシーケンスを選別し且つ結合して形成された短いシーケンスの長さを表し、Ｌは、前記バッチ遺伝子シークエンシングデータの長さを表し、ａ及びｂは、定数であるステップを含む、
ことを特徴とする請求項８に記載の遺伝子シークエンシングデータ処理方法。

【請求項10】

遺伝子シークエンシングデータ処理装置であって、前記遺伝子シークエンシングデータ処理装置は、請求項１から９のいずれか一項に記載の遺伝子シークエンシングデータ処理方法を実行する、
ことを特徴とする遺伝子シークエンシングデータ処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、２０２０年１０月２２日に中国特許局に提出され、出願番号が２０２０１１１３９８２３．４であり、発明の名称が「遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置」である中国特許出願の優先権を主張しており、すべての内容は引用によって本出願に組み込まれている。

【0002】

本発明は、データ処理技術分野に関し、具体的には、遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置に関する。

【背景技術】

【0003】

遺伝子シークエンシング技術の発展に伴い、当該方法は新種、ウィルス及び疾病の研究開発と分析に広く応用されており、同時に大量の遺伝子シークエンシングデータが大量に湧き出て、これらのデータの分析処理を如何に効率的に行うかが特に重要である。

【0004】

現在の遺伝子解析プロセスでは、ほとんどのステップ（例えば、遺伝子アライメントプロセス）は、ｘ８６アーキテクチャでしか動作できず、例えば、従来のアライメントアルゴリズムｂｗａは、ｂｗｔアルゴリズムを使用し、非厳密アライメントアルゴリズムのＳｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムも、ｘ８６アーキテクチャのＳＳＥ２命令に基づいて実現される。

【0005】

ｘ８６に基づいて実現されたＢＷＴアライメントアルゴリズムは、ｘ８６アーキテクチャのＣＰＵの上で比較的高速に動作するが、大量且つ同時に計算することができず、しかもＢＷＴアルゴリズムは、ＧＰＵのＳＩＭＴの動作モードに対応できないため、ＢＷＴのＧＰＵにおける動作効率が大幅に低下し、アライメントプロセス全体の効率に影響を与える。同様に、既存のＳｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムは、ｘ８６アーキテクチャ上でしか動作せず、ＡＲＭプラットフォームではＳＳＥ２アクセラレーションのサポートがなく、動作が遅く、また、当該アルゴリズムはＧＰＵアーキテクチャ上での演算にも適していない。

【発明の概要】

【発明が解決しようとする課題】

【0006】

これに鑑みて、本発明は、従来の遺伝子シークエンシングデータ解析処理フローステップがｘ８６アーキテクチャ上でしか動作せず、ＧＰＵ上での動作速度が遅く、遺伝子シークエンシングデータ処理プロセスの効率が悪いという問題点を解決するために、遺伝子シークエンシングデータ処理装置及び遺伝子シークエンシングデータ処理方法を提供する。

【課題を解決するための手段】

【0007】

本発明の実施例によれば、遺伝子シークエンシングデータ処理装置に適用される遺伝子シークエンシングデータ処理方法を提供し、前記遺伝子シークエンシングデータ処理装置は、ＡＲＭアーキテクチャ、ＧＰＵアーキテクチャ及びＰＣＩバスを含む異種マルチコアアーキテクチャであり、前記ＡＲＭアーキテクチャは前記ＰＣＩバスを介して前記ＧＰＵアーキテクチャに接続され、前記ＡＲＭアーキテクチャは少なくとも１つのＣＰＵモジュールを含み、前記ＧＰＵアーキテクチャは少なくとも１つのＧＰＵモジュールを含み、前記方法は、
アイドル状態の前記ＣＰＵモジュールが、遺伝子シークエンシングデータをバッチ単位で読み取り、バッチ遺伝子シークエンシングデータを得るステップＳ１と、
アイドル状態の前記ＣＰＵモジュールが、遺伝子解析方法を分割して第１のアルゴリズムと第２のアルゴリズムを得るステップＳ２と、
アイドル状態の前記ＣＰＵモジュールが、前記第１のアルゴリズムに基づいて前記バッチ遺伝子シークエンシングデータを分割して各短いシーケンスを得て、各前記短いシーケンス及び前記第２のアルゴリズムをアイドル状態のＧＰＵモジュールに送信するステップＳ３と、
アイドル状態の前記ＧＰＵモジュールが、前記第２のアルゴリズムに基づいて各前記短いシーケンスを計算し、計算結果をアイドル状態の前記ＣＰＵモジュールに送信するステップＳ４と、
アイドル状態の前記ＣＰＵモジュールが、前記計算結果及び前記第１のアルゴリズムに基づいてバッチ処理結果を計算するステップＳ５と、
前記遺伝子シークエンシングデータ処理が完了するまでステップＳ１～Ｓ５を繰り返し、アイドル状態の前記ＣＰＵモジュールが、各前記バッチ処理結果を統合演算し、最終的な処理結果を得るステップと、を含む。

【0008】

選択可能に、
アイドル状態の前記ＣＰＵモジュールは、各前記ＧＰＵモジュールをスキャンし、アイドル状態のＧＰＵモジュールの数及び各アイドル状態のＧＰＵモジュールのデータ処理量を決定し、前記アイドル状態のＧＰＵモジュールの数及び各前記データ処理量に基づいて遺伝子シークエンシングデータをバッチ単位で読み取る。

【0009】

選択可能に、
前記遺伝子解析アルゴリズムは、遺伝子アライメントアルゴリズム、Ｄｏｔｐｌｏｔアルゴリズム、ｂｌａｓｔアルゴリズム、ＰＡＭアルゴリズム、ＨＭＭアルゴリズム及びＡＩ推定アルゴリズムを含む。

【0010】

選択可能に、
前記遺伝子アライメントアルゴリズムは、ＢＷＴアルゴリズムを含み、前記第１のアルゴリズムは、アンカーポイント切断アルゴリズムを含み、
アイドル状態の前記ＣＰＵモジュールは、前記バッチ遺伝子シークエンシングデータに対して、アンカーポイント切断アルゴリズムを用いてアンカーポイントを固定させ、前記固定したアンカーポイントを中心に前後にＮ個のｂｐ長だけ延長し、ＮＥＯＮ命令を用いて前記バッチ遺伝子シークエンシングデータを２Ｎ＋１個のｂｐ長で切断し、各前記短いシーケンスを得て、Ｎは任意の正の整数である。

【0011】

選択可能に、
各前記短いシーケンスを得るステップは、
次の式を用いて計算して前記短いシーケンスを得るステップであって、

【数1】

ここで、ｘは、アンカーポイントの数を表し、Ｎは、延長するｂｐの数を表し、Ｌは、前記バッチ遺伝子シークエンシングデータの長さを表すステップを含む。

【0012】

選択可能に、
前記第２のアルゴリズムは、Ｈａｓｈアルゴリズムであり、
アイドル状態の前記ＧＰＵモジュールは、前記Ｈａｓｈアルゴリズムに基づいて各前記短いシーケンスに対してＨａｓｈ演算を行い、Ｈａｓｈ計算結果を得て、前記Ｈａｓｈ計算結果をアイドル状態の前記ＣＰＵモジュールに送信し、ここで、前記Ｈａｓｈの計算結果は、ＢＷＴアルゴリズム行列の値であり、ＢＷＴアルゴリズム行列の計算に用いられる。

【0013】

選択可能に、
前記第１のアルゴリズムは、ＢＷＴ行列変換アルゴリズムをさらに含み、
アイドル状態の前記ＣＰＵモジュールは、前記ＢＷＴ行列変換アルゴリズムを用いて前記ＢＷＴアルゴリズム行列を変換し、前記短いシーケンスのＢＷＴ変換結果を得る。

【0014】

選択可能に、
前記アライメントアルゴリズムは、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムを含み、前記第２のアルゴリズムは、スコア行列アルゴリズムを含み、
アイドル状態の前記ＧＰＵモジュールは、前記スコア行列アルゴリズム、各前記短いシーケンス及び参照種配列に基づいてＳｍｉｔ－Ｗａｔｅｒｍａｎスコア行列を計算し、前記Ｓｍｉｔ－Ｗａｔｅｒｍａｎスコア行列をアイドル状態の前記ＣＰＵモジュールに送信する。

【0015】

選択可能に、
Ｓｍｉｔ－Ｗａｔｅｒｍａｎスコア行列を計算するステップは、
次の式を用いて計算してＳｍｉｔ－Ｗａｔｅｒｍａｎスコア行列を得るステップであって、

【数2】

ここで、Ｍは、Ｓｍｉｔ－Ｗａｔｅｒｍａｎスコア行列を表し、Ｒは、参照種候補区間シーケンスの長さであり、Ｃは、アイドル状態の前記ＣＰＵモジュールから受信された各短いシーケンスを選別し且つ結合して形成された短いシーケンスの長さを表し、Ｌは、前記バッチ遺伝子シークエンシングデータの長さを表し、ａ及びｂは、定数であるステップを含む。

【0016】

本発明の実施形態では、遺伝子シークエンシングデータ処理装置が提供され、前記遺伝子シークエンシングデータ処理装置は、異種マルチコアアーキテクチャであり、前記遺伝子シークエンシングデータ処理装置は、前記の遺伝子シークエンシングデータ処理方法を実行する。

【0017】

本発明の実施形態における遺伝子シークエンシングデータ処理装置及び遺伝子シークエンシングデータ処理方法は、方法が装置に適用され、遺伝子シークエンシングデータ処理装置が、ＡＲＭアーキテクチャ、ＧＰＵアーキテクチャ及びＰＣＩバスを含む異種マルチコアアーキテクチャであり、ＡＲＭアーキテクチャは少なくとも１つのＣＰＵモジュールを含み、ＧＰＵアーキテクチャは少なくとも１つのＧＰＵモジュールを含み、ＣＰＵモジュールはＰＣＩバスを介してＧＰＵモジュールに接続され、両者間で情報の相互伝送が可能である。ここで、方法は、アイドル状態のＣＰＵモジュールが遺伝子シークエンシングデータをバッチ単位で読み取って遺伝子解析方法を分割することでバッチ遺伝子シークエンシングデータ、第１のアルゴリズム（当該アルゴリズムはＣＰＵモジュールの実行に最適なアルゴリズムである）及び第２のアルゴリズム（当該アルゴリズムはＧＰＵモジュールの実行に最適なアルゴリズムである）を得て、第１のアルゴリズムを用いてバッチ遺伝子シークエンシングデータを分割し、一連の短いシーケンスを得て、ＰＣＩバスを介してこれらの短いシーケンス及び第２のアルゴリズムをアイドル状態のＧＰＵモジュールに伝送するステップと、ＧＰＵモジュールが、第２のアルゴリズムに基づいてこれらの短いシーケンスを計算し、計算結果をアイドル状態のＣＰＵモジュールに戻すステップと、アイドル状態のＣＰＵモジュールが、計算結果及び第１のアルゴリズムに基づいてバッチ処理結果を計算し、アイドル状態のＣＰＵモジュール及びアイドル状態のＧＰＵモジュールが、遺伝子シークエンシングデータ処理が完了するまで上記ステップを繰り返し実行し、アイドル状態のＣＰＵモジュールが、各バッチ処理結果を統合し、最終的な処理結果を得ることができるステップと、を含む。当該遺伝子シークエンシングデータ処理装置及び遺伝子シークエンシングデータ処理方法は、遺伝子シークエンシングデータの解析方法（すなわち、解析プロセス）を分割し、特性に応じてＣＰＵモジュール及びＣＰＵモジュールで動作させ、遺伝子シークエンシングデータ解析の効率を大幅に向上させる。また、当該遺伝子シークエンシングデータ処理装置には複数のＣＰＵモジュール及びＧＰＵモジュールを設けることができ、複数のＧＰＵモジュールは、異なる長さの短いシーケンスを同時に計算することができるため、ＧＰＵ並列効率が低いという問題を解決することができる。

【図面の簡単な説明】

【0018】

本発明の実施形態又は従来技術における技術的解決策をより明確に説明するために、以下、実施形態又は従来技術の説明において使用する必要がある図面について簡単に説明するが、以下の説明における図面は単に本発明の実施形態にすぎず、当業者にとっては、創造的な労力を払うことなく、提供された図面に基づいて他の図面を得ることができることは自明である。

【図1】本発明の実施形態における遺伝子シークエンシングデータ処理装置の概略構成図である。

【図2】本発明の実施形態における遺伝子シークエンシングデータ処理装置のデータ処理プロセスの概略図である。

【図3】本発明の実施形態におけるＣＰＵモジュールがバッチ遺伝子シークエンシングデータに対してアンカーポイント切断を行う概略図である。

【図4】本発明の実施形態におけるＣＰＵモジュールがＨａｓｈアルゴリズムを用いて短いシーケンスに対してＨａｓｈ演算を行う概略図である。

【図5】本発明の実施形態における遺伝子シークエンシングデータ処理方法の概略フローチャートである。

【発明を実施するための形態】

【0019】

以下、本発明の実施形態における技術的解決策を明確かつ完全に説明するが、説明される実施形態は、本発明の一部の実施例にすぎず、全ての実施形態ではないことは明らかである。本発明における実施形態に基づいて、当業者が創造的な労力を払わず取得した他のすべての実施形態は、本発明の保護の範囲に属する。

【0020】

名詞の解釈：
遺伝子（Ｇｅｎｅ、Ｍｅｎｄｅｌｉａｎｆａｃｔｏｒ）とは、遺伝情報を持つＤＮＡ又はＲＮＡ配列（すなわち、遺伝子は遺伝効果を持つＤＮＡ又はＲＮＡ断片である）を指し、遺伝因子とも呼ばれ、性状を制御する基本的な遺伝単位である。遺伝子は、タンパク質の合成を指示することで自らが持つ遺伝情報を発現させ、生物個体の性状表現を制御する。

【0021】

遺伝子シークエンシングは、新型遺伝子検査技術であり、血液あるいは唾液から遺伝子の全配列を分析測定することで、多種の疾病に罹患する可能性、個体の行動特性、及び行動合理性などを予測する。

【0022】

短いシーケンス（ｒｅａｄ）：短いシークエンシング断片であり、ハイスループットシーケンサーが生成したシークエンシングデータであり、ゲノム全体をシークエンシングすると、何百万ものｒｅａｄが生成され、そしてこれらのｒｅａｄをつなぎ合わせればゲノムの全配列を得ることができる。

【0023】

アライメント解析：ＮＧＳシーケンシングされた短いシーケンス（ｒｅａｄ）はＦＡＳＴＱファイルに保存され、それらはもともと秩序のあるゲノムに由来しているが、ＤＮＡのライブラリの構築及びシーケンシングを経た後、ファイル内の異なるｒｅａｄ間の前後の順序関係はすべて失われてしまう。したがって、ＦＡＳＴＱファイルの隣接する２つのｒｅａｄの間には何の位置関係もなく、いずれも元のゲノムのある位置からランダムに生まれた短いシーケンスにすぎない。そのため、我々はまずこのたくさんの短いシーケンスを整理し、当該種の参考ゲノムと１つずつ比較し、各ｒｅａｄの参考ゲノムにおける位置を見つけ、順番に並べていく必要があり、この過程をシーケンスデータのアライメントと呼ぶ。

【0024】

アライメントアルゴリズム：序列アライメントの計算方法は、一般に、大域アライメント（ｇｌｏｂａｌａｌｉｇｎｍｅｎｔｓ）と局所アライメント（ｌｏｃａｌａｌｉｇｎｍｅｎｔｓ）の２種類に分けられる。大域線形を計算し、大域的最適化の形式で、長さ全体のすべてのクエリシーケンスに応じて強制的に整列される。これに対して、局所アライメントは局所的な類似のみを決定するが、長いシーケンス全体は大きく異なることが多い。局所アライメントは望ましいことが多いが、他の類似領域の特定からの課題もあるため、計算はより困難である可能性がある。様々な計算アルゴリズムは、すでに序列アライメント問題に応用されており、低速だが正規の動的計画のような最適化方法、効率的だが不完全なヒューリスティックアルゴリズム、あるいは大規模なデータベース検索設計の確率的方法が含まれている。

【0025】

ＡＲＭ：ＡＲＭアーキテクチャ、アドバンストＲＩＳＣマシン（ＡｄｖａｎｃｅｄＲＩＳＣＭａｃｈｉｎｅ、以前はＡｃｏｒｎ命令セットマシン、ＡｃｏｒｎＲＩＳＣＭａｃｈｉｎｅとも呼ばれた）は、多くの組み込みシステム設計で広く使用されているＲＩＳＣプロセッサアーキテクチャファミリである。省エネの特徴により、他の分野でも多くのことが行われている。ＡＲＭプロセッサはモバイル通信分野に最適で、主な設計目標である低コスト、高性能、低消費電力の特性に合致している。一方、スーパーコンピュータは大量の電力を消費するため、ＡＲＭはより効率的な選択肢と考えられる。ＡＲＭホールディングス（ＡＲＭＨｏｌｄｉｎｇｓ）は、このアーキテクチャを開発し、他社による使用を許可し、彼らがＡＲＭのあるアーキテクチャを実現し、自主的なシステムワンチップマイクロコンピュータ及びシステムモジュール（ｓｙｓｔｅｍ－ｏｎ－ｍｏｄｕｌｅ、ＳｏＣ）を開発する。

【0026】

ＧＰＵ：グラフィックスプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、略語：ＧＰＵ、ディスプレイコア、ビジュアルプロセッサ、ディスプレイ装置又は描画装置とも呼ばれる）は、ＰＣ、ワークステーション、ゲーム機、タブレット、スマートフォンなどのモバイルデバイスで描画処理を実行するために特別に設計されたマイクロプロセッサである。グラフィックスプロセッサは、グラフィックスカードの中央処理ユニット（ＣＰＵ）への依存度を減らし、本来は中央処理ユニットが担当していた作業の一部を分担する。特に、３次元の描画演算を行う場合、その効果がより顕著になる。

【0027】

ＣＵＤＡ：（ＣｏｍｐｕｔｅＵｎｉｆｉｅｄＤｅｖｉｃｅＡｒｃｈｉｔｅｃｔｕｒｅ、並列コンピューティングアーキテクチャ）は、ＮＶＩＤＩＡが提供する統合テクノロジーで、同社のＧＰＧＰＵの正式名称である。この技術により、ユーザは、ＮＶＩＤＩＡのＧｅＦｏｒｃｅ８以降のＧＰＵや、比較的新しいＱｕａｄｒｏＧＰＵを利用して計算することができる。ＧＰＵをＣ－コンパイラの開発環境として利用できるのも初めてである。ＮＶＩＤＩＡのマーケティングの際には、コンパイラとアーキテクチャを混ぜて普及させる傾向があり、混乱を招いている。実際には、ＣＵＤＡはＯｐｅｎＣＬ又は独自のＣ－コンパイラと互換性がある。ＣＵＤＡＣ－言語でもＯｐｅｎＣＬでも、命令は最終的にドライバによってＰＴＸコードに変換され、ディスプレイコアによって計算される。

【0028】

ＢＷＴ：（Ｂｕｒｒｏｗｓ－ＷｈｅｅｌｅｒＴｒａｎｓｆｏｒｍ、略してＢＷＴ、ブロックソート圧縮とも呼ばれ）は、ｂｚｉｐ２のようなデータ圧縮技術に適用されるアルゴリズムである。このアルゴリズムは、カリフォルニア州パロアルトにあるＤＥＣシステム研究センターで１９９４年にＭｉｃｈａｅｌＢｕｒｒｏｗｓとＤａｖｉｄＷｈｅｅｌｅｒによって発明された。その基礎となっているのは、以前にＷｈｅｅｌｅｒが１９８３年に発明したが、公開されていない変換方法である。このアルゴリズムを用いて文字列を変換する場合、アルゴリズムは文字列内の文字の順序のみを変更し、文字は変更しない。元の文字列に複数回出現する部分文字列がいくつかある場合、変換された文字列に連続して繰り返される文字がいくつかあるので、圧縮に役立つ。当該方法は、ＭＴＦ変換及びランレングス符号化のような文字列内の連続して繰り返される文字を処理する技術に基づく符号化をより容易に圧縮することができる。

【0029】

Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎ：（Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎａｌｇｏｒｉｔｈｍ）は、２つのヌクレオチド配列又はタンパク質配列の間の類似領域を見つけるために、局所配列アライメント（大域アライメントに対して）を行うアルゴリズムである。当該アルゴリズムの目的は、全配列のアライメントを行うことではなく、２つの配列の中で類似度の高い断片を見つけることである。

【0030】

ＨＡＳＨ：ハッシュアルゴリズム、ハッシュ関数とも呼ばれ、任意のデータから小さな数字の「指紋」を作成する方法である。ハッシュ関数は、メッセージやデータを要約に圧縮してデータ量を小さくし、データのフォーマットを固定する。この関数は、データをシャッフルして混合し、ハッシュ値（Ｈａｓｈｖａｌｕｅｓ、Ｈａｓｈｃｏｄｅｓ、Ｈａｓｈｓｕｍｓ又はＨａｓｈｅｓ）と呼ばれる指紋を再作成する。ハッシュ値は通常、短いランダムな文字と数字からなる文字列で表される。良いハッシュ関数は、入力フィールドでハッシュ衝突がほとんど発生しない。ハッシュテーブルやデータ処理では、データを区別するために衝突を抑制しないと、データベースのレコードを見つけることが困難になる。

【0031】

ＳＳＥ２：（ＳｔｒｅａｍｉｎｇＳＩＭＤＥｘｔｅｎｓｉｏｎｓ２）は、ＩＡ－３２アーキテクチャのＳＩＭＤ（単一命令多重データ）命令セットである。ＳＳＥ２は、２００１年にＩｎｔｅｌが初代のＰｅｎｔｉｕｍ４プロセッサを発表したとともに発売された命令セットである。これは、以前のＳＳＥ命令セットを拡張し、ＭＭＸ命令セットを完全に置き換えることができる。

【0032】

以下、本発明をより詳細に説明するために、本発明により提供される遺伝子シークエンシングデータ処理装置及び遺伝子シークエンシングデータ処理方法について図面と併せて具体的に説明する。

【0033】

図１は、遺伝子シークエンシングデータ処理装置の概略構成図である。図１に示すように、遺伝子シーケンシャルデータ処理装置であって、遺伝子シーケンシングデータ処理装置は、ＡＲＭアーキテクチャ１０、ＧＰＵアーキテクチャ２０及びＰＣＩバス３０を含む異種マルチコアアーキテクチャであり、ＡＲＭアーキテクチャ１０は、ＰＣＩバス３０を介してＧＰＵアーキテクチャ２０に接続され、ＡＲＭアーキテクチャ１０は、少なくとも１つのＣＰＵモジュールを含み、ＧＰＵアーキテクチャ３０は、少なくとも１つのＧＰＵモジュールを含み、アイドル状態のＣＰＵモジュールは遺伝子シークエンシングデータをバッチ単位で読み取ってバッチ遺伝子シークエンシングデータを得て、遺伝子解析方法を分割することで第１のアルゴリズム及び第２のアルゴリズムを得て、第１のアルゴリズムに基づいて分割シークエンシングデータを分割して各短いシーケンスを得て、各短いシーケンス及び第２のアルゴリズムをアイドル状態のＧＰＵモジュールに送信し、アイドル状態のＧＰＵモジュールは、第２のアルゴリズムに基づいて各短いシーケンスを計算し、計算結果をアイドル状態のＣＰＵモジュールに送信し、アイドル状態のＣＰＵモジュールは、計算結果及び第１のアルゴリズムに基づいてバッチ処理結果を計算し、アイドル状態のＣＰＵモジュール及びアイドル状態のＧＰＵモジュールは、遺伝子シークエンシングデータ処理が完了するまで上記ステップを繰り返し実行し、アイドル状態のＣＰＵモジュールは、各バッチ処理結果を統合し、最終的な処理結果を得る。

【0034】

具体的には、遺伝子シークエンシングデータ処理装置は、異種マルチコアアーキテクチャ、すなわちＡＲＭ＋ＧＰＵアーキテクチャであり、ＡＲＭアーキテクチャ１０はＣＰＵモジュールを含み、ＧＰＵアーキテクチャ２０はＧＰＵモジュールを含み、ＣＰＵモジュールとＧＰＵモジュールの数は固定ではなく、遺伝子シークエンシングデータの数、ＣＰＵモジュールの性能、ＧＰＵモジュールの性能（例えばＧＰＵのグラフィックスメモリ、ＣＵＤＡコア数、ＣＵＤＡコア周波数）、遺伝子解析に用いるアルゴリズムの複雑度などの実際の演算状況に応じて設定することができる。

【0035】

ここで、各ＣＰＵモジュール内のコア（ｃｏｒｅ）の処理又は計算能力は、同じであっても異なっていてもよい。同様に、各ＧＰＵモジュールの処理能力又は計算能力も、同じでも異なっていてもよい。選択可能に、ＧＰＵモジュールはＧＰＵコンピューティングカードであってもよく、ＧＰＵコンピューティングカードは、通常ＳＩＭＴアーキテクチャを採用する。

【0036】

選択可能な一実施形態では、ＣＰＵモジュールは、ＮＥＮＯ加速技術を使用し、この加速技術を使用することで、ＣＰＵモジュールの動作速度をさらに向上させることができる。

【0037】

選択可能な一実施形態では、遺伝子シークエンシングデータ装置は、ＮＶＩＤＩＡによって発表されたＪｅｔｓｏｎＮａｎｏＴＸ１を使用することができ、当該装置は、１２８個のＣｕｄａコアを有し、演算能力が４７２ＧであるＭａｘｗｅｌｌアーキテクチャのＧＰＵを使用し、一方、Ｊｅｔｓｏｎ－Ｎａｎｏは、ＡＲＭＣＰＵコア演算器として４コアＡ５７プロセッサを有する。

【0038】

遺伝子解析方法とは、遺伝子シークエンシングデータに対して解析処理を行う過程で使用される方法であり、その中には配列アライメント、遺伝子集合濃縮解析（ＧＯ解析、ＫＥＧＧ解析を含む）及び遺伝子制御ネットワーク解析などを含む。

【0039】

遺伝子解析方法を分割して得られた第１のアルゴリズムと第２のアルゴリズムは、主に、ある遺伝子解析手法の特性に応じて分割され、すなわち、ＣＰＵモジュールの処理に適したアルゴリズムをその遺伝子解析方法から分割して第１のアルゴリズムを形成し、ＧＰＵモジュールの処理に適するアルゴリズムもこの遺伝子解析方法から分割して第２のアルゴリズムを形成し、以上から分かるように、第１のアルゴリズム及び第２のアルゴリズムは、遺伝子解析方法の一部であってもよく、１つ又は複数の小さなステップで構成されていてもよく、分割過程において厳密なアルゴリズム規則がなく、すなわち分割原理に合致すればよい。ここで、分割の原理は主に、第１のアルゴリズムは、通常大量の論理判断を必要とし、計算結果間に依存性があり、例えば２回目の計算ステップは、１回目の計算結果に頼るか、またはそれを元に、次のステップに対する判断に関与し、一方、第２のアルゴリズムは、一般に、複数のデータが同時に計算することができ、各データ間に論理的な判断を伴わず、又はデータ間に依存性がない。

【0040】

なお、本実施形態における「第１」、「第２」は、アルゴリズムを限定するものではなく、単に両者を区別するためのものであることを理解されたい。

【0041】

さらに、ＡＲＭアーキテクチャ１０には、通常、複数のＣＰＵモジュールが存在するので、各ＣＰＵモジュールの動作又は動作状態が異なる場合があり、すなわち、動作状態にあるＣＰＵモジュールもあれば、アイドル状態にあるＣＰＵモジュールもある。同様に、ＧＰＵアーキテクチャワーク２０内のＧＰＵモジュールも同様である。したがって、本実施形態では、アイドル状態のＣＰＵモジュール及びＧＰＵモジュールを用いて対応する動作を行うが、選択されたＣＰＵモジュール及びＧＰＵモジュールは、すべてのアイドル状態のモジュールであってもよいし、その一部であってもよい。

【0042】

なお、前記遺伝子シークエンシングデータは、ＤＮＡシークエンシング断片、ＲＮＡシークエンシング断片など、任意の種の遺伝子シークエンシングデータを行って得られたデータであってもよい。１回のシークエンシングでは大量のデータが生成されるため、前記遺伝子シークエンシングデータのデータ量は比較的大きく、このデータの解析処理を分割して行うことができ、データ伝送の渋滞等を回避することができる。したがって、本実施では、アイドル状態のＣＰＵモジュールは、遺伝子シークエンシングデータをバッチ単位で読み取り、毎回読み取られる遺伝子シークエンシングデータの数は等しくなくてもよく、具体的にはＧＰＵモジュールの数及び各ＧＰＵモジュールのデータ処理能力及びＣＰＵモジュールのデータ読み取り能力、ＰＣＩバスのデータ伝送能力などを総合的に考慮して最適な遺伝子シークエンシングデータの数を確定することができ、データ処理効率を最大限に確保することができる。

【0043】

遺伝子シークエンシングデータをバッチ単位で読み取った後、通常はバッチ遺伝子シークエンシングデータを分割し、複数の短いシーケンスを形成する必要がある。本実施形態では、第１のアルゴリズムを用いて、短いシーケンスに切断された配列の長さが異なっていてもよく、切断された短いシーケンスの数も固定したものではなく、バッチ遺伝子シークエンシングデータを分割し、バッチ遺伝子シークエンシングデータの数、アイドル状態のＧＰＵモジュールの数、ＧＰＵ処理能力を総合的に考慮して最適な値を選択することができる。

【0044】

アイドル状態のＣＰＵモジュールが各短いシーケンス及び第２アルゴリズムをアイドル状態のＧＰＵに伝送すると、アイドル状態のＧＰＵモジュールは第２アルゴリズムに基づいて各短いシーケンスを計算し、この時アイドル状態のＣＰＵモジュールは次のバッチ遺伝子シークエンシングデータの読み取り、分割を行うことができ、一方、アイドル状態のＧＰＵモジュールが短いシーケンス処理を完了した後、計算結果をアイドル状態のＣＰＵモジュールに送信し、ＣＰＵモジュールは計算結果及び第１のアルゴリズム計算に基づいてバッチ計算結果を得ることができ、これにより、ＣＰＵモジュールとＧＰＵモジュールの間に流れ作業ラインが形成され、すべての遺伝子シークエンシングデータがすべて処理されるまで繰り返される。

【0045】

本発明の実施形態における遺伝子シークエンシングデータ処理装置は、遺伝子シークエンシングデータ処理装置が、ＡＲＭアーキテクチャ１０、ＧＰＵアーキテクチャ２０及びＰＣＩバス３０を含む異種マルチコアアーキテクチャであり、ＡＲＭアーキテクチャは少なくとも１つのＣＰＵモジュールを含み、ＧＰＵアーキテクチャは少なくとも１つのＧＰＵモジュールを含み、ＣＰＵモジュールはＰＣＩバスを介してＧＰＵモジュールに接続され、両者間で情報の相互伝送が可能である。アイドル状態のＣＰＵモジュールは、遺伝子シークエンシングデータをバッチ単位で読み取って遺伝子解析方法を分割することでバッチ遺伝子シークエンシングデータ、第１のアルゴリズム（当該アルゴリズムはＣＰＵモジュールの実行に最適なアルゴリズムである）及び第２のアルゴリズム（当該アルゴリズムはＧＰＵモジュールの実行に最適なアルゴリズムである）を得て、第１のアルゴリズムを用いてバッチ遺伝子シークエンシングデータを分割し、一連の短いシーケンスを得て、ＰＣＩバスを介してこれらの短いシーケンス及び第２のアルゴリズムをアイドル状態のＧＰＵモジュールに伝送し、ＧＰＵモジュールは、第２のアルゴリズムに基づいてこれらの短いシーケンスを計算し、計算結果をアイドル状態のＣＰＵモジュールに戻し、アイドル状態のＣＰＵモジュールは、計算結果及び第１のアルゴリズムに基づいてバッチ処理結果を計算し、アイドル状態のＣＰＵモジュール及びアイドル状態のＧＰＵモジュールは、遺伝子シークエンシングデータ処理が完了するまで上記ステップを繰り返し実行し、アイドル状態のＣＰＵモジュールは、各バッチ処理結果を統合し、最終的な処理結果を得ることができる。当該遺伝子シークエンシングデータ処理装置及び遺伝子シークエンシングデータ処理方法は、遺伝子シークエンシングデータの解析方法（すなわち、解析プロセス）を分割し、特性に応じてＣＰＵモジュール及びＣＰＵモジュールで動作させ、遺伝子シークエンシングデータ解析の効率を大幅に向上させる。また、当該遺伝子シークエンシングデータ処理装置には複数のＣＰＵモジュール及びＧＰＵモジュールを設けることができ、複数のＧＰＵモジュールは、異なる長さの短いシーケンスを同時に計算することができるため、ＧＰＵ並列効率が低いという問題を解決することができる。

【0046】

一実施形態では、アイドル状態のＣＰＵモジュールは、各ＧＰＵモジュールをスキャンし、アイドル状態のＧＰＵモジュールの数及び各アイドル状態のＧＰＵモジュールのデータ処理量を決定し、アイドル状態のＧＰＵモジュールの数及び各データ処理量に基づいて遺伝子シークエンシングデータをバッチ単位で読み取ることにも用いられる。

【0047】

具体的には、アイドル状態のＣＰＵモジュールは、遺伝子解析を開始する際に、ＧＰＵモジュールをスキャンして、現在利用可能なＧＰＵの枚数と、利用可能なＧＰＵモジュールのデータ処理量を決定することにより、今回バッチ単位で読み取られた遺伝子シークエンシングデータの数を決定し、その数に基づいて遺伝子シークエンシングデータを読み取る。

【0048】

本発明の理解を容易にするために、図１及び図２を組み合わせて遺伝子シークエンシングデータ処理装置の動作フローの詳細な実施形態を示し、本実施形態では遺伝子解析方法に遺伝子アライメント方法を採用している。

【0049】

１．Ｔ１時刻：アイドル状態のＣＰＵモジュールが遺伝子シークエンシングデータＤを受信し、アライメントタスクプログラムを起動し、現在利用可能なＧＰＵモジュールの枚数をスキャンし、Ｇと表記し、データＤのシークエンシング長さに基づいてＬ１と表記し、ＣＰＵモジュールは、データＤをバッチ単位で読み取り、各バッチ単位で読み取られるデータＤｉの数をＫと表記し、Ｋの値はＧＰＵモジュールの数に応じて調整することができ、計算式：Ｋ＝Ａ＊Ｇ、ここでＡはＧＰＵモジュールが一度に処理できるデータ量（本実施形態では、各ＧＰＵモジュールの処理能力が完全に同じであることを選択する）を表し、データＤｉを第１のアルゴリズムに従って分割し、複数の短いシーケンスを形成する。

【0050】

２．Ｔ２時刻：ＰＣＩバスを介してこれらの分割された短いシーケンスを１つの空いているＧＰＵモジュールに伝送し、同時にＣＰＵモジュールは次のデータＤｉ＋１を処理し、２段階の作業ラインを形成することができる。

【0051】

３．Ｔ３時刻：ＤｉデータをＧＰＵ内のグラフィックスメモリに伝送する時、ＧＰＵの第２のアルゴリズムを起動することができて、この時、Ｄｉ＋１はＰＣＩ伝送段階に入り、ＣＰＵモジュールは次のデータＤｉ＋２を処理し、３段階の作業ラインを形成する。

【0052】

４．Ｔ４時刻：Ｄｉデータの計算が完了し、計算結果はＰＣＩを介してＣＰＵモジュールにバックホールされ、この時、Ｄｉ＋１はＧＰＵモジュールの計算段階に入り、Ｄｉ＋２はＰＣＩ入力段階に入り、Ｄｉ＋３はＣＰＵモジュールがデータを処理し、４段階の作業ラインを形成する。

【0053】

５．Ｔ５時刻：Ｄｉデータの計算結果のバックホールが完了した後、ＣＰＵモジュールに渡して第１のアルゴリズムを採用してアライメントアルゴリズムの後続段階の操作を引き続き完成し、この時、５段階の作業ラインを形成する。

【0054】

一実施形態では、遺伝子解析アルゴリズムは、遺伝子アライメントアルゴリズム、Ｄｏｔｐｌｏｔアルゴリズム、ｂｌａｓｔアルゴリズム、ＰＡＭアルゴリズム、ＨＭＭアルゴリズム及びＡＩ推定アルゴリズムを含む。

【0055】

具体的には、Ｄｏｔｐｌｏｔアルゴリズム、ｂｌａｓｔアルゴリズムはシーケンスアライメントアルゴリズムの一種である。

【0056】

ＰＡＭアルゴリズムは、データマイニングのクラスタリングアルゴリズムであり、単細胞シークエンシングで細胞亜群などを分析することができる。

【0057】

ＨＭＭアルゴリズム、隠れマルコフクラスタリングアルゴリズムは、統計モデルであり、それは暗黙の未知パラメータを含むマルコフ過程を記述するために用いられ、標的遺伝子の予測に用いることができる。

【0058】

ＡＩ推定アルゴリズム（ＤｅｅｐＶａｒｉａｎｔ）、ディープラーニングのアルゴリズムは、遺伝子突然変異の識別などに利用できる。選択可能に、ＡＩ推定アルゴリズムは、ＣＮＮ（畳み込みニューラルネットワーク）、ＲＮＮ（循環ニューラルネットワーク）に関連する推定アルゴリズムであってもよい。

【0059】

選択可能に、遺伝子解析アルゴリズムがＤｏｔｐｌｏｔアルゴリズム、ｂｌａｓｔアルゴリズム、ＰＡＭアルゴリズムである場合、通常、先ずアルゴリズムをＣＵＤＡ化する必要がある。アルゴリズムをＣＵＤＡ化することにより、本発明の実施例における遺伝子シークエンシングデータ処理装置での方法の実行がより適切になる。

【0060】

一実施形態では、遺伝子アライメントアルゴリズムはＢＷＴアルゴリズムを含み、第１のアルゴリズムはアンカーポイント切断アルゴリズムを含み、アイドル状態のＣＰＵモジュールは、バッチ遺伝子シークエンシングデータに対して、アンカーポイント切断アルゴリズムを用いてアンカーポイントを固定させ、固定したアンカーポイントを中心に前後にＮ個のｂｐ長を延長し、ＮＥＯＮ命令を用いてバッチ遺伝子シークエンシングデータを２Ｎ＋１個のｂｐ長で切断し、各短いシーケンスを得て、Ｎは任意の正の整数である。

【0061】

一実施形態では、各短いシーケンスを得るステップは、次の式を用いて各短いシーケンスを計算するステップであって、

【数3】

【0062】

選択可能に、遺伝子アライメントアルゴリズムは、ＢＷＴアルゴリズムであり、第１のアルゴリズムは、アンカーポイント切断アルゴリズム及びＢＷＴ行列変換アルゴリズムであってもよく、第２のアルゴリズムは、Ｈａｓｈアルゴリズムであってもよい。具体的には、図３に示すように、アイドル状態のＣＰＵモジュールがデータＤｉに対して第１のアルゴリズム（すなわち、アンカ切断アルゴリズム）を用いて処理を行い、まず、バッチ単位で読み取った長さＬの遺伝子シークエンシングデータ（すなわち、ｒｅａｄ）に対してアンカーポイントを固定させ、前後にＮ個のｂｐ長だけ延長し、長さ２Ｎ＋１の短いｒｅａｄを得て、ＮＥＯＮコマンドを用いてｒｅａｄに対して２Ｎ＋１の長さの切断及び運搬を行う。アンカーポイントの数がｘ個の場合、Ｎの数には次の式のような関係がある。

【数4】

ここで、ｘは、アンカーポイントの数を表し、Ｎは、延長するｂｐの数を表し、Ｌは、バッチ遺伝子シークエンシングデータの長さを表す。上記の方法を利用することにより、ＧＰＵモジュール上で動作するのに適している複数の短いシーケンスを得ることができる。

【0063】

一実施形態では、第２のアルゴリズムは、Ｈａｓｈアルゴリズムであり、アイドル状態のＧＰＵモジュールは、Ｈａｓｈアルゴリズムに基づいて各短いシーケンスをＨａｓｈ演算してＨａｓｈ計算結果を得て、Ｈａｓｈ計算結果をアイドル状態のＣＰＵモジュールに送信することにも用いられ、Ｈａｓｈ計算結果は、ＢＷＴアルゴリズム行列の値であり、ＢＷＴアルゴリズム行列の計算に用いられる。

【0064】

具体的には、遺伝子アライメントアルゴリズムは、ＢＷＴアルゴリズムであり、第１のアルゴリズムは、アンカーポイント切断アルゴリズム及びＢＷＴ行列変換アルゴリズムであってもよく、第２のアルゴリズムは、Ｈａｓｈアルゴリズムであってもよい。図４に示すように、第１のアルゴリズムによって計算された短いシーケンスｘ＊Ｋ個の短いシーケンスがアイドル状態のＧＰＵモジュール内のビデオメモリに渡される。ここで、ＫはＤｉの数を表し、短いシーケンスの数は、複数のＧＰＵモジュールのグラフィックスメモリと正の相関を示す。ＨａｓｈアルゴリズムはＧＰＵのＳＩＭＴアーキテクチャの動作に有利であるため、ＧＰＵのカーネル関数を用いて複数の短いシーケンスに対してＨａｓｈ計算を行い、Ｈａｓｈ計算結果を得て、Ｈａｓｈ計算結果をアイドル状態のＣＰＵモジュールに送信し、Ｈａｓｈ計算結果は、ＢＷＴアルゴリズム行列の値であり、ＢＷＴアルゴリズム行列の計算に用いられる。Ｈａｓｈアルゴリズムを採用すると、ｋｍｅｒ計算サイトアルゴリズムなどの従来の他の計算と比較して、メモリスペースを大幅に節約できる。

【0065】

一実施例では、第１のアルゴリズムは、ＢＷＴ行列変換アルゴリズムをさらに含み、アイドル状態のＣＰＵモジュールは、ＢＷＴ行列変換アルゴリズムを用いてＢＷＴアルゴリズム行列を変換し、短いシーケンスのＢＷＴ変換結果を得ることにも用いられる。

【0066】

具体的には、遺伝子アライメントアルゴリズムは、ＢＷＴアルゴリズムであってもよく、第１のアルゴリズムはアンカーポイント切断アルゴリズム及びＢＷＴ行列変換アルゴリズムであってもよい。ＧＰＵモジュールがＨａｓｈ計算結果をアイドル状態のＣＰＵモジュールに送信した後、ＣＰＵモジュールは、Ｈａｓｈ計算結果がＢＷＴアルゴリズム行列である値をＢＷＴアルゴリズム行列の計算に用い、ＢＷＴ行列変換アルゴリズムを用いてＢＷＴアルゴリズム行列を変換し、短いシーケンスのＢＷＴ変換結果を得る。選択可能に、Ｈａｓｈ計算の結果、ＢＷＴアルゴリズム行列間の関係は、ｈ＝Ｈａｓｈ（ｘ、ｒ）、Ｙ＝ＢＷＴ（ｈ、ｒ）として表すことができる。ここで、ｈはＨａｓｈ計算結果、ＹはＢＷＴアルゴリズム行列、ｒは短いシーケンスを表す。この方法を採用することにより、短いシーケンスのＢＷＴ変換結果を迅速かつ正確に得ることができ、遺伝子シークエンシングデータの圧縮が迅速に完了し、後続の処理がより便利になる。

【0067】

一実施形態では、アライメントアルゴリズムは、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムを含み、第２のアルゴリズムは、スコア行列アルゴリズムを含み、アイドル状態のＧＰＵモジュールは、スコア行列アルゴリズム、各短いシーケンス及び参照種シーケンスからＳｍｉｔｈ－Ｗａｔｅｒｍａｎスコア行列を計算し、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎスコア行列をアイドル状態のＣＰＵモジュールに送信することにも用いられる。

【0068】

一実施形態では、Ｓｍｉｔ－Ｗａｔｅｒｍａｎスコア行列を計算するステップは、
Ｍ＝Ｒ＊Ｃ、Ｒ＝ａ＊Ｌ^２＋ｂという式を用いて計算してＳｍｉｔ－Ｗａｔｅｒｍａｎスコア行列を得るステップであって、
ここで、Ｍは、Ｓｍｉｔ－Ｗａｔｅｒｍａｎスコア行列を表し、Ｒは、参照種候補区間シーケンスの長さであり、Ｃは、アイドル状態のＣＰＵモジュールから受信された各短いシーケンスを選別し且つ結合して形成された短いシーケンスの長さを表し、Ｌは、バッチ遺伝子シークエンシングデータの長さを表し、ａ及びｂは、定数であるステップを含む。

【0069】

具体的には、従来のＳｍｉｔｈ－ＷａｔｅｒｍａｎアルゴリズムはＧＰＵでの動作効率が比較的低く、本発明の実施形態における遺伝子シークエンシングデータ処理装置に直接適用することができないため、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムを改善する。具体的には、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムには、大きさがサイズＲ＊Ｃのスコア行列が存在し、スコア行列を計算するステップをＧＰＵモジュール内に入れると、第２のアルゴリズムは意図行列アルゴリズムである。Ｍ＝Ｒ＊Ｃ、Ｒ＝ａ＊Ｌ^２＋ｂという式でＳｍｉｔ－Ｗａｔｅｒｍａｎスコア行列を計算し、
ここで、Ｍは、Ｓｍｉｔ－Ｗａｔｅｒｍａｎスコア行列を表し、Ｒは、参照種候補区間シーケンスの長さであり、Ｃは、アイドル状態のＣＰＵモジュールから受信された各短いシーケンスを選別し且つ結合して形成された短いシーケンスの長さを表し、Ｌは、バッチ遺伝子シークエンシングデータの長さを表し、ａ及びｂは、定数である。

【0070】

また、Ｃの長さは、ＢＷＴアルゴリズムでＧＰＵモジュールが計算するＨａｓｈ計算結果に関係している。当該方法を採用することで、従来のＳｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムを改善し、ＧＰＵでの動作に適し、効率的に動作させるようにすることができる。

【0071】

上記遺伝子シークエンシングデータ処理装置によれば、本発明の実施形態では遺伝子シークエンシングデータ処理方法も提供される。

【0072】

図５に示すように、遺伝子シークエンシングデータ処理装置に適用される遺伝子シークエンシングデータ処理方法は、
アイドル状態のＣＰＵモジュールが、遺伝子シークエンシングデータをバッチ単位で読み取り、バッチ遺伝子シークエンシングデータを得るステップＳ１と、
アイドル状態のＣＰＵモジュールが、遺伝子解析方法を分割して第１のアルゴリズムと第２のアルゴリズムを得るステップＳ２と、
アイドル状態のＣＰＵモジュールが、第１のアルゴリズムに基づいてバッチ遺伝子シークエンシングデータを分割して短いシーケンスを得て、各短いシーケンス及び第２のアルゴリズムをアイドル状態のＧＰＵモジュールに送信するステップＳ３と、
アイドル状態のＧＰＵモジュールが、第２のアルゴリズムに基づいて各短いシーケンスを計算し、計算結果をアイドル状態のＣＰＵモジュールに送信するステップＳ４と、
アイドル状態のＣＰＵモジュールが、計算結果及び第１のアルゴリズムに基づいてバッチ処理結果を計算するステップＳ５と、
遺伝子シークエンシングデータ処理が完了するまでステップＳ１～Ｓ５を繰り返し、アイドル状態のＣＰＵモジュールが、各バッチ処理結果を統合演算し、最終的な処理結果を得るステップと、を含む。

【0073】

具体的には、１回のシークエンシングでは大量のデータが生成されるため、前記遺伝子シークエンシングデータのデータ量は比較的多く、当該データを解析処理する際にバッチ単位で行うことができ、データ伝送の渋滞などを回避することができる。その中でアイドル状態のＣＰＵがｉ回目に読み取った遺伝子シークエンシングデータをＤｉとする。アイドル状態のＣＰＵモジュールは、遺伝子シークエンシングデータＤｉを読み取り、遺伝子解析方法を分割して第１のアルゴリズムと第２のアルゴリズムを得て、第１のアルゴリズムに基づいて遺伝子シークエンシングデータＤｉを分割して各短いシーケンスを得て、各短いシーケンス及び第２のアルゴリズムをアイドル状態のＧＰＵモジュールに送信した後、アイドル状態のＧＰＵモジュールは、第２のアルゴリズムに基づいて各短いシーケンスを計算し、計算結果をアイドル状態のＣＰＵモジュールに送信し、アイドル状態のＣＰＵモジュールは、計算結果及び第１のアルゴリズムに基づいてバッチ処理結果を計算し、また、アイドル状態のＣＰＵモジュールは、遺伝子シークエンシングデータＤｉ＋１を読み取り、遺伝子シークエンシングデータＤｉ＋１を分割して、分割された遺伝子シークエンシングデータＤｉ＋１に対応する短いシーケンスをアイドル状態のＧＰＵモジュールに送信し、Ｄｉ＋１は、Ｄｉ＋１回目に読み取った遺伝子シークエンシングデータを示し、アイドル状態のＧＰＵモジュールは分割された遺伝子シークエンスデータＤｉ＋１に対応する短いシーケンスを処理し、処理結果をアイドル状態のＣＰＵモジュールに送信し、アイドル状態のＣＰＵモジュール及びアイドル状態のＧＰＵモジュールは、全ての遺伝子シークエンシングデータの処理が完了するまで、遺伝子シークエンシングデータの読み取り、切り分け、伝送、計算及びバックホールを継続的に行う（すなわち、ステップＳ１～Ｓ５を繰り返す）ことにより、アイドル状態のＣＰＵモジュールとアイドル状態のＧＰＵモジュールとの間に作業ラインを形成する。

【0074】

一実施形態では、アイドル状態のＣＰＵモジュールは、各ＧＰＵモジュールをスキャンし、アイドル状態のＧＰＵモジュールの数及び各アイドル状態のＧＰＵモジュールのデータ処理量を決定し、アイドル状態のＧＰＵモジュールの数及び各データ処理量に基づいて遺伝子シークエンシングデータをバッチ単位で読み取る。

【0075】

【0076】

一実施形態では、遺伝子アライメントアルゴリズムはＢＷＴアルゴリズムを含み、第１のアルゴリズムはアンカーポイント切断アルゴリズムを含み、アイドル状態のＣＰＵモジュールは、バッチ遺伝子シークエンシングデータに対して、アンカーポイント切断アルゴリズムを用いてアンカーポイントを固定させ、固定したアンカーポイントを中心に前後にＮ個のｂｐ長だけ延長し、ＮＥＯＮ命令を用いてバッチ遺伝子シークエンシングデータを２Ｎ＋１個のｂｐ長で切断し、各短いシーケンスを得て、Ｎは任意の正の整数である。

【0077】

一実施形態では、各短いシーケンスを得るステップは、次の式を用いて短いシーケンスを計算するステップであって、

【数5】

ここで、ｘは、アンカーポイントの数を表し、Ｎは、延長するｂｐの数を表し、Ｌは、バッチ遺伝子シークエンシングデータの長さを表すステップを含む。

【0078】

一実施形態では、第２のアルゴリズムはＨａｓｈアルゴリズムであり、アイドル状態のＧＰＵモジュールは、Ｈａｓｈアルゴリズムに基づいて各短いシーケンスをＨａｓｈ演算してＨａｓｈ計算結果を得て、Ｈａｓｈ計算結果をアイドル状態のＣＰＵモジュールに送信することにも用いられ、ここで、ＨａｓｈはＢＷＴアルゴリズム行列の値で、ＢＷＴアルゴリズム行列の計算に用いられる。

【0079】

一実施形態では、第１のアルゴリズムは、ＢＷＴ行列変換アルゴリズムをさらに含み、アイドル状態のＣＰＵモジュールは、ＢＷＴ行列変換アルゴリズムを用いてＢＷＴアルゴリズム行列を変換し、短いシーケンスのＢＷＴ変換結果を得る。

【0080】

一実施形態では、アライメントアルゴリズムは、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムを含み、第２のアルゴリズムは、スコア行列アルゴリズムを含み、アイドル状態のＧＰＵモジュールは、スコア行列アルゴリズム、各短いシーケンス及び参照種シーケンスに基づいてＳｍｉｔｈ－Ｗａｔｅｒｍａｎスコア行列を計算し、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎスコア行列をアイドル状態のＣＰＵモジュールに送信することにも用いられる。

【0081】

一実施例では、Ｓｍｉｔ－Ｗａｔｅｒｍａｎスコア行列を計算するステップは、次の式を用いて計算してＳｍｉｔ－Ｗａｔｅｒｍａｎスコア行列を得るステップであって、

【数6】