(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-11
(45)【発行日】2023-04-19
(54)【発明の名称】生物学的配列に基づく負の配列パターンの類似性分析方法、その実装システム及び媒体
(51)【国際特許分類】
G16B 40/00 20190101AFI20230412BHJP
G06F 17/15 20060101ALI20230412BHJP
C12Q 1/6869 20180101ALI20230412BHJP
【FI】
G16B40/00
G06F17/15
C12Q1/6869 Z
(21)【出願番号】P 2021561803
(86)(22)【出願日】2020-11-12
(86)【国際出願番号】 CN2020128253
(87)【国際公開番号】W WO2022062114
(87)【国際公開日】2022-03-31
【審査請求日】2021-10-15
(31)【優先権主張番号】202011022788.8
(32)【優先日】2020-09-25
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520063990
【氏名又は名称】斉魯工業大学
【氏名又は名称原語表記】QILU UNIVERSITY OF TECHNOLOGY
【住所又は居所原語表記】No.3501, Daxue Road, ChangQing District,Jinan City, Shandong Province 250353 China
(74)【代理人】
【識別番号】100130111
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】董 祥軍
(72)【発明者】
【氏名】芦 月
【審査官】岡北 有平
(56)【参考文献】
【文献】Xiangjun Dong, et al.,F-NSP+: A Fast Negative Sequential Patterns Mining Method with Self-adaption Data Storage Strategy,[online],2018年01月13日,Pages 1-35,[検索日:2022年12月22日], <URL:https://datasciences.org/publication/F-NSP+.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
G06F 17/15
C12Q 1/6869
(57)【特許請求の範囲】
【請求項1】
生物学的配列に基づく負の配列パターンの類似性分析方法であって、
データの前処理工程(1)において、DNA配列内の文字を数字で表し、数字で表された配列をいくつかの同じ塩基数のブロックに分割し、取得したブロックを頻出パターンマイニングのデータセットとして使用する工程と、
頻出パターンマイニング工程(2)において、f-NSPアルゴリズムを使用してデータセットをマイニングし、最大頻出正・負の配列パターンを取得する工程と、
最大頻出正・負の配列パターンをグラフィックに表現する工程(3)と、
DNA配列の類似性分析工程(4)において、類似性が小さいほど、DNA配列は類似するに基づく、異なるDNA配列の類似性を求める工程
を含む
ことを特徴とする生物学的配列に基づく負の配列パターンの類似性分析方法。
【請求項2】
生物学的配列に基づく負の配列パターンの類似性分析方法であって、
工程(2)において、f-NSPアルゴリズムを使用して、データセットDをマイニングし、
工程Aにおいて、GSPアルゴリズムを使用して、すべての正の頻出配列を取得し、各正の頻出配列に対応するビットマップをハッシュテーブルに格納し、
データセットをスキャンして長さ1のすべての配列パターンを取得し、元のシードセットP
1に配置する工程aと、
元のシードセットP
1から長さ1の配列パターンを取得し、連結操作によって長さ2の候補配列セットC
2を生成し、Aprioriプロパティを使用して候補配列セットC
2をプルーニングし、候補配列セットC
2をスキャンして残りの配列のサポートを決定し、最小サポートよりも高いサポートで配列パターンを保存し、長さ2の配列パターンL
2を出力し、且つ長さ2のシードセットとして、長さが増加する候補配列の生成に使用し、この方法で、長さ3の配列パターンL
3、長さ4の配列パターンL
4…長さn+1の配列パターンL
n+1を出力し、新しい配列パターンがマイニングできなくなるまでとし、取得した配列パターンは正の頻出配列の全部であり、最小サポートは人為的に設定されたサポートしきい値min_supと設定する工程bとを含む工程Aと、
工程Bにおいて、すべての正の頻出配列に基づいて対応するNSCを生成し、NSCは、負の候補配列をいい、正の頻出配列は、まとめて正の配列と呼ばれ、k-sizeのPSPにとっては、NSCsは、m個の隣接しない要素を¬で表される負の数に変更することによって生成され、m= 1,2、...、「k/2」,「k/2」がk/2以上の最小整数であり、k-sizeとは配列のサイズがkであり、NSCsとはすべての負候補配列のことである工程Bと、
請求項1に記載の生物学的配列に基づく負の配列パターンの類似性分析方法。
【請求項3】
生物学的配列に基づく負の配列パターンの類似性分析方法であって、
工程(3)において、複素平面におけるプリンピリミジン図を作成し、プリンピリミジン図において、第1象限・第2象限はA、¬A、Gと¬Gを含むプリンを表し、第3象限・第4象限は、T、¬T、Cと¬Cを含むピリミジンを表し、4つのヌクレオチドA、G、T、Cおよび対応する負の配列の単位ベクトル¬ A、¬G、¬T、¬Cを式(I )~式(VIII)に示されるとおり:
【数1】
【数2】
式(IX)において、s(0)=0,y(j)は式(X)を満たす:
【数3】
式(X)において、jは配列Sの0,1,2,..., n番目の位置にある塩基タイプを表し、nは調査対象のDNA配列の長さであり、
式(X)を使用して、最大頻出12種の正・負の配列パターンをデジタル配列に変換し、
最大頻出正・負の配列パターンをグラフィックに表現する
請求項1に記載の生物学的配列に基づく負の配列パターンの類似性分析方法。
【請求項4】
生物学的配列に基づく負の配列パターンの類似性分析方法であって、工程(4)において、異なるDNA配列の類似性を表すために用いられる距離行列を取得する
請求項1ないし3のいずれかに記載の生物学的配列に基づく負の配列パターンの類似性分析方法。
【請求項5】
【数4】
【数5】
式(XI)において、ここに、i=2,3,...,m;j=2,3,...,n。D(m,n)は、A
m×nの中のワンピングパスの最小累積値である
請求項4に記載の生物学的配列に基づく負の配列パターンの類似性分析方法。
【請求項6】
生物学的配列に基づく負の配列パターンの類似性分析方法の実装システムであって、
データ前処理モジュール、頻出パターンマイニングモジュール、グラフィック表現モジュール、類似性分析モジュールを順次接続し、データ前処理モジュールが工程(1)の実行に用いられ、頻出パターンマイニングモジュールが工程(2)の実行に用いられ、グラフィック表現モジュールが工程(3)の実行に用いられ、類似性分析モジュールが工程(4)の実行に用いられる
請求項1ないし5のいずれかに記載の生物学的配列に基づく負の配列パターンの類似性分析方法の実装システム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、生物学的配列に基づく負の配列パターンの類似性分析方法、その実装システム及び媒体に関し、決定可能で高効率負の配列ルールの応用技術分野に属する。
【背景技術】
【0002】
近年、膨大な量の生物学的配列データの取得や、DNAおよびタンパク質配列決定技術の進歩にともない、生物学的配列データに含まれるあらゆる種類の情報、特にDNA配列の遺伝・調節に関する情報、タンパク質配列構造と機能との関係を解釈するデータ分析ツールに対する需要が高まり、配列の類似性分析が広く利用されている。新しいDNA配列を取得するときに、類似性分析により既知の配列との類似性を証明したくなる。既知の配列と相同性がある場合は、新しい配列の機能を再決定する際の時間と労力を大幅に軽減できる。生物学的配列は膨大であるため、これは特に重要になる。生物学的配列分析では、配列パターンマイニングは、同時の生物学的配列を識別し、DNAまたはタンパク質配列間の関係を発見するのに役立つ。したがって、欠失している塩基対配列を研究することは、単に頻出配列パターンをマイニングするよりも重要になる。バイオインフォマティクスの研究では、生物学的配列の類似性分析は決して単純または機械的な比較ではなく、間違いなく多様かしており、分析と評価を支援するために多くの数学的および統計的方法も必要となる。配列の類似性分析においては、配列アラインメントが最も一般的で古典的な研究方法である。生物学的配列のレベルから配列の類似性を分析し、それらの構造的、機能的及び進化的関係を推測することは、遺伝子認識、分子進化、生命起源の研究の基礎となる。
【0003】
ただし、類似性スコアに直接影響する配列アラインメントには、置換行列とギャップペナルティという2つの問題がある。大まかな位置合わせ方法は、2つのベース間の関係を同じまたは異なるものとしてのみ記述する。生物学的配列の類似性分析は、タンパク質配列に保存されている情報を抽出するために使用され、この目的のために多くの数学的解決策が提案されてきました。生物学的配列のグラフィック表現は、生物学者が別の複雑な理論的または実験的方法を選択するのに役立つ任意の配列の情報内容を識別することができる。グラフィック表現は、遺伝子データの視覚的な定性的検査を提供するだけではなく、マトリックスやその他のオブジェクトを介した数学的記述も提供する。ほとんどの数学的ソリューションは、2次元および3次元表現に基づいて表現されている。
【0004】
配列パターンマイニングに関しては、正の配列パターン(Positive Sequential Pattern, PSP)マイニングでは、発生したイベント(動作)のみが考慮される。この従来のシーケンシャルパターンマイニングの考え方とは異なり、負の配列パターン(Negative Sequential Pattern, NSP)マイニングは、発生していないイベント(動作)、つまり、配列中に存在しないアイテムも考慮される。これにより、人類により包括的で決定可能な情報を提供できるようになる。たとえば、キャンパス内で生じるさまざまな現象がそれぞれ学生の勉強と生活に異なる影響を与えていること、医療詐欺の疑いのある被保険者により、不良の薬物購入記録が削除されること、遺伝子の欠失により潜在的な病気などを引き起こす可能性があることがある。このようなアイテムは無視されてがちである。したがって、ますますデータマイニングを行う技術者から注目が集まっている。特に生物学的配列分析では、配列パターンマイニングは、同時の生物学的配列を識別し、DNAまたはタンパク質配列間の関係を発見するのに役立つ。したがって、欠失している塩基対配列を研究することは、頻出配列パターンをマイニングすることよりも有意義になる。生物学的データ分析または生物学的データマイニングには、同時生物学的配列の発見、生物学的配列の効果的な分類、生物学的配列のクラスター分析の実行など、いくつかの重要な問題がある。配列パターンマイニングは、同時発生する生物学的配列を識別し、DNAまたはタンパク質配列の関係を発見するのに役立つ。生物学的配列データには、多くの貴重な生物学的情報が含まれている。たとえば、生物学的配列に頻出の遺伝子やタンパク質フラグメントには、多くの未知の情報が含まれており、これらの情報をマイニングすることは非常に重要である。遺伝子の一部の影響により、特定の細菌から攻撃を受ける。複数の可変数のタンデムリピートの配列の極端な拡大は、関連する神経疾患につながる可能性がある。さらに、DNA配列中の頻出パターンの発見は生物の遺伝的特徴を説明する上、効果的な方法になる。これらの頻出パターンは、生物学的配列に隠れたデータの可能な傾向または特定のイベントの関連マーカーとして用いられる。したがって、タンパク質やDNAの生物学的配列における頻出パターンマイニングは非常に重要な価値がある。
【0005】
既存の類似性分析方法は主にPSPに適用されるが、前記NSPについては、統一された類似性測定手法がまだ欠如している。さらに、配列アラインメントにはいくつかの欠点があるから、DNA配列の類似性を比較する他の方法を見つけるよう人々は試みを重ねている。 NSPの存在が生物学的データにも、一部の疾患の原因となる遺伝子にも不可欠であるため、塩基が欠失している配列のDNAに対して、類似性分析を実行する方法を見つける必要がある。
【先行技術文献】
【非特許文献】
【0006】
【文献】ZhiyiMo,WenZhu,Yi Sun,Qilin Xiang,MingZheng,MinChen,ZejunLi. One novel representation of DNA sequence based on the global and local position information.[J]. Scientific reports,2018,8(1).
【文献】Yu Hong-Jie,Huang De-Shuang. Graphical representation for DNA sequences via joint diagonalization of matrix pencil.[J]. IEEE Journal of Biomedical & Health Informatics, 2013, 17(3):503-511.
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、前記従来技術の有する問題点に鑑みて提案されたもので、生物学的配列に基づく負の配列パターンの類似性分析方法を提供することを目的とする。
本発明は、また、上記の類似性分析方法の実装システムを提供することを目的とする。
【0008】
DNA配列の類似性を効果的に分析するには、次に掲げる重要な問題を考慮する必要がある。(1)DNAマスター配列をデジタル配列として効果的に表現する方法。(2)DNA配列の特徴と見なすことができる適切な記述子を取得、選択し、デジタル配列に従ってそれらを特徴付ける方法。(3)異なる長さのDNA配列を効果的に処理し、それらの一貫性を維持する方法。(4)負の配列に対して効果的な類似性分析を実行する方法。
【0009】
以下に、本明細書において特に使用される用語の定義を適宜説明する。
本明細書において、「DNA配列」とは、遺伝子配列とも言われ、文字列を使用して遺伝子情報を運ぶ実際のまたは仮想のDNA分子の一次構造をいう。
【0010】
本明細書において、「f-NSPアルゴリズム」とは、ビットマップを使用してPSPデータを格納し、ビット演算によってNSCサポートを計算する計算方法をいう。サイズが1より大きいPSPのビットマップを作成し、i番目のデータ配列に正の配列が含まれている場合、この正の配列のビットマップのi番目の位置を1に設定する。それ以外の場合は、 0に設定する。各ビットマップの長さは、データ配列に含まれる配列の数と同じである。新しいビットマップストレージ構造を使用することにより、もとの和集合演算をビットごとのOR演算に置き換えることができる。各ビットマップの長さは、データベース内の配列の数と同じである。 sが正の配列であり、そのビットマップがB(s)で表され、取得されたビットマップの「1」の数がN(B(s))で表されると仮定すると、次に、与えられたmサイズとn-negサイズの負の配列nsに対して、そのサポートは次に示すとおりである。
【0011】
【0012】
nsに負の要素が1つしかない場合、配列nsのサポートは次に示すとおりである。
【0013】
【0014】
特に、単一の要素の負の配列<¬G>の場合、
【0015】
【0016】
f-NSPアルゴリズムには、次に示すプロセスが含まれる。 1. GSPアルゴリズムに基づいて、配列データベースからすべてのPSPアルゴリズムを検索する。すべてのPSPsとそのビットマップはハッシュテーブルPSPHashに格納される。2.NSC(負の候補配列)生成方法を使用して各PSPのNSCsを生成する。3.式(2)と式(3)を使用して1-neg-Sizeのnscサポートを計算する。他のnscのサポートは、式(1)で簡単に計算できる。具体的には、まずは1-negMSSnsc内の各1-neg-MSのビットマップを取得する。次に、OR演算を使用して、ビットマップの和集合を取得する。それから、式(1)でnscのサポートを計算する。最後に、nscがNSPであるかどうかは、そのサポートをmin_supと比較することによって決定される。4.結果を返し、アルゴリズム全体を終了する。
【0017】
本明細書において「GSPアルゴリズム」とは、幅優先探索に基づくマイニングアルゴリズムをいう。データベースをスキャンしてデータベースに含まれる頻出アイテムセットを取得し、対応する接続およびプルーニング方法によって長さが増加する候補配列を生成し、そして、データベースの繰り返しスキャンのパターンに基づいて、候補配列のサポートを取得して、正の配列パターンを決定する。 GSPアルゴリズムは、Aprioriに似た典型的なアルゴリズムで、Aprioriアルゴリズムに比べて、分類レベル、時間制約、およびスライディングタイムウィンドなどを追加しており、アルゴリズム全体の最適化が実現している。同時に、GSPはデータセットのスキャン条件に制限を設け、これにより、スキャンする必要のある候補配列の数が減り、役に立たないパターンの生成が減る。
【0018】
本明細書において、「複素数平面」とは、 複素平面 ともいい、z = a + bi、対応する座標は(a、b)で、aは複素数平面の横座標を表し、bは複素平面の縦座標を表し、実数aを表す点は全部x軸上にあって、x軸を「実軸」といい、純粋な虚数bを表す点は全部y軸上にあって、y軸を「虚軸」といい、y軸上の実点は原点0とたった1つである。
【0019】
本明細書において、「プリンピリミジン図」とは、簡単に言えば、平面上にベクトルを描画して、DNA配列内の異なる塩基対を正確に表すことをいう。ここには、複素平面にプリンピリミジン図を作成し、第1象限と第2象限はプリン(A、¬A、G、¬G)を表し、第3象限と第4象限はピリミジン(T、¬T、C、¬C)を表す。 4つのヌクレオチドA、G、Cとそれに対応する負の配列を表す単位ベクトルは以下に示される。このようにして、異なる塩基対は一意に表すことができ、且つ、塩基対は共役関係を満たす。このプリンピリミジン図は、DNA配列とその時系列の1対1の対応を可能にする。
【0020】
本明細書において、「DTW(Dynamic time warping)」とは、最初は単なる音声認識手法として編み出されて、かつ広範に用いられていたように、時間計画と距離測定を組み合わせた非線形計画手法をいう。2つの時系列間の最大類似度即ち最小距離を計算するために使用されている。
【0021】
本明細書において、「Aprioriプロパティ」とは、Apriori で使われる性質のことをいう。頻出アイテム集合であるならば、その空でない部分集合もまた頻出であるという性質である。
【課題を解決するための手段】
【0022】
本発明は、前記課題を解決するためになされたもので、工程(1)~工程(4)を含むことを特徴とする生物学的配列に基づく負の配列パターンの類似性分析方法と、前記類似性分析方法の実装システムと、コンピュータ可読記憶媒体を提供することを目的とする。
【0023】
処理される配列またはゲノムは、頻出パターンマイニングの前に前処理する必要がある。具体的な工程は以下に示すとおりである。
【0024】
工程(1)データの前処理において、DNA配列内の文字を数字で表す。 DNA配列は非常に長いため、数字で表される配列をそれぞれ同じ塩基数のいくつかのブロックに分割し、取得したいくつかのブロックを頻出パターンマイニングのデータセットとして使用する。
【0025】
工程(2)頻出パターンマイニングにおいて、f-NSPアルゴリズムを使用してデータセットをマイニングし、最大頻出正・負の配列パターンを取得する。
【0026】
工程(3)において、最大頻出正・負の配列パターンをグラフィックに表現する。
【0027】
工程(4)DNA配列の類似性分析において、異なるDNA配列の類似性を求める。類似性が小さいほど、DNA配列は類似する。
【0028】
類似性マトリックスは、DNA類似性分析アルゴリズムの有効性を評価するために用いられる。側面から異なる種間の進化的または遺伝的関係を明らかにすることができる。 DNA配列間の距離の計算は、DNA類似性分析の基礎である。ユークリッド距離と相関角は、最も一般的に用いられる距離計算方法である。且つ、配列間のユークリッド距離が小さいほど、DNA配列は類似すると定められている。ベクトル同士の相関角が小さいほど、DNA配列は類似する。
【0029】
本発明において、好ましくは、工程(2)において、以下に示す工程A~Cを経て、f-NSPアルゴリズムを使用してデータセットをマイニングし、データセットはDとする。
【0030】
A、以下に示す工程a~bを経て、GSPアルゴリズムを使用して、すべての正の頻出配列を取得し、各正の頻出配列に対応するビットマップをハッシュテーブルに格納する。
a、データセットをスキャンして長さ1のすべての配列パターンを取得し、元のシードセットP1に配置する。
b、元のシードセットP1から長さ1の配列パターンを取得し、連結操作によって長さ2の候補配列セットC2を生成し、Aprioriプロパティを使用して候補配列セットC2をプルーニングし、候補配列セットC2をスキャンして残りの配列のサポートを決定し、最小サポートよりも高いサポートで配列パターンを保存し、長さ2の配列パターンL2を出力し、且つ長さ2のシードセットとして、長さが増加する候補配列の生成に使用する。この方法で、長さ3の配列パターンL3、長さ4の配列パターンL4…長さn+1の配列パターンLn+1を出力し、新しい配列パターンがマイニングできなくなるまでとする。取得した配列パターンは正の頻出配列の全部であり、最小サポートは人為的に設定されたサポートしきい値min_supと設定する。以下のように記述される。
L1→C2→L2→C3→L3→C4→L4……Ln+1が生成できない場合に停止する。
【0031】
B、すべての正の頻で配列に基づいて対応するNSCを生成する。
NSCは、負の候補配列を指し、正の頻出配列は、まとめて正の配列と呼ばれる。正の配列からすべての非冗長NSCを生成する上で、NSCを生成する重要な工程が、正パターンを持つ非連続要素を負パートナーに変換することである。 k-sizeのPSPにとっては、NSCsは、m個の隣接しない要素を¬で表される負の数に変更することによって生成される。m= 1,2、...、「k / 2」,「k / 2」がk / 2以上の最小整数である。k-sizeは配列のサイズがkであることをいう。たとえば、配列S={A T T C C}の場合、そのサイズが5-sizeである。 NSCs:すべての負候補配列を指す。
【0032】
例えば、<A T C C>のNSCには、次のものが含まれる。(1)m = 1の場合、<¬AT C C>,<A ¬T C C>,<AT ¬C C>,<ATC ¬C>であり、(2)m = 2の場合、<¬AT ¬C C>,<A ¬T C ¬C>である。ここのルールは、2つの連続した負のアイテムは許可されないということである。
【0033】
ns=<a
1a
2…a
m>が負の配列であり、ns′がns内のすべての正の要素のみで構成されていると仮定した場合、ns′はnsの最大の正のサブ配列と呼ばれ、MPS(ns)として定義される。MPS(<¬T C G ¬A>)=<CG>を例に示す。この配列のMPS(ns)とnsの負の要素aで構成される配列は、1-neg-size最大サブ配列と呼ばれ、1-negMSと定義される。<¬ATC¬G>を例に示すと、その1-negMSは<¬ATC>と<TC¬G>である。
【0034】
頻出パターンマイニングにより、12種類の最大頻出の正・負の配列パターンが取得される。
【0035】
本発明において、好ましくは、工程(3)において、最大頻出正・負の配列パターンをグラフィックに表現し、以下の内容を含む。
【0036】
複素平面におけるプリンピリミジン図を作成し、プリンピリミジン図において、第1象限と第2象限はプリン(A、¬A、G、¬G)を表し、第3象限と第4象限はピリミジン(T、¬T、C、¬C)を表し、4つのヌクレオチドA、G、T、Cおよびそれらの対応する負の配列の単位ベクトル¬ A、¬G、¬T、¬Cを以下、式(I)~式(VIII)に示される。
【0037】
【0038】
【0039】
【0040】
式(IX)において、s(0)=0,y(j)は式(X)を満たす。
【0041】
【0042】
式(X)において、jは配列Sの0,1,2,..., n番目の位置にある塩基タイプを表し、nは調査対象のDNA配列の長さである。
【0043】
上記のプロセスにより、元のDNA配列の時系列を「プリンピリミジン図」から一意に取得する。
式(X)を使用して、最大頻出12種の正・負の配列パターンをデジタル配列に変換する。以下のとおり、配列Human1を例に示す。式(IX)-(X)により、s(H1)= {0.866+0.5i,1.366-0.366i,2.2321+0.134i,3.0981+0.634i,3.5981+1.5i, 4.4641+2i}という複素数配列を取得する。モジュールで構成される時系列はS(H1)={1.0000,1.4142,2.2361,3.1623,3.8982,4.8916}である。この方法により、12種の頻出配列パターンの変換後の時系列を取得できる。
【0044】
本発明において、好ましくは、工程(4)において、異なるDNA配列の類似性を表すために用いられる距離行列を取得する。
【0045】
【0046】
【0047】
【0048】
【0049】
ここに、i=2,3,...,m;j=2,3,...,n。D(m,n)は、Am×nの中のワンピングパスの最小累積値である。
【0050】
前記類似性分析方法の実装システムは、順次接続されたデータ前処理モジュール、頻出パターンマイニングモジュール、グラフィック表現モジュール、類似性分析モジュールを備える。
【0051】
前記データ前処理モジュールは、工程(1)を実行するために用いられる。前記頻出パターンマイニングモジュールは、工程(2)を実行するために用いられる。前記グラフィック表現モジュールは、工程(3)を実行するために用いられる。前記類似性分析モジュールは、工程(4)を実行するために用いられる。
【0052】
前記コンピュータ可読記憶媒体は、生物学的配列に基づく負の配列パターンの類似性分析プログラムを保存していることを特徴とする。前記生物学的配列の負の配列パターンに基づく類似性分析プログラムがプロセッサによって実行される場合、前記生物学的配列の負の配列パターンの類似性を分析するための方法のいずれか1つの工程を実現することができる。
【発明の開示】
【発明の効果】
【0053】
本発明は、負の配列を効果的に発現および分析することができ、且つ、異なる最大頻出パターンの組み合わせを選択することにより、異なる分析結果を得ることができる。しかも、頻出パターンの選択により類似性分析を行うことで、コンピュータのメモリと時間の消費を大幅に節約できる。
【図面の簡単な説明】
【0054】
【
図1】本発明の生物学的配列に基づく負の配列パターンの類似性分析方法のフローチャートである。
【
図3】本発明の生物学的配列の負の配列パターンに基づく類似性分析法の実装システムの構造ブロック図である。
【
図4】実施例におけるビットごとのOR演算プロセスの概略図である。
【
図5(a)】最大頻出配列のHuman1、Opossum2、Rat2、およびChimpanzee2の類似性分析後に描画された系統樹である。
【
図5(b)】最大頻出配列のHuman2、Opossum1、Rat2、およびChimpanzee1の類似性分析後に描画された系統樹である。
【
図6(a)】最大頻出配列のHuman2、Opossum2、Rat2、およびChimpanzee1の類似性分析後に描画された系統樹である。
【
図6(b)】最大頻出配列のHuman3、Opossu3、Rat3、およびChimpanzee3の類似性分析後に描画された系統樹である。
【発明を実施するための形態】
【0055】
以下に、本発明に係る実施形態について図面を参照して説明するが、本発明は以下の実施例に限定されるものではない。
【実施例】
【0056】
実施例1
図1に示されるとおり、工程(1)~(4)を含む生物学的配列に基づく負の配列パターンの類似性分析方法
【0057】
処理される配列またはゲノムは、頻出パターンマイニングを行う前に前処理する必要がある。工程(1)のデータの前処理において、DNA配列内の文字を数字で表し、DNA配列が長いため、数字で表されたDNA配列を同じ塩基数のいくつかのブロックに分割し、取得したいくつかのブロックを頻出パターンマイニングのデータセットとして使用する。
【0058】
本発明において、各配列は最初にいくつかのブロックに分割され、各ブロックは同じ数の連続した塩基を含む。これらのブロックは互いに独立しており、実際にはブロックのサイズを変更できる。ただし、最後のブロックのサイズが指定されたブロックサイズよりも小さい場合、このブロックは破棄されることに注意する必要がある。
【0059】
上記の内容をより分かりやすく説明するよう、分割ブロックの例を次に示す。この例では、2つの配列としてS1とS2があり、ブロックサイズが15で、この2つの配列はそれぞれ2ブロックと3ブロックに分割される。サイズ3の最後のブロックは破棄される。これらの各ブロックは、曲線と線でマークされている。このような工程は、配列ブロッキングとも呼ばれ、重要な工程として、位置情報やソート情報など、配列のきめ細かい情報を取得できることと、長い配列でも処理にひつようなメモリと時間を減らすことという2つのメリットがある。
【0060】
【0061】
現時点、配列の類似性の研究に使用できるDNA配列はほとんどなく、より適切なDNA配列を見つけることは依然として問題なっている。 15種のヘモグロビン遺伝子の3つのエクソン配列は、最も一般的に使用されるDNA配列となる。第1、第2、第3のエクソンからなる3つの遺伝子配列の平均長さは、それぞれ92塩基、222塩基、114塩基で、その中、11の異なる種からのβ遺伝子の最初のエクソンは最も広く用いられているDNA配列データとなっている。
【0062】
選択されたデータセットは、表1に示すように、4つの種のβタンパク質遺伝子の最初のエクソンを含む。
【0063】
【0064】
工程(2)の頻出パターンマイニングにおいて、f-NSPアルゴリズムを使用してデータセットをマイニングし、最大頻出正・負の配列パターンを取得する。
【0065】
工程(3)において、最大頻出正・負の配列パターンをグラフィックに表現する。
【0066】
工程(4)のDNA配列の類似性の分析において、異なるDNA配列の類似性を求める。類似性が小さいほど、DNA配列は類似するということになる。
【0067】
類似性マトリックスは、DNA類似性分析アルゴリズムの有効性を評価するために用いられる。側面から異なる種間の進化的または遺伝的関係を明らかにすることができる。 DNA配列間の距離の計算は、DNA類似性分析の基礎である。ユークリッド距離と相関角は、最も一般的に用いられる距離計算方法である。配列間のユークリッド距離が小さいほど、DNA配列は類似していると定められている。ベクトル同士の相関角が小さいほど、DNA配列は類似する。
【0068】
実施例2
実施例1に記載の生物学的配列に基づく負の配列パターンの類似性分析方法
異なることは、工程(2)において、以下に示す工程A~Cを経て、f-NSPアルゴリズムを使用してデータセットをマイニングし、データセットはDとすることである。
【0069】
A、以下に示す工程a~bを経て、GSPアルゴリズムを使用して、すべての正の頻出配列を取得し、各正の頻出配列に対応するビットマップをハッシュテーブルに格納する。
a、データセットをスキャンして長さ1のすべての配列パターンを取得し、それらを元のシードセットP1に配置する。
b、元のシードセットP1から長さ1の配列パターンを取得し、連結操作によって長さ2の候補配列セットC2を生成し、Aprioriプロパティを使用して候補配列セットC2をプルーニングし、候補配列セットC2をスキャンして残りの配列のサポートを決定し、最小サポートよりも高いサポートで配列パターンを保存し、長さ2の配列パターンL2を出力し、且つ長さ2のシードセットとして、長さが増加する候補配列の生成に使用する。この方法で、長さ3の配列パターンL3、長さ4の配列パターンL4…長さn+1の配列パターンLn+1を出力し、新しい配列パターンがマイニングできなくなるまでとする。取得した配列パターンは正の頻出配列の全部であり、最小サポートは人為的に設定されたサポートしきい値min_supで、次のように記述される。
【0070】
L1→C2→L2→C3→L3→C4→L4……Ln+1が生成できない場合に停止する。
【0071】
図4でビットごとのOR演算を説明する。sup(s) ≧min_supの場合、配列Sは頻出(正)配列パターンと呼ばれ、sup(s)<min_supの場合、配列Sは低頻出配列パターンと呼ばれる。正の頻出配列が<G C T A>で且つsup (C A)=5であると仮定して、負の候補生成方法によれば、負の候補配列nsは<¬GC ¬TA>となる。それに対応して、MPS(ns) =<CA>,P(1-negMS
1)=<GCA>,P(1-negMS
2)=<C TA>である。B (<G CA>) = |1|0|0|1|0|,B (<C TA>) = |1|1|0|1|0|と仮定する。すると、B(<GCA>)ORB(<CTA>)のビットマップは
図4に示すとおりである。こうして、N(unionbitmap)=4を簡単に取得でき、それから、式1からsup (<¬GC ¬TA>)=1を取得できる。
【0072】
B、すべての正の頻出配列に基づいて対応するNSCを生成する。
NSCは、負の候補配列を指し、正の頻出配列は、まとめて正の配列と呼ばれる。正の配列からすべての非冗長NSCを生成する上で、NSCを生成する重要な工程が、正パターンを持つ非連続要素を負パートナーに変換することである。 k-sizeのPSPにとっては、NSCsは、m個の隣接しない要素を¬で表される負の数に変更することによって生成される。m = 1,2,…, 「k / 2」,「k / 2」がk / 2以上の最小整数で、k-sizeは配列のサイズがkであることをいう。たとえば、配列S={A T T C C}の場合、そのサイズが5-sizeである。NSCs:すべての負候補配列を指す。
【0073】
例えば、<A T C C>のNSCには、次のものが含まれる。(1)m = 1の場合、<¬AT C C>,<A ¬T C C>,<AT ¬C C>,<ATC ¬C>であり、(2)m = 2の場合、<¬AT ¬C C>,<A ¬T C ¬C>である。ここのルールは、2つの連続した負のアイテムは許可されないということである。
【0074】
ns=<a
1a
2…a
m>が負の配列であり、ns′がns内のすべての正の要素のみで構成されていると仮定した場合、ns′はnsの最大の正のサブ配列と呼ばれ、MPS(ns)として定義される。MPS(<¬T C G ¬A>)=<CG>を例に示す。この配列のMPS(ns)とnsの負の要素aで構成される配列は、1-neg-size最大サブ配列と呼ばれ、1-negMSと定義される。<¬ATC¬G>を例に示すと、その1-negMSは<¬ATC>と<TC¬G>である。
【0075】
頻出パターンマイニングにより、12種類の最大頻出の正・負の配列パターンが取得される。
【0076】
最大頻出配列パターンについて、与えられたDNA配列Sの場合、S = <s1 s2 ... sn>、ここに、si(1≦i≦n)は文字セットΩ= {A、T、C、G}である。パターン<sksk + 1 ... sm>(1≦k≦m≦n)のサポートが最小サポート以上である場合、当該配列が頻出配列である。最大頻出パターンとは、そのスーパー配列が頻出ではないパターンを指す。 min_sup = 0.3とし、複数の最大頻出配列パターンを取得する。そのなかから、配列パターン解析のデータセットとして、12種類の頻出配列パターンを選択する。この 12の種類の頻出配列パターンを表2に示す。
【0077】
【0078】
実施例3
実施例1に記載の生物学的配列に基づく負の配列パターンの類似性分析方法
【0079】
異なることは、工程(3)において、最大頻出正・負の配列パターンをグラフィック表現し、以下の内容を含むことである。複素平面におけるプリンピリミジン図を作成し、プリンピリミジン図において、第1象限・第2象限はA、¬A、Gと¬Gを含むプリンを表し、第3象限・第4象限は、T、¬T、Cと¬Cを含むピリミジンを表し、4つのヌクレオチドA、G、T、Cおよび対応する負の配列の単位ベクトル¬ A、¬G、¬T、¬Cは、式(I)~式(VIII)に示される。
【0080】
【0081】
【0082】
【0083】
式(IX)において、s(0)=0,y(j)は式(X)を満たす。
【0084】
【0085】
式(X)において、jは配列Sの0,1,2,..., n番目の位置にある塩基タイプを表し、nは調査対象のDNA配列の長さである。
【0086】
上記のプロセスにより、元のDNA配列の時系列を「プリンピリミジン図」から一意に取得する。
式(X)を使用して、最大頻出12種の正・負の配列パターンをデジタル配列に変換する。以下のとおり、配列Human1を例に示す。式(IX)-(X)により、s(H1)= {0.866+0.5i,1.366-0.366i,2.2321+0.134i,3.0981+0.634i,3.5981+1.5i, 4.4641+2i}という複素数配列を取得する。モジュールで構成される時系列はS(H1)={1.0000,1.4142,2.2361,3.1623,3.8982,4.8916}である。この方法により、12種の頻出配列パターンの変換後の時系列を取得できる。
【0087】
実施例4
実施例1に記載の生物学的配列に基づく負の配列パターンの類似性分析方法
異なることは、工程(4)において、DTWアルゴリズムを使って、異なるDNA配列の類似性を表すために用いられる距離行列を取得する。
【0088】
【0089】
【0090】
【0091】
【0092】
ここに、i=2,3,...,m;j=2,3,...,n。D(m,n)は、Am×nの中のワンピングパスの最小累積値である。
【0093】
【0094】
【0095】
人間とチンパンジーは霊長類であり、ラットは齧歯類であり、オポッサム形目は後獣類の動物であると理解されている。本発明の方法によって示される全体的な変動は分類と一致しているので、本発明で提案された方法は効果的かつ実行可能である。そして、本発明で提案された方法は、短い配列と長い配列の両方に効果的となる。本発明で使用されるデータは、マイニング後の頻出パターンであり、比較に使用される配列の長さは一般的に短縮されるが、元の配列の特性が保持されているから、計算簡単で、コンピュータのメモリ消費が節約される。 4種間の類似性を比較することにより、パターンの組み合わせにより結果が異なり、これらの結果は、考慮事項によっては、役立つことがあることが分かる。
【0096】
複数の最大頻出配列と距離マトリックス(表3および表4に示されている)をランダムに選択する。異なるデータグループの類似性を表3および表4に示す。クラスタリングを合理的に実行できる場合は、本発明の方法を使用して系統樹を構築することができる。 Molecular Evolutionary Genetics Analysisバージョン5.0(MEGA5)は、配列アラインメントと系統樹を構築するためのユーザーフレンドリーなソフトウェアであるある。系統樹は、さまざまな生物の遺伝的または進化的関係を要約した木の形の分岐図である。
図5(a)は、Human1、Opossum2、Rat2、およびChimpanzee2の最大頻出配列で類似性分析を実行した後に描画された系統樹である。
図5(b)は、Human2、Opossum1、Rat2、およびChimpanzee1の最大頻出配列で類似性分析を実行した後に描画された系統樹である。
図6(a)は、Human2、Opossum2、Rat2、およびChimpanzee1の最大頻出配列で類似性分析を実行した後に描画された系統樹である。
図6(b)は、Human3、Opossu3、Rat3、Chimpanzee3の最大頻出配列で類似性分析を行った後に描かれた系統樹である。本発明は、すべてが種の進化の法則に一致する頻繁なパターンの4つの組み合わせを選択することによって、4つの異なる分類結果を得る。
【0097】
データを正規化することにより、本発明の結果を他の方法の結果と比較する。
図7は、種の正規化された遺伝距離図である。ここに、y縦座標は正規化された遺伝距離を表す。
図7は、本発明の方法と比較のための2つの方法の結果とMEGAの結果の間のピアソン相関係数を示している。表5は、4つの方法の他の種と人間の遺伝距離の詳細を示している。
【0098】
【0099】
表5で、括弧内の値は0から1に正規化した後の真の遺伝距離である。この方法と2つの比較のための方法の間のピアソン相関係数は、非特許文献1-2:Ref.[1]ZhiyiMo,WenZhu,Yi Sun,Qilin Xiang,MingZheng,MinChen,ZejunLi. One novel representation of DNA sequence based on the global and local position information.[J]. Scientific reports,2018,8(1). Ref.[2]参見Yu Hong-Jie,Huang De-Shuang. Graphical representation for DNA sequences via joint diagonalization of matrix pencil.[J]. IEEE Journal of Biomedical & Health Informatics, 2013, 17(3):503-511.を参照して計算された。
【0100】
表5から分かるように、本発明の方法は、MEGAとの最も高い相関係数を有し、本発明の方法がDNA配列間の類似性をより正確に計算できることを示している。さらに、
図7から、本発明の方法はMEGAによって計算された曲線に近いことがわかる。これは、本発明の方法はがMEGAと最も高い相関関係を持っていることを示している。
【0101】
このような比較から、本発明の方法により、負の配列を効果的に表現および分析でき、異なる最大頻出パターンの組み合わせを選択することにより、異なる分析結果を得ることができることが示されている。類似性分析に頻出モードが選択されたから、コンピューターのメモリと時間の消費が大幅に節約された。本発明の方法は、MEGAと最も高い相関がある。
【0102】
実施例5
実施例1~4のいずれかに記載の生物学的配列に基づく負の配列パターンの類似性分析方法の実装システム
【0103】
図3に示すように、順次接続されたデータ前処理モジュール、頻出パターンマイニングモジュール、グラフィック表現モジュール、類似性分析モジュールを含む。前記データ前処理モジュールは、工程(1)を実行するために用いられる。前記頻出パターンマイニングモジュールは、工程(2)を実行するために用いられる。前記グラフィック表現モジュールは、工程(3)を実行するために用いられる。前記類似性分析モジュールは、工程(4)を実行するために用いられる。
【0104】
実施例6 コンピュータ可読記憶媒体
【0105】
生物学的配列に基づく負の配列パターンの類似性分析プログラムを保存していることを特徴とする。前記生物学的配列の負の配列パターンに基づく類似性分析プログラムがプロセッサによって実行される場合、実施例1~4のいずれかに記載の生物学的配列に基づく負の配列パターンの類似性分析方法のいずれか1つの工程が実現される。