(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5946277
(24)【登録日】2016年6月10日
(45)【発行日】2016年7月6日
(54)【発明の名称】アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出)
(51)【国際特許分類】
G06F 19/22 20110101AFI20160623BHJP
C12M 1/00 20060101ALI20160623BHJP
【FI】
G06F19/22
C12M1/00 A
【請求項の数】8
【全頁数】9
(21)【出願番号】特願2012-7764(P2012-7764)
(22)【出願日】2012年1月18日
(65)【公開番号】特開2012-155715(P2012-155715A)
(43)【公開日】2012年8月16日
【審査請求日】2014年8月8日
(31)【優先権主張番号】13/010949
(32)【優先日】2011年1月21日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
(74)【代理人】
【識別番号】100108501
【弁理士】
【氏名又は名称】上野 剛史
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100091568
【弁理士】
【氏名又は名称】市位 嘉宏
(72)【発明者】
【氏名】ラクスミ・ピー・パリダ
(72)【発明者】
【氏名】ニーナ・ハイミネン
【審査官】
田付 徳雄
(56)【参考文献】
【文献】
特開2008−161056(JP,A)
【文献】
特表2009−529723(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 19/10 − 19/28
C12M 1/00
(57)【特許請求の範囲】
【請求項1】
コンピュータ・システムにより遺伝子配列アセンブリの誤りを検出するための方法であって、前記コンピュータ・システムはメモリとディスプレイとプロセッサとを含み、
前記方法は、
前記プロセッサが前記メモリ上で遺伝子データの配列のアセンブリ(A)を規定するステップと、
前記プロセッサが前記メモリ上で読取りデータを読取りのライブラリ(L)に集めるステップと、ここで、アセンブリ(A)は塩基の位置(i)についての複数のベクトル(Vi)を含み、各ベクトル(Vi)は塩基の位置(i)についての読取りカウントciおよび一つ以上の読取り長さlを含み、読取りカウントciは塩基の位置(i)についての読取りのライブラリ(L)での読取り数であり、一つ以上の読取り長さlの各々は塩基の位置(i)についての読取りのライブラリ(L)での各読取りのサイズとなる長さであり、
前記プロセッサが、前記複数のベクトル(Vi)についての複数のヒストグラムであって、複数のヒストグラムは読取り長さl対読取りカウントciを示し、複数のヒストグラムの各々は分布(Di)を有する、複数のヒストグラムをプロットするステップと、
前記プロセッサが、前記複数のベクトル(Vi)における前記分布(Di)が平均または標準偏差を有している前記複数のベクトル(Vi)から、上側のカットオフよりも上にまたは下側のカットオフよりも下にあるベクトルをフィルタリングして残ったベクトルを保留することにより、期待標準分布D’を得る正規化をするステップと、
前記プロセッサが、前記読取りのライブラリ(L)で塩基の位置(i)について塩基の位置(i)が重複している読取りの部分集合(Si⊂L)を集めるステップと、
前記プロセッサが前記読取りのライブラリ(L)から塩基の位置(i)についてSiを用いて平均(μi)および標準偏差(√ci・σi)を計算するステップと、
前記プロセッサが、前記計算した平均(μi)と前記読取りのライブラリ(L)の平均(μ)との間の偏差が第1の閾値よりも大きいか小さいかを定めるステップと、
前記プロセッサが、前記計算した標準偏差(√ci・σi)と前記読取りのライブラリ(L)の標準偏差(σ)との間の偏差が第2の閾値よりも大きいか小さいかを定めるステップと、
前記プロセッサが、前記計算した平均(μi)と前記平均(μ)との間の偏差が第1の閾値よりも大きいと定めること、または、前記計算した標準偏差(√ci・σi)と前記標準偏差(σ)との間の偏差が第2の閾値よりも大きいと定めることに基づいて、塩基の位置(i)をアセンブリの誤りの可能性があるとしてフラグを立てるステップと、
前記プロセッサがユーザに対して前記ディスプレイ上に結果を出力するステップと
を含む、方法。
【請求項2】
前記アセンブリは、配列アセンブリのためのイン・シリコのバイオインフォマティクス法によって規定される、請求項1に記載の方法。
【請求項3】
前記読取りデータは、デオキシリボ核酸(DNA)のセグメント内の複数の塩基の位置および識別子を含む、請求項1に記載の方法。
【請求項4】
読取りの前記ライブラリは複数の読取りデータを含む、請求項1に記載の方法。
【請求項5】
遺伝子配列アセンブリの誤りを検出するためのシステムであって、前記システムは、
メモリと、
ディスプレイと、
プロセッサとを含み、
前記プロセッサが、
遺伝子データの配列のアセンブリ(A)を規定し、
読取りデータを読取りのライブラリ(L)に集め、ここで、アセンブリ(A)は塩基の位置(i)についての複数のベクトル(Vi)を含み、各ベクトル(Vi)は塩基の位置(i)についての読取りカウントciおよび一つ以上の読取り長さlを含み、読取りカウントciは塩基の位置(i)についての読取りのライブラリ(L)での読取り数であり、一つ以上の読取り長さlの各々は塩基の位置(i)についての読取りのライブラリ(L)での各読取りのサイズとなる長さであり、
読取り長さl対読取りカウントciを示し、分布(Di)を有する、各ベクトル(Vi)についてのヒストグラムをプロットし、
前記複数のベクトル(Vi)における前記分布(Di)が平均または標準偏差を有している前記複数のベクトル(Vi)から、上側のカットオフよりも上にまたは下側のカットオフよりも下にあるベクトルをフィルタリングして残ったベクトルを保留することにより、期待標準分布D’を得る正規化をし、
前記読取りのライブラリ(L)で塩基の位置(i)について塩基の位置(i)が重複している読取りの部分集合(Si⊂L)を集め、
前記読取りのライブラリ(L)から塩基の位置(i)についてSiを用いて平均(μi)および標準偏差(√ci・σi)を計算し、
前記計算した平均(μi)と前記読取りのライブラリ(L)の平均(μ)との間の偏差が第1の閾値よりも大きいか小さいかを定め、
前記計算した標準偏差(√ci・σi)と前記読取りのライブラリ(L)の標準偏差(σ)との間の偏差が第2の閾値よりも大きいか小さいかを定め、
前記計算した平均(μi)と前記平均(μ)との間の偏差が第1の閾値よりも大きいと定めること、または、前記計算した標準偏差(√ci・σi)と前記標準偏差(σ)との間の偏差が第2の閾値よりも大きいと定めることに基づいて、塩基の位置(i)をアセンブリの誤りの可能性があるとしてフラグを立て、
ユーザに対して前記ディスプレイ上に結果を出力する、
システム。
【請求項6】
前記アセンブリは、配列アセンブリのためのイン・シリコのバイオインフォマティクス法によって規定される、請求項5に記載のシステム。
【請求項7】
前記読取りデータは、デオキシリボ核酸(DNA)のセグメント内の複数の塩基の位置および識別子を含む、請求項5に記載のシステム。
【請求項8】
読取りの前記ライブラリは複数の読取りデータを含む、請求項5に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、デオキシリボ核酸(deoxyribonucleic acid:DNA)におけるアセンブリ誤り検出、ならびにリボ核酸(Ribonucleic acid:RNA)における過剰発現および低発現検出に関する。
【背景技術】
【0002】
デオキシリボ核酸(DNA)ゲノム配列は、DNAをいくつかの塩基の配列を有するいくつかのセグメントまたは小片に分割する方法を用いて決定されることがある。各セグメント内の塩基の配列決定と、セグメントの順序の決定とをともに用いて、DNA全体の配列を決定してもよい。セグメントの順序の決定は、バイオインフォマティクス・アセンブリ法を用いてイン・シリコ(in−silico)で行なわれてもよい。
【発明の概要】
【発明が解決しようとする課題】
【0003】
読取りデータの再アセンブリはアセンブリにおける配列誤りを含み得る。なぜならセグメントを正確な元の順序に戻すことは難しいことがあるからである。
【課題を解決するための手段】
【0004】
本発明の一局面において、遺伝子配列アセンブリの誤りを検出するための方法は、遺伝子データの配列のアセンブリ(A)を規定するステップと、読取りデータを読取りのライブラリ(L)に集めるステップと、読取りのサイズ対サイズ当りの読取り数のヒストグラムをプロットするステップと、分布(D)を被覆度(coverage)(C)で正規化することによって、平均(μ)および標準偏差(σ)を有するD’を得て、D’を得るために用いられない位置(i)を保留するステップと、AおよびD’を用いて読取りの部分集合(S
i⊂L)を集めるステップと、S
iを用いて平均(μ
i)および標準偏差(√c
i・σ
i)を計算するステップと、ユーザに対してディスプレイ上に結果を出力するステップとを含む。
【0005】
本発明の別の局面において、遺伝子配列の誤りを検出するためのシステムは、メモリと、ディスプレイと、遺伝子データの配列のアセンブリ(A)を規定し、読取りデータを読取りのライブラリ(L)に集め、読取りのサイズ対サイズ当りの読取り数のヒストグラムをプロットし、分布(D)を被覆度(C)で正規化することによって、平均(μ)および標準偏差(σ)を有するD’を得て、D’を得るために用いられない位置(i)を保留し、AおよびD’を用いて読取りの部分集合(S
i⊂L)を集め、S
iを用いて平均(μ
i)および標準偏差(√c
i・σ
i)を計算し、ユーザに対してディスプレイ上に結果を出力するために動作するプロセッサとを含む。
【0006】
本発明の技術によって、付加的な特徴および利点が実現される。本明細書には本発明の他の実施形態および局面が詳細に記載されており、請求される発明の一部とみなされる。利点および特徴を伴う本発明をより良く理解するために、説明および図面を参照されたい。
【0007】
本発明であるとみなされる主題は、請求項において特定的に示され明確に主張されている。本発明の前述およびその他の特徴および利点は、以下の詳細な説明および添付の図面から明らかである。
【図面の簡単な説明】
【0008】
【
図1】複数のDNA配列およびそれらの配列のセグメントへの分割を示す図である。
【
図2】配列中の誤りを定めるためのシステム200の例示的な実施形態を示す図である。
【
図3】
図2のシステムによって行なわれ得る例示的な処理方法を示すブロック図である。
【
図4】
図2のシステムによって行なわれ得る例示的な処理方法を示すブロック図である。
【
図5】読取りの頻度のヒストグラムを示す図である。
【発明を実施するための形態】
【0009】
デオキシリボ核酸(DNA)ゲノム配列は、たとえば圧縮空気装置(噴霧器)または制限酵素などを用いることによって、DNAをいくつかの塩基の配列を有するいくつかのセグメントまたは小片に分割することによって決定されることがある。
図1は、複数の類似のDNA配列、およびその配列のセグメントへの分割を示している。これに関して、いくつかの類似のDNA鎖102(例、50個またはそれ以上の鎖)が、たとえば50塩基から500塩基などの範囲のいくつかの塩基106を有する複数のセグメント104に分裂または切断されてもよい。セグメント104は必ずしも等しい長さに切断されるわけではない。セグメント104が切断されると、セグメント104を読取って塩基106が識別され、識別された塩基106の各セグメントにおける位置が定められることによって、各セグメント104に対する読取りデータがもたらされる。代替的には、セグメントの端部(例、各端部から100塩基)を読取って塩基を識別してもよい。セグメントの読取りは、たとえばヌクレオチドの蛍光ラベリングおよび高分解能レーザ・イメージングを含む、合成による配列決定(sequencing−by−synthesis)のプロセスなどによって行なわれてもよい。結果として生じるデータは複数の読取りを含み、各読取りは塩基106と、各セグメント104におけるその塩基106の位置とを識別する。読取りデータはグループ化されて、特定の長さにおける読取りの頻度(すなわち特定の長さの塩基を有する読取りの数)を含む読取りのライブラリ(L)に入れられる。被覆度(C)とは、配列決定されたDNAにおける位置が重複しているセグメント104の平均コピー数である。配列決定されたセグメント104の長さに加えてDNA配列の長さが既知であれば、被覆度Cが分かる。DNAゲノム配列の長さが未知であるときには、ユーザが推定の長さを与えてもよい。読取りデータの「再アセンブリ」を行なうことによって、DNAゲノム配列の一部または全体を表わすアセンブリ(A)データをもたらしてもよい。アセンブリは、たとえばアセンブラ(イン・シリコのバイオインフォマティクス・ツール)などを用いて、読取りにおける塩基間の重複を考慮し、可能なところで重複した読取りを連結することによって行なわれてもよい。アセンブリ・データは、所与の位置iにおける読取りカウントc
iおよび読取り長さlを含むベクトルV=<i,c
i,l
1,l
2,…,l
ci>を含む。ベクトルの一例はV=<34,3,10,12,102>を含み、これは位置34がそれぞれ長さ10、12および102の3つの読取りによって重複することを示す。読取りデータの再アセンブリはアセンブリにおける配列誤りを含み得る。なぜならセグメントを正確な元の順序に戻すことは難しいことがあるからである。以下に説明される例示的な方法およびシステムは、アセンブリにおける誤りの検出を改善するものである。
【0010】
これに関して、
図2は配列中の誤りを定めるためのシステム200の例示的な実施形態を示す。示される実施形態は、ディスプレイ装置204と、入力装置206と、読取りデータ201およびアセンブリ203を保存するメモリ208とに通信的に接続されたプロセッサ202を含む。
【0011】
図3および
図4は、システム200によって行なわれ得る例示的な処理方法のブロック図を示す。
図3を参照すると、ブロック302において読取りデータを含むアセンブリ(A)が規定される。ブロック304において、読取りデータが読取りのライブラリ(L)に集められる。ブロック306において、Lから読取りのサイズ対サイズ当りの読取り数のヒストグラムがプロットされる。ヒストグラムの一例を
図5に示す。ブロック308において、被覆度Cを用いて分布Dを正規化して(D’)を得、ここでD’はLの期待標準分布であり、平均μおよび標準偏差σを有する。正規化は、Aに対する被覆度Cを用い、(ユーザによって与えられる上側および下側のカットオフを用いて)被覆度Cを表わすとは考えられないベクトルVをフィルタリングして除去することによって行なわれる。前のステップの出力を用いてライブラリが再び計算される。D’を得るために用いられない位置(i)が保留される。ブロック310において、アセンブリA内の各位置(i)に対して、位置iが重複している読取りの部分集合S
i⊂LがベクトルV
iに集められる。ブロック312において、S
iから平均(μ
i)および標準偏差(√c
i・σ
i)が算出される。(
図4の)ブロック314において、ライブラリのμからのμ
iの偏差が計算される。ブロック316において、ライブラリのσからの(√c
i・σ
i)の偏差が定められる。ブロック318において、閾値を用いて、μ
iおよび(√c
i・σ
i)における異常な偏差(すなわち閾値の外側の偏差)が定められる。
【0012】
ブロック320において、ユーザ分析のために結果がディスプレイ装置に出力されてもよい。アセンブリにおける各位置iに対して、平均(μ
i)が期待値から所与の閾値よりも多く逸脱しているか、または標準偏差(√c
i・σ
i)が所与の閾値よりも大きいとき、その位置iはアセンブリの誤りの可能性があるとしてフラグを立てられる。次いでユーザは、別の方法によってデータを再アセンブリするか、追加の読取りを生成して再アセンブリするか、または配列情報の代替的供給源を用いることによって、これらのフラグを立てられた領域におけるアセンブリの間違いの可能性を修正することに集中できる。
【0013】
RNAデータに対しても同様のプロセスを用いることができるが、フラグを立てられる位置は過剰発現または低発現に関連付けられる。
【0014】
本明細書において用いられる用語は特定の実施形態を説明する目的のためのみのものであって、本発明を限定することは意図されない。本明細書において用いられる単数形「a」、「an」および「the」は、状況が明らかに別様を示していない限り、複数形をも含むことが意図される。さらに、「含む(comprises)」もしくは「含む(comprising)」という用語またはその両方が本明細書において用いられるとき、それは述べられる特徴、完全体、ステップ、動作、構成要素もしくは成分またはその組合わせの存在を特定するが、1つまたはそれ以上の他の特徴、完全体、ステップ、動作、構成要素成分もしくはそのグループまたはその組合わせの存在または追加を排除するものではないことが理解されるだろう。
【0015】
以下の請求項におけるすべての手段またはステップ・プラス機能(means or step plus function)要素に対応する構造、材料、動作、および同等物は、特定的に請求される他の請求要素と組合わせてその機能を行なうためのあらゆる構造、材料または動作を含むことが意図される。本発明の説明は例示および説明の目的のために提供されたものであるが、網羅的になったり、開示される形に本発明を制限したりすることは意図されない。本発明の範囲および趣旨から逸脱することなく、通常の当業者には多くの修正および変更が明らかになるだろう。実施形態は、本発明の原理および実際の適用を最も良く説明し、他の通常の当業者が予期される特定の使用に好適であるようなさまざまな修正を伴うさまざまな実施形態に対して本発明を理解できるようにするために選択されて記載されたものである。
【0016】
本明細書に示される図面は単なる一例である。本発明の趣旨から逸脱することなく、この図面または本明細書に記載されるステップ(もしくは動作)には多くの変更形が存在するだろう。たとえば、これらのステップが異なる順序で行なわれてもよいし、ステップが追加、削除または変更されてもよい。これらの変更形はすべて、請求される本発明の一部であるとみなされる。
【0017】
本発明に対する好ましい実施形態を説明したが、現在および将来にわたり、当業者が以下の請求項の範囲内のさまざまな改善および強化を行ない得ることが理解されるだろう。これらの請求項は、最初に記載された本発明に対する適切な保護を維持するものと解釈されるべきである。
【符号の説明】
【0018】
302 読取りデータからアセンブリ(A)を規定する
304 読取りデータを読取りのライブラリ(L)に集める
306 Lから読取りサイズ対サイズ当りの読取り数のヒストグラムをプロットする
308 被覆度Cを用いてDを正規化してD’を得、D’を得るために用いられない位置iを保留する
310 AおよびD’を用いて読取りの部分集合S
i⊂Lを集める
312 平均μ
iおよび標準偏差(√c
i・σ
i)を計算する