(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-02
(45)【発行日】2024-05-14
(54)【発明の名称】オリゴヌクレオチドのデザイン用核酸配列データセットを提供するためのコンピュータ具現方法
(51)【国際特許分類】
G16B 30/10 20190101AFI20240507BHJP
【FI】
G16B30/10
(21)【出願番号】P 2023514000
(86)(22)【出願日】2021-08-31
(86)【国際出願番号】 KR2021011636
(87)【国際公開番号】W WO2022045859
(87)【国際公開日】2022-03-03
【審査請求日】2023-02-28
(31)【優先権主張番号】10-2020-0110636
(32)【優先日】2020-08-31
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】507292955
【氏名又は名称】シージーン アイエヌシー
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】キム,ド ヒ
(72)【発明者】
【氏名】イ,ヒョン ジュ
【審査官】鈴木 和樹
(56)【参考文献】
【文献】国際公開第2019/212238(WO,A1)
【文献】国際公開第2018/066950(WO,A1)
【文献】米国特許出願公開第2003/0033290(US,A1)
【文献】米国特許出願公開第2007/0225920(US,A1)
【文献】米国特許出願公開第2004/0126840(US,A1)
【文献】米国特許出願公開第2010/0318528(US,A1)
【文献】米国特許出願公開第2009/0198479(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実行される次の段階を含む関心有機体(organism of interest)のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供するためのコンピュータ具現方法:
(a)ターゲット核酸分子の名称(name)及び関心有機体の名称を受信し、前記関心有機体の前記ターゲット核酸分子に対する同義語(synonym)を収集する(retrieving)段階;
(b)核酸レコードに含まれた核酸配列データを収集する段階;前記核酸レコードのそれぞれは前記関心有機体に関するものであり、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つが記載されているディスクリプタ(descriptor)を含み、
(c)前記収集された核酸配列データを分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)によって整列(sorting)し、同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの中から分類学的代表配列を選定する段階
;前記分類学的代表配列は、下記(i)~(vii)を含む所定の基準の少なくとも1つを満たすよう並べられた核酸配列間の順位を考慮して選択される;(i)前記核酸配列データのアセンブリーレベル(assembly level);(ii)前記核酸配列データがRefSeq(Reference Sequence)データベースに含まれるか否か;(iii)前記核酸配列データを含む核酸レコードのディスクリプタに記載されている核酸分子の名称が前記受信されたターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つと一致しているか否か;(iv)前記核酸配列データの長さ;(v)前記核酸配列データを含む核酸レコードのディスクリプタにホスト(host)が記載されたか否か;(vi)前記核酸配列データを含む核酸レコードのディスクリプタにホスト(host)が記載されたか否か;及び、(vii)前記核酸配列データの接近番号(Accession No)のアルファベットの順序;
(d)前記選定された分類学的代表配列を相同性によってグループ化(grouping)し、各グループからグループ代表配列を選定する段階;
前記グループ代表配列は、下記(i)~(iv)を含む所定の基準の少なくとも1つを満たすよう並べられた分類学的配列を考慮して選択される;(i)前記選定された分類学的代表配列のアセンブリーレベル(assembly level);(ii)前記選定された分類学的代表配列と同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの個数;(iii)前記選定された分類学的代表配列を含む核酸レコードのディスクリプタにホスト(host)が記載されたか否か;及び、(iv)前記選定された分類学的代表配列の接近番号(Accession No)のアルファベットの順序;及び
(e)前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを収集して前記オリゴヌクレオチドのデザイン用核酸配列データセットとして提供する段階。
【請求項2】
前記段階(a)は、ターゲット核酸分子の名称(name)、前記ターゲット核酸分子が暗号化しているタンパク質名称及び有機体(organism)の名称を受信し、前記有機体の前記ターゲット核酸分子及びタンパク質に対する同義語(synonym)を収集する(retrieving)段階であることを特徴とする、請求項1に記載の方法。
【請求項3】
前記段階(b)の核酸配列データは、前記ターゲット核酸分子の一部又は全部に対応する核酸配列データ又は前記ターゲット核酸分子に対する変異核酸配列データを含むことを特徴とする、請求項1に記載の方法。
【請求項4】
前記段階(b)の核酸配列データの収集は、次の段階を含む方法によって実施されることを特徴とする、請求項1に記載の方法:
(b-1)核酸レコードのアイデンティファイア(identifier)を収集する段階;前記核酸レコードのそれぞれは前記関心有機体に関するものであり、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つが記載されているディスクリプタ(descriptor)を含み、及び
(b-2)前記アイデンティファイアによって特定される核酸配列データを収集する段階。
【請求項5】
前記段階(b-1)は、前記関心有機体に関するものであり、前記ターゲット核酸分子の名称、タンパク質名称及び前記収集された同義語のうち少なくとも1つがディスクリプタ(descriptor)に記載されている核酸レコードのアイデンティファイア(identifier)を収集する段階であることを特徴とする、請求項
4に記載の方法。
【請求項6】
前記段階(b-2)は、前記アイデンティファイアによって特定される核酸配列データ内で前記ターゲット核酸分子に対応する(corresponding)核酸配列データを選択的に収集することを特徴とする、請求項
4に記載の方法。
【請求項7】
前記段階(b-2)は、次の段階を含むことを特徴とする、請求項
4に記載の方法:
(b-2-1)前記アイデンティファイアによって特定される核酸レコードを収集する段階;及び
(b-2-2)前記核酸レコードからターゲット核酸分子に対応する核酸配列データを収集する段階。
【請求項8】
前記段階(b-2-2)は、前記核酸レコードからターゲット核酸分子に対応する核酸配列データ及び前記核酸配列データの識別情報を選択的に収集することを特徴とし、前記核酸配列データ及び前記核酸配列データの識別情報を選択的に収集する段階は、次の段階を含むことを特徴とする、請求項7に記載の方法:
(b-2-2-1)前記核酸レコード内の1つ以上のサブレコードのうち、あらかじめ定められた第1細部項目(specification)に前記同義語が記録されたサブレコードを有効サブレコードとして決定する段階;
(b-2-2-2)仮に、前記核酸レコード内に第1細部項目によって決定された有効サブレコードがないと、第2細部項目に前記同義語が記録されたサブレコードを有効サブレコードとして決定する段階;
(b-2-2-3)仮に、前記核酸レコード内に第2細部項目によって決定された有効サブレコードがないと、第3細部項目に前記同義語が記録されたサブレコードを有効サブレコードとして決定する段階;及び
(b-2-2-4)前記決定された有効サブレコードに対する核酸配列データ及びその識別情報を収集する段階。
【請求項9】
前記段階(b)と(c)との間に、次の段階をさらに含むことを特徴とする、請求項1に記載の方法:
(b-3)前記収集された核酸配列データをバイオサンプル(biosample)識別記号によって整列し、同じバイオサンプル識別記号を有する核酸配列データを選別する段階;
(b-4)前記選別された核酸配列データを、次の整列基準のうち少なくとも1つを満たすように整列する段階;
(b-5)前記整列された核酸配列データの中から最上位核酸配列データの核酸配列を選定する段階;及び
(b-6)前記最上位核酸配列データ以外の核酸配列データを前記収集された核酸配列データから除去する段階、ここで、前記整列基準は次を含む:
(i)前記選別された核酸配列データをアセンブリーレベル(assembly level)によって整列;前記アセンブリーレベルは、コンプリートゲノム(complete genome)、クロモソーム(chromosome)、スキャフォールド(scaffold)及びコン
ティグ(con
tig)の順に順位が高く、
(ii)前記選別された核酸配列データがRefSeq(Reference Sequence)データベースに含まれるか否によって前記選別された核酸配列データを整列;前記核酸配列データがRefSeqデータベースに含まれる場合に、含まれない場合に比べて順位が高い。
【請求項10】
前記段階(c)の分類学的代表配列の選定は次の段階を含む方法によって実施されることを特徴とする、請求項1に記載の方法:
(c-1)前記同じ分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)を有する核酸配列データを、次の所定の整列基準のうち少なくとも1つを満たすように整列する段階;及び
(c-2)前記整列された核酸配列データの中から最上位核酸配列データの核酸配列を分類学的代表配列として選定する段階、ここで、前記所定の整列基準は次を含む:
(i)前記核酸配列データのアセンブリーレベル(assembly level)によって整列;前記アセンブリーレベルは、コンプリートゲノム(complete genome)、クロモソーム(chromosome)、スキャフォールド(scaffold)及びコン
ティグ(con
tig)の順に順位が高く、
(ii)前記核酸配列データがRefSeq(Reference Sequence)データベースに含まれるか否かによって整列;前記核酸配列データがRefSeqデータベースに含まれる場合に、含まれない場合に比べて順位が高く、
(iii)前記核酸配列データを含む核酸レコードのディスクリプタに記載されている核酸分子の名称が前記受信されたターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つと一致しているか否かによって整列;一致する場合が一
致しない場合に比べて順位が高く、
(iv)前記核酸配列データの長さによって整列;前記長さが長いほど順位が高く、
(v)前記核酸配列データを含む核酸レコードのディスクリプタにホスト(host)が記載されたか否かによって整列;前記ホストに関心有機体に対する関心ホストが記載されている場合が、記載されていない場合に比べて順位が高く、前記記載されていない場合が、前記関心ホストと異なる有機体がホストに記載されている場合に比べて順位が高く、
(vi)前記核酸配列データを含む核酸レコードの登録日又は修正日によって整列;前記登録日又は修正日が最新日であるほど順位が高く、
(vii)前記核酸配列データの接近番号(Accession No)のアルファベットによって整列;前記接近番号のアルファベットの順序が早いほど順位が高い。
【請求項11】
前記段階(d)のグループ代表配列の選定は、次の段階を含む方法によって実施されることを特徴とする、請求項1に記載の方法:
(d-1)前記選定された分類学的代表配列を、次の所定の整列基準のうち少なくとも1つを満たすように整列する段階;
(d-2)前記整列された分類学的代表配列の中から最上位分類学的代表配列を選定する段階;及び
(d-3)前記最上位分類学的代表配列と所定の値以上の相同性を有する分類学的代表配列をグループ化し、各グループにおいて前記最上位分類学的代表配列をグループ代表配列として選定する段階、そして前記整列基準を次を含む:
(i)前記選定された分類学的代表配列のアセンブリーレベル(assembly level)によって整列;前記アセンブリーレベルは、コンプリートゲノム(complete genome)、クロモソーム(chromosome)、スキャフォールド(scaffold)及びコン
ティグ(con
tig)の順に順位が高く、
(ii)前記選定された分類学的代表配列と同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの個数によって整列;前記個数が大きいほど順位が高く、
(iii)前記選定された分類学的代表配列を含む核酸レコードのディスクリプタにホスト(host)が記載されたか否かによって整列;前記ホストに関心有機体に対する関心ホストが記載されている場合が、記載されていない場合に比べて順位が高く、前記記載されていない場合が、前記関心ホストと異なる有機体がホストに記載されている場合に比べて順位が高く、
(iv)前記選定された分類学的代表配列の接近番号(Accession No)のアルファベットによって整列;前記接近番号のアルファベットの順序が早いほど順位が高い。
【請求項12】
前記方法は、(f)前記段階(e)で提供される核酸配列データセットのうち、前記受信された関心有機体に関する核酸配列データをターゲット核酸分子に対するターゲット核酸配列データセットとして提供する段階をさらに含むことを特徴とする、請求項1に記載の方法。
【請求項13】
前記段階(f)で提供されるターゲット核酸配列データセットは、前記ターゲット核酸配列データセットに対してグループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列と所定の値以上の相同性を有することを特徴とする、請求項12に記載の方法。
【請求項14】
前記方法は、(g)前記段階(e)で提供される核酸配列データセットのうち、前記受信された関心有機体に関するものでない核酸配列データを、非ターゲット核酸分子に対する非ターゲット核酸配列データセットとして提供する段階をさらに含むことを特徴とする、請求項1に記載の方法。
【請求項15】
前記段階(g)で提供される非ターゲット核酸配列データセットは、次の相同性基準のうち少なくとも1つの基準を満たすことを特徴とする、請求項14に記載の方法:
(i)前記非ターゲット核酸配列データセットはグループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列の一部の配列領域に対して所定の値以上の相同性を有すること;
(ii)前記非ターゲット核酸配列データセットはグループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列に対して所定の値以上の相同性を有すること;及び
(iii)前記(i)の相同性基準を有する非ターゲット核酸配列データセットが前記(ii)の相同性基準を有すること。
【請求項16】
前記方法は次の段階をさらに含むことを特徴とする、請求項12に記載の方法:
(h)前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを収集して核酸配列データセットを提供する段階;及び
(j)前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号が次の所定の基準のうち1つの基準を満たす場合に、前記段階(f)のターゲット核酸配列データセットにおいて前記グループ代表配列のターゲット核酸配列データ及び前記グループ代表配列と同一のグループに属するターゲット核酸配列データをデザイン除外ターゲット核酸配列データとして分類する段階;そして、前記所定の基準は次を含む:
(i)前記段階(h)で提供された核酸配列データセットに前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データは存在しなく、前記グループ代表配列に対する有機体と異なる有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データのみが存在する場合;
(ii)前記段階(h)で提供された核酸配列データセットで前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データの相同性が、前記グループ代表配列に対する有機体と異なる有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データの相同性と比較してより低い場合;
(iii)前記段階(h)で提供された核酸配列データセットに前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当するターゲット核酸配列データは存在しなく、前記グループ代表配列に対する有機体よりも上位の分類学的名称及び/又は分類学的識別記号に該当する有機体又はその下位の分類学的名称及び/又は分類学的識別記号に該当する有機体に該当する核酸配列データの比率が、前記段階(h)で提供された核酸配列データセットに対して所定の値未満である場合;及び
(iv)前記段階(h)で提供された核酸配列データセットが全て前記グループ代表配列に対する有機体の核酸配列データセットであるが、前記核酸配列データセットを含む核酸レコードのディスクリプタにターゲット核酸分子名称が記載されていないか、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つと異なる場合。
【請求項17】
前記方法は、前記段階(e)の後に、次の段階をさらに含むことを特徴とする、請求項1に記載の方法:
(e-1)前記提供されたデザイン用核酸配列データセットをバイオサンプル(biosample)識別記号によって整列し、同じバイオサンプル識別記号を有する核酸配列データを選別する段階;
(e-2)前記選別された核酸配列データを、次の整列基準のうち少なくとも1つを満たすように整列する段階;
(e-3)前記整列された核酸配列データの中から最上位核酸配列データの核酸配列を選定する段階;及び
(e-4)前記最上位核酸配列データ以外の核酸配列データを前記デザイン用核酸配列データセットから除去する段階、ここで、前記整列基準は次を含む:
(i)前記提供されたデザイン用核酸配列データセットに含まれた核酸配列をアセンブリーレベル(assembly level)によって整列;前記アセンブリーレベルは、コンプリートゲノム(complete genome)、クロモソーム(chromosome)、スキャフォールド(scaffold)及びコン
ティグ(con
tig)の順に順位が高く、
(ii)前記提供されたデザイン用核酸配列データセットに含まれた核酸配列がRefSeq(Reference Sequence)データベースに含まれるか否かによって整列;前記核酸配列データがRefSeqデータベースに含まれる場合に、含まれない場合に比べて順位が高い。
【請求項18】
前記方法は次の段階をさらに含むことを特徴とする、請求項14に記載の方法:
(k)前記非ターゲット核酸配列データセットに対する有機体の非ターゲット核酸配列と所定の値以上の相同性を有する核酸配列データを収集して核酸配列データセットを提供する段階;及び
(l)前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号が次の所定の基準のうち1つの基準を満たす場合に、前記段階(k)の非ターゲット核酸配列データセットにおいて前記有機体の非ターゲット核酸配列データをデザイン除外非ターゲット核酸配列データとして分類する段階;ここで、前記所定の基準は次を含む:
(i)前記段階(k)で提供された核酸配列データセットに、前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データは存在しなく、前記有機体と異なる有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データのみが存在する場合;
(ii)前記段階(k)で提供された核酸配列データセットにおいて前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する非ターゲット核酸配列データの相同性が、前記有機体と異なる有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データの相同性と比較してより低い場合;及び
(iii)前記段階(k)で提供された核酸配列データセットに、前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する非ターゲット核酸配列データは存在しなく、前記有機体よりも上位の分類学的名称及び/又は分類学的識別記号に該当する有機体又はその下位の分類学的名称及び/又は分類学的識別記号に該当する有機体に該当する核酸配列データの比率が、前記段階(k)で提供された核酸配列データセットに対して所定の値未満である場合。
【請求項19】
関心有機体(organism of interest)のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供するための方法を実行する
ようにプロセッサを
構築するための指示を含むコンピュータ可読記録媒体であって、前記
指示は次の段階を含む:
(a)ターゲット核酸分子の名称(name)及び関心有機体の名称を受信し、前記関心有機体の前記ターゲット核酸分子に対する同義語(synonym)を収集する(retriev
e)
よう指示する段階;
(b)核酸レコードに含まれた核酸配列データを収集する
よう指示する段階;前記核酸レコードのそれぞれは前記関心有機体に関するものであり、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つが記載されているディスクリプタ(descriptor)を含み、
(c)前記収集された核酸配列データを分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)によって整列(sor
t)
するよう指示し、同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの中から分類学的代表配列を選定する段階;
前記分類学的代表配列は、下記(i)~(vii)の少なくとも1つを満たすよう並べられた核酸配列間の順位を考慮して選択される;(i)前記核酸配列データのアセンブリーレベル(assembly level);(ii)前記核酸配列データがRefSeq(Reference Sequence)データベースに含まれるか否か;(iii)前記核酸配列データを含む核酸レコードのディスクリプタに記載されている核酸分子の名称が前記受信されたターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つと一致しているか否か;(iv)前記核酸配列データの長さ;(v)前記核酸配列データを含む核酸レコードのディスクリプタにホスト(host)が記載されたか否か;(vi)前記核酸配列データを含む核酸レコードのディスクリプタにホスト(host)が記載されたか否か;及び、(vii)前記核酸配列データの接近番号(Accession No)のアルファベットの順序;
(d)前記選定された分類学的代表配列を相同性によってグループ化(grou
p)
するよう指示し、各グループからグループ代表配列を選定する段階;
前記グループ代表配列は、下記(i)~(iv)の少なくとも1つを満たすよう並べられた分類学的配列を考慮して選択される;(i)前記選定された分類学的代表配列のアセンブリーレベル(assembly level);(ii)前記選定された分類学的代表配列と同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの個数;(iii)前記選定された分類学的代表配列を含む核酸レコードのディスクリプタにホスト(host)が記載されたか否か;及び、(iv)前記選定された分類学的代表配列の接近番号(Accession No)のアルファベットの順序;及び
(e)前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを収集
するよう指示して前記オリゴヌクレオチドのデザイン用核酸配列データセットとして提供する段階。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本特許出願は、2020年8月31日に大韓民国特許庁に出願された大韓民国特許出願第2020-0110636号に対して優先権を主張し、当該特許出願の開示事項は本明細書に参照によって組み込まれる。
【0002】
本発明は、関心有機体(organism of interest)のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供するためのコンピュータ具現方法に関する。
【背景技術】
【0003】
21世紀のヘルスケアパラダイムは、過去の公衆保健の時代から疾病治療の時代を経て疾病の予防及び管理による健康寿命延長の時代へと変化している。このような治療医学中心から予防医学の時代へと変化する全世界的な傾向に伴って体外診断(In Vitro Diagnostics;IVD)に対する需要も大きく増加している。全世界的な人口高齢化及び新型ウイルスの出現は、体外診断市場が成長する別の要因とされている。また、治療方式も個別化治療に変わっていく傾向にあり、患者に対する治療又は処方を決定する前に、患者に対する体外診断を先行する範囲も拡大しつつある。
【0004】
分子診断は、体外診断(IVD)産業において最も速い成長速度を示す分野であり、患者管理連続性を核心とする。疾病ポートフォリオが重なる他のプラットホームと対比して、この分子診断は優れたテスト精度と小型化機能、迅速な処理時間といったメリットを有する。このような分子診断技術のメリットにより、既存の伝統的な化学・免疫学的に行われていた一般診断項目が最近では分子診断検査項目に徐々に切り替わっている傾向にある。
【0005】
分子診断分野で用いられる代表的な技術として重合酵素連鎖反応(Polymerase Chain Reaction;PCR)、次世代塩基配列分析(Next-Generation Sequencing;NGS)、マイクロアレイ(microarray)又は蛍光可視的分子結合化(fluorescent in situ hybridization)などがある。
【0006】
重合酵素連鎖反応(以下、「PCR」という。)と公知された核酸増幅方法は、二本鎖DNAの変性、DNA鋳型へのオリゴヌクレオチドプライマーのアニーリング及びDNA重合酵素によるプライマー延長の反復したサイクル過程を含む(Mullis等、米国特許第4,683,195号、第4,683,202号、及び第4,800,159号;Saiki等、(1985)Science 230,1350-1354)。
【0007】
PCRベース技術は、ターゲットDNA配列の増幅の他、生物学及び医学研究分野で科学的応用又は方法にも広く用いられており、例えば、ターゲット配列の検出、逆転写酵素PCR(RT-PCR)、分別ディスプレイ(Differential Display)PCR(DD-PCR)、公知又は未知の遺伝子のPCRを用いたクローニング、cDNA末端の高速増幅(RACE)、任意的プライミングPCR(AP-PCR)、マルチプレックスPCR、SNPゲノムタイピング、及びPCRベースゲノム分析などがある。
【0008】
このような分子診断技術は、試料内ターゲット核酸分子の存在又はその配列を確認して病原菌又は発病危険因子を分析し、大部分の場合、分析のためにターゲット核酸分子の配列を選択的に増幅する。このような分子診断を行うためにターゲット核酸分子の増幅及び検出に用いられるオリゴヌクレオチドのデザインが重要である。
【0009】
ターゲット核酸分子の検出のためには、用いられるオリゴヌクレオチド(プローブ及び/又はプライマー)が適度の特異度及び検出度を有しなければならず、且つ、特定検出方法に適合し、分析者の設定した条件を満たさなければならない。したがって、分析目的に合うオリゴヌクレオチドのデザインが非常に重要である。
【0010】
人間、哺乳類などの高等動物の遺伝子であれ、病原体に分類される各種バクテリア、ウイルスの遺伝子であれ、大部分のターゲット核酸配列は、個体間の配列変異を含む。特に、RNAウイルスは、高い配列変異性(遺伝的多様性)を有することがよく知られている。遺伝的多様性を有するターゲット核酸分子を適合なカバレッジで検出するためには、より高精度のオリゴヌクレオチドのデザインが必要である。
【0011】
遺伝的多様性を有するターゲット核酸分子を検出するためのオリゴヌクレオチドをデザインするための様々な試みらがあってきた。このようなオリゴヌクレオチドデザインの通常の方法としては、遺伝的多様性を有する様々なターゲット核酸分子から保存的部位を見出し、この部位に混成化するオリゴヌクレオチドをデザインすることがある(Wang,D et al.,Proc.Natl Acad.Sci.USA,99:15687-15692(2002))。
【0012】
保全的部位に対するオリゴヌクレオチドのデザインのためには、同一の種類に分類される多くの配列変異を含むターゲット核酸配列の収集が必要であった。既存の方法は、ターゲット核酸分子に対する様々なターゲット核酸配列データの加工及びこれを用いた保存的部位の発掘に関する新しい試みを開示していたが、実際に、オリゴヌクレオチドのデザインのために提供される同種配列の収集及びその加工に関する方法論的進歩はなされず、依然として、配列を収集する研究者の個人的知識及び経験に頼っていた。
【0013】
このようなマニュアル方式の配列収集によると、デザインされたオリゴヌクレオチドのターゲット核酸配列に対する特異度(specificity)及び前記オリゴヌクレオチドによって検出可能なターゲット核酸配列のカバレッジが研究者の力量によって制限される問題が発生する他、配列収集に伴う開発時間の増加も発生した。
【0014】
このような問題点を解決するために、ターゲット核酸分子に対するターゲット核酸配列データを効果的に収集するための自動化した新しい方法の開発が要求された。
【0015】
一方、
図1は、本出願人によって以前に出願された方法(国際公開番号WO2019/212238)によってターゲット核酸分子に対するターゲット核酸配列データセットを提供する過程のフローチャートである。
図1のフローチャートにしたがって、ターゲット核酸分子の名称などのキーワードを用いて核酸配列データを収集し、該収集された核酸配列データを配列の長さによって整列して最も長い配列を代表配列と決定し、該代表配列と所定の値以上の相同性を有する核酸配列データをグループ化した後、前記キーワードで収集した核酸配列データ及び前記代表配列と相同性を有する核酸配列データを、ターゲット核酸分子に対するターゲット核酸配列データセットとして提供した。前記ターゲット核酸配列データセットの複数のターゲット核酸配列をアラインした結果は
図2に示されている。
【0016】
図2に見られるように、前記従来の方法によってターゲット核酸分子に対する核酸配列データセットを提供した結果、代表配列の個数は25個であったし、前記代表配列として収集された配列間の相同性の相違によって正しくアラインされないことを確認した。これによって、アラインされた核酸配列を分析者らが検討するなど、余分の時間がかかる問題点があった。
【0017】
そこで、本発明者らは、関心有機体のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドをデザインするために、前記ターゲット核酸分子に対する複数のターゲット核酸配列を欠落無しで収集するとともに、収集された複数のターゲット核酸配列がオリゴヌクレオチドのデザインに利用可能となるようにアラインメント結果が正しく形成され得るオリゴヌクレオチドのデザイン用核酸配列データセットを提供する方法の開発必要性を認識した。
【0018】
本明細書全体を通じて多数の引用文献及び特許文献が参照され、その引用が表示されている。引用された文献及び特許の開示内容は、その全体として本明細書に参照によって組み込まれ、本発明の属する技術の分野におけるレベル及び本発明の内容がより明確に説明される。
【発明の概要】
【発明が解決しようとする課題】
【0019】
本発明者らは、上述した従来方法の問題点を克服し、ターゲット核酸分子の増幅又は検出に用いられるオリゴヌクレオチドのデザインに使用するための核酸配列データセットを効果的に提供できるコンピュータ具現方法を開発しようと努力した。その結果、本発明者らは、ターゲット核酸分子に対する同義語(synonym)から収集された核酸配列データを分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)によって整列し、同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの中から分類学的代表配列を選定し、前記選定された分類学的代表配列を相同性によってグループ化(grouping)し、各グループからグループ代表配列を選定し、前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを提供した結果、オリゴヌクレオチドをデザインできる程度に複数の核酸配列のアラインメント結果がよく形成されたことを確認し、本発明を完成するに至った。
【0020】
したがって、本発明の目的は、関心有機体(organism of interest)のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供するためのコンピュータ具現方法を提供することにある。
【0021】
本発明の他の目的は、関心有機体(organism of interest)のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供するための方法を実行するためのプロセッサを具現する指示を含むコンピュータ可読記録媒体を提供することにある。
【0022】
本発明の他の目的及び利点は、下記の具現例、特許請求の範囲及び図面から、より明確になる。
【課題を解決するための手段】
【0023】
本発明の一態様によれば、本発明は、次の段階を含む関心有機体(organism of interest)のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供するためのコンピュータ具現方法を提供する:
(a)ターゲット核酸分子の名称(name)及び関心有機体の名称を受信し、前記関心有機体の前記ターゲット核酸分子に対する同義語(synonym)を収集する(retrieving)段階;
(b)核酸レコードに含まれた核酸配列データを収集する段階;前記核酸レコードのそれぞれは前記関心有機体に関するものであり、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つが記載されているディスクリプタ(descriptor)を含み、
(c)前記収集された核酸配列データを分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)によって整列(sorting)し、同じ分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)を有する核酸配列データの中から分類学的代表配列を選定する段階;
(d)前記選定された分類学的代表配列を相同性によってグループ化(grouping)し、各グループからグループ代表配列を選定する段階;及び
(e)前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを収集して前記オリゴヌクレオチドのデザイン用核酸配列データセットとして提供する段階。
【0024】
本発明者らは、上述した従来方法の問題点を克服し、ターゲット核酸分子の増幅又は検出に用いられるオリゴヌクレオチドのデザインに使用するための核酸配列データセットを効果的に提供できるコンピュータ具現方法を開発しようと努力した。その結果、本発明者らは、ターゲット核酸分子に対する同義語(synonym)から収集された核酸配列データを分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)によって整列し、同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの中から分類学的代表配列を選定し、前記選定された分類学的代表配列を相同性によってグループ化(grouping)し、各グループからグループ代表配列を選定し、前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを提供した結果、オリゴヌクレオチドをデザインできる程度に複数の核酸配列のアラインメント結果がよく形成されたことを確認した。
【0025】
本明細書において用語「関心有機体(organism of interest)」は、オリゴヌクレオチド(例えば、プライマー又はプローブ)を用いて増幅又は検出しようとするターゲット核酸分子を含んでいる有機体のことを指す。
【0026】
本明細書において用語「有機体」は、生物学的分類体系、例えば、界、門、綱、目、科、属、種、亜種、品種、変種、サブタイプ、ジェノタイプ、セロタイプ、ストレイン、分離種(isolate)又は裁培種(cultivar)に属した有機体を意味する。有機体は、例えば、原核細胞(例えば、Mycoplasma pneumoniae、Chlamydophila pneumoniae、Legionella pneumophila、Haemophilus influenzae、Streptococcus pneumoniae、Bordetella pertussis、Bordetella parapertussis、Neisseria meningitidis、Listeria monocytogenes、Streptococcus agalactiae、Campylobacter、Clostridium difficile、Clostridium perfringens、Salmonella、Escherichia coli、Shigella、Vibrio、Yersinia enterocolitica、Aeromonas、Chlamydia trachomatis、Neisseria gonorrhoeae、Trichomonas vaginalis、Mycoplasma hominis、Mycoplasma genitalium、Ureaplasma urealyticum、Ureaplasma parvum、Mycobacterium tuberculosis)、真核細胞(例えば、原生動物、寄生動物、菌類、酵母、高等植物、下等動物、及び哺乳動物と人間を含む高等動物)、ウイルス又はウイロイドを含む。前記真核細胞のうち寄生虫(parasite)の例は、Giardia lamblia、Entamoeba histolytica、Cryptosporidium、Blastocystis hominis、Dientamoeba fragilis、Cyclospora cayetanensisを含む。前記ウイルスの例は、呼吸器疾患を誘発するインフルエンザーAウイルス(Flu A)、インフルエンザーBウイルス(Flu B)、呼吸シンシチアルウイルスA(Respiratory syncytial virus A:RSV A)、呼吸シンシチアルウイルスB(Respiratory syncytial virus B:RSV B)、パラインフルエンザーウイルス1(PIV1)、パラインフルエンザーウイルス2(PIV2)、パラインフルエンザーウイルス3(PIV3)、パラインフルエンザーウイルス4(PIV4)、メタニューモウイルス(MPV)、ヒトエンテロウイルス(HEV)、ヒトボカウイルス(HBoV)、ヒトライノウイルス(HRV)、コロナウイルス及びアデノウイルス;胃腸管疾患を誘発するノロウイルス、ロタウイルス、アデノウイルス、アストロウイルス及びサポウイルスを含む。また、前記ウィルスの例は、HPV(human papillomavirus)、MERS-CoV(Middle East respiratory syndrome-related coronavirus)、デングウイルス(Dengue virus)、HSV(Herpes simplex virus)、HHV(Human herpes virus)、EBV(Epstein-Barr virus)、VZV(Varicella zoster virus)、CMV(Cytomegalovirus)、HIV、肝炎ウイルス及びポリオウイルスを含む。
【0027】
本明細書において用語「ターゲット核酸分子」、「ターゲット分子」又は「ターゲット核酸」は、検出しようとする有機体内ヌクレオチド分子を意味する。ターゲット核酸分子は一般に特定名前が付けられており、ゲノム全体及びゲノムを構成する全てのヌクレオチド分子(例えば、遺伝子、シュード遺伝子、非コーディング配列分子、非解読区域及びゲノムの一部区域)を含む。ターゲット核酸分子は、例えば、有機体の核酸を含む。
【0028】
本明細書において、ターゲット核酸分子は、検出しようとする核酸分子全体又は核酸分子の一部の領域を意味できる。本明細書において、ターゲット核酸分子は、核酸分子において1つの機能的単位を意味できる。前記機能的単位は遺伝子であってよい。遺伝子は、DNA又はRNAからなる遺伝情報の物理的、機能的単位体のことを指す。前記遺伝子は、タンパク質を暗号化する領域及びタンパク質を暗号化しない領域を全て含む。本明細書において用語「ターゲット遺伝子」は、ターゲット核酸分子が物理的核酸分子において1つの機能的単位である遺伝子部分を意味する場合にターゲット核酸分子と同じ意味で使われる用語である。
【0029】
本明細書において用語「検出」は、ターゲット核酸分子の存在又は不在に対する定性的又は定量的な表示を提供する測定を意味する。前記検出(detection)は、識別又は同定(identification)、決定(determination)又は分析(analysis)のいずれをも含む。
【0030】
本明細書で使われる用語「オリゴヌクレオチド(oligonucleotide)」は、自然の又は修飾されたモノマー又は連鎖(linkages)の線形オリゴマーを意味し、デオキシリボヌクレオチド及びリボヌクレオチドを含み、ターゲット核酸配列に特異的に混成化可能であり、自然的に存在する又は人為的に合成されるものである。オリゴヌクレオチドは、混成化において最大効率のために特に一本鎖である。具体的には、オリゴヌクレオチドはオリゴデオキシリボヌクレオチドである。本発明に用いられるオリゴヌクレオチドは、自然(naturally occurring)dNMP(すなわち、dAMP、dGMP、dCMP及びdTMP)、ヌクレオチド類似体又は誘導体を含んでよい。また、オリゴヌクレオチドはリボヌクレオチドも含んでよい。例えば、本発明においてオリゴヌクレオチドは、骨格修飾されたヌクレオチド、例えば、ペプチド核酸(Peptide Nucleic Acid:PNA)(M.Egholm et al.,Nature,365:566-568(1993))、ロックド核酸(Locked Nucleic Acid:LNA)(WO1999/014226)、架橋核酸(Bridged Nucleic Acid:BNA)(WO2005/021570)、ホスホロチオエートDNA、ホスホロジチオエートDNA、ホスホロアミデートDNA、アミド連結されたDNA、MMI連結されたDNA、2’-O-メチルRNA、アルファ-DNA及びメチルホスホネートDNA、糖修飾されたヌクレオチド、例えば、2’-O-メチルRNA、2’-フルオロRNA、2’-アミノRNA、2’-O-アルキルDNA、2’-O-アリルDNA、2’-O-アルキニルDNA、ヘキソースDNA、ピラノシルRNA及びアンヒドロヘキシトールDNA、及び塩基修飾を有するヌクレオチド、例えば、C-5置換されたピリミジン(置換基は、フルオロ-、ブロモ-、クロロ-、ヨード-、メチル-、エチル-、ビニル-、ホルミル-、エチニル-、プロピニル-、アルキニル-、チアゾリル-、イミダゾリル-、ピリジル-を含む。)、C-7置換基を有する7-デアザプリン(置換基は、フルオロ-、ブロモ-、クロロ-、ヨード-、メチル-、エチル-、ビニル-、ホルミル-、アルキニル-、アルケニル-、チアゾリル-、イミダゾリル-、ピリジル-)、イノシン及びジアミノプリンを含んでよい。特に、本明細書において使われる用語「オリゴヌクレオチド」は、デオキシリボヌクレオチドからなる一本鎖である。用語「オリゴヌクレオチド」は、ターゲット核酸配列に依存的に発生する切断断片と混成化されるオリゴヌクレオチドを含む。
【0031】
本発明の一具現例によれば、前記オリゴヌクレオチドはプライマー及び/又はプローブである。
【0032】
本明細書で使われる用語「プライマー」は、核酸鎖(鋳型)に相補的なプライマー延長産物の合成が誘導される条件、すなわち、ヌクレオチドとDNA重合酵素のような重合剤の存在、そして適切な温度とpHの条件において合成の開始点として作用可能なオリゴヌクレオチドを意味する。プライマーは、重合剤の存在下で延長産物の合成をプライミングさせ得る程度に十分に長い必要がある。プライマーの適切な長さは、例えば、温度、応用分野及びプライマーのソース(source)を含む複数の要素によって決定される。
【0033】
本明細書で使われる用語「プローブ(probe)」は、ターゲット核酸配列に相補的な部位又は部位を含む一本鎖核酸分子を意味する。また、前記プローブは、ターゲット検出のための信号を発生させ得る標識を含むことができる。
【0034】
前記オリゴヌクレオチドは、ターゲット核酸配列に混成化される配列で構成された通常のプライマー及びプローブ構造を有してよい。又は、前記オリゴヌクレオチドの構造を修飾して独特の構造を有するオリゴヌクレオチドであってよい。例えば、前記オリゴヌクレオチドは、スコルピオンプライマー、モレキュラービーコンプローブ、サンライズプライマー、ハイビーコンプローブ、タギングプローブ、DPOプライマー又はプローブ(WO2006/095981)、及びPTOプローブ(参照:WO2012/096523)の構造を有してよい。
【0035】
前記オリゴヌクレオチドは通常の(conventional)プライマー又はプローブに縮退性塩基及び/又はユニバーサル塩基が導入された縮退性塩基含有オリゴヌクレオチド及び/又はユニバーサル塩基含有オリゴヌクレオチドのような修飾オリゴヌクレオチドであってよい。本明細書で使われる用語「通常のプライマー」、「通常のプローブ」及び「通常のオリゴヌクレオチド」は、縮退性塩基又は非自然塩基が導入されていない一般的なプライマー、プローブ及びオリゴヌクレオチドを意味する。本発明の一具現例によれば、前記縮退性塩基含有オリゴヌクレオチド又はユニバーサル塩基含有オリゴヌクレオチドは、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%又は少なくとも95%が非修飾オリゴヌクレオチドである。本発明の一具現例によれば、前記通常のオリゴヌクレオチドに導入される縮退性塩基又はユニバーサル塩基の個数の範囲は、具体的には、7個以下、5個以下、4個以下、3個以下又は2個以下である。又は、前記通常のオリゴヌクレオチドに導入される縮退性塩基及び/又はユニバーサル塩基の使用比率は、具体的には、25%以下、20%以下、18%以下、16%以下、14%以下、12%以下、10%以下、8%以下又は6%以下である。前記縮退性塩基又はユニバーザル塩基の使用比率は、縮退性塩基又はユニバーザル塩基が導入されたオリゴヌクレオチドの総ヌクレオチド中の縮退性塩基又はユニバーザル塩基の比率を表す。前記縮退性塩基は、当業界に公知された次の様々な縮退性塩基を含む:R:A又はG;Y:C又はT;S:G又はC;W:A又はT;K:G又はT;M:A又はC;B:C、G又はT;D:A、G又はT;H:A、C又はT;V:A、C又はG;N:A、C、G又はT。前記ユニバーザル塩基は、当業界に公知された次の様々なユニバーザル塩基を含む:ジオキシイノシン、イノシン、7-ジアザ-2’-ジオキシイノシン、2-アザ-2’-ジオキシイノシン、2’-OMeイノシン、2’-Fイノシン、ジオキシ3-ニトロピロール、3-ニトロピロール、2’-OMe3-ニトロピロール、2’-F3-ニトロピロール、1-(2’-ジオキシ-ベータ-D-リボフラノシル)-3-ニトロピロール、ジオキシ5-ニトロピロール、5-ニトロインドール、2’-OMe5-ニトロインドール、2’-F5-ニトロインドール、ジオキシ4-ニトロベンズイミダゾール、4-ニトロベンズイミダゾール、ジオキシ4-アミノベンズイミダゾール、4-アミノベンズイミダゾール、ジオキシネブラリン、2’-Fネブラリン、2’-F4-ニトロベンズイミダゾール、PNA-5-ニントロインドール、PNA-ネブラリン、PNA-イノシン、PNA-4-ニトロベンズイミダゾール、PNA-3-ニトロピロール、モルホリノ-5-ニトロインドール、モルホリノ-ネブラリン、モルホリノ-イノシン、モルホリノ-4-ニトロベンズイミダゾール、モルホリノ-3-ニトロピロール、ホスラミデート-5-ニトロインドール、ホスラミデート-ネブラリン、ホスラミデート-イノシン、ホスラミデート-4-ニトロベンズイミダゾール、ホスラミデート-3-ニトロピロール、2’-0-メトキシエチルイノシン、2’-0-メトキシエチルネブラリン、2’-0-メトキシエチル5-ニトロインドール、2’-0-メトキシエチル4-ニトロ-ベンズイミダゾール、2’-0-メトキシエチル3-ニトロピロール及び前記塩基の組合せ。より具体的には、前記ユニバーザル塩基は、ジオキシイノシン、イノシン、又はそれらの組合せである。
【0036】
特定ターゲット核酸分子を検出するために用いられるオリゴヌクレオチドをデザインするためには、当業界に公知された様々な方法が施されてよい。例えば、特定ターゲット核酸分子に対する複数のターゲット核酸配列を収集してアラインメントをした後、前記複数のターゲット核酸配列のそれぞれからオリゴヌクレオチドをデザイン条件に満ちるようにデザインできる。したがって、オリゴヌクレオチドをデザインするためには、関心有機体のターゲット核酸分子に対する複数のターゲット核酸配列を収集することが重要である。
【0037】
デザインされるオリゴヌクレオチドは、次の条件のうち少なくとも1個の条件を満たすようにデザインされるプローブを含む:(i)50~85℃のTm値、(ii)15~50ヌクレオチドの長さ、(iii)モノヌクレオチド(G)nラン配列(run sequence)排除;前記nは少なくとも3であり、(iv)5’末端はG又はC、(v)5’末端部位のGCコンテンツは40%以上。
【0038】
より具体的には、前記プローブデザイン条件は、上述した条件のうち少なくとも2個、より具体的には少なくとも3個、さらに具体的には少なくとも4個、特に具体的には5個の条件を含む。
【0039】
前記デザイン条件のうちTm値は、例えば、50~80℃、50~75℃、55~80℃、55~75℃、60~80℃、60~75℃、65~80℃又は65~75℃である。具体的には、デザイン条件のうちTm値は、55~80℃、60~78℃、63~78℃、65~75℃、67~75℃又は65~73℃である。
【0040】
前記デザイン条件のうち長さは、例えば、10~60ヌクレオチド、10~50ヌクレオチド、10~45ヌクレオチド、10~40ヌクレオチド又は10~35ヌクレオチド、15~60ヌクレオチド、15~50ヌクレオチド、15~45ヌクレオチド、15~40ヌクレオチド又は15~35ヌクレオチドである。
【0041】
前記デザイン条件のうち、例えば、前記nが少なくとも3又は4であるモノヌクレオチド(G)nラン配列(run sequence)排除である。
【0042】
プローブの5’末端部位のGCコンテンツは40%以上、具体的には40~70%又は40~60%である。前記5’末端部位は、プローブの5’末端から10ヌクレオチド以内の部位を意味する。
【0043】
デザインされるオリゴヌクレオチドは、次の条件のうち少なくとも1個の条件を満たすようにデザインされるプライマーを含む:(i)40~70℃のTm値、(ii)15~60ヌクレオチドの長さ、及び(iii)モノヌクレオチド(G)nラン配列(run sequence)排除;前記nは、少なくとも3である。
【0044】
前記デザイン条件のうちTm値は、例えば、40~70℃、50~70℃、55~70℃、45~65℃、50~65℃、55~65℃、45~60℃又は50~65℃である。具体的には、デザイン条件のうちTm値は、40~70℃、45~65℃、50~65℃、50~60℃、55~65℃又は55~60℃である。
【0045】
前記デザイン条件のうち長さは、例えば、15~60ヌクレオチド、15~50ヌクレオチド、15~45ヌクレオチド、15~40ヌクレオチド、15~35ヌクレオチド、15~30ヌクレオチド、15~25ヌクレオチド、18~45ヌクレオチド、18~40ヌクレオチド、18~35ヌクレオチド、18~30ヌクレオチド又は18~25ヌクレオチドである。具体的には、デザイン条件のうち長さは、15~40ヌクレオチド、16~40ヌクレオチド、17~40ヌクレオチド、18~40ヌクレオチド、15~35ヌクレオチド、16~35ヌクレオチド、17~35ヌクレオチド、18~35ヌクレオチド、15~30ヌクレオチド、16~30ヌクレオチド、17~30ヌクレオチド、18~30ヌクレオチド、18~25ヌクレオチド又は17~25ヌクレオチドである。
【0046】
前記デザイン条件のうちモノヌクレオチド(G)nラン配列(run sequence)に対する基準は、例えば、前記nが少なくとも3又は4であるモノヌクレオチド(G)nラン配列(run sequence)排除である。
【0047】
前記プライマーが本出願人によって開発されたDPOプライマー(参照:米国特許第8092997号)である場合には、前記特許文献に開示されたDPOプライマーのTm及び長さに対する説明が前記デザイン条件として提示されてよい。
【0048】
より具体的には、前記プライマーデザイン条件は、上述した条件のうち少なくとも2個、より具体的には、少なくとも3個の条件を含む。
【0049】
本明細書において用語「配列(sequence)」は、巨大分子内の単量体(monomer)の特有の配列順序のことを指す。本明細書において用語「核酸配列」は、核酸分子内のヌクレオチドの配列順序であり、核酸分子を特定核酸配列で表したものである。
【0050】
本明細書において用語「核酸配列」又は「核酸配列データ」は、核酸分子内のヌクレオチドの配列順序又は核酸分子内のヌクレオチドの配列順序に関する情報を指し、交互に同じ意味で使われてよい。用語「核酸配列データセット」は、前記核酸配列データの集合を意味し、前記核酸配列データセットは、核酸配列データの目録(list)又はアラインメントファイル形態で提供されてよい。
【0051】
図3は、本発明の一具現例によって本発明の方法を実施する過程のフローチャートである。本発明の方法を
図3を参照して詳しく説明すれば次の通りである:
段階(a):関心有機体のターゲット核酸分子に対する同義語(synonym)を収集(110)
まず、本発明の方法は、(a)ターゲット核酸分子の名称(name)及び関心有機体の名称を受信し、前記関心有機体の前記ターゲット核酸分子に対する同義語(synonym)を収集(retrieving)する。
【0052】
本明細書で「ターゲット核酸分子の名称(name)」は、ターゲット核酸分子を表す単語(word)又は標識(symbol)のことを指す。本発明においてターゲット核酸分子の名称は、ヌクレオチド分子(例えば、遺伝子、シュード遺伝子、非コーディング配列分子、非解読区域及びゲノムの一部の区域)の名称であってよい。前記名称は公式名称(official full name)及び一般名称(common name)を含む。前記一般名称は、公式名称以外の、本発明の属する技術の分野におけるターゲット核酸分子を表すために用いられている名前を意味する。本明細書において標識は、ターゲット核酸分子を表す(represent)マーク(mark)、サイン(sign)、文字(letter)又は文字の組合せである。前記標識は、公式標識(official symbol)及び別称(alias)を含む。別称(alias)は、公式標識(official symbol)以外の、本発明の属する技術の分野におけるターゲット核酸分子の識別に用いられている非公式標識(unofficial symbol)を意味する。
【0053】
本明細書において関心有機体の名称は、生物学的分類体系による有機体の学名(scientific name)又は分類学的名称(taxonomic name)を意味する。前記関心有機体の名称は、有機体の学名又は分類学的名称に与えられた分類学的識別記号(taxonomic ID)も含む。
【0054】
本発明のコンピュータ具現方法を実施しようとする場合に、ユーザがUI(user interface)を介してターゲット核酸分子の名称(name)及び関心有機体の名称を入力しなければならず、このような入力により、本発明の方法を具現するコンピュータでは前記UI(user interface)を介してターゲット核酸分子の名称(name)及び関心有機体の名称を受信する。
【0055】
したがって、本明細書においてターゲット核酸分子の名称(name)及び関心有機体(organism of interest)の名称の入力と関連して前記ターゲット核酸分子の名称(name)及び関心有機体の名称を受信するということは、前記ターゲット核酸分子を表す名称(単語又は標識)と前記ターゲット核酸分子が含まれる有機体の名称を受け取ること(又は、コンピュータにインプットすること)をいう。このような受信により、どの核酸分子に対する複数のターゲット核酸配列データを本発明の方法によって提供するかが決定される。
【0056】
本明細書において用語「ターゲット核酸配列」又は「ターゲット配列」は、ターゲット核酸分子を特定核酸配列で表したものである。
【0057】
1つのターゲット核酸分子、例えば、1つのターゲット遺伝子は、1つの特定ターゲット核酸配列を有してよく、或いは、遺伝的多様性又は遺伝的変異性を示すターゲット核酸分子の場合は、複数の多様性ターゲット核酸配列を有してよい。本発明における複数のターゲット核酸配列は、配列類似性を有するターゲット核酸配列である。
【0058】
ターゲット核酸分子の名称、及び該ターゲット核酸分子が含まれる有機体の名称を受信する方法は特に限定されず、例えば、入力装置(例えば、UI)を介してユーザが直接入力する方法によって提供されてもよく、又は、各種データ記憶媒体から提供されてもよい。又は、ターゲット核酸分子の名称、及び前記ターゲット核酸分子が含まれる有機体の名称は、有無線データ伝送によって提供されてもよい。
【0059】
前記受信したターゲット核酸分子の名称及び関心有機体の名称に基づいて前記関心有機体の前記ターゲット核酸分子に対する同義語を収集(retrieve)する。
【0060】
本発明の方法は、極力様々なターゲット核酸配列データを収集して整理し、これにより、デザインされたオリゴヌクレオチドがターゲット核酸分子に対する広いカバレッジを有し得るようにするためのものである。したがって、まず、極力多いターゲット核酸配列データを収集することが必要であり、そのために、オリゴヌクレオチドデザイン用核酸配列データ収集に用いられる前記ターゲット核酸分子に対する同義語を収集する。
【0061】
ターゲット核酸分子に対する同義語は、ターゲット核酸分子を識別する又は指す名称又は標識と同じ意味を有する単語グループをいう。本発明において、ターゲット核酸分子に対する同義語は、ターゲット核酸分子を識別し得る名前及び標識を全て含む単語グループをいい、公式名称(official full name)、一般名称(common name)、公式標識(official symbol)及び別称のいずれをも含む。
【0062】
本発明の一具現例によれば、前記ターゲット核酸分子に対する同義語(synonym)は、第1データベースから収集される。
【0063】
ターゲット核酸分子に対する同義語はデータベースから収集されてよい。前記データベースは、組織化されたデータの集合を意味する。前記データベースは、コンピュータシステムによってデータが記憶され、接近(access)可能な組織化されたデータの集合であってよい。本明細書において、他のデータベースと区別するために、前記同義語が収集されるデータベースを第1データベースと命名する。
【0064】
より具体的には、前記第1データベースは遺伝子データベースであってよい。
【0065】
遺伝子データベースは、有機体が含んでいる遺伝子に関する情報を収集、分類して記憶しているデータベースのことを指す。前記遺伝子データベースは、遺伝子に対する名称、標識及び有機体名称を含んでおり、遺伝子に対する説明、遺伝子の核酸配列に関する情報(例えば、核酸配列アイデンティファイア)及び前記遺伝子が暗号化しているタンパク質に関する情報(例えば、タンパク質名、タンパク質アイデンティファイア)を含んでよい。前記遺伝子データベースは「有機体の遺伝情報を提供するデータベース」と命名でき、用語「遺伝子データベース」及び「有機体の遺伝情報を提供するデータベース」は、本明細書において互換して使用可能である。
【0066】
本発明の一具現例によれば、前記第1データベースは、核酸分子の題目、核酸分子の名称、核酸分子に対する説明、有機体の名称、及び核酸分子が暗号化しているタンパク質名称を含む有機体の遺伝情報(genetic information of organism)を提供するデータベースであってよい。前記題目は、第1データベースがユーザに1つの核酸分子に関する情報をレコードとして提供するとき、該レコードの題目(title)として記載される情報である。
【0067】
前記第1データベースは、直接構築されたデータベース、又はユーザが制限された非公開遺伝子データベースであってよい。又は、前記第1データベースは公開されたものであってもよい。前記公開された第1データベースは、国家又は公共機関で運営するものの他、企業、教育機関、研究所などで構築したものも含む。本発明の一具現例によれば、前記第1データベースは、GenBank、EMBL及びDDBJ(DNA DataBank of Japan)から構成された群から選ばれる公衆-接近可能な遺伝子データベース、又は前記公衆-接近可能な遺伝子データベースをダウンロードして構築した遺伝子データベースであってよい。
【0068】
本発明の一具現例によれば、前記第1データベースは、ターゲット核酸分子の名称及び有機体情報を含む公衆-接近可能なデータベース又はこれをダウンロードして構築した遺伝子データベースであってよい。
【0069】
本発明によれば、ターゲット核酸分子に対する同義語は、第1データベースから収集(retrieve)、具体的には自動的に収集される。
【0070】
例えば、核酸分子の配列をヌクレオチドデータベースに登録する登録者は、核酸分子の遺伝子名称を記載する項目に公式名称又は公式標識を記載する。たたじ、場合によっては、核酸分子の公式名称を他の項目に記載し、遺伝子名称を記載する項目には核酸分子の他の同義語を入力することもある。又は、本発明の方法を実行するために受信したターゲット核酸分子の名称が実際ターゲット核酸分子に対する公式名称又は公式標識ではなく、他の同義語のうち1つであってもよい。したがって、核酸分子に対する核酸配列データを確保するためには、極力多い同義語を確保して検索に使用することが必要である。
【0071】
したがって、(i)まず、入力された関心有機体及びターゲット核酸分子の名称と関連がある極力多い遺伝子情報要約レコードを確保し、(ii)確保した遺伝子情報要約レコードから効果的に同義語を確保しなければならない。
【0072】
まず、十分な遺伝子情報要約レコードを確保するために、核酸分子に対する遺伝子情報要約レコードの様々な入力項目のうち、核酸分子の公式名称又は公式標識が入力される頻度が高い上位項目を分析した。その結果、遺伝子データベースのうち、核酸分子の遺伝子名が記載された項目及び核酸分子が発現して作られるタンパク質の名称が記載された項目が、核酸分子の公式名称又は公式標識が入力される頻度が高い項目として調査された。具体的には、有機体(organism)名称を関心有機体に限定し、遺伝子名称、題目又はタンパク質名を検索フィールドにしてターゲット核酸分子の名称を検索した結果を遺伝子情報要約レコードとして収集することが、ターゲット核酸分子に対する遺伝子情報要約レコードを収集する最も効果的な方法であることを確認した。
【0073】
第二に、確保した遺伝子情報要約レコードから同義語を確保するために、遺伝子情報要約レコードの入力項目のうち、ターゲット核酸分子の公式名称又は公式標識以外の他の名称又は標識が記載される頻度が高い項目を分析した。その結果、遺伝子情報要約レコードのうち、核酸分子の遺伝子名が記載された項目及びタンパク質の名称が記載された説明(description)項目が、公式名称又は公式標識以外の他の名称又は標識が記載される頻度が高い項目として調査された。
【0074】
したがって、収集された遺伝子情報要約レコードの遺伝子名称(name)及び遺伝子の説明(description)に記載された情報を収集する方法が最も効果的な方法であることを確認した。
【0075】
本発明の一具現例によれば、前記段階(a)は、(a-1)前記関心有機体に関するレコードであり、前記受信されたターゲット核酸分子の名称が題目(title)、遺伝子(gene)又はタンパク質(protein)の項目に記載された遺伝子情報要約レコードを収集する段階;及び(a-2)前記遺伝子情報要約レコードの名称(name)、標識(symbol)及び説明(description)に記載された情報を収集して前記ターゲット核酸分子に対する同義語(synonym)を収集する段階を含むことができる。
【0076】
前記遺伝子情報要約レコード(gene information summary record)は、特定遺伝子に関する情報の編集物単位である。本発明の一具現例によれば、遺伝子情報要約レコードは、遺伝子の名称、タンパク質名称及び遺伝子の説明情報を含む特定遺伝子に関する情報の編集物単位である。前記遺伝子情報要約レコードは、「遺伝子情報レポート」又は「遺伝子レポート」とも呼ばれ、「遺伝子情報要約レコード」、「遺伝子情報レポート」又は「遺伝子レポート」は、本明細書において互換して使用可能である。
【0077】
図4は、UIにターゲット核酸分子の名称(ompA)及び関心有機体の名称(Chlamydophila pneumoniae)を入力した結果、NCBI(National Center for Biotechnology Information)の遺伝子データベース又は前記遺伝子データベースをダウンロードして構築した遺伝子データベースから遺伝子情報要約レコードを収集し、前記レコードにおいてターゲット核酸分子に対する同義語としてタンパク質名称が遺伝子説明(gene description)から収集されることを示す。
【0078】
本発明の一具現例によれば、前記段階(a)は、特定されたターゲット核酸分子の名称及び関心有機体の名称に基づいて、コンピュータのプロセッサが有・無線ネットワークを通じて第1データベースと通信(communication)して同義語を収集する段階であってよい。
【0079】
前記受信は、ターゲット核酸分子の名称及び関心有機体に関する情報がユーザによって直接入力されたり、ファイル形態で入力されたりして行われてよい。
【0080】
本発明の一具現例によれば、前記段階(a)は次の段階を含み得る:プロセスが、第1データベースに含まれた遺伝子レコードのうち、受信された関心有機体に関するレコードであり、前記レコードの題目、遺伝子及びタンパク質項目のうち少なくとも1つが前記受信されたターゲット核酸分子の名称と同じ遺伝子情報要約レコードをコンピュータのメモリに伝送しろとの命令語を第1データベースに送信し、前記命令語に反応して第1データベースが発送した遺伝子情報要約レコードを受信する段階、及び前記受信された遺伝子情報要約レコードの名称(name)、標識(symbol)及び説明(description)の項目に記載された情報を収集して同義語としてメモリに記憶する段階。
【0081】
前記送信及び受信は有・無線ネットワークを通じてなされてよい。
【0082】
本発明の一具現例によれば、前記段階(a)の同義語収集は、プロセスが、第1データベースに含まれた遺伝子レコードのうち、受信された関心有機体に関するレコードであり、前記レコードの題目、遺伝子及びタンパク質項目のうち少なくとも1つが前記受信されたターゲット核酸分子の名称と同じ遺伝子情報要約レコードの名称(name)、標識(symbol)及び説明(description)の項目に記載された情報をコンピュータのメモリに伝送しろとの命令語を第1データベースに送信し、前記命令語に反応して第1データベースが発送した情報を収集して同義語をメモリに記憶する方法によって実施されてよい。前記メモリに収集された同義語は、電子ファイル形態で記憶媒体に記憶されてよい。
【0083】
本発明の一具現例によれば、前記段階(a)は、ターゲット核酸分子の名称(name)、前記ターゲット核酸分子が暗号化しているタンパク質名称及び有機体(source organism)の名称を受信し、前記有機体の前記ターゲット核酸分子及びタンパク質に対する同義語(synonym)を収集する(retrieving)段階であってよい。
【0084】
本具現例によれば、ターゲット核酸分子の名称(name)及び有機体(organism)の名称の他、ユーザの知っている前記ターゲット核酸分子が暗号化しているタンパク質名称を入力することができる。
【0085】
本具現例によれば、前記段階(a)の同義語収集は、プロセスが、第1データベースに含まれた遺伝子レコードのうち、受信された関心有機体に関するレコードであり、前記レコードの題目、遺伝子及びタンパク質項目のうち少なくとも1つが前記受信されたターゲット核酸分子の名称及びタンパク質名称と同じ遺伝子情報要約レコードの名称(name)、標識(symbol)及び説明(description)の項目に記載された情報をコンピュータのメモリに伝送しろとの命令語を第1データベースに送信し、前記命令語に反応して第1データベースが発送した情報を収集して同義語をメモリに記憶する方法によって実施されてよい。
【0086】
このような方式によって収集されたターゲット核酸分子の名称及び/又はタンパク質の名称の同義語をユーザが検討し、同義語として不適であると判断される同義語を、後述する段階で考慮されないように削除してよい。
【0087】
段階(b):核酸レコードに含まれた核酸配列データを収集(120)
その後、本発明の方法は、(b)核酸レコードに含まれた核酸配列データを収集する段階を含む。前記核酸レコードのそれぞれは、前記関心有機体に関するものであり、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つが記載されているディスクリプタ(descriptor)を含む。
【0088】
本発明によれば、前記段階(b)で収集した核酸配列データは、後述するように、分類学的代表配列及びグループ代表配列を選定するために利用するだけで、オリゴヌクレオチドのデザインに用いられるターゲット核酸分子に対するターゲット核酸配列データセットとして提供されることはない。
【0089】
本発明の一具現例によれば、前記段階(b)の核酸配列データは、前記ターゲット核酸分子の一部又は全部に対応する核酸配列データ又は前記ターゲット核酸分子に対する変異核酸配列データを含む。
【0090】
前記ターゲット核酸分子に対する変異核酸配列データは、ターゲット核酸分子のターゲット核酸配列と比較して1以上のヌクレオチドが置換、欠失及び/又は追加されたヌクレオチド配列を含む核酸配列データを表す。
【0091】
本発明の一具現例によれば、前記核酸レコードに含まれた核酸配列データは第2データベースから収集される。
【0092】
上述した第1データベースと区別される第2データベースは、様々な核酸分子の核酸配列データを収集して分類して記憶しているヌクレオチドデータベースのことを指し、前記第2データベースは、「ヌクレオチドデータベース」、「核酸配列データベース」又は「核酸情報集合体」と本明細書において互換して使用可能である。
【0093】
前記第2データベースは核酸レコードを含む。前記核酸レコードは、核酸分子に対する核酸配列データ及びディスクリプタとして前記核酸配列データに対するメタデータを含むことができる。ディスクリプタとして核酸配列データに対するメタデータは、核酸配列データに関する書誌的情報のことを指し、前記メタデータには、例えば核酸配列データに対するアイデンティファイア、該当の核酸分子を含む有機体情報、キーワード、前記核酸配列データが公開された論文など、レファレンス(reference)に関する情報が含まれてよい。
【0094】
前記核酸レコードは、「核酸レポート」又は「核酸情報レポート」と命名されてよく、本明細書において、「核酸レコード」、「核酸レポート」又は「核酸情報レポート」は、互換して使用可能である。
【0095】
本明細書において、ディスクリプタは、特定核酸配列データを説明又は識別する項目のことを指す。前記ディスクリプタは、特定核酸配列データに対するメタデータ(meta data)であり、具体的には、特定核酸配列データが含まれた核酸レコードの全ての項目(field)であってよい。より具体的には、前記ディスクリプタは、name、definition、keywords、source organism及びreference-titleを含んでよい。
【0096】
前記第2データベースは、直接に構築されたデータベース、又はユーザが制限された非公開ヌクレオチドデータベースであってよい。又は、前記第2データベースは、公開されたものであってよい。前記公開された第2データベースは、国家又は公共機関で運営するものの他、企業、教育機関、研究所などで構築したもののいずれを含んでもよい。本発明の一具現例によれば、前記第2データベースは、GenBank、EMBL及びDDBJから構成された群から選ばれる公衆-接近可能なヌクレオチドデータベース又は前記公衆-接近可能なヌクレオチドデータベースをダウンロードして構築したヌクレオチドデータベースであってよい。本発明の他の具現例によれば、前記第2データベースは、NCBIのGenBank(STS、EST、GSS、SNP、TSA、PAT、WGS及びnon-WGSデータベース含む。)、RefSeq、DDBJ及びEMBLデータベースを含むヌクレオチドデータベース、又は前記ヌクレオチドデータベースをダウンロードして構築したヌクレオチドデータベースであってよい。
【0097】
本発明において、第1データベースと第2データベースは同一機関のものを用いてもよく、又は、互いに異なる機関から提供されるデータベースを用いてもよい。
【0098】
本発明の一具現例によれば、前記段階(b)の核酸配列データの収集は、次の段階を含む方法によって実施される:
(b-1)核酸レコードのアイデンティファイア(identifier)を収集する段階;前記核酸レコードのそれぞれは前記関心有機体に関するものであり、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つが記載されているディスクリプタ(descriptor)を含み、及び
(b-2)前記アイデンティファイアによって特定される核酸配列データを収集する段階。
【0099】
段階(b-1):核酸レコードのアイデンティファイアを収集
本発明の一具現例によれば、前記核酸レコードのアイデンティファイアは第2データベースから収集される。
【0100】
本発明において、アイデンティファイアは特定核酸配列データを識別するために用いられるデータである。前記アイデンティファイアとして用いられるデータは、文字、数字又はそれらの組合せなど、その形式に特に制限がない。同じ核酸配列データに対してデータベースごとに異なるアイデンティファイアが割り当てられてよい。前記アイデンティファイアの例には、accession number、accession version又はGI numberがある。
【0101】
本発明の一具現例によれば、前記第2データベースは、核酸配列データ及び前記核酸配列データに対するアイデンティファイアとディスクリプタを含む核酸レコードを提供するデータベースであってよい。
【0102】
図5は、関心有機体がEnterobacter cloacae complexであり、ターゲット核酸分子がompXであるとするとき、核酸レコードのアイデンティファイアを第2データベースから収集することを示す。
図5からは、アイデンティファイアとしてAccession No及びGI Noを確認することができる。
【0103】
図6は、
図5のAccession:CP017990.1の題目(title)をクリックする場合に現れる核酸レコードの一部をキャプチャーした写真である。前記核酸レコードにおいてgene、CDS、/gene、/note、/productなどはディスクリプタを表す。
【0104】
本発明の一具現例によれば、前記段階(b-1)は、収集されたターゲット核酸分子の名称及びこれに対する同義語及び前記受信された有機体に関する情報に基づいて、コンピュータのプロセッサが有・無線ネットワークを通じて第2データベースと通信して、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つがディスクリプタ(descriptor)に記載されている核酸レコードのアイデンティファイアを第2データベースから収集する段階であってよい。
【0105】
本発明の一具現例によれば、前記段階(b-1)は、プロセスが、次の条件を満たす核酸レコードのアイデンティファイアをコンピュータのメモリに伝送しろとの命令語を第2データベースに送信し、前記命令語に反応して第2データベースが発送した情報を有・無線ネットワークを通じて受信してメモリに記憶する段階であってよい:(i)前記受信された関心有機体に関するレコードであること;(ii)前記受信されたターゲット核酸分子の名称又は前記収集された同義語のうち少なくとも1つがディスクリプタ(すなわち、メタデータ)に記載された核酸レコードであること。
【0106】
前記メモリに収集されたアイデンティファイアは電子ファイル形態で記憶媒体に記憶されてよい。
【0107】
本発明の一具現例によれば、前記段階(b-1)は、前記関心有機体に関するものであり、前記ターゲット核酸分子の名称、タンパク質名称及び前記収集された同義語のうち少なくとも1つがディスクリプタ(descriptor)に記載されている核酸レコードのアイデンティファイア(identifier)を収集する段階である。
【0108】
段階(b-2):アイデンティファイアによって特定される核酸配列データを収集
前記アイデンティファイアは、前記段階(b-1)で収集されたアイデンティファイアであり、ターゲット核酸分子に対するターゲット核酸配列データを表示するアイデンティファイアである。したがって、前記段階(b-2)で前記アイデンティファイアによって特定される核酸配列データは、ターゲット核酸分子に対するターゲット核酸配列データである。
【0109】
本出願人によって出願された国際公開番号WO2019/212238では、前記アイデンティファイアによって特定される核酸配列データを収集してターゲット核酸分子に対するターゲット核酸配列データセットとして提供し、オリゴヌクレオチドのデザインに利用するが、本発明によれば、前記段階(b-2)で収集した核酸配列データは、後述するように、分類学的代表配列及びグループ代表配列を選定するために利用するだけで、オリゴヌクレオチドのデザインに用いられるターゲット核酸分子に対するターゲット核酸配列データセットとして提供されることはない。
【0110】
前記収集された核酸配列データは、前記アイデンティファイアに特定される核酸配列データの全体又は一部であってよい。
【0111】
前記アイデンティファイアによって特定される核酸配列データの収集は、アイデンティファイアを用いて第2データベースから実施される。
【0112】
前記核酸配列データの収集は、第2データベースからアイデンティファイアによって特定される核酸配列自体を収集でき、又は第2データベースからアイデンティファイアによって特定される核酸レコードを収集し、これから核酸配列を抽出する方法で収集されてよい。
【0113】
本発明の一具現例によれば、前記段階(b-2)は、プロセスが、前記アイデンティファイアによって特定される核酸配列データを要請する命令語を第2データベースに送信し、前記命令語に反応して第2データベースが発送した核酸配列データを受信してメモリに記憶することができる。
【0114】
本発明の一具現例によれば、前記段階(b-2)は、前記アイデンティファイアによって特定される核酸配列データ内で前記ターゲット核酸分子に対応する(corresponding)核酸配列データを選択的に収集する。
【0115】
前記アイデンティファイアによって収集される核酸レコードはターゲット核酸分子であるターゲット遺伝子に対応する核酸配列データのみを含んでもよいが、多くの場合、ターゲット遺伝子に対する配列に加え、他の遺伝子の核酸配列データを共に含んでいてもよい。また、ターゲット核酸分子に対するターゲット核酸配列データセットを収集する目的によって、ターゲット核酸分子の一部に対応する核酸配列データのみを収集しなければならない場合がある。したがって、前記アイデンティファイアによって特定される核酸レコードの全体又は一部を収集した後に、これから目的に合うターゲット核酸分子に対応する核酸配列データを選別して収集できる。
【0116】
本発明の一具現例によれば、前記段階(b-2)は次の段階を含んでよい:(b-2-1)前記アイデンティファイアによって特定される核酸レコードを収集する段階;及び(b-2-2)前記核酸レコードからターゲット核酸分子に対応する核酸配列データを収集する段階。
【0117】
本発明の一具現例によれば、前記段階(b-2-2)は、前記核酸レコードからターゲット核酸分子に対応する核酸配列データ及び前記核酸配列データの識別情報を選択的に収集できる。
【0118】
本明細書において表現「選択的に収集」は、前記核酸レコード内の核酸配列データのうち、必要な核酸配列データのみを収集することを意味する。
【0119】
核酸レコードに含まれる核酸配列データが区別され得る複数の核酸配列データを含む場合に、当該核酸レコードは複数のサブレコードを含む。本明細書において用語「サブレコード」は、1つの核酸レコード内で区別され得る核酸配列データ及び/又はその細部項目を含むデータグループ単位である。各サブレコードは、各サブレコードに該当する核酸配列データに関する位置情報及び各サブレコードに該当する核酸配列データの説明が記載された細部項目を含む。
【0120】
本明細書において、「区別され得る核酸配列データ」は、1つの核酸レコード内に物理的又は機能的に互いに異なるものとして認識され得る2以上の核酸配列が含まれている場合に、前記2以上の核酸配列のそれぞれ及びその細部項目のことを指す。例えば、互いに異なるタンパク質を暗号化する複数の遺伝子に対する核酸配列が核酸レコードにおいて1つの核酸配列データに全て含まれている場合に、前記核酸配列データは各遺伝子に対応する部分として区別され得る。
【0121】
区別され得る複数の核酸配列データを含む1つの核酸レコードから目的の核酸配列データを選択的に収集するためには、核酸レコード内の各サブレコードに含まれているディスクリプタ(具体的には、細部項目)に基づいて当該サブレコードが有効サブレコードであるか否かを決定する。本明細書において「有効サブレコード」は、収集しようとする核酸配列データを含むか或いはそれに対する位置情報を含むサブレコードのことを指す。
【0122】
各サブレコードに含まれているディスクリプタ(具体的には、細部項目)は、各サブレコードにその位置情報が含まれた核酸配列データに関する情報が記載されている項目のことを指す。前記細部項目は、例えば、当該サブレコードが表示する遺伝子名、当該ブレコードが表示する遺伝子から生産されるタンパク質の情報(例えば、タンパク質名、タンパク質に対するアイデンティファイア)、核酸レコード提供者の記録、アミノ酸配列情報などを含むことができる。
【0123】
本発明者らは、前記サブレコードの細部項目の一部に前記収集された同義語が記載されていることを確認し、また、細部項目別に、前記収集された同義語が記載される頻度及び正確度が異なることを確認した。したがって、前記細部項目のうち一部の細部項目を選定しそれに優先順位を付与して、順次に該当細部項目に前記収集された同義語が記載されているか否かを確認することが、目的とする核酸配列データの確保に最も効率的な方法であることを見出した。
【0124】
本発明者らは、各サブレコードが表示する核酸配列データに含まれる遺伝子と当該サブレコードの細部項目のデータとを比較した結果、前記収集された同義語は、遺伝子名称に関する細部項目に最も頻繁に記載されており、続いて、タンパク質の情報に関する細部項目、核酸レコード提供者の記録に関する細部項目の順に記載されていることを確認した。したがって、このような順序で細部項目に前記収集された同義語が記載されているかを確認し、有効サブレコードを決定し、前記決定された有効サブレコードに対する核酸配列データ及びその識別情報を収集することが最も効率的であり、正確に目的とする核酸配列データを選択的に確保できる方法であることを突き止めた。
【0125】
したがって、本発明の一具現例によれば、前記核酸レコードからターゲット核酸分子に対応する核酸配列データ及び前記核酸配列データの識別情報を選択的に収集する段階は、次の段階を含んでよい:
(b-2-2-1)前記核酸レコード内の1つ以上のサブレコードのうち、あらかじめ定められた第1細部項目に前記同義語が記録されたサブレコードを有効サブレコードとして決定する段階;
(b-2-2-2)仮に、前記核酸レコード内に第1細部項目によって決定された有効サブレコードがないと、第2細部項目に前記同義語が記録されたサブレコードを有効サブレコードとして決定する段階;
(b-2-2-3)仮に、前記核酸レコード内に第2細部項目によって決定された有効サブレコードがないと、第3細部項目に前記同義語が記録されたサブレコードを有効サブレコードとして決定する段階;及び
(b-2-2-4)前記決定された1つの有効サブレコードに対する核酸配列データ及びその識別情報を収集する段階。
【0126】
本発明の他の具現例によれば、前記核酸レコードからターゲット核酸分子に対応する核酸配列データ及び前記核酸配列データの識別情報を選択的に収集する段階は、次の段階を含んでよい:
(b-2-2-1)前記核酸レコード内の1つ以上のサブレコードのうち、あらかじめ定められた第1細部項目及び第2細部項目に前記同義語が記録されたサブレコードを有効サブレコードとして決定する段階;
(b-2-2-2)仮に、前記核酸レコード内に第1細部項目及び第2細部項目によって決定された有効サブレコードがないと、第3細部項目に前記同義語が記録されたサブレコードを有効サブレコードとして決定する段階;及び
(b-2-2-3)前記決定された1つの有効サブレコードに対する核酸配列データ及びその識別情報を収集する段階。
【0127】
本発明の一具現例によれば、前記第1細部項目はサブレコード内の核酸配列の遺伝子名称に関連した細部項目であり、第2細部項目は前記遺伝子から生産されるタンパク質情報に関連した細部項目であり、第3細部項目は遺伝情報提供者の記録(note)に関連した細部項目であってよい。
【0128】
本発明の他の具現例によれば、前記核酸レコードからターゲット核酸分子に対応する核酸配列データ及び前記核酸配列データの識別情報を選択的に収集する段階は、次の段階を含んでよい:
(b-2-2-1)前記核酸レコード内の1つ以上のサブレコードのうち、あらかじめ定められた遺伝子名称に関連した第1細部項目にターゲット核酸分子名称及び/又はその同義語が記録されたサブレコード及びタンパク質情報に関連した第2細部項目に前記ターゲット核酸分子のタンパク質名称及び/又はその同義語が記録されたサブレコードを有効サブレコードとして決定する段階;
(b-2-2-2)仮に、前記核酸レコード内に第1細部項目及び第2細部項目によって決定された有効サブレコードがないと、遺伝情報提供者の記録(note)に関連した第3細部項目にターゲット核酸分子名称、前記ターゲット核酸分子のタンパク質名称及びその同義語のうち少なくとも1つが記録されたサブレコードを有効サブレコードとして決定する段階;及び
(b-2-2-3)前記決定された1つの有効サブレコードに対する核酸配列データ及びその識別情報を収集する段階。
【0129】
本具現例によれば、核酸レコード内のディスクリプタのうち、遺伝子名称に関連した第1細部項目に記載された遺伝子名称が、前記段階(a)で受信されたターゲット核酸分子の名称及び/又は前記段階(a)で収集されたターゲット核酸分子の同義語と一致し、タンパク質情報に関連した第2細部項目に記載されたタンパク質名称が、前記段階(a)で受信されたタンパク質の名称及び/又は前記段階(a)で収集されたタンパク質名称の同義語と一致する場合に、核酸レコードからターゲット核酸分子に対応する核酸配列データ及び前記核酸配列データの識別情報を選択的に収集できる。
【0130】
これにより、核酸レコード内のディスクリプタのうち、遺伝子名称、タンパク質名称及び遺伝情報提供者の記録(note)にターゲット核酸分子の名称及び収集された同義語のうち少なくとも1つが記載されている核酸配列データを収集する場合に、より一層、オリゴヌクレオチドデザインに適合したターゲット核酸配列を収集することができる。
【0131】
本発明の一具現例によれば、前記方法は、前記段階(b-2-2)後に、(b-2-2A)前記段階(b-2-2)の1つの核酸レコードで収集される核酸配列データが複数の核酸配列データである場合に、前記複数の核酸配列データのうち核酸配列データの一部又は全部が重なる核酸配列データを併合して核酸配列データを提供する段階をさらに含むことができる。
【0132】
例えば、1つの核酸レコード内に1つのターゲット核酸分子に関する複数の核酸配列データが存在することは、核酸配列データのそれぞれが前記ターゲット核酸分子に対する一部の配列である場合に該当する。言い換えると、複数の核酸配列データがそれぞれ独立して前記ターゲット核酸分子-エンコーディングタンパク質を暗号化するのてばなく、複数の核酸配列データ全体が1つのターゲット核酸分子-エンコーディングタンパク質を暗号化する。このような場合、複数の核酸配列データのそれぞれをターゲット核酸分子に対するターゲット核酸配列として用いることは不適であり、それらが併合された1つの核酸配列をターゲット核酸分子に対するターゲット核酸配列として扱うことが好ましい。例えば、同じ遺伝子に関するものであるが、ディスクリプタであるgeneに記載された位置情報は1~10であり、ディスクリプタであるCDSに記載された位置情報は2~8である場合に、本発明によれば、位置情報1~10に該当する核酸配列データ及び位置情報2~8に該当する核酸配列データがいずれも収集され得る。このように2つの核酸配列データがオリゴヌクレオチドデザイン用核酸配列データセットとして提供される場合に、同じアイデンティファイアを有する1つの核酸配列であるにもかかわらずに2つの核酸配列データが提供され、例えば、前記位置情報2~8でデザインされるオリゴヌクレオチドはターゲットカバレッジが1ではなく2になる問題点が発生する。このような問題点を解消するために、同じアイデンティファイアを有する核酸配列では、重なる部分を併合して位置情報1~10に該当する1つの核酸配列データのみを提供する。
【0133】
本明細書において用語「ターゲットカバレッジ」は、オリゴヌクレオチドの配列とマッチングされる(具体的には、100%マッチング、95%以上マッチング、90%以上マッチングなど)ターゲット核酸分子に対する複数の核酸配列の比率を意味する。
【0134】
本発明のより具体的な具現例によれば、前記段階(b-2-2A)の併合は、次の段階を含む方法によって実施される:
(b-2-2A-1)前記1つの核酸レコード内でターゲット核酸分子に対応する複数の核酸配列データのそれぞれの配列位置情報(具体的には、開始地点及び終了地点の位置情報)を収集する段階;
(b-2-2A-2)前記配列位置情報を分析し、前記複数の核酸配列データのうち配列データの一部又は全部が重なり合う核酸配列データを選別する段階;及び
(b-2-2A-3)前記選別された核酸配列データを全て含む新しい核酸配列データを生成する段階。
【0135】
上述したように、一部又は全部が重なる核酸配列データを併合した1つの核酸配列データを提供することにより、ターゲット核酸分子の一部に対するターゲット核酸配列データがそれぞれ独立したターゲット核酸分子に対するターゲット核酸配列データとして認識されてターゲット核酸配列データセットに基づく分析に統計的誤りが発生する確率を減少させることができる。
【0136】
本発明の一具現例によれば、前記段階(b)と(c)との間に、次の段階をさらに含む:
(b-3)前記収集された核酸配列データをバイオサンプル(biosample)識別記号によって整列し、同じバイオサンプル識別記号を有する核酸配列データを選別する段階;
(b-4)前記選別された核酸配列データを、次の整列基準のうち少なくとも1つを満たすように整列する段階;
(b-5)前記整列された核酸配列データの中から最上位核酸配列データの核酸配列を選定する段階;及び
(b-6)前記最上位核酸配列データ以外の核酸配列データを、前記収集された核酸配列データから除去する段階、ここで、前記整列基準は次を含む:
(i)前記選別された核酸配列データをアセンブリーレベル(assembly level)によって整列;前記アセンブリーレベルは、コンプリートゲノム(complete genome)、クロモソーム(chromosome)、スキャフォールド(scaffold)及びコンティグ(contig)順に順位が高く(すなわち、コンプリートゲノム(complete genome)の順位が最も高い)、
(ii)前記選別された核酸配列データがRefSeq(Reference Sequence)データベースに含まれるか否かによって前記選別された核酸配列データを整列;前記核酸配列データがRefSeqデータベースに含まれる場合に、含まれない場合に比べて順位が高い。
【0137】
本発明者らは、ゲノムプロジェクトによるゲノムシーケンシング過程、データベースに登録、及び登録された配列情報の確認後に他のデータベースに移管される特性を考慮して、各核酸配列に対する接近番号が異なる場合であっても、バイオサンプルに関する情報が同一であれば、ゲノムシーケンシングの進行過程によってゲノミックシーケンス(genomic sequence)のアセンブリーレベルが異なり、且つ記憶されるデータベースが異なることを確認したし、このような特性を用いて直近のゲノムシーケンシング進行過程に到達した核酸配列以外の核酸配列データを、前記段階(b)で収集された核酸配列データから除去しようとする。
【0138】
具体的には、ゲノムプロジェクト(genome project)下でゲノミックシーケンス(genomic sequence)の遺伝子及びタンパク質情報などを突き止めた者は、ヌクレオチド配列に関する情報をデータベースに登録しようとする時に、バイオプロジェクト(bioproject)及び前記ゲノミックシーケンス(genomic sequence)の収集情報に対するバイオサンプル(biosample)を入力し、前記バイオプロジェクト及びバイオサンプルは、文字及び数字を組み合わせた固有番号を有する。
【0139】
そして、ゲノムプロジェクト(genome project)によるゲノムシーケンシング(whole genome sequencing)過程においてゲノミックシーケンス(genomic sequence)を一部の配列に切ってタンパク質を暗号化する遺伝子であるか、前記タンパク質がいかなる機能をするかを確認後に、前記切った一部の配列を併合するが、このような過程で核酸配列はコンティグ(contig)、スキャフォールド(scaffold)、クロモソーム(chromosome)及びコンプリートゲノム(complete genome)の順にアセンブリーレベルを有する。すなわち、前記アセンブリーレベルの順序は、ゲノムシーケンシング過程の進行程度を表す(コンプリートゲノムのアセンブリーレベルが最も高い。)。
【0140】
また、ゲノミックシーケンス(genomic sequence)のゲノムシーケンシング過程が進行してクロモソーム(chromosome)及びコンプリートゲノム(complete genome)のアセンブリーレベルを有する場合には、最初に登録されたデータベース(例えば、NCBIのGenBank)から他のデータベース(例えば、NCBIのRefSeq)に移管される過程を経るし、アセンブリー下位レベルを有する核酸配列データは、最初に登録されたデータベースから削除される。
【0141】
ただし、NCBIのRefSeqデータベースに移管されても、NCBIのGenBankから削除されずに存在してよい。
【0142】
そして、ゲノミックシーケンス(genomic sequence)に対するこのような過程は、核酸レコード内のディスクリプタに核酸配列データに関する情報として存在し、本発明者らは、このような情報を用いて本具現例で重複配列を除去したものである。
【0143】
例えば、本発明に用いられる第2データベースにNCBIのGenBank及びRefSeqデータベースを含んでいる場合に、関心有機体のゲノミックシーケンスに対するシーケンシング過程が完了してコンプリートゲノム(complete genome)の核酸配列データがRefSeqデータベースにあるにもかかわらず、NCBIのGenBankデータベースに関心有機体のコンティグ(contig)、スキャフォールド(scaffold)及びクロモソーム(chromosome)のアセンブリーレベルの核酸レコードが依然として存在している場合に、本発明によって収集された核酸配列データには前記4種のアセンブリーレベルを有する核酸配列データを含むようになる。
【0144】
仮に、前記4種のアセンブリーレベルを有する核酸配列データがオリゴヌクレオチドのデザインに提供される場合に、同じ核酸配列であるにもかかわらずにターゲットカバレッジが4倍に増加する問題点が発生し、ゲノムシーケンシング過程においてクロモソーム(chromosome)レベルで配列情報が修正され、コンプリートゲノム(complete genome)レベルに、修正された配列情報が反映され、前記配列情報が修正された部分でオリゴヌクレオチドをデザインする場合に、前記配列情報が修正された位置に縮退性塩基(degenerate base)を導入しなければならないなどの問題が発生し得る。
【0145】
この場合、前記4種のアセンブリーレベルに該当する核酸配列データが、同一のバイオサンプルに関する情報を有する同一の有機体に対する核酸配列データであることを用いると、上述した問題点が発生しないように重複配列を除去することができる。
【0146】
前記段階(b-3)のバイオサンプル(biosample)識別記号は、バイオサンプル固有番号を表し、前記(ii)で核酸配列データがRefSeq(Reference Sequence)データベースに含まれる場合には、核酸レコードに固有番号が与えられる。
【0147】
本具現例によって重複する配列を除去することにより、オリゴヌクレオチドをデザインする際にターゲットカバレッジの側面及び縮退性塩基(degenerate base)の導入と関連した時間及び費用の側面で改善が図られる。
【0148】
段階(c):分類学的代表配列を選定(130)
そして、本発明の方法は、(c)前記収集された核酸配列データを分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)によって整列し、同じ分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)を有する核酸配列データの中から分類学的代表配列を選定する。
【0149】
本明細書において用語「分類学的名称(Taxonomic name)」は、生物学的分類体系によって分類された有機体の学名(scientific name)を意味し、本明細書において用語「分類学的識別記号(Taxonomic ID)」は、前記分類学的名称に与えられた数字を表す。分類学的識別記号は、例えば、NCBIから検索された核酸レコードの有機体情報とNCBIのTaxonomy databaseと連動しており、Taxonomy viewerから確認でき、また、NCBIから検索された核酸レコードのtaxon項目から確認できる。
【0150】
前記収集された核酸配列データを分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)によって整列する。
【0151】
そして、前記分類学的名称及び/又は分類学的識別記号によって整列された核酸配列データのうち同一の分類学的名称及び/又は分類学的識別記号を有する核酸配列データを分類し、それらの中から分類学的代表配列を選定する。
【0152】
本発明の一具現例によれば、前記段階(c)の分類学的代表配列の選定は、次の段階を含む方法によって実施される:
(c-1)前記同じ分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)を有する核酸配列データを、次の所定の整列基準のうち少なくとも1つを満たすように整列する段階;及び
(c-2)前記整列された核酸配列データの中から最上位核酸配列データの核酸配列を分類学的代表配列として選定する段階、ここで、前記所定の整列基準は次を含む:
(i)前記核酸配列データのアセンブリーレベル(assembly level)によって整列;前記アセンブリーレベルは、コンプリートゲノム(complete genome)、クロモソーム(chromosome)、スキャフォールド(scaffold)及びコンティグ(contig)の順に順位が高く(すなわち、コンプリートゲノムの順位が最も高い。)、
(ii)前記核酸配列データがRefSeq(Reference Sequence)データベースに含まれるか否かによって整列;前記核酸配列データがRefSeqデータベースに含まれる場合に、含まれない場合に比べて順位が高く、
(iii)前記核酸配列データを含む核酸レコードのディスクリプタに記載されている核酸分子の名称が前記受信されたターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つと一致しているか否かによって整列;一致する場合が一致しない場合に比べて順位が高く、
(iv)前記核酸配列データの長さによって整列;前記長さが長いほど順位が高く、
(v)前記核酸配列データを含む核酸レコードのディスクリプタにホスト(host)が記載されたか否かによって整列;前記ホストに関心有機体に対する関心ホストが記載されている場合が、記載されていない場合に比べて順位が高く、前記記載されていない場合が、前記関心ソース有機体と他の有機体がホストに記載されている場合に比べて順位が高く、
(vi)前記核酸配列データを含む核酸レコードの登録日又は修正日によって整列;前記登録日又は修正日が最新日であるほど順位が高く、
(vii)前記核酸配列データの接近番号(Accession No)のアルファベットによって整列;前記接近番号のアルファベットの順序が早いほど順位が高い。
【0153】
本具現例によれば、前記同じ分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)を有する核酸配列データを少なくとも1個(具体的には、(i)番の整列基準)、具体的には少なくとも2個、より具体的には少なくとも3個、少なくとも4個、少なくとも5個又は少なくとも6個、最も具体的には7個の順位を考慮した整列基準を満たすように核酸配列データを整列する。
【0154】
本発明の一具現例によれば、前記少なくとも2個の整列基準は、重要度(criticality)に相違があり、本発明の方法は前記重要度を考慮した前記少なくとも2個の整列基準を満たすように核酸配列データを整列する段階をさらに含む。
【0155】
分類学的代表配列を選定するために、同一の分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)を有する核酸配列データを整列する方法には、大きく2つの方式があり得る:
第一の方式によれば、前記少なくとも2個の整列基準は、重要度(criticality)に相違があり、重要度の最も高い整列基準(例えば、(i)番の整列基準)を満たすように核酸配列データを整列できる。
【0156】
仮に、重要度の最も高い整列基準を満たす核酸配列データが複数個である場合に、次順位整列基準を満たすように核酸配列データを整列できる。
【0157】
例えば、整列基準の重要度が(i)、(ii)、(iii)、(iv)、(v)、(vi)及び(vii)の順序である場合に、(i)番の整列基準を満たす核酸配列データが3個であれば、この3個の核酸配列データを(ii)番の整列基準によって整列する。仮に、(ii)番の整列基準を満たす核酸配列データが3個であれば、(iii)番の整列基準を満たすように核酸配列データを整列する。
【0158】
第二の方式によれば、整列基準に互いに異なるウェイト(weight)をかけ、それぞれの整列基準における値(又は、値の範囲)にスコアを割り当て、それに対する順位を考慮すると、それぞれの核酸配列データの総スコアを得ることができ、この計算された総スコアを考慮して、核酸配列データを整列でき、総スコアによる順位を用いて最上位の核酸配列データを分類学的代表配列として選定することができる。
【0159】
図7は、関心有機体(Enterobacter cloacae complex)のターゲット核酸分子の名称(ompX)及び同義語(synonyms)(outer membrane protein)を用いて、収集されたアイデンティファイアによって特定される核酸配列データを収集し、同じ分類学的識別記号を有する核酸配列データの中から、前記整列基準によって核酸配列データを整列し、上述した第一の方式によって分類学的代表配列を選定する過程を示す。
【0160】
図7を参照すると、収集された核酸配列データは、分類学的識別記号(Taxonomic ID;Taxid)が550と、同一である。整列基準は、(i)~(vii)の順序に重要度を有する。まず、整列基準(i)の核酸配列のアセンブリーレベル(assembly level)によって整列し(アセンブリーレベルが高いほど順位が高い。)、整列基準(ii)のRefSeq(Reference Sequence)データベースに含まれるか否かによって整列し(RefSeqデータベースに含まれる場合に固有番号を有する。)、整列基準(iii)の核酸レコードのディスクリプタに記載されている核酸分子の名称が前記受信されたターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つと一致しているか否かによって整列し(核酸レコードのディスクリプタに記載されている核酸分子の名称及びタンパク質名称が一致、タンパク質名称が一致、そして核酸分子の名称が一致する順に順位が高い。)、整列基準(iv)の核酸配列の長さによって整列し(長さが長いほど順位が高い。)、整列基準(v)の核酸レコードのディスクリプタにホスト(host)が記載されたか否かによって整列し(ホストにホモサピエンスが記載されている場合、ホストに有機体が記載されていない場合、そしてホストにホモサピエンス以外の有機体が記載された場合の順に順位が高い。)、整列基準(vi)の核酸レコードの登録日又は修正日によって整列し(最新日であるほど順位が高い。)、整列基準(vii)の核酸配列の接近番号(Accession No)のアルファベットによって整列(アルファベットの順序が早いほど順位が高い。)する。
【0161】
その結果、接近番号CP040827.1を有する核酸配列データが最上位を示したし、このように最上位を示す核酸配列データを分類学的代表配列として選定する。
【0162】
前記段階(b)で収集された核酸配列データに関心有機体と同じ学名(同じ分類学的名称又は分類学的識別記号)を有する核酸配列データのみ含まれた場合には、1つの分類学的代表配列が選定されてよい。
【0163】
本発明の一具現例によれば、前記分類学的代表配列は、前記収集された核酸配列データから1つ以上選定されてよい。
【0164】
前記段階(b)で収集された核酸配列データに、関心有機体と同じ学名(同じ分類学的名称又は分類学的識別記号)の他にも、生物学的分類体系において前記関心有機体の上位又は下位、そして前記関心有機体と異なる学名(分類学的名称又は分類学的識別記号)を有する有機体の核酸配列データが含まれた場合には、複数の分類学的代表配列が選定されてよい。すなわち、有機体の学名(分類学的名称又は分類学的識別記号)別にそれぞれ分類学的代表配列が選定される。
【0165】
本発明の一具現例によれば、前記分類学的代表配列は、次の所定の長さ基準を満たす:前記段階(b)で収集された核酸配列データのうち、コンプリートゲノム及び/又はクロモソームアセンブリーレベル(assembly level)を有する核酸配列長の中間値の所定の範囲内。前記所定の範囲は特に限定されないが、例えば、前記中間値の±2%、4%、5%、10%、15%、20%、25%又は30%(bp、mer又はヌクレオチド長)であってよい。
【0166】
段階(d):グループ代表配列を選定(140)
その後、本発明の方法は、(d)前記選定された分類学的代表配列を相同性によってグループ化(grouping)し、各グループからグループ代表配列を選定する。
同義語収集及びこれに基づいて確保された核酸配列データは名称に基づいて検索したものであるので、核酸配列間変異が激しく、相互間配列の一致度が低い配列も収集可能であるという長所がある。しかし、第2データベース(具体的には、ヌクレオチドデータベース)に記録される当時に核酸分子の名称が確定されないか、登録者の過ちなどにより、知られたターゲット核酸分子の名称又はその同義語以外の名称で登録された配列は、たとえ実際に当該核酸配列がターゲット核酸分子に対するターゲット核酸配列であっても収集されないことがある。
【0167】
このような点を補強するために、従来方法(WO2019/212238)は、関心有機体の前記ターゲット核酸分子に対する同義語(synonyms)に基づいて核酸配列データを収集し、前記収集された核酸配列データを配列長にしたがって整列し、最も長い配列長を有する核酸配列を代表配列として決定し、前記代表配列と前記収集された核酸配列データを相同性によってグループ化し、各グループにおいて最も長い配列を有する核酸配列データをグループ代表配列と決定した後、該決定されたグループ代表配列と所定の値以上の相同性を有する核酸配列データを追加して各グループ別に核酸配列データを補充した後、前記同義語に基づいて収集された核酸配列データに、前記グループ代表配列によって補充された核酸配列データを追加し、オリゴヌクレオチドのデザインに用いられる核酸配列データセットとして提供した。
【0168】
このような過程で提供された核酸配列データセットをアラインメントファイル形態で提供した結果、
図2から確認できるように、複数の核酸配列データのアラインメント結果が正しく形成されておらず、これをオリゴヌクレオチドをデザインするのに利用するためには、分析者らがアラインメント結果を見てグループ代表配列の登載誤りなどを検討しなければならない問題点があった。
【0169】
そして、本発明者らは、前記アラインメント結果を検討した結果、上述した従来方法によって選定されたグループ代表配列により、収集された核酸配列データのアラインが正しく形成されないことを確認した。
【0170】
そこで、本発明者らは、同義語で収集された配列を分類学的名称及び/又は分類学的識別記号によって整列し、同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データを分類学的代表配列と選定し、前記分類学的代表配列を相同性によってグループ化し、それからグループ代表配列を選定した結果、収集された核酸配列データのアラインメント結果が正しく形成されることを確認した。
【0171】
本発明によれば、グループ代表配列を選定するために、前記選定された分類学的代表配列を相同性によってグループ化(grouping)する。
【0172】
本明細書において用語「相同性(homology)」は、2つ以上の核酸配列間の相対的、位置的、構造的に同一又は類似である状態のことを指す。相同性は、2つの核酸配列間の類似性又は一致性の程度を数値化して表示されてよく、具体的には、比率(パーセンテージ)で表現されてよい。
【0173】
具体的には、前記相同性(homology)は、一致度(identity)又は類似度(similarity)であってよい。本明細書において用語「一致度(identity)」は、比較される2つの配列の特定位置の塩基が互いに同一であるか否かによって決定される。本明細書において用語「類似度(similarity)」は、比較される2つの配列の特定位置の塩基の特性を考慮して、互いに同一の塩基であるか、互いに異なるが、類似の特性を有する塩基であるか、互いに異なる特性を有する塩基であるかを区別し、それを定量的に換算して決定される。
【0174】
本明細書において、相同性を表現する上で使われる用語「一致度」及び「類似度」は互換して使用可能であり、具体的には、相同性が一致度と表現されてよい。
【0175】
例えば、仮に、2つの核酸配列のヌクレオチドが完全に同一であれば、これらの相同性は100%である。前記2つの核酸配列間に互い同一でないヌクレオチドが存在すれば、前記相同性を示すパーセンテージ(%)の数値は減少する。一般に、相同性は、2つの核酸配列間の一致性(identity)の程度を定量したものであってよい。相同性程度は、比較のためにアライン(align)されている各配列の特定位置(position)を比較して決定できる。仮に、比較される2つの配列の特定位置の塩基が同一であれば、この2つの核酸配列は当該位置において相同性がある。2つの配列間の相同性程度(degree of homology)は、2つの配列が共有する相同性ある位置の個数に対する比率で計算されてよい。
【0176】
本明細書において用語「アライン(align)又はアラインメント(alignment)」は、相同性を有する分子配列を併置させる一連の技術のことを指す。前記配列のアラインメント及び相同性値の計算は、当業界に知られたソフトウェアによって決定されてよく、アラインメントに対する様々な方法及びアルゴリズムはSmith and Waterman,Adv.Appl.Math.2:482(1981);Needleman and Wunsch,J.Mol.Bio.48:443(1970);Pearson and Lipman,Methods in Mol.Biol.24:307-31(1988);Higgins and Sharp,Gene 73:237-44(1988);Higgins and Sharp,CABIOS5:151-3(1989);Corpet et al.,Nuc.Acids Res.16:10881-90(1988);Huang et al.,Comp.Appl.BioSci.8:155-65(1992) and Pearson et al.,Meth.Mol.Biol.24:307-31(1994)に開示されている。NCBI Basic Local Alignment Search Tool(BLAST)(Altschul et al.,J.Mol.Biol.215:403-10(1990))は、NCBI(National Center for Biological Information)などから接近可能であり、インターネット上でblastn、blastp、blasm、blastx、tblastn and tblastxのような配列分析プログラムと連動して利用可能である。BLASTは、http://www.ncbi.nlm.nih.gov/BLAST/から接続可能である。このプログラムを用いた配列類似性比較方法は、http://www.ncbi.nlm.nih.gov/BLAST/blast_help.htmlから確認できる。
【0177】
前記段階(c)で選定された分類学的代表配列が1つである場合には、前記選定された分類学的代表配列がグループ代表配列となる。
【0178】
前記段階(c)で選定された分類学的代表配列が2つ以上である場合には、前記選定された分類学的代表配列を相同性によってグループ化し、各グループからグループ代表配列を選定する。
【0179】
グループ代表配列はグループを代表する配列であり、前記選定された分類学的代表配列をグループ化する相同性は特に限定されないが、あらかじめ相同性基準値を決定して適用できる。
【0180】
前記相同性基準値は、ターゲット核酸分子の特性によって決められてよい。例えば、ターゲット核酸分子の範囲によって変わってよい。例えば、ターゲット核酸分子が特定種に特異的であるか、特定亜種に特異的であるかによって、相同性基準値の数値が変わってよい。又は、前記相同性基準値は、検出対象であるターゲット核酸分子の変異程度によって変わってよい。具体的には、10%、20%、30%、40%、50%、60%、70%、80%又は90%以上、又は100%であってよく、より具体的には、前記相同性基準値は50%、60%、70%、80%又は90%以上、又は100%であってよい。代案として、前記相同性基準値は、70%~100%、80%~100%、又は90%~100%の範囲で決定されてよい。
【0181】
前記選定された分類学的代表配列を相同性によってグループ化(grouping)し、グループ代表配列を選定する過程は、公知のプログラム(例えば、UCLUST)によって実施されてよい。
【0182】
本発明の一具現例によれば、前記段階(d)のグループ代表配列の選定は、次の段階を含む方法によって実施される:
(d-1)前記選定された分類学的代表配列を、次の所定の整列基準のうち少なくとも1つを満たすように整列する段階;
(d-2)前記整列された分類学的代表配列の中から最上位分類学的代表配列を選定する段階;及び
(d-3)前記最上位分類学的代表配列と所定の値以上の相同性を有する分類学的代表配列をグループ化し、各グループにおいて前記最上位分類学的代表配列をグループ代表配列として選定する段階、ここで、前記整列基準は次を含む:
(i)前記選定された分類学的代表配列のアセンブリーレベル(assembly level)によって整列;前記アセンブリーレベルは、コンプリートゲノム(complete genome)、クロモソーム(chromosome)、スキャフォールド(scaffold)及びコンティグ(contig)の順に順位が高く、
(ii)前記選定された分類学的代表配列と同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの個数;前記個数が大きいほど順位が高く、
(iii)前記選定された分類学的代表配列を含む核酸レコードのディスクリプタにホスト(host)が記載されたか否かによって整列;前記ホストに関心有機体に対する関心ホストが記載されている場合が、記載されていない場合に比べて順位が高く、前記記載されていない場合が、前記関心ホストと異なる有機体がホストに記載されている場合に比べて順位が高く、
(iv)前記選定された分類学的代表配列の接近番号(Accession No)のアルファベットによって整列;前記接近番号のアルファベットの順序が早いほど順位が高い。
【0183】
分類学的代表配列の選定に対する具現例において、同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列デートの整列基準に対する説明のうち、重要度及びウェイトに関連した説明は、グループ代表配列の選定と関連した整列基準に対しても同一に適用可能である。
【0184】
分類学的代表配列のグループ化を説明する上で使用した相同性基準値に対する説明は、前記段階(d-3)の所定の値以上の相同性に対しても同一に適用可能である。
【0185】
本具現例の段階(d-1)によれば、前記選定された分類学的代表配列を少なくとも1個(具体的には、(i)番の整列基準)、具体的には少なくとも2個、より具体的には少なくとも3個、最も具体的には4個の順位を考慮した整列基準を満たすように分類学的代表配列を整列する。
【0186】
本発明の一具現例によれば、前記少なくとも2個の整列基準は重要度(criticality)に相違があり、本発明の方法は、前記重要度を考慮した前記少なくとも2個の整列基準を満たすように分類学的代表配列を整列する段階をさらに含む。
【0187】
本具現例の段階(d-2)によれば、前記整列された分類学的代表配列の中から最上位分類学的代表配列を選定する。
【0188】
本具現例の段階(d-3)によれば、前記最上位分類学的代表配列と所定の値以上の相同性を有する分類学的代表配列をグループ化し、前記最上位分類学的代表配列をグループ代表配列として選定する。
【0189】
前記選定された分類学的代表配列間の相同性の相違によって前記選定された分類学的代表配列は複数のグループにグループ化され、これによって複数のグループ代表配列が選定され得る。
【0190】
複数のグループ代表配列が選定される場合に、グループ代表配列相互間の相同性は、前記グループ化する時の前記相同性基準値よりも低い。2つのグループの代表配列間の相同性が相同性基準値以上になる場合に、前記2つのグループの代表配列は同一のグループに属しなければならない配列である。
【0191】
複数のグループ代表配列が選定される場合に、複数のグループ代表配列は次の条件を満たすように選定されてよい:
(i)全てのグループ代表配列は、自分の属したグループの分類学的代表配列と相同性基準値以上の相同性を有すること;及び
(ii)グループ代表配列間の相同性は前記(i)の相同性基準値未満の相同性を有すること。
【0192】
分類学的代表配列のグループ化を説明する上で使用した相同性基準値に対する説明は、前記(i)の相同性基準値以上の相同性に対しても同一に適用可能である。
【0193】
複数のグループ代表配列が選定される程度に相同性の相違がある複数の分類学的代表配列が含まれる場合には、次の方法がさらに実施されてよい。
【0194】
本発明のより具体的な具現例によれば、前記方法は次の段階をさらに含む:(d-4)前記選定された分類学的代表配列から前記グループ代表配列及び前記グループ代表配列のグループに含まれた分類学的代表配列を除外した残り分類学的代表配列から最上位分類学的代表配列を選定する段階;及び、(d-5)前記(d-4)の最上位分類学的代表配列を前記段階(d-3)の最上位分類学的代表配列に取り替えて前記段階(d-3)を実施する段階;そして、さらに、グループ化する分類学的代表配列が存在する場合に、前記段階(d-4)及び(d-5)を反復する。
【0195】
段階(e):オリゴヌクレオチドのデザイン用核酸配列データセットを提供(150)
最後に、本発明の方法は、(e)前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを収集して前記オリゴヌクレオチドのデザイン用核酸配列データセットとして提供する。
【0196】
本発明によれば、関心有機体のターゲット核酸分子の名称及び/又は同義語で核酸配列データを収集し、これから分類学的代表配列及びグループ代表配列を選定した後、前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを収集して前記オリゴヌクレオチドのデザイン用核酸配列データセットとして提供する。
【0197】
前記グループ代表配列が2以上である場合には、各グループ代表配列に対して所定の値以上の相同性を有する核酸配列データをそれぞれ収集して前記オリゴヌクレオチドのデザイン用核酸配列データセットとして提供する。
【0198】
前記相同性の所定の値以上は特に限定されないが、例えば、10%、20%、30%、40%、50%、60%、70%、80%、90%以上、又は100%の相同性であってよい。具体的には、40%、50%、60%、70%、80%、90%以上、又は100%の相同性であってよく、より具体的には40%、50%、60%、70%又は80%以上であってよい。代案として、10%~100%の範囲内で選択でき、より具体的には40%~100%の範囲内で選択でき、さらに具体的には40%、50%、60%、70%又は80%の範囲内で選択できる。
【0199】
本発明の一具現例によれば、前記所定の値以上の相同性を有する核酸配列データは第2データベースから収集される。
【0200】
前記段階(b)における第2データベースに対する説明は本段階にも同一に適用可能であり、それらに共通する内容は、反復記載による本明細書の過度な複雑性を避けるためにその記載を省略する。
【0201】
前記収集は、当業界に知られたソフトウェア(例えば、BLAST)を用いて実施することができる。
【0202】
前記提供は、当業界に知られた様々なデータ提供方法によって実施されてよい。例えば、出力装置又はディスプレイ装置を通じてユーザにとってデータ内容を直接認知できる状態に露出させる方法で提供されてもよく、又は、記録装置によってデータがユーザの目的とするデータ記憶媒体に記憶される方法でユーザに提供されてもよく、有線又は無線データ伝送が可能なネットワーク装置を通じてユーザの目的とする装置にデータを伝送する方法で提供されてもよい。
【0203】
本発明の一具現例によれば、前記提供されたオリゴヌクレオチドのデザイン用核酸配列データセットは、前記核酸配列データセット及び前記核酸配列データに関する情報を含む核酸配列データセットの目録(list)及び/又は前記核酸配列データセットがアラインされたアラインメント結果である。
【0204】
前記核酸配列データに関する情報は、前記核酸配列データを含む核酸レコードに記載された全ての情報を含む情報を表し、例えば、前記核酸配列データの接近番号(Accession No.)、前記核酸配列データが含まれるグループ番号、前記核酸配列データにおける遺伝子の位置情報、有機体名称(又は、分類学的名称)、分類学的識別記号(Taxonomic ID)、遺伝子名称、タンパク質名称、相同性情報などを含む。
【0205】
前記核酸配列データセットがアラインされたアラインメント結果は、当業界に公知された様々なアラインメントプログラムを用いてアラインされたアラインメント結果を表し、前記アラインメント結果は、アラインメントプログラムから提供するファイル形態で提供される。
【0206】
前記段階(c)におけるアラインメントに対する様々な方法及びアルゴリズムに対する説明は本段階にも同一に適用されてよく、それらに共通する内容は、反復記載による本明細書の過度な複雑性を避けるためにその記載を省略する。
【0207】
本発明の一具現例によれば、前記方法は、前記段階(e)後に、次の段階をさらに含む:
(e-1)前記提供されたデザイン用核酸配列データセットをバイオサンプル(biosample)識別記号によって整列し、同じバイオサンプル識別記号を有する核酸配列データを選別する段階;
(e-2)前記選別された核酸配列データを、次の整列基準のうち少なくとも1つを満たすように整列する段階;
(e-3)前記整列された核酸配列データの中から最上位核酸配列データの核酸配列を選定する段階;及び
(e-4)前記最上位核酸配列データ以外の核酸配列データを前記デザイン用核酸配列データセットから除去する段階、ここで、前記整列基準は次を含む:
(i)前記提供されたデザイン用核酸配列データセットに含まれた核酸配列をアセンブリーレベル(assembly level)によって整列;前記アセンブリーレベルは、コンプリートゲノム(complete genome)、クロモソーム(chromosome)、スキャフォールド(scaffold)及びコンティグ(contig)の順に順位が高く(すなわち、コンプリートゲノム(complete genome)の順位が最も高い。)、
(ii)前記提供されたデザイン用核酸配列データセットに含まれた核酸配列がRefSeq(Reference Sequence)データベースに含まれるか否かによって整列;前記核酸配列データがRefSeqデータベースに含まれる場合に、含まれない場合に比べて順位が高い。
【0208】
本具現例は、前記段階(b)と(c)との間に実施される段階(b-3)~(b-6)に対する説明が同一に適用されてよく、両具現例に共通する内容は、反復記載による本明細書の過度な複雑性を避けるためにその記載を省略する。
【0209】
前記段階(b-3)~(b-6)によって実施される重複配列の除去は、関心有機体に対するターゲット核酸分子の名称及び/又はそれらの同義語で収集される核酸配列データを対象に実施されるが、本具現例による重複配列の除去は、前記段階(e)で提供されたオリゴヌクレオチドのデザイン用核酸配列データセットを対象に実施する。
【0210】
また、本具現例は、重複配列を除去するという点から、後述する段階(f)で提供されるターゲット核酸配列データセット又は段階(g)で提供される非ターゲット核酸配列データセットを重複配列の除去対象にして重複配列を除去することができる。
【0211】
本具現例によって重複配列を除去することにより、オリゴヌクレオチドをデザインする際にカバレッジの側面及び縮退性塩基(degenerate base)の導入と関連した費用の側面で改善が図られる。
【0212】
本発明の方法によって提供されるオリゴヌクレオチドのデザイン用核酸配列データセットは、前記受信された関心有機体に関する核酸配列データ及び/又は前記受信された関心有機体に関するものでない核酸配列データを含む。
【0213】
本明細書において、オリゴヌクレオチドのデザイン用核酸配列データセットのうち関心有機体に関する核酸配列データセットは、ターゲット核酸分子に対するターゲット核酸配列データセットを表し、前記オリゴヌクレオチドのデザイン用核酸配列データセットのうち関心有機体に関するものでない核酸配列データセットは、非ターゲット核酸分子に対する非ターゲット核酸配列データセットを表す。
【0214】
関心有機体のターゲット核酸分子を増幅又は検出するために用いられるオリゴヌクレオチドは、次の2つのデザイン要件を満たさなければならない:第一に、関心有機体のターゲット核酸分子の配列類似性を有する複数のターゲット核酸配列を極力高いターゲットカバレッジで検出可能でなければならない。第二に、関心有機体でない他の有機体の核酸分子を検出しなくてはならない。
【0215】
このような2つの要件を満たすオリゴヌクレオチドをデザインするために提供される核酸配列データセットのうち、前記第一の要件のためにはターゲット核酸分子に対するターゲット核酸配列データセットが提供され、前記第二の要件のためには非ターゲット核酸分子に対する非ターゲット核酸配列データセットが提供される。
【0216】
段階(f):ターゲット核酸分子に対するターゲット核酸配列データセットを提供
本発明の一具現例によれば、前記方法は、(f)前記段階(e)で提供される核酸配列データセットのうち、前記受信された関心有機体に関する核酸配列データをターゲット核酸分子に対するターゲット核酸配列データセットとして提供する段階をさらに含む。
【0217】
関心有機体のターゲット核酸分子の名称及び/又はその同義語を用いたターゲット核酸配列の収集は、核酸配列登録後に核酸配列の名称が変更されたり、或いは核酸配列登録者の過ちによって核酸配列に関する情報が誤記載又は欠落する場合に、当該核酸配列の収集が不可能である。グループ代表配列と所定の値以上の相同性を有する核酸配列データのうち、前記受信された関心有機体に関するターゲット核酸配列データセットとして提供する方法は、上のような理由でターゲット核酸配列データが欠落する問題点を解決することができる。
【0218】
前記受信された関心有機体に関する核酸配列データは、前記段階(a)で受信された関心有機体の名称又はその同義語、又は分類学上で前記受信された関心有機体の下位分類に属する有機体の名称又はその同義語が前記核酸配列データの有機体として記載されている核酸配列データを意味する。しかし、前記受信された関心有機体に関する核酸配列データには分類学上で前記受信された関心有機体の上位分類に属する有機体の名称又はその同義語が前記核酸配列データの有機体として記載されている核酸配列データを意味することはない。
【0219】
本具現例によれば、前記グループ代表配列と所定の値以上の相同性を有する核酸配列データをヌクレオチドデータベースから収集した後、前記収集された配列の有機体に関する情報を前記ターゲット核酸分子の関心有機体に関する情報と比較して、ターゲット核酸分子に対するターゲット核酸配列データセットを提供できる。
【0220】
前記有機体に関する情報は、各核酸配列に対する核酸レコードの題目(title)又はディスクリプタであり、organismに記載された有機体の学名又は分類学的名称(Taxonomic name)、又は前記有機体の学名又は分類学的名称に与えられている分類学的識別記号(Taxonomic ID)であってよい。
【0221】
前記提供は、前記収集された核酸配列データの有機体に関する情報が前記ターゲット核酸分子の関心有機体に関する情報と同一であるか、前記ターゲット核酸分子の関心有機体の下位有機体に関する情報と同一である場合に、前記収集された核酸配列データをターゲット核酸分子に対するターゲット核酸配列データセットに含まれる核酸配列データとして提供できる。
【0222】
本具現例によれば、同義語収集過程で一部の同義語が欠落したり、最初配列登録時にターゲット核酸分子の名称が誤記載されたりして名称ベース配列収集時に含まれなかった配列を収集することができる。
【0223】
本明細書において、「ターゲット核酸配列」は、最終的に検出しようとする核酸分子であるターゲット核酸分子に関連した配列(sequence)を意味する。前記ターゲット核酸配列は、前記ターゲット核酸分子に対応する全体又はその一部の核酸配列を含み得る。
【0224】
特定生物体群(group)が保有している共通の特定遺伝子に対する核酸配列は、各個体別に同一であってもよく、互いに異なってもよい。したがって、ターゲット核酸分子が、特定生物体群(group)が保有している共通の特定遺伝子を表す場合に、前記ターゲット核酸分子に対応する核酸配列は、1つのヌクレオチド配列順序と確定されることがない。言い換えると、1つのターゲット核酸分子に対してヌクレオチドの配列順序が互いに異なる複数のターゲット核酸配列データが存在し得る。
【0225】
ターゲット核酸配列データセットは、ターゲット核酸配列データの集合を意味する。言い換えると、ターゲット核酸配列データセットは、ターゲット核酸分子のヌクレオチドの配列順序に関する情報の集合をいう。上述したように、1つのターゲット核酸分子に対してヌクレオチドの配列順序が互いに異なる様々なターゲット核酸配列データが存在し得る。
【0226】
したがって、本発明の一具現例によれば、前記ターゲット核酸分子に対するターゲット核酸配列データセットは、複数のターゲット核酸配列データを含むデータセットであってよい。
【0227】
本発明の一具現例によれば、前記ターゲット核酸配列データセットは、前記ターゲット核酸分子の一部又は全部に対応する核酸配列データ、又は前記ターゲット核酸分子に対する変異核酸配列データを含んでよい。
【0228】
ターゲット核酸分子に対するターゲット核酸配列データは関心有機体のターゲット核酸分子の核酸配列に関連した核酸配列データのことを指すので、前記ターゲット核酸配列データは、ターゲット核酸分子に対応する核酸配列の全体又は一部からなる核酸配列データ、及び関心有機体のターゲット核酸分子に対応する核酸配列の全体又は一部を含む核酸配列データを全て含む。
【0229】
ターゲット核酸分子に対する変異核酸配列は、ターゲット核酸分子のターゲット核酸配列と比較して、1以上のヌクレオチドが置換、欠失及び/又は追加されたヌクレオチド配列を含む核酸配列をいう。
【0230】
本発明の一具現例によれば、前記ターゲット核酸分子に対するターゲット核酸配列データセットは、グループ代表配列とアラインされた情報を含んで提供されてよい。より具体的には、前記ターゲット核酸分子に対するターゲット核酸配列データセットは、グループ代表配列と前記ターゲット核酸配列データセットのターゲット核酸配列がアラインされたアラインメントファイル形態で提供されてよい。このようなアラインされた情報により、前記ターゲット核酸分子に対するターゲット核酸配列データセットは、目的とするオリゴヌクレオチドデザインにさらに効果的に用いられ得る。
【0231】
本発明のより具体的な具現例によれば、前記段階(f)で提供されるターゲット核酸配列データセットは、前記ターゲット核酸配列データセットに対してグループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列と所定の値以上の相同性を有する。
【0232】
本具現例によれば、前記段階(e)でグループ代表配列と所定の値以上の相同性を有する核酸配列データを収集し、前記段階(f)で前記収集された核酸配列データのうち、前記段階(a)で受信された関心有機体関する核酸配列データを提供した後、前記核酸配列データに対してグループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列と所定の値以上の相同性を有する核酸配列データをターゲット核酸配列データセットとして提供できる。したがって、本具現例は、上述した時系列的過程によっても表現可能である。
【0233】
本具現例における相同性に対する所定の値は、前記段階(e)における相同性に対する所定の値よりは大きく、具体的には、本具現例における相同性に対する所定の値は、前記段階(e)における相同性に対する所定の値に比べて5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%又は60%大きくてよい。
【0234】
本具現例では、前記段階(e)におけるとは違い、グループ代表配列と相同性を有する核酸配列データセットのうち、関心有機体に関する核酸配列データに対して、さらに、グループ代表配列及び/又は分類学的代表配列と相同性を有する核酸配列データセットをターゲット核酸配列データセットとして提供する。
【0235】
本具現例において、グループ代表配列に加えて分類学的代表配列も考慮する理由は、ターゲット核酸分子を検出するために用いられるオリゴヌクレオチドをデザインする際に、前記オリゴヌクレオチドが必ず検出しなければならないターゲット核酸配列データを欠落無しで収集するためである。
【0236】
本具現例における前記相同性の所定の値以上は、70%、80%、90%、95%、96%、97%、98%又は99%以上、又は100%の相同性であってよい。前記所定の値は一定範囲の値であってよく、これに限定されないが、例えば、70%~100%、80%~100%、90%~100%又は95%~100%であってよい。
【0237】
段階(g):非ターゲット核酸分子に対する非ターゲット核酸配列データセットを提供
本発明の一具現例によれば、前記方法は、(g)前記段階(e)で提供される核酸配列データセットのうち、前記受信された関心有機体に関するものでない核酸配列データを、非ターゲット核酸分子に対する非ターゲット核酸配列データセットとして提供する段階をさらに含む。
【0238】
本具現例によれば、前記段階(e)で収集されたグループ代表配列と所定の値以上の相同性を有する核酸配列データセットのうち、前記受信された関心有機体に関するものでない核酸配列データを、非ターゲット核酸分子に対する非ターゲット核酸配列データセットという。
【0239】
本具現例は、上述したオリゴヌクレオチドデザイン要件のうち、関心有機体でない他の有機体の核酸分子を検出しなくてはならない第二の要件のために実施される。具体的には、特定ターゲット核酸分子検出用オリゴヌクレオチドデザインのさらに他の課題としては、偽陽性の誤りが発生し得る核酸分子に関する情報を把握し、そのような核酸分子が検出されないようにしなければならないということがある。
【0240】
このような問題点を解決するために、本具現例では、偽陽性の誤りを発生させ得る非ターゲット核酸分子に対する非ターゲット核酸配列データセットを提供し、非ターゲット核酸配列データセットが検出されないようにオリゴヌクレオチドをデザインするために用いることができる。
【0241】
前記受信された関心有機体に関するものでない核酸配列データは、前記段階(a)で受信された関心有機体の名称又はその同義語、又は分類学上で前記受信された関心有機体の下位分類に属する有機体の名称又はその同義語が前記核酸配列データの有機体として記載されていない核酸配列データを意味する。したがって、前記受信された関心有機体に関するものでない核酸配列データは、分類学上で前記受信された関心有機体の上位分類に属する有機体の名称又はその同義語、又は前記関心有機体と異なる有機体の名称又はその同義語が前記核酸配列データの有機体として記載されている核酸配列データを意味する。
【0242】
本具現例によれば、前記グループ代表配列と所定の値以上の相同性を有する核酸配列データをヌクレオチドデータベースから収集した後、前記収集された配列の有機体に関する情報を前記ターゲット核酸分子の関心有機体に関する情報と比較して、非ターゲット核酸分子に対する非ターゲット核酸配列データセットを提供することができる。
【0243】
具体的には、所定の値以上の相同性(homology)を有する核酸配列データ及びその関心有機体に関する情報を第2データベースから収集し、前記収集された核酸配列データのうち、その有機体に関する情報が前記段階(a)で受信された関心有機体又はその下位有機体に属しない核酸配列データを、非ターゲット核酸分子に対する非ターゲット核酸配列として提供できる。
【0244】
前記有機体に関する情報は、各核酸配列に対する核酸レコードの題目(title)又はディスクリプタであり、organismに記載された有機体の学名又は分類学的名称(Taxonomic name)、又は前記有機体の学名又は分類学的名称に与えられている分類学的識別記号(Taxonomic ID)であってよい。
【0245】
前記提供は、前記収集された核酸配列データの有機体に関する情報が前記ターゲット核酸分子の関心有機体に関する情報と異なるか、前記ターゲット核酸分子の関心有機体の上位有機体に関する情報と同一である場合に、それを非ターゲット核酸分子に対する非ターゲット核酸配列データセットに含まれる核酸配列データとして提供できる。
【0246】
本明細書において用語「非ターゲット核酸分子(non-target nucleic acid molecule)」は、ターゲット核酸分子の反対概念であり、ターゲット核酸分子の配列との相同性を問わずにターゲット核酸分子の検出過程で検出されてはならない核酸分子を意味する。本明細書において用語「非ターゲット核酸配列」は、非ターゲット核酸分子の核酸配列を表す。
【0247】
本発明の一具現例によれば、前記非ターゲット核酸分子に対する非ターゲット核酸配列データセットは、グループ代表配列とアラインされた情報を含んで提供されてよい。より具体的には、前記非ターゲット核酸分子に対する非ターゲット核酸配列データセットは、グループ代表配列と前記非ターゲット核酸配列データセットの非ターゲット核酸配列がアラインされたアラインメントファイル形態で提供されてよい。
【0248】
このような方法によって提供された非ターゲット核酸分子に対する非ターゲット核酸配列データセットは、ターゲット核酸分子と類似の配列を含んでいるが、ターゲット核酸配列でない核酸配列を含んでいる。したがって、ターゲット核酸分子検出用オリゴヌクレオチドをデザイン又は提供する過程において、前記非ターゲット核酸分子に対する非ターゲット核酸配列データセットに含まれる核酸配列に混成化しないようにデザインする場合に、偽陽性危険がなく、特異度(specificity)の高いターゲット核酸分子検出用オリゴヌクレオチドを提供することができる。
【0249】
本発明の一具現例によれば、前記段階(g)で提供される非ターゲット核酸配列データセットは、次の相同性基準のうち少なくとも1つの基準を満たす:
(i)前記非ターゲット核酸配列データセットは、グループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列の一部の配列領域に対して所定の値以上の相同性を有すること;
(ii)前記非ターゲット核酸配列データセットは、グループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列に対して所定の値以上の相同性を有すること;及び
(iii)前記(i)の相同性基準を有する非ターゲット核酸配列データセットが前記(ii)の相同性基準を有すること。
【0250】
本具現例によれば、前記段階(e)で、グループ代表配列と所定の値以上の相同性を有する核酸配列データを収集し、前記段階(g)で、前記収集された核酸配列データのうち、前記段階(a)で受信された関心有機体に関連したものでない核酸配列データを提供した後、前記核酸配列データのうちグループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列に対して所定の値以上の相同性を有する核酸配列データを非ターゲット核酸配列データセットとして提供できる。したがって、本具現例は、上述した時系列的過程によっても表現できる。
【0251】
本具現例における相同性基準(i)によれば、前記非ターゲット核酸配列データセットは、グループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列の一部の配列領域に対して所定の値以上の相同性を有することが要求される。
【0252】
前記グループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列の一部の配列領域は、前記少なくとも1つの代表配列と相同性比較のためにアラインされた前記非ターゲット核酸配列データセットに含まれる非ターゲット核酸配列及び前記少なくとも1つの代表配列の一端から一定ヌクレオチド長を有する領域を意味し、具体的には、前記一部の配列領域を表すヌクレオチド長は、10bp、20bp、30bp、40bp、50bp、60bp又は70bpであるが、これに限定されない。
【0253】
前記一部の配列領域における相同性の所定の値以上は、一部の配列領域において相同性の高い非ターゲット核酸配列を検出しないようにオリゴヌクレオチドをデザインしなければならないというデザイン要件から、前記相同性の所定の値以上は大きいほど好ましい。具体的には、80%、90%、95%、98%又は99%以上、又は100%である。
【0254】
本具現例における相同性基準(ii)によれば、前記非ターゲット核酸配列データセットは、グループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列に対して所定の値以上の相同性を有することが要求される。
【0255】
前記相同性基準(ii)によれば、前記非ターゲット核酸配列データセットは、前記少なくとも1つの代表配列に対して所定の値以上の相同性を有することが要求される。
【0256】
前記相同性基準(ii)は前記少なくとも1つの代表配列と比較するものであるから、前記相同性の所定の値は前記相同性基準(i)よりは低くてよい。具体的には、前記相同性基準(ii)の所定の値は、60%、70%、80%、90%又は95%以上、又は100%である。
【0257】
本具現例における相同性基準(iii)によれば、前記(i)及び(ii)の相同性基準を全て有することが要求される。
【0258】
本具現例では、前記段階(e)におけるとは違い、グループ代表配列と相同性を有する核酸配列データセットのうち、関心有機体に関するものでない核酸配列データに対して、さらに、グループ代表配列及び/又は分類学的代表配列と相同性を有する核酸配列データセットを非ターゲット核酸配列データセットとして提供する。
【0259】
本具現例において、グループ代表配列に加えて分類学的代表配列も考慮する理由は、ターゲット核酸分子を検出するために用いられるオリゴヌクレオチドをデザインする際に、前記オリゴヌクレオチドが必ず検出してはならない非ターゲット核酸配列データを欠落無しで収集するためである。
【0260】
本具現例において、非ターゲット核酸配列の相同性基準を要求する理由は、上述したように、ターゲット核酸分子と類似な非ターゲット核酸分子による偽陽性誤りの問題は、非ターゲット核酸分子の配列の一部がターゲット核酸分子の配列と非常に高い類似性を示す場合に、より問題になるためである。
【0261】
一般に、特定領域のみがターゲット核酸配列との相同性が非常に高いが、他の領域の相同性は低く、結果的にターゲット核酸分子との全体的な配列相同性が低い非ターゲット核酸配列はターゲット核酸分子検出用オリゴヌクレオチドデザイン過程で考慮されないことがある。そこで、本発明の方法は、このような問題点を解決するために、ターゲット核酸分子と全体的な相同性は多少低いが、一部の領域の相同性が高い非ターゲット配列を別に選別し、それに関する情報を提供する。
【0262】
段階(h)及び(j):デザイン除外ターゲット核酸配列データとして分類
本発明の一具現例によれば、前記方法は、次の段階をさらに含む:
(h)前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを収集して核酸配列データセットを提供する段階;及び
(j)前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号が次の所定の基準のうち1つの基準を満たす場合に、前記段階(f)のターゲット核酸配列データセットにおいて、前記グループ代表配列のターゲット核酸配列データ及び前記グループ代表配列と同じグループに属するターゲット核酸配列データを、デザイン除外ターゲット核酸配列データとして分類する段階;、そして、前記所定の基準は次を含む:
(i)前記段階(h)で提供された核酸配列データセットに、前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データは存在しなく、前記グループ代表配列に対する有機体と異なる有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データのみが存在する場合;
(ii)前記段階(h)で提供された核酸配列データセットにおいて、前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データの相同性が、前記グループ代表配列に対する有機体と異なる有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データの相同性と比較してより低い場合;
(iii)前記段階(h)で提供された核酸配列データセットに、前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データは存在しなく、前記グループ代表配列に対する有機体よりも上位の分類学的名称及び/又は分類学的識別記号に該当する有機体又はその下位の分類学的名称及び/又は分類学的識別記号に該当する有機体に該当する核酸配列データの比率が、前記段階(h)で提供された核酸配列データセットに対して所定の値未満である場合;及び
(iv)前記段階(h)で提供された核酸配列データセットが全て前記グループ代表配列に対する有機体の核酸配列データセットであるが、前記核酸配列データセットを含む核酸レコードのディスクリプタにターゲット核酸分子名称が記載されていないか、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つと異なる場合。
【0263】
本発明によれば、ターゲット核酸分子に対するターゲット核酸配列データセットは、関心有機体のターゲット核酸分子を増幅又は検出するために用いられるオリゴヌクレオチドをデザインする際に、前記オリゴヌクレオチドが前記ターゲット核酸配列データセットに必ず混成化するように考慮されるべき核酸配列データセットである。
【0264】
しかし、前記ターゲット核酸配列データセットの全てに混成化するようにデザインする場合に、次のような問題点があり得る。収集されたターゲット核酸配列データのうち、ヌクレオチドデータベースに登載誤り(データベースに関心有機体と同じ有機体として登録されたが、登録された核酸配列が関心有機体と異なる有機体の核酸配列である場合)がある場合に、このような登載誤りがある核酸配列の全てに混成化するようにオリゴヌクレオチドをデザインしようとすれば、オリゴヌクレオチドのターゲットカバレッジが低くなる他にも、ターゲットカバレッジを増加させるためにはオリゴヌクレオチドに縮退性塩基を導入したり組合せ数が増えたりする問題点がある。
【0265】
したがって、本具現例のように、グループ代表配列の登載誤りを確認し、ターゲット核酸分子に対するターゲット核酸配列データセットのうち、オリゴヌクレオチドのデザインにおいて除外されるターゲット核酸配列データを分類する必要がある。
【0266】
本発明の一具現例によれば、前記段階(h)の相同性を有する核酸配列データは、第3データベースから収集される。
【0267】
本具現例の段階(h)で相同性を有する核酸配列データを収集するために用いられる第3データベースは、上述した第2データベースと同一であるか、第2データベースの一部のヌクレオチドデータベースを含むヌクレオチドデータベースであってよい。
【0268】
前記第3データベースが第2データベースの一部のヌクレオチドデータベースを含む場合に、前記第3データベースは、NCBIのGenBank(SNP及びnon-WGSデータベース含む。)、RefSeq、DDBJ及びEMBLデータベースを含むヌクレオチドデータベース、又は前記ヌクレオチドデータベースをダウンロードして構築したヌクレオチドデータベースであってよい。
【0269】
本具現例の段階(h)でグループ代表配列と所定の値以上の相同性を有する核酸配列データを(具体的には、前記第3データベースから)収集すると表現したが、前記段階(h)で提供される核酸配列データセットとして、前記段階(e)で(具体的には、前記第2データベースから)収集して提供された核酸配列データを用いることができる。具体的には、前記第3データベースと前記第2データベースが同一である場合には、前記段階(e)で収集された核酸配列データのうち、前記段階(h)の相同性基準を満たす核酸配列データに対して、グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号が前記所定の基準のうち1つの基準を満たすか確認する。
【0270】
代案として、前記第3データベースが前記第2データベースの一部のヌクレオチドデータベースを含む場合には、前記段階(e)で収集された核酸配列データのうち、前記第3データベースに該当する核酸配列データを収集し、前記収集された核酸配列データのうち、前記段階(h)の相同性基準を満たす核酸配列データに対して、グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号が前記所定の基準のうち1つの基準を満たすか確認する。
【0271】
本具現例の段階(j)では、選ばれたグループ代表配列とこれと相同性を有する核酸配列データの収集結果とを比較し、前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号が前記所定の基準のうち1つを満たす場合に、前記段階(f)のターゲット核酸配列データセットにおいて、前記グループ代表配列のターゲット核酸配列データ及び前記グループ代表配列と同一のグループに属するターゲット核酸配列データを、デザイン除外ターゲット核酸配列データとして分類する。
【0272】
ターゲット核酸配列データのうちデザイン除外ターゲット核酸配列データとして分類された場合に、オリゴヌクレオチドをデザインする際に、前記オリゴヌクレオチドはデザイン除外ターゲット核酸配列データを参照してデザインしない。したがって、前記デザイン除外ターゲット核酸配列データをターゲット核酸配列データから除外し、これに基づいてオリゴヌクレオチドをデザインする。すなわち、デザイン除外ターゲット核酸配列は、前記オリゴヌクレオチドで検出しても検出しなくてもよい核酸配列となる。
【0273】
前記段階(h)で考慮される相同性の所定の値は、前記段階(e)で考慮される相同性よりは大きいが、前記段階(f)のターゲット核酸配列データセットが有する相同性基準とは同一であり得る。
【0274】
具体的には、前記段階(h)における相同性の所定の値以上は、70%、80%、90%、95%、96%、97%、98%又は99%以上、又は100%の相同性であってよい。前記所定の値は一定範囲の値であってよく、これに限定されないが、例えば、70%~100%、80%~100%、90%~100%又は95%~100%であってよい。
【0275】
前記段階(j)の基準(iii)の核酸配列データの比率の所定の値未満は、2%、5%、8%、10%、15%、20%、25%、30%、35%又は40%未満であってよい。
【0276】
ターゲット核酸配列データのうちデザイン除外核酸配列データを除いて残ったターゲット核酸配列データには、1つのグループ内に又は複数のグループ内に同一の接近番号を有する複数のターゲット核酸配列データが存在し得る。この場合、複数のターゲット核酸配列データのうち核酸配列データの一部又は全部が重なる核酸配列データを併合して提供してよい。
【0277】
本発明の一具現例によれば、前記方法は、前記段階(j)後に、(j-1)前記段階(f)で提供されたターゲット核酸配列データのうち、前記デザイン除外核酸配列データを除いて残ったターゲット核酸配列データに、複数のグループ内に同一の接近番号を有する複数のターゲット核酸配列データが存在する場合に、前記複数のターゲット核酸配列データのうち核酸配列データの一部又は全部が重なるターゲット核酸配列データを併合してターゲット核酸配列データを提供する段階をさらに含んでよい。
【0278】
例えば、同一の接近番号を有するターゲット核酸配列データであるが、複数のグループ代表配列との相同性を有する部位の違いにより、複数のグループに同一の接近番号を有するターゲット核酸配列データがそれぞれ存在することがあり、これによってターゲット核酸配列データセットに重複配列が含まれることがある。この場合、同一の接近番号を有する複数のターゲット核酸配列データのそれぞれをターゲット核酸分子に対するターゲット核酸配列として用いることは不適であり、それらが併合された1つの核酸配列をターゲット核酸分子に対するターゲット核酸配列として扱うことが好ましい。
【0279】
本発明の一具現例によれば、前記方法は、前記段階(j-1)後に、(j-2)前記併合したターゲット核酸配列データを、前記複数のグループ内のグループ代表配列と相同性を比較して相同性の高いグループ代表配列が属するグループに含める段階をさらに含む。
【0280】
本具現例は、複数のグループに含まれる複数のターゲット核酸配列データを併合した後、併合した1つのターゲット核酸配列データのグループを決定する過程である。
【0281】
このような方法によって一部又は全部が重なるターゲット核酸配列データを併合した1つのターゲット核酸配列データとして提供し、ターゲット核酸分子の一部に対するターゲット核酸配列データがそれぞれ独立したターゲット核酸分子に対するターゲット核酸配列データとして認識され、ターゲット核酸配列データセットに基づく分析に統計的誤りが発生する確率を減少させることができる。
【0282】
段階(k)及び(l):デザイン除外非ターゲット核酸配列データとして分類
本発明の一具現例によれば、前記方法は、次の段階をさらに含む:
(k)前記非ターゲット核酸配列データセットに対する有機体の非ターゲット核酸配列と所定の値以上の相同性を有する核酸配列データを収集して核酸配列データセットを提供する段階;及び
(l)前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号が次の所定の基準のうち1つの基準を満たす場合に、前記段階(k)の非ターゲット核酸配列データセットにおいて前記有機体の非ターゲット核酸配列データをデザイン除外非ターゲット核酸配列データとして分類する段階;そして、前記所定の基準は次を含む:
(i)前記段階(k)で提供された核酸配列データセットに、前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データは存在しなく、前記有機体と異なる有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データのみが存在する場合;
(ii)前記段階(k)で提供された核酸配列データセットにおいて前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する非ターゲット核酸配列データの相同性が、前記有機体と異なる有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データの相同性と比較してより低い場合;及び
(iii)前記段階(k)で提供された核酸配列データセットに、前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する非ターゲット核酸配列データは存在しなく、前記有機体よりも上位の分類学的名称及び/又は分類学的識別記号に該当する有機体又はその下位の分類学的名称及び/又は分類学的識別記号に該当する有機体に該当する核酸配列データの比率が、前記段階(k)で提供された核酸配列データセットに対して所定の値未満である場合。
【0283】
本発明によれば、非ターゲット核酸分子に対する非ターゲット核酸配列データセットは、関心有機体のターゲット核酸分子を増幅又は検出するために用いられるオリゴヌクレオチドをデザインする際に、前記オリゴヌクレオチドが前記非ターゲット核酸配列データセットに必ず混成化しないように考慮されるべき核酸配列データセットである。
【0284】
しかし、前記非ターゲット核酸配列デートセットの全てに混成化しないようにデザインする場合に次のような問題点があり得る。収集された非ターゲット核酸配列データのうち、ヌクレオチドデータベースに登載誤り(例えば、データベースに非ターゲット核酸配列に対するA有機体として登録されたが、登録された核酸配列が前記A有機体と異なる有機体の核酸配列である場合)があるか、グループ代表配列と相同性が高いため、前記収集された非ターゲット核酸配列を検出しないようにオリゴヌクレオチドをデザインすることが困難な場合があり得る。
【0285】
したがって、本具現例のように、収集された非ターゲット核酸配列データに対する有機体の登載誤りなどを確認し、前記非ターゲット核酸配列デートセットから、オリゴヌクレオチドのデザインに考慮しない、すなわちデザイン除外非ターゲット核酸配列データセットを決定することが必要である。
【0286】
本発明の一具現例によれば、前記段階(k)の相同性を有する核酸配列データは第3データベースから収集される。
【0287】
本具現例の段階(k)で相同性を有する核酸配列データを収集するために用いられる第3データベースは、上述した第2データベースと同一であるか、第2データベースの一部のヌクレオチドデータベースを含むヌクレオチドデータベースであってよい。
【0288】
前記第3データベースが第2データベースの一部のヌクレオチドデータベースを含む場合に、前記第3データベースは、NCBIのGenBank(SNP及びnon-WGSデータベース含む。)、RefSeq、DDBJ及びEMBLデータベースを含むヌクレオチドデータベース、又は前記ヌクレオチドデータベースをダウンロードして構築したヌクレオチドデータベースであってよい。
【0289】
本発明の一具現例によれば、前記段階(k)の非ターゲット核酸配列データセットは、前記段階(g)で提供される非ターゲット核酸配列データセットのうち、グループ代表配列と所定の値以上の相同性を有する非ターゲット核酸配列データセットであり、前記相同性の所定の値は、前記段階(f)に提供されるターゲット核酸配列データセットの相同性の所定の値と同一であってよい。具体的には、前記相同性の所定の値以上は、70%、80%、90%、95%、96%、97%、98%又は99%以上、又は100%の相同性であってよい。前記所定の値は一定範囲の値であってよく、これに限定されないが、例えば、70%~100%、80%~100%、90%~100%又は95%~100%であってよい。
【0290】
本具現例の段階(k)で収集した核酸配列データの相同性の所定の値は、70%、80%、90%、95%、96%、97%、98%又は99%以上、又は100%の相同性であってよい。前記所定の値は一定範囲の値であってよく、これに限定されないが、例えば、70%~100%、80%~100%、90%~100%又は95%~100%であってよい。
【0291】
本具現例の段階(l)では、前記非ターゲット核酸配列データセットに対する有機体の非ターゲット核酸配列とこれと相同性を有する核酸配列データの収集結果を比較して、前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号が前記所定の基準のうち1つを満たす場合に、前記段階(g)の非ターゲット核酸配列データセットにおいて前記有機体の非ターゲット核酸配列データをデザイン除外非ターゲット核酸配列データとして分類する。
【0292】
非ターゲット核酸配列データのうちデザイン除外非ターゲット核酸配列データとして分類された場合に、オリゴヌクレオチドをデザインする際に前記オリゴヌクレオチドはデザイン除外非ターゲット核酸配列データを参照してデザインしない。したがって、前記デザイン除外非ターゲット核酸配列データを非ターゲット核酸配列データから除外し、残りの非ターゲット核酸配列データに混成化しないようにオリゴヌクレオチドをデザインする。すなわち、デザイン除外非ターゲット核酸配列は、前記オリゴヌクレオチドで検出しても検出しなくてもよい核酸配列となる。
【0293】
前記段階(l)の基準(iii)の核酸配列データの比率の所定の値未満は、2%、5%、8%、10%、15%、20%、25%、30%、35%又は40%未満であってよい。
【0294】
記録媒体、装置及びプログラム
本発明の他の態様によれば、本発明は、関心有機体(organism of interest)のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供するための方法を実行するためのプロセッサを具現する指示を含むコンピュータ可読記録媒体であって、前記方法は次の段階を含む:(a)ターゲット核酸分子の名称(name)及び関心有機体の名称を受信し、前記関心有機体の前記ターゲット核酸分子に対する同義語(synonym)を収集する(retrieving)段階;(b)核酸レコードに含まれた核酸配列データを収集する段階;前記核酸レコードのそれぞれは前記関心有機体に関するものであり、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つが記載されているディスクリプタ(descriptor)を含み、(c)前記収集された核酸配列データを分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)によって整列(sorting)し、同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの中から分類学的代表配列を選定する段階;(d)前記選定された分類学的代表配列を相同性によってグループ化(grouping)し、各グループからグループ代表配列を選定する段階;及び、(e)前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを収集して前記オリゴヌクレオチドのデザイン用核酸配列データセットとして提供する段階。
【0295】
本発明のさらに他の態様によれば、本発明は、関心有機体(organism of interest)のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供するための方法を実行するためのプロセッサを具現する、コンピュータ可読記録媒体に記憶されるコンピュータプログラムを提供し、前記方法は次の段階を含む:(a)ターゲット核酸分子の名称(name)及び関心有機体の名称を受信し、前記関心有機体の前記ターゲット核酸分子に対する同義語(synonym)を収集する(retrieving)段階;(b)核酸レコードに含まれた核酸配列データを収集する段階;前記核酸レコードのそれぞれは前記関心有機体に関するものであり、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つが記載されているディスクリプタ(descriptor)を含み、(c)前記収集された核酸配列データを分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)によって整列(sorting)し、同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの中から分類学的代表配列を選定する段階;(d)前記選定された分類学的代表配列を相同性によってグループ化(grouping)し、各グループからグループ代表配列を選定する段階;及び、(e)前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを収集して前記オリゴヌクレオチドのデザイン用核酸配列データセットとして提供する段階。
【0296】
本発明の他の態様によれば、本発明は、(a)コンピュータプロセッサ、及び(b)前記コンピュータプロセッサにカップリングされた前記本発明のコンピュータ可読記録媒体を含む、関心有機体(organism of interest)のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供するための装置を提供する。
【0297】
本発明の記録媒体、装置及びコンピュータプログラムは、上述した本発明の方法をコンピュータで実施可能にしたものであり、それらに共通する内容は、反復記載による本明細書の過度な複雑性を避けるためにその記載を省略する。
【0298】
プログラム指示は、プロセッサによって実行される時に、プロセッサが上述した本発明の方法を実行するようにする。関心有機体(organism of interest)のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供するための方法を実行するプログラム指示は、次の指示を含んでよい:(i)ターゲット核酸分子の名称(name)及び関心有機体の名称を受信し、前記関心有機体の前記ターゲット核酸分子に対する同義語(synonym)を収集(retrieving)するようにする指示;(ii)前記関心有機体に関するものであり、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つがディスクリプタ(descriptor)に記載されている核酸レコードに含まれた核酸配列データを収集するようにする指示;(iii)前記収集された核酸配列データを分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)によって整列(sorting)し、同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの中から分類学的代表配列を選定するようにする指示;(iv)前記選定された分類学的代表配列を相同性によってグループ化(grouping)し、各グループからグループ代表配列を選定するようにする指示;及び、(v)前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを収集して前記オリゴヌクレオチドのデザイン用核酸配列データセットとして提供(例えば、出力装置にディスプレイ)するようにする指示。
【0299】
本発明の方法はプロセッサで実行され、前記プロセッサは、独立実行型コンピュータ(stand alone computer)、ネットワーク付きコンピュータ、又は実時間PCR装置のようなデータ取得装置にあるプロセッサであってよい。
【0300】
コンピュータ可読記録媒体は、当業界に公知された様々な記憶媒体、例えば、CD-R、CD-ROM、DVD、フラッシュメモリ、フロッピー(登録商標)ディスク、ハードドライブ、ポータブルHDD、USB、マグネチックテープ、MINIDISC、非揮発性メモリカード、EEPROM(登録商標)、光学ディスク、光学記憶媒体、RAM、ROM、システムメモリ及びウェブサーバーを含むが、これに限定されるものではない。
【0301】
関心有機体(organism of interest)のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットは様々な方式で提供されてよい。例えば、オリゴヌクレオチドのデザイン用核酸配列データセットは、ネットワーク連結(例えば、LAN、VPN、インターネット及びイントラネット)又は直接連結(例えば、USB又は他の直接有線連結又は無線連結)によってデスクトップコンピュータシステムのような別途のシステムに提供されてよく、又は、CD、DVD、フロッピーディスク及びポータブルHDDのようなポータブル媒体上に提供されてよい。同様に、オリゴヌクレオチドのデザイン用核酸配列データセットは、ノートパソコン又はデスクトップコンピュータシステムのようなクライアントにネットワーク連結(例えば、LAN、VPN、インターネット、イントラネット及び無線通信ネットワーク)を通じてサーバーシステムから提供されてよい。
【0302】
本発明を実行するプロセッサを具現する指示は、ロジックシステムに含まれてよい。前記指示は、たとえソフトウェア記録媒体(例えば、ポータブルHDD、USB、フロッピー(登録商標)ディスク、CD及びDVD)に提供されてよいが、ダウンロード可能であり、メモリモジュール(例えば、ハードドライブ又はローカル又は付着RAM又はROMのような別のメモリ)に記憶されてよい。本発明を実行するコンピュータコードは、C、C++、Java(登録商標)、Visual Basic、VBScript、JavaScript(登録商標)、Perl及びXMLのような様々なコーディング言語で実行されてよい。また、様々な言語及びプロトコルは、本発明に係る信号と命令の外部及び内部記憶と伝達に利用されてよい。
【0303】
コンピュータプロセッサは、1つのプロセッサが上述したパフォーマンスを全て実行するよう構築されてよい。代案として、プロセッサユニットは、複数のプロセッサがそれぞれのパフォーマンスを実行するように構築されてもよい。
【発明の効果】
【0304】
本発明の特徴及び利点を要約すれば次の通りである:
(a)関心有機体のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供する従来の方法は、ターゲット核酸分子の名称などのキーワードを用いて核酸配列データを収集し、前記収集された核酸配列データを配列の長さによって整列して最も長い配列を代表配列として決定し、前記代表配列と所定の値以上の相同性を有する核酸配列データをグループ化した後、前記キーワードで収集した核酸配列データと前記代表配列と相同性を有する核酸配列データとを統合して、ターゲット核酸分子に対するターゲット核酸配列データセットとして提供した。そして、オリゴヌクレオチドのデザインに利用するために前記ターゲット核酸配列データセットに対するアラインメントファイルを提供した。
【0305】
その結果、前記代表配列として収集された配列間に相同性の相違によって正しくアラインされないことが確認され、このため、分析者らがアラインされた核酸配列を検討するなどの余分の時間がかかるという問題点があった。
【0306】
(b)上述した問題点を解決するために、本発明は、ターゲット核酸分子に対する同義語(synonym)から収集された核酸配列データを分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)によって整列し、同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの中から分類学的代表配列を選定した後、前記選定された分類学的代表配列を相同性によってグループ化(grouping)し、各グループからグループ代表配列を選定し、前記グループ代表配列と所定の値以上の相同性を有する核酸配列データを提供した。
【0307】
その結果、前記ターゲット核酸分子に対する複数のターゲット核酸配列を欠落無しで収集するとともに、収集された複数のターゲット核酸配列のアラインメント結果がオリゴヌクレオチドのデザインに参照可能なように正しく形成されることを確認した。
【0308】
(c)本発明によれば、オリゴヌクレオチドのデザインに利用可能なように核酸配列データセットに対するアラインメント結果が正しく形成され、分析者らが収集された核酸配列データセットに含まれる配列の登載誤りなどを検討する時間消費的及び労働消費的問題点を解決した。
【図面の簡単な説明】
【0309】
【
図1】従来方法(国際公開番号WO2019/212238)によってターゲット核酸配列データセットを提供する過程を示すフローチャートである。
【
図2】前記従来方法によってサルモネラエンテリカ(Salmonella enterica)の遺伝子sopBを検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットのアラインメント結果を示す。
【
図3】本発明の一具現例によって関心有機体のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供する過程を示すフローチャートである。
【
図4】UI(User Interface)にターゲット核酸分子の名称(ompA)及び関心有機体の名称(Chlamydophila pneumoniae)を入力した結果、NCBI(National Center for Biotechnology Information)の遺伝子データベース又は前記遺伝子データベースをダウンロードして構築した遺伝子データベースから遺伝子情報要約レコードを収集し、前記レコードにおいてターゲット核酸分子に対する同義語でタンパク質名称が遺伝子説明(gene description)から収集されることを示す。
【
図5】関心有機体がEnterobacter cloacae complexであり、ターゲット核酸分子がompXである場合に、核酸レコードのアイデンティファイアを収集することを示す。
図5では、アイデンティファイアとしてAccession No及びGI Noが確認できる。
【
図6】
図5のAccession:CP017990.1の題目(title)をクリックする場合に現れる核酸レコードの一部をキャプチャーした写真である。前記核酸レコードにおいてgene、CDS、/gene、/note、/productなどはディスクリプタを表す。
【
図7】関心有機体(Enterobacter cloacae complex)のターゲット核酸分子の名称(ompX)及び同義語(synonym)(outer membrane protein)を用いて収集されたアイデンティファイアによって特定される核酸配列データを収集し、同じ分類学的識別記号を有する核酸配列データの中から整列基準によって核酸配列データを整列し、分類学的代表配列を選定する過程を示す。
【
図8】本発明の一具現例によってサルモネラエンテリカ(Salmonella enterica)に対するターゲット核酸分子の名称としてsopBを入力したユーザインターフェース(User Interface;UI)を示す。関心有機体としてサルモネラエンテリカ(Salmonella enterica)及びその分類学的識別記号(Taxonomic ID:28901)は前記UIのIn/Exclusivityをクリックして入力する。
【
図9】本発明の一具現例によってサルモネラエンテリカ(Salmonella enterica)に対するターゲット核酸分子の名称としてsopB及びこれに対する同義語としてタンパク質名称(inositol phosphatase)を入力したユーザインターフェース(User Interface;UI)を示す。関心有機体としてサルモネラエンテリカ(Salmonella enterica)及びその分類学的識別記号(Taxonomic ID:28901)は前記UIのIn/Exclusivityをクリックして入力する。
【
図10】本発明の一具現例によって提供された関心有機体(Salmonella enterica)のターゲット核酸分子(sopB)に対するターゲット核酸配列データセットのアラインメント結果を示す。
【
図11】本発明の他の具現例によって提供された関心有機体(Salmonella enterica)のターゲット核酸分子(sopB)に対するターゲット核酸配列データセットのアラインメント結果を示す。
【
図12】従来方法(国際公開番号WO2019/212238)によって提供された関心有機体(Salmonella enterica)のターゲット核酸分子(sopB)に対するターゲット核酸配列データセットのアラインメント結果を分析者が検討した後、プログラムを4回再駆動後に提供されるアラインメント結果を示す。
【発明を実施するための形態】
【0310】
以下、実施例を用いて本発明をより詳細に説明する。これらの具現例は単に本発明をより具体的に説明するためのものであり、本発明の要旨によって本発明の範囲がこれらの具現例によって限定されないということは、本発明の属する技術の分野における通常の知識を有する者にとって明らかであろう。
【実施例】
【0311】
実施例1:サルモネラエンテリカ(Salmonella enterica)の遺伝子sopBを検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットの提供
関心有機体のターゲット核酸分子を検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供するプログラム(AutoMSA v3.0)を実行し、サルモネラエンテリカの遺伝子sopBを検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供した。
【0312】
サルモネラエンテリカの学名(Salmonella enterica)及び遺伝子名称(sopB)を前記AutoMSA v3.0プログラムのユーザインターフェース(User Interface;UI)ウィンドウに入力し(
図8)、AutoMSA v3.0プログラムを実行した。
【0313】
AutoMSA v3.0プログラムを実行して次のような順序で進行した:(1)遺伝子名称(sopB)及びサルモネラエンテリカ(Salmonella enterica)を受信し、前記サルモネラエンテリカの前記sopBに対する同義語(タンパク質名称:inositol phosphatase又はinositol phosphate phosphataseなど)を、遺伝子データベース(NCBIの遺伝子データベースをダウンロードして構築した遺伝子データベースを利用)から収集した。具体的には、遺伝子情報要約レコードのFull reportにおいてgene symbolとしてsopBが記載されている場合に、gene descriptionに記載されたinositol phosphatase又はinositol phosphate phosphataseなどを同義語として収集した。そして、遺伝子情報要約レコードのSummaryに記載されたinositol phosphatase又はinositol phosphate phosphataseなどを同義語として収集した。
【0314】
その後、前記サルモネラエンテリカ、遺伝子名称(sopB)及び前記sopBに対する同義語(タンパク質名称)を受信し、前記サルモネラエンテリカに関するものとして、前記sopB及び/又は前記同義語が核酸レコードのディスクリプタ(descriptor)に記載されている核酸レコードに含まれる核酸配列データセットを収集した。
【0315】
(2)前記サルモネラエンテリカ、遺伝子名称(sopB)及び前記sopBに対する同義語(タンパク質名称)を受信し、前記サルモネラエンテリカに関するものとして、前記sopB及び/又は前記同義語が核酸レコードのディスクリプタ(descriptor)に記載されている核酸レコードのアイデンティファイア(identifier)を、ヌクレオチドデータベース(NCBIのヌクレオチドデータベース、すなわち、NCBIのGenBank(STS、EST、GSS、SNP、TSA、PAT、WGS及びnon-WGSデータベース含む。)、RefSeq、DDBJ及びEMBLデータベースを含むヌクレオチドデータベースをダウンロードして構築したヌクレオチドデータベースを利用)から収集した。具体的には、受信されたSalmonella enterica、sopB、inositol phosphatase又はinositol phosphate phosphataseなどをヌクレオチドデータベースのqueryに入力し、核酸レコードのディスクリプタとして題目(title)、gene、CDS、/gene、/product、/note又は/taxonなどに有機体名(分類学的名称)、分類学的識別記号(Taxonomic ID)、sopB、inositol phosphatase又はinositol phosphate phosphataseなどが記載された核酸レコードのアイデンティファイア(identifier)(具体的には、接近番号又はGIなど)を収集した。(3)前記アイデンティファイアによって特定される核酸配列データを収集した。具体的には、前記アイデンティファイアによって特定される核酸レコードを収集し、前記核酸レコードのディスクリプタとしてgene、CDS、/gene、/product又は/noteにsopB、inositol phosphatase又はinositol phosphate phosphataseと同一であるか又はこれを含む核酸レコードから核酸配列データを収集した。
【0316】
(4)前記収集された核酸配列データを分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)によって整列(sorting)し、同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの中から分類学的代表配列を選定した。具体的には、前記同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データからの分類学的代表配列の選定は、次のように実施した:まず、前記同じ分類学的名称(Taxonomic name)及び/又は分類学的識別記号(Taxonomic ID)を有する核酸配列データを、次の順序を有する整列基準によって整列した:
(i)前記核酸配列データに含まれた核酸配列のアセンブリーレベル(assembly level)によって整列;前記アセンブリーレベルは、コンプリートゲノム(complete genome)、クロモソーム(chromosome)、スキャフォールド(scaffold)及びコンティグ(contig)の順に順位が高く(すなわち、コンプリートゲノムの順位が最も高い。)、
(ii)前記核酸配列データがRefSeq(Reference Sequence)データベースに含まれるか否かによって整列;前記核酸配列データがRefSeqデータベースに含まれる場合に、含まれない場合に比べて順位が高く、
(iii)前記核酸配列データを含む核酸レコードのディスクリプタに記載されている核酸分子の名称が前記受信されたターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つと一致しているか否かによって整列;一致する場合が一致しない場合に比べて順位が高く、
(iv)前記核酸配列データの長さによって整列;前記長さが長いほど順位が高く、
(v)前記核酸配列データを含む核酸レコードのディスクリプタにホスト(host)が記載されたか否かによって整列;前記ホストに関心有機体に対する関心ホストが記載されている場合が、記載されていない場合に比べて順位が高く、前記記載されていない場合が、前記関心ホストと異なる有機体がホストに記載されている場合に比べて順位が高く、
(vi)前記核酸配列データを含む核酸レコードの登録日又は修正日によって整列;前記登録日又は修正日が最新日であるほど順位が高く、
(vii)前記核酸配列データの接近番号(Accession No)のアルファベットによって整列;前記接近番号のアルファベットの順序が早いほど順位が高い。
【0317】
そして、前記整列された核酸配列データの中から最上位核酸配列データの核酸配列を分類学的代表配列として選定した。前記整列基準(v)において関心ホストはホモサピエンス(Homo sapiens)である。
【0318】
このような過程は、分類学的名称及び/又は分類学的識別記号別に整列された核酸配列データに対して実施した。
【0319】
(5)前記選定された分類学的代表配列を相同性によってグループ化(grouping)し、各グループからグループ代表配列を選定した。具体的には、前記選定された分類学的代表配列を、次の順序を有する整列基準によって整列した:
(i)前記選定された分類学的代表配列のアセンブリーレベル(assembly level)によって整列;前記アセンブリーレベルは、コンプリートゲノム(complete genome)、クロモソーム(chromosome)、スキャフォールド(scaffold)及びコンティグ(contig)の順に順位が高く(すなわち、コンプリートゲノムの順位が最も高い。)、
(ii)前記選定された分類学的代表配列と同じ分類学的名称及び/又は分類学的識別記号を有する核酸配列データの個数;前記個数が大きいほど順位が高く、
(iii)前記選定された分類学的代表配列を含む核酸レコードのディスクリプタにホスト(host)が記載されたか否かによって整列;前記ホストに関心有機体に対する関心ホストが記載されている場合が、記載されていない場合に比べて順位が高く、前記記載されていない場合が、前記関心ホストと異なる有機体がホストに記載されている場合に比べて順位が高く、
(iv)前記選定された分類学的代表配列の接近番号(Accession No)のアルファベットによって整列;前記接近番号のアルファベットの順序が早いほど順位が高い。前記整列基準(iii)において関心ホストはホモサピエンス(Homo sapiens)である。
【0320】
前記整列された分類学的代表配列の中から最上位分類学的代表配列を選定し、UCLUSTアルゴリズムを用いて、前記最上位分類学的代表配列と90%以上の相同性を有する分類学的代表配列をグループ化し、各グループにおいて前記最上位分類学的代表配列をグループ代表配列として選定した。
【0321】
(6)前記グループ代表配列と50%以上の相同性(具体的には、Identity:50%以上、word size:15、E-value:10000)を有する核酸配列データを、BLASTを行ってヌクレオチドデータベース(具体的には、前記(2)のヌクレオチドデータベースを利用)から収集し、前記オリゴヌクレオチドのデザイン用核酸配列データセットとして提供した。(7)前記提供される核酸配列データセットのうち、前記受信されたサルモネラエンテリカに関する核酸配列データを、遺伝子sopBに対するターゲット核酸配列データセットとして提供した。また、前記提供されるターゲット核酸配列データセットは、前記ターゲット核酸配列データセットに対してグループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列と90%以上の相同性(Identity:90%以上)を有する。前記90%以上の相同性を有するターゲット核酸配列データセットは、次のように提供される。具体的には、前記ターゲット核酸配列データセットの配列を前記グループ代表配列及び/又は分類学的代表配列の長さに延長した後、前記グループ代表配列及び/又は分類学的代表配列の長さを基準にしてQuery coverage 10%以上及びIdentity 90%以上の配列を選別した。
【0322】
(8)前記(6)で提供される核酸配列データセットのうち、前記受信されたサルモネラエンテリカに関するものでない核酸配列データを、非ターゲット核酸分子に対する非ターゲット核酸配列データセットとして提供した。そして、前記提供される非ターゲット核酸配列データセットは、(i)グループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列の20bpの配列領域に対して100%の相同性(Identity 100%)を有し、(ii)グループ代表配列及び分類学的代表配列のうち少なくとも1つの代表配列に対して70%以上の相同性(Identity 70%以上)を有する。
【0323】
具体的には、(i)前記非ターゲット核酸配列データセットの配列を前記グループ代表配列及び/又は分類学的代表配列の長さに延長した後、前記少なくとも1つの代表配列及び/又は前記非ターゲット核酸配列データセットの配列の一端から20bpの配列領域を移動しながら、20bpの配列領域に対して100%の相同性(Identity 100%)を有する非ターゲット核酸配列データセットを選別し、(ii)前記選別された非ターゲット核酸配列データセットのうち、前記グループ代表配列及び/又は分類学的代表配列の長さを基準にしてQuery coverage 100%及びIdentity 70%以上の配列を選別した。
【0324】
図10は、前記(7)で提供されるサルモネラエンテリカに関する遺伝子sopBに対するターゲット核酸配列データセットのアラインメント結果を示す。
図10から確認できるように、複数のターゲット核酸配列をアラインした結果、配列は相同性にしたがってアラインが正しく形成されていることが確認できる。
図10のアラインメント結果において、灰色陰影よりも黒色陰影が多いほど相同性にしたがってアラインが正しく形成されたものと判断した。前記(5)で選定されたグループ代表配列は11個であった。
【0325】
実施例1によるAutoMSA v3.0プログラムの実行の結果、接近番号、収集されたデータベース情報、核酸配列の長さ、遺伝子の位置情報、分類学的代表配列又はグループ代表配列か否か、有機体名(分類学的名称)、分類学的識別記号、相同性情報、バイオサンプル番号、アセンブリーレベル、RefSeq番号などの情報が含まれた前記(6)のオリゴヌクレオチドのデザイン用核酸配列データセットの目録、前記(7)のターゲット核酸配列データセットの目録、及び前記(8)の非ターゲット核酸配列データセットの目録が提供され、前記(7)のターゲット核酸配列データセットのアラインメントファイル及び(8)の非ターゲット核酸配列データセットのアラインメントファイルが提供された。
【0326】
比較例1:サルモネラエンテリカ(Salmonella enterica)の遺伝子sopBを検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットの提供
比較例1で提供されるサルモネラエンテリカの遺伝子sopBを検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットは、本出願人によって出願された国際公開番号WO2019/212238に記載された方法によるAutoMSAプログラム(AutoMSA v2.0)によって提供された。
【0327】
従来AutoMSAプログラム(AutoMSA v2.0)は、実施例1のプログラム順序(1)~(3)と同一であるが、実施例1のプログラム順序(4)~(8)とは次のように違いがある。実施例1と異なる部分を説明すれば、次の通りである。
【0328】
サルモネラエンテリカの学名(Salmonella enterica)及び遺伝子名称(sopB)を前記AutoMSA v2.0プログラムのユーザインターフェース(User Interface;UI)ウィンドウに入力し、AutoMSA v2.0プログラムを実行した。
【0329】
AutoMSA v2.0プログラムを実行して次のような順序で進行した:(1)~(3)は、実施例1と同一に進行した。(4)前記収集された核酸配列データを配列の長さによって整列し、前記整列された核酸配列データのうち最も長い核酸配列データを選定し、UCLUSTアルゴリズムを用いて前記最も長い核酸配列データと90%以上の相同性(Identity:90%以上)を有する核酸配列データをグループ化し、各グループにおいて前記最も長い核酸配列データをグループ代表配列として選定した。(5)前記実施例1の(6)と同じ方法によって実施した。(6)前記実施例1の(7)において分類学的代表配列に対する内容を除けば前記実施例1の(7)と同じ方法で実施してターゲット核酸配列データセットを提供した。
【0330】
ただし、従来AutoMSA v2.0プログラムによれば、前記(3)で収集された核酸配列データセットと前記(6)で提供されたターゲット核酸配列データセットを統合してオリゴヌクレオチドのデザイン用ターゲット核酸配列データセットとして提供された。
【0331】
従来AutoMSA v2.0プログラムによって提供されたオリゴヌクレオチドのデザイン用ターゲット核酸配列データセットをアラインした結果は
図2に示した。
図2に見られるように、灰色陰影が多いことから、複数の核酸配列のアラインが相同性にしたがって正しく形成されていないことが分かった。そして、このようにアラインが正しく形成されていない理由を確認した結果、グループ代表配列が25個であったし、このようなグループ代表配列間の配列相同性の相違により、前記グループ代表配列として収集された配列の間にも相同性に相違が発生し、その結果、複数の核酸配列間のアラインが正しく形成されないことが分かった。
【0332】
実施例2:サルモネラエンテリカ(Salmonella enterica)の遺伝子sopBを検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットの提供
実施例1と類似の方法によって実施するが、重複配列除去及びヌクレオチドデータベースに登載誤りがある配列検討過程をプログラム上で自動的に行うアルゴリズムを追加したAutoMSA v3.0プログラムを実行し、サルモネラエンテリカの遺伝子sopBを検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットを提供した。
【0333】
まず、遺伝子sopBのタンパク質名称をNCBIの遺伝子データベースから検索してinositol phosphataseであることを確認した。
【0334】
AutoMSA v3.0プログラムのユーザインターフェース(User Interface;UI)ウィンドウにサルモネラエンテリカの学名(Salmonella enterica)、遺伝子名称(sopB)及びタンパク質名称(inositol phosphatase)を入力し(
図9)、AutoMSA v3.0プログラムを実行した。
【0335】
AutoMSA v3.0プログラムを実行して次のような順序で進行した:(1)サルモネラエンテリカ(Salmonella enterica)、遺伝子名称(sopB)及びタンパク質名称(inositol phosphatase)を受信し、前記サルモネラエンテリカの前記sopBに対する同義語(タンパク質名称:inositol phosphate phosphataseなど)を遺伝子データベース(前記実施例1の(1)に用いられる遺伝子データベースと同一)から収集し、前記sopBに対する同義語として収集されたタンパク質名称であるinositol phosphate phosphataseなどを検討した後、inositol phosphate phosphataseなどを同義語として用いた。具体的には、遺伝子情報要約レコードのFull reportにおいてgene symbolとしてsopBが記載されている場合に、gene descriptionに記載されたinositol phosphatase又はinositol phosphate phosphataseなどを同義語として収集した。そして、遺伝子情報要約レコードのSummaryに記載されたinositol phosphatase又はinositol phosphate phosphataseなどを同義語として収集した。ここで、inositol phosphataseはプログラム実行前にユーザが入力した同義語であり、よって、inositol phosphate phosphataseなどが追加的に収集された同義語である。
【0336】
その後、前記サルモネラエンテリカ、遺伝子名称(sopB)及び前記sopBに対する同義語(タンパク質名称)を受信し、前記サルモネラエンテリカに関するものとして、前記sopB及び/又は前記同義語(タンパク質名称)が核酸レコードのディスクリプタ(descriptor)に記載されている核酸レコードに含まれた核酸配列データを収集した。
【0337】
(2)前記サルモネラエンテリカ、遺伝子名称(sopB)及び前記sopBに対する同義語(タンパク質名称)を受信し、前記サルモネラエンテリカに関するものとして、前記sopB及び/又は前記同義語(タンパク質名称)が核酸レコードのディスクリプタ(descriptor)に記載されている核酸レコードのアイデンティファイア(identifier)をヌクレオチドデータベースから収集した。具体的には、受信されたSalmonella enterica、sopB、inositol phosphatase又はinositol phosphate phosphataseなどをヌクレオチドデータベース(前記実施例1の(3)のヌクレオチドデータベースと同一)のqueryに入力し、核酸レコードのディスクリプタとして題目(title)、gene、CDS、/gene、/product、/note又は/taxonなどに有機体名(分類学的名称)、分類学的識別記号(Taxonomic ID)、sopB、inositol phosphatase又はinositol phosphate phosphataseなどが記載された核酸レコードのアイデンティファイア(identifier)(具体的には、接近番号又はGIなど)を収集した。(3)前記アイデンティファイアによって特定される核酸配列データを収集した。具体的には、前記アイデンティファイアによって特定される核酸レコードを収集し、前記核酸レコードのディスクリプタとしてgene、CDS又は/geneにsopBと同一であるかこれを含み、ディスクリプタとして/productにinositol phosphatase又はinositol phosphate phosphataseと同一であるかこれを含む核酸レコードから核酸配列データを収集した。遺伝子名称及びタンパク質名称に対するディスクリプタから核酸配列データが収集されない場合に、/noteにsopB、inositol phosphatase又はinositol phosphate phosphataseと同一であるかこれを含む核酸レコードから核酸配列データを収集した。
【0338】
(3-1)前記収集された核酸配列データのうち重複配列を除去した。具体的には、前記収集された核酸配列データをバイオサンプル(biosample)識別記号によって整列し、同じバイオサンプル識別記号を有する核酸配列データを選別し、前記選別された核酸配列データをも次の順序を有する整列基準によって整列した:(i)前記選別された核酸配列データをアセンブリーレベル(assembly level)によって整列;前記アセンブリーレベルは、コンプリートゲノム(complete genome)、クロモソーム(chromosome)、スキャフォールド(scaffold)及びコンフィグ(config)の順に順位が高く(すなわち、前記コンプリートゲノムの順位が最も高い。)、(ii)前記選別された核酸配列データがRefSeq(Reference Sequence)データベースに含まれるか否かによって整列;前記核酸配列データがRefSeqデータベースに含まれる場合に、含まれない場合に比べて順位が高い。
【0339】
そして、前記整列された核酸配列データの中から最上位核酸配列データの核酸配列を選定し、前記最上位核酸配列データ以外の核酸配列データを、前記収集された核酸配列データから除去した。
【0340】
(4~8)前記実施例1の(4)~(8)と同じ方法によって実施した。ただし、前記実施例1の(4)の整列基準(iii)は、次の整列基準によって実施した:(iii)核酸分子の名称及びタンパク質名称、タンパク質の名称、そして核酸分子の名称の順序で前記受信されたターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つと前記核酸配列データを含む核酸レコードのディスクリプタに記載されている核酸分子の名称及び/又はタンパク質名称が一致するか否かによって整列;前記順序で一致する場合に順位が高く(すなわち、前記受信されたターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つと前記核酸配列データを含む核酸レコードのディスクリプタに記載されている核酸分子の名称及びタンパク質の名称が全て一致する場合に順位が最も高い。)、一致しない場合に順位が最も低い。
【0341】
(9)前記(7)で提供されたターゲット核酸配列データセットに含まれるグループ代表配列に対して登載誤りを確認した。具体的には、次の過程を含む方法によって実施した:前記グループ代表配列と90%以上の相同性(Identity:90%以上)を有する核酸配列データをヌクレオチドデータベース(具体的には、NCBIのGenBank(SNP及びnon-WGSデータベース含む)、RefSeq、DDBJ及びEMBLデータベースを含むヌクレオチドデータベースをダウンロードして構築したヌクレオチドデータベースを利用)から収集して核酸配列データセット(9-1)を提供(また、前記(6)の核酸配列データセットのうち、サルモネラエンテリカに対する核酸配列データ選別し、グループ代表配列と90%以上の相同性を有する核酸配列データを選別した後、(9)のヌクレオチドデータベースに含まれる核酸配列データセットを選別して提供できる。)し、前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号が次の所定の基準のうち1つの基準を満たす場合に、前記(7)のターゲット核酸配列データセットにおいて前記グループ代表配列のターゲット核酸配列データ及び前記グループ代表配列と同一のグループに属するターゲット核酸配列データをデザイン除外ターゲット核酸配列データとして分類した。そして、前記所定の基準は次を含む:(i)前記(9-1)の核酸配列データセットに前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データは存在しなく、前記グループ代表配列に対する有機体と異なる有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データのみが存在する場合;
(ii)前記(9-1)の核酸配列データセットにおいて前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当するターゲット核酸配列データの相同性が、前記グループ代表配列に対する有機体と異なる有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データの相同性と比較してより低い場合;
(iii)前記(9-1)の核酸配列データセットに前記グループ代表配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当するターゲット核酸配列データは存在しなく、前記グループ代表配列に対する有機体よりも上位の分類学的名称及び/又は分類学的識別記号に該当する有機体又はその下位の分類学的名称及び/又は分類学的識別記号に該当する有機体に該当する核酸配列データの比率が前記(9-1)の核酸配列データセットに対して10%未満である場合;及び
(iv)前記(9-1)の核酸配列データセットが全て前記グループ代表配列に対する有機体の核酸配列データセットであるが、前記核酸配列データセットを含む核酸レコードのディスクリプタにターゲット核酸分子名称が記載されていないか、前記ターゲット核酸分子の名称及び前記収集された同義語のうち少なくとも1つと異なる場合。
【0342】
前記(9)で前記所定の基準を満たすグループ代表配列は登載誤りのあるグループ代表配列であり、よって、前記(7)で提供されたターゲット核酸配列データセットにおいて前記登載誤りのあるグループ代表配列及び前記グループ代表配列と同一のグループに属するターゲット核酸配列データセットは、オリゴヌクレオチドのデザインに利用されないデザイン除外ターゲット核酸配列データセットとして分類した。
【0343】
(10)前記(3-1)の重複配列除去過程は、前記(6)又は(9)の後に実施した。
【0344】
(11)前記(8)で提供された非ターゲット核酸配列データセットに対して登載誤りがあるか確認した。具体的には、次の過程を含む方法によって実施した:前記非ターゲット核酸配列データセットに対する有機体の非ターゲット核酸配列と90%以上の相同性を有する核酸配列データをヌクレオチドデータベース(具体的には、NCBIのGenBank(SNP及びnon-WGSデータベース含む。)、RefSeq、DDBJ及びEMBLデータベースを含むヌクレオチドデータベースをダウンロードして構築したヌクレオチドデータベースを利用。)から収集して核酸配列データセット(11-1)として提供し、前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号が次の所定の基準のうち1つの基準を満たす場合に、前記非ターゲット核酸配列データセットにおいて前記有機体の非ターゲット核酸配列データをデザイン除外非ターゲット核酸配列データとして分類した。そして、前記所定の基準は次を含む:(i)前記(11-1)の核酸配列データセットに前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データは存在しなく、前記有機体と異なる有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データのみが存在する場合;
(ii)前記(11-1)の核酸配列データセットにおいて前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する非ターゲット核酸配列データの相同性が、前記有機体と異なる有機体の分類学的名称及び/又は分類学的識別記号に該当する核酸配列データの相同性と比較してより低い場合;及び
(iii)前記(11-1)の核酸配列データセットに前記非ターゲット核酸配列に対する有機体の分類学的名称及び/又は分類学的識別記号に該当する非ターゲット核酸配列データは存在しなく、前記有機体よりも上位の分類学的名称及び/又は分類学的識別記号に該当する有機体又はその下位の分類学的名称及び/又は分類学的識別記号に該当する有機体に該当する核酸配列データの比率が前記(11-1)の核酸配列データセットに対して10%未満である場合。
【0345】
前記(11)で前記所定の基準を満たす非ターゲット核酸配列データセットに対する有機体は、登載誤りのある非ターゲット核酸配列データセットであり、よって、前記(8)で提供された非ターゲット核酸配列データセットにおいて前記登載誤りのある有機体の非ターゲット核酸配列データセットは、オリゴヌクレオチドのデザインに利用されないデザイン除外非ターゲット核酸配列データセットとして分類した。
【0346】
図11は、前記(10)の後に提供されるサルモネラエンテリカに関する遺伝子sopBに対するターゲット核酸配列データセットのアラインメント結果を示す。
図11から確認できるように、複数のターゲット核酸配列をアラインした結果、灰色陰影よりも黒色陰影が多いことから、配列は相同性にしたがってアラインが正しく形成されたことが確認できた。前記(10)で選定されたグループ代表配列は5個で、最終収集されたターゲット核酸配列データセットに含まれた分類学的名称又は分類学的識別記号は総1,549個で、最終収集されたターゲット核酸配列データの数は13,989個であった。
【0347】
前記実施例1によって提供されたアラインメント結果である
図10と、前記実施例2によって提供されたアラインメント結果である
図11とを比較した結果、
図11において複数のターゲット核酸配列のアラインがよりよく形成されていることが確認できた。
【0348】
実施例2によるAutoMSA v3.0プログラムの実行の結果、接近番号、収集されたデータベース情報、核酸配列の長さ、遺伝子の位置情報、分類学的代表配列又はグループ代表配列か否か、有機体名(分類学的名称)、分類学的識別記号、相同性情報、バイオサンプル番号、アセンブリーレベル、RefSeq番号などの情報が含まれた前記(6)のオリゴヌクレオチドのデザイン用核酸配列データセットの目録、前記(7)のターゲット核酸配列データセットの目録、前記(8)の非ターゲット核酸配列データセットの目録、前記(3-1)及び(10)で重複配列として除去された核酸配列データセットの目録、前記(9)で分類されたデザイン除外ターゲット核酸配列データセットの目録、そして前記(11)で分類されたデザイン除外非ターゲット核酸配列データセットの目録が提供された。そして、前記(7)のターゲット核酸配列データセットのアラインメントファイル及び(8)の非ターゲット核酸配列データセットのアラインメントファイルが提供された。
【0349】
比較例2:サルモネラエンテリカ(Salmonella enterica)の遺伝子sopBを検出するために用いられるオリゴヌクレオチドのデザイン用核酸配列データセットの提供
比較例1でAutoMSAプログラム(AutoMSA v2.0)によって提供された
図2のアラインメントファイルを受信したユーザは、
図2のアラインメント結果からはオリゴヌクレオチドをデザインできず、アラインされた核酸配列から、登載誤りのあるグループ代表配列を検討して複数の核酸配列間にアラインを破るグループ代表配列を削除する過程を実施した。ユーザがグループ代表配列を削除するなどの検討過程を実施するには、変更されたグループ代表配列に対して相同性を有する核酸配列データをヌクレオチドデータベースから再び収集しなければならず、AutoMSAプログラム(AutoMSA v2.0)を再駆動した。
【0350】
比較例1で選定された25個のグループ代表配列のうち、ユーザが登載誤りのあるグループ代表配列1、3及び7~24及び前記グループ代表配列と同一のグループに属するターゲット核酸配列データセットを4回にわたって削除し、AutoMSAプログラム(AutoMSA v2.0)を4回再駆動した結果、
図12のようなアラインメント結果を得た。
【0351】
前記比較例2においてユーザの4回の配列検討過程を経て選定されたグループ代表配列は5個で、最終収集されたターゲット核酸配列データセットに含まれた分類学的名称又は分類学的識別記号は総1,517個で、最終収集されたターゲット核酸配列データの数は13,798個であった。
【0352】
前記実施例2の結果及び前記比較例2の結果を比較すると、前記実施例2による自動化された配列収集方法(AutoMSA v3.0)は、ただ1回のプログラム駆動によって5個のグループ代表配列を選定してオリゴヌクレオチドをデザインできる程度のアラインメントファイルを提供したし、比較例2に比べてより多いターゲット核酸配列を収集した。
【0353】
以上、本発明の特定の部分を詳細に記述したところ、当業界における通常の知識を有する者にとって、このような具体的な記述は好ましい具現例に過ぎず、これに本発明の範囲が限定されない点は明白である。したがって、本発明の実質的な範囲は添付の請求項及びその等価物によって定義されるといえよう。