【解決手段】集積集合データの製造装置において、取得部は、参照配列と検体群の複数の検体配列とを取得し、走査部は、検体群の検体配列について、各位置の核酸情報を、それぞれまとめて1つの集合とし、上流側から下流側に向かって、各位置の集合について、前記参照配列の核酸情報に対する変異の有無を示す変異パタンを走査し、集積部は、走査において、上流側の集合と下流側の集合とが集積条件を満たすか否かを、順次判定し、集積条件を満たす場合、上流側の集合に下流側の集合を追加して、複数の集合を含む集積集合とし、集積条件を満たさない場合、下流側の集合の追加を中止し、上流側の集合に追加されず、且つ、下流側の集合が追加されない集合を単独の集積集合とする集積集合データの製造装置。
【発明を実施するための形態】
【0012】
本発明において、「配列」は、生物の核酸に関する配列情報である。本発明において、「参照配列」とは、特に制限されず、検体配列を対比するための参照用の配列であり、任意の生物種の核酸に関する配列情報であればよい。「検体群」とは、複数の検体から構成される群であり、「検体配列」は、前記検体群を構成する各検体の配列情報である。検体の種類は、特に制限されず、例えば、ユーザが任意で選択できる。前記検体群における検体の個数は、特に制限されず、1以上、好ましくは2以上である。具体的に、個数の下限は、例えば、2以上、10以上であり、上限の個数は、特に制限されず、後述するプロセッサ等の使用により、例えば、1000個でも、それ以上であっても処理可能である。
【0013】
前記配列の種類は、特に制限されず、連続する位置のそれぞれに対応して核酸情報が並んだ配列であればよい。前記配列の長さは、特に制限されず、後述するプロセッサ等の使用により、1000オーダー、10000オーダー等の長さ、それ以上であっても処理可能である。「位置」は、例えば、連続する番号で表すことができ、例えば、20個の位置が連続している場合、位置1、位置2、位置3等で表すことができる。
【0014】
前記配列において、前記位置に対応する核酸情報は、特に制限されず、例えば、核酸の塩基があげられる。前記核酸情報が前記塩基の場合、前記配列は、塩基が連続した塩基配列である。この場合、前記塩基配列は、例えば、DNA、RNA等の配列があげられる。前記塩基配列は、塩基の並びによって表されるが、その並びは、特に制限されず、目的に応じて適宜設定できる。すなわち、前記並びは、例えば、シーケンシングによって決定された配列のように、物理的な距離に基づく並びでもよいし、組み換え等を反映した遺伝的な距離に基づく並びでもよいし、ゲノムワイド関連解析(GWAS)の統計的有意さの順位による並び等でもよい。前記核酸情報は、これには制限されず、例えば、同じ塩基が連続する個数、同じモチーフ配列が連続する個数等のように、数情報でもよい。前記核酸情報が前記数情報の場合、前記配列は、数字が連続した数字配列である。
【0015】
本発明において、参照配列および検体配列の核酸情報の種類および並びの形式は、特に制限されず、例えば、対比させる参照配列と検体配列とが共通する種類および形式であればよい。
【0016】
本発明において、「変異」とは、広義の意味であり、対応する位置において、前記参照配列に対して前記検体配列が異なる核酸情報を示すことをいう。前記配列が前記塩基配列の場合、例えば、前記参照配列のある位置の核酸情報が「A」であるのに対して、前記検体配列の同じ位置の核酸情報が「T」、「C」、「G」等であれば、前記検体配列の核酸情報は、狭義の変異、すなわち、前記参照配列と異なった遺伝子型(対立遺伝子)を有する変異といえる。また、前記配列が前記数字配列の場合、例えば、前記参照配列のある位置の数字情報が「4」であるのに対して、前記検体配列の同じ位置の数字情報が「1」、「2」、「3」等のように「4以外」であれば、前記検体配列の数字情報は、変異であるといえる。本発明においては、後述するように、例えば、参照配列に対して、対応する位置に異なる核酸情報を有する検体配列について、位置間の関係情報の関係性を抽出することから、前記位置は、変異位置ともいう。
【0017】
本発明において、「関係情報」とは、特に制限されず、例えば、解析目的とする検体群の位置間における関係性の対象であり、具体例として、同一の染色体内での連鎖不平衡、染色体を跨る配偶子不平衡等があげられる。前記連鎖不平衡は、例えば、2つの変異位置の間の相関である。
【0018】
本発明の実施形態について説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用できる。さらに、各実施形態の構成は、特に言及がない限り、組合せ可能である。以下、説明の便宜上、参照配列および検体配列は、それぞれ、シーケンシングによって決定された配列、つまり物理的な距離に基づく並びを示す配列を、例にあげて説明する。
【0019】
[実施形態1]
図1は、本実施形態の集積集合データの製造装置(製造装置)の一例の構成を示すブロック図である。
図1に示すように、製造装置10は、取得部11、走査部12、集積部13を有する。製造装置10は、例えば、さらに、出力部14を有してもよく、また、連結部15を有してもよい。連結部15を有する形態は、実施形態2において後述する。製造装置10は、例えば、製造システムともいう。製造装置10は、例えば、前記各部を含む1つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。
【0020】
前記通信回線網は、特に制限されず、公知の通信回線網を使用でき、有線でも無線でもよい。前記通信回線網は、例えば、インターネット回線、電話回線、LAN(Local Area Network)、WiFi(Wireless Fidelity)等があげられる。製造装置10は、各部の処理がクラウド上で行われてもよい。
【0021】
取得部11は、前記参照配列と、前記検体群の複数の検体配列とを取得する。取得部11による前記参照配列および前記検体配列の取得方法は、特に制限されず、例えば、後述する入力装置104により入力されてもよいし、通信デバイス106により通信回線網を介して、外部機器から受信してもよい。また、製造装置10は、例えば、様々な参照配列および複数の検体配列を記憶装置107に記憶させておき、必要に応じて、目的の参照配列および複数の検体配列(検体群の検体配列)を、取得部11により選択して取得してもよい。これによって、様々な検体を組み合わせた検体群に関して、解析を行うことができる。
【0022】
走査部12は、前記検体群の検体配列について、各位置の核酸情報を、それぞれまとめて1つの集合(1セットともいう)とし、上流側から下流側に向かって、各位置の集合について、前記参照配列の核酸情報に対する変異の有無を示す変異パタンを走査する。
【0023】
集積部13は、前記走査において、上流側の集合と下流側の集合とが集積条件を満たすか否かを、順次判定する。集積部13による判定は、例えば、走査部12による走査と並行して行うことができる。前記判定において、上流側の集合と下流側の集合とが前記集積条件を満たす場合、上流側の集合に下流側の集合を追加して、複数の集合を含む集積集合とし、前記集積条件を満たさない場合、下流側の集合の追加を中止する。また、上流側の集合と下流側の集合とが前記集積条件を満たさない場合であって、上流側の集合に追加されず、且つ、下流側の集合が追加されない集合は、単独の集積集合とする。集合が追加されていない後者の集合は、単独の集合のままであるため、単独集合ともいう。前記集積集合化は、ブロック化ともいい、前記集積集合は、ブロックともいう。前記関係情報が連鎖不平衡の場合、前記集積集合は、例えば、連鎖不平衡ブロック(LDブロック)ともいう。
【0024】
このような集積集合化によって、前記検体群の位置間における前記関係情報の関係性が前記集積集合として表された、集積集合データが製造できる。集積集合化とは、例えば、ブロック化ということもできる。すなわち、本発明においては、各集合が順次、関係情報について関係性を示す集合である場合には、集合の追加によりブロック化され、また、関係情報について関係性を示す集合がない場合には、単独の集積集合としてブロック化される。このため、前記検体群の各位置について、前記関係情報に関して関係性を示す、集積集合というブロックごとに分けられたデータを生成することができる。前記集積集合データによれば、その集積集合のみで、前記関係情報に関して関連性を示す集合を、例えば、視覚的に容易に判断することができる。
【0025】
出力部14は、前記検体群の検体配列の位置に対して、前記集積集合がブロックとして表記された集積集合データを出力する。前記データの出力は、例えば、後述するディスプレイ105への表示でもよいし、後述する通信デバイス106による前記通信回線網を介した前記外部機器への出力でもよい。
【0026】
つぎに、
図2に、製造装置10のハードウエア構成のブロック図を例示する。製造装置10は、例えば、CPU(中央処理装置)101、メモリ102、バス103、入力装置104、ディスプレイ105、通信デバイス106、記憶装置107を含む。製造装置10の各部は、それぞれのインターフェース(I/F)により、バス103を介して、相互に接続されている。
【0027】
CPU101は、製造装置10の全体の制御を担うプロセッサであり、CPUには限定されず、他のプロセッサでもよい。製造装置10において、CPU101により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。
【0028】
製造装置10は、例えば、バス103に接続された通信デバイス106により、通信回線網に接続でき、前記通信回線網を介して、例えば、外部機器とも接続できる。製造装置10と、前記外部機器との接続方式は、特に制限されず、例えば、有線による接続でもよいし、無線による接続でもよい。前記有線による接続は、例えば、コードによる接続でもよいし、通信回線網を利用するためのケーブル等による接続でもよい。前記無線による接続は、例えば、通信回線網を利用した接続でもよいし、無線通信を利用した接続でもよい。前記通信回線網は、特に制限されず、例えば、公知の通信回線網を使用でき、前述と同様である。前記外部機器は、特に制限されず、例えば、データベース、パーソナルコンピュータ(PC)、タブレット、スマートフォン等があげられる。
【0029】
メモリ102は、例えば、メインメモリを含み、前記メインメモリは、主記憶装置ともいう。CPU101が処理を行う際には、例えば、後述する補助記憶装置に記憶されている、本発明のプログラム等の種々のプログラム108を、メモリ102が読み込み、CPU101は、メモリ102からデータを受け取って、プログラム108を実行する。前記メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。メモリ102は、例えば、さらに、ROM(読み出し専用メモリ)を含む。
【0030】
記憶装置107は、例えば、前記メインメモリ(主記憶装置)に対して、いわゆる補助記憶装置ともいう。記憶装置107は、例えば、記憶媒体と、前記記憶媒体に読み書きするドライブとを含む。前記記憶媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、CD−ROM、CD−R、CD−RW、MO、DVD、フラッシュメモリー、メモリーカード等があげられ、前記ドライブは、特に制限されない。記憶装置107は、例えば、記憶媒体とドライブとが一体化されたハードディスクドライブ(HDD)も例示できる。記憶装置107には、例えば、前述のように、プログラム108が格納され、前述のように、CPU101を実行させる際、メモリ102が、記憶装置107から動作プログラム108を読み込む。また、記憶装置107は、例えば、製造装置10に入力される情報、製造装置10により得られる情報等が記憶されてもよい。記憶装置107は、例えば、前述した集積条件、後述する連結条件等の各種条件を記憶してもよい。
【0031】
入力装置104は、例えば、スキャナー、タッチパネル、キーボード等である。ディスプレイ105は、例えば、LEDディスプレイ、液晶ディスプレイ等があげられる。
【0032】
つぎに、本実施形態の製造方法について、一例として、
図3のフローチャートを用いて説明する。本実施形態の製造方法は、例えば、
図1および
図2の製造装置10を用いて実施できる。なお、本実施形態の製造方法は、製造装置10の使用には限定されない。
【0033】
まず、前記取得工程により、前記参照配列と、前記検体群の複数の検体配列とを取得する(S101)。前記工程は、例えば、製造装置10の取得部11により実行できる。
【0034】
つぎに、前記走査工程により、前記検体群の検体配列について、各位置の核酸情報を、それぞれまとめて1つの集合とし、上流側から下流側に向かって、各位置の集合について、前記参照配列の核酸情報に対する変異の有無を示す変異パタンを走査する(S102)。前記工程は、例えば、製造装置10の走査部12により実行できる。
【0035】
ここで、
図4に、前記参照配列および前記検体群の検体配列の概略を示す。
図4に示す各配列は、実際の生物の塩基配列ではなく、説明のために設定した20塩基長の疑似塩基配列である。
【0036】
図4(A)において、「参照配列」の横方向の並び(行)は、塩基が連続する塩基配列であり、連続する位置に対応する塩基を丸で示し、丸中に、塩基の種類(A、C、G、T)を示す。また、「位置」は、参照配列の連続する位置であり、上流側から通し番号(1〜20)を付している。「検体配列1〜5」は、検体群に含まれる5検体の検体配列である。そして、「検体配列1〜5」の横方向の並び(行)は、前記参照配列の連続する位置(1〜20)のそれぞれに対応するように塩基が連続する塩基配列であり、連続する位置に対応する塩基を丸で示す。
図4(A)において、検体配列の塩基の種類は省略する。
図4(A)において、検体配列1〜5は、同じ位置の塩基をそれぞれまとめて1つの集合となる。すなわち、
図4(A)の場合、例えば、位置1の集合は、検体1、2、3、4、および5の配列における位置1の縦方向の塩基の並び(列)で表される。「集合」は、例えば、「セット」ともいう。
【0037】
「上流側から下流側」とは、特に制限されず、例えば、配列における5’側から3’側の方向である。本発明は、これには制限されず、例えば、前記検体群の検体配列について、任意で、いずれか一方の末端側を上流側とし、他方の末端側を下流側と設定してもよい。また、「上流側から下流側」とは、一方向に向かっての走査であることを意味するものであって、走査の開始位置は、何ら制限されない。つまり、走査は、例えば、上流側の末端(位置1)から行われてもよいし、途中の位置から行われてもよい。
図4においては、一例として、配列の5’末端側である左側を上流側、配列の3’末端側である右側を下流側とし、末端からの走査として説明する。
【0038】
図4(B)に、前記検体群の検体配列の各集合における変異パタンの概略を示す。
図4(B)は、前記検体配列の各集合について、前記参考配列の同じ位置の塩基に対して変異を示す塩基を斜線の丸で示している。つまり、位置1の場合、参照配列の塩基は「A」であるため、前記検体群の検体配列について、位置1の塩基が「A」以外の変異塩基である場合、その塩基を、変異の存在を示す斜線の丸で示す。このように、位置1のセットは、検体1〜3は、参照配列と同じ塩基が記載された丸となり、検体4および5が斜線丸となる変異パタンとして表される。このような変異パタンを、前記走査によって、上流側から下流側に向かって、各集合について順次抽出していく。
【0039】
つぎに、前記集積工程は、前記走査において、上流側の集合と下流側の集合とが集積条件を満たすか否かを、順次判定する。前記判定においては、前記集積条件を満たす場合、上流側の集合に下流側の集合を追加して、複数の集合を含む集積集合とし、前記集積条件を満たさない場合、下流側の集合の追加を中止し、上流側の集合に追加されず、且つ、下流側の集合が追加されない集合を、単独の集積集合とする。前記集積工程は、例えば、製造装置10の集積部13により実行できる。
【0040】
具体的には、まず、任意の上流側の集合(n)をセットし(S103)、隣接する下流側の集合(n+1)をセットする(S104)。そして、上流側の集合(n)と下流側の集合(n+1)とが集積条件を満たすか否かを、判定する(S105)。前記集積条件を満たす場合(YES)、上流側の集合(n)に下流側の集合(n+1)を追加して、複数の集合を含む集積集合とする(S106)。続いて、さらに下流側に隣接する集合がある場合(S107、YES)は、その下流側の集合(n+2)をセットし(S104)、同様の処理を繰り返す。そして、さらに下流側に隣接する集合がない場合(S107、NO)には、下流側の集合の追加を中止し、終了する(END)。
【0041】
一方、集合条件を満たさない場合(S105、NO)には、下流側の集合(n+1)の追加を中止(S108)する。そして、さらに下流側に隣接する集合がある場合(S109、YES)は、追加を中止した下流側の集合を新たな上流側の集合としてセットし(S110)、さらに下流側の隣接する集合(n+2)をセットして(S104)、同様の処理を繰り返す。また、下流側の集合(n+1)の追加を中止し(S108)、且つ、さらに下流側に隣接する集合がない場合(S109、NO)は、追加を中止した下流側の集合を単独の集積集合として(S111)、終了する(END)。このように、前記集積工程によって、上流側の集合と下流側の集合とが前記集積条件を満たす限りは、連続して集合を追加していき、複数の集合を含む集積集合を生成し(ブロック化)、前記集積条件を満たさなくなった時点で、下流側の集合の追加が中止される。そして、追加が中止されると、新たに下流側の集合が起点となって、さらに下流側の集合の集積集合化が行われる。
【0042】
前記集積条件は、特に制限されず、例えば、前記関係情報の種類、前記関係情報について検出したい関係性の程度によって、適宜設定できる。前記集積条件としては、例えば、共通条件があげられる。前記共通条件は、例えば、上流側の集合の変異パタンと下流側の集合の変異パタンとの対比において、上流側の集合と下流側の集合の両方で変異を示す検体の個数が閾値以上、とする条件である。前記個数は、特に制限されず、例えば、2個、3個等、任意に設定できる。前記個数は、例えば、相対的に大きい程、前記関係情報の関係性が厳しく検出され、相対的に小さい程、前記関係情報の関係性が緩く検出される。
【0043】
ここで、さらなる具体例として、
図5に、
図4(B)に示す変異パタンの走査における集積集合化の例を示す。本例において、前記共通条件は、一例として、上流側の集合の変異パタンと下流側の集合の変異パタンとの対比において、上流側の集合と下流側の集合の両方で変異を示す検体の個数が閾値(2個)以上、とする。
【0044】
図5に示すように、上流側から下流側に向かって集合の変異パタンを走査した場合、位置1の集合に対して位置2の集合は、検体4および5において、同様に変異を示していることから、前記共通条件(閾値が2個)を満たす。そして、続く位置3のセットも、検体4および5において、同様に変異を示していることから、前記共通条件を満たす。したがって、位置1の集合に対して、位置2の集合および位置3の集合が追加され、集積集合化される。一方、次の位置4の集合は、検体5のみが変異を示すことから、前記共通条件を満たしていない。このため、位置1〜3を含む集積集合への、位置4の集合の追加は中止される。そして、新たに位置4の集合が上流側の集合としてセットされるが、変異を示す検体の個数が1個であるため、前記共通条件を満たさず、単独の集積集合となる。つぎに、位置5の集合が、新たな上流の集合としてセットされ、これに対して位置6の集合は、検体3、4、5において、同様に変異を示していることから、前記共通条件を満たす。このため、位置5の集合に位置6の集合が追加され、集積集合化される。以下、各位置において、同様に集積集合化の処理が行われる。このようにして、
図5に示すように、前記検体群の検体配列について、位置1〜20において、前記関係情報の関係性を示す集積集合化が行われる。
【0045】
前記共通条件は、例えば、隣接する上流側の集合と下流側の集合との間のみについて設定された条件でもよいし、集積集合に含まれる全ての集合と、その下流側の集合とのそれぞれについて設定された条件でもよい。
【0046】
前記共通条件を厳しく設定した場合、例えば、実際には関連性のある集合間に、他の変異が挿入されることによって、前記共通条件を満たさないとして、上流側の集合に関連性のある下流側の集合が追加されない可能性がある。そこで、前記集積条件は、例えば、前記共通条件とあわせて、さらに留保条件を含んでもよい。前記留保条件は、特に制限されず、例えば、前記上流側の集合に対して前記下流側の集合が前記共通条件を満たさない場合、それよりも下流側において前記共通条件を満たす集合の位置と、前記上流側の集合の位置との距離を、閾値以下とする条件である。前記距離は、前記共通条件を満たすセット間の距離(セット間のギャップ)であり、例えば、2塩基、1塩基等である。
【0047】
本実施形態の製造方法として、前記留保条件を使用する例を、
図6のフローチャートに示す。
図6のフローチャートは、特に示さない限り、
図3のフローチャートと同様である。
図6に示すように、上流側の集合(n)と下流側の集合(n+1)とが集積条件を満たすか否かの判定(S105)において、前記集積条件を満たさない場合(S105、NO)、さらに、前記留保条件を満たすか否かを判定する(S201)。そして、前記留保条件を満たす場合(S201、YES)は、前記上流側の集合(n)に前記下流側の集合(n+1)を追加して、複数の集合を含む集積集合とする(S106)。一方、前記留保条件を満たさない場合(S201、NO)は、下流側の集合(n+1)の追加を中止し(S108)、以下、同様にして処理を行う。
【0048】
ここで、さらなる具体例として、
図7に、
図4(B)に示す変異パタンの走査における集積集合化の例を示す。本例において、前記共通条件は、一例として、上流側の集合の変異パタンと下流側の集合の変異パタンとの対比において、上流側の集合と下流側の集合の両方で変異を示す検体の個数が閾値(2個)以上、とし、前記留保条件は、一例として、前記下流側の集合が前記共通条件を満たさない場合に、それよりも下流側において前記共通条件を満たす集合の位置と、前記上流側の集合の位置との距離を、閾値(1塩基)以下、とする。つまり、前記共通条件を満たさない塩基数を、閾値(1塩基)とする。
【0049】
前記共通条件のみを使用した場合、前記
図5に示すように、20塩基長の配列について、12個の集積集合が生成される。しかしながら、例えば、位置3と位置5とは、別々の集積集合となっているが、その変異パタン自体は、非常に共通性が高い。このため、前記共通条件のみによると、位置4の集合の変異パタンによって、位置3の集合と位置5の集合との関連性が除外されていると考えられる。このような場合、前記留保条件をさらに使用することで、位置3と位置5との関連性を拾い上げ、同じ集積集合とすることができる。すなわち、
図7に示すように、位置4の集合は、位置3の集合に対して前記共通条件を満たしていないが、それより下流の位置5の集合は、位置3の集合に対して前記共通条件を満たしており、集合間の距離は、位置4の1塩基であり、前記留保条件を満たす。このため、位置1〜3の集積集合に、位置4のセットが留保集合として追加され、さらに、位置5および6も追加され、位置1〜6を含む集積集合を生成できる。
図7において、検体配列の下における両方向矢印は、前記留保条件によって追加された前記共通条件を満たす位置同士の関係を示す。
【0050】
前記集積工程の後、出力工程により、例えば、前記検体群の検体配列の位置に対して、前記集積集合がブロックとして表記された集積集合データが出力されてもよい。前記集積集合データは、例えば、視覚的に示されるデータである。
【0051】
前述のように、前記集積条件を厳しく設定することによって、例えば、互いに関係性の高い変異位置を含んだ集積集合を得ることができる。この場合、例えば、多数の小規模な集積集合が生成されると考えられる。一方、集積条件を緩く設定することによって、例えば、互いの関係性が低い変異位置をも含む集積集合を得ることができる。この場合、例えば、少数の大規模な集積集合が生成されると考えられる。このため、例えば、前記集積条件の閾値を連続的に変更しながら、同じ検体群に対する集積集合化を、複数回にわたって実行することにより、集積集合の規模と、関係性の精度(解像度)が連続的に異なった、前記集積条件ごとの複数の集積集合の結果を得ることができる。前記集積条件ごとの複数の集積集合を、例えば、積層的(層状・レイヤー状ともいう)、または、再帰的(入れ子状)に重ねることによって、構造化した集積集合を表示することも可能である。前記構造化した集積集合は、例えば、集積条件の変更に伴う集合境界の情報も併せ持たせることができる。
【0052】
[実施形態2]
本実施形態は、
図1に示すように、さらに連結部15を有する製造装置10と、連結工程を有する製造方法について、例示する。
【0053】
前記実施形態1のような集積集合化を行った場合、本来であれば、単一となるはずの集積集合が、別の集積集合の挿入によって分断され、分断された範囲ごとに、複数の別々の集積集合が生成される可能性がある。例えば、前述の
図7には、検体1〜5の検体群の配列から、1から8までの集積集合が生成されている。しかし、これを検体3〜5のみに着目してみると、
図12に示すように、太線で囲む位置は変異を有するが、位置7〜9、17、18、および20は変異を有さない。このため、検体3〜5のみの検体群を想定すると、集積集合2、3は、生成されないことになる。さらに、検体3〜5の検体群の場合、位置7〜位置9は含まれないため、位置6と位置11とが、位置10を介して、前記留保条件を満たしている。このため、位置7の集積集合2、位置8の集積集合3、位置9(および位置10)の集積集合4によって、本来、単一となる集積集合が、集積集合1と集積集合5とに分断されると解される。このため、さらに、別の集積集合の挿入により分断された前述のような集積集合間を連結することによって、例えば、複数の集積集合によって構成される、より大きな範囲における関係情報の関連性を抽出することが可能になる。本実施形態においては、連結部15または前記連結工程を有することによって、このようなことが可能になる。
【0054】
本実施形態の製造装置10において、連結部15は、集積部13で得られた集積集合に関して、隣接しない集積集合間が連結条件を満たすか否かを判定し、前記連結条件を満たす場合、集積集合間を連結集合とする。このような連結集合化によって、例えば、前記集積集合データを、さらに、集積集合間における前記関係情報の関係性が表されたデータとすることができる。
【0055】
本実施形態の製造方法において、前記連結工程は、前記連結工程で得られた集積集合に関して、隣接しない集積集合間が連結条件を満たすか否かを判定し、前記連結条件を満たす場合、集積集合間を連結集合とする。前記連結工程は、例えば、製造装置10において連結部15によって実行できる。
【0056】
前記連結条件は、特に制限されず、例えば、上流側の集積集合の下流側末端の集合と、下流側の集積集合の上流側末端の集合とが、前記集積条件を満たす、とする条件があげられる。
【0057】
ここで、具体例として、
図8に、
図4(B)に示す集積集合に対する連結集合化の例を示す。本例において、前記連結条件における前記共通条件は、一例として、上流側の集合の変異パタンと下流側の集合の変異パタンとの対比において、上流側の集合と下流側の集合の両方で変異を示す検体の個数が閾値(2個)以上、とする。
【0058】
図8に示すように、集積集合1と集積集合5との間には、集積集合2〜4が介在している。しかし、集積集合1の下流側の末端である位置6の集合と、集積集合5の上流側の末端である位置11の集合とは、検体配列3、4、5において変異を有し、前記共通条件を満たす。このため、集積集合1と集積集合5とは、連結集合として連結できる。また、集積集合4と集積集合8との間においても同様であり、連結集合として連結できる。
図8において、検体配列の上における線は、前記連結条件を満たす集積集合同士、より具体的には、前記連結条件を満たす位置同士の関係を示す。
【0059】
前記連結条件は、この他にも、例えば、両集積集合(2つの集積集合)を跨がる全変異位置の対が集積条件を満たす、とする条件があげられる。具体例をあげると、例えば、集積集合1は、位置1、2、3、4、5、6を含み、集積集合5は、位置11、12を含むことから、前記対とは、位置1と11、位置1と12、位置2と11、位置2と12等の全て組合せのことを意味する。そして、これらの全ての組合せの対が、前記集積条件を満たすとする、条件の例である。例えば、前述のように、上流側の末端と下流側の末端のみで判定する場合、生成される連結集合の上流側と下流側とでは、前記集積条件を満たさない形態も生じ得るが、全ての対とすることで、連結するか否かをより厳しく判定できるため、生成される連結集合の上流側と下流側とで、前記集積条件を満たさない可能性を低減できる。
【0060】
[実施形態3]
本実施形態は、例えば、前記検体群の検体情報として、前記検体配列の他に、さらに属性情報を利用する形態である。
【0061】
本実施形態においては、前記検体群の検体情報として、前記検体配列の他に、さらに属性情報を含む。前記属性情報の種類は、特に制限されず、例えば、疾患等の形質情報、人種情報、性別情報、年齢情報等である。前記疾患の形質情報は、例えば、疾患の有無、疾患に関連する値等である。遺伝子における変異、連鎖不平衡等は、その属性と関連性を示す可能性があることが知られている。このため、本実施形態によれば、前述の実施形態のように、集合の変異パタンから、核酸情報についての関係性を集積集合化、さらに任意で連結集合化するにあたって、属性情報を加味することによって、属性と変異との関連についてのさらなる解析が可能となる。
【0062】
本実施形態の製造装置10において、集積部13は、前記集積条件と属性条件とを使用して、集積集合化を行う。前記属性条件は、例えば、集積集合における集合パタンの分布と目的の属性の分布との相関関数が最大、とする条件である。また、本実施形態の製造方法において、前記集積工程は、前記集積条件と属性条件とを使用して、集積集合化を行う。この工程は、例えば、製造装置10の集積部13により実行できる。
【0063】
また、本実施形態の製造装置10において、連結部15は、前記連結条件と属性条件とを使用して、連結集合化を行う。前記属性条件は、例えば、集積集合における変異パタンの分布と目的の属性の分布との相関関数が最大、とする条件である。本実施形態の製造方法において、前記連結工程は、前記連結条件と属性条件とを使用して、連結集合化を行う。この工程は、例えば、製造装置10の連結部15により実行できる。
【0064】
前述の各実施形態では、各位置の核酸情報を用いて集積集合化を行っているが、本実施形態においては、前述のように、属性情報を利用して集積集合化を行うこともできる。つまり、例えば、別途に設定した評価関数(エネルギー関数)を最適化するように、集積集合の境界を決定することも可能である。前記評価関数として、例えば、 ある集積集合内での各検体の変異パタンと、前記集積集合内での各検体の形質情報との間の相関(関係)関数を設定し、その相関関数の値が高くなるように集積集合化を行うことによって、特定の形質に関係する変異位置の集積集合を検出することができる。その際には、前記集積条件に、生成される集積集合と形質との間の相関(関係)を評価する条件が、追加される。このような形態によれば、前記検体群の変異パタンのみに基づいて集積集合化するのではなく、生成される集積集合と形質との間の相関関係が高くなるように、集積集合と集積集合との境界を決定できる。つまり、変異パタン間の関係性、形質情報間の関連性に加え、前者と後者との関連性をも考慮された集積集合化が可能になる。
【0065】
検体群には、例えば、ある疾患の形質について、陽性(罹患)の検体と、陰性(健常)の検体とが含まれる可能性がある。一方、変異パタンのみによる集積集合化は、例えば、連鎖不平衡の関連性を反映しているが、これには形質が反映されていない。このため、例えば、集積集合化を利用して、形質Xと連鎖不平衡との関連を解析する場合、変異パタンのみによる集積集合の結果では、形質との関連を正確に推定できない可能性が考えられる。このため、形質と連鎖不平衡との関連性の解析等を前提とする場合には、本実施形態のように、さらに検体群の各検体の情報として、検体配列と形質情報とを紐付けて使用することが好ましい。そして、得られる集積集合において、各検体の変異パタンの分布と、各検体の形質(例えば、疾患Xに罹患)の分布との関連性を示す相関係数が、最大となるように、集積集合化を行うことが好ましい。このような形態によれば、疾患Xに罹患している検体の変異パタンが重み付けされた集積集合化が可能になる。このため、得られた集積集合の結果に基づけば、例えば、新規の検体が、同様の変異パタンであれば疾患Xに罹患する可能性があると推定できる。
【0066】
前記形質情報としては、前述のように、特に制限されず、例えば、名義的属性(例えば、大小関係が定義されない属性)、および数値的属性(例えば、大小関係が定義される連続的または離散的な属性)等の設定が可能である。
【0067】
また、形質と相関するように集積集合化を行い、各集積集合内の変異パタンの分布から、変異パタンの差異に基づいて、前記検体群を、類似する変異パタンとなる部分群に分類してもよい。そして、その部分群ごとに、部分群の中では、特定の形質の値と特定の変異パタンの頻度とが、高くなるように設定することもできる。このようにすれば、例えば、新規の検体について、以下のような評価が可能である。すなわち、前記新規検体が、形質情報が未知であり、且つ、集積集合内に含まれる特定の変異位置と同じ変異が既知である場合である。この場合、前記新規検体の変異パタンと各部分群の変異パタンとの関連度を評価することにより、各部分群に含まれる既存の検体の形質情報に基づいて、前記新規の検体がどのような形質の特性を有するかを、変異パタンのみから推定することが可能になる。
【0068】
[実施形態4]
本実施形態は、例えば、得られた集積集合データを可視化する形態である。
【0069】
前述の各実施形態によって得られる集積集合データは、例えば、可視化したデータとして出力することができる。この可視化データの例を、図を用いて説明する。
図9および10に、可視化した集積集合データの一例を示す。なお、各図に示す各配列は、実際の生物の塩基配列ではなく、説明のために設定した疑似塩基配列である。また、各図は、関係情報を連鎖不平衡とし、その関係性は、2つの変異位置での変異パタン間のカイ二乗値に相当する指標で評価した例とする。
【0070】
図9において、左端および右端の各列の番号は、10検体の検体番号(1−10)であり、検体番号の横方向の情報は、各検体配列の各位置における塩基情報(変異)であり、検体の下の横方向の情報は、参照配列の各位置における核酸情報である。参照配列の塩基情報は、〇の中に文字で示されており、一方、検体配列の塩基情報は、参照配列と異なる変異のみ、〇の中に文字で示されている。なお、
図9において、参照配列は、全配列ではなく、エクソン領域において検体が変異を示している変異位置のみを対象として示している。前記参照配列の下の横方向の情報は、染色体の位置情報であり、染色体の位置情報と参照配列の塩基情報とを結ぶ線は、参照配列の各位置について、染色体における実際の物理位置との対応を示す。
【0071】
図9において、10検体の配列において、縦方向で分断される矩形領域が、それぞれ集積集合(例えば、連鎖連鎖不平衡ブロックともいう)を表す。各矩形領域の上部における複数の曲線は、それぞれの集積集合間が関係することを示す。前記曲線は、例えば、色の濃淡、線の太さ、線の種類等によって、関係の強弱を表すこともできる。前記関係は、例えば、前記連結集合の関係である。前記曲線で接続された一方の集積集合は、それに含まれる全ての集合が、他方の集積集合との間によって、直接または間接的に連結していることを示す。そして、それらを接続する曲線を辿ることによって、例えば、直接または間接的に連結している集積集合(連結集合)を検索することができる。具体例として、例えば、
図9の場合、集積集合1、3、7、10、11、12、13、14、15、16、および17は、曲線を辿って相互に連結されている。つまり、
図9においては、前記集積集合群が存在する染色体の範囲内にある単独の変異位置から構成される連結集合も同時に表示している。このため、例えば、ゲノム全域を処理する場合には、このような連結集合が複数出力されてもよい。
【0072】
図9の樹形図において、左端の検体番号をつなぐ木構造は、検体1−10の検体群における、変異パタンに基づいた部分群への分類を表す。すなわち、この樹形図において、線によって連結された検体が、部分群となる。具体例として、例えば、検体1と6は、最も小さい部分群となり、検体1、6、2、8、5、および9は、より大きな部分群となる。
【0073】
図9において、検体群の前記集積集合の上段には、さらに、集積集合を矩形領域で表し、且つ、矩形領域を結ぶ直線の組合せ(ネットワークの経路)によって、集積集合間の関係を示している。この直線は、前述した関係性を示す曲線に対応するが、上流から下流側に向かって、曲線の組合せが重複しないように、線の色、太さ、形状を変えることによって、関係性を表している。すなわち、例えば、上流側から、集積集合を連結する曲線をたどっていくと、「集積集合1→7→11→13→15→17」の組合せが抽出される。この曲線を使用済みと仮定すると、つぎに、「集積集合3→7→12」の組合せが抽出される。同様に組合せに使用された曲線を除外すると、「集積集合3→10→13」、「集積集合11→14→16」という組み合わせが抽出される。これらの各組合せを、それぞれ線の形態を変えて表記したのが、上段の情報である。また、線の形態は、ネットワークの経路の長さに応じて、決定してもよく、同じネットワークに含まれる線は、同じ色で示される。また、ネットワークの経路は、例えば、任意の条件によって、それを構成する直線の本数を限定してもよい。
【0074】
つぎに、
図10について説明する。なお、
図10において、
図9と同様の表記については、説明を省略する。
図10は、さらに、互いに位置的に重複するものの、集積集合間の関係を示す曲線では直接にも間接的にも連結していない集積集合群を同時に表示した例である。例えば、
図10において、集積集合25、27、30、および、33は、同じ種類の線で直接または間接的に連結されており、それによって、これらの集積集合間の関係が示されている。集積集合1、3、4、6、8、12、13、14,15、16、17、19、21、22、24、および26も、同様に、それぞれ関係している集積集合間が、同じ種類の線で連結されている。前記2つの集積集合群は、例えば、互いに位置的に重複するものの、集積集合間の関係を示す曲線によっては直接にも間接的にも連結していない、と読み取ることができる。
【0075】
[実施形態5]
本実施形態は、例えば、前述した各実施形態において得られる集積集合データの利用形態について例示する。なお、以下の説明において、「配列の変異パタン」とは、検体等の変異を含む配列を意味し、前述の各実施形態における「集合における検体間の変異パタン」とは別の意味である。
【0076】
DNA配列の変異パタンは、個人情報に該当するために、それ自体の授受および収集には制約が存在する。しかしながら、全ての状況において、個人を特定するような精度または形式で、配列の変異パタンを必要としているとは限らない。そうすると、解析において、例えば、複数の変異位置での変異パタンの分類情報、すなわち、厳密な一致ではなく類似した配列の変異パタンを複数含む部分群(変異および形質情報について関連性を示す複数の検体を含む群)の情報を用いる場合、個々の配列の変異パタンではなく、各部分群とどのような関係になっているかの情報のみがあれば十分であると考えられる。したがって、情報を受け渡しする実施者が、それぞれ、既知配列の変異パタンを参照できる場合、例えば、ある評価対象の検体(評価用検体)について、各部分群との関連に関する情報を算出した結果のみを授受することによって、評価用検体の配列の変異パタンそのものの直接の授受を回避することができる。
【0077】
授受する情報の対象である前記評価用検体について、前記部分群内の検体の配列の変異パタンそのものではなく、例えば、同じ部分群内における変異の頻度を集計した配列プロファイル(変異プロファイル)を生成し、前記評価用検体と前記部分群(複数の参照用検体を含む)との関連付けを、同プロファイルを介して行うことも可能である。ここで「参照用検体」は、前述の各実施形態に示す参照配列ではなく、前記部分群を構成する検体をいう。
【0078】
また、前記評価用検体に対して、例えば、最も関連性の高い単一の部分群(1つの部分群)を特定して、その情報を授受することも可能である。前記評価用検体について、前記参照用検体の部分群との関連付けの情報が特定することで、例えば、前記評価検体の情報として、関連性のある前記部分群の変異パタンと、それに付随する属性情報(変異パタンと疾患に関連する形質との関係性等)を授受することもできる。そして、それ自体は個人情報には該当しないため、制限を回避可能である。
【0079】
単一の変異パタンのみから構成される部分群の情報の場合、個人情報として判別が可能となってしまう。このため、例えば、検体群の部分群は、特定の個人の変異パタンと類似した変異パタンを含むものの、複数の構成要素を含み、部分群内での配列プロファイル(変異プロファイル、変異パタン)のみでは、実際にどのような変異パタンを形成しているかが判別できない状態(匿名化)にする必要がある。
【0080】
また、受け渡しする実施者が利用できる情報として、例えば、前記部分群内の検体の配列の変異パタンそのものを共有(公開)してもよいが、これに変えて、部分群ごとの部分群変異パタン(部分群配列プロファイルまたは部分群変異プロファイルともいう)を共有(公開)してもよい。これによって、実施者は、例えば、前記評価用検体と前記参照用検体の部分群との関連付けを、前記部分群変異パタン(前記部分群変異プロファイル)を介して行うことも可能である。前記部分群変異パタンは、例えば、同じ部分群に含まれる参照用配列の変異パタンから生成することができる。
【0081】
実施者は、例えば、予め共有(公開)されている複数の検体を参照用検体として、前述した実施形態に基づいて部分群に分類し、その分類した結果を「鍵」として設定してもよい。そして、前記参照用検体とは別に設定した評価用検体に関する前記鍵による変換情報(各分類群との関連性の情報)のみを授受してもよい。受け取った前記変換情報は、前記鍵(参照検体の部分群への分類)を用いて、一定範囲内で元の変異情報を絞り込むことが可能である。その際に、前記参照用検体およびその部分群への分類情報は、複数の実施者の間において秘匿して共有、あるいは、公開して共有が可能である。また、前述した評価用検体は、例えば、参照用検体に含まれる検体でもよい。
【0082】
図11に、前記
図8で例示した5検体を前記参照用検体とし、3つの部分群A〜Cへ分類した例を示す。
図11の各配列において、斜線の丸は、参照配列とは異なる変異であることを示す。
図11において、1段目は、参照配列を示し、4段目は、評価用検体の配列の変異パタンを示す。2段目は、前記
図8と同様の参照用検体の配列の変異パタンを、部分群A、B、Cごとに示す。そして、3段目は、各部分群A、B、Cのそれぞれの部分群変異パタン(変異プロファイル)A、B、Cを示す。部分群変異パタンA、B、Cは、それぞれ、部分群内での変異の和集合、すなわち、同じ部分群に含まれるいずれかの検体で変異が有るか否かの情報として示す。ここでは、単純化のために、各変異位置での変異の有無に注目して部分群変異パタンを生成した例とする。すなわち、部分群Aの部分群変異パタンAの場合、検体1または2のいずれかが変異を示す位置が、斜線丸で表記された変異プロファイルとなっている。
【0083】
複数の実施者の間において、例えば、2段目の部分群の情報または3段目の部分群変異パタン(変異プロファイル)を予め共有しておけば、4段目の評価用検体の配列の変異パタンについて、部分群A、B、Cに含まれる参照用検体の配列の変異パタンのいずれかとの関連性の情報、または、部分群変異パタンA、B、Cのいずれかとの関連性の情報を得ることができる。その情報のみを授受することにより、前記評価用検体の配列の変異パタンおよびそれに付随する属性情報を共有することが可能になる。ここで、変異パタンA〜Cは、参照用検体のいずれとも一致しないために、個人情報には該当しないことから、情報の授受について制限を回避できる。
【0084】
[実施形態6]
本実施形態のプログラムは、前記本発明の製造方法を、コンピュータ上で実行可能なプログラムである。または、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体としては、特に限定されず、例えば、前述のような記憶媒体等があげられる。
【0085】
以上、実施形態を参照して本願発明を説明したが、本願発明は、上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【0086】
<付記>
上記の実施形態および実施例の一部または全部は、以下の付記のように記載されうるが、以下には限られない。
(付記1)
取得部、走査部、および集積部を含み、
前記取得部は、
参照配列と、検体群の複数の検体配列とを取得し、
前記参照配列は、連続する位置のそれぞれに対応して核酸情報が並んだ配列であり、
前記検体配列は、前記検体群に含まれる各検体の検体配列であり、前記参照配列の連続する位置のそれぞれに対応して核酸情報が並んだ配列であり、
前記走査部は、
前記検体群の検体配列について、各位置の核酸情報を、それぞれまとめて1つの集合とし、上流側から下流側に向かって、各位置の集合について、前記参照配列の核酸情報に対する変異の有無を示す変異パタンを走査し、
前記集積部は、
前記走査において、上流側の集合と下流側の集合とが集積条件を満たすか否かを、順次判定し、
前記集積条件を満たす場合、上流側の集合に下流側の集合を追加して、複数の集合を含む集積集合とし、
前記集積条件を満たさない場合、下流側の集合の追加を中止し、
上流側の集合に追加されず、且つ、下流側の集合が追加されない集合を、単独の集積集合とし、
前記集積条件は、位置間の任意の関係情報に関する変異パタンの共通性に基づく条件であり、
前記集積部の集積集合化によって、前記検体群の位置間における前記関係情報の関係性が前記集積集合として表された、集積集合データが製造される、ことを特徴とする集積集合データの製造装置。
(付記2)
前記集積条件は、共通条件であり、
前記共通条件は、上流側の集合の変異パタンと下流側の集合の変異パタンとの対比において、前記上流側の集合と前記下流側の集合との両方で変異を示す検体の個数が閾値以上、とする条件である、付記1記載の製造装置。
(付記3)
前記集積条件は、さらに、留保条件を含み、
前記留保条件は、前記上流側の集合に対して前記下流側の集合が前記共通条件を満たさない場合、それよりも下流側において前記共通条件を満たす集合の位置と、前記上流側の集合の位置との距離を、閾値以下とする条件である、付記2に記載の製造装置。
(付記4)
さらに出力部を含み、
前記出力部は、前記検体群の検体配列の位置に対して、前記集積集合がブロックとして表記された集積集合データを出力する、付記1から3のいずれかに記載の製造装置。
(付記5)
さらに連結部を含み、
前記連結部は、
隣接しない集積集合間が連結条件を満たすか否かを判定し、
前記連結条件を満たす場合、集積集合間を連結集合とし、
前記連結条件は、上流側の集積集合の下流側末端の集合と、下流側の集積集合の上流側末端の集合とが、前記集積条件を満たす、とする条件であり、
前記連結部の連結集合化によって、前記集積集合データを、さらに、集積集合間における前記関係情報の関係性が表されたデータとする、付記1から4のいずれかに記載の製造装置。
(付記6)
さらに出力部を含み、
前記出力部は、前記検体群の検体配列の位置に対して、前記集積集合がブロックとして表記され、前記連結集合が連結線で表記された集積集合データを出力する、付記5に記載の製造装置。
(付記7)
前記集積部は、複数の異なる集積条件に基づいて、複数の集積集合化を行う、付記1から6のいずれかに記載の製造装置。
(付記8)
前記位置間の任意の関係情報が、連鎖不平衡である、付記1から7のいずれかに記載の製造装置。
(付記9)
前記検体群の検体情報として、前記検体配列の他に、属性情報を含み、
前記集積部は、
前記集積条件と属性条件とを使用して、集積集合化を行い、
前記属性条件は、集積集合における集合パタンの分布と目的の属性の分布との相関関数が最大、とする条件である、付記1から8のいずれかに記載の製造装置。
(付記10)
前記検体群の検体情報として、前記検体配列の他に、属性情報を含み、
前記連結部は、
前記連結条件と属性条件とを使用して、連結集合化を行い、
前記属性条件は、集積集合における変異パタンの分布と目的の属性の分布との相関関数が最大、とする条件である、付記5から9のいずれかに記載の製造装置。
(付記11)
取得工程、走査工程、および集積工程を含み、
前記取得工程は、
参照配列と、検体群の複数の検体配列とを取得し、
前記参照配列は、連続する位置のそれぞれに対応して核酸情報が並んだ配列であり、
前記検体配列は、前記検体群に含まれる各検体の検体配列であり、前記参照配列の連続する位置のそれぞれに対応して核酸情報が並んだ配列であり、
前記走査工程は、
前記検体群の検体配列について、各位置の核酸情報を、それぞれまとめて1つの集合とし、上流側から下流側に向かって、各位置の集合について、前記参照配列の核酸情報に対する変異の有無を示す変異パタンを走査し、
前記集積工程は、
前記走査において、上流側の集合と下流側の集合とが集積条件を満たすか否かを、順次判定し、
前記集積条件を満たす場合、上流側の集合に下流側の集合を追加して、複数の集合を含む集積集合とし、
前記集積条件を満たさない場合、下流側の集合の追加を中止し、
上流側の集合に追加されず、且つ、下流側の集合が追加されない集合を、単独の集積集合とし、
前記集積条件は、位置間の任意の関係情報に関する変異パタンの共通性に基づく条件であり、
前記集積工程の集積集合化によって、前記検体群の位置間における前記関係情報の関係性が前記集積集合として表された、集積集合データが製造される、ことを特徴とする集積集合データの製造方法。
(付記12)
前記集積条件は、共通条件であり、
前記共通条件は、上流側の集合の変異パタンと下流側の集合の変異パタンとの対比において、前記上流側の集合と前記下流側の集合との両方で変異を示す検体の個数が閾値以上、とする条件である、付記11記載の製造方法。
(付記13)
前記集積条件は、さらに、留保条件を含み、
前記留保条件は、前記上流側の集合に対して前記下流側の集合が前記共通条件を満たさない場合、それよりも下流側において前記共通条件を満たす集合の位置と、前記上流側の集合の位置との距離を、閾値以下とする条件である、付記12に記載の製造方法。
(付記14)
さらに出力工程を含み、
前記出力工程は、前記検体群の検体配列の位置に対して、前記集積集合がブロックとして表記された集積集合データを出力する、付記11から13のいずれかに記載の製造方法。
(付記15)
さらに連結工程を含み、
前記連結工程は、
隣接しない集積集合間が連結条件を満たすか否かを判定し、
前記連結条件を満たす場合、集積集合間を連結集合とし、
前記連結条件は、上流側の集積集合の下流側末端の集合と、下流側の集積集合の上流側末端の集合とが、前記集積条件を満たす、とする条件であり、
前記連結工程の連結集合化によって、前記集積集合データを、さらに、集積集合間における前記関係情報の関係性が表されたデータとする、付記11から14のいずれかに記載の製造方法。
(付記16)
さらに出力工程を含み、
前記出力工程は、前記検体群の検体配列の位置に対して、前記集積集合がブロックとして表記され、前記連結集合が連結線で表記された集積集合データを出力する、付記15に記載の製造方法。
(付記17)
前記集積工程は、複数の異なる集積条件に基づいて、複数の集積集合化を行う、付記11から16のいずれかに記載の製造方法。
(付記18)
前記位置間の任意の関係情報が、連鎖不平衡である、付記11から17のいずれかに記載の製造方法。
(付記19)
前記検体群の検体情報として、前記検体配列の他に、属性情報を含み、
前記集積工程は、
前記集積条件と属性条件とを使用して、集積集合化を行い、
前記属性条件は、集積集合における集合パタンの分布と目的の属性の分布との相関関数が最大、とする条件である、付記11から18のいずれかに記載の製造方法。
(付記20)
前記検体群の検体情報として、前記検体配列の他に、属性情報を含み、
前記連結工程は、
前記連結条件と属性条件とを使用して、連結集合化を行い、
前記属性条件は、集積集合における変異パタンの分布と目的の属性の分布との相関関数が最大、とする条件である、付記15から19のいずれかに記載の製造方法。
(付記21)
付記11から20のいずれかに記載の製造方法をコンピュータに実行させることを特徴とするプログラム。
(付記22)
付記21記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。