IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Rhelixaの特許一覧

特許7089804データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-15
(45)【発行日】2022-06-23
(54)【発明の名称】データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体
(51)【国際特許分類】
   G16B 50/00 20190101AFI20220616BHJP
【FI】
G16B50/00
【請求項の数】 7
(21)【出願番号】P 2020508869
(86)(22)【出願日】2018-03-30
(86)【国際出願番号】 JP2018013863
(87)【国際公開番号】W WO2019187100
(87)【国際公開日】2019-10-03
【審査請求日】2020-09-15
(73)【特許権者】
【識別番号】520358379
【氏名又は名称】株式会社Rhelixa
(74)【代理人】
【識別番号】110000800
【氏名又は名称】特許業務法人創成国際特許事務所
(72)【発明者】
【氏名】仲木 竜
(72)【発明者】
【氏名】與島 仙太郎
(72)【発明者】
【氏名】小林 真輝人
(72)【発明者】
【氏名】村上 大騎
【審査官】梅岡 信幸
(56)【参考文献】
【文献】特開2017-224191(JP,A)
【文献】特開2007-334769(JP,A)
【文献】国際公開第2015/146852(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
C12M 1/00- 3/10
(57)【特許請求の範囲】
【請求項1】
長さが第1塩基数である第1塩基配列データを記憶する第1塩基配列記憶部と、
第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値を認識する位置認識部と、
各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成する並替部と、
前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識する基準要素認識部と、
前記位置の配列において並び順に2番目以降の各要素について、当該要素と前記並び順で当該要素より1つ前の要素との差分を隣り合う要素間の差分として認識する差分認識部と、
前記基準要素認識部により認識された基準要素と前記差分認識部により認識された前記要素間の差分とを含むデータを作成するデータ作成部とを備えることを特徴とするデータ作成装置。
【請求項2】
請求項1記載のデータ作成装置において、
前記基準要素認識部は、位置の配列に含まれる要素のうち最小の値の要素を基準要素として認識するように構成されていることを特徴とするデータ作成装置。
【請求項3】
請求項1又は2記載のデータ作成装置において、
前記データ作成部は、前記要素間の差分を示すデータとして、先行又は後続するデータが関連するデータであるか否かを示す第1部分と14ビット以下のデータを格納する第2部分とを一又は複数含む可変長データを作成することを特徴とするデータ作成装置。
【請求項4】
請求項3記載のデータ作成装置において、
前記第2部分は、6ビット以下であることを特徴とするデータ作成装置。
【請求項5】
請求項4記載のデータ作成装置において、
前記第2部分は、3ビット以下であることを特徴とするデータ作成装置。
【請求項6】
長さが第1塩基数である第1塩基配列データを記憶する第1塩基配列記憶部を備えるコンピュータが実行する方法であって、
第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値を認識するステップと、
各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成するステップと、
前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識するステップと、
前記位置の配列において並び順に2番目以降の各要素について、当該要素と前記並び順で当該要素より1つ前の要素との差分を隣り合う要素間の差分として認識する認識するステップと、
前記基準要素と前記要素間の差分とを含むデータを作成するステップとを含むことを特徴とするデータ作成方法。
【請求項7】
長さが第1塩基数である第1塩基配列データを記憶する第1塩基配列記憶部を備えるコンピュータに、
第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値を認識するステップと、
各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成するステップと、
前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識するステップと、
前記位置の配列において並び順に2番目以降の各要素について、当該要素と前記並び順で当該要素より1つ前の要素との差分を隣り合う要素間の差分として認識するステップと、
前記基準要素と前記要素間の差分とを含むデータを作成するステップとを実行させることを特徴とするデータ作成プログラムを格納した記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成するデータ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体に関する。
【背景技術】
【0002】
生体のゲノム情報は、多様な用途に活用されることが期待されている。
【0003】
例えば、人又は動物のゲノム情報に基づいて、人又は動物の遺伝的体質を解析したり、人又は動物の疾病の発症を予測したり、人又は動物の病気の進行度合いを把握したりすることが期待されている。また、植物又は微生物のゲノム情報に基づいて、土壌、水又は生産物の最適化などを行うことも期待されている。
【0004】
このようなゲノム情報の活用に当たっては、ゲノム情報を数多く収集することが必要となる。しかし、一般的に、ゲノム情報を示すデータは、非常に大きなデータ容量となることが多い。例えば、人のゲノム情報であるヒトゲノムを再現するための配列群データは数100ギガバイトのデータ容量に至る。
【0005】
このため、すべてのゲノム情報をそのまま保存または送信すると、データベースの記憶容量が圧迫されたり、又は通信回線が逼迫したりする可能性がある。
【0006】
このため、ゲノム情報のデータ容量を削減することが重要な課題となる。
【0007】
特許文献1には、基準となるゲノムデータと各人のゲノムデータとを比較し、基準となるゲノムデータと各人のゲノムデータとで異なる塩基情報のみを保存し、伝送することで、通常のゲノムデータの約0.1%のデータ容量に圧縮する技術が提案されている。
【先行技術文献】
【特許文献】
【0008】
【文献】国際公開第2015/146852号
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、特許文献1の技術は、各人のゲノムデータの塩基記号の並び(ACGTの並び)を再現するにとどまっている。すなわち、特許文献1の技術では、塩基記号以外の情報、例えば、ゲノムシーケンサーによる塩基情報の読み取り頻度等を再現することができなかった。
【0010】
一般的に、ゲノムシーケンサーは、対象のゲノム情報を読み取るにあたり、一回の読み取りでは、ゲノム情報の全部(人の場合、約31億塩基対)ではなく、ゲノム情報の一部のデータ(以下、適宜「リード」という。)を読み取る。一回の読み取りで読み取られるリードに含まれる塩基配列は、例えば、50塩基対程度である。
【0011】
ゲノムシーケンサーは、読み取ったリードに含まれる塩基配列でゲノム情報の全部を再構成できる程度になるまで、リードを繰り返し読み取るように構成されている。
【0012】
ここで、ゲノムシーケンサーは、ゲノム情報の全体にわたってリードを均一に読み取るとは限らず、ある個所においては高頻度で読み取ったり、別なある個所では低頻度で読み取ったりする。この結果、それぞれの塩基配列の読み取り頻度にはばらつきが生じうる。
【0013】
ゲノムの分子修飾や相互作用たんぱく質が結合する部位とその統計的有意性を判断する上で、ゲノムシーケンサーによる読み取り頻度は有用な指標となる。ゲノムシーケンサーによる読み取り頻度のばらつきを解析することで、塩基記号の並びの再現以外の情報が得られる可能性がある。
【0014】
しかし、上述したように、特許文献1の技術は、ゲノムシーケンサーによる読み取り頻度を再現することができなかった。
【0015】
そこで、本発明は、データ容量を抑えながら、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成するデータ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体を提供することを目的とする。
【課題を解決するための手段】
【0016】
本発明のデータ作成装置は、長さが第1塩基数である第1塩基配列データを記憶する第1塩基配列記憶部と、第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値を認識する位置認識部と、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成する並替部と、前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識する基準要素認識部と、前記位置の配列に含まれ、かつ、隣り合う要素間の差分を認識する差分認識部と、前記基準要素認識部により認識された基準要素と前記差分認識部により認識された前記要素間の差分とを含むデータを作成するデータ作成部とを備えることを特徴とする。
【0017】
当該構成のデータ作成装置によれば、位置認識部により、第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値が認識される。
【0018】
そして、並替部により、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置の配列が作成される。ここで、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置の配列の隣り合う要素は、昇順または降順で並べられているので、その差分はかなり小さくなりやすい。特に、ゲノムシーケンサーによって高頻度に読み取られた塩基配列に関連する塩基配列データについては、それらの位置を示す数値は同一またはほとんど差がないものとなる。
【0019】
そして、基準要素認識部により、前記位置の配列に含まれる少なくとも一つの要素である基準要素が認識される。
【0020】
そして、差分認識部により、前記位置の配列に含まれ、かつ、隣り合う要素間の差分が認識される。
【0021】
そして、データ作成部により、前記基準要素認識部により認識された基準要素と前記差分認識部により認識された前記要素間の差分とを含むデータが作成される。
【0022】
前述したようにゲノムシーケンサーによって高頻度で読み取られた塩基配列に関する要素間の差分はかなり小さくなりやすいので、要素間の差分を示すデータのデータ容量は、小さく抑えられうる。
【0023】
一方、作成されたデータに含まれる基準要素と要素間の差分とを用いれば、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を逆算して求めることができる。このような各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値は、対象のゲノムデータの内のどの部分の塩基配列がどの程度の頻度で読み取られているものかを示すこととなる。
【0024】
以上の通り、本発明のデータ作成装置によれば、データ容量を抑えながら、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成しうる。
【0025】
本発明のデータ作成装置において、前記基準要素認識部は、位置の配列に含まれる要素のうち最小の値の要素を基準要素として認識するように構成されていることが好ましい。
【0026】
当該構成のデータ作成装置によれば、前記基準要素認識部により、位置の配列に含まれる要素のうち最小の値の要素が基準要素として認識される。これにより、基準要素を示すデータのデータ容量を小さく抑えることができるので、より圧縮率を向上させうる。
【0027】
本発明のデータ作成装置において、前記データ作成部は、前記要素間の差分を示すデータとして、先行又は後続するデータが関連するデータであるか否かを示す第1部分と14ビット以下のデータを格納する第2部分とを一又は複数含む可変長データを作成することが好ましい。
【0028】
当該構成のデータ作成装置によれば、前記データ作成部により、前記要素間の差分を示すデータとして、先行又は後続のデータが関連するデータであるか否かを示す第1部分と14ビット以下のデータを格納する第2部分とを一又は複数含む可変長データが作成される。
【0029】
本願の出願人が検討したところによれば、位置の配列の連続する要素間の差分は、ほとんど14ビット以下で表すことができる。これにより、多くのデータについて、そのデータ容量を小さく抑えながら、各要素の差分を表現することが可能となる。
【0030】
また、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。
【0031】
当該構成のデータ作成装置において、前記第2部分は、6ビット以下であることが好ましい。
【0032】
本件出願人の検討によれば、要素間の差分は、約8割のデータが6ビット以下で表現できることが分かった。
【0033】
第2部分のデータを6ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。
【0034】
当該構成のデータ作成装置において、前記第2部分は、3ビット以下であることが好ましい。
【0035】
本件出願人の検討によれば、約6割のデータが3ビット以下で表現できることが分かった。第2部分のデータを3ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。
【図面の簡単な説明】
【0036】
図1】データ作成システムの全体構成図。
図2A】第1塩基配列データの一例を示す図。
図2B】ゲノムシーケンサーにより読み込まれた複数の第2塩基配列データの一例を示す図。
図3】データ作成処理のフローチャート。
図4】SAM形式のファイルの一例を示す図。
図5A】抽出後データの一例を示す図。
図5B】並替後データの一例を示す図。
図5C】差分認識後データの一例を示す図。
図6A】データ作成処理によって作成されるデータに含まれる内容の一例を示す図。
図6B】データ作成処理によって作成されるデータの具体例を示す図。
図7A】データ作成処理によって作成されるデータの形式の一例を示す図。
図7B】一のデータ形式に従ったデータの表現を示す図。
図8】差分を表すのに必要なビット数と、各ビット数の頻度及び含有割合との関係を示すグラフ。
【発明を実施するための形態】
【0037】
図1図8を参照して、本発明の実施形態のデータ作成システムを説明する。
【0038】
(データ作成システムの構成)
図1を参照して、データ作成システムの構成を説明する。
【0039】
データ作成システムは、1又は複数のゲノムシーケンサー100と、1又は複数のデータ作成装置200と、データベース300と、を備える。
【0040】
1又は複数のデータ作成装置200は、それぞれ、有線接続又は無線接続を介して、1又は複数のゲノムシーケンサー100のそれぞれと接続されている。データベース300は、インターネット等の広域ネットワークを介して、データ作成装置200のそれぞれと接続されている。一又は複数のデータ作成装置200は、それぞれ異なるユーザに使用されうる。
【0041】
(ゲノムシーケンサーの構成)
ゲノムシーケンサー100は、例えば、対象の生体Pからゲノム情報の一部を取得し、当該ゲノム情報に含まれる部分的な塩基配列を示すデータ(以下、「第2塩基配列データ」という。)を繰り返し出力するように構成されている。ゲノムシーケンサー100は、例えばHiSeqシステム(登録商標)で構成される。第2塩基配列データは、塩基記号(A、C、G又はT)の繰り返しで表現される。ゲノムシーケンサー100は、所定の設定またはユーザの指定にされた数だけ塩基記号が含まれるように、第2塩基配列データを読み取る。以下、第2塩基配列データに含まれる塩基記号の数を、適宜「第2塩基配列データの長さ」ともいう。第2塩基配列データは、塩基記号以外の符号、例えば、読取不能を示す記号としての「?」を含んでもよい。第2塩基配列データの長さが、本発明の「第2塩基数」の一例に該当する。
【0042】
(データ作成装置の構成)
一又は複数のデータ作成装置200は、細かくは個々の端末ごとに異なるけれども、概略的には以下のような構成を有する。
【0043】
データ作成装置200は、演算処理部210と、記憶部220とを備える。
【0044】
データ作成装置200は、ラップトップコンピュータ、タブレット型端末またはスマートフォンなど、ユーザによる携帯が可能なようにサイズ、形状および重量が設計されているコンピュータにより構成されていてもよく、デスクトップコンピュータなど、特定箇所に設置されるように、サイズ、形状および重量が設計されているコンピュータにより構成されていてもよい。
【0045】
演算処理部210は、CPU(Central Processing Unit)等の演算処理装置、メモリ等の記憶装置及びI/O(Input/Output)デバイスなどにより構成されている。記憶部220には、外部よりダウンロードしたデータ作成プログラム223がインストールされている。記憶部220に記憶されたデータ作成プログラム223が起動されることにより、演算処理部210は、位置認識部211と、並替部212と、基準要素認識部213と、差分認識部214と、データ作成部215ととして機能するように構成されている。なお、データ作成プログラム223を記憶したデータ作成装置200が、本発明の「記憶媒体」の一例に相当する。
【0046】
演算処理部210は、有線通信またはWiFi(登録商標)等の遠距離での無線通信に適した通信規格にしたがった無線通信を介して、データベース300などの外部機器と相互通信するよう構成されている。
【0047】
記憶部220は、例えばROM(Read Only Memory),RAM(Random Access Memory)、HDD(Hard Disk Drive)等の記憶装置により構成されている。
【0048】
記憶部220は、演算処理部210による演算処理及び演算処理部210が受信したデータなどの演算処理部210が認識した情報を記憶するように構成されている。
【0049】
なお、一の装置が情報を「認識する」とは、一の装置が他の装置から当該情報を受信すること、一の装置が当該一の装置に接続された記憶媒体に記憶された情報を読み取ること、一の装置が当該一の装置に接続されたセンサから出力された信号に基づいて情報を取得すること、一の装置が、受信した情報又は記憶媒体に記憶された情報又はセンサから取得した情報に基づいて、所定の演算処理(計算処理又は検索処理など)を実行することにより当該情報を導出すること、一の装置が他の装置による演算処理結果としての当該情報を当該他の装置から受信すること、一の装置が当該受信信号にしたがって内部記憶装置又は外部記憶装置から当該情報を読み取ること等、当該情報を取得するためのあらゆる演算処理が実行されることを意味する。
【0050】
記憶部220は、第1塩基配列記憶部221とデータ記憶部222とを備える。
【0051】
第1塩基配列記憶部221は、図2Aに示されるように、塩基配列を示すデータ(以下、「第1塩基配列データ」という。)を格納している。これらのデータは、一又は複数の生体(ただし、「人類」又は「日本人」等のようにある程度共通項を有する生体)から読み取られた各塩基配列を示すデータを基に作成されうる。複数の生体から塩基配列を示すデータを作成された場合、第1塩基配列データは、各生体から読み取られた各塩基配列で共通の塩基についてはそのままの塩基記号で表され、それらの生体で異なる塩基については*等の塩基記号とは異なる記号で表される。一の第1塩基配列データは、chr1,chr2など、複数の塩基配列に分解され、それぞれの塩基配列ごとに記憶されていてもよい。これらのchr1,chr2などに分解された各塩基配列を、以下、適宜「リファレンス配列」という。また、chr1、chr2の各塩基配列を識別する文字列を、以下、適宜「リファレンス配列の名称」という。本実施例において、リファレンス配列の名称は、chr等の所定の文字列と、番号とで構成される。これらのリファレンス配列の長さは、第2塩基配列データの長さよりも長く設定される。リファレンス配列の長さの合計値が、本発明の「第1塩基数」の一例に相当する。
【0052】
第1塩基配列記憶部221は、生体の種別ごとに第1塩基配列データを記憶していてもよい。
【0053】
なお、第1塩基配列データを作成するためのサンプルとなる生体は、後述するデータ作成処理の処理対象の生体Pと異なる生体である。ただし、生体の種別が共通していれば、個体が異なっても、そのほとんどの塩基配列は一致する。例えば、人類であれば、個体が異なっても、99.9%程度の塩基配列が一致することとなる。
【0054】
(データベースの構成)
データベース300は、CPU等の演算処理装置、ローカルメモリ、ROM,RAM、HDD等の記憶装置及びI/Oデバイスなどにより構成されている。データベース300は、データ作成装置200から受信したデータを記憶するように構成されている。データベース300は、一のプロセッサにより構成されてもよく、相互通信可能な複数のプロセッサにより構成されてもよい。
【0055】
なお、データベース300を構成するコンピュータの一部または全部が、データ作成装置200を構成するコンピュータにより構成されていてもよい。たとえば、移動局としての一または複数のデータ作成装置200により、データベース300の一部または全部が構成されていてもよい。
【0056】
また、データベース300は、WiFi又は有線接続などを介してネットワークとしての公衆通信網(例えばインターネット)に接続され、外部の機器(例えばデータ作成装置200)と通信するように構成されている。
【0057】
(データ作成処理)
次に、図2図8を参照して、データ作成装置200により実行されるデータ作成処理の流れを説明する。
【0058】
位置認識部211は、ゲノムシーケンサー100から出力されたデータに基づいて、対象の生体Pの各第2塩基配列データを認識する(図3/STEP002)。対象の生体Pは、ゲノムシーケンサー100によってゲノム情報が読み取り可能な生体であればよく、例えば、人であっても良いし、動物であってもよいし、植物であってもよいし、微生物であってもよい。
【0059】
ゲノムシーケンサー100から出力されたデータは、例えば、図2Bに示されるように、塩基記号の繰り返しを含むデータD1である。
【0060】
データD1は、所定の塩基数(例えば50)だけの塩基記号の繰り返しで示される複数の第2塩基配列データD11、D12、D13を含む。各第2塩基配列データD11、D12,D13は、例えばカンマで区切られている。また、各第2塩基配列データD11、D12,D13は、読取不能であった塩基を示す補助塩基記号D111,D121,D131を含む。
【0061】
位置認識部211は、図3/STEP002で認識した各第2塩基配列データと、第1塩基配列記憶部221に格納された第1塩基配列データとを対比することにより、各第2塩基配列データに対応する第1塩基配列データにおける第1塩基配列データの部分配列の位置を示す数値を認識する(図3/STEP004)。
【0062】
例えば、位置認識部211は、第2塩基配列データに含まれる各塩基記号の出現順が、一致している割合が最も高い第1塩基配列データの部分配列(当該第2塩基配列データに対応する第1塩基配列データの部分配列)を認識する。そして、位置認識部211は、第1塩基配列データにおける部分配列の開始位置を示す数値を認識する。部分配列の位置は、当該部分配列を特定するための位置であればよく、開始位置に限られず、例えば終了位置であってもよいし、その他の位置であってもよい。
【0063】
このような、部分配列の位置を示す数値の認識については、種々の公知の手法が採用されうる。
【0064】
位置認識部211は、SAM(Sequence Alignment/Map)形式のファイルを作成する(図3/STEP006)。作成されたファイルは、記憶部220に記憶される。
【0065】
図4は、図3/STEP006で作成されるファイルの一例を示す図である。図4に示されるファイルは、ヘッダデータD21とボディデータD22とを含む。
【0066】
ボディデータD22は、各第2塩基配列データのそれぞれについて、リファレンス配列の名称D221、第2塩基配列データに対応する第1塩基配列データのリファレンス配列における部分配列の開始位置D222と、第2塩基配列データに対応する第1塩基配列データにおけるペアエンドの場合の部分配列の開始位置D223と、第2塩基配列データの塩基配列D224とを含む。なお、リファレンス配列の名称と、リファレンス配列における部分配列の開始位置とが、本発明の「第1塩基配列データの部分配列の位置」の一例に相当する。
【0067】
並替部212は、リファレンス配列ごとに、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置を示す数値を抽出する(図3/STEP008)。
【0068】
並替部212は、図3/STEP008の処理により、例えば、図5Aに示される位置抽出後データD3を作成する。位置抽出後データD3は、各第2塩基配列データの塩基配列の長さD31と、各リファレンス配列の名称D32と、各リファレンス配列に対応付けられた第2塩基配列データの数D33と、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置D34とを含む。各第2塩基配列データの塩基配列の長さD31は、各第2塩基配列データの長さから認識されてもよい。また、第2塩基配列データの長さが予め決まっている場合には、各第2塩基配列データの塩基配列の長さD31は、省略されてもよい。
【0069】
図5Aに示される位置抽出後データD3においては、5行目以降が、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置となっている。
【0070】
図5Aに示される位置抽出後データD3においては、3行目以降は、カンマ区切りで、2行目のリファレンス配列の名称D32のそれぞれに対応するデータが格納されている。
【0071】
例えば、3行目の最初の「719786」は、リファレンス配列「chr1」に対応付けられた第2塩基配列データの数を示す。
【0072】
また、3行目の二番目の「380912」は、リファレンス配列「chr2」に対応付けられた第2塩基配列データの数を示す。
【0073】
また、4行目の最初の「177644860」は、リファレンス配列「chr1」に対応付けられた第2塩基配列データのうち、ある第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置を示す数値である。
【0074】
また、5行目の最初の「177644896」は、リファレンス配列「chr1」に対応付けられた第2塩基配列データのうち、別の第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置を示す数値である。
【0075】
対応する開始位置がない場合は、空欄となる。
【0076】
並替部212は、対応付けられたリファレンス配列ごとに、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置に代えて、第2塩基配列データに対応する第1塩基配列データにおけるペアエンドの場合の部分配列の開始位置を示す数値を抽出してもよい。
【0077】
並替部212は、リファレンス配列ごとに、開始位置を示す数値を昇順で並び替える(図3/STEP010)。
【0078】
並替部212は、図3/STEP010の処理の後、図5Bに示されるような並替後データD4を作成する。並替後データD4は、各第2塩基配列データの塩基配列の長さD41と、各リファレンス配列の名称D42と、各リファレンス配列に対応付けられた第2塩基配列データの数D43と、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置D44、D45,D46とを含む。各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置D44、D45,D46は、昇順で並び替えられている。このため、これらのうちの一番上の行(並替後データD4における4行目)のデータD44が、各リファレンス配列で最小の要素(開始位置)となっている。
【0079】
基準要素認識部213は、リファレンス配列ごとに、一又は複数の基準要素を認識する(図3/STEP012)。基準要素は、例えば、各リファレンス配列で最小の要素である。最小の要素以外の任意の要素が基準要素として認識されてもよい。また、位置のリファレンス配列について、複数の要素が基準要素として認識されてもよい。
【0080】
差分認識部214は、基準要素以外の要素について、隣り合う要素との差分の配列を認識する(図3/STEP014)。差分認識部214は、図3/STEP014の処理後に、例えば図5Cに示される差分認識後データD5を作成する。
【0081】
差分認識後データD5には、各第2塩基配列データの塩基配列の長さD51と、各リファレンス配列の名称D52と、各リファレンス配列に対応付けられた第2塩基配列データの数D53と、各リファレンス配列の基準要素D54と、差分データD55、D56とが含まれている。
【0082】
例えば、図5Bに示される並替後データD4では、リファレンス配列chr1に含まれる部分配列の開始位置は、小さい順に、9997、9998、9998・・・である。
【0083】
図5Cに示される差分認識後データD5の第4行目(符号D54で示される行)には、リファレンス配列chr1における図3/STEP012で認識された基準要素9997が含まれている。
【0084】
また、図5Cに示される差分認識後データD5の第5行目(符号D55で示される行)のリファレンス配列chr1に対応する要素に、図5Bの5行目(符号D45で示される行)の要素9998と、その前(4行目(符号D44で示される行))の要素9997との差分である1が含まれている。
【0085】
また、図5Cに示される差分認識後データD5の第6行目(符号D55で示される行)のリファレンス配列chr1に対応する要素に、図5Bの6行目(符号D46で示される行)の要素9998と、その前(5行目(符号D45で示される行))の要素9998との差分である0が含まれている。
【0086】
また、例えば、図5Bに示される並替後データD4では、リファレンス配列chr2に含まれる部分配列の開始位置は、小さい順に、10237、10286、10330・・・である。
【0087】
図5Cに示される差分認識後データD5の第4行目(符号D54で示される行)には、リファレンス配列chr2における図3/STEP012で認識された基準要素10237が含まれている。
【0088】
また、図5Cに示される差分認識後データD5の第5行目(符号D55で示される行)のリファレンス配列chr2に対応する要素に、図5Bの5行目(符号D45で示される行)の要素10286と、その前(4行目(符号D44で示される行))の要素10237との差分である49が含まれている。
【0089】
また、図5Cに示される差分認識後データD5の第6行目(符号D55で示される行)のリファレンス配列chr2に対応する要素に、図5Bの6行目(符号D46で示される行)の要素10330と、その前(5行目(符号D45で示される行))の要素10286との差分である44が含まれている。
【0090】
データ作成部215は、図3/STEP012で認識された基準要素と、図3/STEP014で認識された隣り合う要素との差分とを含むデータを作成する(図3/STEP016)。
【0091】
例えば、データ作成部215は、図5Cに示される差分認識後データD5に基づいて、図3/STEP016で、リファレンス配列ごとに、図6Aに示されるようなデータD61を作成する。データD61は、第2塩基配列データの塩基配列の長さD61と、当該リファレンス配列の名称に含まれる番号D62と、当該リファレンス配列に対応付けられた第2塩基配列データの数D63と、基準要素D64と、差分D65、D66の配列とを含むデータである。
【0092】
図3/STEP016で作成されるデータは、少なくとも差分を示すデータ部分に関しては、図7Aに示されるように、第1部分D1と、第2部分D2とを含む形式のデータとなっている。
【0093】
この第2部分D2は、何ビットでもよいが、14ビット以下であることが好ましいが、6ビット以下であることがより好ましく、3ビット以下であることがさらに好ましい。
【0094】
第1部分D1は、先行又は後続するデータが関連するデータであるか否かを示す部分である。第2部分D2は、差分等の対象のデータの内容を示す部分である。第1部分D1は、例えば、1ビットで構成されていてもよい。
【0095】
第1部分D1が1ビットで構成される場合、例えば、第1部分が0の場合、後続する所定の長さのデータが関連しないことを意味し、第1部分が1の場合、後続する所定の長さのデータが関連することを意味してもよいが、第1部分により読み込む範囲が特定できれば、どのような規則であってもよい。
【0096】
例えば、図7Bに示されるデータは、第1部分が1ビットで、第2部分が3ビットで構成された場合の例を示している。図7Bに示されるデータは、第1部分が0の場合、後続する所定の長さのデータが関連しないことを意味し、第1部分が1の場合、後続する所定の長さのデータが関連することを意味する。
【0097】
第2部分が3ビットである場合、10進数の1~7については、3ビットで十分に表現できるため後続するデータを使用する必要はない。このため、10進数の1、3について、図7Bに示されるように、第1部分は0となる。また、10進数の1、3については、図7Bに示されるように、第2部分は、それぞれ001、011となる。
【0098】
一方、10進数の8~31については、3ビットでは十分に表現できない。このため、これらのデータについては、図7Bに示されるように、最初のデータの第1部分は1となる。しかし、6ビットであれば十分に10進数の8~31を表現できるため、これらのデータについては、図7Bに示されるように、次のデータの第1部分は0となる。これらについては、関連する第2部分全体により、差分等の対象のデータの内容が示される。例えば、8であれば、図7Bに示されるように、最初の第2部分の001と、次の第2部分の000とを合わせた、001000により、2進数の8が表現される。
【0099】
第2部分の大きさは、対象のデータのサイズ解析することで、最適化しうる。
【0100】
図6Bは、このような第1部分と第2部分とを含むデータ形式で図6Aに示されるデータを作成した時の例を示す図である。
【0101】
図6Bにおいては、当該リファレンス配列の名称に含まれる番号と、当該リファレンス配列に対応付けられた第2塩基配列データの総数と、基準要素と、各差分とが上記したデータ形式で表現されている。図3/STEP016で作成されるデータには、図6Bに示されるデータが、リファレンス配列の数だけ繰り返し含まれている。当該リファレンス配列に対応付けられた第2塩基配列データの総数は、このリファレンス配列ごとの区切りを示すために用いられる。
【0102】
データ作成部215は、作成したデータをバイナリ形式でデータ記憶部222に記憶するとともに、データベース300に送信する。データベース300は、データ作成装置200又は対象の生体Pを特定できる情報(例えばユーザIDなど)とともに受信したデータを記憶する。データ作成部215は、データベース300に、リファレンス配列と基準要素とを除外したデータを送信してもよい。このようにすることで、データベース300に記憶されたデータからは、全てのデータが復元できなくなるので、個人情報の保護が図られうる。
【0103】
以上により、データ作成処理が終了する。
【0104】
(データの復元)
図3/STEP016で作成されるデータから、データの復元をする方法について説明する。以下の処理は、第1塩基配列データにアクセス可能な一般的なコンピュータにより実行されうる。
【0105】
まず、第1ステップにおいて、コンピュータは、図3/STEP016で作成されるデータを先頭から読み込み、各第2塩基配列データの塩基配列の長さと、一のリファレンス配列の名称に含まれる番号と、当該リファレンス配列に対応付けられた第2塩基配列データの総数とを認識する。
【0106】
次に、第2ステップにおいて、コンピュータは、基準要素を認識する。
【0107】
第3ステップにおいて、コンピュータは、一のリファレンス配列の名称に含まれる番号と、基準要素とから、基準要素に対応する第1塩基配列データの部分配列の開始位置を認識できる。コンピュータは、当該部分配列の開始位置と各第2塩基配列データの塩基配列の長さとに基づいて、基準要素に対応する第1塩基配列データの部分配列を認識することができる。また、コンピュータは、当該リファレンス配列に対応付けられた第2塩基配列データの総数から1を引く。
【0108】
第4ステップにおいて、コンピュータは、基準要素の次の差分を読み込む。コンピュータは、基準要素に当該差分を加えることで、2番目の要素の値を認識する。コンピュータは、この値に基づき、2番目の要素に対応する第1塩基配列データの部分配列の開始位置を認識できる。コンピュータは、当該部分配列の開始位置と各第2塩基配列データの塩基配列の長さとに基づいて、2番目の要素に対応する第1塩基配列データの部分配列を認識することができる。また、コンピュータは、当該リファレンス配列に対応付けられた第2塩基配列データの総数から1を引く。
【0109】
第5ステップにおいて、コンピュータは、その次の差分を読み込む。コンピュータは、2番目の要素の値に当該差分を加えることで、3番目の要素の値を認識する。コンピュータは、この値に基づき、3番目の要素に対応する第1塩基配列データの部分配列の開始位置を認識できる。コンピュータは、当該部分配列の開始位置と各第2塩基配列データの塩基配列の長さとに基づいて、3番目の要素に対応する第1塩基配列データの部分配列を認識することができる。また、コンピュータは、当該リファレンス配列に対応付けられた第2塩基配列データの総数から1を引く。
【0110】
当該リファレンス配列に対応付けられた第2塩基配列データの総数がゼロになるまで、コンピュータは、第5ステップを繰り返す。第2塩基配列データの総数がゼロとなった場合、データの読み込みが完了するまで、コンピュータは、第1ステップ~第5ステップを繰り返し実行する。
【0111】
このようにすることで、コンピュータは、各第2塩基配列データに対応する第1塩基配列データの部分配列の群を認識することができる。この各第2塩基配列データに対応する第1塩基配列データの部分配列の群は、各第2塩基配列データとは完全には一致しないが、生体Pのゲノムシーケンサーによる読取頻度の解析をする上では十分に有用である。
【0112】
(本実施形態の作用効果)
当該構成のデータ作成装置200によれば、位置認識部211により、第1塩基配列記憶部221に記憶された第1塩基配列データに基づいて、個々の長さが第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データD224に対応する第1塩基配列データ中の部分配列の位置D221、D222が認識される(図3/STEP004、図3/STEP006)。
【0113】
そして、並替部212により、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を昇順または降順で並び替えることにより(図3/STEP010)、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置の配列(図5Bの第4行目以降)が作成される(図5B参照)。ここで、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置の配列の隣り合う要素は、互いに近い位置となるので、その差分はかなり小さくなりやすい。特に、高頻度に読み取られた塩基配列に関連する塩基配列データについては、それらの位置は同一またはほとんど差がないものとなる。
【0114】
そして、基準要素認識部213により、前記位置の配列に含まれる少なくとも一つの位置である基準要素が認識される(図3/STEP012)。
【0115】
そして、差分認識部214により、位置の配列の隣り合う要素間の差分の配列が認識される(図3/STEP014)。
【0116】
そして、データ作成部215により、基準要素認識部213により認識された基準要素と差分認識部214により認識された要素間の差分とを含むデータD6が作成される(図3/STEP016)。
【0117】
要素間の差分は、前述したように高頻度で読み取られた部分についてはかなり小さくなりやすいので、要素間の差分を示すデータのデータ容量は、小さく抑えられうる。
【0118】
例えば、本発明者らが実験したところによると、図3/STEP016で作成されたデータのサイズは、図3/STEP006で作成されたSAMファイルのサイズの約0.33%となった。また、図3/STEP016で作成されたデータのサイズは、開始位置を示す数値を抜き出した図5Aのファイルのサイズと比較しても、約4.97%となった。
【0119】
一方、作成されたデータに含まれる基準要素と要素間の差分とを用いれば、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を逆算して求めることができる。このような各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値は、対象のゲノムデータの内のどの部分の塩基配列がどの程度の頻度で読み取られているものかを示すこととなる。
【0120】
以上の通り、本発明のデータ作成装置200によれば、データ容量を抑えながら、ゲノムシーケンサー100による読み取り頻度を再現できるデータを作成しうる。
【0121】
また、当該構成のデータ作成装置200によれば、基準要素認識部213により、位置の配列に含まれる要素のうち最小の値の要素が基準要素として認識される(図3/STEP012)。これにより、基準要素を示すデータのデータ容量を小さく抑えることができるので、より圧縮率を向上させうる。
【0122】
当該構成のデータ作成装置200によれば、データ作成部215により、要素間の差分を示すデータとして、先行又は後続のデータが関連するデータであるか否かを示す第1部分D61と14ビット以下のデータを格納する第2部分D62とを一又は複数含む可変長データD6(図7A参照)が作成される(図3/STEP016)。
【0123】
本願の出願人が検討したところによれば、位置の配列の連続する要素間の各差分は、ほとんど14ビット以下で表すことができる。
【0124】
例えば、図8は、ある生体(人間)から取得されたデータに基づいて作成されたグラフ理であり、差分が何ビットで表せるかを示したグラフである。図8のグラフの横軸は、差分が何ビットで表せるかを示す軸である。図8の左軸は、各ビットの出現頻度である。図8の右軸は、各ビットの出現頻度の割合を累計した割合である。図8に示されるように、各ビットの出現頻度の割合を累計した割合は、14ビットでほぼ100%となる。このため、第2部分は、14ビット以下であることが好ましい。
【0125】
これにより、多くのデータについて、そのデータ容量を小さく抑えながら、各要素の差分を表現することが可能となる。
【0126】
また、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、図7Bに示されるように、当該可変長データで表現することができる。
【0127】
また、図8に示されるように、各ビットの出現頻度の割合を累計した割合は、6ビットでほぼ80%となる。このため、第2部分は、6ビット以下であってもよい。
【0128】
第2部分のデータを6ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。
【0129】
また、図8に示されるように、各ビットの出現頻度の割合を累計した割合は、3ビットでほぼ60%となる。このため、第2部分は、3ビット以下であってもよい。
【0130】
本件出願人の検討によれば、約6割のデータが3ビット以下で表現できることが分かった。第2部分のデータを3ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。
【0131】
(変形態様)
上述した実施形態では、第1塩基配列データは、複数のリファレンス配列に分解されたが、これに限られず、一の配列で表されてもよい。
【0132】
第1部分は、2ビットであってもよい。このデータ形式においては、例えば、第1部分が00である場合、第2部分が2ビットであることを示し、第1部分が01である場合、第2部分が6ビットであることを示し、第1部分が10である場合、第2部分が10ビットであることを示し、第1部分が11である場合、第2部分が10ビットであるとともに、後続するデータが関連するデータであることを示してもよい。
【0133】
また、第2部分は、関連するデータの数に応じてその長さが可変であってもよい。例えば、関連するデータの数が1である場合、第2部分が1ビットであり、関連するデータの数が2以上である場合、第2部分がそれぞれ3ビットとなるようなデータ形式であってもよい。
【0134】
データ作成部215は、このようなデータ形式に応じて、図3/STEP016におけるデータを作成してもよい。
【符号の説明】
【0135】
100‥ゲノムシーケンサー、200‥データ作成装置、210‥演算処理部、211‥位置認識部、212‥並替部、213‥基準要素認識部、214‥差分認識部、215‥データ作成部、220‥記憶部、221‥第1塩基配列記憶部、222‥データ記憶部、300‥データベース。
図1
図2A
図2B
図3
図4
図5A
図5B
図5C
図6A
図6B
図7A
図7B
図8