特開2021-179867 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Ｄ’ｉｓｕｍの特許一覧

特開2021-179867ゲノム分析装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2021-179867(P2021-179867A)

(43)【公開日】2021年11月18日

(54)【発明の名称】ゲノム分析装置及び方法

(51)【国際特許分類】

G16B 10/00 20190101AFI20211022BHJP

【ＦＩ】

G16B10/00

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

【全頁数】12

(21)【出願番号】特願2020-85583(P2020-85583)

(22)【出願日】2020年5月15日

(71)【出願人】

【識別番号】520168620

【氏名又は名称】株式会社Ｄ’ｉｓｕｍ

(74)【代理人】

【識別番号】100119677

【弁理士】

【氏名又は名称】岡田賢治

(74)【代理人】

【識別番号】100160495

【弁理士】

【氏名又は名称】畑雅明

(74)【代理人】

【識別番号】100173716

【弁理士】

【氏名又は名称】田中真理

(74)【代理人】

【識別番号】100115794

【弁理士】

【氏名又は名称】今下勝博

(72)【発明者】

【氏名】金田哲也

(57)【要約】（修正有）

【課題】大量のゲノム塩基配列データにおいて、塩基配列データ間の関係性を簡単に判定なゲノム分析装置及び方法を提供する。
【解決手段】ゲノム分析装置１０は、情報処理部１１及びメモリ１２を備え、ゲノムの塩基配列データのデータ集合を取得し、各塩基配列データを、塩基配列数の４倍以上の次元を持つ数値ベクトルデータに変換し、数値ベクトルデータのベクトル演算により、異なる塩基配列データ間の関係性を検出する。
【選択図】図１

【特許請求の範囲】

【請求項1】

ゲノムの塩基配列データのデータ集合を取得し、各塩基配列データを、塩基配列数の４倍以上の次元を持つ数値ベクトルデータに変換し、
前記数値ベクトルデータのベクトル演算により、異なる塩基配列データ間の関係性を検出する、
ゲノム分析装置。

【請求項2】

前記塩基配列データのデータ集合に含まれる塩基配列データについて、塩基配列が直系の関係であるかどうかを判定する、
請求項１に記載のゲノム分析装置。

【請求項3】

前記塩基配列データのデータ集合に含まれる塩基配列データについて、塩基配列が直系の関係にある塩基配列データを示す系統図を作成する、
請求項２に記載のゲノム分析装置。

【請求項4】

塩基配列データの属性を、前記系統図上の該当塩基配列データに対応する位置に表示する、
請求項３に記載のゲノム分析装置。

【請求項5】

前記塩基配列データのデータ集合に含まれる各塩基配列データを、前記数値ベクトルデータ相互の類似性に基づいて平面にプロットすることにより、ベクトルデータマップを作成し、
前記系統図に基づいて、前記ベクトルデータマップ上の１対のプロット間を、該当ベクトルデータマップ上において線で結ぶ、
請求項３に記載のゲノム分析装置。

【請求項6】

塩基配列データの属性を、前記ベクトルデータマップ上の該当塩基配列データに対応する位置に表示する、
請求項５に記載のゲノム分析装置。

【請求項7】

前記作成された前記ベクトルデータマップを参照マップに用い、
新たな塩基配列データから変換された新たな数値ベクトルデータと前記参照マップを構成する各数値ベクトルデータとの相互の類似性に基づいて、当該新たな塩基配列データを前記参照マップ上にプロットし、
前記参照マップ上にプロットされた当該新たな塩基配列データを、前記系統図に基づいて、当該新たな塩基配列データに最も近い直系関係を持つ参照マップ上の塩基配列データと線で結ぶ、
請求項５又は６に記載のゲノム分析装置。

【請求項8】

塩基配列が直系の関係にある２つの数値ベクトルデータＯとＡに対して、新たな数値ベクトルデータＸが次式を満足する場合に、Ｏ、Ａ及びＸの順で直系の関係にあると判定する、
請求項７に記載のゲノム分析装置。
（数Ｃ１）
（Ｘ−Ａ，Ａ−Ｏ）＝０
ここで（Ｐ，Ｑ）はベクトルデータＰ、Ｑの内積を表す。

【請求項9】

ゲノム分析装置が、ゲノムの塩基配列データのデータ集合を取得し、各塩基配列データを、塩基配列数の４倍以上の次元を持つ数値ベクトルデータに変換し、
ゲノム分析装置が、前記数値ベクトルデータのベクトル演算により、異なる塩基配列データ間の関係性を検出する、
ゲノム分析方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、遺伝子の変異を追跡する装置及び方法に関する。

【背景技術】

【0002】

ウイルスのＲＮＡ（ｒｉｂｏｎｕｃｌｅｉｃａｃｉｄ）の変異が分析されている（例えば、非特許文献１参照。）。非特許文献１では、ＲＮＡの変化を、ツリーを用いて表示する。

【0003】

ウイルスは感染しながら変異を繰り返す。どの地域にどのようなウイルスが感染しているか、あるいは地域間でどのようにウイルスが感染により拡がっていくかを分析することは、ウイルスの性質や感染ルートを知り防疫対策に反映する上で大きな課題である。この課題を解決する上で、ウイルスの分類や系統図の作成が重要である。

【0004】

これまで、ウイルスの分類や系統図の作成には、塩基配列の統計的性質の違いを利用する方法と、個々の塩基配列のわずかな違いをミクロに分析する方法が一般的である。前者は、ウイルス間の変異が大きい場合は有効であるが、コロナウイルスのように感染しながら微小な変異を繰り返す場合には、ウイルスの統計的性質の差は極めて小さく、より細かな統計的性質の違いを分析する手法（ｋ−ｍｅｒ法など）が提案されている。しかしまだ決定的な手法は提案されていない。塩基配列の微小な変異を分析する場合は、後者の方法、すなわちウイルスの塩基配列の微小な違いを調べて、系統を判定する方法が一般的であるが。しかしこの方法は、データ量が多くなると多くの時間と労力が必要になる上に、研究者の判断が必要となる場合もあり、研究者によって結果が微妙に異なる場合があるといった問題がある。

【0005】

また、いずれの方法においても、データを文字列として扱い、かつ論理が複雑になるため、塩基配列のような膨大なデータを扱う場合、どうしても処理時間が長くなると言った問題もある。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】Ｎｅｘｔｓｔｒａｉｎ，Ｒｅａｌ−ｔｉｍｅｔｒａｃｋｉｎｇｏｆｐａｔｈｏｇｅｎｅｖｏｌｕｔｉｏｎ，ｈｔｔｐｓ：／／ｎｅｘｔｓｔｒａｉｎ．ｏｒｇ／

【非特許文献2】ＭＥＧＡを使って配列アラインメントおよび系統解析をするｈｔｔｐｓ：／／ｔｏｇｏｔｖ．ｄｂｃｌｓ．ｊｐ／２０１１０７０５．ｈｔｍｌ

【発明の概要】

【発明が解決しようとする課題】

【0007】

本開示は、大量のゲノム塩基配列データにおいて、塩基配列データ間の関係性を簡単に判定可能にすることを目的とする。

【課題を解決するための手段】

【0008】

本開示のゲノム分析装置及びゲノム分析方法は、
ゲノムの塩基配列データのデータ集合を取得し、各塩基配列データを、塩基配列数の４倍以上の次元を持つ数値ベクトルデータに変換し、
前記数値ベクトルデータのベクトル演算により、異なる塩基配列データ間の関係性を検出する。

【0009】

本開示のプログラムは、本開示の装置に備わる各機能をコンピュータに実現させるためのプログラムであり、本開示の方法に備わる各ステップをコンピュータに実行させるためのプログラムである。

【発明の効果】

【0010】

本開示によれば、大量のゲノム塩基配列データの分析において、塩基配列データ間の関係性を簡単に判定可能にすることが可能となる。

【図面の簡単な説明】

【0011】

【図1】本開示の装置構成の一例を示す。

【図2】本開示の装置の第１の動作例を示す。

【図3】塩基配列データから塩基配列ベクトルデータへの変換例を示す。

【図4】系統図の第１の表示例である。

【図5】系統図の第２の表示例である。

【図6】ベクトルデータマップの第１の表示例である。

【図7】ベクトルデータマップの第２の表示例である。

【図8】ベクトルデータマップの第３の表示例である。

【図9】ベクトルデータマップの第４の表示例である。

【図10】ベクトルデータマップの第５の表示例である。

【図11】本開示の装置の第２の動作例を示す。

【図12】ベクトルデータマップの第５の表示例である。

【図13】ベクトルデータマップの第６の表示例である。

【発明を実施するための形態】

【0012】

以下、本開示の実施形態について、図面を参照しながら詳細に説明する。なお、本開示は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本開示は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。

【0013】

図１に、本実施形態に係るシステム構成の一例を示す。本実施形態に係るゲノム分析装置１０は、情報処理部１１及びメモリ１２を備える。本実施形態に係るゲノム分析装置１０は、コンピュータとプログラムによっても実現でき、プログラムを記録媒体で提供することも、ネットワークを通して提供することも可能である。

【0014】

メモリ１２は、ゲノムの塩基配列データ、数値ベクトルデータに変換後の塩基配列ベクトルデータ、塩基配列データの属性データを格納する。属性データは、塩基配列データの検出された地域及び時期の情報を含む。

【0015】

（第１の実施形態）
図２に、本実施形態の情報処理部１１の動作の一例を示す。情報処理部１１は、ベクトルデータ変換ステップＳ１０１、系統判定ステップＳ１０２、系統図作成ステップＳ１０３、マップ作成ステップＳ１０４、系統リンクステップＳ１０５、属性表示ステップＳ１０６を実行する。情報処理部１１は、ベクトルデータ変換ステップＳ１０１を実行するベクトルデータ変換部、系統判定ステップＳ１０２を実行する系統判定部、系統図作成ステップＳ１０３を実行する系統図作成部、マップ作成ステップＳ１０４を実行するマップ作成部、系統リンクステップＳ１０５を実行する系統リンク部、属性表示ステップＳ１０６を実行する属性表示部として機能する。

【0016】

ベクトルデータ変換ステップＳ１０１では、情報処理部１１は、メモリ１２から塩基配列データを読み出し、読み出した塩基配列データを数値ベクトルデータ化した塩基配列ベクトルデータに変換する。例えば、図３に示すように、塩基配列データ８１−１、８１−２、・・・８１−Ｎは、それぞれ、塩基配列ベクトルデータ８２−１、８２−２、・・・８２−Ｎに変換される。

【0017】

塩基配列ベクトルデータは、読み出した塩基配列データに含まれる塩基配列数の約４倍の次元を持つ。具体的には、アデニン（Ａ）を１０００、グアニン（Ｇ）を０１００、チミン（Ｔ）を００１０、シトシン（Ｃ）を０００１に割り当て、塩基配列「ＧＡＴＣ」を０１００１０００００１００００１と表す。このように、１つの塩基配列データを４つの次元を用いて０、１の整数の２値データに変換する。したがって、塩基配列部分は４倍の次元になり、これに属性データ部分が加わるので、全体としては塩基配列数のおおよそ４倍強の次元になる。

【0018】

系統判定ステップＳ１０２では、情報処理部１１は、データ集合に含まれる全ての塩基配列ベクトルデータに対してベクトル演算を行い、最初のウイルスを除く全ウイルスの直近の先祖を探す。ここで、ベクトル演算は、ベクトル同士の内積の他、ベクトル間距離の導出など、塩基配列ベクトルデータ間の違いを検出することの可能な任意の演算を用いることができる。これにより、直近の先祖データを探し出すことができる。各塩基配列ベクトルデータと先祖データの関係情報は、メモリ１２に格納される。

【0019】

系統図作成ステップＳ１０３では、前記先祖データを順次辿ることで、全データの系統図を作成する。図４及び図５に系統図の例を示す。図４では、最初のウイルスを中心とするスター状の系統図を示す。図５では、最初のウイルスから分岐するツリー状の系統図を示す。本開示の系統図はこれらの形状に限らず、扇状などの任意の表示方法を用いることができる。得られた系統図の情報は、メモリ１２に格納される。

【0020】

本開示の系統図は、塩基配列データの属性をさらに表示してもよい。例えば、図４及び図５に示すように、塩基配列データの検出された時期の情報を表示してもよい。

【0021】

本実施形態は、ステップＳ１０１、Ｓ１０２及びＳ１０３を実行することで、大量のゲノム塩基配列データにおいて、ゲノム相互間の系統図を、簡単かつ高速に作成することができる。

【0022】

マップ作成ステップＳ１０４では、情報処理部１１は、データ集合に含まれる塩基配列ベクトルデータ相互の「類似性」に基づいて、該当データ集合に含まれる塩基配列ベクトルデータを平面にプロットすることによりベクトルデータマップを作成する。ここで、「類似性」の指標としては、例えば塩基配列ベクトルデータの次元数に対応した多次元空間での塩基配列ベクトルデータ相互間の「距離」が一般的である。図６に、ベクトルデータマップの第１例を示す。実線の丸は、面上にプロットされた塩基配列ベクトルデータである。各塩基配列ベクトルデータは各塩基配列データに対応している。ベクトルデータマップのデータは、メモリ１２に格納される。

【0023】

系統リンクステップＳ１０５では、情報処理部１１は、メモリ１２に格納されている系統図データに基づき、該当ベクトルデータマップ上において直系の関係にある塩基配列ベクトルデータ間を線で結ぶ。これにより、図７が得られる。ここで、直系の関係にある塩基配列ベクトルデータは、系統図作成ステップＳ１０３で作成された系統図に基づいて判定される。例えば、図４に示すスター状の系統図において、中心から伸びる同一直線上に配置されている塩基配列ベクトルデータである。

【0024】

本実施形態は、ステップＳ１０４及びＳ１０５を実行することで、塩基配列データ間の類似度に応じて、２次元のデータマップを作成し、その上で系統に沿ってデータ間を線で結んで示すことで、マップ上で塩基配列データのクラスタと系統図を同時に可視化することができる。

【0025】

系統判定ステップＳ１０２において直系関係にある塩基配列データを判定するアルゴリズムの１例を以下説明する。３個の塩基配列ベクトルデータＯ、Ａ、Ｂにおいて、以下の関係を満たす時、Ｏ、Ａ、Ｂは直系（同じ系統）と判定する。
（数１）
（Ｂ−Ａ，Ａ−Ｏ）＝０（１）
ここで（Ｐ，Ｑ）はベクトルデータＰ、Ｑの内積を表す。

【0026】

式（１）の意味は、「塩基配列がＯ→Ａ→Ｂの順に変異した場合、Ｏ→Ｂの変異の間に変化しない塩基配置（一般に複数）は、Ｏ→Ａの変異の間に変化しない塩基配置（一般に複数）に含まれる。」と言い換えられる。これは、厳密には正しくないが、塩基配列のようにデータ数が数万個以上あって、一回の変異で変化する塩基が少数の場合は、近似的に正しいと言える。また、式（１）を満足しないデータ間では直系を判定することは、難しい。

【0027】

系統リンクステップＳ１０５においてデータ集合全体にリンクを貼る方法の一例を以下に説明する。最初に存在した塩基配列データとみなされるデータをＰ_０とする。ウイルスの塩基配列データ母集団の中で、もっとも変異の少ないデータがＰ_０と考えられる。これは厳密には正しくないが、一般の感染の始まりの場合は正しいと言える。特殊な始まりをした場合は、必ずしも正しくないが、そのような場合は、出来上がったデータマップから判別できる。

【0028】

塩基配列ベクトルデータ集合内のデータについて、Ｐ_０からの距離を計算する。Ｐ_０から近い順にＰ_１、Ｐ_２、Ｐ_３、・・・とする。
・ステップＳ１：
まず、Ｐ_０とＰ_１をリンクする。
・ステップＳ２：
Ｐ_ｉ（Ｉ＝２，３，４，…）において、式（１）の判定アルゴリズムに基づいて、既に直系判定を終えているデータグループの中から、直近の先祖を順に見つける。

【0029】

属性表示ステップＳ１０６では、情報処理部１１は、塩基配列データの属性を、ベクトルデータマップ上の塩基配列データに対応する塩基配列ベクトルデータのプロット位置、あるいは適当な場所に表示する。属性の表示方法は任意である。図８〜図１０に、表示部１３への属性の表示例を示す。

【0030】

図８及び図９は、ベクトルデータマップ上のプロットに色又は模様を付すことで、塩基配列データの属性を表示する例を示す。プロット位置の近傍に、塩基配列データの属性を表示してもよい。

【0031】

図９に示す実線の丸、＋は、それぞれ、塩基配列データが検出された地域の違いを示す。丸の中に、検出された地域を示す。この図からは、地域ごとのウイルスの分布がわかる。このように、本開示の塩基配列データは、データＩＤの他に検出された地域や時期等の情報を属性情報として持っていることが好ましい。なお、図９では直系関係を示す線は省略した。

【0032】

図１０に示す破線の丸はラクダから採取されたウイルスの塩基配列データを示す。図１０では、ベクトルデータマップ上の領域Ｃ０〜Ｃ５を用いて属性を表示する。図１０では、図９と同様に、直系関係を示す線は省略した。西アフリカのラクダから採取した塩基配列データの分布領域Ｃ１は、人から採取した塩基配列データの分布領域とは離れている。一方で、中東のラクダから採取した塩基配列データの分布領域Ｃ０，Ｃ２，Ｃ３，Ｃ４，Ｃ５は、人から採取した塩基配列データに近いことが分かる。

【0033】

本開示は、塩基配列データ間の塩基配列の違いを簡単なベクトル演算により見つけることができ、この結果塩基配列間の直系関係を簡単にかつ高速で判定することができるようになる。さらに、データ間の類似性に基づくデータマッピングを組み合わせることで、塩基配列データ集合に対して、データの２次元平面マップ上でデータ間を線で結ぶことで塩基配列データ間の系統を表示でき、さらにデータのクラスタを可視化することが可能となる。

【0034】

（第２の実施形態）
本実施形態では、系統リンクステップＳ１０５で作成したマップを参照マップとして用いる。系統リンクステップＳ１０５で用いた塩基配列データとは異なる新たな塩基配列データがゲノム分析装置１０に入力され、メモリ１２に記憶される。

【0035】

図１１に、本実施形態の情報処理部１１の動作の一例を示す。図１に示す情報処理部１１は、ベクトルデータ変換ステップＳ２０１、参照マップ表示ステップＳ２０２、直系判定ステップＳ２０３、属性表示ステップＳ２０４を実行する。情報処理部１１は、ベクトルデータ変換ステップＳ２０１を実行するベクトルデータ変換部、参照マップ表示ステップＳ２０２を実行する参照マップ表示部、直系判定ステップＳ２０３を実行する直系判定部、属性表示ステップＳ２０４を実行する属性表示部として機能する。

【0036】

ベクトルデータ変換ステップＳ２０１では、情報処理部１１は、新たな塩基配列データをメモリ１２から読み出し、塩基配列データを４つの次元を持つ塩基配列ベクトルデータに変換する。

【0037】

参照マップ表示ステップＳ２０２では、情報処理部１１は、新たな塩基配列データから変換された新たな塩基配列ベクトルデータＮ０１，Ｎ０２を、参照マップ上の塩基配列ベクトルデータとの相互の距離に基づいて、参照マップ上に配置する。これにより、表示部１３に、図１２に示すようなベクトルデータマップを表示することができる。

【0038】

直系判定ステップＳ２０３では、情報処理部１１は、新たな塩基配列ベクトルデータＮ０１，Ｎ０２を、参照マップを構成する塩基配列ベクトルデータのうちの塩基配列が最も近い直系の関係にある塩基配列ベクトルデータと接続する。これにより、表示部１３に、図１３に示すようなベクトルデータマップを表示することができる。塩基配列が直系の関係にあるかの判定には、式（１）と同じアルゴリズムを用いる。

【0039】

具体例には、塩基配列が直系の関係にある２つの塩基配列ベクトルデータＯとＡに対して、新たな塩基配列ベクトルデータＸが次式を満足する場合に、Ｏ、Ａ及びＸの順で直系の関係にあると判定する。
（数２）
（Ｘ−Ａ，Ａ−Ｏ）＝０（２）
ここで（Ｐ，Ｑ）はベクトルデータＰ、Ｑの内積を表す。

【0040】

属性表示ステップＳ２０４では、情報処理部１１は、塩基配列データの属性を、該当ベクトルデータマップ上で、該当塩基配列データに対応したベクトルデータマップ上の塩基配列ベクトルデータのプロット位置に表示する。例えば、図１３に示すようなベクトルデータマップが表示部１３に表示される。

【0041】

Ｎ０１〜Ｎ０２が新たな塩基配列ベクトルデータである。パターンの違いは検出された地域の違いを示す。Ｎ０１は東京で検出された塩基配列から変異した塩基配列データである。Ｎ０２は北京で検出された塩基配列から変異した塩基配列データである。

【0042】

（第３の実施形態）
細菌類は、ウイルスと違ってＤＮＡを持ちエラーチェック機能を持つ分、ウイルスに比較し変異が起こりにくい。ただ、一方で塩基配列の数がウイルスに比較しおおよそ２桁以上多い。そのため、原理的には本方式により系統図を作成することは可能であるものの、そのままベクトルデータに変換すると、数百万〜数千万次元のベクトルデータになるため、計算量が膨大になる。

【0043】

この問題を避ける方法としては、母集団の塩基配列データの次元の値が共通して同じ値を持つ次元については無視し、次元値がばらつく次元のみを考慮することで、次元数を数千〜数万程度に削減できると考えられる。このような対策を講じることで、細菌に対しても本開示が適用できると考えられる。

【0044】

ヒトゲノムのようなさらに大きな塩基配列データに対しては、全塩基配列データではなく、細菌類と同様の大きさの一部の塩基配列データを使って、系統図を作成できる可能性がある。

【0045】

なお、塩基配列データは、ＤＮＡやＲＮＡに限らずミトコンドリアなどの塩基配列データであっても、本開示の方法は有効と考えられる。

【0046】

（第４の実施形態）
本開示は、ゲノムに限らず、アンケートのように一つの質問に対して複数の回答の選択肢がある場合のデータについても適用できる。具体的には、塩基＝質問、塩基（ＡＴＧＣ）＝４つの選択肢と対応させると、本開示をアンケートの分析に適用できる。アンケートでは、目的は系統図ではなく、選択肢の分布の分析、あるいは回答者ごとのアンケート結果の時間的変化の分析などになる。

【産業上の利用可能性】

【0047】

本開示は、感染症やウイルスの研究組織、大学、医薬品メーカー、厚労省の防疫や公衆衛生部門における研究開発に適用することができる。

【符号の説明】

【0048】

１０：ゲノム分析装置
１１：情報処理部
１２：メモリ
１３：表示部

【図1】