(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025007507
(43)【公開日】2025-01-17
(54)【発明の名称】分類方法、分類装置、分類システム、分類プログラム、及び記録媒体
(51)【国際特許分類】
G16B 30/00 20190101AFI20250109BHJP
【FI】
G16B30/00
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023108941
(22)【出願日】2023-06-30
(71)【出願人】
【識別番号】000141897
【氏名又は名称】アークレイ株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】内山 誠
(57)【要約】
【課題】核酸分子の塩基配列を分類する際における処理量を低減する。
【解決手段】分類方法は、測定試料中の核酸分子の塩基配列を測定配列として測定する測定工程と、複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、前記測定工程にて測定した前記測定配列と、の類似度に基づいて、当該測定配列を前記グループの各々に分類する分類工程と、を有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
測定試料中の核酸分子の塩基配列を測定配列として測定する測定工程と、
複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、前記測定工程にて測定した前記測定配列と、の類似度に基づいて、当該測定配列を前記グループの各々に分類する分類工程と、
を有する分類方法。
【請求項2】
前記分類工程において前記複数のグループの各々に分類された前記測定配列の分子数を集計する集計工程、
をさらに有する請求項1に記載の分類方法。
【請求項3】
前記分類工程の後において、前記複数のグループの各々に分類された前記測定配列を、当該グループを構成する前記塩基配列の各々に再分類する再分類工程、をさらに有し、
前記集計工程は、当該塩基配列に再分類された前記測定配列の分子数を当該塩基配列毎に集計する
請求項2に記載の分類方法。
【請求項4】
前記集計工程によって集計された前記分子数に基づいて、前記測定試料の特定の判定を行う判定工程、をさらに有する
請求項2に記載の分類方法。
【請求項5】
前記特定のルールは、前記複数のグループにグループ分けされる前記塩基配列の前記代表配列に対する類似度、又は、前記複数のグループにグループ分けされる前記塩基配列の相互の類似度に基づいたものである
請求項1に記載の分類方法。
【請求項6】
前記代表配列は、前記グループを構成する塩基配列のうち、最も塩基配列が長いものが設定される
請求項1に記載の分類方法。
【請求項7】
前記代表配列は、前記グループを構成する塩基配列のうち、発現量が最も高い塩基配列が設定される
請求項1に記載の分類方法。
【請求項8】
前記分類工程では、前記代表配列と前記測定配列との類似度が閾値以上であるグループ又は、前記代表配列と前記測定配列との類似度が最も高いグループに、前記測定配列を分類する
請求項1に記載の分類方法。
【請求項9】
前記測定工程は、次世代シーケンサーを用いて、前記測定試料中の核酸分子の塩基配列を測定配列として測定する
請求項1に記載の分類方法。
【請求項10】
プロセッサを備え、
前記プロセッサは、複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、測定された測定配列と、の類似度に基づいて、当該測定配列を前記グループの各々に分類する
分類装置。
【請求項11】
測定試料中の核酸分子の塩基配列を測定配列として測定する測定部と、
複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、前記測定部にて測定した前記測定配列と、の類似度に基づいて、当該測定配列を前記グループの各々に分類する分類部と、
を有する分類システム。
【請求項12】
コンピュータに、
複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、測定された測定配列と、の類似度に基づいて、当該測定配列を前記グループの各々に分類する分類処理
を実行させるための分類プログラム。
【請求項13】
コンピュータに、
複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、測定された測定配列と、の類似度に基づいて、当該測定配列を前記グループの各々に分類する分類処理
を実行させるための分類プログラムが記録された非一時的な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、分類方法、分類装置、分類システム、分類プログラム、及び記録媒体に関する。
【背景技術】
【0002】
近年、次世代シーケンサー(Next-Generation Sequencing(以下、NGSと略記する場合がある))を代表とした核酸の網羅的定量解析が、がんを始めとした疾患の判別に応用されてきている。
【0003】
網羅的解析技術の発展に伴い、解析可能な分子種は飛躍的に増加した。しかしながら、解析する分子種の増加に伴い、解析に必要な計算量が爆発的に増加した結果、高性能計算装置や長時間解析の必要性に起因する、設備費用の増加やスループットの低下等の深刻な問題がしばしば発生している。
【0004】
従来、このような計算量の増加を抑制するために、統計解析や機械学習を利用した重要分子の選別による解析分子数の低減を行うことで、計算量の軽減がなされてきた(非特許文献1、2参照)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Jin_et_al,2017, Clinical Cancer Research, Evaluation of Tumor-Derived Exosomal miRNA as Potential Diagnostic Biomarkers for Early-Stage Non-Small Cell Lung Cancer Using Next-Generation Sequencing
【非特許文献2】Asakura_et_al, 2020, Communications Biology, A miRNA-based diagnostic model predicts resectable lung cancer in humans with high accuracy
【発明の概要】
【発明が解決しようとする課題】
【0006】
網羅的な分子種解析を用いた解析プロセスにおいて、処理量(具体的には、計算量)が多い工程として、以下の2つのステップが挙げられる。
ステップ1:標的核酸分子の分類
ステップ2:疾患判別予測
【0007】
ここで、例えば、人間の血中マイクロRNAには、既知のマイクロRNAとして、約2600種が存在し、数μLの検体となる血液中には、数百万個のマイクロRNAが存在する。そして、数百万個のマイクロRNAについて前述のステップ1を行う場合では、例えば、数百万個のマイクロRNAを、既知の約2600種のマイクロRNAの各々と照合して分類することが行われてきたため、処理量(具体的には、計算量)が多大であった。
【0008】
統計解析や機械学習を利用した重要分子の選別の方法(非特許文献1、2参照)では、網羅的に分子種を検出した後、解析分子種数の削減を行うことで、以降の機械学習や統計解析での処理量(具体的には、計算量)を低減させることにより、前述のステップ2における処理量の軽減が可能である。
【0009】
しかしながら、非特許文献1、2の方法では、前述のステップ1における処理量の低減は達成できておらず、高性能計算装置や長時間解析による設備費用の増加、及びスループットの低下に対する問題が残されたままである。
【0010】
本開示は、核酸分子の塩基配列を分類する際における処理量を低減することができる分類方法、分類装置、分類システム、分類プログラム、及び記録媒体を提供することを課題とする。
【課題を解決するための手段】
【0011】
本開示の一態様に係る分類方法は、測定試料中の核酸分子の塩基配列を測定配列として測定する測定工程と、複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、前記測定工程にて測定した前記測定配列と、の類似度に基づいて、当該測定配列を前記グループの各々に分類する分類工程と、を有する。
【発明の効果】
【0012】
本開示によれば、核酸分子の塩基配列を分類する際における処理量を低減することができる。
【図面の簡単な説明】
【0013】
【
図1】本実施形態に係る分類方法の各工程を示すフロー図である。
【
図2】本実施形態の分類装置として機能するコンピュータの一例を示す概略ブロック図である。
【
図3】本実施形態の分類装置の機能構成を示すブロック図である。
【
図4】本実施例において分類対象となる56種類のマイクロRNAを示す一覧である。
【
図5】
図4に示される56種類のマイクロRNAをグループ分けした各グループと、各グループに設定された代表配列とを示す一覧である。
【発明を実施するための形態】
【0014】
以下に、本開示の技術に係る実施形態の一例を図面に基づき説明する。なお、動作、作用、機能が同じ働きを担う構成要素及び処理には、全図面を通して同じ符号を付与し、重複する説明を適宜省略する場合がある。各図面は、本開示の技術を十分に理解できる程度に、概略的に示してあるに過ぎない。よって、本開示の技術は、図示例のみに限定されるものではない。また、本実施形態では、本開示と直接的に関連しない構成や周知な構成については、説明を省略する場合がある。
【0015】
<分類方法10>
まず、本実施形態に係る分類方法10を説明する。
図1は、本実施形態に係る分類方法10の各工程を示す概略図である。
【0016】
分類方法10は、測定試料中の核酸分子の塩基配列を測定し、当該塩基配列をグループの各々に分類する方法である。測定試料としては、体液(例えば、血液、血清、尿、涙、唾液、汗、精液、リンパ液、組織液、体腔液(例えば、胸水、腹水など)、脳髄液、羊水、膣液、鼻水)、組織、及び細胞などが挙げられる。
【0017】
核酸分子としては、例えば、マイクロRNAが挙げられる。なお、核酸分子としては、マイクロRNA以外のスモールRNA、その他のRNA、DNAなどであってもよい。さらに、核酸分子としては、ATGCUの塩基のみから構成される核酸分子でなくてもよい。具体的には、例えば、DNA/RNAメチル化等の修飾、A-to-I RNA編集といった編集を受けた核酸等が挙げられる。このように、種々の核酸分子が、本分類方法の適用対象となり得る。
【0018】
分類方法10は、具体的には、
図1に示されるように、準備工程11と、測定工程12と、分類工程13と、再分類工程14と、集計工程15と、判定工程16と、を有している。本実施形態では、準備工程11、測定工程12、分類工程13、再分類工程14、集計工程15、及び判定工程16は、一例として、この順で実行される。
【0019】
なお、分類方法10は、集計工程15、及び判定工程16を有する方法であるから、集計方法、又は判定方法とも言える。また、判定工程16において、判定により、検査又は分析などを行う場合には、分類方法は、検査方法又は分析方法とも言える。以下、分類方法10の各工程について説明する。
【0020】
<準備工程11>
準備工程11は、分類工程13を実行するための準備として実行される工程である。本実施形態では、準備工程11は、例えば、測定工程12及び分類工程13が実行される前に実行される。なお、準備工程11は、少なくとも、分類工程13が実行される前に実行されればよく、測定工程12の後に実行されてもよい。
【0021】
準備工程11では、複数の核酸分子の塩基配列を特定のルールによって複数のグループにグループ分けすると共に、複数のグループの各々を代表する塩基配列として代表配列を設定する。なお、以下では、複数のグループの各々を構成する塩基配列のうち、代表配列以外の塩基配列を、類似配列という場合がある。
【0022】
準備工程11においてグループ分けされた複数のグループの各々は、代表配列と、1以上の類似配列と、で構成されていてもよい。すなわち、複数のグループの各々には、代表配列と、1以上の類似配列と、が所属することになる。なお、グループは、代表配列のみで構成されていてもよい。すなわち、グループとしては、類似配列を有さないグループであってもよい。
【0023】
ここで、例えば、人間の血中マイクロRNAには、既知のマイクロRNAとして、約2600種が存在する。人間の血中マイクロRNAの塩基配列を分類対象とする場合には、この約2600種のマイクロRNAの塩基配列をグループ分けする。
【0024】
代表配列は、例えば、グループを構成する塩基配列のうち、最も塩基配列が長いものが設定されていてもよい。なお、代表配列としては、グループを構成する塩基配列のうち、最も塩基配列が長いものに限られず、例えば、グループを構成する塩基配列のうち、発現量が最も高い塩基配列を設定してもよい。発現量が最も高い塩基配列は、例えば、以下の第一方法、又は第二方法により設定することが可能である。
【0025】
ここで、測定試料に存在する量が多い核酸分子の塩基配列は、測定試料ごとに決まっている。すなわち、例えば、人間の血液であれば、血液中に存在する量が多いマイクロRNAが決まっている。第一方法は、これを利用して、グループを構成する塩基配列のうち、測定試料に存在する量が最も多い核酸分子の塩基配列を、発現量が最も高い塩基配列として、予め代表配列に設定する方法である。具体的には、第一方法では、例えば、設定用のサンプルとして複数の測定試料を測定した測定データ、又は統計的なデータなどに基づき、グループを構成する塩基配列のうち、測定試料に存在する量が最も多い核酸分子の塩基配列を、発現量が最も高い塩基配列として、予め代表配列に設定することができる。
【0026】
第二方法は、測定工程12にて測定した測定結果に基づいて、グループを構成する塩基配列のうち、発現量が最も高い塩基配列を代表配列に設定する方法である。第二方法では、例えば、測定工程12において、グループを構成する塩基配列のうち、測定された量が最も多かった塩基配列を、発現量が最も高い塩基配列として代表配列に設定することができる。したがって、第二方法では、測定工程12の測定結果によって、代表配列が変更される場合がある。また、第二方法では、準備工程11は、測定工程12の後に実行される。
【0027】
また、代表配列としては、自然外に存在する配列ではなく、人工的に定義された配列であってもよい。当該配列として、例えば、ポリメラーゼ連鎖反応(PCR:polymerase chain reaction)などによって、部分的に増幅した配列が挙げられる。
【0028】
特定のルールは、複数のグループにグループ分けされる塩基配列(具体的には、1以上の類似配列)の代表配列に対する類似度、又は、複数のグループにグループ分けされる塩基配列(具体的には代表配列及び1以上の類似配列)の相互の類似度に基づいたものとされる。
【0029】
例えば、1以上の類似配列の代表配列に対する類似度を特定のルールとする場合では、類似配列の代表配列に対する違いが、n塩基以内(n=自然数)の違いであることを特定のルールとすることが可能である。このとき、代表配列の逆相補鎖に対する類似度を含めて、特定のルールとしてもよい。すなわち、代表配列又は、その逆相補鎖に対して、n塩基以内(n=自然数)の違いであることを特定のルールとすることが可能である。
【0030】
また、複数のグループにグループ分けされる塩基配列(具体的には代表配列及び1以上の類似配列)の相互の類似度を特定のルールとする場合では、当該塩基配列の相互の違いが、n塩基以内(n=自然数)の違いであることを特定のルールとすることが可能である。このとき、当該塩基配列の逆相補鎖に対する類似度を含めて、特定のルールとしてもよい。すなわち、当該塩基配列又は、その逆相補鎖に対して、n塩基以内(n=自然数)の違いであることを特定のルールとすることが可能である。
【0031】
前述の違いには、例えば、塩基の置換、多い、少ない、追加、欠損が含まれる。類似度としては、例えば、塩基配列のホモロジー検索で利用される類似度スコアを用いることが可能である。
【0032】
前述の類似度を判断する際には、塩基配列における5’、3’側の配列(すなわち、末端の配列)に着目してもよい。すなわち、例えば、塩基配列における5’、3’側の配列(すなわち、末端の配列)の類似度(具体的には、違い)でグループ分けしてもよい。
【0033】
なお、特定のルールとしては、1以上の類似配列の代表配列に対する類似度、及び代表配列及び1以上の類似配列)の相互の類似度に限られない。
【0034】
例えば、特定のモチーフ(特定の塩基配列、コンセンサス配列)を有することを特定のルールとして、塩基配列をグループ分けする場合であってもよい。具体的には、例えば、特定の塩基配列(以下の配列参照)を有するものを1つのグループとして、グループ分けすることが可能である。
AT**A*C*A*************(*は、ATGCUどれでもよい。)
【0035】
また、例えば、前駆体の塩基配列及びイソ型の塩基配列と、それの基礎となる塩基配列を1つのグループとしてグループ分けしてもよい。
【0036】
さらに、前述したグループ分けの特定のルールを複数組み合わせて、グループ分けする場合であってもよい。
【0037】
本実施形態では、準備工程11は、例えば、最初に分類方法を実行する際に実行され、2回目以降に分類方法を実行する際には、最初に分類方法が実行された際に、グループ分けされたグループ及び、設定された代表配列を用いて、分類工程13を実行することが可能である。
【0038】
したがって、準備工程11は、分類方法を実行する毎に実行する必要はない。なお、準備工程11は、グループのグループ分け及び代表配列の設定を変更する場合などでは、2回目以降に分類方法を実行する際に、複数回に1回、又は毎回、実行してもよい。
【0039】
<測定工程12>
測定工程12は、測定試料中の核酸分子の塩基配列を測定配列として測定する工程である。具体的には、測定工程12では、測定装置である次世代シーケンサー(NGS)を用いて、測定試料中の核酸分子の塩基配列を測定配列として測定する。
【0040】
<分類工程13>
分類工程13は、複数のグループの各々を代表する塩基配列として設定された代表配列と、測定工程12にて測定した測定配列と、の類似度に基づいて、当該測定配列をグループの各々に分類する工程である。すなわち、分類工程13では、測定配列を代表配列に対して類似度によって照合し、当該測定配列をグループの各々に分類する。
【0041】
分類工程13では、例えば、代表配列と測定配列との類似度が最も高いグループに測定配列を分類する。具体的には、分類工程13では、例えば、塩基配列のホモロジー検索で利用される類似度スコアが、最も高いスコアを示すグループに分類する。この場合では、測定配列は、1つのグループに分類される。分類工程13では、測定工程12において測定されたすべての測定配列をグループに分類する。
【0042】
なお、分類工程13では、代表配列と測定配列との類似度が閾値以上であるグループに分類してもよい。この場合では、測定配列が、複数のグループに分類されてもよい。このように、分類工程13では、測定配列が、複数のグループに分類される場合であってもよい。すなわち、測定配列とグループとが一対一で対応している必要はない。
【0043】
測定配列としては、グループ分けされた塩基配列のいずれかと同じ配列である必要はない。また、グループ毎に分類された測定配列を集計前に再度、別のグループと照合、分類を行ってもよい。
【0044】
<再分類工程14>
再分類工程14は、分類工程13の後において、複数のグループの各々に分類された測定配列を、当該グループを構成する塩基配列の各々に再分類する工程である。すなわち、グループに分類された測定配列を、当該グループに所属する代表配列及び1以上の類似配列のいずれかにさらに分類する。
【0045】
再分類工程14では、例えば、代表配列及び1以上の類似配列のいずれかと、測定配列との類似度が最も高い配列に測定配列を分類する。具体的には、再分類工程14では、例えば、塩基配列のホモロジー検索で利用される類似度スコアが、最も高いスコアを示す代表配列及び1以上の類似配列のいずれかに再分類する。
【0046】
なお、再分類工程14の実行は、必須ではなく、分類工程13の後、再分類工程14を実行せずに、集計工程15を実行してもよい。
【0047】
<集計工程15>
集計工程15は、分類工程13において複数のグループの各々に分類された測定配列の分子数を集計する工程である。具体的には、集計工程15では、再分類工程14において代表配列及び1以上の類似配列のいずれかに再分類された測定配列の分子数を塩基配列(代表配列及び1以上の類似配列)毎に集計する。
【0048】
なお、分類工程13の後、再分類工程14を実行せずに、集計工程15を実行した場合には、集計工程15では、複数のグループの各々に分類された測定配列の分子数をグループ毎に集計する。
【0049】
<判定工程16>
判定工程16は、集計工程15によって集計された分子数に基づいて、測定試料の特定の判定を行う工程である。
【0050】
特定の判定としては、試料を提供した提供者の疾患判別予測が挙げられる。疾患判別予測は、例えば、集計工程15において、塩基配列(代表配列及び1以上の類似配列)毎に集計された測定配列の分子数(すなわち、核酸の発現量)の分布によって行うことが可能である。
【0051】
具体的には、例えば、各グループの分子数を変数にした、任意の判定式にて、マイクロRNAの発現量を用いた疾患等の判定を行う。例えば、以下の判定式を用いることが可能である。
【0052】
判定式=Y1×グループ1の発現量+・・・+Yn×グループnの発現量+X
(Yは、グループ毎に予め定められた係数、Xは、予め定められた定数)
【0053】
なお、機械学習により、マイクロRNAの発現量を用いた疾患等の判定を行ってもよい。具体的には、予め対象となるマイクロRNAの各々の発現量と、疾患の有無の情報を教師データとして機械学習し、学習モデルを構築しておく。そして、集計工程15で集計した測定配列とその発現量を入力因子として、当該学習モデルによって、出力因子として疾患の有無を判定させることが可能である。
【0054】
また、判定工程16としては、疾患判別予測に限られず、基礎生物学的な解析や回帰予測、異常検知などを行ってもよい。
【0055】
<分類システム20>
次に、前述の分類方法を実行するシステムとしての分類システム20について説明する。分類システム20は、
図2に示されるように、測定装置21と、分類装置30と、を有している。
【0056】
<測定装置21>
測定装置21は、測定部の一例であり、前述の測定工程12を実行する装置である。すなわち、測定装置21は、測定試料中の核酸分子の塩基配列を測定配列として測定する。測定装置21としては、例えば、NGSが用いられる。
【0057】
<分類装置30>
分類装置30は、分類部の一例であり、前述の分類工程13を実行する装置である。すなわち、分類装置30は、複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、測定装置21にて測定した測定配列と、の類似度に基づいて、当該測定配列をグループの各々に分類する。さらに、分類装置30は、前述の再分類工程14、集計工程15、及び判定工程16を実行する。
【0058】
分類装置30は、コンピュータとしての機能を有し、
図2に示されるように、CPU(Central Processing Unit)31、ROM(Read Only Memory)32、RAM(Random Access Memory)33、ストレージ34、入力部35、表示部36及び通信インタフェース(I/F)37を有している。各構成部は、バス39を介して相互に通信可能に接続されている。
【0059】
CPU31は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU31は、ROM32又はストレージ34からプログラムを読み出し、RAM33を作業領域としてプログラムを実行する。CPU31は、ROM32又はストレージ34に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。なお、CPU31は、プロセッサの一例である。
【0060】
ROM32は、各種プログラム及び各種データを記録する。RAM33は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ34は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを記録する。
【0061】
本実施形態では、例えば、前述の分類方法を行う分類処理を実行させるための分類プログラムがストレージ34に記録されている。分類プログラムは、1つのプログラムであってもよいし、複数のプログラム又はモジュールで構成されるプログラム群であってもよい。
【0062】
また、ストレージ34には、前述の準備工程11によって、グループ分けされた各グループのグループ情報、及び複数のグループの各々を代表する塩基配列として設定された代表配列の配列情報が、記録されている。なお、分類プログラム、グループ情報、及び配列情報は、ROM32に記録されていてもよい。ROM32及びストレージ34は、非一時的な記録媒体の一例として機能する。
【0063】
入力部35は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。また、入力部35は、測定装置21により測定された測定配列の情報を、入力として受け付ける。
【0064】
表示部36は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部36は、タッチパネル方式を採用して、入力部35として機能してもよい。
【0065】
通信インタフェース37は、他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI(Fiber Distributed Data Interface)、Wi-Fi(登録商標)等の規格が用いられる。
【0066】
図3に示されるように、分類装置30では、CPU31が、分類プログラムを実行することで、分類機能部150、再分類部160、集計部170、及び判定部180として機能する。
【0067】
分類機能部150は、前述の分類工程13を実行する。すなわち、分類機能部150は、複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、測定装置21にて測定した測定配列と、の類似度に基づいて、当該測定配列をグループの各々に分類する(前述の分類工程13参照)。
【0068】
再分類部160は、前述の再分類工程14を実行する。すなわち、分類機能部150によって、複数のグループの各々に分類された測定配列を、当該グループを構成する塩基配列の各々に再分類する(前述の再分類工程14参照)。
【0069】
集計部170は、集計工程15を実行する。すなわち、集計部170は、分類機能部150において複数のグループの各々に分類された測定配列の分子数を集計する。具体的には、集計部170は、再分類部160において代表配列及び1以上の類似配列のいずれかに再分類された測定配列の分子数を塩基配列(代表配列及び1以上の類似配列)毎に集計する(前述の集計工程15参照)。
【0070】
判定部180は、前述の判定工程16を実行する。すなわち、判定部180は、集計部170によって集計された分子数に基づいて、測定試料の特定の判定を行う(前述の判定工程16参照)。
【0071】
なお、本実施形態では、分類システム20は、測定装置21と、分類装置30と、を有していたが、分類システム20としては、1つの装置で構成されていてもよい。この場合では、当該1つの装置が、測定部及び分類部及びの一例として機能する。
【0072】
また、分類装置30は、複数の装置で構成されていてもよい。例えば、分類装置30は、前述の分類工程13、再分類工程14、集計工程15、及び判定工程16を分担して実行する複数(例えば4つ)の装置で構成されていてもよい。
【0073】
<実施例>
次に、実施例として、マイクロRNA(核酸分子の一例)が含まれる血液を測定試料として用い、前述の分類方法の各工程を実行した例を説明する。本実施例では、便宜上、56種類のマイクロRNA(
図4参照)を対象として、前述の分類方法の各工程を実行する。
【0074】
なお、実施例は、本開示の技術の一例を示すものであり、本開示の技術は、実施例の内容に限定されるものではない。
【0075】
<準備工程11>
本実施例では、代表配列となるいずれかの塩基配列、又はその逆相補鎖に対して、3塩基以内の違いであることを、特定のルールとして、56種類のマイクロRNAに対してグループ分けを行った。代表配列は、グループ中において、最長の塩基配列を設定した。したがって、類似配列は、最長の代表配列と比較して同一配列中で3塩基以内の違いのものである。当該違いには、例えば、代表配列に対する塩基の置換、多い、少ない、追加、欠損が含まれる。
【0076】
本実施例では、56種類のマイクロRNA(
図4参照)を、上記特定ルールに基づき、
図5に示されるように、グループ分け及び代表配列の設定を行った。
【0077】
<測定工程12>
本実施例では、測定装置であるNGSによって、測定試料である血液中のマイクロRNAの塩基配列を測定配列として測定し、測定配列の数を定量する。
【0078】
<分類工程13>
本実施例では、測定工程12において測定されたすべての測定配列について、複数のグループの各々の代表配列との類似度スコアが最も高いスコアを示すグループに分類する。なお、56種類のマイクロRNA以外のマイクロRNAは、分類対象から予め除外した。
【0079】
<再分類工程14>
本実施例では、分類工程13の後において、複数のグループの各々に分類されたすべての測定配列について、当該グループの代表配列及び1以上の類似配列の各々に再分類する。このとき、測定配列との類似度スコアが最も高いスコアを示す代表配列及び1以上の類似配列のいずれかに再分類する。
【0080】
<集計工程15>
本実施例では、再分類工程14において代表配列及び1以上の類似配列のいずれかに再分類された測定配列の分子数を、塩基配列(代表配列及び1以上の類似配列)毎に集計する。
【0081】
<判定工程16>
本実施例では、集計工程15において、塩基配列(代表配列及び1以上の類似配列)毎に集計された測定配列の分子数(すなわち、核酸の発現量)の分布によって、疾患判別予測を行う。
【0082】
具体的には、例えば、各グループの分子数を変数にした、以下の判定式にて、マイクロRNAの発現量を用いた疾患等の判定を行う。
【0083】
判定式=Y1×グループ1の発現量+・・・+Y7×グループ7の発現量+X
(Yは、グループ毎に予め定められた係数、Xは、予め定められた定数)
【0084】
なお、機械学習により、マイクロRNAの発現量を用いた疾患等の判定を行ってもよい。具体的には、予め対象となる56種類のマイクロRNAの各々の発現量と、疾患の有無の情報を教師データとして機械学習し、学習モデルを構築しておく。そして、集計工程15で集計した測定配列とその発現量を入力因子として、当該学習モデルによって、出力因子として疾患の有無を判定させることが可能である。
【0085】
<実施例の効果>
本実施例によれば、後述のように、分類工程13において、マイクロRNAの塩基配列を分類する際における処理量(具体的には計算量)を低減できる。
【0086】
例えば、測定配列の数を10,000,000とし、1つの測定配列を1つの塩基配列と照合するのに必要な計算量をAとした場合において、測定配列を56種類のマイクロRNAの各々に分類する場合は、以下のような計算量となる。
【0087】
10,000,000 (分子)×56(種類)=560,000,000通り・・・(1)
(1)より、総計算量=560,000,000×A・・・(2)
【0088】
一方、本実施例では、56種類のマイクロRNAを7種類のグループにグループ分けし、代表配列との類似度に基づいて、測定配列を分類しているため、以下の計算量となる。
【0089】
10,000,000 (分子)×7(種類) = 70,000,000通り・・・(3)
(3)より、総計算量= 70,000,000×A・・・(4)
【0090】
(2)、(4)より、70,000,000×A/560,000,000×A=0.125・・・(5)
【0091】
(5)により、本実施例によれば、計算量が、測定配列を56種類のマイクロRNAの各々に分類する場合と比較して0.125倍に軽減できていることが分かる。
【0092】
再分類工程14を実行した場合では、以下の計算量が必要となる。ここでは、仮想的に、グループ1、2、3の各々に2,000,000 (分子)が分類され、グループ4、5、6、7の各々に1,000,000 (分子)が分類されたものとする。
【0093】
グループ1:総計算量=2,000,000(分子)×34(種類)×A=68,000,000・・・(11)
グループ2:総計算量=2,000,000(分子)×6(種類)×A=12,000,000・・・(12)
グループ3:総計算量=2,000,000(分子)×5(種類)×A=10,000,000・・・(13)
グループ4:総計算量=1,000,000(分子)×4(種類)×A=4,000,000・・・(14)
グループ5:総計算量=1,000,000(分子)×3(種類)×A=3,000,000・・・(15)
グループ6:総計算量=1,000,000(分子)×2(種類)×A=2,000,000・・・(16)
グループ7:総計算量=1,000,000(分子)×2(種類)×A=2,000,000・・・(17)
【0094】
(11)~(17)の総計による総計算量は、以下の通りとなる。
総計算量=111,000,000*A・・・(18)
【0095】
(4)と(18)の和(以下の(19)参照))が、分類工程13及び再分類工程14における計算量となる。
70,000,000×A+111,000,000×A=181,000,000×A・・・(19)
【0096】
(2)、(19)より、181,000,000×A/560,000,000×A=0.323・・・(20)
【0097】
(20)により、本実施例によれば、計算量が、本実施例を用いなかった場合と比較して0.323倍に軽減できていることが分かる。
【0098】
以上のように、本開示の技術は、核酸の中には類似した塩基配列があるという知見を利用し、類似した塩基配列を集合化してグループ分けすることにより、処理量(具体的には、計算量)を低減することを技術思想とするものである。
【0099】
<付記>
(態様1)
測定試料中の核酸分子の塩基配列を測定配列として測定する測定工程と、
複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、前記測定工程にて測定した前記測定配列と、の類似度に基づいて、当該測定配列を前記グループの各々に分類する分類工程と、
を有する分類方法。
(態様2)
前記分類工程において前記複数のグループの各々に分類された前記測定配列の分子数を集計する集計工程、
を有する態様1に記載の分類方法。
(態様3)
前記分類工程の後において、前記複数のグループの各々に分類された前記測定配列を、当該グループを構成する前記塩基配列の各々に再分類する再分類工程、をさらに有し、
前記集計工程は、当該塩基配列に再分類された前記測定配列の分子数を当該塩基配列毎に集計する
態様2に記載の分類方法。
(態様4)
前記集計工程によって集計された前記分子数に基づいて、前記測定試料の特定の判定を行う判定工程、をさらに有する
態様2又は態様3に記載の分類方法。
(態様5)
前記特定のルールは、前記複数のグループにグループ分けされる前記塩基配列の前記代表配列に対する類似度、又は、前記複数のグループにグループ分けされる前記塩基配列の相互の類似度に基づいたものである
態様1~4のいずれか1つに記載の分類方法。
(態様6)
前記代表配列は、前記グループを構成する塩基配列のうち、最も塩基配列が長いものが設定される
態様1~5のいずれか1つに記載の分類方法。
(態様7)
前記代表配列は、前記グループを構成する塩基配列のうち、発現量が最も高い塩基配列が設定される
態様1~6のいずれか1つに記載の分類方法。
(態様8)
前記分類工程では、前記代表配列と前記測定配列との類似度が閾値以上であるグループ又は、前記代表配列と前記測定配列との類似度が最も高いグループに、前記測定配列を分類する
態様1~7のいずれか1つに記載の分類方法。
(態様9)
前記測定工程は、次世代シーケンサーを用いて、前記測定試料中の核酸分子の塩基配列を測定配列として測定する
態様1~8のいずれか1つに記載の分類方法。
(態様10)
プロセッサを備え、
前記プロセッサは、複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、測定された測定配列と、の類似度に基づいて、当該測定配列を前記グループの各々に分類する
分類装置。
(態様11)
測定試料中の核酸分子の塩基配列を測定配列として測定する測定部と、
複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、前記測定部にて測定した前記測定配列と、の類似度に基づいて、当該測定配列を前記グループの各々に分類する分類部と、
を有する分類システム。
(態様12)
コンピュータに、
複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、測定された測定配列と、の類似度に基づいて、当該測定配列を前記グループの各々に分類する分類処理
を実行させるための分類プログラム。
(態様13)
コンピュータに、
複数の核酸分子の塩基配列が特定のルールによってグループ分けされた複数のグループの各々を代表する塩基配列として設定された代表配列と、測定された測定配列と、の類似度に基づいて、当該測定配列を前記グループの各々に分類する分類処理
を実行させるための分類プログラムが記録された非一時的な記録媒体。
【符号の説明】
【0100】
10 分類方法
11 準備工程
12 測定工程
13 分類工程
14 再分類工程
15 集計工程
16 判定工程
20 分類システム
21 測定装置(測定部の一例)
30 分類装置(分類部の一例)
31 CPU(プロセッサの一例)
32 ROM
33 RAM
34 ストレージ(記録媒体の一例)
35 入力部
36 表示部
37 通信インタフェース
39 バス
150 分類機能部
160 再分類部
170 集計部
180 判定部