(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-21
(54)【発明の名称】グラフリファレンスを生成するためのシステム及び方法
(51)【国際特許分類】
G16B 30/20 20190101AFI20240313BHJP
G16B 45/00 20190101ALI20240313BHJP
G16B 30/10 20190101ALI20240313BHJP
C12Q 1/6869 20180101ALN20240313BHJP
【FI】
G16B30/20
G16B45/00
G16B30/10
C12Q1/6869 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023557038
(86)(22)【出願日】2022-03-17
(85)【翻訳文提出日】2023-11-14
(86)【国際出願番号】 US2022020689
(87)【国際公開番号】W WO2022197887
(87)【国際公開日】2022-09-22
(32)【優先日】2021-03-17
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】516050647
【氏名又は名称】セブン ブリッジズ ジェノミクス インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】テティコル,ヒュセイン,セルハット
(72)【発明者】
【氏名】ターガット,デニズ
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QQ42
4B063QQ52
(57)【要約】
グラフリファレンス構築物を生成するための技法。技法は、リファレンス配列構築物に関連付けられた複数のバリアントを取得することと、複数のバリアント及びリファレンス配列構築物を用いてグラフリファレンス構築物を生成することと、生成されたグラフリファレンス構築物を出力することと、を含む。グラフリファレンス構築物を生成することは、バリアントのフィルタされたセットを取得するために複数のバリアントをフィルタリングすることであって、第1のフィルタリング段階及び第2のフィルタリング段階を含む、フィルタリングすること、並びにバリアントのフィルタされたセットを用いてグラフリファレンス構築物を生成すること、を含む。第1のフィルタリング段階は、少なくとも部分的に、1つ以上の構造バリアントを複数のバリアントから除外することによって、バリアントの第1の部分セットを識別することを含む。第2のフィルタリング段階は、少なくとも部分的に、1つ以上の複数整列可能バリアントをバリアントの第1の部分セットから除外することによって、バリアントのフィルタされたセットを識別することを含む。
【特許請求の範囲】
【請求項1】
グラフリファレンス構築物を生成するための方法であって、前記方法は、
少なくとも1つのコンピューティングデバイスを用いて、
ゲノムの少なくとも1つの部分のためのリファレンス配列構築物に関連付けられた複数のバリアントを取得することと、
前記複数のバリアント及び前記リファレンス配列構築物を用いて前記グラフリファレンス構築物を生成することであって、前記生成することが、
バリアントのフィルタされたセットを取得するために、前記複数のバリアントをフィルタリングすることであって、バリアントの前記フィルタされたセットが前記複数のバリアントの部分セットであり、前記フィルタリングすることが、第1のフィルタリング段階、及び前記第1のフィルタリング段階とは異なり、前記第1のフィルタリング段階の後に実行される第2のフィルタリング段階を含む、複数のフィルタリング段階を含み、
前記第1のフィルタリング段階が、少なくとも部分的に、1つ以上の構造バリアントを前記複数のバリアントから除外することによって、前記複数のバリアントの中からバリアントの第1の部分セットを識別することを含み、前記1つ以上の構造バリアントが第1の構造バリアントを含み、
前記第2のフィルタリング段階が、少なくとも部分的に、バリアントの前記第1の部分セットから1つ以上の複数整列可能バリアントを除外することによって、バリアントの前記第1の部分セットの中からバリアントの前記フィルタされたセットを識別することを含む、
フィルタリングすること、
バリアントの前記フィルタされたセット、及び前記リファレンス配列構築物を用いて前記グラフリファレンス構築物を生成すること、
を含む、生成することと、
前記生成されたグラフリファレンス構築物を出力することと、
を実行することを含む、方法。
【請求項2】
前記複数のバリアントの中からバリアントの前記第1の部分セットを識別することは、
前記第1の構造バリアントの第1の長さが第1の指定閾値を超えるかどうかを決定すること、及び
前記第1の長さが前記第1の指定閾値を超えると決定すると、前記第1の構造バリアントを前記複数のバリアントから除外すること、
を含む、請求項1に記載の方法。
【請求項3】
前記第1の構造バリアントが挿入事象であり、
前記第1の構造バリアントの前記第1の長さが前記第1の指定閾値を超えるかどうかを決定することは、前記第1の長さが少なくとも5,000塩基対であるかどうかを決定することを含む、請求項2に記載の方法。
【請求項4】
前記第1の構造バリアントが欠失事象であり、
前記第1の構造バリアントの前記第1の長さが前記第1の指定閾値を超えるかどうかを決定することは、前記第1の長さが少なくとも90,000塩基対であるかどうかを決定することを含む、請求項2に記載の方法。
【請求項5】
前記複数のバリアントの中からバリアントの前記第1の部分セットを識別することは、
前記第1の構造バリアントを前記リファレンス配列構築物に整列させることを含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記複数のバリアントの中からバリアントの前記第1の部分セットを識別することは、
前記リファレンス配列構築物が部分配列を含むかどうかを決定することであって、前記部分配列は前記第1の構造バリアントの少なくとも1つの部分と同一である、決定すること、及び
前記リファレンス配列構築物が前記部分配列を含むと決定すると、前記第1の構造バリアントを前記複数のバリアントから除外すること、
を含む、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記複数のバリアントの中からバリアントの前記第1の部分セットを識別することは、
前記第1の構造バリアントを前記複数のバリアントのうちの1つ以上のバリアントに整列させることであって、前記1つ以上のバリアントは前記第1の構造バリアントとは異なる、整列させることを含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記複数のバリアントの中からバリアントの前記第1の部分セットを識別することは、
第2の構造バリアントが部分配列を含むかどうかを決定することであって、前記部分配列は前記第1の構造バリアントの少なくとも部分と同一である、決定すること、及び
前記第2の構造バリアントが前記部分配列を含むと決定すると、前記第1の構造バリアント又は前記第2の構造バリアントのうちの一方を前記複数のバリアントから除外すること、
を含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記複数のバリアントの中からバリアントの前記第1の部分セットを識別することは、
前記第1の構造バリアントを、前記リファレンス配列構築物に関連付けられたデコイ配列に整列させることを含む、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記複数のバリアントの中からバリアントの第1の部分セットを識別することは、
前記リファレンス配列構築物に関連付けられたデコイ配列が部分配列を含むかどうかを決定することであって、前記部分配列は前記第1の構造バリアントの少なくとも1つの部分と同一である、決定すること、及び
前記デコイ配列が前記部分配列を含むと決定すると、前記デコイ配列をマスクすること、
を含む、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記複数のバリアントの中からバリアントの前記第1の部分セットを識別することは、前記第1の長さが前記第1の指定閾値を超えないと決定すると、
前記リファレンス配列構築物が第1の部分配列を含むかどうかを決定することであって、前記第1の部分配列は前記第1の構造バリアントの少なくとも第1の部分と同一である、決定すること、及び
前記リファレンス配列構築物が前記第1の部分配列を含むと決定すると、前記第1の構造バリアントを前記複数のバリアントから除外すること、
をさらに含む、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記リファレンス配列構築物が前記第1の部分配列を含むかどうかを決定することは、前記第1の部分配列が、第2の指定閾値よりも大きい長さを有するかどうかを決定することを含む、請求項11に記載の方法。
【請求項13】
前記リファレンス配列構築物が前記第1の部分配列を含まないと決定すると、第2の構造バリアントが第2の部分配列を含むかどうかを決定することであって、前記第2の部分配列は前記第1の構造バリアントの少なくとも第2の部分と同一である、決定することと、
前記第2の構造バリアントが前記第2の部分配列を含むと決定すると、前記第1の構造バリアント又は前記第2の構造バリアントのうちの一方を前記複数のバリアントから除外することと、
をさらに含む、請求項11又は12に記載の方法。
【請求項14】
前記第2の構造バリアントが前記第2の部分配列を含むかどうかを決定することは、前記第2の部分配列が、前記第2の指定閾値よりも大きい長さを有するかどうかを決定することを含む、請求項13に記載の方法。
【請求項15】
前記第2の指定閾値は少なくとも150塩基対である、請求項14に記載の方法。
【請求項16】
前記第1の構造バリアント又は前記第2の構造バリアントのうちの一方を前記複数のバリアントから除外することは、
前記第1の構造バリアント及び前記第2の構造バリアントの中から最も短いバリアントを識別すること、並びに
前記最も短いバリアントを前記複数のバリアントから除外すること、
を含む、請求項13~15のいずれか一項に記載の方法。
【請求項17】
前記第2の構造バリアントが前記第2の部分配列を含まないと決定すると、前記リファレンス配列構築物に関連付けられたデコイ配列が第3の部分配列を含むかどうかを決定することであって、前記第3の部分配列は前記第1の構造バリアントの少なくとも第3の部分と同一である、決定することと、
前記デコイ配列が前記第3の部分配列を含むと決定すると、前記デコイ配列をマスクすること、
をさらに含む、請求項13~16のいずれか一項に記載の方法。
【請求項18】
バリアントの前記第1の部分セットの中からバリアントの前記フィルタされたセットを識別することは、
バリアントの前記第1の部分セットのうちの少なくとも一部を用いて初期グラフリファレンス構築物を生成することを含む、請求項1~17のいずれか一項に記載の方法。
【請求項19】
バリアントの前記第1の部分セットの中からバリアントの前記フィルタされたセットを識別することは、
前記初期グラフリファレンス構築物を用いて複数のグラフリードを生成することであって、前記複数のグラフリードのうちの少なくとも一部の各々は前記初期グラフリファレンス構築物内のそれぞれのパスに関連付けられる、生成することをさらに含む、請求項18に記載の方法。
【請求項20】
前記複数のグラフリードはグラフリードの第1の部分セット及びグラフリードの第2の部分セットを含み、前記複数のグラフリードを生成することは、
前記初期グラフリファレンス構築物を第1の区間にわたって横断することによってグラフリードの前記第1の部分セットを生成すること、並びに
前記初期グラフリファレンス構築物を第2の区間にわたって横断することによってグラフリードの前記第2の部分セットを生成することであって、前記第1の区間及び前記第2の区間は少なくとも部分的に重なる、生成すること、
を含む、請求項19に記載の方法。
【請求項21】
前記複数のグラフリードを生成することは、飛び越しを有する移動窓を用いて前記初期グラフリファレンス構築物を横断することを含む、請求項19又は20に記載の方法。
【請求項22】
前記複数のグラフリードのうちの少なくとも一部を前記初期グラフリファレンス構築物に整列させることをさらに含み、前記整列させることは、前記複数のグラフリードのうちの前記少なくとも一部のグラフリードごとに、
前記グラフリードと前記グラフリファレンス構築物との間のアライメント品質を決定すること、及び
前記アライメント品質が閾値を超えるかどうかを決定すること、
を含む、請求項19~21のいずれか一項に記載の方法。
【請求項23】
前記複数のグラフリードのうちの前記少なくとも一部の第1のグループを識別することをさらに含み、前記複数のグラフリードのうちの前記少なくとも一部の前記第1のグループ内に含まれる各グラフリードはバリアントの前記第1の部分セットの1つ以上のバリアントの第1の組み合わせを含む、請求項22に記載の方法。
【請求項24】
前記複数のグラフリードのうちの前記少なくとも一部の前記第1のグループは第1のグラフリード及び第2のグラフリードを含み、
前記第1のグラフリードのために決定された第1のアライメント品質も、前記第2のグラフリードのために決定された第2のアライメント品質も、どちらも前記指定閾値を超えないと決定すると、少なくとも1つの複数整列可能バリアントをバリアントの前記フィルタされたセットから除外することをさらに含む、請求項23に記載の方法。
【請求項25】
前記少なくとも1つの複数整列可能バリアントは前記1つ以上のバリアントの前記第1の組み合わせ内に含まれる、請求項24に記載の方法。
【請求項26】
バリアントの前記第1の部分セットの中からバリアントの前記フィルタされたセットを識別することは、
バリアントの前記第1の部分セットを用いて初期グラフリファレンス構築物を生成すること、
前記初期グラフリファレンス構築物を横断し、複数のグラフリードを生成すること、
前記複数のグラフリードを前記初期グラフリファレンス構築物に整列させ、前記複数のグラフリードのうちの少なくとも一部の各々のためのアライメント品質を決定すること、及び
前記アライメント品質に基づいて前記第1のセットのバリアントのうちの前記1つ以上のうちの少なくとも一部をバリアントの前記第2のセットから除外すること、
を含む、請求項1~25のいずれか一項に記載の方法。
【請求項27】
前記複数のグラフリードのうちの1つ以上はバリアントの前記第1の部分セットのうちの1つ以上の同じ組み合わせに関連付けられ、
前記複数のグラフリードのうちの前記1つ以上のために決定された前記アライメント品質の各々が指定閾値を下回るかどうかを決定することと、
前記アライメント品質の各々が前記指定閾値を下回ると決定すると、少なくとも1つのバリアントをバリアントの前記フィルタされたセットから除外することと、
をさらに含む、請求項26に記載の方法。
【請求項28】
前記複数のバリアントを取得することは、
前記リファレンス配列構築物に関連付けられた複数の代替的配列を取得すること、
前記複数の代替的配列のうちの少なくとも一部を処理することを含み、前記処理することは、前記複数の代替的配列の第1の代替的配列のために、
前記第1の代替的配列を前記リファレンス配列構築物に整列させ、整列位置を取得すること、
前記整列位置における前記第1の代替的配列と前記リファレンス配列構築物との間の1つ以上の差異を識別すること、及び
前記1つ以上の差異のうちの少なくとも一部を第1のバリアントとして前記複数のバリアント内に含めること、
を含む、請求項1~27のいずれか一項に記載の方法。
【請求項29】
前記複数の代替的配列のうちの前記少なくとも一部を処理した後に、前記複数の代替的配列を含まない更新されたリファレンス配列構築物を構築することをさらに含む、請求項28に記載の方法。
【請求項30】
前記第1の代替的配列が逆位配列パッチを含み、
前記第1の代替的配列を前記リファレンス配列構築物に整列させ、前記整列位置を取得することは、前記逆位配列パッチのための代替的整列位置を取得することを含む、請求項28又は29に記載の方法。
【請求項31】
前記第1のバリアントを前記複数のバリアント内に含める前に前記第1のバリアントを前記リファレンス配列構築物に対して左正規化することをさらに含む、請求項28~30のいずれか一項に記載の方法。
【請求項32】
前記1つ以上の差異のうちの前記少なくとも一部は、連続した第1及び第2の差異を含み、前記第1の差異は前記第1の代替的配列の第1の部分配列に関連付けられ、前記第2の差異は前記リファレンス配列構築物の第2の部分配列に関連付けられ、
前記第1及び第2の差異を、それらを第1のバリアントとして前記複数のバリアント内に含める前に、処理することをさらに含み、前記処理することは、
前記第1の部分配列が、前記第2の部分配列内に含まれる1つ以上の領域を含むかどうかを決定すること、並びに
前記第1の部分配列が、前記第2の部分配列内に含まれる前記1つ以上の領域を含むと決定すると、前記1つ以上の領域を前記第1及び第2の部分配列の両方から除去すること、
を含む、請求項28~31のいずれか一項に記載の方法。
【請求項33】
前記第1及び第2の差異は挿入及び欠失事象をそれぞれ含む、請求項32に記載の方法。
【請求項34】
前記複数のバリアントを取得することは、
前記リファレンス配列構築物に関連付けられた第2のバリアントを取得すること、及び
前記第2のバリアントを前記複数のバリアント内に含めること、
をさらに含む、請求項28~33のいずれか一項に記載の方法。
【請求項35】
前記第2のバリアントのソースを指示する情報をもって前記第2のバリアントをアノテートすることをさらに含む、請求項34に記載の方法。
【請求項36】
前記第1のバリアントのうちの少なくとも一部は第1の対立遺伝子頻度にそれぞれ関連付けられ、前記第2のバリアントのうちの少なくとも一部は第2の対立遺伝子頻度にそれぞれ関連付けられ、
前記第1のバリアントのうちの前記少なくとも一部及び前記第2のバリアントのうちの前記少なくとも一部の両方内に含まれる共有バリアントのために、前記共有バリアントに関連付けられた前記第1及び第2の対立遺伝子頻度を平均し、平均対立遺伝子頻度を取得することをさらに含む、請求項34又は35に記載の方法。
【請求項37】
システムであって、
少なくとも1つのコンピュータハードウェアプロセッサと、
プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体と、
を備え、前記プロセッサ実行可能命令が、前記少なくとも1つのコンピュータハードウェアプロセッサによって実行されたとき、前記少なくとも1つのコンピュータハードウェアプロセッサに、
ゲノムの少なくとも1つの部分のためのリファレンス配列構築物に関連付けられた複数のバリアントを取得することと、
前記複数のバリアント及び前記リファレンス配列構築物を用いて前記グラフリファレンス構築物を生成することであって、前記生成することが、
バリアントのフィルタされたセットを取得するために、前記複数のバリアントをフィルタリングすることであって、バリアントの前記フィルタされたセットが前記複数のバリアントの部分セットであり、前記フィルタリングすることが、第1のフィルタリング段階、及び前記第1のフィルタリング段階とは異なり、前記第1のフィルタリング段階の後に実行される第2のフィルタリング段階を含む複数のフィルタリング段階を含み、
前記第1のフィルタリング段階が、少なくとも部分的に、1つ以上の構造バリアントを前記複数のバリアントから除外することによって、前記複数のバリアントの中からバリアントの第1の部分セットを識別することを含み、前記1つ以上の構造バリアントが第1の構造バリアントを含み、
前記第2のフィルタリング段階が、少なくとも部分的に、1つ以上の複数整列可能バリアントをバリアントの前記第1のセットから除外することによって、バリアントの前記第1の部分セットの中からバリアントの前記フィルタされたセットを識別することを含む、
フィルタリングすること、並びに
バリアントの前記フィルタされたセット、及び前記リファレンス配列構築物を用いて前記グラフリファレンス構築物を生成すること、
を含む、生成することと、
前記生成されたグラフリファレンス構築物を出力することと、
を実行させる、システム。
【請求項38】
プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、前記プロセッサ実行可能命令が、少なくとも1つのコンピュータハードウェアプロセッサによって実行されたとき、前記少なくとも1つのコンピュータハードウェアプロセッサに、
ゲノムの少なくとも1つの部分のためのリファレンス配列構築物に関連付けられた複数のバリアントを取得することと、
前記複数のバリアント及び前記リファレンス配列構築物を用いて前記グラフリファレンス構築物を生成することであって、前記生成することが、
バリアントのフィルタされたセットを取得するために、前記複数のバリアントをフィルタリングすることであって、バリアントの前記フィルタされたセットが前記複数のバリアントの部分セットであり、前記フィルタリングすることが、第1のフィルタリング段階、及び前記第1のフィルタリング段階とは異なり、前記第1のフィルタリング段階の後に実行される第2のフィルタリング段階を含む複数のフィルタリング段階を含み、
前記第1のフィルタリング段階が、少なくとも部分的に、1つ以上の構造バリアントを前記複数のバリアントから除外することによって、前記複数のバリアントの中からバリアントの第1の部分セットを識別することを含み、前記1つ以上の構造バリアントが第1の構造バリアントを含み、
前記第2のフィルタリング段階が、少なくとも部分的に、1つ以上の複数整列可能バリアントをバリアントの前記第1のセットから除外することによって、バリアントの前記第1の部分セットの中からバリアントの前記フィルタされたセットを識別することを含む、
フィルタリングすること、並びに
バリアントの前記フィルタされたセット、及び前記リファレンス配列構築物を用いて前記グラフリファレンス構築物を生成すること、
を含む、生成することと、
前記生成されたグラフリファレンス構築物を出力することと、
を実行させる、少なくとも1つの非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、米国特許法第119条(e)の下で、“SYSTEMS AND METHODS FOR GENERATING GRAPH SEQUENCES”と題し、2021年3月17日に出願された、米国仮特許出願第63/162,400号に対する優先権の利益を主張する。同出願の内容全体は本明細書において参照により組み込まれる。
【0002】
EFS-WEBを介してテキストファイルとして提出された配列一覧の参照
本出願は、EFS-Webを介してASCIIフォーマットで提出され、その全体が本明細書において参照により組み込まれる配列一覧を包含する。2022年3月15日に作成された上記のASCIIコピーは、S196170030WO00-SEQ-DGRと名付けられ、サイズは5,033バイトである。
【背景技術】
【0003】
背景
次世代シークエンシング技法の開発を含む、シークエンシング技術の進歩は、シークエンシングを、研究及び医療の両方において用いられる重要なツールにした。シークエンシング技術のいくつかの適用は、シークエンシング技法によって取得された配列リードをリファレンス配列構築物に対して整列させ、配列リードとリファレンス配列構築物との間の、時として「バリアント」と称される、差異を識別することを含む。その結果として、識別された差異は、診断、予想、治療、研究、及び/又は他の目的のために用いられ得る。
【0004】
配列リードが整列させられ得る異なる種類のリファレンス配列構築物が存在する。例えば、配列リードは、例えば、hg19及びhg38ヒトリファレンスゲノムなどの線形リファレンス配列構築物に対して整列させられ得る。別の例として、配列リードは、1つ以上のそれぞれの場所における1つ以上の既知のバリアントを説明するリファレンス配列構築物に対して整列させられ得る。このようなリファレンス配列構築物の一例はグラフベースのリファレンス配列構築物(時として本明細書において「グラフリファレンス構築物」と称される)である。グラフリファレンス構築物は、各々が1つ又は複数の既知のバリアントを表現し得る複数のパスが存在し得るグラフ(例えば、有向非巡回グラフ)を含み得る。
【発明の概要】
【課題を解決するための手段】
【0005】
概要
一部の実施形態は、グラフリファレンス構築物を生成するための方法であって、本方法は、少なくとも1つのコンピューティングデバイスを用いて、ゲノムの少なくとも1つの部分のためのリファレンス配列構築物に関連付けられた複数のバリアントを取得することと、複数のバリアント及びリファレンス配列構築物を用いてグラフリファレンス構築物を生成することであって、生成することが、バリアントのフィルタされたセットを取得するために複数のバリアントをフィルタリングすることであって、バリアントのフィルタされたセットが複数のバリアントの部分セットであり、フィルタリングすることが、第1のフィルタリング段階、及び第1のフィルタリング段階とは異なり、第1のフィルタリング段階の後に遂行される第2のフィルタリング段階を含む複数のフィルタリング段階を含み、第1のフィルタリング段階が、少なくとも部分的に、1つ以上の構造バリアントを複数のバリアントから除外することによって、複数のバリアントの中からバリアントの第1の部分セットを識別することを含み、1つ以上の構造バリアントが第1の構造バリアントを含み、第2のフィルタリング段階が、少なくとも部分的に、1つ以上の複数整列可能バリアントをバリアントの第1の部分セットから除外することによって、バリアントの第1の部分セットの中からバリアントのフィルタされたセットを識別することを含む、フィルタリングすること、バリアントのフィルタされたセット、及びリファレンス配列構築物を用いてグラフリファレンス構築物を生成すること、を含む、生成することと、生成されたグラフリファレンス構築物を出力することと、を遂行することを含む、方法を提供する。
【0006】
一部の実施形態は、システムであって、少なくとも1つのコンピュータハードウェアプロセッサと、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体と、を備え、プロセッサ実行可能命令が、少なくとも1つのコンピュータハードウェアプロセッサによって実行されたとき、少なくとも1つのコンピュータハードウェアプロセッサに、ゲノムの少なくとも1つの部分のためのリファレンス配列構築物に関連付けられた複数のバリアントを取得することと、複数のバリアント及びリファレンス配列構築物を用いてグラフリファレンス構築物を生成することであって、生成することが、バリアントのフィルタされたセットを取得するために複数のバリアントをフィルタリングすることであって、バリアントのフィルタされたセットが複数のバリアントの部分セットであり、フィルタリングすることが、第1のフィルタリング段階、及び第1のフィルタリング段階とは異なり、第1のフィルタリング段階の後に遂行される第2のフィルタリング段階を含む複数のフィルタリング段階を含み、第1のフィルタリング段階が、少なくとも部分的に、1つ以上の構造バリアントを複数のバリアントから除外することによって、複数のバリアントの中からバリアントの第1の部分セットを識別することを含み、1つ以上の構造バリアントが第1の構造バリアントを含み、第2のフィルタリング段階が、少なくとも部分的に、1つ以上の複数整列可能バリアントをバリアントの第1のセットから除外することによって、バリアントの第1の部分セットの中からバリアントのフィルタされたセットを識別することを含む、フィルタリングすること、並びにバリアントのフィルタされたセット、及びリファレンス配列構築物を用いてグラフリファレンス構築物を生成すること、を含む、生成することと、生成されたグラフリファレンス構築物を出力することと、を遂行させる、システムを提供する。
【0007】
一部の実施形態は、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、プロセッサ実行可能命令が、少なくとも1つのコンピュータハードウェアプロセッサによって実行されたとき、少なくとも1つのコンピュータハードウェアプロセッサに、ゲノムの少なくとも1つの部分のためのリファレンス配列構築物に関連付けられた複数のバリアントを取得することと、複数のバリアント及びリファレンス配列構築物を用いてグラフリファレンス構築物を生成することであって、生成することが、バリアントのフィルタされたセットを取得するために複数のバリアントをフィルタリングすることであって、バリアントのフィルタされたセットが複数のバリアントの部分セットであり、フィルタリングすることが、第1のフィルタリング段階、及び第1のフィルタリング段階とは異なり、第1のフィルタリング段階の後に遂行される第2のフィルタリング段階を含む複数のフィルタリング段階を含み、第1のフィルタリング段階が、少なくとも部分的に、1つ以上の構造バリアントを複数のバリアントから除外することによって、複数のバリアントの中からバリアントの第1の部分セットを識別することを含み、1つ以上の構造バリアントが第1の構造バリアントを含み、第2のフィルタリング段階が、少なくとも部分的に、1つ以上の複数整列可能バリアントをバリアントの第1のセットから除外することによって、バリアントの第1の部分セットの中からバリアントのフィルタされたセットを識別することを含む、フィルタリングすること、並びにバリアントのフィルタされたセット、及びリファレンス配列構築物を用いてグラフリファレンス構築物を生成すること、を含む、生成することと、生成されたグラフリファレンス構築物を出力することと、を遂行させる、少なくとも1つの非一時的コンピュータ可読記憶媒体を提供する。
【0008】
実施形態によっては、複数のバリアントの中からバリアントの第1の部分セットを識別することは、第1の構造バリアントの第1の長さが第1の指定閾値を超えるかどうかを決定すること、及び第1の長さが第1の指定閾値を超えると決定すると、第1の構造バリアントを複数のバリアントから除外すること、を含む。
【0009】
実施形態によっては、第1の構造バリアントは挿入事象であり、第1の構造バリアントの第1の長さが第1の指定閾値を超えるかどうかを決定することは、第1の長さが少なくとも5,000塩基対であるかどうかを決定することを含む。
【0010】
実施形態によっては、第1の構造バリアントは欠失事象であり、第1の構造バリアントの第1の長さが第1の指定閾値を超えるかどうかを決定することは、第1の長さが少なくとも90,000塩基対であるかどうかを決定することを含む。
【0011】
実施形態によっては、複数のバリアントの中からバリアントの第1の部分セットを識別することは、第1の構造バリアントをリファレンス配列構築物に整列させることを含む。
【0012】
実施形態によっては、複数のバリアントの中からバリアントの第1の部分セットを識別することは、リファレンス配列構築物が部分配列を含むかどうかを決定することであって、部分配列は第1の構造バリアントの少なくとも部分と同一である、決定すること、及びリファレンス配列構築物が部分配列を含むと決定すると、第1の構造バリアントを複数のバリアントから除外すること、を含む。
【0013】
実施形態によっては、複数のバリアントの中からバリアントの第1の部分セットを識別することは、第1の構造バリアントを複数のバリアントのうちの1つ以上のバリアントに整列させることであって、1つ以上のバリアントは第1の構造バリアントとは異なる、整列させることを含む。
【0014】
実施形態によっては、複数のバリアントの中からバリアントの第1の部分セットを識別することは、第2の構造バリアントが部分配列を含むかどうかを決定することであって、部分配列は第1の構造バリアントの少なくとも部分と同一である、決定すること、及び第2の構造バリアントが部分配列を含むと決定すると、第1の構造バリアント又は第2の構造バリアントのうちの一方を複数のバリアントから除外すること、を含む。
【0015】
実施形態によっては、複数のバリアントの中からバリアントの第1の部分セットを識別することは、第1の構造バリアントを、リファレンス配列構築物に関連付けられたデコイ配列に整列させることを含む。
【0016】
実施形態によっては、複数のバリアントの中からバリアントの第1の部分セットを識別することは、リファレンス配列構築物に関連付けられたデコイ配列が部分配列を含むかどうかを決定することであって、部分配列は第1の構造バリアントの少なくとも部分と同一である、決定すること、及びデコイ配列が部分配列を含むと決定すると、デコイ配列をマスクすること、を含む。
【0017】
実施形態によっては、複数のバリアントの中からバリアントの第1の部分セットを識別することは、第1の長さが第1の指定閾値を超えないと決定すると、リファレンス配列構築物が第1の部分配列を含むかどうかを決定することであって、第1の部分配列は第1の構造バリアントの少なくとも第1の部分と同一である、決定すること、及びリファレンス配列構築物が第1の部分配列を含むと決定すると、第1の構造バリアントを複数のバリアントから除外すること、をさらに含む。
【0018】
実施形態によっては、リファレンス配列構築物が第1の部分配列を含むかどうかを決定することは、第1の部分配列が、第2の指定閾値よりも大きい長さを有するかどうかを決定することを含む。
【0019】
一部の実施形態は、リファレンス配列構築物が第1の部分配列を含まないと決定すると、第2の構造バリアントが第2の部分配列を含むかどうかを決定することであって、第2の部分配列は第1の構造バリアントの少なくとも第2の部分と同一である、決定することと、第2の構造バリアントが第2の部分配列を含むと決定すると、第1の構造バリアント又は第2の構造バリアントのうちの一方を複数のバリアントから除外することと、をさらに含む。
【0020】
実施形態によっては、第2の構造バリアントが第2の部分配列を含むかどうかを決定することは、第2の部分配列が、第2の指定閾値よりも大きい長さを有するかどうかを決定することを含む。
【0021】
実施形態によっては、第2の指定閾値は少なくとも150塩基対である。
【0022】
実施形態によっては、第1の構造バリアント又は第2の構造バリアントのうちの一方を複数のバリアントから除外することは、第1の構造バリアント及び第2の構造バリアントの中から最も短いバリアントを識別すること、並びに最も短いバリアントを複数のバリアントから除外すること、を含む。
【0023】
一部の実施形態は、第2の構造バリアントが第2の部分配列を含まないと決定すると、リファレンス配列構築物に関連付けられたデコイ配列が第3の部分配列を含むかどうかを決定することであって、第3の部分配列は第1の構造バリアントの少なくとも第3の部分と同一である、決定することと、デコイ配列が第3の部分配列を含むと決定すると、デコイ配列をマスクすること、をさらに含む。
【0024】
実施形態によっては、バリアントの第1の部分セットの中からバリアントのフィルタされたセットを識別することは、バリアントの第1の部分セットのうちの少なくとも一部を用いて初期グラフリファレンス構築物を生成することを含む。
【0025】
実施形態によっては、バリアントの第1の部分セットの中からバリアントのフィルタされたセットを識別することは、初期グラフリファレンス構築物を用いて複数のグラフリードを生成することであって、複数のグラフリードのうちの少なくとも一部の各々は初期グラフリファレンス構築物内のそれぞれのパスに関連付けられる、生成することをさらに含む。
【0026】
実施形態によっては、複数のグラフリードはグラフリードの第1の部分セット及びグラフリードの第2の部分セットを含み、複数のグラフリードを生成することは、初期グラフリファレンス構築物を第1の区間にわたって横断することによってグラフリードの第1の部分セットを生成すること、並びに初期グラフリファレンス構築物を第2の区間にわたって横断することによってグラフリードの第2の部分セットを生成することであって、第1の区間及び第2の区間は少なくとも部分的に重なる、生成すること、を含む。
【0027】
実施形態によっては、複数のグラフリードを生成することは、飛び越しを有する移動窓を用いて初期グラフリファレンス構築物を横断することを含む。
【0028】
一部の実施形態は、複数のグラフリードのうちの少なくとも一部を初期グラフリファレンス構築物に整列させることをさらに含み、整列させることは、複数のグラフリードのうちの少なくとも一部のグラフリードごとに、グラフリードとグラフリファレンス構築物との間のアライメント品質を決定すること、及びアライメント品質が閾値を超えるかどうかを決定すること、を含む。
【0029】
一部の実施形態は、複数のグラフリードのうちの少なくとも一部の第1のグループを識別することをさらに含み、複数のグラフリードのうちの少なくとも一部の第1のグループ内に含まれる各グラフリードはバリアントの第1の部分セットの1つ以上のバリアントの第1の組み合わせを含む。
【0030】
実施形態によっては、複数のグラフリードのうちの少なくとも一部の第1のグループは第1のグラフリード及び第2のグラフリードを含み、第1のグラフリードのために決定された第1のアライメント品質も、第2のグラフリードのために決定された第2のアライメント品質も、どちらも指定閾値を超えないと決定すると、少なくとも1つの複数整列可能バリアントをバリアントのフィルタされたセットから除外することをさらに含む。
【0031】
実施形態によっては、少なくとも1つの複数整列可能バリアントは1つ以上のバリアントの第1の組み合わせ内に含まれる。
【0032】
実施形態によっては、バリアントの第1の部分セットの中からバリアントのフィルタされたセットを識別することは、バリアントの第1の部分セットを用いて初期グラフリファレンス構築物を生成すること、初期グラフリファレンス構築物を横断し、複数のグラフリードを生成すること、複数のグラフリードを初期グラフリファレンス構築物に整列させ、複数のグラフリードのうちの少なくとも一部の各々のためのアライメント品質を決定すること、及びアライメント品質に基づいて第1のセットのバリアントのうちの1つ以上のうちの少なくとも一部をバリアントの第2のセットから除外すること、を含む。
【0033】
実施形態によっては、複数のグラフリードのうちの1つ以上はバリアントの第1の部分セットのうちの1つ以上の同じ組み合わせに関連付けられる。一部の実施形態は、複数のグラフリードのうちの1つ以上のために決定されたアライメント品質の各々が指定閾値を下回るかどうかを決定することと、アライメント品質の各々が指定閾値を下回ると決定すると、少なくとも1つのバリアントをバリアントのフィルタされたセットから除外することと、をさらに含む。
【0034】
実施形態によっては、複数のバリアントを取得することは、リファレンス配列構築物に関連付けられた複数の代替的配列を取得すること、複数の代替的配列のうちの少なくとも一部を処理することを含み、処理することは、複数の代替的配列の第1の代替的配列のために、第1の代替的配列をリファレンス配列構築物に整列させ、整列位置を取得すること、整列位置における第1の代替的配列とリファレンス配列構築物との間の1つ以上の差異を識別すること、及び1つ以上の差異のうちの少なくとも一部を第1のバリアントとして複数のバリアント内に含めること、を含む。
【0035】
実施形態によっては、複数の代替的配列のうちの少なくとも一部を処理し、複数の代替的配列を含まない更新されたリファレンス配列構築物を構築する。
【0036】
実施形態によっては、第1の代替的配列は逆位配列パッチを含み、第1の代替的配列をリファレンス配列構築物に整列させ、整列位置を取得することは、逆位配列パッチのための代替的整列位置を取得することを含む。
【0037】
一部の実施形態は、第1のバリアントを複数のバリアント内に含める前に第1のバリアントをリファレンス配列構築物に対して左正規化することをさらに含む。
【0038】
実施形態によっては、1つ以上の差異のうちの少なくとも一部は、連続した第1及び第2の差異を含み、第1の差異は第1の代替的配列の第1の部分配列に関連付けられ、第2の差異はリファレンス配列構築物の第2の部分配列に関連付けられる。一部の実施形態は、第1及び第2の差異を、それらを第1のバリアントとして複数のバリアント内に含める前に、処理することをさらに含み、処理することは、第1の部分配列が、第2の部分配列内に含まれる1つ以上の領域を含むかどうかを決定すること、並びに第1の部分配列が、第2の部分配列内に含まれる1つ以上の領域を含むと決定すると、1つ以上の領域を第1及び第2の部分配列の両方から除去すること、をさらに含む。
【0039】
実施形態によっては、第1及び第2の差異は挿入及び欠失事象をそれぞれ含む。
【0040】
実施形態によっては、複数のバリアントを取得することは、リファレンス配列構築物に関連付けられた第2のバリアントを取得すること、及び第2のバリアントを複数のバリアント内に含めること、をさらに含む。
【0041】
一部の実施形態は、第2のバリアントのソースを指示する情報をもって第2のバリアントをアノテートすることをさらに含む。
【0042】
実施形態によっては、第1のバリアントのうちの少なくとも一部は第1の対立遺伝子頻度にそれぞれ関連付けられ、第2のバリアントのうちの少なくとも一部は第2の対立遺伝子頻度にそれぞれ関連付けられる。一部の実施形態は、第1のバリアントのうちの少なくとも一部及び第2のバリアントのうちの少なくとも一部の両方内に含まれる共有バリアントのために、共有バリアントに関連付けられた第1及び第2の対立遺伝子頻度を平均し、平均対立遺伝子頻度を取得することをさらに含む。
【0043】
図面の簡単な説明
本明細書において提供される本開示の様々な態様及び実施形態が以下において添付の図面を参照して説明される。添付の図面は、原寸に比例して描かれることを意図されていない。図面において、様々な図に示される各々の同一又はほぼ同一の構成要素は同様の符号によって表される。明快にする目的のために、全ての構成要素が全ての図面において標識されなくてもよい。
【図面の簡単な説明】
【0044】
【
図1】
図1は、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物を生成するための例示的な技法の図である(配列番号1~2)。
【
図2A】
図2Aは、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物を生成するための例示的なプロセス200のフローチャートである。
【
図2B】
図2Bは、本明細書において説明される技術の一部の実施形態に係る、リファレンス配列構築物に関連付けられたバリアントを処理するための例示的なプロセス220を示すフローチャートである。
【
図2C】
図2Cは、本明細書において説明される技術の一部の実施形態に係る、構造バリアントを処理するための例示的なプロセス240を示すフローチャートである。
【
図2D】
図2Dは、本明細書において説明される技術の一部の実施形態に係る、バリアントの第1の部分セットの中からバリアントのフィルタされたセットを識別するための例示的なプロセス260を示すフローチャートである。
【
図3A】
図3Aは、本明細書において説明される技術の一部の実施形態に係る、リファレンス構築物に関連付けられた代替配列を処理する例示的な例である(配列番号3~4)。
【
図3B】
図3Bは、本明細書において説明される技術の一部の実施形態に係る、多段階バリアントフィルタリング技法の第1の段階であって、第1の段階は、バリアントの初期セットから除外されるべき構造バリアントのセットを識別するために用いられる、第1の段階を遂行する例示的な例の図である(配列番号5~12)。
【
図3C】
図3Cは、本明細書において説明される技術の一部の実施形態に係る、多段階バリアントフィルタリング技法の第2の段階であって、第2の段階は、バリアントの初期セットから除外されるべき複数整列可能バリアントのセットを識別するために用いられる、第2の段階を遂行する例示的な例の図である(配列番号13~23)。
【
図4A】
図4Aは、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物を生成するための例示的なプロセス400を示す図である。
【
図4B】
図4Bは、本明細書において説明される技術の一部の実施形態に係る、リファレンス配列構築物に関連付けられた代替配列を処理するための例示的なプロセス402を示す図である。
【
図4C】
図4Cは、本明細書において説明される技術の一部の実施形態に係る、構造バリアントのセットを識別するための例示的なプロセス422を示す図である。
【
図4D】
図4Dは、本明細書において説明される技術の一部の実施形態に係る、複数整列可能バリアントのセットを識別するための例示的なプロセス424を示す図である。
【
図5】
図5は、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物の性能を測定するための実験からのアライメントメトリックを示すグラフを示す。
【
図6】
図6は、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物の性能を測定するための実験からのバリアントコールメトリックを示すグラフを示す。
【
図7A】
図7Aは、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物の性能を測定するための実験からの対立遺伝子頻度に対する累積バリアント数を示すグラフを示す。
【
図7B】
図7Bは、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物の性能を測定するための実験からの対立遺伝子頻度に対する累積バリアント数を示すグラフを示す。
【
図8A】
図8Aは、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物の性能を測定するための実験からのバリアント数を示すグラフを示す。
【
図8B】
図8Bは、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物の性能を測定するための実験からのバリアント数を示すグラフを示す。
【
図8C】
図8Cは、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物の性能を測定するための実験からのバリアント数を示すグラフを示す。
【
図8D】
図8Dは、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物の性能を測定するための実験からのバリアント数を示すグラフを示す。
【
図8E】
図8Eは、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物の性能を測定するための実験からのバリアント数を示すグラフを示す。
【
図8F】
図8Fは、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物の性能を測定するための実験からのバリアント数を示すグラフを示す。
【
図9】
図9は、本明細書において説明される技術の一部の実施形態を実施するために用いられ得る例示的なコンピュータシステムのブロック図である。
【発明を実施するための形態】
【0045】
詳細な説明
配列リードを、人々の間の既知の遺伝的変異を説明するグラフリファレンス構築物に対して整列させることは、配列リードの正確な配置を助け、アライメントの結果に基づくバリアントの識別を容易にする。しかし、発明者らは、配列リードをグラフリファレンス構築物に対して整列させるための従来の技法は、不正確な結果をもたらすことがあり、計算コストが高いため、改善され得ることを認識し、理解した。
【0046】
グラフリファレンス構築物が、全てのキュレートされたバリアント(例えば、遺伝的変異を表現するために選択されたバリアント)を、それらのバリアントがアライメントにどのように影響を及ぼし得るのかを考慮することなく含むとき、配列リードをグラフリファレンス構築物に対して整列させることは不正確な結果を生じさせ得る。第1に、キュレートされたバリアントは構造バリアントを含み得る。構造バリアントは、少なくとも閾値長さ(例えば、少なくとも40bp、少なくとも50bp、少なくとも60bp、少なくとも80bp、少なくとも100bp、少なくとも150bp、少なくとも500bp、少なくとも1Kbp、少なくとも5Kbp、少なくとも20Kbp、少なくとも50Kbp、少なくとも100Kbp、少なくとも500Kbp等)の挿入、少なくとも閾値長さ(例えば、少なくとも40bp、少なくとも50bp、少なくとも60bp、少なくとも80bp、少なくとも100bp、少なくとも150bp等)の欠失、少なくとも閾値長さ(例えば、少なくとも40bp、少なくとも50bp、少なくとも60bp、少なくとも80bp、少なくとも100bp、少なくとも150bp、少なくとも500bp、少なくとも1Kbp、少なくとも5Kbp、少なくとも20Kbp、少なくとも50Kbp、少なくとも100Kbp、少なくとも500Kbp等)の逆位、少なくとも閾値長さ(例えば、少なくとも40bp、少なくとも50bp、少なくとも60bp、少なくとも80bp、少なくとも100bp、少なくとも150bp、少なくとも500bp、少なくとも1Kbp、少なくとも5Kbp、少なくとも20Kbp、少なくとも50Kbp、少なくとも100Kbp、少なくとも500Kbp等)の重複、及び/又は任意の他の好適な構造バリアントを含み得る。構造バリアントは、ショートリードシークエンシングデータの性質のゆえにグラフリファレンス構築物に曖昧さを持ち込み得る。換言すれば、構造バリアントが、(a)グラフリファレンスの他の部分と同一である、及び(b)配列リードよりも長い部分配列を含む場合には、配列リードはグラフリファレンス構築物内の2つ以上の位置に誤って整列させられ得る。第2に、より多くのバリアントがグラフリファレンス構築物内に組み込まれるのに従って、グラフ内の可能なパスの数は指数関数的に増し、グラフの異なる領域内に同一のパスが存在することになる可能性を増大させる。その結果、配列リードはグラフリファレンス構築物内の複数の領域に整列させられ得、バリアントコールのための情報価値がなくなる。このようなバリアントは本明細書において「複数整列可能バリアント(multiply-alignable variant)」と称され得る。
【0047】
加えて、キュレートされたバリアントは、複数のバリアントデータベース又はVCFファイルなどの、複数の異なるソースから取得され得る。異なるバイオインフォマティクスパイプラインのバリアント表現の間の不一致の結果、同じバリアントが、異なるソースから取得されたときには、異なって表され得る。このようなバリアントの追加は、異なるが、最終的には等価となるパスをグラフリファレンス内に持ち込み得、アライメントの誤りをもたらす。
【0048】
さらに、キュレートされたバリアントは多くの個体からの多くのバリアントを含み得るため、配列リードをこのようなグラフリファレンス構築物に整列させることは計算コストが高くなり得る。グラフリファレンス内の既知のバリアントは、グラフリファレンスの基礎をなすグラフを通るそれぞれのパスによって表現され得るため、グラフリファレンスによって表現される既知のバリアントの数を増大させることは、グラフリファレンスへの配列リードのアライメントの間に評価されなければならないグラフを通るパスの数を増大させ、これが結果として、アライメントを遂行する計算の複雑さを増大させる。さらに、グラフリファレンスの構造の追加された複雑さはアライメントの際のノイズをもたらし得、精度を低下させる。
【0049】
したがって、発明者らは、アライメントの曖昧さを生じさせるバリアント(例えば、構造バリアント及び/又は複数整列可能バリアント)を除外し、より正確なアライメント結果をもたらすだけでなく、このようなアライメントの全体的な計算の複雑さも低減する、グラフリファレンス構築物を生成するための技法を開発した。実施形態によっては、バリアントのセットは、グラフリファレンス構築物内に含まれるバリアントを識別するために複数の段階においてフィルタリングされ得る。例えば、異なるフィルタリング段階は、異なる種類のバリアントをフィルタリングにより除外することを含み得る(例えば、構造バリアントは1つの段階においてフィルタリングにより除外され得、複数整列可能バリアントは、別の段階において、例えば、構造バリアントがフィルタリングされる段階の後の段階においてフィルタリングにより除外され得る。)実施形態によっては、識別されたバリアントは、例えば、バリアントのフィルタされたセットを表現するノード及びエッジを線形リファレンス構築物に追加することによって、グラフリファレンス構築物を構築するために用いられ得る。
【0050】
一部の実施形態は、グラフリファレンス構築物(例えば、有向非巡回グラフ(DAG(directed acyclic graph)))を生成するためのコンピュータ実施技法を提供する。実施形態によっては、技法は、(A)ゲノムの少なくとも1つの部分(例えば、少なくとも1つの本質的な部分、少なくとも1つの染色体、少なくとも10,000個のヌクレオチド等)のためのリファレンス配列構築物に関連付けられた複数のバリアントを取得することと、(B)複数のバリアント及びリファレンス配列構築物(例えば、hg19又はhg38ゲノムリファレンス)を用いてグラフリファレンス構築物を生成することと、(C)生成されたグラフリファレンス構築物を出力すること(例えば、その後、例えば、配列リードをグラフリファレンス構築物に対して整列させること等を含む、様々な適用のために用いることができるよう、グラフリファレンス構築物をメモリに保存すること)と、を含む。実施形態によっては、グラフリファレンス構築物を生成するための技法は、(A)バリアントのフィルタされたセットを取得するために複数のバリアントをフィルタリングすることであって、バリアントのフィルタされたセットが複数のバリアントの部分セットであり、フィルタリングすることが、(例えば、第1の種類のバリアントを除外するための)第1のフィルタリング段階、及び第1のフィルタリング段階とは異なり、第1のフィルタリング段階の後に遂行される(例えば、第2の種類のバリアントを除外するための)第2のフィルタリング段階を含む複数のフィルタリング段階を含む、フィルタリングすることと、(B)バリアントのフィルタされたセット(第1及び第2のフィルタリング段階を適用することによるバリアントのフィルタされたセット)及びリファレンス配列構築物を用いてグラフリファレンス構築物を生成することと、を含む。
【0051】
実施形態によっては、第1のフィルタリング段階は、少なくとも部分的に、1つ以上の構造バリアント(例えば、挿入事象、欠失事象、又は逆位事象)を複数のバリアントから除外することによって、複数のバリアントの中からバリアントの第1の部分セットを識別することを含む。実施形態によっては、第2のフィルタリング段階は、少なくとも部分的に、1つ以上の複数整列可能バリアント(例えば、複数マッピング配列リードをもたらすバリアント)をバリアントの第1の部分セットから除外することによって、バリアントの第1の部分セット(例えば、第1のフィルタリング段階において識別されたバリアント)の中からバリアントのフィルタされたセットを識別することを含む。
【0052】
技法は実装形態のいかなる特定の様態にも限定されないため、本明細書において説明される技法は数多くの仕方のうちの任意のもので実施されることを理解されたい。実装形態の詳細の例は本明細書において例示目的のためにのみ提供されている。さらに、本明細書において説明される技術の態様はいかなる特定の技法、又は技法の組み合わせの使用にも限定されないため、本明細書において開示される技法は、個々に、又は任意の好適な組み合わせで用いられ得る。
【0053】
本明細書において説明される技術の一部の例示的な態様が以下において
図1~
図9を参照して説明される。
【0054】
図1は、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物を生成するための例示的な技法100の図である。実施形態によっては、例示的な技法100は、複数のバリアント102を取得することを含む。第1のフィルタリング段階104を用いて、1つ以上の構造バリアント106を識別し、複数のバリアント102から除外し得、バリアントの第1の部分セット108をもたらす。第2のフィルタリング段階110を用いて、1つ以上の複数整列可能バリアント112を識別し、バリアントの第1の部分セット108から除外し、バリアントのフィルタされたセット114を取得し得る。実施形態によっては、第2のフィルタリング段階110の出力は、バリアントのフィルタされたセット114、(例えば、第1及び第2のフィルタリング段階の間に除外された)バリアントの破棄されたセット118、及び/又は線形リファレンス配列構築物116を含む。実施形態によっては、バリアントのフィルタされたセット114内に含まれるバリアント、及び線形リファレンス配列構築物116は、グラフリファレンス配列構築物を構築するために用いられる。
【0055】
実施形態によっては、複数のバリアント102を取得することは、1つ以上のソースからバリアントを取得することを含む。実施形態によっては、これは、1つ以上の公開されているバリアントデータベース及び/又はバリアントコールフォーマット(VCF(variant call format))ファイルからバリアントを取得することを含む。例えば、複数のバリアントは、GRCh38ヒトリファレンス代替コンティグ、1000人ゲノムプロジェクトコモンバリアント、サイモンズゲノム多様性プロジェクトコモンバリアント、ヒトゲノム構造バリアントコンソーシアム(HGSVC(Human Genome Structural Variant Consortium))、及び/又は任意の他の好適なバリアントデータベース及び/又はVCFファイルから取得され得る。
【0056】
実施形態によっては、複数のバリアント102はリファレンス配列構築物に関連付けられる。例えば、リファレンス配列構築物はGRCh38ゲノムアセンブリを含み得る。実施形態によっては、リファレンス配列構築物は、一次染色体、デコイ、及び一次アセンブリからの逸脱を表現する代替配列を用いて構築される。デコイは、リファレンス内にない共通の追加の配列を含み得る。実施形態によっては、デコイ配列がリファレンス配列構築物内に含まれない場合には、このとき、配列リードは一次染色体の領域に誤ってマッピングし得る。例えば、HS38D1及びEBVデコイがリファレンス配列構築物内に含まれ得る。
【0057】
実施形態によっては、第1のフィルタリング段階104は、1つ以上の構造バリアント106を識別し、それらを複数のバリアントから除外し、バリアントの第1の部分セットを識別することを含む。実施形態によっては、第1のフィルタリング段階104は、複数の段階においてバリアントを評価し、バリアントをグラフ構築物内に含めることは、(a)配列アライメントのための計算コストが高くなりすぎ、及び/又は(b)誤った配列アライメントをもたらし得るであろうかどうかを決定することを含む。
【0058】
実施形態によっては、構造バリアントをグラフリファレンス構築物内に含めることは、このようなグラフリファレンス構築物に整列させることの計算の複雑さを増大させる。実施形態によっては、第1のフィルタリング段階104は、大きすぎる構造バリアントを除外することを含む。例えば、閾値サイズよりも大きい(例えば、1K、2K、3K、5K、10K、15K、20K、25K、1~25Kの範囲内の任意の数の塩基対よりも大きい)挿入は複数のバリアントから除外され得る。別の例として、閾値サイズよりも大きい(例えば、50K、70K、90K、100K、110K、150K、200K、250K、300K、50K~300Kの範囲内の任意の数の塩基対よりも大きい)欠失は第1のフィルタリング段階において除外され得る。実施形態によっては、異なる構造バリアントの閾値サイズはアライナ(aligner)の特徴に基づいて変化する。実施形態によっては、これらの大きい構造バリアントを複数のバリアントから除外することは、アライメントの計算を実行可能にし、その計算効率を大幅に高める。それに対して、このような構造バリアントを除去しなければ、配列リードを、得られたグラフに整列させるコストは計算的に高額になるか、又は、場合によっては、実行不可能になる。
【0059】
実施形態によっては、(a)グラフリファレンス構築物(例えば、別のバリアント、線形リファレンス構築物、又はデコイ配列)内に含まれる別の部分配列と同一である部分配列を含む構造バリアントは不正確又は曖昧なアライメントをもたらす。例えば、配列リードの長さがこのような繰り返される部分配列よりも短い場合には、配列リードはそれらの部分配列の各々に整列させられるか、又はそれらの部分配列のうちの1つに誤って整列させられ得る。したがって、実施形態によっては、第1のフィルタリング段階104は、構造バリアントが、リファレンス配列構築物、複数のバリアント内に含まれる他のバリアント、及び/又はリファレンス配列構築物に関連付けられたデコイ配列内に含まれる部分配列と同一である部分配列を含むかどうかを決定することを含む。構造バリアントは、リファレンス配列構築物内に含まれる部分配列と同一である部分配列を含み、部分配列が、指定閾値(例えば、配列リードの長さ)を超える長さを有すると決定された場合には、構造バリアントは複数のバリアントから除外され得る。構造バリアントは、別のバリアント(例えば、別の構造バリアント)内に含まれる部分配列を含み、部分配列が、指定閾値よりも大きい長さを有すると決定された場合には、2つのバリアントのうちのより短いものは複数のバリアントから除外され得る。構造バリアントが、デコイ配列内に含まれる部分配列を含むと決定された場合には、部分配列はデコイ配列内でマスクされる。実施形態によっては、(例えば、リファレンス配列構築物、他のバリアント、及びデコイ配列に関する)これらの決定の各々が行われ得るか、これらの決定のうちの一部が行われ得るか、或いはこれらの決定のうちの1つのみが行われ得る。第1のフィルタリング段階を用いてバリアントの第1の部分セットを識別する態様が、本明細書において、少なくとも
図2C及び
図3Bに関する説明を含めて説明される。
【0060】
実施形態によっては、第2のフィルタリング段階110は、1つ以上の複数整列可能バリアント112を識別し、バリアントの第1の部分セット108から除外し、バリアントのフィルタされたセット114を取得することを含む。「複数整列可能」バリアントは、グラフリファレンス構築物内に組み込まれたとき、グラフリファレンス構築物内の異なる不連続な領域内における2つ以上の同一のパスをもたらすバリアントであり得る。例えば、複数整列可能バリアントをグラフリファレンス構築物内に組み込むことは、グラフリファレンス構築物の第2の領域における第2のパスと同一であるグラフリファレンス構築物の第1の領域における第1のパスをもたらし得る。ここで、第1のパスは複数整列可能バリアントのうちの少なくとも部分(例えば、少なくとも一部又は全て)を含む。複数整列可能バリアントは、グラフリファレンス構築物内の2つ以上の同一のパスをもたらし得るため、グラフリファレンス構築物内の1つのパスに整列する配列リードは少なくとも1つの他のパス、グラフリファレンス構築物にも整列し得る。それゆえ、名称「複数整列可能」となっており、このようなバリアントは、配列リードがグラフリファレンス構築物内の複数の領域に整列することを引き起こし得る。
【0061】
実施形態によっては、第2のフィルタリング段階110は、1つ以上のバリアントをグラフリファレンス構築物内に含めることは、グラフリファレンス構築物の異なる(例えば、不連続な)領域内の2つ以上の同一のパスをもたらすことになるかどうかを評価すること(例えば、1つ以上のバリアントは複数整列可能バリアントであるかどうかを評価すること)を含む。実施形態によっては、配列リードを、異なる領域内の同一のパスを含むグラフリファレンス構築物(例えば、複数整列可能バリアントを含むグラフリファレンス構築物)に対して整列させることは、複数マッピングリードをもたらし得、このとき、これらはバリアントコールのための情報価値がなくなる。
【0062】
実施形態によっては、第2のフィルタリング段階110は、バリアントの第1の部分セット108を含む初期グラフリファレンス構築物を用いて複数のグラフリードを生成することを含む。グラフリードは初期グラフリファレンス構築物の特定の領域における配列を表現し得る。次に、グラフリードのうちの1つ以上を初期グラフリファレンスに各々整列させ、それぞれのマッピング品質を決定し得る。得られたマッピング品質は、アライメントが正しい確度を指示し得る。その後、マッピング品質は、複数整列可能バリアントを識別するために用いることができる。例えば、グラフリードを整列させることが低いマッピング品質(例えば、0のマッピング品質)をもたらすときには、これは、グラフリードは初期グラフリファレンス構築物内の複数の領域に整列することを指示し得る。実施形態によっては、複数のグラフリードが同じバリアント、又はバリアントの同じ組み合わせを表現し得る。この場合には、それらのグラフリードの各々を整列させることが低いマッピング品質をもたらす場合には、共有バリアント、又はバリアントの組み合わせは初期グラフリファレンス構築物内の1つ以上の同一のパスを生じさせる可能性が高い。その結果、第2のフィルタリング段階110は、共有バリアント(例えば、複数整列可能バリアント)112のうちの1つ以上をバリアントの第1の部分セット108から除外し、バリアントのフィルタされたセット114を取得することを含み得る。第2のフィルタリング段階を用いてバリアントのフィルタされたセットを識別する態様が、本明細書において、少なくとも
図2D及び
図3Cに関する説明を含めて説明される。
【0063】
実施形態によっては、線形リファレンス配列構築物116は線形ヒトゲノムリファレンスを含む。例えば、線形リファレンス配列構築物116はhg19又はhg38ヒトゲノムリファレンスを含み得る。実施形態によっては、線形リファレンス配列構築物116は1つ以上の処理段階にかけられていてもよい。例えば、
図2Bに関する説明を含めて、本明細書において説明されるように、1つ以上の代替配列が線形リファレンス配列構築物から除去され得る。別の例として、破棄されたバリアント118のうちの1つ以上(例えば、複数整列可能バリアント112のうちの1つ以上)が、線形リファレンス配列構築物116に関連付けられたデコイ配列として含められ得る。実施形態によっては、線形リファレンス配列構築物116は1つ以上のファイル(例えば、1つ以上のVCFファイル)として出力され得る。
【0064】
実施形態によっては、グラフリファレンス配列構築物116を生成することは、遺伝的変異を表現するノード及びエッジを追加することによって、線形リファレンス構築物116をグラフリファレンスに変換することを含み得る。例えば、線形リファレンス構築物は、バリアントのフィルタされたセット114を表現するノード及びエッジを追加することによって、グラフリファレンスに変換され得る。バリアントのセットに基づいてノード及びエッジを線形リファレンス構築物に追加するための技法が、2015年2月26日に公開された、“METHODS AND SYSTEMS FOR ALIGNING SEQUENCES”と題する、米国特許出願公開第2015-0057946号に記載されている。同出願はその全体が本明細書において参照により組み込まれる。
【0065】
図2Aは、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物を生成するための例示的なプロセス200のフローチャートである。
【0066】
実施形態によっては、プロセス200は、ゲノムの少なくとも1つの部分のためのリファレンス配列構築物に関連付けられた複数のバリアントを取得することが遂行される、動作202において開始する。実施形態によっては、複数のバリアントを取得することは、1つ以上のバリアントデータベース及び/又はVCFファイルにアクセスすることを含む。例えば、これは、GRCh38ヒトリファレンス代替コンティグ、1000人ゲノムプロジェクトコモンバリアント、サイモンズゲノム多様性プロジェクトコモンバリアント、ヒトゲノム構造バリアントコンソーシアム(HGSVC)、及び/又は任意の好適なバリアントデータベース、データストア、ファイル、及び/又はVCFファイルからの任意の他の好適なバリアントにアクセスすることを含み得る。実施形態によっては、異なるデータベース及び/又はファイルから取得されたバリアントは種々の集団研究からのバリアントを包含し得る。実施形態によっては、異なるバリアントファイルが、同じバリアント、又はバリアントのセットを含み得る。複数のバリアントを取得するための技法が、本明細書において、少なくとも
図2Bに関する説明を含めて説明される。
【0067】
実施形態によっては、バリアントは、GRCh38ゲノムアセンブリなどの、リファレンス配列構築物に関連付けられ得る。実施形態によっては、リファレンス配列構築物はゲノムの少なくとも部分を表現する。例えば、リファレンス配列構築物は、ゲノムの少なくとも相当な割合(例えば、ゲノムの80%)、少なくとも1つの染色体、少なくとも10,000個のヌクレオチド、又は特定の生物のゲノムのほぼ全体を表現し得る。実施形態によっては、線形リファレンス構築物に関連付けられたバリアントは、座標系と同様に、リファレンス配列構築物に照らして定義される。例えば、バリアントは、リファレンス配列構築物に対するバリアントの位置を識別する識別子(例えば、固有の英数字、アルファベット、又は数字文字)によって表現され得る。複数のバリアントを取得するための技法が、本明細書において、少なくとも
図2Bに関する説明を含めてさらに説明される。
【0068】
複数のバリアントを取得した後に、プロセス200は、複数のバリアント及びリファレンス配列構築物を用いてグラフリファレンス構築物を生成することが遂行される、動作204へ進む。本明細書において説明されるように、実施形態によっては、配列リードを、動作202において取得された全てのバリアントを含むグラフリファレンス構築物に整列させることは、不正確又は曖昧なアライメントをもたらし得、計算コストが高くなり得る。したがって、
図2Aに示されるように、動作204は、バリアントのフィルタされたセットを取得するために複数のバリアントをフィルタリングすることを含み得る。実施形態によっては、バリアントをフィルタリングすることは第1のフィルタリング段階206a及び第2のフィルタリング段階206bを含む。
【0069】
実施形態によっては、第1のフィルタリング段階206aは、1つ以上の構造バリアントを複数のバリアントから除外することによって、複数のバリアントの中からバリアントの第1の部分セットを識別することを含む。例えば、構造バリアントは、少なくとも50bpの長さの1つ以上の挿入、欠失、逆位、重複、又は転座を含み得る。実施形態によっては、バリアントの第1の部分セットを識別することは、1つ以上の構造バリアントを複数のバリアントからの除外のために識別することを含む。1つのこのような構造バリアントを処理するための一例が、本明細書において、少なくとも、
図2Cに示されるプロセス240に関する説明を含めて説明される。実施形態によっては、プロセス240は、複数を処理するために繰り返され得る。
【0070】
実施形態によっては、第2のフィルタリング段階206bは、1つ以上の複数整列可能バリアントを複数のバリアントから除外することによって、複数のバリアントの中からバリアントの第2の部分セットを識別することを含む。例えば、バリアントの第1の部分セットがグラフリファレンス構築物内に含まれる場合には、第2のフィルタリング段階は、グラフリファレンス構築物の1つの領域内のパスはグラフリファレンスの1つ以上の他の領域内の1つ以上のパスと同一であるかどうかを決定することを含み得る。実施形態によっては、同一のパスが識別された場合には、このようなパスを生じさせるバリアント(例えば、複数整列可能バリアント)をグラフから除外し、グラフ内のパスの固有のセットを取得し得る。動作206bの例示的な実装形態が、本明細書において、
図2Dに関する説明を含めて説明される。
【0071】
実施形態によっては、動作206においてバリアントのフィルタされたセットを取得した後に、プロセス200は、バリアントのフィルタされたセットを用いてグラフリファレンス構築物を生成することが遂行される、動作208へ進む。実施形態によっては、グラフリファレンス構築物を生成することは、バリアントのフィルタされたセットを表現する1つ以上のノード又はエッジをリファレンス配列構築物に追加することを含み得る。
【0072】
動作210において、生成されたグラフリファレンス構築物を出力し得る。実施形態によっては、グラフリファレンス構築物を出力することは、グラフリファレンス構築物を、それが、その後、1つ以上の適用のために(例えば、配列リードを、任意の後続のバイオインフォマティクスパイプライン内のグラフリファレンス構築物に整列させるために)用いられ得るよう、記憶することを含み得る。例えば、生成されたグラフリファレンス構築物は、プロセス200を遂行するために用いられるコンピューティングデバイス上に(例えば、コンピューティングデバイスに結合された非一時的記憶媒体、又はコンピューティングデバイスの部分上に)ローカルに記憶され得る。実施形態によっては、グラフリファレンス構築物は1つ以上の外部記憶媒体(例えば、リモートデータベース又はクラウドストレージ環境など)内に記憶され得る。記憶されたグラフリファレンス構築物は、その後、例えば、配列リードをグラフリファレンス構築物に対して整列させるために用いられ得る。
図2Bは、本明細書において説明される技術の一部の実施形態に係る、リファレンス配列構築物に関連付けられたバリアントを処理するためのプロセス220を示すフローチャートである。プロセス220は、プロセス200の動作202がどのように実施され得るのかの一例である。
【0073】
図示のように、プロセス220は、ゲノムの少なくとも1つの部分のためのリファレンス配列構築物に関連付けられた複数の代替配列を取得するための動作222において開始する。代替配列、又は代替コンティグは、リファレンス配列構築物(例えば、一次アセンブリ)からの遺伝的逸脱を表現する。それゆえ、代替配列と、リファレンス配列構築物の対応部分との間のヌクレオチド配列の差異が存在する。実施形態によっては、代替配列はリファレンス配列構築物の対応部分から高度に逸脱し得る(例えば、少なくとも80%新規)。実施形態によっては、代替配列はリファレンス配列構築物の対応部分と非常に類似し得る(例えば、数個のヌクレオチドだけ異なる)。
【0074】
実施形態によっては、動作222において代替配列を取得することは、リファレンス配列構築物に対する代替配列のアライメントを記述する1つ以上のファイルを取得することを含む。例えば、GRCh38アセンブリをリファレンス配列構築物として用いるとき、これは、一次染色体に対する代替配列のアライメントを記述するジェネラルフィーチャフォーマット(GFF(general feature format))ファイルから1つ以上のファイルを取得することを含み得る。実施形態によっては、ファイルは代替配列のアライメントを任意の好適なフォーマットで記述する。例えば、ファイルはコンサイス・イディオシンクラティック・ギャップト・アライメント・レポート(CIGAR(concise idiosyncratic gapped alignment report))フォーマットで代替配列のアライメントを記述し得る。しかし、本明細書において説明される技術の態様はこの点に関して限定されないため、代替配列は任意の好適なソース(例えば、データベース、ファイル等)から任意の好適なフォーマットで取得され得ることを理解されたい。
【0075】
実施形態によっては、リファレンス配列構築物は代替配列を一次アセンブリの部分として含む。本明細書において説明される技術の態様は、少なくとも一部の処理された代替配列をリファレンス配列構築物に追加し、グラフリファレンス構築物を取得することを含むため、代替配列は一次アセンブリから除去され得る。
【0076】
上述されたように、代替配列のうちの一部はリファレンス配列構築物と非常に類似し得る。具体的には、代替配列のうちの一部は、リファレンス配列構築物内に含まれる部分配列と同一である大きい部分配列を含み得る。その結果、代替配列をグラフリファレンス構築物内に組み込むことは、短い配列リードが複数の同一の領域に誤って整列することを引き起こし得る。したがって、プロセス220は、このような懸念に対処するための技法を含む。具体的には、動作224は、動作222において取得された代替配列のうちの少なくとも一部を処理することを含む。実施形態によっては、代替配列を処理することは下位動作224a、224b、及び224cを含む。
【0077】
図2Bに示されるように、下位動作224aは、第1の代替配列をリファレンス配列構築物に整列させ、第1の代替配列のための整列位置を取得することを含む。実施形態によっては、本明細書において説明される技術の態様はこの点に関して限定されないため、アライメントは、任意の好適なアライメント技法を用いて遂行され得る。例えば、実施形態によっては、アライメントは、2015年2月26日に公開された、“METHODS AND SYSTEMS FOR ALIGNING SEQUENCES”と題する、米国特許出願公開第2015-0057946号に記載された技法のうちの任意のものを用いて遂行され得る。同出願はその全体が本明細書において参照により組み込まれる。実施形態によっては、整列位置は代替配列のために以前に取得されていてもよく、下位動作224aを任意選択的なものにする。例えば、上述されたように、動作222において取得された1つ以上のファイルはリファレンス配列構築物に対する代替配列のアライメントを記述し得る。
【0078】
下位動作224aにおいて第1の代替配列を整列させた後に、プロセス220は、整列位置における第1の代替配列とリファレンス配列構築物との間の1つ以上の差異を識別するための下位動作224bへ進む。実施形態によっては、1つ以上の差異は1つ以上のヌクレオチド配列の差異を含む。実施形態によっては、1つ以上の差異は、置換、挿入、欠失、転座、逆位、又は任意の他の好適な種類の配列突然変異若しくはバリアントなどの、配列バリアントであり得る。例えば、リファレンス配列構築物は部分配列「AGGTCA」を含み得、その一方で、整列させられた代替配列は部分配列「AAGTCA」を含む。リファレンス部分配列の2番目の位置における「G」は代替部分配列の2番目の位置における「A」の代わりに置換されている。実施形態によっては、下位動作224bにおける1つ以上の差異は任意の好適な技法を用いて識別され得る。例えば、技法は、CIGAR(又は任意の他の)フォーマットでアライメントを記述する1つ以上のファイルを処理し、差異を抽出することを含み得る。
【0079】
実施形態によっては、代替配列は逆位配列パッチを包含し得るであろう。例えば、代替配列パッチの両側の領域はリファレンス配列構築物と順方向に整列し得、その一方で、逆位配列パッチはリファレンス配列構築物に逆方向に整列する。実施形態によっては、技法は、逆位配列パッチのための代替的アライメントを取得し、次に、代替的アライメントから1つ以上の差異を抽出することを含む。
【0080】
実施形態によっては、動作224bにおいて識別されない第1の代替配列の部分はさらなる処理から除外される。例えば、リファレンス配列構築物と同一である第1の代替配列の部分はさらなる処理から除外され得る。対照的に、実施形態によっては、動作224bにおいて識別された1つ以上の差異はさらなる処理の際に含められる。これは、(例えば、同一部分を除外する前の一部の代替配列のサイズが大きいことに起因する)計算の複雑さを低減するだけでなく、配列リードのアライメントの精度も改善する。例えば、同一の部分配列がグラフリファレンス構築物から除外されない場合には、配列リードが両方の部分配列に不正確に整列し得る。
【0081】
リファレンス配列構築物と第1の代替配列との間の1つ以上の差異を識別した後に、例示的な実装形態は、1つ以上の差異の少なくとも一部を処理し、バリアントを取得する、下位動作224cへ進む。実施形態によっては、差異は、連続した挿入及び欠失事象などの、連続した差異を含み得る。時として、連続した差異は、差異を互いに対して整列させることによって識別され得る、同一の部分配列を含み得る。ヌクレオチド「AGGTCGA」を含む例示的な挿入事象、及びヌクレオチド「CCGTCGG」を含む例示的な連続した欠失事象を考える。事象を互いに対して整列させた後に、例えば、Needleman-Wunschアルゴリズムを用いて、部分配列「GTCG」が(例えば、挿入及び欠失の両方の事象に含まれる)一致部分配列として識別される。実施形態によっては、下位動作224cは、一致部分配列を除外し、両方の差異をより小さい変異に分割することを含む。本例では、一致部分配列を除外することは挿入「AG」及び「A」をもたらすことになり、「CC」及び「G」の欠失をもたらすことになるであろう。差異を処理し、一致部分配列を除外する一例が、本明細書において、少なくとも
図3Aに関する説明を含めて説明される。実施形態によっては、下位動作224cにおいて差異のうちの少なくとも一部を処理することは、差異をリファレンス配列構築物に対して左正規化することをさらに含む。
【0082】
実施形態によっては、動作224cの結果、処理された1つ以上の差異は、複数のバリアント内に含められるべき第1のバリアントとして識別され得る。
図3Aの例では、挿入「AG」及び「A」並びに欠失「CC」及び「G」は、複数のバリアント内に含められるべき第1のバリアントとして識別されるであろう。実施形態によっては、第1のバリアントは任意の好適なフォーマットで1つ以上の入力ファイル内に含められ得る。例えば、第1のバリアントは1つ以上のVCFファイル内に含められ得る。上述のことから理解されるべきであるように、下位動作224a、224b、及び224cは、動作222において取得された複数の代替配列のうちの少なくとも一部の各々のために遂行され得る。
【0083】
次に、プロセス220は、リファレンス配列構築物に関連付けられた第2のバリアントを取得する、動作226へ進む。実施形態によっては、第2のバリアントは、動作222において取得された代替配列を除いて、
図2Aの動作202に関して説明された任意のバリアントを含む。
【0084】
次に、プロセス220は、バリアントをマージし、複数のバリアントを取得することが実行される、動作228へ進む。実施形態によっては、取得された複数のバリアントは、動作204から始まるプロセス200の部分として用いられることになる複数のバリアントを含む(
図2Aに示されるように、
図2Bが例示的な実装形態を示している、動作202から出力された複数のバリアントは、動作204への入力として提供され、動作204においてフィルタリングされる)。実施形態によっては、バリアントをマージすることは、バリアントを記述する入力ファイルを処理し、バリアント構造をマージのために統合することを含む。実施形態によっては、入力ファイルを処理することは、複対立遺伝子バリアントを分割することを含む。実施形態によっては、入力ファイルを処理することは、非標準のバリアント定義を除去し、完全に解決されたバリアントのみを残すことを含み得る。実施形態によっては、入力ファイルを処理することは、対立遺伝子頻度によってフィルタリングし、含められるべき第2のバリアントを選定することなどの、追加のフィルタを含み得る。例えば、実施形態によっては、少なくとも閾値百分率(例えば、少なくとも2%、少なくとも5%、少なくとも10%、少なくとも15%等)の対立遺伝子頻度のみを有するバリアントのみが含められ得る。実施形態によっては、入力ファイルを処理することは、バリアントを左正規化することをさらに含み得る。実施形態によっては、入力ファイルを処理することは、未使用のアノテーションを消去すること、特定のフィールド(例えば、ID及びFILTERフィールド)を消去すること、並びにサンプル情報を消去することを含み得る。実施形態によっては、入力ファイルを処理することは、対立遺伝子頻度を指示する情報をもってファイルにアノテーションすることを含み得る。実施形態によっては、入力ファイルを処理することは、(例えば、ファイルに割り振られたIDを用いて)ソースファイルを指示するためにバリアントにアノテーすることを含み得る。
【0085】
入力ファイルを処理した後に、第1及び第2のバリアントをマージし得る。実施形態によっては、バリアントをマージすることは、複数の入力ファイルを取り、第1及び第2のバリアントを含む初期グラフリファレンスを記述する単一のファイル(例えば、VCFファイル、又は任意の他の好適なフォーマットによるファイル)を生成することを含む。実施形態によっては、入力ファイルをマージすることは、同じバリアントが複数のソースに由来する場合には、アノテーションを集約することを含み得る。例えば、新たな実効対立遺伝子頻度が、(例えば、差異対立遺伝子頻度及び異なるサンプルサイズを有する)複数のソースに由来するバリアントのために算出され得る。最終的な対立遺伝子頻度は、対応するソースファイルのために用いられたサンプルの数によって重み付けされた、元の対立遺伝子頻度を平均することによって決定され得る。
【0086】
実施形態によっては、バリアントの第1の部分セットを識別することが実行される、プロセス200の動作206aを実行するために、バリアントの第1の部分セットを取得するべく、複数のバリアントからの除外のために1つ以上の構造バリアントを識別する。
図2Cは、複数のバリアントからの除外のために1つの構造バリアントを識別するための例示的なプロセス240のフローチャートである。実施形態によっては、複数のバリアントからの除外のために1つ以上の追加の構造バリアントを識別するために、プロセス240を繰り返すことができる。
【0087】
本明細書において上述されたように、プロセス200の動作202において取得されたバリアントは、(a)サイズが大きく、及び/又は(b)リファレンス配列構築物、他のバリアント、若しくはデコイ配列の間の他所に含まれる部分配列と同一である部分配列を含む構造バリアントを含み得る。それゆえ、プロセス240は、このような構造バリアントをフィルタリングすることを含む。構造バリアントをフィルタリングする一例が、本明細書において、少なくとも
図3Bに関する説明を含めてさらに説明される。
【0088】
実施形態によっては、プロセス240は、第1の構造バリアントの長さが指定閾値を超えるかどうかを決定することが実行される、動作242において開始する。実施形態によっては、異なる種類の構造バリアントは異なる閾値と比較され得る。例えば、挿入の長さは第1の閾値(例えば、2,500bp、5,000bp、7,500bp、10,000bp、20,000bp等)と比較され得、その一方で、欠失の長さは第2の異なる閾値(例えば、50,000bp、75,000bp、90,000bp、100,000bp、150,000bp、200,000bp等)と比較され得る。他の実施形態では、異なる構造バリアントは同じ閾値と比較され得る。
【0089】
閾値にかかわらず、第1の構造バリアントの長さが指定閾値を実際に超える場合には、動作254において、構造バリアントを複数のバリアントから除外する。第1の構造バリアントの長さが閾値を超えない場合には、このとき、例示的な実装形態は、リファレンス配列構築物が、第1の構造バリアントの部分と同一である部分配列を含むかどうかを決定することが実行される、動作244へ進む。
【0090】
実施形態によっては、リファレンス配列構築物は、第1の構造バリアントの第1の部分と同一である部分配列を含むかどうかを決定することは、構造バリアントをリファレンス配列構築物に整列させることを含む。リファレンス配列構築物を整列位置において構造バリアントと比較し、それらが任意の一致部分配列を含むかどうかを決定し得る。リファレンス配列構築物が、構造バリアント内に含まれる部分配列と同一である部分配列を含む場合には、長さを一致部分配列のために決定する。実施形態によっては、動作244は、一致部分配列の長さが指定閾値よりも大きいかどうかを決定することを含む。例えば、指定閾値は配列リードの長さ(例えば、50bp、100bp、150bp、200bp、250bp、300bp等)と同様であり得る。実施形態によっては、指定閾値は、整列させられる1つ以上の配列リードの長さに基づいて変化し得る。実施形態によっては、一致部分配列が、グラフリファレンス構築物に整列させられるべき配列リードよりも長い場合には、配列リードは、構造バリアントがグラフリファレンス構築物内に含められるべきであった場合には、(例えば、構造バリアント及びリファレンス配列構築物内に含まれる)両方又はどちらかの部分配列に不正確に整列させられ得る。
【0091】
実施形態によっては、リファレンス配列構築物が、第1の構造バリアント内に含まれる部分(例えば、部分配列)と同一である部分配列を含み、部分配列の長さが指定閾値を超える場合には、このとき、動作254において、第1の構造バリアントを複数のバリアントから除外する。リファレンス配列構築物が、第1の構造バリアントの部分と同一であり、指定閾値を超える長さを有する部分配列を含まない場合には、このとき、プロセス240は動作246へ進む。
【0092】
動作246は、第2の構造バリアントは、第1の構造バリアントの部分と同一である部分配列を含むかどうかを決定することを含み得る。その決定は任意の好適な仕方で行われ得、例えば、第1の構造バリアントを1つ以上の他のバリアントに整列させることを含み得る。第2の構造バリアントが、第1の構造バリアント内に含まれる部分配列と同一である部分配列を含む場合には、長さを一致部分配列のために決定する。例えば、指定閾値は配列リードの長さ(例えば、50bp、100bp、150bp、200bp、250bp、300bp等)と同様であり得る。実施形態によっては、指定閾値は、整列させられる1つ以上の配列リードの長さに基づいて変化し得る。実施形態によっては、閾値は、動作244において用いられる同じ閾値であり得る。実施形態によっては、閾値は、動作244において用いられる閾値とは異なるものであり得る。実施形態によっては、一致部分配列が、グラフリファレンス構築物に整列させられるべき配列リードよりも長い場合には、配列リードは、第1及び第2の構造バリアントの両方がグラフリファレンス構築物内に含められた場合には、(例えば、第1の構造バリアント及び第2の配列構築物内に含まれる)両方又はどちらかの部分配列に不正確に整列させられ得る。
【0093】
実施形態によっては、第2の構造バリアントが、第1の構造バリアントの部分と同一である部分配列を含み、部分配列の長さが指定閾値を超える場合には、このとき、プロセス240は動作252へ進む。動作252は、どの構造バリアントを除外するべきであるかを決定することを含み得る。実施形態によっては、より長い構造バリアントはより多くの情報を包含するため、構造バリアントのうちのより短いものを除外することが望ましくなり得る。それゆえ、動作252は、第2の構造バリアントの長さが第1の構造バリアントの長さを超えるかどうかを決定することを含み得る。第2の構造バリアントの長さは第1の構造バリアントの長さを超えると決定すると、動作254において、第1の構造バリアントを複数のバリアントから除外する。第2の構造バリアントの長さは第1の構造バリアントの長さを超えないと決定すると、動作256において、第2の構造バリアントを複数のバリアントから除外する。
【0094】
動作246において、第2の構造バリアントが、第1の構造バリアントの部分と同一であり、指定閾値を超える長さを有する部分配列を含まないと決定された場合には、プロセス240は動作248へ進む。動作248は、デコイ配列は、第1の構造バリアントの部分と同一である部分配列を含むかどうかを決定することを含み得る。本明細書において説明されるように、デコイ配列は、リファレンス内に含まれない共通配列を含み得る。しかし、共通配列のうちの1つが構造バリアントによってすでに表現されている場合には、このとき、その配列をデコイとして含む必要はない。したがって、デコイ配列が、第1の構造バリアント内に含まれる部分配列と同一である部分配列を含む場合には、動作258において、デコイ配列のその領域をマスクする。次に、プロセス240は、第1の構造バリアントをバリアントの第1の部分セット内に含める、動作250へ進む。
【0095】
図2Dは、本明細書において説明される技術の一部の実施形態に係る、バリアントの第1の部分セットの中からバリアントのフィルタされたセットを識別するためのプロセス260を示すフローチャートである。プロセス260は、プロセス200の動作206bがどのように実施され得るのかの一例である。
【0096】
本明細書において上述されたように、より多くのバリアントがグラフリファレンス構築物内に含まれるのにしたがって、同一のパスがグラフリファレンス構築物の異なる領域内に含まれる可能性が高くなる。配列リードをこのようなグラフリファレンス構築物に整列させることは、複数マッピング配列リードのゆえに、曖昧な、及び情報価値のない結果をもたらし得る。実施形態によっては、アライメント品質は、アライメントが正しい確度を指示する。配列リードがマッピングされる(例えば、複数マッピングされる)領域がグラフ内に複数存在する場合には、マッピング品質は低くなり得る。実施形態によっては、グラフリファレンス構築物内の異なる領域の同一性を断つべく、複数マッピング配列リードをもたらす一部のバリアント(例えば、複数整列可能バリアント)を除外するために、例示的な実装形態206bなどの、フィルタリング段階が用いられ得る。複数整列可能バリアントをフィルタリングする一例が、本明細書において、少なくとも
図3Cに関する説明を含めて説明される。
【0097】
実施形態によっては、例示的な実装形態206bは、リファレンス配列構築物、及びプロセス240の動作250において識別されたバリアントの第1の部分セットのうちの少なくとも一部のバリアントを用いて初期グラフリファレンス構築物を生成することが実行される、262において開始する。実施形態によっては、1つ以上のノード及び/又はエッジを用いてバリアントの第1の部分セット内の少なくとも一部のバリアントをリファレンス配列構築物に追加し、初期グラフリファレンス構築物を生成し得る。したがって、初期グラフリファレンス構築物は、リファレンス配列構築物を表現する1つのパス、及び初期グラフリファレンス構築物内に含まれるバリアントを表現する1つ以上のパスを含み得る。「エッジの組み合わせ(edge combination)」は、1つ以上の特定のエッジをたどり、したがって、それらのエッジに関連付けられた1つ以上のバリアントを表現する初期グラフリファレンス構築物内のパスを指し得る(例えば、バリアントは、エッジとして含まれる、エッジをたどるノードとして含まれるなどする)。
【0098】
次に、例示的な実装形態206bは、初期グラフリファレンス構築物を横断し、グラフリファレンス構築物から合成的に、指定長の複数のグラフリードを生成する、動作264へ進む。グラフリードは、初期グラフリファレンス構築物内の特定の領域におけるパスを表現する1つ以上のヌクレオチドを含み得る。実施形態によっては、グラフリードはグラフ内の全ての可能なハプロタイプのために生成される。実施形態によっては、グラフリードを生成するために初期グラフリファレンス構築物を横断することは、飛び越しを有する移動窓を用いてグラフリファレンス構築物を横断することを含む。実施形態によっては、動作264は、下位動作264a及び264bを実行することを含む。
【0099】
下位動作264aは、実施形態によっては、グラフリファレンス構築物を第1の区間にわたって横断することによってグラフリードの第1の部分セットを生成することを含む。実施形態によっては、グラフリードの第1の部分セットは1つのリファレンスグラフリード及び1つ以上の非リファレンスグラフリードを含み得る。リファレンスグラフリードは、リファレンス配列構築物を通るパスを表現し得、その一方で、非リファレンスグラフリードは、その区間内の初期グラフリファレンス構築物内のエッジ(例えば、エッジの組み合わせ)をたどるパスを表現し得る。
【0100】
下位動作264bは、初期グラフリファレンス構築物を、第1の区間と部分的に重なる第2の区間にわたって横断することによって、グラフリードの第2の部分セットを生成することを含み得る。本明細書において上述されたように、グラフリードの第2の部分セットは1つのリファレンスグラフリード及び1つ以上の非リファレンスグラフリードを含み得る。実施形態によっては、第1及び第2の区間は重なるため、グラフリードの第2の部分セット内に含まれるグラフリードは、グラフリードの第1の部分セット内に含まれるグラフリードによって表現される1つ以上のバリアントを表現し得る。
【0101】
実施形態によっては、動作264において複数のグラフリードを生成した後に、例示的な実装形態206bは、複数のグラフリードを初期グラフリファレンス構築物に整列させ、複数のグラフリードのうちの少なくとも一部の各々のためのアライメント品質を決定する、動作266へ進む。本明細書において上述されたように、アライメント品質は、グラフリードが初期グラフリファレンス構築物に正しく整列させられる確度を指示し得る。グラフリードのためのアライメント品質を決定することは、グラフリードが初期グラフリファレンス構築物内の2つ以上の領域にマップするかどうかを決定することを含み得る。実施形態によっては、初期グラフリファレンス構築物内の2つ以上の領域にマップするグラフリードは、グラフリファレンス内の1つの位置のみにマップするグラフリードよりも低いアライメント品質をもたらす。これは、初期グラフリファレンス構築物内の1つの位置のみにマップするグラフリードは、複数の位置にマップし得るグラフリードよりも、正しい位置にマッピングされる可能性が高いからである。
【0102】
実施形態によっては、グラフリードの部分セット(例えば、グラフリードの第1の部分セット、又はグラフリードの第2の部分セット)のために、リファレンスグラフリードのために決定されたアライメント品質を、非リファレンスグラフリードのために決定されたアライメント品質と比較する。実施形態によっては、非リファレンスグラフリードが、リファレンスグラフリードのために決定されたアライメント品質よりも低いアライメント品質を有する場合には、このとき、非リファレンスグラフリードによって表現されるエッジの組み合わせをバリアントのフィルタされたセットからの除外のために識別し得る。例えば、非リファレンスグラフリードのアライメント品質が0であり、その一方で、リファレンスグラフリードのアライメント品質が0よりも大きい場合には、非リファレンスグラフリードによって表現されるエッジの組み合わせをバリアントのフィルタされたセットからの除外のために識別する。実施形態によっては、非リファレンスグラフリードのために決定されたアライメント品質が、リファレンスグラフリードのために決定されたアライメント品質よりも大きい場合には、非リファレンスグラフリードによって表現されるエッジの組み合わせをバリアントのフィルタされたセット内への包含のために識別し得る。加えて、又は代替的に、非リファレンスグラフリードが、指定閾値(例えば、少なくとも10、少なくとも20、少なくとも30、少なくとも40等)よりも大きいアライメント品質を有する場合には、非リファレンスグラフリードによって表現されるエッジの組み合わせをバリアントのフィルタされたセット内への包含のために識別し得る。しかし、エッジの組み合わせはバリアントのフィルタされたセット内への包含又はそれからの除外のために識別され得るものの、実施形態によっては、プロセス200の動作268において、エッジの組み合わせはバリアントのフィルタされたセット内に実際に含められない、又はそれから除外されないことがあることを理解されたい。
【0103】
アライメント品質を複数のグラフリードのうちの少なくとも一部について決定した後に、例示的な実装形態206bは、バリアントの第1の部分セットのうちの少なくとも一部をバリアントのフィルタされたセットから除外する、動作268へ進む。実施形態によっては、動作268において、同じエッジの組み合わせを含む非リファレンスグラフリードをグループ化し得る。例えば、第1及び第2の区間は重なるため、第1の部分セット内に含まれる非リファレンスグラフリードは、第2の部分セット内に含まれる非リファレンスグラフリードによって同様に表現されるエッジの組み合わせを表現し得る。それゆえ、それらのグラフリードはグループ化され得る。
【0104】
実施形態によっては、動作266において、グループ化された非リファレンスグラフリードの各々がバリアントのフィルタされたセットからの除外のために識別された場合には、これは、エッジの組み合わせは複数マッピング配列リード(例えば、グラフの複数の異なる領域に整列するリード)をもたらすことを示し得る。したがって、エッジの組み合わせをフィルトレーションのために識別し得る。実施形態によっては、動作268において、フィルトレーションのために識別されたエッジの組み合わせによって表現されるバリアントのセットをバリアントのフィルタされたセットから除外する。例えば、各々のエッジの組み合わせが、バリアントのフィルタされたセットから除外された少なくとも1つのバリアントを有するよう、フィルトレーションのために識別されたエッジの組み合わせからバリアントのセットを識別する。
【0105】
図3Aは、本明細書において説明される技術の一部の実施形態に係る、リファレンス構築物に関連付けられた代替配列を処理する例示的な例の図である。
図3Aの例は、プロセス220の動作224を実行する一例の役割を果たす。
【0106】
実施形態によっては、例300は、代替配列をリファレンス配列構築物に整列させることが実行される、動作302において開始する。アライメントの部分として、1つ以上の差異が整列位置において識別され、網掛け枠によって表現されている。例は、一致する領域、及び構造バリアントを含む領域を識別するアノテーションを、その領域内に含まれるヌクレオチドの数と共に含む。実施形態によっては、「M」をもってアノテートされた領域は一致ヌクレオチドを示す。例えば、「M3」をもってアノテートされた領域は3つの一致ヌクレオチドを表現し、その一方で、「M23」をもってアノテートされた領域は23個の一致ヌクレオチドを表現する。実施形態によっては、一致領域は1つ以上の不一致を含み得る。例えば、領域「M23」は2つの不一致を含む。第1に、位置19において、リファレンス配列構築物内のヌクレオチド「G」は代替配列内のヌクレオチド「T」と一致しない。第2に、位置30において、リファレンス配列構築物内のヌクレオチド「G」は代替配列内のヌクレオチド「T」と一致しない。実施形態によっては、「I」をもってアノテートされた領域は挿入を示す。例えば、領域「I5」は5つのヌクレオチドの挿入を表現する。代替配列に示されるように、5つの網掛け枠はヌクレオチド「GACCG」の挿入を表現する。別の例として、領域「I4」は4つのヌクレオチドの挿入を表現する。代替配列に示されるように、4つの網掛け枠はヌクレオチド「AGTT」の挿入を表現する。実施形態によっては、「D」をもってアノテートされた領域は欠失を示す。例えば、領域「D4」は4つのヌクレオチドの欠失を表現する。リファレンス配列構築物において示されるように、4つの網掛け枠はヌクレオチド「TACC」の欠失を表現する。別の例として、領域「D3」は3つのヌクレオチドの欠失を表現する。リファレンス配列構築物において示されるように、3つの網掛け枠はヌクレオチド「AAT」の欠失を表現する。
【0107】
実施形態によっては、動作304において、動作302において識別された差異のうちの一部を処理し得る。実施形態によっては、動作304は、挿入及び欠失事象などの、複雑なバリアントを分割し、より小さいバリアントを生成することを含み得る。例えば、動作304において、領域「I5」及び「D4」によって表現される、連続した挿入及び欠失事象を処理し得る。図示のように、挿入及び欠失事象を互いに対して整列させ、それらが任意の一致ヌクレオチドを含むかどうかを決定する。整列位置は一致領域「M4」及び挿入領域「I1」を含む。一致領域は、灰色枠によって表現されるとおりの、1つの不一致、及び3つの一致を含む。したがって、複雑なバリアント(例えば、挿入及び欠失事象)はより小さいバリアントに分割することができる。図示のように、領域「M4」内の不一致ヌクレオチドは一塩基多型(SNP(single nucleotide polymorphism))として表現され得、その一方で、領域「I1」内の挿入は単一のヌクレオチド挿入によって表現され得る。一致領域は除外され、これは、(a)バリアントを単純化し、(b)バリアントのサイズを低減する。
【0108】
動作306において、代替配列の単純化されたバージョンを表現する第1のバリアントを取得する。図示のように、バリアントは左正規化される。つまり、バリアントの開始位置は左にシフトされる。実施形態によっては、第1のバリアントは、リファレンス配列構築物に対する開始位置を指示するようにアノテートされ得る。例えば、数字「4」をもってアノテートされた第1のバリアントは、それがリファレンス配列構築物の左から4番目の位置(例えば、4番目のヌクレオチド)において開始することを指示する。
【0109】
実施形態によっては、動作306において取得された第1のバリアントを含むVCFファイルを出力し得る。VCFファイルは、バリアントの位置、並びにリファレンス配列構築物及び代替配列に対してバリアントを定義するヌクレオチドを含み得る。例えば、位置13において、代替配列は、リファレンス配列構築物の、配列「CAAT」内の第1のヌクレオチドと一致する、ヌクレオチド「C」を含む。ヌクレオチド「AAT」は、代替配列内の位置13におけるヌクレオチドの後に続く欠失事象を表現する。したがって、リファレンス配列は、位置13の後に続くヌクレオチド「AAT」を含むが、代替配列は含まない。
【0110】
図3Bは、本明細書において説明される技術の一部の実施形態に係る、多段階バリアントフィルタリング技法の第1の段階であって、第1の段階は、バリアントの初期セットから除外されるべき構造バリアントのセットを識別するために用いられる、第1の段階を実行する例示的な例の図である。
図3Bの例は、1つ以上の構造バリアントを複数のバリアントからの除外のために識別する、少なくとも
図2Aに関する説明を含む、本明細書において説明されるとおりの、プロセス200の動作206aを実行する一例の役割を果たす。
【0111】
本例では、構造バリアントのセットを識別することは4つの段階322、324、326、及び328を含む。しかし、実施形態によっては、1つ以上の段階は省略されてもよいことを理解されたい。例えば、デコイ配列がリファレンス配列構築物に関連付けられない場合には、このとき、段階328は省略されてもよい。このような省略が残りの3つの段階322、324、及び326の性能に影響を及ぼすことはないであろう。
【0112】
実施形態によっては、第1の段階322は、挿入などの、構造バリアントをリファレンス配列構築物に整列させることを含む。
図3Bに示されるように、2つの構造バリアントをリファレンス配列構築物に整列させ、2つのアライメント、アライメント332及びアライメント334を決定する。
【0113】
実施形態によっては、整列位置において、第1の構造バリアントをリファレンス配列構築物と比較し、第1の構造バリアントが、リファレンス配列構築物内に含まれる部分配列と同一であり、指定閾値よりも大きい長さを有する部分配列を含むかどうかを決定する。換言すれば、これは、整列位置における一致領域の長さを決定することを含み得る。例えば、第1の構造バリアントをリファレンス配列構築物に整列させ、アライメント332を決定したとき、それは3つの一致領域を含む。第1の一致領域は8ヌクレオチドの長さを有し、第2の一致領域は42ヌクレオチドの長さを有し、第3の一致領域は19ヌクレオチドの長さを有する。30ヌクレオチドの例示的な閾値と比べると、第2の一致領域の長さ(例えば、42ヌクレオチド)は閾値を超える。したがって、第1の構造バリアントは複数のバリアントから除外されるであろう。
【0114】
実施形態によっては、第1の構造バリアントが複数のバリアント内に含まれ、動作322においてフィルタリングアウトされるのではなく、グラフリファレンス構築物を生成するために用いられた場合には、それは曖昧な配列リードアライメントをもたらした可能性がある。例えば、42ヌクレオチドよりも小さい長さ(例えば、30ヌクレオチド)を有する配列リードは一致領域内でリファレンス配列構築物及び第1の構造バリアントの両方に整列し得る。この場合には、どのアライメントが正しいのかを決定するすべがなくなることになり、その結果、アライメントは情報価値がなくなるであろう。
【0115】
別の例として、第2の構造バリアントをリファレンス配列構築物に整列させ、アライメント334を決定したとき、それは4つの一致領域を含む。第1の一致領域は、8ヌクレオチドの長さを有し、第2の一致領域は20ヌクレオチドの長さを有し、第3の一致領域は18ヌクレオチドの長さを有し、第4の一致領域は19ヌクレオチドの長さを有する。いずれの一致領域も、30ヌクレオチドの例示的な閾値を超える長さを有しないため、第2の構造バリアントは複数のバリアントから除外されない。
【0116】
実施形態によっては、第2の段階324は、構造バリアントをそれらのサイズに基づいてフィルタリングすることを含む。例えば、欠失事象の長さが最大欠失サイズ閾値(例えば、90,000bp)よりも大きい場合には、このとき、欠失事象は複数のバリアントから除外され得る。同様に、挿入事象の長さが最大挿入サイズ閾値(例えば、5,000bp)よりも大きい場合には、このとき、挿入事象は複数のバリアントから除外され得る。挿入又は欠失事象の長さが最大サイズ閾値を超えない場合には、このとき、それらの構造バリアントは複数のバリアント内に含められるか、又はさらなるフィルタリング段階322、326、328にかけられ得る。実施形態によっては、複数のバリアントから除外された構造バリアントは追加のデコイ配列として含められ得る。
【0117】
実施形態によっては、第3の段階326は、2つの構造バリアントは、指定閾値を超える長さの同一の部分配列を含むかどうかを決定することを含む。第1のアライメント338に示されるように、2つの一致領域(例えば、2つの同一の部分配列)が存在する。第1の一致領域は8ヌクレオチドの長さを有し、その一方で、第2の一致領域は51ヌクレオチドの長さを有する。第2の一致領域の長さ(例えば、51ヌクレオチド)は30ヌクレオチドの例示的な閾値を超えるため、構造バリアントのうちの1つは複数のバリアントから除外される。より長い構造バリアントはより多くの情報を包含するため、より短い構造バリアントは複数のバリアントから除外される。
【0118】
段階326の別の例として、アライメント340は構造バリアントの異なる対のアライメントを示す。図示のように、アライメント340は3つの一致領域を含む。第1の一致領域は6ヌクレオチドの長さを有し、第2の一致領域は22ヌクレオチドの長さを有し、第3の一致領域は326ヌクレオチドの長さを有する。いずれの一致領域も、30ヌクレオチドの例示的な閾値を超える長さを有しないため、どちらの構造バリアントも複数のバリアントから除外されない。
【0119】
実施形態によっては、フィルタリング段階328は、構造バリアントをデコイ配列に整列させ、整列位置342を取得することを含む。構造バリアントによって表現される配列はグラフリファレンス構築物内に含められることになるため、それをデコイ配列内に追加的に含める理由はない。さらに、配列をデコイ配列内に含めることは、配列リードが、デコイ配列、及びその配列を表現する構造バリアントの両方に整列する結果をもたらすであろう。したがって、デコイ配列を整列位置においてマスクし、マスクされたデコイ配列344を取得する。実施形態によっては、構造バリアントはフィルタリング段階328においてデコイ配列に整列しないことがある。したがって、デコイ配列の領域はマスクされないであろう。
【0120】
実施形態によっては、例示的な例320は動作206aの部分として行われ、本例では、複数のバリアントから除外されない構造バリアントは、プロセス206aにおいて作成されたバリアントの第1の部分セットの部分として含められたであろう。
【0121】
図3Cは、本明細書において説明される技術の一部の実施形態に係る、多段階バリアントフィルタリング技法の第2の段階であって、第2の段階は、バリアントの初期セットから除外されるべき複数整列可能バリアントのセットを識別するために用いられる、第2の段階を実行する例示的な例の図である。
図3Cの例は、1つ以上の複数整列可能バリアントを複数のバリアントからの除外のために識別する、プロセス200の動作206bを実行する一例の役割を果たす。
【0122】
実施形態によっては、初期グラフリファレンス構築物362を生成し得る。実施形態によっては、これは、第1のフィルタリング段階(例えば、本明細書において、少なくとも
図2A及び
図3Bに関する説明を含めて説明される第1のフィルタリング段階)を用いた結果として取得された、バリアントの第1の部分セットをリファレンス配列構築物に追加することを含み得る。例において示されるように、初期グラフリファレンス構築物は、位置12におけるバリアント、位置16におけるバリアント、及び位置36において開始するバリアントを含む。バリアントはノード及びエッジを用いてグラフ内で表現される。
【0123】
実施形態によっては、第1の段階352は、初期グラフリファレンス362を指定区間にわたって横断することによって、複数のグラフリードを生成することを含む。図示のように、グラフリードの第1の部分セット364がグラフ内の第1の区間のために生成される。グラフリードの第1の部分セット364は、白ますのみを含むグラフリードによって表現される、リファレンス配列構築物を通るパスを表現する1つのグラフリードを含む。グラフリードの第1の部分セット364内に含まれる残りのグラフリードは、グラフ内のエッジの異なる組み合わせを含むパスを表現する。例えば、1つのグラフリードは、その位置において表現されるバリアントを含む、位置12におけるエッジに沿って続くパスを表現する。別のグラフリードは、位置16におけるエッジに沿って続くパスを表現する。最後のグラフリードは、両方のエッジ、位置12におけるエッジ及び位置16におけるエッジに沿って続くパスを表現する。
【0124】
初期グラフリファレンス構築物を、第1の区間と重なる初期グラフリファレンス構築物内の第2の区間にわたって横断することによって、グラフリードの第2の部分セット366を生成する。同様に、グラフリードの第2の部分セット366は、リファレンスグラフリード、及び3つの異なるエッジの組み合わせ(例えば、位置12におけるエッジ、位置16におけるエッジ、並びに位置12及び16におけるエッジ)を表現する3つの非リファレンスグラフリードを含む。図示のように、重なった区間は、同じエッジの組み合わせを含むグラフリードをもたらす。
【0125】
最後に、初期グラフリファレンス構築物を、第2の区間と重なる初期グラフリファレンス構築物内の第3の区間にわたって横断することによって、グラフリードの第3の部分セット368を生成する。第3の区間は、位置36において含まれるバリアントによって表現されるとおりの、1つのエッジの組み合わせを含むのみである。したがって、グラフリードの第3の部分セット368は1つのリファレンスグラフリード及び1つの非リファレンスグラフリードを含む。
【0126】
実施形態によっては、生成された複数のグラフリードはFASTQファイルとして収集され得る。段階354において示されるように、FASTQファイル及び初期グラフリファレンス構築物362を用いることで、グラフアライナを用いて複数のグラフリードを初期グラフリファレンス構築物に対して整列させ、整列させられた配列を表現するために用いられる、BAMファイルを取得し得る。実施形態によっては、BAMファイルは、グラフリードの各々のためのアライメント品質、又はマッピング品質(「MQ(mapping quality)」)を含み得る。アライメント品質は正しいアライメントの確度を示し得る。
図2Dに関する説明を含めて、本明細書において上述されたように、低いアライメント品質を有するグラフリードは、グラフリードは初期グラフリファレンス構築物内の2つ以上の場所に整列し得ることを示し得る。
【0127】
段階356において示されるが、各グラフリードはアライメント品質(「MQ」)をもってアノテートされる。非リファレンスグラフリードのアライメント品質がリファレンスグラフリードのアライメント品質よりも小さい場合には、非リファレンスグラフリードによって表現されるエッジの組み合わせをグラフリードのフィルタされたセットからの除外のために識別する(
図3Cにおいて「不良」としてラベル付けする)。非リファレンスグラフリードのアライメント品質がリファレンスグラフリードのアライメント品質よりも大きく、及び/又は指定閾値よりも大きい場合には、グラフリードによって表現されるエッジの組み合わせをグラフリードのフィルタされたセット内への包含のために識別する(
図3Cにおいて「良」としてラベル付けする)。さもなければ、エッジの組み合わせ及び関連グラフリードを無視する。
【0128】
例において示されるように、グラフリードの第1の部分セットは、25のアライメント品質を有するリファレンスグラフリードを含む。非リファレンスグラフリードの各々は、25よりも小さいアライメント品質(例えば、0)を有するため、非リファレンスグラフリードによって表現されるエッジの組み合わせを、グラフリードのフィルタされたセットから除外するために識別する。グラフリードの第2の部分セット374は、35のアライメント品質を有するリファレンスグラフリードを含む。非リファレンスグラフリードのうちの2つは、35よりも小さいアライメント品質を有するため、それらのグラフリードによって表現されるエッジの組み合わせをグラフリードのフィルタされたセットからの除外のために識別する。第2の部分セット374内に含まれる1つの非リファレンスグラフリードは、リファレンスグラフリードのアライメント品質よりも大きい、45のアライメント品質を有する。したがって、そのグラフリードによって表現されるエッジの組み合わせをグラフリードのフィルタされたセット内への包含のために識別する。最後に、第3の部分セット376のリファレンス及び非リファレンスグラフリードは両方とも0の同じマッピング品質を有するため、この部分セット376は無視する。
【0129】
分類後に、グラフリードを、それらが表現するエッジの組み合わせによってグループ化する。例えば、第1のグループ378は、位置16におけるバリアント「G」を含むエッジの組み合わせを表現し、第2のグループ380は、位置12におけるバリアント「T」を含むエッジの組み合わせを表現し、第3のグループ382は、それぞれ位置12及び16における両方のバリアント「T」及び「G」を含むエッジの組み合わせを表現する。
【0130】
次に、グループ内に含まれるグラフリードの分類に基づいて各グループ378、380、382を分類する。例えば、グループ378は、バリアントのフィルタされたセットからの除外のために全て識別されたグラフリードを含む。これは、バリアント「G」を含むエッジの組み合わせは初期グラフリファレンス構築物362内の異なる領域における同一のパスをもたらし得、複数マッピング配列リードを生じさせることを示す。したがって、グループ378はフィルトレーションのために識別される。グループ380は、混合した分類(例えば、バリアントのフィルタされたセット内への包含、及びそれからの除外の両方のために識別されたグラフリード)を含む。したがって、グループ380はフィルトレーションのために識別されない。最後に、グループ382は、バリアントのフィルタされたセットからの除外のために全て識別されたグラフリードを含む。したがって、グループ382はフィルトレーションのために識別される。
【0131】
グループを分類した後に、フィルトレーションのために識別されたグループ内に含まれるバリアントの中からバリアントのセットをバリアントの第1の部分セットから除外する。バリアントのセットを識別することは、実施形態によっては、フィルトレーションのために識別されたグループに共通である1つ以上のバリアントを識別することを含む。例えば、
図3Cに示されるように、位置16におけるバリアントは、それは、フィルタリングのために識別された両方のグループ378、382内に含まれるため、除外のために識別される。したがって、そのバリアントはバリアントの第1の部分セットから除外される。
【0132】
実施形態によっては、例示的な例350は動作206bの部分として行われ、本例では、複数のバリアントから除外されないバリアントは、プロセス206bにおいて作成されたバリアントのうちのフィルタリングされたものの部分として含められたであろう。
【0133】
実施形態によっては、段階384において、バリアントのフィルタされたセットを用いてグラフリファレンス構築物を生成する。
【0134】
グラフ構築のさらなる態様
本明細書において説明されるグラフ構築技法の追加の態様が以下において
図4~
図8を参照して説明される。
【0135】
図4Aは、本明細書において説明される技術の一部の実施形態に係る、グラフリファレンス構築物を生成するための例示的なプロセス400を示す図である。実施形態によっては、プロセス400は、本明細書において、少なくとも
図1及び
図2Aに関する説明を含めて説明される、グラフリファレンス構築物を生成するための例示的な技法100及びプロセス200の例示的な実装形態である。
【0136】
実施形態によっては、プロセス400は、線形リファレンス構築物を処理する、動作408を含む。実施形態によっては、動作408の前に、プロセス400は、線形リファレンス構築物404、及び線形リファレンス構築物404に関連付けられたデコイ406を取得することを含む。例えば、
図4Bに示されるように、本例における線形リファレンス構築物404はGRCh38ゲノムアセンブリである。実施形態によっては、GRCh38ゲノムアセンブリは、一次染色体432、未配置及び位置未特定コンティグ434(unplaced and unlocalized contigs)、代替(ALT)コンティグ及びNOVELコンティグ436、並びにFIXコンティグ438を含む。
【0137】
実施形態によっては、ALT及びNOVELコンティグ436は正規染色体(canonical chromosomes)内の特定の領域のための代替配列を表現する。これらの領域は集団内の高い変異性を示し、ALT及びNOVELコンティグ436は、一倍体ゲノムを拡張するための追加の配列として提供される。実施形態によっては、ALT及びNOVELコンティグ436はジェネラルフィーチャフォーマット(GFF)ファイルとして取得される。GFFファイルは、コンサイス・イディオシンクラティック・ギャップト・アライメント・レポート(CIGAR)フォーマットでカノニカル領域に対する代替コンティグのアライメントを記述する。ただし、本明細書において説明される技術の態様はこの点に関して限定されないため、データは任意の他の好適なフォーマットでフォーマットされ得ることを理解されたい。実施形態によっては、ALTコンティグは、本明細書において、少なくとも
図1A~
図3Cに関する説明を含めて説明される、代替的配列の例である。
【0138】
実施形態によっては、動作408は、線形リファレンス構築物404を処理し、ALT及びNOVELコンティグ436を線形リファレンス404から除去し、これにより、それが、一次染色体、並びに未配置及び位置未特定コンティグ434のみを包含するようにすることを含む。加えて、又は代替的に、動作408において、デコイ406を線形リファレンス構築物に追加し、線形リファレンス構築物412を取得し得る。線形リファレンス構築物412は、FASTAファイル、又は任意の他の好適なフォーマットのデータとして出力され得る。
【0139】
実施形態によっては、ALT及びNOVELコンティグ436を線形リファレンス404から除去した後に、それらを一次染色体432にマッピングする。ALT及びNOVELコンティグ436は、線形リファレンスと同一である長大な配列をしばしば包含するため、動作408において、(a)ALT及びNOVELコンティグ436をより小さいバリアントに分解し、(b)それらの分解されたバリアントを左正規化するためのさらなる処理が実行される。得られたバリアント410は、FASTAファイル、又は任意の他の好適なフォーマットのデータとして出力され得る。動作408は、少なくとも
図2Bに関する説明を含めて、本明細書において説明されるように、代替的配列を処理し、リファレンス配列構築物に関連付けられた第2のバリアントを取得することが実行される、プロセス220の動作224において実行され得る種類の処理の一例である。
【0140】
ALT及びNOVELコンティグ436を分解する一例として、連続した挿入及び欠失事象を組み合わせることができ、アライメントを単純化することができる(例えば、多数のSNPに単純化する)。実施形態によっては、変異のより最小の表現を取得するために、例えば、Needleman-Wunschアルゴリズムを用いて、変異を互いに整列させる。同一の一致ブロックの長い配列がアライメントにおいて識別された場合には、このとき、この変異を一致ブロックからのより小さい変異に分割し得る。
【0141】
実施形態によっては、プロセス400は、入力414を取得し、準備する、動作416を含む。実施形態によっては、入力414はバリアントファイル(例えば、VCFファイル)を含む。実施形態によっては、入力414は1つ又は複数のソースから取得される。入力414が異なるソースから取得される場合には、動作416において入力を準備することは、入力414を処理し、バリアント構造を統合することを含む。例えば、入力414を処理することは、複対立遺伝子バリアントを分割すること、非標準のバリアント定義を除去し、完全に配列が解決されたバリアントのみを残すこと、対立遺伝子頻度によってフィルタリングすること、バリアントを左正規化すること、未使用のアノテーションを消去すること、ID及びFILTERフィールドを消去すること、サンプル情報を消去すること、実効対立遺伝子頻度を算出するために用いられた情報をもってアノテートすること、及び/又はそれぞれのVCFファイルに割り振られたIDを用いて元のソースファイルを指示するようバリアントにアノテートすること、を含み得る。
【0142】
動作408及び動作414は任意の順序で実行され得る。実施形態によっては、動作408及び動作414は同時に実行され得る。
【0143】
動作416において入力414を取得し、準備し、動作408において線形リファレンス構築物404及びデコイ406を処理した後に、プロセス400は、バリアントをマージする、動作418へ進む。動作418は、少なくとも
図2Bに関する説明を含めて、本明細書において説明されるように、第1及び第2のバリアントをマージし、複数のバリアントを取得することが実行される、プロセス220の動作228において実行され得る種類の処理の一例である。実施形態によっては、動作418においてバリアントをマージすることは、複数の入力バリアントファイルを処理し、単一の2対立遺伝子候補グラフファイルを取得することを含む。例えば、動作418は、準備された入力414及び代替バリアント410を処理し、初期グラフリファレンス構築物を記述する単一の出力ファイルを取得することを含み得る。実施形態によっては、マージすることは、全てのバリアントを組み合わせ、単一のセットにすることを含む。同じバリアントが複数のソースに由来する場合には、このとき、動作418においてマージすることは、バリアントに関連付けられたアノテーションを集約し、バリアントのための実効対立遺伝子頻度を算出することを含む。実施形態によっては、バリアントのための実効対立遺伝子頻度は、対応するソースファイルのために用いられたサンプルの数によって重み付けされた、ソースファイルの全てに由来する対立遺伝子頻度の平均である。
【0144】
次に、プロセス400は、バリアント(例えば、動作418において出力されたバリアント)をフィルタリングする、動作420へ進む。実施形態によっては、動作420において、多段階フィルタリング技法を用いてバリアントをフィルタリングし、プロセス400の出力として取得されたグラフリファレンス構築物426、428から除外されるべきバリアントのセット430を識別し得る。動作420は、少なくとも
図2Aに関する説明を含めて、本明細書において説明されるように、リファレンス配列構築物に関連付けられた複数のバリアントをフィルタリングすることが実行され、バリアントのフィルタされたセットを取得する、プロセス200の動作206において実行され得る種類の処理の一例である。
【0145】
実施形態によっては、動作420においてフィルタリングすることは構造バリアント(SV)フィルタ422及び複数マップフィルタ424を含む。実施形態によっては、SVフィルタ422は、本明細書において、少なくとも
図2Aに関する説明を含めて説明される、プロセス200の第1のフィルタリング段階206aの部分として用いることができる種類のフィルタである。実施形態によっては、SVフィルタ422は、グラフリファレンス構築物426、428から除外されるべき構造バリアントを識別するために用いられ得る。これは、グラフリファレンス構築物内の重複をもたらすであろう配列を持ち込むことを解消し得る。SVフィルタ422を用いる一例が、本明細書において、少なくとも
図4Cに関する説明を含めて説明される。
【0146】
実施形態によっては、複数マップフィルタ424は、本明細書において、少なくとも
図2Aに関する説明を含めて説明される、プロセス200の第2のフィルタリング段階206bの部分として用いられ得る。実施形態によっては、複数マップフィルタ424は、グラフリファレンス構築物426、428内に含められた場合には、配列リードがグラフリファレンス構築物426、428の複数の領域に整列することを引き起こすであろう(例えば、複数マッピング問題をもたらす)、複数整列可能バリアントを識別するために用いられ得る。実施形態によっては、識別されたバリアントはグラフリファレンス構築物426、428から除外される。複数マップフィルタ424を用いる一例が、本明細書において、少なくとも
図4Dに関する説明を含めて説明される。
【0147】
実施形態によっては、フィルタリングされたバリアント430及びグラフリファレンス構築物426、428を動作420におけるフィルタリングの出力として取得する。実施形態によっては、フィルタリングされたバリアント430は、SVフィルタ422及び複数マップフィルタ424を用いて除外のために識別されたそれらのバリアントを含む。フィルタリングされたバリアント430は、VCFファイルとして、又は任意の他の好適なフォーマットのデータとして出力され得る。
【0148】
実施形態によっては、グラフリファレンス構築物426、428は、フィルタリングされたバリアント430から除外されたバリアントを、動作408において出力された線形リファレンス構築物412に対して整列させることによって、取得される。例えば、バリアントは、動作420において除外のために識別されなかった動作418において出力されたバリアントを含む。実施形態によっては、グラフリファレンス構築物は、FASTAファイル426として、VCFファイル428として、及び/又は任意の好適なフォーマットのデータとして出力される。
【0149】
図4Cは、本明細書において説明される技術の一部の実施形態に係る、構造バリアントのセットを識別するための例示的なプロセス422を示す図である。実施形態によっては、プロセス422は、(例えば、マージが実行される、動作418において出力された)初期グラフリファレンス構築物442内で表現される構造バリアントを処理することを含む。
【0150】
実施形態によっては、動作444は、構造バリアントをサイズによってフィルタリングすることを含む。例えば、閾値を超えるサイズを有する構造バリアントは、フィルタリングされたグラフ454から除外され、フィルタリングされた構造バリアント452内に含められ得る。実施形態によっては、挿入は、欠失とは異なる閾値と比較されるか、或いは挿入及び欠失は同じ閾値と比較される。
【0151】
実施形態によっては、動作446は、動作444においてフィルタリングにより除外されなかった構造バリアントを線形リファレンス構築物412に整列させることを含む。構造バリアントは、例えば、Heng Li(“Minimap2: pairwise alignment for nucleotide sequences”、Bioinformatics,Vol.34, Issue 18, 2018, pp. 3094-3100)によって記載された、Minimap2法などの、任意の好適なアライメント技法を用いて整列させられ得る。同文献はその全体が本明細書において参照により組み込まれる。線形リファレンス内の非デコイ配列と同一であり、少なくとも、配列リードの長さ(例えば、150bp)である部分配列(例えば、一致ブロック)が構造バリアント内に存在する場合には、構造バリアントは、フィルタリングされたグラフ454から除外され、フィルタリングされた構造バリアント452内に含められる。実施形態によっては、配列リード長よりも大きいアライメントギャップが存在するときには、バリアントコーラが配列リードを組み立て直し、構造バリアントを検出することが困難になるため、閾値は、配列リードの長さになるように選定される。
【0152】
実施形態によっては、動作448は、動作446においてフィルタリングにより除外されなかった構造バリアントを互いに整列させることを含む。構造バリアントは、例えば、Minimap2などの、任意の好適なアライメント技法を用いて整列させられ得る。少なくともリード長の共通の同一の部分配列が存在する場合には、このとき、構造バリアントのうちのより小さいものは、フィルタリングされたグラフ454から除外され、フィルタリングされた構造バリアント452内に含められる。
【0153】
実施形態によっては、動作448においてフィルタリングアウトされない構造バリアントはグラフリファレンス構築物454内に含められる。しかし、リファレンスのためのデコイは、線形リファレンス内にない共通の追加の配列によって取得されるため、それらの配列のうちの一部は、グラフリファレンス構築物454内に含まれる構造バリアントによってすでに表現されていることが可能である。したがって、実施形態によっては、動作456において、構造バリアントをデコイ配列に整列させる。アライメントが見つかった場合には、デコイ内のそれらの領域は、対応する数の塩基をもってマスクされる。実施形態によっては、動作458において、マスクされたデコイ配列を線形リファレンス配列412と連結し、FASTAファイル、又は任意の他の好適なフォーマットのデータとして出力され得る、マスクされたリファレンス460を生成する。
【0154】
図4Dは、本明細書において説明される技術の一部の実施形態に係る、第2のフィルタリング段階を用いて複数整列可能バリアントのセットを識別するための例示的なプロセス424を示す図である。実施形態によっては、プロセス424は、初期グラフリファレンス構築物462内で表現されるバリアントを処理することを含む。実施形態によっては、初期グラフリファレンス構築物462は、(例えば、マージが実行される、動作418において出力された)グラフリファレンス構築物442と同じである。実施形態によっては、初期グラフリファレンス構築物464は、プロセス422から出力された、フィルタリングされたグラフリファレンス構築物454と同じである。
【0155】
実施形態によっては、動作468は、グラフリファレンス構築物464内の全ての可能なパスを横断するリードをシミュレートすることを含む。これは、例えば、開始位置のために指定区間においてグラフリファレンス構築物464を横断することを含む。所与の開始位置のために、指定された長さの全ての可能なパスがその位置のためのリードとして生成される。実施形態によっては、生成されたリードは、FASTQファイル、又は任意の他の好適なフォーマットのデータとして収集される。
【0156】
実施形態によっては、動作470は、任意の好適なアライメント技法を用いてリードをグラフリファレンス464に対して整列させることを含む。
【0157】
実施形態によっては、動作472は、アライメントに基づいてバリアントをフィルタリングすることを含む。実施形態によっては、バリアントをフィルタリングすることは、同じ開始位置におけるリードをグループ化することを含む。グループ内には、線形リファレンス462のみに対応する1つのリードが存在することになり、残りのものはグラフ構築物464内のエッジの可能な組み合わせをたどることになる。
【0158】
リードがグループ化された後に、実施形態によっては、非リファレンスリードは、フィルタリングされたグラフリファレンス構築物480からの除外のために識別されることになる(例えば、「不良」として分類される)。リードは、リファレンスリードが、0よりも大きいマッピング品質を有したところに、それが0のマッピング品質を有する場合に、不良として分類される。実施形態によっては、非リファレンスリードは、リードが、リファレンスリードのマッピング品質よりも大きいか、又は閾値(例えば、20)よりも大きいマッピング品質を有する場合に、フィルタリングされたグラフリファレンス構築物480内への包含のために識別されることになる(例えば、「良」として分類される)。実施形態によっては、非リファレンスリードは、それらが、以上において指定された基準を満たさない場合には、無視されないことになる。
【0159】
実施形態によっては、異なる開始位置を有するが、エッジの同じ組み合わせをたどるリードが存在する場合には、それらのリードは集約される。リードの集約されたグループが、「不良」として分類されたリードのみを含む場合には、このとき、エッジの組み合わせはフィルトレーションのために識別される(例えば、フラグが付けられる)。
【0160】
実施形態によっては、動作476において、フィルトレーションのために識別されたエッジの組み合わせからエッジの最小部分セットを識別する。例えば、エッジの最小部分セットは、各フラグ付きのエッジの組み合わせが、部分セットを有する少なくとも1つの共通のエッジを有することになるように識別され得る。
【0161】
実施形態によっては、動作478において、エッジの部分セットに関連付けられたバリアントをバリアントのフィルタされたセット430内に含め、フィルタリングされたグラフ構築物480から除外する。
【0162】
例示的な例
本明細書において説明される技法を用いて取得されたグラフリファレンス構築物の性能を評価するための実験が行われた。実験は、グラフ構築物は、高い計算効率を有しつつ、リードアライメント及びバリアントコール精度の両方を大幅に改善することができることを示す。結果は、従来の線形の非グラフベースの技法を用いて取得されたものと比較され、グラフベースのアプローチは、リードマッピング誤りの大幅な低減、バリアントコール感度の増大を達成し、計算集約的な後処理ステップを用いることなくジョイントバリアントコールの改善をもたらすことを明確に示している。従来の技法は、BWA-MEMを用いて配列リードを線形リファレンスに対して整列させ、次に、GATKを用いて線形リファレンスに対するデータの差異を識別する(バリアントコール)。従来の技法は本明細書において「BWA+GATK」と称される。BWA-MEMは、Li H.及びDurbin R.(“Fast and accurate short read alignment with Burrows-Wheeler Transform”. Bioinformatics, 25:1754-60, 2009)によって説明されている。GATKは、McKenna Aら、(“The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res”, 20:1297-303, 2010)によって説明されている。同文献はその全体が本明細書において参照により組み込まれる。
【0163】
本明細書において説明される技術の能力を実証するために、少なくとも
図1~
図4Dに関する説明を含めて、本明細書において説明される技法に従って、1つのパンゲノムグラフ(pan-genome graph)及び6つの集団固有グラフを生成した。パンゲノムグラフを構築するために、gnomAD及びUK BioBankなどの、公開データベースを用いた。同様に、初期集団固有グラフを構築するために、公開データベースを用いた。次に、1000ゲノムプロジェクトからのアフリカンサンプルのイルミナシークエンシングデータを含む構築セットを用いて初期集団固有グラフを反復的に拡張した。パンアフリカン(Pan-African)0は、gnomADのみを用いて取得された集団固有グラフを指し、パンアフリカン5は、全ての5つの構築セットがグラフに追加された後に取得された最終グラフである。パンアフリカン1のグラフの構築においては、1000ゲノムデータセット内の10個のアフリカンサンプルのためのPacBio HiFiシークエンシングデータを用いてヒトゲノム構造バリアントコンソーシアム(HGSVC)によってキュレートされた高品質SVも組み込まれる。表1に、グラフ及びインデックスメモリ使用、並びに各グラフ内のバリアントの総数が列挙されている。表2に、各グラフの内容が示されている。
【0164】
【0165】
【0166】
【0167】
パンゲノム及び集団固有グラフリファレンスをアライメントのためのBWA-MEM及びバリアントコールのためのGATKと比較した。まず、
図5に示されるように、アライメント精度を比較した。各パネルは異なるアライメント統計値をバイオリン図として示す。各バイオリンは異なるグラフリファレンスに対応し、全てのベンチマーキングサンプルにわたる統計値の中央値及び分布を表現している。パネル(a)は、マッピングされないリードの百分率を示す。BWAは、グラフリファレンスのうちのいずれのものと比べても、より多くのリードをマッピングする。これは、グラフアライナによって用いられるより厳格な基準と対照的に、BWAによって用いられる寛大なアライメントアプローチに起因する。不適切なリード(リード対のための不適切なオリエンテーション、又は予想範囲外の挿入長のどちらかとして分類される)、及び情報価値のないリード(MAPQ<20)の百分率は、グラフアプローチについては、BWAと比べてはるかにより低い様子が見られる。複数マッピングリードの比も、BWAについては、いずれのグラフアプローチと比べてもより高い。本例から容易に見られるように、発明者らによって開発され、本明細書において説明される技法を用いて生成されたグラフリファレンス構築物を用いることは、従来の技法を上回るリードアライメントの改善をもたらす。グラフリファレンス構築物に曖昧さを持ち込み得るバリアントを除外することによって(例えば、1つ以上の構造バリアント及び/又は複数整列可能バリアントを除外することによって)、従来の技法と比べて、グラフリファレンス構築物内の複数の場所に整列するリードはより少なくなり、より正確で信頼できるアライメント結果をもたらす。
【0168】
集団固有グラフの代表性を測定するための有用なメトリックは、アライメント誤り率、すなわち、ゲノムリファレンスに対する塩基ごとの不一致率である。より小さい誤り率は、集団の遺伝組成がよりうまく捕捉され、また、リファレンスバイアスも低減されることを示す。
図5のパネル(f)は、誤り率は線形アプローチからパンアフリカングラフへと一貫して減少することを示す。パンアフリカングラフの各拡張はより良好な誤り率を達成し、最後の反復においてBWAと比べて50%前後の低減をもたらす。
【0169】
また、バリアントコールのための集団固有グラフの有用性も測定した。グラフリファレンス内に記憶された情報を利用することができるグラフ認識バリアントコーラをバリアントコールのために用いた。
図6に、全てのグラフリファレンスのための一塩基多型(SNP)、挿入及び欠失(INDEL)、並びに構造バリアント(SV)に関する全体的性能が示されている。パネル(a)及び(c)は、サンプルごとに発見されたSNP及びINDELの数をそれぞれ示す。パンゲノムグラフは、BWA+GATKパイプラインと比べて、より高い感度をもたらす様子が見られる。したがって、発明者らによって開発され、本明細書において説明される技法を用いて生成されたグラフリファレンス構築物を用いることは、従来の技法を上回るバリアントコールの改善を可能にする。
【0170】
図6のパネル(e)は、各パイプラインによって検出されたSVの数を示す(SVは、50塩基対よりも長いバリアントとして定義される)。パネル(f)には、BWA+GATK、パンゲノム、パンアフリカン0、及びパンアフリカン5パイプラインのためのSVのサイズ分布も示されている。BWA+GATKを用いる線形アプローチは大幅により低いSV検出率を有し、短いSVを検出することができるのみである様子が見られる。パンゲノムグラフは、線形アプローチを上回る著しい改善をもたらす。これは、グラフリファレンス内への代替のパスとしてのGRCh38アセンブリ内のaltコンティグの追加によって可能にされる。したがって、発明者らによって開発され、本明細書において説明される技法を用いて生成されたグラフリファレンス構築物を用いることは、より正確なバリアントコールを可能にする。異なるソースからのバリアントをマージし、マージされたバリアントをグラフリファレンス構築物内に含めることによって、得られたグラフリファレンス構築物はより正確なバリアントコールのために用いることができる。
【0171】
最後の反復の出力を最終グラフリファレンスとして用いて、パンアフリカン5パイプラインによって作成されたバリアントコール、及びBWA+GATKパイプラインによって作成されたものをより詳細に比較する。
図7は、対立遺伝子頻度に対する両方のパイプラインのための累積バリアント数を示す。バリアントは、まず、SNP及びINDEL(それぞれ、パネルA及びB)に分類され、次に、共通の(両方のパイプラインによって検出された集団)及び固有の(どちらかのパイプラインによって検出されたもの)バリアントセットに分類される。バリアントの大部分は両方のパイプラインによって検出されるため、パイプラインの間には高い一致が観察される(実線)。これらの方法の遺伝子型決定の有効性を区別するために、共通バリアントを、AF
GRAF>AF
GATK及びAF
GATK>AF
GRAF(点線)として2つのカテゴリにさらに分割する。前者は、両方の方法によって集団内で検出されたが、グラフパイプラインによってより高い感度をもって遺伝子型決定されたバリアントの数を表現する(及び後者についてはその逆である)。高い頻度(≧5%)をもって集団内で観察されたバリアントの中で、グラフパイプラインは、より高いAFをもっておよそ120k個のINDEL及び119k個のSNPを遺伝子型決定することができ、それに対して、GATKのための同じ数は106k個のINDEL及び51k個のSNPである。加えて、注目すべきは、グラフベースのアプローチは線形的方法のおよそ6倍の数の固有バリアントを識別することである。
【0172】
グラフベースのアプローチによって検出されたバリアントの潜在的な臨床的有意性を予測し、特定のゲノム領域、又は集団における広がりに向かうバリアントコール感度における任意のバイアスを除外するために、
図8に示されるように、全ての検出されたバリアントを、エクソン、イントロン、及び遺伝子間領域に層別化した。バリアントを、シングルトン(1つのサンプルのみにおいて観察される)、稀少(AF<5%、しかし、複数のサンプルにおいて観察される)、及び共通(AF≧5%)として、3つの頻度ビンにさらに分割し、結果を線形アプローチBWA+GATKと比較した。パンアフリカングラフの使用は、BWA+GATKパイプラインと比べて、全ての頻度ビンについてエクソン領域内において3~4倍より多くの高及び中影響バリアントの検出をもたらす様子が見られる(パネルF)。具体的には、グラフパイプラインによって検出された高及び中影響バリアントは、それぞれ、429個及び9457個、より多く存在する。パンアフリカングラフの使用は、BWA+GATKパイプラインと比べて、全ての頻度ビンについてエクソン領域内において3~4倍より多くの高及び中影響バリアントの検出をもたらす様子が見られる(パネルF)。具体的には、グラフパイプラインによって検出された高及び中影響バリアントは、それぞれ、429個及び9457個、より多く存在する。本例から明らかであるように、発明者らによって開発され、本明細書において説明される技法を用いて生成されたグラフリファレンス構築物を用いることは、従来の技法を上回るバリアントコールにおける感度の増大を可能にする。感度の増大は、検出されたバリアントの臨床的有意性を予測するために用いることができるより多くの高及び中影響バリアントの検出を可能にする。
【0173】
さらなる実装形態の詳細
図9に、本明細書において説明される技術の実施形態(例えば、
図2A~D及び
図4A~
図4Dを参照して説明されるプロセスなど)のうちの任意のものと関連して用いられ得るコンピュータシステム900の例示的な実装形態が示されている。コンピュータシステム900は、1つ以上のコンピュータハードウェアプロセッサ910、並びに非一時的コンピュータ可読記憶媒体を含む1つ以上の製造品(例えば、メモリ920及び1つ以上の不揮発性記憶媒体930)を含む。本明細書において説明される技術の態様はこの点に関して限定されないため、プロセッサ910は、任意の好適な仕方でメモリ920及び不揮発性記憶デバイス930へのデータの書き込み並びにそれらからのデータの読み出しを制御し得る。本明細書において説明される機能性のうちの任意のものを実行するために、プロセッサ910は、プロセッサ910による実行のためのプロセッサ実行可能命令を記憶する非一時的コンピュータ可読記憶媒体の役割を果たし得る、1つ以上の非一時的コンピュータ可読記憶媒体(例えば、メモリ920)内に記憶された1つ以上のプロセッサ実行可能命令を実行し得る。
【0174】
コンピューティングデバイス900はまた、コンピューティングデバイスが(例えば、ネットワークを通じて)他のコンピューティングデバイスと通信し得るネットワーク入力/出力(I/O(input/output))インターフェース940を含み得、また、コンピューティングデバイスが出力をユーザに提供し、入力をユーザから受け取り得る1つ以上のユーザI/Oインターフェース950を含み得る。ユーザI/Oインターフェースは、キーボード、マウス、マイクロフォン、表示デバイス(例えば、モニタ若しくはタッチスクリーン)、スピーカ、カメラ、及び/又は様々な他の種類のI/Oデバイスなどのデバイスを含み得る。
【0175】
上述の実施形態は数多くの仕方のうちの任意のもので実施され得る。例えば、実施形態は、ハードウェア、ソフトウェア、又はこれらの組み合わせを用いて実施され得る。ソフトウェアの形で実施されるときには、単一のコンピューティングデバイス内に提供されているのか、それとも複数のコンピューティングデバイスの間で分散しているのかにかかわらず、ソフトウェアコードは任意の好適なコンピュータハードウェアプロセッサ(例えば、1つ以上のマイクロプロセッサ、1つ以上のグラフィック処理装置(GPU(graphic processing unit)))又はコンピュータハードウェアプロセッサの集団上で実行され得る。加えて、又は代替的に、実施形態は、1つ以上の特定用途向け集積回路(ASIC(application specific integrated circuit))、及び/又は1つ以上のフィールドプログラマブルゲートアレイ(FPGA(field programmable gate array))を用いて実施され得る。それゆえ、実施形態は、任意の好適なコンピューティングデバイス(例えば、1つ以上のコンピュータハードウェアプロセッサ、1つ以上のASIC、及び/又は1つ以上のFPGA)を用いて実施され得る。
【0176】
この点において、本明細書において説明される実施形態の一実装形態は、1つ以上のコンピュータハードウェアプロセッサ上で実行されたとき、1つ以上の実施形態の上述の機能を実行するコンピュータプログラム(例えば、複数の実行可能命令)により符号化された少なくとも1つの非一時的コンピュータ可読記憶媒体(例えば、RAM、ROM、EEPROM、フラッシュメモリ、又は他のメモリ技術、CD-ROM、デジタルバーサタイルディスク(DVD(digital versatile disk))、又は他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、又は他の磁気記憶デバイス、或いは他の有形の非一時的コンピュータ可読記憶媒体)を備えることを理解されたい。コンピュータ可読媒体は、その上に記憶されたプログラムが、本明細書において説明される技法の態様を実施するために任意のコンピューティングデバイス上にロードされ得るよう、運搬可能であり得る。加えて、実行されたとき、上述の機能のうちの任意のものを実行するコンピュータプログラムへの言及は、ホストコンピュータ上で実行するアプリケーションプログラムに限定されないことを理解されたい。むしろ、用語、コンピュータプログラム及びソフトウェアは、本明細書において説明される技法の態様を実施するよう1つ以上のプロセッサをプログラムするべく利用することができる任意の種類のコンピュータコード(例えば、アプリケーションソフトウェア、ファームウェア、マイクロコード、又は任意の他の形態のコンピュータ命令)を指すために、本明細書において一般的な意味で使用される。
【0177】
実装形態の上述の説明は例示及び説明を提供するが、網羅的であること、又は実装形態を、開示された厳密な形に限定することを意図されていない。変更及び変形が上述の教示を考慮して可能であり、或いは実装形態の実施から獲得され得る。他の実装形態では、これらの図に示される方法は、より少数の動作、異なる動作、異なる順序の動作、及び/又は追加の動作を含み得る。さらに、依存性のないブロックは並列に実行され得る。
【0178】
用語「プログラム」又は「ソフトウェア」は、上述されたとおりの様々な態様を実施するようコンピュータ又は他のプロセッサをプログラムするべく利用することができる任意の種類のコンピュータコード、又はコンピュータ実行可能命令のセットを指すために、本明細書において一般的な意味で使用される。加えて、一態様によれば、実行されたときに本開示の方法を実行する1つ以上のコンピュータプログラムは単一のコンピュータ又はプロセッサ上に存在する必要はなく、本開示の様々な態様を実施するために、多数の異なるコンピュータ又はプロセッサの間にモジュール方式で分散し得ることを理解されたい。
【0179】
コンピュータ実行可能命令は、1つ以上のコンピュータ又は他のデバイスによって実行される、プログラムモジュールなどの、多くの形態のものであり得る。概して、プログラムモジュールは、特定のタスクを実行するか、又は特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。通例、プログラムモジュールの機能性は様々な実施形態において所望に応じて組み合わせられるか、又は分散させられ得る。
【0180】
また、データ構造は任意の好適な形式でコンピュータ可読媒体内に記憶され得る。例示を簡単にするために、データ構造は、データ構造内の場所を通じて関係付けられたフィールドを有するように示され得る。このような関係は、同様に、フィールドのためのストレージに、フィールドの間の関係を伝えるコンピュータ可読媒体内の場所を割り振ることによって達成され得る。しかし、ポインタ、タグ、又はデータ要素間の関係を確立する他の機構の使用を通じたものなど、データ構造のフィールド内の情報の間の関係を確立するために、任意の好適な機構が用いられ得る。
【0181】
ソフトウェアの形で実施されるときには、単一のコンピュータ内に提供されているのか、それとも複数のコンピュータの間で分散しているのかにかかわらず、ソフトウェアコードは任意の好適なプロセッサ又はプロセッサの集団上で実行され得る。
【0182】
さらに、コンピュータは、非限定例として、ラックマウント型コンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、又はタブレットコンピュータなどの、多数の形態のうちの任意のもので具現され得ることを理解されたい。加えて、コンピュータは、パーソナルデジタルアシスタント(PDA(Personal Digital Assistant))、スマートフォン、タブレット、又は任意の他の好適なポータブル若しくは固定電子デバイスを含む、一般的にはコンピュータと見なされないが、好適な処理能力を有するデバイス内に組み込まれ得る。
【0183】
本明細書において定義され、使用されるとおりの、全ての定義は、辞書の定義、参照により組み込まれる文献における定義、及び/又は定義された用語の通常の意味に優先することが理解されるべきである。
【0184】
不定冠詞「a」及び「an」は、本明細書及び請求項で使用する時、相反する明確な指示がない限り、「少なくとも1つ(at least one)」を意味すると理解されるべきである。
【0185】
語句「及び/又は(and/or)」は、本明細書及び請求項で使用する時、そのように等位接続された要素の「どちらか、又は両方(either or both)」、すなわち、場合によっては接続的に存在し、他の場合には離接的に存在する要素を意味すると理解されるべきである。「及び/又は」を用いて列挙された複数の要素は、同じように、すなわち、そのように等位接続された要素のうちの「1つ以上(one or more)」と解釈されるべきである。「及び/又は」節によって具体的に特定された要素以外の他の要素が、具体的に特定されたそれらの要素に関連するか、又は関連しないかにかかわらず、任意選択的に存在してもよい。それゆえ、非限定例として、「A及び/又はB」への言及は、「~を備える(comprising)」などのオープンエンドな文言と併せて使用される時、一実施形態では、Aのみ(B以外の要素を任意選択的に含む)、別の実施形態では、Bのみ(A以外の要素を任意選択的に含む)、さらに別の実施形態では、A及びBの両方(他の要素を任意選択的に含む)、等に言及することができる。
【0186】
本明細書及び請求項で使用する時、1つ以上の要素の一覧に言及する語句「少なくとも1つ(at least one)」は、要素の一覧内の要素のうちの任意の1つ以上から選択された少なくとも1つの要素を意味するが、要素の一覧内で具体的に列挙された1つ1つの要素のうちの少なくとも1つを必ずしも含むわけではなく、要素の一覧内の要素のいかなる組み合わせをも排除しないと理解されるべきである。この定義はまた、語句「少なくとも1つ」が言及する要素の一覧内で具体的に特定された要素以外の要素が、具体的に特定されたそれらの要素に関連するか、又は関連しないかにかかわらず、任意選択的に存在し得ることも許容する。それゆえ、非限定例として、「A及びBのうちの少なくとも1つ」(又は、同等に、「A又はBのうちの少なくとも1つ」、又は、同等に、「A及び/又はBのうちの少なくとも1つ」)は、一実施形態では、2つ以上を任意選択的に含む、少なくとも1つのA、ここで、Bは存在しない(及びB以外の要素を任意選択的に含む)、別の実施形態では、2つ以上を任意選択的に含む、少なくとも1つのB、ここで、Aは存在しない(及びA以外の要素を任意選択的に含む)、さらに別の実施形態では、2つ以上を任意選択的に含む、少なくとも1つのA、及び2つ以上を任意選択的に含む、少なくとも1つのB(及び任意選択的に他の要素を含む)、等に言及することができる。
【0187】
請求項において、及び上述の明細書において、「~を備える(comprising)」、「~を含む(including)」、「~を保有する(carrying)」、「~を有する(having)」、「~を包含する(containing)」、「~を伴う(involving)」、「~を保持する(holding)」、「~で構成される(composed of)」、及び同様のものなどの全ての移行句は、オープンエンドのものである、すなわち、限定するものではないが、~を含む(including but not limited to)を意味すると理解されるべきである。移行句「~から成る(consisting of)」及び「~から本質的になる(consisting essentially of)」のみがそれぞれ、クローズド又はセミクローズドの移行句とされる。
【0188】
用語「およそ(approximately)」、「実質的に(substantially)」、及び「約(about)」は、実施形態によっては、目標値の±20%以内、実施形態によっては、目標値の±10%以内、実施形態によっては、目標値の±5%以内、実施形態によっては、目標値の±2%以内を意味するために使用され得る。用語「およそ」、「実質的に」、及び「約」は目標値を含み得る。
【配列表】
【国際調査報告】