(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-13
(45)【発行日】2025-05-21
(54)【発明の名称】HLA-DPB1発現を決定するための方法およびシステム
(51)【国際特許分類】
G16B 20/20 20190101AFI20250514BHJP
C12Q 1/6869 20180101ALI20250514BHJP
C12M 1/00 20060101ALI20250514BHJP
C12N 15/12 20060101ALI20250514BHJP
C12N 15/09 20060101ALI20250514BHJP
C12Q 1/68 20180101ALI20250514BHJP
【FI】
G16B20/20
C12Q1/6869 Z
C12M1/00 A
C12N15/12
C12N15/09 Z
C12Q1/68 ZNA
(21)【出願番号】P 2022551296
(86)(22)【出願日】2021-02-22
(86)【国際出願番号】 US2021018968
(87)【国際公開番号】W WO2021173460
(87)【国際公開日】2021-09-02
【審査請求日】2023-12-08
(32)【優先日】2020-02-27
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】511172461
【氏名又は名称】ラボラトリー コーポレイション オブ アメリカ ホールディングス
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】アイヤル, ラクシュマナン クリシュナン
(72)【発明者】
【氏名】ノーベル, ブライアン マシュー
(72)【発明者】
【氏名】ウィリアムズ, ジョナサン デイビッド
【審査官】加藤 あいみ
(56)【参考文献】
【文献】特表2019-530476(JP,A)
【文献】Bianca Schone et al.,Predicting an HLA-DPB1 expression marker based on standard DPB1 genotyping: Linkage analysis of over 32,000 samples,Human Immunology,[online],Volume 79,2017年11月07日,Pages 20-27,[令和6年12月20日検索],インターネット,<URL:https://www.sciencedirect.com/science/article/pii/S0198885917305311>
【文献】検体・検査について,[online],日本,HLA研究所,2019年12月21日,[令和6年12月23日検索],インターネット,<URL:http://web.archive.org/web/20191221164654/https://hla.or.jp/person/kensa/>
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/68
C12Q 1/6869
C12M 1/00
C12N 15/12
C12N 15/09
G16B 5/00 -99/00
(57)【特許請求の範囲】
【請求項1】
対象におけるDPB1発現レベルを予測するために前記対象からのロングリード配列データを分析するためのコンピュータ実装方法であって、
(a)ロングリードシークエンサーを使用して、前記対象のサンプルからクエリ核酸配列を得るコンピュータ実装工程と、
(b)コンピュータ実装アラインメントプログラムを使用して、前記対象からの前記クエリ核酸配列を参照核酸配列にアラインメントするコンピュータ実装工程であって、前記参照核酸配列および前記クエリ核酸配列が、DPB1の少なくともエクソン3についてのロングリード配列データを含む、アラインメントするコンピュータ実装工程と、
(c)コンピュータ実装アルゴリズムを使用して、前記アラインメントされたクエリ核酸配列および前記参照核酸配列に基づいて、前記クエリ核酸配列が低レベルのDPB1発現または高レベルのDPB
1発現の特徴的な配列を有するかどうかを同定するコンピュータ実装工程
であって、前記同定するコンピュータ実装工程が、
(i)前記アラインメントされたクエリ核酸配列内のヌクレオチドと前記参照核酸配列とを比較して、前記クエリ核酸配列と前記参照核酸配列との間の差異を同定することと、
(ii)前記クエ
リ核酸配列と前記参照核酸配列との間の前記同定された差異に基づいて、DPB1の前記エクソン3中の規定された位置における前記参照核酸配列と比較したときの前記クエリ核酸配列に対する前記ヌクレオチドの同一性を決定することと、
(iii)前記エクソン3中の規定された位置における前記クエリ核酸配列に対する前記ヌクレオチドの同一性に基づいて、前記クエリ
核酸配列が弱発現モチーフに特徴的な配列もしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないことを決定することと、
(iv)前記クエリ核酸配列が前記弱発現モチーフに特徴的な配列を示す場合、前記対象をDPB1の発現レベルが低いと同定すること、または前記クエリ核酸配列が前記強発現モチーフに特徴的な配列を示す場合、前記対象をDPB1の発現レベルが高いと同定することと、
または前記クエリ核酸配列が前記弱発現モチーフに特徴的な配列および前記強発現モチーフに特徴的な配列を示さない場合、前記対象をDPB1の発現レベルが不確定であると同定すること、を含む、
同定するコンピュータ実装工程と、
(d)DPB1発現のレベルの予測に関する報告を生成するコンピュータ実装工程であって、前記DPB1発現のレベルの前記予測は、前記クエリ核酸配列が低いDPB1発現のレベルまたは高いDPB1発現のレベルに特徴的な配列を有するかどうかに基づいており、前記DPB1発現のレベルの前記予測は、ドナーを前記対象にマッチさせるための下流の処理または分析において使用される、生成するコンピュータ実装工程と
を含む、コンピュータ実装方法。
【請求項2】
エクソン3の前記規定された位置が、前記エクソンの5’末端から20、27、52、87、234、242および270の位置にある、請求項1に記載の方法。
【請求項3】
前記弱発現モチーフを、エクソン3の位置20におけるG、エクソン3の位置27におけるT、エクソン3の位置52におけるT、エクソン3の位置87におけるG、エクソン3の位置234におけるT、エクソン3の位置242におけるC、およびエクソン3の位置270におけるTを含むものとして規定することをさらに含む、請求項1または2に記載の方法。
【請求項4】
前記強発現モチーフを、エクソン3の位置20におけるA、エクソン3の位置27におけるC、エクソン3の位置52におけるC、エクソン3の位置87におけるA、エクソン3の位置234におけるC、エクソン3の位置242におけるT、およびエクソン3の位置270におけるCを含むものとして規定することをさらに含む、請求項1または2に記載の方法。
【請求項5】
エクソン3の位置20、27、52、87、234、242および270で前記ヌクレオチドが前記弱発現モチーフまたは前記強発現モチーフのいずれにも特徴的でない場合、対立遺伝子が不確定として同定される、請求項2に記載の方法。
【請求項6】
前記同定することが、
前記対象をDPB1の発現レベルが不確定であると同定することに応答して、前記規定された位置以外のエクソン3の位置における前記クエリ核酸配列と前記参照核酸配列との間の
差異を同定すること
と、
前記差異のいずれかが弱い、強い、または不確定なモチーフに連鎖しているかどうかを決定することと
をさらに含む、請求項1に記載の方法。
【請求項7】
前記報告は、エクソン、cDNA、および/またはゲノム配列内のヌクレオチドの位置を同定するために使用される実際のナンバリングとは無関係に、前記クエリ核酸配列と前記参照核酸配列との間の前記差異を含む、請求項1に記載の方法。
【請求項8】
エクソン3中の前記規定された位置以外の位置における前記クエリ核酸配列と前記参照核酸配列との間の差異の数が10より大きい場合、さらなる分析から前記クエリ
核酸配列を除外する、請求項1に記載の方法。
【請求項9】
前記クエリ核酸配列中の前記強発現モチーフがrs9277534 G対立遺伝子に連鎖されていることおよび/または前記クエリ核酸配列中の前記弱発現モチーフがrs9277534 A対立遺伝子に連鎖されていることを決定するためにコンピュータ実装連鎖分析を行うことをさらに含む、請求項1に記載の方法。
【請求項10】
前記参照核酸配列および/またはクエリ核酸配列が、前記DPB1遺伝子全体についてのロングリード配列データを含む、請求項1に記載の方法。
【請求項11】
前記参照核酸配列および/または前記クエリ核酸配列が、DRB1、DRB3およびDQB1のうちの少なくとも1つに対するロングリード配列データをさらに含む、請求項9に記載の方法。
【請求項12】
移植レシピエントにおける移植片対宿主病のリスクを低下させるために、前記結果を介護者および/または移植データベースに提供することをさらに含む、請求項1に記載の方法。
【請求項13】
エクソン3中の前記規定された位置以外の位置における前記クエリ核酸配列と前記参照核酸配列との間の差異の数が10を超える場合、前記クエリ
核酸配列に対する前記結果が介護者またはデータベースに提供されない、請求項12に記載の方法。
【請求項14】
前記対象が、造血幹細胞移植(HSCT)レシピエントに対する潜在的なドナーである、請求項1に記載の方法。
【請求項15】
システムであって、
1またはそれを超えるデータプロセッサと、
前記1またはそれを超えるデータプロセッサ上で実行されると、前記1またはそれを超えるデータプロセッサに、対象からの配列データを分析して、前記対象におけるDPB1発現レベルを予測することを含む動作を行わせる命令を含む、非一時的コンピュータ可読記憶媒体であって、
請求項1~14のいずれかにおけるコンピュータ実装工程を含む、非一時的コンピュータ可読記憶媒体と、を含む、システム。
【請求項16】
1またはそれを超えるデータプロセッサに、対象からの配列データを分析して、前記対象におけるDPB1発現レベルを予測することを含む動作を行わせるように構成された命令
であって、請求項1~14のいずれかにおけるコンピュータ実装工程を含む命令を含む、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製
品。
【発明の詳細な説明】
【技術分野】
【0001】
優先権主張
本出願は、2020年2月27日に出願された米国仮出願第62/982,286号に基づく利益および優先権を主張しており、この米国出願は、その全体があらゆる目的のために参照により本明細書に援用される。
【0002】
分野
本開示は、移植ドナーおよびレシピエントをマッチさせるために使用されるHLAタイピングのためのDPB1発現を決定するための方法およびシステムに関する。
【背景技術】
【0003】
非血縁ドナーからの造血幹細胞移植(HSCT)は、様々な血液障害を治癒することができるが、高レベルのドナー-レシピエントHLA適合性が成功のために重要である。現在、HLA-A、-B、-C、-DRB1、DRB3およびDQB1対立遺伝子のマッチングが、絶対的基準である。HLA-DPB1も同様に考慮されることが多いが、他のHLA遺伝子からの遺伝的距離は、この遺伝子座における頻繁なミスマッチをもたらす。しかしながら、ミスマッチした場合、HLA-DPB1発現レベルは、造血幹細胞移植において重要な役割を果たし得る。研究により、HLA-DPB1についての発現レベルのミスマッチを有するドナーおよびレシピエントは、移植片対宿主病(GvHD)を発症する可能性がより高いことが示されている。
【0004】
特に、HLA-DPB1の発現レベルは、DPB1の3’非翻訳領域(Untranslated Region:UTR)に位置するA→G一塩基多型(Single Nucleotide Polymorphism:SNP)、rs9277534と相関し得ることが見出された(Thomasら、J.Virol.、86:6979-85(2012))。「A」対立遺伝子は弱いDPB1発現に関連し、「G」対立遺伝子は強いDPB1発現に関連する(Petersdorfら、New Engl.J.Med.373:599-609(2015))。研究は、rs9277534 A→G多型がDPB1エクソン3の7つの特異的ヌクレオチドのバリアントに密接に連鎖(link)されていることを示す(例えば、Schoneら、Human Immunol.、79:20-27(2018)を参照されたい)。
【0005】
HLA-DPB1ミスマッチに関連するGvHDのリスクは、HLA-DPB1 rs9277534発現マーカーによって影響される。低発現対立遺伝子(rs277534A)を有するドナーからのHLA-DPB1ミスマッチ移植(例えば、エクソン2のミスマッチまたは他のミスマッチ)のレシピエントでは、高強発現対立遺伝子を有するレシピエントは急性GvHDのリスクが高い(Petersdorfら、(2015))。しかしながら、rs9277534を含有する3’UTRは、HLA-DPB1についての日常的な遺伝子型判定アッセイによって現在網羅されておらず、発現アッセイは日常的に行われていない。
したがって、適切なドナー:レシピエント対を同定するための手段として配列決定されたサンプルについてHSCT移植患者のDPB1発現を特徴付ける方法を開発する必要がある。
【先行技術文献】
【非特許文献】
【0006】
【文献】Thomasら、J.Virol.、86:6979-85(2012)
【文献】Petersdorfら、New Engl.J.Med.373:599-609(2015)
【文献】Schoneら、Human Immunol.、79:20-27(2018)
【発明の概要】
【課題を解決するための手段】
【0007】
本開示の実施形態は、DPB1発現レベルを予測するためにロングリード配列データを分析するための方法およびシステムを含む。特定の実施形態では、方法およびシステムはコンピュータ実装される。本開示の方法および/またはシステムの実施のためのコンピュータプログラム製品も開示される。1つの実施形態では、開示される方法およびシステムは、HSCTドナー-レシピエント適合性を決定するために有用である。方法およびシステムは、rs9277534の配列の決定またはmRNAもしくはタンパク質レベルとしてのDPB1発現の測定を必要としない。
【0008】
例えば、1つの実施形態では、対象におけるDPB1発現レベルを予測するために対象由来の配列データを分析するためのコンピュータ実装方法であって、
(a)ロングリードシークエンサーを使用して、対象のサンプルからクエリ核酸配列を得るコンピュータ実装工程と、
(b)コンピュータ実装アラインメントプログラムを使用して、対象からのクエリ核酸配列を参照核酸配列にアラインメントするコンピュータ実装工程であって、参照核酸配列およびクエリ核酸配列が、DPB1の少なくともエクソン3についてのロングリード配列データを含む、アラインメントするコンピュータ実装工程と、
(b)コンピュータ実装アルゴリズムを使用して、アラインメントされたクエリ核酸配列および参照核酸配列に基づいて、クエリ核酸配列が低レベルのDPB1発現または高レベルのDPBI発現の特徴的な配列を有するかどうかを同定するコンピュータ実装工程と、を含み、同定するコンピュータ実装工程が、
(i)アラインメントされたクエリ核酸配列内のヌクレオチドと参照核酸配列とを比較して、クエリ核酸配列と参照核酸配列との間の差異を同定することと、
(ii)クエリ配列核酸配列と参照核酸配列との間の同定された差異に基づいて、DPB1のエクソン3中の規定された位置における参照核酸配列と比較したときのクエリ核酸配列に対するヌクレオチドの同一性を決定することと、
(iii)エクソン3中の規定された位置におけるクエリ核酸配列に対するヌクレオチドの同一性に基づいて、クエリ配列が弱発現モチーフに特徴的な配列もしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないことを決定することと、
(iv)クエリ核酸配列が弱発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが低いと同定すること、またはクエリ核酸配列が強発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが高いと同定することと、を含む、コンピュータ実装方法が提供される。
【0009】
いくつかの実施形態では、1またはそれを超えるデータプロセッサと、1またはそれを超えるデータプロセッサ上で実行されると、1またはそれを超えるデータプロセッサに、本明細書に開示される1またはそれを超える方法またはプロセスの一部または全部を実行させる命令を含む非一時的コンピュータ可読記憶媒体と、を含むシステムが提供される。
【0010】
いくつかの実施形態では、非一時的機械可読記憶媒体に有形に具現化され、1またはそれを超えるデータプロセッサに、本明細書に開示された1またはそれを超える方法の一部または全部を実行させるように構成された命令を含むコンピュータプログラム製品が提供される。
【0011】
使用された用語および表現は、限定ではなく説明の用語として使用され、そのような用語および表現の使用において、示され説明された特徴またはその一部の均等物を除外する意図はないが、特許請求される発明の範囲内で様々な修正が可能であることが認識される。したがって、本開示は実施形態および任意選択の特徴によって具体的に開示されているが、本明細書に開示された概念の変形および変形は当業者によって使用されてもよく、そのような修正および変形は、添付の特許請求の範囲によって規定される本開示の範囲内にあると見なされることを理解されたい。
【0012】
本開示は、以下の非限定的な図によってよりよく理解され得る。
【図面の簡単な説明】
【0013】
【
図1】
図1は、本開示の実施形態による、rs9277534 A対立遺伝子および弱発現ならびにrs9277534 G対立遺伝子および強発現に関連するDPB1 cDNA中の配列を示す。
【
図2】
図2は、rs9277534 G対立遺伝子および強発現に関連するハプロタイプ01:01:01:01(配列番号1)についてのヌクレオチドバリエーションDPB1 cDNAならびにrs9277534 A対立遺伝子および弱発現に関連するハプロタイプ02:01:02:01(配列番号2)についてのDPB1 cDNAにおける配列を示す。
【
図3】
図3は、本開示の様々な実施形態による、エクソン3モチーフを同定するための本開示の方法の使用を示す。クエリプラス鎖(Qry+)配列(配列番号4)は、エクソン3の位置20、27、52、87、234、242および270ならびに他のバリエーション(点線の長方形)に強発現モチーフ(実線の長方形)の配列を有し、参照プラス鎖配列(Ref+)(配列番号3)は、弱発現モチーフを有する。この図では、シークエンシングアラインメントは、エクソン3の第4のヌクレオチドで開始する。
【
図4】
図4は、本開示の様々な実施形態による、エクソン3モチーフを同定するための本開示のアルゴリズムの使用を示す。クエリプラス鎖(Qry+)(配列番号5)配列は、位置20、27、52、87、234、242および270ならびに他のバリエーション(点線の長方形)に弱発現モチーフ(実線の長方形)の配列を有する。参照プラス鎖配列(Ref+)(配列番号3)は、
図3と同じ参照配列であり、弱発現モチーフも有する。この図では、シークエンシングアラインメントはエクソン3の第4のヌクレオチドで開始する。
【
図5】
図5は、強発現および弱発現に関連するDPB1エクソン3モチーフを決定するための本開示の方法の実施形態を示す。
【
図6】
図6は、強発現および弱発現に関連するDPB1エクソン3モチーフを決定するための本開示の方法の別の実施形態を示す。
【
図7】
図7は、本開示の一実施形態による、エクソン3のDPB1 34:01(弱発現および
図3のRef+配列)(配列番号3)およびDPB1 01:01(強発現)(配列番号6)配列の比較を示す。エクソン3の位置7、20、27、52、87、234、242、270のみが、参照(Ref+)とクエリ(Qry+)との間の差異を示すことが分かる。図の上部に提示されているConcise Idiosyncratic Gapped Alignment Report(CIGAR)は、このアラインメントがさらなる分析のためのアルゴリズムにおいてどのように報告されるかを示している。
【
図8】
図8は、本開示の一実施形態によるエクソン3のDPB1 34:01(弱発現)(配列番号3)配列とDPB1 02:01(弱発現)(配列番号7)配列の比較を示す。エクソン3の位置7、20、27、52、87、234、242、270(および他のエクソン位置)について、正確なマッチがあることが分かるであろう。図の上のCIGAR文字列は、このアラインメントがさらなる分析のためにアルゴリズムでどのように報告されるであろうかを示す。
【
図9】
図9は、5つの強い配列および5つの弱い配列を示す、本開示の様々な実施形態による方法を使用して分析された様々な配列のCIGARとしての出力を示す図である。弱い配列の1つは、DPB1エクソン3の位置243にバリアントを有する。
【
図10】
図10は、位置243にバリアントを示す本開示の一実施形態による、
図9のcs:z::242*ct:59弱い配列(配列番号8)についての参照(Ref+)(配列番号3)と比較した配列アラインメントを示す。
【
図11】
図11は、本開示の様々な実施形態による例示的なコンピューティングデバイスを示す。
【
図12】
図12は、RSII SMRTcellを使用して得られた本開示の様々な実施形態による方法およびシステムの追加の結果を示す。
【
図13】
図13は、Sequel SMRTcellを用いて得られた本開示の様々な実施形態による方法およびシステムの追加の結果を示す。88個のサンプル中の合計299個のモチーフが得られた。
【
図14】
図14は、本開示の一実施形態によるHLA遺伝子DRB1、DRB3、DQB1およびDPB1についての結果の視覚的表示を示す。133個のリードを有する02:01:026配列は弱いと特徴づけられ、383個のリードを有する0:3:01:01G配列は、強発現SNPと相関するエクソン3中の規定された位置に7個のミスマッチを有し、強いと特徴づけられる。
【
図15】
図15は、本開示の一実施形態による合計31,274個のDPB1配列が分析されたことを示し、そのうち10,774個は、「強」とタイプ分けされ、20,369個は、「弱」とタイプ分けされ、131個は、「未決定」とタイプ分けされた。
【
図16】
図16は、本開示の一実施形態による、弱い参照に対するユニークバリアントが生じるエクソン3の位置のプロットを示す。
【発明を実施するための形態】
【0014】
以下の説明は、好ましい例示的な実施形態のみを提供し、本開示の範囲、適用性または構成を限定することを意図しない。むしろ、好ましい例示的な実施形態の以下の説明は、様々な実施形態を実施するための可能な説明を当業者に提供する。添付の特許請求の範囲に記載の趣旨および範囲から逸脱することなく、要素の機能および配置に様々な変更を加えることができることが理解される。
【0015】
以下の説明では、実施形態の完全な理解を提供するために具体的な詳細が示されている。しかしながら、これらの具体的な詳細なしで実施形態を実施することができることが理解されよう。例えば、回路、システム、ネットワーク、プロセス、および他のコンポーネントは、実施形態を不必要に詳細に不明瞭にしないために、ブロック図形式のコンポーネントとして示されてもよい。他の例では、実施形態を不明瞭にすることを避けるために、周知の回路、プロセス、アルゴリズム、構造、および技術を不必要な詳細なしで示すことができる。
【0016】
定義
本開示がより容易に理解されるように、特定の用語が最初に定義される。以下の用語および他の用語の追加の定義は、本明細書全体に記載されている。
【0017】
本開示の広い範囲を示す数値範囲およびパラメータは近似値であるにもかかわらず、特定の例に示される数値は可能な限り正確に報告される。しかしながら、任意の数値は、それぞれの試験測定値に見られる標準偏差から必然的に生じる特定の誤差を本質的に含む。さらに、本明細書に開示されるすべての範囲は、その中に包含されるありとあらゆる部分範囲を包含すると理解されるべきである。例えば、「1~10」と記載された範囲は、最小値1と最大値10との間(およびそれらを含む)のありとあらゆる部分範囲を含むと見なされるべきである。すなわち、1またはそれを超える最小値、例えば1~6.1で始まり、10またはそれ未満の最大値、例えば5.5~10で終わるすべての部分範囲である。さらに、「本明細書に組み込まれる」と言及される任意の参照は、その全体が組み込まれると理解されるべきである。
【0018】
本明細書で使用される場合、単数形「a」、「an」、および「the」は、1つの指示対象に明示的かつ明確に限定されない限り、複数の指示対象を含むことにさらに留意されたい。「および/または」という用語は、一般に、少なくとも一方または他方を指すために使用される。場合によっては、「および/または」という用語は、「または」という用語と互換的に使用される。「含む」という用語は、本明細書では、「含むがこれらに限定されない」という語句を意味するために使用され、これと互換的に使用される。「など」という用語は、本明細書では、「など、ただしこれらに限定されない」という語句を意味するために使用され、これと互換的に使用される。
【0019】
他に定義されない限り、本明細書で使用されるすべての技術用語および科学用語は、当業者によって一般的に理解されるのと同じ意味を有する。
【0020】
また、本明細書で使用される場合、「少なくとも1つ」は、1から群全体までの任意の数を意図する。例えば、4つのバリアントのリストについて、「少なくとも1つ」という語句は、1、2、3または4つのバリアントを意味すると理解される。同様に、10個のバリアントのリストについて、「少なくとも5つ」という語句は、5、6、7、8、9、または10個のバリアントを意味すると理解される。
【0021】
また、本明細書で使用される場合、「含む(comprising)」は、「からなる(consisting of)」という用語を使用してより詳細に定義される実施形態を含む。
【0022】
また、本明細書で使用される場合、「実質的に(substantially)」、「およそ(approximately)」、および「約(about)」という用語は、当業者によって理解されるように、大部分が特定されるものであるが、必ずしも完全には特定されないもの(および完全に特定されるものを含む)として定義される。任意の開示された実施形態では、「実質的に」、「およそ」、または「約」という用語は、指定されたものの「[パーセンテージ]以内」で置き換えることができ、パーセンテージは、0.1、1、5、および10%を含む。
【0023】
本明細書で使用される場合、動作が何かに「基づく」場合、これは、動作が何かの少なくとも一部に少なくとも部分的に基づくことを意味する。
【0024】
活性:本明細書で使用される場合、「活性」という用語は、遺伝子の発現レベルを指す。例えば、DPB1活性は、DPB1 mRNAおよび/またはタンパク質のレベルを指す。
【0025】
対立遺伝子:本明細書で使用される場合、「対立遺伝子」という用語は、同じ遺伝子座(例えば、遺伝子)のヌクレオチド配列の異なるバージョンを指す。
【0026】
コード配列:本明細書で使用される場合、「コード配列」という用語は、転写および/または翻訳されて、ポリペプチドまたはその断片のmRNAを産生することができる核酸もしくはその相補体、またはその一部の配列を指す。コード配列は、ゲノムDNAまたは未成熟一次RNA転写物中のエクソンを含み、それらは細胞の生化学的機構によって一緒に結合して成熟mRNAを提供する。アンチセンス鎖は、そのような核酸の相補体であり、そこからコード化配列を推定することができる。本明細書で使用される場合、「非コード配列」という用語は、インビボでアミノ酸に転写されない、またはtRNAが相互作用してアミノ酸を配置したり配置しようとしたりしない核酸もしくはその相補体またはその一部の配列を指す。非コード配列には、ゲノムDNAまたは未成熟一次RNA転写物中のイントロン配列と、プロモーター、エンハンサー、サイレンサーなどの遺伝子関連配列の両方が含まれる。
【0027】
コンティグ:本明細書で使用される場合、「コンティグ」という用語は、同一の完全または部分的に重複するDNAシークエンシングリードのセットから組み立てられたDNAの領域のコンセンサス配列を表すDNA配列を指す。いくつかの場合、シークエンシングリードは次世代シークエンシング反応から作製される。
【0028】
欠失:本明細書で使用される場合、「欠失」という用語は、天然に生じる核酸から1またはそれを超えるヌクレオチドを除去する突然変異を包含する。
【0029】
エクソン:本明細書で使用される場合、「エクソン」という用語は、RNAの他の部分(例えば、イントロンとして公知の介在領域)がRNAスプライシングによって除去された後に成熟またはプロセシングされたRNAに見られる核酸配列を指す。したがって、エクソン配列は、一般に、タンパク質またはタンパク質の一部をコードする。イントロンは、RNAスプライシングによって周囲のエクソン配列から除去されるRNAの部分である。
【0030】
発現および発現RNA:本明細書で使用される場合、発現RNAは、タンパク質またはポリペプチドをコードするRNA(「コードRNA」)、および転写されるが翻訳されない任意の他のRNA(「非コードRNA」)である。「発現」という用語は、本明細書では、ポリペプチドがDNAから産生されるプロセスを意味するために使用される。このプロセスは、遺伝子のmRNAへの転写およびこのmRNAのポリペプチドへの翻訳を含む。使用される文脈に応じて、「発現」は、RNA、タンパク質またはその両方の産生を指し得る。本明細書で使用される場合、DPB1の「強」発現は、弱発現よりも1.5~2倍程度大きい発現レベルを含む(例えば、Petersdorfら、(2015)を参照されたい)。
【0031】
遺伝子:本明細書で使用される場合、「遺伝子」という用語は遺伝の単位を指す。一般に、遺伝子は、タンパク質または機能性RNAをコードするDNAの一部である。遺伝子は、遺伝の単位に対応するゲノム配列の配置可能な領域である。遺伝子は、調節領域、転写領域、および/または他の機能的配列領域に関連し得る。
【0032】
遺伝子型:本明細書で使用される場合、「遺伝子型」という用語は、生物の遺伝的構成を指す。より具体的には、この用語は、個体に存在する対立遺伝子の同一性を指す。個体またはDNAサンプルの「遺伝子型決定」は、既知の多型部位において個体が有する2つの対立遺伝子の性質をヌクレオチド塩基に関して同定することを指す。
【0033】
ヘテロ接合:本明細書で使用される場合、「ヘテロ接合」という用語は、同じ遺伝子の2つの異なる対立遺伝子を有する個体を指す。本明細書で使用される場合、「ヘテロ接合」という用語は、「複合ヘテロ接合」または「複合ヘテロ接合変異体」を包含する。本明細書で使用される場合、「複合ヘテロ接合」という用語は、2つの異なる対立遺伝子を有する個体を指す。本明細書で使用される場合、「複合ヘテロ接合変異体」という用語は、対立遺伝子の2つの異なるコピーを有する個体を指し、そのような対立遺伝子は遺伝子の変異形態として特徴付けられる。
【0034】
ホモ接合:本明細書で使用される場合、「ホモ接合」という用語は、同じ対立遺伝子の2つのコピーを有する個体を指す。本明細書で使用される場合、「ホモ接合変異体」という用語は、同じ対立遺伝子の2つのコピーを有する個体を指し、そのような対立遺伝子は、遺伝子の変異形態として特徴付けられる。
【0035】
挿入または付加:本明細書で使用される場合、「挿入」または「付加」という用語は、天然に生じる分子と比較して、それぞれ1またはそれを超えるアミノ酸残基またはヌクレオチドの付加をもたらすアミノ酸またはヌクレオチド配列の変化を指す。
【0036】
ロングリードシークエンシング:本明細書で使用される場合、「ロングリードシークエンシング」は、第三世代シークエンシングとも呼ばれ、一度に10,000塩基対~100,000塩基対のDNAのロングリード配列のヌクレオチド配列を決定することができるDNAシークエンシング技術である。これにより、他のDNAシークエンシング技術で通常必要とされるDNAを切断し、次いで増幅する必要がなくなる。ロングリードシークエンシングはまた、DPB1のエクソン2と3との間の明確な連鎖を可能にする。ショートリードシークエンシングは、しばしばフェージングを失い、強いまたは弱いモチーフを適切なエクソン2に連鎖することができない。
【0037】
ロングリード配列:本明細書で使用される場合、「ロングリード配列」は、よりショートリード技術で必要とされるフェージングの排除を可能にする、PCRアンプリコンなどの単一分子の連続リードである。
【0038】
突然変異および/またはバリアント:本明細書で使用される場合、「突然変異」および「バリアント」という用語は、核酸またはタンパク質の配列変化を説明するために交換可能に使用される。本明細書で使用される「変異体」という用語は、遺伝子の変異型または潜在的に非機能的な形態を指す。この用語は、当技術分野で知られているように、点突然変異から大きな染色体再編成まで遺伝子を機能しないようにする任意の突然変異を含む。
【0039】
核酸:本明細書で使用される場合、「核酸」という用語は、デオキシリボ核酸(DNA)またはリボ核酸(RNA)などのポリヌクレオチドを指す。この用語は、一本鎖核酸、二本鎖核酸、mRNA、ならびにヌクレオチドまたはヌクレオシド類似体から作製されたRNAおよびDNAを含むために使用される。
【0040】
多型:本明細書で使用される場合、「多型」という用語は、遺伝子またはその一部の2つ以上の形態の共存を指す。
【0041】
クエリ配列:本明細書で使用される場合、「クエリ配列」または「クエリ」または「Qry」という用語は、未知の配列内容の分析のために既知の配列と比較される特徴づけられていない核酸コンセンサス配列を指す。配列は、ゲノムDNAまたはメッセンジャーRNA(cDNA)またはリボ核酸(RNA)から増幅されたコピーDNAなどのデオキシリボ核酸であり得る。1つの実施形態では、配列はゲノムDNAである。
【0042】
参照配列:本明細書で使用される場合、「参照配列」または「参照」または「Ref」という用語は、クエリまたは未知の配列の分析のための標準として使用される既知の配列を指す。配列は、ゲノムDNAまたはメッセンジャーRNA(cDNA)またはリボ核酸(RNA)から増幅されたコピーDNAなどのデオキシリボ核酸であり得る。1つの実施形態では、配列はゲノムDNAである。
【0043】
サンプル:本明細書で使用される場合、「サンプル」という用語は、核酸を単離することができる任意の種類の適切な生物学的検体またはサンプル(例えば、試験サンプル)を指す。生物学的検体またはサンプルは、対象またはその一部(例えば、ヒト対象、妊婦、胎児)から単離されるかまたは得られる任意の検体またはサンプルであり得る。検体またはサンプルの非限定的な例としては、限定されないが、血液または血液製剤(例えば、血清、血漿など)、臍帯血、絨毛膜羊水、脳脊髄液、髄液、洗浄液(例えば、気管支肺胞、胃、腹膜、管、耳、関節鏡)、生検サンプル(例えば、着床前胚から)、腹腔穿刺サンプル、細胞(血球、胎盤細胞、胚または胎児細胞、胎児有核細胞または胎児細胞残骸)またはその一部(例えば、ミトコンドリア、核、抽出物など)、女性生殖管洗浄、尿、便、痰、唾液、鼻粘膜、前立腺液、洗浄液、精液、リンパ液、胆汁、涙、汗、母乳、乳汁などまたはそれらの組み合わせを含む、対象からの流体または組織が挙げられる。
【0044】
センス鎖対アンチセンス鎖:本明細書で使用される場合、「センス鎖」という用語は、機能性タンパク質のコード配列の少なくとも一部を含む二本鎖DNA(dsDNA)の鎖を指す。本明細書で使用される場合、「アンチセンス鎖」という用語は、センス鎖の逆相補体であるdsDNAの鎖を指す。本明細書で使用される場合、プラス鎖または+鎖はセンス鎖である。本明細書で使用される場合、「+」はセンス鎖を指し、「-」はアンチセンス鎖を指す。
【0045】
対象または個体または患者:本明細書で使用される場合、「対象」または「個体」という用語は、ヒトまたは任意の非ヒト動物を指す。対象または個体は、疾患の診断または処置のために医療提供者に提示するヒトを指す患者であってよく、場合によっては、疾患は造血幹細胞移植を必要とする。また、本明細書で使用される場合、用語「個体」、「対象」または「患者」は、全ての温血動物を含む。
【0046】
DPB1発現レベルを予測するために配列データを分析する方法
HLA-DPB1発現は、造血幹細胞移植において重要な役割を果たすことが示されている。研究により、HLA-DPB1についての発現レベルのミスマッチを有するドナーおよびレシピエントは、移植片対宿主病を発症する可能性がより高いことが実証されている。本開示の実施形態は、DPB1発現レベルを予測するために配列データを分析するための方法を含む。この方法は、ドナーデータベースを評価して、移植を必要とする個体に対するマッチを見出すために、または参照研究室でのHLAタイピングのためのシークエンシング中に使用され得る。1つの実施形態では、移植は造血幹細胞移植である。特定の実施形態では、工程の少なくともいくつかはコンピュータ実装されてもよい。
【0047】
この方法は、HLAハプロタイピング分析の一部としてDPB1の発現レベルを決定する必要性を解決することができる。HLAハプロタイピングのためのDPB1配列の分析は、DPB1エクソン2のみに基づいていることが多く、そのため、エクソン2の外側にある配列を含まない(すなわち、エクソン1、3、4および5、上流および/または下流配列、調節配列、エピジェネティック配列、イントロンなど)。しかし、エクソン2の多型がDPB1活性に関連するという示唆はない。代わりに、DPB1の3’UTRにおけるマーカーrs9277534がHLA-DPB1発現を遺伝的に制御し、エクソン3内の7つの特異的塩基対がマーカーrs9277534の単一ヌクレオチドバリアント(発現レベルを決定する単一ヌクレオチドバリアント)を予測することができることが発見された。したがって、ロングリードシークエンシングによって得られた配列データを使用してエクソン3内のこれらの7つの明確に規定された位置を分析することにより、HLA-DPB1発現を予測することができる。
図1は、rs9277543マーカーを予測するエクソン3中の位置および塩基を有するDPB1遺伝子構造を示す。このマーカーにおける単一ヌクレオチドバリアントは、DPB1発現レベルを制御する。
図2は、弱発現配列を示すDPB1*04:01:01:01についてのエクソン3配列および強発現配列を示すDPB1*01:01:01:01を示す。
【0048】
様々な実施形態では、DPB1エクソン3の配列、特にDPB1活性に関連するヌクレオチドバリエーションを決定することを含む方法が提供される。1つの実施形態ではDPB1活性に関連するDPB1エクソン3内の7つの明確に規定された位置を分析する方法が開示される。配列は、ロングリードまたはショートリードのシークエンシング実験の一部として構築されるコンティグであり得る。いくつかの実施形態では、シークエンシングは、ロングリードシークエンシングなどの次世代シークエンシング(NGS)によって行われる。したがって、ある特定の実施形態では、上記方法は、HLA-DPB1発現を予測するために使用される場合がある。方法はまた、移植拒絶および/または移植片対宿主病(GvHD)を予測するために使用され得る。特定の実施形態では、方法およびシステムは、バイオインフォマティクスを使用して、ドナーおよび患者のNGSデータ(例えば、ロングリード配列)のエクソン3配列を分析し、各HLA-DPB1対立遺伝子の発現レベルを予測する。
【0049】
例えば、1つの実施形態では、対象からのロングリード配列データを分析して、対象におけるDPB1発現レベルを予測するための方法が提供され、この方法は、
(a)ロングリードシークエンサーを使用して、対象のサンプルからクエリ核酸配列を得る工程と、
(b)コンピュータ実装アラインメントプログラムを使用して、対象からのクエリ核酸配列を参照核酸配列にアラインメントする工程であって、参照核酸配列およびクエリ核酸配列が、DPB1の少なくともエクソン3についてのロングリード配列データを含む、アラインメントする工程と、
(c)コンピュータ実装アルゴリズムを使用して、アラインメントされたクエリ核酸配列および参照核酸配列に基づいて、クエリ核酸配列が低レベルのDPB1発現または高レベルのDPBI発現の特徴的な配列を有するかどうかを同定する工程と、を含み、同定する工程が、
(i)アラインメントされたクエリ核酸配列内のヌクレオチドと参照核酸配列とを比較して、クエリ核酸配列と参照核酸配列との間の差異を同定することと、
(ii)クエリ配列核酸配列と参照核酸配列との間の同定された差異に基づいて、DPB1のエクソン3中の規定された位置における参照核酸配列と比較したときのクエリ核酸配列に対するヌクレオチドの同一性を決定することと、
(iii)エクソン3中の規定された位置におけるクエリ核酸配列に対するヌクレオチドの同一性に基づいて、クエリ配列が弱発現モチーフに特徴的な配列もしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないことを決定することと、
(iv)クエリ核酸配列が弱発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが低いと同定すること、またはクエリ核酸配列が強発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが高いと同定することと、を含む。
【0050】
1つの実施形態では、方法は、対象に対するクエリ配列を決定する工程をさらに含む。例えば、クエリ配列は、ロングリードシークエンシングなどの次世代シークエンシング実験の一部として生成された(工程(b)の前に)ロングリード配列データから得られ得る。または、核酸シークエンシングの別の方法が使用され得る。
【0051】
様々な実施形態において、方法の工程の少なくともいくつかはコンピュータ実装される。例えば、1つの実施形態では、工程(a)、(b)、(c)、またはそれらの任意の組み合わせがコンピュータ実装される。特定の実施形態では、方法の工程は、本明細書で詳細に説明するように、ロングリードシークエンサーを使用し、コンピュータ実装アラインメントプログラムを使用し、コンピュータ実装アルゴリズムを使用して実装される。いくつかの例では、ロングリードシークエンサーは、コンピュータ実装アラインメントプログラムおよび/またはコンピュータ実装アルゴリズムを含み得る。他の例では、ロングリードシークエンサーは、コンピュータ実装アラインメントプログラムおよび/またはコンピュータ実装アルゴリズムとは別個であり、コンピュータ実装アラインメントプログラムおよび/またはコンピュータ実装アルゴリズムは、1またはそれを超える専用コンピューティングデバイスに実装される。
【0052】
1つの実施形態では、方法は、DPB1発現モチーフおよび/または対象にとって関心対象の他の部位について個々の対立遺伝子を同定することをさらに含む。
【0053】
配列データは、DPB1のエクソン3に対する配列に加えてデータを含み得る。1つの実施形態では、配列データは、ロングリード配列データである。データは、DPB1遺伝子のゲノムシークエンシングを包含し得る。データは、DRB1、DRB3および/またはDQB1遺伝子のゲノムシークエンシングをさらに含み得る。1つの実施形態では、配列データはDPB1の3’UTRを含まない。また、1つの実施形態では、配列データはrs9277534の配列を含まない。1つの実施形態では、データは、任意の骨髄登録所からの配列データ、または登録所もしくは移植センターに提出するために生成されたデータである。
【0054】
アラインメントは、様々な異なる方法によって実行されてもよい。1つの実施形態、および本明細書の例で使用されるアラインメントは、プログラムMinimap2(Heng Li、Bioinformatics、34(18)、2018、3094-3100)を使用して実行される。Minimap2は、Cプログラミング言語で実装され、CおよびPythonの両方のAPIを伴う。それはMITライセンスの下で配布され、商業的使用と学術的使用の両方に自由である。当技術分野で知られているように、Minimap2は、ほとんどの全ゲノムアライナに典型的なシード-チェーン-アライン手順に従う。本質的に、プログラムは、参照配列のミニマイザを収集し、ミニマイザをハッシュテーブルにインデックスする。次いで、各クエリ配列について、ミニマイザのハッシュおよび位置のリストである値を使用して、Minimap2はクエリミニマイザをシードとして取り、参照との完全マッチ(すなわち、アンカー)を見つけ、共線形アンカーのセットをチェーンとして識別する。ベースレベルのアラインメントのために、minimap2は、動的プログラミング(DP)を適用して、チェーンの端部から延在し、チェーン内の隣接するアンカー間の領域(例えば、Heng Li、Bioinformatics、34(18)、2018、3094-3100を参照のこと)を閉じてアラインメントを生成することができる。使用され得る他の方法としては、BLASR(v1.MC.rc64;Chaisson and Tesler、2012年)、BWA-MEM(v0.7.15;Li、2013)、GraphMap(v0.5.2;Sovicら、2016)、Kart(v2.2.5;LinおよびHsu、2017)、minialign(v0.5.3;github.comのウェブで入手可能)およびNGMLR(v0.2.5;Sedlazeckら、2018)が挙げられる。
【0055】
1つの実施形態では、開示される方法は、弱発現モチーフを以下:エクソン3の位置20におけるG、エクソン3の位置27におけるT、エクソン3の位置52におけるT、エクソン3の位置87におけるG、エクソン3の位置234におけるT、エクソン3の位置242におけるC、およびエクソン3の位置270におけるTを含むものとして規定することをさらに含み得る。さらにおよび/またはあるいは、開示される方法は、強発現モチーフを、エクソン3の位置20におけるA、エクソン3の位置27におけるC、エクソン3の位置52におけるC、エクソン3の位置87におけるA、エクソン3の位置234におけるC、エクソン3の位置242におけるT、およびエクソン3の位置270におけるCを含むものとして規定することをさらに含み得る。方法は、強発現モチーフがrs9277534 G対立遺伝子に連鎖されているか、および/または弱発現モチーフがrs9277534 A対立遺伝子に連鎖されているかを決定することをさらに含み得る。他の実施形態では、エクソン3の位置20、27、52、87、234、242および270のヌクレオチドが弱発現モチーフまたは強発現モチーフのいずれにも特徴的でない場合、開示される方法は、対立遺伝子を不確定として規定することを含み得る。
【0056】
開示される方法は、DPB1エクソン3の他の位置におけるクエリ配列と参照配列との間の任意の差異を決定することをさらに含み得る。例えば、参照配列および/またはクエリ配列は、DPB1遺伝子全体の配列データを含み得る。さらにおよび/またはあるいは、開示された方法は、クエリ配列と参照配列との間の任意の他の差異を決定すること(例えば、DPB1の他のエクソンおよび/またはHLA-A、-B、-C、DRB1、DRB3および/またはDQB1などの関心対象の他のHLA遺伝子)をさらに含み得る。例えば、参照配列およびクエリ配列は、DRB1、DRB3、およびDQB1のうちの少なくとも1つのための配列データをさらに含むことができる。また、この方法は、DPB1エクソン3および/またはDPB1遺伝子の他の領域中の他のバリアントが、強発現に関連するrs9277534 G対立遺伝子および/または弱発現に関連するrs9277534 A対立遺伝子に連鎖されているかどうかを決定することを含み得る。1つの実施形態では、この追加のデータは、介護者または移植データベースに提出され得る。このようにして、DPB1発現に関連する追加のバリアントを、DPB1発現レベルの指標として使用するために評価することができる。
【0057】
1つの実施形態では、追加の配列データは、DPB1エクソン3の配列でコンパイルされる。例えば、他の配列とDPB1エクソン3の活性プロファイルとの連鎖は、移植レシピエントにおけるGvHDの基礎をさらに特徴付けるのに有用であり得る。
【0058】
いくつかの実施形態では、DPB1エクソン3における位置20、27、52、87、234、242および270以外の位置でのクエリ配列と参照配列との間の差異の数が所定の数(例えば、10)よりも大きい場合、そのクエリ配列はさらなる分析から除外される。例えば、これは、分析されている配列が実際にはDPB1ではなく、NGSデータに存在する別の配列である場合であり得る。
【0059】
特定の実施形態では、対象は、移植レシピエントに対する潜在的なドナーである。1つの実施形態では、レシピエントは、造血幹細胞移植(HSCT)レシピエントである。分析は、潜在的なドナーを移植レシピエントにマッチさせるために使用され得る。したがって、特定の実施形態では、方法は、移植レシピエントにおける移植片対宿主病のリスクを低下させるために結果を介護者に提供することをさらに含み得る。または、方法は、介護者および/または潜在的なレシピエントへの将来の分配のために配列分析をデータベースに提供することをさらに含み得る。特定の実施形態では、レシピエントは、造血幹細胞移植(HSCT)レシピエントである。
【0060】
したがって、開示された方法は、クエリが弱発現モチーフもしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないかを決定し、それによって対象のDPB1の発現レベルを評価することを含み得る。
図1は、DPB1 cDNA中の特定の位置でのヌクレオチドの比較を示す。エクソン1および2の長さ(354nt)を差し引くことによって、エクソン3におけるこれらのヌクレオチドのそれぞれについての位置が記載される(すなわち、20、26、52、87、234、242および270)。
図1は、rs9277534 A対立遺伝子(弱発現)および/またはrs9277534 G対立遺伝子(強発現)に関連する配列モチーフを示す。例えば、
図2は、DPB1のDPB1弱発現エクソン3モチーフを有するHLAハプロタイプ02:01:02:01と比較した、DPB1のDPB1強発現エクソン3モチーフを有するHLAハプロタイプ01:01:01:01のエクソン2配列の比較を示す。ナンバリングは、cDNA配列に基づく。
【0061】
図3および
図4は、2つの異なるクエリサンプル(Qry)からの配列データの、弱い遺伝子型をコードする参照配列(Ref)との比較のための実施形態を示す。図中、+記号は、プラス(センスまたはコード)鎖(すなわち、mRNA転写物の配列に直接対応する鎖)を示す。したがって、
図3は、強いエクソン3モチーフを同定するための開示されたアルゴリズムの使用を示す。クエリ(Qry+)配列は、20、27、52、87、234、242および270の位置に強発現モチーフ(実線の長方形)の配列ならびに他のバリアント(破線の長方形)を有する。この実験では、参照配列(Ref+)は、弱発現モチーフを有する。
図4は、弱いエクソン3モチーフを特定するための開示されたアルゴリズムの使用を示す。クエリ(Qry+)配列は、20、27、52、87、234、242および270の位置に弱発現モチーフ(実線の長方形)の配列ならびに他のバリエーション(破線の長方形)を有する。この図では、シークエンシングは、エクソン3の第4のヌクレオチドで開始する。この実験では、参照配列(Ref+)は、弱発現モチーフを有する。
【0062】
図5は、DPB1発現を予測するためにロング配列リードデータを分析するために使用することができるコンピュータ実装および/またはアルゴリズム方法500の一実施形態を示す。この方法は、データベースまたはHLAシークエンシング実行から配列データを得る工程510を含み得る。1つの実施形態では、クエリ核酸配列は、ロングリードシークエンサーを使用して、対象のサンプルから得られる。様々な実施形態によって使用することができるロングリードシークエンサーの例としては、Pacific Biosciences RSII、SequelおよびSequel II、ならびにOxford Nanoporeが挙げられる。ロングリードシークエンシングデータは、DPB1のエクソン2と3との間の明確な連鎖を可能にし、フェージング損失および強いまたは弱いモチーフを適切なエクソン2に連鎖することができないことを最小限に抑えるので、DBI発現の臨床サンプルにより適用可能である。1つの実施形態では、データベースは、HLAタイピングに基づくドナーの選択に使用される任意の骨髄登録データベースである。1つの実施形態では、クエリ核酸配列は、DPB1の少なくともエクソン3についてのロングリード配列データを含む。さらに、他の配列データが含まれてもよい(例えば、DPB1の他のエクソンおよび/またはHLA-A、-B、-C、DRB1、DRB3および/またはDQB1などの関心対象の他のHLA遺伝子)。
【0063】
方法は、参照配列とクエリ配列とをアラインメントさせ、二つの配列間の差異を記載および/または比較する工程512を含み得る。1つの実施形態では、参照配列およびクエリ配列の両方が、少なくともDPB1のエクソン3を含む。方法はまた、DPB1のエクソン3中の規定された位置におけるクエリ配列に対するヌクレオチドの同一性を決定する工程514を含み得る。
【0064】
次に、方法は、クエリが弱発現モチーフもしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないかを決定し、それによって対象のDPB1の発現レベルを評価する工程を含み得る。したがって、クエリが、エクソン3の位置20におけるG、エクソン3の位置27におけるT、エクソン3の位置52におけるT、エクソン3の位置87におけるG、エクソン3の位置234におけるT、エクソン3の位置242におけるC、およびエクソン3の位置270におけるTの配列を有する場合、それは弱発現モチーフ516として規定される。クエリが、エクソン3の位置20におけるA、エクソン3の位置27におけるC、エクソン3の位置52におけるC、エクソン3の位置87におけるA、エクソン3の位置234におけるC、エクソン3の位置242におけるTおよびエクソン3の位置270におけるCの配列を有する場合、それは強発現モチーフ518として規定される。しかしながら、エクソン3の位置20、27、52、87、234、242および270のヌクレオチドが、弱発現モチーフまたは強発現モチーフのいずれにも特徴的でない場合、方法は、対立遺伝子を不確定520として規定することを含み得る。
【0065】
方法は、DPB1エクソン3またはDPB1の他のエクソンおよび/または移植適合性に重要な他の配列中の他の位置に(参照と比較して)クエリ中にバリアントがあるかどうかを決定する任意選択の工程522を含み得る。この方法は、他のバリアントのいずれかが、弱い、強い、または不確定なモチーフのいずれかに連鎖されているかどうかを決定すること524を含み得る。この方法は、強発現モチーフがrs9277534 G対立遺伝子に連鎖されているか、または弱発現モチーフがrs9277534 A対立遺伝子に連鎖されているかを決定することをさらに含み得る(
図5には示されていない)。
【0066】
DPB1エクソン3におけるエクソン3の位置20、27、52、87、234、242および270以外の位置でのクエリ配列と参照配列との間の差異の数が所定のカットオフより大きい(例えば、5、または7、または8、または10、または15、または20、または25、または30、またはそれを超える)場合、クエリ配列は、さらなる分析526から除外され得る。例えば、これは、分析されている配列が実際にはDPB1ではなく、配列データに存在する別の配列である場合であり得る。
【0067】
方法は、分析の結果を出力する最終工程を含み得る。結果は、DPB1発現の予測であり、DPB1発現は、潜在的なドナーを移植レシピエントにマッチさせるための下流の処理または分析において使用され得る。したがって、特定の実施形態では、方法は、移植レシピエントにおける移植片対宿主病のリスクを低下させるために、結果をデータベースまたは介護者に提供すること528をさらに含み得る。特定の実施形態では、レシピエントは、造血幹細胞移植(HSCT)レシピエントである。特定の実施形態では、方法は、分析の結果を使用して、1人またはそれを超える潜在的なドナーを1人またはそれを超える移植レシピエントにマッチさせることをさらに含み得る。有利には、DPB1発現を最終的に予測するためにロング配列リードデータを分析するために本明細書に記載される技術は、計算時間を短縮し、DPB1発現のより正確な予測を提供し、ロング配列リードデータを計算/分析する際の誤りによって引き起こされる臨床リスクを低減する。
【0068】
図6は、本開示の方法600の別の実施形態の一例を示す。したがって、
図6に示されるように、これらの工程は、データベースから配列データを得ること、またはデータベース610に提出する前に実行されるHLAシークエンシング実行を含み得る。1つの実施形態では、クエリ核酸配列605は、ロングリードシークエンサーを使用して、対象のサンプルから得られる。1つの実施形態では、データベースは、HLAタイピングに基づくドナーの選択に使用される任意の骨髄登録データベースである。次のいくつかの工程は、クエリ配列605の特徴付けを含み得る。したがって、方法は、参照配列とクエリ配列とをアラインメントさせる工程612を含み得る。次に、方法は、参照配列とクエリ配列との間の差異を比較すること614を含み得る。方法は、DPB1エクソン3の規定された位置、および必要に応じて、例えばDPB1の他のエクソン中の他の配列、ならびに/またはHLA-A、-B、-C、DRB1、DRB3および/もしくはDQB1などの関心対象の他のHLA遺伝子におけるクエリ配列の同一性を決定する工程616をさらに含み得る。方法はまた、エクソン3の強-弱モチーフ内および必要に応じてエクソン3の強-弱モチーフ外のクエリ配列中のバリアントをコンパイルする工程618を含み得る。所定数を超えるバリアント(例えば、10)がある場合、配列は分析619から「ドロップ」され得る。いくつかの実施形態では、これは、ドナーが問題になっているレシピエントに適したドナーであるかどうかを予測するものと見なされない配列をもたらす。
【0069】
しかしながら、強-弱モチーフ位置の外側に10個未満のバリアントが存在する場合、配列はさらに分析され得る620。これは、弱い、強い、または不確定のいずれかであるエクソン3モチーフを有するものとしてクエリ配列を同定すること622を含み得る。1つの実施形態では、この決定は、本明細書中に記載されるようなエクソン3の位置20、27、52、87、234、242および270における配列に基づく。また、分析により、エクソン3または他のDPB1領域内の他のバリアントが、弱いまたは強い(または不確定な)モチーフのいずれかに関連する(すなわち、遺伝子連鎖を示す)かどうかを決定することができる624。
【0070】
この時点で、さらなる分析を実行することができる625。例えば、エクソン3モチーフ(すなわち、強い、弱い、または不確定)の配列は、rs9277534内の配列に連鎖されてよく、「A」対立遺伝子は「弱」発現に関連すると仮定され、「G」対立遺伝子は強発現に関連すると仮定される。したがって、データを使用して、rs9277534 A/Gと弱発現および/または強発現のそれぞれの関連を確認することができ、および/または遺伝子型分析をさらに改良することができる(すなわち、それぞれrs9277534 AおよびG対立遺伝子に関連する他のバリアントを発見することによって)630。
【0071】
最後に、結果を第三者に提出することができる635。例えば、結果は、データベースに追加されてもよく638、および/または介護者に提供されてもよい640。1つの実施形態では、データベースは、クエリ(および/または参照)配列が得られたのと同じデータベースであってもよい。または、データベースは、別のデータベースであってもよい。いくつかの実施形態では、介護者は、特定のレシピエントに対するドナーのマッチを見出すことを望む医師であり得る。
【0072】
分析を報告するための方法も本明細書に開示される。1つの実施形態ではConcise Idiosyncratic Gapped Alignment Report(CIGAR)手法が使用される。この分析では、所定の開始部位を使用して配列が5’から3’に分析される。バリアントは、それらのヌクレオチド同一性(例えば、A、C、GまたはT)、バリエーションの性質(挿入、欠失、塩基変化)および配列の領域内のバリアントの位置(例えば、コンティグ)に基づいてスコア化される。例えば、上記のように、クエリ配列に対する強いエクソン3モチーフは、エクソンの位置20、27、52、87、234、242および270におけるヌクレオチド同一性に基づいて報告され得る。または、バリアントは、cDNAまたはゲノムにおけるそれらの位置に基づいて同定され得る。そのような提示は、これらの位置におけるヌクレオチドの絶対的同一性に基づいてもよく、または参照配列と比較した任意の変化としてもよい。したがって、弱いモチーフについて
図4に示される配列は、関心対象の位置:20:g、27:t、52:t、87:g、234:t、242:cおよび270:tに以下の配列を有するものとして表され得る(すなわち、非CIGARアプローチ)。あるいは、弱いモチーフ配列が参照である場合、配列は、20:gg、27:tt、52:tt、87:gg、234:tt、242:ccおよび270:ttとして表されてよく、クエリ(対の第2のヌクレオチド)と比較して、参照(対の第1のヌクレオチド)中のエクソン3のモチーフ位置にバリアントがないことを示す。同様に、
図3の強配列は、20:ga、27:tc、52:tc、87:ga、234:tc、242:ctおよび270:tc(非CIGARアプローチ)と表され得る。
【0073】
しかしながら、CIGAR法を使用して、モチーフは、特定のエクソン、cDNAおよび/またはゲノム配列内のヌクレオチドの位置を同定するために使用される実際のナンバリングとは無関係に、参照配列とクエリ配列との間の任意の変化として報告され得る。これにより、配列データのコンティグの迅速な比較を容易にすることができる。1つの実施形態ではcs CIGARタグは、ショート形式の配列またはロング形式(参照配列データが一般的に提供される形式である)のクエリ配列および参照配列全体の配列の差異をコードする。
【0074】
1つの実施形態ではスコアリング方法は、表1に概説されている通りである。
【表1】
【0075】
例えば、配列番号9(上の配列)および配列番号10(下の配列)について表2に示す配列アラインメントは、6-ata:10+gtc:4*at:3として表され、:[0-9]+は同一のブロックを表し、-ataは欠失を表し、+gtcは挿入を表し、*atは参照塩基「a」が「t」で置換されることを示す。
【表2】
【0076】
次いで、アルゴリズムは、CIGARを解析して、強いモチーフまたは弱いモチーフがクエリ配列に存在するかどうかを決定することができる。CIGARフォーマットを使用して報告された強および弱配列の実施形態をそれぞれ
図7および
図8に示す。したがって、強いモチーフ3*cg:12*ga:6*tc:24*tc:34*ga:146*tc:7*ct:27*tc:32(
図7)について、CIGARコード化は以下の通りである。3-コンティグは、バリアントの前の参照とマッチする塩基の数;参照の最初から開始する;cg-バリアントは、cの代わりにgである;12-次のバリアントの前にコンティグがマッチする塩基の数;ga変数は、gの代わりにaであり、以下同様である。最終的な数(「32」)は、参照の終わりの前にコンティグが参照とマッチする塩基の数である。弱いバリアントと比較した
図8の弱いモチーフの場合、CIGARスコアリングは、cs:z::302であり、これは、クエリと参照がエクソン3の302ヌクレオチドにわたって同一であることを示す。1つの実施形態では、配列は、弱いモチーフまたはロングモチーフのいずれかとの全体的なマッチを含み得る。位置243(すなわち、モチーフ位置242から除去された一方の位置)にミスマッチを有する弱いモチーフ(cs:Z::242*ct:59)の例を
図9および
図10に示す。
【0077】
ロングリード配列データを分析してDPB1発現レベルを予測するためのシステム
本開示の実施形態は、DPB1発現レベルを予測するためにロングリード配列データを分析するためのコンピュータ化されたシステムおよびコンピュータプログラム製品を含む。
【0078】
例えば、開示されるのは、1またはそれを超えるデータプロセッサと、1またはそれを超えるデータプロセッサ上で実行されると、1またはそれを超えるデータプロセッサに、対象からの配列データを分析して、対象におけるDPB1発現レベルを予測することを含む動作を行わせる命令を含む非一時的コンピュータ可読記憶媒体であって、(a)ロングリードシークエンサーを使用して、対象のサンプルからクエリ核酸配列を得る工程と、(b)コンピュータ実装アラインメントプログラムを使用して、対象からのクエリ核酸配列を、参照核酸配列に対してアラインメントする工程であって、参照核酸配列およびクエリ核酸配列が、DPB1の少なくともエクソン3についてのロングリード配列データを含む、アラインメントする工程と、(c)コンピュータ実装アルゴリズムを使用して、アラインメントされたクエリ核酸配列および参照核酸配列に基づいて、クエリ核酸配列が低レベルのDPB1発現または高レベルのDPBI発現の特徴的な配列を有するかどうかを同定する工程と、を含み、同定する工程が、(i)アラインメントされたクエリ核酸配列および参照核酸配列内のヌクレオチドを比較して、クエリ配列核酸配列と参照核酸配列との間の差異を同定することと、(ii)クエリ配列核酸配列と参照核酸配列との間の同定された差異に基づいて、DPB1のエクソン3中の規定された位置における参照核酸配列と比較したときのクエリ核酸配列に対するヌクレオチドの同一性を決定することと、(iii)エクソン3中の規定された位置におけるクエリ核酸配列に対するヌクレオチドの同一性に基づいて、クエリ配列が弱発現モチーフに特徴的な配列もしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないことを決定することと、(iv)クエリ核酸配列が弱発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが低いと同定すること、またはクエリ核酸配列が強発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが高いと同定することと、を含む、非一時的コンピュータ可読記憶媒体と、を含むシステムである。
【0079】
開示されるのはまた、1またはそれを超えるデータプロセッサに、対象からの配列データを分析して、対象におけるDPB1発現レベルを予測することを含む動作を行わせるように構成された命令を含む、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品であって、(a)ロングリードシークエンサーを使用して、対象のサンプルからクエリ核酸配列を得る工程、(b)コンピュータ実装アラインメントプログラムを使用して、対象からのクエリ核酸配列を参照核酸配列にアラインメントする工程であって、参照核酸配列およびクエリ核酸配列が、DPB1の少なくともエクソン3についてのロングリード配列データを含む、アラインメントする工程、および(c)コンピュータ実装アルゴリズムを使用して、アラインメントされたクエリ核酸配列および参照核酸配列に基づいて、クエリ核酸配列が低レベルのDPB1発現または高レベルのDPBI発現の特徴的な配列を有するかどうかを同定する工程、のコンピュータ実装工程を含み、同定する工程が、(i)アラインメントされたクエリ核酸配列および参照核酸配列内のヌクレオチドを比較して、クエリ配列核酸配列と参照核酸配列との間の差異を同定することと、(ii)クエリ配列核酸配列と参照核酸配列との間の同定された差異に基づいて、DPB1のエクソン3中の規定された位置における参照核酸配列と比較したときのクエリ核酸配列に対するヌクレオチドの同一性を決定することと、(iii)エクソン3中の規定された位置におけるクエリ核酸配列に対するヌクレオチドの同一性に基づいて、クエリ配列が弱発現モチーフに特徴的な配列もしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないことを決定することと、(iv)クエリ核酸配列が弱発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが低いと同定すること、またはクエリ核酸配列が強発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが高いと同定することと、を含む、コンピュータ実装方法である。
【0080】
システムおよびコンピュータ製品は、本明細書に開示される方法のいずれかを実行することができる。本明細書に記載の1またはそれを超える実施形態は、プログラムモジュール、エンジン、またはコンポーネントを使用して実施することができる。プログラムモジュール、エンジン、またはコンポーネントは、プログラム、サブルーチン、プログラムの一部、または1もしくはそれを超える記載されたタスクもしくは機能を実行することができるソフトウェアコンポーネントもしくはハードウェアコンポーネントを含むことができる。本明細書で使用される場合、モジュールまたはコンポーネントは、他のモジュールまたはコンポーネントとは独立してハードウェアコンポーネント上に存在することができる。あるいは、モジュールまたはコンポーネントは、他のモジュール、プログラムまたは機械の共有要素またはプロセスであり得る。
【0081】
図11は、DPB1配列分析システムのブロック図を示す。
図11に示すように、様々な実施形態による分析装置システムの様々なサブシステムを実装するために使用され得る1またはそれを超えるプロセッサによって実行可能なモジュール、エンジン、またはコンポーネント(例えば、プログラム、コード、または命令)。モジュール、エンジン、またはコンポーネントは、非一時的コンピュータ媒体に記憶されてもよい。必要に応じて、モジュール、エンジン、またはコンポーネントのうちの1またはそれを超えるものをシステムメモリ(例えば、RAM)にロードし、分析装置システムの1またはそれを超えるプロセッサによって実行することができる。
図11に示す例では、本開示の方法を実施するためのモジュール、エンジン、またはコンポーネントが示されている。
【0082】
したがって、
図11は、本開示によるシステムおよび方法での使用に適した例示的なコンピューティングデバイス1100を示す。例示的なコンピューティングデバイス1100は、1またはそれを超える通信バス1115を使用してメモリ1110およびコンピューティングデバイス1100の他のコンポーネントと通信するプロセッサ1105を含む。プロセッサ1105は、メモリ1110に記憶されたプロセッサ実行可能命令を実行して、
図5および
図6に関して上述した例示的なプロセス500または600の一部または全部などの異なる例に従ってDPB1発現レベルを評価するための1またはそれを超える方法を実行するように構成される。この例では、メモリ1110は、本明細書で論じるように、DPB1配列分析1120および発現決定1125を提供するプロセッサ実行可能命令を記憶する。
【0083】
この例でのコンピューティングデバイス1100はまた、ユーザ入力を受け入れるために、キーボード、マウス、タッチスクリーン、マイクロフォンなどのような1またはそれを超えるユーザ入力デバイス1130を含む。コンピューティングデバイス1100はまた、ユーザインターフェースなどのユーザに視覚的出力を提供するためのディスプレイ1135を含む。コンピューティングデバイス1100はまた、通信インターフェース1140を含む。いくつかの例では、通信インターフェース1140は、ローカルエリアネットワーク(「LAN」)、インターネットなどの広域ネットワーク(「WAN」)、メトロポリタン・エリア・ネットワーク(「MAN」)、ポイントツーポイントまたはピアツーピア接続などを含む1またはそれを超えるネットワークを使用した通信を可能にすることができる。他のデバイスとの通信は、任意の適切なネットワークプロトコルを使用して達成され得る。例えば、1つの適切なネットワークプロトコルは、インターネットプロトコル(「IP」)、伝送制御プロトコル(「TCP」)、ユーザデータグラムプロトコル(「UDP」)、またはTCP/IPもしくはUDP/IPなどのそれらの組み合わせを含むことができる。
【実施例】
【0084】
実施例1-強いモチーフおよび弱いモチーフの同定
開示された方法は、骨髄ドナー登録のHLAタイピング産生データの編集物からの脱同定されたDNA配列(すなわち、配列が乱数によって識別されるように個人、登録または他の識別情報が除去された配列)を特徴付けるために使用されている。個体ごとに1つのFASTQファイルに保存された、以前にタイプ分けされた17,801人の個体からの配列データをこのプログラムで分析した。rs9277534においてGを予測する正確な7つの塩基配列を含むすべてのFASTQファイルを、「強」発現を有するとしてタイプ分けした。次いで、rs9277534でAを予測する正確な7つの塩基配列を含むすべてのFASTQファイルを、「弱」発現を有するとしてタイプ分けした。いずれのモチーフとも正確にマッチしない任意の配列を「未決定」としてタイプ分けした。
図15に示すように、合計31,274個のDPB1配列が分析され、そのうち10,774個は、「強」とタイプ分けされ、20,369個は、「弱」とタイプ分けされ、131個は、「未決定」とタイプ分けされた。30(0.001%)の不合格品質スコア基準。試験した全HLA-DPB1配列の0.42%のみが「未決定」と判定され、残りの99.58%は、発現を予測するのに必要な正確な配列を示した。さらに、他のバリアントが認められた。30(0.001%)の不合格品質スコア基準。すべての配列をエクソン3弱参照にマッピングした。
図16のプロットは、強、弱および未決定あたり約60サンプルのダウンサンプルであり、参照に対するユニークバリアントが生じるエクソン3の位置を示す。縦線は、予測位置を示す。
【0085】
強いモチーフを有する配列についての結果を
図3に示す。クエリ(Qry+)配列(配列番号4)は、位置20、27、52、87、234、242および270にDPB1強発現モチーフのエクソン3配列(実線の長方形)を有することが見出された。配列のさらなる特徴付けは、クエリがエクソン中の他の位置(破線の長方形)で参照と比較して、他のバリアントを有することを示した。この図では、シークエンシングは、エクソン3の第4のヌクレオチドで始まり、参照配列(Ref+)(配列番号3)は、弱発現モチーフを有する。
【0086】
図4は、エクソン3モチーフを特定するための開示されたアルゴリズムの使用を示す。クエリ(Qry+)配列は、20、27、52、87、234、242および270の位置に弱発現モチーフ(実線の長方形)の配列ならびに他のバリエーション(破線の長方形)を有する。この図では、シークエンシングは、エクソン3の第4のヌクレオチドで開始する。この実験では、参照配列(Ref+)は、弱発現モチーフを有する。
【0087】
図7および
図8は、異なるクエリ配列およびエクソン3の弱いモチーフを有する参照配列(配列番号3)を用いて行われた同様の実験を示す。
図7に示すように、クエリ配列(配列番号6)は、強いモチーフに特徴的なバリアントを表示し、CIGAR表記でcs:Z::38cg:12*ga:6*tc:24*tc:34*ga:146*tc:7*ct:27*tc:32と報告されている。追加のバリアントはない。興味深いことに、この配列分析および他の配列分析により、位置242のバリアントはTであり、最初に報告されたAではないことが確認された(Schoneら、2018)。
図8に示すクエリ配列(配列番号7)は、「弱発現」モチーフを含有する参照配列(配列番号3)との同一性に基づいて弱発現を有するとして規定され、cs:Z::302として報告され得る。
【0088】
図9は、強発現モチーフを有すると特徴付けられた5つのサンプルおよび「弱」発現モチーフを有する5つのサンプルについてのCIGAR形式での要約を提示する。一方の弱発現サンプルは、cDNA位置243にT突然変異を有する。これは、
図10にクエリ(Qry-)配列として示されている(配列番号8)。強いモチーフ(追加のバリアントありおよびなし)および弱いモチーフ(追加のバリアントありおよびなし)を有する配列、ならびに未決定として分類された配列を示す追加の配列結果を、
図12および
図13に示す。次いで、DPB1発現に関する情報を他のHLAタイピングデータと併せて評価して、潜在的な造血幹細胞ドナーとレシピエントを対にすることができるように、この配列データをコンパイルおよび分析することができる。
【0089】
【0090】
要約すると、データは、開示されるHLA-DPB1発現予測プログラムが、造血幹細胞移植を必要とする患者のためのドナーの選択を助けるための非常に有用なツールであり得ることを示す。
【0091】
実施例2-実施形態
A1.対象におけるDPB1発現レベルを予測するために対象からの配列データを分析するための方法であって、
(a)対象からのクエリ配列を参照配列にアラインメントすることであって、参照配列およびクエリ配列がDPB1の少なくともエクソン3を含む、アラインメントすることと、
(b)クエリ配列と参照配列との間の差異を比較することと、
(c)DPB1のエクソン3中の規定された位置におけるクエリ配列についてのヌクレオチドの同一性を決定することと、
(d)クエリが弱発現モチーフもしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないかを決定し、それによって対象のDPB1の発現レベルを評価することと、を含む、方法。
【0092】
A2.工程(a)~(d)のうちの少なくとも1つがコンピュータ実装される、前述または後述の実施形態のいずれかに記載の方法。
【0093】
A3.対象におけるDPB1発現レベルを予測するために対象からの配列データを分析するためのコンピュータ実装方法であって、
(a)ロングリードシークエンサーを使用して、対象のサンプルからクエリ核酸配列を得る工程と、
(b)コンピュータ実装アラインメントプログラムを使用して、対象からのクエリ核酸配列を参照核酸配列にアラインメントする工程であって、参照核酸配列およびクエリ核酸配列が、DPB1の少なくともエクソン3についてのロングリード配列データを含む、アラインメントする工程と、
(c)コンピュータ実装アルゴリズムを使用して、アラインメントされたクエリ核酸配列および参照核酸配列に基づいて、クエリ核酸配列が低レベルのDPB1発現または高レベルのDPBI発現の特徴的な配列を有するかどうかを同定する工程と、を含み、同定する工程が、
(i)アラインメントされたクエリ核酸配列内のヌクレオチドと参照核酸配列とを比較して、クエリ核酸配列と参照核酸配列との間の差異を同定することと、
(ii)クエリ配列核酸配列と参照核酸配列との間の同定された差異に基づいて、DPB1のエクソン3中の規定された位置における参照核酸配列と比較したときのクエリ核酸配列に対するヌクレオチドの同一性を決定することと、
(iii)エクソン3中の規定された位置におけるクエリ核酸配列に対するヌクレオチドの同一性に基づいて、クエリ配列が弱発現モチーフに特徴的な配列もしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないことを決定することと、
(iv)クエリ核酸配列が弱発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが低いと同定すること、またはクエリ核酸配列が強発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが高いと同定することと、を含む、コンピュータ実装方法である。
【0094】
A4.エクソン3の規定された位置が、エクソンの5’末端から20、27、52、87、234、242および270の位置にある、前述または後述の実施形態のいずれかに記載の方法。
【0095】
A5.弱発現モチーフを、エクソン3の位置20におけるG、エクソン3の位置27におけるT、エクソン3の位置52におけるT、エクソン3の位置87におけるG、エクソン3の位置234におけるT、エクソン3の位置242におけるC、およびエクソン3の位置270におけるTを含むものとして規定することをさらに含む、前述または後述の実施形態のいずれかに記載の方法。
【0096】
A6.強発現モチーフを、エクソン3の位置20におけるA、エクソン3の位置27におけるC、エクソン3の位置52におけるC、エクソン3の位置87におけるA、エクソン3の位置234におけるC、エクソン3の位置242におけるT、およびエクソン3の位置270におけるCを含むものとして規定することをさらに含む、前述または後述の実施形態のいずれかに記載の方法。
【0097】
A7.エクソン3の位置20、27、52、87、234、242および270でヌクレオチドが弱発現モチーフまたは強発現モチーフのいずれにも特徴的でない場合、対立遺伝子が不確定として同定される、前述または後述の実施形態のいずれかに記載の方法。
【0098】
A8.同定することが、アラインメントされたクエリ核酸配列および参照核酸配列内のヌクレオチドを比較して、規定された位置以外のエクソン3の位置におけるクエリ核酸配列と参照核酸配列との間の任意の差異の存在を同定することをさらに含む、前述または後述の実施形態のいずれかに記載の方法。
【0099】
A9.同定することが、アラインメントされたクエリ核酸配列および参照核酸配列内のヌクレオチドを比較して、クエリ核酸配列と参照核酸配列との間の任意の他の差異の存在を同定することをさらに含む、前述または後述の実施形態のいずれかに記載の方法。
【0100】
A10.エクソン3中の規定された位置以外の位置におけるクエリ核酸配列と参照核酸配列との間の差異の数が10より大きい場合、さらなる分析からクエリ配列を除外する、前述または後述の実施形態のいずれかに記載の方法。
【0101】
A11.クエリ核酸配列中の強発現モチーフがrs9277534 G対立遺伝子に連鎖されていること、および/またはクエリ核酸配列中の弱発現モチーフがrs9277534 A対立遺伝子に連鎖されていることを、必要に応じてコンピュータ実装型連鎖分析によって、決定することをさらに含む、前述または後述の実施形態のいずれかに記載の方法。
【0102】
A12.参照核酸配列および/またはクエリ核酸配列が、DPB1遺伝子全体についてのロングリード配列データを含む、前述または後述の実施形態のいずれかに記載の方法。
【0103】
A13.参照核酸配列および/またはクエリ核酸配列が、DRB1、DRB3、DQB1、DRB4、DRB5、DQA1、またはDPA1のうちの少なくとも1つのロングリード配列データをさらに含む、前述または後述の実施形態のいずれかに記載の方法。
【0104】
A14.移植レシピエントにおける移植片対宿主病のリスクを低下させるために、結果を介護者および/または移植データベースに提供することをさらに含む、前述または後述の実施形態のいずれかに記載の方法。
【0105】
A15.エクソン3中の規定された位置以外の位置におけるクエリ核酸配列と参照核酸配列との間の差異の数が10を超える場合、クエリ配列に対する結果が介護者またはデータベースに提供されない、前述または後述の実施形態のいずれかに記載の方法。
【0106】
A16.対象が造血幹細胞移植(HSCT)レシピエントに対する潜在的なドナーである、前述または後述の実施形態のいずれかに記載の方法。
【0107】
A17.対象に対するクエリ核酸配列を決定する工程をさらに含む、前述または後述の実施形態のいずれかに記載の方法。
【0108】
A18.クエリ配列が、次世代シークエンシング実験の一部として(工程(a)の前に)生成されたロングリード配列データまたはショートリード配列データから得られる、前述または後述の実施形態のいずれかに記載の方法。
【0109】
B1.システムであって、
1またはそれを超えるデータプロセッサと、
1またはそれを超えるデータプロセッサ上で実行されると、1またはそれを超えるデータプロセッサに、対象からの配列データを分析して、対象におけるDPB1発現レベルを予測することを含む動作を行わせる命令を含む、非一時的コンピュータ可読記憶媒体であって、
(a)対象からのクエリ核酸配列を参照核酸配列にアラインメントする工程であって、参照配列およびクエリ配列がDPB1の少なくともエクソン3を含む、アラインメントする工程と、
(b)クエリ配列と参照配列との間の差異を比較する工程と、
(c)DPB1のエクソン3中の規定された位置におけるクエリ配列についてのヌクレオチドの同一性を決定する工程と、
(d)クエリが弱発現モチーフもしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないかを決定し、それによって対象のDPB1の発現レベルを評価する工程と、を含む、非一時的コンピュータ可読記憶媒体と、を含むシステム。
【0110】
B2.システムであって、
1またはそれを超えるデータプロセッサと、
1またはそれを超えるデータプロセッサ上で実行されると、1またはそれを超えるデータプロセッサに、対象からの配列データを分析して、対象におけるDPB1発現レベルを予測することを含む動作を行わせる命令を含む、非一時的コンピュータ可読記憶媒体であって、
(a)ロングリードシークエンサーを使用して、対象のサンプルからクエリ核酸配列を得る工程と、
(b)コンピュータ実装アラインメントプログラムを使用して、対象からのクエリ核酸配列を参照核酸配列にアラインメントする工程であって、参照核酸配列およびクエリ核酸配列が、DPB1の少なくともエクソン3についてのロングリード配列データを含む、アラインメントする工程と、
(c)コンピュータ実装アルゴリズムを使用して、アラインメントされたクエリ核酸配列および参照核酸配列に基づいて、クエリ核酸配列が低レベルのDPB1発現または高レベルのDPBI発現の特徴的な配列を有するかどうかを同定する工程と、を含み、同定する工程が、
(i)アラインメントされたクエリ核酸配列内のヌクレオチドと参照核酸配列とを比較して、クエリ核酸配列と参照核酸配列との間の差異を同定することと、
(ii)クエリ配列核酸配列と参照核酸配列との間の同定された差異に基づいて、DPB1のエクソン3中の規定された位置における参照核酸配列と比較したときのクエリ核酸配列に対するヌクレオチドの同一性を決定することと、
(iii)エクソン3中の規定された位置におけるクエリ核酸配列に対するヌクレオチドの同一性に基づいて、クエリ配列が弱発現モチーフに特徴的な配列もしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないことを決定することと、
(iv)クエリ核酸配列が弱発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが低いと同定すること、またはクエリ核酸配列が強発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが高いと同定することと、を含む、非一時的コンピュータ可読記憶媒体と、と含む、システム。
【0111】
B3.動作が、弱発現モチーフを、エクソン3の位置20におけるG、エクソン3の位置27におけるT、エクソン3の位置52におけるT、エクソン3の位置87におけるG、エクソン3の位置234におけるT、エクソン3の位置242におけるC、およびエクソン3の位置270におけるTを含むものとして規定することをさらに含む、前述または後述の実施形態のいずれかに記載のシステム。
【0112】
B4.動作が、強発現モチーフを、エクソン3の位置20におけるA、エクソン3の位置27におけるC、エクソン3の位置52におけるC、エクソン3の位置87におけるA、エクソン3の位置234におけるC、エクソン3の位置242におけるT、およびエクソン3の位置270におけるCを含むものとして規定することをさらに含む、前述または後述の実施形態のいずれかに記載のシステム。
【0113】
B5.エクソン3の位置20、27、52、87、234、242および270でヌクレオチドが弱発現モチーフまたは強発現モチーフのいずれにも特徴的でない場合、対立遺伝子が不確定として規定される、前述または後述の実施形態のいずれかに記載のシステム。
【0114】
B6.同定することが、アラインメントされたクエリ核酸配列および参照核酸配列内のヌクレオチドを比較して、規定された位置以外のエクソン3の位置におけるクエリ核酸配列と参照核酸配列との間の任意の差異の存在を同定することをさらに含む、前述または後述の実施形態のいずれかに記載のシステム。
【0115】
B7.同定することが、アラインメントされたクエリ核酸配列および参照核酸配列内のヌクレオチドを比較して、クエリ核酸配列と参照核酸配列との間の任意の他の差異の存在を同定することをさらに含む、前述または後述の実施形態のいずれかに記載のシステム。
【0116】
B8.エクソン3中の規定された位置以外の位置におけるクエリ核酸配列と参照核酸配列との間の差異の数が10より大きい場合、さらなる分析からクエリ配列を除外する、前述または後述の実施形態のいずれかに記載のシステム。
【0117】
B9.動作が、強発現モチーフがrs9277534 G対立遺伝子に連鎖されているか、または弱発現モチーフがrs9277534 A対立遺伝子に連鎖されているかを決定することをさらに含む、前述または後述の実施形態のいずれかに記載のシステム。
【0118】
B10.動作が、クエリ核酸配列中の強発現モチーフがrs9277534 G対立遺伝子に連鎖されていること、および/またはクエリ核酸配列中の弱発現モチーフがrs9277534 A対立遺伝子に連鎖されていることを、必要に応じてコンピュータ実装型連鎖分析によって、決定することをさらに含む、前述または後述の実施形態のいずれかに記載のシステム。
【0119】
B11.参照配列および/またはクエリ配列が、DPB1遺伝子全体についてのロングリード配列データを含む、前述または後述の実施形態のいずれかに記載のシステム。
【0120】
B12.参照および/またはクエリ配列が、DRB1、DRB3、DQB1、DRB1、DRB3、DQB1、DRB4、DRB5、DQA1、またはDPA1のうちの少なくとも1つのロングリード配列データをさらに含む、前述または後述の実施形態のいずれかに記載のシステム。
【0121】
B13.動作が、移植レシピエントにおける移植片対宿主病のリスクを低下させるために、結果を介護者および/またはデータベースに提供することをさらに含む、前述または後述の実施形態のいずれかに記載のシステム。
【0122】
B14.エクソン3中の規定された位置以外の位置におけるクエリ核酸配列と参照核酸配列との間の差異の数が10を超える場合、クエリ配列に対する結果が介護者またはデータベースに提供されない、前述または後述の実施形態のいずれかに記載のシステム。
【0123】
B15.対象が造血幹細胞移植(HSCT)レシピエントに対する潜在的なドナーである、前述または後述の実施形態のいずれかに記載のシステム。
【0124】
B16.工程(a)~(d)のうちの少なくとも1つがコンピュータ実装される、前述または後述の実施形態のいずれかに記載のシステム。
【0125】
B17.動作が、対象に対するクエリ配列を決定する工程をさらに含む、前述または後述の実施形態のいずれかに記載のシステム。
【0126】
B18.クエリ配列が、シークエンシング実験の一部として(工程(a)の前に)生成されたロングリード配列データまたはショートリード配列データから得られる、前述または後述の実施形態のいずれかに記載のシステム。
【0127】
B19.シークエンシング実験が、次世代シークエンシング実験である、B18に記載のシステム。
【0128】
B20.システムであって、
1またはそれを超えるデータプロセッサと、
1またはそれを超えるデータプロセッサ上で実行されると、1またはそれを超えるデータプロセッサに、前述の実施形態のいずれかの方法を実行するための動作を行わせる命令を含む、非一時的コンピュータ可読記憶媒体と、を含む、システム。
【0129】
C1.前述または後述の実施形態のいずれかに記載のシステムを実行し、および/または方法を実行するように構成された命令を含む、非一時的機械可読記憶媒体で有形に具現化されたコンピュータプログラム製品。
【0130】
C2 1またはそれを超えるデータプロセッサに、対象からの配列データを分析して、対象におけるDPB1発現レベルを予測することを含む動作を行わせるように構成された命令を含む、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品であって、
(a)ロングリードシークエンサーを使用して、対象のサンプルからクエリ核酸配列を得る工程と、
(b)コンピュータ実装アラインメントプログラムを使用して、対象からのクエリ核酸配列を参照核酸配列にアラインメントする工程であって、参照核酸配列およびクエリ核酸配列が、DPB1の少なくともエクソン3についてのロングリード配列データを含む、アラインメントする工程と、
(c)コンピュータ実装アルゴリズムを使用して、アラインメントされたクエリ核酸配列および参照核酸配列に基づいて、クエリ核酸配列が低レベルのDPB1発現または高レベルのDPBI発現の特徴的な配列を有するかどうかを同定する工程と、を含み、同定する工程が、
(i)アラインメントされたクエリ核酸配列内のヌクレオチドと参照核酸配列とを比較して、クエリ核酸配列と参照核酸配列との間の差異を同定することと、
(ii)クエリ配列核酸配列と参照核酸配列との間の同定された差異に基づいて、DPB1のエクソン3中の規定された位置における参照核酸配列と比較したときのクエリ核酸配列に対するヌクレオチドの同一性を決定することと、
(iii)エクソン3中の規定された位置におけるクエリ核酸配列に対するヌクレオチドの同一性に基づいて、クエリ配列が弱発現モチーフに特徴的な配列もしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないことを決定することと、
(iv)クエリ核酸配列が弱発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが低いと同定すること、またはクエリ核酸配列が強発現モチーフに特徴的な配列を示す場合、対象をDPB1の発現レベルが高いと同定することと、を含む、コンピュータプログラム製品。
【0131】
C3.動作が、弱発現モチーフを、エクソン3の位置20におけるG、エクソン3の位置27におけるT、エクソン3の位置52におけるT、エクソン3の位置87におけるG、エクソン3の位置234におけるT、エクソン3の位置242におけるC、およびエクソン3の位置270におけるTを含むものとして規定することをさらに含む、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0132】
C4.動作が、強発現モチーフを、エクソン3の位置20におけるA、エクソン3の位置27におけるC、エクソン3の位置52におけるC、エクソン3の位置87におけるA、エクソン3の位置234におけるC、エクソン3の位置242におけるT、およびエクソン3の位置270におけるCを含むものとして規定することをさらに含む、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0133】
C5.同定することが、アラインメントされたクエリ核酸配列および参照核酸配列内のヌクレオチドを比較して、規定された位置以外のエクソン3の位置におけるクエリ核酸配列と参照核酸配列との間の任意の差異の存在を同定することをさらに含む、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0134】
C6.同定することが、アラインメントされたクエリ核酸配列および参照核酸配列内のヌクレオチドを比較して、クエリ核酸配列と参照核酸配列との間の任意の他の差異の存在を同定することをさらに含む、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0135】
C7.エクソン3中の規定された位置以外の位置におけるクエリ核酸配列と参照核酸配列との間の差異の数が10より大きい場合、さらなる分析からクエリ配列を除外する、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0136】
C8.動作が、強発現モチーフがrs9277534 G対立遺伝子に連鎖されているか、または弱発現モチーフがrs9277534 A対立遺伝子に連鎖されているかを決定することをさらに含む、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0137】
C9.動作が、クエリ核酸配列中の強発現モチーフがrs9277534 G対立遺伝子に連鎖されていること、および/またはクエリ核酸配列中の弱発現モチーフがrs9277534 A対立遺伝子に連鎖されていることを、必要に応じてコンピュータ実装型連鎖分析によって、決定することをさらに含む、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0138】
C10.参照配列および/またはクエリ配列が、DPB1遺伝子全体についてのロングリード配列データを含む、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0139】
C11.参照および/またはクエリ配列が、DRB1、DRB3、DQB1、DRB1、DRB3、DQB1、DRB4、DRB5、DQA1、またはDPA1のうちの少なくとも1つのロングリード配列データをさらに含む、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0140】
C12.動作が、移植レシピエントにおける移植片対宿主病のリスクを低下させるために、結果を介護者および/またはデータベースに提供することをさらに含む、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0141】
C13.エクソン3中の規定された位置以外の位置におけるクエリ核酸配列と参照核酸配列との間の差異の数が10を超える場合、クエリ配列に対する結果が介護者またはデータベースに提供されない、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0142】
C14.対象が造血幹細胞移植(HSCT)レシピエントに対する潜在的なドナーである、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0143】
C15.工程(a)~(d)のうちの少なくとも1つがコンピュータ実装される、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0144】
C16.動作が、対象に対するクエリ核酸配列を決定する工程をさらに含む、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0145】
C17.クエリ配列が、シークエンシング実験の一部として(工程(a)の前に)生成されたロングリード配列データまたはショートリード配列データから得られる、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0146】
C18.シークエンシング実験が次世代シークエンシング実験である、前述または後述の実施形態のいずれかに記載のコンピュータプログラム製品。
【0147】
追加の考察
上記の説明では、実施形態の完全な理解を提供するために具体的な詳細が示されている。しかしながら、これらの具体的な詳細なしで実施形態を実施することができることが理解される。例えば、実施形態を不必要に詳細に不明瞭にしないために、回路をブロック図に示すことができる。他の例では、実施形態を不明瞭にすることを避けるために、周知の回路、プロセス、アルゴリズム、構造、および技術を不必要な詳細なしで示すことができる。
【0148】
上述した技術、ブロック、工程、および手段の実装は、様々な方法で行うことができる。例えば、これらの技法、ブロック、工程、および手段は、ハードウェア、ソフトウェア、またはそれらの組み合わせで実施することができる。ハードウェア実装の場合、処理ユニットは、1またはそれを超える特定用途向け集積回路(application specific integrated circuit:ASIC)、デジタル信号プロセッサ(digital signal processor:DSP)、デジタル信号処理デバイス(digital signal processing device:DSPD)、プログラマブルロジックデバイス(programmable logic device:PLD)、フィールドプログラマブルゲートアレイ(field programmable gate array:FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、上述した機能を実行するように設計された他の電子ユニット、および/またはそれらの組み合わせ内で実装され得る。
【0149】
また、実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明することができることに留意されたい。フローチャートは、動作を順次プロセスとして説明することができるが、動作の多くは並行してまたは同時に実行することができる。さらに、動作の順序を並べ替えることができる。プロセスは、その動作が完了したときに終了するが、図に含まれていない追加の工程を有することができる。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応することができる。プロセスが関数に対応する場合、その終了は、呼び出し関数またはメイン関数への関数の返しに対応する。
【0150】
さらに、実施形態は、ハードウェア、ソフトウェア、スクリプト言語、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、および/またはそれらの任意の組み合わせによって実施することができる。ソフトウェア、ファームウェア、ミドルウェア、スクリプト言語、および/またはマイクロコードで実装される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、記憶媒体などの機械可読媒体に記憶することができる。コードセグメントまたは機械実行可能命令は、手順、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、スクリプト、クラス、または命令、データ構造、および/もしくはプログラム文の任意の組み合わせを表すことができる。コードセグメントは、情報、データ、引数、パラメータ、ならびに/またはメモリ内容を渡すおよび/もしくは受け取ることによって、別のコードセグメントまたはハードウェア回路に結合することができる。情報、引数、パラメータ、データなどは、メモリ共有、メッセージパッシング、チケットパッシング、ネットワーク送信などを含む任意の適切な手段を介して渡す、転送する、または送信することができる。
【0151】
ファームウェアおよび/またはソフトウェア実装の場合、方法論は、本明細書に記載の機能を実行するモジュール(例えば、手順、機能など)で実装することができる。本明細書に記載の方法論を実施する際に、命令を実体的に具現化する任意の機械可読媒体を使用することができる。例えば、ソフトウェアコードをメモリに記憶することができる。メモリは、プロセッサ内またはプロセッサの外部に実装することができる。本明細書で使用される場合、「メモリ」という用語は、任意のタイプの長期、短期、揮発性、不揮発性、または他の記憶媒体を指し、任意の特定のタイプのメモリまたはメモリの数、またはメモリが記憶される媒体のタイプに限定されるものではない。
【0152】
さらに、本明細書で開示されるように、「記憶媒体」、「記憶」または「メモリ」という用語は、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気RAM、コアメモリ、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス、および/または情報を記憶するための他の機械可読媒体を含む、データを記憶するための1またはそれを超えるメモリを表すことができる。「機械可読媒体」という用語は、携帯型もしくは固定型ストレージデバイス、光ストレージデバイス、無線チャネル、ならびに/または命令および/もしくはデータを含むもしくは搬送する記憶することができる様々な他の記憶媒体を含むが、これらに限定されない。
【0153】
本開示の原理は、特定の装置および方法に関連して上述されているが、この説明は、例としてのみ行われ、本開示の範囲に対する限定としてではないことを明確に理解されたい。
本発明は、例えば、以下の項目を提供する。
(項目1)
対象におけるDPB1発現レベルを予測するために前記対象からのロングリード配列データを分析するためのコンピュータ実装方法であって、
(a)ロングリードシークエンサーを使用して、前記対象のサンプルからクエリ核酸配列を得るコンピュータ実装工程と、
(b)コンピュータ実装アラインメントプログラムを使用して、前記対象からの前記クエリ核酸配列を参照核酸配列にアラインメントするコンピュータ実装工程であって、前記参照核酸配列および前記クエリ核酸配列が、DPB1の少なくともエクソン3についてのロングリード配列データを含む、アラインメントするコンピュータ実装工程と、
(c)コンピュータ実装アルゴリズムを使用して、前記アラインメントされたクエリ核酸配列および前記参照核酸配列に基づいて、前記クエリ核酸配列が低レベルのDPB1発現または高レベルのDPBI発現の特徴的な配列を有するかどうかを同定するコンピュータ実装工程と、を含み、前記同定するコンピュータ実装工程が、
(i)前記アラインメントされたクエリ核酸配列内のヌクレオチドと前記参照核酸配列とを比較して、前記クエリ核酸配列と前記参照核酸配列との間の差異を同定することと、
(ii)前記クエリ配列核酸配列と前記参照核酸配列との間の前記同定された差異に基づいて、DPB1の前記エクソン3中の規定された位置における前記参照核酸配列と比較したときの前記クエリ核酸配列に対する前記ヌクレオチドの同一性を決定することと、
(iii)前記エクソン3中の規定された位置における前記クエリ核酸配列に対する前記ヌクレオチドの同一性に基づいて、前記クエリ配列が弱発現モチーフに特徴的な配列もしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないことを決定することと、
(iv)前記クエリ核酸配列が前記弱発現モチーフに特徴的な配列を示す場合、前記対象をDPB1の発現レベルが低いと同定すること、または前記クエリ核酸配列が前記強発現モチーフに特徴的な配列を示す場合、前記対象をDPB1の発現レベルが高いと同定することと、を含む、コンピュータ実装方法。
(項目2)
エクソン3の前記規定された位置が、前記エクソンの5’末端から20、27、52、87、234、242および270の位置にある、項目1に記載の方法。
(項目3)
前記弱発現モチーフを、エクソン3の位置20におけるG、エクソン3の位置27におけるT、エクソン3の位置52におけるT、エクソン3の位置87におけるG、エクソン3の位置234におけるT、エクソン3の位置242におけるC、およびエクソン3の位置270におけるTを含むものとして規定することをさらに含む、項目1または2に記載の方法。
(項目4)
前記強発現モチーフを、エクソン3の位置20におけるA、エクソン3の位置27におけるC、エクソン3の位置52におけるC、エクソン3の位置87におけるA、エクソン3の位置234におけるC、エクソン3の位置242におけるT、およびエクソン3の位置270におけるCを含むものとして規定することをさらに含む、項目1または2に記載の方法。
(項目5)
エクソン3の位置20、27、52、87、234、242および270で前記ヌクレオチドが前記弱発現モチーフまたは前記強発現モチーフのいずれにも特徴的でない場合、対立遺伝子が不確定として同定される、項目2に記載の方法。
(項目6)
前記同定することが、前記アラインメントされたクエリ核酸配列および前記参照核酸配列内のヌクレオチドを比較して、前記規定された位置以外のエクソン3の位置における前記クエリ核酸配列と前記参照核酸配列との間の任意の差異の存在を同定することをさらに
含む、項目1に記載の方法。
(項目7)
前記同定することが、前記アラインメントされたクエリ核酸配列および前記参照核酸配列内のヌクレオチドを比較して、前記クエリ核酸配列と前記参照核酸配列との間の任意の他の差異の存在を同定することをさらに含む、項目6に記載の方法。
(項目8)
エクソン3中の前記規定された位置以外の位置における前記クエリ核酸配列と前記参照核酸配列との間の差異の数が10より大きい場合、さらなる分析から前記クエリ配列を除外する、項目1に記載の方法。
(項目9)
前記クエリ核酸配列中の前記強発現モチーフがrs9277534 G対立遺伝子に連鎖されていることおよび/または前記クエリ核酸配列中の前記弱発現モチーフがrs9277534 A対立遺伝子に連鎖されていることを決定するためにコンピュータ実装連鎖分析を行うことをさらに含む、項目1に記載の方法。
(項目10)
前記参照核酸配列および/またはクエリ核酸配列が、前記DPB1遺伝子全体についてのロングリード配列データを含む、項目1に記載の方法。
(項目11)
前記参照核酸配列および/または前記クエリ核酸配列が、DRB1、DRB3およびDQB1のうちの少なくとも1つに対するロングリード配列データをさらに含む、項目9に記載の方法。
(項目12)
移植レシピエントにおける移植片対宿主病のリスクを低下させるために、前記結果を介護者および/または移植データベースに提供することをさらに含む、項目1に記載の方法。
(項目13)
エクソン3中の前記規定された位置以外の位置における前記クエリ核酸配列と前記参照核酸配列との間の差異の数が10を超える場合、前記クエリ配列に対する前記結果が介護者またはデータベースに提供されない、項目12に記載の方法。
(項目14)
前記対象が、造血幹細胞移植(HSCT)レシピエントに対する潜在的なドナーである、項目1に記載の方法。
(項目15)
システムであって、
1またはそれを超えるデータプロセッサと、
前記1またはそれを超えるデータプロセッサ上で実行されると、前記1またはそれを超えるデータプロセッサに、対象からの配列データを分析して、前記対象におけるDPB1発現レベルを予測することを含む動作を行わせる命令を含む、非一時的コンピュータ可読記憶媒体であって、
(a)ロングリードシークエンサーを使用して、前記対象のサンプルからクエリ核酸配列を得るコンピュータ実装工程と、
(b)コンピュータ実装アラインメントプログラムを使用して、前記対象からの前記クエリ核酸配列を参照核酸配列にアラインメントするコンピュータ実装工程であって、前記参照核酸配列および前記クエリ核酸配列が、DPB1の少なくともエクソン3についてのロングリード配列データを含む、アラインメントするコンピュータ実装工程と、
(c)コンピュータ実装アルゴリズムを使用して、前記アラインメントされたクエリ核酸配列および前記参照核酸配列に基づいて、前記クエリ核酸配列が低レベルのDPB1発現または高レベルのDPBI発現の特徴的な配列を有するかどうかを同定するコンピュータ実装工程と、を含み、前記同定するコンピュータ実装工程が、
(i)前記アラインメントされたクエリ核酸配列内のヌクレオチドと前記参照核酸配列
とを比較して、前記クエリ核酸配列と前記参照核酸配列との間の差異を同定することと、
(ii)前記クエリ配列核酸配列と前記参照核酸配列との間の前記同定された差異に基づいて、DPB1のエクソン3中の規定された位置における前記参照核酸配列と比較したときの前記クエリ核酸配列に対する前記ヌクレオチドの同一性を決定することと、
(iii)前記エクソン3中の規定された位置における前記クエリ核酸配列に対するヌクレオチドの同一性に基づいて、クエリ配列が弱発現モチーフに特徴的な配列もしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないことを決定することと、
(iv)前記クエリ核酸配列が前記弱発現モチーフに特徴的な配列を示す場合、前記対象をDPB1の発現レベルが低いと同定すること、または前記クエリ核酸配列が前記強発現モチーフに特徴的な配列を示す場合、前記対象をDPB1の発現レベルが高いと同定することと、を含む、非一時的コンピュータ可読記憶媒体と、を含む、システム。
(項目16)
前記動作が、エクソン3の位置20におけるG、エクソン3の位置27におけるT、エクソン3の位置52におけるT、エクソン3の位置87におけるG、エクソン3の位置234におけるT、エクソン3の位置242におけるC、およびエクソン3の位置270におけるTを含むものとして前記弱発現モチーフを規定することをさらに含む、項目15に記載のシステム。
(項目17)
前記動作が、エクソン3の位置20におけるA、エクソン3の位置27におけるC、エクソン3の位置52におけるC、エクソン3の位置87におけるA、エクソン3の位置234におけるC、エクソン3の位置242におけるT、およびエクソン3の位置270におけるCを含むものとして前記強発現モチーフを規定することをさらに含む、項目15に記載のシステム。
(項目18)
1またはそれを超えるデータプロセッサに、対象からの配列データを分析して、前記対象におけるDPB1発現レベルを予測することを含む動作を行わせるように構成された命令を含む、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品であって、
(a)ロングリードシークエンサーを使用して、前記対象のサンプルからクエリ核酸配列を得る工程、
(b)コンピュータ実装アラインメントプログラムを使用して、前記対象からの前記クエリ核酸配列を参照核酸配列にアラインメントする工程であって、前記参照核酸配列および前記クエリ核酸配列が、DPB1の少なくともエクソン3についてのロングリード配列データを含む、アラインメントする工程、および
(b)コンピュータ実装アルゴリズムを使用して、前記アラインメントされたクエリ核酸配列および前記参照核酸配列に基づいて、前記クエリ核酸配列が低レベルのDPB1発現または高レベルのDPBI発現の特徴的な配列を有するかどうかを同定する工程、のコンピュータ実装工程を含み、前記同定する工程が、
(i)前記アラインメントされたクエリ核酸配列内のヌクレオチドと前記参照核酸配列とを比較して、前記クエリ核酸配列と前記参照核酸配列との間の差異を同定することと、
(ii)前記クエリ配列核酸配列と前記参照核酸配列との間の前記同定された差異に基づいて、DPB1のエクソン3中の規定された位置における前記参照核酸配列と比較したときの前記クエリ核酸配列に対する前記ヌクレオチドの同一性を決定することと、
(iii)エクソン3中の規定された位置における前記クエリ核酸配列に対する前記ヌクレオチドの同一性に基づいて、クエリ配列が弱発現モチーフに特徴的な配列もしくは強発現モチーフに特徴的な配列を示すか、またはどちらでもないことを決定することと、
(iv)前記クエリ核酸配列が前記弱発現モチーフに特徴的な配列を示す場合、前記対象をDPB1の発現レベルが低いと同定すること、または前記クエリ核酸配列が前記強発現モチーフに特徴的な配列を示す場合、前記対象をDPB1の発現レベルが高いと同定することと、を含む、コンピュータプログラム製品。
(項目19)
前記動作が、エクソン3の位置20におけるG、エクソン3の位置27におけるT、エクソン3の位置52におけるT、エクソン3の位置87におけるG、エクソン3の位置234におけるT、エクソン3の位置242におけるC、およびエクソン3の位置270におけるTを含むものとして前記弱発現モチーフを規定することをさらに含む、項目18に記載のコンピュータプログラム製品。
(項目20)
前記動作が、エクソン3の位置20におけるA、エクソン3の位置27におけるC、エクソン3の位置52におけるC、エクソン3の位置87におけるA、エクソン3の位置234におけるC、エクソン3の位置242におけるT、およびエクソン3の位置270におけるCを含むものとして前記強発現モチーフを規定することをさらに含む、項目18に記載のコンピュータプログラム製品。
【配列表】