IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アブリンクス エン.ヴェー.の特許一覧

特表2024-543109ターゲット多価免疫グロブリン単一可変ドメインの配列情報の取得
<>
  • 特表-ターゲット多価免疫グロブリン単一可変ドメインの配列情報の取得 図1
  • 特表-ターゲット多価免疫グロブリン単一可変ドメインの配列情報の取得 図2
  • 特表-ターゲット多価免疫グロブリン単一可変ドメインの配列情報の取得 図3
  • 特表-ターゲット多価免疫グロブリン単一可変ドメインの配列情報の取得 図4
  • 特表-ターゲット多価免疫グロブリン単一可変ドメインの配列情報の取得 図5
  • 特表-ターゲット多価免疫グロブリン単一可変ドメインの配列情報の取得 図6
  • 特表-ターゲット多価免疫グロブリン単一可変ドメインの配列情報の取得 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-19
(54)【発明の名称】ターゲット多価免疫グロブリン単一可変ドメインの配列情報の取得
(51)【国際特許分類】
   G16B 30/00 20190101AFI20241112BHJP
【FI】
G16B30/00 ZNA
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024529915
(86)(22)【出願日】2022-11-22
(85)【翻訳文提出日】2024-06-05
(86)【国際出願番号】 EP2022082767
(87)【国際公開番号】W WO2023089191
(87)【国際公開日】2023-05-25
(31)【優先権主張番号】21209696.0
(32)【優先日】2021-11-22
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】505166225
【氏名又は名称】アブリンクス エン.ヴェー.
(74)【代理人】
【識別番号】100127926
【弁理士】
【氏名又は名称】結田 純次
(74)【代理人】
【識別番号】100216105
【弁理士】
【氏名又は名称】守安 智
(72)【発明者】
【氏名】ヤニク・ブリュイノーゲ
(72)【発明者】
【氏名】ノルベルト・フルトマン
(72)【発明者】
【氏名】ラーフ・ポンサーツ
(57)【要約】
複数のターゲット多価免疫グロブリン単一可変ドメイン(ISVs)の各々の配列情報を取得するためのコンピュータ実装方法は、複数の成分ISVsの各々の配列情報を取得することであって、各ターゲット多価免疫グロブリン単一可変ドメイン(ISV)は複数の成分ISVsを含む、受信することと、多価ISVsの候補配列の集合を、受信した配列情報に基づいて生成することと、配列決定情報のリードの複数の群を取得することであって、リードの各群は複数のターゲット多価ISVsの特定のターゲット多価ISVに対応する、取得することと、リードの群の中の各リードについて、1つ又は複数のヒットした候補配列を候補配列の群から特定することであって、1つ以上のヒットした候補配列の各々は、リードの対応する部分とのマッチする部分を含む、特定することと、ヒットした候補配列の各々のコンセンサスマトリクスを、ヒットした候補配列、リード、及びリードから導き出された1つ以上の配列を使って生成することであって、コンセンサスマトリクスは、アラインメント配列の複数の位置の中の各位置について、ヒットした候補配列、リード、及びリードから導き出された1つ以上の配列の間のコンセンサスを明示する、生成することと、リードの各群について、ヒットした候補配列の各々のアセンブリマトリクスを、リードの群の中の各リードのコンセンサスマトリクスに基づいて生成することと、各ターゲット多価ISVの配列情報を、ターゲット多価ISVに対応するリードの群について特定された1つ以上のアセンブリマトリクスに基づいて特定することと、を含む。
【特許請求の範囲】
【請求項1】
複数のターゲット多価免疫グロブリン単一可変ドメイン(ISVs)の各々の配列情報を取得するためのコンピュータ実装方法において、
複数の成分ISVsの各々の配列情報を取得することであって、各ターゲット多価免疫グロブリン単一可変ドメイン(ISV)は複数の前記成分ISVsを含む、受信することと、
多価ISVsの候補配列の集合を、前記受信した配列情報に基づいて生成することと、
配列情報のリードの複数の群を取得することであって、リードの各群は前記複数のターゲット多価ISVsの特定のターゲット多価ISVに対応する、取得することと、
リードの群の中の各リードについて、
前記候補配列の集合から1つ以上のヒット候補配列を特定することであって、前記1つ以上のヒット候補配列の各々は前記リードの対応する部分とマッチする部分を含む、特定することと、
ヒットした候補配列の各々のコンセンサスマトリクスを、前記ヒットした候補配列、前記リード、及び前記リードから導き出された1つ以上の配列を使って生成することであって、前記コンセンサスマトリクスは、アラインメント配列内の複数の位置の中の各位置について、前記ヒットした候補配列、前記リード、及び前記リードから導き出された前記1つ以上の配列の間のコンセンサスを明示する、生成することと、
リードの各群について、ヒットした候補配列の各々のアセンブリマトリクスを、前記リードの群の中の各リードの前記コンセンサスマトリクスに基づいて生成することと、
各ターゲット多価ISVの配列情報を、前記ターゲット多価ISVに対応する前記リードの群について特定された1つ以上のアセンブリマトリクスに基づいて特定することと、
を含む。
【請求項2】
リードは、前記リードの複数の位置の中の各位置の文字コードを含み、各文字コードは、主要塩基の文字コードか曖昧さ文字コードの何れかを明示し、リードについて、前記候補配列の集合から1つ以上のヒットした候補配列を特定することは、
前記リードの終端から1つ以上の文字コードを取り除いて、複数のイテレーションの中の各イテレーションのための短縮リードを生成することと、
あるイテレーションの前記短縮リードと各候補配列との間のパターンマッチングプロセスを実行することと、
あるイテレーションのある短縮リードが特定の候補配列とマッチする場合、前記特定の候補配列を前記1つ以上のヒットした候補配列に追加することと、を含む、請求項1に記載の方法。
【請求項3】
リードは前記リードの複数の位置の中の各位置の文字コードを含み、各文字コードは、主要塩基の文字コード又は曖昧さ文字コードの何れかを明示し、前記リードは各位置の配列決定品質を明示し、あるリードについて、1つ以上のヒットした候補配列を前記候補配列の集合から特定することは、
カットオフパラメータを受信することと、
トリミングされたリードを特定することであって、前記リードの、各々が前記カットオフパラメータにより明示される値より低い配列決定品質を有する1つ以上の文字コードを取り除くことを含む、特定することと、
前記リードの開始位置を特定することと、前記リードの、前記開始位置より前の文字コードを取り除くことと、
前記リードの、最初に曖昧さ文字コードを明示する位置を特定することと、
前記リードの、前記特定された位置から始まり、前記リードの終端位置までの位置を有する文字コードを取り除くことと、
を含む、請求項1又は2に記載の方法。
【請求項4】
前記ヒットした候補配列中の各候補配列は、前記リードの群の中の各リードに対応するそれぞれのマッチング部分を含む、請求項1~3の何れか1項に記載の方法。
【請求項5】
前記アラインメント配列は、前記ヒットした候補配列、前記リード、及び前記リードから導き出された1つ以上の配列の間の多重配列アラインメント、MSAを実行することによって特定される、請求項1~4の何れか1項に記載の方法。
【請求項6】
前記多重配列アラインメントは、前記ヒットした候補配列の各々、前記リード、及び前記リードから導き出された前記1つ以上の配列の各々を、前記アラインメント配列の中に何れのギャップも導入せずに並べるように構成される、請求項5に記載の方法。
【請求項7】
前記リードから導き出された前記1つ以上の配列は、
トリミングされたリードであって、前記リードの、各々が受信されたカットオフパラメータにより明示される値より低い配列決定品質を有する1つ以上の文字コードが取り除かれたトリミングされたリードと、
塩基判定配列であって、前記リードの、曖昧さ文字コードを有する位置が主要塩基の文字コードに置換された塩基判定配列
のうちの少なくとも1つを含む、請求項1~6の何れか1項に記載の方法。
【請求項8】
前記リードの複数の群の中の各群は、前記群のそれぞれの前記ターゲット多価ISVの1つ以上のフォワードリードと、それぞれの前記ターゲット多価ISVの1つ以上のリバースリードを含む、請求項1~7の何れか1項に記載の方法。
【請求項9】
多価ISVの候補配列の集合を、前記受信した配列情報に基づいて生成することは、
1つ以上のリンカの各々の配列情報を受信することと、
特定の制限酵素認識部位の表示を受信すること、
多価ISVの前記候補配列の集合を、前記1つ以上のリンカの前記配列決定情報と、前記特定の制限酵素認識部位の前記表示を使って生成することと、
を含む、請求項1~8の何れか1項に記載の方法。
【請求項10】
前記コンセンサスマトリクスは、前記アラインメント配列内の前記複数の位置の中の各位置において、主要塩基文字コードからの各主要塩基文字コードについてのスコアを含む、請求項1~9の何れか1項に記載の方法。
【請求項11】
前記アセンブリマトリクスは、前記リードの群の中の各リードについて、及び前記アラインメント配列内の各位置について、主要塩基の文字コードか、前記リードの前記位置で主要塩基の何れも文字コードも特定できなかったことを示すエンプティ記号の何れかを含む、請求項10に記載の方法。
【請求項12】
各成分ISVはVL、VH、VHH、ヒト化VHH、及びラクダ化VHから選択され、任意選択により、前記成分ISVsの各々は多価ISVである、請求項1~11の何れか1項に記載の方法。
【請求項13】
各ターゲット多価ISVの前記配列情報は核酸配列を含み、及び/又は各成分ISVの前記配列情報は核酸配列を含み、任意選択により、前記核酸配列はDNA配列である、請求項1~12の何れか1項に記載の方法。
【請求項14】
請求項1~13の何れか1項に記載の前記方法を実行するように構成された1つ以上のプロセッサを含む装置。
【請求項15】
1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに請求項1~13の何れか1項に記載の方法を実行させる命令を含むコンピュータ可読記憶媒体。
【請求項16】
複数のターゲット多価ISV免疫グロブリン単一可変ドメイン(ISVs)の各々の配列情報を取得するためのコンピュータ装置において、
複数の成分ISVsの各々についての配列情報を受信することであって、各ターゲット多価免疫グロブリン単一可変ドメイン(ISV)は複数の前記成分ISVsを含む、受信することと、
多価ISVsの候補配列の集合を、前記受信した配列情報に基づいて生成することと、
配列決定情報のリードの複数の群を取得することであって、リードの各群は前記複数のターゲット多価ISVsの特定のターゲット多価ISVに対応する、特定することと、
リードの群の各リードについて、
1つ以上のヒットした候補配列を前記候補配列の集合から特定することであって、前記1つ以上のヒットした候補配列の各々は、前記リードの対応する部分とのマッチング部分を含む、特定することと、
ヒットした候補配列の各々のコンセンサスマトリクスを、前記ヒットした候補配列、前記リード、及び前記リードから導き出された1つ以上の配列を使って生成することであって、前記コンセンサスマトリクスは、アラインメント配列の複数の位置の中の各位置について、前記ヒットした候補配列、前記リード、及び前記リードから導き出された前記1つ以上の配列の間のコンセンサスを明示する、生成することと、
リードの各群について、各々のヒットした候補配列のアセンブリマトリクスを、前記リードの群の中の各リードの前記コンセンサスマトリクスに基づいて生成することと、
各ターゲット多価ISVの配列情報を、前記ターゲット多価ISVに対応する前記リードの群について特定された1つ以上のアセンブリマトリクスに基づいて特定することと、
を実行するように構成される装置。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書は、ターゲット多価免疫グロブリン単一可変ドメイン(ISVs)の配列情報を、複数の成分ISVに関して受け取った配列情報に基づいて取得することに関する。
【背景技術】
【0002】
多価ISVsの配列情報、例えばDNA配列の取得は困難な作業である。例えば、多価免疫グロブリン単一可変ドメイン(ISV)の配列情報は通常、大きすぎて従来の配列決定技術では一度に配列決定できない。多価ISVの断片の配列を決定して多価ISV全体の配列を取得する技術では、各断片の配列情報(又はその部分)を結合する必要があり、これは、例えば配列決定された断片の各々の中に多くの繰返しの配列が存在し得るため、時間のかかる困難な作業である。
【発明の概要】
【課題を解決するための手段】
【0003】
本明細書の第一の態様により、複数のターゲット多価免疫グロブリン単一可変ドメイン(ISVs)の各々の配列情報を取得するためのコンピュータ実装方法が記される。この方法は、複数の成分ISVsの各々の配列情報を受信することであって、ターゲット多価免疫グロブリン単一可変ドメイン(ISV)の各々は複数の成分ISVsを含む、受信することと、多価ISVsの候補配列の集合を受信した配列情報に基づいて生成することと、配列決定情報のリードの複数の群を取得することであって、リードの各群は、複数のターゲット多価ISVsの特定のターゲット多価ISVに対応する、取得することと、リード群の中の各リードに関して、候補配列の集合から1つ以上のヒットした候補配列を特定することであって、1つ以上のヒットした候補配列の各々は、リードの対応する部分とのマッチ部分を含む、特定することと、ヒットした候補配列、リード、及びリードから導き出された1つ以上の配列を使って、ヒットした候補配列の各々のコンセンサスマトリクスを生成することであって、コンセンサスマトリクスは、アラインメント配列の複数の位置の中の各位置について、ヒットした候補配列、リード、及びリードから導き出された1つ以上の配列の間のコンセンサスを明示する、生成することと、各リード群について、ヒットした候補配列の各々についてのアセンブリマトリクスを、リード群の中の各リードのコンセンサスマトリクスに基づいて生成することと、各ターゲット多価ISVの配列情報を、ターゲット多価ISVに対応するリード群について特定された1つ以上のアセンブリマトリクスに基づいて特定することと、を含む。
【0004】
これにより、複数のターゲット多価ISVsの各々の配列情報を自動的に迅速な方法で特定できるようにすることが可能となり、例えば数分で96のクローンの配列情報が特定される。
【0005】
リードは、リードの複数の位置の中の各位置の文字コードを含み得る。各文字コードは、主要塩基のための文字コードか曖昧さ文字コードの何れかを明示する。あるリードについて、候補配列の集合から1つ以上のヒットした候補配列を特定することは、リードの端から1つ以上の文字コードを取り除いて、複数のイテレーションの中の各イテレーションに関する短縮リードを生成することを含み得る。特定することは、イテレーションの短縮リードと各候補配列との間のパターンマッチングプロセスを実行することをさらに含み得る。特定することは、あるイテレーションの短縮リードが特定の候補配列とマッチした場合、その特定の候補配列を1つ以上のヒットした候補配列に追加することをさらに含み得る。
【0006】
これによって、例えば配列決定にエラー又は誤りがあったとしても、各ターゲット多価ISVの配列情報を特定できるようにすることが可能となり、一度に少数の文字コードを取り除くことにより、各イテレーションでのヒットした候補配列の数が減り、したがって、ターゲット多価ISVsの正確な配列情報を特定する可能性がより高くなる。
【0007】
リードは各位置の配列決定品質を指定し得る。あるリードについて、候補配列の集合から1つ以上のヒットした候補配列を特定することは、カットオフパラメータを受信することと、リードのうち、各々、カットオフパラメータにより明示された値より低い配列決定品質を有する1つ以上の文字コードを取り除くこと、リードの開始位置を特定すること、及びリードの、開始位置より前の文字コードを取り除くことを含む、トリミングされたリードを特定することと、リードの、最初に曖昧さ文字コードを明示する位置を特定することと、リードの、特定された位置から始まり、リードの終端位置までの位置を有する文字コードを取り除くことと、を含み得る。
【0008】
これは、リードが十分に高品質のものであることを確実にするのに役立つことができる。
【0009】
ヒットした候補配列の中の各候補配列は、リード群の中の各リードに対応するそれぞれのマッチ部分を含み得る。
【0010】
これは、ヒットした候補配列が各リードについて有効であることを確実にするのに役立つことができる。
【0011】
アラインメント配列は、ヒットした候補配列、リード、及びリードから導き出された1つ以上の配列の間の多重配列アラインメント、MSAを実行することによって特定され得る。多重配列アラインメントは、ヒットした候補配列、リード、及びリードから導き出された1つ以上の配列の各々を、アラインメント配列の中にいかなるギャップも導入することなく並べるように構成され得る。これは、「完璧な」アラインメントを見つけるのに役立つことができ、したがって、より有意義な結果(すなわち、ギャップの挿入によるチャンスのために、より可能性が低い)をコンセンサスマトリクスの中で取得できる。
【0012】
リードから導き出された1つ以上の配列は、そのリードの、各々が受信したカットオフパラメータにより明示された値より低い配列決定品質を有する1つ以上の文字コードが取り除かれている、トリミングされたリード、曖昧さ文字コードを持つリードの位置が主要塩基の文字コードに置き換えられている塩基判定配列、のうちの少なくとも1つを含み得る。
【0013】
リードの複数の群の中の各群は、その群のそれぞれのターゲット多価ISVの1つ以上のフォワードリードと、それぞれのターゲット多価ISVの1つ以上のリバースリードを含み得る。
【0014】
多価ISVsの候補配列の集合を受信した配列情報に基づいて生成することは、1つ以上のリンカの配列情報を受信することと、特定の制限酵素認識部位の表示を受信することと、1つ以上のリンカの配列決定情報及び特定の制限酵素認識部位の表示を使って、多価ISVsの候補配列の集合を生成することと、を含み得る。
【0015】
配列マトリクスは、アラインメント配列内の複数の位置の中の各位置における、主要塩基文字コードの集合の中の各主要塩基文字コードについてのスコアを含み得る。アセンブリマトリクスは、リード群の中の各リードについて、及びアラインメント配列内の各位置について、主要塩基の文字コードか、リードのその位置について主要塩基のいかなる文字コードも特定できなかったことを示すエンプティ記号の何れかを含み得る。
【0016】
各成分ISVは、VL、VH、VHH、ヒト化VHH、及びラクダ化HVから選択され得る。各成分ISVsは1価ISVであり得る。
【0017】
各ターゲット多価ISVの配列情報は核酸配列を含み得る。各成分ISVの配列情報は核酸配列を含み得る。核酸配列はDNA配列であり得る。
【0018】
本明細書の他の態様により、本明細書に記載の方法の何れか1つ以上の方法を実行するように構成された1つ以上のプロセッサを含む装置が記される。
【0019】
本明細書の他の態様により、1つ以上のプロセッサにより実行されると、1つ以上のプロセッサに本明細書に記載の方法の何れか1つ又は複数の方法を実行させる命令を含むコンピュータ可読記憶媒体が記される。
【0020】
本発明をより理解しやすくするために、ここで、下記のような添付の図面を参照しながらその実施形態をあくまでも例として説明する。
【図面の簡単な説明】
【0021】
図1】例示的多価ISVを示す。
図2】多価ISVsの配列情報を取得するための例示的方法のフローチャートを示す。
図3】ターゲット多価ISVのコンセンサスマトリクスの例示的部分を示す。
図4】ターゲット多価ISVのアセンブリマトリクスの例示的部分を示す。
図5】2つの多価ISVsの各々について特定された例示的DNA配列を示す。
図6】2つの多価ISVsの各々について特定された例示的アミノ酸配列を示す。
図7】本明細書に記載の方法を実行するためのシステム/装置の概略図である。
【発明を実施するための形態】
【0022】
本明細書に記載の各種の例示的な実装は、多価ISVsの配列情報(例えば、DNA配列等の核酸配列)を取得するためのシステムと方法に関する。特に、記載されているシステムと方法は、多価ISVsのライブラリの理論的配列の集合を、その多価ISVsを形成する成分ISVsの配列情報(例えば、DNA配列)に基づいて生成する。理論的配列(本明細書では理論的コンストラクトとも呼ばれ得る)は、ある多価ISVの断片について得られた配列決定結果(すなわちリード)及び配列決定結果から導き出された1つ以上の配列と比較され、その多価ISVの配列情報が特定される。このようにして、ISVsの配列情報は高い正確さで自動的且つロバストな方法により取得される。
【0023】
ターゲット多価ISVsのライブラリは、複数の成分ISVsから得られる。複数の成分ISVsは、1つ以上の単価ISVs、1つ以上の二価ISVs、1つ以上の三価ISVs、又は成分ISV全体のための配列情報が特定される他の何れかの成分ISVを含み得る。幾つかの実施形態において、成分免疫グロブリン単一可変ドメインの各々は単価ISVsであり得る。
【0024】
ターゲット多価ISVsのライブラリは、標準的手法を使って複数の成分ISVsから作られる。例えば、各ISVのゲノムDNA(又はcDNA)は抽出されて精製され、その後、物理的手法又は、例えば制限酵素を用いる酵素的手法を利用して消化され、より小さい二本鎖断片が作られる。すると、アダプタ(合成DNAの短い二本鎖小片)がこれらの消化されたDNA断片の端に連結される。その後、DNAライブラリがクローン的に増幅されて、配列決定中に各ターゲット断片から検出される信号が増大される。増幅中、ライブラリ中の各DNA断片はベア(bear)又はフローセル表面に固定され、PCRを使って増幅されて、同一のクローンが作成される。この増幅によってDNAのクラスタが作成され、各々が単一のライブラリ断片から生じており、複数の成分ISVsのうちの1つを表す。
【0025】
ターゲット多価ISVsのDNAライブラリはすると、高スループットの次世代シーケンシング(NGS)方式、例えば454パイロシーケンシング、イオントレント半導体シーケンシング、ライゲーションによるシーケンシング(SOLid)、又はイルミナシーケンスを含む当業者の間でよく知られている多くの配列決定方法のうちの1つを使って配列決定される。例えば、DNA断片は、鋳型鎖の3’末端にハイブリダイズするDNAポリマラーゼ及びプライマと共にウェル内に投入でき、各断片の完全に相補的な鎖が合成される。そのため、複数の成分ISVsのDNA配列と、成分ISVs(及び/又は共有領域)を一体に連結する1つ以上のリンカのDNA配列が、例えば1つ以上のフォワードプライマ及び/又は1つ以上のリバースプライマを含む配列決定のための複数のプライマ並びに制限酵素を使って取得できる。
【0026】
例えば、ターゲット多価ISVsのライブラリは1つ以上のマイクロプレートを使って配列決定され得て、マイクロプレートの各ウェルは、成分ISVsの異なる組合せ及び/又は配列決定に使用される異なるプライマを用いて生成された多価ISVの異なる断片に対応する。特定の例として、各プライマにつき異なる96ウェルプレートが使用され得て、個々のウェルプレートの対応する位置は同じクローンに対応し得る。例えば、第一のプレートのウェルA01はフォワードプライマを使って配列決定されたクローンに対応し得て、第二のプレートのウェルA01はリバースプライマを使って配列決定された同じクローンに対応し得る。代替的に、異なるプライマを使って1つのプレートが配列決定されてもよく、この場合、各クローンは異なるウェル内の各種のプライマのうちの特定のプライマによって配列決定される。
【0027】
図1は、例示的なターゲット多価ISV 100を示す。図1に示される多価ISV 100は、リンカ106により一体に連結された5つの単価ISVs 101、102、103、104、105からなる五価ISVである。単価ISVsの各々は、同じターゲットの異なる部位(すなわち、抗原)、又は異なるターゲットに向けることができる。
【0028】
「免疫グロブリン単一可変ドメイン」(ISV)という用語は、「単一可変ドメイン」と互換的に使用され、抗原結合部位が単一の免疫グロブリンドメイン上に存在し、それによって形成される免疫グロブリン分子を定義する。これは、免疫グロブリン単一可変ドメインを「従来の」免疫グロブリン(例えば、モノクローナル抗体)又はそれらの断片(例えば、Fab、Fab’、F(ab’)、scFv、di-scFv)と区別しており、2つの免疫グロブリンドメイン、特に2つの可変ドメインが相互作用して抗原結合部位を形成する。典型的に、従来の免疫グロブリンでは、重鎖可変ドメイン(V)と軽鎖可変ドメイン(V)が相互作用して抗原結合部位を形成する。この場合、VとVの両方の相補性決定領域(CDRs)は抗原結合部位に寄与しており、すなわち合計6のCDRsが抗原結合部位の形成に関わる。
【0029】
上述の定義に鑑み、従来の4鎖抗体(例えば、当業界で知られているIgG、IgM、IgA、IgD、若しくはIgE分子)の、又はFab断片、F(ab’)断片、ジスルフィド結合Fv等のFv断片、若しくはscFv断片、又はこのような従来の4鎖抗体から導き出された二重特異性抗体(すべて当業界で知られている)は通常、免疫グロブリン単一可変ドメインとはみなされず、それは、これらのケースでは、抗原のそれぞれのエピトープへの結合が通常、1つの(単一)免疫グロブリンドメインによってではなく、軽鎖及び重鎖可変ドメイン等の(関連する)免疫グロブリンドメインのペアによって、すなわちそれぞれの抗原のエピトープに共同で結合する免疫グロブリンドメインのV-Vペアによって起こるからである。
【0030】
それに対して、免疫グロブリン単一可変ドメインは、他の免疫グロブリン可変ドメインとペアにならずに、抗原のエピトープに特異的に結合できる。免疫グロブリン単一可変ドメインの結合部位は、単一V、単一VHH又は単一Vドメインにより形成される。
そのため、単一可変ドメインは、それが単一の抗原結合ユニット(すなわち、基本的に単一可変ドメインからなり、単一抗原結合ドメインが機能的抗原結合ユニットを形成するために他の可変ドメインと相互作用する必要がない機能的抗原結合ユニット)を形成できるかぎり、軽鎖可変ドメイン配列(例えば、V-配列)若しくは適当なその断片、或いは重鎖可変ドメイン配列(例えば、V-配列若しくはVHH配列)又は適当なその断片であり得る。
免疫グロブリン単一可変ドメイン(ISV)は例えば、重鎖ISV、例えばラクダ化V又はヒト化VHHを含むV,VHHとすることができる。1つの実施形態において、これは、ラクダ化V又はヒト化VHHを含むVHHである。重鎖ISVsは、従来の4鎖抗体から、又は重鎖抗体から導き出すことができる。
【0031】
例えば、免疫グロブリン単一可変ドメインは、単一ドメイン抗体(又は単一ドメイン抗体として使用するのに適したアミノ酸配列)、「dAb」若しくはdAb(又はdAbとして使用するのに適したアミノ酸配列)、Nanobody(登録商標)ISV(本明細書で定義され、VHHを含むがこれに限定されない)、他の単一可変ドメイン、又はこれらのうちの何れか1つのあらゆる適当な断片であり得る。
特に、免疫グロブリン単一可変ドメインは、Nanobody(登録商標)ISV(例えば、ヒト化VHH若しくはラクダ化Vを含むVHH)又はそれらの適当な断片であり得る。[注:Nanobody(登録商標)及びNanobodies(登録商標)はAblynx N.V.の登録商標である。]
「VHHドメイン」は、VHHs、VHH抗原断片、及びVHH抗体としても知られ、もともと、「重鎖抗体」の(すなわち、「軽鎖を持たない抗体」の;Hamers-Casterman et al.Nature 363:446-448(1993))抗原結合免疫グロブリン可変ドメインとして説明されていた。「VHHドメイン」という用語は、これらの可変ドメインを従来の4鎖抗体中に存在する重鎖可変ドメイン(本明細書では「Vドメイン」と呼ばれる)から、及び従来の4鎖抗体中に存在する軽鎖可変ドメイン(本明細書では「Vドメイン」と呼ばれる)から区別するために選択されている。VHH’sのさらなる説明は、Muyldermans(Reviews in Molecular Biotechnology 74:277-302,2001)のレビュー論文を参照されたい。)
【0032】
VHHs等の免疫グロブリン配列の生成については様々な公開文献の中に広く記載されており、それには国際公開第94/05678号パンフレット、Hamers-Casterman et al.1993及びMuyldermans et al.2001(Reviews in Molecular Biotechnology 74:277-302,2001)が含まれる。これらの方法においてラクダ類はターゲット抗原で免疫化され、前記ターゲット抗原に対する免疫反応が引き起こされる。前記免疫化から得られるVHHsのレパートリはさらにスクリーニングされて、ターゲット抗原と結合するVHHsを借る。
【0033】
これらの例では、抗体の生成には免疫化及び/又はスクリーニングのために精製された抗原が必要である。抗原は天然由来のものから、又は組み換え生産の過程で純化できる。免疫グロブリン配列のための免疫化及び/又はスクリーニングは、このような光源のペプチド断片を使って行うことができる。
【0034】
マウス、ラット、ウサギ、ロバ、ヒト、及びラクダ化免疫グロブリン配列を含む、異なる由来の免疫グロブリン配列は、本明細書に記載の方法で配列決定できる。また、本明細書に記載の方法では、完全ヒト型、ヒト化、又はキメラ配列も配列決定できる。例えば、本明細書に記載の方法では、ラクダ科動物免疫グロブリン配列及びヒト化ラクダ科動物免疫グロブリン配列、又はラクダ化ドメイン抗体、例えばWard et alにより記載されているラクダ化dAb(例えば、国際公開第94/04678号パンフレット及びRiechmann,Febs Lett.,339:285-290,1994及びProt.Eng.,9:531-537,1996も参照)を配列決定できる。さらに、ISVsは融合されて多価及び/又は多重特異性コンストラクトを形成する(1つ以上のVHHドメインを含む多価及び多重特異性ポリペプチド及びそれらの調合物のため、Conrath et al.,J.Biol.Chem.,Vol.276.10.7346-7350,2001のほか、例えば国際公開第96/34103号パンフレット及び国際公開第99/23221号パンフレットも参照のこと)。
【0035】
「ヒト化VHH」は、天然に発生するVHHドメインのアミノ酸配列に対応するが、「ヒト化」された、すなわち前記天然に発生するVHH配列のアミノ酸配列中(及び特にフレームワーク配列中)の1つ以上のアミノ酸残基を人間の従来の4鎖抗体からのVドメイン内の対応する位置において生じるアミノ酸残基の1つ以上(例えば、前述の通り)と置換されたアミノ酸配列を含む。これは、当業者にとっては明らかであるように、それ自体よく知られている方法で、例えば先行技術(例えば、国際公開第2008/020079号パンフレット)に基づいて実行できる。再び、このようなヒト化VHHはそれ自体知られている何れの伝統的な方法でも取得でき、それゆえ開始材料として天然に発生するVHHドメインを含むポリペプチドを使って取得されたポリペプチドには厳格に限定されないことに留意すべきである。
【0036】
「ラクダ化V」は、天然に発生するVドメインのアミノ酸配列に対応するが、「ラクダ化」されている、すなわち従来の4鎖抗体からの天然に発生するVドメインのアミノ酸配列中の1つ以上のアミノ酸残基を、(ラクダ類)重鎖抗体のVHHドメイン中の対応する位置において生じるアミノ酸残基の1つ以上と置換されているアミノ酸配列を含む。これは、当業者にとっては明らかであるように、それ自体よく知られている方法で、例えば先行技術(例えば、前述のDavies及びRiechman(1994及び1996))の記載に基づいて実行できる。このような「ラクダ化」置換は、本明細書において定義されているように、V-V界面及び/又はいわゆるラクダ科動物ホールマーク残基を形成する、及び/又はそこに存在するアミノ酸の位置に挿入される(例えば、国際公開第94/04678号パンフレットと、前述のDavies及びRiechmann(1994及び1996)参照)。1つの実施形態において、ラクダ化Vを生成又は設計するための開始材料又は開始点として使用されるV配列は、哺乳類由来のV配列、例えば人間由来のV配列、例えばV3配列である。しかしながら、このようなラクダ化Vは、それ自体知られている何れの適当な方法でも取得でき、それゆえ開始材料として天然に発生するVドメインを含むポリペプチドを使用して得られたポリペプチドには厳格に限定されないことに留意すべきである。
【0037】
免疫グロブリン単一可変ドメイン配列の構造は、4つのフレームワーク領域(「FRs」)からなると考えることができ、これらは、当業界及び本明細書において、それぞれ「フレームワーク領域1」(「FR1」)、「フレームワーク領域2」(「FR2」)、「フレームワーク領域3」(「FR3」)、「フレームワーク領域4」(「FR4」)と呼ばれ、これらのフレームワーク領域は3つの「相補性決定領域」(「CDRs」)により中断され、これらは当業界及び本明細書において、それぞれ「相補性決定領域1」(「CDR1」)、「相補性決定領域2」(「CDR2」)、及び「相補性決定領域3」(「CDR3」)と呼ばれる。
【0038】
このような免疫グロブリン配列において、フレームワーク領域は何れの適当なフレームワーク領配列であってもよく、適当なフレームワーク配列の例は、当業者にとっては、例えば標準的ハンドブック及び本明細書に記載のさらなる開示及び先行技術に基づき、明らかであろう。
【0039】
フレームワーク配列は、免疫グロブリンフレームワーク配列又は免疫グロブリンフレームワーク配列から(例えば、ヒト化又はラクダ化によって)導き出されたフレームワーク配列(の適当な組合せ)である。例えば、フレームワーク配列は、軽鎖可変ドメイン(例えば、V-配列)及び/又は重鎖可変ドメイン(例えば、V-配列又はVHH配列)から導き出されるフレームワーク配列であり得る。1つの特定の態様において、フレームワーク配列は、VHH-配列から導き出されたフレームワーク配列(その中では前記フレームワーク配列は任意選択的に部分的又は完全にヒト化されている)か、又はラクダ化された(本明細書中で定義)従来のV配列の何れかである。
【0040】
特に、本明細書に記載の方法で使用されるISV配列中に存在するフレームワーク配列は、ホールマーク残基(本明細書中で定義)の1つ以上を含み得て、ISV配列は、例えば、ヒト化VHH又はラクダ化Vを含むVHHNanobody(登録商標)ISVを含み得る。このようなフレームワーク配列(の適当な組合せ)の非限定的な例は、本明細書中の以下の開示から明らかとなるであろう。
ドメイン及びVHHドメイン中のアミノ酸残基の総数は通常、110~120の範囲、多くの場合、112~115であろう。しかしながら、これより短い、及び長い配列もまた、本明細書に記載の目的のために適当であり得ることに留意すべきである。
しかしながら、本願の方法で配列決定される多価ISVポリペプチドに含まれるISVsは、ISV配列の(又はそれを表現するために使用されるヌクレオチド配列の)由来についても、ISV配列又はヌクレオチド配列が生成又は取得される(又はされた)方法についても限定されないことに留意すべきである。それゆえ、ISV配列は天然に発生する配列(何れかの適当な種から)でも、合成若しくは半合成配列でもよい。特定の、ただし非限定的な態様において、ISV配列は天然に発生する配列(何れかの適当な種から)又は、合成若しくは半合成配列であり、これにはヒト化(本明細書中で定義)免疫グロブリン配列(例えば部分的又は完全にヒト化されたマウス又はウサギ免疫グロブリン配列、及び特に部分的又は完全にヒト化されたVHH配列)、「ラクダ化」(本明細書中で定義)免疫グロブリン配列(及び特にラクダ化V配列)のほか、親和性成熟(例えば、合成、ランダム、又は天然に発生する免疫グロブリン配列から開始)、CDRグラフティング、ベニアリング、異なる免疫グロブリン配列から導き出された断片の結合、オーバラッププライマを使用したPCTアセンブリ、及びこれらと同様の、当業者の間でよく知られている免疫グロブリン配列エンジニアリング技術等の手法により得られたISVs、又は前述の何れかのあらゆる適当な組合せが含まれる。
【0041】
同様に、ヌクレオチド配列は天然に発生するヌクレオチド配列又は合成若しくは半合成配列であり得、例えば、PCRにより適当な天然に発生する鋳型から単離された配列(例えば、細胞から単離されたDNA又はRNA)、ライブラリ(及び特に表現ライブラリ)から単離されたヌクレオチド配列、天然に発生するヌクレオチド配列への(ミスマッチPCR等の、それ自体知られた適当な何れかの技術を用いた)変異導入により調製されたヌクレオチド配列、オーバラッププライマを使ってPCRにより調製されたヌクレオチド配列、又はそれ自体知られたDNA合成技術を使って調製されたヌクレオチド配列であり得る。
【0042】
一般に、Nanobody(登録商標)ISVs(特に、(部分的に)ヒト化されたVHH配列及びラクダ化されたV配列を含むVHH配列)は、1つ以上のフレームワーク配列(本明細書に記載の通り)の中の1つ以上の「ホールマーク残基」(同じく本明細書にさらに記載の通り)の存在により特徴付けることができる。それゆえ、一般に、Nanobody(登録商標)ISVは下記の(一般的)構造を有する免疫グロブリン配列として定義できる:
FR1-CDR1-FR2-CDR2-FR3-CDR3-FR4
ただし、FR1~FR4はそれぞれフレームワーク領域1~4を指し、CDR1~CDR3はそれぞれ相補性決定領域1~3を指し、ホールマーク残基の1つ以上は本明細書中でさらに定義される通りである。
具体的に、Nanobody(登録商標)ISVは下記の(一般的)構造を有する免疫グロブリン配列とすることができる:
FR1-CDR1-FR2-CDR2-FR3-CDR3-FR4
ただし、FR1~FR4はそれぞれフレームワーク領域1~4を指し、CDR1~CDR3はそれぞれ相補性決定領域1~3を指し、ホールマーク残基の1つ以上は本明細書中でさらに定義される通りである。
より具体的に、Nanobody(登録商標)ISVは下記の(一般的)構造を有する免疫グロブリン配列とすることができる:
FR1-CDR1-FR2-CDR2-FR3-CDR3-FR4
ただし、FR1~FR4はそれぞれフレームワーク領域1~4を指し、CDR1~CDR3はそれぞれ相補性決定領域1~3を指し、
Kabatナンバリングによる位置11、37、44、45、47、83、84、103、104、108におけるアミノ酸残基の1つ以上は、下の表Aに記されるホールマーク残基から選択される。
【0043】
【表1】
【0044】
本明細書で使用されるかぎり、VHHは重鎖のみの抗体(HcAB)であり、大きさは約15kDaで、ラクダ類(ラクダ、アルパカ、ヒトコブラクダ、ラマ由来のHVV)及び軟骨魚類(サメ由来のVNAR)において天然に生成される。VHHは、重鎖抗体の可変領域に対応する。
【0045】
ISVsは従来の抗体より有利である。すなわち、これらはIgG分子の約10分の1の大きさであり、その結果、適正にフォールディングされた機能的ISVsはin vitro発現により産生可能でありながら、高収率が実現される。さらに、ISVsは非常に安定で、プロテアーゼの作用に対する耐性があり、二価又は多価形態へのエンジニアリングを容易にできる。
【0046】
本明細書で使用されるかぎり、「単価ISV」という用語は、単一のISVを含む、又は基本的にそれからなる化合物を指す。
【0047】
本明細書で使用されるかぎり、「多価ISV」という用語は、単一の分枝の中に2つ以上のISVsが結合された化合物を指す。
【0048】
一般に、「多価」という用語は、ポリペプチド中に複数のISVsが存在することを示す。1つの実施形態において、ポリペプチドは「二価」であり、すなわち2つのISVsを含む、又はそれからなる。1つの実施形態において、ポリペプチドは「三価」であり、すなわち3つのISVsを含む、又はそれからなる。他の実施形態において、ポリペプチドは「四価」であり、すなわち4つのISVDsを含み、又はそれからなる。本明細書に記載の方法で配列決定されるポリペプチドはそれゆえ、「二価」、「三価」、「四価」、「五価」、「六価」、「七価」、「八価」、「九価」等とすることができ、すなわちポリペプチドはそれぞれ2、3、4、5、6、7、8、9等のISVsを含み、又はそれからなる。1つの実施形態において、多価ISVポリペプチドは三価である。他の実施形態において、多価ISVポリペプチドは四価である。また別の実施形態において、多価ISVポリペプチドは五価である。
【0049】
1つの実施形態において、多価ISVポリペプチドはまた、多重特異性とすることもできる。「多特性性」という用語は、複数の異なるターゲット分子(抗原とも呼ばれる)との結合を意味する。多価ISVポリペプチドはそれゆえ、「二重特異性」、「三重特異性」、「四重特異性」等とすることができ、すなわちそれぞれ2、3、4等の異なるターゲット分子に結合できる。
【0050】
例えば、ポリペプチドは二重特異性-三価、例えば3つのISVsを含むか、それからなり、2つのISVsが第一のターゲットに結合し、1つのISVが第一のターゲットとは異なる第二のターゲットに結合するポリペプチドであり得る。他の例では、ポリペプチドは三重特異性-四価、例えば4つのISVsを含むかそれからなり、1つのISVが第一のターゲットに結合し、2つのISVsは第一のターゲットとは異なる第二のターゲットに結合し、1つのISVは第一及び第二のターゲットは異なる第三のターゲットに結合するポリペプチドであり得る。また別の例では、ポリペプチドは三重特異性-五価、例えば5つのISVsを含むかそれからなり、2つのISVsが第一のターゲットに結合し、2つのISVsは第一のターゲットとは異なる第二のターゲットに結合し、1つのISVは第一及び第二のターゲットは異なる第三のターゲットに結合するポリペプチドであり得る。
【0051】
1つの実施形態において、多価ISVポリペプチドはマルチパラトピックとすることもできる。「マルチパラトピック」という用語は、同じターゲット分子(抗原とも呼ばれる)上の複数の異なるエピトープとの結合を意味する。それゆえ、多価ISVポリペプチドは「バイパラトピック」、「トリパラトピック」等とすることができ、すなわち、それぞれ同じターゲット分子上の2、3等の異なるエピトープに結合できる。
【0052】
本明細書で使用されるかぎり、「リンカ」という用語は2つ以上の(ポリ)ペプチド(例えば、ISVs、本明細書で定義される共通領域等)を単一の分子に融合するペプチドを指す。2つ以上の(ポリ)ペプチドを結合するためのリンカの使用は、当業界でよく知られている。別の例示的なペプチドリンカが表Aに示されている.頻繁に使用されるペプチドリンカの1つのクラスは、「Gly-Ser」又は「GS」リンカとして知られている。これらは、基本的にグリシン(G)とセリン(S)残基からなるリンカであり、通常、ペプチドモチーフの1つ以上の繰り返し、例えばGGGGS(SEQ ID NO:2)モチーフ(例えば、式(Gly-Gly-Gly-Gly-Ser)を有し、nは1、2、3、4、5、6、7又はそれ以上であり得る)を含む。このようなGsリンカの頻繁に使用される幾つかの例は9GSリンカ(GGGGSGGGS,SEQ ID NO:5)、15GSリンカ(n=3)及び35GSリンカ(n=7)である。例えば、Chen et al.Adv.Drug Deliv.Ref.2013 Oct 15;65(10);1357-1369及びKlein et al.,Protein Eng.Des.Sel.(2014)27(10);325-330を参照されたい。
【0053】
【表2】
【0054】
本明細書で使用されるかぎり、「共通領域」という用語は、複数のターゲット多価ISVsの各々内に存在し得る領域を示す。共通領域は、V、VL、サイトカイン、又はその他のたんぱく質/ペプチドを含み得て、これらはリンカに取り付けられ得る。共通領域は、in vivoで多価ISVの半減期を延ばすために使用され得る。
【0055】
図2は、多価ISVsの配列情報を取得するための例示的方法200のフローチャートを示す。方法200により、ターゲット多価ISVのライブラリの中の各ターゲット多価ISVの配列情報が生成され、ターゲット多価ISVsのライブラリは前述のように複数の成分ISVsから作られた。
【0056】
ステップ2.1に、複数の成分ISVsの各々についての配列情報が受信される。各ターゲット多価ISVは、複数の成分ISVsの中の複数を含む。各成分ISVの配列情報は核酸配列、例えばDNA配列又はRNA配列であり得るか、又は配列情報はアミノ酸配列であり得る。配列情報は、FASTAファイル、生データファイル(例えば、ABIFファイルフォーマット)、又は各成分ISVのための配列決定デバイスから導き出されたデータストリームの形態で提供され得る。
【0057】
ターゲット多価ISVsのライブラリのための候補配列の集合を生成するためのまた別の情報も受信され得る。例えば、1つ以上のリンカの各々の配列情報が受信され得る。1つ以上の共通領域の各々の配列情報が受信され得る。配列情報は、DNA配列又はRNA配列等の核酸配列であり得るか、又は配列情報はアミノ酸配列であり得る。配列情報は、各リンカのためのFASTAファイルの形態で提供され得る。各成分ISVのための1つ以上の近傍プライマの配列情報もまた受信され得る。1つ以上の定常領域の配列情報も受信され得る。クローニングに使用される特定の制限酵素認識部位の表示もまた受信され得る。
【0058】
それゆえ、クローニング技術を使ってターゲット多価ISVsのライブラリを生成するために使用される分子及び化合物を反映する情報が受信され得る。受信した情報は、多価ISVsの理論的配列のライブラリをin silicoで生成するために使用される。
【0059】
ステップ2.2で、多価ISVsの候補配列の集合が受信した配列情報に基づいて生成される。候補配列の集合は、成分ISVsと、適切であればリンカ及び共通領域を使って作成できる多価ISVsの理論的配列の全ての集合(このような理論的配列の各々は理論的コンストラクトとも呼ばれる)である。幾つかの例において、候補配列の集合は、成分ISVsの一定集合(例えば、多価ISVの各位置について1つのISV)から特定されるが、成分ISVsの固定集合を含む多価ISVの最善のリンカの組合せを識別するための異なるリンカであり得る。候補配列の集合はコンビナトリアル方式で生成され、それによって考え得る個々の理論的コンストラクトが確実に候補配列の集合の中に反映される。候補配列の集合は、理論的コンストラクトの各々の配列情報を含む。配列情報は、DNA配列又はRNA配列等の核酸配列であり得るか、又は配列情報はアミノ酸配列であり得る。各理論的コンストラクトの配列情報は、メモリ内に記憶(例えば、FASTAファイルの形態で)又はそれ以外に保持され得る。
【0060】
ステップ2.3で、配列決定情報のリードの複数の群が得られる。リードの各群は、特定のターゲット多価ISVに対応する。リードの各群は特定のターゲット多価ISVの1つ以上のフォワードリード及び/又はその特定のターゲット多価ISVの1つ以上のリバースリードを含む。リードの群の中の各リードは、異なるプライマを使って同じターゲット多価ISVの断片を配列決定することから得られる。フォワードリードはフォワードプライマを使って得られるリードであり、リバースリードはリバースプライマを使って得られるリードである。フォワードリード及び/又はリバースリードの何れの適当な組合せも、リードの群を形成するために使用され得る。例えば、リードの群は2つ以上のフォワードリードからなり得る、リードの群は2つ以上のリバースリードからなり得る、リードの群は1つ以上のフォワードリードと1つ以上のリバースリードからなり得る、等々である。リードの複数の群の各群は、フォワードプライマ及び/又はリバースプライマの同じ組み合わせから得られるリードを含み得て、例えば、リードの複数の群の各群は同じ数のフォワード及び/又はリバースリードを含み得る。
【0061】
リードは、シーケンシングマシンにより得られるような多価ISVの断片の配列決定情報である。リードは、リードの複数の位置の中の各位置の文字コードを含む。各文字コードは、主要塩基の文字コード又は曖昧さ文字コード(例えば、IUPAC曖昧さ文字コード)の何れかを明示する。それゆえ、リードは塩基判定を欠いているかもしれず、配列決定により、曖昧/低品質の読み取り値のための主要塩基文字コードを推定できる。各リードはまた、リードの各位置の配列決定品質も含み得る(又はそれ以外の方法でそれに関連付けられ得る)。配列決定品質は、その位置の文字コードの予測の信頼度を測る。
【0062】
あるリードが特定のターゲット多価ISVに対応するリードの特定の群に属するとの判断が、そのリードに関連付けられるメタデータに基づいて下され得る。例えば、メタデータはプレート識別子、サンプル識別子、及び/又はウェル識別子を示し得て、これらの識別子は、同じターゲット多価ISVに対応するリードを同じグループに分類するために使用され得る。例えば、ウェル識別子及びプレート識別子を示すリードに関連付けられるメタデータを使って、第一のプレートのウェルC07の識別子を有するリードは第二のプレートのウェルC07に関するリードと共に同じグループに分類される。
【0063】
ステップ2.4は、リードの群の各リードについて行われるステップ2.4.1及び2.4.2を含む。さらに、これらのステップはリードの各群について繰り返される。ステップ2.4.1及び2.4.2(及びそれに続くステップ)は、例えばマルチコア中央処理ユニット(CPU)を使って並行して行われ得る。例えば、リードの各群は、後述の方法で別々に処理され得て、同じグループ内のリードの処理は同じCPU-スレッド上で実行される。
【0064】
ステップ2.4.1で、1つ以上のヒットした候補配列が候補配列の集合から特定される。1つ以上のヒットした候補配列の各々は、どの対応する部分とのマッチ部分を含む。特定は、リード(又はその一部)を後方配列の集合の中の各候補配列と比較するパターンマッチングプロセスを使って行われ得る。何れの適当なパターンマッチングプロセスも使用され得て、これは例えばラビン-カープアルゴリズム、クヌース-モリス-プラットアルゴリズム、ボイヤ-ムーアアルゴリズム等である。
【0065】
リードはまず、パターンマッチングプロセスが実行される前に事前処理され得る。開始位置はそのリードについて特定され得て、そのリードの、その開始位置の文字コードが使用され得る。開始位置は事前に特定され、一定であり得、例えば同じ開始位置が全てのリードについて使用され得る。リードの開始部分のトリミングは、クローニングプロセスに関連付けられ、多価ISVの配列情報の一部を形成しない残基を去り除くのに役立ち得る。そのリードの、曖昧さ文字コード(例えば、IUPAC曖昧さ文字コード)を最初に指定する位置が特定され得て、リードの、特定された位置から始まり、リードの終端位置までの位置を有する文字コードが取り除かれ得る。このように文字コードを取り除くことにより、リードから曖昧さ文字コードが取り除かれる。カットオフパラメータが受信され得て、これは処理されたリードに関する所望の品質レベルを示す。各リードについて、カットオフパラメータの異なる値が受信され得る。リードはトリミングされ得て、これは、リードの、各々がカットオフパラメータにより明示された値より低い配列決定品質を有する1つ以上の文字コードを取り除くことを含む。
【0066】
あるリードのヒットした候補配列は、複数のイテレーションを使って特定され得る。例えば、最初のイテレーションで、(事前処理された)リードと候補配列の集合の中の各候補配列との比較が行われ得る。パターンマッチングプロセスは、リードが候補配列の何れかに含まれるか否かを特定するために実行される。リードとマッチする部分を含む何れの候補配列も、そのリードのためのヒットした候補配列に追加され得る。ヒットした候補配列の数は、ヒットした候補配列の最大数に限定され得る。そのリードが候補配列の何れにも含まれない場合、リードは、リードの終端から1つ以上の文字コードを取り除くことによってトリミングされて、その後のイテレーションのための短縮リードが生成され得る。幾つかの実施形態において、各イテレーションで、リードの終端から1つの文字コードが取り除かれ得る。各イテレーションでより少ない文字コードを取り除くことにより、ターゲット多価ISVsについて特定された配列情報の正確さが高くなり得る。
【0067】
そのイテレーションの短縮リードと候補配列の集合の中の各候補配列との比較は、例えばパターンマッチングプロセスを実行することにより行われ得る。そのイテレーションの短縮リードが特定の候補配列とマッチした場合、この特定の候補配列は1つ以上のヒットした候補配列に追加され得る。ここまでのステップが、1つ以上の条件が満たされるまで繰り返され得る。例えば、ステップは、ヒットした候補配列の数が最大数に到達するまで、及び/又は短縮リードが最小長さより短くなるまで繰り返され得る。
【0068】
ある群の中のリードのヒットした候補配列は剪定され得て、リードの群全体のためのヒットした候補配列が特定され得る。例えば、リードの群内の各リードについて特定されたヒットした候補配列のそれぞれの集合が交差させられ得る。換言すれば、ヒットした候補配列内の各候補配列は、リード群の中の各リードに対応するそれぞれのマッチング部分を含む。例えば、特定の候補配列がある群のフォワードリードについてのマッチング部分を含むが、その群の対応するリバースリードについてのマッチング部分は含まない場合、その特定の候補配列はヒットした候補配列から取り除かれ得る。
【0069】
ステップ2.4.2で、各ヒットした候補配列について、そのヒットした候補配列、そのリード、及びそのリードから導き出される1つ以上の配列を使ってコンセンサスマトリクス(又は他の何れかの適当なデータフォーマット、例えばリストのリスト、ディクショナリ等)が生成される。リードがステップ2.4.1で事前処理されている場合、リードという用語はここでは、品質に基づくトリミングが行われる前のリード(すなわち、トリミングされていないリード)を指す。コンセンサスマトリクスは、アラインメント配列の複数の部分の各位置について、ヒットした候補配列、リード、及びそのリードから導き出される1つ以上の配列の間のコンセンサスを明示する。リードから導き出される1つ以上の配列は、リードの、各々が受信されたカットオフパラメータにより明示される値より低い配列決定品質を有する1つ以上の文字コードが取り除かれた、トリミング済みリード、リードの、曖昧さ文字コードを有する位置が主要塩基の文字コードに置き換えられている塩基判定配列のうちの少なくとも一方を含む。塩基判定配列は、何れかの適当な方法で特定され得る。
【0070】
アラインメント配列は、ヒットした候補配列、リード、及びリードから導き出される1つ以上の配列との間の多重配列アラインメント(MSA)を実行することによって特定され得る。アラインメント配列は、配列の各々を相互に最も良く、又は十分に並べる配列である。幾つかのケースでは、多重配列アラインメントは、ヒットした候補配列、リード、及びリードから導き出される1つ以上の配列の各々を、アラインメント配列内にいかなるギャップも導入することなく並べるように構成され得る。このような場合、アラインメント配列は、ヒットした候補配列と同じであり得る。何れの適当なMSA技術でも使用され得て、これは例えば、ダイナミックプログラミング方式、繰返し方式、隠れマルコフモデル、ログ期待値による多重配列比較等を含む技術である。
【0071】
コンセンサスマトリクスは、アラインメント配列内の複数の位置の中の各位置における、主要塩基文字コードの集合からの各主要塩基文字コードについてのスコアを含み得る。スコアは、特定の位置の特定の塩基文字コードで幾つの配列(すなわち、コンセンサスマトリクスを形成するために使用されるもの)が一致するかを示す。
【0072】
ここで少し図3を参照すると、図3は、ターゲット多価ISVのアラインメント配列のコンセンサスマトリクスの例示的部分を示す。図3に示される例示的コンセンサスマトリクスは、フォワードリードについて特定されたコンセンサスマトリクスを表す。さらに、図3~6は、マイクロプレートがターゲット多価ISVsの配列決定に使用された、本明細書に記載の方法及びシステムの例を示す。例えば、これらの図の各々は、特定のターゲット多価ISVに対応する、ウェルA01の配列に関する態様を示す。
【0073】
コンセンサスマトリクスの列はアラインメント配列内の位置に対応するインデックスで索引付けされ、行は主要塩基の文字コードで索引付けされる。図3の例示的コンセンサスマトリクスは、アラインメント配列の合計4つの配列、すなわち、ヒットした候補配列、トリミングされていないフォワードリード、及びフォワードリードから導き出される2つの配列と、トリミングされたフォワードリード、及び塩基判定フォワードリードを使って生成されている。その結果、特定の位置の文字コードについて取得できる最大スコアは4である。図3からわかるように、最大スコアは、位置801までのアラインメント配列中の位置において到達される。したがって、これらの位置について、フォワードリードに関する配列の各々は主要塩基の特定の文字コードで一致し、アラインメントの信頼度が高いことを示す。
【0074】
それに対して、アラインメント配列の位置1726、1727、1728は、これらの位置の最高スコアの文字コードについてスコア1しか持たない。これは、アラインメント配列の中にヒットした候補配列しかなく、フォワードリードに関する配列がこれらの位置における候補配列のバリデーションに使用できないことを示している。
【0075】
特定の位置の最高スコア文字コードが1より高く、最高スコアより低い場合(例えば、位置823、824)、これはアラインメントに関する信頼度がより低いことを示す。このような場合、最高スコア文字コードとそれに対応するスコアは、アセンブリマトリクスを生成する際に使用され得る。
【0076】
図2に戻り、ステップ2.5では、リードの各群について、ヒットした候補配列の各々のアセンブリマトリクス(又は他の何れかの適当なデータフォーマット、例えばリストのリスト、ディクショナリ等)がそのリード群の中の各リードのコンセンサスマトリクスに基づいて生成される。コンセンサスマトリクスの結果が統合されて、アセンブリマトリクスが形成される。
【0077】
アセンブリマトリクスは、リードの群の中の各リードについて、及びアラインメント配列の中の各位置について、主要塩基の文字コード又は、主要塩基の文字コードがそのリードのその位置について特定されなかったことを示すエンプティ記号の何れかを含み得る。
【0078】
ここで少し図4を参照すると、図4はターゲット多価ISVのアラインメント配列のためのアセンブリマトリクスの例示的部分を示している。
アセンブリマトリクスの列はアラインメント配列内の位置に対応するインデックスで索引付けされ、行はリードの群の中のリードで索引付けされる。図4に示される例示的アセンブリマトリクスは、ウェルA01に対応するターゲット多価ISVに関する、フォーワードリード(「for_assembly」で示される)と2つのリバースリード(「alb_rev_assembly」と「rev_assembly」で示される)の各々から特定されるコンセンサスマトリクスの結果を統合している。リードの群はその他のリード(例えば、その他のフォワード及び/又はリバースリード)を含み得て、及び/又はフォワード及び/又はリバースリードのうちの1つを省略し得ることがわかるであろう。
【0079】
アセンブリマトリクスのエントリの各々は、そのエントリに関連付けられるリードの対応するコンセンサスマトリクスを使って特定される。例えば、位置1の「for_assembly」エントリはフォワードリードのコンセンサスマトリクスを使って特定され、このコンセンサスマトリクスは図3に示されている。このコンセンサスマトリクスの第一の位置の最高スコアの文字コード(これは、この例ではフォワードリードに関する)は文字コード「G」であり、この最高スコアは最大スコア(この場合、4)に到達する。その結果、文字コード「G」は「for_assembly」の第一の位置のエントリに挿入される。アセンブリマトリクスの他のエントリも同様の方法で特定され、各リードのコンセンサスマトリクスの各位置の最高スコア文字コードは典型的に、アセンブリマトリクスの対応するエントリに挿入される。コンセンサスマトリクスの特定の位置の最高スコアが1と等しい場合(例えば、図3の位置1726)、リードのその位置について主要塩基の文字コードが特定できなかったことを示すエンプティ記号(図4ではダッシュで示される)がその代わりに挿入される(例えば、図4の位置1726における「for_assembly」のエントリに示される)。
【0080】
図4の例に示されるように、アラインメント配列の位置517~525は、「alb_rev_assembly」に対応するフォワードリードとリバースリードの両方により確認され、これは、アセンブリマトリクスに対応するヒットした候補配列がこれらの位置において正しい可能性があることを示している。位置762及び764は全てのリードにより確認され、これは、ヒットした候補配列がこれらの位置において正しい可能性がより高いことを示している。
【0081】
図2に戻り、ステップ2.6で、各ターゲット多価ISVについて、配列情報が、そのターゲット多価ISVに対応するリードの群について特定された1つ以上のアセンブリマトリクスに基づいて特定される。配列情報は、DNA配列又はRNA配列等の核酸配列であり得るか、又は配列情報はアミノ酸配列であり得る。配列情報は、FASTAファイルの形態で保存され得る。
【0082】
ヒットした候補配列の各々について、アセンブルされた配列がそのヒットした候補配列に対応するアセンブリマトリクスに基づいて特定される。アセンブルされた配列は、アラインメント配列の複数の位置の各位置について、主要塩基の文字コード又は曖昧さ文字コード(例えば、IUPAC曖昧さ文字コード)の何れかを明示する文字コードを含む。例えば、アセンブリマトリクスの特定の位置について、その位置の各リードのエントリがエンプティ記号を示している場合、アセンブルされた配列中のその位置のNが特定され得る。IUPAC曖昧さ文字コードにしたがって、これは、アラインメント配列のこの位置において主要塩基の何れでも存在可能であることを示している。
【0083】
アセンブリマトリクスの特定の位置について、各リードのエントリが特定の主要塩基の同じ文字コードを示す場合、この特定の主要塩基の文字コードがアセンブルされた配列のその位置について特定される。例えば、図4の位置762では、アセンブリマトリクスの全エントリについて「T」が示されている。その結果、アセンブルされた配列の762番目の位置は「T」であると特定される。
【0084】
アセンブリマトリクスのある位置について、主要塩基の複数の文字コードが明示され得る。この場合、複数の文字コードの各々のスコアが取得され得て、アセンブルされた配列内のその位置についての最高スコア文字コードが特定され得る。例えば、アセンブリマトリクスの、フォワードリードについて「T」、リバースリードについて「A」、及び別のリバースリードについて「T」を明示する位置を考える。フォワードリードの「T」のスコアは、その位置の文字コード「T」について、フォワードリードのコンセンサスマトリクスの中で明示されているスコアから特定され得る。同様に、リバースリードの「A」のスコア及び別のリバースリードの「T」のスコアも特定され得る。コンセンサスマトリクスから得られたスコアは、アセンブリマトリクスの文字コードのスコアを特定するために使用され得て、例えば、フォワードリードの「T」のスコアは別のリバースリードの「T」のスコアに加算され得る。文字コードのそれぞれのスコアが等しい場合、アセンブルされた配列の中のその位置について、曖昧さ文字コードが主要塩基の複数の文字コードに基づいて特定される。この例では、「W」のIUPAC曖昧さコード(「A」又は「T」を明示)がアセンブルされた配列中のその位置について特定され得る。配列決定結果の品質データ(例えば、Per-base品質値(PCON)及び/又はPHREDスコア)もまた、アセンブリマトリクス内のある位置の文字コードを特定するために使用できる。例えば、特定のリードの品質データが特定の文字コードの高い配列決定品質を示していれば、この文字コードはアセンブリマトリクスのその位置の文字コードであると特定され得る。
【0085】
しかしながら、特定のリードのコンセンサスマトリクスのうちの1つがその位置における特定の文字コードについて最大スコア(例えば、図3に関して説明した例では4)であれば、特定の主要塩基の文字コードがアセンブルされた配列内のその位置について特定される。
【0086】
ヒットした候補配列が1つのみある場合、このヒットした候補配列に対応するアセンブルされた配列は、ターゲット多価ISVの配列決定情報を提供するために使用される。例えば、配列決定情報はアセンブルされた配列であり得る。追加的又は代替的に、配列決定情報は、アセンブルされた配列から、例えばアセンブルされた配列から特定された(すなわち翻訳された)アミノ酸配列の形態で導き出され得る。
ヒットした候補配列の数が1より多い状況では、アセンブルされた配列の各々がそれに対応するヒットした候補配列と比較され得る。まず、パターンマッチングプロセスを実行して、アセンブルされた配列がそれに対応するヒットした候補配列と同じか否かを特定し得る。特定のアセンブルされた配列がその候補配列と正確にマッチする場合、この特定のアセンブルされた配列がターゲット多価ISVの配列決定情報を提供するために選択される。例えば、配列決定情報はアセンブルされた配列であり得る。追加的又は代替的に、配列決定情報はアセンブルされた配列から、例えばアセンブルされた配列から特定されたアミノ酸配列の形態で導き出され得る。
【0087】
アセンブルされた配列の何れもそれに対応するヒットした候補配列とマッチしない場合、そのヒットした候補配列と最も緊密にマッチしたアセンブルされた配列が、ターゲット多価ISVの配列決定情報を提供するために選択される。例えば、配列アラインメント技術が、アセンブルされた配列の各々とそれに対応するヒットした候補配列との比較のために使用され得る。特に、グローバルペアワイズアラインメントが、例えばドットマトリクス方式、ダイナミックプログラミング、及び/又はワード方式により行われ得る。アセンブルされた配列とそれに対応するヒットした候補配列がどれだけうまく並べられるかに関するスコアが特定され得る。配列アラインメントは、アラインメントに何れのギャップも導入することなくアラインメントを実行するように構成され得る。最高スコアのアセンブルされた配列が、ターゲット多価ISVの配列決定情報を提供するために選択され得る。
【0088】
図5は、2つの多価ISVsの各々について特定された例示的DNA配列を示す。図5に示されるように、ウェルA01に対応するターゲット多価ISVのために、それに対応するヒットした候補配列(候補配列の集合のseq_95)と100%マッチするDNA配列が特定された。ウェルA02に対応するターゲット多価ISVに関して、特定されたDNA配列は、候補配列の集合からの最も緊密にマッチするヒットした候補配列(seq_81)との87.7%の同一性を示している。DNA配列は、何れかの適当なフォーマット、例えばFASTAファイルで保存され得る。
【0089】
図6は、2つの多価ISVの各々について特定された、図5に示されるDNA配列に対応する例示的なアミノ酸配列を示す。アミノ酸配列は、何れかの適切なフォーマット、例えばFASTAファイルで保存され得る。
【0090】
図7は、本明細書に記載の方法を実行するためのシステム/装置の概略図である。図のシステム/装置は、コンピュータデバイスの例である。当業者であれば、本明細書に記載の方法を実行するために、例えば分散型コンピューティングシステム等、他の種類のコンピューティングデバイス/システムも代替的に使用され得ることがわかるであろう。
【0091】
装置(又はシステム)700は、1つ以上のプロセッサ702を含む。1つ以上のプロセッサは、システム/装置700の他のコンポーネントの動作を制御する。1つ以上のプロセッサ702は、例えば汎用プロセッサを含み得る。1つ以上のプロセッサ702は、シングルコアデバイスでもマルチコアデバイスでもよい。1つ以上のプロセッサ702は、中央処理ユニット(CPU)又はグラフィカル処理ユニット(GPU)を含み得る。代替的に、1つ以上のプロセッサ702は、特殊化された処理ハードウェア、例えばRISCプロセッサ又は埋込みファームウェアを備えるプログラマブルハードウェアを含み得る。複数のプロセッサが含められ得る。
【0092】
システム/装置は、ワーキング又は揮発性メモリ704を含む。1つ以上のプロセッサは、データを処理するために揮発性メモリ704にアクセスし得て、メモリ内のデータ保存を制御し得る。揮発性メモリ704は、例えばスタティックRAM(SRAM)、ダイナミックRAM(DRAM)等の何れの種類のRAMも含み得て、又はこれはSD-カード等のフラッシュメモリを含み得る。
【0093】
システム/装置は、不揮発性メモリ706を含む。不揮発性メモリ706は、プロセッサ702の動作を制御するための動作命令708の集合をコンピュータ可読命令の形態で記憶する。不揮発性メモリ706は、リードオンリメモリ(ROM)、フラッシュメモリ、又は磁気ドライブメモリ等、何れの種類のメモリでもよい。
【0094】
1つ以上のプロセッサ702は、動作命令708を実行して、システム/装置に本明細書に記載の方法の何れかを実行させるように構成される。動作命令708は、システム/装置700のハードウェアコンポーネントに関するコード(すなわち、ドライバ)のほか、システム/装置700の基本動作に関するコードを含み得る。一般に、1つ以上のプロセッサ702は、動作命令708の1つ以上の命令を実行し、これらは不揮発性メモリ706内に永久的又は半永久的に保存され、揮発性メモリ704は、前記動作命令708の実行中に生成されたデータを一時的に保存するために使用される。
【0095】
本明細書に記載の方法の実行は、デジタル電子回路構成、集積回路構成、特別に設計されたASICs(特定用途集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組合せとして実現され得る。これらは、図7に関して説明したような、コンピュータにより実行されるとコンピュータに本明細書に記載の方法の1つ以上を実行させるコンピュータ可読命令を含むコンピュータプログラム製品(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス上に記憶されるソフトウェア等)を含み得る。
【0096】
本明細書に記載のシステムの特徴はまた、方法の特徴としても提供され得て、その逆でもある。本明細書で使用されるかぎり、「ミーンズ・プラス・ファンクション」の特徴は、それに対応する構造の点で表現され得る。特に、方法の態様はシステムの態様にも当てはまり得て、その逆でもある。
【0097】
さらに、1つの態様における何れかの、幾つかの、及び/又は全ての特徴は、他の何れの態様における何れかの、幾つかの、及び/又は全ての特徴にも、何れかの適当な組合せで当てはめることができる。また、本発明の何れかの態様において記載され、定義された各種の特徴の特定の組合せは、個別に実装及び/又は供給及び/又は使用できることも理解すべきである。
【0098】
幾つかの実施形態が図示され、説明されているが、当業者であれば、特許請求の範囲においてその範囲が定義されている本開示の原理から逸脱することなく、これらの実施形態に変更を加えることができると理解するであろう。
図1
図2
図3
図4
図5
図6
図7
【配列表】
2024543109000001.xml
【国際調査報告】