IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ プラチナバイオ株式会社の特許一覧

特開2025-17235ゲノム編集ツールによる変異の導入効率の推定方法
<>
  • 特開-ゲノム編集ツールによる変異の導入効率の推定方法 図1
  • 特開-ゲノム編集ツールによる変異の導入効率の推定方法 図2
  • 特開-ゲノム編集ツールによる変異の導入効率の推定方法 図3
  • 特開-ゲノム編集ツールによる変異の導入効率の推定方法 図4
  • 特開-ゲノム編集ツールによる変異の導入効率の推定方法 図5
  • 特開-ゲノム編集ツールによる変異の導入効率の推定方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025017235
(43)【公開日】2025-02-05
(54)【発明の名称】ゲノム編集ツールによる変異の導入効率の推定方法
(51)【国際特許分類】
   G16B 40/20 20190101AFI20250129BHJP
【FI】
G16B40/20
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023120245
(22)【出願日】2023-07-24
(71)【出願人】
【識別番号】521086648
【氏名又は名称】プラチナバイオ株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】中前 和恭
(72)【発明者】
【氏名】伊出 佐耶
(57)【要約】
【課題】従来よりも高精度に変異の導入効率を推定する。
【解決手段】ゲノム編集ツールによる変異の導入効率の推定方法であって、変異の導入対象となる細胞の標的ゲノム領域における対照配列情報およびゲノム編集ツールが認識する認識配列情報から、変異の導入によって生じ得る仮想配列を生成する仮想配列生成工程と、仮想配列の一部を用いて、変異の導入を行った細胞の集団の標的ゲノム領域における配列解析情報に含まれる変異の種類および頻度を推定可能な回帰モデルを生成し当該回帰モデルの精度評価指標および完成度評価指標を算出する工程を、各回で異なる仮想配列の組み合せを用いて繰り返すモデル生成工程と、精度評価指標および完成度評価指標が示す評価がそれぞれ所定よりも高かった回帰モデルを用いて、変異の導入効率を推定する推定工程と、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
ゲノム編集ツールによる変異の導入効率の推定方法であって、
前記変異の導入対象となる細胞の、前記変異を導入する標的ゲノム領域における対照配列情報と、前記ゲノム編集ツールが認識する、前記標的ゲノム領域における少なくとも1箇所の認識配列情報とから、前記変異の導入によって前記標的ゲノム領域に生じ得る前記変異を含む仮想配列を前記変異ごとに生成する仮想配列生成工程と、
生成された前記仮想配列の一部である前記仮想配列の組み合わせを用いて、前記変異の導入を行った前記細胞の集団から得られた核酸の前記標的ゲノム領域における配列解析情報に含まれる前記変異の種類および頻度を推定可能な回帰モデルを生成し、当該回帰モデルの精度評価指標および完成度評価指標を算出する工程を、各回で異なる前記組み合わせを用いて所定の回数繰り返すモデル生成工程と、
生成された複数の前記回帰モデルのうち、前記精度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルの中で、前記完成度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルを用いて、前記変異の導入効率を推定する推定工程と、を含む、推定方法。
【請求項2】
前記仮想配列生成工程において、
前記対照配列情報および前記認識配列情報に加え、前記変異を導入するためのテンプレート配列情報をさらに用いて、前記仮想配列を生成する、請求項1に記載の推定方法。
【請求項3】
前記モデル生成工程において、
2回目以降の繰り返しにおいて生成された前記回帰モデルの前記完成度評価指標が示す評価が、それより前に生成されたいずれかの前記回帰モデルにおける前記完成度評価指標が示す評価よりも低かった場合、次回以降の繰り返しにおいて用いる前記仮想配列の組み合わせを、今回用いた前記仮想配列の一部とする、請求項1に記載の推定方法。
【請求項4】
前記仮想配列生成工程において、
生じ得る前記変異として40塩基対超100塩基対以下の欠失を少なくとも1つ含む、複数の前記仮想配列を生成する、請求項1に記載の推定方法。
【請求項5】
ゲノム編集ツールによる変異の導入効率を推定する推定システムであって、
前記変異の導入対象となる細胞の、前記変異を導入する標的ゲノム領域における対照配列情報と、前記ゲノム編集ツールが認識する、前記標的ゲノム領域における少なくとも1箇所の認識配列情報とから、前記変異の導入によって前記標的ゲノム領域に生じ得る前記変異を含む仮想配列を前記変異ごとに生成する仮想配列生成部と、
生成された前記仮想配列の一部である前記仮想配列の組み合わせを用いて、前記変異の導入を行った前記細胞の集団から得られた核酸の前記標的ゲノム領域における配列解析情報に含まれる前記変異の種類および頻度を推定可能な回帰モデルを生成し、当該回帰モデルの精度評価指標および完成度評価指標を算出する処理を、各回で異なる前記組み合わせを用いて所定の回数繰り返すモデル生成部と、
生成された複数の前記回帰モデルのうち、前記精度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルの中で、前記完成度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルを用いて、前記変異の導入効率を推定する推定部と、を備える、推定システム。
【請求項6】
ゲノム編集ツールによる変異の導入効率を推定するコンピュータを制御する制御プログラムであって、
前記コンピュータに、
前記変異の導入対象となる細胞の、前記変異を導入する標的ゲノム領域における対照配列情報と、前記ゲノム編集ツールが認識する、前記標的ゲノム領域における少なくとも1箇所の認識配列情報とから、前記変異の導入によって前記標的ゲノム領域に生じ得る前記変異を含む仮想配列を前記変異ごとに生成する仮想配列生成工程と、
生成された前記仮想配列の一部である前記仮想配列の組み合わせを用いて、前記変異の導入を行った前記細胞の集団から得られた核酸の前記標的ゲノム領域における配列解析情報に含まれる前記変異の種類および頻度を推定可能な回帰モデルを生成し、当該回帰モデルの精度評価指標および完成度評価指標を算出する処理を、各回で異なる前記組み合わせを用いて所定の回数繰り返すモデル生成工程と、
生成された複数の前記回帰モデルのうち、前記精度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルの中で、前記完成度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルを用いて、前記変異の導入効率を推定する推定工程と、を実行させるための、制御プログラム。
【請求項7】
請求項6に記載の制御プログラムを記録したコンピュータ読取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ゲノム編集ツールによる変異の導入効率の推定方法に関する。
【背景技術】
【0002】
ゲノム編集は、細胞の標的ゲノム領域のDNA配列を認識して、当該DNA配列を切断可能なゲノム編集ツールを用いて、任意の標的遺伝子のDNA配列に欠失、置換または挿入等の変異を導入する技術である。ゲノム編集ツールとしては、例えば、ジンクフィンガーヌクレアーゼ(ZFN:Zinc-Finger Nuclease)、TALEヌクレアーゼ(Transcription Activator-Like Effector Nuclease)、CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats)/Casタンパク質(CRISPR-associated protein)等が知られている。
【0003】
ゲノム編集ツールを用いた変異の導入は、一般的には細胞集団を対象として行われる。このとき、対象となる全ての細胞のゲノムDNAに一様に同じ変異が導入されることは、通常ない。細胞ごとに導入される変異の種類はそれぞれ異なるため、目的とする種類の変異が導入された細胞の割合、言い換えれば細胞集団のゲノムDNAへの変異の導入効率は、ゲノム編集の至適条件を検討する上で重要な指標となる。
【0004】
例えば非特許文献1には、ゲノム編集ツールによる変異導入効率を推定するための方法が提案されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】David Conant et al., Inference of CRISPR Edits from Sanger Trace Data, The CRISPR Journal, 5(1) 123-130, 2022
【発明の概要】
【発明が解決しようとする課題】
【0006】
ここで、非特許文献1に記載の方法では、例えば40塩基対を超える欠失の可能性については考慮されない等、ゲノム編集の条件によっては期待する精度が得られない場合が考えられ、改善の余地があった。
【0007】
本発明の一態様に係る推定方法は、従来よりも高精度に変異の導入効率を推定可能な推定方法等を提供することを目的とする。
【課題を解決するための手段】
【0008】
前記の課題を解決するために、本発明の一態様に係る推定方法は、ゲノム編集ツールによる変異の導入効率の推定方法であって、前記変異の導入対象となる細胞の、前記変異を導入する標的ゲノム領域における対照配列情報と、前記ゲノム編集ツールが認識する、前記標的ゲノム領域における少なくとも1箇所の認識配列情報とから、前記変異の導入によって前記標的ゲノム領域に生じ得る前記変異を含む仮想配列を前記変異ごとに生成する仮想配列生成工程と、生成された前記仮想配列の一部である前記仮想配列の組み合わせを用いて、前記変異の導入を行った前記細胞の集団から得られた核酸の前記標的ゲノム領域における配列解析情報に含まれる前記変異の種類および頻度を推定可能な回帰モデルを生成し、当該回帰モデルの精度評価指標および完成度評価指標を算出する工程を、各回で異なる前記組み合わせを用いて所定の回数繰り返すモデル生成工程と、生成された複数の前記回帰モデルのうち、前記精度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルの中で、前記完成度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルを用いて、前記変異の導入効率を推定する推定工程と、を含む。
【0009】
前記の課題を解決するために、本発明の一態様に係る推定システムは、ゲノム編集ツールによる変異の導入効率を推定する推定システムであって、前記変異の導入対象となる細胞の、前記変異を導入する標的ゲノム領域における対照配列情報と、前記ゲノム編集ツールが認識する、前記標的ゲノム領域における少なくとも1箇所の認識配列情報とから、前記変異の導入によって前記標的ゲノム領域に生じ得る前記変異を含む仮想配列を前記変異ごとに生成する仮想配列生成部と、生成された前記仮想配列の一部である前記仮想配列の組み合わせを用いて、前記変異の導入を行った前記細胞の集団から得られた核酸の前記標的ゲノム領域における配列解析情報に含まれる前記変異の種類および頻度を推定可能な回帰モデルを生成し、当該回帰モデルの精度評価指標および完成度評価指標を算出する処理を、各回で異なる前記組み合わせを用いて所定の回数繰り返すモデル生成部と、生成された複数の前記回帰モデルのうち、前記精度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルの中で、前記完成度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルを用いて、前記変異の導入効率を推定する推定部と、を備える。
【0010】
本発明の各態様に係る推定システムは、コンピュータによって実現してもよく、この場合には、コンピュータを前記推定システムが備える各部(ソフトウェア要素)として動作させることにより前記推定システムをコンピュータにて実現させる推定システムの制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
【発明の効果】
【0011】
本発明の一態様によれば、従来よりも高精度に変異の導入効率を推定可能な推定方法等を提供できる。
【図面の簡単な説明】
【0012】
図1】実施形態1に係る推定システムの概略構成の一例を示すブロック図である。
図2】実施形態1に係る推定装置が実行する処理の流れの一例を示すフローチャートである。
図3】実施形態2に係る推定システムの概略構成の一例を示す図である。
図4】実施形態2に係る推定装置の概略構成の一例を示すブロック図である。
図5】従来例および参考例において得られた回帰モデルの、決定係数およびBIC値をそれぞれ示す箱ひげ図である。
図6】従来例、参考例および本発明例において得られた回帰モデルの、決定係数およびBIC値をそれぞれ示す箱ひげ図である。
【発明を実施するための形態】
【0013】
〔実施形態1〕
以下、本発明の一実施形態について、詳細に説明する。
【0014】
(推定システム100の特徴)
本発明の実施形態1に係る推定システム100は、ゲノム編集ツールによる変異の導入効率を推定するシステムである。
【0015】
ゲノム編集ツールは、特定のゲノム領域に特異的に結合し、当該ゲノム領域のDNA配列を切断して欠失、置換または挿入等の変異を導入可能なツールである。ゲノム編集ツールによるゲノム領域への変異の導入においては、目的とする種類の変異を確実に導入できるとは限らない。複数の細胞を含む細胞集団に対してゲノム編集ツールによる変異の導入を行った場合、細胞ごとに導入される変異の種類は通常それぞれ異なる。
【0016】
目的とする種類の変異が導入された細胞の割合、言い換えれば細胞集団のゲノムDNAへの変異の導入効率は、例えば、ゲノム編集ツールを用いた変異の導入条件の適否を示す指標として用いることができる。そのため、このような変異の導入効率の推定精度を向上できれば、ゲノム編集の至適条件を効率よく見出すことができるようになり、目的の変異が導入された細胞を得ることが容易となる。
【0017】
ゲノム編集ツールは、DNA結合ツールと、ヌクレアーゼ等のDNA切断ツールとの組み合わせにより構成されるツールであってもよい。DNA結合ツールとしては、例えば、ジンクフィンガー、TALE(Transcription Activator-Like Effector)またはペンタトリコペプチドリピート(PPR:pentatricopeptide repeat)等を含むポリペプチド、および、野生型または改変型のCasタンパク質(CRISPR-associated protein)と複合体を形成するガイド核酸等が挙げられる。
【0018】
ゲノム編集ツールは、これらのDNA結合ツールと、Casタンパク等のヌクレアーゼとの融合ポリペプチド、またはRNP(Ribonucleoprotein)等のポリペプチド-核酸複合体であり得る。このようなゲノム編集ツールでは、DNA切断ツールにより切断されたDNA配列に対して、非相同末端結合または相同組み換え修復等による修復機構が働くことを利用して、変異を導入する。このような修復機構では、修復後のDNA配列が確実に同じ配列になるとは限らないことから、細胞ごとに導入される変異の種類にバリエーションが生じる。
【0019】
一方で、DNA結合ツールの設計等の条件設定によって、修復後のDNA配列が目的の変異を有する配列となる可能性を向上できる、すなわち、条件設定によって変異の導入効率を向上できることが知られている。これは、DNA結合ツールによる認識配列との結合特異性およびDNA配列の切断位置および認識配列内の配列パターン等によって、修復過程で生じる変異の種類および頻度の傾向に違いが生じるためである。
【0020】
そのため、ゲノム編集ツールを用いる場合の条件検討は重要であり、変異の導入効率の推定精度を向上できれば、当該条件検討を効率よく行うことができる。本実施形態に係る推定システム100は、下記の(a)~(c)の処理を実行することで、非特許文献1に記載のような従来法よりも高精度に変異の導入効率を推定できる。
【0021】
(a)変異の導入対象となる細胞の、変異を導入する標的ゲノム領域における対照配列情報と、ゲノム編集ツールが認識する、標的ゲノム領域における少なくとも1箇所の認識配列情報とから、変異の導入によって標的ゲノム領域に生じ得る変異を含む仮想配列を変異ごとに生成する。
【0022】
(b)生成された仮想配列の一部である仮想配列の組み合わせを用いて、変異の導入を行った細胞の集団から得られた核酸の標的ゲノム領域における配列解析情報に含まれる変異の種類および頻度を推定可能な回帰モデルを生成し、当該回帰モデルの精度評価指標および完成度評価指標を算出する工程を、各回で異なる組み合わせを用いて所定の回数繰り返す。
【0023】
(c)生成された複数の回帰モデルのうち、精度評価指標が示す評価が所定の閾値よりも高かった回帰モデルの中で、完成度評価指標が示す評価が所定の閾値よりも高かった回帰モデルを用いて、変異の導入効率を推定する。
【0024】
(推定システム100の概略構成)
以下、推定システム100の概略構成について、図1を用いて説明する。図1は、推定システム100の概略構成の一例を示すブロック図である。
【0025】
図1に示すように、推定システム100は、推定装置1および表示装置4を備えていてもよい。図1には、推定装置1および表示装置4をそれぞれ1つずつ備える推定システム100を示している。しかし、推定システム100の構成は、これに限定されない。例えば、推定システム100が備える表示装置4の数は、0であってもよいし、複数であってもよい。
【0026】
推定システム100において、推定装置1および表示装置4は、互いに通信可能に接続されている。推定装置1および表示装置4は、直接、有線または無線で接続されていてもよいし、通信ネットワークを介して接続されていてもよい。通信ネットワークの態様は限定されるものではなく、ローカルエリアネットワーク(LAN)でもよいし、インターネットでもよい。
【0027】
推定装置1は、ゲノム編集を行った細胞集団の配列解析情報を用いて、ゲノム編集ツールによる変異の導入効率を推定する装置である。生成された推定結果は、推定装置1から表示装置4へ送信されてもよい。
【0028】
表示装置4は、典型的には、推定システム100を利用するユーザが使用するコンピュータ、スマートフォンまたはタブレット端末等であってもよい。なお、図1には、表示装置4が推定装置1と別体である推定システム100を示している。しかし、推定システム100の構成は、これに限定されない。例えば、表示装置4は、推定装置1と一体の装置であってもよく、この場合、表示装置4は、推定装置1が備える表示部(ディスプレイ等)であってもよい。
【0029】
(推定装置1の構成)
次に、推定装置1の構成について説明する。推定装置1は、制御部10、記憶部20、および入力部30を備えている。
【0030】
制御部10は、一例において、CPU(Central Processing Unit)であってもよい。制御部10は、記憶部20に記憶されているソフトウェアである制御プログラムを読み取ってRAM(Random Access Memory)等のメモリに展開して各種機能を実行する。なお、図1に示す記憶部20では、説明の簡略化のために、制御プログラム等の記憶データの図示を省略している。
【0031】
記憶部20は、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)であってもよい。記憶部20は、制御部10から送信される情報を格納すると共に、格納している情報を、制御部10により読み出されてもよい。
【0032】
入力部30は、推定装置1のユーザが情報を入力する構成である。入力部30は、例えば、キーボード、マウスまたはタッチパッドの少なくとも何れかであってもよい。また、入力部30は、シーケンサー等の外部機器またはUSBメモリ等の外部記憶装置から情報の入力を受け付ける、インターフェースであってもよい。
【0033】
制御部10は、配列情報受付部11、仮想配列生成部12、モデル生成部13および推定部14を備えている。
【0034】
配列情報受付部11は、入力部30を用いて入力された入力配列情報を受け付ける。配列情報受付部11は、受け付けた入力配列情報を記憶部20に格納してもよい。
【0035】
配列情報受付部11が受け付ける入力配列情報としては、対照配列情報、認識配列情報、テンプレート配列情報および配列解析情報が挙げられ、これらのうち少なくとも1つであってよい。対照配列情報、認識配列情報およびテンプレート配列情報の詳細については、仮想配列生成部12の説明において後述する。また、配列解析情報の詳細については、モデル生成部13の説明において後述する。
【0036】
仮想配列生成部12は、複数の仮想配列を生成する工程である。仮想配列は、変異の導入対象となる細胞の、ゲノム編集ツールにより変異を導入する標的ゲノム領域において、生じ得る変異を含む仮想的な配列の情報である。通常、標的ゲノム領域においては様々な種類の変異が生じ得るため、生じ得る変異の種類は複数となる。本実施形態に係る推定装置1は、細胞の集団において標的ゲノム領域に生じた様々な変異のうち、目的に合致する変異の種類および頻度を、変異の導入効率として推定できる。
【0037】
仮想配列の生成に用いられる、生じ得る変異の種類には、以下の(1)~(3)に示す少なくとも何れかが含まれていてよい。
【0038】
(1)変異が欠失である場合:標的ゲノム領域において欠失する位置および欠失する塩基数ごとに、それぞれ個別の変異の種類となる。欠失する塩基数は限定されないが、例えば1塩基対以上100塩基対以下であってよい。また、仮想配列生成部12は、40塩基対を超える長さの欠失であって、例えば40塩基対超100塩基対以下の欠失を、生じ得る変異の少なくとも1つとして含めてもよい。仮想配列生成部12は、100塩基対を超える塩基数の欠失を、変異の種類に含めてもよい。
【0039】
(2)変異が置換である場合:標的ゲノム領域において、置換が生じる位置、置換後の塩基の種類、および置換が生じる数ごとに、それぞれ個別の変異の種類となる。置換後の塩基の種類としては、例えば、A(アデニン)、T(チミン)、G(グアニン)またはC(シトシン)のうち、置換前の塩基以外の何れかであってもよく、これらの塩基が修飾を受けた塩基であってもよく、その他のいわゆる特殊塩基であってもよい。
【0040】
(3)変異が挿入である場合:標的ゲノム領域において塩基が挿入される位置、挿入される塩基数およびその塩基配列ごとに、それぞれ個別の変異の種類となる。
【0041】
仮想配列生成部12は、標的ゲノム領域に、これらのうち何れの種類の変異が生じ得るかについて、対照配列情報および認識配列情報を用いて推定し、仮想配列を生成する。対照配列情報は、変異の導入対象となる細胞の、変異を導入する標的ゲノム領域の配列情報である。認識配列情報は、ゲノム編集ツールが認識する、標的ゲノム領域における少なくとも1箇所の配列情報である。
【0042】
対照配列情報は、変異の導入対象となる細胞のゲノムDNAのうち、ゲノム編集ツールが認識する部位を含むゲノム領域の塩基配列を示す情報である。対照配列情報は、塩基配列を示すテキスト形式の情報であってもよく、標的ゲノム領域の塩基配列をサンガーシーケンシングにより解析して得られる波形等を含む、配列の解析情報であってもよい。
【0043】
対照配列情報は、後述のモデル生成部13が用いる配列解析情報と、同じ解析方法(シーケンシング方法)により得られた解析情報を含むことが好ましい。このような構成であれば、モデル生成部13が生成する回帰モデルは、波形等の情報も含めて、標的ゲノム領域に実際に導入された変異の種類および頻度を精度よく推定しやすくなるため、推定部14による推定精度を向上しやすい。
【0044】
認識配列情報は、ゲノム編集ツールにおける、DNA結合ツールが認識する標的ゲノム領域における配列の情報である。認識配列情報は、例えば以下の(i)~(iv)の何れかの塩基配列を示すテキスト情報であってよい。
【0045】
(i)DNA結合ツールがジンクフィンガーである場合、ジンクフィンガータンパク質モチーフを有するドメインによって認識される塩基配列。
【0046】
(ii)DNA結合ツールがTALEである場合、TALモジュール(Transcription Activator-Like Module)を結合させた領域によって認識される塩基配列。
【0047】
(iii)DNA結合ツールがPPRである場合、PPRモチーフが連続する領域によって認識される塩基配列。
【0048】
(iv)DNA結合ツールが野生型または変異型のCRISPR/Casタンパク質である場合、Casタンパク質と複合体を形成しているガイドRNA(gRNA:guide RNA)と相補的な塩基配列、およびCasタンパク質が認識するPAM(protospacer adjacent motif)配列。
【0049】
また、前記の(i)~(iv)に示す塩基配列と相補的な配列を示す情報についても、DNA結合ツールが認識する配列を示す情報と言えることから、認識配列情報としてもよい。例えば、前記(iv)において、ガイドRNA自体の塩基配列の情報を、認識配列情報としてもよい。
【0050】
仮想配列生成部12は、例えば、対照配列情報および認識配列情報に基づいて、対照配列情報中の、DNA切断ツールが切断する位置を推定する。そして、仮想配列生成部12は、当該切断位置またはその前後において、生じ得る欠失、置換または挿入の種類ごとに、それぞれ仮想配列を生成してもよい。
【0051】
また、仮想配列生成部12は、対照配列情報および認識配列情報に加え、変異を導入するためのテンプレート配列情報をさらに用いて、仮想配列を生成してもよい。テンプレート配列情報は、例えば、ゲノム編集に相同組み換え修復機構を用いる設計とする場合に、相同組み換えによりゲノムDNAに組み込まれるインサートの塩基配列を含む情報である。当該インサートは、相同組み換え修復機構等を利用した塩基配列の挿入、欠失または置換を目的に設計されるものであってよい。
【0052】
仮想配列生成部12は、このようなテンプレート配列情報を用いることで、生じ得る変異の種類数を限定して仮想配列を生成できる。これにより、推定装置1は、処理負荷を低減しながら、高精度で変異効率を推定することが可能となる。
【0053】
仮想配列生成部12は、標的ゲノム領域において生じることが理論的に可能な変異の種類全てについて生じ得ると推定して、それぞれ仮想配列を生成してもよい。また、仮想配列生成部12は、標的ゲノム領域において生じることが理論的に可能な変異の種類のうち、生じる可能性が低いと判定した変異の種類を除外した上で、残った変異の種類それぞれについて仮想配列を生成してもよい。
【0054】
例えば、仮想配列生成部12がテンプレート配列情報を用いる場合、仮想配列生成部12は、テンプレート配列情報に含まれない塩基配列の挿入は生じる可能性が低いとして、このような挿入は生じ得る変異の種類から除外してもよい。また、仮想配列生成部12は、ゲノム編集ツールの種類および標的ゲノム領域のDNA配列から、経験的に生じる可能性が低いとされる変異の種類について、生じ得る変異の種類から除外してもよい。このように、生じ得る変異の種類から、一部の変異の種類を除外するためのルールについては、例えば記憶部20が格納していてもよい。
【0055】
仮想配列生成部12は、対照配列情報、認識配列情報およびテンプレート配列情報を、いずれも配列情報受付部11を介して受け付けてもよく、少なくとも何れかを記憶部20から読み出してもよい。例えば、ゲノム編集ツールによる条件検討では、同じ標的ゲノム領域に対して、様々な条件を試行する。このとき、認識配列情報およびテンプレート配列情報は条件検討の度に入力部30から入力される一方で、対照配列情報は、予め記憶部20に格納された情報が繰り返し読み出されてもよい。
【0056】
仮想配列生成部12が生成する仮想配列の長さは特に限定されないが、例えば、処理負荷が過剰とならないよう、1000塩基対以下であってよく、500塩基対以下であることが好ましく、250塩基対以下であることがより好ましい。また、精度良く変異効率を推定する観点から、10塩基対以上であってよく、50塩基対以上であってもよく、100塩基対以上であってもよい。仮想配列生成部12は、生じ得る変異の種類に応じて長さが異なる仮想配列を生成してもよく、全ての仮想配列の長さを揃えてもよい。
【0057】
モデル生成部13は、ゲノム編集ツールによる変異の導入効率を推定するための回帰モデルを繰り返し生成する。モデル生成部13が生成する各回帰モデルはそれぞれ、変異の導入を行った細胞の集団から得られた核酸の、標的ゲノム領域における配列解析情報に含まれる変異の種類および頻度を推定可能である。
【0058】
配列解析情報は、配列情報受付部11が受け付ける入力配列情報に含まれる情報である。配列解析情報は、例えば、変異の導入を行った細胞の集団から得られた核酸であるゲノムDNAについて、標的ゲノム領域をサンガーシーケンシング等の方法により解析して得られる波形等の情報を含む。ここで、変異の導入を行った細胞の集団は、細胞ごとに異なる種類の変異が導入されている可能性がある。そのため、配列解析情報は通常、互いに異なる変異が導入された複数の塩基配列を重複して解析した情報となっている。例えばサンガーシーケンシングの場合、配列解析情報には複数の波形の情報が重複した状態で含まれている。
【0059】
モデル生成部13は、仮想配列生成部12により生成された複数の仮想配列の一部である仮想配列の組み合わせを用いて、配列解析情報に含まれる変異の種類および頻度を推定する回帰モデルを生成する。生成される回帰モデルは、例えば、配列解析情報に含まれる複数の波形を分離して解析し、変異の導入を行った細胞の集団のゲノムDNAに実際に生じた変異の種類および頻度を推定可能な回帰モデルであってよい。
【0060】
モデル生成部13が生成する回帰モデルは、線形回帰モデルまたは非線形回帰モデルであってよい。線形回帰モデルとしては、例えば、非負最小二乗回帰モデル、最小二乗回帰モデル、ラッソ回帰モデル、リッジ回帰モデル、主成分回帰モデルおよびベイズ線形回帰モデルが挙げられる。非線形回帰モデルとしては、ニューラルネットワーク回帰モデル、サポートベクター回帰モデルおよびランダムフォレスト回帰モデルが挙げられる。モデル生成部13が生成する回帰モデルは、これらの回帰モデルを組み合わせた回帰モデルであってもよい。回帰モデルが線形回帰モデルであれば、変異の頻度の推定において回帰係数を用いてよい。また、回帰モデルが非線形回帰モデルである場合でも、変異の頻度の推定に、回帰係数の代替指標を用いることができる。当該代替指標としては、例えば、ランダムフォレスト回帰モデルであれば、ジニ不純度等の不純度を表す指標を用いてもよい。
【0061】
モデル生成部13は、生成した回帰モデルの精度を示す精度評価指標を算出する。精度評価指標は、回帰モデルの精度を示すものであればよく、例えば、決定係数(R)、最小二乗誤差、絶対平均誤差、交差エントロピー誤差、二乗対数誤差およびAUC(Area Under Curve)等が挙げられる。例えば、精度評価指標が決定係数である場合、算出された値が大きいほど回帰モデルの精度の評価が高いことを示す。また、精度評価指標が最小二乗誤差である場合、精度評価指標が示す評価の高さは、最小二乗誤差の値の小ささで表される。すなわち、精度評価指標が最小二乗誤差である場合、算出された値が小さいほど回帰モデルの精度の評価が高いことを示す。
【0062】
また、モデル生成部13は、生成した回帰モデルの完成度を示す完成度評価指標を算出する。完成度評価指標は、回帰モデルの完成度を示すものであればよく、例えば、BIC(Bayesian Information Criterion)、AIC(Akaike Information Criterion)、WBIC(Widely Applicable Bayesian Information Criterion)、MDL(Minimum Description Length)およびCp基準等が挙げられる。例えば、完成度評価指標がBICである場合、完成度評価指標が示す評価の高さは、BICの値の小ささで表される。すなわち、完成度評価指標がBICである場合、算出された値(BIC値)が小さいほど回帰モデルの完成度が高いことを示す。
【0063】
モデル生成部13は、このような回帰モデルを生成する工程を所定の回数繰り返して実行する。このとき、モデル生成部13は、繰り返しの各回において、それぞれ異なる仮想配列の組み合わせを用いる。当該構成により、モデル生成部13は、精度および完成度が互いに異なる回帰モデルを複数生成できる。
【0064】
モデル生成部13は、仮想配列の組み合わせについて、仮想配列生成部12により生成された複数の仮想配列からランダムに抽出して組み合わせを生成してもよいし、所定のルールに従って抽出して組み合わせを生成してもよい。所定のルールは特に限定されないが、例えば、それ以前の回帰モデルの生成に用いていない仮想配列を優先的に選択するルールであってもよい。このような、仮想配列の組み合わせを生成するための所定のルールは、例えば記憶部20に格納されていてもよい。
【0065】
モデル生成部13が、回帰モデルの生成を繰り返す所定の回数は、特に限定されない。当該所定の回数は、精度および完成度に優れた回帰モデルを得る観点から、2回以上であってよく、5回以上であってよく、10回以上であってもよく、100回以上であってもよい。一方で、モデル生成部13の処理負荷を低減する観点から、前記の所定の回数は、10000回以下であってよく、1000回以下であってもよい。前記の所定の回数は、設定情報として記憶部20に格納されていてもよく、ユーザにより入力部30から入力されてもよい。
【0066】
また、モデル生成部13は、所定の場合に、次回以降の繰り返しにおいて用いる仮想配列の組み合わせを、今回用いた仮想配列の一部としてもよい。所定の場合とは、例えば、2回目以降の回帰モデル生成の繰り返しにおいて生成された回帰モデルの完成度評価指標が示す評価が、それより前に生成されたいずれかの回帰モデルにおける完成度評価指標が示す評価よりも低かった場合が挙げられる。
【0067】
具体的には、モデル生成部13は、今回用いた仮想配列の組み合わせを、次回以降に仮想配列の組み合わせを生成するための母集団として設定してよい。この場合、モデル生成部13は、仮想配列生成部12が生成した仮想配列のうち、今回用いなかった仮想配列については、以降の回帰モデルの生成にも用いない。
【0068】
このような構成によれば、モデル生成部13は繰り返しにおいて、ある回で生成した回帰モデルの評価がその前に生成したいずれかの回帰モデルよりも低い場合、次回以降に用いる仮想配列を、今回用いた仮想配列の一部に限縮する。これにより、評価が低い回帰モデルの生成に用いた仮想配列の組み合わせと類似した組み合わせを、再度用いてしまう可能性を低減できる。そのため、モデル生成部13は、以降の繰り返しにおいてより高い評価の回帰モデルを生成する可能性を向上できる。また、モデル生成部13による回帰モデルの生成を繰り返すほど、用いる仮想配列の量が低減し得るため、モデル生成部13の処理負荷を低減できる。
【0069】
推定部14は、モデル生成部13により生成された複数の回帰モデルから、単一の適切な回帰モデルを選択して、変異の導入効率を推定する。具体的には、推定部14は、生成された複数の回帰モデルのうち、精度評価指標が示す評価が所定の閾値よりも高かった回帰モデルの中で、完成度評価指標が示す評価が所定の閾値よりも高かった回帰モデルを用いて、変異の導入効率を推定する。
【0070】
精度評価指標が示す評価が「所定の閾値よりも高い」と判定する処理は、モデル生成部13が算出する精度評価指標の種類によって異なっていてよい。例えば、精度評価指標が、回帰モデルの評価が高いほど大きい数値となる指標であれば、推定部14は、精度評価指標の値が所定の閾値よりも大きいときに、回帰モデルの精度について「所定の閾値よりも高い」と判定してよい。また、精度評価指標が、回帰モデルの評価が高いほど小さい数値となる指標である場合には、推定部14は、精度評価指標の値が所定の閾値よりも小さいときに、回帰モデルの精度について「所定の閾値よりも高い」と判定してよい。
【0071】
これは、完成度評価指標が示す評価が「所定の閾値よりも高い」についても同様である。例えば、完成度評価指標が、回帰モデルの評価が高いほど大きい数値となる指標であれば、推定部14は、完成度評価指標の値が所定の閾値よりも大きいときに、回帰モデルの完成度について「所定の閾値よりも高い」と判定してよい。また、完成度評価指標が、回帰モデルの評価が高いほど小さい数値となる指標である場合には、推定部14は、完成度評価指標の値が所定の閾値よりも小さいときに、回帰モデルの完成度について「所定の閾値よりも高い」と判定してよい。
【0072】
精度評価指標が示す評価の所定の閾値については、適宜設定されてよい。例えば、精度評価指標が決定係数である場合、所定の閾値を、0.8等の1に比較的近い値とし、推定部14は、決定係数が当該閾値よりも大きい回帰モデルについて、精度の評価が高いと判定してもよい。
【0073】
また、完成度評価指標が示す評価の所定の閾値についても同様に、適宜設定されてよい。完成度評価指標における所定の閾値は、精度評価指標と同様に数値が設定されてもよい。また、生成された回帰モデルの中で「最も完成度評価指標が大きい」のような相対的な条件が、所定の閾値として設定されてもよい。
【0074】
精度評価指標および完成度評価指標のそれぞれにおける所定の閾値は、例えば、記憶部20に格納されていてもよく、ユーザにより入力部30から入力された値が用いられてもよい。
【0075】
このような推定装置1の構成によれば、回帰モデルの生成を所定の回数繰り返し、生成された回帰モデルの中でも、精度評価指標および完成度評価指標による評価が優れた回帰モデルを用いて、変異の導入効率を推定できる。
【0076】
従来、サンガーシーケンシングにより得られる、複数の波形が重複した情報を含む配列解析情報については、例えば非特許文献1に示すような技術により個々の塩基配列に分離して、変異の導入効率を推定することができた。しかしながら、非特許文献1に記載の技術は、変異の種類が欠失であると推定される場合の欠失の塩基数について、40塩基対までの設定となっている。そのため、40塩基対を超える欠失が生じている場合に変異の導入効率を精度よく推定できるか否かは不明であった。
【0077】
本発明者らは、後段の実施例において従来例として示す通り、ゲノム編集ツールにより40塩基対超の欠失が導入されたサンプルを用いて検討した結果、非特許文献1に記載の技術では、回帰モデルの精度が低減することを見出した。また、非特許文献1に記載の技術を、40塩基対超の欠失についても考慮するように条件設定を変更した場合、回帰モデルの精度は改善するものの、回帰モデルの完成度の指標が悪化することを見出した。
【0078】
上述のように本実施形態に係る推定装置1によれば、変異の導入効率を推定するために、精度および完成度に優れた回帰モデルを生成でき、そのような回帰モデルを用いて変異の導入効率を推定できる。また、本発明者らは、このような推定装置1であれば、例えば40塩基対超の欠失を含めて仮想配列を生成しても、高い精度および優れた完成度を両立する回帰モデルを生成可能であることを見出し、本発明を完成した。
【0079】
(推定装置1が実行する処理の流れ)
本発明の一実施形態に係る変異の導入効率の推定方法について、推定装置1が実行する処理の流れを例として、図2を用いて説明する。図2は、推定装置1が実行する処理の流れの一例を示すフローチャートである。図2は、推定装置1を備える推定システム100が実行する処理の流れでもある。
【0080】
まず、配列情報受付部11は、ユーザによる入力配列情報の入力を受け付ける(ステップS1)。入力配列情報は、対照配列情報、認識配列情報および配列解析情報を含み、さらにテンプレート配列情報を含む情報であってもよい。
【0081】
次に、仮想配列生成部12は、対照配列情報および認識配列情報と、任意にテンプレート配列情報とを用いて、標的ゲノム領域に生じ得る変異を含む仮想配列を、当該変異の種類ごとに生成する(ステップS2:仮想配列生成工程)。
【0082】
続いて、モデル生成部13は、ステップS3からステップS8までのモデル生成工程を実行する。まず、モデル生成部13は、仮想配列生成工程において生成された仮想配列の一部から、仮想配列の組み合わせを生成する(ステップS3)。
【0083】
ここでは、仮想配列の組み合わせの生成に用いられる仮想配列の母集団を「対象仮想配列」と称する。モデル生成部13は、回帰モデルの生成を複数回行うが、少なくとも1回目の回帰モデルの生成において、対象仮想配列は、仮想配列生成工程により生成された仮想配列の全てを含むものであってよい。
【0084】
次に、モデル生成部13は、生成した仮想配列の組み合わせを用いて、配列解析情報に含まれる変異の種類および頻度を推定可能な回帰モデルを生成する(ステップS4)。
【0085】
そして、モデル生成部13は、生成された回帰モデルの決定係数およびBIC値を算出する(ステップS5)。以降、モデル生成部13が算出する精度評価指標を決定係数として、完成度評価指標をBIC値として説明する。
【0086】
次に、モデル生成部13は、今回生成された回帰モデルのBIC値が、前回以前に生成されたいずれかの回帰モデルのBIC値よりも大きいか(評価が低いか)を判定する(ステップS6)。ステップS6でYesであった場合、モデル生成部13は、次回に用いる対象仮想配列について、今回用いた仮想配列の組み合わせに限縮する(ステップS7)。すなわち、今回用いなかった仮想配列については、次回以降の回帰モデルの生成から除外する。
【0087】
一方、ステップS6でNoであった場合、モデル生成部13は、対象仮想配列について特に変更しない。例えば、モデル生成部13による回帰モデルの生成が1回目である場合、「前回以前に生成された回帰モデル」は存在しない。この場合、モデル生成部13は、ステップS6でNoと判定してよい。
【0088】
次に、モデル生成部13は、回帰モデルの生成を所定の回数繰り返したか否かを判定する(ステップS8)。所定の回数は、例えば10回であってよく、この場合、生成される回帰モデルの数は10である。
【0089】
続いて、推定部14は、ステップS9およびS10の推定工程を実行する。まず、推定部14は、モデル生成工程により生成された複数の回帰モデルのうち、決定係数が0.8より大きい回帰モデルを選択する。このとき、決定係数が0.8より大きい回帰モデルが見出されなかった場合、推定装置1は、処理をステップS3に戻して、モデル生成部13により回帰モデルの生成をさらに繰り返してもよい。
【0090】
続いて、推定部14は、選択された回帰モデルの中で最もBIC値が小さい(最も完成度の評価が高い)回帰モデルを選択する(ステップS9)。
【0091】
そして、推定部14は、ステップS9において選択された回帰モデルを用いて、変異の導入を行った細胞の集団における変異の導入効率を推定する(ステップS10)。
【0092】
推定システム100は、例えば上述のような処理を実行することにより、高い精度および優れた完成度を両立する回帰モデルを生成し、当該回帰モデルを用いて変異の導入効率を高精度に推定できる。
【0093】
〔実施形態2〕
本発明の他の実施形態について、以下に説明する。
【0094】
図1に示す推定システム100は、推定装置1が、ユーザによる入力配列情報の入力を受け付ける入力部30を備えており、推定結果を表示装置4に出力する構成であったが、これに限定されない。例えば、図3に示すように、推定システム100aは、通信ネットワーク9を介して各ユーザが使用する通信装置5a、5bと通信可能に接続されている推定装置1aを備えていてもよい。
【0095】
図3に示す推定システム100aでは、推定装置1aは、通信装置5a、5bのそれぞれから、入力配列情報を受信する。そして、推定装置1aは、通信装置5aから受け付けた入力配列情報に対応する推定結果を通信装置5aに送信し、通信装置5bから受け付けた入力配列情報に対応する推定結果を通信装置5bに送信する。なお、図3は、通信装置5a、5bと推定装置1aとを含む推定システム100aを示しているが、これに限定されない。推定システム100aにおいて、推定装置1aは2以上の通信装置と通信可能であってもよい。
【0096】
(推定装置1aの構成)
推定装置1aの構成について、図4を用いて説明する。図4は、本発明の一実施形態に係る推定システム100aの構成例を示す機能ブロック図である。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
【0097】
図4に示すように、推定装置1aは、通信装置5a、5bとの通信インターフェースとして機能する通信部60を備えている。配列情報受付部11は、通信部60を介して、入力配列情報を受け付ける。推定部14は、通信部60を介して、推定結果を通信装置5a、5bのそれぞれに送信する。なお、推定装置1aは、受け付けた入力配列情報に関する推定結果を示したウェブページを生成し、当該入力配列情報の送信元であるユーザに当該ウェブページにアクセスするための情報を提供してもよい。
【0098】
ここで、通信装置5aおよび通信装置5bは、推定システム100aの利用者として予め登録されているユーザが使用する通信装置であってもよい。この場合、記憶部20には、推定システム100aの利用者として予め登録されているユーザに関する情報を含むユーザ情報が格納されていてもよい。ユーザ情報は、ユーザごとの、メールアドレス等の連絡先を含んでいてもよく、さらに、ユーザごとの、推定システム100aの使用料についての請求先に関する情報をさらに含んでいてもよい。
【0099】
〔ソフトウェアによる実現例〕
推定装置1(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に制御部10に含まれる各部)としてコンピュータを機能させるためのプログラムにより実現することができる。
【0100】
この場合、前記装置は、前記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により前記プログラムを実行することにより、前記各実施形態で説明した各機能が実現される。
【0101】
前記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、前記装置が備えていてもよいし、備えていなくてもよい。後者の場合、前記プログラムは、有線または無線の任意の伝送媒体を介して前記装置に供給されてもよい。
【0102】
また、前記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、前記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより前記各制御ブロックの機能を実現することも可能である。
【0103】
また、前記各実施形態で説明した各処理は、AI(Artificial Intelligence:人工知能)に実行させてもよい。この場合、AIは前記制御装置で動作するものであってもよいし、他の装置(例えばエッジコンピュータまたはクラウドサーバ等)で動作するものであってもよい。
【0104】
〔まとめ〕
本発明の態様1に係る推定方法は、ゲノム編集ツールによる変異の導入効率の推定方法であって、前記変異の導入対象となる細胞の、前記変異を導入する標的ゲノム領域における対照配列情報と、前記ゲノム編集ツールが認識する、前記標的ゲノム領域における少なくとも1箇所の認識配列情報とから、前記変異の導入によって前記標的ゲノム領域に生じ得る前記変異を含む仮想配列を前記変異ごとに生成する仮想配列生成工程と、生成された前記仮想配列の一部である前記仮想配列の組み合わせを用いて、前記変異の導入を行った前記細胞の集団から得られた核酸の前記標的ゲノム領域における配列解析情報に含まれる前記変異の種類および頻度を推定可能な回帰モデルを生成し、当該回帰モデルの精度評価指標および完成度評価指標を算出する工程を、各回で異なる前記組み合わせを用いて所定の回数繰り返すモデル生成工程と、生成された複数の前記回帰モデルのうち、前記精度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルの中で、前記完成度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルを用いて、前記変異の導入効率を推定する推定工程と、を含む。
【0105】
本発明の態様2に係る推定方法は、前記態様1において、前記仮想配列生成工程において、前記対照配列情報および前記認識配列情報に加え、前記変異を導入するためのテンプレート配列情報をさらに用いて、前記仮想配列を生成してもよい。
【0106】
本発明の態様3に係る推定方法は、前記態様1または2において、前記モデル生成工程において、2回目以降の繰り返しにおいて生成された前記回帰モデルの前記完成度評価指標が示す評価が、それより前に生成されたいずれかの前記回帰モデルにおける前記完成度評価指標が示す評価よりも低かった場合、次回以降の繰り返しにおいて用いる前記仮想配列の組み合わせを、今回用いた前記仮想配列の一部としてもよい。
【0107】
本発明の態様4に係る推定方法は、前記態様1から3の何れかにおいて、前記仮想配列生成工程において、生じ得る前記変異として40塩基対超100塩基対以下の欠失を少なくとも1つ含む、複数の前記仮想配列を生成してもよい。
【0108】
本発明の態様5に係る推定システムは、ゲノム編集ツールによる変異の導入効率を推定する推定システムであって、前記変異の導入対象となる細胞の、前記変異を導入する標的ゲノム領域における対照配列情報と、前記ゲノム編集ツールが認識する、前記標的ゲノム領域における少なくとも1箇所の認識配列情報とから、前記変異の導入によって前記標的ゲノム領域に生じ得る前記変異を含む仮想配列を前記変異ごとに生成する仮想配列生成部と、生成された前記仮想配列の一部である前記仮想配列の組み合わせを用いて、前記変異の導入を行った前記細胞の集団から得られた核酸の前記標的ゲノム領域における配列解析情報に含まれる前記変異の種類および頻度を推定可能な回帰モデルを生成し、当該回帰モデルの精度評価指標および完成度評価指標を算出する処理を、各回で異なる前記組み合わせを用いて所定の回数繰り返すモデル生成部と、生成された複数の前記回帰モデルのうち、前記精度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルの中で、前記完成度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルを用いて、前記変異の導入効率を推定する推定部と、を備える。
【0109】
本発明の態様6に係る制御プログラムは、ゲノム編集ツールによる変異の導入効率を推定するコンピュータを制御する制御プログラムであって、前記コンピュータに、前記変異の導入対象となる細胞の、前記変異を導入する標的ゲノム領域における対照配列情報と、前記ゲノム編集ツールが認識する、前記標的ゲノム領域における少なくとも1箇所の認識配列情報とから、前記変異の導入によって前記標的ゲノム領域に生じ得る前記変異を含む仮想配列を前記変異ごとに生成する仮想配列生成工程と、生成された前記仮想配列の一部である前記仮想配列の組み合わせを用いて、前記変異の導入を行った前記細胞の集団から得られた核酸の前記標的ゲノム領域における配列解析情報に含まれる前記変異の種類および頻度を推定可能な回帰モデルを生成し、当該回帰モデルの精度評価指標および完成度評価指標を算出する処理を、各回で異なる前記組み合わせを用いて所定の回数繰り返すモデル生成工程と、生成された複数の前記回帰モデルのうち、前記精度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルの中で、前記完成度評価指標が示す評価が所定の閾値よりも高かった前記回帰モデルを用いて、前記変異の導入効率を推定する推定工程と、を実行させる。
【0110】
本発明の態様7に係る記録媒体は、前記態様6に記載の制御プログラムを記録したコンピュータ読取り可能な記録媒体である。
【実施例0111】
以下、本発明の一実施例について図5および図6を用いて説明する。
【0112】
〔ゲノム編集ツールによる変異の導入〕
ゲノム編集ツールとしてCRISPR/Cas9システムを用い、マウス胚を対象としてゲノム編集を行った。
【0113】
(ガイドRNAの選定)
dbGuide(https://frederick.cancer.gov/resources/repositories/dbguide)から提供されている4,221,722種のガイドRNAから、IMPC(https://www.mousephenotype.org)においてノックアウトによる胚性致死性を呈さない遺伝子をターゲットしたガイドRNAを絞り込んだ。さらに、C57BL/6J(mm10)、DBA/2JおよびC57BL/6NJの全ての系統において、±40塩基対以内に差異が存在しないゲノム領域を含むガイドRNAに絞り込んだ。次にGGGenome(https://gggenome.dbcls.jp/ja/)を使って3塩基対以下のオフターゲットサイトが存在しないガイドRNAとして、3,210種のガイドRNA配列を得た。
【0114】
次にCRISPRscan(https://www.crisprscan.org)およびInDelphi(https://github.com/maxwshen/inDelphi-model)を用いて予測切断活性および変異パターンの予測を実施し、それぞれの結果に基づいてカテゴリ化を行った。それぞれのカテゴリからできる限り均等となるよう、40種のガイドRNAを選択した。本実施例では、40種のガイドRNAの中でも、変異導入により60塩基対以上の欠失が特に多く生じることが分かった遺伝子座(Pear1)を認識するガイドRNAを用いた結果を示す。
【0115】
(マウス胚へのCRISPR/Cas9 RNPの導入)
各ガイドRNAについて、T7プロモーター配列および各標的配列を付加したフォワードプライマー、共通リバースプライマーおよびpx330プラスミドを用いてPCRを実施し、ガイドRNA合成のためのDNAを増幅した。この鋳型DNAを用いて、T7 in vitro転写によりsgRNAを合成し、その後合成したsgRNAを精製した。得られた合成sgRNAを一度凍結させた後、合成sgRNAとCas9タンパク質とをバッファー内で会合させてRNPとし、当該RNPをマウス受精卵にエレクトロポレーションで導入した。エレクトロポレーション後の受精卵をKSOM-AA培地で培養し、胚盤胞まで発生させた後、1胚盤胞ずつサンプリングを行い、アルカリ溶解法でゲノム抽出を行った。
【0116】
(変異の導入効率の推定)
アルカリ処理した10サンプルの胚盤胞各々について、変異箇所を中心とした約±200塩基対を含む領域をPCR法で増幅した。約540bpの増幅産物をサンガーシーケンシングに供し、波形情報を含むsangerデータを取得した。このsangerデータおよび標的ガイドRNA配列を、従来法であるICE(非特許文献1参照)を実行する装置および本発明の一実施形態に係る推定装置1へそれぞれ入力し、変異の導入効率を推定した。sangerデータは対照配列情報および配列解析情報に、標的ガイドRNA配列は認識配列情報に、それぞれ該当する。
【0117】
(データ解析)
従来法のICEによる解析は、コマンドライン版のICEと同等のスクリプトおよび条件設定を用いて行った(従来例)。本発明例に係る推定装置1による解析は、ループあり(本発明例)、ループなし(参考例)の2条件で実施した。参考例は、従来法であるICEについて、0塩基対超40塩基対以下ではなく、0塩基対超100塩基対以下の欠失まで考慮するように、従来例から条件設定を修正した例である。また、本発明例においても、0塩基対超100塩基対以下までの欠失が仮想配列生成工程において考慮されるよう、条件設定を行った。
【0118】
それぞれの結果の比較では、各遺伝子座の各導入胚サンプルの決定係数(R^2値)およびBIC値について、平均値に対するt-検定を行い、図5および図6に示すように箱ひげ図としてプロットした。
【0119】
〔回帰モデルの生成および評価〕
図5は、従来例および参考例において得られた回帰モデルの、決定係数およびBIC値をそれぞれ示す箱ひげ図である。図6は、従来例、参考例および本発明例において得られた回帰モデルの、決定係数およびBIC値をそれぞれ示す箱ひげ図である。
【0120】
図5に示すように、0塩基対超100塩基対以下の欠失まで考慮する参考例では、0塩基対超40塩基対以下の欠失まで考慮する従来例と比較して、決定係数が向上した。一方で、参考例はBIC値が非常に高い値を示し、回帰モデルの完成度としては従来例よりも悪化したことが示された。
【0121】
図6に示すように、回帰モデルをループ処理により複数生成し、決定係数およびBIC値によって選択された回帰モデルを用いる本発明例によれば、決定係数が従来例と同等であり、さらにBIC値についても参考例と比較して改善していた。これは、本発明例において生成された回帰モデルが、高い精度および優れた完成度を両立することを示す結果である。したがって、本発明例により生成された回帰モデルによれば、従来よりも高精度に変異の導入効率を推定できると考えられる。
【0122】
〔付記事項〕
本発明は上述した各実施形態および各実施例に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。異なる実施形態または実施例にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【符号の説明】
【0123】
12 仮想配列生成部
13 モデル生成部
14 推定部
100、100a 推定システム
図1
図2
図3
図4
図5
図6