IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ cBioinformatics株式会社の特許一覧 ▶ 国立大学法人 東京大学の特許一覧

特許7599641ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム
<>
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図1
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図2
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図3
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図4
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図5
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図6
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図7
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図8
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図9
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図10
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図11
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図12
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図13
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図14
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図15
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図16
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図17
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図18
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図19
  • 特許-ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム 図20
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-12-06
(45)【発行日】2024-12-16
(54)【発明の名称】ネオアンチゲン予測装置、ネオアンチゲン予測方法、およびプログラム
(51)【国際特許分類】
   G16B 20/20 20190101AFI20241209BHJP
【FI】
G16B20/20
【請求項の数】 6
(21)【出願番号】P 2023134381
(22)【出願日】2023-08-22
【審査請求日】2024-09-12
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和4年度、国立研究開発法人日本医療研究開発機構、革新的がん医療実用化研究事業,「研究開発課題名:全ゲノム情報等を用いた腫瘍内免疫応答の解析とネオアンチゲン特異的TCR-T細胞治療法の開発」委託研究開発、産業技術力強化法第17条の適用を受けるもの
【早期審査対象出願】
(73)【特許権者】
【識別番号】520459997
【氏名又は名称】cBioinformatics株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100115749
【弁理士】
【氏名又は名称】谷川 英和
(72)【発明者】
【氏名】山口 茂夫
(72)【発明者】
【氏名】久好 哲郎
(72)【発明者】
【氏名】垣見 和宏
【審査官】毛利 太郎
(56)【参考文献】
【文献】特表2021-534830(JP,A)
【文献】国際公開第2022/140616(WO,A1)
【文献】特表2024-500881(JP,A)
【文献】腫瘍免疫の基礎知識(垣見の腫瘍免疫学),3.ネオアンチゲン[online],日本,東京大学医学部附属病院,2023年06月27日,[検索日 2024.9.24],インターネット<URL:https://web.archive.org/web/20230627031942/https://immunotherapy-uth.jp/tumor_immunity/index03/>
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
異常なゲノム情報を含む対象ゲノム情報の中の第一長さの部分である1以上のリードを受け付ける対象受付部と、
正常なゲノム情報であり、当該ゲノム情報を構成するリードの位置情報を取得する元になる参照ゲノム配列情報を参照し、前記1以上の各リードの位置を特定する情報である位置情報を取得するマッピング部と、
前記1以上の各リードから第二長さ(第一長さ>=第二長さ)の部分である2以上のkmerを取得し、当該2以上のkmerのうち、正常なゲノム情報から取得された2以上のkmerが格納される正常データベースに存在しない1以上のkmerを決定する決定部と、
前記決定部が決定した1以上の各kmerに対応するアミノ酸配列情報の位置情報を、当該アミノ酸配列情報に対応する前記kmerに対応する前記リードの位置情報であり、前記マッピング部が取得した前記位置情報を用いて取得する位置取得部と、
前記位置取得部が取得した位置情報と、前記1以上の各アミノ酸配列情報とを対応付けた情報であるネオアンチゲン情報を取得するネオアンチゲン取得部と、
前記ネオアンチゲン情報を出力するネオアンチゲン出力部とを具備し、
前記対象ゲノム情報の中の検査する範囲を特定する範囲情報を受け付ける範囲受付部と、
前記マッピング部が取得したリードの位置情報を用いて、前記範囲情報が特定する範囲の位置に対応する1以上のリードを選択する選択部とをさらに具備し、
前記決定部は、
前記選択部が選択した前記1以上のリードにから前記正常データベースに存在しない前記1以上のkmerを決定する、ネオアンチゲン予測装置。
【請求項2】
異常なゲノム情報を含む対象ゲノム情報の中の第一長さの部分である1以上のリードを受け付ける対象受付部と、
正常なゲノム情報であり、当該ゲノム情報を構成するリードの位置情報を取得する元になる参照ゲノム配列情報を参照し、前記1以上の各リードの位置を特定する情報である位置情報を取得するマッピング部と、
前記1以上の各リードから第二長さ(第一長さ>=第二長さ)の部分である2以上のkmerを取得し、当該2以上のkmerのうち、正常なゲノム情報から取得された2以上のkmerが格納される正常データベースに存在しない1以上のkmerを決定する決定部と、
前記決定部が決定した1以上の各kmerに対応するアミノ酸配列情報の位置情報を、当該アミノ酸配列情報に対応する前記kmerに対応する前記リードの位置情報であり、前記マッピング部が取得した前記位置情報を用いて取得する位置取得部と、
前記位置取得部が取得した位置情報と、前記1以上の各アミノ酸配列情報とを対応付けた情報であるネオアンチゲン情報を取得するネオアンチゲン取得部と、
前記ネオアンチゲン情報を出力するネオアンチゲン出力部とを具備し、
前記決定部は、
前記1以上の各リードから1以上のkmerを取得するkmer取得手段と、
前記kmer取得手段が取得した前記1以上のkmerのうち前記正常データベースに存在しない1以上のkmerを決定する決定手段と、
前記1以上の各kmerごとに、前記1以上の各リードの中の出現回数を取得するカウント手段と、
前記決定手段が決定した1以上のkmerから、前記出現回数が回数条件を満たす1以上のkmerを選択するkmer選択手段とを具備する、ネオアンチゲン予測装置。
【請求項3】
異常なゲノム情報を含む対象ゲノム情報の中の第一長さの部分である1以上のリードを受け付ける対象受付部と、
正常なゲノム情報であり、当該ゲノム情報を構成するリードの位置情報を取得する元になる参照ゲノム配列情報を参照し、前記1以上の各リードの位置を特定する情報である位置情報を取得するマッピング部と、
前記1以上の各リードから第二長さ(第一長さ>=第二長さ)の部分である2以上のkmerを取得し、当該2以上のkmerのうち、正常なゲノム情報から取得された2以上のkmerが格納される正常データベースに存在しない1以上のkmerを決定する決定部と、
前記決定部が決定した1以上の各kmerに対応するアミノ酸配列情報の位置情報を、当該アミノ酸配列情報に対応する前記kmerに対応する前記リードの位置情報であり、前記マッピング部が取得した前記位置情報を用いて取得する位置取得部と、
前記位置取得部が取得した位置情報と、前記1以上の各アミノ酸配列情報とを対応付けた情報であるネオアンチゲン情報を取得するネオアンチゲン取得部と、
前記ネオアンチゲン情報を出力するネオアンチゲン出力部とを具備し、
kmerを構成する文字列とアミノ酸配列を構成する文字との対応表であるDNA遺伝暗号表を参照し、前記決定部が決定した1以上の各kmerに対するアミノ酸配列を特定するアミノ酸配列情報を取得する翻訳部をさらに具備し、
前記位置取得部は、
前記翻訳部が取得した前記1以上の各アミノ酸配列情報の位置情報を、当該アミノ酸配列情報に対応する前記kmerに対応する前記リードの位置情報を用いて取得する、ネオアンチゲン予測装置。
【請求項4】
異常なゲノム情報を含む対象ゲノム情報の中の第一長さの部分である1以上のリードを受け付ける対象受付部と、
正常なゲノム情報であり、当該ゲノム情報を構成するリードの位置情報を取得する元になる参照ゲノム配列情報を参照し、前記1以上の各リードの位置を特定する情報である位置情報を取得するマッピング部と、
前記1以上の各リードから第二長さ(第一長さ>=第二長さ)の部分である2以上のkmerを取得し、当該2以上のkmerのうち、正常なゲノム情報から取得された2以上のkmerが格納される正常データベースに存在しない1以上のkmerを決定する決定部と、
前記決定部が決定した1以上の各kmerに対応するアミノ酸配列情報の位置情報を、当該アミノ酸配列情報に対応する前記kmerに対応する前記リードの位置情報であり、前記マッピング部が取得した前記位置情報を用いて取得する位置取得部と、
前記位置取得部が取得した位置情報と、前記1以上の各アミノ酸配列情報とを対応付けた情報であるネオアンチゲン情報を取得するネオアンチゲン取得部と、
前記ネオアンチゲン情報を出力するネオアンチゲン出力部とを具備し、
kmerを構成する文字列とアミノ酸配列を構成する文字との対応表であるDNA遺伝暗号表を参照し、前記決定部が決定した1以上の各kmerに対するアミノ酸配列を特定するアミノ酸配列情報を取得する翻訳部をさらに具備し、
前記位置取得部は、
前記翻訳部が取得した1以上の各アミノ酸配列情報ごとに、アミノ酸配列情報がネオアンチゲンであることに関するスコアを取得するスコア取得手段と、
前記スコアがネオアンチゲン条件を満たす1以上のアミノ酸配列情報を取得するネオアンチゲン選択手段と、
前記ネオアンチゲン選択手段が取得した前記1以上の各アミノ酸配列情報の位置情報を、当該アミノ酸配列情報に対応する前記kmerに対応する前記リードの位置情報を用いて取得する位置取得手段とを具備する、ネオアンチゲン予測装置。
【請求項5】
請求項1から請求項4いずれか一項に記載のネオアンチゲン予測装置が行うすべての処理を実行するネオアンチゲン予測方法。
【請求項6】
コンピュータを、
請求項1から請求項4いずれか一項に記載のネオアンチゲン予測装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネオアンチゲンに関する情報を出力するネオアンチゲン予測装置等に関するものである。
【背景技術】
【0002】
従来技術において、患者について候補ネオアンチゲンの優先順位を付けるための技術があった(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特表2018-524008号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術においては、精度高くネオアンチゲンを予測できず、かつ精度高くネオアンチゲンの位置情報を取得できなかった。
【課題を解決するための手段】
【0005】
本第一の発明のネオアンチゲン予測装置は、異常なゲノム情報を含む対象ゲノム情報の中の第一長さの部分である1以上のリードを受け付ける対象受付部と、正常なゲノム情報であり、ゲノム情報を構成するリードの位置情報を取得する元になる参照ゲノム配列情報を参照し、1以上の各リードの位置を特定する情報である位置情報を取得するマッピング部と、1以上の各リードから第二長さ(第一長さ>=第二長さ)の部分である2以上のkmerを取得し、2以上のkmerのうち、正常なゲノム情報から取得された2以上のkmerが格納される正常データベースに存在しない1以上のkmerを決定する決定部と、決定部が決定した1以上の各kmerに対応するアミノ酸配列情報の位置情報を、アミノ酸配列情報に対応するkmerに対応するリードの位置情報であり、マッピング部が取得した位置情報を用いて取得する位置取得部と、位置取得部が取得した位置情報と、1以上の各アミノ酸配列情報とを対応付けた情報であるネオアンチゲン情報を取得するネオアンチゲン取得部と、ネオアンチゲン情報を出力するネオアンチゲン出力部とを具備するネオアンチゲン予測装置である。
【0006】
かかる構成により、精度高くネオアンチゲンを予測でき、かつ精度高くネオアンチゲンの位置情報を取得できる。
【0007】
また、本第二の発明のネオアンチゲン予測装置は、第一の発明に対して、対象ゲノム情報の中の検査する範囲を特定する範囲情報を受け付ける範囲受付部と、マッピング部が取得したリードの位置情報を用いて、範囲情報が特定する範囲の位置に対応する1以上のリードを選択する選択部とをさらに具備し、決定部は、選択部が選択した1以上のリードにから正常データベースに存在しない1以上のkmerを決定するネオアンチゲン予測装置である。
【0008】
かかる構成により、より精度高くかつ高速にネオアンチゲンを予測でき、かつ精度高くネオアンチゲンの位置情報を取得できる。
【0009】
また、本第三の発明のネオアンチゲン予測装置は、第一または第二の発明に対して、決定部は、1以上の各リードから1以上のkmerを取得するkmer取得手段と、kmer取得手段が取得した1以上のkmerのうち正常データベースに存在しない1以上のkmerを決定する決定手段と、1以上の各kmerごとに、1以上の各リードの中の出現回数を取得するカウント手段と、決定手段が決定した1以上のkmerから、出現回数が回数条件を満たす1以上のkmerを選択するkmer選択手段とを具備するネオアンチゲン予測装置である。
【0010】
かかる構成により、精度高くかつ高速にネオアンチゲンを予測でき、かつ精度高くネオアンチゲンの位置情報を取得できる。
【0011】
また、本第四の発明のネオアンチゲン予測装置は、第一から第三いずれか1つの発明に対して、kmerを構成する文字列とアミノ酸配列を構成する文字との対応表であるDNA遺伝暗号表を参照し、決定部が決定した1以上の各kmerに対するアミノ酸配列を特定するアミノ酸配列情報を取得する翻訳部をさらに具備し、位置取得部は、翻訳部が取得した1以上の各アミノ酸配列情報の位置情報を、アミノ酸配列情報に対応するkmerに対応するリードの位置情報を用いて取得するネオアンチゲン予測装置である。
【0012】
かかる構成により、精度高くネオアンチゲンを予測でき、かつ精度高くネオアンチゲンの位置情報を取得できる。
【0013】
また、本第五の発明のネオアンチゲン予測装置は、第一から第四いずれか1つの発明に対して、位置取得部は、翻訳部が取得した1以上の各アミノ酸配列情報ごとに、アミノ酸配列情報がネオアンチゲンであることに関するスコアを取得するスコア取得手段と、スコアがネオアンチゲン条件を満たす1以上のアミノ酸配列情報を取得するネオアンチゲン選択手段と、ネオアンチゲン選択手段が取得した1以上の各アミノ酸配列情報の位置情報を、アミノ酸配列情報に対応するkmerに対応するリードの位置情報を用いて取得する位置取得手段とを具備するネオアンチゲン予測装置である。
【0014】
かかる構成により、より精度高くネオアンチゲンを予測でき、かつ精度高くネオアンチゲンの位置情報を取得できる。
【発明の効果】
【0015】
本発明によるネオアンチゲン予測装置によれば、精度高くネオアンチゲンを予測できず、かつ精度高くネオアンチゲンの位置情報を取得できる。
【図面の簡単な説明】
【0016】
図1】実施の形態1におけるネオアンチゲン予測装置Aのブロック図
図2】同ネオアンチゲン予測装置Aの動作例について説明するフローチャート
図3】同マッピング処理の例について説明するフローチャート
図4】同範囲選択処理の例について説明するフローチャート
図5】同決定処理の例について説明するフローチャート
図6】同kmer取得処理の例について説明するフローチャート
図7】同フィルタリング処理の例について説明するフローチャート
図8】同カウント処理の例について説明するフローチャート
図9】同リード内回数取得処理の例について説明するフローチャート
図10】同kmer選択処理の例について説明するフローチャート
図11】同情報取得処理の例について説明するフローチャート
図12】同翻訳処理の例について説明するフローチャート
図13】同ネオアンチゲン選択処理の例について説明するフローチャート
図14】同位置取得処理の例について説明するフローチャート
図15】同構成処理の例について説明するフローチャート
図16】同ネオアンチゲン予測装置Aの動作の流れを説明する図
図17】同DNA遺伝暗号表を示す図
図18】同ネオアンチゲン情報の出力例を示す図
図19】同コンピュータシステムの概観図
図20】同コンピュータシステムのブロック図
【発明を実施するための形態】
【0017】
以下、ネオアンチゲン予測装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0018】
(実施の形態1)
本実施の形態において、異常なゲノム情報の中から、ネオアンチゲンに関するネオアンチゲン情報を取得し、出力するネオアンチゲン予測装置について説明する。なお、ゲノム情報とは、生物が持つ核酸上の遺伝情報である。ここでのゲノム情報は、通常、1または2以上の各染色体識別子に対応付く文字列の集合である。当該文字列は、塩基配列を示す。異常なゲノム情報は、癌患者等の健康ではない者のゲノム情報である。
【0019】
なお、本明細書において、情報Xが情報Yに対応付いていることは、情報Xから情報Yを取得できること、または情報Yから情報Xを取得できることであり、その対応付けの方法は問わない。情報Xと情報Yとがリンク付いていても良いし、同じバッファに存在していても良いし、情報Xが情報Yに含まれていても良いし、情報Yが情報Xに含まれている等でも良い。
【0020】
また、本明細書において、情報Zを選択することは、情報Zを取得すること、情報Zへのポインタを取得すること、情報ZのIDを取得すること、情報Zにフラグを立てること等であり、情報Zにアクセスできれば良い。
【0021】
図1は、本実施の形態におけるネオアンチゲン予測装置Aのブロック図である。ネオアンチゲン予測装置Aは、スタンドアロンの装置でも良いし、サーバでも良い。ネオアンチゲン予測装置Aがサーバである場合、例えば、クラウドサーバ、ASPサーバであるが、その種類は問わない。ネオアンチゲン予測装置Aがサーバである場合、ネオアンチゲン予測装置Aは、図示しないユーザ端末から情報や指示を受信し、当該ユーザ端末に後述するネオアンチゲン情報等の処理結果を送信する。
【0022】
ネオアンチゲン予測装置Aは、格納部1、受付部2、処理部3、および出力部4を備える。
【0023】
格納部1は、例えば、参照ゲノム配列管理部11、正常データベース管理部12、暗号表管理部13、および範囲管理部14を備える。なお、参照ゲノム配列管理部11、正常データベース管理部12、暗号表管理部13、範囲管理部14は、ネオアンチゲン予測装置A以外の外部の装置に存在しても良い。受付部2は、例えば、対象受付部21、および範囲受付部22を備える。処理部3は、例えば、マッピング部31、選択部32、決定部33、翻訳部34、位置取得部35、およびネオアンチゲン取得部36を備える。決定部33は、例えば、kmer取得手段331、決定手段332、カウント手段333、およびkmer選択手段334を備える。位置取得部35は、例えば、スコア取得手段351、ネオアンチゲン選択手段352、および位置取得手段353を備える。出力部4は、ネオアンチゲン出力部41を備える。
【0024】
ネオアンチゲン予測装置Aの格納部1には、各種の情報が格納される。各種の情報は、例えば、後述する参照ゲノム配列情報、後述する正常データベース(以下、適宜「正常DB」と言う)、後述するDNA遺伝暗号表、後述する範囲情報である。
【0025】
参照ゲノム配列管理部11には、参照ゲノム配列情報が格納される。参照ゲノム配列情報とは、染色体毎の塩基配列が納められた情報である。参照ゲノム配列情報は、例えば、ヒトの場合は、GRCh38として公開されているものが現在のスタンダードな情報である。参照ゲノム配列情報は、例えば、染色体識別子と当該染色体識別子で識別される染色体の塩基配列との組の集合である。なお、塩基配列は、例えば、「A」「C」「G」「T」「N」を用いた文字列である。参照ゲノム配列情報は、後述するマッピング部31が参照するゲノム情報である。参照ゲノム配列情報は、正常なゲノム情報である。正常なゲノム情報とは、正常な人のゲノム情報である。正常な人は、健康な人であり、例えば、癌等の病気を患っていない人である。参照ゲノム配列情報は、1または2以上の正常な人のゲノム情報である。参照ゲノム配列情報は、ゲノム情報を構成するリードの位置情報を取得する元になる情報である。
【0026】
リードとは、ゲノム情報の一部である。リードは、通常、ゲノム情報の中の所定の長さの部分である。所定の長さは、第一長さ(以下、適宜「LL」と言う)である。第一長さは、例えば、150文字であるが、問わない。リードは、例えば、150文字の塩基配列である。
【0027】
参照ゲノム配列情報は、例えば、テキストファイルである。参照ゲノム配列情報は、例えば、fastaファイルである。fastaファイルの詳細は、以下のURLのウェブページを参照のこと(https://biotech-lab.org/articles/6389,https://ja.wikipedia.org/wiki/FASTA)。
【0028】
正常データベース管理部12には、正常データベースが格納される。正常データベースとは、正常なゲノム情報から取得された2以上のkmerの集合である。なお、kmerは、k-merとしても良い。
【0029】
正常なゲノム情報は、例えば、1または2以上の正常な人のゲノム情報の集合である。正常なゲノム情報は、例えば、fastqのデータ、bamファイルである。fastqは、塩基配列のテキストデータである。fastqは、通常、症例毎に得られるファイルであるが、正常な人から得られたファイルでも良い。fastqについて、例えば、ウェブページ(”https://olvtools.com/documents/fastq”,”https://ja.wikipedia.org/wiki/Fastq”)を参照のこと。
【0030】
kmerとは、ゲノム情報の中の所定の長さの部分である。kmerにおける所定長さは、第二長さである。第二長さは、第一長さ以下である。第二長さは、例えば、33文字であるが、問わない。kmerは、例えば、33文字の塩基配列である。第二長さと第一長さとが同じである場合、kmerはリードである。
【0031】
正常DBは、例えば、kmerごとに、kmerと正常なゲノム情報の中の出現回数とを有する情報である。正常DBは、例えば、後述する「kmer hashmap(DB)」
である。
【0032】
正常DBは、リレーショナルデータベースであることが好適であるが、CSVファイル、TSVファイル、テキストファイル等、そのデータ形式は問わない。
【0033】
暗号表管理部13には、DNA遺伝暗号表が格納される。DNA遺伝暗号表とは、塩基配列であるkmerをアミノ酸配列に変換する際に使用される対応表である。DNA遺伝暗号表は、kmerを構成する文字列とアミノ酸配列を構成する文字との対応表である。kmerを構成する文字列は、通常、固定長である。kmerを構成する文字列は、例えば、3文字であるが、問わない。アミノ酸配列を構成する文字は、通常、一文字である。アミノ酸配列を構成する文字は、例えば、「F」「L」「I」「M」「V」「S」「P」「T」「A」「Y」「H」「Q」「N」「K」「D」「E」「C」「W」「R」「S」「G」である。DNA遺伝暗号表は、例えば、ウェブページ(URL「https://www.nacalai.co.jp/information/trivia2/09.html」)を参照のこと。
【0034】
範囲管理部14には、1または2以上の範囲情報が格納される。範囲情報とは、後述する対象ゲノム情報の中の検査する範囲を特定する情報である。検査とは、ネオアンチゲン情報を取得するための処理である。ネオアンチゲンとは、癌細胞の遺伝子変異によって産生される抗原である。
【0035】
範囲情報は、通常、ネオアンチゲンとして期待できる領域である。範囲情報は、例えば、染色体識別子と第一オフセットと第二オフゼットである。第一オフセットとは、染色体識別子で識別される染色体の文字列の中の始点の位置を特定する情報である。第二オフゼットとは、染色体識別子で識別される染色体の文字列の中の終点の位置を特定する情報である。範囲情報は、例えば、染色体識別子で識別される染色体の文字列の中の第一オフセットと第二オフゼットとで示される範囲の文字列を特定する情報である。
【0036】
範囲情報は、例えば、染色体識別子である。かかる場合、範囲情報が示す範囲は、染色体識別子で識別される染色体の全体である。
【0037】
範囲情報は、例えば、染色体識別子と第一オフセットである。かかる場合、かかる場合、範囲情報が示す範囲の長さが決まっている。
【0038】
受付部2は、各種の情報や指示を受け付ける。各種の情報や指示は、例えば、後述する対象ゲノム情報、対象ゲノム情報の中の1以上のリード、範囲情報、正常DBの構成指示である。
【0039】
正常DBの構成指示とは、正常DBを構成することの指示である。かかる構成指示は、例えば、正常なゲノム情報のfastqのファイルの存在場所の情報(例えば、URL)を有する。
【0040】
受付部2は、例えば、図示しないユーザ端末から各種の情報や指示を受信する。受付部2は、例えば、ユーザが操作する入力手段から各種の情報や指示を受け付ける。
【0041】
ここで受け付けとは、各種の情報や指示を取得できれば良い。受け付けは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。
【0042】
各種の情報や指示の入力手段は、例えば、タッチパネルやキーボードやマウスやメニュー画面によるもの等、何でも良い。
【0043】
対象受付部21は、対象ゲノム情報の中の第一長さの部分である1以上のリードを受け付ける。対象ゲノム情報とは、ネオアンチゲンを予測する対象のゲノム情報である。対象ゲノム情報は、異常なゲノム情報を含む。異常なゲノム情報とは、通常、異常がある人のゲノム情報である。異常がある人は、例えば、癌患者である。
【0044】
範囲受付部22は、対象範囲情報を受け付ける。範囲受付部22は、例えば、範囲管理部14から対象範囲情報を取得する。対象範囲情報とは、対象ゲノム情報の中の検査する範囲を特定する情報である。対象範囲情報は、対象を特定する範囲情報である。
【0045】
処理部3は、各種の処理を行う。各種の処理は、例えば、マッピング部31、選択部32、決定部33、翻訳部34、位置取得部35、またはネオアンチゲン取得部36が行う処理である。
【0046】
マッピング部31は、参照ゲノム配列管理部11の参照ゲノム配列情報を参照し、対象受付部21が受け付けた1以上の各リードの位置を特定する情報である位置情報を取得する。位置情報は、例えば、範囲情報である。つまり、位置情報は、例えば、染色体識別子と第一オフセットと第二オフセットとを有する。位置情報は、例えば、染色体識別子と第一オフセットとを有する。位置情報は、例えば、染色体識別子を有する。マッピング部31は、通常、対象受付部21が受け付けた1以上のリードごとに、取得した位置情報をリードに対応付ける。なお、マッピング部31が行う処理をマッピング処理と言う。
【0047】
マッピング部31が行うマッピング処理の結果、例えば、bamファイルが構成される。マッピング部31が行うマッピング処理の結果、例えば、samファイルが構成される。なお、マッピング部31が構成する情報のデータ構造は問わない。
【0048】
bamファイルは、1以上のリードごとに、取得した位置情報をリードに対応付けた情報を有するファイルである。bamファイルは、samのバイナリファイルである。samファイルは、fastqをマッピングして得られるテキストファイルである。samファイルは、タブ区切りで、配列情報(ここでは、リード)に位置情報が紐づけられている情報を含むファイルである。
【0049】
選択部32は、対象受付部21が受け付けた1以上のリードの中から、マッピング部31が取得した1以上の各リードの位置情報を用いて、範囲受付部22が受け付けた範囲情報が特定する範囲の位置に対応する1以上のリードを選択する。選択部32により、高速にネオアンチゲン情報を出力できる。なお、範囲情報は、例えば、癌治療の専門家の知見に基づいて入力された情報であることは好適である。
【0050】
決定部33は、1以上の各リードから第二長さ(第一長さ>=第二長さ)の部分である2以上のkmerを取得する。決定部33は、例えば、1以上の各リードから、1文字ずつずらしながら、第二長さ(適宜、「kL」と言う)の文字列である2以上のkmerを取得する。2以上のkmerを取得した後、決定部33は、当該2以上のkmerのうち、正常DBに存在しない1以上のkmerを決定する。
【0051】
決定部33が2以上のkmerを取得する元になる1以上のリードは、選択部32が選択した1以上のリードであることは好適であるが、対象受付部21が受け付けた1以上のリードでも良い。決定部33が2以上のkmerを取得する元になる1以上のリードが、対象受付部21が受け付けた1以上のリードである場合、選択部32は不要である。
【0052】
決定部33が具備するkmer取得手段331は、1以上の各リードから1以上のkmerを取得する。kmer取得手段331は、例えば、1以上の各リード(例えば、150文字)から、1文字ずつずらしながら、第二長さの文字列(例えば、33文字)である117のkmerを取得する。
【0053】
決定手段332は、kmer取得手段331が取得した1または2以上のkmerのうち正常DBに存在しない1または2以上のkmerを決定する。
【0054】
カウント手段333は、1以上の各kmerごとに、1以上の各リードの中の出現回数を取得する。カウント手段333が出現回数を取得するkmerは、決定手段332が決定した1以上の各kmerであることは好適であるが、kmer取得手段331が取得した1以上の各kmerでも良い。
【0055】
kmer選択手段334は、決定手段332が決定した1以上のkmerから、出現回数が回数条件を満たす1以上のkmerを選択する。なお、回数条件とは出現回数に関する条件である。回数条件は、出現回数が多い場合に満たされる条件である。回数条件を満たすkmerは、回数条件を満たすほど多い出現回数のkmerである。回数条件は、例えば、出現回数の順位が上位N以上(Nは1以上の自然数)であること、または出現回数が閾値以上または閾値より大きいことである。ここでの出現回数は、通常、選択部32が選択した後の1以上のリードの中のkmerの出現回数であるが、選択部32が選択する前の1以上のリードの中のkmerの出現回数であっても良い。
【0056】
翻訳部34は、決定部33が決定した1以上の各kmerに対するアミノ酸配列を特定するアミノ酸配列情報を取得する。kmerが、例えば、33文字である場合、アミノ酸配列情報は、例えば、11文字である。
【0057】
翻訳部34は、例えば、暗号表管理部13のDNA遺伝暗号表を参照し、決定部33が決定した1以上の各kmerに対するアミノ酸配列を特定するアミノ酸配列情報を取得する。
【0058】
翻訳部34は、例えば、決定部33が決定した1以上の各kmerと学習モデルとを用いて、機械学習の予測処理を行い、1以上の各kmerに対応するアミノ酸配列情報を取得する。
【0059】
なお、学習モデルとは、機械学習の学習処理により構成された情報であり、機械学習の予測処理に使用される情報である。ここでの学習モデルは、kmerとアミノ酸配列情報とを有する2以上の教師データを用いて、機械学習の学習処理を行い、取得された情報である。学習モデルは、学習器、分類器、分類モデル等と言っても良い。機械学習のアルゴリズムは、深層学習、ランダムフォレスト、決定木等、問わない。また、機械学習には、例えば、TensorFlow(登録商標)のライブラリ、R言語のrandom forestのモジュール、fastText等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。
【0060】
位置取得部35は、決定部33が決定した1以上の各kmerに対応するアミノ酸配列情報の位置情報を、アミノ酸配列情報に対応するkmerに対応するリードの位置情報であり、マッピング部31が取得した位置情報を用いて取得する。ここでのアミノ酸配列情報は、翻訳部34が取得した情報であることは好適であるが、kmerでも良い。アミノ酸配列情報の位置情報は、当該アミノ酸配列情報の元になったkmerの位置情報である。
【0061】
位置取得部35は、例えば、翻訳部34が取得した1以上の各アミノ酸配列情報の位置情報を、アミノ酸配列情報に対応するkmerに対応するリードの位置情報を用いて取得する。
【0062】
位置取得部35が具備するスコア取得手段351は、翻訳部34が取得した1以上の各アミノ酸配列情報ごとに、スコアを取得する。スコア取得手段351は、例えば、ユーザのHLAの型の情報を用いて、スコアを取得する。HLAの型の情報は、例えば、受付部2が受け付けた情報、または格納部1に格納されている情報であるが、その取得ルート等は問わない。ここでのユーザは、対象ゲノム情報に対応するユーザである。
ここでのスコアは、アミノ酸配列情報がネオアンチゲンであることに関する評価値である。スコアは、例えば、アミノ酸配列情報がネオアンチゲンである尤度、またはアミノ酸配列情報がネオアンチゲンである確率、またはアミノ酸配列情報のネオアンチゲンらしさの度合い、またはMHCへの親和性の予測スコアである。スコアは、アミノ酸配列情報がネオアンチゲンでないことに関する評価値でも良い。つまり、スコアは、アミノ酸配列情報がネオアンチゲンでない尤度でも良いし、アミノ酸配列情報がネオアンチゲンでない確率でも良いし、アミノ酸配列情報のネオアンチゲンらしくない度合いでも良い。
【0063】
スコア取得手段351は、例えば、アミノ酸配列情報と学習モデルとを用いて、機械学習の予測処理により、スコアを取得する。スコア取得手段351は、例えば、「pVACbind
」というMHCの親和性予測を行うモジュールである。ここでの学習モデルは、例えば、アミノ酸配列情報とスコアとを有する2以上の教師データを用いて、機械学習の学習処理により構成された情報である。ここでの学習モデルは、例えば、アミノ酸配列情報と当該アミノ酸配列情報がネオアンチゲンであるか否かを示す情報とを有する2以上の教師データを用いて、機械学習の学習処理により構成された情報である。
【0064】
ここでの機械学習のアルゴリズムは、深層学習が好適であるが、ランダムフォレスト、決定木、SVM等、問わない。また、機械学習には、例えば、TensorFlow(登録商標)のライブラリ、R言語のrandom forestのモジュール、fastText、TinySVM等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。
【0065】
ネオアンチゲン選択手段352は、スコアがネオアンチゲン条件を満たす1以上のアミノ酸配列情報を取得する。ネオアンチゲン条件とは、アミノ酸配列情報がネオアンチゲンであることを決定するための条件である。ネオアンチゲン条件は、例えば、スコア取得手段351が取得したスコアが閾値以上または閾値より大きいこと、スコア取得手段351が取得したスコアが上位N以上(Nは1以上の自然数)であることである。
【0066】
位置取得手段353は、ネオアンチゲン選択手段352が取得した1以上の各アミノ酸配列情報の位置情報を、当該アミノ酸配列情報に対応するkmerに対応するリードの位置情報を用いて取得する。位置取得手段353は、ネオアンチゲン選択手段352が取得した1以上の各アミノ酸配列情報に対応するkmerと対になる位置情報を取得しても良い。位置取得手段353が取得する位置情報は、例えば、リードの位置情報が特定する染色体識別子と範囲情報が示す範囲の中の当該kmerの範囲を示す範囲情報である。
【0067】
ネオアンチゲン取得部36は、位置取得部35が取得した位置情報と、1以上の各アミノ酸配列情報とを対応付けた情報であるネオアンチゲン情報を取得する。ネオアンチゲン情報は、例えば、ネオアンチゲンであると予測されたアミノ酸配列情報と当該アミノ酸配列情報に対応するkmerの位置情報とを有する。
【0068】
出力部4は、各種の情報を出力する。各種の情報は、例えば、ネオアンチゲン情報である。
【0069】
ここで出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
【0070】
ネオアンチゲン出力部41は、ネオアンチゲン取得部36が取得したネオアンチゲン情報を出力する。
【0071】
ネオアンチゲン出力部41は、例えば、図示しないユーザ端末にネオアンチゲン情報を送信する。ネオアンチゲン出力部41は、例えば、ネオアンチゲン情報をディスプレイに表示する。
【0072】
格納部1、参照ゲノム配列管理部11、正常データベース管理部12、暗号表管理部13、および範囲管理部14は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0073】
格納部1等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部1等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部1等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部1等で記憶されるようになってもよい。
【0074】
受付部2、対象受付部21、および範囲受付部22は、例えば、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。受付部2等は、例えば、無線または有線の通信手段で実現される。
【0075】
処理部3、マッピング部31、選択部32、決定部33、翻訳部34、位置取得部35、ネオアンチゲン取得部36、kmer取得手段331、決定手段332、カウント手段333、kmer選択手段334、スコア取得手段351、ネオアンチゲン選択手段352、および位置取得手段353は、通常、プロセッサやメモリ等から実現され得る。処理部3等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、CPU、MPU、GPU等であり、その種類は問わない。
【0076】
出力部4、およびネオアンチゲン出力部41は、例えば、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。出力部4、ネオアンチゲン出力部41は、例えば、無線または有線の通信手段で実現される。
【0077】
出力部4等は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。
【0078】
次に、ネオアンチゲン予測装置Aの動作例について、図2のフローチャートを用いて説明する。
【0079】
(ステップS201)対象受付部21は、対象ゲノム情報から取得された1以上のリードを受け付けたか否かを判断する。1以上のリードを受け付けた場合はステップS202に行き、1以上のリードを受け付けなかった場合はステップS208に行く。なお、対象ゲノム情報は、ネオアンチゲン情報を取得する対象のゲノム情報である。
【0080】
(ステップS202)マッピング部31は、マッピング処理を行う。マッピング処理の例について、図3のフローチャートを用いて説明する。なお、マッピング処理とは、受け付けられた1以上の各リードをマッピングする処理である。マッピングする処理は、リードのゲノム情報の中の位置を特定する位置情報を取得し、リードと対応付ける処理である。
【0081】
(ステップS203)選択部32は、範囲選択処理を行う。範囲選択処理の例について、図4のフローチャートを用いて説明する。なお、範囲選択処理とは、受け付けられた1以上のリードから、受け付けられた範囲情報を用いて、ネオアンチゲン情報を取得する対象のリードを絞り込む処理である。
【0082】
(ステップS204)決定部33は、決定処理を行う。決定処理の例について、図5のフローチャートを用いて説明する。なお、決定処理とは、ネオアンチゲンのkmerを決定する処理である。なお、ここでのkmerは、ネオアンチゲンの候補のkmerでも良い。
【0083】
(ステップS205)翻訳部34等は、情報取得処理を行う。情報取得処理の例について、図11のフローチャートを用いて説明する。なお、情報取得処理とは、出力するネオアンチゲン情報を構成するアミノ酸配列情報と位置情報とを取得する処理である。
【0084】
(ステップS206)ネオアンチゲン取得部36は、ステップS205で取得されたアミノ酸配列情報と位置情報とを有する1以上のネオアンチゲン情報を構成する。
【0085】
(ステップS207)ネオアンチゲン出力部41は、ステップS206で構成された1以上のネオアンチゲン情報を出力する。ステップS201に戻る。
【0086】
(ステップS208)受付部2は、正常データベースの構成指示を受け付けたか否かを判断する。当該構成指示を受け付けた場合はステップS209に行き、当該構成指示を受け付けなかった場合はステップS201に戻る。
【0087】
(ステップS209)処理部3は、構成処理を行う。ステップS201に戻る。構成処理の例について、図15のフローチャートを用いて説明する。なお、構成処理とは、正常な1以上ゲノム情報から正常データベースを作成する処理である。
【0088】
なお、図2のフローチャートにおいて、ステップS203の範囲選択処理は無くても良い。
【0089】
また、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【0090】
次に、ステップS202のマッピング処理の例について、図3のフローチャートを用いて説明する。
【0091】
(ステップS301)マッピング部31は、カウンタiに1を代入する。
【0092】
(ステップS302)マッピング部31は、ステップS201で受け付けられた1以上のリードにおいて、i番目のリードが存在するか否かを判断する。i番目のリードが存在する場合はステップS303に行き、i番目のリードが存在しない場合は上位処理にリターンする。
【0093】
(ステップS303)マッピング部31は、ステップS201で受け付けられた1以上のリードから、i番目のリードを取得する。
【0094】
(ステップS304)マッピング部31は、カウンタjに1を代入する。
【0095】
(ステップS305)マッピング部31は、正常データベースの中に、j番目の染色体識別子に対応するゲノム情報が存在するか否かを判断する。j番目の染色体識別子に対応するゲノム情報が存在する場合はステップS306に行き、存在しない場合はステップS314に行く。
【0096】
(ステップS306)マッピング部31は、カウンタkに1を代入する。
【0097】
(ステップS307)マッピング部31は、j番目の染色体識別子に対応するゲノム情報の中に、(k+LL-1)番目の文字が存在するか否かを判断する。(k+LL-1)番目の文字が存在する場合はステップS308に行き、存在しない場合はステップS313に行く。なお、LLは、リードの長さである第一長さである。
【0098】
(ステップS308)マッピング部31は、j番目の染色体識別子に対応するゲノム情報の中のk番目の文字から第一長さ「LL」の文字列である参照文字列を取得する。参照文字列は、j番目の染色体識別子に対応するゲノム情報の中のk番目の文字から(k+LL-1)番目の文字までの文字列である。
【0099】
(ステップS309)マッピング部31は、i番目のリードとステップS308で取得した参照文字列との類似度を取得する。なお、2つの文字列(i番目のリードと参照文字列)の類似度を取得するためのアルゴリズムは問わない。例えば、2つの文字列の類似度は、2つの文字列の一致する文字の数でも良いし、文字列を構成する各文字を数字に置き換えた2つのベクトルのコサイン類似度等でも良い。
【0100】
(ステップS310)マッピング部31は、ステップS309で取得した類似度がマッピング条件を満たすほど大きいか否かを判断する。マッピング条件を満たす場合はステップS311に行き、マッピング条件を満たさない場合はステップS312に行く。なお、マッピング条件は、例えば、類似度が閾値以上または閾値より大きいことである。
【0101】
(ステップS311)マッピング部31は、位置情報を取得する。なお、位置情報は、例えば、j番目の染色体識別子と、文字列の最初の文字のオフセットと最後の文字のオフセット(ここでは、例えば、(k,k+LL-1))である。位置情報は、例えば、j番目の染色体識別子と文字列の最初のオフセットと第一長さ(ここでは、「LL」)、またはj番目の染色体識別子と文字列の最初のオフセットである。なお、位置情報が文字列の最初のオフセットだけの場合、位置情報が示す範囲は、格納部1に格納されている第一長さ(LL)を用いて決定される。位置情報は、例えば、j番目の染色体識別子と、第一の部分の文字列の最初の文字のオフセットと第一の部分の最後の文字のオフセット、および第二の部分の文字列の最初の文字のオフセットと第二の部分の最後の文字のオフセットである。つまり、マッピングされる対象が連続しておらず、2以上の部分に分かれていても良い。
【0102】
(ステップS312)マッピング部31は、カウンタkを1、インクリメントする。ステップS307に戻る。
【0103】
(ステップS313)マッピング部31は、カウンタjを1、インクリメントする。ステップS305に戻る。
【0104】
(ステップS314)マッピング部31は、カウンタiを1、インクリメントする。ステップS302に戻る。
【0105】
なお、図3のフローチャートにおいて、一のリードに対して、2以上の位置情報が取得された場合、最も類似度が大きい参照文字列の位置情報を採用しても良い。つまり、一のリードに対して、1つの位置情報のみが採用されるようなアルゴリズムでも良いし、2以上の位置情報が採用され得るアルゴリズムでも良い。
また、図3のフローチャートは、リードの位置情報を取得する処理の一例であり、他の方法を用いても良いことは言うまでもない。
【0106】
次に、ステップS203の範囲選択処理の例について、図4のフローチャートを用いて説明する。
【0107】
(ステップS401)範囲受付部22は、1以上の対象範囲情報を取得する。なお、かかる1以上の対象範囲情報は、ユーザから受け付けた情報でも良いし、予め格納部1に格納されている情報でも良い。
【0108】
(ステップS402)選択部32は、カウンタiに1を代入する。
【0109】
(ステップS403)選択部32は、ステップS202でマッピング処理が行われたi番目のリードが存在するか否かを判断する。i番目のリードが存在する場合はステップS404に行き、存在しない場合は上位処理にリターンする。
【0110】
(ステップS404)選択部32は、i番目のリードに対応付く1または2以上の位置情報を取得する。
【0111】
(ステップS405)選択部32は、カウンタjに1を代入する。
【0112】
(ステップS406)選択部32は、ステップS401で取得された1以上の対象範囲情報の中に、j番目の対象範囲情報が存在するか否かを判断する。j番目の対象範囲情報が存在する場合はステップS407に行き、存在しない場合はステップS413に行く。
【0113】
(ステップS407)選択部32は、カウンタkに1を代入する。
【0114】
(ステップS408)選択部32は、ステップS404で取得された1以上の位置情報の中に、k番目の位置情報が存在するか否かを判断する。k番目の位置情報が存在する場合はステップS409に行き、存在しない場合はステップS413に行く。
【0115】
(ステップS409)選択部32は、i番目のリードに対応付くk番目の位置情報とj番目の対象範囲情報とが範囲条件を満たすか否かを判断する。範囲条件を満たす場合はステップS410に行き、範囲条件を満たさない場合はステップS412に行く。なお、範囲条件とは、2つの位置情報の範囲に関する条件である。範囲条件は、例えば、2つの位置情報が一致すること、2つの位置情報が特定する範囲に重なりがあること、一の位置情報が特定する範囲が他の位置情報が特定する範囲に含まれること、または一の位置情報が特定する範囲が他の位置情報が特定する範囲を完全に含むことである。
【0116】
(ステップS410)選択部32は、i番目のリードを選択する。
【0117】
(ステップS411)選択部32は、カウンタiを1、インクリメントする。ステップS403に戻る。
【0118】
(ステップS412)選択部32は、カウンタkを1、インクリメントする。ステップS408に戻る。
【0119】
(ステップS413)選択部32は、カウンタjを1、インクリメントする。ステップS406に戻る。
【0120】
(ステップS414)選択部32は、カウンタiを1、インクリメントする。ステップS403に戻る。
【0121】
次に、ステップS204の決定処理の例について、図5のフローチャートを用いて説明する。
【0122】
(ステップS501)決定部33を構成するkmer取得手段331は、kmer取得処理を行う。kmer取得処理の例について、図6のフローチャートを用いて説明する。kmer取得処理とは、1以上の各リードから1または2以上のkmerを取得する処理である。kmer取得処理は、通常、1以上の各リードから2以上のkmerを取得する処理である。
【0123】
(ステップS502)kmer取得手段331は、ステップS501で取得した1以上のkmerに対して、ユニーク処理を行う。
【0124】
なお、ユニーク処理の結果、図示しないバッファのkmerに重複がなくなる。また、ステップS501で取得したkmerの中で2以上のkmerが同じである場合、各kmerの位置情報は、ユニーク処理後のkmerに対応付き、かつ出現回数は合算されて、ユニーク処理後のkmerに対応付く。
【0125】
(ステップS503)決定手段332は、フィルタリング処理を行う。フィルタリング処理の例について、図7のフローチャートを用いて説明する。フィルタリング処理とは、取得された2以上のkmerから、正常データベースに存在しないkmerを決定する処理である。
【0126】
(ステップS504)カウント手段333は、カウント処理を行う。カウント処理の例について、図8のフローチャートを用いて説明する。カウント処理とは、選択された1または2以上の各kmerの、1以上のリードにおける出現回数を取得する処理である。
【0127】
(ステップS505)kmer選択手段334は、kmer選択処理を行う。上位処理にリターンする。kmer選択処理の例について、図10のフローチャートを用いて説明する。kmer選択処理とは、出現回数を用いて、ネオアンチゲン情報を取得するための1以上のkmerを選択する処理である。
【0128】
次に、ステップS501のkmer取得処理の例について、図6のフローチャートを用いて説明する。
【0129】
(ステップS601)kmer取得手段331は、カウンタiに1を代入する。
【0130】
(ステップS602)kmer取得手段331は、ステップS203で選択された1以上のリードの中に、i番目のリードが存在するか否かを判断する。i番目のリードが存在する場合はステップS603に行き、存在しない場合はステップS612に行く。
【0131】
(ステップS603)kmer取得手段331は、ステップS203で選択された1以上のリードの中のi番目のリードを取得する。
【0132】
(ステップS604)kmer取得手段331は、第二長さ(kL)を取得する。なお、第二長さ(kL)は、予め決められている。
【0133】
(ステップS605)kmer取得手段331は、カウンタjに1を代入する。
【0134】
(ステップS606)kmer取得手段331は、i番目のリードの中に、(j+kL-1)番目の文字が存在するか否かを判断する。(j+kL-1)番目の文字が存在する場合はステップS607に行き、存在しない場合はステップS611に行く。
【0135】
(ステップS607)kmer取得手段331は、i番目のリードから、j番目から(j+kL-1)番目の文字までの文字列(第二長さの文字列)であるj番目のkmerを取得する。
【0136】
(ステップS608)kmer取得手段331は、j番目のkmerの位置情報を取得する。なお、j番目のkmerの位置情報は、i番目のリードに対応する染色体識別子と範囲情報と「j」と「j+kL-1」とを用いて取得する。なお、範囲情報が(x,y)である場合、j番目のkmerの位置情報は、例えば、i番目のリードに対応する染色体識別子と、(x+j-1,x+j+kL-2)である。なお、範囲情報のxは第一オフセット、yは第二オフセットである。
【0137】
(ステップS609)kmer取得手段331は、ステップS607で取得したj番目のkmerとステップS608で取得した位置情報とを対応付けて、図示しないバッファに蓄積する。
【0138】
(ステップS610)kmer取得手段331は、カウンタjを1、インクリメントする。ステップS606に戻る。
【0139】
(ステップS611)kmer取得手段331は、カウンタiを1、インクリメントする。ステップS602に戻る。
【0140】
次に、ステップS503のフィルタリング処理の例について、図7のフローチャートを用いて説明する。
【0141】
(ステップS701)決定手段332は、カウンタiに1を代入する。
【0142】
(ステップS702)決定手段332は、ステップS502でユニーク処理された結果の1以上のkmerの中に、i番目のkmerが存在するか否かを判断する。i番目のkmerが存在する場合はステップS703に行き、存在しない場合は上位処理にリターンする。
【0143】
(ステップS703)決定手段332は、ステップS502でユニーク処理された結果の1以上のkmerの中のi番目のkmerを取得する。
【0144】
(ステップS704)決定手段332は、カウンタjに1を代入する。
【0145】
(ステップS705)決定手段332は、正常DB内に、j番目のkmerが存在するか否かを判断する。j番目のkmerが存在する場合はステップS706に行き、存在しない場合はステップS710に行く。
【0146】
(ステップS706)決定手段332は、正常DBの中のj番目のkmerを取得する。
【0147】
(ステップS707)決定手段332は、ステップS703で取得したi番目のkmerと、ステップS706で取得したj番目のkmerとが、一致するか否かを判断する。一致する場合はステップS708に行き、一致しない場合はステップS709に行く。
【0148】
(ステップS708)決定手段332は、カウンタiを1、インクリメントする。ステップS702に戻る。
【0149】
(ステップS709)決定手段332は、カウンタjを1、インクリメントする。ステップS705に戻る。
【0150】
(ステップS710)決定手段332は、ステップS703で取得したi番目のkmerを図示しないバッファに一時蓄積する。
【0151】
(ステップS711)決定手段332は、カウンタiを1、インクリメントする。ステップS702に戻る。
【0152】
次に、ステップS504のカウント処理の例について、図8のフローチャートを用いて説明する。
【0153】
(ステップS801)カウント手段333は、カウンタiに1を代入する。
【0154】
(ステップS802)カウント手段333は、ステップS503で図示しないバッファに一時蓄積された1以上のkmerの中に、i番目のkmerが存在するか否かを判断する。i番目のkmerが存在する場合はステップS803に行き、存在しない場合は上位処理にリターンする。
【0155】
(ステップS803)カウント手段333は、カウンタjに1を代入する。
【0156】
(ステップS804)カウント手段333は、検査対象の1以上のリードの中で、j番目のリードが存在するか否かを判断する。j番目のリードが存在する場合はステップS805に行き、存在しない場合はステップS808に行く。
【0157】
(ステップS805)カウント手段333は、j番目のリードの中のi番目のkmerが出現する回数を取得する。かかるリード内回数取得処理の例について、図9のフローチャートを用いて説明する。
【0158】
(ステップS806)カウント手段333は、出現回数に、ステップS805で取得した回数を加算する。なお、出現回数の初期値は「0」である。
【0159】
(ステップS807)カウント手段333は、カウンタjを1、インクリメントする。ステップS804に戻る。
【0160】
(ステップS808)カウント手段333は、ステップS806で取得した出現回数をi番目のkmerに対応付ける。
【0161】
(ステップS809)カウント手段333は、カウンタiを1、インクリメントする。ステップS802に戻る。
【0162】
次に、ステップS805のリード内回数取得処理の例について、図9のフローチャートを用いて説明する。
【0163】
(ステップS901)カウント手段333は、変数「回数」に「0」を代入する。
【0164】
(ステップS902)カウント手段333は、対象となるリードを取得する。なお、対象となるリードは、ステップS804のj番目のリードである。
【0165】
(ステップS903)カウント手段333は、カウンタiに1を代入する。
【0166】
(ステップS904)カウント手段333は、ステップS902で取得したリードの中に、(i+kL-1)番目の文字が存在するか否かを判断する。当該文字が存在する場合はステップS905に行き、存在しない場合は上位処理にリターンする。
【0167】
(ステップS905)カウント手段333は、ステップS902で取得したリードの中のi番目の文字から第二長さ(kL)の文字列を取得する。かかる文字列は、kmerである。
【0168】
(ステップS906)カウント手段333は、ステップS802のi番目のkmerとステップS905で取得したkmerとが一致するか否かを判断する。2つのkmerが一致する場合はステップS907に行き、一致しない場合はステップS908に行く。
【0169】
(ステップS907)カウント手段333は、変数「回数」に1を加算する。
【0170】
(ステップS908)カウント手段333は、カウンタiを1、インクリメントする。ステップS904に戻る。
【0171】
次に、ステップS505のkmer選択処理の例について、図10のフローチャートを用いて説明する。
【0172】
(ステップS1001)kmer選択手段334は、出現回数をキーとして、降順にkmerをソートする。
【0173】
(ステップS1002)kmer選択手段334は、カウンタiに1を代入する。
【0174】
(ステップS1003)kmer選択手段334は、ステップS1001でソートした2以上のkmerの中に、i番目のkmerが存在するか否かを判断する。i番目のkmerが存在する場合はステップS1004に行き、存在しない場合は上位処理にリターンする。
【0175】
(ステップS1004)kmer選択手段334は、i番目のkmerと対になる出現回数を取得する。
【0176】
(ステップS1005)kmer選択手段334は、出現回数が回数条件を満たすか否かを判断する。出現回数が回数条件を満たす場合はステップS1005に行き、出現回数が回数条件を満たさない場合は上位処理にリターンする。なお、回数条件とは、kmerを選択するための情報である。回数条件は、kmerの出現回数に関する条件である。回数条件は、例えば、出現回数が上位N以内(Nは1以上の自然数)であること、出現回数が閾値以上または閾値より多いことである。
【0177】
(ステップS1005)kmer選択手段334は、出現回数が回数条件を満たすか否かを判断する。回数条件を満たす場合はステップS1006に行き、回数条件を満たさない場合は上位処理にリターンする。
【0178】
(ステップS1006)kmer選択手段334は、i番目のkmerを図示しないバッファに一時蓄積する。
【0179】
(ステップS1007)kmer選択手段334は、カウンタiを1、インクリメントする。ステップS1003に戻る。
【0180】
次に、ステップS205の情報取得処理の例について、図11のフローチャートを用いて説明する。
【0181】
(ステップS1101)翻訳部34は、翻訳処理を行う。翻訳処理の例について、図12のフローチャートを用いて説明する。翻訳処理とは、kmerをアミノ酸配列情報に変換する処理である。
【0182】
(ステップS1102)位置取得部35は、ステップS1101で取得された1または2以上のアミノ酸配列情報から、ネオアンチゲンを選択する。かかるネオアンチゲン選択処理の例について、図13のフローチャートを用いて説明する。
【0183】
(ステップS1103)位置取得部35は、ステップS1102で選択された1または2以上のアミノ酸配列情報の位置情報を取得する。上位処理にリターンする。かかる位置取得処理の例について、図14のフローチャートを用いて説明する。
【0184】
次に、ステップS1101の翻訳処理の例について、図12のフローチャートを用いて説明する。
【0185】
(ステップS1201)翻訳部34は、カウンタiに1を代入する。
【0186】
(ステップS1202)翻訳部34は、ステップS202で決定された1以上のkmerの中に、i番目のkmerが存在するか否かを判断する。i番目のkmerが存在する場合はステップS1203に行き、存在しない場合は上位処理にリターンする。
【0187】
(ステップS1203)翻訳部34は、ステップS202で決定された1以上のkmerからi番目のkmerを取得する。
【0188】
(ステップS1204)翻訳部34は、カウンタjに1を代入する。
【0189】
(ステップS1205)翻訳部34は、ステップS1203で取得したi番目のkmerの中にj番目のn文字の文字列が存在するか否かを判断する。j番目のn文字の文字列が存在する場合はステップS1206に行き、存在しない場合はステップS1209に行く。なお、nは、kmerの中の文字列とアミノ酸配列情報を構成する文字との対応における、kmerの中の文字列の長さであり、通常、「3」である。
【0190】
(ステップS1206)翻訳部34は、i番目のkmerの中のj番目の文字から(j+n-1)番目までの文字を含む文字列を取得する。
【0191】
(ステップS1207)翻訳部34は、ステップS1206で取得した文字列に対応するアミノ酸配列の文字を取得する。次に、翻訳部34は、当該文字を、アミノ酸配列情報が格納されるバッファに追記する。なお、翻訳部34は、例えば、DNA遺伝暗号表からアミノ酸配列の文字を取得する。
【0192】
(ステップS1208)翻訳部34は、カウンタjをn(例えば、「3」)だけ、インクリメントする。ステップS1205に戻る。
【0193】
(ステップS1209)翻訳部34は、カウンタiを1、インクリメントする。ステップS1202に戻る。
【0194】
次に、ステップS1102のネオアンチゲン選択処理の例について、図13のフローチャートを用いて説明する。
【0195】
(ステップS1301)スコア取得手段351は、カウンタiに1を代入する。
【0196】
(ステップS1302)スコア取得手段351は、アミノ酸配列情報が格納されるバッファから、i番目のアミノ酸配列情報を取得する。なお、かかるバッファは、ステップS1207におけるバッファである。
【0197】
(ステップS1303)スコア取得手段351は、i番目のアミノ酸配列情報のスコアを取得する。スコア取得手段351は、例えば、「pVACbind」というMHCの親和性予測を行うモジュールにi番目のアミノ酸配列情報を与え、当該モジュールを実行し、スコアを取得する。
【0198】
(ステップS1304)ネオアンチゲン選択手段352は、ステップS1303で取得したスコアがネオアンチゲン条件を満たすか否かを判断する。ネオアンチゲン条件を満たす場合はステップS1305に行き、満たさない場合はステップS1306に行く。ネオアンチゲン条件は、例えば、スコアが閾値以上または閾値より大きいことである。
【0199】
(ステップS1305)ネオアンチゲン選択手段352は、i番目のアミノ酸配列情報を図示しないバッファに一時蓄積する。かかるバッファに蓄積されたアミノ酸配列情報が出力対象である。
【0200】
(ステップS1306)スコア取得手段351は、カウンタiを1、インクリメントする。ステップS1302に戻る。
【0201】
次に、ステップS1103の位置取得処理の例について、図14のフローチャートを用いて説明する。
【0202】
(ステップS1401)位置取得手段353は、カウンタiに1を代入する。
【0203】
(ステップS1402)位置取得手段353は、図示しないバッファに、i番目のアミノ酸配列情報が存在するか否かを判断する。i番目のアミノ酸配列情報が存在する場合はステップS1403に行き、存在しない場合は上位処理にリターンする。なお、かかる図示しないバッファは、ステップS1305におけるバッファである。
【0204】
(ステップS1403)位置取得手段353は、i番目のアミノ酸配列情報に対応するkmerを決定する。i番目のアミノ酸配列情報に対応するkmerは、i番目のアミノ酸配列情報の元になる(翻訳処理の前の)kmerである。
【0205】
(ステップS1404)位置取得手段353は、ステップS1403で決定したkmerと対になる位置情報を取得する。位置取得手段353は、ステップS1403で決定したkmerに対応するリードの位置情報を用いて、kmerと対になる位置情報を取得しても良い。
【0206】
(ステップS1405)位置取得手段353は、ステップS1404で取得した位置情報をi番目のアミノ酸配列情報に対応付ける。
【0207】
(ステップS1406)位置取得手段353は、カウンタiを1、インクリメントする。ステップS1402に戻る。
【0208】
次に、ステップS209の構成処理の例について、図15のフローチャートを用いて説明する。
【0209】
(ステップS1501)kmer取得手段331は、正常なゲノム情報から取得した2以上のリードからkmerを取得する処理を行う。かかるkmer取得処理は、図6のフローチャートを用いて説明した処理である。正常なゲノム情報は、例えば、正常な人のゲノム情報に基づくfastqファイルである。
【0210】
(ステップS1502)カウント手段333は、ステップS1501で取得した1または2以上の各kmerの出現回数を取得する。上位処理にリターンする。なお、かかるカウント処理は、図8のフローチャートを用いて説明した処理である。また、ここでの出現回数は、正常なゲノム情報から取得した2以上のリードにおけるkmerの出現回数である。
【0211】
以下、本実施の形態におけるネオアンチゲン予測装置Aの具体的な動作の流れについて、図16を用いて説明する。
【0212】
今、ネオアンチゲン予測装置Aの暗号表管理部13には、図17に示すDNA遺伝暗号表が格納されている、とする。DNA遺伝暗号表は、「ID」「kmer文字列」「アミノ酸配列文字」を有する2以上のレコードを管理する表である。「ID」はレコードを識別する情報である。「kmer文字列」は、kmerを構成する文字列であり、ここでは3文字である。「アミノ酸配列文字」は、アミノ酸配列を構成する1文字である。
【0213】
以上の状況において、ユーザは、正常データベースの構成指示をネオアンチゲン予測装置Aに入力した、とする。すると、ネオアンチゲン予測装置Aの受付部2は、正常データベースの構成指示を受け付ける。次に、処理部3のkmer取得手段331は、正常なゲノム情報から取得した2以上のリードからkmerを取得する処理を行う。かかるkmer取得処理は、例えば、図6のフローチャートを用いて説明した処理である。なお、正常なゲノム情報は1601であり、ここではfastqの1または2以上のファイル(R1,R2)である。次に、処理部3のカウント手段333は、kmer取得手段331が取得した1または2以上の各kmerの出現回数を取得するカウント処理を行う。カウント処理は、例えば、図8のフローチャートを用いて説明した処理である。以上のkmer取得処理とカウント処理とを行うモジュールが「canonical k-mer count」1602である。
【0214】
以上の処理の結果、処理部3は、kmerと、正常なゲノム情報の中でのkmerの出現回数との組を2以上含む正常DBを作成し、当該正常DBを正常データベース管理部12に蓄積する。なお、リードは、ここでは、150文字の文字列である。kmerは、ここでは、33文字の文字列である。また、正常DBは、ここでは「kmer hashmap(DB)」1603である。以上の処理により、正常DBが構築できた。
【0215】
次に、癌患者のゲノム情報から取得された対象ゲノム情報が格納部1に格納されている、とする。ここでの対象ゲノム情報は、fastqのファイル(R1,R2)である。対象ゲノム情報は、1604である。そして、ユーザの指示により、対象受付部21は、格納部1から対象ゲノム情報であるfastqのファイル(R1,R2)を取得する。
【0216】
次に、マッピング部31は、図3のフローチャートを用いて説明したマッピング処理を行う。つまり、マッピング部31は、参照ゲノム配列情報を参照し、対象ゲノム情報1604が有する1以上の各リードの位置を特定する情報である位置情報を取得する。なお、参照ゲノム配列情報は、ここではfastaファイルである。また、マッピング処理の結果、1以上の各リードに、位置情報が対応付く。その結果、bamファイル1606が作成される。なお、マッピング部31が行うマッピング処理は、モジュール「mapping」1607が行う。
【0217】
次に、選択部32等は、図4のフローチャートを用いて説明した範囲選択処理を行う。つまり、範囲受付部22は、は、1608に示す範囲管理部14の1以上の範囲情報を取得する。次に、選択部32は、マッピング処理が行われた1以上の各リードに対応する位置情報を用いて、1以上の各リードが、範囲管理部14の1以上の範囲情報に対して、範囲条件を満たすか否かを判断する。次に、選択部32は、範囲条件を満たす1以上のリードを取得する。かかる範囲選択処理を行うモジュールが「extract nc-region」1609である。また、範囲選択処理の結果、選択された1以上の各リードと位置情報とを有するbamファイル1610が出力される。
【0218】
次に、決定部33は、図5のフローチャートを用いて説明した処理により決定処理を行う。まず、決定部33のkmer取得手段331は、bamファイル1610の1以上の各リードから多数のkmerを取得する。かかるkmer取得処理は、図6のフローチャートを用いて説明した。また、カウント手段333は、kmer取得処理により取得された各kmerに対して、図8のフローチャートを用いて説明したカウント処理を行う。また、決定部33は、kmer取得処理により取得された各kmerの位置情報を、各kmerの元になったリードの位置情報を用いて、取得する。その結果、多数の各kmerと、各kmerと対になる位置情報とkmerの出現回数とを有する情報(1611)が構築される。以上の決定部33の処理は、モジュール「+standard convert k-mer count」1612が行う。
【0219】
次に、決定部33の決定手段332は、図7のフローチャートを用いて説明したフィルタリング処理を行う。つまり、決定手段332は、正常データベース1603を参照し、情報(1611)の中のkmerで、正常データベース1603に存在するkmerを削除し、正常データベース1603に存在しないkmerを残す処理を行う。かかる処理は、モジュール「subtract」1613が行う。モジュール「subtract」1613の処理により、情報(1611)のデータ量が大幅に削減され、小さい情報である各kmerと対になる位置情報と出現回数とを有する情報(1614)が構成される。なお、モジュール「subtract」1613は、情報(1611)を残したまま、正常データベース1603に存在しないkmerと位置情報とを有する情報(1614)を別に蓄積しても良い。
【0220】
次に、kmer選択手段334は、例えば、図10のkmer選択処理のフローチャートの動作に従って、出現回数の上位n(nは1以上の自然数)のkmerのみを残す処理を行う。かかる処理は、モジュール「top n-th kmer assemble」1615が行う。なお、出現回数の上位nのkmerのみを残す処理は、情報(1611)から上位nより下位のkmerを削除する処理でも良いし、情報(1611)は残し、情報(1611)の中の上位nのkmerを別途、蓄積する処理でも良い。なお、例えば、上位nの各kmerには位置情報が対応付いている。
【0221】
次に、翻訳部34は、モジュール「top n-th kmer assemble」1615が取得した上位nの各kmerに対して、図12のフローチャートを用いて説明した翻訳処理を行う。つまり、翻訳部34は、DNA遺伝暗号表(図17)を参照し、各kmerの中の3文字のkmer文字列をアミノ酸配列文字に変換し、3文字のkmer文字列をアミノ酸配列文字に置き換えた文字列を構成する。かかる文字列は、アミノ酸配列情報であり、通常、11文字である。かかる翻訳処理の結果、アミノ酸配列情報と位置情報とを有する1または2以上の組が構成される。なお、かかる翻訳処理は、モジュール「translate」1616が行う。また、翻訳部34は、例えば、kmer「TTTTTCTTA・・・GTT」からアミノ酸配列情報「FFL・・・V」を取得する。
【0222】
次に、スコア取得手段351は、翻訳処理の結果である1以上の各アミノ酸配列情報のスコアを取得する。つまり、スコア取得手段351は、モジュール「pVACbind」に1以上の各アミノ酸配列情報を与え、各アミノ酸配列情報のスコアを取得する。なお、かかるモジュールは1617である。
【0223】
次に、ネオアンチゲン選択手段352は、各アミノ酸配列情報のスコアがネオアンチゲン条件を満たすか否かを判断する。次に、ネオアンチゲン条件を満たす1以上のアミノ酸配列情報を取得する。なお、ネオアンチゲン条件は、例えば、スコアが閾値以上または閾値より大きいことである。また、位置取得手段353は、ネオアンチゲン条件を満たした各アミノ酸配列情報の位置情報を取得し、アミノ酸配列情報に対応付ける。なお、位置情報は、アミノ酸配列情報に対応付いていても良いし、bamファイル1610から、アミノ酸配列情報に対応するkmerに対応するリードの位置情報から取得しても良い。かかるネオアンチゲン選択手段352と位置取得手段353とが行う処理は、モジュール「pVACbind Modify」1618が行う。
【0224】
次に、ネオアンチゲン取得部36は、モジュール「pVACbind Modify」1618の出力を用いて、ネオアンチゲン情報を取得する。かかるネオアンチゲン情報は、例えば、1以上の各アミノ酸配列情報と、各アミノ酸配列情報の位置情報と、各アミノ酸配列情報のスコアとを有する。
【0225】
次に、ネオアンチゲン出力部41は、当該ネオアンチゲン情報を出力する。かかるネオアンチゲン情報は、1619である。また、かかるネオアンチゲン情報の出力例は、図18である。
【0226】
図18において、「Mutation」は、kmerのIDである。「HLA Allele」は、対象のユーザのHLA型である。「Sub-peptide Positon」は、kmerの中におけるペプチドのスタートポジションである。「Epitope Seq」は、対象のアミノ酸配列(ネオアンチゲン情報)である。「Median Score」は、複数の機械学習アルゴリズムで予測し、得られたスコアセットの中央値である。「Best Score」は、複数の機械学習アルゴリズムで予測し、得られたスコアセットの中で最も良いスコアである。「Locus」は、Epitope Seqのゲノム座標(位置情報)である。「max_coverrage」は、Epitope Seqのゲノム座標上におけるリード数の最?値である。「Feature」は、Epitope Seqのゲノム座標上におけるfeatureである。
【0227】
以上、本実施の形態によれば、精度高くネオアンチゲンを予測でき、かつ精度高くネオアンチゲンの位置情報を取得できる。なお、本実施の形態において、ネオアンチゲンの位置情報を取得できることにより、ネオアンチゲンの周辺の遺伝子情報も見ることができ、診断に役立つ。
【0228】
また、本実施の形態において、ネオアンチゲン予測装置Aは、範囲管理部14、範囲受付部22、選択部32等を有しなくても良い。また、格納部1は、外部の装置が具備していても良い。かかる場合のネオアンチゲン予測装置Aは、異常なゲノム情報を含む対象ゲノム情報の中の第一長さの部分である1以上のリードを受け付ける対象受付部21と、正常なゲノム情報であり、当該ゲノム情報を構成するリードの位置情報を取得する元になる参照ゲノム配列情報を参照し、前記1以上の各リードの位置を特定する情報である位置情報を取得するマッピング部31と、前記1以上の各リードから第二長さ(第一長さ>=第二長さ)の部分である2以上のkmerを取得し、当該2以上のkmerのうち、正常なゲノム情報から取得された2以上のkmerが格納される正常データベースに存在しない1以上のkmerを決定する決定部33と、前記決定部33が決定した1以上の各kmerに対応するアミノ酸配列情報の位置情報を、当該アミノ酸配列情報に対応する前記kmerに対応する前記リードの位置情報であり、前記マッピング部31が取得した前記位置情報を用いて取得する位置取得部35と、前記位置取得部35が取得した位置情報と、前記1以上の各アミノ酸配列情報とを対応付けた情報であるネオアンチゲン情報を取得するネオアンチゲン取得部36と、前記ネオアンチゲン情報を出力するネオアンチゲン出力部41とを具備する。
【0229】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態におけるネオアンチゲン予測装置Aを実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、異常なゲノム情報を含む対象ゲノム情報の中の第一長さの部分である1以上のリードを受け付ける対象受付部と、正常なゲノム情報であり、当該ゲノム情報を構成するリードの位置情報を取得する元になる参照ゲノム配列情報を参照し、前記1以上の各リードの位置を特定する情報である位置情報を取得するマッピング部と、前記1以上の各リードから第二長さ(第一長さ>=第二長さ)の部分である2以上のkmerを取得し、当該2以上のkmerのうち、正常なゲノム情報から取得された2以上のkmerが格納される正常データベースに存在しない1以上のkmerを決定する決定部と、前記決定部が決定した1以上の各kmerに対応するアミノ酸配列情報の位置情報を、当該アミノ酸配列情報に対応する前記kmerに対応する前記リードの位置情報であり、前記マッピング部が取得した前記位置情報を用いて取得する位置取得部と、前記位置取得部が取得した位置情報と、前記1以上の各アミノ酸配列情報とを対応付けた情報であるネオアンチゲン情報を取得するネオアンチゲン取得部と、前記ネオアンチゲン情報を出力するネオアンチゲン出力部として機能させるためのプログラムである。
【0230】
また、図19は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態のネオアンチゲン予測装置A等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図19は、このコンピュータシステム300の概観図であり、図20は、システム300のブロック図である。
【0231】
図19において、コンピュータシステム300は、CD-ROMドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
【0232】
図20において、コンピュータ301は、CD-ROMドライブ3012に加えて、MPU3013と、CD-ROMドライブ3012等に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0233】
コンピュータシステム300に、上述した実施の形態のネオアンチゲン予測装置A等の機能を実行させるプログラムは、CD-ROM3101に記憶されて、CD-ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD-ROM3101またはネットワークから直接、ロードされても良い。
【0234】
プログラムは、コンピュータ301に、上述した実施の形態のネオアンチゲン予測装置A等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
【0235】
なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
【0236】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0237】
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。
【0238】
また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0239】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0240】
以上のように、本発明にかかるネオアンチゲン予測装置Aは、精度高くネオアンチゲンを予測できず、かつ精度高くネオアンチゲンの位置情報を取得できるという効果を有し、ネオアンチゲンを予測するサーバやスタンドアロンの装置等として有用である。
【符号の説明】
【0241】
A ネオアンチゲン予測装置
1 格納部
2 受付部
3 処理部
4 出力部
11 参照ゲノム配列管理部
12 正常データベース管理部
13 暗号表管理部
14 範囲管理部
21 対象受付部
22 範囲受付部
31 マッピング部
32 選択部
33 決定部
34 翻訳部
35 位置取得部
36 ネオアンチゲン取得部
41 ネオアンチゲン出力部
331 kmer取得手段
332 決定手段
333 カウント手段
334 kmer選択手段
351 スコア取得手段
352 ネオアンチゲン選択手段
353 位置取得手段
【要約】
【課題】精度高くネオアンチゲンを予測できず、かつ精度高くネオアンチゲンの位置情報を取得できなかった。
【解決手段】対象ゲノム情報の1以上のリードを受け付ける対象受付部21と、1以上の各リードの位置情報を参照ゲノム配列情報から取得するマッピング部31と、1以上の各リードから2以上のkmerを取得し、当該2以上のkmerのうち、正常DBに存在しない1以上のkmerを決定する決定部33と、1以上の各kmerに対応するアミノ酸配列情報の位置情報を取得する位置取得部35と、位置取得部35が取得した位置情報と、1以上の各アミノ酸配列情報とを対応付けた情報であるネオアンチゲン情報を取得するネオアンチゲン取得部36と、ネオアンチゲン情報を出力するネオアンチゲン出力部41とを具備するネオアンチゲン予測装置Aにより、精度高くネオアンチゲンを予測できず、かつ精度高くネオアンチゲンの位置情報を取得できる。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20