IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 緒方 法親の特許一覧

特開2022-20034GISAID EpiFluTM Databaseから取得可能であるFASTAフォーマットウイルスゲノム塩基配列電子データの加工方法
<>
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022020034
(43)【公開日】2022-01-31
(54)【発明の名称】GISAID EpiFluTM Databaseから取得可能であるFASTAフォーマットウイルスゲノム塩基配列電子データの加工方法
(51)【国際特許分類】
   G16B 30/00 20190101AFI20220105BHJP
   C12N 15/09 20060101ALN20220105BHJP
【FI】
G16B30/00
C12N15/09 Z
【審査請求】未請求
【請求項の数】1
【出願形態】書面
(21)【出願番号】P 2020123289
(22)【出願日】2020-06-24
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.UNIX
(71)【出願人】
【識別番号】512261791
【氏名又は名称】緒方 法親
(72)【発明者】
【氏名】緒方 法親
(57)【要約】      (修正有)
【課題】ウイルスゲノム塩基配列電子データをより精度よく解析できる電子データの加工方法を提供する。
【解決手段】塩基配列電子データの加工方法は、FASTAフォーマットのウイルスゲノム塩基配列電子データの加工方法であり,キャリッジリターン(Unicodeコード,U+000D(ゼロゼロゼロディー))を除去する工程と,スペース(Unicodeコード,U+0020(ゼロゼロにゼロ))を除去する工程を備える。
【選択図】なし

【特許請求の範囲】
【請求項1】
GISAID EpiFluTM Databaseから取得可能であるFASTAフォーマットのウイルスゲノム塩基配列電子データの加工方法であり,キャリッジリターン(Unicodeコード,U+000D(ゼロゼロゼロディー))を除去する工程と,スペース(Unicodeコード,U+0020(ゼロゼロにゼロ))を除去する工程を不足なく備えた塩基配列電子データの加工方法.
【発明の詳細な説明】
【技術分野】
【0001】
本発明は,自然言語データの取り扱いに関連し,辞書またはテーブルを利用するものである.より詳しく説明すると,本発明は,特定のウイルス遺伝子配列データベース(GISAID EpiFluTM Database)から取得したウイルスゲノム配列電子データを効果的に比較・分類するための電子データの加工方法に関する.
【背景技術】
【0002】
Phylogenetic analyses of the severe acute respiratory syndrome coronavirus 2 reflected the several routes of introduction to Taiwan, the United States, and Japanには,ウイルス遺伝子配列データベース(GISAID EpiFluTM Database)から取得したウイルスゲノム配列電子データを効果的に比較・分類した事例が開示されている.ウイルス遺伝子配列データベース(GISAID EpiFluTM Database)から取得したウイルスゲノム配列電子データを比較・分類することにより,ワクチン開発・製造に有益な知見を得ることができる.
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】論文名:Phylogenetic analyses of the severe acute respiratory syndrome coronavirus 2 reflected the several routes of introduction to Taiwan,the United States,and Japan 刊行物名:arXiv 発行年月日:令和2年2月28日 発行者名:Cornell University URL:https://arxiv.org/abs/2002.08802
【発明の概要】
【発明が解決しようとする課題】
【0004】
GISAID EpiFluTM Databaseはウイルスの遺伝子配列情報を対象としたデータベースであり,このデータベースが提供するデータの範囲はwebサイトに示されている(https://www.gisaid.org/registration/terms-of-use/).GISAID EpiFluTM Databaseの提供するウイルスの遺伝子配列情報電子データのうち,特にウイルスゲノムの遺伝子配列情報を示すファスタフォーマットのデータの特徴として,他の遺伝子配列情報データベースであるNCBI GenBank (https://www.ncbi.nlm.nih.gov/genbank/)に比べて,様式不備が多いことが挙げられる.これらの遺伝子配列情報電子データをダウンロードして利用しようとするユーザーは,これらの遺伝子配列情報電子データについてプログラムを用いて処理し,知見を得ることを目的としている.一方で,GISAID EpiFluTM Databaseの提供しているFASTAフォーマットウイルスゲノム塩基配列電子データには様式不備が多いために塩基配列電子データ処理プログラムが正常に動作しない.そのため,従来,これらの遺伝子配列情報電子データをダウンロードして利用しようとするユーザーは,手作業にてFASTAフォーマットウイルスゲノム塩基配列電子データ編集,修正し,ノイズを除去する必要があった.
【課題を解決するための手段】
【0005】
本発明は,GISAID EpiFluTM Databaseの提供するウイルスの遺伝子配列情報電子データのうち,特にウイルスゲノムの遺伝子配列情報を示すファスタフォーマットのデータに含まれるノイズを突き止め,そしてそのノイズを取り除くための自然言語データの取り扱いにおいて用いる,辞書,テーブルを見出したことに基づくものである.
【0006】
本発明は,本発明は,GISAID EpiFluTM Databaseの提供するウイルスの遺伝子配列情報電子データであるウイルスゲノムの遺伝子配列情報を示すFASTAフォーマットのデータの加工方法に関連する.この加工方法は,キャリッジリターン(Unicodeコード,U+000D(ゼロゼロゼロディー))を除去する工程と,ハイフン(Unicodeコード,U+002D(ゼロゼロにディー))を除去する工程と,スペース(Unicodeコード,U+0020(ゼロゼロにゼロ))を除去する工程と,U(Unicodeコード,U+0055(ゼロゼロごご))をT(Unicodeコード,U+0054(ゼロゼロごよん))もしくはt(Unicodeコード,U+0074(ゼロゼロななよん))に置換する工程と,u(Unicodeコード,U+0075(ゼロゼロななご))をT(Unicodeコード,U+0054(ゼロゼロごよん))もしくはt(Unicodeコード,U+0074(ゼロゼロななよん))に置換する工程を備えた塩基配列電子データの加工方法である.
【0007】
本発明の好ましい態様は,
キャリッジリターン(Unicodeコード,U+000D(ゼロゼロゼロディー))を除去する工程と,ハイフン(Unicodeコード,U+002D(ゼロゼロにディー))を除去する工程と,スペース(Unicodeコード,U+0020(ゼロゼロにゼロ))を除去する工程と,U(Unicodeコード,U+0055(ゼロゼロごご))をT(Unicodeコード,U+0054(ゼロゼロごよん))に置換する工程と,u(Unicodeコード,U+0075(ゼロゼロななご))をT(Unicodeコード,U+0054(ゼロゼロごよん))に置換する工程を備えた塩基配列電子データの加工方法である.例えば,本発明が対象とするGISAID EpiFluTM Databaseの提供するウイルスの遺伝子配列情報電子データであるウイルスゲノムの遺伝子配列情報を示すFASTAフォーマットのデータがgisaid.fastaという名称であった場合に,unix上では,more gisaid.fasta | tr -d ¥¥r
re とプログラムすることによって実行可能である.
【発明の効果】
【0008】
本発明の電子データ加工方法は,辞書,テーブルを用いた自然言語の取り扱いによってウイルスゲノムデータ解析の障害となる電子データ中のノイズを特異的に増幅させることができる.このため,本発明は,ウイルスゲノムデータを分析するための加工済みウイルスゲノムデータを提供できる.
【実施例0009】
GISAIDのwebサイト(https://www.epicov.org/epi3/frontend#40e5aa)にアクセスし,SARS-CoV-2ゲノムデータセットであるgisaid_hcov-19_2020_06_20_03.fastaを取得した.gisaid_hcov-19_2020_06_20_03.fastaのファイルサイズは1510098350バイトであり,18449772行であり,MD5は089c72027fc07dd7be3a3d414134acd3であった.また,FASTAフォーマットの定めに従い,49721行のID行を有するマルチファスタファイルであった.
【0010】
公知である解析プログラムsamtoolsを用いてgisaid_hcov-19_2020_06_20_03.fastaを処理することを試みたところ,Formaterrorにより停止した.
【非特許文献】
【0011】
【非特許文献2】論文名:The Sequence Alignment/Map Format and SAMtools 刊行物名:Bioinformatics 発行年月日:平成21年8月15日 発行者名:Oxford University Press DOI:10.1093/bioinformatics/btp352
【0012】
gisaid_hcov-19_2020_06_20_03.fastaはFASTAフォーマットの配列行にNを多く含むため,Nの数を数えられるように準備することとし,キャリッジリターン(Unicodeコード,U+000D(ゼロゼロゼロディー))を除去する工程と,ハイフン(Unicodeコード,U+002D(ゼロゼロにディー))を除去する工程と,スペース(Unicodeコード,U+0020(ゼロゼロにゼロ))を除去する工程と,U(Unicodeコード,U+0055(ゼロゼロごご))をT(Unicodeコード,U+0054(ゼロゼロごよん))に置換する工程と,u(Unicodeコード,U+0075(ゼロゼロななご))をT(Unicodeコード,U+0054(ゼロゼロごよん))に置換する工程を実施するため,unix上で下記の操作を行なった.
tr -d ¥¥r <gisaid_hcov-19_2020_06_20_03.
さらにunix上にて下記の操作を行なった.
tr -d ¥¥r <gisaid_hcov-19_2020_06_20_03.
emp_202006211542.txt
【0013】
gisaid_hcov-19_2020_06_20_03.fastaのID行を取り分けるため,unix上にて以下の操作を行なった.
tr -d ¥¥r <gisaid_hcov-19_2020_06_20_03.
【0014】
gisaid_hcov-19_2020_06_20_03.fastaに含まれる各ウイルスゲノムに含まれるNの数を数えるため,unix上にて以下の操作を行なった.paste temp_202006211725.txt temp_2020062
txt
【0015】
gisaid_hcov-19_2020_06_20_03.fastaに含まれる各ウイルスゲノムに含まれるNの数についてグラフを作成するため,R上にて以下の操作をおこなった.
attach(data)
par(new=T)
par(new=T)
【0016】
gisaid_hcov-19_2020_06_20_03.fastaに含まれる各ウイルスゲノムのうち,総塩基長A(28999)より大きくNがB(1501)より少ないものを取り出し,また,塩基配列行では80文字毎に改行があり,かつ塩基配列行に小文字含まれていないFASTAファイルにするため,unix上にて下記の操作を行なった.
paste temp_202006211802.txt temp_2020062
fasta
以上の工程によってtemp_202006212055.fastaとしてウイルスゲノムデータを分析するための加工済みウイルスゲノムデータを取得した.
【0016】
temp_202006212055.fastaを分析することによってparsimony informative sitesを取得した.
【産業上の利用可能性】
【0017】
本発明は,医療のための医薬品を製造販売する製造業の分野で利用されうる.