(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6979280
(24)【登録日】2021年11月17日
(45)【発行日】2021年12月8日
(54)【発明の名称】トランスクリプトームデータの解析方法
(51)【国際特許分類】
G16B 25/10 20190101AFI20211125BHJP
C12N 15/00 20060101ALN20211125BHJP
【FI】
G16B25/10
!C12N15/00
【請求項の数】6
【全頁数】12
(21)【出願番号】特願2017-78563(P2017-78563)
(22)【出願日】2017年4月11日
(65)【公開番号】特開2018-180867(P2018-180867A)
(43)【公開日】2018年11月15日
【審査請求日】2020年4月7日
(73)【特許権者】
【識別番号】516279260
【氏名又は名称】株式会社日本バイオデータ
(74)【代理人】
【識別番号】100116850
【弁理士】
【氏名又は名称】廣瀬 隆行
(74)【代理人】
【識別番号】100165847
【弁理士】
【氏名又は名称】関 大祐
(72)【発明者】
【氏名】緒方 法親
【審査官】
渡邉 加寿磨
(56)【参考文献】
【文献】
特開2004−240975(JP,A)
【文献】
特許第5854346(JP,B2)
【文献】
特表2017−500620(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00−99/00
G16C 10/00−99/00
G16Z 99/00
G06Q 10/00−99/00
G16H 10/00−80/00
C12N 15/00
(57)【特許請求の範囲】
【請求項1】
コンピュータを用いたトランスクリプトームデータの解析方法であって,
前記コンピュータが,複数のトランスクリプトームデータに含まれる各データを2進数に変換し,変換した2進数におけるビットデータの桁数をそろえることにより前記各データのサイズを統一するサイズ統一工程と,
前記コンピュータが,前記サイズ統一工程を経た複数のトランスクリプトームデータを圧縮する圧縮工程と,
前記コンピュータが,前記圧縮工程を経た複数のトランスクリプトームデータのファイルサイズを測定する工程と,
を含む,トランスクリプトームデータの解析方法。
【請求項2】
請求項1に記載の方法であって,
前記サイズ統一工程は,あらかじめ設定された桁数となるように,前記各データを2進法で表現する工程である,方法。
【請求項3】
請求項2に記載の方法であって,
前記あらかじめ設定された桁数は,20〜22のいずれかの整数である,方法。
【請求項4】
請求項1に記載の方法であって,
前記サイズ統一工程は,
前記コンピュータが,前記複数のトランスクリプトームデータに含まれるデータの最大数を求める工程と,
前記コンピュータが,前記最大数を2進法で表した場合の桁数を求める工程と,
前記コンピュータが,前記最大数を2進法で表した場合の桁数となるように前記各データを2進法で表現する工程を含む,方法。
【請求項5】
請求項1に記載の方法であって,
前記圧縮工程は,zip方式,tar方式,gzip方式,LZH方式,bzip2方式,tbz方式,tar.xz方式,7−zip方式,rar方式,taz方式,SIT方式,GCA方式,CAB方式,SEA方式,HQX方式,BIN方式,IMG方式,SMI方式,CPT方式,compress(z) 方式,ARJ方式,または,cab方式により,前記サイズ統一工程を経た複数のトランスクリプトームデータを圧縮する,方法。
【請求項6】
請求項1に記載の方法であって,
前記複数のトランスクリプトームデータに含まれるトランスクリプトームデータは,それぞれテキスト形式,ワード形式,バイナリー形式,又はテーブルの行又は列データである,方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は,生物学的な意義を分析するためのトランスクリプトームデータの解析方法に関する。
【背景技術】
【0002】
細胞は,環境の変化に応じて遺伝子発現を変化させる。環境の変化の大きさは,細胞の遺伝子発現の変化の大きさと関係がある。しかしながら,トランスクリプトームデータは数千を超える遺伝子発現量の測定結果に基づくため,トランスクリプトームの変化の大きさを測ることは困難であった。
【0003】
例えば,特許5854346号公報には,トランスクリプトーム解析方法が記載されている。
【0004】
トランスクリプトームデータの情報エントロピーを測定する方法は,トランスクリプトームデータをひとつの値で表現することを可能にし,また,主成分分析やt−SNEといった他のデータ次元削減手法と比べて得られる値の生物学上の意義が解釈しやすい利点があった。過去の事例では,トランスクリプトームの情報エントロピーを用いて細胞の脱分化の度合いを定量することができた他,細胞のヒステリシスを捉えることができた。情報エントロピーは下記の式で定義される。
【0005】
【数1】
【0006】
RNA−seq法に基づくトランスクリプトームデータは0カウントデータを含む。しかしながら,情報エントロピーの枠組みでは,0カウントデータはlog0が成立しないために扱うことができない。トランスクリプトームデータ中の0カウントデータは生物学上の意義を持つと考えられ,特に情報エントロピーでは類似したトランスクリプトームデータの分離がうまくいかない場合があった。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特許5854346号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は,トランスクリプトームデータを用い簡易な方法により,対象への影響を解析できるトランスクリプトームデータの解析方法を提供することを目的とする。
本発明の好ましい利用方法は,トランスクリプトームデータのコルモゴロフ複雑性を推定することで,0カウントデータを含めたデータ次元削減手法を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明は,基本的には,トランスクリプトームデータの各データサイズを統一したうえで,圧縮処理を施せば,対象への影響を容易に解析できるという実施例による知見に基づくものである。
【0010】
本発明のトランスクリプトームデータの解析方法は,
サイズ統一工程(S1)と,圧縮工程(S2)と,サイズ測定工程(S3)を含む。
サイズ統一工程(S1)は,複数のトランスクリプトームデータに含まれる各データのサイズを統一する工程である。
圧縮工程(S2)は,サイズ統一工程を経た複数のトランスクリプトームデータを圧縮する工程である。
サイズ測定工程(S3)は,圧縮工程を経た複数のトランスクリプトームデータのファイルサイズを測定する工程である。
【0011】
サイズ統一工程(S1)の例は,あらかじめ設定された桁数となるように,各データを2進法で表現する工程である。この例において好ましいものは,あらかじめ設定された桁数が,20〜22のいずれかの整数となるものである。
【0012】
サイズ統一工程(S1)は,
複数のトランスクリプトームデータに含まれるデータの最大数を求める工程と,
最大数を2進法で表した場合の桁数を求める工程と,
最大数を2進法で表した場合の桁数となるように各データを2進法で表現する工程を含むものであってもよい。
【0013】
圧縮工程(S2)の例は,zip方式,tar方式,gzip方式,LZH方式,bzip2方式,tbz方式,tar.xz方式,7−zip方式,rar方式,taz方式,SIT方式,GCA方式,CAB方式,SEA方式,HQX方式,BIN方式,IMG方式,SMI方式,CPT方式,compress(z) 方式,ARJ方式,または,cab方式により,サイズ統一工程を経た複数のトランスクリプトームデータを圧縮するものである。
【0014】
複数のトランスクリプトームデータに含まれるトランスクリプトームデータは,それぞれテキスト形式,ワード形式,バイナリー形式,又はテーブルの行又は列データであってもよい。
【0015】
ファイルサイズを測定する工程について,ファイルサイズは,通常プロパティをみると表示されるものである。すなわち,コンピュータは,通常ファイルサイズを自動的に測定している。この例では,コンピュータが,圧縮後の複数のトランスクリプトームデータのファイルサイズを測定すればよい。
【発明の効果】
【0016】
本発明は,トランスクリプトームデータを用い,データの正規化(規格化),圧縮及びサイズ測定という簡易な方法により,対象への影響を解析できるトランスクリプトームデータの解析方法を提供できる。
本発明の好ましい態様は,トランスクリプトームデータのコルモゴロフ複雑性を推定することで,0カウントデータを含めたデータ次元削減手法を提供できる。
【図面の簡単な説明】
【0017】
【
図1】
図1は,細胞に与えた薬剤の濃度と情報エントロピーを比較した図面に替るグラフである。
【
図2】
図2は,細胞に与えた薬剤の濃度とコルモゴロフ複雑性を比較した図面に替るグラフである。
【発明を実施するための形態】
【0018】
以下,図面を用いて本発明を実施するための形態について説明する。本発明は,以下に説明する形態に限定されるものではなく,以下の形態から当業者が自明な範囲で適宜修正したものも含む。
【0019】
本発明のトランスクリプトームデータの解析方法は,サイズ統一工程(S1)と,圧縮工程(S2)と,サイズ測定工程(S3)を含む。トランスクリプトームは,所定の条件における細胞内の総合的なmRNA(messenger RNA,transcripts)の発現量の状態等を示す。生物は,通常,同一個体内で同一の遺伝情報(ゲノム)を備えているものの,トランスクリプトームは,組織の細胞の差,分化状態,年齢,細胞外からの刺激等に対する応答により異なっている。トランスクリプトームに係る複数のmRNAの発現量は,例えば高速シークエンサー又はDNAアレイ(マイクロアレイ)を用いて測定できる。
【0020】
本発明のトランスクリプトームデータの解析方法は,コンピュータを用いて行われることが好ましい。コンピュータは,入出力部,記憶部,制御部及び演算部を有し,各要素はバスなどで情報の授受を行うことができるようにされている。コンピュータは,記憶部に記憶された制御プログラムを読み出し,各種演算を行うようにされていればよい。また,コンピュータは,インターネットなどでサーバと接続され,サーバが各種データを記憶し,所定の演算を行ってもよい。
【0021】
本発明は,コンピュータを用いたトランスクリプトームデータの解析方法であって,
そのコンピュータが,
複数のトランスクリプトームデータに含まれる各データのサイズを統一するサイズ統一工程と,
サイズ統一工程を経た複数のトランスクリプトームデータを圧縮する圧縮工程と,
圧縮工程を経た複数のトランスクリプトームデータのファイルサイズを測定する工程と,
を行うものであってもよい。
【0022】
また,本発明は,複数のトランスクリプトームデータに含まれる各データのサイズを統一するサイズ統一手段と,
サイズ統一手段によりサイズが統一された複数のトランスクリプトームデータを圧縮する圧縮手段と,
圧縮手段により圧縮された複数のトランスクリプトームデータのファイルサイズを測定するサイズ測定手段と,
を有するコンピュータをも提供する。
【0023】
また,本発明は,コンピュータを,複数のトランスクリプトームデータに含まれる各データのサイズを統一するサイズ統一手段と,
サイズ統一手段によりサイズが統一された複数のトランスクリプトームデータを圧縮する圧縮手段と,
圧縮手段により圧縮された複数のトランスクリプトームデータのファイルサイズを測定するサイズ測定手段と,
して機能させるためのプログラムや,そのプログラムを格納したコンピュータが読み取ることができる記録媒体をも提供する。
【0024】
サイズ統一工程(S1)は,複数のトランスクリプトームデータに含まれる各データのサイズを統一する工程である。
サイズ統一工程(S1)の例は,あらかじめ設定された桁数となるように,各データを2進法で表現する工程である。この例において好ましいものは,あらかじめ設定された桁数が,20〜22のいずれかの整数となるものである。
【0025】
サイズ統一工程(S1)は,
複数のトランスクリプトームデータに含まれるデータの最大数を求める工程と,
最大数を2進法で表した場合の桁数を求める工程と,
最大数を2進法で表した場合の桁数となるように各データを2進法で表現する工程を含むものであってもよい。
【0026】
この場合,コンピュータの制御部は,記憶部からトランスクリプトームを読み出す。そして,制御部は,演算部に,読み出したトランスクリプトームに含まれる複数のトランスクリプトームデータのうち最大数を求める演算を行わせる。制御部は,求めた最大数を記憶部に記憶させる。制御部は,演算部に,求めた最大数を2進法で表現させ,その桁数を求める演算を行わせる。そして,制御部は,記憶部に最大数を2進法で表現した場合の桁数を記憶させる。なお,トランスクリプトームに含まれるトランスクリプトームデータがもともと2進法で表現されていれば,制御部が演算部にトランスクリプトームデータのうち最大桁数のものを求めさせるものであってもよい。次に,制御部は,演算部に対し,複数のトランスクリプトームデータを最大桁数で表現させ,それを記憶部に記憶させる。トランスクリプトームデータを最大桁数で表現させるためには,存在しない桁の部分に0を置けばよい。
【0027】
次に,サイズ統一工程(S1)を,例を用いて説明する。
対照試料,試料A,試料B,試料Cを対象に投与した場合の,複数のmRNA(遺伝子1〜と表記)の発現量を求めてトランスクリプトームデータとする。求めたトランスクリプトームデータは,記憶部に記憶され,以下の表1のような状態で表示部に表示される(実際は桁数がもっと大きくてもよい)。表1は,トランスクリプトームデータの表示例である。
【0029】
各トランスクリプトームデータは10進法で表示されている。これを2進法で表示すると以下のようになる。表2は,トランスクリプトームデータの各データを2進法で表示したものである。
【0031】
各トランスクリプトームデータを2進法で表した場合,桁数が異なるので,各トランスクリプトームデータのデータサイズがばらばらである。なお,記憶部において記憶されたウ各トランスクリプトームデータはもともと2進法のデータとして記憶されている場合が多い。記憶部に10進法により記憶されている場合は,制御部は記憶部からデータを読み出し,演算部に各データを2進法で表現された形式に変換する演算を行わせ,演算結果を記憶部に記憶すればよい。一方,単に各データが2進法で表現されている場合,桁数が大きいデータの方がデータサイズが大きくなる。そこで,制御部は,記憶部から2進法で表現された各トランスクリプトームデータを読み出して,演算部に桁数の統一演算を行わせ,適宜記憶部に記憶する。桁数を統一したトランスクリプトームデータの例は,以下の表3のとおりである。つまり存在しない桁部分には0を置く演算を行えばよい。
【0033】
上記の例では,トランスクリプトームデータの各データが,5ケタにそろえられ,5ビットにデータサイズが統一されている。
【0034】
ある数列のコルモゴロフ複雑性は,その数列を示すことができる最小のプログラムの複雑性として定義される。本当に最小のプログラムは未知なので,正しく計算することができない関数である。そこで実際にコルモゴロフ複雑性を評価する場合には,その数列を保存した電子ファイルを圧縮して圧縮したときのファイルサイズを評価することが考えられる。例えば,扱う対象のデータが(0,0,0,0,0,1,2,3)であった場合,先に説明した情報エントロピーではlog(0)が成立しないので(1,2,3)の情報エントロピーを求めることになり,これでは0カウントデータが無視される。
一方,0という記述はテキストデータ上で0バイトではないので,0カウントデータも(0,0,0,0,0,1,2,3)を保存したファイルのデータサイズとして扱うことができることとなる。つまり,本発明によれば,0カウントデータも扱えるようになる。
【0035】
圧縮工程(S2)は,サイズ統一工程を経た複数のトランスクリプトームデータを圧縮する工程である。
圧縮工程(S2)の例は,zip方式,tar方式,gzip方式,LZH方式,bzip2方式,tbz方式,tar.xz方式,7−zip方式,rar方式,taz方式,SIT方式,GCA方式,CAB方式,SEA方式,HQX方式,BIN方式,IMG方式,SMI方式,CPT方式,compress(z) 方式,ARJ方式,または,cab方式により,サイズ統一工程を経た複数のトランスクリプトームデータを圧縮するものである。
【0036】
例えば,表3の状態の桁数を統一したトランスクリプトームデータは記憶部に記憶されている。制御部は,記憶部から桁数を統一したトランスクリプトームデータを読み出すとともに,記憶部から圧縮演算プログラムを読み出す。そして,制御部は,演算部に,読み出したデータを,圧縮演算プログラムの指令に基づいて圧縮演算を行うように指令を出す。演算部は,受け取ったデータに対して,圧縮演算を行う。このようにして,複数のトランスクリプトームデータを圧縮できる。この場合,例えば,対照試料,試料Aといった,項目ごとにファイルを作成し,ファイルごと圧縮処理を行うようにしてもよい。この場合,圧縮前の各ファイルは,遺伝子1,遺伝子2.....に関するデータサイズが統一されたデータを有することとなり,ファイルのデータサイズは同じである。圧縮された複数のトランスクリプトームデータは,記憶部に記憶される。
【0037】
複数のトランスクリプトームデータに含まれるトランスクリプトームデータは,それぞれテキスト形式,ワード形式,バイナリー形式,又はテーブルの行又は列データであってもよい。
【0038】
サイズ測定工程(S3)は,圧縮工程を経た複数のトランスクリプトームデータのファイルサイズを測定する工程である。ファイルサイズを測定する工程について,ファイルサイズは,通常プロパティをみると表示されるものである。すなわち,コンピュータは,通常ファイルサイズを自動的に測定している。この例では,コンピュータが,圧縮後の複数のトランスクリプトームデータのファイルサイズを測定すればよい。制御部は,記憶部に記憶された圧縮された複数のトランスクリプトームデータを読み出す。そして,制御部は,演算部に対し,項目ごと(対照試料,試料A,試料B...)に複数のトランスクリプトームデータのデータサイズを測定するよう指令を出す。すると,演算部は,項目ごとにデータサイズを測定し,記憶部に記憶する。また,項目ごとにファイル化され,記憶部に記憶されている場合は,制御部は各項目に応じたファイルを読み出し,演算部に各ファイルのファイルサイズを測定させる。そして,測定したファイルサイズを,項目ごとのデータサイズとして記憶部に記憶させる。このデータサイズは,項目ごとの特徴を反映している。例えば,ある試料を1mg投与した群,10mg投与した群,1mgを1日1回投与した群,1mgを1日3回投与した群,5mgを1日3回投与した群について,データサイズが得られれば,ある投与量及び投与頻度が最も適していることを容易に把握することができる。
【実施例】
【0039】
トランスクリプトームシークエンスデータはDNA Data Bank of Japan (DDBJ)のShort Read Archive より取得した。プロジェクトIDはDRA002853であった。トランスクリプトームシークエンスデータは先行研究で示された通りに解析した。解析によって得たトランスクリプトームデータの例を表4に示す。
【0040】
【表4】
【0041】
トランスクリプトームのコルモゴロフ複雑性の定量にあたっては,UNIX環境とR 3.0.2 環境を用いた。まず,R環境下において,前述のトランスクリプトームデータを編集する。トランスクリプトームデータの名称を”for_R_count.txt”として,以下のコードにより処理した。
【0042】
【表5】
UNIX環境下で,前述のデータを編集した。
【0043】
【表6】
【0044】
UNIX環境下で,前述のデータについて10進数で記述された値を22桁の2進数にコンバートした。
【0045】
【表7】
【0046】
上記の処理により,トランスクリプトームデータのファイルサイズの正規化が実施された。引き続いて,正規化後のトランスクリプトームデータを圧縮し,コルモゴロフ複雑性を定量する。
【0047】
【表8】
【0048】
出力を表8として示す。
【0049】
【表9】
【0050】
同一のトランスクリプトームデータセットより求めた情報エントロピーとコルモゴロフ複雑性の比較を
図1及び
図2に示す。
図1は,細胞に与えた薬剤の濃度と情報エントロピーを比較したものであり,
図2は,細胞に与えた薬剤の濃度とコルモゴロフ複雑性を比較したものである。図中の”o”は薬剤濃度が0である環境の細胞を用いた薬剤添加試験であるのに対し,図中の”+”は薬剤濃度が1.0mMであった環境の細胞を用いた薬剤除去試験である。図中,薬剤濃度が0.25mMである時,情報エントロピーを用いて描画した
図1では”o”と”+”とが十分に分離されなかった一方で,情報エントロピーを用いて描画した
図2では”o”と”+”とを分離することができた。
【産業上の利用可能性】
【0051】
本発明は,情報解析産業や医薬産業において利用されうる。