(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-02
(45)【発行日】2024-09-10
(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置
(51)【国際特許分類】
G16B 20/20 20190101AFI20240903BHJP
【FI】
G16B20/20
(21)【出願番号】P 2022534564
(86)(22)【出願日】2020-07-08
(86)【国際出願番号】 JP2020026730
(87)【国際公開番号】W WO2022009342
(87)【国際公開日】2022-01-13
【審査請求日】2022-10-12
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】片岡 正弘
(72)【発明者】
【氏名】松村 量
(72)【発明者】
【氏名】茂櫛 薫
【審査官】藤原 拓也
(56)【参考文献】
【文献】国際公開第2020/049748(WO,A1)
【文献】国際公開第2014/080447(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータに、
特定の個人のゲノム情報である複数に分断された分断ゲノムデータとして、癌患者のゲノム情報である複数に分断された前記分断ゲノムデータを取得し、
コドンと符号とを対応付けたコドン変換テーブルに基づき、複数の分断ゲノムデータそれぞれをコドン単位に符号化した複数の分断コドンデータとして、前記癌患者に対応する前記複数の分断コドンデータを生成し、
基準となる基準ゲノムデータをコドン単位に符号化した基準コドンデータである健康な人の前記基準コドンデータと、前記癌患者に対応する前記複数の分断コドンデータそれぞれとに基づき、前記複数の分断コドンデータに出現する前記符号のうち、前記基準コドンデータに出現する前記符号と異なる遺伝子変異が出現する位置と種別を特定し、
前記遺伝子変異と前記遺伝子変異が出現する位置と種別を対応付けた遺伝子変異転置インデックスとして、特定された前記遺伝子変異の位置と種別を用いて、前記癌患者に対応する前記遺伝子変異転置インデックスを生成
し、
複数の癌患者それぞれの前記遺伝子変異転置インデックスにおける前記コドンの符号と前記コドンの符号の出現位置とが対応付けられた各ビットの論理積を算出し、
前記論理積の結果を用いて、前記癌患者の特徴を表現する、前記遺伝子変異の位置と種別を表す統計的転置インデックスを生成する、
処理を実行させることを特徴とする情報処理プログラム。
【請求項2】
前記特定する処理は、前記基準コドンデータにおける前記コドンの符号と前記コドンの符号の出現位置とを対応付けた基準転置インデックスから、探索対象である基準コドン配列の位置を特定し、特定した前記位置に対応する前記基準コドンデータ内の符号と前記位置に対応する前記複数の分断コドンデータ内の符号とを比較して、前記遺伝子変異が出現する位置と種別を特定することを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
患者の前記分断ゲノムデータに対応する前記遺伝子変異転置インデックスを生成し、
前記患者を識別する識別子と、前記遺伝子変異転置インデックスと、前記コドン変換テーブルとのそれぞれを別々の暗号化手法により暗号化して結合させたデータを生成し、
前記データを出力する、
処理を前記コンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項4】
判定対象の新規患者の前記分断ゲノムデータが取得されて前記遺伝子変異転置インデックスが生成された場合に、前記新規患者の前記遺伝子変異転置インデックスと、癌種別ごとに生成された各統計的転置インデックスとの論理積を算出し、
前記論理積の結果に基づき前記新規患者がいずれの種別に癌に該当するかを診断する、
処理を前記コンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項5】
コンピュータが、
特定の個人のゲノム情報である複数に分断された分断ゲノムデータとして、癌患者のゲノム情報である複数に分断された前記分断ゲノムデータを取得し、
コドンと符号とを対応付けたコドン変換テーブルに基づき、複数の分断ゲノムデータそれぞれをコドン単位に符号化した複数の分断コドンデータとして、前記癌患者に対応する前記複数の分断コドンデータを生成し、
基準となる基準ゲノムデータをコドン単位に符号化した基準コドンデータである健康な人の前記基準コドンデータと、前記癌患者に対応する前記複数の分断コドンデータそれぞれとに基づき、前記複数の分断コドンデータに出現する前記符号のうち、前記基準コドンデータに出現する前記符号と異なる遺伝子変異が出現する位置と種別を特定し、
前記遺伝子変異と前記遺伝子変異が出現する位置と種別を対応付けた遺伝子変異転置インデックスとして、特定された前記遺伝子変異の位置と種別を用いて、前記癌患者に対応する前記遺伝子変異転置インデックスを生成
し、
複数の癌患者それぞれの前記遺伝子変異転置インデックスにおける前記コドンの符号と前記コドンの符号の出現位置とが対応付けられた各ビットの論理積を算出し、
前記論理積の結果を用いて、前記癌患者の特徴を表現する、前記遺伝子変異の位置と種別を表す統計的転置インデックスを生成する、
処理を実行することを特徴とする情報処理方法。
【請求項6】
特定の個人のゲノム情報である複数に分断された分断ゲノムデータとして、癌患者のゲノム情報である複数に分断された前記分断ゲノムデータを取得
し、
コドンと符号とを対応付けたコドン変換テーブルに基づき、複数の分断ゲノムデータそれぞれをコドン単位に符号化した複数の分断コドンデータとして、前記癌患者に対応する前記複数の分断コドンデータを生成
し、
基準となる基準ゲノムデータをコドン単位に符号化した基準コドンデータである健康な人の前記基準コドンデータと、前記癌患者に対応する前記複数の分断コドンデータそれぞれとに基づき、前記複数の分断コドンデータに出現する前記符号のうち、前記基準コドンデータに出現する前記符号と異なる遺伝子変異が出現する位置と種別を特定
し、
前記遺伝子変異と前記遺伝子変異が出現する位置と種別を対応付けた遺伝子変異転置インデックスとして、特定された前記遺伝子変異の位置と種別を用いて、前記癌患者に対応する前記遺伝子変異転置インデックスを生成
し、
複数の癌患者それぞれの前記遺伝子変異転置インデックスにおける前記コドンの符号と前記コドンの符号の出現位置とが対応付けられた各ビットの論理積を算出し、
前記論理積の結果を用いて、前記癌患者の特徴を表現する、前記遺伝子変異の位置と種別を表す統計的転置インデックスを生成する、
制御部を有することを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理プログラム、情報処理方法および情報処理装置に関する。
【背景技術】
【0002】
近年、人間や生物のDNA(Deoxyribonucleic Acid)およびRNA(Ribonucleic Acid)を構成するゲノムを分析することで、新型ウィルスの影響力を予測し、ワクチンなどが開発されている。また、ゲノムを基にして、癌などの突然変異(点突然変異)や遺伝子変異の遺伝子の異常を検出したり、病気を予防診断したりする研究が行われている。
【0003】
具体的には、ヒトゲノムの塩基配列を位置に対応付けて記憶し、個体間の相違を有益な意味情報として提供する技術が知られている。例えば、ゲノムの分析サービス等の要求情報に応じた塩基配列の位置情報を取得して、取得した位置情報に対応付けられる塩基配列情報を応答する。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2012-234558号公報
【文献】特開2012-157283号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところが、シーケンサーから、出力される塩基配列は、数百B(Byte)毎に分断されている。さらに、ヒトゲノムの塩基配列のデータサイズは、3GB(Byte)と非常に大きい。
【0006】
従来では、個人ゲノムの塩基配列を分断された状態で取得するため、分断された塩基配列を連結することが行われている。連結する技術としては、BW(Burrows-Wheeler)変換またはブロックソートなどが利用されることが多いが、分断された部分を探索して連結するため、分析時間が非常に長くなる。したがって、塩基配列の分析時間の長さと連結後のデータサイズが課題である。
【0007】
一つの側面では、個人ゲノムの分析時間を短縮し、データサイズを縮小することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
第1の案では、情報処理プログラムは、コンピュータに、特定の個人のゲノム情報である複数に分断された分断ゲノムデータを取得する処理を実行させる。情報処理プログラムは、コンピュータに、コドンと符号とを対応付けたコドン変換テーブルに基づき、複数の分断ゲノムデータそれぞれをコドン単位に符号化した複数の分断コドンデータを生成する処理を実行させる。情報処理プログラムは、コンピュータに、基準となる基準ゲノムデータをコドン単位に符号化した基準コドンデータと、前記複数の分断コドンデータそれぞれとに基づき、前記複数の分断コドンデータに出現する前記符号のうち、前記基準コドンデータに出現する前記符号と異なる遺伝子変異が出現する位置と種別を特定する処理を実行させる。情報処理プログラムは、コンピュータに、前記遺伝子変異と前記遺伝子変異が出現する位置と種別を対応付けた遺伝子変異転置インデックスを生成する処理を実行させる。
【発明の効果】
【0009】
一実施形態によれば、個人ゲノムの分析時間を短縮し、データサイズを縮小することができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、実施例1にかかる情報処理装置の動作を説明する図である。
【
図2】
図2は、実施例1にかかる情報処理装置の機能構成を示す機能ブロック図である。
【
図3】
図3は、コドン変換テーブルの例を示す図である。
【
図4】
図4は、基準コドンでデータの例を示す図である。
【
図5】
図5は、基準転置インデックスの例を示す図である。
【
図6】
図6は、分断ゲノムデータの符号化を説明する図である。
【
図7】
図7は、部分基準コドンデータの抽出を説明する図である。
【
図8】
図8は、コドン配列と基準転置インデックスによるコドン配列の絞り込みを説明する図である。
【
図9】
図9は、基準転置インデックスによるコドン配列の絞り込みを説明する図である。
【
図10】
図10は、基準ゲノムと個人ゲノムとSNPs転置インデックスを説明する図である。
【
図11】
図11は、コドン配列の比較とSNPs転置インデックスの生成との同時実行を説明する図である。
【
図12】
図12は、実施例1にかかる処理の流れを示すフローチャートである。
【
図13】
図13は、実施例2にかかるシステム構成例を説明する図である。
【
図14】
図14は、実施例2にかかる各病院での因果関係の分析1を説明する図である。
【
図15】
図15は、実施例2にかかる各病院での因果関係の分析2を説明する図である。
【
図16】
図16は、実施例3にかかるシステム構成例を説明する図である。
【
図17】
図17は、実施例3にかかる統合分析センターでの因果関係の統合分析1を説明する図である。
【
図18】
図18は、実施例3にかかる統合分析センターでの因果関係の統合分析2を説明する図である。
【
図19】
図19は、実施例4にかかるシステム構成例を説明する図である。
【
図20】
図20は、実施例4にかかる統合的な分析結果を用いた各病院での癌化診断を説明する図である。
【発明を実施するための形態】
【0011】
以下に、本発明にかかる情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
【実施例1】
【0012】
[情報処理装置10の説明]
図1は、実施例1にかかる情報処理装置10の動作を説明する図である。
図1に示す情報処理装置10は、分析対象である個人のゲノムの塩基配列データを分析して、基準となる正常な塩基配列データと異なる配列箇所を特定することで、個人ゲノムの特性を分析し、病気の予防診断を実現するコンピュータ装置の一例である。なお、本実施例では、個人のゲノムの塩基配列データを「個人ゲノム」や「個人ゲノムデータ」と記載する場合があり、基準となる正常な塩基配列データを「基準ゲノム」や「基準ゲノムデータ」と記載する場合がある。
【0013】
まず、ゲノムは、DNAまたはRNAの塩基配列である遺伝子情報である。次に、3つの塩基であるコドンが、アミノ酸を決定し、複数のアミノ酸はタンパク質を構成する。さらに、複数のタンパク質が結合し、一次構造、二次構造、三次(高次)構造を形成する。
【0014】
一方、DNAまたはRNAの塩基は4種類で、「A」、「G」、「C」、「T」または「U」の記号で示される。また、3つの塩基配列がひとかたまりで、「コドン」と呼ばれ、64種であり、20種類のアミノ酸を決定する。それぞれのアミノ酸は、「A」~「Y」の記号で示される。一つのアミノ酸に対して、複数種類のコドンが対応付けられる。このため、たとえばアミノ酸「アラニン(Ala)」は、コドン「GCU」、「GCC」、「GCA」、および、「GCG」に対応付けられる。第3塩基が異なっても、同じアミノ酸となる特徴を持つ。
【0015】
図1に示すように、情報処理装置10は、コドンと当該コドンに割当てられた圧縮符号(以下では単に「符号」と記載する場合がある)とを対応付けたコドン変換テーブルを保持する。例えば、コドン変換テーブルには、「コドン、符号」として「UUU、@」などが対応付けられる。
【0016】
そして、情報処理装置10は、コドン変換テーブルを用いて、基準ゲノムデータ「UUU・・・」をコドン単位で符号化した基準コドンデータ「@Ek・・・」を生成する。また、情報処理装置10は、基準コドンデータにおけるコドンの符号と出現位置とを対応付けたビットマップ型の基準転置インデックスを生成する。
【0017】
このような状態において、情報処理装置10は、個人ゲノムを解読するシーケンサーから、分断ゲノムデータα~ηを取得する。すると、情報処理装置10は、分断ゲノムデータα~ηそれぞれを分断されたまま、コドン変換テーブルを参照して、コドン単位で符号化することにより、分断コドンデータα~ηを生成する。
【0018】
そして、情報処理装置10は、分断コドンデータα~ηそれぞれを順に、基準転置インデックスを用いて、基準コドンデータから、部分基準コドンデータを抽出する。分断コドンデータと部分基準コドンデータをコドン単位に、順に比較することで、個人間の遺伝情報のわずかな違いを示す一塩基多型(以降、遺伝子変異と呼ぶ)を検出し、変異の種類とその位置を対応付けたビットマップ型のSNPs転置インデックス(遺伝子変異転置インデックス)を生成する。
【0019】
このとき、情報処理装置10は、分断コドンデータα~ηを連結することなく、基準転置インデックスを用いて、分断コドンデータに該当するコドン配列の絞り込みを行い、部分基準コドンデータを抽出することで、SNPs転置インデックスの生成を高速化できる。例えば、情報処理装置10は、基準ゲノムの基準転置インデックスから、予め指定した探索対象となる基準コドン配列「UUU,UCC,AAG,UCA,UGG」の符号化データ「@、E,k,F,O」が出現する位置を最長一致文字列探索により、絞り込む。
【0020】
ここで、情報処理装置10は、分断コドンデータと、抽出された部分基準コドンデータとをコドン単位に比較し、異なるコドンの遺伝子変異を検出する。そして、情報処理装置10は、転置インデックスを「0」で初期化し、異なるコドンの塩基とその位置に対応したビットのみに「1」をセットすることで、全ての分断コドンデータを連結することなく、SNPs転置インデックス20を生成することができる。
【0021】
このように、情報処理装置10は、個人ゲノムが分断されている場合であっても、分断されたままで、遺伝子変異を分析することができるので、個人ゲノムの分析時間を短縮することができる。
【0022】
[機能構成]
図2は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。
図2に示すように、情報処理装置10は、通信部11、記憶部12、制御部30を有する。
【0023】
通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部11は、個人ゲノムの提供元であるシーケンサーとの間でデータの送受信を実行し、数百B毎に分断された分断ゲノムデータ13α~13ηを受信する。
【0024】
記憶部12は、各種データや制御部30が実行する各種プログラムなどを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶部12は、分断ゲノムデータ13、コドン変換テーブル14、分断コドンデータ15、基準ゲノムデータ16、基準コドンデータ17、基準転置インデックス18、部分基準コドンデータ19、SNPs転置インデックス20を記憶する。
【0025】
分断ゲノムデータ13は、分析対象の個人ゲノムが所定サイズで分断された分断塩基配列データである。例えば、分断ゲノムデータ13は、個人ゲノム「UUUUUCA・・・」から生成された分断ゲノムデータ13α「UUU・・・」から分断ゲノムデータ13η「・・・C」を含むデータである。この分断ゲノムデータ13は、制御部30により取得される。
【0026】
コドン変換テーブル14は、塩基配列を符号化する際に使用される情報であって、コドンと符号とを対応付けて記憶する。具体的には、コドン変換テーブル14は、出現頻度が高い高頻出コドンと当該高頻出コドンに割当てられた符号とを対応付けた変換情報である。
【0027】
図3は、コドン変換テーブル14の例を示す図である。
図3に示すように、例えば、コドン「UUU」の符号は「40h(01000000)」となる。「h」は16進数を示すものである。なお、本実施例においては、コドン「UUU」が符号化された場合「40h(01000000)」と記載するところを、説明を分かりやすくするために、「UUU(40h)」などを表記する。また、「UUU(40h)」を記号化して「UUU(@)」などを表記することがある。
【0028】
基準ゲノムデータ16は、基準となるヒトゲノムの塩基配列データである。例えば、日本人基準ゲノムは、東北大学東北メディカル・メガバンク機構で公開されている。なお、基準ゲノムデータ16は、予め記憶されていてもよく、制御部30によって指定されたサーバ等から取得することもできる。
【0029】
基準コドンデータ17は、基準ゲノムデータ16をコドン単位で符号化した符号化データである。
図4は、基準コドンデータ17の例を示す図である。
図4に示すように、基準コドンデータ17には、複数のコドンが配列されている。なお、基準コドンデータ17は、予め記憶されていてもよく、制御部30によって生成することもできる。
【0030】
基準転置インデックス18は、基準コドンデータ17におけるコドンの符号と出現位置とを対応付けたビットマップ型の転置インデックスである。
図5は、基準転置インデックス18の例を示す図である。
【0031】
図5に示すように、基準転置インデックス18の横軸は、オフセットに対応する軸である。基準転置インデックス18の縦軸は、コドンの種別(コドンの符号)に対応する軸である。基準転置インデックス18は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。例えば、基準転置インデックス18の先頭のコドンの符号のオフセットを「0」とする。基準転置インデックス18の先頭から7番目の位置に、コドンの符号「(AUG)63h」が含まれる場合、基準転置インデックス18のオフセット「6」の列と、コドンの符号「(AUG)63h」の行とが交差する位置のビットが「1」となる。なお、基準転置インデックス18は、予め記憶されていてもよく、制御部30によって生成することもできる。
【0032】
SNPs転置インデックス20は、個人ゲノムに対する遺伝子変異のビットマップ型の転置インデックスである。具体的には、SNPs転置インデックス20は、各分断コドンデータ15と、基準コドンデータ17から抽出された部分基準コドンデータ19とを比較し、異なる遺伝子変異の種類と位置を対応付けたビットマップ型の転置インデックスである。なお、SNPs転置インデックス20の構造は基準転置インデックス18と同様なので、その説明は省略する。例えば、SNPs転置インデックス20は、第3塩基SNPsなどの所定SNPsの種類ごとにビットマップが設けられる。
【0033】
制御部30は、情報処理装置10全体を司る処理部であり、例えばプロセッサなどである。この制御部30は、取得部31、符号化部32、生成部33、出力部34を有する。なお、取得部31、符号化部32、生成部33、出力部34は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。
【0034】
取得部31は、分断ゲノムデータ13を取得する処理部である。例えば、取得部31は、指定の提供元から、分断ゲノムデータ13を取得して記憶部12に格納する。なお、取得部31は、定期的に取得することでもでき、提供元から送信された分断ゲノムデータ13を受信することもできる。
【0035】
符号化部32は、分断ゲノムデータ13を符号化する処理部である。
図6は、分断ゲノムデータ13の符号化を説明する図である。
図6に示すように、符号化部22は、分断ゲノムデータ13に含まれる分断ゲノムデータ13α「UUU・・・」から分断ゲノムデータ13η「・・・C」それぞれを、コドン変換テーブル14に基づき、3つ塩基記号をコドンに符号化することで、分断コドンデータα「UUU・・・」から分断コドンデータη「・・・C」を生成する。
【0036】
このとき、符号化部32は、コドン変換テーブル14に登録されている3塩基の配列に対してコドンの符号を割当てて符号化する。
【0037】
生成部33は、SNPs転置インデックス20を生成する処理部である。具体的には、生成部33は、ある個人の個人ゲノムの分断ゲノムデータ13が取得された場合に、その分断ゲノムを分析して、遺伝子変異を示すビットマップ型のSNPs転置インデックス20を生成する。
【0038】
例えば、生成部33は、分断コドンデータα~ηそれぞれを順に、基準コドンデータ17から、基準転置インデックス18を用いて、部分基準コドンデータ19を抽出し、順に比較する。そして、生成部23は、各分断コドンデータに含まれる遺伝子変異を検出し、遺伝子変異の種類とその位置を対応付けたビットに「1」を設定しSNPs転置インデックス20を生成して記憶部12に格納する。
【0039】
ここで、生成部33は、分断コドンデータα~ηから基準転置インデックス18を用いて、部分基準コドンデータ19を抽出することで、SNPs転置インデックス20の生成を高速化することができる。そこで、
図7から
図11を用いて、抽出処理とSNPs転置インデックス20の生成とを具体的に説明する。
図7は、部分基準コドンデータの抽出の概要を説明する図であり、
図8は、コドン配列と基準転置インデックス18によるコドン配列の絞り込みを説明する図である。
図9は、基準転置インデックス18によるコドン配列の絞り込みを説明する図である。
図10は、基準ゲノムと個人ゲノムとSNPs転置インデックス20を説明する図である。
図11は、コドン配列の比較とSNPs転置インデックス20の生成との同時実行を説明する図である。
【0040】
図7に示すように、生成部33は、分断コドンデータα~ηを取得する。続いて、生成部33は、基準コドンデータ17に対し、予め生成された基準転置インデックス18を用いて、分断コドンデータ15のコドン配列を入力として最長一致文字列探索を行う。これにより、探索対象の基準コドン配列(所定タンパク質の特徴的な配列)である、基準コドン配列(4)「UUU(@),UCC(E),AAG(k)、UCA(F)」と、基準コドン配列(5)「UUU(@),UCC(E),AAG(k)、UCA(F)、UGG(O)」を順に絞り込む。そして、生成部33は、分断コドンデータ15に対応する部分基準コドンデータ19を特定し、高速に抽出することができる。
【0041】
図8には、基準コドンデータ17に対し生成された基準転置インデックス18の一例を示す。例えば、コドンの符号「UUU(@)」は、オフセット7番目に出現するので、基準コドンデータ17におけるコドンの符号「UUU(@)」のビットマップの7ビット目に「1」が設定される。同様に、コドンの符号「UGG(O)」は、10番目と30番目に出現するので、基準コドンデータ17におけるコドンの符号「UGG(O)」のビットマップの10ビット目と30ビット目のそれぞれに「1」が設定される。
【0042】
このように、基準転置インデックス18を用いて絞り込みを行う例を、
図9を用いて説明する。具体的には、生成部33は、基準転置インデックス18から、コドン配列(4)「UUU(@),UCC(E),AAG(k)、UCA(F)」やコドン配列(5)「UUU(@),UCC(E),AAG(k)、UCA(F)、UGG(O)」の探索について、ビットマップのシフトとAND演算を行う。つまり、生成部33は、基準転置インデックス18のビットマップの論理演算において、複数の「1」が単一の「1」に絞り込まれる、コドン配列を特定し、抽出する。
【0043】
ここでは一例として、
図9において、基準転置インデックス18を用いて、コドン配列(4)「UUU(@),UCC(E),AAG(k)、UCA(F)」に対応して、基準コドンデータ17がどのように絞り込まれるかについて説明する。
図9に示すように、生成部23は、基準転置インデックス18を参照し、各コドン「UUU(@)」,「UCC(E)」,「AAG(k)」、「UCA(F)」に対応するビットマップを取得する。コドンの符号「UUU(@)」のビットマップをビットマップb_UUUとする。コドンの符号「UCC(E)」のビットマップをビットマップb_UCCとする。コドンの符号「AAG(k)」のビットマップをビットマップb_AAGとする。コドンの符号「UCA(F)」のビットマップをビットマップb_UCAとする。
【0044】
生成部33は、ビットマップb_UUUを取得し(
図9の1-a参照)、ビットマップb_UUUを左シフトすることで、ビットマップb20を生成する(
図9の1-b参照)。生成部33は、ビットマップb_UCCを取得し、ビットマップb_UCCと、ビットマップb20とをAND演算することで、ビットマップb21を生成する(
図9の2-a参照)。ビットマップb21のオフセット「8」と「n+1」に「1」が立っているため、オフセット7~8とn~n+1に、コドン「UUU(@),UCC(E)」が含まれることが分かる(
図9の2-b参照)。
【0045】
このように左シフトとAND演算により、連続して「1」が登場する位置を探索する。詳細には、生成部33は、ビットマップb21を左シフトすることで、ビットマップb22を生成する。生成部33は、ビットマップb_AAGを取得し、ビットマップb_AAGと、ビットマップb22とをAND演算することで、ビットマップb23を生成する。ビットマップb23のオフセット「9」と「n+2」に「1」が立っているため、オフセット7~9とn~n+2に、コドン「UUU(@),UCC(E),AAG(k)」が含まれることが分かる。
【0046】
生成部33は、ビットマップb23を左シフトすることで、ビットマップb24を生成する。生成部33は、ビットマップb_UCAを取得し、ビットマップb_UCAと、ビットマップb24とをAND演算することで、ビットマップb25を生成する。ビットマップb25のオフセット「10」と「n+3」に「1」が立っているため、オフセット7~10とn~n+3に、コドン「UUU(@),UCC(E),AAG(k)、UCA(F)」が含まれることが分かる。
【0047】
さらに、生成部33は、ビットマップb25を左シフトすることで、ビットマップb26を生成する。コドン配列(5)「UUU(@),UCC(E),AAG(k)、UCA(F)、UGG(O)」に対し、コドン「UGG(O)」に対応したビットマップb_UGGを取得する。ビットマップb_UGGと、ビットマップb26とをAND演算することで、ビットマップb27を生成する。ビットマップb27のオフセット「n+4」のみに「1」が立っているため、オフセットn~n+4に、コドン「UUU(@),UCC(E),AAG(k)、UCA(F)、UGG(O)」が含まれ、複数の候補が1つにしぼられたことが分かる。
【0048】
このように、生成部33は、
図9に示した処理を実行することで、基準コドンデータ17において、コドン符号配列(5)「UUU(@),UCC(E),AAG(k)、UCA(F)UGG(O)」が含まれる部分基準コドンデータ19を特定し、抽出する。生成部33は、他の分断コドンデータ15についても、上記処理を繰り返し実行することで、基準コドンデータ17に含まれる部分基準コドンデータ19を特定し、抽出する。
【0049】
次に、生成部33は、
図7で抽出された部分基準コドンデータ19と個人ゲノムの分断コドンデータ15とを比較することで、遺伝子変異を検出し、その種類と位置を特定する。ここでは、遺伝子変異の位置をビット位置(0~)にて指定された例で説明する。
図10に示すように、ビット位置「0,1,2,3」に該当する基準ゲノムのコドン符号(基準コドンデータ17)が「UUU,UCC,AAG,UGA」であり、個人ゲノムのコドン符号(分断コドンデータ15)が「UUU,UCC,AAG,UGG」である。
【0050】
この場合、予め、生成部33にて、基準転置インデックス18のコドンの符号「UUU(@)」のビットマップ(ビットマップb_UUU)には、0ビット位置に「1」を設定されている。
【0051】
次に、基準転置インデックス18に対応した、個人ゲノムのSNPs転置インデックス20について説明する。遺伝子変異の種類は、コドンの3塩基に応じて、第3、第2、第1塩基毎にU、C、A、Gと総合のビットマップが設けられている。(総合のビットマップは省略が可能である。)一般的には、第3塩基の遺伝子変異が多いが、第2塩基や第1塩基は少ない。なお、特殊な遺伝子変異に対するビットマップと詳細な情報を格納する動的辞書も設けられている。
【0052】
図11に示すように、生成部33は、抽出された部分基準コドンデータ19と分断コドンデータ15をコドン単位で比較し、異なるコドンである「UCA」と「UCG」を検出し、第3塩基の遺伝子変異を「**G」のビットマップとその位置を特定する。この結果、生成部33は、SNPs転置インデックス20として、第3塩基のビットマップの「総合」と「**G」の該当のビット位置に「1」を設定する。
【0053】
つまり、
図11に示すように、生成部33は、基準ゲノムと個人ゲノムとの比較に際し、基準コドン配列の位置を絞り込み、絞り込んだ位置から比較する。そして、生成部33は、個人ゲノムにおいて基準ゲノムと部分的に異なるコドン配列を検出し遺伝子変異の種類と位置を特定することができる。したがって、生成部33は、分断された個人ゲノムを連結することなく、基準転置インデックス18を用いて、部分基準コドンデータ19を抽出し、コドン配列の比較処理とSNPs転置インデックス20の生成処理とを同時に実行することができる。
【0054】
図2に戻り、出力部34は、生成部33により生成されたSNPs転置インデックス20を出力する処理部である。例えば、出力部34は、所定のディスプレイにSNPs転置インデックス20を表示出力し、所定の宛先にSNPs転置インデックス20を送信する。
【0055】
[処理の流れ]
図12は、実施例1にかかる処理の流れを示すフローチャートである。
図12に示すように、情報処理装置10は、前提処理を実行する(S101)。具体的には、情報処理装置10は、基準ゲノムデータ16を受信し(S101-1)、コドン変換テーブル14に基づき基準ゲノムデータ16をコドン単位に符号化(圧縮)して基準コドンデータ17を生成する(S101-2)。そして、情報処理装置10は、基準コドンデータ17に基づき、基準転置インデックス18を生成する(S101-3)。
【0056】
その後、取得部31は、各分断ゲノムデータを取得し(S102)、符号化部32は、コドン変換テーブル14に基づき各分断ゲノムデータをコドン単位に符号化して各分断コドンデータ15を生成する(S103)。
【0057】
そして、生成部33は、基準転置インデックス18を用いて、分断されたまま、各分断コドンデータ15に対する部分基準コドンデータ19を抽出(S104)。その後、生成部33は、抽出した部分基準コドンデータ19と各分断コドンデータ15とを比較して遺伝子変異の種類と位置を特定し(S105)、SNPs転置インデックス20を生成する(S106)。
【0058】
[効果]
上述したように、情報処理装置10は、基準ゲノムの塩基配列をコドン単位に圧縮符号化し、コドンに対応したビットマップ型の転置インデックスを生成する。また、情報処理装置10は、分断された個人ゲノムの塩基配列をコドン単位に圧縮符号化し、基準ゲノムの転置インデックスを用いて、最長一致文字列探索を実行し、領域を絞り込み、各分断された塩基配列に対応する部分的な基準ゲノムを抽出する。同時に、情報処理装置10は、部分的な基準ゲノムと分断された個人ゲノムをコドン単位で比較し、SNPsのビットマップ型転置インデックスを生成する。したがって、情報処理装置10は、分断された個人ゲノムを連結することなく、コドン符号化により、遺伝子変異を分析し、SNPs転置インデックスを生成することができるので、個人ゲノムの分析時間を短縮、かつ、データサイズを縮小することができる。
【0059】
なお、64種のコドンとその位置に対応付けた、基準転置インデックスに関し、コドンをNグラムに拡張することで、インデックスサイズは大きくなるが、絞り込みを高速化することができる。例えば、2グラムに拡張することで、64種から4096(64x64)種となりサイズが大きくなるが、絞り込みは1/2に高速化される。また、SNPs転置インデックスもテキストの転置インデックスと同様に、隣接する素数でハッシュ化することができる。1つのSNPs当たり、6~8ビットの容量に圧縮できるため、1人当たりのSNPs転置インデックスは、約数KBとなる。一方、もし、分断ゲノムデータの先頭近くにSNPsが含まれていた場合は、部分基準コドンデータの抽出に失敗するが、SNPs以降のコドンから、再度、絞り込みを行えばよい。
【実施例2】
【0060】
実施例2では、病院における癌化診断に適用した例を説明する。
図13は、実施例2にかかるシステム構成例を説明する図である。
図13に示すシステムは、統合分析センターと各病院とがネットワークを介して相互に通信可能に接続される。統合センターと各病院のそれぞれは、実施例1で説明した機能を有する情報処理装置10を有する。
【0061】
このようなシステム構成において、各病院の情報処理装置10は、患者の個人ゲノムの分析を行って電子カルテを生成し、癌との因果関係を分析する。そして、各病院の情報処理装置10は、因果関係を統合分析センターの情報処理装置10に送信する。このようにすることで、統合分析センターの情報処理装置10は、各病院で実行された因果関係を収集することができる。
【0062】
ここで、各病院における因果関係の分析について説明する。
図14は、実施例2にかかる各病院での因果関係の分析1を説明する図であり、
図15は、実施例2にかかる各病院での因果関係の分析2を説明する図である。なお、
図14と
図15で説明する分析処理は、例えば生成部33により実行される。
【0063】
具体的には、各病院の情報処理装置10は、各患者の個人ゲノムを取得し、実施例1による手法を用いることで、各患者に対応するビットマップ型のSNPs転置インデックス20を生成する。このとき、情報処理装置10は、各個人ゲノムの分断ゲノムデータ13の遺伝子変異の分析時に、特殊な遺伝子変異を検出した場合は、詳細情報を動的辞書に格納する。なお、符号化部へのコドン配列の格納は省略することができる。そして、情報処理装置10は、癌など病気の各患者に対応するSNPs転置インデックス20に対してAND演算(論理積)を行うことで、各病気に共通するSNPsを抽出し、各病気との因果関係を示すSNPs転置インデックスを生成する。
【0064】
例えば、
図14は、癌αと診断された各患者に共通するSNPs転置インデックス20のAND演算を示している。具体的には、情報処理装置10は、癌αの患者(1)から患者(n)それぞれのSNPs転置インデックス20のAND演算を実行し、癌αに共通するSNPs転置インデックスを生成する。
図14の例では、n人に共通してmビット目とnビット目が「1」が設定されていることより、mビット目とnビット目に「1」が設定された癌αのSNPs転置インデックスが生成される。
【0065】
また、
図15の例は、癌βと診断された各患者に共通するSNPs転置インデックス20のAND演算を示している。具体的には、情報処理装置10は、癌βの患者(1)から患者(n)それぞれのSNPs転置インデックス20のAND演算を実行し、癌βに共通するSNPs転置インデックスを生成する。
図15の例では、n人に共通してoビット目とpビット目が「1」が設定されていることより、oビット目とpビット目に「1」が設定された癌βのSNPs転置インデックスが生成される。なお、SNPs転置インデックスの一例として、第3塩基の総合のビットマップを示したが、「U」「C」「A」「G」の個別のビットマップで分析しても良い。また、複数の隣接するSNPsが相互に影響する場合、「1」の領域を拡大しAND演算することで、「0」クリアを防止することができる。
【0066】
そして、各病院の情報処理装置10は、分析結果を示す因果関係として、各癌に対応するSNPs転置インデックスを統合分析センターに送信する。例えば、
図13に示すように、各病院の情報処理装置10は、ヘッダ部と符号化部とトレーラ部とを有するデータを生成し、各部を複数の異なるパスワードでAES(Advanced Encryption Standard)ブロック暗号化した上で、統合分析センターに送信する。なお、ヘッダ部には、ゲノムIDや対象の癌情報が設定され、符号化部には、コドン配列が設定され、トレーラ部には、分析された因果関係を示すSNPs転置インデックスや動的辞書などが設定される。また、パスワードは、統合分析センターに別途通知してもよく、各病院と統合分析センターとの間で予め決められていてもよい。なお、ハッシュ化と暗号化に関し、SNPs転置インデックスをハッシュ化する時に選択された、隣接する素数はヘッダ部に格納される。その時SNPs転置インデックスとは異なるパスワードでヘッダ部がAESブロック暗号化されることで、さらに秘匿性を向上することができる。
【0067】
このように、実施例2による手法を用いることで、統合分析センターと病院との間で、電子カルテとゲノムを紐づけ、SNPs転置インデックスにより癌とSNPsの因果関係を分析することができ、癌の予防や分析などの医療に役立てることができる。また、複数の異なるパスワードで多階層の暗号化により、ゲノムに含まれる個人情報のSNPsを保護することができる。
【実施例3】
【0068】
実施例3では、統合分析センターが、各病院から癌化の因果関係を収集して、各癌化を統合的に分析する例を説明する。
図16は、実施例3にかかるシステム構成例を説明する図である。
図16に示すシステムは、実施例2と同様、統合分析センターと各病院とがネットワークを介して相互に通信可能に接続される。統合センターと各病院のそれぞれは、実施例1で説明した機能を有する情報処理装置10を有する。
【0069】
このようなシステム構成において、統合分析センターの情報処理装置10は、例えば実施例2で説明した手法を用いて、各病院から各癌などの病気に対応する因果関係に関するデータを収集する。そして、統合分析センターの情報処理装置10は、収集したデータを復号し、各病院間で共通する統合的な因果関係を分析する。
【0070】
ここで、統合分析センターにおける因果関係の統合分析について説明する。
図17は、実施例3にかかる統合分析センターでの因果関係の統合分析1を説明する図であり、
図18は、実施例3にかかる統合分析センターでの因果関係の統合分析2を説明する図である。なお、
図17と
図18で説明する分析処理は、例えば生成部33により実行される。
【0071】
具体的には、統合分析センターは、各病院から因果関係の分析結果を収集し、復号化することで、各癌などの病気に対応するSNPs転置インデックスを取得する。そして、統合分析センターは、癌ごとに、各病院から取得したSNPs転置インデックスに対してAND演算(論理積)を行うことで、各癌で共通するSNPsを抽出し、癌ごとの転置インデックスを生成する。
【0072】
例えば、
図17は、癌αの各SNPs転置インデックス20のAND演算を行うことで、癌αの統合分析を行う例を示している。具体的には、情報処理装置10は、n個の病院(病院xから病院n)のそれぞれで生成された癌αのSNPs転置インデックスのAND演算を実行し、癌αに共通するSNPs転置インデックスを生成する。
図17の例では、n個の病院に共通してmビット目とnビット目が「1」が設定されていることより、mビット目とnビット目に「1」が設定された癌αのSNPs転置インデックスが統合分析結果として生成される。
【0073】
また、
図17は、癌βの各SNPs転置インデックスのAND演算を行うことで、癌βの統合分析を行う例を示している。具体的には、情報処理装置10は、n個の病院(病院xから病院n)のそれぞれで生成された癌βのSNPs転置インデックスのAND演算を実行し、癌βに共通するSNPs転置インデックスを生成する。
図18の例では、n個の病院に共通してoビット目とpビット目が「1」が設定されていることより、oビット目とpビット目に「1」が設定された癌βのSNPs転置インデックスが統合分析結果として生成される。なお、SNPs転置インデックスの一例として、第3塩基の総合のビットマップを示したが、「U」「C」「A」「G」の個別のビットマップで分析しても良い。
【0074】
この結果、総合分析センターでは、各病院からの受信データをもとに、AND演算でさらに癌とSNPsの因果関係を分析することができる。また、総合分析センターは、癌とSNPsの因果関係の統合的な分析結果を各病院に配信することができる。このとき、統合分析センターは、各癌などの病気に対応する統合分析結果(SNPs転置インデックス)を、実施例2で説明した送信手法を用いて、各病院に配信する。
【実施例4】
【0075】
実施例4では、実施例3で生成された統合的な分析結果を用いて、各病院で癌化診断を行う例を説明する。
図19は、実施例4にかかるシステム構成例を説明する図である。
図19に示すシステムは、実施例2や実施例3と同様、統合分析センターと各病院とがネットワークを介して相互に通信可能に接続される。統合センターと各病院のそれぞれは、実施例1で説明した機能を有する情報処理装置10を有する。
【0076】
このようなシステム構成において、統合分析センターは、例えば実施例3で説明した手法を用いて、癌とSNPsの因果関係の統合的な分析結果(SNPs転置インデックス)を生成する。そして、統合分析センターは、実施例2で説明した手法を用いて、統合的な分析結果を各病院に配信する。その後、各病院では、配信された統合的な分析結果を復号し、それを用いて癌化診断を実行する。
【0077】
ここで、各病院における癌化診断について説明する。
図20は、実施例4にかかる統合的な分析結果を用いた各病院での癌化診断を説明する図である。
図20で説明する分析処理は、例えば生成部33により実行される。
【0078】
図20に示すように、各病院の情報処理装置10は、実施例1による手法を用いて、新患者のSNPs転置インデックス20を生成する。続いて、各病院の情報処理装置10は、新患者のSNPs転置インデックス20と、統合分析センターから取得した各癌の統合分析結果(SNPs転置インデックス)とのAND演算を行うことで、新患者の癌化診断を行う。
【0079】
図20の例では、病院では、新患者のSNPs転置インデックス20と癌αのSNPs転置インデックスとのAND演算により、全てのビットが「0」となったので、癌αとは一致せず、癌αの癌化の可能性が低いと診断する。一方で、病院では、新患者のSNPs転置インデックス20と癌βのSNPs転置インデックスとのAND演算により、oビット目とpビット目が「1」となったので、癌βと一致し、癌βの癌化の可能性があると診断する。なお、SNPs転置インデックスの一例として、第3塩基の総合のビットマップを示したが、「U」「C」「A」「G」の個別のビットマップで分析しても良い。
【0080】
このように、実施例4による手法を用いることで、各病院で癌化などの病気の予防診断を実現することができる。また、各病院から収集された因果関係を用いた統合的なSNPs転置インデックスを用いて予防診断を実行することができるので、統計的に精度が高く、省資源で高速な予防診断を実現し、癌の早期発見などに役立てることができる。なお、統合分析センターが生成する癌種別ごとの統合分析結果は、統計的転置インデックスの一例である。
【実施例5】
【0081】
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
【0082】
[数値等]
上記実施例で用いた対象とする数値、ビット数、コドン符号、コドン符号の数、符号の配列等は、あくまで一例であり、任意に変更することができる。
【0083】
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。なお、コドン変換テーブル14は、コドン変換情報の一例であり、基準コドンデータ17は、基準符号化データの一例であり、SNPs転置インデックス20は、遺伝子変異転置インデックスの一例である。取得部31は、取得部の一例であり、符号化部32は、複数の分断コドンデータを生成する生成部の一例であり、生成部33は、特定部と遺伝子変異転置インデックスを生成する生成部の一例である。
【0084】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0085】
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0086】
[ハードウェア]
次に、情報処理装置10のハードウェア構成例を説明する。
図21は、ハードウェア構成例を説明する図である。
図21に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、
図21に示した各部は、バス等で相互に接続される。
【0087】
通信装置10aは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。HDD10bは、
図2に示した機能を動作させるプログラムやDBを記憶する。
【0088】
プロセッサ10dは、
図2に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、
図2等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、取得部31、符号化部32、生成部33、出力部34等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、取得部31、符号化部32、生成部33、出力部34等と同様の処理を実行するプロセスを実行する。
【0089】
このように、情報処理装置10は、プログラムを読み出して実行することで情報処理方法を実行する情報処理装置として動作する。また、情報処理装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
【0090】
このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
【符号の説明】
【0091】
10 情報処理装置
11 通信部
12 記憶部
13 分断ゲノムデータ
14 コドン変換テーブル
15 分断コドンデータ
16 基準ゲノムデータ
17 基準コドンデータ
18 基準転置インデックス
19 部分基準コドンデータ
20 SNPs転置インデックス
30 制御部
31 取得部
32 符号化部
33 生成部
34 出力部