(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-21
(45)【発行日】2023-08-29
(54)【発明の名称】理論質量テーブル表示システム
(51)【国際特許分類】
G01N 27/62 20210101AFI20230822BHJP
【FI】
G01N27/62 Y
(21)【出願番号】P 2020075463
(22)【出願日】2020-04-21
【審査請求日】2022-07-25
(73)【特許権者】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】110001069
【氏名又は名称】弁理士法人京都国際特許事務所
(72)【発明者】
【氏名】大久保 達樹
【審査官】清水 靖記
(56)【参考文献】
【文献】国際公開第2017/168742(WO,A1)
【文献】国際公開第2017/158673(WO,A1)
【文献】特開2016-200435(JP,A)
【文献】特開2014-215172(JP,A)
【文献】特開平08-286656(JP,A)
【文献】実開昭50-118993(JP,U)
【文献】米国特許出願公開第2014/0234880(US,A1)
【文献】国際公開第2018/042605(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G01N 27/60 - G01N 27/70
G01N 33/48 - G01N 33/98
G01N 35/00
G01N 30/00 - G01N 30/96
H01J 40/00 - H01J 49/48
G16B 5/00 - G16B 45/00
C12Q 1/00 - C12Q 3/00
C12M 1/00 - C12M 3/10
JSTPlus/JMEDPlus/JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
複数の微生物の各々について、該微生物に含まれる複数種類のタンパク質に関する理論質量を取得する理論質量取得部と、
前記複数の微生物の各々の識別子を縦方向又は横方向である第1の方向に、前記複数種類のタンパク質の各々の識別子を前記第1の方向と直交する横方向又は縦方向である第2の方向にそれぞれ並べ、1つの微生物と1つのタンパク質との組み合わせに対応する理論質量を、対応する1つのセルに割り当てた2次元状のテーブルである理論質量テーブルを作成する理論質量テーブル作成部と、
前記理論質量テーブルに記載された理論質量のうち、同種のタンパク質に関する理論質量について、予め定められた許容誤差を考慮して同一とみなせるものを同じグループに分類することによって1つ又は複数の理論質量グループを生成するグループ化部と、
前記理論質量テーブル上の、前記同種のタンパク質に関する理論質量が割り当てられた複数のセルについて、前記理論質量グループ毎に異なる書式を設定するセル書式設定部と、
前記理論質量テーブルに前記セル書式設定部によって設定された書式を適用した書式付き理論質量テーブルを表示する表示部と、
を有する理論質量テーブル表示システム。
【請求項2】
更に、
前記理論質量テーブルに記載された理論質量のうち、同種のタンパク質に関する理論質量の中から外れ値を判別する外れ値判別部を有し、
前記セル書式設定部が、前記外れ値であると判別された理論質量が記載されたセルに、前記理論質量グループ毎に設定された書式とは別の書式を設定するものである請求項1に記載の理論質量テーブル表示システム。
【請求項3】
前記外れ値判別部が、
前記同種のタンパク質に関する理論質量の中から代表値を決定する代表値決定部と、
該代表値に対応するアミノ酸配列又は塩基配列である基準配列を特定する配列特定部と、
前記同種のタンパク質に関する理論質量の各々に対応するアミノ酸配列又は塩基配列と、前記基準配列との編集距離をそれぞれ算出する編集距離算出部と、
前記同種のタンパク質に関する理論質量のうち、前記編集距離が予め定められた閾値以上であったアミノ酸配列又は塩基配列に対応する理論質量を、前記外れ値として決定する外れ値決定部と、
を有する請求項2に記載の理論質量テーブル表示システム。
【請求項4】
前記書式がセルの背景色である請求項
1に記載の理論質量テーブル表示システム。
【請求項5】
前記書式がセルの背景色である請求項2又は3に記載の理論質量テーブル表示システム。
【請求項6】
前記理論質量グループ毎に異なる書式が、該理論質量グループ毎に明度の異なる無彩色の背景色であって、前記外れ値であると判別された理論質量が記載されたセルに設定される書式が、有彩色の背景色である請求項
5に記載の理論質量テーブル表示システム。
【請求項7】
前記理論質量グループ毎に異なる書式が、該理論質量グループ毎に色相、明度、又は彩度の異なる有彩色の背景色であって、前記外れ値であると判別された理論質量が記載されたセルに設定される書式が、無彩色の背景色である請求項
5に記載の理論質量テーブル表示システム。
【請求項8】
コンピュータを、請求項1~
7のいずれかに記載の理論質量テーブル表示システムとして機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、理論質量テーブル表示システムに関する。
【背景技術】
【0002】
近年、質量分析を利用した微生物の識別手法が開発されている(例えば、特許文献1を参照)。この手法では、まず、被検微生物から抽出したタンパク質を含む溶液又は被検微生物の懸濁液等を、MALDI(Matrix Assisted Laser Desorption/Ionization:マトリックス支援レーザ脱離イオン化法)等のソフトなイオン化法を用いた質量分析装置で分析する。なお「ソフトな」イオン化法とは、高分子量化合物の分解を生じにくいイオン化法をいう。そして、得られたマススペクトルを、既知微生物のマススペクトルと照合することによって、被検微生物の微生物種又は微生物株を特定する。
【0003】
上記のような質量分析を利用した微生物の識別手法では、微生物の種間又は株間で質量が相違するマススペクトルピークに着目して微生物の識別が行われる。このようなマススペクトルピークはマーカーピークとよばれ、例えば、リボソームタンパク質のように比較的保存性の高いタンパク質に由来するピークがマーカーピークとして利用される。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、各微生物に関するマススペクトルを人がそれぞれ比較してマーカーピークとして利用できるピークを選出することは困難であった。
【0006】
本発明は上記の点に鑑みてなされたものであり、その目的とするところは、マススペクトルに基づく微生物の識別に適したピーク(すなわちマーカーピーク)を、人が容易に選出できるようにすることにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために成された本発明に係る理論質量テーブル表示システムは、
複数の微生物の各々について、該微生物に含まれる複数種類のタンパク質に関する理論質量を取得する理論質量取得部と、
前記複数の微生物の各々の識別子を縦方向又は横方向である第1の方向に、前記複数種類のタンパク質の各々の識別子を前記第1の方向と直交する横方向又は縦方向である第2の方向にそれぞれ並べ、1つの微生物と1つのタンパク質との組み合わせに対応する理論質量を、対応する1つのセルに割り当てた2次元状のテーブルである理論質量テーブルを作成する理論質量テーブル作成部と、
前記理論質量テーブルに記載された理論質量のうち、同種のタンパク質に関する理論質量について、予め定められた許容誤差を考慮して同一とみなせるものを同じグループに分類することによって1つ又は複数の理論質量グループを生成するグループ化部と、
前記理論質量テーブル上の、前記同種のタンパク質に関する理論質量が割り当てられた複数のセルについて、前記理論質量グループ毎に異なる書式を設定するセル書式設定部と、
前記理論質量テーブルに前記セル書式設定部によって設定された書式を適用した書式付き理論質量テーブルを表示する表示部と、
を有している。
【発明の効果】
【0008】
上記本発明に係る理論質量テーブル表示システムによれば、マススペクトルに基づく微生物の識別に適したピーク(すなわちマーカーピーク)を、ユーザが容易に選出できるようになる。
【図面の簡単な説明】
【0009】
【
図1】本発明の一実施形態に係る理論質量テーブル表示システム(マーカー候補タンパク質の選出補助システム)の要部構成を示すブロック図。
【
図2】前記システムにおける処理の流れを示すフローチャート。
【
図3】テーブル作成部によって作成される理論質量テーブルの一例を示す図。
【
図4】グループ化部によって作成されるグループ化テーブルの一例を示す図。
【
図5】外れ値判別部による処理の流れを示すフローチャート。
【
図6】外れ値判別部による編集距離の算出結果の一例を示す図。
【
図7】表示部に表示される理論質量テーブルの一例を示す図。
【
図8】本発明に係る理論質量テーブル表示システムの別の構成例を示すブロック図。
【発明を実施するための形態】
【0010】
マーカーピークを選出するためには、まず微生物の種又は株によって質量が異なる(すなわちマススペクトル上の異なる位置にピークが現れる)タンパク質(以下、「マーカータンパク質」とよぶ)を特定する必要がある。しかしながら、種又は株の異なる多数の微生物を入手し、それぞれについて実際に質量分析を行ってマーカーピークの質量を測定するのは現実的でない。
【0011】
そこで、本実施形態に係る理論質量テーブル表示システムでは、公共データベース(例えば、GenBank、EMBL、又はDDBJ等)に収録されている種々の微生物のアミノ酸配列データ又は塩基配列データ(以下「アミノ酸配列データ等」とよぶ)から算出された理論質量(計算質量)をテーブル形式で表示してユーザに提示する。
【0012】
但し、一般的に1つの微生物種又は微生物株について公共データベースに登録されているタンパク質は膨大な数にのぼるため、その中からマーカータンパク質の候補となるもの(以下、マーカー候補タンパク質とよぶ)を絞り込むことは容易ではない。そのため、本実施形態に係る理論質量テーブル表示システムは、更に、同種のタンパク質に関する理論質量のうち、同一とみなせるものをグループ化して、グループ毎に異なる書式で表示する機能を備えている。以下、このようなシステムの詳細について図面を参照しつつ説明を行う。
【0013】
図1は、本実施形態に係る理論質量テーブル表示システムの要部構成を示すブロック図である。このシステムは、理論質量取得部11と、テーブル作成部12と、グループ化部13と、外れ値判別部14と、セル書式設定部15と、表示制御部16と、記憶部17と、入力部18と、表示部19とを備えている。また、外れ値判別部14は、代表値決定部21と、配列特定部22と、編集距離算出部23と、外れ値決定部24とを備えている。
【0014】
このシステムは、CPU及びメモリ等を備えたパーソナルコンピュータ又はワークステーション等のコンピュータ10をハードウェア資源としている。上述の理論質量取得部11、テーブル作成部12、外れ値判別部14、グループ化部13、セル書式設定部15、及び表示制御部16は、コンピュータ10に内蔵された又は外付けされたHDD(Hard Disk Drive)やSSD(Solid State Drive)等の補助記憶装置に予め記憶された専用のソフトウェアを、前記CPUで実行することによって具現化される機能ブロックである。また、記憶部17は、前記補助記憶装置によって実現される。表示部19は液晶ディスプレイ装置等から成り、入力部18はキーボード及びマウス等のポインティングデバイスから成るものであって、いずれもコンピュータ10に接続されている。
【0015】
本実施形態に係る理論質量テーブル表示システムの動作について
図2のフローチャートを参照しつつ説明する。
【0016】
なお、理論質量テーブルの表示に際しては、予め、表示対象とする複数の理論質量(複数の微生物株の所定のタンパク質に関するもの)と、各理論質量がどの微生物株のどのタンパク質に関するものであるかを示す情報(以下、「由来情報」とよぶ)とを互いに関連付けて記憶部17に記憶させておく。以下、これらの情報(すなわち理論質量とそれに関連付けられた由来情報)を「理論質量データ」とよぶ。なお、記憶部17には、前記理論質量データに加えて、前記各理論質量の基となったアミノ酸配列(又は塩基配列)の情報も記録されている。
【0017】
なお、前記複数の理論質量は、既存のデータベース(例えば、上述の公共データベース)から複数の微生物株における所定のタンパク質のアミノ酸配列を取得し、該アミノ酸配列から計算によって各タンパク質の計算分子量を求めると共に、該計算分子量を各タンパク質のイオン質量に変換することによって求めることができる。なお、前記所定のタンパク質とは、各微生物株について前記データベースに記憶されている全てのタンパク質であってもよく、予めユーザが指定した一部のタンパク質(例えば、リボソームタンパク質の全て又は一部)であってもよい。生体試料をMALDIによる試料のイオン化を伴う質量分析(以下、MALDI-MS)で分析した際には、主に[M+H]+(Mは分子、Hは水素原子)、[M-H]-、又は[M+Na]+(Naはナトリウム原子)等の分子量関連イオンが検出されることが知られている。したがって、質量分析条件が定まっていれば、前記計算分子量からイオン質量への変換は容易に行うことができる。また、前記既存のデータベースに各種微生物株に含まれるタンパク質の計算分子量が収録されている場合は、これを用いて理論質量を算出するようにしてもよい。
【0018】
本実施形態に係る理論質量テーブルの表示においては、まず、表示制御部16が表示部19の画面上に所定の入力画面を表示することにより、ユーザからの許容誤差の入力を受け付ける(ステップS1)。ここで、許容誤差とは、複数の理論質量が同一であるか否かを判断するにあたり、測定誤差又は分解能に起因する誤差がどの程度許容されるかを表すものである。許容誤差は、相対誤差(すなわち誤差率。単位:ppm)で表してもよく、絶対誤差(単位:Da)で表してもよい。
【0019】
前記許容誤差の入力後、ユーザが入力部18で所定の操作を行って理論質量テーブルの作成開始を指示すると、まず、理論質量取得部11が、記憶部17から前記理論質量データを取得し(ステップS2)、続いて、テーブル作成部12が該理論質量データに基づいて理論質量テーブルを作成する(ステップS3)。
【0020】
このとき作成される理論質量テーブルの一例を
図3に示す。同図の表はアクネ菌(Cutibacterium acnes)10株について、リボソームタンパク質の一部を対象として作成した理論質量テーブルである。この理論質量テーブルは、微生物の識別子(同図では株名)を列方向(縦方向)に、タンパク質の識別子(同図ではタンパク質名)を行方向(横方向)にそれぞれ並べた2次元状のテーブルであり、その各セルには各微生物と各タンパク質との組み合わせに対応する理論質量の値が割り当てられている。
図3において、数値が記載されていないセルは、そのセルに対応する微生物株及びタンパク質の組み合わせについてのアミノ酸配列(又は塩基配列)が、前記既存のデータベースに登録されていなかったことを意味している。なお、理論質量テーブルは、微生物の識別子を行方向(横方向)に、タンパク質の識別子を列方向(縦方向)にそれぞれ並べたものとしてもよい。
【0021】
続いて、グループ化部13が、ステップS1でユーザが入力した許容誤差を考慮した、理論質量のグループ分けを行う(ステップS4)。具体的には、まず、理論質量テーブルの1列目に含まれるセルのうち理論質量が記載されているもの(以下、「グループ化対象セル」とよぶ)の中から、所定の基準に従って1つのセルを選択する。以下、このセルを「第1選択セル」とよび、第1選択セルに記載された理論質量を「第1選択質量」とよぶ。前記所定の基準は、例えば、「グループ化対象セルの中で最も上に位置するセル」、又は「最も値が大きい(又は小さい)理論質量が記載されているセル」など、任意に設定することができる。続いて、前記1列目の各グループ化対象セルに記載された理論質量の中から、前記第1選択質量と同一とみなせる理論質量を選出する。具体的には、前記グループ化対象セルに記載された理論質量のうち、前記第1選択質量との差が、前記許容誤差以内である理論質量を、前記第1選択質量と同一とみなせる理論質量として選出する。そして、前記第1選択セル、及び前記第1選択質量と同一とみなせると判定された理論質量が記載されたセルに、同じグループ番号(例えば「1」)を付与する。なお、理論質量テーブルの1列目に、前記第1選択質量との差が前記許容誤差以内である理論質量が存在しない場合には、前記第1選択セルのみに前記グループ番号(ここでは「1」)を付与する。
【0022】
次に、理論質量テーブルの1列目の、残りのグループ化対象セル(すなわち理論質量が記載され且つグループ番号が付与されていないセル)の中から、上記と同様の基準に従って1つのセルを選択する。以下、このセルを「第2選択セル」とよび、第2選択セルに記載された理論質量を「第2選択質量」とよぶ。続いて、前記残りのグループ化対象セルに記載された理論質量の中から、前記第2選択質量との差が前記許容誤差以内である理論質量を、前記第2選択質量と同一とみなせる理論質量として選出する。そして、前記第2選択セル、及び前記第2選択質量と同一とみなせると判定された理論質量が記載されたセルに、前記第1選択セルに付与されたものとは別のグループ番号(例えば「2」)を付与する。ここでも、前記残りのグループ化対象セルの中に、前記第2選択質量との差が前記許容誤以内である理論質量が存在しない場合には、前記第2選択セルのみに前記グループ番号(ここでは「2」)を付与する。
【0023】
上記の処理を、理論質量テーブルの1列目から、グループ番号が付与されていないグループ化対象セルがなくなるまで繰り返し実行する。その後、理論質量テーブルの2列目以降についても、それぞれ上記同様の処理を行い、理論質量テーブルに含まれるグループ化対象セルの全てにグループ番号が付与された時点でステップS4の処理を完了する。
【0024】
グループ化部13は、理論質量テーブルの各セル中の理論質量を、当該セルに付与されたグループ番号に置き換えたテーブルを作成して記憶部17に記憶する。以下、このテーブルを「グループ化テーブル」とよぶ。
【0025】
図4にグループ化テーブルの一例を示す。このテーブルは、
図3に示した理論質量テーブルの各列に記載された理論質量を、許容誤差200ppmでグループ化したものである。同図のテーブルの1つの列の中で、同じ番号(グループ番号)が付与されているセルは、前記許容誤差を考慮して、理論質量が同一とみなせると判断されたセルである。
【0026】
次に、外れ値判別部14が外れ値の判別処理を行う(ステップS5)。ここでは、まず外れ値判別処理の意義について説明する。前記既存のデータベースに収録されているアミノ酸配列データ等から算出された理論質量は、同種のタンパク質に由来する理論質量であっても、微生物株によってその値に大きなばらつきがみられることがある。このような場合において、理論質量の値が他と大きく異なっているものは、その理論質量の基になったアミノ酸配列データ等に誤り(シーケンスのミスなどに起因するもの)が含まれている可能性が高い。したがって、このような理論質量をマーカーピークの質量として採用すると、微生物識別の精度低下を引き起こすおそれがある。そのため、ステップS5において、外れ値判別部14が、前記理論質量テーブルに含まれる複数の理論質量の中から外れ値(すなわち、前記識別の精度低下の原因となる異常な値を持ったデータ)を特定する処理(すなわち外れ値の判別処理)を行う。
【0027】
外れ値判別部14による処理の詳細について、
図5のフローチャートを参照しつつ説明を行う。外れ値判別部14は、まず、ステップS3で作成された理論質量テーブルを記憶部17から読み出す。そして、外れ値判別部14に含まれる代表値決定部21が、前記理論質量テーブルの1列目に記載されている複数の理論質量M1、M2、…Mn(nは自然数)の中から最頻値Mfを特定し、該最頻値Mfを代表値として決定する(ステップS51)。なお、前記最頻値に代えて、前記複数の理論質量のうちの中央値を代表値としてもよい。続いて、配列特定部22が、記憶部17を参照して、最頻値Mfに対応するアミノ酸配列(以下、「基準配列Ar」とよぶ)と、前記複数の理論質量M1、M2、…Mnの各々に対応するアミノ酸配列A1、A2、…Anを特定する(ステップS52)。更に、編集距離算出部23が、前記複数の理論質量M1、M2、…Mnの各々に対応するアミノ酸配列A1、A2、…Anと、前記基準配列Arとの編集距離d1、d2…、dnを算出する(ステップS53)。ここで、編集距離(レーベンシュタイン距離)は、2つの文字列がどの程度異なっているかを表す値であり、具体的には、1文字の挿入、削除、又は置換によって、一方の文字列を他方の文字列に変形するのに必要な手順の最小回数として定義される。続いて、外れ値決定部24が、ステップS53において各アミノ酸配列A1、A2、…Anについて求められた編集距離d1、d2…、dnの各々について、その値が予め定められた閾値dtを超えているか否かを判定し、超えていた場合には該アミノ酸配列に対応する理論質量を外れ値として決定する(ステップS54)。なお、前記閾値dtは、例えば、予めユーザが入力部18を介して設定して記憶部17に記憶させておく。
【0028】
前記理論質量テーブルの1列目について外れ値の判別処理が完了したら、2列目以降についても上記同様の処理(すなわちステップS51~S54の処理)を行うことにより、理論質量テーブル上の全ての列について外れ値判別を行う。以上により外れ値であると判別された理論質量が記載されているセル(以下、「外れ値セル」とよぶ)の情報)は、記憶部17に記憶される。
【0029】
図6に、ステップS53における編集距離の算出結果の一例を示す。同図のテーブルは、
図3に示した理論質量テーブルの各列に記載された理論質量を、それぞれステップS53で算出された編集距離に置き換えたものであり、該テーブル中で丸印が付加されたセルが、外れ値であると判別されたセルである(なお、ここでは閾値dt=4としている)。
【0030】
なお、上記では、外れ値判別部14が前記代表値に対応するアミノ酸配列を基準配列として決定し、該基準配列と複数の理論質量の各々に対応するアミノ酸配列との編集距離をそれぞれ求めるものとしたが、これに代えて、外れ値判別部14が前記代表値に対応する塩基配列を基準配列として決定し、該基準配列と複数の理論質量の各々に対応する塩基配列との編集距離をそれぞれ求めるものとしてもよい。あるいは、このようなアミノ酸配列又は塩基配列に基づく外れ値判別を行う代わりに、単に、理論質量テーブルの各列について上記同様にして理論質量の代表値を決定し、該代表値とその列に記載された各理論質量との差をそれぞれ算出して、当該差の値が予め定められた閾値を超えていた理論質量を外れ値であると判別するものとしてもよい。
【0031】
なお、上述の理論質量のグループ化(ステップS4)と外れ値の判別(ステップS5)とは、逆の順序で行ってもよい。
【0032】
続いて、セル書式設定部15が、ステップS3で作成された理論質量テーブル、ステップS4で作成されたグループ化テーブル、及びステップS5で特定された外れ値セルの情報を記憶部17から読み出し、前記グループ化テーブルと前記外れ値セルの情報とに基づいて、前記理論質量テーブル中の各セルの書式を設定する。具体的には、まず、セル書式設定部15が、前記理論質量テーブルに含まれるセルのうち、グループ化テーブル上でグループ番号が付与されているセル(外れ値セルを除く)に対応するものについて、該グループ番号毎に異なる書式を設定する(ステップS6)。ここで、セルの書式としては、例えば、セルの塗り潰しの色(すなわち背景色)、塗り潰しの透明度、塗り潰しパターン(網掛け)の種類、若しくはセル内に付加される印(例えばアイコン)の種類、又はセルに格納された理論質量を表す数字の色、大きさ、フォントの種類、若しくは文字飾り(斜体、下線、取り消し線等)が挙げられる。例えば、グループ化テーブル上でグループ番号「1」が付与されているセルについては、理論質量テーブル上の対応するセルの背景色を薄い灰色に設定し、グループ化テーブル上でグループ番号「2」が付与されているセルについては、理論質量テーブル上の対応するセルの背景色を濃い灰色に設定する。
【0033】
次に、セル書式設定部15は、前記外れ値セルの情報に基づいて、前記理論質量テーブル上における外れ値セルの書式を、その他セルとは異なる書式に設定する(ステップS7)。このとき、外れ値セルに適用する書式としては、上記のようなグループ毎に設定された書式と明確に区別できるものを用いることが望ましい。例えば、各グループに属するセルを表す書式として、上記の薄い灰色と濃い灰色のような、グループ毎に濃淡の異なる無彩色の塗り潰しを適用する場合には、外れ値セルを表す書式として、有彩色(例えば赤色)の塗り潰しを適用することが望ましい。また、各グループに属するセルを表す書式として、グループ毎に明度、彩度、又は色相の異なる有彩色の塗り潰しを適用する場合には、外れ値セルを表す書式として、無彩色(例えば黒)の塗り潰しを適用することが望ましい。あるいは、各グループに属するセルを表す書式として、グループ毎にパターンの異なる網掛けを適用し、外れ値セルを表す書式として、黒色の塗り潰しを適用するようにしてもよい。
【0034】
なお、セル書式設定部15において設定される書式は、上記で挙げたものに限定されるものではなく、理論質量の値以外で、属するグループの異なる理論質量が記載されたセル同士、又は外れ値セルとそれ以外のセルとを、視覚的に区別可能とするものであれば、いかなるものであってもよい。
【0035】
また、上記では、ステップS6において、理論質量テーブル上で理論質量が記載されているセルのうち、外れ値セル以外のものについて前記グループ番号に基づく書式を設定するものとしたが、これに代えて、ステップS6において、理論質量テーブル上で理論質量が記載されているセルの全てについて前記グループ番号に基づく書式を設定し、その後のステップS7において、更に、外れ値セルについての書式の設定を行うようにしてもよい。この場合、ステップS6で設定する書式と、ステップS7で設定する書式は、1つのセルに対して同時に適用可能なものとしてもよい。具体的には、例えば、ステップS6では、グループ毎に色又はパターンの異なる塗り潰しを設定し、ステップS7では、外れ値セルに対して、セル内に所定のアイコンを付与したり、セル内の文字に所定の文字飾り(下線又は取り消し線等)を付すよう設定したりする。この場合、外れ値セルについては、書式として、前記塗り潰しと前記文字飾りの両方が設定されることとなる。
【0036】
セル書式設定部15によって設定された各セルの書式は、ステップS3で作成された理論質量テーブルに付加され、該書式情報が付加された理論質量テーブル(以下、「書式付き理論質量テーブル」とよぶ)が、記憶部17に記憶される。
【0037】
その後、表示制御部16が、記憶部17から上記の書式付き理論質量テーブルを読み出し、これを表示部19に表示させる(ステップS8)。これにより、表示部19の画面上には、各セルに、ステップS6又はステップS7で設定された書式が適用された状態の理論質量テーブルが表示される。このとき表示部19に表示される理論質量テーブルの一例を
図7に示す。同図のテーブルでは、外れ値セルに黒色の塗り潰しが付与され、その他の理論質量が記載されたセルに、グループ毎にパターンの異なる網掛けが付与されている。
【0038】
ステップS8で表示された書式付き理論質量テーブルをユーザが視認することにより、微生物の株間で理論質量が異なるタンパク質を容易に把握することができ、マーカー候補タンパク質の絞り込みが容易となる。また、前記書式付き理論質量テーブルをユーザが視認することにより、外れ値セルを容易に特定することができるため、微生物識別の精度低下の原因となるような異常なデータを、マーカータンパク質候補の選出から容易に除外することができる。例えば、
図7に示したテーブルを見れば、リボソームタンパク質S17及びL3が、株間で質量値がある程度分散しており、マーカータンパク質の候補として有力であることが分かる。また、同図のテーブルの下4行に記載されている微生物株の各タンパク質に関する理論質量には外れ値が多く、信頼性が低いことが分かる。なお、同図のテーブルからは、リボソームタンパク質S11、S13、S4は株間での共通性が高く、株レベルでの識別には適さないが、種の同定に使用できる可能性があることも分かる。
【0039】
以上、本発明を実施するための形態について具体例を挙げて説明を行ったが、本発明はこれに限定されるものではなく、本発明の趣旨の範囲で適宜変更が許容される。
【0040】
例えば、上記実施形態では、上述の各機能ブロックを実現するためのプログラムがコンピュータに予めインストールされているものとしたが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【0041】
また、上記実施形態では、複数の微生物株の所定のタンパク質に関する理論質量データに基づいて理論質量テーブルを作成するものとしたが、これに代えて、属する種、亜種、又はタイプの異なる複数の微生物の所定のタンパク質に関する理論質量データに基づいて理論質量テーブルを作成するものとしてもよい。
【0042】
また、上記実施形態では、許容誤差の入力受付(
図2のステップS1)を行った後に、記憶部17からの理論質量データの取得(
図2のステップS2)及び該データに基づく理論質量テーブルの作成(
図2のステップS3)を行うものとしたが、これに限らず、事前に前記ステップS2及びステップS3の処理を行い、得られた理論質量テーブルを記憶部17に記憶しておいて、ユーザから許容誤差が入力された後に、該理論質量テーブルを記憶部17から読み出して、理論質量のグループ化(
図2のステップS4)、グループ化結果に基づく各セルの書式設定(
図2のステップS6)、書式付き理論質量テーブルの表示(
図2のステップS8)等の処理を行うようにしてもよい。この場合、外れ値の判別(
図2のステップS5)及び該判別の結果に基づく各セルの書式設定(
図2のステップS7)等の処理は、許容誤差が入力される前に行っても入力された後に行ってもよい。
【0043】
また、上記の実施形態では、本発明に係る理論質量テーブル表示システムの機能を1台のコンピュータ10によって実現するものとしたが、該システムの機能は、通信ネットワークを介して接続された複数台のコンピュータによって分担する構成としてもよい。
【0044】
このような構成の一例を
図8に示す。この例における理論質量テーブル表示システムは、インターネット又はイントラネット等の通信ネットワークNWを介して互いに接続されたサーバ30と端末装置50とを備えている。サーバ30側には、理論質量取得部31、テーブル作成部32、グループ化部33、外れ値判別部34、セル書式設定部35、記憶部36を設け、端末装置50側には、表示制御部51、入力部52、及び表示部53を設ける。なお、外れ値判別部34は、上記同様に代表値決定部41と、配列特定部42と、編集距離算出部43と、外れ値決定部44とを有するものとする。そして、端末装置50が、ユーザから許容誤差の入力を受け付ける処理(
図2のステップS1)を行って、入力された値を通信ネットワークNWを介してサーバ30に送出する。この値を受け取ったサーバ30は、記憶部36から理論質量データを取得し(
図2のステップS2)、理論質量テーブルの作成から各セルの書式設定までの処理(
図2のステップS3~S7)を実施する。この場合も、理論質量データの取得から理論質量テーブルの作成までの処理(
図2のステップS2~S3)は、許容誤差の値が入力される前に実行するようにしてもよい。以上により作成された書式付き理論質量テーブルのデータは、サーバ30から端末装置50に送られ、端末装置50が、このデータに基づいて、書式(ステップS6又はステップS7で設定されたもの)が適用された状態の理論質量テーブルを、表示部53に表示させる(
図2のステップS8)。
【0045】
[種々の態様]
上述した例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。
【0046】
(第1項)一態様に係る理論質量テーブル表示システムは、
複数の微生物の各々について、該微生物に含まれる複数種類のタンパク質に関する理論質量を取得する理論質量取得部と、
前記複数の微生物の各々の識別子を縦方向又は横方向である第1の方向に、前記複数種類のタンパク質の各々の識別子を前記第1の方向と直交する横方向又は縦方向である第2の方向にそれぞれ並べ、1つの微生物と1つのタンパク質との組み合わせに対応する理論質量を、対応する1つのセルに割り当てた2次元状のテーブルである理論質量テーブルを作成する理論質量テーブル作成部と、
前記理論質量テーブルに記載された理論質量のうち、同種のタンパク質に関する理論質量について、予め定められた許容誤差を考慮して同一とみなせるものを同じグループに分類することによって1つ又は複数の理論質量グループを生成するグループ化部と、
前記理論質量テーブル上の、前記同種のタンパク質に関する理論質量が割り当てられた複数のセルについて、前記理論質量グループ毎に異なる書式を設定するセル書式設定部と、
前記理論質量テーブルに前記セル書式設定部によって設定された書式を適用した書式付き理論質量テーブルを表示する表示部と、
を有している。
【0047】
(第2項)第1項に記載の理論質量テーブル表示システムは、更に、
前記理論質量テーブルに記載された理論質量のうち、同種のタンパク質に関する理論質量の中から外れ値を判別する外れ値判別部を有し、
前記セル書式設定部が、前記外れ値であると判別された理論質量が記載されたセルに、前記理論質量グループ毎に設定された書式とは別の書式を設定するものであってもよい。
【0048】
(第3項)第2項に記載の理論質量テーブル表示システムは、
前記外れ値判別部が、
前記同種のタンパク質に関する理論質量の中から代表値を決定する代表値決定部と、
該代表値に対応するアミノ酸配列又は塩基配列である基準配列を特定する配列特定部と、
前記同種のタンパク質に関する理論質量の各々に対応するアミノ酸配列又は塩基配列と、前記基準配列との編集距離をそれぞれ算出する編集距離算出部と、
前記同種のタンパク質に関する理論質量のうち、前記編集距離が予め定められた閾値以上であったアミノ酸配列又は塩基配列に対応する理論質量を、前記外れ値として決定する外れ値決定部と、
を有するものであってもよい。
【0049】
(第4項)第1項~第3項のいずれかに記載の理論質量テーブル表示システムは、前記書式がセルの背景色であってもよい。
【0050】
(第5項)第4項に記載の理論質量テーブル表示システムは、
前記理論質量グループ毎に異なる書式が、該理論質量グループ毎に明度の異なる無彩色の背景色であって、前記外れ値であると判別された理論質量が記載されたセルに設定される書式が、有彩色の背景色であってもよい。
【0051】
(第6項)第4項に記載の理論質量テーブル表示システムは、
前記理論質量グループ毎に異なる書式が、該理論質量グループ毎に色相、明度、又は彩度の異なる有彩色の背景色であって、前記外れ値であると判別された理論質量が記載されたセルに設定される書式が、無彩色の背景色であってもよい。
【0052】
(第7項)一態様に係るプログラムは、コンピュータを、第1項~第6項のいずれかに記載の理論質量テーブル表示システムとして機能させるものである。
【0053】
第1項に記載の理論質量テーブル表示システムによれば、理論質量テーブル上で、異なる理論質量グループに属する理論質量が割り当てられたセルを、ユーザが視覚的に容易に区別可能となる。そのため、微生物(種、亜種、株、又はタイプの異なるもの)によって理論質量に違いが見られるタンパク質を、ユーザが容易に把握することができ、マーカー候補タンパク質の絞り込みが容易となる。
【0054】
第2項に記載の理論質量テーブル表示システムによれば、更に、外れ値に該当する理論質量が割り当てられたセルを、ユーザが視覚的に容易に把握できるようになる。これにより、信頼性の低いデータをマーカータンパク質候補の選出から容易に除外可能となる。
【0055】
第3項に記載の理論質量テーブル表示システムによれば、アミノ酸配列又は塩基配列を考慮した外れ値判別を行うことができるため、信頼性の高い外れ値判別を実現することができる。
【0056】
第4項に記載の理論質量テーブル表示システムによれば、属するグループが異なる理論質量が割り当てられたセルを視覚的に一層容易に把握できるようになる。
【0057】
更に、第4項~第6項に記載の理論質量テーブル表示システムによれば、グループを区別するための書式と、外れ値を示す書式とをユーザが直感的に区別可能となる。
【符号の説明】
【0058】
10…コンピュータ
11…理論質量取得部
12…テーブル作成部
13…グループ化部
14…外れ値判別部
15…セル書式設定部
16…表示制御部
17…記憶部
18…入力部
19…表示部
21…代表値決定部
22…配列特定部
23…編集距離算出部
24…外れ値決定部