(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-27
(45)【発行日】2022-07-05
(54)【発明の名称】理論質量の外れ値検出方法
(51)【国際特許分類】
G01N 27/62 20210101AFI20220628BHJP
H01J 49/00 20060101ALI20220628BHJP
【FI】
G01N27/62 V
G01N27/62 D
H01J49/00 360
(21)【出願番号】P 2021519267
(86)(22)【出願日】2020-02-20
(86)【国際出願番号】 JP2020006834
(87)【国際公開番号】W WO2020230397
(87)【国際公開日】2020-11-19
【審査請求日】2021-08-10
(31)【優先権主張番号】P 2019089764
(32)【優先日】2019-05-10
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】110001069
【氏名又は名称】特許業務法人京都国際特許事務所
(72)【発明者】
【氏名】大久保 達樹
【審査官】清水 靖記
(56)【参考文献】
【文献】国際公開第2017/168742(WO,A1)
【文献】特開2018-119897(JP,A)
【文献】特表2015-500466(JP,A)
【文献】特表2015-509182(JP,A)
【文献】米国特許出願公開第2010/0248298(US,A1)
【文献】特開2015-49056(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G01N 27/60 - 27/70
H01J 49/00 - 49/48
C12Q 1/00 - 1/70
(57)【特許請求の範囲】
【請求項1】
複数の微生物の同種のタンパク質に関する理論質量の集合である理論質量群の中から代表値を決定し、
前記代表値に対応するアミノ酸配列又は塩基配列である基準配列を特定し、
前記理論質量群に含まれる各理論質量に対応するアミノ酸配列又は塩基配列と、前記基準配列との編集距離をそれぞれ算出し、
前記理論質量群に含まれる理論質量のうち、前記編集距離が予め定められた閾値以上であったアミノ酸配列又は塩基配列に対応する理論質量を外れ値として決定する理論質量の外れ値検出方法。
【請求項2】
前記代表値が最頻値である請求項1に記載の理論質量の外れ値検出方法。
【請求項3】
前記同種のタンパク質が、リボソームタンパク質である請求項1に記載の理論質量の外れ値検出方法。
【請求項4】
コンピュータに、請求項1に記載の理論質量の外れ値検出方法を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、理論質量の外れ値検出方法に関する。
【背景技術】
【0002】
近年、質量分析を利用した微生物の識別手法が開発されている(例えば、特許文献1を参照)。この手法では、まず、被検微生物から抽出したタンパク質を含む溶液又は被検微生物の懸濁液等を、MALDI-MS(マトリックス支援レーザ脱離イオン化質量分析)等のソフトなイオン化法を用いた質量分析装置で分析する。なお「ソフトな」イオン化法とは、高分子量化合物の分解を生じにくいイオン化法をいう。そして、得られたマススペクトルを、既知微生物のマススペクトルと照合することによって、被検微生物の微生物種又は微生物株を特定する。
【0003】
上記のような質量分析を利用した微生物の識別手法では、微生物の種間又は株間で質量が相違するマススペクトルピークに着目して微生物の識別が行われる。このようなマススペクトルピークはマーカーピークとよばれ、例えば、リボソームタンパク質のように比較的保存性の高いタンパク質に由来するピークがマーカーピークとして利用される。
【0004】
マーカーピークの質量に基づいて未知微生物の識別を行うためには、予め、微生物の種毎又は株毎にマーカーピークの質量を特定してデータベース化しておく必要がある。しかしながら、種又は株の異なる多数の微生物を入手し、それぞれについて実際に質量分析を行ってマーカーピークの質量を測定するのは現実的でない。そこで、公共のデータベース(例えば、GenBank、EMBL、又はDDBJ等)に収録されている種々の微生物のアミノ酸配列データ又は塩基配列データ(以下「アミノ酸配列データ等」とよぶ)に基づいてマーカーピークの理論質量(計算質量)を算出し、これを上記のような質量分析による未知微生物の識別に利用することが考えられる。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、公共データベースに収録されているアミノ酸配列データ等から算出された理論質量は、同種のタンパク質に由来する理論質量であっても、微生物株によってその値に大きなばらつきがみられることがある。このような場合において、理論質量の値が他と大きく異なっているものは、その理論質量の基になったアミノ酸配列データ等に誤り(シーケンスのミスなどに起因するもの)が含まれている可能性が高い。そのため、このような理論質量をマーカーピークの質量として採用すると、微生物識別の精度低下を引き起こすおそれがある。そこで、何らかの判断基準を以て外れ値(すなわち、前記識別の精度低下の原因となる異常な値を持ったデータ)を除去する必要があるが、そのための適当な判断基準が定まっていないという問題があった。
【0007】
本発明は上記の点に鑑みてなされたものであり、その目的とするところは、複数の微生物の同種のタンパク質に関する理論質量データから成るデータ集合から外れ値を適切に検出する方法を提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するために成された本発明に係る理論質量の外れ値検出方法は、
複数の微生物の同種のタンパク質に関する理論質量の集合である理論質量群の中から代表値を決定し、
前記代表値に対応するアミノ酸配列又は塩基配列である基準配列を特定し、
前記理論質量群に含まれる各理論質量に対応するアミノ酸配列又は塩基配列と、前記基準配列との編集距離をそれぞれ算出し、
前記理論質量群に含まれる理論質量のうち、前記編集距離が予め定められた閾値以上であったアミノ酸配列又は塩基配列に対応する理論質量を外れ値として決定するものである。
【発明の効果】
【0009】
上記本発明に係る理論質量の外れ値検出方法によれば、複数の微生物の同種のタンパク質に関する理論質量データから成るデータ集合から外れ値を適切に検出することができる。
【図面の簡単な説明】
【0010】
【
図1】本発明の一実施形態に係る理論質量の外れ値検出装置を備えたシステムの要部構成を示すブロック図。
【
図2】前記理論質量の外れ値検出装置における処理の流れを示すフローチャート。
【
図4】
図3の配列パターンA~Fに対応するアミノ酸配列を示す図。
【発明を実施するための形態】
【0011】
以下、本発明を実施するための形態について図面を参照しつつ説明する。
図1は、本実施形態に係る理論質量の外れ値検出装置(以下、「外れ値検出装置10」とよぶ)を備えたシステムの要部構成を示すブロック図である。このシステムは、外れ値検出装置10と、記憶部20と、表示部31と、入力部32とを備えている。
【0012】
外れ値検出装置10は、データ取得部11と、代表値決定部12と、配列特定部13と、編集距離算出部14と、外れ値判定部15と、外れ値除去部16と、表示制御部17とを機能ブロックとして備えている。この外れ値検出装置10は、CPU及びメモリ等を備えたパーソナルコンピュータをハードウェア資源とし、該パーソナルコンピュータにインストールされた専用のソフトウェアを前記CPUで実行することにより具現化される。
【0013】
記憶部20は、外れ値検出の対象とする理論質量のデータ(オリジナルデータ)が記憶されるオリジナルデータ記憶部21と、前記オリジナルデータから外れ値を除去したデータ(処理済データ)が記憶される処理済データ記憶部22とを備えている。この記憶部20は、外れ値検出装置10を構成する前記パーソナルコンピュータに内蔵された又は外付けされたHDD(Hard Disk Drive)やSSD(Solid State Drive)等の大容量記憶装置によって実現することができる。
【0014】
表示部31は液晶ディスプレイ装置等から成り、入力部32はキーボード及びマウス等のポインティングデバイスから成るものであって、いずれも外れ値検出装置10を構成する前記パーソナルコンピュータに接続されている。
【0015】
図2は、本実施形態に係る外れ値検出装置10による外れ値検出の実行手順を示すフローチャートである。外れ値の検出に際しては、予め、外れ値検出の対象とする複数の理論質量(複数の微生物の同種のタンパク質に関するもの。本発明における「理論質量群」に相当)と、各理論質量の基となったアミノ酸配列と、その由来(前記理論質量がどの微生物株のどのタンパク質に関するものであるか)に関する情報とを互いに関連づけてオリジナルデータ記憶部21に記憶させておく。なお、前記複数の理論質量は、既存のデータベース(例えば、GenBank、EMBL、又はDDBJ等の公共データベース)から複数の微生物株における同種のタンパク質(例えば、リボソームタンパク質のいずれか)のアミノ酸配列を取得し、該アミノ酸配列から計算によって各タンパク質の計算分子量を求めると共に、該計算分子量を各タンパク質のイオン質量に変換することによって求めることができる。生体試料をMALDI-MSで分析した際には、主に[M+H]
+(Mは分子、Hは水素原子)、[M-H]
-、又は[M+Na]
+(Naはナトリウム原子)等の分子量関連イオンが検出されることが知られている。したがって、質量分析条件が定まっていれば、前記計算分子量からイオン質量への変換は容易に行うことができる。また、前記既存のデータベースに各種微生物株に含まれるタンパク質の計算分子量が収録されている場合は、これを用いて理論質量を算出するようにしてもよい。
【0016】
本実施形態に係る外れ値検出装置10による外れ値の検出においては、まず、代表値決定部12が、データ取得部11を介して記憶部20にアクセスすることにより、オリジナルデータ記憶部21に記憶されている前記複数の理論質量M1、M2、…Mn(nは自然数)を読み出してそれらの最頻値Mfを特定し、該最頻値Mfを代表値として決定する(ステップS1)。続いて、配列特定部13が、データ取得部11を介して記憶部20にアクセスすることにより、オリジナルデータ記憶部21を参照して最頻値Mfに対応するアミノ酸配列(以下、「基準配列Ar」とよぶ)を特定する(ステップS2)。次に、編集距離算出部14が、データ取得部11を介して記憶部20にアクセスすることにより、前記複数の理論質量M1、M2、…Mnの各々に対応するアミノ酸配列A1、A2、…Anを、オリジナルデータ記憶部21から読み出し、各アミノ酸配列A1、A2、…Anと前記基準配列Arとの編集距離d1、d2…、dnを算出する(ステップS3)。ここで、編集距離(レーベンシュタイン距離)は、2つの文字列がどの程度異なっているかを表す値であり、具体的には、1文字の挿入、削除、又は置換によって、一方の文字列を他方の文字列に変形するのに必要な手順の最小回数として定義される。
【0017】
続いて、外れ値判定部15が、各アミノ酸配列A1、A2、…Anに関してステップS3で求められた編集距離d1、d2…、dnの各々について、その値が予め定められた閾値dtを超えているか否かを判定し、超えていた場合には該アミノ酸配列に対応する理論質量を外れ値と判定する(ステップS4)。なお、前記閾値dtは、例えば、予めユーザが入力部32を介して設定して記憶部20に記憶させておく。その後、外れ値除去部16が、データ取得部11を介して記憶部20にアクセスすることにより、オリジナルデータ記憶部21に記憶されているデータ集合(すなわち、外れ値検出の対象とされた複数の理論質量、各理論質量の基になったアミノ酸配列、及びその由来に関する情報)を取得し、該データ集合から、ステップS4で外れ値と判定された理論質量に関するデータを除去して、除去後のデータ集合を処理済データ記憶部22に記憶させる(ステップS5)。更に、上記一連の処理が完了すると、外れ値と判定された理論質量に関するデータが、表示制御部17の制御の下に表示部31に表示されて、ユーザに提示される(ステップS6)。
【0018】
以上の通り、本実施形態に係る外れ値検出装置では、基準配列と各アミノ酸配列との差異に基づいて理論質量の外れ値を検出するため、アミノ酸配列データを考慮した適切な外れ値検出を行うことができる。これにより、残った理論質量(すなわち、処理済データ記憶部22に記憶されているデータ集合)は、互いに類似したアミノ酸配列(すなわち信頼性の高いアミノ酸配列)に由来するものとなる。したがって、これらの理論質量を各微生物株のマーカーピークの質量として採用し、被検微生物の質量分析結果を前記各微生物株のマーカーピークの質量と照合することにより、高精度な微生物株識別を行うことが可能となる。また、本実施形態に係る外れ値検出装置は、上記の通り、数値データである理論質量に基づいて代表値を決定し、該代表値に対応するアミノ酸配列を基準配列とするものであるため、例えば、文字列データであるアミノ酸配列同士を比較して最も出現頻度の高かった配列を基準配列とするような場合に比べて、計算量を抑えて処理速度を向上させることができる。
【0019】
以上、本発明を実施するための形態について具体例を挙げて説明を行ったが、本発明は上記実施形態に限定されるものではなく、本発明の趣旨の範囲で適宜変更が許容される。例えば、上記実施形態では、代表値決定部12が複数の理論質量のうちの最頻値を代表値として決定するものとしたが、最頻値に代えて中央値を代表値とするものとしてもよい。
【0020】
また、上記実施形態では、配列特定部13が前記代表値に対応するアミノ酸配列を基準配列として決定し、編集距離算出部14が、該基準配列と複数の理論質量の各々に対応するアミノ酸配列との編集距離をそれぞれ求めるものとしたが、これに代えて、配列特定部13が前記代表値に対応する塩基配列を基準配列として決定し、編集距離算出部14が、該基準配列と複数の理論質量の各々に対応する塩基配列との編集距離をそれぞれ求めるものとしてもよい。
【0021】
また、上記実施形態では、記憶部20が、外れ値検出装置10を構成する前記パーソナルコンピュータに内蔵又は外付けされているものとしたが、記憶部20は、外れ値検出装置10を構成する前記パーソナルコンピュータに直接又はインターネット又はLAN(Local Area Network)等を介して接続された別のコンピュータに設けられていてもよい。この場合、データ取得部11は、前記インターネット又はLANを介して記憶部20にアクセス可能なものとする。
【0022】
また、上記実施形態では、外れ値検出のためのプログラムがコンピュータに予めインストールされているものとしたが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【実施例】
【0023】
アクネ菌(Cutibacterium acnes)89株のリボソームタンパク質L15のアミノ酸配列を、公共のデータベースから取得し、それぞれの理論質量を算出して、その中から外れ値を検出した。
【0024】
前記理論質量は、15347.58~20635.62までの範囲に分布しており、最頻値は15384.69であった。前記89株のアミノ酸配列のうち、前記最頻値に対応するアミノ酸配列を基準配列とし、該基準配列と前記89株のアミノ酸配列の各々との編集距離を計算した。外れ値判定のための閾値は2とし、前記編集距離が当該閾値を超えていた株に関する理論質量を、外れ値と判定した。
【0025】
前記外れ値の検出結果を
図3に示す。なお、簡略化のため、ここでは前記89株のうちの20株に関する結果のみを示している。同図において、左から4番目の列は各株のリボソームタンパク質L15のアミノ酸配列パターンを示している。アミノ酸配列パターンA~Fに対応するアミノ酸配列を
図4に示す。
図4に示されたアミノ酸配列パターンのうち、パターンAの配列が、前記最頻値に対応するアミノ酸配列(すなわち基準配列)である。前記基準配列のアミノ酸配列と、各株のリボソームタンパク質L15のアミノ酸配列との編集距離は、
図3の左から3番目の列に示した通りであり、編集距離が2を超えていた株(すなわち、理論質量が外れ値であると判定された株)は、同図で*を付した4株であった。
【0026】
[態様]
上述した例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。
【0027】
(第1項)一態様に係る理論質量の外れ値検出方法は、
複数の微生物の同種のタンパク質に関する理論質量の集合である理論質量群の中から代表値を決定し、
前記代表値に対応するアミノ酸配列又は塩基配列である基準配列を特定し、
前記理論質量群に含まれる各理論質量に対応するアミノ酸配列又は塩基配列と、前記基準配列との編集距離をそれぞれ算出し、
前記理論質量群に含まれる理論質量のうち、前記編集距離が予め定められた閾値以上であったアミノ酸配列又は塩基配列に対応する理論質量を外れ値として決定するものである。
【0028】
第1項に記載の理論質量の外れ値検出方法によれば、アミノ酸配列又は塩基配列を考慮して理論質量の外れ値検出を行うことができるため、信頼性の高い外れ値検出を実現することができる。
【0029】
(第2項)第1項に記載の理論質量の外れ値検出方法において、前記代表値は最頻値であってもよい。
【0030】
理論質量の最頻値に対応するアミノ酸配列又は塩基配列は、前記理論質量群に含まれる理論質量の各々に対応するアミノ酸配列又は塩基配列の中で、最も出現頻度の高い配列といえる。そのため、該最頻値を理論質量の代表値とすることにより、最も出現頻度の高い配列を基準配列とすることができ、該基準配列からの距離(編集距離)に基づいて外れ値判定を行うことによって、より適切な外れ値判定を実現することができる。
【0031】
(第3項)第1項又は第2項に記載の理論質量の外れ値検出方法において、前記同種のタンパク質は、リボソームタンパク質であってもよい。
【0032】
(第4項)一態様に係るプログラムは、コンピュータに、第1項~第3項のいずれかに記載の理論質量の外れ値検出方法を実行させるものである。
【0033】
(第5項)一態様に係る非一時的なコンピュータ可読媒体は、第4項に記載のプログラムを記憶したものである。
【符号の説明】
【0034】
10…外れ値検出装置
11…データ取得部
12…代表値決定部
13…配列特定部
14…編集距離算出部
15…外れ値判定部
16…外れ値除去部
17…表示制御部
20…記憶部
21…オリジナルデータ記憶部
22…処理済データ記憶部
31…表示部
32…入力部