(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022181723
(43)【公開日】2022-12-08
(54)【発明の名称】分析方法および診断支援方法
(51)【国際特許分類】
G01N 27/62 20210101AFI20221201BHJP
G01N 30/86 20060101ALI20221201BHJP
【FI】
G01N27/62 D
G01N30/86 E
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2021088825
(22)【出願日】2021-05-26
(71)【出願人】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】100108523
【弁理士】
【氏名又は名称】中川 雅博
(74)【代理人】
【識別番号】100125704
【弁理士】
【氏名又は名称】坂根 剛
(74)【代理人】
【識別番号】100187931
【弁理士】
【氏名又は名称】澤村 英幸
(72)【発明者】
【氏名】藤田 雄一郎
(72)【発明者】
【氏名】野田 陽
(72)【発明者】
【氏名】玉井 雄介
(72)【発明者】
【氏名】山田 賢志
【テーマコード(参考)】
2G041
【Fターム(参考)】
2G041CA01
2G041LA06
2G041LA08
2G041LA20
(57)【要約】
【課題】本発明は、信頼性の高い分析結果を得ることが可能な分析方法を提供することを課題とする。
【解決手段】試料を分析する分析方法は、試料の分析結果として、試料に基づく第1の信号にノイズに基づく第2の信号が付加された測定データMDを取得する第1の工程と、第1の信号が従う形状および第2の信号が従う形状を仮定し、ベイズ推論により測定データMDをモデル化する第2の工程と、モデル化された測定データMDに基づいて、試料の特性の確率分布を推定する第3の工程とを含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
試料を分析する方法であって、
前記試料の分析結果として、前記試料に基づく第1の信号にノイズに基づく第2の信号が付加された測定データを取得する第1の工程と、
前記第1の信号が従う形状および前記第2の信号が従う形状を仮定し、ベイズ推論により前記測定データをモデル化する第2の工程と、
モデル化された前記測定データに基づいて、前記試料の特性の確率分布を推定する第3の工程と、
を含む分析方法。
【請求項2】
前記第3の工程は、
前記測定データにおいて着目する物質由来のピーク位置に関する統計量の確率分布を推定する工程、
を含む、請求項1に記載の分析方法。
【請求項3】
前記第3の工程は、
前記測定データにおいて着目する物質由来のピーク定量値に関する統計量の確率分布を推定する工程、
を含む、請求項1に記載の分析方法。
【請求項4】
前記統計量の確率分布の設定された範囲内での累積確率を算出し、前記累積確率と設定された閾値とを比較することにより、前記物質由来のピークの有無を判定する第4の工程、
を含む、請求項2または請求項3に記載の分析方法。
【請求項5】
前記統計量として、複数の物質由来のピーク定量値に基づく統計量が用いられる、請求項3に記載の分析方法。
【請求項6】
請求項4に記載の前記第4の工程において、ピークが有ると判断されたとき、対象の疾患に罹患していると判定する、診断支援方法。
【請求項7】
前記疾患は感染症を含む、請求項6に記載の診断支援方法。
【請求項8】
前記第1の工程は、
複数の濃度の試料に対応した複数の測定データを取得する工程、
を含み、
前記第3の工程は、
前記複数の測定データに基づいて、前記試料の検量線に関するベイズ信頼区間を推定する工程、
を含む、請求項1に記載の分析方法。
【請求項9】
前記第2の工程は、
階層ベイズモデルにより前記複数の測定データをモデル化する、請求項8に記載の分析方法。
【請求項10】
前記第3の工程において推論した前記ベイズ信頼区間の重なりの程度から複数の試料間の濃度の関係を判定する、請求項8または請求項9に記載の分析方法。
【請求項11】
前記第3の工程は、
複数の物質由来のピーク定量値に基づく検量線に関するベイズ信頼区間を推定する、請求項8または請求項9に記載の分析方法。
【請求項12】
前記試料の検量線が線形式で表される、請求項8または請求項9に記載の分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分析方法および診断支援方法に関する。
【背景技術】
【0002】
クロマトグラフ、質量分析装置などの分析装置において、分析対象の試料に関する測定データが得られる。測定データは、コンピュータにより解析され、クロマトグラムの取得、ピークの検出などが行われる。また、測定データを解析するときに、測定データに対して回帰分析などが行われる。下記特許文献1においては、最小二乗法を用いた分析方法が利用されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
測定データを分析するとき、測定データのばらつきが分析結果に影響を与える。このため、測定データに強く依存する分析を行った場合、分析結果の信頼性が低くなる場合がある。
【0005】
本発明の目的は、信頼性の高い分析結果を得ることが可能な分析方法を提供することである。
【課題を解決するための手段】
【0006】
本発明の一局面に従う分析方法は、試料を分析する方法であって、試料の分析結果として、試料に基づく第1の信号にノイズに基づく第2の信号が付加された測定データを取得する第1の工程と、第1の信号が従う形状および第2の信号が従う形状を仮定し、ベイズ推論により測定データをモデル化する第2の工程と、モデル化された測定データに基づいて、試料の特性の確率分布を推定する第3の工程とを含む。
【発明の効果】
【0007】
本発明によれば、信頼性の高い分析結果を得ることが可能な分析方法を提供することができる。
【図面の簡単な説明】
【0008】
【
図1】本実施の形態に係る分析方法を実行するコンピュータの構成図である。
【
図2】本実施の形態に係る分析方法を実行するコンピュータの機能ブロック図である。
【
図3】シミュレーションデータのパラメータを示す図である。
【
図4】シミュレーションデータの信号対雑音比を示すである。
【
図5】シミュレーションデータの波形外観を示す図である。
【
図6】比較例によるシミュレーションデータのピーク検出結果を示す図である。
【
図7】第1の実施の形態に係る分析方法を示すフローチャートである。
【
図8】第1の実施の形態に係る分析方法により推定されたピーク位置の事後分布を示す図である。
【
図9】第1の実施の形態に係る分析方法により推定されたピーク高さの事後分布を図である。
【
図10】第2の実施の形態に係る分析方法を示すフローチャートである。
【
図11】第2の実施の形態に係る分析方法により推定された検量線の信頼区間を示す図である。
【
図12】比較例により推定された検量線の信頼区間を示す図である。
【発明を実施するための形態】
【0009】
次に、添付の図面を参照しながら本発明の実施の形態に係る分析方法および診断支援方法について説明する。
【0010】
(1)コンピュータの構成
図1は、実施の形態に係るコンピュータ1の構成図である。コンピュータ1は、例えば、パーソナルコンピュータである。本実施の形態のコンピュータ1は、液体クロマトグラフ、ガスクロマトグラフまたは質量分析装置などにおいて得られた試料の測定データMDを取得する。そして、コンピュータ1は、試料の測定データMDから試料の特性の確率分布を推定する装置である。
【0011】
コンピュータ1は、
図1に示すように、CPU(Central Processing Unit)11、RAM(Random Access Memory)12、ROM(Read Only Memory)13、操作部14、ディスプレイ15、記憶装置16、通信インタフェース(I/F)17、デバイスインタフェース(I/F)18を備える。
【0012】
CPU11は、コンピュータ1の全体制御を行う。RAM12は、CPU11がプログラムを実行するときにワークエリアとして使用される。ROM13には、制御プログラムなどが記憶される。操作部14は、ユーザによる入力操作を受け付ける。操作部14は、キーボードおよびマウスなどを含む。ディスプレイ15は、分析結果などの情報を表示する。記憶装置16は、ハードディスクなどの記憶媒体である。記憶装置16には、プログラムP1および測定データMDが記憶される。
【0013】
プログラムP1は、ベイズ推論を用いて測定データMDをモデル化する。また、プログラムP1は、モデル化された測定データMDに基づいて、試料の特性の確率分布を推定する。測定データMDは、試料に基づく第1の信号、および、第1の信号に付加される、ノイズに基づく第2の信号を含む。
【0014】
通信インタフェース17は、他のコンピュータとの間で有線または無線による通信を行うインタフェースである。デバイスインタフェース18は、CD、DVD、半導体メモリなどの記憶媒体19にアクセスするインタフェースである。
【0015】
(2)コンピュータの機能構成
図2は、コンピュータ1の機能構成を示すブロック図である。
図2において、制御部20は、CPU11がRAM12をワークエリアとして使用しつつ、プログラムP1を実行することにより実現される機能部である。制御部20は、取得部21、モデル化部22、推定部23および出力部24を備える。つまり、取得部21、モデル化部22、推定部23および出力部24は、プログラムP1の実行により実現される機能部である。言い換えると、各機能部21~24は、CPU11が備える機能部とも言える。
【0016】
取得部21は、測定データMDを入力する。取得部21は、例えば、通信インタフェース17を介して他のコンピュータや分析装置などから測定データMDを入力する。あるいは、取得部21は、デバイスインタフェース18を介して、記憶媒体19に保存された測定データMDを入力する。測定データMDは、液体クロマトグラフ、ガスクロマトグラフまたは質量分析装置などにおいて経時的に取得された試料の分析データである。測定データMDがクロマトグラフにおいて得られた分析データである場合、測定データMDは、時間、波長および吸光度(信号強度)の3つのディメンションを持つ3次元クロマトグラムである。測定データMDが質量分析装置において得られた分析データである場合、測定データMDは、時間、質量電荷比およびイオン強度(信号強度)の3つのディメンションを持つ質量分析データである。取得部21は、入力した測定データMDを記憶装置16に保存する。取得部21は、複数の異なる濃度の試料に対応した複数の測定データMDを取得する。
【0017】
モデル化部22は、第1の信号が従う形状および第2の信号が従う形状を仮定し、ベイズ推論により測定データMDをモデル化する。推定部23は、モデル化された測定データMDに基づいて、試料の特性の確率分布を推定する。出力部24は、推定部23により推定された試料の特性の確率分布をディスプレイ15に出力する。ここで、測定データMDから推定されるピーク位置に関する統計量、ピーク定量値に関する統計量または検量線が試料の特性の例である。また、ベイズ推論により得られたピーク位置の度数、ピーク定量値の度数が、ピーク位置に関する統計量、ピーク定量値に関する統計量の例である。
【0018】
プログラムP1は、記憶装置16に保存されている場合を例として説明する。他の実施の形態として、プログラムP1は、記憶媒体19に保存されて提供されてもよい。CPU11は、デバイスインタフェース18を介して記憶媒体109にアクセスし、記憶媒体19に保存されたプログラムP1を、記憶装置16またはROM13に保存するようにしてもよい。あるいは、CPU11は、デバイスインタフェース18を介して記憶媒体19にアクセスし、記憶媒体19に保存されたプログラムP1を実行するようにしてもよい。
【0019】
(3)シミュレーションデータ
本実施の形態においては、測定データMDとして、
図3および
図4に示すシミュレーションデータを利用する。このシミュレーションデータは、後で説明する第1の実施の形態および第2の実施の形態において共通して利用される。
図3は、シミュレーションデータのパラメータを示す図である。ここでは一例として、異なる6種類の濃度C1~C6のシミュレーションデータを利用する。
図3に示すパラメータは、濃度C1~C6のシミュレーションデータに共通するパラメータである。
【0020】
図3に示すμは、ガウシアンピークの平均値(ピーク位置)であり、σは、ガウシアンピークの標準偏差である。
図3に示すσ’は、ガウシアンノイズの標準偏差である。このように、シミュレーションデータは、ガウシアンピークにガウシアンノイズが付加された形状となっている。ガウシアンピークのパラメータμ,σ、および、ガウシアンノイズのパラメータσ’は、濃度C1~C6に共通である。この例のシミュレーションデータは、質量分析装置で得られた測定データMDを想定している。
図3に示すように、シミュレーションデータは、-8≦m/z≦7.95の範囲について作成されたデータである。また、bin幅は0.05、m/z方向のデータ点数は320点である。
【0021】
図4は、シミュレーションデータの信号対雑音比(SN比)を示す図である。
図4に示すように、濃度C1,C2,C3,C4,C5,C6のシミュレーションデータのSN比は、それぞれ6,5,4,3,2,1である。例えば、濃度C1においては、信号:ノイズ=6:1である。つまり、SN比の高さは、濃度C1>C2>C3>C4>C5>C6の関係にある。また、シミュレーションデータにおいては、
図4に示すように各濃度C1~C6の試料にRSD(Relative standard deviatio:相対標準誤差)0.5%の秤量誤差を加味している。秤量誤差を加味したSN比が、図に示す「実際のSN比」である。濃度C1~C6のSN比は、(ガウシアンピーク高さ(ピーク強度))/(ガウシアンノイズの標準偏差σ’)で表される。
【0022】
図5は、濃度C1~C6のシミュレーションデータの波形外観を示す図である。
図3に示したように、シミュレーションデータのガウシアンピークの平均値μは0であるので、
図5において、濃度C1~C6のいずれの波形についても、m/z=0付近でピークが形成されている。SN比の大きい濃度C1,C2等においては、ピーク形状が明確となっているが、SN比の小さい濃度C5,C6等においては、ノイズに埋もれてピーク形状が分かり難くなっている。
【0023】
(4)ピーク検出の比較例
ベイズ推論に基づいて測定データMDをモデル化する本実施の形態の分析方法を説明する前に、比較例として、ベイズ推論に基づかない測定データMDの分析方法について説明する。ここでは、比較例として、MATLABソフトウェア(MathWorks社製)を利用した分析方法を例示する。具体的には、MATLABに含まれるmspeaks関数およびmslowess関数が利用される。
【0024】
図6は、
図3~
図5に示したシミュレーションデータ(測定データMD)に対して、mspeaks関数を適用させて推定したピーク検出結果を示す。
図6において、白色の線が推定された信号である。具体的には、
図6で示す検出結果を得るために、Matlab ver.2014a、Matlab bioinfoaticis Toolbox ver.2014aを用いた。まずmslowess関数でスムージングを行った。スムージングカーネル(Kernal)はgaussian、window幅(Span)は0.08とし、その他のパラメータはデフォルト設定とした。その後、デフォルト設定のmspeaks関数を用いてピーク検出を行った。mslowess関数によるスムージング曲線を白色線で示す。図示省略しているが、mspeaks関数により、白色線の曲線のピーク部分が、シミュレーションデータのピーク位置として検出される。
【0025】
図6に示すように、比較例の方法では、SN比の高い濃度C1,C2などでは、ピーク形状が綺麗に検出されており、シミュレーションデータのピークの検出の信頼性が高いことが予想される。これに対して、SN比の低い濃度C5,C6などでは、シミュレーションデータに対するピークの検出の信頼性が低いことが分かる。比較例においては、ピーク位置が点推定されている。そのため、特に低SN比の信号に対しては、検出位置の信頼性が不明であり、ピークの位置が正しく検出されているのか否かの判断が難しいと言える。これは、ピーク定量値についても同様である。
【0026】
(5)第1の実施の形態
次に、第1の実施の形態に係る分析方法について説明する。第1の実施の形態の分析方法は、ベイズ推論を用いたピークの検出方法である。
図7は、第1の実施の形態に係る分析方法を示すフローチャートである。
図7に示す処理は、制御部20が備える機能部21~24(
図2参照)により実行される処理である。つまり、
図7に示す処理は、CPU11がプログラムP1を実行することにより実現される処理である。
【0027】
ステップS11において、取得部21は、試料に基づく第1の信号にノイズに基づく第2の信号が付加された測定データMDを取得する。ステップS11は本発明の第1の工程の例である。取得部21は、例えば、他のコンピュータや分析装置から測定データMDを取得する。取得部21は、測定データMDを記憶装置16に保存する。
【0028】
モデル化部22は、記憶装置16に保存された測定データMDを読み出す。次に、ステップS12において、モデル化部22は、第1の信号が従う形状および第2の信号が従う形状を仮定し、ベイズ推論により測定データMDをモデル化する。ステップS12は本発明の第2の工程の例である。例えば、モデル化部22は、数1式に示すような関数を用いて、測定データMDをモデル化する。
【0029】
【0030】
数1式において、Normal(x,y)は、平均値x、標準偏差yの標準正規分布を示す。y[n]は、測定データMDの各データ点(n)のピーク強度を、Nはデータ点数を示す。このベイズモデルは平均値μp、標準偏差σpの標準正規分布を全体的にa倍した形状のピークに、標準偏差σnの標準正規分布のノイズが付加されたモデルである。このように、数1式は、
図3~
図6に示すシミュレーションデータに対応したベイズモデルである。
【0031】
次に、ステップS13において、推定部23は、測定データMDにおいて着目する物質由来のピークに関する統計量の確率分布を推定する。ステップS13は本発明の第3の工程の例である。つまり、推定部23は、モデル化部22においてモデル化された測定データMDを用いて、ピークに関する統計量の確率分布を得る。
図8は、推定部23により推定されたピーク位置の確率分布(事後分布)を示す図である。
図8に示す横軸はピーク位置であり、縦軸は度数である。
【0032】
図8に示す確率分布を得るために、数1式で示すモデルに適当な事前分布を与えて、シミュレーションデータを用いてベイズ推論を行った。ウォームアップ期間を500ステップとし、統計量計算に2000ステップのマルコフ連鎖モンテカルロ法(MCMC法)を4-chain実行することによりベイズ推論を行った。
図8のヒストグラムは、モデルに2000ステップの計算を実行させ、出力されたピーク位置の度数をプロットしたものである。
【0033】
図8において、2つの破線で囲まれる範囲が許容範囲A1を示す。
図3に示したように、濃度C1~C6のシミュレーションデータのピーク位置はいずれも0である。許容範囲A1は、ピーク位置検出として許容できる範囲を示す。なお、シミュレーションデータにおいてm/z=0をピーク中心としているため、
図8の確率分布においても、m/z=0がピーク中心となっているが、実際には、注目する物質のm/z付近にピークが出現することとなる。
【0034】
許容範囲A1は、例えばユーザにより設定される。
図8において、各グラフの右上に示すスコアSCは、確率分布が許容範囲A1に収まった割合を示す。濃度C1~C3においては、SC=1であり、ベイズ推論による結果、全ての事後分布が許容範囲A1に収まったことを示す。例えば、「許容範囲A1内のピーク位置の事後分布の累積確率」が、閾値0.9以上であれば、ピークが有ると判定される場合、濃度C1~C5については、ピークが有ると判定される。濃度C6については、SC=0.8759であるため、ピークが無いと判定される。この判定処理は、本発明の第4の工程の例である。また、本実施の形態の分析方法によれば、閾値0.9によりピークの有無を判定するだけでなく、スコアSCとしてピークの有無のレベルを提示可能であるので、判定の信頼性についても情報を提示することが可能である。
【0035】
出力部24は、例えば、
図8に示すピーク位置の事後分布のヒストグラムとともに、スコアSCをディスプレイ15に表示させる。ユーザは、ヒストグラムを参照することで、視覚的にピークの有無の判定の信頼性を確認することができる。また、ユーザは、スコアSCを参照することによっても、ピークの有無の判定の信頼性を確認することができる。
【0036】
図9は、推定部23により推定されたピーク定量値の確率分布(事後分布)を示す図である。
図9に示す横軸はピーク定量値であり、縦軸は度数である。この例では、ピーク定量値としてピーク高さを用いている。ピーク定量値としてピーク面積が用いられてもよい。
図9に示す確率分布も、
図8に示す場合と同様の方法により取得した。つまり、上述したように、数1式で示すモデルに適当な事前分布を与えて、シミュレーションデータを用いてベイズ推論を行った。
図9に示すヒストグラムは、モデルに2000ステップの計算を実行させ、出力されたピーク高さ(ピーク定量値)の度数をプロットしたものである。
【0037】
図3に示したように、シミュレーションデータのガウシアンノイズの標準偏差σ’は10である。また、濃度C1,C2・・・C6の真のSN比は、それぞれ6,5・・・1である。したがって、濃度C1,C2・・・C6の真のピーク高さは、それぞれ60,50・・・10である。
図9において、一点鎖線は、シミュレーションデータにおける真のピーク高さを示す。
図9におけるヒストグラムも概ね真のピーク高さ付近にピークが形成されている。
【0038】
また、
図9において各濃度のヒストグラムの上部に95%ベイズ信頼区間(95%CW)を示している。例えば、濃度C1であれば、95%ベイズ信頼区間は55.9029~63.8005の区間である。同様に、各濃度のピーク高さについて95%ベイズ信頼区間が示されている。この95%ベイズ信頼区間に、ベイズ推論によるピーク高さの累積確率が、閾値以上含まれている場合には、ピークが有ると判定することができる。閾値はユーザにより適宜設定されればよい。この判定処理は、本発明の第4の工程の例である。
【0039】
図9に示す鎖線は、比較例のmspeks関数により求まったピーク高さを示す。図から分かるように、本実施の形態のベイズ推論を用いたピーク高さの推定は、濃度C1~C5において、比較例と比べて、真のピーク高さに近い結果が得られたことが分かる。つまり、
図9において濃度C1~C5においては、ピーク高さの事後分布中央値が、mspeaks関数を用いて求めたピーク高さよりも真のピーク高さに近いことが分かる。このように、本実施の形態によれば、ベイズ推論を利用することにより、ピーク定量値について信頼性の高い推定を行うことができる。また、ピーク定量値を推定するだけでなく、ピーク定量値の分布、信頼区間も得ることができるので、ユーザに推定の信頼性を合わせて提示することができる。このように第1の実施の形態の分析方法によれば、ピーク位置またはピーク定量値が確率分布で得られることで、その検出値の信頼性を評価することができる。
【0040】
出力部24は、例えば、
図9に示すピーク定量値の事後分布のヒストグラムをディスプレイ15に表示させる。ユーザは、ヒストグラムを参照することで、視覚的にピークの有無の判定の信頼性を確認することができる。また、出力部24は、95%信頼区間に含まれる累積確率のスコアを合わせてディスプレイ15に表示させてよい。
【0041】
(6)第1の実施の形態の適用例・変形例
第1の実施の形態で説明した分析方法は、例えば、疾患の診断支援に適用可能である。ベイズ推論による分析の結果、注目する物質由来のピークが有ると判定された場合、患者が対象の疾患に罹患していると判定し、ピークが無いと判定された場合、対象の疾患に罹患していないと判定することができる。または、ピーク定量値が一定値を超えるか否かによって罹患を判定することもできる。どちらを判定方法として利用するかは、対象の疾患種やデータ測定方法によってユーザが選択すればよい。第1の実施の形態によれば、測定データMDに基づいてピーク位置またはピーク定量値の統計量の確率分布が推定されるので、疾患の診断支援の信頼性を高めることができる。対象の疾患としては、例えば、微生物やウィルスによる感染症などが挙げられる。本実施の形態の分析方法によれば、他にも、バイオマーカーを用いた癌を含む疾患の早期診断など、様々な疾患の診断支援に利用可能である。例えば、臨床検体を質量分析装置で測定し、バイオマーカーのMSピークの有無や強度から目的の疾患に対する罹患を判定することができる。あるいは、特定の微生物、病原菌またはウィルスが含まれる可能性のある検体を質量分析装置で測定し、バイオマーカーのMSピークの有無や強度から目的の疾患に対する罹患を判定することができる。
【0042】
本実施の形態の手法によりピーク位置から疾患の有無などを判断する場合、
図8に記載のような許容範囲A1と「許容範囲A1内のピーク位置の事後分布の累積確率」の設定が必要である。ここではこれらの設定例について述べる。例えば質量分析装置においては測定されるピーク位置の精度が質量分析手法・装置特性的に見積もれることが多い。例えば真のピーク位置はm/z=100であったとしても、実際に測定されるピーク位置はm/z=99.5から100.5の間となる。従来法で求めたピーク位置がこの範囲の間であれば、ピークが検出されたとみなす。本実施の形態の手法においても許容範囲A1としてこの範囲を用いればよい。従来法のアプローチとの違いは、本発明において「この許容範囲内にピーク位置(例えば、ピークの頂点)が存在する確率」を評価する点である。
【0043】
次にピークの有無を判定するための閾値である「許容範囲A1内のピーク位置の事後分布の累積確率」であるが、これは例えば疾患の有無を判定したい場合は医学的見地から設定すればよい。例えば重症化までの進行が早く、早期治療開始が重要である疾患については、非罹患者を誤って罹患者と誤診断することを許容してでも、罹患の可能性がある程度あれば罹患と早期に診断するのが望ましいと思われる。この場合は閾値をある程度狭くすることが適切と考えられる。一方、罹患していても進行が遅く重症化するまでに時間を要するような疾患は早期における見逃しのデメリットより、非罹患者を誤って罹患者と誤診断することによる被験者が受ける精神的負担、精密検査等に要する時間的・費用的コストのデメリットの方が大きい。この場合は閾値をある程度広くして、その疾患に罹患している可能性がある程度高くないと罹患という診断を下さないことが適切と思われる。
【0044】
上記の実施の形態で利用したシミュレーションデータはガウシアンピークにガウシアンノイズが付加されているモデルを例とした。そのため、数1式で示したベイズモデリングもその設定と同様とした。着目する信号とその信号に付加されているノイズの形状は利用する分析装置や測定方法などに依存する。そのため実際のデータに適用する際は、これらの事情を考慮してベイズモデリングを行うことで、より正確なピーク位置、ピーク定量値の推定が可能である。例えば液体クロマトグラムの場合、スペクトル形状は単純なガウシアンではなく高RT側に裾が延びた形状をしている。MSスペクトルの場合、信号はイオンのカウントデータなのでノイズはポアソン分布またはポアソン分布の定数倍の形状をしていることが予想される。
【0045】
上記の実施の形態においては、試料に含まれる着目の物質が1つであり、その着目する1つの物質によるピークの有無について説明した。本実施の形態の分析方法は、ピークの定量値が、複数のピーク定量値の組み合わせ(比など)で表される場合にも適用可能である。例えば、特定の疾患については、2つの物質α、βのピーク定量値の比が罹患の有無を判定する条件となっている場合がある。このような場合には、2つの物質α、βのピーク定量値の比を本実施の形態の分析方法でベイズ推論することにより、診断支援に適用させることが可能である。
【0046】
(7)第2の実施の形態
次に、第2の実施の形態に係る分析方法について説明する。第2の実施の形態の分析方法は、ベイズ推論を用いた検量線の作成方法である。
図10は、第2の実施の形態に係る分析方法を示すフローチャートである。
図10に示す処理は、制御部20が備える機能部21~24(
図2参照)により実行される処理である。つまり、
図10に示す処理は、CPU11がプログラムP1を実行することにより実現される処理である。
【0047】
ステップS21において、取得部21は、複数の濃度の試料に対応した複数の測定データMDを取得する。ステップS21は本発明の第1の工程の例である。具体的には、取得部21は、複数の異なる濃度の試料について、試料に基づく第1の信号にノイズに基づく第2の信号が付加された測定データMDを取得する。取得部21は、例えば、他のコンピュータや分析装置から測定データMDを取得する。取得部21は、測定データMDを記憶装置16に保存する。
【0048】
モデル化部22は、記憶装置16に保存された測定データMDを読み出す。次に、ステップS22において、モデル化部22は、第1の信号が従う形状および第2の信号が従う形状を仮定し、ベイズ推論により測定データMDをモデル化する。ステップS22は本発明の第2の工程の例である。例えば、モデル化部22は、数2式~数6式に示すような関数を用いて、測定データMDをモデル化する。
【0049】
【0050】
【0051】
【0052】
【0053】
【0054】
数2式~数6式において、Normal(x,y)は、平均値x、標準偏差yの標準正規分布を意味している。y[c,n]は濃度cの測定データMDの各データ点(n)のピーク強度を示す。また、Cは測定データMDの濃度の数(
図3~
図5で示すシミュレーションデータではC=6)、Nはデータ点数を示す。ピーク検出のベイズモデルが数2式および数3式であり、平均値μp[c]、標準偏差σp[c]の標準正規分布を全体的にa[c]倍した形状のピーク(base_gaussian_intensity[c,n])に、標準偏差σnの標準正規分布のノイズが付加されたモデルとなっている。μp[c],σp[c]は、それぞれ濃度cの測定データMDの平均値、標準偏差であり、a[c]は、濃度cにより決まる係数である。数4式ではフィッティングしたガウシアンピーク高さ(peak_gaussian_height)を求めている。
【0055】
検量線のベイズモデルが数5式および数6式である。数5式において、α,βは定数であり、検量線(calibration_value)が濃度に対して線形に増加するモデルとなっている。また、数6式に示すように、ガウシアンピーク高さ(peak_gaussian_height)は、検量線に標準偏差σcの標準正規分布のノイズが付加されたモデルとなっている。このように、ガウシアンピーク高さが濃度に対して線形に増加するモデルとなっている。数2式・数3式と数5式・数6式とが、数4式を介して階層的につながっている。このように、本実施の形態において、測定データMDの検量線は、階層ベイズモデルで表される。
【0056】
次に、ステップS23において、推定部23は、複数の異なる濃度の測定データMDに基づいて、試料の検量線に関するベイズ信頼区間を推定する。ステップS23は本発明の第3の工程の例である。つまり、推定部23は、モデル化部22においてモデル化された複数の異なる濃度の測定データMDを用いて、検量線の確率分布を得る。
図11は、推定部23により推定された検量線の確率分布(事後分布)を示す図である。
図11に示す横軸は濃度であり、縦軸は強度(ピーク定量値)である。
【0057】
図11に示す確率分布を得るために、数2式~数6式で示すモデルに適当な事前分布を与えて、シミュレーションデータを用いてベイズ推論を行った。なお、シミュレーションデータは、第1の実施の形態と同様、
図3~
図5で示したデータを利用した。ウォームアップ期間を500ステップとし、統計量計算に2000ステップのマルコフ連鎖モンテカルロ法(MCMC法)を4-chain実行することによりベイズ推論を行った。
図11の検量線の確率分布は、モデルに2000ステップの計算を実行させることにより、得られたものである。
図11において、黒丸は、シミュレーションデータに基づく理想値(真の値)であり、黒四角は、ベイズ推論の中央値である。また、ベイズ推論検量線を黒色の線で、90%ベイズ推論信頼区間をグレーの領域で示している。このように、ベイズ推論検量線は、秤量誤差由来の不確実性が考慮されている。
【0058】
(8)第2の実施の形態の比較例
第2の実施の形態の比較例としても、上記「(4)ピーク検出の比較例」と同様、ベイズ推論に基づかない測定データMDの分析方法として、MATLABソフトウェア(MathWorks社製)を利用する。具体的には、MATLABに含まれるmslowess関数およびmspeaks関数を利用する。mslowess関数およびmspeaks関数の利用方法は上記と同様である。
【0059】
図12は、
図3~
図5に示したシミュレーションデータ(測定データMD)に対して、mspeaks関数を適用させて推定した検量線を示す。
図12において、黒丸は、シミュレーションデータに基づく理想値(真の値)であり、黒三角は、mspeaks関数により検出された各濃度の強度(ピーク高さ)である。また、黒色の線が推定された検量線であり、グレーの領域は、mspeaks関数による90%の信頼区間である。
【0060】
図11に示す90%ベイズ推論信頼区間は、
図12に示す検量線の90%信頼区間と比べて領域が広くなっている。これは、比較例の方法では、信頼区間に秤量誤差が考慮されていないからである。これに対して、本実施の形態のベイズ推論による検量線の推定は、階層ベイズモデルによって秤量誤差を組み込むことが可能である。
図11に示すベイズ推論に基づく検量線の90%信頼区間には、シミュレーションデータに基づく強度の理想値がいずれの濃度においても含まれている。しかし、
図12に示す比較例に基づく検量線の90%信頼区間には、理想値が含まれていない濃度がある。このように、本実施の形態のベイズ推論に基づく検量線の推定方法では、比較例と比べて不確実性がモデルに反映されていると言える。
【0061】
比較例においては、各濃度における測定データMDのピーク検出、検量線作成、および、信頼区間推定が順番に独立して実行される。各濃度の試料には秤量誤差、つまり理想濃度からの小さなランダムなズレが含まれるが、各処理が独立して実行されるため、秤量誤差がモデルに反映されない。そのため、推定された信頼区間は、その幅が過小評価される。これに対して、第2の実施の形態においては、階層ベイズモデルを用いることで、秤量誤差の存在を考慮した上で、各濃度のピーク定量と直線フィッティングを同時に行い、秤量誤差をモデルに組み込んだベイズ信頼区間付き検量線を作成することが可能である。
【0062】
(9)第2の実施の形態の適用例・変形例
第2の実施の形態の分析方法は、例えば、液体クロマトグラム、ガスクロマトグラフ、質量分析データなどの分析装置から取得される測定データMDの検量線の作成に適用させることが可能である。
【0063】
第2の実施の形態で利用したシミュレーションデータはガウシアンピークにガウシアンノイズが付加されているデータを例とした。そのため、数2式・数3式で示したベイズモデリングもその設定と同様とした。このようなベイズモデリングは一例であり、上述したように、着目する信号とその信号に付加されているノイズの形状は利用する分析装置や測定方法などに応じて適宜選択することができる。
【0064】
第2の実施の形態においては、試料に含まれる着目の物質が1つであり、その着目する1つの物質のピーク定量値に基づいて検量線を作成した。本実施の形態の分析方法は、ピークの定量値が、複数のピーク定量値の組み合わせ(比など)で表される場合にも適用可能である。
【0065】
第2の実施の形態において推定された検量線はベイズ推論信頼区間を有する。したがって、分析結果としてピーク定量値が得られたとき、検量線から得られる濃度は信頼区間の幅を有している。このため、測定されたピーク定量値の近い2つの試料があったとき、それぞれのピーク定量値から検量線を使って推定された濃度が、重なりの区間を有する場合がある。第2の実施の形態の分析方法では、この重なりの程度から試料間の濃度差の有無または濃度の関係を判定することが可能である。例えばピーク定量値にある程度の差が存在しても、先述の重なりもある程度存在しているような状況であれば、求められた2つの試料の推定濃度差は秤量誤差や信号に載っているノイズによって偶然出現したものに過ぎない、と判断することが可能であろう。
【0066】
(10)態様
上述した複数の例示的な実施の形態は、以下の態様の具体例であることが当業者により理解される。
【0067】
(第1項)
一態様に係る分析方法は、
試料を分析する方法であって、
前記試料の分析結果として、前記試料に基づく第1の信号にノイズに基づく第2の信号が付加された測定データを取得する第1の工程と、
前記第1の信号が従う形状および前記第2の信号が従う形状を仮定し、ベイズ推論により前記測定データをモデル化する第2の工程と、
モデル化された前記測定データに基づいて、前記試料の特性の確率分布を推定する第3の工程と、
を含む。
【0068】
この分析方法によれば信頼性の高い分析結果を得ることが可能である。また、推定結果が分布で取得されるので、推定結果の不確実性を評価することができる。
【0069】
(第2項)
第1項に記載の分析方法において、
前記第3の工程は、
前記測定データにおいて着目する物質由来のピーク位置に関する統計量の確率分布を推定する工程、
を含んでもよい。
【0070】
ピーク位置に関して信頼性の高い分析結果を得ることが可能である。
【0071】
(第3項)
第1項に記載の分析方法において、
前記第3の工程は、
前記測定データにおいて着目する物質由来のピーク定量値に関する統計量の確率分布を推定する工程、
を含んでもよい。
【0072】
ピーク定量値に関して信頼性の高い分析結果を得ることが可能である。
【0073】
(第4項)
第2項または第3項に記載の分析方法において、
前記統計量の確率分布の設定された範囲内での累積確率を算出し、前記累積確率と設定された閾値とを比較することにより、前記物質由来のピークの有無を判定する第4の工程、
を含んでもよい。
【0074】
累積確率と閾値との比較により、ピークの有無の判定を行うことができる。累積確率のスコアにより判定の信頼性も合わせて確認することが可能である。
【0075】
(第5項)
第1項に記載の分析方法において、
前記統計量として、複数の物質由来のピーク定量値に基づく統計量が用いられてもよい。
【0076】
複数の物質が含まれる試料についてピーク定量値に関して信頼性の高い分析結果を得ることが可能である。
【0077】
(第6項)
他の態様に係る診断支援方法は、
第4項に記載の前記第4の工程において、ピークが有ると判断されたとき、対象の疾患に罹患していると判定してもよい。
【0078】
ベイズ推論を利用して疾患の罹患を診断することが可能である。
【0079】
(第7項)
第6項に記載の診断支援方法において、
前記疾患は、感染症を含んでもよい。
【0080】
ベイズ推論を利用して感染症の罹患を診断することが可能である。
【0081】
(第8項)
第1項に記載の分析方法において、
前記第1の工程は、
複数の濃度の試料に対応した複数の測定データを取得する工程、
を含み、
前記第3の工程は、
前記複数の測定データに基づいて、前記試料の検量線に関するベイズ信頼区間を推定する工程、
を含んでもよい。
【0082】
信頼性の高い検量線を得ることが可能である。
【0083】
(第9項)
第8項に記載の分析方法において、
前記第2の工程は、
階層ベイズモデルにより前記複数の測定データをモデル化してもよい。
【0084】
階層ベイズモデルにより、データの不確実性も考慮したモデル化が可能となる。
【0085】
(第10項)
第8項または第9項に記載の分析方法において、
前記第3の工程において推論した前記ベイズ信頼区間の重なりの程度から複数の試料間の濃度の関係を判定してもよい。
【0086】
複数の試料間の関係を判定可能である。
【0087】
(第11項)
第8項または第9項に記載の分析方法において、
前記第3の工程は、
複数の物質由来のピーク定量値に基づく検量線に関するベイズ信頼区間を推定してもよい。
【0088】
複数の物質が含まれる試料についてピーク定量値に関して信頼性の高い検量線を得ることが可能である。
【0089】
(第12項)
第8項または第9項に記載の分析方法において、
前記試料の検量線が線形式で表されてもよい。
【符号の説明】
【0090】
1…コンピュータ、11…CPU、12…RAM、13…ROM、14…操作部、15…ディスプレイ、16…記憶装置、21…取得部、22…モデル化部、23…推定部、24…出力部、P1…プログラム、MD…測定データ