特許7360644 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社メビウスの特許一覧 ▶ 国立大学法人　新潟大学の特許一覧

特許7360644機械学習装置、機械学習方法、糖鎖構造絞込装置およびコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2023-10-04

(45)【発行日】2023-10-13

(54)【発明の名称】機械学習装置、機械学習方法、糖鎖構造絞込装置およびコンピュータプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20231005BHJP

G01N 27/62 20210101ALI20231005BHJP

【ＦＩ】

G06N20/00 130

G01N27/62 D

【請求項の数】 6

(21)【出願番号】P 2022540628

(86)(22)【出願日】2022-06-28

(86)【国際出願番号】 JP2022025757

【審査請求日】2022-06-28

(73)【特許権者】

【識別番号】518352455

【氏名又は名称】株式会社メビウス

(73)【特許権者】

【識別番号】304027279

【氏名又は名称】国立大学法人新潟大学

(74)【代理人】

【識別番号】110003063

【氏名又は名称】弁理士法人牛木国際特許事務所

(72)【発明者】

【氏名】星野崚

(72)【発明者】

【氏名】大泉佑太

(72)【発明者】

【氏名】長束俊治

(72)【発明者】

【氏名】高橋正幸

(72)【発明者】

【氏名】矢野裕史

【審査官】武田広太郎

(56)【参考文献】

【文献】特開平０６－２４９８４１（ＪＰ，Ａ）

【文献】特開２０１４－１６９８７９（ＪＰ，Ａ）

【文献】雲崎翔太郎，機械学習を用いたマススペクトルデータからの糖鎖構造推定法の開発，電子情報通信学会技術研究報告Ｖｏｌ．１１３Ｎｏ．１１１，日本，一般社団法人電子情報通信学会，2013年06月20日，１５７－１５８頁

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

Ｇ０１Ｎ２７／６２

(57)【特許請求の範囲】

【請求項1】

糖鎖構造を特定するための入力データを取得する入力データ取得部と、
前記入力データに対応する既知の糖鎖構造である糖鎖構造データを取得する糖鎖構造データ取得部と、
前記入力データ取得部が取得した前記入力データおよび前記糖鎖構造データ取得部が取得した前記糖鎖構造データの組を教師データとして教師あり学習を行うことにより、糖鎖構造の絞込を行うための学習モデルを構築する学習部と、
を備え、
前記入力データを、質量の値と、グルコースユニット値（ＧＵ値）および／または逆相スケール値として、前記学習部が糖鎖構造の絞込を行うための前記学習モデルとして第１学習モデルを構築し、
前記入力データを、断片質量の値と、ＭＳ／ＭＳスペクトルのピーク強度比と、前記第１学習モデルを使用して絞り込まれた糖鎖構造の糖鎖構造データとして、前記学習部が糖鎖構造の絞込を行うための前記学習モデルとして第２学習モデルを構築する、機械学習装置。

【請求項2】

前記糖鎖構造データが、前記入力データを、前記入力データと前記入力データに対応する糖鎖構造とのデータベースであるマスタデータと照合することにより、前記入力データから絞り込まれた糖鎖構造である、請求項１に記載の機械学習装置。

【請求項3】

機械学習装置が行う機械学習方法であって、
糖鎖構造を特定するための第１入力データとして質量の値と、グルコースユニット値（ＧＵ値）および／または逆相スケール値とを取得する第１入力データ取得ステップと、
前記第１入力データに対応する既知の糖鎖構造である第１糖鎖構造データを取得する第１糖鎖構造データ取得ステップと、
前記第１入力データ取得ステップで取得した前記第１入力データおよび前記第１糖鎖構造データ取得ステップで取得した前記第１糖鎖構造データの組を教師データとして教師あり学習を行うことにより、糖鎖構造の特定を行うための第１学習モデルを構築する第１学習ステップと、
糖鎖構造を特定するための第２入力データとして断片質量の値と、ＭＳ／ＭＳスペクトルのピーク強度比と、前記第１学習モデルを使用して絞り込まれた糖鎖構造の糖鎖構造データとを取得する第２入力データ取得ステップと、
前記第２入力データに対応する既知の糖鎖構造である第２糖鎖構造データを取得する第２糖鎖構造データ取得ステップと、
前記第２入力データ取得ステップで取得した前記第２入力データおよび前記第２糖鎖構造データ取得ステップで取得した前記第２糖鎖構造データの組を教師データとして教師あり学習を行うことにより、糖鎖構造の特定を行うための第２学習モデルを構築する第２学習ステップと、
を含む機械学習方法。

【請求項4】

前記第１および第２糖鎖構造データが、前記第１および第２入力データを、前記第１および第２入力データと前記第１および第２入力データに対応する糖鎖構造とのデータベースであるマスタデータと照合することにより、前記第１および第２入力データから絞り込まれた糖鎖構造である、請求項３に記載の機械学習方法。

【請求項5】

入力データを取得する入力部と、
前記入力部で取得した前記入力データについて、請求項１または２に記載の機械学習装置によって構築された学習モデルを使用して、糖鎖構造の絞込を行う糖鎖構造絞込部と、
を備える糖鎖構造絞込装置。

【請求項6】

コンピュータを、請求項１または２に記載の機械学習装置として機能させるコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、糖鎖構造を絞り込むための機械学習装置、機械学習方法、糖鎖構造絞込装置およびコンピュータプログラムに関する。

【背景技術】

【0002】

従来、糖鎖にプラスチャージイオンを付加して飛行時間型質量分析装置による質量分析を行い、糖タンパク質等における糖鎖構造を解析する方法が提案されている（例えば、特許文献１）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００５－３００４２０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１の解析方法では、糖鎖シーケンスを求めることはできるが、糖鎖における分岐構造を自動的に決定することができなかった。

【0005】

本発明は、このような事情に鑑みてなされたものであり、入力データの入力により自動で糖鎖構造の分岐構造まで絞込が可能な学習モデルを構築する機械学習装置、機械学習方法およびコンピュータプログラム、ならびに、当該機械学習装置、機械学習方法およびコンピュータプログラムを用いた糖鎖構造絞込装置を提供する。

【課題を解決するための手段】

【0006】

本発明はかかる課題を解決するため、糖鎖構造を特定するための入力データを取得する入力データ取得部と、前記入力データに対応する既知の糖鎖構造である糖鎖構造データを取得する糖鎖構造データ取得部と、前記入力データ取得部が取得した前記入力データおよび前記糖鎖構造データ取得部が取得した前記糖鎖構造データの組を教師データとして教師あり学習を行うことにより、糖鎖構造の絞込を行うための学習モデルを構築する学習部と、を備える、機械学習装置を提供する。

【0007】

前記機械学習装置では、前記入力データが、質量の値と、グルコースユニット値（ＧＵ値）および／または逆相スケール値であり、前記学習部が糖鎖構造の絞込を行うための前記学習モデルとして第１学習モデルを構築する、としてもよい。

【0008】

前記機械学習装置では、前記入力データが、断片質量の値と、ＭＳ／ＭＳスペクトルのピーク強度比と、前記第１学習モデルを使用して絞り込まれた糖鎖構造の糖鎖構造データであり、前記学習部が糖鎖構造の絞込を行うための前記学習モデルとして第２学習モデルを構築する、としてもよい。

【0009】

前記機械学習装置では、前記糖鎖構造データが、前記入力データを、前記入力データと前記入力データに対応する糖鎖構造とのデータベースであるマスタデータと照合することにより、前記入力データから絞り込まれた糖鎖構造である、としてもよい。

【0010】

また本発明は、機械学習装置が行う機械学習方法であって、糖鎖構造を特定するための入力データを取得する入力データ取得ステップと、前記入力データに対応する既知の糖鎖構造である糖鎖構造データを取得する糖鎖構造データ取得ステップと、前記入力データ取得ステップで取得した前記入力データおよび前記糖鎖構造データ取得ステップで取得した前記糖鎖構造データの組を教師データとして教師あり学習を行うことにより、糖鎖構造の特定を行うための学習モデルを構築する学習ステップと、を含む、機械学習方法を提供する。

【0011】

前記機械学習方法では、前記入力データが、質量の値と、グルコースユニット値（ＧＵ値）および／または逆相スケール値であり、前記学習ステップにおいて、糖鎖構造の絞込を行うための前記学習モデルとして第１学習モデルを構築する、としてもよい。

【0012】

前記機械学習方法では、前記入力データが、断片質量の値と、ＭＳ／ＭＳスペクトルのピーク強度比と、前記第１学習モデルを使用して絞り込まれた糖鎖構造の糖鎖構造データであり、前記学習ステップにおいて、糖鎖構造の絞込を行うための前記学習モデルとして第２学習モデルを構築する、としてもよい。

【0013】

前記機械学習方法では、前記糖鎖構造データが、前記入力データを、前記入力データと前記入力データに対応する糖鎖構造とのデータベースであるマスタデータと照合することにより、前記入力データから絞り込まれた糖鎖構造である、としてもよい。

【0014】

また本発明は、入力データを取得する入力部と、前記入力部で取得した前記入力データについて、前記機械学習装置によって構築された学習モデルを使用して、糖鎖構造の絞込を行う糖鎖構造絞込部と、を備える糖鎖構造絞込装置を提供する。

【0015】

また本発明は、入力データから糖鎖構造を絞り込むための糖鎖構造特定装置に適用する学習モデルを構築するための教師データであって、質量の値と、グルコースユニット値（ＧＵ値）および／または逆相スケール値である前記入力データ、および、前記入力データに対応する既知の糖鎖構造である糖鎖構造データ、を含む教師データを提供する。

【0016】

また本発明は、入力データから糖鎖構造を絞り込むための糖鎖構造特定装置に適用する学習モデルを構築するための教師データであって、断片質量の値と、ＭＳ／ＭＳスペクトルのピーク強度比と、学習モデルを使用して絞り込まれた糖鎖構造の糖鎖構造データである前記入力データ、および、前記入力データに対応する既知の糖鎖構造である糖鎖構造データ、を含む教師データを提供する。

【0017】

また本発明は、コンピュータを、前記機械学習装置として機能させるコンピュータプログラムを提供する。

【発明の効果】

【0018】

本発明の機械学習装置、機械学習方法、糖鎖構造絞込装置およびコンピュータプログラムによれば、入力データの入力により自動で糖鎖構造の分岐構造まで絞込が可能である。

【図面の簡単な説明】

【0019】

【図1】本発明の好適な実施形態に係る機械学習装置および糖鎖構造絞込装置の概略構成を示すブロック図である。

【図2】コンピュータプログラムをインストールして、コンピュータを本発明の好適な実施形態に係る機械学習装置として機能させる一例を概略的に示すブロック図である。

【図3】コンピュータプログラムをインストールして、コンピュータを本発明の好適な実施形態に係る糖鎖構造絞込装置２として機能させる一例を概略的に示すブロック図である。

【図4】本発明の好適な実施形態に係るマスタデータの構成の一例を示す図である。

【図5】ＨＰＬＣ解析結果の一例を示すグラフ図である。

【図6】ＭＳ解析結果の一例を示すグラフ図である。

【図7】ＭＳ／ＭＳ解析結果の一例を示すグラフ図である。

【図8】ニューラルネットワークモデルにおけるニューラルネットワークの概略構成を示す説明図である。

【図9】本発明の好適な実施形態に係る学習モデルの構築の流れを示すフローチャートである。

【図10】本発明の好適な実施形態に係る糖鎖構造絞込装置の動作を示すフローチャートである。

【発明を実施するための形態】

【0020】

以下、図面を参照して、本発明の機械学習装置、機械学習方法、糖鎖構造絞込装置およびコンピュータプログラムの好適な実施形態について説明する。ただし、本発明は、以下の記載に限定されるものではなく、特許請求の範囲に記載され、または、発明を実施するための形態に開示された発明の要旨に基づき、当業者において様々な変形や変更が可能である。そのような変形や変更もまた、本発明の範囲に含まれる。

【0021】

＜機械学習装置の構成＞
図１は、本発明の好適な実施形態に係る機械学習装置１および糖鎖構造絞込装置２の概略構成を示すブロック図である。機械学習装置１は、糖鎖構造を特定するための入力データ３を取得する入力データ取得部４と、入力データ３に対応する既知の糖鎖構造である糖鎖構造データ５を取得する糖鎖構造データ取得部６と、入力データ取得部４が取得した入力データ３および糖鎖構造データ取得部６が取得した糖鎖構造データ５の組を教師データとして教師あり学習を行うことにより、糖鎖構造の絞込を行うための学習モデルを構築する学習部７と、を備える。

【0022】

学習部７で構築された学習モデルは、学習モデル記憶部８に保存される。学習モデルを構築した後に新たな教師データを取得した場合には、学習モデル記憶部８が記憶した学習モデルに対して教師あり学習を追加して行い、一度構築した学習モデルを更新して、新たな学習モデルを学習モデル記憶部８に保存するようにしてもよい。

【0023】

図２は、コンピュータプログラムをインストールして、コンピュータを本実施形態の機械学習装置１として機能させる一例を概略的に示すブロック図である。当該機械学習装置１は、例えばＣＰＵ（中央演算装置）12を有するコンピュータ11において、例えばＨＤＤ（ハードディスク駆動装置）からなる記憶部13に、コンピュータプログラム（ソフトウェア）14をインストールすることによって実現される。機械学習装置１の機能は、コンピュータ11のハードウェア資源とコンピュータプログラム14のソフトウェアとが協働して実現される。コンピュータプログラム14は、入出力等の制御を行う他、糖鎖構造の絞込を行うための学習モデルを構築する学習部７として機能することができ、コンピュータ11を、本実施形態の機械学習装置１として機能させる。教師あり学習においては演算量が多くなるため、機械学習装置１は例えばＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）をさらに備えるようにしてもよい。記憶部13は、学習部７で構築された学習モデル（第１学習モデル31、第２学習モデル32）を保存する学習モデル記憶部８を含む。

【0024】

コンピュータプログラム14のソースコードを、コンピュータ11で読み取り可能な記録媒体（図示せず）に記録する構成とすることもできる。これにより、本実施形態の機械学習方法を用いて機械学習を行うためのコンピュータプログラムを記録した、持ち運び自在な記録媒体を提供することができる。記録媒体としては、例えば、磁気テープ、または、ＦＤやＨＤＤ等の磁気ディスク、ＣＤ－ＲＯＭやＭＯ、ＤＶＤ等の光ディスク、ＵＳＢメモリ等の半導体メモリを用いた記録媒体等が挙げられる。

【0025】

ＣＰＵ（ＧＰＵ）12は、コンピュータプログラム14に基づき様々な演算処理を実行する。コンピュータプログラム14は、上記の可搬性の記録媒体から記憶部13に取り込まれてもよく、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットといったコンピュータネットワークから記憶部13に取り込まれてもよい。ＣＰＵ12と記憶部13とは例えばバス15で相互に接続される。バス15には、さらに入力インターフェース16、出力インターフェース17、およびバッファ部18が接続される。

【0026】

入力インターフェース16は、入力データ３や糖鎖構造データ５を機械学習装置１に入力する一種のインターフェースとして機能するものであり、例えばキーボードやマウス等の入力装置161に接続される。

【0027】

出力インターフェース17は、例えばディスプレイ等の表示装置171に接続される。この出力インターフェース17を介して、機械学習装置１に取り込まれた入力データ３および糖鎖構造データ５や、コンピュータプログラム14による演算結果等が、表示装置171に表示される。

【0028】

バッファ部18は、例えばＲＡＭにより構成され、コンピュータプログラム14の演算処理に必要なデータを一時的に格納する。例えば、バッファ部18は、入力インターフェース16から入力された入力データ３および糖鎖構造データ５を格納する。すなわち、バッファ部18は、入力データ３を取得する入力データ取得部４、および、糖鎖構造データ５を取得する糖鎖構造データ取得部６として機能することができる。格納された入力データ３および糖鎖構造データ５は、コンピュータプログラム14による演算処理に使用される。なお、入力データ３および糖鎖構造データ５は、記憶部13に保存するようにしてもよい。また、入力データ３および糖鎖構造データ５は、コンピュータプログラム14の指示により、記憶部13に保存されたマスタデータ33からバッファ部18に呼び出すようにしてもよい。

【0029】

＜糖鎖構造絞込装置の構成＞
糖鎖構造絞込装置２は、入力データ３を取得する入力部９と、入力部９で取得した入力データ３について、機械学習装置１によって構築された学習モデルを用いて、糖鎖構造の絞込を行う糖鎖構造絞込部10と、を備える。糖鎖構造絞込装置２で使用する入力データ３は、機械学習装置１で使用する入力データ３と区別せずに、同じ入力データ３として説明する。

【0030】

図３は、コンピュータプログラムをインストールして、コンピュータを本実施形態の糖鎖構造絞込装置２として機能させる一例を概略的に示すブロック図である。当該糖鎖構造絞込装置２は、例えばＣＰＵ（中央演算装置）22を有するコンピュータ21において、例えばＨＤＤ（ハードディスク駆動装置）からなる記憶部23に、コンピュータプログラム（ソフトウェア）24をインストールすることによって実現される。糖鎖構造絞込装置２の機能は、コンピュータ21のハードウェア資源とコンピュータプログラム24のソフトウェアとが協働して実現される。コンピュータプログラム24は、入出力等の制御を行う他、機械学習装置１によって構築された学習モデルを用いて、糖鎖構造の絞込を行う糖鎖構造絞込部10として機能することができる。記憶部23は、糖鎖構造の絞込を行うための学習モデル（第１学習モデル31、第２学習モデル32）や、マスタデータ33、絞込結果としての糖鎖構造34を保存する。

【0031】

コンピュータプログラム24のソースコードを、コンピュータ21で読み取り可能な記録媒体（図示せず）に記録する構成とすることもできる。これにより、本実施形態の機械学習方法を用いて構築した学習モデルにより糖鎖構造の絞込を行うためのコンピュータプログラムを記録した、持ち運び自在な記録媒体を提供することができる。記録媒体としては、例えば、磁気テープ、または、ＦＤやＨＤＤ等の磁気ディスク、ＣＤ－ＲＯＭやＭＯ、ＤＶＤ等の光ディスク、ＵＳＢメモリ等の半導体メモリを用いた記録媒体等が挙げられる。

【0032】

ＣＰＵ22は、コンピュータプログラム24に基づき様々な演算処理を実行する。コンピュータプログラム24は、上記の可搬性の記録媒体から記憶部23に取り込まれてもよく、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットといったコンピュータネットワークから記憶部23に取り込まれてもよい。ＣＰＵ22と記憶部23とは例えばバス25で相互に接続される。バス25には、さらに入力インターフェース26、出力インターフェース27、およびバッファ部28が接続される。

【0033】

入力インターフェース26は、入力データ３やマスタデータ33を糖鎖構造絞込装置２に入力する一種のインターフェースとして機能するものであり、例えばキーボードやマウス等の入力装置261に接続される。

【0034】

出力インターフェース27は、例えばディスプレイ等の表示装置271に接続される。この出力インターフェース27を介して、糖鎖構造絞込装置２に取り込まれた入力データ３およびマスタデータ33や、絞り込まれた糖鎖構造34等が、表示装置171に表示される。

【0035】

バッファ部28は、例えばＲＡＭにより構成され、コンピュータプログラム24の演算処理に必要なデータを一時的に格納する。例えば、バッファ部28は、入力インターフェース26から入力された入力データ３を格納する。すなわち、バッファ部28は、入力データ３を取得する入力部９として機能することができる。格納された入力データ３は、コンピュータプログラム24による演算処理に使用される。なお、入力データ３は、記憶部23に保存するようにしてもよい。

【0036】

＜質量分析＞
質量分析法（ＭａｓｓＳｐｅｃｔｒｏｍｅｔｒｙ）には、試料をイオン化してそのまま分析する方法（ＭＳ）と、特定の試料イオン（親イオン）を質量選択し、それを解離させて生成した解離イオンを質量分析するタンデム質量分析法（ＭＳ／ＭＳ）とがある。質量分析装置は、試料分子に電荷を付加してイオン化を行い、生成したイオンを電場または磁場により質量電荷比に分離し、その量を検出器にて電流値として計測する機器である。質量分析装置の前に液体クロマトグラフ（ＬＣ：ＬｉｑｕｉｄＣｈｒｏｍａｔｏｇｒａｐｈ）部を連結した液体クロマトグラフィー／質量分析法（ＬＣ／ＭＳ）は、混合物をＬＣで分離しながら、ＭＳにより質量を測定する方法である。ＬＣ部には、高速液体クロマトグラフ（ＨＰＬＣ：ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＬｉｑｕｉｄＣｈｒｏｍａｔｏｇｒａｐｈ）が使用される。特定のイオンを選別して、開裂後さらに断片イオンの質量を測定するＭＳ／ＭＳや、その過程を繰り返す多段階ＭＳ（ＭＳ^ｎ）を行うと、さらに構造情報が得られる。

【0037】

ＭＳ／ＭＳでは、分子イオンを質量分析装置に取り込み、特定質量電荷比の分子イオンを選択し、選択した分子イオンと中性分子との衝突を起こすことにより、分子イオンの一部の結合を破壊し、結合の切れたイオンを測定する。この中性分子と衝突させ分子イオンの結合を切る方法の一つに衝突誘起解離（ＣＩＤ：ＣｏｌｌｉｓｉｏｎＩｎｄｕｃｅｄＤｉｓｓｏｃｉａｔｉｏｎ）がある。イオン選択、衝突誘起解離の一連の操作の繰返し回数によってＭＳ^２やＭＳ^３等と呼ぶ。分子中の原子間の結合はその構造や結合の種類によって結合エネルギーが異なるため、結合エネルギーが低い箇所ほど衝突誘起解離によって切断されやすい傾向にある。分子イオンと中性分子との衝突時に、結合を切断するのに十分な運動エネルギーを分子イオンに与えることにより、特有のフラグメントイオンが優先して生成し、分子イオンの構造を知ることができる。さらに、イオンを選択して開裂することから、開裂後のイオンの質量電荷比領域におけるノイズが小さく、信号強度とノイズの比（Ｓ／Ｎ比）が向上する。ＭＳ／ＭＳでは、イオン選択および衝突誘起解離を１回以上行った後、質量分離を行う。

【0038】

上記のＭＳで得られるＭＳスペクトルは、測定する試料の質量によって異なり、そのＭＳスペクトルから試料の成分や量の情報を得ることができる。ＭＳ／ＭＳで得られるＭＳ／ＭＳスペクトルパターンは、糖鎖の分岐構造や結合様式により異なる場合が多い。

【0039】

＜マスタデータ＞
マスタデータ33は、教師データに使用したり、糖鎖構造を絞り込む際に参照したりする糖鎖構造のデータベースである。図４にマスタデータ33の構成の一例を示す。マスタデータ33は、少なくとも質量の値と、グルコースユニット値（ＧＵ値）および／または逆相スケール値と、組成情報と、構造情報とを含む。組成情報は、糖と置換基の種類および糖と置換基の数の情報を含むものである。構造情報は、糖と置換基の種類および糖と置換基の数の情報に、糖のアイソマー情報と、結合様式と、分岐構造の情報を加えたものである。糖鎖構造データ５は、組成情報および構造情報で構成される。

【0040】

図５は、ＨＰＬＣ解析結果の一例を示すグラフ図である。溶出時間に対して、複数のピークが見られる。図６は、ＭＳ解析結果の一例を示すグラフ図である。

【0041】

（質量）
図６のＭＳスペクトルの大きいピーク中、最も左に位置するモノアイソトピック・ピークの質量電荷比を確認する。当該モノアイソトピック・ピークと、当該ピークに近接する同位体ピークとの差分から、イオン価数を算出する。質量電荷比と価数を掛け合わせた値から、付加イオンの質量を差し引くことで、質量が算出される。

【0042】

（ＧＵ値および逆相スケール値）
ＧＵ値は、グルコースユニット法によりＬＣにおける溶出時間の標準化を行ったものであって、各ピークの検出時間とグルコースオリゴマーの検出時間とを比較することで得られる値である。ＧＵ値は、糖鎖構造によって固有の値であるため、データベースと照合することで糖鎖構造を推定することができる。ＧＵ値を算出する定量計算式の係数は測定ごとに若干変動するが、定量計算式は溶出時間の関数となる。

【0043】

逆相スケール値は、逆相スケール法によりＬＣにおける溶出時間の標準化を行ったものであって、ＧＵ値と同様に糖鎖構造によって固有の値である。逆相スケール値は、ＧＵ値に比べて変動が少ないので、構造推定の精度が高い。

【0044】

ＨＰＬＣ解析結果において、糖鎖構造を推定するピークに対して、ＧＵ値および／または逆相スケール値を計算する。上記のＭＳスペクトルから算出する質量と、ＧＵ値および／または逆相スケール値とから、糖鎖構造を推定することができる。例えば、算出した質量、ならびに、ＧＵ値および／または逆相スケール値をデータベースと照合することで、糖鎖構造が決定される。したがって、教師データとして、入力データ３に質量の値と、ＧＵ値および／または逆相スケール値、出力データに糖鎖構造データ５を用いることができる。

【0045】

算出した質量、ならびに、ＧＵ値および／または逆相スケール値をデータベースと照合して、該当する糖鎖構造がない場合には、酵素消化等の他の方法で分岐構造と結合様式を決定して、糖鎖構造を決定する。決定の際には、周知の糖鎖の生合成経路の知見を合わせるようにしてもよい。

【0046】

（断片質量）
マスタデータ33は、さらに断片質量を含んでもよい。断片質量は、ＭＳ／ＭＳ解析結果（図７を参照）に基づいて、断片の元になった糖鎖構造と質量電荷比とから算出される。例えば断片質量が大きい場合、質量が大きい糖鎖構造が候補として選ばれやすくなる。

【0047】

（ピーク強度比）
マスタデータ33は、さらにＭＳ／ＭＳスペクトルのピーク強度比を含んでもよい。ピーク強度比は、ピークの傾向を定量化してピークの順位を決定するためのものであり、ＭＳ／ＭＳスペクトルの各ピークに対し、ピーク強度をピーク全てのピーク強度の合算値で除算して算出される。ピークの順位情報は、糖鎖構造が断片化する際の優先順位に依存するので、その情報から元の糖鎖構造を推定することができる。糖鎖構造内のある結合が弱いと、その結合が優先的に切れて断片化しやすいので、その断片のピーク強度は大きくなり、該当するピークの順位は高くなる。この関係により、逆説的に糖鎖構造の結合位置を推定する。例えばピーク強度比が小さい（ピーク強度が大きい）等の情報により、糖鎖構造の分岐構造をある程度推定することができる。

【0048】

上記の断片質量のみ、またはピーク強度比のみで糖鎖構造を推定するのではなく、断片質量とピーク強度比との組み合わせで糖鎖構造を推定すると、より精度よく糖鎖構造を絞り込むことができる。したがって、教師データとして、入力データ３に断片質量の値と、ピーク強度比と、学習モデルを使用して絞り込まれた糖鎖構造データ、出力データに糖鎖構造データ５を用いることができる。

【0049】

＜第１学習モデル＞
第１学習モデル31は、糖鎖構造を例えば数十件程度に絞り込むための機械学習モデルである。第１学習モデル31の構築において、入力データ３は、質量の値と、ＧＵ値および／または逆相スケール値である。上記のように、質量とＧＵ値および／または逆相スケール値とから糖鎖構造を推定できるので、教師データの入力データとしての入力データ３である質量の値、ならびに、ＧＵ値および／または逆相スケール値と、教師データの出力データとしての糖鎖構造データ５との相関関係を学習する。

【0050】

第１学習モデル31を構築するための教師データの出力データとしての糖鎖構造データ５は、入力データ３を、入力データ３と入力データ３に対応する糖鎖構造とのデータベースであるマスタデータ33と照合することにより、入力データ３から絞り込まれた糖鎖構造とすることが好ましい。ここでの入力データ３は、質量の値と、ＧＵ値および／または逆相スケール値である。

【0051】

＜第２学習モデル＞
第２学習モデル32は、第１学習モデル31を使用して絞り込んだ複数の糖鎖構造の中から、さらに１～５件程度の糖鎖構造に絞り込むための機械学習モデルである。第２学習モデル32の構築において、入力データ３は、断片質量の値と、ＭＳ／ＭＳスペクトルのピーク強度比と、第１学習モデル31で絞り込んだ糖鎖構造34である。上記のように、断片質量の値と、ＭＳ／ＭＳスペクトルのピーク強度比とから糖鎖構造を推定できるので、教師データの入力データとしての入力データ３である断片質量の値、ＭＳ／ＭＳスペクトルのピーク強度比、および、第１学習モデル31で絞り込んだ糖鎖構造34と、教師データの出力データとしての糖鎖構造データ５との相関関係を学習する。

【0052】

第２学習モデル32を構築するための教師データの出力データとしての糖鎖構造データ５は、入力データ３を、入力データ３と入力データ３に対応する糖鎖構造とのデータベースであるマスタデータ33と照合することにより、入力データ３から絞り込まれた糖鎖構造とすることが好ましい。ここでの入力データ３は、断片質量の値と、ＭＳ／ＭＳスペクトルのピーク強度比と、第１学習モデル31で絞り込んだ糖鎖構造34である。

【0053】

＜教師あり学習＞
機械学習装置１は、入力データとして入力データ３、出力データとして糖鎖構造データ５を使用して、教師あり学習を行う。教師あり学習は、例えばニューラルネットワークモデルによる機械学習の他、周知の機械学習により行うことができる。教師あり学習の一例として、ニューラルネットワークモデルによる機械学習について、図８を参照しながら説明する。

【0054】

図８に示すニューラルネットワークモデルにおけるニューラルネットワークは、入力層にあるｎ個のニューロン（Ｘ_００～Ｘ_０ｎ）、第１～第ｎ中間層にあるｎ×ｎ個のニューロン（Ｙ_００～Ｙ_ｎｎ）、および、出力層にあるｎ個のニューロン（Ｚ_００～Ｚ_０ｎ）から構成されている。第１～第ｎ中間層は、隠れ層とも呼ばれており、ニューラルネットワークとしては、第１中間層のみを隠れ層とするものであってもよい。なお、図８では、出力層が複数個となっているが、出力データとしての糖鎖構造が一義に決まる場合、１個のみとすることもできる。

【0055】

入力層と第１中間層との間、第１～第ｎ中間層の各々、第ｎ中間層と出力層との間には、層間のニューロンを接続するノードが張られており、それぞれのノードには、重みが対応付けられている。

【0056】

本実施形態のニューラルネットワークモデルにおけるニューラルネットワークでは、入力データ３が入力層のニューロンに対応付けられ、出力層にあるニューロンの値を、一般的なニューラルネットワークの出力値の算出方法で算出する。すなわち、当該ニューロンに接続される入力側のニューロンの値と、出力側のニューロンと入力側のニューロンとを接続するノードに対応付けられた重みとの乗算値の数列の和として算出することを、入力層にあるニューロン以外の全てのニューロンに対して行う方法を用いることで、出力側のニューロンの値を算出する。

【0057】

入力層にあるｎ個のニューロンＸ_０１～Ｘ_０ｎの値と、算出された出力層にあるｎ個のニューロンＺ_０１～Ｚ_０ｎの値、すなわち、本実施形態では入力データ３と教師データの糖鎖構造データ６の各々とを、それぞれ比較して誤差を求め、求められた誤差が小さくなるように、各ノードに対応付けられた重みを調整する（バックプロバケーション）ことを反復する。

【0058】

上述した一連の工程を所定回数反復実施すること、あるいは上記の誤差が許容値より小さくなること等の所定の条件が満たされた場合には、学習を終了して、そのニューラルネットワーク、すなわち、ノードのそれぞれに対応付けられた全ての重みを、学習モデルとして学習モデル記憶部８に記憶する。

【0059】

＜学習モデルの構築＞
図９は、本発明の好適な実施形態に係る学習モデルの構築の流れを示すフローチャートである。第１学習モデル31および第２学習モデル32の構築は、使用する教師データが異なるだけで、以下に示す同様の流れで行われる。

【0060】

まず、ステップＳ１１で、入力データ取得部４は、入力データ３を取得する。入力データ取得部４は、入力データ３を学習部７に出力する。

【0061】

次に、ステップＳ１２で、糖鎖構造データ取得部６は、入力データ３に関連付けられた糖鎖構造データ５を取得する。糖鎖構造データ取得部６は、糖鎖構造データ５を入力データ３と関連付けて学習部７に出力する。なお、ステップＳ１１およびステップＳ１２の２つのステップは、ステップＳ１２を先に行っても、同時に並列で行ってもよい。

【0062】

次に、ステップＳ１３で、学習部７は、入力データ３およびこれに対応する糖鎖構造データ５の各データを組として、教師データを生成する。

【0063】

次に、ステップＳ１４で、学習部７は、ステップＳ１３で生成した教師データに基づいて機械学習を行う。この機械学習は、教師あり学習であり、例えば上記のニューラルネットワークモデルに基づいて行われる。

【0064】

次に、ステップＳ１５で、学習部７は、機械学習を終了するか否かを判定する。終了判定の条件は、例えば、教師あり学習を所定の回数行ったこと等とすることができる。

【0065】

機械学習を終了する条件が満たされていない場合は、ステップＳ１１に戻り、機械学習が繰り返される。機械学習を終了する条件が満たされていれば、ステップＳ１６に進み、構築した学習モデルを学習モデル記憶部８に記憶させて保存する。

【0066】

＜糖鎖構造の絞込＞
図１０は、本発明の好適な実施形態に係る糖鎖構造絞込装置２の動作を示すフローチャートである。

【0067】

まず、ステップＳ２１で、入力部９が、必要に応じて入力情報処理を行う。例えば、ＭＳ解析結果から、質量を算出する。また、例えば、ＨＰＬＣ解析結果から、ＧＵ値および／または逆相スケール値を算出する。また、例えば、ＭＳ／ＭＳ解析結果から、断片質量、および、ＭＳ／ＭＳスペクトルのピーク強度比を算出する。断片質量、および、ＭＳ／ＭＳスペクトルのピーク強度比を算出する入力情報処理は、算出結果をステップＳ２６での入力データ３として使用するため、後述するステップＳ２５の後に行うようにしてもよい。

【0068】

次に、ステップＳ２２で、入力部９が入力データ３を取得する。

【0069】

次に、ステップＳ２３で、糖鎖構造絞込部10が、入力データ３をマスタデータ33と照合する。ここでの入力データ３は、例えば、質量の値と、ＧＵ値および／または逆相スケール値である。

【0070】

次に、ステップＳ２４で、糖鎖構造絞込部10が、マスタデータ33に一致する既存の糖鎖構造がないか判定する。

【0071】

ステップ２４で一致する既存の糖鎖構造があると判定された場合、ステップＳ２７で、絞り込まれた糖鎖構造34を糖鎖構造絞込装置２の記憶部23に記憶する。

【0072】

ステップ２４で一致する既存の糖鎖構造がないと判定された場合、ステップＳ２５で、糖鎖構造絞込部10は、第１学習モデル31を使用して、入力データ３から糖鎖構造の絞り込みを行う。ここでの入力データ３は、質量の値と、ＧＵ値および／または逆相スケール値であり、入力部９が入力データ３を取得して、糖鎖構造絞込部10が入力データ３を用いて演算を行う。当該ステップＳ２５では、例えば数十件程度の糖鎖構造34に絞り込まれる。ここで、絞り込まれた糖鎖構造34を糖鎖構造絞込装置２の記憶部23に記憶するようにしてもよい。

【0073】

次に、ステップＳ２６で、糖鎖構造絞込部10は、第２学習モデル32を使用して、入力データ３から糖鎖構造の絞り込みを行う。ここでの入力データ３は、断片質量の値と、ＭＳ／ＭＳスペクトルのピーク強度比と、第１学習モデル31で絞り込んだ糖鎖構造34であり、入力部９が入力データ３を取得して、糖鎖構造絞込部10が入力データ３を用いて演算を行う。当該ステップＳ２６では、例えば１～５件程度の糖鎖構造34に絞り込まれる。

【0074】

次に、ステップＳ２７で、ステップＳ２６で絞り込まれた糖鎖構造34を糖鎖構造絞込装置２の記憶部23に記憶する。

【0075】

最後に、ステップＳ２８で、絞込を終了するか否か判定し、終了しない場合は再度絞込を行い、終了する場合は絞込を終了する。

【0076】

以上のように、各入力データ３についての糖鎖構造データ５を教師データとした教師あり学習により学習モデルを構築する本実施形態の機械学習装置１および機械学習方法を用いることで、任意の入力データ３について、いずれの糖鎖構造34が該当するか、糖鎖構造絞込装置２により自動で絞込を行うことができるようになる。

【符号の説明】

【0077】

１機械学習装置
２糖鎖構造絞込装置
３入力データ
４入力データ取得部
５糖鎖構造データ
６糖鎖構造データ取得部
７学習部
８学習モデル記憶部
９入力部
10 糖鎖構造絞込部
14 コンピュータプログラム
24 コンピュータプログラム
31 第１学習モデル
32 第２学習モデル
33 マスタデータ
34 糖鎖構造

【要約】

入力データの入力により自動で糖鎖構造の分岐構造まで絞込が可能な学習モデルを構築する機械学習装置１、機械学習方法およびコンピュータプログラム、ならびに、当該機械学習装置１、機械学習方法およびコンピュータプログラムを用いた糖鎖構造絞込装置２を提供する。機械学習装置１は、糖鎖構造を特定するための入力データ３を取得する入力データ取得部４と、入力データ３に対応する既知の糖鎖構造である糖鎖構造データ５を取得する糖鎖構造データ取得部６と、入力データ取得部４が取得した入力データ３および糖鎖構造データ取得部６が取得した糖鎖構造データ５の組を教師データとして教師あり学習を行うことにより、糖鎖構造の絞込を行うための学習モデルを構築する学習部７と、を備える。

【図1】