IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特開2024-10374情報処理システム、学習装置、方法及びプログラム
<>
  • 特開-情報処理システム、学習装置、方法及びプログラム 図1
  • 特開-情報処理システム、学習装置、方法及びプログラム 図2
  • 特開-情報処理システム、学習装置、方法及びプログラム 図3
  • 特開-情報処理システム、学習装置、方法及びプログラム 図4
  • 特開-情報処理システム、学習装置、方法及びプログラム 図5
  • 特開-情報処理システム、学習装置、方法及びプログラム 図6
  • 特開-情報処理システム、学習装置、方法及びプログラム 図7
  • 特開-情報処理システム、学習装置、方法及びプログラム 図8
  • 特開-情報処理システム、学習装置、方法及びプログラム 図9
  • 特開-情報処理システム、学習装置、方法及びプログラム 図10
  • 特開-情報処理システム、学習装置、方法及びプログラム 図11
  • 特開-情報処理システム、学習装置、方法及びプログラム 図12
  • 特開-情報処理システム、学習装置、方法及びプログラム 図13
  • 特開-情報処理システム、学習装置、方法及びプログラム 図14
  • 特開-情報処理システム、学習装置、方法及びプログラム 図15
  • 特開-情報処理システム、学習装置、方法及びプログラム 図16
  • 特開-情報処理システム、学習装置、方法及びプログラム 図17
  • 特開-情報処理システム、学習装置、方法及びプログラム 図18
  • 特開-情報処理システム、学習装置、方法及びプログラム 図19
  • 特開-情報処理システム、学習装置、方法及びプログラム 図20
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024010374
(43)【公開日】2024-01-24
(54)【発明の名称】情報処理システム、学習装置、方法及びプログラム
(51)【国際特許分類】
   C12M 1/34 20060101AFI20240117BHJP
   C12M 1/00 20060101ALI20240117BHJP
   C12Q 1/04 20060101ALI20240117BHJP
   C12Q 1/6869 20180101ALI20240117BHJP
【FI】
C12M1/34 A
C12M1/00 A
C12M1/34 B
C12Q1/04
C12Q1/6869 Z
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2022111678
(22)【出願日】2022-07-12
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1) 発行日(公開日) 令和4年2月28日 刊行物 第16回日本ゲノム微生物学会年会 要旨集 *オンライン会議ツール・LincBiz内で年会参加者のみに公開。 <資 料>第16回日本ゲノム微生物学会年会 要旨集 掲載研究要旨 (2) 開催日(公開日) 令和4年3月2日 集会名・開催場所 第16回日本ゲノム微生物学会年会(完全オンライン開催)(会期:令和4年3月2日~4日) 日本ゲノム微生物学会 主催 *オンライン会議ツール・LincBizによるポスター発表。 <資 料>第16回日本ゲノム微生物学会年会 開催概要 <資 料>第16回日本ゲノム微生物学会年会 プログラム <資 料>第16回日本ゲノム微生物学会年会 発表資料
(71)【出願人】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100188558
【弁理士】
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100152272
【弁理士】
【氏名又は名称】川越 雄一郎
(74)【代理人】
【識別番号】100181722
【弁理士】
【氏名又は名称】春田 洋孝
(72)【発明者】
【氏名】黒川 顕
(72)【発明者】
【氏名】黒川 真臣
(72)【発明者】
【氏名】東 光一
(72)【発明者】
【氏名】森 宙史
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA23
4B029BB02
4B029BB20
4B029FA03
4B063QA13
4B063QA18
4B063QQ06
4B063QQ42
4B063QR32
4B063QR75
4B063QS39
(57)【要約】
【課題】メタゲノムの構成から環境温度を簡易に推定すること。
【解決手段】情報処理システムは、複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報と、が予め関係付けられた関係情報を取得する取得部と、前記メタゲノムの構成情報又は前記環境温度情報のいずれか一方の入力に対して、前記関係情報に基づいて、他方の情報を推定する推定部と、前記推定された他方の情報を出力する出力部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報と、が予め関係付けられた関係情報を取得する取得部と、
前記メタゲノムの構成情報又は前記環境温度情報のいずれか一方の入力に対して、前記関係情報に基づいて、他方の情報を推定する推定部と、
前記推定された他方の情報を出力する出力部と、
を備える情報処理システム。
【請求項2】
前記構成情報は、前記メタゲノムから予測される特定のアミノ酸の出現頻度を示し、
前記出現頻度は、前記メタゲノムから予測される全タンパク質を構成するアミノ酸の総数と、前記全タンパク質に含まれる前記特定のアミノ酸の数とに基づいて算出される
請求項1に記載の情報処理システム。
【請求項3】
前記特定のアミノ酸は、イソロイシン、バリン、チロシン、トリプトファン、アルギニン、グルタミン酸、及びロイシンからなる群より選択される少なくとも1種を含む
請求項2に記載の情報処理システム。
【請求項4】
前記構成情報と前記環境温度情報を、前記微生物群集を含む試料を採取した採取場所又は前記微生物群集の生息場所と対応づけて記憶させる管理部をさらに備える
請求項1又は2に記載の情報処理システム。
【請求項5】
前記管理部は、少なくともヒトを含む哺乳類の体内温度を示す体内温度情報をさらに取得し、少なくとも前記構成情報と前記環境温度情報との対応関係に基づき、前記体内温度情報に対応する構成情報を推定する
請求項4に記載の情報処理システム。
【請求項6】
前記推定部は、前記微生物群集を含む試料を採取した採取場所又は前記微生物群集の生息場所ごとに、複数の前記構成情報と前記環境温度情報から代表値を算出し、
前記出力部は、採取場所又は生息場所ごとに、前記構成情報と前記環境温度情報の代表値を出力する
請求項1又は2に記載の情報処理システム。
【請求項7】
前記構成情報は、採水又は採泥された試料からメタゲノム解析によって検出され、
前記環境温度情報は、前記採水された場所の水温又は採泥された場所の泥の温度である
請求項1又は2に記載の情報処理システム。
【請求項8】
前記構成情報は、体内環境に生息する微生物群集のメタゲノムの構成を示し、
前記環境温度情報は、前記微生物群集が生息する体内環境の温度を示す
請求項1又は2に記載の情報処理システム。
【請求項9】
前記複数種類の微生物は、互いに至適温度が異なる微生物である
請求項1又は2に記載の情報処理システム。
【請求項10】
前記複数種類の微生物は、互いにゲノム構成が異なる微生物である
請求項1又は2に記載の情報処理システム。
【請求項11】
複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報とを取得する学習データ取得部と、
前記構成情報及び前記環境温度情報に基づいて、前記構成情報及び前記環境温度情報との関係を学習することによって学習済モデルを生成する学習処理部と、を備える
学習装置。
【請求項12】
前記学習データ取得部は、前記メタゲノムから予測されるアミノ酸ごとの出現頻度を含む前記構成情報を取得し、
前記学習処理部は、前記アミノ酸ごとの出現頻度と前記環境温度情報との関係を学習する
請求項11に記載の学習装置。
【請求項13】
コンピュータに用いられる方法であって、
複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報と、が予め関係付けられた関係情報を取得するステップと、
前記メタゲノムの構成情報又は前記環境温度情報のいずれか一方の入力に対して、前記関係情報に基づいて、他方の情報を推定するステップと、
前記推定された他方の情報を出力するステップと、
を備える方法。
【請求項14】
コンピュータに用いられる方法であって、
複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報とを取得するステップと、
前記構成情報及び前記環境温度情報に基づいて、前記構成情報及び前記環境温度情報との関係を学習することによって学習済モデルを生成するステップと、
を備える方法。
【請求項15】
コンピュータに、
複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報と、が予め関係付けられた関係情報を取得するステップと、
前記メタゲノムの構成情報又は前記環境温度情報のいずれか一方の入力に対して、前記関係情報に基づいて、他方の情報を推定するステップと、
前記推定された他方の情報を出力するステップと、
を実行させるためのプログラム。
【請求項16】
コンピュータに、
複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報とを取得するステップと、
前記構成情報及び前記環境温度情報に基づいて、前記構成情報及び前記環境温度情報との関係を学習することによって学習済モデルを生成するステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、学習装置、方法及びプログラムに関する。
【背景技術】
【0002】
環境中には、実験室内で培養できない微生物が多く生息すると考えられている。そのため、環境中に生息する個別の微生物の単離培養を行うことなく、環境試料から直接DNAを抽出して解析を行うメタゲノム解析が行われている。環境試料から抽出されたDNAは、環境試料中に含まれる多様な微生物のゲノムDNAに由来する。メタゲノムは、環境中に存在する微生物群集に由来するゲノムDNAと定義することが出来る。
【0003】
一方、細菌の至適生育温度は、GC含量等のゲノムのヌクレオチド組成と緩い相関を示すことが知られていた。また、非特許文献1において、細菌の全遺伝子がコードする全タンパク質中の特定のアミノ酸使用頻度から、当該細菌の至適生育温度を所定の数式によって推定することが記載されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Konstantin B Zeldovich, et al., Protein and DNA Sequence Determinants of Thermophilic Adaptation. PLoS Comput Biol. 2007 Jan; 3(1): e5.
【発明の概要】
【発明が解決しようとする課題】
【0005】
ヒト等の動物の体内は、温度を正確に測定することが困難である。また、環境条件によっては、温度を直接測定することが困難な場合がある。一方、そのような温度の測定が困難な環境においても、様々な微生物が存在している。しかしながら、環境中に生息する微生物の多くは実験室で培養することができない。環境試料から微生物を単離し、非特許文献1に記載の方法で至適生育温度を推定したとしても、それらの微生物は環境中に生息する微生物のほんの一部に過ぎず、それらの微生物の至適生育温度は、環境温度とは一致しない。
【0006】
本発明は、温度を直接測定することなく環境温度を推定できる情報処理システム、学習装置、方法及びプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0007】
この発明に係る情報処理システム、学習装置、方法及びプログラムは、以下の構成を採用した。
(1)この発明の一態様に係る情報処理システムは、複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息 する環境の温度を示す環境温度情報と、が予め関係付けられた関係情報を取得する取得部と、前記メタゲノムの構成情報又は前記環境温度情報のいずれか一方の入力に対して、前記関係情報に基づいて、他方の情報を推定する推定部と、前記推定された他方の情報を出力する出力部と、を備える。
【0008】
(2)上記(1)の態様において、前記構成情報は、前記メタゲノムから予測される特定のアミノ酸の出現頻度を示し、前記出現頻度は、前記メタゲノムから予測される全タンパク質を構成するアミノ酸の総数と、前記全タンパク質に含まれる前記特定のアミノ酸の数とに基づいて算出される。
【0009】
(3)上記(2)の態様において、前記特定のアミノ酸は、イソロイシン、バリン、チロシン、トリプトファン、アルギニン、グルタミン酸、及びロイシンからなる群より選択される少なくとも1種を含む。
【0010】
(4)上記(1)又は(2)の態様において、情報処理システムは、前記構成情報と前記環境温度情報を、前記微生物群集を含む試料を採取した採取場所又は前記微生物群集の生息場所と対応づけて記憶させる管理部をさらに備える。
【0011】
(5)上記(4)の態様において、前記管理部は、少なくともヒトを含む哺乳類の体内温度を示す体内温度情報をさらに取得し、少なくとも前記構成情報と前記環境温度情報との対応関係に基づき、前記体内温度情報に対応する構成情報を推定する。
【0012】
(6)上記(1)又は(2)の態様において、前記推定部は、前記微生物群集を含む試料を採取した採取場所又は前記微生物群集の生息場所ごとに、複数の前記構成情報と前記環境温度情報から代表値を算出し、前記出力部は、採取場所又は生息場所ごとに、前記構成情報と前記環境温度情報の代表値を出力する。
【0013】
(7)上記(1)又は(2)の態様において、前記構成情報は、採水又は採泥された試料からメタゲノム解析によって検出され、前記環境温度情報は、前記採水された場所の水温又は採泥された場所の泥の温度である。
【0014】
(8)上記(1)又は(2)の態様において、前記構成情報は、体内環境に生息する微生物群集のメタゲノムの構成を示し、前記環境温度情報は、前記微生物群集が生息する体内環境の温度を示す。
【0015】
(9)上記(1)又は(2)の態様において、前記複数種類の微生物は、互いに至適温度が異なる微生物である。
【0016】
(10)上記(1)又は(2)の態様において、前記複数種類の微生物は、互いにゲノムが異なる微生物である。
【0017】
(11)この発明の一態様に係る学習装置は、複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報とを取得する学習データ取得部と、前記構成情報及び前記環境温度情報に基づいて、前記構成情報及び前記環境温度情報との関係を学習することによって学習済モデルを生成する学習処理部と、を備える。
【0018】
(12)上記(11)の態様において、前記学習データ取得部は、前記メタゲノムから予測されるアミノ酸ごとの出現頻度を含む前記構成情報を取得し、前記学習処理部は、前記アミノ酸ごとの出現頻度と前記環境温度情報との関係を学習する。
【0019】
(13)この発明の一態様に係る方法は、コンピュータに用いられる方法であって、複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報と、が予め関係付けられた関係情報を取得するステップと、前記メタゲノムの構成情報又は前記環境温度情報のいずれか一方の入力に対して、前記関係情報に基づいて、他方の情報を推定するステップと、前記推定された他方の情報を出力するステップとを備える。
【0020】
(14)この発明の一態様に係る方法は、コンピュータに用いられる方法であって、複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報とを取得するステップと、前記構成情報及び前記環境温度情報に基づいて、前記構成情報及び前記環境温度情報との関係を学習することによって学習済モデルを生成するステップとを備える。
【0021】
(15)この発明の一態様に係るプログラムは、コンピュータに、複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報と、が予め関係付けられた関係情報を取得するステップと、前記メタゲノムの構成情報又は前記環境温度情報のいずれか一方の入力に対して、前記関係情報に基づいて、他方の情報を推定するステップと、前記推定された他方の情報を出力するステップとを実行させるためのプログラムである。
【0022】
(16)この発明の一態様に係るプログラムは、コンピュータに、複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報とを取得するステップと、前記構成情報及び前記環境温度情報に基づいて、前記構成情報及び前記環境温度情報との関係を学習することによって学習済モデルを生成するステップとを実行させるためのプログラムである。
【発明の効果】
【0023】
(1)から(16)によれば、温度を直接測定することなく環境温度を推定することが可能となる。
【図面の簡単な説明】
【0024】
図1】本発明の第1実施形態における情報処理システムSの構成図である。
図2】本発明の第1実施形態における取得装置10の機能構成例である。
図3】本発明の第1実施形態における推定装置20の機能構成例である。
図4】本発明の第1実施形態における管理装置30の機能構成例である。
図5】33の温泉メタゲノム公共データのサンプリング地点(日本、ロシア、インド、ニュージーランド、米国)における実測環境温度分布例(A)及びの実測酸性度(B)の分布図である。
図6】本発明の第1実施形態における、メタゲノムの塩基配列から環境温度を予測する処理の概念図である。
図7】33の温泉メタゲノム公共データ(日本、ロシア、インド、ニュージーランド、米国)及び図1の人工河川Rにおける8地点(K-01~K03及びK05~K-09)で採取されたメタゲノムから推測された環境温度と、実測環境温度との相関関係を示すグラフである。
図8】人工河川Rの各サンプリング地点(K-01~K03及びK05~K-09)で採取されたメタゲノムから推測された環境温度と、実測環境温度との相関関係を示すグラフである。
図9】人工河川Rの各サンプリング地点(K-01~K03及びK05~K-09)において検出された主な微生物の属の存在量と、当該微生物の属の平均至適生育温度を示すヒートマップである。
図10】616人の日本人の糞便メタゲノムデータ(Yachida, S., et al., Nat Med. 2019 Jun;25(6):968-976.)から推測された環境温度(腸内温度)を示すグラフである。
図11図10で推測された腸内温度の中央値、平均値、及び標準偏差を示す表である。
図12】本発明の第1実施形態における推定装置20の動作シーケンスを示すフローチャートである。
図13】本発明の第1実施形態における推定装置20の推定結果を示す表である。
図14】本発明の第2実施形態における情報処理システムSの構成図である。
図15】本発明の第2実施形態における微生物群集に含まれるアミノ酸の出現頻度と環境温度との対応関係を示す表である。
図16】本発明の第2実施形態における学習装置60の機能構成例である。
図17】本発明の第2実施形態における推定装置20aの機能構成例である。
図18】本発明の第2実施形態における学習装置60の動作シーケンスを示すフローチャートである。
図19】本発明の第2実施形態における推定装置20aの動作シーケンスを示すフローチャートである。
図20】本実施形態に係る各装置のハードウェア構成を説明する説明図である。
【発明を実施するための形態】
【0025】
以下、図面を参照し、本発明の情報処理システム、学習装置、方法及びプログラムの実施形態について説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
【0026】
(第1実施形態)
図1は、本発明の第1実施形態における情報処理システムSの構成図である。情報処理システムSは、取得装置10、推定装置20、管理装置30及びネットワークNWを少なくとも備える。なお、情報処理システムSは、管理装置30については必ずしも備えていなくてもよい。
【0027】
温泉H及び人工河川Rは、環境試料の取得地点の一例を示す模式図である。温泉Hの水は、人工河川Rに流される。環境サンプル(試料)は、人工河川Rにおける複数の異なる地点から取得(採取)される。温泉Hは人工河川Rの水源として機能する。人工河川Rにおいて、サンプリング地点にはK-01~K03及びK05~K-09があり、K-01からK-09に進むほど上流に位置する。K-01における人工河川Rの水温は29.6℃であり、K-09における人工河川Rの水温は60.0℃である。K-01からK-09に向かうほど温泉Hに近いことから、K-01からK-09に向かうほど水温が高くなっている。
【0028】
人工河川Rの下流に行くほど、環境温度は下がる。K-01~K03及びK05~K-09には、各地点の環境温度で生育可能な多数の微生物が生息しており、各地点に特有の微生物群集を構成している。各地点から採取される環境試料には、各地点に特有の微生物群集が含まれている。各地点から採取された環境試料からDNAを抽出することにより、各地点の微生物群集に由来するメタゲノムを取得することができる。環境試料は、人工河川Rの水から採取されてもよいし、人工河川Rに含まれる泥から採取されてもよい。
【0029】
図2は、本発明の第1実施形態における取得装置10の機能構成例である。取得装置10は、取得部11、処理部12、記憶部13、出力部14及び通信部15を備える。
【0030】
図3は、本発明の第1実施形態における推定装置20の機能構成例である。推定装置20は、取得部21、処理部22、記憶部23、出力部24及び通信部25を備える。
【0031】
図4は、本発明の第1実施形態における管理装置30の機能構成例である。管理装置30は、取得部31、処理部32、記憶部33、出力部34及び通信部35を備える。
【0032】
取得部11、取得部21及び取得部31は、各種情報及びデータを取得する。処理部12はプロセッサであり、取得部11、記憶部13、出力部14及び通信部15の処理を制御する。処理部12と同様に、処理部22及び処理部32は、推定装置20及び管理装置30を構成する各種機能ブロックの処理を制御する。
【0033】
記憶部13、記憶部23及び記憶部33は情報及び命令を記憶する記憶素子である。出力部14、出力部24及び出力部34は、情報を外部に出力する。
【0034】
通信部15、通信部25及び通信部35は通信インターフェイスであり、有線媒体又は無線を介して情報及びデータの送受信を実行する。取得装置10、推定装置20及び管理装置30の動作については後述する。取得装置10、推定装置20及び管理装置30のハードウェア構成については後述する。
【0035】
取得部11は、試料から取得されたメタゲノムの構成を示す構成情報と、微生物群集が生息する環境の温度を示す環境温度情報と、が予め関係付けられた関係情報を取得する。構成情報は、人工河川Rから採水又は採泥された試料から抽出されたDNA(メタゲノム)の配列解析により取得することができる。環境温度情報は、人工河川R中で採水された場所の水温又は採泥された場所の泥の温度を示す。
【0036】
記憶部13は、関係情報を記憶する。出力部14は、関係情報を出力する。通信部15は、関係情報を推定装置20及び管理装置30に送信する。
【0037】
推定装置20は、取得部21によってメタゲノムの構成情報又は環境温度情報のいずれか一方と、関係情報とを取得し、記憶部23に記憶させる。処理部22は、メタゲノムの構成情報又は環境温度情報のいずれか一方と、関係情報とを記憶部23から読み出し、メタゲノムの構成情報又は環境温度情報のうちの他方の情報を推定する。出力部24は、推定された他方の情報を出力する。出力部24に代えて、又は出力部24に加えて、通信部25は、推定された他方の情報を送信してもよい。取得部21は、取得装置10の機能を代替してもよい。
【0038】
図5は、本発明の第1実施形態における情報処理システムの推定精度の検証に用いた33の温泉メタゲノム公共データのサンプリング地点の実測環境温度及び酸性度の分布を示す図である。図5(A)は、サンプリング地点の環境温度分布を示す。図5(B)は、サンプリング地点における水の酸性度分布を示す。温泉メタゲノム公共データは、NCBI Sequence Read Archive databaseからSRA Toolkitを用いて取得したものである。サンプリング地点は、日本、ロシア、インド、ニュージーランド、及び米国であり、地理的に多様である。図5(A)及び(B)に示すように、サンプリング地点は、温度及び酸性度ともに広く分散しており、所定の温度又は酸性度への偏りが無いことが見て取れる。
【0039】
図6は、メタゲノムの配列解析により取得されたメタゲノム塩基配列から、環境温度を推定する処理の概念図である。初めに、メタゲノムのDNA配列データから、遺伝子予測ツール(例えば、Prodigal)を使用して全ての遺伝子領域(Open Reading Frame: ORF)を予測し、全ての遺伝子領域に対応するアミノ酸配列を取得する。次に、取得したミノ酸配列に含まれる全アミノ酸数に対する、特定のアミノ酸(イソロイシン、バリン、チロシン、トリプトファン、アルギニン、グルタミン酸、及びロイシン)の出現頻度が計算される。この特定のアミノ酸の出現頻度に基づき、後述の数式1を用いることにより、メタゲノムが由来する微生群集が生息する環境の環境温度が推定される。
【0040】
次に、本発明の第1実施形態におけるメタゲノムの塩基配列情報から取得された特定のアミノ酸の出現頻度と環境温度との対応関係について説明する。特定のアミノ酸の出現頻度と環境温度との対応関係は、T_amb = 937 × FIVYWREL - 335 という数式(数式1)によって表される。T_ambは、採取された環境試料に含まれる微生物群集が生息する環境の環境温度を示す。FIVYWRELは、特定のアミノ酸の出現頻度を示す。特定のアミノ酸は、イソロイシン、バリン、チロシン、トリプトファン、アルギニン、グルタミン酸及びロイシンの7種である。FIVYWREL において、I、V、Y、W、R、E及びLはそれぞれ、イソロイシン、バリン、チロシン、トリプトファン、アルギニン、グルタミン酸及びロイシンを示す。数式1は、本実施形態の関係情報である。
【0041】
特定のアミノ酸の出現頻度は、メタゲノムの構成を示す構成情報の一例である。環境温度は、例えば、図1に示す人工河川Rにおいて環境試料が採取された各地点(K-01~K03及びK05~K-09)の環境温度である。特定アミノ酸の出現頻度は、メタゲノムから予測される全タンパク質を構成するアミノ酸の総数と、当該全タンパク質に含まれる特定のアミノ酸の数とに基づいて算出される。
【0042】
FIVYWRELは、環境試料から抽出されたDNAのメタゲノム解析から予測される全タンパク質に含まれるイソロイシン、バリン、チロシン、トリプトファン、アルギニン、グルタミン酸及びロイシンの数を、採取された微生物群集のメタゲノム解析から予測される全タンパク質を構成するアミノ酸の総数によって除算することにより求まる(FIVYWREL=[特定アミノ酸の総数]/[全タンパク質のアミノ酸の総数])。T_amb = 937 × FIVYWREL - 335 との数式は、事前に設定されたものを取得部11又は取得部21が取得してもよいし、後述のように、学習装置60が学習処理を実行することによって生成してもよい。
【0043】
図7は、33の温泉メタゲノム公共データ(日本、ロシア、インド、ニュージーランド、米国)及び図1の人工河川Rにおける8地点(K-01~K03及びK05~K-09)で採取されたメタゲノムから推測された環境温度と実測環境温度との相関関係を示すグラフである。図7の散布図において使用されたデータは、33の温泉メタゲノム公共データ(図5と同じもの)と、人工河川R(図1参照)から採取された環境試料から取得したメタゲノムデータである。なお、人工河川Rは、鹿児島県霧島の金湯温泉に構築されたものであり、環境試料の採取及び環境温度の測定は2014年2月に行われた。図7の横軸は、温泉試料の採取地点における環境温度を示す。
【0044】
図7の縦軸は、メタゲノム解析から予測された全タンパク質における特定のアミノ酸の出現頻度に基づいて数式1により推定された環境温度を示す。図7より、環境温度の実測値と推定値とが高い相関を示すことがわかる。また、使用したメタゲノムデータは、地理的、物理化学的に多様な温泉サンプルに由来しており、多様な環境試料において高精度な環境温度予測が可能であることがわかる。
【0045】
図8は、河川Rの各サンプリング地点(K-01~K03及びK05~K-09)で採取されたメタゲノムから推測された環境温度と、実測環境温度との相関関係を示すグラフである。図8で使用されたデータは、図7で使用された人工河川Rのデータを同じである。図8に示すように、人工河川Rにおける実測環境温度と、推定環境温度とは、高い相関を示した。
【0046】
図9は、人工河川R河川Rの各サンプリング地点(K-01~K03及びK05~K-09)において検出された主な微生物の属の存在量と、当該微生物の属の平均至適生育温度を示すヒートマップである。微生物の属の相対存在量は、環境試料から抽出されたDNA(メタゲノム)において、16S rRNA解析を行うことにより求められた。図9には、いずれかの環境試料において、相対存在量が2%以上を占める属が示されている。
【0047】
図9の左パネルにおいて、横軸は、図1の人工河川Rにおけるサンプリング地点とその地点の実測環境温度を示す。人工河川Rは温泉を水源としており、左側、すなわちK-01は人工河川Rの最も下流に位置するので、温度が最も低い。また、右側、すなわちK-09は人工河川Rの最も上流に位置するので、温度が最も高い。図9において、各グリッドの濃淡は、微生物の属の相対存在量の多寡を示す。各グリッドが黒色の塗りつぶしの濃いほど、微生物群集の相対存在量が多いことを示す。
【0048】
図9の右パネルは、左パネルに示した微生物の属に属する微生物種の平均至適生育温度を示す。右パネルの左側のカラムに示す平均至適生育温度は、オンラインデータベース(https://doi.org/10.5281/zenodo.1175608.)から取得した各微生物属に属する微生物種の至適生育温度から算出した。右パネルの右側のカラムに示す平均至適生育温度は、Zeldovichら(PLoS Comput Biol. 2007 Jan; 3(1): e5.)に記載の方法により推定された各微生物属に属する微生物種の至適生育温度から算出した。至適生育温度の算出に用いた微生物種のアミノ酸配列データは、NCBIゲノムデータベースから取得した。至適生育温度は、微生物種の増殖速度が最も高い温度である。各グリッドの濃淡が淡いと至適生育温度が高く、各グリッドの色が濃いほど至適生育温度が高い。なお、図9の右パネルの空白のグリッドは、データベースからデータを取得できなかったものである。
【0049】
図9より、環境温度の低いサンプルにおいては、至適生育温度が低い微生物属が多く存在し、環境温度の高いサンプルにおいては至適生育温度が高い微生物属が多く存在する傾向があるが、各微生物属は、至適生育温度とは異なるサンプリング地点にも存在していた。また、それぞれのサンプル中に存在する微生物の至適生育温度は幅広い範囲に広がっており、単純に環境温度に一致した至適生育温度を持つ微生物が生育しているわけではないことがわかる。
【0050】
図9の結果は、その環境中に存在している微生物の至適生育温度は多様であるにもかかわらず、それらの存在量のバランスが取れているため、本実施形態のような環境温度の推定が精度よく可能であることを示す。言い換えると、単純に環境温度に一致した至適生育温度を持つ微生物が生育しているわけではないにもかかわらず、それらを総合すると温度が予測できるということが示されている。
【0051】
図10は、616人の日本人の糞便メタゲノムデータ(Yachida, S., et al., Nat Med. 2019 Jun;25(6):968-976.)から、推定された環境温度を示すグラフである。糞便メタゲノムデータから推定される環境温度は、糞便中の微生物群集の生息環境である腸内環境の温度である。図10の例では、まず、ヒト糞便メタゲノムデータから遺伝子予測ツール(例えば、Prodigal)を用いて遺伝子領域(ORF)を予測し、全ての遺伝子領域に対応するアミノ酸配列を取得した。次いで、それらのアミノ酸配列に含まれる全アミノ酸数に対する、特定のアミノ酸の出現頻度を算出した。特定のアミノ酸の出現頻度から、前述の数式1を用いることにより、腸内環境の環境温度を推定した。
【0052】
図11は、図10で示された推定腸内環境温度の中央値、平均値、及び標準偏差を示す表である。中央値及び平均値は、代表値の例である。図10及び11より、ヒトの糞便メタゲノムデータから、数式1を用いて推定される環境温度の中央値は36.45度であり、ヒトの実際の体温とも近いことがわかる。
【0053】
図11より、環境温度の推定結果を男女で分けてみてみると、女性における推定温度が男性のそれよりも高くなる傾向があることがわかる。18,630人の体温を調査した調査結果では、女性の体温の平均値は華氏97.5度(36.89℃)であり、男性の体温の平均値は華氏97.1度(36.22度)と報告されており(Waalen, J. & Buxbaum, J. N. Journals of Gerontology: Series A (2011))、女性の体温の方が高いという生理的傾向がある。図10及び図11の腸内温度の推定結果でも女性の方が推定温度が高くなっており、既報の生理的傾向と一致している。したがって、図10及び11に示す推定結果から、ヒトの糞便にから採取されるメタゲノムから、数式1を用いて推定された環境温度は、腸内温度として確からしいことがわかる。
【0054】
図12は、本発明の第1実施形態における推定装置20の動作シーケンスを示すフローチャートである。
【0055】
ステップS200において、取得部21は関係情報を取得し、記憶部23に記憶させる。取得部21は、関係情報を取得装置10から取得してもよい。処理はステップS201に進む。
【0056】
ステップS201において、取得部21は、メタゲノムの構成情報を取得し、記憶部23に記憶させる。メタゲノムの構成情報は、例えば、メタゲノムから予測される特定のアミノ酸の出現頻度である。特定のアミノ酸の出現頻度は、メタゲノム解析により取得された塩基配列から前記塩基配列に存在する全ての遺伝子領域(ORF)を予測し、前記全ORFに対応する全タンパク質のアミノ酸の総数に対する、特定のアミノ酸(イソロイシン、バリン、チロシン、トリプトファン、アルギニン、グルタミン酸、及びロイシン)の総数の割合を求めることにより、算出することができる。メタゲノムの構成情報は、図1に示す人工河川Rの各地点(K-01~K03及びK05~K-09)において採取された環境試料を用いる場合、各地点の環境試料から抽出されたDNAのメタゲノム解析によって予測されたものである。取得部21は、構成情報を取得装置10から取得してもよい。処理はステップS202に進む。
【0057】
ステップS202において、処理部22は、関係情報及び構成情報を記憶部23から読み出す。処理部22は、取得した関係情報とメタゲノムの構成情報とに基づいて演算処理を行う。この場合、関係情報は、既述のT_amb = 937 × FIVYWREL - 335 という数式によって表される。処理はステップS203に進む。
【0058】
ステップS203において、ステップS202における演算処理の結果として、処理部22は人工河川Rの各地点における環境温度を推定する。処理はステップS204に進む。
【0059】
ステップS204において、処理部22が推定した各地点における環境温度を示す環境温度情報を出力部24は出力する。処理部22は環境温度情報を記憶部23に記憶させてもよい。通信部25は環境温度情報を他の外部装置に送信してもよい。その後処理は終了する。
【0060】
なお、図12に示すフローチャートのステップS201において、取得部21は、メタゲノムの構成情報に代えて、人工河川Rの各地点における環境温度を示す環境温度情報を取得してもよい。各地点における環境温度は、各地点における試料採取時の実測環境温度を用いることができる。この場合、ステップS202において、処理部22は、取得した関係情報と環境温度情報とに基づいて演算処理を行い、S203において、ステップS202における演算処理の結果として、処理部22は、人工河川Rの各地点におけるメタゲノムの構成情報を推定する。
【0061】
この場合、メタゲノムの構成情報は、特定のアミノ酸の出現頻度であってもよい。そして、ステップS204において、処理部22が推定した各地点におけるメタゲノムの構成情報を、出力部24は出力する。処理部22が推定した各地点におけるメタゲノムの構成情報を通信部25は外部装置に送信する。処理部22は、推定した各地点におけるメタゲノムの構成情報を記憶部23に記憶させてもよい。
【0062】
以上説明したように、第1実施形態に係る情報処理システムSは、複数種類の微生物から構成される微生物群集を含む試料(環境試料)から取得されたメタゲノムの構成を示す構成情報と、微生物群集が生息する環境の温度を示す環境温度情報と、が予め関係付けられた関係情報を取得する取得装置10の取得部11と、メタゲノムの構成情報又は環境温度情報のいずれか一方の入力に対して、関係情報に基づいて、他方の情報を推定する推定装置20の処理部22と、推定された他方の情報を出力する推定装置20の出力部24とを備える。なお、取得装置10を用いる代わりに、取得装置10の機能を取得部21により代替してもよい。
【0063】
これにより、環境試料から抽出されたメタゲノムの構成を示す構成情報に基づいて、メタゲノムが由来する微生物群集が生息する環境温度を推定することができる。
【0064】
情報処理システムSにおいて、構成情報は、メタゲノムから予測される特定のアミノ酸の出現頻度を示し、出現頻度は、メタゲノムから予測される全タンパク質を構成するアミノ酸の総数と、全タンパク質に含まれる前記特定のアミノ酸の数とに基づいて算出される。
【0065】
特定のアミノ酸は、例えば、イソロイシン、バリン、チロシン、トリプトファン、アルギニン、グルタミン酸、及びロイシンである。この場合、関係情報は、T_amb = 937 × FIVYWREL - 335 という数式によって表される。T_ambは、採取された微生物群集が生息する環境の環境温度を示す。FIVYWRELは、特定のアミノ酸の出現頻度を示す。FIVYWRELは、採取された環境試料から抽出されたDNAのメタゲノム解析から予測される全タンパク質に含まれるイソロイシン、バリン、チロシン、トリプトファン、アルギニン、グルタミン酸及びロイシンの数を、全タンパク質を構成するアミノ酸の総数によって除算することにより求まる。環境試料から抽出されるDNAは、環境試料中に存在する微生物群集のDNAに由来するメタゲノムである。なお、特定のアミノ酸は、前記7種のアミノ酸全てではなく、イソロイシン、バリン、チロシン、トリプトファン、アルギニン、グルタミン酸、及びロイシンからなる群より選択される少なくとも1種を含むものであってもよい。この場合、関係情報は、後述の学習装置により取得されてもよい。
【0066】
なお、上記の例では、環境試料を採取した場所は温泉を水源とする人工河川Rであったが、環境試料は、ヒトを含む動物の糞便試料であってもよい。ヒトの体内環境の温度を直接測定することは一般に容易ではないが、環境試料としてヒトの糞便試料を用いることにより、体内温度を精度よく推定することができる。取得部11は、糞便から取得されるメタゲノムの構成情報と関係情報とを取得してもよい。処理部22は、取得された構成情報と関係情報とに基づいて、採取された微生物群集の環境温度を推定してもよい。この場合、環境温度は、糞便試料が採取された動物の体内環境(例えば、腸内環境)の温度を示す。
【0067】
これにより、ヒトを含む動物の体内環境の温度を、糞便から取得されたメタゲノムの構成を示す構成情報と関係情報とに基づいて精度よく推定することができる。たとえば、パーキンソン病について、初期症状として、体温の低下や便秘が報告されている。したがって、体内環境温度を糞便メタゲノムから推定することにより、疾病の早期予測、予防及び治療に寄与できる可能性がある。
【0068】
また、情報処理システムSは、管理装置30をさらに備えていてもよい。取得部31は、構成情報と環境温度情報を取得し、処理部32は、微生物群集を含む試料を採取した採取場所又は前記微生物群集の生息場所と、構成情報と、環境温度情報とを対応づけて記憶部33に記憶させてもよい。なお、管理装置30の機能を推定装置20によって実現してもよい。この場合、処理部22は、微生物群集を含む試料を採取した採取場所又は前記微生物群集の生息場所と、構成情報と、環境温度情報とを対応づけて記憶部23に記憶させてもよい。
【0069】
図13は、本発明の第1実施形態における推定装置20の推定結果と、管理装置30によって対応付けを行った結果とを示す表である。図13において、採取された微生物群集のメタゲノム解析から予測された特定のアミノ酸の出現頻度と、推定装置20が推定した推定環境温度と、採取された微生物群集の採取場所との対応関係が具体的に示されている。
【0070】
これにより、所定のサンプリング地点の環境温度を推定することが可能となる。
【0071】
また、推定装置20は、微生物群集を含む試料を採取した採取場所又は微生物群集の生息場所ごとに、複数の構成情報及び環境温度情報の代表値を算出してもよい。出力部24は、採取場所又は生息場所ごとに、構成情報と環境温度情報の代表値を出力してもよい。記憶部23は、採取場所又は生息場所ごとに、構成情報と環境温度情報の代表値を記憶してもよい。
【0072】
代表値は、最小値、平均値、中央値、及び最大値の少なくともいずれかを含む。構成情報の代表値は、例えば、同一のサンプリング地点から採取された複数の環境試料から取得された複数のメタゲノムデータに基づくものであってもよい。環境試料に含まれる微生物群集は、サンプリング位置の微妙な違い、サンプリング時間、及びサンプリング時期等により変化する可能性がある。しがたって、環境試料から取得されるメタゲノムも、上記のような条件の違いにより変化する可能性がある。複数の環境試料から取得された複数のメタゲノムから構成情報(特定のアミノ酸の出現頻度)を取得し、これらの代表値(最小値、平均値、中央値、最大値等)をメタゲノムの構成情報として用いてもよい。メタゲノムの構成情報として代表値を用いることにより、環境温度をより精度よく推定することができる。
【0073】
環境試料は、微生物群集を含む限り特に限定されない。採取対象は、例えば温泉の湯でもよいし、海底火山近傍の熱水でもよいし、工場からの排水、生活排水でもよいし、水たまりでもよいし、水田の水でもよいし、畑における土壌でもよいし、側溝内にたまった水又は泥でもよい。また、採取対象は、農業における土壌や液肥、活性汚泥、大気中、海洋・淡水湖(養殖場など)、微生物の関わる環境であってもよい。例えば、直接の温度測定が困難な環境(例えば、深海、川底、湖底、土壌中、動物体内等)の環境試料を用いることにより、そのような環境の環境温度を精度よく推定することができる。
【0074】
これにより、身の回りの環境であって、人の生活に影響を与えうる環境に存在又は生息する微生物群集をもとにその環境温度を推定し、それらの対応関係を有意義に活用できる。
【0075】
メタゲノムの構成情報は、例えば、メタゲノムの全塩基配列から算出されるGC含量であってもよい。メタゲノムの構成情報は、上記7種の特定のアミノ酸の出現頻度ではなく、他のアミノ酸の出現頻度であってもよい。この場合、関係情報は、後述の学習装置によって取得されてもよい。
【0076】
(第2実施形態)
図14は、本発明の第2実施形態における情報処理システムSの構成図である。情報処理システムSは、推定装置20a、学習装置60及び管理装置30を備える。第2実施形態において、関係情報は、学習装置60が機械学習によって生成する学習済モデルに基づく。図14において、情報処理システムSは、管理装置30を必ずしも備えていなくてもよい。
【0077】
図15は、本発明の第1実施形態におけるメタゲノムの構成情報であるアミノ酸の出現頻度と環境温度との対応関係を示す表である。図15の表は、人工河川Rの複数の異なる場所において採取された環境試料から取得されたメタゲノムから予測された特定のアミノ酸の出現頻度と、各環境試料が採取された場所における環境温度との対応関係の一部を示す。メタゲノムから予測された特定のアミノ酸の出現頻度は、構成情報である。図15の表は、学習装置60が、構成情報と、環境温度を示す環境温度情報とに基づいて関係情報を生成する際の教師データとして用いられる。
【0078】
図16は、本発明の第2実施形態における学習装置60の機能構成例である。学習装置60は、学習データ取得部611、学習処理部612、通信部620、学習データ記憶部631、および出力部650を備える。学習データ記憶部631は、アミノ酸頻度記憶部6311、環境温度記憶部6312及び学習結果記憶部6313を備える。
【0079】
学習データ取得部611は、採取された微生物群集のメタゲノムデータから予測される特定のアミノ酸の出現頻度を示す情報である構成情報を取得し、アミノ酸頻度記憶部6311に記憶させる。学習データ取得部611は、採取された微生物群集が生息する環境の環境温度を示す環境温度情報を取得して環境温度記憶部6312に記憶させる。
【0080】
学習処理部612は、構成情報を入力とし、環境温度情報を出力とする教師データを用いて機械学習を行い、学習結果として回帰モデルを生成する。回帰モデルは、関係情報の一例であり、微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、前記微生物群集が生息する環境の温度を示す環境温度情報とが関係付けられたものである。回帰モデルは、既述のT_amb = 937 × FIVYWREL - 335 という数式により表される。
【0081】
なお、回帰モデルは、環境温度情報を入力とし、構成情報を出力とする教師データを用いた機械学習により生成されてもよい。
【0082】
学習処理部612は、機械学習により回帰モデル(学習済みモデル)を生成してもよい。機械学習の手法の一例として、SVR(サポートベクター回帰)、ランダムフォレスト、ニューラルネットワークによるディープラーニング等が挙げられる。学習処理部612は、例えば、教師あり学習によって学習済みモデルを生成してもよい。教師あり学習では、学習モデルに学習用のデータセットを用いた学習を行わせる。データセットは、学習時の入力となる説明変数と、当該入力データに基づき出力されるデータの正解を示す目的変数のセットである。
【0083】
学習処理部612は当該回帰モデルを学習結果記憶部6313に記憶させる。出力部650は、学習済モデルを外部に出力する。出力部650は、通信部620を介して学習済モデルを外部に出力してもよい。
【0084】
図17は、本発明の第2実施形態における推定装置20aの機能構成例である。推定装置20aは、実行データ取得部211、実行処理部212、通信部220、実行データ記憶部231、学習済モデル記憶部232及び出力部250を備える。実行データ記憶部231は、アミノ酸頻度記憶部2311及び実行結果記憶部2312を含む。
【0085】
学習装置60及び推定装置20aのハードウェア構成については後述する。
【0086】
実行データ取得部211は、構成情報を取得し、アミノ酸頻度記憶部2311に記憶させる。構成情報は、環境試料から取得されたメタゲノムのメタゲノム解析によって予測されたものである。実行データ取得部211は、学習装置60が生成した回帰モデルを取得する。回帰モデルを通信部220が取得してもよい。実行データ取得部211は回帰モデルを学習済モデル記憶部232に記憶させる。実行処理部212は、構成情報をアミノ酸頻度記憶部2311から読み出し、回帰モデルを用いて環境温度情報を推定する。
【0087】
実行処理部212は、推定した環境温度情報を実行結果記憶部2312に記憶させる。回帰モデルは、学習装置60が生成したものである。出力部250は、環境温度情報を実行結果記憶部2312から読み出し、外部に出力する。出力部250は、通信部220を介して環境温度情報を外部に出力してもよい。
【0088】
なお、回帰モデルは、環境温度情報を入力とし、構成情報を出力として生成されていてもよい。この場合、推定装置20aの実行データ取得部211は、採取した微生物群集の環境温度の測定値を取得し、環境温度情報として実行データ記憶部231に記憶させてもよい。実行処理部212は、実行データ記憶部231から環境温度情報を読み出し、学習済モデル記憶部232から回帰モデルを読み出し、構成情報を推定してもよい。
【0089】
図18は、本発明の第2実施形態における学習装置60の動作シーケンスを示すフローチャートである。
【0090】
ステップS1600において、学習データ取得部611は、メタゲノムから予測された構成情報を取得し、構成情報が示す特定のアミノ酸の出現頻度をアミノ酸頻度記憶部6311に記憶させる。学習データ取得部611は、採取した微生物群集が生息する環境の環境温度を示す環境温度情報を取得し、環境温度記憶部6312に記憶させる。処理はステップS1601に進む。
【0091】
ステップS1601において、学習処理部612は構成情報及び環境温度情報を教師データとして機械学習処理を実行し、学習結果として回帰モデル(学習済モデル)を生成する。処理はステップS1602に進む。
【0092】
ステップS1602において、学習処理部612は、当該回帰モデルを学習結果記憶部6313に記憶させる。処理はステップS1603に進む。
【0093】
ステップS1603において、出力部650は、回帰モデルを外部に出力する。出力部650に代えて、通信部620が回帰モデルを推定装置20aに送信してもよい。その後、処理は終了する。なお、回帰モデルが、環境温度情報を入力とし、構成情報を出力として生成される場合、ステップS1600における入力と出力を、それぞれ環境温度情報及び構成情報と読み替えればよい。
【0094】
図19は、本発明の第2実施形態における推定装置20aの動作シーケンスを示すフローチャートである。
【0095】
ステップS1200において、実行データ取得部211は、回帰モデルを取得し、学習済モデル記憶部232に記憶させる。処理はステップS1201に進む。
【0096】
ステップS1201において、実行データ取得部211は、構成情報を取得する。構成情報は、特定のアミノ酸の出現頻度を示す情報を示す。実行データ取得部211は、取得した構成情報をアミノ酸頻度記憶部2311に記憶させる。処理はステップS1202に進む。
【0097】
ステップS1202において、実行処理部212は、構成情報及び回帰モデルに基づいて演算処理を実行する。処理はステップS1203に進む。
【0098】
ステップS1203において、実行処理部212は、演算処理の結果として得られる環境温度情報の推定値を実行結果記憶部2312に記憶させる。処理はステップS1204に進む。
【0099】
ステップS1204において、出力部250は、環境温度情報の推定値を実行結果記憶部2312から読み出して外部に出力する。なお、通信部220は、環境温度情報の推定値を実行結果記憶部2312から読み出し、管理装置30といった他の装置に送信してもよい。その後、処理は終了する。なお、回帰モデルが、環境温度情報を入力とし、構成情報を出力として生成される場合、ステップS1201における取得対象を環境温度情報とし、ステップS1202からステップS1204における推定結果を構成情報と読み替えればよい。
【0100】
以上説明したように、第2実施形態に係る学習装置60は、複数種類の微生物から構成される微生物群集を含む試料から取得されたメタゲノムの構成を示す構成情報と、微生物群集が生息する環境の温度を示す環境温度情報とを取得する学習データ取得部611と、構成情報及び環境温度情報に基づいて、構成情報及び環境温度情報との関係を学習することによって回帰モデル(学習済モデル)を生成する学習処理部612と、を備える。
【0101】
また、第2実施形態に係る学習装置60において、学習データ取得部611は、メタゲノムから予測されるアミノ酸ごとの出現頻度を含む構成情報を取得する。学習処理部612は、特定のアミノ酸の出現頻度と環境温度情報との関係を学習し、関係情報を生成して学習結果記憶部6313に記憶させる。通信部620は、関係情報を学習結果記憶部6313から読み出して推定装置20又は推定装置20aに送信する。
【0102】
これにより、環境試料から取得されたメタゲノムの構成を示す構成情報に基づいて、微生物群集が生息する環境温度を推定することができる。
【0103】
上記では、メタゲノムの構成情報として特定のアミノ酸の出現頻度を用いたが、構成情報は、他の情報であってもよい。構成情報としては、例えば、メタゲノムの全塩基配列から算出されるGC含量、特定のアミノ酸の一部の出現頻度、及び特定のアミノ酸以外のアミノ酸の出現頻度等が挙げられる。これらのメタゲノムの構成情報と、環境試料の採取地点の実測環境温度である環境温度情報とを教師データとして用いて機械学習を行うことにより、これらの構成情報及び環境温度情報との関係情報が生成される。
【0104】
かくして、本情報処理システムSによって、微生物群集が生息する環境温度情報を得ることができる。近年盛んに研究されているマイクロバイオーム創薬において、当該環境温度情報に基づき、最適の生菌の選択及び生菌製剤の作製が可能となる。
【0105】
例えば、取得部31は、ある疾患に罹患している患者の体内温度を示す体内温度情報を取得してもよい。処理部32は、記憶部33に記憶された構成情報と環境温度情報との対応関係に基づき、体内温度情報が示す体内温度に対応する構成情報を推定してもよい。例えば、患者の体内温度が36度であることを体内温度情報が示す場合、環境温度の36度を示す環境温度情報に対応する構成情報を処理部32は推定してもよい。
【0106】
出力部34又は通信部35は、推定した構成情報をそれぞれ出力又は送信してもよい。これにより、マイクロバイオーム創薬(複数種類で構成される生菌カクテル)の投与において、予め患者の体内温度を測定し、その温度に合った生菌カクテルを設計することができる。なお、体内温度を測定する対象は患者といった人間に限らず、牛、豚といった家畜、犬、猫といったペットを含む哺乳類でもよい。
【0107】
<ハードウェア構成>
図20は、本実施形態に係る各装置のハードウェア構成を説明する説明図である。各装置とは、取得装置10、推定装置20、推定装置20a、管理装置30及び学習装置60である。各装置は、入出力モジュールI、記憶モジュールM、及び制御モジュールPを含んで構成される。入出力モジュールIは、通信モジュールH11、接続モジュールH12、ポインティングデバイスH21、キーボードH22、ディスプレイH23、ボタンH3、マイクH41、スピーカH42、カメラH51、又はセンサH52の一部或いは全部を含んで実現される。
【0108】
記憶モジュールMは、ドライブH7を含んで実現される。記憶モジュールMは、さらに、メモリH8の一部或いは全部を含んで構成されてもよい。制御モジュールPは、メモリH8及びプロセッサH9を含んで実現される。これらのハードウェア構成要素は、バス(Bus)を介して、相互に通信可能に接続されるとともに、電源H6から電力を供給されている。
【0109】
接続モジュールH12は、USB(Universal Seriul Bus)等のデジタル入出力ポートである。携帯機器の場合、ポインティングデバイスH21、キーボードH22、及びディスプレイH23は、タッチパネルである。センサH52は、加速度センサ、ジャイロセンサ、GPS受信モジュール、近接センサ等である。電源H6は、各装置を動かすために必要な電気を供給する電源ユニットである。携帯機器の場合、電源H6は、バッテリーである。
【0110】
ドライブH7は、ハードディスクドライブやソリッドステートドライブ等の補助記憶媒体である。ドライブH7は、EEPROMやフラッシュメモリ等の不揮発性メモリ、又は、光磁気ディスクドライブやフレキシブルディスクドライブであってもよい。また、ドライブH7は、例えば、各装置に内蔵されるものに限らず、IFモジュールH12のコネクタに接続された外付け型の記憶装置でもよい。
【0111】
メモリH8は、ランダムアクセスメモリ等の主記憶媒体である。なお、メモリH8は、キャッシュメモリであってもよい。メモリH8は、一又は複数のプロセッサH9によって命令が実行されるときに、これらの命令を格納する。プロセッサH9は、CPU(中央演算装置)である。プロセッサH9は、MPU(マイクロプロセッシングユニット)又はGPU(グラフィックスプロセッシングユニット)であってもよい。プロセッサH9は、メモリH8を介してドライブH7から、プログラム及び各種データを読み出して演算を行うことで、一又は複数のメモリH8に格納した命令を実行する。
【0112】
入出力モジュールIは、取得部11、出力部14、通信部15、取得部21、出力部24、通信部25、取得部31、出力部34、通信部35、取得部41、出力部44、実行データ取得部211、通信部220、出力部250、学習データ取得部611、通信部620及び出力部650を実現する。記憶モジュールMは、記憶部13、記憶部23、記憶部33、記憶部43、学習データ記憶部631及び実行データ記憶部231を実現する。
【0113】
制御モジュールPは、処理部12、処理部22、処理部32、処理部42、実行処理部212及び学習処理部612を実現する。なお、本明細書等において、取得装置10、推定装置20、推定装置20a、管理装置30及び学習装置60との記載は、それぞれ、制御部P10、P20、P20a、P30、P40、P50又はP60との記載に置き換えられてもよいし、これらの各装置との記載は、制御モジュールPとの記載に置き換えられてもよい。
【0114】
以上、この発明の一態様として各実施形態や変形例に関して図面を参照して詳述してきたが、具体的な構成は各実施形態や変形例に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明の一態様は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態や変形例に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。
【0115】
例えば、上記各実施形態の一部又は全部を組み合わせることで本発明の一態様を実現してもよい。
【符号の説明】
【0116】
10…取得装置、20…推定装置、30…管理装置、60…学習装置、11、21、31、41…取得部、12、22、32、42…処理部、13、23、33、43…記憶部、14、24、34…出力部、15、25、35、45…通信部、211…実行データ取得部、212…実行処理部、220…通信部、231…実行データ記憶部、232…学習済モデル記憶部、233…実行結果記憶部、2311…アミノ酸頻度記憶部、2312…実行結果記憶部、232…学習済モデル記憶部、250…出力部、611…学習データ取得部、612…学習処理部、620…通信部、631…学習データ記憶部、633…学習結果記憶部、6311…アミノ酸頻度記憶部、6312…環境温度記憶部、6313…学習結果記憶部、650…出力部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20