IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特許7008979情報処理システム、情報処理方法、及びプログラム
<>
  • 特許-情報処理システム、情報処理方法、及びプログラム 図1
  • 特許-情報処理システム、情報処理方法、及びプログラム 図2
  • 特許-情報処理システム、情報処理方法、及びプログラム 図3
  • 特許-情報処理システム、情報処理方法、及びプログラム 図4
  • 特許-情報処理システム、情報処理方法、及びプログラム 図5
  • 特許-情報処理システム、情報処理方法、及びプログラム 図6
  • 特許-情報処理システム、情報処理方法、及びプログラム 図7
  • 特許-情報処理システム、情報処理方法、及びプログラム 図8
  • 特許-情報処理システム、情報処理方法、及びプログラム 図9
  • 特許-情報処理システム、情報処理方法、及びプログラム 図10
  • 特許-情報処理システム、情報処理方法、及びプログラム 図11
  • 特許-情報処理システム、情報処理方法、及びプログラム 図12
  • 特許-情報処理システム、情報処理方法、及びプログラム 図13
  • 特許-情報処理システム、情報処理方法、及びプログラム 図14
  • 特許-情報処理システム、情報処理方法、及びプログラム 図15
  • 特許-情報処理システム、情報処理方法、及びプログラム 図16
  • 特許-情報処理システム、情報処理方法、及びプログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-01-14
(45)【発行日】2022-01-25
(54)【発明の名称】情報処理システム、情報処理方法、及びプログラム
(51)【国際特許分類】
   G06F 16/903 20190101AFI20220118BHJP
   G06F 16/907 20190101ALI20220118BHJP
   G16B 99/00 20190101ALI20220118BHJP
【FI】
G06F16/903
G06F16/907
G16B99/00
【請求項の数】 9
(21)【出願番号】P 2018564532
(86)(22)【出願日】2018-01-19
(86)【国際出願番号】 JP2018001594
(87)【国際公開番号】W WO2018139361
(87)【国際公開日】2018-08-02
【審査請求日】2020-10-14
(31)【優先権主張番号】P 2017012340
(32)【優先日】2017-01-26
(33)【優先権主張国・地域又は機関】JP
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成29年度、文部科学省、「ライフサイエンスデータベース統合推進事業」、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】100106909
【弁理士】
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100188558
【弁理士】
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(72)【発明者】
【氏名】黒川 顕
(72)【発明者】
【氏名】東 光一
(72)【発明者】
【氏名】森 宙史
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特表2007-518972(JP,A)
【文献】特開2012-080790(JP,A)
【文献】国際公開第2014/046646(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G16B 99/00
(57)【特許請求の範囲】
【請求項1】
サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得するサンプルデータ取得部と、
複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する生成部と、
を備える
情報処理システム。
【請求項2】
前記生成部は、少なくとも一部の前記生物的要素と当該生物的要素の量を示す情報の組を複数含む基準生物要素集合、及び、少なくとも一部の前記形態素と当該形態素の出現回数の組を複数含む基準形態素集合を対応付けた基準データを、複数の前記サンプルデータの前記解析に基づいて、複数取得し、
前記サンプルデータが示す第1集合は、複数の前記基準データのうち、第1の基準データが示す基準生物要素集合と、第2の基準データが示す基準生物要素集合とを含み、当該サンプルデータが示す第2集合は、前記第1の基準データが示す基準形態素集合と、第2の基準データが示す基準形態素集合とを含む
請求項1に記載された情報処理システム。
【請求項3】
前記生成部は、トピックモデルを用いてトピックを推定し、前記トピックを前記基準データとして取得する
請求項2に記載された情報処理システム。
【請求項4】
前記基準データを記憶する記憶部と、
前記生物的要素又は前記形態素の少なくともいずれかを示す検索クエリを取得する取得部と、
前記検索クエリに関連する前記基準データを抽出する抽出部と、
を備える請求項2又は請求項3に記載の情報処理システム。
【請求項5】
前記生物的要素は、微生物である
請求項1から請求項4のいずれか一項に記載の情報処理システム。
【請求項6】
前記生物的要素は、生体分子である
請求項1から請求項4のいずれか一項に記載の情報処理システム。
【請求項7】
情報処理システムが、
サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得する第1ステップと、
複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する第2ステップと、
を含む
情報処理方法。
【請求項8】
コンピュータに、
サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得する第1ステップと、
複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する第2ステップと、
を含む
プログラム。
【請求項9】
サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得するサンプルデータ取得部と、
複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する生成部と、
を備える
情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法、及びプログラムに関する。
本願は、2017年1月26日に日本に出願された特願2017-012340号について優先権を主張し、その内容をここに援用する。
【背景技術】
【0002】
近年のDNA(DeoxyriboNucleic Acid)シーケンシング技術の著しい発展を背景として、多様な自然環境から取得した微生物群集のサンプルに含まれるDNA配列を網羅的にシーケンシングすることで、自然環境中に生息する微生物群集を明らかにするメタゲノム解析が盛んに行われている。微生物群集のサンプルは、微生物群集を構成する細菌種を変数とすることで、その構造をデータとして表現することができる。
以下では、微生物群集構造を示すデータを微生物群集構造データと称する。微生物群集を構成する細菌の種数は膨大である。そのため、微生物群集構造データを記述するには、しばしば数百の変数が必要となる。
【先行技術文献】
【非特許文献】
【0003】
【文献】Knights, Dan, et al. "Bayesian community-wide culture-independent microbial source tracking." Nature methods 8.9 (2011): 761-763.
【文献】Blei, David M., and Michael I. Jordan. "Modeling annotated data." Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval. ACM, 2003.
【文献】Maaten, Laurens van der, and Geoffrey Hinton. "Visualizing data using t-SNE." Journal of Machine Learning Research 9.Nov (2008): 2579-2605.
【文献】van der Maaten, Laurens. "Learning a parametric embedding by preserving local structure." RBM 500 (2009): 500.
【文献】Henschel, Andreas, Muhammad Zohaib Anwar, and Vimitha Manohar. "Comprehensive meta-analysis of ontology annotated 16S rRNA profiles identifies beta diversity clusters of environmental bacterial communities." PLoS ComputBiol 11.10 (2015): e1004468.
【文献】Arumugam, Manimozhiyan, et al. "Enterotypes of the human gut microbiome." nature 473.7346 (2011): 174-180.
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、それぞれの自然環境に特有の微生物群集構造を特定するためには、膨大な数の微生物群集構造データについて、それぞれのサンプルを取得した環境を示す環境ラベルが適切に付与されたデータが必要となる。しかしながら、人手によるラベリングは、データ量が爆発的な勢いで増加している現状において限界がある。
また、これまでには注目されてこなかった新たな環境に由来する微生物群集構造が次々に明らかにされている現在、それらを取り込みながら適切な粒度で定義された環境ラベルの語彙体系(オントロジー)を設計することにも手間がかかる。
【0005】
さらには、ひとつのサンプルにひとつの環境ラベルを付与する手法では、複数の環境の中間的な性質を持ったサンプルを適切に評価することができない。例えば、非特許文献1では、ある微生物群集構造をいくつかの環境の微生物群集構造の混合状態としてモデル化することが提案されている。しかしながら、非特許文献1の手法では、混合元の基準の微生物群集構造をユーザが設定する必要があるため、あらゆるサンプルに対応するような基準の微生物群集構造を適切に設計することは困難である。
以上のように、微生物群集の解釈や利用は困難であったため、微生物群集の解釈や利用を容易にすることが望まれている。また、微生物群集に関係するようなゲノムの情報のみならず、近年では、遺伝子産物、代謝産物等の多様な生体分子群についての情報(メタトランスクリプトーム、メタボローム)が大量に蓄積されてきており、生体分子群の解釈や利用を容易にすることが望まれている。
【0006】
本発明のいくつかの態様は、微生物群集や生体分子群の解釈や利用を容易にすることができる情報処理システム、情報処理方法、及びプログラムを提供することを目的の一つとする。
【0007】
また、本発明の他の態様は、後述する実施形態に記載した作用効果を奏することを可能にする情報処理システム、情報処理方法、及びプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0008】
上述した課題を解決するために、本発明の一態様は、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得するサンプルデータ取得部と、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する生成部と、を備える情報処理システムである。
【0009】
また、本発明の別の一態様は、情報処理システムが、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得する第1ステップと、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する第2ステップと、を含む情報処理方法である。
【0010】
また、本発明の別の一態様は、コンピュータに、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得する第1ステップと、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する第2ステップと、を含むプログラムである。
【発明の効果】
【0011】
本発明の態様によれば、微生物群集や生体分子群の解釈や利用を容易にすることができる。
【図面の簡単な説明】
【0012】
図1】本発明の第1の実施形態に係るメタゲノム情報処理システムの概要を示す模式図である。
図2】同実施形態に係るメタゲノム情報処理システムの構成を示すブロック図である。
図3】同実施形態に係る端末装置の構成を示すブロック図である。
図4】同実施形態に係るメタゲノム情報処理装置の構成を示すブロック図である。
図5】同実施形態に係る自然言語記述データのデータ構成を示す図である。
図6】同実施形態に係る微生物群集構造データのデータ構成を示す図である。
図7】同実施形態に係るメタゲノム情報処理システムによるメタゲノムモデルの生成処理の流れを示すシーケンスチャートである。
図8】同実施形態に係るメタゲノム情報処理システムによる表示画面の第1例を示す図である。
図9】同実施形態に係るメタゲノム情報処理システムによる表示画面の第2例を示す図である。
図10】同実施形態に係るメタゲノム情報処理システムによる新規サンプルの予測処理の流れを示すシーケンスチャートである。
図11】同実施形態に係るメタゲノム情報処理システムによる表示画面の第3例を示す図である。
図12】同実施形態に係るメタゲノム情報処理システムによる表示画面の第4例を示す図である。
図13】同実施形態に係るメタゲノム情報処理システムによる検索処理の流れを示すシーケンスチャートである。
図14】同実施形態に係るメタゲノム情報処理システムによる表示画面の第5例を示す図である。
図15】同実施形態に係るメタゲノム情報処理システムが演算した検索クエリに対するスコアの例を示す図である。
図16】同実施形態に係るメタゲノムデータのデータ構成を示す図である。
図17】同実施形態に係るメタボロームデータのデータ構成を示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の一実施形態について、図面を参照して説明する。
[第1の実施形態]
〔メタゲノム情報処理システム1の概要〕
本発明の第1の実施形態について説明する。
メタゲノム情報処理システム1は、メタゲノム解析を支援する情報処理システムである。メタゲノム情報処理システム1が解析対象とするサンプルデータペアは、例えば、微生物群集のサンプルごとに、微生物群集構造データ(系統組成データ)と、自然言語記述データとを対応付けたデータである。微生物群集構造データには、例えば、サンプルに含まれる微生物の識別情報や当該微生物の量を示す数的情報等が記述される。自然言語記述データには、例えば、サンプルの取得環境、すなわち微生物の生息環境を示す環境ラベル等の単語(文字列)の情報や当該単語の出現回数を示す数的情報等が記述される。
【0014】
以上のように、本実施形態に係るサンプルは、微生物の側面と文字列の側面とを有する。サンプルデータペアとしては、例えば、公共塩基配列データベースに登録されているメタゲノムサンプルの塩基配列データ及びサンプルの詳細等を自然言語で記述したアノテーションデータを加工して用いることができる。以下では、加工前のサンプルデータペアを入力サンプルデータペアと称し、加工後のサンプルデータペアを加工サンプルデータペアと称することがある。
【0015】
図1は、本実施形態に係るメタゲノム情報処理システム1の概要を示す模式図である。
図1は、メタゲノム情報処理システム1により生成されたメタゲノムモデルを二次元平面に表した画像を示す。このメタゲノムモデル画像MDは、自然環境から取得された多数のサンプルのそれぞれを、複数の潜在的環境因子の一次結合として表現する確率モデル(関数)である。換言すると、潜在的環境因子とは、サンプルを、その混合により表現することができる単位(要素)である。上記のようにサンプルは、微生物の側面と文字列の側面とを有するため、潜在的環境因子もまた、微生物の側面と文字列の側面とを有する。つまり、潜在的環境因子とは、微生物群集の単位(サブコミュニティ、部分群集)であって、且つ、文字列集合の単位(単語サブセット)である。以下では、微生物群集の単位を、単位微生物群集と称する。また、文字列集合の単位を、単位文字列集合と称する。
【0016】
図1に示す例では、二次元平面上に配置されたプロット(点)が個々のサンプルに対応し、プロットよりも大きな円が潜在的環境因子に対応する。例えば、土壌細菌群集のサンプル群Sは、5つの潜在的環境因子E-1~E-5の一次結合として表現されている。各サンプルの位置は、潜在的環境因子の混合比に対応している。例えば、潜在的環境因子E-1に近い位置に配置されたサンプルは、潜在的環境因子E-1を高い比率で含む。
【0017】
メタゲノム情報処理システム1は、全てのサンプルが潜在的環境因子の混合により表されると仮定したメタゲノムモデルを、多数のサンプルを用いた機械学習により生成する。
換言すると、メタゲノム情報処理システム1は、潜在的環境因子を取得する。
これにより、メタゲノム情報処理システム1は、潜在的環境因子を取得し、サンプルを潜在的環境因子の混合として表現する。つまり、メタゲノム情報処理システム1は、サンプルと潜在的環境因子との関係を明確にする。よって、メタゲノム情報処理システム1は、サンプルの解釈を容易にすることができる。
【0018】
〔メタゲノム情報処理システム1の構成〕
次に、メタゲノム情報処理システム1の構成について説明する。
図2は、メタゲノム情報処理システム1の構成を示すブロック図である。
メタゲノム情報処理システム1は、1以上の端末装置10-1、10-2、…と、メタゲノム情報処理装置30と、サンプル蓄積装置50と、を備える。以下では、端末装置10-1、10-2、…を特に区別しない場合には、端末装置10と総称する。端末装置10と、メタゲノム情報処理装置30と、サンプル蓄積装置50とは、それぞれ、ネットワークNWを介して互いに通信することができる。
【0019】
端末装置10は、コンピュータシステムを備える電子機器である。具体的には、端末装置10は、パーソナルコンピュータ、スマートフォン、タブレット端末、PHS(Personal Handyphone System)端末、携帯電話機等であってよい。
端末装置10は、ユーザから操作入力を受け付けたり、ユーザに対して情報を提示したりするためのユーザインターフェースを提供する。
【0020】
メタゲノム情報処理装置30は、コンピュータシステムを備える電子機器である。具体的には、メタゲノム情報処理装置30は、ウェブサーバ等であってよい。メタゲノム情報処理装置30は、サンプル蓄積装置50に蓄積された入力サンプルデータペアに基づいて、潜在的環境因子の存在を仮定したメタゲノムモデルを取得する機能を有する。また、メタゲノム情報処理装置30は、メタゲノムモデルに基づく新規サンプルの予測(解析)機能を提供する。また、メタゲノム情報処理装置30は、メタゲノムモデルに基づく検索機能を提供する。
【0021】
サンプル蓄積装置50は、コンピュータシステムを備える電子機器である。具体的には、サンプル蓄積装置50は、ウェブサーバ等であってよい。サンプル蓄積装置50は、多数の入力サンプルデータペアを蓄積する。入力サンプルデータペアは、例えば、各地の研究者等から、公共利用できるように投稿(アップロード)されたデータであってよい。例えば、サンプル蓄積装置50として、Sequence Read Archive (https://www.ncbi.nlm.nih.gov/sra)等の公共塩基配列データベースを利用してよい。サンプル蓄積装置50は、他の装置から受信したサンプルデータペアを記憶したり、他の装置により要求されたサンプルデータペアを、要求元の装置に送信したりする。
【0022】
〔端末装置10の構成〕
次に端末装置10の構成について説明する。
図3は、端末装置10の構成を示すブロック図である。
端末装置10は、通信部11と、入力部12と、表示部13と、記憶部14と、制御部15と、を備える。
通信部11は、通信モジュールを備え、ネットワークNWに接続する他の装置と通信する。
入力部12は、マウス、タッチパッド等のポインティングデバイス、キーボード等の入力モジュールを備え、ユーザによる操作入力を受け付ける。
表示部13は、液晶ディスプレイパネル等の表示モジュールを備え、各種情報を表示する。
【0023】
記憶部14は、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disc Drive)、フラッシュメモリ等の記憶モジュールを備え、端末装置10が備えるCPU(Central Processing Unit)が実行するための各種プログラム等の各種データを記憶する。記憶部14は、入力サンプル記憶部141を備える。
入力サンプル記憶部141は、入力サンプルデータペアを記憶する。
【0024】
制御部15は、端末装置10の各構成を制御する。制御部15は、例えば、端末装置10のCPUが、記憶部14に記憶されたプログラムを実行することにより機能する。また、例えば、制御部15の一部又は全部は、ASIC(Application Specific Integrated Circuit)等の集積回路であってもよい。制御部15は、入力サンプル投稿部151と、モデル提示部152と、サンプル予測要求部153と、モデル検索要求部154と、を備える。
【0025】
入力サンプル投稿部151は、入力部12を介して、又は、入力サンプル記憶部141から、入力サンプルデータペアを取得する。入力サンプル記憶部141は、取得した入力サンプルデータペアを、サンプル蓄積装置50に投稿する。換言すると、入力サンプル投稿部151は、入力サンプルデータペアを、サンプル蓄積装置50に送信し、記憶させる。
【0026】
モデル提示部152は、メタゲノム情報処理装置30から、図1に示すようなメタゲノムモデルの画像データを取得する。モデル提示部152は、取得したメタゲノムモデルの画像を、表示部13に表示させる。
【0027】
サンプル予測要求部153は、メタゲノムモデルを用いた予測機能を提供するための画面を、表示部13に表示させる。サンプル予測要求部153は、入力部12を介して、ユーザから解析対象のサンプルの指定を受け付ける。サンプル予測要求部153は、指定されたサンプルについて、メタゲノム情報処理装置30にメタゲノムモデルを用いた予測を要求する。サンプル予測要求部153は、メタゲノム情報処理装置30から予測結果を取得すると、表示部13に予測結果を表示する。
【0028】
モデル検索要求部154は、メタゲノムモデルを用いた検索機能を提供するための画面を、表示部13に表示させる。モデル検索要求部154は、入力部12を介して、ユーザから検索クエリを取得する。モデル検索要求部154は、取得した検索クエリに基づいて、メタゲノム情報処理装置30にメタゲノムモデルを用いた検索を要求する。モデル検索要求部154は、メタゲノム情報処理装置30から検索結果を取得すると、表示部13に検索結果を表示する。
【0029】
〔メタゲノム情報処理装置30の構成〕
次に、メタゲノム情報処理装置30の構成について説明する。
図4は、メタゲノム情報処理装置30の構成を示すブロック図である。
メタゲノム情報処理装置30は、通信部31と、記憶部32と、制御部34と、を備える。
通信部31は、通信モジュールを備え、ネットワークNWに接続する他の装置と通信する。
【0030】
記憶部32は、ROM、RAM、HDD、フラッシュメモリ等の記憶モジュールを備え、メタゲノム情報処理装置30が備えるCPUが実行するための各種プログラム等の各種データを記憶する。記憶部32は、加工サンプル記憶部331と、モデル記憶部332と、を備える。
【0031】
加工サンプル記憶部331は、加工サンプルデータペアを記憶する。ここで、加工サンプルデータペアの自然言語記述データと、微生物群集構造データと、の具体例について説明する。
【0032】
図5は、自然言語記述データのデータ構成を示す図である。
図5に示す例において、自然言語記述データは、サンプルID(IDentifier)と、語彙情報と、出現回数情報と、を互いに対応付けて構成される。サンプルIDとは、微生物群集のサンプルを一意に識別する情報である。文字列情報とは、環境ラベル等の文字列を示す情報である。出現回数情報とは、文字列情報が示す文字列の出現回数を示す情報である。このように、自然言語記述データは、サンプルの特徴を、言語的側面から量的に表現したデータである。
【0033】
図6は、微生物群集構造データの例を示す図である。
図6に示す例において、自然言語記述データは、サンプルID(IDentifier)と、微生物名情報と、量情報と、を互いに対応付けて構成される。サンプルIDは、自然言語記述データにおけるものと同様である。つまり、サンプルIDを介して、自然言語記述データと微生物群集構造データは、互いに対応付けられている。微生物名情報とは、微生物の識別情報であり、例えば微生物の名称を示す情報である。量情報とは、微生物名情報が示す微生物の量を示す情報である。このように、微生物群集構造データは、サンプルの特徴を、遺伝的側面から量的に表現したデータである。
【0034】
図4に戻り、メタゲノム情報処理装置30の構成について説明を続ける。
モデル記憶部332は、メタゲノムモデルのデータを記憶する。
【0035】
制御部34は、メタゲノム情報処理装置30の各構成を制御する。制御部34は、例えば、メタゲノム情報処理装置30のCPUが、記憶部32に記憶されたプログラムを実行することにより機能する。また、例えば、制御部34の一部又は全部は、ASIC等の集積回路であってもよい。制御部34は、サンプル取得部341と、テキスト処理部342と、系統組成処理部343と、モデル生成部344と、サンプル予測部345と、モデル検索部346と、を備える。
【0036】
サンプル取得部341は、通信部31を介して、端末装置10、サンプル蓄積装置50等から入力サンプルデータペア又は加工サンプルデータペアを取得する。
【0037】
テキスト処理部342は、入力サンプルデータペアのアノテーションデータを、メタゲノムモデルの生成に適した態様に加工して、加工サンプルデータペア用の自然言語記述データを生成する。具体的には、テキスト処理部342は、形態素解析、レンマ化(動詞の原形への変換、複数形の単数形への変換等)、不要文字列の除去等を行なう。例えば、テキスト処理部342は、English stop words、_(アンダーバー)やコロンを含む文字列、URL(Uniform Rsource Locator)、塩基配列を含む文字列(例えば、A、T、C、Gを所定割合以上含む文字列)、サンプルに依存しない普遍的な単語(genome、metagenome)等を除去する。また、テキスト処理部342は、単語毎に出現回数(頻度)をカウントする。
【0038】
系統組成処理部343は、入力サンプルデータペアの塩基配列データを参照して、加工サンプルデータペア用の微生物群集構造データを生成する。具体的には、系統組成処理部343は、塩基配列データに記述された塩基配列に基づいて、微生物を特定し、各微生物の出現回数(リード数)をカウントする。なお、微生物は、例えば、同一の系統分類階級に対応させて特定する。具体的には、属のレベルや種のレベルに系統分類階級を統一してよい。
【0039】
モデル生成部344は、加工サンプルデータペアに基づいて、メタゲノムモデルを生成する。ここで、メタゲノムモデルの生成処理について説明する。本実施形態では、メタゲノムモデルの生成のために、トピックモデルと呼ばれる確率モデルの一種である「対応トピックモデル」(非特許文献2)を利用した学習を実施する。
【0040】
まず、解析対象のデータとしてD個のデータが与えられたとする。以下の数式において太字で示された変数は集合を表す。また、説明の便宜上、数式における太字の変数は、本文では、変数に対して太字を括弧書きで示すこととする。メタゲノムモデルの生成に用いるデータペアの集合は、以下の式(1)で表現される。
【0041】
【数1】
【0042】
微生物群集構造データの集合は、以下の式(2)で表現される。
【0043】
【数2】
【0044】
自然言語記述データの集合は、以下の式(3)で表現される。
【0045】
【数3】
【0046】
各データペアdは微生物群集構造データw(太字)と、自然言語記述データt(太字)を含む。d(d=1~D)番目のデータは以下の式(4)~(7)で表現される。
【0047】
【数4】
【0048】
式(4)において、w(太字)は、加工サンプルデータペアdにおける微生物群集構造データを表し、微生物群集がN個の微生物の集合で構成されている場合に、式(4)および式(5)のwdnは、データペアdにおけるn番目の微生物の分類を表す。式(5)におけるWは、微生物群集構造データにおいて出現した微生物の種類の総数を表す。式(6)におけるt(太字)はデータペアdにおける自然言語記述データを表し、文字列集合がM個の単語の集合で構成されている場合に、式(6)および式(7)のtdmは、文字列集合におけるm番目の単語の種類を表す。式(7)におけるTは、自然言語記述データにおいて出現した単語の種類の総数(語彙数)を表す。
【0049】
それぞれのデータの潜在的環境因子は、対応トピックモデルにおける「トピック」として推定する。トピックモデルにおいては、データに出現する単語等、データ中のそれぞれの要素は潜在的なトピックを持つと仮定する。微生物群集構造データが帰属するトピックの集合Z(太字)は以下の式(8)で表される。
【0050】
【数5】
【0051】
式(8)において、zdnは、d番目の微生物群集構造データのn番目の微生物のトピックを表す。
【0052】
【数6】
【0053】
式(9)において、Zはあらかじめ設定するトピックの総数、すなわち潜在的環境因子の総数を表す。
各データの自然言語記述データも、それぞれ潜在的なトピックを持つ。自然言語記述データが帰属するトピックの集合C(太字)は以下の式(10)で表される。
【0054】
【数7】
【0055】
式(10)において、cdmは、d番目の自然言語記述データのm番目の単語のトピックを表す。
【0056】
【数8】
【0057】
式(11)において、自然言語記述データのトピックも微生物群集構造データのトピックと同一のトピック数Zである。zdn=cdmの場合、d番目のデータのn番目の微生物と、d番目のデータのm番目の単語は、同一のトピック、すなわち潜在的環境因子に帰属すると考える。ZおよびCは、データから推論する未知パラメータである。
【0058】
未知パラメータの推論は、データセット全体に関して、微生物群集構造データW(太字)、自然言語記述データT(太字)、微生物群集の潜在トピック(単位微生物群集)Z(太字)、自然言語の潜在トピック(単位文字列集合)C(太字)に関する同時確率分布について、以下の式(12)で表現される尤度を計算し、何らかの最適化計算によって尤度を最大化したときのパラメータとして決定する。
【0059】
【数9】
【0060】
式(12)においてP(・)は確率分布を表す。
式(12)右辺第一項の確率分布P(Z(太字)|α)は式(13)で表され、データに出現するトピックは、ハイパーパラメータとしてα(z = 1~Z)を持つディリクレ分布を事前分布とした、多項分布θ~Dirichlet(α(太字))に従って生成されたという仮定を表現している。
【0061】
【数10】
【0062】
式(13)において、θ(太字)(d=1~D)はデータペアdのトピックの生成確率である多項分布を表す。式(13)のθ(太字)を積分消去することによって、以下の式(14)を得る。
【0063】
【数11】
【0064】
式(14)においてΓ(・)はガンマ関数を表す。Nzdはデータペアdでトピックzを割り当てられた微生物の数を表す。
式(12)右辺第二項の確率分布P(W(太字)|Z(太字),β)は以下の式(15)で表され、微生物群集構造データの微生物は、その潜在トピックがzであるとき、ハイパーパラメータβを持つディリクレ分布を事前分布とした、多項分布φ~Dirichlet(β)に従って生成されたという仮定を表現している。式(14)と同様の積分消去を行うことで式(15)を得る。
【0065】
【数12】
【0066】
式(15)において、Nzwは微生物wにトピックzが割り当てられた数を表す。Nは、データセット全体でトピックzを割り当てられた微生物の数を表す。
式(12)右辺第三項の確率分布P(C(太字)|Z(太字))は式(16)で表され、自然言語記述データの単語は、微生物群集構造データに割り当てられたトピックの分布と同じ比率の多項分布から生成されたという仮定を表現している。
【0067】
【数13】
【0068】
式(16)において、Mzdは、データペアdでトピックzを割り当てられた自然言語記述データ中の単語の数を表す。
式(12)右辺第四項の確率分布P(T(太字)|C(太字),γ)は式(17)で表され、自然言語記述データの単語は、その潜在トピックがcであるとき、ハイパーパラメータγを持つディリクレ分布を事前分布とした、多項分布ψ~ Dirichlet(γ)に従って生成されたという仮定を表現している。式(14)と同様の積分消去を行うことで式(17)が得られる。
【0069】
【数14】
【0070】
式(17)において、Mztは単語tにトピックzが割り当てられた数を表す。Mは、データセット全体でトピックzを割り当てられた単語の数を表す。
本実施形態では、以上の式に含まれる微生物群集構造データの潜在トピックZ(太字)、及び、自然言語記述データの潜在トピックC(太字)についての事後分布を、マルコフ連鎖モンテカルロ法の一種である崩壊型ギブスサンプリングによって推論することとした。
【0071】
まず、データセット全体の微生物群集構造データと自然言語記述データの各要素の潜在トピックをz∈{1,…,Z}を要素とする一様分布でランダムに初期化しておく。
ギブスサンプリングの各ステップで、以下の式(18)、式(19)に応じて、微生物群集構造データと自然言語記述データの各要素の潜在トピックをサンプリングする。ギブスサンプリングのステップは、式(12)の同時尤度が収束するまで繰り返す。
微生物群集構造データに関して、データペアdのn番目の微生物の潜在トピックzのサンプリング確率は式(18)で表される。
【0072】
【数15】
【0073】
以下では、説明の便宜上、数式のバックスラッシュを、本文ではスラッシュ/で記載する。式(18)において、Z(太字)/dnは、トピック集合Z(太字)から、データペアdのn番目の微生物のトピックを除いた集合を示す。Nkd/dnは、zdnをkとしたときに、データペアd中のn番目を除いた微生物に関してトピックkに割り当てられた微生物の数を表す。Nkwdn/dnは、zdnをkとしたときに、Z(太字)/dn中で微生物wdnがトピックkに割り当てられた数を表す。Nk/dnは、zdnをkとしたときに、Z(太字)/dn中のトピックkの数を表す。
自然言語記述データに関して、データペアdのn番目の単語の潜在トピックcのサンプリング確率は式(19)で表される。
【0074】
【数16】
【0075】
式(19)において、C(太字)/dmは、トピック集合C(太字)から、データペアdのm番目の単語のトピックを除いた集合を示す。Nkdは、cdmをkとしたときに、データペアdにおいてトピックkに割り当てられた微生物の数を表す。Mktdm/dmは、cdmをkとしたときに、C(太字)/dm中で単語tdmがトピックkに割り当てられた数を表す。Mk/dmは、cdmをkとしたときに、C(太字)/dm中のトピックkの数を表す。
【0076】
なお、本実施形態では、微生物群集構造データのトピック生成多項分布の事前分布であるディリクレ分布として非対称ディリクレ分布を採用し、ハイパーパラメータαがトピックごとに異なるとした。これは、これまでの研究で微生物群集構造が解析されたサンプルは、ヒト腸内から取得されたものなどに大きく偏っているため、おそらく潜在的なトピックの出現確率にもデータセット全体で大きな偏りが存在すると推測され、そのような偏りに適したモデルとするためである。Z個のハイパーパラメータα、およびハイパーパラメータβ、γは、適当な初期値を設定して、ギブスサンプリングの各ステップで以下の式(20)~(22)に従って更新する。
【0077】
【数17】
【0078】
式(20)、式(21)、式(22)において、Ψ(・)は式(23)で定義されるディガンマ関数を表す。
【0079】
【数18】
【0080】
また、式(20)、式(21)、式(22)において^を付されたハイパーパラメータは、ギブスサンプリングの1ステップ前の値である。
十分なステップ数のギブスサンプリングによる繰り返し演算によって式(12)で表される同時尤度が収束した段階で、サンプルごとのトピック生成確率、すなわち潜在的環境因子の混合割合θdzを式(24)で、トピックごとの微生物生起確率、すなわち潜在的環境因子ごとの微生物群集サブコミュニティの構成φzwを式(25)で、トピックごとの単語生起確率、すなわち潜在的環境因子ごとの自然言語記述データ生成確率ψztを式(26)で推定する。
【0081】
【数19】
【0082】
以上の演算処理によって、データペアに含まれるすべてのサンプルについて、サンプルごとの潜在的環境因子の混合割合が推定され、すなわちそれぞれのサンプルがZ次元の実数値ベクトルとして表現される。演算結果は、モデル記憶部332に記憶される。
【0083】
次に、これらのZ次元実数値ベクトルで表現されたデータペアを可視化し、サンプル間のZ次元空間上での比較解析を実行する手法を説明する。
Z次元実数値ベクトルの可視化では、何らかの次元削減手法によって二次元あるいは三次元空間内にサンプル点を配置する手法が有効であり、主成分分析や多次元尺度構成法など様々な次元削減手法を適用可能である。ここでは、一例として、高次元空間におけるサンプル点間の局所的な関係性を保持しつつ低次元空間へのサンプル点の埋め込みを可能とする手法であるt-SNE(t-distributed Stochastic Neighbor Embedding)(非特許文献3)を採用する場合について説明する。
【0084】
t-SNEではまず、高次元空間内のサンプル点間のユークリッド距離を、サンプル点間の類似性を表現する条件付き確率に変換する。サンプル点iのサンプル点jに対する条件付き確率pj|iは、iを中心とする正規分布を考え、以下の式(27)で表現される。
【0085】
【数20】

式(27)でx,xはそれぞれサンプル点i,jの高次元空間上の座標を表し、σは、xを中心とした正規分布の分散を表現するパラメータである。また、式(27)で||・||は、サンプル点x,x間のユークリッドノルムを表す。
【0086】
さらに、サンプル中に存在する外れ値に対処するために、条件付き確率を対称化してサンプル点x,xの同時確率を以下の式(28)で定義する。
【0087】
【数21】
【0088】
式(28)で、nはサンプル点の総数を表す。
低次元空間内の点i,jについても、同様の同時確率を定義することができる。t-SNEでは、低次元空間と高次元空間の体積の違いに適切に対処するために、低次元空間内のサンプル点間の同時確率については正規分布ではなく、正規分布よりも裾の重いt分布を扱う。これにより、高次元空間で距離の離れたサンプル点間の低次元空間内での距離をより遠くに引き離すことが可能となる。低次元空間上のサンプル点i,jの座標をy,yとしたとき、サンプル点iとjの同時確率qijを式(29)で定義する。
【0089】
【数22】
【0090】
低次元空間における座標y(太字)は、以下の式(30)で表される損失関数を最小化することによって決定する。
【0091】
【数23】
【0092】
式(30)でKL(P||Q)は、同時確率pとqのカルバック・ライブラー情報量を表す。
式(30)の最小化によって得られる低次元空間上の座標yは、高次元空間上のサンプル間の距離的な特徴をできるだけ保持した表現となる。
【0093】
ここで、式(30)の直接的な最適化計算によって低次元空間座標を得る手法では、新しいサンプルのZ次元表現を予測して既存のサンプルと比較する際に、新しいサンプルを含むデータセット全体に対して最適化計算をやり直さなければならない。この場合、サンプルすべての低次元空間上の座標が新しいサンプルの入力のたびに変化してしまう可能性がある。
【0094】
そこで本実施形態では、Z次元実数値ベクトルを入力とし二次元座標を出力する、t-SNEと同じ振る舞いを持った関数をニューラルネットワークによって近似することで、単一のサンプルのみを用いた低次元空間座標の特定を可能とする手法を採用する。この手法は非特許文献4で提案され、parametric t-SNEと呼ばれる。この手法により、既存サンプルの低次元空間内座標が固定され、新たなサンプルの低次元空間内座標のみが計算されるため、計算コストを低減することができる。
【0095】
フィードフォワードニューラルネットワークによる高次元空間から低次元空間への座標変換を関数f:X→Yとすると、低次元空間におけるサンプル点iとjの同時確率は式(31)で表される。
【0096】
【数24】
【0097】
式(31)で、W(太字)はニューラルネットワークの重みの集合である。
ニューラルネットワークの重みは、通常のt-SNEと同様に式(30)を損失関数として、適切に学習率を設定したミニバッチ確率的勾配降下法などの最適化計算を実施して学習する。
【0098】
非特許文献4では4つの制限ボルツマンマシンに関してそれぞれ事前学習を行い、それらをスタックすることで全体のフィードフォワードニューラルネットワークを構成していた。本実施形態では、一例として、より簡便に4層のフィードフォワードニューラルネットワークを構成し、第4層を除くすべての層におけるノードの活性化関数を正規化線形関数(ReLU;Rectified Linear Unit)として非線形変換を施すことで、事前学習を行わず、既存サンプルのすべてを用いてミニバッチ確率的勾配降下法を適用することで重みを学習する。
以上により、各加工サンプルデータペアを二次元平面上に配置した画像を生成することができる。
【0099】
図4に戻り、メタゲノム情報処理装置30の構成について説明を続ける。
サンプル予測部345は、モデル生成部344が生成したメタゲノムモデルを用いて、新規サンプルにおける潜在的環境因子の混合割合の予測(解析)を行う。サンプル予測部345は、新規サンプルの微生物群集構造データを、端末装置10から取得する。サンプル予測部345は、メタゲノムモデルのトピック生成確率のハイパーパラメータα、及び、トピック毎の微生物生起確率φを利用して、新規サンプルにおける潜在的環境因子の混合割合を推定する。
【0100】
サンプル予測部345は、ギブスサンプリングにより新規サンプルにおける潜在的環境因子の混合割合を推定する。サンプル予測部345は、新規サンプルのデータペアdの微生物群集構造データに含まれるn番目の微生物wについて、潜在トピックzを、zdnをkとしたときの微生物wの生起確率を示す以下の式(32)に従ってサンプリングする。
【0101】
【数25】
【0102】
式(32)において、φkwは式(25)により既存サンプルを用いて学習されたパラメータであり、αは既存サンプルを用いて学習されたトピック生成確率のハイパーパラメータである。また、式(32)において、Nkd/dnは、データペアd中のn番目を除いた微生物に関してトピックkに割り当てられた微生物の数を、Nd/dnはデータペアdに含まれる微生物の総数から1を引いた数を表す。十分な回数のギブスサンプリング繰り返し演算が実行された後、新規サンプルの潜在的環境因子の混合割合は、式(24)の計算によって特定される。
【0103】
そして、新規サンプルの潜在的環境因子はZ次元実数値ベクトルとして表現され、既存サンプルで学習したフィードフォワードニューラルネットワークによって低次元空間上の座標に変換される。変換された座標を用いて既存サンプルと同一の二次元平面上に配置することにより、新規サンプルの既存のすべてのサンプルとの比較が可能となる。
【0104】
モデル検索部346は、モデル生成部344が生成したメタゲノムモデルを用いて、検索を実行する。モデル生成部344は、検索において、それぞれの潜在的環境因子における自然言語記述データの生成確率ψ、及び、それぞれの加工サンプルデータペアにおける潜在的環境因子の混合割合θを利用する。検索クエリは、1以上の単語、或いは、文章等の任意の文字列であってよい。
まず、検索クエリを単語毎に分割し、検索単語集合q(太字)={q}(n=1~N)を構成する。その後、モデル検索部346は、学習に用いた加工サンプルデータペアそれぞれのスコアを計算する。加工サンプルデータペアdについてのスコアは、以下の(33)で計算される。
【0105】
【数26】
【0106】
すなわち、加工サンプルデータペアdが検索クエリqを生成する確率をスコアとする。モデル検索部346は、スコアの高い加工サンプルデータペアdに記述された情報を検索結果として出力する。
【0107】
〔メタゲノム情報処理システム1の動作〕
次に、メタゲノム情報処理システム1の動作について説明する。
まず、メタゲノムモデルの生成におけるメタゲノム情報処理システム1の動作について説明する。
図7は、メタゲノム情報処理システム1によるメタゲノムモデルの生成処理の流れを示すシーケンスチャートである。
(ステップS10)メタゲノム情報処理装置30は、サンプル蓄積装置50からメタゲノムモデルの生成に用いる入力サンプルデータペアを要求する。ここで、メタゲノム情報処理装置30は、メタゲノムモデルの生成に十分な量の多数の入力サンプルデータペアを要求する。その後、メタゲノム情報処理システム1は、ステップS12に処理を進める。
【0108】
(ステップS12)サンプル蓄積装置50は、メタゲノム情報処理装置30に対して、入力サンプルデータペアを送信する。その後、メタゲノム情報処理システム1は、ステップS14に処理を進める。
(ステップS14)メタゲノム情報処理装置30は、サンプル蓄積装置50から取得した入力サンプルデータペアから加工サンプルデータペアを生成する。その後、メタゲノム情報処理システム1は、ステップS16に処理を進める。
(ステップS16)メタゲノム情報処理装置30は、加工サンプルデータペアを用いて学習を行い、メタゲノムモデルを生成する。その後、メタゲノム情報処理システム1は、図7に示す処理を終了する。
【0109】
図7の処理により生成されたメタゲノムモデルの潜在的環境因子は、端末装置10において表示することができる。ここで、潜在的環境因子の表示の具体例について、図1図8図9を参照して説明する。
【0110】
図1に示す例において、メタゲノムモデル画像MDは、Sequence Read Archive(SRA)より取得した約3万のメタゲノムサンプルから生成したモデルである。それぞれのサンプルに含まれる塩基配列データについて、属レベルの系統分類階級でアノテーションを行い、微生物群集構造データに変換した。また、SRAの“Description”をはじめとしたサンプルに関する記述データを取得し、前記処理によってサンプル毎に自然言語記述データ(Bag of words)に変換した。変換後の加工サンプルデータペアを用いて潜在的環境因子を抽出し、二次元平面上にマッピング(空間埋め込み)を行った。
【0111】
それぞれのサンプルは潜在的環境因子の混合割合の類似性に応じて配置されている。そのため、メタゲノムモデル画像MD上で距離が近いサンプル間では潜在的環境因子の混合割合が類似している。また、ここでは、上記のように構築した座標変換関数に対してOne hot vector(ある潜在的環境因子が1であり、それ以外の潜在的環境因子が0となる実数値ベクトル)を投入して得られた座標上に、その潜在的環境因子に対応した写真を同時にマッピングしている。従って、潜在的環境因子に近接した位置に存在するサンプルは、その潜在的環境因子の混合割合がきわめて高いサンプルであることを意味する。
【0112】
メタゲノムモデル画像MDを観察することによって、どのような潜在的環境因子が混合し得るか、或いは、どのような環境間の中間的な性質を持った微生物群集構造が観測され得るか、といった情報を抽出することができる。メタゲノムモデル画像MD上で便宜的にラベルを付した6つの大きなクラスタ(海洋細菌群集、土壌細菌群集、皮膚細菌群集、口腔内細菌群集、膣内細菌群集、腸内細菌群集)はそれぞれ独立しており、クラスタ間の中間的な性質を持つサンプルはほとんど存在しない。一方、それぞれのクラスタの中ではサンプルの性質が連続的に推移しており、たとえば土壌細菌群集のクラスタ内部では、土の因子E-3から森林の因子E-4へ、あるいは土の因子E-3から河川の因子E-1へと、サンプルが連続的に推移している。
【0113】
メタゲノムモデル画像MDの表示は、インタラクティブなウェブアプリケーションとして実装されてよい。
例えば、メタゲノムモデル画像MDにおいて、サンプルのプロット(例えば、S-1)がクリックされると、メタゲノム情報処理システム1は、図8に表示を遷移させ、サンプルの微生物群集構造、及び、潜在的環境因子の混合割合を棒グラフGRで表示する等してサンプルに関する情報を提示してもよい。また、潜在的環境因子(例えば、E-6)がクリックされると、メタゲノム情報処理システム1は、図9に表示を遷移させ、その因子に対応した単語の生成確率、及び、微生物群集INを表示する等して潜在的環境因子に関する情報を提示してもよい。
【0114】
次に、新規サンプルの潜在的環境因子の予測におけるメタゲノム情報処理システム1の動作について説明する。
図10は、メタゲノム情報処理システム1による新規サンプルの予測処理の流れを示すシーケンスチャートである。
【0115】
(ステップS20)端末装置10は、ユーザから予測対象の新規サンプルの指定を受け付ける。例えば、端末装置10は、図11に示すアップロードファイル選択欄ULにおいて、新規サンプルの指定を受け付けてよい。その後、メタゲノム情報処理システム1は、ステップS22に処理を進める。
(ステップS22)端末装置10は、新規サンプルの入力サンプルデータペアをメタゲノム情報処理装置30に送信する。その後、メタゲノム情報処理システム1は、ステップS24に処理を進める。
【0116】
(ステップS24)メタゲノム情報処理装置30は、端末装置10から取得した入力サンプルデータペアを用いて、加工サンプルデータペアを生成する。その後、メタゲノム情報処理システム1は、ステップS26に処理を進める。
(ステップS26)メタゲノム情報処理装置30は、ステップS24の処理で生成した加工サンプルデータペアとメタゲノムモデルとを用いて、新規サンプルの潜在的環境因子を予測する。その後、メタゲノム情報処理システム1は、ステップS28に処理を進める。
【0117】
(ステップS28)メタゲノム情報処理装置30は、予測結果を端末装置10に送信する。その後、メタゲノム情報処理システム1は、ステップS30に処理を進める。
(ステップS30)端末装置10は、メタゲノム情報処理装置30から取得した予測結果を表示する。例えば、端末装置10は、図12のメタゲノムモデル画像MD1のように、予測したサンプルのプロットNSのみを表示することで、サンプルの予測結果を強調表示してよい。また、サンプルの微生物群集やサンプルを構成する潜在的環境因子を棒グラフGR1で表示すること等により予測結果を表示してもよい。その後、メタゲノム情報処理システム1は、図10に示す処理を終了する。
【0118】
次に、メタゲノムモデルを用いた検索におけるメタゲノム情報処理システム1の動作について説明する。
図13は、メタゲノム情報処理システム1による検索処理の流れを示すシーケンスチャートである。
【0119】
(ステップS40)端末装置10は、ユーザから検索クエリの入力を受け付ける。例えば、端末装置10は、図14に示す検索クエリ入力欄QUへの文字列の入力や、検索クエリを記述したデータの指定を受け付ける。その後、メタゲノム情報処理システム1は、ステップS42に処理を進める。
(ステップS42)端末装置10は、メタゲノム情報処理装置30に検索クエリを送信する。その後、メタゲノム情報処理システム1は、ステップS44に処理を進める。
【0120】
(ステップS44)メタゲノム情報処理装置30は、端末装置10から取得した検索クエリを自然言語記述データに変換する。その後、メタゲノム情報処理システム1は、ステップS46に処理を進める。
(ステップS46)メタゲノム情報処理装置30は、ステップS44で変換した自然言語記述データとメタゲノムモデルを用いて、加工サンプルデータペアを抽出する。例えば、メタゲノム情報処理装置30は、図15に示すように、メタゲノムモデルの生成に用いた加工サンプルデータペア毎に検索クエリに対するスコアを算出し、スコアの高いサンプルを特定する。その後、メタゲノム情報処理システム1は、ステップS48に処理を進める。
【0121】
(ステップS48)メタゲノム情報処理装置30は、検索結果を端末装置10に送信する。その後、メタゲノム情報処理システム1は、ステップS50に処理を進める。
(ステップS48)端末装置10は、メタゲノム情報処理装置30から取得した検索結果を表示する。例えば、端末装置10は、図14に示すメタゲノムモデル画像MD2のように、サンプルのプロットをスコアに応じた輝度で表示することにより、検索クエリと関連性の高いサンプルを強調表示する。その後、メタゲノム情報処理システム1は、図13に示す処理を終了する。
【0122】
このようにメタゲノムモデルを検索に利用することで、サンプルの自然言語記述データを対象とした完全一致検索ではなく、潜在的環境因子を介した柔軟なサンプルの検索が可能となる。例えば、検索クエリとして、Hot spring waterという3単語を指定して、スコアの上位10サンプルを表示した場合(図15)、10サンプルには温泉環境から取得したサンプルが多く含まれる。他方、スコアの上位5番目に位置するサンプルSRS005698は、その自然言語記述データに、hot、spring、waterのいずれの単語も含まない。しかしながら、SRS005698は、温泉に生息する細菌であるThermogymnomonasを多く含んでいる。つまり、メタゲノムモデルにおいて、SRS005698は、きわめて温泉的な環境である、と予測されているために、Hot spring waterという検索クエリによる検索で抽出されている。このように、検索単語による直接的な検索ではなく、潜在的環境因子を経由した検索結果を表示することによって、検索クエリを微生物群集構造の観点において表現しているサンプルを取得することが可能となる。
【0123】
〔本実施形態のまとめ〕
近年の研究から、微生物群集構造データは、全変数の空間上で乱雑に分布しているわけではなく、サンプルを取得した環境(由来)に応じて特有の微生物存在量のパターンを有していることが明らかになってきた。例えば、河川から取得したサンプルであれば淡水に特有の微生物群集構造を持ち、海洋から取得したサンプルであれば海水に特有の微生物群集構造を持つことが報告されている(非特許文献5)。その一方で、いくつかの環境においては、人間が認識する環境のパターンと微生物群集構造のパターンとが必ずしも一致しない例も報告されている。例えば、ヒト腸内の微生物群集構造に関する先行研究では、人種や性別によらない3パターンの腸内微生物群集構造が存在することが報告され、エンテロタイプという概念が提唱された(非特許文献6)。すなわち、多様なパターンを示すヒト腸内微生物群集構造のすべてを「ヒト腸内」という単一のラベルのみで、まとめて取り扱うことは妥当ではない。つまり、微生物群集構造の観点からは、人間の認識と異なる粒度で環境のパターンを定義することが必要である。
【0124】
さらに、問題は環境のパターンの定義の粒度だけに留まらない。自然環境の多くは離散的なラベルで分節化できるものではなく、時間・空間的に連続的な系である。例えば、同一の「河川」というラベルを付された環境であっても、源流域、都市部を流れる河川流域、及び河口部では、それぞれに存在する微生物群集構造は異なる。そして、これらの微生物群集構造は連続的に変化するため、厳密な分節化は不可能である。
【0125】
以上のように、微生物群集構造は、第1に、既存の自然環境の定義と必ずしも一致しない多様なパターンを取りうる、第2に、それらのパターンは離散的にクラスタリングできるものではなく連続的に変化しうる、という特徴を持っている。今後、ヒトの健康状態の診断、自然環境の診断、環境をコントロールする技術等の微生物群集構造の計測を用いた技術の開発を行っていくためには、これら微生物群集構造の特徴を考慮した微生物群集構造の比較解析手法が必要である。
【0126】
この点、微生物群集構造データの連続性は、サンプル中の微生物群集がいくつかのサブコミュニティの混合によって構成されていると仮定することでモデル化することができる。たとえば河口部から採取されたサンプル中の微生物群集であれば、淡水に生息する微生物群集のサブコミュニティと、海洋に生息する微生物群集のサブコミュニティが混ぜ合わさった状態としてモデル化することができる。
【0127】
このように、微生物群集構造データを、いくつかの環境に由来する微生物群集が混ぜ合わさった状態であると仮定して、その由来環境を推定する技術にソーストラッカー(SourceTracker)がある(非特許文献1)。ソーストラッカーは、ソースコミュニティ(Source community)としていくつかの微生物群集構造データをユーザが設定し、新規サンプルをそれらのソースコミュニティの混合としてモデリングするソフトウェアである。
【0128】
ソーストラッカーを利用することで、ソースコミュニティがそれぞれどのくらいの割合で混ぜ合わさった結果として新規サンプルが得られたのかを推定することができ、新規サンプルにおいて他環境からの混入や汚染が生じているかを評価することができる。しかしながら、ユーザが設定するソースコミュニティもまた微生物群集構造データであるため、それらもまたいくつかのサブコミュニティが混合したデータの可能性がある。新規サンプルもソースコミュニティも混合データである場合、前述のモデルの仮定が妥当とはならず、適切なモデル化が不可能となる。したがって、混入や汚染の経路が明確でない場合は、混合の要素となるソースコミュニティを適切に設定することは困難である。
【0129】
この点、以上説明してきたように、本実施形態によるメタゲノム情報処理システム1(情報処理システムの一例)は、1以上の微生物を含む微生物群集と1以上の文字列を含む文字列集合とを対応付けたサンプルデータ(例えば、加工サンプルデータペア)を取得するサンプル取得部341(サンプルデータ取得部の一例)と、サンプルデータが示す微生物群集の少なくとも一部の微生物を含む基準微生物群集と当該サンプルデータが示す文字列集合の少なくとも一部の文字列を含む基準文字列集合とを対応付けた基準データ(例えば、潜在的環境因子)を、複数のサンプルデータに基づいて取得するモデル生成部344(基準データ取得部の一例)と、を備え、サンプルデータが示す微生物群集は、基準データ取得部が取得した基準データのうち、第1の基準データが示す基準微生物群集と、第2の基準データが示す基準微生物群集とを含み、当該サンプルデータが示す文字列集合は、第1の基準データが示す基準文字列集合と、第2の基準データが示す基準文字列集合とを含む。
【0130】
これにより、メタゲノム情報処理システム1は、既存のサンプルから、潜在的環境因子を特定する。つまり、メタゲノム情報処理システム1は、人手では困難な潜在的環境因子を特定する作業を自動化することができる。また、潜在的環境因子の特定を機械学習により行うことにより、定量的且つ網羅的に潜在的環境因子を特定することができるため、潜在的環境因子が、他の因子の組み合わせになってしまうリスクや潜在環境因子を見落としてしまうリスクを低減することができる。よって、メタゲノム情報処理システム1は、微生物群集の解釈や利用を容易にすることができる。
【0131】
また、メタゲノム情報処理システム1は、潜在的環境因子の混合割合に基づいて、サンプルを二次元空間上に適切に射影するための関数を構成する。
これにより、メタゲノム情報処理システム1は、サンプル同士の関係を容易に確認可能とする。
【0132】
また、メタゲノム情報処理システム1は、基準データの取得に用いられていないサンプルデータ(例えば、新規サンプルの加工サンプルデータペア)が示す微生物群集と文字列集合との組を構成する基準データを特定するサンプル予測部345(特定部の一例)、を備える。
【0133】
これにより、メタゲノム情報処理システム1は、新規サンプルについても潜在的環境因子を特定するため、例えば、二次元平面上に新規サンプルを他のサンプルと配置することができる。よって、メタゲノム情報処理システム1は、既存のすべてのサンプルと、新規サンプルとの比較を容易にすることができる。
【0134】
また、メタゲノム情報処理システム1は、サンプルデータは、微生物群集における各微生物の割合と、文字列集合における各文字列の割合とを含み、基準データは、基準微生物群集における各微生物の割合と、基準文字列集合における各文字列の割合とを含む。
【0135】
これにより、メタゲノム情報処理システム1は、サンプル間の関係を、潜在的環境因子の混合割合に基づいて、正確に表現することができる。
【0136】
また、メタゲノム情報処理システム1は、1以上の微生物を含む基準微生物群集と1以上の文字列を含む基準文字列集合とを対応付けた基準データ(例えば、潜在的環境因子)を記憶する記憶部32(記憶部の一例)と、検索クエリを取得するモデル検索要求部154(取得部の一例)と、検索クエリに関連する基準データを抽出するモデル検索部346(抽出部の一例)と、を備える。
【0137】
これにより、メタゲノム情報処理システム1は、メタゲノムモデルを用いた検索を行う。従って、検索クエリに対する単なる文字列の合致ではなく、微生物群集の特性における検索クエリとの類似を判定して、検索を行うことができる。よって、メタゲノム情報処理システム1は、微生物群集の解釈や利用を容易にすることができる。
【0138】
[変形例]
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成は上述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。例えば、上述の実施形態において説明した各構成は、任意に組み合わせることができる。また、例えば、上述の実施形態において説明した各構成は、特定の機能を発揮するのに不要である場合には、省略することができる。
【0139】
なお、メタゲノム情報処理システム1は、上述した第1の実施形態で説明した以外にも、種々の情報をユーザに提示してよい。例えば、メタゲノム情報処理システム1は、2つのサンプル間の相違の程度を提示してもよい。同じ潜在的環境因子を含む2つのサンプルについて、その差分に対応する個々の潜在的環境因子の割合を提示してもよい。例えば、差分の潜在的環境因子の微生物群集を一方のサンプルの環境に添加することで、他方のサンプルの環境に近づけられる。これにより、病理的な(望ましくない)微生物群集の環境を、健康的な(望ましい)微生物群集の環境にすることも可能かもしれない。また、例えば、メタゲノム情報処理システム1は、サンプルの潜在的環境因子からの乖離の程度を提示してもよい。例えば、潜在的環境因子が病態と密接に関連しているのであれば、乖離の程度から健全度を推定することも可能かもしれない。
【0140】
なお、メタゲノム情報処理システム1は、異なる環境で取得されたサンプルだけでなく、同じ環境で異なるタイミングで取得されたサンプルを解析してもよい。このような時系列サンプルを解析することにより、ある環境の微生物群集の変化を追跡することができる。この場合、メタゲノム情報処理システム1は、微生物群集の経時的変化に応じて、例えば、望ましくない群集に変化した、或いは、しつつある場合に、警告を提示してもよい。
【0141】
なお、上述した第1の実施形態では、微生物群集構造データを解析する場合について説明したがこれには限られない。上述したように、メタゲノム情報処理システム1は、同一サンプルに係る二種類の自然数カウントデータ(微生物群集構造データ、及び、自然言語記述データ)からそれらの対応関係を潜在的環境因子として抽出し、潜在的環境因子の類似性に基づいて可視化をすることによってサンプルの連続性の評価や検索を実行するシステムである。換言すると、同一サンプルに係る二種類の自然数カウントデータを用意することにより、微生物群集構造データ以外の生物学データを解析することも可能である。
【0142】
例えば、微生物群集の系統解析に用いられる16S rRNA(ribosomal RiboNucleic Acid)、18S rRNA、23S rRNA等のリボソーム小サブユニットRNAの塩基配列データ、メタゲノムデータ(遺伝子組成データ)、メタトランスクリプトームデータ(遺伝子発現量データ)、メタボロームデータ(代謝産物データ)等の生物学データを解析対象として自然数カウントデータを生成してよい。この場合、実験によって得られた塩基配列データや質量分析データを自然数カウントデータへと変換する。つまり、生体分子を量的に表現するデータを生成する。ここでいう生体分子とは、生物の体内に存在する分子、或いは、生物により合成される分子であり、例えば、DNA、RNA等の核酸、アミノ酸、ペプチド、タンパク質、糖質、脂質、ホルモン等を含む。また、量とは、存在量(発現量)や活性等である。以下では、第1の実施形態とは異なる生物学データを解析する場合の構成について説明する。
【0143】
[変形例1:メタゲノムデータ]
まずは、メタゲノムデータを解析対象とする場合について説明する。メタゲノムデータを解析する場合には、微生物群集構造データを、メタゲノムデータに置き換える。
図16は、メタゲノムデータのデータ構造を示す図である。
図16に示す例において、メタゲノムデータは、サンプルIDと、遺伝子名情報と、量情報と、を互いに対応付けて構成される。遺伝子名情報とは、遺伝子産物の識別情報であり、例えば、遺伝子産物の名称である。ここでいう、遺伝子産物とは、機能性RNAやタンパク質を含む。量情報とは、遺伝子名情報が示す遺伝子産物の量を示す情報である。このように、メタゲノムデータは、サンプルの特徴を、遺伝子産物の側面から量的に表現したデータである。
【0144】
まず、環境サンプルから得られたメタゲノムショットガンリードに対してメタゲノム配列アセンブリを実行してコンティグやスキャッフォールドのセットを構成する。アセンブリの際には、メタゲノムデータに特化した種々の配列アセンブリツールを使用したde-novoアセンブリなどを実施可能である。次に、構成したコンティグやスキャッフォールドから遺伝子予測ツールを使用して遺伝子領域を予測し、それらの遺伝子配列を取得する。
【0145】
次に、コンティグやスキャッフォールドに対してメタゲノムショットガンリードをマッピングした結果から、予測された遺伝子配列のリードカバレッジを計算し、リードカバレッジ情報からそれぞれの遺伝子の存在量を推定する。この際に、遺伝子領域の長さに比例してリードが観測される確率も増加するため、遺伝子の存在量推定において遺伝子領域の長さによる補正を行うことが必要である。存在量データは基本的に実数値として計算されるため、もっとも近い整数値に丸め込む処理などによって、整数値データに変換する。
【0146】
最後に、予測された遺伝子領域の機能を推定するために、種々のアミノ酸配列データベースに対して配列類似性検索を実行する。配列類似性に基づいてそれぞれの遺伝子領域に機能を割り当てる。
【0147】
以上の処理によって、遺伝子産物と各遺伝子産物の存在量とを示す自然数カウントデータとして、メタゲノムデータを取得することができる。自然言語記述データは、第1の実施形態と同様に、各サンプルの詳細等を自然言語で記述したデータを加工して取得することができる。そして、メタゲノムデータと自然言語記述データとを用いて第1の実施形態と同様の処理を行い、サンプルのそれぞれを、複数の潜在的因子の一次結合として表現する確率モデルを生成すれば、遺伝子産物の基準集合と文字列の基準集合との対応関係を抽出することができる。
【0148】
[変形例2:メタトランスクリプトームデータ]
次に、メタトランスクリプトームデータを解析対象とする場合について説明する。メタトランスクリプトームデータを解析する場合には、微生物群集構造データを、メタトランスクリプトームデータに置き換える。メタトランスクリプトームデータのデータ構成は、メタゲノムデータと同様であるため、説明を省略する。ただし、メタトランスクリプトームデータの場合は、遺伝子産物が主にmRNA(Messenger RNA)であることが異なる。
【0149】
メタトランスクリプトームデータの生成について説明する。メタトランスクリプトームの場合は、サンプル中に大量に存在するrRNAの影響を低減するために、シーケンス前のサンプル精製において、或いは、シーケンス後の情報処理において、rRNAを適切に除去することが必要である。
【0150】
次に、得られたリードを既知の微生物ゲノム配列へマッピングする。或いは、メタゲノムデータの場合と同様に、アセンブリによってコンティグを形成して遺伝子予測を行い、リードマッピング結果と遺伝子の長さによる補正計算から遺伝子発現量を推定する。さらに、予測された遺伝子について、塩基配列データベースを用いて配列類似性検索を行い、機能推定する。
【0151】
以上の処理によって、mRNAと各mRNAの発現量とを示す自然数カウントデータとして、メタトランスクリプトームデータを取得することができる。自然言語記述データは、第1の実施形態と同様に、各サンプルの詳細等を自然言語で記述したデータを加工して取得することができる。そして、メタトランスクリプトームデータと自然言語記述データとを用いて第1の実施形態と同様の処理を行い、サンプルのそれぞれを、複数の潜在的因子の一次結合として表現する確率モデルを生成すれば、mRNAの基準集合と文字列の基準集合との対応関係を抽出することができる。
【0152】
[変形例3:メタボロームデータ]
次に、メタボロームデータを解析対象とする場合について説明する。メタボロームデータを解析する場合には、微生物群集構造データを、メタボロームデータに置き換える。
図17は、メタボロームデータのデータ構造を示す図である。
図17に示す例において、メタボロームデータは、サンプルIDと、分子名情報と、量情報と、を互いに対応付けて構成される。分子名情報とは、代謝産物等の分子の識別情報であり、例えば、分子の名称である。量情報とは、分子名情報が示す分子の量を示す情報である。このように、メタボロームデータは、サンプルの特徴を、分子の側面から量的に表現したデータである。
【0153】
次にメタボロームデータの生成について説明する。メタボロームデータの生成には、核磁気共鳴法、ガスクロマトグラフィー質量分析法、液体クロマトグラフィー質量分析法、キャピラリー電気泳動質量分析法等の技術によって取得された、環境サンプル中の代謝産物(複数の酵素反応の中間体や最終産物)等の小分子の網羅的測定結果を利用することが可能である。
【0154】
核磁気共鳴法の場合は化学シフト、質量分析法の場合は質量電荷比のスペクトルデータのパターンを分析し、サンプル中の代謝産物の種類の同定および量の推定を行う。スペクトルデータに対しては、周波数フィルタや閾値等によるノイズのフィルタリング、ピーク検出、クロマトグラフィー等による分離等の処理を行ってよい。また、質量分析法の場合は、スペクトルのアラインメント、サンプル間のピーク強度の正規化、異なる代謝産物のピークの重なりの分解等の処理を行ってよい。
【0155】
次に、参照スペクトルデータベースを用いた各ピークの代謝産物を同定するとともに、スペクトルピークの強度情報から各代謝産物の量を推定する。以上の処理によって、代謝産物(分子)と各代謝産物の濃度とを示す自然数カウントデータとして、メタボロームデータを取得することができる。自然言語記述データは、第1の実施形態と同様に、各サンプルの詳細等を自然言語で記述したデータを加工して取得することができる。そして、メタボロームデータと自然言語記述データとを用いて第1の実施形態と同様の処理を行い、サンプルのそれぞれを、複数の潜在的因子の一次結合として表現する確率モデルを生成すれば、代謝産物の基準集合と文字列の基準集合との対応関係を抽出することができる。
【0156】
以上のように、メタゲノムデータ、メタトランスクリプトームデータ、メタボロームデータをサンプルの自然言語記述データと対応させて解析してよい。これらのデータは最終的にはいずれも自然数カウントデータであるため、対応関係を抽出するもう一方の自然数カウントデータは必ずしもサンプル自然言語記述データである必要はない。具体的には、微生物群集構造データ、メタゲノムデータ、メタトランスクリプトームデータ、メタボロームデータ、自然言語記述データ等の任意の組み合わせに対して適用することが可能である。例えば、微生物群集構造データとメタボロームデータとをペアとして解析する場合、抽出される対応関係は、サンプル間で共起する基準微生物集合と基準代謝産物集合のペアとなる。
【0157】
つまり、上述したメタゲノム情報処理システム1は、解析対象のデータに応じた拡張が可能である。この情報処理システムは、例えば、1以上の第1の生物的要素(例えば、生物名や、遺伝子産物、代謝産物等の生体分子)を含む第1の要素集合と1以上の第2の生物的要素(例えば、生物名や、遺伝子産物、代謝産物等の生体分子のうち、第1の生物的要素とは異なるもの)を含む第2の要素集合とを対応付けたサンプルデータを取得するサンプルデータ取得部と、サンプルデータが示す第1の要素集合の少なくとも一部の第1の生物的要素を含む第1の基準要素集合と当該サンプルデータが示す第2の要素集合の少なくとも一部の第2の生物的要素を含む第2の基準要素集合とを対応付けた基準データを、複数のサンプルデータに基づいて取得する基準データ取得部と、を備え、サンプルデータが示す第1の要素集合は、基準データ取得部が取得した複数の基準データのうち、第1の基準データが示す第1の基準要素集合と、第2の基準データが示す第1の基準要素集合とを含み、当該サンプルデータが示す第2の要素集合は、第1の基準データが示す第2の基準要素集合と、第2の基準データが示す第2の基準要素集合とを含む。
【0158】
同様に、この情報処理システムは、例えば、上記第1の基準要素集合と上記第2の基準要素集合とを対応付けた基準データを記憶する記憶部と、前記第1の生物的要素と前記第2の生物的要素との少なくともいずれかを示す検索クエリを取得する取得部と、前記検索クエリに関連する前記基準データを抽出する抽出部と、を備える。
なお、第2の生物的要素に代えて、文字列を適用してもよいことは、上述した通りである。
【0159】
本実施形態の一態様は、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得するサンプルデータ取得部と、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する生成部と、を備える情報処理システムである。
【0160】
本実施形態の一態様は、上記情報処理システムにおいて、前記生成部は、少なくとも一部の前記生物的要素と当該生物的要素の量を示す情報の組を複数含む基準生物要素集合、及び、少なくとも一部の前記形態素と当該形態素の出現回数の組を複数含む基準形態素集合を対応付けた基準データを、複数の前記サンプルデータの前記解析に基づいて、複数取得し、前記サンプルデータが示す第1集合は、複数の前記基準データのうち、第1の基準データが示す基準生物要素集合と、第2の基準データが示す基準生物要素集合とを含み、当該サンプルデータが示す第2集合は、前記第1の基準データが示す基準形態素集合と、第2の基準データが示す基準形態素集合とを含む。
【0161】
本実施形態の一態様は、上記情報処理システムにおいて、前記生成部は、トピックモデルを用いてトピックを推定し、前記トピックを前記基準データとして取得する。
【0162】
本実施形態の一態様は、上記情報処理システムにおいて、前記基準データを記憶する記憶部と、前記生物的要素又は前記形態素の少なくともいずれかを示す検索クエリを取得する取得部と、前記検索クエリに関連する前記基準データを抽出する抽出部と、を備える。
【0163】
本実施形態の一態様は、上記情報処理システムにおいて、前記生物的要素は、微生物である。
【0164】
本実施形態の一態様は、上記情報処理システムにおいて、前記生物的要素は、生体分子である。
【0165】
本実施形態の一態様は、上記情報処理システムにおいて、情報処理システムが、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得する第1ステップと、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する第2ステップと、を含む。
【0166】
本実施形態の一態様は、上記情報処理システムにおいて、コンピュータに、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得する第1ステップと、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する第2ステップと、を含む。
【0167】
本実施形態の一態様は、上記情報処理システムにおいて、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得するサンプルデータ取得部と、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する生成部と、を備える。
【0168】
また、上述の端末装置10、メタゲノム情報処理装置30、サンプル蓄積装置50の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより端末装置10、メタゲノム情報処理装置30、サンプル蓄積装置50としての処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD-ROM等の非一過性の記録媒体であってもよい。また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部または外部に設けられた記録媒体も含まれる。配信サーバの記録媒体に記憶されるプログラムのコードは、端末装置で実行可能な形式のプログラムのコードと異なるものでもよい。すなわち、配信サーバからダウンロードされて端末装置で実行可能な形でインストールができるものであれば、配信サーバで記憶される形式は問わない。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に端末装置で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0169】
また、上述した端末装置10、メタゲノム情報処理装置30、サンプル蓄積装置50の機能の一部または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【産業上の利用可能性】
【0170】
本発明の一態様は、例えば、コンピュータ、サーバ、携帯端末(タブレット、スマートフォン)、集積回路、又はプログラム等において、利用することができる。
【符号の説明】
【0171】
1…メタゲノム情報処理システム、10…端末装置、11…通信部、12…入力部、13…表示部、14…記憶部、141…入力サンプル記憶部、15…制御部、151…入力サンプル投稿部、152…モデル提示部、153…サンプル予測要求部、154…モデル検索要求部、30…メタゲノム情報処理装置、31…通信部、32…記憶部、331…加工サンプル記憶部、332…モデル記憶部、34…制御部、341…サンプル取得部、342…テキスト処理部、343…系統組成処理部、344…モデル生成部、345…サンプル予測部、346…モデル検索部、50…サンプル蓄積装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17