特許7008979 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特許7008979情報処理システム、情報処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-01-14

(45)【発行日】2022-01-25

(54)【発明の名称】情報処理システム、情報処理方法、及びプログラム

(51)【国際特許分類】

G06F 16/903 20190101AFI20220118BHJP

G06F 16/907 20190101ALI20220118BHJP

G16B 99/00 20190101ALI20220118BHJP

【ＦＩ】

G06F16/903

G06F16/907

G16B99/00

【請求項の数】 9

(21)【出願番号】P 2018564532

(86)(22)【出願日】2018-01-19

(86)【国際出願番号】 JP2018001594

(87)【国際公開番号】W WO2018139361

(87)【国際公開日】2018-08-02

【審査請求日】2020-10-14

(31)【優先権主張番号】P 2017012340

(32)【優先日】2017-01-26

(33)【優先権主張国・地域又は機関】JP

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２９年度、文部科学省、「ライフサイエンスデータベース統合推進事業」、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】504202472

【氏名又は名称】大学共同利用機関法人情報・システム研究機構

(74)【代理人】

【識別番号】100106909

【弁理士】

【氏名又は名称】棚井澄雄

(74)【代理人】

【識別番号】100188558

【弁理士】

【氏名又は名称】飯田雅人

(74)【代理人】

【識別番号】100161207

【弁理士】

【氏名又は名称】西澤和純

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(72)【発明者】

【氏名】黒川顕

(72)【発明者】

【氏名】東光一

(72)【発明者】

【氏名】森宙史

【審査官】齊藤貴孝

(56)【参考文献】

【文献】特表２００７－５１８９７２（ＪＰ，Ａ）

【文献】特開２０１２－０８０７９０（ＪＰ，Ａ）

【文献】国際公開第２０１４／０４６６４６（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ１６Ｂ９９／００

(57)【特許請求の範囲】

【請求項1】

サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第１集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第２集合、を対応付けたサンプルデータを取得するサンプルデータ取得部と、
複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第１集合の関係を示す情報を生成する生成部と、
を備える
情報処理システム。

【請求項2】

前記生成部は、少なくとも一部の前記生物的要素と当該生物的要素の量を示す情報の組を複数含む基準生物要素集合、及び、少なくとも一部の前記形態素と当該形態素の出現回数の組を複数含む基準形態素集合を対応付けた基準データを、複数の前記サンプルデータの前記解析に基づいて、複数取得し、
前記サンプルデータが示す第１集合は、複数の前記基準データのうち、第１の基準データが示す基準生物要素集合と、第２の基準データが示す基準生物要素集合とを含み、当該サンプルデータが示す第２集合は、前記第１の基準データが示す基準形態素集合と、第２の基準データが示す基準形態素集合とを含む
請求項１に記載された情報処理システム。

【請求項3】

前記生成部は、トピックモデルを用いてトピックを推定し、前記トピックを前記基準データとして取得する
請求項２に記載された情報処理システム。

【請求項4】

前記基準データを記憶する記憶部と、
前記生物的要素又は前記形態素の少なくともいずれかを示す検索クエリを取得する取得部と、
前記検索クエリに関連する前記基準データを抽出する抽出部と、
を備える請求項２又は請求項３に記載の情報処理システム。

【請求項5】

前記生物的要素は、微生物である
請求項１から請求項４のいずれか一項に記載の情報処理システム。

【請求項6】

前記生物的要素は、生体分子である
請求項１から請求項４のいずれか一項に記載の情報処理システム。

【請求項7】

情報処理システムが、
サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第１集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第２集合、を対応付けたサンプルデータを取得する第１ステップと、
複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第１集合の関係を示す情報を生成する第２ステップと、
を含む
情報処理方法。

【請求項8】

コンピュータに、
サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第１集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第２集合、を対応付けたサンプルデータを取得する第１ステップと、
複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第１集合の関係を示す情報を生成する第２ステップと、
を含む
プログラム。

【請求項9】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム、情報処理方法、及びプログラムに関する。
本願は、２０１７年１月２６日に日本に出願された特願２０１７－０１２３４０号について優先権を主張し、その内容をここに援用する。

【背景技術】

【0002】

近年のＤＮＡ（ＤｅｏｘｙｒｉｂｏＮｕｃｌｅｉｃＡｃｉｄ）シーケンシング技術の著しい発展を背景として、多様な自然環境から取得した微生物群集のサンプルに含まれるＤＮＡ配列を網羅的にシーケンシングすることで、自然環境中に生息する微生物群集を明らかにするメタゲノム解析が盛んに行われている。微生物群集のサンプルは、微生物群集を構成する細菌種を変数とすることで、その構造をデータとして表現することができる。
以下では、微生物群集構造を示すデータを微生物群集構造データと称する。微生物群集を構成する細菌の種数は膨大である。そのため、微生物群集構造データを記述するには、しばしば数百の変数が必要となる。

【先行技術文献】

【非特許文献】

【0003】

【文献】Knights, Dan, et al. "Bayesian community-wide culture-independent microbial source tracking." Nature methods 8.9 (2011): 761-763.

【文献】Blei, David M., and Michael I. Jordan. "Modeling annotated data." Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval. ACM, 2003.

【文献】Maaten, Laurens van der, and Geoffrey Hinton. "Visualizing data using t-SNE." Journal of Machine Learning Research 9.Nov (2008): 2579-2605.

【文献】van der Maaten, Laurens. "Learning a parametric embedding by preserving local structure." RBM 500 (2009): 500.

【文献】Henschel, Andreas, Muhammad Zohaib Anwar, and Vimitha Manohar. "Comprehensive meta-analysis of ontology annotated 16S rRNA profiles identifies beta diversity clusters of environmental bacterial communities." PLoS ComputBiol 11.10 (2015): e1004468.

【文献】Arumugam, Manimozhiyan, et al. "Enterotypes of the human gut microbiome." nature 473.7346 (2011): 174-180.

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、それぞれの自然環境に特有の微生物群集構造を特定するためには、膨大な数の微生物群集構造データについて、それぞれのサンプルを取得した環境を示す環境ラベルが適切に付与されたデータが必要となる。しかしながら、人手によるラベリングは、データ量が爆発的な勢いで増加している現状において限界がある。
また、これまでには注目されてこなかった新たな環境に由来する微生物群集構造が次々に明らかにされている現在、それらを取り込みながら適切な粒度で定義された環境ラベルの語彙体系（オントロジー）を設計することにも手間がかかる。

【0005】

さらには、ひとつのサンプルにひとつの環境ラベルを付与する手法では、複数の環境の中間的な性質を持ったサンプルを適切に評価することができない。例えば、非特許文献１では、ある微生物群集構造をいくつかの環境の微生物群集構造の混合状態としてモデル化することが提案されている。しかしながら、非特許文献１の手法では、混合元の基準の微生物群集構造をユーザが設定する必要があるため、あらゆるサンプルに対応するような基準の微生物群集構造を適切に設計することは困難である。
以上のように、微生物群集の解釈や利用は困難であったため、微生物群集の解釈や利用を容易にすることが望まれている。また、微生物群集に関係するようなゲノムの情報のみならず、近年では、遺伝子産物、代謝産物等の多様な生体分子群についての情報（メタトランスクリプトーム、メタボローム）が大量に蓄積されてきており、生体分子群の解釈や利用を容易にすることが望まれている。

【0006】

本発明のいくつかの態様は、微生物群集や生体分子群の解釈や利用を容易にすることができる情報処理システム、情報処理方法、及びプログラムを提供することを目的の一つとする。

【0007】

また、本発明の他の態様は、後述する実施形態に記載した作用効果を奏することを可能にする情報処理システム、情報処理方法、及びプログラムを提供することを目的の一つとする。

【課題を解決するための手段】

【0008】

上述した課題を解決するために、本発明の一態様は、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第１集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第２集合、を対応付けたサンプルデータを取得するサンプルデータ取得部と、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第１集合の関係を示す情報を生成する生成部と、を備える情報処理システムである。

【0009】

また、本発明の別の一態様は、情報処理システムが、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第１集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第２集合、を対応付けたサンプルデータを取得する第１ステップと、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第１集合の関係を示す情報を生成する第２ステップと、を含む情報処理方法である。

【0010】

また、本発明の別の一態様は、コンピュータに、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第１集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第２集合、を対応付けたサンプルデータを取得する第１ステップと、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第１集合の関係を示す情報を生成する第２ステップと、を含むプログラムである。

【発明の効果】

【0011】

本発明の態様によれば、微生物群集や生体分子群の解釈や利用を容易にすることができる。

【図面の簡単な説明】

【0012】

【図1】本発明の第１の実施形態に係るメタゲノム情報処理システムの概要を示す模式図である。

【図2】同実施形態に係るメタゲノム情報処理システムの構成を示すブロック図である。

【図3】同実施形態に係る端末装置の構成を示すブロック図である。

【図4】同実施形態に係るメタゲノム情報処理装置の構成を示すブロック図である。

【図5】同実施形態に係る自然言語記述データのデータ構成を示す図である。

【図6】同実施形態に係る微生物群集構造データのデータ構成を示す図である。

【図7】同実施形態に係るメタゲノム情報処理システムによるメタゲノムモデルの生成処理の流れを示すシーケンスチャートである。

【図8】同実施形態に係るメタゲノム情報処理システムによる表示画面の第１例を示す図である。

【図9】同実施形態に係るメタゲノム情報処理システムによる表示画面の第２例を示す図である。

【図10】同実施形態に係るメタゲノム情報処理システムによる新規サンプルの予測処理の流れを示すシーケンスチャートである。

【図11】同実施形態に係るメタゲノム情報処理システムによる表示画面の第３例を示す図である。

【図12】同実施形態に係るメタゲノム情報処理システムによる表示画面の第４例を示す図である。

【図13】同実施形態に係るメタゲノム情報処理システムによる検索処理の流れを示すシーケンスチャートである。

【図14】同実施形態に係るメタゲノム情報処理システムによる表示画面の第５例を示す図である。

【図15】同実施形態に係るメタゲノム情報処理システムが演算した検索クエリに対するスコアの例を示す図である。

【図16】同実施形態に係るメタゲノムデータのデータ構成を示す図である。

【図17】同実施形態に係るメタボロームデータのデータ構成を示す図である。

【発明を実施するための形態】

【0013】

以下、本発明の一実施形態について、図面を参照して説明する。
[第１の実施形態]
〔メタゲノム情報処理システム１の概要〕
本発明の第１の実施形態について説明する。
メタゲノム情報処理システム１は、メタゲノム解析を支援する情報処理システムである。メタゲノム情報処理システム１が解析対象とするサンプルデータペアは、例えば、微生物群集のサンプルごとに、微生物群集構造データ（系統組成データ）と、自然言語記述データとを対応付けたデータである。微生物群集構造データには、例えば、サンプルに含まれる微生物の識別情報や当該微生物の量を示す数的情報等が記述される。自然言語記述データには、例えば、サンプルの取得環境、すなわち微生物の生息環境を示す環境ラベル等の単語（文字列）の情報や当該単語の出現回数を示す数的情報等が記述される。

【0014】

以上のように、本実施形態に係るサンプルは、微生物の側面と文字列の側面とを有する。サンプルデータペアとしては、例えば、公共塩基配列データベースに登録されているメタゲノムサンプルの塩基配列データ及びサンプルの詳細等を自然言語で記述したアノテーションデータを加工して用いることができる。以下では、加工前のサンプルデータペアを入力サンプルデータペアと称し、加工後のサンプルデータペアを加工サンプルデータペアと称することがある。

【0015】

図１は、本実施形態に係るメタゲノム情報処理システム１の概要を示す模式図である。
図１は、メタゲノム情報処理システム１により生成されたメタゲノムモデルを二次元平面に表した画像を示す。このメタゲノムモデル画像ＭＤは、自然環境から取得された多数のサンプルのそれぞれを、複数の潜在的環境因子の一次結合として表現する確率モデル（関数）である。換言すると、潜在的環境因子とは、サンプルを、その混合により表現することができる単位（要素）である。上記のようにサンプルは、微生物の側面と文字列の側面とを有するため、潜在的環境因子もまた、微生物の側面と文字列の側面とを有する。つまり、潜在的環境因子とは、微生物群集の単位（サブコミュニティ、部分群集）であって、且つ、文字列集合の単位（単語サブセット）である。以下では、微生物群集の単位を、単位微生物群集と称する。また、文字列集合の単位を、単位文字列集合と称する。

【0016】

図１に示す例では、二次元平面上に配置されたプロット（点）が個々のサンプルに対応し、プロットよりも大きな円が潜在的環境因子に対応する。例えば、土壌細菌群集のサンプル群Ｓは、５つの潜在的環境因子Ｅ－１～Ｅ－５の一次結合として表現されている。各サンプルの位置は、潜在的環境因子の混合比に対応している。例えば、潜在的環境因子Ｅ－１に近い位置に配置されたサンプルは、潜在的環境因子Ｅ－１を高い比率で含む。

【0017】

メタゲノム情報処理システム１は、全てのサンプルが潜在的環境因子の混合により表されると仮定したメタゲノムモデルを、多数のサンプルを用いた機械学習により生成する。
換言すると、メタゲノム情報処理システム１は、潜在的環境因子を取得する。
これにより、メタゲノム情報処理システム１は、潜在的環境因子を取得し、サンプルを潜在的環境因子の混合として表現する。つまり、メタゲノム情報処理システム１は、サンプルと潜在的環境因子との関係を明確にする。よって、メタゲノム情報処理システム１は、サンプルの解釈を容易にすることができる。

【0018】

〔メタゲノム情報処理システム１の構成〕
次に、メタゲノム情報処理システム１の構成について説明する。
図２は、メタゲノム情報処理システム１の構成を示すブロック図である。
メタゲノム情報処理システム１は、１以上の端末装置１０－１、１０－２、…と、メタゲノム情報処理装置３０と、サンプル蓄積装置５０と、を備える。以下では、端末装置１０－１、１０－２、…を特に区別しない場合には、端末装置１０と総称する。端末装置１０と、メタゲノム情報処理装置３０と、サンプル蓄積装置５０とは、それぞれ、ネットワークＮＷを介して互いに通信することができる。

【0019】

端末装置１０は、コンピュータシステムを備える電子機器である。具体的には、端末装置１０は、パーソナルコンピュータ、スマートフォン、タブレット端末、ＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙｐｈｏｎｅＳｙｓｔｅｍ）端末、携帯電話機等であってよい。
端末装置１０は、ユーザから操作入力を受け付けたり、ユーザに対して情報を提示したりするためのユーザインターフェースを提供する。

【0020】

メタゲノム情報処理装置３０は、コンピュータシステムを備える電子機器である。具体的には、メタゲノム情報処理装置３０は、ウェブサーバ等であってよい。メタゲノム情報処理装置３０は、サンプル蓄積装置５０に蓄積された入力サンプルデータペアに基づいて、潜在的環境因子の存在を仮定したメタゲノムモデルを取得する機能を有する。また、メタゲノム情報処理装置３０は、メタゲノムモデルに基づく新規サンプルの予測（解析）機能を提供する。また、メタゲノム情報処理装置３０は、メタゲノムモデルに基づく検索機能を提供する。

【0021】

サンプル蓄積装置５０は、コンピュータシステムを備える電子機器である。具体的には、サンプル蓄積装置５０は、ウェブサーバ等であってよい。サンプル蓄積装置５０は、多数の入力サンプルデータペアを蓄積する。入力サンプルデータペアは、例えば、各地の研究者等から、公共利用できるように投稿（アップロード）されたデータであってよい。例えば、サンプル蓄積装置５０として、ＳｅｑｕｅｎｃｅＲｅａｄＡｒｃｈｉｖｅ（ｈｔｔｐｓ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏv／ｓｒａ)等の公共塩基配列データベースを利用してよい。サンプル蓄積装置５０は、他の装置から受信したサンプルデータペアを記憶したり、他の装置により要求されたサンプルデータペアを、要求元の装置に送信したりする。

【0022】

〔端末装置１０の構成〕
次に端末装置１０の構成について説明する。
図３は、端末装置１０の構成を示すブロック図である。
端末装置１０は、通信部１１と、入力部１２と、表示部１３と、記憶部１４と、制御部１５と、を備える。
通信部１１は、通信モジュールを備え、ネットワークＮＷに接続する他の装置と通信する。
入力部１２は、マウス、タッチパッド等のポインティングデバイス、キーボード等の入力モジュールを備え、ユーザによる操作入力を受け付ける。
表示部１３は、液晶ディスプレイパネル等の表示モジュールを備え、各種情報を表示する。

【0023】

記憶部１４は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）、フラッシュメモリ等の記憶モジュールを備え、端末装置１０が備えるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が実行するための各種プログラム等の各種データを記憶する。記憶部１４は、入力サンプル記憶部１４１を備える。
入力サンプル記憶部１４１は、入力サンプルデータペアを記憶する。

【0024】

制御部１５は、端末装置１０の各構成を制御する。制御部１５は、例えば、端末装置１０のＣＰＵが、記憶部１４に記憶されたプログラムを実行することにより機能する。また、例えば、制御部１５の一部又は全部は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の集積回路であってもよい。制御部１５は、入力サンプル投稿部１５１と、モデル提示部１５２と、サンプル予測要求部１５３と、モデル検索要求部１５４と、を備える。

【0025】

入力サンプル投稿部１５１は、入力部１２を介して、又は、入力サンプル記憶部１４１から、入力サンプルデータペアを取得する。入力サンプル記憶部１４１は、取得した入力サンプルデータペアを、サンプル蓄積装置５０に投稿する。換言すると、入力サンプル投稿部１５１は、入力サンプルデータペアを、サンプル蓄積装置５０に送信し、記憶させる。

【0026】

モデル提示部１５２は、メタゲノム情報処理装置３０から、図１に示すようなメタゲノムモデルの画像データを取得する。モデル提示部１５２は、取得したメタゲノムモデルの画像を、表示部１３に表示させる。

【0027】

サンプル予測要求部１５３は、メタゲノムモデルを用いた予測機能を提供するための画面を、表示部１３に表示させる。サンプル予測要求部１５３は、入力部１２を介して、ユーザから解析対象のサンプルの指定を受け付ける。サンプル予測要求部１５３は、指定されたサンプルについて、メタゲノム情報処理装置３０にメタゲノムモデルを用いた予測を要求する。サンプル予測要求部１５３は、メタゲノム情報処理装置３０から予測結果を取得すると、表示部１３に予測結果を表示する。

【0028】

モデル検索要求部１５４は、メタゲノムモデルを用いた検索機能を提供するための画面を、表示部１３に表示させる。モデル検索要求部１５４は、入力部１２を介して、ユーザから検索クエリを取得する。モデル検索要求部１５４は、取得した検索クエリに基づいて、メタゲノム情報処理装置３０にメタゲノムモデルを用いた検索を要求する。モデル検索要求部１５４は、メタゲノム情報処理装置３０から検索結果を取得すると、表示部１３に検索結果を表示する。

【0029】

〔メタゲノム情報処理装置３０の構成〕
次に、メタゲノム情報処理装置３０の構成について説明する。
図４は、メタゲノム情報処理装置３０の構成を示すブロック図である。
メタゲノム情報処理装置３０は、通信部３１と、記憶部３２と、制御部３４と、を備える。
通信部３１は、通信モジュールを備え、ネットワークＮＷに接続する他の装置と通信する。

【0030】

記憶部３２は、ＲＯＭ、ＲＡＭ、ＨＤＤ、フラッシュメモリ等の記憶モジュールを備え、メタゲノム情報処理装置３０が備えるＣＰＵが実行するための各種プログラム等の各種データを記憶する。記憶部３２は、加工サンプル記憶部３３１と、モデル記憶部３３２と、を備える。

【0031】

加工サンプル記憶部３３１は、加工サンプルデータペアを記憶する。ここで、加工サンプルデータペアの自然言語記述データと、微生物群集構造データと、の具体例について説明する。

【0032】

図５は、自然言語記述データのデータ構成を示す図である。
図５に示す例において、自然言語記述データは、サンプルＩＤ（ＩＤｅｎｔｉｆｉｅｒ）と、語彙情報と、出現回数情報と、を互いに対応付けて構成される。サンプルＩＤとは、微生物群集のサンプルを一意に識別する情報である。文字列情報とは、環境ラベル等の文字列を示す情報である。出現回数情報とは、文字列情報が示す文字列の出現回数を示す情報である。このように、自然言語記述データは、サンプルの特徴を、言語的側面から量的に表現したデータである。

【0033】

図６は、微生物群集構造データの例を示す図である。
図６に示す例において、自然言語記述データは、サンプルＩＤ（ＩＤｅｎｔｉｆｉｅｒ）と、微生物名情報と、量情報と、を互いに対応付けて構成される。サンプルＩＤは、自然言語記述データにおけるものと同様である。つまり、サンプルＩＤを介して、自然言語記述データと微生物群集構造データは、互いに対応付けられている。微生物名情報とは、微生物の識別情報であり、例えば微生物の名称を示す情報である。量情報とは、微生物名情報が示す微生物の量を示す情報である。このように、微生物群集構造データは、サンプルの特徴を、遺伝的側面から量的に表現したデータである。

【0034】

図４に戻り、メタゲノム情報処理装置３０の構成について説明を続ける。
モデル記憶部３３２は、メタゲノムモデルのデータを記憶する。

【0035】

制御部３４は、メタゲノム情報処理装置３０の各構成を制御する。制御部３４は、例えば、メタゲノム情報処理装置３０のＣＰＵが、記憶部３２に記憶されたプログラムを実行することにより機能する。また、例えば、制御部３４の一部又は全部は、ＡＳＩＣ等の集積回路であってもよい。制御部３４は、サンプル取得部３４１と、テキスト処理部３４２と、系統組成処理部３４３と、モデル生成部３４４と、サンプル予測部３４５と、モデル検索部３４６と、を備える。

【0036】

サンプル取得部３４１は、通信部３１を介して、端末装置１０、サンプル蓄積装置５０等から入力サンプルデータペア又は加工サンプルデータペアを取得する。

【0037】

テキスト処理部３４２は、入力サンプルデータペアのアノテーションデータを、メタゲノムモデルの生成に適した態様に加工して、加工サンプルデータペア用の自然言語記述データを生成する。具体的には、テキスト処理部３４２は、形態素解析、レンマ化（動詞の原形への変換、複数形の単数形への変換等）、不要文字列の除去等を行なう。例えば、テキスト処理部３４２は、Ｅｎｇｌｉｓｈｓｔｏｐｗｏｒｄｓ、＿（アンダーバー）やコロンを含む文字列、ＵＲＬ（ＵｎｉｆｏｒｍＲｓｏｕｒｃｅＬｏｃａｔｏｒ）、塩基配列を含む文字列（例えば、Ａ、Ｔ、Ｃ、Ｇを所定割合以上含む文字列）、サンプルに依存しない普遍的な単語（ｇｅｎｏｍｅ、ｍｅｔａｇｅｎｏｍｅ）等を除去する。また、テキスト処理部３４２は、単語毎に出現回数（頻度）をカウントする。

【0038】

系統組成処理部３４３は、入力サンプルデータペアの塩基配列データを参照して、加工サンプルデータペア用の微生物群集構造データを生成する。具体的には、系統組成処理部３４３は、塩基配列データに記述された塩基配列に基づいて、微生物を特定し、各微生物の出現回数（リード数）をカウントする。なお、微生物は、例えば、同一の系統分類階級に対応させて特定する。具体的には、属のレベルや種のレベルに系統分類階級を統一してよい。

【0039】

モデル生成部３４４は、加工サンプルデータペアに基づいて、メタゲノムモデルを生成する。ここで、メタゲノムモデルの生成処理について説明する。本実施形態では、メタゲノムモデルの生成のために、トピックモデルと呼ばれる確率モデルの一種である「対応トピックモデル」（非特許文献２）を利用した学習を実施する。

【0040】

まず、解析対象のデータとしてＤ個のデータが与えられたとする。以下の数式において太字で示された変数は集合を表す。また、説明の便宜上、数式における太字の変数は、本文では、変数に対して太字を括弧書きで示すこととする。メタゲノムモデルの生成に用いるデータペアの集合は、以下の式（１）で表現される。

【0041】

【数1】

【0042】

微生物群集構造データの集合は、以下の式（２）で表現される。

【0043】

【数2】

【0044】

自然言語記述データの集合は、以下の式（３）で表現される。

【0045】

【数3】

【0046】

各データペアｄは微生物群集構造データｗ_ｄ（太字）と、自然言語記述データｔ_ｄ（太字）を含む。ｄ（ｄ＝１～Ｄ）番目のデータは以下の式（４）～（７）で表現される。

【0047】

【数4】

【0048】

式（４）において、ｗ_ｄ（太字）は、加工サンプルデータペアｄにおける微生物群集構造データを表し、微生物群集がＮ_ｄ個の微生物の集合で構成されている場合に、式（４）および式（５）のｗ_ｄｎは、データペアｄにおけるｎ番目の微生物の分類を表す。式（５）におけるＷは、微生物群集構造データにおいて出現した微生物の種類の総数を表す。式（６）におけるｔ_ｄ（太字）はデータペアｄにおける自然言語記述データを表し、文字列集合がＭ_ｄ個の単語の集合で構成されている場合に、式（６）および式（７）のｔ_ｄｍは、文字列集合におけるｍ番目の単語の種類を表す。式（７）におけるＴは、自然言語記述データにおいて出現した単語の種類の総数（語彙数）を表す。

【0049】

それぞれのデータの潜在的環境因子は、対応トピックモデルにおける「トピック」として推定する。トピックモデルにおいては、データに出現する単語等、データ中のそれぞれの要素は潜在的なトピックを持つと仮定する。微生物群集構造データが帰属するトピックの集合Ｚ（太字）は以下の式（８）で表される。

【0050】

【数5】

【0051】

式（８）において、ｚ_ｄｎは、ｄ番目の微生物群集構造データのｎ番目の微生物のトピックを表す。

【0052】

【数6】

【0053】

式（９）において、Ｚはあらかじめ設定するトピックの総数、すなわち潜在的環境因子の総数を表す。
各データの自然言語記述データも、それぞれ潜在的なトピックを持つ。自然言語記述データが帰属するトピックの集合Ｃ（太字）は以下の式（１０）で表される。

【0054】

【数7】

【0055】

式（１０）において、ｃ_ｄｍは、ｄ番目の自然言語記述データのｍ番目の単語のトピックを表す。

【0056】

【数8】

【0057】

式（１１）において、自然言語記述データのトピックも微生物群集構造データのトピックと同一のトピック数Ｚである。ｚ_ｄｎ＝ｃ_ｄｍの場合、ｄ番目のデータのｎ番目の微生物と、ｄ番目のデータのｍ番目の単語は、同一のトピック、すなわち潜在的環境因子に帰属すると考える。ＺおよびＣは、データから推論する未知パラメータである。

【0058】

未知パラメータの推論は、データセット全体に関して、微生物群集構造データＷ（太字）、自然言語記述データＴ（太字）、微生物群集の潜在トピック（単位微生物群集）Ｚ（太字）、自然言語の潜在トピック（単位文字列集合）Ｃ（太字）に関する同時確率分布について、以下の式（１２）で表現される尤度を計算し、何らかの最適化計算によって尤度を最大化したときのパラメータとして決定する。

【0059】

【数9】

【0060】

式（１２）においてＰ（・）は確率分布を表す。
式（１２）右辺第一項の確率分布Ｐ（Ｚ（太字）｜α）は式（１３）で表され、データに出現するトピックは、ハイパーパラメータとしてα_ｚ（ｚ＝１～Ｚ）を持つディリクレ分布を事前分布とした、多項分布θ_ｄ～Ｄｉｒｉｃｈｌｅｔ（α（太字））に従って生成されたという仮定を表現している。

【0061】

【数10】

【0062】

式（１３）において、θ_ｄ（太字）（ｄ＝１～Ｄ）はデータペアｄのトピックの生成確率である多項分布を表す。式（１３）のθ_ｄ（太字）を積分消去することによって、以下の式（１４）を得る。

【0063】

【数11】

【0064】

式（１４）においてΓ（・）はガンマ関数を表す。Ｎ_ｚｄはデータペアｄでトピックｚを割り当てられた微生物の数を表す。
式（１２）右辺第二項の確率分布Ｐ（Ｗ（太字）｜Ｚ（太字），β）は以下の式（１５）で表され、微生物群集構造データの微生物は、その潜在トピックがｚであるとき、ハイパーパラメータβを持つディリクレ分布を事前分布とした、多項分布φ_ｚ～Ｄｉｒｉｃｈｌｅｔ（β）に従って生成されたという仮定を表現している。式（１４）と同様の積分消去を行うことで式（１５）を得る。

【0065】

【数12】

【0066】

式（１５）において、Ｎ_ｚｗは微生物ｗにトピックｚが割り当てられた数を表す。Ｎ_ｚは、データセット全体でトピックｚを割り当てられた微生物の数を表す。
式（１２）右辺第三項の確率分布Ｐ（Ｃ（太字）｜Ｚ（太字））は式（１６）で表され、自然言語記述データの単語は、微生物群集構造データに割り当てられたトピックの分布と同じ比率の多項分布から生成されたという仮定を表現している。

【0067】

【数13】

【0068】

式（１６）において、Ｍ_ｚｄは、データペアｄでトピックｚを割り当てられた自然言語記述データ中の単語の数を表す。
式（１２）右辺第四項の確率分布Ｐ（Ｔ（太字）｜Ｃ（太字），γ）は式（１７）で表され、自然言語記述データの単語は、その潜在トピックがｃであるとき、ハイパーパラメータγを持つディリクレ分布を事前分布とした、多項分布ψ_ｃ～Ｄｉｒｉｃｈｌｅｔ（γ）に従って生成されたという仮定を表現している。式（１４）と同様の積分消去を行うことで式（１７）が得られる。

【0069】

【数14】

【0070】

式（１７）において、Ｍ_ｚｔは単語ｔにトピックｚが割り当てられた数を表す。Ｍ_ｚは、データセット全体でトピックｚを割り当てられた単語の数を表す。
本実施形態では、以上の式に含まれる微生物群集構造データの潜在トピックＺ（太字）、及び、自然言語記述データの潜在トピックＣ（太字）についての事後分布を、マルコフ連鎖モンテカルロ法の一種である崩壊型ギブスサンプリングによって推論することとした。

【0071】

まず、データセット全体の微生物群集構造データと自然言語記述データの各要素の潜在トピックをｚ∈｛１，…，Ｚ｝を要素とする一様分布でランダムに初期化しておく。
ギブスサンプリングの各ステップで、以下の式（１８）、式（１９）に応じて、微生物群集構造データと自然言語記述データの各要素の潜在トピックをサンプリングする。ギブスサンプリングのステップは、式（１２）の同時尤度が収束するまで繰り返す。
微生物群集構造データに関して、データペアｄのｎ番目の微生物の潜在トピックｚのサンプリング確率は式（１８）で表される。

【0072】

【数15】

【0073】

以下では、説明の便宜上、数式のバックスラッシュを、本文ではスラッシュ／で記載する。式（１８）において、Ｚ（太字）_／ｄｎは、トピック集合Ｚ（太字）から、データペアｄのｎ番目の微生物のトピックを除いた集合を示す。Ｎ_{ｋｄ／ｄｎ}は、ｚ_ｄｎをｋとしたときに、データペアｄ中のｎ番目を除いた微生物に関してトピックｋに割り当てられた微生物の数を表す。Ｎ_{ｋｗｄｎ／ｄｎ}は、ｚ_ｄｎをｋとしたときに、Ｚ（太字）_／ｄｎ中で微生物ｗ_ｄｎがトピックｋに割り当てられた数を表す。Ｎ_ｋ／ｄｎは、ｚ_ｄｎをｋとしたときに、Ｚ（太字）_／ｄｎ中のトピックｋの数を表す。
自然言語記述データに関して、データペアｄのｎ番目の単語の潜在トピックｃのサンプリング確率は式（１９）で表される。

【0074】

【数16】

【0075】

式（１９）において、Ｃ（太字）_／ｄｍは、トピック集合Ｃ（太字）から、データペアｄのｍ番目の単語のトピックを除いた集合を示す。Ｎ_ｋｄは、ｃ_ｄｍをｋとしたときに、データペアｄにおいてトピックｋに割り当てられた微生物の数を表す。Ｍ_{ｋｔｄｍ／ｄｍ}は、ｃ_ｄｍをｋとしたときに、Ｃ（太字）_／ｄｍ中で単語ｔ_ｄｍがトピックｋに割り当てられた数を表す。Ｍ_ｋ／ｄｍは、ｃ_ｄｍをｋとしたときに、Ｃ（太字）_／ｄｍ中のトピックｋの数を表す。

【0076】

なお、本実施形態では、微生物群集構造データのトピック生成多項分布の事前分布であるディリクレ分布として非対称ディリクレ分布を採用し、ハイパーパラメータαがトピックごとに異なるとした。これは、これまでの研究で微生物群集構造が解析されたサンプルは、ヒト腸内から取得されたものなどに大きく偏っているため、おそらく潜在的なトピックの出現確率にもデータセット全体で大きな偏りが存在すると推測され、そのような偏りに適したモデルとするためである。Ｚ個のハイパーパラメータα、およびハイパーパラメータβ、γは、適当な初期値を設定して、ギブスサンプリングの各ステップで以下の式（２０）～（２２）に従って更新する。

【0077】

【数17】

【0078】

式（２０）、式（２１）、式（２２）において、Ψ（・）は式（２３）で定義されるディガンマ関数を表す。

【0079】

【数18】

【0080】

また、式（２０）、式（２１）、式（２２）において＾を付されたハイパーパラメータは、ギブスサンプリングの１ステップ前の値である。
十分なステップ数のギブスサンプリングによる繰り返し演算によって式（１２）で表される同時尤度が収束した段階で、サンプルごとのトピック生成確率、すなわち潜在的環境因子の混合割合θ_ｄｚを式（２４）で、トピックごとの微生物生起確率、すなわち潜在的環境因子ごとの微生物群集サブコミュニティの構成φ_ｚｗを式（２５）で、トピックごとの単語生起確率、すなわち潜在的環境因子ごとの自然言語記述データ生成確率ψ_ｚｔを式（２６）で推定する。

【0081】

【数19】

【0082】

以上の演算処理によって、データペアに含まれるすべてのサンプルについて、サンプルごとの潜在的環境因子の混合割合が推定され、すなわちそれぞれのサンプルがＺ次元の実数値ベクトルとして表現される。演算結果は、モデル記憶部３３２に記憶される。

【0083】

次に、これらのＺ次元実数値ベクトルで表現されたデータペアを可視化し、サンプル間のＺ次元空間上での比較解析を実行する手法を説明する。
Ｚ次元実数値ベクトルの可視化では、何らかの次元削減手法によって二次元あるいは三次元空間内にサンプル点を配置する手法が有効であり、主成分分析や多次元尺度構成法など様々な次元削減手法を適用可能である。ここでは、一例として、高次元空間におけるサンプル点間の局所的な関係性を保持しつつ低次元空間へのサンプル点の埋め込みを可能とする手法であるｔ－ＳＮＥ（ｔ－ｄｉｓｔｒｉｂｕｔｅｄＳｔｏｃｈａｓｔｉｃＮｅｉｇｈｂｏｒＥｍｂｅｄｄｉｎｇ）（非特許文献３）を採用する場合について説明する。

【0084】

ｔ－ＳＮＥではまず、高次元空間内のサンプル点間のユークリッド距離を、サンプル点間の類似性を表現する条件付き確率に変換する。サンプル点ｉのサンプル点ｊに対する条件付き確率ｐ_ｊ｜ｉは、ｉを中心とする正規分布を考え、以下の式（２７）で表現される。

【0085】

【数20】

式（２７）でｘ_ｉ，ｘ_ｊはそれぞれサンプル点ｉ，ｊの高次元空間上の座標を表し、σ_ｉは、ｘ_ｉを中心とした正規分布の分散を表現するパラメータである。また、式（２７）で｜｜・｜｜は、サンプル点ｘ_ｉ，ｘ_ｊ間のユークリッドノルムを表す。

【0086】

さらに、サンプル中に存在する外れ値に対処するために、条件付き確率を対称化してサンプル点ｘ_ｉ，ｘ_ｊの同時確率を以下の式（２８）で定義する。

【0087】

【数21】

【0088】

式（２８）で、ｎはサンプル点の総数を表す。
低次元空間内の点ｉ，ｊについても、同様の同時確率を定義することができる。ｔ－ＳＮＥでは、低次元空間と高次元空間の体積の違いに適切に対処するために、低次元空間内のサンプル点間の同時確率については正規分布ではなく、正規分布よりも裾の重いｔ分布を扱う。これにより、高次元空間で距離の離れたサンプル点間の低次元空間内での距離をより遠くに引き離すことが可能となる。低次元空間上のサンプル点ｉ，ｊの座標をｙ_ｉ，ｙ_ｊとしたとき、サンプル点ｉとｊの同時確率ｑ_ｉｊを式（２９）で定義する。

【0089】

【数22】

【0090】

低次元空間における座標ｙ（太字）は、以下の式（３０）で表される損失関数を最小化することによって決定する。

【0091】

【数23】

【0092】

式（３０）でＫＬ（Ｐ｜｜Ｑ）は、同時確率ｐとｑのカルバック・ライブラー情報量を表す。
式（３０）の最小化によって得られる低次元空間上の座標ｙは、高次元空間上のサンプル間の距離的な特徴をできるだけ保持した表現となる。

【0093】

ここで、式（３０）の直接的な最適化計算によって低次元空間座標を得る手法では、新しいサンプルのＺ次元表現を予測して既存のサンプルと比較する際に、新しいサンプルを含むデータセット全体に対して最適化計算をやり直さなければならない。この場合、サンプルすべての低次元空間上の座標が新しいサンプルの入力のたびに変化してしまう可能性がある。

【0094】

そこで本実施形態では、Ｚ次元実数値ベクトルを入力とし二次元座標を出力する、ｔ－ＳＮＥと同じ振る舞いを持った関数をニューラルネットワークによって近似することで、単一のサンプルのみを用いた低次元空間座標の特定を可能とする手法を採用する。この手法は非特許文献４で提案され、ｐａｒａｍｅｔｒｉｃｔ－ＳＮＥと呼ばれる。この手法により、既存サンプルの低次元空間内座標が固定され、新たなサンプルの低次元空間内座標のみが計算されるため、計算コストを低減することができる。

【0095】

フィードフォワードニューラルネットワークによる高次元空間から低次元空間への座標変換を関数ｆ：Ｘ→Ｙとすると、低次元空間におけるサンプル点ｉとｊの同時確率は式（３１）で表される。

【0096】

【数24】

【0097】

式（３１）で、Ｗ（太字）はニューラルネットワークの重みの集合である。
ニューラルネットワークの重みは、通常のｔ－ＳＮＥと同様に式（３０）を損失関数として、適切に学習率を設定したミニバッチ確率的勾配降下法などの最適化計算を実施して学習する。

【0098】

非特許文献４では４つの制限ボルツマンマシンに関してそれぞれ事前学習を行い、それらをスタックすることで全体のフィードフォワードニューラルネットワークを構成していた。本実施形態では、一例として、より簡便に４層のフィードフォワードニューラルネットワークを構成し、第４層を除くすべての層におけるノードの活性化関数を正規化線形関数（ＲｅＬＵ；ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）として非線形変換を施すことで、事前学習を行わず、既存サンプルのすべてを用いてミニバッチ確率的勾配降下法を適用することで重みを学習する。
以上により、各加工サンプルデータペアを二次元平面上に配置した画像を生成することができる。

【0099】

図４に戻り、メタゲノム情報処理装置３０の構成について説明を続ける。
サンプル予測部３４５は、モデル生成部３４４が生成したメタゲノムモデルを用いて、新規サンプルにおける潜在的環境因子の混合割合の予測（解析）を行う。サンプル予測部３４５は、新規サンプルの微生物群集構造データを、端末装置１０から取得する。サンプル予測部３４５は、メタゲノムモデルのトピック生成確率のハイパーパラメータα、及び、トピック毎の微生物生起確率φを利用して、新規サンプルにおける潜在的環境因子の混合割合を推定する。

【0100】

サンプル予測部３４５は、ギブスサンプリングにより新規サンプルにおける潜在的環境因子の混合割合を推定する。サンプル予測部３４５は、新規サンプルのデータペアｄの微生物群集構造データに含まれるｎ番目の微生物ｗについて、潜在トピックｚを、ｚ_ｄｎをｋとしたときの微生物ｗの生起確率を示す以下の式（３２）に従ってサンプリングする。

【0101】

【数25】

【0102】

式（３２）において、φ_ｋｗは式（２５）により既存サンプルを用いて学習されたパラメータであり、α_ｋは既存サンプルを用いて学習されたトピック生成確率のハイパーパラメータである。また、式（３２）において、Ｎ_{ｋｄ／ｄｎ}は、データペアｄ中のｎ番目を除いた微生物に関してトピックｋに割り当てられた微生物の数を、Ｎ_ｄ／ｄｎはデータペアｄに含まれる微生物の総数から１を引いた数を表す。十分な回数のギブスサンプリング繰り返し演算が実行された後、新規サンプルの潜在的環境因子の混合割合は、式（２４）の計算によって特定される。

【0103】

そして、新規サンプルの潜在的環境因子はＺ次元実数値ベクトルとして表現され、既存サンプルで学習したフィードフォワードニューラルネットワークによって低次元空間上の座標に変換される。変換された座標を用いて既存サンプルと同一の二次元平面上に配置することにより、新規サンプルの既存のすべてのサンプルとの比較が可能となる。

【0104】

モデル検索部３４６は、モデル生成部３４４が生成したメタゲノムモデルを用いて、検索を実行する。モデル生成部３４４は、検索において、それぞれの潜在的環境因子における自然言語記述データの生成確率ψ、及び、それぞれの加工サンプルデータペアにおける潜在的環境因子の混合割合θを利用する。検索クエリは、１以上の単語、或いは、文章等の任意の文字列であってよい。
まず、検索クエリを単語毎に分割し、検索単語集合ｑ（太字）＝｛ｑ_ｎ｝（ｎ＝１～Ｎ）を構成する。その後、モデル検索部３４６は、学習に用いた加工サンプルデータペアそれぞれのスコアを計算する。加工サンプルデータペアdについてのスコアは、以下の（３３）で計算される。

【0105】

【数26】

【0106】

すなわち、加工サンプルデータペアdが検索クエリqを生成する確率をスコアとする。モデル検索部３４６は、スコアの高い加工サンプルデータペアdに記述された情報を検索結果として出力する。

【0107】

〔メタゲノム情報処理システム１の動作〕
次に、メタゲノム情報処理システム１の動作について説明する。
まず、メタゲノムモデルの生成におけるメタゲノム情報処理システム１の動作について説明する。
図７は、メタゲノム情報処理システム１によるメタゲノムモデルの生成処理の流れを示すシーケンスチャートである。
（ステップＳ１０）メタゲノム情報処理装置３０は、サンプル蓄積装置５０からメタゲノムモデルの生成に用いる入力サンプルデータペアを要求する。ここで、メタゲノム情報処理装置３０は、メタゲノムモデルの生成に十分な量の多数の入力サンプルデータペアを要求する。その後、メタゲノム情報処理システム１は、ステップＳ１２に処理を進める。

【0108】

（ステップＳ１２）サンプル蓄積装置５０は、メタゲノム情報処理装置３０に対して、入力サンプルデータペアを送信する。その後、メタゲノム情報処理システム１は、ステップＳ１４に処理を進める。
（ステップＳ１４）メタゲノム情報処理装置３０は、サンプル蓄積装置５０から取得した入力サンプルデータペアから加工サンプルデータペアを生成する。その後、メタゲノム情報処理システム１は、ステップＳ１６に処理を進める。
（ステップＳ１６）メタゲノム情報処理装置３０は、加工サンプルデータペアを用いて学習を行い、メタゲノムモデルを生成する。その後、メタゲノム情報処理システム１は、図７に示す処理を終了する。

【0109】

図７の処理により生成されたメタゲノムモデルの潜在的環境因子は、端末装置１０において表示することができる。ここで、潜在的環境因子の表示の具体例について、図１、図８、図９を参照して説明する。

【0110】

図１に示す例において、メタゲノムモデル画像ＭＤは、ＳｅｑｕｅｎｃｅＲｅａｄＡｒｃｈｉｖｅ（ＳＲＡ）より取得した約３万のメタゲノムサンプルから生成したモデルである。それぞれのサンプルに含まれる塩基配列データについて、属レベルの系統分類階級でアノテーションを行い、微生物群集構造データに変換した。また、ＳＲＡの“Ｄｅｓｃｒｉｐｔｉｏｎ”をはじめとしたサンプルに関する記述データを取得し、前記処理によってサンプル毎に自然言語記述データ（Ｂａｇｏｆｗｏｒｄｓ）に変換した。変換後の加工サンプルデータペアを用いて潜在的環境因子を抽出し、二次元平面上にマッピング（空間埋め込み）を行った。

【0111】

それぞれのサンプルは潜在的環境因子の混合割合の類似性に応じて配置されている。そのため、メタゲノムモデル画像ＭＤ上で距離が近いサンプル間では潜在的環境因子の混合割合が類似している。また、ここでは、上記のように構築した座標変換関数に対してＯｎｅｈｏｔｖｅｃｔｏｒ（ある潜在的環境因子が１であり、それ以外の潜在的環境因子が０となる実数値ベクトル）を投入して得られた座標上に、その潜在的環境因子に対応した写真を同時にマッピングしている。従って、潜在的環境因子に近接した位置に存在するサンプルは、その潜在的環境因子の混合割合がきわめて高いサンプルであることを意味する。

【0112】

メタゲノムモデル画像ＭＤを観察することによって、どのような潜在的環境因子が混合し得るか、或いは、どのような環境間の中間的な性質を持った微生物群集構造が観測され得るか、といった情報を抽出することができる。メタゲノムモデル画像ＭＤ上で便宜的にラベルを付した６つの大きなクラスタ（海洋細菌群集、土壌細菌群集、皮膚細菌群集、口腔内細菌群集、膣内細菌群集、腸内細菌群集）はそれぞれ独立しており、クラスタ間の中間的な性質を持つサンプルはほとんど存在しない。一方、それぞれのクラスタの中ではサンプルの性質が連続的に推移しており、たとえば土壌細菌群集のクラスタ内部では、土の因子Ｅ－３から森林の因子Ｅ－４へ、あるいは土の因子Ｅ－３から河川の因子Ｅ－１へと、サンプルが連続的に推移している。

【0113】

メタゲノムモデル画像ＭＤの表示は、インタラクティブなウェブアプリケーションとして実装されてよい。
例えば、メタゲノムモデル画像ＭＤにおいて、サンプルのプロット（例えば、Ｓ－１）がクリックされると、メタゲノム情報処理システム１は、図８に表示を遷移させ、サンプルの微生物群集構造、及び、潜在的環境因子の混合割合を棒グラフＧＲで表示する等してサンプルに関する情報を提示してもよい。また、潜在的環境因子（例えば、Ｅ－６）がクリックされると、メタゲノム情報処理システム１は、図９に表示を遷移させ、その因子に対応した単語の生成確率、及び、微生物群集ＩＮを表示する等して潜在的環境因子に関する情報を提示してもよい。

【0114】

次に、新規サンプルの潜在的環境因子の予測におけるメタゲノム情報処理システム１の動作について説明する。
図１０は、メタゲノム情報処理システム１による新規サンプルの予測処理の流れを示すシーケンスチャートである。

【0115】

（ステップＳ２０）端末装置１０は、ユーザから予測対象の新規サンプルの指定を受け付ける。例えば、端末装置１０は、図１１に示すアップロードファイル選択欄ＵＬにおいて、新規サンプルの指定を受け付けてよい。その後、メタゲノム情報処理システム１は、ステップＳ２２に処理を進める。
（ステップＳ２２）端末装置１０は、新規サンプルの入力サンプルデータペアをメタゲノム情報処理装置３０に送信する。その後、メタゲノム情報処理システム１は、ステップＳ２４に処理を進める。

【0116】

（ステップＳ２４）メタゲノム情報処理装置３０は、端末装置１０から取得した入力サンプルデータペアを用いて、加工サンプルデータペアを生成する。その後、メタゲノム情報処理システム１は、ステップＳ２６に処理を進める。
（ステップＳ２６）メタゲノム情報処理装置３０は、ステップＳ２４の処理で生成した加工サンプルデータペアとメタゲノムモデルとを用いて、新規サンプルの潜在的環境因子を予測する。その後、メタゲノム情報処理システム１は、ステップＳ２８に処理を進める。

【0117】

（ステップＳ２８）メタゲノム情報処理装置３０は、予測結果を端末装置１０に送信する。その後、メタゲノム情報処理システム１は、ステップＳ３０に処理を進める。
（ステップＳ３０）端末装置１０は、メタゲノム情報処理装置３０から取得した予測結果を表示する。例えば、端末装置１０は、図１２のメタゲノムモデル画像ＭＤ１のように、予測したサンプルのプロットＮＳのみを表示することで、サンプルの予測結果を強調表示してよい。また、サンプルの微生物群集やサンプルを構成する潜在的環境因子を棒グラフＧＲ１で表示すること等により予測結果を表示してもよい。その後、メタゲノム情報処理システム１は、図１０に示す処理を終了する。

【0118】

次に、メタゲノムモデルを用いた検索におけるメタゲノム情報処理システム１の動作について説明する。
図１３は、メタゲノム情報処理システム１による検索処理の流れを示すシーケンスチャートである。

【0119】

（ステップＳ４０）端末装置１０は、ユーザから検索クエリの入力を受け付ける。例えば、端末装置１０は、図１４に示す検索クエリ入力欄ＱＵへの文字列の入力や、検索クエリを記述したデータの指定を受け付ける。その後、メタゲノム情報処理システム１は、ステップＳ４２に処理を進める。
（ステップＳ４２）端末装置１０は、メタゲノム情報処理装置３０に検索クエリを送信する。その後、メタゲノム情報処理システム１は、ステップＳ４４に処理を進める。

【0120】

（ステップＳ４４）メタゲノム情報処理装置３０は、端末装置１０から取得した検索クエリを自然言語記述データに変換する。その後、メタゲノム情報処理システム１は、ステップＳ４６に処理を進める。
（ステップＳ４６）メタゲノム情報処理装置３０は、ステップＳ４４で変換した自然言語記述データとメタゲノムモデルを用いて、加工サンプルデータペアを抽出する。例えば、メタゲノム情報処理装置３０は、図１５に示すように、メタゲノムモデルの生成に用いた加工サンプルデータペア毎に検索クエリに対するスコアを算出し、スコアの高いサンプルを特定する。その後、メタゲノム情報処理システム１は、ステップＳ４８に処理を進める。

【0121】

（ステップＳ４８）メタゲノム情報処理装置３０は、検索結果を端末装置１０に送信する。その後、メタゲノム情報処理システム１は、ステップＳ５０に処理を進める。
（ステップＳ４８）端末装置１０は、メタゲノム情報処理装置３０から取得した検索結果を表示する。例えば、端末装置１０は、図１４に示すメタゲノムモデル画像ＭＤ２のように、サンプルのプロットをスコアに応じた輝度で表示することにより、検索クエリと関連性の高いサンプルを強調表示する。その後、メタゲノム情報処理システム１は、図１３に示す処理を終了する。

【0122】

このようにメタゲノムモデルを検索に利用することで、サンプルの自然言語記述データを対象とした完全一致検索ではなく、潜在的環境因子を介した柔軟なサンプルの検索が可能となる。例えば、検索クエリとして、Ｈｏｔｓｐｒｉｎｇｗａｔｅｒという３単語を指定して、スコアの上位１０サンプルを表示した場合（図１５）、１０サンプルには温泉環境から取得したサンプルが多く含まれる。他方、スコアの上位５番目に位置するサンプルＳＲＳ００５６９８は、その自然言語記述データに、ｈｏｔ、ｓｐｒｉｎｇ、ｗａｔｅｒのいずれの単語も含まない。しかしながら、ＳＲＳ００５６９８は、温泉に生息する細菌であるＴｈｅｒｍｏｇｙｍｎｏｍｏｎａｓを多く含んでいる。つまり、メタゲノムモデルにおいて、ＳＲＳ００５６９８は、きわめて温泉的な環境である、と予測されているために、Ｈｏｔｓｐｒｉｎｇｗａｔｅｒという検索クエリによる検索で抽出されている。このように、検索単語による直接的な検索ではなく、潜在的環境因子を経由した検索結果を表示することによって、検索クエリを微生物群集構造の観点において表現しているサンプルを取得することが可能となる。

【0123】

〔本実施形態のまとめ〕
近年の研究から、微生物群集構造データは、全変数の空間上で乱雑に分布しているわけではなく、サンプルを取得した環境（由来）に応じて特有の微生物存在量のパターンを有していることが明らかになってきた。例えば、河川から取得したサンプルであれば淡水に特有の微生物群集構造を持ち、海洋から取得したサンプルであれば海水に特有の微生物群集構造を持つことが報告されている（非特許文献５）。その一方で、いくつかの環境においては、人間が認識する環境のパターンと微生物群集構造のパターンとが必ずしも一致しない例も報告されている。例えば、ヒト腸内の微生物群集構造に関する先行研究では、人種や性別によらない３パターンの腸内微生物群集構造が存在することが報告され、エンテロタイプという概念が提唱された（非特許文献６）。すなわち、多様なパターンを示すヒト腸内微生物群集構造のすべてを「ヒト腸内」という単一のラベルのみで、まとめて取り扱うことは妥当ではない。つまり、微生物群集構造の観点からは、人間の認識と異なる粒度で環境のパターンを定義することが必要である。

【0124】

さらに、問題は環境のパターンの定義の粒度だけに留まらない。自然環境の多くは離散的なラベルで分節化できるものではなく、時間・空間的に連続的な系である。例えば、同一の「河川」というラベルを付された環境であっても、源流域、都市部を流れる河川流域、及び河口部では、それぞれに存在する微生物群集構造は異なる。そして、これらの微生物群集構造は連続的に変化するため、厳密な分節化は不可能である。

【0125】

以上のように、微生物群集構造は、第１に、既存の自然環境の定義と必ずしも一致しない多様なパターンを取りうる、第２に、それらのパターンは離散的にクラスタリングできるものではなく連続的に変化しうる、という特徴を持っている。今後、ヒトの健康状態の診断、自然環境の診断、環境をコントロールする技術等の微生物群集構造の計測を用いた技術の開発を行っていくためには、これら微生物群集構造の特徴を考慮した微生物群集構造の比較解析手法が必要である。

【0126】

この点、微生物群集構造データの連続性は、サンプル中の微生物群集がいくつかのサブコミュニティの混合によって構成されていると仮定することでモデル化することができる。たとえば河口部から採取されたサンプル中の微生物群集であれば、淡水に生息する微生物群集のサブコミュニティと、海洋に生息する微生物群集のサブコミュニティが混ぜ合わさった状態としてモデル化することができる。

【0127】

このように、微生物群集構造データを、いくつかの環境に由来する微生物群集が混ぜ合わさった状態であると仮定して、その由来環境を推定する技術にソーストラッカー（ＳｏｕｒｃｅＴｒａｃｋｅｒ）がある（非特許文献１）。ソーストラッカーは、ソースコミュニティ（Ｓｏｕｒｃｅｃｏｍｍｕｎｉｔｙ）としていくつかの微生物群集構造データをユーザが設定し、新規サンプルをそれらのソースコミュニティの混合としてモデリングするソフトウェアである。

【0128】

ソーストラッカーを利用することで、ソースコミュニティがそれぞれどのくらいの割合で混ぜ合わさった結果として新規サンプルが得られたのかを推定することができ、新規サンプルにおいて他環境からの混入や汚染が生じているかを評価することができる。しかしながら、ユーザが設定するソースコミュニティもまた微生物群集構造データであるため、それらもまたいくつかのサブコミュニティが混合したデータの可能性がある。新規サンプルもソースコミュニティも混合データである場合、前述のモデルの仮定が妥当とはならず、適切なモデル化が不可能となる。したがって、混入や汚染の経路が明確でない場合は、混合の要素となるソースコミュニティを適切に設定することは困難である。

【0129】

この点、以上説明してきたように、本実施形態によるメタゲノム情報処理システム１（情報処理システムの一例）は、１以上の微生物を含む微生物群集と１以上の文字列を含む文字列集合とを対応付けたサンプルデータ（例えば、加工サンプルデータペア）を取得するサンプル取得部３４１（サンプルデータ取得部の一例）と、サンプルデータが示す微生物群集の少なくとも一部の微生物を含む基準微生物群集と当該サンプルデータが示す文字列集合の少なくとも一部の文字列を含む基準文字列集合とを対応付けた基準データ（例えば、潜在的環境因子）を、複数のサンプルデータに基づいて取得するモデル生成部３４４（基準データ取得部の一例）と、を備え、サンプルデータが示す微生物群集は、基準データ取得部が取得した基準データのうち、第１の基準データが示す基準微生物群集と、第２の基準データが示す基準微生物群集とを含み、当該サンプルデータが示す文字列集合は、第１の基準データが示す基準文字列集合と、第２の基準データが示す基準文字列集合とを含む。

【0130】

これにより、メタゲノム情報処理システム１は、既存のサンプルから、潜在的環境因子を特定する。つまり、メタゲノム情報処理システム１は、人手では困難な潜在的環境因子を特定する作業を自動化することができる。また、潜在的環境因子の特定を機械学習により行うことにより、定量的且つ網羅的に潜在的環境因子を特定することができるため、潜在的環境因子が、他の因子の組み合わせになってしまうリスクや潜在環境因子を見落としてしまうリスクを低減することができる。よって、メタゲノム情報処理システム１は、微生物群集の解釈や利用を容易にすることができる。

【0131】

また、メタゲノム情報処理システム１は、潜在的環境因子の混合割合に基づいて、サンプルを二次元空間上に適切に射影するための関数を構成する。
これにより、メタゲノム情報処理システム１は、サンプル同士の関係を容易に確認可能とする。

【0132】

また、メタゲノム情報処理システム１は、基準データの取得に用いられていないサンプルデータ（例えば、新規サンプルの加工サンプルデータペア）が示す微生物群集と文字列集合との組を構成する基準データを特定するサンプル予測部３４５（特定部の一例）、を備える。

【0133】

これにより、メタゲノム情報処理システム１は、新規サンプルについても潜在的環境因子を特定するため、例えば、二次元平面上に新規サンプルを他のサンプルと配置することができる。よって、メタゲノム情報処理システム１は、既存のすべてのサンプルと、新規サンプルとの比較を容易にすることができる。

【0134】

また、メタゲノム情報処理システム１は、サンプルデータは、微生物群集における各微生物の割合と、文字列集合における各文字列の割合とを含み、基準データは、基準微生物群集における各微生物の割合と、基準文字列集合における各文字列の割合とを含む。

【0135】

これにより、メタゲノム情報処理システム１は、サンプル間の関係を、潜在的環境因子の混合割合に基づいて、正確に表現することができる。

【0136】

また、メタゲノム情報処理システム１は、１以上の微生物を含む基準微生物群集と１以上の文字列を含む基準文字列集合とを対応付けた基準データ（例えば、潜在的環境因子）を記憶する記憶部３２（記憶部の一例）と、検索クエリを取得するモデル検索要求部１５４（取得部の一例）と、検索クエリに関連する基準データを抽出するモデル検索部３４６（抽出部の一例）と、を備える。

【0137】

これにより、メタゲノム情報処理システム１は、メタゲノムモデルを用いた検索を行う。従って、検索クエリに対する単なる文字列の合致ではなく、微生物群集の特性における検索クエリとの類似を判定して、検索を行うことができる。よって、メタゲノム情報処理システム１は、微生物群集の解釈や利用を容易にすることができる。

【0138】

［変形例］
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成は上述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。例えば、上述の実施形態において説明した各構成は、任意に組み合わせることができる。また、例えば、上述の実施形態において説明した各構成は、特定の機能を発揮するのに不要である場合には、省略することができる。

【0139】

なお、メタゲノム情報処理システム１は、上述した第１の実施形態で説明した以外にも、種々の情報をユーザに提示してよい。例えば、メタゲノム情報処理システム１は、２つのサンプル間の相違の程度を提示してもよい。同じ潜在的環境因子を含む２つのサンプルについて、その差分に対応する個々の潜在的環境因子の割合を提示してもよい。例えば、差分の潜在的環境因子の微生物群集を一方のサンプルの環境に添加することで、他方のサンプルの環境に近づけられる。これにより、病理的な（望ましくない）微生物群集の環境を、健康的な（望ましい）微生物群集の環境にすることも可能かもしれない。また、例えば、メタゲノム情報処理システム１は、サンプルの潜在的環境因子からの乖離の程度を提示してもよい。例えば、潜在的環境因子が病態と密接に関連しているのであれば、乖離の程度から健全度を推定することも可能かもしれない。

【0140】

なお、メタゲノム情報処理システム１は、異なる環境で取得されたサンプルだけでなく、同じ環境で異なるタイミングで取得されたサンプルを解析してもよい。このような時系列サンプルを解析することにより、ある環境の微生物群集の変化を追跡することができる。この場合、メタゲノム情報処理システム１は、微生物群集の経時的変化に応じて、例えば、望ましくない群集に変化した、或いは、しつつある場合に、警告を提示してもよい。

【0141】

なお、上述した第１の実施形態では、微生物群集構造データを解析する場合について説明したがこれには限られない。上述したように、メタゲノム情報処理システム１は、同一サンプルに係る二種類の自然数カウントデータ（微生物群集構造データ、及び、自然言語記述データ）からそれらの対応関係を潜在的環境因子として抽出し、潜在的環境因子の類似性に基づいて可視化をすることによってサンプルの連続性の評価や検索を実行するシステムである。換言すると、同一サンプルに係る二種類の自然数カウントデータを用意することにより、微生物群集構造データ以外の生物学データを解析することも可能である。

【0142】

例えば、微生物群集の系統解析に用いられる１６ＳｒＲＮＡ（ｒｉｂｏｓｏｍａｌＲｉｂｏＮｕｃｌｅｉｃＡｃｉｄ）、１８ＳｒＲＮＡ、２３ＳｒＲＮＡ等のリボソーム小サブユニットＲＮＡの塩基配列データ、メタゲノムデータ（遺伝子組成データ）、メタトランスクリプトームデータ（遺伝子発現量データ）、メタボロームデータ（代謝産物データ）等の生物学データを解析対象として自然数カウントデータを生成してよい。この場合、実験によって得られた塩基配列データや質量分析データを自然数カウントデータへと変換する。つまり、生体分子を量的に表現するデータを生成する。ここでいう生体分子とは、生物の体内に存在する分子、或いは、生物により合成される分子であり、例えば、ＤＮＡ、ＲＮＡ等の核酸、アミノ酸、ペプチド、タンパク質、糖質、脂質、ホルモン等を含む。また、量とは、存在量（発現量）や活性等である。以下では、第１の実施形態とは異なる生物学データを解析する場合の構成について説明する。

【0143】

［変形例１：メタゲノムデータ］
まずは、メタゲノムデータを解析対象とする場合について説明する。メタゲノムデータを解析する場合には、微生物群集構造データを、メタゲノムデータに置き換える。
図１６は、メタゲノムデータのデータ構造を示す図である。
図１６に示す例において、メタゲノムデータは、サンプルＩＤと、遺伝子名情報と、量情報と、を互いに対応付けて構成される。遺伝子名情報とは、遺伝子産物の識別情報であり、例えば、遺伝子産物の名称である。ここでいう、遺伝子産物とは、機能性ＲＮＡやタンパク質を含む。量情報とは、遺伝子名情報が示す遺伝子産物の量を示す情報である。このように、メタゲノムデータは、サンプルの特徴を、遺伝子産物の側面から量的に表現したデータである。

【0144】

まず、環境サンプルから得られたメタゲノムショットガンリードに対してメタゲノム配列アセンブリを実行してコンティグやスキャッフォールドのセットを構成する。アセンブリの際には、メタゲノムデータに特化した種々の配列アセンブリツールを使用したｄｅ－ｎｏｖｏアセンブリなどを実施可能である。次に、構成したコンティグやスキャッフォールドから遺伝子予測ツールを使用して遺伝子領域を予測し、それらの遺伝子配列を取得する。

【0145】

次に、コンティグやスキャッフォールドに対してメタゲノムショットガンリードをマッピングした結果から、予測された遺伝子配列のリードカバレッジを計算し、リードカバレッジ情報からそれぞれの遺伝子の存在量を推定する。この際に、遺伝子領域の長さに比例してリードが観測される確率も増加するため、遺伝子の存在量推定において遺伝子領域の長さによる補正を行うことが必要である。存在量データは基本的に実数値として計算されるため、もっとも近い整数値に丸め込む処理などによって、整数値データに変換する。

【0146】

最後に、予測された遺伝子領域の機能を推定するために、種々のアミノ酸配列データベースに対して配列類似性検索を実行する。配列類似性に基づいてそれぞれの遺伝子領域に機能を割り当てる。

【0147】

以上の処理によって、遺伝子産物と各遺伝子産物の存在量とを示す自然数カウントデータとして、メタゲノムデータを取得することができる。自然言語記述データは、第１の実施形態と同様に、各サンプルの詳細等を自然言語で記述したデータを加工して取得することができる。そして、メタゲノムデータと自然言語記述データとを用いて第１の実施形態と同様の処理を行い、サンプルのそれぞれを、複数の潜在的因子の一次結合として表現する確率モデルを生成すれば、遺伝子産物の基準集合と文字列の基準集合との対応関係を抽出することができる。

【0148】

［変形例２：メタトランスクリプトームデータ］
次に、メタトランスクリプトームデータを解析対象とする場合について説明する。メタトランスクリプトームデータを解析する場合には、微生物群集構造データを、メタトランスクリプトームデータに置き換える。メタトランスクリプトームデータのデータ構成は、メタゲノムデータと同様であるため、説明を省略する。ただし、メタトランスクリプトームデータの場合は、遺伝子産物が主にｍＲＮＡ（ＭｅｓｓｅｎｇｅｒＲＮＡ）であることが異なる。

【0149】

メタトランスクリプトームデータの生成について説明する。メタトランスクリプトームの場合は、サンプル中に大量に存在するｒＲＮＡの影響を低減するために、シーケンス前のサンプル精製において、或いは、シーケンス後の情報処理において、ｒＲＮＡを適切に除去することが必要である。

【0150】

次に、得られたリードを既知の微生物ゲノム配列へマッピングする。或いは、メタゲノムデータの場合と同様に、アセンブリによってコンティグを形成して遺伝子予測を行い、リードマッピング結果と遺伝子の長さによる補正計算から遺伝子発現量を推定する。さらに、予測された遺伝子について、塩基配列データベースを用いて配列類似性検索を行い、機能推定する。

【0151】

以上の処理によって、ｍＲＮＡと各ｍＲＮＡの発現量とを示す自然数カウントデータとして、メタトランスクリプトームデータを取得することができる。自然言語記述データは、第１の実施形態と同様に、各サンプルの詳細等を自然言語で記述したデータを加工して取得することができる。そして、メタトランスクリプトームデータと自然言語記述データとを用いて第１の実施形態と同様の処理を行い、サンプルのそれぞれを、複数の潜在的因子の一次結合として表現する確率モデルを生成すれば、ｍＲＮＡの基準集合と文字列の基準集合との対応関係を抽出することができる。

【0152】

［変形例３：メタボロームデータ］
次に、メタボロームデータを解析対象とする場合について説明する。メタボロームデータを解析する場合には、微生物群集構造データを、メタボロームデータに置き換える。
図１７は、メタボロームデータのデータ構造を示す図である。
図１７に示す例において、メタボロームデータは、サンプルＩＤと、分子名情報と、量情報と、を互いに対応付けて構成される。分子名情報とは、代謝産物等の分子の識別情報であり、例えば、分子の名称である。量情報とは、分子名情報が示す分子の量を示す情報である。このように、メタボロームデータは、サンプルの特徴を、分子の側面から量的に表現したデータである。

【0153】

次にメタボロームデータの生成について説明する。メタボロームデータの生成には、核磁気共鳴法、ガスクロマトグラフィー質量分析法、液体クロマトグラフィー質量分析法、キャピラリー電気泳動質量分析法等の技術によって取得された、環境サンプル中の代謝産物（複数の酵素反応の中間体や最終産物）等の小分子の網羅的測定結果を利用することが可能である。

【0154】

核磁気共鳴法の場合は化学シフト、質量分析法の場合は質量電荷比のスペクトルデータのパターンを分析し、サンプル中の代謝産物の種類の同定および量の推定を行う。スペクトルデータに対しては、周波数フィルタや閾値等によるノイズのフィルタリング、ピーク検出、クロマトグラフィー等による分離等の処理を行ってよい。また、質量分析法の場合は、スペクトルのアラインメント、サンプル間のピーク強度の正規化、異なる代謝産物のピークの重なりの分解等の処理を行ってよい。

【0155】

次に、参照スペクトルデータベースを用いた各ピークの代謝産物を同定するとともに、スペクトルピークの強度情報から各代謝産物の量を推定する。以上の処理によって、代謝産物（分子）と各代謝産物の濃度とを示す自然数カウントデータとして、メタボロームデータを取得することができる。自然言語記述データは、第１の実施形態と同様に、各サンプルの詳細等を自然言語で記述したデータを加工して取得することができる。そして、メタボロームデータと自然言語記述データとを用いて第１の実施形態と同様の処理を行い、サンプルのそれぞれを、複数の潜在的因子の一次結合として表現する確率モデルを生成すれば、代謝産物の基準集合と文字列の基準集合との対応関係を抽出することができる。

【0156】

以上のように、メタゲノムデータ、メタトランスクリプトームデータ、メタボロームデータをサンプルの自然言語記述データと対応させて解析してよい。これらのデータは最終的にはいずれも自然数カウントデータであるため、対応関係を抽出するもう一方の自然数カウントデータは必ずしもサンプル自然言語記述データである必要はない。具体的には、微生物群集構造データ、メタゲノムデータ、メタトランスクリプトームデータ、メタボロームデータ、自然言語記述データ等の任意の組み合わせに対して適用することが可能である。例えば、微生物群集構造データとメタボロームデータとをペアとして解析する場合、抽出される対応関係は、サンプル間で共起する基準微生物集合と基準代謝産物集合のペアとなる。

【0157】

つまり、上述したメタゲノム情報処理システム１は、解析対象のデータに応じた拡張が可能である。この情報処理システムは、例えば、１以上の第１の生物的要素（例えば、生物名や、遺伝子産物、代謝産物等の生体分子）を含む第１の要素集合と１以上の第２の生物的要素（例えば、生物名や、遺伝子産物、代謝産物等の生体分子のうち、第１の生物的要素とは異なるもの）を含む第２の要素集合とを対応付けたサンプルデータを取得するサンプルデータ取得部と、サンプルデータが示す第１の要素集合の少なくとも一部の第１の生物的要素を含む第１の基準要素集合と当該サンプルデータが示す第２の要素集合の少なくとも一部の第２の生物的要素を含む第２の基準要素集合とを対応付けた基準データを、複数のサンプルデータに基づいて取得する基準データ取得部と、を備え、サンプルデータが示す第１の要素集合は、基準データ取得部が取得した複数の基準データのうち、第１の基準データが示す第１の基準要素集合と、第２の基準データが示す第１の基準要素集合とを含み、当該サンプルデータが示す第２の要素集合は、第１の基準データが示す第２の基準要素集合と、第２の基準データが示す第２の基準要素集合とを含む。

【0158】

同様に、この情報処理システムは、例えば、上記第１の基準要素集合と上記第２の基準要素集合とを対応付けた基準データを記憶する記憶部と、前記第１の生物的要素と前記第２の生物的要素との少なくともいずれかを示す検索クエリを取得する取得部と、前記検索クエリに関連する前記基準データを抽出する抽出部と、を備える。
なお、第２の生物的要素に代えて、文字列を適用してもよいことは、上述した通りである。

【0159】

本実施形態の一態様は、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第１集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第２集合、を対応付けたサンプルデータを取得するサンプルデータ取得部と、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第１集合の関係を示す情報を生成する生成部と、を備える情報処理システムである。

【0160】

本実施形態の一態様は、上記情報処理システムにおいて、前記生成部は、少なくとも一部の前記生物的要素と当該生物的要素の量を示す情報の組を複数含む基準生物要素集合、及び、少なくとも一部の前記形態素と当該形態素の出現回数の組を複数含む基準形態素集合を対応付けた基準データを、複数の前記サンプルデータの前記解析に基づいて、複数取得し、前記サンプルデータが示す第１集合は、複数の前記基準データのうち、第１の基準データが示す基準生物要素集合と、第２の基準データが示す基準生物要素集合とを含み、当該サンプルデータが示す第２集合は、前記第１の基準データが示す基準形態素集合と、第２の基準データが示す基準形態素集合とを含む。

【0161】

本実施形態の一態様は、上記情報処理システムにおいて、前記生成部は、トピックモデルを用いてトピックを推定し、前記トピックを前記基準データとして取得する。

【0162】

本実施形態の一態様は、上記情報処理システムにおいて、前記基準データを記憶する記憶部と、前記生物的要素又は前記形態素の少なくともいずれかを示す検索クエリを取得する取得部と、前記検索クエリに関連する前記基準データを抽出する抽出部と、を備える。

【0163】

本実施形態の一態様は、上記情報処理システムにおいて、前記生物的要素は、微生物である。

【0164】

本実施形態の一態様は、上記情報処理システムにおいて、前記生物的要素は、生体分子である。

【0165】

本実施形態の一態様は、上記情報処理システムにおいて、情報処理システムが、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第１集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第２集合、を対応付けたサンプルデータを取得する第１ステップと、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第１集合の関係を示す情報を生成する第２ステップと、を含む。

【0166】

本実施形態の一態様は、上記情報処理システムにおいて、コンピュータに、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第１集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第２集合、を対応付けたサンプルデータを取得する第１ステップと、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第１集合の関係を示す情報を生成する第２ステップと、を含む。

【0167】

本実施形態の一態様は、上記情報処理システムにおいて、サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第１集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第２集合、を対応付けたサンプルデータを取得するサンプルデータ取得部と、複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第１集合の関係を示す情報を生成する生成部と、を備える。

【0168】

また、上述の端末装置１０、メタゲノム情報処理装置３０、サンプル蓄積装置５０の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより端末装置１０、メタゲノム情報処理装置３０、サンプル蓄積装置５０としての処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやＷＡＮ、ＬＡＮ、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、ＣＤ－ＲＯＭ等の非一過性の記録媒体であってもよい。また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部または外部に設けられた記録媒体も含まれる。配信サーバの記録媒体に記憶されるプログラムのコードは、端末装置で実行可能な形式のプログラムのコードと異なるものでもよい。すなわち、配信サーバからダウンロードされて端末装置で実行可能な形でインストールができるものであれば、配信サーバで記憶される形式は問わない。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に端末装置で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0169】

また、上述した端末装置１０、メタゲノム情報処理装置３０、サンプル蓄積装置５０の機能の一部または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

【産業上の利用可能性】

【0170】

本発明の一態様は、例えば、コンピュータ、サーバ、携帯端末（タブレット、スマートフォン）、集積回路、又はプログラム等において、利用することができる。

【符号の説明】

【0171】

１…メタゲノム情報処理システム、１０…端末装置、１１…通信部、１２…入力部、１３…表示部、１４…記憶部、１４１…入力サンプル記憶部、１５…制御部、１５１…入力サンプル投稿部、１５２…モデル提示部、１５３…サンプル予測要求部、１５４…モデル検索要求部、３０…メタゲノム情報処理装置、３１…通信部、３２…記憶部、３３１…加工サンプル記憶部、３３２…モデル記憶部、３４…制御部、３４１…サンプル取得部、３４２…テキスト処理部、３４３…系統組成処理部、３４４…モデル生成部、３４５…サンプル予測部、３４６…モデル検索部、５０…サンプル蓄積装置

【図1】