(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023156984
(43)【公開日】2023-10-25
(54)【発明の名称】処理装置、処理方法、およびプログラム
(51)【国際特許分類】
G06F 17/16 20060101AFI20231018BHJP
G06F 17/15 20060101ALI20231018BHJP
【FI】
G06F17/16 P
G06F17/15
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023032833
(22)【出願日】2023-03-03
(31)【優先権主張番号】P 2022066411
(32)【優先日】2022-04-13
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000006655
【氏名又は名称】日本製鉄株式会社
(74)【代理人】
【識別番号】100090273
【弁理士】
【氏名又は名称】國分 孝悦
(72)【発明者】
【氏名】福島 寿和
(72)【発明者】
【氏名】中川 淳一
(72)【発明者】
【氏名】川野 秀一
【テーマコード(参考)】
5B056
【Fターム(参考)】
5B056BB23
5B056BB38
(57)【要約】
【課題】 複数の母集団において影響因子により影響を受ける被影響因子を同時に特定するための指標を算出することができるようにする。
【解決手段】 処理装置100は、複数の母集団における標本データから共通影響因子のデータおよび非共通影響因子(固有影響因子)のデータを抽出して、共通影響因子行列X
mおよび固有影響因子行列Z
mを作成し、共通影響因子行列X
mおよび固有影響因子行列Z
mを用いてスパース正則化を適用した回帰分析を実行することにより、共通影響因子行列X
mに対する回帰係数行列B
mおよび固有影響因子行列Z
mに対する回帰係数行列C
mを算出する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の影響因子と、当該複数の影響因子により影響を受ける少なくとも1つの被影響因子との関係を表す回帰式における回帰係数を算出する処理を実行する処理装置であって、
前記複数の影響因子のデータと、前記少なくとも1つの被影響因子のデータと、をそれぞれが含む複数の標本データとして、複数の母集団のそれぞれにおける複数の標本データを取得する標本データ取得手段と、
前記複数の標本データのうち、前記複数の母集団の全てに存在する前記影響因子である共通影響因子のデータを抽出することと、前記複数の標本データのうち、前記共通影響因子と異なる前記影響因子である非共通影響因子のデータを抽出することと、を実行する標本データ抽出手段と、
前記被影響因子のデータと、前記共通影響因子のデータと、前記非共通影響因子のデータと、を用いて、スパース正則化を適用した回帰分析を実行することにより、第1回帰式における第1回帰係数を前記回帰係数として算出する第1回帰係数算出手段と、
を有し、
前記第1回帰式の説明変数は、前記共通影響因子と、前記非共通影響因子と、を含み、
前記第1回帰式の目的変数は、前記被影響因子を含み、
前記第1回帰式は、前記共通影響因子の値を要素とする共通影響因子行列と、当該共通影響因子に対する前記第1回帰係数の値を要素とする回帰係数行列と、を含む項と、前記非共通影響因子の値を要素とする非共通影響因子行列と、当該非共通影響因子に対する前記第1回帰係数の値を要素とする回帰係数行列と、を含む項と、を別々の項として含み、
前記第1回帰係数算出手段は、前記第1回帰式で算出される前記被影響因子の値と、前記標本データにおける前記被影響因子の値と、の差を表す損失関数と、前記共通影響因子に対する前記第1回帰係数のスパース正則化項と、前記非共通影響因子に対する前記第1回帰係数のスパース正則化項と、を含むコスト関数を用いて、前記第1回帰式における前記第1回帰係数を算出する、処理装置。
【請求項2】
前記共通影響因子に対する前記第1回帰係数のスパース正則化項は、グループLassoによるスパース正則化項であり、
前記非共通影響因子に対する前記第1回帰係数のスパース正則化項は、Lassoによるスパース正則化項である、請求項1に記載の処理装置。
【請求項3】
前記非共通影響因子は、前記複数の母集団のうち、1つの前記母集団にしか存在しない固有の前記影響因子である固有影響因子を含む、請求項1に記載の処理装置。
【請求項4】
前記被影響因子は、複数あり、
前記第1回帰式は、多変量回帰式である、請求項1に記載の処理装置。
【請求項5】
前記第1回帰係数算出手段により算出された前記第1回帰係数に基づいて、前記被影響因子に影響を与える前記影響因子を特定する影響因子特定手段を更に有する、請求項1~4の何れか1項に記載の処理装置。
【請求項6】
前記標本データを用いた回帰分析を行うことにより、前記影響因子特定手段により特定された前記影響因子と、前記被影響因子との関係を表す第2回帰式における第2回帰係数を前記回帰係数として算出する第2回帰係数算出手段を有する、請求項5に記載の処理装置。
【請求項7】
前記第2回帰式で算出される前記被影響因子の値と、前記標本データにおける前記被影響因子の値と、の差を表す損失関数と、L2正則化項と、を含むコスト関数を用いて、前記第2回帰式における前記第2回帰係数を算出する、請求項6に記載の処理装置。
【請求項8】
前記標本データ取得手段は、前記複数の標本データを用いて再標本化を行うことにより、前記複数の母集団に対する前記標本データを含み、且つ、前記複数の母集団に対する前記標本データとしてそれぞれ複数の前記標本データを含む標本データセットを複数作成し、
前記標本データ抽出手段は、前記標本データセットに含まれる複数の前記標本データから前記共通影響因子のデータおよび前記非共通影響因子のデータを抽出することを、複数の前記標本データセットのそれぞれに対して行い、
前記第1回帰係数算出手段は、1つの前記標本データセットから前記標本データ抽出手段により抽出された前記共通影響因子のデータおよび前記非共通影響因子のデータを用いて前記第1回帰係数を算出することを、複数の前記標本データセットのそれぞれについて行うことにより、前記第1回帰式における前記第1回帰係数として複数通りの前記第1回帰係数を算出し、
前記影響因子特定手段は、前記複数通りの第1回帰係数に基づいて、前記被影響因子に影響を与える前記影響因子を特定する、請求項5に記載の処理装置。
【請求項9】
請求項1~4の何れか1項に記載の処理装置で算出された前記回帰係数を回帰係数とする回帰式を用いて前記被影響因子の値を算出する処理を実行する処理装置であって、
前記複数の影響因子のうち少なくとも2つの影響因子のデータを含む評価用データを取得する評価用データ取得手段と、
前記評価用データから、前記共通影響因子のデータを抽出することと、前記評価用データから、前記非共通影響因子のデータを抽出することと、を実行する評価用データ抽出手段と、
前記評価用データ抽出手段により抽出された前記共通影響因子のデータと、前記評価用データから前記評価用データ抽出手段により抽出された前記非共通影響因子のデータと、請求項1~4の何れか1項に記載の処理装置で算出された前記回帰係数を回帰係数とする回帰式と、に基づいて、前記被影響因子の値を算出する被影響因子算出手段と、
を有する、処理装置。
【請求項10】
前記母集団は、処理プロセスであり、
前記複数の処理プロセスにおける前記複数の影響因子の組み合わせは相互に異なり、
前記影響因子は、前記処理プロセスで処理する際に前記処理プロセスにおける処理に用いられる因子であり、
前記被影響因子は、前記影響因子を用いて前記処理プロセスで処理されることにより得られる因子である、請求項1~4の何れか1項に記載の処理装置。
【請求項11】
前記処理プロセスは、特定物質を含む被処理水に存在する微生物群を用いて前記被処理水を処理する処理プロセスであり、
前記影響因子は、前記微生物群の量に関する因子であり、
前記被影響因子は、前記特定物質の量の変化速度に関する因子である、請求項10に記載の処理装置。
【請求項12】
複数の影響因子と、当該複数の影響因子により影響を受ける少なくとも1つの被影響因子との関係を表す回帰式における回帰係数を算出する処理を実行する処理方法であって、
前記複数の影響因子のデータと、前記少なくとも1つの被影響因子のデータと、をそれぞれが含む複数の標本データとして、複数の母集団のそれぞれにおける複数の標本データを取得する標本データ取得工程と、
前記複数の標本データのうち、前記複数の母集団の全てに存在する前記影響因子である共通影響因子のデータを抽出することと、前記複数の標本データのうち、前記共通影響因子と異なる前記影響因子である非共通影響因子のデータを抽出することと、を実行する標本データ抽出工程と、
前記被影響因子のデータと、前記共通影響因子のデータと、前記非共通影響因子のデータと、を用いて、スパース正則化を適用した回帰分析を実行することにより、第1回帰式における第1回帰係数を前記回帰係数として算出する第1回帰係数算出工程と、
を有し、
前記第1回帰式の説明変数は、前記共通影響因子と、前記非共通影響因子と、を含み、
前記第1回帰式の目的変数は、前記被影響因子を含み、
前記第1回帰式は、前記共通影響因子の値を要素とする共通影響因子行列と、当該共通影響因子に対する前記第1回帰係数の値を要素とする回帰係数行列と、を含む項と、前記非共通影響因子の値を要素とする非共通影響因子行列と、当該非共通影響因子に対する前記第1回帰係数の値を要素とする回帰係数行列とを含む項と、を別々の項として含み、
前記第1回帰係数算出工程では、前記第1回帰式で算出される前記被影響因子の値と、前記標本データにおける前記被影響因子の値と、の差を表す損失関数と、前記共通影響因子に対する前記第1回帰係数のスパース正則化項と、前記非共通影響因子に対する前記第1回帰係数のスパース正則化項と、を含むコスト関数を用いて、前記第1回帰式における前記第1回帰係数を算出する、処理方法。
【請求項13】
前記第1回帰係数算出工程により算出された前記第1回帰係数に基づいて、前記被影響因子に影響を与える前記影響因子を特定する影響因子特定工程を更に有する、請求項12に記載の処理方法。
【請求項14】
請求項12または13に記載の処理方法で算出された前記回帰係数を回帰係数とする回帰式を用いて前記被影響因子の値を算出する処理を実行する処理方法であって、
前記複数の影響因子のうち少なくとも2つの影響因子のデータを含む評価用データを取得する評価用データ取得工程と、
前記評価用データから、前記共通影響因子のデータを抽出することと、前記評価用データから、前記非共通影響因子のデータを抽出することと、を実行する評価用データ抽出工程と、
前記評価用データ抽出工程により抽出された前記共通影響因子のデータと、前記評価用データから前記評価用データ抽出工程により抽出された前記非共通影響因子のデータと、請求項12または13に記載の処理方法で算出された前記回帰係数を回帰係数とする回帰式と、に基づいて、前記被影響因子の値を算出する被影響因子算出工程と、
を有する、処理方法。
【請求項15】
請求項1~4の何れか1項に記載の処理装置の各手段としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、処理装置、処理方法、およびプログラムに関し、特に、影響因子と被影響因子との関係を回帰分析より求めるために用いて好適なものである。
【背景技術】
【0002】
影響因子と被影響因子との関係を回帰分析より求めることが行われている。特許文献1には、コークス炉排水(安水)に含まれる特定物質の量の変化に影響を与える微生物群を特定する技術が開示されている。特許文献1では、微生物群の含有量を説明変数とし、特定物質の量の変化速度を目的変数とする回帰式の回帰係数を、罰則付き回帰分析を行うことにより算出する。このようにして算出された回帰係数のうち、0(零)でない回帰係数に対応する微生物群を、特定物質の量の変化に関わる微生物群として特定する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の技術における回帰式は、同一の水処理プロセスにおいて、微生物群の含有量(説明変数)と、特定物質の量の変化速度(目的変数)との関係を定める式である。従って、1つの水処理プロセスごとに回帰分析(回帰係数の算出)を行う必要がある。よって、複数の水処理プロセスにおいて特定物質の量の変化に関わる微生物群を同時に特定することができない。このことは、水処理プロセスに限らず、複数の母集団において影響因子により影響を受ける被影響因子を特定する場合においても共通して存在する課題である。
【0005】
本発明は、以上のような問題点に鑑みてなされたものであり、複数の母集団において影響因子により影響を受ける被影響因子を同時に特定するための指標を算出することができるようにすることを目的とする。
【課題を解決するための手段】
【0006】
本発明の処理装置は、複数の影響因子と、当該複数の影響因子により影響を受ける少なくとも1つの被影響因子との関係を表す回帰式における回帰係数を算出する処理を実行する処理装置であって、前記複数の影響因子のデータと、前記少なくとも1つの被影響因子のデータと、をそれぞれが含む複数の標本データとして、複数の母集団のそれぞれにおける複数の標本データを取得する標本データ取得手段と、前記複数の標本データのうち、前記複数の母集団の全てに存在する前記影響因子である共通影響因子のデータを抽出することと、前記複数の標本データのうち、前記共通影響因子と異なる前記影響因子である非共通影響因子のデータを抽出することと、を実行する標本データ抽出手段と、前記被影響因子のデータと、前記共通影響因子のデータと、前記非共通影響因子のデータと、を用いて、スパース正則化を適用した回帰分析を実行することにより、第1回帰式における第1回帰係数を前記回帰係数として算出する第1回帰係数算出手段と、を有し、前記第1回帰式の説明変数は、前記共通影響因子と、前記非共通影響因子と、を含み、前記第1回帰式の目的変数は、前記被影響因子を含み、前記第1回帰式は、前記共通影響因子の値を要素とする共通影響因子行列と、当該共通影響因子に対する前記第1回帰係数の値を要素とする回帰係数行列と、を含む項と、前記非共通影響因子の値を要素とする非共通影響因子行列と、当該非共通影響因子に対する前記第1回帰係数の値を要素とする回帰係数行列と、を含む項と、を別々の項として含み、前記第1回帰係数算出手段は、前記第1回帰式で算出される前記被影響因子の値と、前記標本データにおける前記被影響因子の値と、の差を表す損失関数と、前記共通影響因子に対する前記第1回帰係数のスパース正則化項と、前記非共通影響因子に対する前記第1回帰係数のスパース正則化項と、を含むコスト関数を用いて、前記第1回帰式における前記第1回帰係数を算出する。
【0007】
本発明の処理方法は、複数の影響因子と、当該複数の影響因子により影響を受ける少なくとも1つの被影響因子との関係を表す回帰式における回帰係数を算出する処理を実行する処理方法であって 前記複数の影響因子のデータと、前記少なくとも1つの被影響因子のデータと、をそれぞれが含む複数の標本データとして、複数の母集団のそれぞれにおける複数の標本データを取得する標本データ取得工程と、前記複数の標本データのうち、前記複数の母集団の全てに存在する前記影響因子である共通影響因子のデータを抽出することと、前記複数の標本データのうち、前記共通影響因子と異なる前記影響因子である非共通影響因子のデータを抽出することと、を実行する標本データ抽出工程と、前記被影響因子のデータと、前記共通影響因子のデータと、前記非共通影響因子のデータと、を用いて、スパース正則化を適用した回帰分析を実行することにより、第1回帰式における第1回帰係数を前記回帰係数として算出する第1回帰係数算出工程と、を有し、前記第1回帰式の説明変数は、前記共通影響因子と、前記非共通影響因子と、を含み、前記第1回帰式の目的変数は、前記被影響因子を含み、前記第1回帰式は、前記共通影響因子の値を要素とする共通影響因子行列と、当該共通影響因子に対する前記第1回帰係数の値を要素とする回帰係数行列と、を含む項と、前記非共通影響因子の値を要素とする非共通影響因子行列と、当該非共通影響因子に対する前記第1回帰係数の値を要素とする回帰係数行列とを含む項と、を別々の項として含み、前記第1回帰係数算出工程では、前記第1回帰式で算出される前記被影響因子の値と、前記標本データにおける前記被影響因子の値と、の差を表す損失関数と、前記共通影響因子に対する前記第1回帰係数のスパース正則化項と、前記非共通影響因子に対する前記第1回帰係数のスパース正則化項と、を含むコスト関数を用いて、前記第1回帰式における前記第1回帰係数を算出する。
【0008】
本発明のプログラムは、前記処理装置の各手段としてコンピュータを機能させる。
【発明の効果】
【0009】
本発明によれば、複数の母集団において影響因子により影響を受ける被影響因子を同時に特定するための指標を算出することができる。
【図面の簡単な説明】
【0010】
【
図1】第1実施形態の処理装置の機能的な構成の一例を示す図である。
【
図2】第1実施形態の標本データ取得部、標本データ抽出部、第1回帰係数算出部、影響因子特定部、および特定影響因子出力部による処理方法の一例を説明するフローチャートである。
【
図3】第1~第4実施形態の評価用データ取得部、評価用データ抽出部、被影響因子算出部、および被影響因子出力部による処理方法の一例を説明するフローチャートである。
【
図4】複数の母集団のそれぞれに含まれる標本データの一例を示す図である。
【
図5】標本データに対する処理方法の一例を説明する図である。
【
図6】共通影響因子および固有影響因子から、被影響因子に影響を与える影響因子が特定されることを概念的に示す図である。
【
図7】第2~第4実施形態の処理装置の機能的な構成の一例を示す図である。
【
図8】第2~第4実施形態の標本データ取得部、標本データ抽出部、第1回帰係数算出部、影響因子特定部、特定影響因子出力部、および第2回帰係数算出部による処理方法の一例を説明するフローチャートである。
【
図9】複数の標本データを用いて再標本化を行う手法の一例を説明する図である。
【
図10】複数の標本データセットを用いて特定影響因子を特定する手法の一例を説明する図である。
【
図11】生物処理装置の構成の一例を示す図である。
【
図12】運転日数一日当たりの亜硝酸生成速度と運転日数との関係の第1の例を示す図である。
【
図13】運転日数一日当たりのチオシアン除去速度と運転日数との関係の第1の例を示す図である。
【
図14】運転日数一日当たりのフェノール除去速度と運転日数との関係の第1の例を示す図である。
【
図15】運転日数一日当たりのチオ硫酸除去速度と運転日数との関係の第1の例を示す図である。
【
図16】運転日数一日当たりの亜硝酸生成速度と運転日数との関係の第2の例を示す図である。
【
図17】運転日数一日当たりのチオシアン除去速度と運転日数との関係の第2の例を示す図である。
【
図18】運転日数一日当たりのフェノール除去速度と運転日数との関係の第2の例を示す図である。
【
図19】運転日数一日当たりのチオ硫酸除去速度と運転日数との関係の第2の例を示す図である。
【発明を実施するための形態】
【0011】
以下、図面を参照しながら、本発明の実施形態を説明する。
(第1実施形態)
まず、第1実施形態を説明する。
図1は、第1実施形態の処理装置100の機能的な構成の一例を示す図である。処理装置100のハードウェアは、例えば、プロセッサ、主記憶装置、補助記憶装置、および入出力装置を備える情報処理装置、または専用のハードウェアを用いることにより実現される。
【0012】
図1において、処理装置100は、標本データ取得部110と、標本データ抽出部120と、第1回帰係数算出部130と、影響因子特定部140と、特定影響因子出力部150と、評価用データ取得部160と、評価用データ抽出部170と、被影響因子算出部180と、被影響因子出力部190と、備える。
図2は、標本データ取得部110、標本データ抽出部120、第1回帰係数算出部130、影響因子特定部140、および特定影響因子出力部150による処理方法の一例を説明するフローチャートである。
図3は、評価用データ取得部160、評価用データ抽出部170、被影響因子算出部180、および被影響因子出力部190による処理方法の一例を説明するフローチャートである。以下に、
図2および
図3のフローチャートを参照しながら、本実施形態の処理方法を、
図1に示す処理装置100が有する機能の一例と共に説明する。
【0013】
[標本データ採取工程(S201)]
標本データ採取工程では、複数の母集団mのそれぞれから、複数の標本データを採取する(mは1以上M以下の整数であり、Mは2以上の整数である)。
図4は、複数の母集団mのそれぞれに含まれる標本データ(y
m
1,f
m
1),・・・,(y
m
nm,f
m
nm)の一例を示す図である。なお、y
m
nm,f
m
nmの「
m
nm」は、各図において、n
mの上にmが付されている記号に対応する。なお、このような表記は、「
m
nm」以外の記号(例えば「
1
n1」等)および「y」、「f」以外の記号(例えば後述する
図5の「x」等)においても同じである。
【0014】
図4において、f
m
1は、母集団mの1番目の影響因子ベクトルであり、f
m
1,1,・・・,f
m
1,sを要素とする行ベクトルである(f
m
1∈R
1×s(sは2以上の整数))。f
m
nmは、母集団mのn
m番目の影響因子ベクトルであり、f
m
nm,1,・・・,f
m
nm,sを要素とする行ベクトルである(f
m
nm∈R
1×s(sは2以上の整数))。なお、Rは実数全体であることを示す(このことは他の記載においても同じである)。影響因子ベクトルf
m
nmの各要素f
m
nm,1,・・・,f
m
nm,sは、影響因子の値である。ここで、「f」に対して上付きで付している記号「m」は、母集団mに属することを示す。このように各記号に対して上付きで付している記号は、当該記号が示すデータが属する母集団を示す。「f」に対して下付きで付している記号「n
m,1」、「n
m,s」は、それぞれ、n
m行1列、n
m行s列の値であることを示す。このように各記号に対して下付きで付している記号において「,」の前の値は、当該記号が示すデータを格納する行列(ベクトル)の行数に対応し、「,」の後の値は、当該記号が示すデータを格納する行列(ベクトル)の列数に対応する。
【0015】
また、
図4において、y
m
1は、母集団mの1番目の被影響因子ベクトルであり、y
m
1,1,・・・,y
m
1,qを要素とする行ベクトルである(f
m
1∈R
1×q(qは1以上の整数))。y
m
nmは、母集団mのn
m番目の被影響因子ベクトルであり、y
m
nm,1,・・・,y
m
nm,qを要素とする行ベクトルであり、y
m
nm,1,・・・,y
m
nm,qを要素とする行ベクトルである(y
m
nm∈R
1×q(qは1以上の整数))。被影響因子ベクトルy
m
nmの各要素y
m
nm,1,・・・,y
m
nm,qは、被影響因子の値である。被影響因子ベクトルy
m
nmに含まれる被影響因子の値は、影響因子ベクトルf
m
nmに含まれる影響因子の値によって影響を受ける被影響因子の値である。
【0016】
本実施形態では、影響因子ベクトルy
1
1,・・・,y
M
nMと、当該影響因子ベクトルに対応して採取される被影響因子ベクトルf
1
1,・・・,f
M
nMとの組が1つの標本データである場合を例示する。
図4において、(y
m
nm,f
m
nm)は、母集団mのn
m番目の標本データである。
【0017】
図4に示す例では、母集団mの数がMであり、各母集団1,・・・,m,・・・,Mには、それぞれn
1個,・・・,n
m個,・・・,n
M個の標本データ(y
1
1,f
1
1)~(y
1
n1,f
1
n1),・・・,(y
m
1,f
m
1)~(y
m
nm,f
m
nm),・・・,(y
M
1,f
M
1)~(y
M
nM,f
M
nM)が含まれる。ここで、n
1,・・・,n
m,・・・,n
Mは、それぞれ2以上の整数であり、相互に同じ値であっても異なる値であってもよい。即ち、各母集団1,・・・,m,・・・,Mに含まれる標本データ(y
1
1,f
1
1)~(y
1
n1,f
1
n1),・・・,(y
m
1,f
m
1)~(y
m
nm,f
m
nm),・・・,(y
M
1,f
M
1)~(y
M
nM,f
M
nM)の数は、同じであっても異なっていてもよい。n
1,・・・,n
m,・・・,n
Mは、例えば、標本データ(y
1
1,f
1
1)~(y
1
n1,f
1
n1),・・・,(y
m
1,f
m
1)~(y
m
nm,f
m
nm),・・・,(y
M
1,f
M
1)~(y
M
nM,f
M
nM)が採取されたタイミング(日時)に対応する。
【0018】
このように母集団1~Mには、影響因子と、当該影響因子によって影響を受ける被影響因子とが含まれる。各母集団1~Mに含まれる影響因子の組み合わせは相互に異なるものとする。本実施形態では、各母集団1~Mに含まれる影響因子には、他の母集団には存在しない影響因子が含まれ、且つ、全ての母集団1~Mに共通して存在する影響因子が含まれる場合を例示する。以下の説明では、母集団1~Mを代表する変数をmとする。
【0019】
後述する実施例では、母集団mのそれぞれは、被処理水を生物学的に処理する処理プロセスである。また、影響因子は、処理プロセスに存在し、当該処理プロセスにおける処理に用いられる微生物群の量に関する因子である。また、被影響因子は、処理前後における特定物質の量の変化速度(特定物質の量の変化)に関する因子である。被処理水は、当該被処理水に存在する微生物を用いることにより処理され、当該被処理水における特定物質の量が変化(減少または増加)する。即ち、処理前後における特定物質の量の変化速度は、処理プロセスに存在する微生物群に影響を受ける。母集団mのそれぞれが被処理水を生物学的に処理する処理プロセスである場合、本実施形態では、各処理プロセス(母集団m)には、他の処理プロセスには存在しない微生物群(影響因子)が含まれ、且つ、全ての処理プロセス(母集団m)には当該全ての処理プロセスに共通して存在する微生物群が含まれるものとする。ここで、微生物群は、或る形質または遺伝子型に基づいて分類される微生物集団を指し、例えば、属、種、亜種が挙げられるが、これらに限定されない。当該遺伝子型としては単に微生物のゲノムの塩基配列も含み物とする。微生物群の数は、例えば、100種類以上100万種類以下であっても、1000以上1万種類以下であってもよい。
【0020】
処理プロセスは、被処理水を生物学的に処理する処理プロセスに限定されない。例えば、処理プロセスは、製品の製造プロセスであってもよい。例えば、処理プロセスは、熱延コイルの製造プロセスであってもよい。この場合、影響因子は、例えば、被圧延材に対して操作量として用いられる物理量(例えば、仕上圧延機の圧下量、冷却スプレーの冷却水の流量、加熱装置の電力量、被圧延材の搬送速度)である。また、被影響因子は、熱延コイルの品質(例えば、引張強度)である。即ち、被圧延材に対して操作量として用いられる物理量によって熱延コイルの品質は影響を受ける。母集団mのそれぞれが製造プロセスである場合、本実施形態では、各製造プロセス(母集団m)には、他の製造プロセスには存在しない種類の物理量(影響因子)が含まれ、且つ、全ての製造プロセス(母集団m)には、当該製造プロセスに共通して存在する同種の物理量が含まれるものとする。
以上のように母集団mが処理プロセスである場合、影響因子は、当該処理プロセスで処理される際に用いられる因子であればよく、処理プロセスで処理する際に、被影響因子の特性を決定する状態因子(処理プロセスにおいてその属性(量など)を制御できない制御不能因子)であっても、処理プロセスにおいてその属性を制御可能な制御可能因子であってもよい。
【0021】
また、母集団mは、処理プロセスに限定されない。例えば、母集団mは、人間であってもよい。この場合、影響因子は、例えば、人間の各種の遺伝子の数に関する因子である。また、被影響因子は、人間の特定の疾患に対する検査項目に関する因子である。即ち、人間の遺伝子によって特定の疾患に対する検査項目の値は影響を受ける。母集団mのそれぞれが人間である場合、本実施形態では、各人間(母集団m)には、他の人間には存在しない遺伝子が含まれ、且つ、全ての人間(母集団m)には、当該人間に共通して存在する同種の遺伝子が含まれるものとする。
【0022】
影響因子の値は、例えば、観測値(測定値等)および計算値のうちの少なくとも一方を含む。被影響因子の値も、影響因子の値と同様に、例えば、観測値(測定値等)および計算値のうちの少なくとも一方を含む。
【0023】
標本データ採取工程では、母集団mから、s種類の影響因子の値fm
1,1,・・・,fm
1,s,・・・,fm
nm,1,・・・,fm
nm,s(s×nm個の影響因子の値)を採取することを、全ての母集団1~Mのそれぞれに対して実施する。また、母集団mから、q種類の被影響因子の値ym
1,1,・・・,ym
1,q,・・・,ym
nm,1,・・・,ym
nm,q(q×nm個の被影響因子の値)を採取することを、全ての母集団1~Mのそれぞれに対して実施される。なお、影響因子および被影響因子のうち、母集団m(m=1~M)に存在しない種類の因子の値は、0(零)であるものとする。
【0024】
以上のようにして、s種類の影響因子の値fm
1,1,・・・,fm
1,s,・・・,fm
nm,1,・・・,fm
nm,s(m=1~M)と、当該影響因子によって影響を受けるq種類の被影響因子の値ym
1,1,・・・,ym
1,q,・・・,ym
nm,1,・・・,ym
nm,q(m=1~M)との組が採取される。これらの影響因子および被影響因子の値から、標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)が得られる。
【0025】
[標本データ取得工程(S202)、標本データ取得部110]
標本データ取得部110は、標本データ採取工程で採取された標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)を取得する。標本データの取得形態として、例えば、外部装置からの送信、オペレータによるユーザインターフェースに対する標本データの入力操作、および可搬型記憶媒体からの読み出しのうち、少なくとも1つが採用される。
【0026】
なお、標本データ取得部110は、s種類の影響因子の値fm
1,1,・・・,fm
1,s,・・・,fm
nm,1,・・・,fm
nm,s(m=1~M)と、q種類の被影響因子の値ym
1,1,・・・,ym
1,q,・・・,ym
nm,1,・・・,ym
nm,q(m=1~M)との組を取得して、標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)を作成してもよい。
【0027】
図5は、標本データ(y
1
1,f
1
1)~(y
1
n1,f
1
n1),・・・,(y
m
1,f
m
1)~(y
m
nm,f
m
nm),・・・,(y
M
1,f
M
1)~(y
M
nM,f
M
nM)に対する処理方法の一例を説明する図である。
本実施形態では、標本データ取得部110は、標本データ(y
1
1,f
1
1)~(y
1
n1,f
1
n1),・・・,(y
m
1,f
m
1)~(y
m
nm,f
m
nm),・・・,(y
M
1,f
M
1)~(y
M
nM,f
M
nM)から、s種類の影響因子の値f
m
1,1,・・・,f
m
1,s,・・・,f
m
nm,1,・・・,f
m
nm,sを要素とする影響因子ベクトルf
m
1,・・・,f
m
nmを抽出することを、全ての母集団1~M(m=1~M)のそれぞれについて実施する。なお、影響因子ベクトルf
m
1,・・・,f
m
nm(m=1~M)の同一の列には同種の影響因子の値が格納されている。
【0028】
そして、標本データ取得部110は、影響因子ベクトルf
m
1,・・・,f
m
nmを第1行,・・・,第n
m行に格納する影響因子行列F
mを作成する。これにより、M個の影響因子行列F
1~F
Mが作成される。
図5の「母集団mの標本データ」の欄には、1つの影響因子行列F
mを例示する。影響因子行列F
mは、n
m行s列の行列である(F
m∈R
nm×s)。なお、
図5の「母集団mの標本データ」の欄において影響因子行列F
mの破線で囲んだ領域を示すf
m
1、f
m
nmは、それぞれ、
図4に示す(y
m
1,f
m
1)、(y
m
nm,f
m
nm)のf
m
1、f
m
nmに対応する。
【0029】
標本データ取得部110は、標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)から、q種類の被影響因子の値ym
1,1,・・・,ym
1,q,・・・,ym
nm,1,・・・,ym
nm,qを要素とする被影響因子ベクトルym
1,・・・,ym
nmを抽出することを、全ての母集団1~M(m=1~M)のそれぞれについて実施する。なお、被影響因子ベクトルym
1,・・・,ym
nm(m=1~M)の同一列には同種の被影響因子の値が格納されている。
【0030】
そして、標本データ取得部110は、被影響因子ベクトルy
m
1,・・・,y
m
nmを第1行,・・・,第n
m行に格納する被影響因子行列Y
mを作成することを、全ての母集団1~M(m=1~M)のそれぞれについて実施する。これにより、M個の被影響因子行列Y
1~Y
Mが作成される。
図5の「母集団mの標本データ」の欄には、1つの被影響因子行列Y
mを例示する。被影響因子行列Y
mは、n
m行q列の行列である(Y
m∈R
nm×q)。なお、
図5の「母集団mの標本データ」の欄において被影響因子行列Y
mの破線で囲んだ領域を示すy
m
1、y
m
nmは、それぞれ、
図4に示す(y
m
1,f
m
1)、(y
m
nm,f
m
nm)のy
m
1、y
m
nmに対応する。
【0031】
ここで、被影響因子行列Ymに格納される被影響因子の値ym
1,1,・・・,ym
1,q,・・・,ym
nm,1,・・・,ym
nm,qは、影響因子行列Fmにおいて当該被影響因子の値が格納される行と同じ行に格納される影響因子の値fm
1,1,・・・,fm
1,s,・・・,fm
nm,1,・・・fm
nm,sに対応する値であることを示す。
以上のように、標本データ取得部110は、M個の被影響因子行列Ym(Ym∈Rnm×q、m=1~M)と、M個の影響因子行列Fm(Fm∈Rnm×s、m=1~M)とを作成する。
【0032】
[標本データ抽出工程(S203)、標本データ抽出部120]
標本データ抽出部120は、標本データ取得部110により取得された標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)のうち、複数の母集団1~Mの全てに存在する影響因子である共通影響因子のデータを抽出する。
【0033】
また、標本データ抽出部120は、標本データ取得部110により取得された標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)のうち、共通影響因子とは異なる影響因子である非共通影響因子のデータを抽出する。本実施形態では、標本データ抽出部120が、複数の母集団1~Mのうち、1つの母集団に固有の種類の影響因子(当該母集団にしか存在しない種類の影響因子)である固有影響因子のみを、非共通影響因子として抽出する場合を例示する。
【0034】
前述したように各母集団1~Mにおける影響因子ベクトルfm
1,・・・,fm
nm(m=1~M)の同一の列には同種の影響因子の値が格納され、各母集団1~Mにおける影響因子ベクトルfm
1,・・・,fm
nm(m=1~M)は、影響因子行列Fm(m=1~M)の第1行,・・・,第nm行に格納される。そこで、本実施形態では、標本データ抽出部120は、影響因子行列Fmの列のうち、全ての母集団1~Mに共通して存在する共通影響因子の値が格納されている列の値を抽出して列ベクトルFm
gとすることを、全ての母集団1~Mに共通して存在するp種類の影響因子のそれぞれについて実施する(p<s、g=1~p)。これにより、p個の列ベクトルFm
g(g=1~p)が作成される。
【0035】
ここで、共通影響因子を示す記号をxとする。具体的には
図5の「列ベクトルF
g
m」の欄に示すように、影響因子行列F
mの列のうち、全ての母集団1~Mに共通して存在する共通影響因子の値が格納されている第g列の値からなる列ベクトルをF
g
m(=(f
m
1,g,・・・,f
m
nm,g)
T)とする。なお、Tは転置行列であることを示す(このことは他の式でも同じである)。この列ベクトルF
g
mを列ベクトルX
g
mと表記すると共に、この列ベクトルF
g
mの要素f
m
1,g,・・・,f
m
nm,gを、x
m
1,g,・・・,x
m
nm,gと表記する(
図5の「列ベクトルF
g
m」の欄を参照)。ここでは、全ての母集団1~Mに共通して存在する共通影響因子がp種類あるものとしている。従って、このような共通影響因子の値を要素とする列ベクトルX
g
mがp個作成される(
図5の「母集団mのp種の共通影響因子のデータ」の欄に示すX
1
m,・・・,X
p
mを参照)。
【0036】
標本データ抽出部120は、p個の列ベクトルX
1
m,・・・,X
p
mを、抽出元の影響因子行列F
mにおいて小さい列番号に格納されていたものほど小さい列番号の列に格納されるように格納して共通影響因子行列X
mを作成する。共通影響因子行列X
mは、n
m行p列の行列(m=1~M)である(X
m∈R
nm×p)。このような共通影響因子行列X
mの作成を、全ての母集団1~Mのそれぞれについて実施する。このようにしてn
m行p列の共通影響因子行列X
mとしてM個の行列が作成される。
図5の「母集団mのp種の共通影響因子のデータ」の欄に示す共通影響因子行列X
mにおいて破線で囲まれるX
m
1、X
m
pは、それぞれ、影響因子行列F
mにおいて、全ての母集団1~Mに共通して存在する共通影響因子の値が格納されている列のうち、列番号が1番目に小さい列、列番号がp番目に小さい列(列番号が最も大きいの列)の値からなる列ベクトルであることを示す。
【0037】
また、本実施形態では、標本データ抽出部120は、影響因子行列Fmの列のうち、1つの母集団mに固有の固有影響因子の値が格納されている列の値を抽出して列ベクトルFm
hとすることを、当該影響因子行列Fmに存在するrm種類の固有影響因子のそれぞれについて実施する(h=1~rm、m=1~M)。これにより、rm個の列ベクトルFm
h(h=1~rm)が作成される。
【0038】
ここで、固有影響因子を示す記号をzとする。具体的には
図5の「列ベクトルF
h
mの」欄に示すように、影響因子行列F
mの列のうち、母集団mに固有の固有影響因子の値が格納されている第h列の値からなる列ベクトルをF
h
m(=(f
m
1,h,・・・,f
m
nm,h)
T)とする。この列ベクトルF
h
mをZ
h
mと表記すると共に、この列ベクトルF
h
mの要素f
m
1,h,・・・,f
m
nm,hを、z
m
1,h,・・・,z
m
nm,hと表記する(
図5の「列ベクトルF
h
m」の欄を参照)。ここでは、母集団mに固有の固有影響因子がr
m種類あるものとしている(r
mは母集団m毎に定められる値である)。従って、このような固有影響因子の値を要素とする列ベクトルZ
h
mがr
m個作成される(
図5の「母集団mのr
m種の非共通影響因子(固有影響因子)のデータ」の欄に示すZ
1
m,・・・,Z
rm
mを参照)。
【0039】
標本データ抽出部120は、r
m個の列ベクトルZ
1
m,・・・,Z
rm
mを、抽出元の影響因子行列F
mにおいて小さい列番号に格納されていたものほど小さい列番号の列に格納されるように格納して固有影響因子行列Z
mを作成する。固有影響因子行列Z
mは、n
m行r
m列の行列(m=1~M)である(Z
m∈R
nm×rm)。このような固有影響因子行列Z
mの作成を、全ての母集団1~Mのそれぞれについて実施する。このようにしてn
m行r
m列の固有影響因子行列Z
mとしてM個の行列が作成される。
図5の「母集団mのr
m種の非共通影響因子(固有影響因子)のデータ」の欄に示す固有影響因子行列Z
mにおいて破線で囲まれるZ
m
1、Z
m
rmは、それぞれ、影響因子行列F
mにおいて、母集団mに固有の固有影響因子の値が格納されている列のうち、列番号が1番目に小さい列、列番号がr
m番目に小さい列(列番号が最も大きいの列)の値からなる列ベクトルであることを示す。
【0040】
標本データ抽出部120は、以上のようにして、M個の共通影響因子行列Xm(Xm∈Rnm×p、m=1~M)と、M個の固有影響因子行列Zm(Zm∈Rnm×rm、m=1~M)とを作成する。
【0041】
[第1回帰係数算出工程(S204)、第1回帰係数算出部130]
第1回帰係数算出部130は、少なくとも1つの被影響因子のデータと、共通影響因子のデータと、非共通影響因子のデータと、を用いて、正則化として少なくともスパース正則化を適用した回帰分析を実行することにより、複数の影響因子と、当該複数の影響因子により影響を受ける少なくとも1つの被影響因子との関係を表す第1回帰式における第1回帰係数を算出する。この第1回帰式の説明変数(独立変数)は、共通影響因子と、非共通影響因子と、を含み、この第1回帰式の目的変数(従属変数)は、被影響因子を含む。
【0042】
前述したように本実施形態では、非共通影響因子が固有影響因子のみである場合を例示する。本実施形態では、第1回帰係数算出部130は、q種類の被影響因子の値を格納する被影響因子行列Ym(Ym∈Rnm×q)と、p種類の共通影響因子の値を格納する共通影響因子行列Xm(Xm∈Rnm×p)と、rm種類の固有影響因子の値を格納する固有影響因子行列Zm(Zm∈Rnm×rm)と、を用いて、以下の(1)式の第1回帰式における第1回帰係数行列Bm(Bm∈Rp×q)、Cm(Cm∈Rrm×q)および切片ベクトルαm(αm∈Rq)を算出する。なお、被影響因子の種類の数が2以上である場合(q≧2)、(1)式は、多変量回帰式である。被影響因子の種類の数が1である場合(q=1)、(1)式は、重回帰式である。
【0043】
【0044】
ここで、1nmは、全ての要素が1であるnm行の列ベクトルである。αmは、第1回帰式のq個の切片am
1,・・・,am
qを要素とする切片ベクトル(列ベクトル(am
1,・・・,am
q)T、αm∈Rq)である。1nm(αm)Tは、以下の(2)式のように表される。
【0045】
【0046】
また、Bmは、共通影響因子行列Xmの要素である共通影響因子の値xm
1,1~xm
1,p,・・・,xm
nm,1~xm
nm,pに乗算される第1回帰係数bm
1,1~bm
1,q,・・・,bm
p,1~bm
p,qの値を要素とするp行q列の第1回帰係数行列(Bm∈Rp×q)である。前述したように、pは共通影響因子の種類の数であり、qは被影響因子の種類の数である。XmBmは、以下の(3)式のように表される。
【0047】
【0048】
Cmは、固有影響因子行列Zmの要素である固有影響因子の値zm
1,1~zm
1,rm,・・・,zm
nm,1~zm
nm,rmに乗算される第1回帰係数cm
1,1~cm
1,q,・・・,cm
rm,1~cm
rm,qの値を要素とするrm行q列の第1回帰係数行列(Cm∈Rrm×q)である。前述したように、rmは母集団mにおける固有影響因子の種類の数であり、qは被影響因子の種類の数である。ZmCmは、以下の(4)式のように表される。
【0049】
【0050】
以上の(1)式の第1回帰式における第1回帰係数行列Bm、Cmおよび切片ベクトルαmを算出する方法の一例を以下に説明する。まず、(1)式を以下の(5)式のように変更する。
【0051】
【0052】
ここで、E
mは、以下の(6)式に示すように、(1)式の左辺と右辺との誤差e
m
1,1~e
m
1,q,・・・,e
m
nm,1~e
m
nm,qを要素とするn
m行q列の行列である誤差行列(E
m∈R
nm×q)である。
【数6】
【0053】
本実施形態では、誤差行列Emの各要素の値を最小化する最小化問題として以下の(7)式のコスト関数を用いる。
【0054】
【0055】
ここで、(7)式の第1項の||・||Fは、フロベニウスノルムを表す。(7)式の第2項の||・||2は、L2ノルムを表す。(7)式の第3項の||・||1は、L1ノルムを表す。これらのノルムの表記の方法は、他の式においても同じである。
【0056】
(7)式の第1項は、(1)式の第1回帰式で算出される被影響因子の値(1nm(αm)T+XmBm+ZmCm)と、標本データにおける被影響因子の値(Ym)との差を表す損失関数の一例である。(7)式の第1項の「1nm(αm)T-XmBm-ZmCm)のXm、Zmには、それぞれ、標本データ抽出部120により作成された共通影響因子行列Xm、固有影響因子行列Zmが与えられる。(7)式の第1項の「Ym」には、標本データ取得部110により作成された被影響因子行列Ymが与えられる。
【0057】
(7)式の第2項は、共通影響因子に対する第1回帰係数βm
1,1~βm
1,p,・・・,βm
p,1~βm
p,q(第1回帰係数行列Bm)の正則化項の一例である。
(7)式の第3項は、固有影響因子に対する第1回帰係数cm
1,1~cm
1,q,・・・,cm
rm,1~cm
rm,q(第1回帰係数行列Cm)の正則化項の一例である。
以下に(7)式の計算方法の一例を説明する。
(7)式の第1項は、以下の(8)式のように表される。
【0058】
【0059】
ここで、tr[]は、[]内の行列のトレースをとることを表す。
(7)式の第2項において、λは、非負の値または正の値を有する正則化パラメータであり、予め設定される。βj,kは、全ての母集団m(m=1~M)における第1回帰係数行列Bmの第j行第k列の要素β1
j,k,・・・,βM
j,kをこの順で第1行,・・・,第M行に格納した列ベクトルである(βj,k=(β1
j,k,・・・,βM
j,k)T)。(7)式の第2項の||βj,k||2は、L2ノルムを表すので、原点からβj,kまでの距離はユークリッド距離と同値である。従って、(7)式の第2項は、以下の(9)式のように表される。(9)式は、M個の母集団1~Mの間の正則化であるグループLassoと呼ばれる正則化項に対応する。
【0060】
【0061】
(7)式の第3項において、γmは、非負の値または正の値を有する正則化パラメータであり、母集団m毎に予め設定される。(7)式の第3項の||Cm||1は、L1ノルムを表し、以下の(10)式のように表される。(10)式は、グループ内の正則化であるLassoと呼ばれる正則化項(L1正則化項)に対応する。
【0062】
【0063】
ここで、(7)式には微分することができない正則化項が含まれる。そこで、本実施形態では、交互方向乗数法(ADMM:Alternating Direction Method of Multipliers)を用いて(7)式のコスト関数の値を最小化する最小化問題を解く場合を例示する。(7)式のコスト関数の値を最小化する最小化問題を交互方向乗数法に適用することができるように、(7)式を以下の(11)式のように書き換える。
【0064】
【0065】
ここで、拡張ラグランジュ関数(Augmented Lagrangian)Lpは、以下の(12)式のように表される。
【0066】
【0067】
ここで、ρは、正の値を有するパラメータであり、予め設定される。ρは、例えば1.0である。なお、uj,kおよびVmは、ラグラジュ乗数である。
交互方向乗数法では、Bm、ηj,k、uj,k、Cm、Dm、Vm、αmを、この順で更新することを、交互方向乗数法で定められている収束条件を満足するまで繰り返し実行する。以下のこれらの変数の更新則の概要を説明する。
【0068】
<Bmの更新>
Bmは、以下の(13)式で表される。ここで、Hm(Hm∈Rp×q)を、第j行第k列の要素がηm
j,k(=βm
j,k)の行列と定義する。また、Um(Um∈Rp×q)を、第j行第k列の要素がum
j,kの行列と定義する。行列Hm、Umを用いて以下の(13)式の右辺第3項目を以下の(14)式のように書き直す。そして、(14)式の関係を用いて(13)式をBmについて偏微分することにより、以下の(15)式に示すBmの更新値(最小解)を得る。ここで、arg min Bm{}は、{}内の関数を最小にするBmを表す(なお、arg min Bmは、(13)式においてarg minの下にBmが付されている記号に対応する)。arg minの意味は、その他の式においても同じである。なお、(13)式においてIpは、p行p列の単位行列である。
【0069】
【0070】
<ηj,kの更新>
ηj,kは、以下の(16)式で表される。(16)式において、近接写像proxは、グループ毎にスケーリングされたソフト閾値処理(soft-thresholding operator)となる。従って、ηj,kは、以下の(17)式により計算される。具体的にηj,kの更新値は、以下の(18)式のようになる。ここで、(max(1-λ/ρ/||βj,k-uj,k||2,0)は、「1-λ/ρ/||βj,k-uj,k||2」と「0」とのうちの最大値を表す。maxの意味は、その他の式においても同じである。
【0071】
【0072】
<uj,kの更新>
uj,kの更新値は、以下の(19)式のようになる。
【0073】
【0074】
<Cmの更新>
Cmは、以下の(20)式で表される。(20)式をCmについて偏微分することにより、以下の(21)式に示すCmの更新値(最小解)を得る。ここで、Irmは、rm行、rm列の単位行列を表す。
【0075】
【0076】
<Dmの更新>
Dmは、以下の(22)式で表される。(Dm)i,jは、Dmの第i行第j列の要素であることを表す。このような表記の方法は、その他の式においても同じである。(22)式の計算を実行すると、以下の(23)式が得られる。ここで、sgnは、符号関数を表す。abs()は、()内の値の絶対値をとることを表す。具体的にDmの更新値は、以下の(24)式のようになる。
【0077】
【0078】
<Vmの更新>
Vmの更新値は、以下の(25)式のようになる。
【0079】
【0080】
<αmの更新>
αmは、以下の(26)式で表される。(26)式をαmについて偏微分することにより、以下の(27)式に示すαmの更新値(最小解)が得られる。
【0081】
【0082】
本実施形態では、第1回帰係数算出部130は、以上のようにして(1)式の第1回帰式における第1回帰係数行列Bm、Cmおよび切片ベクトルαmを算出する。
【0083】
なお、本実施形態では、交互方向乗数法を用いて(7)式のコスト関数の値を最小化する最小化問題を解く場合を例示した。しかしながら、(7)式のコスト関数の値を最小化する最小化問題を解く手法は、交互方向乗数法に限定されない。例えば、座標降下法、近接勾配法、最小角回帰法であってもよい。
【0084】
[影響因子特定工程(S205)、影響因子特定部140]
影響因子特定部140は、第1回帰係数算出部130により算出された第1回帰係数行列Bm(の要素βm
1,1~βm
1,q,・・・,βm
p,1~βm
p,q)、Cm(の要素cm
1,1~cm
1,q,・・・,cm
rm,1~cm
rm,q)に基づいて、被影響因子ym
1,1~ym
nm,qに影響を与える影響因子を特定する。
【0085】
本実施形態では、影響因子特定部140は、共通影響因子xm
1,1,・・・,xm
nm,pのうち、当該共通影響因子に乗算される第1回帰係数βm
1,1,・・・,βm
p,qが0(零)以外の値となる共通影響因子を、被影響因子に影響を与える共通影響因子として抽出する。影響因子特定部140は、共通影響因子xm
1,1,・・・,xm
nm,pの全てを選択して、このような抽出を実行する。
【0086】
また、影響因子特定部140は、固有影響因子zm
1,1,・・・,zm
nm,rmのうち、当該固有影響因子に乗算される第1回帰係数cm
1,1,・・・,cm
rm,qが0(零)以外の値となる固有影響因子を、被影響因子に影響を与える固有影響因子として抽出する。影響因子特定部140は、固有影響因子zm
1,1,・・・,zm
nm,rmの全てを選択して、このような抽出を実行する。
なお、影響因子特定部140は、0(零)以外の値となる影響因子(共通影響因子、固有影響因子)を抽出することに代えて、例えば、絶対値が閾値を上回る値の影響因子を抽出することにより、被影響因子に影響を与える影響因子として特定してもよい。
【0087】
図6は、共通影響因子x
m
1,1,・・・,x
m
nm,pおよび固有影響因子z
m
1,1,・・・,z
m
nm,rmから、被影響因子y
m
1,1~y
m
nm,qに影響を与える影響因子が特定されることを概念的に示す図である。
図6において、母集団1、2(M=2)における共通影響因子611~614のうち、被影響因子に影響を与える影響因子は、共通影響因子612~613であることを示す。四角内にクロスマークが付されている共通影響因子611、614は、被影響因子に影響を与える影響因子でないことを示す。
【0088】
このように、被影響因子に影響を与える共通影響因子612~613を特定することにより、被影響因子に影響を与える影響因子として全ての母集団1、2(M=2)に存在する影響因子を特定することができる。
例えば、母集団mのそれぞれが、被処理水を生物学的に処理する処理プロセスであり、影響因子fm
nmが、処理プロセスの各微生物群の含有量に関する因子であり、被影響因子ym
nmが、処理前後における特定物質の量の変化速度に関する因子である場合、特定物質の量の変化(例えば減少)に影響を与える微生物群として全ての処理プロセスに存在する微生物群を特定することができる。
【0089】
また、母集団mのそれぞれが、熱延コイルの製造プロセスであり、影響因子fm
nmが、被圧延材に対して操作量として用いられる物理量であり、被影響因子ym
nmが、熱延コイルの品質である場合、コイルの品質を向上させるのに影響を与える物理量として全ての製造プロセスに存在する物理量を特定することができる。
【0090】
また、母集団mのそれぞれが、人間であり、影響因子fm
nmが、人間の各種の遺伝子の数に関する因子であり、被影響因子ym
nmが、人間の特定の疾患に対する検査項目に関する因子である場合、特定の疾患に影響を与える遺伝子として全ての人間に存在する遺伝子を特定することができる。
【0091】
また、母集団1における固有影響因子621~624のうち、被影響因子に影響を与える影響因子は、固有影響因子622~623であり、固有影響因子621、624は、被影響因子に影響を与える影響因子ではないことを示す。また、母集団2における固有影響因子631~633のうち、被影響因子に影響を与える影響因子は、固有影響因子633であり、固有影響因子631~632は、被影響因子に影響を与える影響因子ではないことを示す。
【0092】
このように、被影響因子に影響を与える固有影響因子622~623、633を特定することにより、被影響因子に影響を与える影響因子として、各母集団1、2(M=2)に固有の固有影響因子を特定することができる。
例えば、母集団mのそれぞれが、被処理水を生物学的に処理する処理プロセスであり、影響因子fm
nmが、処理プロセスの各微生物群の含有量に関する因子であり、被影響因子ym
nmが、処理前後における特定物質の量の変化速度に関する因子である場合、特定物質の量の変化(例えば減少)に影響を与える微生物群として、1つの処理プロセスに固有の微生物群を特定することができる。
【0093】
また、母集団mのそれぞれが、熱延コイルの製造プロセスであり、影響因子fm
nmが、被圧延材に対して操作量として用いられる物理量であり、被影響因子ym
nmが、熱延コイルの品質である場合、コイルの品質を向上させるのに影響を与える物理量として、1つの製造プロセスに固有の物理量を特定することができる。
【0094】
また、母集団mのそれぞれが、人間であり、影響因子fm
nmが、人間の各種の遺伝子の数に関する因子であり、被影響因子ym
nmが、人間の特定の疾患に対する検査項目に関する因子である場合、人間の特定の疾患に影響を与える遺伝子として、一人の人間に固有の遺伝子を特定することができる。
【0095】
[特定影響因子出力工程(S206)、特定影響因子出力部150]
特定影響因子出力部150は、影響因子特定部140により、被影響因子に影響を与える影響因子として特定された影響因子の情報を出力する。影響因子の情報の出力形態は、例えば、コンピュータディスプレイへの表示、外部装置への送信、および可搬型記憶媒体への記憶のうち、少なくとも1つである。
【0096】
[評価用データ採取工程(S301)]
評価用データ採取工程(S301)を実行するタイミングは特に限定されない。評価用データ採取工程(S301)は、例えば、標本データ採取工程(S201)が終了した後に実行されても、第1回帰係数算出工程(S204)が終了した後に実行されても、標本データ採取工程(S201)の前に実行されてもよい。
【0097】
評価用データ採取工程では、標本データ採取工程(S201)で標本データの採取の対象となった複数の母集団m(m=1,・・・,M)のうちの少なくとも1つの母集団mから、評価用データを採取する。本実施形態では、評価用データには、影響因子の値が含まれ、被影響因子の値は含まれないものとする。評価用データは、例えば、[標本データ採取工程(S201)、標本データ抽出部120]」の欄で説明した影響因子行列Fmの要素fm
1,1,・・・,fm
nm,sの値である。また、[標本データ採取工程(S201)、標本データ抽出部120]の欄で説明したように、影響因子の値(影響因子行列Fmの要素fm
1,1,・・・,fm
nm,sの値)は、例えば、観測値(測定値等)および計算値のうちの少なくとも一方を含む。
【0098】
なお、評価用データ採取工程で採取される影響因子行列Fmの要素fm
1,1、fm
nm,sは、標本データ採取工程で採取される影響因子行列Fmの要素fm
1,1、fm
nm,sとは異なるものである。評価用データ採取工程で採取される影響因子行列Fmの要素fm
1,1、fm
nm,sは、例えば、標本データ採取工程で採取される影響因子行列Fmの要素fm
1,1、fm
nm,sよりも後のタイミングで採取される。また、評価用データ(影響因子行列Fmの要素)のうち、母集団m(m=1~M)に存在しない種類の影響因子の値は、0(零)であるものとする。なお、nmの値は1であっても2以上であってもよい。
【0099】
[評価用データ取得工程(S302)、評価用データ取得部160]
評価用データ取得部160は、評価用データ採取工程で採取された評価用データfm
1,1,・・・,fm
nm,sを取得する。評価用データの取得形態として、例えば、外部装置からの送信、オペレータによるユーザインターフェースに対する評価用データの入力操作、および可搬型記憶媒体からの読み出しのうち、少なくとも1つが採用される。
【0100】
[評価用データ抽出工程(S303)、評価用データ抽出部170]
評価用データ抽出工程(S303)は、少なくとも、標本データ抽出部120による標本データ抽出工程(S203)が終了した後に実行される。評価用データ抽出工程(S303)は、第1回帰係数算出部130による第1回帰係数算出工程(S204)が終了した後に実行されてもよい。
【0101】
評価用データ抽出部170は、評価用データ取得部160により取得された評価用データfm
1,1,・・・,fm
nm,sのうち、共通影響因子のデータを抽出する。評価用データ抽出部170における抽出対象の共通影響因子は、標本データ抽出部120が抽出した共通影響因子と同種の影響因子である。共通影響因子のデータは、例えば、[標本データ抽出工程(S203)、標本データ抽出部120]の欄で説明した共通影響因子行列Xmの要素xm
1,1,・・・,xm
nm,pの値として得られる。ただし、共通影響因子のデータ(共通影響因子行列Xmの要素xm
1,1,・・・,xm
nm,pの値)そのものは、[標本データ抽出工程(S203)、標本データ抽出部120]の欄で説明した共通影響因子のデータ(共通影響因子行列Xmの要素xm
1,1,・・・,xm
nm,pの値)と異なる。
【0102】
評価用データ抽出部170は、評価用データ取得部160により取得された評価用データfm
1,1,・・・,fm
nm,sのうち、非共通影響因子のデータを抽出する。評価用データ抽出部170における抽出対象の非共通影響因子は、標本データ抽出部120が抽出した非共通影響因子と同種の影響因子である。[標本データ抽出工程(S203)、標本データ抽出部120]の欄で説明したように、本実施形態では、評価用データ抽出部170が、固有影響因子のみを、非共通影響因子として抽出する場合を例示する。固有影響因子のデータは、例えば、[標本データ抽出工程(S203)、標本データ抽出部120]の欄で説明した固有影響因子行列Zmの要素zm
1,1,・・・,zm
nm,rmの値として得られる。ただし、固有影響因子のデータ(固有影響因子行列Zmの要素zm
1,1,・・・,zm
nm,rmの値)そのものは、[標本データ抽出工程(S203)、標本データ抽出部120]の欄で説明した固有影響因子のデータ(固有影響因子行列Zmの要素zm
1,1,・・・,zm
nm,rmの値)と異なる。
【0103】
[被影響因子算出工程(S304)、被影響因子算出部180]
被影響因子算出工程(S304)は、少なくとも、第1回帰係数算出部130による第1回帰係数算出工程(S204)が終了した後に実行される。
【0104】
被影響因子算出部180は、評価用データ抽出部170により評価用データf
m
1,1,・・・,f
m
nm,sから抽出された、共通影響因子のデータおよび非共通影響因子(固有影響因子)のデータと、
図2のステップS204の処理で第1回帰係数算出部130により算出された、第1回帰係数行列B
m、C
mおよび切片ベクトルα
mが代入された(1)式の第1回帰式と、に基づいて、被影響因子y
m
1,1,・・・,y
m
nm,qの値を算出する。
【0105】
具体的に被影響因子算出部180は、評価用データ抽出部170により抽出された、共通影響因子行列Xmの要素xm
1,1,・・・,xm
nm,pの値および固有影響因子行列Zmの要素zm
1,1,・・・,zm
nm,rmの値を、第1回帰係数行列Bm、Cmおよび切片ベクトルαmが代入された(1)式の第1回帰式に代入して、(1)式の左辺の値(被影響因子行列Ymの要素ym
1,1,・・・,ym
nm,qの値)を算出する。
【0106】
[被影響因子出力工程(S305)、被影響因子出力部190]
被影響因子出力部190は、被影響因子算出部180により算出された被影響因子ym
1,1,・・・,ym
nm,qの値の情報を出力する。被影響因子ym
1,1,・・・,ym
nm,qの値の情報の出力形態は、例えば、コンピュータディスプレイへの表示、外部装置への送信、および可搬型記憶媒体への記憶のうち、少なくとも1つである。
【0107】
[まとめ]
以上のように本実施形態では、処理装置100は、複数の母集団における標本データから共通影響因子のデータおよび非共通影響因子(固有影響因子)のデータを抽出して、共通影響因子行列Xmおよび固有影響因子行列Zmを作成し、共通影響因子行列Xmおよび固有影響因子行列Zmを用いてスパース正則化を適用した回帰分析を実行することにより、共通影響因子行列Xmに対する第1回帰係数行列Bmおよび固有影響因子行列Zmに対する第1回帰係数行列Cmを算出する。このようにして算出された第1回帰係数行列Bm、Cmの各要素の値により、複数の母集団において影響因子により影響を受ける被影響因子を特定することができる。従って、複数の母集団において影響因子により影響を受ける被影響因子を同時に特定するための指標を算出することができる。また、複数の母集団における標本データを用いるので、標本データの数を多くすることができ、より精緻な解析を実行することができる。
【0108】
また、本実施形態では、処理装置100は、第1回帰係数行列Bm、Cmの各要素の値に基づいて、複数の母集団において被影響因子に影響を与える影響因子を特定する。従って、複数の母集団において被影響因子に影響を与える被影響因子を同時に特定することができる。より具体的には、被影響因子に影響を与える影響因子として複数の母集団の全てに存在する共通影響因子を特定することができる。また、被影響因子に影響を与える影響因子として共通影響因子と異なる非共通影響因子を特定することができる。ここで、非共通影響因子として、1つの母集団に固有の影響因子である固有通影響因子を用いることにより、被影響因子に影響を与える影響因子として特定の1つの母集団にのみ存在する影響因子を複数の母集団のそれぞれにおいて特定することができる。このように、複数の母集団の全てに存在する影響因子と、複数の母集団の一部のみに存在する影響因子とを分けて評価することができる。
【0109】
例えば、被処理水を生物学的に処理する複数の処理プロセスにおいて、処理前後における特定物質の量の変化速度を被影響因子とすると共に、処理プロセスの各微生物群の含有量を影響因子とする場合、特定物質の量の変化に影響を与える微生物群として全ての処理プロセスに共通して存在する一または複数の微生物群を特定することにより、全ての処理プロセスに対し被処理水の処理条件として共通の処理条件を適用することができる。また、被処理水を生物学的に処理する複数の処理プロセスにおいて、特定物質の量の変化に影響を与える微生物群として一部の処理プロセスのみに存在する一または複数の微生物群を特定することにより、処理水の処理条件として、当該一部の処理プロセスに特化した処理条件を適用することができる。
【0110】
ここで、被処理水の処理条件の具体例について簡単に説明する。
まず、特定された微生物群が処理水中に存在することは、例えば、微生物群の塩基配列に基づき、処理プロセスから、当該塩基配列を有する核酸を検出することで、検出することが可能である。例えば、特定された微生物群が、処理プロセス内で所望の物質の分解反応に寄与するものである場合、特定された微生物群の生育に適した条件に処理条件を制御すればよい。例えば、特定された微生物群が、処理水プロセス内で所望の物質の分解反応を抑制するものである場合、特定された微生物群の生育に適さない条件を処理条件として採用すればよい。処理条件とは、例えば、処理プロセスの温度、pH、溶存酸素濃度、塩濃度、水理学的滞留時間(HRT)、汚泥滞留時間(SRT)、微生物固定用担体の投入、生育促進または阻害物質の添加、処理槽中の攪拌速度、および前記処理条件の異なる処理槽の組み合わせ等が挙げられる。
【0111】
また、微生物群の少なくとも一種を含む微生物資源を移植して、被処理水を処理してもよい。微生物資源としては、例えば活性汚泥、微生物製剤、微生物担体、微生物株、土壌、底泥、海水、河川水、湖水等が挙げられる。例えば、生物学的排水処理装置を新設する際に、特定された微生物群の少なくとも一種を含み、好ましくはそれら微生物群の量が多い微生物資源を移植することで、短時間で必要な処理性能を得ることが可能である。また、例えば、既設の生物学的排水処理装置の微生物が一時的な毒物の流入などにより死滅し、処理性能が悪化した場合に、特定された微生物群の少なくとも一種を含み、好ましくはそれら微生物群の量が多い微生物資源を移植することで、短時間で必要な処理性能まで回復することが可能である。
【0112】
また、本実施形態では、処理装置100は、評価用データfm
1,1,・・・,fm
nm,sから抽出された非共通影響因子(固有影響因子)のデータと、前述したようにして算出した第1回帰係数行列Bm、Cmが代入された(1)式の第1回帰式と、に基づいて、被影響因子ym
1,1,・・・,ym
nm,qの値を算出する。従って、影響因子の値が与えられた場合の被影響因子の値を複数の母集団において同時に算出することができる。
【0113】
被処理水を生物学的に処理する複数の処理プロセスにおいて、処理前後における特定物質の量の変化速度を被影響因子とすると共に、処理プロセスの微生物の含有量を影響因子とする場合、一または複数の微生物群により、各処理プロセスにおいて特定物質の量がどのくらいの速度で変化するのかについての知見を得ることができる。具体的には、特定物質の量の変化に影響を与える微生物群として全ての処理プロセスに共通して存在する一または複数の微生物群により、各処理プロセスにおいて特定物質の量がどのくらいの速度で変化するのかについての知見を得ることができる。また、特定物質の量の変化に影響を与える微生物群として一部の処理プロセスのみに存在する一または複数の微生物群により、各処理プロセスにおいて特定物質の量がどのくらいの速度で変化するのかについての知見を得ることができる。
【0114】
[変形例]
<変形例1>
本実施形態では、非共通影響因子が固有影響因子のみである場合を例示した。しかしながら、被影響因子は固有影響因子に限定されない。例えば、標本データ抽出部120は、共通影響因子と異なる全ての影響因子を、非共通影響因子の一群として抽出してもよい。また、標本データ抽出部120は、複数の母集団1~Mのうち、類似の特性を持つ複数の母集団に固有の影響因子を、非共通影響因子の一群として抽出してもよい。また、標本データ抽出部120が抽出する非共通影響因子群は、1つでも複数でもよい。複数の非共通影響因子群を抽出する場合、複数の非共通影響因子群のそれぞれについて別々の非共通影響因子行列を作成すると共に、当該非共通影響因子行列に対する第1回帰係数行列をそれぞれ作成する。そして、第1回帰式において、複数の非共通影響因子行列のそれぞれに対する正則化項を設定する。
【0115】
<変形例2>
本実施形態では、共通影響因子に対する第1回帰係数βm
1,1~βm
1,q,・・・,βm
p,1~βm
p,q(第1回帰係数行列Bm)のスパース正則化項((7)式の第2項)がグループLasso(Least Absolute. Shrinkage and Selection Operator)によるスパース正則化項である場合を例示した。また、固有影響因子に対する第1回帰係数cm
1,1~cm
1,q,・・・,cm
rm,1~cm
rm,q(第1回帰係数行列Cm)のスパース正則化項((7)式の第3項)がグループ内の正則化であるLassoによるスパース正則化項(L1正則化項)である場合を例示した。しかしながら、スパース正則化項(第1回帰係数の値をスパースにする正則化(すなわち、第1回帰係数の値を0(零)に誘導して0(零)に縮小可能な正則化)を行うための正則化項)は、これらのスパース正則化項に限定されない。スパース正則化項は、例えば、エラスティックネット(Elastic Net)正則化項、SCAD(Smoothly Clipped Absolute Deviation)正則化項であってもよい。
【0116】
なお、共通影響因子に対する第1回帰係数βm
1,1~βm
1,q,・・・,βm
p,1~βm
p,q(第1回帰係数行列Bm)の正則化項と、固有影響因子に対する第1回帰係数cm
1,1~cm
1,q,・・・,cm
rm,1~cm
rm,q(第1回帰係数行列Cm)の正則化項とをスパース正則化項とすることで、第1回帰係数βm
1,1~βm
1,q,・・・,βm
p,1~βm
p,q、cm
1,1~cm
1,q,・・・,cm
rm,1~cm
rm,qの最適解として0(零)が算出され易くなる。即ち、被影響因子に与える影響が小さい影響因子に対する第1回帰係数が0になり易くなる。
【0117】
<変形例3>
本実施形態では、被影響因子の種類の数(=q)は1以上であっても2以上であってもよい。(1)式によれば、被影響因子の種類の数(=q)が2以上である場合でも、1つの多変量回帰式で、q種類の被影響因子の値を同時に算出することができる(
図4の「母集団mの標本データ」の欄の被影響因子Y
mも参照)。しかしながら、必ずしもこのようにする必要はない。例えば、2種類以上のq種類のそれぞれの被影響因子について個別に(1)式の第1回帰式を構築することを(即ち、q=1として第1回帰係数行列B
m、C
mおよび切片ベクトルα
mを算出することを)、q種類の被影響因子のそれぞれについて個別に行ってもよい。このようにする場合、(1)式の第1回帰式としてq個の第1回帰式が構築される。
【0118】
<変形例4>
本実施形態では、第1回帰係数を算出する処理と、被影響因子の値を算出する処理と、が同一の処理装置で実現される場合を例示した。しかしながら、第1回帰係数を算出する処理(
図2のフローチャートによる処理)と、被影響因子の値を算出する処理(
図3のフローチャートによる処理)と、は別の処理装置で実現されてもよい。被影響因子の値を算出する処理(
図3のフローチャートによる処理)を実行する処理装置は、
図2のステップS201~S204の処理で算出された、第1回帰係数行列B
m、C
mおよび切片ベクトルα
mが代入された(1)式の第1回帰式の情報を取得して、
図3のフローチャートによる処理を実行する。この場合、被影響因子の値を算出する処理(
図3のフローチャートによる処理)を実行する処理装置では、
図2のステップS205~S206の処理は実行されない。一方、第1回帰係数を算出する処理(
図2のフローチャートによる処理)を実行する処理装置では、
図3のフローチャートによる処理は実行されない。
【0119】
(第2実施形態)
次に、第2実施形態を説明する。第1実施形態では、被影響因子ym
1,1,・・・,ym
nm,qの値を算出する回帰式として(1)式の第1回帰式を用いる場合を例示した。(1)式の第1回帰式においては、第1回帰係数算出部130により算出された第1回帰係数行列Bm、Cmおよび切片ベクトルαmが代入される。第1実施形態では、第1回帰係数算出部130は、第1回帰係数行列Bm、Cmにおいて0(零)となる要素(第1回帰係数)を算出し得る。この場合、(1)式の第1回帰式において、影響因子fm
1,1、fm
nm,sのうち、0(零)となる第1回帰係数を含む項は(当該第1回帰係数に乗算される影響因子の値に関わらず)0(零)になる。
【0120】
これに対し、本実施形態では、標本データ取得部110により取得された標本データを用いた回帰分析の一例として線形回帰を行うことにより、第2回帰式における第2回帰係数を算出する場合を例示する。第2回帰式は、影響因子特定部140により被影響因子に影響を与える影響因子として特定された共通影響因子および固有影響因子と、被影響因子と、の関係を表す。第1回帰式における説明変数は、共通影響因子x
m
1,1,・・・,x
m
nm,pおよび固有影響因子z
m
1,1,・・・,z
m
nm,rmの全てである。これに対し、第2回帰式における説明変数は、共通影響因子x
m
1,1,・・・,x
m
nm,pおよび固有影響因子z
m
1,1,・・・,z
m
nm,rmの全てのうち、影響因子特定部140により被影響因子に影響を与える影響因子として特定された共通影響因子および固有影響因子である。このように本実施形態は、第1実施形態に対し、第2回帰式を算出することによる構成および処理が主として異なる。したがって、本実施形態の説明において、第1実施形態と同一の部分については、
図1~
図6に付した符号と同一の符号を付す等して詳細な説明を省略する。
【0121】
図7は、第2実施形態の処理装置100の機能的な構成の一例を示す図である。
図8は、標本データ取得部110、標本データ抽出部120、第1回帰係数算出部130、影響因子特定部140、特定影響因子出力部150、および第2回帰係数算出部200による処理方法の一例を説明するフローチャートである。
【0122】
図7において、処理装置100は、
図1に示す処理装置100に対し、第2回帰係数算出部200をさらに有する。また、本実施形態の処理装置100では、被影響因子算出部180が有する機能の一部が第1実施形態と異なる。
また、
図8に示すフローチャートでは、
図2に示すフローチャートに対しS207が追加される。また、
図8に示すフローチャートでは、
図2に示すフローチャートに対しS206における処理の一部が異なる。
また、評価用データ取得部160、評価用データ抽出部170、被影響因子算出部180、および被影響因子出力部190による処理方法の一例を説明するフローチャートは、
図3と同じである。ただし、S304の処理の一部が異なる。以下に、第1実施形態と異なる部分について説明する。
【0123】
[第2回帰係数算出工程(S207)、第2回帰係数算出部200]
標本データ抽出部120は、標本データ取得部110により取得された標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)を用いて線形回帰を行うことにより、影響因子特定部140により被影響因子に影響を与える影響因子として特定された影響因子と、当該影響因子により影響を受ける被影響因子と、の関係を表す第2回帰式における第2回帰係数を算出する。
【0124】
なお、第2回帰式における説明変数には、影響因子特定部140により被影響因子に影響を与える影響因子として特定された影響因子の少なくとも1つが含まれていればよい。また、第2回帰式における目的変数には、影響因子により影響を受ける被影響因子の少なくとも1つが含まれていればよい。ただし、第2回帰式における説明変数には、影響因子特定部140により被影響因子に影響を与える影響因子として特定された影響因子の全てが含まれ、且つ、第2回帰式における目的変数には、当該影響因子により影響を受ける被影響因子の全てが含まれるのが好ましい。そこで、本実施形態では、第2回帰式が、影響因子特定部140により被影響因子に影響を与える影響因子として特定された影響因子の全てと、当該影響因子により影響を受ける被影響因子の全てと、の関係を表す場合を例示する。
また、第2回帰係数を算出する際に用いられる標本データは、(1)式の第1回帰式における第1回帰係数行列Bm、Cmおよび切片ベクトルαmを算出する際に用いられた標本データと同じであっても異なっていてもよい。
【0125】
第1実施形態では、影響因子特定部140が、共通影響因子xm
1,1,・・・,xm
nm,pのうち、当該共通影響因子に乗算される第1回帰係数βm
1,1,・・・,βm
p,qが0(零)以外の値となる共通影響因子を、被影響因子に影響を与える共通影響因子として特定する場合を例示した。また、影響因子特定部140が、固有影響因子zm
1,1,・・・,zm
nm,rmのうち、当該固有影響因子に乗算される第1回帰係数cm
1,1,・・・,cm
rm,qが0(零)以外の値となる固有影響因子を、被影響因子に影響を与える固有影響因子として特定する場合を例示した。そこで、本実施形態でも、影響因子特定部140がこのようにして被影響因子に影響を与える共通影響因子および固有影響因子が特定する場合を例示する。以下の説明では、影響因子特定部140により被影響因子に影響を与える影響因子として特定される影響因子を、必要に応じて、特定影響因子と称する。
本実施形態では、以下の(28)式~(29)式のように第2回帰式が表される場合を例示する。
【0126】
【0127】
(28)式において、Ym、1nm、αmは、(1)式に示したものと同じである。ただし、Ym、αmの要素の値自体は、(1)式と(28)式とで異なる。なお、被影響因子の種類の数が2以上である場合(q≧2)、(28)式は、多変量回帰式である。被影響因子の種類の数が1である場合(q=1)、(28)式は、重回帰式である。
【0128】
(28)式において、特定影響因子行列Χmは、影響因子特定部140により特定されたw種類の特定影響因子の値を格納する行列である。特定影響因子行列Χm(Χm∈Rnm×w)は、例えば、第1実施形態における共通影響因子行列Xm(Xm∈Rnm×p)の説明において、p種類の共通影響因子を、w種類の特定影響因子に置き換えることにより得られる。したがって、ここでは、その詳細な説明を省略する。なお、(29)式において、個々の特定影響因子の値は、特定影響因子行列Χmの要素χm
1,1,・・・,χm
1,w,・・・,χm
nm,1,・・・,χm
nm,wで表される。また、特定影響因子行列Χmの同一の列には同種の特定影響因子の値が格納される。
【0129】
(28)式において、第2回帰係数行列Ξmは、特定影響因子行列Χmの要素である特定影響因子の値χm
1,1,・・・,χm
1,w,・・・,χm
nm,1,・・・,χm
nm,wに乗算される第2回帰係数ξm
1,1~ξm
1,q,・・・,ξm
w,1~ξm
w,qの値を要素とするw行q列の第2回帰係数行列(Ξm∈Rw×q)である。
【0130】
第2回帰係数算出部200は、(28)式の第2回帰式における第2回帰係数行列Ξmおよび切片ベクトルαmを算出する。第2回帰係数行列Ξmおよび切片ベクトルαmを算出する手法は、線形回帰を行う公知の手法(例えば、最小二乗法)でよい。第2回帰係数算出部200は、例えば、以下の(30)式のコスト関数を最小化の値を最小にする最小化問題を解くことにより、第2回帰係数行列Ξmおよび切片ベクトルαmを算出する。
【0131】
【0132】
なお、第2回帰係数算出工程(S207)は、影響因子特定工程(S205)と特定影響因子出力工程(S206)との間で行われてもよい。
【0133】
[被影響因子算出工程(S304)、被影響因子算出部180]
被影響因子算出工程(S304)は、少なくとも、第2回帰係数算出部200による第2回帰係数算出工程(S207)が終了した後に実行される。
【0134】
被影響因子算出部180は、評価用データ抽出部170により評価用データf
m
1,1,・・・,f
m
nm,sから抽出された、共通影響因子のデータおよび非共通影響因子(固有影響因子)のデータと、
図8のステップS207の処理で第2回帰係数算出部200により算出された、第2回帰係数行列Ξ
mおよび切片ベクトルα
mが代入された(28)式の第2回帰式と、に基づいて、被影響因子y
m
1,1,・・・,y
m
nm,qの値を算出する。
具体的に被影響因子算出部180は、評価用データ抽出部170により抽出された共通影響因子行列X
mの要素x
m
1,1,・・・,x
m
nm,pのうち、特定影響因子を示す要素の値と、評価用データ抽出部170により抽出された固有影響因子行列Z
mの要素z
m
1,1,・・・,z
m
nm,rmのうち、特定影響因子を示す要素の値と、を、第2回帰係数行列Ξ
mおよび切片ベクトルα
mが代入された(28)式の第2回帰式(第2回帰係数行列Ξ
m)に代入して、(28)式の左辺の値(被影響因子行列Y
mの要素y
m
1,1,・・・,y
m
nm,qの値)を算出する。
【0135】
[まとめ]
以上のように本実施形態では、処理装置100は、標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)を用いて線形回帰を行うことにより第2回帰係数行列Ξmを算出する。したがって、回帰式のバリエーションを増やすことができる。例えば、被影響因子の内容や、被影響因子の挙動(例えば、時間変化)等に応じて、被影響因子の値をより高精度に算出する回帰式を選択することができる。
【0136】
なお、本実施形態においても第1実施形態で説明した種々の変形例を採用してもよい。また、被影響因子算出部180は、第2回帰式に加えて、第1回帰式を用いて被影響因子ym
1,1,・・・,ym
nm,qの値を算出してもよい。このようにすることで、例えば、第1回帰式で算出された被影響因子ym
1,1,・・・,ym
nm,qの値と、第2回帰式で算出された被影響因子ym
1,1,・・・,ym
nm,qの値と、に基づいて、いずれの回帰式が適切であるのかを評価することができる。
【0137】
また、第1回帰式および第2回帰式を構築した後、被影響因子算出部180による算出を行う前に、例えば、標本データ取得部110により取得された標本データを用いて第1回帰式および第2回帰式を評価し、評価が高い方の回帰式を、被影響因子算出部180が被影響因子ym
1,1,・・・,ym
nm,qの値を算出するために用いる回帰式として採用してもよい。例えば、標本データの説明変数(xm
1,1,・・・,xm
nm,p、zm
1,1,・・・,zm
nm,rm)を第1回帰式および第2回帰式に代入することにより算出される目的変数(ym
1,1,・・・,ym
nm,q)と、標本データの目的変数とを、比較することにより、第1回帰式および第2回帰式を評価してもよい。また、例えば、交差検証法により、第1回帰式および第2回帰式を評価してもよい。
【0138】
(第3実施形態)
次に、第3実施形態を説明する。第2実施形態では、標本データ(y
1
1,f
1
1)~(y
1
n1,f
1
n1),・・・,(y
m
1,f
m
1)~(y
m
nm,f
m
nm),・・・,(y
M
1,f
M
1)~(y
M
nM,f
M
nM)を用いて線形回帰を行うことにより第2回帰係数行列Ξ
mを算出する場合を例示した。この場合、標本データの数(n
M)が影響因子特定部140により特定された特定影響因子の種類の数(w)よりも少ないと、線形回帰を行うことができない。そこで、本実施形態では、このような場合でも第2回帰式(第2回帰係数行列Ξ
m)を算出することができるようにする。具体的には、第2回帰式で算出される被影響因子の値と、標本データにおける被影響因子の値と、の差を表す損失関数と、L2正則化項と、を含むコスト関数を用いて、第2回帰係数行列Ξ
mを算出する。このようなコスト関数を用いていれば回帰分析の手法は限定されないが、本実施形態では、回帰分析の手法としてリッジ回帰を用いる場合を例示する。なお、リッジ回帰に代えて、例えば、エラスティックネットを用いて回帰分析を行ってもよい。このように本実施形態と第2実施形態とは、第2回帰係数行列Ξ
mを算出する手法が主として異なる。よって、本実施形態の説明において、第1~第2の実施形態と同一の部分については、
図1~
図8に付した符号と同一の符号を付す等して詳細な説明を省略する。
【0139】
[第2回帰係数算出工程(S207)、第2回帰係数算出部200]
標本データ抽出部120は、標本データ取得部110により取得された標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)を用いて(前記線形回帰ではなく)リッジ回帰を行うことにより、第2回帰式における第2回帰係数を算出する。第2実施形態で説明したように、第2回帰式は、影響因子特定部140により特定された特定影響因子と、当該特定影響因子により影響を受ける被影響因子と、の関係を表す。
【0140】
第2回帰式は、例えば(28)式である。この場合、第2回帰係数算出部200は、(28)式の第2回帰式における第2回帰係数行列Ξmおよび切片ベクトルαmを算出する。第2回帰係数行列Ξmおよび切片ベクトルαmを算出する手法は、リッジ回帰を行う公知の手法で実現すればよい。第2回帰係数算出部200は、例えば、以下の(31)式のコスト関数を最小化の値を最小にする最小化問題を解くことにより、第2回帰係数行列Ξmおよび切片ベクトルαmを算出する。
【0141】
【0142】
(31)式に示す例では、(31)式の第1項が、第2回帰式で算出される被影響因子の値(1nm(αm)T+ΧmΞm)と、標本データにおける被影響因子の値(Ym)と、の差を表す損失関数に対応する。また、(31)式の第2項がL2正則化項に対応する。
【0143】
[まとめ]
以上のように本実施形態では、処理装置100は、標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)を用いて線形回帰を行うことにより第2回帰係数行列Ξmを算出する。したがって、第2実施形態で説明した効果に加え、標本データの数(nM)が影響因子特定部140により特定された特定影響因子の種類の数(w)より少なくても第2回帰係数行列Ξmを算出することができる。また、L2正則化を行うことにより、求めた回帰係数の変動幅を抑えることができる。したがって、例えば、被影響因子の単位時間当たりの変化量が大きい場合であっても、線形回帰を行うことにより得られる第2回帰式を用いる場合に比べ、第2回帰式で算出される被影響因子の時間変化が過度に大きくなる場合において、実際の被影響因子の時間変化に近づけることが可能になる。
【0144】
なお、本実施形態においても第1~第2実施形態で説明した種々の変形例を採用してもよい。第2実施形態の変形例において、第1回帰式(第1回帰係数行列Bm、Cm)と、本実施形態で説明した第2回帰式(第2回帰係数行列Ξm)と、の2つの回帰式を算出し、それぞれの回帰式を用いて被影響因子ym
1,1,・・・,ym
nm,qの値を算出してもよい。また、第1回帰式(第1回帰係数行列Bm、Cm)と、第2実施形態で説明した第2回帰式(第2回帰係数行列Ξm)と、本実施形態で説明した第2回帰式(第2回帰係数行列Ξm)と、の3つの回帰式を算出し、それぞれの回帰式を用いて被影響因子ym
1,1,・・・,ym
nm,qの値を算出してもよい。
【0145】
(第4実施形態)
次に、第4実施形態を説明する。第1~第3実施形態では、標本データ取得部110が標本データ採取工程で採取された標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)のみを取得する場合を例示した。これに対し、本実施形態では、まず、標本データ採取工程で採取された標本データを用いて再標本化を行うことにより、標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)を複数セット作成する。そして、作成した複数の標本データのセットのそれぞれを用いて複数通りの第1回帰係数行列Bm、Cmを算出し、算出した複数通りの第1回帰係数行列Bm、Cmに基づいて、特定影響因子(被影響因子に影響を与える影響因子)を特定する。このようにすれば、被影響因子ym
1,1~ym
nm,qに影響を与える影響因子の数をより絞り込むことができる。以下の説明では、標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)のセットを、必要に応じて、標本データセットと称する。なお、第1~第3実施形態では、標本データセットは1つである。
【0146】
本実施形態は、第1~第3実施形態に対し、複数の標本データセットを取得することと、複数通りの第1回帰係数行列B
m、C
mを算出することと、特定影響因子を特定する際に複数通りの第1回帰係数行列B
m、C
mを用いることと、が主として異なる。したがって、本実施形態の説明において第1~第3実施形態と同一の部分については、
図1~
図8に付した符号と同一の符号を付す等して詳細な説明を省略する。なお、本実施形態では、第2~第3実施形態の構成を例示して説明する。ただし、第1実施形態に本実施形態の手法を適用してもよい。この場合、本実施形態の説明において、第2回帰式(第2回帰係数行列Ξ
m)を算出する処理が行われない。
【0147】
本実施形態において、処理装置100の機能的な構成は、例えば、
図7のようになる。ただし、標本データ取得部110、標本データ抽出部120、第1回帰係数算出部130、および影響因子特定部140が有する機能の一部が第1~第3実施形態と異なる。また、本実施形態において、標本データ取得部110、標本データ抽出部120、第1回帰係数算出部130、影響因子特定部140、特定影響因子出力部150、および第2回帰係数算出部200による処理方法の一例を説明するフローチャートは、例えば、
図8のようになる。ただし、S202~S204の処理の一部が異なる。以下に、第1~第3実施形態と異なる部分について説明する。
【0148】
[標本データ取得工程(S202)、標本データ取得部110]
標本データ取得部110は、標本データ採取工程で採取された標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)を取得する。この点は、第1~第3実施形態と同じである。
【0149】
本実施形態では、標本データ取得部110は、複数の標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)を用いて再標本化を行うことにより、複数の母集団1~Mに対する標本データを含み、且つ、複数の母集団1~Mに対する標本データとしてそれぞれ複数の標本データを含む標本データセットを複数作成する。本実施形態では、Bootstrap法を用いる場合を例示するが、再標本化の手法は限定されない。例えば、Jackknife法等の公知の手法を用いてもよい。
【0150】
図9は、複数の標本データ(y
1
1,f
1
1)~(y
1
n1,f
1
n1),・・・,(y
m
1,f
m
1)~(y
m
nm,f
m
nm),・・・,(y
M
1,f
M
1)~(y
M
nM,f
M
nM)を用いて再標本化を行う手法の一例を説明する図である。
【0151】
図9において、標本データセット900は、標本データ採取工程で採取された標本データ(y
1
1,f
1
1)~(y
1
n1,f
1
n1),・・・,(y
m
1,f
m
1)~(y
m
nm,f
m
nm),・・・,(y
M
1,f
M
1)~(y
M
nM,f
M
nM)である。
図9では、標本データ取得部110が、標本データセット900を用いてNL-1個(NLは正の整数)の標本データセット901~903を作成する場合を例示する。本実施形態では、標本データセット900も第1回帰係数行列B
m、C
mの算出に用いる場合を例示する。したがって、標本データセット900~903の総数はNL個になる。ただし、例えば、標本データセット900を第1回帰係数行列B
m、C
mの算出に用いなくてもよい。この場合、NLは2以上の整数とする。NLの値が大きいほど、被影響因子y
m
1,1~y
m
nm,qの推定精度が向上する第1回帰係数行列B
m、C
mが算出され易くなる一方で、計算負荷が高くなる。NLの値はこのような観点から予め設定される。NLは、例えば、1000である。
【0152】
Bootstrap法では、重複を許して標本データセット900に含まれる標本データがランダムに選択される。なお、第1実施形態の[標本データ採取工程(S201)]の項で説明したように、本実施形態でも、影響因子ベクトルy1
1,・・・,yM
nMと、当該影響因子ベクトルに対応して採取される被影響因子ベクトルf1
1,・・・,fM
nMとの組が1つの標本データである場合を例示する。
【0153】
また、本実施形態では、標本データ取得部110が、標本データセット901~903に含まれる各母集団の標本データを、標本データセット900に含まれる当該母集団の標本データからランダムに選択することを、全ての母集団1~Mのそれぞれについて個別に行う場合を例示する。例えば、標本データセット901に含まれる母集団1の標本データは、標本データセット900に含まれる母集団1の標本データからランダムに選択される。ただし、必ずしもこのようにする必要はない。例えば、母集団1~Mのうちの一部の母集団では、標本データセット900に含まれる標本データがそのままコピーされてもよい。
【0154】
また、本実施形態では、標本データ取得部110が、標本データセット901~903に含まれる各母集団の標本データの数を、標本データセット900に含まれる当該母集団の標本データの数と同じにする場合を例示する。例えば、標本データセット901に含まれる母集団1の標本データの数は、標本データセット900に含まれる母集団1の標本データの数n1と同じになる。ただし、必ずしもこのようにする必要はなく、少なくとも1つの母集団において、標本データセット900に標本データの数と異なる数の標本データが選択されてもよい。
【0155】
ここで、標本データセット901を例に挙げて、
図9における標本データセット901~903に含まれる標本データの表記方法を説明する。まず、標本データセット901の母集団1の標本データの先頭(最上部)に(y
1
4,f
1
4)を示していることは、標本データセット901においては、標本データセット900の母集団1の標本データ(y
1
1,f
1
1)~(y
1
3,f
1
3)が(少なくとも)選択されなかったことを示す。また、標本データセット901の母集団mの標本データの再後尾(最下部)に(y
m
nm-2,f
m
nm-2)を示していることは、標本データセット901においては、標本データセット900の母集団1の標本データ(y
1
nm-1,f
1
nm-1)~(y
1
nm,f
1
nm)が(少なくとも)選択されなかったことを示す。また、標本データセット901の母集団Mの先頭に(y
M
1,f
M
1)が示されており、且つ、最後尾に(y
M
nM,f
M
nM)が示されていることは、標本データセット901においては、標本データ(y
M
2,f
M
2)~(y
M
nM-1,f
M
nM-1)の少なくとも1つが選択されなかったことを示す。標本データセット902~903においても同様の表記である。なお、標本データセット902において、先頭に(y
1
10,f
1
10)を示し、最後尾に(y
1
nm-1,f
1
nm-1)を示していることは、標本データセット902においては、標本データセット900の母集団1の標本データ(y
1
1,f
1
1)~(y
1
9,f
1
9)、(y
1
nm,f
1
nm)が(少なくとも)選択されなかったことを示す。
【0156】
図9に示す例では、1つの標本データセット900~903には、複数の母集団1~Mに対する標本データが含まれる。また、1つの標本データセット900~903には、当該複数の母集団1~Mに対する標本データとして、それぞれ複数(n
1個,・・・,n
m個,・・・,n
M個)の標本データが含まれる。このような標本データセット900~903として複数(NL個)の標本データセット900~903が標本データ取得部110により取得される。
【0157】
[標本データ抽出工程(S203)、標本データ抽出部120]
標本データ抽出部120は、標本データセット900~903に含まれる複数の標本データから共通影響因子のデータおよび非共通影響因子のデータを抽出することを、複数の標本データセットのそれぞれに対して行う。本実施形態でも、第1実施形態と同様に、標本データ抽出部120が、M個の共通影響因子行列Xm(Xm∈Rnm×p、m=1~M)およびM個の固有影響因子行列Zm(Zm∈Rnm×rm、m=1~M)を算出する場合を例示する。
【0158】
図10は、複数の標本データセット900~903を用いて特定影響因子(被影響因子に影響を与える影響因子)を特定する手法の一例を説明する図である。
標本データ抽出部120は、複数の標本データセット900~903のうちの1つの標本データセットに含まれる複数の標本データを用いて、第1実施形態で説明したようにしてM個の共通影響因子行列X
mおよびM個の固有影響因子行列Z
mを算出することを、NL個の標本データセット900~903のそれぞれに対して行う。これにより、M個の共通影響因子行列X
mおよびM個の固有影響因子行列Z
mの組がNL組得られる(
図10の上から二段目の「X
m,Z
m(m=1~M)」を参照)。
【0159】
[第1回帰係数算出工程(S204)、第1回帰係数算出部130]
第1回帰係数算出部130は、複数の標本データセット900~903のうちの1つの標本データセットから標本データ抽出部120により抽出された共通影響因子のデータおよび非共通影響因子のデータを用いて第1回帰係数を算出することを、複数の標本データセット900~903のそれぞれについて行うことにより、第1回帰式における第1回帰係数として複数通りの第1回帰係数を算出する。前述したように本実施形態でも第1実施形態と同様に、標本データ抽出部120が、M個の共通影響因子行列XmおよびM個の固有影響因子行列Zmを算出する場合を例示する。また、本実施形態でも、第1実施形態と同様に、第1回帰式が(1)式である場合を例示する。
【0160】
したがって、第1回帰係数算出部130は、NL個の標本データセット900~903のうちの1つの標本データセットから標本データ抽出部120により算出されたM個の共通影響因子行列X
mおよびM個の固有影響因子行列Z
mを用いて第1回帰係数行列B
m、C
mおよび切片ベクトルα
mを算出することを、NL個の標本データセット900~903のそれぞれについて行う。これにより、第1回帰係数行列B
m、C
mの組がNL組得られる(
図10の上から三段目の「B
m,C
m(m=1~M)」を参照)。
【0161】
[影響因子特定工程(S205)、影響因子特定部140]
影響因子特定部140は、第1回帰係数算出部130により算出された複数通りの第1回帰係数に基づいて、特定影響因子(被影響因子に影響を与える影響因子)を特定する。本実施形態では、影響因子特定部140が、第1回帰係数算出部130により算出されたNL組の第1回帰係数行列Bm、Cmに基づいて、特定影響因子を特定する場合を例示する。
【0162】
具体的に本実施形態では、影響因子特定部140は、以下の処理を、母集団1~Mのそれぞれについて個別に行う。
まず、影響因子特定部140は、NL組の第1回帰係数行列Bm、Cmから一組の第1回帰係数行列Bm、Cmを選択する。影響因子特定部140は、共通影響因子xm
1,1,・・・,xm
nm,pのうち、当該共通影響因子に乗算される第1回帰係数βm
1,1,・・・,βm
p,qが0(零)以外の値となる共通影響因子を、選択した第1回帰係数行列Bmから特定する。影響因子特定部140は、共通影響因子xm
1,1,・・・,xm
nm,pの全てを選択して、このような共通影響因子の特定を実行する。また、影響因子特定部140は、固有影響因子zm
1,1,・・・,zm
nm,rmのうち、当該固有影響因子に乗算される第1回帰係数cm
1,1,・・・,cm
rm,qが0(零)以外の値となる固有影響因子を、選択した第1回帰係数行列Cmから特定する。影響因子特定部140は、固有影響因子zm
1,1,・・・,zm
nm,rmの全てを選択して、このような固有影響因子の特定を実行する。
【0163】
影響因子特定部140は、以上のようにして、0(零)以外の値の第1回帰係数βm
1,1,・・・,βm
p,qに乗算される共通影響因子および固有影響因子を、NL組の第1回帰係数行列Bm、Cmのうちの一組の第1回帰係数行列Bm、Cmから特定する。
なお、影響因子特定部140は、0(零)以外の値となる影響因子(共通影響因子、固有影響因子)を特定することに代えて、例えば、絶対値が閾値を上回る値の影響因子を特定してもよい。
【0164】
影響因子特定部140は、以上のような共通影響因子および固有影響因子の特定を、NL組の第1回帰係数行列B
m、C
mのそれぞれについて個別に行う。これにより、NL組の第1回帰係数行列B
m、C
mのそれぞれから、共通影響因子および固有影響因子が特定される(
図10の上から四段目の「共通影響因子 固有影響因子」を参照)。
【0165】
ここで、共通影響因子および固有影響因子のうちの或る1つの影響因子の特定回数をNL'回とする。影響因子特定部140は、NL'/NLを、当該影響因子の信頼度として算出する。影響因子特定部140は、このような影響因子の信頼度の算出を、特定した影響因子(共通影響因子および固有影響因子)のそれぞれについて実行する。影響因子特定部140は、このようにして算出した信頼度のうち基準値以上の信頼度を有する影響因子を、被影響因子に影響を与える影響因子として特定する。本実施形態では、このように、第1回帰式において0(零)以外の値(または絶対値が閾値を上回る値)を有する第1回帰係数β
m
1,1,・・・,β
m
p,q、c
m
1,1,・・・,c
m
rm,qに乗算される影響因子(共通影響因子、固有影響因子)のうち、基準値以上の信頼度を有する影響因子を、特定影響因子(被影響因子に影響を与える共通影響因子および固有影響因子)として特定する。例えば、基準値が「1」である場合、影響因子特定部140は、
図10の上から四段目のNL組の「共通影響因子 固有影響因子」の全てに含まれる影響因子を、特定影響因子(共通影響因子、固有影響因子)として特定する。
【0166】
ここで、基準値は0超1以下の値であり、予め設定される。基準値を大きくするほど、被影響因子により大きな影響を与える影響因子を特定することができる。ただし、基準値が或る程度大きい値になると、それ以上基準値を大きくしても、特定影響因子が変わらない場合がある。このような場合には、基準値が、特定影響因子として特定される影響因子が変わらない範囲で可及的に小さい値になるように基準値を調整してもよい。また、基準値が大きすぎると、特定影響因子(被影響因子に影響を与える共通影響因子および固有影響因子)が1つも特定されない場合がある。このような場合、特定影響因子(被影響因子に影響を与える共通影響因子および固有影響因子)が少なくとも1つ特定されるように基準値を調整するのが好ましい。基準値の調整は、例えば、試行錯誤的に行えばよい。なお、共通影響因子および固有影響因子のうちの一方が特定影響因子として1つも特定されないことがあってもよい。例えば、或る母集団mにおいて共通影響因子が1つも特定されない場合、当該母集団mにおいて共通影響因子は被影響因子に寄与していないことを表す。一方、或る母集団mにおいて固有影響因子が1つも特定されない場合、当該母集団mにおいて固有影響因子は被影響因子に寄与していないことを表す。
【0167】
[第2回帰係数算出工程(S207)、第2回帰係数算出部200]
第2~第3実施形態で説明したように、標本データ抽出部120は、標本データ取得部110により取得された標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)を用いて回帰分析(例えば、線形回帰やリッジ回帰)を行うことにより、影響因子特定部140により特定された特定影響因子と、当該特定影響因子により影響を受ける被影響因子との関係を表す第2回帰式における第2回帰係数を算出する。前述したように、第2~第3本実施形態では、影響因子特定部140により特定される特定影響因子は、第1回帰式において0(零)以外の値(または絶対値が閾値を上回る値)を有する第1回帰係数βm
1,1,・・・,βm
p,q、cm
1,1,・・・,cm
rm,qに乗算される影響因子(共通影響因子、固有影響因子)である。これに対し本実施形態では、影響因子特定部140により特定される特定影響因子は、このような影響因子のうち、基準値以上の信頼度を有する影響因子である。したがって本実施形態では、(29)式におけるw種類の特定影響因子は、基準値以上の信頼度を有する影響因子になる。
【0168】
第2回帰係数算出部200は、第2回帰係数行列Ξm(第2回帰係数ξm
1,1~ξm
1,q,・・・,ξm
w,1~ξm
w,q)を、第2実施形態で説明したように線形回帰により算出してもよいし、第3実施形態で説明したようにリッジ回帰等のL2正則化を含む罰則付きの回帰により算出してもよい。なお、第2回帰係数算出部130は、第2実施形態で説明した第2回帰式(第2回帰係数行列Ξm)と、第3実施形態で説明した第2回帰式(第2回帰係数行列Ξm)と、の双方を算出してもよい。
【0169】
[まとめ]
以上のように本実施形態では、処理装置100は、標本データ取得部110は、複数の標本データ(y1
1,f1
1)~(y1
n1,f1
n1),・・・,(ym
1,fm
1)~(ym
nm,fm
nm),・・・,(yM
1,fM
1)~(yM
nM,fM
nM)を用いて再標本化を行うことによりNL個の標本データセット900~903を作成する。そして、処理装置100は、標本データセット900~903に含まれる複数の標本データから共通影響因子のデータおよび非共通影響因子のデータを抽出することを、NL個の標本データセット900~903のそれぞれに対して行う。そして、処理装置100は、複数の標本データセット900~903のうちの1つの標本データセットから抽出した共通影響因子のデータおよび非共通影響因子のデータを用いて第1回帰係数行列Bm、Cmを算出することを、NL個の標本データセット900~903のそれぞれについて行うことにより、NL組の第1回帰係数行列Bm、Cmを算出する。そして、処理装置100は、NL組の第1回帰係数行列Bm、Cmに基づいて、被影響因子ym
1,1~ym
nm,qに影響を与える影響因子を特定する。したがって、被影響因子ym
1,1~ym
nm,qにより影響を与える影響因子を特定することができる。また、被影響因子ym
1,1~ym
nm,qにより影響を与える影響因子の数をより絞り込むことができる。これにより、例えば、標本データの数(nM)が影響因子特定部140により特定された特定影響因子の種類の数(w)よりも少なくなることを抑制することができる。したがって、例えば、第2回帰式(第2回帰係数行列Ξm)を算出する際に、第2実施形態で説明した線形回帰を用いることができる可能性を高めることができる。
【0170】
なお、本実施形態においても第1~第3実施形態で説明した種々の変形例を採用してもよい。本実施形態においても、第2回帰式だけでなく第1回帰式を用いて被影響因子ym
1,1,・・・,ym
nm,qの値を算出してもよい。
【0171】
(その他の変形例)
なお、以上説明した本発明の実施形態は、コンピュータがプログラムを実行することによって実現することができる。また、前記プログラムを記録したコンピュータ読み取り可能な記録媒体及び前記プログラム等のコンピュータプログラムプロダクトも本発明の実施形態として適用することができる。記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。また、本発明の実施形態は、PLC(Programmable Logic Controller)により実現されてもよいし、ASIC(Application Specific Integrated Circuit)等の専用のハードウェアにより実現されてもよい。
また、以上説明した本発明の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0172】
(実施例)
次に、本発明の実施例を説明する。なお、以下の実施例は、実施可能性や効果の一例を示すものであり、本発明は、以下の実施例に限定されない。例えば、後述する亜硝酸生成速度、チオシアン除去速度、フェノール除去速度およびチオ硫酸除去速度から1つ、2つ、または3つを選択して用いてもよい。
[実施例1]
まず、実施例1を説明する。実施例1では、第1実施形態に関する実施例を説明する。
本実施例では、生物学的排水処理プロセスにおいて、処理前後における特定物質の量の変化速度に影響を与える微生物種を特定する場合について説明する。本実施例では、MBBR(Moving Bed Biofilm Reactor)により、2種類の人工排水(被処理水)それぞれにおける、特定物質の量の変化速度と微生物群の含有量とを標本データとして採取し、本実施形態で説明した(1)式の第1回帰式における第1回帰係数行列Bm、Cmおよび切片ベクトルαmを算出した。このように本実施例では、母集団mの数が2(M=2)であり、被影響因子が特定物質の量の変化速度であり、影響因子が微生物群の含有量である場合を例示する。また、このようにして算出した第1回帰係数行列Bm、Cmおよび切片ベクトルαmが代入された(1)式の第1回帰式を用いた特定物質の量の変化速度の予測精度を検証した。以下に、本実施例を詳細に説明する。以下の説明では、2種類の人工排水(被処理水)のうち一方の人工排水を処理するMBBRをMBBR Run2と称し、他方の人工排水を処理するMBBRをMBBR Run3と称することとする。
【0173】
<特定物質の量の変化速度の採取>
<<MBBR Run2>>
まず、MBBR Run2における特定物質の量の変化速度の採取について説明する。なお、特定物質の量の変化速度の採取の手法は、特許文献1に記載されているように公知の技術で実現することができ、本実施例で説明する手法に限定されない。
工業用水と自然海水とを体積比2:3で混合して得られた溶媒中に、表1に示す溶質を表1に示す濃度で溶解し、人工排水(被処理水)を調製した。
【0174】
【0175】
また、
図11に示すように、1つの槽内で生物処理領域20aと沈降領域20bとが隔壁23により互いに隔てられていると共にこの隔壁23の下方で互いに連通する構造を有する一体型の生物処理装置20を用意した。また、10mm×10mm×10mmの大きさのスポンジ担体21〔流動担体(関東イノアック製AQ-1)〕と、微生物植種源として高濃度の活性汚泥と、をポリ瓶に投入し、当該ポリ瓶を手でよく揉み、一晩蓋をして浸け置くことで、微生物をスポンジ担体21に付着させた。
【0176】
このようにして準備されたスポンジ担体21および活性汚泥を、生物処理装置20の生物処理領域20a内にスポンジ担体21の生物処理領域20aに対する体積比が20%(v/v)となるように投入し、生物処理装置20を準備した。
【0177】
このようにして準備された生物処理装置20内に前述した被処理水24を流入させた。スポンジ担体21に微生物を定着させる微生物馴致処理(第1段処理)時には、生物処理領域20a内の被処理水24の水理学的滞留時間が24時間となるように被処理水24を生物処理装置20内に流入させた。また、各生物処理装置20内の被処理水24に空気曝気22を行って好気性流動床を形成させ、微生物の馴致を行った。また、5wt%-水酸化ナトリウム水溶液を用いてpHを7.5付近に調整しながら処理を行った。そして、生物処理装置20で処理された処理水25を生物処理装置20から排出させた。
【0178】
この生物学的処理の運転開始後、すぐにチオシアン酸イオンの除去が認められ、その後チオシアン酸イオンの除去率が99%以上で安定したため、18日目で微生物馴致処理(第1段処理)を終了した。この微生物馴致処理(第1段処理)の期間、被処理水中のアンモニアの22%以上が亜硝酸イオンに酸化された。
【0179】
この微生物馴致処理(第1段処理)の終了後、生物処理装置20の生物処理領域20a内の処理水について、チオシアン酸イオン濃度、亜硝酸イオン濃度、フェノール濃度、およびチオ硫酸ナトリウムイオン濃度を測定して、チオシアン酸イオン、亜硝酸イオン、フェノール、およびチオ硫酸ナトリウムイオンのモニタリングを行った。
【0180】
また、生物処理装置20の生物処理領域20a内の処理水のpHを測定してpH値のモニタリング行いながら、運転開始後19日目より生物処理領域20a内の被処理水24の水理学的滞留時間が18時間となるように被処理水24の流入量を増やし(第2段処理)、次に、運転開始後39日目より生物処理領域20a内の被処理水24の水理学的滞留時間が12時間となるように被処理水24の流入量を更に増やし(第3段処理)、更に、運転開始後46日目より生物処理領域20a内の被処理水24の水理学的滞留時間が8時間となるように被処理水24の流入量を更に増やした(第4段処理)。その後、74日目より生物処理領域20a内の被処理水24の水理学的滞留時間が10時間となるように被処理水24の流入量を減らし(第5段処理)、更に96日目より生物処理領域20a内の被処理水24の水理学的滞留時間が24時間となるように被処理水24の流入量を減らし(第6段処理)、最終的に164日目まで運転を継続した。
【0181】
この間、第2段処理において生物処理領域20a内の被処理水24の水理学的滞留時間を18時間に短縮したことにより、チオシアン酸イオンの除去率を高い値に維持しつつ、亜硝酸イオンの生成の減少傾向が観察され始め、更に生物処理領域20a内の被処理水24の水理学的滞留時間を12時間に短縮することにより、チオシアン酸イオンの除去率を高い値に維持しつつ、亜硝酸イオンの生成を更に抑制することができた。
【0182】
しかしながら、更に、第4段処理において生物処理領域20a内の被処理水24の水理学的滞留時間を8時間に短縮した場合には、亜硝酸イオンの生成をほぼ完全に抑制しながらも、しばらく継続するとチオシアン酸イオンの除去率が低下した。
【0183】
このように、チオシアン酸イオンの除去率が目標値を超えて上昇してしまったため、第5段処理においては、生物処理領域20a内の被処理水24の水理学的滞留時間を第4段処理の条件(水理学的滞留時間が12時間)に近い10時間に戻して生物学的処理を行った。その結果、チオシアン酸イオンの除去率を94%以上に維持しつつ、亜硝酸イオンの生成をほぼ完全に抑制することができた。
【0184】
そこで更に、第6段処理においては、生物処理領域20a内の被処理水24の水理学的滞留時間を24時間に延長したところ、チオシアン酸イオンの除去率を高い値に維持しながらも、更に驚くべきことには、その後76日間にも亘って、亜硝酸イオンの生成をほぼ完全に抑制することができた。
【0185】
本実施例での生物学的処理において、運転日数に対する一日当たりの亜硝酸生成速度、チオシアン除去速度、フェノール除去速度、およびチオ硫酸除去速度を、それぞれ以下の(32)式、(33)式、(34)式および(35)に従い算出した。
運転日数に対する一日当たりの亜硝酸生成速度=処理水の亜硝酸濃度÷水理学的滞留時間×24 ・・・(32)
運転日数に対する一日当たりのチオシアン除去速度=被処理水のチオシアン濃度÷水理学的滞留時間×24-処理水のチオシアン濃度 ・・・(33)
運転日数に対する一日当たりのフェノール除去速度=被処理水のフェノール濃度÷水理学的滞留時間×24-処理水のフェノール濃度 ・・・(34)
運転日数に対する一日当たりのチオ硫酸除去速度=被処理水のチオ硫酸濃度÷水理学的滞留時間×24-処理水のチオ硫酸濃度 ・・・(35)
【0186】
MBBR Run2による生物学的処理における、運転日数に対する一日当たりの亜硝酸生成速度、チオシアン除去速度、フェノール除去速度およびチオ硫酸除去速度を、
図12、
図13、
図14、
図15にそれぞれ示す。
図12は、運転日数一日当たりの亜硝酸生成速度と運転日数との関係を示す図である。
図13は、運転日数一日当たりのチオシアン除去速度と運転日数との関係を示す図である。
図14は、運転日数一日当たりのフェノール除去速度と運転日数との関係を示す図である。
図15は、運転日数一日当たりのチオ硫酸除去速度と運転日数との関係を示す図である。
【0187】
<<MBBR Run3>>
次に、MBBR Run3における特定物質の量の変化速度の採取について説明する。
工業用水と自然海水とを体積比2:3で混合して得られた溶媒中に、表2に示す溶質を表2に示す濃度で溶解し、人工排水(被処理水)を調製した。
【0188】
【0189】
また、10mm×10mm×10mmの大きさのスポンジ担体21〔流動担体(関東イノアック製AQ-1)〕と、微生物植種源として高濃度の活性汚泥と、をポリ瓶に投入し、当該ポリ瓶を手でよく揉み、一晩蓋をして浸け置くことで、微生物をスポンジ担体21に付着させた。なお、ここで投入する活性汚泥は、チオシアン分解微生物、フェノール分解微生物、チオ硫酸分解微生物が多い植種源とすることが好ましい。
【0190】
このようにして準備されたスポンジ担体21(500個)および活性汚泥を、生物処理装置20の生物処理領域20a内に投入し、生物処理装置20を準備した。
【0191】
このようにして準備された生物処理装置20内に前述した被処理水24を流入させると共に微生物植種源として活性汚泥を投入した。第1段処理時には、生物処理領域20a内の水理学的滞留時間が24時間となるように被処理水24を生物処理装置20内に流入させた。また、各生物処理装置20内の被処理水24に空気曝気22を行って好気性流動床を形成させ、微生物の馴致を行った。また、5wt%-水酸化ナトリウム水溶液を用いてpHを7.5付近に調整しながら処理を行った。そして、生物処理装置20で処理された処理水25を生物処理装置20から排出させた。
【0192】
各生物処理装置20の生物処理領域20a内の処理水について、チオシアン酸イオン濃度、亜硝酸イオン濃度、フェノール濃度、およびチオ硫酸イオン濃度を測定してチオシアン酸イオン、亜硝酸イオン、フェノールおよびチオ硫酸イオンのモニタリングを行った。モニタリングは週2回程度行った。
【0193】
この第1段処理が安定した後、1日当たりに流入するチオシアン酸イオン濃度、フェノール濃度、およびチオ硫酸イオン濃度が、それぞれ表3に示す値になるように被処理水24を生物処理装置20内に流入させた。各段とも少なくとも2週間程度運転することで、各段での処理水濃度の変動が安定することを確認してから、次の段に移行した。モニタリングは週2回程度行った。
【0194】
【0195】
MBBR Run3による生物学的処理における、運転日数に対する一日当たりの亜硝酸生成速度、チオシアン除去速度、フェノール除去速度、およびチオ硫酸除去速度を、
図16、
図17、
図18、
図19にそれぞれ示す。
図16は、亜硝酸イオンのモニタリングの結果から得られた、運転日数一日当たりの亜硝酸イオン生成速度と運転日数との関係を示す図である。
図17は、チオシアン酸イオンのモニタリングの結果から得られた、運転日数一日当たりのチオシアン酸イオン除去速度と運転日数との関係を示す図である。また、
図18は、フェノールのモニタリングの結果から得られた、運転日数一日当たりのフェノール除去速度と運転日数との関係を示す図である。また、
図19は、チオ硫酸のモニタリングの結果から得られた、運転日数一日当たりのチオ硫酸除去速度と運転日数との関係を示す図である。
【0196】
<微生物群の含有量の採取>
本実施例では、DNAの抽出、塩基配列の解読、微生物群の決定、微生物群の含有量の採取を、この順で実行した。なお、微生物群の含有量の採取の手法は、特許文献1に記載されているように公知の技術で実現することができ、本実施例で説明する手法に限定されない。
【0197】
生物処理装置20の生物処理領域20a内の微生物が付着したスポンジ担体21からのDNA抽出および次世代シーケンス微生物相解析は委託(日鉄環境株式会社)により実施した。
特定物質の量の変化速度の測定時点に対応した時点ごとに、微生物が付着したスポンジ担体21を採取し、採取したスポンジ担体21を4分割した後、Extrap Soil DNA Plus ver.2(日鉄環境)を用いてDNAの抽出および精製を行った。
精製後のDNA溶液のDNA濃度を、PicoGreen dsDNA Assay Kit(Invitrogen)を用いて測定した。
表4に示すプライマーを用いて真正細菌の16S rRNA遺伝子のV4領域およびV5領域を対象にしたPCR増幅を行った。
【0198】
【0199】
PCR産物を、次世代シーケンサー(MiSeq)を用いて解析することで、塩基配列を決定した。
得られた塩基配列をQIIME(Quantitative Insights Into Microbial Ecology)パイプラインを用いて次の解析を行った。まず、データのクオリティ、キメラをチェックし、基準を満たした配列データのみフィルタリングした。
基準を満たした配列データについて、類似性の高い(相同性97%以上の)配列データを1つのグループのクラスタとしてまとめ、各クラスタ配列の中で最も出現頻度の高い配列を代表OTU(OTU;Operational Taxonomic Unit;操作的分類単位)配列とし、その代表配列を用いて以降の解析を実施した。すなわち、検出された各OTUの存在および量が、一微生物群の存在および量を示すものとして扱った。これらOTUは各試料で重複して検出されるもの、1試料のみから検出されるもの様々であった。また、各OTUの検出回数から全OTUに対する各OTUの相対割合を算出した。
【0200】
スポンジ担体21に付着した真正細菌の遺伝子数をリアルタイムPCR法の一つであるQP-PCR法(日鉄環境株式会社)により定量した。具体的に、前述した精製後のDNA溶液を適宜希釈した後、表5に示すプライマーおよびQProbeを用いて反応液を調製し、Rotor-Gene Q(QIAGEN)により遺伝子数を定量した。
【0201】
【0202】
採取日によってスポンジ担体21に付着した微生物の総量は異なる。従って、生物学的排水処理プロセスの運転期間における各OTUの変動を正確に把握するため、前述した全OTUに対する各OTUの相対割合に、スポンジ担体21に付着した真正細菌の遺伝子数を乗じることで、各OTUの量を決定した。
【0203】
<標本データ>
MBBR Run2を用いて採取された、或る運転日数における各特定物質の量の変化速度(亜硝酸生成速度、チオシアン除去速度、フェノール除去速度、チオ硫酸除去速度)と、当該運転日数における各微生物の含有量(OTUの量)とを、全運転日数においてそれぞれ求めたものを、MBBR Run2における標本データとした。
MBBR Run3を用いて採取された、或る運転日数における各特定物質の量の変化速度(亜硝酸生成速度、チオシアン除去速度、フェノール除去速度、チオ硫酸除去速度)と、当該運転日数における各微生物群の含有量(OTUの量)とを、全運転日数においてそれぞれ求めたものを、をMBBR Run3における標本データとした。
【0204】
<第1回帰式>
前述した標本データを用いて、各特定物質の量の変化速度を目的変数とし、各微生物群の含有量を説明変数とする多変量回帰式を構築した。
本実施例では、発明例1、発明例2、比較例1、および比較例2のそれぞれの手法で多変量回帰式を構築した。
【0205】
発明例1では、本実施形態で説明した手法でq=4として多変量回帰式((1)式)を構築した。
発明例2では、本実施形態で説明した手法でq=1として4つの多変量回帰式((1)式)を構築した(<変形例3>の欄を参照)。
比較例1では、MBBR Run2における標本データのみを用いて、共通影響因子と固有影響因子とを区別せずに全ての影響因子を同一の説明変数とする多変量回帰式を構築した。 比較例2では、MBBR Run2における標本データとMBBR Run3における標本データとを用いて、共通影響因子と固有影響因子とを区別せずに全ての影響因子を同一の説明変数とする多変量回帰式を構築した。
【0206】
なお、比較例1~2における多変量回帰モデルとして、「Hastie, T., Tibshirani, R., Friedman, J. (2009) The Elements of Statistical Learning - Data Mining, Inference, and Prediction (Second Edition). Springer.」に記載されている多変量回帰モデルを用いた。
【0207】
<結果>
発明例1~2および比較例1~2の手法のそれぞれで実施した交差検証法における決定係数R2の値を表6に示す。
【0208】
【0209】
表6において、発明例1と比較例1との結果を比較すると、MBBR Run2における標本データのみを用いて多変量回帰式を構築するよりも、本実施形態で説明したようにして多変量回帰式を構築する方が、予測精度が高くなることが分かる。
【0210】
また、比較例2に示すように、MBBR Run2における標本データとMBBR Run3における標本データとを単純に結合して多変量回帰式を構築すると、負の相関が観察され、異なる母集団(MBBRのRun)のデータ集合を無策で統合することによる悪影響が顕在化することが分かる。
【0211】
また、発明例2に示すように、q=1として実施形態で説明したようにして多変量回帰式を構築しても、q=4として実施形態で説明したようにして多変量回帰式を構築する発明例1よりは劣るものの、比較例1~2よりも予測精度が高くなることが分かる。
【0212】
また、発明例1の手法で構築した多変量回帰係数の第1回帰係数行列Bm、Cmにおいて0(零)以外の要素に対応する微生物群の種類を特定した結果、MBBR Run2とMBBR Run3に共通するとされた微生物群は175種、MBBR Run2に固有の微生物群は155種と判断された。このように、本実施形態で説明した手法では、2つのMBBRに共通して特定物質の除去に関わる微生物と固有の微生物とに区別することができることが分かる。
【0213】
次に、実施例2~3について説明する。実施例2~3においても、実施例1と同様に、生物学的排水処理プロセスにおいて、処理前後における特定物質の量の変化速度に影響を与える微生物種を特定する場合について説明する。また、本実施例でも実施例1と同様に、MBBR(Moving Bed Biofilm Reactor)により、2種類の人工排水(被処理水)それぞれにおける、特定物質の量の変化速度と微生物群の含有量とを標本データとして採取した。なお、実施例2~3においても、
図11に示す生物処理装置20を用いて標本データを採取した。また、2種類の人工排水は、実施例1に示したMBBR Run2およびMBBR Run3と異なるものである。2種類の人工排水のうち一方の人工排水を処理するMBBRをMBBR Run1と称し、他方の人工排水を処理するMBBRをMBBR Run5と称することとする。MBBR Run1とMBBR Run5とでは、微生物群の含有量が異なる。
【0214】
なお、特定物質の量の変化速度の採取、DNAの抽出、塩基配列の解読、微生物群の決定、微生物群の含有量の採取、および標本データの作成については、実施例1の説明に倣って行った。これらの詳細については実施例1で行っており、また、実施例2~3では、各実施形態で説明した処理装置100の機能が発揮されることを確認することを主目的とすることから、これらの詳細な説明を省略する。ただし、実施例2~3では、特定物質の量の変化速度として、チオシアン除去速度およびチオ硫酸除去速度を用い、亜硝酸生成速度およびフェノール除去速度を用いなかった。したがって、(3)式、(4)式、および(6)式のqは2(q=2)になる。MBBR Run1の標本データの数は22個であった。また、MBBR Run5の標本データの数は28個であった。
【0215】
[実施例2]
次に、実施例2を説明する。実施例2では、第1~第3実施形態に関する実施例を説明する。
発明例3では、第1実施形態で説明した手法で第1回帰式((1)式)を構築した。
発明例4では、第2実施形態で説明した手法で第2回帰式((28)式)をリッジ回帰により構築した。
【0216】
発明例3~4の手法のそれぞれで実施した交差検証法における決定係数R2の値を表7に示す。なお、交差検証法においては、前述の22個のMBBR Run1の標本データと、28個のMBBR Run5の標本データの組からランダムに1つずつ標本データを抽出して残りの標本データを用いて第1回帰式(第1回帰係数行列Bm、Cm)および第2回帰式(第2回帰係数行列Ξm)を算出し、標本データの説明変数を第1回帰式および第2回帰式に代入することにより目的変数を算出することを、前述の標本データの全ての組を1つずつ抽出した場合について行った。そして、標本データの説明変数を第1回帰式および第2回帰式に代入することにより算出した目的変数と、当該標本データの目的変数と、の散布図から決定係数R2を算出した。
【0217】
【0218】
発明例4では、発明例3で構築した第1回帰式の第1回帰係数βm
1,1,・・・,βm
p,q、cm
1,1,・・・,cm
rm,qのうち、0(零)以外の値の第1回帰係数に乗算される影響因子(共通影響因子および固有影響因子)を特定し、第2回帰式における説明変数を、当該特定した影響因子を説明変数とした。
【0219】
チオ硫酸の変化速度が目的変数である場合、交差検証法において算出された共通影響因子の数の平均値は78.1個であった。また、チオシアンの変化速度が目的変数である場合、交差検証法において算出された共通影響因子の数の平均値は145.8個であった。また、チオ硫酸の変化速度が目的変数である場合、交差検証法において算出された固有影響因子の数の平均値は、MBBR Run1において14.6個であり、MBBR Run5において29.5個であった。また、チオシアンの変化速度が目的変数である場合、交差検証法において算出された固有影響因子の数の平均値は、MBBR Run1において13.6個であり、MBBR Run5において41.5個であった。
【0220】
また、発明例4において、チオ硫酸の変化速度が目的変数である場合の正則化係数λk((28)式の第2項)の値を0.01とした(λk=0.01)。また、チオシアンの変化速度が目的変数である場合の正則化係数λk((28)式の第2項)の値を0.1とした(λk=0.1)。
【0221】
第1回帰式および第2回帰式のいずれを用いるかは、母集団mの環境などに応じて定めればよいことになるが、表7に示すように本実施例においては、第3実施形態で説明したように第2回帰式を用いる方が第1実施形態で説明したように第1回帰式を用いる場合よりも、決定係数R2の値が大きくなったので、第2回帰式を用いるのが好ましいことが分かる。ただし、第1回帰式を用いても決定係数R2の値は実用上使用できる精度である。
【0222】
なお、前述したように、MBBR Run1およびMBBR Run5の標本データの数の和は50個(=22+28)であり、本実施例では、説明変数の数(共通影響因子および固有影響因子の総数)が標本データの数よりも多くなった。したがって、線形回帰により第2回帰式(第2回帰係数行列Ξm)を算出することができなかった。
【0223】
[実施例3]
次に、実施例3を説明する。実施例3では、第4実施形態に関する実施例を説明する。
発明例5では、第4実施形態で説明したようにBootstrap法を用いて標本データを再標本化して1000個(NL=1000)の第1回帰式((1)式)を構築し、1000個の第1回帰式(NL組の第1回帰係数行列Bm、Cm)に基づいて特定影響因子を特定し、当該特定影響因子を説明変数とする第2回帰式((28)式)を線形回帰により構築した。
【0224】
本実施例では標本データセットの数NLを1000個(NL=1000)とし、NL'/NLに対する基準値を1とした。すなわち、第1回帰係数βm
1,1,・・・,βm
p,q、cm
1,1,・・・,cm
rm,qのうち、1000組の第1回帰係数行列Bm、Cmの全てにおいて0(零)以外の値を有する第1回帰係数に乗算される影響因子(共通影響因子および固有影響因子)のみを、特定影響因子(被影響因子に影響を与える共通影響因子および固有影響因子)として特定した。
【0225】
その結果、チオ硫酸の変化速度が目的変数である場合、第1回帰係数βm
1,1,・・・,βm
p,q、cm
1,1,・・・,cm
rm,qのうち、0(零)以外の値を有する第1回帰係数に乗算される共通影響因子の数は、(227個中)73個であった。そのうち、1000組の第1回帰係数行列Bm、Cmの全てにおいて0(零)以外の値を有する第1回帰係数に乗算される共通影響因子の数は、(227個中)19個であった。
【0226】
また、チオ硫酸の変化速度が目的変数である場合、第1回帰係数βm
1,1,・・・,βm
p,q、cm
1,1,・・・,cm
rm,qのうち、0(零)以外の値を有する第1回帰係数に乗算される固有影響因子の数は、MBBR Run1において(161個中)14個であり、MBBR Run5において(152個中)130個であった。そのうち、1000組の第1回帰係数行列Bm、Cmの全てにおいて0(零)以外の値を有する第1回帰係数に乗算される固有影響因子の数は、MBBR Run1において(161個中)0個であり、MBBR Run5において(152個中)4個であった。
【0227】
一方、チオシアンの変化速度が目的変数である場合、第1回帰係数βm
1,1,・・・,βm
p,q、cm
1,1,・・・,cm
rm,qのうち、0(零)以外の値を有する第1回帰係数に乗算される共通影響因子の数は、(227個中)137個であった。そのうち、1000組の第1回帰係数行列Bm、Cmの全てにおいて0(零)以外の値を有する第1回帰係数に乗算される共通影響因子の数は、(227個中)79個であった。
【0228】
また、チオシアンの変化速度が目的変数である場合、第1回帰係数βm
1,1,・・・,βm
p,q、cm
1,1,・・・,cm
rm,qのうち、0(零)以外の値を有する第1回帰係数に乗算される固有影響因子の数は、MBBR Run1において(161個中)15個であり、MBBR Run5において(152個中)38個であった。そのうち、1000組の第1回帰係数行列Bm、Cmの全てにおいて0(零)以外の値を有する第1回帰係数に乗算される固有影響因子の数は、MBBR Run1において(161個中)4個であり、MBBR Run5において(152個中)15個であった。
【0229】
以上のように、チオシアンの変化速度が目的変数である場合、特定影響因子の数(共通影響因子および固有影響因子の総数)は97個(=79+3+15)になった。前述したように、MBBR Run1およびMBBR Run5の標本データの数の和は50個(=22+28)であった。したがって、チオシアンについては、線形回帰により第2回帰式(第2回帰係数行列Ξm)を算出することができなかった。
【0230】
一方、チオ硫酸の変化速度が目的変数である場合、特定影響因子の数(共通影響因子および固有影響因子の総数)は23個(=19+0+4)になり、MBBR Run1およびMBBR Run5の標本データの数の和(=50個)よりも少なくなった。したがって、チオ硫酸の変化速度を目的変数とする第2回帰式を線形回帰により算出した。
【0231】
そして、本実施例では、前述の22個のMBBR Run1の標本データと、28個のMBBR Run5の標本データを用いて第1回帰式(第1回帰係数行列Bm、Cm)および第2回帰式(第2回帰係数行列Ξm)を算出し、算出した標本データの目的変数と、当該標本データの目的変数と、の散布図から決定係数R2を算出した。その結果、以下の表8に示すように、決定係数R2は0.878となった。
【0232】
【0233】
実施例2においてはチオ硫酸の変化速度を目的変数とする第2回帰式を算出することができなかったが、Bootstrap法を用いて影響因子の数を絞り込むことで、チオ硫酸の変化速度を目的変数とする第2回帰式として、実用上使用できる精度の第2回帰式を線形回帰により算出することができた。ただし、チオシアンの変化速度を目的変数とする第2回帰式を算出することができなかった。
【0234】
そこで、発明例6では、発明例5のようにして特定した影響因子を説明変数とする第2回帰式((28)式)を(線形回帰ではなく)リッジ回帰により構築した。そして、標本データの説明変数(xm
1,1,・・・,xm
nm,p、zm
1,1,・・・,zm
nm,rm)を第2回帰式に代入することにより算出される目的変数(ym
1,1,・・・,ym
nm,q)と、標本データの目的変数と、から決定係数R2を算出した。その結果を表8に示す。
【0235】
本実施例の発明例6においてはチオシアンの変化速度を目的変数とする第2回帰式を算出することができなかったが、Bootstrap法を用いて影響因子の数を絞り込んだうえでリッジ回帰を行うことで、チオシアンの変化速度を目的変数とする第2回帰式として、実用上使用できる精度の第2回帰式を線形回帰により算出することができた。
【0236】
(実施形態の開示)
なお、以上説明した本実施形態の開示は、例えば、次のようになる。
[開示1]
複数の影響因子と、当該複数の影響因子により影響を受ける少なくとも1つの被影響因子との関係を表す回帰式における回帰係数を算出する処理を実行する処理装置であって、
前記複数の影響因子のデータと、前記少なくとも1つの被影響因子のデータと、をそれぞれが含む複数の標本データとして、複数の母集団のそれぞれにおける複数の標本データを取得する標本データ取得手段と、
前記複数の標本データのうち、前記複数の母集団の全てに存在する前記影響因子である共通影響因子のデータを抽出することと、前記複数の標本データのうち、前記共通影響因子と異なる前記影響因子である非共通影響因子のデータを抽出することと、を実行する標本データ抽出手段と、
前記被影響因子のデータと、前記共通影響因子のデータと、前記非共通影響因子のデータと、を用いて、スパース正則化を適用した回帰分析を実行することにより、第1回帰式における第1回帰係数を前記回帰係数として算出する第1回帰係数算出手段と、
を有し、
前記第1回帰式の説明変数は、前記共通影響因子と、前記非共通影響因子と、を含み、
前記第1回帰式の目的変数は、前記被影響因子を含み、
前記第1回帰式は、前記共通影響因子の値を要素とする共通影響因子行列と、当該共通影響因子に対する前記第1回帰係数の値を要素とする回帰係数行列と、を含む項と、前記非共通影響因子の値を要素とする非共通影響因子行列と、当該非共通影響因子に対する前記第1回帰係数の値を要素とする回帰係数行列と、を含む項と、を別々の項として含み、
前記第1回帰係数算出手段は、前記第1回帰式で算出される前記被影響因子の値と、前記標本データにおける前記被影響因子の値と、の差を表す損失関数と、前記共通影響因子に対する前記第1回帰係数のスパース正則化項と、前記非共通影響因子に対する前記第1回帰係数のスパース正則化項と、を含むコスト関数を用いて、前記第1回帰式における前記第1回帰係数を算出する、処理装置。
[開示2]
前記共通影響因子に対する前記第1回帰係数のスパース正則化項は、グループLassoによるスパース正則化項であり、
前記非共通影響因子に対する前記第1回帰係数のスパース正則化項は、Lassoによるスパース正則化項である、開示1に記載の処理装置。
[開示3]
前記非共通影響因子は、前記複数の母集団のうち、1つの前記母集団にしか存在しない固有の前記影響因子である固有影響因子を含む、開示1または2に記載の処理装置。
[開示4]
前記被影響因子は、複数あり、
前記第1回帰式は、多変量回帰式である、開示1~3の何れか1つに記載の処理装置。
[開示5]
前記第1回帰係数算出手段により算出された前記第1回帰係数に基づいて、前記被影響因子に影響を与える前記影響因子を特定する影響因子特定手段を更に有する、開示1~4の何れか1つに記載の処理装置。
[開示6]
前記標本データを用いた回帰分析を行うことにより、前記影響因子特定手段により特定された前記影響因子と、前記被影響因子との関係を表す第2回帰式における第2回帰係数を前記回帰係数として算出する第2回帰係数算出手段を有する、開示5に記載の処理装置。
[開示7]
前記第2回帰式で算出される前記被影響因子の値と、前記標本データにおける前記被影響因子の値と、の差を表す損失関数と、L2正則化項と、を含むコスト関数を用いて、前記第2回帰式における前記第2回帰係数を算出する、開示6に記載の処理装置。
[開示8]
前記標本データ取得手段は、前記複数の標本データを用いて再標本化を行うことにより、前記複数の母集団に対する前記標本データを含み、且つ、前記複数の母集団に対する前記標本データとしてそれぞれ複数の前記標本データを含む標本データセットを複数作成し、
前記標本データ抽出手段は、前記標本データセットに含まれる複数の前記標本データから前記共通影響因子のデータおよび前記非共通影響因子のデータを抽出することを、複数の前記標本データセットのそれぞれに対して行い、
前記第1回帰係数算出手段は、1つの前記標本データセットから前記標本データ抽出手段により抽出された前記共通影響因子のデータおよび前記非共通影響因子のデータを用いて前記第1回帰係数を算出することを、複数の前記標本データセットのそれぞれについて行うことにより、前記第1回帰式における前記第1回帰係数として複数通りの前記第1回帰係数を算出し、 前記影響因子特定手段は、前記複数通りの第1回帰係数に基づいて、前記被影響因子に影響を与える前記影響因子を特定する、開示5~7の何れか1つに記載の処理装置。
[開示9]
開示1~8の何れか1つに記載の処理装置で算出された前記回帰係数を回帰係数とする回帰式を用いて前記被影響因子の値を算出する処理を実行する処理装置であって、
前記複数の影響因子のうち少なくとも2つの影響因子のデータを含む評価用データを取得する評価用データ取得手段と、
前記評価用データから、前記共通影響因子のデータを抽出することと、前記評価用データから、前記非共通影響因子のデータを抽出することと、を実行する評価用データ抽出手段と、
前記評価用データ抽出手段により抽出された前記共通影響因子のデータと、前記評価用データから前記評価用データ抽出手段により抽出された前記非共通影響因子のデータと、開示1~4の何れか1項に記載の処理装置で算出された前記回帰係数を回帰係数とする回帰式と、に基づいて、前記被影響因子の値を算出する被影響因子算出手段と、
を有する、処理装置。
[開示10]
前記母集団は、処理プロセスであり、
前記複数の処理プロセスにおける前記複数の影響因子の組み合わせは相互に異なり、
前記影響因子は、前記処理プロセスで処理する際に前記処理プロセスにおける処理に用いられる因子であり、
前記被影響因子は、前記影響因子を用いて前記処理プロセスで処理されることにより得られる因子である、開示1~9の何れか1項に記載の処理装置。
[開示11]
前記処理プロセスは、特定物質を含む被処理水に存在する微生物群を用いて前記被処理水を処理する処理プロセスであり、
前記影響因子は、前記微生物群の量に関する因子であり、
前記被影響因子は、前記特定物質の量の変化速度に関する因子である、開示10に記載の処理装置。
[開示12]
複数の影響因子と、当該複数の影響因子により影響を受ける少なくとも1つの被影響因子との関係を表す回帰式における回帰係数を算出する処理を実行する処理方法であって、
前記複数の影響因子のデータと、前記少なくとも1つの被影響因子のデータと、をそれぞれが含む複数の標本データとして、複数の母集団のそれぞれにおける複数の標本データを取得する標本データ取得工程と、
前記複数の標本データのうち、前記複数の母集団の全てに存在する前記影響因子である共通影響因子のデータを抽出することと、前記複数の標本データのうち、前記共通影響因子と異なる前記影響因子である非共通影響因子のデータを抽出することと、を実行する標本データ抽出工程と、
前記被影響因子のデータと、前記共通影響因子のデータと、前記非共通影響因子のデータと、を用いて、スパース正則化を適用した回帰分析を実行することにより、第1回帰式における第1回帰係数を前記回帰係数として算出する第1回帰係数算出工程と、
を有し、
前記第1回帰式の説明変数は、前記共通影響因子と、前記非共通影響因子と、を含み、
前記第1回帰式の目的変数は、前記被影響因子を含み、
前記第1回帰式は、前記共通影響因子の値を要素とする共通影響因子行列と、当該共通影響因子に対する前記第1回帰係数の値を要素とする回帰係数行列と、を含む項と、前記非共通影響因子の値を要素とする非共通影響因子行列と、当該非共通影響因子に対する前記第1回帰係数の値を要素とする回帰係数行列とを含む項と、を別々の項として含み、
前記第1回帰係数算出工程では、前記第1回帰式で算出される前記被影響因子の値と、前記標本データにおける前記被影響因子の値と、の差を表す損失関数と、前記共通影響因子に対する前記第1回帰係数のスパース正則化項と、前記非共通影響因子に対する前記第1回帰係数のスパース正則化項と、を含むコスト関数を用いて、前記第1回帰式における前記第1回帰係数を算出する、処理方法。
[開示13]
前記第1回帰係数算出工程により算出された前記第1回帰係数に基づいて、前記被影響因子に影響を与える前記影響因子を特定する影響因子特定工程を更に有する、開示12に記載の処理方法。
[開示14]
開示12または13に記載の処理方法で算出された前記回帰係数を回帰係数とする回帰式を用いて前記被影響因子の値を算出する処理を実行する処理方法であって、
前記複数の影響因子のうち少なくとも2つの影響因子のデータを含む評価用データを取得する評価用データ取得工程と、
前記評価用データから、前記共通影響因子のデータを抽出することと、前記評価用データから、前記非共通影響因子のデータを抽出することと、を実行する評価用データ抽出工程と、
前記評価用データ抽出工程により抽出された前記共通影響因子のデータと、前記評価用データから前記評価用データ抽出工程により抽出された前記非共通影響因子のデータと、開示12または13に記載の処理方法で算出された前記回帰係数を回帰係数とする回帰式と、に基づいて、前記被影響因子の値を算出する被影響因子算出工程と、
を有する、処理方法。
[開示15]
開示1~11の何れか1項に記載の処理装置の各手段としてコンピュータを機能させるためのプログラム。
【符号の説明】
【0237】
20 生物処理装置
20a 生物処理領域
20b 沈降領域
21 スポンジ担体
22 空気曝気
23 隔壁
24 被処理水
25 処理水
100 処理装置
110 標本データ取得部
120 標本データ抽出部
130 第1回帰係数算出部
140 影響因子特定部
150 特定影響因子出力部
160 評価用データ取得部
170 評価用データ抽出部
180 被影響因子算出部
190 被影響因子出力部
200 第2回帰係数算出部
900~903 標本データセット