(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022162617
(43)【公開日】2022-10-25
(54)【発明の名称】情報処理装置と情報処理プログラムと情報処理方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20221018BHJP
C12Q 1/04 20060101ALN20221018BHJP
C12Q 1/10 20060101ALN20221018BHJP
【FI】
G06N20/00 130
C12Q1/04
C12Q1/10
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021067508
(22)【出願日】2021-04-13
(71)【出願人】
【識別番号】304020177
【氏名又は名称】国立大学法人山口大学
(71)【出願人】
【識別番号】592019213
【氏名又は名称】学校法人昭和大学
(74)【代理人】
【識別番号】100141173
【弁理士】
【氏名又は名称】西村 啓一
(72)【発明者】
【氏名】浅井 義之
(72)【発明者】
【氏名】中野 智久
(72)【発明者】
【氏名】吉村 清
(72)【発明者】
【氏名】角田 卓也
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA01
4B063QA18
4B063QQ03
4B063QQ06
4B063QR72
(57)【要約】 (修正有)
【課題】機械学習により腸内細菌叢から患者を2つの状態に識別するためのバイオマーカを提供する。
【解決手段】情報処理装置1は、特定・非特定状態のいずれかに属する患者の識別に用いられるバイオマーカとなる腸内細菌を複数の候補細菌の中から特定する。情報処理装置は、記憶部12と、一部の見本患者を学習用患者、他の一部の見本患者を検証用患者として、記憶部に記憶されている学習用患者および検証用患者それぞれの腸内細菌情報に基づいて検証用患者の識別に用いられる識別器を生成する識別器生成部131と、識別器における候補細菌ごとの重要度に基づいてバイオマーカとなる腸内細菌を特定するマーカ特定部132と、を有してなる。識別器生成部は、学習用患者と検証用患者との組合せごとの識別器を生成する。マーカ特定部は、組合せごとの識別器それぞれにおける候補細菌ごとの重要度に基づいてバイオマーカとなる腸内細菌を特定する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
特定状態と非特定状態とのいずれかに属する患者の識別に用いられるバイオマーカとなる腸内細菌を複数の候補細菌の中から特定する情報処理装置であって、
複数の見本患者それぞれの腸内細菌情報を記憶する記憶部と、
複数の前記見本患者のうち、一部の前記見本患者を学習用患者とし、他の一部の前記見本患者を検証用患者として、前記記憶部に記憶されている前記学習用患者の前記腸内細菌情報と前記検証用患者の前記腸内細菌情報とに基づいて、前記検証用患者の識別に用いられる識別器を生成する識別器生成部と、
前記識別器における前記候補細菌ごとの重要度に基づいて、前記バイオマーカとなる前記腸内細菌を特定するマーカ特定部と、
を有してなり、
前記識別器生成部は、前記学習用患者と前記検証用患者との組合せごとの前記識別器を生成し、
前記マーカ特定部は、前記組合せごとの前記識別器それぞれにおける前記候補細菌ごとの前記重要度に基づいて、前記バイオマーカとなる前記腸内細菌を特定する、
ことを特徴とする情報処理装置。
【請求項2】
前記マーカ特定部は、前記識別器それぞれにおける前記候補細菌ごとの前記重要度の度数分布における前記候補細菌ごとの前記重要度の頻度に基づいて、前記バイオマーカとなる前記腸内細菌を特定する、
請求項1記載の情報処理装置。
【請求項3】
前記識別器生成部は、
前記検証用患者の仮識別に用いられる複数の仮識別器を生成し、
前記仮識別器ごとの前記仮識別により得られる感度、特異度、正診率のいずれか1つに基づいて、前記仮識別器を構成する機械学習アルゴリズムのハイパーパラメータを調整する、
請求項1記載の情報処理装置。
【請求項4】
前記識別器生成部は、前記ハイパーパラメータの前記調整と前記仮識別器の前記生成とを、複数回繰り返す、
請求項3記載の情報処理装置。
【請求項5】
前記マーカ特定部は、前記ハイパーパラメータの前記調整が完了後の前記識別器ごとの前記重要度と、前記ハイパーパラメータの前記調整が完了前の前記識別器ごとの前記重要度と、に基づいて、前記バイオマーカとなる前記腸内細菌を特定する、
請求項4記載の情報処理装置。
【請求項6】
前記腸内細菌情報は、
前記腸内細菌の属レベルの前記腸内細菌情報と、
前記腸内細菌の種レベルの前記腸内細菌情報と、
を含み、
前記マーカ特定部は、前記種レベルで取得した前記重要度と、前記属レベルで取得した前記重要度と、に基づいて、前記バイオマーカとなる前記腸内細菌を特定する、
請求項1または2記載の情報処理装置。
【請求項7】
複数の前記候補細菌における前記候補細菌ごとの前記重要度の相対的な評価情報を生成する評価情報生成部、
を有してなる、
請求項1記載の情報処理装置。
【請求項8】
前記評価情報生成部は、前記候補細菌ごとの前記評価情報を、前記記憶部に記憶し、
前記バイオマーカとして特定された前記腸内細菌の前記評価情報を、前記記憶部から読み出して出力する出力部、
を有する、
請求項7記載の情報処理装置。
【請求項9】
コンピュータを請求項1記載の情報処理装置として機能させる、
ことを特徴とする情報処理プログラム。
【請求項10】
特定状態と非特定状態とのいずれかに属する患者の識別に用いられるバイオマーカとなる腸内細菌を複数の候補細菌の中から特定する情報処理装置に実行される情報処理方法であって、
前記情報処理装置は、
複数の見本患者それぞれの腸内細菌情報を記憶する記憶部、
を備え、
前記情報処理装置が、
複数の前記見本患者のうち、一部の前記見本患者を学習用患者とし、他の一部の前記見本患者を検証用患者として、前記記憶部に記憶されている前記学習用患者の前記腸内細菌情報と前記検証用患者の前記腸内細菌情報とに基づいて、前記検証用患者の識別に用いられる識別器を生成する識別器生成ステップと、
前記識別器における前記候補細菌ごとの重要度に基づいて、前記バイオマーカとなる前記腸内細菌を特定するマーカ特定ステップと、
を有してなり、
前記情報処理装置は、
前記識別器生成ステップにおいて、前記学習用患者と前記検証用患者との組合せごとの前記識別器を生成し、
前記マーカ特定ステップにおいて、前記組合せごとの前記識別器それぞれにおける前記候補細菌ごとの前記重要度に基づいて、前記バイオマーカとなる前記腸内細菌を特定する、
ことを特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置と情報処理プログラムと情報処理方法とに関する。
【背景技術】
【0002】
腸内細菌は、人体からの排泄物として体外へ排出される。そのため、人体に保有される腸内細菌の種類や割合は、人体への侵襲なく、検索することができる。特に、近年、次世代シーケンサに基づく技術の進歩により、腸内細菌の塊(腸内細菌叢)の検索は、正確かつ簡便になってきている。その結果、腸内細菌叢をバイオマーカ(特定の異常が生じている状態を予測する因子)として活用するための研究が注目されている。
【0003】
これまでにも、腸内細菌叢をバイオマーカとして活用する方法が提案されている(例えば、非特許文献1-3参照)。
【0004】
非特許文献1-3に開示されている方法は、菌の種および属の含有割合データにおける、菌の種および属ごとの多少に基づいて、特定の異常が生じている状態に属する1群(例えば、病気の再発有)と、同異常が生じていない状態に属している他の1群(例えば、病気の再発無)と、の間に統計的に有意差のある菌の種および属を特定する。しかしながら、同方法では、両者のデータの分布に統計的に有意差がある場合でも、両者の分布が重なる場合、腸内細菌の種および属を用いて両者を判別することはできない。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】B. Routy et.al., ”Gut microbiome influences efficacy of PD-1-based immunotherapy against epithelial tumors”, Sience. 2018 Jan 5, 359(6371), pp.91-97. doi: 10.1126/science.aan3706.
【非特許文献2】V. Matson et.al., ”The commensal microbiome is associated with anti-PD-1 efficacy in metastatic melanoma patients”, Sience. 2018 Jan 5, 359(6371), pp.104-108. doi: 10.1126/science.aao3290.
【非特許文献3】V. Gopalakrishnan et.al., ”Gut microbiome modulates response to anti-PD-1 immunotherapy in melanoma patients”, Sience. 2018 Jan 5, 359(6371), pp.97-103. doi: 10.1126/science.aan4236.
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、腸内細菌叢を用いたバイオマーカの探索において、従来用いられている統計的解析手法である線形解析に依拠することなく、非線形解析である機械学習により、腸内細菌叢から患者を2つの状態のいずれかに識別するためのバイオマーカを探索(特定)する技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る情報処理装置は、特定状態と非特定状態とのいずれかに属する患者の識別に用いられるバイオマーカとなる腸内細菌を複数の候補細菌の中から特定する情報処理装置であって、複数の見本患者それぞれの腸内細菌情報を記憶する記憶部と、複数の見本患者のうち、一部の見本患者を学習用患者とし、他の一部の見本患者を検証用患者として、記憶部に記憶されている学習用患者の腸内細菌情報と検証用患者の腸内細菌情報とに基づいて、検証用患者の識別に用いられる識別器を生成する識別器生成部と、識別器における候補細菌ごとの重要度に基づいて、バイオマーカとなる腸内細菌を特定するマーカ特定部と、を有してなり、識別器生成部は、学習用患者と検証用患者との組合せごとの識別器を生成し、マーカ特定部は、組合せごとの識別器それぞれにおける候補細菌ごとの重要度に基づいて、バイオマーカとなる腸内細菌を特定する、ことを特徴とする。
【発明の効果】
【0008】
本発明によれば、非線形解析である機械学習により、腸内細菌叢から患者を2つの状態のいずれかに識別するためのバイオマーカを探索(特定)することができる。
【図面の簡単な説明】
【0009】
【
図1】本発明に係る情報処理装置の実施の形態を示すネットワーク接続図である。
【
図2】
図1の情報処理装置の実施の形態を示す機能ブロック図である。
【
図3】
図1の情報処理装置に備えられる記憶部に記憶されている腸内細菌情報の例を示す模式図である。
【
図4】本発明に係る情報処理方法の実施の形態を示すフローチャートである。
【
図5】
図4の情報処理方法に含まれる識別器生成処理のフローチャートである。
【
図6】
図4の情報処理方法に含まれるマーカ特定処理のフローチャートである。
【
図7】
図4の情報処理方法に含まれる評価情報生成処理のフローチャートである。
【
図8】
図1の情報処理装置に備えられる表示部に表示されている、
図7の評価情報生成処理において生成された評価情報の例を示す模式図である。
【
図9】本発明の実施例において算出された感度、特異度、正診率を示すグラフである。
【
図10】本発明の実施例において生成されたマーカ候補細菌ごとの評価情報の例を示す模式図であり、(a)は属レベルにおける評価情報を示し、(b)は種レベルにおける評価情報を示す。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら、本発明に係る情報処理装置(以下「本装置」という。)と情報処理プログラム(以下「本プログラム」という。)と情報処理方法(以下「本方法」という。)との実施の形態について説明する。
【0011】
本発明は、特定状態と非特定状態とのいずれかに属する患者の識別に用いられるバイオマーカとなる腸内細菌を複数の候補細菌の中から特定する。
【0012】
「特定状態」は、患者に特定の異常が生じている状態である。本実施の形態において、特定状態は、特定の異常の治療後に再び同じ異常が生じている状態(すなわち、再発している状態:再発状態)を含む。
【0013】
「非特定状態」は、患者に特定の異常が生じていない状態である。本実施の形態において、非特定状態は、特定の異常の治療後に同じ異常が生じていない状態(すなわち、再発していない状態:非再発状態)を含む。
【0014】
「特定の異常」は、患者の腸内細菌叢に含まれる腸内細菌の種類やその割合に影響を及ぼす病気であって、例えば、患者の身体に生じる悪性の腫瘍(例えば、がん)である。
【0015】
「バイオマーカ」は、患者の身体の状態を客観的に測定し評価するための指標である。
【0016】
「候補細菌」は、本発明におけるバイオマーカの候補となり得る腸内細菌であり、見本患者を構成する複数の特定状態に属する患者(以下「特定患者」という。)と複数の非特定状態に属する患者(以下「非特定患者」という。)とから採取される腸内細菌である。換言すれば、候補細菌は、見本患者を構成する特定患者と非特定患者それぞれの腸内細菌の論理和に含まれる腸内細菌である。本実施の形態において、候補細菌は、例えば、複数の特定患者と複数の非特定患者それぞれの腸内細菌がDNA解析されることにより、予め特定されている。
【0017】
「見本患者」は、本発明において、患者を特定患者と非特定患者とのいずれかに識別するための識別器の生成に用いられる腸内細菌を保有する患者である。前述のとおり、見本患者は、複数の特定患者と複数の非特定患者とにより構成される。すなわち、見本患者は、状態が既知の患者である。
【0018】
<<情報処理装置>>
先ず、本装置の実施の形態について説明する。
【0019】
図1は、本装置の実施の形態を示すネットワーク接続図である。
【0020】
本装置1は、特定状態と非特定状態とのいずれかに属する患者の識別に用いられるバイオマーカとなる腸内細菌を複数の候補細菌の中から特定する。本装置1の具体的な構成と動作とは、後述する。
【0021】
情報記憶装置2は、見本患者を含む複数の患者の状態に関する情報と、患者それぞれの腸内細菌情報と、を関連付けて記憶する。情報記憶装置2は、例えば、情報記憶サーバ、NAS(Network-Attached Storage)、パーソナルコンピュータである。腸内細菌情報については、後述する。
【0022】
ネットワークNWは、例えば、インターネット、移動体通信網、LAN(Local Area Network)、WAN(Wide Area Network)、Wi-Fi(登録商標)、Bluetooth(登録商標)のような通信網である。
【0023】
<情報処理装置の構成>
図2は、本装置1の実施の形態を示す機能ブロック図である。
【0024】
本装置1は、例えば、パーソナルコンピュータで実現される。本装置1では、本プログラムが動作して、本プログラムが本装置1のハードウェア資源と協働して、本方法を実現する。
【0025】
ここで、コンピュータ(不図示)に本プログラムを実行させることで、本プログラムは、同コンピュータを本装置1と同様に機能させて、同コンピュータに本方法を実行させることができる。
【0026】
本装置1は、通信部11と、記憶部12と、制御部13と、操作部14と、表示部15と、を備える。
【0027】
通信部11は、ネットワークNWを介して、情報記憶装置2から見本患者の状態に関する情報と、見本患者それぞれの腸内細菌情報と、を取得する。通信部11は、例えば、通信モジュールや通信インターフェイスにより構成される。見本患者の状態に関する情報は、例えば、見本患者それぞれの腸内細菌情報に関連付けられて記憶部12に記憶される。
【0028】
記憶部12は、本装置1が後述する本方法を実行するために必要な情報(例えば、腸内細菌情報)を記憶する。記憶部12は、例えば、本装置1が備えるHDD(Hard Disk Drive)またはSSD(Solid State Drive)のような記録装置、RAM(Random Access Memory)のような揮発性メモリ、および/または、フラッシュメモリのような可搬性記憶媒体、により構成される。
【0029】
「腸内細菌情報」は、見本患者それぞれの腸内細菌に関する情報である。腸内細菌情報は、例えば、見本患者ごとの腸内細菌の分類名(例えば、腸内細菌の門、綱、目、科、属、種の各階級の名称)を示す情報と、見本患者ごとの腸内細菌の割合を示す情報と、を含む。
【0030】
なお、本発明における腸内細菌情報は、種や属が同定されていない腸内細菌の情報を含んでもよい。
【0031】
図3は、記憶部12に記憶されている腸内細菌情報の例を示す模式図である。
「見本患者ID」は、見本患者それぞれに対応する見本患者固有の識別標識である。「状態ID」は、見本患者それぞれに対して特定されている状態(本実施の形態では、「1」:癌が再発している状態、「0」:癌が再発していない状態)に対応する状態固有の識別標識である。「名称ID」は、各見本患者の腸内細菌(候補細菌)それぞれの名称(分類名)固有の識別標識である。本実施の形態では、名称IDは、対応する腸内細菌に対して同定されている門、綱、目、科、属、種の各階級に関連付けられているものとする。「割合」は、各見本患者において、名称IDに対応する腸内細菌が存在する割合を示す情報である。同図は、見本患者IDと状態IDと名称IDと割合とが関連付けられて記憶部12に記憶されていることを示す。本装置1は、例えば、見本患者IDを用いて記憶部12を参照することにより、見本患者IDに関連付けられて記憶部12に記憶されている状態IDと名称IDと割合とを読み出すことができる。
【0032】
同図は、例えば、見本患者ID「P001」に対応する状態IDが「1」であり、名称ID「C001」の割合が「x11」であり、名称ID「C003」の割合が「-:未検出」である、ことを示す。
【0033】
図2に戻る。
制御部13は、本装置1全体の動作を制御すると共に、後述する本方法を実行する。制御部13は、例えば、本装置1が備えるCPU(Central Processing Unit)と、CPUの作業領域として機能するRAMのような揮発性メモリと、本プログラムなどの各種情報を記憶するROM(Read Only Memory)のような不揮発性メモリと、により構成される。制御部13は、識別器生成部131と、マーカ特定部132と、評価情報生成部133と、を備える。
【0034】
識別器生成部131は、複数の見本患者のうち、一部の見本患者を学習用患者とし、他の一部の見本患者を検証用患者として、記憶部12に記憶されている学習用患者の腸内細菌情報と検証用患者の腸内細菌情報とに基づいて、検証用患者の識別に用いられる識別器を生成する。識別器生成部131の具体的な動作は、後述する。
【0035】
「学習用患者」は、後述する本方法において、識別器の機械学習の教師有りデータ(学習データ)として用いられる腸内細菌情報を保有する見本患者である。
【0036】
「検証用患者」は、後述する本方法において、学習用患者の腸内細菌情報に基づいて学習した識別器により検証される(識別される)見本患者である。
【0037】
「識別器」は、本実施の形態において、複数の見本患者を、特定状態に属する見本患者と、非特定状態に属する見本患者と、のいずれか一方に識別する機械学習アルゴリズムのモデルである。
【0038】
マーカ特定部132は、識別器における候補細菌ごとの重要度に基づいて、バイオマーカとなる腸内細菌を特定する。マーカ特定部132の具体的な動作は、後述する。
【0039】
「重要度」は、識別器において、各候補細菌が識別結果に及ぼす影響の度合である。すなわち、例えば、重要度が大きい候補細菌は識別結果に大きな影響を与え、重要度が小さい候補細菌は識別結果に小さな影響を与える(殆ど影響を与えない)。本実施の形態において、重要度は、候補細菌ごとに特定(算出)される。
【0040】
評価情報生成部133は、複数の候補細菌における候補細菌ごとの重要度の相対的な評価情報を生成する。評価情報生成部133の具体的な動作は、後述する。
【0041】
「評価情報」は、候補細菌ごとの重要度を相対的に評価する指標である。
【0042】
操作部14は、本装置1の使用者(例えば、医師。以下単に「使用者」という。)からの操作(情報の入力や選択など)を受ける機器である。
【0043】
表示部15は、後述する本方法の実施において必要な情報(例えば、評価情報など)を表示する機器である。本実施の形態において、操作部14と表示部15とは、例えば、タッチパネル式ディスプレイである。
【0044】
なお、本発明における操作部はマウスやキーボードなどの入力機器でもよく、本発明における表示部は、本装置に接続されるモニタやディスプレイでもよい。
【0045】
<<情報処理方法>>
次に、本装置1の動作、すなわち、本装置1が実行する本方法について説明する。
【0046】
以下の本方法の説明において、見本患者は、「n」名の特定状態の見本患者と、「m」名の非特定状態の見本患者と、により構成されるものとする(n,mは整数)。また、特定の異常は「食道がん」であり、特定状態は「食道がんが再発している状態」であり、非特定状態は「食道がんが再発していない状態」であるものとする。さらに、「n+m」名の見本患者それぞれの腸内細菌情報は、予め特定され、記憶部12に記憶されているものとする。
【0047】
図4は、本方法の実施の形態を示すフローチャートである。
【0048】
本装置1は、識別器生成処理(S1)と、マーカ特定処理(S2)と、評価情報生成処理(S3)と、を実行する。
【0049】
<識別器生成処理>
図5は、識別器生成処理(S1)のフローチャートである。
【0050】
「識別器生成処理(S1)」は、本発明において、見本患者を、特定状態の見本患者と非特定状態の見本患者とのいずれか一方に識別するための識別器を生成する処理である。
【0051】
先ず、識別器生成部131は、「n+m」名の見本患者それぞれの腸内細菌情報を記憶部12から読み出す(S101)。すなわち、識別器生成部131は、見本患者それぞれの腸内細菌(すなわち、候補細菌)の名称とその割合とを取得する。
【0052】
次いで、識別器生成部131は、見本患者それぞれの腸内細菌情報を特徴量として、公知の機械学習アルゴリズム(本実施の形態では、ランダムフォレスト)の1次学習・検証を行う(S102)。
【0053】
「1次学習・検証」は、後述する機械学習アルゴリズムの最適なハイパーパラメータの組合せを特定するための機械学習アルゴリズムの学習・検証である。本実施の形態では、識別器生成部131は、「n+m」名の見本患者に対して1つ抜き交叉検証を実行して、機械学習アルゴリズムの1次学習・検証を実行する。ここで、初回の機械学習アルゴリズムの学習・検証では、後述するハイパーパラメータの組合せは、例えば、本装置1の使用者により指定されたデフォルトの組合せが用いられる。
【0054】
具体的には、識別器生成部131は、「n+m」名の見本患者のうち、「1」名の見本患者を検証用患者として抽出し、残りの「n+m-1」名の患者を学習用患者として抽出する。次いで、識別器生成部131は、「n+m-1」名の学習用患者の腸内細菌情報に基づいて、機械学習アルゴリズムの1次学習を行い、検証用患者の1次識別に用いられる仮の識別器(1次識別器)を生成する。次いで、識別器生成部131は、生成した1次識別器を用いて、検証用患者を1次識別する。次いで、識別器生成部131は、全ての見本患者が検証用患者として抽出されるまで、1次識別器の生成と検証用患者の1次識別とを繰り返す。つまり、識別器生成部131は、1次識別器の生成と検証用患者の1次識別とを「n+m」回繰り返す。ここで、1次識別器は本発明における仮識別器であり、1次識別は本発明における仮識別である。
【0055】
次いで、識別器生成部131は、1次識別器ごとの1次識別の結果に基づいて、感度、特異度、正診率を算出する(S103)。
【0056】
「感度」は、「n+m」回の識別(1次識別)において、正しく特定状態の見本患者を識別した割合である。本実施の形態では、感度は、食道がんが再発している見本患者を特定状態の見本患者と識別した割合である。
【0057】
「特異度」は、「n+m」回の識別(1次識別)において、正しく非特定状態の見本患者を識別した割合である。本実施の形態では、特異度は、食道がんが再発していない見本患者を非特定患者と識別した割合である。
【0058】
「正診率」は、「n+m」回の識別(1次識別)において、正しく見本患者の状態を識別した割合である。
【0059】
次いで、識別器生成部131は、「n+m」回の機械学習アルゴリズムの1次学習・検証(処理S102)が所定回数(例えば、1000回)実行されたか否かを判定する(S104)。所定回数は、予め本装置1の使用者などにより設定されている。
【0060】
機械学習アルゴリズムの1次学習・検証が所定回数実行されていないとき(S104の「N」)、識別器生成部131は、少なくとも感度、特異度、正診率のいずれか1つに基づいて、1次識別器を構成する機械学習アルゴリズムのハイパーパラメータを調整する(S105)。本実施の形態では、識別器生成部131は、感度と特異度とが高くなる(増加する)ように、ハイパーパラメータを調整する。本実施の形態において、ハイパーパラメータは、公知の調整手法(本実施の形態では、Optuna(登録商標))を用いて、自動調整される。
【0061】
「ハイパーパラメータ」は、機械学習アルゴリズムの挙動(動作)を設定するパラメータ(例えば、決定木の階層数、決定木のサンプル数など)である。公知の機械学習アルゴリズムのハイパーパラメータは公知であるため、詳細な説明は省略する。
【0062】
次いで、識別器生成部131は、処理S102~S105を、機械学習アルゴリズムの1次学習・検証が所定回数に到達するまで繰り返し実行する。
【0063】
機械学習アルゴリズムの1次学習・検証が所定回数実行されたとき(S104の「Y」)、識別器生成部131は、最も感度と特異度とが高いハイパーパラメータの組合せを、最適なハイパーパラメータの組合せとして特定する(S106)。
【0064】
次いで、識別器生成部131は、最適なハイパーパラメータの組合せに設定された機械学習アルゴリズムをマーカ特定処理(S2)に用いられる設定済識別器として決定する(S107)。設定済識別器は、記憶部12に記憶される。
【0065】
なお、識別器生成処理において、本発明における識別器生成部は、所定回数に代えて、感度、特異度、正診率の少なくとも1つが所定の閾値を超えるまで機械学習アルゴリズムの1次学習・検証とハイパーパラメータの調整とを繰り返し実行してもよい。
【0066】
また、識別器生成処理において、本発明における識別器生成部は、感度と特異度とを高める調整に加えて、あるいは、同調整に代えて、例えば、感度と特異度とを用いたROC(Receiver Operating Characteristic)曲線におけるAUC(Area under the curve)が大きくなるようにハイパーパラメータを調整してもよい。
【0067】
<マーカ特定処理>
図6は、マーカ特定処理(S2)のフローチャートである。
【0068】
「マーカ特定処理(S2)」は、識別器生成処理(S1)において生成された識別器を用いて、候補細菌の中から、特定状態または非特定状態の識別に有意な腸内細菌をバイオマーカとして特定する処理である。
【0069】
先ず、識別器生成部131は、「n+m」名の見本患者それぞれの腸内細菌情報を記憶部12から読み出す(S201)。すなわち、識別器生成部131は、見本患者それぞれの腸内細菌(すなわち、候補細菌)の名称とその割合とを取得する。
【0070】
次いで、識別器生成部131は、識別器生成処理(S1)において生成された設定済識別器(すなわち、最適なハイパーパラメータの組合せに設定された機械学習アルゴリズム)を記憶部12から読み出す(S202)。
【0071】
次いで、識別器生成部131は、見本患者それぞれの腸内細菌情報を特徴量として、処理S202で読み出された設定済識別器(機械学習アルゴリズム)の2次学習・検証を行う(S203)。
「2次学習・検証」は、設定済識別器を用いて、見本患者を識別して、候補細菌ごとの重要度を取得するための機械学習アルゴリズムの学習・検証である。本実施の形態では、識別器生成部131は、「n+m」名の見本患者に対して1つ抜き交叉検証を実行する。
【0072】
具体的には、識別器生成部131は、「n+m」名の見本患者のうち、「1」名の見本患者を検証用患者として抽出し、残りの「n+m-1」名の患者を学習用患者として抽出する。次いで、識別器生成部131は、「n+m-1」名の患者を学習用患者の腸内細菌情報に基づいて、機械学習アルゴリズムの学習を行い、検証用患者の2次識別に用いられる仮の識別器(2次識別器)を生成する。次いで、識別器生成部131は、生成した2次識別器を用いて、検証用患者を識別する。次いで、識別器生成部131は、全ての見本患者が検証用患者として抽出されるまで、2次識別器の生成と検証用患者の2次識別とを繰り返す。つまり、識別器生成部131は、2次識別器の生成と検証用患者の2次識別とを「n+m」回繰り返す。換言すれば、識別器生成部131は、学習用患者と検証用患者との組合せごとの識別器(2次識別器)を生成し、識別器ごとに検証用患者を識別(2次識別)する。
【0073】
次いで、識別器生成部131は、学習用患者と検証用患者の組合せごとの2次識別器(すなわち、「n+m」個の2次識別器)それぞれにおける候補細菌ごとの重要度を取得する(S204)。本実施の形態において、機械学習アルゴリズムは、ランダムフォレストである。そのため、識別器生成部131は、例えば、ランダムフォレストにおいて重要度を意味する変数(importance)を参照して、特徴量である候補細菌ごとの重要度を取得する。
【0074】
なお、本発明における識別器生成部は、変数に代えて、各識別器の特徴量をシャッフルする手法(permutation importance)により、候補細菌ごとの重要度を取得してもよい。
【0075】
次いで、識別器生成部131は、候補細菌ごとの重要度に基づいて、学習用患者と検証用患者の組合せごとの2次識別器それぞれにおいて重要度の大きい順に「N(Nは整数)」種類の候補細菌をマーカ候補細菌として選択する(S205)。すなわち、識別器生成部131は、「n+m」回の2次学習・検証ごとに、上位「N」種類のマーカ候補細菌を選択する。ここで、本実施の形態において、識別器生成部131は、「10」種類のマーカ候補細菌を選択する。選択されたマーカ候補細菌は、それぞれの重要度に関連付けられて記憶部12に記憶される。
【0076】
「マーカ候補細菌」は、候補細菌のうち、最終的にバイオマーカとなり得る候補となる候補細菌である。選択されるマーカ候補細菌は、2次識別器ごとに全て同じ場合もあれば、2次識別器ごとに部分的に異なる場合もある。
【0077】
なお、本発明における識別器生成部は、2次識別器の生成と検証用患者の2次識別ごとにマーカ候補細菌を選択してもよい。すなわち、例えば、本発明における識別器生成部は、2次識別器の生成と、検証用患者の2次識別と、マーカ候補細菌の選択と、を1セットとして、「n+m」回繰り返してもよい。
【0078】
次いで、識別器生成部131は、「n+m」回の機械学習アルゴリズムの2次学習・検証(処理S203)が所定回数(例えば、500回)実行されたか否かを判定する(S206)。所定回数は、予め本装置1の使用者などにより設定されている。
【0079】
機械学習アルゴリズムの2次学習・検証が所定回数実行されていないとき(S206の「N」)、識別器生成部131は、機械学習アルゴリズムの2次学習・検証(S203)と、重要度の取得(S204)と、マーカ候補細菌の選択(S205)と、を実行する。
【0080】
一方、機械学習アルゴリズムの2次学習・検証が所定回数実行されたとき(S206の「Y」)、マーカ特定部132は、全て(本実施の形態において、「n+m」×「N」×所定回数分)のマーカ候補細菌の度数分布を生成する(S207)。
【0081】
次いで、マーカ特定部132は、頻度の高い順に「M(Mは整数)」種類のマーカ候補細菌(すなわち、腸内細菌)をバイオマーカとなる腸内細菌として特定する(S208)。ここで、本実施の形態において、マーカ特定部132は、「10」種類のマーカ候補細菌をバイオマーカとなる腸内細菌として特定する。特定された腸内細菌は、記憶部12に記憶される。
【0082】
一般的に、機械学習アルゴリズムは乱数となるパラメータを有するため、最適なハイパーパラメータが設定された設定済識別器であっても、識別ごとの識別結果や重要度には、ブレが生じ得る。ここで、本実施の形態では、2次学習・検証が所定回数(500回)繰り返し実行され、各回分の重要度の度数分布に基づいて、バイオマーカとなる腸内細菌が特定される。その結果、本発明は、乱数の影響を極力排除することができる。
【0083】
<評価情報生成処理>
図7は、評価情報生成処理(S3)のフローチャートである。
【0084】
「評価情報生成処理(S3)」は、マーカ候補細菌ごとの評価情報を生成する処理である。
【0085】
先ず、評価情報生成部133は、全ての2次識別器ごとのマーカ候補細菌とその重要度とを記憶部12から読み出す(S301)。
【0086】
次いで、評価情報生成部133は、マーカ候補細菌として選択された候補細菌ごとに、マーカ候補細菌として選択された回数をカウントする(S302)。
【0087】
次いで、評価情報生成部133は、回数の多い順に候補細菌に順位付けをして、候補細菌とその順位とを関連付けた情報(評価情報)を生成する(S303)。評価情報は、例えば、対応する腸内細菌の名称に関連付けられて、記憶部12に記憶される。評価情報は、例えば、表示部15に表示されて、本装置1の使用者などに閲覧される。この場合、表示部15は、記憶部12から評価情報を読み出して、バイオマーカとして特定された腸内細菌の評価情報を表示する。
【0088】
図8は、表示部15に表示されている評価情報の例を示す模式図である。
【0089】
同図は、食道がんの再発のバイオマーカとなる腸内細菌の名称と、同名称に対応する評価情報と、が列挙されている状態を示す。
【0090】
なお、本発明における評価情報生成処理が生成する評価情報は、本実施の形態に限定されない。すなわち、例えば、本発明における評価情報生成部は、識別器ごとに、重要度の高い順に重み付けを行い、その候補細菌ごとの重みの総計を評価情報としてもよい。
【0091】
<<実施例>>
次に、本発明の実施例について説明する。以下の本方法の説明において、見本患者は、「18」名の特定状態の見本患者と、「33」名の非特定状態の見本患者と、により構成されるものとする。また、特定の異常は「食道がん」であり、特定状態は「食道がんが再発している状態」であり、非特定状態は「食道がんが再発していない状態」であるものとする。本実施例において、候補細菌は、属レベルで220種類、種レベルで284種類であった。
【0092】
図9は、本発明の実施例において算出された感度、特異度、正診率を示すグラフである。同図は、機械学習アルゴリズムの1次学習・検証とハイパーパラメータの調整とを候補細菌の属レベルで繰り返し実行したときの、感度、特異度、正診率を示す。
【0093】
同図は、繰り返し数がハイパーパラメータの調整前、100回、1000回と増加するに従って、感度が上昇し、特異度は高い値で維持され、正診率が上昇していることを示す。このように、感度に基づいてハイパーパラメータ調整が繰り返されることにより、感度は上昇する。また、本方法は、見本患者の数が51名と少なく、かつ、特定状態の見本患者の数と非特定状態の見本患者の数とに比較的差異がある場合であっても、感度が約50%となるハイパーパラメータの組合せを特定することができる。
【0094】
図10は、本発明の実施例において生成された、マーカ候補細菌ごとの評価情報の例を示す模式図であり、(a)は属レベルにおける評価情報を示し、(b)は種レベルにおける評価情報を示す。同図は、機械学習アルゴリズムの1サイクル(51回)の2次学習・検証を属レベルおよび種レベルで実行した場合における、マーカ候補細菌ごとの評価情報の例を示す。ここで、「種レベル」は、機械学習アルゴリズムの特徴量となる腸内細菌情報が、候補細菌の種とその割合とにより構成されることを意味する。「属レベル」は、機械学習アルゴリズムの特徴量となる腸内細菌情報が、候補細菌の属とその割合とにより構成されることを意味する。
【0095】
同図は、属レベルでは、「Butyricimonas」属のマーカ候補細菌が51/51回選択され、「holdemania」属のマーカ候補細菌が49/51回選択され、「Coprobacillus」属のマーカ候補細菌が22/51回選択されていることを示す。また、同図は、種レベルでは、上位の殆どの種が未同定の種であることを示すと共に、未同定の種であってもバイオマーカとなり得るか否かの情報が得られることを示す。さらに、同図は、「holdemania」が属レベルと種レベルとで共通してマーカ候補細菌として選択されていることを示すと共に、種レベルと属レベルとでは結果が異なることを示す。
【0096】
<<まとめ>>
以上説明した実施の形態によれば、本装置1は、複数の見本患者のうち、一部の見本患者を学習用患者とし、他の一部の見本患者を検証用患者として、記憶部12に記憶されている学習用患者の腸内細菌情報と検証用患者の腸内細菌情報とに基づいて、検証用患者の識別に用いられる識別器を生成する識別器生成部131と、識別器における候補細菌ごとの重要度に基づいて、バイオマーカとなる腸内細菌を特定するマーカ特定部132と、を有してなる。識別器生成部131は、学習用患者と検証用患者との組合せごとの識別器を生成する。マーカ特定部132は、組合せごとの識別器それぞれにおける候補細菌ごとの重要度に基づいて、バイオマーカとなる腸内細菌を特定する。この構成によれば、本装置1は、状態が既知である見本患者の腸内細菌情報に基づいて、機械学習アルゴリズムの学習を行い、学習用患者と検証用患者との組合せごとの識別器を生成することができる。そして、本装置1は、識別器それぞれにおける候補細菌ごとに、候補細菌が識別結果に影響を及ぼす度合である重要度を取得することができる。その結果、本装置1は、重要度を客観的指標としてバイオマーカとなる腸内細菌を特定することができる。すなわち、本装置1は、非線形解析である機械学習により、腸内細菌叢から患者を2つの状態に識別するためのバイオマーカを探索(特定)することができる。
【0097】
また、以上説明した実施の形態によれば、マーカ特定部132は、識別器それぞれにおける候補細菌ごとの重要度の度数分布における候補細菌ごとの頻度に基づいて、バイオマーカとなる腸内細菌を特定する。この構成によれば、本装置1は、機械学習アルゴリズムの乱数の影響により、複数回生成される識別器それぞれにおける候補細菌ごとの重要度に生じるブレを、極力排除することができる。その結果、本装置1は、機械学習によるバイオマーカとなる腸内細菌を精度よく特定することができる。
【0098】
さらに、以上説明した実施の形態によれば、識別器生成部131は、検証用患者の仮識別(1次識別)に用いられる複数の仮識別器(1次識別器)を生成し、仮識別器ごとの仮識別により得られる感度、特異度、正診率のいずれか1つに基づいて、仮識別器を構成する機械学習アルゴリズムのハイパーパラメータを調整する。この構成によれば、本装置1は、所望の感度、特異度、正診率のいずれかを兼ね備える機械学習アルゴリズム(すなわち、識別器)を得ることができる。その結果、機械学習によるバイオマーカとなる腸内細菌を特定する精度は、向上する。
【0099】
さらにまた、以上説明した実施の形態によれば、識別器生成部131は、1次学習・検証とハイパーパラメータの調整とを、複数回繰り返す。この構成によれば、本装置1は、ハイパーパラメータの調整の回数に応じて、識別の感度、特異度、正診率のいずれかを所望の値に引き上げることができる。その結果、機械学習によるバイオマーカとなる腸内細菌を特定する精度は、向上する。
【0100】
さらにまた、以上説明した実施の形態によれば、本装置1は、複数の候補細菌における候補細菌ごとの重要度の相対的な評価情報を生成する評価情報生成部133と、バイオマーカとして特定された腸内細菌の評価情報を、記憶部12から読み出して出力する表示部15と、を有してなる。この構成によれば、本装置1の使用者は、バイオマーカとして選択された腸内細菌が、他の腸内細菌と比べてどのくらい優れているかを示す指標を容易に得ることができる。
【0101】
なお、本発明における識別器生成部が用いる機械学習アルゴリズムは、ランダムフォレストに限定されない。すなわち、例えば、同機械学習アルゴリズムは、ナイーブベイズやサポートベクターマシンなどの他の機械学習アルゴリズムでもよい。この場合、重要度は、例えば、permutation importanceにより、取得することができる。
【0102】
また、識別器生成処理の1次学習・検証およびマーカ特定処理の2次学習・検証は、1つ抜き交叉検証に限定されない。すなわち、例えば、本発明における識別器生成部は、他の交叉検証(例えば、k-分割交叉検証など)を用いて、1次学習・検証および2次学習・検証を実行してもよい。
【0103】
さらに、本装置は、バイオマーカとなる腸内細菌を特定すればよく、評価情報生成処理を実行しなくてもよい。
【0104】
さらにまた、本装置は、マーカ特定処理において、設定済識別器とは異なる他の識別器を用いた特定結果を参酌して、最終的なバイオマーカとなる腸内細菌を特定してもよい。すなわち、例えば、本装置は、ハイパーパラメータが未調整の識別器(未調整識別器)を用いてバイオマーカとなる腸内細菌を特定し、設定済識別器において特定したバイオマーカとなる腸内細菌と、未調整識別器において特定したバイオマーカとなる腸内細菌と、に共通する腸内細菌を最終的なバイオマーカとなる腸内細菌として特定してもよい。この構成では、未調整識別器を用いた結果が参酌されるため、機械学習アルゴリズムの過学習の影響が抑制され得る。ここで、本装置は、他の識別器として、未調整識別器ではなく、例えば、設定済識別器において乱数が未指定の識別器を用いてもよい。ここで、未調整識別器および乱数が未指定の識別器は、本発明における調整が完了前の識別器の例である。
【0105】
さらにまた、本装置は、種レベルで取得した重要度と、属レベルで取得した重要度と、に基づいて、バイオマーカとなる腸内細菌を特定してもよい。すなわち、例えば、本装置は、種レベルの重要度の頻度が高く、かつ、属レベルの重要度の頻度が高い上位「M」種類のマーカ候補細菌をバイオマーカとなる腸内細菌として特定してもよい。つまり、本装置は、属レベルおよび種レベルでバイオマーカとなる腸内細菌として特定した腸内細菌のうち、共通する腸内細菌を最終的なバイオマーカとなる腸内細菌として特定してもよい。この構成では、種レベルおよび属レベル単独と比較して、機械学習によるバイオマーカとなる腸内細菌を特定する精度は、向上し得る。また、例えば、本装置は、属レベルで取得した重要度に基づいて種レベルの特徴量(候補細菌の種類)を絞って種レベルの重要度を取得し、種レベルの重要度に基づいてバイオマーカとなる腸内細菌として特定してもよい。この構成では、候補細菌が膨大な数の種に及ぶとき、予め候補細菌の種の数を減ずることができる。
【0106】
さらにまた、本装置は、識別器生成処理において、処理S102の前処理として、公知の次元削減技術(例えば、主成分分析、t-SNE、Isomapなど)を用いて、特徴量(菌の種類およびその割合)の次元削減処理を実行してもよい。この構成では、識別器生成処理における1次学習・検証の効率は向上する。
【0107】
さらにまた、以上説明した実施の形態では、本装置1は、本発明における出力部の例として表示部15を備えていた。これに代えて、本装置は、本発明における出力部の例としてプリンタを備えてもよい。
【0108】
さらにまた、以上説明した実施の形態では、本装置1は、1つのコンピュータにより構成されていた。これに代えて、本装置は、複数のコンピュータにより構成されてもよい。すなわち、例えば、本装置は、本装置として機能する複数のコンピュータ群で構成されてもよい。具体的には、例えば、本装置(コンピュータ群)は、記憶部を備えるコンピュータと、本方法を実行する制御部を備えるコンピュータと、により構成されてもよい。また、例えば、複数のコンピュータが、識別器生成部、マーカ特定部、評価情報生成部それぞれの機能を分散して備えてもよい。この場合、コンピュータ群を構成する複数のコンピュータは、通信回線を通じて情報の送受信をしてもよく、あるいは、可搬記憶媒体を用いて情報の譲受をしてもよい。
【符号の説明】
【0109】
1 情報処理装置
12 記憶部
131 識別器生成部
132 マーカ特定部
133 評価情報生成部
15 表示部(出力部)