IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ハイテクノロジーズの特許一覧

特開2023-48450特徴量間相互作用演算方法及び特徴量間相互作用演算システム
<>
  • 特開-特徴量間相互作用演算方法及び特徴量間相互作用演算システム 図1
  • 特開-特徴量間相互作用演算方法及び特徴量間相互作用演算システム 図2
  • 特開-特徴量間相互作用演算方法及び特徴量間相互作用演算システム 図3
  • 特開-特徴量間相互作用演算方法及び特徴量間相互作用演算システム 図4
  • 特開-特徴量間相互作用演算方法及び特徴量間相互作用演算システム 図5A
  • 特開-特徴量間相互作用演算方法及び特徴量間相互作用演算システム 図5B
  • 特開-特徴量間相互作用演算方法及び特徴量間相互作用演算システム 図5C
  • 特開-特徴量間相互作用演算方法及び特徴量間相互作用演算システム 図6
  • 特開-特徴量間相互作用演算方法及び特徴量間相互作用演算システム 図7
  • 特開-特徴量間相互作用演算方法及び特徴量間相互作用演算システム 図8
  • 特開-特徴量間相互作用演算方法及び特徴量間相互作用演算システム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023048450
(43)【公開日】2023-04-07
(54)【発明の名称】特徴量間相互作用演算方法及び特徴量間相互作用演算システム
(51)【国際特許分類】
   G16H 20/00 20180101AFI20230331BHJP
   G06Q 10/04 20230101ALI20230331BHJP
【FI】
G16H20/00
G06Q10/04
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021157769
(22)【出願日】2021-09-28
(71)【出願人】
【識別番号】501387839
【氏名又は名称】株式会社日立ハイテク
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】吉田 真希子
【テーマコード(参考)】
5L049
5L099
【Fターム(参考)】
5L049AA04
5L099AA03
(57)【要約】
【課題】特徴量と事象との関連を容易に把握することを課題とする。
【解決手段】説明変数である特徴量の数値の集合である特徴量ベクトルと、目的変数である事象の情報を含むデータを取得し、当該特徴量ベクトルを基に当該事象を分類予測する木構造を有する分類予測モデルを構築するモデル構築部112と、分類予測モデルを構成するノードに現れる特徴量の位置と、ノードに現れる特徴量の位置をシャッフルした分類予測モデルにおける特徴量の位置とを基に、特徴量の間の相互作用と当該事象との関連度をスコア化した相互作用スコアとして算出する相互作用スコア算出部113と、算出した相互作用スコアを表示装置122に出力する出力処理部114と、を有することを特徴とする。
【選択図】図1
【特許請求の範囲】
【請求項1】
演算装置が、
説明変数である特徴量の数値の集合である特徴量ベクトルと、目的変数である事象の情報を含むデータを取得し、当該特徴量ベクトルを基に当該事象を分類予測する木構造を有する分類予測モデルを構築するモデル構築ステップと、
前記分類予測モデルを構成するノードに現れる前記特徴量の位置と、前記ノードに現れる前記特徴量の位置をシャッフルした前記分類予測モデルにおける前記特徴量の位置とを基に、前記特徴量の間の相互作用と当該事象との関連度をスコア化した相互作用スコアとして算出する相互作用スコア算出ステップと、
算出した相互作用スコアを出力部に出力する出力ステップと、
を実行することを特徴とする特徴量間相互作用演算方法。
【請求項2】
前記木構造の分類予測モデルは、ランダムフォレストによって生成され、
前記相互作用スコア算出ステップでは、
前記ランダムフォレストで生成される決定木のそれぞれにおいて、ルートノードから下流に向けて経路をたどり、対象となる前記特徴量のすべてが出現する分岐ノードまでの経路である探索枝の数を算出する第1の探索枝検索ステップと、
前記探索枝の数が、すべての前記決定木について足し合わされる第1の加算ステップと、
それぞれの前記決定木について、当該決定木に現れる特徴量をシャッフルするシャッフルステップと、
前記シャッフルが行われた前記決定木のそれぞれについて、前記探索枝の数を算出する第2の探索枝数算出ステップと、
前記第2の探索枝数算出ステップで算出された前記探索枝の数が、すべての前記決定木について足し合わされる第2の加算ステップと、
前記シャッフルステップから前記第2の加算ステップまでを複数回繰返し、
前記第2の加算ステップの結果を基に、前記第2の加算ステップの結果の平均値を算出する平均値算出ステップと、
前記第1の加算ステップの結果から、前記平均値算出ステップの結果を減算する減算ステップと、
が実行されることを特徴とする請求項1に記載の特徴量間相互作用演算方法。
【請求項3】
前記第2の加算ステップと、前記平均値算出ステップとの結果を基に、前記第2の加算ステップの結果に対する標準偏差が算出され、前記標準偏差で前記減算ステップの結果を除算する除算ステップ
が実行されることを特徴とする請求項2に記載の特徴量間相互作用演算方法。
【請求項4】
前記事象は、質的変数による所定のカテゴリに分類可能である
ことを特徴とする請求項1に記載の特徴量間相互作用演算方法。
【請求項5】
前記事象は、数値を有する
ことを特徴とする請求項1に記載の特徴量間相互作用演算方法。
【請求項6】
前記特徴量ベクトルを回帰分析に適用した結果を用いて、前記事象に関連する特徴量間の相互作用が当該事象にポジティブに関連しているか、ネガティブに関連しているかを評価する
ことを特徴とする請求項1に記載の特徴量間相互作用演算方法。
【請求項7】
前記特徴量は、腸内細菌叢の菌叢構造を有するとともに、摂取栄養素及び健康情報のうち少なくとも一方を特徴量として有する
ことを特徴とする請求項1に記載の特徴量間相互作用演算方法。
【請求項8】
前記事象は、所定の疾患に関する情報である
ことを特徴とする請求項1に記載の特徴量間相互作用演算方法。
【請求項9】
説明変数である特徴量の数値の集合である特徴量ベクトルと、目的変数である事象の情報を含むデータを取得し、当該特徴量ベクトルを基に当該事象を分類予測する木構造を有する分類予測モデルを構築するモデル構築部と、
前記分類予測モデルを構成するノードに現れる前記特徴量の位置と、前記ノードに現れる前記特徴量の位置をシャッフルした前記分類予測モデルにおける前記特徴量の位置とを基に、前記特徴量の間の相互作用と当該事象との関連度をスコア化した相互作用スコアとして算出する相互作用スコア算出部と、
算出した相互作用スコアを出力部に出力する出力処理部と、
を有することを特徴とする特徴量間相互作用演算システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴量間相互作用演算方法及び特徴量間相互作用演算システムの技術に関する。
【背景技術】
【0002】
メタゲノム解析技術を用いたヒト腸内細菌叢研究が国際的に大きな注目を集めている。その主な理由の1つは、ヒト腸内細菌叢と疾患との間に密接な関係があることが明らかになってきたことである。例えば、偽膜性大腸炎のような大腸関連の疾患の他、生活・食習慣が関与する肥満、糖尿病、種々の自己免疫疾患、大腸がん、肝臓がん、腎不全、心不全、神経系疾患、自閉症等の精神・脳機能等と、ヒト腸内細菌叢との関連が報告されている。このように、最近の研究によって腸内細菌叢の構造が臓器を問わず全身の機能に関わっていることが明らかになっている。このような腸内細菌叢と疾患との関係に着目することで、様々な疾患に対して従来とは異なる新しい治療や予防が可能になることが期待されている。
【0003】
腸内細菌叢は多数の菌種が相互作用する非常に複雑な菌叢構造を有し、宿主の健康状態や宿主の摂取した栄養素とも相互作用して宿主の生理機能に影響を及ぼす。その結果、腸内細菌叢は様々な疾患の発症と関わると考えられる。そのため、腸内細菌叢と疾患との関連を解析する際、腸内細菌叢内部の因子に加えて、健康状態や摂取栄養素等といった外部の因子を含む多数の因子間の相互作用を考慮することが重要である。腸内細菌叢研究における関連解析においては、従来の統計学的手法がよく用いられている。しかし、従来の統計学的手法において多数の因子を扱う場合は多重検定が問題となるため、近年は多数の因子やそれらの相互作用の解析に優れている機械学習手法が注目されている。
【0004】
特許文献1には、「原疾患もしくは併存疾患を呈するか、または呈し得る患者について、一定期間にわたるパンオミックスデータ、フィジオミクスデータ、環境データ、ソシオミックスデータ、人口統計学的データ、および転帰表現型データの収集によって薬理学的表現型が予測され得る。機械学習エンジンは、訓練患者からの訓練データに基づいて統計モデルを生成して、薬物応答および投与、薬物有害事象、疾患および併存疾患リスク、薬物-遺伝子相互作用、薬物-薬物相互作用、ならびに多薬療法相互作用を含む、薬理学的表現型を予測することができる。次いで、更なる予測能力から恩恵を受けるために、モデルは、新たな患者のデータに適用されて、彼らの薬理学的表現型を予測し、薬物選択および投与量、投薬計画の変更、多薬療法の最適化、モニタリングなどを含む、臨床および研究場面での意思決定が追加の予測力から恩恵を受けることを可能にし、これにより、有害事象および物質乱用の回避、薬物応答の改善、より良好な患者の転帰、より低い治療コスト、公共の健康利益、ならびに薬理学および他の生物医学分野における研究の有効性の増加をもたらすことができる」個体およびコホートの薬理学的表現型予測プラットフォームが開示されている(要約参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特表2020-520510号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1で提示されている方法において、機械学習モデルは、新たな患者のデータを基に当該患者の薬理学的表現型を予測することに用いられるものである。従って、当該モデルから薬理学的表現型の予測において重要な因子を抽出することはできない。
【0007】
このような背景に鑑みて本発明がなされたのであり、本発明は、特徴量と事象との関連を容易に把握することを課題とする。
【課題を解決するための手段】
【0008】
前記した課題を解決するため、本発明は、演算装置が、説明変数である特徴量の数値の集合である特徴量ベクトルと、目的変数である事象の情報を含むデータを取得し、当該特徴量ベクトルを基に当該事象を分類予測する木構造を有する分類予測モデルを構築するモデル構築ステップと、前記分類予測モデルを構成するノードに現れる前記特徴量の位置と、前記ノードに現れる前記特徴量の位置をシャッフルした前記分類予測モデルにおける前記特徴量の位置とを基に、前記特徴量の間の相互作用と当該事象との関連度をスコア化した相互作用スコアとして算出する相互作用スコア算出ステップと、算出した相互作用スコアを出力部に出力する出力ステップと、を実行することを特徴とする。
その他の解決手段は実施形態中において適宜記載する。
【発明の効果】
【0009】
本発明によれば、特徴量と事象との関連を容易に把握することができる。
【図面の簡単な説明】
【0010】
図1】本実施形態に係る演算システムの構成例を示す図である。
図2】第1実施形態で行われる全体処理の手順を示すフローチャートである。
図3】第1実施形態における学習データの一例を示す図である。
図4】第1実施形態で実行される相互作用スコア算出処理の手順を示すフローチャートである。
図5A】学習データにランダムフォレストを適用した結果、得られる決定木の一部を示す図(その1)である。
図5B】学習データにランダムフォレストを適用した結果、得られる決定木の一部を示す図(その2)である。
図5C】学習データにランダムフォレストを適用した結果、得られる決定木の一部を示す図(その3)である。
図6】2つの特徴量の組み合わせに対する相互作用スコアの算出結果の例を示す図である。
図7】第1実施形態における出力画面の例を示す図である。
図8】第2実施形態における出力画面の例を示す図である。
図9】第3実施形態における学習データの一例を示す図である。
【発明を実施するための形態】
【0011】
次に、本発明を実施するための形態(「実施形態」という)について、適宜図面を参照しながら詳細に説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明を限定するものではない。
【0012】
<第1実施形態>
第1実施形態では腸内細菌叢、摂取栄養素と花粉症の有無との関連解析において、花粉症と関連する相互作用を抽出する例を示す。第1実施形態及び第2実施形態では、目的変数として花粉症の有無が用いられているが、分類可能な症例であれば花粉症の有無に限らない。
【0013】
[システム構成]
図1は、本実施形態に係る演算システム1の構成例を示す図である。
演算システム1は演算装置100及びデータベース200を有する。
演算装置100は、CPU(Central Processing Unit)101、HD(Hard Disk)等の記憶装置102、通信装置103、メモリ110を有する。
メモリ110には、記憶装置102に格納されているプログラムがロードされる。そして、CPU101がロードされたプログラムを実行する。これにより、取得部111、モデル構築部112、相互作用スコア算出部113、出力処理部114が具現化する。また、演算装置100にはキーボードやマウス等の入力装置121や、表示装置122が接続されている。
取得部111は、データベース200から相互作用スコアの算出に必要な特徴量ベクトルデータ211(図3参照)や、事象データ212(図3参照)を取得する。特徴量ベクトルデータ211は分類予測モデルの説明変数に相当し、事象データ212は分類予測モデルの目的変数に該当する。相互作用スコアについては後記する。
モデル構築部112は、取得された特徴量ベクトルデータ211及び事象データ212を基に、ランダムフォレスト等を用いて木構造の分類予測モデルを構築する。
相互作用スコア算出部113は、モデル構築部112で構築された木構造の分類予測モデルを基に相互作用スコアを算出する。相互作用スコアの算出方法については後記するが、相互作用スコアとは木構造の分類予測モデルを構成するノードに現れる前記特徴量の位置を基に、特徴量間の相互作用と当該事象との関連度をスコア化するものである。
出力処理部114は、算出された相互作用スコアを表示装置122に表示する。
【0014】
通信装置103は、データベース200と接続しており、データベース200の情報を受信し、受信した情報をメモリ110へ送信する。
データベース200には学習データ210(図3参照)が格納されている。学習データ210については後記して説明する。
【0015】
なお、演算システム1は演算装置100をクラウドサーバとすることによるクラウドサービスの形態としてもよい。
【0016】
[フローチャート]
図2を用いて、腸内細菌叢データおよび摂取栄養素データを基に、因子間の相互作用と花粉症との関連度をスコア化して出力する処理の一例について説明する。
図2は、第1実施形態で行われる全体処理の手順を示すフローチャートである。
まず、取得部111は、データベース200に格納されている被験者集団の腸内細菌叢構造、摂取栄養素の情報を含む特徴量ベクトルデータ211(図3参照)をデータベース200から取得する(S101)。特徴量ベクトルデータ211については後記して説明する。
また、取得部111は、被験者集団の花粉症の有無についての情報を含む事象データ212(図3参照)をデータベース200から取得する(S102)。事象データ212については後記して説明する。
【0017】
次に、モデル構築部112が、特徴量ベクトルデータ211及び事象データ212を用いて、当該特徴量ベクトルを基に花粉症者と非花粉症者を分類予測する木構造の分類予測モデルを構築する(S111)。木構造の分類予測モデルは、決定木、ランダムフォレスト、勾配ブースティング決定木等を含む、任意のアルゴリズムにより構築し得る。本実施形態では、ランダムフォレストが用いられるものとする。
その後、相互作用スコア算出部113は、特徴量ベクトルを基に、すべての特徴量の組み合わせ(K個とする)を算出する(S112)。相互作用スコア算出部113は、すべての特徴量の組み合わせ数をKとしてメモリ110に一時記憶する。
続いて、相互作用スコア算出部113は、組み合わせ番号を示すkを「0」に初期化する(k=0:S113)。
そして、相互作用スコア算出部113は、kに「1」を加算する(k←k+1:S114)。
次に、相互作用スコア算出部113は、k番目の特徴量の組み合わせに対する相互作用スコアを算出する(S120)。相互作用スコアの算出方法については後記して説明する。
【0018】
続いて、相互作用スコア算出部113は、k=Kとなったか否かを判定する(S141)。Kは特徴量の全組み合わせ数である。即ち、ステップS141で相互作用スコア算出部113は、特徴量のすべての組み合わせについて相互作用スコアを算出したか否かを判定する。
【0019】
特徴量のすべての組み合わせについて相互作用スコアが算出されていない場合(S141→No)、相互作用スコア算出部113はステップS114へ処理を戻す。
特徴量のすべての組み合わせについて相互作用スコアが算出されている場合(S141→Yes)、出力処理部114が所定の特徴量の組み合わせに対する相互作業スコアを表示装置122に出力する(S142)。
【0020】
(データベース200)
図3は、第1実施形態における学習データ210の一例を示す図である。
学習データ210はデータベース200に格納されており、菌種組成の情報、栄養素摂取量の情報、事象の情報を有している。菌種組成の情報は、各被験者における腸内細菌叢の構造であり、具体的には各腸内細菌の相対存在量が格納されている。栄養素摂取量の情報には、被験者が摂取した栄養素の摂取量が格納されている。また、事象の情報には被験者が花粉症かそうでないかの情報(名義尺度を有する質的変数による所定のカテゴリ)が格納されている。質的変数とは、性別、名前、「1位、2位、3位」等のように、値が離散的となる変数である。また、名義尺度とは性別や、名前等のようにカテゴリの違いのみが示され、カテゴリ間の順序が意味を持たない尺度である。ちなみに尺度とはデータの性質による分類基準である。
【0021】
腸内細菌叢の菌種組成の情報は、例えば、腸内細菌叢ゲノムのメタ16S解析によって得られる。他に、メタゲノム解析から得られる遺伝子組成等によって腸内細菌叢の菌種組成の情報が得られてもよい。また、摂取した栄養素の情報としては、栄養素の摂取量の他に、食品の摂取量を用いてもよい。食品の摂取量は、簡易型自記式食事歴法質問票(BDHQ)等を用いて収集される。栄養素の摂取量は、BDHQを利用することによる専用の計算プログラムによって算出できる。
【0022】
これらの情報のうち、菌種組成及び栄養素摂取量について、被験者毎に(Prevotellaの相対存在量)・・・(Ruminococcusの相対存在量)、(RTNの摂取量)、(Znの摂取量)の数値が羅列されている。このような数値を特徴量と称し、数値の羅列を特徴量ベクトルと称する。そして、菌種組成及び摂取栄養素の情報が図2における特徴量ベクトルデータ211である。また、事象(花粉症かそうでないか)の情報が図2における事象データ212である。このように、事象データ212は名義尺度を有する質的変数による所定のカテゴリに分類可能なものである。即ち、特徴量ベクトルデータ211は分類予測モデルの説明変数であり、事象データ212は分類予測モデルの目的変数である。
【0023】
[相互作用スコア算出処理]
図4は、第1実施形態で実行される相互作用スコア算出処理の手順を示すフローチャートである。図4は、図2のステップS120の詳細な手順を示している。
まず、相互作用スコア算出部113は、現在のシャッフルの回数を示す変数「h」に「0」を代入する(S121)。
次に、相互作用スコア算出部113は、第1の同時出現数算出処理を行う(S122)。ステップS122において、相互作用スコア算出部113は図2のステップS111で構築された分類予測モデルにおける決定木において、ある2つの特徴量が同じ探索枝に同時に出現する回数を算出する。決定木において、ある2つの特徴量が同じ探索枝に同時に出現する回数を、以降では同時出現数と記載する。探索枝、及び、同時出現数については後記する。
そして、相互作用スコア算出部113は、第1の同時出現数算出処理の結果を基に第1の加算処理を行う(S123)。ステップS123において、相互作用スコア算出部113はステップS122で算出された同時出現数を分類予測モデル全体で足し合わせる。
【0024】
続いて、相互作用スコア算出部113はhに1を加算してhに代入する(h←h+1:S124)。
そして、相互作用スコア算出部113は分類予測モデルのシャッフル処理を行う(S125)。ステップS125において、相互作用スコア算出部113は、決定木のトポロジを保ったまま特徴量の位置をランダムにシャッフルする。シャッフルについては後記する。
【0025】
次に、相互作用スコア算出部113は第2の同時出現数算出処理を行う(S126)ステップS126において、相互作用スコア算出部113は、シャッフル処理を行った分類予測モデルに対してステップS122と同様の処理を行う。これにより、相互作用スコア算出部113は、シャッフル処理を行った分類予測モデルにおいて、ある2つの特徴量が同じ探索枝に同時に出現する回数を算出する。
続いて、相互作用スコア算出部113は第2の加算処理を行う(S127)。ステップS127において、相互作用スコア算出部113はステップS126で算出された、ある2つの特徴量が同じ探索枝に同時に出現する回数を分類予測モデル全体で足し合わせる。
【0026】
次に、相互作用スコア算出部113はh=Hであるか否かを判定する(S128)。ここで、Hは相互作用スコア算出部113がシャッフルを行う回数である。
h=Hではない場合(S128→No)、相互作用スコア算出部113はステップS124へ処理を戻す。
h=Hである場合(S128→Yes)、相互作用スコア算出部113はステップS27の結果をシャッフル毎に足し合わせた結果と、シャッフルを行う回数(H)を用いてシャッフル処理を行った分類予測モデルにおける同時出現数の平均値及び標準偏差を算出する。
【0027】
その後、相互作用スコア算出部113はステップS123の結果、及び、ステップS129の結果を用いて相互作用スコアの算出を行う(S130)。相互作用スコアの算出については後記する。
【0028】
[相互作用スコア算出処理の具体例]
図5A図5Cを参照して、花粉症の有無を分類予測する木構造の分類予測モデルの一例として、ランダムフォレストによる分類予測モデルを示し、相互作用スコア算出処理の具体例を示す。
図5A図5Cは、学習データ210にランダムフォレストを適用した結果、得られる決定木の一部を示す図である。
また、図5A図5Cでは、図3に示すデータにランダムフォレストを適用した結果、得られる決定木が1つずつ、計3つ示されている。
ここではランダムフォレストによって生成される決定木が3つ示されているが、実際には、ランダムサンプリングしたデータと特徴量とを用いて構築された数千~数万の決定木が生成される。
【0029】
さらに、図5A図5Cにおいて、「A」~「F」は特徴量を示す。つまり、「A」~「F」は、図3における「Prevotellaの相対存在量」、「Ruminococcusの相対存在量」、「RTNの摂取量」、「Znの摂取量」に相当するものである。
また、図5A図5Cにおいて、四角で示されているノードを分岐ノードと称し、楕円で示されている末端のノードを葉ノードと称する。それぞれの分岐ノード及び葉ノードには、ノード番号(#n)が付与されている。ノード番号は、個々の決定木において一意に付与されている。
【0030】
また、最も上位に位置する分岐ノード(図5A図5Cの「Node#0」)をルートノードと称する。なお、それぞれの分岐ノードでは「True」及び「False」が判定されるが、図5A図5Cに示す決定木では「True」及び「False」の表記を省略している。
【0031】
ランダムフォレスト等の木構造の分類予測モデルは条件分岐によってデータを分割していくことから、複数の特徴量間の依存関係を捉えることができる。そして、木構造の分類予測モデルにおいて、複数の特徴量間の依存関係は決定木の各枝に表現されるという特徴を有する。
ここで、枝とはルートノードから葉ノードまでの経路である。例えば、図5Aに示される決定木では、ルートノード(「Node#0」)から葉ノード「Node#12」までの経路(「Node#0」-「Node#2」-「Node#8」-「Node#10」-「Node#12」)が1つの枝となる。
また、経路においてルートノード側を上流、葉ノード側を下流として定義する。
例えば、図5Aに示す例では、「Node#0」-「Node#2」-「Node#8」-「Node#10」-「Node#12」からなる枝において、非花粉症であることを分類予測する上で、特徴量「A」、「B」、「D」、「F」の相互作用が貢献していることが内在的に表現されている。
【0032】
特徴量間の相互作用の強度は同時出現数を基に評価できる。同時出現数については後記する。本実施形態では、特徴量間の相互作用の強度を相互作用スコアとして示す。そして、本実施形態では、任意の特徴量であるxとyとの組み合わせに対する相互作用スコアが以下の式(1)によって定義される。
【0033】
【数1】

【0034】
式(1)において、I(x、y)は任意の特徴量であるxとyとの組み合わせに対する相互作用スコアである。N(x、y)は、シャッフル処理を行う前の分類予測モデルにおいて、特徴量であるxとyとが、同じ探索枝に同時に出現する回数(同時出現数)である。探索枝については後記する。また、M(x,y)は木のトポロジを保ったまま特徴量の位置をランダムにシャッフルした場合における同時出現数である。さらに、E(M(x,y)はM(x,y)の平均を示し、σ(M(x,y))はM(x,y)の標準偏差である。
【0035】
まず、式(1)のN(x、y)の算出方法について説明する。
本実施形態において、探索枝はルートノードから下流へ経路をたどっていく中で、注目している特徴量のすべてが現れるまでの経路と定義される。
例えば、図5Aに示す決定木で特徴量「A」、「B」に注目したとすると、ルートノードである「Node#0」で特徴量「A」が現れ、分岐ノード「Node#1」で特徴量「B」が現れている。ルートノードである「Node#0」と、分岐ノード「Node#1」とで、注目している特徴量「A」、「B」の双方が現れたため、「Node#1」より下流の経路は探索対象から外される。従って、図5Aに示す決定木において、特徴量「A」、「B」が出現する探索枝は「Node#0-Node#1」の経路となる。
そして、この例において、図5Aに示す決定木で特徴量「A」、「B」が同時に出現する回数は「1」となる。
つまり、探索枝を、前記したように定義すると、ある2つの特徴量が同じ探索枝に同時に出現する回数(同時出現数)は、それぞれの決定木における探索枝の数を算出することと同義となる。
【0036】
以上をふまえて、図5A図5Cを参照し、N(x、y)の具体例としてN(A,F)を求める。
図5Aに示す決定木では、「Node#0」に特徴量「A」が現れており、「Node#10」に特徴量「F」が現れている。従って、図5Aに示す決定木において、特徴量「A」と特徴量「F」とが出現する探索枝は「Node#0」-「Node#2」-「Node#8」-「Node#10」の1つである。すなわち、図5Aに示す決定木について、同時出現数は「1」である。
【0037】
図5Bに示す決定木では、「Node#2」と「Node#8」とに特徴量「A」が現れており、「Node#3」と「Node#12」とに特徴量「F」が現れている。従って、図5Bに示す決定木において、特徴量「A」と特徴量「F」とが出現する探索枝は「Node#0」-「Node#1」-「Node#2」-「Node#3」と、「Node#0」-「Node#8」-「Node#10」-「Node#12」の2つとなる。すなわち、図5Bに示す決定木について、同時出現数は「2」である。
【0038】
そして、図5Cに示す決定木では、「Node#1」に特徴量「A」が現れており、「Node#2」に特徴量「F」が現れている。従って、図5Cに示す決定木において、特徴量「A」と特徴量「F」とが出現する探索枝は「Node#0」-「Node#1」-「Node#2」の1つとなる。すなわち、図5Cに示す決定木について、同時出現数は「1」である。
【0039】
このように、それぞれの決定木において探索枝の数(つまり、同時出現数)を算出する処理は、図4のステップS122に相当する処理である。
【0040】
式(1)におけるN(A、F)は、すべての決定木において特徴量「A」と特徴量「F」とが同時に出現する数である。従って、図5A図5Cに示す決定木がすべての決定木だとすると、それぞれの決定木における同時出現数が足し合わされることでN(A,F)は「4」と算出される。なお、この処理は図4のステップS123の処理に相当する。
【0041】
次に、式(1)におけるM(x、y)、E(M(x,y))、σ(M(x,y))について説明する。
前記したように、式(1)において、M(x,y)は木のトポロジを保ったまま特徴量の位置をランダムにシャッフルした場合における同時出現数である。さらに、E(M(x,y))はM(x,y)の平均を示し、σ(M(x,y))はM(x,y)の標準偏差である。
【0042】
ここで、木のトポロジを保ったまま特徴量の位置をランダムにシャッフルする処理(シャッフル処理:図4のステップS125)について説明する。
シャッフルは、以下のルールに基づいて行われる。
(ルール#1)シャッフルは決定木毎に行われる。
(ルール#2)シャッフルは、対象となる決定木の分岐ノードのそれぞれに現れる特徴量に対して行われる。
【0043】
以下、図5A図5Cを参照して、シャッフル処理について、図5A図5Cを参照して説明する。
図5Aに示す決定木の全体では特徴量と分岐ノードとの関係を「A(#0)、B(#2),C(#3),E(#4),D(#8),F(#10)」と表すこととする。ここで、括弧内の(#n)は特徴量が現れる分岐ノードの番号を示している。
【0044】
相互作用スコア算出部113は、「A(#0)、B(#2),C(#3),E(#4),D(#8),F(#10)」における特徴量の位置をランダムにシャッフルする。例えば、シャッフルの結果、「B(#0),D(#2),F(#3),C(#4),A(#8),E(#10)」が得られたとする。このような結果が得られた場合、相互作用スコア算出部113は、特徴量「B」を分岐ノード(ルートノード)「Node#0」に割り当て、特徴量「D」を分岐ノード「Node#2」に割り当てる。相互作用スコア算出部113は、その他の特徴量も同様に分岐ノードに割り当てる。
【0045】
また、図5Bに示す決定木の全体では、特徴量と、分岐ノードとの関係が「C(#0),D(#1),A(#2),F(#3),A(#8),B(#10),F(#12)」と表される。そして、相互作用スコア算出部113は、「C(#0),D(#1),A(#2),F(#3),A(#8),B(#10),F(#12)」における特徴量の位置をランダムにシャッフルし、シャッフルの結果を、それぞれの分岐ノードに割り当てる。「C(#0),D(#1),A(#2),F(#3),A(#8),B(#10),F(#12)」における特徴量の位置をランダムにシャッフルした結果は、「A(#0),C(#1),F(#2),B(#3),F(#8),A(#10),D(#12)」や、「D(#0),F(#1),B(#2),F(#3),C(#8),A(#10),A(#12)」等になる。
【0046】
同様に、図5Cに示す決定木の全体では、特徴量と、分岐ノードとの関係が「B(#0),A(#1),F(#2),D(#5),C(#8),E(#9),D(#12)」と表される。そして、相互作用スコア算出部113は、図5A図5Bに示す決定木と同様、「B(#0),A(#1),F(#2),D(#5),C(#8),E(#9),D(#12)」における特徴量の位置をシャッフルし、シャッフルした結果を、それぞれの分岐ノードに割り当てる。「B(#0),A(#1),F(#2),D(#5),C(#8),E(#9),D(#12)」における特徴量の位置をシャッフルした結果は、「D(#0),C(#1),A(#2),E(#5),B(#8),D(#9),F(#12)」等である。
【0047】
このようなシャッフルが行われることは決定木において特徴量間の依存関係の情報が失われた状態を作り出していることになる。
【0048】
続いて、相互作用スコア算出部113は、特徴量の位置をシャッフルした結果が割り当てられた、それぞれの決定木について、同じ探索枝に特徴量「A」と特徴量「F」が同時に出現する数(同時出現数)を求める。この処理は、シャッフル処理前と同様の手法で行われる。ちなみに、この処理は、図4のステップS126に相当する処理である。
【0049】
その上で、相互作用スコア算出部113は、決定木毎に求めた同時出現数を、すべての決定木において足し合わせる。この結果が、式(1)のM(A,F)となる。なお、この処理は図4のステップS127に相当する処理である。
【0050】
相互作用スコア算出部113は、このようなシャッフルを複数回(例えば、10回程度)行う。そして、相互作用スコア算出部113は、シャッフル毎におけるM(A,F)の累積をシャッフル回数で除算することでM(A,F)の平均値である式(1)のE(M(A,F))を算出する。さらに、相互作用スコア算出部113は、M(A,F)とE(M(A,F))を基に、M(A,F)の標準偏差である式(1)のσ(M(A,F))を算出する。この処理は図4のステップS129に相当する処理である。
【0051】
続いて、相互作用スコア算出部113は、算出したM(A,F)と、E(M(A,F))と、σ(M(A、F))を式(1)に代入することで、I(A、F)(相互作用スコア)を算出する。この処理は、図4のステップS130に相当する処理である。
相互作用スコア算出部113は、すべての特徴量の組み合わせのそれぞれに対して相互作用スコアを算出する(図2のステップS114~S141に相当)。
【0052】
式(1)では特徴量間の依存関係の情報が失われた状態((M(x,y))によって規格化が行われている。このように、特徴量間の依存関係の情報が失われた状態による規格化が行われることで、相互作用の強度をよく反映したものになっている。
【0053】
N(A,F)は、モデル構築で生成された、それぞれの決定木における同時出現数を示している。同時出現数は、決定木において特徴量「A」と特徴量「B」との相互作用の強度を示している。しかし、特徴量「A」と、特徴量「F」とが単にそれぞれの決定木に多く現れればN(A,F)の値は大きくなる。つまり、特徴量「A」と、特徴量「F」とが単にそれぞれの決定木に多く現れれば、例え特徴量「A」と、特徴量「F」との間に相互作用が少なくても、N(A,F)が大きくなる。即ち、N(A,F)には、偶然、特徴量「A」と特徴量「F」とが探索枝において同時に出現している数が含まれている。
【0054】
そこで、本実施形態では、シャッフル処理によって、それぞれの決定木において特徴量間の依存関係の情報が失われた状態における同時出現数(M(A,F))をN(A,F)から減算している。つまり、M(A,F)は、特徴量「A」と特徴量「F」とが偶然同じ探索枝に現れている数を示している。
従って、N(A,F)からM(A,F)を減算した結果は、真に特徴量「A」と特徴量「F」との相互作用している値(強度)を示している。ただし、シャッフルの結果によって、M(A,F)の値が変わってくるので、複数回シャッフルが行われることで、シャッフル回数に対するM(A,M)の総和をシャッフル数で除算したE(M(A,F))が用いられる。
【0055】
さらに、式(1)では、σ(M(x、y))で除算されることで、尺度の異なるデータの比較を行うことができる。ただし、式(1)においてσ(M(x、y))による除算が行われなくてもよい。
【0056】
式(1)に示す相互作用スコアが用いられることにより、花粉症患者と非花粉症者の分類予測において相互作用スコアの高い特徴量間の相互作用、つまり花粉症との関連度の高い特徴量間の相互作用を抽出することができる。式(1)に示すような相互作用スコアは、2つ以上の任意の数の特徴量の組み合わせに対しても同様に相互作用スコアを算出できる。
【0057】
(相互作用スコア算出結果の例)
図6は、2つの特徴量の組み合わせに対する相互作用スコアの算出結果の例を示す図である。
図6に示す結果では、特徴量の組み合わせと、花粉症との関連度とが対応付けられて示されている。花粉症との関連度は相互作用スコアである。つまり、相互作用スコアが高いほど花粉症との関連度が高いと予測され、相互作用スコアが低いほど関連度が低いと予測される。花粉症との関連度が高いとは、該当する特徴量の組み合わせが花粉症発症の有無に関連している可能性が高いことを示している。
図6に示す例では、腸内細菌として「Ruminococcus」、栄養素の摂取量として「Cu(銅)」の摂取量の組み合わせが、最も高い花粉症の関連度(相互作用スコア)を示している。ちなみに、図6に示す例では多数存在する特徴量の組み合わせのうち、相互作用スコアが10以上のものが示されている。
【0058】
(出力画面500)
図7は、第1実施形態における出力画面500の例を示す図である。図7に示される出力画面500は図2のステップS142で出力されるものである。
図7に示すように、出力画面500はグラフ表示エリア510、リスト表示エリア520、説明・設定エリア530を有する。
グラフ表示エリア510では、相互作用スコアが棒グラフとして示され、さらに、関連度(相互作用スコア)の順(昇順)で特徴量の組み合わせが示されている。特徴量の組み合わせは、グラフ表示エリア510において「(Cu,Rminococcus)」等の形式で示されている。
【0059】
リスト表示エリア520では、特徴量の組み合わせと、花粉症との関連度(相互作用スコア)とが昇順で示されている。リスト表示エリア520の表示内容は図6と同様である。即ち、多数存在する特徴量の組み合わせのうち、相互作用スコアが「10」以上のものが示されている。リスト表示エリア520に表示される特徴量の組み合わせは説明・設定エリア530の閾値設定窓532によって設定される。
【0060】
説明・設定エリア530では、算出式説明エリア531及び閾値設定窓532を有する。
算出式説明エリア531では相互作用スコアの算出式に関する説明が表示される。なお、算出式説明エリア531は省略可能である。
閾値設定窓532は、前記したようにリスト表示エリア520に表示される相互作用スコアの閾値が設定される。前記したように、図7に示す例では閾値設定窓532に「10」が設定されているため、リスト表示エリア520には相互作用スコアが「10」以上の特徴量の組み合わせが相互作用スコア(関連度)の昇順で示されている。なお、本実施形態では、閾値設定窓532で設定された閾値がリスト表示エリア520の表示に適用されているが、グラフ表示エリア510の表示に適用されてもよい。また、閾値は予め設定され、即ち、デフォルトの設定値が初期値として設定されおり、閾値設定窓532を介して、ユーザが閾値を設定するようにしてもよい。
【0061】
このように、本実施形態における出力画面500では予め、予め定められている閾値(デフォルトで設定されている閾値)、または、ユーザが閾値設定窓532で指定した閾値により抽出した関連度の高い特徴量間相互作用のリスト等を提示することができる。
【0062】
第1実施形態によれば、木構造を有する分類予測モデル(第1実施形態に示す例ではランダムフォレスト)による手法で抽出された関連度の高い特徴量の組のみを分析対象とすることができる。これにより、統計学的手法で問題となる多重検定を回避することができる。つまり、図7に示す例によれば、最も関連度(相互作用スコア)が高い「Ruminococcus」と「Cu」の組み合わせについて分析を行えばよい。従って、多くの特徴量の組み合わせを分析することがなくなるため、多重検定を回避することができる。
【0063】
また、一般的な木構造の分類予測モデルに用いられる重要度は、他のすべての特徴量の存在の下に評価されるので、特徴量間の相互作用の効果も加味した指標となっている。しかし、重要度は個々の特徴量に対して算出されるため、特徴量の組み合わせに対する相互作用の情報を与えていない。これに対し、本実施形態における相互作用スコアによれば、徴量の組み合わせに対する相互作用の情報を得ることができる。つまり、本実施形態による相互作用スコアは、どのような特徴量間の相互作用が分類予測において重要であるかを直接評価することができる。
【0064】
本実施形態では、栄養素摂取量が特徴量として用いられているが、健康診断によって得られる健康情報も特徴量として用いられてもよい。この場合、栄養素摂取量の代わりに健康情報が特徴量として用いられてもよいし、栄養素摂取量と健康情報との双方が特徴量として用いられてもよい。
【0065】
このように、第1実施形態では、腸内細菌叢の菌種組成の情報、栄養素摂取量の情報や、健康情報等の様々なメタデータを基に、木構造の分類予測モデルを用いて、腸内細菌叢と疾患との関連が多数の特徴量間の相互作用を考慮して解析される。そして、その結果、疾患と関連する特徴量間相互作用を抽出することができるつまり、第1実施形態では、木構造の分類予測モデルを用いて、特徴量間の相互作用と表現型(事象)との関連度が相互作用スコアとしてスコア化されて出力される。これにより表現型(事象)と関連する特徴量間相互作用を抽出することができる。この結果、腸内細菌叢と疾患(第1実施形態では花粉症の有無)との関連解析において、疾患との関連性の高い特徴量の相互作用を抽出することができる。
【0066】
<第2実施形態>
次に、図8を参照して本発明の第2実施形態について説明する。
図8は、第2実施形態における出力画面500aの例を示す図である。図8において、図7と同様の構成については同一の符号を付して説明を省略する。
機械学習による手法に別の統計学的手法が組み合わされることで、機械学習による手法で抽出された関連度の高い特徴量間の相互作用が、花粉症にポジティブに関連しているか、ネガティブに関連しているかを評価することができる。ポジティブに関連しているとは、値が大きくなるほど花粉症である確率が高く、ネガティブに関連しているとは値が小さいほど花粉症である確率が高いことを示す。
【0067】
例えば、ランダムフォレストに加えてロジスティック回帰を用いて各特徴量に対応する係数の符号を調べることで、各特徴量と花粉症との関連がポジティブなものであるか、ネガティブなものであるかを評価することができる。しかし、この手法に限定されるものではなく、他の統計学的手法が複数組み合わされてもよい。なお、ロジスティック回帰に用いられる説明変数は特徴量ベクトルデータ211である。
【0068】
図8に示す出力画面500aでは、リスト表示エリア520aにおいてランダムフォレストに加えてロジスティック回帰手法が適用された例を示している。
図8のリスト表示エリア520aでは「+/-」の欄が追加されている。「+/-」の欄には、ロジスティック回帰手法において、各特徴量に対応する係数の符号を示している。ロジスティック回帰手法では係数が複数算出されるが、負の符号を有する係数が正の符号を有する係数より多ければ「+/-」の欄に「-」が格納される。逆に、正の符号を有する係数が負の符号を有する係数より多ければ「+/-」の欄に「+」が格納される「+/-」の欄に「+」が格納されていれば、各特徴量と花粉症との関連がポジティブであることを示している。また、「+/-」の欄に「-」が格納されていれば、各特徴量と花粉症との関連がネガティブであることを示している。
【0069】
ちなみに正の符号を有する係数と、負の符号を有する係数とが同数であれば「+/-」の欄に「0」が格納される。この場合、各特徴量と花粉症との関連がポジティブなものかネガティブなものかを評価することができないことを意味している。
【0070】
また、リスト表示エリア520aでは、ネガティブに関連している特徴量の組み合わせが網掛けで示され、ポジティブに関連している特徴量の組み合わせが網掛けなしで示されている。ちなみに、リスト表示エリア520aに表示されている特徴量の組み合わせ及び花粉症との関連度(相互作用スコア)の数値は図7のリスト表示エリア520に記載されているものと同じである。
【0071】
第2実施形態によれば、特徴量の組み合わせと、症状を発症する確率との関係等を示すことができる。
なお、第2実施形態では、ランダムフォレストとロジスティック回帰とが組み合わされているが、ランダムフォレストと組みあわされる分析は回帰分析であれば、ロジスティック回帰に限らない。例えば、ランダムフォレストと重回帰分析とが組み合わされてもよい。
【0072】
<第3実施形態>
第1実施形態及び第2実施形態では疾患の有無(花粉症の有無)のような事象が所定のカテゴリ(名義尺度を有する質的変数による所定のカテゴリ)に分類可能なものを事象データ212として使用している。
これに対して、第3実施形態では、患者の健康状態等を示す何らかの数値を予測する解析において重要な相互作用が抽出される。このような場合、図9に示すような、被験者集団の特徴量ベクトルデータ211とともに、被験者集団の当該数値の情報を含むデータを事象データ212bとして取得し、それらを基に当該数値を予測する木構造の分類予測モデルが構築される。その後、相互作用スコア算出部113は分類予測の際の前記手法と同様に、特徴量の各組み合わせに対して相互作用スコアを算出する。そして、最後に、出力処理部114が、相互作用スコアを出力する。
【0073】
以下、図9を参照して、第3実施形態の具体例について説明する。
図9は、第3実施形態における被験者集団の特徴量ベクトルと数値の情報を格納する学習データ210bの例を示す図である。
図9において、図3の「事象」:「花粉症有無」が「数値」:「花粉症の重症度スコア」となっていること以外は図3と同様である。
つまり、図9に示す学習データ210bには、各被験者について、腸内細菌叢構造の情報として菌種組成、摂取栄養素の情報として各栄養素の摂取量、数値の情報として問診に基づいて医師が判定した花粉症の重症度スコアのデータが格納されている。図9に示す例では、花粉症の重症度スコアは10段階で示されている。ただし、花粉症の重症度スコアは10段階に限らない。このように、図9に示す例において、事象データ212bは数値として順序尺度を有する質的変数を有している。ちなみに、順序尺度とは、「1位、2位、3位」、「優、良、可」等のようにカテゴリ間の順序が意味を持つ尺度である。
つまり、図9に示す学習データにおいて、菌種組成及び栄養素摂取量の情報が特徴量ベクトルデータ211となり、数値の情報が事象データ212bとなる。
【0074】
モデル構築部112(図1参照)は図9に示す特徴量ベクトルデータ211bから花粉症の重症度スコアを予測する分類予測モデルを構築する。分類予測モデルの構築には、ランダムフォレスト等が用いられる。そして、相互作用スコア算出部113が、図4に示す処理を行うことで、相互作用スコアを算出し、出力処理部114が相互作用スコアを表示装置122に表示する。
【0075】
第3実施形態によれば、花粉症の重症度スコアのような(離散的な)数値を有する事象に対しても、第1実施形態と同様の効果を得ることができる。
なお、図9に示す例では事象データ212bとして花粉症の重症度スコアが用いられているが、回帰モデルを適用できるものであれば、花粉症の重症度スコアに限らない。本実施形態の例において、花粉症の重症度スコアの代わりに花粉症の症状(鼻づまり等)に対してランク付けしたものが用いられてもよい。あるいは、薬による症状の改善傾向(「優」、「良」、「変わりなし」)等が用いられてもよい。また、図9に示す例では、事象データ212bとして順序尺度を有する質的変数が用いられているが、事象データ212b(数値)として、血糖値や、体重、BMI等の連続値を有する、いわゆる量的データが用いられてもよい。
【0076】
また、第2実施形態と第3実施形態とが組み合わされてもよい。
さらに、本実施形態では相互作用スコアの算出において、2つの特徴量の組み合わせの場合について記載されているが、3つ以上の特徴量の組み合わせも可能である。
【0077】
本発明は前記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を有するものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0078】
また、前記した各構成、機能、各部111~114、記憶装置102、データベース200等は、それらの一部又はすべてを、例えば集積回路で設計すること等によりハードウェアで実現してもよい。また、図1に示すように、前記した各構成、機能等は、CPU101等のプロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、HD(Hard Disk)に格納すること以外に、メモリ110や、SSD(Solid State Drive)等の記録装置、又は、IC(Integrated Circuit)カードや、SD(Secure Digital)カード、DVD(Digital Versatile Disc)等の記録媒体に格納することができる。
また、各実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には、ほとんどすべての構成が相互に接続されていると考えてよい。
【符号の説明】
【0079】
1 演算システム(特徴量間相互作用演算システム)
100 演算装置
111 取得部
112 モデル構築部
113 相互作用スコア算出部
114 出力処理部
122 表示装置(出力部)
200 データベース
210,210b 学習データ
211 特徴量ベクトルデータ
212,212b 事象データ
500,500a 出力画面
510 グラフ表示エリア
520,520a リスト表示エリア
530 説明・設定エリア
S111 分類予測モデルを構築(モデル構築ステップ)
S120 k番目の組み合わせに対する相互作用スコアを算出(相互作用スコア算出ステップ)
S122 第1の同時出現数算出処理(第1の探索枝検索ステップ)
S123 第1の加算処理(第1の加算ステップ)
S125 シャッフル処理(シャッフルステップ)
S126 第2の同時出現数算出処理(第2の探索枝検索ステップ)
S127 第2の加算処理(第2の加算ステップ)
S129 平均値及び標準偏差を算出(平均値算出ステップ)
S130 相互作用スコアを算出(減算ステップ、除算ステップ)
図1
図2
図3
図4
図5A
図5B
図5C
図6
図7
図8
図9