(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022191682
(43)【公開日】2022-12-28
(54)【発明の名称】情報処理方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20221221BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021100053
(22)【出願日】2021-06-16
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和2年度、国立研究開発法人日本医療研究開発機構、「先進的医療機器・システム等技術開発事業 術中の迅速な判断・決定を支援するための診断支援機器・システム開発」「術中の迅速な呼吸異常評価のための連続呼吸音モニタリングシステムの研究開発」委託研究開発、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】317007266
【氏名又は名称】エア・ウォーター・バイオデザイン株式会社
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【弁理士】
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】中村 圭秀
(72)【発明者】
【氏名】梅崎 岳
(57)【要約】
【課題】学習モデルを適切に構築する。
【解決手段】情報処理方法は、対象に係るデータに基づく開発用データセットを用いた機械学習により構築された学習済モデルに係る特徴パラメータを調査する調査工程と、対象に係る特徴量がとり得る範囲である定義域と、特徴パラメータとの関係に応じて調整された新たな開発用データセットを用いた機械学習により、学習済モデルを再構築する再構築工程と、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象に係るデータに基づく開発用データセットを用いた機械学習により構築された学習済モデルに係る特徴パラメータを調査する調査工程と、
前記対象に係る特徴量がとり得る範囲である定義域と、前記特徴パラメータとの関係に応じて調整された新たな開発用データセットを用いた機械学習により、前記学習済モデルを再構築する再構築工程と、
を含むことを特徴とする情報処理方法。
【請求項2】
当該情報処理方法は、
前記調査工程の前に、前記開発用データセットを用いた機械学習により、前記学習済モデルを構築する構築工程と、
前記再構築工程の後に、学習済モデルの性能を評価するための検証用データセットを用いて、前記再構築された学習済モデルの評価を行う評価工程と、
を含むことを特徴とする請求項1に記載の情報処理方法。
【請求項3】
前記検証用データセットは、前記定義域に基づいて調整されたデータセットであることを特徴とする請求項2に記載の情報処理方法。
【請求項4】
前記評価工程における前記評価の結果を、前記対象に係る第1の特徴成分及び第2の特徴成分で規定される平面上に、前記第1の特徴成分の値及び前記第2の特徴成分の値で規定される領域ごとに、前記学習済モデルの性能に応じてその半径が変化する評価円で表示する表示工程を含むことを特徴とする2又は3に記載の情報処理方法。
【請求項5】
前記対象は、生体音であることを特徴とする請求項1乃至4のいずれか一項に記載の情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理方法の技術分野に関する。
【背景技術】
【0002】
この種の方法として、例えば、嚥下が生じたと推定された期間を含む所定の期間の生体音データの特徴量に機械学習処理を実行して、嚥下に嚥下障害の可能性があるか否かを判定する方法が提案されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
機械学習処理に係る学習モデルには、その構築の際に用いられたデータセットに起因して過学習や学習不足が生じるおそれがある。特許文献1に記載の技術では、この点について改善の余地がある。
【0005】
本発明は、上記事情に鑑みてなされたものであり、学習モデルを適切に構築することができる情報処理方法を提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明の情報処理装置は、上記課題を解決するために、対象に係るデータに基づく開発用データセットを用いた機械学習により構築された学習済モデルに係る特徴パラメータを調査する調査工程と、前記対象に係る特徴量がとり得る範囲である定義域と、前記特徴パラメータとの関係に応じて調整された新たな開発用データセットを用いた機械学習により、前記学習済モデルを再構築する再構築工程と、を含む。
【0007】
本発明の作用及び他の利得は次に説明する実施するための形態から明らかにされる。
【図面の簡単な説明】
【0008】
【
図1】実施例に係る情報処理方法の一部を示すフローチャートである。
【
図3】実施例に係る情報処理方法の他の部分を示すフローチャートである。
【
図4】検証用データの分布の概念を示す概念図である。
【発明を実施するための形態】
【0009】
情報処理方法に係る実施形態について説明する。実施形態に係る情報処理方法は、調査工程と再構築工程とを含む。調査工程では、対象に係るデータに基づく開発用データセットを用いた機械学習により構築された学習済モデルに係る特徴パラメータが調査される。ここで、「特徴パラメータ」とは、機械学習の実行後に獲得されるパラメータを意味する。言い換えれば、「特徴パラメータ」は、ハイパーパラメータとは異なるパラメータである。
【0010】
例えば画像から道路上の白線を検出する学習モデルを構築する場合を考える。この場合、開発用データセットには、道路上の白線が写っている画像が含まれる。白線の写り方は、天候や時間帯によって変化する。開発用データセットに、例えば、晴天の日中に白線を写した画像が著しく多く含まれている一方で、雨天の夜間に白線を写した画像がほとんど含まれていない場合(即ち、開発用データセットに偏りがある場合)、晴天の日中の白線について過学習である一方、雨天の夜間の白線については学習不足な学習モデルが構築される可能性がある。
【0011】
ここで、本願発明者の研究によれば、特徴パラメータに過学習や学習不足の傾向が現れることが判明している。従って、調査工程において、特徴パラメータが調査されることにより、過学習や学習不足の傾向を検知することができる。
【0012】
再構築工程では、対象に係る特徴量がとり得る範囲である定義域と、特徴パラメータとの関係に応じて調整された新たな開発用データセットを用いた機械学習により、学習済モデルが再構築される。ここで、開発用データセットについて「調整」とは、過学習や学習不足の傾向が小さくなるように開発用データセットに含まれるデータ(上述した例では画像)が調整されることを意味する。尚、「定義域」は、例えば文献や経験則等から予め知ることができる。
【0013】
調整された新たな開発用データセットを用いて機械学習を行うことで、学習済モデルを再構築すれば、過学習や学習不足が抑制された学習済モデルを構築することができる。従って、当該情報処理方法によれば、学習モデルを適切に構築することができる。
【0014】
当該情報処理方法の一態様では、当該情報処理方法は、前記調査工程の前に、前記開発用データセットを用いた機械学習により、前記学習済モデルを構築する構築工程と、前記再構築工程の後に、学習済モデルの性能を評価するための検証用データセットを用いて、前記再構築された学習済モデルの評価を行う評価工程と、を含む。
【0015】
一般的に機械学習では、開発用データセットを用いた学習モデルの構築と、検証用データセットを用いた学習済モデルの評価とが繰り返されることによって、最適な学習モデルが構築される。これに対して、当該情報処理方法では、学習済モデルの評価が行われる前に、新たな開発用データセットを用いて学習済モデルの再構築が行われる。
【0016】
この態様では、前記検証用データセットは、前記定義域に基づいて調整されたデータセットであってよい。検証用データセットについても、開発用データセットと同様に偏りが生じることがある。偏りのある検証用データセットを用いて学習済モデルの評価が行われると、学習済モデルが適切に評価されないおそれがある。
【0017】
検証用データセットについて「調整」とは、偏りが小さくなるように検証用データセットに含まれるデータが調整されることを意味する。当該態様によれば、調整された検証用データを用いて学習済モデルの評価が行われるので、学習済モデルを適切に評価することができる。
【0018】
この態様では、前記評価工程における前記評価の結果を、前記対象に係る第1の特徴成分及び第2の特徴成分で規定される平面上に、前記第1の特徴成分の値及び前記第2の特徴成分の値で規定される領域ごとに、前記学習済モデルの性能に応じてその半径が変化する評価円で表示する表示工程を含んでよい。このように構成すれば、評価結果を視覚的にわかりやすい態様で表示することができ、実用上非常に有利である。
【0019】
当該情報処理方法の他の態様では、前記対象は生体音である。生体音には多種多様な音がある。そして、一の疾病に起因する生体音であっても、生体の体格等によって音の特徴がある程度変化する可能性がある。例えば一の生体音を検出する学習モデルを構築する場合、開発用データセットや検証用データセットに含まれるデータに比較的偏りが生じやすい。生体音を対象として当該情報処理方法を適用すれば、学習済モデルを適切に構築することができる。
【実施例0020】
情報処理方法に係る実施例について
図1乃至
図5を参照して説明する。本実施例では、生体音中の異常音の有無を判定する学習モデルについて説明するが、当該情報処理方法は他の学習モデルについても適用可能である。
【0021】
図1において、先ず、学習モデルを構築するための開発用データセットが準備される(ステップS101)。ここで、開発用データセットには、例えば検査や実験等により取得された実データに限らず、例えば実データを加工することにより生成された加工データが含まれていてよい。加工データの生成方法としては、例えば実データ(即ち、生体音データ)に係る音量及び周波数の少なくとも一方を変更して加工データを生成する方法が挙げられる。
【0022】
次に、機械学習を行う装置は、開発用データセットに含まれる各データから特徴量を算出する(ステップS102)。特徴量の算出方法には、既存の各種態様を適用可能である。特徴量の算出方法の一例としては、特許第6672478号に記載の方法が挙げられる。次に、機械学習を行う装置は、所定の機械学習方法により学習モデルを構築(設計)する(ステップS103)。機械学習方法には、既存の各種態様を適用可能であるので、その詳細についての説明は省略する。
【0023】
学習モデルが構築された後、機械学習を行う装置は、構築された学習モデル(以降、適宜“学習済モデル”と称する)に係る特徴パラメータを調査する(ステップS104)。このとき、機械学習を行う装置は、調査された特徴パラメータを、例えば
図2(a)に示すようなグラフ形式で表示する。
【0024】
図2(a)に示すグラフでは、定義域のうち、特徴量次元が高い側では重みが比較的大きくなっている一方で、特徴量次元が低い側では重みが比較的小さくなっている。つまり、特徴量次元が高い側では過学習が生じている可能性がある一方で、特徴量次元が低い側では学習不足が生じている可能性がある。
【0025】
そこで、ステップS105の処理において、開発用データセットが調整される。このステップS105の処理では、例えば、
図2(a)に示す状態が、
図2(b)に示す状態に近づくように、開発用データセットに含まれるデータの一部が削除されたり、開発用データセットに新たなデータが追加されたりする。
【0026】
次に、機械学習を行う装置は、調整された開発用データセットを用いて、学習済モデルを再構築(再設計)する(ステップS106)。このとき、機械学習を行う装置は、ステップS102の処理と同様に、調整された開発用データセットに含まれる各データから特徴量を算出してよい。
【0027】
上述の如く構築(再構築)された学習済モデルは、検証用データセットを用いて検証・評価される。
図3において、先ず、学習済モデルを検証・評価するための検証用データセットが準備される(ステップS201)。ここで、検証用データセットには、開発用データセットと同様に、実データに限らず加工データが含まれていてよい。
【0028】
次に、上述したステップS104の処理の結果(例えば
図2(a)に示すグラフ)から定義域が決定される(ステップS202)。このとき決定される定義域は、上述したステップS105の処理において開発用データセットが調整されるときの定義域と一致していなくてよい。
【0029】
ステップS201の処理において準備された検証用データセットに含まれる各データの音量及び周波数の分布が、例えば
図4(a)に示すように偏っているとする。尚、
図4(a)中の黒丸はデータを表している(
図4(b)についても同様)。そこで、ステップS203の処理では、例えば、
図4(a)に示す分布が、
図4(b)に示す分布に近づくように、検証用データセットに含まれるデータの一部が削除されたり、検証用データセットに新たなデータが追加されたりする。
【0030】
次に、機械学習を行う装置は、調整された検証用データセットを用いて、学習済モデルの検証・評価を行う(ステップS204)。検証・評価方法には、既存の各種態様を適用可能であるので、その詳細についての説明は省略する。
【0031】
機械学習を行う装置は、検証・評価の結果を、例えば
図5に示すような図として表示する。
図5中の円は、評価円である。評価円の中心に係る音量及び周波数を有するデータが学習済モデルに入力されたときの該学習済モデルの性能は、評価円の大きさで表されている。ここでは、学習済モデルの性能が高くなるほど、評価円の半径が大きくなる。
【0032】
呼吸音に係る異常音データなど、現状のデータ数に限りがあるものにおいて、臨床データが増加するに従って定義域が変化する可能性がある。本発明の手法を用いることによって、定めた範囲の性能を向上し、学習モデルを強化することが可能となる。
【0033】
本発明は、上述した実施形態に限られるものではなく、特許請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理方法もまた本発明の技術的範囲に含まれるものである。