IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカミノルタ株式会社の特許一覧

特開2024-175608機械学習装置、機械学習方法、および、機械学習プログラム
<>
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図1
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図2
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図3
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図4
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図5
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図6A
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図6B
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図6C
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図6D
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図7A
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図7B
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図7C
  • 特開-機械学習装置、機械学習方法、および、機械学習プログラム 図7D
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024175608
(43)【公開日】2024-12-18
(54)【発明の名称】機械学習装置、機械学習方法、および、機械学習プログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20241211BHJP
   G06V 10/70 20220101ALI20241211BHJP
【FI】
G06T7/00 350C
G06V10/70
G06T7/00 612
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023093533
(22)【出願日】2023-06-06
(71)【出願人】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】指田 岳彦
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA06
5L096BA13
5L096EA39
5L096GA59
5L096HA11
5L096KA04
(57)【要約】
【課題】人の判断基準を詳細に入力することなく、可視化した判断根拠情報に対する評価結果を機械学習モデルにフィードバックすることで、人の解釈に近い機械学習モデルを構築する。
【解決手段】機械学習装置1は、入力画像の判断結果を出力する機械学習モデル11と、機械学習モデル11の出力に影響を与えた判断根拠情報を可視化する判断根拠可視化部12と、判断根拠情報の評価結果を取得する評価取得部13と、評価結果が否定的ならば、この入力画像を修正して機械学習モデル11を再学習させる再学習部14とを備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
入力画像の判断結果を出力する機械学習モデルと、
前記機械学習モデルの出力に影響を与えた判断根拠情報を可視化する判断根拠可視化部と、
前記判断根拠情報の評価結果を取得する評価取得部と、
前記評価結果に応じて前記入力画像を修正して前記機械学習モデルを再学習させる再学習部と、
を備える機械学習装置。
【請求項2】
前記再学習部は、前記評価結果が否定的ならば、当該入力画像を修正して前記機械学習モデルを再学習させる、
請求項1に記載の機械学習装置。
【請求項3】
前記再学習部は、前記評価結果が否定的であったとき、前記機械学習モデルの出力に影響が大きいとされた領域の影響度合いを下げるように前記機械学習モデルを再学習させる、
請求項1に記載の機械学習装置。
【請求項4】
前記評価取得部は、前記判断根拠情報の評価結果であるOK/NGの入力を取得し、
前記再学習部は、前記評価結果がNGの場合、前記機械学習モデルを再学習させる、
請求項1に記載の機械学習装置。
【請求項5】
前記評価取得部は、前記判断根拠情報についての評価結果であるスコアの入力を取得し、
前記再学習部は、前記スコアに応じて、前記判断根拠情報に関わる領域の影響度合いを下げるように再学習を行う、
請求項1に記載の機械学習装置。
【請求項6】
前記再学習部は、前記スコアに応じて、前記入力画像のうち前記判断根拠情報に関わる領域をマスクして、前記機械学習モデルを再学習させる、
請求項4に記載の機械学習装置。
【請求項7】
前記再学習部は、前記スコアに応じて、前記入力画像のうち前記判断根拠情報に関わる領域に別の画像を混合して、前記機械学習モデルを再学習させる、
請求項5に記載の機械学習装置。
【請求項8】
前記再学習部は、前記スコアに応じて、前記入力画像のうち前記判断根拠情報に関わる領域に重み付けしたマスキングを行い、前記機械学習モデルを再学習させる、
請求項5に記載の機械学習装置。
【請求項9】
前記再学習部は、前記スコアに応じて、前記入力画像のうち前記判断根拠情報の導出に用いられた特徴量にマスクまたは重み付けを行い、前記機械学習モデルを再学習させる、
請求項5に記載の機械学習装置。
【請求項10】
判断根拠可視化部が、入力画像の判断結果を出力する機械学習モデルの出力に影響を与えた判断根拠情報を可視化するステップと、
評価取得部が、前記判断根拠情報の評価結果を取得するステップと、
再学習部が、前記評価結果に応じて前記入力画像を修正して前記機械学習モデルを再学習させるステップと、
を備える機械学習方法。
【請求項11】
コンピュータに、
入力画像の判断結果を出力する機械学習モデルの出力に影響を与えた判断根拠情報を可視化する手順、
前記判断根拠情報の評価結果を取得する手順、
前記評価結果に応じて前記入力画像を修正して前記機械学習モデルを再学習させる手順、
を実行させるための機械学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習装置、機械学習方法、および、機械学習プログラムに関する。
【背景技術】
【0002】
深層学習による機械学習モデルの判断を単純に可視化しても、人には理解できないことや納得できないことが多かった。深層学習は非常に強力な手法だが、特徴を自動的に生成するため、判断基準が人と異なる場合がある。
判断に納得性が求められる場合、人と判断基準が異なるのは問題である。納得性が求められる場合とは、例えば医療の診断や、法律関係や、人の利害に大きくかかわるものなどである。
【0003】
ルールベースで人と同じ基準で判断させる方法や、判断基準がおかしい場合におかしい部分を指摘し再度学習する方法等が存在する。しかし、これらの方法では作業者の負担が大きく、かつ判断対象に関する知見が必要である。更に判断基準の個人差も生じやすい。
【0004】
特許文献1には、「教師判断対象データと教師判断根拠データとの関係を学習する第2の機械学習を行うことにより、判断対象データが入力されると、判断対象データに対する判断結果の根拠を示す根拠推論データを出力する根拠推論モデルを生成する根拠学習部と、を備える学習装置を提供する。」と記載されている。
【0005】
特許文献2には、「前記制御部は、前記判断根拠情報を出力する。前記判断根拠情報を修正する修正部をさらに備え、修正された判断根拠情報を前記機械学習モデルの再学習に用いる。」と記載されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】国際公開第2020/175692号公報
【特許文献2】特開2022-146822号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
機械学習、特に深層学習では判断の根拠を出力した際に人の感覚と違うことが多いが,人の感覚に近づけようと思うと相応のコストが掛かる。
特許文献1に記載されている発明は、事前に判断根拠データの準備が必要であり、手間が掛かる。その上、複雑なタスクの場合は判断根拠を明確に定義することが難しい課題がある。
特許文献2に記載されている発明は、修正部による動的な修正が必要だが、手間が掛かる。その上、修正の個人差が大きいと上手く更新できない課題がある。
【0008】
そこで、本発明は、人の判断基準を詳細に入力することなく、人の判断に近い機械学習モデルを構築することを課題とする。
【課題を解決するための手段】
【0009】
すなわち、本発明の上記課題は、下記の構成により解決される。
(1) 入力画像の判断結果を出力する機械学習モデルと、
前記機械学習モデルの出力に影響を与えた判断根拠情報を可視化する判断根拠可視化部と、
前記判断根拠情報の評価結果を取得する評価取得部と、
前記評価結果に応じて当該入力画像を修正して前記機械学習モデルを再学習させる再学習部と、
を備える機械学習装置。
【0010】
(2) 前記再学習部は、前記評価結果が否定的ならば、当該入力画像を修正して前記機械学習モデルを再学習させる、
(1)に記載の機械学習装置。
【0011】
(3) 前記再学習部は、前記評価結果が否定的であったとき、前記機械学習モデルの出力に影響が大きいとされた領域の影響度合いを下げるように前記機械学習モデルを再学習させる、
(1)に記載の機械学習装置。
【0012】
(4) 前記評価取得部は、前記判断根拠情報の評価結果であるOK/NGの入力を取得し、
前記再学習部は、前記評価結果がNGの場合、前記機械学習モデルを再学習させる、
(1)に記載の機械学習装置。
【0013】
(5) 前記評価取得部は、前記判断根拠情報についての評価結果であるスコアの入力を取得し、
前記再学習部は、前記スコアに応じて、前記判断根拠情報に関わる領域の影響度合いを下げるように再学習を行う、
(1)に記載の機械学習装置。
【0014】
(6) 前記再学習部は、前記スコアに応じて、前記入力画像のうち前記判断根拠情報に関わる領域をマスクして、前記機械学習モデルを再学習させる、
(5)に記載の機械学習装置。
【0015】
(7) 前記再学習部は、前記スコアに応じて、前記入力画像のうち前記判断根拠情報に関わる領域に別の画像を混合して、前記機械学習モデルを再学習させる、
(5)に記載の機械学習装置。
【0016】
(8) 前記再学習部は、前記スコアに応じて、前記入力画像のうち前記判断根拠情報に関わる領域に重み付けしたマスキングを行い、前記機械学習モデルを再学習させる、
(5)に記載の機械学習装置。
【0017】
(9) 前記再学習部は、前記スコアに応じて、前記入力画像のうち前記判断根拠情報の導出に用いられた特徴量にマスクまたは重み付けを行い、前記機械学習モデルを再学習させる、
(5)に記載の機械学習装置。
【0018】
(10) 判断根拠可視化部が、入力画像の判断結果を出力する機械学習モデルの出力に影響を与えた判断根拠情報を可視化するステップと、
評価取得部が、前記判断根拠情報の評価結果を取得するステップと、
再学習部が、前記評価結果に応じて前記入力画像を修正して前記機械学習モデルを再学習させるステップと、
を備える機械学習方法。
【0019】
(11) コンピュータに、
入力画像の判断結果を出力する機械学習モデルの出力に影響を与えた判断根拠情報を可視化する手順、
前記判断根拠情報の評価結果を取得する手順、
前記評価結果に応じて前記入力画像を修正して前記機械学習モデルを再学習させる手順、
を実行させるための機械学習プログラム。
【発明の効果】
【0020】
本発明によれば、人の判断基準を詳細に入力することなく、人の判断に近い機械学習モデルを構築することが可能となる。
【図面の簡単な説明】
【0021】
図1】本実施形態に於ける機械学習装置の概略を示す構成図である。
図2】機械学習装置のハードウェア構成を示す図である。
図3】判断根拠情報のフィードバック処理のフローチャートである。
図4】比較例の判断根拠情報の入力例を説明する図である。
図5】機械学習モデルとGrad-CAM++を用いた判断根拠情報可視部の構成図である。
図6A】機械学習装置に入力された入力画像を示す図である。
図6B】判断根拠が重畳された入力画像を示す図である。
図6C】判断根拠として使った部分を消した再学習用の画像を示す図である。
図6D】判断根拠として使った部分をマスクした再学習用の画像を示す図である。
図7A】機械学習装置に入力された入力画像を示す図である。
図7B】判断根拠が重畳された入力画像を示す図である。
図7C】判断根拠として使った部分を消した再学習用の画像を示す図である。
図7D】判断根拠として使った部分をマスクした再学習用の画像を示す図である。
【発明を実施するための形態】
【0022】
以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
図1は、本実施形態に於ける機械学習装置1の概略を示す構成図である。
機械学習装置1は、機械学習モデル11と、判断根拠情報可視部12と、評価取得部13と、再学習部14を備えている。機械学習装置1は、判断根拠情報の可視化結果に対する評価結果を、機械学習モデル11にフィードバックする。
【0023】
機械学習モデル11は、入力画像に対して所定の判断を行う。判断根拠可視化部12は、例えばGrad-CAM++を用いて、機械学習モデル11の出力に影響を与えた判断根拠情報を可視化する。評価取得部13は、ユーザによる判断根拠情報の評価結果を取得する。再学習部14は、ユーザの評価結果に応じてこの入力画像を修正し、機械学習モデル11を再学習させる。これにより機械学習モデル11は、この入力画像の現在の判断根拠を弱めることができる。特に評価結果が否定的な場合、再学習部14は、この入力画像の判断根拠情報の部分をマスクして機械学習モデル11を再学習させることが望ましい。本実施形態では評価結果を入力するだけで判断根拠情報の影響度合いを下げることができ、判断根拠情報を修正する煩雑な処理が不要である。これにより人の判断基準を詳細に入力することなく、人の判断に近い機械学習モデルを構築することが可能となる。
【0024】
図2は、機械学習装置1のハードウェア構成を示す図である。
機械学習装置1は、CPU(Central Processing Unit)101と、RAM(Random Access Memory)102と、ROM(Read Only Memory)103とを備えるコンピュータである。機械学習装置1は更に、操作部104と、表示部105と、記憶部106とを備えている。
【0025】
CPU101は、RAM102を一時記憶領域として、ROM103や記憶部106に格納されたプログラムを実行するプロセッサである。CPU101が、記憶部106に格納された機械学習プログラム107を実行することで、図1で示した各機能部を具現化する。操作部104は、例えばキーボードやマウスやタッチパネルであり、ユーザの操作を取得する。表示部105は、例えば液晶ディスプレイであり、文字、図形、画像などを表示する。
【0026】
図3は、判断根拠情報のフィードバック処理のフローチャートである。
最初、ユーザは、機械学習装置1に入力画像を入力する(ステップS10)。そして機械学習モデル11が、入力画像を判断し(ステップS11)、判断根拠情報可視部12が、判断結果の正常/異常/不明等の判断根拠情報の可視化データを作成する(ステップS12)。
【0027】
次に、評価取得部13が、この判断根拠情報の可視化データを表示部105に表示する(ステップS13)。ユーザは、この判断根拠情報の可視化データを評価すると(ステップS14)、この判断根拠情報の評価結果を、操作部104を介して入力する(ステップS15)。ここで、操作部104は、判断根拠情報の評価結果の入力を受け付ける。ここで評価結果は、0から1までのスコアとして入力される。
【0028】
次に再学習部14は、入力された評価結果が低スコアであるか否かを判定する(ステップS16)。再学習部14は、入力された評価結果が低スコアならば(Yes)、ステップS17に進む。入力された評価結果が低スコアでないならば(No)、図3の処理が終了する。ここで評価結果は、例えば判断根拠情報が異常な場合は0、正常な場合は1としてその中間の実数を許容するものである。そして、入力された評価結果が低スコアであるとは、評価結果が基準値よりも低いことをいう。また評価結果は、判断根拠情報が異常な場合はNG、正常な場合はOKの二値であってもよい。このとき、入力された評価結果が低スコアであるとは、評価結果がNGのことをいう。
【0029】
ステップS17にて、再学習部14は、今の判断根拠情報の影響度合いを弱める様、判断根拠情報に関わる領域をマスクした画像を生成する。そして、再学習部14は、判断根拠情報に関わる領域をマスクした画像を機械学習モデル11に再学習させると(ステップS18)、ステップS11の処理に戻る。
【0030】
画像のマスク手法は、判断根拠情報が所定値以上の領域を単純に所定色で塗りつぶすものであってもよく、判断根拠情報の強さ、つまり判断への寄与度に応じてマスキングを行うものであってもよい。これにより、判断に対する寄与度が高い領域を脱落させることができる。
【0031】
なお、これに限られず、再学習部14は、判断根拠情報に関わる領域に別の画像を混合して再学習させてもよい。画像の混合手法として、例えば2つの画像を合成して新しいサンプルを作成するMixUp、2つの画像のうち一方の部分領域を他方にコピーするCutmixなどが考えられる。また、画像の混合手法は、2つの画像を重み付けパラメータに合わせて混合するものであってもよい。
【0032】
このように、人が見て納得のいく判断根拠情報が提示されなかった場合、機械学習装置1は、今の判断根拠情報を弱めるように機械学習モデル11に再学習させている。これにより、修正した判断根拠情報を改めて提示することなく、簡単に機械学習モデル11の調整が可能となる。
【0033】
ここで、癌の判断やグレーディングについて検討する。機械学習装置1が、癌またはその近傍の細胞ではない部分を見て診断をしていた場合、その判断結果は信用できない。その判断結果が合っていたとしても、機械学習装置1が、新しいデータを適切に判断できるか否かについては不安が残る。
専門家が機械学習装置1の判断結果を見た場合、正しく判断結果と判断根拠情報を修正することは可能だが、手間が掛かり、個人差が大きい。
【0034】
図4は、比較例の判断根拠データの入力例を説明する図である。
画像21は、例えば患部をX線撮影したものであり、点群25が癌の病理部分である。
画像22は、画像21のうち癌の部分を判断根拠情報として、フリーハンド図形26として個別に囲った例である。このような細かな病理部分をフリーハンドで囲うには極めて時間が掛かる。
【0035】
画像23は、画像21のうち癌の部分を矩形27で囲った例である。
画像24は、画像21のうち癌の部分をフリーハンド図形28で囲った例である。このように、判断根拠情報の囲い方は、人に大きく依存する。よって、「現在の判断根拠情報が違う」という情報だけで修正した方が、手間が少なく個人差の影響も受けにくいと思われる。
【0036】
図5は、機械学習モデル11とGrad-CAM++を用いた判断根拠情報可視部12の構成図である。
機械学習モデル11は、畳み込みニューラルネットワークにより入力画像を判断する。
CAM部33と、Grad-CAM++部35と、Grad-CAM部36は、図1に示した判断根拠情報可視部12であり、畳み込みニューラルネットワークの最終的な畳み込み特徴マップの特定の空間位置に関する出力の勾配を、ピクセル単位で重み付けするものである。このアプローチは、畳み込みニューラルネットワークの全体的な判断に対する特定の特徴マップの各画素の重要性を示す指標となる。重要なのは、ピクセル単位の重みの閉形式解を導き出し、ソフトマックスと指数出力活性化関数の高次導関数の正確な式を得ることである。本手法は、計算グラフの後方パスが1回で済むため、従来の勾配ベースの手法と計算上同等でありながら、より優れた視覚化を実現する。
【0037】
畳み込みニューラルネットワークの決定を可視化する方法として、デコンボリューション、ガイド付きバックプロパゲーション、CAM、Grad-CAMなどが存在するが、可視化の質の評価は、主に人間の評価や、境界ボックス(ground truth)に対する局所化誤差などの補助指標によって行われている。
【0038】
機械学習モデル11は、畳み込み層31と、最終畳み込み層32を備えて構成され、クラススコア34を出力する。AM部33と、Grad-CAM++部35と、Grad-CAM部36とは、判断根拠情報可視部12であり、最終クラスの判別型顕著性マップを出力する。
【0039】
具体的にいうと、CAM部33は、畳み込み層31が出力した中間結果を入力とする。Grad-CAM++部35とGrad-CAM部36は、最終畳み込み層32が出力したクラススコア34を、畳み込み層31の最終層311に戻したものを入力として、それぞれ最終クラスの判別型顕著性マップを出力する。ここで最終クラスの判別型顕著性マップとは、判断根拠情報である。
【0040】
《患部のX線画像の場合》
次に、例えば患者のX線画像を機械学習装置1が判定する場合について、図6Aから図6Cを参照して説明する。
図6Aは、機械学習装置1に入力された入力画像41を示す図である。
【0041】
図6Bは、判断根拠42が重畳された入力画像41を示す図である。ここで、機械学習モデル11が背景を見て判断しているので、専門家は納得できず患者にも説明できない。よって専門家は、否定的な評価結果を入力する。
【0042】
図6Cは、判断根拠情報として使った領域44を消した再学習用の画像43を示す図である。機械学習モデル11は、この画像43を再学習する。これを繰り返すことで、現在の誤った判断根拠を弱めることができる。
このように、専門家は、判断根拠42が適切か否かを評価して、適切でない場合には否定的な評価結果を入力している。そして、機械学習装置1は、評価結果が否定的な場合に、判断根拠情報として使った部分をマスクで消して再学習させている。
【0043】
《工業製品の検査の場合》
更に機械学習装置1が、工業製品を検査する場合について、図7Aから図7Cを参照して説明する。機械学習モデル11が、製品以外の領域、例えば背景の製造装置の画像やタイムスタンプなどを判断根拠にしていた場合、仮に評価結果が良かったとしても製品として信用できない。しかし、検査の過程で細かい判断根拠の入力という時間のかかる作業を行うのは難しい。
【0044】
図7Aは、機械学習装置1に入力された入力画像51を示す図である。
図7Bは、判断根拠52が重畳された入力画像51を示す図である。ここで、機械学習モデル11が製品以外の領域を見て判断しているので、専門家は、機械学習モデル11が本当に機能しているのか納得できない。よって専門家は、否定的な評価結果を入力する。
【0045】
図7Cは、判断根拠として使った領域54をマスクで消した再学習用の画像53を示す図である。機械学習モデル11は、この画像53を再学習する。これを繰り返すことで、現在の誤った判断根拠を弱めることができる。
【0046】
本発明は、特徴量の設計や詳細な情報を提供することなく、人の判断に近い機械学習モデルを構成可能である。修正の際の情報として、目指すべき正解の情報ではなく、今の判断根拠が間違っているという情報を活用する。
【0047】
(変形例)
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の(a)~(d)のようなものがある。
【0048】
(a)判断根拠情報可視部12は、Grad-CAM++に限られず、CAM、Grad-CAM、Pyramid Grad-CAM、CCAM(Common Component Activation Map)など任意のClass Activation Mapping手法を採用してもよく、限定されない。
(b)機械学習モデルの出力に影響が大きいとされた領域の影響度合いを下げる方法は、判断根拠情報に関わる領域をマスクするだけではなく、その領域に影響度(寄与度)に応じたマスキングをしてもよく、その領域に別の画像を混合してもよい。
(c)判断根拠情報の評価結果(採点)の入力は、OK/NGの二値であってもよく、実数のスコアであってもよい。
(d)機械学習モデルの出力に影響が大きいとされた領域の影響度合いを下げる方法は、判断根拠情報に用いられた特徴量にマスクするか、または特徴量の重み付けを弱めて、再学習してもよく、限定されない。
【符号の説明】
【0049】
1 機械学習装置
11 機械学習モデル
12 判断根拠情報可視部
12 判断根拠可視化部
13 評価取得部
14 再学習部
101 CPU
102 RAM
103 ROM
104 操作部
105 表示部
106 記憶部
107 機械学習プログラム
21,22,23,24 画像
25 点群
27 矩形
28 フリーハンド図形
31 畳み込み層
32 最終畳み込み層
34 クラススコア
33 CAM部
36 Grad-CAM部
311 最終層
41 入力画像
42 判断根拠
44 領域
43 画像
51 入力画像
52 判断根拠
54 領域
53 画像
図1
図2
図3
図4
図5
図6A
図6B
図6C
図6D
図7A
図7B
図7C
図7D