(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024047317
(43)【公開日】2024-04-05
(54)【発明の名称】学習支援システムおよび学習支援方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240329BHJP
G06N 20/00 20190101ALI20240329BHJP
【FI】
G06T7/00 350C
G06N20/00 130
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022152869
(22)【出願日】2022-09-26
(71)【出願人】
【識別番号】517038051
【氏名又は名称】株式会社HACARUS
(74)【代理人】
【識別番号】110000844
【氏名又は名称】弁理士法人クレイア特許事務所
(72)【発明者】
【氏名】ホー ツーハン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096DA01
5L096DA04
5L096FA69
5L096GA34
5L096HA11
5L096JA03
5L096KA04
(57)【要約】
【課題】
学習済みモデルの性能を向上させるための学習データの準備を支援することのできる学習支援システムおよび学習支援方法を提供する。
【解決手段】
学習支援システム100は、ラベル付き学習データを入力してモデルに学習させる学習部110と、テストデータを用いて学習済みモデルを評価し、評価結果が所定の基準に達しない場合に追加すべきラベル付き学習データの特徴を提案するテスト部120とを備え、テスト部120は、テストデータを学習済みモデルに推論させ、推論結果と、推論根拠を可視化するアテンションヒートマップとを出力する推論ユニット121と、アテンションヒートマップのハイライト部と、予め設定した重要要素部位とを照合し、照合結果に基づいて追加すべきラベル付き学習データの特徴を文章にして提案する学習データ提案ユニット122と、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ラベル付き学習データを入力してモデルに学習させる学習部と、
テストデータを用いて学習済みモデルを評価し、評価結果が所定の基準に達しない場合に追加すべきラベル付き学習データの特徴を提案するテスト部と、を備え、
前記テスト部は、
テストデータを前記学習済みモデルに推論させ、推論結果と、推論根拠を可視化するアテンションヒートマップとを出力する推論ユニットと、
前記アテンションヒートマップのハイライト部と、予め設定した重要要素部位とを照合し、照合結果に基づいて追加すべきラベル付き学習データの特徴を提案する学習データ提案ユニットとを備える、学習支援システム。
【請求項2】
前記学習データ提案ユニットは文章生成機能を備え、前記照合結果と、追加すべきラベル付き学習データの特徴の提案とを文章の形で出力する、請求項1に記載の学習支援システム。
【請求項3】
学習データ合成部をさらに備え、
前記学習データ合成部は、前記学習データ提案ユニットの提案に基づき、前記ハイライト部と前記重要要素部位とを一致させることのできるラベル付き学習データを合成する、請求項1または2に記載の学習支援システム。
【請求項4】
前記学習データ合成部は、前記ハイライト部と前記重要要素部位とが一致していない場合に、
ラベルが同一で、前記重要要素部位の形と色とが類似していて、前記ハイライト部の形または色とが異なる複数のラベル付き学習データを合成する、および/または、
ラベルが異なり、前記重要要素部位の形または色が異なっていて、前記ハイライト部の形と色とが類似している複数のラベル付き学習データを合成する、請求項3に記載の学習支援システム。
【請求項5】
データ管理部をさらに備え、
前記データ管理部は、
外部入力ラベル付き学習データおよび合成ラベル付き学習データの入力、管理および前記学習部への引き渡しを行う、請求項4に記載の学習支援システム。
【請求項6】
ラベル付き学習データを入力してモデルに学習させる学習工程と、
テストデータを用いて学習済みモデルを評価し、評価結果が所定の基準に達しない場合に追加すべきラベル付き学習データの特徴を提案するテスト工程と、を備え、
前記テスト工程は、
テストデータを前記学習済みモデルに推論させ、推論結果と、推論根拠を可視化するアテンションヒートマップとを出力する推論ステップと、
前記アテンションヒートマップのハイライト部と、予め設定した重要要素部位とを照合し、照合結果に基づいて追加すべきラベル付き学習データの特徴を提案する学習データ提案ステップと、を備え、
前記学習データ提案ステップは文章生成機能を備え、前記照合結果と、追加すべきラベル付き学習データの特徴の提案とを文章の形で出力する、学習支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像識別などにおいて用いられる深層学習の学習支援システムおよび学習支援方法に関する。
【背景技術】
【0002】
畳み込みネットワーク(CNN:Convolutional Neural Networks)などの深層学習の学習支援システムに関しては、多くの特許が出願されている。
例えば、特許文献1(特開2021-157735号公報)には、画像をより高い精度で識別する画像識別システムが開示されている。
特許文献1に記載の画像識別システムは、対象物の画像データを学習データとして、深層学習を用いて作成された学習済みモデルを用いて、撮像された画像データから、あらかじめ設定された形態の画像を示す画像データを識別する画像識別手段を有し、あらかじめ作成された学習済みモデルが作成されたときの特徴マップの活性化状態をGrad-CAM法を用いて可視化した活性化マップを取得する活性化マップ取得手段と、活性化マップ取得手段が取得した活性化マップに基づいて、学習データを編集する学習データ編集手段と、学習データ編集手段が編集した学習データに基づいて、深層学習を用いて新たな学習済みモデルを作成する学習済みモデル作成手段と、を有する。
【0003】
また、特許文献2(特開2020-101968号公報)には、マルチラベルを持つ画像データへのアノテーション作業量を低減するマルチラベルデータ学習支援装置が開示されている。
特許文献2に記載のマルチラベルデータ学習支援装置は、画像データに対して複数のラベルを示すマルチラベルを付与する識別器の学習を支援するマルチラベルデータ学習支援装置であって、ラベル付き画像データを記憶するラベル付き画像データDB(DataBase)、ラベル無し画像データを記憶するラベル無し画像データDB、および、複数のラベル間の関係性を示すとともに画像データに付されるマルチラベルの内容の傾向を示すラベル関連情報を記憶するラベル関連情報DBが格納される記憶部と、ラベル付き画像データを取得し、機械学習により識別器を生成する学習部と、生成した識別器を用いてラベル無し画像データに対して、マルチラベルを構成する各ラベルの推論処理を行う推論部と、推論処理で得られたラベル無し画像データについての各ラベルの推論結果と、ラベル関連情報で示されるラベル間の関連性とを比較して異なる場合に、当該ラベル無し画像データを、画像データに正解ラベル付けを行う作業であるアノテーションを必要とする画像を示すアノテーション対象画像として選定するアノテーション画像選定部と、選定されたアノテーション対象画像を表示装置に表示させ、当該画像データの正解ラベルの入力を受け付け、受け付けた正解ラベルが付された画像データを、ラベル付き画像データとしてラベル付き画像データDBに記憶するアノテーション処理部と、を備えることを特徴とする。
【0004】
また、特許文献3(再表2020/153493号公報)には、医用画像に対して階層性及び関係性を持ったアノテーション情報の付与を可能にするアノテーション支援装置が開示されている。
特許文献3に記載のアノテーション支援装置は、医用画像に関するアノテーション情報の生成を支援するアノテーション支援装置であって、医用画像は、各医用画像が有する属性に基づいて、一の医用画像を1つのノードとして、医用画像のノードが属する医用画像階層、医用画像階層の上位の階層である上位階層、及び、医用画像階層の下位の階層である下位階層のうちの少なくとも1つの階層を含む階層構造により管理され、アノテーション支援装置は、医用画像を取得する画像取得部と、医用画像を表示させる表示部と、医用画像のノード及び階層構造において医用画像のノードに関連付けられているノードのいずれかに対する指定と共に、指定されたノードに関する情報であるアノテーション情報の入力を受け付けるアノテーション入力受付部と、アノテーション情報を、指定されたノードに関連付けて記憶させるアノテーション格納部と、を備える。
【0005】
また、特許文献4(特開2021-033494号公報)には、アノテーションデータを設定する作業に費やされる作業コストを削減するアノテーション支援方法が開示されている。
特許文献4に記載のアノテーション支援方法は、作業者が画像データにアノテーションデータを設定する作業をコンピュータが支援するアノテーション支援方法であって、第1画像データに対してアノテーションデータを設定する第1作業を作業者に行わせたときの第1作業時間を計測してメモリに記録し、所定の認識器により第1画像データを認識させた認識結果に基づいて設定した事前アノテーションデータに対して、事前アノテーションデータを修正する第2作業を作業者に行わせたときの第2作業時間を計測してメモリに記録し、メモリに記録された第1作業時間と第2作業時間とに基づいて第1作業と第2作業との速さを比較し、第1作業が第2作業よりも速い場合、事前アノテーションデータが設定されていない第2画像データに対するアノテーションデータの設定を作業者に要求し、第2作業が第1作業よりも速い場合、認識器により第2画像データを認識させた認識結果に基づいて設定した事前アノテーションデータの修正を作業者に要求する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2021-157735号公報
【特許文献2】特開2020-101968号公報
【特許文献3】再表2020/153493号公報
【特許文献4】特開2021-033494号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
現在のCNNなどの深層学習におけるモデル学習においては、人がラベル付き学習データを集めてモデルに学習させ、その後テストデータを用いて学習済みモデルの性能評価を確認するのが基本のプロセスとなっている。
しかし、深層学習では判断の過程がブラックボックスであるため、学習済みモデルの性能評価において所定の性能を満たさない場合に、なぜ性能が悪いのか、どうすれば性能を上げることができるのか、そのためにはどんなデータを用意すればいいのかが分からないことが多い。
【0008】
特許文献1の画像識別システムでは、特徴マップの活性化状態を可視化した活性化マップに基づいて学習データを編集することによって新たな学習済みモデルを作成している。
しかし、特許文献1に記載の学習データの編集は、学習データのクラス分類の数の変更、クラス分類の構成の変更、クラス分類間での学習データの入れ替え、いずれかのクラス分類に含まれる学習データの削除のみであり、新たな学習データの追加は含まれないことから、新たな学習済みモデルの性能向上には限界があった。
【0009】
特許文献2のマルチラベルデータ学習支援装置は、マルチラベルの付与された学習データで学習した識別器にテストデータを入力して得られた推論結果が、予め記憶されたラベル関連情報で示されるラベル間の関連性と、を比較して異なる場合に、当該ラベル無し画像データをアノテーション対象画像として選定するというものであるが、学習データがマルチラベルでない場合には使用できない。
【0010】
特許文献3のアノテーション支援装置は、人が医用画像に対してアノテーション情報の生成をする場合に、階層性及び関係性を持ったアノテーション情報の付与を可能にするアノテーション支援装置であるが、どのような医用画像を準備するとより正確な学習ができるか等についての支援を行うことはできない。
【0011】
特許文献4のアノテーション支援方法は、画像データにアノテーションデータを設定する場合に、最初から作業者がアノテーションデータを設定する場合と、所定の認識器により画像データを認識させた認識結果に基づいて設定した事前アノテーションデータに対して、事前アノテーションデータを修正する場合とでどちらが速いかを比較し、速い方を選択するものであるが、やはり、どのような画像データを準備するとより正確な学習ができるか等についての支援を行うことできない。
【0012】
本発明の主な目的は、学習済みモデルの性能評価において所定の性能を満たさない場合に、なぜ性能が悪いのか、どうすれば性能を上げることができるのか、そのためにはどのようなデータを用意すればいいのかについて支援することのできる学習支援システムおよび学習支援方法を提供するものである。
本発明の他の目的は、学習済みモデルの性能を向上させるためのラベル付き学習データを合成することにより、効率的に学習済みモデルの性能を向上させることのできる学習支援システムおよび学習支援方法を提供するものである。
【課題を解決するための手段】
【0013】
(1)
一局面に従う学習支援システムは、ラベル付き学習データを入力してモデルに学習させる学習部と、テストデータを用いて学習済みモデルを評価し、評価結果が所定の基準に達しない場合に追加すべきラベル付き学習データの特徴を提案するテスト部とを備え、テスト部は、テストデータを学習済みモデルに推論させ、推論結果と推論根拠を可視化するアテンションヒートマップとを出力する推論ユニットと、アテンションヒートマップのハイライト部と予め設定した重要要素部位とを照合し、照合結果に基づいて追加すべきラベル付き学習データの特徴を提案する学習データ提案ユニットと、を備える。
【0014】
深層学習では、多くのラベル付き学習データを集めてモデルに学習させることによって、正確な学習済みモデルを構築する。しかし、深層学習では、判断の根拠がブラックボックスであり、学習済みモデルの性能評価において所定の性能を満たさない場合に、なぜ性能が悪いのか、どうすれば性能を上げることができるのか、そのためにはどんなデータを用意すればいいのかが分からなかった。
しかし、近年、CNNなどの深層学習の判断根拠をハイライトする方法として、CAM(Class Activation Map)が開発され、学習済みモデルの判断の根拠となる個所をアテンションヒートマップとして出力することができるようになった。
一方、多くの場合、ラベル付けするための判断に際して重要と考える個所(以下、重要要素部位ともいう)は明確である。
したがって、アテンションヒートマップのハイライト部と重要要素部位とが一致していれば学習済みモデルの判断は正確であると考えられ、逆に、ハイライト部と重要要素部位とが一致していない場合にはモデルの学習に用いたラベル付き学習データが適切でない可能性がある。
【0015】
一局面に従う学習支援システムは、学習済みモデルの性能評価において所定の性能を満たさない場合に、アテンションヒートマップのハイライト部と予め設定した重要要素部位とを照合し、照合結果に基づいて追加すべきラベル付き学習データの特徴を提案する。
例えば、工事作業者の画像を入力して作業者がヘルメットを被っているかどうかを学習済みモデルが判断する場合、重要要素部位は作業者の頭部である。もし、アテンションヒートマップのハイライト部が作業者の頭部ではなく腕部および/または、脚部になっている場合には、アテンションヒートマップのハイライト部が頭部に変更されるような、ラベル付き学習データを追加する必要がある。
上記ヘルメットの例では、例えば、腕部および/または、脚部の形状ないし姿勢の異なる複数の画像のそれぞれについて、ヘルメットを被っている画像とヘルメットを被っていない画像を準備して学習させることで、学習済みモデルのアテンションヒートマップのハイライト部を作業者の頭部に移動させ、重要要素部位と一致させることができる。
【0016】
(2)
第2の発明に係る学習支援システムは、一局面に従う学習支援システムにおいて、学習データ提案ユニットは文章生成機能を備え、照合結果と追加すべきラベル付き学習データの特徴の提案とを文章の形で出力してもよい。
【0017】
例えば、上記ヘルメットの例でいえば、「ヘルメット装着検査において間違った部位(胴体部)を使ったことを発見した。胴体部のバリエーションを増やすことを推奨する」などの文章を出力する。このような文章の形で出力することにより、AI等に詳しくない担当者でも容易に内容を理解することができる。
この場合、「ヘルメット装着」は既に入力されていると考えられるが、「胴体部」「腕部」「脚部」等については、アテンションヒートマップのハイライト部が「胴体部」「腕部」「脚部」であることを学習支援システムが推論する必要がある。このヒートマップのハイライト部の部位の推論には、例えば人体部位推論モデルを使用することができる。
【0018】
(3)
第3の発明に係る学習支援システムは、一局面または第2の発明に係る学習支援システムにおいて、学習データ合成部をさらに備え、学習データ合成部は、学習データ提案ユニットの提案に基づき、ハイライト部と重要要素部位とを一致させることのできるラベル付き学習データを合成してもよい。
【0019】
本発明の学習支援システムでは、推論ユニットがアテンションヒートマップのハイライト部と予め設定した重要要素部位とを照合し、照合結果に基づいて追加すべきラベル付き学習データの特徴を提案するので、学習データ合成部は、提案に合致した特徴を備えたラベル付き学習データを合成する。そして、学習データ合成部で合成されたラベル付き学習データを使用してモデルを再学習させることにより、効率的にモデルの再学習を行い、学習済みモデルの性能を向上させることができる。
【0020】
(4)
第4の発明に係る学習支援システムは、第3の発明に係る学習支援システムにおいて、学習データ合成部は、ハイライト部と重要要素部位とが一致していない場合に、ラベルが同一で、重要要素部位の形と色とが類似していて、ハイライト部の形または色が異なる複数のラベル付き学習データを合成してもよいし、および/または、ラベルが異なり、重要要素部位の形または色が異なっていて、ハイライト部の形と色とが類似している複数のラベル付き学習データを合成してもよい。
【0021】
上記ヘルメットの例では、例えば、腕部および/または、脚部の形状ないし姿勢の異なる複数の画像のそれぞれについて、ヘルメットを被っている画像とヘルメットを被っていない画像を準備することが望ましい。
または、腕部および/または、脚部の形状ないし姿勢が類似している画像に対してヘルメットを被っている画像とヘルメットを被っていない画像を準備してもよいし、ヘルメットを被っている画像またはヘルメットを被っていない画像に対して、複数の腕部および/または、脚部の形状ないし姿勢が異なる画像を準備してもよい。
この場合、学習データ合成部は、腕部および/または、脚部の形状ないし姿勢の異なる複数の画像と、ヘルメットを被っている頭部の画像およびヘルメットを被っていない頭部の画像とを準備し、腕部および/または、脚部の形状ないし姿勢の異なる複数の画像と2種類の頭部の画像のそれぞれとを合成し、対応するラベルを付与することにより、ラベル付き学習データとすることができる。なお、この場合の画像の合成は、その境界部分が多少不自然なものであっても、CNNなどのモデルは正しく学習できることが分かっている。
【0022】
(5)
第5の発明に係る学習支援システムは、第4の発明に係る学習支援システムにおいて、データ管理部をさらに備え、データ管理部は、外部入力ラベル付き学習データおよび合成ラベル付き学習データの入力、管理および学習部への引き渡しを行ってもよい。
【0023】
学習支援システムがデータ管理部を備えることによって、学習データの管理、学習部への引き渡しを効率的、かつ確実に行うことができる。
【0024】
(6)
他の局面に従う学習支援方法は、ラベル付き学習データを入力してモデルに学習させる学習工程と、テストデータを用いて学習済みモデルを評価し、評価結果が所定の基準に達しない場合に追加すべきラベル付き学習データの特徴を提案するテスト工程と、を備え、テスト工程は、テストデータを学習済みモデルに推論させ、推論結果と、推論根拠を可視化するアテンションヒートマップとを出力する推論ステップと、アテンションヒートマップのハイライト部と、予め設定した重要要素部位とを照合し、照合結果に基づいて追加すべきラベル付き学習データの特徴を提案する学習データ提案ステップと、を備え、学習データ提案ステップは文章生成機能を備え、照合結果と、追加すべきラベル付き学習データの特徴の提案とを文章の形で出力する。
【0025】
他の局面に従う学習支援方法は、一局面に従う学習支援システムに対応する学習支援方法の発明である。学習済みモデルの評価結果が所定の基準に達しない場合に、この学習支援方法で提案された特徴を備えたラベル付き学習データを追加することにより、学習済みモデルの性能を向上させることができる。
また、この学習支援方法では、照合結果と提案とを文章の形で出力することにより、AI等に詳しくない担当者でも容易に内容を理解することができる。
【図面の簡単な説明】
【0026】
【
図1】深層学習におけるモデル学習のサイクルを示す模式図である。
【
図2】学習支援システムの構成を示す模式的ブロック図である。
【
図3】工事作業者の安全確認を推論する場合の重要要素部位設定表の一例である。
【
図4】ラベル付き学習データ提案の文章生成のステップを示す模式図である。
【
図5】推論ユニットの構成の一例(Score-CAM)を示す模式図である。
【
図6】
図6(a)は推論ユニットへの入力画像であり、
図6(b)は推論ユニットから出力されるアテンションヒートマップの一例を示す模式図である。
【
図7】
図7(a)は人体部位推論モデルへの入力画像、
図7(b)は人体部位推論モデルの骨格を示す画像、
図7(c)は部位ごとに彩色された人体部位推論モデルの出力画像の一例を示す模式図である。
【
図8】
図8(a)は原画像であり、
図8(b)は原画像の頭部にヘルメットを被せた合成画像である。
【
図9】ラベル付き学習データに用いる服装合成の一例を示す模式図である。
【
図10】学習支援方法の一例を示す模式的フローチャートである。
【発明を実施するための形態】
【0027】
以下、図面を参照しつつ、本発明の実施形態について説明する。以下の説明では、同一の部品には同一の符号を付す。また、同符号の場合には、それらの名称および機能も同一である。したがって、それらについての詳細な説明は繰り返さないものとする。
【0028】
[実施形態]
(深層学習におけるモデル学習のサイクル)
図1は、深層学習におけるモデル学習のサイクルを示す模式図であり、
図2は学習支援システム100の構成を示す模式的ブロック図である。
深層学習では、まずラベル付きデータを準備し(
図1のラベル付学習・テストデータ準備フェーズ20)、その一部をラベル付き学習データとして深層学習のモデルに入力し、学習させる(モデル学習フェーズ30)。
次に学習済みモデルに、準備したラベル付きテストデータを入力して学習済みモデルの性能を評価する(性能評価フェーズ40)。具体的には、ラベル付きテストデータのラベルと深層学習の判断とがどの程度一致しているかを確認する。
例えば、作業者がヘルメットを被っているかどうかを深層学習に判断させる場合には、各テストデータの画像にヘルメットを被っているかどうかを示すラベルを付けておいて、それぞれのデータのラベルと学習済みモデルの出力とを比較する。
そして、ラベルも学習済みモデルの判断もヘルメットを被っている場合は真陽性(TP)、ラベルではヘルメットを被っていないのに学習済みモデルの判断ではヘルメットを被っている場合は偽陽性(FP)、ラベルではヘルメットを被っているのに学習済みモデルの判断ではヘルメットを被っていない場合は偽陰性(FN)、ラベルも学習済みモデルの判断もヘルメットを被っていない場合は真陰性(TN)としたとき、
正解率=(TP+TN)/(TP+TN+FP+FN)
などの指標により、学習済みモデルの性能を評価する(性能評価フェーズ40)。
【0029】
AIの知識のない担当者は学習済みモデルの性能評価結果を受け取り、その性能が所定の基準に達している場合はモデルの学習は完了する(判断フェーズ10)。
しかし、性能が所定の基準に達していない場合は学習済みモデルの改善が必要になる。そして、多くの場合、ラベル付き学習データを追加することにより学習済みモデルの改善が可能になる。しかし、通常、深層学習のモデルの判断はブラックボックスであるため、どのような学習データを追加すればよいかは、担当者には分からない。
【0030】
本発明は、このような課題を解決するための学習支援システム100の発明であって、学習支援システム100は、学習済みモデルの判断の根拠をアテンションヒートマップとして可視化し、アテンションヒートマップのハイライト部210と予め設定した重要要素部位とを照合することで、なぜ学習済みモデルの判断が誤っているかを明確にし、さらに、どのような学習データを追加すればよいかを担当者に提案する。
この場合、アテンションヒートマップを見ることでどのような学習データを追加すればよいかを判断することは可能ではあるが、より確実で効率の良い判断を促すために、本発明では、人体部位推論モデルを用いてヒートマップのハイライト部210が人体のどの部位に当たるかを推論し、予め設定した重要要素部位と照合することで、現在の学習済みモデルの問題点と追加すべきラベル付き学習データの特徴の提案とを担当者に文章で提案する。
【0031】
また、本発明の学習支援システム100ではラベル付き学習データの画像およびその他の画像を保存しており、それらの画像を合成して追加すべき学習データを作成する機能も備えている。したがって、学習支援システム100では追加すべき学習データを開発担当者に言葉で提案するだけでなく、自ら追加すべき学習データを合成し、合成した学習データを用いてモデルを再学習させることもできる。
図1の点線で記載された、ヒートマップ・学習データ提案、および合成データが本発明の学習支援システム100において追加された機能である。
【0032】
(学習支援システム100の構成)
図2に、学習支援システム100の模式的ブロック図を示した。学習支援システム100は学習部110、テスト部120、学習データ合成部130、データ管理部140を備える。
図2において、学習部110は畳み込みニューラルネットワーク(CNN)などの深層学習機能を備え、ラベル付き学習データを入力することで学習することができる。学習済みモデルはテスト部120に提供される。
テスト部120は推論ユニット121および学習データ提案ユニット122を備える。
推論ユニット121は、テストデータが入力されると、学習済みモデルを用いてそれぞれのテストデータの推論結果を出力し、それぞれのデータのラベルと学習済みモデルの出力とを比較して、正解率などの指標により学習済みモデルの性能を評価するとともに、Score-CAMなどを用いて推論根拠を可視化するアテンションヒートマップを出力する。学習済みモデルの性能評価結果とアテンションヒートマップとは学習データ提案ユニット122に提供される。
【0033】
学習データ提案ユニット122はアテンションヒートマップのハイライト部210と予め設定した重要要素部位とを照合し、照合結果に基づいて追加すべきラベル付き学習データの特徴を提案する。
図3に工事作業者の安全確認の有無を推論する場合の重要要素部位設定表の一例を示す。例えば、ラベルが「ヘルメット装着」であれば、重要要素部位は頭部100%であり、アテンションヒートマップのハイライト部は頭部になるはずである。また、ラベルが「肌露出」であれば、重要要素部位は、胴体部33%、腕部33%、足部33%であり、この場合は、ハイライト部が胴体部、腕部、および足部になるはずである。
また、通常、予め設定した重要要素部位は例えば頭部、足部といった各部位の名前で指定されているのに対して、アテンションヒートマップのハイライト部210は画像上の部位として表示されるため、直接の照合は困難である。このため、学習データ提案ユニット122は人体部位推論モデルを備え、アテンションヒートマップのハイライト部210に対応する画像上の部位を予め設定した重要要素部位と照応できる部位の名前で出力し、例えば「ヘルメット装着検査において間違った部位(胴体部)を使ったことを発見した、胴体部のバリエーションを増やすことを推奨する」といった文章を作成する。
図4に、「重要要素部位とハイライト部との照合」と「ラベル付き学習データ提案テンプレート」とを組み合わせて「ラベル付き学習データの提案」の文章を作成するステップについて記載した。
学習データ合成部130は、学習データ提案ユニット122の提案に基づき、アテンションヒートマップのハイライト部210と予め設定した重要要素部位とを一致させることのできるラベル付き学習データを合成する。
データ管理部140は、外部入力ラベル付き学習データ・テストデータおよび合成ラベル付き学習データ・テストデータの入力、管理および学習部110への引き渡しを行う。
【0034】
(アテンションヒートマップの生成)
近年、CNNなどの画像認識のモデルで,特定のクラスに寄与した入力領域をハイライトする手法として、いろいろなCAM(Class Activation Map)が開発されている。本発明では推論根拠を可視化するアテンションヒートマップを作成するために、Score-CAMを用いている。Score-CAMに関しては、CVPR(Computer Vision and Pattern Recognition:2020年6月16日-2020年6月18日開催)で発表された、Score-CAM:Score-Weighted Visual Explanations for Convolutional Neural Networks(Haofan Wang他著)に詳細が記載されている。
図5に推論ユニット121の構成の一例として、上記発表で提案されたScore-CAMのパイプラインを示す。アクティベーションマップはまずフェーズ1で最初に抽出され、その後、各アクティベーションは元のイメージのマスクとして機能し、ターゲットクラスのフォワードパッシングスコアを取得する。フェーズ2はN回繰り返される。ここで、Nはアクティベーションマップの数である。最後に、結果は、スコアベースの重みと活性化マップの線形結合によって生成できる。フェーズ1とフェーズ2とは、特徴抽出器として同じCNNモジュールを共有する。
なお、本実施形態では、アテンションヒートマップの形成に上記Score-CAMを用いたが、他のCAM、例えばGrad-CAMなどを用いることもできる。
【0035】
図6にアテンションヒートマップの一例を示す。
図6(a)はアテンションヒートマップを生成する推論ユニット121の入力画像であり、
図6(b)は推論ユニット121の出力画像である。出力画像は入力画像にアテンションヒートマップを重畳しており、特定のラベル(クラスに相当)の推論に寄与した領域がハイライト部210としてハイライトされている。
図6(b)の場合、「ヘルメット装着」というラベルに対応したアテンションヒートマップが重畳されているため、本来であれば作業者の頭部がハイライトされるべきところ、アテンションヒートマップのハイライト部210が、作業者の胴体部(腕部および脚部)となっており、モデルの学習が十分でないことがわかる。
【0036】
このように、ハイライトされるべき部位が異なっている場合、熟練した担当者であれば直接アテンションヒートマップを見て、ラベル付き学習データの何が悪いか、また、どんなデータを用意すればいいかを考えることもできるが、アテンションヒートマップをよく知らない一般の担当者の場合は、ラベル付き学習データの何が悪いか、また、どんなデータを用意すればいいかを考えることは困難である。
このため、本実施形態では、
図4に記載のように、文章生成機能を有する学習データ提案ユニット122を備え、アテンションヒートマップのハイライト部210が人体のどの部位に相当するかを、人体部位推論モデルを用いて推論し、推論した人体部位と利用者があらかじめ設定した重要要素部位とを照合し、照合結果に基づいて追加すべきラベル付き学習データ・テストデータの特徴を、ラベル付き学習データ提案テンプレートを用いて、文章にして提案する。
【0037】
人体部位の推論は例えば、Kevin Lin他著の“Cross-Domain Complementary Learning Using Pose for Multi-Person Part Segmentation”(IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY 2019年7月19日発行)に基づいて行うことができる。
図7には上記論文における人体部位推論モデルの入力画像と出力との一例を示す。
図7において、(a)は人体部位推論モデルの入力画像、(b)は人体部位推論モデルの骨格を示す画像、(c)は人体部位推論モデルの出力画像であり、部位ごとに特定の色で彩色されている。なお、
図7は白黒のため、各部位の色が区別しにくいが、実際の出力はカラー画像であり、各部位の色は区別可能である。上記論文では、入力画像からまずその骨格表現を学習することにより、入力画像を精度よく部位に分類することができる。
学習データ提案ユニット122は、例えば、
図6の例のように重要要素部位が頭部であるのに対してアテンションヒートマップのハイライト部210が腕部、脚部である場合には、ラベルが同一で、頭部の形と色とが類似していて、腕部および脚部の形または色とが異なる複数のラベル付き学習データを準備する、および/または、ラベルが異なり、頭部へのヘルメットの有無が異なっていて、腕部および脚部の形と色とが類似している複数のラベル付き学習データを準備するよう、提案することが望ましい。
【0038】
(学習データ合成部130)
学習データ合成部130は、学習データ提案ユニット122の提案に基づき、アテンションヒートマップのハイライト部210と予め設定した重要要素部位とを一致させることのできるラベル付き学習データを合成する。
具体的には、例えば、ラベルが同一で、重要要素部位の形と色とが類似していて、ハイライト部210の形または色とが異なる複数のラベル付き学習データを合成する、および/または、ラベルが異なり、重要要素部位の形または色が異なっていて、ハイライト部210の形と色とが類似している複数のラベル付き学習データを合成する。
図8には合成されたラベル付き学習データの一例を示す。
図8(a)は原画像であり、ヘルメットを被っていない作業者が撮影されている。一方、
図8(b)は原画像の頭部にヘルメットを被せた合成画像である。これらの画像を(a)は「ヘルメット装着無し」、(b)は「ヘルメット装着あり」のラベルを付けて学習部110に入力し、モデルに学習させることによってアテンションヒートマップのハイライト部210を予め設定した重要要素部位と一致させることができる。
なお、
図8の例ではラベルの異なる画像を合成しているが、逆に、ラベルが同じで、重要要素部位以外の異なる画像を合成してもよい。さらに、これら2種類の両方の画像を合成して学習部110に入力し、学習させることがより望ましい。
【0039】
ラベルが同じで、重要要素部位以外の異なる画像を合成する場合には、構造的一貫性を備えたファッション合成により、作業者の服装を変更することも1つの選択肢である。
例えば、2017 IEEE International Conference on Computer Vision (ICCV)で発表された、“Be Your Own Prada: Fashion Synthesis with Structural Coherence”(S.Zhu他著)には、人物の入力画像と服装の変更内容が与えられた場合に、着用者とそのポーズを変更せずに、必要に応じてその人を「ドレスアップ」する方法が記載されている。
この場合、まず、着用者のポーズに従うもっともらしいセマンティックセグメンテーションマップを生成し、次に、服装の変更内容に基づき、このマップ上で調整された正確な領域とテクスチャで最終的な画像をレンダリングする。
図9に上記論文に記載の服装合成の一例を示す。
図9の例では、左の原画像に対して、服装の変更内容を文章で指示することにより、右図のような画像を合成することができる。
上記方法は一例であるが、このような作業者の服装の色、あるいは形を変更した画像データを合成し、合成したデータでモデルを学習させることにより、学習済みモデルの性能を向上させることができる。なお、
図9は白黒のため、各部位の色が識別できないが、原論文はカラー画像である。
【0040】
(学習データ支援方法のフローチャート)
図10は学習支援方法の一例を示す模式的フローチャートである。以下、
図10に沿って学習支援方法のフローを説明する。
・データ取りこみ(ステップS1):モデル学習に適する画像などのデータを取りこむ。この場合、データに必要なラベルが付いている方が望ましい。
・前処理・ラベル付け(ステップS2):画像のトリミングなどの前処理を行う。データにラベルが付いていない場合は各データに適切なラベルを付与する。
・データ分割(ステップS3):ラベル付きデータをラベル付き学習データとラベル付きテストデータに分割し、それぞれ、学習部110とテスト部120とに送付する。
・モデル学習(ステップS4):学習部110により、入力されたラベル付き学習データを用いてモデルを学習させ、学習済みモデルをテスト部120に送付する。ステップS1からS4までが学習工程に相当する。
・モデル評価(ステップS5):推論ユニット121によりテストデータを学習済みモデルに推論させ、正解率などの評価結果をまとめる。
・評価結果OK?(ステップS6):正解率等の評価結果が所定のレベルに達している場合は終了し、達していない場合は学習データ・テストデータ追加(ステップS7-S12)に進む。
【0041】
・アテンションヒートマップ作成(ステップS7):推論ユニット121により、学習済みモデルとテストデータとを用いて推論根拠を可視化するアテンションヒートマップを作成する。アテンションヒートマップの作成では、Score-CAMを用いることが望ましいが、他のCAM、例えばGrad-CAMなどを用いることもできる。ステップS5からS7までが推論ステップに相当する。
・ハイライト部・重要部位照合(ステップS8):アテンションヒートマップのハイライト部210とあらかじめ設定した重要要素部位とを照合する。この場合、人体部位推論モデルを用いて、アテンションヒートマップのハイライト部210が、腕部、脚部など人体部位のどの部分に相当するかを推論する。
・学習・テストデータ提案(ステップS9):ハイライト部210と重要要素部位とが異なっている場合、ハイライト部210と重要要素部位とが一致するようなラベル付き学習データを追加することを提案する。例えば、
図6の例のように重要要素部位が頭部であるのに対してアテンションヒートマップのハイライト部210が腕部、脚部である場合には、ラベルが同一で、頭部の形と色とが類似していて、腕部および脚部の形または色とが異なる複数のラベル付き学習データを準備する、および/または、ラベルが異なり、頭部へのヘルメットの有無が異なっていて、腕部および脚部の形と色とが類似している複数のラベル付き学習データを準備するよう、提案することが望ましい。上記提案においては、
図4に記載のように、重要要素部位とハイライト部との照合結果とラベル付き学習データ提案テンプレートとを組み合わせて、上記提案の文章を作成し、担当者に提示する。
ステップS8からS9までが学習データ提案ステップに相当する。また、ステップS5からS9までがテスト工程に相当する。
・データ合成?(ステップS10):学習・テストデータ提案を受けて、担当者は提案に沿った学習・テストデータを自ら準備するか、もしくは学習支援システム100に合成させるかを判断する。
・追加データ合成(ステップS11):学習データ合成部130により、ハイライト部210と重要要素部位とが一致するような追加ラベル付き学習データ・テストデータを合成する。具体的には、例えば、ラベルが同一で、重要要素部位の形と色とが類似していて、ハイライト部210の形または色とが異なる複数のラベル付き学習データ・テストデータを合成する、および/または、ラベルが異なり、重要要素部位の形または色が異なっていて、ハイライト部210の形と色とが類似している複数のラベル付き学習データ・テストデータを合成する。合成したデータを用いて、再度、データ分割(ステップS3)からのフローを繰り返す。ステップS10からS11までが学習データ合成工程に相当する。
・追加データ準備(ステップS12):担当者が提案に沿った学習・テストデータを自ら準備することを選択した場合には、学習・テストデータ提案の内容に沿ったデータを準備し、適切なラベルを付与する。追加したデータを用いて、再度、データ分割(ステップS3)からのフローを繰り返す。
【0042】
以上のフローを繰り返すことにより、学習済みモデルの性能評価において所定の性能を満たさない場合に、なぜ性能が悪いのか、どうすれば性能を上げることができるのか、そのためにはどんなデータを用意すればいいのかが明確になり、学習済みモデルの性能を向上させることができる。
また、学習データ合成部130を用いることにより、追加すべき学習データおよびテストデータを合成し、効率的に学習済みモデルの性能を向上させることができる。
【0043】
本発明において、学習部110が「学習部」に相当し、テスト部120が「テスト部」に相当し、推論ユニット121が「推論ユニット」に相当し、学習データ提案ユニット122が「学習データ提案ユニット」に相当し、学習データ合成部130が「学習データ合成部」に相当し、学習支援システム100が「学習支援システム」に相当し、データ管理部140が「データ管理部」に相当し、ハイライト部210が「ハイライト部」に相当する。
【0044】
本発明の好ましい一実施形態は上記の通りであるが、本発明はそれだけに制限されない。本発明の精神と範囲から逸脱することのない様々な実施形態が他になされることは理解されよう。さらに、本実施形態において、本発明の構成による作用および効果を述べているが、これら作用および効果は、一例であり、本発明を限定するものではない。
【符号の説明】
【0045】
100 学習支援システム
110 学習部
120 テスト部
121 推論ユニット
122 学習データ提案ユニット
130 学習データ合成部
140 データ管理部
210 ハイライト部