(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024050111
(43)【公開日】2024-04-10
(54)【発明の名称】画像認識装置、画像認識方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240403BHJP
【FI】
G06T7/00 350B
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022156742
(22)【出願日】2022-09-29
(71)【出願人】
【識別番号】000233055
【氏名又は名称】株式会社日立ソリューションズ
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】ガカール アキール
(72)【発明者】
【氏名】金丸 隆
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA02
5L096DA01
5L096DA02
5L096FA16
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
【課題】画像認識用の機械学習モデルについて、ある特定のドメインで得られた機械学習モデルを他のドメインでも利用可能な画像認識装置および画像認識方法を実現する。
【解決手段】画像認識装置100は、複数のドメインのいずれかに属する画像を取得する画像取得部110と、画像から所定の対象物に関する特徴量を抽出する特徴量抽出部120と、特徴量を画像が属するドメインに適応させたドメイン適応特徴量を算出するドメイン適応部160と、特徴量に基づいて対象物に関する補助特徴量を算出する補助タスク部150と、特徴量に基づいて画像から対象物を認識する物体認識部130とを備える。画像認識装置100は、ドメイン適応部160および補助タスク部150を用いて特徴量抽出部120の学習を行う。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数のドメインのいずれかに属する画像を取得する画像取得部と、
前記画像から所定の対象物に関する特徴量を抽出する特徴量抽出部と、
前記特徴量を前記画像が属するドメインに適応させたドメイン適応特徴量を算出するドメイン適応部と、
前記特徴量に基づいて前記対象物に関する補助特徴量を算出する補助タスク部と、
前記特徴量に基づいて前記画像から前記対象物を認識する物体認識部と、を備え、
前記ドメイン適応部および前記補助タスク部を用いて前記特徴量抽出部の学習を行う、画像認識装置。
【請求項2】
請求項1に記載の画像認識装置において、
前記特徴量抽出部の学習では、前記ドメイン適応特徴量に対して前記ドメイン適応部が計算するドメイン適応損失に基づく敵対的学習を行う、画像認識装置。
【請求項3】
請求項1に記載の画像認識装置において、
前記特徴量に基づいて前記画像上の注目領域を特定し、前記注目領域を表す注意マップを生成する注意マップ生成部を備え、
前記補助タスク部は、前記注意マップを用いて前記補助特徴量を算出する、画像認識装置。
【請求項4】
請求項1に記載の画像認識装置において、
前記ドメイン適応部は、複数のソースドメインおよび複数のターゲットドメインの各組み合わせについて前記ドメイン適応特徴量を算出する、画像認識装置。
【請求項5】
請求項1に記載の画像認識装置において、
前記物体認識部は、前記画像上で前記対象物の領域を特定し、前記領域における前記対象物の認識結果に対する確からしさを算出する、画像認識装置。
【請求項6】
請求項1に記載の画像認識装置において、
前記特徴量抽出部の学習では、前記ドメイン適応部を用いて前記ドメイン適応特徴量を算出する第1の処理と、前記補助タスク部を用いて前記補助特徴量を算出する第2の処理と、をそれぞれ複数回ずつ実施する、画像認識装置。
【請求項7】
請求項1に記載の画像認識装置において、
前記ドメイン適応部は、前記ドメイン適応特徴量に基づいてドメイン適応損失を計算し、
前記補助タスク部は、前記補助特徴量に基づいて補助タスク損失を計算し、
前記物体認識部は、前記対象物の認識結果に基づいて認識損失を計算し、
前記ドメイン適応部、前記補助タスク部および前記物体認識部からそれぞれフィードバックされる前記ドメイン適応損失、前記補助タスク損失および前記認識損失に基づいて、前記特徴量抽出部の学習を行う、画像認識装置。
【請求項8】
コンピュータを用いた画像認識方法であって、
前記コンピュータにより、
複数のドメインのいずれかに属する画像を取得し、
機械学習モデルを用いて前記画像から所定の対象物に関する特徴量を抽出し、
前記特徴量を前記画像が属するドメインに適応させたドメイン適応特徴量を算出し、
前記特徴量に基づいて前記対象物に関する補助特徴量を算出し、
前記特徴量に基づいて前記画像から前記対象物を認識し、
前記ドメイン適応特徴量および前記補助特徴量の算出結果を用いて前記機械学習モデルの学習を行う、画像認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習により画像から対象物の検出を行う画像認識において、異なるドメイン間での学習データの利用を実現する装置および方法に関する。
【背景技術】
【0002】
近年、機械学習による画像認識を用いて画像から特定の対象物を検出し、その検出結果を様々な用途に利用することが行われている。例えば、建設業等の現場作業において、ビデオカメラを用いて作業員の周囲に存在する様々な物体を検出し、その検出結果に基づいて作業環境が安全であるか否かを判断することにより、作業員の安全を確保する手法などが提案されている。
【0003】
一般的に、機械学習による画像認識では、特定の対象物について予め学習された機械学習モデルを用いて、入力された画像中に存在する物体が対象物であるか否かを識別する。しかしながら、機械学習モデルがある特定のドメインについて得られたものである場合、この機械学習モデルを別のドメインに適用すると、機械学習モデルが正しく動作せず、そのため適正な画像認識結果を得ることができないという課題が存在する。
【0004】
上記の課題を解決する手法として、ドメイン適応と呼ばれる技術が考案されている。ドメイン適応とは、ターゲットドメインに属する画像とソースドメインに属する画像との差分が小さくなるように学習を行うことで、ソースドメインにおいて得られた機械学習モデルを、ソースドメインとは異なるターゲットドメインにも適用できるようにする技術である。例えば特許文献1には、異なるビデオカメラによってそれぞれ撮影された2つの映像間でドメイン適応を行うことにより、一方のビデオカメラの映像から学習された人物の行動に関する機械学習モデルを、他方のビデオカメラの映像にも適用可能とする技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】米国特許出願公開第2021/0064883号明細書
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1の技術は、ビデオカメラの映像から人物の行動を識別する機械学習モデルで利用されるものであり、他の用途については想定していない。したがって、画像認識用の機械学習モデルについて、ある特定のドメインで得られた機械学習モデルを他のドメインでも利用可能とすることは困難である。
【課題を解決するための手段】
【0007】
本発明による画像認識装置は、複数のドメインのいずれかに属する画像を取得する画像取得部と、前記画像から所定の対象物に関する特徴量を抽出する特徴量抽出部と、前記特徴量を前記画像が属するドメインに適応させたドメイン適応特徴量を算出するドメイン適応部と、前記特徴量に基づいて前記対象物に関する補助特徴量を算出する補助タスク部と、前記特徴量に基づいて前記画像から前記対象物を認識する物体認識部と、を備え、前記ドメイン適応部および前記補助タスク部を用いて前記特徴量抽出部の学習を行う。
本発明による画像認識方法は、コンピュータを用いたものであって、前記コンピュータにより、複数のドメインのいずれかに属する画像を取得し、機械学習モデルを用いて前記画像から所定の対象物に関する特徴量を抽出し、前記特徴量を前記画像が属するドメインに適応させたドメイン適応特徴量を算出し、前記特徴量に基づいて前記対象物に関する補助特徴量を算出し、前記特徴量に基づいて前記画像から前記対象物を認識し、前記ドメイン適応特徴量および前記補助特徴量の算出結果を用いて前記機械学習モデルの学習を行う。
【発明の効果】
【0008】
本発明によれば、画像認識用の機械学習モデルについて、ある特定のドメインで得られた機械学習モデルを他のドメインでも利用可能な画像認識装置および画像認識方法を実現できる。
【図面の簡単な説明】
【0009】
【
図1】本発明の一実施形態に係る画像認識装置の構成を示すブロック図である。
【
図4】注意マップ生成部および補助タスク部の処理内容を示す図である。
【
図6】本発明の一実施形態に係る画像認識装置における学習処理の流れを示すフローチャートである。
【
図7】本発明の一実施形態に係る画像認識装置における情報提供用画面の一例を示す図である。
【
図8】本発明の一実施形態に係る画像認識装置における損失表示画面の一例を示す図である。
【
図9】本発明の一実施形態に係る画像認識装置における特徴量表示画面の一例を示す図である。
【
図10】本発明の一実施形態に係る画像認識装置におけるネットワーク説明表示画面の一例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して本発明の実施形態を説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡略化がなされている。本発明が本実施形態に制限されることは無く、本発明の思想に合致するあらゆる応用例が本発明の技術的範囲に含まれる。特に限定しない限り、各構成要素は複数でも単数でも構わない。
【0011】
図1は、本発明の一実施形態に係る画像認識装置の構成を示すブロック図である。
図1に示すように、本実施形態に係る画像認識装置100は、入力装置200および表示装置300と接続されている。画像認識装置100は、画像取得部110、特徴量抽出部120、物体認識部130、注意マップ生成部140、補助タスク部150、ドメイン適応部160、勾配反転層170および表示制御部180を備えて構成される。画像認識装置100において、これらの各機能ブロックは、例えばコンピュータが所定のプログラムを実行することにより実現される。なお、これらの機能ブロックの一部または全部を、GPU(Graphics Processing Unit)やFPGA(Field Programmable Gate Array)を用いて実現してもよい。
【0012】
画像取得部110は、画像認識装置100による認識対象の画像を取得し、その画像データを特徴量抽出部120へ出力する。画像取得部110が取得する認識対象の画像とは、例えば、予め定められた場所をカメラで撮影することによって得られた画像であり、人物等の所定の対象物や、対象物以外の背景などを含む。なお、画像取得部110は、静止画像を取得してもよいし、時系列順に並んだ複数の画像(フレーム)を組み合わせて構成される動画像(映像)を取得してもよい。以下では画像取得部110が静止画像を取得する場合を例に説明するが、動画像を取得する場合は、動画像を構成する各画像に対して静止画像と同様の処理を実施すればよい。
【0013】
ここで、画像取得部110は、複数のドメインのいずれかに属する画像を取得する。ドメインとは、画像全体の特徴による分類に相当し、カメラの撮影条件や背景の種類などに応じて異なる。すなわち、本実施形態の画像認識装置100には、認識対象の画像として様々なドメインに属する画像が入力され、画像取得部110によって取得される。
【0014】
特徴量抽出部120は、画像取得部110により取得された認識対象の画像から、所定の対象物に関する特徴量を抽出する。特徴量抽出部120は、所定のドメイン(ソースドメイン)に属する複数の学習画像を用いて学習済みの機械学習モデルを有しており、この機械学習モデルを用いて所定の演算処理を行うことにより、認識対象の画像から特徴量を抽出することができる。特徴量抽出部120により抽出された特徴量は、物体認識部130、注意マップ生成部140、ドメイン適応部160および表示制御部180にそれぞれ出力される。なお、特徴量抽出部120において、対象物の種類ごとに特徴量を抽出することで、様々な対象物について特徴量を抽出できるようにしてもよい。
【0015】
物体認識部130は、特徴量抽出部120により抽出された特徴量に基づいて、認識対象の画像から所定の対象物を認識する。物体認識部130は、学習済みの機械学習モデルを有しており、この機械学習モデルを用いて、特徴量抽出部120により抽出された特徴量に対して所定の演算処理を行う。これにより、認識対象の画像上で対象物に対応する領域を特定し、当該領域を対象物が映り込んでいる領域として認識することができる。このとき、特定された対象物の領域には境界ボックスが設定される。なお、特徴量抽出部120において、前述のように対象物の種類ごとに特徴量を抽出する場合、物体認識部130では、特徴量抽出部120が抽出した各特徴量に対して同様の演算処理をそれぞれ行うことにより、認識対象の画像から様々な対象物を認識することが可能となる。
【0016】
物体認識部130は、対象物の認識結果を物体認識結果として表示制御部180へ出力する。また、対象物の認識結果に対して、正解からの差異の大きさを表す認識損失を計算し、その計算結果を前述の境界ボックスの設定結果と合わせて、表示制御部180へ出力するとともに特徴量抽出部120へフィードバックする。
【0017】
注意マップ生成部140は、特徴量抽出部120により抽出された特徴量に基づいて、認識対象の画像上で注目領域を特定し、その注目領域を表す注意マップを生成する。注意マップとは、対象物の認識において注目すべき領域である注目領域が認識対象の画像でどの部分に存在するかを表したものであり、例えば、特徴量の値に応じて画像を色分けすることで生成される。また、注意マップ生成部140は、生成した注意マップと、物体認識部130による対象物の認識結果とを比較し、注意マップの生成結果が適切であるか否かを評価することもできる。注意マップ生成部140による注意マップの生成結果は、表示制御部180へ出力されるとともに、特徴量抽出部120へフィードバックされる。
【0018】
補助タスク部150は、特徴量抽出部120により抽出された特徴量に基づいて、所定の対象物に関する補助特徴量を算出する。補助特徴量とは、対象物の認識において補助的な役割を果たす特徴量であり、特徴量抽出部120により抽出される特徴量とは異なる。補助タスク部150は、学習済みの機械学習モデルを有しており、この機械学習モデルを用いて、注意マップ生成部140により生成された注意マップに対して所定の演算処理を行うことにより、特徴量に基づく補助特徴量を算出することができる。
【0019】
補助タスク部150は、補助特徴量の算出結果に対して、正解からの差異の大きさを表す補助タスク損失を計算し、その計算結果を表示制御部180へ出力するとともに、特徴量抽出部120へフィードバックする。
【0020】
ドメイン適応部160は、特徴量抽出部120により抽出された特徴量を認識対象の画像が属するドメインに適応させたドメイン適応特徴量を算出する。前述のように、特徴量抽出部120は、所定のソースドメインに属する学習画像を用いて学習済みの機械学習モデルを用いて、認識対象の画像から特徴量を抽出する。このとき、認識対象の画像が属するドメインをターゲットドメインとすると、ターゲットドメインとソースドメインが一致しない場合には、特徴量抽出部120により抽出される特徴量は、対象物の特徴を表すものとして必ずしも最適なものとは限らない。すなわち、ターゲットドメインに属する画像から特徴量抽出部120が抽出する特徴量には、ターゲットドメインとソースドメインとの差異に応じた誤差が含まれることになる。本実施形態の画像認識装置100では、このドメイン間の差異に応じた誤差がキャンセルされるように、特徴量に基づくドメイン適応特徴量を算出する。ドメイン適応部160は、例えば学習済みの機械学習モデルを有しており、この機械学習モデルを用いて、特徴量抽出部120により抽出された特徴量に対して所定の演算処理を行うことにより、特徴量からドメイン適応特徴量を算出することができる。
【0021】
ドメイン適応部160は、ドメイン適応特徴量の算出結果に対して、正解からの差異の大きさを表すドメイン適応損失を計算し、その計算結果を表示制御部180へ出力するとともに、勾配反転層170を介して特徴量抽出部120へフィードバックする。勾配反転層170は、ドメイン適応部160から入力されたドメイン適応損失の符号を反転し、特徴量抽出部120へ出力する。これにより、ドメイン適応部160から特徴量抽出部120への誤差逆伝搬が行われ、ドメイン適応損失に基づく特徴量抽出部120の敵対的学習が実現される。
【0022】
表示制御部180は、特徴量抽出部120、物体認識部130、注意マップ生成部140、補助タスク部150およびドメイン適応部160の各機能ブロックによる演算結果を示す画面を、ユーザの指示に応じて表示装置300に表示させる。ユーザは、表示装置300に表示された画面から、認識対象の画像に対する対象物の認識結果や、特徴量抽出部120、物体認識部130、補助タスク部150およびドメイン適応部160がそれぞれ有する機械学習モデルの学習状況などを確認することができる。
【0023】
入力装置200は、例えばキーボード、マウス、タッチパネル等により構成され、ユーザの操作を検出してその操作内容を画像認識装置100に送信する。表示装置300は、例えば液晶ディスプレイ等により構成され、表示制御部180の制御に応じて様々な画面表示を行うことにより、ユーザへの情報提供を行う。なお、通信ネットワークを介して画像認識装置100と接続されたコンピュータを、入力装置200や表示装置300として利用してもよい。
【0024】
次に、特徴量抽出部120、物体認識部130、注意マップ生成部140、補助タスク部150およびドメイン適応部160の処理内容について、
図2~
図5を参照して以下に説明する。
【0025】
図2は、特徴量抽出部120の処理内容を示す図である。
【0026】
特徴量抽出部120は、例えば複数の層からなるCNN(Convolutional Neural Network)を用いて構成されており、各層において学習済みのパラメータを用いた畳み込み演算を行うことにより、入力された画像から特徴量を抽出する。例えば
図2(a)に示すように、ドメインD1に属する画像11が特徴量抽出部120に入力されると、この画像11に対して特徴量抽出部120の各層で畳み込み演算を行うことにより、画像11の特徴量21が抽出される。同様に、例えば
図2(b)に示すように、ドメインD2に属する画像12が特徴量抽出部120に入力されると、この画像12に対して特徴量抽出部120の各層で畳み込み演算を行うことにより、画像12の特徴量22が抽出される。抽出された特徴量21,22には、画像11,12における特定の対象物(例えば犬)の特徴に関する情報がそれぞれ含まれている。
【0027】
図3は、物体認識部130の処理内容を示す図である。
【0028】
物体認識部130は、例えば複数の層からなるDNN(Deep Neural Network)を用いて構成されており、各層において学習済みのパラメータを用いた重み付け演算を行うことにより、入力された特徴量から対象物の領域を特定して対象物を認識する。例えば
図3に示すように、画像12から抽出された特徴量22が物体認識部130に入力されると、この特徴量22に対して物体認識部130の各層で重み付け演算を行うことにより、画像12上で対象物の領域12a,12bが特定され、これらの領域12a,12bにおいて対象物がそれぞれ認識される。さらに、物体認識部130は、特定した領域12a,12bにおける対象物の認識結果に対する確からしさを算出し、その算出結果を領域12a,12bの情報とともに、表示制御部180へ出力することもできる。
【0029】
図4は、注意マップ生成部140および補助タスク部150の処理内容を示す図である。
【0030】
注意マップ生成部140は、例えば関数gradCAMを用いて構成され、入力された特徴量に対して関数gradCAMの演算を行うことにより、注意マップを生成する。この注意マップでは、画像の前景部分に相当する注目領域と、それ以外の背景部分とが区別して表示される。補助タスク部150は、物体認識部130と同様に、例えば複数の層からなるDNNを用いて構成されており、各層において学習済みのパラメータを用いた重み付け演算を行うことにより、入力された注意マップから補助特徴量を算出する。例えば
図4に示すように、画像12から抽出された特徴量22が注意マップ生成部140に入力されると、この特徴量22に対して注意マップ生成部140が関数gradCAMの演算を行うことにより、画像12における前景部分に相当する注目領域32a,32bが特定され、注目マップ32が生成される。また、注目マップ32が補助タスク部150に入力されると、この注目マップ32上の注目領域32a,32bに対して補助タスク部150の各層で重み付け演算を行うことにより、画像12における対象物の補助特徴量42が算出される。さらに、補助特徴量42に対して補助タスク損失52が計算される。
【0031】
図5は、ドメイン適応部160の処理内容を示す図である。
【0032】
ドメイン適応部160は、物体認識部130や補助タスク部150と同様に、例えば複数の層からなるDNNを用いて構成されており、各層において学習済みのパラメータを用いた重み付け演算を行うことにより、入力された特徴量からドメイン適応特徴量を算出する。例えば
図5に示すように、画像12から抽出された特徴量22がドメイン適応部160に入力されると、この特徴量22に対してドメイン適応部160の各層で重み付け演算を行うことにより、画像12が属するドメインD2をターゲットドメインとして特徴量22をドメイン適応させたドメイン適応特徴量62が算出される。さらに、ドメイン適応特徴量62に対してドメイン適応損失72が計算される。
【0033】
続いて、画像認識装置100において実施される機械学習モデルの学習処理について、
図6に示すフローチャートを参照して以下に説明する。
【0034】
図6は、本発明の一実施形態に係る画像認識装置100における学習処理の流れを示すフローチャートである。本実施形態の画像認識装置100では、
図6のフローチャートに示す処理が所定時間ごとに実行されることで、画像認識に用いられる機械学習モデルの学習が行われる。
【0035】
ステップS10では、画像取得部110により、認識対象の画像データを取得する。ここでは前述のように、複数のドメインのいずれかに属する画像を取得し、その画像データを特徴量抽出部120へ出力する。
【0036】
ステップS20では、特徴量抽出部120により、ステップS10で取得された画像データから特徴量を抽出する。ここでは
図2で説明したように、例えば特徴量抽出部120が有するCNNの各層で画像データに対して学習済みのパラメータを用いた畳み込み演算を行うことにより、所定の対象物の特徴に関する特徴量を抽出する。
【0037】
ステップS30では、物体認識部130により、ステップS20で抽出された特徴量に基づく物体認識を実行する。ここでは
図3で説明したように、例えば物体認識部130が有するDNNの各層で特徴量に対して学習済みのパラメータを用いた重み付け演算を行うことにより、ステップS10で取得された画像データおいて所定の対象物を認識するとともに、画像上で対象物の領域を特定し、その領域における対象物の認識結果の確からしさを算出する。
【0038】
ステップS40では、物体認識部130により、ステップS30で実行した物体認識の結果に対する認識損失を算出する。ここでは例えば、予め設定された物体認識結果の正解とステップS30の認識結果とを比較し、その比較結果に基づいて、正解からの乖離が大きいほどその値が高くなるように認識損失を算出する。
【0039】
ステップS50では、ドメイン適応部160により、ステップS20で抽出された特徴量に基づくドメイン適応を実行する。ここでは
図5で説明したように、例えばドメイン適応部160が有するDNNの各層で特徴量に対して学習済みのパラメータを用いた重み付け演算を行うことにより、ドメイン適応特徴量を算出する。
【0040】
なお、特徴量抽出部120の学習に用いられた学習画像が属するソースドメインが複数ある場合、ドメイン適応部160では、その複数のソースドメインごとにドメイン適応特徴量を算出することが好ましい。また、ステップS10で画像データを取得される画像が複数ある場合、各画像が属するターゲットドメインは必ずしも同一とは限らず、画像ごとに異なるターゲットドメインに属することもある。このような場合も同様に、ドメイン適応部160では、その複数のターゲットドメインごとにドメイン適応特徴量を算出することが好ましい。すなわち、ドメイン適応部160は、複数のソースドメインおよび複数のターゲットドメインの各組み合わせについてドメイン適応特徴量を算出することが好ましい。このようにすれば、様々なソースドメインとターゲットドメインの組み合わせについてドメイン適応特徴量を算出することが可能となる。
【0041】
ステップS60では、ドメイン適応部160により、ステップS50で実行したドメイン適応の結果に対するドメイン適応損失を算出する。ここでは例えば、予め設定されたターゲットドメインでの特徴量とステップS50で計算されたドメイン適応特徴量とを比較し、その比較結果に基づいて、これらの特徴量間の差分が大きいほどその値が高くなるようにドメイン適応損失を算出する。
【0042】
ステップS70では、注意マップ生成部140により、ステップS20で抽出された特徴量に基づいて注意マップを生成する。ここでは
図4で説明したように、例えば特徴量に対して関数gradCAMの演算を行うことにより、ステップS10で取得された画像上の注目領域を特定し、その注目領域を表す注意マップを生成する。
【0043】
ステップS80では、補助タスク部150により、ステップS20で抽出された特徴量に基づく補助タスクを実行する。ここでは
図4で説明したように、例えば補助タスク部150が有するDNNの各層で、ステップS70で生成された注意マップに対して学習済みのパラメータを用いた畳み込み演算を行うことにより、所定の対象物の補助的な特徴に関する補助特徴量を抽出する。
【0044】
ステップS90では、補助タスク部150により、ステップS80で実行した補助タスクの結果に対する補助タスク損失を算出する。ここでは例えば、予め設定された補助特徴量とステップS90で計算された補助特徴量とを比較し、その比較結果に基づいて、これらの差分が大きいほどその値が高くなるように補助タスク損失を算出する。
【0045】
ステップS100では、ステップS40、S60、S90でそれぞれ算出された認識損失、ドメイン適応損失および補助タスク損失の各損失の算出結果を、特徴量抽出部120へフィードバックする。このとき、ドメイン適応損失については、前述のように勾配反転層170を介することにより、符号を反転してフィードバックする。
【0046】
ステップS110では、ステップS100でフィードバックされた各損失に基づいて、特徴量抽出部120の学習を実行する。ここでは例えば、フィードバックされた各損失の値を組み合わせた総合損失を計算し、その総合損失の値が小さくなるように、特徴量抽出部120が有する機械学習モデルのパラメータを調整する。これにより、物体認識部130、補助タスク部150およびドメイン適応部160の各処理結果に基づく特徴量抽出部120の学習を行う。なお、特徴量抽出部120の学習に加えて、フィードバックされた各損失を利用し、物体認識部130、補助タスク部150およびドメイン適応部160の学習を行ってもよい。
【0047】
ステップS120では、特徴量抽出部120の学習を終了するか否かを判定する。その結果、特徴量抽出部120の学習を終了せずに継続すると判定した場合は、ステップS10に戻って前述の処理を繰り返す。一方、特徴量抽出部120の学習を終了すると判定した場合は、
図6のフローチャートに示す処理を終了する。なお、ステップS120の判定は、例えばユーザが予め設定した学習終了条件など、所定の終了条件に基づいて行うことができる。
【0048】
本実施形態の画像認識装置100では、所定の終了条件を満たすまで、以上説明した処理が繰り返し実行されて特徴量抽出部120の学習が行われる。その結果、特徴量抽出部120の学習では、ドメイン適応部160を用いてドメイン適応特徴量を算出するステップS50の処理と、補助タスク部150を用いて補助特徴量を算出するステップS80の処理と、がそれぞれ複数回ずつ実施される。これにより、特徴量抽出部120の学習を有効かつ効率的に行うことが可能となる。
【0049】
次に、表示制御部180によるユーザへの情報提供の具体例について、
図7~
図10を参照して以下に説明する。
【0050】
図7は、本発明の一実施形態に係る画像認識装置100における情報提供用画面の一例を示す図である。
図7に示す画面310は、表示制御部180により、ユーザの操作に応じて表示装置300に表示される。画面310は、画像認識装置100の学習状態や画像認識状態を表示してユーザに提示するための画面であり、表示枠311,312,313を有する。
【0051】
表示枠311は、特徴量抽出部120の学習設定を行うための部分である。ユーザは入力装置200の操作により、表示枠311において、ドメイン適応部160によるドメイン適応、補助タスク部150による補助タスク、注意マップ生成部140により生成される注意マップのそれぞれについて、特徴量抽出部120の学習に利用するか否かを選択することができる。さらに、ドメイン適応については、ソースドメインとターゲットドメインをそれぞれ指定し、補助タスクについては、どの補助特徴量を用いるかを選択することができる。表示枠311におけるユーザの選択内容は、画像認識装置100において、
図6のフローチャートに示した学習処理に反映される。
【0052】
表示枠312は、画面310において表示対象とする情報の種類を選択するための部分である。ユーザは入力装置200の操作により、表示枠312において、認識損失、ドメイン適応損失および補助タスク損失の各損失と、特徴量抽出部120により画像から抽出された特徴量と、注意マップ生成部140により生成された注意マップに基づくネットワーク説明とのいずれかを、表示対象として選択することができる。
【0053】
表示枠313は、ユーザへの情報提供を行うための部分である。画像認識装置100は、表示装置300において、表示枠312により選択された情報を表示枠313に表示することで、学習状態や画像認識状態に関するユーザへの情報提供を行うことができる。
【0054】
図8は、本発明の一実施形態に係る画像認識装置100における損失表示画面の一例を示す図である。
図8に示す画面は、
図7の表示枠312において、認識損失、ドメイン適応損失および補助タスク損失の各損失が表示対象に選択された場合に、表示枠313に表示される。
【0055】
図8の画面において、グラフ3131は認識損失、グラフ3132はドメイン適応損失、グラフ3133は補助タスク損失について、これらの各損失の学習回数に応じた変化をそれぞれ表している。グラフ3131~3133より、特徴量抽出部120の学習が進むほど認識損失や補助タスク損失が低下する一方、反対にドメイン適応損失が上昇していることが分かる。
【0056】
図9は、本発明の一実施形態に係る画像認識装置100における特徴量表示画面の一例を示す図である。
図9に示す画面は、
図7の表示枠312において、特徴量が表示対象に選択された場合に、表示枠313に表示される。
【0057】
図9の画面において、グラフ3134は、ドメイン適応および補助タスクのいずれも用いずに特徴量抽出部120の学習を行った場合の特徴量の分布を示している。グラフ3134において、白丸形状のマーカ314は人物、星形状のマーカ315はクレーン、黒丸形状のマーカ316は倉庫の特徴量をそれぞれ表している。グラフ3134から、ドメイン適応および補助タスクのいずれも用いずに特徴量抽出部120の学習を行うと、特徴量抽出部120により抽出される特徴量では、異なる物体の特徴量が混在して分布していることが分かる。その結果、物体認識部130では、各物体を正しく識別することが困難となる。
【0058】
図9の画面において、グラフ3135は、ドメイン適応を用いて特徴量抽出部120の学習を行った場合の特徴量の分布を示している。グラフ3135において、マーカ314~316は、グラフ3134と同様である。グラフ3135から、ドメイン適応を用いて特徴量抽出部120の学習を行うと、特徴量抽出部120により抽出される特徴量では、グラフ3134と比べて、物体の種類ごとに特徴量が分かれて分布してることが分かる。その結果、物体認識部130では、各物体を正しく識別することが可能となる。
【0059】
図9の画面において、グラフ3136は、ドメイン適応および補助タスクの両方を用いて特徴量抽出部120の学習を行った場合の特徴量の分布を示している。グラフ3136において、マーカ314~316は、グラフ3134,3135と同様である。グラフ3136から、ドメイン適応に加えて補助タスクを用いて特徴量抽出部120の学習を行うと、特徴量抽出部120により抽出される特徴量では、グラフ3135と比べて、物体の種類ごとに特徴量がさらに分かれて分布してることが分かる。その結果、物体認識部130では、各物体をより一層正しく識別することが可能となる。
【0060】
図10は、本発明の一実施形態に係る画像認識装置100におけるネットワーク説明表示画面の一例を示す図である。
図10に示す画面は、
図7の表示枠312において、ネットワーク説明が表示対象に選択された場合に、表示枠313に表示される。
【0061】
図10の画面において、説明枠3137a~3137dは、同一の画像に含まれる各人物に対する認識結果を表している。これらの説明枠には、画像内の各人物の領域と、各人物の認識結果に対する確からしさの値(%)とが示されている。なお、説明枠3137a~3137dは、物体認識部130の処理結果から取得することができる。また、注目領域3138a~3138dは、説明枠3137a~3137dにそれぞれ対応する注意マップ上の注目領域を表している。このように、ネットワーク説明によれば、本システムの意思決定プロセスを明らかにすることが可能である。
【0062】
以上説明した本発明の一実施形態によれば、以下の作用効果を奏する。
【0063】
(1)画像認識装置100は、複数のドメインのいずれかに属する画像を取得する画像取得部110と、画像から所定の対象物に関する特徴量を抽出する特徴量抽出部120と、特徴量を画像が属するドメインに適応させたドメイン適応特徴量を算出するドメイン適応部160と、特徴量に基づいて対象物に関する補助特徴量を算出する補助タスク部150と、特徴量に基づいて画像から対象物を認識する物体認識部130とを備え、ドメイン適応部160および補助タスク部150を用いて特徴量抽出部120の学習を行う。このようにしたので、画像認識用の機械学習モデルについて、ある特定のドメインで得られた機械学習モデルを他のドメインでも利用可能な画像認識装置100を実現できる。
【0064】
(2)画像認識装置100は、特徴量抽出部120の学習では、勾配反転層170により、ドメイン適応特徴量に対してドメイン適応部160が計算するドメイン適応損失に基づく敵対的学習を行う。このようにしたので、ドメイン適応部160を用いた特徴量抽出部120の学習を効果的に行うことができる。
【0065】
(3)画像認識装置100は、特徴量に基づいて画像上の注目領域を特定し、注目領域を表す注意マップを生成する注意マップ生成部140を備える。補助タスク部150は、注意マップ生成部140により生成された注意マップを用いて補助特徴量を算出する。このようにしたので、補助タスク部150において、画像中の前景部分に相当する注目領域に対する補助特徴量を容易かつ適切に算出することができる。
【0066】
(4)ドメイン適応部160は、複数のソースドメインおよび複数のターゲットドメインの各組み合わせについてドメイン適応特徴量を算出することができる。このようにすれば、様々なソースドメインとターゲットドメインの組み合わせについてドメイン適応特徴量を算出し、ドメイン適応を行うことが可能となる。
【0067】
(5)物体認識部130は、画像上で対象物の領域を特定し、その領域における対象物の認識結果に対する確からしさを算出する。このようにしたので、物体認識部130による画像認識結果の利用やユーザへの通知を行う際に有用な情報を取得できる。
【0068】
(6)画像認識装置100は、特徴量抽出部120の学習では、ドメイン適応部160を用いてドメイン適応特徴量を算出する第1の処理と、補助タスク部150を用いて補助特徴量を算出する第2の処理と、をそれぞれ複数回ずつ実施する。このようにしたので、特徴量抽出部120の学習を効率的に行うことができる。
【0069】
(7)ドメイン適応部160は、ドメイン適応特徴量に基づいてドメイン適応損失を計算する(ステップS60)。補助タスク部150は、補助特徴量に基づいて補助タスク損失を計算する(ステップS90)。物体認識部130は、対象物の認識結果に基づいて認識損失を計算する(ステップS40)。画像認識装置100は、ドメイン適応部160、補助タスク部150および物体認識部130からそれぞれフィードバックされるドメイン適応損失、補助タスク損失および認識損失に基づいて、特徴量抽出部120の学習を行う(ステップS100,S110)。このようにしたので、ドメイン適応部160、補助タスク部150および物体認識部130の演算結果をそれぞれ確実に反映して、特徴量抽出部120の学習を行うことができる。
【0070】
(8)画像認識装置100では、コンピュータにより、複数のドメインのいずれかに属する画像を取得し(ステップS10)、機械学習モデルを用いて画像から所定の対象物に関する特徴量を抽出し(ステップS20)、特徴量を画像が属するドメインに適応させたドメイン適応特徴量を算出し(ステップS50)、特徴量に基づいて対象物に関する補助特徴量を算出し(ステップS80)、特徴量に基づいて画像から対象物を認識する(ステップS30)。そして、ドメイン適応特徴量および補助特徴量の算出結果を用いて、特徴量の抽出に用いた機械学習モデルの学習を行う(ステップS110)。このようにしたので、画像認識用の機械学習モデルについて、ある特定のドメインで得られた機械学習モデルを他のドメインでも利用可能な画像認識方法を実現できる。
【0071】
なお、本発明は上記実施形態に限定されるものではなく、その要旨を逸脱しない範囲内で、任意の構成要素を用いて実施可能である。以上説明した実施形態や変形例はあくまで一例であり、発明の特徴が損なわれない限り、本発明はこれらの内容に限定されるものではない。また、上記では種々の実施形態や変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。
【符号の説明】
【0072】
100…画像認識装置、110…画像取得部、120…特徴量抽出部、130…物体認識部、140…注意マップ生成部、150…補助タスク部、160…ドメイン適応部、170…勾配反転層、180…表示制御部、200…入力装置、300…表示装置