(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025113781
(43)【公開日】2025-08-04
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20250728BHJP
G06N 20/00 20190101ALI20250728BHJP
【FI】
G06T7/00 350B
G06N20/00 130
【審査請求】未請求
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2024008107
(22)【出願日】2024-01-23
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100090273
【弁理士】
【氏名又は名称】國分 孝悦
(72)【発明者】
【氏名】田港 朝貴
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA02
5L096DA02
5L096EA02
5L096EA12
5L096FA12
5L096FA32
5L096FA54
5L096FA59
5L096FA64
5L096GA30
5L096GA51
5L096HA11
5L096JA22
5L096KA04
5L096KA15
(57)【要約】
【課題】入力データが特定の条件で誤識別しやすくなる物体のカテゴリ間の識別精度を向上させる。
【解決手段】画像に含まれる物体のカテゴリを識別するモデルの学習を行うための情報処理装置であって、前記画像から属性を取得する属性取得手段と、前記属性取得手段で取得された前記属性に基づいて、前記モデルの学習を行う際に複数のカテゴリによるグループを生成する生成手段と、を有する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
画像に含まれる物体のカテゴリを識別するモデルの学習を行うための情報処理装置であって、
前記画像から属性を取得する属性取得手段と、
前記属性取得手段で取得された前記属性に基づいて、前記モデルの学習を行う際に複数のカテゴリによるグループを生成する生成手段と、
を有することを特徴とする情報処理装置。
【請求項2】
前記モデルを用いて前記画像に含まれる物体のカテゴリを識別する識別手段と、
前記識別手段による識別結果と、前記生成手段で生成されたカテゴリのグループに基づいて、前記モデルの学習を行う学習手段と、
を更に有することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
所定の属性条件で誤識別しやすいカテゴリのグループの情報を取得するグループ取得手段を更に有し、
前記生成手段は、前記グループ取得手段で取得された前記グループの情報を用いて、前記グループを生成することを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記属性取得手段で取得された前記属性が所定の属性条件を満たす場合、前記生成手段で生成されるグループは、前記物体の正解カテゴリと、前記所定の属性条件で前記正解カテゴリと誤識別しやすい1以上のカテゴリと、を含むことを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記グループ取得手段は、各カテゴリのデータセットについて、前記属性ごとのカテゴリの誤識別率を集計することで、前記グループの情報を取得することを特徴とする請求項3に記載の情報処理装置。
【請求項6】
前記画像から取得された前記属性を補正するように前記画像を変換する変換手段を更に有し、
前記識別手段は、変換された前記物体のカテゴリを識別し、
前記生成手段は、補正された前記属性に基づいて、前記グループを生成することを特徴とする請求項2に記載の情報処理装置。
【請求項7】
前記変換手段は、学習の対象となる各カテゴリのデータセットについての、前記属性の統計を用いることで、前記属性の補正量を算出することを特徴とする請求項6に記載の情報処理装置。
【請求項8】
所定の属性条件で誤識別しやすいカテゴリのグループの情報を取得するグループ取得手段を更に有し、
前記変換手段は、前記画像から取得された前記属性が前記所定の属性条件を満たすように、前記属性の補正量を算出することを特徴とする請求項7に記載の情報処理装置。
【請求項9】
前記属性は、前記画像内の物体の領域のサイズであることを特徴とする請求項1に記載の情報処理装置。
【請求項10】
前記属性は、前記画像の輝度であることを特徴とする請求項1に記載の情報処理装置。
【請求項11】
前記属性は、前記画像におけるブレであることを特徴とする請求項1に記載の情報処理装置。
【請求項12】
前記属性は、前記画像におけるボケであることを特徴とする請求項1に記載の情報処理装置。
【請求項13】
前記学習手段は、前記グループに属するカテゴリ対して損失関数を適用することを特徴とする請求項2に記載の情報処理装置。
【請求項14】
前記生成手段は、前記属性取得手段で取得された前記属性に応じて、前記グループを生成するか否かを制御し、
前記学習手段は、前記生成手段で前記グループが生成された場合には、前記グループに属するカテゴリに対して損失関数を適用し、前記生成手段で前記グループが生成されなかった場合には、すべてのカテゴリに対して損失関数を適用することを特徴とする請求項2に記載の情報処理装置。
【請求項15】
入力画像にカテゴリごとの分析タスクを適用するための情報処理装置であって、
前記入力画像から属性を取得する属性取得手段と、
前記入力画像に含まれる物体のカテゴリを識別する識別手段と、
所定の属性条件で誤識別しやすいカテゴリのグループの情報を取得するグループ取得手段と、
前記属性取得手段で取得された前記属性と、識別されたカテゴリと、前記グループの情報に基づいて、前記入力画像に分析タスクを適用する適用手段と、
を有することを特徴とする情報処理装置。
【請求項16】
前記適用手段は、前記属性取得手段で取得された前記属性が前記所定の属性条件を満たし、且つ識別されたカテゴリである第1のカテゴリが前記グループに属する場合に、前記第1のカテゴリ用の分析タスクと、前記グループに属する前記第1のカテゴリ以外のカテゴリ用の分析タスクとを、前記入力画像に適用することを特徴とする請求項15に記載の情報処理装置。
【請求項17】
前記適用手段は、前記属性取得手段で取得された前記属性が前記所定の属性条件を満たし、且つ識別されたカテゴリである第1のカテゴリが前記グループに属する場合であって、前記グループに前記第1のカテゴリ以外のカテゴリが属する場合には、前記入力画像に分析タスクを適用しないようにすることを特徴とする請求項15に記載の情報処理装置。
【請求項18】
画像に含まれる物体のカテゴリを識別するモデルの学習を行うための情報処理方法であって、
前記画像から属性を取得する属性取得ステップと、
前記属性取得ステップで取得された前記属性に基づいて、前記モデルの学習を行う際に複数のカテゴリによるグループを生成する生成ステップと、
を含むことを特徴とする情報処理方法。
【請求項19】
画像に含まれる物体のカテゴリを識別するモデルの学習を行うための情報処理装置のコンピュータを、
前記画像から属性を取得する属性取得手段と、
前記属性取得手段で取得された前記属性に基づいて、前記モデルの学習を行う際に複数のカテゴリによるグループを生成する生成手段、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
近年、カテゴリを識別するための機械学習モデル(以下、カテゴリ識別器)の学習において、予め学習対象とするカテゴリをいくつかのグループに分けて学習することで、その部分集合の識別率の向上を図る技術が提案されている。
非特許文献1では、カテゴリ識別器を学習するための教師データの出現頻度の少ないカテゴリのグループとそうでないグループに分割し、学習時の損失関数をグループ毎に計算することで教師データの不均衡を抑制する方法が提案されている。また、非特許文献2では、カテゴリ識別器が識別する各カテゴリの尤度の大きさに基づきカテゴリのグループ化を行い、グループ化した損失関数(ソフトマックス関数)で学習することで誤識別するカテゴリ間の分類精度を向上させる方法が提案されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Yu Li, Tao Wang, Bingyi Kang, Sheng Tang, Chunfeng Wang, Jintao Li, Jiashi Feng, “Overcoming Classifier Imbalance for Long-Tail Object Detection With Balanced Group Softmax”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 10991-11000.
【非特許文献2】Takumi Kobayashi, “Group Softmax Loss With Discriminative Feature Grouping”, Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2021, pp. 2615-2624.
【非特許文献3】Zhi Tian, Chunhua Shen, Hao Chen, Tong He, “FCOS: Fully Convolutional One-Stage Object Detection”, Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 9627-9636.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、識別したい対象の大きさが小さいといった特定の条件下で誤識別しやすくなるような物体のカテゴリ間では分類精度が向上しにくい。例えば、画像中の小さな飛行機を鳥に誤識別しやすくなるケースや、画像の輝度が低い場合に犬を猫に誤識別しやすくなるケースがある。このように特定の条件下でカテゴリ間の誤識別が発生しやすくなることがある。
【0005】
本発明は、入力データが特定の条件で誤識別しやすくなる物体のカテゴリ間の識別精度を向上させることを目的とする。
【課題を解決するための手段】
【0006】
本発明は、画像に含まれる物体のカテゴリを識別するモデルの学習を行うための情報処理装置であって、前記画像から属性を取得する属性取得手段と、前記属性取得手段で取得された前記属性に基づいて、前記モデルの学習を行う際に複数のカテゴリによるグループを生成する生成手段と、を有することを特徴とする。
【発明の効果】
【0007】
本発明によれば、入力データが特定の条件で誤識別しやすくなるカテゴリ間の識別精度を向上させることができる。
【図面の簡単な説明】
【0008】
【
図1】情報処理装置のハードウェア構成例を示す図である。
【
図4】グループ生成部の機能構成例を示す図である。
【
図6】カテゴリ識別器の学習処理を示すフローチャートである。
【
図9】カテゴリ識別器の学習処理を示すフローチャートである。
【
図10】情報処理装置の機能構成例を示す図である。
【発明を実施するための形態】
【0009】
以下、添付の図面を参照して、実施形態について説明する。
【0010】
〔実施形態1〕
本実施形態では、入力する画像内の物体のカテゴリを識別するための機械学習モデル(以下、カテゴリ識別器)を学習するためのシステムについて説明する。このシステムでは、画像から取得した属性パラメータを用いて、カテゴリ識別器の学習を行う際に適用するカテゴリのグループを生成し、生成したグループを用いてカテゴリ識別器を学習する。入力データは、画像に限らず、文書、時系列データなど特に限定されない。
【0011】
図1は、本実施形態に係る情報処理装置のハードウェア構成例を示す。情報処理装置1は、CPU11、ROM12、RAM13、二次記憶装置14、入力装置15、及び表示装置16を有する。これら各構成部は、接続バス17を介して相互に接続されている。CPU(Central Processing Unit)11は、情報処理装置1の全体の制御を行う。CPU11がROM12等に記憶された制御プログラムを実行することにより、後述するフローチャートの処理が実現する。なお、CPUに代えて、又はCPUと共に、GPU(Graphics Processing Unit)を用いても構わない。
【0012】
ROM12は、不揮発性メモリであり、制御プログラムや各種パラメタデータを記憶する。RAM13は、揮発性メモリであり、画像や制御プログラムおよびその実行結果を一時的に記憶する。二次記憶装置14は、ハードディスクやフラッシュメモリなどの書き換え可能な二次記憶装置であり、後述する各フローチャートに用いる様々なデータを記憶する。例えば、入力データ、制御プログラム、学習用のデータセット、処理結果を記憶する。これら情報はRAM13に出力され、CPU11が制御プログラムの実行に利用する。入力装置15は、キーボード、マウス、タッチパネルデバイス等であり、各種のユーザの指示を入力する。表示装置16は、モニタ等であり、処理結果や画像等を表示する。
【0013】
本実施形態では、後述する処理を、CPU11を用いてソフトウェアで実現することとするが、後述する処理の一部または全部をハードウェアで実現するようにしても構わない。ハードウェアとして専用回路(ASIC)やプロセッサ(リコンフィギュラブルプロセッサ、DSP)等を用いることができる。また、情報処理装置1は、外部装置と通信するための通信部を有し、通信部を介して入力データ、制御プログラム、学習用のデータセット等を外部装置から取得してもよく、通信部を介して処理結果等を外部装置に出力してもよい。
【0014】
図2は、本実施形態に係る情報処理装置の機能構成例を示す。情報処理装置1は、取得部201、属性取得部202、カテゴリ識別部203、グループ生成部204、教師データセット取得部205、および学習部206を有する。CPU11がROM12等に記憶される制御プログラムを実行することで、
図2に示す各機能部の機能が実現する。
【0015】
取得部201は、画像を外部装置又は二次記憶装置14から取得する。
属性取得部202は、画像から属性パラメータを取得する。本実施形態において、属性は、画像内の物体の領域の大きさ(サイズ)とする。属性パラメータは属性の値であり、本実施形態では物体の領域のサイズの値である。属性取得部202の機能の詳細については、
図3で後述する。
【0016】
カテゴリ識別部203は、画像内の物体のカテゴリを識別する。本実施形態では、カテゴリに第1から第Nまで連番で番号が割り当てられており、N個のカテゴリ(第1のカテゴリ、第2のカテゴリ、・・・、第Nのカテゴリ)に識別する。カテゴリ識別部203は、画像内の物体を第1~第Nのカテゴリに識別するためのカテゴリ識別器を備える。
【0017】
グループ生成部204は、各画像の属性パラメータとカテゴリ識別結果の組を集計することで、特定の条件で誤識別しやすいカテゴリのグループの情報を生成する。グループ生成部204の機能の詳細については、
図4で後述する。
教師データセット取得部205は、予め用意されている第1のカテゴリから第Nのカテゴリの教師データセットを外部装置又は二次記憶装置14から取得する。
学習部206は、教師データセットを入力データとしてカテゴリ識別部203が備えるカテゴリ識別器の学習を行う。学習部206が行う処理の詳細については、
図6で後述する。
【0018】
図3は、本実施形態に係る属性取得部202の機能構成例を示す。属性取得部202は、検出部301、および、サイズ取得部302を有する。
【0019】
検出部301は、取得部201で取得した画像に対して、画像内の物体の領域を検出する。物体の領域は、物体を囲む矩形であってもよいし、物体境界を囲む閉曲線内の領域であってもよい。検出する方法としては、非特許文献3に示すように、特定のカテゴリの領域を検出するように予め学習された学習モデルを用いる方法がある。
【0020】
サイズ取得部302は、検出部301で検出した物体の領域からサイズを取得する。サイズは物体の領域が矩形である場合、幅や高さでもよいし、矩形の面積であってもよい。物体境界を囲む閉曲線内の領域である場合は、その領域内のピクセルのカウント数であってもよい。
以上のようにして、属性取得部202は、本実施形態の属性パラメータである、画像内の物体の領域のサイズを取得する。
【0021】
図4は、本実施形態に係るグループ生成部204の機能構成例を示す。グループ生成部204は、画像データセット取得部401、誤識別判別部402、および、グループ決定部403を有する。
【0022】
画像データセット取得部401は、カテゴリ識別部203が識別可能なN個のカテゴリの画像、および、画像内の物体のカテゴリの情報からなる画像データセットを、外部装置又は二次記憶装置14から取得する。この画像データセットは後述するカテゴリ識別部203のカテゴリ識別器を学習するための教師データセットであってもよいし、それとは別に用意されたものであってもよい。
【0023】
誤識別判別部402は、属性取得部202を用いて、画像データセットの各画像の属性パラメータ(本実施形態では、画像内の物体の領域のサイズ)を取得する。また、誤識別判別部402は、カテゴリ識別部203を用いて、画像データセットの各画像内の物体のカテゴリ識別結果を取得する。ここで、カテゴリ識別結果は、例えば、カテゴリ識別器が識別可能なN個のカテゴリの尤度を表す。カテゴリ識別結果から、尤度が最も高いカテゴリが画像内の物体のカテゴリとして尤もらしい、という判定をすることができる。
【0024】
誤識別判別部402は、画像データセットの各画像の属性パラメータとカテゴリ識別結果の組を集計することで、カテゴリ識別器が誤識別しやすい属性パラメータ(物体のサイズ)とカテゴリの組み合わせを判別する。誤識別判別部402は、物体のサイズを、所定の範囲(例えば、大サイズ、中サイズ、小サイズ)に区分けし、サイズ区間ごとに第1のカテゴリの画像に対して、カテゴリ識別器が第1のカテゴリ以外に誤識別した場合に、誤識別したカテゴリをカウントする。そして、誤識別したカテゴリごとに、そのカテゴリに誤識別する確率(誤識別率)を算出する。同様に、第2のカテゴリから第Nのカテゴリの画像まで繰り返し行い、サイズ区間ごとに誤識別したカテゴリをカウントし、誤識別率を算出する。
【0025】
グループ決定部403は、誤識別判別部402で算出された誤識別率に応じてカテゴリのグループを決定する。
図5(a)は、小サイズ区間における第1のカテゴリの画像に対して誤識別したカテゴリごとの誤識別率を表すグラフの例である。
図5(a)の例では、第Lのカテゴリの誤識別率502と、第Mのカテゴリの誤識別率503が予め定めた誤識別率の閾値504(例えば、10%)を超えている。この場合、グループ決定部403は、小サイズ区間という属性における第1のカテゴリに対して、第Lと第Mのカテゴリをグループに追加する。このようにして、グループ決定部403は、特定の属性条件(ここでは、小サイズ区間)の第1のカテゴリに対し、誤識別しやすいカテゴリ(ここでは、第Lと第Mのカテゴリ)を含むグループを生成する。なお、本実施形態では、誤識別率が閾値以上であるカテゴリを誤識別しやすいカテゴリとして決定するが、誤識別しやすいカテゴリを決定する方法は、上記のように誤識別率を用いる方法に限られない。
【0026】
グループ決定部403は、同様にして、小サイズ区間における第2のカテゴリから第Nのカテゴリについて、グループを決定する。
図5(b)は、小サイズ区間における第2のカテゴリの画像に対して誤識別したカテゴリごとの誤識別率を表すグラフの例である。
図5(b)の例では、誤識別率が予め定めた誤識別率の閾値506(例えば、10%)を超えるカテゴリが存在しない。この場合、グループ決定部403は、小サイズ区間における第2のカテゴリに対しては、グループを生成しない。
【0027】
グループ決定部403は、同様にして、中サイズ区間、および、大サイズ区間における第1のカテゴリから第Nのカテゴリに対して、誤識別しやすいカテゴリのグループを生成する。グループ生成部204で生成したカテゴリのグループの情報は、二次記憶装置14などに保持される。
【0028】
図6は、本実施形態に係るカテゴリ識別器の学習処理を示すフローチャートである。学習部206は、予め用意されている第1のカテゴリ~第Nのカテゴリの教師データセットと、グループ生成部204で生成したカテゴリのグループの情報を用いてカテゴリ識別器の学習を行う。グループ生成部204で生成したカテゴリのグループの情報とは、例えば、カテゴリと、そのカテゴリが特定の属性条件(例えば、物体が小サイズ)で誤識別しやすいカテゴリと、をセットにしたデータである。グループ生成部204で生成したカテゴリのグループの情報は、画像データセットの各カテゴリの画像の属性パラメータとカテゴリ識別結果の組を集計して得られる。以下の説明では、各工程(ステップ)について先頭にSを付けて表記することで、工程(ステップ)の表記を省略する。
【0029】
S501にて、学習部206は、教師データセット取得部205を用いて、カテゴリ識別器を学習するための教師データセットを取得する。教師データセットは、二次記憶装置14などに記憶されていてもよい。教師データセット取得部205は、教師データセットを二次記憶装置14から取得してもよく、外部装置から取得してもよい。
S502にて、学習部206は、カテゴリ識別部203の備えるカテゴリ識別器を取得する。本実施形態において、カテゴリ識別器は、画像内の物体のカテゴリを識別するための機械学習モデルである。機械学習モデルは、多層ニューラルネットワークモデルとする。ただし、多層ニューラルネットワークモデルに限定せず、ランダムフォレストやAdaBoostといった公知の機械学習モデルを用いてもよい。カテゴリ識別器のモデルパラメータは、二次記憶装置14などに記憶されている。
S503にて、学習部206は、S501で取得した教師データセットからミニバッチを取得する。ミニバッチとは、1枚以上の画像で構成されるカテゴリ識別器への入力画像である。
【0030】
S504にて、学習部206は、ミニバッチの各画像に対応する正解カテゴリを取得する。
S505にて、学習部206は、属性取得部202を用いて、ミニバッチの各画像の属性パラメータを取得する。本実施形態では、各画像内の物体の領域のサイズを取得する。なお、教師データセットに、画像内の物体の領域のサイズを表す情報が予め含まれている場合には、その情報を取得してもよい。属性取得部202は、属性取得手段として機能する。
【0031】
S506にて、学習部206は、カテゴリ識別部203を用いて、ミニバッチの各画像の推論処理を行う。具体的には、学習部206は、各画像をカテゴリ識別モデルに入力して得られた第1~第Nのカテゴリに対する尤度(ロジット)を算出する。これにより、各画像内の物体のカテゴリ識別結果が取得される。カテゴリ識別結果には、全カテゴリの尤度(ロジット)が含まれる。カテゴリ識別部203は、カテゴリ識別手段として機能する。
S507にて、学習部206は、まず、ミニバッチの画像の、1つの画像を対象にする。学習部206は、グループ生成部204で生成したカテゴリのグループの情報を、二次記憶装置14などから取得する。学習部206は、グループ取得手段として機能する。そして、学習部206は、対象の画像の正解カテゴリ(S504で取得)に対し、特定の属性条件で誤識別しやすいカテゴリがあって、且つ対象の画像の属性パラメータ(S505で取得)が特定の属性条件を満たす場合、グループを生成する。学習部206は、グループ生成手段として機能する。生成されたグループは、正解カテゴリと誤識別しやすい1以上のカテゴリを含む。このようにして、ミニバッチの各画像に対して、カテゴリのグループを生成する。つまり、学習部206は、ミニバッチの各画像の正解カテゴリと属性パラメータによって、次ステップでロス(損失関数)の値を算出する際に適用するグループを切り替える。一方で、学習部206は、上記の条件を満たさない場合、グループを生成しない。学習部206は、例えば対象の画像の属性パラメータ(S505で取得)が特定の条件を満たさない場合、グループを生成しない。つまり、学習部206は、正解カテゴリと属性パラメータに応じて、グループを生成するか否かの制御を行う。
【0032】
S508にて、学習部206は、ミニバッチの各画像のカテゴリ識別結果とカテゴリのグループを用いて、ロス(損失関数)の値を算出する。本実施形態では、ロスの値の算出には、非特許文献1、或いは非特許文献2で用いられているグループソフトマックス関数を用いる。学習部206は、グループが生成されなかった場合、通常のソフトマックス関数で全カテゴリの尤度の和をとるのに対して、グループが生成された場合、グループソフトマックス関数でグループのカテゴリの尤度の和をとってロスの値を算出する。グループソフトマックス関数を適用することでグループ化したカテゴリ間の特徴が分離されるように学習され、グループ化したカテゴリ間の誤識別を抑制しやすくなる。
【0033】
なお、グループ化したカテゴリ間にソフトマックス関数を適用する手法と同様にして、SphereFaceやArcFaceといったソフトマックス関数を拡張した公知の損失関数においても、グループ化したカテゴリの和を用いるようにしてもよい。さらに、ロス算出時にグループソフトマックス関数の値だけでなく、通常のソフトマックス関数の値に一定の重みを乗じた値を加算してもよい。これにより、全体のカテゴリ間の識別精度を保ちつつ、特定の属性条件(例えば、物体が小サイズ)で生じやすくなるカテゴリの誤識別を抑制することが可能になる。
【0034】
S509にて、学習部206は、S508で算出したロスに誤差逆伝播法を適用して勾配を算出し、カテゴリ識別器のモデルパラメータの更新量を求める。
S510にて、学習部206は、カテゴリ識別器のモデルパラメータを更新する。具体的には、公知の多層ニューラルネットワークの学習方法を適用すればよく、詳細な説明は省略する。
S511にて、学習部206は、モデルパラメータを更新したカテゴリ識別器をカテゴリ識別部203に出力する。
学習部206は、以上のようなS501~S511の処理をロスの値や識別精度が収束するまで繰り返し実行することで、カテゴリ識別器のモデルパラメータを決定する。その後一連のフローチャートの処理を終了する。
【0035】
なお、学習の進度に応じて、グループ生成部204は、ミニバッチの各画像の、正解カテゴリ(S504で取得)と、属性パラメータ(S505で取得)と、推論の結果(S506で取得)を用いて、グループを生成し直しても構わない。学習部206は、次の学習から新たなグループを適用するようにしてもよい。
【0036】
以上のような実施形態1によれば、特定の属性条件下で誤識別しやすいカテゴリのグループを用いてカテゴリ識別器を学習することにより、その条件下におけるカテゴリ間の識別精度を向上させることができる。
【0037】
〔実施形態2〕
本実施形態では、画像を変換して属性パラメータを補正して、特定の属性パラメータを持つ画像の数を増やすことで、効率的に学習を行う方法について説明する。以下、実施形態1と共通する箇所は説明を省略し、実施形態1との差分を中心に説明する。
【0038】
図7は、本実施形態に係る情報処理装置の機能構成例を示す。
図7の機能構成では、
図2の機能構成に対して、補正量算出部601と、画像変換部602を有する点が異なる。さらに、本実施形態では、属性取得部202が属性パラメータとして、画像内の物体の領域のサイズだけでなく、画像の輝度値、ボケ量、ブレ量などを取得する。属性取得部202の機能の詳細については、
図8で後述する。
【0039】
補正量算出部601は、属性取得部202で取得した属性パラメータの補正量を算出する。
画像変換部602は、補正量算出部601で算出した補正量で補正された属性パラメータとなるように、画像を変換する。
【0040】
図8は、本実施形態に係る属性取得部202の機能構成例を示す。
図8の機能構成では、
図3の機能構成に対して、輝度取得部701、ボケ量算出部702、および、ブレ量算出部703を有する点で異なる。
【0041】
輝度取得部701は、画像の輝度値を取得する。例えば、一般的なYUV色空間における輝度値である。また、属性パラメータは、画像内の輝度値の平均であってもよく、検出部301で検出した物体の領域内の輝度値の平均であってもよい。
【0042】
ボケ量算出部702は、画像内の物体のボケ量を推定する。ボケ量を推定する方法としては、例えば、ボケ量を推定するための機械学習モデル(以下、ボケ量推定器)を用いる方法がある。ボケ量推定器は、例えば、ボケの無い物体の画像にガウスブラーを適用してぼかした画像と、その画像内の物体の領域内のガウスブラーの強度を組とする教師データを用意して学習する。また、推論時には、物体の領域内のガウスブラーの強度を推定する。
【0043】
ブレ量算出部703は、画像内の物体のブレ量を推定する。ブレ量を推定する方法としては、ボケ量算出部702と同様に、ブレ量を推定するための機械学習モデル(以下、ブレ量推定器)を用いる方法がある。ブレ量推定器は、例えば、ブレの無い物体の画像にモーションブラーフィルタを適用して得られた画像と、そのフィルタの強度を組とする教師データを用意して学習する。また、推論時には、物体の領域内のモーションブラーフィルタの強度を推定する。
【0044】
本実施形態において、グループ生成部204は、各画像の属性パラメータとカテゴリ識別結果の組を集計することで、特定の属性条件で誤識別しやすいカテゴリのグループの情報を生成する。本実施形態のように、複数の属性パラメータで集計を行う場合、特定の属性条件は、1つの属性パラメータの条件だけでなく、複数の属性パラメータを組み合わせた条件であっても構わない。例えば、物体の領域のサイズ(例えば、小サイズ区間)と、輝度値(例えば、低輝度)を組み合わせた条件であっても構わない。
【0045】
図9は、本実施形態に係るカテゴリ識別器の学習処理を示すフローチャートである。
図9のフローチャートは、
図6のフローチャートとは、S505とS506の処理ステップの間に、S801とS802の処理ステップが実行される点が主として異なる。以下、
図6のフローチャートとは異なる処理ステップについて説明し、同様の処理ステップについては説明を省略する。
【0046】
S505にて、学習部206は、属性取得部202を用いて、S503にて取得したミニバッチの各画像の属性パラメータを取得する。本実施形態の場合、画像内の物体の領域のサイズだけでなく、輝度値、ボケ量、ブレ量の大きさをそれぞれ取得する。なお、教師データセットに、画像内の物体の領域のサイズ、および、輝度値、ボケ量、ブレ量の大きさを表す情報が予め含まれている場合には、その情報を取得してもよい。
【0047】
S801にて、学習部206は、補正量算出部601を用いて、S505で取得した属性パラメータの補正量を算出する。補正量算出部601が補正量を算出する方法として、教師データセットの属性パラメータの統計を用いる方法がある。例えば、補正量算出部601は、属性取得部202を用いて、教師データセットの各画像について、属性パラメータを取得しておき、属性パラメータを所定の範囲に区分けして、区分けした区間ごとの出現頻度を算出する。
【0048】
そして、補正量算出部601は、S503で取得したミニバッチの画像の属性パラメータが、一定の確率で、S802にて変換した際に、出現頻度が低い範囲の属性パラメータとなるような補正量を算出する。例えば、小サイズ区間の出現頻度が低い場合、その出現頻度を上回るような確率で小サイズ区間の画像が出現するように、物体の領域のサイズの補正量(例えば、物体が小サイズ区間となるようなリサイズ値)を算出する。なお、S801で補正量を算出する処理ステップは、S503で画像が取得されるたびに実行されてもよく、予め設定した確率で実行されてもよい。
【0049】
例えば、小サイズ区間の出現頻度が元の教師データセットでは3%であり、それを30%にしたい場合、補正量算出部601は、取得したミニバッチの画像に対して、30%の確率で小サイズ区間となるように、属性パラメータの補正量を算出する。また、輝度値、ボケ量、ブレ量など、他のパラメータについても同様に、出現頻度が低い属性パラメータの範囲が一定の確率で出現するように、属性パラメータの補正量を算出する。このようにして、本実施形態において、グループ生成部204は、出現頻度が少ない範囲の属性パラメータの比率を水増しして得られた教師データセットを用いて、グループを生成する。
【0050】
上記のように、教師データセットの属性パラメータの統計を用いる方法以外の方法として、グループ生成部204で得られる誤識別しやすいカテゴリのグループの属性パラメータとなるように、属性パラメータの補正量を算出する方法も考えられる。例えば、輝度値がある範囲が対応付けられたグループが生成されている場合、補正量算出部601は、取得した画像の輝度値が当該グループに対応付けられた範囲の輝度値となるような補正量を算出する。
【0051】
S802にて、学習部206は、画像変換部602を用いて、S801にて取得した属性パラメータの補正量を、S503で取得したミニバッチの画像に適用して変換を行う。属性パラメータが物体の領域のサイズである場合には、画像を補正量に基づきリサイズする。輝度である場合には、画像のYUV色空間の輝度値を変換する。ボケ量、及び、ブレ量である場合には、画像のボケ量、及びブレ量の強度に補正量を加えて画像を変換する。
【0052】
その後、S506以降の処理ステップが実行される。
S507にて、学習部206は、グループ生成部204を用いて、補正された属性パラメータの値に基づいて、ミニバッチの各画像に対してグループを生成する。そして、S508にて、学習部206は、正解カテゴリが第1のカテゴリの対象画像に対し、特定の属性条件で第1のカテゴリに対して誤識別しやすいカテゴリがあって、且つ、対象画像の属性パラメータが特定の属性条件を満たす場合、そのグループを生成する。また、学習部206は、正解カテゴリが第Mのカテゴリの対象画像に対し、第Mのカテゴリが小サイズ区間で第1のカテゴリと誤識別しやすく、且つ対象画像内の物体の領域のサイズが小サイズ区間の場合、第1のカテゴリと第Mのカテゴリでグループを生成する。また、学習部206は、正解カテゴリが第Lのカテゴリの対象画像に対し、第Lのカテゴリが低輝度で第1のカテゴリと誤識別しやすく、且つ、対象画像が低輝度の場合、第1のカテゴリと第Lのカテゴリでグループを生成する。なお、1つの属性パラメータの条件だけでなく、複数の属性パラメータを組み合わせた条件を用いても構わない。その後S508で、学習部206は、ミニバッチ中にできるグループ毎にグループソフトマックス関数を適用してその和を取ることで、ロスの値を算出する。
【0053】
学習部206は、以上のようなS501~S511の処理をロスの値や識別精度が収束するまで繰り返し実行することで、カテゴリ識別器のモデルパラメータを決定する。その後一連のフローチャートの処理を終了する。
【0054】
なお、グループ生成部204は、学習の途中のカテゴリ識別器を用いて算出した誤識別の結果から、特定の属性条件におけるカテゴリ間の誤識別を解消して、誤識別していたカテゴリをグループから外すように決定してもよい。その後、学習部206は、次の学習から新たなグループを適用するようにしてもよい。
【0055】
以上のような実施形態2によれば、特定の属性パラメータの条件下となる画像の出現頻度を調整して、誤識別しやすいカテゴリのグループを生成して、カテゴリ識別器を学習することにより、学習の効率を高めて、カテゴリ間の識別精度を向上することができる。
【0056】
〔実施形態3〕
本実施形態では、画像内の物体のカテゴリを識別し、識別したカテゴリと画像の属性パラメータを基にカテゴリのグループを生成し、そのグループに応じて分析タスクを適用するシステムについて説明する。分析タスクは識別されたカテゴリ毎に用意されている。具体的には、人物のカテゴリ用に用意された分析タスクとして、人物の関節点を検出するタスクがあり、動物のカテゴリ用に用意された分析タスクとして、動物の顔を検出するタスクがある。以下、実施形態1と共通する箇所は説明を省略し、実施形態1との差分を中心に説明する。
【0057】
図10は、本実施形態に係る情報処理装置の機能構成例を示す。
図10に示すように、本実施形態に係る情報処理装置1は、実施形態1と同様の、取得部201、属性取得部202、および、カテゴリ識別部203を有する。
【0058】
本実施形態に係る情報処理装置1は、さらに、分析タスク適用部905を有する。分析タスク適用部905は、第1のカテゴリの分析タスク実行部906、第2のカテゴリの分析タスク実行部907、・・・、第Nのカテゴリの分析タスク実行部908を備える。なお、以下では、カテゴリ識別部203は、実施形態1または実施形態2の方法などで学習済みのカテゴリ識別器を備えているとする。さらに、グループ取得部902は、カテゴリのグループの情報を、二次記憶装置14などから取得する。カテゴリのグループの情報は、カテゴリ識別部203の備えるカテゴリ識別器を用いて生成された、特定の属性条件で誤識別しやすいカテゴリのグループの情報である。
【0059】
本実施形態において、取得部201は、未知のカテゴリの物体が撮像された画像901を取得する。次に、属性取得部202が、画像901の属性パラメータを取得する。ここでは説明をわかりやすくするために画像内の物体の領域のサイズを、検出部301、および、サイズ取得部302を用いて推定して取得する。
【0060】
カテゴリ識別部203は、取得した画像内の物体のカテゴリを識別する。グループ取得部902は、取得した物体の領域のサイズと、識別したカテゴリとを用いて、特定の領域のサイズ区分で、識別したカテゴリを含むグループの情報を取得する。ここでは、領域のサイズは、大サイズと小サイズ区間に区分けしている。
【0061】
以下、取得した物体の領域のサイズが小サイズ区間に属し、且つ、識別したカテゴリが第nのカテゴリであったとする。このとき、分析タスク適用部905は、第nのカテゴリに対して第n以外のカテゴリを含むグループが無い場合、第nのカテゴリの分析タスク実行部を適用し、分析結果909を出力する。一方で、属性パラメータが小サイズ区間において、第nのカテゴリに対して第mのカテゴリを含むグループが存在する場合、カテゴリ識別部203で識別した第nのカテゴリは誤識別で、実際には第mのカテゴリである可能性がある。
【0062】
そこで、分析タスク適用部905は、第nのカテゴリの分析タスク実行部を適用するだけでなく、第mのカテゴリの分析タスク実行部を適用する。つまり、分析タスク適用部905は、取得した属性パラメータの属する属性条件が付与され、且つ識別されたカテゴリを含むグループが有った場合に、グループに属する他のカテゴリの分析タスク実行部も適用する。このように誤識別している可能性を考慮して複数の分析タスクを適用することで、所望の分析結果909が得られる場合がある。また、分析タスク適用部905は、取得した属性パラメータの属する属性条件が付与され、且つ識別されたカテゴリを含むグループが有った場合に、何れの分析タスク実行部も適用しないように動作してもよい。これにより誤った分析タスクの実行を回避できる。
【0063】
以上のような実施形態3によれば、特定の属性条件下で誤識別しやすくなるカテゴリがあっても、より適切な分析タスクを入力データに適用することができる。
【0064】
〔その他の実施形態〕
以上、本発明を実施形態と共に説明したが、上記実施形態は本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0065】
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0066】
上述の各実施形態の開示は、以下の構成、方法及びプログラムを含む。
(構成1)
画像に含まれる物体のカテゴリを識別するモデルの学習を行うための情報処理装置であって、
前記画像から属性を取得する属性取得手段と、
前記属性取得手段で取得された前記属性に基づいて、前記モデルの学習を行う際に複数のカテゴリによるグループを生成する生成手段と、
を有することを特徴とする情報処理装置。
(構成2)
前記モデルを用いて前記画像に含まれる物体のカテゴリを識別する識別手段と、
前記識別手段による識別結果と、前記生成手段で生成されたカテゴリのグループに基づいて、前記モデルの学習を行う学習手段と、
を更に有することを特徴とする構成1に記載の情報処理装置。
(構成3)
所定の属性条件で誤識別しやすいカテゴリのグループの情報を取得するグループ取得手段を更に有し、
前記生成手段は、前記グループ取得手段で取得された前記グループの情報を用いて、前記グループを生成することを特徴とする構成1または2に記載の情報処理装置。
(構成4)
前記属性取得手段で取得された前記属性が所定の属性条件を満たす場合、前記生成手段で生成されるグループは、前記物体の正解カテゴリと、前記所定の属性条件で前記正解カテゴリと誤識別しやすい1以上のカテゴリと、を含むことを特徴とする構成1~3の何れか1つに記載の情報処理装置。
(構成5)
前記グループ取得手段は、各カテゴリのデータセットについて、前記属性ごとのカテゴリの誤識別率を集計することで、前記グループの情報を取得することを特徴とする構成3に記載の情報処理装置。
(構成6)
前記画像から取得された前記属性を補正するように前記画像を変換する変換手段を更に有し、
前記識別手段は、変換された前記物体のカテゴリを識別し、
前記生成手段は、補正された前記属性に基づいて、前記グループを生成することを特徴とする構成2に記載の情報処理装置。
(構成7)
前記変換手段は、学習の対象となる各カテゴリのデータセットについての、前記属性の統計を用いることで、前記属性の補正量を算出することを特徴とする構成6に記載の情報処理装置。
(構成8)
所定の属性条件で誤識別しやすいカテゴリのグループの情報を取得するグループ取得手段を更に有し、
前記変換手段は、前記画像から取得された前記属性が前記所定の属性条件を満たすように、前記属性の補正量を算出することを特徴とする構成7に記載の情報処理装置。
(構成9)
前記属性は、前記画像内の物体の領域のサイズであることを特徴とする構成1~8の何れか1つに記載の情報処理装置。
(構成10)
前記属性は、前記画像の輝度であることを特徴とする構成1~9の何れか1つに記載の情報処理装置。
(構成11)
前記属性は、前記画像におけるブレであることを特徴とする構成1~10の何れか1つに記載の情報処理装置。
(構成12)
前記属性は、前記画像におけるボケであることを特徴とする構成1~11の何れか1つに記載の情報処理装置。
(構成13)
前記学習手段は、前記グループに属するカテゴリ対して損失関数を適用することを特徴とする構成2に記載の情報処理装置。
(構成14)
前記生成手段は、前記属性取得手段で取得された前記属性に応じて、前記グループを生成するか否かを制御し、
前記学習手段は、前記生成手段で前記グループが生成された場合には、前記グループに属するカテゴリに対して損失関数を適用し、前記生成手段で前記グループが生成されなかった場合には、すべてのカテゴリに対して損失関数を適用することを特徴とする構成2に記載の情報処理装置。
(構成15)
入力画像にカテゴリごとの分析タスクを適用するための情報処理装置であって、
前記入力画像から属性を取得する属性取得手段と、
前記入力画像に含まれる物体のカテゴリを識別する識別手段と、
所定の属性条件で誤識別しやすいカテゴリのグループの情報を取得するグループ取得手段と、
前記属性取得手段で取得された前記属性と、識別されたカテゴリと、前記グループの情報に基づいて、前記入力画像に分析タスクを適用する適用手段と、
を有することを特徴とする情報処理装置。
(構成16)
前記適用手段は、前記属性取得手段で取得された前記属性が前記所定の属性条件を満たし、且つ識別されたカテゴリである第1のカテゴリが前記グループに属する場合に、前記第1のカテゴリ用の分析タスクと、前記グループに属する前記第1のカテゴリ以外のカテゴリ用の分析タスクとを、前記入力画像に適用することを特徴とする構成15に記載の情報処理装置。
(構成17)
前記適用手段は、前記属性取得手段で取得された前記属性が前記所定の属性条件を満たし、且つ識別されたカテゴリである第1のカテゴリが前記グループに属する場合であって、前記グループに前記第1のカテゴリ以外のカテゴリが属する場合には、前記入力画像に分析タスクを適用しないようにすることを特徴とする構成15に記載の情報処理装置。
(方法)
画像に含まれる物体のカテゴリを識別するモデルの学習を行うための情報処理方法であって、
前記画像から属性を取得する属性取得ステップと、
前記属性取得ステップで取得された前記属性に基づいて、前記モデルの学習を行う際に複数のカテゴリによるグループを生成する生成ステップと、
を含むことを特徴とする情報処理方法。
(プログラム)
画像に含まれる物体のカテゴリを識別するモデルの学習を行うための情報処理装置のコンピュータを、
前記画像から属性を取得する属性取得手段と、
前記属性取得手段で取得された前記属性に基づいて、前記モデルの学習を行う際に複数のカテゴリによるグループを生成する生成手段、
として機能させるためのプログラム。