特開2023-12907 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社　日立産業制御ソリューションズの特許一覧

特開2023-12907学習画像生成システム、画像認識システム、画像認識方法、及び画像認識プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023012907

(43)【公開日】2023-01-26

(54)【発明の名称】学習画像生成システム、画像認識システム、画像認識方法、及び画像認識プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20230119BHJP

G06N 20/00 20190101ALI20230119BHJP

【ＦＩ】

G06T7/00 350B

G06N20/00

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2021116665

(22)【出願日】2021-07-14

(71)【出願人】

【識別番号】000153443

【氏名又は名称】株式会社日立産業制御ソリューションズ

(74)【代理人】

【識別番号】110002365

【氏名又は名称】特許業務法人サンネクスト国際特許事務所

(72)【発明者】

【氏名】三沢博章

(72)【発明者】

【氏名】古川博基

(72)【発明者】

【氏名】日下隆浩

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA08

5L096CA02

5L096CA27

5L096DA01

5L096EA35

5L096FA69

5L096JA11

5L096KA04

5L096KA13

(57)【要約】

【課題】短時間でDeep Learningの学習に有効なＣＧ画像を生成できるようにする。
【解決手段】撮像装置によって取得された実画像とは異なる人為的に生成された人為画像を用いて学習用の画像データを生成する学習画像生成システムは、入力された人為画像である入力人為画像を受付け、認識モデルを用いて入力人為画像が実画像か人為画像かを判別する推論処理の際に、入力人為画像の注視領域を算出し、入力人為画像の注視領域の傾向と所定基準とを比較した結果に基づいて入力人為画像の注視領域を修正して人為画像を再生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

撮像装置によって取得された実画像とは異なる人為的に生成された人為画像を用いて学習用の画像データを生成する学習画像生成システムであって、
入力された人為画像である入力人為画像を受付け、
認識モデルを用いて前記入力人為画像が実画像か人為画像かを判別する推論処理の際に、前記入力人為画像の注視領域を算出し、
前記入力人為画像の注視領域の傾向と所定基準とを比較した結果に基づいて前記入力人為画像の注視領域を修正して人為画像を再生成する
ことを特徴とする学習画像生成システム。

【請求項2】

請求項１に記載の学習画像生成システムであって、
入力された実画像である入力実画像及び前記入力人為画像を受付ける入力部と、
前記入力実画像及び前記入力人為画像から、前記推論処理の際に得られる該入力実画像の第１注視領域と該入力人為画像の第２注視領域とを、注視点可視化技術により算出し、該第２注視領域と、前記所定基準として該第１注視領域とを比較した結果に基づいて前記入力実画像及び前記入力人為画像のドメインの差異を検出するドメイン差異検出部と、
前記ドメイン差異検出部によって検出されたドメインの差異に基づいて前記入力人為画像の注視領域を修正して人為画像を再生成する画像生成部と
を有することを特徴とする学習画像生成システム。

【請求項3】

請求項２に記載の学習画像生成システムであって、
前記ドメインの差異に基づいて前記第２注視領域の修正の要否を判定し、修正が必要と判定された場合に前記第２注視領域を修正する修正方法を決定する修正方法決定部を有し、
前記画像生成部は、
前記修正方法決定部によって決定された修正方法に従って前記第２注視領域を複数パターンに修正して複数の人為画像を再生成する
ことを特徴とする学習画像生成システム。

【請求項4】

請求項３に記載の学習画像生成システムであって、
前記ドメイン差異検出部は、
前記入力実画像及び前記入力人為画像のそれぞれから物体領域を検出する検出処理部と、
前記検出処理部によって検出された各物体領域を物体の部位へ分割する部位分割処理部と、
前記入力実画像及び前記入力人為画像から、前記推論処理の際に得られる前記第１注視領域と前記第２注視領域とを、注視点可視化技術により算出する注視点可視化処理部と、
前記注視点可視化処理部によって算出された前記第２注視領域が該当する前記部位の傾向と前記第１注視領域が該当する前記部位の傾向とを比較した結果に基づいて前記入力実画像及び前記入力人為画像のドメインの差異を検出するドメイン差異検出処理部と
を有することを特徴とする学習画像生成システム。

【請求項5】

請求項４に記載の学習画像生成システムであって、
前記入力実画像及び前記入力人為画像は、それぞれ複数であり、
前記第１注視領域が該当する前記部位の傾向は、複数の前記入力実画像の全てに対する該部位が該第１注視領域に該当する注視部位となる入力実画像の割合であり、
前記第２注視領域が該当する前記部位の傾向は、複数の前記入力人為画像の全てに対する該部位が該第２注視領域に該当する注視部位となる入力人為画像の割合である
ことを特徴とする学習画像生成システム。

【請求項6】

請求項３に記載の学習画像生成システムであって、
前記画像生成部は、
前記修正方法決定部によって前記第２注視領域の修正が不要と判定されるまで、前記修正方法決定部によって決定された修正方法に従って前記第２注視領域を修正して人為画像を再生成する
ことを特徴とする学習画像生成システム。

【請求項7】

請求項５に記載の学習画像生成システムであって、
前記ドメイン差異検出処理部は、
前記注視点可視化処理部によって算出された注視領域が、前記検出処理部によって検出された物体の部位を一定割合以上含む場合に該部位を注視部位とする処理を、全ての前記入力実画像及び全ての前記入力人為画像について実行し、全ての前記入力実画像に対する各部位が注視部位とされた入力実画像の第１の割合と、全ての前記人為画像に対する各部位が注視部位とされた入力人為画像の第２の割合とを計算し、該第２の割合が該第１の割合よりも大きくかつ該第１の割合と該第２の割合との差分が閾値以上である場合に、前記入力人為画像の注視領域の修正が必要と判定する
ことを特徴とする学習画像生成システム。

【請求項8】

請求項２に記載の学習画像生成システムであって、
前記画像生成部は、
前記実画像から、前記画像生成部よって修正される前記人為画像の注視領域及び該注視領域の付近の位置に該当する部品を抽出し、抽出した部品を前記人為画像の該位置に合成することで人為画像を再生成する
ことを特徴とする学習画像生成システム。

【請求項9】

請求項４、５、７の何れか１項に記載の学習画像生成システムであって、
前記人為画像は、ＣＧ（Computer Graphics）画像であり、
前記物体は、人物である
ことを特徴とする学習画像生成システム。

【請求項10】

請求項１～９の何れか１項に記載の学習画像生成システムと、
前記学習画像生成システムによって生成された人為画像を学習して識別器を生成する学習処理部と、
前記学習処理部によって生成された前記識別器を用いて画像に対して推論を行う推論処理部と
を有することを特徴とする画像認識システム。

【請求項11】

撮像装置によって取得された実画像とは異なる人為的に生成された人為画像を用いて学習用の画像データを生成する学習画像生成システムが行う学習画像生成方法であって、
入力された人為画像である入力人為画像を受付け、
認識モデルを用いて前記入力人為画像が実画像か人為画像かを判別する推論処理の際に、前記入力人為画像の注視領域を算出し、
前記入力人為画像の注視領域の傾向と所定基準とを比較した結果に基づいて前記入力人為画像の注視領域を修正して人為画像を再生成する
各処理を含んだことを特徴とする学習画像生成方法。

【請求項12】

撮像装置によって取得された実画像とは異なる人為的に生成された人為画像を用いて学習用の画像データを生成する学習画像生成システムとしてコンピュータを機能させるための学習画像生成プログラムであって、
前記コンピュータに、
入力された人為画像である入力人為画像を受付け、
認識モデルを用いて前記入力人為画像が実画像か人為画像かを判別する推論処理の際に、前記入力人為画像の注視領域を算出し、
前記入力人為画像の注視領域の傾向と所定基準とを比較した結果に基づいて前記入力人為画像の注視領域を修正して人為画像を再生成する
各処理を実行させることを特徴とする学習画像生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習画像生成システム、画像認識システム、画像認識方法、及び画像認識プログラムに関する。

【背景技術】

【0002】

近年、画像認識の分野では機械学習（例えばDeep Learning）を活用したシステムやサービスが増加している。Deep Learning（以下、ＤＬ）には、学習用の画像データに正解となるラベルを付けて学習する教師あり学習と、正解ラベルを付けずに学習を行い、学習用の画像データの特徴量を抽出する教師なし学習がある。例えば、入力画像に写る物体が「何か」を認識する画像分類問題や画像に写る物体が「正常か異常か」を判断する故障診断、人物画像から年齢を推定するといった回帰問題等をＤＬで解くためには、教師あり学習を用いる事が多い。

【0003】

教師あり学習は、一般的に学習に用いる画像データが多ければ多い程、学習後に生成するＤＬモデルの性能（認識精度・汎化性能等）が向上する。しかし学習画像データ収集には、収集にかかるコストや対象が人の場合プライバシーといった問題で学習に十分な画像データが収集できないケースがある。そこで、生成画像（ＣＧ画像）を活用して、不足分の学習データを補うといった手法が一般的に取られている。しかし、ＣＧ画像と実画像はドメイン間の差異（被写体の傾向、カメラ画角、背景、光加減等）が大きいため、ＣＧ画像のみの学習では、精度の高い認識モデルをＤＬにより生成するのは困難である。

【0004】

そこで特許文献１では、上述の課題に対し、学習に有効な人物のＣＧ画像が生成できるまで、ＣＧ画像生成と学習を繰り返し実施する手法を取っている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０２０－８７３１０号公報

【非特許文献】

【0006】

【非特許文献1】Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra, “Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization[v4],” [online], 3December 2019, [2021年6月1日検索], インターネット<URL:https://arxiv.org/abs/1610.02391v4>

【非特許文献2】Shan Yang, Tanya Ambert, ZherongPan, Ke Wang, Licheng Yu, Tamara Berg, Ming C. Lin, “Detailed GarmentRecovery from a Single-View Image”, [online], 12 September 2016, [2021年6月1日検索], インターネット<URL:https://arxiv.org/abs/1608.01250>

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら上述の特許文献１の従来技術では、具体的な修正箇所を定めずランダムに生成と学習を繰り返しているため、学習に有効な人物のＣＧ画像が生成できるまでに非常に大きな計算リソースと生成処理時間がかかる。

【0008】

本発明は、上述の問題に鑑みてなされたものであり、従来技術と比較して短時間でＤＬの学習に有効なＣＧ画像を生成できるようにすることを目的とする。

【課題を解決するための手段】

【0009】

上述した課題を解決するため、本発明の一態様では、撮像装置によって取得された実画像とは異なる人為的に生成された人為画像を用いて学習用の画像データを生成する学習画像生成システムであって、入力された人為画像である入力人為画像を受付け、認識モデルを用いて前記入力人為画像が実画像か人為画像かを判別する推論処理の際に、前記入力人為画像の注視領域を算出し、前記入力人為画像の注視領域の傾向と所定基準とを比較した結果に基づいて前記入力人為画像の注視領域を修正して人為画像を再生成することを特徴とする。

【発明の効果】

【0010】

本発明によれば、例えば、従来技術と比較して短時間でＤＬの学習に有効なＣＧ画像を生成できる。

【図面の簡単な説明】

【0011】

【図1】実施形態１に係るＡＩ学習画像生成システムの全体構成例を示すブロック図。

【図2】実施形態２に係るＡＩ学習画像生成システムの全体構成例を示すブロック図。

【図3】実施形態２に係るＡＩ学習画像生成処理手順例を示すフローチャート。

【図4】部位分割処理の実行結果例を示すイメージ図（実画像）。

【図5】注視点可視化処理の実行結果例を示すイメージ図（実画像）。

【図6】ドメイン差異検出処理の実行結果例を示すイメージ図（実画像）。

【図7】実画像の注視領域の傾向例を示すテーブル構成例。

【図8】部位分割処理の実行結果例を示すイメージ図（ＣＧ画像）。

【図9】注視点可視化処理の実行結果例を示すイメージ図（ＣＧ画像）。

【図10】ドメイン差異検出処理の実行結果例を示すイメージ図（ＣＧ画像）。

【図11】ＣＧ画像の注視領域の傾向例を示すテーブル構成例。

【図12】ＣＧ画像の修正後画像例を示すイメージ図。

【図13】実施形態３に係るＡＩ学習画像生成システムの全体構成例を示すブロック図。

【図14】実施形態３に係るＡＩ学習画像生成処理手順例を示すフローチャート。

【図15】実施形態１～３に係るＡＩ学習画像生成システムを含んだ画像認識システムの構成例を示すブロック図。

【図16】ＡＩ学習画像生成システム及びこれらを含んだ画像認識システムを実現するコンピュータのハードウェア構成例を示す図。

【発明を実施するための形態】

【0012】

以下、図面を参照して本発明の実施形態を説明する。実施形態は、本発明を説明するための例示に過ぎず、本発明を限定するものではなく、説明の明確化のため、適宜、省略及び簡略化がなされている。本発明は、他の種々の形態や各形態の一部又は全部を組合せた形態でも実施することが可能である。特に限定しない限り、各構成要素は単数でも複数でも良い。

【0013】

同一あるいは同様の機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。また、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。

【0014】

後出の実施形態の説明では、既出の実施形態との差分を中心に説明し、重複部分の説明は適宜省略する。また本明細書においてテーブル形式で表される情報は、テーブル形式に限らず他のデータ形式で表されても良い。

【0015】

以下の実施形態では、人為的に生成された人為画像の例として、人がコンピュータを用いて生成したＣＧ（Computer Graphics）画像を挙げている。人為画像には、ＣＧ画像に限らず、人手によるイラスト等がある。実画像は、カメラ等によって取得された動画像又は静止画像に含まれる人物等の物体を実写した画像である。

【0016】

以下の実施形態では、人物が含まれる実画像及び人為画像を対象とするが、本発明は、人物に限らず広く物体が含まれる実画像及び人為画像を対象とすることができる。

【0017】

以下の実施形態では、注視点可視化技術を用いて、ＣＧ画像と実画像の差異を明確化することで、具体的な修正箇所の特定や修正方針が立案でき、上述の特許文献１と比較して、短時間で学習に有効なＣＧ画像が生成できる。以下の実施形態では、ＣＧ画像と実画像の差異を、注視点可視化技術で得られる注視領域の傾向から判断する。例えば入力画像がＣＧ画像か実画像かを推論する認識モデルがＣＧ画像群と実画像群を推論した際の注視領域となる物体の部位の各傾向を分析した結果、傾向が異なる場合、各注視領域にＣＧ画像及び実画像を判別する特徴が存在する可能性が高い。よって、この注視領域の傾向を近づけるような修正をＣＧ画像に加えることにより、ＣＧ画像と実画像の差異が小さい、学習に有効なＣＧ画像を生成することが可能となる。

【0018】

具体的には、ＣＧ画像を生成する際、注視領域又は注視領域に近い位置の部品のパターンを増加（例えば、上半身の位置が注視領域の場合、服の種類を増加させるなど）させ、ＣＧ特有の特徴を弱めるという方法がある。またＣＧ画像の注視領域に近い位置の部品を実画像から生成し、ＣＧ画像を実画像に近い特徴に変換するといった方法でＣＧ画像を新たに生成するいう方法がある。

【0019】

［実施形態１］
先ず図１を参照して、実施形態１を説明する。実施形態１に係るＡＩ（Artificial
Intelligence）学習画像生成システム１は、Deep Learning（以下、ＤＬ）等の機械学習等のモデル学習の際に用いる学習用の画像データの不足を補うために学習データの水増し（データオーギュメンテーション）を、ＣＧ画像を用いて行う。

【0020】

（実施形態１に係るＡＩ学習画像生成システム１の全体構成）
図１は、実施形態１に係るＡＩ学習画像生成システム１の全体構成例を示すブロック図である。図１に示すように、ＡＩ学習画像生成システム１は、入力部２、ＣＧ画像ＤＢ（Data Base）３、ドメイン差異検出部４、ＣＧ画像修正方法決定部６、及びＣＧ画像生成部７を含んで構成される。入力部２は、カメラで撮影された静止画ファイルや動画ファイル等から実画像を取得する。ドメイン差異検出部４は、入力部２によって取得された実画像とＣＧ画像ＤＢ３に保存されているＣＧ画像のドメインの差異を、認識モデル５を用いて実画像とＣＧ画像を判別する推論を行った際に得た注視領域の傾向から検出する。ＣＧ画像修正方法決定部６は、ドメイン差異検出部４によって検出されたドメインの差異情報から、事前定義したルール等によりＣＧ画像の修正方法を決定する。ＣＧ画像生成部７は、ＣＧ画像修正方法決定部６によって決定された修正方法を基にＣＧ画像を再生成し、ＣＧ画像ＤＢ３に保存する。ＤＢは記憶部の一例である。

【0021】

［実施形態２］
次に図２～図１２を参照して、実施形態２を説明する。実施形態２では、ＡＩ学習画像生成システム１Ｂにより人物のＣＧ画像を生成する場合を例に説明する。実施形態２では、実画像及びＣＧ画像が人物の画像である例を挙げるが、本発明はこれに限らず、実画像及びＣＧ画像は物体の画像でも良い。

【0022】

（実施形態２に係るＡＩ学習画像生成システム１Ｂの全体構成）
図２は、実施形態２に係るＡＩ学習画像生成システム１Ｂの全体構成例を示すブロック図である。ＡＩ学習画像生成システム１Ｂにおけるドメイン差異検出部４Ｂは、人検出処理部４１、部位分割処理部４２、注視点可視化処理部４３、及びドメイン差異検出処理部４４を含んで構成される。またＡＩ学習画像生成システム１Ｂへ画像ファイルを入力する撮像装置８は、映像取得部８１及び映像送信部８２を含んで構成される。ＡＩ学習画像生成システム１Ｂ及び撮像装置８の各機能部の処理は、図３～図１２を参照して後述する。

【0023】

（実施形態２に係るＡＩ学習画像生成処理）
図３は、実施形態２に係るＡＩ学習画像生成処理手順例を示すフローチャートである。図４は、部位分割処理の実行結果例を示すイメージ図（実画像）である。図５は、注視点可視化処理の実行結果例を示すイメージ図（実画像）である。図６は、ドメイン差異検出処理の実行結果例を示すイメージ図（実画像）である。図７は、実画像の注視領域の傾向例を示すテーブル構成例である。図８は、部位分割処理の実行結果例を示すイメージ図（ＣＧ画像）である。図９は、注視点可視化処理の実行結果例を示すイメージ図（ＣＧ画像）である。図１０は、ドメイン差異検出処理の実行結果例を示すイメージ図（ＣＧ画像）である。図１１は、ＣＧ画像の注視領域の傾向例を示すテーブル構成例である。

【0024】

先ずＳ１０１では、撮像装置８は、監視カメラ等である映像取得部８１で実画像データの取得を行う。次にＳ１０２では、撮像装置８は、映像送信部８２で、映像取得部８１が撮影した実画像データをＡＩ学習画像生成システム１Ｂの入力部２へ送信する。

【0025】

次にＳ１０３では、ＡＩ学習画像生成システム１Ｂは、人検出処理部４１で、撮像装置８から入力部２を介して受信した実画像データから人物領域を切り出す。人物領域の切り出し処理は、例えば、ＤＬを用いた物体検出手法を活用しても良いし、ＨＯＧ（Histogram of Oriented Gradients）特徴量を用いて勾配強度を抽出し、ＳＶＭ（Support Vector Machine）で分類を行うといった従来の機械学習手法を活用しても良い。

【0026】

ＡＩ学習画像生成システム１Ｂは、実画像データから人が検出できた場合（Ｓ１０４ＹＥＳ）、部位分割処理部４２で、ＤＬの領域分割手法等を応用し、人物の画像を人体の部位毎に領域分割する（Ｓ１０５）。例えば、人物領域切り出し後の実画像Ｉ１０１（図４）を入力として部位分割処理部４２の処理を実行した場合、画像Ｉ１０２（図４）のように、画像中の人物の人体が頭、肩、腕、胴体等の複数の部位に領域分割される。

【0027】

またＡＩ学習画像生成システム１Ｂは、部位分割処理部の処理（Ｓ１０５）と並行して、注視点可視化処理部４３で、人物領域切り出し後の実画像Ｉ１０１（図５）を入力として認識モデル５を用いて入力画像がＣＧ画像か実画像かを判別する（Ｓ１０６）。そしてＡＩ学習画像生成システム１Ｂは、注視点可視化処理部４３で、Ｓ１０６の判別結果時に影響を与えた注視領域を、注視点可視化技術により、画像Ｉ１０３（図５）のように算出する（Ｓ１０７）。ここで用いる認識モデル５は、入力画像がＣＧ画像か実画像かを推論する認識モデルであり、ＤＬ等によって事前学習済みである。

【0028】

ここで注視点可視化技術とは、非特許文献１のように、認識モデルが画像を推論する際、推論結果に影響を与えた特徴部分を影響関数により特定する技術である。例えば、人物の髪型認識をする認識モデルの場合、頭部に注視領域が表示され、車両のメーカーを認識する認識モデルの場合は、車両のエンブレム部分に注視領域が表示される。このように、認識モデルが、画像を推論する際に画像中のどの領域に着目し、推論結果を算出したかを視覚的に確認することができるのが注視点可視化技術の特徴である。

【0029】

なおＳ１０５と、Ｓ１０６及びＳ１０７とは、並列処理されても良いし、順次処理されても良い。

【0030】

Ｓ１０５、Ｓ１０６及びＳ１０７が終了後のＳ１０８では、ＡＩ学習画像生成システム１Ｂは、ドメイン差異検出処理部４４で、部位分割処理（Ｓ１０５）の結果（画像Ｉ１０２（図４））と注視領域の算出処理（Ｓ１０７）の結果（画像Ｉ１０３（図５））を画像Ｉ１０４（図６）のように合成する。そして、実画像Ｉ１０１（図４～図６）に含まれる人物のどの部位に注視領域が算出されたかをカウントする（注視部位の特定）。画像Ｉ１０４の例では、頭と肩がカウントされている。カウントの基準は、部位の領域の一定割合以上を注視領域が囲んだ場合でも良いし、部位の領域全てを注視領域が囲んだ場合でも良い。あるいはユーザにより自由に設定可能としても良い。

【0031】

ＡＩ学習画像生成システム１Ｂは、以上のＳ１０１からＳ１０８までの処理を一定枚数以上の実画像で繰り返し実施した後（Ｓ１０９ＹＥＳ）、実画像について注視領域をカウントした結果を基に注視領域が算出された割合を部位毎に計算する。そして計算結果を図７のようにテーブルＴ１０１（図７）の実画像のカラムに保存する（Ｓ１１０）。注視領域の算出割合とは、例えば図７では、実画像の総数が１００枚のうち８０枚で頭部が注視領域（注視部位）として算出された場合に、頭部の算出割合が８０％となる。テーブルＴ１０１は、ＣＧ画像修正方法決定部６が参照可能な記憶領域に格納される。

【0032】

なおテーブルＴ１０１における実画像の各部位の算出割合は、事前に固定値として与えられてもよい。この場合には、Ｓ１０３からＳ１１０の処理は、実画像については省略され、ＣＧ画像についてのみ実行される。テーブルＴ１０１における実画像の各部位の算出割合が事前に固定値として与えられる場合には、ＣＧ画像のみについて注視領域の抽出と部位分割を行うので、処理負荷の軽減を図ることができる。

【0033】

以上、実画像にてＳ１０１からＳ１１０までの処理が実行終了後、ＣＧ画像についてもＳ１０３からＳ１１０までの処理を同様に実行する。例えば、修正前のＣＧ画像は、いずれも背景部分が実画像と比較して画像Ｉ２０１（図８及び図９）のようにグレースケールで単調という特徴があるとする。その場合、部位分割処理部４２の処理結果は、画像Ｉ２０２（図８）のように実画像（画像Ｉ１０２（図４））と同様の結果となるが、注視点可視化処理部４３の処理結果は、画像Ｉ２０３（図９）のように、単調な背景部分（人物領域外）がＣＧ画像としての特徴となり、注視領域として算出される。

【0034】

その後、ＡＩ学習画像生成システム１Ｂは、ドメイン差異検出処理部４４で、部位分割処理（Ｓ１０５）の結果（画像Ｉ２０２（図８））と注視領域の算出処理（Ｓ１０７）の結果（画像Ｉ２０３（図９））を画像Ｉ２０４（図１０）のように合成することで、実画像Ｉ２０１（図８、図９、図１０）に含まれる人物のどの部位に注視領域（注視部位）が算出されたかをカウントする。画像Ｉ２０４（図１０）の例では、人物領域外がカウントされ、テーブルＴ１０１（図１１）のように注視領域（注視部位）として人物領域外の算出割合が７０％と高くなっている。

【0035】

ＡＩ学習画像生成システム１Ｂは、以上の例のようにＳ１０３からＳ１０８までの処理を一定枚数以上のＣＧ画像で繰り返し実施した後（Ｓ１０９ＹＥＳ）、ＣＧ画像について注視領域をカウントした結果を基に注視領域が算出された割合を部位毎に計算し、テーブルＴ１０１（図１１）のＣＧ画像のカラムに保存する（Ｓ１１１）。

【0036】

次にＳ１１２では、ＣＧ画像修正方法決定部６は、ＣＧ画像の修正が必要か否かを判定する。ＣＧ画像修正方法決定部６は、例えば実画像とＣＧ画像とで部位毎の注視領域としての算出割合がＣＧ画像の方が実画像よりも大きくかつこれらの差分が閾値以上であればＣＧ画像の修正が必要と判定し、それ以外であればＣＧ画像の修正は不要と判定する。ＣＧ画像修正方法決定部６は、ＣＧ画像の修正が必要な場合（Ｓ１１２ＹＥＳ）にＳ１１３へ処理を移し、ＣＧ画像の修正が必要でない場合（Ｓ１１２ＮＯ）にＡＩ学習画像生成処理を終了する。Ｓ１０３からＳ１１２ＹＥＳ、Ｓ１１３、及びＳ１１４を経てＳ１０３へ戻るループが繰り返されることで、ＣＧ画像の注視領域の傾向が実画像に近付いていく。

【0037】

Ｓ１１３では、ＣＧ画像修正方法決定部６は、図１１のようにテーブルＴ１０１に保存された注視領域の傾向から、ＣＧ画像の修正方法を決定する。以下、図１１に示すテーブルＴ１０１の結果を例に説明する。テーブルＴ１０１の実画像とＣＧ画像の注視領域の傾向を比較すると、実画像は頭部や肩に多く注視領域が算出されたのに対して、ＣＧ画像では人物領域外に多くの注視領域が算出されていることがわかる。Ｓ１１２での判定における閾値を６０％とした場合、算出割合がＣＧ画像の方が実画像よりも大きくかつ差分が閾値以上であるのは、人物領域外である。このことから、ＣＧ画像の人物領域外（背景部分）にＣＧ画像特有の特徴が出ており、この特徴を弱めるため、ＣＧ画像の背景パターンを増加させるといった修正方針を決定することができる。修正対象となる部位は、実画像とＣＧ画像の注視領域としての算出割合の比較結果から、複数になる場合もある。修正方針は、事前にルール化され、この事前ルールから自動で選択されても良い。または修正方針は、ユーザによってテーブルＴ１０１に保存されている結果に基づいて検討されても良い。

【0038】

次にＳ１１４では、ＣＧ画像生成部７は、Ｓ１１３で決定された修正方針に従って、例えば、画像Ｉ３０１、Ｉ３０２、Ｉ３０３（図１２）のように背景を様々なパターンに修正変更したＣＧ画像を一定枚数以上再生成し、ＣＧ画像ＤＢ３に保存する。Ｓ１１４が終了すると、Ｓ１０３へ処理を移し、ＣＧ画像の修正が必要なくなるまで（Ｓ１１２ＮＯ）、Ｓ１０３からＳ１１４の処理を繰り返す。

【0039】

（実施形態２の効果）
上述の実施形態２では、認識モデルを用いて画像が実画像かＣＧ画像かを判別する推論処理の際に、入力されたＣＧ画像の注視領域を算出し、この注視領域の傾向と所定基準とを比較した結果に基づいて入力されたＣＧ画像の注視領域を修正してＣＧ画像を再生成する。よって、注視領域を手掛かりに学習に関して望ましくないＣＧ画像の特徴を望ましい所定基準へと近づける修正を行うことで、学習に有効なＣＧ画像の学習データを短時間で大量に作成することができる。

【0040】

また上述の実施形態２では、ＣＧ画像の注視領域の傾向と実画像の注視領域の傾向とを比較した結果に基づいて入力されたＣＧ画像の注視領域を修正してＣＧ画像を再生成する。よって、注視領域を手掛かりに学習に関して望ましくないＣＧ画像の特徴を望ましい実画像の注視領域の特徴へと近づける修正を行うことで、学習に有効なＣＧ画像の学習データを短時間で大量に作成することができる。

【0041】

また上述の実施形態２では、ＣＧ画像の注視領域の傾向と実画像の注視領域の傾向との比較に基づくドメインの差異に基づいてＣＧ画像の注視領域の修正の要否を判定し、修正が必要と判定された場合にＣＧ画像の注視領域を修正する修正方法を決定する。よって、注視領域の修正が必要なＣＧ画像に絞って注視領域の修正を行うことで、無駄な修正処理を行わず、効率的にＣＧ画像の注視領域の修正を行うことができる。また決定された修正方法に従ってＣＧ画像の注視領域を複数パターンに修正して複数の人為画像を再生成することで、効率的に学習画像データを短時間で大量に作成することができる。

【0042】

また上述の実施形態２では、実画像及びＣＧ画像から抽出された物体（人体）の部位毎に注視領域が該当する各傾向の差異に基づいて実画像及びＣＧ画像のドメインの差異を検出する。よって、注視領域の傾向を、部位毎に見ることで、ドメインの差異の検出感度を高めると共に、注視領域の修正箇所を部位単位で把握することができる。

【0043】

また上述の実施形態２では、実画像及びＣＧ画像は、それぞれ複数である。実画像の注視領域が該当する部位の傾向は、複数の入力実画像の全てに対して各部位が注視領域に該当する注視部位となる入力実画像の割合である。またＣＧ画像の注視領域が該当する部位の傾向は、複数の入力ＣＧ画像の全てに対して各部位が注視領域に該当する注視部位となる入力人為画像の割合である。よって、注視領域の傾向を、部位毎に定量的に見ることで、ドメインの差異及び注視領域の修正箇所の検出精度を高めることができる。

【0044】

また上述の実施形態２では、入力ＣＧ画像の注視領域の修正が不要と判定されるまで、決定された修正方法に従って入力ＣＧ画像の注視領域を修正して人為画像を再生成する。よって、入力ＣＧ画像の注視領域の修正要否の判定処理毎に、学習に好ましくないＣＧ画像の特徴が修正され、学習に好ましい特徴を持つＣＧ画像が生成されるようになる。

【0045】

また上述の実施形態２では、注視領域が物体の部位を一定割合以上含む場合に部位を注視部位とする処理を、全ての入力実画像及び全ての入力ＣＧ画像について実行する。そして、全ての入力実画像に対して各部位が注視部位とされた入力実画像の第１の割合と、全てのＣＧ画像に対して各部位が注視部位とされた入力ＣＧ画像の第２の割合とを計算する。第２の割合が第１の割合よりも大きくかつ第１の割合と第２の割合との差分が閾値以上である場合に、入力ＣＧ画像の注視領域の修正が必要と判定する。よって、実画像との特徴の差が一定以上あるＣＧ画像を注視領域の修正が必要であると定量的に判断するので、明確な基準に基づき精度よく効率的に注視領域の修正の要否を判断できる。

【0046】

［実施形態３］
次に図１３～図１４を参照して、実施形態３を説明する。実施形態３では、ＣＧ画像の注視領域及び注視領域の付近の位置に該当する部品（実施形態２では人物の背景）のパターンを増加させ、ＣＧ画像特有の特徴を弱めている。しかし、所持する部品（ＣＧのモデルデータ）が数種類と少ない場合、修正対象の部品を様々なパターンに変更したＣＧ画像を生成するには、人手でＣＧの部品（例えば様々な服の種類のモデルデータ等）を作成し、パターンを増加する必要がある。その場合、修正方針に則ったＣＧ画像の生成に多くの工数を要する可能性がある。

【0047】

そこで、実施形態３のＡＩ学習画像生成システム１Ｃは、部品のパターンを自動で増加させる機能を備える。

【0048】

図１３は、実施形態３に係るＡＩ学習画像生成システム１Ｃの全体構成例を示すブロック図である。図１４は、実施形態３に係るＡＩ学習画像生成処理手順例を示すフローチャートである。ＡＩ学習画像生成システム１ＣのＣＧ画像生成部７Ｃは、３Ｄモデル化処理部７１、モデル合成処理部７２、及び２Ｄ画像変換処理部７３を含んで構成される。その他は、ＡＩ学習画像生成システム１Ｃは、実施形態２のＡＩ学習画像生成システム１Ｂと同様である。ＡＩ学習画像生成システム１Ｃの各機能部の処理は、図１４を参照して後述する。

【0049】

実施形態３に係るＡＩ学習画像生成処理では、Ｓ１１３までは図３と同様であり、Ｓ１１３の実行終了後、Ｓ１１４に代えてＳ２０１からＳ２０５（図１４）が実行され、Ｓ２０５の実行終了後、Ｓ１０３（図３）へ処理が戻される。

【0050】

Ｓ１１３の実行後、Ｓ２０１では、３Ｄモデル化処理部７１は、実画像を２次元の画像データから３次元の立体モデル（３Ｄモデル）に変換する。例えば、非特許文献２のDetailed Garment Recovery from a Single-View Imageを応用し、入力した実画像から、衣服の領域、人物の体系を計算し、衣服と人体の３Ｄモデルに再構成する。これにより、実画像からパターン増加に必要な部品を３Ｄモデルとして抽出することが可能となる。部品を３Ｄモデルとして抽出することで、様々な姿勢や体型の３Ｄ人体モデルに対して抽出した部品の３Ｄモデルを合成することができる。

【0051】

次にＳ２０２では、３Ｄモデル化処理部７１は、上述のように修正が必要な部品（例えば上着部分）の３Ｄモデルを実画像から一定数以上取得する。次にＳ２０３では、モデル合成処理部７２は、ＣＧで生成した様々な人体の３Ｄモデルに、Ｓ２０２で取得した部品（例えば上着）の３Ｄモデルをランダムに合成する。次にＳ２０４では、２Ｄ画像変換処理部７３は、Ｓ２０３で合成したＣＧの３Ｄモデルを特定方向から撮影したように２次元の画像データに変換処理を施す。次にＳ２０５では、ＣＧ画像生成部７Ｃは、Ｓ２０３及びＳ２０４の処理を一定枚数以上実施し、ＣＧ画像を再生成する。Ｓ２０５が終了すると、ＣＧ画像生成部７Ｃは、Ｓ１０３（図３）へ処理を戻す。

【0052】

上述の実施形態３では、実画像から、修正されるＣＧ画像の注視領域及び注視領域の付近の位置に該当する部品を抽出し、抽出した部品をＣＧ画像の同位置に合成することでＣＧ画像を再生成する。よって、修正が必要な部品のパターンを自動で増加させ、効率的に大量かつ迅速に学習用のＣＧ画像を生成することができる。

【0053】

［実施形態４］
上述の実施形態１～３のＡＩ学習画像生成システム１、１Ｂ、１Ｃは、画像認識システムへ適用可能である。図１５は、実施形態１～３に係るＡＩ学習画像生成システム１、１Ｂ、１Ｃの何れか１つを含んだ画像認識システム１０の構成例を示すブロック図である。画像認識システム１０は、ＡＩ学習画像生成システム１（または１Ｂ、１Ｃ）、学習用画像ＤＢ１１、学習処理部１２、識別器１３、推論用画像ＤＢ１４、及び推論処理部１５を含んで構成される。

【0054】

学習用画像ＤＢ１１は、ＡＩ学習画像生成システム１（または１Ｂ、１Ｃ）によってＣＧ画像を用いて生成された学習用画像データを格納する。学習処理部１２は、学習画像生成システム１（または１Ｂ、１Ｃ）によって生成されたＣＧ画像を学習して識別器１３を生成する。推論用画像ＤＢ１４は、推論用画像データを格納する。推論処理部１５は、学習処理部によって生成された識別器１３を用いて、推論用画像ＤＢ１４に格納されている推論用画像データに対して推論を行い、推論結果を出力する。

【0055】

（ＡＩ学習画像生成システム１、１Ｂ、１Ｃ及びこれら含んだ画像認識システム１０を実現するコンピュータ５００のハードウェア）
図１６は、ＡＩ学習画像生成システム１、１Ｂ、１Ｃ及びこれら含んだ画像認識システム１０の各システムを実現するコンピュータ５００のハードウェア構成例を示す図である。コンピュータ５００では、ＣＰＵ（Central Processing Unit）等のプロセッサ５１０、ＲＡＭ（Random Access Memory）等のメモリ５２０、ＳＳＤ（Solid State Drive）やＨＤＤ（Hard Disk Drive）等のストレージ５３０、ネットワークＩ／Ｆ（Inter/Face）５４０、入出力装置５５０（例えばキーボード、マウス、タッチパネル、ディスプレイ等）、及び周辺装置５６０が、バスを介して接続されている。

【0056】

コンピュータ５００において、ＡＩ学習画像生成システム１、１Ｂ、１Ｃ及びこれら含んだ画像認識システム１０の各システムを実現するためのプログラムがストレージ５３０から読み出されプロセッサ５１０及びメモリ５２０の協働により実行されることで、各システムが実現される。あるいは、各システムを実現するためのプログラムは、ネットワークＩ／Ｆ５４０を介した通信により非一時的な記憶装置を備えた外部のコンピュータから取得されても良い。あるいは各システムを実現するためのプログラムは、非一時的記録媒体に記録され、媒体読み取り装置によって読み出されることで取得されても良い。

【0057】

本発明は上述の実施形態に限定されるものではなく、様々な変形例を含む。例えば、上述した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、矛盾しない限りにおいて、ある実施形態の構成の一部を他の実施形態の構成で置き換え、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、構成の追加、削除、置換、統合、又は分散をすることが可能である。また、実施形態で示した構成及び処理は、処理効率又は実装効率に基づいて適宜分散、統合、又は入れ替えることが可能である。

【符号の説明】

【0058】

１，１Ｂ，１Ｃ：ＡＩ学習画像生成システム、４：ドメイン差異検出部、４１：人検出処理部、４２：部位分割処理部、４３：注視点可視化処理部、４４：ドメイン差異検出処理部、５：認識モデル、６：ＣＧ画像修正方法決定部、７：ＣＧ画像生成部、７１：３Ｄモデル化処理部、７２：モデル合成処理部、７３：２Ｄ画像変換処理部、８：撮像装置、１０：画像認識システム、１１：学習用画像ＤＢ、１２：学習処理部、１３：識別器、１４：推論用画像ＤＢ、１５：推論処理部、５００：コンピュータ

【図1】