(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023012907
(43)【公開日】2023-01-26
(54)【発明の名称】学習画像生成システム、画像認識システム、画像認識方法、及び画像認識プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230119BHJP
G06N 20/00 20190101ALI20230119BHJP
【FI】
G06T7/00 350B
G06N20/00
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2021116665
(22)【出願日】2021-07-14
(71)【出願人】
【識別番号】000153443
【氏名又は名称】株式会社 日立産業制御ソリューションズ
(74)【代理人】
【識別番号】110002365
【氏名又は名称】特許業務法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】三沢 博章
(72)【発明者】
【氏名】古川 博基
(72)【発明者】
【氏名】日下 隆浩
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA08
5L096CA02
5L096CA27
5L096DA01
5L096EA35
5L096FA69
5L096JA11
5L096KA04
5L096KA13
(57)【要約】
【課題】短時間でDeep Learningの学習に有効なCG画像を生成できるようにする。
【解決手段】撮像装置によって取得された実画像とは異なる人為的に生成された人為画像を用いて学習用の画像データを生成する学習画像生成システムは、入力された人為画像である入力人為画像を受付け、認識モデルを用いて入力人為画像が実画像か人為画像かを判別する推論処理の際に、入力人為画像の注視領域を算出し、入力人為画像の注視領域の傾向と所定基準とを比較した結果に基づいて入力人為画像の注視領域を修正して人為画像を再生成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
撮像装置によって取得された実画像とは異なる人為的に生成された人為画像を用いて学習用の画像データを生成する学習画像生成システムであって、
入力された人為画像である入力人為画像を受付け、
認識モデルを用いて前記入力人為画像が実画像か人為画像かを判別する推論処理の際に、前記入力人為画像の注視領域を算出し、
前記入力人為画像の注視領域の傾向と所定基準とを比較した結果に基づいて前記入力人為画像の注視領域を修正して人為画像を再生成する
ことを特徴とする学習画像生成システム。
【請求項2】
請求項1に記載の学習画像生成システムであって、
入力された実画像である入力実画像及び前記入力人為画像を受付ける入力部と、
前記入力実画像及び前記入力人為画像から、前記推論処理の際に得られる該入力実画像の第1注視領域と該入力人為画像の第2注視領域とを、注視点可視化技術により算出し、該第2注視領域と、前記所定基準として該第1注視領域とを比較した結果に基づいて前記入力実画像及び前記入力人為画像のドメインの差異を検出するドメイン差異検出部と、
前記ドメイン差異検出部によって検出されたドメインの差異に基づいて前記入力人為画像の注視領域を修正して人為画像を再生成する画像生成部と
を有することを特徴とする学習画像生成システム。
【請求項3】
請求項2に記載の学習画像生成システムであって、
前記ドメインの差異に基づいて前記第2注視領域の修正の要否を判定し、修正が必要と判定された場合に前記第2注視領域を修正する修正方法を決定する修正方法決定部を有し、
前記画像生成部は、
前記修正方法決定部によって決定された修正方法に従って前記第2注視領域を複数パターンに修正して複数の人為画像を再生成する
ことを特徴とする学習画像生成システム。
【請求項4】
請求項3に記載の学習画像生成システムであって、
前記ドメイン差異検出部は、
前記入力実画像及び前記入力人為画像のそれぞれから物体領域を検出する検出処理部と、
前記検出処理部によって検出された各物体領域を物体の部位へ分割する部位分割処理部と、
前記入力実画像及び前記入力人為画像から、前記推論処理の際に得られる前記第1注視領域と前記第2注視領域とを、注視点可視化技術により算出する注視点可視化処理部と、
前記注視点可視化処理部によって算出された前記第2注視領域が該当する前記部位の傾向と前記第1注視領域が該当する前記部位の傾向とを比較した結果に基づいて前記入力実画像及び前記入力人為画像のドメインの差異を検出するドメイン差異検出処理部と
を有することを特徴とする学習画像生成システム。
【請求項5】
請求項4に記載の学習画像生成システムであって、
前記入力実画像及び前記入力人為画像は、それぞれ複数であり、
前記第1注視領域が該当する前記部位の傾向は、複数の前記入力実画像の全てに対する該部位が該第1注視領域に該当する注視部位となる入力実画像の割合であり、
前記第2注視領域が該当する前記部位の傾向は、複数の前記入力人為画像の全てに対する該部位が該第2注視領域に該当する注視部位となる入力人為画像の割合である
ことを特徴とする学習画像生成システム。
【請求項6】
請求項3に記載の学習画像生成システムであって、
前記画像生成部は、
前記修正方法決定部によって前記第2注視領域の修正が不要と判定されるまで、前記修正方法決定部によって決定された修正方法に従って前記第2注視領域を修正して人為画像を再生成する
ことを特徴とする学習画像生成システム。
【請求項7】
請求項5に記載の学習画像生成システムであって、
前記ドメイン差異検出処理部は、
前記注視点可視化処理部によって算出された注視領域が、前記検出処理部によって検出された物体の部位を一定割合以上含む場合に該部位を注視部位とする処理を、全ての前記入力実画像及び全ての前記入力人為画像について実行し、全ての前記入力実画像に対する各部位が注視部位とされた入力実画像の第1の割合と、全ての前記人為画像に対する各部位が注視部位とされた入力人為画像の第2の割合とを計算し、該第2の割合が該第1の割合よりも大きくかつ該第1の割合と該第2の割合との差分が閾値以上である場合に、前記入力人為画像の注視領域の修正が必要と判定する
ことを特徴とする学習画像生成システム。
【請求項8】
請求項2に記載の学習画像生成システムであって、
前記画像生成部は、
前記実画像から、前記画像生成部よって修正される前記人為画像の注視領域及び該注視領域の付近の位置に該当する部品を抽出し、抽出した部品を前記人為画像の該位置に合成することで人為画像を再生成する
ことを特徴とする学習画像生成システム。
【請求項9】
請求項4、5、7の何れか1項に記載の学習画像生成システムであって、
前記人為画像は、CG(Computer Graphics)画像であり、
前記物体は、人物である
ことを特徴とする学習画像生成システム。
【請求項10】
請求項1~9の何れか1項に記載の学習画像生成システムと、
前記学習画像生成システムによって生成された人為画像を学習して識別器を生成する学習処理部と、
前記学習処理部によって生成された前記識別器を用いて画像に対して推論を行う推論処理部と
を有することを特徴とする画像認識システム。
【請求項11】
撮像装置によって取得された実画像とは異なる人為的に生成された人為画像を用いて学習用の画像データを生成する学習画像生成システムが行う学習画像生成方法であって、
入力された人為画像である入力人為画像を受付け、
認識モデルを用いて前記入力人為画像が実画像か人為画像かを判別する推論処理の際に、前記入力人為画像の注視領域を算出し、
前記入力人為画像の注視領域の傾向と所定基準とを比較した結果に基づいて前記入力人為画像の注視領域を修正して人為画像を再生成する
各処理を含んだことを特徴とする学習画像生成方法。
【請求項12】
撮像装置によって取得された実画像とは異なる人為的に生成された人為画像を用いて学習用の画像データを生成する学習画像生成システムとしてコンピュータを機能させるための学習画像生成プログラムであって、
前記コンピュータに、
入力された人為画像である入力人為画像を受付け、
認識モデルを用いて前記入力人為画像が実画像か人為画像かを判別する推論処理の際に、前記入力人為画像の注視領域を算出し、
前記入力人為画像の注視領域の傾向と所定基準とを比較した結果に基づいて前記入力人為画像の注視領域を修正して人為画像を再生成する
各処理を実行させることを特徴とする学習画像生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習画像生成システム、画像認識システム、画像認識方法、及び画像認識プログラムに関する。
【背景技術】
【0002】
近年、画像認識の分野では機械学習(例えばDeep Learning)を活用したシステムやサービスが増加している。Deep Learning(以下、DL)には、学習用の画像データに正解となるラベルを付けて学習する教師あり学習と、正解ラベルを付けずに学習を行い、学習用の画像データの特徴量を抽出する教師なし学習がある。例えば、入力画像に写る物体が「何か」を認識する画像分類問題や画像に写る物体が「正常か異常か」を判断する故障診断、人物画像から年齢を推定するといった回帰問題等をDLで解くためには、教師あり学習を用いる事が多い。
【0003】
教師あり学習は、一般的に学習に用いる画像データが多ければ多い程、学習後に生成するDLモデルの性能(認識精度・汎化性能等)が向上する。しかし学習画像データ収集には、収集にかかるコストや対象が人の場合プライバシーといった問題で学習に十分な画像データが収集できないケースがある。そこで、生成画像(CG画像)を活用して、不足分の学習データを補うといった手法が一般的に取られている。しかし、CG画像と実画像はドメイン間の差異(被写体の傾向、カメラ画角、背景、光加減等)が大きいため、CG画像のみの学習では、精度の高い認識モデルをDLにより生成するのは困難である。
【0004】
そこで特許文献1では、上述の課題に対し、学習に有効な人物のCG画像が生成できるまで、CG画像生成と学習を繰り返し実施する手法を取っている。
【先行技術文献】
【特許文献】
【0005】
【非特許文献】
【0006】
【非特許文献1】Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra, “Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization[v4],” [online], 3December 2019, [2021年6月1日検索], インターネット<URL:https://arxiv.org/abs/1610.02391v4>
【非特許文献2】Shan Yang, Tanya Ambert, ZherongPan, Ke Wang, Licheng Yu, Tamara Berg, Ming C. Lin, “Detailed GarmentRecovery from a Single-View Image”, [online], 12 September 2016, [2021年6月1日検索], インターネット<URL:https://arxiv.org/abs/1608.01250>
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら上述の特許文献1の従来技術では、具体的な修正箇所を定めずランダムに生成と学習を繰り返しているため、学習に有効な人物のCG画像が生成できるまでに非常に大きな計算リソースと生成処理時間がかかる。
【0008】
本発明は、上述の問題に鑑みてなされたものであり、従来技術と比較して短時間でDLの学習に有効なCG画像を生成できるようにすることを目的とする。
【課題を解決するための手段】
【0009】
上述した課題を解決するため、本発明の一態様では、撮像装置によって取得された実画像とは異なる人為的に生成された人為画像を用いて学習用の画像データを生成する学習画像生成システムであって、入力された人為画像である入力人為画像を受付け、認識モデルを用いて前記入力人為画像が実画像か人為画像かを判別する推論処理の際に、前記入力人為画像の注視領域を算出し、前記入力人為画像の注視領域の傾向と所定基準とを比較した結果に基づいて前記入力人為画像の注視領域を修正して人為画像を再生成することを特徴とする。
【発明の効果】
【0010】
本発明によれば、例えば、従来技術と比較して短時間でDLの学習に有効なCG画像を生成できる。
【図面の簡単な説明】
【0011】
【
図1】実施形態1に係るAI学習画像生成システムの全体構成例を示すブロック図。
【
図2】実施形態2に係るAI学習画像生成システムの全体構成例を示すブロック図。
【
図3】実施形態2に係るAI学習画像生成処理手順例を示すフローチャート。
【
図4】部位分割処理の実行結果例を示すイメージ図(実画像)。
【
図5】注視点可視化処理の実行結果例を示すイメージ図(実画像)。
【
図6】ドメイン差異検出処理の実行結果例を示すイメージ図(実画像)。
【
図7】実画像の注視領域の傾向例を示すテーブル構成例。
【
図8】部位分割処理の実行結果例を示すイメージ図(CG画像)。
【
図9】注視点可視化処理の実行結果例を示すイメージ図(CG画像)。
【
図10】ドメイン差異検出処理の実行結果例を示すイメージ図(CG画像)。
【
図11】CG画像の注視領域の傾向例を示すテーブル構成例。
【
図12】CG画像の修正後画像例を示すイメージ図。
【
図13】実施形態3に係るAI学習画像生成システムの全体構成例を示すブロック図。
【
図14】実施形態3に係るAI学習画像生成処理手順例を示すフローチャート。
【
図15】実施形態1~3に係るAI学習画像生成システムを含んだ画像認識システムの構成例を示すブロック図。
【
図16】AI学習画像生成システム及びこれらを含んだ画像認識システムを実現するコンピュータのハードウェア構成例を示す図。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施形態を説明する。実施形態は、本発明を説明するための例示に過ぎず、本発明を限定するものではなく、説明の明確化のため、適宜、省略及び簡略化がなされている。本発明は、他の種々の形態や各形態の一部又は全部を組合せた形態でも実施することが可能である。特に限定しない限り、各構成要素は単数でも複数でも良い。
【0013】
同一あるいは同様の機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。また、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。
【0014】
後出の実施形態の説明では、既出の実施形態との差分を中心に説明し、重複部分の説明は適宜省略する。また本明細書においてテーブル形式で表される情報は、テーブル形式に限らず他のデータ形式で表されても良い。
【0015】
以下の実施形態では、人為的に生成された人為画像の例として、人がコンピュータを用いて生成したCG(Computer Graphics)画像を挙げている。人為画像には、CG画像に限らず、人手によるイラスト等がある。実画像は、カメラ等によって取得された動画像又は静止画像に含まれる人物等の物体を実写した画像である。
【0016】
以下の実施形態では、人物が含まれる実画像及び人為画像を対象とするが、本発明は、人物に限らず広く物体が含まれる実画像及び人為画像を対象とすることができる。
【0017】
以下の実施形態では、注視点可視化技術を用いて、CG画像と実画像の差異を明確化することで、具体的な修正箇所の特定や修正方針が立案でき、上述の特許文献1と比較して、短時間で学習に有効なCG画像が生成できる。以下の実施形態では、CG画像と実画像の差異を、注視点可視化技術で得られる注視領域の傾向から判断する。例えば入力画像がCG画像か実画像かを推論する認識モデルがCG画像群と実画像群を推論した際の注視領域となる物体の部位の各傾向を分析した結果、傾向が異なる場合、各注視領域にCG画像及び実画像を判別する特徴が存在する可能性が高い。よって、この注視領域の傾向を近づけるような修正をCG画像に加えることにより、CG画像と実画像の差異が小さい、学習に有効なCG画像を生成することが可能となる。
【0018】
具体的には、CG画像を生成する際、注視領域又は注視領域に近い位置の部品のパターンを増加(例えば、上半身の位置が注視領域の場合、服の種類を増加させるなど)させ、CG特有の特徴を弱めるという方法がある。またCG画像の注視領域に近い位置の部品を実画像から生成し、CG画像を実画像に近い特徴に変換するといった方法でCG画像を新たに生成するいう方法がある。
【0019】
[実施形態1]
先ず
図1を参照して、実施形態1を説明する。実施形態1に係るAI(Artificial
Intelligence)学習画像生成システム1は、Deep Learning(以下、DL)等の機械学習等のモデル学習の際に用いる学習用の画像データの不足を補うために学習データの水増し(データオーギュメンテーション)を、CG画像を用いて行う。
【0020】
(実施形態1に係るAI学習画像生成システム1の全体構成)
図1は、実施形態1に係るAI学習画像生成システム1の全体構成例を示すブロック図である。
図1に示すように、AI学習画像生成システム1は、入力部2、CG画像DB(Data Base)3、ドメイン差異検出部4、CG画像修正方法決定部6、及びCG画像生成部7を含んで構成される。入力部2は、カメラで撮影された静止画ファイルや動画ファイル等から実画像を取得する。ドメイン差異検出部4は、入力部2によって取得された実画像とCG画像DB3に保存されているCG画像のドメインの差異を、認識モデル5を用いて実画像とCG画像を判別する推論を行った際に得た注視領域の傾向から検出する。CG画像修正方法決定部6は、ドメイン差異検出部4によって検出されたドメインの差異情報から、事前定義したルール等によりCG画像の修正方法を決定する。CG画像生成部7は、CG画像修正方法決定部6によって決定された修正方法を基にCG画像を再生成し、CG画像DB3に保存する。DBは記憶部の一例である。
【0021】
[実施形態2]
次に
図2~
図12を参照して、実施形態2を説明する。実施形態2では、AI学習画像生成システム1Bにより人物のCG画像を生成する場合を例に説明する。実施形態2では、実画像及びCG画像が人物の画像である例を挙げるが、本発明はこれに限らず、実画像及びCG画像は物体の画像でも良い。
【0022】
(実施形態2に係るAI学習画像生成システム1Bの全体構成)
図2は、実施形態2に係るAI学習画像生成システム1Bの全体構成例を示すブロック図である。AI学習画像生成システム1Bにおけるドメイン差異検出部4Bは、人検出処理部41、部位分割処理部42、注視点可視化処理部43、及びドメイン差異検出処理部44を含んで構成される。またAI学習画像生成システム1Bへ画像ファイルを入力する撮像装置8は、映像取得部81及び映像送信部82を含んで構成される。AI学習画像生成システム1B及び撮像装置8の各機能部の処理は、
図3~
図12を参照して後述する。
【0023】
(実施形態2に係るAI学習画像生成処理)
図3は、実施形態2に係るAI学習画像生成処理手順例を示すフローチャートである。
図4は、部位分割処理の実行結果例を示すイメージ図(実画像)である。
図5は、注視点可視化処理の実行結果例を示すイメージ図(実画像)である。
図6は、ドメイン差異検出処理の実行結果例を示すイメージ図(実画像)である。
図7は、実画像の注視領域の傾向例を示すテーブル構成例である。
図8は、部位分割処理の実行結果例を示すイメージ図(CG画像)である。
図9は、注視点可視化処理の実行結果例を示すイメージ図(CG画像)である。
図10は、ドメイン差異検出処理の実行結果例を示すイメージ図(CG画像)である。
図11は、CG画像の注視領域の傾向例を示すテーブル構成例である。
【0024】
先ずS101では、撮像装置8は、監視カメラ等である映像取得部81で実画像データの取得を行う。次にS102では、撮像装置8は、映像送信部82で、映像取得部81が撮影した実画像データをAI学習画像生成システム1Bの入力部2へ送信する。
【0025】
次にS103では、AI学習画像生成システム1Bは、人検出処理部41で、撮像装置8から入力部2を介して受信した実画像データから人物領域を切り出す。人物領域の切り出し処理は、例えば、DLを用いた物体検出手法を活用しても良いし、HOG(Histogram of Oriented Gradients)特徴量を用いて勾配強度を抽出し、SVM(Support Vector Machine)で分類を行うといった従来の機械学習手法を活用しても良い。
【0026】
AI学習画像生成システム1Bは、実画像データから人が検出できた場合(S104YES)、部位分割処理部42で、DLの領域分割手法等を応用し、人物の画像を人体の部位毎に領域分割する(S105)。例えば、人物領域切り出し後の実画像I101(
図4)を入力として部位分割処理部42の処理を実行した場合、画像I102(
図4)のように、画像中の人物の人体が頭、肩、腕、胴体等の複数の部位に領域分割される。
【0027】
またAI学習画像生成システム1Bは、部位分割処理部の処理(S105)と並行して、注視点可視化処理部43で、人物領域切り出し後の実画像I101(
図5)を入力として認識モデル5を用いて入力画像がCG画像か実画像かを判別する(S106)。そしてAI学習画像生成システム1Bは、注視点可視化処理部43で、S106の判別結果時に影響を与えた注視領域を、注視点可視化技術により、画像I103(
図5)のように算出する(S107)。ここで用いる認識モデル5は、入力画像がCG画像か実画像かを推論する認識モデルであり、DL等によって事前学習済みである。
【0028】
ここで注視点可視化技術とは、非特許文献1のように、認識モデルが画像を推論する際、推論結果に影響を与えた特徴部分を影響関数により特定する技術である。例えば、人物の髪型認識をする認識モデルの場合、頭部に注視領域が表示され、車両のメーカーを認識する認識モデルの場合は、車両のエンブレム部分に注視領域が表示される。このように、認識モデルが、画像を推論する際に画像中のどの領域に着目し、推論結果を算出したかを視覚的に確認することができるのが注視点可視化技術の特徴である。
【0029】
なおS105と、S106及びS107とは、並列処理されても良いし、順次処理されても良い。
【0030】
S105、S106及びS107が終了後のS108では、AI学習画像生成システム1Bは、ドメイン差異検出処理部44で、部位分割処理(S105)の結果(画像I102(
図4))と注視領域の算出処理(S107)の結果(画像I103(
図5))を画像I104(
図6)のように合成する。そして、実画像I101(
図4~
図6)に含まれる人物のどの部位に注視領域が算出されたかをカウントする(注視部位の特定)。画像I104の例では、頭と肩がカウントされている。カウントの基準は、部位の領域の一定割合以上を注視領域が囲んだ場合でも良いし、部位の領域全てを注視領域が囲んだ場合でも良い。あるいはユーザにより自由に設定可能としても良い。
【0031】
AI学習画像生成システム1Bは、以上のS101からS108までの処理を一定枚数以上の実画像で繰り返し実施した後(S109YES)、実画像について注視領域をカウントした結果を基に注視領域が算出された割合を部位毎に計算する。そして計算結果を
図7のようにテーブルT101(
図7)の実画像のカラムに保存する(S110)。注視領域の算出割合とは、例えば
図7では、実画像の総数が100枚のうち80枚で頭部が注視領域(注視部位)として算出された場合に、頭部の算出割合が80%となる。テーブルT101は、CG画像修正方法決定部6が参照可能な記憶領域に格納される。
【0032】
なおテーブルT101における実画像の各部位の算出割合は、事前に固定値として与えられてもよい。この場合には、S103からS110の処理は、実画像については省略され、CG画像についてのみ実行される。テーブルT101における実画像の各部位の算出割合が事前に固定値として与えられる場合には、CG画像のみについて注視領域の抽出と部位分割を行うので、処理負荷の軽減を図ることができる。
【0033】
以上、実画像にてS101からS110までの処理が実行終了後、CG画像についてもS103からS110までの処理を同様に実行する。例えば、修正前のCG画像は、いずれも背景部分が実画像と比較して画像I201(
図8及び
図9)のようにグレースケールで単調という特徴があるとする。その場合、部位分割処理部42の処理結果は、画像I202(
図8)のように実画像(画像I102(
図4))と同様の結果となるが、注視点可視化処理部43の処理結果は、画像I203(
図9)のように、単調な背景部分(人物領域外)がCG画像としての特徴となり、注視領域として算出される。
【0034】
その後、AI学習画像生成システム1Bは、ドメイン差異検出処理部44で、部位分割処理(S105)の結果(画像I202(
図8))と注視領域の算出処理(S107)の結果(画像I203(
図9))を画像I204(
図10)のように合成することで、実画像I201(
図8、
図9、
図10)に含まれる人物のどの部位に注視領域(注視部位)が算出されたかをカウントする。画像I204(
図10)の例では、人物領域外がカウントされ、テーブルT101(
図11)のように注視領域(注視部位)として人物領域外の算出割合が70%と高くなっている。
【0035】
AI学習画像生成システム1Bは、以上の例のようにS103からS108までの処理を一定枚数以上のCG画像で繰り返し実施した後(S109YES)、CG画像について注視領域をカウントした結果を基に注視領域が算出された割合を部位毎に計算し、テーブルT101(
図11)のCG画像のカラムに保存する(S111)。
【0036】
次にS112では、CG画像修正方法決定部6は、CG画像の修正が必要か否かを判定する。CG画像修正方法決定部6は、例えば実画像とCG画像とで部位毎の注視領域としての算出割合がCG画像の方が実画像よりも大きくかつこれらの差分が閾値以上であればCG画像の修正が必要と判定し、それ以外であればCG画像の修正は不要と判定する。CG画像修正方法決定部6は、CG画像の修正が必要な場合(S112YES)にS113へ処理を移し、CG画像の修正が必要でない場合(S112NO)にAI学習画像生成処理を終了する。S103からS112YES、S113、及びS114を経てS103へ戻るループが繰り返されることで、CG画像の注視領域の傾向が実画像に近付いていく。
【0037】
S113では、CG画像修正方法決定部6は、
図11のようにテーブルT101に保存された注視領域の傾向から、CG画像の修正方法を決定する。以下、
図11に示すテーブルT101の結果を例に説明する。テーブルT101の実画像とCG画像の注視領域の傾向を比較すると、実画像は頭部や肩に多く注視領域が算出されたのに対して、CG画像では人物領域外に多くの注視領域が算出されていることがわかる。S112での判定における閾値を60%とした場合、算出割合がCG画像の方が実画像よりも大きくかつ差分が閾値以上であるのは、人物領域外である。このことから、CG画像の人物領域外(背景部分)にCG画像特有の特徴が出ており、この特徴を弱めるため、CG画像の背景パターンを増加させるといった修正方針を決定することができる。修正対象となる部位は、実画像とCG画像の注視領域としての算出割合の比較結果から、複数になる場合もある。修正方針は、事前にルール化され、この事前ルールから自動で選択されても良い。または修正方針は、ユーザによってテーブルT101に保存されている結果に基づいて検討されても良い。
【0038】
次にS114では、CG画像生成部7は、S113で決定された修正方針に従って、例えば、画像I301、I302、I303(
図12)のように背景を様々なパターンに修正変更したCG画像を一定枚数以上再生成し、CG画像DB3に保存する。S114が終了すると、S103へ処理を移し、CG画像の修正が必要なくなるまで(S112NO)、S103からS114の処理を繰り返す。
【0039】
(実施形態2の効果)
上述の実施形態2では、認識モデルを用いて画像が実画像かCG画像かを判別する推論処理の際に、入力されたCG画像の注視領域を算出し、この注視領域の傾向と所定基準とを比較した結果に基づいて入力されたCG画像の注視領域を修正してCG画像を再生成する。よって、注視領域を手掛かりに学習に関して望ましくないCG画像の特徴を望ましい所定基準へと近づける修正を行うことで、学習に有効なCG画像の学習データを短時間で大量に作成することができる。
【0040】
また上述の実施形態2では、CG画像の注視領域の傾向と実画像の注視領域の傾向とを比較した結果に基づいて入力されたCG画像の注視領域を修正してCG画像を再生成する。よって、注視領域を手掛かりに学習に関して望ましくないCG画像の特徴を望ましい実画像の注視領域の特徴へと近づける修正を行うことで、学習に有効なCG画像の学習データを短時間で大量に作成することができる。
【0041】
また上述の実施形態2では、CG画像の注視領域の傾向と実画像の注視領域の傾向との比較に基づくドメインの差異に基づいてCG画像の注視領域の修正の要否を判定し、修正が必要と判定された場合にCG画像の注視領域を修正する修正方法を決定する。よって、注視領域の修正が必要なCG画像に絞って注視領域の修正を行うことで、無駄な修正処理を行わず、効率的にCG画像の注視領域の修正を行うことができる。また決定された修正方法に従ってCG画像の注視領域を複数パターンに修正して複数の人為画像を再生成することで、効率的に学習画像データを短時間で大量に作成することができる。
【0042】
また上述の実施形態2では、実画像及びCG画像から抽出された物体(人体)の部位毎に注視領域が該当する各傾向の差異に基づいて実画像及びCG画像のドメインの差異を検出する。よって、注視領域の傾向を、部位毎に見ることで、ドメインの差異の検出感度を高めると共に、注視領域の修正箇所を部位単位で把握することができる。
【0043】
また上述の実施形態2では、実画像及びCG画像は、それぞれ複数である。実画像の注視領域が該当する部位の傾向は、複数の入力実画像の全てに対して各部位が注視領域に該当する注視部位となる入力実画像の割合である。またCG画像の注視領域が該当する部位の傾向は、複数の入力CG画像の全てに対して各部位が注視領域に該当する注視部位となる入力人為画像の割合である。よって、注視領域の傾向を、部位毎に定量的に見ることで、ドメインの差異及び注視領域の修正箇所の検出精度を高めることができる。
【0044】
また上述の実施形態2では、入力CG画像の注視領域の修正が不要と判定されるまで、決定された修正方法に従って入力CG画像の注視領域を修正して人為画像を再生成する。よって、入力CG画像の注視領域の修正要否の判定処理毎に、学習に好ましくないCG画像の特徴が修正され、学習に好ましい特徴を持つCG画像が生成されるようになる。
【0045】
また上述の実施形態2では、注視領域が物体の部位を一定割合以上含む場合に部位を注視部位とする処理を、全ての入力実画像及び全ての入力CG画像について実行する。そして、全ての入力実画像に対して各部位が注視部位とされた入力実画像の第1の割合と、全てのCG画像に対して各部位が注視部位とされた入力CG画像の第2の割合とを計算する。第2の割合が第1の割合よりも大きくかつ第1の割合と第2の割合との差分が閾値以上である場合に、入力CG画像の注視領域の修正が必要と判定する。よって、実画像との特徴の差が一定以上あるCG画像を注視領域の修正が必要であると定量的に判断するので、明確な基準に基づき精度よく効率的に注視領域の修正の要否を判断できる。
【0046】
[実施形態3]
次に
図13~
図14を参照して、実施形態3を説明する。実施形態3では、CG画像の注視領域及び注視領域の付近の位置に該当する部品(実施形態2では人物の背景)のパターンを増加させ、CG画像特有の特徴を弱めている。しかし、所持する部品(CGのモデルデータ)が数種類と少ない場合、修正対象の部品を様々なパターンに変更したCG画像を生成するには、人手でCGの部品(例えば様々な服の種類のモデルデータ等)を作成し、パターンを増加する必要がある。その場合、修正方針に則ったCG画像の生成に多くの工数を要する可能性がある。
【0047】
そこで、実施形態3のAI学習画像生成システム1Cは、部品のパターンを自動で増加させる機能を備える。
【0048】
図13は、実施形態3に係るAI学習画像生成システム1Cの全体構成例を示すブロック図である。
図14は、実施形態3に係るAI学習画像生成処理手順例を示すフローチャートである。AI学習画像生成システム1CのCG画像生成部7Cは、3Dモデル化処理部71、モデル合成処理部72、及び2D画像変換処理部73を含んで構成される。その他は、AI学習画像生成システム1Cは、実施形態2のAI学習画像生成システム1Bと同様である。AI学習画像生成システム1Cの各機能部の処理は、
図14を参照して後述する。
【0049】
実施形態3に係るAI学習画像生成処理では、S113までは
図3と同様であり、S113の実行終了後、S114に代えてS201からS205(
図14)が実行され、S205の実行終了後、S103(
図3)へ処理が戻される。
【0050】
S113の実行後、S201では、3Dモデル化処理部71は、実画像を2次元の画像データから3次元の立体モデル(3Dモデル)に変換する。例えば、非特許文献2のDetailed Garment Recovery from a Single-View Imageを応用し、入力した実画像から、衣服の領域、人物の体系を計算し、衣服と人体の3Dモデルに再構成する。これにより、実画像からパターン増加に必要な部品を3Dモデルとして抽出することが可能となる。部品を3Dモデルとして抽出することで、様々な姿勢や体型の3D人体モデルに対して抽出した部品の3Dモデルを合成することができる。
【0051】
次にS202では、3Dモデル化処理部71は、上述のように修正が必要な部品(例えば上着部分)の3Dモデルを実画像から一定数以上取得する。次にS203では、モデル合成処理部72は、CGで生成した様々な人体の3Dモデルに、S202で取得した部品(例えば上着)の3Dモデルをランダムに合成する。次にS204では、2D画像変換処理部73は、S203で合成したCGの3Dモデルを特定方向から撮影したように2次元の画像データに変換処理を施す。次にS205では、CG画像生成部7Cは、S203及びS204の処理を一定枚数以上実施し、CG画像を再生成する。S205が終了すると、CG画像生成部7Cは、S103(
図3)へ処理を戻す。
【0052】
上述の実施形態3では、実画像から、修正されるCG画像の注視領域及び注視領域の付近の位置に該当する部品を抽出し、抽出した部品をCG画像の同位置に合成することでCG画像を再生成する。よって、修正が必要な部品のパターンを自動で増加させ、効率的に大量かつ迅速に学習用のCG画像を生成することができる。
【0053】
[実施形態4]
上述の実施形態1~3のAI学習画像生成システム1、1B、1Cは、画像認識システムへ適用可能である。
図15は、実施形態1~3に係るAI学習画像生成システム1、1B、1Cの何れか1つを含んだ画像認識システム10の構成例を示すブロック図である。画像認識システム10は、AI学習画像生成システム1(または1B、1C)、学習用画像DB11、学習処理部12、識別器13、推論用画像DB14、及び推論処理部15を含んで構成される。
【0054】
学習用画像DB11は、AI学習画像生成システム1(または1B、1C)によってCG画像を用いて生成された学習用画像データを格納する。学習処理部12は、学習画像生成システム1(または1B、1C)によって生成されたCG画像を学習して識別器13を生成する。推論用画像DB14は、推論用画像データを格納する。推論処理部15は、学習処理部によって生成された識別器13を用いて、推論用画像DB14に格納されている推論用画像データに対して推論を行い、推論結果を出力する。
【0055】
(AI学習画像生成システム1、1B、1C及びこれら含んだ画像認識システム10を実現するコンピュータ500のハードウェア)
図16は、AI学習画像生成システム1、1B、1C及びこれら含んだ画像認識システム10の各システムを実現するコンピュータ500のハードウェア構成例を示す図である。コンピュータ500では、CPU(Central Processing Unit)等のプロセッサ510、RAM(Random Access Memory)等のメモリ520、SSD(Solid State Drive)やHDD(Hard Disk Drive)等のストレージ530、ネットワークI/F(Inter/Face)540、入出力装置550(例えばキーボード、マウス、タッチパネル、ディスプレイ等)、及び周辺装置560が、バスを介して接続されている。
【0056】
コンピュータ500において、AI学習画像生成システム1、1B、1C及びこれら含んだ画像認識システム10の各システムを実現するためのプログラムがストレージ530から読み出されプロセッサ510及びメモリ520の協働により実行されることで、各システムが実現される。あるいは、各システムを実現するためのプログラムは、ネットワークI/F540を介した通信により非一時的な記憶装置を備えた外部のコンピュータから取得されても良い。あるいは各システムを実現するためのプログラムは、非一時的記録媒体に記録され、媒体読み取り装置によって読み出されることで取得されても良い。
【0057】
本発明は上述の実施形態に限定されるものではなく、様々な変形例を含む。例えば、上述した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、矛盾しない限りにおいて、ある実施形態の構成の一部を他の実施形態の構成で置き換え、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、構成の追加、削除、置換、統合、又は分散をすることが可能である。また、実施形態で示した構成及び処理は、処理効率又は実装効率に基づいて適宜分散、統合、又は入れ替えることが可能である。
【符号の説明】
【0058】
1,1B,1C:AI学習画像生成システム、4:ドメイン差異検出部、41:人検出処理部、42:部位分割処理部、43:注視点可視化処理部、44:ドメイン差異検出処理部、5:認識モデル、6:CG画像修正方法決定部、7:CG画像生成部、71:3Dモデル化処理部、72:モデル合成処理部、73:2D画像変換処理部、8:撮像装置、10:画像認識システム、11:学習用画像DB、12:学習処理部、13:識別器、14:推論用画像DB、15:推論処理部、500:コンピュータ