(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-26
(45)【発行日】2024-10-04
(54)【発明の名称】撮像装置及びその制御方法、プログラム、記憶媒体
(51)【国際特許分類】
H04N 23/60 20230101AFI20240927BHJP
H04N 23/72 20230101ALI20240927BHJP
H04N 23/75 20230101ALI20240927BHJP
【FI】
H04N23/60 500
H04N23/72
H04N23/75
(21)【出願番号】P 2020070562
(22)【出願日】2020-04-09
【審査請求日】2023-04-03
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】田中 裕樹
【審査官】堀井 康司
(56)【参考文献】
【文献】特開2019-075130(JP,A)
【文献】特開2018-169672(JP,A)
【文献】特開2019-216848(JP,A)
【文献】特開2018-112996(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/222-5/257
H04N 23/00
H04N 23/40-23/76
H04N 23/90-23/959
(57)【特許請求の範囲】
【請求項1】
ユーザの撮影設定に従って、時系列に連続した第1の連続画像を撮像する第1の撮像手段と、
前記第1の連続画像をライブビュー画像として表示する表示手段と、
前記第1の撮像手段とは異なる撮影設定で時系列に連続した第2の連続画像を
、前記第1の連続画像の撮像に並行して自動的に撮像する第2の撮像手段と、
前記第1の撮像手段により画像を撮像するようユーザから指示されたことに応じて、直近の所定期間の第2の連続画像を保存する保存手段と、
前記保存手段により保存された前記第2の連続画像のうちのそれぞれの画像について評価値を算出する算出手段と、
前記保存手段により保存された前記第2の連続画像のうちの前記評価値が閾値以上の画像に対して画像処理を行う画像処理手段と、
少なくとも前記画像処理が施された画像を用いて機械学習用の教師データを生成する生成手段と、
を備えることを特徴とする撮像装置。
【請求項2】
前記生成手段は、前記第1の連続画像または静止画像をさらに用いて機械学習用の教師データを生成することを特徴とする請求項1に記載の撮像装置。
【請求項3】
前記第2の連続画像は、前記第1の連続画像よりも画質を向上させる撮影設定で撮影された画像であることを特徴とする請求項1
または2に記載の撮像装置。
【請求項4】
前記第2の連続画像は、前記第1の連続画像の撮影設定に対して、被写界深度を深くする、シャッタースピードを速くする、露出設定を異ならせる、撮影範囲を広角にする、のうちの少なくともいずれかの処理を行った撮影設定で撮影された画像であることを特徴とする請求項
3に記載の撮像装置。
【請求項5】
前記画像処理手段は、前記評価値が閾値以上の画像に対して、ぼけまたはブレを付加する処理、色調を変換する処理、拡大または縮小する処理、回転する処理、のうちの少なくともいずれかの処理を行うことを特徴とする請求項1乃至
4のいずれか1項に記載の撮像装置。
【請求項6】
前記生成手段は、隣接する画像との差分が所定よりも小さい画像は、前記教師データの生成に用いないことを特徴とする請求項1乃至
5のいずれか1項に記載の撮像装置。
【請求項7】
前記第1の連続画像と前記第2の連続画像を、時分割して、前記第1及び第2の撮像手段を兼ねる1つの撮像手段で実行することを特徴とする請求項1乃至
6のいずれか1項に記載の撮像装置。
【請求項8】
ユーザの撮影設定に従って、時系列に連続した第1の連続画像を撮像する第1の撮像工程と、
前記第1の連続画像をライブビュー画像として表示する表示工程と、
前記第1の撮像工程とは異なる撮影設定で時系列に連続した第2の連続画像を
、前記第1の連続画像の撮像に並行して自動的に撮像する第2の撮像工程と、
前記第1の撮像工程において画像を撮像するようユーザから指示されたことに応じて、直近の所定期間の第2の連続画像を保存する保存工程と、
前記保存工程において保存された前記第2の連続画像のうちのそれぞれの画像について評価値を算出する算出工程と、
前記保存工程において保存された前記第2の連続画像のうちの前記評価値が閾値以上の画像に対して画像処理を行う画像処理工程と、
少なくとも前記画像処理が施された画像を用いて機械学習用の教師データを生成する生成工程と、
を有することを特徴とする撮像装置の制御方法。
【請求項9】
コンピュータを、請求項1乃至
7のいずれか1項に記載の撮像装置の各手段として機能させるためのプログラム。
【請求項10】
コンピュータを、請求項1乃至
7のいずれか1項に記載の撮像装置の各手段として機能させるためのプログラムを記憶したコンピュータが読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、取得した時系列の画像データを用いて、効率的に機械学習に使用する教師データを生成する技術に関する。
【背景技術】
【0002】
近年、ディープラーニング技術の発展などにより、機械学習による画像の物体認識技術の開発が一層盛んに行われている。例えばデジタルカメラでは、ライブビュー撮影で取得した画像から被写体を検出し、被写体に自動でフォーカスを合わせて(AF)追従させるためにこのような技術を適用している。
【0003】
ところで、機械学習は学習と推論のフェーズに分けられ、学習して得られた辞書データをもとに推論を行う。学習フェーズでは、必要とする演算量やメモリ容量が大きいことから、デジタルカメラ等のエッジデバイスではなく、専用のハードウェアを搭載したサーバ等で学習を行って辞書データを生成することが行われている。エッジデバイスではこの辞書データを使って推論を行う。推論の演算量やメモリ容量は学習における演算量やメモリ容量に対して少なくて済み、エッジデバイス向けの専用ハードウェアが開発されている。
【0004】
しかし、近年はエッジデバイス向けにも学習用の専用ハードウェアが開発されたり、第5世代移動通信システム(5G)のように高速な通信環境が整備されたりしてきている。そのため、演算能力の観点では、エッジデバイスのカメラで取得した画像をそのデバイス自身、あるいは接続先のクラウド上で学習する環境が整ってきている。
【0005】
学習可能なエッジデバイスとしてのデジタルカメラでは、ユーザが繰り返し撮影した画像上の被写体を学習し、学習結果を用いてライブビュー撮影中に被写体を認識することが可能となると考えられる。
【0006】
しかし、機械学習により物体認識を行うための学習には、正解ラベルを伴った画像が大量に必要となる。正解ラベルと画像のペアを教師データと呼ぶ。このような物体認識では、ラベル付けは画像中の対象物体の位置を矩形で指定することを想定している。機械学習を行ううえで、教師データは数万枚程度必要とされており、正解ラベルを付ける大量の画像の収集が課題となる。
【0007】
そのような状況において、特許文献1には、時系列の画像データを用いて機械学習に用いる教師データを効率的に生成する技術が開示されている。この技術は時系列の画像のうち、すでにラベル付けされた画像があったとして、その次の画像における被写体位置を抽出してラベル付けを行うことで、時系列画像に対して効率的に学習を行うものである。これにより、ライブビュー撮影で取得した画像に対しても効率的にラベル付けを行うことが可能となり、ライブビュー画像を用いての学習が容易となる。
【0008】
さらに、特許文献2には、元となる教師データに対して、不足しているパターンの教師データを反転、色調変更、拡大縮小、並行移動、歪曲変形、別画像との合成等の画像処理を行うことにより教師データを増やす技術が開示されている。この技術を用いることにより、学習のために必要となる画像の撮影枚数を減らすことが可能になる。
【0009】
ライブビュー撮影で取得した画像から被写体を検出する場合において、撮影の度に被写体までの距離や明るさなど撮影環境が変わるのが一般的である。そのため、ライブビュー撮影で取得した画像を用いての機械学習においても、撮影環境の変化に伴うぼけや明るさなどの不足したデータに対して、画像処理を用いて、ぶれ、ボケの付加、輝度調整などを行うことで教師データを増やすことが有効である。これにより、ライブビュー撮影中に変動する撮影環境を画像処理によって教師データを増やして補うことで、少ない撮影枚数でロバスト性の高い辞書データを生成可能である。
【先行技術文献】
【特許文献】
【0010】
【文献】特開2019-75130号公報
【文献】特許第6441980号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
しかしながら、ライブビュー撮影で取得した画像を用いて機械学習を行う場合、被写体およびカメラの動きにより被写体がぶれてしまい解像感が失われていることや、露出設定が被写体に合っておらず黒つぶれ、白とびしてしまい階調情報が失われてしまっていることがある。そのため、ライブビュー撮影で取得した画像に対して、特許文献2の技術を適用し教師データを増やすと、解像感の低い画像に画像処理を行ってしまい、品質の低い教師データを生成してしまうことがある。
【0012】
本発明は上述した課題に鑑みてなされたものであり、その目的は、ライブビュー中の画像を用いて学習を行う際に、質の良い学習画像を生成することが可能な撮像装置を提供することである。
【課題を解決するための手段】
【0013】
本発明に係わる撮像装置は、ユーザの撮影設定に従って、時系列に連続した第1の連続画像を撮像する第1の撮像手段と、前記第1の連続画像をライブビュー画像として表示する表示手段と、前記第1の撮像手段とは異なる撮影設定で時系列に連続した第2の連続画像を、前記第1の連続画像の撮像に並行して自動的に撮像する第2の撮像手段と、前記第1の撮像手段により画像を撮像するようユーザから指示されたことに応じて、直近の所定期間の第2の連続画像を保存する保存手段と、前記保存手段により保存された前記第2の連続画像のうちのそれぞれの画像について評価値を算出する算出手段と、前記保存手段により保存された前記第2の連続画像のうちの前記評価値が閾値以上の画像に対して画像処理を行う画像処理手段と、少なくとも前記画像処理が施された画像を用いて機械学習用の教師データを生成する生成手段と、を備えることを特徴とする。
【発明の効果】
【0014】
本発明によれば、ライブビュー中の画像を用いて学習を行う際に、質の良い学習画像を生成することが可能となる。
【図面の簡単な説明】
【0015】
【
図1】本発明の一実施形態に係わる撮像装置の構成を示すブロック図。
【
図2】ライブビュー撮影から静止画を撮影するまでの被写体の見え方の変化を示す図。
【
図5】学習する被写体種別を指定する際の表示の例を示す図。
【
図6】学習する画像を選択する際の表示の例を示す図。
【
図7】学習する被写体の領域を指定する操作の例を示す図。
【
図8】新たな教師データの生成処理の流れを説明するフローチャート。
【発明を実施するための形態】
【0016】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0017】
図1は、本発明の一実施形態に係わる撮像装置100の構成を示すブロック図である。
【0018】
撮像装置100は複数の撮像部を備え、ライブビュー(LiveView、以降LVとも称する)撮影機能を有している。ライブビュー撮影とは、撮影動作を所定の周期で繰り返し行って連続画像を取得し、撮影対象をリアルタイムに表示して、それを見ながら構図や撮影設定を決めて静止画像を撮影する方法である。ライブビューで得られる画像をLV画像と記す。撮像装置100は、複数の撮像部のうち1つ以上の撮像部を用いて、ライブビュー撮影を行う。また、撮影した静止画やLV画像から被写体を検出するための学習・推論機能を有している。
【0019】
撮像装置100は、撮像部101a,101b、画像処理部102、撮影画像(静止画およびLV画像)記憶部103、記録・再生部104、LV画像記憶部105、教師データ生成部106、操作・表示部107、教師データ記憶部108、学習部109、推論モデル記憶部110、推論部111を備えて構成されている。
【0020】
撮像部101a,101bは光学系と撮像素子(図示しない)を備え、光学系を通して入射した被写体像を撮影し光電変換する。本実施形態では、撮像部101aで撮影した画像を表示および、教師データの生成に利用し、撮像部101bで撮影した画像を教師データの生成のみに使用する構成として説明する。画像処理部102は、撮像部101a,101bが取得した映像データに対して適切な画像処理を施す。
【0021】
撮影画像記憶部103は静止画やLV画像を記録・再生するための不揮発性メモリである。記録再生部104は撮影画像記憶部103に対する静止画やLV画像の記録や再生を制御する。LV画像記憶部105はライブビュー撮影中に操作・表示部107にLV画像を出力するための表示画像を一時的に記憶する。教師データ生成部106は被写体を検出するための機械学習用の教師データを生成し、被写体種別指定部106A、画像選択部106B、被写体領域指定部106C、教師データ増加部106Dを備えて構成される。
【0022】
操作・表示部107はタッチパネルを有した表示装置(図示しない)であり、撮影時のLV画像やユーザインタフェース(以下UI)を表示し、ユーザからの操作を受け付ける。
【0023】
教師データ記憶部108は教師データ生成部106が生成した教師データを記憶し、学習部109に受け渡す。学習部109は教師データを元に学習を行い、推論モデルを生成する。推論モデル記憶部110は推論モデルを記憶する。推論部111は、推論モデルに基づいてLV画像から被写体検出(推論)を行う。
【0024】
本実施形態では、静止画やLV画像のうち、特に被写体検出の学習に用いる画像を学習画像と呼ぶこととする。
【0025】
なお、撮像装置100は、撮像装置全体を制御するマイクロコンピュータからなる制御部120を有する。制御部120は、ROM122に記憶された撮像装置の動作を制御する制御プログラムをRAM124に展開して実行することにより、撮像装置100の全体を制御する。
【0026】
(撮影機能)
撮像装置100の撮影機能について説明する。ユーザが操作・表示部107を用いて撮影モードを設定すると、ライブビュー動作が開始される。
【0027】
ライブビュー動作時、撮像部101aで撮像されたLV画像は、画像処理部102によって適切な画像処理が施された後、LV画像記憶部105を経由して、操作・表示部107の表示装置にライブビュー映像として表示される。撮像部101aで撮影されたLV画像(以降、第1のLV画像と呼ぶ)はライブビュー映像として表示を行うため、ユーザの設定に合わせて、もしくは、オート設定の場合はシーンに合わせた撮影設定で撮影される。
【0028】
撮像部101bは、撮像部101aと異なる撮影設定で撮影を行う。撮像部101bで撮影したLV画像(以降、第2のLV画像と呼ぶ)は第1のLV画像に対して、画質を向上させるように、後述の4つの撮影設定のいずれか、もしくは、複数の設定を変えて撮影を行う。1つ目はボケが小さくなるように、被写界深度を深く設定する。2つ目はブレが小さくなるようにシャッタースピードを速く設定する。3つ目は白飛び、黒飛びを低減するために、露出設定を変えて設定する。4つ目は撮影範囲を広角に設定する。
【0029】
これらのうちの少なくとも1つの撮影設定を変更し、撮像部101bで撮影した第2のLV画像は、第1のLV画像と同様に画像処理部102によって適切な画像処理が施された後、LV画像記憶部105に記録される。LV画像記憶部105は撮像部101a,101bで撮影された直近の第1のLV画像および第2のLV画像を所定枚数一時記憶する。
【0030】
ユーザがライブビュー映像を見ながら構図や撮影設定を決定し、静止画撮影を指示すると以下の処理が行われる。
【0031】
撮像部101aで撮像された静止画は画像処理部102によって適切な画像処理が施された後、記録・再生部104を経由して撮影画像記憶部103に記憶される。さらに、学習画像として利用するため、LV画像記憶部105に一時記憶されている直近の第1および第2のLV画像を静止画と関連付けて記憶する。この関連付けられたデータセットを「LV画像付き静止画」と呼ぶことにする。
【0032】
図2は、ユーザがLV画像201~205を見ながら被写体である自動車を追い、静止画206を撮影した例を示している。
図2の撮影例では
図3のように、LV画像付き静止画300は静止画301と直前の第1のLV画像302および第2のLV画像303からなる。LV画像付き静止画は、ユーザが撮影した静止画の記録されるデータとしての役割と、被写体検出の学習用画像としての役割とを兼ねるものである。
【0033】
なお、撮影画像が動かない場合は、第1および第2のLV画像を学習用画像としても追加の教師データにはならない。またLV画像のコマ間(隣接する画像間)で差分が少ない場合に全てのLV画像を学習に用いるのは効率的でない。そのため、さらに画像間差分検出部(図示しない)を設け、LV画像間の差分が所定値を下回る場合は該当画像を一時記憶しないようにすることも可能である。
【0034】
本実施形態では、撮像部を2つ備えている場合について説明したが、3つ以上の撮像部を備えている場合、撮影設定を変えて3種類以上のLV画像を取得することも可能である。また、LV画像を時分割で撮影設定を変更して撮影することにより、1つの撮像部で複数のLV画像を取得する構成としてもよい。
【0035】
(学習について)
続いて、撮像装置100の教師データの生成および、学習機能について説明する。この機能は撮影後、撮りためた静止画および関連付けられたLV画像に写っている被写体をユーザが指定すると、ライブビュー撮影時にその被写体を検出できるように学習する機能である。
【0036】
本実施形態における、被写体検出を学習するための教師データは学習用画像、被写体種別およびその画像中の被写体の位置情報のセットである。
図4を用いて、その概念について説明する。この例では画像400、被写体種別、この画像内における学習対象の被写体(自動車)をちょうど含む矩形領域401の情報からなる。データ形式としては符号404で示すように、画像ファイル名、被写体種別名、矩形領域401の対角をなす2つの点402,403の座標値を含む。
【0037】
教師データは、ユーザの指示に基づいて、静止画中およびLV画像中の被写体種別および被写体領域を指定することにより得られる。得られた教師データは教師データ記憶部108に記憶され、学習部109はこの教師データを参照して学習を行う。
【0038】
具体的には、被写体種別指定部106Aによって学習する被写体の種別を指定し、画像選択部106BによってLV画像付き静止画から学習する静止画を選択し、被写体領域指定部106Cによって選択した静止画中の被写体領域を指定する。これにより、教師データが得られる。
【0039】
被写体種別指定部106Aは操作・表示部107を経由してユーザから被写体種別を受け取るための制御を行う。
【0040】
操作・表示部107への表示例を
図5に示す。被写体として車を新たに追加したい場合は、符号501で示すように被写体種別を入力して確定ボタン502をタップして確定する。登録済みの被写体種別の場合は、登録済みリスト503の中から選択する。
【0041】
画像選択部106Bは、学習させたい画像を選択するための制御を行う。記録再生部104を経由して撮影画像記憶部103のLV画像付き静止画を読み出し、一覧を操作・表示部107に表示する。表示例を
図6に示す。表示枠600内の領域601に画像一覧がサムネイル表示されており、ユーザが所望の画像をタップすることにより静止画を選択する。
【0042】
被写体領域指定部106Cは、選択された静止画および関連付けられたLV画像に対する被写体の位置情報をユーザから取得するための制御を行う。
【0043】
操作・表示部107への表示例を
図7に示す。この例では自動車を学習させるために、タッチパネル上の位置Aから位置Bにドラッグすることで自動車の領域をちょうど含む点A,Bを対角とする矩形702を指定している。このようにして選択された画像、被写体種別および被写体領域を表す矩形情報のセットが教師データとなる。静止画同様に関連付けられた第1および第2のLV画像に対しても、被写体領域を表す矩形情報を指定し、教師データを生成する。また、LV画像内に被写体がいない場合や、別の被写体で隠れている場合、矩形情報を指定せずにスキップすることも可能である。
【0044】
なお、本実施形態では、被写体の矩形領域の指定をユーザ自身が行っているが、これに限定されるものではなく、例えばユーザが被写体の一部をタップし、既知の輪郭抽出技術を用いて被写体領域を抽出するように構成してもよい。
【0045】
また、静止画に関連付けられたすべてのLV画像に対して教師データを生成しているが、画像間差分検出部(図示しない)を設け、LV画像間の差分が所定量を下回っている画像はスキップして、LV画像を間引くように構成してもよい。このような教師データの間引きは撮影時にLV画像付き静止画を記録する時に行うことも、学習時にLV画像付き静止画から教師データを生成する時に行うことも可能である。
【0046】
教師データ増加部106Dは、ユーザからの矩形領域指定のあったLV画像に対して教師データの水増し(Data Augmentation)、つまり、画像処理を用いた新たな教師データの生成を行う。新たな教師データの生成処理について
図8を用いて説明する。本処理は、ユーザからLV画像に対して矩形領域の指定が行われるたびに繰り返し実行される。なお、本実施形態における教師データ生成部106の各構成要素である被写体種別指定部106A、画像選択部106B、被写体領域指定部106C、教師データ増加部106Dは、制御部120を構成するマイクロコンピュータにより実現されるものとする。つまり、以下の処理で教師データ増加部106Dが行う処理は、制御部120のマイクロコンピュータにより実行されるため、以下の説明では、動作の主体を制御部120として説明する。
【0047】
ステップS801では、制御部120は、LV画像の教師データを取得し、第1のLV画像か第2のLV画像かを判定する。制御部120は、第1のLV画像と判断した場合は、このフローの処理を終了し、次のLV画像に対する矩形領域の指定に処理を進める。制御部120は、第2のLV画像と判断した場合は、処理をステップS802に進める。
【0048】
ステップS802では、制御部120は、後述の新たな教師データ生成に適した画像か否かを判定するために、LV画像の被写体領域に対して解像感、および、階調の評価値を取得する。新たな教師データ生成に適した画像とは、画像中の被写体領域において解像感や階調などの情報を多く残している画像である。解像感については、フーリエ変換で高周波成分を算出する、もしくは、フィルタ処理を用いてエッジ検出するなど公知の技術を用いて実現可能である。階調についても、ヒストグラムを用いて算出するなど公知の技術を用いて実現可能である。
【0049】
ステップS803では、制御部120は、ステップS802で算出した評価値に基づいて、所定の閾値以上か否かを判定する。制御部120は、所定の閾値以上に解像感が高い、かつ、適正な階調つまり、黒とび・白つぶれしていない画像であると判断した場合、処理をステップS804に進める。解像感が低い、または、適正な階調ではない画像であると判断した場合、このフローの処理を終了し、次のLV画像に対する矩形領域指定に処理を進める。
【0050】
ステップS804では、制御部120は、ステップS803で閾値以上と判定されたLV画像に対して、画像処理を行い、新たな教師データを生成する。
【0051】
画像処理による新たな教師データの生成の例を
図9に示す。
【0052】
画像900は、ステップS803で閾値以上と判定されたLV画像を示している。LV画像900を元画像として、新たな教師データとなる画像901~904を生成する。画像901は、フィルタ処理などの画像処理を用いて被写体にボケやぶれを疑似的に付加した画像である。画像902は、ガンマ変換処理などの画像処理を用いて被写体の輝度や色調を変換した画像である。画像903はリサイズ処理などの画像処理を用いて被写体を拡大した画像である。画像904は、リサイズ処理などの画像処理を用いて被写体を縮小した画像である。なお、縮小した後に画像全体における位置を変更してもよい。画像905は、射影変換処理などの画像処理を用いて被写体を回転した画像である。画像904のような縮小処理や画像905のような回転処理を行った場合、元画像領域外の空いた部分には任意の処理を行うことができるが、たとえば予め指定された背景色によって塗りつぶしてもよい。
【0053】
なお、縮小、拡大、回転などの被写体位置の移動、変形を伴う画像処理を行う場合、画像中の被写体の位置情報も併せて変更する必要がある。また、本実施形態では、新たな教師データ生成処理の一例を挙げて説明したが、歪補正などの画像処理を用いて被写体をひずませた画像を生成することも可能である。また、これら複数の画像処理を組み合わせて画像を生成するように構成してもよいし、生成する画像は1枚のみでなく処理を変えて複数の画像を生成するよう構成してもよい。
【0054】
制御部120は、ステップS804で新たな教師データを生成した後は、処理を終了し、次のLV画像に対する矩形領域の指定に処理を進める。そして、すべてのLV画像に対して本処理を実施し、処理を終了する。
【0055】
本実施形態では、撮影画像記憶部103、教師データ生成部106、教師データ記憶部108および学習部109を撮像装置100内に配置して処理している。しかし、これらの一部または全部をクラウド化し、撮像装置内の通信部(図示しない)を経由してクラウド上で処理するように構成してもよい。
【0056】
以上説明したように、本実施形態では、ユーザの撮影設定で撮影したLV画像ではなく、解像感や階調が残るように撮影設定したLV画像から被写体の解像感や階調が残っている画像を選択し、新たな教師データを生成する。そのため、質の良い教師データを生成可能な撮像装置を提供することが可能となる。
【0057】
(推論機能)
最後に撮像装置100の推論機能について説明する。この機能は、上述した学習機能によって得られた推論モデルをもとに、ライブビュー撮影時に被写体を検出して撮影をアシストする機能である。
【0058】
推論部109は、LV画像記憶部105からLV画像を取得し、推論モデル記憶部110に記憶された学習済み推論モデルに基づいて推論(被写体検出)を行う。推論の結果、被写体種別および被写体をちょうど含む矩形領域の情報が得られる。この情報を被写体位置情報と呼ぶことにする。被写体位置情報を用いて操作・表示部107に表示されるライブビュー画像に被写体枠を重畳することにより、ユーザは撮像装置100が被写体を認識している状況を知ることができる。また、撮像部101a,101b、および画像処理部102も、被写体位置情報を利用して被写体にフォーカスを合わせたり、被写体種別に応じた最適な画像処理を行ったりすることができる。
【0059】
以上のようにすることで、被写体を自動で検出し、フォーカスを合わせたり、最適な画像処理を行ったりする撮像装置を実現することができる。
【0060】
また、学習済みの被写体種別のうち、どの種別を検出するかをユーザが選択するように構成すれば、撮影状況に応じてユーザが所望する被写体に対してのみ反応させることも可能である。
【0061】
(他の実施形態)
また本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、1または複数のプロセッサーまたは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータまたは分離した複数のプロセッサーまたは回路のネットワークを含みうる。
【0062】
プロセッサーまたは回路は、中央演算処理装置(CPU)、マイクロプロセッシングユニット(MPU)、グラフィクスプロセッシングユニット(GPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートウェイ(FPGA)を含みうる。また、プロセッサーまたは回路は、デジタルシグナルプロセッサ(DSP)、データフロープロセッサ(DFP)、またはニューラルプロセッシングユニット(NPU)を含みうる。
【0063】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【符号の説明】
【0064】
100:撮像装置、101a,101b:撮像部、102:画像処理部、103:撮影画像記憶部、104:記録・再生部、105:LV画像記憶部、106:教師データ生成部、106A:被写体種別指定部、106B:画像選択部、106C:被写体領域指定部、106D:教師データ増加部、107:操作・表示部、108:教師データ記憶部、109:学習部、110:推論モデル記憶部、111:推論部