(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-28
(45)【発行日】2022-11-08
(54)【発明の名称】教師データ作成装置、教師データ作成方法、教師データ作成プログラム、学習装置及び撮像装置
(51)【国際特許分類】
H04N 5/232 20060101AFI20221031BHJP
G06N 20/00 20190101ALI20221031BHJP
G03B 15/00 20210101ALI20221031BHJP
G03B 17/18 20210101ALI20221031BHJP
【FI】
H04N5/232 220
G06N20/00 130
G03B15/00 H
G03B17/18 Z
H04N5/232 939
(21)【出願番号】P 2018150749
(22)【出願日】2018-08-09
【審査請求日】2021-06-24
(73)【特許権者】
【識別番号】000000376
【氏名又は名称】オリンパス株式会社
(74)【代理人】
【識別番号】110002907
【氏名又は名称】弁理士法人イトーシン国際特許事務所
(74)【代理人】
【識別番号】100076233
【氏名又は名称】伊藤 進
(74)【代理人】
【識別番号】100101661
【氏名又は名称】長谷川 靖
(74)【代理人】
【識別番号】100135932
【氏名又は名称】篠浦 治
(72)【発明者】
【氏名】志摩 伸之
(72)【発明者】
【氏名】米山 尚
(72)【発明者】
【氏名】神田 和男
(72)【発明者】
【氏名】志村 和彦
(72)【発明者】
【氏名】野中 修
【審査官】高野 美帆子
(56)【参考文献】
【文献】特表2017-517165(JP,A)
【文献】特開2007-088644(JP,A)
【文献】特表2018-531543(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/232
G06N 20/00
G03B 15/00
G03B 17/18
(57)【特許請求の範囲】
【請求項1】
撮影時刻に基づく時間情報を有する一連の画像から、特定の対象物の特定の状態における画像である特定状態画像を検出する対象物画像判定部と、
上記一連の画像の各画像について上記各画像の撮影時刻と、上記一連の画像のうち上記特定状態画像を含む画像の撮影時刻との時間差を判定する時間判定部と、
上記各画像と上記各画像について求めた時間差のデータとを組にして教師データとする制御部と
を具備したことを特徴とする教師データ作成装置。
【請求項2】
請求項1に記載の教師データ作成装置によって作成された教師データを用いた機械学習により、入力された画像から所定の対象物が上記特定の状態となる時間を推論する推論モデルを生成する推論モデル生成部
を具備したことを特徴とする学習装置。
【請求項3】
請求項2に記載の学習装置によって生成された推論モデルを実現する推論エンジンと、
撮像部と、
上記撮像部による撮像画像を上記推論エンジンに与えて、上記撮像画像中の上記所定の対象物が上記特定の状態となるまでの時間の推論結果を得る設定制御部と
を具備したことを特徴とする撮像装置。
【請求項4】
上記時間の推論結果を表示部に表示するための表示制御を行う表示制御部を更に具備したことを特徴とする請求項3に記載の撮像装置。
【請求項5】
上記撮像画像は、ライブビュー画像であり、
上記表示制御部は、上記表示部に表示されてい
るライブ画像に
重畳させて上記時間の推論結果を表示させる
ことを特徴とする請求項4に記載の撮像装置。
【請求項6】
上記設定制御部は、上記時間の推論結果と共に上記推論結果の信頼性の情報を取得し、
表示制御部は、上記信頼性の情報に基づいて上記時間の推論結果の表示形態を変更する
ことを特徴とする請求項3に記載の撮像装置。
【請求項7】
上記表示制御部は、上記推論結果の信頼性が所定の閾値以上の場合には時間を表示させ、上記推論結果の信頼性が所定の閾値よりも小さい場合には時間幅を表示させる
ことを特徴とする請求項6に記載の撮像装置。
【請求項8】
撮影時刻に基づく時間情報を有する一連の画像から、特定の対象物の特定の状態における画像である特定状態画像を検出する検出ステップと、
上記一連の画像の各画像について上記各画像の撮影時刻と、上記一連の画像のうち上記特定状態画像を含む画像の撮影時刻との時間差を判定するステップと、
上記各画像と上記各画像について求めた時間差のデータとを組にして教師データとして生成する生成ステップと
を具備したことを特徴とする教師データ作成方法。
【請求項9】
上記検出ステップは、マニュアル操作又は認識処理によって上記特定の対象物を検出し、画像解析処理によって上記特定の状態を検出する
ことを特徴とする請求項8に記載の教師データ作成方法。
【請求項10】
上記生成ステップは、上記特定の対象物を含む画像が所定数より少ない場合には上記一連の画像を上記教師データから除外すると共に、上記特定の対象物を含またない画像を上記教師データから除外する
ことを特徴とする請求項8に記載の教師データ作成方法。
【請求項11】
コンピュータに、
撮影時刻に基づく時間情報を有する一連の画像から、特定の対象物の特定の状態における画像である特定状態画像を検出する検出ステップと、
上記一連の画像の各画像について上記各画像の撮影時刻と、上記一連の画像のうち上記特定状態画像を含む画像の撮影時刻との時間差を判定するステップと、
上記各画像と上記各画像について求めた時間差のデータとを組にして教師データとして生成する生成ステップと
を実行させるための教師データ作成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習のための教師データ作成装置、教師データ作成方法、教師データ作成プログラム、学習装置及び撮像装置に関する。
【背景技術】
【0002】
近年、デジタルカメラなどの撮影機能付き携帯機器(撮影機器)が普及している。この種の撮影機器においては、撮影時の種々の設定が自動化されたものがある。例えば、デジタルカメラ等には、ピント合わせを自動化したAF機能や、露出を自動化した自動露出(AE)機能を搭載したものがある。また、撮影を連続的に行う、所謂連写機能を備えた撮影機器も普及している。
【0003】
ところで、このような撮影機器によって取得した撮像画像に対する機械学習によって所望の推論結果を得る手法が開発されている。機械学習は、既知の入力情報についてその特徴、時系列情報、空間情報等を学習し、学習結果に基づいて推論を行うことで、未知の事柄についての推論結果を得るものである。即ち、機械学習では、先ず特定の入力情報から、判定可能な出力結果を推論可能にするための学習済みモデルを得る。
【0004】
高い信頼性で推論結果が得られるように、学習済みモデルの生成に際して、入力と出力との関係が既知の大量の情報が学習用データとして用いられる。例えば、深層学習においては、大量の学習用データを用いて既知の入力に対して期待される出力が得られるようにネットワークのデザイン設計が行われる。このようなプロセスで得られた学習済モデル(以下、推論モデルともいう)は、学習を行ったネットワークから独立して利用可能である。
【0005】
例えば、特許文献1においては、学習データの数が少ない場合にも学習精度の悪化を防ぐことを目的として、第1コンテンツと当該第1コンテンツとは種別が異なる第2コンテンツとの組が有する関係性を深層学習した第1学習器の一部を用いて、新たな第2学習器を生成する生成部と、前記生成部が生成した前記第2学習器に、第1コンテンツと、前記第2コンテンツとは異なる種別の第3コンテンツとの組が有する関係性を深層学習させる学習部とを備えた技術が開示されている。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来、未知の動きをする被写体の画像を元に、所望のタイミングを予測する機械学習を行う装置は開発されていない。
【0008】
本発明は、機械学習により、被写体の画像から所望のタイミングを予測することを可能にすることができる教師データ作成装置、教師データ作成方法、教師データ作成プログラム、学習装置及び撮像装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の一態様による教師データ作成装置は、撮影時刻に基づく時間情報を有する一連の画像から、特定の対象物の特定の状態における画像である特定状態画像を検出する対象物画像判定部と、上記一連の画像の各画像について上記各画像の撮影時刻と、上記一連の画像のうち上記特定状態画像を含む画像の撮影時刻との時間差を判定する時間判定部と、上記各画像と上記各画像について求めた時間差のデータとを組にして教師データとする制御部とを具備する。
【0010】
本発明の一態様による学習装置は、上記教師データ作成装置によって作成された教師データを用いた機械学習により、入力された画像から所定の対象物が上記特定の状態となる時間を推論する推論モデルを生成する推論モデル生成部を具備する。
【0011】
本発明の一態様による撮像装置は、上記学習装置によって生成された推論モデルを実現する推論エンジンと、撮像部と、上記撮像部による撮像画像を上記推論エンジンに与えて、上記撮像画像中の上記所定の対象物が上記特定の状態となるまでの時間の推論結果を得る設定制御部とを具備する。
【0012】
本発明の一態様による教師データ作成方法は、撮影時刻に基づく時間情報を有する一連の画像から、特定の対象物の特定の状態における画像である特定状態画像を検出する検出ステップと、上記一連の画像の各画像について上記各画像の撮影時刻と、上記一連の画像のうち上記特定状態画像を含む画像の撮影時刻との時間差を判定するステップと、上記各画像と上記各画像について求めた時間差のデータとを組にして教師データとして生成する生成ステップとを具備する。
【0013】
本発明の一態様による教師データ作成プログラムは、コンピュータに、撮影時刻に基づく時間情報を有する一連の画像から、特定の対象物の特定の状態における画像である特定状態画像を検出する検出ステップと、上記一連の画像の各画像について上記各画像の撮影時刻と、上記一連の画像のうち上記特定状態画像を含む画像の撮影時刻との時間差を判定するステップと、上記各画像と上記各画像について求めた時間差のデータとを組にして教師データとして生成する生成ステップとを実行させる。
【発明の効果】
【0014】
本発明によれば、機械学習により、被写体の画像から所望のタイミングを予測することを可能にすることができるという効果を有する。
【図面の簡単な説明】
【0015】
【
図1】本発明の第1の実施の形態に係る学習装置及び撮像装置を示すブロック図。
【
図2】推論エンジン12のネットワーク12aを説明するための説明図。
【
図3】画像群34aの各画像を撮像する一例を示す説明図。
【
図4】画像群34aの各画像と撮影時間との関係を示す説明図。
【
図5】母集合作成部31aによる教師データの作成方法を説明するためのフローチャート。
【
図6】第1の実施の形態の動作を説明するための説明図。
【
図7】第1の実施の形態の動作を説明するための説明図。
【
図10】第1の実施の形態の動作を説明するための説明図。
【
図11】本発明の第2の実施の形態において採用される動作フローを示すフローチャート。
【
図12】外部画像DB32から母集合作成部31aに取り込まれる連続画像群の一例を示す説明図。
【
図13】ネットワーク12aを生成する手法を説明するための説明図。
【
図14】表示部15の表示画面に表示される画像の表示例を示す説明図。
【
図15】本発明の第3の実施の形態において採用される動作フローを示すフローチャート。
【
図16】撮像装置20の制御部11の制御を示すフローチャート。
【
図17】表示部15の表示画面に表示される画像の表示例を示す説明図。
【
図18】本発明の第4の実施の形態を説明するための説明図。
【
図19】本発明の第4の実施の形態を説明するための説明図。
【
図20】本発明の第4の実施の形態を説明するための説明図。
【発明を実施するための形態】
【0016】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
【0017】
(第1の実施の形態)
図1は本発明の第1の実施の形態に係る学習装置及び撮像装置を示すブロック図である。本実施の形態においては、時間情報を有する画像を学習用データとして、所定の瞬間(以下、決定的瞬間ともいう)に到達するまでの時間を予測する機械学習を実現する。具体例として、鳥が飛び立つ瞬間を機械学習により予測する推論モデルを構築すると共に、当該推論モデルを用いて、ライブビュー画像から鳥が飛び立つ瞬間の予測結果を表示することを可能にする。
【0018】
図1の撮像装置20は、被写体を撮像して得た画像を記録する。撮像装置20としては、デジタルカメラやビデオカメラだけでなく、スマートフォンやタブレット端末に内蔵されるカメラを採用してもよい。撮像装置20は、後述するように、ライブビュー表示時に推論モデルを利用することができるようになっているが、撮像装置20は予め搭載されている推論モデルを用いてもよく、また、外部機器30から推論モデルを取得するようになっていてもよい。
【0019】
撮像装置20は、制御部11及び撮像部22を備えている。制御部11は、CPU(Central Processing Unit)等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。
【0020】
撮像部22は、撮像素子22a及び光学系22bを有している。光学系22bは、ズームやフォーカシングのための図示しないレンズや絞り等を備えている。光学系22bは、これらのレンズを駆動する図示しないズーム(変倍)機構、ピント及び絞り機構を備えている。
【0021】
撮像素子22aは、CCDやCMOSセンサ等によって構成されており、光学系22bによって被写体光学像が撮像素子22aの撮像面に導かれるようになっている。撮像素子22aは、被写体光学像を光電変換して被写体の撮像画像(撮像信号)を取得する。
【0022】
制御部11の撮像制御部11aは、光学系22bのズーム機構、ピント機構及び絞り機構を駆動制御して、ズーム、絞り及びピントを調節することができるようになっている。撮像部22は、撮像制御部11aに制御されて撮像を行い、撮像画像(動画像及び静止画像)の撮像信号を制御部11に出力する。
【0023】
撮像装置20には操作部13が設けられている。操作部13は、図示しないレリーズボタン、ファンクションボタン、撮影モード設定、パラメータ操作等の各種スイッチ、ダイヤル、リング部材等を含み、ユーザ操作に基づく操作信号を制御部11に出力する。制御部11は、操作部13からの操作信号に基づいて、各部を制御するようになっている。
【0024】
制御部11は、撮像部22からの撮像画像(動画像及び静止画像)を取込む。制御部11の画像処理部11bは、取込んだ撮像画像に対して、所定の信号処理、例えば、色調整処理、マトリックス変換処理、ノイズ除去処理、その他各種の信号処理を行う。
【0025】
撮像装置20には表示部15が設けられており、制御部11には、表示制御部11fが設けられている。表示部15は、例えば、LCD(液晶表示装置)等の表示画面を有しており、この表示画面は撮像装置20の例えば筐体背面等に設けられる。表示制御部11fは、画像処理部11bによって信号処理された撮像画像を表示部15に表示させるようになっている。また、表示制御部11fは、撮像装置20の各種メニュー表示や警告表示等を表示部15に表示させることもできるようになっている。
【0026】
撮像装置20には通信部14が設けられており、制御部11には、通信制御部11eが設けられている。通信部14は、通信制御部11eに制御されて、外部機器30との間で情報を送受することができるようになっている。通信部14は、例えば、ブルートゥース(登録商標)等の近距離無線による通信及び例えば、Wi-Fi(登録商標)等の無線LANによる通信が可能である。なお、通信部14は、ブルートゥースやWi-Fiに限らず、各種通信方式での通信を採用することが可能である。通信制御部11eは、通信部14を介して、外部機器30から推論モデルの情報を受信することができる。
【0027】
制御部11には記録制御部11cが設けられている。記録制御部11cは、信号処理後の撮像画像を圧縮処理し、圧縮後の画像を記録部16に与えて記録させることができる。記録部16は、所定の記録媒体によって構成されて、制御部11から与えられた情報を記録すると共に、記録されている情報を制御部11に出力することができる。また、記録部16としては、例えばカードインターフェースを採用してもよく、この場合には記録部16はメモリカード等の記録媒体に画像データを記録可能である。
【0028】
記録部16は、画像データ記録領域16aを有しており、記録制御部11cは、画像データを画像データ記録領域16aに記録するようになっている。また、記録制御部11cは、記録部16に記録されている情報を読み出して再生することも可能である。
【0029】
なお、記録部16は、設定データ記録領域16bを有している。設定データ記録領域16bには推論モデルの設定情報が記録されるようになっている。
【0030】
本実施の形態においては、撮像装置20には、推論部としての推論エンジン12が設けられている。推論エンジン12は、ネットワーク12aを有している。ネットワーク12aは、記録部16に記録されている設定値を用いて構築されており、機械学習における学習が完了することによって得られるネットワーク、即ち、推論モデルを構成する。
【0031】
記録制御部11cは、通信部14を介して、外部機器30である学習部31から推論モデルを構成するための情報を受信して、記録部16の設定データ記録領域16bに設定情報を記録することができるようになっていてもよい。
【0032】
図2から
図4は推論エンジン12のネットワーク12aを説明するための説明図である。
図2において、所定のネットワークN1には入力及び出力に対応する大量のデータセット31Gが教師データとして与えられる。これにより、ネットワークN1は、入力に対応する出力が得られるように、ネットワークデザインが決定される。本実施の形態においては、入力として画像が用いられ、出力として決定的瞬間までの推定時間が信頼性の情報(信頼度)と共に得られる。ネットワークN1の決定されたネットワークデザインの情報が設定データ記録領域16bに設定情報として記録される。
【0033】
なお、深層学習(ディープ・ラーニング)」は、ニューラル・ネットワークを用いた「機械学習」の過程を多層構造化したものである。情報を前から後ろに送って判定を行う「順伝搬型ニューラル・ネットワーク」が代表的なものである。これは、最も単純なものでは、N1個のニューロンで構成される入力層、パラメータで与えられるN2個のニューロンで構成される中間層、判別するクラスの数に対応するN3個のニューロンで構成される出力層の3層があればよい。そして、入力層と中間層、中間層と出力層の各ニューロンはそれぞれが結合加重で結ばれ、中間層と出力層はバイアス値が加えられることで、論理ゲートの形成が容易である。簡単な判別なら3層でもよいが、中間層を多数にすれば、機械学習の過程において複数の特徴量の組み合わせ方を学習することも可能となる。近年では、9層~152層のものが、学習にかかる時間や判定精度、消費エネルギーの関係から実用的になっている。
機械学習に採用するネットワークN1としては、公知の種々のネットワークを採用してもよい。例えば、CNN(Convolution Neural Network)を利用したR-CNN(Regions with CNN features)やFCN(Fully Convolutional Networks)等を用いてもよい。これは、画像の特徴量を圧縮する、「畳み込み」と呼ばれる処理を伴い、最小限処理で動き、パターン認識に強い。また、より複雑な情報を扱え、順番や順序によって意味合いが変わる情報分析に対応して、情報を双方向に流れる「再帰型ニューラル・ネットワーク」(全結合リカレントニューラルネット)を利用してもよい。
これらの技術の実現のためには、CPUやFPGA(Field Programmable Gate Array)といったこれまでの汎用的な演算処理回路などを使ってもよいが、ニューラル・ネットワークの処理の多くが行列の掛け算であることから、行列計算に特化したGPU(Graphic Processing Unit)やTensor Processing Unit(TPU)と呼ばれるものが利用される場合もある。近年ではこうした人工知能(AI)専用ハードの「ニューラル・ネットワーク・プロセッシング・ユニット(NPU)」がCPUなどその他の回路とともに集積して組み込み可能に設計され、処理回路の一部になっている場合もある。
また、深層学習に限らず、公知の各種機械学習の手法を採用して推論モデルを取得してもよい。例えば、サポートベクトルマシン、サポートベクトル回帰という手法もある。ここでの学習は、識別器の重み、フィルター係数、オフセットを算出するもので、他には、ロジスティック回帰処理を利用する手法もある。機械に何かを判定させる場合、人間が機械に判定の仕方を教える必要があり、今回の実施例では、画像の判定を、機械学習により導出する手法を採用したが、そのほか、特定の判断を人間が経験則・ヒューリスティクスによって獲得したルールを適応するルールベースの手法を応用して用いてもよい。
【0034】
外部機器30は、このようなネットワークデザインの決定を行う学習部31と大量の学習用データを記録した外部画像データベース(DB)32を有している。学習部31は通信部31bを有しており、外部画像DB32は通信部33を有している。通信部31b,33は相互に通信が可能である。なお、学習部31の通信部31cは通信部14の間でも通信が可能である。
【0035】
学習部31は、制御部31gを有しており、制御部31gは、CPU等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。なお、学習部31全体が、CPU、GPU(Graphics Processing Unit)、FPGA等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して学習を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。
【0036】
外部画像DB32は、画像分類記録部34を備えている。画像分類記録部34は、ハードディスクやメモリ媒体等の図示しない記録媒体により構成されており、複数の画像を画像中に含まれる対象物の種類毎に分類して記録する。
図1の例では、画像分類記録部34は、対象物種類Aの画像群34aのみを記録する例を示しているが、分類する種類の数は適宜設定可能である。
【0037】
本実施の形態においては、画像群34aとして、例えば鳥の画像群が記録されている。
図3及び
図4は画像群34aの各画像を説明するためのものである。
図3は画像群34aの各画像を撮像する一例を示す説明図であり、
図4は画像群34aの各画像と撮影時間との関係を示す説明図である。
【0038】
図3は樹木の枝45に止まっている鳥46をカメラ40によって撮影している様子を示している。カメラ40の背面にはLCD等により構成された表示画面42が設けられており、鳥46の画像がライブビューとして表示されていることを示している。シャッタボタン41を操作することで、鳥46の撮影が可能である。本実施の形態においては、鳥46が枝45から飛び立つまでの一連の様子を撮像する。例えば、カメラ40が連写機能を有している場合には連写機能を用いて、鳥46が枝45に止まっている状態から枝45から飛び立つまでの一連の様子を所定の時間間隔で撮像して一連の画像として取得してもよい。また、カメラ40が動画の撮像機能を有している場合には、鳥46が枝45に止まっている状態から枝45から飛び立つまでの一連の様子を動画撮影した動画像を取得してもよい。また、カメラ40のシャッタボタン41を所定の時間間隔で操作することで、鳥46が枝45に止まっている状態から枝45から飛び立つまでの一連の様子を所定の時間間隔で撮像して離散的に静止画像を取得してもよい。
【0039】
図4はカメラ40が取得した6枚の画像P1~P6を時間順に配置して示している。各画像P1~P6は
図3の鳥46を撮影して取得された画像である。各画像P1~P6はそれぞれ時間情報を含んでおり、
図4の各画像下の数字は画像P5を基準として取得された時間を示している。
図4の例では、画像P1~P6は画像P5を時間基準として、-20秒(2秒前)、-15秒、-10秒、-5秒、0秒、+5秒に撮影されたものである。なお、一般的には、カメラ40にはタイマが内蔵されており、タイマによって時刻の情報が各画像P1~P6に付加されるが、いずれかの画像、例えば、連写開始時の画像の取得時刻を基準に相対的な時間の情報を各画像P1~P6を付加してもよい。例えば、
図4の例では、画像P1の撮影時刻は15時30分27秒であり、この時間を基準に画像P2~P6の相対的な取得時間を時間情報として保持していてもよい。
【0040】
例えば、ユーザが最も撮影したい画像が、鳥46が枝45から正に飛び立とうとしている瞬間の画像(以下、特定状態画像ともいう)を含む画像P5であるものとする。この瞬間を決定的瞬間として、画像P5を決定的瞬間画像というものとする。本実施の形態においては、
図4に示すような時間情報を有する一連の画像を画像分類記録部34に画像群34aとして記録するようになっている。なお、画像分類記録部34には、同一種類の鳥の画像や、サイズが略同様のサイズであると分類された鳥の画像群を記録するようにしてもよい。また、これらの画像の外に、種類が異なる画像や異なるサイズに分類される鳥の画像群を記録してもよい。
【0041】
図4に示すように、鳥は、飛び立つ前の所定時間に、曲げていた足を伸ばし、翼を広げようとする予備動作を行うことがある。例えば、種類が異なる鳥の場合、サイズが異なる鳥の場合、或いは、獲物を狙っているか否か等に応じて、予備動作の仕方は多少異なるものと考えられるが、鳥の飛び立ちに関する膨大な画像データについて学習を行えば、飛び立つ前の様子から飛び立つ瞬間の時間を予測することが可能であると考えられる。
【0042】
画像群34aには、例えば、
図3のような撮影によって
図4に示すような時間情報を有する一連の画像についての膨大なデータ群が記録されている。学習部31の母集合作成部31aは、外部画像DB32から画像を読出して、学習の元となる母集合を作成する。
【0043】
なお、学習部31に与える学習用データを撮像装置20から取得することも可能である。この場合には、撮像装置20は、撮像部22によって取得した撮像画像に、制御部11に内蔵されている図示しないタイマからの時間情報を付加して通信部14を介して学習部31に送信する。
【0044】
本実施の形態においては、母集合作成部31aは、時間判定部31a1及び対象物画像判定部31a2を有している。母集合作成部31aは、制御部31gに制御されて、推論モデルの生成に用いる教師データを作成する。対象物画像判定部31a2は決定的瞬間の判定の対象となる対象物の画像部分(以下、対象物画像という)を判定すると共に、当該対象物画像が対象物の特定の状態である決定的瞬間に至ったときの画像(特定状態画像)になったか否か判定する。また、時間判定部31a1は、各画像に付加された時間情報により、各画像が決定的瞬間(特定状態)に至るまでの時間を判定する。即ち、時間判定部31a1は、一連の画像の各画像について、各画像の撮影時刻と、一連の画像のうち決定的瞬間の特定状態画像を含む画像の撮影時刻との時間差を判定する。制御部31gは、各画像と判定した時間差との情報を組にして教師データとする。
ここで、特定状態と書いたのは、撮像して追っている対象物のそのものの形状が時間的に変化して特定の姿勢や向きになった状態の他、この対象物の色や大きさの変化なども含むもので、その他、撮像画面内における形状や位置や向きなどになったことを表している。また、状態には、対象物が発する音声の時間変化などを含んでもよい。また、画像、音声を総合的に判定して、演奏や踊りなどの演芸から、何らかの作業など、イベントの開始や終了、あるいはそのクライマックスや見どころなど、ユーザが設定、指定できるようにすれば良い。指定方法としては文字入力、音声入力、項目選択、類似情報入力などが考えられる。また、いちいち指定しなくとも、多くの人が決定的瞬間と感じるものなどは自動判定でもよく、また、それは特定の1タイミングに限らず複数のタイミングで起こるものでもよい。上記時間差は、数値として複数あってもよい。
【0045】
図5は母集合作成部31aによる教師データの作成方法を説明するためのフローチャートである。
図5のステップS1において、母集合作成部31aは時間情報が付加された一連の画像群を取得する。例えば、
図4の画像P1~P6が取得される。母集合作成部31aの対象物画像判定部31a2は、取得された一連の画像群の各画像から対象物画像を判定する。
【0046】
先ず、対象物画像判定部31a2は、マニュアル選択が指示されているか否かを判定する。マニュアル選択は、画像中からユーザが対象物画像を指定する操作によって行われる。学習部31にはLCD等によって構成された表示部31fが設けられており、表示部31fにはユーザ操作を受け付けるための図示しないタッチパネルが配設されている。対象物画像判定部31a2は、一連の画像を表示部31fに表示させ(ステップS9)、ユーザのタッチ操作によって指定された被写体を、マニュアル選択された対象物画像として判定する。ユーザによるマニュアル選択があった場合には、当該一連の画像を教師データの候補とする(ステップS10)。
【0047】
マニュアル選択が指定されていない場合には、対象物画像判定部31a2は、ステップS3において対象物画像を判定する。例えば、対象物画像判定部31a2は、画像中央に所定サイズ以上のサイズで位置する被写体を対象物として、その画像部分を対象物画像と判定してもよい。また、ユーザ操作によって、予め対象物とすべきものが指定されていてもよい。例えば、鳥が対象物として指定されている場合には、対象物画像判定部31a2は、取り込まれた画像に対する公知の認識処理によって、対象物である鳥を判定するようになっていてもよい。
【0048】
対象物画像判定部31a2は、次のステップS4において、対象物画像を含まない画像を一連の画像群から排除し、残りの画像数が所定数以上であるか否かを判定する(ステップS5)。一連の画像群のうち対象物画像を含む画像の枚数が所定数よりも少ない場合には、決定的瞬間の判定や決定的瞬間までの時間判定が困難になることが考えられるので、そのような画像群については、ステップS11において教師データ群の候補から外す。
【0049】
対象物画像判定部31a2は、対象物画像を含む画像が所定数以上であった場合には、処理をステップS6に移行して、当該対象物画像を含む画像群を選択し、ステップS7において、決定的瞬間画像を選択するための画像の候補化を行う。
図4の例では、鳥が飛び立つ瞬間を決定的瞬間とする例を示しており、例えば、対象物画像判定部31a2は、画像解析処理によって、対象物画像が画像中で上下左右に最も広がった画像を特定状態画像として検出し、当該特定状態画像を含む画像を決定的瞬間画像の候補とする。
図4の例では画像P5が決定的瞬間画像の候補となる。
【0050】
対象物画像判定部31a2は、次のステップS8において、決定的瞬間画像の候補の前に所定数以上の画像があるか否かを判定する。対象物画像を含む画像群のうち決定的瞬間画像よりも取得時間が前の画像の枚数が所定数よりも少ない場合には、決定的瞬間までの時間が短すぎて利用しにくいことから、そのような画像群については、ステップS11において教師データ群の候補から外す。
【0051】
対象物画像判定部31a2は、決定的瞬間画像の前に対象物画像を含む画像が所定数以上あった場合には、処理をステップS12に移行して、当該決定的瞬間画像の候補を決定的瞬間画像に決定し、当該決定的瞬間画像の取得時間を基準化する。
【0052】
次のステップS13において、時間判定部31a1は、一連の画像群のうち対象物画像を含む画像について、決定的瞬間画像の取得時間を基準にした相対的時間を付して記録する。こうして、
図4のように、決定的瞬間画像である画像P5を基準として、他の画像の取得時間との相対的な時間差の情報が付された一連の画像群が教師データとして教師データ記録部31eに記録される。
【0053】
推論モデル生成部としての入出力モデル化部31dは、例えば
図2に示す手法によって、母集合作成部31aが作成した教師データを教師データ記録部31eから読出して、画像と決定的瞬間画像が得られるまでの時間との関係を学習した学習モデル(推論モデル)、即ち、ネットワーク12a及びその設定情報を求める。
【0054】
学習部31は、撮像装置20の制御部11から要求があった場合には、生成した推論モデルを通信部31c,14を介して撮像装置20に送信するようになっている。制御部11は、通信部14を介して取得した設定情報を設定データ記録領域16bに記録して、推論エンジン12のネットワーク12aの設定に用いる。こうして、学習部31において生成された推論モデルを撮像装置20において利用可能となる。
【0055】
制御部11には設定制御部11dが設けられており、設定制御部11dは、推論エンジン12を制御して、推論エンジン12を利用した推論を行わせることができるようになっている。即ち、設定制御部11dは、撮像部22によってライブビュー画像が取得されると、当該ライブビュー画像を推論エンジン12に与えて決定的瞬間までの時間を得る推論(以下、画像時間推論という)を実行させる。この結果、推論エンジン12から決定的瞬間までの時間の情報が得られた場合には、設定制御部11dは、表示制御部11fを制御して、推論エンジン12による推論の結果を表示部15の表示画面上に表示させることができるようになっている。即ち、この場合には、ライブビュー画像に重ねて決定的瞬間までの時間が表示されることになる。
【0056】
なお、設定制御部11dは、表示に限らず、推論エンジン12による推論の結果を種々の方法でユーザに提示することができるようになっていてもよい。例えば、設定制御部11dは、音声により推論結果を提示してもよく、或いは駆動部の機械的な制御によって推論結果を提示してもよい。
【0057】
次に、このように構成された実施の形態の動作について
図6から
図10を参照して説明する。
図6、
図7及び
図10は第1の実施の形態の動作を説明するための説明図である。また、
図8及び
図9は第1の実施の形態の動作を説明するためのフローチャートであり、
図8は撮像装置20の動作を示し、
図9は外部機器30の動作を示している。
【0058】
図6は
図1の撮像装置20により被写体を撮像する様子を示している。
図1の撮像装置20の各部は、
図6の筐体20a内に収納されている。筐体20aの背面には表示部15を構成する表示画面15aが配設されている。また、筐体20aの前面には、光学系22bを構成する図示しないレンズが配設されており、筐体20aの上面には、操作部13を構成するシャッタボタン13aが配設されている。
【0059】
図6は被写体として、樹木の枝45に止まった鳥46を撮影する例を示しており、ユーザ47は、例えば、筐体20aを右手48で把持して、表示部15の表示画面15aを見ながら、鳥46を視野範囲に捉えた状態で、右手48の指でシャッタボタン13aを押下操作することで撮影を行う。
【0060】
本実施の形態においては、推論モデルを用いて、シャッタチャンスである決定的瞬間の判定を行う。即ち、推論エンジン12は、画像(ライブビュー画像)に対して決定的瞬間が訪れるまでの予測時間を推論するための推論モデルを構成する。このような推論モデルは、外部機器30によって生成可能である。
【0061】
図9は外部機器30の動作を示している。
図9のステップS41において、外部機器30は学習依頼があったか否かを判定し、学習依頼があるまで待機状態となる。学習依頼が発生すると、外部機器30はステップS42において、例えば外部画像DB32から学習用データを読出して教師データを作成する。なお、ステップS42の教師データ作成ステップは、
図5のフローによって実施されるものであってもよい。
【0062】
教師データが作成されて教師データ記録部31eに記録されると、入出力モデル化部31dは、ステップS43において、教師データ記録部31eから教師データを読出して学習を行い、推論モデルを作成する。入出力モデル化部31dは、次のステップS44において、練習問題を設定して、作成した推論モデルの検証を行う。入出力モデル化部31dは、ステップS45において、練習問題を用いた検証の結果、推論の信頼性が所定の値以上であるか否かを判定する。所定の値以上の場合には、入出力モデル化部31dは、正しく推論モデルが生成されたものと判定して、当該推論モデルを通信部31cを介して撮像装置20に送信する(ステップS49)。
【0063】
入出力モデル化部31dは、信頼性が所定値以上でない場合には、ステップS45から処理をステップS46に移行して、教師データの再設定等を行った後、ステップS47において所定回数以上再設定を行ったか否かを判定する。所定回数以上再設定を行っていない場合には、入出力モデル化部31dはステップS43に処理を戻す。入出力モデル化部31dは、再設定が所定回数以上行われた場合には、ステップS47から処理をステップS48に移行して、対象物画像は推論には不向きな苦手画像であるものと判定して、苦手画像情報を撮像装置20に送信した後、処理をステップS49に移行する。
【0064】
一方、撮像装置20の制御部11は、
図8のステップS21において、撮影モードが指定されているか否かを判定する。撮影モードが指定されている場合には、制御部11は、ステップS22において画像入力及び表示を行う。即ち、撮像部22は被写体を撮像し、制御部11は、撮像部22からの撮像画像を取り込み、
図3に示すように、撮像画像をライブビュー画像として表示部15に与えて表示させる。
【0065】
次に、設定制御部11dは、ステップS23において、推論エンジン12に決定的瞬間までの時間を表示させるための画像時間推論を実行させる。推論エンジン12は、ネットワーク12aにより実現される推論モデルを用いて、撮像中の各ライブビュー画像が決定的瞬間画像になるまでの時間を推論する。推論エンジン12は、推論の結果を制御部11に出力する。なお、推論結果は、表示中のライブビュー画像が決定的瞬間画像に変化するまでの時間及びその信頼性の情報を含む。
【0066】
設定制御部11dは、ステップS24において、推論エンジン12がライブビュー画像に関連する推論モデルを有しているか否かを判定する。例えば、設定制御部11dは、推論エンジン12からの推論結果の信頼性(信頼度)が所定の第1の閾値よりも低い場合には、推論エンジン12がライブビュー画像に関連する推論モデルを有していないものと判定してもよい。また、設定制御部11dは、公知の認識処理によって、ライブビュー画像中の被写体を認識し、認識した被写体に関する推論モデルが存在するか否かを判定してもよい。
【0067】
設定制御部11dは、関連する推論モデルを有していない場合には処理をステップS29に移行する。設定制御部11dは、関連する推論モデルを有していると判定した場合には次のステップS25において、現在のライブビュー画像に関連する推論モデルが存在することを示す表示を表示させる。
【0068】
次に、設定制御部11dは、推論エンジン12からの推論結果の信頼性(信頼度)が十分に高いか否か、例えば所定の第2の閾値よりも高いか否かを判定する。設定制御部11dは、信頼性が第2の閾値以上の場合には、処理をステップS27に移行して信頼性が高い時間差表示を表示させ、信頼性が第2の閾値よりも小さい場合には、処理をステップS28に移行して信頼性が比較的高い時間差幅の表示を表示させる。
【0069】
図7は表示部15の表示画面15aに表示される撮像画像を示す説明図である。上述したように、ユーザ47は、枝45上の鳥46の撮影を試みようとしている。特に、ユーザ47は、鳥46が枝45から飛び立つ瞬間を決定的瞬間と考えて撮影を希望しているものとする。
図7の画像P11~P14は、所定の時刻におけるライブビュー画像を示しており、画像P11~P14の順で時刻が経過している。
【0070】
画像P11中の画像46aは、枝に止まっている鳥46を示している。この画像P11は、表示画面15a上にライブビュー画像として表示されている。画像P11から所定時間後に取得されたライブビュー画像である画像P12は、画像P12中の被写体に関連する推論モデルが存在することを示す丸印の表示51が表示されている。画像P12中の鳥46の画像46bは、もう少しで鳥46が飛び立とうとしている様子を示している。更に、画像P12中には、推論エンジン12による画像時間推論の結果、決定的瞬間までの時間が5秒間から2秒間であることを示す時間差幅表示52bが表示されている。時間差幅表示52bは、画像時間推論の推論結果の信頼性は十分に高いとはいえないことから、推論結果に所定の幅を持たせて表示するものであり、例えば比較的高い信頼性(例えば、65~84%)の複数の推論結果の最小値と最大値を示す。
【0071】
これに対し、画像P12から所定時間後に取得されたライブビュー画像である画像P13中には、飛び立つ直前の鳥46の画像46cが表示されている。また、画像P13中には、推論エンジン12による画像時間推論の結果、決定的瞬間までの時間が1秒間であることを示す時間差表示52cが表示されている。時間差表示52cは、画像時間推論の推論結果の信頼性が十分に高く(例えば85%以上)、最も高い信頼性の1つの推論結果を示すものである。画像P13中の時間差表示52cによれば、被写体である鳥46は、時間差表示52cの表示開始から1秒後に飛び立つ可能性が高いことを示している。
【0072】
ユーザ47が、この時間差表示52cの表示から1秒後にシャッタボタン13aを押下することで、鳥46が飛び立つ決定的瞬間を撮影することができる可能性が高い。制御部11は、ステップS29において、動画又は静止画撮影操作が行われたか否かを判定する。制御部11は、撮影操作が行われない場合には、処理をステップS21に戻し、撮影操作が行われると、ステップS30において、撮影及び記録処理を実行して処理をステップS21に戻す。即ち、制御部11は、撮像部22によって取得された撮像画像を記録制御部11cにより記録部16の画像データ記録領域16aに記録させる。なお、動画記録時には、撮影終了操作時に、画像データ記録領域16aに動画ファイルが記録される。
【0073】
図10はこうして撮影された撮像画像を説明するための説明図であり、表示画面15a上に表示されるレックビュー画像の一例を示している。
図10の左側は、連写時において表示画面15a上に表示されるレックビュー画像55を示している。例えば、ユーザが時間差幅表示52bや時間差表示52cを確認した後、連写撮影を開始することで、レックビュー画像55が得られる。太枠は、連写した1枚の画像が決定的瞬間画像55aであることを示している。
【0074】
また、
図10の右側は、単写時において表示画面15a上に表示されるレックビュー画像57を示している。例えば、ユーザが時間差表示52cを確認した後、表示された時間後にシャッタボタン13aを押下操作することで、レックビュー画像57で示す決定的瞬間画像が得られる。
【0075】
制御部11は、ステップS21において撮影モードが指定されていないと判定した場合には、処理をステップS31に移行して、推論モデルの取得が指定されているか否かを判定する。制御部11は、推論モデルの取得が指定されていない場合には、処理をステップS21に戻し、指定されている場合には、ステップS32において対象物の設定や再学習物の設定を行う。
【0076】
例えば、制御部11は、表示制御部11fによって、表示画面15a上に辞書設定のためのメニューを表示させ、更に、ユーザ操作に応じて、対象物の設定画面及び再学習物の設定画面を表示させて、ユーザによる対象物の指定及び再学習物の指定を可能にしてもよい。制御部11は、ステップS33において、ユーザによって指定された対象物又は再学習物に対する学習依頼又は再学習依頼を、外部機器30に対して行う。
【0077】
制御部11は、ステップS34において、学習部31から信頼性が所定値以上になった推論モデル、又は苦手画像情報に対応する推論モデルを通信部14を介して受信する。制御部11は、受信した推論モデルを推論エンジン12に設定し、苦手画像情報を記録部16に記録する。
【0078】
なお、
図8の説明では、画像時間推論の推論結果の信頼性が十分に高いか否かによって、時間差表示を行うか時間差幅表示を行うかを切換える例を説明したが、推論結果の表示形態は種々考えられる。例えば、推論結果の時間差を信頼性を示す数値や色分けによって表示してもよく、また、推論結果の信頼性が高い程、表示の濃淡の度合いを大きくするようにしてもよい。また、信頼性に拘わらず、常に時間差表示又は時間差幅表示を行ってもよい。
【0079】
また、上記説明では、撮影操作は、ユーザが手動で行うものと説明したが、決定的瞬間に自動的に撮影が行われるように撮像制御部が制御することも可能である。また、連写を行う場合には、決定的瞬間において確実に撮影が行われるように、連写のタイミングを決定的瞬間に同期させるように制御することも可能である。
【0080】
このように本実施の形態においては、時間情報を有する画像を学習用データとして、所定の瞬間(決定的瞬間)に到達するまでの時間を予測する画像時間推論を行う機械学習を実現する。この機械学習によって得た推論モデルを例えば撮像装置に適用することにより、時々刻々変化するライブビュー画像に対して画像時間推論を行って、例えば鳥が飛び立つという決定的瞬間までの到達時間を予測して、提示することができる。ユーザは、提示された到達時間を考慮して、例えばシャッタボタンの操作を行うことで、簡単に鳥が飛び立つ決定的瞬間の撮影が可能である。また、学習用データとして用いる時間情報を有する画像は極めて容易に取得することができるものであり、この学習用データから比較的簡単な処理によって教師データを取得することができ、画像時間推論を可能にする推論モデルを簡単に作成することができる。
【0081】
(第2の実施の形態)
図11は本発明の第2の実施の形態において採用される動作フローを示すフローチャートである。本実施の形態のハードウェア構成は第1の実施の形態と同様である。
図11において
図9と同一の手順には同一符号を付して説明を省略する。
【0082】
第1の実施の形態においては、時間情報を有する画像を学習用データとして用い、この学習用データを用いて教師データを作成することで、各画像と決定的瞬間までの時間を予測する画像時間推論を行う推論モデルを生成して利用する例を説明した。これに対し、本実施の形態は、時間情報を有する画像を学習用データとして用い、この学習用データを用いて所定の時間間隔を有する複数の画像の組を教師データとして作成することで、各画像と所定の時間後の画像を予測する画像画像推論を行う推論モデルを生成して利用する例である。
【0083】
図11のフローは、教師データの作成方法が
図5のフローと異なる。即ち、外部機器30の母集合作成部31aは、
図11のステップS51において、類似対象物の連続画像群を外部画像DB32等から取得する。母集合作成部31aは、ステップS52において、特定時間差の2画像を教師データとしてネットワークに与えて学習させる。
【0084】
図12は外部画像DB32から母集合作成部31aに取り込まれる連続画像群の一例を示す説明図である。画像P21~P29は、
図4と同様に、鳥が飛び立つ前後の一連の様子を撮影して得られた画像を時間順に配置したものである。なお、これらの画像P21~P29は、連写機能や動画機能を利用して取得してもよく、また、所定の時間間隔で単写撮影して取得してもよい。
【0085】
母集合作成部31aは、時間判定部31a1及び対象物画像判定部31a2によって、所定の時間前後の2つの画像の組を教師データとして選択する。例えば、
図12の矢印はN秒後の画像を示しており、画像P21とP24、画像P22とP25、画像P23とP26、画像P24とP27とが組であることを示している。母集合作成部31aは作成した教師データを教師データ記録部31eに記録する。
【0086】
図13は、
図2と同様の記載方法によって、ネットワーク12aを生成する手法を説明するための説明図である。
図13においては、、所定のネットワークN1には入力される大量の学習用データセットは、教師データ記録部31eから読出される画像の組である。本実施の形態においては、入力として画像がネットワークN1に与えられると、出力としてN秒後の画像が得られるように、ネットワークデザインが決定される。こうして決定されたネットワークデザインの情報は、通信部31cから撮像装置20に伝送され、設定制御部11dによって、設定データ記録領域16bに設定情報として記録される。
【0087】
更に、本実施の形態においては、学習部31は、ステップS45において信頼性が所定の値以上であると判定した場合には、次のステップS53において、入力画像から推測される出力画像、即ち、入力画像の取得時間から所定の時間経過後に取得された画像のうち、いずれの画像を出力するかを決定する。この画像は、後述するように、合成表示に用いる代表画像として用いるために、図示しない記録媒体に記録する。学習部31は、ネットワークデザインの情報の送信時に、代表画像についても撮像装置20に送信する。撮像装置20の記録制御部11cは代表画像を画像データ記録領域16aに記録するようになっている。
【0088】
次に、このように構成された実施の形態について撮像装置20における動作を
図14を参照して説明する。
図14は表示部15の表示画面に表示される画像の表示例を示す説明図である。
【0089】
本実施の形態においては、推論エンジン12は、所定の画像入力に対して所定時間後の予測画像を出力する上述した画像画像推論を行う推論モデルを構成する。また、撮像装置20の制御部11は、
図8のステップS25~S28に代えて、推論エンジン12による画像画像推論を実行させ、推論結果に基づく表示を行う。
【0090】
いま、
図6と同様に、ユーザ47が枝45に止まっている鳥46を撮像するものとする。
図14の画像P31a~P31dはいずれも鳥46が飛び立つ直前のライブビュー画像を示している。設定制御部11dは、撮像部22からのライブビュー画像を推論エンジン12に与えて、画像画像推論を実行させる。推論エンジン12は、画像画像推論の結果として、入力されたライブビュー画像の撮影時刻から所定時間後に撮像されるであろう画像を予測して予測結果を設定制御部11dに出力する。
【0091】
設定制御部11dは、予測結果に基づいて、画像データ記録領域16aに記憶されている代表画像を読出して表示制御部11fに与える。こうして、表示制御部11fは、現在のライブビュー画像上に、所定時間後に撮像されるであろう代表画像を重畳して表示させる。
図14の画像P31aは、この場合の一表示例を示しており、画像P31a中には、ライブビュー画像中に含まれる鳥46の飛び立つ直前の画像部分61の外に、2秒後の画像として予測された代表画像62aと3秒後の画像として予測された代表画像62bとが表示される。また、表示制御部11fは、これらの画像62a,63aの近傍に、プレビュー画像の取得時間を基準にして、これらの画像が取得されるであろう時間が2秒後又は3秒後であることを示す時間表示62b,63bを表示している。
【0092】
なお、上述したように、代表画像は、外部機器30によって決定されて記録された画像であり、外部機器30から撮像装置20に転送された画像である。このため、必ずしも代表画像が存在しない可能性もある。そこで、この場合には、代表画像の表示位置に、画像部分61をコピーして表示することも考えられる。
図14の画像P31bはこの場合の表示例を示しており、画像P31b中には、ライブビュー画像中に含まれる鳥46の飛び立つ直前の画像部分61の外に、2秒後の画像として予測された代表画像に代えて画像部分61をコピーして生成した画像64aが表示される。また、表示制御部11fは、この画像64aの近傍に、プレビュー画像の取得時間を基準にして、代表画像が取得されるであろう時間が2秒後であることを示す時間表示64bを表示している。
【0093】
また、
図14の画像P31cは、表示制御部11fが、画像P31aの時間表示62b,63bに代えて時間表示65b,66bを表示した例を示している。時計の針の形状を模した時間表示65b,66b及び矢印の表示によって、代表画像62a,63aの予想取得時間が、それぞれプレビュー画像の撮影時刻から2秒後又は3秒後であることを示している。
【0094】
図14の画像P31dは、同一の時間に撮像されるであろう代表画像を複数同時に表示する例を示している。上述した
図11のステップS53の説明では、1枚の代表画像のみを選択する例について説明したが、代表画像として複数の画像を選択して記録するようにしてもよい。この場合には、設定制御部11dは、外部機器30から転送された複数の代表画像を画像データ記録領域16aに記録させる。
【0095】
設定制御部11dは、推論エンジン12の予測結果に基づいて、画像データ記録領域16aに記録されている代表画像を読み出して表示制御部11fに与える。表示制御部11fは、代表画像が複数の場合には、複数の代表画像を重ねて表示する。画像P31dは、この場合の一表示例を示しており、画像P31d中には、ライブビュー画像中に含まれる鳥46の飛び立つ直前の画像部分61の外に、2秒後の画像として予測された代表画像67a~67cが表示される。また、表示制御部11fは、これらの画像67a~67cの近傍に、プレビュー画像の取得時間を基準にして、これらの画像が取得されるであろう時間が2秒後であることを示す時間表示67dを表示している。
【0096】
このように本実施の形態においては、時間情報を有する画像を学習用データとして、所定の時間後の画像を予測する画像画像推論を行う機械学習を実現する。この機械学習によって得た推論モデルを例えば撮像装置に適用することにより、時々刻々変化するライブビュー画像に対して画像画像推論を行って、例えば鳥が所定の時間後にどの様に撮影されるかを予測して、提示することができる。ユーザは、提示された画像を考慮して、例えば撮影操作を行うことで、簡単に鳥が飛ぶ様子を捉えた撮影が可能である。また、学習用データとして用いる時間情報を有する画像は極めて容易に取得することができるものであり、この学習用データから比較的簡単な処理によって教師データを取得することができ、画像画像推論を可能にする推論モデルを簡単に作成することができる。
【0097】
(第3の実施の形態)
図15は本発明の第3の実施の形態において採用される動作フローを示すフローチャートである。本実施の形態のハードウェア構成は第1の実施の形態と同様である。
図15において
図11と同一の手順には同一符号を付して説明を省略する。
【0098】
第2の実施の形態は画像画像推論の推論モデルを生成する例を説明したが、本実施の形態は、時間情報を有する画像を学習用データとして用い、この学習用データを用いて所定の時間間隔を有する複数の画像とその位置差の組を教師データとして作成することで、各画像と所定の時間後の画像位置を予測する画像位置推論を行う推論モデルを生成して利用する例である。
【0099】
図15のフローは、教師データの作成方法が
図11と異なり、ステップS52に代えてステップS61を採用すると共にステップS53の処理を省略したものである。なお、外部画像DB32には、第2の実施の形態と同様に、例えば、
図12等に示す連続画像群が記録されているものとする。
【0100】
母集合作成部31aは、時間判定部31a1及び対象物画像判定部31a2によって、第2の実施の形態と同様に、所定の時間前後の2つの画像の組を教師データに用いる。例えば、
図12の画像P21とP24、画像P22とP25、画像P23とP26、画像P24とP27とが組であることを示している。母集合作成部31aは、対象物画像について、画像中の位置の情報を求める。例えば、対象物画像が
図12の鳥の画像である場合には、鳥の顔の位置やつば先の先端の位置を求めてもよい。そして、母集合作成部31aは、組の画像中の各対象物画像同士の位置の差を求め、時間的に前に取得された画像(以下、前画像という)中の対象物の位置を基準に、後に取得された画像(以下、後画像という)中の対象物の位置差を求める。母集合作成部31aは前画像と位置差との関係を教師データとして、教師データ記録部31eに記録する。
【0101】
この場合におけるネットワーク12aの生成方法は、第2の実施の形態と同様であり、上述した
図13における出力の画像に代えて前画像の位置を基準にした後画像の位置差が得られるように、ネットワークデザインが決定される。即ち、本実施の形態においては、前画像を入力して、後画像の位置を予測する画像位置推論を行う推論モデルを得る。こうして決定されたネットワークデザインの情報は、通信部31cから撮像装置20に伝送され、設定制御部11dによって、設定データ記録領域16bに設定情報として記録される。
【0102】
次に、このように構成された実施の形態について撮像装置20における動作を
図16及び
図17を参照して説明する。
図16は撮像装置20の制御部11の制御を示すフローチャートであり、
図17は表示部15の表示画面に表示される画像の表示例を示す説明図である。なお、
図16に示す制御部11の制御フローは、
図8と略同様であり、
図8のステップS27,S28にそれぞれ代えてステップS65,S66を採用した点が異なる。
【0103】
本実施の形態においては、推論エンジン12は、所定の画像入力に対して所定時間後の予測位置を出力する上述した画像位置推論を行う推論モデルを構成する。
【0104】
いま、
図6と同様に、ユーザ47が枝45に止まっている鳥46を撮像するものとする。
図17の画像P32a~P32dはいずれも鳥46が飛び立つ直前のライブビュー画像を示している。設定制御部11dは、撮像部22からのライブビュー画像を推論エンジン12に与えて、画像位置推論を実行させる。推論エンジン12は、画像位置推論の結果として、入力画像との位置差、即ち、入力されたライブビュー画像中の対象物画像の位置を基準として、ライブビュー画像の撮影時刻から所定時間後に撮像されるであろう画像中の対象物画像の位置を予測して予測結果を設定制御部11dに出力する。
【0105】
撮像装置20の制御部11は、
図16のステップS26において、推論エンジン12による予測結果の信頼性が十分に高いと判定した場合には、次のステップS64において、推論結果に基づいて、所定時間後に撮像されるであろう画像中の対象物画像の位置を示す表示を行う。
【0106】
図17の画像P32aは、この場合の一表示例を示しており、表示制御部11fは、画像P32a中に、ライブビュー画像中に含まれる鳥46の飛び立つ直前の画像(対象物画像)部分61の外に、対象物画像の2秒後の画像位置として予測された位置を示す位置表示64aを表示している。なお、位置表示64aは、画像部分61をコピーして得られた画像である。また、表示制御部11fは、この画像64aの近傍に、プレビュー画像の取得時間を基準にして、この画像が取得されるであろう時間が2秒後であることを示す時間表示64bを表示している。
【0107】
また、
図17の画像P32bは、表示制御部11fが、画像P32aの時間表示64aに代えて時間表示71aを表示した例を示している。また、表示制御部11fは、この画像71aの近傍に、プレビュー画像の取得時間を基準にして、この画像が取得されるであろう時間が2秒後であることを示す時間表示71bを表示している。時間表示71aは、曲線形状によって、鳥46がプレビュー画像の撮影時刻から2秒後において到達するであろう画像中の位置の範囲を示している。
【0108】
また、制御部11は、ステップS45において推論の信頼性が十分に高くない場合には、ステップS66において、信頼性が比較的高い位置の範囲を表示する。
図17の画像P32cはこの場合の表示例を示しており、表示制御部11fは、画像P32c中に、2つの曲線による位置範囲表示72aを表示して、後画像が2秒後に存在する範囲を示している。また、表示制御部11fは、位置範囲表示72aの近傍に、プレビュー画像の取得時間を基準にして、この画像が取得されるであろう時間が2秒後であることを示す時間表示72bを表示している。なお、位置範囲表示72aは、画像位置推論の推論結果の信頼性が十分に高いとはいえない場合に、比較的高い信頼性(例えば、65~84%)の複数の推論結果のうち最も近い位置と最も遠い位置との範囲を示すものである。
【0109】
また、画像P32dは、ステップS66における他の表示例を示している。表示制御部11fは、画像P32d中に、円による位置範囲表示73aを表示して、後画像が2秒後に存在する範囲を示している。また、表示制御部11fは、位置範囲表示73aの近傍に、プレビュー画像の取得時間を基準にして、この画像が取得されるであろう時間が2秒後であることを示す時間表示73bを表示している。
【0110】
このように本実施の形態においては、時間情報を有する画像を学習用データとして、所定の時間後の画像の位置を予測する画像位置推論を行う機械学習を実現する。この機械学習によって得た推論モデルを例えば撮像装置に適用することにより、時々刻々変化するライブビュー画像に対して画像位置推論を行って、例えば鳥が所定の時間後にどの位置に撮影されるかを予測して、その位置を提示することができる。ユーザは、提示された位置を考慮して、例えば撮影操作を行うことで、鳥が飛ぶ様子を簡単に捉えた撮影が可能である。また、学習用データとして用いる時間情報を有する画像は極めて容易に取得することができるものであり、この学習用データから比較的簡単な処理によって教師データを取得することができ、画像位置推論を可能にする推論モデルを簡単に作成することができる。
【0111】
(第4の実施の形態)
図18乃至
図20は本発明の第4の実施の形態を説明するための説明図である。本実施の形態のハードウェア構成は第1の実施の形態と同様である。
図18は本実施の形態における撮影シーンを示す説明図である。
【0112】
図18はユーザ47が樹木の枝45に止まっている鳥46の撮影を行う様子を示している。ユーザ47と樹木との間には川81が流れており、川81では魚49が泳いでいる。枝45に止まっている鳥46は、上空に飛び立ったり、隣の樹木の枝に飛び移ったり、川81の魚49に目がけて滑空したりすることが考えられる。
図18ではこれらの状態を符号46h,46i,46jでそれぞれ示している。この場合において、鳥46がいずれの方向に飛び去るかを事前に予測できれば、鳥46の効果的な撮影が可能となることが考えられる。
図18の例では、鳥46が符号46h又は46iの状態になる確率がそれぞれ15%で、符号46jの状態になる確率が70%であることを示している。本実施の形態はこのような予測を可能にするものである。
【0113】
第2の実施の形態においては、時間情報を有する画像を学習用データとして用い、この学習用データを用いて所定の時間間隔を有する複数の画像の組を教師データとして作成することで、各画像(前画像)と所定の時間後の画像(後画像)を予測する画像画像推論を行う推論モデルを生成して利用する例であった。本実施の形態は、前画像に対して複数の時間後の後画像と移動方向を予測する画像画像方向推論を行う推論モデルを生成して利用する例である。
【0114】
本実施の形態において、例えば、
図12に示す連続画像群を学習用データとして用いることができる。母集合作成部31aは、前画像と、前画像の取得時間から複数の所定時間後における後画像とを組にした教師データを生成して教師データ記録部31eに格納する。入出力モデル化部31dは、各所定時間毎に、前画像に対応する後画像とその移動方向を求めると共に、後画像として用いる代表画像を選択する。この場合には、代表画像は移動方向に応じて複数選択される。例えば、移動方向の15度毎に代表画像を選択するようにしてもよい。こうして、生成されたネットワークデザインの情報及び代表画像は撮像装置20に送信され、撮像装置20の記録制御部11cはネットワークデザインの情報を設定データ記録領域16bに記録し、代表画像を画像データ記録領域16aに記録するようになっている。
【0115】
次に、このように構成された実施の形態について
図18乃至
図20を参照して説明する。
図19及び
図20は表示部15の表示画面に表示される画像の表示例を示す説明図である。
【0116】
本実施の形態においては、推論エンジン12は、所定の画像入力に対して複数の所定時間後の予測画像及びその移動方向を出力する上述した画像画像方向推論を行う推論モデルを構成する。ユーザ47は、枝45から飛び立った後の鳥46の撮影を試みようとしている。
図19の画像P41~P44は、所定の時刻におけるライブビュー画像を示しており、画像P41~P44の順で時刻が経過している。
【0117】
画像P41中の画像46aは、枝に止まっている鳥46を示している。この画像P41は、表示画面15a上にライブビュー画像として表示されている。画像P41から所定時間後に取得されたライブビュー画像である画像P42は、画像P42中の被写体に関連する推論モデルが存在することを示す丸印の表示51が表示されている。画像P42中の鳥46の画像46bは、もう少しで鳥46が飛び立とうとしている様子を示している。例えば、この時点における画像画像方向推論の信頼性は十分に高くはないものとする。この場合には、画像P42中には、推論エンジン12による画像画像方向推論の結果、表示制御部11fにより、5秒間から2秒間後の画像予測であることを示す時間表示88bと鳥46の移動方向の予測を示す表示が表示される。
【0118】
図19の例では、画像P42中には、鳥46が、上方に飛び立つ可能性が15%であることを示す確率表示85hpとその場合の代表画像85h、隣の枝に飛び移る可能性が15%であることを示す確率表示85ipとその場合の代表画像85i及び水平又は下方に滑空する可能性が70%であることを示す確率表示85jpとその場合の代表画像85jが含まれている。なお、各確率表示によって示す確率は、推論の結果得られる各方向の信頼性の値に基づいて得られるものである。
【0119】
更に、画像P42から所定時間後に取得されたライブビュー画像である画像P43は、画像P43中の被写体に関連する推論モデルが存在することを示す丸印の表示51が表示されている。画像P43中の鳥46の画像46cは、鳥46が飛び立つ直前の様子を示している。例えば、この時点における画像画像方向推論の信頼性は十分に高いものとする。この場合には、画像P43中には、推論エンジン12による画像画像方向推論の結果、表示制御部11fにより、1秒間後の鳥46の移動方向を示す表示が表示される。
【0120】
図19の例では、画像P43中には、鳥46が、隣の枝に飛び移る可能性が5%であることを示す確率表示86ipとその場合の代表画像86i及び水平又は下方に滑空する可能性が95%であることを示す確率表示86jpとその場合の代表画像86jが含まれている。また、予測が現時点から1秒後のものであることを示す時間表示88cも表示されている。
【0121】
ユーザ47は、表示部15の表示画面15aに表示された画像P43を確認することによって、鳥46が枝45から飛び立った後、略水平方向に滑空することを予測することができる。
【0122】
例えば、ユーザ47は、画像P43を確認して鳥46の移動方向を推測することで、鳥46を撮影範囲に捉え続けることが比較的容易にできる。結果的に、ユーザ47は、所望の決定的瞬間、即ち、鳥46が魚49を捕獲する瞬間等を撮影することが可能となる。
【0123】
図20はこの場合における表示画面15a上の表示を示しており、魚の画像49pと魚を咥えた鳥の画像46pとが表示されている。
【0124】
なお、
図19の画像P44は、画像P43の撮影時刻から1秒後のライブビュー画像を示しており、実際の鳥46の画像46dと予測結果の代表画像87j及びその移動方向の確率が100%であることを示す確率表示87jpとが表示されている。
【0125】
このように本実施の形態においては、時間情報を有する画像を学習用データとして、所定の複数の時間後の画像及びその移動方向を予測する画像画像方向推論を行う機械学習を実現する。この機械学習によって得た推論モデルを例えば撮像装置に適用することにより、時々刻々変化するライブビュー画像に対して画像画像方向推論を行って、例えば鳥が所定の時間後にどの方向で撮影されるかを予測して、提示することができる。ユーザは、提示された画像を考慮して、例えば撮影操作を行うことで、簡単に鳥が飛ぶ様子を捉えた撮影が可能である。また、学習用データとして用いる時間情報を有する画像は極めて容易に取得することができるものであり、この学習用データから比較的簡単な処理によって教師データを取得することができ、画像画像方向推論を可能にする推論モデルを簡単に作成することができる。
【0126】
なお、上記各実施の形態においては、対象物として鳥を想定した例のみを説明したが、対象物としてはどのようなものでもよく、また、決定的瞬間についても前後の画像から学習によって予測可能なものであれば、どのようなものでもよい。例えば、鳥が水面に入る瞬間を予測してもよく、魚が水面からジャンプする瞬間を予測してもよく、猫や犬が振り向く瞬間を予測してもよい。
【0127】
また、動物に限らず、ミルククラウンが生じる瞬間を予測してもよく、花火が開く瞬間を予測してもよい。また、比較的予測が簡単なゴルフ等のスイングのインパクトの瞬間を予測してもよい。また、更に、細胞分裂の瞬間、卵割、羽化、孵化等を予測してもよい。細胞分裂の瞬間を確認することは比較的困難であり、分単位で分裂の瞬間を予測できれば、極めて有用である。また、例えば、調理の状態を撮像することで、火を止める瞬間を予測することも可能である。
【0128】
更に、上記各実施の形態においては、画像によって時間、画像、位置、方向を推論する例を説明したが、音に基づいてこれらの推論を行うことも可能である。例えば、動物の求愛行動を求める鳴き声等から、求愛行動を予測することも可能である。また、動物の画像から求愛行動を発するまでの鳴き声の瞬間を予測することも可能であり、即ち、画像から音の発生タイミングを予測することも可能である。
前述のように、音声や画像など、取得できる情報は、すべて、本発明の考え方が適用でき、また、総合的に判断して一方から他方の予測のみならず、両方のデータを使った学習を行ってもよい。例えば、画像の一コマごとに、対応する取得時間の音の断片的な情報を入れて学習すればよい。求愛行動のみならず、産卵や羽化、孵化といった決定的瞬間もある。また、心音や呼吸音、腸蠕動音などに基づいて推論する事で患者がその後発症するであろう疾患を予測する医療展開も可能である。ぜんそくなどの喘鳴や呼吸の様子は、悪化によって状態が変わるので初期の発見がしやすい。言葉で表せない乳幼児や障害のある人などの早期治療に役立てることも可能である。
【0129】
なお、上記実施の形態においては、撮像装置は、外部機器に推論モデルの作成及び転送を依頼したが、推論モデルの作成はいずれの装置において実施してもよく、例えば、クラウド上のコンピュータを利用してもよい。
【0130】
上記実施の形態においては、撮像のための機器として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラのような動画用のカメラでもよく、さらに、携帯電話やスマートフォンなど携帯情報端末(PDA:Personal Digital Assist)等に内蔵されるカメラでも勿論構わない。また、撮像部が撮像装置と別体になったものでもよい。
【0131】
本発明は、上記各実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0132】
なお、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。また、これらの動作フローを構成する各ステップは、発明の本質に影響しない部分については、適宜省略も可能であることは言うまでもない。
【0133】
なお、ここで説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。
【0134】
なお、実施例中で、「部」(セクションやユニット)として記載した部分は、専用の回路や、複数の汎用の回路を組み合わせて構成してもよく、必要に応じて、予めプログラムされたソフトウェアに従って動作を行うマイコン、CPUなどのプロセッサ、あるいはFPGAなどシーケンサを組み合わせて構成されてもよい。また、その制御の一部または全部を外部の装置が引き受けるような設計も可能で、この場合、有線や無線の通信回路が介在する。通信は、ブルートゥースやWiFi、電話回線などで行えばよく、USBなどで行っても良い。専用の回路、汎用の回路や制御部を一体としてASICとして構成してもよい。移動部などは、様々なアクチュエータと、必要に応じて移動用の連結メカニズムによって構成されており、ドライバ回路によってアクチュエータが作動する。このドライブ回路もまた、特定のプログラムに従ってマイコンやASICなどが制御する。こうした制御は各種センサやその周辺回路が出力する情報によって、詳細な補正、調整などが行われても良い。また、推論モデルとか学習済モデルという言葉で人工知能が判断する学習結果で判断する実施例を説明したが、これは、単純なフローチャートや条件分岐、あるいは演算を伴う数値化判断等でも代替可能な場合がある。また、カメラの制御回路の演算能力が改善されることや、特定の状況や対象物に絞り込むことによって、機械学習の学習を撮像装置内で実施してもよい。
[付記項1]
撮影時刻に基づく時間情報を有する一連の画像中の各画像について所定時間後の画像を求める時間判定部と、
上記一連の画像中の各画像について、上記各画像中の特定の対象物の所定時間後における画像状態を検出する対象物画像判定部と、
上記各画像と上記各画像について求めた特定の対象物の所定時間後における画像状態のデータとを組にして教師データとする制御部と
を具備したことを特徴とする教師データ作成装置。
【0135】
[付記項2]
上記制御部は、上記一連の画像から上記特定の対象物の所定時間後における画像状態に類似した画像を選択して代表画像とする
ことを特徴とする付記項2に記載の教師データ作成装置。
【0136】
[付記項3]
付記項1に記載の教師データ作成装置によって作成された教師データを用いた機械学習により、入力された画像から所定の対象物の所定時間後における画像状態を推論する推論モデルを生成する推論モデル生成部
を具備したことを特徴とする学習装置。
【0137】
[付記項4]
付記項3の学習装置によって生成された推論モデルを実現する推論エンジンと、
撮像部と、
上記撮像部による撮像画像を上記推論エンジンに与えて、上記撮像画像中の上記所定の対象物の所定時間後における画像状態の推論結果を得る設定制御部と
を具備したことを特徴とする撮像装置。
【0138】
[付記項5]
撮影時刻に基づく時間情報を有する一連の画像中の各画像について所定時間後の画像を求める時間判定部と、
上記一連の画像中の各画像について、上記各画像中の特定の対象物の所定時間後における画像位置を検出する対象物画像判定部と、
上記各画像と上記各画像について求めた特定の対象物の所定時間後における画像位置のデータとを組にして教師データとする制御部と
を具備したことを特徴とする教師データ作成装置。
【0139】
[付記項6]
付記項5に記載の教師データ作成装置によって作成された教師データを用いた機械学習により、入力された画像から所定の対象物の所定時間後における画像位置を推論する推論モデルを生成する推論モデル生成部
を具備したことを特徴とする学習装置。
【0140】
[付記項7]
付記項6の学習装置によって生成された推論モデルを実現する推論エンジンと、
撮像部と、
上記撮像部による撮像画像を上記推論エンジンに与えて、上記撮像画像中の上記所定の対象物の所定時間後における画像位置の推論結果を得る設定制御部と
を具備したことを特徴とする撮像装置。
【0141】
[付記項8]
撮影時刻に基づく時間情報を有する一連の画像中の各画像について複数の所定時間後の画像を求める時間判定部と、
上記一連の画像中の各画像について、上記各画像中の特定の対象物の複数の所定時間後における画像位置及び移動方向を検出する対象物画像判定部と、
上記各画像と上記各画像について求めた特定の対象物の複数の所定時間後における画像位置及び移動方向のデータとを組にして教師データとする制御部と
を具備したことを特徴とする教師データ作成装置。
【0142】
[付記項9]
付記項8に記載の教師データ作成装置によって作成された教師データを用いた機械学習により、入力された画像から所定の対象物の複数の所定時間後における画像位置及び移動方向を推論する推論モデルを生成する推論モデル生成部
を具備したことを特徴とする学習装置。
【0143】
[付記項10]
付記項9の学習装置によって生成された推論モデルを実現する推論エンジンと、
撮像部と、
上記撮像部による撮像画像を上記推論エンジンに与えて、上記撮像画像中の上記所定の対象物の複数の所定時間後における画像位置及び移動方向の推論結果を得る設定制御部と
を具備したことを特徴とする撮像装置。
【符号の説明】
【0144】
11…制御部、11a…撮像制御部、11b…画像処理部、11c…記録制御部、11d…設定制御部、11e…通信制御部、11f…表示制御部、12…推論エンジン、12a…ネットワーク、13…操作部、14,31b,31c,33…通信部、15…表示部、16…記録部、16a…画像データ記録領域、16b…設定データ記録領域、20…撮像装置、22…撮像部、22a…撮像素子、22b…光学系、30…外部機器、31…学習部、31a…母集合作成部、31a1…時間判定部、31a2…対象物画像判定部、31d…入出力モデル化部、31e…教師データ記録部、31f…表示部、32…外部画像DB。