(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
近年、撮像装置や画像処理装置の進歩により、特別な専門知識がなくても、安価で手軽に動画の作成を行えるようになっており、また、インターネット等を介して作成した動画を誰でも容易に公開することが可能である。そのため、静止画だけでなく動画についても、多様な画像の楽しみ方の一つをサポートする技術として、画像データに対してテキストを作成する技術に対するニーズが存在する。
【0006】
そこで本発明の目的は、動画や連写写真ように複数のフレームを含む画像データから、当該画像データを見た際に人間が生じる感性に対して良好な整合性を有するテキストを生成し得る画像処理装置を提供することである。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明に係る画像処理装置は、
複数のフレームを含む画像データについて前記フレーム間の差異に関する特徴量を抽出する特徴量抽出部と、
前記特徴量の変化が所定の閾値を超える変化部を抽出する変化部抽出部と、
前記変化部から所定の範囲内にある前記フレームから情報を取得し、取得した前記情報に基づきテキストを生成するテキスト生成部と、を有する。
【0008】
また、例えば、前記特徴量抽出部は、前記フレーム間における像の動きに比例する前記特徴量を抽出しても良く、
前記テキスト生成部は、前記変化部における前記特徴量の変化が増大方向である場合、前記像の動きが増大方向へ変化したことを表現する前記テキストを生成しても良い。
【0009】
また、例えば、前記特徴量抽出部は、前記フレーム間における像の動きに比例する前記特徴量を抽出しても良く、
前記テキスト生成部は、前記変化部における前記特徴量の変化が減少方向である場合、前記像の動きが減少方向へ変化したことを表現する前記テキストを生成しても良い。
【0010】
また、例えば、前記フレームから人物の顔が写っている顔領域を抽出する顔領域抽出部をさらに有しても良く、
前記特徴量抽出部は、前記フレーム間における前記顔領域における像の動きに比例する前記特徴量を抽出しても良い。
【0011】
また、例えば、本発明に係る画像処理装置は、生成した前記テキストを前記画像データの表示に重ねて表示するタイミングを決定するタイミング決定部を更に有しても良く、
前記タイミング決定部は、前記変化部と同時に又は前記変化部から所定時間までに前記テキストの表示が開始されるように前記タイミングを決定しても良い。
【0012】
本発明に係る撮像装置は、上記のうちいずれかの画像処理装置と、被写体を撮像して前記画像データを生成する撮像部と、を有する。
【0013】
本発明に係る画像処理プログラムは、コンピュータに、
複数のフレームを含む画像データについて前記フレーム間の差異に関する特徴量を抽出する処理と、
前記特徴量の変化が大きい変化部を抽出する処理と、
前記変化部から所定の範囲内にある前記フレームから情報を取得し、取得した前記情報に基づきテキストを生成する処理と、を実行させる。
【発明を実施するための形態】
【0015】
図1は、本発明の一実施形態に係る撮像装置10の概略ブロック図である。撮像装置10は、撮像部12、カメラ制御部20、操作部22、画像処理部40、表示部26、記憶部28、バッファメモリ部30、通信部32、メモリカード(記憶媒体)34等を有しており、各部分は、バス24を介して相互に通信することができる。
【0016】
撮像部12は、光学系14、撮像素子16、A/D変換部18等を有しており、画像データを生成する。光学系14は、1又は2以上のレンズを備え、レンズに入射した光の像を、撮像素子16の受光面に形成する。
【0017】
撮像素子16は、例えばCCDやCMOS等の固体撮像素子によって構成され、光学系14を介して受光面に結像した光学像を、電気信号に変換する。撮像素子16は、生成した電気信号を、A/D変換部18に出力する。A/D変換部18は、撮像素子16によって生成された電気信号に対して、アナログ/デジタル変換等を行い、カメラ制御部20及び画像処理部40等で処理可能な画像データを生成する。
【0018】
撮像部12による画像データの生成動作は、カメラ制御部20によって制御される。例えば、撮像部12は、カメラ制御部20による制御により、操作部22等を介して動画撮影開始信号が入力されたタイミングで、所定のフレームレートで連続的な光電変換を行い、いわゆる動画の画像データを生成することができる。また、撮像部12は、カメラ制御部20による制御により、操作部22等を介して撮影信号が入力されている間撮像素子16による光電変換を断続的に行い、いわゆる静止画の連写撮影に係る画像データを生成することができる。なお、本明細書における説明では、連写に係る静止画群や動画を構成するデータ全体を画像データとし、時間軸に沿って配列可能な状態で画像データに含まれており、静止した像として認識可能な光学像の情報をフレームとする。また、画像データは音声情報を含んでいても良く、音声情報がフレームの配列に同期した再生タイミング情報を有している場合は、音声情報も対応するフレームの一部であると考えることができる。
また、撮像部12は、撮影信号が入力されたタイミングで1枚だけ静止画を取得するいわゆる単写撮影が可能であっても良い。
【0019】
撮像部12で生成された画像データは、カメラ制御部20の制御により、バッファメモリ部30及び画像処理部40を介して、メモリカード34に保存される。なお、撮像部12は、操作部22等からの操作信号が入力されていない状態で、自動的に画像データの生成を行い、いわゆるスルー画の画像データを生成することもできる。この場合、撮像部12で生成されたスルー画の画像データは、カメラ制御部20の制御により、表示部26に表示される。
【0020】
画像処理部40は、メモリカード34又はバッファメモリ部30に記憶されている画像データに対して、各種の画像処理を実行する。画像処理部40は、撮像部12で生成された動画、スルー画、連写撮影に係る静止画群等の画像データについて画像処理を行う他、メモリカード34等に保存されている撮像部12以外で生成された画像データについても、画像処理を行うことができる。画像処理部40は、画像データの解析や、データの圧縮及び変換、画像データの表示(再生を含む)に重ねて表示されるテキストの生成などを行うことができるが、画像処理部40の詳細については、後ほど述べる。
【0021】
表示部26は、液晶ディスプレイ等で構成されており、カメラ制御部20の制御に従って、画像データや、操作メニュー等を表示する。また、表示部は、画像処理部40によるテキスト生成処理によって生成されたテキストを、画像データの表示に重ねて表示することができる。記憶部28には、撮像装置10の制御に用いる撮影条件、画像処理条件、表示(再生)制御条件、記録制御条件、入出力制御条件や、テキストの生成に用いる辞書(テキスト集)など、各種の情報が記憶されている。カメラ制御部20や画像処理部40は、必要に応じて、記憶部28に記憶されている情報を読み出し、演算処理に利用することができる。記憶部28は、ROM等によって構成される。
【0022】
バッファメモリ部30は、カメラ制御部20及び画像処理部40が演算処理を実施する際の作業領域として利用される。例えば、画像処理部40が画像データに対して画像処理を行う場合、処理の対象となる画像データは、記憶媒体から読み出され、バッファメモリ部30に一次的に格納される。バッファメモリ部30は、RAM等によって構成される。
【0023】
操作部22は、操作者が撮像装置10に対して情報を入力するためのスイッチ等を有している。操作部22は、電源スイッチ、レリーズスイッチ、録画開始スイッチ、モードスイッチ、メニュースイッチ、選択キー等を備えており、操作者の操作に対応した信号を、カメラ制御部20に出力する。
【0024】
通信部32は、メモリカード34を取り付けるスロットや、他の情報機器と通信を行うための送受信部等を有しており、撮像装置10は、通信部32を介して、メモリカード34や他の情報機器から情報を取得できる。また、カメラ制御部20は、通信部32を介してメモリカード34に画像データを出力し、メモリカード34に画像データを保存することができる。
【0025】
メモリカード34は、通信部32を介して着脱自在に接続される記憶媒体であり、撮像部12等で生成された画像データ等を記憶することができる。メモリカード34に保存される画像データの形式は特に限定されないが、例えば静止画であればイグジフ(Exif)形式のファイル、動画であればMOV形式等のファイルとして、メモリカード34に保存される。
【0026】
カメラ制御部20は、撮像装置10が備えている各部分の制御を行う。例えば、カメラ制御部20には、電源部(不図示)が接続されており、カメラ制御部20は、撮像装置10内の各部分に対して適切に電力が供給されるように、制御を行う。カメラ制御部20は、例えばマイクロプロセッサ等によって構成される。なお、カメラ制御部20と画像処理部40の演算処理は、共通のマイクロプロセッサで行われても良く、また別個の電子回路で行われても良い。
【0027】
図2は、
図1に示す画像処理部40に含まれる処理部を、ブロック図で表したものである。画像処理部40は、画像データ入力部41と、解析部43と、テキスト生成部50と、タイミング決定部52と、文章付加部56とを有する。画像処理部40は、
図1に示す撮像部12等で生成された画像データについて、各種の解析処理を行うことにより、画像データに関する各種の情報を取得し、取得した情報から画像データの内容と整合性の高いテキストを作成し、画像データにテキストを付加することができる。
【0028】
図2に示す画像データ入力部41は、メモリカード34又はバッファメモリ部30に格納されている画像データを読み出し、解析部43に出力する。
【0029】
解析部43は、特徴量抽出部44、変化部抽出部45、顔領域抽出部46を有しており、画像データから情報を取得し、また、取得した情報を用いて各種の演算処理を実施する。また、解析部43は、Exifファイル等の形式で画像データに関連付けて保存されている撮影情報を取得することができる。解析部43がExifファイル等から取得可能な撮影情報は、画像データの撮影状況を示すデータであれば特に限定されないが、画像データの生成年月日、生成時間に関する情報や、画像データの生成場所(GPSデータ)、撮影者等に関する情報が含まれる。解析部43で取得された画像データに関する情報は、テキスト生成部50に出力され、テキスト生成部50は、その情報をテキストの生成等に利用することができる。
【0030】
特徴量抽出部44は、画像データに含まれるフレーム間の差異に関する特徴量を抽出する。特徴量抽出部44が抽出する特徴量は、フレーム間の差異(差分)に関するものであれば特に限定されないが、フレーム間の像の動きに比例する特徴量や、フレーム間の音の変化に比例する特徴量が挙げられる。また、特徴量抽出部44が抽出する特徴量は、人物の顔が写っている顔領域など、フレーム内の特定の領域における像の動きに比例する特徴量であっても良く、また、特定の周波数帯の音の変化に比例する特徴であっても良い。
【0031】
変化部抽出部45は、特徴量の変化が所定の閾値を超える変化部を抽出する。変化部抽出部45は、特徴量自体ではなく、特徴量の変化が大きい変化部を抽出することにより、動き始めや停止時に現れる像の動きの変化や、発音源の変化時に現れる音調の変化などを、変化部として抽出することができる。
【0032】
顔領域抽出部46は、人物の顔が写っている顔領域を、画像データを構成するフレームから抽出する。顔領域抽出部46は、エッジ抽出やテンプレートマッチング等の技術により、フレームから人物の顔が写っている領域を抽出し、画像データに含まれる人物の像の数に関する情報を取得する。また、顔領域抽出部46は、人物の像における顔の位置や、人物の像における肌の領域の位置及び広さ等に関する情報を取得しても良い。
【0033】
テキスト生成部50は、画像データ若しくは画像データに含まれるフレームから情報を取得し、取得した情報を用いてテキストを生成し、生成したテキストと画像データとを関連づける。テキスト生成部50は、上述した特徴量や変化部に関する情報の他にも、フレームを構成する像の色に関する色情報や、フレームを構成する像のエッジ情報などを、解析部43を用いて取得することが可能であっても良く、画像データから取得した情報を用いてテキストを生成することにより、画像データと好適にマッチングするテキストを生成する。
【0034】
また、生成されたテキストと画像データとのマッチングを向上させるために、テキスト生成部50は、画像データを構成するフレームのうち、変化部抽出部45で抽出された変化部から所定の範囲内にあるフレームから情報を取得することが好ましい。また、テキスト生成部50は、所定の範囲内にあるフレームから得た情報を用いて、
図7に示すような辞書のうち1つを選択し、選択した辞書に含まれる語句を用いてテキストを生成することができる。
【0035】
図3に示すフローチャートは、テキスト生成部50が、特徴量抽出部44及び変化部抽出部45からの情報を用いてテキストを生成する処理の一例を表したものである。なお、
図3に示す例では、特徴量抽出部44は、フレーム間の像の動きに比例する特徴量を抽出する。
図3のステップS101において、テキスト生成部50は、処理対象となる画像データに対して、特徴量の変化(変化の大きさ)が所定の閾値以上となる変化部の抽出を試み、変化部の抽出に成功した場合はステップS102へ進み、変化部を抽出できなかった場合はステップS105へ進む。
【0036】
画像データから変化部を抽出した場合、ステップS102において、抽出された変化部周辺のフレームから情報を取得して、抽出された変化部における特徴量の変化が増大方向であるか減少方向であるかを判断する。変化部における特徴量の変化が増大方向である場合にはステップS103へ進み、ステップS103では、テキスト生成部50が「動いた」辞書(
図7参照)を用いて、テキストを生成する。「動いた」辞書には、「動いた!」、「おおっ!」のような、動きが急に増大方向に変化したことに対する驚き等を表現する語句が含まれる。これに対して、変化部における特徴量の変化が減少方向である場合にはステップS104へ進み、ステップS104では、テキスト生成部50が「決まった」辞書(
図7参照)を用いて、テキストを生成する。「決まった」辞書には、「決まった!」、「フィニッシュ!」のような、動作が急に減少方向へ変化したことから連想される動作の完了等を表現する語句が含まれる。
【0037】
図3のステップS101において変化点を抽出できなかった場合は、ステップS105へ進み、特徴量が所定値を上回るか否かを判断する。特徴量が所定値を上回る場合はステップS106へ進み、ステップS106では、テキスト生成部50が「速い」辞書(
図7参照)を用いて、テキストを生成する。「速い」辞書には、「速いなあ・・」、「速い」など、像の動きが速いことを表す語句が含まれる。
【0038】
ステップS105で特徴量が所定値以下であった場合には、ステップS107へ進み、特徴量が所定値(ステップS105で用いた値より小さい値)を下回るか否かを判断する。特徴量が所定値を下回る場合はステップS108へ進み、テキスト生成部50が「ゆったり」辞書(
図7参照)を用いて、テキストを生成する。「ゆったり」辞書には、「遅い・・?」、「のんびりしてるね」など、像の動きが遅いことを表す語句が含まれる。また、ステップS107で特徴量が所定値以上であった場合は、変化部から所定の範囲内のフレームから像の動き以外の情報(例えば色情報など)を取得し、テキスト生成部50は像の動き以外の特徴を表現した「中立」辞書を用いてテキストを生成する(ステップS109)。
【0039】
図2に示すタイミング決定部52は、テキスト生成部50が生成したテキストを画像データの表示に重ねて表示するタイミングを決定する。タイミング決定部52は、特徴量抽出部44で抽出された特徴量や、変化部抽出部45で抽出された変化部に関する情報など、解析部43で取得された画像データに関する情報を用いて、テキストを表示するタイミングを決定することができる。例えばタイミング決定部52は、変化部抽出部45で抽出された変化部と同時又は変化部から所定時間までにテキストの表示が開始されるように、タイミングを決定することができる。これにより、画像の動きにあわせてタイミング良くテキストを表示することが可能になり、テキストと画像データのマッチング感が向上する。
【0040】
文章付加部56は、テキスト生成部50によって生成されたテキストを、画像データに付与する。具体的には、文章付加部56は、テキストのフォント、色、表示位置、テキストの動き(動画の場合)などを決定し、これにタイミング決定部52から取得したテキストの表示タイミングを合わせて、画像データとテキストを合成した表示内容に関する情報を生成する。文章付加部56は、画像データとテキストを合成した新たな画像データを生成してもよく、合成画像を表示する際に画像データに追加される表示情報及び画像データとの関連付け情報を含むファイルを生成しても良い。文章付加部56は、必要に応じて、画像データとテキストを合成した表示内容を表示部26に表示させても良く、生成した新たな画像データ及び情報ファイルを、メモリカード34に記憶させても良い。
【0041】
以下に、画像処理部40において行われる処理の具体例を説明するが、本発明はこれに限定されない。
【0042】
実施例1
図4は、
図2に示す画像処理部40において行われるテキスト生成処理の全体像を表すフローチャートである。
図4におけるステップS001では、操作部22等を介して操作者の入力信号を検知したカメラ制御部20等が、画像処理部40に対して、テキスト生成処理に関する画像処理の開始を指示する(
図1参照)。
【0043】
ステップS002では、
図2に示す画像データ入力部41が、操作部22及び表示部26の表示内容を介して取得した操作者の選択内容に従い、メモリカード34に格納されている画像データ60を読み出し、解析部43に出力する。実施例1では、
図5(A)に示すような画像データ60が、テキスト生成処理の対象となった場合を例に説明を行う。なお、
図5(A)に示すフレーム60a〜60fは、画像データ60から一定時間間隔でフレームを抜き出し、抜き出した各フレーム60a〜60fを、時間の流れに沿って図面左から図面右へ配置したものである。
【0044】
ステップS003では、
図2に示す特徴量抽出部44が、隣接するフレーム間における像の動きを数値化した特徴量を、画像データ60から抽出する。
図5(A)における各フレーム60a〜60fの下には、特徴量抽出部44で抽出された特徴量を表すグラフ61が、各フレーム60a〜60fが表示されるタイミングに合わせて示されている。特徴量を表すグラフ61は、下方へ行くほど特徴量の値が小さく像の動きが小さいことを表しており、上方へ行くほど特徴量の値が大きく像の動きが大きいことを表している。
【0045】
ステップS004では、
図2に示す変化部抽出部45が、ステップS003で抽出された特徴量の変化が、所定の閾値を超える変化部を抽出する。
図5(A)に示す特徴量のグラフ61では、グラフの傾きが特徴量の変化に対応しており、フレーム60cからフレーム60dの間に、グラフの傾きが所定の閾値を超える変化部62を抽出する。
【0046】
ステップS005では、
図2に示すテキスト生成部50が、変化部62周辺のフレーム60d等から情報を取得し、取得した情報を用いてテキストを生成する。ステップS005においては、テキスト生成部50は、
図3を用いて上述したように、まず画像データ60から変化部62を抽出できたか否かを判断し(ステップS101)、さらに抽出された変化部62における特徴量の変化が増大方向であるか否かを判断する(ステップS102)。
図5に示すように、画像データ60から抽出された変化部62における特徴量の変化は増大方向(グラフ61の傾きが右上がり)であるため、テキスト生成部50は、
図7に示す「動いた」辞書を用いてテキストを生成する(ステップS103)。テキスト生成部50は、例えば「動いた!」のように、「動いた」辞書に含まれる語句の1つを採用して、テキストを生成することができる。
【0047】
ステップS006では、
図2に示すタイミング決定部52が、テキスト生成部50が生成したテキストを画像データ60の表示に重ねて表示するタイミングを決定する。実施例1では、タイミング決定部52は、変化部抽出部45で抽出された変化部62の直後に表示されるフレーム60dと同期してテキストの表示が開始されるように、タイミングを決定する。
【0048】
ステップS007では、文章付加部56が、テキストのフォント、色、表示位置、テキストの動きなどを決定し、画像データ60とテキストを合成した表示内容に関する情報を生成してメモリカード等に保存した後、一連のテキスト生成処理を終了する。
図5(B)は、実施例1に係るテキスト生成処理により生成されたテキストが、画像データ60の表示に重ねて表示される様子を示したものである。上述したように、画像処理部40は、像の動きの変化が大きくなる変化部を抽出し、像の動きが大きくなる変化部近傍のフレームから情報を得てテキストを生成することにより、画像データ60とマッチング感が高いテキストを生成することができる。また、像の動き始めや停止時のように、画像データにおいて印象的な部分を効果的に抽出し、これを用いてテキストを生成及び表示することにより、よりマッチング感の高い画像データ及びテキストの表示を実現することができる。
【0049】
実施例2
実施例2では、
図6に示すような画像データ70がテキスト生成処理の対象となる場合を例に、説明を行う。なお、実施例2の説明では、実施例1との相違点のみを説明し、実施例1と同様の処理が行われる部分については説明を省略する。また、
図6に示すフレーム70a〜70gは、実施例1と同様に、画像データ70から一定時間間隔でフレームを抜き出し、抜き出した各フレーム70a〜70gを、時間の流れに沿って図面上左から図面上右、図面下左から図面下右へ配置したものである。また、
図6では、実施例2に係るテキスト生成処理により生成されたテキストも、画像データ70の表示に重ねて表示してある。
【0050】
ステップS001〜ステップS003では、実施例1と同様に、画像データ70の入力と特徴量の抽出が実施される。
図6における各フレーム70a〜70gの下には、ステップS003において特徴量抽出部44で抽出された特徴量を表すグラフ71が、各フレーム70a〜70gが表示されるタイミングに合わせて示されている。また、ステップS004でも、実施例1と同様に、
図2に示す変化部抽出部45によって、特徴量の変化が所定の閾値を超える変化部72が抽出される。実施例2において、変化部抽出部45は、フレーム70cからフレーム70dの間に、グラフの傾きが所定の閾値を超える変化部72を抽出する。
【0051】
ステップS005では、テキスト生成部50が、まず画像データ70から変化部72を抽出できたか否かを判断し(
図3のステップS101)、さらに抽出された変化部72における特徴量の変化が増大方向であるか否かを判断する(ステップS102)。
図6に示すように、画像データ70から抽出された変化部72における特徴量の変化は減少方向(グラフ71の傾きが右下がり)であるため、テキスト生成部50は、
図7に示す「決まった」辞書を用いてテキストを生成する(ステップS104)。テキスト生成部50は、例えば「決まった!」のように、「決まった」辞書に含まれる語句の1つを採用して、テキストを生成することができる。ステップS006及びステップS007の処理は実施例1と同様である。
【0052】
上述したように、画像処理部40は、特徴量の変化が大きい変化部を抽出し、さらに変化部において特徴量が増加方向へ変化しているか減少方向へ変化しているかを判断することにより、画像データ70の特徴を効果的に抽出することができ、抽出した特徴に関する情報を用いて画像データ70とマッチング感が高いテキストを生成することができる。
【0053】
本発明は上述した実施形態及び実施例に何ら限定されるものでなく、上述した各構成及び処理に様々な変化を加えることが可能である。例えば人物の表情をとらえているような動画が処理対象である場合には、特徴量抽出部44が特徴量を顔領域に限定し、表情の変化が大きい部分を変化部として抽出することが可能である。これにより、画像処理部40は、表情が良くなる瞬間をとらえてテキストを生成・表示させることが可能であり、よりテキストと画像データとのマッチング感を高めることができる。
【0054】
また、生成したテキストの表示方法も特に限定されず、上述したように動画の表示に合わせて表示するだけでなく、抽出したフレームにテキストを重ねて静止画として表示する態様でも良い。また、画像データが連写写真である場合には、連写写真をスライドショーする際に、所定のフレーム(静止画)にテキストを重ねて表示しても良い。また、タイミング決定部52が、表示タイミングを決定する処理は、
図4に示すようにテキストの生成後に行っても良いが、テキストの生成前に行っても良い。
【0055】
また、上述の実施形態及び実施例では、画像処理部40を備える撮像装置10を例に挙げて、画像処理装置の説明を行ったが、画像処理部40を備える画像処理装置はこれに限定されず、パーソナルコンビュータ、携帯電話等、撮像部を必ずしも有しない装置であっても良い。また、画像データからテキストを生成するプログラムは、撮像装置10だけでなく、画像処理を実施するその他の情報機器にも、実装することができる。なお、テキスト生成処理の対象となる画像データは、画像処理を実行する装置と一体の撮像装置で生成されたものに限られず、他の撮像装置、画像処理装置等で生成され、或いはインターネット等を介して取得できるあらゆる公開された画像データを、テキスト生成処理の対象とすることができる。