(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0010】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
【0011】
(第1の実施の形態)
図1は本発明の第1の実施の形態に係る画像記録再生装置が組み込まれた撮影機器を示すブロック図である。本実施の形態はカメラ等の撮影機器に適用したものである。
【0012】
撮影機器10は、CCDやCMOSセンサ等の撮像素子によって構成された撮像部2を有している。撮像部2は、撮像素子の撮像面に結像した被写体光学像を電気信号に変換して、画像信号を制御部1に出力するようになっている。
【0013】
制御部1は、撮像部2からの画像信号に対して、所定の信号処理、例えば、色信号生成処理、マトリックス変換処理、その他各種のデジタル処理を行う。制御部1は記録再生制御部1dを備えており、記録再生制御部1dは、制御部1において信号処理された画像信号及び音声信号等に符号化処理を施して、圧縮した画像情報及び音声情報等を記録部3に与えて記録させることができる。
【0014】
なお、記録再生制御部1dとしては例えばカードインターフェースを採用することができ、記録再生制御部1dはメモリカード等の記録部3に画像情報及び音声情報等を記録可能である。また、記録再生制御部1dは、記録媒体に記録された画像情報及び音声情報を読み出して制御部1に供給することができる。制御部1は、記録再生制御部1dからの画像情報及び音声情報を復号化して、画像信号及び音声信号を得ることができるようになっている。
【0015】
また、撮影機器10には、時計部4、操作部5及びタッチパネル6も配設されている。時計部4は制御部1が用いる時間情報を発生する。操作部5は、撮影機器10に設けられた図示しないレリーズボタンや撮影モード設定等の図示しない各種スイッチ等によって構成される。操作部5及びタッチパネル6は、ユーザ操作に基づく操作信号を発生して、制御部1に出力するようになっている。制御部1は、操作信号に基づいて、各部を制御する。
【0016】
撮影機器10には、姿勢判定部7も設けられている。姿勢判定部7は、加速度センサ等によって構成することができ、撮影機器10本体の姿勢を検出する。例えば、姿勢判定部7は、撮影機器10本体の傾きやぶれを検出して検出結果を制御部1に与えるようになっている。
【0017】
また、制御部1には、表示制御部1bが設けられている。表示制御部1bは、撮像部2からの撮像画像や記録再生制御部1dからの再生画像が制御部1から供給されて、これらの画像表示を表示部8に対して行うことができる。また、表示制御部1bは、撮影機器10の操作を行うためのメニュー表示等を表示部8に表示させることもできるようになっている。
【0018】
また、制御部1には、音声制御部1cが設けられている。音声制御部1cは、記録再生制御部1dによって再生された音声情報が制御部1から供給されて、音響出力をスピーカ9に対して行うことができる。
【0019】
本実施の形態においては、制御部1には、物特徴量検出部としての顔検出部1aが設けられている。顔検出部1aは、撮像部2から画像信号が与えられ、画像内に人間の顔の特徴を有する陰影パターンが存在するか否かをコマ(フレーム)毎に検出する。顔検出部1aは、検出した顔領域についての特徴量を記録再生制御部1dによって記録部3に与えて記録させる。顔の特徴量は人物毎に異なり、顔検出部1aは、新たな人物に対応する特徴量を検出した場合にのみ、その特徴量を記録部3に記録するようになっている。
【0020】
記録部3は、顔特徴情報記録領域3a、音情報記録領域3b及び画像・音声情報記録領域3cを有している。顔特徴情報記録領域3aには、顔検出部1aによって検出された顔の特徴量を人物毎に記録する。記録部3の音情報記録領域3bには、音情報が記録されている。
【0021】
音情報としては、例えば、所定の音階上の任意の音、即ち、楽音を音響出力するための情報が用いられる。また、音情報としては、周波数(音階)の情報だけでなく、音量、音色等の情報を含んでもよい。
【0022】
本実施の形態においては、制御部1は、顔の特徴量によって特定される人物(顔)に対して、所定の音情報を割当てることができるようになっている。
【0023】
図2は制御部1による顔(人物)に対する音情報の割当ての一例を示す説明図である。
図2では説明を簡略化するために、音情報を楽譜によって示している。
【0024】
図2の例では、3人の顔A〜Cに対して夫々音G,B,D(英語音名表記)を対応させた例を示している。なお、ここでは、後述するように音を再生する場合の響きを考慮して、協和和音となる音を選択する例を示したが、不協和和音となる音を選択してもよい。なお、協和和音は、2つの音の音程が完全1度、完全8度、完全5度、完全4度、長3度、長6度、短3度又は短6度になる協和音程の関係を有する音のみを用いて構成された和音であり、通常、人は協和和音を聞くと、聞き慣れた和音、或いは心地よい和音と感じることが多い。
【0025】
更に、制御部1は、顔が検出されなかった画像(以下、背景画像という)に対して音情報を割り当てることもできる。また、制御部1は音情報として和音を割り当てることもできる。
図2の例では、背景画像に対して、3つの和音E,C,F(コードネーム)を割り当て可能であることを示している。
図2の例では、制御部1は、例えば画像の明るさに応じて3つの和音のうちの1つを選択的に割り当てる。
【0026】
制御部1は、各画像毎に、割り当てた音情報を関連づける。音情報は、記録再生制御部1dによって記録部3の画像・音声情報記録領域3cに各画像の画像情報に対応付けられて記録させる。画像・音声情報記録領域3cは、画像と音情報とが関連付けられて記録される領域である。
【0027】
なお、制御部1は、顔と音情報との割当てを予め決定していてもよい。例えば、検出された顔の順に、周波数順に音を順次割り当ててもよい。また、検出された顔のサイズに応じて、周波数順に音を順次割り当ててもよい。或いは、制御部1は、顔の特徴量から顔の表情を検出し、笑顔程高い周波数の音情報を割り当てるようにしてもよい。更に、制御部1は、新たな人物の顔が検出される毎に、ユーザに割り当てる音情報を選択させるようにしてもよい。また、更に、制御部1は、検出された顔の特徴量に応じて、音量や音色等を変化させるようにしてもよい。例えば、画像中の顔のサイズが大きいほど大きな音量の音を割当てたり、顔のサイズに応じて相互に異なる楽器に対応する音を割当ててもよい。更に、制御部1は、周波数、音量、音色等の全てを検出された顔毎に異なる値に設定してもよい。
【0028】
同様に、制御部1は、背景画像に対する音情報の割当てを予め決定していてもよい。例えば、背景画像の明るさに応じて周波数順に音を順次割り当ててもよい。また、制御部1は、背景画像毎に、ユーザに割り当てる音情報を選択させるようにしてもよい。
【0029】
なお、制御部1は、必ずしも全ての顔又は背景画像に音情報を割り当てる必要はない。例えば、予め設定された数の音情報を顔及び背景画像に割り当て可能に構成することも可能である。或いは、制御部1は、音情報を割り当てない顔及び背景画像をユーザに選択させるようにしてもよい。
【0030】
更に、制御部1は、顔検出部1aだけでなく、特徴量検出部を設けることにより、顔以外の特定の物を検出可能に構成して、特定の物に夫々音情報を割り当てるようにしてもよい。
【0031】
制御部1は、音声制御部1cを制御して、画像の再生に際して、各画像に関連付けられた音情報を読み出して音響出力することが可能である。
【0032】
図3乃至
図6は
図2に対応させて制御部1による音響出力を説明するための説明図である。
図3乃至
図6では説明を簡略化するために、出力される音響を楽譜によって示している。
【0033】
制御部1は、記録再生制御部1d及び表示制御部1bを制御して、記録部3に記録されている画像情報を読み出して表示部8に通常表示又はサムネイル表示等により表示させることができる。この表示に際して、制御部1は、画像に対応付けて記録されている音情報を読み出し、音声制御部1cを制御してスピーカ9から音響出力させることができる。
【0034】
図3(a)は
図2の顔Cが含まれる画像を示している。この画像の表示に際して、制御部1は、
図3(b)に示す音Dを音響出力する。また、
図4(a)は
図2の顔A〜顔Cの3人の顔が含まれる画像を示している。この画像の表示に際して、制御部1は、
図4(b)に示す音G,B,Dを同時に音響出力する。なお、制御部1は、音G,B,Dを同時ではなく順番に音響出力するようにしてもよい。
音情報記録領域3bには、優先して割り当てる音情報情報である優先音情報も記録されている。制御部1は、複数の音情報を割当てる場合には、優先音情報を優先的に割当てるようにしてもよい。例えば、優先音情報は、各音情報に基づく音同士が協和音程を構成するように設定される。優先音情報を用いると、画像中に複数の顔が含まれる場合には、協和和音が音響出力されることになり、ユーザは聞き慣れた和音、或いは心地よい和音を聞くことができる。
【0035】
図5は背景画像に対する音情報の割当ての一例を示す説明図である。
図5(a),(c)は横軸に輝度をとり縦軸に画素数をとって、画像内における各輝度毎の画素数を示すヒストグラムである。
図5(a)は比較的低い輝度の画素が多い画像、即ち、比較的暗い画像を示し、
図5(c)は比較的高い輝度の画素が多い画像、即ち、比較的明るい画像を示している。制御部1は、比較的暗い画像については、音情報として比較的低い周波数の音からなる和音を割当て、比較的明るい画像については、音情報として比較的高い周波数の音からなる和音を割当てる。
図5(b)は
図5(a)のように比較的暗い画像に割り当てられる和音(G)を示し、
図5(d)は
図5(c)のように比較的明るい画像に割り当てられる和音(F)を示している。
【0036】
なお、制御部1が、暗い画像に低い周波数の音からなる3和音を割当て、明るい画像に高い周波数の音からなる3和音を割当てる例を示したが、音情報の割当て方法は種々考えられる。例えば、制御部1は、暗い画像にマイナーコードを割当て、明るい画像にメジャーコードを割当ててもよく、特に明るい画像にはテンションコード等を割当るようにしてもよい。また、
図5では画像の明るさによって和音を割り当てる例を示したが、絵柄の細かさに応じて音情報を割り当ててもよい。例えば、絵柄が細かいほど、高い周波数の音からなる和音を割り当ててもよい。なお、制御部1は、背景画像に単音の音を割り当てることも可能である。
【0037】
図6は連続的に再生される画像に対する音響出力の一例を示す説明図である。
図6(a)は連続的に再生表示される画像を示している。四角の枠が各画像を示し、無地の枠は顔が検出されない背景画像であることを示している。
図6(b)は
図6(a)の各画像の再生表示に対応して出力される音響を示している。即ち、
図6(b)は、
図6(a)の左から5枚の画像に対して、和音G,C,C,G,Fが順次音響出力され、顔Aを含む画像の表示に対応させて単音の音Gが音響出力され、
図6(a)の右2枚の画像に対して、和音G,Fが順次音響出力されることを示している。
【0038】
ユーザは、順次出力される音響を耳で確認する。ユーザは、例えば単音の音Gが出力されることによって、顔Aを含む画像が再生されることを認識することができる。人間の耳は、時間軸方向には、極めて短い時間間隔で音を聞き分けることが可能であり、ユーザは、例えば、膨大な画像の中から顔Aを含む画像を極めて短時間に検出することが可能である。
【0039】
次に、画像記録時及び再生時における具体的な動作の一例について
図7乃至
図13を参照して説明する。
図7は撮影機器10のメインフローを示すフローチャートである。
【0040】
撮影機器10に電源が投入されると、制御部1は、
図7のステップS1において、撮像画像と音情報とを関連付けて記録するモード(以下、音画像モードという)が指示されたか否かを判定する。音画像モードが指示されていない場合には、制御部1は、ステップS2において別モードが指示されたか否かの判定を行う。例えば再生モードが指示された場合には、制御部1は、ステップS3において再生モードに移行し、撮影画像の再生を行う。別モードが指定されていない場合には、制御部1はステップS4においてシャットダウン操作されたか否かを判定する。制御部1は、シャットダウン操作されると処理を終了し、そうでない場合には処理をステップS1に戻して音画像モードが指示されたか否かの判定を繰り返す。
【0041】
音画像モードが指示されると、制御部1は、ステップS10において、撮影を開始する。即ち、制御部1は、撮像部2からの撮像信号に基づいて、表示部8に撮像画像(スルー画)を表示させる。次に、制御部1は、レリーズボタンが押下されたか否かを判断する(ステップS11)。
【0042】
レリーズボタンが押下されると、制御部1はステップS12において撮像画像の記録を行う。制御部1は撮像部2からの撮像画像に所定の信号処理を施した後符号化処理を行う。記録再生制御部1dは、圧縮した画像情報を記録部3に与えて記録する。
【0043】
次に、顔検出部1aは、記録した画像について画像認識処理を行い、画像中に含まれる顔を検出する(ステップS13)。制御部1は、顔が検出されると、処理をステップS14からステップS15に移行して、顔検出時音情報決定処理を実行する。なお、制御部1は、画像中に顔が検出されない場合には、処理をステップS16に移行して、顔未検出時音情報決定処理を実行する。
【0044】
顔検出時音情報決定処理においては、画像から検出された顔に音情報を割当てる処理が行われる。また、顔未検出時音情報決定処理においては、背景画像に音情報を割り当てる処理が行われる。制御部1は、次のステップS17において、画像に対応させて割り当てられた音情報を画像に対応させて記録する。ステップS18においては、制御部1は撮影終了か否かを判定する。撮影が終了すると、処理をステップS4に移行し、撮影が終了しない場合には、処理をステップS11に戻してレリーズボタンの押下を待つ。
【0045】
図8は
図7中のステップS15の顔検出時音情報決定処理の具体的なフローを示すフローチャートである。
【0046】
画像中に顔が検出された場合には、制御部1はステップS21において、検出された顔に音情報が登録済みであるか否かを判定する。登録済みの場合には、ステップS22において、制御部1は検出された顔に登録済みの音情報を設定する。
【0047】
一方、登録済みでない場合には、制御部1は、ステップS23において、顔に割り当てる音情報を登録するための画面表示を行う。
【0048】
図9はこのような音情報登録画面を示す説明図である。
図9においては、画像21上に画像から検出された1つの顔22が表示されている。この顔22に対応させて登録すべき音情報が楽譜24,26として表示されている。画像21上には、「登録しますか?」という登録表示23又は「登録しない」という非登録表示25が表示されている。登録表示23の下方には登録すべき音情報が楽譜24上の音符によって示されている。なお、
図9の楽譜24上にはまだ一度も登録されていない音情報に基づく音符のみが表示されているものとする。また、非登録表示25の下方には、非登録時の音情報が楽譜26上の音符によって示されている。
【0049】
ユーザが音符24のいずれかの音符を選択する操作を行うと、制御部1によって選択された音符に対応する音情報が顔22に割り当てられて登録される。この場合には、制御部1は、処理をステップS24からステップS21に戻し、更に、ステップS22において検出された顔に登録された音情報を設定する。
【0050】
一方、ユーザが楽譜26上の音符を選択する操作を行うことによって、検出された顔に対して音情報を登録しないことが指示される。この場合には、制御部1は、ステップS25において検出された顔に規定の音(
図9の例では音E)を割当てる。なお、この場合の規定の音情報としては無音の情報であってもよい。
【0051】
制御部1は、ステップS26において、1画像中の各顔に対応して設定された1つ以上の音情報を和音化する。なお、上述したように、制御部1は1画像中に複数の顔が検出され、各顔にそれぞれ音情報が割り当てられた場合でも、割り当てられた音を和音化することなく時分割に出力するようにしてもよい。
【0052】
なお、
図9の例では、登録可能な音情報が3つの音G,B,Dであり、未登録時の規定の音が音Eである例を示したが、ユーザによって任意の高さの音を選択可能に構成してもよい。この場合には、既登録の音情報については選択不能としてもよく、また、既登録の音情報を複数の顔に割当て可能にしてもよい。
【0053】
図10は
図7中のステップS16の顔未検出時音情報決定処理の具体的なフローを示すフローチャートである。
【0054】
画像中に顔が検出されない場合には、制御部1はステップS31において、画像の平均輝度を算出する。次に、制御部1は平均輝度が夜景の明るさに相当するか否かを判定する(ステップS32)。平均輝度が夜景の明るさに相当する場合には、制御部1は、ステップS36において背景画像に低音の和音(例えば
図2の和音G)を設定する。
【0055】
次に、制御部1は平均輝度が室内の明るさに相当するか否かを判定する(ステップS33)。平均輝度が室内の明るさに相当する場合には、制御部1は、ステップS35において背景画像に中音の和音(例えば
図2の和音C)を設定する。
【0056】
次に、制御部1はステップS33において平均輝度が室内の明るさに相当しない、即ち、昼間の室外の明るさに相当すると判定した場合には、ステップS34において、背景画像に高音の和音(例えば
図2の和音F)を設定する。こうして、背景画像については、画像の明るさに応じた高さの和音が設定される。
【0057】
次のステップS17における音情報記録処理において、制御部1は、記録再生制御部1dを制御して、記録部3の画像・音声情報記録領域3cに、各画像と各画像に対して割当てられた音情報とを記録する。なお、上記例では、制御部1は、顔に単音を割当て、背景画像に和音を割り当てたが、顔に和音を割当て、背景画像に単音を割当ててもよい。また、上記例では、制御部1は、顔に比較的高い周波数の音を割当て、背景画像に比較的低い周波数の音を割り当てたが、顔に高音を割当て、背景画像に低音を割当ててもよい。或いは、制御部1は、背景画像に無音を割当てることも可能である。
【0058】
次に、
図11を参照して再生モード時の動作について説明する。
【0059】
ステップS41において再生モードが指示されたことを検出すると、制御部1は再生画像を表示する(ステップS42)。即ち、制御部1は、記録再生制御部1dを制御して、記録部3に記録されている画像を読み出す。制御部1は、読み出した画像に復号処理等を施した後、表示制御部1bを制御して、表示部8に表示させる。
【0060】
次に、制御部1はステップS43において撮影機器10が傾斜しているか否かを判定する。制御部1は姿勢判定部7の出力によって撮影機器10の傾斜角度を把握することができる。制御部1は、撮影機器10が所定角度傾斜していない場合には、ステップS48において再生画像の送り、戻し動作を行う。
【0061】
ここで、ユーザが撮影機器10を所定角度以上傾斜させるものとする。そうすると、制御部1はステップS43から処理をステップS44に移行して、所定の再生順の各画像に対応した各音情報について、現在表示中の画像に対応する音情報から順次読み出して再生する。即ち、制御部1は、音声制御部1cを制御して、順次読み出した音情報に基づく音響をスピーカ9から出力させる。この場合には、制御部1は、撮影機器10の傾斜角度に対応する再生速度で音の出力を行う。即ち、撮影機器10の傾斜角度が大きいほど、各音が高速に出力され、傾斜角度が小さいほど各音が低速に出力される。
例えば、制御部1が1秒間に10画像に対応する10個の音を出力させる場合には、100枚の画像に対応した音については10秒で出力することができる。ユーザはスピーカ9から出力される音を聞くことで、各画像に顔(人物)が含まれるか否か、顔が含まれる場合には誰の顔か、或いは明るい画像か暗い画像か等を、音によって瞬時に判断することができる。
【0062】
また、この場合には、制御部1は、表示制御部1bを制御して、順次出力される音に対応する楽譜を表示してもよい。
図12はこの場合の表示例を示す説明図である。
図12に示すように、画像31上には、楽譜32が表示されている。楽譜32は現在順次出力されている音に対応しており、音の再生に合わせて楽譜32も変化するようになっている。
図12のマーカ33は現在出力中の音に対応する音符の位置を示している。また、制御部1は、現在出力中の音については他の音と異なる色で表示するようにしてもよい。
【0063】
また、制御部1は、撮影機器10の傾斜方向が逆になった場合には、音の再生順を逆順にするようにしてもよい。また、制御部1は
図12の楽譜に代えて画像31上に再生中の音に対応する画像を表示させるようにしてもよい。
【0064】
制御部1はステップS45において撮影機器10の傾斜角度が所定の角度以下になったか否かを判定する。音の再生処理は撮影機器10の傾斜角度を所定の角度以下に戻すまで続けられる。撮影機器10の傾きを元に戻す操作によって、制御部1は音の再生を停止させる(ステップS46)。
【0065】
音の再生を停止すると、制御部1は、最後に出力した音に対応する画像の情報読出して、表示部8に表示させる(ステップS47)。
図13はこの場合の表示例を示す説明図である。
図13に示すように、画像31上には、最後に出力した音に対応する画像34が表示されている。
【0066】
ステップS49において再生の終了が指示されると、制御部1は
図7のメイン処理に処理を戻す。
【0067】
なお、
図11では、音を再生させるための操作として撮影機器10を傾斜させる方法を採用した例を説明したが、音再生用のボタンを操作する等、適宜の方法を採用することが可能である。
【0068】
このように本実施の形態においては、画像中の顔や背景画像に音情報を対応させて記録する。再生時に音を読み出して順次再生することにより、ユーザは再生される音によって画像中の顔(人物)や背景画像を認識することができる。即ち、本実施の形態においては、聴覚を補助に使って、迅速に画像を探すことが出来るようになる。人間は、ひとつの音を1/50秒程度で聞き分けられるので、画面に目を凝らさなくても、100枚の画像の内容を2秒で判定することも可能である。これにより、記録部に記録されている膨大な量の画像から、希望する画像を極めて短時間に検索することが可能である。
【0069】
なお、上記実施の形態においては、顔が検出された画像については、その背景の画像に音情報を割当てていないが、顔及びその背景の画像の両方に音情報を割当ててもよい。
【0070】
(第2の実施の形態)
図14は本発明の第2の実施の形態に係る音情報付加装置を示すブロック図である。
【0071】
第1の実施の形態においては、撮影機器に適用して画像の撮像に際して音情報を各画像に付加した。これに対し、本実施の形態は既に記録されている画像に対して音情報を付加して記録するコンピュータに適用した例を示している。
【0072】
画像記録再生部51には複数の画像が記録されている。コンピュータ52は画像記録再生部51によって再生された画像を読み出す。コンピュータ52には特徴量検出部53及び音情報割当て部54が設けられている。特徴量検出部53は、画像中の顔や背景画像等の特徴量を求める。音情報割当て部54は、
図1の制御部1及び記録部3と同様の構成であり、画像中の顔や背景画像に対して音情報を割当てるようになっている。なお、音情報割当て部54は、検出した顔や背景画像について所定の規則で順次音情報を割当ててもよく、ユーザの設定に従って音情報を割当てもよい。コンピュータ52は音情報割当て部54において割当てた音情報を対応する画像と共に記録部55において記録する。
【0073】
モニタ56はコンピュータ52が記録部55から読み出した画像を表示すると共に、コンピュータ52が読み出した音情報を順次音響出力することができる。
【0074】
他の構成及び作用・効果は第1の実施の形態と同様である。
【0075】
(第3の実施の形態)
図15は本発明の第3の実施の形態に係る音情報付加装置を示すブロック図である。
【0076】
本実施の形態は既に記録されている画像に対して音情報を付加して出力するテレビジョン表示装置に適用した例を示している。
【0077】
画像記録再生部51には複数の画像が記録されている。テレビジョン表示装置61は画像記録再生部51によって再生された画像を読み出す。テレビジョン表示装置61には特徴量検出部62及び音情報割当て部63が設けられている。特徴量検出部62は、画像中の顔や背景画像等の特徴量を求める。音情報割当て部63は、
図1の制御部1及び記録部3と同様の構成であり、画像中の顔や背景画像に対して音情報を割当てるようになっている。本実施の形態においては、テレビジョン表示装置61は、割当てた音情報を順次スピーカ制御部64に与えて音響出力させることができる。
【0078】
これにより本実施の形態においては、画像記録再生部51に記録されている画像に対応した音情報に基づく音を順次再生させることができ、膨大な量の画像が記録された画像記録再生部51にどのような画像が記録されているかを、短時間に検索することができる。
【0079】
他の作用効果は第1及び第2の実施の形態と同様である。