本発明は、音声データを1つのJPEG互換ファイルに確実に組み込むことができる画像音声記録再生装置とその記録再生機能を実現するプログラムを提供することを目的とする。
本発明の目的は、JPEG互換の静止画ファイルのヘッダ内部のアプリケーションセグメント末尾後と量子化テーブルの開始前の間に音声領域を確保して前記音声データを記録するプログラムにして、音声領域先頭マーカOTOPと、音声開始マーカOTOP¥0¥0と、音声チャンネル開始マーカOTOPCH1START¥0¥0と、前記音声データである音声データ列と、音声チャンネル末尾マーカOTOPCH1END¥0¥0と、音声末尾マーカOTOPEND¥0¥0の順序で記録されることを特徴とする画像音声記録機能を実現するプログラムとしたことによって達成される。
コンピュータによってJPEG互換の静止画像ファイルに音声データを組み込んで記録する画像音声記録機能を実現するプログラムであって、前記静止画ファイルのヘッダ内部のアプリケーションセグメント末尾後と量子化テーブルの開始前の間に音声領域を確保して前記音声データを記録するプログラム、若しくは、前記静止画ファイルの画像データ記録領域末尾に続いて前記音声領域を確保して前記音声データを記録するプログラムにして、前記音声領域には、音声領域先頭を示す音声領域先頭マーカと、音声データ開始を示す音声開始マーカと、音声チャンネル開始を示す音声チャンネル開始マーカと、前記音声データである音声データ列と、音声チャンネル末尾を示す音声チャンネル末尾マーカと、音声データ末尾を示す音声末尾マーカの順序で記録されることを特徴とする画像音声記録機能を実現するプログラム。
請求項1に記載の画像音声記録機能を実現するプログラムをインストールしたコンピュータにおいて、前記音声データ列として、複数のチャンネル音声データ列を有していることを特徴とする画像音声記録機能を実現するプログラム。
請求項1又は請求項2に記載の画像音声記録機能を実現するプログラムをインストールしたコンピュータにおいて、前記コンピュータはカメラとマイクとコマンド入力手段とメモリ及を有しており、前記コマンド入力手段はタッチパネル若しくはキーボード若しくはマウス若しくはジョイスティックで構成されており、前記メモリ内には所定の容量であるエンドレス記録領域が設けられていて、前記コンピュータが前記マイクから入力された音声データを記録するにあたっては、前記エンドレス記録領域の上位アドレスから下位アドレスまで前記音声データを順次記録して、更に逐次入力される音声データに対して、前記上位アドレスから前記下位アドレスまで順次上書き記録を繰り返すエンドレス記録を継続する構成にして、前記コマンド入力手段によって、前記コンピュータが静止画撮影モードに設定されたときから前記エンドレス記録が開始され、前記カメラが備えるシャッタが押されてから所定の時間経過後に前記エンドレス記録を終了することを特徴とする画像音声記録機能を実現するプログラム。
請求項3に記載の画像音声記録機能を実現するプログラムをインストールしたコンピュータにおいて、前記音声領域には、音声開始マーカと音声チャンネル開始マーカの間に、メタデータ開始マーカとメタデータ末尾マーカで挟んだメタデータ列が書き込まれ、若しくは、音声チャンネル末尾マーカと音声末尾マーカの間に、メタデータ開始マーカとメタデータ末尾マーカで挟んだメタデータ列が書き込まれ、前記メタデータ列には、前記音声データの記録長さが録音時間として含まれ、前記音声データの開始から前記シャッタが押されるまでの時間がシャッタ押しタイミングとして含まれることを特徴とする画像音声記録機能を実現するプログラム。
コンピュータによってJPEG互換の音声付静止画ファイルに対する画像音声再生機能を実現するプログラムであって、JPEG互換の音声付静止画ファイル内に、音声領域先頭を示す音声領域先頭マーカと、音声データ開始を示す音声開始マーカと、音声チャンネル開始を示す音声チャンネル開始マーカと、音声チャンネル末尾を示す音声チャンネル末尾マーカと、音声データ末尾を示す音声末尾マーカが記録されているときは、前記音声チャンネル開始マーカと、前記音声チャンネル末尾マーカの間のデータを、音声データ列として音声再生すると共に、前記JPEG互換の音声付静止画ファイルに格納の静止画を再生することを特徴とする画像音声再生機能を実現するプログラム。
請求項5に記載の画像音声再生機能を実現するプログラムをインストールしたコンピュータにおいて、JPEG互換の音声付静止画ファイル内に、メタデータ開始マーカと、メタデータ末尾マーカで挟んだメタデータ列が書き込まれていた場合であって、前記メタデータ列には、音声データの記録長さが録音時間として含まれ、前記音声データの開始からシャッタが押されるまでの時間がシャッタ押しタイミングとして含まれている場合には、前記JPEG互換の音声付静止画ファイルに組み込まれている音声をスピーカで発声し、前記JPEG互換の音声付静止画ファイルに組み込まれている静止画を表示するに際しては、該静止画をディスプレイに表示し、前記シャッタ押しタイミング経過時に、再生された画像の輝度を一時的に変化させたり、シャッタ擬音を鳴らしたり、若しくは、前記JPEG互換の音声付静止画ファイルに組み込まれている音声をスピーカで発声すると共に、前記静止画のデフォーカス画像、モノクロ画像、低コントラスト画像若しくは低解像度画像といった加工画像を前記ディスプレイに表示し、前記シャッタ押しタイミング経過後に、前記JPEG互換の音声付静止画ファイルに組み込まれている静止画を前記ディスプレイに表示したりすることを特徴とする画像音声再生機能を実現するプログラム。
JPEG互換の静止画像ファイルに音声データを組み込んで記録する画像音声記録装置であって、前記静止画ファイルのヘッダ内部のアプリケーションセグメント末尾後と量子化テーブルの開始前の間に音声領域を確保して前記音声データを記録する装置、若しくは、前記静止画ファイルの画像データ記録直後に前記音声領域を確保して前記音声データを記録する装置にして、前記音声領域には、音声領域先頭を示す音声領域先頭マーカと、音声データ開始を示す音声開始マーカと、音声チャンネル開始を示す音声チャンネル開始マーカと、前記音声データである音声データ列と、音声チャンネル末尾を示す音声チャンネル末尾マーカと、音声データ末尾を示す音声末尾マーカの順序で記録されることを特徴とする画像音声記録装置。
請求項7に記載の画像音声記録装置において、前記画像音声記録装置はカメラとマイクとコマンド入力手段とメモリ及びCPUを有しており、前記コマンド入力手段はシャッタ、タッチパネル若しくはキーボード若しくはマウス若しくはジョイスティックで構成されており、前記CPUは前記メモリに記憶されたプログラムに従って演算を実行することにより、前記カメラと前記マイクと前記コマンド入力手段及び前記メモリを制御する構成にして、前記メモリ内には所定の容量であるエンドレス記録領域が設けられていて、前記CPUが前記マイクから入力された音声データを記録するにあたっては、前記エンドレス記録領域の上位アドレスから下位アドレスまで前記音声データを順次記録して、更に逐次入力される前記音声データに対して、前記上位アドレスから前記下位アドレスまで順次上書き記録を繰り返すエンドレス記録を継続する構成にして、前記コマンド入力手段によって、前記画像音声記録装置が静止画撮影モードに設定されたときから前記エンドレス記録が開始され、前記カメラが備えるシャッタが押されてから所定の時間後に前記エンドレス記録を終了することを特徴とする画像音声記録装置。
請求項7又は請求項8に記載の画像音声記録装置において、ネットワーク通信手段を備えて、前記音声データが組み込まれたJPEG互換ファイルを、前記ネットワークを通じて送信する構成を有することを特徴とする画像音声記録装置。
JPEG互換の静止画ファイルを再生する画像音声再生装置であって、JPEG互換の音声付静止画ファイル内に、音声領域先頭を示す音声領域先頭マーカと、音声データ開始を示す音声開始マーカと、音声チャンネル開始を示す音声チャンネル開始マーカと、音声チャンネル末尾を示す音声チャンネル末尾マーカと、音声データ末尾を示す音声末尾マーカが記録されているときは、前記音声チャンネル開始マーカと、前記音声チャンネル末尾マーカの間のデータを、音声データ列として音声再生すると共に、前記JPEG互換の音声付静止画ファイルに格納の静止画を再生することを特徴とする画像音声再生装置。
請求項10に記載の画像音声再生装置において、ネットワーク通信手段を備えて、前記音声データが組み込まれたJPEG互換ファイルを、前記ネットワークを通じて受信する構成を有することを特徴とする画像音声再生装置。
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献2の記載によれば、音声データは64Kバイト以下に分割され、JPEGファイルのヘッダの中の、1又は2以上のアプリケーションセグメントに組み込まれる。同JPEGファイルに所望の数のアプリケーションセグメントの空きが無ければ、2以上のJPEGファイルに亘って音声データが記録されることとなる。すなわち、同文献に記載の技術では、音声データが1つのJPEGファイルに保存される保証が無いという課題がある。
【0008】
1つのJPEGファイルに係る写真の音声が、同JPEGファイルに収まる保証がないということは、ネットワークを通じて写真をやり取りする際に不自由であるという課題がある。10秒程度の音声データのサイズは概ね100Kバイト余りであって、64Kバイトを超えている。つまり、10秒程度の音声を伴う静止画であっても、1つのファイルに静止画と音声データを収納できないことが生じ得るのである。
【0009】
そこで、本発明が解決しようとする課題、すなわち本発明の目的は、音声データを1つのJPEG互換ファイルに確実に組み込むことができる画像音声記録再生装置とその記録再生機能を実現するプログラムを提供することにある。
【課題を解決するための手段】
【0010】
そこで、請求項1の発明を、コンピュータによってJPEG互換の静止画像ファイルに音声データを組み込んで記録する画像音声記録機能を実現するプログラムであって、前記静止画ファイルのヘッダ内部のアプリケーションセグメント末尾後と量子化テーブルの開始前の間に音声領域を確保して前記音声データを記録するプログラム、若しくは、前記静止画ファイルの画像データ記録領域末尾に続いて前記音声領域を確保して前記音声データを記録するプログラムにして、前記音声領域には、音声領域先頭を示す音声領域先頭マーカと、音声データ開始を示す音声開始マーカと、音声チャンネル開始を示す音声チャンネル開始マーカと、前記音声データである音声データ列と、音声チャンネル末尾を示す音声チャンネル末尾マーカと、音声データ末尾を示す音声末尾マーカの順序で記録されることを特徴とする画像音声記録機能を実現するプログラムとしたことにより、上記課題を解決した。
【0011】
また、請求項2の発明を、請求項1に記載の画像音声記録機能を実現するプログラムをインストールしたコンピュータにおいて、前記音声データ列として、複数のチャンネル音声データ列を有していることを特徴とする画像音声記録機能を実現するプログラムとしたことにより、上記課題を解決した。
【0012】
請求項3の発明を、請求項1又は請求項2に記載の画像音声記録機能を実現するプログラムをインストールしたコンピュータにおいて、前記コンピュータはカメラとマイクとコマンド入力手段とメモリ及を有しており、前記コマンド入力手段はタッチパネル若しくはキーボード若しくはマウス若しくはジョイスティックで構成されており、前記メモリ内には所定の容量であるエンドレス記録領域が設けられていて、前記コンピュータが前記マイクから入力された音声データを記録するにあたっては、前記エンドレス記録領域の上位アドレスから下位アドレスまで前記音声データを順次記録して、更に逐次入力される音声データに対して、前記上位アドレスから前記下位アドレスまで順次上書き記録を繰り返すエンドレス記録を継続する構成にして、前記コマンド入力手段によって、前記コンピュータが静止画撮影モードに設定されたときから前記エンドレス記録が開始され、前記カメラが備えるシャッタが押されてから所定の時間経過後に前記エンドレス記録を終了することを特徴とする画像音声記録機能を実現するプログラムとしたことにより、上記課題を解決した。
【0013】
請求項4の発明を、請求項3に記載の画像音声記録機能を実現するプログラムをインストールしたコンピュータにおいて、前記音声領域には、音声開始マーカと音声チャンネル開始マーカの間に、メタデータ開始マーカとメタデータ末尾マーカで挟んだメタデータ列が書き込まれ、若しくは、音声チャンネル末尾マーカと音声末尾マーカの間に、メタデータ開始マーカとメタデータ末尾マーカで挟んだメタデータ列が書き込まれ、前記メタデータ列には、前記音声データの記録長さが録音時間として含まれ、前記音声データの開始から前記シャッタが押されるまでの時間がシャッタ押しタイミングとして含まれることを特徴とする画像音声記録機能を実現するプログラムとしたことにより、上記課題を解決した。
【0014】
請求項5の発明を、コンピュータによってJPEG互換の音声付静止画ファイルに対する画像音声再生機能を実現するプログラムであって、JPEG互換の音声付静止画ファイル内に、音声領域先頭を示す音声領域先頭マーカと、音声データ開始を示す音声開始マーカと、音声チャンネル開始を示す音声チャンネル開始マーカと、音声チャンネル末尾を示す音声チャンネル末尾マーカと、音声データ末尾を示す音声末尾マーカが記録されているときは、前記音声チャンネル開始マーカと、前記音声チャンネル末尾マーカの間のデータを、音声データ列として音声再生すると共に、前記JPEG互換の音声付静止画ファイルに格納の静止画を再生することを特徴とする画像音声再生機能を実現するプログラムとしたことにより、上記課題を解決した。
【0015】
請求項6の発明を、請求項5に記載の画像音声再生機能を実現するプログラムをインストールしたコンピュータにおいて、JPEG互換の音声付静止画ファイル内に、メタデータ開始マーカと、メタデータ末尾マーカで挟んだメタデータ列が書き込まれていた場合であって、前記メタデータ列には、音声データの記録長さが録音時間として含まれ、前記音声データの開始からシャッタが押されるまでの時間がシャッタ押しタイミングとして含まれている場合には、前記JPEG互換の音声付静止画ファイルに組み込まれている音声をスピーカで発声し、前記JPEG互換の音声付静止画ファイルに組み込まれている静止画を表示するに際しては、該静止画をディスプレイに表示し、前記シャッタ押しタイミング経過時に、再生された画像の輝度を一時的に変化させたり、シャッタ擬音を鳴らしたり、若しくは、前記JPEG互換の音声付静止画ファイルに組み込まれている音声をスピーカで発声すると共に、前記静止画のデフォーカス画像、モノクロ画像、低コントラスト画像若しくは低解像度画像といった加工画像を前記ディスプレイに表示し、前記シャッタ押しタイミング経過後に、前記JPEG互換の音声付静止画ファイルに組み込まれている静止画を前記ディスプレイに表示したりすることを特徴とする画像音声再生機能を実現するプログラムとしたことにより、上記課題を解決した。
【0016】
そこで、請求項7の発明を、JPEG互換の静止画像ファイルに音声データを組み込んで記録する画像音声記録装置であって、前記静止画ファイルのヘッダ内部のアプリケーションセグメント末尾後と量子化テーブルの開始前の間に音声領域を確保して前記音声データを記録する装置、若しくは、前記静止画ファイルの画像データ記録直後に前記音声領域を確保して前記音声データを記録する装置にして、前記音声領域には、音声領域先頭を示す音声領域先頭マーカと、音声データ開始を示す音声開始マーカと、音声チャンネル開始を示す音声チャンネル開始マーカと、前記音声データである音声データ列と、音声チャンネル末尾を示す音声チャンネル末尾マーカと、音声データ末尾を示す音声末尾マーカの順序で記録されることを特徴とする画像音声記録装置としたことにより、上記課題を解決した。
【0017】
請求項8の発明を、請求項7に記載の画像音声記録装置において、前記画像音声記録装置はカメラとマイクとコマンド入力手段とメモリ及びCPUを有しており、前記コマンド入力手段はシャッタ、タッチパネル若しくはキーボード若しくはマウス若しくはジョイスティックで構成されており、前記CPUは前記メモリに記憶されたプログラムに従って演算を実行することにより、前記カメラと前記マイクと前記コマンド入力手段及び前記メモリを制御する構成にして、前記メモリ内には所定の容量であるエンドレス記録領域が設けられていて、前記CPUが前記マイクから入力された音声データを記録するにあたっては、前記エンドレス記録領域の上位アドレスから下位アドレスまで前記音声データを順次記録して、更に逐次入力される前記音声データに対して、前記上位アドレスから前記下位アドレスまで順次上書き記録を繰り返すエンドレス記録を継続する構成にして、前記コマンド入力手段によって、前記画像音声記録装置が静止画撮影モードに設定されたときから前記エンドレス記録が開始され、前記カメラが備えるシャッタが押されてから所定の時間後に前記エンドレス記録を終了することを特徴とする画像音声記録装置としたことにより、上記課題を解決した。
【0018】
請求項9の発明を、請求項7又は請求項8に記載の画像音声記録装置において、ネットワーク通信手段を備えて、前記音声データが組み込まれたJPEG互換ファイルを、前記ネットワークを通じて送信する構成を有することを特徴とする画像音声記録装置としたことにより、上記課題を解決した。
【0019】
請求項10の発明を、JPEG互換の静止画ファイルを再生する画像音声再生装置であって、JPEG互換の音声付静止画ファイル内に、音声領域先頭を示す音声領域先頭マーカと、音声データ開始を示す音声開始マーカと、音声チャンネル開始を示す音声チャンネル開始マーカと、音声チャンネル末尾を示す音声チャンネル末尾マーカと、音声データ末尾を示す音声末尾マーカが記録されているときは、前記音声チャンネル開始マーカと、前記音声チャンネル末尾マーカの間のデータを、音声データ列として音声再生すると共に、前記JPEG互換の音声付静止画ファイルに格納の静止画を再生することを特徴とする画像音声再生装置としたことにより、上記課題を解決した。
【0020】
請求項11の発明を、請求項10に記載の画像音声再生装置において、ネットワーク通信手段を備えて、前記音声データが組み込まれたJPEG互換ファイルを、前記ネットワークを通じて受信する構成を有することを特徴とする画像音声再生装置としたことにより、上記課題を解決した。
【発明の効果】
【0021】
請求項1に係る発明は、容量制限のない領域に音声データを組み込んでいるので、音声データを確実に1つのJPEG互換ファイルに組み込むことができるという効果がある。請求項2に係る発明は、1のJPEG互換ファイルに2以上のチャンネルの音声データを組み込むことができる効果がある。請求項3に係る発明は、1のJPEG互換ファイルに、撮影時に取得した音声データが組み込めるという効果がある。
【0022】
請求項4に係る発明は、JPEG互換ファイルの圧縮画像を記録すると共に、同ファイルに係る静止画の撮影に際してのシャッタ押しタイミングを記録することができるという効果がある。請求項5に係る発明は、音声を組み込んだJPEG互換ファイルから静止画と音声を再生することができるという効果がある。請求項6に係る発明は、静止画と音声を再生するに当たり、シャッタが押されたタイミングを視覚的若しくは聴覚的に再現することができるという効果がある。
【0023】
請求項7に係る発明は、容量制限のない領域に音声データを組み込んでいるので、音声データを確実に1つのJPEG互換ファイルに確実に組み込むことができるという効果がある。請求項8に係る発明は、1のJPEG互換ファイルに、撮影時に取得した音声データが組み込めるという効果がある。請求項9に係る発明は、音声データを組み込んだ1のJPEG互換ファイルをネットワーク通信によって送信することができるという効果がある。
【0024】
請求項10に係る発明は、音声を組み込んだJPEG互換ファイルから静止画と音声を再生することができるという効果がある。請求項11に係る発明は、ネットワーク通信によって受信した音声付JPEG互換ファイルから、静止画と音声を再生することができるという効果がある。
【発明を実施するための形態】
【0026】
[JPEG互換ファイルの構成]
図1(A)は本発明に係る画像音声記録再生機能を実現するプログラムをインストールしたコンピュータが、静止画と音声データをJPEG互換ファイルとして記録し、又は再生するときに用いるJPEG互換ファイルの構成を示す図である。一般的なJPEGファイルは、NO4とNO9の行は存在せず、アプリケーションセグメントに続いて、量子化テーブルが存在し、画像データの末尾を表すEOIマーカまでである。
【0027】
本発明の画像音声記録再生機能を実現するプログラムでは、NO4の行若しくはNO9の行に音声関連データを記録する。一般的なJPEG再生装置は、NO4の行若しくはNO9の行に音声関連データを無視するため、ここに音声データが組み込まれていたとしても、該JPEGファイルに格納されている静止画を再生することができる。
【0028】
図1(B)は、前記NO4の行若しくはNO9の行に組み込むことができる音声関連データの構成を示している。NO4の位置はアプリケーションセグメント末尾の次に位置するものであり、NO9の位置は、画像データ記録領域末尾の次に位置するものである。音声関連データの構成をマーカ名で示すと、OTOP、OTOP¥0¥0、OTOPCH1START¥0¥0、OTOPCH1END¥0¥0、OTOPEND¥0¥0の順に記録されている。
【0029】
これらは、動作コンピュータのメモリ上では、「OTOP」は16進表示で、例えば、FF02なる値が記録されている。その他のマーカ名は対応するアスキーコードで記録されている。例えば、「OTOP¥0¥0」は、「4f544f505C305C30」と記録されている。先の説明では、音声領域先頭マーカ「OTOP」をFF02としたが、これは単なる取り決めであって、画像音声記録装置と画像音声再生装置で整合が取れていればよい。整合さえ取れていれば、音声領域先頭マーカ「OTOP」として、FF02〜FFBFの数値を用いることができる。
【0030】
各マーカの意味を説明する。OTOPは音声領域先頭を表す。OTOP¥0¥0は音声開始を表す。OTOPCH1START¥0¥0は音声チャンネル1の開始を表す。OTOPCH1END¥0¥0は音声チャンネル1の末尾を表す。OTOPEND¥0¥0音声データ末尾を表す。そして、同メモリ上において、マーカ「OTOPCH1START¥0¥0」とマーカ「OTOPCH1END¥0¥0」の間には、チャンネル1音声に相当する音声データ列が挿入されている。
【0031】
音声領域データには、該音声データに関連するメタデータを含めてもよい。
図2に、メタデータを含む場合の音声領域データの例を示す。メタデータは音声開始マーカと音声チャンネル開始マーカの間に組み込むことができる。あるいは、音声チャンネル末尾マーカと音声末尾マーカの間にメタデータを組み込んでもよい。
【0032】
図2(A)は、音声開始マーカと音声チャンネル開始マーカの間にメタデータを組み込んだ場合の図である。NO2:OTOP¥0¥0と、NO6:OTOPCH1START¥0¥0の間にメタデータが挿入されている。該メタデータの前後は、マーカ「OTOPMETASTART¥0¥0」とマーカ「OTOPMETAEND¥0¥0」に挟まれている。マーカ名OTOPMETASTART¥0¥0はメタデータ開始を表す。マーカ名OTOPMETAEND¥0¥0はメタデータ末尾を表す。
【0033】
メタデータとして、例えば音声データの録音時間や、同ファイルに含まれるJPEG仕様の静止画を撮影する際に押したシャッタ押しタイミングを記録してもよい。このシャッタ押しタイミングは、音声データの開始からシャッタを押すまでのミリ秒数でもよい。
図2(B)は、音声チャンネル末尾マーカであるNO8:OTOPCH1END¥0¥0と、音声末尾マーカであるNO9:OTOPEND¥0¥0の間にメタデータを組み込んだ場合の図である。この場所にメタデータを組み込んでもよい。「前記音声データの開始」に該当する音声データとは、上書きされずに残った音声データの最も古い音声データである。
【0034】
また、音声領域データには、複数の音声を含めてもよい。例えば2マイクによるステレオ録音の場合は2音声が含まれることになる。2音声を含む場合には、第1音声をチャンネル1音声と称し、第2音声をチャンネル2音声と称することができる。一般化して、自然数nとしたときに、n個の音声を含む場合には、第n音声をチャンネルn音声と称することができる。
【0035】
図3は、メタデータとチャンネル2音声を含む場合の音声領域データの例を示している。
図3において、NO9:OTOPCH1END¥0¥0と、NO12:OTOPEND¥0¥0の間にチャンネル2音声に相当する音声データ列が挿入されている。該音声データ列の前後は、マーカ「OTOPCH2START¥0¥0」とマーカ「OTOPCH2END¥0¥0」に挟まれている。マーカ名OTOPCH2START¥0¥0はチャンネル2音声の開始を表す。マーカ名OTOPCH2END¥0¥0はチャンネル2音声の末尾を表す。
【0036】
[第1実施形態に係る装置]
図4に、本発明の第1実施形態として、画像音声記録再生機能を実現する装置の例を示す。この装置は汎用コンピュータで実現されるものであってもよいし、携帯端末で実現されるものであってもよい。以後、CPUと、メモリと、コマンド入力手段を有する携帯端末も単にコンピュータと称することがあるとする。同装置は各機能部を制御するCPU1と、各種の機能部例えば、メモリ2と、コマンド入力手段3と、カメラ5及びマイク4を有している。
【0037】
CPU1がこれらの機能部を適切に制御することによって、少なくとも、画像音声記録機能を実現することができる。更に、ディスプレイ6とスピーカ7A・7Bが追加された機器をCPU1が適切に制御することによって、画像音声記録再生機能を実現することができる。また、画像音声生成機能のみを実現する場合は、カメラ5とマイク4は必ずしも必要ではない。
【0038】
CPU1は制御信号群11を通じて、各機能部を制御する。すなわち、メモリ2と、コマンド入力手段3と、マイク4と、カメラ5と、ディスプレイ6及びスピーカ7A・7Bを制御する。メモリ2はプログラム領域21とワーク領域22の2つの領域を有しており、CPU1の動作手順を規定するプログラムはプログラム領域21に記録されている。
【0039】
CPU1はメモリ2の内容を読み込むことができて、少なくともワーク領域22については、記録することもできる。コマンド入力手段3は同画像音声記録再生装置又は画像音声記録装置若しくは画像音声再生装置に対してユーザがコマンドすなわち、操作命令を入力する機器で、例えば、タッチパネル、キーボード、ジョイスティック若しくはマウスで実現される。
【0040】
マイク4は音声を収集してA/D変換をして、デジタルデータをワーク領域メモリ22に書き込むものである。この動作を以後、録音動作とも称する。マイク4は、CPU1に制御されて録音動作を開始し、終了するようにしてもよい。あるいは、後述のシャッタ51の出力信号であるシャッタ信号511から所定時間の経過後に録音動作を終了するようにしてもよい。カメラ5は、シャッタ51の出力信号であるシャッタ信号511により被写体の画像をA/D変換してデジタルデータとしてワーク領域メモリ22に書き込む。この動作を以後撮影動作とも称する。
【0041】
[第1実施形態に係る装置の画像音声記録動作]
次に第1実施形態に係る装置の画像音声記録動作を説明する。同装置のユーザは、コマンド入力手段3を操作して、同装置を画像音声記録モードに切り替える。その情報はCPU1に伝わる。するとCPU1はマイク4を制御して、録音動作を開始させる。これは以下に説明するエンドレス録音である。
【0042】
ワーク領域メモリ22内には所定の容量であるエンドレス記録領域が設けられている。同エンドレス記録領域にはアクセスするためのアドレスが設定されている。録音動作で生じたデジタルデータはこのアドレスの上位から下位まで順に記録されていく。そして、最下位アドレスまでデータが書き込まれた後は、再び最上位アドレスから上書き記録されていく。
【0043】
例えば、前記エンドレス記録領域に15秒分の録音領域が設けられているとすると、15秒以内の音声であれば、全てが記録される。15秒を超える録音の場合は、最新の15秒分が記録され、それ以前の分は上書きによって失われる。以上の録音方式をエンドレス録音と称することとする。
【0044】
ユーザが同装置を画像音声記録モードにすることで、上記エンドレス録音が継続中である。このとき、ユーザがシャッタ51を押すと、カメラ5が静止画を取得してデジタルデータとしてワーク領域メモリ22に記録される。ユーザがシャッタ51を押したことは、シャッタ信号511によってカメラ5に伝わる。このシャッタ信号511はマイク4にも入力されていて、該シャッタ信号511の受信から既設定されている時間T秒後に前記エンドレス録音が終了される。
【0045】
例えば、T=10であると、シャッタ51が押されてから、10秒後にエンドレス録音が終了されることとなる。エンドレス録音の全体が15秒であるとすると、シャッタ51が押される5秒前から、該シャッタ51が押された後10秒間の音声が前記エンドレス記録領域に記録されたことになる。
【0046】
以上の説明では、シャッタ信号511がマイク4に入力されていたが、該シャッタ信号511はCPU1に導入されていてもよい。この場合、CPU1が、シャッタ51の押されたタイミングを検出し、それからT秒後にCPU1がマイク4を制御して前記エンドレス録音を終了させることになる。この場合でも、シャッタ51が押される5秒前から、該シャッタ51が押された後10秒間の音声が前記エンドレス記録領域に記録されることになる。
【0047】
更にCPU1は、ワーク領域メモリ22に記録された画像データをJPEG仕様として、
図1(A)に示すデータの中、NO1〜NO3、及びNO5〜NO8のデータに変換する。また、ワーク領域メモリ22内の前記エンドレス記録領域の音声データは、
図1(B)のNO1〜NO6のデータに変換する。特に、NO4の音声データ列については、MP3やWAV等、その他の周知な音声データ仕様で変換すればよい。このようにして、CPU1により、ワーク領域メモリ22に記録された画像データと音声データがJPEG互換ファイルに変換される。
【0048】
前記JPEG互換ファイルには、
図2で説明したように、メタデータを含めることができる。
図2において、NO3〜NO5がメタデータに係る内容であって、NO4にメタデータ情報が組み込まれる。メタデータとして、前記音声データ列が採る音声データ形式、例えば、MP3やWAV等、その他の周知な音声データ仕様のいずれかを表す情報を組み込んでもよい。
【0049】
その他、音声データの録音時間や、同ファイルに含まれるJPEG仕様の静止画を撮影する際に押したシャッタ押しタイミングを記録してもよい。このシャッタ押しタイミングは、音声データの開始からシャッタを押すまでのミリ秒数でもよい。以上が、第1実施形態に係る装置の画像音声記録動作である。
【0050】
[第1実施形態に係る装置の画像音声再生動作]
次に第1実施形態に係る装置の画像音声再生動作を説明する。同装置のユーザは、コマンド入力手段3を操作して、同装置を画像音声再生モードに切り替える。その上で、前記ユーザは、再生すべきJPEG互換ファイルを選択する。再生すべきJPEG互換ファイルは、同装置で作成したファイルでもよいし、例えば、通信機能部8を介して、他の装置から受信したものでもよい。
図4には図示されていないが、その他USBインタフェースその他のインタフェースを用いて他の機器から受信したものでもよい。
【0051】
CPU1は、選択されたJPEG互換ファイルをワーク領域メモリ22に展開して再生動作を開始する。再生に際してCPU1は、
図1(A)の左欄に記載の、NO1〜NO3、NO5〜NO8のマーカ値及びこれに係る量子化テーブルと、ハフマンテーブル及び画像データ列を参照して、通常のJPEGファイルとしての画像再生動作を進める。このJPEGファイルとして再生された画像は、原画像と称することもある。
【0052】
本発明の画像音声記録装置は、後記する画像と音声の同期再生に際して表示する加工画像を作成することもできる。加工画像は、例えば、デフォーカス画像、低コントラスト画像、モノクロ画像若しくは高輝度画像である。これらは、前記通常のJPEGファイルとしての画像再生動作において、メモリ2のワーク領域22に展開される画像データの画像処理を加えて加工されるものである。
【0053】
例えば、モノクロ画像は、カラー画像の中の輝度信号Yのみで画像を形成してモノクロ画像とすることができる。または、ワーク領域22にRGB形式でカラー画像が保存されている場合には、各画素におけるRとG及びBの値を加重平均して輝度信号としてもよい。例えば、G値の重みを多くして、Y=0.3×R+0.6×G+0.1×B等の式で輝度値Yを算出することができる。輝度値Yで画像を作れば、明暗情報のみのモノクロ画像になる。
【0054】
また、輝度値Yのみを強くしたカラー画像は高輝度画像になる。あるいは、RGBの値をそれぞれ2.0倍などの倍数をかけて、例えば8ビット上限である255を超える場合には255にクリッピングするなどして高輝度画像とすることもできる。デフォーカス画像はJPEGファイルとして再生された原画像に対して、2次元のガウス関数を畳み込み積分して作成することができる。前記ガウス関数の広がりが大きいほどデフォーカスの強い、つまりボケた画像となる。
【0055】
低解像度画像は例えば、次のように得ることができる。例えば、1280×960画素からなる原画像を40×30個のブロックに分割する。そうすると、各ブロックには32×32画素が含まれることとなるが、この32×32画素の平均値で、そのブロックに含まれる全画素(32×32個)の値を置き換えた画像を作る。これが低解像度画像になっている。また、低コントラスト画像はある範囲の輝度値を1つの輝度値に置き換えて輝度の微妙な変化を失わせた画像として加工する。
【0056】
CPU1は、
図1(A)左欄に記載の、NO4又はNO9の位置に、マーカ名OTOP(マーカ値はFF02)を検出すると、同マーカの位置から、マーカ名OTOPEND¥0¥0までのデータを、音声領域データと見なして、音声データの再生動作も進める。CPU1は、JPEG互換ファイル内にマーカ名OTOPMETASTART¥0¥0と、マーカ名OTOPMETAEND¥0¥0を検出すると、その間のデータをメタデータ情報と認識する。
【0057】
CPU1は、
図1(B)の左欄に記載のNO3とNO5若しくは、
図2(A)(B)の左欄に記載のNO6とNO8のように、マーカ名OTOPCH1START¥0¥0と、マーカ名OTOPCH1END¥0¥0を検出すると、その間のデータを音声データ列と見なして音声再生をし、スピーカ7A・7Bを発声、つまり、鳴らす。
【0058】
音声データ形式は、MP3やWAVを始めとして、公知である音声ファイル形式を用いることができる。ただし、前記音声データ列に該音声形式を示すマークが付されていて、CPU1が利用できるプログラムライブラリに該音声形式の再生ソフトが含まれている必要がある。
【0059】
前記JPEG互換ファイルのマーカ名OTOPとマーカ名OTOPEND¥0¥0の間に、複数の音声データが含まれることがある。例えば、録音時にn(自然数)個のマイクによって音声が収録された場合である。このような場合には、前記JPEG互換ファイル内には、n個の音声データ列が、マーカ名OTOPCH(Z)START¥0¥0と、マーカ名OTOPCH(Z)END¥0¥0に挟まれて存在している。ここで、(Z)は1、2、…、nなる数値が入る。CPU1は、これらのマーカ名によって、n個の音声データ列を検出し、スピーカ7A・7Bが仕様上可能であれば、この音声を発声する。
【0060】
[画像と音声の同期再生]
本発明の画像音声記録再生装置は、画像と音声を同期して再生することもできる。以下、画像と音声の同期再生の例を説明する。前記JPEG互換ファイルに含まれる静止画と音声は同時に再生してもよい。また、前記JPEG互換ファイルのメタデータとして、音声データの開始からシャッタを押すまでのミリ秒数が記録されている場合には、音声再生に関連して、静止画の再生方法に変化を持たせることができる。この例を幾つか
図5で説明する。
【0061】
説明の前提として、前記エンドレス録音において、上書きされずに記録されている音声で最も古い音声データが再生開始時の音声であるとする。そして、音声データの再生開始時からシャッタを押すまでのミリ秒数をT0、シャッタ押から録音終了までのミリ秒数をTとする。したがって、エンドレス録音において、記録可能な録音時間はT0+T(=TA)ミリ秒ということになる。音声再生開始時を基準として時系列で説明する。該音声は再生開始後、T0+T(=TA)ミリ秒後に再生が終了する。これは、T0+Tミリ秒間の音声を繰り返し再生することも可能である。
【0062】
図5(A)に示すのは静止画の表示の仕方の一例である。前記JPEG互換ファイルに組み込まれていた静止画からデフォーカス画像(ピンボケ画像)を作成して、音声の再生と共にこれをディスプレイ6に表示する。そして、T0ミリ秒経過後に前記前記JPEG互換ファイルに組み込まれていた本来の静止画を表示する表示方法である。このデフォーカス画像から本来の静止画への表示切り替えと同時にシャッタ音の擬音を発生させてもよい。本来の静止画とはJPEG画像として再生した原画である。
【0063】
または、
図5(B)に示すように、本来の静止画から低解像度画像を作成して、音声の再生と共にこれを表示する。そして、T0ミリ秒経過後に本来の静止画を表示する表示方法である。その他、音声再生と同時に低コントラスト画像若しくはモノクロ画像を表示しておいて、T0ミリ秒経過後に本来の静止画をディスプレイ6に表示してもよい。
【0064】
または、
図5(C)に示すように、音声の再生と共に本来の静止画を表示し、T0ミリ秒経過時に一瞬だけ高輝度加工した高輝度画像をディスプレイ6に表示させてもよい。加工画像としては、その他、原画を回転させたり、縮小したり、拡大してその一部を表示させたり、その他様々な周知な画像処理によって得られる画像をT0ミリ秒経過前に表示してもよい。
【0065】
ここまで、音声データの再生開始時を基準に説明してきた。ところが、同画像音声記録装置のCPU1が実際に把握できるのはシャッタ51が押された時間である。押された時間はシャッタ信号511の到達によって知ることができる。また、シャッタ押しからエンドレス録音終了までのミリ秒Tと、エンドレス録音の全ミリ秒数TAは予め設定されている。したがって、実際にはT0はTA−Tによって算出される。そして、CPU1は、シャッタ51が押された時間を基準として、これからT0ミリ秒だけ遡ることで、前記音声データの再生開始時を把握することとなる。以上が、第1実施形態に係る装置の画像音声再生動作である。
【0066】
[第2実施形態]
本発明の第2実施形態として、コンピュータ若しくは第1実施形態のCPU1で画像音声記録機能を実現するプログラムの例を、
図6を参照しながら示す。コンピュータやCPU1が起動時に行うセルフチェック動作、その他、これらの機器が通常行う動作は、説明上省略し、画像音声記録機能に係る処理フローのみを説明する。スタート後にCPU1が最初に行うのは、コンピュータ若しくはCPU1を搭載した画像音声記録装置が撮影モードに設定されているか否かをチェックする(stp1)。そこで、撮影モードに設置されていれば、条件分岐stp1は‘真’となり、stp2へ進む。一方、‘偽’の場合は、再びstp1に戻る。あるいは、図示はされていないが、画像音声記録に係る以外の動作をする。
【0067】
stp2において、エンドレス録音を開始する。これは所定の記録容量の中で、上書き記録を繰り返す記録動作である。この間、CPU1は、シャッタ信号の有無をチェックする(stp3)。そして、シャッタ信号がある場合は‘真’として、stp4に進み、無い場合は‘偽’としてstp3のチェックを継続する。勿論この間は、エンドレス録音は継続中である。stp4では静止画像を記録する。これはカメラでデジタル写真を撮影して、ワーク領域メモリ22に記録することを意味する。
【0068】
次いで、前記シャッタ信号があったときから時間Tが経過したか否かをチェックする(stp5)。これは、前記エンドレス録音を開始してから、時間T0+Tが経過したか否かをチェックしてもよい。経過していない場合は‘偽’としてstp5のチェックを継続し、経過している場合は前記エンドレス録音を終了する(stp6)。尚、
図6の処理フローにおいて、丸Aは単にフローの接続を示している。以上、stp2からstp6までで、撮影と録音を完了する。この時点で、音声データと静止画データはメモリ上に記録されている。
【0069】
次いで、stp7〜stp11で、JPEG互換ファイルを作成する。まず、前記メモリに記録されている静止画データをJPEG仕様のデータに変換して前記JPEG互換ファイルに組み込む(stp7)。これは、
図1(A)において、左欄に記載のNO1〜NO3と、NO5〜NO8のデータを整えることにあたる。次に音声領域先頭マーカOTOPと音声開始マーカOTOP¥0¥0を、
図1(A)の左欄NO4またはNO9に組み込む(stp8)。
【0070】
次いで、メタデータを組み込む(stp9)。次いで必要なチャンネル数分だけ音声データを組み込む(
図2と
図3参照)(stp10)。最後に音声末尾マーカOTOPEND¥0¥0を書き込んで、前記JPEG互換ファイルの作成は完了する(stp11)。このようにして、前記メモリ上に前記JPEG互換ファイルが得られる。以上、
図6を参照して、画像音声記録機能を実現するプログラムの処理フローを説明した。ここでは、撮影モードの入りながらも撮影しなかったなどの、ユーザが取りがちな行動に対処する細かな処理ルーチンは周知なルーチンであるから、その説明を省いた。
【0071】
[第3実施形態]
本発明の第3実施形態として、コンピュータ若しくは第1実施形態のCPU1で画像音声再生機能を実現するプログラムの例を、
図7を参照しながら示す。コンピュータやCPU1が起動時に行うセルフチェック動作、その他、これらの機器が通常行う動作は、説明上省略し、画像音声再生機能に係る処理フローのみを説明する。スタート後にCPU1が最初に行うのは、ユーザが再生すべきJPEGファイル若しくはJPEG互換ファイルを選択しているか否かのチェックである(ste1)。ファイルが選択されていれば‘真’としてste2へ進み、選択されていなければ‘偽’として、選択されるまで待機する。
【0072】
ste2では、JPEG仕様の圧縮画像を復号して、メモリ内に展開する。先に説明したように、シャッタ押しタイミングに表示画像を変化させる場合には、このときに、デフォーカス画像、低解像度画像、高輝度画像、低コントラスト画像その他の加工画像を作成して前記メモリ内に保持しておくことができる。あるいは、ここで作成しなくても、「シャッタ押しタイミング」に係るメタデータが記録されていることを確認してからこれらの加工画像を作成してもよい。この場合は、後記のste13で作成することとなる。
【0073】
次いで、音声領域開始マーカであるOTOPマークを検出する(ste3)。検出できない場合は、ユーザが選択したファイルは音声を含まない従来のJPEGファイルであるから、単に、復号静止画をディスプレイ等に画像表示する(ste9)。画像表示後は、ユーザが画像の再生の指示があるまで待機し、終了指示があれば、‘真’として表示を終了する(ste10)。ste3にてOTOPマークが検出されれば、‘真’としてste4に進んで、メタデータを検出する。メタデータが検出できなければ‘偽’としてste6へ進む。
【0074】
ste4で、OTOPMETASTART¥0¥0とOTOPMETAEND¥0¥0及びその間のメタデータが検出されれば‘真’としてメタデータを読込む(ste5)。次いで、音声開始マーカOTOP¥0¥0を読込む(ste6)。更に、ste7で音声チャンネル開始マーカが検出できたなら‘真’としてチャンネル音声データを読込む(ste8)。ste7とste8でチャンネル音声データを全て読込み、ste7で、もはや音声チャンネル開始マーカを検出することができない場合は‘偽’としてste11に進む。ste11で音声末尾マーカOTOPEND¥0¥0を読込んで、音声データの取得が完了する。ここで、丸Bは処理フローの接続を示すものである。
【0075】
次にste5で読込んだメタデータに「シャッタ押しタイミング」が記録されているか否かをチェックする(ste12)。記録されていない場合は、偽として、ste19で音声を再生しスピーカで発声を開始してからJPEGとして格納されていた画像を再生する(ste17)。一方、「シャッタ押しタイミング」が記録されている場合は、真として、加工画像を作成する(ste13)。そして、如何ファイルに格納されていた音声を再生してスピーカへの発声を開始し(ste14)、加工画像をディスプレイに表示する(ste15)。
【0076】
そして、音声を発声してから経過した時間を計数し、シャッタ押しタイミングが経過したか否かをチェックする(ste16)。経過していなければ、偽としてste16に留まり、加工画像表示の状態を維持する。一方経過していれば、JPEGとして格納されていた画像を再生する(ste17)。このようにすると、
図5でも説明したように、音声の発声と共に、例えばデフォーカス画像がディスプレイに表示され、シャッタ押しのタイミングと共に本来の静止画が前記ディスプレイに表示されることとなる。
【0077】
シャッタ押しタイミング時にのみ高輝度画像を表示する場合は、先のste15で本来の静止画を表示し、ste17において所定のミリ秒数だけ高輝度画像を表示し、その後本来の静止画を前記ディスプレイに表示すればよい。これで、シャッタ押しタイミング時のみ光る画像を表示することができる。最後に、ユーザによる画像と音声の再生終了指示があれば‘真’として、画像表示と音声発声を終了する(ste18)。以上が、画像音声再生機能を実現するプログラムの例である。ここでは、選択したファイルが壊れていたときの対処処理など周知な処理の説明は省いた。
【0078】
以上説明した本発明の第1実施形態に係る画像音声記録機能を実現する装置と、第2実施形態に係るプログラムをインストールしたコンピュータやその他の携帯電子機器は、音声データを、確実に1つのJPEG互換ファイルに組み込むことができるという効果がある。それは、音声データを、静止画ファイルのヘッダ内部のアプリケーションセグメント末尾後と量子化テーブルの開始前の間といった、容量制限のない領域に音声領域を確保して前記音声データを記録するから実現できることである。或いは、前記静止画ファイルの画像データ記録領域に続句領域といった、容量制限のない領域に音声領域を確保して前記音声データを記録するから実現できることである。
【0079】
また、本発明の第1実施形態に係る同装置と、第2実施形態に係るプログラムをインストールしたコンピュータやその他の携帯電子機器のメモリ内に、エンドレス録音領域を設けて、静止画撮影用のシャッタを押す前からエンドレス録音を開始する。そして、前記シャッタ押しタイミングから所定時間経過後に前記エンドレス録音を終了するので、撮影した静止画と同期して音声を記録することができる。更に、音声データ開始からシャッタを押すまでのミリ秒数T0をメタデータとして記録することもできる。
【0080】
以上説明した本発明の第1実施形態に係る画像音声再生機能を実現する装置と、第3実施形態に係るプログラムをインストールしたコンピュータやその他の携帯電子機器であって、ディスプレイとスピーカを備えた機器は、音声が組み込まれた、1つのJPEG互換ファイルから静止画と音声データの双方を同時に再生してディスプレイに表示し、スピーカで発声することができる。
【0081】
また、JPEG互換ファイルに、メタデータとして、音声データ開始からシャッタを押すまでのミリ秒数T0が記録されている場合には、音声と静止画を発声及び表示するに際して、前記シャッタの押されたタイミングでシャッタ擬音を発声したり、同タイミングの前後で同静止画の表示の仕方を変化させたりすることができる。
【0082】
また第1実施形態に係る装置のように、前記JPEG互換ファイルの記録と再生ができる装置の場合は、同装置で記録作成した前記JPEG互換ファイルの音声と静止画を再生して確認することができる。この際、1ファイルを開くだけで、静止画表示と音声の発声をさせることができる効果がある。マイク4と、カメラ5と、ディスプレイ6及びスピーカ7A・7Bを備えたコンピュータに第2実施形態に係るプログラム(記録機能)と、第3実施形態に係るプログラム(再生機能)をインストールしても同様の効果が得られる。
【0083】
第1実施形態に係る装置及び、第2実施形態に係る画像音声記録機能を実現するプログラムをインストールしたコンピュータにマイク4とカメラ5と通信機能部8を備えれば、音声を組み込んだ前記JPEG互換ファイルをネットワーク通信によって、他の端末に送ることができる。或いは、第1実施形態に係る装置及び、第3実施形態に係る画像音声記再生機能を実現するプログラムをインストールしたコンピュータにディスプレイ6とスピーカ7A・7Bと通信機能部8を備えれば、他の端末からネットワーク通信によって送信された前記JPEG互換ファイルの画像と音声を再生することができる。このようにネットワーク通信を介して他の端末同士で、ファイルをやり取りする場合、前記JPEG互換ファイルは、1つのファイルで画像と音声を扱うことができるので便利である。
【0084】
第3実施形態に係る画像音声記再生機能を実現するプログラムをインストールしたコンピュータに通信機能部を備えた端末を有する業者が、注文主からネットワーク通信を介して音声付JPEG互換ファイルを受信し、併せて注文を受けた場合には、前記業者は、前記音声付JPEG互換ファイルの音声を発生するように構成したメモリとスピーカを備えたカードに、前記音声付JPEG互換ファイルの静止画を印刷してグリーティングカードとし、前記注文主に発送する事業をすることができる。このように静止画と音声データをネットワーク通信するに際してもファイルが1つであるということは便利である。