IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特許7552599情報処理装置、情報処理方法、プログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-09
(45)【発行日】2024-09-18
(54)【発明の名称】情報処理装置、情報処理方法、プログラム
(51)【国際特許分類】
   H04N 5/92 20060101AFI20240910BHJP
   H04N 5/765 20060101ALI20240910BHJP
【FI】
H04N5/92 010
H04N5/765
【請求項の数】 18
(21)【出願番号】P 2021542040
(86)(22)【出願日】2020-06-22
(86)【国際出願番号】 JP2020024375
(87)【国際公開番号】W WO2021039057
(87)【国際公開日】2021-03-04
【審査請求日】2023-05-16
(31)【優先権主張番号】P 2019157231
(32)【優先日】2019-08-29
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110003410
【氏名又は名称】弁理士法人テクノピア国際特許事務所
(74)【代理人】
【識別番号】100116942
【弁理士】
【氏名又は名称】岩田 雅信
(74)【代理人】
【識別番号】100167704
【弁理士】
【氏名又は名称】中川 裕人
(72)【発明者】
【氏名】和田 真宏
【審査官】鈴木 順三
(56)【参考文献】
【文献】特開2008-085582(JP,A)
【文献】特開2014-010611(JP,A)
【文献】特開2016-111406(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/76 - 5/956
(57)【特許請求の範囲】
【請求項1】
音声データをテキスト化したテキストデータを取得するテキスト取得部と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキスト取得部で取得したテキストデータを、前記画像データに対応するメタデータとする処理を行うデータ管理部と、を備え、
前記データ管理部は、画像データと音声データの受信順序に応じて、画像データに関連付けられる音声データを判別する
情報処理装置。
【請求項2】
音声データをテキスト化したテキストデータを取得するテキスト取得部と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキスト取得部で取得したテキストデータを、前記画像データに対応するメタデータとする処理を行うデータ管理部と、を備え、
前記データ管理部は、音声データについてのテキストデータを、関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行う
情報処理装置。
【請求項3】
音声データをテキスト化したテキストデータを取得するテキスト取得部と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキスト取得部で取得したテキストデータを、前記画像データに対応するメタデータとする処理を行うデータ管理部と、を備え、
前記データ管理部は、音声データについてのテキストデータが取得されたことに応じて自動的に、該テキストデータを関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行う
情報処理装置。
【請求項4】
前記テキスト取得部は、画像データ及び該画像データに関連する音声データを受信することに応じて、前記音声データをテキスト化したテキストデータを取得する処理を行う
請求項1から請求項3のいずれかに記載の情報処理装置。
【請求項5】
前記テキスト取得部は、画像データを指定する操作に応じて、前記音声データをテキスト化したテキストデータを取得する処理を行う
請求項1から請求項4のいずれかに記載の情報処理装置。
【請求項6】
前記データ管理部は、画像データに付加されたメタデータにより、該画像データに関連付けられる音声データを判別する
請求項2又は請求項3に記載の情報処理装置。
【請求項7】
前記データ管理部は、テキストデータを、既に入力されているキャプションデータの後に追加する
請求項3に記載の情報処理装置。
【請求項8】
音声データをテキスト化したテキストデータを、自動的に画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理をオン/オフすることのできるユーザインタフェース環境を提供するユーザインタフェース制御部を備えた
請求項3又は請求項7に記載の情報処理装置。
【請求項9】
前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後に、前記画像データと前記メタデータをサーバ装置にアップロードする処理を行うアップロード処理部を備えた
請求項1から請求項8のいずれかに記載の情報処理装置。
【請求項10】
前記アップロード処理部は、前記画像データと前記メタデータに加えて前記音声データもサーバ装置にアップロードする処理を行う
請求項9に記載の情報処理装置。
【請求項11】
前記アップロード処理部は、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後に、前記画像データと前記メタデータを自動的にサーバ装置にアップロードする処理を行う
請求項9又は請求項10に記載の情報処理装置。
【請求項12】
前記アップロード処理部が、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後において前記画像データと前記メタデータをサーバ装置にアップロードする処理を自動的に行うか否かを設定できるユーザインタフェース環境を提供するユーザインタフェース制御部を備えた
請求項11に記載の情報処理装置。
【請求項13】
前記ユーザインタフェース制御部は、さらに音声データをアップロードするか否かを設定できるユーザインタフェース環境を提供する
請求項12に記載の情報処理装置。
【請求項14】
前記音声データについて前記テキスト取得部で取得したテキストデータを表示させるユーザインタフェース制御部を備えた
請求項1から請求項7のいずれかに記載の情報処理装置。
【請求項15】
前記ユーザインタフェース制御部は、前記音声データについて音声再生を実行させるユーザインタフェース環境を提供する
請求項14に記載の情報処理装置。
【請求項16】
携帯端末装置である
請求項1から請求項15のいずれかに記載の情報処理装置。
【請求項17】
情報処理装置が、
音声データをテキスト化したテキストデータを取得するテキストデータ取得処理と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキストデータ取得処理で取得したテキストデータを、前記画像データに対応するメタデータとするデータ管理処理とを実行し、
前記データ管理処理では、画像データと音声データの受信順序に応じて、画像データに関連付けられる音声データを判別する処理を実行する
情報処理方法。
【請求項18】
情報処理装置に、
音声データをテキスト化したテキストデータを取得するテキストデータ取得処理と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキストデータ取得処理で取得したテキストデータを、前記画像データに対応するメタデータとするデータ管理処理とを実行させ、
前記データ管理処理では、画像データと音声データの受信順序に応じて、画像データに関連付けられる音声データを判別する処理を実行させる
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は情報処理装置、情報処理方法、プログラムに関し、特に撮像装置において画像データに関連付けた音声データを生成した場合に対応する技術に関する。
【背景技術】
【0002】
プロカメラマンや記者など、業務で撮像装置(「カメラ」ともいう)を使用するユーザの場合、撮像装置で撮像した画像を、撮像現場で、その撮像装置の通信機能を用いて新聞社等のサーバ(例えばFTP(File Transfer Protocol)サーバ)にアップロードするということが行われている。
特許文献1には画像等をアップロードすることに関する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2018-093325号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで上述のようなプロカメラマン等が撮像した画像を新聞社等のサーバにアップロードをする状況を想定すると、画像に対して説明等を付加したいという要望がある。
このためには例えばユーザが説明のためのテキストを入力し、これを画像データに対してキャプションデータとして付加することは可能である。但し特に取材現場等での使用を考えると、より手間がかからないようにすることが望まれる。
【0005】
そこで本技術では、例えばプロカメラマンなどが画像をアップロードする場合に、音声により説明を加えた場合に、その音声データを容易に利用できるようにする技術を提案する。
【課題を解決するための手段】
【0006】
本技術に係る情報処理装置は、音声データをテキスト化したテキストデータを取得するテキスト取得部と、外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキスト取得部で取得したテキストデータを、前記画像データに対応するメタデータとする処理を行うデータ管理部と、を備える。
画像データと該画像データに関連する音声データが存在する状態を想定する。例えば撮像装置で撮像した際に、カメラマンの音声入力により画像データに対応した音声データが生成され、それが画像に対応づけられる場合などが想定される。そのような画像データと音声データを受信したときに、音声データをテキスト化したテキストデータを画像データのメタデータに書き込む。
なお外部装置とは例えば撮像装置、或いは撮像装置からのデータを中継する装置、さらには画像データと音声データを送信できる各種の装置が想定される。
【0007】
上記した情報処理装置においては、前記テキスト取得部は、画像データ及び該画像データに関連する音声データを受信することに応じて、前記音声データをテキスト化したテキストデータを取得する処理を行うことが考えられる。
例えば撮像装置から画像データと音声データが転送された場合に、その画像データと音声データを受信したことをトリガとして、特にユーザ操作がなくともテキスト化のための処理を行うようにする。
【0008】
上記した情報処理装置においては、前記テキスト取得部は、画像データを指定する操作に応じて、前記音声データをテキスト化したテキストデータを取得する処理を行うことが考えられる。
例えば情報処理装置において撮像装置から取り込んだ画像データを指定する操作が行われたことをトリガとしてテキスト化のための処理を行うようにする。
【0009】
上記した情報処理装置においては、前記データ管理部は、画像データと音声データの受信順序に応じて、画像データに関連付けられる音声データを判別することが考えられる。
例えば撮像装置からの転送が行われる際の順序を定めておくことで、画像データと音声データの対応関係が特定できる。
【0010】
上記した情報処理装置においては、前記データ管理部は、画像データに付加されたメタデータにより、該画像データに関連付けられる音声データを判別することが考えられる。
撮像装置が画像データに付加されたメタデータ内に、その画像データに関連付けられる音声データを示す情報を含ませておくことで、情報処理装置側で画像データと音声データの対応関係が特定できるようになる。
【0011】
上記した情報処理装置においては、前記データ管理部は、音声データについてのテキストデータを、関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行うことが考えられる。
メタデータにおいてキャプションデータを記述するフィールドに音声データをテキスト化したテキストデータが含まれるようにする。
【0012】
上記した情報処理装置においては、前記データ管理部は、音声データについてのテキストデータが取得されたことに応じて自動的に、該テキストデータを関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行うことが考えられる。
自動的に、音声データをテキスト化したテキストデータがメタデータにおけるキャプションデータを記述するフィールドに含まれるようにする。
【0013】
上記した情報処理装置においては、前記データ管理部は、テキストデータを、既に入力されているキャプションデータの後に追加することが考えられる。
テキストデータを自動的にメタデータにおけるキャプションデータフィールドに追加する場合、既に記述されているキャプションデータのうしろのデータとして追加する。
【0014】
上記した情報処理装置においては、音声データをテキスト化したテキストデータを、自動的に画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理をオン/オフすることのできるユーザインタフェース環境を提供するユーザインタフェース制御部を備えることが考えられる。
即ち、音声データをテキスト化したテキストデータを、メタデータにおけるキャプションデータを記述するフィールドに記述する処理を、自動的に行うか否かをユーザが選択できるようにする。
【0015】
上記した情報処理装置においては、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後に、前記画像データと前記メタデータをサーバ装置にアップロードする処理を行うアップロード処理部を備えることが考えられる。
即ち音声データをテキスト化したテキストデータがメタデータに加えられた画像データをサーバ装置にアップロードするようにする。
【0016】
上記した情報処理装置においては、前記アップロード処理部は、前記画像データと前記メタデータに加えて前記音声データもサーバ装置にアップロードする処理を行うことが考えられる。
即ち音声データを含む音声ファイルと、画像データとメタデータを含む画像ファイルを共にサーバ装置にアップロードするようにする。
【0017】
上記した情報処理装置においては、前記アップロード処理部は、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後に、前記画像データと前記メタデータを自動的にサーバ装置にアップロードする処理を行うことが考えられる。
例えば撮像装置から画像データ、メタデータ、音声データが転送された後において、音声データをテキスト化したテキストデータがメタデータに加えられ、その画像データとメタデータをサーバ装置にアップロードする一連の処理が、自動的に行われるようにする。
【0018】
上記した情報処理装置においては、前記アップロード処理部が、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後において前記画像データと前記メタデータをサーバ装置にアップロードする処理を自動的に行うか否かを設定できるユーザインタフェース環境を提供するユーザインタフェース制御部を備えることが考えられる。
即ち、アップロード処理を自動的に行うか否かをユーザが選択できるようにする。
【0019】
上記した情報処理装置においては、前記ユーザインタフェース制御部は、さらに音声データをアップロードするか否かを設定できるユーザインタフェース環境を提供することが考えられる。
即ち、自動アップロード処理において、音声データについてもアップロードするか否かをユーザが選択できるようにする。
【0020】
上記した情報処理装置においては、前記音声データについて前記テキスト取得部で取得したテキストデータを表示させるユーザインタフェース制御部を備えることが考えられる。
即ち、音声データをテキスト化したテキストデータを、ユーザに対してテキスト表示する。
【0021】
上記した情報処理装置においては、前記ユーザインタフェース制御部は、前記音声データについて音声再生を実行させるユーザインタフェース環境を提供することが考えられる。
即ち、音声データをそのまま音声としても再生できるようにする。
【0022】
上記した情報処理装置は携帯端末装置であることが考えられる。
例えばスマートフォンやタブレット機器などの携帯端末装置でユーザインタフェース制御部、通信制御部の処理が行われるようにする。
【0023】
本技術の情報処理方法は、音声データをテキスト化したテキストデータを取得するテキストデータ取得処理と、外部装置撮像装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキストデータ取得処理で取得したテキストデータを、前記画像データに対応するメタデータとする処理と行う。
これによりユーザが撮像装置で付加した音声データを利用しやすい状態とする。FTP設定情報を登録しやすい環境を実現する。
本技術に係るプログラムは、このような情報処理方法に相当する処理を情報処理装置に実行させるプログラムである。
これにより画像データに関連付けられた音声データをテキスト化して利用する動作を各種の情報処理装置で実行可能とする。
【図面の簡単な説明】
【0024】
図1】本技術の実施の形態の画像ファイル及び音声ファイルの転送及びアップロードの説明図である。
図2】実施の形態で通信を行う撮像装置のブロック図である。
図3】実施の形態で画像データに付加されるIPTCメタデータの説明図である。
図4】実施の形態の情報処理装置のブロック図である。
図5】実施の形態の情報処理装置の機能構成の説明図である。
図6】実施の形態の画像一覧画面の説明図である。
図7】実施の形態のキャプション編集画面の説明図である。
図8】実施の形態の個別画像画面の説明図である。
図9】実施の形態のキャプション編集画面の音声再生状態の説明図である。
図10】実施の形態のキャプション編集画面でのダイアログ表示の説明図である。
図11】実施の形態のキャプション編集画面でのメッセージ表示の説明図である。
図12】実施の形態でボイスメモテキストがキャプションデータに加えられた状態のキャプション編集画面の説明図である。
図13】実施の形態のキャプション編集画面の横画面状態の説明図である。
図14】実施の形態のキャプション編集画面の横画面でキーボード表示がされた状態の説明図である。
図15】実施の形態のメニュー画面の説明図である。
図16】実施の形態のボイスメモ自動キャプション付与画面の説明図である。
図17】実施の形態の設定画面の説明図である。
図18】実施の形態の自動アップロード設定画面の自動アップロード設定オフ状態の説明図である。
図19】実施の形態の自動アップロード設定画面の自動アップロード設定オン状態の説明図である。
図20】実施の形態の自動アップロード設定画面の自動アップロード設定オン状態説明図である。
図21】実施の形態の画像取り込みの際の処理例のフローチャートである。
図22】実施の形態の画像取り込みの際の処理例のフローチャートである。
図23】実施の形態のアップロードファイル準備処理のフローチャートである。
図24】実施の形態の画像一覧画面からの処理例のフローチャートである。
図25】実施の形態の画像一覧画面からの処理例のフローチャートである。
図26】実施の形態の画像一覧画面からの処理例のフローチャートである。
図27】実施の形態のアップロード時の処理例のフローチャートである。
【発明を実施するための形態】
【0025】
以下、実施の形態を次の順序で説明する。
<1.実施の形態の画像取り込みとアップロード>
<2.撮像装置の構成>
<3.情報処理装置の構成>
<4.ユーザインタフェース画面>
<5.画像取り込み時の処理例>
<6.テキスト化及びキャプション編集を含む処理例>
<7.アップロード時の処理例>
<8.まとめ及び変形例>
【0026】
<1.実施の形態の画像取り込みとアップロード>
図1に撮像装置1、情報処理装置2、FTPサーバ4、テキスト変換エンジン5、ネットワーク6を示している。
【0027】
撮像装置1としては、ビデオカメラやスチルカメラとしての各種の撮像装置がある。図示する撮像装置1は、カメラマンや記者がスポーツやイベントの会場や取材現場などで用いるカメラを想定している。
【0028】
情報処理装置2は、ここではスマートフォン等の携帯型端末装置を例示している。
なお情報処理装置の具体例としては、例えばパーソナルコンピュータ装置、タブレット型情報処理装置、携帯電話装置、ゲーム機器、オーディオ機器、ビデオ機器、通信装置、テレビジョン装置、サーバ装置など、各種の例が想定される。情報処理としての演算を行うことのできる装置、例えばマイクロコンピュータを内蔵する装置であれば本開示の情報処理装置として実現可能である。
但し、上述のようにイベント会場等での使用を想定する場合、スマートフォンやタブレット機器などの携帯端末であることが好適である。
【0029】
撮像装置1と情報処理装置2は、例えばブルートゥース(Bluetooth:登録商標)、WI-FI(登録商標)通信、NFC(Near Field Communication)等の近距離無線通信、赤外線通信により、相互に情報通信が可能とされる。
なお撮像装置1と情報処理装置2が有線接続通信によって相互に通信可能とされてもよい。
また情報処理装置2がFTPサーバ、撮像装置1がFTPクライアントとして機能し、撮像装置1から画像データ等が情報処理装置2にアップロードされるようにすることもできる。
【0030】
本実施の形態の場合、撮像装置1から情報処理装置2には、画像ファイルPFや音声ファイルAFが送信される状況を想定する。
情報処理装置2は撮像装置1から転送された画像ファイルPFや音声ファイルAFを保持し、ユーザに提示したり、FTPサーバ4へアップロードしたりすることができる。
【0031】
なお、撮像装置1では撮像動作により静止画や動画としての画像データを生成するとともに、付加情報としてのメタデータを生成する。
図1に示す画像ファイルPFとは、この画像データとメタデータを含むデータファイルであるとしている。
【0032】
また本実施の形態の場合、撮像装置1はボイスメモ機能を備える。これは、ユーザが撮像時に声を入力することで、撮像画像に対する注釈、説明等を音声で付与することができる機能である。例えば1枚の静止画を撮像した際にカメラマンが所定の操作を行いながら画像内容を説明する発声を行ったり、画像を指定した状態で発声を行ったりすることで、その音声が録音され、画像データと関連付けられたボイスメモとされる。
図1に示す音声ファイルAFとは、このボイスメモとしての音声データを含むデータファイルであるとする。
なお、動画撮像時には、周囲音声も音声トラックデータとして記録されるが、その音声トラックデータは画像ファイルPFに含まれる音声データであり、音声ファイルAFとは別である。説明上の音声ファイルAFは、あくまでもボイスメモとしての音声データを含むファイルを指すものとする。
以下では、静止画撮像を想定し、画像ファイルPFには静止画像データとメタデータ、音声ファイルAFには静止画撮像に伴って生成されたボイスメモデータが含まれる例で説明していく。
【0033】
なお、必ずしも全ての画像ファイルPFに音声ファイルAFが関連付けられているわけではなく、あくまでカメラマン等がボイスメモ機能を用いて音声入力を行った場合にのみ、撮像装置1で音声ファイルAFが生成され、画像ファイルPFに関連付けられる。
従って撮像装置1から情報処理装置2へのデータ転送の際には、画像ファイルPFと音声ファイルAFが対になって送信される場合と、画像ファイルPFのみの場合がある。
【0034】
情報処理装置2は、転送された画像ファイルPFや音声ファイルAFをネットワーク6を介してFTPサーバ4にアップロードすることができる。
ネットワーク6は、例えばインターネット、ホームネットワーク、LAN(Local Area Network)、衛星通信網、その他の各種のネットワークが想定される。
FTPサーバ4は、例えば新聞社、放送局、通信社などが運営するサーバが考えられる。もちろんそのようなサーバに限定されない。
FTPサーバ4の形態としてはクラウドサーバ、ホームサーバ、或いはパーソナルコンピュータなどが想定される。
【0035】
情報処理装置2は、単に撮像装置1から画像ファイルPF等をそのままFTPサーバ4にアップロードするだけでなく、メタデータに含まれるキャプションを付加・編集したり画像サイズの設定、データ圧縮などを行ったりした上でアップロードすることができる。
特に本実施の形態の場合、音声ファイルAFが関連付けられた画像ファイルPFについては、その音声ファイルAFにおける音声データ、即ち上述のボイスメモをテキスト化したテキストデータを取得し、メタデータに付加する処理も行った上で、アップロードすることができる。
【0036】
ボイスメモのテキストデータ化は、情報処理装置2にテキスト変換エンジンが装備されることで、実行されるようにすることが考えられるが、情報処理装置2自体はテキスト変換機能を備えず、外部のテキスト変換エンジン5を用いるようにしてもよい。
例えば情報処理装置2は、ネットワーク6を介してテキスト変換エンジン5にボイスメモの音声データを送信する。
テキスト変換エンジン5は、この音声データをテキスト化する処理を行い、生成したテキストデータを情報処理装置2に送信する。これにより情報処理装置2はボイスメモをテキスト化したテキストデータを取得することができる。
なお説明上、ボイスメモをテキスト化したテキストデータを「ボイスメモテキスト」と呼ぶこととする。
【0037】
この図1のような通信システムが構築されることで、例えば撮像装置1のユーザが新聞社の仕事を行うプロカメラマンである場合、次のようなことが可能になる。
即ちカメラマンがイベント会場で撮像した画像を、自分のスマートフォン(情報処理装置2)に転送する。そしてスマートフォン等の情報処理装置2において必要な作業を行った上で、或いは自動的に、情報処理装置2からFTPサーバ4に撮像画像をアップロードするというようなシステム利用態様が想定される。
この場合に、ボイスメモがテキスト化されてメタデータに付加され、画像データとともにアップロードされるものとなる。
【0038】
<2.撮像装置の構成>
撮像装置1の構成例を図2で説明する。
撮像装置1は、例えばレンズ系11、撮像素子部12、カメラ信号処理部13、記録制御部14、表示部15、通信部16、操作部17、カメラ制御部18、メモリ部19、ドライバ部22、センサ部23、音声入力部25、音声処理部26を有する。
【0039】
レンズ系11は、ズームレンズ、フォーカスレンズ等のレンズや絞り機構などを備える。このレンズ系11により、被写体からの光(入射光)が導かれ撮像素子部12に集光される。
【0040】
撮像素子部12は、例えば、CMOS(Complementary Metal Oxide Semiconductor)型やCCD(Charge Coupled Device)型などのイメージセンサ12a(撮像素子)を有して構成される。
この撮像素子部12では、イメージセンサ12aで受光した光を光電変換して得た電気信号について、例えばCDS(Correlated Double Sampling)処理、AGC(Automatic Gain Control)処理などを実行し、さらにA/D(Analog/Digital)変換処理を行う。そしてデジタルデータとしての撮像信号を、後段のカメラ信号処理部13やカメラ制御部18に出力する。
【0041】
カメラ信号処理部13は、例えばDSP(Digital Signal Processor)等により画像処理プロセッサとして構成される。このカメラ信号処理部13は、撮像素子部12からのデジタル信号(撮像画像信号)に対して、各種の信号処理を施す。例えばカメラプロセスとしてカメラ信号処理部13は、前処理、同時化処理、YC生成処理、解像度変換処理、ファイル形成処理等を行う。
【0042】
前処理では、撮像素子部12からの撮像画像信号に対して、R,G,Bの黒レベルを所定のレベルにクランプするクランプ処理や、R,G,Bの色チャンネル間の補正処理等を行う。
同時化処理では、各画素についての画像データが、R,G,B全ての色成分を有するようにする色分離処理を施す。例えば、ベイヤー配列のカラーフィルタを用いた撮像素子の場合は、色分離処理としてデモザイク処理が行われる。
YC生成処理では、R,G,Bの画像データから、輝度(Y)信号および色(C)信号を生成(分離)する。
解像度変換処理では、各種の信号処理が施された画像データに対して、解像度変換処理を実行する。
【0043】
ファイル形成処理では、例えば以上の各種処理が施された画像データについて、例えば記録用や通信用の圧縮符号化、フォーマティング、メタデータの生成や付加などを行って記録用や通信用のファイル生成を行う。
例えば静止画ファイルとしてJPEG(Joint Photographic Experts Group)、TIFF(Tagged Image File Format)、GIF(Graphics Interchange Format)等の形式の画像ファイルPFの生成を行う。またMPEG-4準拠の動画・音声の記録に用いられているMP4フォーマットなどとしての画像ファイルPFの生成を行うことも考えられる。
なおロー(RAW)画像データとして画像ファイルPFを生成することも考えられる。
【0044】
カメラ信号処理部13は、メタデータについては、カメラ信号処理部13内の処理パラメータの情報や、カメラ制御部18から取得する各種制御パラメータ、レンズ系11や撮像素子部12の動作状態を示す情報、モード設定情報、撮像環境情報(日時や場所など)を含むものとして生成する。
特に本実施の形態の場合図3に例示するIPTC(International Press Telecommunications Council)メタデータを含むものとする。
IPTCメタデータは、メディア企業団体が策定したフォーマットによるメタデータであり、図3はその一部の項目のみを例示しているが、「ディスクリプション/キャプション」「ディスクリプションライター」「ヘッドライン」「キーワード」など、多様な情報を記述可能とされる。
【0045】
記録制御部14は、例えば不揮発性メモリによる記録媒体に対して記録再生を行う。記録制御部14は例えば記録媒体に対し動画データや静止画データ等の画像ファイルやサムネイル画像等を記録する処理を行う。
記録制御部14の実際の形態は多様に考えられる。例えば記録制御部14は、撮像装置1に内蔵されるフラッシュメモリとその書込/読出回路として構成されてもよい。また記録制御部14は、撮像装置1に着脱できる記録媒体、例えばメモリカード(可搬型のフラッシュメモリ等)に対して記録再生アクセスを行うカード記録再生部による形態でもよい。また記録制御部14は、撮像装置1に内蔵されている形態としてHDD(Hard Disk Drive)などとして実現されることもある。
【0046】
表示部15は撮像者に対して各種表示を行う表示部であり、例えば撮像装置1の筐体に配置される液晶パネル(LCD:Liquid Crystal Display)や有機EL(Electro-Luminescence)ディスプレイ等のディスプレイデバイスによる表示パネルやビューファインダーとされる。
表示部15は、カメラ制御部18の指示に基づいて表示画面上に各種表示を実行させる。
例えば表示部15は、記録制御部14において記録媒体から読み出された画像データの再生画像を表示させる。
また表示部15にはカメラ信号処理部13で表示用に解像度変換された撮像画像の画像データが供給され、表示部15はカメラ制御部18の指示に応じて、当該撮像画像の画像データに基づいて表示を行う場合がある。これにより構図確認中や動画記録中などの撮像画像である、いわゆるスルー画(被写体のモニタリング画像)が表示される。
また表示部15はカメラ制御部18の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を画面上に実行させる。
【0047】
通信部16は、外部機器との間のデータ通信やネットワーク通信を有線又は無線で行う。
例えば外部の表示装置、記録装置、再生装置等に対して撮像画像データ(静止画ファイルや動画ファイル)の送信出力を行う。
また通信部16はネットワーク通信部として、例えばインターネット、ホームネットワーク、LAN(Local Area Network)等の各種のネットワーク6による通信を行い、ネットワーク上のサーバ、端末等との間で各種データ送受信を行うことができる。例えば本実施の形態の場合、通信部16は、撮像した画像データ(上述の画像ファイル等)をFTPサーバ4にアップロードする通信処理を行う。
また本実施の形態の場合、通信部16は、情報処理装置2との間で通信を行い、画像ファイルPFや音声ファイルAFの転送を実行する。
【0048】
操作部17は、ユーザが各種操作入力を行うための入力デバイスを総括して示している。具体的には操作部17は撮像装置1の筐体に設けられた各種の操作子(キー、ダイヤル、タッチパネル、タッチパッド等)を示している。
操作部17によりユーザの操作が検知され、入力された操作に応じた信号はカメラ制御部18へ送られる。
【0049】
カメラ制御部18はCPU(Central Processing Unit)を備えたマイクロコンピュータ(演算処理装置)により構成される。
メモリ部19は、カメラ制御部18が処理に用いる情報等を記憶する。図示するメモリ部19としては、例えばROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリなどを包括的に示している。
メモリ部19はカメラ制御部18としてのマイクロコンピュータチップに内蔵されるメモリ領域であってもよいし、別体のメモリチップにより構成されてもよい。
カメラ制御部18はメモリ部19のROMやフラッシュメモリ等に記憶されたプログラムを実行することで、この撮像装置1の全体を制御する。
例えばカメラ制御部18は、撮像素子部12のシャッタースピードの制御、カメラ信号処理部13における各種信号処理の指示、ユーザの操作に応じた撮像動作や記録動作、記録した画像ファイルの再生動作、レンズ鏡筒におけるズーム、フォーカス、絞り調整等のレンズ系11の動作、ユーザインタフェース動作等について、必要各部の動作を制御する。
【0050】
メモリ部19におけるRAMは、カメラ制御部18のCPUの各種データ処理の際の作業領域として、データやプログラム等の一時的な格納に用いられる。
メモリ部19におけるROMやフラッシュメモリ(不揮発性メモリ)は、CPUが各部を制御するためのOS(Operating System)や、画像ファイル等のコンテンツファイルの他、各種動作のためのアプリケーションプログラムや、ファームウエア、各種の設定情報等の記憶に用いられる。
各種の設定情報としては、上述のFTP設定情報や、撮像動作に関する設定情報としての露出設定、シャッタースピード設定、モード設定や、画像処理に係る設定情報としてのホワイトバランス設定、色設定、画像エフェクトに関する設定や、操作性に係る設定情報としてのカスタムキー設定や表示設定などがある。
【0051】
ドライバ部22には、例えばズームレンズ駆動モータに対するモータドライバ、フォーカスレンズ駆動モータに対するモータドライバ、絞り機構のモータに対するモータドライバ等が設けられている。
これらのモータドライバはカメラ制御部18からの指示に応じて駆動電流を対応するドライバに印加し、フォーカスレンズやズームレンズの移動、絞り機構の絞り羽根の開閉等を実行させることになる。
【0052】
センサ部23は、撮像装置に搭載される各種のセンサを包括的に示している。
センサ部23としては例えばIMU(inertial measurement unit:慣性計測装置)が搭載されており、例えばピッチ、ヨー、ロールの3軸の角速度(ジャイロ)センサで角速度を検出し、加速度センサで加速度を検出することができる。
またセンサ部23としては、例えば位置情報センサ、照度センサ等が搭載される場合もある。
【0053】
音声入力部25は例えばマイクロホン及びマイクアンプ等を有し、周囲音声を集音した音声信号を出力する。
音声処理部26は、音声入力部25で得られた音声信号についてデジタル音声信号に変換する処理や、AGC処理、音質処理、ノイズリダクション処理などを行う。これらの処理を経た音声データはカメラ信号処理部13やカメラ制御部18に出力される。
例えば音声データは、動画撮像時にはカメラ制御部18において動画に付随する音声データとして処理される。
【0054】
また音声データは、撮像時などにおける、いわゆるボイスメモとしての音声データとして、カメラ信号処理部13或いはカメラ制御部18において音声ファイルAFとしてファイル化されるようにすることもできる。
音声ファイルAFは、記録制御部14において画像ファイルに対応づけられて記録媒体に記録されたり、通信部16から画像ファイルとともに送信出力されたりすることができる。
【0055】
<3.情報処理装置の構成>
例えば携帯型端末装置などとされる情報処理装置2の構成例を図4に示す。
情報処理装置2のCPU71は、ROM72に記憶されているプログラム、または記憶部79からRAM73にロードされたプログラムに従って各種の処理を実行する。RAM73にはまた、CPU71が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU71、ROM72、およびRAM73は、バス74を介して相互に接続されている。このバス74にはまた、入出力インタフェース75も接続されている。
【0056】
入出力インタフェース75には、操作子や操作デバイスよりなる入力部76が接続される。
例えば入力部76としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
入力部76によりユーザの操作が検知され、入力された操作に応じた信号はCPU71によって解釈される。
【0057】
また入出力インタフェース75には、LCD或いは有機ELパネルなどよりなる表示部77や、スピーカなどよりなる音声出力部78が一体又は別体として接続される。
表示部77は各種表示を行う表示部であり、例えば情報処理装置2の筐体に設けられるディスプレイデバイスや、情報処理装置2に接続される別体のディスプレイデバイス等により構成される。
表示部77は、CPU71の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また表示部77はCPU71の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を行う。
【0058】
入出力インタフェース75には、ハードディスクや固体メモリなどより構成される記憶部79や、モデムなどより構成される通信部80が接続される場合もある。
【0059】
通信部80は、インターネット等の伝送路を介しての通信処理や、各種機器との有線/無線通信、バス通信などによる通信を行う。
本実施の形態の場合、通信部80は、撮像装置1との間で、例えば上述のFTP通信、ブルートゥース、WI-FI、NFC等の近距離無線通信、赤外線通信、有線接続通信などによる通信を行う機能を備える。
【0060】
入出力インタフェース75にはまた、必要に応じてドライブ82が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体81が適宜装着される。
ドライブ82により、リムーバブル記録媒体81からは画像ファイル等のデータファイルや、各種のコンピュータプログラムなどを読み出すことができる。読み出されたデータファイルは記憶部79に記憶されたり、データファイルに含まれる画像や音声が表示部77や音声出力部78で出力されたりする。またリムーバブル記録媒体81から読み出されたコンピュータプログラム等は必要に応じて記憶部79にインストールされる。
【0061】
情報処理装置2にはテキスト変換エンジン83としてのプロセッサが装備される場合がある。
テキスト変換エンジン83は、例えば音声データを解析してテキストデータに変換する処理を行う。
なお、上述のように外部のテキスト変換エンジン5を利用する場合は、情報処理装置2がテキスト変換エンジン83として機能するプロセッサを備えていなくてもよい。
【0062】
この情報処理装置2では、例えば本開示の処理のためのソフトウエアを、通信部80によるネットワーク通信やリムーバブル記録媒体81を介してインストールすることができる。或いは当該ソフトウエアは予めROM72や記憶部79等に記憶されていてもよい。
【0063】
例えばこのようなソフトウエア(アプリケーションプログラム)によって、図5のような機能構成が情報処理装置2のCPU71において構築される。
図5には情報処理装置2に設けられる機能として、UI(ユーザインタフェース)制御部31、通信制御部32、テキスト取得部33、データ管理部34、アップロード処理部35を示している。
【0064】
UI制御部31は、撮像装置1から転送されてくる画像ファイルPFや音声ファイルAFをユーザに提示し、また、各種情報の設定や編集等のためのユーザ操作を受け付けるUI処理を行う。
UI処理としては、ユーザに対する表示出力や音声出力等の出力を行ってユーザに操作入力環境を提供する処理、ユーザに対して各種情報の提示のための表示出力や音声出力を行う処理、ユーザによる操作を検知する処理、ユーザの意思を検知/推定する処理などがある。
UI制御部31は、例えばユーザに対する表示出力や音声出力等の出力を行ってユーザに操作入力環境を提供する処理を行う。
或いはUI制御部31は、例えばユーザによる操作を検知する処理を行う。
或いはUI制御部31は、例えばユーザに操作入力環境を提供する処理と、ユーザによる操作を検知する処理の両方を行う。
もちろんUI制御部31は他のUI処理を行ってもよい。
【0065】
本実施の形態の場合、UI制御部31は、音声ファイルAFのボイスメモをテキスト化したボイスメモテキストを、自動的に画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理をオン/オフすることのできるUI環境を提供する。
またUI制御部31は、ボイスメモテキストを画像データに対応するメタデータとする処理を行った後において画像データとメタデータを含む画像ファイルPFをFTPサーバ4にアップロードする処理を自動的に行うか否かを設定できるUI環境を提供する。又、その場合に音声ファイルAFをアップロードするか否かを設定できるようにもする。
またUI制御部31は、ボイスメモテキストを表示させたり音声再生させるUI環境を提供したりする。
【0066】
通信制御部32は、通信部80による通信動作を制御する機能である。
この通信制御部32は、撮像装置1との通信を通信部80に実行させる処理を行う。
【0067】
テキスト取得部33は、撮像装置1から音声ファイルAFが転送されてきた場合に、音声ファイルAFに含まれるボイスメモをテキスト化したボイスメモテキストを取得する処理を行う。
具体的にはテキスト取得部33は、テキスト変換エンジン83にテキスト化処理を実行させ、ボイスメモテキストを取得する。
或いはテキスト取得部33は、ボイスメモとしての音声データを通信部80からテキスト変換エンジン5に送信し、テキスト変換エンジン5から返信されてくるボイスメモテキストを取得する処理を行う。
【0068】
データ管理部34は、撮像装置1から送信される画像データを含む画像ファイルPF及び関連するボイスメモを含む音声ファイルAFを受信した後に、音声ファイルAFに含まれるボイスメモについてテキスト取得部33で取得したボイスメモテキストを、画像データに対応するメタデータとする処理を行う機能である。
またデータ管理部34は、撮像装置1から送信されてきた画像ファイルPFや音声ファイルAFの記憶、編集等の処理を行う。例えば画像データの編集、メタデータの付加(タグの付加)、各種動作設定に関する処理などを行う。
【0069】
アップロード処理部35は、通信部80を介したFTPサーバ4へのアップロード処理を行う機能である。
特にアップロード処理部35は、データ管理部34が音声ファイルAFについてのボイスメモテキストを画像データに対応するメタデータとする処理を行った後に、画像ファイルPF(画像データとメタデータ)をFTPサーバ4にアップロードする処理を行う。アップロード処理部35は、画像ファイルPFとともに音声ファイルAFをFTPサーバ4にアップロードする場合もある。
【0070】
以上の各機能は、例えば情報処理装置2が本開示の処理を実現するアプリケーションソフトウェアをインストールすることで具備される。
情報処理装置2は、以上の機能のうち少なくともテキスト取得部33とデータ管理部34を備えることで、転送されてきた音声データをテキスト化して画像データのメタデータとする処理が実行される機器となる。
【0071】
<4.ユーザインタフェース画面>
以下、情報処理装置2の表示部77におけるUI画面について説明する。以下の各画面はCPU71がUI制御部31の機能により表示部77において表示させる画面の例である。説明では、例えば情報処理装置2としてスマートフォンを想定し、その筐体上に形成されたディスプレイにおける表示内容を想定している。
【0072】
図6は画像一覧画面50を示している。
この画像一覧画面50は、撮像装置1から転送された画像ファイルPFの画像データがサムネイル画像により一覧表示される画面である。
【0073】
画像一覧画面50には画像一覧領域101が設けられ、この画像一覧領域101に撮像装置1から取り込んだ画像データのサムネイル画像103が一覧表示される。なお一覧表示する対象の画像は、取り込んだ全ての画像としたり、プロテクトされた画像のみとしたりするなどを選択できる。画像の数が多く一画面で表示しきれない場合は、スクロールやページ送りなどにより各画像(サムネイル画像103)が表示される。
【0074】
各サムネイル画像103に対応して画像情報104が表示される。画像情報104には例えば「DSC00000」などの画像データ名や、プロテクト状態を示すアイコン、FTPアップロードに関するアイコンなどが表示される。
【0075】
また一覧表示される画像データ(画像ファイルPF)の中にはボイスメモとしての音声ファイルAFが関連付けられているものもある。対応するボイスメモが存在する画像データについては、そのサムネイル画像103上にボイスメモマーク105が表示されるようにしている。
【0076】
画像一覧画面50にはメニューボタン102が表示される。ユーザがメニューボタン102をタップする等の操作を行うと、表示は後述するメニュー画面55に遷移する。
【0077】
画像一覧画面50に対してユーザは画像選択操作を行うことができる。例えばユーザはサムネイル画像103のタップ等の操作により特定の画像データを選択できる。
例えば特定の画像データの選択操作により、図7のようなキャプション編集画面52が表示される。
【0078】
キャプション編集画面52には、画像欄130、キャプション欄132、ボイスメモ欄133が設けられる。
【0079】
画像欄130には、サムネイル画像103と送りボタン107が表示される。表示されるサムネイル画像103は、ユーザが選択した画像データのサムネイル画像である。これにより表示されているキャプション編集画面52は、サムネイル画像103で表される画像データについてのキャプションの編集を行う画面であることが明確にされる。
【0080】
ユーザは、送りボタン107の操作により、画像一覧画面50で前後に配置される画像データへの選択状態に切り替えることができる。例えば送りボタン107を操作することで、キャプション編集画面52上でサムネイル画像103が切り替えられる。するとそのキャプション編集画面52は、当該新たなサムネイル画像103で表される画像データについてのキャプション編集を行う画面となる。
【0081】
またユーザは例えばピンチ操作やタップ操作などにより、サムネイル画像103で示される画像を図8の個別画像画面51により大きく表示させることができる。
個別画像画面51では、送りボタン107が表示されており、ユーザは、この送りボタン107の操作により、個別画像画面51の状態で前後の画像に表示を切り替えることができる。
またボイスメモが存在する画像データの場合は、個別画像画面51上でもボイスメモマーク105が表示される。
【0082】
図7のキャプション編集画面52のキャプション欄132には、上述のIPTCメタデータにおける「ディスクリプション/キャプション」の欄に記述されるキャプションデータの入力が可能とされる。
例えばユーザがキャプション欄132をタップするとキーボード表示(図示せず)が行われ、キーボードを用いた文字入力が可能となる。図では「コーヒー」という文字の入力がなされた状態を示している。このキャプション欄132を用いて入力されたキャプションデータは、当該画像データについてのIPTCメタデータのディスクリプション/キャプションの欄に記述されることになる。
【0083】
なお、既にキャプションデータが入力されている画像データ、つまりIPTCメタデータとしてキャプションデータが記述済の画像データについて、キャプション編集画面52が開かれた場合は、その入力済のキャプションデータがキャプション欄132に表示される状態となる。キャプションデータは例えば撮像装置1において付加することもできるため、撮像装置1で入力されたキャプションデータがキャプション欄132に表示される場合もあるし、過去にキャプション欄132で入力されIPTCメタデータに記述されたキャプションデータが表示される場合もある。
従ってユーザは、キャプション欄132を用いて、新規にキャプションデータを入力したり、過去に入力されたキャプションデータに対して追加、削除、修正等の編集を行ったりすることができる。
【0084】
キャプション編集画面52には、テンプレートボタン138やボイス入力ボタン139が設けられる。
ユーザはテンプレートボタン138を操作することで、キャプションのテンプレートを呼び出してキャプション欄132に表示させることができる。
またユーザはボイス入力ボタン139を操作することで、キャプションデータを音声により入力することができる。この場合に入力された音声のテキスト化は、ボイスメモのテキスト化と同様に行われれば良い。
【0085】
キャプション編集画面52のボイスメモ欄133にはボイスメモテキスト領域134が設けられ、ボイスメモテキストが表示される。即ち撮像装置1から音声データとして転送されてきたボイスメモがテキスト化され、ボイスメモ欄133に表示される。これによりユーザはキャプション編集画面52でボイスメモの内容を確認できる。
またボイスメモ欄133には、再生ボタン135、コピーボタン136、削除ボタン137が表示され、ボイスメモに関する操作が可能とされる。
【0086】
ユーザが再生ボタン135を操作すると、ボイスメモの音声再生が開始される。図9には音声再生が行われている状態の表示を示している。
例えば音声再生中はボイスメモテキスト領域134、再生ボタン135、コピーボタン136、削除ボタン137の表示に代えてシークバー160、現在タイム161、総再生長162、停止ボタン163、一時停止ボタン164が表示される。シークバー160や現在タイム161により音声再生の進行状況が示される。
また停止ボタン163や一時停止ボタン164により、ユーザが音声再生を停止させたり一時停止させたりすることができるようにされる。
【0087】
図7のキャプション編集画面52のボイスメモ欄133においてユーザが削除ボタン137を操作すると、ボイスメモの削除が行われる。
この場合、削除ボタン137の操作に応じては、例えば図10のように確認ダイアログ61が表示され、ユーザに削除の確認が求められる。確認ダイアログ61では、削除に関する注意喚起メッセージ167が表示されるとともに、OKボタン165,キャンセルボタン166が表示される。ユーザがOKボタン165を操作することで削除処理が実行される。ユーザがキャンセルボタン166を操作した場合は、削除処理は中止される。
【0088】
なお、ボイスメモの削除としては、次の例が考えられる。
画像データに対応するボイスメモが存在する場合には、ボイスメモテキストが得られている場合とテキスト化されていない場合がある。
音声データであるボイスメモが存在しボイスメモテキストが存在しない場合は、削除操作によってボイスメモ(音声ファイルAF)が削除されるようにすることが考えられる。
音声データであるボイスメモとボイスメモテキストが存在する場合、削除操作によっては、ボイスメモとボイスメモテキストの両方を削除するようにすること、ボイスメモのみを削除するようにすること、又はボイスメモテキストのみを削除するようにすること、がそれぞれ考えられる。もちろんボイスメモとボイスメモテキストについて個別に削除ボタンを設けるようにしてもよい。
【0089】
図7のキャプション編集画面52のボイスメモ欄133においてユーザがコピーボタン136を操作すると、ボイスメモテキスト領域134に表示されているボイスメモテキストがシステム上のクリップボード領域にコピーされる。この場合、例えば図11のようなコピーメッセージ168が表示されてユーザにコピーの旨が通知される。
ユーザは、クリップボード領域にコピーされたボイスメモテキストのテキストデータについては、所定の操作でキャプション欄132にペーストすることができる。つまりユーザはボイスメモテキストをコピー/ペースト操作により、キャプションデータとして使用することができる。
【0090】
またボイスメモテキストは、後述する自動キャプション付与の設定により自動的にキャプション欄132に挿入される場合もある。
例えば図12は、キャプション編集画面52が開かれた状態で、ボイスメモテキストとしてのテキストデータが、キャプションデータとして付加されている例を示している。この場合、「コーヒー」がキャプションデータとして先に入力されていたテキストで、その後に続く「ブラックコーヒーとは・・・ミルクなどを加えないコーヒーです」というテキストデータが、自動挿入されたボイスメモテキストである。
なお、このようにボイスメモテキストがキャプションデータに自動挿入される場合において、先にキャプションデータのテキストが存在している場合、ボイスメモテキストを、そのキャプションの前に挿入するか、後に挿入することが考えられる。自動挿入である場合は、既入力のキャプションの内容をわかりやすくするため、既入力のキャプションの後にボイスメモテキストを追加することが望ましい。
【0091】
なお図13図14は、スマートフォンである情報処理装置2を横向きにして使用する場合の表示例を示している。図13の表示内容は図7と同様であるが、横画面に対応した領域配置となる。
【0092】
また図14は、キャプション欄132への文字入力のためのキーボード169が表示された状態を示している。この場合、画像欄130、ボイスメモ欄133、キャプション欄132が全体的に上方にずれるようにされ、キーボード169が表示されてもキャプション欄132が視認できる状態とされている。
【0093】
なお、図7図9図12図13図14に示すように、キャプション編集画面52には戻るボタン106が設けられている。戻るボタン106が操作されることで、例えば画像一覧画面50に戻る。
【0094】
続いてボイスメモの処理やアップロードに関する設定のためのインタフェース画面を説明する。
例えば図6の画像一覧画面50におけるメニューボタン102を操作すると、図15のメニュー画面55が表示される。
メニュー画面55にはメニュー画面55を閉じるための閉じるボタン109が設けられている。
【0095】
メニュー画面55には、メニュー項目として、FTPアップロードプリセット項目141、IPTCメタデータプリセット項目142、キャプションテンプレート項目143、キャプション用語集項目144、FTP取り込み履歴項目145、取り込み項目146、設定項目147、ボイスメモ自動キャプション付与項目148、サポートページ項目149、MACアドレス確認項目150、データ削除項目151、アカウント項目152が設けられている。もちろんこれらは一例に過ぎず、メニュー項目の内容は多様な例が考えられる。また項目数がさらに多くてもよいし、階層化されても良い。項目数が多い場合はスクロールやページ送りにより各項目が表示される。
【0096】
ここでは本実施の形態の処理に関連する項目として設定項目147とボイスメモ自動キャプション付与項目148からの操作について説明する。
ボイスメモ自動キャプション付与項目148は、ボイスメモをテキスト化した場合に、そのボイスメモテキストを自動的にキャプションデータに付加するか否かをユーザが選択できるようにした項目である。
【0097】
ユーザがボイスメモ自動キャプション付与項目148を操作すると図16のボイスメモ自動キャプション付与設定画面53が表示される。ボイスメモ自動キャプション付与設定画面53には設定スイッチ170が表示され、これによってユーザはボイスメモ自動キャプション付与機能のオン/オフを設定できる。
設定スイッチ170がオンとされると、ボイスメモテキストが得られた場合に、図12に示したように、自動的にそのボイスメモテキストがキャプションデータに挿入される。
設定スイッチ170がオフとされると、そのような自動挿入が行われない。
【0098】
ボイスメモ自動キャプション付与設定画面53には戻るボタン106が設けられ、戻るボタン106が操作されると図15のメニュー画面55に戻る。設定ボタン170のオン/オフ状態は、戻るボタン106が操作されたときの状態で有効化される。
【0099】
また図15のメニュー画面55において、ユーザが設定項目147を操作すると図17の設定画面56が表示される。設定画面56には設定項目として、キャプション用語集の同期項目201、取り込み項目202、メタデータ編集項目203、自動FTPアップロード項目204が表示される。もちろんこれは一例である。
この設定画面56でユーザが自動FTPアップロード項目204を操作すると、図18の自動アップロード設定画面57が表示される。
【0100】
自動アップロード設定画面57には設定スイッチ171が表示され、これによってユーザは自動アップロードをオン/オフを設定できる。
自動アップロード機能とは、撮像装置1から画像ファイルPFが転送されてきた際に、設定されているFTPサーバ4に対して自動的にアップロードを行う機能である。
この図18は、設定スイッチ171がオフの状態にある場合を示している。
ユーザが設定スイッチ171をオンに操作すると、図19のように自動アップロードの設定のための表示が行われる。即ちアップロード先表示欄175が表示され、またボイスメモ添付に関する設定スイッチ172や、JPEG画質に関する設定スイッチ173が表示される。
【0101】
図19ではアップロード先表示欄175には、まだアップロード先が指定されていないことが示されている。ユーザが、アップロード先を指定する操作を行うことで、図20のようにアップロード先が、例えばユーザがFTP設定の際に付与した名称「XYZ」などにより表示される。
【0102】
ボイスメモ添付に関する設定スイッチ172により、ユーザは自動アップロードの際に、ボイスメモとしての音声ファイルAFを画像ファイルPFと共にアップロードする否かを設定することができる。例えば図20のように設定スイッチ172をオンとすると、自動アップロード処理が行われる際、音声ファイルAFもアップロード対象とされる。
【0103】
JPEG画質に関する設定スイッチ173により、ユーザはアップロードする画像データの圧縮率や画サイズを設定することができる。
設定スイッチ173をオンとすると、図20のように圧縮率設定バー176や長辺ピクセル設定部177及び設定スイッチ174が表示される。
ユーザは圧縮率設定バー176を操作して圧縮率を指定することができる。また設定スイッチ174により長辺のピクセル数の設定を行うことができる。
【0104】
以上の自動アップロード設定画面57におけるユーザ操作は、戻るボタン106が操作されて図17の設定画面56に戻ることで有効化される。
なお設定画面56において戻るボタン106が操作されると図15のメニュー画面に戻る。
【0105】
<5.画像取り込み時の処理例>
以上の画面表示を伴う情報処理装置2の処理例として、まず撮像装置1から画像ファイルPFの取り込み時の処理例を図21図22図23で説明する。
なお以下説明する各処理例はCPU71において、アプリケーションソフトウェアによって実現される図5で説明した機能により実行される処理となる。
【0106】
図21図22は一連のフローチャートを分けて示したもので、「c1」で接続関係を示している。
図21のステップS101でCPU71は、撮像装置1から画像ファイルPFの取り込み処理を行う。
撮像装置1からの画像ファイルPFの取り込み処理は、例えば情報処理装置2と撮像装置1の間の通信により行われるが、例えばユーザが情報処理装置2側、或いは撮像装置1側で所定の操作を行うことで、画像ファイルPFの転送が開始される。
撮像装置1は転送するものとして選択された画像ファイルPFをFTP通信により情報処理装置2に転送する処理を行う。またこの場合、画像ファイルPFに関連付けられたボイスメモを含む音声ファイルAFが存在する場合、その音声ファイルAFも情報処理装置2に転送する。
情報処理装置2側では、CPU71はステップS101の処理として、順次転送されてくる画像ファイルPF及び音声ファイルAFの取り込み処理を行うことになる。
【0107】
ここで、撮像装置1と情報処理装置2の間では、画像ファイルPFと関連付けられた音声ファイルAFが存在する場合は、音声ファイルAFを先に送信し、その後に画像ファイルPFを送信するという規則を決めておく。
これによりCPU71は、1つの音声ファイルAFを受信した場合は、その音声ファイルAFは次に受信される画像ファイルPFに関連付けられたものであると判定することができる。ステップS102では、CPU71は、このような規則に則って、受信した音声ファイルAFを受信した画像ファイルPFに紐づけて管理する処理を行う。
なお、これ以外に、例えば画像ファイルPFのメタデータに、関連付けられた音声ファイルAFを特定する情報が含まれるようにしておくことも考えられる。ステップS102では、メタデータを参照して、受信した音声ファイルAFを受信した画像ファイルPFに紐づけて管理する処理を行うようにしてもよい。
【0108】
1又は複数の画像ファイルPFの取り込みが完了したら、CPU71はステップS103からステップS110に進み、取り込んだ画像ファイルPFについて、音声ファイルAFが関連付けられているものがあるか否かを判定する。
取り込んだファイルが全て画像ファイルPFのみであり、音声ファイルAFが存在しない場合は、CPU71はステップS110から図22のステップS120に進む。
【0109】
一方、1つでも音声ファイルAFが関連付けられた画像ファイルPFが存在した場合、CPU71は図21のステップS110からステップS111に進む。
ステップS111でCPU71は、今回取り込んだ画像ファイルPFのうちで、音声ファイルAFが関連付けられた1又は複数の画像ファイルPFのうちの1つを処理対象として選択する。
【0110】
そしてステップS112でCPU71は、処理対象とした画像ファイルPFに関連付けられた音声ファイルAFのボイスメモを対象として、テキスト化処理を行う。例えばボイスメモとしての音声データをテキスト変換エンジン5に送信し、テキスト化されたデータを受信する。或いは、情報処理装置2にテキスト変換エンジン83が搭載されている場合は、テキスト変換エンジン83によりテキスト化処理を行ってもよい。
【0111】
テキスト化が正常に行われボイスメモテキストが取得できた場合、CPU71はステップS113からステップS114に進み、そのボイスメモテキストを、処理対象の画像ファイルPFに対応するボイスメモテキストとして例えば記憶部79に保存する処理を行う。
【0112】
ステップS115でCPU71は、自動キャプション付与機能がオンとされているか否かを確認する。即ち図16のボイスメモ自動キャプション付与設定画面53によりユーザが任意にオン/オフを設定できる機能である。
自動キャプション付与機能がオンでなければCPU71はステップS117に進む。
【0113】
自動キャプション付与機能がオンであれば、CPU71はステップS116に進み、ボイスメモテキストをキャプションデータに挿入する処理を行う。即ちIPTCメタデータにおけるディスクリプション/キャプションフィールドにボイスメモテキストを書き込む処理を行う。前述したように、ディスクリプション/キャプションフィールドに既にキャプションデータが書き込まれている場合は、CPU71は、その後に続けてボイスメモテキストを書き込むようにする。
CPU71は、このような自動キャプション付与の処理を行った上でステップS117に進む。
【0114】
ステップS112のテキスト化が正常に行われなかった場合、例えば処理エラーや通信エラー等により、ボイスメモテキストが取得できなかった場合は、CPU71はステップS113からステップS117に進む。この場合、特にテキスト化処理のリトライは行わないことで、転送時の処理が長引くことを回避している。後述のように他にもテキスト化の機会はあるためである。但しもちろん所定回数のテキスト化処理のリトライを行うようにしてもよい。
【0115】
或る画像ファイルPFについて、以上のテキスト化処理やボイスメモ自動キャプション付与等の処理を行ってステップS117に進んだ場合、或いはテキスト化が正常完了せずにステップS117に進んだ場合、CPU71は、他に同様の処理を行うべき画像ファイルPFが残っているか否かを確認し、残っていればステップS111に戻って、その1つを処理対象とし、上記同様の処理を行う。
音声ファイルAFが関連付けられた全ての画像ファイルPFについて少なくとも1回はステップS112のテキスト化処理を実行することで、ステップS117で全てのテキスト化終了と判定し、図22のステップS120に進む。
【0116】
ステップS120でCPU71は、自動アップロード機能がオンとされているか否かを確認する。即ち図18図19図20に示した自動アップロード設定画面57でユーザが任意にオン/オフを設定できる機能である。
自動アップロード機能がオンでなければCPU71はステップS120から画像取り込み時の一連の処理を終える。
【0117】
自動アップロード機能がオンであるときは、CPU71はステップS120からステップS121に進み、アップロードファイルの準備処理を行う。
このアップロードファイルの準備処理を図23に詳しく示す。
【0118】
図23のステップS141でCPU71は、アップロード対象とする画像ファイルPFの1つを特定する。これは今回撮像装置1から転送されてきた画像ファイルPFのうちの1つを準備処理の対象とするという意味である。
1つの画像ファイルPFを処理対象としたら、CPU71はステップS142で画サイズ指定がされているか否かを確認する。これはユーザが図20の自動アップロード設定画面57における長辺ピクセル設定部177及び設定スイッチ174で設定した内容を確認することになる。画サイズ指定がされていればCPU71はステップS143でそれを反映するピクセル数の変換処理を行う。
【0119】
ステップS144でCPU71は、圧縮率の指定がされているか否かを確認する。これは図20の自動アップロード設定画面57における圧縮率設定バー176による圧縮率の指定状態を確認することになる。圧縮率が指定されて圧縮が行われる設定とされているときは、CPU71はステップS145で、指定の圧縮率による圧縮処理を行う。
【0120】
ステップS146でCPU71は、音声ファイルAFの添付有無を確認する。即ち図20の設定スイッチ172のオン/オフによる、ユーザのボイスメモについてのアップロード有無の設定を確認することになる。
音声ファイルAFのアップロードが選択されている場合は、CPU71はステップS147に進み、現在処理対象としている画像ファイルPFについて関連付けられた音声ファイルAFが存在するか否かを確認する。関連する音声ファイルAFが存在する場合は、CPU71はステップS149に進み、現在の処理対象の画像ファイルPF(画像データとメタデータ)、及び音声ファイルAFを、アップロードするファイルとしてセットする。
【0121】
ステップS146で、ユーザによる設定として音声ファイルAFのアップロードが選択されていないことが確認された場合、或いはステップS147で現在処理対象としている画像ファイルPFについて関連付けられた音声ファイルAFが存在しない場合は、CPU71はステップS148に進み、現在の処理対象の画像ファイルPF(画像データとメタデータ)を、アップロードするファイルとしてセットする。
【0122】
ステップS150では、今回撮像装置1から取り込んだ全ての画像ファイルPFについて、以上の準備処理が完了したか否かを確認する。残りの画像ファイルPFが存在する場合は、CPU71はステップS141に戻り、残りの画像ファイルPFの1つを処理対象として特定し、同様の処理を行う。
今回撮像装置1から取り込んだ全ての画像ファイルPFについて、以上の準備処理が完了したら、ステップS150で全てのアップロードファイル画像について準備ができたとして、図23のアップロードファイル準備処理を終える。そしてCPU71は、図22のステップS122に進む。
【0123】
ステップS122でCPU71は、自動アップロード設定により指定されたFTPサーバ4に対するFTP接続及びログインの処理を行う。
そしてログインが完了したら、CPU71はステップS123からステップS130に進みFTPアップロード処理を実行する。即ちアップロードファイルの準備処理でアップロードするものとしてセットした画像ファイルPFや音声ファイルAFを、順次FTP送信していく処理を行う。
【0124】
なおFTPサーバ4と通信ができなかった場合、或いは通信できてもログインできなかった場合は、CPU71はエラーとしてステップS124からステップS125に進み、所定のエラー処理を行う。例えばユーザに自動アップロード処理のエラーを通知する。そして、撮像装置1からの画像ファイルPFの取り込み時の一連の処理を終える。
【0125】
ステップS130でのFTPアップロードが正常完了した場合は、CPU71はステップS131からステップS133に進み、ユーザに完了通知を行って一連の処理を終える。この場合、撮像装置1からの画像ファイルPFの取り込みの際に、FTPサーバ4へのアップロードまでが自動的に行われたことになる。
さらにボイスメモ自動キャプション付与機能がオンであれば、そのアップロードされる画像ファイルPFにおいては、関連付けられた音声ファイルAFのボイスメモがテキスト化されたボイスメモテキストが、IPTCメタデータに付加されたものとなっていることになる。
【0126】
FTPサーバ4へのアップロード処理においてエラーが生じ、正常完了できなかった場合は、CPU71はステップS132からステップS134に進み、所定のエラー処理を行う。例えばユーザに自動アップロード処理のエラーを通知する。そして、撮像装置1からの画像ファイルPFの取り込み時の一連の処理を終える。
【0127】
<6.テキスト化及びキャプション編集を含む処理例>
続いて図6の画像一覧画面50が表示された状態から図7等のキャプション編集画面52に遷移した場合の処理例について、図24図25図26で説明する。
なお図24図25図26は一連のフローチャートを分けて示したもので、「c2」「c3」「c4」「c5」で接続関係を示している。
【0128】
図24のステップS201は、CPU71が画像一覧画面50を表示させている状態とする。
上述のように画像一覧画面50においてユーザがある画像を指定する操作を行うと、その画像データについてのキャプション編集画面52を表示させる。このとき、まだ当該指定された画像データ(画像ファイルPF)についてはボイスメモのテキスト化が未実行であれば、この機会にテキスト化を行うようにしている。
【0129】
画像一覧画面50においてユーザによる画像指定操作を検知したら、CPU71はステップS202からステップS203に進む。
ステップS203でCPU71は、当該指定された画像データ(画像ファイルPF)について関連付けられた音声ファイルAFが存在するか否かを確認する。
関連付けられた音声ファイルAFが存在しなければステップS220に進み、CPU71は当該指定された画像データについてのキャプション編集画面52を表示させる。この場合は、ボイスメモが存在しないため、キャプション編集画面52においてボイスメモ欄133は表示させなくてもよい。
【0130】
関連付けられた音声ファイルAFが存在する場合は、CPU71はステップS204に進み、既にボイスメモのテキスト化が行われてボイスメモテキストが記憶されているか否かを確認する。既に記憶されていればステップS220に進み、CPU71は当該指定された画像データについてのキャプション編集画面52を表示させる。この場合は、図7のようにボイスメモテキスト領域134にボイスメモテキストを表示したボイスメモ欄133が表示されることになる。また自動キャプション付与機能がオンとされてボイスメモテキストがキャプションデータに挿入されているのであれば、図11のように、キャプション欄132におけるキャプションデータにもボイスメモテキストが追加されている状態となる。
【0131】
ボイスメモが存在するが未テキスト化と判定した場合、CPU71はステップS205に進み、指定された画像ファイルPFに関連付けられた音声ファイルAFのボイスメモを対象として、テキスト化処理を行う。例えばボイスメモとしての音声データをテキスト変換エンジン5に送信し、テキスト化されたデータを受信する。或いは、情報処理装置2にテキスト変換エンジン83が搭載されている場合は、テキスト変換エンジン83によりテキスト化処理を行ってもよい。
【0132】
テキスト化が正常に行われボイスメモテキストが取得できた場合、CPU71はステップS206からステップS207に進み、そのボイスメモテキストを、処理対象の画像ファイルPFに対応するボイスメモテキストとして例えば記憶部79に保存する処理を行う。
【0133】
ステップS208でCPU71は、自動キャプション付与機能がオンとされているか否かを確認する。即ち図16のボイスメモ自動キャプション付与設定画面53によりユーザが任意にオン/オフを設定できる機能である。
自動キャプション付与機能がオンでなければCPU71はステップS220に進む。この場合、キャプション編集画面52では図7のようにボイスメモ欄133が表示され、キャプション欄132では、その時点までに入力されているキャプションデータが表示される。
【0134】
一方、自動キャプション付与機能がオンであれば、CPU71はステップS209に進み、ボイスメモテキストをキャプションデータに挿入する処理を行う。即ちIPTCメタデータにおけるディスクリプション/キャプションフィールドにボイスメモテキストを書き込む処理を行う。前述したように、ディスクリプション/キャプションフィールドに既にキャプションデータが書き込まれている場合は、CPU71は、その後に続けてボイスメモテキストを書き込むようにする。
CPU71は、このような自動キャプション付与の処理を行った上でステップS220に進む。この場合、キャプション編集画面52は図11のように、キャプション欄132におけるキャプションデータにもボイスメモテキストが追加されている状態となる。
【0135】
ステップS205のテキスト化が正常に行われなかった場合、CPU71はステップS206からステップS220に進む。この場合は、ボイスメモがテキスト化できていないため、キャプション編集画面52においてボイスメモ欄133を表示させないことが考えられる。但しボイスメモマーク105により、ユーザにボイスメモの存在を明示することが考えられる。
【0136】
キャプション編集画面52を表示させた状態で、CPU71の処理は図25のステップS221に進む。CPU71は、キャプション編集画面52上での各種のユーザ操作を監視する。即ちステップS221,S222,S223,S224,S225,図26のステップS226,S227,S228,S229のループで各操作を監視する。
【0137】
図25のステップS221ではCPU71は、戻るボタン106による画面遷移、即ち画像一覧画面50への遷移の操作を監視する。この操作を検知した場合は、CPU71はステップS240でキャプションの保存処理を行って図24のステップS201に戻る。つまりその時点でキャプション欄132に表示されているキャプションデータがIPTCメタデータにおけるディスクリプション/キャプションフィールドのデータとして保存される。
【0138】
CPU71はステップS222で、キャプション入力に関する操作を監視する。文字入力或いはボイス入力、或いはテンプレート要求など、キャプション入力に関連する操作に応じてCPU71はステップS241で対応処理を行う。
即ちユーザ操作のテンプレートボタン138の操作に応じたテンプレートの呼び出し及び表示、ユーザのキャプション欄132上のタップ操作等に応じたキーボード169の表示、キーボード169の操作に応じたキャプション欄132への文字入力等を行う。またユーザのボイス入力ボタン139の操作に応じた音声入力処理を行う場合もある。
CPU71は、このようなキャプション入力対応処理を逐次ステップS241で行いながら、他の操作の監視も継続する。
【0139】
CPU71はステップS223でユーザの再生ボタン135の操作を監視する。再生ボタン135の操作を検知した場合、CPU71はステップS242に進み、ボイスメモ欄133を、図9のように、シークバー160、現在タイム161、総再生長162、停止ボタン163、一時停止ボタン164等の再生時の表示状態とするとともに、音声再生を開始させる制御を行う。
【0140】
CPU71はステップS224でユーザの一時停止ボタン164の操作を監視する。一時停止ボタン164の操作を検知した場合、CPU71はステップS243に進み、音声再生を一時停止させる制御を行う。なお図示していないが、この場合、一時停止ボタン164は再生ボタン135の表示に切り替える。
【0141】
CPU71はステップS225でユーザの停止ボタン163の操作を監視する。停止ボタン163の操作を検知した場合、CPU71はステップS244に進み、音声再生を停止させる制御を行う。この場合、ボイスメモ欄133の表示は図7の状態に戻すようにする。
【0142】
CPU71は図26のステップS226でユーザのコピーボタン136の操作を監視する。コピーボタン136の操作を検知した場合、CPU71はステップS245に進み、クリップボードにボイスメモテキストをコピーする処理を行う。そしてステップS246でCPU71は、図11のコピーメッセージ168の表示を所定時間、或いは次のユーザ操作の検知時点まで行う。
なお、クリップボードにコピーされたボイスメモテキストについては、その後CPU71がステップS222でペースト操作を検知した場合に、ステップS241でキャプションデータとしてペーストされることになる。
【0143】
CPU71はステップS227でユーザの削除ボタン137の操作を監視する。削除ボタン137の操作を検知した場合、CPU71はステップS247に進み、図10の確認ダイアログ61を表示させる。ユーザがOKボタン165を操作したら、CPU71はステップS248からステップS250に進み、ボイスメモに関する削除処理を行う。確認ダイアログ61に対してユーザがキャンセルボタン166を操作した場合は、CPU71は削除処理を実行せず、ステップS248からステップS228に進み、ユーザ操作の監視に戻る。
【0144】
CPU71はステップS228で、画像拡大操作を監視する。例えばサムネイル画像103に対するピンチ操作やダブルタップなどとして画像拡大操作が行われたら、図8の個別画像画面51の表示を行う。
フローチャートでの図示は省略するが、個別画像画面51に遷移した後は、所定の操作に応じて異なる画像が選択されたり、画像一覧画面50に戻ったり、キャプション編集画面52に遷移するようにされる。
【0145】
CPU71はステップS229で、他の画像の選択操作を監視する。即ちキャプション編集画面52における送りボタン107の操作を監視する。送りボタン107の操作を検知したら、CPU71は図24のステップS203に進む。つまり前又は後の画像が新たに指定されたとして、その指定された画像データについてのステップS203からステップS209の処理を上記同様に行い、ステップS220で、その画像データについてのキャプション編集画面52の表示を行う。
【0146】
以上のように1つの画像データが指定されるときに、テキスト化処理や自動キャプション付与機能の処理が行われる場合がある。またキャプション編集画面52においてはボイスメモテキストの表示、再生、削除、コピー、キャプションデータへのペースト、手動や音声によるキャプション入力などが可能とされる。
【0147】
<7.アップロード時の処理例>
FTPサーバ4へのアップロード時の処理を図27に示す。例えばユーザによってアップロードする画像ファイルPFやアップロード先のFTPサーバ4が指定され、アップロード実行の指示が行われることにより、図27のアップロード処理が開始される。
【0148】
CPU71はステップS301でアップロードファイルの準備処理を行う。これは上述した図23と同様の処理となる。
CPU71はステップS322で、ユーザが指定したアップロード先のFTPサーバ4に対するFTP接続及びログインの処理を行う。
そしてログインが完了したら、CPU71はステップS323からステップS330に進みFTPアップロード処理を実行する。即ちアップロードファイルの準備処理でアップロードするものとしてセットした画像ファイルPFや音声ファイルAFを、順次FTP送信していく処理を行う。
【0149】
なおFTPサーバ4と通信ができなかった場合、或いは通信できてもログインできなかった場合は、CPU71はエラーとしてステップS324からステップS325に進み、所定のエラー処理を行う。例えばユーザにアップロード処理のエラーを通知する。そしてアップロード処理をエラー終了とする。
【0150】
ステップS330でのFTPアップロードが正常完了した場合は、CPU71はステップS331からステップS333に進み、ユーザに完了通知を行ってアップロード処理を終える。
アップロードされた画像ファイルPFにおいては、ボイスメモテキストが、自動キャプション付与機能により、もしくはユーザのコピー/ペースト操作により、IPTCメタデータにおけるキャプションデータとして反映される状態となっていることが想定される。
またユーザの設定に応じて音声ファイルAFが共にアップロードされる場合も想定される。
【0151】
FTPサーバ4へのアップロード処理においてエラーが生じ、正常完了できなかった場合は、CPU71はステップS332からステップS334に進み、所定のエラー処理を行う。例えばユーザにアップロード処理のエラーを通知する。そしてアップロード処理をエラー終了とする。
【0152】
<8.まとめ及び変形例>
以上の実施の形態では次のような効果が得られる。
実施の形態の情報処理装置2は、ボイスメモとしての音声データをテキスト化したテキストデータであるボイスメモテキストを取得するテキスト取得部33を備える。また情報処理装置2は、撮像装置1から送信される画像データ(画像ファイルPF)及び該画像データに関連する音声データ(音声ファイルAF)を受信した後に、その音声データについてテキスト取得部33で取得したボイスメモテキストを、画像データに対応するIPTCメタデータとする処理を行うデータ管理部34を備える。
これにより撮像画像に対応づけるボイスメモとして、カメラマン等が音声で入力した情報を画像データに対応するメタデータにテキストとして含めることができ、ボイスメモの内容を極めて利用し易くすることができる。
例えばFTPサーバ4にアップロードした後に、画像を確認する人は、テキストによりボイスメモの内容を確認できるため、ボイスメモ音声を聞かなくとも、カメラマンによる注釈等を知ることができる。
またこれにより、音声データであるボイスメモがなくとも、ボイスメモの内容を伝えることができるため、例えばFTPサーバ4にアップロードする場合にボイスメモの送信を行わないようにして通信量を削減しつつボイスメモの内容は伝えるということも可能となる。
なおメタデータの例としてIPTCメタデータを挙げたが、もちろんこれに限らない。画像データに付加されるメタデータとしては、いかなるデータ形式のメタデータでもよく、そのようなメタデータにボイスメモテキストの全部又は一部が反映されるようにすればよい。
【0153】
実施の形態では、テキスト取得部33が、撮像装置1からの画像データ及び該画像データに関連する音声データを受信することに応じて、音声データをテキスト化したテキストデータを取得する処理を行う例を挙げた(図21のステップS112参照)。
例えば撮像装置1から画像データと音声データが転送された場合に、その画像データと音声データを受信したことをトリガとして、特にユーザ操作がなくともテキスト化処理を行う。
これにより転送後に情報処理装置2のユーザの操作にかかわらず、ボイスメモの内容をテキストデータで提示できる状態とすることができる。ユーザは、音声再生を行わなくとも各撮像画像のボイスメモの内容を確認できる。
なお図21の処理では、転送時のテキスト化処理においてエラーとなってもリトライしない例とした。これはその後、図24のステップS205のようにテキスト化処理の機会があることや、もし画像を開かない場合は、情報処理装置2においてテキスト表示の機会が生じないことなどの事情を考えて、転送時の処理を簡易化する効果を想定するものである。
【0154】
実施の形態では、テキスト取得部33が、画像データを指定する操作に応じて、前記音声データをテキスト化したテキストデータを取得する処理を行う例を挙げた(図24のステップS205参照)。
例えば情報処理装置2において撮像装置1から取り込んだ画像データを指定する操作が行われたことをトリガとしてテキスト化処理を行う。
情報処理装置2に取り込んだ画像を指定する操作によっては、その画像データに関する何らかの処理、例えばキャプション編集等が行われる場合であるため、このときにテキスト化が行われるようにすれば、ユーザにボイスメモの内容をテキストデータで提示できる状態とすることができる。ユーザは、音声再生を行わなくとも各撮像画像のボイスメモの内容を確認できる。
【0155】
実施の形態では、データ管理部34は、画像データと音声データの受信順序に応じて、画像データに関連付けられる音声データを判別する例を挙げた(図21のステップS102)。
例えば画像データについてボイスメモが存在する場合は、撮像装置1がボイスメモとしての音声ファイルAFを画像データとメタデータを含む画像ファイルPFより先に送信することと決めておく。これにより情報処理装置2は、音声ファイルAFを受信した場合、それがその次に受信する画像ファイルPFに対応づけられたボイスメモの音声ファイルAFであると判定できる。これにより、特に対応付けの情報の確認等を行わなくとも画像ファイルPFと音声ファイルAFを関連付けて管理することができる。
【0156】
実施の形態では、データ管理部34が、画像データに付加されたメタデータにより、該画像データに関連付けられる音声データを判別する例を述べた。
例えば画像データについてボイスメモが存在する場合は、撮像装置1がメタデータに関連付けられたボイスメモとしての音声ファイルAFを特定するための情報を記述しておく。これにより情報処理装置2は、転送された画像ファイルPFと音声ファイルAFを関連付けて管理することができる。
【0157】
実施の形態では、データ管理部34は、音声データについてのテキストデータを、関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行う例を挙げた。
例えばIPTCメタデータにおけるディスクリプション/キャプションフィールドにボイスメモの内容をテキスト化したテキストデータを記述するようにする。
これは例えばユーザのコピー/ペースト操作により実行したり(図25のステップS241)、テキスト化に応じて自動的に行ったりする(図21のステップS116、図24のステップS209)。
これにより撮像画像に対するキャプションの一部又は全部としてテキストデータを活用できる。ボイスメモの内容がそのまま追加したいキャプションの内容となっていれば、ユーザにとっては、例えばキャプション編集画面52でコピー/ペースト操作などで簡易にキャプション入力が完了できる。或いはユーザがキャプション入力を行わなくとも既にキャプションが入力されている状態とすることができる。これらによりFTPサーバ4へのアップロードまでのキャプション入力が面倒なものとならないようにすることができる。
【0158】
実施の形態では、データ管理部34は、音声データについてのテキストデータが取得されたことに応じて自動的に、該テキストデータを関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行う例を挙げた。
例えばIPTCメタデータにおけるディスクリプション/キャプションフィールドにボイスメモの内容をテキスト化したテキストデータを自動的に記述するようにする(図21のステップS116、図24のステップS209)。
これによりユーザにとっては、例えばキャプション編集画面52によるキャプション入力を不要にでき、或いはわずかな追加入力を行う程度にすることができる。
また自動アップロードを考えると、テキストデータが自動的にIPTCメタデータにおけるキャプションのデータとされることは、FTPサーバ4側でも、キャプションデータによりボイスメモの内容を確認できることになり、画像に関する情報をカメラマンからFTPサーバ4側のスタッフに伝えるためには極めて便利なものとなる。
【0159】
実施の形態では、データ管理部34は、テキストデータを、既に入力されているキャプションデータの後に追加する例を挙げた。
IPTCメタデータにおけるディスクリプション/キャプションフィールドに自動的にテキストデータを追加する場合に、既に存在するキャプションデータの末尾以降に記述することで、既に存在するキャプションデータを無駄にしないようにできる。
【0160】
実施の形態では、UI制御部31は、音声データをテキスト化したテキストデータを、自動的に画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理をオン/オフすることのできるユーザインタフェース環境を提供する例を挙げた。
ユーザは使用事情に応じて、図16のボイスメモ自動キャプション付与のオン/オフ操作により、テキストデータの自動的なキャプションへの追加を行うか否かを任意に設定できることになる。従ってボイスメモの使用目的などに合わせて使い分けることができる。例えばボイスメモの内容はカメラマンの個人的なメモにしたい場合など、キャプションデータに含ませないことが可能になる。
【0161】
実施の形態では、データ管理部34が音声データについてテキスト取得部で取得したテキストデータを画像データに対応するメタデータとする処理を行った後に、画像データとメタデータをFTPサーバ4にアップロードする処理を行うアップロード処理部35を備えるものとした。
図22(及び図23)の処理、或いは図26(及び図23)の処理としてアップロードが行われるが、この場合にボイスメモをテキスト化したテキストデータがアップロードする画像ファイルに含まれることになる。従ってFTPサーバ4側でアップロードされた画像ファイルを確認する人は、テキストによりボイスメモの内容を確認でき、ボイスメモ音声を聞かなくとも、カメラマンによる注釈等を知ることができる。
【0162】
実施の形態では、アップロード処理部35は、画像データとメタデータに加えて音声データもFTPサーバ4にアップロードする処理を行う場合があるとした。
図23のアップロードファイルの準備処理において、ステップS149では音声ファイルもアップロード対象とされる。これによりボイスメモ自体もアップロードされるため、ボイスメモをFTPサーバ4側で利用したい場合に便利なものとなる。
【0163】
実施の形態では、アップロード処理部35は、データ管理部34が音声データについてテキスト取得部33で取得したテキストデータを画像データに対応するメタデータとする処理を行った後に、画像データとメタデータを自動的にFTPサーバ4にアップロードする処理を行う場合があるとした。
例えば図22のステップS121以降の処理で自動アップロード処理が行われる。これにより、ユーザにとっては撮像装置からの画像ファイル等の転送からFTPサーバ4へのアップロードまでを、殆ど手間なく完了させることができる。またその場合、ボイスメモをテキスト化したテキストデータもアップロードされることになるため、ボイスメモの内容をアップロード先で有効活用できることになる。
【0164】
実施の形態では、UI制御部31が、ボイスメモテキストがメタデータに付加された後に画像データとメタデータをFTPサーバ4にアップロードする処理を自動的に行うか否かを設定できるユーザインタフェース環境を提供する例を挙げた。
ユーザは使用事情に応じて、図19の自動FTPアップロード画面で自動アップロードを行うか否かを任意に設定できる。そして例えば図22のステップS120で自動FTPアップロードの機能がオンとされている場合に、ステップS121以降の処理で自動アップロード処理が行われるようにしている。
これによりユーザは使用事情に応じて、自動アップロードを実行させることができる。例えばキャプション編集等を追加で行いたいような場合は、自動アップロードをオフにすればよい。
【0165】
実施の形態では、UI制御部31は、さらに音声データをアップロードするか否かを設定できるユーザインタフェース環境を提供するものとした。
ユーザは使用事情に応じて、図20の自動FTPアップロード画面でボイスメモとしての音声データである音声ファイルAFをアップロードするか否かを任意に設定できる。そして例えば図23のステップS146では、その設定を確認して音声ファイルAFがアップロード対象とされるか否かが決定される。
これによりユーザは使用事情に応じて、音声ファイルAFの扱いを設定できる。例えばボイスメモは個人的なメモとして使用したい場合は、ボイスメモがアップロードされないようにすればよい。逆にボイスメモをアップロード先への通知等として使用した場合は、アップロード対象となるように設定すれば良い。
【0166】
実施の形態では、UI制御部31は、撮像装置1から送信される画像データ及び該画像データに関連する音声データを受信した後に、ボイスメモテキストを表示させる例を挙げた。
例えばUI制御部31は、図7のキャプション編集画面52において、ボイスメモ欄133のボイスメモテキスト領域134にはボイスメモテキストを表示させる。
これによりユーザはボイスメモの内容を、音声再生させずに確認できることになり、アップロードまでの作業の効率化が実現される。
【0167】
実施の形態のUI制御部31は、音声データについて音声再生を実行させるユーザインタフェース環境を提供する例とした。
例えばUI制御部31は、図7のキャプション編集画面52において、ボイスメモ欄133には再生ボタン135を表示させ、ユーザの再生操作を可能とする。そして再生操作に応じて図9の状態で音声再生を実行させる(図25のステップS242)。
これによりユーザはボイスメモの内容を音声で確認できる。仮にテキスト化ができない場合にもボイスメモの内容を確認できることになる。
【0168】
実施の形態では情報処理装置2については多様な機器が想定されるが、特にはスマートフォンやタブレット機器などの携帯端末装置であることが望ましい。
情報処理装置2がスマートフォンやタブレット機器などの携帯端末装置であることで、カメラマンはイベント会場、取材現場等で、情報処理装置2を用いてFTP設定情報を撮像装置1に転送し、撮像装置1からFTPサーバ4にアップロードする環境を容易に構築できることになる。
【0169】
また実施の形態では、情報処理装置2は、撮像装置1から転送されてきた画像ファイルPFと音声ファイルAFを取り込んで、ボイスメモをボイスメモテキストに変換する例で説明したが、このような処理を行うボイスメモは、必ずしも撮像装置1から直接転送されたものでなくてもよい。例えば撮像装置1からの画像ファイルPFと音声ファイルAFが、他の機器に転送された後、さらに当該他の機器から情報処理装置2に転送された場合にも、上述の各処理を行うことができる。
即ち情報処理装置2では、外部機器から送信されてきた音声データを受信した後の処理として、上述の各処理がおこなわれるようにすればよい。
また撮像装置1ではなく、画像再生装置、編集装置、他の情報処理装置等から画像データと、たとえばボイスメモとしての音声データが転送されてきた場合に、情報処理装置2が、上述のボイスメモテキスト化や表示、FTPアップロード等を行うようにすることも考えられる。
【0170】
実施の形態のプログラムは、図21から図27のような処理を、例えばCPU、DSP等、或いはこれらを含むデバイスに実行させるプログラムである。
即ち実施の形態のプログラムは、音声データをテキスト化したテキストデータを取得するテキスト化処理と、撮像装置1から送信される画像データ及び該画像データに関連する音声データを受信した後に、音声データについてテキスト化処理で取得したテキストデータを、画像データに対応するメタデータとする処理とを情報処理装置に実行させるプログラムである。
このようなプログラムにより、上述した情報処理装置2を、例えば携帯端末装置やパーソナルコンピュータ、その他の情報処理が実行できる機器において実現できる。
【0171】
このような情報処理装置2を実現するプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。
あるいはまた、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、MO(Magneto Optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc:登録商標)、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。
【0172】
またこのようなプログラムによれば、実施の形態の情報処理装置2の広範な提供に適している。例えばスマートフォンやタブレット等の携帯端末装置、携帯電話機、パーソナルコンピュータ、ゲーム機器、ビデオ機器、PDA(Personal Digital Assistant)等にプログラムをダウンロードすることで、当該スマートフォン等を、本開示の情報処理装置2として機能させることができる。
【0173】
なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
【0174】
なお本技術は以下のような構成も採ることができる。
(1)
音声データをテキスト化したテキストデータを取得するテキスト取得部と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキスト取得部で取得したテキストデータを、前記画像データに対応するメタデータとする処理を行うデータ管理部と、を備えた
情報処理装置。
(2)
前記テキスト取得部は、画像データ及び該画像データに関連する音声データを受信することに応じて、前記音声データをテキスト化したテキストデータを取得する処理を行う
上記(1)に記載の情報処理装置。
(3)
前記テキスト取得部は、画像データを指定する操作に応じて、前記音声データをテキスト化したテキストデータを取得する処理を行う
上記(1)又は(2)に記載の情報処理装置。
(4)
前記データ管理部は、画像データと音声データの受信順序に応じて、画像データに関連付けられる音声データを判別する
上記(1)から(3)のいずれかに記載の情報処理装置。
(5)
前記データ管理部は、画像データに付加されたメタデータにより、該画像データに関連付けられる音声データを判別する
上記(1)から(3)のいずれかに記載の情報処理装置。
(6)
前記データ管理部は、音声データについてのテキストデータを、関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行う
上記(1)から(5)のいずれかに記載の情報処理装置。
(7)
前記データ管理部は、音声データについてのテキストデータが取得されたことに応じて自動的に、該テキストデータを関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行う
上記(1)から(6)のいずれかに記載の情報処理装置。
(8)
前記データ管理部は、テキストデータを、既に入力されているキャプションデータの後に追加する
上記(7)に記載の情報処理装置。
(9)
音声データをテキスト化したテキストデータを、自動的に画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理をオン/オフすることのできるユーザインタフェース環境を提供するユーザインタフェース制御部を備えた
上記(7)又は(8)に記載の情報処理装置。
(10)
前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後に、前記画像データと前記メタデータをサーバ装置にアップロードする処理を行うアップロード処理部を備えた
上記(1)から(9)のいずれかに記載の情報処理装置。
(11)
前記アップロード処理部は、前記画像データと前記メタデータに加えて前記音声データもサーバ装置にアップロードする処理を行う
上記(10)に記載の情報処理装置。
(12)
前記アップロード処理部は、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後に、前記画像データと前記メタデータを自動的にサーバ装置にアップロードする処理を行う
上記(10)又は(11)に記載の情報処理装置。
(13)
前記アップロード処理部が、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後において前記画像データと前記メタデータをサーバ装置にアップロードする処理を自動的に行うか否かを設定できるユーザインタフェース環境を提供するユーザインタフェース制御部を備えた
上記(12)に記載の情報処理装置。
(14)
前記ユーザインタフェース制御部は、さらに音声データをアップロードするか否かを設定できるユーザインタフェース環境を提供する
上記(13)に記載の情報処理装置。
(15)
前記音声データについて前記テキスト取得部で取得したテキストデータを表示させるユーザインタフェース制御部を備えた
上記(1)から(14)のいずれかに記載の情報処理装置。
(16)
前記ユーザインタフェース制御部は、前記音声データについて音声再生を実行させるユーザインタフェース環境を提供する
上記(15)に記載の情報処理装置。
(17)
携帯端末装置である
上記(1)から(16)のいずれかに記載の情報処理装置。
(18)
音声データをテキスト化したテキストデータを取得するテキストデータ取得処理と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキストデータ取得処理で取得したテキストデータを、前記画像データに対応するメタデータとする処理と、
を情報処理装置が実行する情報処理方法。
(19)
音声データをテキスト化したテキストデータを取得するテキスト化処理と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキスト化処理で取得したテキストデータを、前記画像データに対応するメタデータとする処理と、
を情報処理装置に実行させるプログラム。
【符号の説明】
【0175】
1 撮像装置
2 情報処理装置
4 FTPサーバ
5 テキスト変換エンジン
6 ネットワーク
31 UI制御部
32 通信制御部
33 FTP設定管理部
34 画像管理部
35 アップロード処理部
50 画像一覧画面
51 個別画像画面
52 キャプション編集画面
53 ボイスメモ自動キャプション付与設定画面
55 メニュー画面
56 設定画面
57 自動アップロード設定画面
71 CPU
79 記憶部
80 通信部
83 テキスト変換エンジン
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27