特許7552599 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特許7552599情報処理装置、情報処理方法、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-09

(45)【発行日】2024-09-18

(54)【発明の名称】情報処理装置、情報処理方法、プログラム

(51)【国際特許分類】

H04N 5/92 20060101AFI20240910BHJP

H04N 5/765 20060101ALI20240910BHJP

【ＦＩ】

H04N5/92 010

H04N5/765

【請求項の数】 18

(21)【出願番号】P 2021542040

(86)(22)【出願日】2020-06-22

(86)【国際出願番号】 JP2020024375

(87)【国際公開番号】W WO2021039057

(87)【国際公開日】2021-03-04

【審査請求日】2023-05-16

(31)【優先権主張番号】P 2019157231

(32)【優先日】2019-08-29

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】110003410

【氏名又は名称】弁理士法人テクノピア国際特許事務所

(74)【代理人】

【識別番号】100116942

【弁理士】

【氏名又は名称】岩田雅信

(74)【代理人】

【識別番号】100167704

【弁理士】

【氏名又は名称】中川裕人

(72)【発明者】

【氏名】和田真宏

【審査官】鈴木順三

(56)【参考文献】

【文献】特開２００８－０８５５８２（ＪＰ，Ａ）

【文献】特開２０１４－０１０６１１（ＪＰ，Ａ）

【文献】特開２０１６－１１１４０６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ５／７６－５／９５６

(57)【特許請求の範囲】

【請求項1】

音声データをテキスト化したテキストデータを取得するテキスト取得部と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキスト取得部で取得したテキストデータを、前記画像データに対応するメタデータとする処理を行うデータ管理部と、を備え、
前記データ管理部は、画像データと音声データの受信順序に応じて、画像データに関連付けられる音声データを判別する
情報処理装置。

【請求項2】

音声データをテキスト化したテキストデータを取得するテキスト取得部と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキスト取得部で取得したテキストデータを、前記画像データに対応するメタデータとする処理を行うデータ管理部と、を備え、
前記データ管理部は、音声データについてのテキストデータを、関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行う
情報処理装置。

【請求項3】

音声データをテキスト化したテキストデータを取得するテキスト取得部と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキスト取得部で取得したテキストデータを、前記画像データに対応するメタデータとする処理を行うデータ管理部と、を備え、
前記データ管理部は、音声データについてのテキストデータが取得されたことに応じて自動的に、該テキストデータを関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行う
情報処理装置。

【請求項4】

前記テキスト取得部は、画像データ及び該画像データに関連する音声データを受信することに応じて、前記音声データをテキスト化したテキストデータを取得する処理を行う
請求項１から請求項３のいずれかに記載の情報処理装置。

【請求項5】

前記テキスト取得部は、画像データを指定する操作に応じて、前記音声データをテキスト化したテキストデータを取得する処理を行う
請求項１から請求項４のいずれかに記載の情報処理装置。

【請求項6】

前記データ管理部は、画像データに付加されたメタデータにより、該画像データに関連付けられる音声データを判別する
請求項２又は請求項３に記載の情報処理装置。

【請求項7】

前記データ管理部は、テキストデータを、既に入力されているキャプションデータの後に追加する
請求項３に記載の情報処理装置。

【請求項8】

音声データをテキスト化したテキストデータを、自動的に画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理をオン／オフすることのできるユーザインタフェース環境を提供するユーザインタフェース制御部を備えた
請求項３又は請求項７に記載の情報処理装置。

【請求項9】

前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後に、前記画像データと前記メタデータをサーバ装置にアップロードする処理を行うアップロード処理部を備えた
請求項１から請求項８のいずれかに記載の情報処理装置。

【請求項10】

前記アップロード処理部は、前記画像データと前記メタデータに加えて前記音声データもサーバ装置にアップロードする処理を行う
請求項９に記載の情報処理装置。

【請求項11】

前記アップロード処理部は、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後に、前記画像データと前記メタデータを自動的にサーバ装置にアップロードする処理を行う
請求項９又は請求項１０に記載の情報処理装置。

【請求項12】

前記アップロード処理部が、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後において前記画像データと前記メタデータをサーバ装置にアップロードする処理を自動的に行うか否かを設定できるユーザインタフェース環境を提供するユーザインタフェース制御部を備えた
請求項１１に記載の情報処理装置。

【請求項13】

前記ユーザインタフェース制御部は、さらに音声データをアップロードするか否かを設定できるユーザインタフェース環境を提供する
請求項１２に記載の情報処理装置。

【請求項14】

前記音声データについて前記テキスト取得部で取得したテキストデータを表示させるユーザインタフェース制御部を備えた
請求項１から請求項７のいずれかに記載の情報処理装置。

【請求項15】

前記ユーザインタフェース制御部は、前記音声データについて音声再生を実行させるユーザインタフェース環境を提供する
請求項１４に記載の情報処理装置。

【請求項16】

携帯端末装置である
請求項１から請求項１５のいずれかに記載の情報処理装置。

【請求項17】

情報処理装置が、
音声データをテキスト化したテキストデータを取得するテキストデータ取得処理と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキストデータ取得処理で取得したテキストデータを、前記画像データに対応するメタデータとするデータ管理処理とを実行し、
前記データ管理処理では、画像データと音声データの受信順序に応じて、画像データに関連付けられる音声データを判別する処理を実行する
情報処理方法。

【請求項18】

情報処理装置に、
音声データをテキスト化したテキストデータを取得するテキストデータ取得処理と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキストデータ取得処理で取得したテキストデータを、前記画像データに対応するメタデータとするデータ管理処理とを実行させ、
前記データ管理処理では、画像データと音声データの受信順序に応じて、画像データに関連付けられる音声データを判別する処理を実行させる
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本技術は情報処理装置、情報処理方法、プログラムに関し、特に撮像装置において画像データに関連付けた音声データを生成した場合に対応する技術に関する。

【背景技術】

【0002】

プロカメラマンや記者など、業務で撮像装置（「カメラ」ともいう）を使用するユーザの場合、撮像装置で撮像した画像を、撮像現場で、その撮像装置の通信機能を用いて新聞社等のサーバ（例えばＦＴＰ（File Transfer Protocol）サーバ）にアップロードするということが行われている。
特許文献１には画像等をアップロードすることに関する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１８－０９３３２５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで上述のようなプロカメラマン等が撮像した画像を新聞社等のサーバにアップロードをする状況を想定すると、画像に対して説明等を付加したいという要望がある。
このためには例えばユーザが説明のためのテキストを入力し、これを画像データに対してキャプションデータとして付加することは可能である。但し特に取材現場等での使用を考えると、より手間がかからないようにすることが望まれる。

【0005】

そこで本技術では、例えばプロカメラマンなどが画像をアップロードする場合に、音声により説明を加えた場合に、その音声データを容易に利用できるようにする技術を提案する。

【課題を解決するための手段】

【0006】

本技術に係る情報処理装置は、音声データをテキスト化したテキストデータを取得するテキスト取得部と、外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキスト取得部で取得したテキストデータを、前記画像データに対応するメタデータとする処理を行うデータ管理部と、を備える。
画像データと該画像データに関連する音声データが存在する状態を想定する。例えば撮像装置で撮像した際に、カメラマンの音声入力により画像データに対応した音声データが生成され、それが画像に対応づけられる場合などが想定される。そのような画像データと音声データを受信したときに、音声データをテキスト化したテキストデータを画像データのメタデータに書き込む。
なお外部装置とは例えば撮像装置、或いは撮像装置からのデータを中継する装置、さらには画像データと音声データを送信できる各種の装置が想定される。

【0007】

上記した情報処理装置においては、前記テキスト取得部は、画像データ及び該画像データに関連する音声データを受信することに応じて、前記音声データをテキスト化したテキストデータを取得する処理を行うことが考えられる。
例えば撮像装置から画像データと音声データが転送された場合に、その画像データと音声データを受信したことをトリガとして、特にユーザ操作がなくともテキスト化のための処理を行うようにする。

【0008】

上記した情報処理装置においては、前記テキスト取得部は、画像データを指定する操作に応じて、前記音声データをテキスト化したテキストデータを取得する処理を行うことが考えられる。
例えば情報処理装置において撮像装置から取り込んだ画像データを指定する操作が行われたことをトリガとしてテキスト化のための処理を行うようにする。

【0009】

上記した情報処理装置においては、前記データ管理部は、画像データと音声データの受信順序に応じて、画像データに関連付けられる音声データを判別することが考えられる。
例えば撮像装置からの転送が行われる際の順序を定めておくことで、画像データと音声データの対応関係が特定できる。

【0010】

上記した情報処理装置においては、前記データ管理部は、画像データに付加されたメタデータにより、該画像データに関連付けられる音声データを判別することが考えられる。
撮像装置が画像データに付加されたメタデータ内に、その画像データに関連付けられる音声データを示す情報を含ませておくことで、情報処理装置側で画像データと音声データの対応関係が特定できるようになる。

【0011】

上記した情報処理装置においては、前記データ管理部は、音声データについてのテキストデータを、関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行うことが考えられる。
メタデータにおいてキャプションデータを記述するフィールドに音声データをテキスト化したテキストデータが含まれるようにする。

【0012】

上記した情報処理装置においては、前記データ管理部は、音声データについてのテキストデータが取得されたことに応じて自動的に、該テキストデータを関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行うことが考えられる。
自動的に、音声データをテキスト化したテキストデータがメタデータにおけるキャプションデータを記述するフィールドに含まれるようにする。

【0013】

上記した情報処理装置においては、前記データ管理部は、テキストデータを、既に入力されているキャプションデータの後に追加することが考えられる。
テキストデータを自動的にメタデータにおけるキャプションデータフィールドに追加する場合、既に記述されているキャプションデータのうしろのデータとして追加する。

【0014】

上記した情報処理装置においては、音声データをテキスト化したテキストデータを、自動的に画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理をオン／オフすることのできるユーザインタフェース環境を提供するユーザインタフェース制御部を備えることが考えられる。
即ち、音声データをテキスト化したテキストデータを、メタデータにおけるキャプションデータを記述するフィールドに記述する処理を、自動的に行うか否かをユーザが選択できるようにする。

【0015】

上記した情報処理装置においては、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後に、前記画像データと前記メタデータをサーバ装置にアップロードする処理を行うアップロード処理部を備えることが考えられる。
即ち音声データをテキスト化したテキストデータがメタデータに加えられた画像データをサーバ装置にアップロードするようにする。

【0016】

上記した情報処理装置においては、前記アップロード処理部は、前記画像データと前記メタデータに加えて前記音声データもサーバ装置にアップロードする処理を行うことが考えられる。
即ち音声データを含む音声ファイルと、画像データとメタデータを含む画像ファイルを共にサーバ装置にアップロードするようにする。

【0017】

上記した情報処理装置においては、前記アップロード処理部は、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後に、前記画像データと前記メタデータを自動的にサーバ装置にアップロードする処理を行うことが考えられる。
例えば撮像装置から画像データ、メタデータ、音声データが転送された後において、音声データをテキスト化したテキストデータがメタデータに加えられ、その画像データとメタデータをサーバ装置にアップロードする一連の処理が、自動的に行われるようにする。

【0018】

上記した情報処理装置においては、前記アップロード処理部が、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後において前記画像データと前記メタデータをサーバ装置にアップロードする処理を自動的に行うか否かを設定できるユーザインタフェース環境を提供するユーザインタフェース制御部を備えることが考えられる。
即ち、アップロード処理を自動的に行うか否かをユーザが選択できるようにする。

【0019】

上記した情報処理装置においては、前記ユーザインタフェース制御部は、さらに音声データをアップロードするか否かを設定できるユーザインタフェース環境を提供することが考えられる。
即ち、自動アップロード処理において、音声データについてもアップロードするか否かをユーザが選択できるようにする。

【0020】

上記した情報処理装置においては、前記音声データについて前記テキスト取得部で取得したテキストデータを表示させるユーザインタフェース制御部を備えることが考えられる。
即ち、音声データをテキスト化したテキストデータを、ユーザに対してテキスト表示する。

【0021】

上記した情報処理装置においては、前記ユーザインタフェース制御部は、前記音声データについて音声再生を実行させるユーザインタフェース環境を提供することが考えられる。
即ち、音声データをそのまま音声としても再生できるようにする。

【0022】

上記した情報処理装置は携帯端末装置であることが考えられる。
例えばスマートフォンやタブレット機器などの携帯端末装置でユーザインタフェース制御部、通信制御部の処理が行われるようにする。

【0023】

本技術の情報処理方法は、音声データをテキスト化したテキストデータを取得するテキストデータ取得処理と、外部装置撮像装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキストデータ取得処理で取得したテキストデータを、前記画像データに対応するメタデータとする処理と行う。
これによりユーザが撮像装置で付加した音声データを利用しやすい状態とする。ＦＴＰ設定情報を登録しやすい環境を実現する。
本技術に係るプログラムは、このような情報処理方法に相当する処理を情報処理装置に実行させるプログラムである。
これにより画像データに関連付けられた音声データをテキスト化して利用する動作を各種の情報処理装置で実行可能とする。

【図面の簡単な説明】

【0024】

【図1】本技術の実施の形態の画像ファイル及び音声ファイルの転送及びアップロードの説明図である。

【図2】実施の形態で通信を行う撮像装置のブロック図である。

【図3】実施の形態で画像データに付加されるＩＰＴＣメタデータの説明図である。

【図4】実施の形態の情報処理装置のブロック図である。

【図5】実施の形態の情報処理装置の機能構成の説明図である。

【図6】実施の形態の画像一覧画面の説明図である。

【図7】実施の形態のキャプション編集画面の説明図である。

【図8】実施の形態の個別画像画面の説明図である。

【図9】実施の形態のキャプション編集画面の音声再生状態の説明図である。

【図10】実施の形態のキャプション編集画面でのダイアログ表示の説明図である。

【図11】実施の形態のキャプション編集画面でのメッセージ表示の説明図である。

【図12】実施の形態でボイスメモテキストがキャプションデータに加えられた状態のキャプション編集画面の説明図である。

【図13】実施の形態のキャプション編集画面の横画面状態の説明図である。

【図14】実施の形態のキャプション編集画面の横画面でキーボード表示がされた状態の説明図である。

【図15】実施の形態のメニュー画面の説明図である。

【図16】実施の形態のボイスメモ自動キャプション付与画面の説明図である。

【図17】実施の形態の設定画面の説明図である。

【図18】実施の形態の自動アップロード設定画面の自動アップロード設定オフ状態の説明図である。

【図19】実施の形態の自動アップロード設定画面の自動アップロード設定オン状態の説明図である。

【図20】実施の形態の自動アップロード設定画面の自動アップロード設定オン状態説明図である。

【図21】実施の形態の画像取り込みの際の処理例のフローチャートである。

【図22】実施の形態の画像取り込みの際の処理例のフローチャートである。

【図23】実施の形態のアップロードファイル準備処理のフローチャートである。

【図24】実施の形態の画像一覧画面からの処理例のフローチャートである。

【図25】実施の形態の画像一覧画面からの処理例のフローチャートである。

【図26】実施の形態の画像一覧画面からの処理例のフローチャートである。

【図27】実施の形態のアップロード時の処理例のフローチャートである。

【発明を実施するための形態】

【0025】

以下、実施の形態を次の順序で説明する。
＜１．実施の形態の画像取り込みとアップロード＞
＜２．撮像装置の構成＞
＜３．情報処理装置の構成＞
＜４．ユーザインタフェース画面＞
＜５．画像取り込み時の処理例＞
＜６．テキスト化及びキャプション編集を含む処理例＞
＜７．アップロード時の処理例＞
＜８．まとめ及び変形例＞

【0026】

＜１．実施の形態の画像取り込みとアップロード＞
図１に撮像装置１、情報処理装置２、ＦＴＰサーバ４、テキスト変換エンジン５、ネットワーク６を示している。

【0027】

撮像装置１としては、ビデオカメラやスチルカメラとしての各種の撮像装置がある。図示する撮像装置１は、カメラマンや記者がスポーツやイベントの会場や取材現場などで用いるカメラを想定している。

【0028】

情報処理装置２は、ここではスマートフォン等の携帯型端末装置を例示している。
なお情報処理装置の具体例としては、例えばパーソナルコンピュータ装置、タブレット型情報処理装置、携帯電話装置、ゲーム機器、オーディオ機器、ビデオ機器、通信装置、テレビジョン装置、サーバ装置など、各種の例が想定される。情報処理としての演算を行うことのできる装置、例えばマイクロコンピュータを内蔵する装置であれば本開示の情報処理装置として実現可能である。
但し、上述のようにイベント会場等での使用を想定する場合、スマートフォンやタブレット機器などの携帯端末であることが好適である。

【0029】

撮像装置１と情報処理装置２は、例えばブルートゥース（Bluetooth：登録商標）、ＷＩ－ＦＩ（登録商標）通信、ＮＦＣ（Near Field Communication）等の近距離無線通信、赤外線通信により、相互に情報通信が可能とされる。
なお撮像装置１と情報処理装置２が有線接続通信によって相互に通信可能とされてもよい。
また情報処理装置２がＦＴＰサーバ、撮像装置１がＦＴＰクライアントとして機能し、撮像装置１から画像データ等が情報処理装置２にアップロードされるようにすることもできる。

【0030】

本実施の形態の場合、撮像装置１から情報処理装置２には、画像ファイルＰＦや音声ファイルＡＦが送信される状況を想定する。
情報処理装置２は撮像装置１から転送された画像ファイルＰＦや音声ファイルＡＦを保持し、ユーザに提示したり、ＦＴＰサーバ４へアップロードしたりすることができる。

【0031】

なお、撮像装置１では撮像動作により静止画や動画としての画像データを生成するとともに、付加情報としてのメタデータを生成する。
図１に示す画像ファイルＰＦとは、この画像データとメタデータを含むデータファイルであるとしている。

【0032】

また本実施の形態の場合、撮像装置１はボイスメモ機能を備える。これは、ユーザが撮像時に声を入力することで、撮像画像に対する注釈、説明等を音声で付与することができる機能である。例えば１枚の静止画を撮像した際にカメラマンが所定の操作を行いながら画像内容を説明する発声を行ったり、画像を指定した状態で発声を行ったりすることで、その音声が録音され、画像データと関連付けられたボイスメモとされる。
図１に示す音声ファイルＡＦとは、このボイスメモとしての音声データを含むデータファイルであるとする。
なお、動画撮像時には、周囲音声も音声トラックデータとして記録されるが、その音声トラックデータは画像ファイルＰＦに含まれる音声データであり、音声ファイルＡＦとは別である。説明上の音声ファイルＡＦは、あくまでもボイスメモとしての音声データを含むファイルを指すものとする。
以下では、静止画撮像を想定し、画像ファイルＰＦには静止画像データとメタデータ、音声ファイルＡＦには静止画撮像に伴って生成されたボイスメモデータが含まれる例で説明していく。

【0033】

なお、必ずしも全ての画像ファイルＰＦに音声ファイルＡＦが関連付けられているわけではなく、あくまでカメラマン等がボイスメモ機能を用いて音声入力を行った場合にのみ、撮像装置１で音声ファイルＡＦが生成され、画像ファイルＰＦに関連付けられる。
従って撮像装置１から情報処理装置２へのデータ転送の際には、画像ファイルＰＦと音声ファイルＡＦが対になって送信される場合と、画像ファイルＰＦのみの場合がある。

【0034】

情報処理装置２は、転送された画像ファイルＰＦや音声ファイルＡＦをネットワーク６を介してＦＴＰサーバ４にアップロードすることができる。
ネットワーク６は、例えばインターネット、ホームネットワーク、ＬＡＮ（Local Area Network）、衛星通信網、その他の各種のネットワークが想定される。
ＦＴＰサーバ４は、例えば新聞社、放送局、通信社などが運営するサーバが考えられる。もちろんそのようなサーバに限定されない。
ＦＴＰサーバ４の形態としてはクラウドサーバ、ホームサーバ、或いはパーソナルコンピュータなどが想定される。

【0035】

情報処理装置２は、単に撮像装置１から画像ファイルＰＦ等をそのままＦＴＰサーバ４にアップロードするだけでなく、メタデータに含まれるキャプションを付加・編集したり画像サイズの設定、データ圧縮などを行ったりした上でアップロードすることができる。
特に本実施の形態の場合、音声ファイルＡＦが関連付けられた画像ファイルＰＦについては、その音声ファイルＡＦにおける音声データ、即ち上述のボイスメモをテキスト化したテキストデータを取得し、メタデータに付加する処理も行った上で、アップロードすることができる。

【0036】

ボイスメモのテキストデータ化は、情報処理装置２にテキスト変換エンジンが装備されることで、実行されるようにすることが考えられるが、情報処理装置２自体はテキスト変換機能を備えず、外部のテキスト変換エンジン５を用いるようにしてもよい。
例えば情報処理装置２は、ネットワーク６を介してテキスト変換エンジン５にボイスメモの音声データを送信する。
テキスト変換エンジン５は、この音声データをテキスト化する処理を行い、生成したテキストデータを情報処理装置２に送信する。これにより情報処理装置２はボイスメモをテキスト化したテキストデータを取得することができる。
なお説明上、ボイスメモをテキスト化したテキストデータを「ボイスメモテキスト」と呼ぶこととする。

【0037】

この図１のような通信システムが構築されることで、例えば撮像装置１のユーザが新聞社の仕事を行うプロカメラマンである場合、次のようなことが可能になる。
即ちカメラマンがイベント会場で撮像した画像を、自分のスマートフォン（情報処理装置２）に転送する。そしてスマートフォン等の情報処理装置２において必要な作業を行った上で、或いは自動的に、情報処理装置２からＦＴＰサーバ４に撮像画像をアップロードするというようなシステム利用態様が想定される。
この場合に、ボイスメモがテキスト化されてメタデータに付加され、画像データとともにアップロードされるものとなる。

【0038】

＜２．撮像装置の構成＞
撮像装置１の構成例を図２で説明する。
撮像装置１は、例えばレンズ系１１、撮像素子部１２、カメラ信号処理部１３、記録制御部１４、表示部１５、通信部１６、操作部１７、カメラ制御部１８、メモリ部１９、ドライバ部２２、センサ部２３、音声入力部２５、音声処理部２６を有する。

【0039】

レンズ系１１は、ズームレンズ、フォーカスレンズ等のレンズや絞り機構などを備える。このレンズ系１１により、被写体からの光（入射光）が導かれ撮像素子部１２に集光される。

【0040】

撮像素子部１２は、例えば、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）型やＣＣＤ（Charge Coupled Device）型などのイメージセンサ１２ａ（撮像素子）を有して構成される。
この撮像素子部１２では、イメージセンサ１２ａで受光した光を光電変換して得た電気信号について、例えばＣＤＳ(Correlated Double Sampling)処理、ＡＧＣ(Automatic Gain Control)処理などを実行し、さらにＡ／Ｄ(Analog/Digital)変換処理を行う。そしてデジタルデータとしての撮像信号を、後段のカメラ信号処理部１３やカメラ制御部１８に出力する。

【0041】

カメラ信号処理部１３は、例えばＤＳＰ（Digital Signal Processor）等により画像処理プロセッサとして構成される。このカメラ信号処理部１３は、撮像素子部１２からのデジタル信号（撮像画像信号）に対して、各種の信号処理を施す。例えばカメラプロセスとしてカメラ信号処理部１３は、前処理、同時化処理、ＹＣ生成処理、解像度変換処理、ファイル形成処理等を行う。

【0042】

前処理では、撮像素子部１２からの撮像画像信号に対して、Ｒ，Ｇ，Ｂの黒レベルを所定のレベルにクランプするクランプ処理や、Ｒ，Ｇ，Ｂの色チャンネル間の補正処理等を行う。
同時化処理では、各画素についての画像データが、Ｒ，Ｇ，Ｂ全ての色成分を有するようにする色分離処理を施す。例えば、ベイヤー配列のカラーフィルタを用いた撮像素子の場合は、色分離処理としてデモザイク処理が行われる。
ＹＣ生成処理では、Ｒ，Ｇ，Ｂの画像データから、輝度（Ｙ）信号および色（Ｃ）信号を生成（分離）する。
解像度変換処理では、各種の信号処理が施された画像データに対して、解像度変換処理を実行する。

【0043】

ファイル形成処理では、例えば以上の各種処理が施された画像データについて、例えば記録用や通信用の圧縮符号化、フォーマティング、メタデータの生成や付加などを行って記録用や通信用のファイル生成を行う。
例えば静止画ファイルとしてＪＰＥＧ（Joint Photographic Experts Group）、ＴＩＦＦ（Tagged Image File Format）、ＧＩＦ（Graphics Interchange Format）等の形式の画像ファイルＰＦの生成を行う。またＭＰＥＧ－４準拠の動画・音声の記録に用いられているＭＰ４フォーマットなどとしての画像ファイルＰＦの生成を行うことも考えられる。
なおロー（RAW）画像データとして画像ファイルＰＦを生成することも考えられる。

【0044】

カメラ信号処理部１３は、メタデータについては、カメラ信号処理部１３内の処理パラメータの情報や、カメラ制御部１８から取得する各種制御パラメータ、レンズ系１１や撮像素子部１２の動作状態を示す情報、モード設定情報、撮像環境情報（日時や場所など）を含むものとして生成する。
特に本実施の形態の場合図３に例示するＩＰＴＣ（International Press Telecommunications Council）メタデータを含むものとする。
ＩＰＴＣメタデータは、メディア企業団体が策定したフォーマットによるメタデータであり、図３はその一部の項目のみを例示しているが、「ディスクリプション／キャプション」「ディスクリプションライター」「ヘッドライン」「キーワード」など、多様な情報を記述可能とされる。

【0045】

記録制御部１４は、例えば不揮発性メモリによる記録媒体に対して記録再生を行う。記録制御部１４は例えば記録媒体に対し動画データや静止画データ等の画像ファイルやサムネイル画像等を記録する処理を行う。
記録制御部１４の実際の形態は多様に考えられる。例えば記録制御部１４は、撮像装置１に内蔵されるフラッシュメモリとその書込／読出回路として構成されてもよい。また記録制御部１４は、撮像装置１に着脱できる記録媒体、例えばメモリカード（可搬型のフラッシュメモリ等）に対して記録再生アクセスを行うカード記録再生部による形態でもよい。また記録制御部１４は、撮像装置１に内蔵されている形態としてＨＤＤ（Hard Disk Drive）などとして実現されることもある。

【0046】

表示部１５は撮像者に対して各種表示を行う表示部であり、例えば撮像装置１の筐体に配置される液晶パネル（ＬＣＤ：Liquid Crystal Display）や有機ＥＬ（Electro-Luminescence）ディスプレイ等のディスプレイデバイスによる表示パネルやビューファインダーとされる。
表示部１５は、カメラ制御部１８の指示に基づいて表示画面上に各種表示を実行させる。
例えば表示部１５は、記録制御部１４において記録媒体から読み出された画像データの再生画像を表示させる。
また表示部１５にはカメラ信号処理部１３で表示用に解像度変換された撮像画像の画像データが供給され、表示部１５はカメラ制御部１８の指示に応じて、当該撮像画像の画像データに基づいて表示を行う場合がある。これにより構図確認中や動画記録中などの撮像画像である、いわゆるスルー画（被写体のモニタリング画像）が表示される。
また表示部１５はカメラ制御部１８の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちＧＵＩ（Graphical User Interface）としての表示を画面上に実行させる。

【0047】

通信部１６は、外部機器との間のデータ通信やネットワーク通信を有線又は無線で行う。
例えば外部の表示装置、記録装置、再生装置等に対して撮像画像データ（静止画ファイルや動画ファイル）の送信出力を行う。
また通信部１６はネットワーク通信部として、例えばインターネット、ホームネットワーク、ＬＡＮ（Local Area Network）等の各種のネットワーク６による通信を行い、ネットワーク上のサーバ、端末等との間で各種データ送受信を行うことができる。例えば本実施の形態の場合、通信部１６は、撮像した画像データ（上述の画像ファイル等）をＦＴＰサーバ４にアップロードする通信処理を行う。
また本実施の形態の場合、通信部１６は、情報処理装置２との間で通信を行い、画像ファイルＰＦや音声ファイルＡＦの転送を実行する。

【0048】

操作部１７は、ユーザが各種操作入力を行うための入力デバイスを総括して示している。具体的には操作部１７は撮像装置１の筐体に設けられた各種の操作子（キー、ダイヤル、タッチパネル、タッチパッド等）を示している。
操作部１７によりユーザの操作が検知され、入力された操作に応じた信号はカメラ制御部１８へ送られる。

【0049】

カメラ制御部１８はＣＰＵ（Central Processing Unit）を備えたマイクロコンピュータ（演算処理装置）により構成される。
メモリ部１９は、カメラ制御部１８が処理に用いる情報等を記憶する。図示するメモリ部１９としては、例えばＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、フラッシュメモリなどを包括的に示している。
メモリ部１９はカメラ制御部１８としてのマイクロコンピュータチップに内蔵されるメモリ領域であってもよいし、別体のメモリチップにより構成されてもよい。
カメラ制御部１８はメモリ部１９のＲＯＭやフラッシュメモリ等に記憶されたプログラムを実行することで、この撮像装置１の全体を制御する。
例えばカメラ制御部１８は、撮像素子部１２のシャッタースピードの制御、カメラ信号処理部１３における各種信号処理の指示、ユーザの操作に応じた撮像動作や記録動作、記録した画像ファイルの再生動作、レンズ鏡筒におけるズーム、フォーカス、絞り調整等のレンズ系１１の動作、ユーザインタフェース動作等について、必要各部の動作を制御する。

【0050】

メモリ部１９におけるＲＡＭは、カメラ制御部１８のＣＰＵの各種データ処理の際の作業領域として、データやプログラム等の一時的な格納に用いられる。
メモリ部１９におけるＲＯＭやフラッシュメモリ（不揮発性メモリ）は、ＣＰＵが各部を制御するためのＯＳ（Operating System）や、画像ファイル等のコンテンツファイルの他、各種動作のためのアプリケーションプログラムや、ファームウエア、各種の設定情報等の記憶に用いられる。
各種の設定情報としては、上述のＦＴＰ設定情報や、撮像動作に関する設定情報としての露出設定、シャッタースピード設定、モード設定や、画像処理に係る設定情報としてのホワイトバランス設定、色設定、画像エフェクトに関する設定や、操作性に係る設定情報としてのカスタムキー設定や表示設定などがある。

【0051】

ドライバ部２２には、例えばズームレンズ駆動モータに対するモータドライバ、フォーカスレンズ駆動モータに対するモータドライバ、絞り機構のモータに対するモータドライバ等が設けられている。
これらのモータドライバはカメラ制御部１８からの指示に応じて駆動電流を対応するドライバに印加し、フォーカスレンズやズームレンズの移動、絞り機構の絞り羽根の開閉等を実行させることになる。

【0052】

センサ部２３は、撮像装置に搭載される各種のセンサを包括的に示している。
センサ部２３としては例えばＩＭＵ（inertial measurement unit：慣性計測装置）が搭載されており、例えばピッチ、ヨー、ロールの３軸の角速度（ジャイロ）センサで角速度を検出し、加速度センサで加速度を検出することができる。
またセンサ部２３としては、例えば位置情報センサ、照度センサ等が搭載される場合もある。

【0053】

音声入力部２５は例えばマイクロホン及びマイクアンプ等を有し、周囲音声を集音した音声信号を出力する。
音声処理部２６は、音声入力部２５で得られた音声信号についてデジタル音声信号に変換する処理や、ＡＧＣ処理、音質処理、ノイズリダクション処理などを行う。これらの処理を経た音声データはカメラ信号処理部１３やカメラ制御部１８に出力される。
例えば音声データは、動画撮像時にはカメラ制御部１８において動画に付随する音声データとして処理される。

【0054】

また音声データは、撮像時などにおける、いわゆるボイスメモとしての音声データとして、カメラ信号処理部１３或いはカメラ制御部１８において音声ファイルＡＦとしてファイル化されるようにすることもできる。
音声ファイルＡＦは、記録制御部１４において画像ファイルに対応づけられて記録媒体に記録されたり、通信部１６から画像ファイルとともに送信出力されたりすることができる。

【0055】

＜３．情報処理装置の構成＞
例えば携帯型端末装置などとされる情報処理装置２の構成例を図４に示す。
情報処理装置２のＣＰＵ７１は、ＲＯＭ７２に記憶されているプログラム、または記憶部７９からＲＡＭ７３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ７３にはまた、ＣＰＵ７１が各種の処理を実行する上において必要なデータなども適宜記憶される。
ＣＰＵ７１、ＲＯＭ７２、およびＲＡＭ７３は、バス７４を介して相互に接続されている。このバス７４にはまた、入出力インタフェース７５も接続されている。

【0056】

入出力インタフェース７５には、操作子や操作デバイスよりなる入力部７６が接続される。
例えば入力部７６としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
入力部７６によりユーザの操作が検知され、入力された操作に応じた信号はＣＰＵ７１によって解釈される。

【0057】

また入出力インタフェース７５には、ＬＣＤ或いは有機ＥＬパネルなどよりなる表示部７７や、スピーカなどよりなる音声出力部７８が一体又は別体として接続される。
表示部７７は各種表示を行う表示部であり、例えば情報処理装置２の筐体に設けられるディスプレイデバイスや、情報処理装置２に接続される別体のディスプレイデバイス等により構成される。
表示部７７は、ＣＰＵ７１の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また表示部７７はＣＰＵ７１の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちＧＵＩ（Graphical User Interface）としての表示を行う。

【0058】

入出力インタフェース７５には、ハードディスクや固体メモリなどより構成される記憶部７９や、モデムなどより構成される通信部８０が接続される場合もある。

【0059】

通信部８０は、インターネット等の伝送路を介しての通信処理や、各種機器との有線／無線通信、バス通信などによる通信を行う。
本実施の形態の場合、通信部８０は、撮像装置１との間で、例えば上述のＦＴＰ通信、ブルートゥース、ＷＩ－ＦＩ、ＮＦＣ等の近距離無線通信、赤外線通信、有線接続通信などによる通信を行う機能を備える。

【0060】

入出力インタフェース７５にはまた、必要に応じてドライブ８２が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体８１が適宜装着される。
ドライブ８２により、リムーバブル記録媒体８１からは画像ファイル等のデータファイルや、各種のコンピュータプログラムなどを読み出すことができる。読み出されたデータファイルは記憶部７９に記憶されたり、データファイルに含まれる画像や音声が表示部７７や音声出力部７８で出力されたりする。またリムーバブル記録媒体８１から読み出されたコンピュータプログラム等は必要に応じて記憶部７９にインストールされる。

【0061】

情報処理装置２にはテキスト変換エンジン８３としてのプロセッサが装備される場合がある。
テキスト変換エンジン８３は、例えば音声データを解析してテキストデータに変換する処理を行う。
なお、上述のように外部のテキスト変換エンジン５を利用する場合は、情報処理装置２がテキスト変換エンジン８３として機能するプロセッサを備えていなくてもよい。

【0062】

この情報処理装置２では、例えば本開示の処理のためのソフトウエアを、通信部８０によるネットワーク通信やリムーバブル記録媒体８１を介してインストールすることができる。或いは当該ソフトウエアは予めＲＯＭ７２や記憶部７９等に記憶されていてもよい。

【0063】

例えばこのようなソフトウエア（アプリケーションプログラム）によって、図５のような機能構成が情報処理装置２のＣＰＵ７１において構築される。
図５には情報処理装置２に設けられる機能として、ＵＩ（ユーザインタフェース）制御部３１、通信制御部３２、テキスト取得部３３、データ管理部３４、アップロード処理部３５を示している。

【0064】

ＵＩ制御部３１は、撮像装置１から転送されてくる画像ファイルＰＦや音声ファイルＡＦをユーザに提示し、また、各種情報の設定や編集等のためのユーザ操作を受け付けるＵＩ処理を行う。
ＵＩ処理としては、ユーザに対する表示出力や音声出力等の出力を行ってユーザに操作入力環境を提供する処理、ユーザに対して各種情報の提示のための表示出力や音声出力を行う処理、ユーザによる操作を検知する処理、ユーザの意思を検知／推定する処理などがある。
ＵＩ制御部３１は、例えばユーザに対する表示出力や音声出力等の出力を行ってユーザに操作入力環境を提供する処理を行う。
或いはＵＩ制御部３１は、例えばユーザによる操作を検知する処理を行う。
或いはＵＩ制御部３１は、例えばユーザに操作入力環境を提供する処理と、ユーザによる操作を検知する処理の両方を行う。
もちろんＵＩ制御部３１は他のＵＩ処理を行ってもよい。

【0065】

本実施の形態の場合、ＵＩ制御部３１は、音声ファイルＡＦのボイスメモをテキスト化したボイスメモテキストを、自動的に画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理をオン／オフすることのできるＵＩ環境を提供する。
またＵＩ制御部３１は、ボイスメモテキストを画像データに対応するメタデータとする処理を行った後において画像データとメタデータを含む画像ファイルＰＦをＦＴＰサーバ４にアップロードする処理を自動的に行うか否かを設定できるＵＩ環境を提供する。又、その場合に音声ファイルＡＦをアップロードするか否かを設定できるようにもする。
またＵＩ制御部３１は、ボイスメモテキストを表示させたり音声再生させるＵＩ環境を提供したりする。

【0066】

通信制御部３２は、通信部８０による通信動作を制御する機能である。
この通信制御部３２は、撮像装置１との通信を通信部８０に実行させる処理を行う。

【0067】

テキスト取得部３３は、撮像装置１から音声ファイルＡＦが転送されてきた場合に、音声ファイルＡＦに含まれるボイスメモをテキスト化したボイスメモテキストを取得する処理を行う。
具体的にはテキスト取得部３３は、テキスト変換エンジン８３にテキスト化処理を実行させ、ボイスメモテキストを取得する。
或いはテキスト取得部３３は、ボイスメモとしての音声データを通信部８０からテキスト変換エンジン５に送信し、テキスト変換エンジン５から返信されてくるボイスメモテキストを取得する処理を行う。

【0068】

データ管理部３４は、撮像装置１から送信される画像データを含む画像ファイルＰＦ及び関連するボイスメモを含む音声ファイルＡＦを受信した後に、音声ファイルＡＦに含まれるボイスメモについてテキスト取得部３３で取得したボイスメモテキストを、画像データに対応するメタデータとする処理を行う機能である。
またデータ管理部３４は、撮像装置１から送信されてきた画像ファイルＰＦや音声ファイルＡＦの記憶、編集等の処理を行う。例えば画像データの編集、メタデータの付加（タグの付加）、各種動作設定に関する処理などを行う。

【0069】

アップロード処理部３５は、通信部８０を介したＦＴＰサーバ４へのアップロード処理を行う機能である。
特にアップロード処理部３５は、データ管理部３４が音声ファイルＡＦについてのボイスメモテキストを画像データに対応するメタデータとする処理を行った後に、画像ファイルＰＦ（画像データとメタデータ）をＦＴＰサーバ４にアップロードする処理を行う。アップロード処理部３５は、画像ファイルＰＦとともに音声ファイルＡＦをＦＴＰサーバ４にアップロードする場合もある。

【0070】

以上の各機能は、例えば情報処理装置２が本開示の処理を実現するアプリケーションソフトウェアをインストールすることで具備される。
情報処理装置２は、以上の機能のうち少なくともテキスト取得部３３とデータ管理部３４を備えることで、転送されてきた音声データをテキスト化して画像データのメタデータとする処理が実行される機器となる。

【0071】

＜４．ユーザインタフェース画面＞
以下、情報処理装置２の表示部７７におけるＵＩ画面について説明する。以下の各画面はＣＰＵ７１がＵＩ制御部３１の機能により表示部７７において表示させる画面の例である。説明では、例えば情報処理装置２としてスマートフォンを想定し、その筐体上に形成されたディスプレイにおける表示内容を想定している。

【0072】

図６は画像一覧画面５０を示している。
この画像一覧画面５０は、撮像装置１から転送された画像ファイルＰＦの画像データがサムネイル画像により一覧表示される画面である。

【0073】

画像一覧画面５０には画像一覧領域１０１が設けられ、この画像一覧領域１０１に撮像装置１から取り込んだ画像データのサムネイル画像１０３が一覧表示される。なお一覧表示する対象の画像は、取り込んだ全ての画像としたり、プロテクトされた画像のみとしたりするなどを選択できる。画像の数が多く一画面で表示しきれない場合は、スクロールやページ送りなどにより各画像（サムネイル画像１０３）が表示される。

【0074】

各サムネイル画像１０３に対応して画像情報１０４が表示される。画像情報１０４には例えば「ＤＳＣ０００００」などの画像データ名や、プロテクト状態を示すアイコン、ＦＴＰアップロードに関するアイコンなどが表示される。

【0075】

また一覧表示される画像データ（画像ファイルＰＦ）の中にはボイスメモとしての音声ファイルＡＦが関連付けられているものもある。対応するボイスメモが存在する画像データについては、そのサムネイル画像１０３上にボイスメモマーク１０５が表示されるようにしている。

【0076】

画像一覧画面５０にはメニューボタン１０２が表示される。ユーザがメニューボタン１０２をタップする等の操作を行うと、表示は後述するメニュー画面５５に遷移する。

【0077】

画像一覧画面５０に対してユーザは画像選択操作を行うことができる。例えばユーザはサムネイル画像１０３のタップ等の操作により特定の画像データを選択できる。
例えば特定の画像データの選択操作により、図７のようなキャプション編集画面５２が表示される。

【0078】

キャプション編集画面５２には、画像欄１３０、キャプション欄１３２、ボイスメモ欄１３３が設けられる。

【0079】

画像欄１３０には、サムネイル画像１０３と送りボタン１０７が表示される。表示されるサムネイル画像１０３は、ユーザが選択した画像データのサムネイル画像である。これにより表示されているキャプション編集画面５２は、サムネイル画像１０３で表される画像データについてのキャプションの編集を行う画面であることが明確にされる。

【0080】

ユーザは、送りボタン１０７の操作により、画像一覧画面５０で前後に配置される画像データへの選択状態に切り替えることができる。例えば送りボタン１０７を操作することで、キャプション編集画面５２上でサムネイル画像１０３が切り替えられる。するとそのキャプション編集画面５２は、当該新たなサムネイル画像１０３で表される画像データについてのキャプション編集を行う画面となる。

【0081】

またユーザは例えばピンチ操作やタップ操作などにより、サムネイル画像１０３で示される画像を図８の個別画像画面５１により大きく表示させることができる。
個別画像画面５１では、送りボタン１０７が表示されており、ユーザは、この送りボタン１０７の操作により、個別画像画面５１の状態で前後の画像に表示を切り替えることができる。
またボイスメモが存在する画像データの場合は、個別画像画面５１上でもボイスメモマーク１０５が表示される。

【0082】

図７のキャプション編集画面５２のキャプション欄１３２には、上述のＩＰＴＣメタデータにおける「ディスクリプション／キャプション」の欄に記述されるキャプションデータの入力が可能とされる。
例えばユーザがキャプション欄１３２をタップするとキーボード表示（図示せず）が行われ、キーボードを用いた文字入力が可能となる。図では「コーヒー」という文字の入力がなされた状態を示している。このキャプション欄１３２を用いて入力されたキャプションデータは、当該画像データについてのＩＰＴＣメタデータのディスクリプション／キャプションの欄に記述されることになる。

【0083】

なお、既にキャプションデータが入力されている画像データ、つまりＩＰＴＣメタデータとしてキャプションデータが記述済の画像データについて、キャプション編集画面５２が開かれた場合は、その入力済のキャプションデータがキャプション欄１３２に表示される状態となる。キャプションデータは例えば撮像装置１において付加することもできるため、撮像装置１で入力されたキャプションデータがキャプション欄１３２に表示される場合もあるし、過去にキャプション欄１３２で入力されＩＰＴＣメタデータに記述されたキャプションデータが表示される場合もある。
従ってユーザは、キャプション欄１３２を用いて、新規にキャプションデータを入力したり、過去に入力されたキャプションデータに対して追加、削除、修正等の編集を行ったりすることができる。

【0084】

キャプション編集画面５２には、テンプレートボタン１３８やボイス入力ボタン１３９が設けられる。
ユーザはテンプレートボタン１３８を操作することで、キャプションのテンプレートを呼び出してキャプション欄１３２に表示させることができる。
またユーザはボイス入力ボタン１３９を操作することで、キャプションデータを音声により入力することができる。この場合に入力された音声のテキスト化は、ボイスメモのテキスト化と同様に行われれば良い。

【0085】

キャプション編集画面５２のボイスメモ欄１３３にはボイスメモテキスト領域１３４が設けられ、ボイスメモテキストが表示される。即ち撮像装置１から音声データとして転送されてきたボイスメモがテキスト化され、ボイスメモ欄１３３に表示される。これによりユーザはキャプション編集画面５２でボイスメモの内容を確認できる。
またボイスメモ欄１３３には、再生ボタン１３５、コピーボタン１３６、削除ボタン１３７が表示され、ボイスメモに関する操作が可能とされる。

【0086】

ユーザが再生ボタン１３５を操作すると、ボイスメモの音声再生が開始される。図９には音声再生が行われている状態の表示を示している。
例えば音声再生中はボイスメモテキスト領域１３４、再生ボタン１３５、コピーボタン１３６、削除ボタン１３７の表示に代えてシークバー１６０、現在タイム１６１、総再生長１６２、停止ボタン１６３、一時停止ボタン１６４が表示される。シークバー１６０や現在タイム１６１により音声再生の進行状況が示される。
また停止ボタン１６３や一時停止ボタン１６４により、ユーザが音声再生を停止させたり一時停止させたりすることができるようにされる。

【0087】

図７のキャプション編集画面５２のボイスメモ欄１３３においてユーザが削除ボタン１３７を操作すると、ボイスメモの削除が行われる。
この場合、削除ボタン１３７の操作に応じては、例えば図１０のように確認ダイアログ６１が表示され、ユーザに削除の確認が求められる。確認ダイアログ６１では、削除に関する注意喚起メッセージ１６７が表示されるとともに、ＯＫボタン１６５，キャンセルボタン１６６が表示される。ユーザがＯＫボタン１６５を操作することで削除処理が実行される。ユーザがキャンセルボタン１６６を操作した場合は、削除処理は中止される。

【0088】

なお、ボイスメモの削除としては、次の例が考えられる。
画像データに対応するボイスメモが存在する場合には、ボイスメモテキストが得られている場合とテキスト化されていない場合がある。
音声データであるボイスメモが存在しボイスメモテキストが存在しない場合は、削除操作によってボイスメモ（音声ファイルＡＦ）が削除されるようにすることが考えられる。
音声データであるボイスメモとボイスメモテキストが存在する場合、削除操作によっては、ボイスメモとボイスメモテキストの両方を削除するようにすること、ボイスメモのみを削除するようにすること、又はボイスメモテキストのみを削除するようにすること、がそれぞれ考えられる。もちろんボイスメモとボイスメモテキストについて個別に削除ボタンを設けるようにしてもよい。

【0089】

図７のキャプション編集画面５２のボイスメモ欄１３３においてユーザがコピーボタン１３６を操作すると、ボイスメモテキスト領域１３４に表示されているボイスメモテキストがシステム上のクリップボード領域にコピーされる。この場合、例えば図１１のようなコピーメッセージ１６８が表示されてユーザにコピーの旨が通知される。
ユーザは、クリップボード領域にコピーされたボイスメモテキストのテキストデータについては、所定の操作でキャプション欄１３２にペーストすることができる。つまりユーザはボイスメモテキストをコピー／ペースト操作により、キャプションデータとして使用することができる。

【0090】

またボイスメモテキストは、後述する自動キャプション付与の設定により自動的にキャプション欄１３２に挿入される場合もある。
例えば図１２は、キャプション編集画面５２が開かれた状態で、ボイスメモテキストとしてのテキストデータが、キャプションデータとして付加されている例を示している。この場合、「コーヒー」がキャプションデータとして先に入力されていたテキストで、その後に続く「ブラックコーヒーとは・・・ミルクなどを加えないコーヒーです」というテキストデータが、自動挿入されたボイスメモテキストである。
なお、このようにボイスメモテキストがキャプションデータに自動挿入される場合において、先にキャプションデータのテキストが存在している場合、ボイスメモテキストを、そのキャプションの前に挿入するか、後に挿入することが考えられる。自動挿入である場合は、既入力のキャプションの内容をわかりやすくするため、既入力のキャプションの後にボイスメモテキストを追加することが望ましい。

【0091】

なお図１３、図１４は、スマートフォンである情報処理装置２を横向きにして使用する場合の表示例を示している。図１３の表示内容は図７と同様であるが、横画面に対応した領域配置となる。

【0092】

また図１４は、キャプション欄１３２への文字入力のためのキーボード１６９が表示された状態を示している。この場合、画像欄１３０、ボイスメモ欄１３３、キャプション欄１３２が全体的に上方にずれるようにされ、キーボード１６９が表示されてもキャプション欄１３２が視認できる状態とされている。

【0093】

なお、図７、図９、図１２、図１３、図１４に示すように、キャプション編集画面５２には戻るボタン１０６が設けられている。戻るボタン１０６が操作されることで、例えば画像一覧画面５０に戻る。

【0094】

続いてボイスメモの処理やアップロードに関する設定のためのインタフェース画面を説明する。
例えば図６の画像一覧画面５０におけるメニューボタン１０２を操作すると、図１５のメニュー画面５５が表示される。
メニュー画面５５にはメニュー画面５５を閉じるための閉じるボタン１０９が設けられている。

【0095】

メニュー画面５５には、メニュー項目として、ＦＴＰアップロードプリセット項目１４１、ＩＰＴＣメタデータプリセット項目１４２、キャプションテンプレート項目１４３、キャプション用語集項目１４４、ＦＴＰ取り込み履歴項目１４５、取り込み項目１４６、設定項目１４７、ボイスメモ自動キャプション付与項目１４８、サポートページ項目１４９、ＭＡＣアドレス確認項目１５０、データ削除項目１５１、アカウント項目１５２が設けられている。もちろんこれらは一例に過ぎず、メニュー項目の内容は多様な例が考えられる。また項目数がさらに多くてもよいし、階層化されても良い。項目数が多い場合はスクロールやページ送りにより各項目が表示される。

【0096】

ここでは本実施の形態の処理に関連する項目として設定項目１４７とボイスメモ自動キャプション付与項目１４８からの操作について説明する。
ボイスメモ自動キャプション付与項目１４８は、ボイスメモをテキスト化した場合に、そのボイスメモテキストを自動的にキャプションデータに付加するか否かをユーザが選択できるようにした項目である。

【0097】

ユーザがボイスメモ自動キャプション付与項目１４８を操作すると図１６のボイスメモ自動キャプション付与設定画面５３が表示される。ボイスメモ自動キャプション付与設定画面５３には設定スイッチ１７０が表示され、これによってユーザはボイスメモ自動キャプション付与機能のオン／オフを設定できる。
設定スイッチ１７０がオンとされると、ボイスメモテキストが得られた場合に、図１２に示したように、自動的にそのボイスメモテキストがキャプションデータに挿入される。
設定スイッチ１７０がオフとされると、そのような自動挿入が行われない。

【0098】

ボイスメモ自動キャプション付与設定画面５３には戻るボタン１０６が設けられ、戻るボタン１０６が操作されると図１５のメニュー画面５５に戻る。設定ボタン１７０のオン／オフ状態は、戻るボタン１０６が操作されたときの状態で有効化される。

【0099】

また図１５のメニュー画面５５において、ユーザが設定項目１４７を操作すると図１７の設定画面５６が表示される。設定画面５６には設定項目として、キャプション用語集の同期項目２０１、取り込み項目２０２、メタデータ編集項目２０３、自動ＦＴＰアップロード項目２０４が表示される。もちろんこれは一例である。
この設定画面５６でユーザが自動ＦＴＰアップロード項目２０４を操作すると、図１８の自動アップロード設定画面５７が表示される。

【0100】

自動アップロード設定画面５７には設定スイッチ１７１が表示され、これによってユーザは自動アップロードをオン／オフを設定できる。
自動アップロード機能とは、撮像装置１から画像ファイルＰＦが転送されてきた際に、設定されているＦＴＰサーバ４に対して自動的にアップロードを行う機能である。
この図１８は、設定スイッチ１７１がオフの状態にある場合を示している。
ユーザが設定スイッチ１７１をオンに操作すると、図１９のように自動アップロードの設定のための表示が行われる。即ちアップロード先表示欄１７５が表示され、またボイスメモ添付に関する設定スイッチ１７２や、ＪＰＥＧ画質に関する設定スイッチ１７３が表示される。

【0101】

図１９ではアップロード先表示欄１７５には、まだアップロード先が指定されていないことが示されている。ユーザが、アップロード先を指定する操作を行うことで、図２０のようにアップロード先が、例えばユーザがＦＴＰ設定の際に付与した名称「ＸＹＺ」などにより表示される。

【0102】

ボイスメモ添付に関する設定スイッチ１７２により、ユーザは自動アップロードの際に、ボイスメモとしての音声ファイルＡＦを画像ファイルＰＦと共にアップロードする否かを設定することができる。例えば図２０のように設定スイッチ１７２をオンとすると、自動アップロード処理が行われる際、音声ファイルＡＦもアップロード対象とされる。

【0103】

ＪＰＥＧ画質に関する設定スイッチ１７３により、ユーザはアップロードする画像データの圧縮率や画サイズを設定することができる。
設定スイッチ１７３をオンとすると、図２０のように圧縮率設定バー１７６や長辺ピクセル設定部１７７及び設定スイッチ１７４が表示される。
ユーザは圧縮率設定バー１７６を操作して圧縮率を指定することができる。また設定スイッチ１７４により長辺のピクセル数の設定を行うことができる。

【0104】

以上の自動アップロード設定画面５７におけるユーザ操作は、戻るボタン１０６が操作されて図１７の設定画面５６に戻ることで有効化される。
なお設定画面５６において戻るボタン１０６が操作されると図１５のメニュー画面に戻る。

【0105】

＜５．画像取り込み時の処理例＞
以上の画面表示を伴う情報処理装置２の処理例として、まず撮像装置１から画像ファイルＰＦの取り込み時の処理例を図２１，図２２，図２３で説明する。
なお以下説明する各処理例はＣＰＵ７１において、アプリケーションソフトウェアによって実現される図５で説明した機能により実行される処理となる。

【0106】

図２１、図２２は一連のフローチャートを分けて示したもので、「ｃ１」で接続関係を示している。
図２１のステップＳ１０１でＣＰＵ７１は、撮像装置１から画像ファイルＰＦの取り込み処理を行う。
撮像装置１からの画像ファイルＰＦの取り込み処理は、例えば情報処理装置２と撮像装置１の間の通信により行われるが、例えばユーザが情報処理装置２側、或いは撮像装置１側で所定の操作を行うことで、画像ファイルＰＦの転送が開始される。
撮像装置１は転送するものとして選択された画像ファイルＰＦをＦＴＰ通信により情報処理装置２に転送する処理を行う。またこの場合、画像ファイルＰＦに関連付けられたボイスメモを含む音声ファイルＡＦが存在する場合、その音声ファイルＡＦも情報処理装置２に転送する。
情報処理装置２側では、ＣＰＵ７１はステップＳ１０１の処理として、順次転送されてくる画像ファイルＰＦ及び音声ファイルＡＦの取り込み処理を行うことになる。

【0107】

ここで、撮像装置１と情報処理装置２の間では、画像ファイルＰＦと関連付けられた音声ファイルＡＦが存在する場合は、音声ファイルＡＦを先に送信し、その後に画像ファイルＰＦを送信するという規則を決めておく。
これによりＣＰＵ７１は、１つの音声ファイルＡＦを受信した場合は、その音声ファイルＡＦは次に受信される画像ファイルＰＦに関連付けられたものであると判定することができる。ステップＳ１０２では、ＣＰＵ７１は、このような規則に則って、受信した音声ファイルＡＦを受信した画像ファイルＰＦに紐づけて管理する処理を行う。
なお、これ以外に、例えば画像ファイルＰＦのメタデータに、関連付けられた音声ファイルＡＦを特定する情報が含まれるようにしておくことも考えられる。ステップＳ１０２では、メタデータを参照して、受信した音声ファイルＡＦを受信した画像ファイルＰＦに紐づけて管理する処理を行うようにしてもよい。

【0108】

１又は複数の画像ファイルＰＦの取り込みが完了したら、ＣＰＵ７１はステップＳ１０３からステップＳ１１０に進み、取り込んだ画像ファイルＰＦについて、音声ファイルＡＦが関連付けられているものがあるか否かを判定する。
取り込んだファイルが全て画像ファイルＰＦのみであり、音声ファイルＡＦが存在しない場合は、ＣＰＵ７１はステップＳ１１０から図２２のステップＳ１２０に進む。

【0109】

一方、１つでも音声ファイルＡＦが関連付けられた画像ファイルＰＦが存在した場合、ＣＰＵ７１は図２１のステップＳ１１０からステップＳ１１１に進む。
ステップＳ１１１でＣＰＵ７１は、今回取り込んだ画像ファイルＰＦのうちで、音声ファイルＡＦが関連付けられた１又は複数の画像ファイルＰＦのうちの１つを処理対象として選択する。

【0110】

そしてステップＳ１１２でＣＰＵ７１は、処理対象とした画像ファイルＰＦに関連付けられた音声ファイルＡＦのボイスメモを対象として、テキスト化処理を行う。例えばボイスメモとしての音声データをテキスト変換エンジン５に送信し、テキスト化されたデータを受信する。或いは、情報処理装置２にテキスト変換エンジン８３が搭載されている場合は、テキスト変換エンジン８３によりテキスト化処理を行ってもよい。

【0111】

テキスト化が正常に行われボイスメモテキストが取得できた場合、ＣＰＵ７１はステップＳ１１３からステップＳ１１４に進み、そのボイスメモテキストを、処理対象の画像ファイルＰＦに対応するボイスメモテキストとして例えば記憶部７９に保存する処理を行う。

【0112】

ステップＳ１１５でＣＰＵ７１は、自動キャプション付与機能がオンとされているか否かを確認する。即ち図１６のボイスメモ自動キャプション付与設定画面５３によりユーザが任意にオン／オフを設定できる機能である。
自動キャプション付与機能がオンでなければＣＰＵ７１はステップＳ１１７に進む。

【0113】

自動キャプション付与機能がオンであれば、ＣＰＵ７１はステップＳ１１６に進み、ボイスメモテキストをキャプションデータに挿入する処理を行う。即ちＩＰＴＣメタデータにおけるディスクリプション／キャプションフィールドにボイスメモテキストを書き込む処理を行う。前述したように、ディスクリプション／キャプションフィールドに既にキャプションデータが書き込まれている場合は、ＣＰＵ７１は、その後に続けてボイスメモテキストを書き込むようにする。
ＣＰＵ７１は、このような自動キャプション付与の処理を行った上でステップＳ１１７に進む。

【0114】

ステップＳ１１２のテキスト化が正常に行われなかった場合、例えば処理エラーや通信エラー等により、ボイスメモテキストが取得できなかった場合は、ＣＰＵ７１はステップＳ１１３からステップＳ１１７に進む。この場合、特にテキスト化処理のリトライは行わないことで、転送時の処理が長引くことを回避している。後述のように他にもテキスト化の機会はあるためである。但しもちろん所定回数のテキスト化処理のリトライを行うようにしてもよい。

【0115】

或る画像ファイルＰＦについて、以上のテキスト化処理やボイスメモ自動キャプション付与等の処理を行ってステップＳ１１７に進んだ場合、或いはテキスト化が正常完了せずにステップＳ１１７に進んだ場合、ＣＰＵ７１は、他に同様の処理を行うべき画像ファイルＰＦが残っているか否かを確認し、残っていればステップＳ１１１に戻って、その１つを処理対象とし、上記同様の処理を行う。
音声ファイルＡＦが関連付けられた全ての画像ファイルＰＦについて少なくとも１回はステップＳ１１２のテキスト化処理を実行することで、ステップＳ１１７で全てのテキスト化終了と判定し、図２２のステップＳ１２０に進む。

【0116】

ステップＳ１２０でＣＰＵ７１は、自動アップロード機能がオンとされているか否かを確認する。即ち図１８、図１９、図２０に示した自動アップロード設定画面５７でユーザが任意にオン／オフを設定できる機能である。
自動アップロード機能がオンでなければＣＰＵ７１はステップＳ１２０から画像取り込み時の一連の処理を終える。

【0117】

自動アップロード機能がオンであるときは、ＣＰＵ７１はステップＳ１２０からステップＳ１２１に進み、アップロードファイルの準備処理を行う。
このアップロードファイルの準備処理を図２３に詳しく示す。

【0118】

図２３のステップＳ１４１でＣＰＵ７１は、アップロード対象とする画像ファイルＰＦの１つを特定する。これは今回撮像装置１から転送されてきた画像ファイルＰＦのうちの１つを準備処理の対象とするという意味である。
１つの画像ファイルＰＦを処理対象としたら、ＣＰＵ７１はステップＳ１４２で画サイズ指定がされているか否かを確認する。これはユーザが図２０の自動アップロード設定画面５７における長辺ピクセル設定部１７７及び設定スイッチ１７４で設定した内容を確認することになる。画サイズ指定がされていればＣＰＵ７１はステップＳ１４３でそれを反映するピクセル数の変換処理を行う。

【0119】

ステップＳ１４４でＣＰＵ７１は、圧縮率の指定がされているか否かを確認する。これは図２０の自動アップロード設定画面５７における圧縮率設定バー１７６による圧縮率の指定状態を確認することになる。圧縮率が指定されて圧縮が行われる設定とされているときは、ＣＰＵ７１はステップＳ１４５で、指定の圧縮率による圧縮処理を行う。

【0120】

ステップＳ１４６でＣＰＵ７１は、音声ファイルＡＦの添付有無を確認する。即ち図２０の設定スイッチ１７２のオン／オフによる、ユーザのボイスメモについてのアップロード有無の設定を確認することになる。
音声ファイルＡＦのアップロードが選択されている場合は、ＣＰＵ７１はステップＳ１４７に進み、現在処理対象としている画像ファイルＰＦについて関連付けられた音声ファイルＡＦが存在するか否かを確認する。関連する音声ファイルＡＦが存在する場合は、ＣＰＵ７１はステップＳ１４９に進み、現在の処理対象の画像ファイルＰＦ（画像データとメタデータ）、及び音声ファイルＡＦを、アップロードするファイルとしてセットする。

【0121】

ステップＳ１４６で、ユーザによる設定として音声ファイルＡＦのアップロードが選択されていないことが確認された場合、或いはステップＳ１４７で現在処理対象としている画像ファイルＰＦについて関連付けられた音声ファイルＡＦが存在しない場合は、ＣＰＵ７１はステップＳ１４８に進み、現在の処理対象の画像ファイルＰＦ（画像データとメタデータ）を、アップロードするファイルとしてセットする。

【0122】

ステップＳ１５０では、今回撮像装置１から取り込んだ全ての画像ファイルＰＦについて、以上の準備処理が完了したか否かを確認する。残りの画像ファイルＰＦが存在する場合は、ＣＰＵ７１はステップＳ１４１に戻り、残りの画像ファイルＰＦの１つを処理対象として特定し、同様の処理を行う。
今回撮像装置１から取り込んだ全ての画像ファイルＰＦについて、以上の準備処理が完了したら、ステップＳ１５０で全てのアップロードファイル画像について準備ができたとして、図２３のアップロードファイル準備処理を終える。そしてＣＰＵ７１は、図２２のステップＳ１２２に進む。

【0123】

ステップＳ１２２でＣＰＵ７１は、自動アップロード設定により指定されたＦＴＰサーバ４に対するＦＴＰ接続及びログインの処理を行う。
そしてログインが完了したら、ＣＰＵ７１はステップＳ１２３からステップＳ１３０に進みＦＴＰアップロード処理を実行する。即ちアップロードファイルの準備処理でアップロードするものとしてセットした画像ファイルＰＦや音声ファイルＡＦを、順次ＦＴＰ送信していく処理を行う。

【0124】

なおＦＴＰサーバ４と通信ができなかった場合、或いは通信できてもログインできなかった場合は、ＣＰＵ７１はエラーとしてステップＳ１２４からステップＳ１２５に進み、所定のエラー処理を行う。例えばユーザに自動アップロード処理のエラーを通知する。そして、撮像装置１からの画像ファイルＰＦの取り込み時の一連の処理を終える。

【0125】

ステップＳ１３０でのＦＴＰアップロードが正常完了した場合は、ＣＰＵ７１はステップＳ１３１からステップＳ１３３に進み、ユーザに完了通知を行って一連の処理を終える。この場合、撮像装置１からの画像ファイルＰＦの取り込みの際に、ＦＴＰサーバ４へのアップロードまでが自動的に行われたことになる。
さらにボイスメモ自動キャプション付与機能がオンであれば、そのアップロードされる画像ファイルＰＦにおいては、関連付けられた音声ファイルＡＦのボイスメモがテキスト化されたボイスメモテキストが、ＩＰＴＣメタデータに付加されたものとなっていることになる。

【0126】

ＦＴＰサーバ４へのアップロード処理においてエラーが生じ、正常完了できなかった場合は、ＣＰＵ７１はステップＳ１３２からステップＳ１３４に進み、所定のエラー処理を行う。例えばユーザに自動アップロード処理のエラーを通知する。そして、撮像装置１からの画像ファイルＰＦの取り込み時の一連の処理を終える。

【0127】

＜６．テキスト化及びキャプション編集を含む処理例＞
続いて図６の画像一覧画面５０が表示された状態から図７等のキャプション編集画面５２に遷移した場合の処理例について、図２４，図２５，図２６で説明する。
なお図２４，図２５，図２６は一連のフローチャートを分けて示したもので、「ｃ２」「ｃ３」「ｃ４」「ｃ５」で接続関係を示している。

【0128】

図２４のステップＳ２０１は、ＣＰＵ７１が画像一覧画面５０を表示させている状態とする。
上述のように画像一覧画面５０においてユーザがある画像を指定する操作を行うと、その画像データについてのキャプション編集画面５２を表示させる。このとき、まだ当該指定された画像データ（画像ファイルＰＦ）についてはボイスメモのテキスト化が未実行であれば、この機会にテキスト化を行うようにしている。

【0129】

画像一覧画面５０においてユーザによる画像指定操作を検知したら、ＣＰＵ７１はステップＳ２０２からステップＳ２０３に進む。
ステップＳ２０３でＣＰＵ７１は、当該指定された画像データ（画像ファイルＰＦ）について関連付けられた音声ファイルＡＦが存在するか否かを確認する。
関連付けられた音声ファイルＡＦが存在しなければステップＳ２２０に進み、ＣＰＵ７１は当該指定された画像データについてのキャプション編集画面５２を表示させる。この場合は、ボイスメモが存在しないため、キャプション編集画面５２においてボイスメモ欄１３３は表示させなくてもよい。

【0130】

関連付けられた音声ファイルＡＦが存在する場合は、ＣＰＵ７１はステップＳ２０４に進み、既にボイスメモのテキスト化が行われてボイスメモテキストが記憶されているか否かを確認する。既に記憶されていればステップＳ２２０に進み、ＣＰＵ７１は当該指定された画像データについてのキャプション編集画面５２を表示させる。この場合は、図７のようにボイスメモテキスト領域１３４にボイスメモテキストを表示したボイスメモ欄１３３が表示されることになる。また自動キャプション付与機能がオンとされてボイスメモテキストがキャプションデータに挿入されているのであれば、図１１のように、キャプション欄１３２におけるキャプションデータにもボイスメモテキストが追加されている状態となる。

【0131】

ボイスメモが存在するが未テキスト化と判定した場合、ＣＰＵ７１はステップＳ２０５に進み、指定された画像ファイルＰＦに関連付けられた音声ファイルＡＦのボイスメモを対象として、テキスト化処理を行う。例えばボイスメモとしての音声データをテキスト変換エンジン５に送信し、テキスト化されたデータを受信する。或いは、情報処理装置２にテキスト変換エンジン８３が搭載されている場合は、テキスト変換エンジン８３によりテキスト化処理を行ってもよい。

【0132】

テキスト化が正常に行われボイスメモテキストが取得できた場合、ＣＰＵ７１はステップＳ２０６からステップＳ２０７に進み、そのボイスメモテキストを、処理対象の画像ファイルＰＦに対応するボイスメモテキストとして例えば記憶部７９に保存する処理を行う。

【0133】

ステップＳ２０８でＣＰＵ７１は、自動キャプション付与機能がオンとされているか否かを確認する。即ち図１６のボイスメモ自動キャプション付与設定画面５３によりユーザが任意にオン／オフを設定できる機能である。
自動キャプション付与機能がオンでなければＣＰＵ７１はステップＳ２２０に進む。この場合、キャプション編集画面５２では図７のようにボイスメモ欄１３３が表示され、キャプション欄１３２では、その時点までに入力されているキャプションデータが表示される。

【0134】

一方、自動キャプション付与機能がオンであれば、ＣＰＵ７１はステップＳ２０９に進み、ボイスメモテキストをキャプションデータに挿入する処理を行う。即ちＩＰＴＣメタデータにおけるディスクリプション／キャプションフィールドにボイスメモテキストを書き込む処理を行う。前述したように、ディスクリプション／キャプションフィールドに既にキャプションデータが書き込まれている場合は、ＣＰＵ７１は、その後に続けてボイスメモテキストを書き込むようにする。
ＣＰＵ７１は、このような自動キャプション付与の処理を行った上でステップＳ２２０に進む。この場合、キャプション編集画面５２は図１１のように、キャプション欄１３２におけるキャプションデータにもボイスメモテキストが追加されている状態となる。

【0135】

ステップＳ２０５のテキスト化が正常に行われなかった場合、ＣＰＵ７１はステップＳ２０６からステップＳ２２０に進む。この場合は、ボイスメモがテキスト化できていないため、キャプション編集画面５２においてボイスメモ欄１３３を表示させないことが考えられる。但しボイスメモマーク１０５により、ユーザにボイスメモの存在を明示することが考えられる。

【0136】

キャプション編集画面５２を表示させた状態で、ＣＰＵ７１の処理は図２５のステップＳ２２１に進む。ＣＰＵ７１は、キャプション編集画面５２上での各種のユーザ操作を監視する。即ちステップＳ２２１，Ｓ２２２，Ｓ２２３，Ｓ２２４，Ｓ２２５，図２６のステップＳ２２６，Ｓ２２７，Ｓ２２８，Ｓ２２９のループで各操作を監視する。

【0137】

図２５のステップＳ２２１ではＣＰＵ７１は、戻るボタン１０６による画面遷移、即ち画像一覧画面５０への遷移の操作を監視する。この操作を検知した場合は、ＣＰＵ７１はステップＳ２４０でキャプションの保存処理を行って図２４のステップＳ２０１に戻る。つまりその時点でキャプション欄１３２に表示されているキャプションデータがＩＰＴＣメタデータにおけるディスクリプション／キャプションフィールドのデータとして保存される。

【0138】

ＣＰＵ７１はステップＳ２２２で、キャプション入力に関する操作を監視する。文字入力或いはボイス入力、或いはテンプレート要求など、キャプション入力に関連する操作に応じてＣＰＵ７１はステップＳ２４１で対応処理を行う。
即ちユーザ操作のテンプレートボタン１３８の操作に応じたテンプレートの呼び出し及び表示、ユーザのキャプション欄１３２上のタップ操作等に応じたキーボード１６９の表示、キーボード１６９の操作に応じたキャプション欄１３２への文字入力等を行う。またユーザのボイス入力ボタン１３９の操作に応じた音声入力処理を行う場合もある。
ＣＰＵ７１は、このようなキャプション入力対応処理を逐次ステップＳ２４１で行いながら、他の操作の監視も継続する。

【0139】

ＣＰＵ７１はステップＳ２２３でユーザの再生ボタン１３５の操作を監視する。再生ボタン１３５の操作を検知した場合、ＣＰＵ７１はステップＳ２４２に進み、ボイスメモ欄１３３を、図９のように、シークバー１６０、現在タイム１６１、総再生長１６２、停止ボタン１６３、一時停止ボタン１６４等の再生時の表示状態とするとともに、音声再生を開始させる制御を行う。

【0140】

ＣＰＵ７１はステップＳ２２４でユーザの一時停止ボタン１６４の操作を監視する。一時停止ボタン１６４の操作を検知した場合、ＣＰＵ７１はステップＳ２４３に進み、音声再生を一時停止させる制御を行う。なお図示していないが、この場合、一時停止ボタン１６４は再生ボタン１３５の表示に切り替える。

【0141】

ＣＰＵ７１はステップＳ２２５でユーザの停止ボタン１６３の操作を監視する。停止ボタン１６３の操作を検知した場合、ＣＰＵ７１はステップＳ２４４に進み、音声再生を停止させる制御を行う。この場合、ボイスメモ欄１３３の表示は図７の状態に戻すようにする。

【0142】

ＣＰＵ７１は図２６のステップＳ２２６でユーザのコピーボタン１３６の操作を監視する。コピーボタン１３６の操作を検知した場合、ＣＰＵ７１はステップＳ２４５に進み、クリップボードにボイスメモテキストをコピーする処理を行う。そしてステップＳ２４６でＣＰＵ７１は、図１１のコピーメッセージ１６８の表示を所定時間、或いは次のユーザ操作の検知時点まで行う。
なお、クリップボードにコピーされたボイスメモテキストについては、その後ＣＰＵ７１がステップＳ２２２でペースト操作を検知した場合に、ステップＳ２４１でキャプションデータとしてペーストされることになる。

【0143】

ＣＰＵ７１はステップＳ２２７でユーザの削除ボタン１３７の操作を監視する。削除ボタン１３７の操作を検知した場合、ＣＰＵ７１はステップＳ２４７に進み、図１０の確認ダイアログ６１を表示させる。ユーザがＯＫボタン１６５を操作したら、ＣＰＵ７１はステップＳ２４８からステップＳ２５０に進み、ボイスメモに関する削除処理を行う。確認ダイアログ６１に対してユーザがキャンセルボタン１６６を操作した場合は、ＣＰＵ７１は削除処理を実行せず、ステップＳ２４８からステップＳ２２８に進み、ユーザ操作の監視に戻る。

【0144】

ＣＰＵ７１はステップＳ２２８で、画像拡大操作を監視する。例えばサムネイル画像１０３に対するピンチ操作やダブルタップなどとして画像拡大操作が行われたら、図８の個別画像画面５１の表示を行う。
フローチャートでの図示は省略するが、個別画像画面５１に遷移した後は、所定の操作に応じて異なる画像が選択されたり、画像一覧画面５０に戻ったり、キャプション編集画面５２に遷移するようにされる。

【0145】

ＣＰＵ７１はステップＳ２２９で、他の画像の選択操作を監視する。即ちキャプション編集画面５２における送りボタン１０７の操作を監視する。送りボタン１０７の操作を検知したら、ＣＰＵ７１は図２４のステップＳ２０３に進む。つまり前又は後の画像が新たに指定されたとして、その指定された画像データについてのステップＳ２０３からステップＳ２０９の処理を上記同様に行い、ステップＳ２２０で、その画像データについてのキャプション編集画面５２の表示を行う。

【0146】

以上のように１つの画像データが指定されるときに、テキスト化処理や自動キャプション付与機能の処理が行われる場合がある。またキャプション編集画面５２においてはボイスメモテキストの表示、再生、削除、コピー、キャプションデータへのペースト、手動や音声によるキャプション入力などが可能とされる。

【0147】

＜７．アップロード時の処理例＞
ＦＴＰサーバ４へのアップロード時の処理を図２７に示す。例えばユーザによってアップロードする画像ファイルＰＦやアップロード先のＦＴＰサーバ４が指定され、アップロード実行の指示が行われることにより、図２７のアップロード処理が開始される。

【0148】

ＣＰＵ７１はステップＳ３０１でアップロードファイルの準備処理を行う。これは上述した図２３と同様の処理となる。
ＣＰＵ７１はステップＳ３２２で、ユーザが指定したアップロード先のＦＴＰサーバ４に対するＦＴＰ接続及びログインの処理を行う。
そしてログインが完了したら、ＣＰＵ７１はステップＳ３２３からステップＳ３３０に進みＦＴＰアップロード処理を実行する。即ちアップロードファイルの準備処理でアップロードするものとしてセットした画像ファイルＰＦや音声ファイルＡＦを、順次ＦＴＰ送信していく処理を行う。

【0149】

なおＦＴＰサーバ４と通信ができなかった場合、或いは通信できてもログインできなかった場合は、ＣＰＵ７１はエラーとしてステップＳ３２４からステップＳ３２５に進み、所定のエラー処理を行う。例えばユーザにアップロード処理のエラーを通知する。そしてアップロード処理をエラー終了とする。

【0150】

ステップＳ３３０でのＦＴＰアップロードが正常完了した場合は、ＣＰＵ７１はステップＳ３３１からステップＳ３３３に進み、ユーザに完了通知を行ってアップロード処理を終える。
アップロードされた画像ファイルＰＦにおいては、ボイスメモテキストが、自動キャプション付与機能により、もしくはユーザのコピー／ペースト操作により、ＩＰＴＣメタデータにおけるキャプションデータとして反映される状態となっていることが想定される。
またユーザの設定に応じて音声ファイルＡＦが共にアップロードされる場合も想定される。

【0151】

ＦＴＰサーバ４へのアップロード処理においてエラーが生じ、正常完了できなかった場合は、ＣＰＵ７１はステップＳ３３２からステップＳ３３４に進み、所定のエラー処理を行う。例えばユーザにアップロード処理のエラーを通知する。そしてアップロード処理をエラー終了とする。

【0152】

＜８．まとめ及び変形例＞
以上の実施の形態では次のような効果が得られる。
実施の形態の情報処理装置２は、ボイスメモとしての音声データをテキスト化したテキストデータであるボイスメモテキストを取得するテキスト取得部３３を備える。また情報処理装置２は、撮像装置１から送信される画像データ（画像ファイルＰＦ）及び該画像データに関連する音声データ（音声ファイルＡＦ）を受信した後に、その音声データについてテキスト取得部３３で取得したボイスメモテキストを、画像データに対応するＩＰＴＣメタデータとする処理を行うデータ管理部３４を備える。
これにより撮像画像に対応づけるボイスメモとして、カメラマン等が音声で入力した情報を画像データに対応するメタデータにテキストとして含めることができ、ボイスメモの内容を極めて利用し易くすることができる。
例えばＦＴＰサーバ４にアップロードした後に、画像を確認する人は、テキストによりボイスメモの内容を確認できるため、ボイスメモ音声を聞かなくとも、カメラマンによる注釈等を知ることができる。
またこれにより、音声データであるボイスメモがなくとも、ボイスメモの内容を伝えることができるため、例えばＦＴＰサーバ４にアップロードする場合にボイスメモの送信を行わないようにして通信量を削減しつつボイスメモの内容は伝えるということも可能となる。
なおメタデータの例としてＩＰＴＣメタデータを挙げたが、もちろんこれに限らない。画像データに付加されるメタデータとしては、いかなるデータ形式のメタデータでもよく、そのようなメタデータにボイスメモテキストの全部又は一部が反映されるようにすればよい。

【0153】

実施の形態では、テキスト取得部３３が、撮像装置１からの画像データ及び該画像データに関連する音声データを受信することに応じて、音声データをテキスト化したテキストデータを取得する処理を行う例を挙げた（図２１のステップＳ１１２参照）。
例えば撮像装置１から画像データと音声データが転送された場合に、その画像データと音声データを受信したことをトリガとして、特にユーザ操作がなくともテキスト化処理を行う。
これにより転送後に情報処理装置２のユーザの操作にかかわらず、ボイスメモの内容をテキストデータで提示できる状態とすることができる。ユーザは、音声再生を行わなくとも各撮像画像のボイスメモの内容を確認できる。
なお図２１の処理では、転送時のテキスト化処理においてエラーとなってもリトライしない例とした。これはその後、図２４のステップＳ２０５のようにテキスト化処理の機会があることや、もし画像を開かない場合は、情報処理装置２においてテキスト表示の機会が生じないことなどの事情を考えて、転送時の処理を簡易化する効果を想定するものである。

【0154】

実施の形態では、テキスト取得部３３が、画像データを指定する操作に応じて、前記音声データをテキスト化したテキストデータを取得する処理を行う例を挙げた（図２４のステップＳ２０５参照）。
例えば情報処理装置２において撮像装置１から取り込んだ画像データを指定する操作が行われたことをトリガとしてテキスト化処理を行う。
情報処理装置２に取り込んだ画像を指定する操作によっては、その画像データに関する何らかの処理、例えばキャプション編集等が行われる場合であるため、このときにテキスト化が行われるようにすれば、ユーザにボイスメモの内容をテキストデータで提示できる状態とすることができる。ユーザは、音声再生を行わなくとも各撮像画像のボイスメモの内容を確認できる。

【0155】

実施の形態では、データ管理部３４は、画像データと音声データの受信順序に応じて、画像データに関連付けられる音声データを判別する例を挙げた（図２１のステップＳ１０２）。
例えば画像データについてボイスメモが存在する場合は、撮像装置１がボイスメモとしての音声ファイルＡＦを画像データとメタデータを含む画像ファイルＰＦより先に送信することと決めておく。これにより情報処理装置２は、音声ファイルＡＦを受信した場合、それがその次に受信する画像ファイルＰＦに対応づけられたボイスメモの音声ファイルＡＦであると判定できる。これにより、特に対応付けの情報の確認等を行わなくとも画像ファイルＰＦと音声ファイルＡＦを関連付けて管理することができる。

【0156】

実施の形態では、データ管理部３４が、画像データに付加されたメタデータにより、該画像データに関連付けられる音声データを判別する例を述べた。
例えば画像データについてボイスメモが存在する場合は、撮像装置１がメタデータに関連付けられたボイスメモとしての音声ファイルＡＦを特定するための情報を記述しておく。これにより情報処理装置２は、転送された画像ファイルＰＦと音声ファイルＡＦを関連付けて管理することができる。

【0157】

実施の形態では、データ管理部３４は、音声データについてのテキストデータを、関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行う例を挙げた。
例えばＩＰＴＣメタデータにおけるディスクリプション／キャプションフィールドにボイスメモの内容をテキスト化したテキストデータを記述するようにする。
これは例えばユーザのコピー／ペースト操作により実行したり（図２５のステップＳ２４１）、テキスト化に応じて自動的に行ったりする（図２１のステップＳ１１６、図２４のステップＳ２０９）。
これにより撮像画像に対するキャプションの一部又は全部としてテキストデータを活用できる。ボイスメモの内容がそのまま追加したいキャプションの内容となっていれば、ユーザにとっては、例えばキャプション編集画面５２でコピー／ペースト操作などで簡易にキャプション入力が完了できる。或いはユーザがキャプション入力を行わなくとも既にキャプションが入力されている状態とすることができる。これらによりＦＴＰサーバ４へのアップロードまでのキャプション入力が面倒なものとならないようにすることができる。

【0158】

実施の形態では、データ管理部３４は、音声データについてのテキストデータが取得されたことに応じて自動的に、該テキストデータを関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行う例を挙げた。
例えばＩＰＴＣメタデータにおけるディスクリプション／キャプションフィールドにボイスメモの内容をテキスト化したテキストデータを自動的に記述するようにする（図２１のステップＳ１１６、図２４のステップＳ２０９）。
これによりユーザにとっては、例えばキャプション編集画面５２によるキャプション入力を不要にでき、或いはわずかな追加入力を行う程度にすることができる。
また自動アップロードを考えると、テキストデータが自動的にＩＰＴＣメタデータにおけるキャプションのデータとされることは、ＦＴＰサーバ４側でも、キャプションデータによりボイスメモの内容を確認できることになり、画像に関する情報をカメラマンからＦＴＰサーバ４側のスタッフに伝えるためには極めて便利なものとなる。

【0159】

実施の形態では、データ管理部３４は、テキストデータを、既に入力されているキャプションデータの後に追加する例を挙げた。
ＩＰＴＣメタデータにおけるディスクリプション／キャプションフィールドに自動的にテキストデータを追加する場合に、既に存在するキャプションデータの末尾以降に記述することで、既に存在するキャプションデータを無駄にしないようにできる。

【0160】

実施の形態では、ＵＩ制御部３１は、音声データをテキスト化したテキストデータを、自動的に画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理をオン／オフすることのできるユーザインタフェース環境を提供する例を挙げた。
ユーザは使用事情に応じて、図１６のボイスメモ自動キャプション付与のオン／オフ操作により、テキストデータの自動的なキャプションへの追加を行うか否かを任意に設定できることになる。従ってボイスメモの使用目的などに合わせて使い分けることができる。例えばボイスメモの内容はカメラマンの個人的なメモにしたい場合など、キャプションデータに含ませないことが可能になる。

【0161】

実施の形態では、データ管理部３４が音声データについてテキスト取得部で取得したテキストデータを画像データに対応するメタデータとする処理を行った後に、画像データとメタデータをＦＴＰサーバ４にアップロードする処理を行うアップロード処理部３５を備えるものとした。
図２２（及び図２３）の処理、或いは図２６（及び図２３）の処理としてアップロードが行われるが、この場合にボイスメモをテキスト化したテキストデータがアップロードする画像ファイルに含まれることになる。従ってＦＴＰサーバ４側でアップロードされた画像ファイルを確認する人は、テキストによりボイスメモの内容を確認でき、ボイスメモ音声を聞かなくとも、カメラマンによる注釈等を知ることができる。

【0162】

実施の形態では、アップロード処理部３５は、画像データとメタデータに加えて音声データもＦＴＰサーバ４にアップロードする処理を行う場合があるとした。
図２３のアップロードファイルの準備処理において、ステップＳ１４９では音声ファイルもアップロード対象とされる。これによりボイスメモ自体もアップロードされるため、ボイスメモをＦＴＰサーバ４側で利用したい場合に便利なものとなる。

【0163】

実施の形態では、アップロード処理部３５は、データ管理部３４が音声データについてテキスト取得部３３で取得したテキストデータを画像データに対応するメタデータとする処理を行った後に、画像データとメタデータを自動的にＦＴＰサーバ４にアップロードする処理を行う場合があるとした。
例えば図２２のステップＳ１２１以降の処理で自動アップロード処理が行われる。これにより、ユーザにとっては撮像装置からの画像ファイル等の転送からＦＴＰサーバ４へのアップロードまでを、殆ど手間なく完了させることができる。またその場合、ボイスメモをテキスト化したテキストデータもアップロードされることになるため、ボイスメモの内容をアップロード先で有効活用できることになる。

【0164】

実施の形態では、ＵＩ制御部３１が、ボイスメモテキストがメタデータに付加された後に画像データとメタデータをＦＴＰサーバ４にアップロードする処理を自動的に行うか否かを設定できるユーザインタフェース環境を提供する例を挙げた。
ユーザは使用事情に応じて、図１９の自動ＦＴＰアップロード画面で自動アップロードを行うか否かを任意に設定できる。そして例えば図２２のステップＳ１２０で自動ＦＴＰアップロードの機能がオンとされている場合に、ステップＳ１２１以降の処理で自動アップロード処理が行われるようにしている。
これによりユーザは使用事情に応じて、自動アップロードを実行させることができる。例えばキャプション編集等を追加で行いたいような場合は、自動アップロードをオフにすればよい。

【0165】

実施の形態では、ＵＩ制御部３１は、さらに音声データをアップロードするか否かを設定できるユーザインタフェース環境を提供するものとした。
ユーザは使用事情に応じて、図２０の自動ＦＴＰアップロード画面でボイスメモとしての音声データである音声ファイルＡＦをアップロードするか否かを任意に設定できる。そして例えば図２３のステップＳ１４６では、その設定を確認して音声ファイルＡＦがアップロード対象とされるか否かが決定される。
これによりユーザは使用事情に応じて、音声ファイルＡＦの扱いを設定できる。例えばボイスメモは個人的なメモとして使用したい場合は、ボイスメモがアップロードされないようにすればよい。逆にボイスメモをアップロード先への通知等として使用した場合は、アップロード対象となるように設定すれば良い。

【0166】

実施の形態では、ＵＩ制御部３１は、撮像装置１から送信される画像データ及び該画像データに関連する音声データを受信した後に、ボイスメモテキストを表示させる例を挙げた。
例えばＵＩ制御部３１は、図７のキャプション編集画面５２において、ボイスメモ欄１３３のボイスメモテキスト領域１３４にはボイスメモテキストを表示させる。
これによりユーザはボイスメモの内容を、音声再生させずに確認できることになり、アップロードまでの作業の効率化が実現される。

【0167】

実施の形態のＵＩ制御部３１は、音声データについて音声再生を実行させるユーザインタフェース環境を提供する例とした。
例えばＵＩ制御部３１は、図７のキャプション編集画面５２において、ボイスメモ欄１３３には再生ボタン１３５を表示させ、ユーザの再生操作を可能とする。そして再生操作に応じて図９の状態で音声再生を実行させる（図２５のステップＳ２４２）。
これによりユーザはボイスメモの内容を音声で確認できる。仮にテキスト化ができない場合にもボイスメモの内容を確認できることになる。

【0168】

実施の形態では情報処理装置２については多様な機器が想定されるが、特にはスマートフォンやタブレット機器などの携帯端末装置であることが望ましい。
情報処理装置２がスマートフォンやタブレット機器などの携帯端末装置であることで、カメラマンはイベント会場、取材現場等で、情報処理装置２を用いてＦＴＰ設定情報を撮像装置１に転送し、撮像装置１からＦＴＰサーバ４にアップロードする環境を容易に構築できることになる。

【0169】

また実施の形態では、情報処理装置２は、撮像装置１から転送されてきた画像ファイルＰＦと音声ファイルＡＦを取り込んで、ボイスメモをボイスメモテキストに変換する例で説明したが、このような処理を行うボイスメモは、必ずしも撮像装置１から直接転送されたものでなくてもよい。例えば撮像装置１からの画像ファイルＰＦと音声ファイルＡＦが、他の機器に転送された後、さらに当該他の機器から情報処理装置２に転送された場合にも、上述の各処理を行うことができる。
即ち情報処理装置２では、外部機器から送信されてきた音声データを受信した後の処理として、上述の各処理がおこなわれるようにすればよい。
また撮像装置１ではなく、画像再生装置、編集装置、他の情報処理装置等から画像データと、たとえばボイスメモとしての音声データが転送されてきた場合に、情報処理装置２が、上述のボイスメモテキスト化や表示、ＦＴＰアップロード等を行うようにすることも考えられる。

【0170】

実施の形態のプログラムは、図２１から図２７のような処理を、例えばＣＰＵ、ＤＳＰ等、或いはこれらを含むデバイスに実行させるプログラムである。
即ち実施の形態のプログラムは、音声データをテキスト化したテキストデータを取得するテキスト化処理と、撮像装置１から送信される画像データ及び該画像データに関連する音声データを受信した後に、音声データについてテキスト化処理で取得したテキストデータを、画像データに対応するメタデータとする処理とを情報処理装置に実行させるプログラムである。
このようなプログラムにより、上述した情報処理装置２を、例えば携帯端末装置やパーソナルコンピュータ、その他の情報処理が実行できる機器において実現できる。

【0171】

このような情報処理装置２を実現するプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのＨＤＤや、ＣＰＵを有するマイクロコンピュータ内のＲＯＭ等に予め記録しておくことができる。
あるいはまた、フレキシブルディスク、ＣＤ－ＲＯＭ(Compact Disc Read Only Memory)、ＭＯ(Magneto Optical)ディスク、ＤＶＤ(Digital Versatile Disc)、ブルーレイディスク（Blu-ray Disc：登録商標）、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、ＬＡＮ(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。

【0172】

またこのようなプログラムによれば、実施の形態の情報処理装置２の広範な提供に適している。例えばスマートフォンやタブレット等の携帯端末装置、携帯電話機、パーソナルコンピュータ、ゲーム機器、ビデオ機器、ＰＤＡ（Personal Digital Assistant）等にプログラムをダウンロードすることで、当該スマートフォン等を、本開示の情報処理装置２として機能させることができる。

【0173】

なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。

【0174】

なお本技術は以下のような構成も採ることができる。
（１）
音声データをテキスト化したテキストデータを取得するテキスト取得部と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキスト取得部で取得したテキストデータを、前記画像データに対応するメタデータとする処理を行うデータ管理部と、を備えた
情報処理装置。
（２）
前記テキスト取得部は、画像データ及び該画像データに関連する音声データを受信することに応じて、前記音声データをテキスト化したテキストデータを取得する処理を行う
上記（１）に記載の情報処理装置。
（３）
前記テキスト取得部は、画像データを指定する操作に応じて、前記音声データをテキスト化したテキストデータを取得する処理を行う
上記（１）又は（２）に記載の情報処理装置。
（４）
前記データ管理部は、画像データと音声データの受信順序に応じて、画像データに関連付けられる音声データを判別する
上記（１）から（３）のいずれかに記載の情報処理装置。
（５）
前記データ管理部は、画像データに付加されたメタデータにより、該画像データに関連付けられる音声データを判別する
上記（１）から（３）のいずれかに記載の情報処理装置。
（６）
前記データ管理部は、音声データについてのテキストデータを、関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行う
上記（１）から（５）のいずれかに記載の情報処理装置。
（７）
前記データ管理部は、音声データについてのテキストデータが取得されたことに応じて自動的に、該テキストデータを関連付けられた画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理を行う
上記（１）から（６）のいずれかに記載の情報処理装置。
（８）
前記データ管理部は、テキストデータを、既に入力されているキャプションデータの後に追加する
上記（７）に記載の情報処理装置。
（９）
音声データをテキスト化したテキストデータを、自動的に画像データに付加されたメタデータにおけるキャプションデータの一部として追加する処理をオン／オフすることのできるユーザインタフェース環境を提供するユーザインタフェース制御部を備えた
上記（７）又は（８）に記載の情報処理装置。
（１０）
前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後に、前記画像データと前記メタデータをサーバ装置にアップロードする処理を行うアップロード処理部を備えた
上記（１）から（９）のいずれかに記載の情報処理装置。
（１１）
前記アップロード処理部は、前記画像データと前記メタデータに加えて前記音声データもサーバ装置にアップロードする処理を行う
上記（１０）に記載の情報処理装置。
（１２）
前記アップロード処理部は、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後に、前記画像データと前記メタデータを自動的にサーバ装置にアップロードする処理を行う
上記（１０）又は（１１）に記載の情報処理装置。
（１３）
前記アップロード処理部が、前記データ管理部が前記音声データについて前記テキスト取得部で取得したテキストデータを前記画像データに対応するメタデータとする処理を行った後において前記画像データと前記メタデータをサーバ装置にアップロードする処理を自動的に行うか否かを設定できるユーザインタフェース環境を提供するユーザインタフェース制御部を備えた
上記（１２）に記載の情報処理装置。
（１４）
前記ユーザインタフェース制御部は、さらに音声データをアップロードするか否かを設定できるユーザインタフェース環境を提供する
上記（１３）に記載の情報処理装置。
（１５）
前記音声データについて前記テキスト取得部で取得したテキストデータを表示させるユーザインタフェース制御部を備えた
上記（１）から（１４）のいずれかに記載の情報処理装置。
（１６）
前記ユーザインタフェース制御部は、前記音声データについて音声再生を実行させるユーザインタフェース環境を提供する
上記（１５）に記載の情報処理装置。
（１７）
携帯端末装置である
上記（１）から（１６）のいずれかに記載の情報処理装置。
（１８）
音声データをテキスト化したテキストデータを取得するテキストデータ取得処理と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキストデータ取得処理で取得したテキストデータを、前記画像データに対応するメタデータとする処理と、
を情報処理装置が実行する情報処理方法。
（１９）
音声データをテキスト化したテキストデータを取得するテキスト化処理と、
外部装置から送信される画像データ及び該画像データに関連する音声データを受信した後に、前記音声データについて前記テキスト化処理で取得したテキストデータを、前記画像データに対応するメタデータとする処理と、
を情報処理装置に実行させるプログラム。

【符号の説明】

【0175】

１撮像装置
２情報処理装置
４ＦＴＰサーバ
５テキスト変換エンジン
６ネットワーク
３１ＵＩ制御部
３２通信制御部
３３ＦＴＰ設定管理部
３４画像管理部
３５アップロード処理部
５０画像一覧画面
５１個別画像画面
５２キャプション編集画面
５３ボイスメモ自動キャプション付与設定画面
５５メニュー画面
５６設定画面
５７自動アップロード設定画面
７１ＣＰＵ
７９記憶部
８０通信部
８３テキスト変換エンジン

【図1】