(58)【調査した分野】(Int.Cl.,DB名)
音声のデータと画像のデータとを少なくとも含む処理対象のデータのうち、前記音声のデータに基づいて、前記画像のデータを加工することで前記処理対象のデータを編集する編集手段と、
前記処理対象のデータに含まれる前記音声のデータに基づいて、当該音声の内容を示すテキストのデータを生成するテキスト生成手段と、
生成された前記テキストのデータにおける当該テキストを、所定単位の文字列に区分して、1以上の文字列を編集の対象として決定する編集対象決定手段と、
前記編集を支援するための所定の編集用画面を表示する制御を実行する表示制御手段と、
を備え、
前記編集手段は、前記編集の対象として決定された前記1以上の文字列に基づいて、前記処理対象のデータを編集し、
前記表示制御手段は、前記編集の対象として決定された前記1以上の文字列の夫々を示すオブジェクトを、前記編集用画面に、時系列に、かつ選択可能に表示させる制御を実行し、
前記編集対象決定手段は、前記編集用画面に時系列に表示された1以上の前記オブジェクトのうち、前後関係にある第1オブジェクトと第2オブジェクトとが重なり合うことで1つの第3オブジェクトが生成されると、前記第1オブジェクトにより示される第1文字列と、前記第2オブジェクトにより示される第2文字列とを結合させた第3文字列を、前記第3オブジェクトにより示される文字列として、前記編集の対象に決定する、
情報処理装置。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について、図面を用いて説明する。
【0011】
なお、以下において、単に「画像」と呼ぶ場合には、「動画像」と「静止画像」との両方を含むものとする。
また、「動画像」には、次の第1処理乃至第3処理の夫々により表示される画像を含むものとする。
第1処理とは、平面画像(2D画像)におけるオブジェクト(例えばアニメのキャラクタ)の夫々の動作に対して、複数枚からなる一連の静止画像を時間経過と共に連続的に切り替えて表示させる処理をいう。具体的には例えば、2次元アニメーション、いわゆるパラパラ漫画の原理による処理が第1処理に該当する。
第2処理とは、立体画像(3Dモデルの画像)におけるオブジェクト(例えばアニメのキャラクタ)の夫々の動作に対応するモーションを設定しておき、時間経過と共に当該モーションを変化させて表示させる処理をいう。具体的には例えば、3次元アニメーションが第2処理に該当する。
第3処理とは、オブジェクト(例えばアニメのキャラクタ)の夫々の動作に対応した映像(即ち動画像)を準備しておき、時間経過と共に当該映像を流していく処理をいう。
ここで、「映像(即ち動画像)」は、複数のフレームやフィールド等の画像(以下、「単位画像」と呼ぶ)から構成される。なお以下の例では、単位画像はフレームであるものとして説明する。
【0012】
まず
図1乃至
図3を参照して、後述する
図5の情報処理システムにより実現可能なサービス(以下、「本サービス」と呼ぶ)の概要について説明する。
【0013】
図1は、本発明の一実施形態に係るサーバを含む、情報処理システムにより実現可能な本サービスの一例の概要を示す図である。
【0014】
本サービスは、AVデータの編集を行うユーザU(
図5を参照)に対して、サービス提供者G(
図5を参照)により提供されるサービスの一例である。
本サービスでは、音声のデータと画像のデータとを含むAVデータDのうち音声のデータが、編集可能なテキストのデータT(以下、「テキストデータT」と呼ぶ)として出力される。
出力されたテキストデータTは、ユーザUによる所定の設定操作によって、再生されるAVデータDの任意のタイミングで、任意の位置に重畳的に表示させることができる。
【0015】
ここで、「音声のデータ」には、被写体としてAVデータDに登場する人物Mや、ナレーションのように声のみで登場する人物Mにより発せられた音声がデータ化されたものが含まれる。また、人間以外の生物や物等から発せられた音声がデータ化されたものも、「音声のデータ」に含まれる。
具体的には例えば、犬や猫の鳴き声、レストランのBGM(Back Ground Music)、自動車のエンジン音等は、いずれも音声のデータに含まれる。
【0016】
ユーザUは、専門的な知識を必要とすることなく、自分のスマートフォン等の端末2(以下、「ユーザ端末2」と呼ぶ)を操作するだけで、編集の対象とするAVデータDに含まれる音声のデータをテキストデータTとして出力することができる。また、ユーザUは、出力したテキストデータTを編集することでAVデータDを編集することができる。
【0017】
図1には、本サービスを利用するユーザUのユーザ端末2に表示されるUI(User Interface)の一例が示されている。
図1に示すUIは、表示領域F1と表示領域F2とを少なくとも含むように構成されている。
表示領域F1には、編集対象となるAVデータDが再生可能な状態で表示されている。なお、
図1のAVデータDの内容は、被写体として登場している人物Mが、AVデータDの視聴者に向けて様々な話をするものになっている。
表示領域F2には、編集対象となるAVデータDに含まれる音声のデータをテキストデータ化した、テキストデータTの一部が表示されている。具体的には、表示領域F2には、n個(nは1以上の整数値)の文字列に区分されたテキストデータt1乃至tn(以下、「区分テキストデータt1乃至tn」と呼ぶ)のうち、区分テキストデータt1乃至t7が表示されている。
即ち、表示領域F2には、「はいどうも」という区分テキストデータt1と、「タケノコです」という区分テキストデータt2と、「今日はですねこの」という区分テキストデータt3と、「usbcハブを」という区分テキストデータt4と、「紹介させていただこうと」という区分テキストデータt5と、「思います」という区分テキストデータt6と、「見てください」という区分テキストデータt7とが表示されている。
なお、
図1の例では、「書き出し」と表記されたボタンB1が、区分テキストデータt6の上に重なるようにして表示されている。このため、
図1に示す表示のタイミングでは、区分テキストデータt6が視認できない状態になっている。
また、
図1の例では、区分テキストデータt1乃至tnのうち区分テキストデータt1乃至t7のみが表示されている。ただし、ユーザUが、表示領域F2を上方向にスワイプする操作を行うことで、区分テキストデータt8乃至tnを順次表示させることができる。
【0018】
ここで、ユーザUが、表示領域F2の「書き出し」と表記されたボタンB1をタップする操作を行うと、図示せぬテキストデータTの全文を、所定形式で出力することができる。
具体的には例えば、ユーザUが、ボタンB1をタップする操作を行うと、テキストデータTの全文として、「はいどうも タケノコです 今日はですねこの usbcハブを 紹介させていただこうと 思います これがですね 見てください hdmiの ケーブルも ガッツリささですね 僕も 何度か 使用しているんですけどね これがね 接続不良が 全然 起きないんですよ」といった内容のテキストデータTが所定形式で出力される。
なお、ユーザUがテキストデータTの全文を出力する際の形式は特に限定されない。例えば、ユーザUがテキストデータTの全文を出力する際の形式として、テキストデータTの全文をそのまま文章としてユーザ端末2に表示させることもできるし、データファイルとして出力することもできる。
【0019】
ユーザUは、区分テキストデータt1乃至tnのうち、任意の区分テキストデータtk(kは1以上n以下の任意の整数値)を指定して個別に編集することもできる。
以下、
図2及び
図3を参照して、区分テキストデータtkを個別に編集する手法について説明する。
【0020】
図2は、区分テキストデータを個別に編集する手法のうち、前後する区分テキストデータを結合する手法の一例を示す図である。
【0021】
図2(A)には、区分テキストデータtkと、区分テキストデータtk+1とを結合させる手法の一例が示されている。
図2(B)には、区分テキストデータtkと、区分テキストデータtk+1とが結合された後の状態の一例が示されている。
図2(A)に示す手法では、ユーザUは、区分テキストデータtkを示す編集用のオブジェクトJkに、区分テキストデータtk+1を示す編集用のオブジェクトJk+1をドラッグする操作を行う。これにより、区分テキストデータtkと区分テキストデータtk+1とを結合させることができる。
具体的には、
図2(A)に示すように、ユーザUは、区分テキストデータt1を示す編集用のオブジェクトJ1の上に、区分テキストデータt2を示す編集用のオブジェクトJ2を重ねるようにドラッグする。
これにより、
図2(B)に示すように、「はいどうも」という区分テキストデータt1に、「タケノコです」という区分テキストデータt2が結合されて、「はいどうもタケノコです」という区分テキストデータt1が表示される。
また、上述のドラッグ操作により、区分テキストデータt2は、区分テキストデータt1に結合されるので、その下の区分テキストデータt3乃至t8が順次繰り上がって表示される。即ち、
図2(A)に示す区分テキストデータt3乃至t8の夫々は、
図2(B)に示す区分テキストデータt2乃至t7の夫々として表示される。さらに、
図2(A)に示す状態(上述のドラッグ操作の前を示す状態)では表示されていなかった「見てください」という区分テキストデータt9が、
図2(B)に示す状態では区分テキストデータt8に繰り上がって表示される。
【0022】
上述したように、ユーザUは、区分テキストデータt1乃至tnのうち任意の区分テキストデータtkを編集対象として指定して個別に編集することができる。
具体的には例えば、ユーザUは、
図2(B)に示すように、区分テキストデータt1を示す編集用のオブジェクトJ1の右端に「・・・」と表記されたボタンB2をタップする操作を行う。これにより、ユーザUは、区分テキストデータt1を編集対象として指定して個別に編集することができる。
【0023】
図3は、区分テキストデータを個別に編集する手法のうち、指定された区分テキストデータを編集する手法の一例を示す図である。
【0024】
図3(A)には、ユーザUが区分テキストデータtkを編集する様子が示されている。上述した
図2(B)に示すボタンB2がタップされると、表示領域F2には、
図3(A)に示すような、区分テキストデータtkを編集するためのボタンB4が表示される。
具体的には例えば、
図3(A)に示すように、区分テキストデータt1が編集対象として指定されると、区分テキストデータt1を示す編集用のオブジェクトJ1がアクティブになる。また、それとともに、入力文字を選択するためのボタンB4が表示領域F2に表示される。
これにより、ユーザUは、区分テキストデータt1を自由に編集することができる。なお、
図3(A)には、「はいどうもタケノコです」という文章が「はいどうもタケノコで」という文章に編集された例が示されている。
ユーザUは、編集作業が完了した場合には、その旨を示すボタンB3をタップする操作を行う。これにより、ユーザUは、編集対象として指定している区分テキストデータt1に対応する表示用のオブジェクトであるテロップP1をAVデータDに重畳させて表示させることができる。
【0025】
図3(B)には、区分テキストデータt1を示す編集用のオブジェクトJ1の右側に、ボタンB5とボタンB6とが表示されている。ボタンB5は、ユーザUが、編集後の区分テキストデータtkに対応するテロップPkをAVデータDに表示させる時間帯を設定する際にタップ等するボタンである。ボタンB6は、ユーザUが、テロップPkをAVデータDに表示させるか否かを設定する際にタップ等するボタンである。
図3(B)の例において、ユーザUがボタンB5をタップする操作を行うと、例えば
図4(A)に示すようなUIがユーザ端末2に表示される。即ち、ユーザ端末2には、ユーザUがAVデータDにテロップP1を表示させる時間帯を設定するためのUIが表示される。なお、ユーザUがAVデータDにテロップP1を表示させる時間帯を設定するためのUIの具体例については、
図4(A)を参照して後述する。
また、ユーザUがボタンB6をタップする操作を行うと、AVデータDにテロップP1を表示させないようにすることができる。
【0026】
図4は、区分テキストデータを個別に編集する手法のうち、テロップをAVデータに表示させる時間帯の設定、及びテロップの見た目の設定を夫々行うための手法の一例を示す図である。
【0027】
図4(A)には、
図3に例示する、「はいどうもタケノコで」という区分テキストデータt1に対応するテロップP1を、AVデータDに重畳させて表示させる時間帯を設定するためのUIの一例が示されている。
図4(A)に示すように、ユーザUは、表示領域F2に示すタイムラインL上の設定バーR1及びR2の夫々をドラッグする操作を行う。これにより、ユーザUは、テロップP1をAVデータDに重畳させて表示させる時間帯を自由に設定することができる。
【0028】
図4(B)の表示領域F2には、テロップPをAVデータDに表示させるときの見た目を設定するためのUIが表示されている。
具体的には、
図4(B)の表示領域F2には、UIとして、テロップPのフォントと、テロップPのフォントカラーとの夫々を設定する操作を行うためのボタンとして、ボタンB7と、ボタンB8との夫々が表示されている。
これにより、ユーザUは、AVデータDに表示させるテロップPの見た目を自由に設定することができる。具体的には例えば、
図4(B)に例示するように、AVデータDに重畳するように表示された「おはようございます」というテロップPについて、フォントを「ゴシック1」とし、フォントカラーを「白」とする設定を行うことができる。
【0029】
次に、本サービスを実現させる情報システムの構成について説明する。
図5は、本発明の一実施形態に係るサーバを含む、情報処理システムの構成の一例を示す図である。
【0030】
図5に示す情報処理システムは、サーバ1と、ユーザ端末2とを含むように構成されている。
サーバ1、及びユーザ端末2の夫々は、インターネット等の所定のネットワークNを介して相互に接続されている。
【0031】
サーバ1は、サービス提供者Gにより管理される情報処理装置である。サーバ1は、ユーザ端末2と適宜通信をしながら、本サービスを実現するための各種処理を実行する。
【0032】
ユーザ端末2は、ユーザUにより操作される情報処理装置であって、例えばパーソナルコンピュータ、スマートフォン、タブレット等で構成される。
【0033】
図6は、
図5の情報処理システムのうち、サーバのハードウェア構成の一例を示すブロック図である。
【0034】
サーバ1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入出力インターフェース15と、入力部16と、出力部17と、記憶部18と、通信部19と、ドライブ20とを備えている。
【0035】
CPU11は、ROM12に記録されているプログラム、又は、記憶部18からRAM13にロードされたプログラムに従って各種の処理を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
【0036】
CPU11、ROM12及びRAM13は、バス14を介して相互に接続されている。このバス14にはまた、入出力インターフェース15も接続されている。入出力インターフェース15には、入力部16、出力部17、記憶部18、通信部19及びドライブ20が接続されている。
【0037】
入力部16は、例えばキーボード等により構成され、各種情報を出力する。
出力部17は、液晶等のディスプレイやスピーカ等により構成され、各種情報を画像や音声として出力する。
記憶部18は、DRAM(Dynamic Random Access Memory)等で構成され、各種データを記憶する。
通信部19は、インターネットを含むネットワークNを介して他の装置(例えば
図5のユーザ端末2等)との間で通信を行う。
【0038】
ドライブ20には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア30が適宜装着される。ドライブ20によってリムーバブルメディア30から読み出されたプログラムは、必要に応じて記憶部18にインストールされる。
また、リムーバブルメディア30は、記憶部18に記憶されている各種データも、記憶部18と同様に記憶することができる。
【0039】
なお、図示はしないが、
図5のユーザ端末2も、
図6に示すハードウェア構成と同様の構成を有することができる。従って、ユーザ端末2のハードウェア構成の説明については省略する。
【0040】
このような
図6のサーバ1の各種ハードウェアと各種ソフトウェアとの協働により、サーバ1における編集受付処理を含む各種処理の実行が可能になる。その結果、サービス提供者Gは、上述の本サービスを提供することができる。
【0041】
「編集受付処理」とは、上述の本サービスを実現させる処理のことをいう。
以下、サーバ1において処理の実行が制御される、編集受付処理を実行するための機能構成について説明する。
【0042】
図7は、
図6のサーバの機能的構成のうち、編集受付処理を実行するための機能的構成の一例を示す機能ブロック図である。
【0043】
図7に示すように、サーバ1のCPU11においては、編集受付処理の実行が制御される場合、取得部101と、編集部102と、テキスト生成部103と、対象決定部104と、表示制御部105とが機能する。
また、サーバ1の記憶部18の一領域には、AVデータDB181が設けられている。AVデータDB181には、ユーザ端末2で作成又は取得された1以上のAVデータDが記憶されて管理されている。
【0044】
取得部101は、音声のデータと画像のデータとを少なくとも含む処理対象のAVデータDを取得する。取得部101により取得されたAVデータDは、AVデータDB181に記憶されて管理される。
【0045】
編集部102は、取得部101により取得された処理対象のAVデータDのうち、音声のデータに基づいて画像のデータを加工することで、処理対象のAVデータDを編集する。具体的には、編集部102は、画像のデータの加工として、例えば上述の
図2乃至
図4に示すような編集を行う。
また、編集部102は、後述する対象決定部104により編集対象として決定された区分テキストデータt1乃至tnに基づいて、処理対象のAVデータDを編集する。
【0046】
テキスト生成部103は、取得部101により取得された処理対象のAVデータDに含まれる音声のデータに基づいて、音声のデータの音声の内容を示すテキストデータTを生成する。
具体的には、テキスト生成部103は、取得部101により取得された処理対象のAVデータDに含まれる音声のデータを認識して、その音声のデータの内容を示すテキストデータTを生成する。例えば上述の
図1乃至
図4の例では、テキスト生成部103は、「はいどうも タケノコです 今日はですねこの usbcハブを 紹介させていただこうと 思います これがですね 見てください hdmiの ケーブルも ガッツリささですね 僕も 何度か 使用しているんですけどね これがね 接続不良が 全然 起きないんですよ」という内容のテキストデータTを生成する。
なお、テキスト生成部103がテキストデータTを生成する際に用いられる手法は特に限定されない。例えば従来の文字起こしの手法を採用することもできるし、AI(人工知能)による自動認識の手法を採用することもできる。
【0047】
対象決定部104は、テキスト生成部103により生成されたテキストデータTを、区分テキストデータt1乃至tnに区分して、1以上の区分テキストデータtを編集対象として決定する。
ここで、対象決定部104による編集対象の決定は、自動的に行われてもよいし、ユーザUに選択させてもよい。編集対象が自動的に決定される場合の具体的手法は特に限定されないが、例えば所定のアルゴリズムや、AI(人工知能)による機械学習等の技術が用いられる。
【0048】
表示制御部105は、編集部102による編集を支援するための所定のUIを表示する制御を実行する。
具体的には例えば、表示制御部105は、編集部102による編集を支援するための所定のUIとして、
図1乃至
図4に示すUIをユーザ端末2に表示させる制御を実行する。
【0049】
次に、
図8を参照して、
図7の機能的構成を有するサーバ1により実行が制御される編集受付処理の流れについて説明する。
図8は、
図7の機能的構成を有するサーバ1により実行が制御される編集受付処理の流れを示すフローチャートである。
【0050】
即ち、
図7のサーバ1により編集受付処理の実行が制御される場合には、ステップS1において、サーバ1のテキスト生成部103は、処理対象となるAVデータDが選択されたか否かを判定する。
所定のAVデータDが処理対象として選択された場合には、ステップS1において「YES」と判定されて、処理はステップS2に進む。
これに対して、処理対象となるAVデータDが選択されていない場合には、ステップS1において「NO」と判定されて、所定のAVデータDが処理対象として選択されるまで、ステップS1の処理の制御が繰り返し実行される。
【0051】
ステップS2において、サーバ1のテキスト生成部103は、処理対象として選択されたAVデータDに含まれる音声のデータを認識する。
ステップS3において、サーバ1のテキスト生成部103は、処理対象として選択されたAVデータDに含まれる音声のデータに基づいて、音声のデータの音声の内容を示すテキストデータTを生成する。
ステップS4において、サーバ1の対象決定部104は、ステップS3でテキスト生成部103により生成されたテキストデータTを、区分テキストデータt1乃至tnに区分する。
ステップS5において、サーバ1の対象決定部104は、ステップS4で区分した区分テキストデータt1乃至tnのうち、1以上の区分テキストデータtを編集対象として決定する。
ステップS6において、サーバ1の表示制御部105は、編集部102による編集を支援するためのUIとして、操作対象となる1以上の区分テキストデータtを含むUIをユーザ端末2に表示する制御を実行する。
【0052】
ステップS7において、サーバ1の編集部102は、区分テキストデータtを含むUIを介して、処理対象となるAVデータDの区分テキストデータが編集されたか否かを判定する。処理対象となるAVデータDの区分テキストデータが編集された場合には、ステップS7において「YES」と判定されて、処理はステップS8に進む。
これに対して、処理対象となるAVデータDの区分テキストデータが編集されていない場合には、ステップS7において「NO」と判定されて、処理対象となるAVデータDの区分テキストデータが編集されるまでステップS7の処理の制御が繰り返し実行される。
【0053】
ステップS8において、サーバ1の編集部102は、区分テキストデータtに対する編集を受付ける。
これにより、サーバ1により実行が制御される編集受付処理が終了する。
【0054】
以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
【0055】
例えば、上述の実施形態におけるAVデータDに含まれる音声のデータや画像のデータは例示に過ぎず、あらゆるAVデータDを本サービスの対象とすることができる。
【0056】
また例えば、
図1乃至
図4では、AVデータDに登場する人物Mが1人のみ描画されているが、これは例示に過ぎない。AVデータDに登場する人物Mは複数人存在してもよい。
【0057】
また例えば、上述の実施形態におけるテキストデータT(即ち音声のデータ)の内容や、テキストデータTを構成する区分テキストデータt1乃至t7の夫々の区分単位や内容は例示に過ぎない。当然ながら上述の実施形態以外の区分単位や内容であってもよい。
【0058】
また例えば、
図2には、区分テキストデータt1と区分テキストデータt2とを結合させる手法として、区分テキストデータt1を示す編集用のオブジェクトJ1の上に、区分テキストデータt2を示す編集用のオブジェクトJ2を重ねるようにドラッグする手法が示されている。ただし、この手法以外にも、例えば区分テキストデータt2を示す編集用のオブジェクトJ2の上に、区分テキストデータt1を示す編集用のオブジェクトJ1を重ねるようにドラッグしてもよい。これにより、区分テキストデータt1と区分テキストデータt2とを結合させることができる。
【0059】
また、
図5に示すシステム構成や、
図6に示すサーバ1のハードウェア構成は、本発明の目的を達成するための例示に過ぎず、特に限定されない。
【0060】
また、
図7に示す機能ブロック図は、例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは、特に
図7の例に限定されない。
【0061】
また、機能ブロックの存在場所も、
図7に限定されず、任意でよい。
例えば、
図7の例において、編集受付処理の実行に必要となる機能ブロックは、サーバ1側が備える構成となっているが、これは例示に過ぎない。例えば本サービスの利用者専用のアプリケーションプログラムをユーザ端末2にインストールさせることにより、これらの機能ブロックの少なくとも一部をユーザ端末2側が備える構成としてもよい。
また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
【0062】
各機能ブロックの処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。
【0063】
このようなプログラムを含む記録媒体は、各ユーザにプログラムを提供するために装置本体とは別に配布される、リムーバブルメディアにより構成されるだけではなく、装置本体に予め組み込まれた状態で各ユーザに提供される記録媒体等で構成される。
【0064】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に添って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
【0065】
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものである。
【0066】
以上まとめると、本発明が適用される情報処理システムは、次のような構成を取れば足り、各種各様な実施形態を取ることができる。
即ち、本発明が適用される情報処理装置(例えば
図7のサーバ1)は、
音声のデータ(例えば音声のデータ)と画像のデータ(例えば画像のデータ)とを少なくとも含む処理対象のデータ(例えばAVデータD)のうち、前記音声のデータに基づいて、前記画像のデータを加工することで前記処理対象のデータを編集する編集手段(例えば
図7の編集部102)を備える。
【0067】
これにより、音声のデータと画像のデータとを含む処理対象のデータのうち、音声のデータに基づいて画像のデータを加工することで処理対象のデータを編集することができる。その結果、専門的な知識がない者であっても、動画共有サービスにアップロードするためのAVデータを簡単な操作で編集することが可能となる。
【0068】
また、前記処理対象のデータに含まれる前記音声のデータに基づいて、当該音声の内容を示すテキストのデータを生成するテキスト生成手段(例えば
図6のテキスト生成部103)と、
生成された前記テキストを所定単位の文字列に区分して、1以上の文字列を編集対象として決定する編集対象決定手段(例えば
図6の対象決定部104)と、
をさらに備え、
前記編集手段は、編集対象として決定された前記1以上の文字列に基づいて、前記処理対象のデータを編集することができる。
【0069】
これにより、処理対象のデータに含まれる音声のデータに基づいて、その音声の内容を示すテキストのデータが生成される。また、所定単位の文字列に区分されたテキストのデータに基づいて編集対象が決定される。その結果、専門的な知識がない者であっても、動画共有サービスにアップロードするためのAVデータを簡単な操作で編集することが可能となる。
【0070】
また、前記編集を支援するための編集用画面を表示する制御を実行する表示制御手段(例えば
図6の表示制御部105)をさらに備えることができる。
【0071】
これにより、処理対象のデータを編集するための画面がスマートフォン等の端末に表示させることができる。その結果、専門的な知識がない者であっても、スマートフォン等の端末に対する簡単な操作で、例えば動画共有サービスにアップロードするためのAVデータを容易に編集することが可能となる。
【0072】
また、前記表示制御手段は、
編集対象として決定された前記1以上の文字列の夫々を示すオブジェクトを、前記編集用画面に選択可能に表示させる制御を実行することができる。
【0073】
これにより、処理対象のデータを編集するための編集用画面に、編集対象として決定された1以上の文字列の夫々を示すオブジェクトが表示される。その結果、例えば動画共有サービスにアップロードするためのAVデータを簡単な操作で編集することが可能となる。
【課題】AVデータの編集を行うユーザが、AVデータに含まれる音声のデータを、テキストのデータとしてAVデータに重畳させて容易に表示可能とする情報処理装置及びプログラムを提供する。
【解決手段】情報処理装置において、編集部102は、音声のデータと画像のデータとを少なくとも含む処理対象のAVデータのうち、音声のデータに基づいて、画像のデータを加工してAVデータを編集する。テキスト生成部103は、音声のデータに基づいて、音声の内容を示すテキストデータを生成する。対象決定部104は、生成されたテキストデータを所定単位の文字列に区分して、1以上の区分テキストデータを編集対象として決定する。編集部102はさらに、決定した1以上の区分テキストデータに基づいて処理対象のAVデータを編集する。