特許6773349 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ カクテルメイク株式会社の特許一覧

特許6773349情報処理装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】6773349

(24)【登録日】2020年10月5日

(45)【発行日】2020年10月21日

(54)【発明の名称】情報処理装置及びプログラム

(51)【国際特許分類】

H04N 5/278 20060101AFI20201012BHJP

【ＦＩ】

H04N5/278

【請求項の数】3

【全頁数】15

(21)【出願番号】特願2019-222880(P2019-222880)

(22)【出願日】2019年12月10日

【審査請求日】2020年4月3日

【早期審査対象出願】

(73)【特許権者】

【識別番号】517242773

【氏名又は名称】カクテルメイク株式会社

(74)【代理人】

【識別番号】100205659

【弁理士】

【氏名又は名称】齋藤拓也

(74)【代理人】

【識別番号】100154748

【弁理士】

【氏名又は名称】菅沼和弘

(72)【発明者】

【氏名】松尾幸治

【審査官】西谷憲人

(56)【参考文献】

【文献】国際公開第２０１９／２３０２２５（ＷＯ，Ａ１）

【文献】特開２００７−０２７９９０（ＪＰ，Ａ）

【文献】特開２００２−３７４４９４（ＪＰ，Ａ）

【文献】特開２０１８−０９２３６５（ＪＰ，Ａ）

【文献】特開２０１７−０９０７１６（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｈ０４Ｎ５／２７８

Ｈ０４Ｎ５／２６２

(57)【特許請求の範囲】

【請求項1】

音声のデータと画像のデータとを少なくとも含む処理対象のデータのうち、前記音声のデータに基づいて、前記画像のデータを加工することで前記処理対象のデータを編集する編集手段と、
前記処理対象のデータに含まれる前記音声のデータに基づいて、当該音声の内容を示すテキストのデータを生成するテキスト生成手段と、
生成された前記テキストのデータにおける当該テキストを、所定単位の文字列に区分して、１以上の文字列を編集の対象として決定する編集対象決定手段と、
前記編集を支援するための所定の編集用画面を表示する制御を実行する表示制御手段と、
を備え、
前記編集手段は、前記編集の対象として決定された前記１以上の文字列に基づいて、前記処理対象のデータを編集し、
前記表示制御手段は、前記編集の対象として決定された前記１以上の文字列の夫々を示すオブジェクトを、前記編集用画面に、時系列に、かつ選択可能に表示させる制御を実行し、
前記編集対象決定手段は、前記編集用画面に時系列に表示された１以上の前記オブジェクトのうち、前後関係にある第１オブジェクトと第２オブジェクトとが重なり合うことで１つの第３オブジェクトが生成されると、前記第１オブジェクトにより示される第１文字列と、前記第２オブジェクトにより示される第２文字列とを結合させた第３文字列を、前記第３オブジェクトにより示される文字列として、前記編集の対象に決定する、
情報処理装置。

【請求項2】

前記第３オブジェクトは、前記編集を行うユーザの所定操作により、前記第１オブジェクトと前記第２オブジェクトとが重なり合うことで生成される、
請求項１に記載の情報処理装置。

【請求項3】

情報処理装置を制御するコンピュータに、
音声のデータと画像のデータとを少なくとも含む処理対象のデータのうち、前記音声のデータに基づいて、前記画像のデータを加工することで前記処理対象のデータを編集する編集ステップと、
前記処理対象のデータに含まれる前記音声のデータに基づいて、当該音声の内容を示すテキストのデータを生成するテキスト生成ステップと、
生成された前記テキストのデータにおける当該テキストを、所定単位の文字列に区分して、１以上の文字列を編集の対象として決定する編集対象決定ステップと、
前記編集を支援するための所定の編集用画面を表示する制御を実行する表示制御ステップと、
を含む制御処理を実行させるプログラムであって、
前記編集ステップでは、前記編集の対象として決定された前記１以上の文字列に基づいて、前記処理対象のデータを編集し、
前記表示制御ステップでは、前記編集の対象として決定された前記１以上の文字列の夫々を示すオブジェクトを、前記編集用画面に、時系列に、かつ選択可能に表示させる制御を実行し、
前記編集対象決定ステップでは、前記編集用画面に時系列に表示された１以上の前記オブジェクトのうち、前後関係にある第１オブジェクトと第２オブジェクトとが重なり合うことで１つの第３オブジェクトが生成されると、前記第１オブジェクトにより示される第１文字列と、前記第２オブジェクトにより示される第２文字列とを結合させた第３文字列を、前記第３オブジェクトにより示される文字列として、前記編集の対象に決定する、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置及びプログラムに関する。

【背景技術】

【0002】

従来より、ＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）データを視聴する者の理解を助けるための技術として、ＡＶデータに含まれる音声のデータをテキストのデータとしてＡＶデータに重畳させて表示させる技術は存在する（例えば特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１２−１０５２３４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、近年、いわゆる動画共有サービスの一般化に伴い、自身が編集したＡＶデータを動画共有サービスにアップロードする利用者が増える状況にある。このような利用者からは、ＡＶデータを簡単な操作で編集したいとする要望がある。

【0005】

本発明は、ＡＶデータの編集を行うユーザが、ＡＶデータに含まれる音声のデータを、テキストのデータとしてＡＶデータに重畳させて表示させる操作を容易に行うことができるようにすることを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するため、本発明の一態様の情報処理装置は、
音声のデータと画像のデータとを少なくとも含む処理対象のデータのうち、前記音声のデータに基づいて、前記画像のデータを加工することで前記処理対象のデータを編集する編集手段を備える。

【0007】

本発明の一態様のプログラムは、上述の本発明の一態様の情報処理装置に対応するプログラムである。

【発明の効果】

【0008】

本発明によれば、ＡＶデータの編集を行うユーザが、ＡＶデータに含まれる音声のデータを、テキストのデータとしてＡＶデータに重畳させて表示させる操作を容易に行うことができる。

【図面の簡単な説明】

【0009】

【図1】本発明の一実施形態に係るサーバを含む、情報処理システムにより実現可能な本サービスの一例の概要を示す図である。

【図2】区分テキストデータを個別に編集する手法のうち、前後する区分テキストデータを結合する手法の一例を示す図である。

【図3】区分テキストデータを個別に編集する手法のうち、指定された区分テキストデータを編集する手法の一例を示す図である。

【図4】区分テキストデータを個別に編集する手法のうち、テロップをＡＶデータに表示させる時間帯の設定、及びテロップの見た目の設定を夫々行うための手法の一例を示す図である。

【図5】本発明の一実施形態に係るサーバを含む、情報処理システムの構成の一例を示す図である。

【図6】図５の情報処理システムのうち、サーバのハードウェア構成の一例を示すブロック図である。

【図7】図６のサーバの機能的構成のうち、編集受付処理を実行するための機能的構成の一例を示す機能ブロック図である。

【図8】図７の機能的構成を有するサーバにより実行が制御される編集受付処理の流れを示すフローチャートである。

【発明を実施するための形態】

【0010】

以下、本発明の実施形態について、図面を用いて説明する。

【0011】

なお、以下において、単に「画像」と呼ぶ場合には、「動画像」と「静止画像」との両方を含むものとする。
また、「動画像」には、次の第１処理乃至第３処理の夫々により表示される画像を含むものとする。
第１処理とは、平面画像（２Ｄ画像）におけるオブジェクト（例えばアニメのキャラクタ）の夫々の動作に対して、複数枚からなる一連の静止画像を時間経過と共に連続的に切り替えて表示させる処理をいう。具体的には例えば、２次元アニメーション、いわゆるパラパラ漫画の原理による処理が第１処理に該当する。
第２処理とは、立体画像（３Ｄモデルの画像）におけるオブジェクト（例えばアニメのキャラクタ）の夫々の動作に対応するモーションを設定しておき、時間経過と共に当該モーションを変化させて表示させる処理をいう。具体的には例えば、３次元アニメーションが第２処理に該当する。
第３処理とは、オブジェクト（例えばアニメのキャラクタ）の夫々の動作に対応した映像（即ち動画像）を準備しておき、時間経過と共に当該映像を流していく処理をいう。
ここで、「映像（即ち動画像）」は、複数のフレームやフィールド等の画像（以下、「単位画像」と呼ぶ）から構成される。なお以下の例では、単位画像はフレームであるものとして説明する。

【0012】

まず図１乃至図３を参照して、後述する図５の情報処理システムにより実現可能なサービス（以下、「本サービス」と呼ぶ）の概要について説明する。

【0013】

図１は、本発明の一実施形態に係るサーバを含む、情報処理システムにより実現可能な本サービスの一例の概要を示す図である。

【0014】

本サービスは、ＡＶデータの編集を行うユーザＵ（図５を参照）に対して、サービス提供者Ｇ（図５を参照）により提供されるサービスの一例である。
本サービスでは、音声のデータと画像のデータとを含むＡＶデータＤのうち音声のデータが、編集可能なテキストのデータＴ（以下、「テキストデータＴ」と呼ぶ）として出力される。
出力されたテキストデータＴは、ユーザＵによる所定の設定操作によって、再生されるＡＶデータＤの任意のタイミングで、任意の位置に重畳的に表示させることができる。

【0015】

ここで、「音声のデータ」には、被写体としてＡＶデータＤに登場する人物Ｍや、ナレーションのように声のみで登場する人物Ｍにより発せられた音声がデータ化されたものが含まれる。また、人間以外の生物や物等から発せられた音声がデータ化されたものも、「音声のデータ」に含まれる。
具体的には例えば、犬や猫の鳴き声、レストランのＢＧＭ（ＢａｃｋＧｒｏｕｎｄＭｕｓｉｃ）、自動車のエンジン音等は、いずれも音声のデータに含まれる。

【0016】

ユーザＵは、専門的な知識を必要とすることなく、自分のスマートフォン等の端末２（以下、「ユーザ端末２」と呼ぶ）を操作するだけで、編集の対象とするＡＶデータＤに含まれる音声のデータをテキストデータＴとして出力することができる。また、ユーザＵは、出力したテキストデータＴを編集することでＡＶデータＤを編集することができる。

【0017】

図１には、本サービスを利用するユーザＵのユーザ端末２に表示されるＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）の一例が示されている。図１に示すＵＩは、表示領域Ｆ１と表示領域Ｆ２とを少なくとも含むように構成されている。
表示領域Ｆ１には、編集対象となるＡＶデータＤが再生可能な状態で表示されている。なお、図１のＡＶデータＤの内容は、被写体として登場している人物Ｍが、ＡＶデータＤの視聴者に向けて様々な話をするものになっている。
表示領域Ｆ２には、編集対象となるＡＶデータＤに含まれる音声のデータをテキストデータ化した、テキストデータＴの一部が表示されている。具体的には、表示領域Ｆ２には、ｎ個（ｎは１以上の整数値）の文字列に区分されたテキストデータｔ１乃至ｔｎ（以下、「区分テキストデータｔ１乃至ｔｎ」と呼ぶ）のうち、区分テキストデータｔ１乃至ｔ７が表示されている。
即ち、表示領域Ｆ２には、「はいどうも」という区分テキストデータｔ１と、「タケノコです」という区分テキストデータｔ２と、「今日はですねこの」という区分テキストデータｔ３と、「ｕｓｂｃハブを」という区分テキストデータｔ４と、「紹介させていただこうと」という区分テキストデータｔ５と、「思います」という区分テキストデータｔ６と、「見てください」という区分テキストデータｔ７とが表示されている。
なお、図１の例では、「書き出し」と表記されたボタンＢ１が、区分テキストデータｔ６の上に重なるようにして表示されている。このため、図１に示す表示のタイミングでは、区分テキストデータｔ６が視認できない状態になっている。
また、図１の例では、区分テキストデータｔ１乃至ｔｎのうち区分テキストデータｔ１乃至ｔ７のみが表示されている。ただし、ユーザＵが、表示領域Ｆ２を上方向にスワイプする操作を行うことで、区分テキストデータｔ８乃至ｔｎを順次表示させることができる。

【0018】

ここで、ユーザＵが、表示領域Ｆ２の「書き出し」と表記されたボタンＢ１をタップする操作を行うと、図示せぬテキストデータＴの全文を、所定形式で出力することができる。
具体的には例えば、ユーザＵが、ボタンＢ１をタップする操作を行うと、テキストデータＴの全文として、「はいどうもタケノコです今日はですねこのｕｓｂｃハブを紹介させていただこうと思いますこれがですね見てくださいｈｄｍｉのケーブルもガッツリささですね僕も何度か使用しているんですけどねこれがね接続不良が全然起きないんですよ」といった内容のテキストデータＴが所定形式で出力される。
なお、ユーザＵがテキストデータＴの全文を出力する際の形式は特に限定されない。例えば、ユーザＵがテキストデータＴの全文を出力する際の形式として、テキストデータＴの全文をそのまま文章としてユーザ端末２に表示させることもできるし、データファイルとして出力することもできる。

【0019】

ユーザＵは、区分テキストデータｔ１乃至ｔｎのうち、任意の区分テキストデータｔｋ（ｋは１以上ｎ以下の任意の整数値）を指定して個別に編集することもできる。
以下、図２及び図３を参照して、区分テキストデータｔｋを個別に編集する手法について説明する。

【0020】

図２は、区分テキストデータを個別に編集する手法のうち、前後する区分テキストデータを結合する手法の一例を示す図である。

【0021】

図２（Ａ）には、区分テキストデータｔｋと、区分テキストデータｔｋ＋１とを結合させる手法の一例が示されている。
図２（Ｂ）には、区分テキストデータｔｋと、区分テキストデータｔｋ＋１とが結合された後の状態の一例が示されている。
図２（Ａ）に示す手法では、ユーザＵは、区分テキストデータｔｋを示す編集用のオブジェクトＪｋに、区分テキストデータｔｋ＋１を示す編集用のオブジェクトＪｋ＋１をドラッグする操作を行う。これにより、区分テキストデータｔｋと区分テキストデータｔｋ＋１とを結合させることができる。
具体的には、図２（Ａ）に示すように、ユーザＵは、区分テキストデータｔ１を示す編集用のオブジェクトＪ１の上に、区分テキストデータｔ２を示す編集用のオブジェクトＪ２を重ねるようにドラッグする。
これにより、図２（Ｂ）に示すように、「はいどうも」という区分テキストデータｔ１に、「タケノコです」という区分テキストデータｔ２が結合されて、「はいどうもタケノコです」という区分テキストデータｔ１が表示される。
また、上述のドラッグ操作により、区分テキストデータｔ２は、区分テキストデータｔ１に結合されるので、その下の区分テキストデータｔ３乃至ｔ８が順次繰り上がって表示される。即ち、図２（Ａ）に示す区分テキストデータｔ３乃至ｔ８の夫々は、図２（Ｂ）に示す区分テキストデータｔ２乃至ｔ７の夫々として表示される。さらに、図２（Ａ）に示す状態（上述のドラッグ操作の前を示す状態）では表示されていなかった「見てください」という区分テキストデータｔ９が、図２（Ｂ）に示す状態では区分テキストデータｔ８に繰り上がって表示される。

【0022】

上述したように、ユーザＵは、区分テキストデータｔ１乃至ｔｎのうち任意の区分テキストデータｔｋを編集対象として指定して個別に編集することができる。
具体的には例えば、ユーザＵは、図２（Ｂ）に示すように、区分テキストデータｔ１を示す編集用のオブジェクトＪ１の右端に「・・・」と表記されたボタンＢ２をタップする操作を行う。これにより、ユーザＵは、区分テキストデータｔ１を編集対象として指定して個別に編集することができる。

【0023】

図３は、区分テキストデータを個別に編集する手法のうち、指定された区分テキストデータを編集する手法の一例を示す図である。

【0024】

図３（Ａ）には、ユーザＵが区分テキストデータｔｋを編集する様子が示されている。上述した図２（Ｂ）に示すボタンＢ２がタップされると、表示領域Ｆ２には、図３（Ａ）に示すような、区分テキストデータｔｋを編集するためのボタンＢ４が表示される。
具体的には例えば、図３（Ａ）に示すように、区分テキストデータｔ１が編集対象として指定されると、区分テキストデータｔ１を示す編集用のオブジェクトＪ１がアクティブになる。また、それとともに、入力文字を選択するためのボタンＢ４が表示領域Ｆ２に表示される。
これにより、ユーザＵは、区分テキストデータｔ１を自由に編集することができる。なお、図３（Ａ）には、「はいどうもタケノコです」という文章が「はいどうもタケノコで」という文章に編集された例が示されている。
ユーザＵは、編集作業が完了した場合には、その旨を示すボタンＢ３をタップする操作を行う。これにより、ユーザＵは、編集対象として指定している区分テキストデータｔ１に対応する表示用のオブジェクトであるテロップＰ１をＡＶデータＤに重畳させて表示させることができる。

【0025】

図３（Ｂ）には、区分テキストデータｔ１を示す編集用のオブジェクトＪ１の右側に、ボタンＢ５とボタンＢ６とが表示されている。ボタンＢ５は、ユーザＵが、編集後の区分テキストデータｔｋに対応するテロップＰｋをＡＶデータＤに表示させる時間帯を設定する際にタップ等するボタンである。ボタンＢ６は、ユーザＵが、テロップＰｋをＡＶデータＤに表示させるか否かを設定する際にタップ等するボタンである。
図３（Ｂ）の例において、ユーザＵがボタンＢ５をタップする操作を行うと、例えば図４（Ａ）に示すようなＵＩがユーザ端末２に表示される。即ち、ユーザ端末２には、ユーザＵがＡＶデータＤにテロップＰ１を表示させる時間帯を設定するためのＵＩが表示される。なお、ユーザＵがＡＶデータＤにテロップＰ１を表示させる時間帯を設定するためのＵＩの具体例については、図４（Ａ）を参照して後述する。
また、ユーザＵがボタンＢ６をタップする操作を行うと、ＡＶデータＤにテロップＰ１を表示させないようにすることができる。

【0026】

図４は、区分テキストデータを個別に編集する手法のうち、テロップをＡＶデータに表示させる時間帯の設定、及びテロップの見た目の設定を夫々行うための手法の一例を示す図である。

【0027】

図４（Ａ）には、図３に例示する、「はいどうもタケノコで」という区分テキストデータｔ１に対応するテロップＰ１を、ＡＶデータＤに重畳させて表示させる時間帯を設定するためのＵＩの一例が示されている。
図４（Ａ）に示すように、ユーザＵは、表示領域Ｆ２に示すタイムラインＬ上の設定バーＲ１及びＲ２の夫々をドラッグする操作を行う。これにより、ユーザＵは、テロップＰ１をＡＶデータＤに重畳させて表示させる時間帯を自由に設定することができる。

【0028】

図４（Ｂ）の表示領域Ｆ２には、テロップＰをＡＶデータＤに表示させるときの見た目を設定するためのＵＩが表示されている。
具体的には、図４（Ｂ）の表示領域Ｆ２には、ＵＩとして、テロップＰのフォントと、テロップＰのフォントカラーとの夫々を設定する操作を行うためのボタンとして、ボタンＢ７と、ボタンＢ８との夫々が表示されている。
これにより、ユーザＵは、ＡＶデータＤに表示させるテロップＰの見た目を自由に設定することができる。具体的には例えば、図４（Ｂ）に例示するように、ＡＶデータＤに重畳するように表示された「おはようございます」というテロップＰについて、フォントを「ゴシック１」とし、フォントカラーを「白」とする設定を行うことができる。

【0029】

次に、本サービスを実現させる情報システムの構成について説明する。
図５は、本発明の一実施形態に係るサーバを含む、情報処理システムの構成の一例を示す図である。

【0030】

図５に示す情報処理システムは、サーバ１と、ユーザ端末２とを含むように構成されている。
サーバ１、及びユーザ端末２の夫々は、インターネット等の所定のネットワークＮを介して相互に接続されている。

【0031】

サーバ１は、サービス提供者Ｇにより管理される情報処理装置である。サーバ１は、ユーザ端末２と適宜通信をしながら、本サービスを実現するための各種処理を実行する。

【0032】

ユーザ端末２は、ユーザＵにより操作される情報処理装置であって、例えばパーソナルコンピュータ、スマートフォン、タブレット等で構成される。

【0033】

図６は、図５の情報処理システムのうち、サーバのハードウェア構成の一例を示すブロック図である。

【0034】

サーバ１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、バス１４と、入出力インターフェース１５と、入力部１６と、出力部１７と、記憶部１８と、通信部１９と、ドライブ２０とを備えている。

【0035】

ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラム、又は、記憶部１８からＲＡＭ１３にロードされたプログラムに従って各種の処理を実行する。
ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

【0036】

ＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３は、バス１４を介して相互に接続されている。このバス１４にはまた、入出力インターフェース１５も接続されている。入出力インターフェース１５には、入力部１６、出力部１７、記憶部１８、通信部１９及びドライブ２０が接続されている。

【0037】

入力部１６は、例えばキーボード等により構成され、各種情報を出力する。
出力部１７は、液晶等のディスプレイやスピーカ等により構成され、各種情報を画像や音声として出力する。
記憶部１８は、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成され、各種データを記憶する。
通信部１９は、インターネットを含むネットワークＮを介して他の装置（例えば図５のユーザ端末２等）との間で通信を行う。

【0038】

ドライブ２０には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア３０が適宜装着される。ドライブ２０によってリムーバブルメディア３０から読み出されたプログラムは、必要に応じて記憶部１８にインストールされる。
また、リムーバブルメディア３０は、記憶部１８に記憶されている各種データも、記憶部１８と同様に記憶することができる。

【0039】

なお、図示はしないが、図５のユーザ端末２も、図６に示すハードウェア構成と同様の構成を有することができる。従って、ユーザ端末２のハードウェア構成の説明については省略する。

【0040】

このような図６のサーバ１の各種ハードウェアと各種ソフトウェアとの協働により、サーバ１における編集受付処理を含む各種処理の実行が可能になる。その結果、サービス提供者Ｇは、上述の本サービスを提供することができる。

【0041】

「編集受付処理」とは、上述の本サービスを実現させる処理のことをいう。
以下、サーバ１において処理の実行が制御される、編集受付処理を実行するための機能構成について説明する。

【0042】

図７は、図６のサーバの機能的構成のうち、編集受付処理を実行するための機能的構成の一例を示す機能ブロック図である。

【0043】

図７に示すように、サーバ１のＣＰＵ１１においては、編集受付処理の実行が制御される場合、取得部１０１と、編集部１０２と、テキスト生成部１０３と、対象決定部１０４と、表示制御部１０５とが機能する。
また、サーバ１の記憶部１８の一領域には、ＡＶデータＤＢ１８１が設けられている。ＡＶデータＤＢ１８１には、ユーザ端末２で作成又は取得された１以上のＡＶデータＤが記憶されて管理されている。

【0044】

取得部１０１は、音声のデータと画像のデータとを少なくとも含む処理対象のＡＶデータＤを取得する。取得部１０１により取得されたＡＶデータＤは、ＡＶデータＤＢ１８１に記憶されて管理される。

【0045】

編集部１０２は、取得部１０１により取得された処理対象のＡＶデータＤのうち、音声のデータに基づいて画像のデータを加工することで、処理対象のＡＶデータＤを編集する。具体的には、編集部１０２は、画像のデータの加工として、例えば上述の図２乃至図４に示すような編集を行う。
また、編集部１０２は、後述する対象決定部１０４により編集対象として決定された区分テキストデータｔ１乃至ｔｎに基づいて、処理対象のＡＶデータＤを編集する。

【0046】

テキスト生成部１０３は、取得部１０１により取得された処理対象のＡＶデータＤに含まれる音声のデータに基づいて、音声のデータの音声の内容を示すテキストデータＴを生成する。
具体的には、テキスト生成部１０３は、取得部１０１により取得された処理対象のＡＶデータＤに含まれる音声のデータを認識して、その音声のデータの内容を示すテキストデータＴを生成する。例えば上述の図１乃至図４の例では、テキスト生成部１０３は、「はいどうもタケノコです今日はですねこのｕｓｂｃハブを紹介させていただこうと思いますこれがですね見てくださいｈｄｍｉのケーブルもガッツリささですね僕も何度か使用しているんですけどねこれがね接続不良が全然起きないんですよ」という内容のテキストデータＴを生成する。
なお、テキスト生成部１０３がテキストデータＴを生成する際に用いられる手法は特に限定されない。例えば従来の文字起こしの手法を採用することもできるし、ＡＩ（人工知能）による自動認識の手法を採用することもできる。

【0047】

対象決定部１０４は、テキスト生成部１０３により生成されたテキストデータＴを、区分テキストデータｔ１乃至ｔｎに区分して、１以上の区分テキストデータｔを編集対象として決定する。
ここで、対象決定部１０４による編集対象の決定は、自動的に行われてもよいし、ユーザＵに選択させてもよい。編集対象が自動的に決定される場合の具体的手法は特に限定されないが、例えば所定のアルゴリズムや、ＡＩ（人工知能）による機械学習等の技術が用いられる。

【0048】

表示制御部１０５は、編集部１０２による編集を支援するための所定のＵＩを表示する制御を実行する。
具体的には例えば、表示制御部１０５は、編集部１０２による編集を支援するための所定のＵＩとして、図１乃至図４に示すＵＩをユーザ端末２に表示させる制御を実行する。

【0049】

次に、図８を参照して、図７の機能的構成を有するサーバ１により実行が制御される編集受付処理の流れについて説明する。
図８は、図７の機能的構成を有するサーバ１により実行が制御される編集受付処理の流れを示すフローチャートである。

【0050】

即ち、図７のサーバ１により編集受付処理の実行が制御される場合には、ステップＳ１において、サーバ１のテキスト生成部１０３は、処理対象となるＡＶデータＤが選択されたか否かを判定する。
所定のＡＶデータＤが処理対象として選択された場合には、ステップＳ１において「ＹＥＳ」と判定されて、処理はステップＳ２に進む。
これに対して、処理対象となるＡＶデータＤが選択されていない場合には、ステップＳ１において「ＮＯ」と判定されて、所定のＡＶデータＤが処理対象として選択されるまで、ステップＳ１の処理の制御が繰り返し実行される。

【0051】

ステップＳ２において、サーバ１のテキスト生成部１０３は、処理対象として選択されたＡＶデータＤに含まれる音声のデータを認識する。
ステップＳ３において、サーバ１のテキスト生成部１０３は、処理対象として選択されたＡＶデータＤに含まれる音声のデータに基づいて、音声のデータの音声の内容を示すテキストデータＴを生成する。
ステップＳ４において、サーバ１の対象決定部１０４は、ステップＳ３でテキスト生成部１０３により生成されたテキストデータＴを、区分テキストデータｔ１乃至ｔｎに区分する。
ステップＳ５において、サーバ１の対象決定部１０４は、ステップＳ４で区分した区分テキストデータｔ１乃至ｔｎのうち、１以上の区分テキストデータｔを編集対象として決定する。
ステップＳ６において、サーバ１の表示制御部１０５は、編集部１０２による編集を支援するためのＵＩとして、操作対象となる１以上の区分テキストデータｔを含むＵＩをユーザ端末２に表示する制御を実行する。

【0052】

ステップＳ７において、サーバ１の編集部１０２は、区分テキストデータｔを含むＵＩを介して、処理対象となるＡＶデータＤの区分テキストデータが編集されたか否かを判定する。処理対象となるＡＶデータＤの区分テキストデータが編集された場合には、ステップＳ７において「ＹＥＳ」と判定されて、処理はステップＳ８に進む。
これに対して、処理対象となるＡＶデータＤの区分テキストデータが編集されていない場合には、ステップＳ７において「ＮＯ」と判定されて、処理対象となるＡＶデータＤの区分テキストデータが編集されるまでステップＳ７の処理の制御が繰り返し実行される。

【0053】

ステップＳ８において、サーバ１の編集部１０２は、区分テキストデータｔに対する編集を受付ける。
これにより、サーバ１により実行が制御される編集受付処理が終了する。

【0054】

以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。

【0055】

例えば、上述の実施形態におけるＡＶデータＤに含まれる音声のデータや画像のデータは例示に過ぎず、あらゆるＡＶデータＤを本サービスの対象とすることができる。

【0056】

また例えば、図１乃至図４では、ＡＶデータＤに登場する人物Ｍが１人のみ描画されているが、これは例示に過ぎない。ＡＶデータＤに登場する人物Ｍは複数人存在してもよい。

【0057】

また例えば、上述の実施形態におけるテキストデータＴ（即ち音声のデータ）の内容や、テキストデータＴを構成する区分テキストデータｔ１乃至ｔ７の夫々の区分単位や内容は例示に過ぎない。当然ながら上述の実施形態以外の区分単位や内容であってもよい。

【0058】

また例えば、図２には、区分テキストデータｔ１と区分テキストデータｔ２とを結合させる手法として、区分テキストデータｔ１を示す編集用のオブジェクトＪ１の上に、区分テキストデータｔ２を示す編集用のオブジェクトＪ２を重ねるようにドラッグする手法が示されている。ただし、この手法以外にも、例えば区分テキストデータｔ２を示す編集用のオブジェクトＪ２の上に、区分テキストデータｔ１を示す編集用のオブジェクトＪ１を重ねるようにドラッグしてもよい。これにより、区分テキストデータｔ１と区分テキストデータｔ２とを結合させることができる。

【0059】

また、図５に示すシステム構成や、図６に示すサーバ１のハードウェア構成は、本発明の目的を達成するための例示に過ぎず、特に限定されない。

【0060】

また、図７に示す機能ブロック図は、例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは、特に図７の例に限定されない。

【0061】

また、機能ブロックの存在場所も、図７に限定されず、任意でよい。
例えば、図７の例において、編集受付処理の実行に必要となる機能ブロックは、サーバ１側が備える構成となっているが、これは例示に過ぎない。例えば本サービスの利用者専用のアプリケーションプログラムをユーザ端末２にインストールさせることにより、これらの機能ブロックの少なくとも一部をユーザ端末２側が備える構成としてもよい。
また、１つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。

【0062】

各機能ブロックの処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。

【0063】

このようなプログラムを含む記録媒体は、各ユーザにプログラムを提供するために装置本体とは別に配布される、リムーバブルメディアにより構成されるだけではなく、装置本体に予め組み込まれた状態で各ユーザに提供される記録媒体等で構成される。

【0064】

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に添って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。

【0065】

また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものである。

【0066】

以上まとめると、本発明が適用される情報処理システムは、次のような構成を取れば足り、各種各様な実施形態を取ることができる。
即ち、本発明が適用される情報処理装置（例えば図７のサーバ１）は、
音声のデータ（例えば音声のデータ）と画像のデータ（例えば画像のデータ）とを少なくとも含む処理対象のデータ（例えばＡＶデータＤ）のうち、前記音声のデータに基づいて、前記画像のデータを加工することで前記処理対象のデータを編集する編集手段（例えば図７の編集部１０２）を備える。

【0067】

これにより、音声のデータと画像のデータとを含む処理対象のデータのうち、音声のデータに基づいて画像のデータを加工することで処理対象のデータを編集することができる。その結果、専門的な知識がない者であっても、動画共有サービスにアップロードするためのＡＶデータを簡単な操作で編集することが可能となる。

【0068】

また、前記処理対象のデータに含まれる前記音声のデータに基づいて、当該音声の内容を示すテキストのデータを生成するテキスト生成手段（例えば図６のテキスト生成部１０３）と、
生成された前記テキストを所定単位の文字列に区分して、１以上の文字列を編集対象として決定する編集対象決定手段（例えば図６の対象決定部１０４）と、
をさらに備え、
前記編集手段は、編集対象として決定された前記１以上の文字列に基づいて、前記処理対象のデータを編集することができる。

【0069】

これにより、処理対象のデータに含まれる音声のデータに基づいて、その音声の内容を示すテキストのデータが生成される。また、所定単位の文字列に区分されたテキストのデータに基づいて編集対象が決定される。その結果、専門的な知識がない者であっても、動画共有サービスにアップロードするためのＡＶデータを簡単な操作で編集することが可能となる。

【0070】

また、前記編集を支援するための編集用画面を表示する制御を実行する表示制御手段（例えば図６の表示制御部１０５）をさらに備えることができる。

【0071】

これにより、処理対象のデータを編集するための画面がスマートフォン等の端末に表示させることができる。その結果、専門的な知識がない者であっても、スマートフォン等の端末に対する簡単な操作で、例えば動画共有サービスにアップロードするためのＡＶデータを容易に編集することが可能となる。

【0072】

また、前記表示制御手段は、
編集対象として決定された前記１以上の文字列の夫々を示すオブジェクトを、前記編集用画面に選択可能に表示させる制御を実行することができる。

【0073】

これにより、処理対象のデータを編集するための編集用画面に、編集対象として決定された１以上の文字列の夫々を示すオブジェクトが表示される。その結果、例えば動画共有サービスにアップロードするためのＡＶデータを簡単な操作で編集することが可能となる。

【符号の説明】

【0074】

１・・・サーバ、２・・・ユーザ端末、１１・・・ＣＰＵ、１２・・・ＲＯＭ、１３・・・ＲＡＭ、１４・・・バス、１５・・・入出力インターフェース、１６・・・入力部、１７・・・出力部、１８・・・記憶部、１９・・・通信部、２０・・・ドライブ、３０・・・リムーバブルメディア、１０１・・・取得部、１０２・・・編集部、１０３・・・テキスト生成部、１０４・・・対象決定部、１０５・・・表示制御部、１８１・・・ＡＶデータＤＢ、Ｄ・・・ＡＶデータ、ｔ・・・区分テキストデータ、Ｂ・・・ボタン、Ｊ・・・編集用のオブジェクト、Ｆ・・・表示領域、Ｍ・・・人物、Ｌ・・・画像タイムライン、Ｒ・・・バー、Ｎ・・・ネットワーク

【要約】（修正有）

【課題】ＡＶデータの編集を行うユーザが、ＡＶデータに含まれる音声のデータを、テキストのデータとしてＡＶデータに重畳させて容易に表示可能とする情報処理装置及びプログラムを提供する。
【解決手段】情報処理装置において、編集部１０２は、音声のデータと画像のデータとを少なくとも含む処理対象のＡＶデータのうち、音声のデータに基づいて、画像のデータを加工してＡＶデータを編集する。テキスト生成部１０３は、音声のデータに基づいて、音声の内容を示すテキストデータを生成する。対象決定部１０４は、生成されたテキストデータを所定単位の文字列に区分して、１以上の区分テキストデータを編集対象として決定する。編集部１０２はさらに、決定した１以上の区分テキストデータに基づいて処理対象のＡＶデータを編集する。
【選択図】図７

【図1】