(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-25
(45)【発行日】2023-11-02
(54)【発明の名称】動画を作成するためのシステム、方法、及びプログラム
(51)【国際特許分類】
G06T 13/20 20110101AFI20231026BHJP
H04N 21/854 20110101ALI20231026BHJP
G06F 3/01 20060101ALI20231026BHJP
G06F 3/04845 20220101ALI20231026BHJP
【FI】
G06T13/20
H04N21/854
G06F3/01 510
G06F3/04845
(21)【出願番号】P 2022035714
(22)【出願日】2022-03-08
(62)【分割の表示】P 2018101927の分割
【原出願日】2018-05-28
【審査請求日】2022-03-15
(73)【特許権者】
【識別番号】599115217
【氏名又は名称】株式会社 ディー・エヌ・エー
(74)【代理人】
【識別番号】100125195
【氏名又は名称】尾畑 雄一
(72)【発明者】
【氏名】佐々木 康伸
【審査官】村松 貴士
(56)【参考文献】
【文献】特開2005-078427(JP,A)
【文献】特開2010-113703(JP,A)
【文献】特開2015-184689(JP,A)
【文献】特開2014-044655(JP,A)
【文献】特開2015-056132(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 13/00 - 13/80
G06T 19/00 - 19/20
G06F 3/01
G06F 3/048 - 3/04895
H04N 21/00 - 21/858
(57)【特許請求の範囲】
【請求項1】
1又は複数のコンピュータプロセッサを備え、動画を作成するためのシステムであって、
前記1又は複数のコンピュータプロセッサは、読取可能な命令の実行に応じて、
仮想空間に対応する画像と、ユーザによって入力される音声と、を含む動画を作成する処理と、
前記ユーザによる操作に応じて、前記入力される音声に対応するオブジェクトを、前記仮想空間内に配置する処理と、を実行
し、
前記操作は、前記仮想空間に対応する画像を表示する画面に対するタッチ操作である、
システム。
【請求項2】
前記配置する処理は、前記画面に対するタッチ状態が開始された後に行われるフリック操作及び/又はスライド操作の方向に基づく視覚効果が付与されるように前記対応するオブジェクトを配置することを含む、
請求項
1のシステム。
【請求項3】
1又は複数のコンピュータプロセッサを備え、動画を作成するためのシステムであって、
前記1又は複数のコンピュータプロセッサは、読取可能な命令の実行に応じて、
仮想空間に対応する画像と、ユーザによって入力される音声と、を含む動画を作成する処理と、
前記ユーザによる操作に応じて、前記入力される音声に対応するオブジェクトを、前記仮想空間内に配置する処理と、
前記ユーザによって操作されるアバターの前記仮想空間における動作を制御する処理と、を実行し、
前記仮想空間は、配置されたオブジェクトを前記アバターが触ることができるように構成されている、
システム。
【請求項4】
前記アバターの動作を制御する処理は、カメラを介して入力される画像に含まれる前記ユーザの姿勢に少なくとも基づいて前記アバターの動作を制御することを含む、
請求項
3のシステム。
【請求項5】
前記1又は複数のコンピュータプロセッサは、更に、作成した動画をリアルタイムに配信する処理を実行する、
請求項1ないし
4何れかのシステム。
【請求項6】
1又は複数のコンピュータによって実行され、動画を作成するための方法であって、
仮想空間に対応する画像と、ユーザによって入力される音声と、を含む動画を作成するステップと、
前記ユーザによる操作に応じて、前記入力される音声に対応するオブジェクトを、前記仮想空間内に配置するステップと、を備
え、
前記操作は、前記仮想空間に対応する画像を表示する画面に対するタッチ操作である、
方法。
【請求項7】
1又は複数のコンピュータによって実行され、動画を作成するための方法であって、
仮想空間に対応する画像と、ユーザによって入力される音声と、を含む動画を作成するステップと、
前記ユーザによる操作に応じて、前記入力される音声に対応するオブジェクトを、前記仮想空間内に配置するステップと、
前記ユーザによって操作されるアバターの前記仮想空間における動作を制御するステップと、を備え、
前記仮想空間は、配置されたオブジェクトを前記アバターが触ることができるように構成されている、
方法。
【請求項8】
動画を作成するためのプログラムであって、
1又は複数のコンピュータ上での実行に応じて、前記1又は複数のコンピュータに、
仮想空間に対応する画像と、ユーザによって入力される音声と、を含む動画を作成する処理と、
前記ユーザによる操作に応じて、前記入力される音声に対応するオブジェクトを、前記仮想空間内に配置する処理と、を実行さ
せ、
前記操作は、前記仮想空間に対応する画像を表示する画面に対するタッチ操作である、
プログラム。
【請求項9】
動画を作成するためのプログラムであって、
1又は複数のコンピュータ上での実行に応じて、前記1又は複数のコンピュータに、
仮想空間に対応する画像と、ユーザによって入力される音声と、を含む動画を作成する処理と、
前記ユーザによる操作に応じて、前記入力される音声に対応するオブジェクトを、前記仮想空間内に配置する処理と、
前記ユーザによって操作されるアバターの前記仮想空間における動作を制御する処理と、を実行させ、
前記仮想空間は、配置されたオブジェクトを前記アバターが触ることができるように構成されている、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画を作成するためのシステム、方法、及びプログラムに関する。
【背景技術】
【0002】
従来、ユーザが動画の配信を行うためのシステムが提供されている(例えば、特許文献1を参照)。例えば、ユーザは、スマートフォン及びパソコン等のユーザ端末が有するカメラを介して入力される画像、及び、同じくユーザ端末が有するマイクを介して入力される音声が含まれる動画を撮影し、撮影した動画を複数の視聴者に対して配信することができる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した従来のシステムにおいて、動画に含まれる音声は、同じく動画に含まれる画像と共に出力されるのみであって、面白みに欠ける場合があった。このように、動画に含まれる音声の出力については、そのエンターテイメント性に関して改善の余地がある。
【0005】
本発明の実施形態は、動画に含まれる音声の出力に関するエンターテイメント性を向上させることを目的の一つとする。本発明の実施形態の他の目的は、本明細書全体を参照することにより明らかとなる。
【課題を解決するための手段】
【0006】
本発明の一実施形態に係るシステムは、1又は複数のコンピュータプロセッサを備え、動画を作成するためのシステムであって、前記1又は複数のコンピュータプロセッサは、読取可能な命令の実行に応じて、仮想空間に対応する画像を表示する所定の領域を有する画面をユーザに提示する処理と、前記仮想空間に対応する画像と、前記ユーザによって入力される音声と、を含む動画を作成する処理と、前記ユーザによる前記所定の領域に対するタッチ操作に応じて、前記入力される音声をテキストに変換し、変換されたテキストに対応するテキストオブジェクトを、前記所定の領域内のタッチ操作が行われた位置に基づく前記仮想空間内の位置に配置する処理と、を実行する。
【0007】
本発明の一実施形態に係る方法は、1又は複数のコンピュータによって実行され、動画を作成するための方法であって、仮想空間に対応する画像を表示する所定の領域を有する画面をユーザに提示するステップと、前記仮想空間に対応する画像と、前記ユーザによって入力される音声と、を含む動画を作成するステップと、前記ユーザによる前記所定の領域に対するタッチ操作に応じて、前記入力される音声をテキストに変換し、変換されたテキストに対応するテキストオブジェクトを、前記所定の領域内のタッチ操作が行われた位置に基づく前記仮想空間内の位置に配置するステップと、を備える。
【0008】
本発明の一実施形態に係るプログラムは、動画を作成するためのプログラムであって、1又は複数のコンピュータ上での実行に応じて、前記1又は複数のコンピュータに、仮想空間に対応する画像を表示する所定の領域を有する画面をユーザに提示する処理と、前記仮想空間に対応する画像と、前記ユーザによって入力される音声と、を含む動画を作成する処理と、前記ユーザによる前記所定の領域に対するタッチ操作に応じて、前記入力される音声をテキストに変換し、変換されたテキストに対応するテキストオブジェクトを、前記所定の領域内のタッチ操作が行われた位置に基づく前記仮想空間内の位置に配置する処理と、を実行させる。
【発明の効果】
【0009】
本発明の様々な実施形態は、動画に含まれる音声の出力に関するエンターテイメント性を向上させる。
【図面の簡単な説明】
【0010】
【
図1】本発明の一実施形態に係る動画作成装置10の構成を概略的に示す構成図。
【
図2】動画作成装置10の機能を概略的に示すブロック図。
【
図4】アバター102の動作を制御するために動画作成装置10が実行する処理を例示するフロー図。
【
図5】インカメラを介して入力される入力画像50を模式的に例示する図。
【
図6】入力画像50に含まれるユーザの顔及び両手が認識される様子を説明するための図。
【
図9】画像表示領域62に対するタッチ操作の検出に応じて動画作成装置10が実行する処理を例示するフロー図。
【発明を実施するための形態】
【0011】
以下、図面を参照しながら、本発明の実施形態について説明する。
【0012】
図1は、本発明の一実施形態に係る動画作成装置10の構成を概略的に示す構成図である。動画作成装置10は、動画を作成するための機能を有し、本発明のシステムの一部又は全部を実装する装置の一例である。
【0013】
動画作成装置10は、一般的なコンピュータとして構成されており、
図1に示すように、CPU又はGPU等のコンピュータプロセッサ11と、メインメモリ12と、ユーザI/F13と、通信I/F14と、ストレージ(記憶装置)15とを備え、これらの各構成要素が図示しないバス等を介して電気的に接続されている。
【0014】
コンピュータプロセッサ11は、ストレージ15等に記憶されている様々なプログラムをメインメモリ12に読み込んで、当該プログラムに含まれる各種の命令を実行する。メインメモリ12は、例えば、DRAM等によって構成される。
【0015】
ユーザI/F13は、ユーザとの間で情報をやり取りするための各種の入出力装置を含む。ユーザI/F13は、例えば、キーボード、ポインティングデバイス(例えば、マウス、タッチパネル等)等の情報入力装置、マイクロフォン等の音声入力装置、カメラ等の画像入力装置を含む。また、ユーザI/F13は、ディスプレイ等の画像出力装置、スピーカ等の音声出力装置を含む。
【0016】
通信I/F14は、ネットワークアダプタ等のハードウェア、各種の通信用ソフトウェア、及びこれらの組み合わせとして実装され、有線又は無線の通信を実現できるように構成されている。
【0017】
ストレージ15は、例えば磁気ディスク、フラッシュメモリ等によって構成される。ストレージ15は、オペレーティングシステムを含む様々なプログラム、及び各種データ等を記憶する。ストレージ15が記憶するプログラムには、動画を作成するための機能を実現するためのアプリケーションプログラム(以下、「動画作成用アプリ」と言うことがある。)が含まれ得る。
【0018】
本実施形態において、動画作成装置10は、スマートフォン、タブレット端末、パーソナルコンピュータ、及びウェアラブルデバイス等として構成され得る。
【0019】
次に、本実施形態の動画作成装置10が有する機能について説明する。
図2は、動画作成装置10が有する機能を概略的に示すブロック図である。動画作成装置10は、図示するように、様々な情報を記憶及び管理する情報記憶管理部41と、動画を作成する動画作成部43と、仮想空間を制御する仮想空間制御部45とを有する。これらの機能は、コンピュータプロセッサ11及びメインメモリ12等のハードウェア、並びに、ストレージ15等に記憶されている各種プログラムやデータ等が協働して動作することによって実現され、例えば、メインメモリ12に読み込まれたプログラムに含まれる命令をコンピュータプロセッサ11が実行することによって実現される。
【0020】
情報記憶管理部41は、ストレージ15等において様々な情報を記憶及び管理する。動画作成部43は、動画の作成に関する様々な処理を実行する。本実施形態において、動画作成部43は、仮想空間に対応する画像を表示する所定の領域を有する画面をユーザに提示するように構成されている。例えば、動画作成部43は、当該所定の領域を有する画面をディスプレイ等において表示するように構成される。
【0021】
また、動画作成部43は、上記仮想空間に対応する画像と、入力される音声と、を含む動画を作成するように構成されている。例えば、動画作成部43は、所定の領域において表示されている仮想空間の画像と、マイクを介して入力される音声とを含む動画を作成(記録)するように構成される。作成された動画は、例えば、ストレージ15等において格納される。
【0022】
仮想空間制御部45は、上記仮想空間の制御に関する様々な処理を実行する。本実施形態において、仮想空間制御部45は、ユーザによる上記所定の領域に対するタッチ操作に応じて、入力される音声をテキストに変換し、変換されたテキストに対応するテキストオブジェクトを仮想空間内に配置するように構成されている。当該テキストオブジェクトは、所定の領域内の上記タッチ操作が行われた位置に基づく仮想空間内の位置に配置される。
【0023】
このように、本実施形態の動画作成装置10は、仮想空間に対応する画像と、入力される音声とを含む動画を作成し、当該画像を表示する所定の領域に対するタッチ操作に応じて、当該入力される音声をテキストに変換して対応するテキストオブジェクトを仮想空間内に配置するから、入力される音声に対応するオブジェクトが仮想空間に配置される動画を手軽に作成することが可能となる。つまり、本実施形態の動画作成装置10は、動画に含まれる音声の出力に関するエンターテイメント性を向上させる。
【0024】
本実施形態において、仮想空間制御部45は、上記所定の領域に対するタッチ状態が開始されてから解消するまでの期間において入力される音声をテキストに変換するように構成され得る。例えば、仮想空間制御部45は、当該タッチ状態の開始に応じて、入力される音声の録音を開始し、タッチ状態の解消に応じて、録音された音声のテキストへの変換を行って、変換されたテキストに対応するテキストオブジェクトを配置するように構成される。こうした構成は、テキストオブジェクトの配置を簡易な操作で実現し得る。
【0025】
また、仮想空間制御部45は、所定の領域に対するタッチ状態が開始された後に行われるフリック操作及び/又はスライド操作の方向に基づく視覚効果が付与されるように、変換されたテキストに対応するテキストオブジェクトを配置するように構成され得る。例えば、仮想空間制御部45は、所定の領域に対するタッチ状態が解消される際に行われるフリック操作/スライド操作の方向が第1の方向(例えば、右方向)である場合は、第1の視覚効果(例えば、フェードインの効果)をテキストオブジェクトに付与する一方、当該フリック操作/スライド操作の方向が第2の方向(例えば、左方向)である場合は、第2の視覚効果(例えば、フェードアウトの効果)をテキストオブジェクトに付与するように構成される。こうした構成は、テキストオブジェクトに対する視覚効果の付与を簡易な操作で実現し得る。
【0026】
本実施形態において、仮想空間は、例えば、カメラを介して入力(撮影)される映像を表示するオブジェクトを含むように構成される。この場合、作成される動画は、例えば、現実のユーザが登場(出演)する動画として構成される。また、当該仮想空間は、例えば、ユーザによって操作されるアバターが含まれるように構成される。この場合、作成される動画は、現実のユーザの代わりにアバターが登場する動画として構成され、仮想空間制御部45は、当該アバターの仮想空間における動作を制御するように構成される。この場合、仮想空間は、配置されたテキストオブジェクトをアバターが触ることができるように構成され得る。こうした構成は、アバターを介してテキストオブジェクトを触ることが可能となるから、作成される動画のエンターテイメント性が向上し得る。
【0027】
仮想空間にユーザのアバターが含まれる場合において、仮想空間制御部45は、例えば、タッチパネル又は物理コントローラ等に対するユーザによる操作に応じてアバターの動作を制御するように構成され得る。また、仮想空間制御部45は、カメラを介して入力される画像に含まれるユーザの姿勢に少なくとも基づいて(例えば、ユーザの姿勢に連動するように)アバターの動作を制御するように構成され得る。画像に含まれるユーザの姿勢(ボーン)の検出は、例えば、公知の人物姿勢推定技術を適用して実現することができる。また、仮想空間制御部45は、入力される画像に含まれるユーザの身体の1又は複数の所定の部位(例えば、顔及び両手等)の画像における配置に少なくとも基づいて(例えば、所定の部位の配置に連動するように)アバターの動作を制御するように構成され得る。こうした構成は、現実のユーザの動きに基づいてアバターを動作させることを可能とする。
【0028】
次に、このような機能を有する本実施形態の動画作成装置10の具体例について説明する。この例の動画作成装置10は、スマートフォン、タブレット端末、又は、パーソナルコンピュータ等として構成されており、動画作成用アプリがインストールされている。この例の動画作成装置10は、アバターを含む動画を作成するように構成されている。
【0029】
図3は、動画作成装置10のディスプレイ等において表示される動画作成用画面60を例示する。当該画面60は、動画を作成するための画面であって、図示するように、作成する動画に含まれる画像を表示する画像表示領域(所定の領域)62と、動画の作成(記録、録画)の開始及び終了を指示するための指示ボタン64とを有する。
【0030】
画像表示領域62には、仮想空間100を特定の視野で(特定の位置の仮想カメラを介して)見た画像が表示される。当該仮想空間100は、三次元の仮想空間として構成されており、人型のアバター102、及び、当該アバター102の手前に位置する机オブジェクト104を含む。
【0031】
ここで、仮想空間100に含まれるアバター102の動作の制御に関する処理について説明する。
図4は、この例において、アバター102の動作を制御するために、動画作成装置10が実行する処理を例示するフロー図である。例えば、装置10は、動画作成用画面60の表示に応じて、
図4に例示される処理を実行する。
【0032】
動画作成装置10は、まず、
図4に示すように、インカメラを介して入力される入力画像に含まれるユーザの顔及び両手を認識する(ステップS100)。インカメラは、装置10において表示される画面を見るユーザを視野に含むように構成されている。ユーザは、動画作成用画面60の画像表示領域62に含まれる仮想空間100の画像を見ながら、アバター102を動作させるためにインカメラの前で身体を動かすことになる。
【0033】
図5は、インカメラを介して入力される入力画像50を模式的に例示する。図示するように、この例では、ユーザの右手RHの手の平には、第1の色(例えば、赤色)の円形のマーカーMK1が設けられており、ユーザの左手LHの手の平には、第2の色(例えば、黄色)の円形のマーカーMK2が設けられている。これらのマーカーMK1、2は、例えば、手の平に貼り付けるステッカーとして構成され、当該ステッカーは、例えば、動画作成用アプリの提供事業者等によってユーザに提供される。また、マーカーMK1、2は、例えば、手の平にインク等で直接描かれる。この場合、例えば、動画作成用アプリの提供事業者等が配布するインストラクションに従って、ユーザが、両手の手の平にマーカーMK1、2をそれぞれ描く。
【0034】
図6は、
図5に例示した入力画像50に含まれるユーザの顔及び両手が認識される様子を説明するための図である。図示するように、この例では、ユーザの顔FCは、当該顔FCの輪郭を囲う矩形の検出領域DA1として検出及び認識される。また、ユーザの両手RH、LHは、当該両手RH、LHの各々の手の平に設けられているマーカーMK1、2の輪郭を囲う矩形の検出領域DA2、DA3としてそれぞれ検出及び認識される。こうした顔FC、及び、両手RH、LH(マーカーMK1、2)の認識(及び、その後の追跡)は、公知の物体追跡技術を用いて実現され、例えば、機械学習を介して生成された学習済みモデルを用いて実現される。
【0035】
図4のフロー図に戻り、入力画像に含まれるユーザの顔及び両手を認識すると、動画作成装置10は、次に、当該入力画像におけるユーザの顔及び両手の配置に基づいてアバターの動作を制御する(ステップS110)。こうした入力画像におけるユーザの顔及び両手の配置に基づくアバターの動作の制御は、動画の作成が終了するまでの間(例えば、動画作成用画面60の表示が終了するまでの間)、繰り返される(ステップS120においてNO)。
【0036】
この例では、インカメラを介して入力される入力画像50におけるユーザの顔FCの位置に対する両手RH、LHの相対的な位置(現実のユーザの顔と両手との間の位置関係)を再現するように、アバター102の動作が制御される。例えば、
図7に例示するように、現実のユーザが「万歳」の姿勢をとって、入力画像50におけるユーザの両手RH、LH(マーカーMK1、2)がユーザの顔FCの斜め上方に移動した場合、
図8に例示するように、仮想空間100におけるアバター102もまた、ユーザと同様に「万歳」の姿勢をとる(両手を顔の斜め上方に移動させる)。
【0037】
ユーザが指示ボタン64を選択すると、動画の記録が開始され、具体的には、画像表示領域62に表示される画像と、マイクを介して入力される音声とを含む動画が記録される。ユーザが再度、指示ボタン64を選択すると、動画の記録が停止される。作成された動画は、ストレージ15等の所定の領域に格納される。このように、この例において、ユーザは、インカメラの前で身体を動かしながら話すことにより、当該身体の動きに追随して動作するアバター102が含まれる仮想空間100に対応する画像、及び、自身の音声を含む動画を容易に作成することができる。
【0038】
ここで、この例におけるテキストオブジェクトの配置に関する動作について説明する。
図9は、動画作成用画面60の画像表示領域62に対するユーザによるタッチ操作の検出に応じて、動画作成装置10が実行する処理を例示するフロー図である。画像表示領域62に対するタッチ操作を検出すると、装置10は、まず、図示するように、画像表示領域62に対するタッチ状態が解消される迄の間、マイクを介して入力される入力音声を録音する(ステップS200、ステップS210においてNO)。
【0039】
そして、画像表示領域62に対するタッチ状態が解消されると(ステップS210においてYES)、装置10は、録音を停止し(ステップS220)、録音された音声をテキストに変換する(ステップS230)。録音された音声のテキスト変換は、公知の音声認識技術を適用して実現される。なお、この例では、画像表示領域62に対するタッチ状態が開始されてから解消するまでの期間において、入力音声は、作成される動画にも含まれる(ミュートされない)。なお、当該期間において、作成される動画における音声をミュートするようにしても良い。
【0040】
続いて、動画作成装置10は、変換されたテキストに対応するテキストオブジェクトを仮想空間100に配置する(ステップS240)。テキストオブジェクトは、変換されたテキストが仮想空間100における三次元のオブジェクトとして構成されたものであり、画像表示領域62に対するタッチ操作が行われた位置に基づく仮想空間100上の位置に配置される。
【0041】
図10は、画像表示領域62に対するタッチ操作が行われ、タッチ状態が継続している状態の動画作成用画面60を例示する。この場合、画像表示領域62において、タッチ操作が行われている位置を中心とする円形のタッチ位置表示オブジェクト70が表示される。この状態で、ユーザは、テキストオブジェクトに変換しようとする音声を入力する(話す)。
【0042】
図11は、
図10の状態から画像表示領域62に対するタッチ状態が解消されて、テキストオブジェクト106が仮想空間100内に配置された状態の動画作成用画面60を例示する。
図11の例では、画像表示領域62に対するタッチ状態が継続されている期間において「こんにちは」という音声が入力されており、テキストオブジェクト106は、「こんにちは」というテキストに対応するオブジェクトとして構成されている。テキストオブジェクト106は、この例では、その先頭(
図11の例では「こ」の字に対応するオブジェクト)が、タッチ操作が行われていた位置(タッチ位置表示オブジェクト70の表示位置)に対応する仮想空間100内の位置となるように配置される。なお、テキストオブジェクト106が配置される位置は、これに限定されない。例えば、テキストオブジェクト106は、画像表示領域62内のタッチ操作が行われた位置に基づいて特定され得る様々な仮想空間100内の位置に配置され得る。
【0043】
この例では、配置されたテキストオブジェクト106は、所定の時間(例えば、5秒)の経過後に消える。また、アバター102は、テキストオブジェクト106を触ることができるようになっている。例えば、テキストオブジェクト106は、文字毎に独立して動くように構成されており(文字毎に別々のオブジェクトとして構成されており)、例えば、
図12に示すように、アバター102の右手で、テキストオブジェクト106の先頭の「こ」の文字のオブジェクトに触ると、当該オブジェクトのみを動かすこともできる。このように、ユーザは、画像表示領域62に対するタッチ操作によってテキストオブジェクト106を仮想空間100に配置しつつ、アバター102を介して、配置したテキストオブジェクト106を動かすこともできる。なお、配置されたテキストオブジェクト106の動作はこれに限定されない。例えば、テキストオブジェクト106は、配置された後に所定の速度で下方向に移動(落下)するように制御され得る。また、テキストオブジェクト106の全体、又は、各文字に対応するオブジェクトが、アバター102が触れることによって消えるようにし、又は、アバター102が触れることによって、所定のエフェクト(形状の変化、及び、発光等)が発生するようにしても良い。
【0044】
この例では、画像表示領域62に対するタッチ状態を解消する際にフリック操作を行うと、当該フリック操作の方向に基づく視覚効果が、配置されるテキストオブジェクトに対して付与される。例えば、タッチ状態を解消する際に右方向へのフリック操作が行われると、フェードインの効果を伴ってテキストオブジェクト106が配置(表示)される一方、タッチ状態を解消する際に左方向へのフリック操作が行われると、テキストオブジェクト106の配置後、フェードアウトの効果を伴って当該テキストオブジェクト106が消去される。
【0045】
上述した例において、作成される動画をライブ配信するようにしても良い。この場合、例えば、動画作成装置10は、作成される動画をストリーミング形式で動画配信サーバに送信し、当該動画配信サーバが、複数の視聴者のユーザ端末(スマートフォン等)に対してストリーミング形式で動画を配信する。
図13は、動画のライブ配信を行う配信者のユーザ端末等として構成される動画作成装置10のディスプレイ等において表示される配信者画面80を例示する。当該画面80は、画面全体において三次元の仮想空間200を表示し、当該仮想空間200において、配信者のアバター202がステージ204上に配置されており、複数の視聴者の各々のアバター208が観客エリア206に配置されている。アバター202は、配信者によって操作される(例えば、カメラを介して入力される画像に含まれる配信者の顔及び両手の配置に基づいて制御される)。また、配信者による配信者画面80に対するタッチ操作に応じて、入力される音声がテキストに変換されて対応するテキストオブジェクトが仮想空間200内に配置される。アバター202は、仮想空間200において、配置されたテキストオブジェクトを触ることができる。なお、アバター202が、テキストオブジェクトと同様に、当該仮想空間200に配置されている他のオブジェクト(例えば、視聴者のアバター208が投げ入れるアイテム(ギフト)等)を触ることができるようにしても良い。
【0046】
上述した例では、仮想空間100、200にユーザのアバター102、202が含まれるようにしたが、本実施形態の他の例において、仮想空間には、ユーザのアバターは含まれず、カメラを介して入力される画像を表示するオブジェクト等が配置され得る。
【0047】
以上説明した本実施形態に係る動画作成装置10は、仮想空間に対応する画像と、入力される音声とを含む動画を作成し、当該画像を表示する所定の領域(例えば、動画作成用画面60の画像表示領域62)に対するタッチ操作に応じて、当該入力される音声をテキストに変換して対応するテキストオブジェクトを仮想空間内に配置するから、入力される音声に対応するオブジェクトが仮想空間に配置される動画を手軽に作成することが可能となる。つまり、本実施形態の動画作成装置10は、動画に含まれる音声の出力に関するエンターテイメント性を向上させる。
【0048】
本発明の他の実施形態において、動画作成装置10が有する上述した機能の少なくとも一部は、当該装置10とインターネット等の通信ネットワークを介して通信可能に接続されるサーバ(例えば、上述した動画配信サーバ)と、動画作成装置10とが協働することによって実現される。例えば、当該サーバ側で、動画作成装置10のカメラを介して入力される画像の解析、及び、マイクを介して入力される音声のテキスト変換、並びに、動画の作成(及び配信)等が行われるようにしても良い。
【0049】
本明細書で説明された処理及び手順は、明示的に説明されたもの以外にも、ソフトウェア、ハードウェアまたはこれらの任意の組み合わせによって実現される。例えば、本明細書で説明される処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク等の媒体に、当該処理及び手順に相当するロジックを実装することによって実現される。また、本明細書で説明された処理及び手順は、当該処理・手順に相当するコンピュータプログラムとして実装し、各種のコンピュータに実行させることが可能である。
【0050】
本明細書中で説明された処理及び手順が単一の装置、ソフトウェア、コンポーネント、モジュールによって実行される旨が説明されたとしても、そのような処理または手順は複数の装置、複数のソフトウェア、複数のコンポーネント、及び/又は複数のモジュールによって実行され得る。また、本明細書において説明されたソフトウェアおよびハードウェアの要素は、それらをより少ない構成要素に統合して、またはより多い構成要素に分解することによって実現することも可能である。
【0051】
本明細書において、発明の構成要素が単数もしくは複数のいずれか一方として説明された場合、又は、単数もしくは複数のいずれとも限定せずに説明された場合であっても、文脈上別に解すべき場合を除き、当該構成要素は単数又は複数のいずれであってもよい。
【符号の説明】
【0052】
10 動画作成装置
11 コンピュータプロセッサ
41 情報記憶管理部
43 動画作成部
45 仮想空間制御部
50 入力画像
60 動画作成用画面
62 画像表示領域(所定の領域)
80 配信者画面
100、200 仮想空間
102、202 アバター
106 テキストオブジェクト