特許7373599 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社　ディー・エヌ・エーの特許一覧

特許7373599動画を作成するためのシステム、方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-25

(45)【発行日】2023-11-02

(54)【発明の名称】動画を作成するためのシステム、方法、及びプログラム

(51)【国際特許分類】

G06T 13/20 20110101AFI20231026BHJP

H04N 21/854 20110101ALI20231026BHJP

G06F 3/01 20060101ALI20231026BHJP

G06F 3/04845 20220101ALI20231026BHJP

【ＦＩ】

G06T13/20

H04N21/854

G06F3/01 510

G06F3/04845

【請求項の数】 9

(21)【出願番号】P 2022035714

(22)【出願日】2022-03-08

(62)【分割の表示】P 2018101927の分割

【原出願日】2018-05-28

(65)【公開番号】P2022095625

(43)【公開日】2022-06-28

【審査請求日】2022-03-15

(73)【特許権者】

【識別番号】599115217

【氏名又は名称】株式会社ディー・エヌ・エー

(74)【代理人】

【識別番号】100125195

【弁理士】

【氏名又は名称】尾畑雄一

(72)【発明者】

【氏名】佐々木康伸

【審査官】村松貴士

(56)【参考文献】

【文献】特開２００５－０７８４２７（ＪＰ，Ａ）

【文献】特開２０１０－１１３７０３（ＪＰ，Ａ）

【文献】特開２０１５－１８４６８９（ＪＰ，Ａ）

【文献】特開２０１４－０４４６５５（ＪＰ，Ａ）

【文献】特開２０１５－０５６１３２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１３／００－１３／８０

Ｇ０６Ｔ１９／００－１９／２０

Ｇ０６Ｆ３／０１

Ｇ０６Ｆ３／０４８－３／０４８９５

Ｈ０４Ｎ２１／００－２１／８５８

(57)【特許請求の範囲】

【請求項1】

１又は複数のコンピュータプロセッサを備え、動画を作成するためのシステムであって、
前記１又は複数のコンピュータプロセッサは、読取可能な命令の実行に応じて、
仮想空間に対応する画像と、ユーザによって入力される音声と、を含む動画を作成する処理と、
前記ユーザによる操作に応じて、前記入力される音声に対応するオブジェクトを、前記仮想空間内に配置する処理と、を実行し、
前記操作は、前記仮想空間に対応する画像を表示する画面に対するタッチ操作である、
システム。

【請求項2】

前記配置する処理は、前記画面に対するタッチ状態が開始された後に行われるフリック操作及び／又はスライド操作の方向に基づく視覚効果が付与されるように前記対応するオブジェクトを配置することを含む、
請求項１のシステム。

【請求項3】

１又は複数のコンピュータプロセッサを備え、動画を作成するためのシステムであって、
前記１又は複数のコンピュータプロセッサは、読取可能な命令の実行に応じて、
仮想空間に対応する画像と、ユーザによって入力される音声と、を含む動画を作成する処理と、
前記ユーザによる操作に応じて、前記入力される音声に対応するオブジェクトを、前記仮想空間内に配置する処理と、
前記ユーザによって操作されるアバターの前記仮想空間における動作を制御する処理と、を実行し、
前記仮想空間は、配置されたオブジェクトを前記アバターが触ることができるように構成されている、
システム。

【請求項4】

前記アバターの動作を制御する処理は、カメラを介して入力される画像に含まれる前記ユーザの姿勢に少なくとも基づいて前記アバターの動作を制御することを含む、
請求項３のシステム。

【請求項5】

前記１又は複数のコンピュータプロセッサは、更に、作成した動画をリアルタイムに配信する処理を実行する、
請求項１ないし４何れかのシステム。

【請求項6】

１又は複数のコンピュータによって実行され、動画を作成するための方法であって、
仮想空間に対応する画像と、ユーザによって入力される音声と、を含む動画を作成するステップと、
前記ユーザによる操作に応じて、前記入力される音声に対応するオブジェクトを、前記仮想空間内に配置するステップと、を備え、
前記操作は、前記仮想空間に対応する画像を表示する画面に対するタッチ操作である、
方法。

【請求項7】

１又は複数のコンピュータによって実行され、動画を作成するための方法であって、
仮想空間に対応する画像と、ユーザによって入力される音声と、を含む動画を作成するステップと、
前記ユーザによる操作に応じて、前記入力される音声に対応するオブジェクトを、前記仮想空間内に配置するステップと、
前記ユーザによって操作されるアバターの前記仮想空間における動作を制御するステップと、を備え、
前記仮想空間は、配置されたオブジェクトを前記アバターが触ることができるように構成されている、
方法。

【請求項8】

動画を作成するためのプログラムであって、
１又は複数のコンピュータ上での実行に応じて、前記１又は複数のコンピュータに、
仮想空間に対応する画像と、ユーザによって入力される音声と、を含む動画を作成する処理と、
前記ユーザによる操作に応じて、前記入力される音声に対応するオブジェクトを、前記仮想空間内に配置する処理と、を実行させ、
前記操作は、前記仮想空間に対応する画像を表示する画面に対するタッチ操作である、
プログラム。

【請求項9】

動画を作成するためのプログラムであって、
１又は複数のコンピュータ上での実行に応じて、前記１又は複数のコンピュータに、
仮想空間に対応する画像と、ユーザによって入力される音声と、を含む動画を作成する処理と、
前記ユーザによる操作に応じて、前記入力される音声に対応するオブジェクトを、前記仮想空間内に配置する処理と、
前記ユーザによって操作されるアバターの前記仮想空間における動作を制御する処理と、を実行させ、
前記仮想空間は、配置されたオブジェクトを前記アバターが触ることができるように構成されている、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、動画を作成するためのシステム、方法、及びプログラムに関する。

【背景技術】

【0002】

従来、ユーザが動画の配信を行うためのシステムが提供されている（例えば、特許文献１を参照）。例えば、ユーザは、スマートフォン及びパソコン等のユーザ端末が有するカメラを介して入力される画像、及び、同じくユーザ端末が有するマイクを介して入力される音声が含まれる動画を撮影し、撮影した動画を複数の視聴者に対して配信することができる。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１７－１２１０３６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上述した従来のシステムにおいて、動画に含まれる音声は、同じく動画に含まれる画像と共に出力されるのみであって、面白みに欠ける場合があった。このように、動画に含まれる音声の出力については、そのエンターテイメント性に関して改善の余地がある。

【0005】

本発明の実施形態は、動画に含まれる音声の出力に関するエンターテイメント性を向上させることを目的の一つとする。本発明の実施形態の他の目的は、本明細書全体を参照することにより明らかとなる。

【課題を解決するための手段】

【0006】

本発明の一実施形態に係るシステムは、１又は複数のコンピュータプロセッサを備え、動画を作成するためのシステムであって、前記１又は複数のコンピュータプロセッサは、読取可能な命令の実行に応じて、仮想空間に対応する画像を表示する所定の領域を有する画面をユーザに提示する処理と、前記仮想空間に対応する画像と、前記ユーザによって入力される音声と、を含む動画を作成する処理と、前記ユーザによる前記所定の領域に対するタッチ操作に応じて、前記入力される音声をテキストに変換し、変換されたテキストに対応するテキストオブジェクトを、前記所定の領域内のタッチ操作が行われた位置に基づく前記仮想空間内の位置に配置する処理と、を実行する。

【0007】

本発明の一実施形態に係る方法は、１又は複数のコンピュータによって実行され、動画を作成するための方法であって、仮想空間に対応する画像を表示する所定の領域を有する画面をユーザに提示するステップと、前記仮想空間に対応する画像と、前記ユーザによって入力される音声と、を含む動画を作成するステップと、前記ユーザによる前記所定の領域に対するタッチ操作に応じて、前記入力される音声をテキストに変換し、変換されたテキストに対応するテキストオブジェクトを、前記所定の領域内のタッチ操作が行われた位置に基づく前記仮想空間内の位置に配置するステップと、を備える。

【0008】

本発明の一実施形態に係るプログラムは、動画を作成するためのプログラムであって、１又は複数のコンピュータ上での実行に応じて、前記１又は複数のコンピュータに、仮想空間に対応する画像を表示する所定の領域を有する画面をユーザに提示する処理と、前記仮想空間に対応する画像と、前記ユーザによって入力される音声と、を含む動画を作成する処理と、前記ユーザによる前記所定の領域に対するタッチ操作に応じて、前記入力される音声をテキストに変換し、変換されたテキストに対応するテキストオブジェクトを、前記所定の領域内のタッチ操作が行われた位置に基づく前記仮想空間内の位置に配置する処理と、を実行させる。

【発明の効果】

【0009】

本発明の様々な実施形態は、動画に含まれる音声の出力に関するエンターテイメント性を向上させる。

【図面の簡単な説明】

【0010】

【図1】本発明の一実施形態に係る動画作成装置１０の構成を概略的に示す構成図。

【図2】動画作成装置１０の機能を概略的に示すブロック図。

【図3】動画作成用画面６０を例示する図。

【図4】アバター１０２の動作を制御するために動画作成装置１０が実行する処理を例示するフロー図。

【図5】インカメラを介して入力される入力画像５０を模式的に例示する図。

【図6】入力画像５０に含まれるユーザの顔及び両手が認識される様子を説明するための図。

【図7】入力画像５０を例示する図。

【図8】動画作成用画面６０を例示する図。

【図9】画像表示領域６２に対するタッチ操作の検出に応じて動画作成装置１０が実行する処理を例示するフロー図。

【図10】動画作成用画面６０を例示する図。

【図11】動画作成用画面６０を例示する図。

【図12】動画作成用画面６０を例示する図。

【図13】配信者画面８０を例示する図。

【発明を実施するための形態】

【0011】

以下、図面を参照しながら、本発明の実施形態について説明する。

【0012】

図１は、本発明の一実施形態に係る動画作成装置１０の構成を概略的に示す構成図である。動画作成装置１０は、動画を作成するための機能を有し、本発明のシステムの一部又は全部を実装する装置の一例である。

【0013】

動画作成装置１０は、一般的なコンピュータとして構成されており、図１に示すように、ＣＰＵ又はＧＰＵ等のコンピュータプロセッサ１１と、メインメモリ１２と、ユーザＩ／Ｆ１３と、通信Ｉ／Ｆ１４と、ストレージ（記憶装置）１５とを備え、これらの各構成要素が図示しないバス等を介して電気的に接続されている。

【0014】

コンピュータプロセッサ１１は、ストレージ１５等に記憶されている様々なプログラムをメインメモリ１２に読み込んで、当該プログラムに含まれる各種の命令を実行する。メインメモリ１２は、例えば、ＤＲＡＭ等によって構成される。

【0015】

ユーザＩ／Ｆ１３は、ユーザとの間で情報をやり取りするための各種の入出力装置を含む。ユーザＩ／Ｆ１３は、例えば、キーボード、ポインティングデバイス（例えば、マウス、タッチパネル等）等の情報入力装置、マイクロフォン等の音声入力装置、カメラ等の画像入力装置を含む。また、ユーザＩ／Ｆ１３は、ディスプレイ等の画像出力装置、スピーカ等の音声出力装置を含む。

【0016】

通信Ｉ／Ｆ１４は、ネットワークアダプタ等のハードウェア、各種の通信用ソフトウェア、及びこれらの組み合わせとして実装され、有線又は無線の通信を実現できるように構成されている。

【0017】

ストレージ１５は、例えば磁気ディスク、フラッシュメモリ等によって構成される。ストレージ１５は、オペレーティングシステムを含む様々なプログラム、及び各種データ等を記憶する。ストレージ１５が記憶するプログラムには、動画を作成するための機能を実現するためのアプリケーションプログラム（以下、「動画作成用アプリ」と言うことがある。）が含まれ得る。

【0018】

本実施形態において、動画作成装置１０は、スマートフォン、タブレット端末、パーソナルコンピュータ、及びウェアラブルデバイス等として構成され得る。

【0019】

次に、本実施形態の動画作成装置１０が有する機能について説明する。図２は、動画作成装置１０が有する機能を概略的に示すブロック図である。動画作成装置１０は、図示するように、様々な情報を記憶及び管理する情報記憶管理部４１と、動画を作成する動画作成部４３と、仮想空間を制御する仮想空間制御部４５とを有する。これらの機能は、コンピュータプロセッサ１１及びメインメモリ１２等のハードウェア、並びに、ストレージ１５等に記憶されている各種プログラムやデータ等が協働して動作することによって実現され、例えば、メインメモリ１２に読み込まれたプログラムに含まれる命令をコンピュータプロセッサ１１が実行することによって実現される。

【0020】

情報記憶管理部４１は、ストレージ１５等において様々な情報を記憶及び管理する。動画作成部４３は、動画の作成に関する様々な処理を実行する。本実施形態において、動画作成部４３は、仮想空間に対応する画像を表示する所定の領域を有する画面をユーザに提示するように構成されている。例えば、動画作成部４３は、当該所定の領域を有する画面をディスプレイ等において表示するように構成される。

【0021】

また、動画作成部４３は、上記仮想空間に対応する画像と、入力される音声と、を含む動画を作成するように構成されている。例えば、動画作成部４３は、所定の領域において表示されている仮想空間の画像と、マイクを介して入力される音声とを含む動画を作成（記録）するように構成される。作成された動画は、例えば、ストレージ１５等において格納される。

【0022】

仮想空間制御部４５は、上記仮想空間の制御に関する様々な処理を実行する。本実施形態において、仮想空間制御部４５は、ユーザによる上記所定の領域に対するタッチ操作に応じて、入力される音声をテキストに変換し、変換されたテキストに対応するテキストオブジェクトを仮想空間内に配置するように構成されている。当該テキストオブジェクトは、所定の領域内の上記タッチ操作が行われた位置に基づく仮想空間内の位置に配置される。

【0023】

このように、本実施形態の動画作成装置１０は、仮想空間に対応する画像と、入力される音声とを含む動画を作成し、当該画像を表示する所定の領域に対するタッチ操作に応じて、当該入力される音声をテキストに変換して対応するテキストオブジェクトを仮想空間内に配置するから、入力される音声に対応するオブジェクトが仮想空間に配置される動画を手軽に作成することが可能となる。つまり、本実施形態の動画作成装置１０は、動画に含まれる音声の出力に関するエンターテイメント性を向上させる。

【0024】

本実施形態において、仮想空間制御部４５は、上記所定の領域に対するタッチ状態が開始されてから解消するまでの期間において入力される音声をテキストに変換するように構成され得る。例えば、仮想空間制御部４５は、当該タッチ状態の開始に応じて、入力される音声の録音を開始し、タッチ状態の解消に応じて、録音された音声のテキストへの変換を行って、変換されたテキストに対応するテキストオブジェクトを配置するように構成される。こうした構成は、テキストオブジェクトの配置を簡易な操作で実現し得る。

【0025】

また、仮想空間制御部４５は、所定の領域に対するタッチ状態が開始された後に行われるフリック操作及び／又はスライド操作の方向に基づく視覚効果が付与されるように、変換されたテキストに対応するテキストオブジェクトを配置するように構成され得る。例えば、仮想空間制御部４５は、所定の領域に対するタッチ状態が解消される際に行われるフリック操作／スライド操作の方向が第１の方向（例えば、右方向）である場合は、第１の視覚効果（例えば、フェードインの効果）をテキストオブジェクトに付与する一方、当該フリック操作／スライド操作の方向が第２の方向（例えば、左方向）である場合は、第２の視覚効果（例えば、フェードアウトの効果）をテキストオブジェクトに付与するように構成される。こうした構成は、テキストオブジェクトに対する視覚効果の付与を簡易な操作で実現し得る。

【0026】

本実施形態において、仮想空間は、例えば、カメラを介して入力（撮影）される映像を表示するオブジェクトを含むように構成される。この場合、作成される動画は、例えば、現実のユーザが登場（出演）する動画として構成される。また、当該仮想空間は、例えば、ユーザによって操作されるアバターが含まれるように構成される。この場合、作成される動画は、現実のユーザの代わりにアバターが登場する動画として構成され、仮想空間制御部４５は、当該アバターの仮想空間における動作を制御するように構成される。この場合、仮想空間は、配置されたテキストオブジェクトをアバターが触ることができるように構成され得る。こうした構成は、アバターを介してテキストオブジェクトを触ることが可能となるから、作成される動画のエンターテイメント性が向上し得る。

【0027】

仮想空間にユーザのアバターが含まれる場合において、仮想空間制御部４５は、例えば、タッチパネル又は物理コントローラ等に対するユーザによる操作に応じてアバターの動作を制御するように構成され得る。また、仮想空間制御部４５は、カメラを介して入力される画像に含まれるユーザの姿勢に少なくとも基づいて（例えば、ユーザの姿勢に連動するように）アバターの動作を制御するように構成され得る。画像に含まれるユーザの姿勢（ボーン）の検出は、例えば、公知の人物姿勢推定技術を適用して実現することができる。また、仮想空間制御部４５は、入力される画像に含まれるユーザの身体の１又は複数の所定の部位（例えば、顔及び両手等）の画像における配置に少なくとも基づいて（例えば、所定の部位の配置に連動するように）アバターの動作を制御するように構成され得る。こうした構成は、現実のユーザの動きに基づいてアバターを動作させることを可能とする。

【0028】

次に、このような機能を有する本実施形態の動画作成装置１０の具体例について説明する。この例の動画作成装置１０は、スマートフォン、タブレット端末、又は、パーソナルコンピュータ等として構成されており、動画作成用アプリがインストールされている。この例の動画作成装置１０は、アバターを含む動画を作成するように構成されている。

【0029】

図３は、動画作成装置１０のディスプレイ等において表示される動画作成用画面６０を例示する。当該画面６０は、動画を作成するための画面であって、図示するように、作成する動画に含まれる画像を表示する画像表示領域（所定の領域）６２と、動画の作成（記録、録画）の開始及び終了を指示するための指示ボタン６４とを有する。

【0030】

画像表示領域６２には、仮想空間１００を特定の視野で（特定の位置の仮想カメラを介して）見た画像が表示される。当該仮想空間１００は、三次元の仮想空間として構成されており、人型のアバター１０２、及び、当該アバター１０２の手前に位置する机オブジェクト１０４を含む。

【0031】

ここで、仮想空間１００に含まれるアバター１０２の動作の制御に関する処理について説明する。図４は、この例において、アバター１０２の動作を制御するために、動画作成装置１０が実行する処理を例示するフロー図である。例えば、装置１０は、動画作成用画面６０の表示に応じて、図４に例示される処理を実行する。

【0032】

動画作成装置１０は、まず、図４に示すように、インカメラを介して入力される入力画像に含まれるユーザの顔及び両手を認識する（ステップＳ１００）。インカメラは、装置１０において表示される画面を見るユーザを視野に含むように構成されている。ユーザは、動画作成用画面６０の画像表示領域６２に含まれる仮想空間１００の画像を見ながら、アバター１０２を動作させるためにインカメラの前で身体を動かすことになる。

【0033】

図５は、インカメラを介して入力される入力画像５０を模式的に例示する。図示するように、この例では、ユーザの右手ＲＨの手の平には、第１の色（例えば、赤色）の円形のマーカーＭＫ１が設けられており、ユーザの左手ＬＨの手の平には、第２の色（例えば、黄色）の円形のマーカーＭＫ２が設けられている。これらのマーカーＭＫ１、２は、例えば、手の平に貼り付けるステッカーとして構成され、当該ステッカーは、例えば、動画作成用アプリの提供事業者等によってユーザに提供される。また、マーカーＭＫ１、２は、例えば、手の平にインク等で直接描かれる。この場合、例えば、動画作成用アプリの提供事業者等が配布するインストラクションに従って、ユーザが、両手の手の平にマーカーＭＫ１、２をそれぞれ描く。

【0034】

図６は、図５に例示した入力画像５０に含まれるユーザの顔及び両手が認識される様子を説明するための図である。図示するように、この例では、ユーザの顔ＦＣは、当該顔ＦＣの輪郭を囲う矩形の検出領域ＤＡ１として検出及び認識される。また、ユーザの両手ＲＨ、ＬＨは、当該両手ＲＨ、ＬＨの各々の手の平に設けられているマーカーＭＫ１、２の輪郭を囲う矩形の検出領域ＤＡ２、ＤＡ３としてそれぞれ検出及び認識される。こうした顔ＦＣ、及び、両手ＲＨ、ＬＨ（マーカーＭＫ１、２）の認識（及び、その後の追跡）は、公知の物体追跡技術を用いて実現され、例えば、機械学習を介して生成された学習済みモデルを用いて実現される。

【0035】

図４のフロー図に戻り、入力画像に含まれるユーザの顔及び両手を認識すると、動画作成装置１０は、次に、当該入力画像におけるユーザの顔及び両手の配置に基づいてアバターの動作を制御する（ステップＳ１１０）。こうした入力画像におけるユーザの顔及び両手の配置に基づくアバターの動作の制御は、動画の作成が終了するまでの間（例えば、動画作成用画面６０の表示が終了するまでの間）、繰り返される（ステップＳ１２０においてＮＯ）。

【0036】

この例では、インカメラを介して入力される入力画像５０におけるユーザの顔ＦＣの位置に対する両手ＲＨ、ＬＨの相対的な位置（現実のユーザの顔と両手との間の位置関係）を再現するように、アバター１０２の動作が制御される。例えば、図７に例示するように、現実のユーザが「万歳」の姿勢をとって、入力画像５０におけるユーザの両手ＲＨ、ＬＨ（マーカーＭＫ１、２）がユーザの顔ＦＣの斜め上方に移動した場合、図８に例示するように、仮想空間１００におけるアバター１０２もまた、ユーザと同様に「万歳」の姿勢をとる（両手を顔の斜め上方に移動させる）。

【0037】

ユーザが指示ボタン６４を選択すると、動画の記録が開始され、具体的には、画像表示領域６２に表示される画像と、マイクを介して入力される音声とを含む動画が記録される。ユーザが再度、指示ボタン６４を選択すると、動画の記録が停止される。作成された動画は、ストレージ１５等の所定の領域に格納される。このように、この例において、ユーザは、インカメラの前で身体を動かしながら話すことにより、当該身体の動きに追随して動作するアバター１０２が含まれる仮想空間１００に対応する画像、及び、自身の音声を含む動画を容易に作成することができる。

【0038】

ここで、この例におけるテキストオブジェクトの配置に関する動作について説明する。図９は、動画作成用画面６０の画像表示領域６２に対するユーザによるタッチ操作の検出に応じて、動画作成装置１０が実行する処理を例示するフロー図である。画像表示領域６２に対するタッチ操作を検出すると、装置１０は、まず、図示するように、画像表示領域６２に対するタッチ状態が解消される迄の間、マイクを介して入力される入力音声を録音する（ステップＳ２００、ステップＳ２１０においてＮＯ）。

【0039】

そして、画像表示領域６２に対するタッチ状態が解消されると（ステップＳ２１０においてＹＥＳ）、装置１０は、録音を停止し（ステップＳ２２０）、録音された音声をテキストに変換する（ステップＳ２３０）。録音された音声のテキスト変換は、公知の音声認識技術を適用して実現される。なお、この例では、画像表示領域６２に対するタッチ状態が開始されてから解消するまでの期間において、入力音声は、作成される動画にも含まれる（ミュートされない）。なお、当該期間において、作成される動画における音声をミュートするようにしても良い。

【0040】

続いて、動画作成装置１０は、変換されたテキストに対応するテキストオブジェクトを仮想空間１００に配置する（ステップＳ２４０）。テキストオブジェクトは、変換されたテキストが仮想空間１００における三次元のオブジェクトとして構成されたものであり、画像表示領域６２に対するタッチ操作が行われた位置に基づく仮想空間１００上の位置に配置される。

【0041】

図１０は、画像表示領域６２に対するタッチ操作が行われ、タッチ状態が継続している状態の動画作成用画面６０を例示する。この場合、画像表示領域６２において、タッチ操作が行われている位置を中心とする円形のタッチ位置表示オブジェクト７０が表示される。この状態で、ユーザは、テキストオブジェクトに変換しようとする音声を入力する（話す）。

【0042】

図１１は、図１０の状態から画像表示領域６２に対するタッチ状態が解消されて、テキストオブジェクト１０６が仮想空間１００内に配置された状態の動画作成用画面６０を例示する。図１１の例では、画像表示領域６２に対するタッチ状態が継続されている期間において「こんにちは」という音声が入力されており、テキストオブジェクト１０６は、「こんにちは」というテキストに対応するオブジェクトとして構成されている。テキストオブジェクト１０６は、この例では、その先頭（図１１の例では「こ」の字に対応するオブジェクト）が、タッチ操作が行われていた位置（タッチ位置表示オブジェクト７０の表示位置）に対応する仮想空間１００内の位置となるように配置される。なお、テキストオブジェクト１０６が配置される位置は、これに限定されない。例えば、テキストオブジェクト１０６は、画像表示領域６２内のタッチ操作が行われた位置に基づいて特定され得る様々な仮想空間１００内の位置に配置され得る。

【0043】

この例では、配置されたテキストオブジェクト１０６は、所定の時間（例えば、５秒）の経過後に消える。また、アバター１０２は、テキストオブジェクト１０６を触ることができるようになっている。例えば、テキストオブジェクト１０６は、文字毎に独立して動くように構成されており（文字毎に別々のオブジェクトとして構成されており）、例えば、図１２に示すように、アバター１０２の右手で、テキストオブジェクト１０６の先頭の「こ」の文字のオブジェクトに触ると、当該オブジェクトのみを動かすこともできる。このように、ユーザは、画像表示領域６２に対するタッチ操作によってテキストオブジェクト１０６を仮想空間１００に配置しつつ、アバター１０２を介して、配置したテキストオブジェクト１０６を動かすこともできる。なお、配置されたテキストオブジェクト１０６の動作はこれに限定されない。例えば、テキストオブジェクト１０６は、配置された後に所定の速度で下方向に移動（落下）するように制御され得る。また、テキストオブジェクト１０６の全体、又は、各文字に対応するオブジェクトが、アバター１０２が触れることによって消えるようにし、又は、アバター１０２が触れることによって、所定のエフェクト（形状の変化、及び、発光等）が発生するようにしても良い。

【0044】

この例では、画像表示領域６２に対するタッチ状態を解消する際にフリック操作を行うと、当該フリック操作の方向に基づく視覚効果が、配置されるテキストオブジェクトに対して付与される。例えば、タッチ状態を解消する際に右方向へのフリック操作が行われると、フェードインの効果を伴ってテキストオブジェクト１０６が配置（表示）される一方、タッチ状態を解消する際に左方向へのフリック操作が行われると、テキストオブジェクト１０６の配置後、フェードアウトの効果を伴って当該テキストオブジェクト１０６が消去される。

【0045】

上述した例において、作成される動画をライブ配信するようにしても良い。この場合、例えば、動画作成装置１０は、作成される動画をストリーミング形式で動画配信サーバに送信し、当該動画配信サーバが、複数の視聴者のユーザ端末（スマートフォン等）に対してストリーミング形式で動画を配信する。図１３は、動画のライブ配信を行う配信者のユーザ端末等として構成される動画作成装置１０のディスプレイ等において表示される配信者画面８０を例示する。当該画面８０は、画面全体において三次元の仮想空間２００を表示し、当該仮想空間２００において、配信者のアバター２０２がステージ２０４上に配置されており、複数の視聴者の各々のアバター２０８が観客エリア２０６に配置されている。アバター２０２は、配信者によって操作される（例えば、カメラを介して入力される画像に含まれる配信者の顔及び両手の配置に基づいて制御される）。また、配信者による配信者画面８０に対するタッチ操作に応じて、入力される音声がテキストに変換されて対応するテキストオブジェクトが仮想空間２００内に配置される。アバター２０２は、仮想空間２００において、配置されたテキストオブジェクトを触ることができる。なお、アバター２０２が、テキストオブジェクトと同様に、当該仮想空間２００に配置されている他のオブジェクト（例えば、視聴者のアバター２０８が投げ入れるアイテム（ギフト）等）を触ることができるようにしても良い。

【0046】

上述した例では、仮想空間１００、２００にユーザのアバター１０２、２０２が含まれるようにしたが、本実施形態の他の例において、仮想空間には、ユーザのアバターは含まれず、カメラを介して入力される画像を表示するオブジェクト等が配置され得る。

【0047】

以上説明した本実施形態に係る動画作成装置１０は、仮想空間に対応する画像と、入力される音声とを含む動画を作成し、当該画像を表示する所定の領域（例えば、動画作成用画面６０の画像表示領域６２）に対するタッチ操作に応じて、当該入力される音声をテキストに変換して対応するテキストオブジェクトを仮想空間内に配置するから、入力される音声に対応するオブジェクトが仮想空間に配置される動画を手軽に作成することが可能となる。つまり、本実施形態の動画作成装置１０は、動画に含まれる音声の出力に関するエンターテイメント性を向上させる。

【0048】

本発明の他の実施形態において、動画作成装置１０が有する上述した機能の少なくとも一部は、当該装置１０とインターネット等の通信ネットワークを介して通信可能に接続されるサーバ（例えば、上述した動画配信サーバ）と、動画作成装置１０とが協働することによって実現される。例えば、当該サーバ側で、動画作成装置１０のカメラを介して入力される画像の解析、及び、マイクを介して入力される音声のテキスト変換、並びに、動画の作成（及び配信）等が行われるようにしても良い。

【0049】

本明細書で説明された処理及び手順は、明示的に説明されたもの以外にも、ソフトウェア、ハードウェアまたはこれらの任意の組み合わせによって実現される。例えば、本明細書で説明される処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク等の媒体に、当該処理及び手順に相当するロジックを実装することによって実現される。また、本明細書で説明された処理及び手順は、当該処理・手順に相当するコンピュータプログラムとして実装し、各種のコンピュータに実行させることが可能である。

【0050】

本明細書中で説明された処理及び手順が単一の装置、ソフトウェア、コンポーネント、モジュールによって実行される旨が説明されたとしても、そのような処理または手順は複数の装置、複数のソフトウェア、複数のコンポーネント、及び／又は複数のモジュールによって実行され得る。また、本明細書において説明されたソフトウェアおよびハードウェアの要素は、それらをより少ない構成要素に統合して、またはより多い構成要素に分解することによって実現することも可能である。

【0051】

本明細書において、発明の構成要素が単数もしくは複数のいずれか一方として説明された場合、又は、単数もしくは複数のいずれとも限定せずに説明された場合であっても、文脈上別に解すべき場合を除き、当該構成要素は単数又は複数のいずれであってもよい。

【符号の説明】

【0052】

１０動画作成装置
１１コンピュータプロセッサ
４１情報記憶管理部
４３動画作成部
４５仮想空間制御部
５０入力画像
６０動画作成用画面
６２画像表示領域（所定の領域）
８０配信者画面
１００、２００仮想空間
１０２、２０２アバター
１０６テキストオブジェクト

【図1】