特表2024-513515 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドットドットドットカンパニーリミテッドの特許一覧

特表2024-513515映像生成方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-03-25

(54)【発明の名称】映像生成方法及び装置

(51)【国際特許分類】

G06T 13/20 20110101AFI20240315BHJP

G06T 13/40 20110101ALI20240315BHJP

【ＦＩ】

G06T13/20 500

G06T13/40

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023562502

(86)(22)【出願日】2021-11-26

(85)【翻訳文提出日】2023-12-05

(86)【国際出願番号】 KR2021017653

(87)【国際公開番号】W WO2022215823

(87)【国際公開日】2022-10-13

(31)【優先権主張番号】10-2021-0045651

(32)【優先日】2021-04-08

(33)【優先権主張国・地域又は機関】KR

(81)【指定国・地域】

(71)【出願人】

【識別番号】523383864

【氏名又は名称】ドットドットドットカンパニーリミテッド

(74)【代理人】

【識別番号】100128358

【弁理士】

【氏名又は名称】木戸良彦

(74)【代理人】

【識別番号】100086210

【弁理士】

【氏名又は名称】木戸一彦

(72)【発明者】

【氏名】チャン，ジュンス

(72)【発明者】

【氏名】ユン，ヨンギ

(72)【発明者】

【氏名】ぺ，ヨンテク

(72)【発明者】

【氏名】チョイ，ジェフン

【テーマコード（参考）】

5B050

【Ｆターム（参考）】

5B050BA12

5B050CA07

5B050DA10

5B050EA07

5B050EA18

5B050EA24

5B050FA02

5B050FA09

5B050GA08

(57)【要約】

映像生成方法及び装置が開示される。一実施形態に係る映像生成方法は、音声データ、顔を含む顔映像データ及び映像の目的を含む入力データを取得するステップと、顔映像データから抽出された顔特徴の動き及び音声データに基づいて、キャラクターの動きを決定するステップと、音声データ及び目的に基づいて、キャラクターに対応するショットを決定するステップと、決定されたショットに基づいて、音声データに対応する映像を生成するステップとを含む。

【特許請求の範囲】

【請求項1】

音声データ、顔を含む顔映像データ、及び映像の目的を含む入力データを取得するステップと、
前記顔映像データから抽出された顔特徴の動き及び前記音声データに基づいてキャラクターの動きを決定するステップと、
前記音声データ及び前記目的に基づいて、前記キャラクターに対応するショットを決定するステップと、
前記決定されたショットに基づいて、前記音声データに対応する映像を生成するステップと、
を含む、映像生成方法。

【請求項2】

前記ショットを決定するステップは、
前記音声データ内の発話区間に基づいて前記ショットの長さを決定するステップと、
前記目的に基づいて前記ショットの類型を決定するステップと、
を含む、請求項１に記載の映像生成方法。

【請求項4】

前記ショットを決定するステップは、
前記目的に基づいて複数のショット（前記複数のショットは、ショットの類型が互いに異なる複数のショットを含む）のシーケンスを決定するステップと、
前記音声データの大きさ変化に基づいて、前記音声データを複数の発話区間に区分するステップと、
前記複数の発話区間に基づいて前記複数のショットの長さを決定するステップと、
を含む、請求項１に記載の映像生成方法。

【請求項5】

前記複数のショットの長さを決定するステップは、
前記目的及び前記複数の発話区間に基づいて、ショットが転換される少なくとも１つの転換点を決定するステップと、
前記転換点に基づいて前記複数のショットの長さを決定するステップと、
を含む、請求項４に記載の映像生成方法。

【請求項6】

前記ショットを決定するステップは、
ユーザの入力に基づいて、前記シーケンス内ショットの順序を変更するステップと、
ユーザの入力に基づいて、前記シーケンスに少なくとも１つのショットを追加するステップと、
ユーザの入力に基づいて、前記シーケンス内少なくとも１つのショットを削除するステップと、
ユーザの入力に基づいて、前記シーケンス内ショットの類型を変更するステップと、
ユーザの入力に基づいて、前記シーケンス内ショットの長さを変更するステップと、
のうち少なくとも１つをさらに含む、請求項４に記載の映像生成方法。

【請求項7】

前記キャラクターの動きを決定するステップは、
前記音声データに対応する発音情報に基づいて、前記キャラクターの口の形の動きを決定するステップと、
前記顔映像データの複数のフレームに対応して抽出された前記顔特徴の動きに基づいて、前記キャラクターの顔要素の動きを決定するステップと、
を含む、請求項１に記載の映像生成方法。

【請求項8】

前記キャラクターの動きを決定するステップは、
前記目的に基づいて前記キャラクターの表情を決定するステップと、
前記顔特徴の動き及び前記音声データに基づいて前記キャラクターの顔要素の動きを決定するステップと、
前記決定されたキャラクターの表情及び前記キャラクターの顔要素の動きを結合するステップと、
を含む、請求項１に記載の映像生成方法。

【請求項10】

前記入力データを取得するステップは、前記顔映像データにおいて、瞳の動き、まぶたの動き、眉毛の動き、及び首の動きのうち少なくとも１つを含む前記顔特徴の動きを抽出するステップと、
をさらに含む、請求項１に記載の映像生成方法。

【請求項11】

前記キャラクターは、
前記顔映像データ内の第１顔映像データから取得された第１顔特徴の動き、及び前記音声データ内の第１音声データに基づいて動きが決定される第１キャラクターと、
前記顔映像データ内の第２顔映像データから取得された第２顔特徴の動き、及び前記音声データ内の第２音声データに基づいて動きが決定された第２キャラクターと、
を含み、
前記ショットを決定するステップは、前記音声データ内の第１音声データ、前記音声データ内の第２音声データ、及び前記目的に基づいて、前記第１キャラクター及び前記第２キャラクターに対応するショットを決定するステップを含む、請求項１に記載の映像生成方法。

【請求項13】

前記キャラクターの動きを決定するステップは、
前記目的、前記第１音声データ、及び前記第２音声データのうち少なくとも１つに基づいて、前記第１キャラクター及び前記第２キャラクターのインタラクションを決定するステップと、
前記決定されたインタラクションに基づいて、前記第１キャラクターの動き及び前記第２キャラクターの動きを決定するステップと、
をさらに含む、請求項１１に記載の映像生成方法。

【請求項14】

前記音声データは、第１ユーザ端末から取得された第１音声データ及び第２ユーザ端末から取得された第２音声データを含み、
前記顔映像データは、前記第１ユーザ端末から取得された第１顔映像データ及び前記第２ユーザ端末から取得された第２顔映像データを含む、請求項１１に記載の映像生成方法。

【請求項16】

音声データ、顔を含む顔映像データ、及び映像の目的を含む入力データを取得し、
前記顔映像データから抽出された顔特徴の動き及び前記音声データに基づいて、前記キャラクターの動きを決定し、
前記音声データ及び前記目的に基づいてキャラクターに対応するショットを決定し、
前記決定されたショットに基づいて、前記音声データに対応する映像を生成する、少なくとも１つのプロセッサと、
を含む、映像生成装置。

【請求項17】

前記プロセッサは、
前記ショットを決定することにおいて、
前記目的に基づいて、複数のショット（前記複数のショットは、ショットの類型が互いに異なる複数のショットを含む）のシーケンスを決定し、
前記音声データの大きさ変化に基づいて、前記音声データを複数の発話区間に区分し、
前記複数の発話区間に基づいて前記複数のショットの長さを決定する、請求項１６に記載の映像生成装置。

【請求項18】

前記プロセッサは、
前記ショットを決定することにおいて、
ユーザの入力に基づいて、前記シーケンス内ショットの順序を変更する動作と、
ユーザの入力に基づいて、前記シーケンスに少なくとも１つのショットを追加する動作と、
ユーザの入力に基づいて、前記シーケンス内少なくとも１つのショットを削除する動作と、
ユーザの入力に基づいて、前記シーケンス内ショットの類型を変更する動作と、
ユーザの入力に基づいて、前記シーケンス内ショットの長さを変更する動作と、
のうち少なくとも１つをさらに行う、請求項１７に記載の映像生成装置。
映像生成装置。

【請求項19】

前記プロセッサは、
前記キャラクターの動きを決定することにおいて、
前記目的に基づいて前記キャラクターの表情を決定し、
前記顔特徴の動き及び前記音声データに基づいて前記キャラクターの顔要素の動きを決定し、
前記決定されたキャラクターの表情及び前記キャラクターの顔要素の動きを結合する、請求項１６に記載の映像生成装置。

【請求項20】

前記プロセッサは、
前記キャラクターの表情を決定することにおいて、
ユーザの入力に基づいて前記キャラクターの顔表情を変更する、請求項１９に記載の映像生成装置。

【発明の詳細な説明】

【技術分野】

【0001】

以下の実施形態は映像生成方法及び装置に関し、具体的にはキャラクターを含む映像生成方法及び装置に関する。

【背景技術】

【0002】

最近、モバイルスマート機器の発達によりネットワークを介して他のユーザと交流のためのオンラインプラットフォームサービスであるソーシャルネットワーキングサービス（ｓｏｃｉａｌｎｅｔｗｏｒｋｉｎｇｓｅｒｖｉｃｅ；ＳＮＳ）の利用が増加している。ＳＮＳは、ユーザ間のコミュニケーション、情報共有及び人脈拡大などを介して、社会的な関係を生成して強化する目的を達成するために、文章、写真、映像、音声などの様々な形態の情報交換を通したソーシャルネットワーキング機能を提供する。自身の個性及び考えを自由に表現し、他のユーザと便利にコミュニケーションできる様々な形態のソーシャルネットワーキングサービスに対する技術が求められている。

【発明の概要】

【発明が解決しようとする課題】

【0003】

以下の実施形態は、ユーザの入力による動いているキャラクターを生成し、動いているキャラクターを様々な撮影方式で撮影した映像を生成する技術を提供することにある。

【0004】

以下の実施形態は、映像生成のために必要な要素を自動に生成し、自動に生成された要素の編集機能を提供する映像生成技術を提供することにある。

【0005】

但し、技術的な課題は、上述した技術的な課題に限定されるものではなく、更なる技術的な課題が存在する。

【課題を解決するための手段】

【0006】

一側による映像生成方法は、音声データ、顔を含む顔映像データ、及び映像の目的を含む入力データを取得するステップと、前記顔映像データから抽出された顔特徴の動き及び前記音声データに基づいてキャラクターの動きを決定するステップと、前記音声データ及び前記目的に基づいて、前記キャラクターに対応するショットを決定するステップと、前記決定されたショットに基づいて、前記音声データに対応する映像を生成するステップとを含む。

【0007】

前記ショットを決定するステップは、前記音声データ内の発話区間に基づいて前記ショットの長さを決定するステップと、前記目的に基づいて前記ショットの類型を決定するステップとを含むことができる。

【0008】

前記ショットの類型は、前記ショットに投影されたキャラクターの大きさに基づいたショットの大きさ、及び前記ショットに投影されたキャラクターの角度に基づいたショットのアングルによって区分されることができる。

【0009】

前記ショットを決定するステップは、前記目的に基づいて複数のショット（前記複数のショットは、ショットの類型が互いに異なる複数のショットを含む）のシーケンスを決定するステップと、前記音声データの大きさ変化に基づいて、前記音声データを複数の発話区間に区分するステップと、前記複数の発話区間に基づいて前記複数のショットの長さを決定するステップとを含むことができる。

【0010】

前記複数のショットの長さを決定するステップは、前記目的及び前記複数の発話区間に基づいて、ショットが転換される少なくとも１つの転換点を決定するステップと、前記転換点に基づいて前記複数のショットの長さを決定するステップとを含むことができる。

【0011】

前記ショットを決定するステップは、ユーザの入力に基づいて、前記シーケンス内ショットの順序を変更するステップと、ユーザの入力に基づいて、前記シーケンスに少なくとも１つのショットを追加するステップと、ユーザの入力に基づいて、前記シーケンス内少なくとも１つのショットを削除するステップと、ユーザの入力に基づいて、前記シーケンス内ショットの類型を変更するステップと、ユーザの入力に基づいて、前記シーケンス内ショットの長さを変更するステップとのうち少なくとも１つをさらに含むことができる。

【0012】

前記キャラクターの動きを決定するステップは、前記音声データに対応する発音情報に基づいて、前記キャラクターの口の形の動きを決定するステップと、前記顔映像データの複数のフレームに対応して抽出された前記顔特徴の動きに基づいて、前記キャラクターの顔要素の動きを決定するステップとを含むことができる。

【0013】

前記キャラクターの動きを決定するステップは、前記目的に基づいて前記キャラクターの表情を決定するステップと、前記顔特徴の動き及び前記音声データに基づいて前記キャラクターの顔要素の動きを決定するステップと、前記決定されたキャラクターの表情及び前記キャラクターの顔要素の動きを結合するステップとを含むことができる。

【0014】

前記キャラクターの表情を決定するステップは、ユーザの入力に基づいて前記キャラクターの顔表情を変更するステップをさらに含むことができる。

【0015】

前記入力データを取得するステップは、前記顔映像データにおいて、瞳の動き、まぶたの動き、眉毛の動き、及び首の動きのうち少なくとも１つを含む前記顔特徴の動きを抽出するステップとをさらに含むことができる。

【0016】

【0017】

前記ショットを決定するステップは、前記音声データ内の第１音声データ、前記音声データ内の第２音声データ、及び前記目的に基づいて、前記第１キャラクター及び前記第２キャラクターに対応するショットを決定するステップを含むことができる。

【0018】

前記ショットを決定するステップは、前記目的に基づいて前記ショットに含まれた前記第１キャラクター及び前記第２キャラクターの配置を決定するステップを含むことができる。

【0019】

前記キャラクターの動きを決定するステップは、前記目的、前記第１音声データ、及び前記第２音声データのうち少なくとも１つに基づいて、前記第１キャラクター及び前記第２キャラクターのインタラクションを決定するステップと、前記決定されたインタラクションに基づいて、前記第１キャラクターの動き及び前記第２キャラクターの動きを決定するステップとをさらに含むことができる。

【0020】

前記音声データは、第１ユーザ端末から取得された第１音声データ及び第２ユーザ端末から取得された第２音声データを含むことができる。

【0021】

前記顔映像データは、前記第１ユーザ端末から取得された第１顔映像データ及び前記第２ユーザ端末から取得された第２顔映像データを含むことができる。

【0022】

一実施形態に係る映像生成装置は、音声データ、顔を含む顔映像データ、及び映像の目的を含む入力データを取得し、前記顔映像データから抽出された顔特徴の動き及び前記音声データに基づいて、前記キャラクターの動きを決定し、前記音声データ及び前記目的に基づいてキャラクターに対応するショットを決定し、前記決定されたショットに基づいて、前記音声データに対応する映像を生成する、少なくとも１つのプロセッサとを含む。

【0023】

前記プロセッサは、前記ショットを決定することにおいて、前記目的に基づいて、複数のショット（前記複数のショットは、ショットの類型が互いに異なる複数のショットを含む）のシーケンスを決定し、前記音声データの大きさ変化に基づいて、前記音声データを複数の発話区間に区分し、前記複数の発話区間に基づいて前記複数のショットの長さを決定することができる。

【0024】

前記プロセッサは、前記ショットを決定することにおいて、ユーザの入力に基づいて、前記シーケンス内ショットの順序を変更する動作と、ユーザの入力に基づいて、前記シーケンスに少なくとも１つのショットを追加する動作と、ユーザの入力に基づいて、前記シーケンス内少なくとも１つのショットを削除する動作と、ユーザの入力に基づいて、前記シーケンス内ショットの類型を変更する動作と、ユーザの入力に基づいて、前記シーケンス内ショットの長さを変更する動作とのうち少なくとも１つをさらに行うことができる。

【0025】

前記プロセッサは、前記キャラクターの動きを決定することにおいて、前記目的に基づいて前記キャラクターの表情を決定し、前記顔特徴の動き及び前記音声データに基づいて前記キャラクターの顔要素の動きを決定し、前記決定されたキャラクターの表情及び前記キャラクターの顔要素の動きを結合することができる。

【0026】

前記プロセッサは、前記キャラクターの表情を決定することにおいて、ユーザの入力に基づいて前記キャラクターの顔表情を変更することができる。

【図面の簡単な説明】

【0027】

【図1】一実施形態に係る映像生成方法の動作フローチャートである。

【図2】一実施形態に係るキャラクターに対応する様々な表情の例示を示す図である。

【図3】一実施形態に係る映像の目的に対応して決定された互いに異なる類型のショットの例示を示す図である。

【図4】一実施形態に係る時間の流れによる音の大きさ変化のグラフの例示を示す図である。

【図5】一実施形態に係る決定されたショットの編集のためのインターフェースの例示を示す図である。

【図6】一実施形態に係る決定されたショットの編集のためのインターフェースの例示を示す図である。

【図7】一実施形態に係る決定されたショットの編集のためのインターフェースの例示を示す図である。

【図8】一実施形態に係る決定されたショットの編集のためのインターフェースの例示を示す図である。

【図9】一実施形態に係る決定されたショットの編集のためのインターフェースの例示を示す図である。

【図10】一実施形態に係る映像生成システムの構成を説明するためのブロック図である。

【発明を実施するための形態】

【0028】

実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。

【0029】

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に、第２構成要素は第１構成要素にも命名することができる。

【0030】

いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。

【0031】

単数の表現は、文脈上、明白に異なる意味を有しない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

【0032】

異なるように定義さがれない限り、技術的又は科学的な用語を含み、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

【0033】

以下、添付する図面を参照しながら実施形態を詳細に説明する。図面を参照して説明する際に、図面符号に拘わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。

【0034】

図１は、一実施形態に係る映像生成方法の動作フローチャートである。

【0035】

図１を参照すると、一実施形態に係る映像生成方法は、入力データを取得するステップ１１０、キャラクターを決定するステップ１２０、キャラクターの動きを決定するステップ１３０、キャラクターに対応するショットを決定するステップ１４０、及び音声データに対応する映像を生成するステップ１５０を含む。

【0036】

一実施形態に係る映像生成方法は、映像生成システムの少なくとも１つのプロセッサによって行われることができる。映像生成システムは、音声データ、顔を含む顔映像データ及び映像の目的を含む入力データを処理し、入力データに対応する映像を出力するシステムで少なくとも１つのプロセッサにより駆動される。以下、映像生成システムはシステムに簡略に称される。

【0037】

一実施形態によれば、映像生成システムは装置に実現されてもよく、映像生成システムが具現された装置は、ユーザ端末（例えば、携帯電話、コンピュータ）及びサーバを含んでもよい。ユーザ端末は、ユーザから入力データを受信し、ユーザに入力データの処理による映像を提供するためのユーザインターフェースを含む。ユーザ端末は、ネットワークを介してサーバと作動的に接続されてもよい。以下で、ユーザ端末は端末に簡略に称される。一実施形態に係る映像生成方法の動作は、システム内の端末又はサーバを構成するプロセッサによって実行されてもよい。一実施形態に係る映像生成システムの具体的な構成は、以下の図１０を参照して説明する。

【0038】

一実施形態に係るステップ１１０は、音声データ、顔を含む顔映像データ、及び映像の目的を含む入力データを取得するステップを含む。音声データは、ユーザの発話によって生成された声信号に該当する。顔映像データは、少なくとも１つの顔含む映像データとして、静止画及び動画を含んでもよい。以下において顔映像データは、動画である場合を例に挙げて説明するが、これに限定されることはない。

【0039】

一実施形態に係る顔映像データ及び音声データは時間軸に同期化されたデータに該当する。例えば、取得された顔映像データは、発話するユーザの顔を撮影した動画に該当し、取得された音声データは、顔映像データに時間軸に同期化された発話するユーザの音声信号を含んでもよい。

【0040】

映像の目的は、生成される映像の主題又はスタイルに関し、例えば、本真が入っている主張、強い意志、客観的な分析、ロマンチックな対話、言い争い、楽しい対話、楽しいこと、恐ろしいこと、感謝の気持ち、悲しい経験、苦しい状況、くやしいことを含んでもよい。

【0041】

一実施形態によれば、入力データはユーザから入力のためのユーザインターフェースを介して取得される。一例として、ユーザは、ユーザ端末にインストールされたアプリケーションで提供されるユーザインターフェースを介して動画を撮影し、音声データ及び顔映像データを入力してもよい。一例として、ユーザは、ユーザ端末にインストールされたアプリケーションで提供されるユーザインターフェースを介して、映像の目的に応じて選択可能な予め選択された選択肢がユーザに提供され、予め決定された映像の目的に関する選択肢のうち、ユーザにより選択された少なくとも１つが取得された映像の目的として取得されてもよい。

【0042】

一実施形態に係るステップ１２０～ステップ１４０は、取得された入力データに基づいて映像生成のためのパラメータを設定するステップを含む。映像生成のためのパラメータは、映像に含まれる少なくとも１つの要素を決定するための因子として、例えば、キャラクターの外形に関するパラメータ、キャラクターの動きに関するパラメータ、及びショットに関するパラメータを含むが、これに限定されることはない。

【0043】

一実施形態によれば、ステップ１１０で取得された入力データは、キャラクターの外形決定に関するユーザの選択入力を含む。一実施形態によれば、ステップ１２０は、ステップ１１０で取得されたキャラクターの外形決定に関するユーザの選択入力に基づいて、キャラクターを決定するステップを含む。キャラクターを決定することは、キャラクターの外形に関するパラメータの値を決定することを意味する。キャラクターの外形に関するパラメータ値は、キャラクターの外形を決定する外形に関する要素（例えば、ヘアースタイル、顔のタイプ、体形、皮膚の色、眉毛、目、鼻、口、衣装）それぞれに対するパラメータ値を含んでもよい。キャラクターの外形に関するパラメータ値に基づいてキャラクターの外形が視覚的に決定され得る。

【0044】

一実施形態によれば、キャラクターの外形決定に関するユーザの選択入力によって、キャラクターの様々な外形に関するパラメータが決定される。例えば、ユーザの選択入力によってキャラクターの類型（例えば、エイリアン、動物、人）に関するパラメータ値、キャラクターのスタイル（例えば、日本マンガスタイル、アメリカコミックスタイル）に関するパラメータ値キャラクターの衣装に関するパラメータ値が決定されてもよい。

【0045】

一実施形態によれば、キャラクターの外形に関する要素に対応して予め決定された複数の候補がユーザに提供され、ユーザは各要素に対応して提供された複数の候補のいずれか１つを選択する方式で、キャラクターの外形に関する要素のパラメータ値を決定することができる。例えば、ユーザは、インターフェースを介して提供される複数のヘアースタイル、複数の顔タイプ、複数の目の形、複数の皮膚の色、複数の衣装のいずれか１つを選択することで、キャラクターの外形に関する要素のパラメータ値を決定してもよい。一実施形態によれば、複数の候補は、他のユーザによって生成されたキャラクターの外形に関する要素を含んでもよい。

【0046】

一実施形態によれば、ステップ１２０は、ステップ１１０で取得された顔映像データから抽出された顔特徴に基づいて、キャラクターを決定するステップを含む。言い換えれば、顔映像データから抽出された顔特徴に基づいてキャラクターが決定されてもよい。一実施形態によれば、顔特徴は、顔映像で認識される顔要素の特徴として、例えば、顔の輪郭、目、鼻、口、眉毛の特徴点の位置に基づいて取得された瞳の位置、眉毛の形、及び首の方向を含んでもよい。様々な顔認識アルゴリズム又は顔特徴抽出アルゴリズムに基づいて、顔映像データから顔特徴が抽出されることができる。

【0047】

一実施形態によれば、顔映像データから抽出された顔特徴に基づいてキャラクターの外形に関するパラメータの値が決定されることができる。例えば、抽出された眉毛のタイプに基づいて、キャラクターの眉毛要素に関するパラメータ値が決定されてもよく、抽出された頭方向に基づいてキャラクターの頭要素に関するパラメータ値が決定され、抽出された瞳の位置に基づいてキャラクターの目要素に関するパラメータ値が決定されてもよい。

【0048】

一実施形態によれば、顔映像データから抽出される顔特徴の他に、他の特徴にさらに基づいてキャラクターが決定されることができる。例えば、顔映像データから抽出される性別、皮膚の色、顔のタイプ、ヘアースタイルの特徴に基づいてキャラクターの外形に関するパラメータ値が決定され得る。

【0049】

一実施形態によれば、顔映像データから抽出された顔特徴又は他の特徴に基づいて決定されたパラメータ値もユーザの選択入力によって変更されてもよい。例えば、ユーザの選択入力により、予め決定されたキャラクターの眉毛のタイプ、性別、皮膚の色、顔のタイプ、ヘアースタイルが変更されてもよい。

【0050】

一実施形態によれば、ステップ１３０は、顔映像データから抽出された顔特徴の動き及び音声データに基づいて、キャラクターの動きを決定するステップを含む。一実施形態によれば、顔特徴の動きは、顔映像データの複数のフレームに対応して抽出された少なくとも１つの顔特徴の時間の流れによる位置変化及び形変化を含んでもよい。例えば、瞳の位置変化を含む瞳の動き、まぶたのちらつきは動きを含むまぶたの動き、眉毛の高さ変化、及び角度変化を含む眉毛の動き、頭の方向変化を含む首の動きを含んでもよい。

【0051】

一実施形態によれば、ステップ１１０で取得された顔映像データから抽出された顔特徴の動き、及びステップ１１０で取得された音声データに基づいて、キャラクターの動きが決定される。キャラクターの動きは、キャラクター全体又はキャラクターの一部の位置及び／又は形が時間の流れに応じて変化することで、顔映像データから抽出された顔特徴の動きに対応する動きを含むことができる。例えば、キャラクターの動きは、顔特徴の動きに対応するキャラクターそのもの、キャラクターの眉毛、瞳、まぶた、腕、足、又は、口の位置及び／又は形の時間の流れによる動きを含んでもよい。

【0052】

一実施形態に係るステップ１３０は、音声データの発音情報に基づいて、ステップ１１０で取得された音声データに対応する発音情報に基づいて、キャラクターの口の形の動きを決定するステップ、及びステップ１１０で取得された顔映像データの複数のフレームに対応して抽出された顔特徴の動きに基づいて、キャラクターの顔要素の動きを決定するステップを含む。

【0053】

一実施形態によれば、発音情報に対応する口の形は予め決定されてもよい。例えば、［ａ］発音に対応する第１口の形が予め決定され、該当発音を出すための人の実際の口の形を参照して決定され得る。

【0054】

一実施形態によれば、ステップ１１０で取得された音声データを音声認識し、音声データの各フレームに対応する発音情報が取得される。発音情報に対応して予め決定された口の形に基づいて、各フレームの発音情報に対応する口の形が決定され、各フレームに対応して決定された口の形をフレームの時間順に連結することによって、口の形の動きが生成される。

【0055】

一実施形態によれば、キャラクターの顔要素の動きは、顔映像データの複数のフレームに対応して抽出された顔特徴の動きに基づいて決定されることができる。例えば、複数のフレームに対応して抽出された瞳の位置の変化に基づいてキャラクターの瞳の動きが決定され、複数のフレームに対応して抽出された首の方向の変化に基づいてキャラクターの首の動きが決定されてもよい。ここで、顔要素は、口の形を除いたキャラクターの顔に含まれた眉毛、目のような顔要素を含んでもよい。

【0056】

一実施形態に係るステップ１３０は、取得された目的に基づいてキャラクターの表情を決定するステップ、取得された顔特徴の動き及び音声データに基づいてキャラクターの顔要素の動きを決定するステップ、及び決定されたキャラクターの表情及び決定されたキャラクターの顔要素の動きを結合するステップを含む。ここで、顔要素は口の形を含んでもよい。

【0057】

一実施形態によれば、ステップ１２０で決定されたキャラクターに対応して、複数の表情に該当する複数のキャラクターの顔の形状が予め決定される。例えば、図２を参照すると、決定されたキャラクターに対応する複数の表情に該当するキャラクターの顔の形状２０１～２０５が決定されてもよい。

【0058】

一実施形態によれば、特定の表情に該当するキャラクターの顔の形状に音声データに対応する発音情報に基づいて決定された口の形の動きが結合され、特定表情で発話するキャラクターの動きが生成され得る。

【0059】

一実施形態によれば、結合された表情により、口の形の一部のパラメータが補正されてもよい。例えば、図２を参照すると、笑っている表情２０２と結合した場合、発音情報により動きが決定された口の形のパラメータは、口がさらに広がっている形態に補正されたり、口元がさらに上がっている形態に補正されてもよい。一方、怒っている表情２０１と結合した場合、発音情報により動きが決定された口の形のパラメータは、口が横にさらに広がっている形態に補正されてもよい。

【0060】

一実施形態によれば、特定表情に該当するキャラクターの顔の形状に抽出された顔特徴の動きに基づいて決定された瞳の動きが結合して取得された顔映像データに対応するキャラクターの動きを生成することができる。

【0061】

一実施形態によれば、映像の目的に基づいて決定されたキャラクターの表情は複数の表情を含んでもよい。言い換えれば、キャラクターの表情は、複数の表情を含む表情シーケンスを含んでもよい。例えば、顔映像データ又は音声データの第１フレームから第２フレームまでは第１表情、第３フレームから第４フレームまでは第２表情に、キャラクターの表情が決定されることができる。

【0062】

再び図１を参照すると、一実施形態に係るステップ１４０は、ステップ１１０で取得された音声データ及び映像の目的に基づいて、キャラクターに対応するショットを決定するステップに該当する。ショットは撮影の基本単位として、一回に撮影した場面を意味し、投影された被写体の大きさに基づいたショットの大きさに関する類型（例えば、クローズアップショット、バストショット、フルショット、ロングショット）、ショットに投影された被写体の角度に基づいたショットのアングルに関する類型（例えば、バードアイビューショット、ハイアングルショット、アイレベルショット、ローアングルショット）にショットの類型が区分される。その他にも、ショットの類型は、ショットに含まれた被写体の数に基づいた類型（例えば、ワンショット、ツーショット、スリーショット、グループショット）、カメラの操作に基づいた類型（例えば、パンニングショット、チルトショット、ズームショット）、カメラの移動に基づいた類型（例えば、ドリーショット、トラッキングショット、アークショット、エアリアルショット）のような様々な類型を含んでもよい。一実施形態によれば、被写体は、ステップ１２０～ステップ１３０によって動きが決定されたキャラクターに該当し、決定されたショットは、仮想の空間で仮想のカメラに動いているキャラクターを撮影した場面に該当する。

【0063】

一実施形態に係るステップ１４０は、取得された音声データ内の発話区間に基づいてショットの長さを決定するステップ、及び取得された目的に基づいてショットの類型を決定するステップを含む。

【0064】

一実施形態によれば、ショットを決定するステップ１４０は、映像の目的に基づいて複数のショットのシーケンスを決定するステップ、音声データの大きさ変化に基づいて音声データを複数の発話区間に区分するステップ、及び複数の発話区間に基づいて複数のショットの長さを決定するステップを含む。

【0065】

一実施形態に係るステップ１４０は、目的に対応する少なくとも１つのショットを含むショットシーケンスを決定するステップを含む。ショットシーケンスは、１つのショット又は順序が決定した複数のショットを含んでもよい。ショットシーケンスに含まれた複数のショットは、ショットの類型が区分される互いに異なる複数のショットを含む。一例として、ショットシーケンスに含まれた複数のショットは、ショットの大きさ及びショットのアングルのうち少なくとも１つが互いに異なる複数のショットを含んでもよい。

【0066】

一実施形態によれば、目的に対応するショットシーケンスは、該当の目的のための撮影映像の撮影時に活用されるショットに基づいて決定されることができる。例えば、図３を参照すると、映像の目的が「インタビュー」である場合、「インタビュー」の目的の映像撮影時に活用される４つのショットを含むショットシーケンスが「インタビュー」の目的に対応して決定されてもよい。ショットシーケンスに含まれた複数のショットは、互いに異なる類型のショットを含んでもよい。ショットシーケンスに含まれた複数のショットは、ショットの大きさ及びショットのアングルのうち少なくとも１つが互いに異なる第１類型ないし第４類型のショットを含んでもよい。例えば、ショット３０１とショット３０２は、被写体を胸まで撮影してショットの大きさは同一である一方、ショット３０１は正面、ショット３０２は斜線方向に被写体を撮影してショットのアングルが異なる。また、例えば、ショット３０１とショット３０３は、被写体を正面で撮影してショットのアングルは同一であるが、ショット３０３は被写体の首まで、ショット３０１は被写体の胸まで撮影してショットの大きさが異なる。

【0067】

一実施形態に係るショットシーケンスに含まれた複数のショットの長さは、音声データ内の発話区間に基づいて決定される。発話区間は、音声データで発話が持続する区間であって、例えば、音声データで発話開始地点として認識された地点から該当発話の終了地点と認識された地点までの区間、又は、音声データで発話の開始地点として認識された地点から該当発話の次の発話の開始地点と認識された地点までの区間が１つの発話区間に該当する。

【0068】

一実施形態によれば、取得された音声データに含まれた時間による音の大きさ変化に基づいて、音声データで発話の開始地点又は発話の終了地点が認識される。例えば、図４は、取得された音声データに対応する時間の流れによる音の大きさ変化のグラフを示す。図４を参照すると、音の大きさ変化に基づいて発話の開始地点又は終了地点が認識され、音声データは、認識された発話の開始地点又は終了地点を境界にする発話区間４１１～４１５に区分される。発話の開始地点又は終了地点は、声信号の大きさが急変する地点、声信号の大きさが閾値未満に減少する地点、声信号の大きさが閾値以上に増加する地点に基づいて決定されるが、これに限定されることはない。その他にも、音声データの音声認識結果を使用して文章が開示する地点、又は、文章が終了する地点が発話の開始地点又は終了地点として決定される。

【0069】

一実施形態によれば、特定発話の開始地点は、以前発話の終了地点と同一であってもよく、以前発話の終了地点よりも以後に認識されることができる。例えば、特定発話の開始地点として認識された地点と以前発話の終了地点として認識された地点との間の時間間隔が予め決定された閾値未満である場合、特定発話の開始地点と以前発話の終了地点は同じ地点として決定される。例えば、図４を参照すると、区間４１２に対応する発話の終了地点４０３と区間４１３に対応する発話の開始地点４０３は同じ地点として決定されてもよい。一方、区間４１３に対応する発話の終了地点４０４と区間４１５に対応する発話の開始地点４０５は異なる地点として決定され、この場合、区間４１４は、発話の音声信号を含まないが、区間４１４も発話区間に含まれてもよい。

【0070】

一実施形態によれば、ショットの長さは、少なくとも１つの発話区間を含むように決定されることができる。例えば、図４を参照すると、２つのショットを含むショットシーケンスが決定された場合、時間的に以前の順の第１ショットは、音声データの開始地点４０１から地点４０２、地点４０３、地点４０４、及び地点４０５のいずれか１つまでの長さとして決定されることができる。言い換えれば、第１ショットは、音声データの開始地点４０１から１個ないし４個のいずれか１つの個数の区間を含む長さとして決定され得る。ショットシーケンスにおいて、第１ショットの次のショットである第２ショットは、第１ショットが終わった地点から音声データの終了地点４０６まで１個ないし４個のいずれか１つの個数の区間を含む長さに決定されることができる。

【0071】

一実施形態によれば、複数のショットの長さを決定するステップは、映像の目的及び複数の発話区間に基づいて、ショットが転換される少なくとも１つの転換点を決定するステップ、及び決定された転換点に基づいて、複数のショットの長さを決定するステップを含む。音声データに含まれた発話区間の境界は、ショットの転換が発生する転換点に決定されてもよい。決定された転換点の個数は、ショットシーケンスに含まれたショットの個数に対応する。例えば、ショットシーケンスに含まれた時間の順序上に１番目ショットは、音声データの開始地点から時間の順序上１番目転換点までの長さとして決定され、２番目のショットは、１番目の転換点から２番目の転換点までの長さとして決定されてもよい。最後のショットは、以前のショットが終了した地点から音声データの終了地点までの長さとして決定されてもよい。

【0072】

一実施形態によれば、ショットシーケンスに含まれたショットの個数及び音声データで決定された転換点の個数は、取得された映像の目的に基づいて決定される。例えば、映像の目的が迫力感を表現するためのものである場合、ショットの転換が多く発生するようショットシーケンスに含まれたショットの個数及び音声データ内の転換点の個数が決定されてもよい。

【0073】

一実施形態によれば、ショット間の長さは任意に決定されてもよく、映像の目的に基づいて決定されてもよい。例えば、映像の目的に応じて、ショットシーケンスに含まれた複数のショットの長さが類似に決定されるよう、音声データ内の転換点が決定され得る。上述したように、音声データ内の転換点は、音声データに含まれた発話区間の間の境界として決定される。また、例えば、映像の目的に応じて、ショットシーケンスに含まれた複数のショットそれぞれに含まれた音声区間の個数が同一になるように音声データ内の転換点が決定されてもよい。また、例えば、映像の目的に応じて、ショットシーケンスに含まれた複数のショットの間の長さの比率が決定され、決定された比率を追従するように音声データ内の転換点が決定されてもよい。

【0074】

一実施形態によれば、取得された映像の目的に基づいて、ショットに含まれるキャラクターの姿勢及び姿勢の動きが決定されてもよい。例えば、インタビューの映像目的に対応して、キャラクターの姿勢は座っている姿勢に決定され、座っている姿勢で発話による手の動作のジェスチャーを含むように姿勢の動きが決定されてもよい。

【0075】

一実施形態によれば、取得された映像の目的に基づいて、ショットに含まれる背景及び小物が決定されてもよい。例えば、インタビューの映像目的に対応してインタビュー空間に対応する背景が決定され、椅子やカメラが小物としてショットに含まれてもよい。

【0076】

一実施形態によれば、映像の目的に対応するショットは、規則基盤モデルに基づいて決定されてもよい。例えば、予め定義された規則に基づいて、特定目的に対応するショットの集合又は特定目的に対応するショットのシーケンスが決定されてもよい。予め定義された規則に基づいて、特定目的に対応するショットの集合が決定された場合、予め定義された規則に基づいてショット間の順序が決定されてもよい。ショット間の順序は任意に決定されてもよく、ショット間の予め決定された優先順位に基づいて決定されてもよい。

【0077】

一実施形態によれば、映像の目的に対応するショットは、統計基盤モデルに基づいて決定されてもよい。統計基盤モデルは、特定目的の映像に登場するショットの頻度、特定目的の映像で第１ショット以後に第２ショットが出てくる確率のように、統計的確率に基づいて特定目的の映像に対応するショットの集合又はショットのシーケンスを出力するモデルに該当する。

【0078】

一実施形態によれば、映像の目的に対応するショットは、学習基盤モデルに基づいて決定されてもよい。学習基盤モデルは、映像データで映像の目的と映像データで使用されたショットの類型を学習し、映像の目的を入力する場合に入力された目的に対応するショットの集合又はショットのシーケンスを出力するモデルに該当する。学習基盤モデルは、ディープラーニングモデルを含んでもよく、ディープラーニングモデルの構造は多様に構成される。学習基盤モデルの構造により様々な学習方法に基づいて学習されてもよい。

【0079】

一実施形態によれば、第１モデルに基づいて特定目的に対応するショットの集合が決定された場合、ショットの間の順序は任意に決定されてもよく、第２モデルに基づいて決定されてもよい。言い換えれば、特定目的に対応するショットの集合を決定する方法とショットの順序を決定する方法は、互いに異なるモデルを使用することができる。例えば、特定目的に対応するショットの集合は統計基盤の第１モデルを用いて決定され、ショットの順序は、規則基盤の第２モデルを用いて決定されてもよい。

【0080】

一実施形態によれば、ショットシーケンスに含まれたショットの長さは規則基盤モデル、統計基盤モデル、及び学習基盤モデルのうち少なくとも１つに基づいて決定されてもよい。ショットシーケンスに含まれたショットの長さは、ショットシーケンスを決定するモデルで音声データに基づいて決定されてもよく、ショットシーケンスを決定するモデルと独立的に構成されたモデルでショットシーケンス及び音声データに基づいて決定されてもよい。

【0081】

一実施形態によれば、映像の目的に対応するショットに含まれた要素は、規則基盤モデル、統計基盤モデル、及び学習基盤モデルのうち少なくとも１つに基づいて決定されてもよい。ショットに含まれた要素は、ショットに含まれたキャラクターの姿勢又は姿勢の動き、ショットに含まれた背景又は小物を含んでもよい。

【0082】

一実施形態によれば、決定されたショット及びショットに含まれた要素は、ユーザ入力に基づいて変更されてもよい。例えば、ユーザ入力に基づいて決定されたショットシーケンスの順序が変更されてもよく、ショットシーケンスに含まれたショットの類型が変更されてもよく、決定されたショットの長さが変更されてもよく、ショットシーケンスに含まれたショットが追加又は削除されてもよい。また、ユーザ入力に基づいてショットに含まれたキャラクターの外形、表情、姿勢が変更され、ショットに含まれた背景、小物が変更されてもよい。一実施形態に係るユーザ入力に基づいて決定されたショット及びショットに含まれた要素を変更する動作は、以下の図５～図９を参照して説明する。

【0083】

再び図１を参照すると、一実施形態に係るステップ１５０は、決定されたショットに基づいて音声データに対応する映像を生成するステップを含む。一実施形態によれば、決定されたショットに基づいて、動きの決定されたキャラクターを含む映像が生成されてもよい。生成された映像は、決定された動きにより動いているキャラクターを、決定されたショットシーケンスによるショットの類型に決定された長さに順に撮影した映像に対応する。

【0084】

一実施形態によれば、生成された映像は、入力された音声データと共に出力され、音声データと時間軸に同期化された映像に該当する。例えば、生成された映像は、音声データに対応する発話するように動きが決定されたキャラクターを含んでもよい。

【0085】

一実施形態によれば、入力された音声データは、音声を除いた雑音を除去するなどの前処理作業が行われ、声を変更する変調作業を行うことができる。

【0086】

一実施形態に係る映像生成方法は、複数のキャラクターを含む映像を生成する動作を含むことができる。以下、説明の便宜のために複数は２である場合を例に挙げて説明するが、２つのキャラクターを含む映像を生成するための動作は、２以上のキャラクターを含む映像を生成する動作に適用されてもよい。

【0087】

一実施形態に係る複数のキャラクターは、第１顔映像データから取得された第１顔特徴の動き及び第１音声データに基づいて、動きが決定される第１キャラクター及び第２顔映像データから取得された第２顔特徴の動き、及び第２音声データに基づいて動きが決定された第２キャラクターを含んでもよい。ここで、第１顔映像データ及び第１音声データは、第１ユーザ端末から取得された入力データに該当し、第２顔映像データ及び第２音声データは、第２ユーザ端末から取得された入力データに該当する。

【0088】

一実施形態によれば、第１キャラクターの外形は、第１ユーザ端末で取得されたキャラクターの外形決定に関する選択入力に基づいて決定され、第２キャラクターの外形は、第２ユーザ端末で取得されたキャラクターの外形決定に関する選択入力に基づいて決定されることができる。

【0089】

例えば、映像生成システムに受信される入力データは、第１ユーザ端末及び第２ユーザ端末のリアルタイム映像通話データを含んでもよい。この場合、第１ユーザ端末を介して第１ユーザ端末で撮影された第１顔映像データ、及び第１ユーザ端末を介して受信されるユーザの音声である第１音声データが受信され、第２ユーザ端末を介して第２ユーザ端末で撮影された第２顔映像データ、及び第２ユーザ端末を介して受信されるユーザの音声である第２音声データが受信される。

【0090】

一実施形態によれば、映像生成システムに受信される入力データは、第１ユーザ端末から受信された第１入力データ及び第１入力データに関連して第２ユーザ端末から受信された第２入力データを含むことができる。例えば、第１ユーザ端末から受信された第１入力データに基づいて第１キャラクターを含む第１映像が生成された場合、第２ユーザで端末から第１映像に対応する第２入力データが受信され、第２入力データに基づいて第１映像に続く第２映像が生成されてもよい。第２映像は、第２入力データ及び第１映像に含まれた第１キャラクターの動き及び第１映像に含まれた異なる要素に基づいて決定されてもよい。例えば、第１映像において、ベンチに座って話す第１キャラクターを含む場合、第２映像は、第１キャラクターの隣に座って話す第２キャラクターを含むように生成されてもよい。

【0091】

一実施形態によれば、キャラクターの動きを決定するステップ１３０は、映像の目的、第１音声データ、及び第２音声データのうち少なくとも１つに基づいて、第１キャラクター及び第２キャラクターのインタラクションを決定するステップ、及び決定されたインタラクションに基づいて、第１キャラクターの動き及び第２キャラクターの動きを決定するステップをさらに含んでもよい。インタラクションは、「対話する」、「握手する」、「ハグする」のように複数のキャラクターの相互作用又は相互接触を含む行動を意味する。

【0092】

一実施形態によれば、第１キャラクターと第２キャラクターとの間のインタラクションは、取得された映像の目的に基づいて決定されることができる。一例として、映像の目的それぞれに対応して、複数のインタラクション候補が予め決定されてもよい。例えば、「ロマンチックな対話」が目的である場合、「手を握る」、「ハグする」のようなインタラクションがインタラクション候補に決定されてもよく、「討論する」が目的である場合、「握手する」のようなインタラクションがインタラクション候補として決定されてもよい。

【0093】

一実施形態によれば、第１キャラクターと第２キャラクターとの間のインタラクションは、取得された音声データに基づいて決定されることができる。特定の単語に対応するインタラクションが予め決定され、音声データで該当単語が認識される場合、これに対応するインタラクションが決定されてもよい。例えば、取得された第１音声データ又は第２音声データで「愛している」の単語が認識された場合、「ハグする」というインタラクションが決定されてもよい。

【0094】

一実施形態によれば、取得された映像の目的に応じて、認識された単語に対応するインタラクションが相違に決定されることができる。例えば、第１目的では第１単語が認識される場合に第１インタラクションが決定されるが、第２目的では同じ第１単語が認識される場合、第１インタラクションとは異なる第２インタラクションが決定されてもよい。一実施形態によれば、音声データで認識された単語に基づいて、映像の目的に対応して所定の複数のインタラクション候補のうちのいずれか１つが選択されてもよい。

【0095】

一実施形態によれば、第１キャラクターと第２キャラクターとの間のインタラクションは、ユーザの入力に基づいて決定されることができる。ユーザは、インターフェースを介して第１キャラクターと第２キャラクターとの間のインタラクションを決定するための要求を入力し得る。例えば、予め決定された第１キャラクターと第２キャラクターとの間のインタラクション候補のいずれか１つを選択することで、第１キャラクターと第２キャラクターとの間のインタラクションを決定するための要求を入力してもよい。第１キャラクターと第２キャラクターとの間のインタラクション候補は、上述したように映像の目的に基づいて予め決定されることができる。

【0096】

一実施形態によれば、ショットを決定するステップ１４０は、第１音声データ、第２音声データ、及び映像の目的に基づいて、第１キャラクター及び第２キャラクターに対応するショットを決定するステップを含む。第１キャラクター及び第２キャラクターに対応するショットを決定するステップは、第１キャラクター及び第２キャラクターに対応するショットは、第１キャラクター及び第２キャラクターのうち少なくとも１つを含むショットを含んでもよい。言い換えれば、第１キャラクター及び第２キャラクターに対応するショットは、第１キャラクターだけ登場したり、第２キャラクターだけ登場したり、又は、第１キャラクター及び第２キャラクターが全て登場するように設定されてもよい。例えば、「討論する」ことが目的である場合、第１キャラクターが発話する時点には第１キャラクターを正面で撮影するショットが決定され、第２キャラクターが発話する時点には、第１キャラクターを正面で撮影するショットが決定されてもよい。また、例えば、「ロマンチックな対話をする」ことが目的である場合、第１キャラクター及び第２キャラクターが含まれるように撮影するショットが決定されてもよい。

【0097】

一実施形態によれば、ショットを決定するステップ１４０は、映像の目的に基づいて、ショットに含まれた第１キャラクター及び第２キャラクターの配置を決定するステップを含む。第１キャラクター及び第２キャラクターの配置は、ショットに表示される第１キャラクターと第２キャラクターとの間の位置関係及び第１キャラクター及び第２キャラクターの構図を含んでもよい。例えば、映像の目的に基づいて、第１キャラクター及び第２キャラクターは、向かい合って座るように配置が決定されてもよく、互いに並んで立っているように配置が決定されてもよく、第１キャラクターは立っており、第２キャラクターは第１キャラクターを見ながら座っているように配置が決定されてもよく、第１キャラクターが第２キャラクターの後から接近する配置が決定されてもよい。

【0098】

一実施形態によれば、映像の目的に基づいて第１キャラクター及び第２キャラクターの関係が決定され、決定された関係に基づいて第１キャラクター及び第２キャラクターの配置が決定されてもよい。例えば、第１キャラクター及び第２キャラクターの関係が友人又は恋人として決定された場合、第１キャラクター及び第２キャラクターは並んで配置されてもよい。

【0099】

一実施形態によれば、映像の目的に基づいてコミュニケーションの種類又は状況の種類が決定され、決定されたコミュニケーションの種類に基づいて第１キャラクター及び第２キャラクターの配置が決定されてもよい。例えば、物を売買するコミュニケーション、情報を共有するコミュニケーション、又は、言い争い又は口論の状況によりコミュニケーションの種類又は状況の種類が決定された場合、第１キャラクター及び第２キャラクターは向かい合うように配置され、映像を見ている人に同意を求めたり、判定を求める状況で状況の種類が決定された場合、同じ方向に向かうように第１キャラクター及び第２キャラクターの配置が決定されてもよい。

【0100】

一実施形態によれば、映像の目的に基づいて第１キャラクターと第２キャラクターとの間の感情が決定され、決定された感情の種類に基づいて第１キャラクター及び第２キャラクターの配置が決定されてもよい。例えば、「愛」又「感謝」のような感情の種類が決定された場合、第１キャラクター及び第２キャラクターは向かい合うように配置され、「驚き」又は「恐怖」のような感情の種類が決定された場合、第１キャラクターが第２キャラクターの後から接近するように配置が決定されてもよい。

【0101】

一実施形態によれば、第１キャラクターと第２キャラクターとの間の配置は、取得された映像の目的に基づいて決定されることができる。一例として、映像の目的それぞれに対応して複数の配置候補が予め決定されてもよい。例えば、「ロマンチックな対話」が目的である場合、ベンチに並んで座っている配置、向かい合って座っている配置、手を結んで立っている配置のような配置候補が決定されてもよい。

【0102】

一実施形態によれば、第１キャラクター及び第２キャラクターの配置は、ユーザの入力に基づいて決定される。ユーザは、インターフェースを介して第１キャラクターと第２キャラクターとの間の配置を決定するための要求を入力することができる。例えば、所定の第１キャラクターと第２キャラクターとの間の配置候補のいずれか１つを選択することで、第１キャラクターと第２キャラクターとの間の配置を決定するための要求を入力してもよい。第１キャラクターと第２キャラクターとの間の配置候補は、上述したように映像の目的に基づいて予め決定されてもよい。

【0103】

一実施形態によれば、ステップ１２０～ステップ１４０の動作は並列的に実行されてもよく、順次実行されてもよい。一例として、キャラクターを決定する動作１２０とキャラクターの動きを決定する動作１３０は、並列的に実行されてもよく、決定されたキャラクターとして決定されたキャラクターの動きが合成されて動いているキャラクターが映像に含まれてもよい。また、一例として、キャラクターに対応するショットを決定する動作１４０は、キャラクターを決定する動作１２０及びキャラクターの動きを決定する動作１３０と並列的に行われ、ショットを決定する動作１４０により任意のキャラクターを特定の角度及び特定の大きさで撮影するショットのシーケンスが決定され、動作１２０及び動作１３０によって決定された動きは、キャラクターを動作１４０によって決定されたショットのシーケンスで撮影することで映像が生成されてもよい。

【0104】

図５～図９は、一実施形態に係る決定されたショットの編集のためのインターフェースの例示を示す。

【0105】

図５を参照すると、決定されたショットシーケンスは複数のショットを含み、複数のショットは、ショットの類型が互いに区分されているショットを含む。例えば、第１ショット５０１は、キャラクターを正面角度で胸位置まで撮影した第１類型のショットに該当し、第２ショット５０２は、キャラクターを正面角度で膝位置まで撮影した第２類型のショットに該当する。一実施形態によれば、決定されたショットシーケンスは、類型の同じショットを複数含んでもよい。例えば、決定されたショットシーケンスに含まれている第１ショット５０１と第３ショット５０３は同じ類型のショットに該当する。

【0106】

一実施形態によれば、決定されたショットシーケンスは、音声データ内の発話区間に基づいてショットの長さが決定されることができる。上述したように、ショットの転換が発生する地点５１１～５１４は、発話の開始地点又は終了地点として認識された地点として発話区間の境界に該当する。

【0107】

一実施形態によれば、インターフェースは、映像の目的に対応して決定された複数のショットのシーケンスを変更するためのインターフェーシングオブジェクト５３０を提供し、ユーザは、インターフェーシングオブジェクト５３０に基づいて、決定されたショットのシーケンスを変更し得る。一実施形態に係るインターフェーシングオブジェクト５３０は、ユーザの入力に反応してショットシーケンスを変更する命令を伝達するように構成されたインターフェーシングオブジェクトに該当する。例えば、インターフェーシングオブジェクト５３０をクリックするショット変更の入力に反応して、ショットシーケンスに含まれたショットの順序が変更されてもよく、ショットシーケンスに含まれたショットの類型が変更されてもよく、ショットシーケンスに含まれたショットの個数が変更され、ショットの長さが変更されてもよい。

【0108】

例えば、図５に示されたインターフェースに含まれたインターフェーシングオブジェクト５３０を選択するショット変更の入力により、図５に示されたショットシーケンス５１０が図６に示されたショットシーケンス６１０に変更されてもよい。図６を参照すると、ショット変更の入力によりショットシーケンス６１０に含まれたショットの個数が変更され、ショットシーケンス６１０に含まれたショットの類型が変更されてもよい。

【0109】

再び図５を参照すると、一実施形態に係るインターフェーシングオブジェクト５３０によるショットシーケンスの変更はランダムに実行されてもよい。例えば、映像の目的に対応して決定されたショットの集合で一部がランダムに選択されてランダムに順序が決定されてもよい。また、例えば、ショットシーケンスを決定するモデルで複数のショットシーケンスの候補が出力され、出力されたショットシーケンスの候補からランダムに決定されてもよい。また、例えば、決定されたショットシーケンスでショットの順序がランダムに変更されてもよい。

【0110】

一実施形態によれば、インターフェーシングオブジェクト５３０によるショットシーケンスの変更は、予め定義された規則により実行されることができる。例えば、映像の目的に対応して決定されたショットの集合で一部が予め決定された順に応じて選択されてショットシーケンスが決定されてもよい。また、例えば、ショットシーケンスを決定するモデルで複数のショットシーケンスの候補が出力され、出力されたショットシーケンスの候補から予め決定された順に応じて決定されてもよい。

【0111】

一実施形態によれば、インターフェースは、映像の目的に対応して決定された複数のショットの集合５２０を提供し、ユーザは提供されたショットの集合５２０に基づいて決定されたショットシーケンスの構成を変更することができる。例えば、ユーザは、インターフェースを介してショットの集合５２０からショット５２１を選択し、ショットシーケンスに含まれたショット５０５を変更する要求を入力してもよく、ユーザの変更入力に反応して、ショットシーケンス５１０は図７に示されたショットシーケンス７１０に変更されることができる。

【0112】

また、例えば、ユーザは、インターフェースを介してショットの集合５２０から少なくとも１つのショットを選択し、ショットシーケンスの特定位置に追加する要求を入力してもよく、ユーザの追加入力に反応してショットシーケンス５１０は図８に示されたショットシーケンス８１０に変更されてもよい。

【0113】

一実施形態によれば、ユーザは、インターフェースを介して決定されたショットシーケンスに含まれた少なくとも一部のショットの大きさ、又は、アングルを変更する要求を入力することができる。例えば、ユーザは、ショットシーケンスに含まれた少なくとも１つのショットを選択してショットに含まれたキャラクターの大きさを制御したり、ショットに含まれたキャラクターの角度を制御することで、ショットの大きさ又はアングルを変更する要求を入力してもよい。言い換えれば、映像の目的に対応して、自動に決定されたショット類型の他に、ユーザの入力に基づいて決定された特定類型のショットがショットシーケンスに含まれてもよい。

【0114】

一実施形態によれば、ユーザは、インターフェースを介して決定されたショットシーケンスに含まれた少なくとも一部のショットを削除する要求を入力することができる。例えば、ユーザは、ショットシーケンスに含まれたショットを選択してショットシーケンスから削除することを要求してもよく、ユーザにより選択されたショットは、ショットシーケンスから削除されてもよい。ショットシーケンスに含まれた一部のショットが削除されることで、削除されたショットの前又は後に位置するショットの長さが調節され得る。

【0115】

一実施形態によれば、インターフェースは、映像の目的に対応して決定された複数のショットの長さを調節できる機能を提供する。ユーザは、インターフェースを介してショットの境界の位置を変更することで、決定されたショットシーケンスの長さを変更する要求を入力し得る。ショット境界の位置は、発話区間の境界に変更され、ユーザが入力したショット境界の位置が発話区間の境界に該当しない場合、マグネチックの効果により近い発話区間の境界にショット境界の位置が変更される。例えば、ユーザは、インターフェースを介してショット５０２とショット５０３との境界の位置５１２を位置５１５に変更する要求を入力し、ユーザの変更入力に反応して、ショットシーケンス５１０は図９に示されたショットシーケンス９１０に変更され得る。

【0116】

一実施形態によれば、映像の目的に基づいて決定されたキャラクターの表情又は映像に対応するキャラクターの複数の表情のシーケンスは、ユーザの選択入力によって変更されることができる。例えば、ユーザは、キャラクターに対応してインターフェースを介して提供される複数の表情に対する選択入力によって各フレームに対応して決定された表情を他の表情に変更してもよく、表情シーケンスに他の表情を追加して各フレームに対応する表情を決定し得る。

【0117】

一実施形態によれば、ユーザの入力により特定のショットに対応す視覚的要素及び聴覚的要素が決定されることができる。例えば、全体のショット又は一部のショットに対応するキャラクターの姿勢、小物、背景、テキストのような視覚的要素がユーザの入力によって設定されたり変更されてもよい。また、例えば、特定ショットに対応する効果音、全体のショット又は一部のショットに対応する背景音楽のような聴覚的要素がユーザ入力により設定されたり変更されてもよい。

【0118】

一実施形態によれば、ユーザの入力によって設定又は変更される要素は、インターフェースを介して提供される複数の候補のうちの一部を選択する入力により決定されることができる。例えば、インターフェースを介してキャラクターの様々な姿勢に関する複数の候補が提供され、ユーザは、キャラクターの姿勢に関する複数の候補のいずれか１つを選択することで、ショットによって決定される場面のキャラクターの姿勢又は姿勢のシーケンスを決定し得る。また、例えば、インターフェースを介して効果音に関する複数の候補が提供され、ユーザは、特定時点に映像に含まれる効果音を複数の候補のうちから選択することにより、効果音を決定することができる。

【0119】

図１０は、一実施形態に係る映像生成システムの構成を説明するためのブロック図である。

【0120】

図１０を参照すると、一実施形態に係る映像生成システムは装置に実現され、映像生成システムが具現された装置は、端末１０１０及びサーバ１０２０を含む。言い換えれば、一実施形態に係る端末１０１０及びサーバ１０２０は、上述した映像生成方法を行う映像生成装置に該当する。図１０に示したシステムの構成は、発明の説明のための一例として、システムに含まれる端末の数又はサーバの数が図１０に示すように限定されることはない。

【0121】

一実施形態に係る端末１０１０は、コンピュータ装置で実現される固定型端末や移動型端末であってもよい。例えば、端末１０１０は、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、携帯電話、コンピュータ、ノート型パソコン、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットＰＣを含んでもよい。一例として、ユーザ端末は、無線又は有線通信方式を用いてネットワーク１０３０を介してサーバ１０２０及び／又は他の電子機器と通信し得る。

【0122】

一実施形態に係るサーバ１０２０は、端末１０１０とネットワーク１０３０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供するコンピュータ装置又は複数のコンピュータ装置に実現されることができる。通信方式は制限されず、ネットワーク１０３０が含んでもよく、通信網（例えば、移動通信網、有線インターネット、無線インターネット、放送網）を活用する通信方式、機器の間の近距離無線通信方式を含んでもよい。例えば、ネットワーク１０３０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでもよい。

【0123】

一実施形態によれば、サーバ１０２０は、ネットワーク１０３０を介して接続した端末１０１０にアプリケーションのインストールのためのファイルを提供することができる。この場合、端末１０１０は、サーバ１０２０から提供されたファイルを用いてアプリケーションをインストールする。また、端末１０１０が含むオペレーティングシステム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ、ＯＳ）及び少なくとも１つのプログラム（例えば、ブラウザ又はインストールされたアプリケーション）の制御によりサーバ１０２０に接続し、サーバ１０２０が提供するサービスやコンテンツが提供されてもよい。例えば、端末１０１０がアプリケーションの制御によりネットワーク１０３０を介してサービス要求メッセージをサーバ１０２０に送信すれば、サーバ１０２０は、サービス要求メッセージに対応するコードを端末１０１０に送信し、端末１０１０は、アプリケーションの制御によりコードによる画面を構成して表示することで、ユーザにコンテンツを提供することができる。

【0124】

一実施形態によれば、端末１０１０とサーバ１０２０は、メモリ１０１１，１０２１、プロセッサ１０１３，１０２３、通信モジュール１０１５，１０２５及び入出力インターフェース１０１７，１０２７を含む。

【0125】

プロセッサ１０１３，１０２３は、図１～図９を参照して前述した少なくとも１つの動作を行うことができる。例えば、プロセッサ１０１３又はプロセッサ１０２３で図１～図９を参照して前述した動作を行ってもよく、プロセッサ１０１３で、図１～図９を参照して前述した一部の動作を行い、プロセッサ１０２３で他の一部動作を行ってもよい。プロセッサ１０１３，１０２３は、基本的な算術、ロジック、及び入出力演算を行うことで、コンピュータプログラムの命令を処理するように構成し得る。命令は、メモリ１０１１，１０２１又は通信モジュール１０１５，１０２５によりプロセッサ１０１３，１０２３に提供され得る。

【0126】

メモリ１０１１，１０２１は、図１～図９を参照して前述した映像生成方法に関する情報を格納したり、前述した映像生成方法が具現されたプログラムを格納してもよい。メモリ１０１１，１０２１は、コンピュータで読み出し可能な記録媒体として、揮発性メモリ又は不揮発性メモリであってもよい。一例として、前述した映像生成方法が具現されたプログラムは、サーバ１０２０でネットワーク１０３０を介して提供するファイルにより端末１０１０にインストールされて駆動するブラウザやアプリケーションのためのコードを含んでもよい。

【0127】

一実施形態に係る通信モジュール１０１５，１０２５は、ネットワーク１０３０を介して端末１０１０とサーバ１０２０が互いに通信するための機能を提供し、他の電子機器又は他のサーバと通信するための機能を提供することができる。一例として、端末１０１０のプロセッサ１０１３がメモリ１０１１のような記録装置に格納されたプログラムコードにより生成した要求が、通信モジュール１０１５の制御によりネットワーク１０３０を介してサーバ１０２０に伝達されてもよい。一例として、サーバ１０２０のプロセッサ１０２３の制御により提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール１０２５とネットワーク１０３０を経て端末１０１０の通信モジュール１０１５を介して端末１０１０に受信されてもよい。例えば、通信モジュール１０１５を介して受信されたサーバ１０２０の制御信号や命令などは、プロセッサ１０１３やメモリ１０１１に伝達されてもよく、コンテンツやファイルなどは端末１０１０がさらに含む格納媒体に格納されてもよい。

【0128】

入出力インターフェース１０１７，１０２７は、入出力装置１０１９とのインターフェースのための手段であってもよい。例えば、入力装置は、キーボード又はマウスなどの装置を、そして出力装置は、アプリケーションの通信セッションを表示するためのディスプレイのような装置を含んでもよい。異なる例として、入出力インターフェース１０１７は、タッチスクリーンのように入力と出力のための機能が１つに組み込まれた装置とのインターフェースのための手段であってもよい。より具体的な例として、端末１０１０のプロセッサ１０１３は、メモリ１０１１にロードされたコンピュータプログラムの命令を処理するにおいて、サーバ１０２０が提供するデータを用いて構成されるサービス画面やコンテンツが入出力インターフェース１０１７を介してディスプレイに表示されてもよい。ユーザから受信された入出力装置１０１９を通した入力は、入出力インターフェース１０１７を介して端末１０１０のプロセッサ１０１３で処理可能な形態に提供され得る。

【0129】

一実施形態によれば、端末１０１０及びサーバ１０２０は、図１０に示していない他の構成要素を含んでもよい。例えば、端末１０１０は、上述した入出力装置１０１９のうち少なくとも一部を含むものとして実現されたり、又は、トランシーバー（ｔｒａｎｓｃｅｉｖｅｒ）、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

【0130】

以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

【0131】

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

【0132】

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気一光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。

【0133】

上記で説明したハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

【0134】

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

【0135】

したがって、他の具現、他の実施形態および特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。

【図1】