(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-25
(54)【発明の名称】映像生成方法及び装置
(51)【国際特許分類】
G06T 13/20 20110101AFI20240315BHJP
G06T 13/40 20110101ALI20240315BHJP
【FI】
G06T13/20 500
G06T13/40
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023562502
(86)(22)【出願日】2021-11-26
(85)【翻訳文提出日】2023-12-05
(86)【国際出願番号】 KR2021017653
(87)【国際公開番号】W WO2022215823
(87)【国際公開日】2022-10-13
(31)【優先権主張番号】10-2021-0045651
(32)【優先日】2021-04-08
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523383864
【氏名又は名称】ドットドットドット カンパニー リミテッド
(74)【代理人】
【識別番号】100128358
【氏名又は名称】木戸 良彦
(74)【代理人】
【識別番号】100086210
【氏名又は名称】木戸 一彦
(72)【発明者】
【氏名】チャン,ジュン ス
(72)【発明者】
【氏名】ユン,ヨン ギ
(72)【発明者】
【氏名】ぺ,ヨン テク
(72)【発明者】
【氏名】チョイ,ジェ フン
【テーマコード(参考)】
5B050
【Fターム(参考)】
5B050BA12
5B050CA07
5B050DA10
5B050EA07
5B050EA18
5B050EA24
5B050FA02
5B050FA09
5B050GA08
(57)【要約】
映像生成方法及び装置が開示される。一実施形態に係る映像生成方法は、音声データ、顔を含む顔映像データ及び映像の目的を含む入力データを取得するステップと、顔映像データから抽出された顔特徴の動き及び音声データに基づいて、キャラクターの動きを決定するステップと、音声データ及び目的に基づいて、キャラクターに対応するショットを決定するステップと、決定されたショットに基づいて、音声データに対応する映像を生成するステップとを含む。
【特許請求の範囲】
【請求項1】
音声データ、顔を含む顔映像データ、及び映像の目的を含む入力データを取得するステップと、
前記顔映像データから抽出された顔特徴の動き及び前記音声データに基づいてキャラクターの動きを決定するステップと、
前記音声データ及び前記目的に基づいて、前記キャラクターに対応するショットを決定するステップと、
前記決定されたショットに基づいて、前記音声データに対応する映像を生成するステップと、
を含む、映像生成方法。
【請求項2】
前記ショットを決定するステップは、
前記音声データ内の発話区間に基づいて前記ショットの長さを決定するステップと、
前記目的に基づいて前記ショットの類型を決定するステップと、
を含む、請求項1に記載の映像生成方法。
【請求項4】
前記ショットを決定するステップは、
前記目的に基づいて複数のショット(前記複数のショットは、ショットの類型が互いに異なる複数のショットを含む)のシーケンスを決定するステップと、
前記音声データの大きさ変化に基づいて、前記音声データを複数の発話区間に区分するステップと、
前記複数の発話区間に基づいて前記複数のショットの長さを決定するステップと、
を含む、請求項1に記載の映像生成方法。
【請求項5】
前記複数のショットの長さを決定するステップは、
前記目的及び前記複数の発話区間に基づいて、ショットが転換される少なくとも1つの転換点を決定するステップと、
前記転換点に基づいて前記複数のショットの長さを決定するステップと、
を含む、請求項4に記載の映像生成方法。
【請求項6】
前記ショットを決定するステップは、
ユーザの入力に基づいて、前記シーケンス内ショットの順序を変更するステップと、
ユーザの入力に基づいて、前記シーケンスに少なくとも1つのショットを追加するステップと、
ユーザの入力に基づいて、前記シーケンス内少なくとも1つのショットを削除するステップと、
ユーザの入力に基づいて、前記シーケンス内ショットの類型を変更するステップと、
ユーザの入力に基づいて、前記シーケンス内ショットの長さを変更するステップと、
のうち少なくとも1つをさらに含む、請求項4に記載の映像生成方法。
【請求項7】
前記キャラクターの動きを決定するステップは、
前記音声データに対応する発音情報に基づいて、前記キャラクターの口の形の動きを決定するステップと、
前記顔映像データの複数のフレームに対応して抽出された前記顔特徴の動きに基づいて、前記キャラクターの顔要素の動きを決定するステップと、
を含む、請求項1に記載の映像生成方法。
【請求項8】
前記キャラクターの動きを決定するステップは、
前記目的に基づいて前記キャラクターの表情を決定するステップと、
前記顔特徴の動き及び前記音声データに基づいて前記キャラクターの顔要素の動きを決定するステップと、
前記決定されたキャラクターの表情及び前記キャラクターの顔要素の動きを結合するステップと、
を含む、請求項1に記載の映像生成方法。
【請求項10】
前記入力データを取得するステップは、前記顔映像データにおいて、瞳の動き、まぶたの動き、眉毛の動き、及び首の動きのうち少なくとも1つを含む前記顔特徴の動きを抽出するステップと、
をさらに含む、請求項1に記載の映像生成方法。
【請求項11】
前記キャラクターは、
前記顔映像データ内の第1顔映像データから取得された第1顔特徴の動き、及び前記音声データ内の第1音声データに基づいて動きが決定される第1キャラクターと、
前記顔映像データ内の第2顔映像データから取得された第2顔特徴の動き、及び前記音声データ内の第2音声データに基づいて動きが決定された第2キャラクターと、
を含み、
前記ショットを決定するステップは、前記音声データ内の第1音声データ、前記音声データ内の第2音声データ、及び前記目的に基づいて、前記第1キャラクター及び前記第2キャラクターに対応するショットを決定するステップを含む、請求項1に記載の映像生成方法。
【請求項13】
前記キャラクターの動きを決定するステップは、
前記目的、前記第1音声データ、及び前記第2音声データのうち少なくとも1つに基づいて、前記第1キャラクター及び前記第2キャラクターのインタラクションを決定するステップと、
前記決定されたインタラクションに基づいて、前記第1キャラクターの動き及び前記第2キャラクターの動きを決定するステップと、
をさらに含む、請求項11に記載の映像生成方法。
【請求項14】
前記音声データは、第1ユーザ端末から取得された第1音声データ及び第2ユーザ端末から取得された第2音声データを含み、
前記顔映像データは、前記第1ユーザ端末から取得された第1顔映像データ及び前記第2ユーザ端末から取得された第2顔映像データを含む、請求項11に記載の映像生成方法。
【請求項16】
音声データ、顔を含む顔映像データ、及び映像の目的を含む入力データを取得し、
前記顔映像データから抽出された顔特徴の動き及び前記音声データに基づいて、前記キャラクターの動きを決定し、
前記音声データ及び前記目的に基づいてキャラクターに対応するショットを決定し、
前記決定されたショットに基づいて、前記音声データに対応する映像を生成する、少なくとも1つのプロセッサと、
を含む、映像生成装置。
【請求項17】
前記プロセッサは、
前記ショットを決定することにおいて、
前記目的に基づいて、複数のショット(前記複数のショットは、ショットの類型が互いに異なる複数のショットを含む)のシーケンスを決定し、
前記音声データの大きさ変化に基づいて、前記音声データを複数の発話区間に区分し、
前記複数の発話区間に基づいて前記複数のショットの長さを決定する、請求項16に記載の映像生成装置。
【請求項18】
前記プロセッサは、
前記ショットを決定することにおいて、
ユーザの入力に基づいて、前記シーケンス内ショットの順序を変更する動作と、
ユーザの入力に基づいて、前記シーケンスに少なくとも1つのショットを追加する動作と、
ユーザの入力に基づいて、前記シーケンス内少なくとも1つのショットを削除する動作と、
ユーザの入力に基づいて、前記シーケンス内ショットの類型を変更する動作と、
ユーザの入力に基づいて、前記シーケンス内ショットの長さを変更する動作と、
のうち少なくとも1つをさらに行う、請求項17に記載の映像生成装置。
映像生成装置。
【請求項19】
前記プロセッサは、
前記キャラクターの動きを決定することにおいて、
前記目的に基づいて前記キャラクターの表情を決定し、
前記顔特徴の動き及び前記音声データに基づいて前記キャラクターの顔要素の動きを決定し、
前記決定されたキャラクターの表情及び前記キャラクターの顔要素の動きを結合する、請求項16に記載の映像生成装置。
【請求項20】
前記プロセッサは、
前記キャラクターの表情を決定することにおいて、
ユーザの入力に基づいて前記キャラクターの顔表情を変更する、請求項19に記載の映像生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下の実施形態は映像生成方法及び装置に関し、具体的にはキャラクターを含む映像生成方法及び装置に関する。
【背景技術】
【0002】
最近、モバイルスマート機器の発達によりネットワークを介して他のユーザと交流のためのオンラインプラットフォームサービスであるソーシャルネットワーキングサービス(social networking service;SNS)の利用が増加している。SNSは、ユーザ間のコミュニケーション、情報共有及び人脈拡大などを介して、社会的な関係を生成して強化する目的を達成するために、文章、写真、映像、音声などの様々な形態の情報交換を通したソーシャルネットワーキング機能を提供する。自身の個性及び考えを自由に表現し、他のユーザと便利にコミュニケーションできる様々な形態のソーシャルネットワーキングサービスに対する技術が求められている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
以下の実施形態は、ユーザの入力による動いているキャラクターを生成し、動いているキャラクターを様々な撮影方式で撮影した映像を生成する技術を提供することにある。
【0004】
以下の実施形態は、映像生成のために必要な要素を自動に生成し、自動に生成された要素の編集機能を提供する映像生成技術を提供することにある。
【0005】
但し、技術的な課題は、上述した技術的な課題に限定されるものではなく、更なる技術的な課題が存在する。
【課題を解決するための手段】
【0006】
一側による映像生成方法は、音声データ、顔を含む顔映像データ、及び映像の目的を含む入力データを取得するステップと、前記顔映像データから抽出された顔特徴の動き及び前記音声データに基づいてキャラクターの動きを決定するステップと、前記音声データ及び前記目的に基づいて、前記キャラクターに対応するショットを決定するステップと、前記決定されたショットに基づいて、前記音声データに対応する映像を生成するステップとを含む。
【0007】
前記ショットを決定するステップは、前記音声データ内の発話区間に基づいて前記ショットの長さを決定するステップと、前記目的に基づいて前記ショットの類型を決定するステップとを含むことができる。
【0008】
前記ショットの類型は、前記ショットに投影されたキャラクターの大きさに基づいたショットの大きさ、及び前記ショットに投影されたキャラクターの角度に基づいたショットのアングルによって区分されることができる。
【0009】
前記ショットを決定するステップは、前記目的に基づいて複数のショット(前記複数のショットは、ショットの類型が互いに異なる複数のショットを含む)のシーケンスを決定するステップと、前記音声データの大きさ変化に基づいて、前記音声データを複数の発話区間に区分するステップと、前記複数の発話区間に基づいて前記複数のショットの長さを決定するステップとを含むことができる。
【0010】
前記複数のショットの長さを決定するステップは、前記目的及び前記複数の発話区間に基づいて、ショットが転換される少なくとも1つの転換点を決定するステップと、前記転換点に基づいて前記複数のショットの長さを決定するステップとを含むことができる。
【0011】
前記ショットを決定するステップは、ユーザの入力に基づいて、前記シーケンス内ショットの順序を変更するステップと、ユーザの入力に基づいて、前記シーケンスに少なくとも1つのショットを追加するステップと、ユーザの入力に基づいて、前記シーケンス内少なくとも1つのショットを削除するステップと、ユーザの入力に基づいて、前記シーケンス内ショットの類型を変更するステップと、ユーザの入力に基づいて、前記シーケンス内ショットの長さを変更するステップとのうち少なくとも1つをさらに含むことができる。
【0012】
前記キャラクターの動きを決定するステップは、前記音声データに対応する発音情報に基づいて、前記キャラクターの口の形の動きを決定するステップと、前記顔映像データの複数のフレームに対応して抽出された前記顔特徴の動きに基づいて、前記キャラクターの顔要素の動きを決定するステップとを含むことができる。
【0013】
前記キャラクターの動きを決定するステップは、前記目的に基づいて前記キャラクターの表情を決定するステップと、前記顔特徴の動き及び前記音声データに基づいて前記キャラクターの顔要素の動きを決定するステップと、前記決定されたキャラクターの表情及び前記キャラクターの顔要素の動きを結合するステップとを含むことができる。
【0014】
前記キャラクターの表情を決定するステップは、ユーザの入力に基づいて前記キャラクターの顔表情を変更するステップをさらに含むことができる。
【0015】
前記入力データを取得するステップは、前記顔映像データにおいて、瞳の動き、まぶたの動き、眉毛の動き、及び首の動きのうち少なくとも1つを含む前記顔特徴の動きを抽出するステップとをさらに含むことができる。
【0016】
前記キャラクターは、前記顔映像データ内の第1顔映像データから取得された第1顔特徴の動き、及び前記音声データ内の第1音声データに基づいて動きが決定される第1キャラクターと、前記顔映像データ内の第2顔映像データから取得された第2顔特徴の動き、及び前記音声データ内の第2音声データに基づいて動きが決定された第2キャラクターとを含むことができる。
【0017】
前記ショットを決定するステップは、前記音声データ内の第1音声データ、前記音声データ内の第2音声データ、及び前記目的に基づいて、前記第1キャラクター及び前記第2キャラクターに対応するショットを決定するステップを含むことができる。
【0018】
前記ショットを決定するステップは、前記目的に基づいて前記ショットに含まれた前記第1キャラクター及び前記第2キャラクターの配置を決定するステップを含むことができる。
【0019】
前記キャラクターの動きを決定するステップは、前記目的、前記第1音声データ、及び前記第2音声データのうち少なくとも1つに基づいて、前記第1キャラクター及び前記第2キャラクターのインタラクションを決定するステップと、前記決定されたインタラクションに基づいて、前記第1キャラクターの動き及び前記第2キャラクターの動きを決定するステップとをさらに含むことができる。
【0020】
前記音声データは、第1ユーザ端末から取得された第1音声データ及び第2ユーザ端末から取得された第2音声データを含むことができる。
【0021】
前記顔映像データは、前記第1ユーザ端末から取得された第1顔映像データ及び前記第2ユーザ端末から取得された第2顔映像データを含むことができる。
【0022】
一実施形態に係る映像生成装置は、音声データ、顔を含む顔映像データ、及び映像の目的を含む入力データを取得し、前記顔映像データから抽出された顔特徴の動き及び前記音声データに基づいて、前記キャラクターの動きを決定し、前記音声データ及び前記目的に基づいてキャラクターに対応するショットを決定し、前記決定されたショットに基づいて、前記音声データに対応する映像を生成する、少なくとも1つのプロセッサとを含む。
【0023】
前記プロセッサは、前記ショットを決定することにおいて、前記目的に基づいて、複数のショット(前記複数のショットは、ショットの類型が互いに異なる複数のショットを含む)のシーケンスを決定し、前記音声データの大きさ変化に基づいて、前記音声データを複数の発話区間に区分し、前記複数の発話区間に基づいて前記複数のショットの長さを決定することができる。
【0024】
前記プロセッサは、前記ショットを決定することにおいて、ユーザの入力に基づいて、前記シーケンス内ショットの順序を変更する動作と、ユーザの入力に基づいて、前記シーケンスに少なくとも1つのショットを追加する動作と、ユーザの入力に基づいて、前記シーケンス内少なくとも1つのショットを削除する動作と、ユーザの入力に基づいて、前記シーケンス内ショットの類型を変更する動作と、ユーザの入力に基づいて、前記シーケンス内ショットの長さを変更する動作とのうち少なくとも1つをさらに行うことができる。
【0025】
前記プロセッサは、前記キャラクターの動きを決定することにおいて、前記目的に基づいて前記キャラクターの表情を決定し、前記顔特徴の動き及び前記音声データに基づいて前記キャラクターの顔要素の動きを決定し、前記決定されたキャラクターの表情及び前記キャラクターの顔要素の動きを結合することができる。
【0026】
前記プロセッサは、前記キャラクターの表情を決定することにおいて、ユーザの入力に基づいて前記キャラクターの顔表情を変更することができる。
【図面の簡単な説明】
【0027】
【
図1】一実施形態に係る映像生成方法の動作フローチャートである。
【
図2】一実施形態に係るキャラクターに対応する様々な表情の例示を示す図である。
【
図3】一実施形態に係る映像の目的に対応して決定された互いに異なる類型のショットの例示を示す図である。
【
図4】一実施形態に係る時間の流れによる音の大きさ変化のグラフの例示を示す図である。
【
図5】一実施形態に係る決定されたショットの編集のためのインターフェースの例示を示す図である。
【
図6】一実施形態に係る決定されたショットの編集のためのインターフェースの例示を示す図である。
【
図7】一実施形態に係る決定されたショットの編集のためのインターフェースの例示を示す図である。
【
図8】一実施形態に係る決定されたショットの編集のためのインターフェースの例示を示す図である。
【
図9】一実施形態に係る決定されたショットの編集のためのインターフェースの例示を示す図である。
【
図10】一実施形態に係る映像生成システムの構成を説明するためのブロック図である。
【発明を実施するための形態】
【0028】
実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
【0029】
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に、第2構成要素は第1構成要素にも命名することができる。
【0030】
いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。
【0031】
単数の表現は、文脈上、明白に異なる意味を有しない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
【0032】
異なるように定義さがれない限り、技術的又は科学的な用語を含み、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
【0033】
以下、添付する図面を参照しながら実施形態を詳細に説明する。図面を参照して説明する際に、図面符号に拘わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。
【0034】
図1は、一実施形態に係る映像生成方法の動作フローチャートである。
【0035】
図1を参照すると、一実施形態に係る映像生成方法は、入力データを取得するステップ110、キャラクターを決定するステップ120、キャラクターの動きを決定するステップ130、キャラクターに対応するショットを決定するステップ140、及び音声データに対応する映像を生成するステップ150を含む。
【0036】
一実施形態に係る映像生成方法は、映像生成システムの少なくとも1つのプロセッサによって行われることができる。映像生成システムは、音声データ、顔を含む顔映像データ及び映像の目的を含む入力データを処理し、入力データに対応する映像を出力するシステムで少なくとも1つのプロセッサにより駆動される。以下、映像生成システムはシステムに簡略に称される。
【0037】
一実施形態によれば、映像生成システムは装置に実現されてもよく、映像生成システムが具現された装置は、ユーザ端末(例えば、携帯電話、コンピュータ)及びサーバを含んでもよい。ユーザ端末は、ユーザから入力データを受信し、ユーザに入力データの処理による映像を提供するためのユーザインターフェースを含む。ユーザ端末は、ネットワークを介してサーバと作動的に接続されてもよい。以下で、ユーザ端末は端末に簡略に称される。一実施形態に係る映像生成方法の動作は、システム内の端末又はサーバを構成するプロセッサによって実行されてもよい。一実施形態に係る映像生成システムの具体的な構成は、以下の
図10を参照して説明する。
【0038】
一実施形態に係るステップ110は、音声データ、顔を含む顔映像データ、及び映像の目的を含む入力データを取得するステップを含む。音声データは、ユーザの発話によって生成された声信号に該当する。顔映像データは、少なくとも1つの顔含む映像データとして、静止画及び動画を含んでもよい。以下において顔映像データは、動画である場合を例に挙げて説明するが、これに限定されることはない。
【0039】
一実施形態に係る顔映像データ及び音声データは時間軸に同期化されたデータに該当する。例えば、取得された顔映像データは、発話するユーザの顔を撮影した動画に該当し、取得された音声データは、顔映像データに時間軸に同期化された発話するユーザの音声信号を含んでもよい。
【0040】
映像の目的は、生成される映像の主題又はスタイルに関し、例えば、本真が入っている主張、強い意志、客観的な分析、ロマンチックな対話、言い争い、楽しい対話、楽しいこと、恐ろしいこと、感謝の気持ち、悲しい経験、苦しい状況、くやしいことを含んでもよい。
【0041】
一実施形態によれば、入力データはユーザから入力のためのユーザインターフェースを介して取得される。一例として、ユーザは、ユーザ端末にインストールされたアプリケーションで提供されるユーザインターフェースを介して動画を撮影し、音声データ及び顔映像データを入力してもよい。一例として、ユーザは、ユーザ端末にインストールされたアプリケーションで提供されるユーザインターフェースを介して、映像の目的に応じて選択可能な予め選択された選択肢がユーザに提供され、予め決定された映像の目的に関する選択肢のうち、ユーザにより選択された少なくとも1つが取得された映像の目的として取得されてもよい。
【0042】
一実施形態に係るステップ120~ステップ140は、取得された入力データに基づいて映像生成のためのパラメータを設定するステップを含む。映像生成のためのパラメータは、映像に含まれる少なくとも1つの要素を決定するための因子として、例えば、キャラクターの外形に関するパラメータ、キャラクターの動きに関するパラメータ、及びショットに関するパラメータを含むが、これに限定されることはない。
【0043】
一実施形態によれば、ステップ110で取得された入力データは、キャラクターの外形決定に関するユーザの選択入力を含む。一実施形態によれば、ステップ120は、ステップ110で取得されたキャラクターの外形決定に関するユーザの選択入力に基づいて、キャラクターを決定するステップを含む。キャラクターを決定することは、キャラクターの外形に関するパラメータの値を決定することを意味する。キャラクターの外形に関するパラメータ値は、キャラクターの外形を決定する外形に関する要素(例えば、ヘアースタイル、顔のタイプ、体形、皮膚の色、眉毛、目、鼻、口、衣装)それぞれに対するパラメータ値を含んでもよい。キャラクターの外形に関するパラメータ値に基づいてキャラクターの外形が視覚的に決定され得る。
【0044】
一実施形態によれば、キャラクターの外形決定に関するユーザの選択入力によって、キャラクターの様々な外形に関するパラメータが決定される。例えば、ユーザの選択入力によってキャラクターの類型(例えば、エイリアン、動物、人)に関するパラメータ値、キャラクターのスタイル(例えば、日本マンガスタイル、アメリカコミックスタイル)に関するパラメータ値キャラクターの衣装に関するパラメータ値が決定されてもよい。
【0045】
一実施形態によれば、キャラクターの外形に関する要素に対応して予め決定された複数の候補がユーザに提供され、ユーザは各要素に対応して提供された複数の候補のいずれか1つを選択する方式で、キャラクターの外形に関する要素のパラメータ値を決定することができる。例えば、ユーザは、インターフェースを介して提供される複数のヘアースタイル、複数の顔タイプ、複数の目の形、複数の皮膚の色、複数の衣装のいずれか1つを選択することで、キャラクターの外形に関する要素のパラメータ値を決定してもよい。一実施形態によれば、複数の候補は、他のユーザによって生成されたキャラクターの外形に関する要素を含んでもよい。
【0046】
一実施形態によれば、ステップ120は、ステップ110で取得された顔映像データから抽出された顔特徴に基づいて、キャラクターを決定するステップを含む。言い換えれば、顔映像データから抽出された顔特徴に基づいてキャラクターが決定されてもよい。一実施形態によれば、顔特徴は、顔映像で認識される顔要素の特徴として、例えば、顔の輪郭、目、鼻、口、眉毛の特徴点の位置に基づいて取得された瞳の位置、眉毛の形、及び首の方向を含んでもよい。様々な顔認識アルゴリズム又は顔特徴抽出アルゴリズムに基づいて、顔映像データから顔特徴が抽出されることができる。
【0047】
一実施形態によれば、顔映像データから抽出された顔特徴に基づいてキャラクターの外形に関するパラメータの値が決定されることができる。例えば、抽出された眉毛のタイプに基づいて、キャラクターの眉毛要素に関するパラメータ値が決定されてもよく、抽出された頭方向に基づいてキャラクターの頭要素に関するパラメータ値が決定され、抽出された瞳の位置に基づいてキャラクターの目要素に関するパラメータ値が決定されてもよい。
【0048】
一実施形態によれば、顔映像データから抽出される顔特徴の他に、他の特徴にさらに基づいてキャラクターが決定されることができる。例えば、顔映像データから抽出される性別、皮膚の色、顔のタイプ、ヘアースタイルの特徴に基づいてキャラクターの外形に関するパラメータ値が決定され得る。
【0049】
一実施形態によれば、顔映像データから抽出された顔特徴又は他の特徴に基づいて決定されたパラメータ値もユーザの選択入力によって変更されてもよい。例えば、ユーザの選択入力により、予め決定されたキャラクターの眉毛のタイプ、性別、皮膚の色、顔のタイプ、ヘアースタイルが変更されてもよい。
【0050】
一実施形態によれば、ステップ130は、顔映像データから抽出された顔特徴の動き及び音声データに基づいて、キャラクターの動きを決定するステップを含む。一実施形態によれば、顔特徴の動きは、顔映像データの複数のフレームに対応して抽出された少なくとも1つの顔特徴の時間の流れによる位置変化及び形変化を含んでもよい。例えば、瞳の位置変化を含む瞳の動き、まぶたのちらつきは動きを含むまぶたの動き、眉毛の高さ変化、及び角度変化を含む眉毛の動き、頭の方向変化を含む首の動きを含んでもよい。
【0051】
一実施形態によれば、ステップ110で取得された顔映像データから抽出された顔特徴の動き、及びステップ110で取得された音声データに基づいて、キャラクターの動きが決定される。キャラクターの動きは、キャラクター全体又はキャラクターの一部の位置及び/又は形が時間の流れに応じて変化することで、顔映像データから抽出された顔特徴の動きに対応する動きを含むことができる。例えば、キャラクターの動きは、顔特徴の動きに対応するキャラクターそのもの、キャラクターの眉毛、瞳、まぶた、腕、足、又は、口の位置及び/又は形の時間の流れによる動きを含んでもよい。
【0052】
一実施形態に係るステップ130は、音声データの発音情報に基づいて、ステップ110で取得された音声データに対応する発音情報に基づいて、キャラクターの口の形の動きを決定するステップ、及びステップ110で取得された顔映像データの複数のフレームに対応して抽出された顔特徴の動きに基づいて、キャラクターの顔要素の動きを決定するステップを含む。
【0053】
一実施形態によれば、発音情報に対応する口の形は予め決定されてもよい。例えば、[a]発音に対応する第1口の形が予め決定され、該当発音を出すための人の実際の口の形を参照して決定され得る。
【0054】
一実施形態によれば、ステップ110で取得された音声データを音声認識し、音声データの各フレームに対応する発音情報が取得される。発音情報に対応して予め決定された口の形に基づいて、各フレームの発音情報に対応する口の形が決定され、各フレームに対応して決定された口の形をフレームの時間順に連結することによって、口の形の動きが生成される。
【0055】
一実施形態によれば、キャラクターの顔要素の動きは、顔映像データの複数のフレームに対応して抽出された顔特徴の動きに基づいて決定されることができる。例えば、複数のフレームに対応して抽出された瞳の位置の変化に基づいてキャラクターの瞳の動きが決定され、複数のフレームに対応して抽出された首の方向の変化に基づいてキャラクターの首の動きが決定されてもよい。ここで、顔要素は、口の形を除いたキャラクターの顔に含まれた眉毛、目のような顔要素を含んでもよい。
【0056】
一実施形態に係るステップ130は、取得された目的に基づいてキャラクターの表情を決定するステップ、取得された顔特徴の動き及び音声データに基づいてキャラクターの顔要素の動きを決定するステップ、及び決定されたキャラクターの表情及び決定されたキャラクターの顔要素の動きを結合するステップを含む。ここで、顔要素は口の形を含んでもよい。
【0057】
一実施形態によれば、ステップ120で決定されたキャラクターに対応して、複数の表情に該当する複数のキャラクターの顔の形状が予め決定される。例えば、
図2を参照すると、決定されたキャラクターに対応する複数の表情に該当するキャラクターの顔の形状201~205が決定されてもよい。
【0058】
一実施形態によれば、特定の表情に該当するキャラクターの顔の形状に音声データに対応する発音情報に基づいて決定された口の形の動きが結合され、特定表情で発話するキャラクターの動きが生成され得る。
【0059】
一実施形態によれば、結合された表情により、口の形の一部のパラメータが補正されてもよい。例えば、
図2を参照すると、笑っている表情202と結合した場合、発音情報により動きが決定された口の形のパラメータは、口がさらに広がっている形態に補正されたり、口元がさらに上がっている形態に補正されてもよい。一方、怒っている表情201と結合した場合、発音情報により動きが決定された口の形のパラメータは、口が横にさらに広がっている形態に補正されてもよい。
【0060】
一実施形態によれば、特定表情に該当するキャラクターの顔の形状に抽出された顔特徴の動きに基づいて決定された瞳の動きが結合して取得された顔映像データに対応するキャラクターの動きを生成することができる。
【0061】
一実施形態によれば、映像の目的に基づいて決定されたキャラクターの表情は複数の表情を含んでもよい。言い換えれば、キャラクターの表情は、複数の表情を含む表情シーケンスを含んでもよい。例えば、顔映像データ又は音声データの第1フレームから第2フレームまでは第1表情、第3フレームから第4フレームまでは第2表情に、キャラクターの表情が決定されることができる。
【0062】
再び
図1を参照すると、一実施形態に係るステップ140は、ステップ110で取得された音声データ及び映像の目的に基づいて、キャラクターに対応するショットを決定するステップに該当する。ショットは撮影の基本単位として、一回に撮影した場面を意味し、投影された被写体の大きさに基づいたショットの大きさに関する類型(例えば、クローズアップショット、バストショット、フルショット、ロングショット)、ショットに投影された被写体の角度に基づいたショットのアングルに関する類型(例えば、バードアイビューショット、ハイアングルショット、アイレベルショット、ローアングルショット)にショットの類型が区分される。その他にも、ショットの類型は、ショットに含まれた被写体の数に基づいた類型(例えば、ワンショット、ツーショット、スリーショット、グループショット)、カメラの操作に基づいた類型(例えば、パンニングショット、チルトショット、ズームショット)、カメラの移動に基づいた類型(例えば、ドリーショット、トラッキングショット、アークショット、エアリアルショット)のような様々な類型を含んでもよい。一実施形態によれば、被写体は、ステップ120~ステップ130によって動きが決定されたキャラクターに該当し、決定されたショットは、仮想の空間で仮想のカメラに動いているキャラクターを撮影した場面に該当する。
【0063】
一実施形態に係るステップ140は、取得された音声データ内の発話区間に基づいてショットの長さを決定するステップ、及び取得された目的に基づいてショットの類型を決定するステップを含む。
【0064】
一実施形態によれば、ショットを決定するステップ140は、映像の目的に基づいて複数のショットのシーケンスを決定するステップ、音声データの大きさ変化に基づいて音声データを複数の発話区間に区分するステップ、及び複数の発話区間に基づいて複数のショットの長さを決定するステップを含む。
【0065】
一実施形態に係るステップ140は、目的に対応する少なくとも1つのショットを含むショットシーケンスを決定するステップを含む。ショットシーケンスは、1つのショット又は順序が決定した複数のショットを含んでもよい。ショットシーケンスに含まれた複数のショットは、ショットの類型が区分される互いに異なる複数のショットを含む。一例として、ショットシーケンスに含まれた複数のショットは、ショットの大きさ及びショットのアングルのうち少なくとも1つが互いに異なる複数のショットを含んでもよい。
【0066】
一実施形態によれば、目的に対応するショットシーケンスは、該当の目的のための撮影映像の撮影時に活用されるショットに基づいて決定されることができる。例えば、
図3を参照すると、映像の目的が「インタビュー」である場合、「インタビュー」の目的の映像撮影時に活用される4つのショットを含むショットシーケンスが「インタビュー」の目的に対応して決定されてもよい。ショットシーケンスに含まれた複数のショットは、互いに異なる類型のショットを含んでもよい。ショットシーケンスに含まれた複数のショットは、ショットの大きさ及びショットのアングルのうち少なくとも1つが互いに異なる第1類型ないし第4類型のショットを含んでもよい。例えば、ショット301とショット302は、被写体を胸まで撮影してショットの大きさは同一である一方、ショット301は正面、ショット302は斜線方向に被写体を撮影してショットのアングルが異なる。また、例えば、ショット301とショット303は、被写体を正面で撮影してショットのアングルは同一であるが、ショット303は被写体の首まで、ショット301は被写体の胸まで撮影してショットの大きさが異なる。
【0067】
一実施形態に係るショットシーケンスに含まれた複数のショットの長さは、音声データ内の発話区間に基づいて決定される。発話区間は、音声データで発話が持続する区間であって、例えば、音声データで発話開始地点として認識された地点から該当発話の終了地点と認識された地点までの区間、又は、音声データで発話の開始地点として認識された地点から該当発話の次の発話の開始地点と認識された地点までの区間が1つの発話区間に該当する。
【0068】
一実施形態によれば、取得された音声データに含まれた時間による音の大きさ変化に基づいて、音声データで発話の開始地点又は発話の終了地点が認識される。例えば、
図4は、取得された音声データに対応する時間の流れによる音の大きさ変化のグラフを示す。
図4を参照すると、音の大きさ変化に基づいて発話の開始地点又は終了地点が認識され、音声データは、認識された発話の開始地点又は終了地点を境界にする発話区間411~415に区分される。発話の開始地点又は終了地点は、声信号の大きさが急変する地点、声信号の大きさが閾値未満に減少する地点、声信号の大きさが閾値以上に増加する地点に基づいて決定されるが、これに限定されることはない。その他にも、音声データの音声認識結果を使用して文章が開示する地点、又は、文章が終了する地点が発話の開始地点又は終了地点として決定される。
【0069】
一実施形態によれば、特定発話の開始地点は、以前発話の終了地点と同一であってもよく、以前発話の終了地点よりも以後に認識されることができる。例えば、特定発話の開始地点として認識された地点と以前発話の終了地点として認識された地点との間の時間間隔が予め決定された閾値未満である場合、特定発話の開始地点と以前発話の終了地点は同じ地点として決定される。例えば、
図4を参照すると、区間412に対応する発話の終了地点403と区間413に対応する発話の開始地点403は同じ地点として決定されてもよい。一方、区間413に対応する発話の終了地点404と区間415に対応する発話の開始地点405は異なる地点として決定され、この場合、区間414は、発話の音声信号を含まないが、区間414も発話区間に含まれてもよい。
【0070】
一実施形態によれば、ショットの長さは、少なくとも1つの発話区間を含むように決定されることができる。例えば、
図4を参照すると、2つのショットを含むショットシーケンスが決定された場合、時間的に以前の順の第1ショットは、音声データの開始地点401から地点402、地点403、地点404、及び地点405のいずれか1つまでの長さとして決定されることができる。言い換えれば、第1ショットは、音声データの開始地点401から1個ないし4個のいずれか1つの個数の区間を含む長さとして決定され得る。ショットシーケンスにおいて、第1ショットの次のショットである第2ショットは、第1ショットが終わった地点から音声データの終了地点406まで1個ないし4個のいずれか1つの個数の区間を含む長さに決定されることができる。
【0071】
一実施形態によれば、複数のショットの長さを決定するステップは、映像の目的及び複数の発話区間に基づいて、ショットが転換される少なくとも1つの転換点を決定するステップ、及び決定された転換点に基づいて、複数のショットの長さを決定するステップを含む。音声データに含まれた発話区間の境界は、ショットの転換が発生する転換点に決定されてもよい。決定された転換点の個数は、ショットシーケンスに含まれたショットの個数に対応する。例えば、ショットシーケンスに含まれた時間の順序上に1番目ショットは、音声データの開始地点から時間の順序上1番目転換点までの長さとして決定され、2番目のショットは、1番目の転換点から2番目の転換点までの長さとして決定されてもよい。最後のショットは、以前のショットが終了した地点から音声データの終了地点までの長さとして決定されてもよい。
【0072】
一実施形態によれば、ショットシーケンスに含まれたショットの個数及び音声データで決定された転換点の個数は、取得された映像の目的に基づいて決定される。例えば、映像の目的が迫力感を表現するためのものである場合、ショットの転換が多く発生するようショットシーケンスに含まれたショットの個数及び音声データ内の転換点の個数が決定されてもよい。
【0073】
一実施形態によれば、ショット間の長さは任意に決定されてもよく、映像の目的に基づいて決定されてもよい。例えば、映像の目的に応じて、ショットシーケンスに含まれた複数のショットの長さが類似に決定されるよう、音声データ内の転換点が決定され得る。上述したように、音声データ内の転換点は、音声データに含まれた発話区間の間の境界として決定される。また、例えば、映像の目的に応じて、ショットシーケンスに含まれた複数のショットそれぞれに含まれた音声区間の個数が同一になるように音声データ内の転換点が決定されてもよい。また、例えば、映像の目的に応じて、ショットシーケンスに含まれた複数のショットの間の長さの比率が決定され、決定された比率を追従するように音声データ内の転換点が決定されてもよい。
【0074】
一実施形態によれば、取得された映像の目的に基づいて、ショットに含まれるキャラクターの姿勢及び姿勢の動きが決定されてもよい。例えば、インタビューの映像目的に対応して、キャラクターの姿勢は座っている姿勢に決定され、座っている姿勢で発話による手の動作のジェスチャーを含むように姿勢の動きが決定されてもよい。
【0075】
一実施形態によれば、取得された映像の目的に基づいて、ショットに含まれる背景及び小物が決定されてもよい。例えば、インタビューの映像目的に対応してインタビュー空間に対応する背景が決定され、椅子やカメラが小物としてショットに含まれてもよい。
【0076】
一実施形態によれば、映像の目的に対応するショットは、規則基盤モデルに基づいて決定されてもよい。例えば、予め定義された規則に基づいて、特定目的に対応するショットの集合又は特定目的に対応するショットのシーケンスが決定されてもよい。予め定義された規則に基づいて、特定目的に対応するショットの集合が決定された場合、予め定義された規則に基づいてショット間の順序が決定されてもよい。ショット間の順序は任意に決定されてもよく、ショット間の予め決定された優先順位に基づいて決定されてもよい。
【0077】
一実施形態によれば、映像の目的に対応するショットは、統計基盤モデルに基づいて決定されてもよい。統計基盤モデルは、特定目的の映像に登場するショットの頻度、特定目的の映像で第1ショット以後に第2ショットが出てくる確率のように、統計的確率に基づいて特定目的の映像に対応するショットの集合又はショットのシーケンスを出力するモデルに該当する。
【0078】
一実施形態によれば、映像の目的に対応するショットは、学習基盤モデルに基づいて決定されてもよい。学習基盤モデルは、映像データで映像の目的と映像データで使用されたショットの類型を学習し、映像の目的を入力する場合に入力された目的に対応するショットの集合又はショットのシーケンスを出力するモデルに該当する。学習基盤モデルは、ディープラーニングモデルを含んでもよく、ディープラーニングモデルの構造は多様に構成される。学習基盤モデルの構造により様々な学習方法に基づいて学習されてもよい。
【0079】
一実施形態によれば、第1モデルに基づいて特定目的に対応するショットの集合が決定された場合、ショットの間の順序は任意に決定されてもよく、第2モデルに基づいて決定されてもよい。言い換えれば、特定目的に対応するショットの集合を決定する方法とショットの順序を決定する方法は、互いに異なるモデルを使用することができる。例えば、特定目的に対応するショットの集合は統計基盤の第1モデルを用いて決定され、ショットの順序は、規則基盤の第2モデルを用いて決定されてもよい。
【0080】
一実施形態によれば、ショットシーケンスに含まれたショットの長さは規則基盤モデル、統計基盤モデル、及び学習基盤モデルのうち少なくとも1つに基づいて決定されてもよい。ショットシーケンスに含まれたショットの長さは、ショットシーケンスを決定するモデルで音声データに基づいて決定されてもよく、ショットシーケンスを決定するモデルと独立的に構成されたモデルでショットシーケンス及び音声データに基づいて決定されてもよい。
【0081】
一実施形態によれば、映像の目的に対応するショットに含まれた要素は、規則基盤モデル、統計基盤モデル、及び学習基盤モデルのうち少なくとも1つに基づいて決定されてもよい。ショットに含まれた要素は、ショットに含まれたキャラクターの姿勢又は姿勢の動き、ショットに含まれた背景又は小物を含んでもよい。
【0082】
一実施形態によれば、決定されたショット及びショットに含まれた要素は、ユーザ入力に基づいて変更されてもよい。例えば、ユーザ入力に基づいて決定されたショットシーケンスの順序が変更されてもよく、ショットシーケンスに含まれたショットの類型が変更されてもよく、決定されたショットの長さが変更されてもよく、ショットシーケンスに含まれたショットが追加又は削除されてもよい。また、ユーザ入力に基づいてショットに含まれたキャラクターの外形、表情、姿勢が変更され、ショットに含まれた背景、小物が変更されてもよい。一実施形態に係るユーザ入力に基づいて決定されたショット及びショットに含まれた要素を変更する動作は、以下の
図5~
図9を参照して説明する。
【0083】
再び
図1を参照すると、一実施形態に係るステップ150は、決定されたショットに基づいて音声データに対応する映像を生成するステップを含む。一実施形態によれば、決定されたショットに基づいて、動きの決定されたキャラクターを含む映像が生成されてもよい。生成された映像は、決定された動きにより動いているキャラクターを、決定されたショットシーケンスによるショットの類型に決定された長さに順に撮影した映像に対応する。
【0084】
一実施形態によれば、生成された映像は、入力された音声データと共に出力され、音声データと時間軸に同期化された映像に該当する。例えば、生成された映像は、音声データに対応する発話するように動きが決定されたキャラクターを含んでもよい。
【0085】
一実施形態によれば、入力された音声データは、音声を除いた雑音を除去するなどの前処理作業が行われ、声を変更する変調作業を行うことができる。
【0086】
一実施形態に係る映像生成方法は、複数のキャラクターを含む映像を生成する動作を含むことができる。以下、説明の便宜のために複数は2である場合を例に挙げて説明するが、2つのキャラクターを含む映像を生成するための動作は、2以上のキャラクターを含む映像を生成する動作に適用されてもよい。
【0087】
一実施形態に係る複数のキャラクターは、第1顔映像データから取得された第1顔特徴の動き及び第1音声データに基づいて、動きが決定される第1キャラクター及び第2顔映像データから取得された第2顔特徴の動き、及び第2音声データに基づいて動きが決定された第2キャラクターを含んでもよい。ここで、第1顔映像データ及び第1音声データは、第1ユーザ端末から取得された入力データに該当し、第2顔映像データ及び第2音声データは、第2ユーザ端末から取得された入力データに該当する。
【0088】
一実施形態によれば、第1キャラクターの外形は、第1ユーザ端末で取得されたキャラクターの外形決定に関する選択入力に基づいて決定され、第2キャラクターの外形は、第2ユーザ端末で取得されたキャラクターの外形決定に関する選択入力に基づいて決定されることができる。
【0089】
例えば、映像生成システムに受信される入力データは、第1ユーザ端末及び第2ユーザ端末のリアルタイム映像通話データを含んでもよい。この場合、第1ユーザ端末を介して第1ユーザ端末で撮影された第1顔映像データ、及び第1ユーザ端末を介して受信されるユーザの音声である第1音声データが受信され、第2ユーザ端末を介して第2ユーザ端末で撮影された第2顔映像データ、及び第2ユーザ端末を介して受信されるユーザの音声である第2音声データが受信される。
【0090】
一実施形態によれば、映像生成システムに受信される入力データは、第1ユーザ端末から受信された第1入力データ及び第1入力データに関連して第2ユーザ端末から受信された第2入力データを含むことができる。例えば、第1ユーザ端末から受信された第1入力データに基づいて第1キャラクターを含む第1映像が生成された場合、第2ユーザで端末から第1映像に対応する第2入力データが受信され、第2入力データに基づいて第1映像に続く第2映像が生成されてもよい。第2映像は、第2入力データ及び第1映像に含まれた第1キャラクターの動き及び第1映像に含まれた異なる要素に基づいて決定されてもよい。例えば、第1映像において、ベンチに座って話す第1キャラクターを含む場合、第2映像は、第1キャラクターの隣に座って話す第2キャラクターを含むように生成されてもよい。
【0091】
一実施形態によれば、キャラクターの動きを決定するステップ130は、映像の目的、第1音声データ、及び第2音声データのうち少なくとも1つに基づいて、第1キャラクター及び第2キャラクターのインタラクションを決定するステップ、及び決定されたインタラクションに基づいて、第1キャラクターの動き及び第2キャラクターの動きを決定するステップをさらに含んでもよい。インタラクションは、「対話する」、「握手する」、「ハグする」のように複数のキャラクターの相互作用又は相互接触を含む行動を意味する。
【0092】
一実施形態によれば、第1キャラクターと第2キャラクターとの間のインタラクションは、取得された映像の目的に基づいて決定されることができる。一例として、映像の目的それぞれに対応して、複数のインタラクション候補が予め決定されてもよい。例えば、「ロマンチックな対話」が目的である場合、「手を握る」、「ハグする」のようなインタラクションがインタラクション候補に決定されてもよく、「討論する」が目的である場合、「握手する」のようなインタラクションがインタラクション候補として決定されてもよい。
【0093】
一実施形態によれば、第1キャラクターと第2キャラクターとの間のインタラクションは、取得された音声データに基づいて決定されることができる。特定の単語に対応するインタラクションが予め決定され、音声データで該当単語が認識される場合、これに対応するインタラクションが決定されてもよい。例えば、取得された第1音声データ又は第2音声データで「愛している」の単語が認識された場合、「ハグする」というインタラクションが決定されてもよい。
【0094】
一実施形態によれば、取得された映像の目的に応じて、認識された単語に対応するインタラクションが相違に決定されることができる。例えば、第1目的では第1単語が認識される場合に第1インタラクションが決定されるが、第2目的では同じ第1単語が認識される場合、第1インタラクションとは異なる第2インタラクションが決定されてもよい。一実施形態によれば、音声データで認識された単語に基づいて、映像の目的に対応して所定の複数のインタラクション候補のうちのいずれか1つが選択されてもよい。
【0095】
一実施形態によれば、第1キャラクターと第2キャラクターとの間のインタラクションは、ユーザの入力に基づいて決定されることができる。ユーザは、インターフェースを介して第1キャラクターと第2キャラクターとの間のインタラクションを決定するための要求を入力し得る。例えば、予め決定された第1キャラクターと第2キャラクターとの間のインタラクション候補のいずれか1つを選択することで、第1キャラクターと第2キャラクターとの間のインタラクションを決定するための要求を入力してもよい。第1キャラクターと第2キャラクターとの間のインタラクション候補は、上述したように映像の目的に基づいて予め決定されることができる。
【0096】
一実施形態によれば、ショットを決定するステップ140は、第1音声データ、第2音声データ、及び映像の目的に基づいて、第1キャラクター及び第2キャラクターに対応するショットを決定するステップを含む。第1キャラクター及び第2キャラクターに対応するショットを決定するステップは、第1キャラクター及び第2キャラクターに対応するショットは、第1キャラクター及び第2キャラクターのうち少なくとも1つを含むショットを含んでもよい。言い換えれば、第1キャラクター及び第2キャラクターに対応するショットは、第1キャラクターだけ登場したり、第2キャラクターだけ登場したり、又は、第1キャラクター及び第2キャラクターが全て登場するように設定されてもよい。例えば、「討論する」ことが目的である場合、第1キャラクターが発話する時点には第1キャラクターを正面で撮影するショットが決定され、第2キャラクターが発話する時点には、第1キャラクターを正面で撮影するショットが決定されてもよい。また、例えば、「ロマンチックな対話をする」ことが目的である場合、第1キャラクター及び第2キャラクターが含まれるように撮影するショットが決定されてもよい。
【0097】
一実施形態によれば、ショットを決定するステップ140は、映像の目的に基づいて、ショットに含まれた第1キャラクター及び第2キャラクターの配置を決定するステップを含む。第1キャラクター及び第2キャラクターの配置は、ショットに表示される第1キャラクターと第2キャラクターとの間の位置関係及び第1キャラクター及び第2キャラクターの構図を含んでもよい。例えば、映像の目的に基づいて、第1キャラクター及び第2キャラクターは、向かい合って座るように配置が決定されてもよく、互いに並んで立っているように配置が決定されてもよく、第1キャラクターは立っており、第2キャラクターは第1キャラクターを見ながら座っているように配置が決定されてもよく、第1キャラクターが第2キャラクターの後から接近する配置が決定されてもよい。
【0098】
一実施形態によれば、映像の目的に基づいて第1キャラクター及び第2キャラクターの関係が決定され、決定された関係に基づいて第1キャラクター及び第2キャラクターの配置が決定されてもよい。例えば、第1キャラクター及び第2キャラクターの関係が友人又は恋人として決定された場合、第1キャラクター及び第2キャラクターは並んで配置されてもよい。
【0099】
一実施形態によれば、映像の目的に基づいてコミュニケーションの種類又は状況の種類が決定され、決定されたコミュニケーションの種類に基づいて第1キャラクター及び第2キャラクターの配置が決定されてもよい。例えば、物を売買するコミュニケーション、情報を共有するコミュニケーション、又は、言い争い又は口論の状況によりコミュニケーションの種類又は状況の種類が決定された場合、第1キャラクター及び第2キャラクターは向かい合うように配置され、映像を見ている人に同意を求めたり、判定を求める状況で状況の種類が決定された場合、同じ方向に向かうように第1キャラクター及び第2キャラクターの配置が決定されてもよい。
【0100】
一実施形態によれば、映像の目的に基づいて第1キャラクターと第2キャラクターとの間の感情が決定され、決定された感情の種類に基づいて第1キャラクター及び第2キャラクターの配置が決定されてもよい。例えば、「愛」又「感謝」のような感情の種類が決定された場合、第1キャラクター及び第2キャラクターは向かい合うように配置され、「驚き」又は「恐怖」のような感情の種類が決定された場合、第1キャラクターが第2キャラクターの後から接近するように配置が決定されてもよい。
【0101】
一実施形態によれば、第1キャラクターと第2キャラクターとの間の配置は、取得された映像の目的に基づいて決定されることができる。一例として、映像の目的それぞれに対応して複数の配置候補が予め決定されてもよい。例えば、「ロマンチックな対話」が目的である場合、ベンチに並んで座っている配置、向かい合って座っている配置、手を結んで立っている配置のような配置候補が決定されてもよい。
【0102】
一実施形態によれば、第1キャラクター及び第2キャラクターの配置は、ユーザの入力に基づいて決定される。ユーザは、インターフェースを介して第1キャラクターと第2キャラクターとの間の配置を決定するための要求を入力することができる。例えば、所定の第1キャラクターと第2キャラクターとの間の配置候補のいずれか1つを選択することで、第1キャラクターと第2キャラクターとの間の配置を決定するための要求を入力してもよい。第1キャラクターと第2キャラクターとの間の配置候補は、上述したように映像の目的に基づいて予め決定されてもよい。
【0103】
一実施形態によれば、ステップ120~ステップ140の動作は並列的に実行されてもよく、順次実行されてもよい。一例として、キャラクターを決定する動作120とキャラクターの動きを決定する動作130は、並列的に実行されてもよく、決定されたキャラクターとして決定されたキャラクターの動きが合成されて動いているキャラクターが映像に含まれてもよい。また、一例として、キャラクターに対応するショットを決定する動作140は、キャラクターを決定する動作120及びキャラクターの動きを決定する動作130と並列的に行われ、ショットを決定する動作140により任意のキャラクターを特定の角度及び特定の大きさで撮影するショットのシーケンスが決定され、動作120及び動作130によって決定された動きは、キャラクターを動作140によって決定されたショットのシーケンスで撮影することで映像が生成されてもよい。
【0104】
図5~
図9は、一実施形態に係る決定されたショットの編集のためのインターフェースの例示を示す。
【0105】
図5を参照すると、決定されたショットシーケンスは複数のショットを含み、複数のショットは、ショットの類型が互いに区分されているショットを含む。例えば、第1ショット501は、キャラクターを正面角度で胸位置まで撮影した第1類型のショットに該当し、第2ショット502は、キャラクターを正面角度で膝位置まで撮影した第2類型のショットに該当する。一実施形態によれば、決定されたショットシーケンスは、類型の同じショットを複数含んでもよい。例えば、決定されたショットシーケンスに含まれている第1ショット501と第3ショット503は同じ類型のショットに該当する。
【0106】
一実施形態によれば、決定されたショットシーケンスは、音声データ内の発話区間に基づいてショットの長さが決定されることができる。上述したように、ショットの転換が発生する地点511~514は、発話の開始地点又は終了地点として認識された地点として発話区間の境界に該当する。
【0107】
一実施形態によれば、インターフェースは、映像の目的に対応して決定された複数のショットのシーケンスを変更するためのインターフェーシングオブジェクト530を提供し、ユーザは、インターフェーシングオブジェクト530に基づいて、決定されたショットのシーケンスを変更し得る。一実施形態に係るインターフェーシングオブジェクト530は、ユーザの入力に反応してショットシーケンスを変更する命令を伝達するように構成されたインターフェーシングオブジェクトに該当する。例えば、インターフェーシングオブジェクト530をクリックするショット変更の入力に反応して、ショットシーケンスに含まれたショットの順序が変更されてもよく、ショットシーケンスに含まれたショットの類型が変更されてもよく、ショットシーケンスに含まれたショットの個数が変更され、ショットの長さが変更されてもよい。
【0108】
例えば、
図5に示されたインターフェースに含まれたインターフェーシングオブジェクト530を選択するショット変更の入力により、
図5に示されたショットシーケンス510が
図6に示されたショットシーケンス610に変更されてもよい。
図6を参照すると、ショット変更の入力によりショットシーケンス610に含まれたショットの個数が変更され、ショットシーケンス610に含まれたショットの類型が変更されてもよい。
【0109】
再び
図5を参照すると、一実施形態に係るインターフェーシングオブジェクト530によるショットシーケンスの変更はランダムに実行されてもよい。例えば、映像の目的に対応して決定されたショットの集合で一部がランダムに選択されてランダムに順序が決定されてもよい。また、例えば、ショットシーケンスを決定するモデルで複数のショットシーケンスの候補が出力され、出力されたショットシーケンスの候補からランダムに決定されてもよい。また、例えば、決定されたショットシーケンスでショットの順序がランダムに変更されてもよい。
【0110】
一実施形態によれば、インターフェーシングオブジェクト530によるショットシーケンスの変更は、予め定義された規則により実行されることができる。例えば、映像の目的に対応して決定されたショットの集合で一部が予め決定された順に応じて選択されてショットシーケンスが決定されてもよい。また、例えば、ショットシーケンスを決定するモデルで複数のショットシーケンスの候補が出力され、出力されたショットシーケンスの候補から予め決定された順に応じて決定されてもよい。
【0111】
一実施形態によれば、インターフェースは、映像の目的に対応して決定された複数のショットの集合520を提供し、ユーザは提供されたショットの集合520に基づいて決定されたショットシーケンスの構成を変更することができる。例えば、ユーザは、インターフェースを介してショットの集合520からショット521を選択し、ショットシーケンスに含まれたショット505を変更する要求を入力してもよく、ユーザの変更入力に反応して、ショットシーケンス510は
図7に示されたショットシーケンス710に変更されることができる。
【0112】
また、例えば、ユーザは、インターフェースを介してショットの集合520から少なくとも1つのショットを選択し、ショットシーケンスの特定位置に追加する要求を入力してもよく、ユーザの追加入力に反応してショットシーケンス510は
図8に示されたショットシーケンス810に変更されてもよい。
【0113】
一実施形態によれば、ユーザは、インターフェースを介して決定されたショットシーケンスに含まれた少なくとも一部のショットの大きさ、又は、アングルを変更する要求を入力することができる。例えば、ユーザは、ショットシーケンスに含まれた少なくとも1つのショットを選択してショットに含まれたキャラクターの大きさを制御したり、ショットに含まれたキャラクターの角度を制御することで、ショットの大きさ又はアングルを変更する要求を入力してもよい。言い換えれば、映像の目的に対応して、自動に決定されたショット類型の他に、ユーザの入力に基づいて決定された特定類型のショットがショットシーケンスに含まれてもよい。
【0114】
一実施形態によれば、ユーザは、インターフェースを介して決定されたショットシーケンスに含まれた少なくとも一部のショットを削除する要求を入力することができる。例えば、ユーザは、ショットシーケンスに含まれたショットを選択してショットシーケンスから削除することを要求してもよく、ユーザにより選択されたショットは、ショットシーケンスから削除されてもよい。ショットシーケンスに含まれた一部のショットが削除されることで、削除されたショットの前又は後に位置するショットの長さが調節され得る。
【0115】
一実施形態によれば、インターフェースは、映像の目的に対応して決定された複数のショットの長さを調節できる機能を提供する。ユーザは、インターフェースを介してショットの境界の位置を変更することで、決定されたショットシーケンスの長さを変更する要求を入力し得る。ショット境界の位置は、発話区間の境界に変更され、ユーザが入力したショット境界の位置が発話区間の境界に該当しない場合、マグネチックの効果により近い発話区間の境界にショット境界の位置が変更される。例えば、ユーザは、インターフェースを介してショット502とショット503との境界の位置512を位置515に変更する要求を入力し、ユーザの変更入力に反応して、ショットシーケンス510は
図9に示されたショットシーケンス910に変更され得る。
【0116】
一実施形態によれば、映像の目的に基づいて決定されたキャラクターの表情又は映像に対応するキャラクターの複数の表情のシーケンスは、ユーザの選択入力によって変更されることができる。例えば、ユーザは、キャラクターに対応してインターフェースを介して提供される複数の表情に対する選択入力によって各フレームに対応して決定された表情を他の表情に変更してもよく、表情シーケンスに他の表情を追加して各フレームに対応する表情を決定し得る。
【0117】
一実施形態によれば、ユーザの入力により特定のショットに対応す視覚的要素及び聴覚的要素が決定されることができる。例えば、全体のショット又は一部のショットに対応するキャラクターの姿勢、小物、背景、テキストのような視覚的要素がユーザの入力によって設定されたり変更されてもよい。また、例えば、特定ショットに対応する効果音、全体のショット又は一部のショットに対応する背景音楽のような聴覚的要素がユーザ入力により設定されたり変更されてもよい。
【0118】
一実施形態によれば、ユーザの入力によって設定又は変更される要素は、インターフェースを介して提供される複数の候補のうちの一部を選択する入力により決定されることができる。例えば、インターフェースを介してキャラクターの様々な姿勢に関する複数の候補が提供され、ユーザは、キャラクターの姿勢に関する複数の候補のいずれか1つを選択することで、ショットによって決定される場面のキャラクターの姿勢又は姿勢のシーケンスを決定し得る。また、例えば、インターフェースを介して効果音に関する複数の候補が提供され、ユーザは、特定時点に映像に含まれる効果音を複数の候補のうちから選択することにより、効果音を決定することができる。
【0119】
図10は、一実施形態に係る映像生成システムの構成を説明するためのブロック図である。
【0120】
図10を参照すると、一実施形態に係る映像生成システムは装置に実現され、映像生成システムが具現された装置は、端末1010及びサーバ1020を含む。言い換えれば、一実施形態に係る端末1010及びサーバ1020は、上述した映像生成方法を行う映像生成装置に該当する。
図10に示したシステムの構成は、発明の説明のための一例として、システムに含まれる端末の数又はサーバの数が
図10に示すように限定されることはない。
【0121】
一実施形態に係る端末1010は、コンピュータ装置で実現される固定型端末や移動型端末であってもよい。例えば、端末1010は、スマートフォン(smart phone)、携帯電話、コンピュータ、ノート型パソコン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレットPCを含んでもよい。一例として、ユーザ端末は、無線又は有線通信方式を用いてネットワーク1030を介してサーバ1020及び/又は他の電子機器と通信し得る。
【0122】
一実施形態に係るサーバ1020は、端末1010とネットワーク1030を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供するコンピュータ装置又は複数のコンピュータ装置に実現されることができる。通信方式は制限されず、ネットワーク1030が含んでもよく、通信網(例えば、移動通信網、有線インターネット、無線インターネット、放送網)を活用する通信方式、機器の間の近距離無線通信方式を含んでもよい。例えば、ネットワーク1030は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broad band network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでもよい。
【0123】
一実施形態によれば、サーバ1020は、ネットワーク1030を介して接続した端末1010にアプリケーションのインストールのためのファイルを提供することができる。この場合、端末1010は、サーバ1020から提供されたファイルを用いてアプリケーションをインストールする。また、端末1010が含むオペレーティングシステム(Operating System、OS)及び少なくとも1つのプログラム(例えば、ブラウザ又はインストールされたアプリケーション)の制御によりサーバ1020に接続し、サーバ1020が提供するサービスやコンテンツが提供されてもよい。例えば、端末1010がアプリケーションの制御によりネットワーク1030を介してサービス要求メッセージをサーバ1020に送信すれば、サーバ1020は、サービス要求メッセージに対応するコードを端末1010に送信し、端末1010は、アプリケーションの制御によりコードによる画面を構成して表示することで、ユーザにコンテンツを提供することができる。
【0124】
一実施形態によれば、端末1010とサーバ1020は、メモリ1011,1021、プロセッサ1013,1023、通信モジュール1015,1025及び入出力インターフェース1017,1027を含む。
【0125】
プロセッサ1013,1023は、
図1~
図9を参照して前述した少なくとも1つの動作を行うことができる。例えば、プロセッサ1013又はプロセッサ1023で
図1~
図9を参照して前述した動作を行ってもよく、プロセッサ1013で、
図1~
図9を参照して前述した一部の動作を行い、プロセッサ1023で他の一部動作を行ってもよい。プロセッサ1013,1023は、基本的な算術、ロジック、及び入出力演算を行うことで、コンピュータプログラムの命令を処理するように構成し得る。命令は、メモリ1011,1021又は通信モジュール1015,1025によりプロセッサ1013,1023に提供され得る。
【0126】
メモリ1011,1021は、
図1~
図9を参照して前述した映像生成方法に関する情報を格納したり、前述した映像生成方法が具現されたプログラムを格納してもよい。メモリ1011,1021は、コンピュータで読み出し可能な記録媒体として、揮発性メモリ又は不揮発性メモリであってもよい。一例として、前述した映像生成方法が具現されたプログラムは、サーバ1020でネットワーク1030を介して提供するファイルにより端末1010にインストールされて駆動するブラウザやアプリケーションのためのコードを含んでもよい。
【0127】
一実施形態に係る通信モジュール1015,1025は、ネットワーク1030を介して端末1010とサーバ1020が互いに通信するための機能を提供し、他の電子機器又は他のサーバと通信するための機能を提供することができる。一例として、端末1010のプロセッサ1013がメモリ1011のような記録装置に格納されたプログラムコードにより生成した要求が、通信モジュール1015の制御によりネットワーク1030を介してサーバ1020に伝達されてもよい。一例として、サーバ1020のプロセッサ1023の制御により提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール1025とネットワーク1030を経て端末1010の通信モジュール1015を介して端末1010に受信されてもよい。例えば、通信モジュール1015を介して受信されたサーバ1020の制御信号や命令などは、プロセッサ1013やメモリ1011に伝達されてもよく、コンテンツやファイルなどは端末1010がさらに含む格納媒体に格納されてもよい。
【0128】
入出力インターフェース1017,1027は、入出力装置1019とのインターフェースのための手段であってもよい。例えば、入力装置は、キーボード又はマウスなどの装置を、そして出力装置は、アプリケーションの通信セッションを表示するためのディスプレイのような装置を含んでもよい。異なる例として、入出力インターフェース1017は、タッチスクリーンのように入力と出力のための機能が1つに組み込まれた装置とのインターフェースのための手段であってもよい。より具体的な例として、端末1010のプロセッサ1013は、メモリ1011にロードされたコンピュータプログラムの命令を処理するにおいて、サーバ1020が提供するデータを用いて構成されるサービス画面やコンテンツが入出力インターフェース1017を介してディスプレイに表示されてもよい。ユーザから受信された入出力装置1019を通した入力は、入出力インターフェース1017を介して端末1010のプロセッサ1013で処理可能な形態に提供され得る。
【0129】
一実施形態によれば、端末1010及びサーバ1020は、
図10に示していない他の構成要素を含んでもよい。例えば、端末1010は、上述した入出力装置1019のうち少なくとも一部を含むものとして実現されたり、又は、トランシーバー(transceiver)、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。
【0130】
以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
【0131】
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
【0132】
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気一光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。
【0133】
上記で説明したハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
【0134】
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
【0135】
したがって、他の具現、他の実施形態および特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。
【国際調査報告】