特許7578209 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特許7578209映像生成システム、映像生成方法及び映像生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-10-28

(45)【発行日】2024-11-06

(54)【発明の名称】映像生成システム、映像生成方法及び映像生成プログラム

(51)【国際特許分類】

G06T 13/20 20110101AFI20241029BHJP

H04N 5/272 20060101ALI20241029BHJP

H04N 5/278 20060101ALI20241029BHJP

H04N 5/91 20060101ALI20241029BHJP

H04N 5/92 20060101ALI20241029BHJP

【ＦＩ】

G06T13/20

H04N5/272

H04N5/278

H04N5/91

H04N5/92 010

【請求項の数】 30

(21)【出願番号】P 2024065475

(22)【出願日】2024-04-15

【審査請求日】2024-04-19

【早期審査対象出願】

(73)【特許権者】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】永野京二郎

(72)【発明者】

【氏名】片岡駿之介

(72)【発明者】

【氏名】鎌田裕之

(72)【発明者】

【氏名】西田直樹

(72)【発明者】

【氏名】田中佑樹

(72)【発明者】

【氏名】望月敬太

(72)【発明者】

【氏名】稲谷壮一郎

(72)【発明者】

【氏名】鎌田恭則

【審査官】松永隆志

(56)【参考文献】

【文献】韓国登録特許第１０－２５０８７６５（ＫＲ，Ｂ１）

【文献】国際公開第２０２３／００２６５９（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１１／０２４９９５３（ＵＳ，Ａ１）

【文献】チャエン，ChatGPTにストーリーを書いてもらい、生成AIで短編映像を作成する方法，PC Watch，2024年01月11日，<URL： https://pc.watch.impress.co.jp/docs/topic/feature/1559847.html>，［令和6年5月7日検索］，インターネット

【文献】画像生成AIイラスト［画質を上げるプロンプト］＆［画質に美しさ与えるプロンプト］呪文の書き方21選，2023年05月24日，＜URL：https://nagi.blog/generativeai-prompt-imagequality/＞，［令和6年5月2日検索］，インターネット

【文献】Dan Kondratyuk ほか１名，VideoPoet: A large language model for zero-shot video generation，Google Research Blog，2023年12月19日，p.1-10，［令和6年7月5日検索］，インターネット＜URL：https://research.google/blog/videopoet-a-large-language-model-for-zero-shot-video-generation/＞

【文献】Dan Kondratyuk，VideoPoet: A Large Language Model for Zero-Shot Video Generation，2024年03月22日，p.1-19，＜URL：https://arxiv.org/pdf/2312.14125＞，［令和6年5月2日検索］，インターネット

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１３／２０

Ｈ０４Ｎ５／２７２

Ｈ０４Ｎ５／２７８

Ｈ０４Ｎ５／９１

Ｈ０４Ｎ５／９２

(57)【特許請求の範囲】

【請求項1】

動画生成に関する入力クエリをユーザから取得する取得部と、
前記入力クエリに基づいて、動画生成に関するシナリオデータを生成するシナリオ生成部と、
前記シナリオデータに基づいて、３Ｄデータを構成し、シーン及びオブジェクトのうち少なくとも１つを定義するための編集可能なコンピュータプログラムであるコードを生成するコード生成部と、
前記コードに基づいて、動画データを取得する動画データ取得部と、
を備える映像生成システム。

【請求項2】

前記動画データの画質を改善する画質改善処理を実行する画質改善部、
を更に備える請求項１に記載の映像生成システム。

【請求項3】

前記画質改善部は、
テキストプロンプトに基づいて前記画質改善処理を実行することにより、前記動画データの画質を改善する
請求項２に記載の映像生成システム。

【請求項4】

前記画質改善部は、
前記動画データのうち前記画質改善処理の対象を指定するテキストプロンプトに基づいて、前記画質改善処理を実行する
請求項２に記載の映像生成システム。

【請求項5】

前記画質改善部は、
改善が必要と判断された前記対象を指定するテキストプロンプトに基づいて、前記画質改善処理を実行する
請求項４に記載の映像生成システム。

【請求項6】

前記シナリオデータに基づいたストーリーボードを表示させる表示制御部、
を更に備える請求項１に記載の映像生成システム。

【請求項7】

前記ストーリーボードは、動画のカット毎に前記動画データを表示するように構成される
請求項６に記載の映像生成システム。

【請求項8】

前記シナリオデータと前記動画データとに基づいて、前記動画データに対応するサウンドデータを生成するサウンド生成部、
を更に備える請求項１に記載の映像生成システム。

【請求項9】

前記シナリオデータに基づいて、前記動画データにより表示される映像上に表示させるテキストを示すテキストデータを生成するテキスト生成部、
を更に備える請求項１に記載の映像生成システム。

【請求項10】

前記シナリオデータに基づいて、前記動画データにより表示される映像上に表示させるロゴを示すロゴデータを生成するロゴ生成部、
を更に備える請求項１に記載の映像生成システム。

【請求項11】

前記入力クエリは、テキスト、画像、音声、３Ｄデータのうち少なくとも１つを含む
請求項１に記載の映像生成システム。

【請求項12】

前記入力クエリに基づいて、前記シナリオデータを生成するために前記シナリオ生成部が用いるシナリオ生成用情報を出力する第１の出力部、
を更に備え、
前記シナリオ生成部は、
前記シナリオ生成用情報に基づいて前記シナリオデータを生成する
請求項１に記載の映像生成システム。

【請求項13】

前記第１の出力部は、
前記入力クエリに基づいて、前記シナリオデータを生成するための第１のプロンプトを、前記シナリオ生成用情報として生成し、
前記シナリオ生成部は、
前記第１のプロンプトに基づいて前記シナリオデータを生成する
請求項１２に記載の映像生成システム。

【請求項14】

前記第１の出力部は、
前記入力クエリに基づいて、前記シナリオデータを生成するための第１のモデルの入力として用いられる第１の入力情報を前記シナリオ生成用情報として生成し、
前記シナリオ生成部は、
前記入力クエリを用いて生成された前記第１の入力情報を、前記第１のモデルに入力し、前記第１のモデルに前記シナリオデータを出力させることにより、前記シナリオデータを生成する
請求項１２に記載の映像生成システム。

【請求項15】

前記シナリオデータに基づいて、前記３Ｄデータを構成するためのコードを生成するために前記コード生成部が用いるコード生成用情報を出力する第２の出力部、
を更に備え、
前記コード生成部は、
前記コード生成用情報に基づいて前記コードを生成する
請求項１に記載の映像生成システム。

【請求項16】

前記第２の出力部は、
前記シナリオデータに基づいて、前記３Ｄデータを構成するためのコードを出力するための第２のプロンプトを、前記コード生成用情報として生成し、
前記シナリオ生成部は、
前記第２のプロンプトに基づいて前記コードを生成する
請求項１５に記載の映像生成システム。

【請求項17】

前記第２の出力部は、
前記入力クエリに基づいて、前記コードを生成するための第２のモデルの入力として用いられる第２の入力情報を前記コード生成用情報として生成し、
前記シナリオ生成部は、
前記シナリオデータを用いて生成された前記第２の入力情報を、前記第２のモデルに入力し、前記第２のモデルに前記コードを出力させることにより、前記コードを生成する
請求項１５に記載の映像生成システム。

【請求項18】

ユーザから動画編集に関する操作を受け付ける受付部、
を更に備え、
前記コード生成部は、
前記操作に基づいた編集により、前記コードを生成する
請求項１に記載の映像生成システム。

【請求項19】

前記受付部は、
センサを用いてモーションまたはカメラの動きを指定する前記操作を受け付け、
前記コード生成部は、
前記操作が示す前記モーションまたは前記カメラの動きに対応する前記コードを生成する
請求項１８に記載の映像生成システム。

【請求項20】

前記受付部は、
前記動画データのうち、複数のカットを選択する前記操作を受け付け、
前記コード生成部は、
前記操作が示す前記複数のカットに対応する部分が変更された前記コードを生成する
請求項１８に記載の映像生成システム。

【請求項21】

前記動画データの各カットには日付情報が対応付けられており、
前記コード生成部は、
前記動画データの各カットの日付情報に基づいて、前記操作が示す前記編集の内容を決定する
請求項１８に記載の映像生成システム。

【請求項22】

前記受付部は、
前記動画データのうち、変更の対象とする対象物を指定する前記操作を受け付け、
前記コード生成部は、
前記操作が示す前記対象物の３Ｄデータが変更された前記コードを生成する
請求項１８に記載の映像生成システム。

【請求項23】

前記３Ｄデータは、複数のデータセットを含み、
前記コード生成部は、
前記操作に基づいた編集により、前記複数のデータセットのうち少なくとも１つに対応する前記コードを生成する
請求項１８に記載の映像生成システム。

【請求項24】

前記コード生成部は、
前記操作が示す編集内容に応じて、前記複数のデータセットのうち一部を更新する処理と前記複数のデータセット全体を更新する処理とのうちのいずれかを実行する
請求項２３に記載の映像生成システム。

【請求項25】

前記シナリオデータと前記動画データのうち少なくとも１つの評価を示す情報を生成する評価部、
を更に備える請求項１に記載の映像生成システム。

【請求項26】

前記コード生成部は、
前記評価に基づいて、前記コードを生成する
請求項２５に記載の映像生成システム。

【請求項27】

前記シナリオ生成部は、
前記評価に基づいて、前記シナリオデータを生成する
請求項２５に記載の映像生成システム。

【請求項28】

前記コード生成部は、
前記評価に基づき生成された前記シナリオデータに基づいて、前記コードを生成する
請求項２７に記載の映像生成システム。

【請求項29】

動画生成に関する入力クエリをユーザから取得することと、
前記入力クエリに基づいて、動画生成に関するシナリオデータを生成することと、
前記シナリオデータに基づいて、３Ｄデータを構成し、シーン及びオブジェクトのうち少なくとも１つを定義するための編集可能なコンピュータプログラムであるコードを生成することと、
前記コードに基づいて、動画データを取得することと
を含む映像生成方法。

【請求項30】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、映像生成システム、映像生成方法及び映像生成プログラムに関する。

【背景技術】

【0002】

映像（「動画」ともいう）を自動で生成する技術が提供されている。例えば、２次元的な線画から仮想人物の３次元姿勢を推定し、動画を生成する技術が提供されている（例えば特許文献１）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００３－０５８９０６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来技術には、改善の余地がある。例えば、従来技術では、動画を生成するために２次元的な線画、すなわち画像が必要となり、２次元的な線画といった画像を用意することはユーザの負担が大きく、ユーザが画像を用意できない場合等、動画を生成することが難しい。そのため、ユーザの負担が少なく、ユーザビリティが高い動画生成サービスを提供することが望まれており、例えばユーザからの入力クエリに応じて動画データを取得することが望まれている。

【0005】

そこで、本開示では、ユーザからの入力クエリに応じて動画データを取得することができる映像生成システム、映像生成方法及び映像生成プログラムを提案する。

【課題を解決するための手段】

【0006】

上記の課題を解決するために、本開示に係る一形態の映像生成システムは、動画生成に関する入力クエリをユーザから取得する取得部と、前記入力クエリに基づいて、動画生成に関するシナリオデータを生成するシナリオ生成部と、前記シナリオデータに基づいて、３Ｄデータを構成するためのコードを生成するコード生成部と、前記コードに基づいて、動画データを取得する動画データ取得部と、を備える。

【図面の簡単な説明】

【0007】

【図1】本開示の映像生成システムの一例を示す図である。

【図2】本開示の映像生成システムに係るハードウェア構成の一例を示す図である。

【図3】本開示の映像生成処理の流れの一例を示す図である。

【図4】本開示の映像生成処理の流れの他の一例を示す図である。

【図5】本開示の評価処理の流れの一例を示す図である。

【図6】シナリオ生成用情報の生成処理の一例を示す図である。

【図7】シナリオデータの生成処理の一例を示す図である。

【図8】コード生成用情報の生成処理の一例を示す図である。

【図9】画質改善処理の一例を示す図である。

【図10】ユーザインタフェースの一例を示す図である。

【図11】ユーザインタフェースの一例を示す図である。

【図12】ユーザインタフェースの一例を示す図である。

【図13】ユーザインタフェースの一例を示す図である。

【図14】ユーザインタフェースの一例を示す図である。

【図15】ユーザインタフェースの一例を示す図である。

【図16】ユーザインタフェースの一例を示す図である。

【図17】音生成用情報の生成処理の一例を示す図である。

【図18】ＵＳＤファイルの一例を示す図である。

【図19】映像生成システムが実行する処理手順を示すフローチャートである。

【図20】ユーザインタフェースの一例を示す図である。

【図21】ユーザインタフェースの一例を示す図である。

【図22】ユーザインタフェースの一例を示す図である。

【図23】編集処理の一例を示す図である。

【図24】編集処理の一例を示す図である。

【図25】編集処理の一例を示す図である。

【図26】編集処理の一例を示す図である。

【図27】編集処理の一例を示す図である。

【図28】編集処理の一例を示す図である。

【図29】編集処理の一例を示す図である。

【図30】編集時の確認作業の一例を示す図である。

【図31】映像生成システムが実行する処理手順を示すフローチャートである。

【図32】範囲選択に応じた評価処理の一例を示す図である。

【図33】被写界深度に応じた処理の一例を示す概念図である。

【図34】確認作業時の映像の一例を示す図である。

【図35】変更部分の強調表示の一例を示す図である。

【図36】カット間の関係の提示の一例を示す図である。

【図37】オブジェクトの選択の一例を示す図である。

【図38】オブジェクトの選択の一例を示す図である。

【図39】参考データを用いた処理の一例を示す図である。

【図40】ユーザ操作に応じた処理の流れを示すフローチャートである。

【図41】情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

【発明を実施するための形態】

【0008】

以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本願にかかる映像生成システム、映像生成方法及び映像生成プログラムが限定されるものではない。また、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

【0009】

以下に示す項目順序に従って本開示を説明する。
１．実施形態
１－１．本開示の映像生成システムの構成概要
１－２．本開示の映像生成システムによる処理
１－３．ユーザインタフェース
１－４．処理例
１－４－１．音生成例
１－４－２．テキストロゴ生成例
１－４－３．再学習例
１－４－４．ＵＳＤ更新例
１－４－５．評価例
１－４－６．複数カットの選択例
１－４－７．時間情報の利用例
１－４－８．言語化の度合いに応じた応答例
１－４－９．定性的な値の利用例
１－４－１０．入力途中でのレンダリング処理例
１－４－１１．編集時の確認作業例
１－４－１２．範囲選択に応じた処理例
１－４－１３．被写界深度に応じた処理例
１－４－１４．確認作業時の再生処理例
１－４－１５．強調表示例
１－４－１６．カット間の関係提示例
１－４－１７．オブジェクトの選択例
１－４－１８．３Ｄモデル利用例
１－４－１９．参考データの利用例
１－４－２０．３Ｄデータを有する利点例
１－５．ユーザから見た処理フロー例
１－６．ＡＩモデルについて
２．その他の実施形態
２－１．その他の構成例
２－２．その他
３．本開示に係る効果
４．ハードウェア構成

【0010】

＜１．実施形態＞
＜１－１．本開示の映像生成システムの構成概要＞
図１は、本開示の映像生成システムの一例を示す図である。映像生成システム１は、映像生成モジュール１００、情報取得モジュール２００、センサ部３００、及びクライアントＵＩ表示部４００を有する。なお、図１では各々の構成を１つだけ図示するが、映像生成システム１には、複数の映像生成モジュール１００、複数の情報取得モジュール２００、複数のセンサ部３００、及び複数のクライアントＵＩ表示部４００が含まれてもよい。

【0011】

まず、映像生成処理を行う映像生成モジュール１００の構成について説明する。映像生成モジュール１００は、入力テキスト解析部１１０、センサ解析部１２０、プロンプト等生成部１３０、映像生成部１４０、サウンド生成部１５０、テキスト／ロゴ生成部１６０、コンポジット編集部１７０、評価部１８０、クライアントＵＩモジュール１９０等を有する。

【0012】

入力テキスト解析部１１０は、入力されたテキストを解析する。例えば、入力テキスト解析部１１０は、情報取得モジュール２００から入力されたテキストを解析する。センサ解析部１２０は、入力されたセンサ情報を解析する。例えば、センサ解析部１２０は、情報取得モジュール２００から取得したセンサ情報を解析する。

【0013】

プロンプト等生成部１３０は、後述する機械学習モデルであるＡＩ（Artificial Intelligence）モデル（単に「モデル」ともいう）に入力するプロンプト等を含む映像（動画）の生成のために必要となる各種情報を生成する。例えば、プロンプト等生成部１３０は、ユーザの入力と予め保存されたプロンプト（のテンプレート等）とを用いてプロンプトを生成する。なお、プロンプトは、ＡＩモデルへ入力する情報（モデル入力情報）の一例に過ぎず、ＡＩモデルへ入力するモデル入力情報はプロンプトに限らず、任意の形式のモデル入力情報が採用可能であり、「プロンプト等生成部」は「モデル入力情報等生成部」と読み替えてもよい。図１では、プロンプト等生成部１３０は、シナリオ向け生成部１３１、映像向け生成部１３２、サウンド向け生成部１３３、テキスト／ロゴ向け生成部１３４を有する。

【0014】

シナリオ向け生成部１３１は、シナリオの生成に関連する各種情報を生成する。シナリオ向け生成部１３１は、シナリオを出力するモデルに入力する入力情報を生成する。例えば、シナリオ向け生成部１３１は、入力クエリに基づいて、動画生成に関するシナリオデータを生成するシナリオ生成部である。例えば、シナリオ向け生成部１３１は、入力クエリに基づいて、シナリオデータを生成するためにシナリオ生成部が用いるシナリオ生成用情報を出力する第１の出力部である。

【0015】

映像向け生成部１３２は、映像の生成に関連する各種情報を生成する。映像向け生成部１３２は、３Ｄ（三次元）データを構成するためのコードを出力するモデルに入力する入力情報を生成する。例えば、映像向け生成部１３２は、シナリオデータに基づいて、３Ｄデータを構成するためのコードを生成するコード生成部である。例えば、映像向け生成部１３２は、シナリオデータに基づいて、３Ｄデータを構成するためのコードを生成するためにコード生成部が用いるコード生成用情報を出力する第２の出力部である。

【0016】

サウンド向け生成部１３３は、サウンド情報（音情報）の生成に関連する各種情報を生成する。サウンド向け生成部１３３は、サウンドを出力するモデルに入力する入力情報を生成する。テキスト／ロゴ向け生成部１３４は、テキスト及びロゴの生成に関連する各種情報を生成する。テキスト／ロゴ向け生成部１３４は、テキスト及びロゴのうち少なくとも１つを出力するモデルに入力する入力情報を生成する。

【0017】

映像生成部１４０は、映像の生成に関する処理を実行する。映像生成部１４０は、コードに基づいて、動画データを取得する動画取得部である。映像生成部１４０は、プロンプト等生成部１３０で生成された各種情報を用いて映像を生成する。例えば、映像生成部１４０は、コードに基づいて、動画データを生成する動画生成部である。なお、映像生成部１４０は、任意の態様により動画データを取得してもよい。例えば、映像生成部１４０は、動画データの生成に用いられるデータを、動画データ生成のサービスを提供する外部のサービス提供装置（ベンダー等）に送信し、そのサービス提供装置が生成した動画データを、そのサービス提供装置から受信することにより、動画データを取得してもよい。図１では、映像生成部１４０は、ＵＳＤ生成部１４１、レンダリング部１４２、映像リファイン部１４３を有する。

【0018】

ＵＳＤ生成部１４１は、ＵＳＤ（Universal Scene Description）に関連する各種情報を生成する。例えば、ＵＳＤ生成部１４１は、映像向け生成部１３２での映像向けプロンプト生成で得られたプロンプトを用いて、Large Language Model（以下「ＬＬＭ」ともいう）などのＡＩモデルにより、ＵＳＤ－Ｐｙｔｈｏｎなどを生成する。

【0019】

レンダリング部１４２は、レンダリングに関連する各種処理を実行する。レンダリング部１４２は、ＵＳＤ生成部１４１により生成されたＵＳＤをレンダリングする処理を実行する。

【0020】

映像リファイン部１４３は、映像をリファインするための各種処理を実行する。レンダリング部１４２は、生成された映像を、映像リファインの処理によりクオリティを高くする。例えば、映像リファイン部１４３は、動画データの画質を改善する画質改善処理を実行する画質改善部である。

【0021】

サウンド生成部１５０は、サウンド（音）を生成する処理を実行する。サウンド生成部１５０は、サウンド向け生成部１３３でのサウンド向けのプロンプト生成で得られたプロンプトを用いて、Contrastive Learning ModelなどのＡＩモデルにより、ＢＧＭ（background music）、ＳＥ（Sound Effect）、ナレーション、セリフなどのサウンド情報を生成する。

【0022】

テキスト／ロゴ生成部１６０は、テキスト及びロゴのうち少なくとも１つを生成する処理を実行する。テキスト／ロゴ生成部１６０は、テキスト／ロゴ向け生成部１３４により生成された情報を用いてテキスト及びロゴのうち少なくとも１つを生成する。

【0023】

映像生成モジュール１００は、上述した構成により、あらかじめ保存されたプロンプトとユーザの入力を合わせてシナリオ生成のためのプロンプトを生成する。映像生成モジュール１００は、生成されたプロンプトをＬＬＭなどのＡＩモデルに入力することで、シナリオを生成する。また、映像生成モジュール１００は、生成されたシナリオより、映像、サウンド、テキスト／ロゴを生成するためのプロンプトを生成する。映像生成モジュール１００は、映像、サウンド、テキスト／ロゴを生成するためのプロンプト、シナリオ等を用いて、映像生成、サウンド生成、テキスト／ロゴ生成を実施する。

【0024】

コンポジット編集部１７０は、編集に関連する処理を実行する。例えば、コンポジット編集部１７０は、生成された映像、サウンド、テキスト／ロゴを一つにまとめ（合成し）、一つの映像とする処理を実行する。

【0025】

評価部１８０は、各種の対象を評価する評価処理を実行する。評価部１８０は、上述した構成により生成された情報の評価を行う。例えば、評価部１８０は、シナリオデータと動画データのうち少なくとも１つの評価を示す情報を生成する。

【0026】

クライアントＵＩモジュール１９０は、クライアント側のＵＩ（User Interface）での出力に関連する処理を実行する。例えば、クライアントＵＩモジュール１９０は、クライアント側のＵＩでの出力に関連する各種情報を生成する。この場合、クライアントＵＩモジュール１９０は、ユーザ側で表示されるＵＩを生成する処理を実行する。クライアントＵＩモジュール１９０は、クライアントＵＩ表示部４００に表示させる各種情報を生成する。

【0027】

また、情報取得モジュール２００は、各種情報を取得する。情報取得モジュール２００は、入力テキスト取得部２１０、センサ取得部２２０等を有する。入力テキスト取得部２１０は、キーボード３２０やマイク３３０により入力されたテキスト情報を取得する。例えば、入力テキスト取得部２１０は、ユーザがキーボード３２０やマイク３３０により入力したテキスト情報を取得する。例えば、入力テキスト取得部２１０は、動画生成に関する入力クエリをユーザから取得する取得部である。

【0028】

センサ取得部２２０は、カメラ３４０やモーションキャプチャなどのセンサにより検知された情報（「センサ情報」ともいう）を取得する。情報取得モジュール２００は、取得した各種情報を、映像生成モジュール１００へ提供（送信）する。なお、情報取得モジュール２００は、映像生成モジュール１００と一体であってもよい。

【0029】

センサ部３００は、各種のセンサを有する。センサ部３００は、ユーザの入力をセンシングする。センサ部３００は、ユーザによる操作を受け付ける。例えば、センサ部３００は、ユーザから動画編集に関する操作を受け付ける受付部である。例えば、センサ部３００は、マウス３１０、キーボード３２０、マイク３３０、カメラ３４０、慣性計測装置であるＩＭＵ３５０等を有する。このように、センサ部３００は、マウス３１０、キーボード３２０の他に、マイク３３０、カメラ３４０、ＩＭＵ３５０を備えるユーザ端末（スマートフォン等）やモーションキャプチャなどのセンサなどを含み、ユーザの入力をセンシングする。

【0030】

クライアントＵＩ表示部４００は、クライアント（ユーザ）に提示するための各種情報を表示する。クライアントＵＩ表示部４００は、クライアントＵＩモジュール１９０により生成されたＵＩをクライアントのディスプレイ（表示装置）に表示する。例えば、クライアントＵＩ表示部４００は、シナリオデータに基づいたストーリーボードを表示させる表示制御部である。ストーリーボードは、動画のカット毎に動画データを表示するように構成される。

【0031】

映像生成システム１は、図２に示すようなハードウェア構成であってもよい。図２は、本開示の映像生成システムに係るハードウェア構成の一例を示す図である。図２では、映像生成システム１は、クラウド側のコンピュータ１０、クライアント側のコンピュータ２０、カメラ等の各種のセンサを含むカメラ／センサ３０等をハードウェア構成として有する。また、映像生成システム１には、学習データ等の情報リソース４０、ＡＩモデル５０をコンピュータ１０に提供する情報提供装置（コンピュータ）が含まれてもよい。

【0032】

なお、図２に示すハードウェア構成は、一例に過ぎず、映像生成システム１は、所望の処理が実行可能であれば、任意のハードウェア構成が採用可能である。例えば、コンピュータ１０とコンピュータ２０とは一体であってもよい。また、情報リソース４０やＡＩモデル５０はコンピュータ１０内部に保存されてもよい。

【0033】

コンピュータ１０は、ＣＰＵ（Central Processing Unit）１１、ＧＰＵ（Graphics Processing Unit）１２、通信装置１３、メモリ／ストレージ１４を備える。例えば、コンピュータ１０は、図１中の映像生成モジュール１００及び情報取得モジュール２００に対応する。コンピュータ１０は、映像生成サービスを提供するサービス提供装置（サーバ装置）であってもよい。ＣＰＵ１１及びＧＰＵ１２は、いわゆるプロセッサであり、例えば映像生成等の各種の処理に関連する計算処理（演算処理）を実行する。

【0034】

通信装置１３は、コンピュータ２０、情報提供装置等との間で情報を送受信するための通信機能を有する通信装置であり、例えば、通信回路、ＮＩＣ（Network Interface Card）等であってもよい。通信装置１３は、所定のネットワーク（インターネット等）を介してコンピュータ２０、情報提供装置等の他の装置と通信を行う。例えば、通信装置１３は、所定のネットワークと有線または無線で接続され、コンピュータ２０、情報提供装置等の他の装置との間で情報の送受信を行う。

【0035】

メモリ／ストレージ１４は、各種の情報を記憶する記憶装置である。メモリ／ストレージ１４は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置である。メモリ／ストレージ１４は、ＣＰＵ１１及びＧＰＵ１２等のプロセッサが処理に用いる各種情報を記憶する。メモリ／ストレージ１４は、情報リソース４０、ＡＩモデル５０等を記憶してもよい。

【0036】

コンピュータ２０は、ＣＰＵ２１、ＧＰＵ２２、通信装置２３、メモリ／ストレージ２４、ＩＯインタフェース２５を備える。例えば、コンピュータ２０は、図１中のクライアントＵＩ表示部４００に対応する。コンピュータ２０は、映像生成サービスを利用するユーザが利用する端末装置（ＰＣ（Personal Computer）、スマートフォン等の携帯デバイス等）であってもよい。ＣＰＵ２１及びＧＰＵ２２は、いわゆるプロセッサであり、例えば映像表示等の各種の処理に関連する計算処理（演算処理）を実行する。なお、上記は一例に過ぎず、コンピュータ２０は、所望の処理が可能であれば任意の構成が採用可能である。例えば、コンピュータ２０は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の回路により映像表示等の各種の処理に関連する計算処理（演算処理）を実行してもよい。また、コンピュータ２０は、メモリ（メモリ／ストレージ２４等）にプログラムを保存する代わりに、プロセッサの回路内にプログラムを直接組み込むよう構成されても構わない。この場合、プロセッサは回路内に組み込まれたプログラムを読み出し実行することで機能を実現する。なお、本実施形態の各プロセッサは、プロセッサごとに単一の回路として構成される場合に限らず、複数の独立した回路を組み合わせて１つのプロセッサとして構成し、その機能を実現するようにしてもよい。また、コンピュータ１０もコンピュータ２０と同様に、所望の処理が可能であれば任意の構成が採用可能である。

【0037】

通信装置２３は、コンピュータ１０、センサ３０等との間で情報を送受信するための通信機能を有する通信装置であり、例えば、通信回路、ＮＩＣ等であってもよい。通信装置２３は、所定のネットワーク（インターネット等）を介してコンピュータ１０、センサ３０等の他の装置と通信を行う。例えば、通信装置２３は、所定のネットワークと有線または無線で接続され、コンピュータ１０、センサ３０等の他の装置との間で情報の送受信を行う。

【0038】

メモリ／ストレージ２４は、各種の情報を記憶する記憶装置である。メモリ／ストレージ２４は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置である。メモリ／ストレージ２４は、ＣＰＵ２１及びＧＰＵ２２等のプロセッサが処理に用いる各種情報を記憶する。

【0039】

ＩＯインタフェース２５は、入出力のインタフェース装置である。コンピュータ２０は、ＩＯインタフェース２５を介して、センサ３０からの入力を受信する。例えば、コンピュータ２０は、ＩＯインタフェース２５を介して、キーボードやマウス等の入力デバイスからの入力を受信する。また、コンピュータ２０は、ＩＯインタフェース２５を介して、ディスプレイ（表示装置）、スピーカー（音声出力装置）から情報を出力させる。例えば、コンピュータ２０は、ＩＯインタフェース２５を介して、ディスプレイ及びスピーカーにより映像を再生する。

【0040】

カメラ等の各種のセンサ３０は、ユーザの入力をセンシングする。カメラ等の各種のセンサ３０は、ユーザによる操作を受け付ける。例えば、センサ３０は、図１中のセンサ部３００に対応する。また、情報リソース４０は、学習データ等の様々な情報を含む。例えば、情報リソース４０は、ＬＬＭ等の各種のＡＩモデルの学習に用いられる学習データを含む。ＡＩモデル５０は、ＬＬＭ等の映像生成に関連する処理に用いられるＡＩモデルの情報を含む。例えば、ＡＩモデル５０は、後述するモデルＭ１～Ｍ３等の各種のＡＩモデルの情報を含む。なお、上述したように、映像生成システム１は、図２に示す構成以外の構成をとってもよい。

【0041】

＜１－２．本開示の映像生成システムによる処理＞
ここから、映像生成システムによる処理について説明する。まず、図３に示す映像生成処理の流れの一例について説明する。図３は、本開示の映像生成処理の流れの一例を示す図である。なお、以下で映像生成システム１を処理主体として説明する処理は、映像生成システム１に含まれる装置構成に応じて、その処理を実行可能ないずれの装置が行ってもよい。

【0042】

図３では「User's Input」と表記するユーザ入力情報ＵＩＮ１は、ユーザが映像生成のために入力した情報（「入力クエリ」ともいう）に対応する。なお、入力クエリは、テキスト（文字情報）に限らず、任意の情報が採用可能である。入力クエリは、テキスト、画像、音声、３Ｄデータのうち少なくとも１つを含む任意の情報であってもよい。

【0043】

映像生成システム１は、ユーザ入力情報ＵＩＮ１を用いて、図３では「ＬＬＭ」と表記するモデルＭ１の入力として用いられるシナリオ生成用情報（「第１の入力情報」ともいう）を生成するが、この点については後述する。例えば、モデルＭ１は、第１の入力情報の入力に応じてシナリオデータを出力する第１のモデルである。モデルＭ１は、入力に応じて所望の出力が可能であれば、ＬＬＭ（大規模言語モデル）等の任意のＡＩモデルが採用可能である。なお、モデルＭ１等のＡＩモデルに関しては後述する。

【0044】

映像生成システム１は、モデルＭ１に第１の入力情報を入力し、モデルＭ１にシナリオデータであるシナリオＦＤ１を出力させることにより、シナリオＦＤ１を生成する。そして、映像生成システム１は、シナリオＦＤ１、シナリオＦＤ１を入力とするモデルＭ２の出力、及びユーザ入力情報ＵＩＮ２等を用いて、モデルＭ３の入力として用いられるコード生成用情報（「第２の入力情報」ともいう）であるＵＳＤ生成必要情報ＳＤ１を生成する。例えば、モデルＭ３は、第２の入力情報の入力に応じてコードを出力する第２のモデルである。モデルＭ３は、入力に応じて所望の出力が可能であれば、ＬＬＭ（大規模言語モデル）等の任意のＡＩモデルが採用可能である。

【0045】

なお、図３では、ＵＳＤ生成必要情報ＳＤ１を１つのみ図示するが、例えば生成するＵＳＤファイルの数に応じてＵＳＤ生成必要情報ＳＤ１は複数あってもよい。例えば、ＵＳＤ生成必要情報ＳＤ１は、図１８に示すようなデータ構造に対応して生成するＵＳＤファイルの数に応じてＵＳＤ生成必要情報ＳＤ１は複数あってもよい。

【0046】

例えば、モデルＭ２は、シナリオデータの入力に応じて、そのシナリオデータに対応するテンプレート等を出力するモデルであってもよい。モデルＭ２は、入力に応じて所望の出力が可能であれば、任意のＡＩモデルが採用可能である。例えば、ユーザ入力情報ＵＩＮ２は、映像生成での制約条件の指定等を行うための情報であってもよい。なお、映像生成システム１は、シナリオＦＤ１とテンプレート入力情報とを用いて第２の入力情報を生成してもよいがこの点については後述する。

【0047】

映像生成システム１は、モデルＭ３にＵＳＤ生成必要情報ＳＤ１を入力し、モデルＭ３に図３では「python」と表記するパイソンコードＯＤ１を出力させることにより、パイソンコードＯＤ１を生成する。例えば、パイソンコードＯＤ１は実行によりＵＳＤ形式のデータ（「ＵＳＤファイル」ともいう）を生成する（プログラム）コードである。なお、パイソンは一例に過ぎず、コードは所望の３ＤＣＧ用のデータを生成可能であれば、パイソンに限らず任意の形式のコードが採用可能である。また、ＵＳＤは一例に過ぎず、３ＤＣＧ用のデータであれば、ＦＢＸ（Film Box）等任意の形式が採用可能である。映像生成システム１は、パイソンコードＯＤ１を実行し、図３では「ＵＳＤ」と表記するＵＳＤファイルＯＤ２を生成する。

【0048】

映像生成システム１は、図３では「Renderer」と表記するレンダリング処理ＰＳ１を実行することにより、図３では「PreMovie」と表記する動画データＭＶ１を生成する。例えば、動画データＭＶ１は、後述するリファイン処理ＰＳ２を実行する前のデータ（「第１の動画データ」ともいう）である。

【0049】

映像生成システム１は、図３では「Refiner」と表記するリファイン処理ＰＳ２を実行することにより、図３では「RefinedMovie」と表記する動画データＭＶ２を生成する。例えば、リファイン処理ＰＳ２は、動画データの画質を改善する画質改善処理である。動画データＭＶ２は、リファイン処理ＰＳ２により第１の動画データである動画データＭＶ１が更新された後のデータ（「第２の動画データ」ともいう）である。

【0050】

映像生成システム１は、動画データＭＶ２、ユーザ入力情報ＵＩＮ３等を用いてコンポジット編集ＰＳ３を実行することにより、図３では「FinalMovie」と表記する動画データＭＶ３を生成する。例えば、コンポジット編集ＰＳ３は、ユーザ入力情報ＵＩＮ３が示すユーザの編集指示に応じて、動画データＭＶ２を更新（編集）する処理を実行することにより、動画データＭＶ２が更新された動画データＭＶ３を生成する。

【0051】

なお、図３に示す映像生成処理の流れは一例に過ぎず、映像生成システム１は、ユーザの入力クエリから動画データを生成可能であれば、任意の処理態様が採用可能である。例えば、図３では、モデルＭ１がコード（パイソンコード）を出力する場合を一例として説明したが、モデルＭ１は、ＵＳＤファイル等の３ＤＣＧ用のデータを出力するモデルであってもよい。また、映像生成システム１は、図３に示す処理に限らず、様々な態様の映像生成処理を行ってもよい。この点の一例について図４を用いて説明する。図４は、本開示の映像生成処理の流れの他の一例を示す図である。図４は、音生成必要情報ＳＤ２及びテキストロゴ必要情報ＳＤ３を生成し、それらを用いて映像生成処理を行う点等で図３と相違する。なお、図３で説明した内容と同様の点については適宜説明を省略する。

【0052】

図４では、映像生成システム１は、シナリオＦＤ１、シナリオＦＤ１を入力とするモデルＭ２の出力、及びユーザ入力情報ＵＩＮ２等を用いて、図３では「ＡＩ」と表記するモデルＭ４の入力として用いられる音生成用情報である音生成必要情報ＳＤ２を生成する。例えば、モデルＭ４は、音生成必要情報ＳＤ２及び動画データＭＶ２の入力に応じて各種の音データを出力するモデルである。モデルＭ４は、入力に応じて所望の出力が可能であれば、任意のＡＩモデルが採用可能である。なお、モデルＭ４は、音生成必要情報ＳＤ２のみを入力とするモデルであってもよい。

【0053】

映像生成システム１は、モデルＭ４に音生成必要情報ＳＤ２を入力し、モデルＭ４にＢＧＭ（BackGround Music）用の音データＡＤ１、ＳＥ用の音データＡＤ２、Narration用の音データＡＤ３等を出力させることにより、映像に対応する音データを生成する。また、映像生成システム１は、ユーザ入力情報ＵＩＮ４を用いて、音データＡＤ１、ＡＤ２、ＡＤ３を生成してもよい。例えば、モデルＭ４が音データＡＤ１、ＡＤ２、ＡＤ３を１つの音データとして出力する場合、映像生成システム１は、ユーザ入力情報ＵＩＮ４での指定に基づいて、モデルＭ４が出力した１つの音データから、音データＡＤ１、ＡＤ２、ＡＤ３を抽出して、音データＡＤ１、ＡＤ２、ＡＤ３を生成してもよい。

【0054】

図４では、映像生成システム１は、シナリオＦＤ１、シナリオＦＤ１を入力とするモデルＭ２の出力、及びユーザ入力情報ＵＩＮ２等を用いて、モデルＭ５の入力として用いられるテキストロゴ生成用情報であるテキストロゴ生成必要情報ＳＤ３を生成する。例えば、モデルＭ５は、テキストロゴ生成必要情報ＳＤ３の入力に応じてテキスト及びロゴのうち少なくとも１つを出力するモデルである。モデルＭ５は、入力に応じて所望の出力が可能であれば、任意のＡＩモデルが採用可能である。

【0055】

映像生成システム１は、モデルＭ５にテキストロゴ生成必要情報ＳＤ３を入力し、モデルＭ５にＴｅｘｔ用のテキストロゴデータＤＩ１、Ｌｏｇｏ用のテキストロゴデータＤＩ２等を出力させることにより、映像に対応するテキストロゴデータを生成する。

【0056】

映像生成システム１は、動画データＭＶ２、音データＡＤ１、ＡＤ２、ＡＤ３、テキストロゴデータＤＩ１、ＤＩ２、ユーザ入力情報ＵＩＮ３等を用いてコンポジット編集ＰＳ３を実行することにより、動画データＭＶ３を生成する。例えば、コンポジット編集ＰＳ３は、動画データＭＶ２、音データＡＤ１、ＡＤ２、ＡＤ３、テキストロゴデータＤＩ１、ＤＩ２等を一つにまとめ（合成し）、一つの映像とした動画データＭＶ３を生成する処理を実行する。

【0057】

上述した図３及び図４は、初期状態としてシナリオやＵＳＤ生成必要情報、ＵＳＤ、PreMovie、RefinedMovie等がない状態での処理の一例を示す。上述したように、映像生成システム１は、ユーザの入力クエリに基づき、シナリオを生成するためのプロンプトを生成し、自然言語モデルへプロンプトを提供してシナリオを生成し、シナリオに記載のテキスト情報より、動画を構成するコード出力のためのプロンプトを生成し、自然言語モデルへプロンプトを提供して、動画を構成するコードを生成し、動画を生成する。このように、映像生成システム１では、動画を作る際、ユーザの作りたいものや目的を入力すると、３ＤＣＧの知識や映像制作の知識がなくても効果的な映像のストーリーボードと動画が生成される。また、映像生成システム１では、ストーリーボードにすることで、その後に編集しやすくなる。なおこれらの点についての詳細は後述する。

【0058】

また、映像生成システム１は、映像生成に関連する各種の処理を行ってもよい。例えば、映像生成システム１は、生成した情報を対象として評価処理を行ってもよい。この点について、図５を用いて、評価処理の流れの一例について説明する。図５は、本開示の評価処理の流れの一例を示す図である。

【0059】

図５では、映像生成システム１は、シナリオＦＤ１、ＵＳＤ生成必要情報ＳＤ１、音生成必要情報ＳＤ２、テキストロゴ生成必要情報ＳＤ３のうち少なくとも１つを入力し、モデルＭ１０に、入力された情報についての評価を示す評価テキスト情報ＥＶ１を出力させることにより、生成した情報に対する評価を行う。例えば、モデルＭ１０は、情報の入力に応じて、その入力された情報の評価を出力するモデルである。例えば、モデルＭ１０は、シナリオＦＤ１の入力に応じて、その入力されたシナリオＦＤ１の評価を示す評価テキストを出力する。なお、モデルＭ１０は、シナリオＦＤ１、ＵＳＤ生成必要情報ＳＤ１、音生成必要情報ＳＤ２、テキストロゴ生成必要情報ＳＤ３ごとに入力を受け付けるモデルであってもよいし、これらの情報を組み合わせた入力を受け付けるモデルであってもよい。また、モデルＭ１０は、映像を示す情報（キャプション等）の入力に応じて、その入力された情報に対応する映像の評価を出力するモデルであってもよい。

【0060】

ここから、上述した処理の流れについて、映像生成システム１が実行する各処理の具体例について記載する。なお、上述した内容と同様の点について適宜説明を省略する。

【0061】

例えば、映像生成システム１は、図６に示すように、シナリオ生成用情報（第１の入力情報）を生成する。図６は、シナリオ生成用情報の生成処理の一例を示す図である。図６では、映像生成システム１は、コンテンツＣＴ１にユーザが入力したユーザ入力情報ＩＤＴ１、ＩＤＴ２をユーザの入力情報として取得する。コンテンツＣＴ１は、「どういう動画を作りたいですか？」という質問事項、及び「スタイル」という質問事項の各々に対するユーザの入力情報を受け付けるためのコンテンツである。

【0062】

例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ１を表示し、センサ部３００は、ユーザ入力情報ＩＤＴ１、ＩＤＴ２をユーザ入力情報として受け付ける。例えば、ユーザ入力情報ＩＤＴ１、ＩＤＴ２は、図３及び図４中のユーザ入力情報ＵＩＮ１に対応する。

【0063】

図６では、クライアントＵＩ表示部４００は、「どういう動画を作りたいですか？」という質問事項を表示する。センサ部３００は、「どういう動画を作りたいですか？」という質問事項に対しては、「１５秒のスニーカーのＣＭ動画」というユーザ入力情報ＩＤＴ１を受け付ける。また、クライアントＵＩ表示部４００は、「スタイル」という質問事項を表示する。センサ部３００は、「スタイル」という質問事項に対しては「映画風」というユーザ入力情報ＩＤＴ２を受け付ける。

【0064】

なお、映像生成システム１は、ユーザの入力情報を任意の態様により受け付けてもよく、複数の候補からユーザの選択を受け付けてもよい。例えば、映像生成システム１は、ユーザがキーボードやマイクから入力した情報をテキスト情報にして、ユーザの入力情報として受け付けてもよい。また、映像生成システム１は、自由文だけでなく、動画全体の秒数、スタイル、カメラワークなどの設定値、画像、動画などの他ファイルをユーザの入力情報として受け付けてもよい。

【0065】

映像生成システム１は、ユーザ入力情報ＩＤＴ１、ＩＤＴ２、及びテンプレート入力情報であるテンプレートＴＰ１を用いて、シナリオ生成用情報（第１の入力情報）であるプロンプトＰＴ１を生成する。例えば、テンプレートＴＰ１は、予め設定されたものであってもよいし、複数のテンプレート候補から選択されてもよい。例えば、映像生成システム１は、複数のテンプレート候補のうち、ユーザの入力情報に対応するテンプレートを選択してもよい。例えば、映像生成システム１は、ユーザ入力情報ＩＤＴ１、ＩＤＴ２が示す内容に基づいて、複数のテンプレート候補のうち、映画風の広告に関連するテンプレートＴＰ１を選択してもよい。

【0066】

例えば、映像生成システム１は、テンプレートＴＰ１にユーザ入力情報ＩＤＴ１、ＩＤＴ２を反映することにより、プロンプトＰＴ１を生成する。図６では、映像生成システム１は、制約条件のスタイルの項目に入力情報ＩＤＴ２が示す「映画風」を追加し、入力文に入力情報ＩＤＴ１が示す「１５秒のスニーカーのＣＭ動画」を追加することにより、プロンプトＰＴ１を生成する。このように、映像生成システム１は、ユーザの入力情報により、シナリオを生成するためのプロンプトを生成する。なお、ユーザの入力情報は、一画面で入力されてもよいし、いくつかの質問に答えることにより入力されてもよいが、これらの点の例について後述する。

【0067】

また、映像生成システム１は、図７に示すように、シナリオデータを生成する。図７は、シナリオデータの生成処理の一例を示す図である。図７では、映像生成システム１は、プロンプトＰＴ１を用いて、シナリオデータＳＮ１を生成する。例えば、シナリオデータＳＮ１は、図３及び図４中のシナリオＦＤ１に対応する。シナリオデータＳＮ１には、オープニングシーン、スニーカーを履くシーン等のシーンごとにその秒数、カットの説明などの情報が含まれる。

【0068】

例えば、映像生成システム１は、ＬＬＭ等であるモデルＭ１にプロンプトＰＴ１を入力し、モデルＭ１にシナリオデータＳＮ１を出力させることにより、シナリオデータＳＮ１を生成する。このように、映像生成システム１は、生成したプロンプトをＡＩ（ＬＬＭなど）に入力することにより、シナリオを生成する。なお、図７に示す情報（「シナリオ情報」ともいう）以外にも、シナリオデータＳＮ１には、環境、登場人物、モーション、カメラワーク、ライティング、カラーなどの情報も含まれる。例えば、シナリオ生成には特徴が出るように、ユーザのこれまでの経験学習データや特定の監督や人の学習データを、モデルＭ１等にＲＡＧ（Retrieval-Augmented Generation）やファインチューンングで入れることで、映像生成システム１は、様々なシナリオバリエーションを生成することが可能となる。

【0069】

また、映像生成システム１は、図８に示すように、コード生成用情報（第２の入力情報）を生成する。図８は、コード生成用情報の生成処理の一例を示す図である。映像生成システム１は、シナリオデータＳＮ１、及びテンプレート入力情報であるテンプレートＴＰ２を用いて、コード生成用情報（第２の入力情報）であるプロンプトＰＴ２を生成する。例えば、テンプレートＴＰ２は、予め設定されたものであってもよいし、複数のテンプレート候補から選択されてもよい。例えば、映像生成システム１は、複数のテンプレート候補のうち、シナリオに対応するテンプレートを選択してもよい。例えば、映像生成システム１は、シナリオデータＳＮ１が示す内容に基づいて、複数のテンプレート候補のうち、ＣＭに関連するテンプレートＴＰ２を選択してもよい。

【0070】

例えば、映像生成システム１は、テンプレートＴＰ２にシナリオデータＳＮ１を反映することにより、プロンプトＰＴ２を生成する。図８では、映像生成システム１は、入力文にシナリオデータＳＮ１が示す情報を追加することにより、プロンプトＰＴ２を生成する。このように、映像生成システム１は、ＡＩにより生成されたシナリオにより、映像向けのプロンプトを生成する。

【0071】

例えば、図８は、人に関するシナリオからＵＳＤ－Ｐｙｔｈｏｎに変換するためのプロンプト生成の一例を示す。ＵＳＤ－Ｐｙｔｈｏｎへの変換は変換の形式の一例に過ぎず、変換はＵＳＤ－Ｐｙｔｈｏｎに限らずに、任意の変換の形式であってもよい。例えば、変換の形式は、Blender向けPython、またＵＳＤなどの形式であってもよい。また、映像生成システム１は、人、環境、カメラワークなどの対象ごとに個別にプロンプトを生成してもよいし、まとめてプロンプトを生成してもよい。また、生成するプロンプトには、使用するアセットのパスやモーションのパスがされてもよいし、アセット／モーションのＡＩ生成アルゴリズムに投げる（入力する）ためのソースコードやＡＰＩ（Application Programming Interface）が記載されてもよい。

【0072】

そして、映像生成システム１は、生成したプロンプトをＡＩ（ＬＬＭなど）に入力することでＵＳＤ－Ｐｙｔｈｏｎファイルを生成する。なお、ファイルの形式はpython形式に限らず、ＵＳＤなど他の形式でファイルが生成されてもよい。そして、映像生成システム１は、ＵＳＤファイル等、レンダリングできる形式に変換し、レンダリングを実行することにより、PreMovie（ｍｐ４等の映像ファイル）を生成する。

【0073】

なお、映像生成システム１は、PreMovieを用いてコンポジット編集を行ってもよいが、図９に示すように、PreMovieに画質改善処理の一例であるリファイナ処理を行ってもよい。図９は、画質改善処理の一例を示す図である。図９では、映像生成システム１は、PreMovieである第１の動画ＩＮ１を入力として、RefinedMovieである第２の動画ＯＴ１を出力するDiffusionモデルであるモデルＭ１１を用いたリファイナ処理により、第１の動画ＩＮ１から第２の動画ＯＴ１を生成する。

【0074】

なお、リファイナ処理に用いられるＡＩモデル（モデルＭ１１等）は、Diffusionモデルに限らず、ＬＤＭ（Latent Diffusion Model）、ＬＣＭ（Latent Consistency Model）などの任意のＡＩモデルが採用可能である。また、リファイナ処理には、AnimateDiff（時間方向安定化）、ControlNet（ラインアート制御）等の技術が用いられてもよい。このようなリファイナ処理により、映像生成システム１は、登場人物、背景、プロップ（小道具）などの一貫性を保ったまま、映像のクオリティを向上させることができる。

【0075】

また、リファイナ処理には、動画だけでなくプロンプトを用いてもよい。例えば、モデルＭ１１は、第１の動画ＩＮ１に加えて、プロンプトＩＮ２を入力としてもよい。例えば、モデルＭ１１は、プロンプトＩＮ２により３０代女性等の対象が指定された場合、第１の動画ＩＮ１中の３０代女性の箇所を改善した第２の動画ＯＴ１を出力する。これにより、映像生成システム１は、第１の動画ＩＮ１のうちプロンプトＩＮ２により指定された対象について画質等が改善された第２の動画ＯＴ１を生成する。

【0076】

上述した映像生成システム１の処理により、ユーザからは入力後にシナリオ（ストリーボード）と各カットの動画が生成されているように見え、その間の処理はシステム内に閉じている。これらの処理は、ユーザの入力テキストから一気にシナリオから全てのカット、リファイナ処理まで生成されることもありうるし、処理の途中で好みの選択などユーザの入力が行われてもよい。例えば、映像生成システム１においては、大筋のみを書いたシナリオを何パターンか生成後、ユーザが選択し、選択された大筋のシナリオを基に詳細シナリオと動画生成処理が実行されてもよい。また、映像生成システム１においては、シナリオ生成後、映像生成の前で生成される映像の登場人物を何パターンか生成し、ユーザが１つを選択後、動画をレンダリング処理やリファイナ処理を実行してもよい。

【0077】

シナリオの構成要素として、カットの動画や代表とする画像（動画の１フレーム目など）、カットの説明、登場人物（ビジュアル、設定など）、各登場人物のモーション、ライティング、カメラワーク、背景の環境情報、カット間のトランジション、セリフ、ナレーションなどがありうる。これらはユーザに提示するものもあれば、ユーザに提示はせずに処理のために持つものもある。シナリオはカットごとに時系列に並んでいる。

【0078】

現在、Pika、Runway Gen-2、Lumiere、Stable Video Diffusionなどの様々な既存動画生成サービスが提供されている。これらは画像から空間方向や時間方向のベクトルを動かすDiffusionモデルを使い、動画を生成している。これらは、２Ｄの画像だけを使い映像を生成している。一方、映像生成システム１は、内部に３Ｄの情報を保持している。例えば、既存動画生成サービスでは動画内の指定した（Ｘ，Ｙ）領域のみ修正することは可能であるが、服の色味だけ変化させたいのにモーションも変わってしまうという課題がある。一方で、映像生成システム１の場合、内部に３Ｄの情報を保持しているため、モーションのみ、ライティングのみ、人の服の色のみなどの狙った部分のみの修正が可能となる。

【0079】

また、既存動画生成サービスはカットごとの動画を生成するのみであり、ユーザが各カットの一貫性を自ら担保する必要があるが、映像生成システム１はシナリオ（ストリーボード）から動画生成、修正まで一貫して実施することが可能であり、映像の出演者や背景、カラーグレーディングなど一貫性を持った動画生成をすることが可能である。

【0080】

＜１－３．ユーザインタフェース＞
ここから、映像生成システム１を利用するユーザに対するユーザインタフェース（ＵＩ）について記載する。なお、上述した内容と同様の点については適宜説明を省略する。

【0081】

映像生成システム１は、図１０に示すように、コンテンツＣＴ１１をユーザに提供する。図１０は、ユーザインタフェースの一例を示す図である。コンテンツＣＴ１１は、ユーザの入力情報を受け付けるための表示画面（コンテンツ）である。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ１１を表示する。ユーザは、コンテンツＣＴ１１を介して、どんな動画を作るかを指示するテキスト（図１０では「Prompt」の欄）及びスタイルの選択（図１０では「Style」の欄）をユーザの入力情報として入力する。このように、ユーザは、テキスト及びスタイルの選択をユーザの入力情報として入力する。例えば、ユーザは、コンテンツＣＴ１１に含まれる例文等を参考に「Prompt」の欄に文字情報を入力する。例えば、ユーザは、「Style」の欄の下向きの三角形を押す（クリック等）すること等により、表示される複数のスタイル候補から使用するスタイルを選択する。

【0082】

ユーザの入力情報の入力が完了したユーザは、図１０中の「Ask AI Director」と表記されたボタンを選択することにより、映像生成システム１にユーザの入力情報に応じた動画生成を指示する。これにより、映像生成システム１は、ユーザの入力情報に応じた動画の生成処理を実行する。

【0083】

映像生成システム１は、図１４に示すように、生成した動画に関するコンテンツＣＴ１５をユーザに提供する。図１４は、ユーザインタフェースの一例を示す図である。コンテンツＣＴ１５は、生成した動画に対するユーザの操作（指示）を受け付けるためのストーリーボード画面（コンテンツ）である。図１４に示すように、コンテンツＣＴ１５は、生成した動画のカット毎に動画データを表示するストーリーボード画面である。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ１５を表示する。このように、映像生成システム１は、ユーザの入力情報に応じて、ストーリーボードと映像が出力されるＵＩを提供する。ユーザは、ストーリーボード画面にて、各カットの動画、内容、ナレーション、セリフ、カメラワーク、ＢＧＭ、ライティング、カラーなどの設定をする。

【0084】

なお、映像生成システム１は、ユーザに質問を行いながら、ユーザによるユーザの入力情報を受け付けてもよい。例えば、映像生成システム１は、図１０中の「Ask AI Director」と表記されたボタンを選択した場合、図１１～図１３に示すように、ユーザとの会話（対話）によりユーザの入力情報を受け付ける。図１１～図１３は、ユーザインタフェースの一例を示す図である。図１１中のコンテンツＣＴ１２は、図１０で入力されたユーザの入力情報に対応して生成したサンプルを提示して、ユーザにイメージに近いものがあるかを質問する表示画面（コンテンツ）である。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ１２を表示する。

【0085】

図１２中のコンテンツＣＴ１３は、図１１中のコンテンツＣＴ１２で提示したサンプルにイメージに合うものがないとのユーザの回答（入力情報）に応じて、詳細なターゲット等を要求（質問）する表示画面（コンテンツ）である。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ１３を表示する。

【0086】

図１３中のコンテンツＣＴ１４は、ターゲット等を具体的に指定したユーザの回答（入力情報）に対応して再度生成したサンプルを提示して、ユーザにイメージに近いものがあるかを質問する表示画面（コンテンツ）である。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ１４を表示する。図１３では、ユーザがマウスカーソルを４つのサンプルのうち左端のサンプル動画に合わせてクリック等の指定操作を行うことにより、４つのサンプルのうち左端のサンプル動画がイメージに近い動画であると、ユーザが指定した場合を示す。これにより、映像生成システム１は、４つのサンプルのうち左端のサンプル動画を指定するユーザの入力情報に応じた動画の生成処理を実行する。

【0087】

この場合、映像生成システム１は、図１４に示すように、生成した動画に関するコンテンツＣＴ１５をユーザに提供する。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ１５を表示する。このように、映像生成システム１は、初期入力内容で、ストーリーボードと動画を生成するにあたり、必要な情報が足りない場合はユーとの会話（対話）により必要な情報を収集しながら、詳細を詰めていってもよい。

【0088】

また、映像生成システム１は、図１５及び図１６に示すように、ユーザに作りたい動画に関する短文を入力させ、その短文を基に動画のストーリーをいくつか生成し、気に入ったものをユーザに選択させてもよい。図１５及び図１６は、ユーザインタフェースの一例を示す図である。

【0089】

映像生成システム１は、図１５に示すように、コンテンツＣＴ２１をユーザに提供する。コンテンツＣＴ２１は、ユーザの入力情報を受け付けるための表示画面（コンテンツ）である。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ２１を表示する。ユーザは、コンテンツＣＴ２１を介して、どんな動画を作りたいかを示す文章（短文）をユーザの入力情報として入力する。例えば、ユーザは、コンテンツＣＴ２１中の入力欄に文字情報を入力する。

【0090】

ユーザの入力情報の入力が完了したユーザは、コンテンツＣＴ２１中の入力欄の右端の「開始」と表記されたボタンを選択することにより、映像生成システム１にユーザの入力情報に応じた動画のストーリーの生成を指示する。これにより、映像生成システム１は、ユーザの入力情報に応じた動画のストーリーの生成処理を実行する。

【0091】

映像生成システム１は、図１６に示すように、生成した動画のストーリーに関するコンテンツＣＴ２２をユーザに提供する。図１６中のコンテンツＣＴ２２は、図１５で入力されたユーザの入力情報に対応して生成した動画のストーリーのサンプルを提示する表示画面（コンテンツ）である。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ２２を表示する。例えば、ユーザは、動画のストーリーのサンプルのうち、気に入ったものがあれば、そのサンプルの表示領域の右端の「続ける」と表記されたボタンを選択することにより、映像生成システム１に選択したサンプルに対応する動画生成を指示する。

【0092】

なお、映像生成システム１は、ユーザが気に入ったものがなければ別パターンを再度生成する。例えば、ユーザは、動画のストーリーのサンプルのうち、気に入ったものが無ければ、短文の表示領域の右端の「続ける」と表記されたボタンを選択することにより、映像生成システム１に別パターンの動画のストーリーのサンプルを再度生成することを指示する。これにより、映像生成システム１は、別パターンの動画のストーリーのサンプルを生成する。

【0093】

＜１－４．処理例＞
ここから、上述した具体例以外に、映像生成システム１が実行する各処理の具体例について記載する。なお、上述した内容と同様の点について適宜説明を省略する。以下では、上述した映像生成システム１の処理における音等の生成処理、評価処理等についての具体例を説明する。なお、上述した内容と同様の点については適宜説明を省略する。

【0094】

＜１－４－１．音生成例＞
例えば、映像生成システム１は、図１７に示すように、音生成用情報（図３及び図４中の音生成必要情報ＳＤ２に対応）を生成する。図１７は、音生成用情報の生成処理の一例を示す図である。映像生成システム１は、シナリオデータＳＮ１、及びテンプレート入力情報であるテンプレートＴＰ３を用いて、音生成用情報であるプロンプトＰＴ３を生成する。例えば、テンプレートＴＰ３は、予め設定されたものであってもよいし、複数のテンプレート候補から選択されてもよい。例えば、映像生成システム１は、複数のテンプレート候補のうち、シナリオに対応するテンプレートを選択してもよい。例えば、映像生成システム１は、シナリオデータＳＮ１が示す内容に基づいて、複数のテンプレート候補のうち、ＣＭに関連するテンプレートＴＰ３を選択してもよい。

【0095】

例えば、映像生成システム１は、テンプレートＴＰ３にシナリオデータＳＮ１を反映することにより、プロンプトＰＴ３を生成する。図１７では、映像生成システム１は、入力文にシナリオデータＳＮ１が示す情報を追加することにより、プロンプトＰＴ３を生成する。例えば、映像生成システム１は、シナリオにより合うサウンド（ＢＧＭ等）を生成するために、シナリオの中からキーとなるフレーズをいくつか抽出するためのプロンプトを生成する。映像生成システム１は、生成したプロンプトをＡＩ（ＬＬＭ等）に入力することで、サウンド生成に必要なキーワードやテキスト情報を取得してもよい。

【0096】

映像生成システム１は、生成したプロンプトＰＴ３を用いて、音データを生成する。例えば、映像生成システム１は、生成された動画とストーリーボード（シナリオデータＳＮ１等）に記載のテキスト情報に基づき、ＢＧＭやＳＥ、ナレーション、セリフなどのサウンド（音データ）を生成する。また、映像生成システム１は、セリフやナレーション等、既に必要な言葉（文字情報）がシナリオ内に抜き出されている場合は、プロンプトを生成せずに、その言葉（文字情報）をセリフやナレーション等の音データとして保存してもよい。

【0097】

例えば、映像生成システム１は、得られたサウンド生成のための必要情報（音生成用情報）、動画、ユーザが入力した音声データ（音源、ユーザの声や鼻歌など）より音データを生成する。なお、映像生成システム１は、ＢＧＭやＳＥに関しては、text to music generationの様なTransformer（モデル）を利用し、テキストや動画からサウンドを生成してもよい。また、映像生成システム１は、text to music estimationの様なContrastive Learningされた音源を自然文から検索してもよい。

【0098】

また、映像生成システム１は、セリフやナレーションに関しては、その言葉自体と、シナリオから得られた人物像に関するテキスト情報を元に、text to speech（DiffusionモデルやFlow Matchingなど）で音声を生成してもよい。また、映像生成システム１は、生成された動画と音声をつなげる際、音声の開始終了時間、音量等を示すため、動画内もしくは音声ファイル内にメタ情報を組み込んでもよい。

【0099】

＜１－４－２．テキストロゴ生成例＞
例えば、映像生成システム１は、テキストロゴ生成用情報（図３及び図４中のテキストロゴ生成必要情報ＳＤ３に対応）を生成する。映像生成システム１は、生成したストーリーボード（シナリオデータＳＮ１等）に基づき、映像上に表示されるテキストやロゴ情報（キャプション、タイトル、ロゴ、説明文等）を生成する。

【0100】

例えば、生成されたシナリオ内に、表示するテキスト文章が明確に記載されている場合もあるが、明確に記載されていない場合は、映像生成システム１は、テキスト情報（テキストロゴデータ等）を生成するためのプロンプトを生成し、ＡＩ（ＬＬＭなど）に投げてテキスト情報を生成する。また、映像生成システム１は、ユーザが表示するテキストを自ら入力した場合、ユーザが入力したその情報をテキスト情報（テキストロゴデータ等）として用いてもよい。

【0101】

また、テキスト表示のフォントやサイズ位置は、任意の方法により決定される。例えば、映像生成システム１は、Diffusionモデル、ＶＡＥ（Variational Auto-Encoder）、ＧＡＮ（Generative Adversarial Networks）、ＤＡＬＬＥ、ＳｔｙｌｅＧＡＮ、ＳｔｙｌｅＧＡＮ２、Ｐｉｘ２Ｐｉｘ、ＴｒａｎｓＧＡＮ、ＬＬＭなどの任意のＡＩを用いて、テキスト表示のフォントやサイズ位置を決定してもよい。また、テキスト表示のフォントやサイズ位置は、ユーザが自ら手動で設定してもよい。

【0102】

ロゴやイメージに関しては、ユーザが画像や動画をｊｐｅｇ形式やｍｐ４形式等で入力してもよい。また、ロゴやイメージに関しては、映像生成システム１は、画像生成のためのプロンプトを生成し、Diffusionモデル、ＶＡＥ、ＧＡＮ、ＤＡＬＬＥ、ＳｔｙｌｅＧＡＮ、ＳｔｙｌｅＧＡＮ２、Ｐｉｘ２Ｐｉｘ、ＴｒａｎｓＧＡＮ、ＬＬＭなどの任意のＡＩに投げてロゴ情報を生成してもよい。

【0103】

また、映像生成システム１は、テキストやロゴ情報と動画をつなげる際、テキストやロゴの開始終了時間や位置、大きさを明確（メタ情報）に示すため、動画内もしくはテキストやロゴ自体にメタ情報を組み込んでもよい。

【0104】

＜１－４－３．再学習例＞
また、映像生成システム１は、シナリオや映像を生成する際、取り替え可能な特定の学習データに基づき、その学習データにしか出せないシナリオや映像を生成してもよい。例えば、これまで制作した映像や画像を基に学習データとして再学習する事が可能である。ＲＡＧやファインチューンングで再学習することで、生成されるシナリオや映像を変化させることができる。すなわち、映像生成システム１は、過去に制作したユーザ個人のデータ（履歴）を再学習することも可能であるし、特定の映画監督の作品を学習データとして再学習したモデルで生成することも可能である。

【0105】

また、その学習データは、個人のＰＣ上で再学習させることも可能であるし、サーバ上で再学習させることも可能である。学習データは、ＬＬＭやDiffusionモデルなど数多くのモデルを学習させるための学習データとなる。全体のシナリオはＡ監督を用いてシナリオ生成したいが、映像のカラーは別のＢ監督を用いてカラーグレーディングを生成したい場合等においては、映像生成システム１は、特定の部分に関して別の学習データで再学習してもよい。

【0106】

＜１－４－４．ＵＳＤ更新例＞
上述したように、映像生成システム１は、ユーザの入力情報と生成されたストーリーボードのテキスト情報に基づき、既存動画の元となる３ＤＣＧアセットやレンダリング方法などを修正する。そして、映像生成システム１は、新しく動画を構成するコード出力のためのプロンプトを出力し、自然言語モデルへプロンプトを提供して、動画を構成するコードを出力し、動画を生成する。これにより、映像生成システム１は、ユーザが３ＤＣＧや映像制作の知識がなくても、ユーザの入力に合わせて映像を修正することができる。

【0107】

映像生成システム１では、映像（動画）を生成した後、シナリオ情報、映像の情報などはテキストや動画として保存されている。そのため、ユーザはこれらの情報を入力情報（テキストやセンサなど）で修正することが可能である。

【0108】

例えば、映像生成システム１では、ＵＳＤファイルは図１８に示すように、アセットやモーションごとにわかれて保存される。図１８は、ＵＳＤファイルの一例を示す図である。例えば、図１８に示すデータ構造において、上位の階層のＵＳＤには下位の階層のＵＳＤへのパス（ファイルパス）が含まれてもよい。

【0109】

例えば、全体ＵＳＤには、環境アセットＵＳＤ、人アセットＵＤＳ、カメラＵＳＤ等へのパスが含まれる。また、環境アセットＵＳＤには、建物アセットＵＳＤ、ＰｒｏｐアセットＵＳＤへのパスが含まれる。また、建物アセットＵＳＤには、建物自体のメッシュ情報等が含まれる。また、人アセットＵＳＤには、人のメッシュ情報、モーションＵＳＤへのパスが含まれる。このように、ＵＳＤファイル等の３ＤＣＧ用のデータ（３Ｄデータ）は、複数のデータセットを含んでもよい。なお、図１８に示すＵＳＤファイルの構成（データ構造）は一例に過ぎず、任意の構成が採用可能であり、全体が一塊（１つのデータセット）のＵＳＤ（ＵＳＤファイル）として構成されてもよい。

【0110】

修正が行われる際は、図１９に示すような処理フローにより、映像生成システム１がユーザの修正情報をＡＩ（ＬＬＭなど）で解析し、ＵＳＤを取り替えるかＵＳＤの一部を修正するかにより、処理が変わる。また、修正後はレンダリング処理とリファイン処理が実行される。図１９は、映像生成システムが実行する処理手順を示すフローチャートである。具体例には、図１９は、ＵＳＤファイルの書き換えに関する処理手順を示すフローチャートである。

【0111】

まず、映像生成システム１は、ユーザの修正情報入力を受け付ける（ステップＳ１０１）。例えば、センサ部３００は、ユーザによる修正を指示する入力情報を受け付ける。映像生成システム１は、ＡＩにて入力を解析する（ステップＳ１０２）。例えば、映像生成モジュール１００は、各種モデル等を用いてユーザによる修正を指示する入力情報の内容を解析する。

【0112】

映像生成システム１は、既存ＵＳＤファイルの形式を認識する（ステップＳ１０３）。例えば、映像生成モジュール１００は、修正前の状態におけるＵＳＤファイルの形式を認識する。映像生成システム１は、ＵＳＤの一部を修正するか否かを判定する（ステップＳ１０４）。例えば、映像生成モジュール１００は、ユーザによる修正を指示する入力情報の内容及び既存ＵＳＤファイルの形式に基づいて、ＵＳＤの一部を修正するか否かを判定する。

【0113】

映像生成システム１は、ＵＳＤの一部を修正する場合（ステップＳ１０４：Ｙｅｓ）、修正用ＵＳＤ－Ｐｙｔｈｏｎ生成のためのプロンプトを生成する（ステップＳ１０５）。例えば、映像生成モジュール１００は、ＵＳＤの一部を修正する場合、修正用ＵＳＤ－Ｐｙｔｈｏｎ生成のためテンプレート等を用いて、修正用ＵＳＤ－Ｐｙｔｈｏｎ生成のためのプロンプトを生成する。

【0114】

映像生成システム１は、ＡＩ（ＬＬＭ等）にてＵＳＤ－Ｐｙｔｈｏｎを生成する（ステップＳ１０６）。例えば、映像生成モジュール１００は、ＵＳＤ－Ｐｙｔｈｏｎを生成するためのモデルに、プロンプトを入力することにより、ＵＳＤ－Ｐｙｔｈｏｎを生成する。

【0115】

映像生成システム１は、修正対象ＵＳＤファイルを置き換える（ステップＳ１０７）。例えば、映像生成モジュール１００は、生成したＵＳＤ－Ｐｙｔｈｏｎを修正対象ＵＳＤファイルに反映することにより、修正対象ＵＳＤファイルを置き換える。このように、映像生成システム１は、ＵＳＤファイルの複数のデータセットのうち少なくとも１つを更新する。例えば、映像生成システム１は、ＵＳＤファイルの複数のデータセットのうち一部を更新する処理を実行する。

【0116】

映像生成システム１は、更新後のＵＳＤファイルを用いてレンダリング処理を実行する（ステップＳ１０８）。例えば、映像生成モジュール１００は、書き換え後、すなわち修正後のＵＳＤファイルを用いてレンダリング処理を実行する。

【0117】

一方、映像生成システム１は、ＵＳＤの一部を修正しない場合（ステップＳ１０４：Ｎｏ）、作成用ＵＳＤ－Ｐｙｔｈｏｎ生成のためのプロンプトを生成する（ステップＳ１０９）。例えば、映像生成モジュール１００は、ＵＳＤの一部を修正しない、すなわちＵＳＤを新たに作成（生成）する場合、作成用ＵＳＤ－Ｐｙｔｈｏｎ生成のためテンプレート等を用いて、作成用ＵＳＤ－Ｐｙｔｈｏｎ生成のためのプロンプトを生成する。

【0118】

映像生成システム１は、ＡＩ（ＬＬＭ等）にてＵＳＤ－Ｐｙｔｈｏｎ及びＵＳＤを生成する（ステップＳ１１０）。例えば、映像生成モジュール１００は、ＵＳＤ－Ｐｙｔｈｏｎを生成するためのモデルに、プロンプトを入力することにより、ＵＳＤ－Ｐｙｔｈｏｎ及びＵＳＤを生成する。

【0119】

映像生成システム１は、修正対象ＵＳＤファイルと置き換える（ステップＳ１１１）。例えば、映像生成モジュール１００は、生成したＵＳＤを、修正対象ＵＳＤファイルと置き換える。このように、映像生成システム１は、ＵＳＤファイルを更新する処理を実行する。例えば、映像生成システム１は、ＵＳＤファイルの複数のデータセット全体を更新する処理を実行する。そして、映像生成システム１は、ステップＳ１０８の処理を実行する。例えば、映像生成モジュール１００は、置き換え後、すなわち修正後のＵＳＤファイルを用いてレンダリング処理を実行する。

【0120】

ここで上述した修正に関するユーザインタフェース（ＵＩ）について記載する。映像生成システム１は、図２０に示すように、コンテンツＣＴ３１をユーザに提供する。図２０は、ユーザインタフェースの一例を示す図である。コンテンツＣＴ３１は、ストーリーボード等、生成した動画に関する情報を提示し、ユーザの修正指示を受け付けるための表示画面（コンテンツ）である。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ３１を表示する。

【0121】

ユーザは、コンテンツＣＴ３１を介して、生成された動画に対しての修正を指示する情報を入力する。例えば、ユーザが動画の特定の部分をクリックし、テキストで修正内容を入力した場合、映像生成システム１は、ＵＳＤを更新し、修正内容が反映された動画に更新（変更）する。

【0122】

図２０では、ユーザが一番上のカット（サムネイル）画像を選択し、「子供がスキップしてお母さんによっていく」という修正を指示した場合を示す。この場合、映像生成システム１は、生成した動画のうち、一番上のカット（サムネイル）画像に対応する部分を、「子供がスキップしてお母さんによっていく」という修正指示を基にＵＳＤを更新し、修正内容が反映された動画を生成する。

【0123】

なお、上記のＵＩは一例に過ぎず、映像生成システム１は、様々な態様によりユーザの修正指示を受け付けてもよい。例えば、映像生成システム１は、図２１に示すように、コンテンツＣＴ３２をユーザに提供し、ユーザの修正指示を受け付けてもよい。図２１は、ユーザインタフェースの一例を示す図である。コンテンツＣＴ３２は、ユーザの修正指示を受け付けるための表示画面（コンテンツ）である。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ３２を表示する。

【0124】

また、映像生成システム１は、図２２に示すように、コンテンツＣＴ３３をユーザに提供し、ユーザの修正指示を受け付けてもよい。図２２は、ユーザインタフェースの一例を示す図である。コンテンツＣＴ３３は、ユーザの修正指示を受け付けるための表示画面（コンテンツ）である。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ３３を表示する。

【0125】

ユーザは、コンテンツＣＴ３２またはコンテンツＣＴ３３を介して、生成された動画に対しての修正を指示する情報を入力する。これにより、映像生成システム１は、ユーザからの修正指示を受け付けて、修正指示を基にＵＳＤを更新し、修正内容が反映された動画を生成する。例えば、ユーザは動画中に出てくる人物や物を選択し、選択した対象に関するモーションの設定をテキストで編集することができる。また、ユーザは選択した対象のアセットを変更することができる。また、ユーザはカメラワークについてもテキストで編集することができる。また、ユーザは上記以外にも、動画の背景や照明の設定をテキストで編集することができる。

【0126】

なお、上記では動画の一例として説明したが、映像生成システム１は、ユーザの修正指示に基づいて、サウンド情報（ＢＧＭ、ＳＥ、ナレーション、セリフなど）やテキストロゴ情報などに対しての修正処理を実行してもよい。

【0127】

＜１－４－５．評価例＞
また、映像生成システム１は、評価処理を実行する。例えば、映像生成システム１は、モデルＭ１０等のＡＩモデルを用いてシナリオデータについての評価テキストを生成する。例えば、映像生成システム１は、シナリオデータについて生成した評価テキストを基に、ユーザが行う編集（修正等）の指示を基に、シナリオデータを再度生成してもよい。映像生成システム１は、生成した評価テキストを提示する。これにより、ユーザは評価を見ながら映像制作を行うことができる。

【0128】

例えば、映像生成システム１は、シナリオデータについての評価テキストをユーザに提示し、提示した評価テキストを確認したユーザからシナリオデータに対する編集の指示を受け付ける。映像生成システム１は、ユーザから受け付けた編集の指示を基に、シナリオデータを生成する。例えば、映像生成システム１は、ユーザから受け付けた編集の指示を基に、シナリオデータの内容を変更（更新）する。映像生成システム１は、評価テキストを基に生成されたシナリオデータを基に、コードを生成する。映像生成システム１は、評価テキストを基に生成されたコードを用いて動画データを生成する。

【0129】

なお、映像生成システム１は、評価テキストを基にシナリオデータまたはコードのうち少なくとも１つを自動で生成（更新）してもよい。例えば、映像生成システム１は、シナリオデータについての評価テキストが示す内容に対応するようにシナリオデータの内容を変更してもよい。例えば、映像生成システム１は、シナリオデータについての評価テキストがある登場人物の向きが良くないことを示す場合、その登場人物の向きを変更したシナリオデータを生成する。なお、上記は一例に過ぎず、映像生成システム１は、評価テキストを適宜用いて、シナリオデータまたはコードのうち少なくとも１つを生成してもよい。

【0130】

映像生成システム１では、映像（動画）を生成した後、シナリオ情報、映像の情報、音情報、テキスト／ロゴ情報などはテキストや動画ファイル、サウンドファイル、画像ファイルなどで保存されている。そのため、映像生成システム１は、これらの情報を用いた評価処理を行うことが可能である。映像生成システム１は、ユーザの入力情報と生成されたストーリーボードのテキスト情報、評価テキストに基づき、既存動画の元となる３ＤＣＧアセットやレンダリング方法などを修正し、新しく動画を構成するコード出力のためのプロンプトを出力し、自然言語モデルへプロンプトを提供して、動画を構成するコードを出力し、動画を生成する。例えば、映像生成システム１は、ユーザの入力情報と生成されたストーリーボードのテキスト情報に基づき、評価テキスト（図５中の評価テキスト情報ＥＶ１に対応）を生成するためのプロンプトを出力し、自然言語モデルへプロンプトを提供して評価テキストを生成してもよい。例えば、映像生成システム１は、シナリオの評価については、シナリオ情報を基に評価のためのプロンプトを生成しＡＩ（ＬＬＭ等）に入力することで、シナリオの評価を示す評価テキストを生成してもよい。

【0131】

また、映像生成システム１は、映像の構成の評価については、動画の１フレームをＡＩ（Contrastive Captioner Model、Image Captioning Modelなど）に入力することで動画のキャプションを取得する。そして、映像生成システム１は、取得したキャプションとシナリオ文をＡＩ（ＬＬＭ等）に入力することで、映像の構成の評価を示す評価テキストを生成する。例えば、映像生成システム１は、取得したキャプションとシナリオ文をＡＩ（ＬＬＭ等）で比較することでキャプション通りの画になっているかを評価してもよい。また、映像生成システム１は、ユーザが評価をして欲しいと希望する評価者像の指定を受け付けてもよい。例えば、映像生成システム１は、マーケット戦略、コピーライター、映像監督、特定の人などの視点で評価を行ってもよい。

【0132】

＜１－４－６．複数カットの選択例＞
ここから、編集処理についていくつか例示を記載する。従来技術では、ストーリーボード上では複数カットを同時に修正できないという課題がある。このように、従来技術には、ユーザビリティに関する課題があり、ユーザビリティの改善の余地がある。そこで、映像生成システム１は、図２３に示すように、複数のカットを選択して編集処理（修正処理）を行ってもよい。図２３は、編集処理の一例を示す図である。具体例には、図２３は、複数カットの選択に基づく編集処理の一例を示す図である。

【0133】

映像生成システム１は、図２３に示すように、コンテンツＣＴ４１をユーザに提供し、ユーザの複数カットの選択に応じた修正指示を受け付けてもよい。コンテンツＣＴ４１は、カットＣＵ１～ＣＵ４等の複数のカット（シーン）を含む動画に対するユーザの修正指示を受け付けるための表示画面（コンテンツ）である。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ４１を表示する。

【0134】

ユーザは、コンテンツＣＴ４１を介して、カットＣＵ１～ＣＵ４のうち、複数のカットを選択し、選択した複数のカットに対しての修正を指示する情報を入力する。例えば、ユーザは、コンテンツＣＴ４１中のカットＣＵ１～ＣＵ４のうち、カットＣＵ１～ＣＵ３が表示された範囲を選択する操作（線で囲む操作等）を行うことやカットＣＵ１～ＣＵ３の各々をクリックすること等により、カットＣＵ１～ＣＵ３を選択する。

【0135】

そして、ユーザは、カットＣＵ１～ＣＵ３を選択した後に、修正指示を示すプロンプト（文字情報等）を、ユーザの入力情報として入力することにより、映像生成システム１にカットＣＵ１～ＣＵ３を対象とした修正を指示する。映像生成システム１は、ユーザからの修正指示に応じて、カットＣＵ１～ＣＵ３を対象とした修正を実行する。これにより、ユーザは、複数のカットを選択し、プロンプトを入力することで選択されたカットの構成やカット内容を修正することができる。例えば、各カットのシナリオ情報には、カットの内容、登場人物、カット撮影時間帯などが含まれており、映像生成システム１は、ユーザの入力情報とシナリオ情報をＡＩ（ＬＬＭなど）に与えることで、シナリオを再生成する。なお、映像生成システム１は、ユーザの修正指示の内容に基づいて、任意の修正処理を実行する。例えば、映像生成システム１は、必要に応じて映像のＵＳＤファイルを更新してもよいし、ＵＳＤファイルはそのままでカットの順番のみを変更してもよい。上述した処理により、映像生成システム１は、ユーザビリティを向上させることができる。

【0136】

＜１－４－７．時間情報の利用例＞
従来技術では、特定のカットの修正後、その修正の影響を受ける他のシーンが修正（変更）されないという課題がある。このように、従来技術には、ユーザビリティに関する課題があり、ユーザビリティの改善の余地がある。そこで、映像生成システム１は、図２４に示すように、時間情報を用いて編集処理を行ってもよい。図２４は、編集処理の一例を示す図である。具体例には、図２４は、時間情報に応じて決定した修正内容に基づく編集処理の一例を示す図である。例えば、映像生成システム１は、各カットにＡＩが生成した日付時間情報（「時間情報」または「日付情報」ともいう）を入れておき、その情報を基に映像のカット割りや修正内容を決定する。

【0137】

図２４では、映像生成システム１は、各カットにそのカットに対応する日付時間情報（時間情報）を対応付けて管理する。例えば、カットＣＵ１１には２０２３年１２月２１日１０時３１分を示す時間情報ＴＩ１１が対応付けられる。また、カットＣＵ１２には２０２３年１２月２１日１０時４１分を示す時間情報ＴＩ１２が対応付けられる。このように、カットＣＵ１１及びカットＣＵ１２は、時間的に近い（近接した）カットである。この場合、映像生成システム１は、カットＣＵ１１が修正された場合、その修正をカットＣＵ１２にも反映する。動画データの各カットには時間情報（日付情報）が対応付けられている。

【0138】

例えば、映像生成システム１は、カットＣＵ１１での人物Ｘの服装が修正された場合、カットＣＵ１１での人物Ｘの服装と同じようにカットＣＵ１２での人物Ｘの服装も修正する。例えば、映像生成システム１は、各カット間の時間情報を比較し、修正されたカット（「修正対象カット」ともいう）との時間差が所定の範囲内であるカット（「影響カット」ともいう）がある場合、修正対象カットでの修正内容に基づく修正を、その影響カットにも反映すると決定する。

【0139】

そして、映像生成システム１は、修正対象カットでの修正内容に基づく修正を影響カットに対して実行する。なお、このカット間の影響に基づく影響カットの修正（変更）については、映像生成システム１は、人アセットのみに限らず、環境アセット（天候、ライティング、時間経過で変化するろうそく等のプロップ等）にも行ってもよい。

【0140】

例えば、カットＣＵ２１には２０２３年１２月２１日１０時３１分を示す時間情報ＴＩ２１が対応付けられる。また、カットＣＵ２２には２０２３年１２月２１日１８時４１分を示す時間情報ＴＩ２２が対応付けられる。このように、カットＣＵ２１及びカットＣＵ２２は、時間的に遠い（離間した）カットである。この場合、映像生成システム１は、カットＣＵ２１が修正された場合、その修正をカットＣＵ２２には反映しない。

【0141】

例えば、映像生成システム１は、カットＣＵ２１での人物Ｘの服装が修正された場合、カットＣＵ２１での人物Ｘの服装の修正に応じて、カットＣＵ２２での人物Ｘの服装は修正しない。例えば、映像生成システム１は、各カット間の時間情報を比較し、修正されたカット（修正対象カット）との時間差が所定の範囲内であるカット（影響カット）がない場合、修正対象カットでの修正内容に基づく修正を他のカットには反映しないと決定する。

【0142】

例えば、映像生成システム１は、シナリオ生成時に、各カットに日付時間情報もＡＩ（ＬＬＭなど）で生成しておき、各カットのメタ情報として保存しておく。この日付時間情報は前後のカットとの関係性を考えるためや、季節などを把握するために利用される。生成された架空の日付時間情報は、各カットの内容や各カット間の関係性を保つために入れておく。例えば、映像生成システム１は、雪が降っている朝のショットだとすると、１月２４日午前６時３０分などとする。また、例えば、映像生成システム１は、前後のカットの関係性が強いショットだとすると、１月２４日午前６時３０分と１月２４日午前７時など同日の近い時間帯とする。

【0143】

例えば、映像生成システム１は、季節や時間に応じてユーザの着ている服、太陽のライティング設定、空気のモヤなどを変化させる。また、対象カットと前のカットの日付時間情報が近い場合、対象カットを変更すると前後のカットも影響を受ける。例えば、同じ人物が別カットに出演し、対象カットと時間が近い場合、対象カットの服を変更すると別カットの服も変更される。上述した処理により、映像生成システム１は、ユーザビリティを向上させることができる。

【0144】

＜１－４－８．言語化の度合いに応じた応答例＞
従来技術では、修正内容をユーザが具体的に言語化できない場合、ユーザの意図に沿った修正が難しいという課題がある。このように、従来技術には、ユーザビリティに関する課題があり、ユーザビリティの改善の余地がある。そこで、映像生成システム１は、以下に示すような処理により、修正内容をユーザが具体的に言語化できない場合であっても、ユーザの意図に沿った修正を可能にしてもよい。

【0145】

例えば、映像生成システム１は、入力された文章に応じて、返答方式を変化させてもよい。映像生成システム１は、図２５に示すように、ユーザの指示の抽象度、言語化の度合いに応じて応答を異ならせてもよい。図２５は、編集処理の一例を示す図である。具体例には、図２５は、言語化の度合いに応じた編集処理の一例を示す図である。

【0146】

図２５中の応答例ＡＰ１は、「見るユーザが日常を感じる映像にしてください」といった目的ベースの修正指示をユーザが行った場合を示す。この場合、映像生成システム１は、具体的な指示の文章を添えて映像を生成する。例えば、映像生成システム１は、「見るユーザが日常を感じる映像にしてください」といった目的ベースの修正指示に対して、「手を自然な角度で下に下げ、体の向きに合わせて動かします。」という文章を添えて、その文章を基に修正した映像をディスプレイ等に表示することにより、ユーザに対して提示する。

【0147】

また、図２５中の応答例ＡＰ２は、「両腕を自然な状態にして下さい」といった抽象的な文章の修正指示をユーザが行った場合を示す。この場合、映像生成システム１は、具体的な文章を複数提示し、ユーザに選択させる。例えば、映像生成システム１は、「手を下に下ろして、空上の向きに合わせて動かします」、「手で頭をかいて、その後手を下ろします」、「ポケットに手を入れます」等の複数の文章をディスプレイ等に表示することにより、ユーザに対して提示する。そして、映像生成システム１は、複数の文章のうちユーザが選択した文章を基に修正した映像をディスプレイ等に表示することにより、ユーザに対して提示する。

【0148】

図２５中の応答例ＡＰ３は、「２秒で右前の車の方を見るようにして下さい」といった具体的な文書の修正指示をユーザが行った場合を示す。この場合、映像生成システム１は、ユーザが入力した文章通りに変更（修正）した映像をディスプレイ等に表示することにより、ユーザに対して提示する。例えば、目的ベースの文章、抽象的な文章、具体的な文章の違いは、ＡＩ（ＬＬＭなど）により判断され、映像生成システム１は、それに応じて生成するプロンプトを変えてＡＩ（ＬＬＭなど）に処理を投げてもよい。

【0149】

例えば、映像生成システム１は、センサ用いてモーションやカメラの動きをユーザに指定させてもよい。映像生成システム１は、図２６に示すように、Ｗｅｂカメラ等の任意のセンサから得たモーション情報を映像に重畳表示（重ねて表示）し、ユーザの修正を受け付けてもよい。図２６は、編集処理の一例を示す図である。具体例には、図２６は、映像への重畳表示による編集処理の一例を示す図である。

【0150】

例えば、映像生成システム１は、モバイルモーションキャプチャ、Ｗｅｂカメラ等の任意のセンサから得たモーション情報ＭＴを映像ＭＶ１１に重畳させて表示し、ユーザの修正指示を受け付ける。このように、映像生成システム１は、顔表情等を含むモーション情報を現在の映像の上に重ねて表示することにより、現在の映像とモーション情報との差異を可視化した状態を基に、ユーザの修正指示を受け付ける。例えば、４秒のカットであれば、常に４秒のカットが再生され続け、ユーザは気に入るまで何度も自分でモーション情報を変更することができる。例えば、ユーザが気に入ったモーション情報がある場合、映像生成システム１は、自然なモーション情報を最終生成して映像のモーションを変更してもよい。

【0151】

ユーザのモーションはモバイルモーションキャプチャ、Ｗｅｂカメラなどでトラッキングされる。また、ユーザはどの人物のモーションを修正するかは、事前にＵＩからマウスで選択してもよい。映像中の頭と体の大きさや向きより、重ねる自分のモーション表示部分の大きさと位置向きを決定する。細かい大きさと位置向きの調整は、ユーザがマウスとキーボードで入力して調整してもよい。モーションの録画は、上記画像に記載したカットが繰り返し際される方法もありうるし、スタートボタンを押してから体勢を整えるまでの数秒後に録画が開始する方法もありうる。また、撮影後、ユーザがモーション生成ボタンを押すことで、入力したモーションが指定した登場人物に適応されてもよい。

【0152】

また、撮影したモーション自体は不自然であることもありうるので、映像生成システム１は、撮影したモーションをmotion to motionのＡＩを用い、モーション推定や生成などを行い、より自然なモーションに変換してから登場人物のモーションに適応してもよい。また、映像生成システム１は、入力したモーションと自然文を用い、モーションを推定したり生成したりしてもよい。例えば、映像生成システム１は、モーションを入力後、ユーザが入力した「こんな感じで活き活きとした動きにする」などの自然文と共にＡＩ（ＬＬＭ、text&motion to motion生成のモデルなど）に処理を投げてもよい。

【0153】

また、ユーザは、自身の手をカメラと見立てて動かして、カメラワークを変更してもよい。例えば、映像生成システム１は、ユーザの手の動きをＷｅｂカメラ等のセンサで取得する。映像生成システム１は、図２７に示すように、変更したカメラワークを枠として映像に重ねて提示（重畳表示）する。図２７は、編集処理の一例を示す図である。具体例には、図２７は、映像へのカメラワークの重畳表示の一例を示す図である。

【0154】

例えば、映像生成システム１は、変更前のカメラワークを示す枠ＣＷ１と変更後のカメラワークを示す枠ＣＷ２とを映像ＭＶ１２に重畳させて表示する。そして、映像生成システム１は、ユーザが変更後のカメラワークを用いることを指示した場合、その変更後のカメラワークを基にレンダリング処理を実行する。このように、ユーザが変更後のカメラワークをＯＫとして、その変更後のカメラワークに映像がレンダリングされる。

【0155】

また、ユーザは、自身の携帯端末（スマートフォン等）のＩＭＵやＩｍａｇｅＳＬＡＭ等を用いてカメラワークを指定してもよい。例えば、映像生成システム１は、ＡＲ（Augmented Reality）でメインキャラクターを実空間（現実の机の上等）に配置して提示してもよい。映像生成システム１は、変更したカメラワークを図２７に示す場合と同様に映像に枠を重ねて表示する。

【0156】

上記のように、映像生成システム１では、ユーザが手やスマホの動きを使い、モーションやカメラの動きを決めてもよい。例えば、ユーザが手の動きでカメラワークを決める際、もう一方の手で指定した人物を想定し、左手（カメラ）と右手（人物）の距離から、カメラの相対的な位置を決めてもよい。また、映像生成システム１は、ユーザが手やカメラの入力で変更したカメラワークを枠として映像に重ねて表示するが、その後、ユーザがマウス操作で枠やその動きを微調整してもよい。また、入力したカメラワークは手で入れているため不自然な動きである可能性もあるため、映像生成システム１は、motion to motion生成モデル、text&motion to motion生成モデル等を用いて、自然なカメラワークに修正してもよい。上述した処理により、映像生成システム１は、ユーザビリティを向上させることができる。

【0157】

＜１－４－９．定性的な値の利用例＞
従来技術では、現状や変更履歴をシステムとしてどのように判断するのかという点については考慮されていない場合があった。例えば、「もう少し後ろに立って」や「もう少し明るくして」など、現状と比較して調整したいという場合等があり、システム的にどのように現状を理解（把握）するかについては課題がある。このように、従来技術には、ユーザビリティに関する課題があり、ユーザビリティの改善の余地がある。そこで、映像生成システム１は、以下に示すような処理により、現状や変更履歴を適切に判断可能にしてもよい。

【0158】

例えば、映像生成システム１は、動き速度、明るさなど各ポイントを、定量的な数値として保持しておき、その値を比較して映像を修正してもよい。映像生成システム１は、図２８に示すように、定性的な値を用いて編集処理を行ってもよい。図２８は、編集処理の一例を示す図である。具体例には、図２８は、定性的な値に応じて決定した修正内容に基づく編集処理の一例を示す図である。

【0159】

図２８では、値情報ＶＬ２１は映像ＭＶ２１に対応づけられた定量的な値を示す。例えば、値情報ＶＬ２１は、町全体の明るさ、人の歩行スピード、人の顔を動かすスピード、人の位置、車のスピード、車の位置等の定性的な値を含み、映像ＭＶ２１のカット等に対応づけられる値を示す。このように、映像生成システム１は、変更されうる値は全て定量的な値として保持しておき、その値と比較して映像を変更する。

【0160】

図２８では、映像ＭＶ２１について、ユーザが「顔をもう少しゆっくり動かして」という修正指示を行い、映像生成システム１は、映像ＭＶ２１の顔を動かすスピードを遅くした映像ＭＶ２２を生成する。映像生成システム１は、「顔をもう少しゆっくり動かして」という修正指示を基に、映像ＭＶ２１の値情報ＶＬ２１のうち人の顔を動かすスピードの値を「２１」から「１０」に減少させた値情報ＶＬ２２の映像ＭＶ２２を生成する。

【0161】

図２８では、値情報ＶＬ２２は修正後の映像ＭＶ２２に対応づけられた定量的な値を示す。例えば、値情報ＶＬ２２は、町全体の明るさ、人の歩行スピード、人の顔を動かすスピード、人の位置、車のスピード、車の位置等の定性的な値を含み、映像ＭＶ２２のカット等に対応づけられる値を示す。

【0162】

このように、映像生成システム１は、定性的な値を用いて映像の編集処理を行ってもよい。例えば、映像生成システム１は、動き速度、明るさなど各ポイント（項目）について、定量的な数値として保持しておき、その値を比較して映像を修正する。上述したように、定性的な値を保持しておく街全体の明るさ、人の歩行スピードなどの分類は、事前に設定された項目である。例えば、映像生成システム１は、各々を自然言語からＡＩ（ＬＬＭなど）を使って設定修正してもよいし、設定値を直接修正してもよい。上述した処理により、映像生成システム１は、ユーザビリティを向上させることができる。

【0163】

また、それぞれの値の取得方法の一例を以下に示すが、取得方法は以下に限らず他の取得方法であってもよい。例えば、映像生成システム１は、ライティングについては、３ＤＣＧ内のライトの設定値（位置、回転、強さ、色など）を取得する。また、映像生成システム１は、カラーグレーディングについては、コンポジット編集で設定された、ホワイトバランス、色温度、色かぶり補正、彩度、露光量、コントラスト、ハイライト、シャドウ、白レベル、黒レベル、カラー、ＬＵＴ設定などを取得する。また、映像生成システム１は、歩行スピードについては、対象の3Dモデルの腰のボーンの位置移動速度を取得する。また、映像生成システム１は、顔を動かすスピードについては、頭のボーンの回転速度を取得する。また、映像生成システム１は、位置については、３Ｄモデルの位置を取得する。

【0164】

＜１－４－１０．入力途中でのレンダリング処理例＞
従来技術では、レンダリング時間を待つのがユーザにとって大変（ユーザビリティが低い）という課題がある。このように、従来技術には、ユーザビリティに関する課題があり、ユーザビリティの改善の余地がある。そこで、映像生成システム１は、以下に示すような処理により、レンダリングに関するユーザビリティを向上させてもよい。

【0165】

例えば、映像生成システム１は、テキスト入力途中からレンダリング処理を開始してもよい。映像生成システム１は、図２９に示すように、ユーザの入力途中でレンダリング処理を行ってもよい。図２９は、編集処理の一例を示す図である。具体例には、図２９は、入力途中でのレンダリング処理に基づく編集処理の一例を示す図である。

【0166】

図２９では、映像生成システム１は、ユーザが「手で頭を掻いて」というテキストＴＸ３１の入力に応じて、レンダリング処理等を実行し映像ＭＶ３１を表示する。例えば、テキストＴＸ３１中の末尾の「｜」はユーザが修正指示を入力途中であることを示す。映像生成システム１は、文章として理解できるようになったら一旦バックグラウンドで処理を開始する。例えば、映像生成システム１は、「手で頭を掻いて」までを入力した時点で、バックグラウンドでレンダリング処理等を開始する。このように、映像生成システム１は、ユーザがテキストを入力している途中でレンダリング処理を開始してもよい。

【0167】

図２９では、ユーザは、テキストＴＸ３１から「手をおろして」というテキストＴＸ３２に文章を変更する。例えば、テキストＴＸ３２中の末尾の「｜」はユーザが修正指示を入力途中であることを示す。映像生成システム１は、テキストＴＸ３１からテキストＴＸ３２の変更に応じて、処理を実行する。例えば、映像生成システム１は、文章が変更されたら、その時点で行っている処理を止めて再度処理をやり直す。例えば、映像生成システム１は、テキストＴＸ３１を基に行っていた処理を終了し、テキストＴＸ３２を基に、レンダリング処理等を実行し映像ＭＶ３２を表示する。

【0168】

図２９では、ユーザは、テキストＴＸ３２から「手をおろして、自然な感じで」というテキストＴＸ３３に変更して、文章として完成させ、開始ボタン等を押すこと等により処理の実行を指示する。映像生成システム１は、始まっているバックグラウンド処理を終わらせて、テキストＴＸ３３を基にレンダリング処理等が実行された映像ＭＶ３３を表示する。上述した処理により、映像生成システム１は、ユーザビリティを向上させることができる。

【0169】

＜１－４－１１．編集時の確認作業例＞
従来技術では、編集時の確認作業についてはユーザビリティが低いなどの課題があり改善の余地があった。そこで、映像生成システム１は、図３０に示すように、編集時の確認作業を行ってもよい。図３０は、編集処理の一例を示す図である。具体例には、図３０は、編集時の確認作業の一例を示す図である。

【0170】

図３０中の確認作業ＣＰ１は、モーションやカメラワークなどの時間軸方向の変化を見る必要がある場合の確認作業の一例を示す。例えば、確認作業ＣＰ１では、ユーザは理想に近い動画を選ぶことを繰り返す。また、図３０中の確認作業ＣＰ２は、時間軸方向の変化を見る必要がある場合以外の確認作業の一例を示す。例えば、確認作業ＣＰ２では、ユーザは理想に近い画像を選ぶことを繰り返す。

【0171】

例えば、映像生成システム１は、全てのカットの画像をレンダリングした後、編集したいものから動画のレンダリングを実施してもよい。例えば、映像生成システム１は、生成した動画をユーザに提示し、入力情報の編集を行うかどうかをユーザに判断させてもよい。例えば、確認作業ＣＰ１、ＣＰ２等に示すように、ユーザの入力情報に対してバリエーションをもたせた数パターンの動画の生成結果をユーザに提示する場合、複数の動画をレンダリングするための待ち時間が生じるという課題がある。このように、従来技術には、ユーザビリティに関する課題があり、ユーザビリティの改善の余地がある。

【0172】

そこで、映像生成システム１は、その待ち時間を低減するために、時間軸方向の変化を見る必要がある確認作業以外の作業（確認作業ＣＰ２に対応）については、動画中の１フレームないしは数フレームのみをレンダリングし、画像としてユーザに候補を提示する。これにより、映像生成システム１は、レンダリング待ち時間を低減することができる。

【0173】

また、映像生成システム１は、ユーザがモーションやカメラワークの編集作業を行う場合は動画による候補提示を行う。例えば、レンダリングに用いる動画中の数フレームを選択する方法として、単純に動画の先頭と最後の２フレームのみをレンダリングする方法、ＵＳＤファイル内のアニメーションの変化量が大きいフレームを数フレームレンダリングする方法、ＡＩに全てのフレームの中でハイライトとして表示すべきフレームを選択させる方法などが挙げられる。例えば、映像生成システム１では、複数枚画像をレンダリングした場合はユーザがマウスカーソルをホバーすることでパラパラ漫画のような形で生成結果を確認することができる。

【0174】

また、映像生成システム１は、動画生成については、候補選択用の画像生成を終えた段階で、順次、各パターンの動画生成を開始することで動画プレビュー時の待ち時間を軽減することができる。パターンごとの動画生成の順番については、ランダムな順番で生成する方法の他に、ユーザがＵＩ上のボタンを押すことでレンダリング順番を選ぶ方法、マウスカーソルが画像上にホバーされた時間が長い順番にレンダリングする方法などが挙げられる。上述した処理により、映像生成システム１は、ユーザビリティを向上させることができる。

【0175】

ここで、上述した確認作業に関する処理フローの一例について図３１を用いて説明する。図３１は、映像生成システムが実行する処理手順を示すフローチャートである。具体例には、図３１は、編集処理に関する処理手順を示すフローチャートである。

【0176】

図３１では、映像生成システム１は、ユーザの設定からＵＳＤファイルを数パターン生成する（ステップＳ２０１）。映像生成システム１は、すべてのパターンのＵＳＤファイルの画像書き出しが終了している場合（ステップＳ２０２：Ｙｅｓ）、ファイルの画像書き出しについての処理（例えばステップＳ２０２～Ｓ２０４）を終了する。

【0177】

映像生成システム１は、すべてのパターンのＵＳＤファイルの画像書き出しが終了していない場合（ステップＳ２０２：Ｎｏ）、書き出しが完了していないＵＳＤファイルの画像を書き出す（ステップＳ２０３）。映像生成システム１は、書き出した画像をＵＩ上に表示する（ステップＳ２０４）。その後、映像生成システム１は、ステップＳ２０５以降の処理を開始するとともに、ファイルの画像書き出しが終了するまでステップＳ２０２～Ｓ２０４の処理を繰り返す。

【0178】

映像生成システム１は、すべてのパターンのＵＳＤファイルの動画書き出しが終了している場合（ステップＳ２０５：Ｙｅｓ）、ファイルの動画書き出しについての処理（例えばステップＳ２０５～Ｓ２０７）を終了する。

【0179】

映像生成システム１は、すべてのパターンのＵＳＤファイルの動画書き出しが終了していない場合（ステップＳ２０５：Ｎｏ）、書き出しが完了していないＵＳＤファイルの動画を書き出す（ステップＳ２０６）。映像生成システム１は、書き出した動画をＵＩ上に表示する（ステップＳ２０７）。その後、映像生成システム１は、ファイルの動画書き出しが終了するまでステップＳ２０５～Ｓ２０７の処理を繰り返す。

【0180】

＜１－４－１２．範囲選択に応じた処理例＞
従来技術では、映像（動画）生成について経験（知見）が無い人（「素人」ともいう）が動画を作ろうとした場合、何が良くて何が悪いのかを判断することが難しく、判断を誤る場合も多いという課題がある。このように、従来技術には、ユーザビリティに関する課題があり、ユーザビリティの改善の余地がある。そこで、映像生成システム１は、図３２に示すように、生成された動画について評価を行ってもよい。図３２は、範囲選択に応じた評価処理の一例を示す図である。

【0181】

図３２では、映像生成システム１は、範囲選択に応じた評価処理を行う。図３２中の映像ＭＶ４０は、ユーザ入力に応じて生成された動画を示す。図３２中の映像ＭＶ４１は、ユーザが評価してほしい範囲として人の部分を指定し、その範囲に対する映像生成システム１による評価を示すテキストＴＸ４１が重畳表示された状態を示す。図３２では、映像生成システム１は、ユーザが指定した人の部分に対して、「この人の顔の表情を見せたほうがユーザーに感情が伝わりやすい」というテキストＴＸ４１が示す評価（修正案の提示）を行う。

【0182】

図３２中の映像ＭＶ４２は、映像生成システム１による評価を示すテキストＴＸ４２がさらに重畳表示された状態を示す。図３２では、映像生成システム１は、ユーザが指定した人の部分に対して、「演出の観点だと顔を真正面から捉えた方が良い」というテキストＴＸ４２が示す評価を行う。

【0183】

例えば、テキストＴＸ４２が示す評価をユーザが良いと思い、映像生成システム１は、その評価に基づく修正指示のユーザから受け付ける。そして、映像生成システム１は、テキストＴＸ４２が示す評価に対応する複数の候補動画ＭＶ４３、ＭＶ４４、ＭＶ４５を生成し、表示する。これにより、映像生成システム１は、テキストＴＸ４２が示す評価に対応する複数の候補動画ＭＶ４３、ＭＶ４４、ＭＶ４５をユーザに提示する。

【0184】

例えば、ユーザはマウスで範囲を指定し、映像生成システム１は、指定された範囲に対する評価を行いユーザとの対話（議論）を開始する。映像生成システム１は、マウスでの範囲選択に応じて、その範囲を対象としてＡＩによる評価を開始する。例えば、映像生成システム１は、ユーザが修正を指示するまでの間、Ｎ秒に１回の評価（修正案の提示）を行う。ユーザが良いと思ったところで、マウスでクリックすることにより、映像生成システム１は、それまでの対話（議論）を踏まえた修正候補を複数提示する。上述した処理により、映像生成システム１は、ユーザビリティを向上させることができる。

【0185】

＜１－４－１３．被写界深度に応じた処理例＞
従来技術では、環境アセットのポリゴン数が高かったり、テクスチャの解像度が高かったりしてアセットが重い場合、レンダリングに要する時間の増大を抑制することが難しいという課題がある。このように、従来技術には、ユーザビリティに関する課題があり、ユーザビリティの改善の余地がある。そこで、映像生成システム１は、図３３に示すように、被写界深度に応じた処理を行ってもよい。図３３は、被写界深度に応じた処理の一例を示す概念図である。

【0186】

図３３では、映像生成システム１は、被写界深度に応じて、被写体の前後所定の範囲内については高ポリゴン数、高解像度テクスチャにし、被写体の前後所定の範囲内については低ポリゴン数、低解像度テクスチャにする。図３３では、高ポリゴン数、高解像度テクスチャの対象物（被写体に近い丸）を濃いハッチングで示し、低ポリゴン数、低解像度テクスチャの対象物（被写体から遠い丸）を薄いハッチングで示す。このように、映像生成システム１は、被写界深度に応じて、ポリゴン数やテクスチャ解像度を変更する。映像生成システム１は、以下のような式（１）～（３）により、被写界深度を算出する。

【0187】

【数1】

【0188】

【数2】

【0189】

【数3】

【0190】

式（１）は、前方被写界深度（ｍｍ）を算出する関数である。映像生成システム１は、式（１）を用いて、前方被写界深度を算出する。例えば、図３３では、が前方被写界深度は、被写体の前方側（カメラに近づく側）に対応する。また、式（２）は、後方被写界深度（ｍｍ）を算出する関数である。映像生成システム１は、式（２）を用いて、後方被写界深度を算出する。例えば、図３３では、が後方被写界深度は、被写体の後方側（カメラから離れる側）に対応する。式（３）は、被写界深度を算出する関数である。像生成システム１は、式（３）を用いて、前方被写界深度と後方被写界深度とを足し合わせることにより、被写界深度を算出する。

【0191】

例えば、映像生成システム１は、前方被写界深度よりカメラに近い部分、後方被写界深度よりカメラから遠い部分に関して、レンダリング前にポリゴン数やテクスチャ解像度を落としたものに差し替えておく。例えば、映像生成システム１は、被写界深度的にボケを作る場合、ポリゴン数やテクスチャ解像度を小さく（低く）する。このように、映像生成システム１は、焦点距離、Ｆ値、被写体距離等の基準に、ポリゴン数やテクスチャ解像度を決定する。例えば、映像生成システム１は、上記の決定をＵＳＤファイル生成時に行ってもよい。上述した処理により、映像生成システム１は、ユーザビリティを向上させることができる。

【0192】

＜１－４－１４．確認作業時の再生処理例＞
従来技術では、生成された動画を全て再生して確認する場合、確認作業に要する時間の増大を抑制することが難しいという課題がある。このように、従来技術には、ユーザビリティに関する課題があり、ユーザビリティの改善の余地がある。そこで、映像生成システム１は、確認作業時に適した再生を行ってもよい。映像生成システム１は、ユーザの操作に応じて再生の態様を変更してもよい。例えば、映像生成システム１は、ユーザの操作に応じて、パラパラ漫画のような態様で動画を再生してもよい。

【0193】

映像生成システム１は、ユーザによるクリックやマウスホイール回転ごとに所定の秒数（例えば０．５秒）だけ動画の再生を進めてもよい。例えば、映像生成システム１は、マウスやマウスホイールの動きや位置に応じて、カット内のコマ送りをする。映像生成システム１は、図３４に示すように、マウスの位置に対応する秒数だけ動画の再生を進めてもよい。

【0194】

図３４では、映像生成システム１は、コンテンツＣＴ４１をユーザに提供し、ユーザによる動画を進める度合い（秒数、フレーム数等）の指示を受け付けてもよい。コンテンツＣＴ４１は、ユーザによるユーザの動画を進める度合いを受け付けるための表示画面（コンテンツ）である。コンテンツＣＴ４１は、動画に重畳させて、動画を進める秒数を指定するための情報を配置する。図３４では、０～３．５秒の間で指定可能であり、左から右に行くほど動画を進める秒数が大きくなる場合を示す。例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ４１を表示する。

【0195】

ユーザは、コンテンツＣＴ４１を介して、動画を再生する際に動画を進める秒数を指定する情報を入力する。図３４では、ユーザはマウスを操作して、マウスカーソルＭＳを１．０と表示された領域に位置させることに動画を進める秒数を１．０秒に指定する。この場合、映像生成システム１は、ユーザからの動画を進める秒数の指定に応じて、動画を１．０秒の間隔で再生を進める。なお、ユーザはマウスを操作して、マウスカーソルＭＳを１．０と表示された領域に位置させ、クリックすること等により、動画を進める秒数を１．０秒に指定してもよい。上述した処理により、映像生成システム１は、ユーザビリティを向上させることができる。

【0196】

＜１－４－１５．強調表示例＞
従来技術では、動画のうち編集等により変更された生成された部分が分かりづらい場合があり、確認作業に要する時間の増大を抑制することが難しいという課題がある。このように、従来技術には、ユーザビリティに関する課題があり、ユーザビリティの改善の余地がある。そこで、映像生成システム１は、図３５に示すように、強調表示を行ってもよい。図３５は、変更部分の強調表示の一例を示す図である。例えば、映像生成システム１は、前回の生成結果と変化された部分を強調表示する。図３５では映像中の女性が変更された場合を一例として説明する。

【0197】

図３５中の映像ＭＶ５１は、第１の強調表示態様を示す。映像ＭＶ５１は、変更された箇所以外を暗くする（明度を下げる等）ことにより、変更された箇所を強調表示する態様を示す。映像生成システム１は、映像ＭＶ５１を生成し、映像ＭＶ５１を表示することにより、編集等により変更された部分を強調表示する。

【0198】

また、図３５中の映像ＭＶ５２は、第２の強調表示態様を示す。映像ＭＶ５２は、変更された箇所をハイライトする（色を付ける等）ことにより、変更された箇所を強調表示する態様を示す。映像生成システム１は、映像ＭＶ５２を生成し、映像ＭＶ５２を表示することにより、編集等により変更された部分を強調表示する。このように、映像ＭＶ５１、ＭＶ５２は、人の部分が変更された場合にその部分を強調表示する場合を示す。

【0199】

図３５中の映像ＭＶ５３は、第３の強調表示態様を示す。映像ＭＶ５３は、変更があった時間をシークバー上に示すことにより、変更された箇所を強調表示する態様を示す。映像生成システム１は、変更があった時間に対応する位置に色付けした点ＨＬ５３１及び点ＨＬ５３２が配置されたシークバーを含む映像ＭＶ５３を生成し、映像ＭＶ５３を表示することにより、編集等により変更された部分を強調表示する。

【0200】

図３５中の映像ＭＶ５４は、第４の強調表示態様を示す。映像ＭＶ５４は、変更があった時間をシークバー上に示すことにより、変更された箇所を強調表示する態様を示す。映像生成システム１は、変更があった時間帯に対応する範囲に位置に色付けしたバーＨＬ５４が配置されたシークバーを含む映像ＭＶ５４を生成し、映像ＭＶ５４を表示することにより、編集等により変更された部分を強調表示する。

【0201】

上述したように、ユーザが動画生成に関わる設定を行い動画の再生成を行った際には、生成された動画の確認作業が必要になる。複数の生成結果を提示するようなＵＩでは、それぞれの動画をひとつずつ確認する動作のユーザ負担が大きい。そこで、動画の確認作業の負担を軽減するために、映像生成システム１は、前回の動画生成の結果との差分をユーザに提示する。例えば、映像生成システム１は、動画中で変更のあった箇所のみを強調表示したり、動画中で変更のあった時間をシークバー上に表示したりしてユーザに提示する。これにより、ユーザは変更があった箇所のみを確認できるようになり、映像生成システム１は、確認作業の負担を軽減させることができる。上述した処理により、映像生成システム１は、ユーザビリティを向上させることができる。

【0202】

例えば、動画中で変化した箇所を取り出す方法として、生成したＵＳＤファイルから差分を検出する方法、レンダリング済みの動画と過去にレンダリングした動画を１フレームごとに比較して差分を検出する方法等が挙げられる。例えば、生成したＵＳＤファイルから差分を検出する方法では、ＵＳＤファイルを都度生成して動画レンダリングを行っている特性を活かし、映像生成システム１は、ユーザが動画生成に関する設定を更新する前後で生成されたＵＳＤファイルの内容を比較し、変化があったオブジェクトや変化があった時間を検出する。また、例えば、レンダリング済みの動画と過去にレンダリングした動画を１フレームごとに比較して差分を検出する方法では、映像生成システム１は、ユーザが動画生成に関する設定を更新する前後で生成された動画を１フレームごとに比較して、変化があったピクセルおよび変化があった時間を検出する。

【0203】

＜１－４－１６．カット間の関係提示例＞
従来技術では、カットごとに修正した場合、前後カットとの関係が分からなくなる場合があるという課題がある。このように、従来技術には、ユーザビリティに関する課題があり、ユーザビリティの改善の余地がある。そこで、映像生成システム１は、図３６に示すように、カット間の関係の提示を行ってもよい。図３６は、カット間の関係の提示の一例を示す図である。

【0204】

図３６では、カットＣＵ６１が修正されたカット（「対象カット」ともいう）である場合を示す。対象カットであるカットＣＵ６１よりも前のカットＣＵ６０には、そのカットが対象カットよりも前のカットであることを示す前関係バーＴＲ６０が重畳表示される。例えば、前関係バーＴＲ６０は、右側を底辺として左側に延びる三角形である。前関係バーＴＲ６０は、対象カットとの時間が離れているほど左側に長く伸びる態様で表示される。

【0205】

また、対象カットであるカットＣＵ６１よりも後のカットＣＵ６２には、そのカットが対象カットよりも後のカットであることを示す後関係バーＴＲ６２が重畳表示される。例えば、後関係バーＴＲ６２は、左側を底辺として右側に延びる三角形である。対象カットであるカットＣＵ６１よりも後のカットＣＵ６２のさらに後のカットＣＵ６３には、そのカットが対象カットよりも後のカットであることを示す後関係バーＴＲ６３が重畳表示される。例えば、後関係バーＴＲ６３は、左側を底辺として右側に延びる三角形である。

【0206】

後関係バーＴＲ６２、ＴＲ６３は、対象カットとの時間が離れているほど左側に長く延びる態様で表示される。図３６では、カットＣＵ６２よりもカットＣＵ６３の方がさらに後であるため、後関係バーＴＲ６２よりも後関係バーＴＲ６３の方が、右側へ長く延びる態様で表示される。なお、三角形での表示態様は表示態様の一例に過ぎず、時間の前後関係及びその量が提示可能であれば、任意の表示態様が採用可能である。

【0207】

映像生成システム１は、ユーザの操作に応じて、カットＣＵ６０～ＣＵ６３を含む動画を再生する。例えば、映像生成システム１は、ユーザの操作に応じて、カットＣＵ６０を表示する際は、前関係バーＴＲ６０を重畳表示する。例えば、映像生成システム１は、ユーザの操作に応じて、カットＣＵ６２を表示する際は、後関係バーＴＲ６２を重畳表示する。例えば、映像生成システム１は、ユーザの操作に応じて、カットＣＵ６３を表示する際は、後関係バーＴＲ６３を重畳表示する。これにより、映像生成システム１は、対象カットの前後のカットを再生する際、対象カットからの離れた量を提示する。このように、映像生成システム１は、対象カットの前後も再生する場合、対象カットからの離れた秒数に応じて、その量及び方向を示す情報を画面上に重畳表示することで、そのカットが対象カットから前後のどちらに、どの程度離れているかをユーザに認識させることができる。上述した処理により、映像生成システム１は、ユーザビリティを向上させることができる。

【0208】

＜１－４－１７．オブジェクトの選択例＞
従来技術では、編集時のオブジェクトの選択がユーザにとって大変（ユーザビリティが低い）という課題がある。このように、従来技術には、ユーザビリティに関する課題があり、ユーザビリティの改善の余地がある。そこで、映像生成システム１は、図３７に示すように、オブジェクトの選択を行ってもよい。図３７は、オブジェクトの選択の一例を示す図である。

【0209】

図３７の映像ＭＶ７１では、ユーザはマウスを操作して、３人のうち右側の人が含まれる範囲にマウスカーソルＭＳ７１を位置させることに右側の人を選択する。この場合、映像生成システム１は、マウスカーソルＭＳ７１を位置する右側の人を対象オブジェクトとして選択する操作を受け付ける。例えば、映像生成システム１は、マウスカーソルＭＳ７１を位置する右側の人に対応するセグメンテーション（範囲）を、ユーザが選択した範囲として特定する。

【0210】

図３７の映像ＭＶ７２では、ユーザはマウスを操作して、３人のうち中央の人が含まれる範囲にマウスカーソルＭＳ７２を位置させることに中央の人を選択する。この場合、映像生成システム１は、マウスカーソルＭＳ７２を位置する中央の人を対象オブジェクトとして選択する操作を受け付ける。例えば、映像生成システム１は、マウスカーソルＭＳ７２を位置する中央の人に対応するセグメンテーション（範囲）を、ユーザが選択した範囲として特定する。

【0211】

図３７の映像ＭＶ７３では、ユーザはマウスを操作して、３人のうち左側の人が含まれる範囲にマウスカーソルＭＳ７３を位置させることに左側の人を選択する。この場合、映像生成システム１は、マウスカーソルＭＳ７３を位置する左側の人を対象オブジェクトとして選択する操作を受け付ける。例えば、映像生成システム１は、マウスカーソルＭＳ７３を位置する左側の人に対応するセグメンテーション（範囲）を、ユーザが選択した範囲として特定する。

【0212】

このように、映像生成システム１は、対象オブジェクトの選択を、セグメンテーションで認識された範囲で認識する。これにより、ユーザは、クリックだけで指定したいオブジェクトを選択することができる。例えば、動画中に表示されるオブジェクトに対して、ユーザがモーション、アセットの変更を行う際には、変更対象のオブジェクトを選択する必要がある。動画中に表示されるオブジェクトの一覧から変更対象を選ぶようなＵＩよりも、動画中のオブジェクトを直接クリックできれば、ユーザはより直感的に変更対象のオブジェクトを選択することができる。動画中のオブジェクトのクリック範囲は、動画１フレームごとに各オブジェクトのピクセル領域をセグメンテーションすることにより実現できる。

【0213】

オブジェクトのクリック範囲を求める方法については、以下のような方法であってもよい。例えば、動画のフレームごとのオブジェクトとカメラの情報がＵＳＤ上にあるため、そのフレームにおいてカメラから見たあるピクセルがどのオブジェクトを指しているかのマッピングが可能であるため、映像生成システム１は、そこから逆算してユーザが動画上でクリックした座標と編集対象のオブジェクトのマッピングが可能になる。

【0214】

オブジェクトのクリック範囲を求める方法としては、動画１フレームごとに、カメラから逆算したピクセルごとのオブジェクトのセグメンテーションで選んだ人と、対象ＵＳＤを紐づける方法等が挙げられる。例えば、動画自体にｘ,ｙ（座標等）のこの領域には何が位置するかの情報を含ませる。例えば、映像生成システム１は、図３８に示すように、オブジェクトの選択を行ってもよい。

【0215】

図３８中のフレームＦＲは、カメラからレンダリングされた動画の１フレームを示す。図３８中のＵＳＤデータＯＢは、ＵＳＤ上の３Ｄオブジェクトとカメラを示す。３Ｄオブジェクトとカメラの情報がＵＳＤに含まれるため、映像生成システム１は、カメラ（図３８中のカメラＣＭ等）から見たあるピクセルが３Ｄオブジェクト上のどの場所を指すのかをマッピングすることができる。そのため、映像生成システム１は、ユーザが動画上でクリックした座標とオブジェクトのマッピングが可能となる。上述した処理により、映像生成システム１は、ユーザビリティを向上させることができる。

【0216】

＜１－４－１８．３Ｄモデル利用例＞
上述した処理は一例に過ぎず、映像生成システム１は、上述した処理以外にも様々な処理を実行してもよい。この点について、以下いくつかの実施例を記載する。

【0217】

例えば、映像生成システム１は、登場人物やプロップ（商品など）を取り込む処理を行ってもよい。映像生成システム１における登場人物やプロップ（商品など）の取り込み方法としては、例えば指定して動画内に登場させたい、３Ｄモデルや三面図を登録しそれを動画内で使ってもよい。例えば、映像生成システム１は、ユーザにより入力された３Ｄモデルを登録し、動画内で使ってもよい。例えば、映像生成システム１においては、様々な角度で撮影した商品の写真を入れることが可能であってもよい。この場合、映像生成システム１は、ＮｅＲＦ（Neural Radiance Fields）等の技術を用いて、様々な角度で撮影した商品の写真から、その商品の３Ｄモデルを生成し、動画内で使ってもよい。

【0218】

例えば、映像生成システム１は、動画データのうち、変更の対象とする対象物を指定するユーザの操作を受け付け、ユーザの操作が示す対象物の３Ｄデータが変更されたコードを生成する。例えば、映像生成システム１は、動画中のある登場人物（「登場人物Ａ」ともいう）が変更対象物としてユーザに指定され、登録された３Ｄモデルから別の登場人物（「登場人物Ｂ」ともいう）が変更後の登場人物としてユーザが選択した場合、動画中の登場人物Ａの３Ｄデータが登場人物Ｂの３Ｄデータに変更されたコードを生成する。これにより、映像生成システム１は、動画中の登場人物Ａが、登録された３Ｄモデルが示す登場人物Ｂに変更された動画データを生成することができる。

【0219】

なお、上述した処理は一例に過ぎず、映像生成システム１は、任意の処理によりユーザの操作が示す対象物の３Ｄデータが変更されたコードを生成してもよい。例えば、映像生成システム１は、動画データのうち、ユーザの操作が示す対象物の３Ｄデータ自体に変更を行うことにより、変更されたコードを生成してもよい。例えば、映像生成システム１は、動画データのうち、ユーザの操作が示す対象物の３Ｄデータの外形（身長等）の変更を行うことにより、変更されたコードを生成してもよい。また、映像生成システム１は、登録した人やプロップに関しては、レンダリング後、リファイナ処理を部分的に行わなくてもよい。また、映像生成システム１においては、登場人物やプロップなどに関しては、映像生成サービス内でマーケットプレイスを用意し販売しても良い。

【0220】

＜１－４－１９．参考データの利用例＞
また、映像生成システム１は、以前作成した（動画）プロジェクトにより、動画とストーリーを参考にしてもよい。映像生成システム１は、図３９に示すように、以前作成したプロジェクトの続編を使いたい時、そのプロジェクトを参考データとして入力を受け付けてもよい。図３９は、参考データを用いた処理の一例を示す図である。

【0221】

例えば、映像生成システム１は、コンテンツＣＴ５１にユーザが入力した他のプロジェクトの参考に関するユーザの入力情報を取得する。コンテンツＣＴ５１は、他のプロジェクトを参考にするか否かをチェックマークで指定する項目、及び参考にするプロジェクトをチェックマークで指定する項目、参考にするプロジェクトのうちどの情報を参考にするかをチェックマークで指定する項目等についてのユーザの入力情報を受け付けるためのコンテンツである。

【0222】

例えば、クライアントＵＩ表示部４００は、コンテンツＣＴ５１を表示し、センサ部３００は、ユーザ入力情報を受け付ける。図３９では、ユーザは「他のプロジェクトを参考にする」にチェックマークを入れ、他のプロジェクトを参考にすることを選択する。また、ユーザは「商品ＸＣＭ動画」にチェックマークを入れ、商品ＸのＣＭ動画のプロジェクトを参考にすることを選択する。

【0223】

また、ユーザは「登場人物」及び「ビジュアルスタイル」にチェックマークを入れ、商品ＸのＣＭ動画のプロジェクトのうち、登場人物及びビジュアルスタイルを参考にすることを選択する。また、ユーザは「ストーリー」、「コンテンツスタイル」及び「ＢＧＭ」にチェックマークを入れておらず、商品ＸのＣＭ動画のプロジェクトのうち、ストーリー、コンテンツスタイル及びＢＧＭについては参考にしないことを選択する。

【0224】

映像生成システム１は、コンテンツＣＴ５１で受け付けたユーザ入力情報を用いて、シナリオ生成用情報（第１の入力情報）であるプロンプトＰＴ５１を生成する。なお、図３９では説明を省略するが、映像生成システム１は、図６に示すテンプレートＴＰ１のようなテンプレート入力情報を用いて、プロンプトＰＴ５１を生成してもよい。

【0225】

例えば、映像生成システム１は、商品ＸのＣＭ動画のプロジェクトのうち、登場人物及びビジュアルスタイルを反映することにより、プロンプトＰＴ５１を生成する。図３９では、映像生成システム１は、商品ＸのＣＭ動画での登場人物“Mike”を使い、商品ＸのＣＭ動画でのビジュアルスタイル“映画風”を使う事を指定する制約を含むプロンプトＰＴ５１を生成する。このように、映像生成システム１は、ユーザの選択に応じて、過去のプロジェクトを参考データに基づいて、シナリオを生成するためのプロンプトを生成する。これにより、映像生成システム１は、動画中の登場人物Ａが、ユーザが指定した過去のプロジェクトに基づいて動画データを生成することができる。

【0226】

＜１－４－２０．３Ｄデータを有する利点例＞
映像生成システム１は、３Ｄデータを内部に有するため、以下のような機能や利点を有する。映像生成システム１は、生成する映像（動画）については以下のような機能や利点を有する。例えば、映像生成システム１は、物理シミュレーションにより、より自然な映像を作ることができる。例えば、映像生成システム１は、台の上にものを乗っけたり、跳ね返ったり、転がったり、自然な布の揺れを再現したりすることができる。

【0227】

例えば、映像生成システム１は、ライティングとオブジェクト素材に応じて、光の反射具合をリアルに再現することができる。反射しやすいボンネットや鏡の時は、その手前にいる人やものが反射光の影響で明るくなる。反射しにくい布の時は、その手前にいる人やものが反射光をあまり受けない。

【0228】

例えば、映像生成システム１は、ライティングとオブジェクトが固定出来るので、時系列的な破綻が生じる可能性を低減させることができる。例えば、映像生成システム１は、ライティングの位置を映像中に変化させても、破綻なく表現することができる。例えば、映像生成システム１は、簡易光源を設定することで、リアルタイムに映像を出力できる。この場合、映像生成システム１は、リファイナ処理を行わなくてもよい。

【0229】

例えば、映像生成システム１は、商品データや登場人物を３Ｄデータとして入れることで、商品自体を忠実に映像内で再現することができる。例えば、映像生成システム１は、デプス、グローバル位置、ノーマルなどがわかるため、リファイナ処理時に破綻が生じる可能性を低減させることができる。例えば、映像生成システム１は、スピーカーなど音のなる３次元位置を固定できるため、音に対してのインタラクションを作りやすい。例えば、映像生成システム１は、Differed Renderingのようなライティング処理をすることで、レンダリング時間を削減することができる。

【0230】

また、映像生成システム１は、映像（動画）の編集（修正）については以下のような機能や利点を有する。例えば、映像生成システム１は、カメラの位置、角度、カメラワークを大幅に修正した時でも、周りの環境やライティングなどの一貫性を保つことができる。例えば、映像生成システム１は、動画内で３次元的に位置角度を指定することができる。

【0231】

例えば、映像生成システム１は、ある程度動画が生成された後であっても、登場人物のみ、プロップのみなど特定のモノだけを変更し、その他の部分は映像を保つことができる。例えば、映像生成システム１は、キャラクターをリアルな人型から二頭身キャラクターに変更することができる。例えば、映像生成システム１は、設置している看板を黒板タイプからプラスチックボードに変更することができる。例えば、映像生成システム１は、商品パッケージの中のロゴの一部のみを変更することができる。

【0232】

例えば、映像生成システム１は、３次元で撮影シーンをみることで、動画のフレームには映らない箇所の映像を修正することができる。例えば、映像生成システム１は、映っていない箇所に光源を設置することができる。例えば、映像生成システム１は、映っていない箇所に人やモノを設置して、動画フレーム内に影だけを表示することができる。例えば、映像生成システム１は、映っていないところに人等を置いて、映っている人が映っていない人の目を見てなどの指定をすることができる。

【0233】

また、映像生成システム１は、上記以外の点については以下のような機能や利点を有する。例えば、映像生成システム１は、ＡＲ、ＶＲ（Virtual Reality）、ＳＲＤ（Spatial Reality Display）、３Ｄディスプレイなどの３Ｄデバイスのコンテンツに容易に変換することができる。

【0234】

＜１－５．ユーザから見た処理フロー例＞
次に、図４０を用いて、ユーザから見た処理フローの一例として、ユーザ操作に応じた映像生成システム１による情報処理の手順について説明する。図４０は、ユーザ操作に応じた処理の流れを示すフローチャートである。

【0235】

図４０に示すように、映像生成システム１では、ユーザがプロジェクト作成ボタンを押下する（ステップＳ１）。そして、映像生成システム１では、ユーザが動画生成のための必要情報入力を行う（ステップＳ２）。例えば、ユーザは、動画作成の目的、動画を通して伝えたいメッセージ、ターゲットユーザ、伝えたい商品／サービスの機能特徴、動画の長さ、アスペクト比等を含む情報の入力を行う。

【0236】

そして、映像生成システム１では、ユーザがストーリーボード、動画、音、テキストロゴ作成ボタンを押下する（ステップＳ３）。例えば、映像生成システム１は、ユーザ操作に応じて、一気に全て（例えば動画データまで）生成してもよいし、ストーリーボードを提示して、ユーザはからの指示に応じたある程度修正してから、動画、音、テキストロゴを生成してもよい。

【0237】

そして、映像生成システム１は、ユーザ操作に応じて、ストーリーボード、動画、音、テキストロゴの修正を行う（ステップＳ４）。例えば、映像生成システム１は、それぞれをユーザの好きな順番に修正を受け付けてもよい。

【0238】

そして、映像生成システム１は、ユーザ操作に応じて、エクスポートを行う（ステップＳ５）。例えば、映像生成システム１は、ユーザ操作に応じて、ｍｐ4、ａｖｉ、ｍｏｖなどの動画ファイル形式でのエクスポートを行ってもよい。また、例えば、映像生成システム１は、Premiere pro、after effect、davinci resolveなど、任意の動画編集ソフトウェアのファイル形式でのエクスポートを行ってもよい。

【0239】

＜１－６．ＡＩモデルについて＞
なお、上述した各処理で用いられるＡＩモデルの各々については、各箇所で記載した例示に限らず、入力に応じて、所望の情報を出力可能であれば、その内部構造は任意の構造が採用可能である。ＡＩモデルの入力、出力及び内部構造については、所望の情報を出力可能であれば、任意の組合せが採用可能である。

【0240】

ＡＩモデルの入力は、テキスト、画像、音声、３Ｄデータ等であってもよく、それらの組合せであってもよい。また、ＡＩモデルの出力は、テキスト、画像、音声、３Ｄデータ等であってもよい。なお、上述した入力及び出力は一例に過ぎず、上述したＡＩモデルは、任意の入力及び出力であってもよい。

【0241】

また、ＡＩモデルの内部構造は、入力及び出力の組合せに応じて、任意の構造が採用可能である。すなわち、ＡＩモデルの内部構造は、入力に対して、所望の出力が可能であればどのような構造であってもよい。

【0242】

例えば、ＡＩモデルは、Transformerに関する構造を有してもよい。例えば、ＡＩモデルは、Transformerに関する構造を有し、テキスト、時系列データ等、データ内での前後関係等のコンテキストを考慮した処理を行ってもよい。例えば、ＡＩモデルは、自己注意機構（self-attention mechanism）を有してもよい。例えば、ＡＩモデルは、Single-Head Attention、Multi-head Attention等の任意のアテンション機構を有してもよい。なお、ＡＩモデルは、アテンション機構を有しなくてもよい。

【0243】

ＡＩモデルは、入力から特徴を抽出する機構を有してもよい。例えば、ＡＩモデルは、エンコーダを有してもよい。ＡＩモデルは、抽出された特徴を基に、情報を生成する機構を有してもよい。例えば、ＡＩモデルは、デコーダを有してもよい。

【0244】

ＡＩモデルは、ＣＮＮ（Convolutional Neural Network）に関する構造を有してもよい。例えば、ＡＩモデルは、画像を対象とする処理を行う場合、ＣＮＮに関する構造を有してもよい。例えば、ＡＩモデルは、畳み込み層、プーリング層、全結合層等のうち少なくとも１つを有してもよい。

【0245】

なお、上述した内部構造は一例に過ぎず、上述したＡＩモデルは、任意の内部構造を有してもよい。例えば、ＡＩモデルは、スキップ接続（skip connection）を有してもよい。また、ＡＩモデルは、Diffusionモデルに関する構造を有してもよい。

【0246】

また、上述したＡＩモデルは、任意の学習処理により生成（学習）されてもよい。ＡＩモデルは、任意の機械学習の手法を用いて学習された機械学習モデルであってもよい。例えば、ＡＩモデルは、いわゆるFoundation Model（基盤モデル）を基に、その基盤モデルを特定のタスク（例えばシナリオデータ生成、コード生成等）に適用するようにファインチューニングされて生成されたモデルであってもよい。例えば、上述したＬＬＭのようなＡＩモデルは、基盤モデルを特定のタスクに適用するようにファインチューニングされて生成されたモデルであってもよい。

【0247】

ここでいう基盤モデルは、様々なタスクに適用可能なように、例えば多種多様なタスクを実行可能になるように学習されたモデルである。例えば、基盤モデルは、大量のラベル無しデータセットで事前学習させたニューラルネットワークである。なお、基盤モデルは、Transformerベースのアーキテクチャ等の任意の構造を有してもよい。例えば、基盤モデルは、正解ラベルのないデータを使用した自己教師あり学習により生成される。上記のように、基盤モデルは、幅広い下流タスクに適応できるようにファインチューニングされる。

【0248】

例えば、シナリオデータ生成のタスクに適用される場合、基盤モデルがシナリオデータ生成のタスクに適応できるようにファインチューニングされ、シナリオデータ生成のタスクに適用したＡＩモデル（モデルＭ１等）が生成される。また、例えば、コード生成のタスクに適用される場合、基盤モデルがコード生成のタスクに適応できるようにファインチューニングされ、コード生成のタスクに適用したＡＩモデル（モデルＭ３等）が生成される。また、例えば、音データ生成のタスクに適用される場合、基盤モデルが音データ生成のタスクに適応できるようにファインチューニングされ、音データ生成のタスクに適用したＡＩモデル（モデルＭ４等）が生成される。また、例えば、テキストロゴ生成のタスクに適用される場合、基盤モデルがテキストロゴ生成のタスクに適応できるようにファインチューニングされ、テキストロゴ生成のタスクに適用したＡＩモデル（モデルＭ５等）が生成される。

【0249】

例えば、シナリオデータ生成のタスクに適用したＡＩモデル（モデルＭ１等）は、そのＡＩモデルに対応する入力情報と、その入力情報を入力した場合の正解の出力となるシナリオデータ（「正解情報」ともいう）とを組合せを含む学習データを用いて学習される。なお、入力情報、正解情報等の学習データは、人が作成したデータであってもよいし、学習データを生成するコンピュータが自動で生成したデータであってもよい。例えば、正解情報となるシナリオデータ等は、人が作成したデータであってもよい。以下、モデルＭ１を一例として簡単に説明する。例えば、モデルＭ１は、学習データ中の各入力情報が入力された場合に、その各入力情報に対応する正解情報を出力するように学習される。例えば、モデルＭ１は、バックプロパゲーション（誤差逆伝播法）等の手法により、ある入力情報が入力された場合のモデルＭ１における出力と、その入力情報に対応する正解情報との誤差が少なくなるようにパラメータ（接続係数）が調整（補正）されることにより学習される。また、コード生成のタスクに適用したＡＩモデル（モデルＭ３等）、音データ生成のタスクに適用したＡＩモデル（モデルＭ４等）、テキストロゴ生成のタスクに適用したＡＩモデル（モデルＭ５等）、評価のタスクに適用したＡＩモデル（モデルＭ１０等）、画像改善処理のタスクに適用したＡＩモデル（モデルＭ１１等）等の他のＡＩモデルについても同様の学習処理により学習されてもよい。

【0250】

なお、上述した学習処理は一例に過ぎず、上述したＡＩモデルは、そのＡＩモデルの入力、出力及び内部構造に応じて任意の学習処理により学習される。例えば、ＡＩモデルは、ＧＡＮ（Generative Adversarial Network）等のように、教師なし学習の手法により学習されてもよい。また、ＡＩモデルは、フェデレーテッドラーニング等のようにデータを集約せずに分散した状態で学習されてもよい。この場合、各映像生成サービスの装置（サーバ等）において、そのサービスで収集したローカルモデルを生成し、各映像生成サービスの装置（サーバ等）が生成したローカルモデルの情報（パラメータ等）を集約するサーバ（集約サーバ）がローカルモデルの情報を用いてグローバルモデルを生成してもよい。この場合、映像生成システム１は、集約サーバが生成したグローバルモデルを集約サーバから受信し、受信したグローバルモデルをＡＩモデルとして処理に用いてもよい。

【0251】

このように、上述したＡＩモデルは、いずれのコンピュータが生成（学習）してもよい。すなわち、ＡＩモデルを生成する学習処理は、映像生成システム１のいずれかの装置（コンピュータ等）が行ってもよいし、映像生成システム１外の装置が行ってもよい。例えば、映像生成システム１外の装置が上述したＡＩモデルのうち少なくとも１つを生成する場合、映像生成システム１は、映像生成システム１外の装置からそのＡＩモデルを取得し、取得したＡＩモデルを用いて処理を行う。

【0252】

＜２．その他の実施形態＞
上述した各実施形態に係る処理は、上記各実施形態や変形例以外にも種々の異なる形態（変形例）にて実施されてよい。

【0253】

＜２－１．その他の構成例＞
上記の映像生成システム１の構成は一例に過ぎず、映像生成システム１における機能の分割は任意の態様が採用可能である。すなわち、上述した構成は一例であり、上述した映像生成に関するサービスを提供可能であれば、映像生成システム１は、どのような機能の分割態様であってもよく、どのような構成であってもよい。例えば、映像生成システム１は、上述した処理を行う１つの装置（コンピュータ等）により構成されてもよい。この場合、映像生成システム１の１つの装置が、映像生成モジュール１００、情報取得モジュール２００、センサ部３００、及びクライアントＵＩ表示部４００の機能を有してもよい。例えば、映像生成システム１が提供する映像生成サービスは、ユーザが利用する端末装置（コンピュータ２０等）上で動作するツール（AI Assist Creation Tool）等のプログラムとしてユーザに提供されてもよい。

【0254】

＜２－２．その他＞
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

【0255】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0256】

また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【0257】

また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

【0258】

＜３．本開示に係る効果＞
上述のように、本開示に係る映像生成システム（実施形態では映像生成システム１）は、取得部（実施形態では入力テキスト取得部２１０）と、シナリオ生成部（実施形態ではシナリオ向け生成部１３１）と、コード生成部（実施形態では映像向け生成部１３２）と、動画データ取得部（実施形態では映像生成部１４０）とを備える。取得部は、動画生成に関する入力クエリをユーザから取得する。シナリオ生成部は、入力クエリに基づいて、動画生成に関するシナリオデータを生成する。コード生成部は、シナリオデータに基づいて、３Ｄデータを構成するためのコードを生成する。動画データ取得部は、コードに基づいて、動画データを取得する。

【0259】

このように、本開示に係る映像生成システムは、ユーザからの入力クエリに基づいて生成したシナリオデータに基づいて、３Ｄデータを構成するためのコードを生成し、コードに基づいて、動画データを取得することにより、ユーザからの入力クエリに応じて動画データを取得することができる。

【0260】

また、映像生成システムは、画質改善部（実施形態では映像リファイン部１４３）を備える。画質改善部は、動画データの画質を改善する画質改善処理を実行する。このように、映像生成システムは、動画データの画質を改善することにより、高品質な動画を取得することができる。

【0261】

また、画質改善部は、テキストプロンプトに基づいて画質改善処理を実行することにより、動画データの画質を改善する。このように、映像生成システムは、テキストプロンプトに基づいて動画データの画質を改善することにより、高品質な動画を取得することができる。

【0262】

また、画質改善部は、動画データのうち画質改善処理の対象を指定するテキストプロンプトに基づいて、画質改善処理を実行する。このように、映像生成システムは、指定された対象について動画データの画質を改善することにより、高品質な動画を取得することができる。

【0263】

また、画質改善部は、改善が必要と判断された対象を指定するテキストプロンプトに基づいて、画質改善処理を実行する。このように、映像生成システムは、改善が必要と判断された対象について動画データの画質を改善することにより、高品質な動画を取得することができる。

【0264】

また、映像生成システムは、表示制御部（実施形態ではクライアントＵＩ表示部４００）を備える。表示制御部は、シナリオデータに基づいたストーリーボードを表示させる。このように、映像生成システムは、シナリオデータに基づいたストーリーボードを表示させることにより、ユーザにとって利便性が高い態様で情報を提示することができる。

【0265】

また、ストーリーボードは、動画のカット毎に動画データを表示するように構成される。このように、映像生成システムは、ストーリーボードが動画のカット毎に動画データを表示するように構成されることにより、ユーザにとって利便性が高い態様で情報を提示することができる。

【0266】

また、映像生成システムは、サウンド生成部（実施形態ではサウンド生成部１５０）を備える。サウンド生成部は、シナリオデータと動画データとに基づいて、動画データに対応するサウンドデータを生成する。このように、映像生成システムは、動画データに対応するサウンドデータを生成することで、音を含む動画を取得することができる。

【0267】

また、映像生成システムは、テキスト生成部（実施形態ではテキスト／ロゴ生成部１６０）を備える。テキスト生成部は、シナリオデータに基づいて、動画データにより表示される映像上に表示させるテキストを示すテキストデータを生成する。このように、映像生成システムは、動画データに対応するテキストデータを生成することで、テキストを含む動画を取得することができる。

【0268】

また、映像生成システムは、ロゴ生成部（実施形態ではテキスト／ロゴ生成部１６０）を備える。ロゴ生成部は、シナリオデータに基づいて、動画データにより表示される映像上に表示させるロゴを示すロゴデータを生成する。このように、映像生成システムは、動画データに対応するロゴデータを生成することで、ロゴを含む動画を取得することができる。

【0269】

また、入力クエリは、テキスト、画像、音声、３Ｄデータのうち少なくとも１つを含む。このように、映像生成システムは、入力クエリがテキスト、画像、音声、３Ｄデータのうち少なくとも１つを含むことにより、ユーザからの入力クエリに応じて動画データを取得することができる。

【0270】

また、映像生成システムは、第１の出力部（実施形態ではシナリオ向け生成部１３１）を備える。第１の出力部は、入力クエリに基づいて、シナリオデータを生成するためにシナリオ生成部が用いるシナリオ生成用情報を出力する。シナリオ生成部は、シナリオ生成用情報に基づいてシナリオデータを生成する。このように、映像生成システムは、入力クエリに基づいて生成されたシナリオ生成用情報に基づいてシナリオデータを生成することにより、ユーザからの入力クエリに応じて動画データを取得することができる。

【0271】

また、第１の出力部は、入力クエリに基づいて、シナリオデータを生成するための第１のプロンプトを、シナリオ生成用情報として生成する。シナリオ生成部は、第１のプロンプトに基づいてシナリオデータを生成する。このように、映像生成システムは、第１のプロンプトに基づいてシナリオデータを生成することにより、ユーザからの入力クエリに応じて動画データを取得することができる。

【0272】

また、第１の出力部は、入力クエリに基づいて、シナリオデータを生成するための第１のモデルの入力として用いられる第１の入力情報をシナリオ生成用情報として生成する。シナリオ生成部は、入力クエリを用いて生成された第１の入力情報を、第１のモデルに入力し、第１のモデルにシナリオデータを出力させることにより、シナリオデータを生成する。このように、映像生成システムは、第１のモデルを用いてシナリオデータを生成することにより、ユーザからの入力クエリに応じて動画データを取得することができる。

【0273】

また、映像生成システムは、第２の出力部（実施形態では映像向け生成部１３２）を備える。第２の出力部は、シナリオデータに基づいて、３Ｄデータを構成するためのコードを生成するためにコード生成部が用いるコード生成用情報を出力する。コード生成部は、コード生成用情報に基づいてコードを生成する。このように、映像生成システムは、シナリオデータに基づいて生成されたコード生成用情報に基づいてコードを生成することにより、ユーザからの入力クエリに応じて動画データを取得することができる。

【0274】

また、第２の出力部は、シナリオデータに基づいて、３Ｄデータを構成するためのコードを出力するための第２のプロンプトを、コード生成用情報として生成する。シナリオ生成部は、第２のプロンプトに基づいてコードを生成する。このように、映像生成システムは、第２のプロンプトに基づいてコードを生成することにより、ユーザからの入力クエリに応じて動画データを取得することができる。

【0275】

また、第２の出力部は、入力クエリに基づいて、コードを生成するための第２のモデルの入力として用いられる第２の入力情報をコード生成用情報として生成する。シナリオ生成部は、シナリオデータを用いて生成された第２の入力情報を、第２のモデルに入力し、第２のモデルにコードを出力させることにより、コードを生成する。このように、映像生成システムは、第２のモデルを用いてコードを生成することにより、ユーザからの入力クエリに応じて動画データを取得することができる。

【0276】

また、映像生成システムは、受付部（実施形態ではセンサ部３００）を備える。受付部は、ユーザから動画編集に関する操作を受け付ける。コード生成部は、操作に基づいた編集により、コードを生成する。このように、映像生成システムは、ユーザから動画編集の操作に応じてコードを生成することにより、ユーザの編集に対応する映像を適切に取得することができる。

【0277】

また、受付部は、センサを用いてモーションまたはカメラの動きを指定する操作を受け付ける。コード生成部は、操作が示すモーションまたはカメラの動きに対応するコードを生成する。このように、映像生成システムは、ユーザからモーションまたはカメラの動きを指定する操作に応じてコードを生成することにより、ユーザの編集に対応する映像を適切に取得することができる。

【0278】

また、受付部は、動画データのうち、複数のカットを選択する操作を受け付ける。コード生成部は、操作が示す複数のカットに対応する部分が変更されたコードを生成する。このように、映像生成システムは、ユーザから複数のカットを選択するに応じてコードを生成することにより、ユーザの編集に対応する映像を適切に取得することができる。

【0279】

また、動画データの各カットには日付情報が対応付けられている。コード生成部は、動画データの各カットの日付情報に基づいて、操作が示す編集の内容を決定する。このように、映像生成システムは、動画データの各カットの日付情報に基づいて、編集の内容を決定することにより、ユーザの編集に対応する映像を適切に取得することができる。

【0280】

また、受付部は、動画データのうち、変更の対象とする対象物を指定する操作を受け付ける。コード生成部は、操作が示す対象物の３Ｄデータが変更されたコードを生成する。このように、映像生成システムは、ユーザから変更の対象として指定された３Ｄデータが変更されたコードを生成することにより、ユーザの編集に対応する映像を適切に取得することができる。

【0281】

また、映像生成システムは、評価部（実施形態では評価部１８０）を備える。評価部は、シナリオデータと動画データのうち少なくとも１つの評価を示す情報を生成する。このように、映像生成システムは、シナリオデータと動画データのうち少なくとも１つの評価を示す情報を生成することにより、生成した情報に対して評価を行うことができる。

【0282】

また、コード生成部は、評価に基づいて、コードを生成する。このように、映像生成システムは、評価に基づいて、コードを生成することにより、評価に応じて適切に情報を取得することができる。

【0283】

また、シナリオ生成部は、評価に基づいて、シナリオデータを生成する。このように、映像生成システムは、評価に基づいて、シナリオデータを生成することにより、評価に応じて適切に情報を取得することができる。

【0284】

また、シナリオ生成部は、評価に基づき生成されたシナリオデータに基づいて、コードを生成する。このように、映像生成システムは、評価に基づき生成されたシナリオデータに基づいて、コードを生成することにより、評価に応じて適切に情報を取得することができる。

【0285】

＜４．ハードウェア構成＞
上述してきた各実施形態に係る映像生成モジュール１００、情報取得モジュール２００及びクライアントＵＩ表示部４００等を有する情報処理装置（情報機器）は、例えば図４１に示すような構成のコンピュータ１０００によって実現される。図４１は、情報処理装置の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。以下、実施形態に係る映像生成モジュール１００を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read Only Memory）１３００、ＨＤＤ（Hard Disk Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

【0286】

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

【0287】

ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic Input Output System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

【0288】

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る映像生成プログラムを記録する記録媒体である。

【0289】

通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

【0290】

入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

【0291】

例えば、コンピュータ１０００が実施形態に係る映像生成モジュール１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた映像生成プログラムを実行することにより、制御部１３０１等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る映像生成プログラムや、記憶部１３０２内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

【0292】

なお、本技術は以下のような構成も取ることができる。
（１）
動画生成に関する入力クエリをユーザから取得する取得部と、
前記入力クエリに基づいて、動画生成に関するシナリオデータを生成するシナリオ生成部と、
前記シナリオデータに基づいて、３Ｄデータを構成するためのコードを生成するコード生成部と、
前記コードに基づいて、動画データを取得する動画データ取得部と、
を備える映像生成システム。
（２）
前記動画データの画質を改善する画質改善処理を実行する画質改善部、
を更に備える（１）に記載の映像生成システム。
（３）
前記画質改善部は、
テキストプロンプトに基づいて前記画質改善処理を実行することにより、前記動画データの画質を改善する
（２）に記載の映像生成システム。
（４）
前記画質改善部は、
前記動画データのうち前記画質改善処理の対象を指定するテキストプロンプトに基づいて、前記画質改善処理を実行する
（２）または（３）に記載の映像生成システム。
（５）
前記画質改善部は、
改善が必要と判断された前記対象を指定するテキストプロンプトに基づいて、前記画質改善処理を実行する
（４）に記載の映像生成システム。
（６）
前記シナリオデータに基づいたストーリーボードを表示させる表示制御部、
を更に備える（１）～（５）のいずれか１つに記載の映像生成システム。
（７）
前記ストーリーボードは、動画のカット毎に前記動画データを表示するように構成される
（６）に記載の映像生成システム。
（８）
前記シナリオデータと前記動画データとに基づいて、前記動画データに対応するサウンドデータを生成するサウンド生成部、
を更に備える（１）～（７）のいずれか１つに記載の映像生成システム。
（９）
前記シナリオデータに基づいて、前記動画データにより表示される映像上に表示させるテキストを示すテキストデータを生成するテキスト生成部、
を更に備える（１）～（８）のいずれか１つに記載の映像生成システム。
（１０）
前記シナリオデータに基づいて、前記動画データにより表示される映像上に表示させるロゴを示すロゴデータを生成するロゴ生成部、
を更に備える（１）～（９）のいずれか１つに記載の映像生成システム。
（１１）
前記入力クエリは、テキスト、画像、音声、３Ｄデータのうち少なくとも１つを含む
（１）～（１０）のいずれか１つに記載の映像生成システム。
（１２）
前記入力クエリに基づいて、前記シナリオデータを生成するために前記シナリオ生成部が用いるシナリオ生成用情報を出力する第１の出力部、
を更に備え、
前記シナリオ生成部は、
前記シナリオ生成用情報に基づいて前記シナリオデータを生成する
（１）～（１１）のいずれか１つに記載の映像生成システム。
（１３）
前記第１の出力部は、
前記入力クエリに基づいて、前記シナリオデータを生成するための第１のプロンプトを、前記シナリオ生成用情報として生成し、
前記シナリオ生成部は、
前記第１のプロンプトに基づいて前記シナリオデータを生成する
（１２）に記載の映像生成システム。
（１４）
前記第１の出力部は、
前記入力クエリに基づいて、前記シナリオデータを生成するための第１のモデルの入力として用いられる第１の入力情報を前記シナリオ生成用情報として生成し、
前記シナリオ生成部は、
前記入力クエリを用いて生成された前記第１の入力情報を、前記第１のモデルに入力し、前記第１のモデルに前記シナリオデータを出力させることにより、前記シナリオデータを生成する
（１２）または（１３）に記載の映像生成システム。
（１５）
前記シナリオデータに基づいて、前記３Ｄデータを構成するためのコードを生成するために前記コード生成部が用いるコード生成用情報を出力する第２の出力部、
を更に備え、
前記コード生成部は、
前記コード生成用情報に基づいて前記コードを生成する
（１）～（１４）のいずれか１つに記載の映像生成システム。
（１６）
前記第２の出力部は、
前記シナリオデータに基づいて、前記３Ｄデータを構成するためのコードを出力するための第２のプロンプトを、前記コード生成用情報として生成し、
前記シナリオ生成部は、
前記第２のプロンプトに基づいて前記コードを生成する
（１５）に記載の映像生成システム。
（１７）
前記第２の出力部は、
前記入力クエリに基づいて、前記コードを生成するための第２のモデルの入力として用いられる第２の入力情報を前記コード生成用情報として生成し、
前記シナリオ生成部は、
前記シナリオデータを用いて生成された前記第２の入力情報を、前記第２のモデルに入力し、前記第２のモデルに前記コードを出力させることにより、前記コードを生成する
（１５）または（１６）に記載の映像生成システム。
（１８）
ユーザから動画編集に関する操作を受け付ける受付部、
を更に備え、
前記コード生成部は、
前記操作に基づいた編集により、前記コードを生成する
（１）～（１７）のいずれか１つに記載の映像生成システム。
（１９）
前記受付部は、
センサを用いてモーションまたはカメラの動きを指定する前記操作を受け付け、
前記コード生成部は、
前記操作が示す前記モーションまたは前記カメラの動きに対応する前記コードを生成する
（１８）に記載の映像生成システム。
（２０）
前記受付部は、
前記動画データのうち、複数のカットを選択する前記操作を受け付け、
前記コード生成部は、
前記操作が示す前記複数のカットに対応する部分が変更された前記コードを生成する
（１８）または（１９）に記載の映像生成システム。
（２１）
前記動画データの各カットには日付情報が対応付けられており、
前記コード生成部は、
前記動画データの各カットの日付情報に基づいて、前記操作が示す前記編集の内容を決定する
（１８）～（２０）のいずれか１つに記載の映像生成システム。
（２２）
前記受付部は、
前記動画データのうち、変更の対象とする対象物を指定する前記操作を受け付け、
前記コード生成部は、
前記操作が示す前記対象物の３Ｄデータが変更された前記コードを生成する
（１８）～（２１）のいずれか１つに記載の映像生成システム。
（２３）
前記３Ｄデータは、複数のデータセットを含み、
前記コード生成部は、
前記操作に基づいた編集により、前記複数のデータセットのうち少なくとも１つに対応する前記コードを生成する
（１８）～（２２）のいずれか１つにに記載の映像生成システム。
（２４）
前記コード生成部は、
前記操作が示す編集内容に応じて、前記複数のデータセットのうち一部を更新する処理と前記複数のデータセット全体を更新する処理とのうちのいずれかを実行する
（２３）に記載の映像生成システム。
（２５）
前記シナリオデータと前記動画データのうち少なくとも１つの評価を示す情報を生成する評価部、
を更に備える（１）～（２４）のいずれか１つに記載の映像生成システム。
（２６）
前記コード生成部は、
前記評価に基づいて、前記コードを生成する
（２５）に記載の映像生成システム。
（２７）
前記シナリオ生成部は、
前記評価に基づいて、前記シナリオデータを生成する
（２５）または（２６）に記載の映像生成システム。
（２８）
前記コード生成部は、
前記評価に基づき生成された前記シナリオデータに基づいて、前記コードを生成する
（２７）に記載の映像生成システム。
（２９）
動画生成に関する入力クエリをユーザから取得することと、
前記入力クエリに基づいて、動画生成に関するシナリオデータを生成することと、
前記シナリオデータに基づいて、３Ｄデータを構成するためのコードを生成することと、
前記コードに基づいて、動画データを取得することと
を含む映像生成方法。
（３０）
動画生成に関する入力クエリをユーザから取得することと、
前記入力クエリに基づいて、動画生成に関するシナリオデータを生成することと、
前記シナリオデータに基づいて、３Ｄデータを構成するためのコードを生成することと、
前記コードに基づいて、動画データを取得することと
をコンピュータに実行させる映像生成プログラム。

【符号の説明】

【0293】

１映像生成システム
１００映像生成モジュール
１１０入力テキスト解析部
１２０センサ解析部
１３０プロンプト等生成部
１３１シナリオ向け生成部
１３２映像向け生成部
１３３サウンド向け生成部
１３４テキスト／ロゴ向け生成部
１４０映像生成部
１４１ＵＳＤ生成部
１４２レンダリング部
１４３映像リファイン部
１５０サウンド生成部
１６０テキスト／ロゴ生成部
１７０コンポジット編集部
１８０評価部
１９０クライアントＵＩモジュール
２００情報取得モジュール
２１０入力テキスト取得部
２２０センサ取得部
３００センサ部
４００クライアントＵＩ表示部

【要約】

【課題】ユーザからの入力クエリに応じて動画データを取得する。
【解決手段】本開示に係る映像生成システムは、動画生成に関する入力クエリをユーザから取得する取得部と、前記入力クエリに基づいて、動画生成に関するシナリオデータを生成するシナリオ生成部と、前記シナリオデータに基づいて、３Ｄデータを構成するためのコードを生成するコード生成部と、前記コードに基づいて、動画データを取得する動画データ取得部と、を備える。
【選択図】図３