特開2024-66971 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ クリスタルメソッド株式会社の特許一覧

特開2024-66971映画生成装置及び映画生成システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024066971

(43)【公開日】2024-05-16

(54)【発明の名称】映画生成装置及び映画生成システム

(51)【国際特許分類】

G06T 13/40 20110101AFI20240508BHJP

G10L 13/00 20060101ALI20240508BHJP

G06F 3/16 20060101ALI20240508BHJP

G06N 20/00 20190101ALI20240508BHJP

【ＦＩ】

G06T13/40

G10L13/00 100S

G06F3/16 690

G06N20/00

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2023078217

(22)【出願日】2023-05-10

(31)【優先権主張番号】P 2022174638

(32)【優先日】2022-10-31

(33)【優先権主張国・地域又は機関】JP

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り (１）証明書１（展示会名）第６回ＡＩ・人工知能ＥＸＰＯ［春］（開催場所）東京ビックサイト（開催日）令和４年５月１１日（２）証明書２（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｔｗｉｔｔｅｒ．ｃｏｍ／ｃｒｙｓｔａｌ＿ｈａｌ３（ウェブサイトの掲載日）令和４年６月（３）証明書３（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｃａｍｐ－ｆｉｒｅ．ｊｐ／ｐｒｏｊｅｃｔｓ／ｖｉｅｗ／６０３８２５？ｌｉｓｔ＝ｐｒｏｊｅｃｔｓ＿ｆｒｅｓｈ（ウェブサイトの掲載日）令和４年７月１４日（４）証明書４（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ｌＮｉＬ４ＸＬｏＤＳＭｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ｏ０ＹＭｈｊＤｃＴＪ０（ウェブサイトの掲載日）令和４年９月２７日（５）証明書５（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／４ｃＣＡ０Ｘ６ｚｃＲ８（ウェブサイトの掲載日）令和４年９月２８日（６）証明書６（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ａｉ－ｉｎｆｌｕｅｎｃｅｒ．ｊｐ／ｄｅｅｐ－ａｉ／（ウェブサイトの掲載日）令和４年１０月７日（７）証明書７（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ｒＬｅＸＡＪｃｈｆＺ４（ウェブサイトの掲載日）令和４年１０月１３日（８）証明書８（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ｍＣＩｎｂｚＦａｈＲＡ（ウェブサイトの掲載日）令和４年１０月２８日（９）証明書９（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ｇ７ｇＥＥＩＲ７ｉＶ４（ウェブサイトの掲載日）令和４年１１月３日（１０）証明書１０（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｃｒｙｓｔａｌ－ｍｅｔｈｏｄ．ｃｏｍ／ｄｅｅｐ－ａｉ－ｍｏｖｉｅ－ｃｒｅａｔｏｒ／ｈｔｔｐｓ：／／ｃｒｙｓｔａｌ－ｍｅｔｈｏｄ．ｃｏｍ／ｉｎｆｏｒｍａｔｉｏｎ／ｄｅｅｐｍｏｖｉｅｃｒｅａｔｏｒ－ｖ－３／（ウェブサイトの掲載日）令和４年１２月６日（１１）証明書１１（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ｒＬ９ｓｗｈ５２ｃＦｗ（ウェブサイトの掲載日）令和４年１２月１７日

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り（１２）証明書１２（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／Ｆ６ｌｍＵＯＰＲｙｐＩ（ウェブサイトの掲載日）令和５年１月１１日（１３）証明書１３（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ｓ＿Ｎｊｔ８Ｗｓｆｓｓ（ウェブサイトの掲載日）令和５年１月１６日（１４）証明書１４（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｐｒｔｉｍｅｓ．ｊｐ／ｍａｉｎ／ｈｔｍｌ／ｒｄ／ｐ／００００００００２．０００１１３３３８．ｈｔｍｌ（ウェブサイトの掲載日）令和５年１月１７日（１５）証明書１５（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ｌｗｊＫ＿ＥＫａｗ＿ｏ（ウェブサイトの掲載日）令和５年２月７日（１６）証明書１６（集会名）令和５年新時代体感ウェビナー（開催場所）オンラインで開催された（主催者株式会社アイスマイリー）（開催日）令和５年２月９日（１７）証明書１７（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ｔＩ６ｕｖＣ３ｏＹ７ｃ（ウェブサイトの掲載日）令和５年２月２０日（１８）証明書１８（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ｂＤ４ｊ７ＬｙＭ２４０（ウェブサイトの掲載日）令和５年３月１日（１９）証明書１９（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ＳＢＩｗＮｌｈ－ｊＴｏ（ウェブサイトの掲載日）令和５年３月２８日（２０）証明書２０（ウェブサイトのアドレス）ｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ＮＡＬＺｚＬｕ６ｖＦＱｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／ｋｎｂｈｒＬＭＣｇＷＡｈｔｔｐｓ：／／ｙｏｕｔｕ．ｂｅ／９ＦｊｔｗｉＣＱＣＧＭ（ウェブサイトの掲載日）令和５年４月７日（２１）証明書２１（集会名）令和５年新時代体感ウェビナー（開催場所）オンラインで開催された（主催者株式会社アイスマイリー）（開催日）令和５年４月１２日

(71)【出願人】

【識別番号】517198517

【氏名又は名称】ＡＩ－Ｔｅｃｈ．Ｉｎｓｔｉｔｕｔｅ株式会社

(74)【代理人】

【識別番号】100120868

【弁理士】

【氏名又は名称】安彦元

(72)【発明者】

【氏名】河合継

【テーマコード（参考）】

5B050

【Ｆターム（参考）】

5B050BA09

5B050BA12

5B050CA07

5B050DA04

5B050EA19

5B050FA05

5B050FA10

(57)【要約】

【課題】動画作成工数を大幅削減可能とし、本人そっくりのアバターを用いてアバターがテキストを読み上げる、動画を自動で生成可能な映画生成装置を提供する。
【解決手段】動画を自動で生成可能な映画生成装置であって、ユーザ本人とそっくりの見た目で、動いて喋るアバターを作成するアバター作成手段と、前記アバター作成手段により作成されたアバターに読み上げてほしい文章を入力する入力手段と、背景画像及び／又は動画を設定する設定手段と、前記アバター作成手段により作成された複数のアバターから動画作成に使用するアバターを選択する選択手段と、前記設定手段により設定された背景画像及び／又は動画と、前記選択手段により選択されたアバターとから自動的に動画を生成する動画生成手段と、を備えたことを特徴とする。
【選択図】図２３

【特許請求の範囲】

【請求項1】

動画を自動で生成可能な映画生成装置であって、
ユーザ本人とそっくりの見た目で、動いて喋るアバターを作成するアバター作成手段と、
前記アバター作成手段により作成されたアバターに読み上げてほしい文章を入力する入力手段と、
背景画像及び／又は動画を設定する設定手段と、
前記アバター作成手段により作成された複数のアバターから動画作成に使用するアバターを選択する選択手段と、
前記設定手段により設定された背景画像及び／又は動画と、前記選択手段により選択されたアバターとから自動的に動画を生成する動画生成手段と、
を備えたことを特徴とする映画生成装置。

【請求項2】

前記アバターは、少なくともユーザ本人の顔画像、声、動作を反映することを特徴とする請求項１記載の映画生成装置。

【請求項3】

前記動画生成手段の動画生成前に、動画タイトル情報、動画に重畳表示させる字幕情報、外国語への音声変換するための言語選択情報のうち、いずれか一以上の情報を入力することを特徴とする請求項１又は２記載の映画生成装置。

【請求項4】

前記アバター作成手段は、ユーザ本人の写真又は画像１枚のみでアバターを作成することを特徴とする請求項１記載の映画作成装置。

【請求項5】

キャラクターの音声データを入力する音声入力箇所と、テキストデータを入力するテキスト入力箇所と、前記キャラクターに関するキャラクターデータを入力するキャラクター入力箇所を有する画面を表示する表示部と、
前記音声入力箇所を介して入力された音声データに基づいて、前記音声データの音響の特徴を示す音響データを抽出する抽出部と、
前記テキスト入力箇所を介して入力されたテキストデータと、前記抽出部により抽出された音響データとに基づいて、前記キャラクターの音声と前記テキストデータのテキストとに基づく復元音声データを生成する生成部と、
前記キャラクター入力箇所を介して入力されたキャラクターデータに基づいて、提示する画像データを選択する選択部と、
前記生成部により生成された復元音声データと、前記選択部により選択された画像データとを提示する提示部とを備えること
を特徴とする映画生成装置。

【請求項6】

予め取得された参照用音声データと参照用音響データとを一組のデータセットとする音響用学習データを複数用いて、機械学習により生成された音響モデルを記憶する記憶部をさらに備え、
前記抽出部は、前記記憶部に記憶された音響モデルを参照して、前記音声データに基づいて、前記音響データを抽出すること
を特徴とする請求項５に記載の映画生成装置。

【請求項7】

予め取得された参照用テキストデータ及び参照用音響データと復元音声データとを一組のデータセットとする復元用学習データを複数用いて、機械学習により生成された復元モデルを記憶する記憶部をさらに備え、
前記生成部は、前記記憶部に記憶された復元モデルを参照して、前記テキストデータと、前記音響データとに基づいて、前記復元音声データを生成すること
を特徴とする請求項５に記載の映画生成装置。

【請求項8】

前記テキスト入力箇所を介して入力されたテキストデータを翻訳する翻訳部をさらに備え、
前記生成部は、前記翻訳部により翻訳された前記テキストデータと、前記音響データとに基づいて、前記復元音声データを生成すること
を特徴とする請求項５に記載の映画生成装置。

【請求項9】

予め取得された参照用翻訳用テキストデータ及び参照用キャラクターデータとテキストデータとを一組のデータセットとする翻訳用学習データを複数用いて、機械学習により生成された翻訳モデルを記憶する記憶部をさらに備え、
前記翻訳部は、前記記憶部により記憶された翻訳モデルを参照して、前記キャラクター入力箇所を介して入力されたキャラクターデータに基づいて、前記テキスト入力箇所を介して入力されたテキストデータを翻訳すること
を特徴とする請求項８に記載の映画生成装置。

【請求項10】

予め取得された参照用キャラクターデータと画像データとを一組のデータセットとする選択用学習データを複数用いて、機械学習により生成された選択モデルを記憶する記憶部をさらに備え、
前記選択部は、前記記憶部に記憶された選択モデルを参照して、前記キャラクター入力箇所を介して入力されたキャラクターデータに基づいて、提示する画像データを選択すること
を特徴とする請求項５に記載の映画生成装置。

【請求項11】

キャラクターの音声データを取得する音声取得手段と、
テキストデータを取得するテキスト取得手段と、
前記キャラクターに関するキャラクターデータを取得するキャラクター取得手段と、
前記音声取得手段により取得された音声データに基づいて、前記音声データの音響の特徴を示す音響データを抽出する抽出手段と、
前記テキスト取得手段により取得されたテキストデータと、前記抽出手段により抽出された音響データとに基づいて、前記キャラクターの音声と前記テキストデータのテキストとに基づく復元音声データを生成する生成手段と、
前記キャラクター取得手段により取得されたキャラクターデータに基づいて、提示する画像データを選択する選択手段とを備えること
を特徴とする映画生成システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映画生成装置及び映画生成システムに関する。

【背景技術】

【0002】

従来、例えば映画を作成するために、任意のテキストを任意の音声に変換し、出力することができる技術として、例えば特許文献１の音声合成装置及びプログラムが知られている。

【0003】

特許文献１には、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、言語分析部により求めた言語特徴量に、音響の特徴を調整するための調整パラメータの調整量情報を追加する調整量追加部と、調整量追加部により調整量情報が追加された言語特徴量に基づき、予め学習された統計モデルを用いて、音響特徴量を推定する音響特徴量推定部と、音響特徴量推定部により推定された音響特徴量に基づいて、音声信号を合成し、テキストに対して調整パラメータによる調整が加えられた音声信号を出力する音声合成装置について記載されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２２－８１６９１号公報

【特許文献2】特開２００２－２６９５８９号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１の開示技術では、出力する音声データに適した画像データを同時に出力することを想定していない。このため、例えば映画を生成する場合に、出力する音声データに適した画像データを自動的に出力することができない。

【0006】

上記特許文献２では、バーチャルサイト上にユーザの仮想分身を登場させて、バーチャル体感させることにより、ロールプレイングゲーム等において高い趣興性を得ることができるオンデマンドマイクローンシステムが開示されているが、動画作成工数を削減するようなことは考慮されていなかった。

【0007】

また、動画制作を制作会社に依頼する場合、企画から納品まで３ヶ月程度と納品まで時間がかかるという問題があった。撮影日数が増えたり、一からイラストを作成するケースでは、さらに制作時間が増加するという問題があった。企画・撮影・編集といった映像制作の各フローにおいて人件費や諸経費が発生し、３０秒程度の動画１本で５０～１００万円かかり制作費が高額になるという問題があった。新たにキャストを起用し、撮影スタジオ利用すると制作費用はさらに増加する。１度撮影した動画のアップデートが煩雑・面倒であるという問題もあった。撮り直し前後で服装や背景が異なると視聴者が違和感で集中できない、ナレータが退職してそもそも撮り直しができないという問題もあった。

【0008】

そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、出力する音声データに適した画像データを自動的に出力することが可能な映画生成装置及び映画生成システムを提供することにある。

【0009】

本発明の他の目的は、動画作成工数を大幅削減可能とし、本人そっくりのアバターを用いてアバターがテキストを読み上げる、動画を自動で生成可能な映画生成装置及び映画生成システムを提供することにある。

【課題を解決するための手段】

【0010】

第１発明に係る映画生成装置は、動画を自動で生成可能な映画生成装置であって、ユーザ本人とそっくりの見た目で、動いて喋るアバターを作成するアバター作成手段と、前記アバター作成手段により作成されたアバターに読み上げてほしい文章を入力する入力手段と、背景画像及び／又は動画を設定する設定手段と、前記アバター作成手段により作成された複数のアバターから動画作成に使用するアバターを選択する選択手段と、前記設定手段により設定された背景画像及び／又は動画と、前記選択手段により選択されたアバターとから自動的に動画を生成する動画生成手段と、を備えたことを特徴とする。

【0011】

第２発明に係る映画生成装置は、第１発明において、前記アバターは、少なくともユーザ本人の顔画像、声、動作を反映することを特徴とする。

【0012】

第３発明に係る映画生成装置は、第１発明又は第２発明において、前記動画生成手段の動画生成前に、動画タイトル情報、動画に重畳表示させる字幕情報、外国語への音声変換するための言語選択情報のうち、いずれか一以上の情報を入力することを特徴とする。

【0013】

第４発明に係る映画生成装置は、第１発明において、前記アバター作成手段は、ユーザ本人の写真又は画像１枚のみでアバターを作成することを特徴とする。

【0014】

第５発明に係る映画生成装置は、キャラクターの音声データを入力する音声入力箇所と、テキストデータを入力するテキスト入力箇所と、前記キャラクターに関するキャラクターデータを入力するキャラクター入力箇所を有する画面を表示する表示部と、前記音声入力箇所を介して入力された音声データに基づいて、前記音声データの音響の特徴を示す音響データを抽出する抽出部と、前記テキスト入力箇所を介して入力されたテキストデータと、前記抽出部により抽出された音響データとに基づいて、前記キャラクターの音声と前記テキストデータのテキストとに基づく復元音声データを生成する生成部と、前記キャラクター入力箇所を介して入力されたキャラクターデータに基づいて、提示する画像データを選択する選択部と、前記生成部により生成された復元音声データと、前記選択部により選択された画像データとを提示する提示部とを備えることを特徴とする。

【0015】

第６発明に係る映画生成装置は、第５発明において、予め取得された参照用音声データと参照用音響データとを一組のデータセットとする音響用学習データを複数用いて、機械学習により生成された音響モデルを記憶する記憶部をさらに備え、前記抽出部は、前記記憶部に記憶された音響モデルを参照して、前記音声データに基づいて、前記音響データを抽出することを特徴とする。

【0016】

第７発明に係る映画生成装置は、第５発明において、予め取得された参照用テキストデータ及び参照用音響データと復元音声データとを一組のデータセットとする復元用学習データを複数用いて、機械学習により生成された復元モデルを記憶する記憶部をさらに備え、前記生成部は、前記記憶部に記憶された復元モデルを参照して、前記テキストデータと、前記音響データとに基づいて、前記復元音声データを生成することを特徴とする。

【0017】

第８発明に係る映画生成装置は、第５発明において、前記テキスト入力箇所を介して入力されたテキストデータを翻訳する翻訳部をさらに備え、前記生成部は、前記翻訳部により翻訳された前記テキストデータと、前記音響データとに基づいて、前記復元音声データを生成することを特徴とする。

【0018】

第９発明に係る映画生成装置は、第５発明において、予め取得された参照用翻訳用テキストデータ及び参照用キャラクターデータとテキストデータとを一組のデータセットとする翻訳用学習データを複数用いて、機械学習により生成された翻訳モデルを記憶する記憶部をさらに備え、前記翻訳部は、前記記憶部により記憶された翻訳モデルを参照して、前記キャラクター入力箇所を介して入力されたキャラクターデータに基づいて、前記テキスト入力箇所を介して入力されたテキストデータを翻訳することを特徴とする。

【0019】

第１０発明に係る映画生成装置は、第５発明において、予め取得された参照用キャラクターデータと、画像データとを一組のデータセットとする選択用学習データを複数用いて、機械学習により生成された選択モデルを記憶する記憶部をさらに備え、前記選択部は、前記記憶部に記憶された選択モデルを参照して、前記キャラクター入力箇所を介して入力されたキャラクターデータに基づいて、提示する画像データを選択することを特徴とする。

【0020】

第１１発明に係る映画生成システムは、キャラクターの音声データを取得する音声取得手段と、テキストデータを取得するテキスト取得手段と、前記キャラクターに関するキャラクターデータを取得するキャラクター取得手段と、前記音声取得手段により取得された音声データに基づいて、前記音声データの音響の特徴を示す音響データを抽出する抽出手段と、前記テキスト取得手段により取得されたテキストデータと、前記抽出手段により抽出された音響データとに基づいて、前記キャラクターの音声と前記テキストデータのテキストとに基づく復元音声データを生成する生成手段と、前記キャラクター取得手段により取得されたキャラクターデータに基づいて、提示する画像データを選択する選択手段とを備えることを特徴とする。

【発明の効果】

【0021】

第１発明～第４発明によれば、動画作成工数を大幅削減可能とし、本人そっくりのアバターを用いてアバターがテキストを読み上げる、動画を自動で生成可能な映画生成装置を実現することができる。

【0022】

第５発明～第１１発明によれば、テキストデータと、音響データとに基づいて、復元音声データを生成し、キャラクターデータに基づいて、提示する画像データを選択する。これにより、キャラクターに適した音声データと画像データとを出力することが可能となる。このため、出力する音声データに適した画像データを自動的に出力することが可能となる。

【0023】

特に、第６発明によれば、抽出部は、音響モデルを参照して、音声データに基づいて、音響データを抽出する。これにより、精度よく音響データを抽出できる。このため、よりキャラクターに適した音声データを出力することが可能となる。

【0024】

特に、第７発明によれば、生成部は、復元モデルを参照して、テキストデータと、音響データとに基づいて、復元音声データを生成する。これにより、精度よく復元音声データを生成できる。このため、よりキャラクターに適した音声データを出力することが可能となる。

【0025】

特に、第８発明によれば、翻訳部は、テキストデータを翻訳する。このため、任意の言語を用いて、復元音声データを出力することが可能となる。

【0026】

特に、第９発明によれば、翻訳モデルを参照して、キャラクターデータに基づいて、テキストデータを翻訳する。これにより、例えばキャラクターが女性であった場合、キャラクターの性別に合わせた翻訳が可能となる。このため、よりキャラクターに適した音声データを出力することが可能となる。

【0027】

特に、第１０発明によれば、選択部は、選択モデルを参照して、キャラクターデータに基づいて、提示する画像データを選択する。これにより、精度よくキャラクターに適した画像データとを出力することが可能となる。このため、出力する音声データに適した画像データを自動的に出力することが可能となる。

【図面の簡単な説明】

【0028】

【図1】図１は、実施形態における映画生成システムの一例を示す模式図である。

【図2】図２は、実施形態における映画生成システムの動作の一例を示す模式図である。

【図3】図３は、実施形態における映画生成システムの翻訳を用いる場合の動作の一例を示す模式図である。

【図4】図４は、実施形態における映画生成システムの提示する画像を選択する動作の一例を示す模式図である。

【図5】図５（ａ）は、音データの一例を示す模式図であり、図５（ｂ）は、スペクトログラムの一例を示す模式図である。

【図6】図６（ａ）は、音響モデルの学習方法の一例を示す模式図であり、図６（ｂ）は、復元モデルの学習方法の一例を示す模式図である。

【図7】図７（ａ）は、翻訳モデルの学習方法の一例を示す模式図であり、図７（ｂ）は、選択モデルの学習方法の一例を示す模式図である。

【図8】図８は、抽出モデルの一例を示す模式図である。

【図9】図９は、復元モデルの一例を示す模式図である。

【図10】図１０（ａ）は、実施形態における映画生成装置の構成の一例を示す模式図であり、図１０（ｂ）は、実施形態における映画生成装置の機能の一例を示す模式図である。

【図11】図１１は、実施形態における映画生成システムの動作の一例を示すフローチャートである。

【図12】図１２は、テキスト入力画面の一例である。

【図13】図１３は、キャラクター入力画面の一例である。

【図14】図１４は、提示画面の一例である。

【図15】図１５は、本発明の実施形態におけるクラウドサービスにおけるクラウドインスタンス手順フローチャートである。

【図16】図１６は、図１５のクラウドサービスにＧｏｏｇｌｅＣｌｏｕｄを用いた初期画面の一例を示す図である。

【図17】図１７は、クラウドサービスのプロジェクト選択画面の一例を示す図である。

【図18】図１８は、ナビゲーションメニュー選択画面の一例を示す図である。

【図19】図１９は、クラウドサービスの仮想マシンのＶＭインスタンス起動画面の一例を示す図である。

【図20】図２０は、ＶＭインスタンスの開始又は再開画面の一例を示す図である。

【図21】図２１は、ＶＭインスタンスの停止画面の一例を示す図である。

【図22】図２２は、本発明の実施形態における映画生成装置のアプリケーションへのログイン画面の一例を示す図である。

【図23】図２３は、本発明の実施形態における自動動画生成アプリの概略フローチャートである。

【図24】図２４は、ユーザ本人そっくりのアバター作成画面の一例を示す図である。

【図25】図２５は、図２４の写真からアバターを作成する一例を説明するための図（その１）である。

【図26】図２６は、図２４の写真からアバターを作成する一例を説明するための図（その２）である。

【図27】図２７は、図２４の写真と音声からアバターを作成する一例を説明するための図である。

【図28】図２８は、作成したアバターの一覧を示す図である。

【図29】図２９は、作成したアバターを用いた動画生成画面の一例を示す図（その１）である。

【図30】図３０は、作成したアバターを用いた動画生成画面の一例を示す図（その２）である。

【図31】図３１は、動画生成完了画面の一例を示す図である。

【図32】図３２は、本発明の実施形態における自動動画生成アプリの動画生成モード選択画面の一例を示す図である。

【図33】図３３は、本発明の実施形態における自動動画生成アプリの詳細フローチャートである。

【図34】図３４（ａ）は年代別アバター（顔）の一例を示す図である。図３４（ｂ）は年代別アバター（声）の一例を示す図である。

【発明を実施するための形態】

【0029】

以下、本発明を適用した実施形態における映画生成装置及び映画生成システムの一例について、図面を参照しながら説明する。

【0030】

＜第１実施形態＞
図を用いて、本実施形態における映画生成システム１００、及び映画生成装置１の一例について説明する。図１は、実施形態における映画生成システム１００の一例を示す模式図である。図２は、実施形態における映画生成システム１００の動作の一例を示す模式図である。図３は、実施形態における映画生成システム１００の翻訳を用いる場合の動作の一例を示す模式図である。図４は、実施形態における映画生成システム１００の提示する画像を選択する動作の一例を示す模式図である。

【0031】

映画生成システム１００は、例えば図１に示すように、映画生成装置１を備える。映画生成システム１００は、例えば端末２及びサーバ３の少なくとも何れかを備えてもよい。映画生成装置１は、例えば通信網４を介して端末２やサーバ３と接続される。

【0032】

映画生成システム１００は、図２に示すように、キャラクターの音声データと、テキストデータと、キャラクターに関するキャラクターデータとを取得し、音声データに基づいて、音声データの音響の特徴を示す音響データを抽出し、テキストデータと音響データとに基づいて、キャラクターの音声とテキストデータのテキストとに基づく復元音声データを生成し、キャラクターデータに基づいて、提示する画像データを選択し、復元音声データと、画像データとを提示する。

【0033】

また、映画生成システム１００は、予め取得された参照用音声データと、参照用音響データとを一組のデータセットとする音響用学習データを複数用いて、機械学習により生成された音響モデルを参照して、音声データに基づいて、音響データを抽出する。

【0034】

また、映画生成システム１００は、図２に示すように、予め取得された参照用テキストデータ及び参照用音響データと、復元音声データとを一組のデータセットとする復元用学習データを複数用いて、機械学習により生成された復元モデルを参照して、テキストデータと、音響データとに基づいて、復元音声データを生成する。

【0035】

また、映画生成システム１００は、図３に示すように、予め取得された参照用翻訳用テキストデータ及び参照用キャラクターデータと、テキストデータとを一組のデータセットとする翻訳用学習データを複数用いて、機械学習により生成された翻訳モデルを参照して、キャラクターデータに基づいて、テキストデータを翻訳する。

【0036】

また、映画生成システム１００は、図４に示すように、予め取得された参照用キャラクターデータと、画像データとを一組のデータセットとする選択用学習データを複数用いて、機械学習により生成された選択モデルを参照して、キャラクターデータに基づいて、提示する画像データを選択する。

【0037】

音声データは、例えば映画生成システム１００によって出力される音響データを抽出するために用いられる。音声データは、例えば図示しないマイク等の収音装置により収集されたキャラクターの音声に基づき生成される。音声データは、例えば人の会話に基づいた音を示すデータである。参照用音声データとして、例えば音声データと同じデータ形式が用いられる。また、音声データは、音声から生成されたスペクトログラムの画像データを含んでもよい。

【0038】

音声データは、音を符号化したものである。音の符号化には例えば、量子化ビット数とサンプリング周波数と時間とで定まる長さのビット列として表されるパルス符号変調（ＰＣＭ）方式に基づくものと、音の波の疎密を１ｂｉｔで表現して一定の間隔で標本化するパルス密度変調（ＰＤＭ）方式に基づくものなどがある。また、音声データは、例えば図５（ａ）に示すように、時間軸に対する振幅で示されてもよい。

【0039】

スペクトログラムは、例えば図５（ｂ）に示すように、時間軸及び周波数軸に対する強度（振幅）で示され、例えばフーリエ変換（例えば短時間フーリエ変換）を用いて音声データから変換される。スペクトログラムは、画像データとして用いられ、例えば１ピクセル×１ピクセルは、０．０６４ｓｅｃ×１５．６２４Ｈｚの範囲に対応する。

【0040】

復元音声データは、キャラクターの音声とテキストデータのテキストとに基づく音声データである。復元音声データは、キャラクターの音声を用いてテキストデータのテキストを読み上げる音声を擬似的に生成した音声データである。また、復元音声データは、キャラクターの音声の特徴を踏まえ、生成した音声を用いて、テキストデータのテキストを読み上げた音声のデータであってもよい。

【0041】

テキストデータは、例えば映画生成システム１００によって出力される提示する画像データを生成する際に用いられる。テキストデータは、文字など文字コードによって表されるデータである。テキストデータは、例えば、モニタやプリンタなどの機器を制御するためのデータである制御文字を含む。制御文字は、例えば、改行を表す改行文字やタブ（水平タブ）などが含まれる。また、テキストデータは、テキスト特徴量データを含む。テキストデータは、例えば通信網４を介して、キャラクターに関する情報が記載されたデータを含む。また、テキストデータは、音声データを音声認識することによって抽出したものであってもよい。テキストデータは、例えば映画生成装置１等を介して、ユーザ等により入力されてもよい。

【0042】

音響データは、音声データの音響の特徴を示すデータである。音声の特徴は、音響の特徴と、音声の言語的意味に伴い、音声をテキストに変換しても損なわない意味特徴量に分けることができる。音響の特徴は、例えば、基本周波数、スペクトル包絡、非周期性指標、スペクトログラム、音声の大きさ、ケプストラム、単語の発音、イントネーション、音波の時間遅れ、音声の時間による増減の変化、音素セグメンテーション等を示したものである。意味特徴量は、発言した単語の傾向、言葉使い等を示したものである。

【0043】

音素セグメンテーションは、音素の開始時点及び終了時点に関するデータである。音素セグメンテーションは、例えば音素の開始時点から終了時点までの時間の長さであってもよい。音素セグメンテーションは、例えば各音素に紐づくセグメンテーションであってもよい。

【0044】

テキスト特徴量データは、テキストデータに含まれる特徴を示すデータである。テキストの特徴とは、例えばテキストを形態素解析し、得られた単語や文章の意味に基づいて算出した、類似する単語及び単語の意味の出現傾向等であってもよい。また、単語や文章の意味に基づいて、ベクトルや関数グラフ等であってもよい。また、テキスト特徴量データは、公知の技術を用いて取得してもよい。

【0045】

キャラクターデータは、キャラクターに関する情報が記載されたテキストデータと、キャラクターの画像を含む画像データとの中の何れか１以上を含むデータである。

【0046】

キャラクターに関する情報が記載されたテキストデータは、例えばキャラクターの住所や氏名等の個人情報にが記載されたテキストデータ、又はキャラクターの好みや思い出等のキャラクターの嗜好について記載されたテキストデータ、又はキャラクターが自分で記載したテキストデータを含む。また、キャラクターに関する情報が記載されたテキストデータは、キャラクターに関する質問に対してキャラクターが回答した内容に関するテキスト形式のデータを含めてもよい。

【0047】

キャラクターの画像を含む画像データは、キャラクターの姿の全身、又は体の一部の画像を含む画像データである。また、キャラクターの画像を含む画像データは、キャラクターに関する質問に対してキャラクターが回答した内容に関する画像形式のデータでもよい。

【0048】

画像データは、例えば映画生成システム１００によって出力される画像データである。画像データは、複数の画素の集合体を含むデータである。画像データは、例えば動画から抽出されたものであってもよく、動画データであってもよい。画像データは、例えば通信網４を介して取得したものであってもよい。画像データは、例えば公知の撮像装置等を用いて撮像された画像を示す他、例えば公知の技術で生成された擬似的な画像を示してもよい。画像データは、例えば映画生成装置１等を介して、映画生成システム１００を利用するユーザ等により入力されてもよい。画像データは複数の画像又は動画を組み合わせたデータであってもよい。画像データは、例えばキャラクターの画像又は動画と、背景の画像又は動画とを組み合わせたものであってもよい。

【0049】

なお、上述した「キャラクター」は、擬似的に生成された人物又は動物、或いは実在する人物又は動物を模して擬似的に生成された人物又は動物のほか、アニメーション等のような、擬似的に生成された人物又は動物でもよい。

【0050】

音響モデルは、入力された音声データから、音響データを出力するモデルである。音響モデルは、例えば機械学習により、生成されてもよい。音響モデルは、例えば図６（ａ）に示すように、一組の予め取得された参照用音声データと、参照用音響データとを学習データ（音響用学習データ）として用いて、生成される。音響モデルは、複数の音響用学習データを用いた機械学習により構築された学習済みモデルが用いられてもよい。なお、音響モデルは、音声データから音響データを抽出し得る手段であれば、例えば音素自動ラベリング等の公知の技術を用いてもよい。

【0051】

参照用音声データ及び参照用音響データは、音響モデル又は復元モデル等の各種モデルを機械学習により生成する際、音響用学習データ又は復元用学習データとして用いられる。参照用音声データ及び参照用音響データとして、例えば予め取得された音声データ及び音響データが用いられる。参照用音声データ及び参照用音響データとして、例えば音声データ及び音響データとそれぞれ同一のデータ形式が用いられる。参照用音声データは、例えば実際に録音された音声に基づく音声データと、擬似的に生成された音声データとの少なくとも何れかであってもよい。

【0052】

復元モデルは、例えば機械学習により生成される。復元モデルとして、例えば参照用テキストデータと参照用音響データとを入力データとし、入力データに対する復元音声データを示す復元音声データを出力データとして、入力データと出力データとを一組の学習データ（復元用学習データ）として用いて、生成される。復元モデルは、複数の復元用学習データを用いた機械学習により構築された、音響データ及びテキストデータから復元音声データを生成するための学習済みモデルが用いられる。

【0053】

参照用テキストデータは、復元モデルを機械学習により生成する際、復元用学習データとして用いられる。参照用テキストデータは、テキストデータと同じデータ形式のものが用いられてもよい。

【0054】

参照用音声データ及び参照用音響データは、例えばＧＡＮ（Generative Adversarial Network）やオートエンコーダをモデルとした機械学習を用いて、生成された生成用データベース、特に、ＣｏｎｄｉｔｉｏｎａｌＧＡＮの一種であるｐｉｘ２ｐｉｘをモデルとした機械学習を用いて、生成された生成用データベースを用いて擬似的に生成されてもよい。

【0055】

翻訳モデルは、例えば機械学習により生成される。翻訳モデルとして、例えば参照用翻訳用テキストデータ及び参照用キャラクターデータを入力データとし、入力データに対する翻訳語のテキストデータを出力データとして、入力データと出力データとを一組の学習データ（翻訳用学習データ）として用いて、生成される。復元モデルは、複数の復元用学習データを用いた機械学習により構築された、翻訳用テキストデータ及びキャラクターデータから翻訳語のテキストデータを生成するための学習済みモデルが用いられる。また、翻訳モデルは参照用翻訳用テキストデータのみを入力データとし、入力データに対する翻訳語のテキストデータを出力データとしてもよい。また、翻訳モデルは参照用翻訳用テキストデータ及び参照用音響データを入力データとし、入力データに対する翻訳語のテキストデータを出力データとしてもよい。

【0056】

参照用翻訳用テキストデータは、翻訳モデルを機械学習により生成する際、翻訳用学習データとして用いられる。参照用翻訳用テキストデータは、テキストデータと同じデータ形式のものが用いられてもよい。

【0057】

選択モデルは、例えば機械学習により生成される。選択モデルとして、例えば参照用キャラクターデータを入力データとし、入力データに対する画像データを出力データとして、入力データと出力データとを一組の学習データ（選択用学習データ）として用いて、生成される。選択モデルは、複数の選択用学習データを用いた機械学習により構築された、キャラクターデータから画像データを生成するための学習済みモデルが用いられる。

【0058】

参照用キャラクターデータは、選択モデルを機械学習により生成する際、選択用学習データとして用いられる。参照用キャラクターデータは、キャラクターデータと同じデータ形式のものが用いられてもよい。

【0059】

＜学習方法＞
本実施形態における学習方法は、各学習モデルを生成する際に用いられる。

【0060】

学習方法は、例えば図６（ａ）に示すように、音響モデルを生成する。学習方法は、参照用音声データを第１入力データとし、参照用音響データを第１出力データとして、第１入力データと第１出力データとを一対のデータセットとする音響用学習データを取得する。学習方法は、複数の音響用学習データを用いた機械学習により、音声データから音響データを抽出するための音響モデルを生成する。

【0061】

また、学習方法は、例えば図６（ｂ）に示すように、復元モデルを生成する。学習方法は、参照用テキストデータ及び参照用音響データを第２入力データとし、復元音声データを第２出力データとして、第２入力データと第２出力データとを一対のデータセットとする復元用学習データを取得する。学習方法は、複数の復元用学習データを用いた機械学習により、テキストデータ及び音響データから復元音声データを生成するための復元モデルを生成する。

【0062】

また、学習方法は、例えば図７（ａ）に示すように、翻訳モデルを生成する。学習方法は、参照用翻訳用テキストデータ及び参照用キャラクターデータを第３入力データとし、翻訳語のテキストデータを第３出力データとして、第３入力データと第３出力データとを一対のデータセットとする翻訳用学習データを取得する。学習方法は、複数の翻訳用学習データを用いた機械学習により、翻訳用テキストデータ及びキャラクターデータから翻訳語のテキストデータを生成するための翻訳モデルを生成する。

【0063】

また、学習方法は、例えば図７（ｂ）に示すように、選択モデルを生成する。学習方法は、参照用キャラクターデータを第４入力データとし、画像データを第４出力データとして、第４入力データと第４出力データとを一対のデータセットとする選択用学習データを取得する。学習方法は、複数の選択用学習データを用いた機械学習により、キャラクターデータから画像データを生成するための選択モデルを生成する。

【0064】

学習方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、上述したデータベースを生成する。上述したデータベースは、例えばＣＮＮ（Convolution Neural Network）等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。

【0065】

音響モデルには、例えば第１入力データと第１出力データとの間における連関度を有する第１連関性が記憶される。連関度は、第１入力データと第１出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

【0066】

例えば第１連関性は、多対多の情報（複数の第１入力データ、対、複数の第１出力データ）の間における繋がりの度合いにより構築される。第１連関性は、機械学習の過程で適宜更新され、例えば複数の第１入力データ、及び複数の第１出力データに基づいて最適化された関数（分類器）を示す。なお、第１連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。

【0067】

このため、映画生成システム１００では、例えば分類器の判定した結果を全て踏まえた第１連関性を用いて、入力データに対する出力データを選択する。これにより、音声データが、参照用音声データと同一又は類似である場合のほか、非類似である場合においても、音声データに適した音響データを定量的に選択することができる。

【0068】

第１連関性は、例えば図８に示すように、複数の第１出力データと、複数の第１入力データとの間における繋がりの度合いを示してもよい。この場合、第１連関性を用いることで、複数の第１出力データ（図８では「参照用音響データＡ」～「参照用音響データＣ」）のそれぞれに対し、複数の第１入力データ（図８では「参照用音声データＡ」～「参照用音声データＣ」）の関係の度合いを紐づけて記憶させることができる。このため、例えば第１連関性を介して、１つの第１出力データに対して、複数の第１入力データを紐づけることができる。これにより、音声データに対して多角的な音響データの選択を実現することができる。

【0069】

第１連関性は、例えば各第１出力データと、各第１入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、１０段階、又は５段階等の３段階以上で示され、例えば線の特徴（例えば太さ等）で示される。例えば、第１入力データに含まれる「参照用音声データＡ」は、第１出力データに含まれる「参照用音響データＡ」との間の連関度ＡＡ「７３％」を示し、第１出力データに含まれる「参照用音響データＢ」との間の連関度ＡＢ「１２％」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。

【0070】

また、音響モデルは、第１入力データと第１出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。第１入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。

【0071】

復元モデルには、例えば第２入力データと第２出力データとの間における連関度を有する第２連関性が記憶される。

【0072】

例えば第２連関性は、多対多の情報（複数の第２入力データ、対、複数の第２出力データ）の間における繋がりの度合いにより構築される。

【0073】

このため、映画生成システム１００では、例えば分類器の判定した結果を全て踏まえた第２連関性を用いて、入力データに対する出力データを選択する。

【0074】

第２連関性は、例えば図９に示すように、複数の第２出力データと、複数の第２入力データとの間における繋がりの度合いを示してもよい。

【0075】

また、復元モデルは、第２入力データと第２出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。

【0076】

翻訳モデルには、例えば第３入力データと第３出力データとの間における連関度を有する第３連関性が記憶される。

【0077】

例えば第３連関性は、多対多の情報（複数の第３入力データ、対、複数の第３出力データ）の間における繋がりの度合いにより構築される。

【0078】

このため、映画生成システム１００では、例えば分類器の判定した結果を全て踏まえた第３連関性を用いて、入力データに対する出力データを選択する。

【0079】

第３連関性は、例えば複数の第３出力データと、複数の第３入力データとの間における繋がりの度合いを示してもよい。

【0080】

また、翻訳モデルは、第３入力データと第３出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。

【0081】

選択モデルには、例えば第４入力データと第４出力データとの間における連関度を有する第４連関性が記憶される。

【0082】

例えば第４連関性は、多対多の情報（複数の第４入力データ、対、複数の第４出力データ）の間における繋がりの度合いにより構築される。

【0083】

このため、映画生成システム１００では、例えば分類器の判定した結果を全て踏まえた第４連関性を用いて、入力データに対する出力データを選択する。

【0084】

第４連関性は、例えば複数の第４出力データと、複数の第４入力データとの間における繋がりの度合いを示してもよい。

【0085】

また、選択モデルは、第４入力データと第４出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。

【0086】

＜映画生成装置１＞
次に、図１０を参照して、本実施形態における映画生成装置１の一例を説明する。図１０（ａ）は、本実施形態における映画生成装置１の構成の一例を示す模式図であり、図１０（ｂ）は、本実施形態における映画生成装置１の機能の一例を示す模式図である。

【0087】

映画生成装置１として、例えばラップトップ（ノート）ＰＣ又はデスクトップＰＣ等の電子機器が用いられる。映画生成装置１は、例えば図７（ａ）に示すように、筐体１０と、ＣＰＵ（Central Processing Unit）１０１と、ＲＯＭ（Read Only Memory）１０２と、ＲＡＭ（Random Access Memory）１０３と、保存部１０４と、Ｉ／Ｆ１０５～１０７とを備える。各構成１０１～１０７は、内部バス１１０により接続される。

【0088】

ＣＰＵ１０１は、映画生成装置１全体を制御する。ＲＯＭ１０２は、ＣＰＵ１０１の動作コードを格納する。ＲＡＭ１０３は、ＣＰＵ１０１の動作時に使用される作業領域である。保存部１０４は、データベースや学習対象データ等の各種情報が記憶される。保存部１０４として、例えばＨＤＤ（Hard Disk Drive）のほか、ＳＳＤ（Solid State Drive）等のデータ保存装置が用いられる。なお、例えば映画生成装置１は、図示しないＧＰＵ（Graphics Processing Unit）を有してもよい。

【0089】

Ｉ／Ｆ１０５は、通信網４を介して、必要に応じて端末２、サーバ３、ウェブサイト等との各種情報の送受信を行うためのインターフェースである。Ｉ／Ｆ１０６は、入力部１０８との情報の送受信を行うためのインターフェースである。入力部１０８として、例えばキーボードが用いられ、映画生成装置１の使用者等は、入力部１０８を介して、各種情報、又は映画生成装置１の制御コマンド等を入力する。また、入力部１０８は、収音が可能な図示しないマイクを備えていてもよい。Ｉ／Ｆ１０７は、表示部１０９との各種情報の送受信を行うためのインターフェースである。表示部１０９は、保存部１０４に保存された各種情報、又は意味データ等を表示する。表示部１０９として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部１０８と一体に設けられる。また、表示部１０９は、スピーカが用いられてもよい。

【0090】

図１０（ｂ）は、映画生成装置１の機能の一例を示す模式図である。映画生成装置１は、取得部１１と、処理部１２と、出力部１４と、記憶部１５とを備え、例えばＤＢ生成部１６を有してもよい。なお、図１０（ｂ）に示した各機能は、ＣＰＵ１０１が、ＲＡＭ１０３を作業領域として、保存部１０４等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。

【0091】

＜＜取得部１１＞＞
取得部１１は、各種データを取得する。取得部１１は、例えば音声データ、テキストデータ、キャラクターデータ等を取得する。取得部１１は、例えば入力部１０８から入力された各種データを取得するほか、例えば通信網４を介して、端末２等から各種データを取得してもよい。

【0092】

取得部１１は、例えば上述した各種モデルの生成に用いられる学習データを取得してもよい。取得部１１は、例えば入力部１０８から入力された学習データを取得するほか、例えば通信網４を介して、端末２等から学習データを取得してもよい。例えば、音響モデルの生成に用いられる音響用学習データが挙げられる。

【0093】

＜＜処理部１２＞＞
処理部１２は、各種処理を行う。処理部１２は、例えば音声データと、テキストデータと、キャラクターデータとを取得し、音声データに基づいて、音声データの音響の特徴を示す音響データを抽出し、テキストデータと音響データとに基づいて、キャラクターの音声とテキストデータのテキストとに基づく復元音声データを生成し、キャラクターデータに基づいて、提示する画像データを選択する。

【0094】

処理部１２は、例えば音響モデルを参照して、音声データに基づいて、音響データを抽出する。処理部１２は、例えば復元モデルを参照して、テキストデータと、音響データとに基づいて、復元音声データを生成する。処理部１２は、例えば翻訳モデルを参照して、キャラクターデータに基づいて、テキストデータを翻訳する。処理部１２は、例えば選択モデルを参照して、キャラクターデータに基づいて、提示する画像データを選択する。

【0095】

＜＜出力部１４＞＞
出力部１４は、復元音声データ及び画像データを出力する。出力部１４は、Ｉ／Ｆ１０７を介して表示部１０９に復元音声データ及び画像データを出力するほか、例えばＩ／Ｆ１０５を介して、端末２等に復元音声データ及び画像データを出力する。

【0096】

＜＜記憶部１５＞＞
記憶部１５は、保存部１０４に保存されたデータベース等の各種データを必要に応じて取り出す。記憶部１５は、取得部１１、処理部１２、ＤＢ生成部１６により取得又は生成された各種データを、必要に応じて保存部１０４に保存する。

【0097】

＜＜ＤＢ生成部１６＞＞
ＤＢ生成部１６は、複数の学習データを用いた機械学習により各種モデルを生成する。機械学習には、例えば上述したニューラルネットワーク等が用いられる。

【0098】

＜端末２＞
端末２は、例えば映画生成システム１００を用いたサービスを利用するユーザ等が保有し、通信網４を介して映画生成装置１と接続される。端末２は、例えばデータベースを生成する電子機器を示してもよい。端末２は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末２は、例えば映画生成装置１の備える機能のうち、少なくとも一部の機能を備えてもよい。また、端末２は、音声データ、及び各学習データを取得するための図示しないマイクを備えていてもよい。端末２は、ユーザに復元音声データ及び画像データを提示できる図示しないディスプレイ、又はスピーカを備えていてもよい。

【0099】

＜サーバ３＞
サーバ３は、通信網４を介して映画生成装置１と接続される。サーバ３は、過去の各種データ等が記憶され、必要に応じて映画生成装置１から各種データが送信される。サーバ３は、例えば映画生成装置１の備える機能のうち、少なくとも一部の機能を備えてもよく、例えば映画生成装置１の代わりに少なくとも一部の処理を行ってもよい。サーバ３は、例えば映画生成装置１の保存部１０４に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部１０４の代わりに用いられてもよい。

【0100】

＜通信網４＞
通信網４は、例えば映画生成装置１が通信回路を介して接続されるインターネット網等である。通信網４は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網４は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。

【0101】

（映画生成システム１００の動作）
次に、本実施形態における映画生成システム１００の動作の一例について説明する。図１１は、本実施形態における映画生成システム１００の動作の一例を示すフローチャートである。

【0102】

まずステップＳ１１０において、取得部１１は、各種データを取得する。取得部１１は、例えば音声データを取得する。取得部１１は、例えばテキストデータを取得する。取得部１１は、例えばキャラクターデータを取得する。取得部１１は、例えば端末２等から各種データを取得するほか、例えば記憶部１５を介して、保存部１０４に取得した各種データを保存してもよい。

【0103】

ステップＳ１１０において、取得部１１は、例えば図１２に示すような端末２に表示された入力画面を介してユーザにより入力された各種データを取得してもよい。取得部１１は、例えば図１２に示すような入力画面を介して、テキストデータ、アバターデータ、言語データ、テキスト位置情報、アバター位置情報等を取得してもよい。アバターデータは、提示する画像に表示するキャラクターの情報である。言語データは、テキストデータのテキストの翻訳先の言語の情報である。テキスト位置情報は、提示する画像において、テキストを表示する位置の情報である。アバター位置情報は、提示する画像において、アバターを表示する位置の情報である。

【0104】

ステップＳ１１０において、取得部１１は、例えば図１３に示すような端末２に表示された入力画面を介してユーザにより入力された各種データを取得してもよい。取得部１１は、例えば図１２に示すような入力画面を介して、キャラクターデータ等を取得してもよい。

【0105】

次に、ステップＳ１２０において、処理部１２は、ステップＳ１１０により取得した音声データに基づいて、音響データを抽出する。処理部１２は、例えば予め取得された参照用音声データと、参照用音響データとを一組のデータセットとする音響用学習データを複数用いて、機械学習により生成された音響モデルを参照して、音声データに基づいて、音響データを抽出する。また、ステップＳ１２０において、処理部１２は、音響モデルを用いることなく、他の公知の技術によって、音声データから音響データを抽出してもよい。

【0106】

また、ステップＳ１２０において、処理部１２は、例えば記憶部１５を介して、音声データから抽出した音響データを保存部１０４に保存してもよい。なお、取得した各データは、例えばサーバ３や他の映画生成装置１に送信されてもよい。また、処理部１２は、予め取得された音声データに基づいて、音響データを抽出してもよい。

【0107】

また、ステップＳ１３０において、処理部１２は、ステップＳ１１０により取得したテキストデータと、ステップＳ１２０により抽出した音響データとに基づいて、復元音声データを生成する。例えばステップＳ１３０において、処理部１２は、予め取得された参照用テキストデータ及び参照用音響データと、復元音声データとを一組のデータセットとする復元用学習データを複数用いて、機械学習により生成された復元モデルを参照して、テキストデータと、音響データとに基づいて、復元音声データを生成する。また、ステップＳ１３０において、処理部１２は、復元モデルを用いることなく、他の公知の技術によって、テキストデータと、音響データとに基づいて、復元音声データを生成してもよい。また、ステップＳ１３０において、処理部１２は、予め取得した音響データとステップＳ１１０により取得したテキストデータとに基づいて、復元音声データを生成してもよい。

【0108】

また、ステップＳ１３０において、処理部１２は、ステップＳ１１０により取得したテキストデータを翻訳してもよい。かかる場合、処理部１２は、例えば、予め取得された参照用翻訳用テキストデータ及び参照用キャラクターデータと、テキストデータとを一組のデータセットとする翻訳用学習データを複数用いて、機械学習により生成された翻訳モデルを参照して、ステップＳ１１０により取得したキャラクターデータに基づいて、ステップＳ１１０により取得したテキストデータを翻訳する。

【0109】

また、ステップＳ１３０において、処理部１２は、例えば、予め取得された参照用翻訳用テキストデータ及び参照用音響データと、テキストデータとを一組のデータセットとする翻訳用学習データを複数用いて、機械学習により生成された翻訳モデルを参照して、ステップＳ１２０により生成した音響データに基づいて、ステップＳ１１０により取得したテキストデータを翻訳する。これにより、音響データに適したテキストデータの翻訳が可能となる。

【0110】

ステップＳ１３０において、処理部１２は、例えば記憶部１５を介して、生成した復元音声データ及び翻訳したテキストデータを保存部１０４に保存してもよい。なお、生成した復元音声データは、例えば端末２やサーバ３や他の映画生成装置１に送信されてもよい。

【0111】

次に、ステップＳ１４０において、処理部１２は、ステップＳ１１０により取得したキャラクターデータに基づいて、提示する画像データを選択する。ステップＳ１４０において、処理部１２は、例えば予め取得された参照用キャラクターデータと、画像データとを一組のデータセットとする選択用学習データを複数用いて、機械学習により生成された選択モデルを参照して、キャラクターデータに基づいて、提示する画像データを選択する。

【0112】

また、ステップＳ１４０において、処理部１２は、ステップＳ１１０により取得したキャラクターデータに基づいて、ストーリーデータを生成してもよい。ストーリーデータは、例えば映画又は動画等の物語を示すテキストデータである。処理部１２は、例えば予め取得されたテキストデータとストーリーデータとの対応を示す対応表を参照し、ステップＳ１１０により取得したキャラクターデータに含まれるキャラクターに関する情報が記載されたテキストデータからストーリーデータを生成してもよい。また、ステップＳ１３０において、処理部１２は、ステップＳ１１０により取得したテキストデータの代わりにステップＳ１４０により生成されたストーリーデータと、ステップＳ１２０により抽出した音響データとに基づいて、復元音声データを生成してもよい。

【0113】

次に、出力部１４は、ステップＳ１３０により生成された復元音声データとステップＳ１４０により選択した画像データとを、表示部１０９や端末２等に出力する。出力部１４は、例えば図１４に示す画面及び復元音声データを表示部１０９を介して提示する。

【0114】

上述した各手段を行うことで、本実施形態における映画生成システム１００の動作が完了する。これにより、キャラクターに適した復元音声データと画像データとを出力することが可能となる。このため、出力する復元音声データに適した画像データを自動的に出力することが可能となる。

【0115】

＜第２実施形態＞
第２実施形態の映画生成装置は、動画を自動で生成可能な映画生成装置であって、ユーザ本人とそっくりの見た目で、動いて喋るアバターを作成するアバター作成手段と、前記アバター作成手段により作成されたアバターに読み上げてほしい文章を入力する入力手段と、背景画像及び／又は動画を設定する設定手段と、前記アバター作成手段により作成された複数のアバターから動画作成に使用するアバターを選択する選択手段と、前記設定手段により設定された背景画像及び／又は動画と、前記選択手段により選択されたアバターとから自動的に動画を生成する動画生成手段と、を備えたものである。また、前記アバターは、少なくともユーザ本人の顔画像、声、動作を反映するものである。さらに、前記動画生成手段の動画生成前に、動画タイトル情報、動画に重畳表示させる字幕情報、外国語への音声変換するための言語選択情報のうち、いずれか一以上の情報を入力するものである。ここで、アバターとは、自分自身を代表するキャラクターや画像をいう。アバターにはイラストや画像、２次元のキャラクターを利用した２Ｄのアバターと、３ＤＣＧで作成された立体的なキャラクターの３Ｄのアバターがある。本明細書では、アバターを実在の写真や画像から作成し、ユーザ本人の見た目、声、趣味、思考、知識、自己認識なども人工知能（ＡＩ）にインストールするものとして、アバターという用語を使用する。
これにより、動画作成工数を大幅削減可能とし、本人そっくりのアバターを用いてアバターがテキストを読み上げる、動画を自動で生成可能な映画生成装置を実現することができる。

【0116】

さらに、本第２実施形態は、上述した実施形態の映画生成装置及び映画生成システムをクラウドサービスで提供する例を示している。クラウドサービスは主にＩａａＳ（イアース）、ＰａａＳ（パース）、ＳａａＳ（サース）の提供形式がある。ＩａａＳはサーバやストレージ、ネットワークといったインフラを提供するサービスである。例えば、ＧｏｏｇｌｅＣｌｏｕｄでは、仮想マシン（ＶＭマシン）を提供するＣｏｍｐｕｔｅＥｎｇｉｎｅや仮想ネットワークを提供するＶｉｒｔｕａｌＰｒｉｖａｔｅＣｌｏｕｄがある。ＰａａＳはプラットフォームを提供するサービスである。例えば、ＧｏｏｇｌｅＣｌｏｕｄでは、Ｗｅｂアプリケーションの動作環境を提供するＡｐｐＥｎｇｉｎｅがある。ＳａａＳはインフラやプラットフォームだけでなくアプリケーションも提供するサービスである。企業向けのＧｍａｉｌやＧｏｏｇｌｅＭｅｅｔなどが含まれるＧｏｏｇｌｅＷｏｒｋｓｐａｃｅがある。

【0117】

このようなクラウドサービスを利用するためには、クラウドサービスにユーザの新規登録を行い、登録したユーザが所定ＵＲＬへのアクセス権付与を完了しておく必要がある。また、登録ユーザがサービス提供者によりログイン情報（ログインＵＲＬ、ユーザＩＤ、パスワードなど）が記載されたメールを受信済みである必要がある。そして、に登録ユーザは、ユーザ端末のブラウザからクラウドサービスに接続することになる。以下では、クラウドサービスとして、ＧｏｏｇｌｅＣｌｏｕｄを利用した例を示すが、他のクラウドサービスのＡＷＳサービスやＡｚｕｒｅサービスなどを利用しても良い。

【0118】

図１５は、本発明の実施形態におけるクラウドサービスにおけるクラウドインスタンス起動手順フローチャートである。
まず、ユーザはブラウザからクラウドサービスにログインし、トップ画面からコンソールへ移動する（ステップ１５０１）。すなわち、図１６に示すように、ＧＣＰ（ＧｏｏｇｌｅＣｌｏｕｄＰｌａｔｆｏｒｍ）からログインし、コンソールへ移動する。図１６の例では、ＧＣＰへログインした直後のトップ画面を示している。トップ画面では、ＧｏｏｇｌｅＣｌｏｕｄのメニュー画面を示している。

【0119】

次に、プロジェクト選択欄より契約中のプロジェクト名を選択する（ステップ１５０２）。すなわち、図１７に示すように、プロジェクトの選択画面には、プロジェクトとフォルダの検索欄があり、プロジェクト名やフォルダ名の検索を行うことができる。ここでは、プロジェクト名が「MySecondProject」であり、ユーザＩＤが「saped-snowfall-335512」であることを示している。プロジェクト名はサービス提供者である運営会社より送付したプロジェクト名に従ったものが表示されることになる。

【0120】

次に選択されたプロジェクト名の表示を確認する（ステップ１５０３）。ここで、図１８に示すように、選択されたプロジェクト名が左上と真ん中に表示されていることを確認する。図１８の例では、DeepAICopyProjectNewが表示されている。その他に、プロジェクト番号「２７４８７６５７７７２」などが表示されている。

【0121】

次に、クラウドインスタンスを呼び出し、ナビゲーションメニューの選択を行う（ステップ１５０４）。すなわち、図１９に示すように、ＧｏｏｇｌｅＣｌｏｕｄのインスタンスを呼び出す。ナビゲーションメニューから、「ＣｏｍｐｕｔｅＥｎｇｉｎｅ」を選択し、「ＶＭインスタンス」をクリックする。

【0122】

次に、ＶＭインスタンスの開始又は再開を行う（ステップ１５０５）。すなわち、図２０に示すように、ＶＭインスタンスのページが開く。会社名（アルファベット）－部署名（アルファベット）－ｄｍｃ欄を示すプロジェクト名のステータスにチェックを入れ、開始又は再開ボタンをクリックする。しばらくすると（例えば、約１分間程度）、インスタンスが開始しました」という表示がされる。ここで、このインスタンスが起動している間、ＧｏｏｇｌｅＣｌｏｕｄの利用料金が発生する。サービスを使い終わったときは、必ず停止させておく。ＧｏｏｇｌｅＣｌｏｕｄを利用することによるタイムチャージ課金が発生するからである。

【0123】

次に、クラウドサービスを使い終わった場合は、ＶＭインスタンスの停止を行う（ステップ）。すなわち、図２１に示すように、会社名（アルファベット）－部署名（アルファベット）－ｄｍｃ欄を示すプロジェクト名のステータスにチェックを入れ、停止ボタンをクリックする。この結果、ＶＭインスタンスが停止される。

【0124】

次に、サービス提供者からメールで送られて来ているＵＲＬをクリックすると、図２２に示すように、ログイン画面が表示されるので、ログイン処理を行う（ステップ１５０７）。これにより、映画生成アプリに接続することができる。図２２の例では、ログインメニュー以外に、サービス提供者によるユーザ管理を行うため、会社登録メニューとユーザ登録メニューが表示されている。

【0125】

図２３は、本発明の実施形態における自動動画生成アプリの概略フローチャートである。以下では、自動動画生成アプリの処理フローについて説明する。

【0126】

まず、自動動画生成アプリは、ユーザ本人とそっくりの見た目で、動いて喋るアバターを作成するアバター作成ステップを実行する（ステップ２３０１）。ここで、アバターは、少なくともユーザ本人の顔画像、声、動作を反映する。

【0127】

次に、アバター作成ステップにより作成されたアバターに読み上げてほしい文章を入力する入力ステップを実行する（ステップ２３０２）。

【0128】

次に、背景画像及び／又は動画を設定する設定ステップを実行する（ステップ２３０３）。

【0129】

次に、アバター作成ステップにより作成された複数のアバターから動画作成に使用するアバターを選択する選択ステップを実行する（ステップ２３０４）。

【0130】

設定ステップにより設定された背景画像及び／又は動画と、選択ステップにより選択されたアバターとから自動的に動画を生成する動画生成ステップを実行する（ステップ２３０５）。ここで、動画生成ステップの動画生成前に、動画タイトル情報、動画に重畳表示させる字幕情報、外国語への音声変換するための言語選択情報のうち、いずれか一以上の情報を入力するように構成しても良い。

【0131】

図２４は、ユーザ本人そっくりのアバター作成画面の一例を示す図である。以下、図２４～図２７を用いてアバター作成について詳細に説明する。

【0132】

図２４の例は、自動動画生成アプリのメインメニュー画面においてアバター作成メニューを選択した画面例を示している。アバター作成ページのアバター作成の説明画面例である。メインメニューとしては、動画作成、ダウンロードページ、アバター作成、アバター購入、請求情報、料金、使用方法、パスワード変更、ログアウトなどがある。

【0133】

＜アバター作成ページ＞
ここでは写真、音声または動画からアバターを作成することができます。
使用方法
＜写真からアバターを作成＞
１．作成するアバターにつける名前を入力してください。
アバターの名前は、英語小文字または数字しか使えません。アバターの最初の文字は数字にできません。
２．声の性質を男性、女性から選んでください。
３．画像を選択してください。選択欄の表示に従って、サンプル画像を選択するか撮影してください。
４．アバター作成ボタンを押してください。
＜写真と音声からからアバターを作成＞
１．作成するアバターにつける名前を入力してください。
アバターの名前は、英語小文字または数字しか使えません。アバターの最初の文字は数字にできません。
２．声の性質を男性、女性から選んでください。
３．画像を選択してください。選択欄の表示に従って、サンプル画像を選択するか撮影してください。
４．読み上げ音声を３文以上登録してください。１）Ｒｅｃボタンで録音開始、マイクに向かって読み上げ後、Ｓｔｏｐボタンで録音停止します。２）Ｃｈｅｃｋボタンを押して、録音が正常か確認してください。※録音が正常な場合は「問題ありません」と表示されます。３）録音に問題がある場合は、再度読み上げを行い、３文以上が「問題ありません」と表示されるようにしてください。
５．アバター作成ボタンを押してください。

【0134】

図２５は、図２４の写真からアバターを作成する一例を説明するための図（その１）である。図２５の例は、図２４のアバター作成ページの使用方法の説明を読み、自分で写真を撮影する例を示している。ここで、撮影時に背景に人物などが映らなければ、色などは問わない。撮影する写真は、１枚のみでもアバターを作成することができる。複数枚撮影してアバターを作成しても良い。スマホのカメラやディジタルカメラなどの画角に入り、撮影開始ボタンを押すと撮影が完了する。

【0135】

図２６は、図２４の写真からアバターを作成する一例を説明するための図（その２）である。自分の写真を撮影するか、用意している写真も使用することも可能である。画像ファイルは、例えば、ＪＰＥＧファイル、ＧＩＦファイル、ＰＮＧファイル、など一般的な画像ファイルや、ディジカメのＥＸＩＦファイルなど適宜使用することができる。

【0136】

図２７は、図２４の写真と音声からアバターを作成する一例を説明するための図である。図２７の例は、写真と音声からアバターを作成する例を示している。この場合、写真からアバターを作成する手順１，２，３を行ってから、追加で４の音声を録音する手順を行う。ここでは、３文音声登録する例を示している。１文目：「統計から推測すると、この町の人数は５年で２倍になるだろう。」をマイクに向かって発話し、Ｒｅｃボタンで登録する。Ｓｔｏｐボタンで音声登録を停止する。チェックボタンを押してチェックし、正常であれば、２文目の音声登録を行う。２文目：「リアルタイムで３０分先まで予報できるのは世界で初めてだということである。」を発話し、１文目と同様な作業を行う。３文目：「ラヴィアンローズは、エディット・ピアフの一種。」の音声登録を行う。登録作業は上述した通りである。図２７の音声登録において、ユーザ本人の音声を録音し、自分の音声データを作ることができる。音声は人工知能（ＤｅｅｐＡＩ）に反映される。音声登録を行ってアバター作成ボタンをクリックすると、写真と音声の紐付けされたアバターが作成できる。

【0137】

また、文章追加ボタンを押すと、追加で音声登録ができる。サービスの仕様では、１０文可能となっているが、これ以上の追加登録を行っても良い。音声データが多い場合、精度が高くなるというメリットがある。また、動画から静止画像を切り出してアバターを作成することもできる。スタジオ撮影でアバターを作成しても良い。スタジオ撮影で写真を撮影する場合は、より精度の高いアバターの作成を行うことができる。

【0138】

図２８は、作成したアバターの一覧を示す図である。以上のようなアバター作成において、今まで作成したアバターはいつでも呼び出すことが可能である。ここで、Ｖ１、Ｖ２、Ｖ３はクラウドサービスにおけるアバターの種類に応じて課金情報が異なることを示している。アバターは男性、女性などの性別で分けられており、生成済みで、登録済みのものはそのアバターの所有者は利用することができる。

【0139】

図２９は、作成したアバターを用いた動画生成画面の一例を示す図（その１）である。図３０～図３２は動画生成処理を説明するための図である。図３３は、本発明の実施形態における自動動画生成アプリの詳細フローチャートである。以下、図２９～図３３を用いて動画生成について説明する。

【0140】

まず、自動動画生成アプリは、図２９又は図３２に示すように、動画生成モードの選択ステップを実行する（ステップ３３０１）。動画生成モードは、ＡＩにお任せ、背景・ＢＧＭを指定して生成、ＣｈａｔＧＰＴで解説文を作成の３種類である。例えば、図２９に示すように、ＡＩにお任せを選択したとする。

【0141】

次に、動画タイトルの入力ステップを実行する（ステップ３３０２）。例えば、「２０２３年度東京都の天気」等。

【0142】

次に、ＡＩに読んでもらいたい文章を入力する（ステップ３３０３）。例えば、２０２３年度東京都の天気は晴です。

【0143】

動画に字幕を入れるのチェックすると、動画に字幕が自動的に生成される（ステップ３３０４）。クラウドサービスの仕様は、入力文字数は２３文字であるが、これに限定されない。字幕は任意であるので、動画に字幕を入れたくない場合は、チェックを外す。ここで、ＡＩにお任せを選択した場合は、ＢＧＭは設定できない仕様である。ＢＧＭを設定すると、データ容量が大きくなり、動画生成時間を短時間に行うため、ＢＧＭの設定を省略している。一文の文章が長いと、自然言語解析ができない恐れがあるので、句点なしでは１８０時以上書くと動画が上手く生成できないことがあるので、１８０文字以下で文字入力する。

【0144】

次に、文章を読み上げるアバターの選択を行う（ステップ３３０５）。図２９では、デフォルトのＨＡＬＶｅｒｓｉｏｎ：ｘを選択した例を示している。ユーザ本人のそっくりの自分のアバターを作ることもできる。

【0145】

次に、生成する動画の音声出力の言語の選択を行う（ステップ３３０６）。仕様では、日本語、英語、中国語への自動翻訳が可能であるが、これらの言語に限定されない。その他の言語の翻訳エンジンを搭載することにより他言語への翻訳も可能である。図３０の例では、日本語→日本語の設定を示している。他言語へ翻訳して動画を生成する際には、３３０文字あたり１円かかります。切り上げした額となるように設定している。

【0146】

以上の作業が完了し、プレビュー画面を開くボタンをクリックすると（ステップ３３０８）、動画の自動生成が開始され（図２９参照）、動画生成が完了すると（ステップ３３０８）、図３０に示すような動画のプレビュー画面が表示される。生成時間と生成割合が表示される。図３０の例では、動画生成に４７分かかり、生成割合は１００％完了したことをあわわしている。これらの作業はブラウザベースで動画自動生成がされるが、複数ブラウザから同時に動画生成を行わないように注意する。作成した動画はおかしくなる可能性があるからである。動画生成後に動画ダウンロードリンクが表示され、ダウンロードリンクをクリックすると、生成した動画のダウンロードを実行することができる。作成した動画は、ＭＰ４などの画像ファイルとして保存される。
なお、生成された動画を再生し、音声間違え（言い間違え）や翻訳間違いが発生した場合は、修正更新機能を設けて、修正更新するように構成しても良い。

【0147】

図３４（ａ）は年代別アバター（顔）の一例を示す図である。図３４（ｂ）は年代別アバター（声）の一例を示す図である。本発明で作成されるアバターは、ユーザ本人にそっくりのリアルアバターであるので、ユーザ本人が発話しているように話すことができる。以上のようなアバターはディジタル保存しておけば、いつでも利用することができる。人間は年齢とともに、顔画像が変わったり、声が変わることが一般的である。よりリアリティを追及すると、２０代、３０代、４０代、５０代、６０代のアバターの顔や声を保存しておき（図３４（ａ）（ｂ）参照）、年代別の動画生成を行うことができる。例えば、これらのアバターを終活に利用したり、新たなサービスへの応用が期待できる。また、図３４（ａ）や図３４（ｂ）では、アバターを顔や声に分けていたが、顔や声を組合せたアバターを使用しても良い。

【0148】

本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0149】

１：映画生成装置
２：端末
３：サーバ
４：通信網
１０：筐体
１１：取得部
１２：処理部
１４：出力部
１５：記憶部
１６：ＤＢ生成部
１００：映画生成システム
１０１：ＣＰＵ
１０２：ＲＯＭ
１０３：ＲＡＭ
１０４：保存部
１０５：Ｉ／Ｆ
１０６：Ｉ／Ｆ
１０７：Ｉ／Ｆ
１０８：入力部
１０９：表示部
１１０：内部バス
２３０１：アバター作成ステップ
２３０２：入力ステップ
２３０３：設定ステップ
２３０４：選択ステップ
２３０５：動画生成ステップ
３３０１：動画生成モードの選択ステップ
３３０２：動画タイトルの入力ステップ
３３０３：読んでもらいたい文章入力ステップ
３３０４：字幕入力ステップ
３３０５：文章を読み上げるアバター入力ステップ
３３０６：言語選択ステップ
３３０７：プレビュー画面表示ステップ
３３０８：動画生成完了ステップ
３３０９：動画ダウンロードリンク表示ステップ

【図1】