(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024066971
(43)【公開日】2024-05-16
(54)【発明の名称】映画生成装置及び映画生成システム
(51)【国際特許分類】
G06T 13/40 20110101AFI20240508BHJP
G10L 13/00 20060101ALI20240508BHJP
G06F 3/16 20060101ALI20240508BHJP
G06N 20/00 20190101ALI20240508BHJP
【FI】
G06T13/40
G10L13/00 100S
G06F3/16 690
G06N20/00
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023078217
(22)【出願日】2023-05-10
(31)【優先権主張番号】P 2022174638
(32)【優先日】2022-10-31
(33)【優先権主張国・地域又は機関】JP
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1)証明書1 (展示会名) 第6回 AI・人工知能 EXPO[春] (開催場所) 東京ビックサイト (開催日) 令和4年5月11日 (2)証明書2 (ウェブサイトのアドレス) https://twitter.com/crystal_hal3 (ウェブサイトの掲載日) 令和4年6月 (3)証明書3 (ウェブサイトのアドレス) https://camp-fire.jp/projects/view/603825?list=projects_fresh (ウェブサイトの掲載日) 令和4年7月14日 (4)証明書4 (ウェブサイトのアドレス) https://youtu.be/lNiL4XLoDSM https://youtu.be/o0YMhjDcTJ0 (ウェブサイトの掲載日) 令和4年9月27日 (5)証明書5 (ウェブサイトのアドレス) https://youtu.be/4cCA0X6zcR8 (ウェブサイトの掲載日) 令和4年9月28日 (6)証明書6 (ウェブサイトのアドレス) https://ai-influencer.jp/deep-ai/ (ウェブサイトの掲載日) 令和4年10月7日 (7)証明書7 (ウェブサイトのアドレス) https://youtu.be/rLeXAJchfZ4 (ウェブサイトの掲載日) 令和4年10月13日 (8)証明書8 (ウェブサイトのアドレス) https://youtu.be/mCInbzFahRA (ウェブサイトの掲載日) 令和4年10月28日 (9)証明書9 (ウェブサイトのアドレス) https://youtu.be/g7gEEIR7iV4 (ウェブサイトの掲載日) 令和4年11月3日 (10)証明書10 (ウェブサイトのアドレス) https://crystal-method.com/deep-ai-movie-creator/ https://crystal-method.com/information/deepmoviecreator-v-3/ (ウェブサイトの掲載日) 令和4年12月6日 (11)証明書11 (ウェブサイトのアドレス) https://youtu.be/rL9swh52cFw (ウェブサイトの掲載日) 令和4年12月17日
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (12)証明書12 (ウェブサイトのアドレス) https://youtu.be/F6lmUOPRypI (ウェブサイトの掲載日) 令和5年1月11日 (13)証明書13 (ウェブサイトのアドレス) https://youtu.be/s_Njt8Wsfss (ウェブサイトの掲載日) 令和5年1月16日 (14)証明書14 (ウェブサイトのアドレス) https://prtimes.jp/main/html/rd/p/000000002.000113338.html (ウェブサイトの掲載日) 令和5年1月17日 (15)証明書15 (ウェブサイトのアドレス) https://youtu.be/lwjK_EKaw_o (ウェブサイトの掲載日) 令和5年2月7日 (16)証明書16 (集会名) 令和5年 新時代体感ウェビナー (開催場所) オンラインで開催された(主催者 株式会社アイスマイリー) (開催日) 令和5年2月9日 (17)証明書17 (ウェブサイトのアドレス) https://youtu.be/tI6uvC3oY7c (ウェブサイトの掲載日) 令和5年2月20日 (18)証明書18 (ウェブサイトのアドレス) https://youtu.be/bD4j7LyM240 (ウェブサイトの掲載日) 令和5年3月1日 (19)証明書19 (ウェブサイトのアドレス) https://youtu.be/SBIwNlh-jTo (ウェブサイトの掲載日) 令和5年3月28日 (20)証明書20 (ウェブサイトのアドレス) https://youtu.be/NALZzLu6vFQ https://youtu.be/knbhrLMCgWA https://youtu.be/9FjtwiCQCGM (ウェブサイトの掲載日) 令和5年4月7日 (21)証明書21 (集会名) 令和5年 新時代体感ウェビナー (開催場所) オンラインで開催された(主催者 株式会社アイスマイリー) (開催日) 令和5年4月12日
(71)【出願人】
【識別番号】517198517
【氏名又は名称】AI-Tech.Institute株式会社
(74)【代理人】
【識別番号】100120868
【弁理士】
【氏名又は名称】安彦 元
(72)【発明者】
【氏名】河合 継
【テーマコード(参考)】
5B050
【Fターム(参考)】
5B050BA09
5B050BA12
5B050CA07
5B050DA04
5B050EA19
5B050FA05
5B050FA10
(57)【要約】
【課題】動画作成工数を大幅削減可能とし、本人そっくりのアバターを用いてアバターがテキストを読み上げる、動画を自動で生成可能な映画生成装置を提供する。
【解決手段】 動画を自動で生成可能な映画生成装置であって、ユーザ本人とそっくりの見た目で、動いて喋るアバターを作成するアバター作成手段と、前記アバター作成手段により作成されたアバターに読み上げてほしい文章を入力する入力手段と、背景画像及び/又は動画を設定する設定手段と、前記アバター作成手段により作成された複数のアバターから動画作成に使用するアバターを選択する選択手段と、前記設定手段により設定された背景画像及び/又は動画と、前記選択手段により選択されたアバターとから自動的に動画を生成する動画生成手段と、を備えたことを特徴とする。
【選択図】
図23
【特許請求の範囲】
【請求項1】
動画を自動で生成可能な映画生成装置であって、
ユーザ本人とそっくりの見た目で、動いて喋るアバターを作成するアバター作成手段と、
前記アバター作成手段により作成されたアバターに読み上げてほしい文章を入力する入力手段と、
背景画像及び/又は動画を設定する設定手段と、
前記アバター作成手段により作成された複数のアバターから動画作成に使用するアバターを選択する選択手段と、
前記設定手段により設定された背景画像及び/又は動画と、前記選択手段により選択されたアバターとから自動的に動画を生成する動画生成手段と、
を備えたことを特徴とする映画生成装置。
【請求項2】
前記アバターは、少なくともユーザ本人の顔画像、声、動作を反映することを特徴とする請求項1記載の映画生成装置。
【請求項3】
前記動画生成手段の動画生成前に、動画タイトル情報、動画に重畳表示させる字幕情報、外国語への音声変換するための言語選択情報のうち、いずれか一以上の情報を入力することを特徴とする請求項1又は2記載の映画生成装置。
【請求項4】
前記アバター作成手段は、ユーザ本人の写真又は画像1枚のみでアバターを作成することを特徴とする請求項1記載の映画作成装置。
【請求項5】
キャラクターの音声データを入力する音声入力箇所と、テキストデータを入力するテキスト入力箇所と、前記キャラクターに関するキャラクターデータを入力するキャラクター入力箇所を有する画面を表示する表示部と、
前記音声入力箇所を介して入力された音声データに基づいて、前記音声データの音響の特徴を示す音響データを抽出する抽出部と、
前記テキスト入力箇所を介して入力されたテキストデータと、前記抽出部により抽出された音響データとに基づいて、前記キャラクターの音声と前記テキストデータのテキストとに基づく復元音声データを生成する生成部と、
前記キャラクター入力箇所を介して入力されたキャラクターデータに基づいて、提示する画像データを選択する選択部と、
前記生成部により生成された復元音声データと、前記選択部により選択された画像データとを提示する提示部とを備えること
を特徴とする映画生成装置。
【請求項6】
予め取得された参照用音声データと参照用音響データとを一組のデータセットとする音響用学習データを複数用いて、機械学習により生成された音響モデルを記憶する記憶部をさらに備え、
前記抽出部は、前記記憶部に記憶された音響モデルを参照して、前記音声データに基づいて、前記音響データを抽出すること
を特徴とする請求項5に記載の映画生成装置。
【請求項7】
予め取得された参照用テキストデータ及び参照用音響データと復元音声データとを一組のデータセットとする復元用学習データを複数用いて、機械学習により生成された復元モデルを記憶する記憶部をさらに備え、
前記生成部は、前記記憶部に記憶された復元モデルを参照して、前記テキストデータと、前記音響データとに基づいて、前記復元音声データを生成すること
を特徴とする請求項5に記載の映画生成装置。
【請求項8】
前記テキスト入力箇所を介して入力されたテキストデータを翻訳する翻訳部をさらに備え、
前記生成部は、前記翻訳部により翻訳された前記テキストデータと、前記音響データとに基づいて、前記復元音声データを生成すること
を特徴とする請求項5に記載の映画生成装置。
【請求項9】
予め取得された参照用翻訳用テキストデータ及び参照用キャラクターデータとテキストデータとを一組のデータセットとする翻訳用学習データを複数用いて、機械学習により生成された翻訳モデルを記憶する記憶部をさらに備え、
前記翻訳部は、前記記憶部により記憶された翻訳モデルを参照して、前記キャラクター入力箇所を介して入力されたキャラクターデータに基づいて、前記テキスト入力箇所を介して入力されたテキストデータを翻訳すること
を特徴とする請求項8に記載の映画生成装置。
【請求項10】
予め取得された参照用キャラクターデータと画像データとを一組のデータセットとする選択用学習データを複数用いて、機械学習により生成された選択モデルを記憶する記憶部をさらに備え、
前記選択部は、前記記憶部に記憶された選択モデルを参照して、前記キャラクター入力箇所を介して入力されたキャラクターデータに基づいて、提示する画像データを選択すること
を特徴とする請求項5に記載の映画生成装置。
【請求項11】
キャラクターの音声データを取得する音声取得手段と、
テキストデータを取得するテキスト取得手段と、
前記キャラクターに関するキャラクターデータを取得するキャラクター取得手段と、
前記音声取得手段により取得された音声データに基づいて、前記音声データの音響の特徴を示す音響データを抽出する抽出手段と、
前記テキスト取得手段により取得されたテキストデータと、前記抽出手段により抽出された音響データとに基づいて、前記キャラクターの音声と前記テキストデータのテキストとに基づく復元音声データを生成する生成手段と、
前記キャラクター取得手段により取得されたキャラクターデータに基づいて、提示する画像データを選択する選択手段とを備えること
を特徴とする映画生成システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映画生成装置及び映画生成システムに関する。
【背景技術】
【0002】
従来、例えば映画を作成するために、任意のテキストを任意の音声に変換し、出力することができる技術として、例えば特許文献1の音声合成装置及びプログラムが知られている。
【0003】
特許文献1には、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、言語分析部により求めた言語特徴量に、音響の特徴を調整するための調整パラメータの調整量情報を追加する調整量追加部と、調整量追加部により調整量情報が追加された言語特徴量に基づき、予め学習された統計モデルを用いて、音響特徴量を推定する音響特徴量推定部と、音響特徴量推定部により推定された音響特徴量に基づいて、音声信号を合成し、テキストに対して調整パラメータによる調整が加えられた音声信号を出力する音声合成装置について記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2022-81691号公報
【特許文献2】特開2002-269589号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の開示技術では、出力する音声データに適した画像データを同時に出力することを想定していない。このため、例えば映画を生成する場合に、出力する音声データに適した画像データを自動的に出力することができない。
【0006】
上記特許文献2では、バーチャルサイト上にユーザの仮想分身を登場させて、バーチャル体感させることにより、ロールプレイングゲーム等において高い趣興性を得ることができるオンデマンドマイクローンシステムが開示されているが、動画作成工数を削減するようなことは考慮されていなかった。
【0007】
また、動画制作を制作会社に依頼する場合、企画から納品まで3ヶ月程度と納品まで時間がかかるという問題があった。撮影日数が増えたり、一からイラストを作成するケースでは、さらに制作時間が増加するという問題があった。企画・撮影・編集といった映像制作の各フローにおいて人件費や諸経費が発生し、30秒程度の動画1本で50~100万円かかり制作費が高額になるという問題があった。新たにキャストを起用し、撮影スタジオ利用すると制作費用はさらに増加する。1度撮影した動画のアップデートが煩雑・面倒であるという問題もあった。撮り直し前後で服装や背景が異なると視聴者が違和感で集中できない、ナレータが退職してそもそも撮り直しができないという問題もあった。
【0008】
そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、出力する音声データに適した画像データを自動的に出力することが可能な映画生成装置及び映画生成システムを提供することにある。
【0009】
本発明の他の目的は、動画作成工数を大幅削減可能とし、本人そっくりのアバターを用いてアバターがテキストを読み上げる、動画を自動で生成可能な映画生成装置及び映画生成システムを提供することにある。
【課題を解決するための手段】
【0010】
第1発明に係る映画生成装置は、動画を自動で生成可能な映画生成装置であって、ユーザ本人とそっくりの見た目で、動いて喋るアバターを作成するアバター作成手段と、前記アバター作成手段により作成されたアバターに読み上げてほしい文章を入力する入力手段と、背景画像及び/又は動画を設定する設定手段と、前記アバター作成手段により作成された複数のアバターから動画作成に使用するアバターを選択する選択手段と、前記設定手段により設定された背景画像及び/又は動画と、前記選択手段により選択されたアバターとから自動的に動画を生成する動画生成手段と、を備えたことを特徴とする。
【0011】
第2発明に係る映画生成装置は、第1発明において、前記アバターは、少なくともユーザ本人の顔画像、声、動作を反映することを特徴とする。
【0012】
第3発明に係る映画生成装置は、第1発明又は第2発明において、前記動画生成手段の動画生成前に、動画タイトル情報、動画に重畳表示させる字幕情報、外国語への音声変換するための言語選択情報のうち、いずれか一以上の情報を入力することを特徴とする。
【0013】
第4発明に係る映画生成装置は、第1発明において、前記アバター作成手段は、ユーザ本人の写真又は画像1枚のみでアバターを作成することを特徴とする。
【0014】
第5発明に係る映画生成装置は、キャラクターの音声データを入力する音声入力箇所と、テキストデータを入力するテキスト入力箇所と、前記キャラクターに関するキャラクターデータを入力するキャラクター入力箇所を有する画面を表示する表示部と、前記音声入力箇所を介して入力された音声データに基づいて、前記音声データの音響の特徴を示す音響データを抽出する抽出部と、前記テキスト入力箇所を介して入力されたテキストデータと、前記抽出部により抽出された音響データとに基づいて、前記キャラクターの音声と前記テキストデータのテキストとに基づく復元音声データを生成する生成部と、前記キャラクター入力箇所を介して入力されたキャラクターデータに基づいて、提示する画像データを選択する選択部と、前記生成部により生成された復元音声データと、前記選択部により選択された画像データとを提示する提示部とを備えることを特徴とする。
【0015】
第6発明に係る映画生成装置は、第5発明において、予め取得された参照用音声データと参照用音響データとを一組のデータセットとする音響用学習データを複数用いて、機械学習により生成された音響モデルを記憶する記憶部をさらに備え、前記抽出部は、前記記憶部に記憶された音響モデルを参照して、前記音声データに基づいて、前記音響データを抽出することを特徴とする。
【0016】
第7発明に係る映画生成装置は、第5発明において、予め取得された参照用テキストデータ及び参照用音響データと復元音声データとを一組のデータセットとする復元用学習データを複数用いて、機械学習により生成された復元モデルを記憶する記憶部をさらに備え、前記生成部は、前記記憶部に記憶された復元モデルを参照して、前記テキストデータと、前記音響データとに基づいて、前記復元音声データを生成することを特徴とする。
【0017】
第8発明に係る映画生成装置は、第5発明において、前記テキスト入力箇所を介して入力されたテキストデータを翻訳する翻訳部をさらに備え、前記生成部は、前記翻訳部により翻訳された前記テキストデータと、前記音響データとに基づいて、前記復元音声データを生成することを特徴とする。
【0018】
第9発明に係る映画生成装置は、第5発明において、予め取得された参照用翻訳用テキストデータ及び参照用キャラクターデータとテキストデータとを一組のデータセットとする翻訳用学習データを複数用いて、機械学習により生成された翻訳モデルを記憶する記憶部をさらに備え、前記翻訳部は、前記記憶部により記憶された翻訳モデルを参照して、前記キャラクター入力箇所を介して入力されたキャラクターデータに基づいて、前記テキスト入力箇所を介して入力されたテキストデータを翻訳することを特徴とする。
【0019】
第10発明に係る映画生成装置は、第5発明において、予め取得された参照用キャラクターデータと、画像データとを一組のデータセットとする選択用学習データを複数用いて、機械学習により生成された選択モデルを記憶する記憶部をさらに備え、前記選択部は、前記記憶部に記憶された選択モデルを参照して、前記キャラクター入力箇所を介して入力されたキャラクターデータに基づいて、提示する画像データを選択することを特徴とする。
【0020】
第11発明に係る映画生成システムは、キャラクターの音声データを取得する音声取得手段と、テキストデータを取得するテキスト取得手段と、前記キャラクターに関するキャラクターデータを取得するキャラクター取得手段と、前記音声取得手段により取得された音声データに基づいて、前記音声データの音響の特徴を示す音響データを抽出する抽出手段と、前記テキスト取得手段により取得されたテキストデータと、前記抽出手段により抽出された音響データとに基づいて、前記キャラクターの音声と前記テキストデータのテキストとに基づく復元音声データを生成する生成手段と、前記キャラクター取得手段により取得されたキャラクターデータに基づいて、提示する画像データを選択する選択手段とを備えることを特徴とする。
【発明の効果】
【0021】
第1発明~第4発明によれば、動画作成工数を大幅削減可能とし、本人そっくりのアバターを用いてアバターがテキストを読み上げる、動画を自動で生成可能な映画生成装置を実現することができる。
【0022】
第5発明~第11発明によれば、テキストデータと、音響データとに基づいて、復元音声データを生成し、キャラクターデータに基づいて、提示する画像データを選択する。これにより、キャラクターに適した音声データと画像データとを出力することが可能となる。このため、出力する音声データに適した画像データを自動的に出力することが可能となる。
【0023】
特に、第6発明によれば、抽出部は、音響モデルを参照して、音声データに基づいて、音響データを抽出する。これにより、精度よく音響データを抽出できる。このため、よりキャラクターに適した音声データを出力することが可能となる。
【0024】
特に、第7発明によれば、生成部は、復元モデルを参照して、テキストデータと、音響データとに基づいて、復元音声データを生成する。これにより、精度よく復元音声データを生成できる。このため、よりキャラクターに適した音声データを出力することが可能となる。
【0025】
特に、第8発明によれば、翻訳部は、テキストデータを翻訳する。このため、任意の言語を用いて、復元音声データを出力することが可能となる。
【0026】
特に、第9発明によれば、翻訳モデルを参照して、キャラクターデータに基づいて、テキストデータを翻訳する。これにより、例えばキャラクターが女性であった場合、キャラクターの性別に合わせた翻訳が可能となる。このため、よりキャラクターに適した音声データを出力することが可能となる。
【0027】
特に、第10発明によれば、選択部は、選択モデルを参照して、キャラクターデータに基づいて、提示する画像データを選択する。これにより、精度よくキャラクターに適した画像データとを出力することが可能となる。このため、出力する音声データに適した画像データを自動的に出力することが可能となる。
【図面の簡単な説明】
【0028】
【
図1】
図1は、実施形態における映画生成システムの一例を示す模式図である。
【
図2】
図2は、実施形態における映画生成システムの動作の一例を示す模式図である。
【
図3】
図3は、実施形態における映画生成システムの翻訳を用いる場合の動作の一例を示す模式図である。
【
図4】
図4は、実施形態における映画生成システムの提示する画像を選択する動作の一例を示す模式図である。
【
図5】
図5(a)は、音データの一例を示す模式図であり、
図5(b)は、スペクトログラムの一例を示す模式図である。
【
図6】
図6(a)は、音響モデルの学習方法の一例を示す模式図であり、
図6(b)は、復元モデルの学習方法の一例を示す模式図である。
【
図7】
図7(a)は、翻訳モデルの学習方法の一例を示す模式図であり、
図7(b)は、選択モデルの学習方法の一例を示す模式図である。
【
図8】
図8は、抽出モデルの一例を示す模式図である。
【
図9】
図9は、復元モデルの一例を示す模式図である。
【
図10】
図10(a)は、実施形態における映画生成装置の構成の一例を示す模式図であり、
図10(b)は、実施形態における映画生成装置の機能の一例を示す模式図である。
【
図11】
図11は、実施形態における映画生成システムの動作の一例を示すフローチャートである。
【
図15】
図15は、本発明の実施形態におけるクラウドサービスにおけるクラウドインスタンス手順フローチャートである。
【
図16】
図16は、
図15のクラウドサービスにGoogle Cloudを用いた初期画面の一例を示す図である。
【
図17】
図17は、クラウドサービスのプロジェクト選択画面の一例を示す図である。
【
図18】
図18は、ナビゲーションメニュー選択画面の一例を示す図である。
【
図19】
図19は、クラウドサービスの仮想マシンのVMインスタンス起動画面の一例を示す図である。
【
図20】
図20は、VMインスタンスの開始又は再開画面の一例を示す図である。
【
図21】
図21は、VMインスタンスの停止画面の一例を示す図である。
【
図22】
図22は、本発明の実施形態における映画生成装置のアプリケーションへのログイン画面の一例を示す図である。
【
図23】
図23は、本発明の実施形態における自動動画生成アプリの概略フローチャートである。
【
図24】
図24は、ユーザ本人そっくりのアバター作成画面の一例を示す図である。
【
図25】
図25は、
図24の写真からアバターを作成する一例を説明するための図(その1)である。
【
図26】
図26は、
図24の写真からアバターを作成する一例を説明するための図(その2)である。
【
図27】
図27は、
図24の写真と音声からアバターを作成する一例を説明するための図である。
【
図29】
図29は、作成したアバターを用いた動画生成画面の一例を示す図(その1)である。
【
図30】
図30は、作成したアバターを用いた動画生成画面の一例を示す図(その2)である。
【
図32】
図32は、本発明の実施形態における自動動画生成アプリの動画生成モード選択画面の一例を示す図である。
【
図33】
図33は、本発明の実施形態における自動動画生成アプリの詳細フローチャートである。
【
図34】
図34(a)は年代別アバター(顔)の一例を示す図である。
図34(b)は年代別アバター(声)の一例を示す図である。
【発明を実施するための形態】
【0029】
以下、本発明を適用した実施形態における映画生成装置及び映画生成システムの一例について、図面を参照しながら説明する。
【0030】
<第1実施形態>
図を用いて、本実施形態における映画生成システム100、及び映画生成装置1の一例について説明する。
図1は、実施形態における映画生成システム100の一例を示す模式図である。
図2は、実施形態における映画生成システム100の動作の一例を示す模式図である。
図3は、実施形態における映画生成システム100の翻訳を用いる場合の動作の一例を示す模式図である。
図4は、実施形態における映画生成システム100の提示する画像を選択する動作の一例を示す模式図である。
【0031】
映画生成システム100は、例えば
図1に示すように、映画生成装置1を備える。映画生成システム100は、例えば端末2及びサーバ3の少なくとも何れかを備えてもよい。映画生成装置1は、例えば通信網4を介して端末2やサーバ3と接続される。
【0032】
映画生成システム100は、
図2に示すように、キャラクターの音声データと、テキストデータと、キャラクターに関するキャラクターデータとを取得し、音声データに基づいて、音声データの音響の特徴を示す音響データを抽出し、テキストデータと音響データとに基づいて、キャラクターの音声とテキストデータのテキストとに基づく復元音声データを生成し、キャラクターデータに基づいて、提示する画像データを選択し、復元音声データと、画像データとを提示する。
【0033】
また、映画生成システム100は、予め取得された参照用音声データと、参照用音響データとを一組のデータセットとする音響用学習データを複数用いて、機械学習により生成された音響モデルを参照して、音声データに基づいて、音響データを抽出する。
【0034】
また、映画生成システム100は、
図2に示すように、予め取得された参照用テキストデータ及び参照用音響データと、復元音声データとを一組のデータセットとする復元用学習データを複数用いて、機械学習により生成された復元モデルを参照して、テキストデータと、音響データとに基づいて、復元音声データを生成する。
【0035】
また、映画生成システム100は、
図3に示すように、予め取得された参照用翻訳用テキストデータ及び参照用キャラクターデータと、テキストデータとを一組のデータセットとする翻訳用学習データを複数用いて、機械学習により生成された翻訳モデルを参照して、キャラクターデータに基づいて、テキストデータを翻訳する。
【0036】
また、映画生成システム100は、
図4に示すように、予め取得された参照用キャラクターデータと、画像データとを一組のデータセットとする選択用学習データを複数用いて、機械学習により生成された選択モデルを参照して、キャラクターデータに基づいて、提示する画像データを選択する。
【0037】
音声データは、例えば映画生成システム100によって出力される音響データを抽出するために用いられる。音声データは、例えば図示しないマイク等の収音装置により収集されたキャラクターの音声に基づき生成される。音声データは、例えば人の会話に基づいた音を示すデータである。参照用音声データとして、例えば音声データと同じデータ形式が用いられる。また、音声データは、音声から生成されたスペクトログラムの画像データを含んでもよい。
【0038】
音声データは、音を符号化したものである。音の符号化には例えば、量子化ビット数とサンプリング周波数と時間とで定まる長さのビット列として表されるパルス符号変調(PCM)方式に基づくものと、音の波の疎密を1bitで表現して一定の間隔で標本化するパルス密度変調(PDM)方式に基づくものなどがある。また、音声データは、例えば
図5(a)に示すように、時間軸に対する振幅で示されてもよい。
【0039】
スペクトログラムは、例えば
図5(b)に示すように、時間軸及び周波数軸に対する強度(振幅)で示され、例えばフーリエ変換(例えば短時間フーリエ変換)を用いて音声データから変換される。スペクトログラムは、画像データとして用いられ、例えば1ピクセル×1ピクセルは、0.064sec×15.624Hzの範囲に対応する。
【0040】
復元音声データは、キャラクターの音声とテキストデータのテキストとに基づく音声データである。復元音声データは、キャラクターの音声を用いてテキストデータのテキストを読み上げる音声を擬似的に生成した音声データである。また、復元音声データは、キャラクターの音声の特徴を踏まえ、生成した音声を用いて、テキストデータのテキストを読み上げた音声のデータであってもよい。
【0041】
テキストデータは、例えば映画生成システム100によって出力される提示する画像データを生成する際に用いられる。テキストデータは、文字など文字コードによって表されるデータである。テキストデータは、例えば、モニタやプリンタなどの機器を制御するためのデータである制御文字を含む。制御文字は、例えば、改行を表す改行文字やタブ(水平タブ)などが含まれる。また、テキストデータは、テキスト特徴量データを含む。テキストデータは、例えば通信網4を介して、キャラクターに関する情報が記載されたデータを含む。また、テキストデータは、音声データを音声認識することによって抽出したものであってもよい。テキストデータは、例えば映画生成装置1等を介して、ユーザ等により入力されてもよい。
【0042】
音響データは、音声データの音響の特徴を示すデータである。音声の特徴は、音響の特徴と、音声の言語的意味に伴い、音声をテキストに変換しても損なわない意味特徴量に分けることができる。音響の特徴は、例えば、基本周波数、スペクトル包絡、非周期性指標、スペクトログラム、音声の大きさ、ケプストラム、単語の発音、イントネーション、音波の時間遅れ、音声の時間による増減の変化、音素セグメンテーション等を示したものである。意味特徴量は、発言した単語の傾向、言葉使い等を示したものである。
【0043】
音素セグメンテーションは、音素の開始時点及び終了時点に関するデータである。音素セグメンテーションは、例えば音素の開始時点から終了時点までの時間の長さであってもよい。音素セグメンテーションは、例えば各音素に紐づくセグメンテーションであってもよい。
【0044】
テキスト特徴量データは、テキストデータに含まれる特徴を示すデータである。テキストの特徴とは、例えばテキストを形態素解析し、得られた単語や文章の意味に基づいて算出した、類似する単語及び単語の意味の出現傾向等であってもよい。また、単語や文章の意味に基づいて、ベクトルや関数グラフ等であってもよい。また、テキスト特徴量データは、公知の技術を用いて取得してもよい。
【0045】
キャラクターデータは、キャラクターに関する情報が記載されたテキストデータと、キャラクターの画像を含む画像データとの中の何れか1以上を含むデータである。
【0046】
キャラクターに関する情報が記載されたテキストデータは、例えばキャラクターの住所や氏名等の個人情報にが記載されたテキストデータ、又はキャラクターの好みや思い出等のキャラクターの嗜好について記載されたテキストデータ、又はキャラクターが自分で記載したテキストデータを含む。また、キャラクターに関する情報が記載されたテキストデータは、キャラクターに関する質問に対してキャラクターが回答した内容に関するテキスト形式のデータを含めてもよい。
【0047】
キャラクターの画像を含む画像データは、キャラクターの姿の全身、又は体の一部の画像を含む画像データである。また、キャラクターの画像を含む画像データは、キャラクターに関する質問に対してキャラクターが回答した内容に関する画像形式のデータでもよい。
【0048】
画像データは、例えば映画生成システム100によって出力される画像データである。画像データは、複数の画素の集合体を含むデータである。画像データは、例えば動画から抽出されたものであってもよく、動画データであってもよい。画像データは、例えば通信網4を介して取得したものであってもよい。画像データは、例えば公知の撮像装置等を用いて撮像された画像を示す他、例えば公知の技術で生成された擬似的な画像を示してもよい。画像データは、例えば映画生成装置1等を介して、映画生成システム100を利用するユーザ等により入力されてもよい。画像データは複数の画像又は動画を組み合わせたデータであってもよい。画像データは、例えばキャラクターの画像又は動画と、背景の画像又は動画とを組み合わせたものであってもよい。
【0049】
なお、上述した「キャラクター」は、擬似的に生成された人物又は動物、或いは実在する人物又は動物を模して擬似的に生成された人物又は動物のほか、アニメーション等のような、擬似的に生成された人物又は動物でもよい。
【0050】
音響モデルは、入力された音声データから、音響データを出力するモデルである。音響モデルは、例えば機械学習により、生成されてもよい。音響モデルは、例えば
図6(a)に示すように、一組の予め取得された参照用音声データと、参照用音響データとを学習データ(音響用学習データ)として用いて、生成される。音響モデルは、複数の音響用学習データを用いた機械学習により構築された学習済みモデルが用いられてもよい。なお、音響モデルは、音声データから音響データを抽出し得る手段であれば、例えば音素自動ラベリング等の公知の技術を用いてもよい。
【0051】
参照用音声データ及び参照用音響データは、音響モデル又は復元モデル等の各種モデルを機械学習により生成する際、音響用学習データ又は復元用学習データとして用いられる。参照用音声データ及び参照用音響データとして、例えば予め取得された音声データ及び音響データが用いられる。参照用音声データ及び参照用音響データとして、例えば音声データ及び音響データとそれぞれ同一のデータ形式が用いられる。参照用音声データは、例えば実際に録音された音声に基づく音声データと、擬似的に生成された音声データとの少なくとも何れかであってもよい。
【0052】
復元モデルは、例えば機械学習により生成される。復元モデルとして、例えば参照用テキストデータと参照用音響データとを入力データとし、入力データに対する復元音声データを示す復元音声データを出力データとして、入力データと出力データとを一組の学習データ(復元用学習データ)として用いて、生成される。復元モデルは、複数の復元用学習データを用いた機械学習により構築された、音響データ及びテキストデータから復元音声データを生成するための学習済みモデルが用いられる。
【0053】
参照用テキストデータは、復元モデルを機械学習により生成する際、復元用学習データとして用いられる。参照用テキストデータは、テキストデータと同じデータ形式のものが用いられてもよい。
【0054】
参照用音声データ及び参照用音響データは、例えばGAN(Generative Adversarial Network)やオートエンコーダをモデルとした機械学習を用いて、生成された生成用データベース、特に、Conditional GANの一種であるpix2pixをモデルとした機械学習を用いて、生成された生成用データベースを用いて擬似的に生成されてもよい。
【0055】
翻訳モデルは、例えば機械学習により生成される。翻訳モデルとして、例えば参照用翻訳用テキストデータ及び参照用キャラクターデータを入力データとし、入力データに対する翻訳語のテキストデータを出力データとして、入力データと出力データとを一組の学習データ(翻訳用学習データ)として用いて、生成される。復元モデルは、複数の復元用学習データを用いた機械学習により構築された、翻訳用テキストデータ及びキャラクターデータから翻訳語のテキストデータを生成するための学習済みモデルが用いられる。また、翻訳モデルは参照用翻訳用テキストデータのみを入力データとし、入力データに対する翻訳語のテキストデータを出力データとしてもよい。また、翻訳モデルは参照用翻訳用テキストデータ及び参照用音響データを入力データとし、入力データに対する翻訳語のテキストデータを出力データとしてもよい。
【0056】
参照用翻訳用テキストデータは、翻訳モデルを機械学習により生成する際、翻訳用学習データとして用いられる。参照用翻訳用テキストデータは、テキストデータと同じデータ形式のものが用いられてもよい。
【0057】
選択モデルは、例えば機械学習により生成される。選択モデルとして、例えば参照用キャラクターデータを入力データとし、入力データに対する画像データを出力データとして、入力データと出力データとを一組の学習データ(選択用学習データ)として用いて、生成される。選択モデルは、複数の選択用学習データを用いた機械学習により構築された、キャラクターデータから画像データを生成するための学習済みモデルが用いられる。
【0058】
参照用キャラクターデータは、選択モデルを機械学習により生成する際、選択用学習データとして用いられる。参照用キャラクターデータは、キャラクターデータと同じデータ形式のものが用いられてもよい。
【0059】
<学習方法>
本実施形態における学習方法は、各学習モデルを生成する際に用いられる。
【0060】
学習方法は、例えば
図6(a)に示すように、音響モデルを生成する。学習方法は、参照用音声データを第1入力データとし、参照用音響データを第1出力データとして、第1入力データと第1出力データとを一対のデータセットとする音響用学習データを取得する。学習方法は、複数の音響用学習データを用いた機械学習により、音声データから音響データを抽出するための音響モデルを生成する。
【0061】
また、学習方法は、例えば
図6(b)に示すように、復元モデルを生成する。学習方法は、参照用テキストデータ及び参照用音響データを第2入力データとし、復元音声データを第2出力データとして、第2入力データと第2出力データとを一対のデータセットとする復元用学習データを取得する。学習方法は、複数の復元用学習データを用いた機械学習により、テキストデータ及び音響データから復元音声データを生成するための復元モデルを生成する。
【0062】
また、学習方法は、例えば
図7(a)に示すように、翻訳モデルを生成する。学習方法は、参照用翻訳用テキストデータ及び参照用キャラクターデータを第3入力データとし、翻訳語のテキストデータを第3出力データとして、第3入力データと第3出力データとを一対のデータセットとする翻訳用学習データを取得する。学習方法は、複数の翻訳用学習データを用いた機械学習により、翻訳用テキストデータ及びキャラクターデータから翻訳語のテキストデータを生成するための翻訳モデルを生成する。
【0063】
また、学習方法は、例えば
図7(b)に示すように、選択モデルを生成する。学習方法は、参照用キャラクターデータを第4入力データとし、画像データを第4出力データとして、第4入力データと第4出力データとを一対のデータセットとする選択用学習データを取得する。学習方法は、複数の選択用学習データを用いた機械学習により、キャラクターデータから画像データを生成するための選択モデルを生成する。
【0064】
学習方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、上述したデータベースを生成する。上述したデータベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。
【0065】
音響モデルには、例えば第1入力データと第1出力データとの間における連関度を有する第1連関性が記憶される。連関度は、第1入力データと第1出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0066】
例えば第1連関性は、多対多の情報(複数の第1入力データ、対、複数の第1出力データ)の間における繋がりの度合いにより構築される。第1連関性は、機械学習の過程で適宜更新され、例えば複数の第1入力データ、及び複数の第1出力データに基づいて最適化された関数(分類器)を示す。なお、第1連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
【0067】
このため、映画生成システム100では、例えば分類器の判定した結果を全て踏まえた第1連関性を用いて、入力データに対する出力データを選択する。これにより、音声データが、参照用音声データと同一又は類似である場合のほか、非類似である場合においても、音声データに適した音響データを定量的に選択することができる。
【0068】
第1連関性は、例えば
図8に示すように、複数の第1出力データと、複数の第1入力データとの間における繋がりの度合いを示してもよい。この場合、第1連関性を用いることで、複数の第1出力データ(
図8では「参照用音響データA」~「参照用音響データC」)のそれぞれに対し、複数の第1入力データ(
図8では「参照用音声データA」~「参照用音声データC」)の関係の度合いを紐づけて記憶させることができる。このため、例えば第1連関性を介して、1つの第1出力データに対して、複数の第1入力データを紐づけることができる。これにより、音声データに対して多角的な音響データの選択を実現することができる。
【0069】
第1連関性は、例えば各第1出力データと、各第1入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、第1入力データに含まれる「参照用音声データA」は、第1出力データに含まれる「参照用音響データA」との間の連関度AA「73%」を示し、第1出力データに含まれる「参照用音響データB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。
【0070】
また、音響モデルは、第1入力データと第1出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。第1入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。
【0071】
復元モデルには、例えば第2入力データと第2出力データとの間における連関度を有する第2連関性が記憶される。
【0072】
例えば第2連関性は、多対多の情報(複数の第2入力データ、対、複数の第2出力データ)の間における繋がりの度合いにより構築される。
【0073】
このため、映画生成システム100では、例えば分類器の判定した結果を全て踏まえた第2連関性を用いて、入力データに対する出力データを選択する。
【0074】
第2連関性は、例えば
図9に示すように、複数の第2出力データと、複数の第2入力データとの間における繋がりの度合いを示してもよい。
【0075】
また、復元モデルは、第2入力データと第2出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。
【0076】
翻訳モデルには、例えば第3入力データと第3出力データとの間における連関度を有する第3連関性が記憶される。
【0077】
例えば第3連関性は、多対多の情報(複数の第3入力データ、対、複数の第3出力データ)の間における繋がりの度合いにより構築される。
【0078】
このため、映画生成システム100では、例えば分類器の判定した結果を全て踏まえた第3連関性を用いて、入力データに対する出力データを選択する。
【0079】
第3連関性は、例えば複数の第3出力データと、複数の第3入力データとの間における繋がりの度合いを示してもよい。
【0080】
また、翻訳モデルは、第3入力データと第3出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。
【0081】
選択モデルには、例えば第4入力データと第4出力データとの間における連関度を有する第4連関性が記憶される。
【0082】
例えば第4連関性は、多対多の情報(複数の第4入力データ、対、複数の第4出力データ)の間における繋がりの度合いにより構築される。
【0083】
このため、映画生成システム100では、例えば分類器の判定した結果を全て踏まえた第4連関性を用いて、入力データに対する出力データを選択する。
【0084】
第4連関性は、例えば複数の第4出力データと、複数の第4入力データとの間における繋がりの度合いを示してもよい。
【0085】
また、選択モデルは、第4入力データと第4出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。
【0086】
<映画生成装置1>
次に、
図10を参照して、本実施形態における映画生成装置1の一例を説明する。
図10(a)は、本実施形態における映画生成装置1の構成の一例を示す模式図であり、
図10(b)は、本実施形態における映画生成装置1の機能の一例を示す模式図である。
【0087】
映画生成装置1として、例えばラップトップ(ノート)PC又はデスクトップPC等の電子機器が用いられる。映画生成装置1は、例えば
図7(a)に示すように、筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105~107とを備える。各構成101~107は、内部バス110により接続される。
【0088】
CPU101は、映画生成装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、データベースや学習対象データ等の各種情報が記憶される。保存部104として、例えばHDD(Hard Disk Drive)のほか、SSD(Solid State Drive)等のデータ保存装置が用いられる。なお、例えば映画生成装置1は、図示しないGPU(Graphics Processing Unit)を有してもよい。
【0089】
I/F105は、通信網4を介して、必要に応じて端末2、サーバ3、ウェブサイト等との各種情報の送受信を行うためのインターフェースである。I/F106は、入力部108との情報の送受信を行うためのインターフェースである。入力部108として、例えばキーボードが用いられ、映画生成装置1の使用者等は、入力部108を介して、各種情報、又は映画生成装置1の制御コマンド等を入力する。また、入力部108は、収音が可能な図示しないマイクを備えていてもよい。I/F107は、表示部109との各種情報の送受信を行うためのインターフェースである。表示部109は、保存部104に保存された各種情報、又は意味データ等を表示する。表示部109として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部108と一体に設けられる。また、表示部109は、スピーカが用いられてもよい。
【0090】
図10(b)は、映画生成装置1の機能の一例を示す模式図である。映画生成装置1は、取得部11と、処理部12と、出力部14と、記憶部15とを備え、例えばDB生成部16を有してもよい。なお、
図10(b)に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。
【0091】
<<取得部11>>
取得部11は、各種データを取得する。取得部11は、例えば音声データ、テキストデータ、キャラクターデータ等を取得する。取得部11は、例えば入力部108から入力された各種データを取得するほか、例えば通信網4を介して、端末2等から各種データを取得してもよい。
【0092】
取得部11は、例えば上述した各種モデルの生成に用いられる学習データを取得してもよい。取得部11は、例えば入力部108から入力された学習データを取得するほか、例えば通信網4を介して、端末2等から学習データを取得してもよい。例えば、音響モデルの生成に用いられる音響用学習データが挙げられる。
【0093】
<<処理部12>>
処理部12は、各種処理を行う。処理部12は、例えば音声データと、テキストデータと、キャラクターデータとを取得し、音声データに基づいて、音声データの音響の特徴を示す音響データを抽出し、テキストデータと音響データとに基づいて、キャラクターの音声とテキストデータのテキストとに基づく復元音声データを生成し、キャラクターデータに基づいて、提示する画像データを選択する。
【0094】
処理部12は、例えば音響モデルを参照して、音声データに基づいて、音響データを抽出する。処理部12は、例えば復元モデルを参照して、テキストデータと、音響データとに基づいて、復元音声データを生成する。処理部12は、例えば翻訳モデルを参照して、キャラクターデータに基づいて、テキストデータを翻訳する。処理部12は、例えば選択モデルを参照して、キャラクターデータに基づいて、提示する画像データを選択する。
【0095】
<<出力部14>>
出力部14は、復元音声データ及び画像データを出力する。出力部14は、I/F107を介して表示部109に復元音声データ及び画像データを出力するほか、例えばI/F105を介して、端末2等に復元音声データ及び画像データを出力する。
【0096】
<<記憶部15>>
記憶部15は、保存部104に保存されたデータベース等の各種データを必要に応じて取り出す。記憶部15は、取得部11、処理部12、DB生成部16により取得又は生成された各種データを、必要に応じて保存部104に保存する。
【0097】
<<DB生成部16>>
DB生成部16は、複数の学習データを用いた機械学習により各種モデルを生成する。機械学習には、例えば上述したニューラルネットワーク等が用いられる。
【0098】
<端末2>
端末2は、例えば映画生成システム100を用いたサービスを利用するユーザ等が保有し、通信網4を介して映画生成装置1と接続される。端末2は、例えばデータベースを生成する電子機器を示してもよい。端末2は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末2は、例えば映画生成装置1の備える機能のうち、少なくとも一部の機能を備えてもよい。また、端末2は、音声データ、及び各学習データを取得するための図示しないマイクを備えていてもよい。端末2は、ユーザに復元音声データ及び画像データを提示できる図示しないディスプレイ、又はスピーカを備えていてもよい。
【0099】
<サーバ3>
サーバ3は、通信網4を介して映画生成装置1と接続される。サーバ3は、過去の各種データ等が記憶され、必要に応じて映画生成装置1から各種データが送信される。サーバ3は、例えば映画生成装置1の備える機能のうち、少なくとも一部の機能を備えてもよく、例えば映画生成装置1の代わりに少なくとも一部の処理を行ってもよい。サーバ3は、例えば映画生成装置1の保存部104に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部104の代わりに用いられてもよい。
【0100】
<通信網4>
通信網4は、例えば映画生成装置1が通信回路を介して接続されるインターネット網等である。通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網4は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。
【0101】
(映画生成システム100の動作)
次に、本実施形態における映画生成システム100の動作の一例について説明する。
図11は、本実施形態における映画生成システム100の動作の一例を示すフローチャートである。
【0102】
まずステップS110において、取得部11は、各種データを取得する。取得部11は、例えば音声データを取得する。取得部11は、例えばテキストデータを取得する。取得部11は、例えばキャラクターデータを取得する。取得部11は、例えば端末2等から各種データを取得するほか、例えば記憶部15を介して、保存部104に取得した各種データを保存してもよい。
【0103】
ステップS110において、取得部11は、例えば
図12に示すような端末2に表示された入力画面を介してユーザにより入力された各種データを取得してもよい。取得部11は、例えば
図12に示すような入力画面を介して、テキストデータ、アバターデータ、言語データ、テキスト位置情報、アバター位置情報等を取得してもよい。アバターデータは、提示する画像に表示するキャラクターの情報である。言語データは、テキストデータのテキストの翻訳先の言語の情報である。テキスト位置情報は、提示する画像において、テキストを表示する位置の情報である。アバター位置情報は、提示する画像において、アバターを表示する位置の情報である。
【0104】
ステップS110において、取得部11は、例えば
図13に示すような端末2に表示された入力画面を介してユーザにより入力された各種データを取得してもよい。取得部11は、例えば
図12に示すような入力画面を介して、キャラクターデータ等を取得してもよい。
【0105】
次に、ステップS120において、処理部12は、ステップS110により取得した音声データに基づいて、音響データを抽出する。処理部12は、例えば予め取得された参照用音声データと、参照用音響データとを一組のデータセットとする音響用学習データを複数用いて、機械学習により生成された音響モデルを参照して、音声データに基づいて、音響データを抽出する。また、ステップS120において、処理部12は、音響モデルを用いることなく、他の公知の技術によって、音声データから音響データを抽出してもよい。
【0106】
また、ステップS120において、処理部12は、例えば記憶部15を介して、音声データから抽出した音響データを保存部104に保存してもよい。なお、取得した各データは、例えばサーバ3や他の映画生成装置1に送信されてもよい。また、処理部12は、予め取得された音声データに基づいて、音響データを抽出してもよい。
【0107】
また、ステップS130において、処理部12は、ステップS110により取得したテキストデータと、ステップS120により抽出した音響データとに基づいて、復元音声データを生成する。例えばステップS130において、処理部12は、予め取得された参照用テキストデータ及び参照用音響データと、復元音声データとを一組のデータセットとする復元用学習データを複数用いて、機械学習により生成された復元モデルを参照して、テキストデータと、音響データとに基づいて、復元音声データを生成する。また、ステップS130において、処理部12は、復元モデルを用いることなく、他の公知の技術によって、テキストデータと、音響データとに基づいて、復元音声データを生成してもよい。また、ステップS130において、処理部12は、予め取得した音響データとステップS110により取得したテキストデータとに基づいて、復元音声データを生成してもよい。
【0108】
また、ステップS130において、処理部12は、ステップS110により取得したテキストデータを翻訳してもよい。かかる場合、処理部12は、例えば、予め取得された参照用翻訳用テキストデータ及び参照用キャラクターデータと、テキストデータとを一組のデータセットとする翻訳用学習データを複数用いて、機械学習により生成された翻訳モデルを参照して、ステップS110により取得したキャラクターデータに基づいて、ステップS110により取得したテキストデータを翻訳する。
【0109】
また、ステップS130において、処理部12は、例えば、予め取得された参照用翻訳用テキストデータ及び参照用音響データと、テキストデータとを一組のデータセットとする翻訳用学習データを複数用いて、機械学習により生成された翻訳モデルを参照して、ステップS120により生成した音響データに基づいて、ステップS110により取得したテキストデータを翻訳する。これにより、音響データに適したテキストデータの翻訳が可能となる。
【0110】
ステップS130において、処理部12は、例えば記憶部15を介して、生成した復元音声データ及び翻訳したテキストデータを保存部104に保存してもよい。なお、生成した復元音声データは、例えば端末2やサーバ3や他の映画生成装置1に送信されてもよい。
【0111】
次に、ステップS140において、処理部12は、ステップS110により取得したキャラクターデータに基づいて、提示する画像データを選択する。ステップS140において、処理部12は、例えば予め取得された参照用キャラクターデータと、画像データとを一組のデータセットとする選択用学習データを複数用いて、機械学習により生成された選択モデルを参照して、キャラクターデータに基づいて、提示する画像データを選択する。
【0112】
また、ステップS140において、処理部12は、ステップS110により取得したキャラクターデータに基づいて、ストーリーデータを生成してもよい。ストーリーデータは、例えば映画又は動画等の物語を示すテキストデータである。処理部12は、例えば予め取得されたテキストデータとストーリーデータとの対応を示す対応表を参照し、ステップS110により取得したキャラクターデータに含まれるキャラクターに関する情報が記載されたテキストデータからストーリーデータを生成してもよい。また、ステップS130において、処理部12は、ステップS110により取得したテキストデータの代わりにステップS140により生成されたストーリーデータと、ステップS120により抽出した音響データとに基づいて、復元音声データを生成してもよい。
【0113】
次に、出力部14は、ステップS130により生成された復元音声データとステップS140により選択した画像データとを、表示部109や端末2等に出力する。出力部14は、例えば
図14に示す画面及び復元音声データを表示部109を介して提示する。
【0114】
上述した各手段を行うことで、本実施形態における映画生成システム100の動作が完了する。これにより、キャラクターに適した復元音声データと画像データとを出力することが可能となる。このため、出力する復元音声データに適した画像データを自動的に出力することが可能となる。
【0115】
<第2実施形態>
第2実施形態の映画生成装置は、動画を自動で生成可能な映画生成装置であって、ユーザ本人とそっくりの見た目で、動いて喋るアバターを作成するアバター作成手段と、前記アバター作成手段により作成されたアバターに読み上げてほしい文章を入力する入力手段と、背景画像及び/又は動画を設定する設定手段と、前記アバター作成手段により作成された複数のアバターから動画作成に使用するアバターを選択する選択手段と、前記設定手段により設定された背景画像及び/又は動画と、前記選択手段により選択されたアバターとから自動的に動画を生成する動画生成手段と、を備えたものである。また、前記アバターは、少なくともユーザ本人の顔画像、声、動作を反映するものである。さらに、前記動画生成手段の動画生成前に、動画タイトル情報、動画に重畳表示させる字幕情報、外国語への音声変換するための言語選択情報のうち、いずれか一以上の情報を入力するものである。ここで、アバターとは、自分自身を代表するキャラクターや画像をいう。アバターにはイラストや画像、2次元のキャラクターを利用した2Dのアバターと、3DCGで作成された立体的なキャラクターの3Dのアバターがある。本明細書では、アバターを実在の写真や画像から作成し、ユーザ本人の見た目、声、趣味、思考、知識、自己認識なども人工知能(AI)にインストールするものとして、アバターという用語を使用する。
これにより、動画作成工数を大幅削減可能とし、本人そっくりのアバターを用いてアバターがテキストを読み上げる、動画を自動で生成可能な映画生成装置を実現することができる。
【0116】
さらに、本第2実施形態は、上述した実施形態の映画生成装置及び映画生成システムをクラウドサービスで提供する例を示している。クラウドサービスは主にIaaS(イアース)、PaaS(パース)、SaaS(サース)の提供形式がある。IaaSはサーバやストレージ、ネットワークといったインフラを提供するサービスである。例えば、Google Cloudでは、仮想マシン(VMマシン)を提供するCompute Engineや仮想ネットワークを提供するVirtual Private Cloudがある。PaaSはプラットフォームを提供するサービスである。例えば、Google Cloudでは、Webアプリケーションの動作環境を提供するApp Engineがある。SaaSはインフラやプラットフォームだけでなくアプリケーションも提供するサービスである。企業向けのGmailやGoogle Meetなどが含まれるGoogle Workspaceがある。
【0117】
このようなクラウドサービスを利用するためには、クラウドサービスにユーザの新規登録を行い、登録したユーザが所定URLへのアクセス権付与を完了しておく必要がある。また、登録ユーザがサービス提供者によりログイン情報(ログインURL、ユーザID、パスワードなど)が記載されたメールを受信済みである必要がある。そして、に登録ユーザは、ユーザ端末のブラウザからクラウドサービスに接続することになる。以下では、クラウドサービスとして、Google Cloudを利用した例を示すが、他のクラウドサービスのAWSサービスやAzureサービスなどを利用しても良い。
【0118】
図15は、本発明の実施形態におけるクラウドサービスにおけるクラウドインスタンス起動手順フローチャートである。
まず、ユーザはブラウザからクラウドサービスにログインし、トップ画面からコンソールへ移動する(ステップ1501)。すなわち、
図16に示すように、GCP(Google Cloud Platform)からログインし、コンソールへ移動する。
図16の例では、GCPへログインした直後のトップ画面を示している。トップ画面では、Google Cloudのメニュー画面を示している。
【0119】
次に、プロジェクト選択欄より契約中のプロジェクト名を選択する(ステップ1502)。すなわち、
図17に示すように、プロジェクトの選択画面には、プロジェクトとフォルダの検索欄があり、プロジェクト名やフォルダ名の検索を行うことができる。ここでは、プロジェクト名が「MySecondProject」であり、ユーザIDが「saped-snowfall-335512」であることを示している。プロジェクト名はサービス提供者である運営会社より送付したプロジェクト名に従ったものが表示されることになる。
【0120】
次に選択されたプロジェクト名の表示を確認する(ステップ1503)。ここで、
図18に示すように、選択されたプロジェクト名が左上と真ん中に表示されていることを確認する。
図18の例では、DeepAICopyProjectNewが表示されている。その他に、プロジェクト番号「27487657772」などが表示されている。
【0121】
次に、クラウドインスタンスを呼び出し、ナビゲーションメニューの選択を行う(ステップ1504)。すなわち、
図19に示すように、Google Cloudのインスタンスを呼び出す。ナビゲーションメニューから、「Compute Engine」を選択し、「VMインスタンス」をクリックする。
【0122】
次に、VMインスタンスの開始又は再開を行う(ステップ1505)。すなわち、
図20に示すように、VMインスタンスのページが開く。会社名(アルファベット)-部署名(アルファベット)-dmc欄を示すプロジェクト名のステータスにチェックを入れ、開始又は再開ボタンをクリックする。しばらくすると(例えば、約1分間程度)、インスタンスが開始しました」という表示がされる。ここで、このインスタンスが起動している間、Google Cloudの利用料金が発生する。サービスを使い終わったときは、必ず停止させておく。Google Cloudを利用することによるタイムチャージ課金が発生するからである。
【0123】
次に、クラウドサービスを使い終わった場合は、VMインスタンスの停止を行う(ステップ)。すなわち、
図21に示すように、会社名(アルファベット)-部署名(アルファベット)-dmc欄を示すプロジェクト名のステータスにチェックを入れ、停止ボタンをクリックする。この結果、VMインスタンスが停止される。
【0124】
次に、サービス提供者からメールで送られて来ているURLをクリックすると、
図22に示すように、ログイン画面が表示されるので、ログイン処理を行う(ステップ1507)。これにより、映画生成アプリに接続することができる。
図22の例では、ログインメニュー以外に、サービス提供者によるユーザ管理を行うため、会社登録メニューとユーザ登録メニューが表示されている。
【0125】
図23は、本発明の実施形態における自動動画生成アプリの概略フローチャートである。以下では、自動動画生成アプリの処理フローについて説明する。
【0126】
まず、自動動画生成アプリは、ユーザ本人とそっくりの見た目で、動いて喋るアバターを作成するアバター作成ステップを実行する(ステップ2301)。ここで、アバターは、少なくともユーザ本人の顔画像、声、動作を反映する。
【0127】
次に、アバター作成ステップにより作成されたアバターに読み上げてほしい文章を入力する入力ステップを実行する(ステップ2302)。
【0128】
次に、背景画像及び/又は動画を設定する設定ステップを実行する(ステップ2303)。
【0129】
次に、アバター作成ステップにより作成された複数のアバターから動画作成に使用するアバターを選択する選択ステップを実行する(ステップ2304)。
【0130】
設定ステップにより設定された背景画像及び/又は動画と、選択ステップにより選択されたアバターとから自動的に動画を生成する動画生成ステップを実行する(ステップ2305)。ここで、動画生成ステップの動画生成前に、動画タイトル情報、動画に重畳表示させる字幕情報、外国語への音声変換するための言語選択情報のうち、いずれか一以上の情報を入力するように構成しても良い。
【0131】
図24は、ユーザ本人そっくりのアバター作成画面の一例を示す図である。以下、
図24~
図27を用いてアバター作成について詳細に説明する。
【0132】
図24の例は、自動動画生成アプリのメインメニュー画面においてアバター作成メニューを選択した画面例を示している。アバター作成ページのアバター作成の説明画面例である。メインメニューとしては、動画作成、ダウンロードページ、アバター作成、アバター購入、請求情報、料金、使用方法、パスワード変更、ログアウトなどがある。
【0133】
<アバター作成ページ>
ここでは写真、音声または動画からアバターを作成することができます。
使用方法
<写真からアバターを作成>
1.作成するアバターにつける名前を入力してください。
アバターの名前は、英語小文字または数字しか使えません。アバターの最初の文字は数字にできません。
2.声の性質を男性、女性から選んでください。
3.画像を選択してください。選択欄の表示に従って、サンプル画像を選択するか撮影してください。
4.アバター作成ボタンを押してください。
<写真と音声からからアバターを作成>
1.作成するアバターにつける名前を入力してください。
アバターの名前は、英語小文字または数字しか使えません。アバターの最初の文字は数字にできません。
2.声の性質を男性、女性から選んでください。
3.画像を選択してください。選択欄の表示に従って、サンプル画像を選択するか撮影してください。
4.読み上げ音声を3文以上登録してください。1)Recボタンで録音開始、マイクに向かって読み上げ後、Stopボタンで録音停止します。2)Checkボタンを押して、録音が正常か確認してください。※録音が正常な場合は「問題ありません」と表示されます。3)録音に問題がある場合は、再度読み上げを行い、3文以上が「問題ありません」と表示されるようにしてください。
5.アバター作成ボタンを押してください。
【0134】
図25は、
図24の写真からアバターを作成する一例を説明するための図(その1)である。
図25の例は、
図24のアバター作成ページの使用方法の説明を読み、自分で写真を撮影する例を示している。ここで、撮影時に背景に人物などが映らなければ、色などは問わない。撮影する写真は、1枚のみでもアバターを作成することができる。複数枚撮影してアバターを作成しても良い。スマホのカメラやディジタルカメラなどの画角に入り、撮影開始ボタンを押すと撮影が完了する。
【0135】
図26は、
図24の写真からアバターを作成する一例を説明するための図(その2)である。自分の写真を撮影するか、用意している写真も使用することも可能である。画像ファイルは、例えば、JPEGファイル、GIFファイル、PNGファイル、など一般的な画像ファイルや、ディジカメのEXIFファイルなど適宜使用することができる。
【0136】
図27は、
図24の写真と音声からアバターを作成する一例を説明するための図である。
図27の例は、写真と音声からアバターを作成する例を示している。この場合、写真からアバターを作成する手順1,2,3を行ってから、追加で4の音声を録音する手順を行う。ここでは、3文音声登録する例を示している。1文目:「統計から推測すると、この町の人数は5年で2倍になるだろう。」をマイクに向かって発話し、Recボタンで登録する。Stopボタンで音声登録を停止する。チェックボタンを押してチェックし、正常であれば、2文目の音声登録を行う。2文目:「リアルタイムで30分先まで予報できるのは世界で初めてだということである。」を発話し、1文目と同様な作業を行う。3文目:「ラヴィアンローズは、エディット・ピアフの一種。」の音声登録を行う。登録作業は上述した通りである。
図27の音声登録において、ユーザ本人の音声を録音し、自分の音声データを作ることができる。音声は人工知能(DeepAI)に反映される。音声登録を行ってアバター作成ボタンをクリックすると、写真と音声の紐付けされたアバターが作成できる。
【0137】
また、文章追加ボタンを押すと、追加で音声登録ができる。サービスの仕様では、10文可能となっているが、これ以上の追加登録を行っても良い。音声データが多い場合、精度が高くなるというメリットがある。また、動画から静止画像を切り出してアバターを作成することもできる。スタジオ撮影でアバターを作成しても良い。スタジオ撮影で写真を撮影する場合は、より精度の高いアバターの作成を行うことができる。
【0138】
図28は、作成したアバターの一覧を示す図である。以上のようなアバター作成において、今まで作成したアバターはいつでも呼び出すことが可能である。ここで、V1、V2、V3はクラウドサービスにおけるアバターの種類に応じて課金情報が異なることを示している。アバターは男性、女性などの性別で分けられており、生成済みで、登録済みのものはそのアバターの所有者は利用することができる。
【0139】
図29は、作成したアバターを用いた動画生成画面の一例を示す図(その1)である。
図30~
図32は動画生成処理を説明するための図である。
図33は、本発明の実施形態における自動動画生成アプリの詳細フローチャートである。以下、
図29~
図33を用いて動画生成について説明する。
【0140】
まず、自動動画生成アプリは、
図29又は
図32に示すように、動画生成モードの選択ステップを実行する(ステップ3301)。動画生成モードは、AIにお任せ、背景・BGMを指定して生成、ChatGPTで解説文を作成の3種類である。例えば、
図29に示すように、AIにお任せを選択したとする。
【0141】
次に、動画タイトルの入力ステップを実行する(ステップ3302)。例えば、「2023年度東京都の天気」等。
【0142】
次に、AIに読んでもらいたい文章を入力する(ステップ3303)。例えば、2023年度東京都の天気は晴です。
【0143】
動画に字幕を入れるのチェックすると、動画に字幕が自動的に生成される(ステップ3304)。クラウドサービスの仕様は、入力文字数は23文字であるが、これに限定されない。字幕は任意であるので、動画に字幕を入れたくない場合は、チェックを外す。ここで、AIにお任せを選択した場合は、BGMは設定できない仕様である。BGMを設定すると、データ容量が大きくなり、動画生成時間を短時間に行うため、BGMの設定を省略している。一文の文章が長いと、自然言語解析ができない恐れがあるので、句点なしでは180時以上書くと動画が上手く生成できないことがあるので、180文字以下で文字入力する。
【0144】
次に、文章を読み上げるアバターの選択を行う(ステップ3305)。
図29では、デフォルトのHAL Version:xを選択した例を示している。ユーザ本人のそっくりの自分のアバターを作ることもできる。
【0145】
次に、生成する動画の音声出力の言語の選択を行う(ステップ3306)。仕様では、日本語、英語、中国語への自動翻訳が可能であるが、これらの言語に限定されない。その他の言語の翻訳エンジンを搭載することにより他言語への翻訳も可能である。
図30の例では、日本語→日本語の設定を示している。他言語へ翻訳して動画を生成する際には、330文字あたり1円かかります。切り上げした額となるように設定している。
【0146】
以上の作業が完了し、プレビュー画面を開くボタンをクリックすると(ステップ3308)、動画の自動生成が開始され(
図29参照)、動画生成が完了すると(ステップ3308)、
図30に示すような動画のプレビュー画面が表示される。生成時間と生成割合が表示される。
図30の例では、動画生成に47分かかり、生成割合は100%完了したことをあわわしている。これらの作業はブラウザベースで動画自動生成がされるが、複数ブラウザから同時に動画生成を行わないように注意する。作成した動画はおかしくなる可能性があるからである。動画生成後に動画ダウンロードリンクが表示され、ダウンロードリンクをクリックすると、生成した動画のダウンロードを実行することができる。作成した動画は、MP4などの画像ファイルとして保存される。
なお、生成された動画を再生し、音声間違え(言い間違え)や翻訳間違いが発生した場合は、修正更新機能を設けて、修正更新するように構成しても良い。
【0147】
図34(a)は年代別アバター(顔)の一例を示す図である。
図34(b)は年代別アバター(声)の一例を示す図である。本発明で作成されるアバターは、ユーザ本人にそっくりのリアルアバターであるので、ユーザ本人が発話しているように話すことができる。以上のようなアバターはディジタル保存しておけば、いつでも利用することができる。人間は年齢とともに、顔画像が変わったり、声が変わることが一般的である。よりリアリティを追及すると、20代、30代、40代、50代、60代のアバターの顔や声を保存しておき(
図34(a)(b)参照)、年代別の動画生成を行うことができる。例えば、これらのアバターを終活に利用したり、新たなサービスへの応用が期待できる。また、
図34(a)や
図34(b)では、アバターを顔や声に分けていたが、顔や声を組合せたアバターを使用しても良い。
【0148】
本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0149】
1 :映画生成装置
2 :端末
3 :サーバ
4 :通信網
10 :筐体
11 :取得部
12 :処理部
14 :出力部
15 :記憶部
16 :DB生成部
100 :映画生成システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部
109 :表示部
110 :内部バス
2301 :アバター作成ステップ
2302 :入力ステップ
2303 :設定ステップ
2304 :選択ステップ
2305 :動画生成ステップ
3301 :動画生成モードの選択ステップ
3302 :動画タイトルの入力ステップ
3303 :読んでもらいたい文章入力ステップ
3304 :字幕入力ステップ
3305 :文章を読み上げるアバター入力ステップ
3306 :言語選択ステップ
3307 :プレビュー画面表示ステップ
3308 :動画生成完了ステップ
3309 :動画ダウンロードリンク表示ステップ