(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-05
(54)【発明の名称】インタラクティブ自然言語処理ベースの動画生成方法
(51)【国際特許分類】
H04N 21/854 20110101AFI20240628BHJP
【FI】
H04N21/854
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023577909
(86)(22)【出願日】2022-05-04
(85)【翻訳文提出日】2023-12-14
(86)【国際出願番号】 KR2022006393
(87)【国際公開番号】W WO2023003141
(87)【国際公開日】2023-01-26
(31)【優先権主張番号】10-2021-0094721
(32)【優先日】2021-07-20
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523472283
【氏名又は名称】イム、ウク ビン
【氏名又は名称原語表記】IM,Wook Bin
(74)【代理人】
【識別番号】100105957
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【氏名又は名称】恩田 博宣
(74)【代理人】
【識別番号】100142907
【氏名又は名称】本田 淳
(72)【発明者】
【氏名】イム、ウク ビン
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA29
5C164MA03S
5C164MB44S
5C164MC01P
(57)【要約】
本発明は、一般的に、ユーザが提供したシナリオに対して自然言語処理を行って動画を自動生成する技術に関する。特に、本発明は、複数の単位ストーリに対して少なくとも1つのテンプレート画像を格納しておいた状態で、ユーザのシナリオを自然言語処理に基づいて複数の分割区間に分け、ユーザの選択に応じて、各分割区間に対してテンプレート画像をマッチング設定し、その後、ユーザの写真から生成したユーザのキャラクターを各テンプレート画像に合成し、それらのテンプレート画像を連結して動画を生成するインタラクティブ自然言語処理ベースの動画生成技術に関する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
複数の単位ストーリごとに少なくとも1つのテンプレート画像を格納するテンプレートデータベース(101)と、
自然言語処理を行うための自然言語処理部(120)と、
ユーザのシナリオを受け付けるシナリオ入力部(130)と、
前記自然言語処理部(120)の自然言語処理によって前記ユーザのシナリオを分析することで、単位ストーリに対応する複数の分割区間を設定するシナリオ分割部(140)と、
単位ストーリによって前記複数の分割区間ごとに前記テンプレートデータベース(101)に格納された少なくとも1つのテンプレート画像をマッチング設定する分割区間マッチング部(150)と、
複数のテンプレート画像がマッチングされた分割区間に対し、選択オプションをユーザに提示し、それに対するユーザの回答を自然言語処理することで、ユーザの選択に対応するテンプレート画像を該当分割区間にマッチング設定するインタラクティブ選択部(160)と、
前記複数の分割区間にそれぞれマッチング設定された複数のテンプレート画像を連結して、前記ユーザのシナリオに対するユーザの動画を生成する動画結合生成部(180)と、を含んで構成される、インタラクティブ自然言語処理ベースの動画生成装置。
【請求項2】
前記インタラクティブ選択部(160)と協調動作して、前記分割区間にマッチングされたテンプレート画像をユーザの要求に応じて変更し、個人化処理する動画個人化部(170)と、をさらに含んで構成されることを特徴とする、請求項1に記載のインタラクティブ自然言語処理ベースの動画生成装置。
【請求項3】
ユーザから提供されたユーザの写真を利用してユーザのキャラクターを生成し、そのユーザのキャラクターを前記テンプレート画像に合成するキャラクター生成結合部(110)と、をさらに含んで構成されることを特徴とする、請求項1に記載のインタラクティブ自然言語処理ベースの動画生成装置。
【請求項4】
前記テンプレートデータベース(101)が、単位ストーリに対して複数の分岐情報及びテンプレート画像の組み合わせがマッチングされた複数の複合エレメントを格納するように構成され、
前記インタラクティブ選択部(160)が、前記複合エレメントが前記分割区間に対応する場合、前記複合エレメントに含まれた複数の分岐情報をユーザ端末(200)を介してユーザに提示し、それに対してユーザが選択した分岐情報に連結されたテンプレート画像を該当分割区間にマッチング設定するように構成されることを特徴とする、請求項1に記載のインタラクティブ自然言語処理ベースの動画生成装置。
【請求項5】
前記動画結合生成部(180)が生成したユーザの動画を格納・管理する動画データベース(102)と、
前記動画データベース(102)に格納された複数のユーザの動画を外部サービスサーバ(300)またはユーザ端末(200)に連動して提供する動画外部連動部(190)と、をさらに含んで構成されることを特徴とする、請求項4に記載のインタラクティブ自然言語処理ベースの動画生成装置。
【請求項6】
テンプレートデータベース(101)が複数の単位ストーリごとに少なくとも1つのテンプレート画像を格納する第1のステップと、
シナリオ入力部(130)がユーザのシナリオを受け付ける第2のステップと、
自然言語処理部(120)が前記ユーザのシナリオに対する自然言語処理を行う第3のステップと、
シナリオ分割部(140)が前記自然言語処理によって前記ユーザのシナリオを分析することで、単位ストーリに対応する複数の分割区間を設定する第4のステップと、
分割区間マッチング部(150)が単位ストーリによって前記複数の分割区間ごとに前記テンプレートデータベース(101)に格納された少なくとも1つのテンプレート画像をマッチング設定する第5のステップと、
インタラクティブ選択部(160)が複数のテンプレート画像がマッチングされた分割区間に対し、選択オプションをユーザに提示し、それに対するユーザの回答を自然言語処理することで、ユーザの選択に対応するテンプレート画像を該当分割区間にマッチング設定する第6のステップと、
動画結合生成部(180)が前記複数の分割区間にそれぞれマッチング設定された複数のテンプレート画像を連結して、前記ユーザのシナリオに対するユーザの動画を生成する第7のステップと、を含んで構成される、インタラクティブ自然言語処理ベースの動画生成方法。
【請求項7】
動画個人化部(170)が、前記インタラクティブ選択部(160)と協調動作して、前記分割区間にマッチングされたテンプレート画像をユーザの要求に応じて変更し、個人化処理するステップと、をさらに含んで構成されることを特徴とする、請求項6に記載のインタラクティブ自然言語処理ベースの動画生成方法。
【請求項8】
キャラクター生成結合部(110)がユーザから提供されたユーザの写真を利用してユーザのキャラクターを生成するステップと、
前記キャラクター生成結合部(110)が、前記複数の分割区間にマッチング設定されたテンプレート画像に前記ユーザのキャラクターを合成するステップと、をさらに含んで構成されることを特徴とする、請求項6に記載のインタラクティブ自然言語処理ベースの動画生成方法。
【請求項9】
前記第1のステップは、
前記テンプレートデータベース(101)が、単位ストーリに対して複数の分岐情報及びテンプレート画像の組み合わせがマッチングされた複数の複合エレメントを格納するステップと、を含んで構成され、
前記第6のステップは、
前記複合エレメントが前記分割区間に対応する場合、前記インタラクティブ選択部(160)が前記複合エレメントに含まれた複数の分岐情報をユーザ端末(200)を介してユーザに提示するステップと、
前記インタラクティブ選択部(160)が、前記提示された複数の分岐情報のうちユーザが選択した分岐情報を識別するステップと、
前記インタラクティブ選択部(160)が、前記選択された分岐情報に連結されたテンプレート画像を該当分割区間にマッチング設定するステップと、を含んで構成されることを特徴とする、請求項6に記載のインタラクティブ自然言語処理ベースの動画生成方法。
【請求項10】
コンピュータに、請求項6に記載のインタラクティブ自然言語処理ベースの動画生成方法を実行させるために記憶媒体に格納されたコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的に、ユーザが提供したシナリオに対して自然言語処理を行って動画を自動生成する技術に関する。特に、本発明は、複数の単位ストーリに対して少なくとも1つのテンプレート画像を格納しておいた状態で、ユーザのシナリオを自然言語処理に基づいて複数の分割区間に分け、ユーザの選択に応じて、各分割区間に対してテンプレート画像をマッチング設定し、その後、ユーザの写真から生成したユーザのキャラクターを各テンプレート画像に合成し、それらのテンプレート画像を連結して動画を生成するインタラクティブ自然言語処理ベースの動画生成技術に関する。
【背景技術】
【0002】
スマートフォンの普及やネットワークの高速化に伴い、近年では、メディアベースの情報が一般的に活用されている。
特に、インスタグラム(登録商標)、facebook(登録商標)、Kakao Page(登録商標)などのようなSNSサービスとYouTube(登録商標)などの動画サービスのユーザが増加するにつれて、自分の表現や製品の宣伝などに動画が積極的に用いられている。
【0003】
ところで、一般の人が自分の望む内容の動画を製作することは簡単ではない。スマートフォンカメラを利用して個人の日常生活やイベントを撮影する程度は可能であるが、一定以上の内容を取り揃えた動画を直接製作することは難しい。
【0004】
そのような動画を製作するためには、場所を探して出演者をキャストし、様々な角度から映像を撮影した後、それらを編集して特殊効果を加える作業が必要である。そのような作業を進めるには、熟練した技術と製作経験、そして様々なハードウェア及びソフトウェアが必要であるので、一般の人には到底できない。企業の宣伝、イベントの広報、製品の宣伝のために、そのような動画が必ず必要な人は相当の費用をかけて専門会社に依頼している。
【0005】
しかしながら、インターネット上でメディアをベースに情報を流通しようとする時代の流れは明らかである。従って、一定以上のストーリを取り揃えた動画を一般の人が現在より容易に製作できるようにする技術が求められる。
【0006】
特許文献1:韓国登録特許第10-1038903号公報(2011年5月30日)「複数のコミュニティ会員システムから提供された公募データに基づいた動画コンテンツの生成システム」
特許文献2:韓国登録特許第10-2262702号公報(2021年6月3日)「ショット変化パターンを利用した動画生成システム」
特許文献3:韓国登録特許第10-2069897号公報(2020年1月17日)「ユーザの動画生成方法及びそのための装置」
特許文献4:韓国公開特許第10-2021-0040882号公報(2021年4月14日)「動画を生成するための方法及び装置」
【先行技術文献】
【特許文献】
【0007】
【特許文献1】韓国登録特許第10-1038903号公報
【特許文献2】韓国登録特許第10-2262702号公報
【特許文献3】韓国登録特許第10-2069897号公報
【特許文献4】韓国公開特許第10-2021-0040882号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、一般的に、ユーザが提供したシナリオに対して自然言語処理を行って動画を自動生成する技術を提供することである。
特に、本発明の目的は、複数の単位ストーリに対して少なくとも1つのテンプレート画像を格納しておいた状態で、ユーザのシナリオを自然言語処理に基づいて複数の分割区間に分け、ユーザの選択に応じて各分割区間に対してテンプレート画像をマッチング設定し、その後、ユーザの写真から生成したユーザのキャラクターを各テンプレート画像に合成し、それらのテンプレート画像を連結して動画を生成するインタラクティブ自然言語処理ベースの動画生成技術を提供することである。
【課題を解決するための手段】
【0009】
前記目的を達成するための、本発明によるインタラクティブ自然言語処理ベースの動画生成装置は、複数の単位ストーリごとに少なくとも1つのテンプレート画像を格納するテンプレートデータベース101と、自然言語処理を行うための自然言語処理部120と、ユーザのシナリオを受け付けるシナリオ入力部130と、自然言語処理部120の自然言語処理によってユーザのシナリオを分析することで、単位ストーリに対応する複数の分割区間を設定するシナリオ分割部140と、単位ストーリによって複数の分割区間ごとにテンプレートデータベース101に格納された少なくとも1つのテンプレート画像をマッチング設定する分割区間マッチング部150と、複数のテンプレート画像がマッチングされた分割区間に対し、選択オプションをユーザに提示し、それに対するユーザの回答を自然言語処理することで、ユーザの選択に対応するテンプレート画像を該当分割区間にマッチング設定するインタラクティブ選択部160と、複数の分割区間にそれぞれマッチング設定された複数のテンプレート画像を連結してユーザのシナリオに対するユーザの動画を生成する動画結合生成部180と、を含んで構成される。
【0010】
本発明による動画生成装置は、インタラクティブ選択部160と協調動作して、分割区間にマッチングされたテンプレート画像をユーザの要求に応じて変更し、個人化処理する動画個人化部170と、をさらに含んで構成されてもよい。
【0011】
本発明による動画生成装置は、ユーザから提供されたユーザの写真を利用してユーザのキャラクターを生成し、そのユーザのキャラクターをテンプレート画像に合成するキャラクター生成結合部110と、をさらに含んで構成されてもよい。
【0012】
また、テンプレートデータベース101は、単位ストーリに対して複数の分岐情報及びテンプレート画像の組み合わせがマッチングされた複数の複合エレメントを格納するように構成されてもよい。そのとき、インタラクティブ選択部160は、分割区間に対して複合エレメントが対応する場合、複合エレメントに含まれた複数の分岐情報をユーザ端末200を介してユーザに提示し、それに対してユーザが選択した分岐情報に連結されたテンプレート画像を該当分割区間にマッチング設定するように構成されてもよい。
【0013】
本発明による動画生成装置は、動画結合生成部180が生成したユーザの動画を格納・管理する動画データベース102と、動画データベース102に格納された複数のユーザの動画を外部サービスサーバ300またはユーザ端末200に連動して提供する動画外部連動部190と、をさらに含んで構成されてもよい。
【0014】
また、前記目的を達成するための、本発明によるインタラクティブ自然言語処理ベースの動画生成方法は、テンプレートデータベース101が複数の単位ストーリごとに少なくとも1つのテンプレート画像を格納する第1のステップと、シナリオ入力部130がユーザのシナリオを受け付ける第2のステップと、自然言語処理部120がユーザのシナリオに対する自然言語処理を行う第3のステップと、シナリオ分割部140が自然言語処理によってユーザのシナリオを分析することで、単位ストーリに対応する複数の分割区間を設定する第4のステップと、分割区間マッチング部150が単位ストーリによって複数の分割区間ごとにテンプレートデータベース101に格納された少なくとも1つのテンプレート画像をマッチング設定する第5のステップと、インタラクティブ選択部160が複数のテンプレート画像がマッチングされた分割区間に対し、選択オプションをユーザに提示し、それに対するユーザの回答を自然言語処理することで、ユーザの選択に対応するテンプレート画像を該当分割区間にマッチング設定する第6のステップと、動画結合生成部180が複数の分割区間にそれぞれマッチング設定された複数のテンプレート画像を連結してユーザのシナリオに対するユーザの動画を生成する第7のステップと、を含んで構成されてもよい。
【0015】
本発明による動画生成方法は、動画個人化部170が、インタラクティブ選択部160と協調動作して、分割区間にマッチングされたテンプレート画像をユーザの要求に応じて変更し、個人化処理するステップと、をさらに含んで構成されてもよい。
【0016】
本発明による動画生成方法は、キャラクター生成結合部110がユーザから提供されたユーザの写真を利用してユーザのキャラクターを生成するステップと、キャラクター生成結合部110が複数の分割区間にマッチング設定されたテンプレート画像にユーザのキャラクターを合成するステップと、をさらに含んで構成されてもよい。
【0017】
また、第1のステップは、テンプレートデータベース101は、単位ストーリに対して複数の分岐情報及びテンプレート画像の組み合わせがマッチングされた複数の複合エレメントを格納するステップと、を含んで構成されてもよい。そのとき、第6のステップは、分割区間に対して複合エレメントが対応する場合、インタラクティブ選択部160が複合エレメントに含まれた複数の分岐情報をユーザ端末200を介してユーザに提示するステップと、インタラクティブ選択部160が、その提示された複数の分岐情報のうちユーザが選択した分岐情報を識別するステップと、インタラクティブ選択部160が、その選択された分岐情報に連結されたテンプレート画像を該当分割区間にマッチング設定するステップと、を含んで構成されてもよい。
【0018】
一方、本発明によるコンピュータプログラムは、コンピュータに以上のようなインタラクティブ自然言語処理ベースの動画生成方法を実行させるために記憶媒体に格納されたものである。
【発明の効果】
【0019】
本発明によれば、一定以上のストーリを取り揃えた動画を一般の人が容易に製作できる長所がある。
また、本発明によれば、一般の人が自分を表現するストーリを取り揃えた動画を直接製作してインスタグラム(登録商標)、facebook(登録商標)、Kakao Page(登録商標)、YouTube(登録商標)などにアップできるように補助する長所がある。
【0020】
また、本発明によれば、ユーザが提供したシナリオをインタラクティブ方式で自然言語処理して動画生成に反映することで動画製作の柔軟性と多様性を促進できる長所がある。
【図面の簡単な説明】
【0021】
【
図1】本発明によって動画を自動生成する概念を示す図である。
【
図2】本発明によるインタラクティブ自然言語処理ベースの動画生成装置の全体構成を示すブロック図である。
【
図3】本発明によるインタラクティブ自然言語処理ベースの動画生成方法の全体プロセスを示す順序図である。
【
図4】本発明において、テンプレートデータベースに単位ストーリごとにテンプレート画像が格納される概念を示す図である。
【
図5】本発明において、シナリオを分割処理する概念を示す図である。
【
図6】本発明において、インタラクティブ処理の概念を示す図である。
【
図7】本発明において、シナリオを分割処理して生成した動画の構成を概念を示す図である。
【発明を実施するための形態】
【0022】
以下においては、図面を参照して本発明を詳細に説明する。
図1は、本発明によって動画を自動生成する概念を示す図である。
本発明における動画生成装置100は、インターネットを介して複数のユーザ端末200と接続される。それにより、ユーザからシナリオと本人の写真の提供を受け、いくつかの選択入力を受け付けることで、シナリオによる動画自動生成を行う。動画生成装置100は、テンプレートデータベース101に格納された材料を利用して動画を生成し、その生成された動画は、動画データベース102に格納する。
【0023】
動画生成装置100は、その生成された動画を該当シナリオを提供したユーザにダウンロード提供することが一般的である。実現例によっては、動画生成装置100は、ユーザの要求に応じて、その生成された動画を外部サービスサーバ300に提供してもよい。その場合、該当動画がソーシャルネットワークサービス(SNS)、動画サービス、メタバースサービスなどに活用されてもよい。
【0024】
図2は、本発明によるインタラクティブ自然言語処理ベースの動画生成装置100の全体構成を示すブロック図である。
図2を参照すれば、本発明によるインタラクティブ自然言語処理ベースの動画生成装置100は、テンプレートデータベース101、自然言語処理部120、シナリオ入力部130、シナリオ分割部140、分割区間マッチング部150、インタラクティブ選択部160、動画個人化部170、動画結合生成部180、動画データベース102、及び動画外部連動部190を含んで構成される。
【0025】
先ず、テンプレートデータベース101は、複数の単位ストーリごとに少なくとも1つのテンプレート画像を格納する構成要素である。
「単位ストーリ(unit story)」とは、映像画面を生成する基本単位となる文言(wording)であって、発明の実現に応じて多様に設定されてもよい。例えば、「雲が浮かんでいる」、「道を歩く」、「車を運転する」などが単位ストーリになってもよい。
【0026】
図4は、本発明において、テンプレートデータベース101に単位ストーリごとにテンプレート画像が格納される概念を示す図である。
テンプレートデータベース101には、単位ストーリごとに1つまたは2つ以上のテンプレート画像が対応されている。
図4を参照すれば、単位ストーリ01には、1つのテンプレート画像010が対応され、単位ストーリ02には、3つのテンプレート画像021,022,023が対応される。
【0027】
本明細書においては、このように単位ストーリに対して1つのテンプレート画像が一対一でマッチングされた項目を単純エレメントと呼ぶ。
図4においては、単位ストーリ01、04に関わった項目が単純エレメントに該当する。そして、単位ストーリに対して複数の分岐情報及びテンプレート画像の組み合わせがマッチングされている項目を複合エレメントと呼ぶ。
図4においては、単位ストーリ02、03、99に関わった項目が複合エレメントに該当する。
【0028】
複合エレメントにおいては、それぞれのテンプレート画像ごとに分岐情報がマッチングされている。この分岐情報は、該当単位ストーリに対する変異(variants)に対応する。例えば、単位ストーリ02が「雲が浮かんでいる」である場合、分岐情報021は「黒雲」であり、分岐情報022は「巻雲」であり、分岐情報023は「積雲」になってもよい。その場合、テンプレート画像021は黒雲が浮かんでいる映像であり、テンプレート画像022は巻雲が浮かんでいる映像であり、テンプレート画像023は積雲が浮かんでいる映像である。テンプレートデータベース101には、このような単位ストーリとテンプレート画像の組み合わせが、好ましくは複数格納されている。特に、様々な形態の動画を生成するためには、テンプレートデータベース101に複合エレメントが備えられることが好ましい。
【0029】
なお、それらのテンプレート画像は、実際に撮影した実写画像であってもよく、ユニティエンジン(Unity Engine)やアンリアルエンジン(Unreal Engine)などを介してレンダリング生成された3次元のコンピュータグラフィック画像であってもよい。
【0030】
キャラクター生成結合部110は、ユーザから提供されたユーザの写真を利用してユーザのキャラクターを生成し、そのユーザのキャラクターをテンプレート画像に合成する構成要素である。例えば、ユーザがスマートフォンで自分の顔を撮影してアップロードすると、そのユーザのためのキャラクターを生成するものである。このユーザのキャラクターを動画に合成することで、そのユーザを効果的に表現することができるストーリ動画を生成することができる。
【0031】
ユーザのキャラクターは、実際に撮影した画像に対してコンピュータソフトウェア、例えば、ユニティエンジンやアンリアルエンジンを利用して生成する。
一方、動画の主人公をこれとは異に設定する手段が備えられていれば、キャラクター生成結合部110はない場合もある。しかしながら、キャラクター生成結合部110を介してユーザ本人の写真(画像)でユーザの動画の登場人物を設定することができれば、ユーザの満足度を大きく向上させることが可能である。
【0032】
自然言語処理部120は、自然言語処理(Natural Language Processing;NLP)を行うための構成要素である。自然言語処理技術は公知技術に該当し、本発明は、自然言語処理技術自体に関するものではないので、これに関する詳しい説明は省略する。
【0033】
シナリオ入力部130は、ユーザのシナリオを受け付ける構成要素である。ユーザのシナリオは、ユーザが所望する動画の内容をテキストで記述したものであって、ユーザ端末200からアップロードされてもよく、他のサーバ装置を介して伝達されてもよい。
【0034】
シナリオ分割部140は、ユーザのシナリオに対する自然言語処理部120の自然言語処理によってユーザのシナリオを内容に応じて分割する構成要素である。すなわち、10分分量の動画に適当なユーザのシナリオが入力されたとき、このユーザのシナリオを50個の欠片に分割するものである。コンピュータ手段によって自動処理するための実施形態として、シナリオ分割部140は、ユーザのシナリオを分析し、単位ストーリに対応する複数の分割区間を設定する。
【0035】
そのとき、人が作成するシナリオは予め定められた形態にはならず、予測しにくい様々な形態になるため、予め用意しておいた単位ストーリと正確に一致するとは期待しにくい。むしろテキストに基づいて形式的に比べるのは、本発明には適合しておらず、内容によってユーザのシナリオと単位ストーリを比べなければならない。従って、本発明においては、自然言語処理が必要になる。
【0036】
図5は、本発明において、シナリオを分割処理する概念を示す図である。ユーザのシナリオ全体を自然言語分析し、その中に含まれたキーワードに基づいて予め格納しておいた単位ストーリに対応するものを探し、n個に分割した様子を示した。
【0037】
分割区間マッチング部150は、複数の分割区間に対する自然言語処理によってその内容を分析し、それに対応可能な単位ストーリをテンプレートデータベース101から探す。その結果として、分割区間マッチング部150は、単位ストーリに基づいて複数の分割区間ごとにテンプレートデータベース101に格納されたテンプレート画像をマッチング設定する構成要素である。
【0038】
図5を参照すれば、分割区間01は、単位ストーリ04に対応する内容となっており、それによってテンプレート画像040をマッチング設定する。また、分割区間02は、単位ストーリ03に対応する内容となっており、それによってテンプレート画像031、032をマッチング設定する。このように、それぞれの分割区間に対して単位ストーリを基準として少なくとも1つのテンプレート画像をマッチング設定する。
【0039】
インタラクティブ選択部160は、複数のテンプレート画像がマッチングされた分割区間に対し、選択オプションをユーザに提示し、それに対するユーザの回答を自然言語処理することで、ユーザの選択に対応するテンプレート画像を該当分割区間にマッチング設定する構成要素である。
【0040】
図6は、本発明において、インタラクティブ処理の概念を示す図である。例えば、分割区間03を検討すると、3つのテンプレート画像021,022,023が分割区間03にマッチング設定されている。すなわち、テンプレートデータベース101に関する前述の内容によると、分割区間に対して複合エレメントが対応する場合に該当する。
【0041】
その場合、複合エレメントに含まれた複数の分岐情報をユーザ端末200を介してユーザに提示し、それに対してユーザの選択を受け付ける。例えば、分岐情報021である「黒雲」と、分岐情報022である「巻雲」と、分岐情報023である「積雲」をユーザ端末200に表示し、それらの分岐情報に対するユーザの選択が入力される。その際に、ユーザがいずれか1つの分岐情報、例えば、分岐情報023「積雲」を選択すると、インタラクティブ選択部160は、その選択された分岐情報に連結されたテンプレート画像023、すなわち、「積雲が浮かんでいる画像」を分割区間03にマッチング設定する。
【0042】
動画個人化部170は、インタラクティブ選択部160と協調動作しながら分割区間にマッチングされたテンプレート画像をユーザの要求に応じて変更し、個人化処理する。
テンプレートデータベース101に予め格納されているテンプレート画像がユーザの好みに合わないこともある。ユーザのシナリオに記載されている纎細な文言を十分に反映できないこともあり、ユーザのインタラクション過程においてさらに纎細な表現が加えられる場合がある。このような問題を補うことで、動画の品質に対する満足度を高めることができる。
【0043】
それによって、動画個人化部170は、ユーザのシナリオまたはユーザの回答を自然言語処理し、その自然言語処理された結果を反映してテンプレート画像を変更する。
一例を挙げると、分割区間03の単位ストーリ03が「紫色に染まった薄い雲」であった場合を検討する。分割区間03にマッチングされた3つのテンプレート画像021,022,023は「黒雲」、「巻雲」、「積雲」に対応する画像である。その場合、動画個人化部170は「紫色に染まった」及び「薄い」に該当するように、それらのテンプレート画像021,022,023のテンプレート画像を変更してもよい。
【0044】
他の例を挙げると、分割区間03に対し、インタラクティブ選択部160によってテンプレート画像023、すなわち、「積雲が浮かんでいる画像」がマッチング設定された場合を検討する。ユーザが、このマッチング設定されたテンプレート画像023を修正したい場合がある。その場合、動画生成装置100の修正可否の質疑に対し、ユーザは、例えば、テキストで修正事項、例えば、「紫色に染まった雲」及び「薄い雲」の内容で回答することができる。動画個人化部170は、「紫色に染まった」及び「薄い」に該当するように、このテンプレート画像023を変更してもよい。
【0045】
そのため、動画個人化部170は、ユーザのシナリオまたはユーザの回答を自然言語処理し、その自然言語処理された結果物と、該当テンプレート画像の分岐情報とを比較し、その自然言語処理された結果物のうち分岐情報にはない事項を抽出した後、その抽出内容によってテンプレート画像を変更するように構成されてもよい。一実施形態として、この過程は、ユニティエンジンやアンリアルエンジンなどを活用したソフトウェアによって行われてもよい。そのとき、テンプレートデータベース部101に複数の材料画像(例えば、紫色雲)を格納してから個人化処理に活用してもよい。
【0046】
一方、分割区間マッチング部150によって各分割区間にマッチングされた1つまたはそれ以上のテンプレート画像に対して個人化処理を行ってもよく、インタラクティブ選択部160によって各分割区間にマッチング設定された最終のテンプレート画像に対して個人化処理を行ってもよい。
【0047】
動画結合生成部180は、複数の分割区間にそれぞれマッチング設定された複数のテンプレート画像を連結してユーザのシナリオに対するユーザの動画を生成する構成要素である。
図7は、本発明において、シナリオを分割処理して生成した動画の構成を概念を示す図である。複数のテンプレート画像を連結して1つの動画を生成する。
【0048】
動画データベース102は、動画結合生成部180が生成したユーザの動画を臨時あるいは長期に格納管理する構成要素である。
動画外部連動部190は、動画データベース102に格納された複数のユーザの動画を外部サービスサーバ300またはユーザ端末200に連動して提供する構成要素である。そのとき、ダウンロードを提供してもよく、アクセス(URL)のみを提供してもよい。このような動画外部連動によってSNS、動画サービス、ミュージックビデオサービス、企業広告、個人広告、メタバースなどのサービスに、本発明によって生成したユーザの動画を活用できるようになる。実現例によっては、動画生成装置100が自ら格納している広告コンテンツをユーザの動画に連結して提供してもよい。
【0049】
図3は、本発明によるインタラクティブ自然言語処理ベースの動画生成方法の全体プロセスを示す順序図である。
本発明の技術的構成に対しては、動画生成装置と関連して詳細に記述したので、以下においては、処理プロセスについて簡略に検討する。
【0050】
ステップS100:先ず、テンプレートデータベース101が、
図4に示すように、複数の単位ストーリごとに少なくとも1つのテンプレート画像を予め用意して格納する。
ステップS110:キャラクター生成結合部110がユーザの写真(画像)を利用してユニティエンジンやアンリアルエンジンなどによってユーザのキャラクターを生成する。
【0051】
ステップS120:シナリオ入力部130がユーザのシナリオを受け付ける。
ステップS130、S140:自然言語処理部120がユーザのシナリオに対する自然言語処理を行う。
【0052】
シナリオ分割部140がユーザのシナリオに対する自然言語処理部120の自然言語処理によってユーザのシナリオを分析することで、
図5に示すように、単位ストーリに対応してユーザのシナリオに対する複数の分割区間を設定する。
【0053】
ステップS150:分割区間マッチング部150が、
図5に示すように、単位ストーリによって複数の分割区間ごとにテンプレートデータベース101に格納された少なくとも1つのテンプレート画像をマッチング設定する。
【0054】
ステップS160:複数のテンプレート画像がマッチングされた分割区間に対し、
図6に示すように、インタラクティブ選択部160が選択オプションをユーザに提示し、それに対するユーザの回答を自然言語処理によってユーザの選択に対応するテンプレート画像を該当分割区間にマッチング設定する。
【0055】
その過程を具体的に検討すると、分割区間に対して複合エレメントが対応する場合、複合エレメントに含まれた複数の分岐情報をユーザ端末200を介してユーザに提示し、その提示された複数の分岐情報のうちユーザが選択した分岐情報を識別し、その選択された分岐情報に連結されたテンプレート画像を該当分割区間にマッチング設定する。
【0056】
ステップS170:動画個人化部170は、インタラクティブ選択部160と協調動作しながら分割区間にマッチングされたテンプレート画像をユーザの要求に応じて変更し、個人化処理する。すなわち、動画個人化部170は、ユーザのシナリオまたはユーザの回答を自然言語処理し、その自然言語処理された結果を反映してテンプレート画像を変更する。
【0057】
そのとき、個人化処理は分割区間マッチング部150によって各分割区間にマッチングされた1つまたはそれ以上のテンプレート画像に対して行われてもよく、インタラクティブ選択部160によって各分割区間にマッチング設定された最終のテンプレート画像に対して行われてもよい。
【0058】
ステップS180:キャラクター生成結合部110が複数の分割区間にマッチング設定されたテンプレート画像にユーザのキャラクターを合成する。
ステップS190:動画結合生成部180が、
図7に示すように、複数の分割区間にそれぞれマッチング設定された複数のテンプレート画像を連結してユーザのシナリオに対するユーザの動画を生成する。
【0059】
ステップS200、S210:動画データベース102がその生成されたユーザの動画を臨時あるいは長期に格納管理する。動画外部連動部190は、動画データベース102内のユーザの動画を外部サービスサーバ300またはユーザ端末200に連動して提供し、それによってSNS、動画サービス、ミュージックビデオサービス、企業広告、個人広告、メタバースなどのサービスに本発明によって生成したユーザの動画を活用できるようになる。
【0060】
なお、本発明は、コンピュータが読み取れる不揮発性記録媒体にコンピュータ読み取り可能なコードの形態で実現されることが可能である。このような不揮発性記録媒体としては、様々な形態のストレージ装置が存在し、例えば、ハードディスク、SSD、CD-ROM、NAS、磁気テープ、ウェブディスク、クラウドディスクなどがあり、ネットワークにて連結された複数のストレージ装置にコードが分散格納されて実行される形態も実現されてもよい。また、本発明は、ハードウェアと結合されて特定の手続きを実行させるために媒体に格納されたコンピュータプログラムの形態で実現されてもよい。
【手続補正書】
【提出日】2023-12-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
テンプレートデータベース(101)が複数の単位ストーリごとに少なくとも1つのテンプレート画像を格納する第1のステップと、
シナリオ入力部(130)がユーザのシナリオを受け付ける第2のステップと、
自然言語処理部(120)が前記ユーザのシナリオに対する自然言語処理を行う第3のステップと、
シナリオ分割部(140)が前記自然言語処理によって前記ユーザのシナリオを分析することで、単位ストーリに対応する複数の分割区間を設定する第4のステップと、
分割区間マッチング部(150)が単位ストーリによって前記複数の分割区間ごとに前記テンプレートデータベース(101)に格納された少なくとも1つのテンプレート画像をマッチング設定する第5のステップと、
インタラクティブ選択部(160)が複数のテンプレート画像がマッチングされた分割区間に対し、選択オプションをユーザに提示し、それに対するユーザの回答を自然言語処理することで、ユーザの選択に対応するテンプレート画像を該当分割区間にマッチング設定する第6のステップと、
動画個人化部(170)が、前記インタラクティブ選択部(160)と協調動作して、前記分割区間にマッチングされたテンプレート画像をユーザの要求に応じて変更し、個人化処理するステップと、
動画結合生成部(180)が前記複数の分割区間にそれぞれマッチング設定された複数のテンプレート画像を連結して、前記ユーザのシナリオに対するユーザの動画を生成する第7のステップと、を含んで構成される、インタラクティブ自然言語処理ベースの動画生成方法。
【請求項2】
キャラクター生成結合部(110)がユーザから提供されたユーザの写真を利用してユーザのキャラクターを生成するステップと、
前記キャラクター生成結合部(110)が、前記複数の分割区間にマッチング設定されたテンプレート画像に前記ユーザのキャラクターを合成するステップと、をさらに含んで構成されることを特徴とする、請求項
1に記載のインタラクティブ自然言語処理ベースの動画生成方法。
【請求項3】
前記第1のステップは、
前記テンプレートデータベース(101)が、単位ストーリに対して複数の分岐情報及びテンプレート画像の組み合わせがマッチングされた複数の複合エレメントを格納するステップと、を含んで構成され、
前記第6のステップは、
前記複合エレメントが前記分割区間に対応する場合、前記インタラクティブ選択部(160)が前記複合エレメントに含まれた複数の分岐情報をユーザ端末(200)を介してユーザに提示するステップと、
前記インタラクティブ選択部(160)が、前記提示された複数の分岐情報のうちユーザが選択した分岐情報を識別するステップと、
前記インタラクティブ選択部(160)が、前記選択された分岐情報に連結されたテンプレート画像を該当分割区間にマッチング設定するステップと、を含んで構成されることを特徴とする、請求項
1に記載のインタラクティブ自然言語処理ベースの動画生成方法。
【請求項4】
コンピュータに、請求項
1に記載のインタラクティブ自然言語処理ベースの動画生成方法を実行させるために記憶媒体に格納されたコンピュータプログラム。
【国際調査報告】