(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-08-14
(45)【発行日】2024-08-22
(54)【発明の名称】動画生成装置、動画生成方法、動画生成プログラムおよび動画生成システム
(51)【国際特許分類】
H04N 5/91 20060101AFI20240815BHJP
H04N 5/765 20060101ALI20240815BHJP
H04N 21/8549 20110101ALI20240815BHJP
H04N 21/233 20110101ALI20240815BHJP
G06F 16/732 20190101ALI20240815BHJP
【FI】
H04N5/91
H04N5/765
H04N21/8549
H04N21/233
G06F16/732
(21)【出願番号】P 2024068392
(22)【出願日】2024-04-19
【審査請求日】2024-04-24
【早期審査対象出願】
(73)【特許権者】
【識別番号】524152850
【氏名又は名称】川口 史睦
(74)【代理人】
【識別番号】110000198
【氏名又は名称】弁理士法人湘洋特許事務所
(72)【発明者】
【氏名】川口 史睦
【審査官】鈴木 順三
(56)【参考文献】
【文献】特開2020-140326(JP,A)
【文献】特開2006-048465(JP,A)
【文献】特開2010-11409(JP,A)
【文献】特開2019-110480(JP,A)
【文献】米国特許出願公開第2013/0120654(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/76 - 5/956
H04N 21/00 - 21/858
G06F 16/00 - 16/958
(57)【特許請求の範囲】
【請求項1】
動画ファイルを取得する取得部と、
前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析部と、
前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画部と、
前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集部と、
を有する動画生成装置。
【請求項2】
請求項1に記載の動画生成装置であって、
前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画についての制約条件を含める、
ことを特徴とする動画生成装置。
【請求項3】
請求項1に記載の動画生成装置であって、
前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画についての構成情報を含める、
ことを特徴とする動画生成装置。
【請求項4】
請求項1に記載の動画生成装置であって、
前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画に付加すべき動画、静止画または音声の指定を含める、
ことを特徴とする動画生成装置。
【請求項5】
請求項1に記載の動画生成装置であって、
前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画において用いる視覚効果の指定を含める、
ことを特徴とする動画生成装置。
【請求項6】
請求項1に記載の動画生成装置であって、
前記編集計画には、前記動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて前記編集動画を構成する情報が含まれ、
前記動画編集部は、前記部分的な動画を前記動画ファイルから切り出してつなぎ合わせることで前記編集動画を生成する、
ことを特徴とする動画生成装置。
【請求項7】
請求項1に記載の動画生成装置であって、
前記編集計画には、前記動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて前記編集動画を構成する情報、および前記部分的な動画の前後に付加すべき動画、静止画または音声の指定が含まれ、
前記動画編集部は、前記部分的な動画を前記動画ファイルから切り出してつなぎ合わせ、付加すべき前記動画、静止画または音声を付加することで前記編集動画を生成する、
ことを特徴とする動画生成装置。
【請求項8】
請求項1に記載の動画生成装置であって、
前記編集計画には、前記動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて前記編集動画を構成する情報、および前記部分的な動画のつなぎ目に用いる視覚効果の指定が含まれ、
前記動画編集部は、前記部分的な動画を前記動画ファイルから切り出してつなぎ合わせ、該つなぎ目に指定された前記視覚効果を適用することで前記編集動画を生成する、
ことを特徴とする動画生成装置。
【請求項9】
請求項1に記載の動画生成装置であって、
前記解析部は、前記動画ファイルに含まれる発話音声を時系列を維持しながら早送り編集し、所定の音声テキスト変換部に受け渡して前記時系列発話情報を得る、
ことを特徴とする動画生成装置。
【請求項10】
請求項1に記載の動画生成装置であって、
前記解析部は、前記動画ファイルに含まれる発話音声の話者を識別して前記話者ごとに時系列を維持しながら抽出し、所定の音声テキスト変換部に受け渡して得たテキスト情報を統合して前記時系列発話情報を得る、
ことを特徴とする動画生成装置。
【請求項11】
請求項1に記載の動画生成装置であって、
前記編集計画は、所定のフォーマット言語により記述され、
前記編集計画部は、前記命令情報に、前記編集計画を記述する前記フォーマット言語についての定義情報を含める、
ことを特徴とする動画生成装置。
【請求項12】
動画生成装置を用いた動画生成方法であって、
前記動画生成装置は、プロセッサを備え、
前記プロセッサは、
動画ファイルを取得する取得ステップと、
前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析ステップと、
前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画ステップと、
前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集ステップと、
を実施する動画生成方法。
【請求項13】
情報処理装置に動画を生成させる動画生成プログラムであって、
前記情報処理装置は、プロセッサを備え、
前記プロセッサに、
動画ファイルを取得する取得ステップと、
前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析ステップと、
前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画ステップと、
前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集ステップと、
を実施させる動画生成プログラム。
【請求項14】
利用者端末と、該利用者端末と通信可能に接続される動画生成装置と、を備える動画生成システムであって、
前記動画生成装置は、
前記利用者端末から通信を介して動画ファイルを取得する取得部と、
前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析部と、
前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画部と、
前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集部と、を有する、
ことを特徴とする動画生成システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画生成装置、動画生成方法、動画生成プログラムおよび動画生成システムに関するものである。
【背景技術】
【0002】
特許文献1には、「ユーザの要求に応じて、ユーザが所望する長さで、かつ、ユーザが視聴したい部分の内容を含む編集後の動画データを生成する編集動画生成部、を備える動画編集装置」が記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記技術は、動画データを所定の長さで分割した各区間を識別するためのインデックス情報を入力することで、ユーザの視聴したい部分を特定し、その内容を含む編集後の動画データを生成するというものであるため、生成される動画の構成や見栄えについては、考慮されるとは限らない。
【0005】
本発明の目的は、ユーザが望む態様の動画を生成することにある。
【課題を解決するための手段】
【0006】
本願は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。本発明の一態様に係る動画生成装置は、動画ファイルを取得する取得部と、前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析部と、前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画部と、前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集部と、を有することを特徴とする。
【0007】
また、上記の動画生成装置において、前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画についての制約条件を含めるものであってもよい。
【0008】
また、上記の動画生成装置において、前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画についての構成情報を含めるものであってもよい。
【0009】
また、上記の動画生成装置において、前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画に付加すべき動画、静止画または音声の指定を含めるものであってもよい。
【0010】
また、上記の動画生成装置において、前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画において用いる視覚効果の指定を含めるものであってもよい。
【0011】
また、上記の動画生成装置において、前記編集計画には、前記動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて前記編集動画を構成する情報が含まれ、前記動画編集部は、前記部分的な動画を前記動画ファイルから切り出してつなぎ合わせることで前記編集動画を生成するものであってもよい。
【0012】
また、上記の動画生成装置において、前記編集計画には、前記動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて前記編集動画を構成する情報、および前記部分的な動画の前後に付加すべき動画、静止画または音声の指定が含まれ、前記動画編集部は、前記部分的な動画を前記動画ファイルから切り出してつなぎ合わせ、付加すべき前記動画、静止画または音声を付加することで前記編集動画を生成するものであってもよい。
【0013】
また、上記の動画生成装置において、前記編集計画には、前記動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて前記編集動画を構成する情報、および前記部分的な動画のつなぎ目に用いる視覚効果の指定が含まれ、前記動画編集部は、前記部分的な動画を前記動画ファイルから切り出してつなぎ合わせ、該つなぎ目に指定された前記視覚効果を適用することで前記編集動画を生成するものであってもよい。
【0014】
また、上記の動画生成装置において、前記解析部は、前記動画ファイルに含まれる発話音声を時系列を維持しながら早送り編集し、所定の音声テキスト変換部に受け渡して前記時系列発話情報を得るものであってもよい。
【0015】
また、上記の動画生成装置において、前記解析部は、前記動画ファイルに含まれる発話音声の話者を識別して前記話者ごとに時系列を維持しながら抽出し、所定の音声テキスト変換部に受け渡して得たテキスト情報を統合して前記時系列発話情報を得るものであってもよい。
【0016】
また、上記の動画生成装置において、前記編集計画は、所定のフォーマット言語により記述され、前記編集計画部は、前記命令情報に、前記編集計画を記述する前記フォーマット言語についての定義情報を含めるものであってもよい。
【0017】
また、本発明の別の態様にかかる動画生成方法は、動画生成装置を用いた動画生成方法であって、前記動画生成装置は、プロセッサを備え、前記プロセッサは、動画ファイルを取得する取得ステップと、前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析ステップと、前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画ステップと、前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集ステップと、を実施することを特徴とする。
【0018】
また、本発明の別の態様にかかる動画生成プログラムは、情報処理装置に動画を生成させる動画生成プログラムであって、前記情報処理装置は、プロセッサを備え、前記プロセッサに、動画ファイルを取得する取得ステップと、前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析ステップと、前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画ステップと、前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集ステップと、を実施させることを特徴とする。
【0019】
また、本発明の別の態様にかかる動画生成システムは、利用者端末と、該利用者端末と通信可能に接続される動画生成装置と、を備える動画生成システムであって、前記動画生成装置は、前記利用者端末から通信を介して動画ファイルを取得する取得部と、前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析部と、前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を記述して出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画部と、前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集部と、を有する、ことを特徴とする。
【発明の効果】
【0020】
本発明によると、利用者が望む態様の動画を生成する技術を提供することができる。
【0021】
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0022】
【
図1】実施形態に係る動画生成システムの概要を示す図である。
【
図2】実施形態に係る動画生成システムの構成図である。
【
図4】時系列発話情報のデータ構造例を示す図である。
【
図5】編集方針情報のデータ構造例を示す図である。
【
図8】動画生成装置のハードウェア構成例を示す図である。
【
図9】動画生成フロー(動画素材登録)の例を示す図である。
【
図10】動画生成フロー(編集方針登録)の例を示す図である。
【
図11】動画素材登録画面の画面例を示す図である。
【
図12】新規素材登録画面の画面例を示す図である。
【
図13】編集方針登録画面の画面例を示す図である。
【
図14】新規編集方針登録画面の画面例を示す図である。
【発明を実施するための形態】
【0023】
以下に、本発明の一態様に係る実施形態を適用した動画生成システム1について、図面を参照して説明する。以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。
【0024】
また、以下の実施の形態において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
【0025】
さらに、以下の実施の形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。
【0026】
同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは特に明示した場合および原理的に明らかにそうではないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。
【0027】
また、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0028】
近年では、ネットワークや各種電子デバイス(パーソナルコンピュータ、タブレットデバイス、スマートフォン等)の普及により、いつでもどこでも動画を作成し公開する環境が構築されつつある。例えば、誰でも簡単にスマートフォン等により撮影し、誰でもアクセス可能なSNS(Social Networking Service)や動画共有サイト等に場所・時間を問わずに投稿できるようになりつつある。しかし、衆目を集めるような質の高い動画は、専門的知識を備える編集者が時間と労力をかけて作り出したものであることが多い。
【0029】
そこで、本発明に係る実施形態では、ユーザが望む動画編集方針を受け付けて該方針に沿った動画を自動生成する動画生成システム1を利用可能とする。動画生成システム1によれば、ユーザ自身に動画編集のスキルが無い場合や、動画生成のための設備環境がない場合であっても、ユーザが望む態様の動画を生成することができる。
【0030】
図1は、本実施形態に係る動画生成システムの概要を示す図である。動画生成システム1では、ユーザが、自身の利用するユーザ端末400と、通信路を介してユーザ端末400と通信可能に接続された装置群と、を利用する。装置群には、動画生成装置100と、対話型AIサービス200を提供する装置群と、音声解析サービス300を提供する装置群と、が含まれる。
【0031】
例えば、対話型AIサービス200を提供する装置群、音声解析サービス300を提供する装置群、動画生成装置100としては、インターネットを介して接続されるクラウドコンピュータや、動画生成装置100と、対話型AIサービス200を提供する装置群と、音声解析サービス300を提供する装置群の所有者が管理するサーバー装置等を用いるようにしてもよい。さらには、これに限られず、ユーザのスマートウォッチ等のウェアラブル装置をユーザ端末400として用いるようにしてもよい。
【0032】
なお、ユーザ端末400と装置群(動画生成装置100と、対話型AIサービス200を提供する装置群と、音声解析サービス300を提供する装置群を含む)とが通信する際には、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、携帯電話網等、Bluetooth(登録商標)等の近距離無線通信あるいはこれらが複合した通信網である通信路を介して接続される。なお、当該通信路50は、携帯電話通信網等の無線通信網上のVPN(Virtual Private Network)等であってもよい。
【0033】
動画生成システム1を用いることで、ユーザが望む態様の動画を生成することができる。具体的には、ユーザは、ユーザ端末400を用いて動画生成システム1に発話および環境音が録画されている動画素材ファイルと動画編集方針を登録(1と2)した後、動画生成を申し込む。動画生成装置100は、素材動画から音声成分のみを抽出し、素材動画の音声ファイル(3)として音声解析サービス300に解析を依頼する。音声解析サービス300は、素材動画の音声ファイルを解析して、発話タイミングと発話した単語および文章を対応付けた解析済みテキストファイル(4)を動画生成装置100に返す。
【0034】
動画生成装置100は、音声解析サービス300から得た解析済みテキストファイルと、動画編集方針を盛り込んだ命令情報(5)を対話型AIサービス200に送信して編集計画書の作成を依頼する。なお、この際、動画生成装置100は、実際の動画素材ファイルや音声ファイルを対話型AIサービス200に送信せず、解析済テキストファイルを送信する。対話型AIサービス200は、命令情報に指定された制約条件、編集計画により得られる編集動画についての制約条件、構成情報、付加すべき動画、静止画または音声の指定、視覚効果の指定等を満たす編集計画を作成し、編集計画書(6)として動画生成装置100に返す。
【0035】
動画生成装置100は、対話型AIサービス200から編集計画書を受け取ると、編集計画に従って動画編集処理を行い、編集動画(7)を作成してユーザ端末400に提供する。これにより、ユーザは、提供された編集動画を利活用可能となる。
【0036】
図2は、実施形態に係る動画生成システムの構成図である。動画生成システム1には、動画生成装置100と、通信路50を介して動画生成装置100と通信可能な対話型AIサービス200と、音声解析サービス300と、ユーザ端末400と、が含まれる。
【0037】
動画生成装置100は、記憶部110と、処理部120と、入出力部140と、通信部150と、が互いにバス等で通信可能に接続される。
【0038】
記憶部110には、素材情報111と、時系列発話情報112と、編集方針情報113と、命令情報114と、編集計画書115と、編集動画116と、が含まれる。
【0039】
図3は、素材情報のデータ構造例を示す図である。素材情報111は、動画生成に用いるための素材動画の情報を複数記憶する。素材情報111には、ユーザ111Aと、動画タイトル111Bと、動画ファイルパス111Cと、説明111Dと、解析済フラグ111Eと、解析結果111Fと、が含まれる。
【0040】
ユーザ111Aは、ユーザを、他のユーザから区別する情報である。動画タイトル111Bは、素材として登録する動画のタイトルである。動画ファイルパス111Cは、素材として登録する動画のファイルシステム上の格納場所、あるいはURI(Uniform Resource Identifier)である。説明111Dは、素材として登録する動画の内容を自然言語で説明する情報である。解析済フラグ111Eは、音声解析サービス300による解析を終えたか否かを示す情報である。解析結果111Fは、音声解析サービス300による解析の結果情報である解析済テキストである。
【0041】
図4は、時系列発話情報のデータ構造例を示す図である。時系列発話情報112は、動画内での経過時間を時系列として、動画内でなされた発話のテキストを順に格納する情報である。時系列発話情報112には、発話開始時刻112Aと、発話終了時刻112Bと、発話テキスト(単語)112Cと、が含まれる。
【0042】
発話開始時刻112Aと、発話終了時刻112Bとは、動画内でなされた発話の開始タイミングと、終了タイミングとをそれぞれ動画の開始時刻からの経過時間(動画内時刻)によって特定する情報である。発話テキスト(単語)112Cは、発話開始時刻112Aと、発話終了時刻112Bとの間に発話された単語である。ただし、単語に限られず、一定の長さの文や節であってもよい。
【0043】
図5は、編集方針情報のデータ構造例を示す図である。編集方針情報113は、生成したい動画の編集方針の情報である。編集方針情報113には、タイトル113Aと、コンテンツの目標113Bと、制約条件113Cと、コンテンツの構成113Dと、リソースファイル113Eと、編集計画書フォーマット113Fと、が含まれる。
【0044】
タイトル113Aは、編集方針のタイトルあるいは生成したい動画のタイトルである。コンテンツの目標113Bは、生成したい動画が目指すイメージや、視聴者の心理変化のねらい(見ると楽しくなる、あるいは落ち着ける)等の情報である。制約条件113Cは、生成動画の尺(再生時間)等の動画作成上の制約条件の情報である。コンテンツの構成113Dは、生成する動画の構成、例えば3つの連続動画を視覚効果のトランジションでつなぎ合わせる、等の構成に関する情報である。リソースファイル113Eは、生成する動画に用いる動画素材の情報である。編集計画書フォーマット113Fは、動画生成のための編集計画書のフォーマットを指定する情報である。編集計画書のフォーマットは、既知のフォーマットでもよいし、SGML(Standard Generalized Markup Language)等に準拠した拡張言語で定義するものであってもよい。
【0045】
図6は、命令情報のデータ構造例を示す図である。命令情報114は、対話型AIサービス200に処理をさせるための命令(プロンプト)である。本実施形態に係る動画生成の命令は、例えば、編集方針情報113を指定して、該編集方針に従って編集計画書を作成するよう指示するものであり、自然言語にて記述される。
【0046】
図7は、編集計画書のデータ構造例を示す図である。編集計画書115は、生成する動画の動画内時刻に割り当てられる構成要素をタグ指定する等により、編集情報を所定のフォーマットにて記述して動画作成の計画情報とするものである。
【0047】
本実施形態に係る編集計画書のフォーマットの概略を説明する。まず、編集計画書は、大きく“shot”、“view”、“attach”の3種類の要素を含めることができる。“shot”タグは、複数の“view”をまとめたものである。“view”は、素材ファイルと関連情報を規定する。素材ファイルには、動画(動画素材内で使用する箇所の開始時刻と終了時刻の指定を含む)と、画像(画像ファイルの拡大率や画面内配置)とがあり、関連情報には、カラー指定およびグラデーション指定がある。“attach”は、“view”で指定される素材に付加する形で表示する要素(画像であるならば、サイズ、配置、生成する動画内での開始時刻と終了時刻の指定を含む。音声であるならば、音声ボリューム、生成する動画内での開始時刻と終了時刻の指定を含む。)を指定する。
【0048】
例えば、素材動画内時刻を指定して抽出した素材動画からの切り出し動画を該構成要素の一つ(“views”)に割り当て、そのような複数の切り出し動画をトランジションを挟んで連続的に再生させた後、チャンネル内の他の動画にアクセスするためのQRコード(登録商標)を表示させる時間を付帯させる(“attaches”)、等のカット編集情報を記述する。
【0049】
例えば、編集計画書には、編集計画として、素材となる動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて編集動画を構成する情報が含まれてもよい。また、編集計画書には、編集計画として、素材となる動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて編集動画を構成する情報、および部分的な動画の前後に付加すべき動画、静止画または音声の指定が含まれてもよい。また、編集計画書には、編集計画として、素材となる動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて編集動画を構成する情報、および部分的な動画のつなぎ目に用いる視覚効果の指定が含まれてもよい。
【0050】
図2の説明に戻る。処理部120には、取得部121と、解析部122と、編集計画部123と、動画編集部124と、が含まれる。
【0051】
取得部121は、動画ファイルを取得する。解析部122は、動画ファイルに含まれる発話音声を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を音声解析サービスから取得する。また、解析部122は、動画ファイルに含まれる発話音声を時系列を維持しながら早送り編集し、所定の音声テキスト変換部(音声解析サービス300)に受け渡して時系列発話情報を得てもよい。あるいはまた、解析部122は、動画ファイルに含まれる発話音声の話者を識別して話者ごとに時系列を維持しながら抽出し、所定の音声テキスト変換部(音声解析サービス300)に受け渡して得たテキスト情報を統合して時系列発話情報を得てもよい。
【0052】
編集計画部123は、時系列発話情報と、時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AI(対話型AIサービス200)に送信し、対話型AIから編集計画書を受信する。また、編集計画部は、命令情報に、編集計画により得られる編集動画についての制約条件を含めるようにしてよい。また、編集計画部123は、命令情報に、編集計画により得られる編集動画についての構成情報を含めるようにしてもよい。編集計画部123は、命令情報に、編集計画により得られる編集動画に付加すべき動画、静止画または音声の指定を含めるようにしてもよい。また、編集計画部123は、命令情報に、編集計画により得られる編集動画において用いる視覚効果の指定を含めるようにしてもよい。また、編集計画部123は、命令情報に、編集計画を記述するフォーマット言語についての定義情報を含めるようにしてもよい。
【0053】
動画編集部124は、編集計画書に含まれる編集計画に沿って動画ファイルを編集し、編集動画を生成する。具体的には、動画編集部124は、部分的な動画を動画素材のファイルから切り出してつなぎ合わせることで前記編集動画を生成する。また、動画編集部124は、さらに、付加すべき動画、静止画または音声を付加することで編集動画を生成するようにしてもよい。また、動画編集部124は、部分的な動画を動画ファイルから切り出してつなぎ合わせ、該つなぎ目に指定された視覚効果を適用することで編集動画を生成するようにしてもよい。
【0054】
入出力部140は、動画生成装置100に対する入出力を制御する。例えば、入出力部140は、受け付けたタイピングやタッチ、フリック入力等の各種の接触入力、あるいは視線入力等の各種の入力を受け付ける。また、入出力部140は、ユーザへの出力を行う。出力される情報は、画面、プレゼンテーション情報、広告、動画等の各種出力情報である。
【0055】
通信部150は、通信路50を介して対話型AIサービス200を提供する装置群、音声解析サービス300を提供する装置群、ユーザ端末400およびその他インターネットを介して通信を行う他の端末との間で通信を行う。
【0056】
対話型AIサービス200は、例えば、GPT、Gemini等のいわゆる生成AIの機能をAPI(Application Programming Interface)等を介して提供するサービスである。対話型AIサービス200は、自然言語による命令(プロンプト)を生成AIに与えて、望む結果を生成させて得る。本実施形態では、生成AIに動画を生成するための編集計画書を生成させる。
【0057】
音声解析サービス300は、例えば、Google TTS API 等の公知の技術を用いて音声解析を行う。音声解析サービス300は、音声ファイルを受け付けると、音声ファイル内での発話をテキストに起こし、その音声ファイルに含まれる発話ごとに発話内容のテキストと、発話の開始時刻と終了時刻を特定する情報を解析済テキストとして出力する。
【0058】
ユーザ端末400は、ユーザが利用する端末である。ユーザ端末400としては、ユーザのスマートフォン端末、PC(Personal Computer)等を用いるようにしてもよい。さらには、これに限られず、ユーザのスマートウォッチ等のウェアラブル装置をユーザ端末400として用いるようにしてもよい。
【0059】
図8は、動画生成装置のハードウェア構成例を示す図である。動画生成装置100は、いわゆるサーバー装置、ワークステーション、パーソナルコンピュータ、スマートフォンあるいはタブレット端末の筐体により実現されるハードウェア構成を備える。動画生成装置100は、プロセッサ101と、メモリ102と、ストレージ103と、入力装置104と、表示装置105と、通信装置106と、各装置をつなぐバスと、を備える。
【0060】
プロセッサ101は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)等の演算装置である。
【0061】
メモリ102は、例えばRAM(Random Access Memory)などのメモリ装置である。
【0062】
ストレージ103は、デジタル情報を記憶可能な、いわゆるハードディスク(Hard Disk Drive)やSSD(Solid State Drive)あるいはフラッシュメモリなどの不揮発性記憶装置である。
【0063】
入力装置104は、キーボードやマウス、タッチパネル、マイクのいずれかまたは複数の入力を受け付ける装置である。表示装置105は、有機EL(Electro-Luminescence)ディスプレイ等の各種出力装置のいずれかまたは複数の表示を行う装置である。
【0064】
通信装置106は、ネットワークを介して他の装置と通信するネットワークインターフェースカード(NIC)等である。
【0065】
なお、対話型AIサービス200を提供する装置、音声解析サービス300を提供する装置、ユーザ端末400についても、動画生成装置100と略同様のハードウェア構成を備える。
【0066】
上記した動画生成装置100の処理部120と、取得部121と、解析部122と、編集計画部123と、動画編集部124とは、プロセッサ101に処理を行わせるプログラムによって実現される。このプログラムは、メモリ102、ストレージ103または図示しないROM装置内に記憶され、実行にあたってメモリ102上にロードされ、プロセッサ101により実行される。
【0067】
また、動画生成装置100の記憶部110は、メモリ102及びストレージ103により実現される。また、入出力部140は、入力装置104および表示装置105により実現される。通信部150は、通信装置106により実現される。以上が、動画生成装置100のハードウェア構成例である。
【0068】
動画生成装置100の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
【0069】
また、各処理部(処理部120と、取得部121と、解析部122と、編集計画部123と、動画編集部124)は、それぞれの機能を実現する専用のハードウェア(ASIC、GPUなど)により構築されてもよい。また、各処理部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
【0070】
次に、本実施形態における動画生成システム1の動作を説明する。
【0071】
図9は、動画生成フロー(動画素材登録)の例を示す図である。動画生成フロー(動画素材登録)は、ユーザがユーザ端末400のウェブブラウザあるいはアプリケーションソフトウェア(以後、単にブラウザと表記することもある)において開始を要求すると開始される。
【0072】
動画生成装置100の取得部121は、動画素材登録画面を生成し、ユーザ端末400に表示させる(ステップS001)。具体的には、取得部121は、ユーザが過去に登録済の動画の一覧を管理する動画素材登録画面を生成する。そして、取得部121は、生成した動画素材登録画面の表示情報をユーザ端末400に送信する。
【0073】
そして、ユーザ端末400のブラウザは、動画素材登録画面を表示させ、登録する動画素材ファイルと、動画タイトルと、説明の情報を含む情報を付帯させて動画素材登録依頼を動画生成装置100に送信する(ステップS002)。
【0074】
取得部121は、動画素材ファイル等を取得する(ステップS003)。具体的には、取得部121は、素材情報111に、ユーザと、動画タイトルと、動画ファイルと、説明と、を登録する。
【0075】
そして、解析部122は、動画解析(音声部分抽出)を行う(ステップS004)。具体的には、解析部122は、取得した動画ファイルからオーディオ成分を分離取得する。
【0076】
そして、解析部122は、動画解析(早送音声生成)を行う(ステップS005)。具体的には、解析部122は、取得した動画ファイルに含まれるオーディオ成分を時系列を維持しながら早送り編集する。例えば、解析部122は、動画内時間で発話開始0分15秒時点から発話終了0分27秒時点までの発話(発話継続時間が12秒)の動画ファイルについて処理する場合、4倍速に編集して、発話開始から発話終了までの時間が3秒となるよう音声ファイルのデータ量を小さく作成する。
【0077】
そして、解析部122は、動画解析(音声解析依頼)を行う(ステップS006)。具体的には、解析部122は、音声解析サービス300に、ステップS005にて作成した早送音声の音声ファイルをAPI等を通じて送信して解析を依頼する。
【0078】
音声解析サービス300は、送信された早送音声の音声ファイルについて、音声解析処理を行う(ステップS007)。具体的には、音声解析サービス300は、素材動画の発話タイミングと発話内容を対応付けて記録した素材動画の発話タイミング解析済テキストを生成し、動画生成装置100に送信する。
【0079】
そして、解析部122は、動画解析(時系列情報作成)を行う(ステップS007)。具体的には、解析部122は、受信した解析済みテキストを時系列発話情報112に格納し、解析済フラグ111Eを「済」に設定して、解析結果111Fに当該時系列発話情報112への参照情報を格納する。その際、解析部122は、解析済みテキストと時系列発話情報112と、のデータ構造が異なる場合には、解析済みテキストの情報について、時刻情報を早送状態から通常速度状態に戻すよう変換して時系列発話情報112として格納してもよいし、時刻情報を早送状態から通常速度状態に戻すよう変換した上で時系列発話情報112のデータ構造に変換して格納してもよい。
【0080】
以上が、動画生成フロー(動画素材登録)の例である。動画生成フロー(動画素材登録)によれば、動画素材として登録された動画について、発話のテキスト情報と動画上のその発話タイミングを解析した時系列発話情報を得ることができる。
【0081】
図10は、動画生成フロー(編集方針登録)の例を示す図である。動画生成フロー(編集方針登録)は、ユーザがユーザ端末400のブラウザにおいて開始を要求すると開始される。
【0082】
動画生成装置100の編集計画部123は、編集方針登録画面を生成し、ユーザ端末400に表示させる(ステップS101)。具体的には、編集計画部123は、ユーザが過去に登録済の編集方針の一覧を管理する編集方針登録画面を生成する。そして、編集計画部123は、生成した編集方針登録画面の表示情報をユーザ端末400に送信する。
【0083】
そして、ユーザ端末400のブラウザは、編集方針登録画面を表示させ、登録する編集方針タイトルと、登録動画素材と、オーダーを含む情報を付帯させて編集方針登録依頼を動画生成装置100に送信する(ステップS102)。
【0084】
編集計画部123は、編集方針等を受け付ける(ステップS103)。具体的には、編集計画部123は、編集方針情報113に、編集方針タイトルと、オーダーに基づいてコンテンツの目標、制約条件、コンテンツの構成、編集計画書フォーマットと、登録動画素材に基づいてリソースファイルと、を登録する。なお、編集計画部123は、オーダーに記載されている自然言語を解釈して、オーダーに含まれているコンテンツの目標、制約条件、コンテンツの構成、編集計画書フォーマットを特定する。
【0085】
そして、編集計画部123は、編集準備(命令情報作成)を行う(ステップS104)。具体的には、編集計画部123は、命令情報114を作成する。例えば、編集計画部123は、上述した命令情報114の編集方針データの指定部分を、編集方針情報113の内容に置き換えて、対話型AIサービス200に受け渡すプロンプトを生成する。
【0086】
そして、編集計画部123は、編集準備(計画依頼)を行う(ステップS105)。具体的には、編集計画部123は、ステップS104にて作成した命令情報114と、素材動画の発話タイミング解析済テキストと、を対話型AIサービス200にAPI等を通じて送信する。
【0087】
そして、対話型AIサービス200は、送信された命令情報に従って、編集計画処理を行う(ステップS106)。具体的には、対話型AIサービス200は、素材動画の発話タイミング解析済テキストを用いて、発話内容(意味)と発話タイミングを考慮して重要な部分や面白い、興味深い等と評価される発言を中心にカット編集を行い、オーダーに従ってトランジションやアタッチメントを組み込んで指定された尺を満たすよう編集する計画を立てる。対話型AIサービス200は、計画した編集内容を編集計画書として指定されたフォーマットで生成し、動画生成装置100に送信する。
【0088】
そして、動画編集部124は、該編集計画書115に従って動画編集(編集動画作成)を行う(ステップS107)。具体的には、動画編集部124は、送信された編集計画書を受信すると、記憶部110の編集計画書115に格納する。そして、動画編集部124は、該編集計画書115に従って動画編集(編集動画作成)を行い、動画編集の結果得られた編集動画を、記憶部110の編集動画116に格納するとともにユーザ端末400へ送信する。なお、動画編集部124は、動画編集の結果得られた編集動画を、ダウンロード可能にウェブサイトに掲示してユーザ端末400にそのリンクを送信するようにしてもよいし、あるいはユーザ端末400から予め指定された動画共有サイトにアップロードするようにしてもよい。
【0089】
以上が、動画生成フロー(編集方針登録)の例である。動画生成フロー(編集方針登録)によれば、動画素材として登録された動画を解析して得た時系列発話情報と、編集方針を用いて作成した編集計画に従い、動画素材を編集して編集動画を得ることができる。したがって、ユーザが望む態様の動画を生成することができるといえる。
【0090】
図11は、動画素材登録画面の画面例を示す図である。動画素材登録画面の画面例600には、少なくとも、登録された動画素材ファイル610ごとに、動画タイトル611と、説明の情報615と、を含む情報を表示させる。その他、動画素材登録画面の画面例600には、編集方針一覧画面へ遷移する指示を受け付ける編集方針表示ボタン601と、動画素材を新規登録する指示を受け付ける新規登録ボタン602と、登録された動画素材ファイル610ごとに、動画ファイル名612と、コンテンツ解析ステータス613と、動画素材の登録を解除する削除ボタン614と、が含まれる。
【0091】
コンテンツ解析ステータス613は、登録された動画素材について、発話のテキスト情報と動画上のその発話タイミングを解析した時系列発話情報を得たか否かを示す情報である。編集方針表示ボタン601は、入力を受け付けると、後述する編集方針登録画面の画面例に画面を遷移させる。新規登録ボタン602は、入力を受け付けると、後述する新規素材登録画面の画面例に画面を遷移させる。
【0092】
図12は、新規素材登録画面の画面例を示す図である。新規素材登録画面の画面例650には、少なくとも、ユーザが登録する動画素材について、動画タイトル651と、動画ファイル名652と、動画ファイル名652にて特定される動画ファイルの格納位置を示すファイルパスを参照入力する参照ボタン653と、素材ファイルの説明入力欄654と、動画素材登録画面へ遷移する指示を受け付ける閉じるボタン655と、動画素材を登録する指示を受け付ける登録ボタン656と、が含まれる。
【0093】
素材ファイルの説明入力欄654は、フリーテキストにて素材の内容の説明を受け付ける。例えば、素材ファイルの説明入力欄654は、動画素材の場合、あらすじや、動画内時刻ごとのシーンの説明を受け付ける。登録ボタン656は、動画素材を登録する指示を受け付けると、動画生成フロー(動画素材登録)のステップS003の登録処理を実施する。
【0094】
図13は、編集方針登録画面の画面例を示す図である。編集方針登録画面の画面例700には、少なくとも、登録された編集方針710ごとに、編集方針名711と、編集方針の登録を解除する削除ボタン712と、編集方針の具体的な内容であるオーダー713と、編集計画書の作成の指示を受け付ける編集計画書作成ボタン714と、編集計画書により作成される動画のあらすじの説明の情報715と、編集計画書に従って編集動画を生成する指示を受け付ける動画生成ボタン716と、を表示させる。
【0095】
オーダー713は、編集方針(制約条件や構成条件を含む)を自然言語で記述したテキスト情報である。例えば、オーダー713には、生成する動画の尺の制限や目安、編集動画に付加すべき動画・静止画・音声の指定、あるいは編集動画において用いる視覚効果の指定が含まれる。
【0096】
編集計画書作成ボタン714は、入力を受け付けると、編集計画書の作成の指示として受け付け、動画生成フロー(編集方針登録)のステップS104からステップS107を実施させる。あらすじ715には、編集計画書により示される編集動画のあらすじ(例えば、章立てや動画の再生時間等)が表示される。動画生成ボタン716は、入力を受け付けると、作成された編集計画書に従った動画作成の指示として受け付け、動画生成フロー(編集方針登録)のステップS107を実施させる。
【0097】
また、編集方針登録画面の画面例700には、登録動画素材一覧表示ボタン701と、新規登録ボタン702と、が含まれる。登録動画素材一覧表示ボタン701は、入力を受け付けると、動画素材登録画面の画面例600に画面を遷移させる。新規登録ボタン702は、入力を受け付けると、後述する新規編集方針登録画面の画面例に画面を遷移させる。
【0098】
図14は、新規編集方針登録画面の画面例を示す図である。新規編集方針登録画面の画面例750には、少なくとも、ユーザが登録する編集方針について、編集方針名751と、編集対象とする動画素材の動画ファイル名752と、動画ファイル名752にて特定される動画ファイルの格納位置を示すファイルパスを参照入力する参照ボタン753と、編集方針の具体的な内容を受け付けるオーダー入力欄754と、編集方針登録画面の画面例700へ遷移する指示を受け付ける閉じるボタン755と、編集方針を登録する指示を受け付ける登録ボタン756と、が含まれる。
【0099】
オーダー入力欄754は、フリーテキストにて編集方針の内容の指示(プロンプトへの追加情報)を受け付ける。具体的には、オーダー入力欄754は、生成する動画の尺の制限や目安、編集動画に付加すべき動画・静止画・音声の指定、あるいは編集動画において用いる視覚効果の指定を受け付ける。例えば、オーダー入力欄754は、「3つのシーンから構成され、それぞれのシーンの変遷には視覚効果を付けて急な被写体、明度の変化を避ける。BGMは明るい感じの曲で、動画の最後にはQRコードを表示する時間を10秒設けて。動画全体の尺は5分以内で。」のようなフリーテキストを編集方針の内容として指示を受け付ける。
【0100】
登録ボタン656は、編集方針を登録する指示を受け付けると、動画生成フロー(編集方針登録)のステップS103の登録処理を実施する。
【0101】
以上が、本発明に係る実施形態の一つとしての動画生成システム1である。以上の実施形態のように、動画生成システム1によれば、ユーザ自身に動画編集のスキルが無い場合や、動画生成のための設備環境がない場合であっても、ユーザが望む態様の動画を生成することができる。
【0102】
本発明は、上記の実施形態に制限されない。上記の実施形態は、本発明の技術的思想の範囲内で様々な変形が可能である。例えば、上記の実施形態においては、動画生成装置100は、対話型AIサービス200を利用して動画の編集計画書を得ているが、これに限られず、例えば、動画生成装置100自身にて動画生成に特化した生成AIを稼働させ、編集動画を生成するものであってもよい。
【0103】
あるいは、上記の実施形態においては、動画生成装置100は、音声解析サービス300を利用して素材動画の発話の解析を行っているが、これに限られず、例えば、動画生成装置100自身にて音声解析に特化した生成AIを稼働させ、時系列発話情報を生成するものであってもよい。
【0104】
また、動画生成装置100の機能は、1つ又は複数のコンピュータで構成されるクラウドサービスによって実現してもよい。
【0105】
また、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品のような複数の部分に分けられて適用されるようにしてもよい。
【0106】
以上、本発明について、実施形態を中心に説明した。
【符号の説明】
【0107】
1・・・動画生成システム、50・・・通信路、100・・・動画生成装置、110・・・記憶部、111・・・素材情報、112・・・時系列発話情報、113・・・編集方針情報、114・・・命令情報、115・・・編集計画書、116・・・編集動画、120・・・処理部、121・・・取得部、122・・・解析部、123・・・編集計画部、124・・・動画編集部、140・・・入出力部、150・・・通信部、200・・・対話型AIサービス、300・・・音声解析サービス、400・・・ユーザ端末。
【要約】
【課題】ユーザが望む態様の動画を生成する技術を提供する。
【解決手段】
動画生成装置であって、動画ファイルを取得する取得部と、動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析部と、時系列発話情報と、時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、対話型AIから編集計画を受信する編集計画部と、編集計画に沿って動画ファイルを編集し、編集動画を生成する動画編集部とを有することを特徴とする。
【選択図】
図1