IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社インビジの特許一覧 ▶ 株式会社cotonの特許一覧 ▶ 株式会社スターリーワークスの特許一覧

特開2022-94684動画編集プログラム、動画編集サーバ、及び動画編集システム
<>
  • 特開-動画編集プログラム、動画編集サーバ、及び動画編集システム 図1
  • 特開-動画編集プログラム、動画編集サーバ、及び動画編集システム 図2
  • 特開-動画編集プログラム、動画編集サーバ、及び動画編集システム 図3
  • 特開-動画編集プログラム、動画編集サーバ、及び動画編集システム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022094684
(43)【公開日】2022-06-27
(54)【発明の名称】動画編集プログラム、動画編集サーバ、及び動画編集システム
(51)【国際特許分類】
   H04N 5/262 20060101AFI20220620BHJP
【FI】
H04N5/262
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2020207708
(22)【出願日】2020-12-15
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.YouTube
2.TiKToK
(71)【出願人】
【識別番号】520494666
【氏名又は名称】株式会社インビジ
(71)【出願人】
【識別番号】520494677
【氏名又は名称】株式会社coton
(71)【出願人】
【識別番号】520494688
【氏名又は名称】株式会社スターリーワークス
(74)【代理人】
【識別番号】100092783
【弁理士】
【氏名又は名称】小林 浩
(74)【代理人】
【識別番号】100141025
【弁理士】
【氏名又は名称】阿久津 勝久
(74)【代理人】
【識別番号】100104282
【弁理士】
【氏名又は名称】鈴木 康仁
(72)【発明者】
【氏名】松尾 謙二郎
(72)【発明者】
【氏名】▲濱▼野 峻行
(72)【発明者】
【氏名】木村 幸司
(72)【発明者】
【氏名】森本 洋太
【テーマコード(参考)】
5C023
【Fターム(参考)】
5C023AA11
5C023AA21
5C023BA11
5C023CA01
5C023CA04
(57)【要約】      (修正有)
【課題】特別なスキルを持たないユーザでも、煩雑な処理なしで動画編集を可能とする。
【解決手段】動画編集プログラムは、動画編集サーバに、目標音表現Bに基づき、素材動画Aから編集動画Cを生成させる。動画編集プログラムは、動画編集サーバに、素材動画Aから素材音ASを抽出させることS002と、素材音ASを素材断片音ASDに分割させることS004と、目標音表現Bを目標断片音BSDに分割させることS009と、素材断片音ASD及び目標断片音BSDの間の類似度を判定させることS011と、目標断片音BSDに類似する素材断片音ASDに対応する素材断片動画ADを、目標断片音BSDの時間的シーケンスに基づき配列させることとS017と、素材断片動画ADの配列から編集動画Cを生成させることS018と、を実行する。
【選択図】図4
【特許請求の範囲】
【請求項1】
動画編集コンピュータを作動させるための動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、目標音表現に基づき、素材動画から編集動画を生成させる、動画編集プログラム。
【請求項2】
請求項1に記載の動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、
前記目標音表現を構成する目標断片音を予め記憶させるステップと、
前記素材動画から素材音を抽出させるステップと、
前記素材音を素材断片音に分割させるステップと、
前記素材動画を素材断片動画に分割させるステップと、
前記目標断片音を読み出させるステップと、
前記素材断片音及び前記目標断片音の間の類似度を判定させるステップと、
前記類似度に基づき、前記目標音表現を模倣するように前記素材断片音を配列させるステップと、
前記配列された前記素材断片音に前記素材断片動画を結合させて前記編集動画を生成させるステップと、
を実行させる、動画編集プログラム。
【請求項3】
請求項1に記載の動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、
前記素材動画から素材音を抽出させるステップと、
前記素材音を素材断片音に分割させるステップと、
前記素材動画を素材断片動画に分割させるステップと、
前記目標音表現を目標断片音に分割させるステップと、
前記素材断片音及び前記目標断片音の間の類似度を判定させるステップと、
前記類似度に基づき、前記目標音表現を模倣するように前記素材断片音を配列させるステップと、
前記配列された前記素材断片音に前記素材断片動画を結合させて前記編集動画を生成させるステップと、
を実行させる、動画編集プログラム。
【請求項4】
請求項2又は3に記載の動画編集プログラムであって、
前記目標音表現を模倣するように前記素材断片音を配列させるステップは、
前記目標断片音に類似する前記素材断片音を、前記目標断片音の目標音シーケンスに基づき配列させるステップである、動画編集プログラム。
【請求項5】
請求項2乃至4のいずれか一項に記載の動画編集プログラムであって、
前記素材音を前記素材断片音に分割させるステップは、前記素材音の時分割用特徴量に基づき、前記素材音を前記素材断片音に分割させるステップである、動画編集プログラム。
【請求項6】
請求項2乃至4のいずれか一項に記載の動画編集プログラムであって、
前記目標音表現を前記目標断片音に分割させるステップは、前記目標音表現の時分割用特徴量に基づき、前記目標音表現を前記目標断片音に分割させるステップである、動画編集プログラム。
【請求項7】
請求項2乃至6のいずれか一項に記載の動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、音圧変化、スペクトルフラックス、又は発話区間推定に基づき、前記時分割用特徴量を生成させるステップをさらに含む、動画編集プログラム。
【請求項8】
請求項2乃至7のいずれか一項に記載の動画編集プログラムであって、
前記素材断片音及び前記目標断片音の間の類似度を判定させるステップは、前記素材断片音及び前記目標断片音のそれぞれの音的特徴量に基づき、類似度を判定させるステップである、動画編集プログラム。
【請求項9】
請求項8に記載の動画編集プログラムであって、
前記音的特徴量は、音響的特徴量及び/又は音楽的特徴量である、動画編集プログラム。
【請求項10】
請求項9に記載の動画編集プログラムであって、
前記音響的特徴量は、周波数成分に関するものとして、ゼロクロス検出、中心周波数、又はロールオフであり、又は
前記音響的特徴量は、音圧に関するものとして、エンベロープ(時間に対する音圧変化)である、動画編集プログラム。
【請求項11】
請求項9に記載の動画編集プログラムであって、
前記音楽的特徴量は、クロマグラムによるピッチクラス、または和音抽出とすることができる、動画編集プログラム。
【請求項12】
請求項8乃至11のいずれか一項に記載の動画編集プログラムであって、
前記音的特徴量は、一つ又は複数の音的特徴量である、動画編集プログラム。
【請求項13】
請求項12に記載の動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、前記複数の音的特徴量に対して重み付けを適用させるステップをさらに実行させる、動画編集プログラム。
【請求項14】
請求項2乃至13のいずれか一項に記載の動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、前記素材断片音に対して音圧を調整するための後処理を適用させるステップをさらに実行させる、動画編集プログラム。
【請求項15】
請求項2乃至14のいずれか一項に記載の動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、予め定めたマニュアルシーケンスに基づき、前記素材断片音を所定の順序で配列させるステップをさらに実行させる、動画編集プログラム。
【請求項16】
請求項2乃至15のいずれか一項に記載の動画編集プログラムに基づき作動する動画編集サーバ。
【請求項17】
請求項16に記載の動画編集サーバと、前記動画編集サーバと通信可能に接続された、少なくとも一つの端末装置とから構成される、動画編集システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音楽等の類似度に基づき動画を編集するための動画編集プログラム、動画編集サーバ、及び動画編集システムに関する。
【背景技術】
【0002】
本発明の前提には表現素材のデジタル化・数値化という流れがあり、既存の音や映像などは、数値化されることにより計算機を使った情報分析や情報処理が可能な表現素材となる。
【0003】
従来、オンライン上で配信される動画は、マスメディアや一部のアーティストが発信の主体であった。しかし近年、動画共有サービス(YouTube、TikTok、Instagramなど)の普及により、一般ユーザにおいてもスマートフォン、タブレット端末、パーソナルコンピュータ(PC)等から手軽に動画を投稿する機会が増加した。動画がテキストや画像に次ぐ表現やコミュニケーションの手段として用いられ、オンライン動画共有サービスはソーシャル・ネットワーキング・サービスとしての様相も帯びてきている。
【0004】
動画共有サービスのユーザは、動画の投稿前にスマートフォンでの撮影やオンラインからの収集による素材動画を加工・編集するための、アプリやサービスが多く用いられている。こうした編集機能には表現の多様さと同時に手軽さが求められる。一般ユーザが利用可能な動画編集の技術には、現状では以下のものがある。
・動画への視覚エフェクト効果の付加(Instagram、Snow)
・再生速度の変更(TikTok)
・動画編集ソフトウェア又はアプリ(PCまたはスマートフォン用の各種アプリケーション)
【0005】
動画編集以外で、複数表現の統合による表現手法としては、視覚表現手法「寄せ絵」と音楽・映像表現手法「マッシュアップ」が挙げられる。これらを例に本発明者らが参考とした特徴的な表現手法を2つ挙げる。
【0006】
デジタルテクノロジーの登場以前より視覚表現には「寄せ絵」という手法があり、日本では江戸時代の画家歌川国芳、海外ではイタリアの画家ジュゼッペ・アルチンボルドによる作品がよく知られている。これらは人物や動物、野菜などの多数のモチーフを用いてそれ自体を表すだけでなく、モチーフが持つ色や形状に画素としての役割も持たせるものである。このようにモチーフに対して二重の意味を与え、寄せ集めて構成することにより、肖像画や文字など別のものを表現する手法となる。
【0007】
また音楽や映像表現においては「マッシュアップ」という手法が20世紀後半に登場した。手法にバリエーションはあるものの、原則的には複数の素材を断片化ののち再統合して新規表現を生み出す方法である。音楽では楽曲Aのボーカル音声と楽曲Bの楽器パートを組み合わせてミックスするケースが多い。
【0008】
いずれの手法も2つないし複数の表現を統合する手法である。もとの各表現は本来無関係なものであり、上記の手法により接続して関係を持つことにより表現としての価値が生じ、鑑賞者の感情を誘起するものとなる。
【0009】
しかしながら、このような手法を手作業で実現しようとする場合、表現者自身に高度な技術が求められ、一定の作業時間も必要となる。特に動画のような音声と映像を併せて含む表現で実現する場合、その傾向はさらに強くなる。
【0010】
次に、映像の自動編集に関する特許文献を以下説明する。特許文献1には、音楽ビデオ自動的制作のための方法等が提案されている。特許文献1の要約書には、「ソースのオーディオ信号とビデオ信号の遷移点を検出する。これらの遷移点は、ビデオ信号とオーディオ信号とを時間的に整合するために使われる。ビデオ信号は、オーディオ信号との整合にしたがって編集される。結果として得られたビデオ信号は、オーディオ信号と併合されて音楽ビデオを形成する。」と記載されている。
【0011】
特許文献2には、映像編集装置およびその制御方法が提案されている。特許文献2の要約書には、「映像信号と音楽信号を編集する映像編集装置であって、音楽信号のリズム点を検出するリズム点検出手段と、前記リズム点検出手段で検出した音楽信号のリズム点に基づいて、映像信号を時間方向に分割した分割領域を作成する分割領域作成手段と、前記分割領域作成手段で作成した分割領域毎に映像の動きを評価し、時間方向の変化において繰り返しの規則性がある部分の分割領域を検出する繰り返し検出手段とを備える。」と記載されている。
【先行技術文献】
【特許文献】
【0012】
【特許文献1】特開2003-259302号公報
【特許文献2】特開2013-042215号公報
【発明の概要】
【発明が解決しようとする課題】
【0013】
上述したように、動画編集の手法は自動編集機能を持ったものも含め数々存在する。しかし、以下の課題がある。
【0014】
動画編集において、複数の表現を統合して新規な表現を作成する手法は、その鑑賞性の高さにもかかわらず(動画クリエーターが手作業で作成することはあるものの)、一般コンシューマユーザには表現手法として普及していない。その理由は、動画編集の手法に精通する必要がありスキルを必要とすること、複数の表現間の適合性を適宜判断しながら合成していく作業過程に時間がかかることが挙げられる。
【0015】
また前述の「寄せ絵」の手法のように、素材Aを用いて対象Bを表現するような機能は、その作業の煩雑さゆえ一般ユーザに広く使われているツールは例がない。さらに特許文献1や2においては、音楽自体は実質的に加工せず使うため、独自の音楽等の音の組合せを表現することができない。
【0016】
そこで、本発明は、特別なスキルを持たないユーザであっても、ユーザが煩雑な処理を行うことなく動画編集を可能とする編集プログラム、編集システム、及び編集サーバの提供を目的とする。
【課題を解決するための手段】
【0017】
本発明の各態様は次の通りである。[態様1]
動画編集コンピュータを作動させるための動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、目標音表現に基づき、素材動画から編集動画を生成させる、動画編集プログラム。
[態様2]
態様1に記載の動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、
前記目標音表現を構成する目標断片音を予め記憶させるステップと、
前記素材動画から素材音を抽出させるステップと、
前記素材音を素材断片音に分割させるステップと、
前記素材動画を素材断片動画に分割させるステップと、
前記目標断片音を読み出させるステップと、
前記素材断片音及び前記目標断片音の間の類似度を判定させるステップと、
前記類似度に基づき、前記目標音表現を模倣するように前記素材断片音を配列させるステップと、
前記配列された前記素材断片音に前記素材断片動画を結合させて前記編集動画を生成させるステップと、
を実行させる、動画編集プログラム。
【0018】
[態様3]
態様1に記載の動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、
前記素材動画から素材音を抽出させるステップと、
前記素材音を素材断片音に分割させるステップと、
前記素材動画を素材断片動画に分割させるステップと、
前記目標音表現を目標断片音に分割させるステップと、
前記素材断片音及び前記目標断片音の間の類似度を判定させるステップと、
前記類似度に基づき、前記目標音表現を模倣するように前記素材断片音を配列させるステップと、
前記配列された前記素材断片音に前記素材断片動画を結合させて前記編集動画を生成させるステップと、
を実行させる、動画編集プログラム。
[態様4]
態様2又は3に記載の動画編集プログラムであって、
前記目標音表現を模倣するように前記素材断片音を配列させるステップは、
前記目標断片音に類似する前記素材断片音を、前記目標断片音の目標音シーケンスに基づき配列させるステップである、動画編集プログラム。
【0019】
[態様5]
態様2乃至4のいずれか一項に記載の動画編集プログラムであって、
前記素材音を前記素材断片音に分割させるステップは、前記素材音の時分割用特徴量に基づき、前記素材音を前記素材断片音に分割させるステップである、動画編集プログラム。
[態様6]
態様2乃至4のいずれか一項に記載の動画編集プログラムであって、
前記目標音表現を前記目標断片音に分割させるステップは、前記目標音表現の時分割用特徴量に基づき、前記目標音表現を前記目標断片音に分割させるステップである、動画編集プログラム。
[態様7]
態様2乃至6のいずれか一項に記載の動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、音圧変化、スペクトルフラックス、又は発話区間推定に基づき、前記時分割用特徴量を生成させるステップをさらに含む、動画編集プログラム。
[態様8]
態様2乃至7のいずれか一項に記載の動画編集プログラムであって、
前記素材断片音及び前記目標断片音の間の類似度を判定させるステップは、前記素材断片音及び前記目標断片音のそれぞれの音的特徴量に基づき、類似度を判定させるステップである、動画編集プログラム。
【0020】
[態様9]
態様8に記載の動画編集プログラムであって、
前記音的特徴量は、音響的特徴量及び/又は音楽的特徴量である、動画編集プログラム。
[態様10]
態様9に記載の動画編集プログラムであって、
前記音響的特徴量は、周波数成分に関するものとして、ゼロクロス検出、中心周波数、又はロールオフであり、又は
前記音響的特徴量は、音圧に関するものとして、エンベロープ(時間に対する音圧変化)である、動画編集プログラム。
[態様11]
態様9に記載の動画編集プログラムであって、
前記音楽的特徴量は、クロマグラムによるピッチクラス、または和音抽出とすることができる、動画編集プログラム。
[態様12]
態様8乃至11のいずれか一項に記載の動画編集プログラムであって、
前記音的特徴量は、一つ又は複数の音的特徴量である、動画編集プログラム。
【0021】
[態様13]
態様12に記載の動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、前記複数の音的特徴量に対して重み付けを適用させるステップをさらに実行させる、動画編集プログラム。
[態様14]
態様2乃至13のいずれか一項に記載の動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、前記素材断片音に対して音圧を調整するための後処理を適用させるステップをさらに実行させる、動画編集プログラム。
[態様15]
態様2乃至14のいずれか一項に記載の動画編集プログラムであって、前記動画編集プログラムは、
前記動画編集コンピュータに、予め定めたマニュアルシーケンスに基づき、前記素材断片音を所定の順序で配列させるステップをさらに実行させる、動画編集プログラム。
【0022】
[態様16]
態様2乃至15のいずれか一項に記載の動画編集プログラムに基づき作動する動画編集サーバ。
[態様17]
態様16に記載の動画編集サーバと、前記動画編集サーバと通信可能に接続された、少なくとも一つの端末装置とから構成される、動画編集システム。
【発明の効果】
【0023】
本発明の動画編集プログラム、動画編集サーバ、及び動画編集システムは、特別なスキルを持たないユーザであっても、ユーザが煩雑な処理を行うことなく素材動画から編集動画を生成することができる。
【図面の簡単な説明】
【0024】
図1】本発明の実施形態に係る動画編集システムを含むネットワーク図である。
図2図1の動画編集サーバ及び端末装置を示すブロック図である。
図3】本発明の実施形態に係る動画編集プログラムの処理を示す模式図である。
図4】本発明の実施形態に係る動画編集プログラムの処理を示すフローチャートである。
【発明を実施するための形態】
【0025】
本発明の動画配信プログラム、動画編集サーバ、及び動画配信システムに関する実施形態を、図面を参照して説明する。本発明の実施形態において、「動画」とは、音及び映像を含む動画を意味する。本発明の実施形態において、「音表現」とは、連続する音による表現を含む任意のデータである。音表現のデータは、例えば、音楽、楽曲、音声、歌声、テキスト文章の読み上げデータ、若しくは演奏等のデータ、またはこれらのいずれかを含む動画データである。
【0026】
[動画編集システム]
本発明の実施形態に係る動画配信システム1000は、図1のブロック図に示すように構成される。動画配信システム1000は、編集動画を生成し配信する動画編集サーバ200と、動画編集サーバ200とインターネット300等を介して通信可能に接続される複数の端末装置400(400A,400B)とから構成される。端末装置400は、好ましくは、スマートフォン400A、パーソナルコンピュータ400B、またはタブレット端末とすることができる。
【0027】
次に、動画配信システム1000に含まれる動画編集サーバ200及び端末装置400の構成を図2を用いて説明する。動画編集サーバ200は、端末装置400と通信するための通信部210と、素材動画Aを記憶する素材動画DB(データベース)220(素材動画記憶部)と、模倣する目標となる目標音楽等(目標音表現)Bを記憶する目標音楽等DB230(音表現記憶部)と、編集動画Cを配信可能に記憶する編集動画DB240(編集動画記憶部)と、通信部210及び各DB220,230,240の動作を制御する制御部250(CPU等)と、各部及び各DBの間でデータをやり取りするためのバス280とを備える。動画編集サーバ200の制御部250は、端末装置400からの指令に基づき、素材動画Aから、目標音楽等Bに基づき、編集動画Cを生成する。
【0028】
端末装置400は、動画編集サーバ200と通信するための通信部410と、動画編集サーバ200から送信された編集動画Cの映像を表示する表示部420(ディスプレイ)と、編集動画Cの音表現を発するスピーカ部460と、各部の動作を制御する制御部430(CPU等)と、ユーザによる操作入力を受け付ける操作部440とを備える。操作部440は、キーボード、マウス、タッチパネル、マイク、及びウェブカメラ等のいずれか1又は任意の複数とすることができる。
【0029】
素材動画DB220は、端末装置400を介してアップロード又はURL等が指定された複数の素材動画Aを記憶することができる。目標音楽等DB230は、端末装置400を介してアップロード又はURL等が指定された複数の目標音楽等Bを記憶することができる。編集動画DB240は、任意選択で、複数の素材動画Aのそれぞれから生成された複数の編集動画Cを記憶することもできる。
【0030】
[編集処理概要]
本実施形態に係る画像編集プログラムが実行する処理の概要を、図3に基づき説明する。画像編集サーバ200の制御部250は、ソースとなる素材動画(音声を伴う映像素材)Aを入力とし、素材動画Aを時間的に分割したのち再構築することにより、目標音楽等B(ターゲット音表現)の音響的又は音楽的特徴を模倣した音楽等を含む編集動画C(映像)を生成する。
【0031】
制御部250は、目標音楽等Bの音的特徴(音響的及び/又は音楽的特徴)を、素材動画Aから生成された複数の素材断片動画A又は複数の素材断片音ASDを用いて模倣する。目標音楽等Bを模倣する際、目標音楽等Bの各目標断片音Bにどの素材断片動画A又は素材断片音ASDを採用するかを判定するために、制御部250が、素材動画Aの各素材断片動画A又は素材断片音ASDと、目標音楽等Bの各目標断片音Bと間で音的特徴量の比較を行う。次いで、制御部250が、ユーザの認知的に近いと感じられる素材断片動画A又は素材断片音ASDを、目標断片音Bとの音的特徴量の値に基づき特定する。制御部250は、特定された素材断片動画A又は素材断片音ASDを目標断片音Bのシーケンスに合わせて配列することにより、目標音楽等Bの音的特徴を模倣又は再現することができる。
【0032】
本実施形態において、制御部250は、各素材断片動画ADnから音声と映像を切り離すが、互いに関連付けされて保持することができる。これに替えて、制御部250は、各素材断片動画ADnから音声と映像を切り離さず一体として保持することができる。制御部250は、複数の断片音Bのそれぞれの音的特徴量βから構成される目標音シーケンスに基づき、複数の素材断片動画Aを時間軸上に並べる。図3に示すように、目標音楽等Bの音的特徴量βの目標音シーケンスは、β1、β2、β3、…の順であり、素材動画Aの音的特徴量αの目標音シーケンスは、α1、α2、α3、…である。
【0033】
図3に示すように、素材断片動画AD1の音的特徴量α1は、断片音B2の音的特徴量β2と類似度が高い(近い数値を有する)。素材断片動画AD2の音的特徴量α2は、断片音B3の音的特徴量β3と類似度が高い。素材断片動画AD3の音的特徴量α3は、断片音B1の音的特徴量β1と類似度が高い。制御部250は、音的特徴量の比較に基づき両者の類似度を判定する。そして、制御部250は、β1、β2、β3の目標音シーケンスに合わせて、それぞれの類似度が高い素材断片動画AD3、AD1、AD2を順に結合することにより、編集動画Cを生成し、端末装置400に出力する。
【0034】
出力された編集動画Cにおいて、含まれる映像は視覚的に短時間のシーン(映像)が頻繁に切り替わるようなものでありながら、含まれる音は目標音楽等Bが有する、音響的及び/又は音楽的な、音的特徴又は音的構造(β1、β2、β3、…)を転写又は模倣して再現したものとなる。なお、素材断片動画Aのグループを時間的に配置する手法については、後述するマニュアルシーケンスを用いることで任意の順番に並べることも可能である。
【0035】
本実施形態に係る動画編集サーバ、動画編集システム、及び動画編集プログラムは、音声信号解析、音楽情報処理技術、及び/又はマルチメディア自動処理技術に基づき処理することにより、入力素材である全体動画Aの分割から編集、編集動画Cの出力までの一連の作業を自動化したことにある。これにより従来技術に見られるユーザスキルへの依存と手作業による作業時間の問題を同時に解消し、複数表現による高度な動画編集を実現することができる。
【0036】
[フローチャート]
本実施形態の動画編集プログラムが実行する具体的な処理を、図3のフローチャートに沿って処理ステップの番号順に説明する。なお、図3中、各処理ステップの左側に処理番号を示した。各処理ステップS000~S020は、動画編集プログラムに従って動画編集サーバ200(制御部250)によって実行される。
【0037】
ステップS000で、制御部250は、素材動画A及び目標音楽等Bが入力された後、開始する。素材動画A及び目標音楽等Bは、編集処理の開始前に、これらを端末装置400によって動画編集サーバ200にアップロードされるか、これらのURLを端末装置400によって動画編集サーバ200に送信される。なお、素材動画Aの処理に関するステップS001~S005と、目標音楽等Bの処理に関するステップS006~S010は、それぞれの実行される順番は限定されないが、ステップS011の処理を実行する前に、ステップS001~S005と、S006~S010とを完了する必要がある。
【0038】
ステップS001で、動画編集サーバ200の制御部250は、素材として使用するために特定された素材動画A(音声付き映像データ)を、入力とするために素材動画DB220から読み出す。この素材動画Aには、スマートフォンのカメラで撮影した動画や、動画素材サイトにアップロードされた動画が想定される。本実施形態において、素材動画Aは必ず映像に音声が伴っている必要がある。ステップS002で、制御部250は、素材動画Aから素材音Aを抽出又は分離する。なお、素材動画Aから素材音Aを抽出できない場合は、制御部250は、改めて端末装置400に対して素材動画Aの特定を要求し、ステップS000に戻る。
【0039】
ステップS003で、制御部250は、好ましくは、その後の音データ処理を円滑に進めるために、素材音Aに対して以下の下処理を施す。具体的に、制御部250は、解析で用いる音声データをモノラル化し、サンプルレートを変更又は統一する。さらに、ステップS003で、制御部250は、素材音Aからノイズ除去を行うこともできる。ノイズ除去の手法は、例えば、音圧が一定閾値以下の区間をカットするゲート処理、又は周波数領域での定常的な背景成分の除去(スペクトルサブトラクション法)などを適用することができるが、これらに限定されない。なお、ステップS003は省略可能である。
【0040】
ステップS004で、制御部250は、素材音Aから適切な時間軸上の分割点を検出し、素材動画Aを複数の素材断片動画AD1からADnに分割すると共に、素材音Aを複数の素材断片音ASD(ASD1~ASDn)に分割する。この分割処理の際には、分割点検出のために任意の時分割用特徴量を用いることができる。分割後の素材断片動画Aと素材断片音ASDとについて、映像と音との時間的な対応関係は維持又は紐づけされる。時分割用特徴量は、例えば音圧変化やスペクトルフラックス(周波数領域上でのパワーの時間的変化)、又は発話区間推定などを用いることが、これらに限定されない。分割点は、時分割用特徴量に基づき所定の閾値を超える変化(比較的急激な変化)が起こった時間とすることができる。素材断片動画の時間的な長さに制約はないが、例えば、一般に0.1秒から2.0秒程度までの長さとすることができる。
【0041】
ステップS005で、制御部250は、各素材断片音ASDから、1つ又は複数の音的特徴量を計算により抽出する。この計算の目的は、後に類似度を算出する際になるべく認知的に近く感じられるもの同士がマッチするよう、物理量から認知的特徴量を推定することにある。
【0042】
音的特徴量は、例えば、音響的特徴量及び/又は音楽的特徴量とすることができる。音響的特徴量は、周波数成分に関するものとして、ゼロクロス検出、中心周波数、又はロールオフとすることができる。音響的特徴量は、音圧に関するものとして、エンベロープ(時間に対する音圧変化)とすることができる。音楽的特徴量は、クロマグラムによるピッチクラスまたは和音抽出とすることができる。音的特徴量は、音声信号解析や音楽情報処理の基礎技術に基づき算出される、ピッチ、リズム、音色、又はハーモニーの構造などの1つ又は任意の複数を含むことができる。
【0043】
ステップS006で、制御部250は、音楽的模倣の目標対象(ターゲット)とする音付き映像データまたは音データである目標音楽等Bを、入力とするために、目標音DB230から読み出す。目標音楽等Bは、音声又は音楽等の音のみを処理に使用するため、映像は必ずしも必須ではなく、例えば音楽ファイルのようなデータ、又はMIDIデータでも良い。ステップS007で、目標音楽等Bが映像である場合、映像から目標音Bを抽出する。
【0044】
ステップS008で、制御部250は、好ましくは、その後の目標音Bの処理を円滑に進めるために、目標音Bに対して、ステップS003と同様の下処理を施す。なお、ステップS008は省略可能である。ステップS009で、制御部250は、目標音Bから適切な時間軸上の分割点を検出し、複数の目標断片音BSDに分割する。この分割処理の際には、分割点検出のためにステップS004で示した時分割用特徴量を用いることができる。
【0045】
ステップS010で、制御部250は、各目標断片音BSDについて、音的特徴量を計算により抽出する。ステップS010の音的特徴量は、好ましくは、ステップS005と同じ、1つ又は複数の音的特徴量とすることができる。
【0046】
ステップS011で、制御部250は、作成した各素材断片音ASDと各目標断片音BSDとの間における、類似度を算出する。類似度の算出は、前述のステップS005とS010の特徴量抽出処理にて求めた音的特徴量に基づき実行される。複数の音的特徴量から規定される特徴空間における類似度の算出方法として、好ましくは、ユークリッド距離、又はコサイン類似度を用いることができる。制御部250による類似度の計算に際し、複数の音的特徴量を複合的に比較するが、好ましくは、音的特徴量の各々に対して重み付けを施すことで、特徴量群の中で比較的重視する指標とそうでないものとの優劣をつけることもできる。
【0047】
ステップS012で、制御部250は、1つ又は複数の音的特徴量の類似度に基づき、各目標断片音BSDに対して所定の類似度を有する素材断片音ASDを、複数の素材断片音ASD1~ASDnから探索し選択する。この探索は、例えば、ASD群およびBSD群の数が少なければASD群とBSD群間の総当りで求めることができる。なお、ASD群およびBSD群の数が多く、探索に計算に時間がかかる場合は、人工知能(例えば機械学習)による探索の最適化により、効率的に類似度の高いものを検出することもできる。
【0048】
ステップS013で、制御部250は、選択された各素材断片音ASDに対し後処理(ポストプロセッシング)を実行する。制御部250は、後処理として、例えば、素材断片音ASD間での音圧のばらつきを解消するため、音圧の正規化を行うことができる。制御部250は、後処理として、必要に応じて、選択された素材断片音ASDの音を、目標とする目標断片音BSDにより近づけるため、素材断片音ASD内の音圧変化の調整を行う。例えば、目標断片音BSDの音圧包絡線(エンベロープ)を、選択された素材断片音ASDの音に乗算することができる。
【0049】
ステップS014で、制御部250は、素材断片音ASDを時間軸上に配置する際に、マニュアルシーケンスデータを使用するか否かを判定する。マニュアルシーケンスの使用の有無は、端末装置400側からの入力にしたがって判定される。マニュアルシーケンスデータとは、目標音楽等Bの目標断片音BSDを順番どおりに並べるのではなく、予め断片素材動画A又は素材断片音ASDの配置方法について、端末装置400から任意に定義したデータである。
【0050】
マニュアルシーケンスデータの具体的な使用例としては、目標音楽等Bが、ドラムやシンバルのようなビートの楽器音であった場合、それらの楽器音を組み合わせて演奏を行うようなビートパターンをマニュアルシーケンスとして予め作曲するようなケースを想定している。この場合、同一の素材断片音ASDを繰り返し使用することが許容され、時間軸上の同じタイミングで複数の素材断片音ASDを配置することも可能である。マニュアルシーケンスデータを使用することの効果として、ステップS013までの素材断片音ASD群と目標断片音BSD群と間で、対応付け処理とプリプロセッシングを済ませておけば、マニュアルシーケンスデータを入れ替えるだけで様々な演奏パターンの映像を即時に生成することが可能となる。
【0051】
ステップS0014で、マニュアルシーケンスデータを使用しない場合、ステップS015に移行し、マニュアルシーケンスデータを使用する場合、ステップS016に移行する。ステップS015で、制御部250は、マニュアルシーケンスデータを、目標音楽等DB230から読み込む。ステップS016で、制御部250は、目標断片音BSDの時系列に対応するように複数の素材断片音ASDを備えた素材断片動画Aが配置されるよう、目標音シーケンスデータを生成する。
【0052】
ステップS017で、制御部250は、マニュアルシーケンスデータ又は目標音シーケンスデータに従い複数の素材断片音Aを時間軸上に配置する。すなわち素材断片動画Aを並べ直して新たな映像再生シーケンスを作成する。なお、同時に複数の素材断片動画Aの配置が必要となる場合、制御部250は、画面分割処理などを行い複数の素材断片動画Aを同時再生することもできる。制御部250は、好ましくは、素材断片動画Aの各時間長を、対応する素材断片音Bの時間長に実質的に一致するように処理することができる。時間長の処理は、例えば、再生時間の圧縮又は伸長により実行することができる。
【0053】
ステップS018で、制御部250は、最終的な映像再生シーケンスに基づき素材断片音ASDと素材断片動画Aの再合成処理又は結合を行い、編集動画Cとして書き出しを行う(レンダリング)。
【0054】
ステップS019で、制御部250は、書き出した編集動画Cを編集動画DB240に保存する。なお、変形例として、編集動画DB240への保存を行わずに、編集動画Cを端末装置400に送信することもできる。
【0055】
ステップS003~S005及びS008~S010の信号解析処理は、オープンソースライブラリlibrosa(https://librosa.org/)を用いて構築することができる。またステップS018の映像合成処理は、実装ケースにより使用する方法が異なるが、動画編集ライブラリFFmpeg(https://ffmpeg.org/)や、ゲームエンジンUnity(https://unity.com/)を用いて構築することができる。
【0056】
以上の方法により、入力された目標音楽等Bの音楽的特徴を、入力された素材動画Aを用いて、模倣するように再構築した新規の編集動画Cの出力が達成される。上記で説明したような、素材動画Aに含まれる素材断片音ASDと、目標音楽等Bに含まれる目標断片音BSDとの対応関係を手作業で網羅することは困難である。そのため、本実施形態の動画編集プログラム、動画編集サーバ、及び動画編集システムは、素材動画Aの分割処理から素材動画Aと目標音楽等Bの音表現との対応関係の形成、編集動画Cの合成処理までを自動化することで、効率的に鑑賞性の高い映像の作成を行うことができるようになった。
【0057】
本発明の実施形態による効果は以下の点にある。複数の音表現の統合による鑑賞性の高い新規表現を作成できること、ユーザに高い動画編集のスキルを要求せずとも利用可能であること、編集作業を自動化して短時間で制作が行えること
【0058】
本発明の実施形態の具体的なユースケースとしては、ユーザがスマートフォン400Aで撮影した素材動画Aを動画編集サーバ200に入力し、次に好みの目標音楽Bを動画編集サーバ200に入力するだけで、目標音楽Bの音的構造をもとの素材動画Aにより模倣した編集動画Cを出力することが可能となる。一般ユーザが日常的な映像から簡単に鑑賞性の高い映像を生成できることは、動画投稿サイトとの連携を念頭においた場合に利用価値が高い。
【0059】
本発明の実施形態において、クライアントサーバシステムを前提として説明したが、本発明はこれに限定されない。例えば、本発明の動画編集プログラムは、動画編集サーバに替えて、動画編集コンピュータによって実行されることもできる。この場合、動画編集プログラムは、動画編集サーバ及び端末装置に実行させた全ての処理を、動画編集コンピュータに実行させる。
【0060】
本発明の実施形態のステップS006~S009に替えて、本発明の変形形態では、動画編集プログラムは、動画編集サーバ又は動画編集コンピュータに対して、予め目標音楽等DB230に記憶された複数の目標断片音BSDを読み出させるステップを実行させてもよい。変形形態では、複数の目標断片音BSDから目標音シーケンスデータが構成される。
【符号の説明】
【0061】
1000 動画編集システム
200 動画編集サーバ
220 素材動画DB
230 目標音楽DB
240 編集動画DB
250 制御部
300 インターネット
400 端末装置
図1
図2
図3
図4