IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社喋ラボの特許一覧

特開2023-137704ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム
<>
  • 特開-ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム 図1
  • 特開-ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム 図2
  • 特開-ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023137704
(43)【公開日】2023-09-29
(54)【発明の名称】ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム
(51)【国際特許分類】
   H04N 21/8549 20110101AFI20230922BHJP
   G10L 15/00 20130101ALI20230922BHJP
   G10L 15/22 20060101ALI20230922BHJP
   H04N 21/233 20110101ALI20230922BHJP
   H04N 5/91 20060101ALI20230922BHJP
【FI】
H04N21/8549
G10L15/00 200G
G10L15/22 460Z
H04N21/233
H04N5/91
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022044022
(22)【出願日】2022-03-18
(11)【特許番号】
(45)【特許公報発行日】2022-11-29
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.YouTube
(71)【出願人】
【識別番号】522110887
【氏名又は名称】株式会社喋ラボ
(74)【代理人】
【識別番号】100177220
【弁理士】
【氏名又は名称】小木 智彦
(72)【発明者】
【氏名】大橋 功
【テーマコード(参考)】
5C053
5C164
【Fターム(参考)】
5C053FA14
5C053LA06
5C053LA11
5C053LA14
5C164FA06
5C164MA06S
5C164MC03P
5C164MC06S
5C164PA44
5C164SB04P
5C164SB06S
5C164SC05S
(57)【要約】
【課題】動画コンテンツからユーザが所望する複数のショート動画を抽出して、ユーザが所望するハイライト動画を生成する。
【解決手段】ハイライト動画生成システム1は、元動画を取得する取得部と、取得した元動画を音声認識した結果に基づいて、元動画の音声を、単語毎にタイムスタンプを保持したタイムスタンプ付テキストとして抽出し、抽出した前記タイムスタンプ付テキストを表示する編集用画面で、タイムスタンプ付テキストから1又は連続する複数の単語をタイムスタンプが飛び飛びとなるようにユーザに複数選択させ、ユーザの選択を受け付け、複数選択された1又は連続する複数の単語の時間範囲を、タイムスタンプ付テキストに基づいて、各々特定し、元動画から、各々特定した時間範囲に対応する部分を各々のショート動画として切り取り、切り取った各々のショート動画を結合して、ハイライト動画を生成する。
【選択図】図1

【特許請求の範囲】
【請求項1】
編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムであって、
前記元動画を取得する取得部と、
取得した前記元動画を音声認識する音声認識部と、
前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを保持したタイムスタンプ付テキストとして抽出する抽出部と、
抽出した前記タイムスタンプ付テキストを編集用画面に表示する表示部と、
前記編集用画面で、前記タイムスタンプ付テキストから1又は連続する複数の単語をタイムスタンプが飛び飛びとなるようにユーザに複数選択させるとともに、当該ユーザの選択を受け付ける選択部と、
複数選択された前記1又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定する特定部と、
前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取る切取部と、
切り取った前記各々のショート動画を結合して、ハイライト動画を生成する生成部と、
を備えるハイライト動画生成システム。
【請求項2】
前記生成部が、前記ハイライト動画の先頭および/または後尾に予め用意した動画をさらに結合する請求項1に記載のハイライト動画生成システム。
【請求項3】
前記選択部が、複数選択された前記1又は連続する複数の単語の結合順序の選択を受け付け、
前記生成部が、前記結合順に従って、切り取った前記各々のショート動画を結合して、ハイライト動画を生成する請求項1から請求項2のいずれかに記載のハイライト動画生成システム。
【請求項4】
前記表示部は、抽出した前記タイムスタンプ付テキストにフィラーが含まれる場合、前記編集用画面において、当該フィラーを削除または当該フィラー以外の単語と区別できるように当該フィラーを表示する請求項1から請求項3のいずれかに記載のハイライト動画生成システム。
【請求項5】
前記切取部は、複数選択された前記1又は連続する複数の単語にフィラーが含まれる場合、前記元動画から、各々特定した前記時間範囲に対応する部分のうち前記フィラーに対応する部分を除いた部分を、各々のショート動画として切り取る請求項1から請求項4のいずれかに記載のハイライト動画生成システム。
【請求項6】
前記ハイライト動画にキャプションを付与するキャプション付与部を備える請求項1から請求項5のいずれかに記載のハイライト動画生成システム。
【請求項7】
前記ハイライト動画に音楽を付加する音楽挿入部を備える請求項1から請求項6のいずれかに記載のハイライト動画生成システム。
【請求項8】
編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムが実行する方法であって、
前記元動画を取得するステップと、
取得した前記元動画を音声認識するステップと、
前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを保持したタイムスタンプ付テキストとして抽出するステップと、
抽出した前記タイムスタンプ付テキストを編集用画面に表示するステップと、
前記編集用画面で、前記タイムスタンプ付テキストから1又は連続する複数の単語をタイムスタンプが飛び飛びとなるようにユーザに複数選択させるとともに、当該ユーザの選択を受け付けるステップと、
複数選択された前記1又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定するステップと、
前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取るステップと、
切り取った前記各々のショート動画を結合して、ハイライト動画を生成するステップと、
を含むハイライト動画生成システム。
【請求項9】
編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムを、
前記元動画を取得する取得部、
取得した前記元動画を音声認識する音声認識部、
前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを保持したタイムスタンプ付テキストとして抽出する抽出部、
抽出した前記タイムスタンプ付テキストを編集用画面に表示する表示部、
前記編集用画面で、前記タイムスタンプ付テキストから1又は連続する複数の単語をタイムスタンプが飛び飛びとなるようにユーザに複数選択させるとともに、当該ユーザの選択を受け付ける選択部、
複数選択された前記1又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定する特定部、
前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取る切取部、
切り取った前記各々のショート動画を結合して、ハイライト動画を生成する生成部、
として機能させるプログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ハイライト動画生成システム、ハイライト動画生成方法、およびプログラムに関する。
【背景技術】
【0002】
世の中ではコロナ禍によってWebセミナーやYoutubeなどの動画コンテンツの利用が増えている。しかしながら、動画コンテンツには長時間の動画もある。そのため、視聴者からすると、動画コンテンツの再生に時間がかかり過ぎたり、途中で退屈になったりする、視聴効率が悪い動画コンテンツが多々あるという問題があった。
【0003】
上述した問題を解決するために、動画のうちユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術(特許文献1参照)や、再生時に閲覧者が所望の画像音声の再生開始位置に容易かつ的確に到達可能とする技術(特許文献2参照)が提供されている。また、ハイライト動画作成のために、動画コンテンツの中から、フレームの輝度や特定被写体などの特徴量に基づいて算出したフレームの評価値に基づいて特定したハイライト部分を抜き出す技術(特許文献3参照)が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2019―66785号公報
【特許文献2】特開2018―168508号公報
【特許文献3】特開2019―216364号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1,2に記載の技術では、動画コンテンツにおいてユーザが視聴を所望する開始位置に容易に到達することはできるが、動画コンテンツから複数のショート動画を切り取って結合して、ハイライト動画を生成することはできない。また、特許文献3に記載の技術では、目立つ部分や盛り上がった部分といったハイライト部分が分かりにくいWebセミナーのような動画コンテンツからハイライト部分を抜き出すことは難しく、また、抜き出したハイライト部分がユーザが所望する部分とは限らないとの問題点があった。
【0006】
そこで、本発明は、これらの課題に鑑み、動画コンテンツからユーザが所望する複数のショート動画を抽出して、ユーザが所望するハイライト動画を生成するハイライト動画生成システム、ハイライト動画生成方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は、編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムであって、前記元動画を取得する取得部と、取得した前記元動画を音声認識する音声認識部と、前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを付加したタイムスタンプ付テキストとして抽出する抽出部と、抽出した前記タイムスタンプ付テキストを編集用画面に表示する表示部と、前記編集用画面で、前記タイムスタンプ付テキストから1又は連続する複数の単語をタイムスタンプが飛び飛びとなるようにユーザに複数選択させるとともに、当該ユーザの選択を受け付ける選択部と、複数選択された前記1又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定する特定部と、前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取る切取部と、切り取った前記各々のショート動画を結合して、ハイライト動画を生成する生成部と、を備えるハイライト動画生成システムを提供する。
【0008】
また、本発明は、前記生成部が、前記ハイライト動画の先頭および/または後尾に予め用意した動画をさらに結合するハイライト動画生成システムを提供する。
【0009】
また、本発明は、前記選択部が、複数選択された前記1又は連続する複数の単語の結合順の選択を受け付け、前記生成部が、前記結合順に従って、切り取った前記各々のショート動画を結合して、ハイライト動画を生成するハイライト動画生成システムを提供する。
【0010】
また、本発明は、前記表示部は、抽出した前記タイムスタンプ付テキストにフィラーが含まれる場合、前記編集用画面において、当該フィラーを削除または当該フィラー以外の単語と区別できるように当該フィラーを表示するハイライト動画生成システムを提供する。
【0011】
また、本発明は、前記切取部は、複数選択された前記1又は連続する複数の単語にフィラーが含まれる場合、前記元動画から、各々特定した前記時間範囲に対応する部分のうち前記フィラーに対応する部分を除いた部分を、各々のショート動画として切り取るハイライト動画生成システムを提供する。
【0012】
また、本発明は、前記ハイライト動画にキャプションを付与するキャプション付与部を備えるハイライト動画生成システムを提供する。
【0013】
また、本発明は、前記ハイライト動画に音データを付加する挿入部を備えるハイライト動画生成システムを提供する。
【0014】
また、本発明は、編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムが実行する方法であって、前記元動画を取得するステップと、取得した前記元動画を音声認識するステップと、前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを付加したタイムスタンプ付テキストとして抽出するステップと、抽出した前記タイムスタンプ付テキストを編集用画面に表示するステップと、前記編集用画面で、前記タイムスタンプ付テキストから1又は連続する複数の単語をタイムスタンプが飛び飛びとなるようにユーザに複数選択させるとともに、当該ユーザの選択を受け付けるステップと、複数選択された前記1又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定するステップと、前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取るステップと、切り取った前記各々のショート動画を結合して、ハイライト動画を生成するステップと、を含むハイライト動画生成システムを提供する。
【0015】
また、本発明は、編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムを、前記元動画を取得する取得部、取得した前記元動画を音声認識する音声認識部、前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを付加したタイムスタンプ付テキストとして抽出する抽出部、抽出した前記タイムスタンプ付テキストを編集用画面に表示する表示部、前記編集用画面で、前記タイムスタンプ付テキストから1又は連続する複数の単語をタイムスタンプが飛び飛びとなるようにユーザに複数選択させるとともに、当該ユーザの選択を受け付ける選択部、複数選択された前記1又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定する特定部、前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取る切取部、切り取った前記各々のショート動画を結合して、ハイライト動画を生成する生成部、として機能させるプログラムを提供する。
【発明の効果】
【0016】
本発明によれば、動画コンテンツからユーザが所望する複数のショート動画を抽出して、ユーザが所望するハイライト動画を生成する。
【図面の簡単な説明】
【0017】
図1】本発明の実施形態に係るハイライト動画生成システムの概要を説明する図である。
図2】本発明の実施形態に係るハイライト動画生成システムの機能構成を示す図である。
図3】本発明の実施形態に係るハイライト動画生成システムが実行するハイライト動画生成処理フローを示す図である。
【発明を実施するための形態】
【0018】
以下、添付図面を参照して、本発明を実施するための形態(以下、実施形態)について詳細に説明する。以降の図においては、実施形態の説明の全体を通して同じ要素には同じ番号または符号を付している。
【0019】
[基本概念/基本構成]
図1は、本発明の実施形態に係るハイライト動画生成システム1の概要を説明するための図である。ハイライト動画生成システム1は、編集元の動画(以下、元動画という)を音声認識して生成されたテキストを用いてユーザが所望する動画の部分を選択し、元動画からユーザが所望するハイライト動画を生成するシステムである。本実施形態において、ハイライト動画とは、元動画から抽出した、ユーザが視聴者に見せたい部分を集めた動画であって、例えば、元動画で盛り上がった部分、目立った部分、興味を引く部分などを集めた動画や、元動画の重要な部分を集めて元動画の内容が要約された動画などである。
【0020】
ハイライト動画生成システム1は、ハイライト動画生成装置10とユーザ端末20とを含む。ハイライト動画生成装置10は、ユーザ端末20とネットワークを介して接続され、ユーザの指示に従って元動画からハイライト動画を生成する装置である。ハイライト動画生成装置10は、オンプレミスでもクラウドサーバであってもよいが、本実施形態ではクラウドサーバとする。なお、ハイライト動画生成システム1は、ハイライト動画生成装置10で生成されたハイライト動画を視聴する視聴者端末(図示せず)や、ハイライト動画をアップロードするサーバ等(図示せず)とも、ネットワークを介して接続されてもよい。
【0021】
ユーザ端末20は、元動画からハイライト動画を生成する際に指示を行うユーザの端末であって、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ等で構成される。本実施形態においては1台しか表示しないが、複数台であってもよい。
【0022】
ハイライト動画生成装置10は、まず、ユーザ端末20やユーザ端末20からの指示に基づいてネットワーク上から元動画を取得する。次に、ハイライト動画生成装置10は、取得した元動画を音声認識し、単語毎にタイムスタンプを保持するタイムスタンプ付きテキストを生成する(S1)。
【0023】
ここで、タイムスタンプは、元動画の開始からの経過時間であって、タイムスタンプ付きテキストは、元動画の開始からの経過時間が各単語に、言い換えると単語と単語との区切り部分に、挿入されたテキストである。図1に示す元動画から生成されたタイムスタンプ付きテキストでは、単語毎のタイムスタンプを黒▲で示すが、正確には、吹き出しに示すように黒▲は元動画からの経過時間である。また、図1に示す元動画から生成されたタイムスタンプ付きテキストでは、元動画の各フレームの最初の単語のタイムスタンプに、そのフレームの単語が紐づけられる。
【0024】
ハイライト動画生成装置10は、ユーザ端末20に、S1で生成したタイムスタンプ付きテキストを編集する編集用画面を表示させる(S2)。図1に示す編集用画面のタイムスタンプ付きテキストは、ユーザが単語を選択しやすいように、タイムスタンプは表示せず、タイムスタンプが挿入されている箇所をスペースとしているが、当該箇所をスペース以外で表示してもよいし、タイムスタンプを表示してもよい。
【0025】
ユーザ端末20において、ユーザは、編集用画面に表示されたタイムスタンプ付きテキストから、ハイライト動画に含めたい部分の1又は連続する複数の単語を1以上選択する。選択は、ドラッグ、クリック、タップなど任意の手段でよく、選択された部分の表示も図1に示すように四角で囲む、ハイライトなど任意の表示方法でよい。以下、1又は連続する複数の単語を文、選択された1又は連続する複数の単語を選択文という。
【0026】
選択文が複数選択される場合、選択文同士のタイムスタンプが飛び飛びとなるように、言い換えると選択文同士のタイムスタンプが連続しないように、ハイライト動画生成装置10は制御する。例えば、図1に示す編集用画面にて、「最近話題のお取り寄せについて紹介します」を選択した場合には、「こんにちは」を別の選択文として選択することはできない。但し、「こんにちは」を「最近話題のお取り寄せについて紹介します」と1つの選択文とすることはできる。編集画面で選択された選択文は、ユーザ端末20からハイライト動画生成装置10に送信される(S3)。
【0027】
ハイライト動画生成装置10は、ユーザ端末20から受信した1以上の選択文各々の時間範囲を、タイムススタンプ付きテキストに基づいて特定する(S4)。ここで、時間範囲は、選択文の元動画における時間範囲である。詳細には、時間範囲は、選択文の最初の単語のタイムスタンプから、当該選択文の後の単語のタイムスタンプまでである。
【0028】
例えば、図1のタイムスタンプ付きテキストの「最近話題のお取り寄せについて紹介します」が選択文の場合には、「最近」のタイムスタンプ「0:00:17:01」から、選択文の後の単語「えー」のタイムスタンプ「0:00:30:25」まで、すなわち「0:00:17:01~0:00:30:25」が選択文「最近話題のお取り寄せについて紹介します」の時間範囲となる。
【0029】
ハイライト動画生成装置10は、特定した時間範囲に対応する部分を元動画からショート動画として切り取り、切り取ったショート動画を結合してハイライト動画を生成する(S5)。
【0030】
このようなハイライト動画システムによれば、元動画から生成されたタイムスタンプ付きテキストから文をユーザに選択させて、ユーザの所望する部分を特定し、ハイライト動画を生成する。それにより、ユーザは所望の部分を選択しやすく、ユーザは所望のハイライト動画が生成しやすい。その結果、ユーザが見せたい部分のみを集約したハイライト動画が作成でき、生成したハイライト動画を視聴者に視聴させることで、高いマーケティン効果が期待できる。
【0031】
[ハイライト動画生成システムの機能構成]
図2は、本発明の実施形態に係るハイライト動画生成システム1の機能構成を示す図である。ハイライト動画生成システム1は、ハイライト動画生成装置10と、ハイライト動画生成装置10にネットワークを介して接続されたユーザ端末20と、を備える。
【0032】
[ハイライト動画生成装置の機能構成]
ハイライト動画生成装置10は、ユーザ端末20とデータの送受信を行う送受信部11と、取得部12と、音声認識部13と、抽出部14と、表示制御部15と、選択部16と、特定部17と、切取部18と、生成部19と、記憶部100と、を備える。
【0033】
記憶部100は、後述する、取得部12で取得する元動画、抽出部14で抽出されるタイムスタンプ付きテキスト、および生成部19で生成されるハイライト動画を記憶する。なお、元動画およびタイムスタンプ付きテキストは、ハイライト動画が生成されると削除されてもよい。なお、本実施形態において、ハイライト動画生成装置10はクラウドサーバであるため、記憶部100は、クラウドストレージや分散型台帳で構成されるのが望ましい。
【0034】
取得部12は、元動画を取得し、記憶部100に記憶させる。詳細には、取得部12は、ユーザ端末20から送受信部11を介して元動画を取得、または、ユーザ端末20からURL等により指定されたサーバやWebページから送受信部11を介して元動画を取得する。そして、取得部12は、取得した元動画を記憶部100に記憶させる。
【0035】
音声認識部13は、取得部12で取得した元動画の音声データを認識して、音声をテキストデータに変換する処理を行う。例えば、音声認識部13は、音響モデルと、言語的な制約を示す言語モデルとを組み合わせることで、音声データをテキストデータに変換する。
【0036】
抽出部14は、音声認識部13で得られたテキストデータに単語毎のタイムスタンプを挿入した、タイムスタンプ付きテキストを抽出する。詳細には、抽出部14は、音声認識部13で得られたテキストの各単語について、元動画を参照し、タイムスタンプを取得する。そして、抽出部14は、各単語について取得したタイムスタンプを、テキストデータの対応する箇所に挿入し、タイムスタンプ付きテキストを抽出する。
抽出部14は、各単語について取得したタイムスタンプを、テキストデータの対応する箇所に挿入した後、元動画の各フレームの最初の単語のタイムスタンプにそのフレームの単語が紐づけた、タイムスタンプ付きテキストを抽出してもよい。
【0037】
抽出部14は、タイムスタンプ付きテキストにフィラーが含まれる場合、フィラーを削除、すなわちフィラーとフィラーのタイムスタンプとを削除したタイムスタンプ付きテキストを抽出してもよい。削除するフィラーは、予め設定され、記憶部100に保持されている。ここで、フィラーとは、会話の隙間を埋める「あー」、「えー」等の発話である。フィラーは発話文の内容と関係のない無駄な言葉であるので、タイムスタンプ付きテキストから削除することで、ユーザは所望の部分を選択しやすくなる。
【0038】
表示制御部15は、抽出部14で抽出したタイムスタンプ付きテキストに基づいて元動画の編集指示を行う編集用画面データ生成し、ユーザ端末20に送信する。編集用画面データは、ユーザ端末20の表示部(図示せず)に、ハイライト動画を作成するために、タイムスタンプ付きテキストから1つの単語または連続する複数の単語を選択させる画面を表示可能とするデータである。
【0039】
また、編集用画面データは、タイムスタンプ付きテキストの単語を検索する機能をも有する画面や、元動画を再生する機能をも有する画面を表示可能とするデータであってもよい。それにより、容易にユーザが選択したい単語を検索することができ、また、編集用画面でタイムスタンプ付きテキストと元動画とを対比させることができる。
【0040】
さらに、編集用画面データは、タイムスタンプ付きテキストにフィラーが含まれる場合、タイムスタンプ付きテキストを表示部に表示する際に、フィラーを他の文字と異なる書式、例えば、文字のサイズ、色、フォント、に変更する機能をも有してもよい。なお、フィラーの書式はユーザが編集用画面で選択できるようにしてもよい。
【0041】
選択部16は、ユーザ端末20の表示部に表示された編集用画面で、ユーザに、タイムスタンプ付きテキストから、文をタイムスタンプが飛び飛びとなるように複数選択させるとともに、ユーザが選択した複数の文を受け付ける。詳細には、選択部16は、編集用画面で複数の文がユーザにより選択されたことに応じて、選択文同士のタイムスタンプが飛び飛びとなっているか、タイムスタンプ付きテキストを参照して判断する。
【0042】
そして、選択部16は、選択文同士のタイムスタンプが飛び飛びとなっていない場合には、編集用画面に文の選択しなおしをユーザに促すため、その旨のメッセージの表示やエラー音の出力を編集用画面に指示する。一方、選択部16は、選択文同士のタイムスタンプが飛び飛びとなっている場合には、選択文を受け付ける。このように、ユーザにタイムスタンプが飛び飛びになるように文を選択させることで、適切なハイライト動画の生成を促すことができ、また、ユーザが所望の部分を選択する際に余計な部分まで含めてしまい冗長なハイライト動画が生成されることを防ぐことができる。
【0043】
また、編集用画面でユーザが複数の文を選択する際に、選択した複数の文の結合順序も指定された場合、選択部16は、選択文とともに結合順序を受け付ける。更に、編集用画面でユーザがタイムスタンプ付きテキストの一部の書き換えや削除をし、書き換えや削除後の文が選択された場合、選択部16は、書き換え後の文を受け付ける。
【0044】
特定部17は、複数の選択文各々の時間範囲を、タイムスタンプ付テキストに基づいて、各々特定する。詳細には、特定部17は、タイムスタンプ付テキストから、選択文の最初の単語のタイムスタンプから、当該選択文の後の単語のタイムスタンプまでを、当該選択文の時間範囲ととして特定する。
【0045】
切取部18は、特定部17で特定された各時間範囲に基づいて、記憶部100の元動画からショート動画を切り取る。詳細には、切取部18は、元動画において各時間範囲に対応する部分をそれぞれショート動画として、元動画から切り取る。
【0046】
切取部18は、選択文にフィラーが含まれている場合には、元動画において特定部17で特定された時間範囲に対応する部分からフィラー部分を削除してから、ショート画像として、元動画から切り取ってもよい。また、切取部18は、編集用画面でユーザがタイムスタンプ付きテキストの一部の書き換えや削除をし、選択文が元動画とは変更されている場合、切り取ったショート画像を変更された選択文に変更する編集をしてもよい。
【0047】
生成部19は、切取部18で切り取られたショート動画を結合して、ハイライト動画を生成する。詳細には、生成部19は、切取部18で切り取られたショート動画をタイムスタンプ順に、または、選択部16で受け付けた選択文に対して指定された結合順に、ショート動画を結合して、ハイライト動画を生成する。
【0048】
また、生成部19は、ショート動画を結合する際に、先頭のショート動画の前および/また後尾のショート動画の後に、予め用意した動画や静止画を追加して、ハイライト画像を生成してもよい。それにより、ハイライト動画のタイトルやエンディングを追加することなどができる。
【0049】
生成部19は、生成したハイライト動画を送受信部11を介して、ユーザ端末20に提供する。また、生成部19は、生成したハイライト動画を送受信部11を介して、インターネット上の動画サイト等にアップロードし、URL形式で生成したハイライト動画を視聴者に提供する。
【0050】
さらに、生成部19は、ハイライト動画のファイル形式を元動画のファイル形式とは変えたい場合には、ファイル形式の変換を行う。変換後のファイル形式は、編集用画面でユーザが設定して選択部16が選択文と併せて受け付けてもよいし、ハイライト動画をアップロードする動画サイト等に応じて決定してもよい。
【0051】
上記の本システムの機能構成は、あくまで一例であり、1つの機能ブロック(データベース及び機能処理部)を分割したり、複数の機能ブロックをまとめて1つの機能ブロックとして構成したりしてもよい。各機能処理部は、装置や端末に内蔵されたCPU(Central Processing Unit)が、ROM(Read Only Memory)、フラッシュメモリ、SSD(Solid State Drive)、ハードディスク等の記憶装置(記憶部)に格納されたコンピュータ・プログラム(例えば、基幹ソフトや上述の各種処理をCPUに実行させるアプリ等)を読み出し、CPUにより実行されたコンピュータ・プログラムによって実現される。すなわち、各機能処理部は、このコンピュータ・プログラムが、記憶装置に格納されたデータベース(DB;Data Base)やメモリ上の記憶領域からテーブル等の必要なデータを読み書きし、場合によっては、関連するハードウェア(例えば、入出力装置、表示装置、通信インターフェース装置)を制御することによって実現される。
【0052】
[処理フロー]
図3は、本発明の実施形態に係るハイライト動画生成システムが実行するハイライト動画生成処理フローを示す図である。ハイライト動画生成処理は、本実施形態では、ハイライト動画生成装置が実行する。
【0053】
まず、取得部12は、ユーザ端末20やユーザ端末20からの指示に基づいてネットワーク上から送受信部11を介して元動画を取得する(S11)。次に、音声認識部13は、S11で取得した元動画を音声認識して、音声をテキストデータに変換する(S12)。次に、抽出部14は、S12で得られたテキストデータに単語毎のタイムスタンプを挿入した、タイムスタンプ付きテキストを抽出する(S13)。
【0054】
次に、表示制御部15は、S13で抽出したタイムスタンプ付きテキストに基づいて元動画の編集指示を行う編集用画面データを生成し、ユーザ端末20に送信し、ユーザ端末30の表示部は、編集画面データに基づいて編集用画面を表示する(S14)。次に、選択部16は、S14でユーザ端末20の表示部に表示された編集用画面で、ユーザに、タイムスタンプ付きテキストから文を、タイムスタンプが飛び飛びとなるように複数選択させるとともに、選択された複数の選択文を受け付ける(S15)。
【0055】
次に、特定部17は、S15で受け付けた複数の選択文各々の時間範囲を、タイムスタンプ付テキストに基づいて、各々特定する(S16)。次に、切取部18は、S16で特定された各時間範囲に基づいて、元動画からショート動画を切り取る(S17)。そして、生成部19は、S17で切り取られたショート動画を結合して、ハイライト動画を生成する(S18)。
【0056】
このようなハイライト動画システムによれば、元動画から生成されたタイムスタンプ付きテキストから文をユーザに選択させて、ユーザの所望する部分を特定し、ハイライト動画を生成する。それにより、ユーザは所望の部分を選択しやすく、ユーザは所望のハイライト動画が生成しやすい。その結果、ユーザが見せたい部分のみを集約したハイライト動画が作成でき、生成したハイライト動画を視聴者に視聴させることで、高いマーケティン効果が期待できる。
【0057】
ユーザにタイムスタンプが飛び飛びになるように文を選択させることで、適切なハイライト動画の生成を促すことができ、また、ユーザが所望の部分を選択する際に余計な部分まで含めてしまい冗長なハイライト動画が生成されることを防ぐことができる。
【0058】
[変形例]
(1)例えば、ハイライト動画生成システムは、ハイライト動画にキャプションを付与するキャプション付与部を備えてもよい。キャプションは、元動画および/またはタイムスタンプ付きテキストに基づいてキャプション付与部が生成してもよいし、編集用画面で、選択文についてユーザから入力されたまたは当該選択文から選択されたキャプションをユーザ端末20から受信してもよい。ハイライト動画にキャプションを付与することで、ユーザが伝えたいことや意識してほしいことなどをはっきりと表示することができる。
【0059】
(2)例えば、ハイライト動画生成システムは、ハイライト動画にBGMや効果音といった音データを挿入する挿入部を備えてもよい。ハイライト動画をより効果的に視聴者に見せることができ、より高いマーケティン効果が期待できる。
【0060】
以上、実施形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されないことは言うまでもない。上記実施形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。また、そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。なお、上記の実施形態では、本発明を物の発明として、ハイライト動画生成システムについて説明したが、本発明においてハイライト動画生成システムが実行する方法や、ハイライト動画生成システムを各種手段として機能させるプログラムの発明と捉えることもできる。
【符号の説明】
【0061】
1 ハイライト動画生成システム
10 ハイライト動画生成装置
11 送受信部
12 取得部
13 音声認識部
14 抽出部
15 表示制御部
16 選択部
17 特定部
18 切取部
19 生成部
100 記憶部
20 ユーザ端末
図1
図2
図3
【手続補正書】
【提出日】2022-07-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムであって、
前記元動画を取得する取得部と、
取得した前記元動画を音声認識する音声認識部と、
前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを保持したタイムスタンプ付テキストとして抽出する抽出部と、
抽出した前記タイムスタンプ付テキストを編集用画面に表示する表示部と、
前記編集用画面で、前記タイムスタンプ付テキストから1又は連続する複数の単語をユーザに複数選択させ、複数選択された前記1又は連続する複数の単語同士のタイムスタンプが連続しない場合に、当該ユーザの選択を受け付ける選択部と、
複数選択された前記1又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定する特定部と、
前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取る切取部と、
切り取った前記各々のショート動画を結合して、ハイライト動画を生成する生成部と、
を備えるハイライト動画生成システム。
【請求項2】
前記生成部が、前記ハイライト動画の先頭および/または後尾に予め用意した動画をさらに結合する請求項1に記載のハイライト動画生成システム。
【請求項3】
前記選択部が、複数選択された前記1又は連続する複数の単語の結合順序の選択を受け付け、
前記生成部が、前記結合順に従って、切り取った前記各々のショート動画を結合して、ハイライト動画を生成する請求項1から請求項2のいずれかに記載のハイライト動画生成システム。
【請求項4】
前記表示部は、抽出した前記タイムスタンプ付テキストにフィラーが含まれる場合、前記編集用画面において、当該フィラーを削除または当該フィラー以外の単語と区別できるように当該フィラーを表示する請求項1から請求項3のいずれかに記載のハイライト動画生成システム。
【請求項5】
前記切取部は、複数選択された前記1又は連続する複数の単語にフィラーが含まれる場合、前記元動画から、各々特定した前記時間範囲に対応する部分のうち前記フィラーに対応する部分を除いた部分を、各々のショート動画として切り取る請求項1から請求項4のいずれかに記載のハイライト動画生成システム。
【請求項6】
前記ハイライト動画にキャプションを付与するキャプション付与部を備える請求項1から請求項5のいずれかに記載のハイライト動画生成システム。
【請求項7】
前記ハイライト動画に音楽を付加する音楽挿入部を備える請求項1から請求項6のいずれかに記載のハイライト動画生成システム。
【請求項8】
コンピュータが実行するハイライト動画生成方法であって、
元動画を取得するステップと、
取得した前記元動画を音声認識するステップと、
前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを保持したタイムスタンプ付テキストとして抽出するステップと、
抽出した前記タイムスタンプ付テキストを編集用画面に表示するステップと、
前記編集用画面で、前記タイムスタンプ付テキストから1又は連続する複数の単語をユーザに複数選択させ、複数選択された前記1又は連続する複数の単語同士のタイムスタンプが連続しない場合に、当該ユーザの選択を受け付けるステップと、
複数選択された前記1又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定するステップと、
前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取るステップと、
切り取った前記各々のショート動画を結合して、ハイライト動画を生成するステップと、
を含むハイライト動画生成方法
【請求項9】
編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムを、
前記元動画を取得する取得部、
取得した前記元動画を音声認識する音声認識部、
前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを保持したタイムスタンプ付テキストとして抽出する抽出部、
抽出した前記タイムスタンプ付テキストを編集用画面に表示する表示部、
前記編集用画面で、前記タイムスタンプ付テキストから1又は連続する複数の単語をユーザに複数選択させ、複数選択された前記1又は連続する複数の単語同士のタイムスタンプが連続しない場合に、当該ユーザの選択を受け付ける選択部、
複数選択された前記1又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定する特定部、
前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取る切取部、
切り取った前記各々のショート動画を結合して、ハイライト動画を生成する生成部、
として機能させるプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】
本発明は、編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムであって、前記元動画を取得する取得部と、取得した前記元動画を音声認識する音声認識部と、前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを付加したタイムスタンプ付テキストとして抽出する抽出部と、抽出した前記タイムスタンプ付テキストを編集用画面に表示する表示部と、前記編集用画面で、前記タイムスタンプ付テキストから1又は連続する複数の単語をユーザに複数選択させ、複数選択された前記1又は連続する複数の単語同士のタイムスタンプが連続しない場合に、当該ユーザの選択を受け付ける選択部と、複数選択された前記1又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定する特定部と、前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取る切取部と、切り取った前記各々のショート動画を結合して、ハイライト動画を生成する生成部と、を備えるハイライト動画生成システムを提供する。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0014
【補正方法】変更
【補正の内容】
【0014】
また、本発明は、コンピュータが実行するハイライト動画生成方法であって、前記元動画を取得するステップと、取得した前記元動画を音声認識するステップと、前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを付加したタイムスタンプ付テキストとして抽出するステップと、抽出した前記タイムスタンプ付テキストを編集用画面に表示するステップと、前記編集用画面で、前記タイムスタンプ付テキストから1又は連続する複数の単語をユーザに複数選択させ、複数選択された前記1又は連続する複数の単語同士のタイムスタンプが連続しない場合に、当該ユーザの選択を受け付けるステップと、複数選択された前記1又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定するステップと、前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取るステップと、切り取った前記各々のショート動画を結合して、ハイライト動画を生成するステップと、を含むハイライト動画生成方法を提供する。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0015
【補正方法】変更
【補正の内容】
【0015】
また、本発明は、編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムを、前記元動画を取得する取得部、取得した前記元動画を音声認識する音声認識部、前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを付加したタイムスタンプ付テキストとして抽出する抽出部、抽出した前記タイムスタンプ付テキストを編集用画面に表示する表示部、前記編集用画面で、前記タイムスタンプ付テキストから1又は連続する複数の単語をユーザに複数選択させ、複数選択された前記1又は連続する複数の単語同士のタイムスタンプが連続しない場合に、当該ユーザの選択を受け付ける選択部、複数選択された前記1又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定する特定部、前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取る切取部、切り取った前記各々のショート動画を結合して、ハイライト動画を生成する生成部、として機能させるプログラムを提供する。