(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-02-10
(45)【発行日】2023-02-20
(54)【発明の名称】情報処理システム、データ加工方法、及びコンピュータプログラム
(51)【国際特許分類】
H04N 5/262 20060101AFI20230213BHJP
H04N 5/222 20060101ALI20230213BHJP
【FI】
H04N5/262 080
H04N5/222
(21)【出願番号】P 2022102038
(22)【出願日】2022-06-24
(62)【分割の表示】P 2021213035の分割
【原出願日】2021-12-27
【審査請求日】2022-06-29
【早期審査対象出願】
(73)【特許権者】
【識別番号】507009009
【氏名又は名称】株式会社博報堂DYホールディングス
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】木下 陽介
(72)【発明者】
【氏名】戸梶 大陸
(72)【発明者】
【氏名】青木 千隼
(72)【発明者】
【氏名】小川 楽
(72)【発明者】
【氏名】久保田 修平
【審査官】益戸 宏
(56)【参考文献】
【文献】特開2017-169140(JP,A)
【文献】特開2008-148121(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/262
H04N 5/222
H04N 21/00-21/858
(57)【特許請求の範囲】
【請求項1】
動画データを取得するように構成される取得部と、
前記動画データに含まれる動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、前記動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像の中から、表示対象のオブジェクトを選択するように構成される選択部と、
前記シーン毎に、前記シーン動画像に対するクロッピング領域を、前記表示対象のオブジェクトを基準に設定するように構成される設定部と
前記シーン毎に、前記シーン動画像における前記クロッピング領域の外側に位置する画像領域を取り除くように前記シーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成するように構成される加工部と、
加工済動画データとして、前記シーン毎の前記クロッピングされたシーン動画像を結合した動画データを生成するように構成される生成部と、
を備え
、
前記選択部は、前記シーン毎に、前記シーン動画像に関する前記音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択し、前記シーン毎に、前記シーン動画像に含まれる、選択したタイプの一以上のオブジェクトの中から、前記表示対象のオブジェクトを選択する情報処理システム。
【請求項2】
動画データを取得するように構成される取得部と、
前記動画データに含まれる動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、前記動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像の中から、表示対象のオブジェクトを選択するように構成される選択部と、
前記シーン毎に、前記シーン動画像に対するクロッピング領域を、前記表示対象のオブジェクトを基準に設定するように構成される設定部と
前記シーン毎に、前記シーン動画像における前記クロッピング領域の外側に位置する画像領域を取り除くように前記シーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成するように構成される加工部と、
加工済動画データとして、前記シーン毎の前記クロッピングされたシーン動画像を結合した動画データを生成するように構成される生成部と、
を備え
、
前記選択部は、前記音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択し、前記シーン毎に、前記シーン動画像に含まれる、選択したタイプの一以上のオブジェクトの中から、前記表示対象のオブジェクトを選択し、
選択可能な前記オブジェクトのタイプには、前記オブジェクトが人である第一のタイプと、前記オブジェクトが人以外である第二のタイプとが含まれ、前記オブジェクトのタイプとして、前記第一のタイプ及び前記第二のタイプを含む前記オブジェクトの複数のタイプの一つが選択される情報処理システム。
【請求項3】
前記選択部は、前記シーン毎に、前記シーン動画像に関する前記音声情報及び文字情報の少なくとも一方に基づき、前記オブジェクトのタイプを選択する請求項2記載の情報処理システム。
【請求項4】
前記クロッピング領域は、前記シーン動画像を、クロッピング前の前記シーン動画像のアスペクト比とは異なるアスペクト比のシーン動画像に変換するためのクロッピング領域である請求項1~請求項
3のいずれか一項記載の情報処理システム。
【請求項5】
請求項1~請求項
4のいずれか一項記載の情報処理システムにおける前記取得部と、前記選択部と、前記設定部と、前記加工部と、前記生成部として、コンピュータを機能させるためのコンピュータプログラム。
【請求項6】
コンピュータにより実行されるデータ加工方法であって、
動画データを取得することと、
前記動画データに含まれる動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、前記動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像の中から、表示対象のオブジェクトを選択することと、
前記シーン毎に、前記シーン動画像に対するクロッピング領域を、前記表示対象のオブジェクトを基準に設定することと、
前記シーン毎に、前記シーン動画像における前記クロッピング領域の外側に位置する画像領域を取り除くように前記シーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成することと、
加工済動画データとして、前記シーン毎の前記クロッピングされたシーン動画像を結合した動画データを生成することと、
を含
み、
前記表示対象のオブジェクトを選択することは、前記シーン毎に、前記シーン動画像に関する前記音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択し、前記シーン毎に、前記シーン動画像に含まれる、選択したタイプの一以上のオブジェクトの中から、前記表示対象のオブジェクトを選択することを含むデータ加工方法。
【請求項7】
コンピュータにより実行されるデータ加工方法であって、
動画データを取得することと、
前記動画データに含まれる動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、前記動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像の中から、表示対象のオブジェクトを選択することと、
前記シーン毎に、前記シーン動画像に対するクロッピング領域を、前記表示対象のオブジェクトを基準に設定することと、
前記シーン毎に、前記シーン動画像における前記クロッピング領域の外側に位置する画像領域を取り除くように前記シーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成することと、
加工済動画データとして、前記シーン毎の前記クロッピングされたシーン動画像を結合した動画データを生成することと、
を含
み、
前記表示対象のオブジェクトを選択することは、前記音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択し、前記シーン毎に、前記シーン動画像に含まれる、選択したタイプの一以上のオブジェクトの中から、前記表示対象のオブジェクトを選択することを含み、
選択可能な前記オブジェクトのタイプには、前記オブジェクトが人である第一のタイプと、前記オブジェクトが人以外である第二のタイプとが含まれ、前記オブジェクトのタイプとして、前記第一のタイプ及び前記第二のタイプを含む前記オブジェクトの複数のタイプの一つが選択されるデータ加工方法。
【請求項8】
前記表示対象のオブジェクトを選択することは、前記シーン毎に、前記シーン動画像に関する前記音声情報及び文字情報の少なくとも一方に基づき、前記オブジェクトのタイプを選択することを含む請求項
7記載のデータ加工方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理システム、データ加工方法、及びコンピュータプログラムに関する。
【背景技術】
【0002】
動画像をクロッピングする技術が既に知られている(例えば特許文献1参照)。クロッピングは、オリジナル画像から小さいサイズの画像を生成するために行われる。クロッピングのために、例えばオリジナル画像から物体の位置が検出される。検出された物体の位置に基づいて、クロッピング領域が設定される。例えば、物体の位置がクロッピング領域の中心となるようにクロッピング領域が設定される。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術は、監視目的で撮影された動画像を、データ量を抑える目的でクロッピングする技術である。撮影目的の違いから、従来技術では、非監視目的の動画像に対するクロッピングを適切に行うことは難しい。
【0005】
特には、映像表現を目的とした動画像に対するクロッピングを適切に行うことが、従来技術では難しい。映像表現を目的とした動画像の例には、商品や役務の消費者に対する訴求を目的として撮影される広告用の動画像が含まれる。
【0006】
そこで、本開示の一側面によれば、映像表現を目的とした動画像に対するクロッピングを適切に実行可能な新規技術を提供できることが望ましい。
【課題を解決するための手段】
【0007】
本開示の一側面によれば、情報処理システムが提供される。情報処理システムは、取得部と、選択部と、設定部と、加工部と、生成部とを備える。取得部は、動画データを取得するように構成される。
【0008】
選択部は、動画データに含まれる動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像に含まれる一以上のオブジェクトの中から、表示対象のオブジェクトを選択するように構成される。
【0009】
具体的には、選択部は、シーン動画像に含まれる一以上のオブジェクトのそれぞれの表示面積に基づき、一以上のオブジェクトの中から、表示対象のオブジェクトを選択するように構成される。
【0010】
設定部は、シーン毎に、シーン動画像に対するクロッピング領域を、表示対象のオブジェクトを基準に設定するように構成される。加工部は、シーン毎に、シーン動画像におけるクロッピング領域の外側に位置する画像領域を取り除くようにシーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成するように構成される。
【0011】
生成部は、加工済動画データとして、シーン毎のクロッピングされたシーン動画像を結
合した動画データを生成するように構成される。
【0012】
動画像が映像表現を目的とした動画像であるとき、オブジェクトの表示面積は、動画像の制作意図に関連する可能性が高い。従って、動画像を、シーン毎にオブジェクトの表示面積に基づきクロッピングすれば、制作意図に応じた適切な領域で、動画像をクロッピングすることができ、映像表現を目的とした動画像に対するクロッピングを適切に実行することができる。
【0013】
本開示の一側面によれば、選択部は、表示対象のオブジェクトを、シーン動画像における一以上のオブジェクトのそれぞれの表示面積及び表示時間に基づいて選択し得る。表示面積及び表示時間は、動画像の制作意図に関連する可能性が高い。従って、こうした選択によれば、動画像の制作意図に応じた適切なクロッピング領域を設定することができる。
【0014】
本開示の一側面によれば、選択部は、シーン毎に、一以上のオブジェクトの内、シーン動画像において最大の表示面積を有するオブジェクトを、表示対象のオブジェクトに選択し得る。
【0015】
本開示の一側面によれば、一以上のオブジェクトは、シーン動画像に写る一以上の人であり得る。人を被写体とした動画像によれば、制作意図から注目すべき人の表示面積が大きくなる傾向がある。従って、この情報処理システムによれば、適切なクロッピングを実行可能である。
【0016】
本開示の一側面によれば、選択部は、動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択し得る。選択部は、シーン毎に、シーン動画像に含まれる、上記選択したタイプの一以上のオブジェクトの中から、表示対象のオブジェクトを選択し得る。
【0017】
動画像と共に再生される音声情報及び文字情報は、動画像の制作意図に関連する情報を備え得る。従って、音声情報及び文字情報の少なくとも一方に基づいて、表示対象のオブジェクトのタイプを選択することによれば、制作意図に応じた適切なクロッピングを行うことができる。
【0018】
本開示の一側面によれば、選択可能なオブジェクトのタイプには、オブジェクトが人である第一のタイプ、オブジェクトが人以外である第二のタイプが含まれ得る。選択部は、第一のタイプ及び第二のタイプを含むオブジェクトの複数のタイプの一つを、音声情報及び文字情報の少なくとも一方に基づき選択し得る。
【0019】
本開示の一側面によれば、クロッピング領域は、シーン動画像を、クロッピング前のシーン動画像のアスペクト比とは異なるアスペクト比のシーン動画像に変換するためのクロッピング領域であり得る。
【0020】
本開示の一側面によれば、別の情報処理システムが提供されてもよい。別の情報処理システムは、取得部と、選択部と、設定部と、加工部と、生成部とを備える。取得部は、動画データを取得するように構成される。
【0021】
選択部は、動画データに含まれる動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像の中から、表示対象のオブジェクトを選択するように構成される。
【0022】
設定部は、シーン毎に、シーン動画像に対するクロッピング領域を、表示対象のオブジェクトを基準に設定するように構成される。加工部は、シーン毎に、シーン動画像におけるクロッピング領域の外側に位置する画像領域を取り除くようにシーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成するように構成される。
【0023】
生成部は、加工済動画データとして、シーン毎のクロッピングされたシーン動画像を結合した動画データを生成するように構成される。
【0024】
この情報処理システムによれば、音声情報及び文字情報の少なくとも一方に基づき、動画像の制作意図に応じた適切なオブジェクトのタイプを、表示対象のオブジェクトのタイプとして選択することができる。従って、この情報処理システムによれば、制作意図に応じた適切な領域で、動画像をクロッピングすることができ、映像表現を目的とした動画像に対するクロッピングを適切に実行することができる。
【0025】
本開示の一側面によれば、選択部は、音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択し、シーン毎に、シーン動画像に含まれる、選択したタイプの一以上のオブジェクトの中から、表示対象のオブジェクトを選択し得る。
【0026】
本開示の一側面によれば、選択部は、シーン毎に、シーン動画像に関する音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択してもよい。
【0027】
本開示の一側面によれば、上述した情報処理システムの少なくとも一部の機能を、コンピュータに実現させるためのコンピュータプログラムが提供されてもよい。
【0028】
本開示の一側面によれば、上述した情報処理システムにおける取得部、選択部、設定部、加工部、及び生成部の少なくとも一部として、コンピュータを機能させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムは、コンピュータ読取可能な非一時的な記録媒体に記録されて、提供されてもよい。
【0029】
本開示の一側面によれば、データ加工方法が提供されてもよい。データ加工方法は、動画データを取得することを含み得る。データ加工方法は更に、動画データに含まれる動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像に含まれる一以上のオブジェクトのそれぞれの表示面積に基づき、一以上のオブジェクトの中から、表示対象のオブジェクトを選択することを含み得る。
【0030】
データ加工方法は更に、シーン毎に、シーン動画像に対するクロッピング領域を、表示対象のオブジェクトを基準に設定することを含み得る。データ加工方法は更に、シーン毎に、シーン動画像におけるクロッピング領域の外側に位置する画像領域を取り除くようにシーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成することを含み得る。
【0031】
データ加工方法は更に、加工済動画データとして、シーン毎のクロッピングされたシーン動画像を結合した動画データを生成することを含み得る。データ加工方法は、コンピュータにより実行される方法であり得る。
【0032】
このデータ加工方法によれば、オブジェクトの表示面積に基づき、動画像の制作意図に応じた適切な領域で、動画像をクロッピングすることができ、映像表現を目的とした動画像に対するクロッピングを適切に実行することができる。
【0033】
本開示の一側面によれば、別のデータ加工方法が提供されてもよい。別のデータ加工方
法は、動画データを取得することと、動画データに含まれる動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像の中から、表示対象のオブジェクトを選択することと、シーン毎に、シーン動画像に対するクロッピング領域を、表示対象のオブジェクトを基準に設定することと、シーン毎に、シーン動画像におけるクロッピング領域の外側に位置する画像領域を取り除くようにシーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成することと、加工済動画データとして、シーン毎のクロッピングされたシーン動画像を結合した動画データを生成することと、を含み得る。
【0034】
このデータ加工方法によれば、音声情報及び文字情報の少なくとも一方に基づき、動画像の制作意図に応じた適切なオブジェクトを選択して、当該選択したオブジェクトを基準に、動画像をクロッピングすることができ、映像表現を目的とした動画像に対するクロッピングを適切に実行することができる。
【図面の簡単な説明】
【0035】
【
図1】情報処理システムの構成を表すブロック図である。
【
図2】動画リサイズサービスに関する処理フローを概略的に説明する図である。
【
図3】第一実施形態の情報処理システムにおいてプロセッサが実行する動画リサイズ処理を表すフローチャートである。
【
図4】第一実施形態においてプロセッサが実行する領域設定処理を表すフローチャートである。
【
図5】
図5Aはシーン動画像の例を表す図であり、
図5Bは、対応するクロッピング領域の設定例を示す図である。
【
図6】
図6Aは、表示対象オブジェクトが第一の位置にあるときのクロッピング領域の設定例を示す図であり、
図6Bは、表示対象オブジェクトが第二の位置にあるときのクロッピング領域の設定例を示す図である。
【
図8】第二実施形態においてプロセッサが実行する領域設定処理を表すフローチャートである。
【
図9】
図9Aは、第三実施形態においてプロセッサが実行する動画リサイズ処理の一部を表すフローチャートであり、
図9Bは、その変形例の動画リサイズ処理の一部を表すフローチャートである。
【
図10】第三実施形態においてストレージが記憶するデータベースの構成を表す図である。
【
図11】
図11Aは、注目タイプが自動車であるときのクロッピング領域の設定例を示す図であり、
図11Bは、注目タイプが人であるときのクロッピング領域の設定例を示す図である。
【
図12】第四実施形態の領域設定処理を表すフローチャートである。
【
図13】第五実施形態の領域設定処理を表すフローチャートである。
【
図14】第六実施形態の領域設定処理を表すフローチャートである。
【
図15】プロセッサが実行する設定学習処理を表すフローチャートである。
【発明を実施するための形態】
【0036】
以下に本開示の例示的実施形態を、図面を参照しながら説明する。
[第一実施形態]
図1に示す本実施形態の情報処理システム10は、入力された動画データに基づき、動画像のアスペクト比を1:1に変更した動画データを出力するように構成されるシステムである。
【0037】
情報処理システム10は、通信ネットワークNT、特にはインターネット等の広域ネットワークを通じてユーザ端末装置50と通信可能に構成される。情報処理システム10は、例えば図示しないフロントエンドサーバを通じたウェブサービスとして、ユーザ端末装置50に、動画リサイズサービスを提供する。
【0038】
動画リサイズサービスは、ユーザ端末装置50から入力される動画データに含まれる動画像を、そのアスペクト比を1:1に変更するようにリサイズし、リサイズ後の動画データを、ユーザ端末装置50に出力するサービスである。
【0039】
以下では、説明を簡単にするために、簡易な構成の情報処理システム10を例に挙げて、情報処理システム10が実行する処理の詳細を説明する。簡易な構成の情報処理システム10は、プロセッサ11と、メモリ13と、ストレージ15と、通信インタフェース19と、を備える。情報処理システム10は、一以上のサーバから構成され得る。
【0040】
プロセッサ11は、ストレージ15に記憶されたコンピュータプログラムに従う処理を実行するように構成される。メモリ13は、プロセッサ11による処理実行時に作業用メモリとして使用される。
【0041】
ストレージ15は、動画リサイズサービスの提供に必要なコンピュータプログラム及びデータを記憶する。通信インタフェース19は、通信ネットワークNT内のノードと通信可能に構成される。
【0042】
動画リサイズサービスに関する簡易な処理フローを
図2に示す。情報処理システム10は、ユーザ端末装置50からリサイズ対象の動画データを取得し(S1)、取得した動画データに含まれる動画像を、複数のシーンに分割する(S2)。
【0043】
以下では、シーン毎の動画像のことをシーン動画像と表現する。動画像の複数のシーンへの分割は、既存のショット検出技術を用いて実現され得る。ショットは、カメラで連続的に撮影されたひと続きの動画像に対応する。情報処理システム10は、ショット検出技術により検出された1ショットを1シーンと取り扱い、動画像を、複数のシーンに分割することができる。
【0044】
情報処理システム10は、シーン毎に、シーン動画像に写るオブジェクトを検出し、検出したオブジェクトに基づいて、クロッピング領域Rcを設定する(S3)。シーン動画像におけるクロッピング領域Rcの外側領域が、クロッピングにより取り除かれる画像領域である。
【0045】
図2に示す例によれば、太い正方形枠の内側領域がクロッピング領域Rcである。情報処理システム10は、シーン毎に、設定されたクロッピング領域Rcを残すように、シーン動画像をクロッピングする(S3)。
【0046】
その後、情報処理システム10は、クロッピングされたシーン動画像を連結して、アスペクト比1:1の動画データを生成し、ユーザ端末装置50に出力する(S4)。このようにして、情報処理システム10は、ユーザ端末装置50から入力された動画データをリサイズし、リサイズ後の動画データを、加工済動画データとしてユーザ端末装置50に提供する。
【0047】
動画リサイズサービスのために、情報処理システム10のプロセッサ11は、
図3に示す動画リサイズ処理を実行することができる。具体的に、プロセッサ11は、実行指示を受けて、
図3に示す動画リサイズ処理を開始する。
【0048】
図3に示す動画リサイズ処理を開始すると、プロセッサ11は、実行指示元のユーザ端末装置50から入力されるリサイズ対象の動画データを取得する(S110)。S110において、プロセッサ11は、商品又は役務を消費者に向けて訴求するために制作された広告動画を含む動画データを取得することができる。
【0049】
広告動画には、カメラ映像と共に再生される所謂テロップである文字画像及びイラスト画像等の素材が含まれ得る。S110において、プロセッサ11は、カメラ映像に素材が合成された動画像を含む動画データを取得し得る。あるいは、プロセッサ11は、素材が合成されていないカメラ映像を動画像として含む動画データ(以下、クリーン動画データという)を取得し得る。
【0050】
クリーン動画データに対しては、合成対象の素材を含む素材データが、動画データとは別にユーザ端末装置50から提供され得る。この場合、プロセッサ11は、動画データと併せて素材データを取得することができる(S110)。素材データは、動画像に合成すべき素材と共に、動画像に対する素材の合成位置の情報を含み得る。
【0051】
S110の処理に続いて、プロセッサ11は、取得した動画データを分析し、動画データに含まれる動画像をシーン毎に分割する(S120)。プロセッサ11は、外部サーバに、動画データを転送すると共にシーン分割を要求し、外部サーバからシーン分割された動画データを取得してもよい。
【0052】
その後、プロセッサ11は、複数のシーンの一つを、処理対象のシーンに選択する(S130)。プロセッサ11は、選択した処理対象のシーンについて、シーン動画像を解析し、シーン動画像に写るオブジェクトを検出する(S140)。
【0053】
例えば、オブジェクト(すなわち物体)の検出は、シーン動画像を構成するフレーム毎に行われる。検出対象のオブジェクトは、シーン動画像に写る人、動物、及び物を含む検出可能なすべてのタイプのオブジェクトである。
【0054】
オブジェクトの検出に伴って、シーン動画像におけるオブジェクトの表示領域及びオブジェクトのタイプが、オブジェクト毎に判別される。判別されるオブジェクトの表示領域は、矩形領域であり得て、ピクセル座標で表現され得る。プロセッサ11は、外部サーバに、シーン動画像に対するオブジェクト検出を要求し、外部サーバから検出されたオブジェクトの情報を取得してもよい。
【0055】
その後、プロセッサ11は、検出されたオブジェクトに基づき、処理対象のシーン動画像に対し、クロッピング領域Rcを設定する(S150)。S150において、プロセッサ11は、
図4に示す領域設定処理を実行することができる。
【0056】
図4に示す領域設定処理を開始すると、プロセッサ11は、処理対象のシーン動画像に、注目タイプのオブジェクトが存在するか否かを判断する(S310)。注目タイプは、クロッピング領域Rcの設定基準として用いるべきオブジェクトのタイプのことである。本実施形態における注目タイプは、「人」である。
【0057】
具体的に、プロセッサ11は、「人」として検出された一以上のオブジェクトがシーン動画像に存在するか否かを判断することにより、注目タイプのオブジェクトが存在するか否かを判断する(S310)。
【0058】
注目タイプのオブジェクトが存在すると判断すると(S310でYes)、プロセッサ
11は、シーン動画像を構成するフレーム毎に、そこに写る注目タイプの各オブジェクトの表示面積を算出する(S320)。
【0059】
プロセッサ11は、シーン動画像に含まれる注目タイプのオブジェクトの一群の内、表示面積が最大のオブジェクトを表示対象オブジェクトとして選択する(S330)。プロセッサ11は、フレーム毎に算出される各オブジェクトの表示面積のうち、最大の表示面積を有するオブジェクトを、表示対象オブジェクトとして選択することができる(S330)。
【0060】
その後、プロセッサ11は、選択した表示対象オブジェクトを基準に、シーン動画像に対してクロッピング領域Rcを設定する(S340)。具体的には、プロセッサ11は、選択した表示対象オブジェクトの表示面積が最大であるフレームでの表示領域の中心と、クロッピング領域Rcの中心とを合わせるように、処理対象のシーン動画像に対してクロッピング領域Rcを設定する。S340での設定後、プロセッサ11は、
図4に示す領域設定処理を終了する。
【0061】
クロッピング領域Rcは、1:1のアスペクト比を有する領域である。具体的には、クロッピング領域Rcは、1辺がクロッピング前の動画像の短辺の長さと同じ長さを有する正方形の領域である。本実施形態では、クロッピングにより、動画データに含まれる動画像が、動画像の短辺の長さと同じ長さを有するアスペクト比1:1の動画像にリサイズされる。リサイズ前の動画像のアスペクト比は、限定されないが、例えば16:9である。
【0062】
シーン動画像におけるオブジェクトの配置によっては、表示対象オブジェクトの表示領域の中心と、クロッピング領域Rcの中心と一致させると、クロッピング領域Rcの一部が、シーン動画像の領域外側に外れてしまう場合がある。この場合、プロセッサ11は、クロッピング領域Rcの全体がシーン動画像の領域内に収まる範囲で、クロッピング領域Rcの中心を、表示対象オブジェクトの中心に近い位置に配置するように、クロッピング領域Rcを設定する。
【0063】
図5Aに示す例によれば、シーン動画像には、オブジェクトとして「人」が複数写っている。従って、各人がオブジェクトとして検出される。表示面積は、検出された各人について、フレーム毎に算出される。検出された各人の表示領域は、例えば
図5Bにおいて細い矩形枠で示される領域である。
図5Bにおける、細い矩形枠の重ね合わせは、フレーム毎に表示領域が検出されることを意味している。
【0064】
この例によれば、左から3番目の最前列の人の表示面積が、注目タイプのオブジェクトの一群の中で最も大きいため、表示面積が最大であるときの左から3番目の最前列の人の表示領域の中心に、クロッピング領域Rcの中心が一致するように、クロッピング領域Rcが設定される。
図5Bに示される太い正方形の枠で囲まれた領域が、
図5Aのシーン動画像に対して設定されるクロッピング領域Rcである。
【0065】
図6Aに示す例によれば、シーン動画像には、オブジェクトとして「木」や「人」が写っており、複数のオブジェクトとして「木」及び「人」のオブジェクトが検出される。表示面積は、検出された各人について、フレーム毎に算出される。
図6Aに示す例によれば、「人」は、一人である。従って、シーン動画像に写る唯一の人の表示面積が最大であるときの表示領域の中心に、クロッピング領域Rcの中心を合わせるように、クロッピング領域Rcが設定される。
【0066】
図6Bに示す例によれば、表示対象オブジェクトに対応する人の位置が、シーン動画像の領域端に近い。
図6Aと同様に、人の表示領域の中心に、クロッピング領域Rcの中心
を合わせると、クロッピング領域Rcの一部が、シーン動画像の領域から外側にはみ出してしまう。この場合、クロッピング領域Rcは、クロッピング領域Rcの全体が、シーン動画像の領域内に収まる範囲で、人の表示領域の中心に最も近い位置にクロッピング領域Rcの中心が配置されるように、設定される。
【0067】
S310において、注目タイプのオブジェクトが存在しないと判断すると(S310でNo)、プロセッサ11は、クロッピング領域Rcの中心とシーン動画像の中心とが一致するように、クロッピング領域Rcを設定する(S390)。その後、プロセッサ11は、
図4に示す領域設定処理を終了する。
【0068】
S150において、クロッピング領域Rcの設定が終了すると、プロセッサ11は、当該設定に従って、シーン動画像をクロッピングする(S160)。すなわち、プロセッサ11は、シーン動画像におけるクロッピング領域Rcの内側を抽出することにより、換言すれば、シーン動画像においてクロッピング領域Rcの外側に位置する画像領域を取り除くことにより、クロッピングされたシーン動画像を生成する。
【0069】
プロセッサ11は、全シーンについてS160の処理を実行するまで、S130~S160の処理を繰返し実行することにより、シーン毎に、オブジェクトを検出し(S140)、クロッピング領域Rcを設定し(S150)、シーン動画像をクロッピングする(S160)。
【0070】
全シーンに対するクロッピングが完了すると(S170でYes)、プロセッサ11は、ユーザ端末装置50からの素材配置に関する編集操作を受け付け、編集操作に従い、クロッピングされたシーン動画像に対して、素材を配置する(S180)。
図7には、素材として文字列「変わらない」が配置されたシーン動画像の例を示す。
【0071】
このとき、プロセッサ11は、所定の評価モデルに従って、シーン動画像に対する素材の配置を評価し、その評価結果を、上記編集操作を受け付ける編集画面に表示するように、ユーザ端末装置50の編集画面を制御し得る。
【0072】
評価モデルは、素材配置と訴求効果の実績との関係を説明する教師データを用いた機械学習により構築され得る。この場合、評価モデルは、訴求効果の高い素材配置であるほど、高い評価値を出力するように構成され得る。
【0073】
プロセッサ11は、仮に素材がシーン動画像の様々な地点に配置された場合の各地点での評価値を算出し、評価値に応じたグラデーション表示を、編集画面上のシーン動画像に重ねることにより、シーン動画像における評価値の高い地点をユーザに向けて示してもよい。例えば、評価値が高い地点ほど、色の濃度を高めることにより、評価値が高いことを、ユーザに示すことができる。
【0074】
プロセッサ11は、編集操作の終了の意思表示がユーザ端末装置50を通じてユーザからなされるまで、編集操作を受け付け、編集操作の終了の意思表示がなされると(S190でYes)、S210の処理を実行する。
【0075】
別例として、プロセッサ11は、素材データに含まれる素材を、クロッピング前の動画像における素材配置の情報に基づいて、クロッピング後のシーン動画像に自動配置してもよい(S200)。すなわち、プロセッサ11は、S180,S190の処理に代えて、自動配置に関するS200の処理を実行してもよい。
【0076】
クロッピング前の素材の位置が、クロッピング領域Rcの外側にある場合、プロセッサ
11は、クロッピング後のシーン動画像に収まるように、素材の位置を修正しながら、素材を自動配置することができる。素材は、クロッピング後の動画像において、クロッピング前の動画像と同時刻に表示されるように配置される。プロセッサ11は、所定の評価モデルに従って、評価値が最も高い位置に素材を配置するように、素材をクロッピング後のシーン動画像に配置してもよい。
【0077】
あるいは、プロセッサ11は、S110で取得した動画データが、素材の合成された動画データであり、素材編集ができない動画データである場合、S180,S190,S200の処理を実行せずに、S170で肯定判断した後、S210の処理を実行してもよい。
【0078】
S210において、プロセッサ11は、S160の処理でクロッピングされたシーン動画像を、シーン配列がクロッピング前の動画データと同じになるように時系列に結合して、加工済動画データを生成する。この際、プロセッサ11は、S180,S200での素材配置に従って、加工済動画データの動画像に対して素材を合成する。加工済動画データは、リサイズ後の動画データであり、テロップ等の素材が合成されたアスペクト比が1:1の動画像を有する動画データである。
【0079】
その後、プロセッサ11は、生成した加工済動画データを出力する(S220)。具体的には、プロセッサ11は、生成した加工済動画データを、ユーザ端末装置50に送信することができる。その後、プロセッサ11は、
図3に示す動画リサイズ処理を終了する。
【0080】
以上に説明した本実施形態の情報処理システム10によれば、動画データに対してシーン毎に、クロッピング領域Rcを設定する。動画データが、広告動画データのような映像作品である場合、動画像には、制作意図に応じたオブジェクトの配置に関する特徴が表れる。例えば、制作者側が、消費者に注目してほしいオブジェクトが、動画像において大きく表示される傾向がある。
【0081】
従って、本実施形態のように、動画像に写るオブジェクトの表示面積に基づいて、表示面積が最大のオブジェクトを表示対象オブジェクトに選択し、表示対象オブジェクトに合わせるように、クロッピング領域Rcを設定すると、動画データに対するクロッピングを、動画像の制作意図に応じて適切に行うことができる。
【0082】
すなわち、本実施形態の情報処理システム10は、動画データ、特には映像作品としての動画データ、特には広告動画データに対して、クロッピングを適切に実行することができる。広告動画データをアスペクト比1:1の動画データに変換することは、例えば、テレビ放送用の広告動画データを、ウェブ広告用の動画データに変換するために役立つ。
【0083】
[第二実施形態]
第二実施形態の情報処理システム10は、プロセッサ11がS150において、
図4に示す領域設定処理に代えて、
図8に示す領域設定処理を実行することを除けば、第一実施形態と同様に構成される。以下では、第二実施形態の情報処理システム10に関する説明として、プロセッサ11がS150で実行する領域設定処理の詳細を説明し、その他の説明を省略する。
【0084】
プロセッサ11は、S150において
図8に示す領域設定処理を開始すると、S310での処理と同様に、処理対象のシーン動画像に注目タイプのオブジェクトが存在するか否かを判断する(S410)。
【0085】
注目タイプのオブジェクトが存在すると判断すると(S410でYes)、プロセッサ
11は、シーン動画像に写る注目タイプの各オブジェクトのシーン全期間における表示領域及び表示量としてのシーン表示領域及びシーン表示量を判別する(S420)。
【0086】
ここでいうシーン全期間は、処理対象のシーンの開始時刻から終了時刻までの期間のことを意味する。すなわち、第二実施形態では、フレーム毎ではなく、シーン全期間についての表示領域及び表示量を、シーン表示領域及びシーン表示量として判別する。
【0087】
具体的には、プロセッサ11は、オブジェクト毎に、対応するオブジェクトのシーン表示領域として、フレーム毎の当該オブジェクトの表示領域の重ね合わせ領域を判別する。すなわち、対応するオブジェクトのシーン表示領域は、シーン動画像の1フレーム以上で、当該オブジェクトの表示領域として判別された、シーン動画像内の領域である。
【0088】
シーン表示量は、例えば、対応するオブジェクトの表示面積及び表示時間に基づいて算出される。シーン表示量は、例えば、対応するオブジェクトの各フレームの表示面積のシーン全期間における時間積分に対応する。各フレームの表示面積は、各フレームにおいて、対応するオブジェクトの表示領域として判別される領域の面積である。別例としてシーン表示量は、上記シーン表示領域の面積として算出されてもよい。
【0089】
その後、プロセッサ11は、シーン動画像に写る注目タイプのオブジェクトの一群のうち、シーン表示量が最大のオブジェクトを表示対象オブジェクトに選択する(S430)。
【0090】
続くS440において、プロセッサ11は、選択した表示対象オブジェクトのシーン表示領域の中心と、クロッピング領域Rcの中心とを合わせるように、シーン動画像に対してクロッピング領域Rcを設定する。クロッピング領域Rcの一部が、シーン動画像の領域から外側に外れてしまう場合の処置は、第一実施形態と同様であり得る。S440での設定後、プロセッサ11は、
図8に示す領域設定処理を終了する。
【0091】
S410において、注目タイプのオブジェクトが存在しないと判断すると(S410でNo)、プロセッサ11は、S390での処理と同様にクロッピング領域Rcを設定する(S490)。その後、プロセッサ11は、
図8に示す領域設定処理を終了する。
【0092】
本実施形態によれば、シーン表示量が表示面積の時間積分として算出される場合に、動画像の制作意図を考慮したクロッピング領域Rcの設定をより適切に行うことができる。
【0093】
[第三実施形態]
第三実施形態の情報処理システム10は、プロセッサ11が
図3に示す動画リサイズ処理に代えて、それとは部分的に内容が異なる
図9Aに示す動画リサイズ処理を実行することを除けば、基本的に、第一実施形態と同様に構成される。
【0094】
以下では、第三実施形態の情報処理システム10に関する説明として、プロセッサ11が実行する動画リサイズ処理の第一実施形態とは異なる部位を、
図9Aを用いて選択的に説明し、その他の説明を省略する。
【0095】
本実施形態においてプロセッサ11が実行する動画リサイズ処理の大部分は、第一実施形態の動画リサイズ処理と同様である。
図9Aに示す動画リサイズ処理から理解できるように、本実施形態では、プロセッサ11が、S110の処理実行後、第一実施形態では実行されない注目タイプの指定を含む処理(S115)を実行する。
【0096】
S115において、プロセッサ11は、取得した動画データに含まれる動画像の種類に
基づき、クロッピング領域Rcの設定基準として用いるべきオブジェクトのタイプである注目タイプを指定する。
【0097】
例えば、プロセッサ11は、動画像の種類を、動画データに含まれる音声情報に基づいて判別することができる。ここでいう、音声情報は、動画像と共に再生される音声の情報である。
【0098】
具体的に、プロセッサ11は、動画データに含まれる音声情報をテキストデータに変換し、テキストデータから、予めキーワードデータベースB1に登録されたキーワードを抽出する。本実施形態によれば、ストレージ15は、
図10に示すように、キーワードデータベースB1を記憶することができる。
【0099】
例示的なキーワードデータベースB1は、キーワード毎に、そのキーワードに対応する動画像の内容タイプを示すキーワードデータ有する。キーワードデータが示す内容タイプは、対応するキーワードが含まれる動画像の内容の種類を表し、具体的には、動画像の訴求目的であると推定される商品又は役務の種類を表す。
【0100】
プロセッサ11は、抽出したキーワードに基づいて、動画像の内容タイプを、対応するキーワードデータが示す内容タイプから判別する。動画像から抽出されたキーワードが複数あるとき、プロセッサ11は、抽出された複数のキーワードから、最も重要であると推定されるキーワードを選択し、選択したキーワードから、内容タイプを判別することができる。最も重要であるキーワードは、例えば、テキストデータに最も多く含まれるキーワードであり得る。
【0101】
あるいは、プロセッサ11は、動画像から抽出された複数のキーワードのそれぞれの内容タイプを判別し、複数のキーワード間で最も共通する内容タイプを、動画像の内容タイプと判別することができる。
【0102】
あるいは、キーワードデータベースB1は、キーワードの組み合わせ毎に、動画像の内容タイプを定義するキーワードデータを有することができ、プロセッサ11は、抽出したキーワードの組み合わせに基づいて、キーワードデータベースB1を参照し、動画像の内容タイプを判別することができる。
【0103】
あるいは、プロセッサ11は、所定の機械学習モデルに、動画データに含まれる音声情報を入力し、機械学習モデルから、動画像の内容タイプの情報を得ることができる。機械学習モデルは、動画像の音声情報から内容タイプを判別するように構成され得る。
【0104】
その後、プロセッサ11は、判別した動画像の内容タイプに基づいてオブジェクトの注目タイプを指定する。ストレージ15は、
図10に示すように、動画像の内容タイプ毎に、注目タイプとして指定すべきオブジェクトのタイプを定義するオブジェクト定義データベースB2を記憶する。プロセッサ11は、オブジェクト定義データベースB2を参照して、判別した動画像の内容タイプに対して定義されたオブジェクトのタイプを、注目タイプとして指定する。
【0105】
その後、プロセッサ11は、第一実施形態と同様にS120以降の処理を実行する。但し、S150の処理では、S115で注目タイプとして指定したオブジェクトのタイプに該当するオブジェクトの一群の中から、表示対象オブジェクトを選択する。
【0106】
例えば、動画像が自動車を訴求目的とするとき、音声情報に含まれる自動車に関する「乗り心地」「燃費」等のキーワードから、注目タイプとして「自動車」が指定され得る。
この場合、プロセッサ11は、
図11Aに例示される動画像に含まれるオブジェクトの一群のうち、「自動車」として検出されたオブジェクトの一群の中から、表示対象オブジェクトを選択する。これにより、訴求目的に対応する自動車を主に残すように、クロッピングは行われ、動画データは、アスペクト比1:1の動画データに変換される。
【0107】
別例として、動画像が旅行を訴求目的とするとき、音声情報に含まれる旅行に関する「旅」「絶景」等のキーワードから、注目タイプとして「人」が指定され得る。この場合、プロセッサ11は、動画像に車が写っているときであっても、動画像に含まれるオブジェクトの一群のうち、「人」として検出されたオブジェクトの一群の中から、表示対象オブジェクトを選択する。これにより、訴求目的に対応する旅行を楽しむ人を主に残すように、動画データは、アスペクト比1:1の動画データに変換される。
【0108】
以上に説明した本実施形態の情報処理システム10によれば、訴求目的に対応するオブジェクトを基準としたクロッピングを行うことができる。従って、動画像の制作意図に応じた適切なクロッピングにより、動画データのアスペクト比を変更することができる。
【0109】
第三実施形態の変形例として、プロセッサ11は、
図9Aに示す動画リサイズ処理に代えて、
図9Bに示す動画リサイズ処理を実行してもよい。
図9Bに示す動画リサイズ処理を開始すると、プロセッサ11は、第一実施形態と同様に、S110,S120の処理を実行する。
【0110】
その後、プロセッサ11は、シーン毎に、シーン動画像に含まれる音声情報から、シーン動画像の訴求目的に対応したオブジェクトのタイプを、注目タイプとして指定する(S125)。音声情報は、シーン毎に、テキストデータに変換されてもよい。全シーンの音声情報が、一括してテキストデータに変換された後、テキストデータが、シーン毎に分割されてもよい。
【0111】
注目タイプの指定方法は、上述した通りである。すなわち、シーン動画像に含まれる音声情報に対応するテキストデータから、キーワードデータベースB1に基づき、シーン動画像に対応する内容タイプが判別され、判別された内容タイプに対応するオブジェクトタイプが、オブジェクト定義データベースB2に基づき注目タイプとして指定される。
【0112】
プロセッサ11は、シーン毎に、注目タイプを指定した後(S125)、S130以降の処理を第一実施形態と同様に実行する。但し、S150では、処理対象のシーンに対して指定された注目タイプのオブジェクトの一群の中から、表示対象オブジェクトを選択して、クロッピング領域Rcを設定する。
【0113】
この変形例によれば、シーン毎に注目タイプを選択することから、より詳細に動画像の制作意図に応じたオブジェクトに注目したクロッピングを行うことができる。
【0114】
更なる変形例として、プロセッサ11は、S110で取得した動画データに含まれる動画像と共に再生される文字情報に基づき、注目タイプを指定してもよい。例えば、プロセッサ11は、動画像にテロップ等の素材として存在する文字情報を抽出してもよい。あるいは、プロセッサ11は、S110で動画データと共に取得した素材データに含まれる動画像に対する合成対象の素材として存在する文字情報を抽出してもよい。
【0115】
プロセッサ11は、抽出した文字情報を、上記音声情報に代えて用いて、キーワードデータベースB1を参照し、内容タイプを判別することができる(S115,S125)。更には、プロセッサ11は、判別した内容タイプに対応するオブジェクトタイプを注目タイプとして指定することができる(S115,S125)。プロセッサ11は、音声情報
及び文字情報の両方を用いて、S115,S125の処理を実行してもよい。
【0116】
[第四実施形態]
第四実施形態の情報処理システム10は、プロセッサ11がS150において、
図4に示す領域設定処理に代えて、
図12に示す領域設定処理を実行することを除けば、第一実施形態と同様に構成される。以下では、第四実施形態の情報処理システム10に関する説明として、プロセッサ11がS150で実行する領域設定処理の詳細を説明し、その他の説明を省略する。
【0117】
プロセッサ11は、S150において
図12に示す領域設定処理を開始すると、オブジェクトタイプの優先度情報を取得する(S510)。オブジェクトタイプの優先度情報は、例えばユーザ端末装置50から取得される。
【0118】
オブジェクトタイプの優先度情報は、予めユーザ端末装置50から取得され、ストレージ15に格納され得る。プロセッサ11は、ストレージ15から優先度情報を取得してもよい。例えば、優先度情報は、動画データと共にユーザ端末装置50から取得され得る。
【0119】
優先度情報は、動画データを提供するユーザから指定されたオブジェクトタイプの優先度を示し得る。オブジェクトタイプの優先度は、表示対象オブジェクトの選択優先度に対応する。本実施形態によれば、優先度が高いタイプのオブジェクトほど、優先的に表示対象オブジェクトとして選択される。
【0120】
優先度情報の取得後、プロセッサ11は、シーン動画像に写る各オブジェクトの評価値を、優先度を加味して算出する(S520)。例えば、プロセッサ11は、シーン動画像を構成するフレーム毎に、各オブジェクトの表示面積を算出し、表示面積と優先度とに基づいて、各オブジェクトの評価値をフレーム毎に算出することができる。優先度をパラメータP、表示面積をパラメータSで表すとき、評価値は、優先度と表示面積との積(P×S)で算出され得る。
【0121】
その後、プロセッサ11は、シーン動画像の中で、評価値が最大のオブジェクトを表示対象オブジェクトとして選択する(S530)。あるいは、オブジェクト毎に、シーン動画像を構成するフレーム毎の評価値の合計を算出し、評価値の合計が最大のオブジェクトを表示対象オブジェクトとして選択する(S530)。
【0122】
その後、プロセッサ11は、選択した表示対象オブジェクトの評価値が最大であるときの表示領域の中心と、クロッピング領域Rcの中心とを合わせるように、シーン動画像に対してクロッピング領域Rcを設定する(S540)。S540での設定後、プロセッサ11は、
図12に示す領域設定処理を終了する。
【0123】
本実施形態によれば、ユーザからの指示に従って、優先度の高いタイプのオブジェクトにクロッピング領域Rcを合わるように、動画像をクロッピングすることができる。従って、動画像の制作意図に応じた適切なクロッピングを行うことが可能である。
【0124】
[第五実施形態]
第五実施形態の情報処理システム10は、プロセッサ11がS150において、
図4に示す領域設定処理に代えて、
図13に示す領域設定処理を実行することを除けば、第一実施形態と同様に構成される。以下では、第五実施形態の情報処理システム10に関する説明として、プロセッサ11がS150で実行する領域設定処理の詳細を説明し、その他の説明を省略する。
【0125】
プロセッサ11は、S150において
図13に示す領域設定処理を開始すると、処理対象のシーン動画像に対して、クロッピング領域Rcの候補群を設定する(S610)。クロッピング領域Rcの候補群は、クロッピング領域Rcの中心をシーン動画像の左から右に少しずつずらして定められる候補群であり得る。
【0126】
その後、プロセッサ11は、候補群の中から、一つの候補を選択し(S620)、選択した候補に基づいて仮にシーン動画像をクロッピングした場合におけるクロッピング後のシーン動画像を評価する(S630)。
【0127】
例えば、プロセッサ11は、候補に対応するクロッピング領域Rc内に写る注目タイプのオブジェクトの面積の合計を評価値として算出することにより、選択した候補についてのクロッピング後のシーン動画像を評価する(S630)。
【0128】
あるいは、プロセッサ11は、候補に基づくクロッピング後のシーン動画像を、機械学習により構築された評価モデルに入力して、クロッピング後のシーン動画像の評価値を算出することができる。
【0129】
注目タイプのオブジェクトがクロッピング領域Rcによく収まっているほど評価値が高くなるように、評価モデルは構築され得る。あるいは、シーン動画像がテロップ等の素材を含む動画像であるとき、クロッピング後のシーン動画像において素材の欠けが少ないほど評価値が高くなるように、評価モデルは構築され得る。
【0130】
プロセッサ11は、候補毎にS620,S630の処理を実行することにより、すべての候補に関して評価値を算出すると(S640でYes)、評価値が最大の候補と同じ領域をクロッピング領域Rcに設定する(S650)。その後、プロセッサ11は、領域設定処理を終了する。
【0131】
プロセッサ11は、シーン動画像において注目タイプのオブジェクトが存在しない場合、第一実施形態と同様に、クロッピング領域Rcの中心を、シーン動画像の中心に合わせるように、クロッピング領域Rcを設定することができる。
【0132】
本実施形態によっても、シーン毎に、注目タイプのオブジェクトを基準とした適切なクロッピング領域Rcを設定することができる。
【0133】
[第六実施形態]
第六実施形態の情報処理システム10は、プロセッサ11がS150において、
図4に示す領域設定処理に代えて、
図14に示す領域設定処理を実行することを除けば、第一実施形態と同様に構成される。以下では、第六実施形態の情報処理システム10に関する説明として、プロセッサ11がS150で実行する領域設定処理の詳細を説明し、その他の説明を省略する。
【0134】
プロセッサ11は、S150において
図14に示す領域設定処理を開始すると、S610での処理と同様に、処理対象のシーン動画像に対し、クロッピング領域Rcの候補群を設定する(S710)。
【0135】
プロセッサ11は更に、素材データに基づき素材配置の候補群を設定する(S720)。素材は、クロッピング後のシーン動画像において、クロッピング前のシーン動画像と同時刻に表示されるように配置されるが、同時刻の素材の位置、すなわちピクセル座標上の位置は、クロッピング前後でシーン動画像のサイズが変化することに伴い、変更する必要が生じ得る。
【0136】
S720では、クロッピング後のシーン動画像における素材の位置に関する候補群を設定することにより、素材配置の候補群を設定することができる。例えば、素材は、クロッピング後のシーン動画像の中央、上、下、左、右領域の五つの領域のいずれかに配置され得る。素材配置の候補群には、これらの領域が含まれ得る。
【0137】
S720の処理後、プロセッサ11は、クロッピング領域Rc及び素材配置の候補の組み合わせの一つを選択し(S730)、選択した候補の組み合わせに基づいて、仮に、シーン動画像をクロッピングし、クロッピング後のシーン動画像に対して素材を配置した場合のシーン動画像を評価する(S740)。
【0138】
例えば、プロセッサ11は、候補に対応するクロッピング領域Rc内に写る注目タイプのオブジェクトの面積の合計が大きいほど、更には、素材の欠けが少ないほど、更には、注目タイプのオブジェクトに対する素材の干渉が少ないほど、高い評価値を算出するように、シーン動画像を評価することができる。
【0139】
あるいは、プロセッサ11は、予め機械学習により構築した評価モデルに、対応するシーン動画像を入力して、当該シーン動画像の評価値を評価モデルから得ることができる。評価モデルは、訴求効果の高いシーン動画像ほど高い評価値を算出するように構築された機械学習モデルであり得る。評価モデルは、オブジェクト及び素材の配置に関する構図を加味して評価値を算出するように構築され得る。
【0140】
プロセッサ11は、候補毎にS730,S740の処理を実行することにより、すべての候補について評価値を算出すると(S750でYes)、評価値が最大の候補を採用し、採用したクロッピング領域Rcの候補と同じ領域をクロッピング領域Rcに設定すると共に、採用した素材位置の候補と同じ位置を、素材位置に設定する(S760)。その後、領域設定処理を終了する。
【0141】
プロセッサ11は、S760での設定に基づいてS160でシーン動画像のクロッピングを行い、S200で素材の自動配置を行い、S210で加工済動画データを生成し、S220で加工済動画データを出力する。
【0142】
本実施形態によれば、シーン毎に、注目タイプのオブジェクトを基準とした適切なクロッピング、及び、素材配置を行うことができる。
【0143】
[その他の実施形態]
本開示は、上述した実施形態に限定されるものではなく、種々の態様を採ることができる。例えば、情報処理システム10は、S150の処理により設定されたクロッピング領域Rcを、ユーザ端末装置50を通じてユーザに向けて表示し、クロッピング領域Rcの修正操作を、ユーザ端末装置50を通じて受け付けてもよい。そして、修正されたクロッピング領域Rcと、修正前のクロッピング領域Rcとの差に基づいて、クロッピング領域Rcの設定方法を修正してもよい。
【0144】
例えば、プロセッサ11は、S150において、
図15に示す設定学習処理を実行することができる。この設定学習処理によれば、プロセッサ11は、予め構築された機械学習モデルを用いてクロッピング領域Rcを設定する(S810)。機械学習モデルは、シーン動画像において検出されたオブジェクトの配置に関する情報の入力を受けて、クロッピング領域Rcを設定するモデルであり得る。
【0145】
プロセッサ11は、S810の処理により設定されたクロッピング領域Rcの修正操作
を、ユーザ端末装置50を通じてユーザから受け付けて(S820)、その修正操作に従ってクロッピング領域Rcを修正する(S830)。プロセッサ11は更に、修正後のクロッピング領域Rcを正解とする教師データに基づき、機械学習モデルを更新する(S840)。
【0146】
このようにして、プロセッサ11は、S150において、機械学習モデルに基づくクロッピング領域Rcの設定処理、修正操作の受付処理、修正結果に基づく機械学習モデルの更新処理を実行することができる。この例によれば、プロセッサ11は、動画像の制作意図を加味した適切なクロッピングを行うことができ、動画データのリサイズを、制作意図に応じて適切に行うことができる。
【0147】
この他、上述した実施形態では、注目タイプの例として、「人」「自動車」を例に挙げたが、「人」以外のオブジェクトとして、「自動車」以外の様々なオブジェクトが注目タイプとして指定され得る。限定されないが、例えば「自転車」等の乗り物、「冷蔵庫」「テレビジョン受信機」等の電気製品、及び、「戸建て住宅」「マンション」等の不動産、が注目タイプとして指定され得る。
【0148】
本開示の技術は、上述した実施形態におけるアスペクト比1:1の動画データへの変換技術に限定されない。すなわち、本開示の技術は、リサイズ前後のアスペクト比及びサイズを何ら限定するものではなく、リサイズ対象の動画データは、様々なアスペクト比及びサイズを有する動画データに加工され得る。情報処理システム10は、ユーザから指定されたアスペクト比及び/又はサイズの動画データに、リサイズ対象の動画データを加工するように構成されてもよい。
【0149】
上記実施形態における1つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、1つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。
【0150】
[対応関係]
用語間の対応関係は次の通りである。プロセッサ11が実行するS110の処理は、取得部によって実現される処理の一例に対応する。プロセッサ11が実行するS150の処理は、選択部及び設定部によって実現される処理の一例に対応する。プロセッサ11が実行するS160の処理は、加工部によって実現される処理の一例に対応する。プロセッサ11が実行するS210の処理は、生成部によって実現される処理の一例に対応する。
【符号の説明】
【0151】
10…情報処理システム、11…プロセッサ、13…メモリ、15…ストレージ、19…通信インタフェース、50…ユーザ端末装置、B1…キーワードデータベース、B2…オブジェクト定義データベース、NT…通信ネットワーク、Rc…クロッピング領域。
【要約】
【課題】クロッピングを適切に実行可能な新規技術を提供する。
【解決手段】動画像が有する複数のシーンに関して、シーン毎に、対応するシーン動画像に含まれる一以上のオブジェクトの中から、表示対象のオブジェクトが選択される。例えば、シーン動画像に含まれる一以上のオブジェクトのそれぞれの表示面積、及び/又は、動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、表示対象のオブジェクトが選択される。シーン毎に、表示対象のオブジェクトを基準に、クロッピング領域が設定される(S150)。シーン毎に、シーン動画像におけるクロッピング領域の外側を取り除くようにシーン動画像がクロッピングされる(S160)。加工済動画データとして、シーン毎のクロッピングされたシーン動画像を結合した動画データが生成される(S210)。
【選択図】
図3