7225460 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7225460情報処理システム、データ加工方法、及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2023-02-10

(45)【発行日】2023-02-20

(54)【発明の名称】情報処理システム、データ加工方法、及びコンピュータプログラム

(51)【国際特許分類】

H04N 5/262 20060101AFI20230213BHJP

H04N 5/222 20060101ALI20230213BHJP

【ＦＩ】

H04N5/262 080

H04N5/222

【請求項の数】 8

(21)【出願番号】P 2022102038

(22)【出願日】2022-06-24

(62)【分割の表示】P 2021213035の分割

【原出願日】2021-12-27

【審査請求日】2022-06-29

【早期審査対象出願】

(73)【特許権者】

【識別番号】507009009

【氏名又は名称】株式会社博報堂ＤＹホールディングス

(74)【代理人】

【識別番号】110000578

【氏名又は名称】名古屋国際弁理士法人

(72)【発明者】

【氏名】木下陽介

(72)【発明者】

【氏名】戸梶大陸

(72)【発明者】

【氏名】青木千隼

(72)【発明者】

【氏名】小川楽

(72)【発明者】

【氏名】久保田修平

【審査官】益戸宏

(56)【参考文献】

【文献】特開２０１７－１６９１４０（ＪＰ，Ａ）

【文献】特開２００８－１４８１２１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ５／２６２

Ｈ０４Ｎ５／２２２

Ｈ０４Ｎ２１／００－２１／８５８

(57)【特許請求の範囲】

【請求項1】

動画データを取得するように構成される取得部と、
前記動画データに含まれる動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、前記動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像の中から、表示対象のオブジェクトを選択するように構成される選択部と、
前記シーン毎に、前記シーン動画像に対するクロッピング領域を、前記表示対象のオブジェクトを基準に設定するように構成される設定部と
前記シーン毎に、前記シーン動画像における前記クロッピング領域の外側に位置する画像領域を取り除くように前記シーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成するように構成される加工部と、
加工済動画データとして、前記シーン毎の前記クロッピングされたシーン動画像を結合した動画データを生成するように構成される生成部と、
を備え、
前記選択部は、前記シーン毎に、前記シーン動画像に関する前記音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択し、前記シーン毎に、前記シーン動画像に含まれる、選択したタイプの一以上のオブジェクトの中から、前記表示対象のオブジェクトを選択する情報処理システム。

【請求項2】

動画データを取得するように構成される取得部と、
前記動画データに含まれる動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、前記動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像の中から、表示対象のオブジェクトを選択するように構成される選択部と、
前記シーン毎に、前記シーン動画像に対するクロッピング領域を、前記表示対象のオブジェクトを基準に設定するように構成される設定部と
前記シーン毎に、前記シーン動画像における前記クロッピング領域の外側に位置する画像領域を取り除くように前記シーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成するように構成される加工部と、
加工済動画データとして、前記シーン毎の前記クロッピングされたシーン動画像を結合した動画データを生成するように構成される生成部と、
を備え、
前記選択部は、前記音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択し、前記シーン毎に、前記シーン動画像に含まれる、選択したタイプの一以上のオブジェクトの中から、前記表示対象のオブジェクトを選択し、
選択可能な前記オブジェクトのタイプには、前記オブジェクトが人である第一のタイプと、前記オブジェクトが人以外である第二のタイプとが含まれ、前記オブジェクトのタイプとして、前記第一のタイプ及び前記第二のタイプを含む前記オブジェクトの複数のタイプの一つが選択される情報処理システム。

【請求項3】

前記選択部は、前記シーン毎に、前記シーン動画像に関する前記音声情報及び文字情報の少なくとも一方に基づき、前記オブジェクトのタイプを選択する請求項２記載の情報処理システム。

【請求項4】

前記クロッピング領域は、前記シーン動画像を、クロッピング前の前記シーン動画像のアスペクト比とは異なるアスペクト比のシーン動画像に変換するためのクロッピング領域である請求項１～請求項３のいずれか一項記載の情報処理システム。

【請求項5】

請求項１～請求項４のいずれか一項記載の情報処理システムにおける前記取得部と、前記選択部と、前記設定部と、前記加工部と、前記生成部として、コンピュータを機能させるためのコンピュータプログラム。

【請求項6】

コンピュータにより実行されるデータ加工方法であって、
動画データを取得することと、
前記動画データに含まれる動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、前記動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像の中から、表示対象のオブジェクトを選択することと、
前記シーン毎に、前記シーン動画像に対するクロッピング領域を、前記表示対象のオブジェクトを基準に設定することと、
前記シーン毎に、前記シーン動画像における前記クロッピング領域の外側に位置する画像領域を取り除くように前記シーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成することと、
加工済動画データとして、前記シーン毎の前記クロッピングされたシーン動画像を結合した動画データを生成することと、
を含み、
前記表示対象のオブジェクトを選択することは、前記シーン毎に、前記シーン動画像に関する前記音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択し、前記シーン毎に、前記シーン動画像に含まれる、選択したタイプの一以上のオブジェクトの中から、前記表示対象のオブジェクトを選択することを含むデータ加工方法。

【請求項7】

コンピュータにより実行されるデータ加工方法であって、
動画データを取得することと、
前記動画データに含まれる動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、前記動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像の中から、表示対象のオブジェクトを選択することと、
前記シーン毎に、前記シーン動画像に対するクロッピング領域を、前記表示対象のオブジェクトを基準に設定することと、
前記シーン毎に、前記シーン動画像における前記クロッピング領域の外側に位置する画像領域を取り除くように前記シーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成することと、
加工済動画データとして、前記シーン毎の前記クロッピングされたシーン動画像を結合した動画データを生成することと、
を含み、
前記表示対象のオブジェクトを選択することは、前記音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択し、前記シーン毎に、前記シーン動画像に含まれる、選択したタイプの一以上のオブジェクトの中から、前記表示対象のオブジェクトを選択することを含み、
選択可能な前記オブジェクトのタイプには、前記オブジェクトが人である第一のタイプと、前記オブジェクトが人以外である第二のタイプとが含まれ、前記オブジェクトのタイプとして、前記第一のタイプ及び前記第二のタイプを含む前記オブジェクトの複数のタイプの一つが選択されるデータ加工方法。

【請求項8】

前記表示対象のオブジェクトを選択することは、前記シーン毎に、前記シーン動画像に関する前記音声情報及び文字情報の少なくとも一方に基づき、前記オブジェクトのタイプを選択することを含む請求項７記載のデータ加工方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理システム、データ加工方法、及びコンピュータプログラムに関する。

【背景技術】

【0002】

動画像をクロッピングする技術が既に知られている（例えば特許文献１参照）。クロッピングは、オリジナル画像から小さいサイズの画像を生成するために行われる。クロッピングのために、例えばオリジナル画像から物体の位置が検出される。検出された物体の位置に基づいて、クロッピング領域が設定される。例えば、物体の位置がクロッピング領域の中心となるようにクロッピング領域が設定される。

【先行技術文献】

【特許文献】

【0003】

【文献】国際公開第２０１６／１６７０１７号

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来技術は、監視目的で撮影された動画像を、データ量を抑える目的でクロッピングする技術である。撮影目的の違いから、従来技術では、非監視目的の動画像に対するクロッピングを適切に行うことは難しい。

【0005】

特には、映像表現を目的とした動画像に対するクロッピングを適切に行うことが、従来技術では難しい。映像表現を目的とした動画像の例には、商品や役務の消費者に対する訴求を目的として撮影される広告用の動画像が含まれる。

【0006】

そこで、本開示の一側面によれば、映像表現を目的とした動画像に対するクロッピングを適切に実行可能な新規技術を提供できることが望ましい。

【課題を解決するための手段】

【0007】

本開示の一側面によれば、情報処理システムが提供される。情報処理システムは、取得部と、選択部と、設定部と、加工部と、生成部とを備える。取得部は、動画データを取得するように構成される。

【0008】

選択部は、動画データに含まれる動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像に含まれる一以上のオブジェクトの中から、表示対象のオブジェクトを選択するように構成される。

【0009】

具体的には、選択部は、シーン動画像に含まれる一以上のオブジェクトのそれぞれの表示面積に基づき、一以上のオブジェクトの中から、表示対象のオブジェクトを選択するように構成される。

【0010】

設定部は、シーン毎に、シーン動画像に対するクロッピング領域を、表示対象のオブジェクトを基準に設定するように構成される。加工部は、シーン毎に、シーン動画像におけるクロッピング領域の外側に位置する画像領域を取り除くようにシーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成するように構成される。

【0011】

生成部は、加工済動画データとして、シーン毎のクロッピングされたシーン動画像を結
合した動画データを生成するように構成される。

【0012】

動画像が映像表現を目的とした動画像であるとき、オブジェクトの表示面積は、動画像の制作意図に関連する可能性が高い。従って、動画像を、シーン毎にオブジェクトの表示面積に基づきクロッピングすれば、制作意図に応じた適切な領域で、動画像をクロッピングすることができ、映像表現を目的とした動画像に対するクロッピングを適切に実行することができる。

【0013】

本開示の一側面によれば、選択部は、表示対象のオブジェクトを、シーン動画像における一以上のオブジェクトのそれぞれの表示面積及び表示時間に基づいて選択し得る。表示面積及び表示時間は、動画像の制作意図に関連する可能性が高い。従って、こうした選択によれば、動画像の制作意図に応じた適切なクロッピング領域を設定することができる。

【0014】

本開示の一側面によれば、選択部は、シーン毎に、一以上のオブジェクトの内、シーン動画像において最大の表示面積を有するオブジェクトを、表示対象のオブジェクトに選択し得る。

【0015】

本開示の一側面によれば、一以上のオブジェクトは、シーン動画像に写る一以上の人であり得る。人を被写体とした動画像によれば、制作意図から注目すべき人の表示面積が大きくなる傾向がある。従って、この情報処理システムによれば、適切なクロッピングを実行可能である。

【0016】

本開示の一側面によれば、選択部は、動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択し得る。選択部は、シーン毎に、シーン動画像に含まれる、上記選択したタイプの一以上のオブジェクトの中から、表示対象のオブジェクトを選択し得る。

【0017】

動画像と共に再生される音声情報及び文字情報は、動画像の制作意図に関連する情報を備え得る。従って、音声情報及び文字情報の少なくとも一方に基づいて、表示対象のオブジェクトのタイプを選択することによれば、制作意図に応じた適切なクロッピングを行うことができる。

【0018】

本開示の一側面によれば、選択可能なオブジェクトのタイプには、オブジェクトが人である第一のタイプ、オブジェクトが人以外である第二のタイプが含まれ得る。選択部は、第一のタイプ及び第二のタイプを含むオブジェクトの複数のタイプの一つを、音声情報及び文字情報の少なくとも一方に基づき選択し得る。

【0019】

本開示の一側面によれば、クロッピング領域は、シーン動画像を、クロッピング前のシーン動画像のアスペクト比とは異なるアスペクト比のシーン動画像に変換するためのクロッピング領域であり得る。

【0020】

本開示の一側面によれば、別の情報処理システムが提供されてもよい。別の情報処理システムは、取得部と、選択部と、設定部と、加工部と、生成部とを備える。取得部は、動画データを取得するように構成される。

【0021】

選択部は、動画データに含まれる動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像の中から、表示対象のオブジェクトを選択するように構成される。

【0022】

【0023】

生成部は、加工済動画データとして、シーン毎のクロッピングされたシーン動画像を結合した動画データを生成するように構成される。

【0024】

この情報処理システムによれば、音声情報及び文字情報の少なくとも一方に基づき、動画像の制作意図に応じた適切なオブジェクトのタイプを、表示対象のオブジェクトのタイプとして選択することができる。従って、この情報処理システムによれば、制作意図に応じた適切な領域で、動画像をクロッピングすることができ、映像表現を目的とした動画像に対するクロッピングを適切に実行することができる。

【0025】

本開示の一側面によれば、選択部は、音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択し、シーン毎に、シーン動画像に含まれる、選択したタイプの一以上のオブジェクトの中から、表示対象のオブジェクトを選択し得る。

【0026】

本開示の一側面によれば、選択部は、シーン毎に、シーン動画像に関する音声情報及び文字情報の少なくとも一方に基づき、オブジェクトのタイプを選択してもよい。

【0027】

本開示の一側面によれば、上述した情報処理システムの少なくとも一部の機能を、コンピュータに実現させるためのコンピュータプログラムが提供されてもよい。

【0028】

本開示の一側面によれば、上述した情報処理システムにおける取得部、選択部、設定部、加工部、及び生成部の少なくとも一部として、コンピュータを機能させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムは、コンピュータ読取可能な非一時的な記録媒体に記録されて、提供されてもよい。

【0029】

本開示の一側面によれば、データ加工方法が提供されてもよい。データ加工方法は、動画データを取得することを含み得る。データ加工方法は更に、動画データに含まれる動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像に含まれる一以上のオブジェクトのそれぞれの表示面積に基づき、一以上のオブジェクトの中から、表示対象のオブジェクトを選択することを含み得る。

【0030】

データ加工方法は更に、シーン毎に、シーン動画像に対するクロッピング領域を、表示対象のオブジェクトを基準に設定することを含み得る。データ加工方法は更に、シーン毎に、シーン動画像におけるクロッピング領域の外側に位置する画像領域を取り除くようにシーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成することを含み得る。

【0031】

データ加工方法は更に、加工済動画データとして、シーン毎のクロッピングされたシーン動画像を結合した動画データを生成することを含み得る。データ加工方法は、コンピュータにより実行される方法であり得る。

【0032】

このデータ加工方法によれば、オブジェクトの表示面積に基づき、動画像の制作意図に応じた適切な領域で、動画像をクロッピングすることができ、映像表現を目的とした動画像に対するクロッピングを適切に実行することができる。

【0033】

本開示の一側面によれば、別のデータ加工方法が提供されてもよい。別のデータ加工方
法は、動画データを取得することと、動画データに含まれる動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、動画像が有する複数のシーンに関して、シーン毎に、対応するシーンの動画像であるシーン動画像の中から、表示対象のオブジェクトを選択することと、シーン毎に、シーン動画像に対するクロッピング領域を、表示対象のオブジェクトを基準に設定することと、シーン毎に、シーン動画像におけるクロッピング領域の外側に位置する画像領域を取り除くようにシーン動画像をクロッピングすることにより、クロッピングされたシーン動画像を生成することと、加工済動画データとして、シーン毎のクロッピングされたシーン動画像を結合した動画データを生成することと、を含み得る。

【0034】

このデータ加工方法によれば、音声情報及び文字情報の少なくとも一方に基づき、動画像の制作意図に応じた適切なオブジェクトを選択して、当該選択したオブジェクトを基準に、動画像をクロッピングすることができ、映像表現を目的とした動画像に対するクロッピングを適切に実行することができる。

【図面の簡単な説明】

【0035】

【図1】情報処理システムの構成を表すブロック図である。

【図2】動画リサイズサービスに関する処理フローを概略的に説明する図である。

【図3】第一実施形態の情報処理システムにおいてプロセッサが実行する動画リサイズ処理を表すフローチャートである。

【図4】第一実施形態においてプロセッサが実行する領域設定処理を表すフローチャートである。

【図5】図５Ａはシーン動画像の例を表す図であり、図５Ｂは、対応するクロッピング領域の設定例を示す図である。

【図6】図６Ａは、表示対象オブジェクトが第一の位置にあるときのクロッピング領域の設定例を示す図であり、図６Ｂは、表示対象オブジェクトが第二の位置にあるときのクロッピング領域の設定例を示す図である。

【図7】素材配置に関する説明図である。

【図8】第二実施形態においてプロセッサが実行する領域設定処理を表すフローチャートである。

【図9】図９Ａは、第三実施形態においてプロセッサが実行する動画リサイズ処理の一部を表すフローチャートであり、図９Ｂは、その変形例の動画リサイズ処理の一部を表すフローチャートである。

【図10】第三実施形態においてストレージが記憶するデータベースの構成を表す図である。

【図11】図１１Ａは、注目タイプが自動車であるときのクロッピング領域の設定例を示す図であり、図１１Ｂは、注目タイプが人であるときのクロッピング領域の設定例を示す図である。

【図12】第四実施形態の領域設定処理を表すフローチャートである。

【図13】第五実施形態の領域設定処理を表すフローチャートである。

【図14】第六実施形態の領域設定処理を表すフローチャートである。

【図15】プロセッサが実行する設定学習処理を表すフローチャートである。

【発明を実施するための形態】

【0036】

以下に本開示の例示的実施形態を、図面を参照しながら説明する。
［第一実施形態］
図１に示す本実施形態の情報処理システム１０は、入力された動画データに基づき、動画像のアスペクト比を１：１に変更した動画データを出力するように構成されるシステムである。

【0037】

情報処理システム１０は、通信ネットワークＮＴ、特にはインターネット等の広域ネットワークを通じてユーザ端末装置５０と通信可能に構成される。情報処理システム１０は、例えば図示しないフロントエンドサーバを通じたウェブサービスとして、ユーザ端末装置５０に、動画リサイズサービスを提供する。

【0038】

動画リサイズサービスは、ユーザ端末装置５０から入力される動画データに含まれる動画像を、そのアスペクト比を１：１に変更するようにリサイズし、リサイズ後の動画データを、ユーザ端末装置５０に出力するサービスである。

【0039】

以下では、説明を簡単にするために、簡易な構成の情報処理システム１０を例に挙げて、情報処理システム１０が実行する処理の詳細を説明する。簡易な構成の情報処理システム１０は、プロセッサ１１と、メモリ１３と、ストレージ１５と、通信インタフェース１９と、を備える。情報処理システム１０は、一以上のサーバから構成され得る。

【0040】

プロセッサ１１は、ストレージ１５に記憶されたコンピュータプログラムに従う処理を実行するように構成される。メモリ１３は、プロセッサ１１による処理実行時に作業用メモリとして使用される。

【0041】

ストレージ１５は、動画リサイズサービスの提供に必要なコンピュータプログラム及びデータを記憶する。通信インタフェース１９は、通信ネットワークＮＴ内のノードと通信可能に構成される。

【0042】

動画リサイズサービスに関する簡易な処理フローを図２に示す。情報処理システム１０は、ユーザ端末装置５０からリサイズ対象の動画データを取得し（Ｓ１）、取得した動画データに含まれる動画像を、複数のシーンに分割する（Ｓ２）。

【0043】

以下では、シーン毎の動画像のことをシーン動画像と表現する。動画像の複数のシーンへの分割は、既存のショット検出技術を用いて実現され得る。ショットは、カメラで連続的に撮影されたひと続きの動画像に対応する。情報処理システム１０は、ショット検出技術により検出された１ショットを１シーンと取り扱い、動画像を、複数のシーンに分割することができる。

【0044】

情報処理システム１０は、シーン毎に、シーン動画像に写るオブジェクトを検出し、検出したオブジェクトに基づいて、クロッピング領域Ｒｃを設定する（Ｓ３）。シーン動画像におけるクロッピング領域Ｒｃの外側領域が、クロッピングにより取り除かれる画像領域である。

【0045】

図２に示す例によれば、太い正方形枠の内側領域がクロッピング領域Ｒｃである。情報処理システム１０は、シーン毎に、設定されたクロッピング領域Ｒｃを残すように、シーン動画像をクロッピングする（Ｓ３）。

【0046】

その後、情報処理システム１０は、クロッピングされたシーン動画像を連結して、アスペクト比１：１の動画データを生成し、ユーザ端末装置５０に出力する（Ｓ４）。このようにして、情報処理システム１０は、ユーザ端末装置５０から入力された動画データをリサイズし、リサイズ後の動画データを、加工済動画データとしてユーザ端末装置５０に提供する。

【0047】

動画リサイズサービスのために、情報処理システム１０のプロセッサ１１は、図３に示す動画リサイズ処理を実行することができる。具体的に、プロセッサ１１は、実行指示を受けて、図３に示す動画リサイズ処理を開始する。

【0048】

図３に示す動画リサイズ処理を開始すると、プロセッサ１１は、実行指示元のユーザ端末装置５０から入力されるリサイズ対象の動画データを取得する（Ｓ１１０）。Ｓ１１０において、プロセッサ１１は、商品又は役務を消費者に向けて訴求するために制作された広告動画を含む動画データを取得することができる。

【0049】

広告動画には、カメラ映像と共に再生される所謂テロップである文字画像及びイラスト画像等の素材が含まれ得る。Ｓ１１０において、プロセッサ１１は、カメラ映像に素材が合成された動画像を含む動画データを取得し得る。あるいは、プロセッサ１１は、素材が合成されていないカメラ映像を動画像として含む動画データ（以下、クリーン動画データという）を取得し得る。

【0050】

クリーン動画データに対しては、合成対象の素材を含む素材データが、動画データとは別にユーザ端末装置５０から提供され得る。この場合、プロセッサ１１は、動画データと併せて素材データを取得することができる（Ｓ１１０）。素材データは、動画像に合成すべき素材と共に、動画像に対する素材の合成位置の情報を含み得る。

【0051】

Ｓ１１０の処理に続いて、プロセッサ１１は、取得した動画データを分析し、動画データに含まれる動画像をシーン毎に分割する（Ｓ１２０）。プロセッサ１１は、外部サーバに、動画データを転送すると共にシーン分割を要求し、外部サーバからシーン分割された動画データを取得してもよい。

【0052】

その後、プロセッサ１１は、複数のシーンの一つを、処理対象のシーンに選択する（Ｓ１３０）。プロセッサ１１は、選択した処理対象のシーンについて、シーン動画像を解析し、シーン動画像に写るオブジェクトを検出する（Ｓ１４０）。

【0053】

例えば、オブジェクト（すなわち物体）の検出は、シーン動画像を構成するフレーム毎に行われる。検出対象のオブジェクトは、シーン動画像に写る人、動物、及び物を含む検出可能なすべてのタイプのオブジェクトである。

【0054】

オブジェクトの検出に伴って、シーン動画像におけるオブジェクトの表示領域及びオブジェクトのタイプが、オブジェクト毎に判別される。判別されるオブジェクトの表示領域は、矩形領域であり得て、ピクセル座標で表現され得る。プロセッサ１１は、外部サーバに、シーン動画像に対するオブジェクト検出を要求し、外部サーバから検出されたオブジェクトの情報を取得してもよい。

【0055】

その後、プロセッサ１１は、検出されたオブジェクトに基づき、処理対象のシーン動画像に対し、クロッピング領域Ｒｃを設定する（Ｓ１５０）。Ｓ１５０において、プロセッサ１１は、図４に示す領域設定処理を実行することができる。

【0056】

図４に示す領域設定処理を開始すると、プロセッサ１１は、処理対象のシーン動画像に、注目タイプのオブジェクトが存在するか否かを判断する（Ｓ３１０）。注目タイプは、クロッピング領域Ｒｃの設定基準として用いるべきオブジェクトのタイプのことである。本実施形態における注目タイプは、「人」である。

【0057】

具体的に、プロセッサ１１は、「人」として検出された一以上のオブジェクトがシーン動画像に存在するか否かを判断することにより、注目タイプのオブジェクトが存在するか否かを判断する（Ｓ３１０）。

【0058】

注目タイプのオブジェクトが存在すると判断すると（Ｓ３１０でＹｅｓ）、プロセッサ
１１は、シーン動画像を構成するフレーム毎に、そこに写る注目タイプの各オブジェクトの表示面積を算出する（Ｓ３２０）。

【0059】

プロセッサ１１は、シーン動画像に含まれる注目タイプのオブジェクトの一群の内、表示面積が最大のオブジェクトを表示対象オブジェクトとして選択する（Ｓ３３０）。プロセッサ１１は、フレーム毎に算出される各オブジェクトの表示面積のうち、最大の表示面積を有するオブジェクトを、表示対象オブジェクトとして選択することができる（Ｓ３３０）。

【0060】

その後、プロセッサ１１は、選択した表示対象オブジェクトを基準に、シーン動画像に対してクロッピング領域Ｒｃを設定する（Ｓ３４０）。具体的には、プロセッサ１１は、選択した表示対象オブジェクトの表示面積が最大であるフレームでの表示領域の中心と、クロッピング領域Ｒｃの中心とを合わせるように、処理対象のシーン動画像に対してクロッピング領域Ｒｃを設定する。Ｓ３４０での設定後、プロセッサ１１は、図４に示す領域設定処理を終了する。

【0061】

クロッピング領域Ｒｃは、１：１のアスペクト比を有する領域である。具体的には、クロッピング領域Ｒｃは、１辺がクロッピング前の動画像の短辺の長さと同じ長さを有する正方形の領域である。本実施形態では、クロッピングにより、動画データに含まれる動画像が、動画像の短辺の長さと同じ長さを有するアスペクト比１：１の動画像にリサイズされる。リサイズ前の動画像のアスペクト比は、限定されないが、例えば１６：９である。

【0062】

シーン動画像におけるオブジェクトの配置によっては、表示対象オブジェクトの表示領域の中心と、クロッピング領域Ｒｃの中心と一致させると、クロッピング領域Ｒｃの一部が、シーン動画像の領域外側に外れてしまう場合がある。この場合、プロセッサ１１は、クロッピング領域Ｒｃの全体がシーン動画像の領域内に収まる範囲で、クロッピング領域Ｒｃの中心を、表示対象オブジェクトの中心に近い位置に配置するように、クロッピング領域Ｒｃを設定する。

【0063】

図５Ａに示す例によれば、シーン動画像には、オブジェクトとして「人」が複数写っている。従って、各人がオブジェクトとして検出される。表示面積は、検出された各人について、フレーム毎に算出される。検出された各人の表示領域は、例えば図５Ｂにおいて細い矩形枠で示される領域である。図５Ｂにおける、細い矩形枠の重ね合わせは、フレーム毎に表示領域が検出されることを意味している。

【0064】

この例によれば、左から３番目の最前列の人の表示面積が、注目タイプのオブジェクトの一群の中で最も大きいため、表示面積が最大であるときの左から３番目の最前列の人の表示領域の中心に、クロッピング領域Ｒｃの中心が一致するように、クロッピング領域Ｒｃが設定される。図５Ｂに示される太い正方形の枠で囲まれた領域が、図５Ａのシーン動画像に対して設定されるクロッピング領域Ｒｃである。

【0065】

図６Ａに示す例によれば、シーン動画像には、オブジェクトとして「木」や「人」が写っており、複数のオブジェクトとして「木」及び「人」のオブジェクトが検出される。表示面積は、検出された各人について、フレーム毎に算出される。図６Ａに示す例によれば、「人」は、一人である。従って、シーン動画像に写る唯一の人の表示面積が最大であるときの表示領域の中心に、クロッピング領域Ｒｃの中心を合わせるように、クロッピング領域Ｒｃが設定される。

【0066】

図６Ｂに示す例によれば、表示対象オブジェクトに対応する人の位置が、シーン動画像の領域端に近い。図６Ａと同様に、人の表示領域の中心に、クロッピング領域Ｒｃの中心
を合わせると、クロッピング領域Ｒｃの一部が、シーン動画像の領域から外側にはみ出してしまう。この場合、クロッピング領域Ｒｃは、クロッピング領域Ｒｃの全体が、シーン動画像の領域内に収まる範囲で、人の表示領域の中心に最も近い位置にクロッピング領域Ｒｃの中心が配置されるように、設定される。

【0067】

Ｓ３１０において、注目タイプのオブジェクトが存在しないと判断すると（Ｓ３１０でＮｏ）、プロセッサ１１は、クロッピング領域Ｒｃの中心とシーン動画像の中心とが一致するように、クロッピング領域Ｒｃを設定する（Ｓ３９０）。その後、プロセッサ１１は、図４に示す領域設定処理を終了する。

【0068】

Ｓ１５０において、クロッピング領域Ｒｃの設定が終了すると、プロセッサ１１は、当該設定に従って、シーン動画像をクロッピングする（Ｓ１６０）。すなわち、プロセッサ１１は、シーン動画像におけるクロッピング領域Ｒｃの内側を抽出することにより、換言すれば、シーン動画像においてクロッピング領域Ｒｃの外側に位置する画像領域を取り除くことにより、クロッピングされたシーン動画像を生成する。

【0069】

プロセッサ１１は、全シーンについてＳ１６０の処理を実行するまで、Ｓ１３０～Ｓ１６０の処理を繰返し実行することにより、シーン毎に、オブジェクトを検出し（Ｓ１４０）、クロッピング領域Ｒｃを設定し（Ｓ１５０）、シーン動画像をクロッピングする（Ｓ１６０）。

【0070】

全シーンに対するクロッピングが完了すると（Ｓ１７０でＹｅｓ）、プロセッサ１１は、ユーザ端末装置５０からの素材配置に関する編集操作を受け付け、編集操作に従い、クロッピングされたシーン動画像に対して、素材を配置する（Ｓ１８０）。図７には、素材として文字列「変わらない」が配置されたシーン動画像の例を示す。

【0071】

このとき、プロセッサ１１は、所定の評価モデルに従って、シーン動画像に対する素材の配置を評価し、その評価結果を、上記編集操作を受け付ける編集画面に表示するように、ユーザ端末装置５０の編集画面を制御し得る。

【0072】

評価モデルは、素材配置と訴求効果の実績との関係を説明する教師データを用いた機械学習により構築され得る。この場合、評価モデルは、訴求効果の高い素材配置であるほど、高い評価値を出力するように構成され得る。

【0073】

プロセッサ１１は、仮に素材がシーン動画像の様々な地点に配置された場合の各地点での評価値を算出し、評価値に応じたグラデーション表示を、編集画面上のシーン動画像に重ねることにより、シーン動画像における評価値の高い地点をユーザに向けて示してもよい。例えば、評価値が高い地点ほど、色の濃度を高めることにより、評価値が高いことを、ユーザに示すことができる。

【0074】

プロセッサ１１は、編集操作の終了の意思表示がユーザ端末装置５０を通じてユーザからなされるまで、編集操作を受け付け、編集操作の終了の意思表示がなされると（Ｓ１９０でＹｅｓ）、Ｓ２１０の処理を実行する。

【0075】

別例として、プロセッサ１１は、素材データに含まれる素材を、クロッピング前の動画像における素材配置の情報に基づいて、クロッピング後のシーン動画像に自動配置してもよい（Ｓ２００）。すなわち、プロセッサ１１は、Ｓ１８０，Ｓ１９０の処理に代えて、自動配置に関するＳ２００の処理を実行してもよい。

【0076】

クロッピング前の素材の位置が、クロッピング領域Ｒｃの外側にある場合、プロセッサ
１１は、クロッピング後のシーン動画像に収まるように、素材の位置を修正しながら、素材を自動配置することができる。素材は、クロッピング後の動画像において、クロッピング前の動画像と同時刻に表示されるように配置される。プロセッサ１１は、所定の評価モデルに従って、評価値が最も高い位置に素材を配置するように、素材をクロッピング後のシーン動画像に配置してもよい。

【0077】

あるいは、プロセッサ１１は、Ｓ１１０で取得した動画データが、素材の合成された動画データであり、素材編集ができない動画データである場合、Ｓ１８０，Ｓ１９０，Ｓ２００の処理を実行せずに、Ｓ１７０で肯定判断した後、Ｓ２１０の処理を実行してもよい。

【0078】

Ｓ２１０において、プロセッサ１１は、Ｓ１６０の処理でクロッピングされたシーン動画像を、シーン配列がクロッピング前の動画データと同じになるように時系列に結合して、加工済動画データを生成する。この際、プロセッサ１１は、Ｓ１８０，Ｓ２００での素材配置に従って、加工済動画データの動画像に対して素材を合成する。加工済動画データは、リサイズ後の動画データであり、テロップ等の素材が合成されたアスペクト比が１：１の動画像を有する動画データである。

【0079】

その後、プロセッサ１１は、生成した加工済動画データを出力する（Ｓ２２０）。具体的には、プロセッサ１１は、生成した加工済動画データを、ユーザ端末装置５０に送信することができる。その後、プロセッサ１１は、図３に示す動画リサイズ処理を終了する。

【0080】

以上に説明した本実施形態の情報処理システム１０によれば、動画データに対してシーン毎に、クロッピング領域Ｒｃを設定する。動画データが、広告動画データのような映像作品である場合、動画像には、制作意図に応じたオブジェクトの配置に関する特徴が表れる。例えば、制作者側が、消費者に注目してほしいオブジェクトが、動画像において大きく表示される傾向がある。

【0081】

従って、本実施形態のように、動画像に写るオブジェクトの表示面積に基づいて、表示面積が最大のオブジェクトを表示対象オブジェクトに選択し、表示対象オブジェクトに合わせるように、クロッピング領域Ｒｃを設定すると、動画データに対するクロッピングを、動画像の制作意図に応じて適切に行うことができる。

【0082】

すなわち、本実施形態の情報処理システム１０は、動画データ、特には映像作品としての動画データ、特には広告動画データに対して、クロッピングを適切に実行することができる。広告動画データをアスペクト比１：１の動画データに変換することは、例えば、テレビ放送用の広告動画データを、ウェブ広告用の動画データに変換するために役立つ。

【0083】

［第二実施形態］
第二実施形態の情報処理システム１０は、プロセッサ１１がＳ１５０において、図４に示す領域設定処理に代えて、図８に示す領域設定処理を実行することを除けば、第一実施形態と同様に構成される。以下では、第二実施形態の情報処理システム１０に関する説明として、プロセッサ１１がＳ１５０で実行する領域設定処理の詳細を説明し、その他の説明を省略する。

【0084】

プロセッサ１１は、Ｓ１５０において図８に示す領域設定処理を開始すると、Ｓ３１０での処理と同様に、処理対象のシーン動画像に注目タイプのオブジェクトが存在するか否かを判断する（Ｓ４１０）。

【0085】

注目タイプのオブジェクトが存在すると判断すると（Ｓ４１０でＹｅｓ）、プロセッサ
１１は、シーン動画像に写る注目タイプの各オブジェクトのシーン全期間における表示領域及び表示量としてのシーン表示領域及びシーン表示量を判別する（Ｓ４２０）。

【0086】

ここでいうシーン全期間は、処理対象のシーンの開始時刻から終了時刻までの期間のことを意味する。すなわち、第二実施形態では、フレーム毎ではなく、シーン全期間についての表示領域及び表示量を、シーン表示領域及びシーン表示量として判別する。

【0087】

具体的には、プロセッサ１１は、オブジェクト毎に、対応するオブジェクトのシーン表示領域として、フレーム毎の当該オブジェクトの表示領域の重ね合わせ領域を判別する。すなわち、対応するオブジェクトのシーン表示領域は、シーン動画像の１フレーム以上で、当該オブジェクトの表示領域として判別された、シーン動画像内の領域である。

【0088】

シーン表示量は、例えば、対応するオブジェクトの表示面積及び表示時間に基づいて算出される。シーン表示量は、例えば、対応するオブジェクトの各フレームの表示面積のシーン全期間における時間積分に対応する。各フレームの表示面積は、各フレームにおいて、対応するオブジェクトの表示領域として判別される領域の面積である。別例としてシーン表示量は、上記シーン表示領域の面積として算出されてもよい。

【0089】

その後、プロセッサ１１は、シーン動画像に写る注目タイプのオブジェクトの一群のうち、シーン表示量が最大のオブジェクトを表示対象オブジェクトに選択する（Ｓ４３０）。

【0090】

続くＳ４４０において、プロセッサ１１は、選択した表示対象オブジェクトのシーン表示領域の中心と、クロッピング領域Ｒｃの中心とを合わせるように、シーン動画像に対してクロッピング領域Ｒｃを設定する。クロッピング領域Ｒｃの一部が、シーン動画像の領域から外側に外れてしまう場合の処置は、第一実施形態と同様であり得る。Ｓ４４０での設定後、プロセッサ１１は、図８に示す領域設定処理を終了する。

【0091】

Ｓ４１０において、注目タイプのオブジェクトが存在しないと判断すると（Ｓ４１０でＮｏ）、プロセッサ１１は、Ｓ３９０での処理と同様にクロッピング領域Ｒｃを設定する（Ｓ４９０）。その後、プロセッサ１１は、図８に示す領域設定処理を終了する。

【0092】

本実施形態によれば、シーン表示量が表示面積の時間積分として算出される場合に、動画像の制作意図を考慮したクロッピング領域Ｒｃの設定をより適切に行うことができる。

【0093】

［第三実施形態］
第三実施形態の情報処理システム１０は、プロセッサ１１が図３に示す動画リサイズ処理に代えて、それとは部分的に内容が異なる図９Ａに示す動画リサイズ処理を実行することを除けば、基本的に、第一実施形態と同様に構成される。

【0094】

以下では、第三実施形態の情報処理システム１０に関する説明として、プロセッサ１１が実行する動画リサイズ処理の第一実施形態とは異なる部位を、図９Ａを用いて選択的に説明し、その他の説明を省略する。

【0095】

本実施形態においてプロセッサ１１が実行する動画リサイズ処理の大部分は、第一実施形態の動画リサイズ処理と同様である。図９Ａに示す動画リサイズ処理から理解できるように、本実施形態では、プロセッサ１１が、Ｓ１１０の処理実行後、第一実施形態では実行されない注目タイプの指定を含む処理（Ｓ１１５）を実行する。

【0096】

Ｓ１１５において、プロセッサ１１は、取得した動画データに含まれる動画像の種類に
基づき、クロッピング領域Ｒｃの設定基準として用いるべきオブジェクトのタイプである注目タイプを指定する。

【0097】

例えば、プロセッサ１１は、動画像の種類を、動画データに含まれる音声情報に基づいて判別することができる。ここでいう、音声情報は、動画像と共に再生される音声の情報である。

【0098】

具体的に、プロセッサ１１は、動画データに含まれる音声情報をテキストデータに変換し、テキストデータから、予めキーワードデータベースＢ１に登録されたキーワードを抽出する。本実施形態によれば、ストレージ１５は、図１０に示すように、キーワードデータベースＢ１を記憶することができる。

【0099】

例示的なキーワードデータベースＢ１は、キーワード毎に、そのキーワードに対応する動画像の内容タイプを示すキーワードデータ有する。キーワードデータが示す内容タイプは、対応するキーワードが含まれる動画像の内容の種類を表し、具体的には、動画像の訴求目的であると推定される商品又は役務の種類を表す。

【0100】

プロセッサ１１は、抽出したキーワードに基づいて、動画像の内容タイプを、対応するキーワードデータが示す内容タイプから判別する。動画像から抽出されたキーワードが複数あるとき、プロセッサ１１は、抽出された複数のキーワードから、最も重要であると推定されるキーワードを選択し、選択したキーワードから、内容タイプを判別することができる。最も重要であるキーワードは、例えば、テキストデータに最も多く含まれるキーワードであり得る。

【0101】

あるいは、プロセッサ１１は、動画像から抽出された複数のキーワードのそれぞれの内容タイプを判別し、複数のキーワード間で最も共通する内容タイプを、動画像の内容タイプと判別することができる。

【0102】

あるいは、キーワードデータベースＢ１は、キーワードの組み合わせ毎に、動画像の内容タイプを定義するキーワードデータを有することができ、プロセッサ１１は、抽出したキーワードの組み合わせに基づいて、キーワードデータベースＢ１を参照し、動画像の内容タイプを判別することができる。

【0103】

あるいは、プロセッサ１１は、所定の機械学習モデルに、動画データに含まれる音声情報を入力し、機械学習モデルから、動画像の内容タイプの情報を得ることができる。機械学習モデルは、動画像の音声情報から内容タイプを判別するように構成され得る。

【0104】

その後、プロセッサ１１は、判別した動画像の内容タイプに基づいてオブジェクトの注目タイプを指定する。ストレージ１５は、図１０に示すように、動画像の内容タイプ毎に、注目タイプとして指定すべきオブジェクトのタイプを定義するオブジェクト定義データベースＢ２を記憶する。プロセッサ１１は、オブジェクト定義データベースＢ２を参照して、判別した動画像の内容タイプに対して定義されたオブジェクトのタイプを、注目タイプとして指定する。

【0105】

その後、プロセッサ１１は、第一実施形態と同様にＳ１２０以降の処理を実行する。但し、Ｓ１５０の処理では、Ｓ１１５で注目タイプとして指定したオブジェクトのタイプに該当するオブジェクトの一群の中から、表示対象オブジェクトを選択する。

【0106】

例えば、動画像が自動車を訴求目的とするとき、音声情報に含まれる自動車に関する「乗り心地」「燃費」等のキーワードから、注目タイプとして「自動車」が指定され得る。
この場合、プロセッサ１１は、図１１Ａに例示される動画像に含まれるオブジェクトの一群のうち、「自動車」として検出されたオブジェクトの一群の中から、表示対象オブジェクトを選択する。これにより、訴求目的に対応する自動車を主に残すように、クロッピングは行われ、動画データは、アスペクト比１：１の動画データに変換される。

【0107】

別例として、動画像が旅行を訴求目的とするとき、音声情報に含まれる旅行に関する「旅」「絶景」等のキーワードから、注目タイプとして「人」が指定され得る。この場合、プロセッサ１１は、動画像に車が写っているときであっても、動画像に含まれるオブジェクトの一群のうち、「人」として検出されたオブジェクトの一群の中から、表示対象オブジェクトを選択する。これにより、訴求目的に対応する旅行を楽しむ人を主に残すように、動画データは、アスペクト比１：１の動画データに変換される。

【0108】

以上に説明した本実施形態の情報処理システム１０によれば、訴求目的に対応するオブジェクトを基準としたクロッピングを行うことができる。従って、動画像の制作意図に応じた適切なクロッピングにより、動画データのアスペクト比を変更することができる。

【0109】

第三実施形態の変形例として、プロセッサ１１は、図９Ａに示す動画リサイズ処理に代えて、図９Ｂに示す動画リサイズ処理を実行してもよい。図９Ｂに示す動画リサイズ処理を開始すると、プロセッサ１１は、第一実施形態と同様に、Ｓ１１０，Ｓ１２０の処理を実行する。

【0110】

その後、プロセッサ１１は、シーン毎に、シーン動画像に含まれる音声情報から、シーン動画像の訴求目的に対応したオブジェクトのタイプを、注目タイプとして指定する（Ｓ１２５）。音声情報は、シーン毎に、テキストデータに変換されてもよい。全シーンの音声情報が、一括してテキストデータに変換された後、テキストデータが、シーン毎に分割されてもよい。

【0111】

注目タイプの指定方法は、上述した通りである。すなわち、シーン動画像に含まれる音声情報に対応するテキストデータから、キーワードデータベースＢ１に基づき、シーン動画像に対応する内容タイプが判別され、判別された内容タイプに対応するオブジェクトタイプが、オブジェクト定義データベースＢ２に基づき注目タイプとして指定される。

【0112】

プロセッサ１１は、シーン毎に、注目タイプを指定した後（Ｓ１２５）、Ｓ１３０以降の処理を第一実施形態と同様に実行する。但し、Ｓ１５０では、処理対象のシーンに対して指定された注目タイプのオブジェクトの一群の中から、表示対象オブジェクトを選択して、クロッピング領域Ｒｃを設定する。

【0113】

この変形例によれば、シーン毎に注目タイプを選択することから、より詳細に動画像の制作意図に応じたオブジェクトに注目したクロッピングを行うことができる。

【0114】

更なる変形例として、プロセッサ１１は、Ｓ１１０で取得した動画データに含まれる動画像と共に再生される文字情報に基づき、注目タイプを指定してもよい。例えば、プロセッサ１１は、動画像にテロップ等の素材として存在する文字情報を抽出してもよい。あるいは、プロセッサ１１は、Ｓ１１０で動画データと共に取得した素材データに含まれる動画像に対する合成対象の素材として存在する文字情報を抽出してもよい。

【0115】

プロセッサ１１は、抽出した文字情報を、上記音声情報に代えて用いて、キーワードデータベースＢ１を参照し、内容タイプを判別することができる（Ｓ１１５，Ｓ１２５）。更には、プロセッサ１１は、判別した内容タイプに対応するオブジェクトタイプを注目タイプとして指定することができる（Ｓ１１５，Ｓ１２５）。プロセッサ１１は、音声情報
及び文字情報の両方を用いて、Ｓ１１５，Ｓ１２５の処理を実行してもよい。

【0116】

［第四実施形態］
第四実施形態の情報処理システム１０は、プロセッサ１１がＳ１５０において、図４に示す領域設定処理に代えて、図１２に示す領域設定処理を実行することを除けば、第一実施形態と同様に構成される。以下では、第四実施形態の情報処理システム１０に関する説明として、プロセッサ１１がＳ１５０で実行する領域設定処理の詳細を説明し、その他の説明を省略する。

【0117】

プロセッサ１１は、Ｓ１５０において図１２に示す領域設定処理を開始すると、オブジェクトタイプの優先度情報を取得する（Ｓ５１０）。オブジェクトタイプの優先度情報は、例えばユーザ端末装置５０から取得される。

【0118】

オブジェクトタイプの優先度情報は、予めユーザ端末装置５０から取得され、ストレージ１５に格納され得る。プロセッサ１１は、ストレージ１５から優先度情報を取得してもよい。例えば、優先度情報は、動画データと共にユーザ端末装置５０から取得され得る。

【0119】

優先度情報は、動画データを提供するユーザから指定されたオブジェクトタイプの優先度を示し得る。オブジェクトタイプの優先度は、表示対象オブジェクトの選択優先度に対応する。本実施形態によれば、優先度が高いタイプのオブジェクトほど、優先的に表示対象オブジェクトとして選択される。

【0120】

優先度情報の取得後、プロセッサ１１は、シーン動画像に写る各オブジェクトの評価値を、優先度を加味して算出する（Ｓ５２０）。例えば、プロセッサ１１は、シーン動画像を構成するフレーム毎に、各オブジェクトの表示面積を算出し、表示面積と優先度とに基づいて、各オブジェクトの評価値をフレーム毎に算出することができる。優先度をパラメータＰ、表示面積をパラメータＳで表すとき、評価値は、優先度と表示面積との積（Ｐ×Ｓ）で算出され得る。

【0121】

その後、プロセッサ１１は、シーン動画像の中で、評価値が最大のオブジェクトを表示対象オブジェクトとして選択する（Ｓ５３０）。あるいは、オブジェクト毎に、シーン動画像を構成するフレーム毎の評価値の合計を算出し、評価値の合計が最大のオブジェクトを表示対象オブジェクトとして選択する（Ｓ５３０）。

【0122】

その後、プロセッサ１１は、選択した表示対象オブジェクトの評価値が最大であるときの表示領域の中心と、クロッピング領域Ｒｃの中心とを合わせるように、シーン動画像に対してクロッピング領域Ｒｃを設定する（Ｓ５４０）。Ｓ５４０での設定後、プロセッサ１１は、図１２に示す領域設定処理を終了する。

【0123】

本実施形態によれば、ユーザからの指示に従って、優先度の高いタイプのオブジェクトにクロッピング領域Ｒｃを合わるように、動画像をクロッピングすることができる。従って、動画像の制作意図に応じた適切なクロッピングを行うことが可能である。

【0124】

［第五実施形態］
第五実施形態の情報処理システム１０は、プロセッサ１１がＳ１５０において、図４に示す領域設定処理に代えて、図１３に示す領域設定処理を実行することを除けば、第一実施形態と同様に構成される。以下では、第五実施形態の情報処理システム１０に関する説明として、プロセッサ１１がＳ１５０で実行する領域設定処理の詳細を説明し、その他の説明を省略する。

【0125】

プロセッサ１１は、Ｓ１５０において図１３に示す領域設定処理を開始すると、処理対象のシーン動画像に対して、クロッピング領域Ｒｃの候補群を設定する（Ｓ６１０）。クロッピング領域Ｒｃの候補群は、クロッピング領域Ｒｃの中心をシーン動画像の左から右に少しずつずらして定められる候補群であり得る。

【0126】

その後、プロセッサ１１は、候補群の中から、一つの候補を選択し（Ｓ６２０）、選択した候補に基づいて仮にシーン動画像をクロッピングした場合におけるクロッピング後のシーン動画像を評価する（Ｓ６３０）。

【0127】

例えば、プロセッサ１１は、候補に対応するクロッピング領域Ｒｃ内に写る注目タイプのオブジェクトの面積の合計を評価値として算出することにより、選択した候補についてのクロッピング後のシーン動画像を評価する（Ｓ６３０）。

【0128】

あるいは、プロセッサ１１は、候補に基づくクロッピング後のシーン動画像を、機械学習により構築された評価モデルに入力して、クロッピング後のシーン動画像の評価値を算出することができる。

【0129】

注目タイプのオブジェクトがクロッピング領域Ｒｃによく収まっているほど評価値が高くなるように、評価モデルは構築され得る。あるいは、シーン動画像がテロップ等の素材を含む動画像であるとき、クロッピング後のシーン動画像において素材の欠けが少ないほど評価値が高くなるように、評価モデルは構築され得る。

【0130】

プロセッサ１１は、候補毎にＳ６２０，Ｓ６３０の処理を実行することにより、すべての候補に関して評価値を算出すると（Ｓ６４０でＹｅｓ）、評価値が最大の候補と同じ領域をクロッピング領域Ｒｃに設定する（Ｓ６５０）。その後、プロセッサ１１は、領域設定処理を終了する。

【0131】

プロセッサ１１は、シーン動画像において注目タイプのオブジェクトが存在しない場合、第一実施形態と同様に、クロッピング領域Ｒｃの中心を、シーン動画像の中心に合わせるように、クロッピング領域Ｒｃを設定することができる。

【0132】

本実施形態によっても、シーン毎に、注目タイプのオブジェクトを基準とした適切なクロッピング領域Ｒｃを設定することができる。

【0133】

［第六実施形態］
第六実施形態の情報処理システム１０は、プロセッサ１１がＳ１５０において、図４に示す領域設定処理に代えて、図１４に示す領域設定処理を実行することを除けば、第一実施形態と同様に構成される。以下では、第六実施形態の情報処理システム１０に関する説明として、プロセッサ１１がＳ１５０で実行する領域設定処理の詳細を説明し、その他の説明を省略する。

【0134】

プロセッサ１１は、Ｓ１５０において図１４に示す領域設定処理を開始すると、Ｓ６１０での処理と同様に、処理対象のシーン動画像に対し、クロッピング領域Ｒｃの候補群を設定する（Ｓ７１０）。

【0135】

プロセッサ１１は更に、素材データに基づき素材配置の候補群を設定する（Ｓ７２０）。素材は、クロッピング後のシーン動画像において、クロッピング前のシーン動画像と同時刻に表示されるように配置されるが、同時刻の素材の位置、すなわちピクセル座標上の位置は、クロッピング前後でシーン動画像のサイズが変化することに伴い、変更する必要が生じ得る。

【0136】

Ｓ７２０では、クロッピング後のシーン動画像における素材の位置に関する候補群を設定することにより、素材配置の候補群を設定することができる。例えば、素材は、クロッピング後のシーン動画像の中央、上、下、左、右領域の五つの領域のいずれかに配置され得る。素材配置の候補群には、これらの領域が含まれ得る。

【0137】

Ｓ７２０の処理後、プロセッサ１１は、クロッピング領域Ｒｃ及び素材配置の候補の組み合わせの一つを選択し（Ｓ７３０）、選択した候補の組み合わせに基づいて、仮に、シーン動画像をクロッピングし、クロッピング後のシーン動画像に対して素材を配置した場合のシーン動画像を評価する（Ｓ７４０）。

【0138】

例えば、プロセッサ１１は、候補に対応するクロッピング領域Ｒｃ内に写る注目タイプのオブジェクトの面積の合計が大きいほど、更には、素材の欠けが少ないほど、更には、注目タイプのオブジェクトに対する素材の干渉が少ないほど、高い評価値を算出するように、シーン動画像を評価することができる。

【0139】

あるいは、プロセッサ１１は、予め機械学習により構築した評価モデルに、対応するシーン動画像を入力して、当該シーン動画像の評価値を評価モデルから得ることができる。評価モデルは、訴求効果の高いシーン動画像ほど高い評価値を算出するように構築された機械学習モデルであり得る。評価モデルは、オブジェクト及び素材の配置に関する構図を加味して評価値を算出するように構築され得る。

【0140】

プロセッサ１１は、候補毎にＳ７３０，Ｓ７４０の処理を実行することにより、すべての候補について評価値を算出すると（Ｓ７５０でＹｅｓ）、評価値が最大の候補を採用し、採用したクロッピング領域Ｒｃの候補と同じ領域をクロッピング領域Ｒｃに設定すると共に、採用した素材位置の候補と同じ位置を、素材位置に設定する（Ｓ７６０）。その後、領域設定処理を終了する。

【0141】

プロセッサ１１は、Ｓ７６０での設定に基づいてＳ１６０でシーン動画像のクロッピングを行い、Ｓ２００で素材の自動配置を行い、Ｓ２１０で加工済動画データを生成し、Ｓ２２０で加工済動画データを出力する。

【0142】

本実施形態によれば、シーン毎に、注目タイプのオブジェクトを基準とした適切なクロッピング、及び、素材配置を行うことができる。

【0143】

［その他の実施形態］
本開示は、上述した実施形態に限定されるものではなく、種々の態様を採ることができる。例えば、情報処理システム１０は、Ｓ１５０の処理により設定されたクロッピング領域Ｒｃを、ユーザ端末装置５０を通じてユーザに向けて表示し、クロッピング領域Ｒｃの修正操作を、ユーザ端末装置５０を通じて受け付けてもよい。そして、修正されたクロッピング領域Ｒｃと、修正前のクロッピング領域Ｒｃとの差に基づいて、クロッピング領域Ｒｃの設定方法を修正してもよい。

【0144】

例えば、プロセッサ１１は、Ｓ１５０において、図１５に示す設定学習処理を実行することができる。この設定学習処理によれば、プロセッサ１１は、予め構築された機械学習モデルを用いてクロッピング領域Ｒｃを設定する（Ｓ８１０）。機械学習モデルは、シーン動画像において検出されたオブジェクトの配置に関する情報の入力を受けて、クロッピング領域Ｒｃを設定するモデルであり得る。

【0145】

プロセッサ１１は、Ｓ８１０の処理により設定されたクロッピング領域Ｒｃの修正操作
を、ユーザ端末装置５０を通じてユーザから受け付けて（Ｓ８２０）、その修正操作に従ってクロッピング領域Ｒｃを修正する（Ｓ８３０）。プロセッサ１１は更に、修正後のクロッピング領域Ｒｃを正解とする教師データに基づき、機械学習モデルを更新する（Ｓ８４０）。

【0146】

このようにして、プロセッサ１１は、Ｓ１５０において、機械学習モデルに基づくクロッピング領域Ｒｃの設定処理、修正操作の受付処理、修正結果に基づく機械学習モデルの更新処理を実行することができる。この例によれば、プロセッサ１１は、動画像の制作意図を加味した適切なクロッピングを行うことができ、動画データのリサイズを、制作意図に応じて適切に行うことができる。

【0147】

この他、上述した実施形態では、注目タイプの例として、「人」「自動車」を例に挙げたが、「人」以外のオブジェクトとして、「自動車」以外の様々なオブジェクトが注目タイプとして指定され得る。限定されないが、例えば「自転車」等の乗り物、「冷蔵庫」「テレビジョン受信機」等の電気製品、及び、「戸建て住宅」「マンション」等の不動産、が注目タイプとして指定され得る。

【0148】

本開示の技術は、上述した実施形態におけるアスペクト比１：１の動画データへの変換技術に限定されない。すなわち、本開示の技術は、リサイズ前後のアスペクト比及びサイズを何ら限定するものではなく、リサイズ対象の動画データは、様々なアスペクト比及びサイズを有する動画データに加工され得る。情報処理システム１０は、ユーザから指定されたアスペクト比及び／又はサイズの動画データに、リサイズ対象の動画データを加工するように構成されてもよい。

【0149】

上記実施形態における１つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、１つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。

【0150】

［対応関係］
用語間の対応関係は次の通りである。プロセッサ１１が実行するＳ１１０の処理は、取得部によって実現される処理の一例に対応する。プロセッサ１１が実行するＳ１５０の処理は、選択部及び設定部によって実現される処理の一例に対応する。プロセッサ１１が実行するＳ１６０の処理は、加工部によって実現される処理の一例に対応する。プロセッサ１１が実行するＳ２１０の処理は、生成部によって実現される処理の一例に対応する。

【符号の説明】

【0151】

１０…情報処理システム、１１…プロセッサ、１３…メモリ、１５…ストレージ、１９…通信インタフェース、５０…ユーザ端末装置、Ｂ１…キーワードデータベース、Ｂ２…オブジェクト定義データベース、ＮＴ…通信ネットワーク、Ｒｃ…クロッピング領域。

【要約】

【課題】クロッピングを適切に実行可能な新規技術を提供する。
【解決手段】動画像が有する複数のシーンに関して、シーン毎に、対応するシーン動画像に含まれる一以上のオブジェクトの中から、表示対象のオブジェクトが選択される。例えば、シーン動画像に含まれる一以上のオブジェクトのそれぞれの表示面積、及び／又は、動画像と共に再生される音声情報及び文字情報の少なくとも一方に基づき、表示対象のオブジェクトが選択される。シーン毎に、表示対象のオブジェクトを基準に、クロッピング領域が設定される（Ｓ１５０）。シーン毎に、シーン動画像におけるクロッピング領域の外側を取り除くようにシーン動画像がクロッピングされる（Ｓ１６０）。加工済動画データとして、シーン毎のクロッピングされたシーン動画像を結合した動画データが生成される（Ｓ２１０）。
【選択図】図３