特開2022-169009 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人　東京大学の特許一覧

特開2022-169009プログラム、情報処理方法及び情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022169009

(43)【公開日】2022-11-09

(54)【発明の名称】プログラム、情報処理方法及び情報処理装置

(51)【国際特許分類】

H04N 21/8549 20110101AFI20221101BHJP

G06N 20/00 20190101ALI20221101BHJP

【ＦＩ】

H04N21/8549

G06N20/00 160

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021074755

(22)【出願日】2021-04-27

(71)【出願人】

【識別番号】504137912

【氏名又は名称】国立大学法人東京大学

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】山崎俊彦

(72)【発明者】

【氏名】張賢亮

【テーマコード（参考）】

5C164

【Ｆターム（参考）】

5C164FA29

5C164MC03P

5C164SB41S

5C164YA21

(57)【要約】

【課題】教師なし学習であっても適切な要約動画を生成することができる情報処理装置等を提供する。
【解決手段】情報処理装置に、複数のフレームを含む動画を、複数のフレームより数が少ない複数のショットに変換すること、複数のショットを含む第１ショット群に対し、動画との関連性維持に関する第１処理を前記複数のショットに加えて第２ショット群を生成し、第１処理よりも動画との関連性をなくす第２処理を複数のショットに加えて第３ショット群を生成すること、自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出すること、損失関数を用いて最適化された学習モデルにより算出される第１ショット群の各ショットのスコアに基づいて、各ショットそれぞれを要約動画に含めるか否かを選択すること、選択されたショットに基づいて、要約動画を生成することと、を実行させる。
【選択図】図１

【特許請求の範囲】

【請求項1】

情報処理装置に、
複数のフレームを含む動画を、前記複数のフレームより数が少ない複数のショットに変換すること、
前記複数のショットを含む第１ショット群に対し、前記動画との関連性維持に関する第１処理を前記複数のショットに加えて第２ショット群を生成し、前記第１処理よりも前記動画との関連性をなくす第２処理を前記複数のショットに加えて第３ショット群を生成すること、
前記第１ショット群をアンカー、前記第２ショット群を正例、前記第３ショット群を負例とし、前記第１ショット群、前記第２ショット群、及び前記第３ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出すること、
前記第１ショット群の各ショットのスコアと前記第２ショット群の各ショットのスコアとに基づく第１類似度と、前記第１ショット群の各ショットのスコアと前記第３ショット群の各ショットのスコアとに基づく第２類似度とを用いる第１関数と、他の第２関数とを含む損失関数を用いて最適化された前記学習モデルにより算出される前記第１ショット群の各ショットのスコアに基づいて、前記各ショットそれぞれを要約動画に含めるか否かを選択すること、
選択されたショットに基づいて、要約動画を生成することと、
を実行させる、プログラム。

【請求項2】

前記第２関数は、前記第１ショット群の各ショットのスコアと所定値との差、及び前記第２ショット群の各ショットのスコアと前記所定値との差を用いる関数を含む、請求項１に記載のプログラム。

【請求項3】

前記第１処理は、前記動画に対し、所定の時間的関係又は空間的関係を維持する処理を含む、請求項１又は２に記載のプログラム。

【請求項4】

前記所定の時間的関係を維持する処理は、前記第１ショット群の各ショットの順番を逆順にする処理を含む、請求項３に記載のプログラム。

【請求項5】

前記第２処理は、前記動画に対し、所定の時間的関係又は空間的関係をなくす処理、あるいは各ショットの任意のフレームを他のフレームに置換する処理を含む、請求項１から４のいずれか一項に記載のプログラム。

【請求項6】

前記所定の時間的関係をなくす処理は、前記第１ショット群の各ショットの順番をランダムにする処理を含む、請求項５に記載のプログラム。

【請求項7】

情報処理装置が、
複数のフレームを含む動画を、前記複数のフレームより数が少ない複数のショットに変換すること、
前記複数のショットを含む第１ショット群に対し、前記動画との関連性維持に関する第１処理を前記複数のショットに加えて第２ショット群を生成し、前記第１処理よりも前記動画との関連性をなくす第２処理を前記複数のショットに加えて第３ショット群を生成すること、
前記第１ショット群をアンカー、前記第２ショット群を正例、前記第３ショット群を負例とし、前記第１ショット群、前記第２ショット群、及び前記第３ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出すること、
前記第１ショット群の各ショットのスコアと前記第２ショット群の各ショットのスコアとに基づく第１類似度と、前記第１ショット群の各ショットのスコアと前記第３ショット群の各ショットのスコアとに基づく第２類似度とを用いる第１関数と、他の第２関数とを含む損失関数を用いて最適化された前記学習モデルにより算出される前記第１ショット群の各ショットのスコアに基づいて、前記各ショットそれぞれを要約動画に含めるか否かを選択すること、
選択されたショットに基づいて、要約動画を生成することと、
を実行する、情報処理方法。

【請求項8】

複数のフレームを含む動画を、前記複数のフレームより数が少ない複数のショットに変換する変換部と、
前記複数のショットを含む第１ショット群に対し、前記動画との関連性維持に関する第１処理を前記複数のショットに加えて第２ショット群を生成し、前記第１処理よりも前記動画との関連性をなくす第２処理を前記複数のショットに加えて第３ショット群を生成する第１生成部と、
前記第１ショット群をアンカー、前記第２ショット群を正例、前記第３ショット群を負例とし、前記第１ショット群、前記第２ショット群、及び前記第３ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出する算出部と、
前記第１ショット群の各ショットのスコアと前記第２ショット群の各ショットのスコアとに基づく第１類似度と、前記第１ショット群の各ショットのスコアと前記第３ショット群の各ショットのスコアとに基づく第２類似度とを用いる第１関数と、他の第２関数とを含む損失関数を用いて最適化された前記学習モデルにより算出される前記第１ショット群の各ショットのスコアに基づいて、前記各ショットそれぞれを要約動画に含めるか否かを選択する選択部と、
選択されたショットに基づいて、要約動画を生成する第２生成部と、
を備える、情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、動画要約におけるプログラム、情報処理方法及び情報処理装置に関する。

【背景技術】

【0002】

近年、動画からより短い長さの要約動画を生成するため、深層学習の応用が試みられている。例えば、下記非特許文献１には、教師あり学習によって要約動画をつくるニューラルネットワークを生成する研究が記載されている。ここで、教師あり学習に用いる学習動画には、動画のフレーム毎に要約動画に含めるか否かを示すラベルが付与される。また、下記非特許文献２には、深層強化学習を用いて、教師なしで要約動画を生成する研究が記載されている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman, "Video summarization with long short-term memory," ECCV, 2016.

【非特許文献2】Zhou Kaiyang, Qiao Yu, and Xiang Tao, "Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward," AAAI, 2018.

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、非特許文献１のように教師あり学習によって動画を要約する学習モデルを生成する場合、動画のフレーム全てにラベル付けをする必要があり、アノテーションコストが膨大となる。

【0005】

この点、非特許文献２ではラベル付けが不要だが、要約動画全体に対して強化学習の報酬を算出し、その報酬を、個々のフレームを要約動画に含めるか否かを選択する行動に分配しているため、報酬に差が付きづらく、適切な要約動画を生成することが難しいことがある。

【0006】

そこで、本発明は、動画要約に対照学習を適用し、教師なし学習であっても適切な要約動画を生成することができるプログラム、情報処理方法及び情報処理装置を提供することを目的の一つとする。

【課題を解決するための手段】

【0007】

本発明の一態様に係るプログラムは、情報処理装置に、複数のフレームを含む動画を、前記複数のフレームより数が少ない複数のショットに変換すること、前記複数のショットを含む第１ショット群に対し、前記動画との関連性維持に関する第１処理を前記複数のショットに加えて第２ショット群を生成し、前記第１処理よりも前記動画との関連性をなくす第２処理を前記複数のショットに加えて第３ショット群を生成すること、前記第１ショット群をアンカー、前記第２ショット群を正例、前記第３ショット群を負例とし、前記第１ショット群、前記第２ショット群、及び前記第３ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出すること、前記第１ショット群の各ショットのスコアと前記第２ショット群の各ショットのスコアとに基づく第１類似度と、前記第１ショット群の各ショットのスコアと前記第３ショット群の各ショットのスコアとに基づく第２類似度とを用いる第１関数と、他の第２関数とを含む損失関数を用いて最適化された前記学習モデルにより算出される前記第１ショット群の各ショットのスコアに基づいて、前記各ショットそれぞれを要約動画に含めるか否かを選択すること、選択されたショットに基づいて、要約動画を生成することと、を実行させる。

【発明の効果】

【0008】

本発明によれば、動画要約に対照学習を適用し、教師なし学習であっても適切な要約動画を生成することができるプログラム、情報処理方法及び情報処理装置を提供することができる。

【図面の簡単な説明】

【0009】

【図1】本発明の実施形態に係る情報処理装置の処理構成の一例を示すブロック図である。

【図2】本実施形態に係る情報処理装置の物理的構成の一例を示す図である。

【図3】本実施形態に係る情報処理装置により実行される処理の概要を示す図である。

【図4】本実施形態に係る情報処理装置により生成される要約動画のＦ値と比較例１及び２の要約動画のＦ値を示す図である。

【図5】本実施形態の評価に用いられる各データセットを示す図である。

【図6】本実施形態に係る情報処理装置により生成される要約動画のＦ値と比較例３の要約動画のＦ値を示す図である。

【図7】本実施形態に係る情報処理装置により生成される要約動画のτ値及びρ値と比較例により生成される要約動画のτ値及びρ値を示す図である。

【図8】教師なし学習のＳＵＭ－ＧＡＮのモデルを示す図である。

【図9】既存の学習モデルに対して実施手法の適用有無を比較するための図である。

【図10】本実施形態に係る各手法の収束速度を示す図である。

【図11】本実施形態に係る実施手法と比較手法により選択されたフレームを示す図である。

【図12】本実施形態に係る情報処理装置により実行される動画要約処理の一例を示すフローチャートである。

【図13】本実施形態に係る情報処理装置により実行される学習処理の一例を示すフローチャートである。

【発明を実施するための形態】

【0010】

添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

【0011】

＜構成＞
図１は、本発明の実施形態に係る情報処理装置１０の処理構成の一例を示すブロック図である。情報処理装置１０は、取得部１１、変換部１２、第１生成部１３、算出部１４、選択部１５及び第２生成部１６を備える。

【0012】

取得部１１は、動画データベースＤＢから動画を取得する。動画データベースＤＢは、任意の動画を格納するデータベースであり、例えば公開されている動画データセットを含む。動画データベースＤＢは、例えば、ＳｕｍＭｅデータセット（Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool, "Creating Summaries from User Videos," ECCV 2014.）や、ＴＶＳｕｍデータセット（Song, Yale, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes, "TVSum: Summarizing web videos using titles," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5179-5187, 2015.）、OVP（Open Video Project）（https://open-video.org/）、YouTube（登録商標）のデータセット、又はユーザ等により撮影された所定の動画を含んでよい。

【0013】

変換部１２は、任意の自然数をＮと表すとき、動画に含まれる複数のフレームを、複数のフレームより数が少ない複数のＮのショットに変換する。例えば、変換部１２は、複数のフレームを画像特徴量に変換し、画像特徴量の類似度に基づいて、複数のフレームの画像特徴量からＮのショットを抽出してよい。ここで、フレームの画像特徴量は、ＣＮＮ（Convolutional Neural Network）の特徴マップであってよい。

【0014】

また、変換部１２は、例えば、D. Potapov, M. Douze, Z. Harchaoui, and C. Schmid, "Category-specific video summarization," ECCV 2014.に記載されいてる技術を用いて、動画に含まれる複数のフレームを、複数のフレームより数が少ないＮのショットに変換してよい。変換部１２によって、代表的なショットを抽出して、適切な要約動画が生成されるようにすることができる。

【0015】

第１生成部１３は、変換された複数のショットを含む第１ショット群に対し、元の動画との関連性維持に関する第１処理を複数のショットに加えて第２ショット群を生成する。また、第１生成部１３は、変換された複数のショットを含む第１ショット群に対し、第１処理よりも元の動画との関連性をなくす第２処理を複数のショットに加えて第３ショット群を生成する。

【0016】

例えば、第１生成部１３は、第１ショット群の各ショットの順番を逆順にする処理を実行し、第２ショット群を生成してよい。また、第１生成部１３は、第１ショット群の各ショットの順番をランダムにする処理を実行し、第３ショット群を生成してよい。

【0017】

ここで、本実施形態では，教師なし学習に分類される自己教師ありの対照学習を用いるため、第１ショット群はアンカーに設定され、第２ショット群は正例（ポジティブサンプル）に設定され、第３ショット群は負例（ネガティブサンプル）に設定される。このように各サンプルが設定されることで、各サンプルのショット数がアンカーのショット数と同数になり、損失関数に用いる各ショットの類似度の算出など効率よく学習を行うことが可能になる。

【0018】

算出部１４は、所定の学習モデル１４ａによって、Ｎのショットを要約動画に含めるか否かを表すスコアを算出する。ここで、所定の学習モデル１４ａは、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習（Contrastive Self-Supervised Learning）により生成される。上述したとおり、算出部１４は、第１ショット群をアンカーに、第２ショット群を正例に、第３ショット群を負例に設定し、後述する損失関数を用いて、損失関数の値が最小化するように学習モデル１４ａのパラメータを更新して学習を行う。

【0019】

従来、教師あり学習によって要約動画を生成する場合、複数のフレーム毎又は複数のショット毎に、フレームを要約動画に含めるか否かのラベル付けがされた学習動画を用いている。このような学習動画は、アノテーションコストが高く、データ量を増やすことが難しかった。この点、本実施形態に係る情報処理装置１０の学習モデル１４ａは、アノテーションを不要とし、アノテーションコストをなくすことができる。また、対照学習において、アンカーから正例と負例を生成するため、例えば負例として別の動画を用意する必要がない。したがって、要約を生成したい動画を準備するだけで本実施形態を適用することができ、実用化の面で大きなメリットがある。

【0020】

また、本実施形態では、アノテーションを必要としないため、任意の外部データを用いて大規模な学習をすることが可能である。任意の外部データは、例えば、ＹＦＣＣ１００Ｍのデータセットに代表されるように各種ＳＮＳ（Social Networking Service）に投稿された動画やテレビ放送に用いられた動画などである。また、本実施形態では、このような大規模学習データを用いて学習モデルを学習しておくことで、精度が向上することが実験的に確認されている（図４参照）。

【0021】

選択部１５は、所定の損失関数を用いてパラメータが最適化された学習モデルにより算出される第１ショット群の各ショットのスコアに基づいて、各ショットそれぞれを要約動画に含めるか否かを選択する。所定の損失関数は、例えば、第１ショット群の各ショットのスコアと第２ショット群の各ショットのスコアとに基づく第１類似度と、第１ショット群の各ショットのスコアと第３ショット群の各ショットのスコアとに基づく第２類似度とを用いる第１関数と、他の第２関数とを含む損失関数である。

【0022】

選択部１５は、例えば、要約動画が所定の長さになるように、重要度に関するナップサック問題を解くことで、Ｎのショットを要約動画に含めるか否かを選択してよい。なお、ナップサック問題を解くためのアルゴリズムは任意であるが、例えば貪欲法を用いたり、動的計画法を用いたりしてよい。

【0023】

第２生成部１６は、選択されたショットに基づいて、要約動画を生成する。本実施形態に係る情報処理装置１０によれば、対照学習を用いて自己教師ありの学習モデルを用いることで、アノテーションコストが不要であり、後述する実験結果が示すように適切な要約動画を生成することができる。

【0024】

図２は、本実施形態に係る情報処理装置１０の物理的構成の一例を示す図である。情報処理装置１０は、演算部に相当するＣＰＵ（Central Processing Unit）１０ａと、記憶部に相当するＲＡＭ（Random Access Memory）１０ｂと、記憶部に相当するＲＯＭ（Read only Memory）１０ｃと、通信部１０ｄと、入力部１０ｅと、表示部１０ｆと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では情報処理装置１０が一台のコンピュータで構成される場合について説明するが、情報処理装置１０は、複数のコンピュータが組み合わされて実現されてもよい。また、図２で示す構成は一例であり、情報処理装置１０はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。なお、ＣＰＵ１０ａは、ＧＰＵ（Graphical Processing Unit）でもよい。

【0025】

ＣＰＵ１０ａは、ＲＡＭ１０ｂ又はＲＯＭ１０ｃに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。ＣＰＵ１０ａは、動画を構成する複数のフレームのうち一部を抽出して要約動画を生成するプログラム（要約生成プログラム）を実行する演算部である。ＣＰＵ１０ａは、入力部１０ｅや通信部１０ｄから種々のデータを受け取り、データの演算結果を表示部１０ｆに表示したり、ＲＡＭ１０ｂに格納したりする。

【0026】

ＲＡＭ１０ｂは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＡＭ１０ｂは、ＣＰＵ１０ａが実行するプログラム、要約対象となる動画といったデータを記憶してよい。なお、これらは例示であって、ＲＡＭ１０ｂには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。

【0027】

ＲＯＭ１０ｃは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＯＭ１０ｃは、例えば要約生成プログラムや、書き換えが行われないデータを記憶してよい。

【0028】

通信部１０ｄは、情報処理装置１０を他の機器に接続するインターフェースである。通信部１０ｄは、インターネット等の通信ネットワークに接続されてよい。

【0029】

入力部１０ｅは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。

【0030】

表示部１０ｆは、ＣＰＵ１０ａによる演算結果を視覚的に表示するものであり、例えば、ＬＣＤ（Liquid Crystal Display）により構成されてよい。表示部１０ｆは、要約対象となる動画や要約した動画を表示してよい。

【0031】

要約生成プログラムは、ＲＡＭ１０ｂやＲＯＭ１０ｃ等のコンピュータによって読み取り可能な非一時的な記憶媒体に記憶されて提供されてもよいし、通信部１０ｄにより接続される通信ネットワークを介して提供されてもよい。情報処理装置１０では、ＣＰＵ１０ａが要約生成プログラムを実行することにより、図１を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、情報処理装置１０は、ＣＰＵ１０ａとＲＡＭ１０ｂやＲＯＭ１０ｃが一体化したＬＳＩ（Large-Scale Integration）を備えていてもよい。また、情報処理装置１０は、ＧＰＵを備えていてもよく、ＣＰＵ及びＣＰＵ１０ａが要約生成プログラムを実行することにより、図１を用いて説明した様々な動作が実現されてよい。

【0032】

＜処理例＞
図３は、本実施形態に係る情報処理装置１０により実行される処理の概要を示す図である。本実施形態に係る処理は、（１）事前処理、（２）要約ネットワーク、（３）事後処理の主な３つに分けられる。

【0033】

（１）事前処理
情報処理装置１０の変換部１２は、動画Ｖ０に含まれる複数のフレームを画像特徴量に変換し、画像特徴量に基づいて、複数のフレームの画像特徴量からＮのショットに変換する。

【0034】

例えば、変換部１２は、公知の技術を用いて動画を各ショットに変換してよいが、一例として、GoogLeNet（Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet,
Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. CVPR, page 1-9, 2015.）を用いて、ダウンサンプリングされたショットのキーフレームｖと、特徴ｘに基づきＮのショットに変換する。
ｖ＝｛ｖ_i｝，ｉ∈［１，２，．．．，Ｎ］
ｘ＝｛ｘ_i｝，ｉ∈［１，２，．．．，Ｎ］
ｘ_i＝Ｆ（ｖ_i）（Ｆ（）は特徴量を求める関数）
ここで、Ｎは、ダウンサンプリングされたフレーム数を表し、ショット数を表す。ショット内のフレームは１以上の任意の数であり、１５枚程度が好ましい。

【0035】

（２）要約ネットワーク
要約ネットワークでは、自己教師ありの対照学習を用いて、各ショットを要約動画に含めるか否かに関するスコアが算出される。まず、第１生成部１３は、Ｎ個の第１ショット群（Anchor）から、対照学習の正例に用いる第２ショット群（Positive）と、負例に用いる第３ショット群（Intra-negative（単にNegativeとも表記する。））とを生成する。

【0036】

第１生成部１３は、元の動画との関連性を維持するような第１処理を第１ショット群の各ショットに加えて第２ショット群を生成する。第１処理は、ユーザが第２ショット群を視聴した場合に、元の第１ショット群と同じ動画であると認識できるような処理である。例えば、第１処理は、元の動画に対し、所定の時間的関係又は空間的関係を維持する処理を含む。

【0037】

所定の時間的関係を維持する処理の一例として、第１処理は、第１ショット群の各ショットの順番を逆順にする処理を含んでよい。この場合の第２ショット群の各ショットを以下の式（１）ｘ^posで表す。
ｘ^pos＝ｒｅｖｅｒｓｅｄ（ｘ）
＝｛ｘ_j ^pos｝，ｊ∈［１，２，．．．，Ｎ］（１）
ここで、ｘ_j ^pos＝ｘ_N+1-j，ｊ∈［１，２，．．．，Ｎ］
また、第１処理は、第１ショット群の各ショットを複数のグループに分け、各グループの順番を入れ替えるなどの元の各ショットの時間的関係をある程度維持するような処理でもよい。

【0038】

所定の空間的関係を維持する処理の一例として、第１処理は、第１ショット群の各ショットの左右を反転させる処理を含んでよい。また、第１処理は、第１ショット群の各ショットを回転させたり、グレースケール化したり、元画像の特徴を壊さないような画像変換処理でもよい。

【0039】

また、第１生成部１３は、元の動画との関連性を壊すような第２処理を第１ショット群の各ショットに加えて第３ショット群を生成する。第２処理は、第１処理よりも動画との関連性をなくすような処理を含む。例えば、第２処理は、元の動画に対し、所定の時間的関係又は空間的関係をなくす処理、あるいは各ショットの任意のフレームを他のフレームに置換する処理を含んでよい。

【0040】

所定の時間的関係をなくす処理の一例として、第２処理は、第１ショット群の各ショットの順番をシャッフルし、順番をランダムにする処理を含む。この場合の第３ショット群の各ショットを以下の式（２－１）ｘ^negで表す。
ｘ^neg＝ｓｈｕｆｆｌｅ（ｘ）（２－１）
ここで、ｘ^neg≠ｘ
また、第２処理は、各ショット内の全てのフレームを、特定のフレーム（例えば最初のフレーム）に置き換える処理を含んでもよい。例えば、第３ショット群の各ショットを以下の式（２－２）ｘ^negで表してもよい。

【数1】

ここで、ｍは繰り返しインターバルのサイズ、ｋは、各インターバルのインデックス、ｘ_iは、ｉ番目のショットの特徴ベクトルを表す。

【0041】

次に、算出部１４は、所定の学習モデル１４ａによって、各ショットに対し、要約動画に含めるか否かに関するスコアを算出する。図３に示す例では、所定の学習モデル１４ａとして、ＬＳＴＭ（Long Short-Term Memory）が用いられる。具体例としては、双方向ＬＳＴＭ（Ｂｉ－ＬＳＴＭ）が使用され、学習モデル１４ａの関数ｆ（）と定義するとき、算出部１４は、以下の式（３）～（５）を用いて、第１ショット群の各ショットのスコアｓ、第２ショット群のスコアｓ^pos、第３ショット群のスコアｓ^negを算出する。
ｓ＝ｆ（ｘ）（３）
ｓ^pos＝ｒｅｓｅｒｖｅｄ（ｆ（ｘ^pos））（４）
ｓ^neg＝ｆ（ｘ^neg）（５）

【0042】

本実施形態の場合、スコアｓ＝｛ｓ_i｝、ｓ^pos＝｛ｓ_j ^pos｝、ｓ^neg＝｛ｓ_k ^neg｝それぞれは、ｘ＝｛ｘ_i｝、ｘ^pos＝｛ｘ_j ^pos｝、ｘ^neg＝｛ｘ_k ^neg｝，ｉ，ｊ，ｋ∈［１，２，．．．，Ｎ］から求められる重要度でもある。

【0043】

ここで、要約動画に含めるかの重要性を示す重要度ｓ^pos＝｛ｓ_j ^pos｝について、第２ショット群の重要度を逆順に並べ替えた重要度は、元動画との時間的依存性が壊されていないので、第１ショット群の重要度ｓ＝｛ｓ_i｝に類似するはずである。他方、第３ショット群の重要度ｓ^neg＝｛ｓ_k ^neg｝は、元動画との時間的依存性が壊されているので、第１ショット群の重要度ｓ＝｛ｓ_i｝に類似しないはずである。

【0044】

上述した重要度（スコア）の関係を用いて損失関数が設定される。本実施形態では、算出部１４は、第１ショット群のスコアｓと第２ショット群のスコアｓ^posとに基づく第１類似度と、第１ショット群のスコアｓと第３ショット群のスコアｓ^negとに基づく第２類似度とを用いる第１関数と、他の第２関数とを含む損失関数を用いる。

【0045】

まず、第２関数について説明する。第２関数は、要約動画が、元の動画のうち所定の箇所（時間帯）から集中して選択されることを避けるべく、なるべく様々な時間帯から選択されるようにするための損失関数である。例えば、第２関数は、第１ショット群の各ショットのスコアｓと所定値σとの差、及び第２ショット群の各ショットのスコアｓ^posと所定値σとの差を用いる損失関数Ｌ_percentageであり、以下の式（６）で表される。

【数2】

σは、所定のハイパーパラメータである。
なお、第２関数は、上記例に限られるものではなく、後述するように、再構成損失関数などでも適切に実装可能であることが、発明者らの実験により分かっている。

【0046】

次に、第１関数について説明する。例えば、第１関数は、第２ショット群のスコアｓ^pos＝｛ｓ_j ^pos｝と、第１ショット群のスコアｓ＝｛ｓ_i｝が類似するように、他方、第３ショット群のスコアｓ^neg＝｛ｓ_k ^neg｝と、第１ショット群のスコアｓ＝｛ｓ_i｝が類似しないようにするための損失関数Ｌ_contrastiveである。各類似度は、例えば式（９）を用いて、以下の式（７）（８）により算出される。

【数3】

【数4】

【数5】

【0047】

また、算出部１４は、対照学習における損失関数として、雑音対照推定（ＮＣＥ：Noise Contrastive Estimation）損失を適用し、第１関数Ｌ_contrastiveを次の式（１０）で定義する。

【数6】

算出部１４は、最終的な損失関数として、次の式（１１）で定義される関数Ｌ_pを用いる。

【数7】

【0048】

算出部１４は、損失関数Ｌ_pが最小となるように、誤差逆伝搬法を用いて学習モデル１４ａのパラメータを更新し、学習モデルの最適化を図る。算出部１４は、パラメータが最適化された学習モデルを用いて最終的なスコアを算出する。

【0049】

次に、第２関数として、再構成損失関数を用いる例について説明する。再構成損失関数Ｌ_reconは、次の式（１２）で表される。

【数8】

算出部１４は、最終的な損失関数として、次の式（１３）で定義される関数Ｌ_rを用いてもよい。

【数9】

なお、関数Ｌ_p又はＬ_rは、関数Ｌ_totalと表記してもよい。

【0050】

（３）事後処理
選択部１５は、例えば、要約動画が所定の長さになるように、スコアに関するナップサック問題を解くことで、各ショットを要約動画に含めるか否かを選択してよい。なお、ナップサック問題を解くためのアルゴリズムは任意であるが、例えば貪欲法を用いたり、動的計画法を用いたりしてよい。

【0051】

第２生成部１６は、選択されたショットに基づいて、要約動画Ｖ１を生成する。例えば、第２生成部１６は、選択されたショットを順番に連結して要約動画Ｖ１を生成する。本実施形態に係る情報処理装置１０によれば、対照学習を用いて自己教師ありの学習モデルを用いることで、アノテーションコストが不要であり、後述する実験結果が示すように適切な要約動画を生成することができる。

【0052】

＜評価＞
図４は、本実施形態に係る情報処理装置１０により生成される要約動画のＦ値と比較例１及び２の要約動画のＦ値を示す図である。ここで、Ｆ値は、PrecisionとRecallの調和平均である２×Precision×Recall／（Precision＋Recall）で定義される値であり、Precision＝Ａ∩Ｂ／Ａ、Recall＝Ａ∩Ｂ／Ｂで定義される値であり、Ａは人が作成した要約動画であり、Ｂは本実施形態に係る情報処理装置１０（又は比較例）によって生成された要約動画である。Ｆ値は、１に近いほど正確かつ漏れの少ない要約ができていることを表す。

【0053】

図５は、本実施形態の評価に用いられる各データセットを示す図である。図４に示す例では、図５に示す各データセットが用いられる。

【0054】

図４に示す比較例は、以下の（１）教師なし学習（unsupervised）と、（２）弱教師あり学習（weakly supervised）との手法が用いられる。
（比較例１）教師なし学習
ＳＵＭ－ＧＡＮ（Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. CVPR, pages 2982-2991, 2017.）
ＤＲ－ＤＳＮ（Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. AAAI, page 7582-7589, 2018.）
ＳＵＭ－ＧＡＮ－ｓｌ（Evlampios Apostolidis, Alexandros I. Metsai, Eleni Adamantidou, Vasileios Mezaris, and Ioannis Patras. Stepwise, label-based approach for improving the adversarial training in unsupervised video summarization. AI4TV, page 17-25, 2019.）
Ｃｙｃｌｅ－ＳＵＭ（Li Yuan, Francis EH Tay, Ping Li, Li Zhou, and Jiashi Feng.
Cycle-sum: Cycle-consistent adversarial lstm networks for unsupervised video summarization. AAAI, pages 2711-2722, 2019.）
ＡＣＧＡＮ（Xufeng He, Yang Hua, Tao Song, Zongpu Zhang, Zhengui Xue, Ruhui Ma, Neil Robertson, and Haibing Guan. Unsupervised video summarization with attentive conditional generative adversarial networks. ACMMM, page 2296-2304,
2019.）
ＳＵＭ－ＧＡＮ－ＡＡＥ（Evlampios Apostolidis, Eleni Adamantidou, Alexandros I. Metsai, Vasileios Mezaris, and Ioannis Patras. Unsupervised video summarization via attention-driven adversarial learning. International Conference on Multimedia Modeling, pages 492-504, 2020.）
（比較例２）弱教師あり学習
ＭＷＳｕｍ（Yiyan Chen, Li Tao, Xueting Wang, and Toshihiko Yamasaki. Weakly supervised video summarization by hierarchical reinforcement learning. ACMMMAsia, page 1-6, 2019.）

【0055】

図４に示す例では、本実施形態に記載の手法（以下、「実施手法」とも表記する。）は、Ｐｒｏｐｏｓａｌとして表記され、ｐはＬ_p、ｒはＬ_rを表し、ｓｈは式（２－１）の第３ショット群を表し、ｒｅは式（２－２）の第３ショット群を表す（インターバルサイズは２０）。また、ｐｒｅ－ｔｒａｉｎｅｄは、アノテーションなしのＹＦＣＣ１００Ｍ内の９９２本のビデオを用いて、本実施形態の学習モデルを事前訓練した手法を表す。

【0056】

図４に示すとおり、本実施形態に記載の各実施手法（各Proposal）は、同じ教師なし学習の比較例に比べて、ほぼ全てにおいて適切な要約動画を生成することができている。また、本実施形態に記載の各実施手法は、弱教師あり学習の比較例と比べても、ほぼ全てにおいて適切な要約動画を生成することができている。なお、図４に示す本実施形態に記載の手法は、図３に示すモデルに基づいている。

【0057】

図６は、本実施形態に係る情報処理装置１０により生成される要約動画のＦ値と比較例３の要約動画のＦ値を示す図である。比較例３は、以下の教師あり学習（Supervised）の手法が用いられる。
（比較例３）教師あり学習
ｖｓＬＳＴＭ（Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. ECCV pages 766-782, 2016）
ｄｐｐＬＳＴＭ（Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. ECCV pages 766-782, 2016）
ＳＵＭ－ＧＡＮｓｕｐ（Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. CVPR, pages 2982-2991, 2017.）
ＤＲ－ＤＳＮｓｕｐ（Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. AAAI, page 7582-7589, 2018.）
ＶＡＳＮｅｔ（Jiri Fajtl, Hajar Sadeghi Sokeh, Vasileios Argyriou, Dorothy Monekosso, and Paolo Remagnino. Summarizing videos with attention. ACCV, pages 39-54, 2018.）
ＤＭＡＳｕｍ（Li Yuan, Francis EH Tay, Ping Li, Li Zhou, and Jiashi Feng. Cycle-sum: Cycle-consistent adversarial lstm networks for unsupervised video summarization. AAAI, pages 2711-2722, 2019.）

【0058】

図６に示すラベルフリー（label-free）の「Ｘ」は、人手によるアノテーションが必須であることを示し、「Ｙ」は、ラベルが要求されないことを示す。また、「＋」は、実施手法よりも良いことを示し、「－」は、実施手法の方が改善できていることを示す。図６に示すとおり、教師なし学習の各実施手法は、ほとんどのケースにおいて、教師あり学習の手法よりも改善できている。これにより、実施手法はアノテーションがないにも関わらず実用性が高いと言える。

【0059】

なお、実施手法の損失関数における第２関数Ｌ_percengateで用いられるσについて、０．１から１．０までの間で変動させ、ＳｕｍＭｅとＴＶＳｕｍとのデータセットについてＦ値が調べられたところ、０．５が双方で良い結果であったので、本実施形態では、σ＝０．５が使用される。しかしながら、所定値σの０．５は一例であって、動画の特徴に応じて適宜変更されてもよい。

【0060】

以上、実施手法は、教師あり学習、弱教師あり学習、その他の教師なし学習の比較手法に比べて、より適切かつ漏れの少ない要約動画を生成することができていると言える。

【0061】

図７は、本実施形態に係る情報処理装置１０により生成される要約動画のτ値及びρ値と比較例により生成される要約動画のτ値及びρ値を示す図である。τ値は、ケンドールの順位相関係数であり、正答の要約動画と情報処理装置１０（又は比較例）によって生成された要約動画との関連性を表す。また、ρ値は、スピアマンの順位相関係数であり、正答の要約動画と情報処理装置１０（又は比較例）によって生成された要約動画との関連性を表す。いずれの値も、１に近いほど正答との関連性が強いことを表す。なお、図７では、参考のため、人（Human）が要約動画を作成した場合のτ値及びρ値を記載している。

【0062】

図７に示す例では、データセットとしてＴＶＳｕｍが用いられる。また、比較例として、教師あり学習は、ＤＰＰ－ＬＳＴＭ、ＤＭＡＳｕｍ、教師なし学習は、ＳＵＭ－ＧＡＮ、ＤＲ－ＤＳＮ、弱教師あり学習は、ＭＷＳｕｍがそれぞれ使用される。

【0063】

まず、Ｐｒｏｐｏｓａｌ（ｐｒｅ）の実施手法は、事前の訓練の効果が表れ、各提案手法の中で一番よい結果となっている。また、各実施手段は、τ値及びρ値について、いずれもよい結果を表しているが、特に、Ｐｒｏｐｏｓａｌ（ｐ＋ｓｈ）、Ｐｒｏｐｏｓａｌ（ｒ＋ｒｅ）、Ｐｒｏｐｏｓａｌ（ｐｒｅ）がＤＭＡＳｕｍ以外の比較例よりも良い結果となっている。

【0064】

このように、Ｆ値以外の指標によって比較しても、本実施形態に係る情報処理装置１０は、従来の比較例より適切な要約動画を生成できていることが確認できる。

【0065】

次に、実施手法の一般性・汎用性について説明する。図８は、教師なし学習のＳＵＭ－ＧＡＮのモデルを示す図である。図８に示すＳＵＭ－ＧＡＮのモデルのｓＬＳＴＭ部分に、実施手法を適用することが可能である。すなわち、実施手法は、既存の学習モデルにも適用可能であり、汎用性が高い。

【0066】

図９は、既存の学習モデルに対して実施手法の適用有無を比較するための図である。図９に示す例では、データセットして、ＳｕｍＭｅとＴＶＳｕｍとが使用される。また、図８に示すＳＵＭ－ＧＡＮの学習モデルに対して、実施手法の適用有無によるＦ値の違いを示し、単純なＬＳＴＭのＦ値と、図３に示す実施手法とのＦ値の違いを示す。

【0067】

図９に示すとおり、既存のＳＵＭ－ＧＡＮよりも、対照学習を用いる図３に示す要約ネットワークを適用したＳＵＭ－ＧＡＮの方が、Ｆ値が高い。また、単純なＬＳＴＭよりも、図３に示す要約ネットワークを適用したＬＳＴＭ（実施手法）の方が、Ｆ値が高い。

【0068】

次に、実施手法の収束速度について説明する。図１０は、図９に示す各手法の収束速度を示す図である。ＬＳＴＭについて、（ｂ）に表される実施手法のエポック数は、（ａ）に表される単純ＬＳＴＭのエポック数よりも少ない。したがって、実施手法は、単純ＬＳＴＭよりも学習速度が速いことを示す。また、ＳＵＭ－ＧＡＮについて、（ｄ）に表される実施手法を適用したＳＵＭ－ＧＡＮのエポック数は、（ｃ）に表される実施手法を適用していないＳＵＭ－ＧＡＮのエポック数よりも少ない。したがって、実施手法は、既存のＳＵＭ－ＧＡＮに適用されることで、性能も学習速度も速くなることを示す。

【0069】

実施手法の適用により学習速度（収束速度）が速くなる理由としては、第１関数Ｌ_contrastiveを損失関数に含めることで、動画に対する表現能力が高くなり、学習の反復回数を減らすことができるからと考えられる。

【0070】

図１１は、本実施形態に係る実施手法と比較手法により選択されたフレームを示す図である。図１１に示す例では、は、ＴＶＳｕｍに含まれる、犬の耳を掃除する動画について要約動画が生成される。（ａ）は、オリジナルの動画を示し、（ｂ）は、比較手法の一つ、教師なし学習のＤＲ－ＤＳＮにより生成される要約動画を示し、（ｃ）は、比較手法の一つ、弱教師あり学習のＭＷＳｕｍにより生成される要約動画を示し、（ｄ）は、図３に示すＬ_percentageを用いる実施手法により生成される要約動画を示す。

【0071】

また、図１１に示す（ｂ）～（ｄ）のバーの高さは、アノテーションにより得られた要約動画に含められるか否かを示すスコアであり、バーが高いほど、そのフレームは要約動画に含められるべきであることを示す。（ｄ）の要約動画は、（ｂ）の要約動画よりも、冒頭部分の重要ではないフレームが選択されておらず、要約動画として選択されるべき、バーの高さが高い中間部分から多くのフレームが選択されている。また、（ｄ）の要約動画は、（ｃ）の要約動画よりも、要約動画として選択されるべき、バーの高さが高い中間部分から多くのフレームが選択されている。これにより、（ｄ）の要約動画のＦ値（７５．２）が、他の従来技術の手法のＦ値よりも大きくなることが分かる。なお、図３に示すＬ_reconを用いる場合、Ｆ値は７１．９であることが確認されており、いずれの従来技術の手法のＦ値よりも大きい。

【0072】

さらに、実施手法の損失関数は、選択されるショット（又はフレーム）が同じ場面に偏るのを防ぐための第２関数を含めているため、中間部分だけではなく、冒頭部分などのショット（又はフレーム）も要約動画として選択されている。

【0073】

＜動作手順＞
図１２は、本実施形態に係る情報処理装置１０により実行される動画要約処理の一例を示すフローチャートである。

【0074】

ステップＳ１０２において、情報処理装置１０の変換部１２は、取得部１１により取得された複数のフレームを含む動画を、複数のフレームより数が少ない複数のショットに変換する。

【0075】

ステップＳ１０４において、第１生成部１３は、複数のショットを含む第１ショット群に対し、オリジナルの動画との関連性維持に関する第１処理を複数のショットに加えて第２ショット群を生成する。

【0076】

ステップＳ１０６において、第１生成部１３は、第１ショット群に対し、第１処理よりもオリジナルの動画との関連性をなくす第２処理を複数のショットに加えて第３ショット群を生成する。ステップＳ１０４とＳ１０６との順序は不問であり、同時に処理されてよい。

【0077】

ステップＳ１０８において、算出部１４は、第１ショット群をアンカー、第２ショット群を正例、第３ショット群を負例とし、第１ショット群、第２ショット群、及び第３ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデル１４ａによって、各ショットのスコアを算出する。

【0078】

ステップＳ１１０において、選択部１５は、第１ショット群の各ショットのスコアと第２ショット群の各ショットのスコアとに基づく第１類似度と、第１ショット群の各ショットのスコアと第３ショット群の各ショットのスコアとに基づく第２類似度とを用いる第１関数と、他の第２関数とを含む損失関数を用いて最適化された学習モデル１４ａにより算出される第１ショット群の各ショットのスコアに基づいて、各ショットそれぞれを要約動画に含めるか否かを選択する。

【0079】

ステップＳ１１２において、第２生成部１６は、選択されたショットに基づいて、要約動画を生成する。

【0080】

図１３は、本実施形態に係る情報処理装置１０により実行される学習処理の一例を示すフローチャートである。図１３に示す学習処理は、図１２に示すステップＳ１０８の学習処理の一例を示す。

【0081】

ステップＳ２０２において、算出部１４は、例えば式（３）～（５）により、第１～第３の各ショット群に対し、学習モデル１４ａによって、各ショットを動画要約に含めるか否かに関するスコアを算出する。

【0082】

ステップＳ２０４において、算出部１４は、例えば式（７）により、第１ショット群のスコアｓと、第２ショット群のスコアｓ^posとの第１類似度を算出する。

【0083】

ステップＳ２０６において、算出部１４は、例えば式（８）により、第１ショット群のスコアｓと第３ショット群のスコアｓ^negとの第２類似度を算出する。ステップＳ２０４とＳ２０６の順序は不問であり、同時に処理されてもよい。

【0084】

ステップＳ２０８において、算出部１４は、例えば式（１１）により、第１及び第２類似度を用いる第１関数（例えば式（１０））と、他の第２関数（例えば式（６））とを含む損失関数の値を算出する。

【0085】

ステップＳ２１０において、算出部１４は、損失関数の値が最小化されるように、所定の学習条件が満たされたか否かを判定する。所定の学習条件は、例えば、所定数のエポック数を超えることでもよい。学習条件が満たされれば（ステップＳ２１０－ＹＥＳ）、処理は終了し、学習条件が満たされていなければ（ステップＳ２１０－ＮＯ）、処理はステップＳ２１２に進む。

【0086】

ステップＳ２１２において、算出部１４は、誤差逆伝搬法により学習モデル１４ａのハイパーパラメータを更新する。その後、処理はステップＳ２０２に戻り、更新されたハイパーパラメータを用いて学習が続行される。

【0087】

以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。なお、本実施形態は、スポーツを撮影した動画の要約や、結婚式の様子を撮影した動画の要約など、様々な動画の要約生成に利用することが可能である。

【符号の説明】

【0088】

１０…情報処理装置、１０ａ…ＣＰＵ、１０ｂ…ＲＡＭ、１０ｃ…ＲＯＭ、１０ｄ…通信部、１０ｅ…入力部、１０ｆ…表示部、１１…取得部、１２…変換部、１３…第１生成部、１４…算出部、１４ａ…学習モデル、１５…選択部、１６…第２生成部

【図1】