IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人 東京大学の特許一覧

特開2022-169009プログラム、情報処理方法及び情報処理装置
<>
  • 特開-プログラム、情報処理方法及び情報処理装置 図1
  • 特開-プログラム、情報処理方法及び情報処理装置 図2
  • 特開-プログラム、情報処理方法及び情報処理装置 図3
  • 特開-プログラム、情報処理方法及び情報処理装置 図4
  • 特開-プログラム、情報処理方法及び情報処理装置 図5
  • 特開-プログラム、情報処理方法及び情報処理装置 図6
  • 特開-プログラム、情報処理方法及び情報処理装置 図7
  • 特開-プログラム、情報処理方法及び情報処理装置 図8
  • 特開-プログラム、情報処理方法及び情報処理装置 図9
  • 特開-プログラム、情報処理方法及び情報処理装置 図10
  • 特開-プログラム、情報処理方法及び情報処理装置 図11
  • 特開-プログラム、情報処理方法及び情報処理装置 図12
  • 特開-プログラム、情報処理方法及び情報処理装置 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022169009
(43)【公開日】2022-11-09
(54)【発明の名称】プログラム、情報処理方法及び情報処理装置
(51)【国際特許分類】
   H04N 21/8549 20110101AFI20221101BHJP
   G06N 20/00 20190101ALI20221101BHJP
【FI】
H04N21/8549
G06N20/00 160
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021074755
(22)【出願日】2021-04-27
(71)【出願人】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】山崎 俊彦
(72)【発明者】
【氏名】張 賢亮
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA29
5C164MC03P
5C164SB41S
5C164YA21
(57)【要約】
【課題】教師なし学習であっても適切な要約動画を生成することができる情報処理装置等を提供する。
【解決手段】情報処理装置に、複数のフレームを含む動画を、複数のフレームより数が少ない複数のショットに変換すること、複数のショットを含む第1ショット群に対し、動画との関連性維持に関する第1処理を前記複数のショットに加えて第2ショット群を生成し、第1処理よりも動画との関連性をなくす第2処理を複数のショットに加えて第3ショット群を生成すること、自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出すること、損失関数を用いて最適化された学習モデルにより算出される第1ショット群の各ショットのスコアに基づいて、各ショットそれぞれを要約動画に含めるか否かを選択すること、選択されたショットに基づいて、要約動画を生成することと、を実行させる。
【選択図】図1
【特許請求の範囲】
【請求項1】
情報処理装置に、
複数のフレームを含む動画を、前記複数のフレームより数が少ない複数のショットに変換すること、
前記複数のショットを含む第1ショット群に対し、前記動画との関連性維持に関する第1処理を前記複数のショットに加えて第2ショット群を生成し、前記第1処理よりも前記動画との関連性をなくす第2処理を前記複数のショットに加えて第3ショット群を生成すること、
前記第1ショット群をアンカー、前記第2ショット群を正例、前記第3ショット群を負例とし、前記第1ショット群、前記第2ショット群、及び前記第3ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出すること、
前記第1ショット群の各ショットのスコアと前記第2ショット群の各ショットのスコアとに基づく第1類似度と、前記第1ショット群の各ショットのスコアと前記第3ショット群の各ショットのスコアとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数を用いて最適化された前記学習モデルにより算出される前記第1ショット群の各ショットのスコアに基づいて、前記各ショットそれぞれを要約動画に含めるか否かを選択すること、
選択されたショットに基づいて、要約動画を生成することと、
を実行させる、プログラム。
【請求項2】
前記第2関数は、前記第1ショット群の各ショットのスコアと所定値との差、及び前記第2ショット群の各ショットのスコアと前記所定値との差を用いる関数を含む、請求項1に記載のプログラム。
【請求項3】
前記第1処理は、前記動画に対し、所定の時間的関係又は空間的関係を維持する処理を含む、請求項1又は2に記載のプログラム。
【請求項4】
前記所定の時間的関係を維持する処理は、前記第1ショット群の各ショットの順番を逆順にする処理を含む、請求項3に記載のプログラム。
【請求項5】
前記第2処理は、前記動画に対し、所定の時間的関係又は空間的関係をなくす処理、あるいは各ショットの任意のフレームを他のフレームに置換する処理を含む、請求項1から4のいずれか一項に記載のプログラム。
【請求項6】
前記所定の時間的関係をなくす処理は、前記第1ショット群の各ショットの順番をランダムにする処理を含む、請求項5に記載のプログラム。
【請求項7】
情報処理装置が、
複数のフレームを含む動画を、前記複数のフレームより数が少ない複数のショットに変換すること、
前記複数のショットを含む第1ショット群に対し、前記動画との関連性維持に関する第1処理を前記複数のショットに加えて第2ショット群を生成し、前記第1処理よりも前記動画との関連性をなくす第2処理を前記複数のショットに加えて第3ショット群を生成すること、
前記第1ショット群をアンカー、前記第2ショット群を正例、前記第3ショット群を負例とし、前記第1ショット群、前記第2ショット群、及び前記第3ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出すること、
前記第1ショット群の各ショットのスコアと前記第2ショット群の各ショットのスコアとに基づく第1類似度と、前記第1ショット群の各ショットのスコアと前記第3ショット群の各ショットのスコアとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数を用いて最適化された前記学習モデルにより算出される前記第1ショット群の各ショットのスコアに基づいて、前記各ショットそれぞれを要約動画に含めるか否かを選択すること、
選択されたショットに基づいて、要約動画を生成することと、
を実行する、情報処理方法。
【請求項8】
複数のフレームを含む動画を、前記複数のフレームより数が少ない複数のショットに変換する変換部と、
前記複数のショットを含む第1ショット群に対し、前記動画との関連性維持に関する第1処理を前記複数のショットに加えて第2ショット群を生成し、前記第1処理よりも前記動画との関連性をなくす第2処理を前記複数のショットに加えて第3ショット群を生成する第1生成部と、
前記第1ショット群をアンカー、前記第2ショット群を正例、前記第3ショット群を負例とし、前記第1ショット群、前記第2ショット群、及び前記第3ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出する算出部と、
前記第1ショット群の各ショットのスコアと前記第2ショット群の各ショットのスコアとに基づく第1類似度と、前記第1ショット群の各ショットのスコアと前記第3ショット群の各ショットのスコアとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数を用いて最適化された前記学習モデルにより算出される前記第1ショット群の各ショットのスコアに基づいて、前記各ショットそれぞれを要約動画に含めるか否かを選択する選択部と、
選択されたショットに基づいて、要約動画を生成する第2生成部と、
を備える、情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画要約におけるプログラム、情報処理方法及び情報処理装置に関する。
【背景技術】
【0002】
近年、動画からより短い長さの要約動画を生成するため、深層学習の応用が試みられている。例えば、下記非特許文献1には、教師あり学習によって要約動画をつくるニューラルネットワークを生成する研究が記載されている。ここで、教師あり学習に用いる学習動画には、動画のフレーム毎に要約動画に含めるか否かを示すラベルが付与される。また、下記非特許文献2には、深層強化学習を用いて、教師なしで要約動画を生成する研究が記載されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman, "Video summarization with long short-term memory," ECCV, 2016.
【非特許文献2】Zhou Kaiyang, Qiao Yu, and Xiang Tao, "Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward," AAAI, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、非特許文献1のように教師あり学習によって動画を要約する学習モデルを生成する場合、動画のフレーム全てにラベル付けをする必要があり、アノテーションコストが膨大となる。
【0005】
この点、非特許文献2ではラベル付けが不要だが、要約動画全体に対して強化学習の報酬を算出し、その報酬を、個々のフレームを要約動画に含めるか否かを選択する行動に分配しているため、報酬に差が付きづらく、適切な要約動画を生成することが難しいことがある。
【0006】
そこで、本発明は、動画要約に対照学習を適用し、教師なし学習であっても適切な要約動画を生成することができるプログラム、情報処理方法及び情報処理装置を提供することを目的の一つとする。
【課題を解決するための手段】
【0007】
本発明の一態様に係るプログラムは、情報処理装置に、複数のフレームを含む動画を、前記複数のフレームより数が少ない複数のショットに変換すること、前記複数のショットを含む第1ショット群に対し、前記動画との関連性維持に関する第1処理を前記複数のショットに加えて第2ショット群を生成し、前記第1処理よりも前記動画との関連性をなくす第2処理を前記複数のショットに加えて第3ショット群を生成すること、前記第1ショット群をアンカー、前記第2ショット群を正例、前記第3ショット群を負例とし、前記第1ショット群、前記第2ショット群、及び前記第3ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出すること、前記第1ショット群の各ショットのスコアと前記第2ショット群の各ショットのスコアとに基づく第1類似度と、前記第1ショット群の各ショットのスコアと前記第3ショット群の各ショットのスコアとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数を用いて最適化された前記学習モデルにより算出される前記第1ショット群の各ショットのスコアに基づいて、前記各ショットそれぞれを要約動画に含めるか否かを選択すること、選択されたショットに基づいて、要約動画を生成することと、を実行させる。
【発明の効果】
【0008】
本発明によれば、動画要約に対照学習を適用し、教師なし学習であっても適切な要約動画を生成することができるプログラム、情報処理方法及び情報処理装置を提供することができる。
【図面の簡単な説明】
【0009】
図1】本発明の実施形態に係る情報処理装置の処理構成の一例を示すブロック図である。
図2】本実施形態に係る情報処理装置の物理的構成の一例を示す図である。
図3】本実施形態に係る情報処理装置により実行される処理の概要を示す図である。
図4】本実施形態に係る情報処理装置により生成される要約動画のF値と比較例1及び2の要約動画のF値を示す図である。
図5】本実施形態の評価に用いられる各データセットを示す図である。
図6】本実施形態に係る情報処理装置により生成される要約動画のF値と比較例3の要約動画のF値を示す図である。
図7】本実施形態に係る情報処理装置により生成される要約動画のτ値及びρ値と比較例により生成される要約動画のτ値及びρ値を示す図である。
図8】教師なし学習のSUM-GANのモデルを示す図である。
図9】既存の学習モデルに対して実施手法の適用有無を比較するための図である。
図10】本実施形態に係る各手法の収束速度を示す図である。
図11】本実施形態に係る実施手法と比較手法により選択されたフレームを示す図である。
図12】本実施形態に係る情報処理装置により実行される動画要約処理の一例を示すフローチャートである。
図13】本実施形態に係る情報処理装置により実行される学習処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
【0011】
<構成>
図1は、本発明の実施形態に係る情報処理装置10の処理構成の一例を示すブロック図である。情報処理装置10は、取得部11、変換部12、第1生成部13、算出部14、選択部15及び第2生成部16を備える。
【0012】
取得部11は、動画データベースDBから動画を取得する。動画データベースDBは、任意の動画を格納するデータベースであり、例えば公開されている動画データセットを含む。動画データベースDBは、例えば、SumMeデータセット(Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool, "Creating Summaries from User Videos," ECCV 2014.)や、TVSumデータセット(Song, Yale, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes, "TVSum: Summarizing web videos using titles," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5179-5187, 2015.)、OVP(Open Video Project)(https://open-video.org/)、YouTube(登録商標)のデータセット、又はユーザ等により撮影された所定の動画を含んでよい。
【0013】
変換部12は、任意の自然数をNと表すとき、動画に含まれる複数のフレームを、複数のフレームより数が少ない複数のNのショットに変換する。例えば、変換部12は、複数のフレームを画像特徴量に変換し、画像特徴量の類似度に基づいて、複数のフレームの画像特徴量からNのショットを抽出してよい。ここで、フレームの画像特徴量は、CNN(Convolutional Neural Network)の特徴マップであってよい。
【0014】
また、変換部12は、例えば、D. Potapov, M. Douze, Z. Harchaoui, and C. Schmid, "Category-specific video summarization," ECCV 2014.に記載されいてる技術を用いて、動画に含まれる複数のフレームを、複数のフレームより数が少ないNのショットに変換してよい。変換部12によって、代表的なショットを抽出して、適切な要約動画が生成されるようにすることができる。
【0015】
第1生成部13は、変換された複数のショットを含む第1ショット群に対し、元の動画との関連性維持に関する第1処理を複数のショットに加えて第2ショット群を生成する。また、第1生成部13は、変換された複数のショットを含む第1ショット群に対し、第1処理よりも元の動画との関連性をなくす第2処理を複数のショットに加えて第3ショット群を生成する。
【0016】
例えば、第1生成部13は、第1ショット群の各ショットの順番を逆順にする処理を実行し、第2ショット群を生成してよい。また、第1生成部13は、第1ショット群の各ショットの順番をランダムにする処理を実行し、第3ショット群を生成してよい。
【0017】
ここで、本実施形態では,教師なし学習に分類される自己教師ありの対照学習を用いるため、第1ショット群はアンカーに設定され、第2ショット群は正例(ポジティブサンプル)に設定され、第3ショット群は負例(ネガティブサンプル)に設定される。このように各サンプルが設定されることで、各サンプルのショット数がアンカーのショット数と同数になり、損失関数に用いる各ショットの類似度の算出など効率よく学習を行うことが可能になる。
【0018】
算出部14は、所定の学習モデル14aによって、Nのショットを要約動画に含めるか否かを表すスコアを算出する。ここで、所定の学習モデル14aは、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習(Contrastive Self-Supervised Learning)により生成される。上述したとおり、算出部14は、第1ショット群をアンカーに、第2ショット群を正例に、第3ショット群を負例に設定し、後述する損失関数を用いて、損失関数の値が最小化するように学習モデル14aのパラメータを更新して学習を行う。
【0019】
従来、教師あり学習によって要約動画を生成する場合、複数のフレーム毎又は複数のショット毎に、フレームを要約動画に含めるか否かのラベル付けがされた学習動画を用いている。このような学習動画は、アノテーションコストが高く、データ量を増やすことが難しかった。この点、本実施形態に係る情報処理装置10の学習モデル14aは、アノテーションを不要とし、アノテーションコストをなくすことができる。また、対照学習において、アンカーから正例と負例を生成するため、例えば負例として別の動画を用意する必要がない。したがって、要約を生成したい動画を準備するだけで本実施形態を適用することができ、実用化の面で大きなメリットがある。
【0020】
また、本実施形態では、アノテーションを必要としないため、任意の外部データを用いて大規模な学習をすることが可能である。任意の外部データは、例えば、YFCC100Mのデータセットに代表されるように各種SNS(Social Networking Service)に投稿された動画やテレビ放送に用いられた動画などである。また、本実施形態では、このような大規模学習データを用いて学習モデルを学習しておくことで、精度が向上することが実験的に確認されている(図4参照)。
【0021】
選択部15は、所定の損失関数を用いてパラメータが最適化された学習モデルにより算出される第1ショット群の各ショットのスコアに基づいて、各ショットそれぞれを要約動画に含めるか否かを選択する。所定の損失関数は、例えば、第1ショット群の各ショットのスコアと第2ショット群の各ショットのスコアとに基づく第1類似度と、第1ショット群の各ショットのスコアと第3ショット群の各ショットのスコアとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数である。
【0022】
選択部15は、例えば、要約動画が所定の長さになるように、重要度に関するナップサック問題を解くことで、Nのショットを要約動画に含めるか否かを選択してよい。なお、ナップサック問題を解くためのアルゴリズムは任意であるが、例えば貪欲法を用いたり、動的計画法を用いたりしてよい。
【0023】
第2生成部16は、選択されたショットに基づいて、要約動画を生成する。本実施形態に係る情報処理装置10によれば、対照学習を用いて自己教師ありの学習モデルを用いることで、アノテーションコストが不要であり、後述する実験結果が示すように適切な要約動画を生成することができる。
【0024】
図2は、本実施形態に係る情報処理装置10の物理的構成の一例を示す図である。情報処理装置10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では情報処理装置10が一台のコンピュータで構成される場合について説明するが、情報処理装置10は、複数のコンピュータが組み合わされて実現されてもよい。また、図2で示す構成は一例であり、情報処理装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。なお、CPU10aは、GPU(Graphical Processing Unit)でもよい。
【0025】
CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、動画を構成する複数のフレームのうち一部を抽出して要約動画を生成するプログラム(要約生成プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bに格納したりする。
【0026】
RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、要約対象となる動画といったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
【0027】
ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば要約生成プログラムや、書き換えが行われないデータを記憶してよい。
【0028】
通信部10dは、情報処理装置10を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークに接続されてよい。
【0029】
入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。
【0030】
表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成されてよい。表示部10fは、要約対象となる動画や要約した動画を表示してよい。
【0031】
要約生成プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な非一時的な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。情報処理装置10では、CPU10aが要約生成プログラムを実行することにより、図1を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、情報処理装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。また、情報処理装置10は、GPUを備えていてもよく、CPU及びCPU10aが要約生成プログラムを実行することにより、図1を用いて説明した様々な動作が実現されてよい。
【0032】
<処理例>
図3は、本実施形態に係る情報処理装置10により実行される処理の概要を示す図である。本実施形態に係る処理は、(1)事前処理、(2)要約ネットワーク、(3)事後処理の主な3つに分けられる。
【0033】
(1)事前処理
情報処理装置10の変換部12は、動画V0に含まれる複数のフレームを画像特徴量に変換し、画像特徴量に基づいて、複数のフレームの画像特徴量からNのショットに変換する。
【0034】
例えば、変換部12は、公知の技術を用いて動画を各ショットに変換してよいが、一例として、GoogLeNet(Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet,
Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. CVPR, page 1-9, 2015.)を用いて、ダウンサンプリングされたショットのキーフレームvと、特徴xに基づきNのショットに変換する。
v={vi},i∈[1,2,...,N]
x={xi},i∈[1,2,...,N]
i=F(vi)(F()は特徴量を求める関数)
ここで、Nは、ダウンサンプリングされたフレーム数を表し、ショット数を表す。ショット内のフレームは1以上の任意の数であり、15枚程度が好ましい。
【0035】
(2)要約ネットワーク
要約ネットワークでは、自己教師ありの対照学習を用いて、各ショットを要約動画に含めるか否かに関するスコアが算出される。まず、第1生成部13は、N個の第1ショット群(Anchor)から、対照学習の正例に用いる第2ショット群(Positive)と、負例に用いる第3ショット群(Intra-negative(単にNegativeとも表記する。))とを生成する。
【0036】
第1生成部13は、元の動画との関連性を維持するような第1処理を第1ショット群の各ショットに加えて第2ショット群を生成する。第1処理は、ユーザが第2ショット群を視聴した場合に、元の第1ショット群と同じ動画であると認識できるような処理である。例えば、第1処理は、元の動画に対し、所定の時間的関係又は空間的関係を維持する処理を含む。
【0037】
所定の時間的関係を維持する処理の一例として、第1処理は、第1ショット群の各ショットの順番を逆順にする処理を含んでよい。この場合の第2ショット群の各ショットを以下の式(1)xposで表す。
pos=reversed(x)
={xj pos},j∈[1,2,...,N] (1)
ここで、xj pos=xN+1-j,j∈[1,2,...,N]
また、第1処理は、第1ショット群の各ショットを複数のグループに分け、各グループの順番を入れ替えるなどの元の各ショットの時間的関係をある程度維持するような処理でもよい。
【0038】
所定の空間的関係を維持する処理の一例として、第1処理は、第1ショット群の各ショットの左右を反転させる処理を含んでよい。また、第1処理は、第1ショット群の各ショットを回転させたり、グレースケール化したり、元画像の特徴を壊さないような画像変換処理でもよい。
【0039】
また、第1生成部13は、元の動画との関連性を壊すような第2処理を第1ショット群の各ショットに加えて第3ショット群を生成する。第2処理は、第1処理よりも動画との関連性をなくすような処理を含む。例えば、第2処理は、元の動画に対し、所定の時間的関係又は空間的関係をなくす処理、あるいは各ショットの任意のフレームを他のフレームに置換する処理を含んでよい。
【0040】
所定の時間的関係をなくす処理の一例として、第2処理は、第1ショット群の各ショットの順番をシャッフルし、順番をランダムにする処理を含む。この場合の第3ショット群の各ショットを以下の式(2-1)xnegで表す。
neg=shuffle(x) (2-1)
ここで、xneg≠x
また、第2処理は、各ショット内の全てのフレームを、特定のフレーム(例えば最初のフレーム)に置き換える処理を含んでもよい。例えば、第3ショット群の各ショットを以下の式(2-2)xnegで表してもよい。
【数1】
ここで、mは繰り返しインターバルのサイズ、kは、各インターバルのインデックス、xiは、i番目のショットの特徴ベクトルを表す。
【0041】
次に、算出部14は、所定の学習モデル14aによって、各ショットに対し、要約動画に含めるか否かに関するスコアを算出する。図3に示す例では、所定の学習モデル14aとして、LSTM(Long Short-Term Memory)が用いられる。具体例としては、双方向LSTM(Bi-LSTM)が使用され、学習モデル14aの関数f()と定義するとき、算出部14は、以下の式(3)~(5)を用いて、第1ショット群の各ショットのスコアs、第2ショット群のスコアspos、第3ショット群のスコアsnegを算出する。
s=f(x) (3)
pos=reserved(f(xpos)) (4)
neg=f(xneg) (5)
【0042】
本実施形態の場合、スコアs={si}、spos={sj pos}、sneg={sk neg}それぞれは、x={xi}、xpos={xj pos}、xneg={xk neg},i,j,k∈[1,2,...,N]から求められる重要度でもある。
【0043】
ここで、要約動画に含めるかの重要性を示す重要度spos={sj pos}について、第2ショット群の重要度を逆順に並べ替えた重要度は、元動画との時間的依存性が壊されていないので、第1ショット群の重要度s={si}に類似するはずである。他方、第3ショット群の重要度sneg={sk neg}は、元動画との時間的依存性が壊されているので、第1ショット群の重要度s={si}に類似しないはずである。
【0044】
上述した重要度(スコア)の関係を用いて損失関数が設定される。本実施形態では、算出部14は、第1ショット群のスコアsと第2ショット群のスコアsposとに基づく第1類似度と、第1ショット群のスコアsと第3ショット群のスコアsnegとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数を用いる。
【0045】
まず、第2関数について説明する。第2関数は、要約動画が、元の動画のうち所定の箇所(時間帯)から集中して選択されることを避けるべく、なるべく様々な時間帯から選択されるようにするための損失関数である。例えば、第2関数は、第1ショット群の各ショットのスコアsと所定値σとの差、及び第2ショット群の各ショットのスコアsposと所定値σとの差を用いる損失関数Lpercentageであり、以下の式(6)で表される。
【数2】
σは、所定のハイパーパラメータである。
なお、第2関数は、上記例に限られるものではなく、後述するように、再構成損失関数などでも適切に実装可能であることが、発明者らの実験により分かっている。
【0046】
次に、第1関数について説明する。例えば、第1関数は、第2ショット群のスコアspos={sj pos}と、第1ショット群のスコアs={si}が類似するように、他方、第3ショット群のスコアsneg={sk neg}と、第1ショット群のスコアs={si}が類似しないようにするための損失関数Lcontrastiveである。各類似度は、例えば式(9)を用いて、以下の式(7)(8)により算出される。
【数3】
【数4】
【数5】
【0047】
また、算出部14は、対照学習における損失関数として、雑音対照推定(NCE:Noise Contrastive Estimation)損失を適用し、第1関数Lcontrastiveを次の式(10)で定義する。
【数6】
算出部14は、最終的な損失関数として、次の式(11)で定義される関数Lpを用いる。
【数7】
【0048】
算出部14は、損失関数Lpが最小となるように、誤差逆伝搬法を用いて学習モデル14aのパラメータを更新し、学習モデルの最適化を図る。算出部14は、パラメータが最適化された学習モデルを用いて最終的なスコアを算出する。
【0049】
次に、第2関数として、再構成損失関数を用いる例について説明する。再構成損失関数Lreconは、次の式(12)で表される。
【数8】
算出部14は、最終的な損失関数として、次の式(13)で定義される関数Lrを用いてもよい。
【数9】
なお、関数Lp又はLrは、関数Ltotalと表記してもよい。
【0050】
(3)事後処理
選択部15は、例えば、要約動画が所定の長さになるように、スコアに関するナップサック問題を解くことで、各ショットを要約動画に含めるか否かを選択してよい。なお、ナップサック問題を解くためのアルゴリズムは任意であるが、例えば貪欲法を用いたり、動的計画法を用いたりしてよい。
【0051】
第2生成部16は、選択されたショットに基づいて、要約動画V1を生成する。例えば、第2生成部16は、選択されたショットを順番に連結して要約動画V1を生成する。本実施形態に係る情報処理装置10によれば、対照学習を用いて自己教師ありの学習モデルを用いることで、アノテーションコストが不要であり、後述する実験結果が示すように適切な要約動画を生成することができる。
【0052】
<評価>
図4は、本実施形態に係る情報処理装置10により生成される要約動画のF値と比較例1及び2の要約動画のF値を示す図である。ここで、F値は、PrecisionとRecallの調和平均である2×Precision×Recall/(Precision+Recall)で定義される値であり、Precision=A∩B/A、Recall=A∩B/Bで定義される値であり、Aは人が作成した要約動画であり、Bは本実施形態に係る情報処理装置10(又は比較例)によって生成された要約動画である。F値は、1に近いほど正確かつ漏れの少ない要約ができていることを表す。
【0053】
図5は、本実施形態の評価に用いられる各データセットを示す図である。図4に示す例では、図5に示す各データセットが用いられる。
【0054】
図4に示す比較例は、以下の(1)教師なし学習(unsupervised)と、(2)弱教師あり学習(weakly supervised)との手法が用いられる。
(比較例1)教師なし学習
SUM-GAN(Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. CVPR, pages 2982-2991, 2017.)
DR-DSN(Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. AAAI, page 7582-7589, 2018.)
SUM-GAN-sl(Evlampios Apostolidis, Alexandros I. Metsai, Eleni Adamantidou, Vasileios Mezaris, and Ioannis Patras. Stepwise, label-based approach for improving the adversarial training in unsupervised video summarization. AI4TV, page 17-25, 2019.)
Cycle-SUM(Li Yuan, Francis EH Tay, Ping Li, Li Zhou, and Jiashi Feng.
Cycle-sum: Cycle-consistent adversarial lstm networks for unsupervised video summarization. AAAI, pages 2711-2722, 2019.)
ACGAN(Xufeng He, Yang Hua, Tao Song, Zongpu Zhang, Zhengui Xue, Ruhui Ma, Neil Robertson, and Haibing Guan. Unsupervised video summarization with attentive conditional generative adversarial networks. ACMMM, page 2296-2304,
2019.)
SUM-GAN-AAE(Evlampios Apostolidis, Eleni Adamantidou, Alexandros I. Metsai, Vasileios Mezaris, and Ioannis Patras. Unsupervised video summarization via attention-driven adversarial learning. International Conference on Multimedia Modeling, pages 492-504, 2020.)
(比較例2)弱教師あり学習
MWSum(Yiyan Chen, Li Tao, Xueting Wang, and Toshihiko Yamasaki. Weakly supervised video summarization by hierarchical reinforcement learning. ACMMMAsia, page 1-6, 2019.)
【0055】
図4に示す例では、本実施形態に記載の手法(以下、「実施手法」とも表記する。)は、Proposalとして表記され、pはLp、rはLrを表し、shは式(2-1)の第3ショット群を表し、reは式(2-2)の第3ショット群を表す(インターバルサイズは20)。また、pre-trainedは、アノテーションなしのYFCC100M内の992本のビデオを用いて、本実施形態の学習モデルを事前訓練した手法を表す。
【0056】
図4に示すとおり、本実施形態に記載の各実施手法(各Proposal)は、同じ教師なし学習の比較例に比べて、ほぼ全てにおいて適切な要約動画を生成することができている。また、本実施形態に記載の各実施手法は、弱教師あり学習の比較例と比べても、ほぼ全てにおいて適切な要約動画を生成することができている。なお、図4に示す本実施形態に記載の手法は、図3に示すモデルに基づいている。
【0057】
図6は、本実施形態に係る情報処理装置10により生成される要約動画のF値と比較例3の要約動画のF値を示す図である。比較例3は、以下の教師あり学習(Supervised)の手法が用いられる。
(比較例3)教師あり学習
vsLSTM(Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. ECCV pages 766-782, 2016)
dppLSTM(Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. ECCV pages 766-782, 2016)
SUM-GANsup(Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. CVPR, pages 2982-2991, 2017.)
DR-DSNsup(Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. AAAI, page 7582-7589, 2018.)
VASNet(Jiri Fajtl, Hajar Sadeghi Sokeh, Vasileios Argyriou, Dorothy Monekosso, and Paolo Remagnino. Summarizing videos with attention. ACCV, pages 39-54, 2018.)
DMASum(Li Yuan, Francis EH Tay, Ping Li, Li Zhou, and Jiashi Feng. Cycle-sum: Cycle-consistent adversarial lstm networks for unsupervised video summarization. AAAI, pages 2711-2722, 2019.)
【0058】
図6に示すラベルフリー(label-free)の「X」は、人手によるアノテーションが必須であることを示し、「Y」は、ラベルが要求されないことを示す。また、「+」は、実施手法よりも良いことを示し、「-」は、実施手法の方が改善できていることを示す。図6に示すとおり、教師なし学習の各実施手法は、ほとんどのケースにおいて、教師あり学習の手法よりも改善できている。これにより、実施手法はアノテーションがないにも関わらず実用性が高いと言える。
【0059】
なお、実施手法の損失関数における第2関数Lpercengateで用いられるσについて、0.1から1.0までの間で変動させ、SumMeとTVSumとのデータセットについてF値が調べられたところ、0.5が双方で良い結果であったので、本実施形態では、σ=0.5が使用される。しかしながら、所定値σの0.5は一例であって、動画の特徴に応じて適宜変更されてもよい。
【0060】
以上、実施手法は、教師あり学習、弱教師あり学習、その他の教師なし学習の比較手法に比べて、より適切かつ漏れの少ない要約動画を生成することができていると言える。
【0061】
図7は、本実施形態に係る情報処理装置10により生成される要約動画のτ値及びρ値と比較例により生成される要約動画のτ値及びρ値を示す図である。τ値は、ケンドールの順位相関係数であり、正答の要約動画と情報処理装置10(又は比較例)によって生成された要約動画との関連性を表す。また、ρ値は、スピアマンの順位相関係数であり、正答の要約動画と情報処理装置10(又は比較例)によって生成された要約動画との関連性を表す。いずれの値も、1に近いほど正答との関連性が強いことを表す。なお、図7では、参考のため、人(Human)が要約動画を作成した場合のτ値及びρ値を記載している。
【0062】
図7に示す例では、データセットとしてTVSumが用いられる。また、比較例として、教師あり学習は、DPP-LSTM、DMASum、教師なし学習は、SUM-GAN、DR-DSN、弱教師あり学習は、MWSumがそれぞれ使用される。
【0063】
まず、Proposal(pre)の実施手法は、事前の訓練の効果が表れ、各提案手法の中で一番よい結果となっている。また、各実施手段は、τ値及びρ値について、いずれもよい結果を表しているが、特に、Proposal(p+sh)、Proposal(r+re)、Proposal(pre)がDMASum以外の比較例よりも良い結果となっている。
【0064】
このように、F値以外の指標によって比較しても、本実施形態に係る情報処理装置10は、従来の比較例より適切な要約動画を生成できていることが確認できる。
【0065】
次に、実施手法の一般性・汎用性について説明する。図8は、教師なし学習のSUM-GANのモデルを示す図である。図8に示すSUM-GANのモデルのsLSTM部分に、実施手法を適用することが可能である。すなわち、実施手法は、既存の学習モデルにも適用可能であり、汎用性が高い。
【0066】
図9は、既存の学習モデルに対して実施手法の適用有無を比較するための図である。図9に示す例では、データセットして、SumMeとTVSumとが使用される。また、図8に示すSUM-GANの学習モデルに対して、実施手法の適用有無によるF値の違いを示し、単純なLSTMのF値と、図3に示す実施手法とのF値の違いを示す。
【0067】
図9に示すとおり、既存のSUM-GANよりも、対照学習を用いる図3に示す要約ネットワークを適用したSUM-GANの方が、F値が高い。また、単純なLSTMよりも、図3に示す要約ネットワークを適用したLSTM(実施手法)の方が、F値が高い。
【0068】
次に、実施手法の収束速度について説明する。図10は、図9に示す各手法の収束速度を示す図である。LSTMについて、(b)に表される実施手法のエポック数は、(a)に表される単純LSTMのエポック数よりも少ない。したがって、実施手法は、単純LSTMよりも学習速度が速いことを示す。また、SUM-GANについて、(d)に表される実施手法を適用したSUM-GANのエポック数は、(c)に表される実施手法を適用していないSUM-GANのエポック数よりも少ない。したがって、実施手法は、既存のSUM-GANに適用されることで、性能も学習速度も速くなることを示す。
【0069】
実施手法の適用により学習速度(収束速度)が速くなる理由としては、第1関数Lcontrastiveを損失関数に含めることで、動画に対する表現能力が高くなり、学習の反復回数を減らすことができるからと考えられる。
【0070】
図11は、本実施形態に係る実施手法と比較手法により選択されたフレームを示す図である。図11に示す例では、は、TVSumに含まれる、犬の耳を掃除する動画について要約動画が生成される。(a)は、オリジナルの動画を示し、(b)は、比較手法の一つ、教師なし学習のDR-DSNにより生成される要約動画を示し、(c)は、比較手法の一つ、弱教師あり学習のMWSumにより生成される要約動画を示し、(d)は、図3に示すLpercentageを用いる実施手法により生成される要約動画を示す。
【0071】
また、図11に示す(b)~(d)のバーの高さは、アノテーションにより得られた要約動画に含められるか否かを示すスコアであり、バーが高いほど、そのフレームは要約動画に含められるべきであることを示す。(d)の要約動画は、(b)の要約動画よりも、冒頭部分の重要ではないフレームが選択されておらず、要約動画として選択されるべき、バーの高さが高い中間部分から多くのフレームが選択されている。また、(d)の要約動画は、(c)の要約動画よりも、要約動画として選択されるべき、バーの高さが高い中間部分から多くのフレームが選択されている。これにより、(d)の要約動画のF値(75.2)が、他の従来技術の手法のF値よりも大きくなることが分かる。なお、図3に示すLreconを用いる場合、F値は71.9であることが確認されており、いずれの従来技術の手法のF値よりも大きい。
【0072】
さらに、実施手法の損失関数は、選択されるショット(又はフレーム)が同じ場面に偏るのを防ぐための第2関数を含めているため、中間部分だけではなく、冒頭部分などのショット(又はフレーム)も要約動画として選択されている。
【0073】
<動作手順>
図12は、本実施形態に係る情報処理装置10により実行される動画要約処理の一例を示すフローチャートである。
【0074】
ステップS102において、情報処理装置10の変換部12は、取得部11により取得された複数のフレームを含む動画を、複数のフレームより数が少ない複数のショットに変換する。
【0075】
ステップS104において、第1生成部13は、複数のショットを含む第1ショット群に対し、オリジナルの動画との関連性維持に関する第1処理を複数のショットに加えて第2ショット群を生成する。
【0076】
ステップS106において、第1生成部13は、第1ショット群に対し、第1処理よりもオリジナルの動画との関連性をなくす第2処理を複数のショットに加えて第3ショット群を生成する。ステップS104とS106との順序は不問であり、同時に処理されてよい。
【0077】
ステップS108において、算出部14は、第1ショット群をアンカー、第2ショット群を正例、第3ショット群を負例とし、第1ショット群、第2ショット群、及び第3ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデル14aによって、各ショットのスコアを算出する。
【0078】
ステップS110において、選択部15は、第1ショット群の各ショットのスコアと第2ショット群の各ショットのスコアとに基づく第1類似度と、第1ショット群の各ショットのスコアと第3ショット群の各ショットのスコアとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数を用いて最適化された学習モデル14aにより算出される第1ショット群の各ショットのスコアに基づいて、各ショットそれぞれを要約動画に含めるか否かを選択する。
【0079】
ステップS112において、第2生成部16は、選択されたショットに基づいて、要約動画を生成する。
【0080】
図13は、本実施形態に係る情報処理装置10により実行される学習処理の一例を示すフローチャートである。図13に示す学習処理は、図12に示すステップS108の学習処理の一例を示す。
【0081】
ステップS202において、算出部14は、例えば式(3)~(5)により、第1~第3の各ショット群に対し、学習モデル14aによって、各ショットを動画要約に含めるか否かに関するスコアを算出する。
【0082】
ステップS204において、算出部14は、例えば式(7)により、第1ショット群のスコアsと、第2ショット群のスコアsposとの第1類似度を算出する。
【0083】
ステップS206において、算出部14は、例えば式(8)により、第1ショット群のスコアsと第3ショット群のスコアsnegとの第2類似度を算出する。ステップS204とS206の順序は不問であり、同時に処理されてもよい。
【0084】
ステップS208において、算出部14は、例えば式(11)により、第1及び第2類似度を用いる第1関数(例えば式(10))と、他の第2関数(例えば式(6))とを含む損失関数の値を算出する。
【0085】
ステップS210において、算出部14は、損失関数の値が最小化されるように、所定の学習条件が満たされたか否かを判定する。所定の学習条件は、例えば、所定数のエポック数を超えることでもよい。学習条件が満たされれば(ステップS210-YES)、処理は終了し、学習条件が満たされていなければ(ステップS210-NO)、処理はステップS212に進む。
【0086】
ステップS212において、算出部14は、誤差逆伝搬法により学習モデル14aのハイパーパラメータを更新する。その後、処理はステップS202に戻り、更新されたハイパーパラメータを用いて学習が続行される。
【0087】
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。なお、本実施形態は、スポーツを撮影した動画の要約や、結婚式の様子を撮影した動画の要約など、様々な動画の要約生成に利用することが可能である。
【符号の説明】
【0088】
10…情報処理装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…取得部、12…変換部、13…第1生成部、14…算出部、14a…学習モデル、15…選択部、16…第2生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13