IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インハ インダストリー パートナーシップ インスティテュートの特許一覧

特開2023-129179効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置
<>
  • 特開-効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置 図1
  • 特開-効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置 図2
  • 特開-効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置 図3
  • 特開-効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置 図4
  • 特開-効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置 図5
  • 特開-効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置 図6
  • 特開-効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023129179
(43)【公開日】2023-09-14
(54)【発明の名称】効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置
(51)【国際特許分類】
   H04N 21/8549 20110101AFI20230907BHJP
   G06V 10/82 20220101ALI20230907BHJP
   G06N 3/08 20230101ALI20230907BHJP
   G06T 7/00 20170101ALI20230907BHJP
   G06N 3/045 20230101ALI20230907BHJP
【FI】
H04N21/8549
G06V10/82
G06N3/08
G06T7/00 350C
G06N3/04 154
【審査請求】有
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022072173
(22)【出願日】2022-04-26
(31)【優先権主張番号】10-2022-0026671
(32)【優先日】2022-03-02
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】505224569
【氏名又は名称】インハ インダストリー パートナーシップ インスティテュート
【氏名又は名称原語表記】Inha-Industry Partnership Institute
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】チョ・グンシク
(72)【発明者】
【氏名】ユン・ウィニョン
(72)【発明者】
【氏名】ホン・ミョンドク
【テーマコード(参考)】
5C164
5L096
【Fターム(参考)】
5C164FA29
5C164MC03P
5C164PA38
5C164SB02S
5C164SB41S
5C164YA21
5L096AA06
5L096CA01
5L096DA02
5L096FA32
5L096GA30
5L096HA11
5L096KA04
(57)【要約】
【課題】効率的なキーフレーム選択報酬関数を備えた教師なし動画要約方法および装置を提供する。
【解決手段】本開示のアテンション基盤の映像要約方法は、予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、方策勾配アルゴリズム基盤の学習モジュールによってアテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する段階、選択されたキーフレームの重要度点数を用いて映像要約ネットワークモジュールによってキーフレームを選択する確率を制御するための正規化および再構成損失を計算する段階、および、計算された正規化および再構成損失に基づいて映像要約生成モジュールによって映像要約を生成する段階を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
フレームレベル映像特徴抽出モジュールによって入力映像からフレームレベル視覚的特徴を抽出する段階、
アテンション基盤の映像要約ネットワークモジュールによってアテンション加重値を計算し、前記アテンション加重値を利用してキーフレームを選択するためのフレーム追跡確率として重要度点数を示す段階、
評価モジュールによって前記キーフレームを選択するためのキーフレーム同士の視覚的類似性距離と時間的距離による時間的一貫性報酬関数と代表性報酬関数を求め、時間的一貫性報酬関数と代表性報酬関数を利用してアテンション基盤の映像要約ネットワークが映像要約のキーフレームを選択するための重要度点数を予測するように学習する段階、
前記予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、方策勾配アルゴリズム基盤の学習モジュールによって前記アテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する段階、
前記選択されたキーフレームの重要度点数を用いて前記映像要約ネットワークモジュールによってキーフレームを選択する確率を制御するための正規化および再構成損失を計算する段階、および
前記計算された正規化および再構成損失に基づいて映像要約生成モジュールによって映像要約を生成する段階
を含む、アテンション基盤の映像要約方法。
【請求項2】
前記アテンション基盤の映像要約ネットワークモジュールによってアテンション加重値を計算し、前記アテンション加重値を利用してキーフレームを選択するためのフレーム追跡確率として重要度点数を示す段階は、
エンコーダネットワーク、デコーダネットワーク、および前記エンコーダネットワークとデコーダネットワークの間のアテンション層において、拡張RNNによってパラメータと計算を減少させて時間依存性を抽出し、
前記エンコーダネットワークは、キーフレーム同士のローカルおよびグローバルコンテキストと視覚的類似性をキャプチャし、
前記アテンション層では、エンコーダネットワークの出力と以前のデコーダネットワークの隠れ状態の両方を用いてアテンション加重値を計算し、
前記アテンション加重値は、ソフトマックス関数に基づいて各キーフレームの確率点数に正規化し、
前記アテンション加重値を用いてエンコーダネットワークの出力に掛けてコンテキストベクトルを求め、
前記デコーダネットワークの入力のためにコンテキストベクトルと初期化されたデコーダネットワークの以前の出力を連結して前記デコーダネットワークを学習し、前記デコーダネットワークおよび前記前記エンコーダネットワークの学習結果を利用して重要度点数を求める
請求項1に記載のアテンション基盤の映像要約方法。
【請求項3】
前記評価モジュールによってキーフレームを選択するためのキーフレーム同士の視覚的類似性距離と時間的距離による時間的一貫性報酬関数と代表性報酬関数を求め、時間的一貫性報酬関数と代表性報酬関数を利用してアテンション基盤の映像要約ネットワークが映像要約のキーフレームを選択するための重要度点数を予測するように学習する段階は、
前記代表性報酬関数を利用して抽出された特徴を用いて選択したキーフレームと映像のすべてのキーフレームの類似性を計算し、前記代表性報酬関数を利用して映像要約のキーフレームを選択するための重要度点数を予測するように学習し、
前記時間的一貫性報酬関数を利用して代表的なショットレベルキーフレームを選択するために、すべてのキーフレームに対して選択されたキーフレームのうちから最も近い隣りを見つけ出す過程を繰り返し学習する
請求項1に記載のアテンション基盤の映像要約方法。
【請求項4】
前記予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、方策勾配アルゴリズム基盤の学習モジュールによって前記アテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する段階は、
過小評価報酬(Under-appreciated Reward:UREX)方法を探索する探索戦略の目的関数を使用して、目標関数の近似値のためにソフトマックス関数を用いて各エピソードに対する報酬の正規化された重要度加重値集合を計算することによってパラメータ化された方策勾配学習を実行する
請求項1に記載のアテンション基盤の映像要約方法。
【請求項5】
入力映像からフレームレベル視覚的特徴を抽出するフレームレベル映像特徴抽出モジュール、
アテンション基盤の映像要約ネットワークによってアテンション加重値を計算し、前記アテンション加重値を利用してキーフレームを選択するためのフレーム追跡確率として重要度点数を示す映像要約ネットワークモジュール、
前記キーフレームを選択するためのキーフレーム同士の視覚的類似性距離と時間的距離による時間的一貫性報酬関数と代表性報酬関数を求め、時間的一貫性報酬関数と代表性報酬関数を利用してアテンション基盤の映像要約ネットワークが映像要約のキーフレームを選択するための重要度点数を予測するように学習する評価モジュール、
前記予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、前記アテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する方策勾配アルゴリズム基盤の学習モジュール(前記選択されたキーフレームの重要度点数を用いて前記映像要約ネットワークモジュールによってキーフレームを選択する確率を制御するための正規化および再構成損失を計算する)、および
前記計算された正規化および再構成損失に基づいて映像要約を生成する映像要約生成モジュール
を含む、アテンション基盤の映像要約装置。
【請求項6】
前記映像要約ネットワークモジュールは、
エンコーダネットワーク、デコーダネットワーク、および前記エンコーダネットワークとデコーダネットワークの間のアテンション層において、拡張RNNによってパラメータと計算を減少させて時間依存性を抽出し、
前記エンコーダネットワークは、キーフレーム同士のローカルおよびグローバルコンテキストと視覚的類似性をキャプチャし、
前記アテンション層では、エンコーダネットワークの出力と以前のデコーダネットワークの隠れ状態の両方を用いてアテンション加重値を計算し、
前記アテンション加重値は、ソフトマックス関数に基づいて各キーフレームの確率点数に正規化し、
前記アテンション加重値を用いてエンコーダネットワークの出力に掛けてコンテキストベクトルを求め、
前記デコーダネットワークの入力のためにコンテキストベクトルと初期化されたデコーダネットワークの以前の出力を連結して前記デコーダネットワークを学習し、前記デコーダネットワークおよび前記前記エンコーダネットワークの学習結果を利用して重要度点数を求める
請求項5に記載のアテンション基盤の映像要約装置。
【請求項7】
前記評価モジュールは、
前記代表性報酬関数を利用して抽出された特徴を用いて選択したキーフレームと映像のすべてのキーフレームの類似性を計算し、前記代表性報酬関数を利用して映像要約のキーフレームを選択するための重要度点数を予測するように学習し、
前記時間的一貫性報酬関数を利用して代表的なショットレベルキーフレームを選択するために、すべてのキーフレームに対して選択されたキーフレームのうちから最も近い隣りを見つけ出す過程を繰り返し学習する
請求項5に記載のアテンション基盤の映像要約装置。
【請求項8】
前記方策勾配アルゴリズム基盤の学習モジュールは、
過小評価報酬(Under-appreciated Reward:UREX)方法を探索する探索戦略の目的関数を使用し、目標関数の近似値のためにソフトマックス関数を用いて各エピソードに対する報酬の正規化された重要度加重値集合を計算することによってパラメータ化された方策勾配学習を実行する
請求項5に記載のアテンション基盤の映像要約装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置に関する。
【背景技術】
【0002】
YouTube(登録商標)のようなオンライン動画共有プラットフォームを利用して興味のある映像を検索するために時間を費やす人が多くなった。この時間を短縮するためにプレビューまたは要約映像を使用することで、全体映像コンテンツを効率的かつ迅速に把握することができる(非特許文献1)。ここ数年間にわたって映像要約が重要視されるようになっており、映像コンテンツを検索したり、長い映像から短い形式の要約映像を製作したりするための研究が積極的に行われている。しかし、映像要約では、映像のフレームレベルまたはショットレベルの重要度点数を予測するための困難な作業が問題となっている(非特許文献2)。映像要約は、明らかな視聴覚パターンや意味の規則がない、抽象的かつ主観的なマルチモード作業であるためである。映像のフレームが興味深いものであるか有益なものであれば、フレームの重要度点数が高くなければならない。また、このような高い点数のフレームが、映像要約を製作するために選択される。
【0003】
最近は多様な方法が提案されているが、このような方法はディープラーニング(非特許文献3、4、5)を利用することで高い性能を発揮する。ディープラーニング基盤の映像要約方法は、教師あり学習基盤の方法と教師なし学習基盤の方法とに分けられる。教師あり学習基盤の方法の場合は、ラベルが指定されたデータセットを生成するのが極めて難しい。さらに、多様なドメインや場面を包括した大規模なデータセットを生成することも極めて難しい。このような理由により、教師なし映像要約方法の開発に力が注がれてきた。
【0004】
強化学習(Reinforcement Learning:RL)基盤の映像要約方法が従来技術(非特許文献6)で提案され、優れた成果を示した。特に、RLを用いて深層ニューラルネットワークを学習させるために、報酬関数であるキーフレームを選択するための効率的かつ明示上な評価方法がある。さらに、深層ニューラルネットワークは、評価方法を利用して、代表性、多様性、統一性などの映像の多様な特徴を効率的に学習する。RLを使用しながら、部分線形補間法を使用する従来技術(非特許文献3)でInter-SUMを提案した。補間法を用いることとでネットワークの出力を減らし、高い分散問題を緩和して性能を改善した。しかし、多くの映像において、キーフレームが特定の場面からしか選択されなかったり、興味深いキーフレームが適切に選択されなかったりした。
【0005】
さらに、以前のRL基盤の映像要約方法にはいくつかの短所がある。一つ目に、深層ニューラルネットワークによっては視覚的および時間的コンテキストの捕捉が難しい。二つ目に、多くの方法は、キーフレームの時間的分布を考慮せず、キーフレーム同士の視覚的な差を計算してネットワークを学習させるために報酬関数または損失関数を使用する。したがって、一律的に映像を容易に理解できるようにキーフレームを選択して演出者のストーリーラインを生かすことのできる映像要約方法が求められている。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Ejaz,N.;Mehmood,I.;Baik,S.W.Efficient visual attention based framework for extracting key frames from videos.J.Image Commun.2013,28,34-44.
【非特許文献2】Gygli,M.;Grabner,H.;Riemenschneider,H.;Gool,L.V.Creating summaries from user videos.In Proceedings of the European Conference on Computer Vision(ECCV));Springer,2015,pp.505-520.
【非特許文献3】Yoon,U,N.;Hong,M.D.;Jo,G.S.Interp-SUM:Unsupervised Video Summarization with Piecewise Linear Interpolation.Sensors 2021.vol.21,no.13,4562.
【非特許文献4】Apostolidis,E.;Adamantidou,E.;Metsai,A.;Mezaris,V.;Patras,I.Unsupervised Video Summarization via Attention-Driven Adversarial Learning.In International Conference on Multimedia Modeling(MMM);Springer:Daejeon,Korea,5-8 January 2020,pp.492-504.
【非特許文献5】Jung,Y.J.;Cho,D.Y.;Kim,D.H.;Woo,S.H.;Kweon,I.S.Discriminative feature learning for unsupervised video summarization.AAAI Conference on Artificial Intelligence,Honolulu,Hawaii,USA,27 January-1 February 2019,pp.8537-8544。
【非特許文献6】Zhou,K.;Qiao,Y.;Xiang,T.Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward.AAAI Conf.Artif.Intell.2018,32,7582-7589.
【非特許文献7】Song,Y.;Vallmitjana,J.;Stent,A.;Jaimes,A.Tvsum:Summarizing web videos using titles.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Boston,MA,USA,7-12 June 2015,pp.5179-5187.
【非特許文献8】Feng,L.;Li,Z.;Kuang,Z.;Zhang,W.Extractive Video Summarizer with Memory Augmented Neural Networks.MM,Seoul,Republic of Korea,22-26 October 2018,pp.976-983.
【非特許文献9】Zhang,K.;Chao,W.L.;Sha,F.;Grauman,K.Video Summarization with Long Short-term Memory.In Proceedings of the European Conference on Computer Vision(ECCV);Springer:Amsterdam,Netherlands,2016;pp.766-782.
【非特許文献10】Zhang,Y.;Kampffmeyer,M.;Zhao,X.;Tan,M.DTR-GAN:Dilated Temporal Relational Adversarial Network for Video Summarization.In Proceedings of the ACM Turing Celebration Conference(ACM TURC),Shanghai,China,18 May 2018.
【非特許文献11】Ji.Z.;Xiong.K.;Pang.Y.;Li.X.Video Summarization with Attention-Based Encoder-Decoder Networks.IEEE Transactions on circuits and systems for video technology,June 2020,vol.30,no.6.pp.1709-1717.
【非特許文献12】Mahasseni,B.;Lam,M.;Todorovic,S.Unsupervised Video Summarization with Adversarial LSTM Networks.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Honolulu、Hawaii,USA,22-25 July 2017,pp.202-211.
【非特許文献13】Yuan,L.;Tay,F.E.;Li,P.;Zhou,L.;Feng,F.Cycle-SUM:Cycle-consistent Adversarial LSTM Networks for Unsupervised Video Summarization.In Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence,Honolulu,Hawaii,USA,27 Jan-1 Feb 2019,Volume 33,pp.9143-9150.
【非特許文献14】Kaufman,D.;Levi,G.;Hassner,T.;Wolf,L.Temporal Tessellation:A Unified Approach for Video Analysis.In Proceedings of the IEEE International Conference on Computer Vision(ICCV),2017,pp.94-104.
【非特許文献15】Rochan,M.;Ye,L.;Wang,Y.Video Summarization Using Fully Convolutional Sequence Networks.In Proceedings of the Eu-ropean Conference on Computer Vision(ECCV);Springer:Munich,Germany,2018,pp.347-363.
【非特許文献16】Silver,D.;Lever,G.;Heess,N.;Degris,T.;Wierstra,D.;Riedmiller,M.Deterministic Policy Gradient Algorithms.In Pro-ceedings of the 31st International Conference on International Conference on Machine Learning(ICML),Beijing,China,21-26 June 2014,pp.387-395.
【非特許文献17】Yu,Y.Towards Sample Efficient Reinforcement Learning.In Proceedings of the Twenty-Seventh International Joint Con-ference on Artificial Intelligence(IJCAI),Stockholm,Sweden,13-19 July2018,pp.5739-5743.
【非特許文献18】Lehnert,L.;Laroche,R.;Seijen,H.V.On Value Function Representation of Long Horizon Problems.In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence,New Orleans,Louisiana,USA,2-7 Feb 2018,pp.3457-3465.
【非特許文献19】Szegedy,C.;Liu,W.;Jia,Y.;Sermanet,P.;Reed,S.;Anguelov,D.;Erhan,D.;Vanhoucke,B.;Rabinovich,A.Going deeper with convolutions.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Boston,MA,USA,7-12 June 2015,pp.1-9.
【非特許文献20】Luong.T.;Pham.H.;Manning C.D.;Effective Approaches to Attention-based Neural Machine Translation.Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing(EMNLP),Lisbon,Portugal,17-21 September 2015,pp.1412-1421.
【非特許文献21】Nachum,O.;Norouzi,M.;Schuurmans,D.Improving Policy Gradient by Exploring Under-Appreciated Rewards.arXiv 2016,arXiv:1611.09321.
【非特許文献22】Potapov,D.;Douze,M.;Harchaoui,Z.;Schmid,C.;Category-specifc video summarization.European Conference on Computer Vision(ECCV),Zurich,Switzerland,Sep 2014,pp.540-555.
【非特許文献23】Rochan,M.;Wang,Y.Video Summarization by Learning from Unpaired Data.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR)2019,pp.7902-7911.
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明が達成しようとする技術的課題は、新たな時間的一貫性報酬関数および代表性報酬関数(TR-SUM)を備えた強化学習基盤の映像要約フレームワーク、および重要度点数を正確に予測するためのアテンション基盤の映像要約方法および装置を提案することにある。より詳細には、長い映像のコンテキストを効率的にキャプチャするために、アテンション基盤のエンコーダ-デコーダアーキテクチャをもつ映像要約ネットワークおよび関心のあるキーフレームを効率的かつ均一に選択するための時間的一貫性報酬関数および代表性報酬関数である新たな報酬関数を提案する。
【課題を解決するための手段】
【0008】
一側面において、本発明で提案する効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法は、フレームレベル映像特徴抽出モジュールによって入力映像からフレームレベル視覚的特徴を抽出する段階、アテンション基盤の映像要約ネットワークモジュールによってアテンション加重値を計算し、前記アテンション加重値を利用してキーフレームを選択するためのフレーム追跡確率として重要度点数を示す段階、評価モジュールによって前記キーフレームを選択するためのキーフレーム同士の視覚的類似性距離と時間的距離による時間的一貫性報酬関数と代表性報酬関数を求め、時間的一貫性報酬関数と代表性報酬関数を利用してアテンション基盤の映像要約ネットワークが映像要約のキーフレームを選択するための重要度点数を予測するように学習する段階、前記予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、方策勾配アルゴリズム基盤の学習モジュールによって前記アテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する段階、前記選択されたキーフレームの重要度点数を利用して前記映像要約ネットワークモジュールによってキーフレームを選択する確率を制御するための正規化および再構成損失を計算する段階、および前記計算された正規化および再構成損失に基づいて映像要約生成モジュールによって映像要約を生成する段階を含む。
【0009】
前記アテンション基盤の映像要約ネットワークモジュールによってアテンション加重値を計算し、前記アテンション加重値を利用してキーフレームを選択するためのフレーム追跡確率として重要度点数を示す段階は、エンコーダネットワーク、デコーダネットワーク、および前記エンコーダネットワークとデコーダネットワークの間のアテンション層において、拡張RNNによってパラメータと計算を減少させて時間依存性を抽出し、前記エンコーダネットワークは、キーフレーム同士のローカルおよびグローバルコンテキストと視覚的類似性をキャプチャし、前記アテンション層ではエンコーダネットワークの出力と以前のデコーダネットワークの隠れ状態の両方を用いてアテンション加重値を計算し、前記アテンション加重値は、ソフトマックス関数に基づいて各キーフレームの確率点数に正規化し、前記アテンション加重値を用いてエンコーダネットワークの出力に掛けてコンテキストベクトルを求め、前記デコーダネットワークの入力のためにコンテキストベクトルと初期化されたデコーダネットワークの以前の出力を連結して前記デコーダネットワークを学習し、前記デコーダネットワークおよび前記前記エンコーダネットワークの学習結果を利用して重要度点数を求める。
【0010】
前記評価モジュールによってキーフレームを選択するためのキーフレーム同士の視覚的類似性距離と時間的距離による時間的一貫性報酬関数と代表性報酬関数を求め、時間的一貫性報酬関数と代表性報酬関数を利用してアテンション基盤の映像要約ネットワークが映像要約のキーフレームを選択するための重要度点数を予測するように学習する段階は、前記代表性報酬関数を利用して抽出された特徴を用いて選択したキーフレームと映像のすべてのキーフレーム同士の類似性を計算し、前記代表性報酬関数に基づいて映像要約のキーフレームを選択するための重要度点数を予測するように学習し、前記時間的一貫性報酬関数を利用して代表的なショットレベルキーフレームを選択するために、すべてのキーフレームに対して選択されたキーフレームのうちから最も近い隣りを見つけ出す過程を繰り返し学習する。
【0011】
前記予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、方策勾配アルゴリズム基盤の学習モジュールによって前記アテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する段階は、過小評価報酬(Under-appreciated Reward:UREX)方法を探索する探索戦略の目的関数を使用し、目標関数の近似値のためにソフトマックス関数を用いて各エピソードに対する報酬の正規化された重要度加重値集合を計算することによってパラメータ化された方策勾配学習を実行する。
【0012】
また他の側面において、本発明で提案する効率的なキーフレーム選択報酬関数を備えた教師なし映像要約装置は、入力映像からフレームレベル視覚的特徴を抽出するフレームレベル映像特徴抽出モジュール、アテンション基盤の映像要約ネットワークによってアテンション加重値を計算し、前記アテンション加重値を利用してキーフレームを選択するためのフレーム追跡確率として重要度点数を示す映像要約ネットワークモジュール、前記キーフレームを選択するためのキーフレーム同士の視覚的類似性距離と時間的距離による時間的一貫性報酬関数と代表性報酬関数を求め、時間的一貫性報酬関数と代表性報酬関数を利用してアテンション基盤の映像要約ネットワークが映像要約のキーフレームを選択するための重要度点数を予測するように学習する評価モジュール、前記予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、前記アテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する方策勾配アルゴリズム基盤の学習モジュール(前記選択されたキーフレームの重要度点数を使用して、前記映像要約ネットワークモジュールによってキーフレームを選択する確率を制御するための正規化および再構成損失を計算する)、前記計算された正規化および再構成損失に基づいて映像要約を生成する映像要約生成モジュール映像要約生成モジュールを含む。
【発明の効果】
【0013】
本発明の実施形態によると、新たな時間的一貫性報酬関数および代表性報酬関数(TR-SUM)を備えた強化学習基盤の映像要約フレームワークおよび重要度点数を正確に予測するためのアテンション基盤の映像要約方法および装置を提案する。提案する教師なし映像要約方法は、アテンション基盤のエンコーダ-デコーダアーキテクチャをもつ映像要約ネットワークによって長い映像のコンテキストを効率的にキャプチャすることができ、時間的一貫性報酬関数および代表性報酬関数である新たな報酬関数を利用することで関心のあるキーフレームを効率的かつ均一に選択することができる。
【図面の簡単な説明】
【0014】
図1】本発明の一実施形態における、アテンション基盤の映像要約ネットワークの概念を説明するための図である。
図2】本発明の一実施形態における、時間一貫性報酬および代表性報酬関数を利用した強化学習基盤の映像要約フレームワークを示した図である。
図3】本発明の一実施形態における、効率的なキーフレーム選択報酬関数を備えた教師なし映像要約装置の構成を示した図である。
図4】本発明の一実施形態における、効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法を説明するためのフローチャートである。
図5】本発明の一実施形態における、アテンション加重値を計算するためのアテンション基盤の映像要約ネットワークの構成を示した図である。
図6】本発明の一実施形態における、代表性報酬関数を説明するための図である。
図7】本発明の一実施形態における、時間的一貫性報酬関数を説明するための図である。
【発明を実施するための形態】
【0015】
本発明は、効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法を提案する。効率的なキーフレームの選択のために、新たな時間的一貫性報酬および代表性報酬関数(TR-SUM)を備えた強化学習基盤の映像要約フレームワークを設計する。映像のキーフレームレベル重要度点数を予測するために、アテンション基盤のエンコーダ-デコーダアーキテクチャとして映像要約方法および装置を提案する。本発明の実施形態によると、重要度点数を使用して、関心のあるキーフレームを効率的かつ均一に選択するために役立つ報酬関数に基づいて報酬を計算する。以下、本発明の実施例について、添付の図面を参照しながら詳しく説明する。
【0016】
図1は、本発明の一実施形態における、アテンション基盤の映像要約ネットワークの概念を説明するための図である。
【0017】
本発明では、新たな時間的一貫性報酬および代表性報酬関数(TR-SUM(video summarization framework with the new temporal consistency reward and representativeness reward functions))を備えた強化学習基盤の映像要約フレームワークを提案し、図1に示すように、重要度点数を正確に予測するためのアテンション基盤の映像要約ネットワークを提案する。
【0018】
提案する教師なし映像要約方法は、アテンション基盤のエンコーダ-デコーダアーキテクチャをもつ映像要約ネットワークによって長い映像のコンテキストを効率的にキャプチャすることができ、時間的一貫性報酬関数および代表性報酬関数である新たな報酬関数を利用することで関心のあるキーフレームを効率的かつ均一に選択することができる。
【0019】
映像要約方法は、教師あり学習基盤の方法と教師なし学習基盤の方法とに分けられる。2つの方法すべて、多数の使用者が注釈をつけた映像のフレームレベルまたはショットレベルの重要度点数を含む映像要約データセットを使用する(非特許文献2)。教師あり学習基盤の方法は、重要度点数を予測するための入力として映像のフレームレベルまたはショットレベル特徴を用いてモデルを学習する。この方法は、データセットを使用して、予測された重要度点数と注釈がついた重要度点数の差によって費用を計算する。また、このような方法は、最適のモデルを探索するための費用を最小化する。
【0020】
非特許文献8では、メモリ増強映像要約方法が提案された。メモリネットワークは、全体映像から抽出した支援知識を効率的に提供する。現在は、ショットの重要度点数を予測するために、グローバルアテンションメカニズムを用いて元の映像に対する全体的な理解によって点数を調整する。非特許文献9では、学習の代表性と多様性のために、フレームをサンプリングする確率をエンコードする決定的点過程(Determinantal Point Process:DPP)のあるLSTM基盤のネットワークを提示した。非特許文献10では、映像フレーム同士の時間的コンテキストの表現を強化するために、生成器の拡張時間関係(Dilated Temporal Relational:DTR)装置を提示した。映像の最上の要約を予測するためのネットワークを学習させるために、敵対的学習方法を3-プレイヤ(three-player)損失関数とともに使用する。非特許文献11では、キーショット選択のための重要度点数を予測するために、アテンション基盤のエンコーダ-デコーダネットワークが提案された。このネットワークは、双方向LSTMネットワークがあるエンコーダとアテンションメカニズムがあるデコーダを用いて映像表現を学習する。
【0021】
しかし、教師あり学習基盤の方法は、多様なドメインの映像を含んでいるため、人間がラベリングした映像要約データセットを生成することが極めて難しいという問題を抱えている。この反面、教師なし学習基盤の方法は、人間がラベリングしたデータセットを必要としない。
【0022】
非特許文献4で、アテンションオートエンコーダ(Attention Autoencoder:AAE)ネットワークは、SUM-GANで提案された敵対的オートエンコーダ(Adversarial Autoencoder:AAE)の学習の効率性と性能を高めるためにSUM-GANでVAE(Variational Autoencoder)に替わる。ネットワークを学習させる間、映像を要約するための興味深いフレームに加重値を付与する。非特許文献5では、映像の要約を適切に予測するための映像のローカルおよびグローバルコンテキストを効率的に学習するために、VAEとGAN(Generative Adversarial Networks)アーキテクチャを基盤としたCSNet(Chunk and Stride Network)を提案した。非特許文献12では、敵対的オートエンコーダ(AAE)基盤の映像要約モデルが提案された。選択器LSTMは、映像の入力フレームレベル特徴からフレームを選択する。この後、VAEは、選択したフレームを用いて再構成された映像を生成する。全体ネットワークを学習させるために、判別器は、再構成された映像と原本入力映像とを区別する。モデル学習には4つの損失関数が使用される。非特許文献13ではSUM-GANの変形であるCycle-SUMを提案したが、要約映像で原本映像の情報を保存するために2つのVAE基盤の生成器と2つの判別器がある周期敵対的生成網を採択した。非特許文献14で提案された、テッセレーション接近方式を使用する映像要約方法は、視覚的に類似するクリップを探索し、グラフ基盤の方法であるViterbiアルゴリズムを使用して時間的一貫性を維持するクリップを選択する。非特許文献15では教師なし学習基盤のSUM-FCNを提案した。このような方法は、映像シーケンスを処理するために、空間畳み込みで変換された時間畳み込みをもつ新たなFCNアーキテクチャを提示する。この方法は、デコーダの出力点数を使用してフレームを選択し、要約映像でフレームの多様性を適用するためにリペリング(repelling)正規化器によって損失関数を計算する。
【0023】
深層強化学習は、深層ニューラルネットワークを強化学習方法と結合する(非特許文献16)。方策勾配(Policy Gradient)方法は、モデルがない強化学習方法のうちの1つである。方策勾配方法は、方策を深層ニューラルネットワークモデルにパラメータ化し、確率的勾配降下法(Stochastic Gradient Descent:SGD)のような勾配降下方法を用いて、方策によって定義された状態分布に対する報酬を極大化してモデルを最適化する。モデルを学習させるために、この方法は、目的関数として費用を計算して最小化する。しかし、方策勾配方法には、低いサンプル効率性問題(非特許文献17)と高い分散のようないくつかの問題を抱えている。特に、低いサンプル効率性の問題は、エージェントが人間ほど知能的でないため、環境(状態)において学習行動のための人間の経験のようなサンプルを人間よりも遥かに多く必要とするためである。他の問題は、推定された勾配の高分散である。この問題は、長い水平問題と高い次元の作用空間によって発生する(非特許文献18)。長い水平の問題は、目標を達成するための長い一連の決定に対する極めて遅延した報酬から始まる。提案する方法では、分散を減らすために基準とともに方策勾配を使用し、サンプル効率性の問題を緩和するためにエピソード数を増やす。
【0024】
図2は、本発明の一実施形態における、時間一貫性報酬および代表性報酬関数を利用した強化学習基盤の映像要約フレームワークを示した図である。
【0025】
本発明では、映像要約ネットワークが予測した重要度点数(Importance Score)を用いて映像要約の問題をフレーム選択の問題として公式化する。特に、拡張された(dilated)GRUエンコーダとアテンションメカニズム(attention mechanism)があるGRUデコーダネットワークを用いてネットワークを開発する。このネットワークは、映像表現を学習し、重要度点数をフレーム選択確率によって効率的に予測する。重要度点数は、図2に示すようにベルヌーイ分布(Bernouii Distribution)を用いることで、要約からキーフレームを選択するためのフレーム選択動作に変換される。
【0026】
図3は、本発明の一実施形態における、効率的なキーフレーム選択報酬関数を備えた教師なし映像要約装置の構成を示した図である。
【0027】
提案する効率的なキーフレーム選択報酬関数を備えた教師なし映像要約装置は、フレームレベル映像特徴抽出モジュール310、映像要約ネットワークモジュール320、評価モジュール330、方策勾配アルゴリズム基盤の学習モジュール340、および映像要約生成モジュール350を含む。
【0028】
本発明の実施形態に係るフレームレベル映像特徴抽出モジュール310は、入力映像からフレームレベル視覚的特徴を抽出し、アテンション基盤の映像要約ネットワークモジュール320によってアテンション加重値を計算し、前記アテンション加重値を利用してキーフレームを選択するためのフレーム追跡確率として重要度点数を示す。
【0029】
本発明の実施形態に係る映像要約ネットワークモジュール320は、エンコーダネットワーク、デコーダネットワーク、および前記エンコーダネットワークとデコーダネットワークの間のアテンション層において、拡張RNNによってパラメータと計算を減少させて時間依存性を抽出する。
【0030】
本発明の実施形態に係る映像要約ネットワークモジュール320は、前記エンコーダネットワークはキーフレーム同士のローカルおよびグローバルコンテキストと視覚的類似性をキャプチャし、前記アテンション層ではエンコーダネットワークの出力と以前のデコーダネットワークの隠れ状態の両方を用いてアテンション加重値を計算する。
【0031】
本発明の実施形態に係る映像要約ネットワークモジュール320は、前記アテンション加重値はソフトマックス関数によって各キーフレームの確率点数に正規化し、前記アテンション加重値を用いてエンコーダネットワークの出力に掛けてコンテキストベクトルを求める。
【0032】
本発明の実施形態に係る映像要約ネットワークモジュール320は、前記デコーダネットワークの入力のためにコンテキストベクトルと初期化されたデコーダネットワークの以前の出力を連結して前記デコーダネットワークを学習し、前記デコーダネットワークおよび前記前記エンコーダネットワークの学習結果を利用して重要度点数を求める。
【0033】
本発明の実施形態に係る評価モジュール330は、前記キーフレームを選択するためのキーフレーム同士の視覚的類似性距離と時間的距離による時間的一貫性報酬関数と代表性報酬関数を求め、時間的一貫性報酬関数と代表性報酬関数を利用してアテンション基盤の映像要約ネットワークが映像要約のキーフレームを選択するための重要度点数を予測するように学習する。
【0034】
本発明の実施形態に係る評価モジュール330は、前記代表性報酬関数を利用して抽出された特徴を用いて選択したキーフレームと映像のすべてのキーフレーム同士の類似性を計算し、前記代表性報酬関数によって映像要約のキーフレームを選択するための重要度点数を予測するように学習する。
【0035】
本発明の実施形態に係る評価モジュール330は、前記時間的一貫性報酬関数を利用して代表的なショットレベルキーフレームを選択するために、すべてのキーフレームに対して選択されたキーフレームのうちから最も近い隣りを見つけ出す過程を繰り返し学習する。
【0036】
本発明の実施形態に係る方策勾配アルゴリズム基盤の学習モジュール340は、前記予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、前記アテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する。
【0037】
本発明の実施形態に係る方策勾配アルゴリズム基盤の学習モジュール340は、過小評価報酬(Under-appreciated Reward:UREX)方法を探索する探索戦略の目的関数を使用し、目標関数の近似値のためにソフトマックス関数を用いて各エピソードに対する報酬の正規化された重要度加重値集合を計算することによってパラメータ化された方策勾配学習を実行する。
【0038】
本発明の実施形態に係る映像要約ネットワークモジュール320は、前記選択されたキーフレームの重要度点数を使用して、キーフレームを選択する確率を制御するための正規化および再構成損失を計算する。本発明の実施形態に係る映像要約生成モジュール350は、前記計算された正規化および再構成損失に基づいて映像要約を生成する。
【0039】
図4は、本発明の一実施形態における、効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法を説明するためのフローチャートである。
【0040】
提案する、効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法は、フレームレベル映像特徴抽出モジュールによって入力映像からフレームレベル視覚的特徴を抽出する段階410、アテンション基盤の映像要約ネットワークモジュールによってアテンション加重値を計算し、前記アテンション加重値を利用してキーフレームを選択するためのフレーム追跡確率として重要度点数を示す段階420、評価モジュールによって前記キーフレームを選択するためのキーフレーム同士の視覚的類似性距離と時間的距離による時間的一貫性報酬関数と代表性報酬関数を求め、時間的一貫性報酬関数と代表性報酬関数を利用してアテンション基盤の映像要約ネットワークが映像要約のキーフレームを選択するための重要度点数を予測するように学習する段階430、前記予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、方策勾配アルゴリズム基盤の学習モジュールによって前記アテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する段階440、前記選択されたキーフレームの重要度点数を用いて前記映像要約ネットワークモジュールによってキーフレームを選択する確率を制御するための正規化および再構成損失を計算する段階420、および前記計算された正規化および再構成損失に基づいて映像要約生成モジュールによって映像要約を生成する段階450を含む。
【0041】
段階410で、フレームレベル映像特徴抽出モジュールによって入力映像からフレームレベル視覚的特徴を抽出する。
【0042】
段階420で、アテンション基盤の映像要約ネットワークモジュールによってアテンション加重値を計算し、前記アテンション加重値を利用してキーフレームを選択するためのフレーム追跡確率として重要度点数を示す。
【0043】
本発明の実施形態によると、エンコーダネットワーク、デコーダネットワーク、および前記エンコーダネットワークとデコーダネットワークの間のアテンション層において、拡張RNNによってパラメータと計算を減少させて時間依存性を抽出する。
【0044】
前記エンコーダネットワークは、キーフレーム同士のローカルおよびグローバルコンテキストと視覚的類似性をキャプチャし、前記アテンション層ではエンコーダネットワークの出力と以前のデコーダネットワークの隠れ状態の両方を用いてアテンション加重値を計算する。
【0045】
前記アテンション加重値は、ソフトマックス関数に基づいて各キーフレームの確率点数に正規化し、前記アテンション加重値を用いてエンコーダネットワークの出力に掛けてコンテキストベクトルを求める。
【0046】
前記デコーダネットワークの入力のためにコンテキストベクトルと初期化されたデコーダネットワークの以前の出力を連結して前記デコーダネットワークを学習し、前記デコーダネットワークおよび前記前記エンコーダネットワークの学習結果を利用して重要度点数を求める。
【0047】
段階430で、評価モジュールによってキーフレームを選択するためのキーフレーム同士の視覚的類似性距離と時間的距離による時間的一貫性報酬関数と代表性報酬関数を求め、時間的一貫性報酬関数と代表性報酬関数を利用してアテンション基盤の映像要約ネットワークが映像要約のキーフレームを選択するための重要度点数を予測するように学習する。
【0048】
前記代表性報酬関数を利用して抽出された特徴を用いて選択したキーフレームと映像のすべてのキーフレームの類似性を計算し、前記代表性報酬関数によって映像要約のキーフレームを選択するための重要度点数を予測するように学習する。
【0049】
前記時間的一貫性報酬関数を利用して代表的なショットレベルキーフレームを選択するために、すべてのキーフレームに対して選択されたキーフレームのうちから最も近い隣りを見つけ出す過程を繰り返し学習する。
【0050】
段階440で、前記予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、方策勾配アルゴリズム基盤の学習モジュールによって前記アテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する。
【0051】
本発明の実施形態によると、過小評価報酬(Under-appreciated Reward:UREX)方法を探索する探索戦略の目的関数を使用し、目標関数の近似値のためにソフトマックス関数を用いて各エピソードに対する報酬の正規化された重要度加重値集合を計算することによってパラメータ化された方策勾配学習を実行する。
【0052】
再び段階420で、前記選択されたキーフレームの重要度点数を用いて映像要約ネットワークモジュールによってキーフレームを選択する確率を制御するための正規化および再構成損失を計算し、段階450で、前記計算された正規化および再構成損失に基づいて映像要約生成モジュールによって映像要約を生成する。
【0053】
図5~7を参照しながら、効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法についてさらに詳しく説明する。
【0054】
図5は、本発明の一実施形態における、アテンション加重値を計算するためのアテンション基盤の映像要約ネットワークの構成を示した図である。
【0055】
先ず、ImageNetデータセットによって学習された強力な深層畳み込みニューラルネットワークであるGoogleNet(非特許文献19)を使用して、入力映像からフレームレベル視覚的特徴
を抽出する。特徴の抽出は、フレームイメージの視覚的特性を低次元特徴ベクトルで捕捉するのに重要となる。また、抽出された特徴は、映像のフレーム同士の視覚的な差を効率的に計算するのに役立つ。
【0056】
本発明では、図5に示すように、キーフレームレベルの重要度点数を予測するためのアテンション基盤の映像要約ネットワークを提案する。アテンション基盤要約ネットワークは、エンコーダネットワーク510、デコーダネットワーク520、および2つのネットワークの間のアテンション層(Attention Layer)で構成される。このネットワークは、SUM-GANAAE方法に対して提案されたアテンションオートエンコーダ(非特許文献4)でLSTMネットワークを拡張繰り返しニューラルネットワーク(Dilated RNN)に替え、GRU(Gated Recurrent Unit)ネットワークをデコーダに替えることでアテンションオートエンコーダを改善する。拡張RNNは、より少ないパラメータと計算効率性の向上のために拡張スキップ連結とともに実現される。特に、ネットワークは、拡張された繰り返し層を積み、層全体にわたって拡張を幾何級数的に増加させることで複雑な時間依存性を抽出する。また、拡張RNNの層としてGRUセルを使用する。エンコーダネットワークは、キーフレーム同士のローカルおよびグローバルコンテキストと視覚的類似性をキャプチャする。アテンション層では、エンコーダネットワークの出力と以前のデコーダネットワークの隠れ状態の両方を用いてアテンション加重値を計算する。アテンション加重値を計算するために、非特許文献20で提案されたアテンションメカニズムを利用する。特に、数式(1)で説明するように、エンコーダネットワークEoutの出力とデコーダネットワークht-1の以前の隠れ状態でアテンション加重値を計算するためにコンテンツ基盤の点数関数を使用する。t=1であるときに、デコーダネットワークhの出力を0に設定する。Wは、学習可能なパラメータであるアテンション加重値マトリックスである。
【0057】
【数1】
・・・(1)
【0058】
次に、加重値は、ソフトマックス関数に基づいて各キーフレームの確率点数に正規化される。アテンション加重値を用いてエンコーダネットワークの出力に掛けてコンテキストベクトルCを求める。
【0059】
デコーダネットワークDinの入力のために、コンテキストベクトルと0に初期化されたデコーダネットワークの以前の出力を連結し、デコーダネットワークを学習させる。
【0060】
この後、出力Doutを取得し、エンコーダネットワークによって学習された豊富な情報を再使用するためにEoutと連結することで、長いシーケンスの映像に対する性能を高める。そして、線形関数とともに、次の段階t+1でデコーダネットワークに伝達するための特徴の大きさの次元を減らす。最後に、全結合層およびシグモイド関数を用いて出力の次元を減らし、重要度点数
で出力を生成する。すなわち、重要度点数は、映像の要約としてキーフレームを選択するためのフレーム追跡確率(0.to 1.)である。
【0061】
図6は、本発明の一実施形態における、代表性報酬関数を説明するための図である。
【0062】
本発明の実施形態に係る効率的な映像要約のために非特許文献6の多様性報酬関数を採択しながら、効率的なキーフレーム選択のための2つ新たな報酬を提案する。提案された報酬関数は、キーフレーム同士の視覚的類似性距離と時間的距離を考慮した時間的一貫性報酬関数と代表性報酬関数である。
【0063】
多様性報酬関数Rdiv数式(2)は、抽出された特徴とともにフレーム選択作業によって選択されたキーフレーム同士の差を計算する。この報酬関数に基づき、ネットワークは、要約のキーフレームから多様なフレームを選択するための重要度点数を予測するように学習される。このようなキーフレームで構成された要約は、映像の内容を容易に把握できるようにする。映像のストーリーラインを維持しながら演算の複雑性を減らすために、選択されたキーフレーム同士の差を計算するための時間距離を20に制限する。この制限がなければ、フラッシュバック場面や類似する場面が選択したキーフレームと遠く離れていても、多様なフレームを選択するときにこのような場面を無視することができる。
【0064】
選択されたキーフレームの指数を
とする。多様性報酬関数は次のとおりとなる。
【0065】
【数2】
・・・(2)
【0066】
代表性報酬関数Rrep数式(3)は、抽出された特徴を用いて選択したキーフレームと映像のすべてのキーフレームの類似性を計算する。この報酬関数に基づいて、ネットワークは、映像を示す要約のキーフレームを選択するための重要度点数を予測するように学習される。キーフレームで構成された要約は、映像の主題を容易に把握できるようにする。本発明では、映像の要約を適切に生成して性能を高めるために、数式(3)で示すD×stのように、代表性報酬関数として重要度点数Sを適用する新たな技法を提示する。ネットワークを学習させるためには、代表性報酬関数を増やし、報酬関数で距離D数式(4)を最小化しなければならない。
【0067】
【数3】
・・・(3)
【0068】
【数4】
・・・(4)
【0069】
図6を参照すると、Aは、選択されたキーフレームとすべてのキーフレームとの距離が長い例であり、Bは、選択されたキーフレームとすべてのキーフレームとの距離が短い例である。キーフレームの重要度点数Sが高ければ、要約としてキーフレームを選択することができる。この反面、キーフレームの重要度点数が低ければ、要約としてキーフレームが選択される確率は低くなる。AとBはすべてD×Sの平均値であり、図6に示すように

よりも高いため、提案された報酬関数を基準にBよりもAに対する報酬がより低い。
【0070】
重要度点数を使用するトリックの効果を説明する3つの事例がある。
【0071】
1.キーフレームの距離Dが短い場合、重要度点数が変更しても報酬関数が高い報酬を返還する。
【0072】
2.キーフレームの距離Dが長くてキーフレームの重要度点数Sが高ければ、報酬関数が低い報酬を返還する。また、低い報酬でネットワークを学習させた後、選択を阻むために、ネットワークはキーフレームの重要度が低い点数を予測する。
【0073】
3.キーフレームの距離Dが長くてキーフレームの重要度点数Sが低ければ、報酬関数が中間報酬を返還する。しかし、キーフレームのほとんどは重要度点数が低いため、要約に選定されないであろう。
【0074】
図7は、本発明の一実施形態における、時間的一貫性報酬関数を説明するための図である。
【0075】
代表的なショットレベルキーフレームを効率的かつ均一に選択するために、時間的一貫性報酬関数Rcon数式(6)が提案される。
【0076】
図7に示すように、先ずは

のような選択されたキーフレームと
の他のフレームとの類似性を計算した後、自身を除いて最も類似するフレーム
を選択する。
【0077】
時間的一貫性報酬について説明するために、図7のBに含まれたキーフレームのような代表的なキーフレームが周辺フレームの周りに類似する場面をもつと定義する。この反面、図7のAに含まれたキーフレームは、選択したキーフレームと一時的に距離が遠い類似の場面をもっている。演出者が意図したストーリーラインにより、Aに含まれたキーフレームと類似する場面は少し後に登場することもあるし、一回だけ示されることもある。しかし、Aに含まれたキーフレームの問題は、これらで生成された要約が映像コンテンツに対する使用者の理解を妨げるという点にある。したがって、要約からこのキーフレームを取り除く。このようなキーフレームを取り除くことによる他の長所は、一側だけで過度に選択される問題を防ぐことができるという点にある。すなわち、キーフレームを均一に選択することができるのである。本発明では、すべてのキーフレームの数
まで、すべてのキーフレーム
から選択したキーフレーム
のうちから最も近い隣りを見つけ出す過程を繰り返す。本発明では、

との距離を最小化することによって要約の時間的一貫性を学習することができる。距離を最小化するために、報酬関数を次のように計算する。
【0078】
【数5】
・・・(5)
【0079】
【数6】
・・・(6)
【0080】
このような報酬を正規化するために、距離を
で割ってログ確率を使用する。
【0081】
キーフレームを要約として選択するために、重要度点数Sをフレーム追跡動作
に変換するための離散確率分布であるベルヌーイ分布を使用する。フレームのフレーム選択動作が1であれば、このキーフレームを要約として選択する。ベルヌーイ分布は、フレーム選択動作の変形をランダムに生成するため、映像の多様な要約に対する探索を促進する。
【0082】
【数7】
・・・(7)
【0083】
また、生成された要約の品質を報酬の合計で評価する。この報酬により、アテンション基盤の映像要約ネットワークを、方策勾配方法を用いてパラメータ化された方策で学習する。方策勾配は、勾配降下アルゴリズムを用いてより効率的な要約を得るために行動戦略を探索するための強化学習方法のうちの1つである。行動戦略の不足を防ぐために、過小評価報酬(Under-appreciated Reward:UREX)方法を探索する探索戦略の目的関数を使用する(非特許文献21)。方策下で動作
のログ確率
が報酬
を過小評価する場合、該当の動作は探索戦略によってより探求されるであろう。
【0084】

の目的関数を計算するために、エピソード
に動作と報酬のログ確率を維持する。
は、RAML(Reward Augmented Maximum Likelihood)目的関数の合計である報酬
の期待値である。本発明では、RAML目標関数の近似値のために、ソフトマックス関数を用いて各エピソードjに対する報酬の正規化された重要度加重値集合を計算する。
【0085】
【数8】
・・・(8)
【0086】
本発明では、勾配推定値の分散を減らして計算効率性を高めるために、方策勾配に重要な技術である基準を用いる。基準は、今まで経験した報酬の移動平均で計算される。多様な映像の移動平均を用いて多様性を改善するために、以下のように各映像bに対する基準とすべての映像bに対する基準を合算して基準を計算する。最後に、ネットワークを学習させるための費用としてLrwdを極大化する。
【0087】
【数9】
・・・(9)
【0088】
【数10】
・・・(10)
【0089】
本発明では、重要度点数を用いてキーフレームを選択する確率を制御するために、非特許文献6で提案された正規化タームLregを使用する。重要度点数のほとんどが1か0に近ければ、誤ったキーフレームを要約して選択する確率が高まる。したがって、学習中に重要度点数を0.5に近くするときにLregを用いる。重要度点数が0.5に早く収斂されることを防ぐために、これに0.01を掛ける。
【0090】
【数11】
・・・(11)
【0091】
すべての損失関数を計算した後、映像要約Lsummaryに対する最終損失を計算して逆伝播を実行する。
【0092】
【数12】
・・・(12)
【0093】
アルゴリズム1は、方策勾配方法を用いた教師なし映像要約ネットワークの学習手順に関するものである。
【0094】

【0095】
本発明の実施形態によると、アテンション基盤の映像要約ネットワークをテストするために、ショット内のフレームレベルの重要度点数を平均化してショットレベルの重要度点数を計算する。他の方法の性能と比べるためには、映像のショットレベルの重要度点数が必要となる。ショットを感知するために、ショットの境界のような変更地点を感知するKTS(Kernel Temporal Segmentation)方法を使用する(非特許文献22)。要約を生成するために、映像の長さの上位15%に該当する主要ショットを点数で整列して選択する。この段階は、非特許文献6で説明した要約映像の重要性を最大化するための‘0-1 Knapsack問題と同じ概念である。
【0096】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0097】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置(virtual equipmetn)、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0098】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。前記媒体に記録されるプログラム命令は、実施形態のために特別に設計されて構成されたものであってもよいし、コンピュータソフトウェアの当業者に公知な使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を格納して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
【0099】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0100】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【符号の説明】
【0101】
310:フレームレベル映像特徴抽出モジュール
320:映像要約ネットワークモジュール
330:評価モジュール
340:方策勾配アルゴリズム基盤の学習モジュール
350:映像要約生成モジュール
図1
図2
図3
図4
図5
図6
図7
【手続補正書】
【提出日】2023-07-05
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
フレームレベル映像特徴抽出モジュールによって入力映像からフレームレベル視覚的特徴を抽出する段階、
アテンション基盤の映像要約ネットワークモジュールによってアテンション加重値を計算し、前記アテンション加重値を利用してキーフレームを選択するためのフレーム追跡確率として重要度点数を示す段階、
評価モジュールによって前記キーフレームを選択するためのキーフレーム同士の視覚的類似性距離と時間的距離による時間的一貫性報酬関数と代表性報酬関数を求め、時間的一貫性報酬関数と代表性報酬関数を利用してアテンション基盤の映像要約ネットワークが映像要約のキーフレームを選択するための重要度点数を予測するように学習する段階、
前記予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、方策勾配アルゴリズム基盤の学習モジュールによって前記アテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する段階、
前記選択されたキーフレームの重要度点数を用いて前記映像要約ネットワークモジュールによってキーフレームを選択する確率を制御するための正規化および再構成損失を計算する段階、および
前記計算された正規化および再構成損失に基づいて映像要約生成モジュールによって映像要約を生成する段階
を含む、アテンション基盤の映像要約方法。
【請求項2】
前記アテンション基盤の映像要約ネットワークモジュールによってアテンション加重値を計算し、前記アテンション加重値を利用してキーフレームを選択するためのフレーム追跡確率として重要度点数を示す段階は、
エンコーダネットワーク、デコーダネットワーク、および前記エンコーダネットワークとデコーダネットワークの間のアテンション層において、拡張RNNによってパラメータと計算を減少させて時間依存性を抽出し、
前記エンコーダネットワークは、キーフレーム同士のローカルおよびグローバルコンテキストと視覚的類似性をキャプチャし、
前記アテンション層では、エンコーダネットワークの出力と以前のデコーダネットワークの隠れ状態の両方を用いてアテンション加重値を計算し、
前記アテンション加重値は、ソフトマックス関数に基づいて各キーフレームの確率点数に正規化し、
前記アテンション加重値を用いてエンコーダネットワークの出力に掛けてコンテキストベクトルを求め、
前記デコーダネットワークの入力のためにコンテキストベクトルと初期化されたデコーダネットワークの以前の出力を連結して前記デコーダネットワークを学習し、前記デコーダネットワークおよび前記エンコーダネットワークの学習結果を利用して重要度点数を求める
請求項1に記載のアテンション基盤の映像要約方法。
【請求項3】
前記評価モジュールによってキーフレームを選択するためのキーフレーム同士の視覚的類似性距離と時間的距離による時間的一貫性報酬関数と代表性報酬関数を求め、時間的一貫性報酬関数と代表性報酬関数を利用してアテンション基盤の映像要約ネットワークが映像要約のキーフレームを選択するための重要度点数を予測するように学習する段階は、
前記代表性報酬関数を利用して抽出された特徴を用いて選択したキーフレームと映像のすべてのキーフレームの類似性を計算し、前記代表性報酬関数を利用して映像要約のキーフレームを選択するための重要度点数を予測するように学習し、
前記時間的一貫性報酬関数を利用して代表的なショットレベルキーフレームを選択する
ために、すべてのキーフレームに対して選択されたキーフレームのうちから最も近い隣りを見つけ出す過程を繰り返し学習する
請求項1に記載のアテンション基盤の映像要約方法。
【請求項4】
前記予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、方策勾配アルゴリズム基盤の学習モジュールによって前記アテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する段階は、
過小評価報酬(Under-appreciated Reward:UREX)方法を探索する探索戦略の目的関数を使用して、目標関数の近似値のためにソフトマックス関数を用いて各エピソードに対する報酬の正規化された重要度加重値集合を計算することによってパラメータ化された方策勾配学習を実行する
請求項1に記載のアテンション基盤の映像要約方法。
【請求項5】
入力映像からフレームレベル視覚的特徴を抽出するフレームレベル映像特徴抽出モジュール、
アテンション基盤の映像要約ネットワークによってアテンション加重値を計算し、前記アテンション加重値を利用してキーフレームを選択するためのフレーム追跡確率として重要度点数を示す映像要約ネットワークモジュール、
前記キーフレームを選択するためのキーフレーム同士の視覚的類似性距離と時間的距離による時間的一貫性報酬関数と代表性報酬関数を求め、時間的一貫性報酬関数と代表性報酬関数を利用してアテンション基盤の映像要約ネットワークが映像要約のキーフレームを選択するための重要度点数を予測するように学習する評価モジュール、
前記予測された重要度点数によって該当のキーフレームを選択して映像要約を生成し、生成された映像要約の品質を評価し、前記アテンション基盤の映像要約ネットワークに対する方策勾配(Policy Gradient)学習を実行する方策勾配アルゴリズム基盤の学習モジュール(前記選択されたキーフレームの重要度点数を用いて前記映像要約ネットワークモジュールによってキーフレームを選択する確率を制御するための正規化および再構成損失を計算する)、および
前記計算された正規化および再構成損失に基づいて映像要約を生成する映像要約生成モジュール
を含む、アテンション基盤の映像要約装置。
【請求項6】
前記映像要約ネットワークモジュールは、
エンコーダネットワーク、デコーダネットワーク、および前記エンコーダネットワークとデコーダネットワークの間のアテンション層において、拡張RNNによってパラメータと計算を減少させて時間依存性を抽出し、
前記エンコーダネットワークは、キーフレーム同士のローカルおよびグローバルコンテキストと視覚的類似性をキャプチャし、
前記アテンション層では、エンコーダネットワークの出力と以前のデコーダネットワークの隠れ状態の両方を用いてアテンション加重値を計算し、
前記アテンション加重値は、ソフトマックス関数に基づいて各キーフレームの確率点数に正規化し、
前記アテンション加重値を用いてエンコーダネットワークの出力に掛けてコンテキストベクトルを求め、
前記デコーダネットワークの入力のためにコンテキストベクトルと初期化されたデコーダネットワークの以前の出力を連結して前記デコーダネットワークを学習し、前記デコーダネットワークおよび前記エンコーダネットワークの学習結果を利用して重要度点数を求める
請求項5に記載のアテンション基盤の映像要約装置。
【請求項7】
前記評価モジュールは、
前記代表性報酬関数を利用して抽出された特徴を用いて選択したキーフレームと映像のすべてのキーフレームの類似性を計算し、前記代表性報酬関数を利用して映像要約のキーフレームを選択するための重要度点数を予測するように学習し、
前記時間的一貫性報酬関数を利用して代表的なショットレベルキーフレームを選択するために、すべてのキーフレームに対して選択されたキーフレームのうちから最も近い隣りを見つけ出す過程を繰り返し学習する
請求項5に記載のアテンション基盤の映像要約装置。
【請求項8】
前記方策勾配アルゴリズム基盤の学習モジュールは、
過小評価報酬(Under-appreciated Reward:UREX)方法を探索する探索戦略の目的関数を使用し、目標関数の近似値のためにソフトマックス関数を用いて各エピソードに対する報酬の正規化された重要度加重値集合を計算することによってパラメータ化された方策勾配学習を実行する
請求項5に記載のアテンション基盤の映像要約装置。