(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-14
(45)【発行日】2022-10-24
(54)【発明の名称】動画像分類装置及び動画像分類方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20221017BHJP
G06T 7/269 20170101ALI20221017BHJP
G06F 16/75 20190101ALI20221017BHJP
【FI】
G06T7/00 350C
G06T7/269
G06F16/75
【外国語出願】
(21)【出願番号】P 2020210439
(22)【出願日】2020-12-18
【審査請求日】2021-02-10
(31)【優先権主張番号】10-2019-0171078
(32)【優先日】2019-12-19
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(73)【特許権者】
【識別番号】321003371
【氏名又は名称】LINE株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ウィ,ドンユン
(72)【発明者】
【氏名】オ,クァンジン
(72)【発明者】
【氏名】ペ,スンミン
(72)【発明者】
【氏名】キム,ユジン
【審査官】笠田 和宏
(56)【参考文献】
【文献】特開2010-139783(JP,A)
【文献】特開2008-278347(JP,A)
【文献】特開2010-226251(JP,A)
【文献】特開2016-201617(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 7/269
G06F 16/75
(57)【特許請求の範囲】
【請求項1】
スライドショータイプ動画像を区別する動画像分類方法であって、
入力された対象動画像から複数のフレームを抽出する段階と、
前記フレーム間の光流れを示す移動ベクトルを抽出する段階
であり、時間によって前記移動ベクトルが変化する3次元入力を生成する、段階と、
あらかじめ学習された分類モデルに前記移動ベクトルに関する情報を入力して、前記対象動画像が前記スライドショータイプ動画像に該当するか否かを判別する段階と、
を含む、動画像分類方法。
【請求項2】
前記スライドショータイプ動画像は、
1枚以上のスライドイメージが表示される動画像であり、かつ、
前記動画像内で前記スライドイメージが移動するか、または、前記スライドイメージに対する特殊効果が表示される、
ことを特徴とする、請求項1に記載の動画像分類方法。
【請求項3】
前記特殊効果は、
前記スライドイメージに対するフェードイン、フェードアウト、ズームイン、ズームアウト、及びステッカー付着のうち少なくとも一つを含む、
ことを特徴とする、請求項2に記載の動画像分類方法。
【請求項4】
前記フレームを抽出する段階は、
前記対象動画像の中から、特定の再生区間を基準時間間隔でサンプリングして、目標枚数のフレームを抽出する、
ことを特徴とする、請求項1乃至3のいずれか一項に記載の動画像分類方法。
【請求項5】
前記移動ベクトルを抽出する段階は、
前記複数のフレームの中から連続する2つのフレームを順次に選択する段階と、
前記選択した2つのフレームに対応する時点別に、前記2つのフレーム内に含まれた客体の移動量及び移動方向を示す複数の移動ベクトルを抽出する段階と、を含む、
ことを特徴とする、請求項1乃至4のいずれか一項に記載の動画像分類方法。
【請求項6】
前記移動ベクトルを抽出する段階は、さらに、
一つの時点に生成した複数の移動ベクトルをそれぞれにx軸成分及びy軸成分に分離し、前記x軸成分の標準偏差及び前記y軸成分の標準偏差を演算して、前記時点におけるx軸標準偏差及びy軸標準偏差に設定する段階、を含む、
ことを特徴とする、請求項5に記載の動画像分類方法。
【請求項7】
前記判別する段階は、
それぞれの時点別x軸標準偏差及びy軸標準偏差を前記分類モデルに入力し、前記分類モデルは、それぞれの時点別x軸標準偏差及びy軸標準偏差と、連続する時点間のx軸標準偏差及びy軸標準偏差の変化量とを用いて、前記対象動画像が、前記スライドショータイプ動画像に該当するか否かを判別する、
ことを特徴とする、請求項6に記載の動画像分類方法。
【請求項8】
前記分類モデルは、
教師あり学習法によってあらかじめラベリングされた複数の動画像を、DT、RF、SVM、及びDNNのうち少なくとも一つの機械学習手法によって学習して、形成された、
ことを特徴とする、請求項1乃至7のいずれか一項に記載の動画像分類方法。
【請求項9】
前記
3次元入力を生成することは、
それぞれの時点別移動ベクトルを集めて、時間によって前記移動ベクトルが変化する
前記3次元入力を生成する
、
ことを特徴とする、請求項5乃至8のいずれか一項に記載の動画像分類方法。
【請求項10】
前記判別する段階は、
前記3次元入力を前記分類モデルに入力し、前記分類モデルは、時間による前記移動ベクトルの変化を学習された変化パターンと比較して、前記対象動画像が前記スライドショータイプ動画像に該当するか否かを判別する、
ことを特徴とする、請求項9に記載の動画像分類方法。
【請求項11】
前記分類モデルは、
教師あり学習法によってあらかじめラベリングされた複数の動画像を、3D-ResNet、SlowFast、R(2+1)Dのうち少なくとも一つの3次元入力を処理する機械学習手法によって学習して、形成された、
ことを特徴とする、請求項10に記載の動画像分類方法。
【請求項12】
媒体に記憶されたコンピュータプログラムであって、実行されると、
コンピュータハードウェアに、請求項1乃至11のいずれか一項に記載の動画像分類方法を実行させる、
コンピュータプログラム。
【請求項13】
スライドショータイプ動画像を区別する動画像分類装置であって、
入力された対象動画像から複数のフレームを抽出するフレーム抽出部と、
前記フレーム間の光流れを示す移動ベクトルを抽出する移動ベクトル抽出部
であり、時間によって前記移動ベクトルが変化する3次元入力を生成する、移動ベクトル抽出部と、
あらかじめ学習された分類モデルに前記移動ベクトルに関する情報を入力して、前記対象動画像が前記スライドショータイプ動画像に該当するか否かを判別する判別部と、
を含む、動画像分類装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画像分類装置及び動画像分類方法に関し、特には、スライドショータイプ動画像を一般動画像から区別できる動画像分類装置及び動画像分類方法に関する。
【背景技術】
【0002】
近年、動画像コンテンツに対するユーザの需要が増加するのに伴って、スライドショー(slide show)タイプ動画像が急増している。スライドショータイプ動画像は、1枚以上のスライドイメージが表示される動画像であり、製作が簡易なことから、最近になって広告や広報用に主に用いられている。
【0003】
スライドショータイプ動画像は、1枚のスライドイメージが表示された状態で音響やナレーションなどが追加される形態で具現可能であり、複数のスライドイメージが順次に表示されるようにすることも可能である。
【0004】
一方、ユーザは、自分の所望する情報を検索するためにインターネット検索サービスを用いることができ、このとき、検索される様々な動画像の中にはスライドショータイプ動画像が多数含まれることがある。ただし、スライドショータイプ動画像は、広告や広報性の内容であるか、クオリティの低いコンテンツを含む場合が殆どであるため、ユーザはスライドショータイプ動画像を好まない傾向がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、スライドショータイプ動画像を一般動画像から区別できる動画像分類装置及び動画像分類方法を提供する。
【0006】
本出願は、動画像内に含まれたフレーム間の光流れ(optical flow)を用いて、スライドショータイプ動画像を区別できる動画像分類装置及び動画像分類方法を提供する。
【課題を解決するための手段】
【0007】
本発明の一実施例による動画像分類方法は、スライドショー(slide show)タイプ動画像を区別する動画像分類方法に関し、入力された対象動画像から複数のフレームを抽出する段階、前記フレーム間の光流れ(optical flow)を示す移動ベクトルを抽出する段階、及び、あらかじめ学習された分類モデルに前記移動ベクトルに関する情報を入力して、前記対象動画像が前記スライドショータイプ動画像に該当するか否かを判別する段階、を含み得る。
【0008】
本発明の一実施例による動画像分類装置は、スライドショー(slide show)タイプ動画像を区別するものであって、入力された対象動画像から複数のフレームを抽出するフレーム抽出部前記フレーム間の光流れ(optical flow)を示す移動ベクトルを抽出する移動ベクトル抽出部、及び、あらかじめ学習された分類モデルに前記移動ベクトルに関する情報を入力して、前記対象動画像が前記スライドショータイプ動画像に該当するか否かを判別する判別部、を含み得る。
【0009】
なお、上述の課題を解決するための手段は、本発明の特徴を全て挙げたものではない。本発明の様々な特徴と、それによる利点及び効果とは、下記の具体的な実施形態を参照して、より詳細に理解されよう。
【発明の効果】
【0010】
本発明の一実施例による動画像分類装置及び動画像分類方法によれば、スライドショータイプ動画像を一般動画像から区別できるので、インターネット検索サービス提供時に、スライドショータイプ動画像を除いてユーザに提供することが可能である。したがって、インターネット検索サービス提供時に、ユーザ便宜性を高め、検索の正確性を高めることができる。
【0011】
本発明の一実施例による動画像分類装置及び動画像分類方法によれば、動画像内の光流れを機械学習を用いて分類するので、より正確で迅速な動画像分類が可能である。
【0012】
ただし、本発明の実施例に係る動画像分類装置及び動画像分類方法が達成できる効果は以上で言及したものに限定されず、言及していない別の効果が、以下の記載から、本発明の属する技術の分野における通常の知識を有する者によって明確に理解されるであろう。
【図面の簡単な説明】
【0013】
【
図1】本発明の一実施例による動画像分類装置を示すブロック図である。
【
図2】本発明の一実施例によるスライドショータイプ動画像を示す概略図である。
【
図3】本発明の一実施例によるスライドショータイプ動画像を示す概略図である。
【
図4】本発明の一実施例によるスライドショータイプ動画像を示す概略図である。
【
図5】本発明の一実施例によるスライドショータイプ動画像と一般動画像の光流れを示す概略図である。
【
図6】本発明の一実施例による分類モデルの学習のための学習動画像のラベリングを示す概略図である。
【
図7】本発明の一実施例による動画像分類装置の動作を示すブロック図である。
【
図8】本発明の一実施例による動画像分類装置の動作を示すブロック図である。
【
図9】本発明の一実施例によるスライドショータイプ動画像と一般動画像の光流れ変化パターンを示すグラフである。
【
図10】本発明の一実施例による動画像分類方法を示すフローチャートである。
【
図11】本発明の一実施例による動画像分類方法を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、添付の図面を参照して、本明細書に開示される実施例を詳細に説明する。ただし、図面符号に関係なく、同一又は類似の構成要素には同一の参照番号を付し、その繰り返しの説明は省略するものとする。以下の説明で使われる構成要素に対する接尾語「モジュール」及び「部」は、明細書作成の容易さだけを考慮して付与又は代替使用されるものであり、それ自体で互いに区別される意味又は役割を有するものではない。すなわち、本発明で使われる「部」という用語は、ソフトウェア、FPGA、又はASICのようなハードウェア構成要素を意味し、「部」は、ある役割を担う。しかし、「部」は、ソフトウェア又はハードウェアに限定される意味ではない。「部」はアドレス可能な記憶媒体に含まれるように構成されてもよく、一つ又はそれ以上のプロセッサを再生させるように構成されてもよい。したがって、一例として、「部」は、ソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素、及びタスク構成要素のような構成要素、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、及び変数を含む。構成要素と「部」から提供される機能は、より小さい数の構成要素及び「部」に結合されてもよく、追加の構成要素と「部」にさらに分離されてもよい。
【0015】
また、本明細書に開示される実施例を説明するとき、関連した公知技術についての具体的な説明が、本明細書に開示される実施例の要旨を曖昧にさせ得ると判断される場合には、その詳細な説明を省略する。また、添付の図面は、本明細書に開示される実施例を容易に理解させるためのものに過ぎず、添付の図面によって本明細書に開示される技術的思想は限定されるものではなく、本発明の思想及び技術範囲に含まれる全ての変更、均等物、又は代替物を含むものとして理解されるべきである。
【0016】
近年、動画像コンテンツに対するユーザの需要が増加するのに伴って、スライドショー(slide show)タイプ動画像が急増している。スライドショータイプ動画像は、1枚以上のスライドイメージが表示される動画像であり、製作が簡易なことから、最近になって、広告や広報用に主に用いられている。
【0017】
スライドショータイプ動画像は、1枚のスライドイメージが表示された状態で音響やナレーションなどが追加される形態で具現可能であり、
図2に示すように、複数のスライドイメージが、順次に表示されるようにすることも可能である。
【0018】
また、
図3に示すように、スライドイメージが動画像内で一定の方向に移動したり、
図4に示すように、スライドイメージをズームイン(zoom-in)するなど、スライドイメージに対する特殊効果を追加した場合にも、スライドショータイプ動画像と見なすことができる。
【0019】
ここで、スライドイメージに追加される特殊効果は、ズームインの他にも、フェードイン(fade-in)、フェードアウト(fade-out)、ズームアウト(zoom-out)、スライドイメージへのステッカー付着などの様々なものが挙げられる。
【0020】
一方、ユーザは自身の所望する情報を探すために、インターネット検索サービスを用いることができ、このとき、検索される様々な動画像の中にはスライドショータイプ動画像が多数含まれることがある。ただし、スライドショータイプ動画像は広告や広報性の内容であるか、クオリティの低いコンテンツを含む場合が殆どであるため、ユーザはスライドショータイプ動画像を好まない傾向がある。
【0021】
したがって、ユーザの便宜のためには、インターネット検索サービス提供時に、スライドショータイプ動画像などを除外したり、或いは、検索結果提供時に、後順位で提供する必要がある。すなわち、スライドショータイプ動画像に対して別の注釈(annotation)などを付加し、一般動画像とスライドショータイプ動画像とを区別して処理するようにする方案を考慮することができる。
【0022】
ここで、本発明の一実施例による動画像分類装置によれば、スライドショータイプ動画像を一般動画像から区別できるので、後で、区別されたそれぞれのスライドショータイプ動画像に対する注釈を付加することが可能である。以下、本発明の一実施例による動画像分類装置を説明する。
【0023】
図1は、本発明の一実施例による動画像分類装置を示すブロック図である。
【0024】
図1を参照すると、本発明の一実施例による動画像分類装置100は、フレーム抽出部110、移動ベクトル抽出部120、及び判別部130を含み得る。
【0025】
フレーム抽出部110は、入力された対象動画像Vから複数のフレームを抽出することができる。フレーム抽出部110は、対象動画像Vの中から、特定の再生区間を基準時間間隔でサンプリングして、目標個数のフレームを抽出することができる。
【0026】
例えば、特定の再生区間を対象動画像Vの再生時点から15秒までに設定し、基準時間間隔は0.3secに設定できる。この場合、50枚のフレームが抽出されるので、目標枚数は50枚に該当する。すなわち、対象動画像Vの初期50枚のフレームを確認し、対象動画像Vがスライドタイプ動画像V1に該当するか否かを判別できる。ただし、特定の再生区間の長さや基準時間間隔などは、実施例によって様々に変更可能であり、特定の再生区間を対象動画像Vの開始時点以外の任意の時点に設定することも可能である。
【0027】
一方、実施例によっては、対象動画像Vの全再生区間の長さが特定の再生区間の長さよりも短い場合があり得る。例えば、特定の再生区間の長さが15秒であるときに、対象動画像Vの全再生区間の長さが15秒未満である場合は、0.3secの基準時間間隔でサンプリングすれば、目標枚数のフレームが抽出できなくなる。この場合、フレーム抽出部110は、対象動画像Vの全再生区間を基準時間間隔でサンプリングし、可能な最大枚数のフレームだけを抽出するようにしてもよい。
【0028】
移動ベクトル抽出部120は、フレーム間の光流れ(optical flow)を示す移動ベクトルを抽出することができる。ここで、移動ベクトル抽出部120は、移動ベクトルの抽出のためにLucas-Kanade法を用いることができ、この他にも、光流れを抽出するための様々な手法を用いることができる。
【0029】
具体的に、
図5に示すように、フレームに含まれた客体の動きに対応する移動量と移動方向を示す移動ベクトルAを表示することができる。ここで、移動ベクトルはそれぞれの時点別(t-1)、(t)、(t+1)に抽出することができる。
【0030】
図5(a)に示すように、スライドショータイプ動画像V1の場合、同じ時点内における移動ベクトルAは、一定の大きさと方向性を有することが確認できる。すなわち、(t)時点における移動ベクトルAを確認すれば、それぞれ同じ方向性を有し、大きさの偏差も大きくないことが確認できる。これは、(t-1)時点と(t+1)時点においても同様である。また、(t-1)時点から(t+1)時点への変化にしたがって、移動ベクトルAが一定の方向に大きさが次第に増加する一定のパターンを有することも確認できる。
【0031】
これに対し、
図5(b)の一般動画像V2の場合には、同じ時点内における移動ベクトルAがそれぞれ異なる大きさと方向性を有し、(t-1)時点から(t+1)時点への変化にもかかわらず、移動ベクトルAの変化には特別なパターンが存在しないことが確認できる。
【0032】
したがって、移動ベクトル抽出部120から抽出した移動ベクトルを用いて、入力された対象動画像Vがスライドショータイプ動画像V1であるか、或いは一般動画像V2であるか区別することが可能である。
【0033】
具体的に、移動ベクトル抽出部120は、複数のフレームの中から、連続する2つのフレームを順次に選択でき、選択した2つのフレームに対応する時点別に、2つのフレーム内に含まれる客体の移動量及び移動方向を示す複数の移動ベクトルを抽出できる。すなわち、
図7に示すように、移動ベクトル抽出部120は、(t-1)時点と(t)時点のフレームを選択した後で、これにより(t-1)時点に該当する移動ベクトルを抽出でき、次に、(t)時点と(t+1)時点のフレームを選択した後で、これにより(t)時点に対する移動ベクトルを抽出できる。その後、同じ方式で目標枚数のフレームに対してそれぞれ対応する時点別移動ベクトルを抽出することができる。
【0034】
実施例によっては、
図7に示すように、移動ベクトル抽出部120がそれぞれの移動ベクトルをx軸成分及びy軸成分に分離し、x軸成分の標準偏差及びy軸成分の標準偏差を演算することができる。例えば、(t-1)時点に生成した複数の移動ベクトルを、x軸成分及びy軸成分にそれぞれ分離し、x軸成分の標準偏差及びy軸成分の標準偏差をそれぞれ演算することができる。ここで、演算した結果値が、(t-1)時点におけるx軸標準偏差(x-std(t-1))及びy軸標準偏差(y-std(t-1))に該当する。
【0035】
その後、同じ方式で、各時点別x軸成分の標準偏差及びy軸成分の標準偏差を演算し、それぞれの時点におけるx軸標準偏差及びy軸標準偏差に設定することができる。ここで、生成されたそれぞれの時点別x軸標準偏差及びy軸標準偏差は、後で、1次元入力として判別部130に提供することができる。
【0036】
一方、対象動画像Vの全再生区間の長さが特定の再生区間の長さよりも短い場合には、可能な最大枚数のフレームだけを抽出したので、1次元入力の個数が不足することがある。例えば、可能な最大枚数のフレームの数が20枚であり、目標枚数が30枚である場合、目標枚数による1次元入力は、[x-std(i=1~29),y-std(i=1~29)]であるから、1次元入力はdim(1,58)、すなわち、総計58個のディメンションが入力される必要がある。しかし、実際には20枚のフレームしか生成されていないため、それに対応する1次元入力には[x-std(i=1~19),y-std(i=1~19)]が含まれ得る。すなわち、1次元入力のディメンション(dimenstion)はdim(1,38)に該当するので、ディメンションの差を埋めるために、移動ベクトル抽出部120は、dim(1,38)以降のディメンションに対してパディングを行うことができる。この場合、移動ベクトル抽出部120は、0を入力したり、任意のランダム値を入力するなど、様々な方式でパディングを行うことができる。
【0037】
判別部130は、あらかじめ学習された分類モデルCに移動ベクトルの情報を入力し、対象動画像Vがスライドショータイプ動画像V1に該当するか否かを判別できる。ここで、スライドショータイプ動画像V1でないと判別された場合には、一般動画像V2に分類することができる。
【0038】
判別部130が入力する移動ベクトルの情報は、移動ベクトル抽出部120から提供された1次元入力でよく、判別部130は、1次元入力を分類モデルCに入力することができる。この場合、分類モデルCは、1次元入力に含まれたそれぞれの時点別x軸標準偏差及びy軸標準偏差と、連続する時点間のx軸標準偏差及びy軸標準偏差の変化量を用いて、対象動画像Vがスライドショータイプ動画像V1に該当するか否かを判別できる。
【0039】
具体的に、
図9を参照すると、スライドショータイプ動画像の場合、それぞれの時点別x軸標準偏差及びy軸標準偏差が一定のパターンで変化するが、一般動画像の場合、一定のパターンがないことが確認できる。すなわち、分類モデルCは、x軸標準偏差及びy軸標準偏差の変化パターンを確認する方式によってスライドショータイプ動画像V1に該当する否かを判別することが可能である。
【0040】
ここで、分類モデルCには、種々のスライドショータイプ動画像のそれぞれの時点別x軸標準偏差及びy軸標準偏差と、連続する時点間のx軸標準偏差及びy軸標準偏差の変化量があらかじめ学習されていてよい。したがって、分類モデルCは、既に学習されたスライドショータイプ動画像を、それぞれの時点別x軸標準偏差及びy軸標準偏差と、連続する時点間のx軸標準偏差及びy軸標準偏差の変化量を、入力された1次元入力と比較して、対象動画像がスライドショータイプ動画像に該当するか否かを判別できる。
【0041】
分類モデルCは、教師あり学習(Supervised learing)手法によってあらかじめラベリング(labeling)された複数の学習動画像を、DT(Decision Tree)、RF(Random Forest)、SVM(Support vector machine)、DNN(Deep Neural Network)などの機械学習手法によって学習して形成できる。
【0042】
具体的には、
図6に示すように、それぞれの学習動画像は、スライドショータイプ動画像であるか否か、および、スライドショータイプ動画像である場合には、スライドイメージの個数、スライドイメージ移動の有無、特殊効果を含むか否かなどを表示するようにそれぞれラベリング(labeling)されてよい。その後、ラベリングされたそれぞれの学習動画像を用いて分類モデルCを学習させることができる。実施例によっては、CNN(Convolutioinal Neural Network)などを用いて生成した任意のスライドイメージで、種々のスライドショータイプ動画像を生成した後で、生成したスライドショータイプ動画像を学習させる方式で分類モデルCを生成することも可能である。
【0043】
一方、
図8に示すように、本発明の他の実施例による動画像分類装置100は、移動ベクトルをx軸成分及びy軸成分に分離せず、時間によって変化する移動ベクトルを含む3次元入力に基づいて、当該対象動画像がスライドショータイプ動画像に該当するか否かを判別することも可能である。
【0044】
すなわち、移動ベクトル抽出部120は、移動ベクトルをx軸成分及びy軸成分に分離して標準偏差を演算する代わりに、それぞれの時点別移動ベクトルを集めて、時間によって移動ベクトルが変化する3次元入力を生成することができる。
【0045】
その後、判別部130は、3次元入力を分類モデルCに入力でき、分類モデルCは、時間による移動ベクトルの変化を、学習された変化パターンと比較して、対象動画像がスライドショータイプ動画像に該当するか否かを判別できる。ここで、分類モデルCは、教師あり学習法によってあらかじめラベリングされた複数の学習動画像を、3D-ResNet、SlowFast、R(2+1)Dなどの3次元入力を処理する機械学習手法、特に、畳み込み(convolution)系列の機械学習モデルによって学習して、あらかじめ生成されたものでよい。すなわち、分類モデルCは、複数の学習動画像の各時点別移動ベクトルを抽出して形成した3次元入力を学習でき、これによって、スライドタイプ動画像に対応する変化パターンと一般動画像の変化パターンとを区別することができる。
【0046】
図10及び
図11は、本発明の一実施例による動画像分類方法を示すフローチャートである。ここで、本発明の一実施例による動画像分類方法は、スライドショー(slide show)タイプ動画像を一般動画像から区別する方法であり、実施例によっては、動画像分類装置によってそれぞれの段階が行われてもよい。
【0047】
スライドショータイプ動画像は、1枚以上のスライドイメージが表示される動画像であり、動画像内でスライドイメージが移動したり、スライドイメージに対する特殊効果が表示される場合にもスライドショータイプ動画像に該当すると判断できる。ここで、特殊効果は、スライドイメージに対するフェードイン(fade-in)、フェードアウト(fade-out)、ズームイン(zoom-in)、ズームアウト(zoom-out)、ステッカー付着などを含んでよく、その他にも実施例によって、様々に追加、変更されてよい。
【0048】
図10を参照すると、本発明の一実施例による動画像分類方法は、まず、入力された対象動画像から複数のフレームを抽出できる(S100)。すなわち、対象動画像の中から、特定の再生区間を基準時間間隔でサンプリングして、目標枚数のフレームを抽出することができる。例えば、特定の再生区間は、対象動画像の再生開始時点から15秒までの区間に設定し、基準時間間隔は、0.3secに設定できる。この場合、総50枚のフレームを抽出して、スライドショータイプ動画像に該当するか否かを判別するようにすることができる。
【0049】
実施例によっては、対象動画像の全再生区間の長さが特定の再生区間の長さよりも短い場合があり得る。この場合、全再生区間を基準時間間隔でサンプリングして可能な最大枚数のフレームが抽出できる。
【0050】
対象動画像から複数のフレームを抽出した後には、フレーム間の光流れ(optical flow)を示す移動ベクトルが抽出できる(S200)。ここで、移動ベクトルは、Lucas-Kanade法などを用いて抽出でき、抽出したそれぞれの移動ベクトルは、フレーム内に含まれた客体の動きによる移動量と移動方向を示すことができる。したがって、移動ベクトルを用いて、対象動画像がスライドショータイプ動画像に該当するか否かを判別することが可能である。
【0051】
具体的に、
図11(a)に示すように、複数のフレームの中から連続する2つのフレームを順次に選択でき(S211)、選択した2つのフレームに対応する時点別に、2つのフレーム内に含まれた客体の移動量及び移動方向を示す複数の移動ベクトルが抽出できる。
【0052】
その後、一つの時点で生成した複数の移動ベクトルをそれぞれx軸成分及びy軸成分に分離し、x軸成分の標準偏差及びy軸成分の標準偏差を演算して、当該時点におけるx軸標準偏差及びy軸標準偏差に設定できる(S213)。また、それぞれの時点別にx軸成分の標準偏差及びy軸成分の標準偏差を同じ方式で演算して、それぞれの時点におけるx軸標準偏差及びy軸標準偏差に設定できる(S214)。
【0053】
移動ベクトルが抽出された後で、あらかじめ学習された分類モデルに移動ベクトルの情報を入力し、対象動画像がスライドショータイプ動画像に該当するか否かを判別できる(S300)。ここでは、それぞれの時点別x軸標準偏差及びy軸標準偏差を分類モデルに入力でき、分類モデルはそれぞれの時点別x軸標準偏差及びy軸標準偏差と、連続する時点間のx軸標準偏差及びy軸標準偏差の変化量とを用いて、対象動画像がスライドショータイプ動画像に該当するか否かを判別できる。この時、分類モデルは、教師あり学習(supervised learning)法によってあらかじめラベリング(labeling)された複数の学習動画像を、DT(Decision Tree)、RF(Random Forest)、SVM(Support vector machine)、DNN(Deep Neural Network)などの機械学習手法で学習して形成したものでよい。
【0054】
一方、本発明の他の実施例による動画像分類方法によれば、移動ベクトルをx軸成分及びy軸成分に分離せず、時間によって変化する移動ベクトルを含む3次元入力に基づいて、当該対象動画像がスライドショータイプ動画像に該当するか否かを判別することも可能である。すなわち、
図11(b)に示すように、移動ベクトルを抽出する段階(S200)では、まず、複数のフレームの中から連続する2つのフレームを順次に選択でき(S221)、選択した2つのフレームに対応する時点別に、2つのフレーム内に含まれた客体の移動量及び移動方向を示す複数の移動ベクトルを抽出できる(S222)。その後、それぞれの時点別移動ベクトルを集めて、時間によって前記移動ベクトルが変化する3次元入力を生成できる(S223)。
【0055】
この場合、判別する段階(S300)では、3次元入力を分類モデルに入力でき、分類モデルは、時間による移動ベクトル変化を、学習された変化パターンと比較し、対象動画像がスライドショータイプ動画像に該当するか否かを判別できる。このとき、分類モデルは、教師あり学習法によってあらかじめラベリングされた複数の学習動画像を、3D-ResNet、SlowFast、R(2+1)Dなどの3次元入力を処理する機械学習手法によって学習して、あらかじめ生成されたものでよい。すなわち、分類モデルは、複数の学習動画像の各時点別移動ベクトルを抽出して形成した3次元入力を学習でき、これによって、スライドタイプ動画像に対応する変化パターンと一般動画像の変化パターンとが区別できる。
【0056】
前述した本発明は、プログラムが記録された媒体にコンピュータ可読コードとして具現化することが可能である。コンピュータ可読媒体は、コンピュータで実行可能なプログラムを継続的に記憶するか、実行又はダウンロードのために一時的に記憶するものでよい。また、媒体は、単一又は数個のハードウェアが結合した形態の様々な記録手段又は記憶手段であり得るが、あるコンピュータシステムに直接に接続される媒体に限定されず、ネットワーク上に分散存在するものであってもよい。媒体の例としては、ハードディスク、フロッピーディスク(登録商標、)及び磁気テープのような磁気媒体、CD-ROM及びDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical medium)、及び、ROM、RAM、フラッシュメモリなどを含めてプログラム命令語が記憶されるように構成されたもの、が挙げられる。また、他の媒体の例として、アプリケーションを流通するアプリストアや、その他の様々なソフトウェアを供給又は流通するサイト、サーバーなどで管理する記録媒体又は記憶媒体も挙げることができる。したがって、前記の詳細な説明は、いずれの面においても限定的に解釈されてはならず、例示的なものとして考慮されるべきである。本発明の範囲は、添付する請求項の合理的解析によって決定されるべきであり、本発明の等価的範囲内における変更は、いずれも本発明の範囲に含まれる。
【0057】
本発明は、前述した実施例及び添付の図面によって限定されるものではない。本発明の属する技術の分野における通常の知識を有する者にとっては、本発明の技術的思想から逸脱しない範囲内で、本発明に係る構成要素を置換、変形、及び変更できるということが明らかであろう。
【符号の説明】
【0058】
100:動画像分類装置
110:フレーム抽出部
120:移動ベクトル抽出部
130:判別部