特許7159274 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ネイバー　コーポレーションの特許一覧 ▶ ＬＩＮＥ株式会社の特許一覧

特許7159274動画像分類装置及び動画像分類方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-10-14

(45)【発行日】2022-10-24

(54)【発明の名称】動画像分類装置及び動画像分類方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20221017BHJP

G06T 7/269 20170101ALI20221017BHJP

G06F 16/75 20190101ALI20221017BHJP

【ＦＩ】

G06T7/00 350C

G06T7/269

G06F16/75

【請求項の数】 13

【外国語出願】

(21)【出願番号】P 2020210439

(22)【出願日】2020-12-18

(65)【公開番号】P2021099806

(43)【公開日】2021-07-01

【審査請求日】2021-02-10

(31)【優先権主張番号】10-2019-0171078

(32)【優先日】2019-12-19

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】505205812

【氏名又は名称】ネイバーコーポレーション

【氏名又は名称原語表記】ＮＡＶＥＲＣｏｒｐｏｒａｔｉｏｎ

(73)【特許権者】

【識別番号】321003371

【氏名又は名称】ＬＩＮＥ株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ウィ，ドンユン

(72)【発明者】

【氏名】オ，クァンジン

(72)【発明者】

【氏名】ペ，スンミン

(72)【発明者】

【氏名】キム，ユジン

【審査官】笠田和宏

(56)【参考文献】

【文献】特開２０１０－１３９７８３（ＪＰ，Ａ）

【文献】特開２００８－２７８３４７（ＪＰ，Ａ）

【文献】特開２０１０－２２６２５１（ＪＰ，Ａ）

【文献】特開２０１６－２０１６１７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｔ７／２６９

Ｇ０６Ｆ１６／７５

(57)【特許請求の範囲】

【請求項1】

スライドショータイプ動画像を区別する動画像分類方法であって、
入力された対象動画像から複数のフレームを抽出する段階と、
前記フレーム間の光流れを示す移動ベクトルを抽出する段階であり、時間によって前記移動ベクトルが変化する３次元入力を生成する、段階と、
あらかじめ学習された分類モデルに前記移動ベクトルに関する情報を入力して、前記対象動画像が前記スライドショータイプ動画像に該当するか否かを判別する段階と、
を含む、動画像分類方法。

【請求項2】

前記スライドショータイプ動画像は、
１枚以上のスライドイメージが表示される動画像であり、かつ、
前記動画像内で前記スライドイメージが移動するか、または、前記スライドイメージに対する特殊効果が表示される、
ことを特徴とする、請求項１に記載の動画像分類方法。

【請求項3】

前記特殊効果は、
前記スライドイメージに対するフェードイン、フェードアウト、ズームイン、ズームアウト、及びステッカー付着のうち少なくとも一つを含む、
ことを特徴とする、請求項２に記載の動画像分類方法。

【請求項4】

前記フレームを抽出する段階は、
前記対象動画像の中から、特定の再生区間を基準時間間隔でサンプリングして、目標枚数のフレームを抽出する、
ことを特徴とする、請求項１乃至３のいずれか一項に記載の動画像分類方法。

【請求項5】

前記移動ベクトルを抽出する段階は、
前記複数のフレームの中から連続する２つのフレームを順次に選択する段階と、
前記選択した２つのフレームに対応する時点別に、前記２つのフレーム内に含まれた客体の移動量及び移動方向を示す複数の移動ベクトルを抽出する段階と、を含む、
ことを特徴とする、請求項１乃至４のいずれか一項に記載の動画像分類方法。

【請求項6】

前記移動ベクトルを抽出する段階は、さらに、
一つの時点に生成した複数の移動ベクトルをそれぞれにｘ軸成分及びｙ軸成分に分離し、前記ｘ軸成分の標準偏差及び前記ｙ軸成分の標準偏差を演算して、前記時点におけるｘ軸標準偏差及びｙ軸標準偏差に設定する段階、を含む、
ことを特徴とする、請求項５に記載の動画像分類方法。

【請求項7】

前記判別する段階は、
それぞれの時点別ｘ軸標準偏差及びｙ軸標準偏差を前記分類モデルに入力し、前記分類モデルは、それぞれの時点別ｘ軸標準偏差及びｙ軸標準偏差と、連続する時点間のｘ軸標準偏差及びｙ軸標準偏差の変化量とを用いて、前記対象動画像が、前記スライドショータイプ動画像に該当するか否かを判別する、
ことを特徴とする、請求項６に記載の動画像分類方法。

【請求項8】

前記分類モデルは、
教師あり学習法によってあらかじめラベリングされた複数の動画像を、ＤＴ、ＲＦ、ＳＶＭ、及びＤＮＮのうち少なくとも一つの機械学習手法によって学習して、形成された、
ことを特徴とする、請求項１乃至７のいずれか一項に記載の動画像分類方法。

【請求項9】

前記３次元入力を生成することは、
それぞれの時点別移動ベクトルを集めて、時間によって前記移動ベクトルが変化する前記３次元入力を生成する、
ことを特徴とする、請求項５乃至８のいずれか一項に記載の動画像分類方法。

【請求項10】

前記判別する段階は、
前記３次元入力を前記分類モデルに入力し、前記分類モデルは、時間による前記移動ベクトルの変化を学習された変化パターンと比較して、前記対象動画像が前記スライドショータイプ動画像に該当するか否かを判別する、
ことを特徴とする、請求項９に記載の動画像分類方法。

【請求項11】

前記分類モデルは、
教師あり学習法によってあらかじめラベリングされた複数の動画像を、３Ｄ－ＲｅｓＮｅｔ、ＳｌｏｗＦａｓｔ、Ｒ（２＋１）Ｄのうち少なくとも一つの３次元入力を処理する機械学習手法によって学習して、形成された、
ことを特徴とする、請求項１０に記載の動画像分類方法。

【請求項12】

媒体に記憶されたコンピュータプログラムであって、実行されると、
コンピュータハードウェアに、請求項１乃至１１のいずれか一項に記載の動画像分類方法を実行させる、
コンピュータプログラム。

【請求項13】

スライドショータイプ動画像を区別する動画像分類装置であって、
入力された対象動画像から複数のフレームを抽出するフレーム抽出部と、
前記フレーム間の光流れを示す移動ベクトルを抽出する移動ベクトル抽出部であり、時間によって前記移動ベクトルが変化する３次元入力を生成する、移動ベクトル抽出部と、
あらかじめ学習された分類モデルに前記移動ベクトルに関する情報を入力して、前記対象動画像が前記スライドショータイプ動画像に該当するか否かを判別する判別部と、
を含む、動画像分類装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、動画像分類装置及び動画像分類方法に関し、特には、スライドショータイプ動画像を一般動画像から区別できる動画像分類装置及び動画像分類方法に関する。

【背景技術】

【0002】

近年、動画像コンテンツに対するユーザの需要が増加するのに伴って、スライドショー（ｓｌｉｄｅｓｈｏｗ）タイプ動画像が急増している。スライドショータイプ動画像は、１枚以上のスライドイメージが表示される動画像であり、製作が簡易なことから、最近になって広告や広報用に主に用いられている。

【0003】

スライドショータイプ動画像は、１枚のスライドイメージが表示された状態で音響やナレーションなどが追加される形態で具現可能であり、複数のスライドイメージが順次に表示されるようにすることも可能である。

【0004】

一方、ユーザは、自分の所望する情報を検索するためにインターネット検索サービスを用いることができ、このとき、検索される様々な動画像の中にはスライドショータイプ動画像が多数含まれることがある。ただし、スライドショータイプ動画像は、広告や広報性の内容であるか、クオリティの低いコンテンツを含む場合が殆どであるため、ユーザはスライドショータイプ動画像を好まない傾向がある。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明は、スライドショータイプ動画像を一般動画像から区別できる動画像分類装置及び動画像分類方法を提供する。

【0006】

本出願は、動画像内に含まれたフレーム間の光流れ（ｏｐｔｉｃａｌｆｌｏｗ）を用いて、スライドショータイプ動画像を区別できる動画像分類装置及び動画像分類方法を提供する。

【課題を解決するための手段】

【0007】

本発明の一実施例による動画像分類方法は、スライドショー（ｓｌｉｄｅｓｈｏｗ）タイプ動画像を区別する動画像分類方法に関し、入力された対象動画像から複数のフレームを抽出する段階、前記フレーム間の光流れ（ｏｐｔｉｃａｌｆｌｏｗ）を示す移動ベクトルを抽出する段階、及び、あらかじめ学習された分類モデルに前記移動ベクトルに関する情報を入力して、前記対象動画像が前記スライドショータイプ動画像に該当するか否かを判別する段階、を含み得る。

【0008】

本発明の一実施例による動画像分類装置は、スライドショー（ｓｌｉｄｅｓｈｏｗ）タイプ動画像を区別するものであって、入力された対象動画像から複数のフレームを抽出するフレーム抽出部前記フレーム間の光流れ（ｏｐｔｉｃａｌｆｌｏｗ）を示す移動ベクトルを抽出する移動ベクトル抽出部、及び、あらかじめ学習された分類モデルに前記移動ベクトルに関する情報を入力して、前記対象動画像が前記スライドショータイプ動画像に該当するか否かを判別する判別部、を含み得る。

【0009】

なお、上述の課題を解決するための手段は、本発明の特徴を全て挙げたものではない。本発明の様々な特徴と、それによる利点及び効果とは、下記の具体的な実施形態を参照して、より詳細に理解されよう。

【発明の効果】

【0010】

本発明の一実施例による動画像分類装置及び動画像分類方法によれば、スライドショータイプ動画像を一般動画像から区別できるので、インターネット検索サービス提供時に、スライドショータイプ動画像を除いてユーザに提供することが可能である。したがって、インターネット検索サービス提供時に、ユーザ便宜性を高め、検索の正確性を高めることができる。

【0011】

本発明の一実施例による動画像分類装置及び動画像分類方法によれば、動画像内の光流れを機械学習を用いて分類するので、より正確で迅速な動画像分類が可能である。

【0012】

ただし、本発明の実施例に係る動画像分類装置及び動画像分類方法が達成できる効果は以上で言及したものに限定されず、言及していない別の効果が、以下の記載から、本発明の属する技術の分野における通常の知識を有する者によって明確に理解されるであろう。

【図面の簡単な説明】

【0013】

【図1】本発明の一実施例による動画像分類装置を示すブロック図である。

【図2】本発明の一実施例によるスライドショータイプ動画像を示す概略図である。

【図3】本発明の一実施例によるスライドショータイプ動画像を示す概略図である。

【図4】本発明の一実施例によるスライドショータイプ動画像を示す概略図である。

【図5】本発明の一実施例によるスライドショータイプ動画像と一般動画像の光流れを示す概略図である。

【図6】本発明の一実施例による分類モデルの学習のための学習動画像のラベリングを示す概略図である。

【図7】本発明の一実施例による動画像分類装置の動作を示すブロック図である。

【図8】本発明の一実施例による動画像分類装置の動作を示すブロック図である。

【図9】本発明の一実施例によるスライドショータイプ動画像と一般動画像の光流れ変化パターンを示すグラフである。

【図10】本発明の一実施例による動画像分類方法を示すフローチャートである。

【図11】本発明の一実施例による動画像分類方法を示すフローチャートである。

【発明を実施するための形態】

【0014】

以下、添付の図面を参照して、本明細書に開示される実施例を詳細に説明する。ただし、図面符号に関係なく、同一又は類似の構成要素には同一の参照番号を付し、その繰り返しの説明は省略するものとする。以下の説明で使われる構成要素に対する接尾語「モジュール」及び「部」は、明細書作成の容易さだけを考慮して付与又は代替使用されるものであり、それ自体で互いに区別される意味又は役割を有するものではない。すなわち、本発明で使われる「部」という用語は、ソフトウェア、ＦＰＧＡ、又はＡＳＩＣのようなハードウェア構成要素を意味し、「部」は、ある役割を担う。しかし、「部」は、ソフトウェア又はハードウェアに限定される意味ではない。「部」はアドレス可能な記憶媒体に含まれるように構成されてもよく、一つ又はそれ以上のプロセッサを再生させるように構成されてもよい。したがって、一例として、「部」は、ソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素、及びタスク構成要素のような構成要素、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、及び変数を含む。構成要素と「部」から提供される機能は、より小さい数の構成要素及び「部」に結合されてもよく、追加の構成要素と「部」にさらに分離されてもよい。

【0015】

また、本明細書に開示される実施例を説明するとき、関連した公知技術についての具体的な説明が、本明細書に開示される実施例の要旨を曖昧にさせ得ると判断される場合には、その詳細な説明を省略する。また、添付の図面は、本明細書に開示される実施例を容易に理解させるためのものに過ぎず、添付の図面によって本明細書に開示される技術的思想は限定されるものではなく、本発明の思想及び技術範囲に含まれる全ての変更、均等物、又は代替物を含むものとして理解されるべきである。

【0016】

近年、動画像コンテンツに対するユーザの需要が増加するのに伴って、スライドショー（ｓｌｉｄｅｓｈｏｗ）タイプ動画像が急増している。スライドショータイプ動画像は、１枚以上のスライドイメージが表示される動画像であり、製作が簡易なことから、最近になって、広告や広報用に主に用いられている。

【0017】

スライドショータイプ動画像は、１枚のスライドイメージが表示された状態で音響やナレーションなどが追加される形態で具現可能であり、図２に示すように、複数のスライドイメージが、順次に表示されるようにすることも可能である。

【0018】

また、図３に示すように、スライドイメージが動画像内で一定の方向に移動したり、図４に示すように、スライドイメージをズームイン（ｚｏｏｍ－ｉｎ）するなど、スライドイメージに対する特殊効果を追加した場合にも、スライドショータイプ動画像と見なすことができる。

【0019】

ここで、スライドイメージに追加される特殊効果は、ズームインの他にも、フェードイン（ｆａｄｅ－ｉｎ）、フェードアウト（ｆａｄｅ－ｏｕｔ）、ズームアウト（ｚｏｏｍ－ｏｕｔ）、スライドイメージへのステッカー付着などの様々なものが挙げられる。

【0020】

一方、ユーザは自身の所望する情報を探すために、インターネット検索サービスを用いることができ、このとき、検索される様々な動画像の中にはスライドショータイプ動画像が多数含まれることがある。ただし、スライドショータイプ動画像は広告や広報性の内容であるか、クオリティの低いコンテンツを含む場合が殆どであるため、ユーザはスライドショータイプ動画像を好まない傾向がある。

【0021】

したがって、ユーザの便宜のためには、インターネット検索サービス提供時に、スライドショータイプ動画像などを除外したり、或いは、検索結果提供時に、後順位で提供する必要がある。すなわち、スライドショータイプ動画像に対して別の注釈（ａｎｎｏｔａｔｉｏｎ）などを付加し、一般動画像とスライドショータイプ動画像とを区別して処理するようにする方案を考慮することができる。

【0022】

ここで、本発明の一実施例による動画像分類装置によれば、スライドショータイプ動画像を一般動画像から区別できるので、後で、区別されたそれぞれのスライドショータイプ動画像に対する注釈を付加することが可能である。以下、本発明の一実施例による動画像分類装置を説明する。

【0023】

図１は、本発明の一実施例による動画像分類装置を示すブロック図である。

【0024】

図１を参照すると、本発明の一実施例による動画像分類装置１００は、フレーム抽出部１１０、移動ベクトル抽出部１２０、及び判別部１３０を含み得る。

【0025】

フレーム抽出部１１０は、入力された対象動画像Ｖから複数のフレームを抽出することができる。フレーム抽出部１１０は、対象動画像Ｖの中から、特定の再生区間を基準時間間隔でサンプリングして、目標個数のフレームを抽出することができる。

【0026】

例えば、特定の再生区間を対象動画像Ｖの再生時点から１５秒までに設定し、基準時間間隔は０．３ｓｅｃに設定できる。この場合、５０枚のフレームが抽出されるので、目標枚数は５０枚に該当する。すなわち、対象動画像Ｖの初期５０枚のフレームを確認し、対象動画像Ｖがスライドタイプ動画像Ｖ１に該当するか否かを判別できる。ただし、特定の再生区間の長さや基準時間間隔などは、実施例によって様々に変更可能であり、特定の再生区間を対象動画像Ｖの開始時点以外の任意の時点に設定することも可能である。

【0027】

一方、実施例によっては、対象動画像Ｖの全再生区間の長さが特定の再生区間の長さよりも短い場合があり得る。例えば、特定の再生区間の長さが１５秒であるときに、対象動画像Ｖの全再生区間の長さが１５秒未満である場合は、０．３ｓｅｃの基準時間間隔でサンプリングすれば、目標枚数のフレームが抽出できなくなる。この場合、フレーム抽出部１１０は、対象動画像Ｖの全再生区間を基準時間間隔でサンプリングし、可能な最大枚数のフレームだけを抽出するようにしてもよい。

【0028】

移動ベクトル抽出部１２０は、フレーム間の光流れ（ｏｐｔｉｃａｌｆｌｏｗ）を示す移動ベクトルを抽出することができる。ここで、移動ベクトル抽出部１２０は、移動ベクトルの抽出のためにＬｕｃａｓ－Ｋａｎａｄｅ法を用いることができ、この他にも、光流れを抽出するための様々な手法を用いることができる。

【0029】

具体的に、図５に示すように、フレームに含まれた客体の動きに対応する移動量と移動方向を示す移動ベクトルＡを表示することができる。ここで、移動ベクトルはそれぞれの時点別（ｔ－１）、（ｔ）、（ｔ＋１）に抽出することができる。

【0030】

図５（ａ）に示すように、スライドショータイプ動画像Ｖ１の場合、同じ時点内における移動ベクトルＡは、一定の大きさと方向性を有することが確認できる。すなわち、（ｔ）時点における移動ベクトルＡを確認すれば、それぞれ同じ方向性を有し、大きさの偏差も大きくないことが確認できる。これは、（ｔ－１）時点と（ｔ＋１）時点においても同様である。また、（ｔ－１）時点から（ｔ＋１）時点への変化にしたがって、移動ベクトルＡが一定の方向に大きさが次第に増加する一定のパターンを有することも確認できる。

【0031】

これに対し、図５（ｂ）の一般動画像Ｖ２の場合には、同じ時点内における移動ベクトルＡがそれぞれ異なる大きさと方向性を有し、（ｔ－１）時点から（ｔ＋１）時点への変化にもかかわらず、移動ベクトルＡの変化には特別なパターンが存在しないことが確認できる。

【0032】

したがって、移動ベクトル抽出部１２０から抽出した移動ベクトルを用いて、入力された対象動画像Ｖがスライドショータイプ動画像Ｖ１であるか、或いは一般動画像Ｖ２であるか区別することが可能である。

【0033】

具体的に、移動ベクトル抽出部１２０は、複数のフレームの中から、連続する２つのフレームを順次に選択でき、選択した２つのフレームに対応する時点別に、２つのフレーム内に含まれる客体の移動量及び移動方向を示す複数の移動ベクトルを抽出できる。すなわち、図７に示すように、移動ベクトル抽出部１２０は、（ｔ－１）時点と（ｔ）時点のフレームを選択した後で、これにより（ｔ－１）時点に該当する移動ベクトルを抽出でき、次に、（ｔ）時点と（ｔ＋１）時点のフレームを選択した後で、これにより（ｔ）時点に対する移動ベクトルを抽出できる。その後、同じ方式で目標枚数のフレームに対してそれぞれ対応する時点別移動ベクトルを抽出することができる。

【0034】

実施例によっては、図７に示すように、移動ベクトル抽出部１２０がそれぞれの移動ベクトルをｘ軸成分及びｙ軸成分に分離し、ｘ軸成分の標準偏差及びｙ軸成分の標準偏差を演算することができる。例えば、（ｔ－１）時点に生成した複数の移動ベクトルを、ｘ軸成分及びｙ軸成分にそれぞれ分離し、ｘ軸成分の標準偏差及びｙ軸成分の標準偏差をそれぞれ演算することができる。ここで、演算した結果値が、（ｔ－１）時点におけるｘ軸標準偏差（ｘ－ｓｔｄ（ｔ－１））及びｙ軸標準偏差（ｙ－ｓｔｄ（ｔ－１））に該当する。

【0035】

その後、同じ方式で、各時点別ｘ軸成分の標準偏差及びｙ軸成分の標準偏差を演算し、それぞれの時点におけるｘ軸標準偏差及びｙ軸標準偏差に設定することができる。ここで、生成されたそれぞれの時点別ｘ軸標準偏差及びｙ軸標準偏差は、後で、１次元入力として判別部１３０に提供することができる。

【0036】

一方、対象動画像Ｖの全再生区間の長さが特定の再生区間の長さよりも短い場合には、可能な最大枚数のフレームだけを抽出したので、１次元入力の個数が不足することがある。例えば、可能な最大枚数のフレームの数が２０枚であり、目標枚数が３０枚である場合、目標枚数による１次元入力は、［ｘ－ｓｔｄ（ｉ＝１～２９），ｙ－ｓｔｄ（ｉ＝１～２９）］であるから、１次元入力はｄｉｍ（１，５８）、すなわち、総計５８個のディメンションが入力される必要がある。しかし、実際には２０枚のフレームしか生成されていないため、それに対応する１次元入力には［ｘ－ｓｔｄ（ｉ＝１～１９），ｙ－ｓｔｄ（ｉ＝１～１９）］が含まれ得る。すなわち、１次元入力のディメンション（ｄｉｍｅｎｓｔｉｏｎ）はｄｉｍ（１，３８）に該当するので、ディメンションの差を埋めるために、移動ベクトル抽出部１２０は、ｄｉｍ（１，３８）以降のディメンションに対してパディングを行うことができる。この場合、移動ベクトル抽出部１２０は、０を入力したり、任意のランダム値を入力するなど、様々な方式でパディングを行うことができる。

【0037】

判別部１３０は、あらかじめ学習された分類モデルＣに移動ベクトルの情報を入力し、対象動画像Ｖがスライドショータイプ動画像Ｖ１に該当するか否かを判別できる。ここで、スライドショータイプ動画像Ｖ１でないと判別された場合には、一般動画像Ｖ２に分類することができる。

【0038】

判別部１３０が入力する移動ベクトルの情報は、移動ベクトル抽出部１２０から提供された１次元入力でよく、判別部１３０は、１次元入力を分類モデルＣに入力することができる。この場合、分類モデルＣは、１次元入力に含まれたそれぞれの時点別ｘ軸標準偏差及びｙ軸標準偏差と、連続する時点間のｘ軸標準偏差及びｙ軸標準偏差の変化量を用いて、対象動画像Ｖがスライドショータイプ動画像Ｖ１に該当するか否かを判別できる。

【0039】

具体的に、図９を参照すると、スライドショータイプ動画像の場合、それぞれの時点別ｘ軸標準偏差及びｙ軸標準偏差が一定のパターンで変化するが、一般動画像の場合、一定のパターンがないことが確認できる。すなわち、分類モデルＣは、ｘ軸標準偏差及びｙ軸標準偏差の変化パターンを確認する方式によってスライドショータイプ動画像Ｖ１に該当する否かを判別することが可能である。

【0040】

ここで、分類モデルＣには、種々のスライドショータイプ動画像のそれぞれの時点別ｘ軸標準偏差及びｙ軸標準偏差と、連続する時点間のｘ軸標準偏差及びｙ軸標準偏差の変化量があらかじめ学習されていてよい。したがって、分類モデルＣは、既に学習されたスライドショータイプ動画像を、それぞれの時点別ｘ軸標準偏差及びｙ軸標準偏差と、連続する時点間のｘ軸標準偏差及びｙ軸標準偏差の変化量を、入力された１次元入力と比較して、対象動画像がスライドショータイプ動画像に該当するか否かを判別できる。

【0041】

分類モデルＣは、教師あり学習（Ｓｕｐｅｒｖｉｓｅｄｌｅａｒｉｎｇ）手法によってあらかじめラベリング（ｌａｂｅｌｉｎｇ）された複数の学習動画像を、ＤＴ（ＤｅｃｉｓｉｏｎＴｒｅｅ）、ＲＦ（ＲａｎｄｏｍＦｏｒｅｓｔ）、ＳＶＭ（Ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）などの機械学習手法によって学習して形成できる。

【0042】

具体的には、図６に示すように、それぞれの学習動画像は、スライドショータイプ動画像であるか否か、および、スライドショータイプ動画像である場合には、スライドイメージの個数、スライドイメージ移動の有無、特殊効果を含むか否かなどを表示するようにそれぞれラベリング（ｌａｂｅｌｉｎｇ）されてよい。その後、ラベリングされたそれぞれの学習動画像を用いて分類モデルＣを学習させることができる。実施例によっては、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｉｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などを用いて生成した任意のスライドイメージで、種々のスライドショータイプ動画像を生成した後で、生成したスライドショータイプ動画像を学習させる方式で分類モデルＣを生成することも可能である。

【0043】

一方、図８に示すように、本発明の他の実施例による動画像分類装置１００は、移動ベクトルをｘ軸成分及びｙ軸成分に分離せず、時間によって変化する移動ベクトルを含む３次元入力に基づいて、当該対象動画像がスライドショータイプ動画像に該当するか否かを判別することも可能である。

【0044】

すなわち、移動ベクトル抽出部１２０は、移動ベクトルをｘ軸成分及びｙ軸成分に分離して標準偏差を演算する代わりに、それぞれの時点別移動ベクトルを集めて、時間によって移動ベクトルが変化する３次元入力を生成することができる。

【0045】

その後、判別部１３０は、３次元入力を分類モデルＣに入力でき、分類モデルＣは、時間による移動ベクトルの変化を、学習された変化パターンと比較して、対象動画像がスライドショータイプ動画像に該当するか否かを判別できる。ここで、分類モデルＣは、教師あり学習法によってあらかじめラベリングされた複数の学習動画像を、３Ｄ－ＲｅｓＮｅｔ、ＳｌｏｗＦａｓｔ、Ｒ（２＋１）Ｄなどの３次元入力を処理する機械学習手法、特に、畳み込み（ｃｏｎｖｏｌｕｔｉｏｎ）系列の機械学習モデルによって学習して、あらかじめ生成されたものでよい。すなわち、分類モデルＣは、複数の学習動画像の各時点別移動ベクトルを抽出して形成した３次元入力を学習でき、これによって、スライドタイプ動画像に対応する変化パターンと一般動画像の変化パターンとを区別することができる。

【0046】

図１０及び図１１は、本発明の一実施例による動画像分類方法を示すフローチャートである。ここで、本発明の一実施例による動画像分類方法は、スライドショー（ｓｌｉｄｅｓｈｏｗ）タイプ動画像を一般動画像から区別する方法であり、実施例によっては、動画像分類装置によってそれぞれの段階が行われてもよい。

【0047】

スライドショータイプ動画像は、１枚以上のスライドイメージが表示される動画像であり、動画像内でスライドイメージが移動したり、スライドイメージに対する特殊効果が表示される場合にもスライドショータイプ動画像に該当すると判断できる。ここで、特殊効果は、スライドイメージに対するフェードイン（ｆａｄｅ－ｉｎ）、フェードアウト（ｆａｄｅ－ｏｕｔ）、ズームイン（ｚｏｏｍ－ｉｎ）、ズームアウト（ｚｏｏｍ－ｏｕｔ）、ステッカー付着などを含んでよく、その他にも実施例によって、様々に追加、変更されてよい。

【0048】

図１０を参照すると、本発明の一実施例による動画像分類方法は、まず、入力された対象動画像から複数のフレームを抽出できる（Ｓ１００）。すなわち、対象動画像の中から、特定の再生区間を基準時間間隔でサンプリングして、目標枚数のフレームを抽出することができる。例えば、特定の再生区間は、対象動画像の再生開始時点から１５秒までの区間に設定し、基準時間間隔は、０．３ｓｅｃに設定できる。この場合、総５０枚のフレームを抽出して、スライドショータイプ動画像に該当するか否かを判別するようにすることができる。

【0049】

実施例によっては、対象動画像の全再生区間の長さが特定の再生区間の長さよりも短い場合があり得る。この場合、全再生区間を基準時間間隔でサンプリングして可能な最大枚数のフレームが抽出できる。

【0050】

対象動画像から複数のフレームを抽出した後には、フレーム間の光流れ（ｏｐｔｉｃａｌｆｌｏｗ）を示す移動ベクトルが抽出できる（Ｓ２００）。ここで、移動ベクトルは、Ｌｕｃａｓ－Ｋａｎａｄｅ法などを用いて抽出でき、抽出したそれぞれの移動ベクトルは、フレーム内に含まれた客体の動きによる移動量と移動方向を示すことができる。したがって、移動ベクトルを用いて、対象動画像がスライドショータイプ動画像に該当するか否かを判別することが可能である。

【0051】

具体的に、図１１（ａ）に示すように、複数のフレームの中から連続する２つのフレームを順次に選択でき（Ｓ２１１）、選択した２つのフレームに対応する時点別に、２つのフレーム内に含まれた客体の移動量及び移動方向を示す複数の移動ベクトルが抽出できる。

【0052】

その後、一つの時点で生成した複数の移動ベクトルをそれぞれｘ軸成分及びｙ軸成分に分離し、ｘ軸成分の標準偏差及びｙ軸成分の標準偏差を演算して、当該時点におけるｘ軸標準偏差及びｙ軸標準偏差に設定できる（Ｓ２１３）。また、それぞれの時点別にｘ軸成分の標準偏差及びｙ軸成分の標準偏差を同じ方式で演算して、それぞれの時点におけるｘ軸標準偏差及びｙ軸標準偏差に設定できる（Ｓ２１４）。

【0053】

移動ベクトルが抽出された後で、あらかじめ学習された分類モデルに移動ベクトルの情報を入力し、対象動画像がスライドショータイプ動画像に該当するか否かを判別できる（Ｓ３００）。ここでは、それぞれの時点別ｘ軸標準偏差及びｙ軸標準偏差を分類モデルに入力でき、分類モデルはそれぞれの時点別ｘ軸標準偏差及びｙ軸標準偏差と、連続する時点間のｘ軸標準偏差及びｙ軸標準偏差の変化量とを用いて、対象動画像がスライドショータイプ動画像に該当するか否かを判別できる。この時、分類モデルは、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）法によってあらかじめラベリング（ｌａｂｅｌｉｎｇ）された複数の学習動画像を、ＤＴ（ＤｅｃｉｓｉｏｎＴｒｅｅ）、ＲＦ（ＲａｎｄｏｍＦｏｒｅｓｔ）、ＳＶＭ（Ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）などの機械学習手法で学習して形成したものでよい。

【0054】

一方、本発明の他の実施例による動画像分類方法によれば、移動ベクトルをｘ軸成分及びｙ軸成分に分離せず、時間によって変化する移動ベクトルを含む３次元入力に基づいて、当該対象動画像がスライドショータイプ動画像に該当するか否かを判別することも可能である。すなわち、図１１（ｂ）に示すように、移動ベクトルを抽出する段階（Ｓ２００）では、まず、複数のフレームの中から連続する２つのフレームを順次に選択でき（Ｓ２２１）、選択した２つのフレームに対応する時点別に、２つのフレーム内に含まれた客体の移動量及び移動方向を示す複数の移動ベクトルを抽出できる（Ｓ２２２）。その後、それぞれの時点別移動ベクトルを集めて、時間によって前記移動ベクトルが変化する３次元入力を生成できる（Ｓ２２３）。

【0055】

この場合、判別する段階（Ｓ３００）では、３次元入力を分類モデルに入力でき、分類モデルは、時間による移動ベクトル変化を、学習された変化パターンと比較し、対象動画像がスライドショータイプ動画像に該当するか否かを判別できる。このとき、分類モデルは、教師あり学習法によってあらかじめラベリングされた複数の学習動画像を、３Ｄ－ＲｅｓＮｅｔ、ＳｌｏｗＦａｓｔ、Ｒ（２＋１）Ｄなどの３次元入力を処理する機械学習手法によって学習して、あらかじめ生成されたものでよい。すなわち、分類モデルは、複数の学習動画像の各時点別移動ベクトルを抽出して形成した３次元入力を学習でき、これによって、スライドタイプ動画像に対応する変化パターンと一般動画像の変化パターンとが区別できる。

【0056】

前述した本発明は、プログラムが記録された媒体にコンピュータ可読コードとして具現化することが可能である。コンピュータ可読媒体は、コンピュータで実行可能なプログラムを継続的に記憶するか、実行又はダウンロードのために一時的に記憶するものでよい。また、媒体は、単一又は数個のハードウェアが結合した形態の様々な記録手段又は記憶手段であり得るが、あるコンピュータシステムに直接に接続される媒体に限定されず、ネットワーク上に分散存在するものであってもよい。媒体の例としては、ハードディスク、フロッピーディスク（登録商標、）及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ及びＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気－光媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉｕｍ）、及び、ＲＯＭ、ＲＡＭ、フラッシュメモリなどを含めてプログラム命令語が記憶されるように構成されたもの、が挙げられる。また、他の媒体の例として、アプリケーションを流通するアプリストアや、その他の様々なソフトウェアを供給又は流通するサイト、サーバーなどで管理する記録媒体又は記憶媒体も挙げることができる。したがって、前記の詳細な説明は、いずれの面においても限定的に解釈されてはならず、例示的なものとして考慮されるべきである。本発明の範囲は、添付する請求項の合理的解析によって決定されるべきであり、本発明の等価的範囲内における変更は、いずれも本発明の範囲に含まれる。

【0057】

本発明は、前述した実施例及び添付の図面によって限定されるものではない。本発明の属する技術の分野における通常の知識を有する者にとっては、本発明の技術的思想から逸脱しない範囲内で、本発明に係る構成要素を置換、変形、及び変更できるということが明らかであろう。

【符号の説明】

【0058】

１００：動画像分類装置
１１０：フレーム抽出部
１２０：移動ベクトル抽出部
１３０：判別部

【図1】