IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オ−ディーディー コンセプツ インク.の特許一覧

特許7105309映像前処理方法、装置及びコンピュータプログラム
<>
  • 特許-映像前処理方法、装置及びコンピュータプログラム 図1
  • 特許-映像前処理方法、装置及びコンピュータプログラム 図2
  • 特許-映像前処理方法、装置及びコンピュータプログラム 図3
  • 特許-映像前処理方法、装置及びコンピュータプログラム 図4
  • 特許-映像前処理方法、装置及びコンピュータプログラム 図5
  • 特許-映像前処理方法、装置及びコンピュータプログラム 図6
  • 特許-映像前処理方法、装置及びコンピュータプログラム 図7
  • 特許-映像前処理方法、装置及びコンピュータプログラム 図8
  • 特許-映像前処理方法、装置及びコンピュータプログラム 図9
  • 特許-映像前処理方法、装置及びコンピュータプログラム 図10
  • 特許-映像前処理方法、装置及びコンピュータプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-13
(45)【発行日】2022-07-22
(54)【発明の名称】映像前処理方法、装置及びコンピュータプログラム
(51)【国際特許分類】
   G06T 7/246 20170101AFI20220714BHJP
   G06T 7/215 20170101ALI20220714BHJP
   G06T 7/254 20170101ALI20220714BHJP
   G06F 16/783 20190101ALI20220714BHJP
【FI】
G06T7/246
G06T7/215
G06T7/254 A
G06F16/783
【請求項の数】 13
(21)【出願番号】P 2020535971
(86)(22)【出願日】2019-01-17
(65)【公表番号】
(43)【公表日】2021-03-18
(86)【国際出願番号】 KR2019000676
(87)【国際公開番号】W WO2019143137
(87)【国際公開日】2019-07-25
【審査請求日】2020-06-26
(31)【優先権主張番号】10-2018-0005820
(32)【優先日】2018-01-17
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】517415573
【氏名又は名称】オ-ディーディー コンセプツ インク.
(74)【代理人】
【識別番号】100149870
【弁理士】
【氏名又は名称】芦北 智晴
(72)【発明者】
【氏名】ジュン,テヨン
【審査官】小池 正彦
(56)【参考文献】
【文献】特開2009-015672(JP,A)
【文献】特開2003-087771(JP,A)
【文献】特開平10-294923(JP,A)
【文献】韓国公開特許第10-2016-0031226(KR,A)
【文献】韓国公開特許第10-2016-0021016(KR,A)
【文献】特表2012-523607(JP,A)
【文献】Quang Nhat Vo et al.,A feature-based adaptive model for realtime face tracking on smart phones,18th Acadinavian Conference. SCIA 2013,SCIA,2013年06月17日,630-639
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/246
G06T 7/215
G06T 7/254
G06F 16/783
(57)【特許請求の範囲】
【請求項1】
任意の映像を処理する方法であって、
前記映像を、一つ以上のフレームを含む場面(scene)単位に区分する段階と、
前記場面に含まれる一つ以上のフレームのうち、客体ベースイメージ検索時に正確性の高い検索結果が得られるフレームを検索対象フレームとして選定する段階と、
前記検索対象フレームからあらかじめ設定された主題に関連した客体を識別する段階と、
前記客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、前記客体に検索結果をマッピングする段階と、
を含む映像処理方法。
【請求項2】
前記映像を場面単位に区分する段階は、
前記フレームのカラースペクトルを識別する段階と、
連続する第1フレームと第2フレーム間の前記カラースペクトルの変化があらかじめ設定された臨界値以上であれば、前記第1フレームと前記第2フレームの場面を区分する段階とを含む、請求項1に記載の映像処理方法。
【請求項3】
前記映像を場面単位に区分する段階は、
前記フレームにおいて任意の客体と推定される特徴情報を探知する段階と、
第1フレームに含まれた第1特徴情報が連続する第2フレームに含まれるか否かを判断する段階と、
前記第2フレームに前記第1特徴情報が含まれていなければ、前記第1フレームと前記第2フレームの場面を区分する段階とを含む、請求項1に記載の映像処理方法。
【請求項4】
前記映像を場面単位に区分する段階は、
連続する第1フレームと第2フレームのマッチング率を演算する段階と、
前記マッチング率があらかじめ設定された値未満であれば、前記第1フレームと前記第2フレームの場面を区分する段階とを含む、請求項1に記載の映像処理方法。
【請求項5】
前記映像を場面単位に区分する段階は、
前記フレームの周波数スペクトルを識別する段階と、
連続する第1フレームと第2フレーム間の前記周波数スペクトルの変化があらかじめ設定された臨界値以上であれば、前記第1フレームと前記第2フレームの場面を区分する段階とを含む、請求項1に記載の映像処理方法。
【請求項6】
前記映像を場面単位に区分する段階は、
前記フレームのそれぞれをあらかじめ設定された大きさの一つ以上の領域に分割する段階と、
前記領域別にカラースペクトル又は周波数スペクトルを識別する段階と、
連続する第1フレームと第2フレームにおいて互いに対応する領域の前記カラースペクトルの差又は前記周波数スペクトルの差を演算する段階と、
前記領域別に演算された差の絶対値を合算する段階と、
前記合算した結果値があらかじめ設定された臨界値以上であれば、前記第1フレームと前記第2フレームの場面を区分する段階とを含む、請求項1に記載の映像処理方法。
【請求項7】
前記映像を場面単位に区分する段階は、
前記フレームのそれぞれをあらかじめ設定された大きさの一つ以上の領域に分割する段階と、
連続する第1フレームと第2フレームにおいて互いに対応する領域別マッチング率を演算する段階と、
前記マッチング率の平均があらかじめ設定された値未満であれば、前記第1フレームと前記第2フレームの場面を区分する段階とを含む、請求項1に記載の映像処理方法。
【請求項8】
任意の映像を処理する方法であって、
前記映像を、一つ以上のフレームを含む場面(scene)単位に区分する段階と、
前記場面からあらかじめ設定された基準による検索対象フレームを選定する段階と、
前記検索対象フレームからあらかじめ設定された主題に関連した客体を識別する段階と、
前記客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、前記客体に検索結果をマッピングする段階と、
を含み、
前記検索対象フレームを選定する段階は、
前記フレームにおいてブラー領域を識別する段階と、
前記ブラー領域が前記フレームに占める比重を演算する段階と、
第1場面に含まれる一つ以上のフレームのうち、前記ブラー領域の比重が最も低いフレームを前記第1場面の検索対象フレームとして選定する段階とを含む映像処理方法。
【請求項9】
前記ブラー領域を識別する段階は、前記フレームでローカルディスクリプタが抽出されない領域をブラー領域として識別する段階を含む、請求項8に記載の映像処理方法。
【請求項10】
任意の映像を処理する方法であって、
前記映像を、一つ以上のフレームを含む場面(scene)単位に区分する段階と、
前記場面からあらかじめ設定された基準による検索対象フレームを選定する段階と、
前記検索対象フレームからあらかじめ設定された主題に関連した客体を識別する段階と、
前記客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、前記客体に検索結果をマッピングする段階と、
を含み、
前記検索対象フレームを選定する段階は、
前記フレームから特徴情報を抽出する段階と、
第1場面に含まれる一つ以上のフレームのうち、抽出された特徴情報が最も多く含まれたフレームを前記第1場面の検索対象フレームとして選定する段階とを含む映像処理方法。
【請求項11】
請求項1~10のいずれか一項の方法を用いた電子装置の客体情報提供方法であって、
請求項1~10のいずれか一項の方法を用いて処理された映像を再生する段階と、
ユーザからあらかじめ設定された選択命令が入力されると、該選択命令が入力された時点のフレームをキャプチャーする段階と、
前記フレームに含まれた客体にマッピングされた客体情報を画面に表示する段階と、
を含む、客体情報提供方法。
【請求項12】
請求項1~10のいずれか一項の方法を用いて客体情報を提供する装置であって、
請求項1~10のいずれか一項の方法を用いて処理された映像を出力する出力部と、
ユーザからあらかじめ設定された選択命令が入力される入力部と、
前記映像から前記選択命令が入力された時点のフレームをキャプチャーし、前記フレームに含まれた客体を識別する制御部と、
を含み、
前記出力部は、前記識別された客体にマッピングされた客体情報を出力する客体情報提供装置。
【請求項13】
請求項1~10のいずれか一項の方法を実行させるためにコンピュータ読取り可能媒体に格納された映像処理応用プログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像前処理方法、装置及びコンピュータプログラムに関し、より詳細には、映像に含まれた客体の検索を容易にするための映像前処理方法、装置及びコンピュータプログラムに関する。
【背景技術】
【0002】
イメージ、ビデオなどのマルチメディアサービスの需要が増加し、携帯用マルチメディア機器が普遍化するにつれて、膨大な量のマルチメディアデータを管理し、消費者の所望するコンテンツを迅速且つ正確に捜して提供する効率的なマルチメディア検索システムの必要性も増大している。
【0003】
従来は、映像に含まれた商品客体と類似の商品の情報を提供するサービスにおいて、イメージ検索を行うよりは、映像内の商品客体を管理者が別途に定義し、それを含む映像を提供する方式を多く利用した。このような方式は、特定映像に含まれた客体のうち、管理者の指定した客体に対してのみ類似商品の確認が可能であるという点で、消費者のニーズを満たすには限界があった。
【0004】
ただし、映像に含まれた商品客体に対していちいち検索を行うには、データ処理量があまりにも膨大である問題がある。また、映像は一つ以上のフレーム(イメージ)からなっており、各フレームは複数の客体を含むので、数多くの客体中のいずれの客体をクエリーイメージと定義するかも問題になる。
【0005】
映像に含まれた客体を識別するための技術として、韓国公開特許第10-2008-0078217号(発明の名称:映像に含まれた客体索引方法とその索引情報を用いた付加サービス方法及びその映像処理装置、公開日:2008.08.27.)がある。この先行文献は、特定映像に含まれた客体の認識のために映像に含まれた客体の相対的な位置を管理し保存するための仮想のフレームとセルを管理することによって、表示装置上で視聴者の指定した位置の客体を正確に判断できるようにする方法を提供している。
【0006】
しかしながら、この先行文献は客体を識別する方法の一つを開示しているだけで、検索を効率的に行うために映像処理に要求されるリソースを減らす問題については認識していない。したがって、映像処理に要求されるリソースを最小化し、検索の正確性及び効率性を高める方案が望まれる。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、前述した問題点を解決するためのものであり、映像に含まれた客体の中から、検索の必要な客体を迅速且つ正確に識別することを一目的とする。
【0008】
また、本発明は、客体ベースイメージ検索(Objective-based imaging search)の効率性を極大化し、映像処理に用いられるリソースを最小化できる映像処理方法を提供することを他の目的とする。
【0009】
また、本発明は、映像を視聴する消費者が必要とする情報を正確に提供し、映像提供者中心の情報提供ではなく、ユーザ中心の情報提供ができるように映像を処理することを他の目的とする。
【課題を解決するための手段】
【0010】
このような目的を達成するための本発明は、任意の映像を処理する方法において、前記映像を、一つ以上のフレームを含む場面(scene)単位に区分する段階、前記場面からあらかじめ設定された基準による検索対象フレームを選定する段階、前記検索対象フレームにおいて、あらかじめ設定された主題に関連した客体を識別する段階、前記客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、前記客体に検索結果をマッピングする段階を含むこと特徴とする。
【発明の効果】
【0011】
前述したような本発明によれば、映像に含まれた客体のうち、検索が必要な客体を迅速且つ正確に識別することができる。
【0012】
また、本発明によれば、客体ベースイメージ検索の効率性を極大化し、映像処理に用いられるリソースを最小化することができる。
【0013】
また、本発明によれば、映像を視聴する消費者が必要とする情報を正確に提供でき、映像提供者中心の情報提供ではなく、ユーザ中心の情報提供が可能になる。
【図面の簡単な説明】
【0014】
図1】本発明の一実施例に係る客体情報提供装置を説明するためのブロック図である。
図2】本発明の一実施例に係る客体情報提供方法を説明するためのフローチャートである。
図3】本発明の一実施例に係る映像処理方法を説明するためのフローチャートである。
図4】本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。
図5】本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。
図6】本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。
図7】本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。
図8】本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。
図9】本発明の一実施例に係る検索対象フレーム選定方法を説明するためのフローチャートである。
図10】本発明の他の実施例に係る検索対象フレーム選定方法を説明するためのフローチャートである。
図11】本発明の一実施例によって映像において識別される客体を示す図である。
【発明を実施するための形態】
【0015】
前述した目的、特徴及び長所が添付の図面を参照して詳しく後述され、これによって、本発明の属する技術の分野における通常の知識を有する者が本発明の技術的思想を容易に実施できるだろう。本発明を説明する上で本発明に関する公知技術の具体的な説明が本発明の要旨を却って曖昧にし得ると判断される場合には、その詳細な説明を省く。以下、添付の図面を参照して本発明に係る好ましい実施例を詳しく説明する。図面中、同一の参照符号は同一又は類似の構成要素を示すものとして使用され、明細書及び特許請求の範囲に記載された全ての組合せは任意の方式で組み合わせ可能である。そして、特に規定しない限り、単数と言及された場合、一つ以上を含み得ると理解し、単数表現に対する言及も複数表現を含み得ると理解すべきである。
【0016】
図1は、本発明の一実施例に係る客体情報提供装置を説明するためのブロック図である。図1を参照すると、本発明の一実施例に係る客体情報提供装置100は、 通信部110、出力部130、入力部150、制御部170を含む。
【0017】
客体情報提供装置100は、コンピュータ、ノートパソコン、又はタブレット、スマートフォンのような携帯用端末機であり得る。なお、客体情報提供装置100は、有線または無線ネットワークを用いてサーバーからデータを受信し、ユーザ入力に応じて、受信したデータを制御、管理又は出力する端末であり、人工知能スピーカー、セットトップボックス(Set-Top Box)の形態で具現され得る。
【0018】
通信部110は、サーバーから、本発明の一実施例に係る映像処理方法によって処理された映像を受信することができる。
【0019】
出力部130は、本発明の一実施例に係る映像処理方法によって処理された映像をディスプレイモジュール(図示せず)に出力することができる。出力部130の出力する映像は、通信部110から受信したものでもよいが、データベース(図示せず)にあらかじめ保存されたものであってもよい。仮に、客体情報提供装置内で本発明の一実施例に係る映像処理がなされた場合、出力部130は、映像処理装置から処理された映像を受信して出力することができる。本発明の一実施例に係る映像処理方法に関する詳細な説明は、図3図11を用いて後述する。本発明の一実施例によって処理された映像には、映像内に含まれている客体に関する情報がマッピングされているが、出力部130 は、ユーザ設定にしたがって映像を再生しながら客体情報を共に表示することもでき、オリジナル映像を再生する途中にユーザ入力が受信されると、マッピングされた客体情報を表示してもよい。出力部130 はディスプレイモジュールに伝送される映像を編集及び管理し、以下では、ユーザ入力が受信されると客体情報を表示する場合の一実施例を説明する。
【0020】
入力部150は、ユーザからあらかじめ設定された選択命令が入力される。入力部150はユーザから情報を受け取るためのもので、入力部150は機械式(mechanical)入力手段(又は、メカニカルキー、例えば移動端末機100の前・後面又は側面に位置するボタン、ドームスイッチ(dome switch)、ジョグホイール、ジョグスイッチなど)及びタッチ式入力手段を含むことができる。一例として、タッチ式入力手段は、ソフトウェア的な処理によってタッチスクリーンに表示される仮想キー(virtual key)、ソフトキー(soft key)又はビジュアルキー(visual key)からなるか、前記タッチスクリーン以外の部分に配置されるタッチキー(touch key)からなり得る。一方、前記仮想キー又はビジュアルキーは、様々な形態でタッチスクリーン上に表示されることが可能であり、例えば、グラフィック(graphic)、テキスト(text)、アイコン(icon)、ビデオ(video)又はこれらの組合せからなり得る。
【0021】
また、入力部150は、外部の音響信号を電気的な音声データとして処理するマイクロホンであり得る。マイクロホンから客体情報提供装置100を活性化させる音声又はあらかじめ設定された音声命令が入力されると、入力部150は選択命令が受信されたと判断できる。例えば、客体情報提供装置100のニックネームが‘テリー’であり、‘ハイテリー’という音声が入力されると客体情報提供装置100が活性化されるように設定することができる。もし、活性化音声を選択命令として設定した場合、映像出力中にユーザの‘ハイテリー’という音声が入力部150から受信されると、制御部170は、入力された時点のフレームをキャプチャーする選択命令が受信されたと判断し、当該時点のフレームをキャプチャーすることができる。
【0022】
また、入力部150はカメラモジュールを含むことができる。この場合、あらかじめ設定された選択命令は、カメラモジュールによって認識されるユーザジェスチャーであってもよく、カメラモジュールによってあらかじめ設定されたジェスチャーが認識されると、制御部170はそれを選択命令として認知できる。
【0023】
制御部170は、映像から、選択命令が入力された時点のフレームをキャプチャーし、キャプチャーしたフレームに含まれた客体を識別することができる。フレームはディスプレイ装置に出力されている映像のスクリーンショトであり得、選択命令が入力された時点の前後における、あらかじめ設定された範囲内に含まれる複数のフレームのうち一つであり得る。この場合、入力時点を中心に一定範囲内のフレームのいずれか一つを選択することは、後述する検索対象フレームの選定方法と類似であり得る。
【0024】
制御部170は、ユーザ選択入力に対応するフレームから客体を識別すると、当該客体にマッピングされた客体情報を確認して出力部130に伝送することができる。出力部130は確認された客体情報を出力できるが、ディスプレイ装置で表示される方式に特に制限はない。
【0025】
図2は、本発明の一実施例に係る電子装置の客体情報提供方法を説明するためのフローチャートである。図2を参照すると、まず、本発明の一実施例による映像処理がなされる(S1000)。映像処理はサーバーでなされてもよく、電子装置内でなされてもよい。映像処理がサーバーでなされた場合、電子装置は、処理された映像をサーバーから受信し、それを再生することができる。段階1000に関する詳細な説明は、図3で後述する。
【0026】
電子装置は、処理された映像を再生し(S2000)、ユーザからあらかじめ設定された選択命令が入力されると、選択命令が入力された時点のフレームをキャプチャーできる(S4000)。そして、フレームに含まれた客体にマッピングされた客体情報を画面に表示することができる(S5000)。客体情報は、処理された映像に含まれるものであり、段階3000でユーザ要請に対応する選択命令が入力されると画面に表示され得る。
【0027】
他の実施例として、電子装置は処理された映像を再生しながら、ユーザの選択命令に関係なく、各客体にマッピングされた客体情報を共に表示してもよい。
【0028】
図3は、本発明の一実施例に係る電子装置の映像処理方法を説明するためのフローチャートである。以下では説明の便宜のために、サーバーが映像を処理する実施例を中心に説明する。
【0029】
図3を参照すると、サーバーは客体情報を提供するために映像を処理するとき、映像を、一つ以上のフレームを含む場面(scene)単位に区分することができる(S100)。
【0030】
図4を参照して映像を場面単位に区分する段階100の一実施例について説明する。場面(Scene)は、類似の主題又は出来事に関連している映像の一単位であり、辞典的には映画、演劇、文学作品におけるある情景を意味する。本明細書で映像を区分する場面単位も、一つの出来事又は主題に関連している一つ以上のフレームを意味するものと理解され得る。すなわち、一場面は、空間又は人物の変化が急激でないので、映像内に含まれる客体が(動くことを除けば)フレーム内で大きく変化することなく維持され得る。本発明は、映像を場面単位に区分し、場面のいずれか一つのフレームだけを選択してイメージ分析に活用することによって、分析すべきデータ量を著しく減らす。
【0031】
例えば、フレーム単位で客体をトラッキング(tracking)する場合、過多なリソースを消耗する問題がある。一般に、映像は秒当たり20~60枚程度のフレームを使用し、フレームレート(FPS:Frame Per Second)は、電子装置の性能が改善されるにつれて益々増加する趨勢にある。秒当たり50枚のフレームが用いられるとすれば、10分の映像は3万枚のフレームからなる。フレーム単位の客体トラッキングは、3万枚のフレームのそれぞれにどのような客体が含まれているかをいちいち分析すべきことを意味するので、機械学習を用いてフレーム中の客体の特徴を分析するとしても処理容量があまりにも大きくなってしまうという問題がある。したがって、サーバーは次のような方式で映像を場面単位に区分することによって処理容量を減らし、処理速度を上げることができる。
【0032】
サーバーは、段階100でフレームのカラースペクトルを識別し(S113)、連続する第1フレームと第2フレーム間のカラースペクトルの変化があらかじめ設定された臨界値以上か否か判断し(S115)、カラースペクトルの変化があらかじめ設定された臨界値以上であれば、第1フレームと第2フレームの場面を区分することができる(S117)。仮に、連続する2フレーム間にカラースペクトルの変化がなければ、次のフレームに対して段階115の判断を再び行うことができる。
【0033】
段階100のさらに他の実施例として、サーバーはフレームから任意の客体と推定される特徴情報を探知(detect)し、第1フレームに含まれた第1特徴情報が連続する第2フレームに含まれているか判断することができる。サーバーは、第2フレームに第1特徴情報が含まれていなければ、第1フレームと第2フレームの場面を区分することができる。すなわち、任意の客体と推定される特徴情報が含まれているフレームを一場面として設定するものの、特定フレームで当該特徴情報がそれ以上含まれないと、そのフレームから別の場面として区分できる。探知(detect)は認識(recognition)又は識別(identify)とは異なる概念であり、イメージにおける客体の存在有無を検知するためのものである点で、客体がどのような客体であるかを識別する認識よりは一レベル低い作業であるといえる。より具体的に、任意の客体と推定される特徴情報の探知は、客体(object)と背景との間の境界などを用いて物体であるか否かを区別したり、或いはグローバルディスクリプタを利用することができる。
【0034】
段階100のさらに他の実施例として、図5を参照すると、サーバーは、連続する第1フレームと第2フレームとのマッチング率を演算し(S133)、マッチング率があらかじめ設定された値未満であるかどうか判断できる(S135)。マッチング率は、両フレーム間のイメージのマッチング程度を示す指標であり、背景が重複したり、フレームに含まれた人物が同じ場合にはマッチング率が高くなり得る。
【0035】
例えば、映画やドラマのような映像で同一の人物が同一の空間で繰り広げる出来事と関連している連続したフレームは人物と空間がマッチングされるため、マッチング率が非常に高く現れるはずであり、したがって、これらのフレームは同一場面として分類され得る。サーバーは、段階135の判断結果、マッチング率があらかじめ設定された値未満であれば、第1フレームと第2フレームの場面を区分できる。すなわち、映像に表示される空間が変化されたり登場人物が変化したりする場合には、連続するフレーム間のマッチング率が顕著に低下するので、このような場合、サーバーは、場面が切り替わったと判断し、各フレームの場面を区分することができ、第1フレームは第1場面に、第2フレームは第2場面に設定され得る。
【0036】
段階100のさらに他の実施例として、図6を参照すると、サーバーは、各フレームの周波数スペクトルを識別し(S153)、連続する第1フレームと第2フレーム間の前記周波数スペクトルの変化があらかじめ設定された臨界値以上であれば(S155)、前記第1フレームと前記第2フレームの場面を区分することができる(S157)。段階153でサーバーは、DCT(Discrete Cosine Transform)、DST(Discrete Sine Transform)、DFT(Discrete Fourier Transform)、MDCT(Modified DCT,Modulated Lapped Transform)などを用いて各フレームの周波数スペクトルを識別することができる。周波数スペクトルは、フレームに含まれるイメージの周波数成分の分布を表すものであり、低い周波数領域には全体的なイメージの輪郭に関する情報を表し、高い周波数領域にはイメージの細かい部分に関する情報を表すと理解され得る。段階155における周波数スペクトルの変化は、成分別に大きさの比較を用いて測定可能である。
【0037】
段階100のさらに他の実施例として、図7を参照すると、サーバーは各フレームをあらかじめ設定された大きさの一つ以上の領域に分割し(S171)、領域別にカラースペクトル又は周波数スペクトルを識別することができる(S173)。サーバーは、連続する第1フレームと第2フレームにおいて対応する領域のカラースペクトルの差又は周波数スペクトルの差を演算し(S175)、領域別の差の絶対値を合算する(S177)。そして、合算した結果値があらかじめ設定された臨界値以上であれば、第1フレームと第2フレームの場面を区分することができる。
【0038】
さらに他の実施例として、図8に示すように、各フレームをあらかじめ設定された大きさの一つ以上の領域に分割し(S183)、連続する第1フレームと第2フレームにおいて対応する領域別マッチング率を演算し(S185)、前記マッチング率の平均があらかじめ設定された値未満であれば(S187)、前記第1フレームと前記第2フレームの場面を区分することができる(S189)。
【0039】
図7及び図8を参照して上述した例示のように、フレームを一つ以上の領域に分割し、前後のフレームを領域別に比較すると、フレームが全体的には似ているが、部分的には差異が大きい場合を見出すことができる。すなわち、前述する2つの実施例によれば、さらに細分化した場面の区分が可能である。
【0040】
段階100の後に、サーバーは、場面から、あらかじめ設定された基準による検索対象フレームを選定することができる(S200)。本明細書において検索対象フレームは、客体ベース検索を行うための対象客体を含むフレームを意味するものと理解され得る。すなわち、本発明の一実施例においてサーバーは、映像に含まれた全フレームの客体をトラッキングして分析するのではなく、検索対象フレームを指定し、検索対象フレームに含まれた客体だけを分析することによって、リソースを減らすことができる。サーバーは全フレームを分析するわけではないので、検索の正確性を最も高くできる客体を抽出するために、段階200で客体ベース検索時に正確性の高い検索結果が得られるフレームを検索対象フレームとして選定することができる。
【0041】
一例として、図9を参照すると、サーバーは検索対象フレームを選定するとき、フレームにおいてブラー領域を識別し(S213)、ブラー領域がフレームに占める比重を演算することができる(S215)。そして、サーバーは、第1場面に含まれる一つ以上のフレームのうち、ブラー領域の比重が最も低いフレームを、第1場面の検索対象フレームとして選定できる(S217)。ブラー領域は、映像でぼやけて表示される領域であり、客体検出が不可能であるか、客体ベースイメージ検索の正確性を低下させることがある。ブラー領域には、客体性を不明瞭にするピクセルが多数混合されることがあり、このようなピクセルは、客体を検出又は分析する際に誤りを生じさせる。したがって、サーバーは、ブラー領域の比重が最も低いフレームを各場面の検索対象フレームとして選定することによって、以降の客体検出及び分析、客体ベースイメージ検索の正確性を高くすることができる。
【0042】
本発明の一実施例において、サーバーは、フレームにおいてローカルディスクリプタが抽出されない領域をブラー領域として識別することによって、ブラー領域を検出することができる。ローカルディスクリプタは、客体イメージの核心部分を示す特徴ベクトルであり、SIFT、SURF、LBP、BRISK、MSER、FREAKなどの様々な方式で抽出可能である。ローカルディスクリプタは、客体イメージ全体を説明するグローバルディスクリプタと区別され、客体認識のような上位レベルの応用プログラムで用いられる概念である。本明細書においてローカルディスクリプタは通常の技術者に通用される意味で使われた。
【0043】
検索対象フレームを選定する段階200の他の実施例として、図10を参照すると、サーバーはフレームから特徴情報を抽出し(S233)、第1場面に含まれる一つ以上のフレームのうち、抽出された特徴情報が最も多いフレームを第1場面の検索対象フレームとして選定できる(S235)。特徴情報は、グローバルディスクリプタもローカルディスクリプタも含む概念であり、客体の輪郭、形態、テクスチャー又は特定客体を認識できる特徴点、特徴ベクトルを含むことができる。
【0044】
すなわち、サーバーは、客体を認識する程度ではないが、客体が存在するということを探知できるレベルの特徴情報を抽出し、特徴情報を最も多く含んでいるフレームを検索対象として指定できる。その結果、サーバーは、段階300で、場面別に特徴情報を最も多く含むフレームを用いて客体ベースイメージ検索を行うことができ、全フレームで客体を抽出しなくても、見逃す客体を最小化し、高い正確性で客体を検出、活用することができる。
【0045】
300でサーバーは検索対象フレームから、あらかじめ設定された主題に関連した客体を識別することができる。客体の識別は、客体の特徴情報を抽出する動作によって行い得る。この段階で、サーバーは、以前の段階(S100,S200)でなされた客体の探知に比べてより詳細に客体を識別することができる。すなわち、客体識別アルゴリズムにおいてより正確性の高いアルゴリズムを用いることができ、したがって、検索対象フレームから客体を見逃すことなく抽出する。
【0046】
例えば、ドラマ映像を処理する場合を仮定する。サーバーは段階100において、ドラマ映像において台所で行われる一つ以上のフレームを一場面として区分でき、段階200で、あらかじめ設定された基準による検索対象フレームを選定することができる。
【0047】
図11が段階200で選定された検索対象フレームである場合、図11のフレームは、台所でなされる場面のうち、ブラー領域の比重が最も低いため、検索対象フレームとして選定されたものであってもよく、当該場面のうち、探知される客体の数が最も多いため選定されたものであってもよい。図11の検索対象フレームには鍋K10,K40、冷蔵庫K20,K30などの台所家電/機器と関連した客体が含まれており、上着C10、スカートC20、ワンピースC30のような衣類関連客体も含まれている。段階300でサーバーは前記客体K10~K40,C10~C30を検索対象フレームから識別する。
【0048】
この時、サーバーはあらかじめ設定された主題と関連している客体を識別することができる。図11に示すように、検索対象フレームでは多数の客体が探知され得るが、サーバーは、あらかじめ設定された主題に関連した客体を識別することによって必要な情報だけを抽出することができる。例えば、あらかじめ設定された主題が衣類である場合、サーバーは、検索対象フレームにおいて衣類に関連した客体だけを識別でき、この場合、上着C10、スカートC20、ワンピースC30などを識別できる。もし、あらかじめ設定された主題が台所家電/機器である場合には、K10、K20、K30、K40を識別するだろう。ここで、‘主題’は、客体を区別するカテゴリーを意味し、ユーザ設定によって任意の客体を定義するカテゴリーは上位概念であってもよく、下位概念であってもよい。例えば、主題は、衣類のような上位概念として設定されてもよく、スカート、ワンピース、Tシャツのような下位概念として設定されてもよい。
【0049】
主題を設定する主体は、サーバーを管理する管理者であってもよく、ユーザであってもよい。主題がユーザによって定められる場合、サーバーはユーザ端末から主題に関する情報を受信し、受信した主題情報に基づいて検索対象フレームから客体を識別することができる。
【0050】
次に、サーバーは、段階400で、識別された客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、段階500で客体に検索結果をマッピングすることができる。例えば、衣類に関連する客体が識別された場合、サーバーは、識別された上着C10と類似するイメージをイメージデータベースから検索し、上着C10に対応するイメージを取得することができる。また、サーバーはデータベースで上着C10に関連した客体情報、すなわち、黒色の生地に白色の斜線柄がプリンティングされている上着に関連した広告イメージ及び/又は映像、価格、ブランド名、購入可能なオンライン/オフラインの売り場などの客体情報を取得することができる。この時、データベースは、あらかじめ生成されてサーバー内に含まれていてもよいが、ウェブページなどをクローリングして類似イメージのリアルタイム検索によって実時間で構築されてもよい。また、サーバーが外部に構築されたデータベースを用いて検索を行ってもよい。
【0051】
検索結果、すなわち、前記識別された客体に対応するイメージ、客体に対応する商品情報(価格、ブランド名、商品名、商品コード、商品種類、商品特徴、購買場所など)、広告テキスト、広告映像、広告イメージなどは、識別された客体にマッピングされ、このようにマッピングされた検索結果は、映像再生の際に、映像に隣接したレイヤに表示されたり、或いは映像内又は映像の上位レイヤに表示され得る。または、映像再生時にユーザ要請に対応して検索結果が表示されてもよい。
【0052】
本明細書で省略された一部の実施例は、その実施主体が同じ場合、同一に適用可能である。また、前述した本発明は、本発明の属する技術の分野における通常の知識を有する者にとって、本発明の技術的思想を逸脱しない範囲内で様々な置換、変形及び変更が可能であり、前述した実施例及び添付の図面によって限定されるものではない。

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11