(58)【調査した分野】(Int.Cl.,DB名)
前記識別器検出部は、前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データに対して前記識別器により検出を行い、
検出結果に基づいて前記学習データのラベルに正例または負例を設定し、
前記識別器構築部は、前記学習データ記憶部に学習データが追加されたときには、前記識別器検出部によるラベルの設定後に、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する、
ことを特徴とする請求項1に記載の学習装置。
前記学習データ記憶部に登録された前記初期の学習データ、あるいは、前記識別器検出部によりラベルが設定された前記学習データに対して、ユーザ入力または他の識別器による前記学習データの検出結果に基づいて前記学習データのラベルを修正する学習データ修正部をさらに備え、
前記識別器構築部は、前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ修正部によるラベルの修正後に、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する、
ことを特徴とする請求項2に記載の学習装置。
前記映像データの音声を表すテキストデータに、構築する前記識別器による検出対象を表すキーワード及び当該キーワードに関連する他のキーワードが含まれるかを検出し、検出されたテキストデータに対応した映像データの特徴量に正例のラベルを付与して初期の学習データを生成し、前記学習データ記憶部に登録する初期学習データ生成部をさらに備える、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の学習装置。
【背景技術】
【0002】
映像を検索する技術として、色ヒストグラムを索引として利用する手法がある。具体的には、与えられたクエリ映像に対して色ヒストグラムを算出し、予め用意されている映像の中から同様の色ヒストグラムを持つ映像区間を検索する。この手法では、検索対象の映像における時間窓の位置をずらしながら、色ヒストグラムが類似する区間を検索していくことによって類似映像区間を特定する。しかし、映像の色を利用した検索手法の場合、映像の内容を全く考慮していないため、意味的には同一なオブジェクトの映像であっても色が異なる場合は検出できなかったり、全く異なるオブジェクトやイベントであっても色が似ている場合は、同一とみなされたりしてしまう。
【0003】
そこで、映像についての高度な検索や要約のためには、色やテクスチャなどの表層的な特徴ではなく、意味内容を考慮した索引が必要である。そこで、対象物がある分類に属するかを判断する識別器を検索に利用することが考えられる。このような識別器を構築するためには、正例、及び負例の学習データを用いて学習を行う。正例とは、検出対象の物体や事象が出現しているデータを表し、負例とは、検出対象の物体や事象が出現していないデータを表す。
【0004】
図7は、学習データを用いた識別器の構築を説明するための図である。同図は、学習データから得られる特徴量を各要素としたベクトルが配置されるベクトル空間を示しており、実際は多次元である。各点は、学習データの特徴ベクトルの位置を示し、黒い点は正例を、白抜きの点は負例を示す。識別器の構築とは、点線で示すように、この空間における正例と負例の境界を定めることに相当する。よって、境界付近の学習データを多く集めるほど、精度の高い識別器を構築することができる。
【0005】
学習データに対して、正例であるか負例であるかのラベルを正確に付与するためには、すべての学習データの内容を人間が確認してラベルを付与するという手法がもっとも確実である。しかし、十分に汎用的な識別器を構築するためには、大量のデータが必要となることから、様々な種類の物体や事象に対する学習データをこのような方法で作成することは非常に難しい。
【0006】
この問題を解決するための方法として、正例か負例かのラベルがすでに付与されている一部の学習データを用いて識別器を学習し、その検出結果に基づいてラベルを修正するという手続きを繰り返すことによって、識別器を構築するアプローチがある。この方法においては、最初のラベルをどのように与えるかが重要となる。これは、ラベルを基に識別器の学習と、学習データの修正とを反復することから、最初の学習データが偏っていると、一部のデータに特化した識別器が構築されてしまうためである。例えば、時計全般を検出する識別器を構築する際、初期の学習データに腕時計しか含まれていないと、掛け時計や置き時計などは精度よく検出できない識別器が構築されてしまう。あるいは、初期の学習データが特定のアングルで撮影されたものしか含まれていない場合、そのアングルでしか精度よく検出できないといったことも考えられる。
【0007】
初期の学習データの作成方法としては、別々に開発された複数の識別手法により検出された結果を用いて識別器を学習し、最初の学習データを生成するというものがある(例えば、非特許文献1参照)。
【発明の概要】
【発明が解決しようとする課題】
【0009】
非特許文献1のような初期の学習データの作成方法では、最初の学習データの生成に用いる識別手法において、十分な精度と多様性が確保されているかが問題となる。また、識別器自体をどのように学習するかという問題もある。
【0010】
本発明は、このような事情を考慮してなされたもので、多様性のある学習データを用いた学習により映像から特定の物体や事象などの検出対象を高い精度で検出する識別器を構築する学習装置、及びプログラムを提供する。
【課題を解決するための手段】
【0011】
[1] 本発明の一態様は、映像データを記憶する映像データ記憶部と、映像データの特徴量と当該映像データに検出対象が出現している正例であるか出現していない負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部と、前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する識別器構築部と、前記識別器構築部が構築した前記識別器により、前記学習データ記憶部に記憶されている前記学習データに対して
、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを、前記識別器を用いて検出する検出処理を行う識別器検出部と、前記識別器検出部による検出結果に基づいて前記識別器の精度を判定する判定部と、前記判定部において識別器の精度が所定の精度に達していないと判断された場合、前記映像データ記憶部に記憶されている前記映像データのうち一部を選択し、選択した前記映像データの特徴量に正例のラベルを付与して生成した学習データを前記学習データ記憶部に追加する学習データ追加部と、を備え
、前記学習データ追加部は、前記映像データ記憶部に記憶されている前記映像データのうち、ランダムに選択した前記映像データ、前記学習データ記憶部に記憶されている正例の前記学習データが得られた映像データに類似する映像データ、あるいは、構築対象の前記識別器と類似の検出対象に対応した他の識別器によって検出された前記映像データの中から一部を選択する、ことを特徴とする学習装置である。
この態様によれば、学習装置は、正例及び負例の初期の学習データから、映像が検出対象に関連するかを検出する識別器を構築し、構築した識別器により学習データを対象に検出処理を行って精度を確認する。精度が低い場合、学習装置は、映像データ記憶部に記憶されている映像データの中の一部から学習データを生成し、現在の学習データに正例として追加する。学習装置は、精度が高くなるまで、学習データを用いた識別器の構築と、学習データの追加を繰り返す。
これにより、学習装置は、偏りのない学習データを生成することができるため、映像から特定の物体や事象などの検出対象を高い精度で検出する識別器を構築することが可能となる。
【0012】
また、この態様によれば、学習装置は、登録されている映像データの中から、無作為に選択した映像データ、正例の映像データに視覚的あるいは聴覚的に類似性の高い映像データ、あるいは、構築対象の識別器が検出対象としている物体や事象と意味的に類似した検出対象を検出する学習済みの識別器を使用して検出された映像データの一部を選択し、選択した映像データから学習データを生成して現在の学習データに追加する。
これにより、学習装置は、多様性が向上するように学習データを追加することができるため、より精度の高い識別器の構築が可能となる。
【0013】
[
2] 本発明の一態様は、上述した学習装置であって、前記識別器検出部は、前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データに対して前記識別器により検出を行い、検出結果に基づいて前記学習データのラベルに正例または負例を設定し、前記識別器構築部は、前記学習データ記憶部に学習データが追加されたときには、前記識別器検出部によるラベルの設定後に、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する、ことを特徴とする。
この態様によれば、学習装置は、繰り返し処理における識別器の構築前に、追加後の学習データを含む全ての学習データに対して現在の識別器により検出を行い、検出結果に基づいて学習データのラベルを書き換える。
これにより、学習データのラベルの誤りが修正されるため、構築される識別器の性能を向上させることができる。
【0014】
[
3] 本発明の一態様は、上述した学習装置であって、前記学習データ記憶部に登録された前記初期の学習データ、あるいは、前記識別器検出部によりラベルが設定された前記学習データに対して、ユーザ入力または他の識別器による前記学習データの検出結果に基づいて前記学習データのラベルを修正する学習データ修正部をさらに備え、前記識別器構築部は、前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ修正部によるラベルの修正後に、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する、ことを特徴とする。
この態様によれば、学習装置は、識別器の構築前に、学習データの正例、負例のラベルを、ユーザの入力、あるいは、他の識別器による検出結果に基づいて修正する。
これにより、学習データのラベルの誤りが精度よく修正されるため、構築される識別器の性能を向上させることができる。
【0015】
[
4] 本発明の一態様は、上述した学習装置であって、前記映像データの音声を表すテキストデータに、構築する前記識別器による検出対象を表すキーワード及び当該キーワードに関連する他のキーワードが含まれるかを検出し、検出されたテキストデータに対応した映像データの特徴量に正例のラベルを付与して初期の学習データを生成し、前記学習データ記憶部に登録する初期学習データ生成部をさらに備える、ことを特徴とする。
この態様によれば、映像の色やテクスチャなどの表層的な特徴ではなく、映像データの内容に基づいて初期の学習データを生成することができる。
これにより、学習装置は、映像データの内容に基づいて多様性のある初期の学習データを生成し、意味内容に基づく映像を精度よく検索可能とする識別器を構築することができる。
【0016】
[
5] 本発明の一態様は、映像データの特徴量と当該映像データに検出対象が出現している正例であるか出現していない負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部、映像の特徴量と検出対象に対して正例であるか負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部、前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する識別器構築部、前記識別器構築部が構築した前記識別器により、前記学習データ記憶部に記憶されている前記学習データに対して
、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを、前記識別器を用いて検出する検出処理を行う識別器検出部、前記識別器検出部による検出結果に基づいて前記識別器の精度を判定する判定部、前記判定部において識別器の精度が所定の精度に達していないと判断された場合、前記映像データ記憶部に記憶されている前記映像データのうち一部を選択し、選択した前記映像データの特徴量に正例のラベルを付与して生成した学習データを前記学習データ記憶部に追加する学習データ追加部、として機能させ
、前記学習データ追加部が、前記映像データ記憶部に記憶されている前記映像データのうち、ランダムに選択した前記映像データ、前記学習データ記憶部に記憶されている正例の前記学習データが得られた映像データに類似する映像データ、あるいは、構築対象の前記識別器と類似の検出対象に対応した他の識別器によって検出された前記映像データの中から一部を選択するよう機能させるプログラムである。
【発明の効果】
【0017】
本発明によれば、多様性のある学習データを生成し、生成された学習データを用いた学習により映像から特定の物体や事象などの検出対象を高い精度で検出する識別器を構築することができる。
【発明を実施するための形態】
【0019】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
【0020】
図1は、本発明の一実施形態による学習装置1の構成を示すブロック図であり、本実施形態に関係する機能ブロックのみを抽出して示してある。学習装置1は、例えば、1台または複数台のサーバコンピュータ等のコンピュータ装置により実現することができる。
【0021】
学習装置1は、入力された映像データ(以下、「入力映像データ」と記載する。)から生成された正例及び負例の学習データを用いて学習を行い、識別器を構築する。ここで、正例とは、検出対象の物体(オブジェクト)や事象(イベント)が映像に出現していることを表し、負例とは、出現していないことを表す。また、識別器は、映像の特徴を入力とし、その映像が検出対象の物体や事象と関連するかを検出するアルゴリズムである。
【0022】
そこでまず学習装置1は、入力映像データの音声を表すテキストを利用し、構築する識別器の検出対象を表すキーワードや、そのキーワードの同義語や類語、あるいは、キーワードと意味的な包含関係がある他のキーワードに対応する映像区間を抽出する。学習装置1は、抽出した映像区間を正例の初期の学習データとして識別器を構築し、構築した識別器の精度が十分でなければ、できるだけ多様性のある学習データを生成するために学習データを追加、修正し、再び識別器を構築する処理を繰り返す。
【0023】
学習装置1は、学習データを追加する際、入力映像データをある単位で分割した映像区間の中から、無作為に選択した映像区間、正例と視聴覚的に類似性の高い映像区間、意味的に類似したキーワードに対応する学習済みの識別器を使用して検出された映像区間の映像データを一定割合だけ正例として既に生成されている学習データに混合する。これにより、学習データが一部に偏ったものにならないようにし、精度の高い識別器の構築を可能とする。
【0024】
同図に示すように、学習装置1は、記憶部10、入力部11、映像区間分割部12、初期学習データ生成部13、学習データ修正部14、識別器構築部15、識別器検出部16、識別器判定部17、及び学習データ追加部18を備えて構成される。
【0025】
記憶部10は、ハードディスク装置や半導体メモリなどで実現され、映像データ記憶部101、学習データ記憶部102、及び識別器記憶部103を備えて構成される。
映像データ記憶部101は、入力映像データ、及び音声テキストデータを記憶する。入力映像データは、動画のコンテンツデータであり、本実施形態では、動画として放送番組を用いる場合について説明する。
音声テキストデータは、入力映像データの音声を示すテキストデータと、そのテキストデータが対応する入力映像データの映像部分を特定する同期データとを含む。本実施形態では、音声テキストデータとして、番組音声の書き起こしを示すクローズドキャプションデータや、入力映像データに含まれる音声を音声認識した結果を示す音声認識データを用いる。
【0026】
学習データ記憶部102は、識別器を構築するための学習データを記憶する。学習データは、入力映像データにおける映像区間と、特徴データと、正例であるか負例であるかのラベルとの対応付けを示す。特徴データは、映像区間における画像特徴量を示す。
【0027】
識別器記憶部103は、既存の識別器と、学習データから構築した新たな識別器とを記憶する。識別器は、それぞれ検出対象を表すキーワードと対応付けられ、映像データの画像特徴を表す特徴データを入力とし、その映像データが検出対象に関連するかを検出するアルゴリズムである。識別器は、例えば、サポートベクターマシンや決定木などの分類アルゴリズムを利用しており、入力された特徴データから映像が検出対象に関連する度合いを定量的に表す値を算出する。
【0028】
入力部11は、入力映像データ、新たに構築する識別器が検出対象とする物体や事象を表すキーワード、ユーザが選択したラベル書き換え対象の学習データを特定する情報などの各種データの入力を受ける。
映像区間分割部12は、各入力映像データを映像区間毎に分割する。本実施形態では、映像区間分割部12は、入力映像データを1ショット毎に分割する。1ショットとは、一台のカメラで連続的に撮影された区間であり、カメラの切り替え点によって挟まれた区間を表す。
【0029】
初期学習データ生成部13は、入力映像データから初期の学習データを生成する。初期学習データ生成部13は、クローズドキャプション抽出部131、番組音声認識部132、キーワード拡張部133、映像区間抽出部134、及び特徴データ抽出部135を備えて構成される。
クローズドキャプション抽出部131は、入力映像データからクローズドキャプションデータを抽出し、音声テキストデータとする。番組音声認識部132は、入力映像データの番組音声に対して音声認識処理を行い、音声テキストデータを生成する。キーワード拡張部133は、学習装置1と接続されるシソーラス記憶装置5が記憶するシソーラスや辞書を利用して、入力されたキーワードに類似するキーワードや、同義のキーワード、意味的に含有関係にあるキーワードなどを抽出する。映像区間抽出部134は、音声テキストデータを利用して、入力されたキーワード、あるいはキーワード拡張部133が抽出したキーワードに対応する映像区間を入力映像データから抽出する。特徴データ抽出部135は、映像区間抽出部134が抽出した映像区間の映像データから特徴データを取得し、最初の学習データを生成する。
【0030】
学習データ修正部14は、入力部11により入力された情報に基づいて、あるいは、学習を行う際の反復処理の過程において構築される識別器の検出結果に基づいて、学習データに付与された正例あるいは負例を表すラベルを修正する。初期学習データ生成部13は、キーワードに対応する映像区間をそのまま正例として最初の学習データを生成している。しかし、番組音声やクローズドキャプションにキーワードが含まれていても、映像に目的とする物体や事象が出現しているとは限らないため、最初の学習データが正例か負例かのラベルの修正が必要である。同様に、学習を行う際の反復処理の過程において構築される識別器の検出結果に基づいてラベルが付与された学習データについても、誤りや漏れが含まれている可能性がある。そのため、反復処理の過程においても学習データのラベルの修正が必要である。
【0031】
識別器構築部15は、学習データから識別器を構築する。
識別器検出部16は、識別器構築部15で構築された識別器を学習データに適用し、検出結果を得る。識別器検出部16は、検出結果により検出対象に関連すると判断された学習データを、次の正例の学習データとする。
識別器判定部17は、識別器構築部15により構築された識別器の精度が十分か否かを判定する。
【0032】
学習データ追加部18は、識別器判定部17により識別器の精度が十分ではないと判断された場合、学習データを追加する。単純に、識別器の検出結果により検出対象に関連すると判定された学習データを正例として再び識別子を構築すると、この識別器を学習した際の学習データに類似したものしか精度よく検出できなくなってしまう。また、最初のデータに、多様性が不十分といったような問題があると、特定のデータしか精度よく検出できない識別器が学習されてしまう恐れがある。そこで、学習データ追加部18は、現在学習させている識別器と全く依存関係がない方式の識別器によって入力映像データの映像区間から選択した映像データを正例の学習データとして加える。これによって、特定のデータに偏った識別器が学習されてしまうことを避ける。
【0033】
学習データ追加部18は、ランダムデータ選択部181、類似映像選択部182、類似識別器検出部183、及びデータ混合部184を備えて構成される。
ランダムデータ選択部181は、入力映像データの映像区間の中から無作為に抽出した映像区間の映像データを学習データへの追加候補とする。
類似映像選択部182は、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを選択し、学習データへの追加候補とする。
類似識別器検出部183は、識別器記憶部103内に記憶されているすでに学習済みの識別器の中から、入力されたキーワードと意味的に類似しているキーワード、関連のあるキーワード、意味的に含有関係にあるキーワードに対応した学習済みの識別器を選択する。類似識別器検出部183は、選択した学習済みの識別器を用いて入力映像データの映像区間を対象として検出処理を行い、検出された映像区間の映像データを学習データへの追加候補とする。
データ混合部184は、ランダムデータ選択部181、類似映像選択部182、類似識別器検出部183において追加候補とされた映像データを正例として、学習データに一定の割合だけ追加する。追加を複数回行う場合、データ混合部184は、学習データ修正部14において一度でも負例と判定されたデータについては、正例として学習データに追加しないようにする。
【0034】
図2は、音声テキストデータのデータ例を示す図である。同図に示す音声テキストデータは、クローズドキャプションデータであり、番組音声を示すテキストデータと、そのテキストデータに対応するタイムコード情報により示される同期データとを含む。
【0035】
図3は、学習データのデータ例を示す図である。同図に示すように、学習データは、映像区間を特定する映像区間特定データと、映像区間における画像特徴量を示す特徴データと、正例であるか負例であるかのラベルとを対応付けたデータである。映像区間特定データは、入力映像データの識別情報と、入力映像データにおける映像区間の開始位置及び終了位置とにより示され、開始位置及び終了位置は、例えば、タイムコード情報など入力映像データの先頭からの再生時間により示される。
【0036】
図4は、学習装置の処理手順のフローチャートを示す。
まず、学習装置1の入力部11は、入力映像データと、新たに構築する識別器の検出対象となる物体や事象を表すキーワードとの入力を受ける。入力部11は、入力映像データを映像データ記憶部101に書き込み、キーワードを初期学習データ生成部13に出力する。
【0037】
映像区間分割部12は、映像データ記憶部101に記憶されている入力映像データを読み出し、各入力映像データを1ショット単位で分割する。例えば、映像区間分割部12は、入力映像データが示す隣接フレーム間の映像の差分を計算し、計算した差分を指標としてカット点を検出すると、その検出したカット点で入力映像データを映像区間ごとに区切る。映像区間分割部12は、入力映像データに、各映像区間の開始位置及び終了位置を示す分割データを対応づけて映像データ記憶部101に書き込む(ステップS105)。以降、学習装置1は、この分割データに基づいて映像データにおける映像区間を特定する。
【0038】
続いて初期学習データ生成部13は、入力映像データから初期の学習データを生成する(ステップS110)。
まず、クローズドキャプション抽出部131は、入力映像データにクローズドキャプションが重畳されている場合、入力映像データからクローズドキャプションを抽出し、映像データ記憶部101に音声テキストデータとして書き込む。
【0039】
続いて番組音声認識部132は、クローズドキャプションが重畳されていない入力映像データから音声データを取得し、その取得した音声データが示す番組音声に対して音声認識を行う。番組音声認識部132は、番組音声を音声認識した結果を示すテキストデータと、その音声認識した音声が得られた入力映像データの映像部分を表す同期データとを対応づけた音声認識データを生成し、映像データ記憶部101に音声テキストデータとして書き込む。
【0040】
キーワード拡張部133は、学習装置1の外部または内部に備えられたシソーラス記憶装置5に記憶されているシソーラスや辞書を検索し、入力されたキーワードに類似のキーワードや、同義のキーワード、意味的に含有関係にあるキーワードなどを読み出す。例えば、キーワード拡張部133は、入力キーワードが「車」である場合、類似したキーワードや同義のキーワードとして「自動車」、「カー」、「タクシー」、「乗用車」…などを取得し、意味的に含有関係にあるキーワードとして「陸上交通」、「ワンボックスカー」、「軽自動車」…などを取得する。以下、入力されたキーワードに基づいて取得された類似のキーワード、同義のキーワード、意味的に含有関係にあるキーワードを「関連キーワード」と記載する。
【0041】
映像区間抽出部134は、映像データ記憶部101に記憶されている音声テキストデータを検索して入力キーワードや関連キーワードを検出し、検出した入力キーワードや関連キーワードに対応した同期データを取得する。この同期データは、キーワードが出現した番組内での時刻を表しており、その時刻をtとおくと、tはクローズドキャプションに記載されるタイムコード情報、あるいは音声認識された時間などに基づいて与えられたものである。映像区間抽出部134は、特定した同期データに対応した映像区間を入力映像データから抽出する。
【0042】
例えば、映像区間抽出部134は、キーワードの出現時刻tに対して、時刻t−δから時刻t+δまでの映像区間を選択する。なお、δは、予め決められた時間である。映像区間抽出部134は、時刻t−δを開始位置、時刻t+δを終了位置とする。
あるいは、映像区間抽出部134は、時刻tにおけるショットを選択する。この場合、映像区間抽出部134は、入力映像データに付加されている分割データで示される映像区間の中から、特定した同期データが示す時刻tが含まれる映像区間を選択する。
特徴データ抽出部135は、映像区間抽出部134が選択した映像区間の映像データから、映像の特徴量を表す特徴データを生成する。
【0043】
特徴データとして用いる特徴量は、様々なオブジェクトやイベントに対応する必要があるため、特定のオブジェクトやイベントに特化した特徴量でなく、より汎用的な特徴量を利用する。具体的には、グリッド領域における色モーメント、エッジ方向ヒストグラム、ガボールウェーブレット、ハールウェーブレット、ローカルバイナリパターンなどを組み合わせて特徴データを生成する。これは、例えば、「T. Ojala, M. Pietikaninen and T. Maenpaa, “Multiresolution gray-scale and rotation invariant texture classification with local binary patterns,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 7, pp. 971-987, 2002.」(参考文献1)に記載されている。
【0044】
あるいは、コーナーなどの特徴点近辺の局所領域における輝度勾配ヒストグラムに基づいて、それらの頻度ヒストグラムを作成するといった、一般物体認識におけるアプローチを利用する方法を組み合わせた特徴量を用いることも考えられる。これは、例えば、「G. Csurka, C. Bray, C. Dance and L. Fan, “Visual categorization with bags of keypoints,” in Proc. ECCV Workshop on Statistical Learning in Computer Vision, pp. 59-74, 2004.」(参考文献2)に記載されている。
その他には、時間方向を考慮した特徴量として、フレーム間の動きベクトル列や、フレーム間における特徴量の相関を考慮したり、音声の特徴を利用したりすることが考えられる。
【0045】
特徴データ抽出部135は、抽出した映像区間を示す映像区間特定データと、その映像区間の特徴データと、正例を示すラベルとを設定した学習データを生成して学習データ記憶部102に書き込み、最初の学習データとして登録する。
【0046】
続いて、学習データ修正部14は、現在すべて正例が設定されている最初の学習データのラベルを修正する(ステップS115)。修正は、人手で実施するのがもっとも正確である。そこで、最初の学習データに対する修正は、正例のラベルが付与された学習データに対して人(ユーザ)が正否を判定し、その判定結果に基づいて負例であると判定した学習データについては、ラベルを負例に修正する。
【0047】
具体的には、入力部11は、学習データ記憶部102に現在記憶されている正例の学習データのうち、負例とする学習データを特定する情報の入力を受ける。学習データ修正部14は、入力部11により入力された情報により特定される学習データのラベルを、正例から負例に書き換える。
【0048】
識別器構築部15は、学習データ記憶部102に現在記憶されている学習データを用いて識別器を構築し、識別器記憶部103に書き込む(ステップS120)。なお、識別器構築部15は、識別器の構築には、サポートベクターマシンやランダムフォレストなどの機械学習を利用する。
【0049】
識別器検出部16は、ステップS120において構築された識別器を学習データ記憶部102に現在記憶されている学習データに適用し、各学習データに設定されている特徴データを入力として検出結果を得る。この検出結果は、各学習データが検出対象に関連する度合いを定量的に表す値と、その値に基づいて得られる関連の度合いの順位を示す。識別器検出部16は、検出結果から検出対象に関連すると判断された学習データのラベルに負例が設定されている場合は正例に書き換え、関連しないと判断された学習データのラベルに正例が設定されている場合は負例に書き換える。識別器判定部17は、ステップS125において構築された識別器による検出結果から、構築された識別器の精度が閾値以上かどうか否かを判定する(ステップS125)。
【0050】
識別器の精度を評価するための指標としては、順位付き検索結果に対する評価指標である平均適合率が利用できる。以下の式(1)は、検出結果の上位N件に対する平均適合率の算出式を示す。
【0052】
ここで、r
kは、順位がk番目の検出結果が正解なら1、不正解なら0を表す。なお、正解か不正解かの情報は、人により入力部11に入力される。
また、式(1)におけるp(k)は、上位N件それぞれの適合率を表し、次式(2)で算出される。
【0054】
識別器判定部17が、式(1)により算出した精度(平均適合率)は閾値に満たないと判定した場合(ステップS125:NO)、学習データ追加部18は、学習データ記憶部102に記憶されている学習データに対して、追加の学習データを混合する(ステップS130)。
【0055】
まず、ランダムデータ選択部181は、映像データ記憶部101に記憶されている入力映像データの映像区間の中から無作為に抽出し、抽出した各映像区間を学習データ生成候補とする。
【0056】
また、類似映像選択部182は、学習データ記憶部102からラベルに正例が設定されている学習データを特定し、特定した学習データに含まれる映像区間特定データにより示される入力映像データの映像区間から類似検出用特徴データを取得する。さらに、類似映像選択部182は、映像データ記憶部101に記憶されている各入力映像データの映像区間それぞれについて類似検出用特徴データを取得する。
【0057】
類似検出用特徴データには、映像特徴や音声特徴を用いることができる。例えば、映像特徴には、映像の色ヒストグラム、テクスチャなどを、音声特徴には音声の周波数分布、音声のパワーの分布などを用いることができる。
また、類似検出用特徴データが示す映像区間の画像特徴量としては、色やテクスチャなどが利用できる。また、画像特徴量として、上記の参考文献2に記載のように、コーナーなどの特徴点近辺の局所領域における輝度勾配ヒストグラムに基づいて、それらの頻度ヒストグラムを作成するというアプローチを利用することも考えられる。
【0058】
類似映像選択部182は、各入力映像データの映像区間それぞれの類似検出用特徴データについて、正例の学習データに対応した映像区間の類似検出用特徴データとどの程度類似しているかを定量的に表す値を算出する。類似映像選択部182は、この算出した値に基づいて、現在の正例の学習データと見た目が類似している映像、あるいは音声特徴が類似している映像区間を特定する。
【0059】
例えば、類似映像選択部182は、入力映像データの映像区間から得た特徴データと、正例の学習データに対応する映像区間から得た特徴データそれぞれとについて算出した類似度を合計する。類似映像選択部182は、各入力映像データの映像区間それぞれについて算出した合計の類似度が所定の閾値以上、あるいは、合計の類似度に基づく順位が高いものから所定数の映像区間データを、学習データ生成候補として特定する。
【0060】
また、類似識別器検出部183は、シソーラス記憶装置5に記憶されているシソーラスや辞書を検索し、入力されたキーワードに対する関連キーワードを読み出す。類似識別器検出部183は、識別器記憶部103内に記憶されているすでに学習済みの識別器の中から、関連キーワードを検出対象とする学習済みの識別器を選択する。類似識別器検出部183は、映像データ記憶部101に記憶されている各入力映像データの映像区間それぞれについて特徴データを取得し、取得した特徴データを入力として、選択した学習済みの識別器により検出処理を実行する。類似識別器検出部183は、学習済みの識別器により関連すると検出された映像区間を、学習データ生成候補として特定する。
【0061】
データ混合部184は、ランダムデータ選択部181、類似映像選択部182、類似識別器検出部183により特定された学習データ生成候補の映像区間の中から一定割合を選択する。なお、ランダムデータ選択部181、類似映像選択部182、類似識別器検出部183により特定された学習データ生成候補の映像区間の混合割合は、検出対象によって可変とすることができる。
【0062】
データ混合部184は、選択した映像区間のうち、まだ特徴データが生成されていないものについては、その映像区間の映像データから特徴データを生成する。データ混合部184は、選択された映像区間の映像区間特定データ及び特徴データと、正例を設定したラベルとを対応づけて学習データを生成し、学習データ記憶部102に追加して書き込む。
【0063】
なお、反復処理により複数回学習データを追加する場合でも、類似映像選択部182、類似識別器検出部183は、学習データ生成候補の映像区間を最初に一度特定すればよい。2回目以降の学習データの追加処理の際には、データ混合部184は、これら特定済みの学習データ生成候補の映像区間の中から学習データの生成対象を選択する。
また、データ混合部184は、混合を複数回行う場合、学習データ修正部14において一度でも負例と判定されたデータについては、正例として学習データに追加しないようにする。
【0064】
識別器検出部16は、現在構築されている識別器を用い、学習データ記憶部102から全ての学習データを読み出し、読み出した学習データに対して検出処理を実行する。識別器検出部16は、検出結果により関連すると判断された学習データのラベルに負例が設定されている場合は正例に書き換え、関連しないと判断された学習データのラベルに正例が設定されている場合は負例に書き換える。そして、検出の結果得られた上位N件の学習データに対して人が正否を判定し、間違った判定の対象となっている学習データを特定する情報を入力する。入力部11は、ラベル修正対象の学習データを特定する情報の入力を受け、学習データ修正部14は、入力された情報により特定されている学習データに正例が設定されてれいば負例に書き換え、負例が設定されていれば正例に書き換える(ステップS135)。
【0065】
なお、Nは大きいほど正確性が増すが、通常は、学習データの総数に対する割合で決定したり、修正作業にかけられる時間や人数に応じて決定したりする。なお、完全に自動化する必要がある場合には、アプローチが全く異なるアルゴリズムの識別器を複数用意し、それらの識別器の多数決によって正否を判定する方法がある。
【0066】
識別器構築部15は、学習データ記憶部102から全ての学習データを読み出し、読み出した学習データを用いて識別器を構築する(ステップS140)。
識別器検出部16は、ステップS140において構築された識別器を、学習データ記憶部102に記憶されている学習データに適用し、検出処理を実行する。識別器検出部16は、検出結果から検出対象に関連すると判断された学習データのラベルに負例が設定されている場合は正例に書き換え、関連しないと判断された学習データのラベルに正例が設定されている場合は負例に書き換える(ステップS145)。
【0067】
ステップS145の処理の後、学習装置1は、ステップS140において構築された識別器による検出結果から、構築された識別器の精度が閾値以上かどうか否かを判定するステップS125からの処理を繰り返す。そして、ステップS125において、識別器判定部17が、精度は閾値以上であると判定した場合(ステップS125:YES)、学習装置1は処理を終了する。
【0068】
図5及び
図6は、本実施形態による学習装置1を用いた実験結果を示す図である。
図5は、識別器構築の繰り返し回数と、キーワード(物体名)毎の平均適合率の値及び正例の学習データの数(# of Pos)の変化との関係を示している。なお、平均適合率は、上位100件で算出している。同図に示すように、各キーワードとも、繰り返し回数が増えるたびに平均適合率の値は向上し、3回から6回の繰り返しで精度が閾値以上となっている。
【0069】
図6は、
図5に示す識別器構築の繰り返し回数とキーワード別の平均適合率の平均の変化との関係を示す図である。同図に示すように、繰り返し回数が3回程度から平均適合率の上昇が飽和し始め、5回目あたりで0.95を超える。
このように、学習装置1は、学習データを追加しながら識別器を学習させることにより、識別器の検出精度を向上させることができる。
【0070】
以上説明した本実施形態によれば、学習装置1は、テレビ番組などの映像データから、正例および負例のラベルが付与された学習データを生成し、特定の物体や事象を検出するための識別器を、生成された学習データに基づいて構築する。
学習装置1は、新たに構築する識別器の検出対象を表すキーワードと、シソーラスなどの辞書を用いて選択した追加のキーワードを、番組音声の認識結果やクローズドキャプションから検索し、対応する映像区間を正例の映像データとして抽出する。これによって、色やテクスチャなどの表層的な特徴ではなく、映像の内容に基づいた検索を可能とする識別器を構築するための学習データを効率的に生成することができる。また、特定のオブジェクトやイベントに特化したり、番組のジャンルや放送局などに関わらず、様々な番組から様々な検出対象の識別器を構築することができる。
【0071】
学習装置1は、学習データが正例であるか負例であるかのラベルを修正した後、そのデータに基づいて識別器を構築し、構築した識別器で検出した学習データを次の学習データにおける正例にする、といった処理を反復する。これによって、識別器の精度を向上させることができる。
【0072】
また、学習装置1は、入力された映像データの中から無作為に選択した映像区間、あるいは、正例の映像データに視覚あるいは聴覚的に類似性の高い映像区間、構築対象の識別器が検出対象としている物体や事象と意味的に類似した検出対象に対応した学習済みの識別器を使用して検出した映像区間の映像データを、反復処理の過程で学習データにおける正例として一定割合だけ混合する。これによって、多様性が向上するように学習データを追加し、反復処理によって特定のデータに偏った識別器が構築されることを避けることが可能となる。
【0073】
なお、映像データに代えて、属性データ付きの静止画データを用いることにより、静止画データが検出対象と関連するかを検出する識別器を構築することもできる。この場合、学習装置1は、音声テキストデータに代えて属性データに記述されている静止画に関するテキストの情報を用い、1つの静止画データが1つの映像区間に対応するものとして同様の処理を行う。この場合、特徴データは、静止画の特徴量を表すものとする。
【0074】
上述した学習装置1は、内部にコンピュータシステムを有している。そして、学習装置1の入力部11、映像区間分割部12、初期学習データ生成部13、学習データ修正部14、識別器構築部15、識別器検出部16、識別器判定部17、及び学習データ追加部18の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
【0075】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。