(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-27
(45)【発行日】2022-07-05
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
G06Q 50/10 20120101AFI20220628BHJP
G06T 7/00 20170101ALI20220628BHJP
G06F 3/16 20060101ALI20220628BHJP
【FI】
G06Q50/10
G06T7/00 660A
G06F3/16 620
(21)【出願番号】P 2020129279
(22)【出願日】2020-07-30
【審査請求日】2020-07-30
(73)【特許権者】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(74)【代理人】
【識別番号】100109380
【氏名又は名称】小西 恵
(74)【代理人】
【識別番号】100109036
【氏名又は名称】永岡 重幸
(72)【発明者】
【氏名】アクマル ムハマド
(72)【発明者】
【氏名】中澤 満
【審査官】田上 隆一
(56)【参考文献】
【文献】特開2009-049949(JP,A)
【文献】特開2012-142645(JP,A)
【文献】青木 輝勝,解説 認識・検出,画像ラボ,日本,日本工業出版株式会社,2015年08月10日,第26巻 第8号,p.9~14
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G06T 7/00
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
映像データを取得する映像取得部と、
前記映像取得部により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出部と、
前記特徴抽出部により抽出された前記音声特徴に基づいて、
教師なし学習を用いて、前記映像データから異常シーンの候補を検出する異常シーン候補検出部と、
前記異常シーン候補検出部により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器
と
を備えることを特徴とする情報処理装置。
【請求項2】
前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示部をさらに備える
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記異常シーン候補検出部は、正常な音声特徴群のモデルを生成することなく、異常な音声特徴を直接分離することにより、前記映像データから前記異常シーンの候補を検出する
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記異常シーン候補検出部は、それぞれの音声特徴のアイソレーションフォレスト(Isolation Forest)におけるパス長を算出することにより、前記異常な音声特徴を分離する
ことを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記特徴抽出部は、前記映像データ中の音声データのメル周波数(Mel Frequency)スペクトログラムで表現される音声特徴を抽出する
ことを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。
【請求項6】
前記特徴抽出部は、前記音声データから、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients:MFCC)を算出し、算出されたMFCCを前記メル周波数に連結して、前記音声特徴を抽出する
ことを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記シーン提示部は、前記ユーザインタフェースを介して入力される情報を、前記音声特徴および前記画像特徴に付加して、前記異常判定器のための学習データとして記憶装置に格納する
ことを特徴とする請求項
2に記載の情報処理装置。
【請求項8】
前記異常シーン候補検出部は、前記記憶装置に格納される前記学習データの数が所定の閾値を上回る場合に、前記異常シーンの候補を前記異常判定器に判定させる
ことを特徴とする請求項7に記載の情報処理装置。
【請求項9】
前記異常シーン候補検出部は、前記記憶装置に格納される前記学習データの数が所定の閾値以内である場合に、前記異常器による判定をバイパスして、前記シーン提示部に、前記異常シーンの候補を提示させる
ことを特徴とする請求項7または8に記載の情報処理装置。
【請求項10】
前記異常判定器は、前記音声特徴と前記画像特徴が統合された特徴空間において、前記異常シーンの候補の近傍に位置する異常サンプルの数と正常サンプルの数との差が所定の閾値以内である場合に、前記異常シーンの候補をその他に判定する
ことを特徴とする請求項1から9のいずれか1項に記載の情報処理装置。
【請求項11】
前記異常判定器は、k近傍法により、前記異常シーンの候補を判定する
ことを特徴とする請求項1から10のいずれか1項に記載の情報処理装置。
【請求項12】
前記特徴抽出部により抽出される前記画像特徴から、教師あり学習を用いて、前記映像データに含まれる顔の感情を解析し、解析された前記顔の感情の特徴を前記異常判定器に供給する感情解析部をさらに備える、
ことを特徴とする請求項1から11のいずれか1項に記載の情報処理装置。
【請求項13】
前記感情解析部は、解析された前記顔の感情に基づいて、前記映像データから前記異常シーンの候補を検出した場合に、前記異常シーン候補検出部に、前記音声特徴に基づく異常シーンの検出を実行させる
ことを特徴とする請求項12に記載の情報処理装置。
【請求項14】
サーバと、該サーバとネットワークを介して接続される少なくとも1つのクライアント装置とを備える情報処理システムであって、
前記サーバは、
映像データを取得する映像取得部と、
前記映像取得部により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出部と、
前記特徴抽出部により抽出された前記音声特徴に基づいて、
教師なし学習を用いて、前記映像データから異常シーンの候補を検出する異常シーン候補検出部と、
前記異常シーン候補検出部により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器と、
前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示部と、
当該異常シーンの候補を前記クライアント装置へ送信する送信部と、を有し、
前記クライアント装置は、
前記サーバから送信される前記異常シーンの候補を受信する受信部と、
前記受信部により受信された前記異常シーンの候補を提示し、提示された異常シーンの候補に対して付加すべき情報の入力を受け付ける前記ユーザインタフェースと、
前記ユーザインタフェースが入力を受け付けた前記異常シーンの候補に対して付加すべき情報を、前記サーバへ送信する送信部と、を有する
ことを特徴とする情報処理システム。
【請求項15】
情報処理装置が実行する情報処理方法であって、
映像データを取得するステップと、
取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出するステップと、
抽出された前記音声特徴に基づいて、
教師なし学習を用いて、前記映像データから異常シーンの候補を検出するステップと、
異常判定器により、検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定するステップ
と
を含むことを特徴とする情報処理方法。
【請求項16】
情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、
映像データを取得する映像取得処理と、
前記映像取得処理により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出処理と、
前記特徴抽出処理により抽出された前記音声特徴に基づいて、
教師なし学習を用いて、前記映像データから異常シーンの候補を検出する異常シーン候補検出処理と、
異常判定器により、前記異常シーン候補検出処理により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定処理
と
を含む処理を実行させるためのものであることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法およびプログラムに関し、特に、映像を解析して異常を検知するための技術に関する。
【背景技術】
【0002】
近年の映像配信サービスは、コンテンツプロバイダが作成した映像コンテンツのみならず、一般ユーザが作成した映像コンテンツのリアルタイム配信を可能にしている。
このような映像配信サービスにおいては、配信される映像コンテンツ中に、視聴するのに不適切ないわゆる異常シーンが含まれないよう、配信される映像を監視し、検出された異常シーンが誤って視聴されないよう、異常シーンの削除、配信停止や配信アカウント削除等の処理をする必要がある。このような異常シーンは、例えば、暴力的なシーンや子供向けでないシーン等、家族での視聴に不適切な(Non-Family-Safe:NFS)シーンを含む。
【0003】
特許文献1は、エレベータの乗りかご内に設けられた防犯カメラにより撮影された撮影データから乗員の異常行動を検知するエレベータ監視装置を開示する。
具体的には、特許文献1の監視装置においては、乗りかご内に設置されたインターホンで集音された乗員の音声データを周波数分析した結果から抽出された所定の周波数帯域に応じて暴れ判定閾値を設定するとともに、防犯カメラにより撮影された撮影データから乗員の動きのばらつき量を統計的に算出する。特許文献1の監視装置はさらに、算出された乗員の動きのばらつき量と暴れ判定閾値とを比較し、乗員の動きのばらつき量が暴れ判定閾値以上のときに乗員の動きを異常行動とみなして暴れを判定する。これにより、乗員が僅かにしか動けない場合でも撮影データから異常行動を判定している。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の技術では、検知可能な異常がエレベータ内における乗員の暴れに限定されているため、多様な映像コンテンツ中に含まれ得る多様な異常シーンを適切に検出することは困難である。
【0006】
特に、映像配信サービスは、メインターゲットとするユーザの年齢層や嗜好等によりそれぞれ多岐にセグメント化されており、映像配信サービスごとに、視聴するのに不適切な異常シーンの範囲が区々である。さらに、映像コンテンツ中に異常シーンが出現する頻度は通常僅かであるため、教師あり機械学習のために必要となる学習データの汎用データベース化には適さない。他方、教師なしの機械学習で映像コンテンツから異常シーンを検出しようとすると、検出精度が低下してしまう。
【0007】
ところで、コンテンツプロバイダにより作成された映像には、コンテンツプロバイダにより、配信される映像コンテンツに、暴力シーンを含むか否か、子供向けコンテンツであるか否か、あるいは年齢制限の有無等のタグ情報が付加されていることが多く、コンテンツ作成時にコンテンツプロバイダに異常シーンの存在にタグ付けさせることも可能である。
一方、近年増加している一般ユーザが作成した映像コンテンツには、このような異常シーンのタグ情報が付加されていないことが多く、あるいは、付加されていたとしてもタグ付けが必ずしも当該映像配信サービスにおいて適切でないおそれがある。
【0008】
このため、従来は、映像配信サービスによっては、オペレータが、配信される映像コンテンツを常時監視し、映像コンテンツ中から異常シーンを発見した場合に、当該映像コンテンツに年齢制限を設定したり、当該映像コンテンツの配信を停止したりしており、これにより、映像を監視するオペレータの時間的および作業的負荷や、さらに心理的負担をも増加させていた。同時に、マニュアルで映像コンテンツを監視することによる異常シーンの見逃しも発生するおそれがあった。
【0009】
本発明は上記課題を解決するためになされたものであり、その目的は、オペレータの負荷を軽減しつつ、映像から多様な異常を高精度に検出することが可能な情報処理装置、情報処理方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0010】
上記課題を解決するために、本発明に係る情報処理装置の一態様は、映像データを取得する映像取得部と、前記映像取得部により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出部と、前記特徴抽出部により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出部と、前記異常シーン候補検出部により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器と、前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示部とを備える。
【0011】
前記異常シーン候補検出部は、教師なし学習を用いて、前記映像データから前記異常シーンの候補を検出してよい。
【0012】
前記異常シーン候補検出部は、正常な音声特徴群のモデルを生成することなく、異常な音声特徴を直接分離することにより、前記映像データから前記異常シーンの候補を検出してよい。
【0013】
前記異常シーン候補検出部は、それぞれの音声特徴のアイソレーションフォレスト(Isolation Forest)におけるパス長を算出することにより、前記異常な音声特徴を分離してよい。
【0014】
前記特徴抽出部は、前記映像データ中の音声データのメル周波数(Mel Frequency)スペクトログラムで表現される音声特徴を抽出してよい。
【0015】
前記特徴抽出部は、前記音声データから、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients:MFCC)を算出し、算出されたMFCCを前記メル周波数に連結して、前記音声特徴を抽出してよい。
【0016】
前記シーン提示部は、前記ユーザインタフェースを介して入力される情報を、前記音声特徴および前記画像特徴に付加して、前記異常判定器のための学習データとして記憶装置に格納してよい。
【0017】
前記異常シーン候補検出部は、前記記憶装置に格納される前記学習データの数が所定の閾値を上回る場合に、前記異常シーンの候補を前記異常判定器に判定させてよい。
【0018】
前記異常シーン候補検出部は、前記記憶装置に格納される前記学習データの数が所定の閾値以内である場合に、前記異常器による判定をバイパスして、前記シーン提示部に、前記異常シーンの候補を提示させてよい。
【0019】
前記異常判定器は、前記音声特徴と前記画像特徴が統合された特徴空間において、前記異常シーンの候補の近傍に位置する異常サンプルの数と正常サンプルの数との差が所定の閾値以内である場合に、前記異常シーンの候補をその他に判定してよい。
前記異常判定器は、k近傍法により、前記異常シーンの候補を判定してよい。
【0020】
前記特徴抽出部により抽出される前記画像特徴から、教師あり学習を用いて、前記映像データに含まれる顔の感情を解析し、解析された前記顔の感情の特徴を前記異常判定器に供給する感情解析部をさらに備えてよい。
【0021】
前記感情解析部は、解析された前記顔の感情に基づいて、前記映像データから前記異常シーンの候補を検出した場合に、前記異常シーン候補検出部に、前記音声特徴に基づく異常シーンの検出を実行させてよい。
【0022】
本発明に係る情報処理システムの一態様は、サーバと、該サーバとネットワークを介して接続される少なくとも1つのクライアント装置とを備える情報処理システムであって、前記サーバは、映像データを取得する映像取得部と、前記映像取得部により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出部と、前記特徴抽出部により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出部と、前記異常シーン候補検出部により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器と、前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示部と、当該異常シーンの候補を前記クライアント装置へ送信する送信部と、を有し、前記クライアント装置は、前記サーバから送信される前記異常シーンの候補を受信する受信部と、前記受信部により受信された前記異常シーンの候補を提示し、提示された異常シーンの候補に対して付加すべき情報の入力を受け付ける前記ユーザインタフェースと、 前記ユーザインタフェースが入力を受け付けた前記異常シーンの候補に対して付加すべき情報を、前記サーバへ送信する送信部と、を有する。
【0023】
本発明に係る情報処理方法の一態様は、情報処理装置が実行する情報処理方法であって、映像データを取得するステップと、取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出するステップと、教師なし学習により、抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出するステップと、異常判定器により、検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定するステップと、前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるステップとを含む。
【0024】
本発明に係る情報処理プログラムの一態様は、情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、映像データを取得する映像取得処理と、前記映像取得処理により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出処理と、前記特徴抽出処理により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出処理と、異常判定器により、前記異常シーン候補検出処理により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定処理と、前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付ける入出力処理とを含む処理を実行させるためのものである。
【発明の効果】
【0025】
本発明によれば、オペレータの負荷を軽減しつつ、映像から多様な異常を高精度に検出することができる。
上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。
【図面の簡単な説明】
【0026】
【
図1】
図1は、本発明の実施形態1に係る異常検出装置の機能構成の一例を示すブロック図である。
【
図2】
図2は、実施形態1に係る異常検出装置が実行する異常シーン検出処理の処理手順の一例を示すフローチャートである。
【
図3】
図3は、異常検出装置の特徴抽出部が映像データから分離する音声データのセグメントの一例を示す図である。
【
図4】
図4は、異常検出装置の特徴抽出部が音声データから抽出する異常シーン候補のメルスペクトグラム特徴の一例を示す図である。
【
図5】
図5は、異常検出装置の特徴抽出部が音声データから抽出する正常シーンのメルスペクトグラム特徴の一例を示す図である。
【
図6】
図6は、異常検出装置の特徴抽出部が異常シーン候補検出部に出力するメル周波数ケプストラムとメルスペクトグラムとを連結した音声特徴の一例を示す図である。
【
図7】
図7は、異常検出装置の異常シーン候補検出部が教師なし学習で使用するアイソレーションフォレストの異常特徴点の分離を説明する図である。
【
図8】
図8は、異常検出装置の異常シーン候補検出部が教師なし学習で使用するアイソレーションフォレストの決定木の一例を示す概略図である。
【
図9】
図9は、異常検出装置の異常判定器が異常シーン候補の異常判定に使用するk近傍法の一例を説明する概略図である。
【
図10】
図10は、実施形態1の変形例に係る異常検出装置が実行する異常シーン検出処理の処理手順の一例を示すフローチャートである。
【
図11】
図11は、本発明の実施形態2に係る異常検出装置の機能構成の一例を示すブロック図である。
【
図12】
図12は、実施形態2に係る異常検出装置が実行する異常シーン検出処理の処理手順の一例を示すフローチャートである。
【
図13】
図13は、実施形態2の変形例に係る異常検出装置が実行する異常シーン検出処理の処理手順の一例を示すフローチャートである。
【
図14】
図14は、実施形態2に係る異常検出装置の感情解析部が映像データの画像データから認識する顔感情認識結果の一例を示す概略図である。
【
図15】
図15は、本発明の各実施形態に係る異常検出装置のハードウエア構成の一例を示すブロック図である。
【発明を実施するための形態】
【0027】
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
【0028】
(実施形態1)
本実施形態に係る異常検出装置は、映像データから、音声データおよび画像データそれぞれの特徴を抽出し、これら音声データおよび画像データのマルチモーダルな特徴を用いて、映像データから異常シーンを複数段階で半自動的に検出する。
以下では、異常検出装置が、リアルタイムでストリーミング配信される映像データから抽出される音声データの特徴に基づいて教師なし学習により異常シーンの候補をまず検出し、次に、検出された異常シーンの候補を異常判定器により異常シーン、正常シーン、およびオペレータの判断を要するシーン、のいずれかに判定し、オペレータの判断を要すると判定された異常シーンの候補の映像データを提示し、オペレータによる異常シーンか否かの確認入力を映像データの特徴に付加して、異常判定器に対する学習データとして蓄積する一例を説明する。
【0029】
しかしながら、本実施形態はこれに限定されない。例えば、異常検出装置は、録画された映像データから事後的に異常シーンを検出してもよい。また、例えば、蓄積される学習データの数に応じて、異常シーン検出を可変に制御し、検出された異常シーンの候補の映像データのすべてを、異常判定器をバイパスしてオペレータに提示してもよく、あるいは、異常判定器が、検出された異常シーンの候補の映像データの音声および画像の特徴に基づいて、異常シーンを自動検出してもよい。後者の場合、異常判定の閾値を比較的低く設定して、閾値近傍の異常シーンのみを適宜確認的にオペレータに提示してもよい。
【0030】
<異常検出装置の機能構成>
図1は、本実施形態に係る異常検出装置1の機能構成の一例を示すブロック図である。
図1に示す異常検出装置1は、データ取得部11、特徴抽出部12、異常シーン候補検出部13、異常判定器14、およびシーン提示部15を備える。
異常検出装置1は、PC(Personal Computer)等で構成されるクライアント装置3とネットワークを介して通信可能に接続してよい。この場合、異常検出装置1はサーバに実装され、クライアント装置3は、異常検出装置1が外部と情報の入出力を実行する際のユーザインタフェースを提供してよく、また、異常検出装置1のシーン提示部15を含む各コンポーネント11~15の一部または全部を備えてもよい。
【0031】
データ取得部11は、リアルタイムでストリーミング配信される映像データを取得して、取得された映像データを特徴抽出部12へ供給する。映像データは、音声(Audio)データと画像(Visual)データとを含む動画像データであるが、データ取得部11は、動画像データに替えて、音声データを含む静止画データを取得して、特徴抽出部12へ供給してもよい。
データ取得部11は、ストリーミング配信される映像データに替えて、異常検出装置1のHDD等の不揮発性記憶装置に予め録画された映像データを取得してもよく、録画された映像データを対向装置から通信I/Fを介して受信してもよい。
データ取得部11はまた、異常検出装置1において異常シーン検出処理を実行するために必要な各種パラメータの入力を受け付ける。データ取得部11は、異常検出装置1と通信可能に接続されるクライアント装置3のユーザインタフェースを介して、各種パラメータの入力を受け付けてよい。
【0032】
特徴抽出部12は、データ取得部11から供給される映像データから音声データを分離し、分離された音声データから音声特徴を抽出する。
特徴抽出部12はまた、データ取得部11から供給される映像データから画像データを分離し、分離された画像データから画像特徴を抽出する。
特徴抽出部12は、抽出された音声特徴および画像特徴を、映像データとともに、異常シーン候補検出部13へ供給する。
【0033】
異常シーン候補検出部13は、特徴抽出部12から供給される音声特徴に基づいて、映像データから異常シーンの候補を検出し、検出された異常シーンの候補を、異常判定器14へ供給する。異常シーン候補検出部13はまた、検出された異常シーンの候補を、異常判定器14をバイパスして、シーン提示部15へ供給してもよい。
【0034】
なお、異常シーンとは、例えば、暴力的なシーンや子供向けでないシーン等、家族での視聴に不適切な(Non-Family-Safe:NFS)シーンを含むがこれに限定されない。異常シーンは、映像配信サービスごとの規約ないしルール上当該映像配信サービスを介して配信すべきでない旨規定されているシーンまたはコンテンツ、その他オペレータが映像データの音声および画像から最終的に配信すべきでないとマニュアルで判定したシーンまたはコンテンツを広く含むものとする。
特徴抽出部12が実行する特徴抽出処理および異常シーン候補検出部13が実行する異常シーン候補検出処理の詳細は、
図3~
図8を参照して後述する。
【0035】
本実施形態において、異常シーン候補検出部13は、教師なし学習により音声特徴を分類することで、異常シーンの候補を検出する。ストリーミング配信される映像データ中で、異常シーンの出願頻度は僅かであり、また異常シーンとすべきか否かの基準も映像配信サービスごとに多様であるため、新たなサービスが開始される際や基準が変更された際に、適切な教師データを予め用意することは難しく、教師あり学習により高精度の分類を実現することが困難である。本実施形態では、映像データのうち、音声データのみから教師なし学習により音声特徴を分類することで、少ないサンプル数であっても高精度かつ低負荷で、異常シーンの候補を検出することができる。
【0036】
異常判定器14は、異常シーン候補検出部13から供給される異常シーンの候補を入力とし、入力された異常シーンの候補の映像データを、異常シーン、正常シーン、オペレータの判断を要するシーンのいずれかに分類する。異常判定器14は、異常シーンの候補の分類結果のうち、異常シーンおよび正常シーンのいずれかに分類された異常シーンの候補を、分類結果を付加して学習データDB(データベース)2に格納していく。また、異常判定器14は、異常シーンの候補のうち、オペレータの判断を要するシーンと分類された異常シーンの候補を、シーン提示部15へ供給する。
【0037】
本実施形態において、異常判定器14は、特徴抽出部12により抽出された映像データの音声特徴および画像特徴が統合された特徴空間を用いて、教師あり学習により、入力される異常シーンの候補を、異常シーン、正常シーン、およびオペレータの判断を要するシーンのいずれかに3分類する。異常判定器14は、学習データDB2に蓄積された異常シーンの候補の分類結果を教師データとした学習を実行してよい。
異常判定器14が実行する異常シーン判定処理の詳細は、
図9を参照して後述する。
【0038】
シーン提示部15は、異常判定器14から供給される、オペレータの判断を要するシーンと分類された異常シーンの候補を、表示装置等を介して外部に提示して、オペレータの確認入力を受け付ける。異常検出装置1はまた、異常シーン候補検出部13から供給される異常シーンの候補を、外部に提示して、オペレータの確認入力を受け付けてよい。
異常検出装置1は、自装置の表示装置等をユーザインタフェースとしてもよいが、異常検出装置1と通信可能に接続されるクライアント装置3のユーザインタフェースを介して、異常シーンの候補を外部に提示し、またはオペレータの確認入力を受け付けてよい。
この場合、異常検出装置1はさらに、異常シーン候補検出部13から供給される異常シーンの候補を、クライアント装置3へ送信し、クライアント装置3から送信されるオペレータの確認入力を受信する送受信部を備えてよい。クライアント装置3は、異常検出装置1から送信される異常シーンの候補を受信し、ユーザインタフェースを介して提示された異常シーンの候補に対するオペレータの確認入力を異常検出装置1へ送信する送受信部を備えてよい。
【0039】
オペレータは、シーン提示部15により提示される異常シーンの候補の映像データの画像を音声と照らし合わせることで、提示された異常シーンの候補を、異常シーンまたは正常シーンのいずれかであると確認し、確認結果をシーン提示部15に入力する。オペレータは、異常シーンであると確認された異常シーンの候補に対して、所定の措置を講じることができる。例えば、確認された異常シーンを、配信される映像データから削除してもよく、あるいは当該映像データの配信を停止してもよく、当該映像データの配信元ユーザのアカウントを停止してもよい。
シーン提示部15は、提示された異常シーンの候補の音声特徴および画像特徴に対して、オペレータが確認入力した確認結果(異常シーンまたは正常シーンのアノテーション)を付加し、学習データとして学習データDB2に格納する。
【0040】
具体例として、異常シーン候補検出部13が、映像データから抽出された音声特徴から、銃を発砲したような音声を検出し、当該音声を含むシーンを異常シーンの候補として検出したものとする。この場合、オペレータは、異常シーンの候補の画像をチェックして、異常シーンおよび正常シーンのいずれかであるかを確認すればよい。
例えば、異常シーンの候補の画像が、銃やその他暴力的または残酷なオブジェクトを含んでいれば、異常シーンと確認することができ、一方、屋外の花火等のオブジェクトを含んでいれば、正常シーンと確認することができる。
【0041】
このように、本実施形態では、映像データの音声および画像のマルチモーダルな情報を用いて、複数段階で半自動的に異常シーンを検出している。具体的には、映像データの音声から異常シーンの候補を自動的に検出し、オペレータに検出された異常シーンの候補を提示して、異常シーンの候補の画像から異常シーンか正常シーンかを確認させている。これにより、配信される映像の監視におけるオペレータの負荷が格段に軽減される。
【0042】
<異常シーン検出処理の処理手順>
図2は、本実施形態に係る異常検出装置1が実行する、異常シーン検出処理の処理手順の一例を示すフローチャートである。
なお、
図2の各ステップは、異常検出装置1のHDD等の記憶装置に記憶されたプログラムをCPUが読み出し、実行することで実現される。また、
図2に示すフローチャートの少なくとも一部をハードウエアにより実現してもよい。ハードウエアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA(Field Programmable Gate Array)上に自動的に専用回路を生成すればよい。また、FPGAと同様にしてGate Array回路を形成し、ハードウエアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。
【0043】
S1で、異常検出装置1の特徴抽出部12は、データ取得部11から供給される映像データを音声データおよび画像データに分離し、音声特徴および画像特徴をそれぞれ抽出する。
図3は、特徴抽出部12が、特徴抽出の前処理として、データ取得部11から供給される映像データ(例えば、mp4またはm3u8等のマルチメディアフォーマット)から分離した、例えば1秒単位にセグメント化した音声データ(例えば、wavフォーマット)の音声信号波形の一例を示す。
図3において、縦軸が音声の振幅を示し、横軸が時間を示す。
特徴抽出部12は、分離された音声データを、配信される映像データで想定され得る音源等に合わせて、適宜アップサンプリング等により正規化してよい。
【0044】
本実施形態において、特徴抽出部12は、
図3に示す音声データから、音声特徴を、例えば、メルスペクトログラム(メル周波数スペクトログラム)(Mel Frequency Spectrogram)で表現される音声特徴として抽出してよい。
スペクトログラムとは、音声信号を窓関数に通して周波数スペクトルを計算した結果を指し、時間、周波数、および信号成分の強さ(振幅)をそれぞれX軸、Y軸、およびZ軸とする3次元のグラフで表される。スペクトログラムは、音声信号の周波数成分と振幅成分を例えばフーリエ変換により取り出した各音声データセグメント(フレーム)のスペクトルを時間軸に沿って並べた、いわゆる声紋に相当する。メルスペクトログラムとは、人間の音高知覚(周波数知覚特性)が考慮された重み付けを行うためのメル尺度で変換されたスペクトログラムである。
【0045】
図4は、特徴抽出部12が映像データから分離した音声データから抽出したメルスペクトログラムで表現される音声特徴であって、異常シーン候補検出部13により異常シーンの候補として検出される音声特徴の一例を示す。
図4および
図5において、X軸が時間を示し、Y軸が周波数を示し、Z軸が振幅、すなわち音声信号の強度を示す。また、
図4および
図5において、信号強度が大きいセルほど薄いパターンで、信号強度が小さいほど濃いパターンで示されている。
図4に示すスペクトログラムは、音量が大きく、信号強度の分布にピーク性があり、短時間で音声信号が減衰しているパターンを示す。
図4は、銃の発砲のスペクトログラムの一例を示すが、例えば、人の叫び声や何かを殴る音等も同様または同種のパターンを示すものと考えられる。
【0046】
一方、
図5は、特徴抽出部12が映像データから分離した音声データセグメントから抽出したメルスペクトグラムで表現される音声特徴であって、異常シーン候補検出部13により正常シーンと判定される(異常シーンの候補として検出されない)音声特徴の一例を示す。
図5に示すスペクトログラムは、低音量または中音量であり、信号強度の分布が時間軸上均一であるパターンを示す。
特徴抽出部12は、音声データから、前景音声(例えば、人の発話音声や叫び声等)と背景音声(音楽や雑踏音等)とを分離して、いずれか一方の音声のスペクトログラムを音声特徴として異常シーン候補検出部13へ供給してもよい。この場合、例えば、時間軸上一時的に出現して繰り返されない音声を前景音声として分離することができる。
【0047】
本実施形態において、特徴抽出部12はさらに、音声データからメル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients:MFCC)を算出し、算出されたMFCCを
図4ないし
図5に示すメルスペクトログラムに連結して、音声特徴を抽出してもよい。
ケプストラムとは、音声信号をフーリエ変換した振幅スペクトルに対数を掛けて対数スペクトルを求め、対数スペクトルに再度フーリエ変換を適用してスペクトル化したものをいう。対数スペクトルのケプストラム(対数ケプストラム)を求めることで、高周期で変動する音源成分と畳み込まれていた声道特性の成分とを分離することができる。
【0048】
対数ケプストラムの低次成分は、音声のスペクトル包絡(声道成分に由来する周波数特性)を表現している。個人差の大きいピッチ成分を除去し、音韻の特定に重要である声道の音響特性のみを抽出することができる。この対数ケプストラムの低次成分に対して、人の周波数知覚特性を考慮した重み付けを、メル尺度を適用することにより付与した特徴量が、MFCCである。
【0049】
具体的には、振幅スペクトルを、メル尺度上で等間隔である複数のフィルタバンクにかけて、各帯域のスペクトル成分を取り出し、各帯域の振幅スペクトルの和を取って、複数次元の振幅スペクトルに圧縮し、この圧縮された振幅スペクトルの対数を取って、対数振幅スペクトルを求める。
こうして求めたメル周波数スペクトル(メル尺度で圧縮された対数振幅スペクトル)に対して、フーリエ変換(例えば、離散フーリエ変換(Discrete Fourier Transform:DFT)を行うことにより、メル周波数ケプストラムに変換する。メル周波数ケプストラムの低次成分(スペクトルの声道成分)を取り出して、必要に応じて正規化処理を行うことにより、MFCCを求めることができる。
【0050】
図6は、単位時間(例えば、1秒)でスライスして例えば平均値を取ったMFCC61と、メルスペクトラムを時間軸上で平均振幅を取ったメルスペクトグラム62とを連結した音声特徴の一例を示す。
図6に示すような音声特徴を異常シーン候補検出部13に供給して異常シーンの候補を検出させることで、音声データの周波数成分の情報、特に人の聴覚上重要な周波数成分を失うことなく、音声特徴を適切に圧縮することができる。
【0051】
なお、特徴抽出部12により映像データの音声データから抽出される音声特徴は、
図6に示す表現に限定されず、特徴抽出部12は、上記以外の任意の手法および表現により、音声特徴を抽出してよい。
特徴抽出部12はまた、映像データから分離された画像データの全部または一部から、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)等を使用して、画像特徴を抽出してよい。しかしながら、特徴抽出部12により画像データから画像特徴を抽出する手法はCNNに限定されず、任意の手法を用いることができる。
【0052】
図2に戻り、S2で、異常検出装置1の異常シーン検出部13は、特徴抽出部12から供給される映像データから分離された音声データの音声特徴に基づいて、教師なし学習により分類することにより、異常シーンの候補を検出する。
異常シーン検出部13は、例えば、アイソレーションフォレスト(Isolation Forest:IF)により、音声特徴の特徴空間上で、異常値を持つ音声特徴を分離し、分離された異常な音声特徴に対応する映像シーンを、異常シーンの候補として検出する。
【0053】
アイソレーションフォレストは、正常値を持つ特徴群をモデル化(プロファイル化)して正常モデルを生成することなく、異常値を持つ特徴を直接分離する教師なし学習の1つである。高速アルゴリズムでありかつメモリ消費も少ないためリアルタイム配信される映像の監視に適しており、また、正常モデルのモデル化が不要であるため、少ないサンプリング数でも精度の低下を招き難い。
【0054】
図7は、アイソレーションフォレストが、特徴空間上、異常値を持つ特徴を分離するアルゴリズムを説明する概略図である。アイソレーションフォレストは、特徴空間上に配置される各特徴点が、他のすべての特徴点と分離できるまで、
図7の破線で示されるように、繰り返しパーティション(仕切り)を生成していく。
図7を参照して、左端の特徴点および右端の特徴点は、それぞれ、中央近傍に位置する特徴点より必要なパーティションの数が少ない。
図7では、左端および右端の特徴点は、1つのパーティションで他のすべての特徴点から分離することができるため、それぞれ異常値を持つ特徴点として検出することができる。
【0055】
図8は、
図7におけるパーティション生成の繰り返し処理を二分木の木構造(アイソレーションツリー:Isolation Tree)で表現した概念図である。
図7におけるパーティションの数は、
図8において木構造のルートノードから終端ノードまでのパス長で表現することができる。
異常シーン候補検出部13は、各音声特徴の特徴点のパス長に基づいて、各特徴点の異常(anomaly)スコアを、下記の式1により算出する。
【0056】
【0057】
ここで、右辺指数部のE(h(x))は平均パス長であり、c(n)はデータセットのインスタンス数nに依存する正規化因子である。各特徴点の異常スコアS(x、n)は、平均パス長が短い程1に近づき、平均パス長が長い程0に近づく。
【0058】
図8を参照して、左側のバーは、下端から上端に向かって、0から1までの異常スコアの値に対応する。異常シーン検出部13は、0から1までの間の異常スコアの閾値θと、各特徴点の異常スコアS(x、n)とを比較し、異常スコアS(x、n)が閾値θを上回る特徴点の音声特徴を、異常値(外れ値)として判定し、他方、異常スコアS(x、n)が閾値θ以内の特徴点の音声特徴を正常値として判定する。
【0059】
異常シーン検出部13は、閾値θを上回る異常スコアが算出された音声特徴および対応する画像特徴を含む映像シーンを、異常シーンの候補として検出する。
なお、異常シーン候補検出部13が異常シーンの候補を検出するために使用する教師なし学習アルゴリズムは、アイソレーションフォレストに限定されない。異常シーン候補検出部13は、アイソレーションフォレストに替えて、変分オートエンコーダ(Variational AutoEncoder:VAE)を使用して、音声特徴の再構成スコアを算出することにより、異常シーンの候補を検出してもよく、他のあらゆる教師なし学習を使用してもよい。
【0060】
図2に戻り、S3で、異常検出装置1の異常シーン候補検出部13は、学習データDB2に格納された学習データの数を、所定の閾値と比較する。学習データDB2に格納された学習データの数が所定の閾値を上回る場合(S3:Y)、S4に進み、異常シーン候補検出部13は、検出された異常シーンの候補を、異常判定器14へ供給する。一方、学習データDB2に格納された学習データの数が所定の閾値以内である場合(S3:N)、異常判定器での処理(S4~S6)をバイパスして、S7に進む。
【0061】
本実施形態では、異常判定器14が学習データDB2へ異常シーン判定の学習データを十分蓄積していない場合は、異常判定器14による異常シーン判定の精度(信頼度)が十分でないと判断して、異常判定器14での処理をバイパスする。そして、シーン提示部15は、異常シーン候補検出部13により検出された異常シーンの候補を、オペレータに直接提示し、オペレータの確認入力を受け付ける。これにより、学習データのサンプル数が少ない間は、異常シーンの候補に対して常にオペレータの確認判断を要求することで、異常判定器14での機械学習実行の処理負荷を削減することができる。
【0062】
このように、本実施形態では、検出された異常シーンの候補からどのように異常シーンを判定するかの制御を、自律的に最適化する。具体的には、異常判定器14への学習データのサンプル数が少ないうちは、専らオペレータによる異常シーンの判定を優先して異常シーンの判定の精度低下を防止する。一方、異常判定器14への学習データのサンプル数が所定の閾値を超えた場合には、異常判定器14が異常シーンまたは正常シーンのいずれかに分類できなかった異常シーンの候補のみをオペレータに提示して確認入力を要求することで、オペレータの負荷をさらに軽減することができる。
【0063】
S4で、異常検出装置1の異常判定器14は、異常シーン候補検出部13から供給される異常シーンの候補を、正常シーン、異常シーン、およびオペレータの判断を要するシーンのいずれかに分類することにより、異常シーンの候補の異常を判定し、判定結果を学習データDB2に格納する。
具体的には、異常判定器14は、例えば、教師あり学習として、k近傍法(k-nearest neighbor algorithm:k-NN)を使用して、音声特徴および画像特徴が統合された特徴空間上で最近傍解を探索することにより、異常シーン候補検出部13から供給される異常シーンの候補を分類する。
【0064】
図9は、k近傍法による分類アルゴリズムの例を説明する概念図である。
図9を参照して、特徴空間には、丸マークで示されるオブジェクト群が配置されている。各オブジェクトは多次元の特徴空間における位置ベクトルで表現され、正しい分類クラスが既知である。同心円の中央の星マークは、分類クラスが未知である分類対象の位置ベクトルであり、本実施形態では、判定対象の異常シーン候補の位置ベクトルである。k近傍法では、星マークで示される新たな位置ベクトルと、丸マークで示される既存の位置ベクトル群との距離を算出し、k個の最近傍のサンプルが選択される。位置ベクトル間の距離は、ユークリッド距離として算出されてよいが、マンハッタン距離等の他の距離として算出されてもよい。
【0065】
図9を参照して、k=3の場合、内側同心円内には、最近傍の3つのオブジェクトとして、濃い丸マークが2個に対して薄い丸マークが1個配置されているから、判定対象の位置ベクトルは、濃い丸マークのクラスに分類される。一方、k=6の場合、外側同心円内には、最近傍の6つのオブジェクトとして、濃い丸マークが2個に対して薄い丸マークが4個配置されているから、判定対象の位置ベクトルは、薄い丸マークのクラスに分類される。なお、k個の最近傍のオブジェクトの間で、新たな位置ベクトルとの距離を重み付けしてクラスを決定してもよい。
【0066】
異常判定器14は、映像データの音声特徴と画像特徴とが統合された特徴空間上に、正しいクラスが未知である異常シーンの候補を位置ベクトルとしてマッピングし、k個の最近傍のオブジェクト(サンプル)のうち、異常シーンに分類されるサンプルの数を、正常シーンに分類されるサンプルの数と比較することにより、判定対象の異常シーンの候補を、異常シーン、正常シーン、およびオペレータの判断を要するシーンのいずれかに分類する。
【0067】
具体的には、異常判定器14は、音声特徴と画像特徴とが統合された特徴空間上で、異常シーンの候補に対するk個の最近傍のサンプルのうち、異常シーンに分類されるサンプルの数が、正常シーンに分類されるサンプルの数より十分多い場合、判定対象の異常シーンの候補を異常シーンであると判定する。異常判定部14はまた、特徴空間上で、異常シーンの候補に対するk個の最近傍のサンプルのうち、正常シーンに分類されるサンプルの数が、異常シーンの分類されるサンプルの数より十分多い場合、判定対象の異常シーンの候補を正常シーンであると判定する。
【0068】
一方、異常判定器14は、特徴空間上で、異常シーンの候補に対するk個の最近傍のサンプルのうち、異常シーンに分類されるサンプルの数と正常シーンに分類されるサンプルの数との差が小さく、所定の閾値内である場合、判定対象の異常シーンの候補を、オペレータの判断を要するシーンであると判定する。
代替的に、異常判定器14は、k個の最近傍の異常シーンのサンプル数と正常シーンのサンプル数との大小により、判定対象の異常シーンの候補を、異常シーンまたは正常シーンのいずれかに自動的に分類してもよい。特に、学習データDB2に十分なサンプル数の学習データが蓄積されている場合には、異常シーン検出においてオペレータの介入を不要ともできる。
なお、異常判定器14が異常シーンの候補の異常を判定するためのアルゴリズムは、上記のk近傍法に限定されない。異常判定器14は、例えば、CNN等のニューラルネットワークや、サポートベクタマシン(Support Vector Machine:SVM)等を含む、他の教師あり学習の機械学習アルゴリズムを使用して異常シーンを判定してよい。
【0069】
図2に戻り、S4で、異常判定器14は、異常シーンの候補が異常シーンであると判定した場合、S5に進み、異常シーンを含む映像コンテンツの配信停止、当該映像コンテンツの配信元のアカウントの削除、あるいは判定された異常シーンの削除等の処理を実行して処理を終了する。
異常判定器14は、異常シーンの候補が正常シーンであると判定した場合、S6に進み、異常シーンの候補を含む映像コンテンツの配信を続行して処理を終了する。一方、異常判定器14は、異常シーンの候補が、オペレータの判断を要するシーンであると判定した場合、S7に進む。
【0070】
S7で、異常検出装置1のシーン提示部15は、異常シーン候補検出部13から供給された異常シーンの候補、あるいは異常判定器14によりオペレータの判断を要するシーンと判定された異常シーンの候補の映像(音声データおよび画像データ)を、オペレータに提示する。
S8で、異常検出装置1のシーン提示部15は、S7で提示された異常シーンの候補の映像に対するオペレータの確認入力として、異常シーンまたは正常シーンのいずれかのタグ付けの入力を受け付ける。
S9で、オペレータは、異常シーンとタグ付けした異常シーンの候補について、異常シーンに対する処理、すなわち、異常シーンを含む映像コンテンツの配信停止、当該映像コンテンツの配信元のアカウントの削除、あるいは判定された異常シーンの削除等の処理を実行する。一方、オペレータは、正常シーンとタグ付けした異常シーンの候補については、異常シーンに対する処理を実行することなく、映像の配信を続行させる。
【0071】
S10で、異常検出装置1のシーン提示部15は、S8でシーン提示部15に入力されたオペレータの異常シーンまたは正常シーンのタグ(ラベル)を、提示された異常シーンの候補の音声特徴および画像特徴と対応付けて、オペレータによる異常シーンの判定結果である学習データとして、学習データDB2に格納する。これにより、新たな学習データで、学習データDB2が更新される。
【0072】
S11で、異常検出装置1の異常判定器14は、S10で更新された学習データDB2を基づいて、再学習を実行する。なお、異常判定器14の再学習が必要か否かは、異常判定器14の異常判定アルゴリズムに依存する。例えば、上記で説明したように、異常判定器14がk近傍法を使用する場合は、異常シーンの判定の度に、学習データDB2を参照してk個の最近傍の標本を選ぶため、S11で再学習を実行する必要がなく、S10で学習データDB2を更新すれば足り、S11の処理を省略してよい。
【0073】
一方、異常判定器14が、ニューラルネットワークやSVM等を使用する場合は、いずれかのタイミングで異常判定器14を再学習させて、異常判定器14のパラメータを更新する必要がある。
再学習のタイミングは、学習データDB2を更新する度に、異常判定器14を毎回再学習させてもよく、学習データDB2が所定回数更新される度に、異常判定器14を再学習させてもよい。あるいは、S4で異常判定器14を使用する直前に、異常判定器14を再学習させることもできるが、リアルタイム配信される映像からリアルタイムで異常シーンを検出しようとする場合には、再学習実行によりリアルタイム性が低下しかねないことを考慮すべきである。
【0074】
<変形例>
図10は、本実施形態に係る異常検出装置1が実行する異常シーン検出処理の変形例を示す図である。
異常シーン候補検出部13は、変形例として、
図10に示すように、S3の処理を省略して、学習データDB2に蓄積される学習データの数にかかわりなく、一律に、検出された異常シーンの候補を、異常判定器14に供給してもよい。これにより、映像監視におけるオペレータの異常シーンの候補の確認処理の負荷をさらに軽減することができる。
【0075】
以上説明したように、本実施形態によれば、異常検出装置は、取得された映像データ中の音声特徴および画像特徴を抽出し、抽出された音声特徴を教師なし学習により分類することにより、映像データから異常シーンの候補を検出する。異常検出装置はまた、検出された異常シーンの候補を、映像データの音声特徴および画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器を備え、異常判定器により、異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、ユーザインタフェースを介して受け付ける。
【0076】
これにより、第1段階で、映像データ中の音声特徴に基づいて教師なし学習により高速かつ低負荷で異常シーンの候補を第1段階として検出し、第2段階で、映像データ中の音声特徴および画像特徴に基づく異常判定器による異常シーンの判定と、映像提示に基づくオペレータの目視による異常シーンの判定とを補完的に併用する。
したがって、オペレータの負荷を軽減しつつ、映像から多様な異常を高精度に検出することができる。
これにより、リアルタイムで配信され、多様な異常シーンを含み得る映像データに十分に追従した、高速かつ高精度な異常シーンのマルチモーダルな検出が実現できる。
【0077】
(実施形態2)
以下、
図11~
図14を参照して、実施形態2を、実施形態1と異なる点についてのみ詳細に説明する。
本実施形態では、上記で説明した実施形態1に加え、さらに、映像データの画像特徴から映像中のオブジェクトである人の感情を解析し、感情解析結果を異常シーンの候補の検出や異常シーンの判定に用いる。
【0078】
図11は、本実施形態に係る異常検出装置1の機能構成の一例を示すブロック図である。
図11のブロック図では、
図1に示す実施形態1の異常検出装置1の機能構成に加えて、感情解析部16を備える。
図11において、データ取得部11、特徴抽出部12、異常シーン候補13、異常判定器14、およびシーン提示部15の機能構成は、
図1に示す対応する各部と同様である。
図11を参照して、特徴抽出部12は、映像データ中の画像データから抽出した画像特徴を、感情解析部16へ供給する。
【0079】
感情解析部16は、特徴抽出部12から供給される映像データの画像特徴に基づいて、画像中のオブジェクトである人の顔の感情を解析する。
感情解析部16は、例えば、CNN等の教師あり学習を用いて、画像中の人の顔を解析することで、画像中の人の顔の感情を推定してよい。人の顔の画像から推定される人の顔の感情は、例えば、怒り、嫌悪、恐怖、幸福、悲しみ、驚き、その他(ニュートラル)の感情を含んでよい。
感情解析部16はまた、時間的に隣接する複数の画像フレームの間で算出される、推定された感情の平均信頼度に基づいて、対象画像中の人の顔の感情を決定してもよい。
【0080】
感情解析部16はさらに、画像中の人の身体や四肢の動き、人が把持等するオブジェクト(例えば、マイクロフォン、楽器等)、または背景(例えば、屋内か屋外か等)を解析してよい。特徴抽出部12は、感情解析部16が解析すべき対象オブジェクトの特徴を抽出して、感情解析部16へ供給してよい。
【0081】
本実施形態において、感情解析部16が人の顔の画像の画像特徴から推定する人の顔の感情は、異常シーン候補検出部13が実行する異常シーンの候補の検出処理、および異常判定器14が実行する異常シーンの候補の異常判定処理を補完する。
具体的には、感情解析部16は、人の顔の画像特徴から推定された人の顔の感情から、映像の文脈を推定して、異常シーン候補検出部13に対して、異常シーン候補検出処理のキュー(トリガ)を与えてもよい。例えば、感情解析部16が、人の顔の画像を解析して人の顔の感情として、例えば、怒り、恐怖、驚き等を検出した場合、当該画像を含む映像は、異常シーンである可能性が高いため、感情解析部16は、異常シーン解析部13にキューを与えて、当該映像の音声特徴から異常シーンの候補を検出する処理を実行させてもよい。
【0082】
感情解析部16はまた、人の顔の画像特徴から推定される人の顔の感情の特徴を異常判定器14に供給し、異常判定器14が、感情解析部16から供給される人の顔の感情の特徴を特徴空間に統合して、k近傍法により、異常シーンの候補を異常判定してもよい。例えば、異常判定器14は、人の顔の感情として、例えば、怒り、恐怖、驚き等の特徴を、異常シーンと判定するための正因子として使用してよい。
感情解析部16はさらに、人の顔の画像特徴から推定される人の顔の感情の解析結果を、シーン提示部15に供給し、シーン提示部15が、感情解析部16から供給される人の顔の感情の解析結果を、例えば、提示される映像中に重畳表示や別ウインドウ表示等で併せて表示してもよい。
【0083】
図12は、実施形態2に係る異常検出装置1が実行する異常シーン検出処理の処理手順の一例を示すフローチャートである。
図12のフローチャートでは、
図2に示す実施形態1の異常検出装置1が実行する異常シーン検出処理に対して、S1とS2の間に、S12の処理が追加されている。
S1の処理は、
図2に示す実施形態1と同様である。すなわち、実施形態1と同様、異常検出装置1の特徴抽出部12は、データ取得部11により供給される映像データから、音声特徴および画像特徴をそれぞれ抽出する。
【0084】
S1で、異常検出装置1の特徴抽出部12が、映像データから音声特徴および画像特徴がそれぞれ抽出すると、S12に進む。
S12で、異常検出装置1の感情解析部16は、特徴抽出部12により抽出された画像特徴から、異常シーンの候補を検出する。具体的には、感情解析部16は、画像中の人の顔の画像特徴から、人の感情を推定し、例えば、怒り、恐怖、驚き等の感情が推定された場合には、当該画像を含む映像シーンを異常シーンの候補として検出してよい。
感情解析部16は、画像特徴から異常シーンの候補を検出した場合、後続するS2で実行される異常シーン候補検出部13により実行される映像の音声特徴に基づく異常シーン候補の検出処理にキュー(トリガ)を与える。
【0085】
S12に続き、S2で、異常検出装置1の異常シーン候補検出部13は、感情解析部16が画像特徴から異常シーンの候補を検出してトリガを与えた場合、感情解析部16から供給される異常シーンの候補に対応する音声特徴を教師なし学習を用いて分類することにより、異常シーンの候補を検出する。
【0086】
代替的に、異常シーン候補検出部13は、感情解析部16からトリガを与えられるか否かにかかわりなく、常時、映像データの音声特徴から異常シーンの候補を検出し、感情解析部16から画像特徴に基づく異常シーン候補検出のトリガを与えられた際に、検出された異常シーン候補の音声特徴から、異常シーンの候補として異常検出器14に供給すべきかを確認してもよい。
S2~S11までの処理は、
図2に示す第1の実施形態と同様である。
なお、本実施形態に係る異常検出装置1は、
図10と同様、S3の判定及び分岐処理を省略し、学習データDB2に格納される学習データの数にかかわりなく、S4の異常判定器14による異常シーンの判定処理に進んでもよい。
【0087】
図13は、実施形態2に係る異常検出装置1が実行する異常シーン検出処理の変形例の処理手順の一例を示すフローチャートである。
図13のフローチャートでは、
図1に示す実施形態1の異常検出装置1が実行する異常シーン検出処理に対して、S2とS3の間に、S13の処理が追加されている。
S1およびS2の処理は、
図2に示す実施形態1と同様である。すなわち、実施形態1と同様、異常検出装置1の特徴抽出部12は、データ取得部11により供給される映像データから、音声特徴および画像特徴をそれぞれ抽出し、異常シーン候補検出部13は、特徴抽出部12から供給される映像データの音声特徴に基づいて、異常シーンの候補を検出する。
【0088】
次に、S13で、異常検出装置1の感情解析部16は、特徴抽出部12から供給される画像データの画像特徴のうち、特に画像中に含まれる人の顔の画像特徴から、人の顔の感情を推定する。
S3~S11までの処理は、
図2に示す実施形態1と同様であるが、S4で、異常判定器14は、感情解析部16から供給される画像中の人の顔の感情の特徴を音声および画像の特徴空間に統合してよい。また、S7で、シーン提示部15は、感情解析部16の解析結果を、異常シーンの候補の画像と併せて提示してよい。
なお、
図13において、S2およびS13は、同時並行的に実行されてもよく、S13は、時系列的にS2より前に実行されてもよい。
また、本実施形態に係る異常検出装置1は、
図10と同様、S3の判定及び分岐処理を省略し、学習データDB2に格納される学習データの数にかかわりなく、S4の異常判定器14による異常シーンの判定処理に進んでもよい。
【0089】
図14は、異常検出装置1の感情解析部16が映像データの画像を解析し、シーン提示部15が提示する感情解析結果の出力例を示す図である。
図14を参照して、画像中で、人の顔の周囲にバウンディングボックス131が表示され、人の顔のオブジェクトとして検出されたことを示している。このバウンディングボックス13内の人の顔から推定された感情の信頼度が、出力ウインドウの左上に表示されている。
図14の例では、怒りの信頼度が37.45%と最も高く算出されているが、バウンディングボックス131で包囲された人の顔の表情は、怒りを示しておらずニュートラルであるものとする。この場合、
図14の画像を提示されたオペレータは、提示された画像中の人の顔の表情を目視で確認し、異常シーンではない(すなわち、正常シーンである)との確認結果をシーン提示部15に入力することができる。あるいは、感情解析部16は、信頼度のスコアに所定の閾値を設け、怒りの信頼度のスコアが閾値以下である場合には、異常シーンの候補として検出しなくてもよい。
【0090】
以上説明したように、本実施形態によれば、異常検出装置の異常判定器は、映像データの音声特徴、および画像特徴、特に、人の顔の感情の特徴、の双方のマルチモーダルな情報から、異常シーンである蓋然性が高いと判定された異常シーンの候補について、異常シーンの判定を実行すれば足りる。したがって、学習データのサンプル数が少ない場合であっても、高精度かつ低負荷で異常判定処理を実行することができる。
同様に、本実施形態によれば、異常検出装置のシーン提示部は、映像データの音声特徴、および画像特徴、特に、人の顔の感情の特徴、の双方のマルチモーダルな情報から、異常シーンである蓋然性が高いと判定された異常シーンの候補について、オペレータに提示すれば足りる。したがって、異常シーンの確認におけるオペレータの負荷がさらに軽減される。
【0091】
<異常検出装置のハードウエア構成>
図15は、本実施形態に係る異常検出装置1のハードウエア構成の非限定的一例を示す図である。
本実施形態に係る異常検出装置1は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図15を参照して、異常検出装置1は、単一のコンピュータに実装される例が示されているが、本実施形態に係る異常検出装置1は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。
【0092】
図15に示すように、異常検出装置1は、CPU21と、ROM22と、RAM23と、HDD24と、入力部25と、表示部26と、通信I/F27と、システムバス28とを備えてよい。異常検出装置1はまた、外部メモリを備えてよい。PC3もまた、
図15と同様の構成を備えてよい。
CPU(Central Processing Unit)21は、異常検出装置1における動作を統括的に制御するものであり、データ伝送路であるシステムバス28を介して、各構成部(22~27)を制御する。
異常検出装置1はまた、GPU(Graphics Processing Unit)を備えてよい。GPUは、CPU21より高い計算機能を有し、複数または多数のGPUを並列して動作させることにより、特に、本実施形態のような機械学習を使用する映像処理アプリケーションに、より高い処理パフォーマンスを提供する。GPUは、通常、プロセッサと共有メモリを含む。それぞれのプロセッサが高速の共有メモリからデータを取得し、共通プログラムを実行することで、同種の計算処理を大量かつ高速に実行する。
【0093】
ROM(Read Only Memory)22は、CPU21が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、HDD(Hard Disk Drive)14、SSD(Solid State Drive)等の不揮発性メモリや着脱可能な記憶媒体(不図示)等の外部メモリに記憶されていてもよい。
RAM(Random Access Memory)23は、揮発性メモリであり、CPU11の主メモリ、ワークエリア等として機能する。すなわち、CPU21は、処理の実行に際してROM22から必要なプログラム等をRAM23にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
【0094】
HDD24は、例えば、CPU21がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、HDD24には、例えば、CPU21がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
入力部25は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部26は、液晶ディスプレイ(LCD)等のモニターにより構成される。表示部26は、異常シーン検出処理で使用される各種パラメータや、他の装置との通信で使用される通信パラメータ等をパラメータ調整装置1へ指示入力するためのユーザインタフェースであるGUI(Graphical User Interface)を提供してよい。
【0095】
通信I/F27は、異常検出装置1と外部装置との通信を制御するインタフェースである。
通信I/F27は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信I/F27を介して、外部装置との間で映像、異常シーン判定結果、異常シーン確認入力、各種パラメータ等が送受信される。本実施形態では、通信I/F27は、イーサネット(登録商標)等の通信規格に準拠する有線LAN(Local Area Network)や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wide Band)等の無線PAN(Personal Area Network)を含む。また、Wi-Fi(Wireless Fidelity)(登録商標)等の無線LAN(Local Area Network)や、WiMAX(登録商標)等の無線MAN(Metropolitan Area Network)を含む。さらに、LTE/3G、4G、5G等の無線WAN(Wide Area Network)を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。
【0096】
図1に示す異常検出装置1の各要素のうち少なくとも一部の機能は、CPU21がプログラムを実行することで実現することができる。ただし、
図1に示す異常検出装置1の各要素のうち少なくとも一部の機能が専用のハードウエアとして動作するようにしてもよい。この場合、専用のハードウエアは、CPU21の制御に基づいて動作する。
【0097】
なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置及び方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換及び変更をなすこともできる。かかる省略、置換及び変更をなした形態は、請求の範囲に記載されたもの及びこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。
【符号の説明】
【0098】
1…異常検出装置、2…学習データDB、3…PC、11…データ取得部、12…特徴抽出部、13…異常シーン候補検出部、14…異常判定器、15…シーン提示部、16…感情解析部、21…CPU、22…ROM、23…RAM、24…HDD、25…入力部、26…表示部、27…通信I/F、28…バス