【解決手段】複数の観察対象を観察して得られる動き軌跡を、教師なしクラスタリングすることにより、観察対象ごとの位置および速度が、行動へ分類される。そして、複数の観察対象の全体についての行動の集合の特徴を表す特徴量を、教師なしクラスタリングすることにより、複数の観察対象の全体についての行動の集合が、活動へ分類される。本技術は、例えば、子供たちの活動のアノテーションを半自動化するシステムに適用できる。
複数の観察対象を観察して得られる時系列データを教師なしクラスタリングすることにより、前記観察対象ごとの前記時系列データを、第1の分類項目へ分類する第1の分類部と、
複数の前記観察対象の全体についての前記第1の分類項目の集合の特徴を表す特徴量を教師なしクラスタリングすることにより、複数の前記観察対象の全体についての前記第1の分類項目の集合を、第2の分類項目へ分類する第2の分類部と
を備える情報処理装置。
前記第1の分類部により分類された前記観察対象ごとの前記第1の分類項目に基づいて、複数の前記観察対象の全体に対する前記特徴量を、任意の時間帯ごとに生成する特徴量生成部
をさらに備える請求項1または2に記載の情報処理装置。
【発明を実施するための形態】
【0012】
以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
【0014】
まず、
図1を参照して、活動分類処理の概要について説明する。
【0015】
本実施の形態では、例えば、
図1に示される観測シーンのように、子供たちが自由に遊んでいる様子を観測し、その観測結果から、どのような活動(遊び)が行われているのかを分類する活動分類処理について説明する。
【0016】
まず、観測が行われる場所に居る複数の子供を観測対象として識別し、観測対象ごとの位置を計測して、各時刻において観測対象が移動する位置を追跡した動き軌跡を抽出する。そして、HDP-HMM(Hierarchical Drichlet Process-Hidden Markov Model)によって、各観測対象の位置および速度を教師なしクラスタリングする。これにより、観測対象ごとの位置および速度から、局所的な行動へ分類(離散化)することができる。
【0017】
さらに、任意の時間帯ごとに、各行動が行われた頻度を計数することで行動頻度ヒストグラムを算出する。例えば、観測対象の全体についての行動の集合を活動として捉えると、行動頻度ヒストグラムは、それぞれの活動の特徴を表す活動特徴量として用いることができる。そして、活動特徴量である行動頻度ヒストグラムを、LDA(Latent Dirichlet Allocation)やHDP-LDA(Hierarchical Drichlet Process - LDA)などによる教師なしクラスタリングすることで、活動ごとへ分類することができる。
【0018】
このように、観測シーンにおける子供たちの観測結果を用いて、二段階の教師なしクラスタリングを行うことによって、複数の子供の行動の集合を、特定の活動として分類することができる。
【0020】
図2は、本技術を適用した情報処理システムの一実施の形態の構成例を示すブロック図である。
【0021】
図2に示すように、情報処理システム11は、観測装置12、入力装置13、記憶装置14、および活動分類処理装置15を備えて構成される。また、図示するように、情報処理システム11は、観測装置12、入力装置13、および記憶装置14が、それぞれ活動分類処理装置15に接続される接続構成となっている。
【0022】
観測装置12は、例えば、複数のRGB-Dセンサを備えて構成され、複数の方向から観測シーンを撮像して得られるカラー画像および奥行き画像を、活動分類処理装置15に供給する。なお、観測装置12は、後述するような動き軌跡を抽出することができる構成であればよく、観測装置12に用いられるセンサの種類や個数などは、特に、本実施の形態における説明に限定されることはない。
【0023】
入力装置13は、例えば、キーボードやマウスなどにより構成され、ユーザによる操作に従った各種の入力値(例えば、後述するウィンドウ幅など)を、活動分類処理装置15に入力する。
【0024】
記憶装置14は、例えば、ハードディスクドライブやメモリなどにより構成され、活動分類処理装置15が活動分類処理を行う際に一時的に記憶させる各種のデータや、活動分類処理装置15が活動分類処理を行った結果として得られる分類結果などを記憶する。
【0025】
活動分類処理装置15は、動き軌跡抽出部21、行動分類部22、活動特徴量生成部23、および活動分類部24を備えて構成される。また、図示するように、活動分類処理装置15は、動き軌跡抽出部21が行動分類部22に接続され、行動分類部22が活動特徴量生成部23に接続され、活動特徴量生成部23が活動分類部24に接続される接続構成となっている。
【0026】
動き軌跡抽出部21は、観測装置12から供給されるカラー画像および奥行き画像に基づいて、それぞれの観測対象を識別し、観測対象ごとの位置を特定する。そして、動き軌跡抽出部21は、それぞれの観測対象が移動することによる位置の変化を追跡することにより、観測対象ごとの動き軌跡を抽出して、行動分類部22に供給する。
【0027】
例えば、動き軌跡抽出部21は、観測装置12から供給されるカラー画像に対して物体認識処理を施し、カラー画像に映されている子供の顔や服色などに基づいて、それぞれの子供を識別することができる。また、動き軌跡抽出部21は、観測装置12から供給される奥行き画像から求められる子供までの距離に従って、カラー画像で識別された子供ごとの位置(xy座標)を特定することができる。ここで、子供ごとの位置は、例えば、カラー画像上の座標位置を用いて特定する他、実空間上において子供ごとの位置を特定することができる場合には、実空間上の座標位置を用いて特定してもよい。また、子供ごとの位置を特定する方法は、特に、これらに限定されることはない。
【0028】
行動分類部22は、動き軌跡抽出部21から供給される動き軌跡から求められる観察対象ごとの位置および速度を、HDP-HMMによって教師なしクラスタリングする。これにより、行動分類部22は、観察対象ごとに、それぞれの位置および速度で構成される行動(分類項目)へ分類して、観察対象ごとの行動を活動特徴量生成部23に供給する。
【0029】
ここで、HDP-HMMは、隠れ状態とその状態間の確率的遷移で表現されるモデルの一つである階層ディリクレ過程隠れマルコフモデルであり、例えば、状態数をあらかじめ決めることなく、学習データの複雑さに応じて最適な状態数を推定することができる。
【0030】
例えば、
図3に示すように、動き軌跡抽出部21は、第1の観察対象および第2の観察対象の動き軌跡の時刻tごとに、位置および速度をクラスタリングすることで、第1の観察対象および第2の観察対象が行った行動を識別する行動ID(Identification)を動的に割り当てる。これにより、例えば、第1の観察対象および第2の観察対象の動き軌跡において類似した位置および速度(
図3に示す破線の範囲)に対して、それぞれ同一の行動IDが割り当てられることになる。このように、行動分類部22は、各観察対象の動き軌跡について類似した位置および速度を、それぞれ対応する行動へ分類することができる。
【0031】
活動特徴量生成部23は、行動分類部22から供給される複数の観察対象の行動に基づいて、複数の観察対象の全体における活動の特徴を表す活動特徴量を生成して、活動分類部24に供給する。
【0032】
例えば、
図4に示すように、活動特徴量生成部23は、第1の観察対象および第2の観察対象の行動を、ユーザが入力装置13を操作して入力する任意のウィンドウ幅(時間帯)に分割する。そして、活動特徴量生成部23は、それぞれのウィンドウ幅において割り当てられている行動IDが出現した回数を計数し、これにより求められる行動頻度ヒストグラム(固定長のベクトル)を活動特徴量として生成する。なお、このウィンドウ幅は、
図4に示すように連続的に設定してもよいし、例えば、所定の幅でオーバラップするように設定してもよい。
【0033】
活動分類部24は、活動特徴量生成部23から供給される活動特徴量を、LDAやHDP-LDAなどによって教師なしクラスタリングすることにより、複数の観察対象の全体についての行動の集合を活動(分類項目)へ分類する。そして、活動分類部24は、その分類による結果として得られる分類結果を、記憶装置14に記憶させる。
【0034】
ここで、LDAは、文書および単語に対する潜在状態(トピック)を推定する潜在的ディリクレ配分法であり、例えば、潜在状態の数が予め与えられ、活動特徴量を「文書」とし、かつ、行動を「単語」として活動(潜在状態)を推定することができる。なお、HDP-LDAでは、データの複雑さに合わせて必要な数の潜在状態数が自動的に決められる。
【0035】
例えば、
図5に示すように、活動分類部24は、活動特徴量が生成された時間帯ごとに、それぞれの活動特徴量の類似性(図示するようなヒストグラムの形状的な類似性)に基づいて、類似した活動特徴量に対して同一の活動IDを動的に割り当てることができる。なお、活動分類部24が活動を分類する分類数(活動IDの数)は、ユーザが入力装置13を操作して入力してもよいし、活動分類部24が、全ての活動特徴量から適切な分類数を推定してもよい。
【0036】
このように情報処理システム11は構成されており、行動分類部22による教師なしクラスタリングと、活動分類部24による教師なしクラスタリングとを二段階で行うことによって、複数の観察対象の全体による様々な活動ごとの分類結果を効果的に抽出することができる。これにより、情報処理システム11は、複数の観測対象による活動のアノテーションの半自動化(即ち、活動IDの割り当ては自動的に行われるが、それぞれの活動の意味づけまでは自動的に行われない。活動の意味づけは、状況に応じて上述の活動IDに基づいて観察者または他のシステム等により行われることが想定される。)を実現することができる。
【0037】
例えば、従来、複数の観測対象による活動を分類する処理を行う場合には、分類したい行動を教師データとして予め設定する必要があり、どのように教師データを設定するのかなど様々な手間が生じていため、容易に処理を行うことができなかった。
【0038】
これに対し、情報処理システム11は、教師データを予め設定しなくても、複数の観測対象の動き軌跡から活動IDを動的に割り当てることができ、分類結果を効果的に抽出することができる。なお、それぞれの活動IDに対して、どのような活動であるのかは、活動を分類した後に、画像などを見た人物が意味づけすることができる。
【0039】
具体的には、情報処理システム11は、例えば、保育園にいる子供たちが、どのような遊びをしているのかを自動的に分類することができ、その後、保育士が遊びの内容(例えば、かくれんぼや鬼ごっこなど)を意味づけすることができる。さらに、情報処理システム11により子供たちの活動を長期間に亘って分類することで、それらの子供の集団としての成長を観測することができる。
【0040】
さらに、情報処理システム11は、例えば、記憶装置14に蓄積されている分類結果を参照することで、これまでに観測された類似の活動(観測シーン)を検索することができる。
【0041】
特に、情報処理システム11は、複数の観察対象の全体としての活動特徴量を用いることで、例えば、観察対象を個別に識別する識別精度が低かったり、観察対象の人数を完全に把握していなかったりしても、複数の観察対象の全体としての活動を正確に分類することができる。
【0043】
次に、
図6に示すフローチャートを参照して、活動分類処理装置15において実行される活動分類処理について説明する。
【0044】
例えば、ある程度の時間のカラー画像および奥行き画像が観測装置12から供給されると処理が開始され、ステップS11において、動き軌跡抽出部21は、観測装置12から供給されるカラー画像および奥行き画像に基づいて、観測対象ごとの動き軌跡を抽出する。なお、動き軌跡抽出部21が観測対象ごとの動き軌跡を抽出する処理については、上述した非特許文献1において詳細に説明されている。
【0045】
ステップS12において、行動分類部22は、ステップS11で動き軌跡抽出部21により抽出された動き軌跡を用いて、HDP-HMMによる教師なしクラスタリングすることで、それぞれの観測対象の位置および速度を行動ごとに分類する。
【0046】
ステップS13において、活動特徴量生成部23は、ステップS12で行動分類部22により分類された各行動が行われた頻度を表すヒストグラムを、観測対象の全体による活動の特徴を表す活動特徴量として生成する。
【0047】
ステップS14において、活動分類部24は、ステップS13で活動特徴量生成部23により生成された活動特徴量を、LDAやHDP-LDAなどによる教師なしクラスタリングすることで活動ごとに分類し、その結果得られる活動IDを分類結果として出力する。
【0048】
以上のように、活動分類処理装置15は、複数の観測対象の動き軌跡(大量のデータ)から、二段階の教師なしクラスタリングを行うことによって、複数の観測対象の全体による活動へ分類した分類結果を効果的に抽出することがでる。また、活動分類処理装置15は、このようなクラスタリングを、例えば、撮像中のカラー画像および奥行き画像が連続的に供給されるタイミングに準じてリアルタイムで行うことができる。もちろん、活動分類処理装置15は、既に記録されているカラー画像および奥行き画像を用いて処理を行ってもよい。
【0049】
なお、本技術は、上述したような子供の遊びを分類する他、例えば、体育館において行われているスポーツを分類して、体育館の運用を管理するのに利用することができる。また、本技術は、例えば、特定のエリアの人の動きを分類して、異常な行動をする人を抽出することで、防犯に役立てることができる。
【0050】
また、本実施の形態では、観察対象ごとの位置および速度(動き軌跡に対して位置の時間的な変化を求める処理を行って得られる処理結果)をクラスタリングの対象として説明を行ったが、例えば、観察対象ごと動き軌跡そのものをクラスタリングの対象としてもよい。その他、観察対象ごとの動き軌跡に対して速度の時間的な変化を求める処理を行って得られる加速度や、複数の観察対象の動き軌跡に対して互いの関係を求める処理を行って得られる関係性(例えば、相関係数)などの処理結果を、クラスタリングの対象とすることができる。
【0051】
さらに、情報処理システム11は、観察対象の動き軌跡以外の時系列データを用いてもよく、その時系列データのデータ値および処理結果を教師なしクラスタリングすることで、例えば、行動や活動以外の所望の分類項目へ分類した分類結果を抽出することができる。また、情報処理システム11において用いられる活動特徴量は、複数の観察対象の全体における活動の特徴を表していれば、上述したような行動頻度ヒストグラムに限定されることはない。
【0052】
なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、単一のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
【0053】
また、上述した一連の処理(情報処理方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
【0054】
図7は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
【0055】
コンピュータにおいて、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
【0056】
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
【0057】
以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105及びバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
【0058】
コンピュータ(CPU101)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア111に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
【0059】
そして、プログラムは、リムーバブルメディア111をドライブ110に装着することにより、入出力インタフェース105を介して、記憶部108にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部109で受信し、記憶部108にインストールすることができる。その他、プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
【0060】
なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。