特許第5816098号(P5816098)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アイサイト モバイル テクノロジーズ リミテッドの特許一覧

特許5816098ビデオストリームの中のオブジェクト認識および追跡システムおよび方法
<>
  • 特許5816098-ビデオストリームの中のオブジェクト認識および追跡システムおよび方法 図000002
  • 特許5816098-ビデオストリームの中のオブジェクト認識および追跡システムおよび方法 図000003
  • 特許5816098-ビデオストリームの中のオブジェクト認識および追跡システムおよび方法 図000004
  • 特許5816098-ビデオストリームの中のオブジェクト認識および追跡システムおよび方法 図000005
  • 特許5816098-ビデオストリームの中のオブジェクト認識および追跡システムおよび方法 図000006
  • 特許5816098-ビデオストリームの中のオブジェクト認識および追跡システムおよび方法 図000007
  • 特許5816098-ビデオストリームの中のオブジェクト認識および追跡システムおよび方法 図000008
  • 特許5816098-ビデオストリームの中のオブジェクト認識および追跡システムおよび方法 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5816098
(24)【登録日】2015年10月2日
(45)【発行日】2015年11月18日
(54)【発明の名称】ビデオストリームの中のオブジェクト認識および追跡システムおよび方法
(51)【国際特許分類】
   G06T 7/20 20060101AFI20151029BHJP
   G06F 3/01 20060101ALI20151029BHJP
【FI】
   G06T7/20 300A
   G06T7/20 B
   G06F3/01 310C
【請求項の数】17
【全頁数】18
(21)【出願番号】特願2011-547059(P2011-547059)
(86)(22)【出願日】2010年2月2日
(65)【公表番号】特表2012-517044(P2012-517044A)
(43)【公表日】2012年7月26日
(86)【国際出願番号】IL2010000092
(87)【国際公開番号】WO2010086866
(87)【国際公開日】20100805
【審査請求日】2013年2月1日
(31)【優先権主張番号】61/202,157
(32)【優先日】2009年2月2日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】511188288
【氏名又は名称】アイサイト モバイル テクノロジーズ リミテッド
(74)【代理人】
【識別番号】110000855
【氏名又は名称】特許業務法人浅村特許事務所
(74)【代理人】
【識別番号】100066692
【弁理士】
【氏名又は名称】浅村 皓
(74)【代理人】
【識別番号】100072040
【弁理士】
【氏名又は名称】浅村 肇
(74)【代理人】
【識別番号】100091339
【弁理士】
【氏名又は名称】清水 邦明
(74)【代理人】
【識別番号】100094673
【弁理士】
【氏名又は名称】林 鉐三
(72)【発明者】
【氏名】イスラエル、ナダフ
(72)【発明者】
【氏名】カッツ、イタイ
(72)【発明者】
【氏名】コーヘン、デュディ
(72)【発明者】
【氏名】シェンフェルド、アムノン
【審査官】 佐藤 実
(56)【参考文献】
【文献】 特開2007−087089(JP,A)
【文献】 特開2007−122218(JP,A)
【文献】 特開2005−202653(JP,A)
【文献】 国際公開第2008/139399(WO,A1)
【文献】 CHIHARA K,REAL-TIME GESTURE RECOGNITION BY LEARNING AND SELECTIVE CONTROL OF VISUAL INTEREST POINTS,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,米国,IEEE SERVICE CENTER,2005年 3月 1日,V27 N3,P351-364
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/20
G06F 3/01
(57)【特許請求の範囲】
【請求項1】
ビデオストリームの中のオブジェクト検出および追跡システムであって、
(a)オブジェクト検出モジュールおよびオブジェクト追跡モジュールを含むプロセッサを含み、
前記オブジェクト検出モジュールは、
(i)前記ビデオストリームの複数のフレームを複数の静的に定義された関心領域に分割した後、前記ビデオストリームの中の前記複数のフレームの各フレーム内の前記複数の関心領域の各々に対して、前記関心領域内のピクセルの統計的解析を実行し、
(ii)前記実行された統計的解析に従って前記複数のフレームの各フレーム内の前記関心領域を分類して各ビデオフレームに対する関心領域(RI)フレームを発生し、前記RIフレームは関心領域の前記分類を報告し、関心領域の前記分類は前記関心領域内の追跡されたオブジェクトが存在する確率を記述する離散関数であるように構成されており、
かつ、前記オブジェクト追跡モジュールは、
連続するRIフレーム内の関心領域の分類を比較して前記オブジェクトの動きを決定する、ように構成されている、
システム。
【請求項2】
請求項1記載のシステムであって、前記オブジェクト追跡モジュールは1つ以上のパターン検出モジュールを含み、各パターン検出モジュールはタイムウィンドウ中の前記追跡されたオブジェクトの動きの特定パターンが前記タイムウィンドウ中に発生した確率を計算するように構成されているシステム。
【請求項3】
請求項2記載のシステムであって、前記オブジェクト追跡モジュールは、さらに、前記1つ以上のパターン検出モジュールにより発生された前記確率に基づいて発生した可能性が最も高いモーションパターンを決定するモーション認識モジュールを含んでいるシステム。
【請求項4】
請求項1からのいずれか1項記載のシステムであって、さらに、動きの識別されたパターンに関連するOSコマンドを実行するように構成されたオペレーティングシステム(OS)コマンド実行モジュールを含むシステム。
【請求項5】
請求項1からのいずれか1項記載のシステムであって、関心領域が被追跡オブジェクトの少なくとも一部を含む前記確率は、
(a)前記ビデオストリームの中の各フレーム内の1つ以上の関心領域の各々に対して、前記関心領域内のピクセルの統計的解析を計算し、
(b)前記ビデオストリームの1つ以上の前のフレーム内の前記関心領域の前記統計的解析を伴う計算における前記関心領域の離散的分類を計算する、
ステップを含む方法により得られるシステム。
【請求項6】
請求項記載のシステムであって、前記統計的解析は前記関心領域のピクセルで定義された1つ以上の関数の各々に対してヒストグラムを発生するステップを含むシステム。
【請求項7】
請求項記載のシステムであって、前記1つ以上の関数は、
(a)前記ピクセルのレッド、グリーン、またはブルーの色の任意1つの強度、
(b)前記ピクセルの色相、彩度または輝度のいずれか1つ、
を含むグループから選択されるシステム。
【請求項8】
請求項または記載のシステムであって、さらに、前記1つ以上の関数の統計的パラメータの値を計算するステップを含むシステム。
【請求項9】
請求項記載のシステムであって、前記統計的パラメータの1つ以上は、
(a)平均、
(b)モード、
(c)標準偏差、および
(d)分散
を含むグループから選択されるシステム。
【請求項10】
請求項からのいずれか1項記載のシステムであって、前記統計的解析は、さらに、1つ以上の発生されたヒストグラムと前記被追跡オブジェクトの存在を示すヒストグラム間の距離を計算するステップを含むシステム。
【請求項11】
請求項4から10のいずれか1項記載のシステムであって、前記2つ以上のRIフレームの比較は、
(a)各フレーム、および前記フレーム内の前記分類された関心領域の各々に対して、前記関心領域の前記分類を前記フレームを含むタイムウィンドウ内で得られた複数のフレーム内の前記関心領域の前記分類と比較し、
(b)前記比較に基づいて、選択された関心領域が前記被追跡オブジェクトを含むか否かを決定し、
(c)この決定に基づいて、前記関心領域が前記被追跡オブジェクトを含むか否かに従って、前記関心領域を再分類し、
(d)タイムウィンドウ中の2つ以上の前記領域の状態の変化に基づいて、前記オブジェクトの動きの1つ以上の追跡パラメータを計算する、
ステップを含む、
システム。
【請求項12】
請求項11記載のシステムであって、前記追跡パラメータは、
(a)前記オブジェクトの動きの方向、
(b)前記オブジェクトの動きの速度、
(c)前記オブジェクトの加速度、
(d)ピクセル内の前記オブジェクトの幅、
(e)ピクセル内の前記オブジェクトの高さ、
(f)前記フレーム内の前記オブジェクトの位置、
を含むグループから選択されるシステム。
【請求項13】
ビデオストリームの中のオブジェクト検出および追跡方法であって、
(i)前記ビデオストリームの複数のフレームを複数の静的に定義された関心領域に分割した後、前記ビデオストリームの中の前記複数のフレームの各フレーム内の前記複数の関心領域の各々に対して、前記関心領域内のピクセルの統計的解析を実行し、
(ii)前記実行された統計的解析に従って各ビデオフレーム内の前記関心領域を分類して前記複数のビデオフレームの各ビデオフレームに対する関心領域(RI)フレームを発生し、前記RIフレームは関心領域の前記分類を報告し、前記関心領域の前記分類は前記関心領域内の追跡されたオブジェクトが存在する確率を記述する離散関数であり、
(iii)連続するRIフレーム内の関心領域の分類を比較して前記オブジェクトの動きを決定する
ステップを含む、
方法。
【請求項14】
請求項13記載の方法であって、関心領域が前記被追跡オブジェクトの少なくとも一部を含む前記確率は、
(a)前記ビデオストリームの中の各ビデオフレーム内の関心領域の各々に対して、前記関心領域内のピクセルの統計的解析を計算し、
(b)前記ビデオストリームの1つ以上の前のビデオフレーム内の前記関心領域の前記統計的解析を伴う計算における前記関心領域の離散的分類を計算する、
ステップを含む方法により得られる方法。
【請求項15】
請求項1から12のいずれか1項記載のシステムを含む装置。
【請求項16】
請求項15記載の装置であって、前記追跡されたオブジェクトの動きの1つ以上のパターンは、
(a)ピクセル内の前記オブジェクトの幅がタイムウィンドウ中に増加した、
(b)ピクセル内の前記オブジェクトの幅が前記タイムウィンドウ中に減少した、
(c)前記オブジェクトがカメラにより近く動いた、
(d)前記オブジェクトが前記カメラから離れるように動いた、
(e)前記オブジェクトが予め定められたパス内を動いた、
(f)前記オブジェクトが回転した、
(g)前記オブジェクトが静止していた、
(h)前記オブジェクトが任意タイプの動きをした、
(i)前記オブジェクトがフリッキング・モーションを行った、
(j)前記オブジェクトが加速した、
(k)前記オブジェクトが減速した、および、
(l)前記オブジェクトが動いた後で停止した、
を含むグループから選択される装置。
【請求項17】
請求項15または16記載の装置であって、前記プロセッサは、さらに動きの識別されたパターンに関連する前記装置のOSコマンドを実行するように構成されたオペレーティングシステム(OS)コマンド実行モジュールを含み、前記OSコマンドの1つ以上は、
(a)前記装置のディスプレー画面上にディスプレーされる仮想キーを押下する、
(b)前記装置のディスプレー画面上に現れるカーソルを前記画面上の新しい位置へ動かす、
(c)選択カルーセルを回転させる、
(d)デスクトップ間を切り替える、
(e)予め定められたソフトウエア・アプリケーションを中央処理装置上で実行する、
(f)アプリケーションをターンオフする
(g)ピーカをターンオンまたはオフする、
(h)音量を上げ下げする、
(i)メディアプレーヤ内またはIPTVチャネル間で次または前のトラックへスキップする、
(j)GPSアプリケーションを制御する、
(k)ボイスメールサービスをスイッチオンする、
(l)写真/音楽アルバムギャラリ内でナビゲートする、
(m)ウェブページ、メール、ドキュメントまたはマップをスクロールする、
(n)携帯ゲーム内のアクションを制御する、
(o)インタラクティブビデオまたはアニメイテッドコンテンツを制御する、
を含むグループから選択される装置。
【発明の詳細な説明】
【技術分野】
【0001】
(発明の分野)
本発明はオブジェクト(object:物体)検出および追跡方法およびシステム、およびこのようなシステムを含む装置に関する。
【背景技術】
【0002】
(発明の背景)
下記の先行技術の出版物は本発明を理解するのに関連するものと考えられる。
Digital Image Processing by Rafael C.Gonzalez,Richard E,Woods and Steven L.Eddins,Prentice Hall(2004),10.4.2−Region Growing.
E.Deja,M.M.Deja,Dictionary of Distances,Elsevier(2006).
Mahalanobis,PC(1936).“On the generalized distance in statistics”.Proceedings of the National Institute of Sciences of India 2(1):49−55).
Itakura F.,“Line spectrum representation of linear predictive coefficients of speech signals,”J.Acoust.Soc.Am.,57,537(A),1975.
James M.Abello,Panos M.Pardalos,andMauricio G.C.Resende(editors)(2002).Handbook of Massive Data Sets.Springer.
E.R.Berlekamp,Algebraic Coding Theory,MacGrw−Hill 1968.
Richard W.Hamming.Error Detecting and Error Correcting Codes,Bell System Technical Journal 26(2):147−160,1950.
Dan Gusfield.Algorithms on strings,trees,and sequences:computer sience and computational biology.Cambridge University Press,New York,NY,USA,1997).
米国特許第5,767,842号および第6,650,318号
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許第5,767,842号
【特許文献2】米国特許第6,650,318号
【非特許文献】
【0004】
【非特許文献1】Digital Image Processing by Rafael C.Gonzalez,Richard E,Woods and Steven L.Eddins,Prentice Hall(2004),10.4.2−Region Growing.
【非特許文献2】E.Deja,M.M.Deja,Dictionary of Distances,Elsevier(2006).
【非特許文献3】Mahalanobis,PC(1936).“On the generalized distance in statistics”.Proceedings of the National Institute of Sciences of India 2(1):49−55).
【非特許文献4】Itakura F.,“Line spectrum representation of linear predictive coefficients of speech signals,”J.Acoust.Soc.Am.,57,537(A),1975.
【非特許文献5】James M.Abello,Panos M.Pardalos,and Mauricio G.C.Resende(editors)(2002).Handbook of Massive Data Sets.Springer.
【非特許文献6】E.R.Berlekamp,Algebraic Coding Theory,MacGrw−Hill 1968.
【非特許文献7】Richard W.Hamming.Error Detecting and Error Correcting Codes,Bell System Technical Journal 26(2):147−160,1950.
【非特許文献8】Dan Gusfield.Algorithms on strings,trees,and sequences:computersience and computational biology.Cambridge University Press,New York,NY,USA,1997).
【発明の概要】
【発明が解決しようとする課題】
【0005】
データ処理装置内へのデータの入力はキーボード、マウス、またはジョイスティック等のデータ入力装置を使用して達成される。電子装置は常に小型化されるが、さまざまな関連するデータ入力装置はユーザの手のサイズと一致しなければならないため、そのサイズは実質的に小さくすることはできない。したがって、ユーザの手を装置に触れる必要がないデータ入力方法が考案されてきている。たとえば、コース(Korth)への米国特許第5,767,842号およびアモン(Amon)への第6,650,318号はユーザの手および指の動きを監視するのにカメラが使用される光学系を開示している。ソフトウエア・アプリケーションがこれらの動きを物理的に存在しないコンピュータ・キーボードまたは他の入力装置上の操作として解釈する。これらのシステムにおいて、カメラは固定位置を有し、画像の背景が一定のままとされる。それにより、ソフトウエア・アプリケーションは各画像内のユーザの手を検出するために一定の背景内に存在する情報を使用することができる。したがって、使用中に動かされる装置では、画像の背景が一定ではないため、このシステムは使用できず、そのため画像内に信頼できる背景情報が無い。使用中に動かされる装置はパ―ソナル・デジタル・アシスタント(PDA)、携帯電話、デジタルカメラ、および携帯ゲーム機等のハンドヘルド装置を含んでいる。
【課題を解決するための手段】
【0006】
(発明の概要)
その第1の側面において、本発明はビデオストリームの中のオブジェクト認識および追跡システムを提供する。本発明のシステムは2つの別々の論理的階層に基づいている。第1の階層はビデオストリームを環境内でスタンドアロン・モーションセンサとして機能する関心領域へと分割し、追跡されたオブジェクトが領域内に存在する可能性を計算する責任を他に依存しないで負う。第2の階層は領域セットの挙動を時間をかけて監視し、可能性のパターンに基づいて、追跡されたオブジェクトの位置およびモーションパラメータを計算する。
【0007】
本発明のシステムはシステムにより解析されるビデオストリームのフレームを格納するメモリを含んでいる。プロセッサがメモリ内に格納されたビデオストリームのフレームを読み込む。関心領域が予め定められた被追跡オブジェクトの少なくとも一部を含む確率に従って、オブジェクト検出モジュールが各フレーム内の関心領域を分類する。後述するように、オブジェクト検出モジュールによるオブジェクト検出はフレーム内のオブジェクトのエッジ検出を伴わない。オブジェクト追跡モジュールは、その入力として、オブジェクト検出モジュールから出力される分類されたフレームを受信し、連続する分類されたフレームを比較することにより、オブジェクトの動きを決定する。本発明のシステムはキーボード、マウスまたはジョイスティック等の装置に関連する任意の入力装置の代わりに、またはそれに加えて、装置にオペレーティングシステム(OS)コマンドを入力するのに使用することができる。本発明のシステムはパーソナルコンピュータ(PC)、PDA、ラップトップまたはパームプロット等のポータブルコンピュータ、携帯電話、ラジオその他のエンターテインメント装置、車両、デジタルカメラ、携帯ゲーム機、コンピュータ化医療装置およびスマートハウス製品等の任意タイプのデータ処理装置において使用することができる。
【0008】
応用に応じて、プロセッサはオブジェクトモーションの予め定められたセットの中から追跡されたオブジェクトのモーションパターンを識別するパターン認識モジュールを随意含むことができる。システムは、さらに、予め定められた1つ以上のモーションパターンの各々に対して、関連するOSコマンドを提供するルックアップテーブルを格納するOSコマンド実行モジュールを含むことができる。予め定められたオブジェクトモーションの1つが識別されると、そのモーションに関連するOSコマンドがシステムにより実行される。
【0009】
その第2の側面において、本発明は本発明のシステムを含むデータ処理装置を提供する。データ処理装置は、たとえば、パーソナルコンピュータ(PC)、PDA、ラップトップ等のポータブルコンピュータ、または携帯電話、ラジオその他のエンターテインメント装置、車両、デジタルカメラまたは携帯ゲーム機とすることができる。前記したように、本発明の装置はオブジェクト検出およびオブジェクト追跡を行うように構成されたビデオカメラおよびプロセッサを有する。被検出および追跡オブジェクトは、たとえば、ユーザの手または指、あるいはハンドヘルド・スタイラスあるいは他の予め定義されたまたは特定の装置とすることができる。
【0010】
本発明の装置は、認識された各動きに対して、関連するOSコマンドを提供するルックアップテーブルを格納するメモリを含んでいる。パターン識別モジュールによりモーションパターンが検出されると、動きに関連づけられたOSコマンドがルックアップ内で検索され(looked up)、次に、動きに関連づけられたOSコマンドが実行される。OSコマンドは、たとえば、Speaker On/Off、MP3/IPTV内のNext/Previous track、GPS応用におけるマップビュー・コントロール、ボイスメール・サービスをスイッチオンする、等の活性化機能(activate functions)とすることができる。
【0011】
本発明のこの側面に従って、ビデオストリームのフレームは2つ以上の関心領域に分割される。各関心領域に対して、関心領域内のピクセルの統計的解析が行われる。たとえば、統計的解析は関心領域のピクセル上に定義された1つ以上の関数の各々に対してヒストグラムを発生するステップを含むことができる。関数は、たとえば、ピクセルのレッド、グリーン、またはブルーの色の任意の1つの強度、またはピクセルの色相、彩度または輝度のいずれか1つとすることができる。ヒストグラムは単一変数ヒストグラムまたは多変数ヒストグラムとすることができ、ピクセル・プロパティのnタプルの頻度が集計される。統計的解析は任意の1つ以上のヒストグラムの平均、モード、標準偏差、または分散等の統計的パラメータの値を計算するステップを含むこともできる。関心領域の統計的解析の結果は、検出されるオブジェクトの少なくとも一部を領域が含む確率に従って領域を分類するのに使用される。解析された各フレームに対して、フレームの関心領域の分類を表す「関心領域(RI)フレーム」が発生される。
【0012】
1つ以上のパターン検出モジュールがRIフレームからオブジェクトの特定のモーションパターンを検出するのに使用される。各パターン検出モジュールはそれにより検出された特定のモーションパターンがタイムウィンドウ中に生じた確率を出力する。1つ以上のパターン認識モジュールの出力は発生した可能性が最も高いモーションパターンを決定するモーション認識モジュールへ入力される。モーション検出モジュールの決定はパターン認識モジュールから入力される確率に基づいており、外部入力、たとえば、オペレーティングシステムまたは実行されるアプリケーションからの入力を考慮することもできる。
【0013】
このように、第1の側面において、本発明はビデオストリームの中のオブジェクト検出および追跡システムを提供し、それは、
(a)オブジェクト検出モジュールおよびオブジェクト追跡モジュールを含むプロセッサを含み、
オブジェクト検出モジュールは、
(i)ビデオストリームの中の2つ以上の各フレーム内の1つ以上の関心領域の各々に対して、関心領域が被追跡オブジェクトの少なくとも一部を含む確率を計算し、
(ii)計算された確率に従って2つ以上の各フレーム内の関心領域を分類して各ビデオフレームに対する関心領域(RI)フレームを発生し、RIフレームは関心領域の分類を報告する、ように構成され、
オブジェクト追跡モジュールは、
(i)オブジェクト検出モジュールにより発生された2つのRIフレームを比較してオブジェクトの動きを決定する、ように構成される。
【0014】
オブジェクト追跡モジュールは1つ以上のパターン検出モジュールを含むことができ、各パターン検出モジュールはタイムウィンドウ中の追跡されたオブジェクトの動きの特定のパターンがタイムウィンドウ中に生じた確率を計算するように構成されている。オブジェクト追跡モジュールは、さらに、生じている可能性が最も高いモーションパターンを1つ以上のパターン検出モジュールにより発生された確率に基づいて決定するモーション認識モジュールを含むことができる。モーション認識モジュールの決定は外部信号を考慮することを伴うことがある。
【0015】
本発明のシステムは、さらに、動きの識別されたパターンに関連するOSコマンドを実行するように構成されたオペレーティングシステム(OS)コマンド実行モジュールを含むことができる。
【0016】
その第2の側面において、本発明はビデオストリームの中のオブジェクト検出および追跡方法を提供し、それは、
(i)ビデオストリームの中の2つ以上の各フレーム内の1つ以上の関心領域の各々に対して、関心領域が被追跡オブジェクトの少なくとも一部を含む確率を計算し、
(ii)計算された確率に従って2つ以上の各フレーム内の関心領域を分類して各ビデオフレームに対する関心領域(RI)フレームを発生し、RIフレームは関心領域の分類を報告し、かつ、
(i)オブジェクト検出モジュールにより発生された2つ以上のRIフレームを比較してオブジェクトの動きを決定する、ステップを含んでいる。
【0017】
関心領域が被追跡オブジェクトの少なくとも一部を含む確率は、
(a)ビデオストリームの中の各フレーム内の1つ以上の関心領域の各々に対して、関心領域内のピクセルの統計的解析を計算し、
(b)ビデオストリームの1つ以上の前のフレーム内の関心領域の統計的解析を伴う計算において関心領域の離散的分類を計算する、
ステップを含む方法により得ることができる。
【0018】
統計的解析は関心領域のピクセル上で定義された1つ以上の関数の各々に対してヒストグラムを発生するステップを含むことができる。1つ以上の関数は、
(a)ピクセルのレッド、グリーン、またはブルーの色の任意の1つの強度、
(b)ピクセルの色相、彩度または輝度のいずれか1つ、
を含むグループの中から選択することができる。
【0019】
本発明の方法は、さらに、1つ以上の関数の統計的パラメータの値を計算するステップを含むことができる。1つ以上の統計的パラメータは、
(a)平均、
(b)モード、
(c)標準偏差、
(d)分散
を含むグループから選択することができる。
【0020】
2つ以上のRIフレームを比較するステップは、
(a)各フレーム、およびフレーム内の分類された関心領域の各々に対して、関心領域の分類をフレームを含むタイムウィンドウ内で得られた複数のフレーム内の関心領域の分類と比較し、
(b)比較に基づいて、選択された関心領域が被追跡オブジェクトを含むか否かを決定し、
(c)この決定に基づいて、関心領域が被追跡オブジェクトを含むか否かに従って、関心領域を再分類し、
(d)タイムウィンドウ中の2つ以上の領域の状態の変化に基づいて、オブジェクトの動きの1つ以上の追跡パラメータを計算する、
ステップを含むことができる。
【0021】
追跡パラメータは、
(a)オブジェクトの動きの方向、
(b)オブジェクトの動きの速度、
(c)オブジェクトの加速度、
(d)ピクセル内のオブジェクトの幅、
(e)ピクセル内のオブジェクトの高さ、
(f)フレーム内のオブジェクトの位置、
を含むグループから選択することができる。
【0022】
そのもう1つの側面において、本発明は本発明のシステムを含むデータ処理装置を提供する。データ処理装置は、
(a)パーソナルコンピュータ(PC)、
(b)PDAまたはラップトップ等のポータブルコンピュータ、
(c)携帯電話、
(d)ラジオ、
(e)エンターテイメント装置、
(f)スマートホーム、
(g)車両、
(h)デジタルカメラ、
(i)キッチン用品、
(j)メディアプレーヤまたはメディアシステム、
(k)ロケーションベース装置、
(l)携帯ゲーム機、
(m)ピコプロジェクタまたは埋め込みプロジェクタ、
(n)医療ディスプレー装置、
(o)インカー/インエア情報システム、
を含むグループから選択することができる。
【0023】
本発明の装置は、さらに、ビデオカメラおよびディスプレー画面の一方または両方を含むことができる。
【0024】
追跡されたオブジェクトの動きの1つ以上のパターンは、
(a)ピクセル内のオブジェクトの幅がタイムウィンドウ中に増加した、
(b)ピクセル内のオブジェクトの幅がタイムウィンドウ中に減少した、
(c)オブジェクトがカメラにより近く動いた、
(d)オブジェクトがカメラから離れるように動いた、
(e)オブジェクトが予め定められたパス内を動いた、
(f)オブジェクトが回転した、
(g)オブジェクトが静止していた、
(h)オブジェクトが任意タイプの動きをした、
(i)オブジェクトがフリッキング動作を行った、
(j)オブジェクトが加速した、
(k)オブジェクトが減速した、および、
オブジェクトが動いた後で停止した、
を含むグループから選択することができる。
【0025】
プロセッサは、さらに、動きの識別されたパターンに関連する装置のOSコマンドを実行するように構成されたオペレーティングシステム(OS)コマンド実行モジュールを含むことができる。OSコマンドは、
(a)装置のディスプレー画面上にディスプレーされる仮想キーを押下する、
(b)装置のディスプレー画面上に現れるカーソルを画面上の新しい位置へ動かす、
(c)選択カルーセルを回転させる、
(d)デスクトップ間の切り替え、
(e)予め定められたソフトウエア・アプリケーションを中央処理装置上で実行する、
(f)アプリケーションをターンオフする。
(g)スピーカをターンオンまたはオフする、
(h)音量を上げ下げする、
(i)メディアプレーヤ内またはIPTVチャネル間で次または前のトラックへスキップする、
(j)GPSアプリケーションを制御する、
(k)ボイスメールサービスをスイッチオンする、
(l)写真/音楽アルバムギャラリ内でナビゲートする、
(m)ウェブページ、メール、ドキュメントまたはマップをスクロールする、
(n)携帯ゲーム内のアクションを制御する、および、
(o)インタラクティブビデオまたはアニメイテッドコンテンツを制御する、
を含むグループから選択することができる。
【0026】
本発明に従ったシステムは適切にプログラムされたコンピュータとすることもできる。同様に、本発明は本発明の方法を実行するためにコンピュータが読み取り可能なコンピュータプログラムを意図している。本発明は、さらに、本発明の方法を実行するために機械が実行可能な命令のプログラムを明白に具現化している機械読取可能なメモリを意図している。
【図面の簡単な説明】
【0027】
本発明を理解してそれを実際にどのように実施できるかを確かめるために、添付図を参照して、非限定的例にすぎない例により実施例の説明を行う。
図1】関心領域に分割された複数のフレームを含むビデオストリームを略示する図である。
図2】本発明の一実施例に従ったオブジェクト検出および追跡システムを示す図である。
図3】本発明の一実施例に従ったオブジェクト検出方法を示す図である。
図4(a)】ビデオストリーム内の3つのフレームを示す図である。
図4(b)】図4(a)のフレームから得られる関心領域(RI)フレームを示す図である。
図5】本発明の一実施例に従ったオブジェクト追跡方法を示す図である。
図6】本発明のオブジェクト検出および追跡システムを内蔵するデータ処理装置を示す図である。
図7】モーションパターンの例およびさまざまなタイプの装置においてOSコマンドを実行する時のそれらの使用を示す図である。
【発明を実施するための形態】
【0028】
(実施例の詳細な説明)
図1はビデオフレーム4のシーケンスを含むビデオシーケンス2を略示している。4つのフレーム4a、4b、4c、および4dが図1に示されている。これは単なる例にすぎず、ビデオシーケンス2は少なくとも2である任意数のビデオフレームを含むことができる。各フレームは関心領域6に分割される複数のピクセルからなり、その境界は図1に破線8で示されている。フレーム4は図1において36の関心領域6(6つの関心領域の6行)に分割されて示されている。これは例にすぎず、フレーム4は少なくとも2つの任意数の関心領域に分割することができる。関心領域は任意の形状を有することができ、重畳することができる。
【0029】
図2は本発明の一実施例に従って、ビデオストリーム2等の、ビデオストリーム内のオブジェクト検出および追跡システム40を示す。ビデオストリーム2はメモリ44に入力される。メモリ44はその中に格納されたビデオストリーム2のフレーム6を読み込むプロセッサ46によりアクセスすることができる。後述するように、プロセッサ46はビデオストリーム2を解析するオブジェクト検出モジュール45、およびオブジェクト検出モジュール45の出力を解析するオブジェクト追跡モジュール47を含んでいる。オブジェクト検出モジュール45は関心領域が被追跡オブジェクトの少なくとも一部を含んでいる確率に従って各フレーム内の関心領域を分類する。オブジェクト追跡モジュール47はオブジェクト検出モジュール45により出力された分類されたフレームをその入力として受信し、連続したフレーム内の関心領域の分類を比較してオブジェクトの動きを決定する。
【0030】
システム40は、さらに、OSコマンド実行モジュール51を含むことができる。この場合、メモリ44は1つ以上の予め定められたモーションパターンの各々に対して、関連するOSコマンドを提供するルックアップテーブルを格納している。予め定められたオブジェクトモーションの1つが識別されると、モーションに関連するOSコマンドが実行される。
【0031】
後述するように、ユーザ入力装置48を使用して、ビデオストリーム2の識別、またはプロセッサ46により解析されるパラメータ等の任意の関連データをシステム40に入力することができる。処理の結果だけでなく、ビデオストリーム2を、CRT画面、LCD、またはプリンタ等のディスプレー装置50上にディスプレーすることができる。
【0032】
図3は本発明の一実施例に従ってプロセッサ46のオブジェクト検出モジュール45により実施されるビデオストリーム2のフレーム内のオブジェクト検出プロセス20を示す。プロセスはステップ18で始まり、そこでメモリ44からフレームが検索されて2つ以上の関心領域6に分割される。非特許文献1に開示されているように、関心領域はシード領域成長等の当分野で既知の任意のオブジェクト・セグメンテーション技術を使用してダイナミックに生成することができる。あるいは、関心領域はフレームを36領域に区分する固定6×6マトリクス等により領域のグループとして統計的に定義することができる。次に、ステップ24においてフレーム内の関心領域6が選択され、関心領域内のピクセルの統計的解析がステップ26において行われる。たとえば、統計的解析は領域のピクセルで定義された1つ以上の関数の各々に対してヒストグラム10を発生するステップを含むことができる。関数は、たとえば、ピクセルのレッド、グリーン、またはブルーの色の任意の1つの強度、またはピクセルの色相、彩度または輝度の任意の1つとすることができる。ヒストグラムは単一変数ヒストグラムまたは多変数ヒストグラムとすることができ、ピクセル・プロパティのnタプルの頻度が集計される。統計的解析は任意の1つ以上のヒストグラムの平均、モード、標準偏差、または分散等の統計的パラメータの値を計算することを含むこともできる。統計的解析の結果はメモリ44に格納される。
【0033】
ステップ30において、解析されたばかりの関心領域が分類される。関心領域の分類は関心領域内に追跡されたオブジェクトが存在する確率を記述する離散関数である。関心領域の分類は現在のフレーム内の関心領域の統計的解析およびビデオストリームの1つ以上の前のフレーム内の関心領域の統計的解析を伴う方法で決定される。一実施例では、選択された領域内のさまざまなパラメータおよび統計的特徴と領域内を通過する追跡されたオブジェクトを示すパラメータおよび統計的特徴との類似性を計算するために距離関数が適用される。領域およびオブジェクトパラメータは、たとえば、異なる形状および輪郭の存在とそれらの頻度を含むことができ、統計的特徴は、たとえば、色相、輝度および彩度のヒストグラムとカラーパターンを含むことができる。複合距離の結果は前のフレーム内の関心領域の結果と比較される。たとえば、色相パラメータにおける距離は追跡されたオブジェクトと同じ色のオブジェクトが領域に入っていることを示すことができる。これにより領域は高い確率で追跡されたオブジェクトを含むものと分類されることがある。距離関数は、たとえば、ユークリッド距離(非特許文献2)、マハラノビス距離(非特許文献3)、板倉斉藤距離(非特許文献4)、チェビシェフ距離(非特許文献5)、リー距離(非特許文献6)、ハミング距離(非特許文献7)、またはレーベンシュタイン距離(非特許文献8)とすることができる。選択された関心領域の分類はメモリ44に格納される(ステップ31)。
【0034】
ステップ32において、フレームのもう1つの関心領域を決定モジュール45により解析すべきかどうか決定される。イエスであれば、プロセスはステップ24へ戻り現在のフレーム内のもう1つの関心領域が選択される。そうでなければ、プロセスはステップ34へ続きそこでビデオフレームに対して「関心領域(RI)フレーム」が発生され、プロセスは終了する。入力ビデオフレームのRIフレームはフレームの関心領域の分類の表現である。図4(a)は3つの異なる時間(それぞれ、時間t、t、およびt)に得られたビデオストリームの3つのフレーム110a、b、およびcを示す。この例では、フレームは破線112で示される統計的関心領域に任意に分割される。あるいは、フレームを関心領域にダイナミックに分割する方法を使用することができる。たとえば、プリセットシード領域のセットを統計的均一性を維持するより大きな領域に成長させる。たとえば、図4の空領域に位置するシード領域は色相ヒストグラムおよびエッジ頻度が著しく変化する地面と交わるまで成長する。この分割プロセスは追跡される予期された動きの軸の事前知識または元の関心グループから省くべき高分散領域を決定するいくつかのフレームの統計的解析により支援されることがある。被追跡オブジェクト114はtからtの時間間隔中にフレーム内で移動している。図4(b)は、それぞれ、ビデオフレーム110a、110b、および110cに対応する関心領域フレーム116a、116b、および116cを示している。図4の例では、各関心領域はオブジェクト114の少なくとも一部が関心領域(図4(b)に関心領域のクロスハッチングで示されている)内に位置しているか、または関心領域がオブジェクト114の少なくとも一部(図4(b)のハッチングされていない領域)を含んでいないかに応じて2つの分類のいずれかに分類された。このように、時間tに得られたRIフレーム116aにおいて、フレームの右側に位置している領域117aはオブジェクト114を含むものとして分類されている。この分類は領域および追跡されたオブジェクトの類似性評価を計算して、たとえば、追跡されたオブジェクトの色相ヒストグラムと選択された領域のヒストグラム間のユークリッド距離を測定して得ることができる。同じ方法を使用して、中間フレーム116bにおいて、2つの領域117bおよび117cはオブジェクト114を含むものとして分類されており、後のフレーム116cでは2つの領域117dおよび117eがオブジェクト114を含むものとして分類されている。
【0035】
追跡モジュール47はビデオストリームのタイムウィンドウ中に検出モジュール45により発生されたRIフレームをその入力として受信する。追跡モジュール47は検出モジュール45と同時に作動することができ、分類されたフレームを検出モジュール45により発生される時に受信する。あるいは、追跡モジュール47は検出モジュール45に続いて作動することができ、ビデオストリームの全てのフレームが分類された後でしか分類されたフレームを受信しない。
【0036】
図5は本発明の一実施例に従ってオブジェクト追跡モジュール47により実施されるオブジェクト追跡プロセスを示す。ステップ52において、タイムウィンドウのRIフレームが追跡モジュール47に入力され、ステップ54において、RIフレームはランダムノイズを除去するためにフィルタリングされる。フィルタリングされたRIフレームは1つ以上の独立パターン検出モジュール56に入力される。各パターン検出モジュール56はフィルタリングされたRIフレームからオブジェクトの特定のモーションパターンを検出するように構成され、パターン検出モジュールの特定のモーションパターンがタイムウィンドウ中に生じた確率を出力する。各パターン検出モジュール56は入力されたRIフレームのいくつかまたは全てにパターン認識テストを行う。たとえば、再び図4bを参照すると、パターン検出モジュール56はフレームの左側からフレームの右側へのオブジェクトの動きを検出する。1つ以上のパターン認識モジュール56の出力がモーション認識モジュール58へ入力される。モーション認識モジュール58はタイムウィンドウ中に生じている可能性が最も高いモーションパターンを決定する。モーション検出モジュール58の決定は1つ以上のパターン認識モジュール56から入力された確率に基づいており、たとえば、オペレーティングシステムや実行中のアプリケーションからの入力等の外部入力も考慮することができる。次に、モーション認識モジュール58のモーション決定が出力されて(ステップ60)プロセスは終了する。
【0037】
図6は、本発明のこの側面の実施例に従った、システム40を含むデータ処理装置72を示す。データ処理装置72は、たとえば、パーソナルコンピュータ(PC)、PDA、ラップトップまたはパームプロット等のポータブルコンピュータ、携帯電話、ラジオその他のエンターテインメントデバイス、車両、デジタルカメラまたは携帯ゲーム機とすることができる。装置72はビデオカメラ76を有する。装置72にはディスプレー画面74およびデータ入力装置72にデータを入力するための複数のキー80を有するキーパッド78のようなさまざまなデータ入力装置を設けることもできる。
【0038】
カメラ76は破線で示す空間86の円錐形または角錐形ボリュームをとらえる。カメラ76は装置72上の固定位置を有することができ、その場合ビューイングスペース86は装置72に対して固定され、あるいは装置72上に位置決めすることができ、その場合ビューイングスペース86は装置72に対して選択することができる。カメラ76で撮影された画像はカメラ76によりデジタル化されてプロセッサ46へ入力される(図2も参照されたい)。前記したように、プロセッサ46のオブジェクト検出モジュール45はカメラ76により得られたフレーム内の予め定められたオブジェクト94を検出する。オブジェクト94は開いた手、閉じた手または手の甲等の、さまざまな位置における、ユーザの指または手全体とすることができる。装置2がハンドヘルド装置であれば、ユーザは使用時に他方の手89を使用して装置2を保持することができる。手89は、キーパッド78上の活性化キー80等の、装置72に関連する実際の入力装置を活性化するのに使用することもできる。
【0039】
メモリ44は各テストに対して関連するOSコマンドを提供するルックアップテーブルを格納することができる。パターン識別モジュール49によりモーションパターンが検出されると、動きに関連するOSコマンドがメモリ44内に格納されたルックアップテーブル内で検索され、次に、動きに関連するOSコマンドがOS実行モジュール51により実行される。OSコマンドは、たとえば、ディスプレー画面上にディスプレーされた仮想キーの押下、ディスプレー画面上に現れるカーソルの画面上の新しい位置への移動、メモリ44内に格納されたソフトウエア・アプリケーションのプロセッサ46上での実行、または装置72のターンオフとすることができる。装置はOSコマンドが実行されたという表示を提供することができる。たとえば、仮想キーボード上のキーの押下に相当するOSコマンドは、仮想キーボード上の押下されたキーを画面4上に簡単に示す、あるいはキーの外観を簡単に変えることで表示することができる。OSコマンドが実行されたことを表示する他の可能性は、画面4上の押下されたキーまたはカーソルの外観を簡単に拡大するさもなくば変える、画面4上にアイコンをディスプレーする、音を発生する、および装置を振動させる、ことを含む。
【0040】
図7はパターン検出モジュール56により認識することができるモーションパターン、および装置72のタイプに応じてOSコマンドを実行するのにモーションパターンをどのように使用できるかの例を示す。動き100は装置72に向けて手を動かすことからなる。動き102は装置72に向けて手を動かし、次に、装置から手を遠ざけることからなる。動き104は装置の上で手を左から右へ動かすことからなり、動き106は装置の上で手を右から左へ動かすことからなる。
図1
図2
図3
図4(b)】
図5
図6
図7
図4(a)】