(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-16
(45)【発行日】2024-04-24
(54)【発明の名称】機械学習によりサブシーンを含むシーンを分類する方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240417BHJP
H04N 7/18 20060101ALI20240417BHJP
【FI】
G06T7/00 350B
H04N7/18 D
(21)【出願番号】P 2021546460
(86)(22)【出願日】2019-10-15
(86)【国際出願番号】 EP2019077989
(87)【国際公開番号】W WO2020079008
(87)【国際公開日】2020-04-23
【審査請求日】2021-09-14
(32)【優先日】2018-10-15
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
【前置審査】
(73)【特許権者】
【識別番号】521163662
【氏名又は名称】ケプラー ビジョン テクノロジーズ ビー.ブイ.
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】ストクマン ヘンリクス マイナルドゥス ゲラルドゥス
(72)【発明者】
【氏名】ファン オルデンボルフ マーク ジーン バプティスト
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2018-160049(JP,A)
【文献】特開2017-225122(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
H04N 7/18
(57)【特許請求の範囲】
【請求項1】
シーンにおける動作を分類するための方法であって、前記方法は、
コンピューティングデバイスが、前記シーンに対応する複数のデータ点を受領することと、
前記コンピューティングデバイスが、前記複数のデータ点からデータ点の1つ以上のサブセットを特定することであって、前記データ点の1つ以上のサブセットは前記シーンにおける少なくとも1つのサブシーンを示し、表示装置上に表示される前記少なくとも1つのサブシーンは前記シーンの一部であり、前記少なくとも1つのサブシーンは前記シーンにおける前記動作を表さないことと、
前記コンピューティングデバイスが、前記少なくとも1つのサブシーンを無視して、前記シーンにおける軌跡を有する被写体の動きとして前記動作を分類することであって、前記分類することは、前記シーンにおける前記動作の分類において前記少なくとも1つのサブシーンが考慮されないように、前記シーンにおける前記動作をコンピュータビジョンシステムによって解釈することを含むことと、を含
み、
前記分類は、訓練されたディープラーニングニューラルネットワークを用いて行われる方法。
【請求項2】
前記シーンが屋内のシーンである、請求項1に記載の方法。
【請求項3】
前記シーンが屋外のシーンである、請求項1または2に記載の方法。
【請求項4】
前記シーンが前記動作を規定する一連の後続のシーンを備える、請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記動作が、車両内の視点から前記車両の外を見る少なくとも1つのシーンを含む交通行動を含む、請求項1~4のいずれか1項に記載の方法。
【請求項6】
シーンにおける動作を分類するための人工知能システムを備える装置であって、前記人工知能システムは、コンピュータプログラムを実行するコンピューティングデバイスを備え、前記コンピュータプログラムは、
前記シーンに対応する複数のデータ点を受領することと、
前記複数のデータ点からデータ点の1つ以上のサブセットを特定することであって、前記データ点の1つ以上のサブセットは前記シーンにおける少なくとも1つのサブシーンを示し、表示装置上に表示される前記少なくとも1つのサブシーンは前記シーンの一部であり、前記少なくとも1つのサブシーンは前記シーンにおける前記動作を表さないことと、
前記コンピュータプログラムが前記少なくとも1つのサブシーンを無視して、前記シーンにおける軌跡を有する被写体の動きとして前記動作を分類することであって、前記分類することは、前記シーンにおける前記動作の分類において前記少なくとも1つのサブシーンが考慮されないように、前記シーンにおける前記動作をコンピュータビジョンシステムによって解釈することを含むことと、を行
い、
前記分類は、訓練されたディープラーニングニューラルネットワークを用いて行われる、装置。
【請求項7】
コンピューティングデバイスにおけるプロセッサにより実行されると、以下のことを行うように前記コンピューティングデバイスを設定するコンピュータプログラム命令が記憶された非一時的コンピュータ可読媒体であって、
シーンに対応する複数のデータ点を受領することと、
前記複数のデータ点からデータ点の1つ以上のサブセットを特定することであって、前記データ点の1つ以上のサブセットは前記シーンにおける少なくとも1つのサブシーンを示し、表示装置上に表示される前記少なくとも1つのサブシーンは前記シーンの一部であり、前記少なくとも1つのサブシーンは前記シーンにおける動作を表さないことと、
前記コンピュータプログラムが前記少なくとも1つのサブシーンを無視して、前記シーンにおける軌跡を有する被写体の動きとして前記動作を分類することであって、前記分類することは、前記シーンにおける前記動作の分類において前記少なくとも1つのサブシーンが考慮されないように、前記シーンにおける前記動作をコンピュータビジョンシステムによって解釈することを含むことと、を行うように設定
し、
前記分類は、訓練されたディープラーニングニューラルネットワークを用いて行われる、非一時的コンピュータ可読媒体。
【請求項8】
請求項7に記載のコンピュータプログラム命令を実行するコンピューティングデバイスを備える人工知能システム。
【請求項9】
請求項8に記載の人工知能システムを備える装置であって、前記シーンは前記動作を含む前記装置の周囲の表示を含み、前記人工知能システムは、前記装置の少なくとも1つの物理的パラメータを前記動作の前記分類に基づいて調整する命令を与える、装置
。
【請求項10】
車両およびロボットシステムから選択される、請求項9に記載の装置。
【請求項11】
請求項8に記載の人工知能システムを備えるモニタリングシステムであって、前記シーンは前記動作を含む前記モニタリングシステムの周囲の表示を含み、前記人工知能システムは、前記動作の前記分類に基づいて信号を提供する、モニタリングシステム。
【請求項12】
請求項11に記載のモニタリングシステムを備える監視システム。
【発明の詳細な説明】
【発明の詳細な説明】
【0001】
発明の分野
本発明は、映像、画像、一連の画像、またはライブストリーミングにおけるシーン、被写体、ポーズまたは動作を分類するための機械学習モデルを訓練する方法、システム、装置、およびコンピュータプログラム製品に関する。
発明の背景
人工知能(AI)が急速に発達しつつあり、AIの応用は、航空宇宙産業、農業、化学工業、コンピュータ産業、建設業、防衛産業、教育産業、エネルギー産業、娯楽産業、金融サービス産業、食品産業、ヘルスケア産業、接客業、情報産業、製造業、マスメディア、鉱業、電気通信産業、運送業、水関連産業、および直接販売業を含む、あらゆる産業を支えているか、または将来支えることになろう。
【0002】
人と機械のコミュニケーションは、ますます重要になる。機械(例えば、コンピュータ、スマートフォン、タブレット、およびロボットなど)は、急速に社会に浸透しつつある。
【0003】
コンピュータビジョンは、ポーズを取り、動作を見せる生物および物体の画像におけるシーンを分類するために、機械学習を利用することが可能なAIの領域である。
【0004】
「画像シーン認識」という名称の米国特許出願公開公報第20160180189号は、その要約書によれば、以下のことを記載している。「システム、方法、およびコンピュータプログラム製品は、画像ハッシュを生成することを対象としてもよい。サンプル画像内の異なる位置において、複数のキーポイントを特定することができる。そのキーポイントに対する複数のディスクリプタベクトルを特定することができ、そのディスクリプタベクトルは、キーポイント周辺の局所画像情報を表し、各ディスクリプタベクトルはn次元の配列である。キーポイントは、複数のディスクリプタのうちの少なくとも1つを含むデータベクトルのハッシュに基づいて生成することができ、それぞれの特徴は36×20ハッシュ値である。」
「画像および映像における人間の動作の認識」という名称の米国特許第8189866号は、その要約書によれば、以下のことを記載している。「本開示は、特に、1つの画像に複数の低レベル特徴検出装置を適用し、各低レベル特徴検出装置が、検出結果を表すそれぞれの低レベル特徴ベクトルを生成するシステム、方法およびプログラム製品を含む。低レベル特徴ベクトルは、複数の高レベル特徴検出装置に提供され、各高レベル特徴検出装置は、1つ以上の低レベル特徴ベクトルにおける特徴の分布に基づいて、検出結果を表すそれぞれの高レベル特徴ベクトルを生成する。高レベル特徴ベクトルは、その後、画像における人間の動作を分類するために分類装置に提供される。」
「動いている平面を収集することにより多関節物体のポーズおよび動作を認識する方法」という名称の米国特許出願公開公報第20100303303号は、その要約書によれば、以下のことを記載している。「本発明は、動いている平面を収集することにより多関節物体のポーズおよび動作を認識するための、改良されたシステム、方法、及びコンピュータ可読命令を含む。方法は、ビデオシーケンスおよび様々な既知の動作に対応する参照シーケンスのデータベースから始まる。方法は、被写体が観察された動作に最も近い動作を実行するように、参照シーケンスからシーケンスを特定する。方法は、ポーズの遷移を比較することにより、動作を比較する。人体のポーズの遷移および動作の視点不変認識には、クロスホモグラフィ不変量を用いてもよい。」
米国特許出願公開公報第20090190798号は「現場観察を用いたリアルタイム物体認識およびポーズ推定のためのシステムおよび方法の提供」という名称を有する。方法は、以下のステップを含む:a)2D及び3Dの画像情報を受領し、受領した2D及び3Dの画像情報からエビデンスを抽出し、エビデンスをモデルと比較することにより物体を認識し、位置およびポーズを確率的粒子によって表すこと、b)種々の位置およびポーズを確率的に融合し、不正確な情報にフィルタをかけることにより、最終的に位置およびポーズを判断すること、c)2D及び3Dの画像情報、およびステップb)からの位置及びポーズを受領することにより、ROI(関心領域)を生成し、環境情報を収集および算出すること、d)ステップc)から情報を受領することにより、1つのエビデンスまたは1組のエビデンスを確率的に選択し、追加のエビデンスを収集するために、ロボットの認知動作を提示すること、およびe)物体認識およびポーズ推定の結果が確率的に十分になるまで、ステップa)およびb)と、ステップc)及びd)とを並行して繰り返すこと。」
「コンピュータビジョンに基づく高齢者介護モニタリングシステム」という名称の米国特許出願公開公報第20030058111号は、その要約書によれば、以下のことを記載している。「シーンにおける対象者を監視する方法であって、その方法は以下を含む:シーンの画像データを取得すること、画像データ内の対象者を検出および追跡すること、対象者の特徴を分析すること、その特徴に基づいて、検出された対象者に関連するイベントおよび行動の少なくとも1つを検出すること、および少なくとも1つの検出されたイベントおよび行動を第三者に知らせること。」
発明の概要
本発明は、装置、またはシステム、またはコンピューティングデバイス上で動作するコンピュータプログラム製品が、シーンを正確に解釈することを可能にする。
【0005】
コンピュータビジョンは、写真画像、映像、またはライブストリームなどの1つの画像または一連の画像において、見えるものおよび起こっていることを理解しようとする技術である。その範囲において、機械学習を利用することができる。画像は、人、動物および/または物体が頻繁に活動を行っていることを反映するシーンを含んでいる。現在のコンピュータビジョン技術は、シーンの中の表示装置がサブシーンを表示している場合、機能しなくなる。例えば、ホールに集まっている人の数をコンピュータビジョンが検出すべき場合、広告板、ポスター、およびテレビ画面などの様々な表示装置上の人を数えてはいけない。
【0006】
したがって、機械学習モデルを訓練するための改良されたおよび/または代替的な方法を提供することが、本発明の一局面である。
【0007】
このため、シーンにおける動作を分類する方法が提供されており、その方法は、
コンピューティングデバイスが、当該シーンに対応する複数のデータ点を受領することと、
コンピューティングデバイスが、その複数のデータ点からデータ点の1つ以上のサブセットを特定することであって、そのデータ点の1つ以上のサブセットは、当該シーンにおける少なくとも1つのサブシーンを示し、そのサブシーンが表示装置に表示されることと、
コンピューティングデバイスが、当該シーンにおける動作を分類し、少なくとも1つのサブシーンを無視することと、を含む。
【0008】
また、シーンにおける動作を分類するための人工知能システムを備える装置が提供され、人工知能システムは、コンピュータプログラムを実行するコンピューティングデバイスを備え、コンピュータプログラムは、
シーンに対応する複数のデータ点を受領することと、
複数のデータ点からデータ点の1つ以上のサブセットを特定することであって、データ点の1つ以上のサブセットは、シーンにおける少なくとも1つのサブシーンを示し、サブシーンは表示装置上に表示されることと、
シーンにおける動作を分類し、コンピュータプログラムは少なくとも1つのサブシーンを無視することと、を行う。
【0009】
さらにコンピューティングデバイス上で動作するためのコンピュータプログラム製品が提供され、コンピュータプログラム製品は、
シーンに対応する複数のデータ点を受領することと、
複数のデータ点からデータ点の1つ以上のサブセットを特定することであって、データ点の1つ以上のサブセットは、シーンにおける少なくとも1つのサブシーンを示し、サブシーンは表示装置上に表示されることと、
シーンにおける動作を分類し、コンピュータプログラムは少なくとも1つのサブシーンを無視することと、を行う。
【0010】
例えば、テレビジョン、(コンピュータ)画面、広告板、ポスターおよび他の表示部(布および他の織物上のプリント)などの表示装置は、サブシーンを示すシーンの一部になり得ることが分かった。コンピュータビジョンを用いてシーンを分類する際に、表示装置上のサブシーンが、シーンおよびシーン内の要素の分類に影響を与える可能性がある。この影響は、シーンを分類・解釈する際に避けることが好ましいノイズであることが多い。
【0011】
本発明は、シーンが、サブシーンを示している表示装置を含む場合であっても、装置、またはシステム、またはコンピューティングデバイス上で動作するコンピュータプログラム製品がそのシーンを正確に解釈することを可能にする。
【0012】
本文脈においては、分類が行われ、分類のプロセスにおいて少なくとも1つのサブシーンが無視される。これは、実際の分類が行われる前に為されてもよい。一実施形態において、これは、実際の分類が行われる間、または実際の分類の進行中に、為されてもよい。このことは、実際の分類が行われる機能的な時間枠内であることを意味する。つまり、機能的な結果として、サブシーンは分類において考慮されない。
【0013】
被写体は、生物、すなわち動物または人物であっても、物体であってもよい。物理的な製品は、自動車、彫像、または家屋と同様に、物体の一例である。
【0014】
シーンは、少なくとも1つの被写体を有する場所の光景または画像である。シーンは、あるイベントまたは活動の光景または画像であってもよい。
一実施形態における活動は、一連の動作である。
【0015】
動作は、軌跡を有する被写体の動きである。
【0016】
コンピュータビジョンにおいて称されるポーズとは、被写体の位置および向きである。
生物の体はポーズを有する。また、車両は、その位置及び向きにより規定し得るポーズを有する。生物のポーズは、多関節体姿勢推定により検出することができる。
【0017】
画像または一連の画像、または画像の時系列は、例えば、ライダー(LIDAR)、可視光カメラ、ソナーイメージング、レーダイメージング、レーザイメージング、または赤外線カメラにより生じてもよい。
【0018】
一実施形態における撮像装置は、画像または一連の画像または画像の時系列、具体的にはデジタル画像またはデジタル写真を提供できる装置である。そのような装置は、撮影(動画)装置のカメラを備えてもよい。例としては、CCDや類似の撮像素子を備える装置がある。撮像装置の他の例は、カメラ、ソナー、レーダ、レーザ、LIDAR、および赤外線カメラである。そのため、これらの装置は当業者には周知である。
【0019】
コンピューティングデバイスは、自動的に演算あるいは命令を実行するための任意の機械である。コンピューティングデバイスは、パーソナルコンピュータ、サーバ、クラウドサーバ、局所分散サーバ環境、コンピュータクラウド環境、または電子機器における特定の機能を行うための任意の回路であってもよい。
【0020】
コンピューティングデバイスは、1つ以上のカテゴリーと関連する信頼値を出力してもよい。また、サブシーンを特定する他の手段が提供されているのであれば、それも可能である。
【0021】
幾つかの実施形態において、コンピューティングデバイスがデータ点の1つ以上のサブセットに対する分類を特定した時点で、そのコンピューティングデバイスは、その複数のデータ点に対して特定されたカテゴリーと関連付けられた所定のラベルを記憶してもよい。そして、その複数のデータ点は、シーンおよびサブシーンを将来特定するために用い得る訓練データの一部になってもよい。
【0022】
コンピューティングデバイスは、サブシーン検出、および/またはシーン検出全般を最適化するために、機械学習アルゴリズムを用いてパターンを特定してもよい。例えば、機械学習アルゴリズムは、サブシーンにおける平均的な表示装置が少なくとも350平方インチであることを示してもよく、予想される特徴ベクトルである所定の表示装置のそれぞれの大きさが、コンピューティングデバイスにより(例えば機械学習アルゴリズムにより)平均的な表示装置の大きさを特定するために用いられる。
【0023】
分類は、撮像された新たなシーンが、一連のカテゴリー(例えば、通常状態シーンあるいは緊急事態シーン、および/または許可動作あるいは禁止動作、および/またはぎこちないポーズあるいは通常のポーズ、および/または普通の物体あるいは普通ではない物体)のうちのどれに属するかを、例えば、上記のカテゴリーのような既知のカテゴリーを有する一連の訓練データに基づいて特定することを含んでもよい。撮像されたシーンに関係するデータ点の1つ以上のサブセットの分類は、1つ以上の機械学習アルゴリズムおよび統計的分類アルゴリズムを用いて行ってもよい。アルゴリズムの例は、線形分類器(例えば、フィッシャーの線形判別、ロジスティック回帰、ナイーブベイズ、およびパーセプトロン)、サポートベクターマシン(例えば最小二乗サポートベクターマシン)、クラスタリングアルゴリズム(例えばk平均法クラスタリング)、二次分類器、多クラス分類器、カーネル推定(例えばk近傍法)、ブースティング、決定木(例えばランダムフォレスト)、ニューラルネットワーク、遺伝子発現プログラミング、ベイジアンネットワーク、隠れマルコフモデル、二値分類器、および学習ベクトル量子化、を含んでもよい。その他の分類アルゴリズムの例も可能である。
【0024】
分類のプロセスは、コンピューティングデバイスが、1つ以上のサブセットと1つ以上の所定の一連のシーンタイプとの比較結果に基づいて、その1つ以上のサブセットに関連する予想されるシーンタイプの確率分布(例えばガウス分布)を推定することを含んでもよい。当業者であれば、こうした確率分布が離散確率分布、連続確率分布、および/または混合連続-離散分布の形を取り得ることを知っているであろう。その他のタイプの確率分布もまた可能である。
【0025】
撮像された画像から、シーンにおける被写体を検出し位置を特定するために、一実施形態は複数の被写体を検出する方法を用いる。そのような方法は、システムが認識するように、例えばRGB画像などの視覚表示の入力が与えられると、複数の被写体を検出するモデルを設計および訓練するための機械学習法(主にディープラーニング)を用いる。モデルは大量の注釈付きデータ上で訓練され、データは、被写体のある画像と被写体のない画像を含み、その被写体の位置の注釈が付いている。
【0026】
ディープラーニングの場合、Faster-RCNN、SSD、R-FCN、Mask-RCNNなどの検出フレームワーク、またはその派生手法の1つを用いてもよい。基本モデル構造は、VGG、AlexNet、ResNet、GoogLeNet、上記を編集したもの、または新たなものであってもよい。モデルは、訓練を改良および高速化するために、重みおよび訓練された類似のタスクを備えて初期設定されてもよい。ディープラーニングの場合、モデルの重みの最適化は、Tensorflow、Caffe、またはMXNETなどのディープラーニングフレームワークを利用して行ってもよい。モデルを訓練するために、AdamまたはRMSProbなどの最適化方法を用いてもよい。Hinge LossまたはSoftmax Lossなどの分類損失関数を用いてもよい。ハンドクラフト特徴を用いるその他の手法(例えばLBP、SIFT、またはHOGなど)や従来の分類方法(例えばSVMまたはRandom Forestなど)を用いてもよい。
【0027】
取り込まれた画像からシーンにおける生物を検出し位置を特定するために、一実施形態は複数の生物を検出する方法を用いる。そのような方法は、システムが認識するように、例えばRGB画像などの視覚表示の入力が与えられると、複数の生物を検出するモデルを設計および訓練するための機械学習法(主にディープラーニング)を用いる。モデルは大量の注釈付きデータ上で訓練され、データは、生物のある画像と生物のない画像を含み、その生物の位置の注釈が付いている。
【0028】
ディープラーニングの場合、Faster-RCNN、SSD、R-FCN、Mask-RCNNなどの検出フレームワーク、またはその派生手法の1つを用いてもよい。基本モデル構造は、VGG、AlexNet、ResNet、GoogLeNet、上記を編集したもの、または新たなものであってもよい。モデルは、訓練を改良および高速化するために、重みおよび訓練された類似のタスクを備えて初期設定されてもよい。ディープラーニングの場合、モデルの重みの最適化は、Tensorflow、Caffe、またはMXNETなどのディープラーニングフレームワークを利用して行ってもよい。モデルを訓練するために、AdamまたはRMSProbなどの最適化方法を用いてもよい。Hinge LossまたはSoftmax Lossなどの分類損失関数を用いてもよい。ハンドクラフト特徴を用いるその他の手法(例えばLBP、SIFT、またはHOGなど)や従来の分類方法(例えばSVMまたはRandom Forestなど)を用いてもよい。
【0029】
身体的特徴を検出するため、一実施形態におけるシステムは、生物の身体のキーポイント(例えば、手、脚、肩、膝など)を特定してもよい。
【0030】
生物の身体のキーポイントを検出するため、一実施形態において、システムはその検出のために設計および訓練されたモデルを備える。モデルを訓練する訓練データは、様々なキーポイント位置の注釈を含む。新たな画像が提示されると、モデルはそうしたキーポイントの位置の特定を可能にする。この目的のために、システムは、MaskRCNNまたはCMU Part Affinity Fieldsなどの既存のキーポイント検出手法を用いてもよい。訓練手順およびデータは、取り込まれた画像のコンテンツのコンテキストに最も適するようにカスタマイズされてもよい。そうしたコンテキストは、屋内コンテキスト(家、店、オフィス、駅、空港、病院、劇場、映画館などのような)または照明条件の変化する屋外コンテキスト(海岸、野原、街路、公園などのような)を含んでもよい。
【0031】
例えば、VGGNet、AlexNet、ResNet、InceptionおよびXceptionなどの、ImageNet上の予め訓練されたディープニューラルネットワーク(DNN)は、これらの予め訓練されたDNNネットワークから畳み込み層を取り込み、その上に1つ以上の表示装置を含むシーン認識用に特別に設計された新たな層を追加し、上記モデルについて説明されたようにネットワークを訓練することにより変化させてもよい。追加の新たな層は、動作やポーズの認識用の特別に設計された層を含み得る。前述の層(シーン認識、ポーズおよび動作認識)の全ては、別々に訓練しても(予め訓練された従来の層とともに/とは別に)よく、並行して一緒に訓練してもよい。
【0032】
一実施形態において、シーンは屋内のシーンである。
【0033】
一実施形態において、シーンは屋外のシーンである。
【0034】
一実施形態において、シーンは動作を規定する一連の後続のシーンを備える。
【0035】
一実施形態において、動作は車両内の視点から車両の外を見る少なくとも1つのシーンを含む交通行動を含む。
【0036】
コンピュータプログラム製品を実行するコンピューティングデバイスを備える人工知能システムが提供されている。
【0037】
また、人工知能システムを備える装置が提供されており、その装置において、シーンは動作を含む装置の周囲の表示を含み、人工知能システムは、装置の少なくとも1つの物理的パラメータを動作の分類に基づいて調整するための命令を与える。そのような物理的パラメータは、速度、方向、ポーズ、位置、および空間における向きのうちの1つを含む。
【0038】
一実施形態において、そのような装置は前述の撮像装置を備える。
【0039】
装置の一実施形態においては、車両およびロボットシステムから選択される。車両の例は、自動車、カート、列車、船、大型船、潜水艦、航空機、およびヘリコプタである。ロボットシステムの例は、ドローン、ロボットアーム、ヒューマノイドおよび自律動作構造体を含む。
【0040】
さらに、人工知能システムを備えるモニタリングシステムが提供されており、そのモニタリングシステムでは、シーンは動作を含むモニタリングシステムの周囲の表示を含み、人工知能システムは、その動作の分類に基づいて信号を提供する。一実施形態において、信号は、通知、制御信号、テキストメッセージ、電磁信号および光学信号を含む。
【0041】
一実施形態において、そのようなモニタリングシステムは撮像装置を備える。
【0042】
一実施形態においては、前述のモニタリングシステムを備える監視システムテムが提供されている。
【0043】
本発明はさらに、シーンを分類するための方法に関し、その方法は、
コンピューティングデバイスが、シーンに対応する複数のデータ点を受領することと、
コンピューティングデバイスが、複数のデータ点からデータ点の1つ以上のサブセットを特定することであって、データ点の1つ以上のサブセットは、シーンにおける少なくとも1つのサブシーンを示し、サブシーンは表示装置上に表示されることと、
コンピューティングデバイスが、シーンを分類し、少なくとも1つのサブシーンを無視することと、を含む方法である。
【0044】
本発明はさらに、シーンにおける1つ以上の被写体を分類するための方法に関し、その方法は、
コンピューティングデバイスが、シーンに対応する複数のデータ点を受領することと、
コンピューティングデバイスが、複数のデータ点からデータ点の1つ以上のサブセットを特定することであって、データ点の1つ以上のサブセットは、シーンにおける少なくとも1つのサブシーンを示し、サブシーンは表示装置上に表示されることと、
コンピューティングデバイスが、シーンにおける1つ以上の被写体を分類し、コンピューティングデバイスが、少なくとも1つのサブシーンを無視することと、を含む方法である。
【0045】
本発明はさらに、シーンにおけるポーズを分類するための方法に関し、その方法は、
コンピューティングデバイスが、シーンに対応する複数のデータ点を受領することと、
コンピューティングデバイスが、複数のデータ点からデータ点の1つ以上のサブセットを特定することであって、データ点の1つ以上のサブセットは、シーンにおける少なくとも1つのサブシーンを示し、サブシーンは表示装置上に表示されることと、
コンピューティングデバイスが、シーンにおけるポーズを分類し、コンピューティングデバイスが、少なくとも1つのサブシーンを無視することと、を含む方法である。
【0046】
前述の実施形態は、説明された上記の方法のいずれとも組み合わせることができる。
【0047】
本明細書において用いられる「統計的に」という用語は、データの収集、分析、解釈、提示、および編成を処理することに関する。分析は、グラフ、あるいは他の既知のグラフィック表示および/または表のような視覚的フォーマットで提示されてもよい。
【0048】
電気通信およびコンピューティングにおける「ニアリアルタイム」または「ニアリーリアルタイム」(NRT)という用語は、自動データ処理またはネットワーク伝送により、イベントの発生と、表示またはフィードバックおよび制御などの目的のため処理されたデータの使用との間に発生する時間遅延を指している。例えば、ニアリアルタイム表示は、現在の時刻から処理時間を差し引いた時点で存在したイベントまたは状況を、ほぼライブイベントの時刻として表示する。
【0049】
「ニアリアルタイム」と「リアルタイム」の用語の違いはやや不明瞭であり、目前の状況に対して定義しなければならない。この用語は、重大な遅延がないことを示唆する。多くの場合、「リアルタイム」と言われる処理は「ニアリアルタイム」と言われる方がより正確である。実際、これは「機能的リアルタイム」と言われてもよい。
【0050】
ニアリアルタイムは、音声および映像の遅延リアルタイム伝送のことも指す。それにより、大きな映像ファイル全体がダウンロードされるのを待つことなく、ほぼリアルタイムで映像を再生することが可能になる。互換性のないデータベースは、他のデータベースが定期的にインポート/エクスポート可能な共通のフラットファイルにエクスポート/インポートできるため、互いに共通のデータを「ニアリアルタイム」で同期/共有することができる。
【0051】
リアルタイム信号処理は、ライブイベントのサポートで求められるようなライブ信号処理に必要であるが、それだけでは不十分である。ライブ音声デジタル信号処理には、ステージモニタやインイヤーモニタを使用する演奏者が許容でき、演奏者を直接見てもいる聴衆にリップシンクエラーとして気付かれないようにするため、リアルタイム操作とスループット遅延の十分な制限の両方が必要である。ライブのリアルタイム処理の遅延時間に対する許容限度は調査と議論の対象ではあるが、6ミリ秒から20ミリ秒と推定される。
【0052】
リアルタイムシステムは、ウィキペディアにおいて、「データを受領して、処理し、その時点で環境に影響を与えるのに十分な速さで結果を返すことにより、環境を制御する」システムと記載されてきた。「リアルタイム」という用語は、シミュレーションにおいても使用され、シミュレーションのクロックが実際のクロックと同じ速度で動作することを意味し、また、プロセス制御およびエンタープライズシステムにおいては「重大な遅延がない」ことを意味する。
【0053】
「ニアリアルタイム」と「リアルタイム」との差異は様々であり、遅延は伝送のタイプおよび速度に左右される。ニアリアルタイムにおける遅延は、通常、数秒から数分のオーダーである。
【0054】
大体において、「リアルタイム」であると説明されるかまたはそう見られるシステムは、機能的にリアルタイムである。
【0055】
一般に、人口統計学は人口、特に人間の人口、の統計的研究である(ウィキペディア参照)。極めて一般的な科学として、人口統計学はあらゆる種類の動的な常住人口、すなわち、時間および空間とともに変化する人口を分析することに関する。人口統計学は、これらの人口の規模、構造および分布や、出生、移動、高齢化、死亡に対応する人口の空間的または時間的な変化の研究を包含する。
【0056】
人口統計学的分析は、教育、国籍、宗教、および民族性などの基準により定義される社会全体または集団全体を対象とし得る。
【0057】
正式な人口統計学は、その調査対象を人口プロセスの測定に限定しているが、社会人口統計学または人口調査のより広い分野では、人口に影響を与える経済的、社会的、文化的、および生物学的プロセス間の関係も分析する。
【0058】
人口統計学的研究において収集される共通変数は、年齢、性別、所得水準、人種、雇用、婚姻状態、職業、宗教、場所、住宅所有、および教育水準を含む。人口統計学は、顧客を特定するために、集団について一定の一般化を行う。更なる人口統計学的要因は、好み、趣味、ライフスタイル、その他のデータを収集することを含む。
【0059】
カメラは、例えばウィキペディアでは、画像を記録または撮像するための光学機器であり、画像は局所的に保存してもよく、他の場所に伝送してもよく、その両方であってもよい、と定義されている。画像は別々の静止画像であってもよく、ビデオあるいはムービーを構成する一連の画像であってもよい。カメラは、接触せずに被写体を感知するように、遠隔感知装置である。現在のカメラは、一般に、デジタル画像記録装置である。カメラは、通常、可視スペクトルまたは電磁スペクトルの他の部分の光を使って動作する。スチルカメラは、被写体またはシーンの単一画像を生成して、その単一画像を電子センサに記録する光学装置である。ムービーカメラまたはビデオカメラは、通常1秒に24フレームの速度で、一連の静止画像を素早く連続して記録することを除いて、スチルカメラと同様に動作する。
【0060】
例えば「実質的に全ての発光」または「実質的に成る」のような、本明細書中の「実質的に」という用語は、当業者には理解されるであろう。「実質的に」という用語は、「全く」、「完全に」、「全て」等を有する実施形態も含み得る。したがって、複数の実施形態において、「実質的に」という形容詞は除かれてもよい。該当する場合において、「実質的に」という用語は、例えば95%以上などの90%以上、特に99%以上、さらに特には100%を含む99.5%以上に関していてもよい。「備える(comprise)」という用語は、「備える(comprise)」という用語が「から成る(consist of)」を意味する実施形態も含む。
【0061】
「機能的に」という用語は、当業者には理解され、また明確であろう。「実質的に」および「機能的に」という用語は、「全く」、「完全に」、「全て」等を有する実施形態も含み得る。したがって、複数の実施形態において、「機能的に」という形容詞は除かれてもよい。例えば「機能的に平行」において用いられる場合、当業者であれば、「機能的に」という形容詞が、前述のように「実質的に」という用語を含むことを理解できるであろう。特に、「機能的に」は、「機能的に」という形容詞が存在しないかのように、特徴が機能することを可能にする特徴の構成を含む、と解されるべきである。「機能的に」という用語は、その用語が言及する特徴における変形例を含むことを意図しており、それらの変形例は、特徴の機能的な使用において、場合によっては本発明において関連する他の特徴と組み合わせて、特徴の組合せが動作または機能し得るような変形例である。例えば、アンテナが通信装置に機能的に連結または機能的に接続されている場合、アンテナにより受信される受信電磁信号は、その通信装置によって利用可能である。例えば「機能的に平行」において用いられるように、「機能的に」という用語は、正確に平行であることを含み、また前述の「実質的に」という用語によって含まれる実施形態もを含むように用いられる。例えば、「機能的に平行」は、動作時に部品が例えば平行であるかのように機能する実施形態に関する。これは、意図する使用分野において平行であるかのように動作することが、当業者にとって明らかな実施形態を含む。
【0062】
さらに、本明細書および特許請求の範囲における「第1」、「第2」、「第3」等の用語は、類似の要素を区別するために用いられており、必ずしも順序や時系列を表すために用いられてはいない。このように用いられる用語は、適切な状況下で置き換え可能であり、本明細書に記載された本発明の実施形態は、本明細書に記載または図示されている以外の順序で動作可能であると解すべきである。
【0063】
本明細書において、機器や装置は、特に、動作時の説明がされている。当業者にとって明らかなように、本発明は動作方法や動作時の機器に限定されない。
【0064】
留意すべきは、前述の実施形態が本発明を限定するのではなく例示していること、および当業者であれば、添付の特許請求の範囲から逸脱することなく多くの代替実施形態を設計できることである。特許請求の範囲において、括弧内に置かれたいずれの参照符号も特許請求の範囲を限定するものと解されるべきではない。「備える(to comprise)」という動詞およびその活用形の使用は、請求項に記載されたもの以外の要素またはステップの存在を排除するものではない。要素に先行する冠詞の「a」または「an」は、複数のその要素の存在を排除するものではない。なお、本発明は、幾つかの異なる要素を備えるハードウェアを用い、かつ適切にプログラムされたコンピュータにより実施されてもよい。幾つかの手段を列挙する機器または装置の請求項において、これらの手段のうち幾つかは、全く同一のハードウェアにより実施されてもよい。ある複数の手段が互いに異なる従属項に記載されているという単なる事実は、これらの手段の組合せを有利に利用できないことを意味しない。
【0065】
本発明は、明細書に記載されたおよび/または添付の図面に示された1つ以上の特徴的な特徴を備える装置や機器にも適用される。本発明はさらに、明細書に記載されたおよび/または添付の図面に示された1つ以上の特徴的な特徴を含む方法またはプロセスに関する。
【0066】
本特許において論じられる様々な局面は、追加の利点を提供するために組み合わせることができる。さらに、特徴のうちの幾つかは、1つまたは複数の分割出願の基礎を成すことができる。
【0067】
以下において、対応する参照符号が対応する部分を示す添付の概略図を参照して、本発明の実施形態が単なる例として説明される。
【図面の簡単な説明】
【0068】
【
図1A】表示装置を含むシーンから様々な局面を分類するための例示的な方法のフローチャートを、概略的に示す図である。
【
図1B】表示装置を含むシーンから様々な局面を分類するための例示的な方法のフローチャートを、概略的に示す図である。
【
図1C】表示装置を含むシーンから様々な局面を分類するための例示的な方法のフローチャートを、概略的に示す図である。
【
図1D】表示装置を含むシーンから様々な局面を分類するための例示的な方法のフローチャートを、概略的に示す図である。
【
図2】テレビディスプレイを備える高齢者施設の室内を監視するための実施形態を、概略的に示す図である。
【
図3】表示装置を備える広場を監視するための実施形態を、概略的に示す図である。
【
図4】自動運転車に内蔵された、広告板を含むシーンを分析する実施形態を、概略的に示す図である。
【0069】
図面は、必ずしも縮尺通りではない。
【発明を実施するための形態】
【0070】
好適な実施形態の説明
以下の詳細な説明は、添付の図を参照して、開示されたシステムおよび方法の様々な特徴および機能を述べている。図において、文脈上そうでないことが明示されていない限り、類似の記号は類似の構成要素を特定している。
【0071】
図1A-1Dは、分類のための例示的な方法(1、1’、1’’、および1’’’)のフローチャートを概略的に示しており、コンピューティングデバイス3が、表示装置2およびサブシーン10’を含むシーン10からデータ点(100、100’)を受領し、分類された動作21、分類されたシーン20、および1つ以上の分類された被写体22が得られている。
【0072】
図1Aにおいては、方法1がシーン10における動作を分類し、分類された動作21がもたらされる。コンピューティングデバイス3は、シーン10に対応する複数のデータ点100を受領する。コンピューティングデバイス3は、表示装置2に表示されたサブシーン10’を示すデータ点100’のサブセットを特定し、シーン10における動作を分類し、サブシーン10’を無視する。
【0073】
図1Bにおいては、方法1’がシーン10を分類し、分類されたシーン20がもたらされる。コンピューティングデバイス3は、シーン10に対応する複数のデータ点100を受領する。コンピューティングデバイス3は、表示装置2に表示されたサブシーン10’を示すデータ点100’のサブセットを特定し、シーン10を分類し、サブシーン10’を無視する。
【0074】
図1Cにおいては、方法1’’がシーン10における1つ以上の被写体を分類し、分類された1以上の被写体22がもたらされる。コンピューティングデバイス3は、シーン10に対応する複数のデータ点100を受領する。コンピューティングデバイス3は、表示装置2に表示されたサブシーン10’を示すデータ点100’のサブセットを特定し、シーン10における1つ以上の被写体を分類し、サブシーン10’を無視する。
【0075】
図1Dにおいては、方法1’’’がシーン10を分類し、分類されたシーン20および分類された動作21がもたらされる。コンピューティングデバイス3は、シーン10に対応する複数のデータ点100を受領する。コンピューティングデバイス3は、表示装置2に表示されたサブシーン10’を示すデータ点100’のサブセットを特定し、サブシーン10’を無視しながらシーン10を分類し、分類されたシーン20から分類された動作21が推論される。
【0076】
別の方法においては、1つ以上の分類された動作(21)から分類されたシーン20が推論される。例えば、様々な広告板のあるボクシングの試合のシーンは、直接的に分類可能であるか、またはリングで戦うボクサーの動作または一連の動作により分類可能である。
【0077】
更に別の方法においては、1つ以上の分類された被写体(22)から分類されたシーン20が推論される。例えば、様々な広告板のあるボクシングの試合のシーンは、直接的に分類可能であるか、または、例えば、シーン10におけるボクシングのリング、ボクサー、トレーナー、観衆、および様々な特性などの1つ以上の被写体により分類可能である。
【0078】
上記の方法(1、1’、1’’および1’’’)は、
図1A-1Dに示されたような1つ以上の作業、機能、または動作を含んでもよく、結果としてブロック20、21、および22により示される1つ以上の分類された対象がもたらされてもよい。ブロック20、21、および22は順番に示されているが、これらのブロックは、場合によっては、並行して実行されてもよく、および/または本明細書に記載されている順番とは異なる順番で実行されてもよい。。また、この様々なブロックは、より少ないブロックに統合してもよく、更なるブロックに分割してもよく、および/または所望する形態に基づいて削除してもよい。
【0079】
さらに、上記の方法(1、1’、1’’および1’’’)や、本明細書に開示されている他のプロセスおよび方法に関して、フローチャートは、実施形態の可能な実施の機能および作用を示す。これに関して、各方法は、特定の論理機能またはプロセスにおけるステップを実施するための、プロセッサにより実行可能な1つ以上の命令を含む、モジュール、セグメント、またはプログラムコードの一部を意味してもよい。プログラムコードは、例えば、ディスクやハードドライブを含む記憶装置などの、各種コンピュータ可読媒体またはメモリに格納してもよい。コンピュータ可読媒体は、例えば、レジスタメモリ、プロセッサキャッシュ、およびランダムアクセスメモリ(RAM)のような、短期間データを記憶するコンピュータ可読媒体などの非一時的コンピュータ可読媒体も含み得る。コンピュータ可読媒体は、また、例えば、読み取り専用メモリ(ROM)、光ディスクまたは磁気ディスク、コンパクトディスク読み取り専用メモリ(CD-ROM)のような、二次記憶装置または永続的長期記憶装置などの非一時的媒体またはメモリも含み得る。コンピュータ可読媒体はまた、その他のあらゆる揮発性または不揮発性記憶システムを含み得る。コンピュータ可読媒体は、例えば、コンピュータ可読記憶媒体、有形記憶装置、またはその他の製品と見なし得る。
【0080】
さらに、上記の方法(1、1’、1’’および1’’’)や、本明細書に開示されている他のプロセスおよび方法に関して、コンピューティングデバイス3は、プロセスにおいて特定の論理機能を実行するために配線された回路を表してもよい。例として、
図1A-1Dに示す方法(1、1’、1’’および1’’’)は、
図2に描かれているコンピューティングデバイス3のような例示的なコンピューティングデバイスにより実行されるものとして説明される。上記の方法(1、1’、1’’および1’’’)は、
図4に描かれているような自動運転車両により実行されるものとして説明することも可能であり、コンピューティングデバイスは車両に搭載されてもよく、非搭載であるが車両と無線通信状態にあってもよい。他のエンティティまたはエンティティの組合せが、上記の例示的な方法(1、1’、1’’および1’’’)の1つ以上のステップを実行可能であることを理解されたい。
【0081】
図2は、高齢者施設50の室内シーンを監視する実施形態の適用例を、概略的に表している。高齢者施設50の室内シーンには、表示装置2としてのテレビジョンがある。撮像装置4としてのビデオカメラは、シーン10を撮影し、データ点100’を有するサブシーン10’を含むデータ点100を、ビデオカメラ4に作動連結されたコンピューティングデバイス3に送信する。シーン10は銃21を持った男を含むが、コンピューティングデバイス3は、シーンを分類する際に、テレビジョン2に表示されたサブシーン10’のデータ点100’を無視するように訓練されているため、コンピューティングデバイス3が
図2のシーン10を脅迫シーンまたは犯罪シーンとして分類することはない。
【0082】
別の適用例では、コンピューティングデバイスは、シーン10内で動作、ポーズ、被写体、またはそれらの組合せを分類している。
【0083】
図3は、広場51の屋外シーンを監視する実施形態の適用例を、概略的に表している。広場51の屋外シーンには、表示装置2としての大型スクリーン、および表示装置2’を備える商品販売車7がある。撮像装置4としてのビデオカメラは、広場を監視し、コンピューティングデバイス3に作動連結されている。
図2の室内の例と同様に、広場51の屋外シーンの監視は、表示装置(2および2’)により複雑になっている。大型スクリーン2が格闘シーン22を表示する一方で、商品販売車7上の表示装置2’が広場の周辺と類似する建築物を表示している。
【0084】
この適用例においては、広場にいる人々8を分類する際、コンピューティングデバイス3は、大型スクリーン2上のサブシーンを無視することにより、カメラ4の視野内において広場にいる人々の数は9人であると推論する。例えば、そのような情報は、広いスペースにいる群衆を監視および制御するために利用することができる。
【0085】
この適用例では、さらに、広場にある家屋9を分類する際、コンピューティングデバイス3は、表示装置2’上のサブシーンを無視することにより、カメラ4の視野内において家屋の数は3であると推論し、そうすることにより、コンピューティングデバイス3が表示装置2’によって惑わされることがないため、商品販売車7の正確な分類も増加させる。
【0086】
この適用例が監視システムの役目を果たすのであれば、
図3のシステムは、大型スクリーン(表示装置2)に表示されているような格闘事件22の疑いに対する警報を発しないであろう。次に、この監視システムは、許可されていない車両で広場に不法侵入することについて、商品販売車7に対する警報を発し得るであろう。
【0087】
図4は、表示装置2としての広告板を含むシーン10を分析する、自動運転車5に搭載された実施形態を、概略的に表している。コンピューティングデバイス3は、撮像装置4に作動連結され、シーン10に対応する複数のデータ点100を受領する。コンピューティングデバイス3は、広告板2に表示されたサブシーン10’を示すデータ点100’のサブセットを特定し、シーン10を分類するとともにサブシーン10’を無視する。その結果、自動運転車5は、広告板2上の自動車23の画像に惑わされない。
【0088】
広告板2は、昔ながらのポスター、デジタル広告板、または、静止画像、一連の画像(時系列)、あるいはビデオムービーを表示するように構成されたスクリーンであってもよい。
【0089】
さらに、例示的なシステムは、本明細書に記載の機能性を提供するために少なくとも1つのプロセッサにより実行可能な、記憶されたプログラム命令を備える、非一時的コンピュータ可読媒体の形を取ってもよい。
【0090】
例示的なシステムは、上記の記憶されたプログラム命令を有する、非一時的コンピュータ可読媒体を備えたいかなる車両または車両のサブシステムの形を取ってもよい。したがって、「コンピューティングデバイス」および「自動運転車両」という用語は、本明細書において置き換え可能である。しかし、場合によっては、コンピューティングデバイスは、自動動作モードまたは半自動動作モードで車両を制御するように構成されてもよい。
【0091】
更に別の適用例においては、実施形態がロボットに搭載されているため、ロボットは周囲やロボットが作動しているシーンを正確に解釈するであろう。
【0092】
開示されたシステムや方法の幾つかの局面が、本明細書において検討される全ての種々の異なる構成に変更したり組み合わせたりし得ることは、容易に理解されよう。
【0093】
上記の説明および図面が、本発明の幾つかの実施形態を例示するために含まれるものであり、保護の範囲を限定するものでないことも、明らかであろう。本開示から始まり、多くの更なる実施形態は当業者にとって明らかであろう。これらの実施形態は、保護の範囲および本発明の要旨に含まれ、従来技術と本件特許の開示との明らかな組合せである。