(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-20
(45)【発行日】2024-06-28
(54)【発明の名称】インテリジェントな映像解析
(51)【国際特許分類】
G06T 7/215 20170101AFI20240621BHJP
G06T 7/00 20170101ALI20240621BHJP
H04N 7/18 20060101ALI20240621BHJP
【FI】
G06T7/215
G06T7/00 350C
H04N7/18 D
H04N7/18 K
【外国語出願】
(21)【出願番号】P 2020045066
(22)【出願日】2020-03-16
【審査請求日】2023-03-10
(32)【優先日】2019-03-19
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】500520743
【氏名又は名称】ザ・ボーイング・カンパニー
【氏名又は名称原語表記】The Boeing Company
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】グェン, ヒュー ティー.
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2018-117338(JP,A)
【文献】特開2011-65582(JP,A)
【文献】米国特許出願公開第2016/0378861(US,A1)
【文献】Youyang Qu, 外2名,"Moving vehicle detection with convolutional networks in UAV videos",2016 2nd International Conference on Control, Automation and Robotics (ICCAR),2016年04月30日,p.225-229
【文献】Tae Eun Choe, 外5名,"Semantic video event search for surveillance video",2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops),2011年11月13日,p.1963-1970
【文献】BENJAMIN Z. YAO, 外4名,"I2T: Image Parsing to Text Description",Proceedings of the IEEE,2010年06月17日,第98巻, 第8号,p.1485-1508
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/215
G06T 7/00
H04N 7/18
(57)【特許請求の範囲】
【請求項1】
プロセッサ(901)及びメモリ(902)を備えた装置(900)であって、前記メモリが、実行可能な指示命令
を記憶しており、
前記実行可能な指示命令は、前記プロセッサによって実行されたことに応答して、前記装置に、
映像フィードを受け取ることと、
前記映像フィードが受け取られた際に、前記映像フィードをリアルタイムで処理することと、
知識ベースへのクエリ、並びに、前記映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークの選択の提示を可能にするように構成された、グラフィカルユーザインターフェース(GUI)(1041)を生成することと
、を実行さ
せ、
前記映像フィードをリアルタイムで処理することが、
前記装置に、
前記映像フィード内の物体を検出し分類するために、前記映像フィードに対して物体検出及び認識を実行し、前記物体のうちの少なくとも一部の活動を検出し分類するために、活動認識を実行し、前記映像フィード内の前記分類された物体と前記分類された活動を出力すること
と、
前記分類された物体
及び前記分類された活動から、前記映像フィードを表現する自然言語テキストを生成すること
と、
前記分類された物体を表す頂点と、前記頂点を接続し、前記分類された物体の間の意味的関係であって、少なくとも一部が前記分類された活動のうちのそれぞれに対応する意味的関係を表す辺と、を有するグラフを含む、意味ネットワークを生成すること
と、
前記映像フィード、前記分類された物体と前記分類された活動、前記自然言語テキスト、及び前記意味ネットワークを、前記知識ベース内に記憶すること
と、
を
実行させることを含む、装置(900)。
【請求項2】
前記装置に、前記映像フィードを受け取ることを実行させることが、複数のソースから前記映像フィードを受け取ることを実行させることを含み、前記複数のソースのうちの少なくとも一部が、移動しているソースである、請求項1に記載の装置(900)。
【請求項3】
前記装置に、前記映像フィードを処理することを実行させることが、更に、
それぞれの地理的位置を有する前記分類された物体
を地理登録することであって、当該分類された物体のうち移動している
物体があれば、当該移動している物体のそれぞれの軌跡を含めて地理登録することを実行させることを含み、
前記GUI(1041)が、前記映像フィード内の光景の航空画像又はマップ
を提示して、前記航空画像又は前記マップ上で
、前記分類された物体を前記それぞれの地理的位置にお
いて特定し、前記分類された物体のうち前記移動している
物体については前記それぞれの軌跡
とともに特定
するように更に構成されている、請求項1又は2に記載の装置(900)。
【請求項4】
前記装置に、物体検出及び認識を実行することを実行させることが、前記分類された物体にそれぞれの特有の識別子を割り当てることを実行させることを含み、前記GUI(1041)内の前記映像フィードの前記選択の提示が、前記映像フィード上で、前記それぞれの特有の識別子を含む前記分類された物体を特定することを含む、請求項1から3のいずれか一項に記載の装置(900)。
【請求項5】
前記物体のうちの少なくとも一部が、移動している物体であり、前記装置に、物体検出及び認識を実行することを実行させることが、動き補償、背景減算、及び畳み込みニューラルネットワークを使用して、前記移動している物体を検出し分類することを実行させることを含む、請求項1から4のいずれか一項に記載の装置(900)。
【請求項6】
前記装置に、活動認識を実行することを実行させることが、前記分類された物体のうちの単一の
物体だけ、前記分類された物体のうちの複数の物体、又は前記分類された物体のうちの1以上と前記映像フィード内の地理的エリアとの間の相互作用を含むとして、前記活動のうちの少なくとも一部を検出し分類することを実行させることを含む、請求項1から5のいずれか一項に記載の装置(900)。
【請求項7】
前記装置に、前記GUI(1041)を生成することを実行させることが、前記映像フィード内のユーザ指定の物体と前記分類された物体のうちの1以上との間の類似性に基づいて、前記知識ベースへのクエリを可能にするように構成された前記GUIを生成することを実行させることを含む、請求項1から6のいずれか一項に記載の装置(900)。
【請求項8】
映像解析の方法(800)であって、
映像フィードを受け取ること(801)と、
前記映像フィードが受け取られた際に、前記映像フィードをリアルタイムで処理すること(802)と、
知識ベースへのクエリ、並びに、前記映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークの選択の提示を可能にするように構成された、グラフィカルユーザインターフェース(GUI)(1041)を生成すること(803)と
、を含み、
前記映像フィードをリアルタイムで処理すること(802)が、
前記映像フィード内の物体を検出し分類するために、前記映像フィードに対して物体検出及び認識を実行し、前記物体のうちの少なくとも一部の活動を検出し分類するために、活動認識を実行し、前記映像フィード内の前記分類された物体と前記分類された活動を出力すること
と(8021)、
前記分類された物体
及び前記分類された活動から、前記映像フィードを表現する自然言語テキストを生成すること
と(8022)、
前記分類された物体を表す頂点と、前記頂点を接続し、前記分類された物体の間の意味的関係であって、少なくとも一部が前記分類された活動のうちのそれぞれに対応する意味的関係を表す辺と、を有するグラフを含む、意味ネットワークを生成すること(8023)
と、
前記映像フィード、前記分類された物体と前記分類された活動、前記自然言語テキスト、及び前記意味ネットワークを、前記知識ベース内に記憶すること(8024)
と、を含む、方法(800)。
【請求項9】
前記映像フィードを受け取ること(801)が、複数のソースから前記映像フィードを受け取ることを含み、前記複数のソースのうちの少なくとも一部が、移動しているソースである、請求項8に記載の方法(800)。
【請求項10】
前記映像フィードを処理すること(802)が、それぞれの地理的位置を有する前記分類された物体
を地理登録することであって、当該分類された物体のうち移動している
物体があれば、当該移動している物体のそれぞれの軌跡を含めて地理登録することを更に含み、
前記GUI(1041)が、前記映像フィード内の光景の航空画像又はマップ
を提示して、前記航空画像又はマップ上で
、前記分類された物体を前記それぞれの地理的位置にお
いて特定し、前記分類された物体のうち前記移動している
物体については前記それぞれの軌跡
とともに特定
するように更に構成されている、請求項8又は9に記載の方法(800)。
【請求項11】
前記物体検出及び認識を実行すること(8021)が、前記分類された物体にそれぞれの特有の識別子を割り当てることを含み、前記GUI(1041)内の前記映像フィードの前記選択の提示が、前記映像フィード上で、前記それぞれの特有の識別子を含む前記分類された物体を特定することを含む、請求項8から10のいずれか一項に記載の方法(800)。
【請求項12】
前記物体のうちの少なくとも一部が、移動している物体であり、前記物体検出及び認識を実行すること(8021)が、動き補償、背景減算、及び畳み込みニューラルネットワークを使用して、前記移動している物体を検出し分類することを含む、請求項8から11のいずれか一項に記載の方法(800)。
【請求項13】
前記活動認識を実行すること(8021)が、前記分類された物体のうちの単一の
物体だけ、前記分類された物体のうちの複数の
物体、又は前記分類された物体のうちの1以上と前記映像フィード内の地理的エリアとの間の相互作用を含むとして、前記活動のうちの少なくとも一部を検出し分類することを含む、請求項8から12のいずれか一項に記載の方法(800)。
【請求項14】
前記GUI(1041)を生成することが、前記映像フィード内のユーザ指定の物体と前記分類された物体のうちの1以上との間の類似性に基づいて、前記知識ベースへのクエリを可能にするように構成された前記GUIを生成することを含む、請求項8から13のいずれか一項に記載の方法(800)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、広くは、インテリジェントな映像解析に関し、特に、リアルタイムのモニタリングとオフラインでの検索・取得をサポートするインテリジェントな映像解析に関する。
【背景技術】
【0002】
映像解析は、映像監視システムなどの多くの用途で使用され得る。映像解析は、しばしば、作業人員が、手作業で、映像の流れを見て、映像の内容の言葉による叙述を生成することを含む。しかし、多くの用途では、映像解析において使用されるカメラ及び撮像センサが、人間が解析し、理解し、応答するには非現実的であり得る、大量のストリーミング及びアーカイブ映像データを生成する。
【0003】
既存の自動化された映像解析システムは、より少ないマンパワーで映像解析を実行することができる。しかし、多くの既存の自動化された映像解析システムは、静止したカメラについてのみ働き、物体検出のみを提供する。すなわち、多くの既存の自動化された映像解析システムは、移動しているカメラについて働くことができず、移動している物体の追跡、活動認識、映像フィード内での物体の意味的関係を視覚的に提示すること、及びインテリジェントな映像取得などの、複数の機能を提供しない。
【0004】
したがって、上述の問題点のうちの少なくとも幾つかと、起こり得る他の問題点とを考慮に入れた、システム及び方法を得ることが望ましいであろう。
【発明の概要】
【0005】
本開示の例示的な実施態様は、リアルタイムのモニタリングとオフラインでの検索・取得をサポートする、インテリジェントな映像解析を対象とする。本開示の例示的な実施態様は、リアルタイムで映像データを受け取り、解析し、関心対象の物体を特定し追跡するために、機械学習アルゴリズムを実施することができる。本開示の例示的な実施態様は、自然言語表現を使用して、追跡されている物体を表現することができる。
【0006】
本開示の例示的な実施態様は、様々な静止した及び移動している映像フィードからデータを受け取ることができる。本開示の例示的な実施態様は、物体検出、追跡、地理登録(geo-registration)、活動認識(activity recognition)、映像に見出しを付けること(video captioning)、及びグラフベースの内容表現において、最先端のコンピュータビジョンと機械学習機能を統合することができる。本開示の例示的な実施態様は、リアルタイムのモニタリングにおける大量のストリーミング映像データの自動化された意味的解析を提供し、オフラインでの検索・取得をサポートすることができる。本開示の例示的な実施態様は、有人又は無人航空輸送体、人工衛星、街頭セキュリティーカメラ、人体に装着したカメラ、及び個人の携帯電話などの、幅広い範囲のプラットフォーム内に配備することができる。
【0007】
また、本開示の例示的な実施態様は、大規模な映像アーカイブを通じての効率的な内容閲覧及びナビゲーションなどの、映像フォレンジック解析(video forensic analysis)を提供することができる。本開示の例示的な実施態様は、(例えば、キーワードによる、地理的空間エリアによる、又は視覚的類似性による)様々な種類の意味ベースの映像クエリを使用して、過去のイベントの素早い検索・取得をサポートする。本開示の例示的な実施態様は、静止した及び移動しているカメラプラットフォームの両方をサポートすることができ、映像フィードからの高度に意味的な内容の情報を自動的に抽出することができ、それは、オフラインで効率的に記憶・取得することができる。本開示の例示的な実施態様は、映像監視用途において必要とされるマンパワー及びマンパワーへの依存度を低減させ、作業人員が、手作業で、ライブ映像フィードを見ること、及び過去のイベントについて映像アーカイブを検索することに、長い時間を費やすことを節約することができる。
【0008】
したがって、本開示は、以下の例示的な実施態様を含むが、それらに限定されるわけではない。
【0009】
ある例示的な実施態様は、強化学習を用いた自動目標認識の方法を提供し、該方法は、映像フィードを受け取ることと、映像フィードが受け取られた際に、映像フィードをリアルタイムで処理することと、知識ベースへのクエリ、並びに、映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークの選択の提示を可能にするように構成された、グラフィカルユーザインターフェース(GUI)を生成することとを含む。映像フィードをリアルタイムで処理することは、その映像フィード内の物体を検出し分類するために、映像フィードに対して物体検出及び認識を実行し、物体のうちの少なくとも一部の活動を検出し分類するために、活動認識を実行し、映像フィード内の分類された物体と分類された活動を出力すること、分類された物体と活動から、映像フィードを表現する自然言語テキストを生成すること、分類された物体を表す頂点と、頂点を接続し、分類された物体の間の意味的関係であって、少なくとも一部が分類された活動のうちのそれぞれに対応する意味的関係を表す辺(edge)と、を有するグラフを含む、意味ネットワークを生成すること、並びに、映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークを、知識ベース内に記憶することを含む。
【0010】
任意の前述の例示的な実施態様又は前述の例示的な実施態様の任意の組み合わせの該方法のある例示的な実施態様では、映像フィードを受け取ることが、複数のソースから映像フィードを受け取ることを含み、複数のソースの少なくとも一部は、移動しているソースである。
【0011】
任意の前述の例示的な実施態様又は前述の例示的な実施態様の任意の組み合わせの該方法のある例示的な実施態様では、映像フィードを処理することが、分類された物体であって、それぞれの地理的位置を有し、任意の移動しているもののそれぞれの軌跡を含む分類された物体を地理登録することを更に含み、GUIは、映像フィード内の光景の航空画像又はマップであって、その航空画像又はマップ上で、分類された物体であって、それぞれの地理的位置における、移動しているもののそれぞれの軌跡を有する分類された物体を特定する、航空画像又はマップを提示するように更に構成されている。
【0012】
任意の前述の例示的な実施態様又は前述の例示的な実施態様の任意の組み合わせの該方法のある例示的な実施態様では、物体検出及び認識を実行することが、分類された物体にそれぞれの特有の識別子を割り当てることを含み、GUI内の映像フィードの選択の提示が、映像フィード上で、それぞれの特有の識別子を含む分類された物体を特定することを含む。
【0013】
任意の前述の例示的な実施態様又は前述の例示的な実施態様の任意の組み合わせの該方法のある例示的な実施態様では、物体のうちの少なくとも一部が、移動している物体であり、物体検出及び認識を実行することが、動き補償(motion compensation)、背景減算(background subtraction)、及び畳み込みニューラルネットワークを使用して、移動している物体を検出し分類することを含む。
【0014】
任意の前述の例示的な実施態様又は前述の例示的な実施態様の任意の組み合わせの該方法のある例示的な実施態様では、活動認識を実行することが、分類された物体のうちの単一のものだけ、分類された物体のうちの複数のもの、又は分類された物体のうちの1以上と映像フィード内の地理的エリアとの間の相互作用を含むとして、活動のうちの少なくとも一部を検出し分類することを含む。
【0015】
任意の前述の例示的な実施態様又は前述の例示的な実施態様の任意の組み合わせの該方法のある例示的な実施態様では、GUIを生成することが、映像フィード内のユーザ指定の物体と分類された物体のうちの1以上との間の類似性に基づいて、知識ベースへのクエリを可能にするように構成されたGUIを生成することを含む。
【0016】
ある例示的な実施態様は、装置を提供する。該装置は、プロセッサ及びメモリを備え、該メモリは、実行可能な指示命令であって、プロセッサによって実行されたことに応答して、装置に、任意の前述の例示的な実施態様又は前述の例示的な実施態様の任意の組み合わせの方法を少なくとも実行させる、指示命令を記憶している。
【0017】
ある例示的な実施態様は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は、非一過性であり、コンピュータ可読プログラムコードが記憶されており、該コンピュータ可読プログラムコードは、プロセッサによって実行されたことに応答して、装置に、任意の前述の例示的な実施態様又は前述の例示的な実施態様の任意の組み合わせの方法を少なくとも実行させる。
【0018】
本開示の、上記の特徴、態様、及び利点、及びその他の特徴、態様、及び利点は、簡潔に後述する添付図面と併せて、以下の詳細説明を読むことで自明となろう。本明細書に記載の具体的且つ例示的な実施態様において、この開示に明記している2つ、3つ、4つ、又はそれ以上の数の特徴又は要素が、明示的に組み合わされるか否か、又は別様に列挙されるか否かにかかわらず、本開示は、かかる特徴又は要素の任意の組み合わせを含む。この開示は、全体論的に読まれることが意図されており、これにより、本開示の分離可能ないかなる特徴又は要素も、その如何なる態様及び例示的な実施形態においても、本開示の文脈に明記されない限りは、組み合わされることが可能であると見なされるはずである。
【0019】
したがって、この「発明の概要」は、本開示の幾つかの側面の基本的な理解を提供するために、幾つかの例示的な実施態様を要約することのみを目的に提供されている。そのため、上述の例示的な実施態様は例に過ぎず、如何なる意味においても、本開示の範囲又は本質を狭めると解釈すべきではないことが認識されよう。その他の例示的な実施態様、側面、及び利点は、添付図面と併せて以下の詳細説明を参照することで自明となろう。添付図面は、記載されている幾つかの例示的な実施態様の原理を例を用いて示している。
【0020】
上述のように、本開示の例示的な実施態様を一般的な用語で説明しているが、ここで添付図面を参照する。これらの図面は必ずしも正確な縮尺で描かれているわけではない。
【図面の簡単な説明】
【0021】
【
図1】本開示の例示的な実施態様による、インテリジェントな映像解析向けのシステムを示す。
【
図2】本開示の例示的な実施態様による、インテリジェントな映像解析向けの図を示す。
【
図3】本開示の例示的な実施態様による、映像フィード内の検出され分類された物体を示す。
【
図4A】
図4A及び
図4Bは、本開示の例示的な実施態様による、分類された物体の地理登録を示す。
【
図4B】
図4A及び
図4Bは、本開示の例示的な実施態様による、分類された物体の地理登録を示す。
【
図5】本開示の例示的な実施態様による、意味ネットワークを示す。
【
図6】本開示の例示的な実施態様による、グラフィカルユーザインターフェース内の映像フィードの表示を示す。
【
図7】本開示の例示的な実施態様による、知識ベースへのクエリを示す。
【
図8】本開示の例示的な実施態様による、インテリジェントな映像解析の方法における様々な動作のフローチャートを示す。
【発明を実施するための形態】
【0022】
添付図面を参照しつつ、本開示のある実施態様について、これより下記でより網羅的に説明する。添付図面には、本開示の実施態様の一部が示されているのであって、全てが示されているわけではない。実際のところ、本開示の様々な実施態様は、多くの異なる形態で具現化されてよく、本明細書に明記されている実施態様に限定されると解釈すべきではない。むしろ、これらの例示的な実施態様は、この開示が包括的且つ完全なものになるように、且つ当業者にこの開示の範囲が十分に伝わるように、提供されている。例えば、特に明記されない限り、何かが「第1の」、「第2の」等のものであるという表現は、特定の順序を暗示していると解釈すべきではない。また、(特に明記されない限り)何か別のものの上にあると説明され得るものは、その代わりに下にあることもあり、逆もまた然りである。同様に、何か別の物の左にあると説明され得るものは、その代わりに右にあってもよく、逆もまた然りである。全体を通じて、類似の参照番号は類似の要素を表わしている。
【0023】
本開示の例示的な実施態様は、広くは、インテリジェントな映像解析を対象とし、特に、リアルタイムのモニタリングとオフラインでの検索・取得をサポートするインテリジェントな映像解析を対象とする。
【0024】
図1は、本開示の例示的な実施態様による、インテリジェントな映像解析向けのシステム100を示している。ある実施例では、
図9を参照しながらより詳細に説明されるように、該システムが、インテリジェントな映像解析向けの装置によって実装されてよい。
【0025】
システム100は、1以上の機能又は動作を実効するための、幾つかの異なるサブシステム(それぞれは、個別のシステムである)のうちの何れかを含む。図示されているように、ある実施例では、該システムが、データ受け取りモジュール101、映像解析モジュール102、知識ベース103、及び映像探索モジュール104のそれぞれのうちの1以上を含む。サブシステムは、互いに共配置されるか若しくは直接的に接続されてよく、又はある実施例では、サブシステムのうちの様々なものが、1以上のコンピュータネットワークを通じて互いに通信してよい。更に、システムの部分として示されているが、データ受け取りモジュール、映像解析モジュール、知識ベース、及び映像探索モジュールのうちの任意の1以上は、他のサブシステムの何れかと関連することなく、分離したシステムとして機能又は動作し得ることが、理解されるべきである。該システムは、
図1で示されているもの以外の1以上の更なる又は代替的なサブシステムを含んでよいことが、理解されるべきである。
【0026】
ある実施例では、データ受け取りモジュール101が、矢印110によって示されているように、映像フィードを受け取るように構成されている。ある実施例では、データ受け取りモジュールが、複数のソースから映像フィードを受け取るように構成されている。複数のソースの少なくとも一部は、有人又は無人航空輸送体上に配置されたカメラや撮像センサなどの、移動しているソースである。データ受け取りモジュールは、受け取った映像フィードを映像解析モジュール102に提供することができる。映像解析モジュール102は、検出及び認識モジュール1021、自然言語生成器1022、意味ネットワーク生成器1023、及び地理登録モジュール1024を含んでよい。
【0027】
ある実施例では、映像解析器102が、映像フィードが受け取られた際に、映像フィードをリアルタイムで処理するように構成されている。これらの実施例では、検出及び認識モジュール1021が、映像フィード内の物体を検出及び分類するために、映像フィードに対して物体検出及び認識を実行するように構成されている。検出及び認識モジュールは、物体うちの少なくとも一部の活動を検出及び分類するために、活動認識を実行し、映像フィード内の分類された物体と分類された活動を出力するようにも構成されている。ある実施例では、物体のうちの少なくとも一部が、移動している輸送体などの移動している物体である。これらの実施例では、検出及び認識モジュールが、動き補償、背景減算、及び畳み込みニューラルネットワークを使用して、移動している物体を検出及び分類するように構成されている。
【0028】
物体の活動は、分類されてよい。ある実施例では、検出及び認識モジュール1021が、分類された物体のうちの単一のものだけ、分類された物体のうちの複数のもの、又は分類された物体うちの1以上と映像フィード内の地理的エリアとの間の相互作用を含むとして、活動のうちの少なくとも一部を検出し分類するように構成されている。分類された物体のうちの単一のものだけを含む活動の一例が、自動車の旋回であってよい。分類された物体のうちのの複数のものを含む活動の一例が、2つの自動車の互いに前後にぴったりとついた運転であってよい。分類された物体のうちの1以上と地理的エリアとの間の相互作用を含む活動の一例が、駐車場の中への自動車の進入であってよい。ある実施例では、物体と活動が分類された後で、自然言語生成器1022が、分類された物体と活動から、映像フィードを表現する自然言語テキストを生成するように構成されている。例えば、自然言語生成器は、映像フィードを表現するために、「自転車に乗っている人」などの自然言語テキストを生成することができる。
【0029】
ユーザに分類された物体の間の意味的関係を表示するために、ある実施例では、意味ネットワーク生成器1023が、グラフを含む意味ネットワークを生成するように構成されている。グラフは、分類された物体を表す頂点と、頂点を接続し、分類された物体の間の意味的関係を表す辺とを含む。意味的関係のうちの少なくとも一部は、分類された活動のうちのそれぞれに対応する。意味ネットワークは、
図5を参照しながら、以下でより詳細に説明されることとなる。
【0030】
ある実施例では、映像解析モジュール102が、映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークを、知識ベース103内に記憶するように構成されている。知識ベースは、情報を記憶するように構成され、ファイル記憶装置、データベース記憶装置、クラウド記憶装置などの、幾つかの異なる様態のうちの何れかで実装されてよい。
【0031】
ある実施例では、映像探索モジュール104が、グラフィカルユーザインターフェース(GUI)1041を生成するように構成されている。GUIは、矢印105によって示されているように、知識ベース103へのクエリ、並びに、映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークの選択の提示を可能とするように構成されている。ある実施例では、映像探索モジュールが、映像フィード内のユーザ指定の物体と分類された物体のうちの1以上との間の類似性に基づいて、知識ベースへのクエリを可能にするように構成されたGUIを生成するように構成されている。例えば、ユーザ指定の物体は、白い自動車であってよく、生成されたGUIは、その白い自動車と映像フィード内の他の自動車の間の類似性に基づいて、知識ベースへのクエリを可能にし得る。
【0032】
映像解析モジュール102は、地理登録を介して、分類された物体の物理的属性を特定し得る。ある実施例では、地理登録モジュール1024が、分類された物体であって、それぞれの地理的位置を有し、任意の移動しているもののそれぞれの軌跡を含む分類された物体を地理登録するように構成されている。映像フィード内の自動車の物理的サイズ、進む方向、及び速度などの分類された物体の物理的属性は、地理登録を介して特定され得る。これらの実施例では、GUI1041が、映像フィード内に光景の航空画像又はマップを提示するように構成されている。航空画像又はマップは、映像フィード上で、分類された物体であって、それぞれの地理的位置における、移動するもののそれぞれの軌跡を有する分類された物体を特定する。
【0033】
映像解析モジュール102は、複数の分類された物体を追跡することもできる。ある実施例では、検出及び認識モジュール1021が、分類された物体にそれぞれの特有の識別子を割り当てるように構成されている。これらの実施例では、GUI1041内での映像フィードの選択の提示は、映像フィード上で、それぞれの特有の識別子を含む分類された物体を特定することを含む。分類された物体にそれぞれの特有の識別子を割り当てることは、
図3を参照しながら、以下でより詳細に説明されることとなる。
【0034】
図2は、本開示の例示的な実施態様による、インテリジェントな映像解析向けの図を示す。示されているように、一実施例では、映像解析モジュール102が、複数のソースから映像フィードを受け取ることができる。ソースのうちの一部は、静止していてよく、例えば、ソース201は、静止したカメラであってよい。ソースのうちの一部は、移動していてよく、例えば、ソース202は、有人又は無人航空輸送体上に配置されたカメラ又は撮像センサであってよい。映像解析モジュールは、映像フィードが複数のソースから受け取られた際に、映像フィードをリアルタイムで処理することができる。例えば、上述のように、映像解析モジュールは、物体検出及び認識を実行し、活動認識を実行し、映像フィードを表現する自然言語テキストを生成し、意味ネットワークを生成することができる。映像解析モジュールは、映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークを、知識ベース103内に記憶することができる。映像探索モジュール104は、GUI(例えば、GUI1041)を生成することができる。GUIは、ユーザ203などのユーザによる、知識ベースへのクエリを可能にすることができる。GUIは、映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークの選択の提示を可能にすることもできる。
【0035】
図3は、本開示の例示的な実施態様による、映像フィード内の検出され分類された物体を示している。示されているように、画像300(例えば、映像フィードのフレーム)では、検出及び認識モジュール1021が、映像フィード内で物体を検出し、「自動車」若しくは「人間」又は「ハンドバッグ」として分類することができる。検出及び認識モジュールは、分類された物体にそれぞれの特有の識別子を割り当てることができる。例えば、特有の識別子「人間50」が、映像フィード内の人間に割り当てられている。物体向けの特有の識別子は、映像フィードの種々のフレーム内でのその物体の出現中に、変化することなく維持されてよい。GUI内での映像フィードの提示は、映像フィード上で、それぞれの特有の識別子を含む分類された物体を特定することを含む。例えば、「人間50」は、映像フィード内の人間を特定するために、映像フィード内で提示されている。一実施例では、複数のカメラが同じエリアをモニタするときに、その物体向けの特有の識別子が、異なるカメラのビュー(view)にわたり維持されてよい。
【0036】
図4A及び
図4Bは、本開示の例示的な実施態様による、分類された物体の地理登録を示している。地理登録モジュール1024は、グーグルマップなどの地理参照世界地図に対して、検出され分類された物体及びそれらの軌跡を登録することができる。地理登録モジュールは、映像フレームとマップの間の透視変換(perspective transformation)を使用することができる。
図4Aは、映像フィードが静止したカメラからのものである一例を示している。この実施例では、映像フレームとマップの間の変換が、(例えば、GUI1041を介して)ユーザによって手動で指定された一組のランドマークポイントから計算され得る。例えば、ユーザは、静止したカメラよってキャプチャされた画像とマップと間の一組のポイント対応を入力することができる。図示されているように、GUIは、カメラがキャプチャした画像401、及びマップの俯瞰
図402を提示することができる。ユーザは、画像401とマップの俯瞰
図402との間のポイント対応を示す線(例えば、線403)を入力することができる。各線は、画像内の1つのポイントを、マップ上のその対応するポイントに接続することができる。次いで、地理登録モジュールは、画像からマップへのホモグラフィック(homographic)変換を計算することができる。
【0037】
図4Bは、映像フィードが、有人又は無人航空輸送体のセンサなどの、移動するセンサからのものである一例を示している。この実施例では、地理登録モジュール1024が、全地球測位システム(GPS)からのデータなどの、センサの位置及び方向のテレメトリデータを使用して、映像フレームとマップとの間の変換を計算することができる。図示されているように、GUI1041は、エリアのマップ411、及び移動しているセンサによってキャプチャされたエリアの画像412を提示することができる。地理登録モジュールは、分類された物体であって、それぞれの地理的位置を有し、任意の移動しているもののそれぞれの軌跡を含む分類された物体を地理登録することができる。例えば、地理登録モジュールは、自動車70の軌跡413を含む、その地理的位置を有する自動車70を地理登録することができる。そして、GUIは、映像フィード内の光景の航空画像又はマップであって、その航空画像又はマップ上で、分類された物体であって、それぞれの地理的位置における、移動するもののそれぞれの軌跡を有する分類された物体を特定する、航空画像又はマップを提示することができる。例えば、図示されているように、GUIは、その地理的位置における、自動車70の軌跡413を有する自動車70を特定する画像を提示することができる。
【0038】
図5は、本開示の例示的な実施態様による、意味ネットワークを示している。図示されているように、意味ネットワークは、分類された物体を表す頂点と、頂点を接続し、分類された物体の間の意味的関係を表す辺とを含む、グラフ500を含んでよい。意味的関係のうちの一部は、幾つかの分類された物体の幾つかの分類された活動に対応する。例えば、頂点501は、人間を表してよく、頂点503は、建物を表してよい。頂点501と503を接続する辺502は、人間が建物に入るという意味的関係を表してよい。
【0039】
図6は、本開示の例示的な実施態様による、グラフィカルユーザインターフェース内の映像フィードの提示を示している。図示されているように、一実施例では、映像フィードが、トラック663と661などの複数のトラックを含んでよい。各映像フィードは、30分の長さであってよく、各トラックは、2分の長さであってよい。各トラックは、カメラによってモニタされる特定の物体又は特定のエリアに対応してよい。各トラック内で種々のイベントが存在し得る。例えば、矢印601で示されているトラック661内では、トラック661内で生じた1つのイベントが、自動車が左に曲がったということであってよい。一実施例では、自然言語生成器1022が、分類された物体と活動から、映像フィードを表現する自然言語テキストを生成してよい。例えば、矢印602によって示されているように、自然言語テキストは、「レイカービレッジドクター(Laker Village Dr)に現れた自動車」というものであってよい。それは、映像フィード内のトラックID691を有する自動車を表現している。
【0040】
図7は、本開示の例示的な実施態様による、知識ベースへのクエリを示している。上で説明されたように、GUI1041は、ユーザによる知識ベース103へのクエリを可能にし得る。クエリは、ユーザによって入力されたキーワードに基づいてよい。クエリは、所与の時間窓内の且つ/又はユーザによって指定された地理的エリア内の物体又はイベントに基づいてよい。一実施例では、知識ベースへのクエリが、映像フィード内のユーザ指定の物体と分類された物体のうちの1以上との間の類似性に基づいてよい。例えば、矢印701によって示されているように、ユーザは、自動車を指定し、映像フィード内で指定された自動車と視覚的に類似する自動車を検索するために、「類似発見(Find Similar)」を選択することができる。
【0041】
図8は、本開示の例示的な実施態様による、インテリジェントな映像解析の方法における様々な動作のフローチャートを示している。図示されているように、ブロック801では、方法800が、映像フィードを受け取ることを含む。ブロック802では、該方法が、映像フィードが受け取られた際に、映像フィードをリアルタイムで処理することを含む。
【0042】
一実施例では、ブロック802における動作が、サブブロック8021、8022、8023、及び8024において示されているように、4つのステップに更に分割されてよい。サブブロック8021では、方法800が、映像フィード内の物体を検出し分類するために、映像フィードに対して物体検出及び認識を実行し、物体のうちの少なくとも一部の活動を検出し分類するために、活動認識を実行し、映像フィード内の分類された物体と分類された活動を出力することを含む。サブブロック8022では、該方法が、分類された物体と活動から、映像フィードを表現する自然言語テキストを生成することを含む。サブブロック8023では、該方法が、分類された物体を表す頂点と、頂点を接続し、分類された物体の間の意味的関係であって、少なくとも一部が分類された活動のうちのそれぞれに対応する意味的関係を表す辺と、を有するグラフを含む、意味ネットワークを生成することを含む。サブブロック8024では、該方法が、映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークを、知識ベース内に記憶することを含む。
【0043】
ブロック803では、方法800が、知識ベースへのクエリ、並びに、映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークの選択の提示を可能にするように構成された、グラフィカルユーザインターフェース(GUI)1041を生成することを含む。
【0044】
本開示の例示的な実施態様によれば、システム100、並びに、データ受け取りモジュール101、映像解析モジュール102、知識ベース103、及び映像探索モジュール104を含む、その複数のサブシステムは、様々な手段によって実装されてよい。システム及びそのサブシステムを実装するための手段は、単独の、又は、コンピュータ可読記憶媒体からの1以上のコンピュータプログラムの指示に従う、ハードウェアを含み得る。幾つかの例では、1以上の装置が、本明細書で図示され説明されているシステム及びそのサブシステムとして機能するか、そうでなければそれらを実装するよう構成され得る。2以上の装置を含む例では、それぞれの装置は、幾つかの異なる様態で(例えば直接的に、又は、有線若しくは無線のネットワークなどを介して間接的に)、互いに接続され得るか又は別様に互いに通信可能であり得る。
【0045】
図9は、一部の例示的な実施態様による、装置900を示している。概して、本開示の例示的な実施態様の装置は、1以上の固定的な若しくは携帯式の電子デバイスを備え得るか、かかる電子デバイスを含み得るか、又はかかる電子デバイスにおいて具現化され得る。好適な電子デバイスの例は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーションコンピュータ、サーバコンピュータなどを含む。装置は、1以上の、例えば、メモリ902(記憶デバイスなど)に接続されたプロセッサ901(例えば、処理回路)といった幾つかの構成要素の各々を含み得る。一部の実施例では、装置900が、システム100を実装する。
【0046】
プロセッサ901は、独立型の又は1以上のメモリと組み合わされた、1以上のプロセッサで構成され得る。プロセッサは、概して、情報(例えば、データ、コンピュータプログラム、及び/又はその他の好適な電子情報など)を処理することが可能な、任意のコンピュータハードウェアである。プロセッサは、電子回路の集合体で構成され、その一部は、1つの集積回路又は相互接続された複数の集積回路としてパッケージングされ得る(集積回路はより一般的には「チップ(chip)」と称されることもある)。プロセッサは、コンピュータプログラムを実行するよう構成されてよく、このコンピュータプログラムは、プロセッサに搭載された状態で記憶され得るか、又は別様に(同じ又は別の装置の)メモリ902内に記憶され得る。
【0047】
プロセッサ901は、特定の実施態様に応じて、幾つかのプロセッサ、1つのマルチプロセッサコア、又は他の何らかの種類のプロセッサであり得る。更に、プロセッサは、幾つかのヘテロジニアスプロセッサシステム(メインプロセッサが、1以上の二次プロセッサと共に単一のチップ上に存在している)を使用して実装され得る。別の実施例としては、プロセッサは、複数の同種のプロセッサを包含する、対称型マルチプロセッサシステムであり得る。更に別の実施例では、プロセッサは、1以上の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)などとして実施され得るか、そうでなければそれらを含み得る。故に、プロセッサは、1以上の機能を実施するためのコンピュータプログラムを実行することが可能であり得るが、様々な例のプロセッサは、コンピュータプログラムの支援がなくとも、1以上の機能を実施することが可能であり得る。何れの事例においても、プロセッサは、本開示の例示的な実施態様により機能又は動作を実施するよう、適切にプログラムされ得る。
【0048】
メモリ902は、概して、一時的且つ/又は恒久的に、例えば、データ、コンピュータプログラム(コンピュータ可読プログラムコード903など)、及び/又はその他の好適な情報といった、情報を記憶することが可能な、任意のコンピュータハードウェアである。メモリは、揮発性及び/又は不揮発性のメモリを含んでよく、且つ固定され得るか又は取り外し可能であり得る。好適なメモリの例は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、ハードドライブ、フラッシュメモリ、サムドライブ、取り外し可能コンピュータディスケット、光ディスク、磁気テープ、又はこれらの何らかの組み合わせを含む。光ディスクは、コンパクトディスク‐リードオンリーメモリ(CD-ROM)、コンパクトディスク‐リード/ライト(CD-R/W)、DVDなどを含み得る。様々な事例において、メモリは、コンピュータ可読記憶媒体と称され得る。コンピュータ可読記憶媒体は、情報を記憶することが可能な非一過性デバイスであり、コンピュータ可読伝送媒体(ある場所から別の場所へと情報を運ぶことが可能な一過性の電子信号など)とは区別され得る。本明細書に記載のコンピュータ可読媒体は、概して、コンピュータ可読記憶媒体又はコンピュータ可読伝送媒体を指し得る。
【0049】
メモリ902に加えて、プロセッサ901もまた、情報を表示し、送信し、且つ/又は受信するための、1つ以上のインターフェースに接続されていてよい。このインターフェースは、通信インターフェース904(例えば、通信ユニット)、及び/又は1以上のユーザインターフェースを含み得る。通信インターフェースは、例えば、他の装置(複数可)やネットワーク(複数可)などとの間で、情報を送信及び/又は受信するよう構成され得る。通信インターフェースは、物理的な(有線の)及び/又は無線の通信リンクにより情報を送信及び/又は受信するように構成され得る。適切な通信インターフェースの実施例は、ネットワークインターフェースコントローラ(NIC)、無線NIC(WNIC)などを含む。
【0050】
ユーザインターフェースは、ディスプレイ906及び/又は1以上のユーザ入力インターフェース905(例えば、入/出力ユニット)を含み得る。ディスプレイは、ユーザに情報を提示するか、又は別様に表示するよう構成されてよく、その好適な例は、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、プラズマディスプレイパネル(PDP)などを含む。ユーザ入力インターフェースは、有線又は無線であってよく、且つ、例えば、処理、記憶、及び/又は表示のための装置内にユーザからの情報を受信するよう構成され得る。ユーザ入力インターフェースの適切な例は、マイク、画像又は動画の捕捉デバイス、キーボード又はキーパッド、ジョイスティック、タッチ感応型サーフェス(タッチスクリーンとは別個の、又はタッチスクリーンに統合されたもの)、生体認証センサなどを含む。ユーザインターフェースは、周辺機器(例えばプリンタやスキャナなど)と通信するための、1以上のインターフェースを更に含み得る。一部の例では、ユーザインターフェースはGUI1041を含む。
【0051】
上述したように、プログラムコード指示命令は、本明細書に記載のシステム、サブシステム、ツール、及びそれらの各々の要素の機能を実装するために、メモリに記憶され、プロセッサ(プログラムコード指示命令によってプログラムされる)によって実行され得る。認識されることであるが、ある特定の機械を、本明細書で特定されている機能を実装するための手段となるようにするために、任意の好適なプログラムコード指示命令が、コンピュータ可読記憶媒体からコンピュータ又はその他のプログラマブル装置に読み込まれ得る。これらのプログラムコード指示命令はコンピュータ可読記憶媒体に記憶されてもよく、コンピュータ可読記憶媒体は、コンピュータ、プロセッサ、又はその他のプログラマブル装置に特定の様態で機能するよう指示することにより、ある特定の機械又は製造品を作り出すことが可能である。コンピュータ可読記憶媒体に記憶された指示命令により、製造品が作り出されてよく、この製造品が、本明細書に記載の機能を実装するための手段となる。プログラムコード指示命令は、コンピュータ、プロセッサ、又はその他のプログラマブル装置上で又はコンピュータ、プロセッサ、又はその他のプログラマブル装置によって実施されるべき動作を実行するよう、かかるコンピュータ、プロセッサ、又はその他のプログラマブル装置を構成するために、コンピュータ可読記憶媒体から読み出され、且つ、かかるコンピュータ、プロセッサ、又はその他のプログラマブル装置に読み込まれ得る。
【0052】
プログラムコード指示命令の読み出し、読み込み、及び実行は、一度に1つの命令が読み出され、読み込まれ、且つ実行されるように、連続的に実施され得る。一部の例示的な実施態様では、複数の命令をまとめて読み出し、読み込み、且つ/又は実行するように、読み出し、読み込み、及び/又は実行が、並行して実施されることもある。コンピュータ、プロセッサ、又はその他のプログラマブル装置によって実行される命令が、本明細書に記載の機能を実装するための動作を提供するように、プログラムコード指示命令の実行により、コンピュータ実装型プロセスが生成され得る。
【0053】
更に、本開示は、以下の条項に係る実施形態を含む。
条項1.
プロセッサ(901)及びメモリ(902)を備えた装置(900)であって、前記メモリが、実行可能な指示命令であって、前記プロセッサによって実行されたことに応答して、前記装置に、
映像フィードを受け取ることと、
前記映像フィードが受け取られた際に、前記映像フィードをリアルタイムで処理することと、
知識ベースへのクエリ、並びに、前記映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークの選択の提示を可能にするように構成された、グラフィカルユーザインターフェース(GUI)(1041)を生成することとを実行させる、指示命令を記憶し、
前記映像フィードをリアルタイムで処理することが、
前記映像フィード内の物体を検出し分類するために、前記映像フィードに対して物体検出及び認識を実行し、前記物体のうちの少なくとも一部の活動を検出し分類するために、活動認識を実行し、前記映像フィード内の前記分類された物体と前記分類された活動を出力すること、
前記分類された物体と活動から、前記映像フィードを表現する自然言語テキストを生成すること、
前記分類された物体を表す頂点と、前記頂点を接続し、前記分類された物体の間の意味的関係であって、少なくとも一部が前記分類された活動のうちのそれぞれに対応する意味的関係を表す辺と、を有するグラフを含む、意味ネットワークを生成すること、並びに
前記映像フィード、前記分類された物体と前記分類された活動、前記自然言語テキスト、及び前記意味ネットワークを、前記知識ベース内に記憶することを含む、装置(900)。
条項2.
前記装置に、前記映像フィードを受け取ることを実行させることが、複数のソースから前記映像フィードを受け取ることを実行させることを含み、前記複数のソースのうちの少なくとも一部が、移動しているソースである、条項1に記載の装置(900)。
条項3.
前記装置に、前記映像フィードを処理することを実行させることが、更に、
前記分類された物体であって、それぞれの地理的位置を有し、任意の移動しているもののそれぞれの軌跡を含む前記分類された物体を地理登録することを実行させることを含み、
前記GUI(1041)が、前記映像フィード内の光景の航空画像又はマップであって、前記航空画像又は前記マップ上で、前記分類された物体であって、前記それぞれの地理的位置における、前記移動しているものの前記それぞれの軌跡を有する前記分類された物体を特定する、航空画像又はマップを提示するように更に構成されている、条項1又は2に記載の装置(900)。
条項4.
前記装置に、物体検出及び認識を実行することを実行させることが、前記分類された物体にそれぞれの特有の識別子を割り当てることを実行させることを含み、前記GUI(1041)内の前記映像フィードの前記選択の提示が、前記映像フィード上で、前記それぞれの特有の識別子を含む前記分類された物体を特定することを含む、条項1から3のいずれか一項に記載の装置(900)。
条項5.
前記物体のうちの少なくとも一部が、移動している物体であり、前記装置に、物体検出及び認識を実行することを実行させることが、動き補償、背景減算、及び畳み込みニューラルネットワークを使用して、前記移動している物体を検出し分類することを実行させることを含む、条項1から4のいずれか一項に記載の装置(900)。
条項6.
前記装置に、活動認識を実行することを実行させることが、前記分類された物体のうちの単一のものだけ、前記分類された物体のうちの複数のもの、又は前記分類された物体のうちの1以上と前記映像フィード内の地理的エリアとの間の相互作用を含むとして、前記活動のうちの少なくとも一部を検出し分類することを実行させることを含む、条項1から5のいずれか一項に記載の装置(900)。
条項7.
前記装置に、前記GUI(1041)を生成することを実行させることが、前記映像フィード内のユーザ指定の物体と前記分類された物体のうちの1以上との間の類似性に基づいて、前記知識ベースへのクエリを可能にするように構成された前記GUIを生成することを実行させることを含む、条項1から6のいずれか一項に記載の装置(900)。
条項8.
インテリジェントな映像解析の方法(800)であって、
映像フィードを受け取ること(801)と、
前記映像フィードが受け取られた際に、前記映像フィードをリアルタイムで処理すること(802)と、
知識ベースへのクエリ、並びに、前記映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークの選択の提示を可能にするように構成された、グラフィカルユーザインターフェース(GUI)(1041)を生成すること(803)とを含み、
前記映像フィードをリアルタイムで処理すること(802)が、
前記映像フィード内の物体を検出し分類するために、前記映像フィードに対して物体検出及び認識を実行し、前記物体のうちの少なくとも一部の活動を検出し分類するために、活動認識を実行し、前記映像フィード内の前記分類された物体と前記分類された活動を出力すること(8021)、
前記分類された物体と活動から、前記映像フィードを表現する自然言語テキストを生成すること(8022)、
前記分類された物体を表す頂点と、前記頂点を接続し、前記分類された物体の間の意味的関係であって、少なくとも一部が前記分類された活動のうちのそれぞれに対応する意味的関係を表す辺と、を有するグラフを含む、意味ネットワークを生成すること(8023)、並びに
前記映像フィード、前記分類された物体と前記分類された活動、前記自然言語テキスト、及び前記意味ネットワークを、前記知識ベース内に記憶すること(8024)を含む、方法(800)。
条項9.
前記映像フィードを受け取ること(801)が、複数のソースから前記映像フィードを受け取ることを含み、前記複数のソースのうちの少なくとも一部が、移動しているソースである、条項8に記載の方法(800)。
条項10.
前記映像フィードを処理すること(802)が、前記分類された物体であって、それぞれの地理的位置を有し、任意の移動しているもののそれぞれの軌跡を含む前記分類された物体を地理登録することを更に含み、
前記GUI(1041)が、前記映像フィード内の光景の航空画像又はマップであって、前記航空画像又はマップ上で、前記分類された物体であって、前記それぞれの地理的位置における、前記移動しているものの前記それぞれの軌跡を有する前記分類された物体を特定する、航空画像又はマップを提示するように更に構成されている、条項8又は9に記載の方法(800)。
条項11.
前記物体検出及び認識を実行すること(8021)が、前記分類された物体にそれぞれの特有の識別子を割り当てることを含み、前記GUI(1041)内の前記映像フィードの前記選択の提示が、前記映像フィード上で、前記それぞれの特有の識別子を含む前記分類された物体を特定することを含む、条項8から10のいずれか一項に記載の方法(800)。
条項12.
前記物体のうちの少なくとも一部が、移動している物体であり、前記物体検出及び認識を実行すること(8021)が、動き補償、背景減算、及び畳み込みニューラルネットワークを使用して、前記移動している物体を検出し分類することを含む、条項8から11のいずれか一項に記載の方法(800)。
条項13.
前記活動認識を実行すること(8021)が、前記分類された物体のうちの単一のものだけ、前記分類された物体のうちの複数のもの、又は前記分類された物体のうちの1以上と前記映像フィード内の地理的エリアとの間の相互作用を含むとして、前記活動のうちの少なくとも一部を検出し分類することを含む、条項8から12のいずれか一項に記載の方法(800)。
条項14.
前記GUI(1041)を生成することが、前記映像フィード内のユーザ指定の物体と前記分類された物体のうちの1以上との間の類似性に基づいて、前記知識ベースへのクエリを可能にするように構成された前記GUIを生成することを含む、条項8から13のいずれか一項に記載の方法(800)。
条項15.
コンピュータ可読プログラムコード(903)が記憶された非一過性のコンピュータ可読記憶媒体(902)であって、前記コンピュータ可読プログラムが、プロセッサ(901)によって実行されたことに応答して、装置(900)に
映像フィードを受け取ることと、
前記映像フィードが受け取られた際に、前記映像フィードをリアルタイムで処理することと、
知識ベースへのクエリ、並びに、前記映像フィード、分類された物体と分類された活動、自然言語テキスト、及び意味ネットワークの選択の提示を可能にするように構成された、グラフィカルユーザインターフェース(GUI)(1041)を生成することとを実行させ、
前記映像フィードをリアルタイムで処理することが、
前記装置に、前記映像フィード内の物体を検出し分類するために、前記映像フィードに対して物体検出及び認識を実行し、前記物体のうちの少なくとも一部の活動を検出し分類するために、活動認識を実行し、前記映像フィード内の前記分類された物体と前記分類された活動を出力すること、
前記分類された物体と活動から、前記映像フィードを表現する自然言語テキストを生成すること、
前記分類された物体を表す頂点と、前記頂点を接続し、前記分類された物体の間の意味的関係であって、少なくとも一部が前記分類された活動のうちのそれぞれに対応する意味的関係を表す辺と、を有するグラフを含む、意味ネットワークを生成すること、並びに
前記映像フィード、前記分類された物体と前記分類された活動、前記自然言語テキスト、及び前記意味ネットワークを、前記知識ベース内に記憶することを含む、コンピュータ可読記憶媒体(902)。
条項16.
前記装置(900)に、前記映像フィードを受け取ることを実行させることが、複数のソースから前記映像フィードを受け取ることを実行させることを含み、前記複数のソースのうちの少なくとも一部が、移動しているソースである、条項15に記載のコンピュータ可読記憶媒体(902)。
条項17.
前記装置(900)に、前記映像フィードを処理することを実行させることが、更に、
前記分類された物体であって、それぞれの地理的位置を有し、任意の移動しているもののそれぞれの軌跡を含む前記分類された物体を地理登録することを実行させることを含み、
前記GUI(1041)が、前記映像フィード内の光景の航空画像又はマップであって、前記航空画像又は前記マップ上で、前記分類された物体であって、前記それぞれの地理的位置における、前記移動しているものの前記それぞれの軌跡を有する前記分類された物体を特定する、航空画像又はマップを提示するように更に構成されている、条項15又は16に記載のコンピュータ可読記憶媒体(902)。
条項18.
前記装置(900)に、物体検出及び認識を実行することを実行させることが、前記分類された物体にそれぞれの特有の識別子を割り当てることを実行させることを含み、前記GUI(1041)内の前記映像フィードの前記選択の提示が、前記映像フィード上で、前記それぞれの特有の識別子を含む前記分類された物体を特定することを含む、条項15から17のいずれか一項に記載のコンピュータ可読記憶媒体(902)。
条項19.
前記物体のうちの少なくとも一部が、移動している物体であり、前記装置(900)に、物体検出及び認識を実行することを実行させることが、動き補償、背景減算、及び畳み込みニューラルネットワークを使用して、前記移動している物体を検出し分類することを実行させることを含む、条項15から18のいずれか一項に記載のコンピュータ可読記憶媒体(902)。
条項20.
前記装置(900)に、活動認識を実行することを実行させることが、前記分類された物体のうちの単一のものだけ、前記分類された物体のうちの複数のもの、又は前記分類された物体のうちの1以上と前記映像フィード内の地理的エリアとの間の相互作用を含むとして、前記活動のうちの少なくとも一部を検出し分類することを実行させることを含む、条項15から19のいずれか一項に記載のコンピュータ可読記憶媒体(902)。
条項21.
前記装置(900)に、前記GUI(1041)を生成することを実行させることが、前記映像フィード内のユーザ指定の物体と前記分類された物体のうちの1以上との間の類似性に基づいて、前記知識ベースへのクエリを可能にするように構成された前記GUIを生成することを実行させることを含む、条項15から20のいずれか一項に記載のコンピュータ可読記憶媒体(902)。
【0054】
プロセッサによる指示命令の実行、又はコンピュータ可読記憶媒体における指示命令の記憶により、特定の機能を実施するための動作の組み合わせがサポートされる。このやり方では、装置900は、プロセッサ901と、プロセッサに接続されたコンピュータ可読記憶媒体又はメモリ902とを含んでよく、プロセッサは、メモリ内に記憶されたコンピュータ可読プログラムコード903を実行するよう構成されている。1以上の機能及び機能の組み合わせは、特殊用途ハードウェアベースのコンピュータシステム及び/若しくは特定の機能を実施するプロセッサ、又は特殊用途ハードウェアとプログラムコード指示命令との組み合わせによって実装され得ることも、理解されよう。
【0055】
[0001] 上述の説明及び関連図面に提示されている教示の恩恵を受ける、本開示に関連する当業者には、本明細書に明記された本開示の多数の改変例及びその他の実施態様が想起されよう。したがって、本開示は開示されている特定の実施態様に限定されるものではないこと、及び、改変例及びその他の実施態様も付随する特許請求の範囲に含まれることが意図されていることを、理解されたい。更に、上述の説明及び関連図面は、要素及び/又は機能の特定の例示的な組み合わせに照らして例示的な実施態様を説明しているが、付随する特許請求の範囲から逸脱しなければ、代替的な実施態様によって、要素及び/又は機能の様々な組み合わせが提供され得ることを、認識すべきである。つまり、付随する特許請求の範囲の一部に明記され得るように、例えば、明示的に上述されているものと異なる要素及び/又は機能の組み合わせも想定される。本明細書では特定の用語が用いられているが、それらは、一般的且つ解説的な意味でのみ使用されており、限定を目的とするものではない。