(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-05
(45)【発行日】2022-09-13
(54)【発明の名称】ライブ・ビデオ・フィードにおける自動的なオブジェクトおよびアクティビティの追跡
(51)【国際特許分類】
H04N 7/18 20060101AFI20220906BHJP
G06T 7/00 20170101ALI20220906BHJP
【FI】
H04N7/18 D
G06T7/00 350C
【外国語出願】
(21)【出願番号】P 2017200211
(22)【出願日】2017-10-16
【審査請求日】2020-10-12
(32)【優先日】2016-12-09
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】500520743
【氏名又は名称】ザ・ボーイング・カンパニー
【氏名又は名称原語表記】The Boeing Company
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(74)【代理人】
【識別番号】100163522
【氏名又は名称】黒田 晋平
(74)【代理人】
【識別番号】100154922
【氏名又は名称】崔 允辰
(72)【発明者】
【氏名】ジャン・ウェイ・パン
(72)【発明者】
【氏名】ユーリ・レヴチュク
(72)【発明者】
【氏名】ザカリー・ジョーゲンセン
【審査官】大濱 宏之
(56)【参考文献】
【文献】特開2015-176227(JP,A)
【文献】特開2004-280376(JP,A)
【文献】韓国公開特許第10-2016-0096966(KR,A)
【文献】米国特許出願公開第2015/0248917(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/18
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のための装置(500)であって、
プロセッサ(502)と、
前記プロセッサ(502)による実行に応答して、前記装置(500)に少なくとも、
ライブ・ビデオ・フィードを受信
することと、
複数のオブジェクトおよびアクティビティのうち少なくとも1つのオブジェクトまたはアクティビティに関する情報の要求を指定するユーザ入力を受信することと、
前記ライブ・ビデオ・フィード内の複数のオブジェクトおよび
アクティビティを識別し、
かつ前記識別された前記複数のオブジェクトおよびアクティビティを用いて前記ライブ・ビデオ・フィードのストーリ展開を記述する自然言語テキストを生成
するために前記ライブ・ビデオ・フィードを処理することであって、
前記複数のオブジェクトおよびアクティビティを記述する情報の対応するデータベースを生成することと、
前記ユーザ入力に応答して、
前記要求に基づいて前記データベースを問い合わせることと、
前記要求に応答して自然言語テキストを表示のために生成しかつ出力することと
を含み、前記ライブ・ビデオ・フィードは、コンピュータ・ビジョン、自然言語処理および機械学習、および識別可能オブジェクトとアクティビティの一覧を用いて処理される、処理することと、
前記自然言語テキストを前記ライブ・ビデオ・フィードの
表示とともに可聴的にまたは視覚的に出力
することと
を行わせる実行可能命令を格納するメモリ(504)と
を備え
る、装置。
【請求項2】
前記メモリ(504)は、前記プロセッサ(502)による実行に応答して、前記装置(500)に少なくとも、
関心のあるオブジェクトまたは関心のあるアクティビティを規定するユーザ入力を受信
することと、
前記ライブ・ビデオ・フィードを処理して、前記複数のオブジェクトおよびアクティビティ内の前記関心のあるオブジェクトまたは前記関心のあるアクティビティをさらに識別
することと、
前記ライブ・ビデオ・フィード内の前記関心のあるオブジェクトを時間空間的に追跡し、または前記ライブ・ビデオ・フィード内の前記関心のあるアクティビティの識別を示すための警告を生成
することと
を行わせる実行可能命令をさらに格納する、請求項
1に記載の装置。
【請求項3】
前記自然言語テキストを生成する
ことは、前記自然言語テキストをフィルタし、それにより前記関心のあるオブジェクトまたは前記関心のあるアクティビティにのみ関連する前記ストーリ展開をフィルタする
ことを含む、請求項
2に記載の装置。
【請求項4】
前記ライブ・ビデオ・フィードを処理
することは少なくとも、
前記複数のオブジェクトおよびアクティビティからの少なくとも2つの予め定義されたオブジェクトまたはアクティビティの識別に基づいて将来の関心のある結果を予測
することと、
前記予測された前記将来の関心のある結果を示す警告を生成する
ことと
を含む、請求項1
~3のいずれか一項に記載の装置。
【請求項5】
前記将来の関心のある結果を予測
することは、前記ライブ・ビデオの現在のフレーム内の前記少なくとも2つの予め定義されたオブジェクトまたはアクティビティのうち少なくとも1つ、および前記ライブ・ビデオの前記現在のフレームまたは後続フレーム内の前記少なくとも2つの予め定義されたオブジェクトまたはアクティビティの別のものを少なくとも識別
することを含む、請求項
4に記載の装置。
【請求項6】
ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のための方法(400)であって、
ライブ・ビデオ・フィードを受信するステップ(402)と、
複数のオブジェクトおよびアクティビティのうち少なくとも1つのオブジェクトまたはアクティビティに関する情報の要求を指定するユーザ入力を受信するステップと、
前記ライブ・ビデオ・フィード内の複数のオブジェクトおよび
アクティビティを識別し、
前記識別された前記複数のオブジェクトおよびアクティビティを用いて前記ライブ・ビデオ・フィードのストーリ展開を記述する自然言語テキストを生成する
ために前記ライブ・ビデオ・フィードを処理するステップであって、
前記複数のオブジェクトおよびアクティビティを記述する情報の対応するデータベースを生成するステップと、
前記ユーザ入力に応答して、
前記要求に基づいて前記データベースを問い合わせるステップと、
前記要求に応答して自然言語テキストを表示のために生成しかつ出力するステップと
を含み、前記ライブ・ビデオ・フィードは、コンピュータ・ビジョン、自然言語処理および機械学習、および識別可能オブジェクトとアクティビティの
一覧を用いて処理される、ステップ(404)と、
前記自然言語テキストを可聴的にまたは視覚的に前記ライブ・ビデオ・フィードの
表示とともに出力するステップ(406)と
を含む、方法。
【請求項7】
関心のあるオブジェクトまたは関心のあるアクティビティを規定するユーザ入力を受信するステップと、
前記ライブ・ビデオ・フィードを処理して、前記複数のオブジェクトおよびアクティビティ内の前記関心のあるオブジェクトまたは前記関心のあるアクティビティをさらに識別するステップと、
前記ライブ・ビデオ・フィード内の前記関心のあるオブジェクトを時間空間的に追跡するか、または、前記ライブ・ビデオ・フィード内の前記関心のあるアクティビティの識別を示すための警告を生成するステップと
をさらに含む、請求項
6に記載の方法。
【請求項8】
前記自然言語テキストを生成するステップは、前記自然言語テキストをフィルタし、それにより前記関心のあるオブジェクトまたは前記関心のあるアクティビティにのみ関連する前記ストーリ展開をフィルタするステップを含む、請求項
7に記載の方法。
【請求項9】
前記ライブ・ビデオ・フィードを処理するステップは、
前記複数のオブジェクトおよびアクティビティからの少なくとも2つの予め定義されたオブジェクトまたはアクティビティの識別に基づいて将来の関心のある結果を予測するステップと、
そのように予測された前記将来の関心のある結果を示す警告を生成するステップと、
を含む、請求項
6~8のいずれか一項に記載の方法。
【請求項10】
前記将来の関心のある結果を予測するステップは、前記ライブ・ビデオの現在のフレーム内の前記少なくとも2つの予め定義されたオブジェクトまたはアクティビティのうち少なくとも1つ、および前記ライブ・ビデオの前記現在のフレームまたは後続フレーム内の前記少なくとも2つの予め定義されたオブジェクトまたはアクティビティの別のものを識別するステップを含む、請求項
9に記載の方法。
【請求項11】
ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のためのコンピュータ可読記憶媒体(504)であって、プロセッサ(502)による実行に応答して、装置に少なくとも、
ライブ・ビデオ・フィードを受信
することと、
複数のオブジェクトおよびアクティビティのうち少なくとも1つのオブジェクトまたはアクティビティに関する情報の要求を指定するユーザ入力を受信することと、
前記ライブ・ビデオ・フィード内の複数のオブジェクトおよび
アクティビティを識別し、
かつ前記識別された前記複数のオブジェクトおよびアクティビティを用いて前記ライブ・ビデオ・フィードのストーリ展開を記述する自然言語テキストを生成
するために前記ライブ・ビデオ・フィードを処理することであって、
前記複数のオブジェクトおよびアクティビティを記述する情報の対応するデータベースを生成することと、
前記ユーザ入力に応答して、
前記要求に基づいて前記データベースを問い合わせることと、
前記要求に応答して自然言語テキストを表示のために生成しかつ出力することと
を含み、前記ライブ・ビデオ・フィードは、コンピュータ・ビジョン、自然言語処理および機械学習、および識別可能オブジェクトとアクティビティの一覧を用いて処理される、処理することと、
前記自然言語テキストを前記ライブ・ビデオ・フィードの
表示とともに可聴的にまたは視覚的に出力
することと
を行わせるコンピュータ可読プログラムコード(506)を格納
する、コンピュータ可読記憶媒体(504)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は一般にオブジェクトおよびアクティビティの追跡に関し、特に、ライブ・ビデオ・フィード内のオブジェクトおよびアクティビティのストーリ展開を追跡し記述することに関する。
【背景技術】
【0002】
現在、より洗練されたビデオ監視システムの需要が増大している。この需要は主に、セキュリティ能力を高めるだけでなく、そのビジネス運営を改善することに関する状況認識を高めるために監視ビデオを使用することを求める組織により動機づけられている。例えば、小売業者および顧客と対峙するブランチのネットワーク・オペレータは、ビデオからの洞察を利用して、それらの動作を最適化し、顧客の振舞いをより良く理解する。別の例では、空港、駅および他の大量輸送機関のオペレータはビデオを監視して人の交通量を促進し、運営上の事故を検出し、予測的モデリングを使用してそれらの運営を最適化する。
【0003】
ビデオ監視システムの取付けが高速に増大すると、当該監視システムに対する既存のオペレータ・チームは、生成されている大量のビデオ・データを効率的に処理し維持できず、大量の見られていないビデオ映像につながりうる。結果として、大抵のビデオ監視の設置は、事象の後の法医学的目的および証拠の目的のために使用されるにすぎない。ビデオ監視映像に関連する洞察を最大化するために、人間のアナリストが、疑わしい振舞い、オブジェクト認識、トラフィック監視、事象検出、顔認識、安全性警告、アノマリ検出、およびクラウド・カウンティングのような活動向けにビデオを監視するために大量に利用されている。このビデオ処理の手動利用は実際上非効率的であり誤りが生じやすい。
【発明の概要】
【発明が解決しようとする課題】
【0004】
したがって、上述した課題ならびに他の課題のうち少なくとも幾つかを考慮するシステムと方法を有するのが望ましいであろう。
【課題を解決するための手段】
【0005】
本開示の例示的な実装は、ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のための改善された装置、方法およびコンピュータ可読記憶媒体に関する。幾つかの例示的な実装では、ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のための方法が提供される。当該方法はライブ・ビデオ・フィードを受信するステップを含む。当該方法はまた、当該ライブ・ビデオ・フィードを処理して複数のオブジェクトおよびその中のアクティビティを識別し、そのように識別された当該複数のオブジェクトおよびアクティビティを用いて当該ライブ・ビデオ・フィードのストーリ展開を記述する自然言語テキストを生成するステップを含む。当該ライブ・ビデオ・フィードは、コンピュータ・ビジョン、自然言語処理および機械学習、および識別可能オブジェクトとアクティビティのカタログを用いて処理される。当該方法はまた、当該自然言語テキストを可聴的にまたは視覚的に当該ライブ・ビデオ・フィードのディスプレイで出力するステップを含む。
【0006】
先行するまたは任意の後続の例示的な実装の方法、またはその任意の組合せの幾つかの例示的な実装では、当該方法はさらに、当該カタログ内の対応するオブジェクトおよびアクティビティを、当該複数のオブジェクトおよびアクティビティのうち少なくとも幾つかの属性で更新するステップを含めて、当該機械学習を用いて、識別可能オブジェクトおよびアクティビティの当該カタログを維持するステップを含む。
【0007】
任意の先行するまたは任意の後続の例示的な実装の方法、またはその任意の組合せの幾つかの例示的な実装では、当該方法はさらに、関心のあるオブジェクトまたは関心のあるアクティビティを規定するユーザ入力を受信するステップと、当該ライブ・ビデオ・フィードを処理して、当該複数のオブジェクトおよびアクティビティ内の当該関心のあるオブジェクトまたは当該関心のあるアクティビティをさらに識別するステップと、当該ライブ・ビデオ・フィード内の当該関心のあるオブジェクトを時間空間的に追跡するか、または当該ライブ・ビデオ・フィード内の当該関心のあるアクティビティの識別を示すための警告を生成するステップとを含む。
【0008】
任意の先行するまたは任意の後続の例示的な実装の方法、またはその任意の組合せの幾つかの例示的な実装では、当該自然言語テキストを生成するステップは、当該自然言語テキストをフィルタし、それにより当該関心のあるオブジェクトまたは当該関心のあるアクティビティにのみ関連する当該ストーリ展開をフィルタするステップを含む。
【0009】
任意の先行するまたは任意の後続の例示的な実装の方法、またはその任意の組合せの幾つかの例示的な実装では、当該ライブ・ビデオ・フィードを処理するステップはさらに、当該複数のオブジェクトおよびアクティビティを記述する情報の対応するデータベースを生成するステップを含み、当該方法はさらに当該複数のオブジェクトおよびアクティビティのうち少なくとも1つのオブジェクトまたはアクティビティに関する情報の要求を指定するユーザ入力を受信するステップを含む。それに応答して、当該方法は、当該要求に基づいて当該データベースを問い合わせるステップと、当該要求に応答して自然言語テキストを表示のために生成し出力するステップとを含む。
【0010】
任意の先行するまたは任意の後続の例示的な実装の方法、またはその任意の組合せの幾つかの例示的な実装では、当該ライブ・ビデオ・フィードを処理して当該複数のオブジェクトおよびアクティビティを識別するステップは、当該複数のオブジェクトおよびアクティビティからの少なくとも2つの予め定義されたオブジェクトまたはアクティビティの識別に基づいて将来の関心のある結果を予測するステップと、そのように予測された当該将来の関心のある結果を示す警告を生成するステップとを含む。
【0011】
任意の先行するまたは任意の後続の例示的な実装の方法、またはその任意の組合せの幾つかの例示的な実装では、当該将来の関心のある結果を予測するステップは、当該ライブ・ビデオの現在のフレーム内の当該少なくとも2つの予め定義されたオブジェクトまたはアクティビティのうち少なくとも1つ、および当該ライブ・ビデオの当該現在のフレームまたは後続フレーム内の当該少なくとも2つの予め定義されたオブジェクトまたはアクティビティの別のものを識別するステップを含む。
【0012】
幾つかの例示的な実装では、ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のための装置が提供される。当該装置は、プロセッサと、当該プロセッサによる実行に応答して、当該装置に、任意の先行する例示的な実装、またはその任意の組合せの方法を少なくとも実施するように構成される受信機、識別子、およびテキスト生成器のような幾つかのサブシステムを実施させる実行可能命令格納するメモリとを備える。
【0013】
幾つかの例示的な実装では、ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のためのコンピュータ可読記憶媒体が提供される。当該コンピュータ可読記憶媒体は、非一時的であり、プロセッサによる実行に応答して、装置に少なくとも任意の先行する例示的な実装、またはその任意の組合せの方法を実施させるコンピュータ可読プログラムコード部分を格納する。
【0014】
本開示のこれらのおよび他の特徴、態様、および利点は以下の詳細な説明を添付図面とともに読むと明らかになろう。これらを以下で説明する。本開示は、本開示で説明した2つの、3つの、4つ以上の特徴または要素の任意の組合せを、かかる特徴または要素が本明細書で説明した特定の例示的な実装において明示的に結合されたまたはそうでなければ記載されたかどうかに関わらず、含む。本開示は、本開示の任意の分離可能な特徴または要素が、その態様および例示的な実装の何れかにおいて、本開示の文脈で明記しない限り、意図した通りに参照される、即ち、結合可能であるように、総体的に読まれることを意図している。
【0015】
したがって、この簡単な要約は、幾つかの本開示の諸態様の基本的な理解を提供するために幾つかの例示的な実装を要約する目的で提供されるにすぎないことは理解される。したがって、上述の例示的な実装は例にすぎず、本開示の範囲または趣旨を決して狭めるものと解釈すべきではないことは理解される。他の例示的な実装、態様および利点は、以下の詳細な説明を当該添付図面と関連して検討することから明らかになろう。当該添付図面は、例として、説明された幾つかの例示的な実装の原理を示す。
【0016】
本開示の例示的な実装を一般的な言葉で説明したので、次に添付図面を参照する。添付図面は必ずしも正しい縮尺で描かれていない。
【図面の簡単な説明】
【0017】
【
図1】本開示の例示的な実装に従う、ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のためのシステムの図である。
【
図2】幾つかの例示的な実装に従う
図1の適切な識別子を示す図である。
【
図3】幾つかの例示的な実装に従う適切なライブ・ビデオ・フィードおよび対応するテキストディスプレイを示す図である。
【
図4】例示的な実装に従う、ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のための方法の様々な動作を示す流れ図である。
【
図5】幾つかの例示的な実装に従う装置を示す図である。
【発明を実施するための形態】
【0018】
次に、本開示の幾つかの実装を、当該添付図面を参照して以降でより完全に説明する。添付図面では、本開示の全てではないが幾つかの実装が示される。実際、本開示の様々な実装を多くの異なる形態で具体化してもよく、本明細書で説明する実装に限定されるとして解釈されるべきではない。むしろ、これらの例示的な実装は、その結果本開示が徹底的かつ完全であり、本開示の範囲を当業者に十分に提供するように、提供される。例えば、特に断らない限り、第1の、第2の等として何かを参照することを、特定の順序を示唆するとして解釈すべきではない。また、例えば、本明細書では参照が定量的測定値、値、関係等に対して行われてもよい。特に断らない限り、これらの全てではないにしても任意の1つまたは複数はが、技術的許容値等に起因するもののような、発生しうる許容可能な変動を説明するために絶対的または近似的であってもよい。同じ参照番号は全体にわたって同じ要素を参照する。
【0019】
本開示の例示的な実装は一般にオブジェクトおよびアクティビティの追跡に関し、特に、ライブ・ビデオ・フィード内のオブジェクトおよびアクティビティのストーリ展開を追跡し記述することに関する。例示的な実装は主に、ビデオ監視および分析システムに関するアプリケーションと関連して説明される。しかし、航空宇宙業界内および航空宇宙業界外の他のアプリケーションのような多数の他のアプリケーションと関連して例示的な実装を利用してもよいことは理解されるべきである。
【0020】
本開示の例示的な実装はより詳細には、(例えば、ビデオカメラを介して)ビデオ・フィードを受信するように構成され、当該ビデオ・フィードで提示された様々なオブジェクトおよびアクティビティを、コンピュータ・ビジョン、自然言語処理、および機械学習モデルの組合せを用いて自動的に認識するようにトレーニングされたシステムに関する。システムは、人間オペレータにより指定されたユーザの入力または問合せを受信し、応答して、その人間に関心のあるオブジェクトまたはアクティビティを推論するように構成される。さらにユーザの問合せに基づいて、システムは、追跡および警告の目的のためにその識別プロセスを当該関心のあるオブジェクトおよびアクティビティに自動的にフォーカスするように構成される。システムはまた、当該ビデオ・フィードの複数のフレームにわたるそれらの時間空間的関係を追跡することにより、当該観察されたまたは識別されたオブジェクトおよびアクティビティを記述するリアルタイムに理解可能なストーリ展開を生成する。
【0021】
図1はライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のためのシステム100を示す。本明細書では、システム100を単に「システム」と称することもある。システムは、自動的に、または、直接的なオペレータ制御、またはその幾つかの組合せのもとで、幾つかの異なる機能または動作を実施するように構成される。幾つかの例では、システムは、その機能または動作の1つまたは複数を自動的に、即ち、オペレータにより直接制御されずに実施するように構成される。さらにまたはあるいは、幾つかの例では、システムは、その機能または動作の1つまたは複数を直接的なオペレータ制御のもとで実施するように構成される。
【0022】
本開示の例示的な実装に従うシステム100は、ライブ・ビデオ・フィード内のオブジェクトおよびアクティビティを追跡し、当該オブジェクトおよびアクティビティを記述するストーリ展開を生成するための様々な機能または動作を実施するように構成される。幾つかの例示的な実装では、システムはライブ・ビデオ・フィードを受信し処理するように構成される。これらの例示的な実装において、システムは当該ライブ・ビデオ・フィードを処理して複数のオブジェクトおよびその中のアクティビティを識別し、そのように識別された当該複数のオブジェクトおよびアクティビティを用いて当該ライブ・ビデオ・フィードのストーリ展開を記述する自然言語テキストを生成するように構成される。当該ライブ・ビデオ・フィードは、コンピュータ・ビジョン、自然言語処理および機械学習、および識別可能オブジェクトとアクティビティのカタログを用いて処理される。
【0023】
システムはついで、当該自然言語テキストを当該ライブ・ビデオ・フィードのディスプレイで可聴的にまたは視覚的に出力するように構成される。
【0024】
システム100は、1つまたは複数の機能または動作を実施するために互いに接続される幾つかの異なるサブシステムの各々(個々のシステム)のうち1つまたは複数を備えてもよい。
図1に示すように、幾つかの例では、システムは互いに接続される受信機102、識別子104、およびテキスト生成器106を含む。システムの一部として示されているが、当該受信機、識別子またはテキスト生成器は実際には互いと分離しているがシステムと通信してもよい。当該サブシステムの何れかが、当該サブシステムのその他のものと無関係に別個のシステムとして機能または動作してもよいことも理解されるべきである。さらに、システムは
図1に示すもの以外の1つまたは複数の追加のまたは代替的なサブシステムを含んでもよいことは理解されるべきである。
【0025】
以下でさらに詳細に説明するように、受信機102、識別子104およびテキスト生成器106はシステム100のそれぞれの機能または動作を実施するように構成される。幾つかの実装では、当該受信機はライブ・ビデオ・フィードを受信するように構成される。幾つかの例では、ユーザは、ライブ・ストリーム・リンクまたはビデオ・ファイルの何れかにより受け取られるためのライブ・ビデオのソースを規定する。当該識別子は、当該ライブ・ビデオ・フィードを処理して、複数のオブジェクトおよびその中のアクティビティを識別するように構成される。本明細書で論ずるように、当該受信機およびテキスト生成器はビデオ・トゥー・テキスト(またはキャプショニング)エンジンとして機能するように互いに動作可能に接続されてもよく、当該識別子およびテキスト生成器は、エンド・ツー・エンドのクエリおよび応答エンジンとして機能するように互いに動作可能に接続されてもよい。当該受信機は初期処理ユニットとして機能する。当該初期処理ユニットは、ライブ・ビデオ・ストリームまたはビデオ・ファイルを入力として受信し、当該ライブ・ビデオを個々の画像フレームに分割する。
【0026】
最初にライブ・ビデオ・フィードを処理するために、受信機102はフレームをビデオから高速なペースで抽出するように構成される。幾つかの例では、当該ビデオ・フレームが抽出されるペースはシステムの許容可能なデータ送信帯域幅に関連する。識別子104はついで、当該フレーム内の関心のある異なる領域およびオブジェクトを識別または認識する。識別の際、テキスト生成器106が、システムにより認識可能な当該フレーム内の当該関心のある異なる領域およびオブジェクトを記述する1つまたは複数の自然言語テキスト文字列を生成する。当該テキスト文字列はついで、ユーザが開始した問合せの最もマッチする回答または応答を決定するために、当該識別子の問合せエンジンに提供される。
【0027】
上で示したように、当該ライブ・ビデオ・フィードは、コンピュータ・ビジョン、自然言語処理および機械学習、および識別可能オブジェクトとアクティビティのカタログを用いて処理される。識別子104およびテキスト生成器106が利用される前に、それらはワンタイム・トレーニング・プロセスを要求する。当該トレーニング・プロセスへの入力は、それぞれの画像とキャプションのペアが1つのトレーニング事例を構成する1組のビデオ・フレームと対応するキャプションから構成される。幾つかの例では、多数のドメインに適したトレーニング事例が人間のエキスパートにより準備される。
【0028】
当該トレーニング事例は、例えば、後方伝播アルゴリズムを用いてニューラル・ネットワークの重みを調節するために使用される。幾つかの実装では、識別子104は、オブジェクトおよびアクティビティの属性を自動的に検出するために、ディープ・ラーニング・ニューラル・ネットワークまたは他の適切な方法のような機械学習技術によりトレーニングされる。当該識別子は、それがリアルタイムに、言語出力(例えば、テキストおよび会話)内のビデオ・シーンを自動的に解釈し記述できるようになるように、テキスト、会話等のような視覚特徴および言語入力の両方でトレーニングされてもよい。トレーニングの目的のために、幾つかの例では、システムは機械学習を用いて識別可能オブジェクトおよびアクティビティのカタログを維持するように構成される。これは、例えば、当該当該カタログ内の対応するオブジェクトおよびアクティビティを、当該複数のオブジェクトおよびアクティビティのうち少なくとも幾つかの属性で更新するステップを含んでもよい。
【0029】
幾つかの例では、当該トレーニング・プロセスは、各抽出されたフレームが、当該フレームの異なる領域に対する外観特徴の行列を生成するニューラル・ネットワーク(例えば、畳込みニューラル・ネットワーク)を用いて処理されることを含む。これらの例では、当該行列は、ユーザ入力に基づいて指定されうる予め決定された数のフレーム領域(関心領域)を選択し、当該選択された領域に対する座標(領域ごとに4つ)を含む3つの行列を出力する別の畳込みニューラル・ネットワークに渡される。当該畳込みニューラル・ネットワークはまた、当該対応する領域に関心がある可能性を示す領域ごとの確率と、領域ごとの1組の特徴を、それぞれを出力する。当該関心領域の特徴はついで、スタックされた行列をもたらす領域ごとの当該特徴のコンパクトで固定サイズの符号化を提供する完全に接続されたニューラル・ネットワーク・レイヤのペアに渡される。当該スタックされた行列は、回帰ニューラル・ネットワーク(例えば、長期メモリ・ネットワーク(LSTM))から構築される言語モデルである。
【0030】
さらにこれらの例では、当該フレーム領域に対する視覚特徴は回帰ニューラル・ネットワークに入力され、トークン(例えば、単語)がサンプリングされる。当該サンプリングされたトークンがついでLSTMに入力され、別のトークンがサンプリングされ、このプロセスが連続的に、終了トークンが生成されるまでループする。当該一連のサンプリングされた単語は当該領域の文に関する説明、またはキャプションを形成する。より具体的な例において、識別子104は、以前に識別されたオブジェクトおよびアクティビティ(例えば、人間およびオブジェクト)を検出し認識するように構成される。当該識別子はまた、当該関心領域内のオブジェクトおよびアクティビティの間の空間的距離を分析し、これらのオブジェクトおよびアクティビティをそれが以前にサンプリングされた自然言語テキスト説明とマッチし、当該関心領域に最もマッチすると判定される文に関する説明を出力するように構成される。
【0031】
当該文に関する説明は、当該対応する関心領域の座標に沿って、人間ユーザにより受信される問合せに対する応答を提供する際に使用するためにメモリに格納される。しかし、以前のフレームと大幅に異なるフレームに対応する生成された説明のみがメモリに格納される。例えば、説明が当該以前のフレームから生成された説明と十分に異ならない場合には、それは拒否され、メモリに格納されない。幾つかの代替的な例では、別々のエンジンは、連続的なフレームの間の差分画像を評価し、当該以前のフレームと十分に異なるフレームのみを処理するように構成される。さらに、予め決定された数の説明のみが、当該メモリが満杯であるとき最も古い説明を当該メモリから一掃してより新しい説明のための記憶空間を割り当てるように、メモリに格納される。
【0032】
幾つかの例では、各文に関する説明には識別番号が与えられ、他の以前に生成された説明とともにメモリに格納される。説明の全体のセットが、各説明を連続的な空間に埋め込むことで形成される固定サイズのメモリ・ベクトルに変換される。これらのステップは、全体のセットを表す埋め込み行列を形成する。当該文に関する説明はついで当該メモリに固定のバッファサイズまで書き込まれる。当該固定のバッファサイズは、デフォルト設定により予め定義されるかまたはユーザによりシステムのグラフィカル・ユーザ・インタフェース(GUI)から定義されることができる。
【0033】
図2は、幾つかの例において
図1の識別子104に対応しうる識別子200の適切な例を示す。示すように、幾つかの実装では、当該識別子は、ライブ・ビデオ・フィードを処理し分析する1つまたは複数の機能または動作を実施するために互いに接続される問合せエンジン202、追跡器204、警告エンジン206、予測器208およびデータベース210を含む。幾つかの例では、当該問合せエンジンは、関心のあるオブジェクトまたは関心のあるアクティビティを指定するユーザ入力を受信し、当該ライブ・ビデオ・フィードを処理して、当該複数のオブジェクトおよびアクティビティ内の当該関心のあるオブジェクトまたは当該関心のあるアクティビティをさらに識別するように構成される。これらの例では、当該追跡器は当該ライブ・ビデオ・フィード内の当該関心のあるオブジェクトを時間空間的に追跡するように構成される。幾つかの例では、当該追跡器は、関心がある当該オブジェクトまたはアクティビティと独立に当該カタログ内の当該複数のオブジェクトおよびアクティビティの各々に対する空間情報および時間情報を追跡するように構成される。さらに当該例では、当該警告エンジンは当該ライブ・ビデオ・フィード内の当該関心のあるアクティビティの識別を示すための警告を生成するように構成される。
【0034】
幾つかの例では、識別子200は、当該ライブ・ビデオ・フィードを処理して、当該複数のオブジェクトおよびアクティビティを記述する情報の対応するデータベース210を生成するように構成される。これらの例では、問合せエンジン202は、当該複数のオブジェクトおよびアクティビティのうち少なくとも1つのオブジェクトまたはアクティビティに関する情報の要求を規定するユーザ入力を受信し、当該要求に基づいて当該データベースを問い合わせるように構成される。例えば、ユーザは、当該ライブ・ビデオ・フィードに関するオープンな、自由形式の、自然言語質問を含む問合せを送信することができる。これらの質問はさらに、識別子200がシステムの分析リソースおよび認識リソースにフォーカスすべき場所を示してもよい。この指定された分析に基づいて、システムはユーザの質問または関心に関連する自然言語回答または警告メッセージを生成することができる。幾つかの例では、ユーザ入力はさらに、ユーザの関心のあるオブジェクトおよびアクティビティの自動化された認識に関して識別子200をトレーニングするための手段として利用される。例えば、1例において、当該問合せエンジンは、ユーザ入力を受信する際に、当該問合せエンジンが当該要求に基づいて当該データベースを問い合わせるのではなく正確な応答を推論するように構成されるように、ユーザ入力および対応する応答の組合せに基づいてトレーニングされる。
【0035】
幾つかの例では、識別子200は当該ライブ・ビデオ・フィードを処理して将来の結果を予測するように構成される。特に、予測器208は当該複数のオブジェクトおよびアクティビティからの少なくとも2つの予め定義されたオブジェクトまたはアクティビティの識別に基づいて将来の関心のある結果を予測するように構成される。これは、例えば、当該ライブ・ビデオの現在のフレーム内の当該少なくとも2つの予め定義されたオブジェクトまたはアクティビティのうち少なくとも1つ、および当該ライブ・ビデオの当該現在のフレームまたは後続フレーム内の当該少なくとも2つの予め定義されたオブジェクトまたはアクティビティの別のものを識別するステップを含んでもよい。応答して、警告エンジン206はそのように予測された当該将来の関心のある結果を示す警告を生成するように構成される。例えば、当該ライブ・ビデオ内で識別された当該複数のオブジェクトおよびアクティビティに関連する任意の疑わしい振舞いまたは異常を検出または予測したことに応答して、当該警告エンジンは、当該ディスプレイの電子メール、グラフィカル・ユーザ・インタフェース等のようなインタフェースを通じて警告メッセージをユーザに高速に送信することができる。
【0036】
より具体的な例において、人間ユーザは質問qを問合せ、関心のあるオブジェクトまたはアクティビティをマウスでクリックすることで関心のあるオブジェクトまたはアクティビティを選択する。ユーザは関心期間を指定してもよい。当該問合せエンジンはついで当該問合せおよび他の入力を別の行列Bに埋め込む。この行列において、当該質問は内部状態ベクトルにより定義される。内積を取り次いで多項ロジスティック回帰(例えば、softmax回帰)を行うことで、格納されたi番目の説明の内部状態ベクトルおよびメモリの間でマッチmiを実施する。これらのステップは確率形式piにおける文に関する説明xおよびqの両方に対する連続的な表現を形成する。当該確率形式は、当該説明に対して形成されるマッチの確率としても考えられる。
【0037】
さらに、これらの例では、マルチステップ機構が適用され、連続的な表現が、ユーザにより与えられた1組の入力に最も良くマッチする回答を決定するための複数の計算ホップにより処理される。幾つかの例では、システムは、当該計算ステップを自動的に実施するための後方伝播によりトレーニングされる。ステップ計算の数は、メモリ組込みの行列および別の対応する行列の複数のレイヤをスタックすることでサポートされる。これらのレイヤは、当該問合せからの出力および入力の和が次の入力のレイヤを形成するように形成される。システムはついで最も良くマッチする回答を予測する。この最終予測は、計算された着目重み行列および多項ロジスティック回帰(例えば、softmax回帰)を通じた出力ベクトルおよび入力問合せ内部状態の和により生成される。当該着目重み行列は、上述のように、後方伝播アルゴリズムのようなトレーニング・プロセスの間に形成される。幾つかの例では、システムは、十分なドメイン固有トレーニング・データから、システムがユーザの特定のドメインに関連する回答を提供するであろうことを学習する。
【0038】
図1を再度参照すると、識別子104により識別される複数のオブジェクトおよびアクティビティを用いて、テキスト生成器106はついで、ライブ・ビデオ・フィードのストーリ展開を記述し、自然言語テキストを当該ライブ・ビデオ・フィードのディスプレイで可聴的にまたは視覚的に出力する自然言語テキストを生成するように構成されてもよい。
図3は、当該ライブ・ビデオ・フィードのストーリ展開を記述する対応する自然言語テキストを有する例示的なビデオ・フィード302およびディスプレイ304を示す。幾つかの例では、当該テキスト生成器は、当該自然言語テキストをフィルタし、それにより当該関心のあるオブジェクトまたは当該関心のあるアクティビティにのみ関連するストーリ展開をフィルタするように構成される。問合せエンジン202は当該複数のオブジェクトおよびアクティビティのうち少なくとも1つのオブジェクトまたはアクティビティに関する情報の要求を規定するユーザ入力を受信し、当該要求に基づいてデータベースを問い合わせるように構成される。幾つかの例では、テキスト生成器106は、当該要求に応答して自然言語テキストを表示のために生成し出力するように構成される。幾つかの実装では、当該テキスト生成器はさらに、当該ストーリ展開または当該ライブ・ビデオ・フィードを記述するか、またはより詳細にはユーザ要求に応答する自然言語テキストが後続のユーザ要求の間に高速な取出し目的のために検索可能フォーマットに記録されるテキスト・ログを生成するように構成される。
【0039】
図4は、ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のための方法400の様々な動作を含む流れ図を示す。ブロック402で示すように、当該方法はライブ・ビデオ・フィードを受信するステップを含む。当該方法はまた、ブロック404で示すように、当該ライブ・ビデオ・フィードを処理して複数のオブジェクトおよびその中のアクティビティを識別し、そのように識別された当該複数のオブジェクトおよびアクティビティを用いて当該ライブ・ビデオ・フィードのストーリ展開を記述する自然言語テキストを生成するステップを含む。当該ライブ・ビデオ・フィードは、コンピュータ・ビジョン、自然言語処理および機械学習、および識別可能オブジェクトとアクティビティのカタログを用いて処理される。当該方法はまた、ブロック406で示すように、当該自然言語テキストを可聴的にまたは視覚的に当該ライブ・ビデオ・フィードのディスプレイで出力するステップを含む。
【0040】
本開示の幾つかの例示的な実装に従って、システム100およびそのサブシステムおよび/または受信機102を含むコンポーネントが、識別子104およびテキスト生成器106を様々な手段により実装してもよい。同様に、識別子200およびそのそれぞれのサブシステムおよび/またはコンポーネントを様々な手段により実装してもよい。システム、サブシステムおよびそれらのそれぞれの要素を実装するための手段は、単体で、または、コンピュータ可読記憶媒体からの1つまたは複数のコンピュータ・プログラムの指示のもとでハードウェアを含んでもよい。
【0041】
幾つかの例では、本明細書で図示および説明したシステム、サブシステム、ツールおよびそれぞれの要素として機能するかまたはそれらを実装するように構成された1つまたは複数の装置を提供してもよい。複数の装置が関与する例では、当該それぞれの装置は、幾つかの異なる方式で、例えば、直接的にまたは配線または無線ネットワーク等を介して間接的に互いに接続されるかまたは通信してもよい。
【0042】
図5は本開示の幾つかの例示的な実装に従う装置500を示す。一般に、本開示の例示的な実装の装置は、1つまたは複数の固定のまたはポータブル電子デバイスを含むかまたはそれらに組み込まれてもよい。適切な電子デバイスの例はスマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーションコンピュータ、サービスコンピュータ等を含む。当該装置は、メモリ504(例えば、記憶デバイス)に接続された例えば、プロセッサ502(例えば、プロセッサユニット)のような幾つかのコンポーネントの各々のうち1つまたは複数を含んでもよい。
【0043】
プロセッサ502は一般に、例えば、データ、コンピュータ・プログラムおよび/または他の適切な電子情報のような情報を処理できる任意のコンピュータハードウェアである。当該プロセッサは電子回路の集合で構成され、その幾つかを、集積回路または複数の相互接続された集積回路(集積回路はしばしばより一般的に「チップ」と呼ばれる)としてパッケージ化してもよい。当該プロセッサはコンピュータ・プログラムを実行するように構成されてもよい。当該コンピュータ・プログラムは、当該プロセッサ上に格納されてもよく、またはそうでなければ(同一のまたは別の装置の)メモリ504に格納されてもよい。
【0044】
プロセッサ502は、特定の実装に依存して、幾つかのプロセッサ、マルチプロセッサコアまたは幾つかの他のタイプのプロセッサであってもよい。さらに、当該プロセッサを、メインプロセッサが1つまたは複数の二次プロセッサとともに単一のチップに提供される幾つかの不均一プロセッサシステムを用いて実装してもよい。別の例示的な例として、当該プロセッサは同一のタイプの複数のプロセッサを含む対称マルチプロセッサシステムであってもよい。さらに別の例では、当該プロセッサは、1つまたは複数の特殊用途向け集積回路(ASIC)、フィールド・プログラム可能ゲートアレイ(FPGA)等として具体化してもよく、またはそれらを含んでもよい。したがって、当該プロセッサが1つまたは複数の機能を実施するためのコンピュータ・プログラムを実行してもよいが、様々な例の当該プロセッサはコンピュータ・プログラムの助けなしに1つまたは複数の機能を実施できてもよい。
【0045】
メモリ504は一般に、例えば、データ、コンピュータ・プログラム(例えば、コンピュータ可読プログラムコード506)および/または他の適切な情報のような情報を一時的におよび/または永続的に格納できる任意のコンピュータハードウェアである。当該メモリは揮発性および/または非揮発性メモリを含んでもよく、固定のまたは取外し可能であってもよい。適切なメモリの例はランダム・アクセスメモリ(RAM)、読取専用メモリ(ROM)、ハード・ドライブ、フラッシュメモリ、サムドライブ、取外し可能コンピュータディスク、光ディスク、磁気テープまたは上述の幾つかの組合せ。光ディスクはコンパクトディスク読取専用メモリ(CD-ROM)、コンパクトディスク読書き可能(CD-R/W)、DVD等を含んでもよい。様々なインスタンスでは、当該メモリをコンピュータ可読記憶媒体と称してもよい。当該コンピュータ可読記憶媒体は情報を格納できる非一時的デバイスであり、情報を或る位置から別の位置に運搬できる電子伝播信号のようなコンピュータ可読送信媒体特別可能である。本明細書で説明したコンピュータ可読媒体は一般にコンピュータ可読記憶媒体またはコンピュータ可読送信媒体を指してもよい。
【0046】
当該メモリに加えて、当該プロセッサは、情報を表示、送信、および/または受信するための1つまたは複数のインタフェース508に接続されてもよい。当該インタフェースは通信インタフェース(例えば、通信ユニット)および/または1つまたは複数のユーザインタフェースを含んでもよい。当該通信インタフェースは、情報を、例えば他の装置(複数可)、ネットワーク(複数可)等と送受信するように構成されてもよい。当該通信インタフェースは物理(有線)および/または無線通信リンクにより情報を送受信するように構成されてもよい。適切な通信インタフェースの例はネットワークインタフェースコントローラ(NIC)、無線NIC(WNIC)等を含む。
【0047】
ユーザインタフェースはディスプレイ510および/または1つまたは複数のユーザ入力インタフェース512(例えば、入出力ユニット)を含んでもよい。当該ディスプレイは、情報をユーザに提供または表示するように構成されてもよい。その適切な例は液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、プラズマディスプレイパネル(PDP)等を含む。
【0048】
ユーザ入力インタフェース512は有線または無線であってもよく、例えば処理、記憶および/または表示のために情報をユーザから当該装置に受信するように構成されてもよい。ユーザ入力インタフェースの適切な例はマイクロフォン、画像またはビデオキャプチャデバイス、キーボードまたはキーパッド、ジョイスティック、(タッチ・スクリーンと別々であるかまたはそれに統合される)タッチセンシティブなサーフェス、生体センサ等を含む。ユーザインタフェースはさらに、プリンタ、スキャナ等のような周辺装置と通信するための1つまたは複数のインタフェースを含んでもよい。
【0049】
上で示したように、プログラムコード命令は、本明細書で説明したシステム、サブシステムおよびそれらのそれぞれの要素の機能を実装するために、メモリに格納され、プロセッサにより実行されてもよい。理解されるように、任意の適切なプログラムコード命令は、当該特定のマシンが本明細書で指定された機能を実装するための手段となるように、特定のマシンを生成するようにコンピュータ可読記憶媒体からコンピュータまたは他のプログラム可能装置にロードしてもよい。これらのプログラムコード命令を、特定の方式で機能してそれにより特定のマシンまたは特定の製品を生成するようにコンピュータ、プロセッサまたは他のプログラム可能装置に指示できるコンピュータ可読記憶媒体に格納されてもよい。当該コンピュータ可読記憶媒体に格納される当該命令は製品を生成であってもよい。当該製品は本明細書で説明した機能を実装するための手段になる。当該プログラムコード命令が、当該コンピュータ、プロセッサまたは他のプログラム可能装置上でまたはそれらにより実施される動作を実行するように当該コンピュータ、プロセッサまたは他のプログラム可能装置を構成するために、コンピュータ可読記憶媒体から取り出し、コンピュータ、プロセッサまたは他のプログラム可能装置にロードされてもよい。
【0050】
当該プログラムコード命令の取出し、ロードおよび実行が、或る命令が一度に取り出され、ロードされ、実行されるように、逐次的に実施されてもよい。幾つかの例示的な実装では、取出し、ロードおよび/または実行が、複数の命令が一緒に取り出され、ロードされ、かつ/または実行されるように逐次的に実施されてもよい。当該プログラムコード命令の実行が、当該コンピュータ、プロセッサまたは他のプログラム可能装置により実行される当該命令が本明細書で説明した機能を実装するための動作を提供するように、コンピュータ実行型のプロセスを生成してもよい。
【0051】
プロセッサによる命令の実行、またはコンピュータ可読記憶媒体内の命令の記憶は、指定された機能を実施するための動作の組合せをサポートする。この方式では、装置500はプロセッサ502およびコンピュータ可読記憶媒体または当該プロセッサに接続されるメモリ504を含んでもよい。当該プロセッサは当該メモリに格納されるコンピュータ可読プログラムコード506を実行するように構成される。1つまたは複数の機能、および機能の組合せが、指定された機能、または特殊目的ハードウェアおよびプログラムコード命令の組合せを実施する特殊目的ハードウェアベースのコンピュータシステムおよび/またはプロセッサにより実装されてもよいこともまた理解される。
【0052】
さらに、本開示は以下の項に従う実施形態を含む。
【0053】
項1:ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のための装置であって、
プロセッサと、
当該プロセッサによる実行に応答して当該装置に少なくとも、
ライブ・ビデオ・フィードを受信させ、
当該ライブ・ビデオ・フィードを処理して複数のオブジェクトおよびその中のアクティビティを識別し、そのように識別された当該複数のオブジェクトおよびアクティビティを用いて当該ライブ・ビデオ・フィードのストーリ展開を記述する自然言語テキストを生成させ、
当該自然言語テキストを当該ライブ・ビデオ・フィードのディスプレイで可聴的にまたは視覚的に出力させる
実行可能命令を格納したメモリと、
を備え、
当該ライブ・ビデオ・フィードは、コンピュータ・ビジョン、自然言語処理および機械学習、および識別可能オブジェクトとアクティビティのカタログを用いて処理される、
装置。
【0054】
項2:当該メモリは、当該プロセッサによる実行に応答して、当該装置に当該カタログ内の対応するオブジェクトおよびアクティビティを当該複数のオブジェクトおよびアクティビティのうち少なくとも幾つかの属性で更新させることを含めて、当該機械学習を用いて識別可能オブジェクトおよびアクティビティの当該カタログを維持させる実行可能命令をさらに格納する、項1に記載の装置。
【0055】
項3:当該メモリは、当該プロセッサによる実行に応答して当該装置に少なくとも、
関心のあるオブジェクトまたは関心のあるアクティビティを規定するユーザ入力を受信させ、
当該ライブ・ビデオ・フィードを処理して、当該複数のオブジェクトおよびアクティビティ内の当該関心のあるオブジェクトまたは当該関心のあるアクティビティをさらに識別させ、
当該ライブ・ビデオ・フィード内の当該関心のあるオブジェクトを時間空間的に追跡させるか、または、当該ライブ・ビデオ・フィード内の当該関心のあるアクティビティの識別を示すための警告を生成させる
実行可能命令をさらに格納する、項1または2に記載の装置。
【0056】
項4:当該自然言語テキストを生成する当該装置は、当該自然言語テキストをフィルタし、それにより当該関心のあるオブジェクトまたは当該関心のあるアクティビティにのみ関連する当該ストーリ展開をフィルタする、項3に記載の装置。
【0057】
項5:当該ライブ・ビデオ・フィードを処理する当該装置はさらに、当該装置に当該複数のオブジェクトおよびアクティビティを記述する情報の対応するデータベースを生成させることを含み、当該メモリは、当該プロセッサによる実行に応答して当該装置に少なくとも、
当該複数のオブジェクトおよびアクティビティのうち少なくとも1つのオブジェクトまたはアクティビティに関する情報の要求を指定するユーザ入力を受信させ、それに応答して、
当該要求に基づいて当該データベースを問い合わせさせ、
当該要求に応答して自然言語テキストを表示のために生成し出力させる
実行可能命令をさらに格納する、項1乃至4の何れか1項に記載の装置。
【0058】
項6:当該装置に当該ライブ・ビデオ・フィードを処理して当該複数のオブジェクトおよびアクティビティを識別させることは少なくとも、
当該複数のオブジェクトおよびアクティビティからの少なくとも2つの予め定義されたオブジェクトまたはアクティビティの識別に基づいて将来の関心のある結果を予測させ、
そのように予測された当該将来の関心のある結果を示す警告を生成させる
ことを含む、項1乃至5の何れか1項に記載の装置。
【0059】
項7:当該装置に当該将来の関心のある結果を予測させることは、当該ライブ・ビデオの現在のフレーム内の当該少なくとも2つの予め定義されたオブジェクトまたはアクティビティのうち少なくとも1つ、および当該ライブ・ビデオの当該現在のフレームまたは後続フレーム内の当該少なくとも2つの予め定義されたオブジェクトまたはアクティビティの別のものを少なくとも識別させることを含む、項6に記載の装置。
【0060】
項8:ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のための方法であって、
ライブ・ビデオ・フィードを受信するステップと、
当該ライブ・ビデオ・フィードを処理して複数のオブジェクトおよびその中のアクティビティを識別し、そのように識別された当該複数のオブジェクトおよびアクティビティを用いて当該ライブ・ビデオ・フィードのストーリ展開を記述する自然言語テキストを生成するステップであって、当該ライブ・ビデオ・フィードは、コンピュータ・ビジョン、自然言語処理および機械学習、および識別可能オブジェクトとアクティビティのカタログを用いて処理される、ステップと、
当該自然言語テキストを可聴的にまたは視覚的に当該ライブ・ビデオ・フィードのディスプレイで出力するステップと、
を含む、方法。
【0061】
項9:当該カタログ内の対応するオブジェクトおよびアクティビティを、当該複数のオブジェクトおよびアクティビティのうち少なくとも幾つかの属性で更新するステップを含めて、当該機械学習を用いて、識別可能オブジェクトおよびアクティビティの当該カタログを維持するステップをさらに含む、項8に記載の方法。
【0062】
項10:関心のあるオブジェクトまたは関心のあるアクティビティを規定するユーザ入力を受信するステップと、
当該ライブ・ビデオ・フィードを処理して、当該複数のオブジェクトおよびアクティビティ内の当該関心のあるオブジェクトまたは当該関心のあるアクティビティをさらに識別するステップと、
当該ライブ・ビデオ・フィード内の当該関心のあるオブジェクトを時間空間的に追跡するステップ、または当該ライブ・ビデオ・フィード内の当該関心のあるアクティビティの識別を示すための警告を生成するステップと、
をさらに含む、項8または9に記載の方法。
【0063】
項11:当該自然言語テキストを生成するステップは、当該自然言語テキストをフィルタし、それにより当該関心のあるオブジェクトまたは当該関心のあるアクティビティにのみ関連する当該ストーリ展開をフィルタするステップを含む、項10に記載の方法。
【0064】
項12:当該ライブ・ビデオ・フィードを処理するステップはさらに、当該複数のオブジェクトおよびアクティビティを記述する情報の対応するデータベースを生成するステップを含み、当該方法は、
当該複数のオブジェクトおよびアクティビティのうち少なくとも1つのオブジェクトまたはアクティビティに関する情報の要求を指定するユーザ入力を受信するステップと、それに応答して、
当該要求に基づいて当該データベースを問い合わせるステップと、
当該要求に応答して自然言語テキストを表示のために生成し出力するステップと、
をさらに含む、項8乃至11の何れか1項に記載の方法。
【0065】
項13:当該ライブ・ビデオ・フィードを処理して当該複数のオブジェクトおよびアクティビティを識別するステップは、
当該複数のオブジェクトおよびアクティビティからの少なくとも2つの予め定義されたオブジェクトまたはアクティビティの識別に基づいて将来の関心のある結果を予測するステップと、
そのように予測された当該将来の関心のある結果を示す警告を生成するステップと、
を含む、項8乃至12の何れか1項に記載の方法。
【0066】
項14:当該将来の関心のある結果を予測するステップは、当該ライブ・ビデオの現在のフレーム内の当該少なくとも2つの予め定義されたオブジェクトまたはアクティビティのうち少なくとも1つ、および当該ライブ・ビデオの当該現在のフレームまたは後続フレーム内の当該少なくとも2つの予め定義されたオブジェクトまたはアクティビティの別のものを識別するステップを含む、項13に記載の方法。
【0067】
項15:ライブ・ビデオ・フィード内の自動的なオブジェクトおよびアクティビティの追跡のためのコンピュータ可読記憶媒体であって、プロセッサによる実行に応答して、装置に少なくとも、
ライブ・ビデオ・フィードを受信させ、
当該ライブ・ビデオ・フィードを処理して複数のオブジェクトおよびその中のアクティビティを識別し、そのように識別された当該複数のオブジェクトおよびアクティビティを用いて当該ライブ・ビデオ・フィードのストーリ展開を記述する自然言語テキストを生成させ、
当該自然言語テキストを当該ライブ・ビデオ・フィードのディスプレイで可聴的にまたは視覚的に出力させる、
コンピュータ可読プログラムコードを格納し、
当該ライブ・ビデオ・フィードは、コンピュータ・ビジョン、自然言語処理および機械学習、および識別可能オブジェクトとアクティビティのカタログを用いて処理される、
コンピュータ可読記憶媒体。
【0068】
項16:プロセッサによる実行に応答して、当該装置にさらに少なくとも、
当該装置に、当該カタログ内の対応するオブジェクトおよびアクティビティを、当該複数のオブジェクトおよびアクティビティのうち少なくとも幾つかの属性で更新させることを含めて、当該機械学習を用いて識別可能オブジェクトおよびアクティビティの当該カタログを維持させるコンピュータ可読プログラムコードを格納した、項15に記載のコンピュータ可読記憶媒体。
【0069】
項17:プロセッサによる実行に応答して、当該装置にさらに少なくとも、
関心のあるオブジェクトまたは関心のあるアクティビティを規定するユーザ入力を受信させ、
当該ライブ・ビデオ・フィードを処理して、当該複数のオブジェクトおよびアクティビティ内の当該関心のあるオブジェクトまたは当該関心のあるアクティビティをさらに識別させ、
当該ライブ・ビデオ・フィード内の当該関心のあるオブジェクトを時間空間的に追跡し、または当該ライブ・ビデオ・フィード内の当該関心のあるアクティビティの識別を示すための警告を生成させる、
コンピュータ可読プログラムコードを格納した、項15または16に記載のコンピュータ可読記憶媒体。
【0070】
項18:当該装置に当該自然言語テキストを生成させることは、当該自然言語テキストをフィルタし、それにより当該関心のあるオブジェクトまたは当該関心のあるアクティビティにのみ関連する当該ストーリ展開をフィルタさせることを含む、項15乃至17の何れか1項に記載のコンピュータ可読記憶媒体。
【0071】
項19:当該装置が当該ライブ・ビデオ・フィードを処理させられることはさらに、当該装置が当該複数のオブジェクトおよびアクティビティを記述する情報の対応するデータベースを生成させられることを含み、プロセッサによる実行に応答して、当該装置にさらに少なくとも、
当該複数のオブジェクトおよびアクティビティのうち少なくとも1つのオブジェクトまたはアクティビティに関する情報の要求を指定するユーザ入力を受信させ、それに応答して、
当該要求に基づいて当該データベースを問い合わせさせ、
当該要求に応答して自然言語テキストを表示のために生成し出力させる、
コンピュータ可読プログラムコードを格納した、項15乃至18の何れか1項に記載のコンピュータ可読記憶媒体。
【0072】
項20:当該装置に当該ライブ・ビデオ・フィードを処理して当該複数のオブジェクトおよびアクティビティを識別させることは少なくとも、
当該複数のオブジェクトおよびアクティビティからの少なくとも2つの予め定義されたオブジェクトまたはアクティビティの識別に基づいて将来の関心のある結果を予測させ、
そのように予測された当該将来の関心のある結果を示す警告を生成させる
ことを含む、項15乃至19の何れか1項に記載のコンピュータ可読記憶媒体。
【0073】
項21:当該装置に当該将来の関心のある結果を予測させることは、当該ライブ・ビデオの現在のフレーム内の当該少なくとも2つの予め定義されたオブジェクトまたはアクティビティのうち少なくとも1つ、および当該ライブ・ビデオの当該現在のフレームまたは後続フレーム内の当該少なくとも2つの予め定義されたオブジェクトまたはアクティビティの別のものを少なくとも識別させることを含む、項20に記載のコンピュータ可読記憶媒体。
【0074】
本明細書で説明した本開示の多くの修正および他の実装は、以上の説明および当該関連図面で提示された教示事項の利益を有する本開示が関係する当業者に想到される。したがって、本開示は開示された当該特定の実装に限定されず、修正および他の実装は添付の特許請求の範囲の範囲内に含まれると意図されていることは理解される。さらに、以上の説明および当該関連図面では例示的な実装を要素および/または機能の特定の例組合せの文脈で説明したが、要素および/または機能の異なる組合せは添付の特許請求の範囲の範囲から逸脱することなく代替的な実装により提供されてもよいことは理解されるべきである。この点、例えば、上で明示的に説明したのと異なる要素および/または機能の組合せはまた、添付の特許請求の範囲の幾つかで説明したように考慮される。本明細書では特定の用語を使用したが、それらは汎用的かつ記述的な意味でのみ使用され限定の目的では使用されない。
【0075】
本明細書で説明した本開示の多くの修正および他の実装は、以上の説明および当該関連図面で提示された教示事項の利益を有する本開示が関係する当業者に想到される。したがって、本開示は開示された当該特定の実装に限定されず、修正および他の実装は添付の特許請求の範囲の範囲内に含まれると意図されていることは理解される。さらに、以上の説明および当該関連図面では例示的な実装を要素および/または機能の特定の例組合せの文脈で説明したが、要素および/または機能の異なる組合せは添付の特許請求の範囲の範囲から逸脱することなく代替的な実装により提供されてもよい。この点、例えば、上で明示的に説明したのと異なる要素および/または機能の組合せはまた添付の特許請求の範囲の幾つかで説明したように考慮されることは理解されるべきである。本明細書では特定の用語を使用したが、それらは汎用的かつ記述的な意味でのみ使用され限定の目的では使用されない。
【符号の説明】
【0076】
102 受信機
104 識別子
106 テキスト生成器
200 識別子
202 問合せエンジン
204 追跡器
206 警告エンジン
208 予測器
210 データベース