(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-13
(54)【発明の名称】ローカルAI推論
(51)【国際特許分類】
H04N 21/44 20110101AFI20241206BHJP
H04N 7/18 20060101ALI20241206BHJP
【FI】
H04N21/44
H04N7/18 H
H04N7/18 K
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024537153
(86)(22)【出願日】2022-12-19
(85)【翻訳文提出日】2024-08-07
(86)【国際出願番号】 US2022081983
(87)【国際公開番号】W WO2023122563
(87)【国際公開日】2023-06-29
(32)【優先日】2021-12-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522068670
【氏名又は名称】スカイベル テクノロジーズ アイピー、エルエルシー
(74)【代理人】
【識別番号】110000855
【氏名又は名称】弁理士法人浅村特許事務所
(72)【発明者】
【氏名】ウィードマーク - キッシュ、アンドリュー
【テーマコード(参考)】
5C054
5C164
【Fターム(参考)】
5C054CA04
5C054CC02
5C054FC00
5C054HA22
5C164FA07
5C164MB11S
5C164UB01P
5C164UB21S
5C164UB41S
5C164YA21
(57)【要約】
ドアベル・カメラ、監視カメラなどからのライブ・ビデオ/音声フィードから情報を推論するために、人工知能(AI)が使用される。このような能力をクラウド又はエッジから移すことで、AI推論を用いる他の方法よりも、コスト上の利点、監視される場所に関するプライバシーのより良い保証、及び、遅延の低下をもたらすことができる。
【特許請求の範囲】
【請求項1】
モバイル・コンピューティング・デバイスを通じて、ビデオ・フィード、音声フィード、及びそれらの組合せからなる群から選択されたフィードを受信することであって、前記ビデオ・フィード及び前記音声フィードが、ライブ通信セッションに関連して発生する、受信することと、
前記ビデオ・フィードに関連付けられた1つ又は複数のパラメータを識別するために前記モバイル・コンピューティング・デバイス上の人工知能(AI)エンジンを使用して前記ビデオ・フィードを分析することと、
前記1つ又は複数のパラメータに関連付けられたメタデータを記憶することと
を含む、方法。
【請求項2】
前記1つ又は複数のパラメータに関連付けられた前記メタデータが、前記モバイル・コンピューティング・デバイスに記憶される、請求項1に記載の方法。
【請求項3】
前記1つ又は複数のパラメータに関連付けられた前記メタデータが、前記モバイル・コンピューティング・デバイスから遠隔の場所に記憶される、請求項1に記載の方法。
【請求項4】
前記AIエンジンが、AI推論を使用して前記1つ又は複数のパラメータを識別するように構成される、請求項1に記載の方法。
【請求項5】
前記1つ又は複数のパラメータが、人を示す、請求項4に記載の方法。
【請求項6】
前記1つ又は複数のパラメータが、動きを示す、請求項4に記載の方法。
【請求項7】
前記1つ又は複数のパラメータが、訪問者の存在を示す、請求項4に記載の方法。
【請求項8】
前記1つ又は複数のパラメータが、顔認識データを示す、請求項4に記載の方法。
【請求項9】
前記1つ又は複数のパラメータが、1つ又は複数の可聴音を示す、請求項4に記載の方法。
【請求項10】
前記1つ又は複数のパラメータが、荷物の配達又は荷物の盗難を示す、請求項4に記載の方法。
【請求項11】
ビデオ・カメラと、
プロセッサに、前記ビデオ・カメラからのビデオ・フィードに関連付けられた1つ又は複数のパラメータを識別させるための、モバイル・コンピューティング・デバイスにおいて前記プロセッサによって実行可能なコードを含む、コンピュータ可読非一時的プログラマブル製品と、
前記1つ又は複数のパラメータに関連付けられたメタデータを受信するように構成されたメモリと
を備える、システム。
【請求項12】
前記1つ又は複数のパラメータが、人、動き、訪問者の存在、顔認識データ、1つ又は複数の可聴音、及び、荷物の配達からなる群から選択される、請求項11に記載のシステム。
【請求項13】
前記メモリが、前記モバイル・コンピューティング・デバイス内に位置する、請求項11に記載のシステム。
【請求項14】
前記メモリが、前記モバイル・コンピューティング・デバイスから遠隔に位置するクラウド・ストレージの一部である、請求項11に記載のシステム。
【請求項15】
前記プロセッサが、AI推論を使用して、前記ビデオ・フィードに関連付けられた前記1つ又は複数のパラメータを識別するように構成される、請求項11に記載のシステム。
【請求項16】
前記ビデオ・カメラが、ドアベル・カメラである、請求項11に記載のシステム。
【請求項17】
前記ビデオ・カメラが、独立型カメラである、請求項11に記載のシステム。
【請求項18】
前記ビデオ・フィードが、ライブ・ビデオ・フィードである、請求項11に記載のシステム。
【請求項19】
ビデオ・フィードに関連付けられた1つ又は複数のパラメータを識別するために、プロセッサに、モバイル・コンピューティング・デバイス上の人工知能(AI)エンジンを使用して前記ビデオ・フィードを分析させるための、前記プロセッサによって実行可能なコードを含み、前記コードが更に、前記プロセッサに、前記モバイル・コンピューティング・デバイスから遠隔に位置するビデオ・カメラから前記ビデオ・フィードを受信させる、コンピュータ可読非一時的プログラマブル製品。
【請求項20】
前記コードが更に、前記プロセッサに、前記1つ又は複数のパラメータに関連付けられたメタデータを識別させる、請求項19に記載のコンピュータ可読非一時的プログラマブル製品。
【請求項21】
前記1つ又は複数のパラメータが、人を示す、請求項19に記載のコンピュータ可読非一時的プログラマブル製品。
【発明の詳細な説明】
【技術分野】
【0001】
人々、荷物、又は注意を要する状況を識別するために、人工知能(AI:artificial intelligence)を使用することができる。
【背景技術】
【0002】
顔認識などに関わる範囲で、ビデオ・データの分析には、多くのハードウェア及びソフトウェアがつぎ込まれる場合がある。典型的には、このような機能性は、ネットワークを通じて、及び、ネットワーク上で、大規模に実施される。しかし、向上し続けるコンピューティング・デバイスの能力を考慮すると、ローカル・レベルでAI情報処理を提供する必要がある。
【発明の概要】
【0003】
図を参照して、特徴、態様、及び利点を以下に記載するが、図は、本発明を限定せず例示することを意図する。図中、同様の実施例の全体にわたって、類似する参照符号は、一貫して対応する特徴を示す。
【図面の簡単な説明】
【0004】
【
図1】家屋のドアにおけるドアベル/監視カメラを示す、ドアベル・システムの図である。
【
図2】ドアベル/監視カメラ・システムを伴う使用シナリオを描いた図である。
【
図3】ライブ・ビデオ・コールに関連するコール処理図である。
【
図4】ポケット推論に関連するコール処理フローを示す図である。
【
図5】AI推論エンジン(例えば、ニューラル・プロセッサ)及びコンピュータ・メモリを有するモバイル・コンピューティング・デバイスと通信している家に接続された、ドアベル又は監視カメラの図である。
【
図6】メタデータ(モバイル・コンピューティング・デバイス上のニューラル・プロセッサによって決定されたような、AI推論のためのもの)がモバイル・コンピューティング・デバイス上に記憶される、処理フローを例示するフローチャートである。
【
図7】ドアベル・データに関連するAI推論メタデータのストレージがモバイル・コンピューティング・デバイスにおいてローカルに記憶される、AI推論エンジンを有するモバイル・コンピューティング・デバイスを示すブロック図である。
【
図8】モバイル・コンピューティング・デバイス上でのAI推論を使用してニューラル・プロセッサによって決定されたようなメタデータがモバイル・コンピューティング・デバイスから遠隔に記憶される、処理フローを例示するフローチャートである。
【発明を実施するための形態】
【0005】
スマートフォンなどのモバイル・コンピューティング・デバイスは、さもなければ使用されないか又は十分に活用されない計算力を呈する、使用することができる人工知能エンジンを含む。
【0006】
図1は、ドアベル/監視カメラ・システム100を図示し、家屋106のドア104におけるドアベル・カメラ102を示している。AIエンジン108が、スマートフォン110に含まれる。
【0007】
図2に、
図1のドアベル/監視カメラ・システムを伴う、使用シナリオを描いた図を図示する。配達員202が、荷物204を家屋106に持ってきている。ドアベル・カメラ又は監視カメラであり得るカメラ102が、音声の有無を問わず、家屋106に接近する配達員202の1つ又は複数の画像を撮影する。配達員202からの配達データは、カメラ102からのデータのまま、ネットワーク210に配信される。ネットワーク210は、ユーザ214のスマートフォン110に直接、又は、配達情報システム216を通じて、スマートフォン110に配達イベント・データをストリーミングすることができる。
【0008】
ドアベル・カメラ及び/又は監視カメラに関連する人々及び物を識別するために、人工知能を使用することができる。また、ビデオ情報の処理と共に使用される、クラウド及びエッジ(クラウドは、オンデマンド・コンピュータ・システム・リソースを指し、エッジは、データのソースの近くでの分散されたデータ・ストレージ及び情報処理を指す)のパラダイムがある。
【0009】
ストリーミング・ビデオの場合、推論を使用して、人工知能(AI)を使用して、ビデオ情報及び/又は音声情報から物を推論することができる。AI推論は、コンピュータ・ビジョン又は機械学習と呼ばれる場合もあり、これを遂行するために、よく知られたやり方が存在する。より具体的には、ニューラル・プロセッサが、ドアベル・カメラ及び/又は監視カメラのビデオ・データ及び/又は音声データを使用して、そのデータに関する特定の物を推論することができる。AI推論では、何らかの顔若しくは人体又は荷物若しくはペットが、記録されたカメラ画像に存在するかどうか、又は、記録された音声において識別されるかどうかを、知らせることができる。更に、AI推論は、例えば荷物が住居から盗まれるなどの、盗難状況において使用することができる。結果となる推論情報は、クラウドを通じて、ユーザのモバイル・デバイスにおいて、ユーザに報告することができる。ライブ・コールを受けてから、そのライブ・コールに関するメタデータを受信するまでの間に、比較的長い時間が経過する。例えば、推論によって、人物、荷物、車種などを識別することができる。
【0010】
いくつかの場合には、クラウド・コンピューティングによって、AI推論を実行することができる。
図3に、ライブ・ビデオ・コールに関連するコール処理図を例示する。
図3を参照すると、監視カメラ又はドアベル・カメラからの画像又はビデオを、ライブ・コール中に、ライブ・ストリーム・デコーダ(図示せず)によって復号するため、及び画面(図示せず)上で表示するためのスマートフォンなどのモバイル・コンピューティング・デバイスに、ストリーミングすることができる。このストリーミングされた情報は、一般的にその後廃棄されるが、この情報の第2のフィードを、クラウド(バックエンド・クラウドと示される)において記録することができる。この情報を、人工知能サービス(クラウドAIサービス)に送信することができ、そこで、クラウドにおける処理によって、推論が検出されるデータから推論(ストリーム中で誰が、何が、どこに存在するかなどに関する)を行うことができる。この推論情報は、クラウドに報告され(バックエンド・クラウドにおける記憶のため)、そして、例えばメタデータとして、モバイル・コンピューティング・デバイスに転送することができる。より具体的には、クラウドにおいて、「SageMaker」(商標)(Amazon Web Services(商標)(AWS)を通じて提供される)などのツールを使用して、典型的にはビデオ・ストリームに関する分析を実行するためにチップ・ベンダが提供する、ライブラリを使用することによって、ビデオから情報を推論するための、エッジにおけるやり方がある。この推論によって、そこに人物はいるか、そこに荷物はあるか、そこに車はあるか、などの、ビデオ又は画像に関わる質問に答えることができる。
【0011】
クラウド及びエッジのパラダイムの先に、フォグがある。フォグとは、エッジに接続されたデバイスを指す。クラウド又はエッジにおいて推論を行う代わりに、携帯電話においてローカルに(例えば、フォグにおいて、又は、「ファー」エッジにおいて)、推論を決定することができる。現在のスマートフォンは、典型的には、ニューラル・プロセッサを含み、物体、イベントなどを識別するために使用される人工知能プログラムに関連して、このリソースを有利に使用することができる。既に電話に存在する可能性があるニューラル・プロセッサを使用することによって、ドアベルの場所にそのような能力を配する必要もなくする。特に、より新しい電話は、通常の汎用プロセッサ付近に配置されたニューラル・プロセッサを有して販売されている。
【0012】
更に、ドアベル処理ハードウェアをアップグレードするよりも、携帯電話において処理能力がアップグレードされる可能性が高い。本明細書において、モバイル・コンピューティング・デバイスにおけるAI推論を、「イン・ザ・ポケット」と呼び、ポケットとは、典型的に携帯電話があり得る場所を表す。これらの推論決定をモバイル・コンピューティング・デバイスにおいてローカルに行うことは、利点をもたらす。例えば、携帯電話は、エッジにおいて利用可能なものよりはるかに高い処理力を有することが多く、それを使用することで、クラウドより遅延が少なくなる可能性が高い。更に、クラウドにおいて機能が使用される度に料金がかかるため、イン・ザ・ポケット(即ち、フォグにおける)での処理は、クラウドにおける処理より使用が安価である。対照的に、同様の機能性を提供する携帯電話では、処理料金がかからない。
【0013】
更に、携帯電話は、AI推論が必要なデバイスに近い可能性があるため、リアルタイム・レイテンシに関する利点があり得る。したがって、携帯電話は、そのようなデバイス(例えば、ドアベル・カメラ)に、インターネット全般を通じるのではなくWi-Fiなどのローカル・エリア・ネットワークを通じて、直接接続されてもよい。携帯電話がデバイスから非常に遠隔にありインターネット全般を通じて通信する事例においても、イン・ザ・ポケット推論は、クラウド又はエッジ推論に勝るレイテンシの利点を必ずしも提供しない可能性があるとしても、コストにおける利点は残る。
【0014】
フォグにおいてAI推論を実施する更なる利点は、ポケット推論が、サービス・プロバイダなどの文言への信頼を必要としない、プライバシー保証をもたらすということである。例えば、クラウド・プロバイダは、例えば玄関に来た他人にビデオを示すなどして、個人情報を漏洩しないということについて、ユーザがクラウド・プロバイダを信用することができると主張する場合がある。更に、彼らは、「我々はあなたの情報を見ることはない」などの主張を行う場合がある。ポケット推論は、クラウド・プロバイダが監視画像又はビデオのコピーを見ることを許容しないことから、そのビデオはクラウドにはないため、ポケット推論では、このような信用は不要である。
【0015】
図4に、ポケット推論に関連するコール処理フローを図示する。
図5に、AI推論エンジン(例えば、ニューラル・プロセッサ)及びコンピュータ・メモリを有するモバイル・コンピューティング・デバイスと通信している家に接続された、ドアベル又は監視カメラの図を示す。
図4に示すように、ドアベル・カメラ又は監視カメラからのビデオ・データ及び/又は音声データは、ドアベル・システムと接続されたモバイル・コンピューティング・デバイスにストリーミングされる。デコーダが、この情報を復号して、モバイル・コンピューティング・デバイス上で画像を表示する。更に、モバイル・コンピューティング・デバイスのニューラル・プロセッサ上で動作するソフトウェアと関連して、ストリーミングされたデータからのAI推論情報が、処理される。ライブ・ストリーム復号とAI推論は、同時であってもよい。要するに、ライブ・コールからビデオ・フレームが復号される。フレームの表示に加えて、フレームが廃棄される前に、フレームは、バックグラウンドで、推論を使用してニューラル・プロセッサによって処理される。ドアベル・システム(ドアベル・カメラ及び/又は他の監視カメラを含む)からのメタデータは、クラウド(バックエンド・クラウドと表記される)において記憶してもよい(
図4及び
図5に示すように)。或いは、メタデータは、モバイル・コンピューティング・デバイスにおいてローカルに記憶してもよい。
【0016】
図6は、メタデータ(モバイル・コンピューティング・デバイス上のニューラル・プロセッサによって決定されたような、AI推論のためのもの)がモバイル・コンピューティング・デバイス上に記憶される、処理フローを例示するフローチャートである。
【0017】
図7に、ドアベル・データに関連するAI推論メタデータのストレージがモバイル・コンピューティング・デバイスにおいてローカルに記憶される、AI推論エンジンを有するモバイル・コンピューティング・デバイスを示すブロック図を例示する。
【0018】
図8は、モバイル・コンピューティング・デバイス上でのAI推論を使用してニューラル・プロセッサによって決定されたようなメタデータがモバイル・コンピューティング・デバイスから遠隔に記憶される、処理フローを例示するフローチャートである。
【0019】
モバイル・コンピューティング・デバイス上で実施されるAI推論と共に、分散コンピューティングを使用することもできる。したがって、必要なAI推論を実施するために、2つ以上のデバイスが使用されてもよい。例えば、参加するスマートフォン所有者間での会計、請求、クレジットの付与などの発生を詳述するブロックチェーンに関連するネットワーク内の携帯電話から、AIエンジン能力を借用してもよい。更に、ニューラル・プロセッサを有しない、より古いスマートフォンは、別のスマートフォンのニューラル処理能力を借用することができるということが企図される。更に、AI推論デューティは、モバイル・デバイスと、例えばパーソナル・コンピュータ、タブレットなどとの間で共有されてもよい。言い換えると、AI推論タスクは、ドアベル・システム所有者の管理下にある別のデバイス又はプライベート・サーバ(又は、エッジに近いどこか)にオフロードされてもよい。本明細書における応用は、リアルタイムにストリーミングするビデオだけでなく、音声にも当てはまる。多くのモノのインターネット(IoT:Internet of Things)アプリケーションは、テレメトリ・データをクラウドに送信することに関わり、クラウドで、テレメトリ・データは処理される(意思決定及び推論実行に関して)。これは、エッジにおいて行われてもよく、フォグにおいて行われてもよい。コンピュータ・ビジョン及び分析に関して、多くのオープン・ソース・ライブラリが利用可能であり、スマートフォンなどのモバイル・コンピューティング・デバイスにダウンロードして使用することができる。
【0020】
本明細書において記載されたステップはいずれも、必須又は不可欠ではない。ステップのいずれかが、調整又は修正されてもよい。他の又は追加のステップが、使用されてもよい。本明細書における1つの実施例、フローチャート、又は実例において開示又は例示されたステップ、処理、構造、及び/又はデバイスのいずれかの任意の部分が、別の実施例、フローチャート、又は実例において開示又は例示されたステップ、プロセス、構造、及び/又はデバイスのいずれかの任意の他の部分と組み合わされてもよく、共に使用されるか、又は代わりに使用されてもよい。本明細書において与えられる実施例及び実例は、互いに別個で分離されたものとして意図されない。
【0021】
本明細書において与えられるセクションの見出し及び小見出しは、非限定的である。セクションの見出し及び小見出しは、その見出し及び小見出しが属するセクションにおいて記載される実施例の全範囲を表さず、これを限定しない。例えば、「トピック1」と題されたセクションが、トピック1に属さない実施例を含んでもよく、他のセクションにおいて記載された実施例が、「トピック1」セクションにおいて記載された実施例に適用されてもよく、それと組み合わされてもよい。
【0022】
上記の様々な特徴及び処理は、独立して使用されてもよく、様々なやり方で組み合わされてもよい。全てのあり得る組合せ及び副組合せが本開示の範囲内に入ることが、意図される。更に、いくつかの実施態様において、特定の方法、イベント、状態、又は処理ブロックが、省略されてもよい。また、本明細書において記載された方法、ステップ、及びプロセスは、何らかの特定の順序にも限定されず、それに関するブロック、ステップ、又は状態は、他の適当な順序で実施されてもよい。例えば、記載されたタスク又はイベントは、具体的に開示された順番とは異なる順番で実施されてもよい。複数のステップが、単一のブロック又は状態に組み合わされてもよい。例示的タスク又はイベントは、順次実施されてもよく、並行して実施されてもよく、何らかの他の手法で実施されてもよい。タスク又はイベントが、開示された例示的実施例に追加されてもよく、またそこから除かれてもよい。本明細書において記載された例示的システム及び構成要素は、記載されたものとは異なるように構成されてもよい。例えば、開示された例示的実施例に、要素が、追加されてもよく、そこから除かれてもよく、それと比べて配置転換されてもよい。
【0023】
特に「できる」、「し得る」、「してもよい」、「場合がある」、「例えば」などの、本明細書において使用される条件語法は、異なるものと明記されない限り、又は使用されるような文脈において異なるように理解されない限り、特定の実施例が特定の特徴、要素、及び/又はステップを含み、一方で他の実施例はそれらを含まないということを意味するものとして、一般に意図される。したがって、このような条件語法は、特徴、要素、及び/又はステップが、1つ又は複数の実施例にとって何らかの形で必要とされるということ、又は、1つ又は複数の実施例が、筆者の入力又はプロンプティングの有無を問わず、これらの特徴、要素、及び/又はステップが、いずれかの特定の実施例において含まれるか又は実行されるかどうかを判断するためのロジックを必ず含むということを、示唆することを一般に意図されない。「備える」、「含む」、「有する」などの用語は、類義語であり、オープンエンド形式で包括的に使用され、追加の要素、特徴、行為、動作などを排除しない。また、「又は」という用語は、包括的な意味(排他的な意味でではなく)で使用され、例えば要素のリストを連結するために使用される場合、「又は」という用語は、リスト内の要素の内の1つ、いくつか、又は全てを意味する。「X、Y、及びZの内の少なくとも1つ」という語句などの連言語法は、異なるものと明記されない限り、項目、用語などがX、Y、又はZいずれであってもよいということ一般に意味するものとして、使用されるような文脈において異なるように理解される。したがって、このような連言語法は、特定の実施例が少なくとも1つのX、少なくとも1つのY、及び少なくとも1つのZがそれぞれ存在することを必要とするということを示唆することを、一般に意図されない。
【0024】
「及び/又は」という用語は、いくつかの実施例には「及び」が適用され、いくつかの実施例には「又は」が適用されるということを意味する。したがって、A、B、及び/又はCは、ある文で書かれる際にはA、B、及びCと置換されてもよく、別の文で書かれる際にはA、B、又はCと置換されてもよい。A、B、及び/又はCは、いくつかの実施例はA及びBを含んでもよく、いくつかの実施例はA及びCを含んでもよく、いくつかの実施例はB及びCを含んでもよく、いくつかの実施例はAのみを含んでもよく、いくつかの実施例はBのみを含んでもよく、いくつかの実施例はCのみを含んでもよく、いくつかの実施例はA、B、及びCを含んでもよい、ということを意味する。「及び/又は」という用語は、不要な冗長性を避けるために使用される。
【0025】
特定の例示的実施例を記載したが、これらの実施例は例としてのみ提示されており本明細書において開示される本発明の範囲を限定することを意図されない。したがって、上記記載の全ては、何らかの特定の特徴、特性、ステップ、モジュール、又はブロックが必須又は不可欠であるということを示唆することを意図されない。むしろ、本明細書において記載された新規な方法及びシステムは、様々な他の形態において具現化されてもよく、更に、本明細書において記載された方法及びシステムの形態における様々な省略、置換、及び変更が、本明細書において開示された本発明の趣旨から逸脱することなく、なされてもよい。
【国際調査報告】