IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特許7435130屋内位置特定のための方法、サーバ、及びプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-13
(45)【発行日】2024-02-21
(54)【発明の名称】屋内位置特定のための方法、サーバ、及びプログラム
(51)【国際特許分類】
   G06T 7/70 20170101AFI20240214BHJP
   G06T 7/00 20170101ALI20240214BHJP
【FI】
G06T7/70 A
G06T7/00 350C
【請求項の数】 20
(21)【出願番号】P 2020055174
(22)【出願日】2020-03-25
(65)【公開番号】P2020166856
(43)【公開日】2020-10-08
【審査請求日】2023-02-28
(31)【優先権主張番号】16/370676
(32)【優先日】2019-03-29
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】キム チョルファン
(72)【発明者】
【氏名】バート チダンシュ アミットクマー
(72)【発明者】
【氏名】パテル ミタッシュクマー
(72)【発明者】
【氏名】ドナルド ジー キンバー
【審査官】小池 正彦
(56)【参考文献】
【文献】特開2018-194366(JP,A)
【文献】特開2018-156333(JP,A)
【文献】TAIRA Hajime,外7名,InLoc: Indoor Visual Localization with Dense Matching and View Synthesis,2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,米国,IEEE,2018年06月23日,p7199-7209,DOI: 10.1109/CVPR.2018.00752
【文献】YANG Linjie,外4名,Efficient Video Object Segmentation via Network Modulation,2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,米国,IEEE,2018年06月23日,p6499-6507,DOI: 10.1109/CVPR.2018.00680
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/70
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実行される屋内環境のための位置特定方法であって、
リアルタイムで、第1のソースからの動的クエリと、第2のソースからの静的入力を受信すること、
埋め込みネットワークとしての深層CNN上で前記動的クエリの特徴を抽出すること、
条件ネットワークとしてのCNNを適用することにより前記静的入力の特徴を抽出し、前記静的入力の前記抽出された特徴を集約して特徴変換を生成し、前記特徴変換を用いることにより前記埋め込みネットワークの中間特徴を調整すること、
及び、
トリプレット損失関数を適用して前記埋め込みネットワークと前記条件ネットワークとを最適化し、位置特定結果を提供すること、
を含む方法。
【請求項2】
前記位置特定結果が、前記屋内環境下の前記第1のソースの位置を示す予測を含む、請求項1に記載の方法。
【請求項3】
前記動的クエリが画像を含み、前記第1のソースが、ユーザに関係するモバイル端末デバイスであり、前記リアルタイムの静的入力が、前記屋内環境下でネットワークを形成するカメラを含む前記第2のソースからの静的画像を含む、請求項1に記載の方法。
【請求項4】
前記静的入力がジオタグ付きである、請求項1に記載の方法。
【請求項5】
前記位置特定結果が、前記屋内環境下の予測不可能な条件及び/又は構造化されていない条件において提供される、請求項1に記載の方法。
【請求項6】
前記予測不可能な条件が、前記屋内環境下の物体及び/又は人物の変化を含み、前記構造化されていない条件が、前記屋内環境の配置の変化を含み、前記静的入力に関する前記抽出された特徴が、ハイレベルのコンテキスト情報を含み、前記特徴変換が、スケーリングパラメータとシフティングパラメータを含む、請求項5に記載の方法。
【請求項7】
前記深層CNN上で前記動的クエリの特徴を抽出することが、距離学習CNNを適用すること、及び前記深層CNN上で前記動的クエリの特徴を繰り返し抽出し、前記特徴変換を前記深層CNNに融合すること、をさらに含む、請求項1に記載の方法。
【請求項8】
屋内環境での位置特定が可能なサーバであって、
リアルタイムで、第1のソースからの動的クエリと、第2のソースからの静的入力を受信する動作、
埋め込みネットワークとしての深層CNN上で前記動的クエリの特徴を抽出する動作、
条件ネットワークとしてのCNNを適用することにより前記静的入力の特徴を抽出し、前記静的入力の前記抽出された特徴を集約して特徴変換を生成し、前記特徴変換を用いることにより前記埋め込みネットワークの中間特徴を調整する動作、
及び、
トリプレット損失関数を適用して前記埋め込みネットワークと前記条件ネットワークを最適化し、位置特定結果を提供する動作、
を実行するように構成される、サーバ。
【請求項9】
前記位置特定結果が、前記屋内環境下の前記第1のソースの位置を示す予測を含む、請求項8に記載のサーバ。
【請求項10】
前記動的クエリが画像を含み、前記第1のソースが、ユーザに関係するモバイル端末デバイスであり、前記リアルタイムの静的入力が、前記屋内環境下でネットワークを形成するカメラを含む前記第2のソースからの静的画像を含む、請求項8に記載のサーバ。
【請求項11】
前記静的入力がジオタグ付きである、請求項8に記載のサーバ。
【請求項12】
前記位置特定結果が、前記屋内環境下の予測不可能な条件及び/又は構造化されていない条件において提供され、前記予測不可能な条件が、前記屋内環境下の物体及び/又は人物の変化を含み、前記構造化されていない条件が、前記屋内環境の配置の変化を含む、請求項8に記載のサーバ。
【請求項13】
前記深層CNN上で前記動的クエリの特徴を抽出することが、距離学習CNNを適用すること、及び前記深層CNN上で前記動的クエリの特徴を繰り返し抽出し、前記特徴変換を前記深層CNNに融合すること、をさらに含む、請求項8に記載のサーバ。
【請求項14】
前記静的入力に関する前記抽出された特徴が、ハイレベルのコンテキスト情報を含み、前記特徴変換が、スケーリングパラメータとシフティングパラメータを含む、請求項8に記載のサーバ。
【請求項15】
屋内環境での位置特定のためのプログラムであって、
コンピュータに、
リアルタイムで、第1のソースからの動的クエリと、第2のソースからの静的入力を受信すること、
埋め込みネットワークとしての深層CNN上で前記動的クエリの特徴を抽出すること、
条件ネットワークとしてのCNNを適用することにより前記静的入力の特徴を抽出し、前記静的入力の前記抽出された特徴を集約して特徴変換を生成すること、及び
トリプレット損失関数を適用して前記埋め込みネットワークと前記条件ネットワークを最適化し、位置特定結果を提供すること、
を実行させるためのプログラム。
【請求項16】
前記位置特定結果が、前記屋内環境下の前記第1のソースの位置を示す予測を含む、請求項15に記載のプログラム。
【請求項17】
前記動的クエリが画像を含み、前記第1のソースが、ユーザに関係するモバイル端末デバイスであり、前記リアルタイムの静的入力が、前記屋内環境下でネットワークを形成するカメラを含む前記第2のソースからの静的画像を含み、前記静的入力がジオタグ付きである、請求項15に記載のプログラム。
【請求項18】
前記深層CNN上で前記動的クエリの特徴を抽出することが、距離学習CNNを適用すること、及び前記深層CNN上で前記動的クエリの特徴を繰り返し抽出し、前記特徴変換を前記深層CNNに融合すること、をさらに含む、請求項15に記載のプログラム。
【請求項19】
前記位置特定結果が、前記屋内環境下の予測不可能な条件及び/又は構造化されていない条件において提供され、前記予測不可能な条件が、前記屋内環境下の物体及び/又は人物の変化を含み、前記構造化されていない条件が、前記屋内環境の配置の変化を含む、請求項15に記載のプログラム。
【請求項20】
前記静的入力に関する前記抽出された特徴が、ハイレベルのコンテキスト情報を含み、前記特徴変換が、スケーリングパラメータとシフティングパラメータを含む、請求項15に記載のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の例示的実施形態の態様は、リアルタイムでコンテキスト情報を学習しながら、ユーザデバイスにより撮影された画像により補強された、監視カメラにより撮影された静的画像などの静的画像からの視覚的特徴に基づく屋内位置特定情報を提供することに関する方法、システム、及びユーザ経験に関する。
【背景技術】
【0002】
知らない建物や大型複合施設の屋内を容易にナビゲートすることができる関連技術へのニーズがある。全地球測位システム(GPS)又は他のナビゲーションツールなどの関連技術の手法では、十分な情報を提供できない。例えば、ロボット工学や人に対するナビゲーションにおいて、関連技術の手法は、モノのインターネット(IoT)及び/又はコンピュータビジョン(CV)などの大規模な知覚インフラを有する解決法に焦点を当ててきた。そのような関連技術の手法は、冬と夏との間の季節による変化、又は昼間と夜間の間の変化などの予測可能なシナリオや、頻繁には変化しない建築構造を有する通り道などの構造化されたシナリオにおける視覚化を提供し得る。
【0003】
前記関連技術では、オフィス、大学、ショッピングモール、空港、スポーツ会場、集会場などの大きな建物内で人や場所の位置を特定するための、屋内位置特定がユーザにより望まれている。そのような屋内位置特定は、ユーザの位置を認識するのに有用であり、投稿や画像に自動でタグ付けするなどの機能を実行できるアプリケーション(例えば、コンテキスト適応型アプリケーション)との統合にも有用である。さらに、前記関連技術の屋内位置特定は、屋内環境下において、ロボット工学アプリケーションや、拡張現実(AR)/仮想現実(VR)アプリケーションにも有用である。
【先行技術文献】
【非特許文献】
【0004】
【文献】DAVIDSON, P., et al., A Survey of Selected Indoor Positioning Methods for Smartphones, IEEE Communications Surveys & Tutorials, 19(2), 2017, pp.1347-1370.
【文献】XU, H., et al., Indoor localization via multi-modal sensing on smartphones, UbiComp'16, In Proceedings of the 2016 ACM International Joint Conference on Pervasive and Ubiquitous Computing, September 12-16, 2016 Heidelberg, Germany, pp. 208-219.
【文献】TAIRA,H., et al., InLoc: Indoor Visual Localization with Dense Matching and View Synthesis, CVPR'18, IEEE Conference on Computer Vision and Pattern Recognition, June 2018, Salt Lake City, pp.7199-7209.
【文献】YAN, J., et al., Low-Cost Vision-Based Positioning System, 14th International Conference on Location Based Services (LBS 2018), Zurich, Switzerland, January 15-17, 2018, pp.44-49.
【文献】CARRILLO,D., et al., MagicFinger: 3D Magnetic Fingerprints for Indoor Location, Sensors(Basel), July 2015, 15(7), pp.17168-17194.
【文献】PATEL,M., et al., ContextualNet: Exploiting Contextual Information using LSTMs to Improve Image-based Localization, IEEE International Conference on Robotics and Automation (ICRA), 2018, 7pgs.
【文献】LOWE, D. G., Object recognition from local scale-invariant features, The Proceedings of the Seventh IEEE International Conference, 1999, Vol. 2, pp.150-1157.
【文献】BAY, H., et al., SURF: Speeded-up robust features, European Conference on Computer Vision, 2006, pp. 404-417.
【文献】DETONE, D., et al., SuperPoint: Self-Supervised Interest Point Detection and Description, arXiv:1712.07629, December 20, 2017, pp. 337-349.
【文献】PHILBIN, J., et al., Object retrieval with large vocabularies and fast spatial matching, 2007 IEEE Conference on Computer Vision and Pattern Recognition, June 17, 2007, pp. 1-8.
【文献】JEGOU, H., et al., Aggregating local image descriptors into compact codes, IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(9), September 2012, 13pgs.
【文献】SCHROFF, F., et al., FaceNet: A Unified Embedding for Face Recognition and Clustering, In Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2015, 10 pgs.
【文献】ARANDJELOVIC, R., et al., NetVLAD: CNN Architecture for Weakly Supervised Place Recognition, in IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(6), June 1, 2018, pp. 5297-5307.
【文献】PEREZ, E., et al., FiLM: Visual Reasoning with a General Conditioning Layer, arXiv: 1709.07871, September 22, 2017, 13 pgs.
【文献】GHIASI, G., et al., Exploring the structure of a real-time, arbitrary neural artistic stylization network, arXiv: 1705.06830, May 18, 2017.
【文献】WANG,X., et al., Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform, arXiv: 1804.02815, April 9, 2018, 10 pgs.
【発明の概要】
【発明が解決しようとする課題】
【0005】
関連技術の屋内位置特定の手法は、全地球航法衛星システム(GNSS)対応のGNSS支援型受信機など、スマートフォンの装備の使用に焦点を当ててきた。この関連技術の手法の有用性は、スマートフォンを用いた道案内などの機能に限定される。さらに、GPSなどの関連技術の手法は、屋内環境下における見通し外(NLOS:Non Line Of Sight)問題に起因するGPS信号に関する問題と欠点のために、うまく機能しない。
【0006】
前記関連技術の手法には、様々な欠点と問題がある。例えば、限定はされないが、前記関連技術の手法は、イベントなどで閉じられた場所内で人の数が変化するなどの予測不可能な変化が起きる状況や、閉じられた空間に関して家具や間取りが変化するなどの構造化されていない変化が起きる状況に対しては、正確な位置特定を提供できない。前記関連技術のシステムは、これらのタイプの変化を考慮できない。
【0007】
より具体的には、関連技術の手法は、端末デバイスを用いて屋内位置特定を確実に与える技術を提供していない。無線ローカル・エリア・ネットワーク、携帯電話、UWB、RFID、NFC、Bluetooth(登録商標) Low Energyなど、無線周波数(RF)信号を含む関連技術の手法が、スマートフォンに対して試みられてきた。しかし、これらの関連技術の手法は、屋内位置特定へのニーズに対して完全な解決法を提供できていない。さらに、これらの関連技術の手法では、新しいインフラを配備する必要がある。また、前記関連技術の手法では、多数のセンサを有するインフラの維持管理費が高くつく可能性があり、前記センサ及び前記インフラが変化すると結果を提供できない可能性がある。
【0008】
他の関連技術の手法は、コンピュータビジョンをベースにしたスマートフォン及び監視カメラに関する。しかし、これらの関連技術の手法では、大規模な画像を伴い、画像データベースを構築するための事前較正が必要である。このような関連手法には多くの労力と経費がかかるため、リアルタイムでの位置特定の要件を満たすことができない。さらに、これらの関連技術の手法では、人数の変化や環境のレイアウトの変化などの要因により、異なる時刻に収集された画像データ間で大きな差異が生じる。
【0009】
より具体的には、コンピュータビジョンをベースにした技術では、関連技術の特徴ベースの画像と画像のマッチングを使用するが、正確な結果を提供できない。例えば、異なる視点から撮影された内容について大きな差異が生じるし、各ゾーン内の静的カメラ画像と動的カメラ画像との間でも大きな差異が生じる。さらに、各監視カメラの視野には限界があり、各ゾーン内の全ての環境コンテキストをカバーできない可能性がある。加えて、前記関連技術は、全ゾーンにわたって環境コンテキストが完全には組み込まれていないので、環境全体では壁、カーペット、天井などが類似していることにより複数の異なるゾーンが視覚的に類似してしまう等、様々な問題と欠点を生じさせる可能性がある。このような関連技術の手法では、前記コンピュータビジョンのゾーン検出タスクに混乱が生じて、検出結果にエラーが生じる可能性がある。
【0010】
図1は、関連技術の手法が屋内位置特定を提供できない様々な状況100を示している。例えば、101では、大勢の人がいてシャッターが開いている屋内環境が示されている。103では、同じ屋内環境ではあるが、人がおらず、シャッターも閉まっている状態が示されている。加えて、105では、額入りのアート作品が壁に掛けられ、コンピュータモニタが机の上に置かれ、天井の照明が消され、椅子が机から離れたところにある屋内環境が示されている。107では、同じ屋内環境ではあるが、額入りのアート作品が壁に掛かっておらず、コンピュータモニタは机の同じ位置にあり、天井の照明が点いており、椅子が各コンピュータモニタの前の位置に戻されている状態が示されている。これらの各環境下において、前記関連技術の手法では、前記局所的環境の変化を考慮した位置特定情報を提供できない。よって、前記局所的環境の変化を考慮に入れた屋内位置特定情報の提供について、満たされていないニーズが存在している。
【0011】
よって、前記局所的環境の変化を考慮に入れた屋内位置特定情報の提供について、満たされていないニーズが存在している。
【0012】
本発明の目的は、局所的環境の変化を考慮に入れた屋内位置特定情報を提供することができる方法、システム、及びプログラムを提供することにある。
【課題を解決するための手段】
【0013】
本発明の例示的な実施形態の態様によると、コンピュータにより実行される屋内環境のための位置特定方法は、リアルタイムで、第1のソースからの動的クエリと、第2のソースからの静的入力を受信すること、埋め込みネットワークとしての深層畳み込みニューラルネットワーク(CNN)上で前記動的クエリの特徴を抽出すること、条件ネットワークとしてのCNNを適用することにより前記静的入力の特徴を抽出し、前記静的入力の前記抽出された特徴を集約して特徴変換を生成し、前記特徴変換を用いることにより前記埋め込みネットワークの中間特徴を調整すること、及びトリプレット損失関数を適用して前記埋め込みネットワークと前記条件ネットワークを最適化し、位置特定結果を提供すること、を含む。
【0014】
本発明の例示的な実施形態の態様によると、前記深層CNN上で前記動的クエリの特徴を抽出することが、距離学習CNNを適用すること、及び前記深層CNN上で前記動的クエリの特徴を繰り返し抽出し、前記特徴変換を前記深層CNNに融合させること、をさらに含む。
【0015】
本発明の例示的な実施形態のいくつかの態様によると、前記位置特定結果が、前記屋内環境下の前記第1のソースの位置を示す予測を含む。
【0016】
他の態様によると、前記動的クエリが画像を含み、前記第1のソースが、ユーザに関係するモバイル端末デバイスであり、前記リアルタイムの静的入力が、前記屋内環境下でネットワークを形成するカメラを含む前記第2のソースからの静的画像を含む。
【0017】
追加の態様によると、前記静的入力がジオタグ付きである。
【0018】
さらに他の態様によると、前記位置特定結果が、前記屋内環境下の予測不可能な条件及び/又は構造化されていない条件において提供される。さらに、前記予測不可能な条件は、前記屋内環境下の物体及び/又は人物の変化であってもよく、前記構造化されていない条件は、前記屋内環境の配置の変化であってもよい。
【0019】
さらなる態様によると、前記静的入力に関する前記抽出された特徴が、ハイレベルのコンテキスト情報を含み、前記特徴変換が、スケーリングパラメータとシフティングパラメータを含む。
【0020】
さらに、例示的な実施形態は、記憶装置とプロセッサを有する非一時的コンピュータ可読媒体を含んでもよく、前記プロセッサは、特許が条件を有するかを評価するための命令を実行することができる。
【0021】
本件の特許又は出願の書類は、少なくとも1枚のカラー図面を含む。本件の特許公報又は特許出願の公開公報にカラー図面(単数又は複数)を添付したコピーは、要求に応じて、必要な費用の納付後に、特許庁より提供される。
【図面の簡単な説明】
【0022】
図1図1は、種々の例示的環境に関する関連技術の障害事例を示す図である。
図2図2は、例示的な実施形態によるベースライン・ネットワーク・アーキテクチャを示す図である。
図3図3は、第1の例示的な実施形態による情報融合を示す図である。
図4図4は、第2の例示的な実施形態による情報融合を示す図である。
図5図5は、種々の例示的な実施形態で、動的センサ及び静的センサにより感知された例示的環境を示す図である。
図6図6は、本発明の例示的な実施形態による、例示的環境下での動的センサの一例を示す図である。
図7図7は、1又は複数の例示的な実施形態による、例示的なベースライン・アーキテクチャに関するプロセスの一例を示す図である。
図8図8は、いくつかの例示的な実施形態での使用に適した例示的なコンピュータ・デバイスを備えたコンピューティング環境の一例を示す図である。
図9図9は、いくつかの例示的な実施形態に適した環境の一例を示す図である。
図10a図10Aは、本発明の例示的な実施形態に関するユーザ経験の一例を示す図である。
図10b図10Bは、本発明の例示的な実施形態に関するユーザ経験の一例を示す図である。
図10c図10Cは、本発明の例示的な実施形態に関するユーザ経験の一例を示す図である。
図10d図10Dは、本発明の例示的な実施形態に関するユーザ経験の一例を示す図である。
図10e図10Eは、本発明の例示的な実施形態に関するユーザ経験の一例を示す図である。
【発明を実施するための形態】
【0023】
下記の詳細な説明により、本出願の図面及び例示的な実施形態のさらなる詳細が提供される。図面間で重複する要素の参照符号及び説明は、分かりやすくするために省略される。詳細な説明に使用される用語は、一例として提供されており、限定を意図していない。
【0024】
本発明の例示的な実施形態の態様は、リアルタイムでコンテキスト情報を学習しながら、スマートデバイスなどのユーザデバイスからの画像により提供される動的情報により補強された、監視カメラなどの検知デバイスにより撮影された静的画像に基づいて屋内位置特定用の視覚情報を提供することにより、正確な位置特定を与えることに関する。例えば、これに限定はされないが、本発明の例示的な実施形態は、予測不可能な変化及び構造化されていない変化を有する環境について、個別の位置情報を、1又は複数のユーザに提供してもよく、それを屋内環境下でのナビゲーション及び/又は位置特定に使用することができる。
【0025】
本発明の例示的な実施形態によると、視覚をベースにした屋内位置特定システムが提供される。このシステムは、ほとんどの商業ビル空間及び大規模な公共の集会環境において見られる監視カメラシステムなどの既存の静的な検知インフラを有する屋内環境下において使用されてもよい。静的な検知インフラにより撮影された画像を使用することにより、本発明の例示的な実施形態は、その静的情報を、ユーザデバイスにより提供される動的画像と組み合わせて、屋内環境内のゾーンレベルの位置を取得し、ユーザやロボットが前記屋内環境下をうまく移動できるように補助する。例えば、本発明の例示的な実施形態は、より低いコスト、より高速でのスケーラブルな出力、そして関連技術の手法では失敗する環境下でのユーザビリティなどの利点を提供し得る。
【0026】
より具体的には、本発明の例示的な実施形態は、効果的な画像マッチング及び検索に関する。前記環境下において、前記環境を継続的に監視する監視カメラなどの静的な検知インフラの静的画像からの情報は、スマートフォンにより提供される動的なユーザ生成画像と融合される。よって、本発明の例示的な実施形態では、動的画像からの前記環境に関するリアルタイムの顕著な情報だけでなく、静的画像からのゾーン全体の予想不可能な環境変化及び構造化されていない環境変化の両方を活用する。
【0027】
本発明の例示的な実施形態の態様によると、画像検索パイプラインが提供される。より具体的には、画像マッチングアルゴリズムを用いて、ジオタグ付き画像データベースを視覚的に検索するためのクエリ画像が提供される。一致したデータベース画像の位置は、クエリ画像の位置を概算するために使用される。
【0028】
画像マッチングの視覚的分析のために、画像は、高い識別力を有する圧縮された視覚的特徴に符号化され、非常に正確で効率的な検索性能が達成されてもよい。手作業で作った局所特徴記述子、及び/又は視覚的特徴を単一のベクトルに圧縮する集約技術を使用する関連技術の画像検索システムとは対照的に、本発明の例示的な実施形態は、深層畳み込みニューラルネットワーク(CNN)を用いて、圧縮されたユークリッド埋め込み空間を学習するための距離学習技術の使用に関する。前記距離は、画像の視覚的な類似性の尺度に直接対応する。距離学習を含む本発明の例示的な実施形態は、視覚的マッチングを大幅に簡素化する。その視覚的マッチングは、学習された埋め込み空間内のL2ユークリッド距離を単純に2乗した値を用いて実行されてもよい。
【0029】
本発明の例示的な実施形態によると、トリプレット損失が、埋め込みを学習するために使用される。より具体的には、同じ場所で撮影された画像間のユークリッド距離は、カメラの姿勢や環境の変化などの要因に基づく観察条件に関係なく、実質的に最小化されるが、異なる場所で撮影された画像のペア間の距離は大きくなる。特徴抽出のために、深層CNNアーキテクチャが実施され、画像を局所記述子に符号化する。続いて、グローバルプーリング層により、全ての局所記述子が低次元空間内の単一のベクトルに集約される。本発明の例示的な実施形態による前記アーキテクチャのパラメータは、エンドツーエンド方式で訓練され、トリプレット損失は、視覚的検索タスクのための埋め込み空間を直接最適化するために使用される。
【0030】
図2は、200で、本発明の例示的な実施形態によるネットワークアーキテクチャを示す。例えば、情報201が、ユーザのスマートフォンに関係するカメラなどの動的センサから受信される。この画像は、クエリ画像を表す。クエリ画像は、203、205、207、209、211で、深層CNNアーキテクチャに提供され、深層CNNアーキテクチャは、前記画像を局所記述子に符号化する。215では、グローバルプーリング層が、局所記述子を低次元空間内の単一のベクトルに集約する。217では、トリプレット損失が確定される。言い換えれば、トリプレット損失関数が、屋内環境下の位置特定結果(例えば、前記第1のソースのゾーン位置の予測)を提供するための前記埋め込みネットワークを最適化するために適用される。
【0031】
本発明の例示的実施形態によると、距離学習フレームワーク内で、静的な検知インフラ及び動的な検知入力から取り込まれた情報を融合するために、2つの方法が提供される。これらの例示的方法は、それぞれ図3及び図4に図示されており、以下でさらに詳しく説明される。
【0032】
図3は、例示的な実施形態による、静的情報及び動的情報を融合させる第1の方法を示す。300に示されているように、監視カメラからの画像などの静的に検知された画像は、動的ソース並びに静的ソースから接続された画像でミニバッチを構成することにより、オンライン・トリプレット・マイニングにおいて使用される。これは、301及び303において、それぞれ入力として示されており、静的画像と動的画像から構成されるミニバッチ305を生成する。
【0033】
埋め込み空間が生成されると、動的ソースからのクエリ画像と、静的ソースからの画像との間の画像マッチングが実行される。なお、動的ソースからのクエリ画像については、図2に関連してスマートフォンのカメラの画像として上記でも説明した。画像マッチングは、事前に収集されたデータベースから情報を検索する必要なく、画像の収集と同時に行われる。このため、本発明の例示的な実施形態は、静的情報ソースである現在の監視カメラからのリアルタイムの情報をそのまま使用することができる。ゾーンレベルの予測ラベルは、下記の(1)のように表される。
【0034】
【数1】
【0035】
(t)は、時間tにおいて、スマートフォンのカメラなどの動的センサにより撮影されたクエリ画像を表す。xsi(t)は、同じ時間tにおいてゾーンi内で、監視カメラなどの静的ソースにより撮影された画像を表すことに留意されたい。
【0036】
上述の動作が行われると、図2に関連して上記で説明したように、特徴抽出及び集約が307において行われ、埋め込みベクトルが309において取得され、311のトリプレット損失が、307においてパラメータを最適化するために使用される。
【0037】
第2の例示的手法によると、動的情報ソース及び静的情報ソースは、特徴に関する変換を用いて融合され、それにより、静的カメラ画像上で条件付けられた埋め込みネットワークの挙動を交互にすることができる。
【0038】
図4は、本発明の例示的な実施形態による、第2の例示的手法400を示す。主要な埋め込みネットワークは、その入力として動的センサの画像を受信し、本明細書中で説明するように、動的センサの画像を圧縮されたユークリッド空間に埋め込む。より具体的には、これは、ユーザ端末から受信されたスマートフォン画像などの入力401として示され、埋め込みネットワーク407に供給される。
【0039】
加えて、403、405に示されているように、同じ時刻における1又は複数の監視カメラであってもよい静的ソースから受信された様々な画像を、その入力として受信する第2のネットワークが提供される。413及び415では、CNNアーキテクチャを用いて、ハイレベルなコンテキスト情報が、画像から抽出され集約される。417に示されているように、各畳み込みは複数の監視カメラで共有される。
【0040】
419のハイレベルなコンテキスト情報の抽出・集約の結果が、特徴変換層FTとしてネットワークの中間層の特徴を変換することにより、主要な埋め込みネットワーク407を調整するために提供される。特徴変換層FTは、条件付け情報をネットワークに統合し、変換は下記の(2)で表すことができる。
【0041】
FT(x)=γ*x+β (2)
【0042】
xは、407の埋め込みネットワークの中間層の特徴アクティベーションを表し、γ及びβは、それぞれ条件ネットワークにより生成されるスケーリングパラメータとシフティングパラメータを表すことに留意されたい。
【0043】
上記で説明した距離学習が行われ、埋め込みネットワーク407に統合されると、上記で説明したようにプーリングが実行され、続いて409で埋め込み、411でトリプレット損失の確定が行われる。
【0044】
埋め込みネットワーク407及び条件ネットワーク413、415、419のすべてのパラメータは、エンドツーエンド方式で訓練され、トリプレット損失が、視覚的検索タスクのための埋め込み空間を直接最適化する。
【0045】
条件付けされた埋め込み空間が生成されると、訓練セット内の動的カメラ画像が埋め込みベクトルに変換され、同じゾーンに属する埋め込みの平均が計算される。全ゾーンについての平均埋め込みが、これに限定はされないが、例えば、オフラインのデータベース内などに記憶される。スマートフォンなどからの前記クエリ画像と、同じ時刻における監視カメラ画像などの対応する静的ソース画像とが、上記に記載の訓練された2つのネットワークを用いて埋め込みベクトルを計算するために使用される。前記クエリに最も近いデータベースの平均埋め込みベクトルが、ゾーン指標を決定するために使用される。
【0046】
図5は、本発明の例示的な実施形態を実施する、例示的な屋内環境500を示している。本発明の例示的な実施形態によれば、同じ屋内環境のクエリ画像として、ゾーンレベルのラベルを有するクエリ画像と、対応するタイムスタンプを有する関連する監視画像とを含むパブリックなデータセットは無い。これらのデータセットは、小部屋規模のシーン又は複数の部屋に関するものであるが、本発明の例示的な実施形態は、それらに限定されず、本発明の範囲を逸脱することなく、他の規模及び範囲の屋内空間で置き換えてもよい。
【0047】
本明細書中ではオフィスビルとして表された前記屋内環境の異なる部分が、ある時間窓で周期的に、静的な監視カメラにより撮影されると共に、動的なスマートフォンにより画像クエリとして撮影される。前記時間窓において、これに限定はされないが、イベントによる予測不可能な人の流れや、家具や壁などの再配置などによる構造化されていない変化を含む、複合的なシナリオが生成される。
【0048】
より具体的には、501は、屋内空間のフロアレイアウトを表す。ゾーン503内には、複数の監視カメラ505、507、509、511、513、515が、静的な検知インフラとして設置されている。監視カメラの視野に含まれている領域が、図内のカメラの周りに描かれた囲み枠により示されている。1又は複数のスマートフォンに関係するカメラなど1又は複数の動的カメラを使用して、複数の異なるユーザから異なる時間にクエリ画像を取得する。
【0049】
図5のシナリオでは、6つの異なる監視ビデオが、エリア内にいる個人が変化するというシナリオや、エリアが再配置される状況に関係する。本発明による例示的な実施形態によると、そのゾーン内でスマートフォンを使用してユーザにより撮影されたクエリ画像のゾーンが特定される。以下により詳細に説明するように、図10A図10Eは、上記の例示的環境に関する例示的な使用例を示す。
【0050】
図6は、本発明の例示的な実施形態によるデータ収集手法を示している。そのデータ収集手法は、上記で説明され、図5に示した本発明の例示的な実施形態に関連している。600に示すように、例えば、観察条件が提供される。601及び603では、デフォルト状態のシーンの画像が提供されている。605及び607で提供される画像は、それぞれ601及び603の各シーンを含み、各シーンの画像にはエリア内で活動する人が映っている。609及び611で提供される、601及び603の各シーンの画像には、ゾーン内で動かされた机や椅子などの家具が映っている。613及び615で提供される画像には、看板を持っている人が映っており、これらの画像は複合的な位置特定条件を示している。
【0051】
上述の予測不可能な及び構造化されていない屋内環境条件の影響は、異なる観察条件のそれぞれについて、データセットを訓練セットとテストセットとに分けて、評価されてもよい。例えば、これに限定はされないが、提案されたモデルは、1つの条件下では1つのデータセットを用いて訓練され、異なる条件下では他のデータセットを用いてテストされてもよい。動的情報及び静的情報の融合の影響を評価するために、本発明の例示的な実施形態は、図2に示す本発明の例示的な実施形態を使用し、動的カメラ画像だけで訓練されたベースラインと比較される。
【0052】
下記の表1には、クエリ画像のゾーンレベルの位置の予測に関する本発明の例示的な実施形態の精度が、予想外の条件に対して示されている。表から分かるように、ベースラインの手法についてのゾーン検出精度と比較して、融合手法を用いる本発明の例示的な実施形態による手法の方が大幅に改善している。よって、本発明の例示的な実施形態では、各ゾーン内で撮影された静的画像と動的画像との間の大きな差異に対してより適切な表現を提供すると共に、トリプレット損失を伴うすべてのゾーン間で完全なコンテキストを活用する。
【0053】
【表1】
【0054】
上記に示されているように、予測不可能な条件及び構造化されていない条件の両方を示す「複合的な」シナリオでは、融合法はベースラインを上回る。さらに、リアルタイムのテストでは、クエリ画像に対応するリアルタイムの監視画像を組み込むことにより、改善が見られる。
【0055】
クエリ画像に対する埋め込み空間内の最も近い監視画像に基づいてゾーンラベルを計算することにより、クエリに関する全ての監視画像を明示的に使用する第1の融合法にとっては、クエリに対応するリアルタイムの監視画像を組み込むことは、クエリに対応するリアルタイムの監視画像を一切組み込まないベースライン法と比べて、利点がある。
また、関連する監視画像を暗黙的に使用して、それらのハイレベルなコンテキスト情報を組み込み、条件付けされた埋め込み空間を生成し、全ゾーンについての平均埋め込みを用いてゾーンラベルを計算する第2の融合法にとっても、クエリに対応するリアルタイムの監視画像を組み込むことは、同様に利点がある。
【0056】
したがって、本発明の例示的な実施形態は、低コストの監視システムをベースにした位置特定と共にコンピュータビジョン技術を使用することにより、リアルタイムの環境コンテキストを組み込み、非常に動的な環境下での予測不可能な変化及び構造化されていない変化により生じ得る画像マッチングの大きな差異を克服するものとして示され得る。
【0057】
図7は、本発明の例示的な実施形態による例示的プロセス700を示す。例示的プロセス700は、本明細書中で説明するように、1又は複数のデバイス上で実行されてもよい。
【0058】
701では、対象環境下に存在するセンサから静的情報が受信される。例えば、これに限定はされないが、静的カメラが、画像又は動画などの検知された入力を受信してもよい。
【0059】
703では、ハイレベルのコンテキスト情報が上述のCNNアーキテクチャを使用して画像から抽出されるように、受信された静的情報が処理される。さらに、静的入力間の集約も、705の動作において実行される。
【0060】
707では、抽出及び集約の結果が、埋め込みネットワークに提供される。これについては、以下でより詳細に説明する。したがって、上述の距離学習プロセスを使用して、対象環境に関する静的情報を、ユーザに関係するモバイルユーザデバイスなどからの動的情報と統合することに留意されたい。
【0061】
709では、静的画像情報が受信されると同時に、対象環境下に存在する少なくとも1つのセンサから動的情報が受信される。例えば、これに限定はされないが、スマートフォンのカメラなど、ユーザ端末のセンサに関係する可能性があるデバイス上の1又は複数のカメラが、検知され、受信されてもよい。
【0062】
711では、受信された動的情報が、上述したように深層CNNアーキテクチャ内で使用される。より具体的には、CNNの各畳み込みについて、特徴変換関数FTが提供される。
【0063】
畳み込みの完了時に、713で、条件ネットワーク及び距離学習の対象であった動的入力及び静的入力を統合する深層CNNアーキテクチャ内において、グローバルプーリング層が提供され、局所記述子が単一のベクトルに集約されて、埋め込みが実行される。
【0064】
715では、既に詳しく説明した通り、トリプレット損失が確定され、埋め込みネットワーク及び条件ネットワークを訓練するために使用される。さらに、717では、位置特定情報が生成され、屋内環境下の局所位置情報を示す出力がユーザに提供される。
【0065】
図8は、いくつかの例示的な実施形態での使用に適した例示的コンピュータデバイス805を備える、例示的コンピューティング環境800を示している。コンピューティング環境800内のコンピューティングデバイス805は、1又は複数の処理装置、コア、又はプロセッサ810、メモリ815(例えば、RAM、ROMなど)、内部記憶装置820(例えば、磁気、光、固体記憶装置、及び/又は有機記憶装置)、及び/又はI/Oインターフェース825を含むことができる。これらのいずれもが、情報を伝達するための通信機構又はバス830に結合されてもよいし、又はコンピューティングデバイス805内に埋め込まれてもよい。
【0066】
コンピューティングデバイス805は、入力/インターフェース835及び出力デバイス/インターフェース840に通信可能に結合されていてもよい。入力/インターフェース835及び出力デバイス/インターフェース840の一方又は両方が、有線又は無線インターフェースであり、着脱可能であってもよい。入力/インターフェース835は、物理的又は仮想的な、任意のデバイス、コンポーネント、センサ、又はインターフェースを含んでもよい。例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング/カーソルコントローラ、マイク、カメラ、点字、運動センサ、光学読み取り装置などであり得る。それらは、入力を提供するために使用される。
【0067】
出力デバイス/インターフェース840は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含んでもよい。いくつかの例示的な実施形態では、入力/インターフェース835(例えば、ユーザインターフェース)及び出力デバイス/インターフェース840は、コンピューティングデバイス805に埋め込まれてもよいし、又は物理的に結合されてもよい。他の例示的な実施形態では、他のコンピューティングデバイスが、コンピューティングデバイス805用の入力/ユーザインターフェース835及び出力デバイス/インターフェース840として機能してもよいし、又はこれらの機能を提供してもよい。
【0068】
コンピューティングデバイス805の例として、限定はされないが、非常に移動性の高いデバイス(例えば、スマートフォン、車両や他の機械内のデバイス、人や動物に運ばれるデバイスなど)、モバイルデバイス(例えば、タブレット、ノートブック型コンピュータ、ラップトップ型コンピュータ、パーソナルコンピュータ、携帯テレビ、ラジオなど)、及び移動用には設計されていないデバイス(例えば、デスクトップ型コンピュータ、サーバデバイス、他のコンピュータ、インフォメーションセンター、1又は複数のプロセッサが埋め込まれた及び/又は結合されたテレビ、ラジオなど)が含まれてもよい。
【0069】
コンピューティングデバイス805は、(例えば、I/Oインターフェース825を介して)外部記憶装置845に通信可能に結合されると共に、同じ構成又は異なる構成の1つ又は複数のコンピューティングデバイスを含む、ネットワークを形成する任意の数のコンポーネント、デバイス、及びシステムと通信するためにネットワーク850に通信可能に結合される。コンピューティングデバイス805又は任意の接続されたコンピューティングデバイスは、サーバ、クライアント、シンサーバ、汎用マシン、専用マシン、又は別のラベルとして機能するか、これらのサービスを提供するか、又はこれらとして呼ばれ得る。例えば、これに限定はされないが、ネットワーク850は、ブロックチェーンネットワーク、及び/又はクラウドを含んでもよい。
【0070】
I/Oインターフェース825は、これに限定はされないが、少なくともコンピューティング環境800内で接続された全てのコンポーネント、デバイス、及びネットワークと情報をやり取りする(送信及び/又は受信する)ための、任意の通信又はI/Oプロトコル又はスタンダード(例えば、イーサネット(登録商標)、802.11xs、USB、WiMAX、モデム、セルラーネットワークプロトコルなど)を用いる有線及び/又は無線インターフェースを含み得る。ネットワーク850は、任意のネットワーク又はネットワークの組み合わせでもよい。例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、電話用ネットワーク、セルラーネットワーク、衛星用ネットワークなどであり得る。
【0071】
コンピューティングデバイス805は、一時的媒体及び非一時的媒体を含むコンピュータが使用可能な媒体又はコンピュータ可読媒体を使用することができ、及び/又はこれらを用いて通信することができる。一時的媒体は、伝送媒体(例えば、金属ケーブル、光ファイバ)、信号、搬送波などを含む。非一時的媒体は、磁気メディア(例えば、ディスク及びテープ)、光学メディア(例えば、CD-ROM、DVD、ブルーレイディスク)、ソリッドステートメディア(例えば、RAM、ROM、フラッシュメモリ、固体記憶装置)、及び他の非一時的記憶装置又はメモリを含む。
【0072】
コンピューティングデバイス805を使用して、いくつかの例示的なコンピューティング環境下で、技術、方法、アプリケーション、プロセス、又はコンピュータにより実行可能な命令を実行することができる。コンピュータにより実行可能な命令は、一時的媒体から読み出されてもよく、非一時的媒体に記憶され且つ読み出されてもよい。前記の実行可能な命令は、任意のプログラミング言語、スクリプト言語、及び機械語(例えば、C言語、C++言語、C♯言語、Java(登録商標)、Visual Basic、Python、Perl、Java Script(登録商標)など)のうちの1又は複数から生成できる。
【0073】
プロセッサ(単数又は複数)810は、ネイティブ環境又は仮想環境下において、任意のオペレーティングシステム(OS)(図示せず)の下で動作し得る。論理演算装置855、アプリケーション・プログラミング・インターフェース(API)装置860、入力装置865、出力装置870、動的/静的処理装置875、融合装置880、位置特定情報装置885、及び異なる装置が互いに通信するための装置間通信機構895を含む、1又は複数のアプリケーションが、前記OS、及び他のアプリケーション(図示せず)と共に導入され得る。
【0074】
例えば、動的/静的処理装置875、融合装置880、及び位置特定情報装置885は、上述した構造に関して上記の1又は複数のプロセスを実行してもよい。上述した装置及び要素は、設計、機能、構成、又は実施形態について変更される可能性があり、提供された記載に限定されない。
【0075】
いくつかの例示的な実施形態では、情報又は実行命令が、API装置860により受信され、1又は複数の他の装置(例えば、論理演算装置855、入力装置865、動的/静的処理装置875、融合装置880、及び位置特定情報装置885)に伝達されてもよい。
【0076】
例えば、動的/静的処理装置875は、様々な静的センサ(例えば、セキュリティカメラ)及び動的センサ(例えば、カメラ付きスマートフォンなどのユーザデバイス)からの情報を受信し、処理することができる。動的/静的処理装置875の出力は、融合装置880に提供され、融合装置880は、静的情報と動的情報とを融合させるための1又は複数のプロセスを実行する。これについては、例えば、図3及び図4に関連して、既に詳しく説明した。融合装置880の出力は、位置特定情報装置885に提供され、位置特定情報装置885の出力は、例えば、前記屋内位置特定情報に関する情報を提供するために、ユーザデバイスにより受信されてもよい。
【0077】
いくつかの例では、上述したいくつかの例示的な実施形態のように、論理演算装置855は、装置間の情報のフローを制御し、API装置860、入力装置865、動的/静的処理装置875、融合装置880、及び位置特定情報装置885により提供されるサービスの指揮をするように構成されてもよい。例えば、1又は複数のプロセス又は実施形態のフローが、論理演算装置855のみにより制御されてもよいし、又はAPI装置860と連携して論理演算装置855により制御されてもよい。
【0078】
図9は、いくつかの例示的な実施形態に適した例示的環境を示している。環境900は、デバイス905~945を含み、各デバイスは、例えば、ネットワーク960を介して(例えば、有線接続及び/又は無線接続により)少なくとも1つの他のデバイスに通信可能に接続される。いくつかのデバイスは、1又は複数の記憶装置930と945に通信可能に接続されてもよい。
【0079】
1又は複数のデバイス905~945の一例は、図8に示されているコンピューティングデバイス805であってもよい。デバイス905~945は、これに限定はされないが、既に説明したようなモニタ及び関連するウェブカメラを有するコンピュータ905(例えば、ラップトップ型コンピューティングデバイス)、移動デバイス910(例えば、スマートフォン又はタブレット)、テレビ915、車両920に関するデバイス、サーバコンピュータ925、コンピューティングデバイス935~940、記憶装置930と945を含んでもよい。
【0080】
いくつかの実施形態では、デバイス905~920は、企業のユーザに関係するユーザデバイスと見なされてもよい。デバイス925~945は、サービスプロバイダに関係するデバイスであってもよい。例えば、これらのデバイスは外部ホストにより使用されて、上述したサービス及び様々な図面に関するサービスを提供したり、及び/又は、ウェブページ、テキスト、テキストポーション、画像、画像ポーション、音声、音声セグメント、動画、動画セグメント、及び/又はそれらに関する情報などのデータを保存する。本発明の例示的な実施形態では、これらのユーザデバイスのうちの1又は複数が、静的情報センサに関係していてもよく、前記1又は複数のデバイスとは別のデバイスが、動的情報センサに関係していてもよい。
【0081】
図10a~図10eは、本発明の例示的な実施形態に関する例示的ユーザ経験を示している。上記に開示したように、スマートフォンなどの端末デバイスに関係するユーザは、スマートフォン上のカメラなどを介して、検知された動的画像を受信してもよい。1つの例示的な実施形態によると、ユーザには、プロセッサにより実行される一連の命令として動作するオンラインアプリケーションを提供される。前記命令は、端末デバイスにローカルに保存することも、クラウドなどにリモートに保存することもできる。さらに、前記命令は、上記で説明したように、端末デバイスにローカルに又はリモートに保存されたプロセッサ上で実行されてもよい。オンラインアプリケーションの出力は、ユーザが屋内位置特定情報を提供する屋内経験を持てるように、前記ユーザに提供される。
【0082】
図10aに示すように、オンラインアプリケーションは、ユーザにより端末デバイス上で起動されてもよく、ユーザの位置に関係する初期フロアプラン1001を提供してもよい。さらに、画像1003が、ユーザに提供されてもよい。前記画像は、ユーザデバイス上で動作するセンサから受信された情報に基づいている。
【0083】
図10bに示すように、画像が、ユーザにより撮影されてもよい。撮影された画像は、動的入力情報として、本発明の例示的な実施形態に提供され、1007においてユーザにも表示される。1001に示されているフロアプランは、当初のフロアプランと同じものである。
【0084】
この時点で、上述の例示的な実施形態では、撮影され、1007で示される検知された動的画像が、例えば、上記の図5で示される1又は複数の静的画像センサからの静的画像と組み合わせて使用されている。例えば、これに限定はされないが、図4及び図7に関して説明した上述の動作が実行され、1005において、実行中の処理動作を示す表示としてユーザインターフェース上に表示されてもよい。
【0085】
図10cに示すように、本発明の例示的な実施形態により、上記で説明したような動作が完了すると、前記監視システムに基づく予測ゾーンに関連する画像が、1011で提供される。さらに、予測ゾーンは、1009に示すように、フロアプラン上で強調表示される。
【0086】
この時点で、ユーザは、ユーザに関係するデバイス上のインターフェースを介して、現在のカメラ画像1003の表示、動的情報として処理するために提供された撮影されたカメラ画像1007、及び1011の予測ゾーンの監視システムの画像を受信する。
【0087】
図10dに示すように、ユーザは、前記フロアプランを案内に用いて、1009に示される予測された現在位置から別の位置へのナビゲートを希望してもよい。よって、ユーザは、監視システムに関係する静的センサを有するフロアプランの一部に触れるなどして、オンラインアプリケーションに入力を提供してもよい。
【0088】
この時点で、ユーザは、前記フロアプラン上で、1013のような別の位置を選択する。オンラインアプリケーションは、図10dに破線で示すように、別の位置にある所望の目的地への経路を生成する。したがって、ユーザは、上述の例示的な実施形態により提供される予測に基づいて、現在位置から所望の位置まで前記フロアプランを用いて移動してもよい。
【0089】
ユーザが現在位置から所望の位置まで移動するに従い、図10(e)に示すように、ユーザデバイスに関係するカメラの現在の画像情報が変化してもよい。例えば、1015で、ユーザは、前記フロアプランに1009として示されている位置から、1013にある所望の位置まで歩いているところである。所望により、ユーザが、静的センサの存在に頼りながら、当初の位置から所望の目的地まで移動する間、ユーザに新しい現在位置に関する情報を表示するために、1又は複数の追加のインターフェースが提供されてもよい。
【0090】
別の例示的な実施形態によると、所望の目的地までに多くの非常に似通った環境がある場合に、前記目的地に関する予測された画像又は過去の画像(例えば、過去のナビゲーションの繰り返しからの画像、又は実際の監視システムの情報からの画像)は、プロセスを通してユーザに提供されてもよい。例えば、鉄道の駅に関する本発明の例示的な実施形態では、鉄道の駅は互いに類似しているように見える多くの出口を有するので、そのような情報は、ユーザが所望の目的地にいるかどうかを判断可能にするために有用であり得る。所望の目的地にいない場合、ユーザは自分の位置を調整し、所望の目的地へのナビゲーションを再度試みてもよい。
【0091】
ユーザは、目的地に無事に到着した後に、結果の正確さについて、オンラインアプリケーション経由でフィードバックを提供してもよい。例えば、1017に示すように、「良い」か「悪い」の二択方式を取ってもよい。あるいは、他の選択肢が、ユーザに提供されてもよい。例えば、結果が間違っている場合に、どの点において間違っているのかについて、又は将来使用されるモデルにフィードバックできる環境の変化に関する情報について、よりきめ細かなフィードバック要求などができてもよい。
【0092】
本発明の例示的な実施形態は、様々な利益及び/又は利点を有し得る。例えば、これに限定はされないが、本発明の例示的な実施形態は、複数の監視カメラをベースにした実際の世界のシステムで、完全な環境コンテキストを活用することができ、セマンティックな検知器に依存する関連技術の枠組みの弱点を克服している。よって、個々のセマンティックな検知器から独立し、リアルタイムのコンテキストを、深層学習をベースにした融合と組み合わせることにより、本発明の例示的な実施形態は、信頼性の高いリアルタイムのコンテキストをベースにした手法を提供する。複数のユーザからの応答を集約して、より大規模なフィードバックを提供してもよい。
【0093】
本発明の例示的な実施形態のさらなる態様は、所望により、検索空間を削減するために既存のゾーンレベルの位置特定を活用することを含んでいてもよく、及びカメラの姿勢の詳細を用いた効率的な位置特定のための計算を提供してもよい。さらに、自己管理型のセマンティックアクティビティの検知及び監視が、各ゾーン内及びゾーン間において実行され、位置特定情報と、ユーザ又はデバイス中心のアクティビティパターンを超えた高品質なコンテキストとが提供される。本発明の例示的実施形態は、屋内でのナビゲーションのコンテキスト、ロボットの再位置決め、較正なしの大規模なAR/VRなどに適用されてもよい。使用環境は、これには限定はされないが、利用者の多い鉄道の駅、混雑したショッピングモール、展示場などを含んでもよい。
【0094】
さらに、磁場を利用して局所的に異常であるが安定した地球磁場を屋内での位置特定に使用するなどの関連技術の手法とは対照的に、本発明の例示的な実施形態は、磁場をベースにした関連技術の手法の3.5mという精度よりもずっと高い位置特定精度を提供する。関連技術の手法は精度が低いために、関連技術の位置特定のフィンガープリントの一意性は保証されない。
【0095】
加えて、関連技術の手法とは対照的に、本発明の例示的な実施形態は、セキュリティカメラシステムなどの既存の静的検知インフラの変更を必要とせず、同時に、低中度の精度のセマンティックな推論モジュール、ヒューリスティックモデル、又は他の高価なセンサインフラに頼らないコンピュータビジョン手法を統合する。本発明の例示的な実施形態によれば、これは、大規模な画像データベースを生成するための労働集約的なグラウンドトゥルースラベリングを行わずに、リアルタイムの監視データ情報を活用する効率的な画像検索の深層学習モデルとして前記手法を構築し、前記の予測不可能な変化及び構造化されていない変化を含む非常に動的な環境下であっても、正確な屋内位置特定を予測することにより達成される。したがって、低コストで高精度の屋内位置特定システムが提供される可能性があり、このシステムは詳細な位置推定を提供することができる可能性があり、さらに、これに限定はされないが、屋内でのナビゲーション、ロボットの再位置決め、及び/又は較正なしの大規模なAR/VRを含む他のアプリケーションと統合できる可能性がある。
【0096】
いくつかの例示的な実施形態が図示され、説明されたが、これらの例示的な実施形態は、当業者に本明細書中に記載の主題を伝えるために提供された。本明細書中に記載の主題は、説明された例示的な実施形態に限定されることなく、様々な形態で実施される可能性があることを理解されたい。本明細書中に記載の主題は、具体的に定義または説明された事項がなくても実施可能であり、記載されていない他の要素や異なる要素、または記載されていない事項と共に実施可能である。当業者には、添付された特許請求の範囲及びその等価物により定義される本明細書中に記載の主題から逸脱することなく、これらの例示的な実施形態に対して変更が加えられ得ることが理解されるだろう。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10a
図10b
図10c
図10d
図10e