(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-24
(54)【発明の名称】マルチエージェント追跡のための視覚とRFセンサとの融合
(51)【国際特許分類】
G01C 21/28 20060101AFI20240517BHJP
【FI】
G01C21/28
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023572190
(86)(22)【出願日】2022-05-27
(85)【翻訳文提出日】2023-12-12
(86)【国際出願番号】 US2022031307
(87)【国際公開番号】W WO2022251605
(87)【国際公開日】2022-12-01
(32)【優先日】2021-05-28
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-06-03
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-05-26
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】サンダレサン、 カルシケヤン
(72)【発明者】
【氏名】シェシャドリ、 ラマヌジャン
(72)【発明者】
【氏名】ダサリ、 マレシャム
【テーマコード(参考)】
2F129
【Fターム(参考)】
2F129AA01
2F129BB07
2F129FF02
2F129FF39
2F129GG17
2F129HH02
2F129HH04
2F129HH12
2F129HH20
2F129HH22
(57)【要約】
装置の位置を決定するための方法およびシステムは、無線ベースの測距情報を使用して第1の位置推定を決定すること(704)を含む。視覚的オドメトリ情報を用いて第2の位置推定が決定される(708)。第1の位置推定および第2の位置推定は、無線環境条件と視覚環境条件とに基づいて融合され(710)、最終的な位置推定が決定される。リソースが最終的な位置推定に基づいて投入(606)される。
【選択図】
図3
【特許請求の範囲】
【請求項1】
装置位置を決定するための、コンピュータに実装された方法であって、
無線ベースの測距情報を使用して第1の位置推定を決定する(704)ことと、
視覚的オドメトリ情報を使用して第2の位置推定を決定する(708)ことと、
無線環境条件と視覚環境条件とに基づいて、前記第1の位置推定と前記第2の位置推定とを融合して(710)、最終的な位置推定を決定することと、
前記最終的な位置推定に基づいて、リソースを投入する(606)こととを含む方法。
【請求項2】
前記第1の位置推定に対する非視線経路の影響を決定することをさらに含む、請求項1に記載の方法。
【請求項3】
前記非視線経路の影響を決定することは、複数のアンカー装置の無線信号強度を決定することを含む、請求項2に記載の方法。
【請求項4】
前記非視線経路の影響を決定することは、視線経路を有するアンカー装置の数が閾値未満であることを決定することを含む、請求項3に記載の方法。
【請求項5】
前記第1の位置推定と前記第2の位置推定とを融合することは、前記第1の位置推定と前記複数のアンカー装置の前記無線信号強度とを連結したベクトルを処理することを含む、請求項3に記載の方法。
【請求項6】
前記第2の位置推定に対する環境条件の影響を決定することをさらに含む、請求項1に記載の方法。
【請求項7】
前記環境条件の影響を決定することは、画像フレーム間のキーポイントの一致を決定することを含む、請求項6に記載の方法。
【請求項8】
前記環境条件の影響を決定することは、前記キーポイントの一致数が閾値未満であることを決定することを含む、請求項7に記載の方法。
【請求項9】
前記第1の位置推定と前記第2の位置推定とを融合することは、前記第2の位置推定とキーポイントの一致とを連結したベクトルを処理することを含む、請求項7に記載の方法。
【請求項10】
超広帯域トランシーバを使用して無線ベースの測距情報を決定することと、ステレオカメラを使用して前記視覚的オドメトリ情報を決定することとをさらに含む、請求項1に記載の方法。
【請求項11】
装置位置を決定するためのシステムであって、
ハードウェアプロセッサ(810)と、
コンピュータプログラムを記憶するメモリ(840)とを有し、前記コンピュータプログラムは、前記ハードウェアプロセッサに、
無線ベースの測距情報を使用して第1の位置推定を決定する(704)手順と、
視覚的オドメトリ情報を使用して第2の位置推定を決定する(708)手順と、
無線環境条件と視覚環境条件とに基づいて、前記第1の位置推定と前記第2の位置推定とを融合して(710)、最終的な位置推定を決定する手順と、
前記最終的な位置推定に基づいて、リソースを投入する(606)手順とを実行させるためのコンピュータプログラムである、システム。
【請求項12】
前記コンピュータプログラムは、さらに、前記ハードウェアプロセッサに、前記第1の位置推定に対する非視線経路の影響を判定する手順を実行させるためのコンピュータプログラムである、請求項11に記載のシステム。
【請求項13】
前記コンピュータプログラムは、さらに、前記ハードウェアプロセッサに、複数のアンカー装置の無線信号強度を決定する手順を実行させるためのコンピュータプログラムである、請求項12に記載のシステム。
【請求項14】
前記コンピュータプログラムは、さらに、前記ハードウェアプロセッサに、視線経路を有するアンカー装置の数が閾値未満であることを判断する手順を実行させるためのコンピュータプログラムである、請求項13に記載のシステム。
【請求項15】
前記コンピュータプログラムは、さらに、前記ハードウェアプロセッサに、前記第1の位置推定と前記第2の位置推定とを融合するために、前記第1の位置推定と前記複数のアンカー装置の前記無線信号強度とを連結したベクトルを処理することを決定する手順を実行させるためのコンピュータプログラムである、請求項13に記載のシステム。
【請求項16】
前記コンピュータプログラムは、さらに、前記ハードウェアプロセッサに、前記第2の位置推定に対する環境条件の影響を決定する手順を実行させるためのコンピュータプログラムである、請求項11に記載のシステム。
【請求項17】
前記コンピュータプログラムは、さらに、前記ハードウェアプロセッサに、画像フレーム間のキーポイントの一致を決定する手順を実行させるためのコンピュータプログラムである、請求項16に記載のシステム。
【請求項18】
前記コンピュータプログラムは、さらに、前記ハードウェアプロセッサに、前記キーポイントの一致数が閾値未満であると決定する手順を実行させるためのコンピュータプログラムである、請求項17に記載のシステム。
【請求項19】
前記コンピュータプログラムは、前記ハードウェアプロセッサに、前記第1の位置推定と前記第2の位置推定とを融合するために、前記第2の位置推定とキーポイントの一致とを連結したベクトルを処理する手順を実行させるためのコンピュータプログラムである、請求項17に記載のシステム。
【請求項20】
前記無線ベースの測距情報を捕捉するように構成された超広帯域トランシーバと、前記視覚的オドメトリ情報を捕捉するように構成されたステレオカメラとをさらに含む、請求項11に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願情報
本出願は、2021年6月3日に出願された米国特許出願第63/196,387号および2021年5月28日に出願された米国特許出願第63/194,262号の優先権を主張するものであり、参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
技術分野
本発明は、位置特定および追跡に関し、より詳細には、複数のデータソースを使用して装置の位置を特定することに関する。
【0003】
関連技術の説明
特に全地球測位衛星(GPS)信号が利用できない環境において、人と資産との両方をリアルタイムで位置特定し追跡する能力は、さまざまな用途に有用である。例えば、このような位置特定は、人間とロボットとの共同作業を促進するために使用されるかもしれない。
【発明の概要】
【0004】
装置の位置を決定する方法は、無線ベースの測距情報を使用して第1の位置推定を決定することを含む。第2の位置推定は、視覚的オドメトリ情報を使用して決定される。第1の位置推定と第2の位置推定とは、無線環境条件と視覚環境条件とに基づいて融合され、最終的な位置推定が決定される。リソースが最終的な位置推定に基づいて投入される。
【0005】
装置位置を決定するシステムは、ハードウェアプロセッサとメモリとを含む。メモリは、ハードウェアプロセッサによって実行されるとき、ハードウェアプロセッサに、無線ベースの測距情報を使用して第1の位置推定を決定し、視覚的オドメトリ情報を使用して第2の位置推定を決定し、無線環境条件と視覚環境条件とに基づいて第1の位置推定と第2の位置推定とを融合して最終的な位置推定を決定し、最終的な位置推定に基づいてリソースを投入させるコンピュータプログラムを記憶する。
【0006】
これらおよび他の特徴および利点は、添付図面と関連して読まれる、その例示的実施形態の以下の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0007】
本開示は、以下の図を参照して、好ましい実施形態の以下の説明において詳細を提供する。
【0008】
【
図1】本発明の一実施形態による、装置位置が決定され得る、エージェント装置とアンカーノードとを含む内部環境の図である。
【0009】
【
図2】本発明の一実施形態による、エージェント装置の位置を特定するために融合されるそれぞれの位置推定値を提供するために使用することができる無線および視覚センサ構成要素を含むエージェント装置のブロック図である。
【0010】
【
図3】本発明の一実施形態による、エージェント装置の位置推定値を生成するために、独立したタイプのセンサデータに基づく位置情報を融合する方法のブロック/フロー図である。
【0011】
【
図4】本発明の一実施形態による、無線ベースの位置情報特徴を生成するために使用できるニューラルネットワークモデルのブロック/フロー図である。
【0012】
【
図5】本発明の一実施形態による、オドメトリに基づく位置特徴の生成に使用できるニューラルネットワークモデルのブロック/フロー図である。
【0013】
【
図6】本発明の一実施形態による、装置位置情報を使用して環境にリソースを配置する方法のブロック/フロー図である。
【0014】
【
図7】本発明の一実施形態による、センサ融合を使用して装置位置を特定する方法のブロック/フロー図である。
【0015】
【
図8】本発明の一実施形態による、装置の位置特定、マッピング、および応答機能を実行するソフトウェアを含む演算装置のブロック図である。
【0016】
【
図9】本発明の一実施形態による、ニューラルネットワークモデルの一部を実装するために使用され得る例示的なニューラルネットワークアーキテクチャの図である。
【0017】
【
図10】本発明の一実施形態による、ニューラルネットワークモデルの一部を実装するために使用され得る例示的な深層ニューラルネットワークアーキテクチャの図である。
【発明を実施するための形態】
【0018】
デュアルレイヤーダイバーシティは、空間内の複数のエージェントの位置特定を向上させるために使用することができる。例えば、パッシブ/相対的モダリティ(例えば、視覚的オドメトリ)およびアクティブ/絶対的モダリティ(例えば、インフラ支援無線位置特定)のような、相補的な追跡モダリティを融合させる。追跡の精度を犠牲にすることなく、不慣れな環境でもロバスト性を発揮するために、アルゴリズムとデータ駆動型アプローチとの相補的な強みを融合させた多様な手法も採用されている。このように、例えば、無線ロケーションセンシングと視覚追跡との相補的な利点は、精度を維持する負担を共有するアルゴリズムとデータ駆動技術とでエージェントを追跡するために組み合わせることができる。
【0019】
パッシブ追跡には、カメラからの視覚情報と慣性センサからの運動情報とを組み合わせた視覚慣性オドメトリなどのオドメトリベースの技術が含まれても良い。パッシブ追跡は、良好な視覚条件下では数十センチ以内の位置情報を提供できるが、薄暗い照明や質感のない表面など、一般的な環境条件には弱い。さらに、パッシブ追跡は相対的な位置情報を提供するため、不利な事象から回復することが難しく、またグローバルな参照フレーム内での位置特定を提供する能力にも限界がある。
【0020】
アクティブ追跡は、固定されたアンカーノードの使用を含み、アンカーノードの既知の位置によって定義される参照フレーム内での絶対的な位置特定を提供する。アンカー追跡を使用することで、パッシブ追跡で蓄積されるエラーを排除することができる。しかし、アクティブシステムは動作範囲と精度とがトレードオフの関係にある。赤外線、ミリ波、音響システムなどの高解像度のアクティブ追跡システムは精度が高いが、見通し範囲内での使用に限定される。一般的な無線ネットワーク技術を使用したものなど、低解像度のアクティブ追跡システムは、非視線測位に対応でき、動作範囲も長いが、高解像度のシステムに比べて追跡精度が低下する。
【0021】
パッシブシステムとアクティブシステムとの両方を使用するハイブリッドなアプローチは、スケーラブルで正確なマルチエージェント追跡を可能にする。したがって、追跡装置は、ステレオカメラなどのパッシブ追跡装置と無線インタフェースとの両方を含むことができる。カメラが視覚的なオドメトリに基づく相対追跡を提供するのに対し、無線インタフェースは環境内の1つ以上のアンカーノードの範囲と位置とを推定することによって絶対追跡を提供する。
【0022】
アルゴリズムによる解決策は、無線情報から絶対位置を推定し、視覚データから相対的な平行移動情報を推定することができる。一方、データ駆動モデルは、データのフィルタリング、特徴合成、異なるデータモダリティの融合を提供することができる。データフィルタリングは、精度を低下させる非視線伝搬の影響を受けた電波測距推定値を分離するのに役立ち、特徴合成は、環境やセンサのアーチファクトを考慮することで、絶対位置情報と相対位置情報との確実性を推定する。ロバスト性を提供し、高い追跡精度を維持するために、その時々の特徴や相対的な重要性に基づいて、融合はセンサーストリームを共同で考慮し、適切なセンサ推定に自動的に対応する。融合モデルは、複雑な問題構造を純粋にデータから捉える必要はなく、それぞれの位置特定モダリティに関わる物理学や幾何学に依存することができる。これにより、リソースに制約のある装置でのリアルタイム動作のための待ち時間および計算の必要性が軽減される。
【0023】
この複合的なアプローチは、多様な環境において優れた精度を提供する。例えば、ハイブリッドアプローチのいくつかのテストでは、約15cm以内の追跡精度が達成された。対照的に、無線ベースの同等のテストでは約40cm、目視追跡では約32cmの精度が達成された。アルゴリズミックアプローチとデータドリブンアプローチとの組み合わせは、未知の環境においても同様に効果を発揮し、アルゴリズミックアプローチ単独では約60cm、データドリブンアプローチ単独では約80cmであったのに対し、約30cmの追跡精度を達成した。
【0024】
ここで
図1を参照すると、例示的なマルチエージェント追跡環境100が示されている。環境100は、障害物102と、障害物の周りを自由に移動できる複数のエージェント104とを含む。障害物102は、例えば、壁、家具、ドア、およびエージェントの運動の自由および/または無線信号の伝搬に影響を与える可能性のある他の物理的物体を含むことができる。例えば、窓がユーザーの通行を妨げても、無線信号は自由に伝搬できる。
【0025】
また、アンカーノード106も示されている。アンカーノード106は、エージェント104に無線測距と測位情報とを提供する。測距および測位情報は、例えば、アンカーノード106とエージェント104との間の距離を示す信号強度または飛行時間を含み、さらに、信号がアンカーノード106からエージェント104で受信される角度を示す方向情報を含み得る。
【0026】
アンカーノード106とエージェント104とは、適切な無線位置特定技術を使用することができる。その代表的な技術には、WIFI(登録商標)や超広帯域無線(UWB)などがある。これらの技術は、追跡解像度と非視線操作とのバランスがとれているが、ミリ波技術など他の技術も考えられている。
【0027】
無線ベースの位置特定では、エージェント104とアンカーノードとの間の距離は無線測距を用いて推定される。3つのアンカー106、または複数のアンテナを持つ1つのアンカー106までの推定距離は、方向情報を提供することができる。推定された距離と方向とをアンカー106の既知の位置と組み合わせると、環境100内の絶対位置が得られる。位置の推定精度は、個々の距離と角度との推定精度に依存する。UWBの双方向測距とその広い帯域幅とを組み合わせることで、屋内のマルチパスに強く、例えば数十センチメートルという高い測距精度が得られる。
【0028】
視覚的オドメトリは、エージェント104の動きを追跡するためにカメラ画像のストリームを使用する。静止した環境の連続するカメラ画像における質感、色、および形状の変化を利用して、例えばセンチメートルオーダーの高精度で動きを追跡する。しかし、照明が乏しい環境、または質感が少ない環境、または知覚的エイリアシングを含む環境では、視覚的オドメトリの精度は低下する。したがって、慣性オドメトリは、視覚的情報源からの追跡精度を向上させるために使用することができる。
【0029】
視覚的オドメトリは高精度の相対的位置特定を提供するが、時間の経過とともに誤差が蓄積する可能性がある。ひとたび誤差が生じると、視覚的オドメトリの相対的な測定は、その誤差を時間的に前方に伝搬させ、推定位置に大きなドリフトをもたらす可能性がある。無線ベースのアクティブ追跡は、各位置推定が以前の推定から独立しているため、このようなドリフトの影響を受けにくい。このため、誤った測距推定によって発生する誤差は伝搬せず、UWBは長期間にわたって絶対追跡の精度を向上させることができる。
【0030】
無線ベースの位置推定は、視覚的オドメトリベースの推定よりも粗い解像度を提供するため、2つのタイプのセンサ情報の融合は、それぞれの補完的な利点をもたらし、無線ベースの推定は、そうでなければ、より正確な視覚的オドメトリ測定値の誤差を除去するために使用される。
【0031】
正確なマルチエージェント追跡は、様々な異なるアプリケーションで使用される可能性がある。例えば、拡張現実や仮想現実のゲームや共同作業環境は、関連技術の向上とともに人気が高まっている。このような仮想または拡張環境において、ユーザーを互いに追跡することで、それらの物理的な関係を追跡し、それらの位置に敏感な機能を提供することが可能になる。例えば、2人のユーザーが空間上で互いに近くにいることを認識することで、仮想環境内での相互作用を可能にする拡張現実機能を提供することが可能になる。
【0032】
追跡はさらに、正確なリアルタイムの位置データが、室内空間をナビゲートするのに使用される状況でも使用できる。火災などの緊急時には、煙や瓦礫で視界が遮られることがある。エージェントの追跡は、捜索や救助を容易にするために、緊急サービス要員や建物の住民の位置を特定するために使用されるかもしれない。
【0033】
目視/慣性データと無線ベースのデータとを融合することで、視覚的オドメトリによる高解像度の相対測位推定値をグローバル基準フレームに接続することが可能になる。既知のアンカー位置に相対的な位置を測定することで、例えば、エージェントの座標を地図上の位置と結びつけることで、エージェントを既知の空間内に位置特定させることが可能になる。
【0034】
異なる方法論を融合させる場合、アルゴリズム駆動型とデータ駆動型のさまざまなモデルが考えられる。アルゴリズムによる解決策には、カルマンフィルタやベイズフィルタなど、個々のセンサからの時系列データを使って統計的ノイズを最小化することを目的としたフィルタベースのデータ融合がある。ブラックボックスシステムを含むデータ駆動型の解決策は、パッシブ追跡に重点を置くかもしれない。ブラックボックスモデルは、生のセンサデータの入力シーケンスを解釈し、相対的な位置やポーズ推定に変換するように訓練されても良い。無線ベースの測距推定と視覚的オドメトリカメラ画像とを融合し、絶対位置推定を予測するためにこれらのソリューションを使用することは、単一のモデルで実装するのは困難かもしれない。このようなモデルは、入力データの分布に依存しすぎてしまい、不慣れな環境では不十分な結果に終わる可能性がある。しかし、これら2つの方法論的アプローチを組み合わせることで、それぞれの落とし穴を回避することができる。アルゴリズムモデルは訓練されていない環境でもロバスト性を発揮し、データ駆動モデルはセンサ融合によって高精度を実現する。
【0035】
次に
図2を参照すると、エージェント装置104の1つのブロック図が示されている。エージェント装置104は、携帯電話、ヘッドセット、または自律ユニット(例えば、ロボット)などの任意の適切なモバイル装置であって良い。エージェント104は、ハードウェアプロセッサとメモリ204、および装置を操作するために必要な適切なソフトウェアを含むことができる。エージェント104は、環境100内のアンカーノード106、および環境100内のフロア上の他のエージェント装置104と通信するように構成された超広帯域トランシーバ206を含むことができる。
【0036】
UWB通信を特に想定しているが、代わりに他の無線周波数技術を使用しても良いことを理解されたい。本明細書で使用するUWBは、比較的広い帯域幅を持つ3~6GHzの周波数の信号を指す場合がある。ミリ波無線周波数、例えば24GHzと30GHzとの間の範囲や57GHzと66GHzとの間の範囲)、または約2.4GHzと5GHzとについてのWIFI(登録商標)信号を使用することも可能であるが、UWB信号は空間解像度と非視線物体の位置を特定する能力とのバランスが良い。
【0037】
慣性センサ208とカメラ210を使用して、視覚/慣性オドメトリ情報を提供することができる。カメラは、モノラルまたはステレオカメラであっても良いし、追加のビューを提供し、任意の適切な数のビデオストリームを提供しても良い。慣性センサ208は、6自由度を捉えることができる加速度センサを含むことができ、装置が空間をどのように移動するかについての情報を提供する。位置特定212は、これらすべての情報を統合する。視覚/慣性オドメトリの場合、位置特定212は、エージェント104の動きを示す視覚情報を、直接測定された加速度情報と組み合わせて、エージェント104が空間をどのように移動するかを推定する。位置特定212は、視覚/慣性オドメトリ推定値と、UWBトランシーバから生成された推定値との間で、どちらが所与の環境および条件に対してより適切であるかを決定することによって、選択することができる。
【0038】
UWBの場合、既知のアンカーノードiまでの距離R
iを測定するために飛行時間を使用することができる。距離推定は、装置104と複数の既知のアンカーノード106(例えば、少なくとも3つ)、または角度情報(例えば、複数のアンテナから)が利用可能な場合は単一のアンカーノード106との間で行うことができる。エージェント104の絶対位置推定を解くために、アンカーノード106の既知の位置に基づいて、マルチ測位が使用されることがある。n個のアンカーノード106があり、それぞれが固定位置(x
i,y
i)を持つ場合、装置の絶対二次元位置(x,y)は、n個のアンカーノード106にまたがる誤差
【数1】
を最小化することによって推定することができる。マルチ測位問題を解くためには、最小二乗法など、適切な最適化を用いることができる。
【0039】
位置特定の精度に影響を与える要素には、マルチ測位の最適化エラーや環境条件が含まれる。これらは不正確な測距推定として現れるかもしれない。マルチ測位最適化の誤差は、最適化ソリューションの出力として推定することができるが、環境条件による誤差は定量化するのがより困難である。さらに、無線ベースの測距のばらつきに起因する誤差は、位置特定の精度に大きな影響を与える可能性がある。
【0040】
例示的な5つのアンカーノード106を有する屋内環境を考慮する場合、エージェント104は、様々なアンカーへの視線経路と非視線経路との両方を露出させる環境内の軌道を移動することができる。様々なシナリオが考えられ、異なる数のアンカーノード106が視線経路を介してエージェント104に露出し、残りは例えば障害物102によって非視線経路でブロックされる。すべての利用可能なアンカー106への視線経路を持つことは、1つ以上のアンカー106が非視線経路でブロックされているシナリオと比較して、無線ベースの位置特定から優れた精度を生み出す。いくつかのアンカーがエージェント104に対して視線内にあり、いくつかのアンカーが非視線内にあるような混合シナリオでは、最適なアンカーノード106の数が選択される。非視線のアンカーノードをフィルタリングすることで誤差を減らすことができるが、環境条件についての知識がなければ、最適なアンカーのセットを決定するのは必ずしも簡単ではない。
【0041】
非視線の距離推定は、短い距離でも精度が低いことがある。推定値の品質を特定するために、受信信号電力の測定は非常に識別性の高い挙動を示す。受信信号電力は次のように推定できる:
【数2】
ここで、Cはチャネルインパルス応答電力、Nはチャネルインパルス応答の振幅を正規化するためのプリアンブル蓄積数、Aはパルス繰り返し周波数で決定される定数である。これらの定数は、UWB無線測距に特有のものである可能性がある。
【0042】
例えば、非視線経路の距離が長くなると、受信信号強度が大きく変化する可能性がある一方、視線経路に沿った位置が大きく変化しても、信号強度が高い閾値を超えたままである可能性がある。したがって、アンカーiとエージェント104との間の受信電力Piは、距離Riとともに、位置推定の精度に対する非視線の経路の影響を捕捉するための効果的な識別特徴として機能することができる。
【0043】
抽出された特徴(P,R)は、十分な数のアンカー(例えば3つ以上)が利用可能な場合に、正確な距離推定値を特定するのに役立ち、その後の融合のための位置推定の確実性を間接的に捕捉する。
【0044】
あるエージェント104から見えるアンカーノード106の数は、比較的少ないかもしれない。最適なアンカーの選択には、サポートベクターマシンやロジスティック回帰などの機械学習モデルを用いることができる。収集されたデータから、位置特定に最適なK個のアンカーを選択する分類器を訓練するために、別々のアンカー分類データセットを導き出すことができる。すべてのアンカー106からの距離と、それらに対応する受信電力とを入力として、モデルを適合させることができる。既知のグラウンドトゥルースと比較して最小の誤差を提供する最良のアンカーセットは、バイナリ出力ベクトルとして設定することができる。
【0045】
分類器チェーンを用いた多出力分類は、アンカー106間の相関を利用する。複数の異なるモデル(例えば、サポートベクターマシン、ロジスティック回帰、ランダムフォレスト)は、そのパラメータを調整するためにグリッド検索を使用して最適化することができる。グリッド検索の後、最もパフォーマンスの良いモデルを選択することができる。モデルは入力をフィルタリングするのに役立ち、一方、マルチ測位は位置推定を担当する。
【0046】
アンカー選択は、位置推定を改善するために非視線アンカーをフィルタリングするが、装置は3つの使用可能な視線アンカーを利用できない可能性があり、その結果、位置特定の精度が低下する。信号強度情報および距離は、センサ融合への無線ベースの入力を形成するために、マルチ測位からの絶対位置推定と組み合わせることができる。したがって、無線ベースの経路から位置特定212への入力は、次のように表される。
【数3】
ここで
【数4】
は連結演算であり、各アンカーへの装置の距離と受信電力で位置推定を連結する。
【0047】
視覚的オドメトリは、追跡、ローカルマッピング、ポーズ最適化、ループクロージングを行うことができる。画像フレーム(例えば、ステレオカメラ画像)のストリームを使用して追跡し、フレーム単位で装置を増分的かつ相対的に位置特定する。これは、画像から特徴を抽出し、フレーム間の一致するキーポイントの対応関係を確立することによって実行することができる。与えられた時間インスタンスtにおいて、実世界の座標に再投影し、各特徴の深さを推定する2つ以上のステレオフレーム
【数5】
から特徴が抽出される。これにより、追跡の規模を推定することが可能になる。
【0048】
最終的な特徴は、すべてのステレオ画像にわたって特徴を照合することによってカウントすることができる。一致した特徴は、以前の参照フレーム
【数6】
との対応関係を見つけるために使用される。そして、2つのフレーム間の相対的な距離と方位推定値を計算するために使用される、フレーム間アライメントとラベル付けされた、一致するキーポイントのセットを作成する。これらの推定値は相対変位(Δx
v,Δy
v)に変換され、現在位置(x
v,y
v)を決定する。
【0049】
視覚的オドメトリは相対的な追跡を提供するため、限られた視覚的特徴や動的なシーンのような一時的な環境アーチファクトは、少数の変位推定値を劣化させ、時間の経過とともに継続的な誤差の蓄積をもたらす可能性がある。位置の最終的な相対推定値を使用するのではなく、平行移動の相対変位rvと方位θvとをセンサ融合に直接使用することができる。視覚的オドメトリが一時的な変位誤差を発生させても、結果として生じる誤差伝搬は変位のみで、方位は絶対的な軌道方向を追跡し続ける。したがって、誤差は一過性のもので、伝搬することはない。相対推定値(rv,θv)を無線ベースの絶対位置推定値(xu,yu)と融合させることで、一過性の誤差も排除することができる。
【0050】
誤差ドリフトがない場合でも、相対的な推定値自体に誤りがある可能性がある。ダイナミックライティングオクルージョンのような短期的な環境アーチファクトは、視覚的に特徴的な環境であっても、重大な位置不正確さを引き起こす可能性がある。それを補うために、追跡推定の確実性を把握するための追加機能が使用されることもある。
【0051】
画像から抽出された特徴は、追跡の精度とロバスト性とを決定する。画像内のキーポイントの数は、異なる照明条件下などの環境要因に基づいて変化する可能性がある。キーポイントの数が閾値(例えば約500)を超えていれば誤差率は比較的一定しているが、キーポイントの数が閾値を下回ると誤差率は上昇する。キーポイントの数が特に少ない場合(例えば約100未満)、追跡が完全に失敗することがある。キーポイントの一致は、追跡によって提供される推定の確実性を把握する。この確信度特徴Mは、視覚的オドメトリによって生成された相対位置推定値(r,θ)と組み合わされ、センサ融合に入力される合成オドメトリ特徴として提供される。視覚的オドメトリ経路からの入力は、次のように表すことができる。
【数7】
【0052】
次に
図3を参照すると、センサ融合の一例が示されている。無線ベースのブランチでは、無線データ310がエージェント104のトランシーバ206から収集され、アンカーノード106からも収集される可能性がある。ブロック312は、上述のようにアンカー選択を実行し、最も信頼性の高い測距および角度情報を提供するアンカーノードのセットを特定する。例えば、これは信号強度を観察することによって実行され、アンカーがエージェントへの視線経路を持っているかどうかを示すことができる。ブロック314は、無線ベースの位置推定を生成するために、マルチ測位を実行する。これらの推定値は、無線ベースの特徴316を生成するために使用することができる。
【0053】
オドメトリ経路では、視覚/慣性データ320は、特徴のセットを生成するために使用される。例えば、視覚的な同時位置特定とマッピングとを特徴検出322に使用することができる。特徴マッチング324は、画像間の一致するキーポイント対応を確立することができる。マッピング326は、画像の位置を環境内の座標にマッピングし、ポーズグラフ最適化は、エージェント104の相対的な位置情報を特定するためにこの情報を使用する。相対位置情報からポーズグラフ328が生成されることがある。オドメトリ特徴329は、相対位置情報に基づいて生成される。
【0054】
特徴融合330は、無線ベースの特徴とオドメトリ特徴329とを組み合わせ、絶対位置推定332を生成する。この融合は、クロスアテンションモデルを採用して特徴を結合し、その後、長短期記憶(LSTM)層と全結合層とによって処理され、絶対位置推定値332を出力することができる。
【0055】
次に
図4を参照すると、無線ベースの特徴316を生成するための例示的なニューラルネットワークモデルが示されている。このモデルには、二次元の畳み込みセクションのセットが含まれ、各セクションには、リーキー整流線形ユニット(ReLU)活性化関数を持つ畳み込み層、バッチノルム層、ドロップアウト層が含まれる。このような最初のセクション402には16個のユニットがあり、それに続く2つのセクション404と406とにはそれぞれ64個のユニットがある。128ユニットの平坦化密ドロップアウト層408が続き、64ユニットの密ドロップアウト層410と32ユニットの密ドロップアウト層412がさらに出力を処理して無線ベースの特徴316を生成する。
【0056】
次に
図5を参照すると、オドメトリベースの特徴329を生成するための例示的なニューラルネットワークモデルが示されている。このモデルは、リーキーReLU活性化関数を持つ畳み込み層、バッチノルム層、およびドロップアウト層を含む、畳み込み一次元セクションのセットから始まる。このような最初のセクション502には16個のユニットがあり、それに続く2つのセクション504と506とにはそれぞれ64個のユニットがある。64ユニットの平坦化密ドロップアウト層508が続き、64ユニットの密ドロップアウト層510と32ユニットの密ドロップアウト層512とがさらに出力を処理してオドメトリベースの特徴329を生成する。
【0057】
特徴融合モデル330は、無線ベースの特徴316とオドメトリ特徴329とを処理する際、まず単純な畳み込みニューラルネットワークに通すことで特徴を準備し、位置と確実性とに関連する特徴を、位置と確実性との両方を捉えるより代表的な特徴に埋め込むことができる。
【0058】
融合モデル330は、それぞれのセンサ経路の特徴を適応的に重み付けするために注意を使用し、それらの相補的な性質を活用することができる。特に、センサ間の相関を抽出するために、各センサを互いに対して重み付けするクロスアテンションを使用することができる。モデルは、オドメトリベースの推定値が好ましくない環境条件に悩まされる場合、無線ベースの推定値をより高く重み付けすることができ、無線ベースの推定値がアンカー106への非視線経路に悩まされる場合、オドメトリベースの推定値をより高く重み付けすることができる。クロスアテンションはさらに、追跡誤差と相関する特徴を取り入れた、セルフアテンションの利点を含むことができる。
【0059】
クロスアテンションマスクA
rvとA
vrとは、無線ベースの特徴316(F
r)とオドメトリベースの特徴329(F
v)とを用いて共同で学習することができる。マスクは次のように定義される:
【数8】
ここで、W
QとW
Ψとは学習中に学習された重みであり、それぞれ抽出された特徴を埋め込み空間QとΨとに変換し、σは非線形活性化関数である。埋め込み空間は、無線ベースの経路とオドメトリベースの経路からの元の入力特徴の低次元バージョンで、基礎となるグローバルトポロジデータを抽出することができる。高いレベルでは、意味のある特徴は局所的な畳み込みによって捕捉され、長期的な依存関係は、2つのセンサタイプ間の相互相関を捕捉することでマスクを共同で適応している埋め込み空間によって捕捉される。
【0060】
マスクが学習された後、各マスクは要素ごとにそれぞれのセンサ特徴に適用され、その後、マスクされた特徴は連結によってマージされ、融合された特徴
【数9】
を提供することができる。クロスアテンションの出力は、一次元の平坦化された配列である可能性があり、融合された特徴の時間依存性をモデル化するために、1層あたり64の隠れユニットを持つ2層のリカレントニューラルネットワーク(RNN)を含む可能性があるLSTMネットワークに転送される。2つの全結合層は、絶対位置の推定値を出力することができる。LSTMは、以前の時点からの出力(事前の位置推定値)にアクセスできるため、無線ベースの位置推定値に大きな不確かさがある場合、オドメトリからの相対的な位置推定値のみに基づいて絶対的な位置推定値を生成することができる。
【0061】
エージェント104が薄暗い場所にいる場合、無線ベースの特徴の注目度が上がり、オドメトリベースの特徴の注目度が下がる可能性がある。エージェント104がアンカー106への十分な視線経路を持っていない場合、無線ベースの特徴の注目度が下がり、オドメトリベースの特徴の注目度が上がることがある。2つのセンサ経路の独立性と補完性、そしてそれぞれの環境アーチファクトを考慮すると、クロスアテンションはさまざまな悪条件に対するロバスト性を提供するのに役立つ。
【0062】
モデルは、景観、質感、照明条件が異なるさまざまな屋内環境(オフィスビル、家庭、会議センターなど)で収集されたデータセットで訓練することができる。この多様なデータセットによって、モデルはオーバーフィッティングを避けることができる。学習中、入力データはデータセットの平均を引くことで正規化される。学習時には適切な損失関数を使用することができ、損失関数を最小化してモデルパラメータを調整することができる。一旦モデルが訓練されれば、どのような環境にも展開することができ、訓練データセットに含まれていない環境にも汎化することができる。
【0063】
次に
図6を参照すると、環境内のエージェントの位置を特定し、エージェントと対話する方法が示されている。ブロック602は、建物の内部などの環境内のエージェントの位置を特定する。エージェントの位置特定は、無線信号測距と、慣性センサ情報と、視覚的オドメトリとの融合を採用することができる。個々のエージェント104は、それぞれのデータを、すべてのエージェント104の位置を計算する中央システムと通信することができる。
【0064】
中央システムはこのデータを使って、ブロック604で環境のマップを生成する。例えば、エージェントの位置は、各エージェントの位置を特定するために、建物内部の既存のマップに重ね合わせることができる。ブロック604はさらに、建物内の装置の動きを追跡することによって、建物内部自体のマップを生成することを含む場合がある。例えば、携帯電話の動きを追跡することで、建物内の通路を特定することができる。
【0065】
ブロック606は、マップに基づいてリソースを配置する。このマップはさまざまな用途に使用できる。例えば、資産の追跡は、店舗内の在庫と在庫レベルとを特定するために使用され、リソースを配置することは、不足しているアイテムを補充することを含んでも良い。さらに、火災や自然災害が発生した際に、救助のために建物内の人々の位置を特定するために、緊急対応目的で装置の追跡が使用されることもある。マッピングはさらに、建物内を追跡装置によって生成された経路をたどりながら、応答者が建物内を移動するのを助けるために使われることもある。その他の応用例としては、インフラベースの位置特定システムを導入できないような工事現場での作業員や資産の追跡、専用の位置特定システムを導入するとコストがかさむような大規模工場での作業員の追跡などが考えられる。拡張現実システムの場合、マップはユーザーが互いに接近していることを特定するのに役立ち、リソースの配置には、彼らの位置を反映させるために拡張現実の要素を電子的に表示することも含まれる。
【0066】
次に
図7を参照すると、装置位置の特定602に関するさらなる詳細が示されている。ブロック702は、例えばUWBトランシーバ206を用いてエージェント104の無線データを収集する。次にブロック704は、収集された無線データを使用して、上述のように無線ベースの特徴316を決定する。ブロック706は、例えばカメラ210を使用して、エージェントの視覚情報を収集する。ブロック708は、収集した視覚情報を使ってオドメトリベースの特徴329を決定する。ブロック710は、エージェント104によって取得されたセンサデータの品質に敏感な位置推定を提供するために、無線ベースの特徴とオドメトリベースの特徴とを融合する。
【0067】
本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェア要素とソフトウェア要素との両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実施される。
【0068】
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するためのプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、またはトランスポートする任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体または固体ステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
【0069】
各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。
【0070】
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない)は、直接または介在するI/Oコントローラを介してシステムに結合され得る。
【0071】
ネットワークアダプタは、データ処理システムが、介在するプライベートまたはパブリックネットワークを介して他のデータ処理システムまたはリモートプリンタまたはストレージデバイスに結合されるようになることを可能にするために、システムに結合されることもできる。モデム、ケーブルモデム、イーサネットカードは、現在利用可能なネットワークアダプタの種類のほんの一部に過ぎない。
【0072】
本明細書で採用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含むことができる。1つまたは複数のデータ処理要素は、中央処理ユニット、画像処理ユニットおよび/または別個のプロセッサまたはコンピューティング要素ベースのコントローラ(たとえば、論理ゲートなど)に含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど)を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)など)によって使用するために専用にすることができる1つ以上のメモリを含むことができる。
【0073】
ある実施形態では、ハードウェアプロセッササブシステムは、1つ以上のソフトウェア要素を含むことができ、実行することができる。1つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび/または1つ以上のアプリケーションおよび/または特定のコードを含むことができる。
【0074】
他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用の専用回路を含むことができる。そのような回路は、1つまたは複数のアプリケーション専用集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、および/またはプログラマブルロジックアレイ(PLA)を含むことができる。
【0075】
ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。
【0076】
次に
図5を参照すると、本発明の一実施形態による例示的な演算装置500が示されている。演算装置500は、分類器の強化を実行するように構成されている。
【0077】
演算装置500は、限定されないが、コンピュータ、サーバ、ラックベースのサーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイル演算装置、ウェアラブル演算装置、ネットワーク機器、ウェブ機器、分散演算システム、プロセッサベースのシステム、および/または利用者電子装置など、本書に記載される機能を実行できる任意のタイプの計算またはコンピュータ装置として具現化することができる。さらにまたは代替的に、演算装置500は、1つまたは複数のコンピュートスレッド、メモリスレッド、または他のラック、スレッド、演算シャーシ、または物理的に分解された演算装置の他の構成要素として具現化されてもよい。
【0078】
図6に示すように、演算装置600は、例示的に、プロセッサ610、入力/出力サブシステム620、メモリ630、データ記憶装置640、および通信サブシステム650、および/またはサーバまたは同様の演算装置に一般的に見られる他の構成要素およびデバイスを含んでいる。演算装置600は、他の実施形態において、サーバコンピュータに一般的に見られるような他のまたは追加の構成要素(例えば、様々な入力/出力デバイス)を含んでもよい。さらに、いくつかの実施形態では、例示的な構成要素の1つ以上が、別の構成要素に組み込まれるか、さもなければ、別の構成要素の一部を形成することができる。例えば、メモリ630、またはその一部は、いくつかの実施形態において、プロセッサ610に組み込まれても良い。
【0079】
プロセッサ610は、本明細書に記載された機能を実行することができる任意のタイプのプロセッサとして具現化することができる。プロセッサ610は、シングルプロセッサ、マルチプロセッサ、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、シングルまたはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラ、またはその他のプロセッサやプロセスシング/制御回路として具現化されてもよい。
【0080】
メモリ630は、本明細書に記載された機能を実行することができる任意のタイプの揮発性または不揮発性メモリまたははデータストレージとして具現化され得る。動作中、メモリ630は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ、およびドライバなど、演算装置600の動作中に使用される様々なデータおよびソフトウェアを格納することができる。メモリ630は、I/Oサブシステム620を介してプロセッサ610と通信可能に結合され、プロセッサ610、メモリ630、および演算装置600の他の構成要素との入出力動作を容易にするための回路および/または構成要素として具現化され得る。例えば、I/Oサブシステム620は、メモリコントローラハブ、入力/出力制御ハブ、プラットフォームコントローラハブ、集積制御回路、ファームウェアデバイス、通信リンク(例えば、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板トレースなど)および/または、入力/出力操作を容易にするための他の構成要素およびサブシステムとして具現化されてもよく、さもなければ、これらを含んでいても良い。いくつかの実施形態では、I/Oサブシステム620は、システムオンチップ(SOC)の一部を形成し、プロセッサ610、メモリ630、および演算装置600の他の構成要素と共に、単一の集積回路チップに組み込まれても良い。
【0081】
データ記憶装置640は、例えば、メモリ装置および回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブ、または他のデータ記憶装置など、データの短期または長期記憶用に構成された任意のタイプの装置またはデバイスとして具現化することができる。データ記憶装置640は、無線測距情報、慣性センサ情報、および圧力センサ情報に基づいて、環境内の装置の位置を特定するためのプログラムコード640Aと、建物内部をマッピングし、装置の位置決めに応答するためのプログラムコード640Bとを格納することができる。演算装置600の通信サブシステム650は、ネットワークを介して演算装置600と他のリモート装置との間の通信を可能にすることができる、任意のネットワークインタフェースコントローラまたは他の通信回路、装置、またはその集合体として具現されることができる。通信サブシステム650は、任意の1つ以上の通信技術(例えば、有線または無線通信)および関連するプロトコル(例えば、イーサネット、InfiniBand(登録商標)、Bluetooth(登録商標)、Wi-Fi(登録商標)、WiMAX(登録商標)など)を使用してそのような通信を実現するように構成され得る。
【0082】
図示のように、演算装置600は、1つ以上の周辺装置660も含むことができる。周辺装置660は、任意の数の追加の入出力装置、インタフェース装置、および/または他の周辺装置を含んでもよい。例えば、いくつかの実施形態では、周辺装置660は、ディスプレイ、タッチスクリーン、グラフィック回路、キーボード、マウス、スピーカシステム、マイク、ネットワークインタフェース、および/または他の入力/出力装置、インタフェース装置、および/または周辺装置を含むことができる。
【0083】
もちろん、演算装置600は、当業者が容易に思いつくように、他の要素(図示せず)を含むこともでき、また、特定の要素を省略することもできる。例えば、様々な他のセンサや入力装置および/または出力装置は、当業者によって容易に理解されるように、同じものの特定の実装に依存して、演算装置600に含まれることが可能である。例えば、様々なタイプの無線および/または有線の入力および/または出力装置を使用することができる。さらに、プロセッサ、コントローラ、メモリなどを追加して、様々な構成で利用することも可能である。処理システム600のこれらおよび他の変形例は、本明細書に提供される本発明の教示を考慮すれば、当業者によって容易に企図されるものである。
【0084】
次に
図9と
図10とを参照する。
図7と
図8とを参照すると、例示的なニューラルネットワークアーキテクチャが示されており、これらは本モデルの一部を実装するために使用することができる。ニューラルネットワークは汎化されたシステムであり、追加的な経験的データにさらされることでその機能と精度が向上する。ニューラルネットワークは、経験的データにさらされることによって学習される。訓練中、ニューラルネットワークは、入力される経験的データに適用される複数の重みを記憶し、調整する。調整された重みをデータに適用することで、データがクラスの集合からあらかじめ定義された特定のクラスに属することを識別したり、入力されたデータが各クラスに属する確率を出力したりすることができる。
【0085】
一連の例から得られた経験的データ(訓練データとも呼ばれる)は、値の文字列としてフォーマットされ、ニューラルネットワークの入力に供給される。各例は、既知の結果または出力と関連付けられる。各列は、(x,y)の組として表され、xは入力データ、yは既知の出力を表す。入力データには様々なデータタイプがあり、複数の異なる値が含まれていても良い。ネットワークは、例の入力データを構成する各値に対して1つの入力ノードを持つことができ、各入力値には別々の重みを適用することができる。入力データは、例えば、構築され訓練されるニューラルネットワークのアーキテクチャに応じて、ベクトル、配列、または文字列としてフォーマットすることができる。
【0086】
ニューラルネットワークは、入力データから生成されたニューラルネットワーク出力を例の既知の値と比較し、記憶された重みを調整して出力値と既知の値の差を最小にすることで「学習」する。調整は、逆伝搬を通じて記憶された重みに対して行うことができ、出力値に対する重みの影響は、数学的勾配を計算し、出力を最小差にシフトさせる方法で重みを調整することによって決定される。勾配降下法と呼ばれるこの最適化は、訓練がどのように行われるかの非限定的な例である。訓練に使用されなかった既知の値を持つ例のサブセットは、ニューラルネットワークの精度をテストし、検証するために使用することができる。
【0087】
運用中、訓練されたニューラルネットワークは、汎化によって、以前に訓練や検証に使用されなかった新たなデータに使用することができる。調整されたニューラルネットワークの重みは、新たなデータに適用することができ、重みは訓練例から開発された関数を推定する。重みによって捕捉される推定関数のパラメータは、統計的推論に基づいている。
【0088】
レイヤードニューラルネットワークでは、ノードは層の形で配置される。例示的な単純ニューラルネットワークは、ソースノード922の入力層920と、出力ノードとしても機能する1つまたは複数の計算ノード932を有する単一の計算層930とを有し、入力例が分類され得る各可能なカテゴリに対して単一の計算ノード932が存在する。入力層920は、入力データ910のデータ値712の数に等しい数のソースノード922を有することができる。入力データ910のデータ値912は列ベクトルとして表すことができる。計算層930の各計算ノード932は、入力ノード920に供給された入力データ910から重み付けされた値の線形結合を生成し、合計に微分可能な非線形活性化関数を適用する。例示的な単純ニューラルネットワークは、線形分離可能な例(例えば、パターン)に対して分類を実行することができる。
【0089】
多層パーセプトロンなどの深層ニューラルネットワークは、ソースノード922の入力層920、1つまたは複数の計算ノード932を有する1つまたは複数の計算層930、および入力例が分類される可能性のあるカテゴリごとに1つの出力ノード942がある出力層940を有することができる。入力層920は、入力データ910のデータ値912の数に等しい数のソースノード922を有することができる。計算層930の計算ノード932は、ソースノード922と出力ノード942との間にあり、直接観察されないため、隠れ層とも呼ばれる。計算層の各ノード932,942は、前の層のノードから出力された値から重み付けされた値の線形結合を生成し、線形結合の範囲にわたって微分可能な非線形活性化関数を適用する。各前のノードからの値に適用される重みは、例えばw1,w2,...wn-i,wnで表すことができる。出力層は、入力されたデータに対するネットワークの全体的な応答を提供する。深層ニューラルネットワークは、計算レイヤの各ノードが前のレイヤのすべてのノードに接続されている完全接続の場合もあれば、レイヤ間の接続が他の構成になっている場合もある。ノード間のリンクが欠落している場合、ネットワークは部分的に接続されていると呼ばれる。
【0090】
深層ニューラルネットワークの訓練には、各ノードの重みを固定し、入力をネットワークに伝搬させるフォワードフェーズと、エラー値をネットワークに逆伝搬させ、重み値を更新するバックワードフェーズの2つのフェーズがある。
【0091】
1つ以上の計算(隠れ)層930の計算ノード932は、特徴空間を生成する入力データ912に対して非線形変換を実行する。クラスやカテゴリは、元のデータ空間よりも特徴空間の方がより簡単に分離できるかもしれない。
【0092】
明細書において、本発明の「一実施形態」または「一実施形態」、およびその他の変形例への言及は、実施形態に関連して説明した特定の特徴、構造、特性などが、本発明の少なくとも一実施形態に含まれることを意味する。したがって、本明細書中の各所に現れる「一実施形態において」または「一実施形態において」という表現、および他の任意の変形は、必ずしもすべてが同じ実施形態を指すとは限らない。しかしながら、本明細書で提供される本発明の教示を考慮すれば、1つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。
【0093】
例えば「A/B」の場合、「Aおよび/またはB」、「AとBとの少なくとも1つ」のような、以下の「/」、「および/または」、「少なくとも1つ」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、または第2のリストされた選択肢(B)のみの選択、または両方の選択肢(AおよびB)の選択を包含すると意図していると理解されよう。さらなる例として、「A、B、および/またはC」および「A、B、およびCの少なくとも1つ」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、または第2のリストされた選択肢(B)のみの選択、または第3のリストされた選択肢(C)のみの選択、または第1および第2のリストされた選択肢(AおよびB)のみの選択、第1および第3のリストされた選択肢(AおよびC)のみの選択、第2および第3のリストされた選択肢(BおよびC)のみの選択、または3つすべての選択肢(AおよびBおよびC)の選択を包含すると意図されている。このことは、列挙された項目の数だけ拡張することができる。
【0094】
上記は、あらゆる点で例示的かつ例示的であるが、制限的なものではないと理解され、ここに開示された発明の範囲は、詳細な説明からではなく、特許法によって許される全幅に従って解釈された請求項から決定されるものである。本明細書に示され説明された実施形態は、本発明の例示に過ぎず、当業者は、本発明の範囲及び精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者であれば、本発明の範囲と精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、特許法が要求する詳細さと特殊性をもって本発明の側面を説明したが、特許状によって請求され、保護されることを望むものは、添付の特許請求の範囲に記載されているとおりである。
【国際調査報告】