IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パロ アルト リサーチ センター インコーポレイテッドの特許一覧

特許7488435位置合わせされたCADモデルを使用するAR対応ラベル付け
<>
  • 特許-位置合わせされたCADモデルを使用するAR対応ラベル付け 図1
  • 特許-位置合わせされたCADモデルを使用するAR対応ラベル付け 図2
  • 特許-位置合わせされたCADモデルを使用するAR対応ラベル付け 図3
  • 特許-位置合わせされたCADモデルを使用するAR対応ラベル付け 図4
  • 特許-位置合わせされたCADモデルを使用するAR対応ラベル付け 図5
  • 特許-位置合わせされたCADモデルを使用するAR対応ラベル付け 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-14
(45)【発行日】2024-05-22
(54)【発明の名称】位置合わせされたCADモデルを使用するAR対応ラベル付け
(51)【国際特許分類】
   G06T 19/00 20110101AFI20240515BHJP
   G06N 20/00 20190101ALI20240515BHJP
   G06N 3/04 20230101ALI20240515BHJP
【FI】
G06T19/00 600
G06N20/00 130
G06N3/04
【請求項の数】 18
(21)【出願番号】P 2019192525
(22)【出願日】2019-10-23
(65)【公開番号】P2020087440
(43)【公開日】2020-06-04
【審査請求日】2022-10-19
(31)【優先権主張番号】16/192,634
(32)【優先日】2018-11-15
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】504407000
【氏名又は名称】パロ アルト リサーチ センター,エルエルシー
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【弁理士】
【氏名又は名称】西島 孝喜
(74)【代理人】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【弁理士】
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】マシュー・エイ・シュリーブ
(72)【発明者】
【氏名】ロバート・アール・プライス
【審査官】▲高▼橋 真之
(56)【参考文献】
【文献】国際公開第2018/170512(WO,A1)
【文献】特表2020-535509(JP,A)
【文献】ALDOMA, Aitor et al.,Automation of “ground truth” annotation for multi-view RGB-D object instance recognition datasets,2014 IEEE/RSJ International Conference on Intelligent Robots and Systems,IEEE,2014年11月06日,pp.5016-5023,<URL:https://ieeexplore.ieee.org/document/6943275>
(58)【調査した分野】(Int.Cl.,DB名)
G06T 19/00
G06N 20/00
G06N 3/04
(57)【特許請求の範囲】
【請求項1】
画像検出人工知能(AI)エンジンを訓練するための訓練データの効率的な収集を容易にするためのコンピュータ実装方法であって、
シーン内に配置された物理的物体の設計または製造時に生成された既存のコンピュータ支援設計(CAD)モデルである3次元(3D)モデルを取得することと、
前記3Dモデルに基づいて、前記物理的物体に対応する仮想物体を生成することと、
拡張現実(AR)カメラを構成することであって、
前記ARカメラの視野内で、前記物理的物体の上に前記仮想物体を自動的に重ね合わせ、
前記シーン内の前記物理的物体を含む物理的画像、及び前記物理的物体上に重ね合わせられた前記仮想物体を含む対応するAR画像を捕捉し、
前記AR画像に基づいて前記物理的画像のアノテーションを自動的に作成する、
ように前記ARカメラを構成することと、を含む、コンピュータ実装方法。
【請求項2】
前記物理的画像の前記アノテーションを作成することが、前記物理的画像の画素レベルのラベルを作成することを含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記物理的画像の前記アノテーションが、前記AR画像内の画素のラベルを前記物理的画像内の画素にリンクさせる画素マスクを含み、前記AR画像内の前記画素の前記ラベルが、前記3Dモデルに基づいて作成される、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記ARカメラが、前記ARカメラの前記視野内で、前記仮想物体を前記物理的物体に自動的に位置合わせするように、特徴分析技術を適用することで、前記仮想物体を前記物理的物体上に自動的に重ね合わせるように構成される、請求項1に記載のコンピュータ実装方法。
【請求項5】
撮像条件を変更して、更新されたARカメラ視野を作成することと、
前記更新されたARカメラ視野内で、前記仮想物体を前記物理的物体に再位置合わせすることと、
追加の物理的画像及び追加の対応するAR画像を捕捉することと、
前記AR画像に基づいて前記追加の物理的画像にアノテーションすることと、を更に含む、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記仮想物体を前記物理的物体に再位置合わせすることが、
前記ARカメラの姿勢を追跡することと、
前記ARカメラの前記追跡された姿勢に基づいて、前記更新されたカメラ視野内の前記物理的物体の姿勢を計算することと、
前記更新されたカメラ視野内の前記物理的物体の前記計算された姿勢に基づいて前記仮想物体の姿勢を調整することと、を含む、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記撮像条件を変更することが、
前記ARカメラと前記物理的物体との間の距離を変更することと、
前記ARカメラの角度を変更することと、
照明条件を変更することと、
前記シーン内の背景を変更することと、
前記物理的物体の表面的外観を変更することと、
前記物理的物体の姿勢を変更することと、
前記物理的物体内の2つの構成要素間の相対位置を変更することと、
閉塞物体を追加又は除去することと、のうちの1つ以上を含む、請求項5に記載のコンピュータ実装方法。
【請求項8】
訓練データ集に、前記物理的画像及び前記対応するアノテーションを記憶することと、
前記訓練データ集に基づいて、前記物理的物体を識別するように畳み込みニューラルネットワークを訓練することと、を更に含む、請求項1に記載のコンピュータ実装方法。
【請求項9】
前記ARカメラが、スマートグラスの一部である、請求項1に記載のコンピュータ実装方法。
【請求項10】
画像検出人工知能(AI)エンジンを訓練するための訓練データの効率的な収集を容易にするためのコンピュータシステムであって、
プロセッサと、
前記プロセッサによって実行されると、前記プロセッサに方法を実行させる命令を記憶する記憶デバイスと、を含み、前記方法が、
シーン内に配置された物理的物体の設計または製造時に生成された既存のコンピュータ支援設計(CAD)モデルである3次元(3D)モデルを取得することと、
前記3Dモデルに基づいて、前記物理的物体に対応する仮想物体を生成することと、
拡張現実(AR)カメラを構成することであって、
前記ARカメラの視野内で、前記物理的物体の上に前記仮想物体を自動的に重ね合わせ、
前記シーン内の前記物理的物体を含む物理的画像、及び前記物理的物体上に重ね合わせられた前記仮想物体を含む対応するAR画像を捕捉し、
前記AR画像に基づいて前記物理的画像のアノテーションを自動的に作成する、
ように前記ARカメラを構成することと、を含む、コンピュータシステム。
【請求項11】
前記物理的画像の前記アノテーションを作成することが、前記物理的画像の画素レベルのラベルを作成することを含む、請求項10に記載のコンピュータシステム。
【請求項12】
前記物理的画像の前記アノテーションが、前記AR画像内の画素のラベルを前記物理的画像内の画素にリンクさせる画素マスクを含み、前記AR画像内の前記画素の前記ラベルが、前記3Dモデルに基づいて作成される、請求項11に記載のコンピュータシステム。
【請求項13】
前記ARカメラが、前記ARカメラの前記視野内で、前記仮想物体を前記物理的物体に自動的に位置合わせするように、特徴分析技術を適用することで、前記仮想物体を前記物理的物体上に自動的に重ね合わせるように構成される、請求項10に記載のコンピュータシステム。
【請求項14】
前記方法が、
撮像条件を変更して、更新されたARカメラ視野を作成することと、
前記更新されたARカメラ視野内で、前記仮想物体を前記物理的物体に再位置合わせすることと、
追加の物理的画像及び追加の対応するAR画像を捕捉することと、
前記AR画像に基づいて前記追加の物理的画像にアノテーションすることと、を更に含む、請求項10に記載のコンピュータシステム。
【請求項15】
前記仮想物体を前記物理的物体に再位置合わせすることが、
前記ARカメラの姿勢を追跡することと、
前記ARカメラの前記追跡された姿勢に基づいて、前記更新されたカメラ視野内の前記物理的物体の姿勢を計算することと、
前記更新されたカメラ視野内の前記物理的物体の前記計算された姿勢に基づいて前記仮想物体の姿勢を調整することと、を含む、請求項14に記載のコンピュータシステム。
【請求項16】
前記撮像条件を変更することが、
前記ARカメラと前記物理的物体との間の距離を変更することと、
前記ARカメラの角度を変更することと、
照明条件を変更することと、
前記シーン内の背景を変更することと、
前記物理的物体の表面的外観を変更することと、
前記物理的物体の姿勢を変更することと、
前記物理的物体内の2つの構成要素間の相対位置を変更することと、
閉塞物体を追加又は除去することと、のうちの1つ以上を含む、請求項14に記載のコンピュータシステム。
【請求項17】
前記方法が、
訓練データ集に、前記物理的画像及び前記対応するアノテーションを記憶することと、
前記訓練データ集に基づいて、前記物理的物体を識別するように畳み込みニューラルネットワークを訓練することと、を更に含む、請求項10に記載のコンピュータシステム。
【請求項18】
前記ARカメラが、スマートグラスの一部である、請求項10に記載のコンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、コンピュータビジョンシステムに関する。より具体的には、本開示は、機械学習のための訓練データの効率的な収集のための、拡張現実(augmented reality、AR)技術及び既存のコンピュータ支援設計(computer-aided design、CAD)モデルを使用するシステム及び方法に関する。
【0002】
現在、機械学習技術は、画像内の物体(例えば、顔、車、建物など)を検出することにおいて、著しい進歩を遂げてきた。特定の用途では、識別された物体は、矩形の境界ボックスを使用して強調され得る。例えば、デジタルカメラは、画像内の顔を取り囲む矩形のボックスを配置するように構成され得る。しかしながら、そのような境界ボックスは、物体の形状に適合せず、細粒シーン分析では限定された有用性を有し得る。物体の画素レベルの輪郭を有することによって、物体をその背景からセグメント化する能力は、より高速な訓練(例えば、訓練サンプルのより効率的な収集)、及び物体のより正確な場所及び配向の検出をもたらし得る。更に、そのような能力は、拡張現実及び画像編集アプリケーションなどの、物体の境界の正確な識別に依存する新しいアプリケーションを可能にし得る。
【0003】
画素レベルセグメンテーションシステムを訓練する際の重要な障壁は、サンプル画像内の物体の画素レベルの輪郭を提供する訓練データを取得することである。従来、訓練データを取得することは、収集された画像又はビデオフレーム内の対象の物体に手動でアノテーション又はラベル付けする(例えば、手動で部分又は物体の場所を示す)面倒なプロセスによって達成され得る。そのような非効率的なプロセスは、その分野の専門家によって、又はクラウドソーシングによって行われ得る。その分野の専門家は、高精度のラベルを提供することができ、これは、コスト及び時間の著しい消費を伴い得る。一方で、クラウドソーシングの作業者(例えば、Amazon Mechanical Turks)は、低コストかつ高速なターンアラウンドでラベルを提供し得るが、ラベルの精度及び正確さは、潜在的に損なわれ得る。
【0004】
プロセスを加速するために3次元(three-dimensional、3D)情報を活用するセマンティックセグメンテーションラベルを収集するための様々なアプローチが、昨今、提案されてきた。例えば、SemanticPaintは、ユーザーが、画素レベルのラベル伝搬アルゴリズムをトリガするハンドジェスチャを使用して、3D再構築された物体の表面を塗ることを可能にする、対話型仮想現実(virtual reality、VR)アプローチである。このシステムは、ユーザーがラベル付けのライブフィードバックを提供する際、完全にオンラインであるように設計されている。別の対話型3Dラベル付けアプローチは、マルコフ確率場(Markov Random Fields、MRF)と物体定位との組み合わせを使用したシーンの初期3Dセグメンテーションの実行と、それに続く、ユーザーによる精密化とを伴い得る。異なるアプローチは、深さセンサ及び最新のアルゴリズムを使用して、3D室内シーンを再構築し、次いで、クラウドソーシングの作業者を使用して、再構築された3Dシーン内の物体にアノテーションし得る。全てのこれらの手法は、複雑なアルゴリズム及び広範な手作業に依存する。
【0005】
一実施形態は、画像検出人工知能(artificial intelligence、AI)エンジンを訓練するための訓練データの効率的な収集を容易にするシステムを提供する。動作中、システムは、シーン内に配置された物理的物体の3次元(3D)モデルを取得し、3Dモデルに基づいて物理的物体に対応する仮想物体を生成し、拡張現実(AR)カメラの視野内で、仮想物体を物理的物体の上に実質的に重ね合わせる。システムは、ARカメラを、シーン内の物理的物体を含む物理的画像、及び物理的物体上に重ね合わせられた仮想物体を含む対応するAR画像を捕捉し、AR画像に基づいて物理的画像のアノテーションを作成するように更に構成し得る。
【0006】
この実施形態の変形例では、物理的画像のアノテーションを作成することは、物理的画像の画素レベルのラベルを作成することを含み得る。
【0007】
更なる変形例では、物理的画像のアノテーションは、AR画像内の画素のラベルを物理的画像内の画素にリンクさせる画素マスクを含み得、AR画像内の画素のラベルが、3Dモデルに基づいて作成される。
【0008】
この実施形態の変形例では、3Dモデルは、物理的物体と関連付けられたコンピュータ支援設計(CAD)モデル、又は3Dスキャン技術を使用して生成された物理的物体の3Dモデルを含み得る。
【0009】
この実施形態の変形例では、仮想物体を物理的物体上に重ね合わせることは、ARカメラの視野内で、仮想物体を物理的物体に手動で位置合わせすること、又は特徴分析技術を使用して、ARカメラの視野内で、仮想物体を物理的物体に自動的に位置合わせすること、を含み得る。
【0010】
この実施形態の変形例では、システムは更に、撮像条件を変更して、更新されたARカメラ視野を作成し、更新されたARカメラ視野内で、仮想物体を物理的物体に再位置合わせし、追加の物理的画像及び追加の対応するAR画像を捕捉し、AR画像に基づいて追加の物理的画像にアノテーションし得る。
【0011】
更なる変形例では、仮想物体を物理的物体に再位置合わせすることは、ARカメラの姿勢を追跡することと、ARカメラの追跡されたポーズに基づいて、更新されたカメラ視野内の物理的物体の姿勢を計算することと、更新されたカメラ視野内の物理的物体の計算された姿勢に基づいて仮想物体の姿勢を調整することと、を含み得る。
【0012】
更なる変形例では、撮像条件を変更することは、カメラと物理的物体との間の距離を変更することと、カメラの角度を変更することと、照明条件を変更することと、シーン内の背景を変更することと、物理的物体の表面的外観を変更することと、物理的物体の姿勢を変更することと、物理的物体内の2つの構成要素間の相対位置を変更することと、閉塞物体を追加又は除去することと、のうちの1つ以上を含み得る。
【0013】
この実施形態の変形例では、システムは更に、訓練データ集に、物理的画像及び対応するアノテーションを記憶し、訓練データ集に基づいて、物理的物体を識別するように畳み込みニューラルネットワークを訓練し得る。
【0014】
この実施形態の変形例では、ARカメラは、スマートグラスの一部であり得る。
【図面の簡単な説明】
【0015】
図1】一実施形態による、訓練データの効率的な収集を容易にするための例示的な環境を示す。
図2】一実施形態による、訓練データを収集するための例示的なプロセスを示すフローチャートを提示する。
図3】一実施形態による、例示的な物理的画像及びモデルオーバーレイAR画像を示す。
図4】一実施形態による、例示的な物理的画像及びモデルオーバーレイAR画像を示す。
図5】一実施形態による、訓練データ収集システムを容易にする例示的なコンピュータシステムを示す。
図6】一実施形態による、訓練データ収集システムを容易にする例示的な装置を示す。
【発明を実施するための形態】
【0016】
本明細書に説明される実施形態は、ホログラフィックCADモデルを現実世界の物体(例えば、プリンタ)に位置合わせするために、基準ベースの追跡機構を使用するシステムを提供することによって、画像検出訓練データの手動ラベル付けの負担を低減するという課題を解決する。より具体的には、動作中、姿勢追跡システム(例えば、拡張現実(AR)ヘッドセット)は、姿勢追跡システムと関連付けられたカメラによって捕捉された画像内の対応する物体とCADモデルを位置合わせし得る。異なる場所及び配向からの画像を捕捉するためにカメラが現実世界で移動するとき、追跡システムは、カメラの場所及び配向を連続的に追跡し得る。追跡結果に基づいて、システムは、次いで、カメラによって撮影された各画像内の物体上にCADモデルの2D輪郭を投影し得る。システムは、次いで、ピクセルレベル検出及びセグメンテーション機械学習モジュールを訓練するために、投影された2D輪郭を画素マスクとして使用し得る。
【0017】
ユーザーは、追跡システムに連結された記録デバイスを使用して、3次元(3D)世界座標フレームと関連付けられている環境(例えば、「シーン」)内の物理的物体の第1の画像を捕捉し得る。追跡システムは、次いで、物理的物体の対応する3Dモデル(例えば、CADモデル又は他のタイプの3Dモデル)を、画像内の物理的物体上に位置合わせして重ね合わせ、第2の画像を捕捉し得る。画素マスクは、第1及び第2の画像に基づいて作成され得る。画素マスクは、マスク内の画素を物体の異なる部位にリンクさせるためにアノテーションされ得る(例えば、手動で)。より具体的には、マスク内の各値は、CADモデル内の対応する画素の場所に関連付けられたラベルを割り当てられる。ユーザーは、次いで、異なる角度又は距離から、かつ任意選択的に異なる照明条件下で、物理的世界内の物体の追加の画像(物理的画像と称される)を撮影し得る。追跡システムは、カメラの位置及び角度を連続的に追跡する能力を有し、したがって、追加の画像内の物体の姿勢を推定することができる。推定された姿勢に基づいて、システムは、画像内の物体に対応する3Dモデルの2D輪郭を取得し、物体上に2D輪郭を投影し、物体の画像をモデルオーバーレイと共に捕捉し得る(かかる画像は、AR画像と称され得る)。システムはまた、物理的画像及びAR画像に基づいて画素マスクを作成し得る。3Dモデル内の画素が事前にラベル付けされているため、作成された画素マスクは、3Dモデルに基づいて自動的にラベル付けされ得る。物体の多くの(例えば、数十又は数百の)画像が、異なる撮像条件下で撮影され得、ラベル付きマスクが、各画像に対して自動的に作成され得る。これらの画素レベルのラベル付き画像は、次いで、物体検出ニューラルネットワークの訓練に使用され得る。
【0018】
AR技術を実装することによって(例えば、様々な条件下で捕捉された画像内の物体上に物体の3Dモデルを投影することによって)、システムは、画像の画素レベルの自動ラベル付けを容易にする。このプロセスは、ユーザーの労力をほとんど必要とせず、物体検出タスクのために人工知能(AI)システムを訓練するために使用され得る大量のラベル付き画像を生成し得る。
【0019】
したがって、本明細書に説明される実施形態は、機械学習のための訓練データを収集する効率を高めるシステムを提供する。向上した効率は、画素レベルで画像にアノテーションするために必要とされる手動ラベル付けの量の大幅な低減を含み得る。効果的な機械学習が訓練データの多様性に基づくため、かつシステムが多様な訓練データを効率的に収集するため、本明細書に説明される実施形態は、機械学習の技術分野を改善する。
【0020】
多くの現実世界の物体、特に、工業的物体は、対応する既存のCADモデルを有し得る。これらのCADモデルは、現実世界の物体の完全に現実的なレンダリングを生成しない場合があるが、それらは、それらの3D形状を精密に画定し得る。例えば、工業機器(例えば、プリンタ、自動車など)を設計及び製造するとき、製造者は、典型的には、機器の3DCADモデルを開発し、それらのCADモデルは、機器内の異なる構成要素の正確な寸法を含み得る。更に、これらのCADモデルは、異なる姿勢又は状態を有する機器の画像をレンダリングし得る。例えば、プリンタのCADモデルは、プリンタが異なる角度から見られるときの、又はプリンタが開いた又は閉じたその紙トレイを有するときの、プリンタの画像をレンダリングし得る。そのような情報は、CADモデルのレンダリングされた画像の各画素のラベルが事前知識になるため、画素レベルのラベル付けで非常に有用であり得る。
【0021】
例示的な一実施形態では、ユーザーは、現実世界環境又はシーン内の現実世界の又は物理的物体の画像を捕捉及び表示するために、ARヘッドセット(例えば、Microsoft HoloLens(商標)システム)を使用し得る。HoloLensは、RGB-D(赤緑青+深さ)カメラ、及び部屋のモデルを構築する、同時の自己位置推定及び環境地図作成(simultaneous localization and mapping、SLAM)スタイルアルゴリズムを使用し得、ユーザーが、物理的物体を含有する現実世界のシーン内に3D仮想物体(例えば、3DCADモデル)を配置することを可能にすることに留意されたい。
【0022】
更に、ユーザーは、3DCADモデルが、表示された画像内の物理的物体上に重ね合わせられ得、結果として複合現実又は拡張現実画像をもたらすように、物理的物体の3DCADモデルを操作し得る。HoloLensに加えて、特定のヘッドマウントディスプレイシステム又はスマートグラスなどの他のARヘッドセットもまた、モデルオーバーレイAR画像を作成するために使用され得ることに留意されたい。HoloLens又は他のARシステムによって捕捉及び表示された画像が2次元(two dimensional、2D)である場合、システムは、3DCADモデルの2D輪郭又は投影を、画像内の2D物理的物体上に効果的に投影し得る。
【0023】
上述のように、3DCADモデルのレンダリングされた画像の各画素の画素レベルのラベルは、システムにとって事前知識であり、これは、システムが各画素の構成要素のラベル付けを知っていることを意味する。一方、3Dモデルが物理的物体の画像上に重ね合わせられたとき、物理的物体の画像の各画素は、CADモデルのレンダリングされた画像の対応する画素にリンクされ得る。その結果、CADモデルのレンダリングされた画像の画素レベルのラベルは、物理的物体の画像の対応する画素に転送され得る。
【0024】
3Dモデル及び物理的物体の初期の手動の位置合わせに続いて、ユーザーは、異なる照明条件下、異なる距離及び配向、かつ閉塞物体の存在下で、HoloLensを用いて異なる視野から物理的物体のいくつかの画像を捕捉し得る。HoloLensは、物理的物体の周囲を移動する際に、その姿勢を計算及び追跡し得る。HoloLensの姿勢に基づいて、システムは、次に、対応する画像内の物理的物体の姿勢を推定し得る。システムは、次いで、物理的物体の推定された姿勢に基づいてCADモデルから画像をレンダリングし得る。例えば、システムは、表示された仮想物体がHoloLensによって見られる物理的物体の姿勢と同じ姿勢を有するような手段で、CADモデルから画像をレンダリングし得る(例えば、仮想物体を作成する)。更に、HoloLensが、物理的物体の座標を含む環境(例えば、部屋)の3Dモデルを維持するため、システムは、物理的物体上に仮想物体(即ち、コンピュータレンダリング画像)を精密に重ね合わせて、モデルオーバーレイAR画像を作成し得る。2D画像を作成するために、システムは、CADモデルから2D画像をレンダリングし、2D画像を物理的物体の2D画像上に重ね合わせ得る。仮想物体を物理的物体上に位置合わせして重ね合わせることは、レンダリングされた画像の画素を物理的画像の対応する画素にリンクさせ得る。同様に、レンダリングされた画像の画素は、既知のラベルを有し、これは、次いで、物理的画像の対応する画素に転送され、それによって、新たに取得された画像に画素レベルでラベル付けする目標を達成し得る。
【0025】
別の例示的な実施形態では、物理的物体の対応するCADモデルが利用可能ではない。そのような場合、システムは、3Dスキャン及び立体写真測量法などの、様々なモデリング技術を使用して、物体の3Dモデルを生成し得る。
【0026】
サービス産業の拡張現実(AR)のいくつかの一般的な形態としては、テザードテレプレゼンス、情報の視覚的検索、及びオーバーレイを有する修復スクリプトが挙げられる。しかしながら、これらの結果の各々は、非効率性によって妨害される。テザードテレプレゼンスでは、遠隔技術者が、接続性及び広範な人間の専門家の時間の両方を必要とし得る、目視検査を実行する必要があり得る。情報の視覚的検索(例えば、Digital GloveBoxアプリケーション)では、カメラは、モデル番号、マニュアルページ、又はテレメトリ統計を検索し得る。しかしながら、出力は、受動的なページであり、単一の部屋に限定され得る。オーバーレイを有する修復スクリプトでは、チェックリスト又は手続き的プロンプトが、ユーザーの視野上に重ね合わせられ得、ユーザーは、重ね合わせられた視野を介してクリックし得る。しかしながら、視野は、ユーザーの動作を理解することができないという点で、作成に費用が掛かる場合があり、依然としてほとんど受動的である。したがって、スタンドアロンARコンテンツを生成することは、現在、非効率なシステムを結果としてもたらし得る、モデルを訓練するために画像及びビデオ(例えば、アニメーション)を作成する、費用が掛かる作業(例えば、アーティスト、人間の専門家、及び機械学習専門家による)を必要とする。
【0027】
本明細書に説明される実施形態は、画像検出人工知能(AI)エンジン用の訓練データを収集する効率を向上させるシステムを提供する。訓練データを収集するために必要とされる手動時間及び労力の量を減少させることに加えて、システムはまた、新しい物体検出システムの開発時間を短縮し得る。より具体的には、物体とのCADモデルの1回の手動の位置合わせは、その分野の専門家が数百の画像の輪郭を手塗するよりもはるかに簡単である。特定の場合では、CADモデルと物理的物体との間の位置合わせは、追跡システム(例えば、HoloLensシステム)によって自動的に実行され得る。
【0028】
更に、システムの実施形態は、顧客によって管理されるシステムの部品の大規模なラベル付きデータセットを迅速に作成し、ラベル付きデータセットを使用してコンピュータビジョンシステムを訓練し得る。訓練されたシステムは、システムの一部の管理及び修復についてサービス技術者を支援し得、また、顧客が、システムの部品(例えば、DigitalGloveBox及びSmartScanアプリケーション)の修復についてエンドユーザーを支援することを可能にし得る。これらの既存のツールと提案される技術との間の差別化要因は、既存のツール内に入れられたコンピュータビジョンシステム用の訓練データを収集するために必要とされる多大な時間である。この多大な時間は、訓練データを収集するためにシステムの実施形態を使用することによって、ごくわずか(例えば、1/10未満)に短縮され得る。
【0029】
顧客によって管理される他の例示的なシステムとしては、自動車又は車両(ダッシュボード又は他の自動車部品、例えば、エンジン又は自動車のキャビン内の機構が、顧客が支援を必要とし得る対象領域であり得る)、及びプリンタ又は他のデバイス(供給トレイ、出力トレイ、制御パネル、又は他の部品が対象領域であり得る)が、挙げられ得る。支援を必要とし得る顧客(又はエンドユーザー)は、システムの写真を自身の携帯電話で撮影し、写真の特定の「ラベル付き」区分に関する有用な情報を取得することができる。例えば、車両のユーザーが車両の問題を経験する場合、車両のユーザーは、車両のダッシュボードの画像を自身のモバイルデバイスで捕捉し得、そして、様々なカメラ姿勢から事前生成されたダッシュボードの多様なラベル付き画像セットに基づいて、車両ユーザーは、問題に対処する手段を理解する際にユーザーを支援するために使用され得るラベル付き画像を取得することができる。
【0030】
システムの実施形態はまた、その分野の専門家が、3Dモデリングツールの機械学習に専門知識を必要とせずに、新しいスタンドアロンの対話型拡張現実コーチを容易に作成することを可能にする、ディープビジョン能力付きツールを作成し得る。システムは、物体及び領域を指すためのジェスチャ、ラベルを提供するための音声テキスト、及び物体部位セグメンテーションなどのオーサリングに関する機構を含み得る。システムはまた、記憶、インデックス付け、及びメタデータ、並びにクリップの基本編集などの、キュレーションを含み得る。システムは、部品認識、ラベル配置、フロー制御、及び部品条件決定などの、支援に関する機構を更に含み得る。システムは、背景の脱感作、自動照明拡張、及び影の生成を介して訓練のロバスト性及び一般化を向上させ得る。更に、システムは、対話型コーチング、並びにアプリケーション統合及びテレメトリ接続をサポートするために、音声及び活動認識を含み得る。
【0031】
したがって、画像検出AIエンジン用のアノテーション付き訓練データを収集するために、拡張現実(AR)ヘッドセット及び物体の既知の3Dモデルを使用することによって、本明細書に説明される実施形態は、AR技術の姿勢追跡能力を利用して、物体の新しい視点毎に手動の画素レベルのラベル付けを必要とせずに、複数の視点から訓練データを収集することができる。これは、効果的なコンピュータビジョンAIを訓練するための画素レベルのラベル付けの負担の大幅な軽減を結果としてもたらし得る。
【0032】
図1は、一実施形態による、訓練データの効率的な収集を容易にするための例示的な環境を示す。環境100は、ARデバイス104及び関連付けられたユーザー106と、コンピューティングデバイス108と、物理的物体120を含み得る。ARデバイス104は、AR対応ヘッドマウントディスプレイ(Microsoft Holoensなど)を含み得る。物理的物体120は、関連付けられた3D世界座標フレームを有するシーン(図示せず)の一部であり得る。コンピューティングデバイス108は、データを受信、送信、及び記憶し得、かつ物理的物体120の3Dモデルを維持し得る、サーバ又は他のコンピューティングデバイスを含み得る。ARデバイス104は、ネットワーク102を介してコンピューティングデバイス108に連結される。
【0033】
動作中、ユーザー106は、3D世界座標フレーム内の場所130からARデバイス104を使用して、物理的物体120の物理的画像を捕捉し得る。ユーザー106は、ARデバイス104を更に使用して、物理的物体120の上に仮想物体122を重ね合わせ得る。仮想物体122は、物理的物体120の3Dモデルからレンダリングされた画像(例えば、ホログラム)であり得る。いくつかの実施形態では、ユーザー106は、実質的に精密な位置合わせが仮想物体122と物理的物体120との間で達成され得るように、3D世界座標フレーム内の仮想物体122を操作し得る。代替的な実施形態では、ARデバイス104は、コンピューティングデバイス108と一緒に、物理的画像上で特徴分析を実行して、現実世界のシーン内の物理的物体120の場所及び配向(例えば、3D座標)を検出し得る。検出された場所及び配向に基づいて、ARデバイス104は、仮想物体122を物理的物体120上に自動的に重ね合わせ得る。これは、手動の位置合わせの必要性を排除し得る。ユーザー106は、次いで、ARデバイス104を使用して、仮想物体122が物理的物体120に重なり合っているシーンの画像を捕捉し得る。そのような画像は、モデルオーバーレイAR画像と称され得る。ARデバイス104はまた、ARデバイス104の位置がこれら2つの画像の間で変化しないように、モデルオーバーレイAR画像を捕捉した直後に、物理的画像を捕捉するように構成され得ることに留意されたい。その結果、物理的画像内の各画素は、モデルオーバーレイAR画像内の対応するピクセルに位置合わせされ得る。ARデバイス104は、次いで、物理的画像及びモデルオーバーレイAR画像の両方をコンピューティングデバイス108に送信し得る。
【0034】
コンピューティングデバイス108は、物理的デバイス120の3Dモデルを維持し、したがって、モデルレイドAR画像内の仮想物体122の各画素は、ラベルを自動的に割り当てられ得、画素を仮想物体122の一部として識別し、かつどの部位かを識別する。例えば、仮想物体122がプリンタのCADモデルからレンダリングされた場合、仮想物体122の画素は、フロントパネル又は紙トレイの一部であると識別され得る。受信された物理的画像及びモデルオーバーレイAR画像に基づいて、コンピューティングデバイス108は、物理的画像用の画素マスクを生成し得る。より具体的には、画素マスクは、各画素にラベルを割り当て得、ラベルは、画像内の画素が物理的物体に属するか否か、属する場合、物理的物体のどの部位に属するかを示し得る。部屋内のプリンタの画像を一例として使用すると、その画像の画素マスクは、画像内の各画素について、画素が背景(例えば、部屋)又はプリンタの一部であるか否かを示し得る。プリンタに属する各画素について、画素マスクは、その画素が属する部位(例えば、プリンタフロントパネル、紙トレイ、トナーなど)を示し得る。画素マスクは、物理的画像に対するアノテーションを本質的に提供する。コンピューティングデバイス108は、物理的画像及び対応する画素マスクの両方を記憶し得る。いくつかの実施形態では、物理的画像及び対応する画素マスクは、訓練サンプルデータベース150内に記憶され得る。
【0035】
ユーザー106は、シーン内で動き回ることができ、場所140(場所130とは異なる)からARデバイス104を使用して、物理的物体120の追加の物理的画像及びモデルオーバーレイAR画像を捕捉し得る。ARデバイス104が、それ自体の姿勢を追跡する能力を有するため、ARデバイス104又はコンピューティングデバイス108は、場所140でARデバイス104によって見た物理的物体120の姿勢を推定するために、カウンタ追跡アルゴリズムを適用し得る。より具体的には、カウンタ追跡アルゴリズムを適用するとき、ARデバイス104は、事前に位置合わせされたCADモデルの姿勢、及び位置130と140との間のARデバイス104の姿勢の変化を考慮し得る。そのような姿勢情報は、物理的物体120の現在の姿勢に対応する仮想物体124を作成するために、コンピューティングデバイス108によって使用され得る。物理的世界の物理的物体の3D座標を知ることで、ARデバイス104は、仮想物体124が、場所140からARデバイス104によって見たときに、物理的物体120に実質的に位置合わせされるように、仮想物体124を物理的物体120上に自動的に投影し得る。いくつかの実施形態では、ARデバイス104が移動すると、それは、その移動を連続的に追跡し、かかる情報をコンピューティングデバイス108に送信し得、この情報は、次いで、仮想物体122が物理的物体120に常に位置合わせされ、かつその上に重ね合わせられたままであるように、3Dモデルの構成を連続的に更新し得る。代替的な実施形態では、ARデバイス104の移動は、仮想物体122を物理的物体120に不完全に位置合わせさせる場合があり、システムは、ARデバイス104が移動を停止している(例えば、所定の時間にわたって静止したままである)決定に応答して、仮想物体122を再位置合わせし得る。ARデバイス104の移動に応答して、仮想物体122がARデバイス104のディスプレイ内から消えることも可能である。ARデバイス104が移動を停止したとき、ARデバイス104は、その現在の姿勢をコンピューティングデバイス108に通信し、3Dモデル及びARデバイス104の現在の姿勢に基づいて、物理的物体120の上に重ね合わせられた仮想物体124を作成する。
【0036】
続いて、場所130で起こったことと同様に、ARデバイス104は、シーン内の物理的物体120の物理的画像及びモデルオーバーレイ画像の両方を捕捉し、これらの画像をコンピューティングデバイス108に送信し得る。コンピューティングデバイス108は、次いで、物理的画像及びモデルオーバーレイ画像に基づいて、画素レベルのラベル付けを物理的画像に提供する画素マスクを作成し得る。上述のように、画素マスク内の各画素は、物理的画像内の対応する画素が物理的物体に属しているか否か、また、属している場合、物理的物体のどの部位に属しているかを示すラベルにリンクされる。コンピューティングデバイス108は、訓練サンプルデータベース150内に物理的画像及びその画素マスクを更に記憶し得る。
【0037】
更に、ユーザー106は、部屋で動き回り続け、ARデバイス104を使用して追加の画像を捕捉し得る。ARデバイス104の追跡能力は、システムが、常にARデバイス104の姿勢を認識することを可能にし、したがって、物理的物体120のCADモデルからレンダリングされる仮想物体を、物理的物体120上に正確に重ね合わせて、モデルオーバーレイAR画像を作成し得る。これらのモデルオーバーレイAR画像は、1つの画素が1つの物理的画像に対応する、画素マスクの作成を容易にし得る。物理的画像及びそれらに付随する画素マスクは、次いで、画像内の様々な物体を検出し得る画像検出又は物体検出AIの将来の訓練のために使用されるように、訓練サンプルデータベース150に送信され、そこに記憶され得る。従来のアプローチと比較して、訓練データを収集するためのこのAR支援アプローチは、非常に効率的であり得、より少量の手作業を必要とし得る。いくつかの実施形態では、手作業の必要性を更に低減するために、3Dモデルと物理的物体120との間の初期の位置合わせの後に、シーン内で動き回ることができる自動運動システムにARデバイス104を取り付けることも可能であり得る。初期の位置合わせが特徴分析を介して自動的に行われ得る場合、訓練データ収集プロセス全体が自動的に実行され得る。
【0038】
ARデバイス104の姿勢を変化させることに加えて、画像条件の他のタイプの変形例が、取得された訓練データの大きな多様性を達成するために導入され得る。いくつかの実施形態では、照明条件も変化させられ得る。更に、システムは、1つ以上の閉塞物体を追加してもよく、現実又は仮想物体を使用して背景を変化させてもよく、又は物理的物体120の外観を表面的に変更してもよい(例えば、その色の外観を変化させる)。物理的物体120が複数の構成要素を含む場合、システムは、構成要素の相対位置を変更してもよい。例えば、物理的物体120がプリンタである場合、システムは、紙トレイを開閉することによって、又はフロントカバーを開いてトナーを露出させることによって、プリンタの外観を変更してもよい。
【0039】
図2は、一実施形態による、訓練データを収集するための例示的なプロセスを示すフローチャートを提示する。動作中、対象の物理的物体は、シーン、例えば、部屋内に配置され得る(動作202)。対象の物体は、多くの場合、物体検出AIエンジンによって後で検出され得る物理的物体のタイプを表し得る。例えば、対象の物理的物体は、プリンタとすることができ、訓練後、物体検出AIエンジンは、単に1つの特定のタイプのプリンタではなく、多くの異なるプリンタのブランド及びモデルを検出することができ得る。
【0040】
システムは、追跡対応ARデバイス(多くの場合カメラを含む)を使用して、3Dモデルからレンダリングされた仮想物体をカメラ視野内の物理的物体上に位置合わせして重ね合わせ得る(動作204)。追跡対応ARデバイスは、環境(例えば、部屋)の3D世界座標フレームを画定し得ることに留意されたい。いくつかの実施形態では、ARデバイスは、ヘッドマウントディスプレイ(Microsoft Holoensなど)であり得る。物体の3Dモデルは、より精密な寸法情報及び構成要素間の測位情報を提供し得る、CADモデルを含み得る。CADモデルが利用不可能であるとき、3Dモデルは、物理的物体に対する3Dスキャンを実行することによって作成され得る。一旦モデルの位置合わせが達成されると、システムは、任意選択的に、ARデバイスによって提供される機能である、3Dマッピング及び追跡を使用して、仮想物体の現実世界の場所を環境にアンカー固定し得る。例えば、システムは、仮想物体の3D座標を記録し得る。この場合、仮想物体の3D座標は、物理的物体の3D座標と一致する。
【0041】
システムは、少なくとも2つの画像である、1つの物理的画像(即ち、仮想物体を有していない現実世界のシーン)及び1つのモデルオーバーレイAR画像(即ち、物理的物体上に重ね合わせられた仮想物体を有するAR画像)を捕捉し得る(動作206)。システムは、次いで、モデルオーバーレイAR画像に基づいて物理的画像のアノテーションを作成し得る(動作208)。いくつかの実施形態では、アノテーションは、画素マスクの形態であり得る。より具体的には、システムは、AR画像内の対応する画素に物理的画像内の各画素をリンクさせ、AR画像から物理的画像に画素レベルのラベル付け(3Dモデルに基づいてシステムに既知である)を転送し得る。各画素の画素レベルのラベル付けは、画素が物理的物体に属しているか否か、属している場合、どの部位に属しているかを示す。
【0042】
システムは、訓練データ集に、物理的画像及びその対応するアノテーション、例えば、画素マスクを記憶する(動作210)。いくつかの実施形態では、システムは、アノテーション付き画像(例えば、異なるラベルを有する画素を異なる色で塗ることによって、又は物理的物体の異なる部位の輪郭を強調することによって)を代替的に作成し、アノテーション付き画像を記憶してもよい。これは、現在のシステムによって生成されたアノテーション付き画像が、既存の訓練データライブラリに追加されることを可能にする。
【0043】
システムは、次いで、追加の訓練データが必要とされるか否かを決定し得る(動作212)。必要とされる場合、システムは、撮像条件を変更し得る(動作214)。撮像条件を変更することは、ARデバイスの一部であり得るカメラの場所及び角度を変化させることと、照明条件を変化させることと、背景を変更することと、閉塞物体を追加又は除去することと、物理的物体の姿勢を変化させることと、物理的物体の表面的外観を変化させることと、物理的物体の物理的構成(例えば、構成要素間位置)を変化させることと、などを伴い得る。これは、カメラ視野内に更新されたシーンを作成し得る。システムは、次いで、カメラによって見た際に、更新されたシーン内の物理的物体に仮想物体を再位置合わせし得る(動作204)。いくつかの実施形態では、カメラが移動する際、システムは、仮想物体が物理的物体に位置合わせされたままであるように、連続的に、カメラの移動を追跡して3Dモデルの構成を更新し得る。代替的な実施形態では、カメラの移動は、仮想物体を物理的物体に不完全に位置合わせさせる場合があり、システムは、カメラが移動を停止している(例えば、カメラが所定の時間にわたって静止したままである)決定に応答して、仮想物体を再位置合わせし得る。動作204~214は、多くの訓練サンプルを作成するために、複数回繰り返され得る。画像アノテーションが自動的に行われ得るため、このプロセスは、非常に効率的であり得る。
【0044】
現在の物体に対して、これ以上の訓練データが必要とされない場合、システムは、記憶された訓練データ集を使用して物体検出ニューラルネットワークを訓練し得る(動作216)。いくつかの実施形態では、システムは、訓練データ集を、それを使用して画像又は物体検出AIエンジンを訓練し得る、異なる実体に送信し得る。より具体的には、AIエンジン(例えば、畳み込みニューラルネットワーク)は、画像から類似の物理的物体を識別するように訓練され得る。更に、CADモデルベースの画素レベルのラベル付けが、同じ物理的物体内の様々な構成要素を区別し得るため、AIエンジンもまた、物理的物体の異なる構成要素を認識するように訓練され得る。そのような特徴は、サービス業界、より具体的には、遠隔サービスで非常に重要であり得る。訓練データ集はまた、遠隔ユーザーが様々なタイプのAIを訓練するために使用され得る訓練データをダウンロードすることを可能にするために、オンライン訓練サンプルデータベースに送信され得る。
【0045】
図3は、一実施形態による、例示的な物理的画像及びモデルオーバーレイAR画像を示す。より具体的には、左上の図は、物理的プリンタ302を示し、右上の図は、物理プリンタが仮想プリンタ304によって重ね合わせられているものを示す。上述されたように、仮想プリンタ304は、物理的プリンタ302の対応するCADモデルからレンダリングされ得る。上述されたように、物理的プリンタ302内の各画素は、仮想プリンタ304内の対応する画素にリンクされ得、仮想プリンタ304内のこれらの画素のラベルは、CADモデルに基づいて既知である。これらのラベルは、次いで、物理的プリンタ302内の画素にマッピングされ得、したがって、画像の画素レベルのラベル付けを達成する。
【0046】
図3の左下の図は、そのフロントドアが開き、トナーなどの内部プリンタ構成要素を露出している、物理的プリンタ306を示す。図3から分かるように、トナーが黒色に見え、プリンタの黒色の内部からのトナーを区別することは、困難であり得、手作業のラベル付けを難しくしている。図3の右下の図は、これもまたそのフロントドアが開き、物理的プリンタ306上に重ね合わせられた、仮想プリンタ308を示す。図3で分かるように、仮想プリンタ308の内部構成要素は、より強い色コントラストを有するように示され得る。いくつかの実施形態では、仮想物体308は、物理的物体306の構成要素と一致するように手動で構成され得る。例えば、仮想物体308を重ね合わせる前に、ユーザーは、プリンタ306がそのフロントドアを開いていることを通知し、次いで、フロントドアが開いた状態でプリンタの画像をレンダリングするために3Dモデルを構成する。代替的な実施形態では、システムは、プリンタ306の画像の特徴分析結果に基づいて、プリンタ306のフロントドアが開いていることを自動的に決定し得る。システムは、次いで、仮想プリンタ308を生成するために、3DCADモデルを適宜構成し得る。
【0047】
従来の手動アプローチと比較して、このAR支援アプローチは、特に、物体の異なる部位にラベル付けする際に、より効率的であるのみならず、正確でもある。3Dモデルが、物理的物体と関連付けられた正確な寸法及び相対位置情報を有するため、3Dモデルと物理的物体との間の正確な位置合わせは、画素の正確なラベル付けをもたらし得る。必要性に応じて、いくつかの実施形態では、仮想物体全体を対応する物理的物体上に重ね合わせる代わりに、仮想物体の特定の構成要素を物理的物体上の対応する部位上に重ね合わせることも可能である。その結果、物理的物体の単に1つの特定の構成要素又は部位のラベルを作成することが可能である。図4は、一実施形態による、例示的な物理的画像及びモデルオーバーレイAR画像を示す。より具体的には、図4の上の図は、物理的物体402を示し、図4の下の図は、そのバイパストレイ404がラベル付けされた同じ物理的物体402を示す。バイパストレイ404のラベル付けは、異なる、多くの場合明るい、色(例えば、青色)を使用して示され得る。図4から分かるように、プリンタ402の異なる部品(例えば、バイパストレイ404及び隣接する構成要素406)は、互いに非常に近い場合があり、これらの部品の手動のラベル付けを困難にしている。しかしながら、3Dモデルベースのラベル付けは、ラベル付けが物理的物体の3D座標及び精密な3Dモデルに基づいて自動的に行われるため、そのような問題に直面しない。
【0048】
上述の実施例では、システムで使用されるARデバイスは、ヘッドマウントディスプレイ(head-mounted display、HMD)を含み得る。実際には、HMDに加えて、任意のAR対応システムが、以下の要件を満たし得る限り、訓練データの効率的な収集のために使用され得る。AR対応システムは、現実世界シーンの2D又は3D画像を捕捉することができるカメラを含み得る。AR対応システムは、物理的物体の3Dモデルにアクセスし、それらの3Dモデルに基づいて仮想物体を作成し得る。AR対応システムは、現実世界のシーン内の仮想物体の位置を追跡する能力を有し得る。これは、システムが、仮想物体を物理的物体上に位置合わせして重ね合わせることを可能にする。更に、AR対応システムは、カメラが移動した後に、システムがカメラの視野内で仮想物体を物理的物体に連続的に位置合わせするために、仮想物体を適宜移動させ得るように、カメラの姿勢を追跡し得る(運動又は位置センサを使用することによって)。HMDの場合、カメラ、ディスプレイ、及び追跡システムが、単一デバイスに統合され得る。他のシナリオでは、これらの異なる構成要素は、1つ以上のネットワーク化されたデバイスに分散され得る。例えば、カメラ及びディスプレイは、各々、スタンドアロンデバイスであってもよく、又は単一デバイスに組み合わせられてもよい。
【0049】
図5は、一実施形態による、訓練データ収集システムを容易にする例示的なコンピュータシステムを示す。コンピュータシステム500は、プロセッサ502、メモリ504、及び記憶デバイス506を含む。コンピュータシステム500は、ディスプレイデバイス510、キーボード512、ポインティングデバイス514、カメラ516に連結され得、1つ以上のネットワークインタフェースを介してネットワーク508にも連結され得る。記憶装置506は、オペレーティングシステム518及び訓練データ収集システム520を記憶し得る。
【0050】
訓練データ収集システム520は、コンピュータシステム500によって実行されたときに、コンピュータシステム500に、本開示で説明される方法及び/又はプロセスを実行させ得る命令を含み得る。訓練データ収集システム520は、物理的画像の3Dモデルにアクセスするか又はそれを取得するための命令(モデル取得モジュール522)と、3Dモデルによって生成された仮想物体をカメラ516の視野内の対応する物理的物体に位置合わせするための命令(モデル位置合わせモジュール524)と、カメラ516を制御して、物理的画像及びモデル位置合わせAR画像の両方を含む画像を捕捉するための命令(カメラ制御モジュール526)と、物理的画像にアノテーションする(例えば、画素マスクを作成する)ための命令(アノテーション作成モジュール528)と、物理的画像及びその対応するアノテーションを含み得る、訓練サンプルを記憶するための命令(訓練サンプル記憶モジュール530)と、を含み得る。
【0051】
図6は、一実施形態による、訓練データ収集システムを容易にする例示的な装置を示す。装置600は、有線、無線、量子光、又は電気通信チャネルを介して互いに通信し得る、複数のユニット又は装置を備え得る。装置600は、1つ以上の集積回路を使用して実現され得、図6に示されるものよりも少ない又は多い、ユニット又は装置を含み得る。更に、装置600は、コンピュータシステムに統合されてもよく、又は他のコンピュータシステム及び/又はデバイスと通信することができる、別個のデバイスとして実現されてもよい。具体的には、装置600は、図5のコンピュータシステム500のモジュール522~530と同様の機能又は動作を実行する、モデル取得ユニット602、モデル位置合わせユニット604、カメラ制御ユニット606、アノテーション生成ユニット608、及び訓練サンプル記憶ユニット610を含む、ユニット602~610を備え得る。装置600は、通信ユニット612を更に含み得る。
【0052】
発明を実施するための形態において記載されるデータ構造及びコードは、典型的には、コンピュータ可読記憶媒体上に記憶され、コンピュータシステムによって使用されるコード及び/又はデータを記憶することができる任意のデバイス又は媒体であってもよい。コンピュータ可読記憶媒体としては、揮発性メモリ、不揮発性メモリ、ディスクドライブなどの磁気及び光学記憶デバイス、磁気テープ、CD(コンパクトディスク)、DVD(デジタル多用途ディスク若しくはデジタルビデオディスク)、又は既知の、若しくは今後開発されるコンピュータ可読媒体を記憶することができる他の媒体が挙げられるが、これらに限定されない。
【0053】
発明を実施するための形態セクションに記載される方法及び処理は、上記のようにコンピュータ可読記憶媒体に記憶され得るコード及び/又はデータとして具体化することができる。コンピュータシステムが、コンピュータ可読記憶媒体上に記憶されたコード及び/又はデータを読み取って実行すると、コンピュータシステムは、データ構造及びコードとして具体化され、コンピュータ可読記憶媒体内に記憶された方法及び処理を実行する。
【0054】
更に、上述の方法及び処理は、ハードウェアモジュール又は装置に含まれてもよい。ハードウェアモジュール又は装置としては、特定用途向け集積回路(application-specific integrated circuit、ASIC)チップ、フィールドプログラム可能ゲートアレイ(field-programmable gate array、FPGA)、特定の時刻に特定のソフトウェアモジュール又はコードを実行する専用又は共有プロセッサ、及び、既知の又は後に開発される他のプログラム可能論理デバイスを含むことができるが、これらに限定されない。ハードウェアモジュール又は装置が起動されると、それらの内部に含まれる方法及び処理が実行される。
図1
図2
図3
図4
図5
図6