(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024081154
(43)【公開日】2024-06-17
(54)【発明の名称】とりわけ、インテリジェント拡張現実アプリケーションのための、少なくとも1つのマシン・ラーニング・モデルを提供するコンピュータ実施方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20240610BHJP
G06T 19/00 20110101ALI20240610BHJP
G06N 3/0464 20230101ALI20240610BHJP
【FI】
G06N20/00 130
G06T19/00 A
G06N3/0464
【審査請求】未請求
【請求項の数】16
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023204931
(22)【出願日】2023-12-04
(31)【優先権主張番号】22211395
(32)【優先日】2022-12-05
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】523458210
【氏名又は名称】ランブラー、ゲゼルシャフト、ミット、ベシュレンクテル、ハフツング
【氏名又は名称原語表記】Ramblr GmbH
(74)【代理人】
【識別番号】100120031
【弁理士】
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100107582
【弁理士】
【氏名又は名称】関根 毅
(74)【代理人】
【識別番号】100118843
【弁理士】
【氏名又は名称】赤岡 明
(74)【代理人】
【識別番号】100213654
【弁理士】
【氏名又は名称】成瀬 晃樹
(72)【発明者】
【氏名】フィリップ、シューベルト
(72)【発明者】
【氏名】ジェニファー、クレブス
(72)【発明者】
【氏名】フランク、アンガーマン
(72)【発明者】
【氏名】トーマス、アルト
(72)【発明者】
【氏名】アンナ、ランツ
【テーマコード(参考)】
5B050
【Fターム(参考)】
5B050AA10
5B050BA09
5B050BA11
5B050CA07
5B050EA09
5B050EA27
(57)【要約】 (修正有)
【課題】センサ・データからの顕著なオブジェクトの情報を最大化し、ディープ・ラーニング・ネットワークに高いレベルの安定したコンテキスト情報を提供する。
【解決手段】第1のモジュールは、受信したセンサ・データのメタ・データ情報を解析し、標準化データ・アイテムへ変換し、メタ・データ情報に関連付けデータ・ウェアハウスに摂取する。第2のモジュールは、データ・ウェアハウスにアクセスして、標準化データ・アイテムに画像キーフレームを示す追加情報を関連付ける。第3のモジュールは、画像キーフレームおよび追加情報を人の注釈者に提示し、基礎モデルによる注釈付けのために注釈を受信する。第4のモジュールは、未校正フレームの初期注釈を提供するマシン・ラーニング・モデルを注釈付きデータセットを使用して生成する。第5のモジュールは、タスク固有のマシン・ラーニング・モデルとしてストレージ・デバイスへアップロードする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
少なくとも1つのマシン・ラーニング・アルゴリズムを使用するプロセスにおける使用のための少なくとも1つのマシン・ラーニング・モデルを提供するコンピュータ実施方法であって、
画像センサによって取り込まれた少なくとも1つの画像を受信するステップを含む、少なくとも1つのセンサからのセンサ・データを少なくとも1つのコンピューティング・デバイスによって受信するステップと、
前記少なくとも1つのコンピューティング・デバイスによって、一連の処理モジュールを順番に、または前記処理モジュールのうちの第1~第5のモジュールからの、1つまたは複数のフィードバック・ループを伴う反復プロセスで実行するステップとを含み、
前記第1のモジュールが、前記センサ・データを受信するステップと、前記センサ・データのそれぞれの着信ソースを特定するステップと、メタ・データ情報を含むソース情報を解析するステップと、前記センサ・データを複数の標準化されたデータ・アイテムへと変換するステップと、前記標準化されたデータ・アイテムのうちの少なくともいくつかをメタ・データ情報に関連付けるステップと、前記標準化されたデータ・アイテムのうちの少なくともいくつかを、関連付けられているメタ・データ情報とともに、リモート・アクセス用に適合されているデータ・ウェアハウスに摂取するステップとを含み、
前記第2のモジュールが、前記データ・ウェアハウスにアクセスして前記データ・ウェアハウスの標準化されたデータ・アイテムごとに少なくとも1つの画像キーフレームを識別するステップと、前記少なくとも1つの画像キーフレームを示す追加の情報を前記それぞれの標準化されたデータ・アイテムに関連付けるステップとを含み、
前記第3のモジュールが、前記それぞれのデータ・アイテムの前記少なくとも1つの画像キーフレームおよび関連付けられている追加の情報を、1つまたは複数の基礎モデルによって自動的に生成された1つまたは複数の初期注釈を添えられている注釈付けのためにヒューマン・マシン・インターフェースを介して人の注釈者に提示するステップと、前記ヒューマン・マシン・インターフェースを介して前記注釈者からの注釈を受信するステップと、前記少なくとも1つの画像キーフレームを、対応する注釈情報と合わせて、少なくとも1つの注釈付きデータセットへ拡張するステップとを含み、
前記第4のモジュールが、未校正フレームのための更新された初期注釈を提供するためにも前記少なくとも1つの注釈付きデータセットを使用して少なくとも1つのマシン・ラーニング・モデルを生成するステップおよび更新するステップのうちの少なくとも1つを含み、
前記第5のモジュールが、少なくとも1つのマシン・ラーニング・アルゴリズムを使用する1つまたは複数のプロセスによるアクセスのために前記少なくとも1つのマシン・ラーニング・モデルをタスク固有のマシン・ラーニング・モデルとしてストレージ・デバイスへアップロードするステップを含む、コンピュータ実施方法。
【請求項2】
前記少なくとも1つのマシン・ラーニング・モデルが、拡張現実アプリケーションの1つまたは複数のプロセスによって使用されるように構成されており、前記センサ・データが、ウェアラブル・コンピューティング・デバイスのユーザの観点から収集された自己を中心としたセンサ・データを含む、請求項1に記載の方法。
【請求項3】
前記センサ・データが、1つまたは複数の画像、1つまたは複数のビデオ・ストリーム、地理的位置データ、オーディオ・データ、赤外線データ、コレクタ視線データ、とりわけ、角膜反射、ステレオ・ジオメトリ、目の向きおよび/または動き、ならびに慣性測定データ、とりわけ、加速度計、ジャイロスコープ、および/または磁力計データというデータのうちの1つまたは複数を含む、請求項1または2に記載の方法。
【請求項4】
前記少なくとも1つのマシン・ラーニング・モデルが、拡張現実アプリケーションの1つまたは複数のプロセスによって使用されるように構成されており、前記データが、拡張現実アプリケーションのユーザによって着用されている1つまたは複数のそれぞれのセンサによって取り込まれる、請求項3に記載の方法。
【請求項5】
前記標準化されたデータ・アイテムのうちの少なくともいくつかをメタ・データ情報に関連付けるステップが、メディア・プロパティ、とりわけビデオまたは画像プロパティ、ロケーション情報、スキーマおよびバージョン情報、ならびに、さまざまなセンサ入力モダリティまたは結び付けられる情報のための1つまたは複数の追加データ・チャネルのうちの1つまたは複数を含む前記標準化されたデータ・アイテムのうちの少なくともいくつかにそれぞれのメタ・データ・コンテナを割り振るステップを含む、請求項1から4の一項に記載の方法。
【請求項6】
前記第1のモジュールが、少なくとも1つの規制スキームに従った、特定のデータ・カテゴリーの難読化、とりわけ、データ対象の顔、ナンバー・プレートのぼかし、および/または音声オーディオ・フィルタリングを含む、請求項1から5の一項に記載の方法。
【請求項7】
前記標準化されたデータ・アイテムのうちの少なくともいくつかをメタ・データ情報に関連付けるステップが、状況、事象、対象オブジェクト、および/またはロケーション・タグに関するメタ・データを含む前記標準化されたデータ・アイテムに追加のメタ・データ情報を割り振るステップを含む、請求項1から6の一項に記載の方法。
【請求項8】
前記第1のモジュールが、機能的および法的タスクのうちの少なくとも1つを含むタスク要件に対する収集されたデータの手動検証と、視野におけるオブジェクト・カテゴリーを介した自動タスク検証とを含む、請求項1から7の一項に記載の方法。
【請求項9】
前記第3のモジュールが、前記マシン・ラーニング・モデルによって返されたどのオブジェクト・インスタンスが手動の改訂および訂正のための開始点として使用されるかに従ったインスタンス・セグメンテーションを含む、前記注釈のうちの1つまたは複数を手動で洗練するための1つまたは複数のプロセスを含む、請求項1から8の一項に記載の方法。
【請求項10】
前記第3のモジュールが、前記人の注釈者に対して注釈提案を表示するために使用される、前記マシン・ラーニング・モデルの出力に由来する1つまたは複数の推定カテゴリーをどの1つまたは複数のオブジェクト・インスタンスが割り振られるかに従ったカテゴリー化を含む、前記注釈のうちの1つまたは複数を手動で洗練するための1つまたは複数のプロセスを含む、請求項1から9の一項に記載の方法。
【請求項11】
注釈提案、注釈訂正提案、顕著なオブジェクトの強調表示、および/または推定エラー・マーキングなどのガイド信号を提供することによって注釈がさらに拡張される、請求項1から10の一項に記載の方法。
【請求項12】
前記第3のモジュールが、手動で(4眼原理)または自動的に実行されることが可能である、品質が高いことを確実にするための人による注釈中の検証ステップを含む、請求項1から11の一項に記載の方法。
【請求項13】
前記第3のモジュールが、注釈エラーの可能性が高い画像フレームまたはフレーム領域を強調表示するためのガイダンスを伴う少なくとも1つの手動洗練プロセスを含む、請求項1から12の一項に記載の方法。
【請求項14】
標準化されたデータ・アイテムごとに少なくとも1つの画像キーフレームを識別するステップが、コントラストをほとんどもしくはまったく含まないまたは不鮮明なオブジェクトを含む画像フレームを除外して、豊富なコンテキストを伴う画像フレームを促進するステップを含む、請求項1から13の一項に記載の方法。
【請求項15】
標準化されたデータ・アイテムごとに少なくとも1つの画像キーフレームを識別するステップが、視線追跡、ロケーション・センシング、慣性測定データ、およびコンテキスト情報のうちの1つまたは複数からの追加のセンサ情報を解析するステップを含む、請求項1から14の一項に記載の方法。
【請求項16】
命令を含むコンピュータ・プログラムであって、前記命令が、少なくとも1つのコンピュータによって前記プログラムが実行されたときに、請求項1から15の一項に記載の方法を前記少なくとも1つのコンピュータに実行させる、コンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、とりわけ、インテリジェント拡張現実アプリケーションのためのデータ・パイプラインの形態での、少なくとも1つのマシン・ラーニング・モデルを提供するコンピュータ実施方法と、対応するコンピュータ・プログラムとに関する。
【背景技術】
【0002】
拡張現実(AR)および仮想現実(VR)を日常生活においてユビキタスにするために、スマート・グラスおよびヘッドセットなど、将来のインテリジェント・ウェアラブルが計画されている。そのようなデバイスは、コンピュータによって生成されたコンテンツ、画像、ビデオ、ホログラム、オーディオなどがユーザたちの現実世界のシーンに彼らの視点からオーバーレイされて彼らの自然環境を高める際にリアルタイムで仮想および現実世界とユーザたちが対話することを可能にする進んだイメージングおよびセンシング技術を含む。ユーザのための没入感のあるAR体験を生み出すために、ビデオ・カメラのような、顔または頭に取り付けられるセンサが、ユーザの現実環境からの自然シーン、たとえば、画像および音、ならびにユーザの動きおよび注目をスキャンして取り込む。デバイスはその後に、取り込まれたシーンをスキャンおよび分析して、事前にプログラムされた仮想要素を現実環境に対してどこでスーパーインポーズまたは再生するかを特定する。次にそのデバイスは、仮想要素を呼び出して、それらの仮想要素をリアルタイムで現実世界のシーン上にスーパーインポーズする/またはそのシーンとともに再生する。
【0003】
次世代のスマート・グラスには、とてつもない可能性がある。たとえば、AI技術を活用することによって、これらのデバイスは、これらのデバイスの視野におけるあらゆるものを認識し、それらのオブジェクトおよび/または動きを、以前に収集された、またはインターネットを介してオンラインで取り出された知識に結び付けることを請け合う。状況に応じて関連のある情報が次いで、ユーザの視野における正しいロケーションに表示されて(または大きな音で再生されて)、ユーザに潜在的な危険を警告すること、または潜在的な誤解のリスクを低減することが可能である。たとえば、HEIN,D.& RAUSCHNABEL,P.、Augmented Reality Smart Glasses and Knowledge Management:A Conceptual Framework for Enterprise Social Networks.、2016年1月、10.1007/978-3-658-12652-0_5、85ページを参照されたい。
【0004】
しかしながら、インテリジェントAR技術は、十分な運用上の成熟にまだ達しておらず、進歩は現在妨げられている。たとえば、進んだ「自己を中心とした」または1人称の認識(すなわち、ユーザの視点からの)は、インテリジェントARの好ましい基礎であるが、これは、大量の検知、セグメンテーション、および分類タスクをアルゴリズムが自動的に解決することを必要とする。技術の状態が絶えず進化していることに伴って、これらのタスクは、事前に完全に指定されることが可能ではない。ますます洗練されたハードウェアが、より複雑なマシン・ラーニング・モデルの展開を可能にしており、アーキテクチャーの改善は、予測パフォーマンスを高めることが可能であるが、両方とも、モデル作成における広範な適合を必要とする。現在ではモデル作成のための単一のアプローチがないので、およびトレーニング・データは、状況に応じたタスク固有のものであるので、モデルの展開は、事後対応的で緩慢である。
【0005】
その上、AIエンジン(すなわち、複雑な処理計算のためのコンピュータ・プログラムまたはアルゴリズムの部分)は、典型的には、マシン・ラーニング・モデルを生成するためにトレーニング・データの正確で信頼できるストリームを必要とする。具体的には、スマート・グラスの最大限の可能性は、自己を中心とした観点から世界と対話するようにAIをトレーニングすることによってのみ実現されることが可能である。これは、単一の、または好ましくは複数のセンサ・モダリティ、たとえば、1つまたは多数の異なるセンサ(RGBカメラ、IR、LIDAR、ジオロケーション(GPS)、視線、および慣性測定ユニット(IMU)など)を含む画像センシングから構成されている自己を中心としたトレーニング・データを必要とする。インテリジェントARの開発における進展は、(マルチ)センサからの自己を中心としたデータの標準化および処理の非効率性によって妨げられている。トレーニング・データの摂取に関連して、障害は、センサのバリエーション、ファイル・タイプの相違、プライバシー法のコンプライアンス、品質、分析、バージョニング、およびデータの格納に伴う問題を含む。効果的なモデルは、高品質のデータを必要とするので、これらの問題は、マシン・ラーニングの取り組みに著しいダウンストリーム影響を及ぼす。
【0006】
たとえば、WO2019/245618Aおよび米国特許出願第2022/107652A1号は、自律運転のためのデータ・パイプラインおよびディープ・ラーニング・システムを開示しており、そのデータ・パイプラインおよびディープ・ラーニング・システムにおいては、車両上のセンサを使用して取り込まれた画像が受信され、複数のコンポーネント画像へと分解される。複数のコンポーネント画像のうちのそれぞれのコンポーネント画像は、結果を特定するために人工ニューラル・ネットワークの複数のレイヤのうちの別々のレイヤへの別々の入力として提供される。人工ニューラル・ネットワークの結果は、車両を少なくとも部分的に自律的に操作するために使用される。
【0007】
US10691943B1は、マルチモーダル・センサ・データに基づいて画像に注釈を付けることを開示している。カメラを使用して取り込まれたイメージング・データまたはその他のデータが、サーマル・カメラ、レントゲン・カメラ、または紫外線カメラなどの別のセンサを使用して取り込まれたデータに基づいて分類されることが可能であり、そのようなセンサどうしは、シーンから同時にデータを取り込み、それぞれ取り込まれたデータが処理されて、その中の1つまたは複数のオブジェクトを検知することが可能である。データが1つまたは複数の対象オブジェクトを示す確率は、別々のモダリティで動作する較正されたセンサどうしから取り込まれたデータに基づいて高められることが可能である。対象オブジェクトが十分な信頼度で検知された場合には、そのオブジェクトが検知される元となった注釈付きデータは、そのオブジェクト、もしくは類似のオブジェクトを認識するように1つもしくは複数の分類子をトレーニングするために、または任意のその他の目的のために使用されることが可能である。
【0008】
米国特許出願第2021/390702A1号は、マシン・ラーニング(ML)注釈モデルの再トレーニングをトリガーするためのシステムおよび方法を開示している。この方法は、第1の形状の画定されていないバリエーションを、第1の形状を取り囲む粗い境界とともに伴う生データ画像を受け入れる注釈モデルを含む。注釈モデルは、第1の形状を取り囲む洗練された境界を形成する注釈マークを伴う注釈付き画像を作成する。エージェントのユーザ・インターフェース(UI)が、洗練された境界を修正して、訂正された画像を供給する。調停ソフトウェア・アプリケーションが、注釈付き画像を、対応する訂正された画像に比較し、注釈付き画像を、訂正された画像に比較したことに応答して第1の形状に関してリソース分析を再トレーニングする注釈モデルを供給する。
【0009】
これらの技術は、しかしながら、上で言及されているように、自己を中心としたデータが好ましい、インテリジェント拡張現実のために(マルチ)センサ・データを処理することの問題を十分に解決するには適切ではない。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】WO2019/245618A
【特許文献2】米国特許出願第2022/107652A1号
【特許文献3】US10691943B1
【特許文献4】米国特許出願第2021/390702A1号
【特許文献5】米国特許出願公開第2005/0154696A1号、とりわけ[003]における第1欄
【非特許文献】
【0011】
【非特許文献1】HEIN,D.& RAUSCHNABEL,P.、Augmented Reality Smart Glasses and Knowledge Management:A Conceptual Framework for Enterprise Social Networks.、2016年1月、10.1007/978-3-658-12652-0_5、85ページ
【非特許文献2】2022年11月25日にhttps://www.technologyreview.com/2021/12/06/1040716/evolution-of-intelligent-data-pipelines/からアクセスされたSCHMARZO,BILL:Evolution of Intelligent Data Pipelines.MIT Technology Review Online.2021年12月6日
【発明の概要】
【発明が解決しようとする課題】
【0012】
それゆえに、取り込まれたセンサ・データからの顕著なオブジェクトの情報を最大化し、ディープ・ラーニング分析のためにディープ・ラーニング・ネットワークにさらに高いレベルの安定したコンテキスト情報を提供することが可能であるカスタマイズされたコンピュータ実施方法に対する必要性が存在する。
【課題を解決するための手段】
【0013】
本開示は、添付の特許請求の範囲に記載のコンピュータ実施方法およびコンピュータ・プログラムに関する。実施形態は、従属請求項において開示されている。
【0014】
一態様によれば、少なくとも1つのマシン・ラーニング・アルゴリズムを使用するプロセスにおける使用のための少なくとも1つのマシン・ラーニング・モデルを提供するコンピュータ実施方法であって、
画像センサによって取り込まれた少なくとも1つの画像を受信するステップを含む、少なくとも1つのセンサからのセンサ・データを少なくとも1つのコンピューティング・デバイスによって受信するステップと、
少なくとも1つのコンピューティング・デバイスによって、一連の処理モジュールを順番に、または処理モジュールのうちの第1~第5のモジュールからの、1つまたは複数のフィードバック・ループを伴う反復プロセスで実行するステップとを含み、
第1のモジュールが、センサ・データを受信するステップと、センサ・データのそれぞれの着信ソースを特定するステップと、メタ・データ情報を含むソース情報を解析するステップと、センサ・データを複数の標準化されたデータ・アイテムへと変換するステップと、標準化されたデータ・アイテムのうちの少なくともいくつかをメタ・データ情報に関連付けるステップと、標準化されたデータ・アイテムのうちの少なくともいくつかを、関連付けられているメタ・データ情報とともに、リモート・アクセス用に適合されているデータ・ウェアハウスに摂取するステップとを含み、
第2のモジュールが、データ・ウェアハウスにアクセスしてデータ・ウェアハウスの標準化されたデータ・アイテムごとに少なくとも1つの画像キーフレームを識別するステップと、少なくとも1つの画像キーフレームを示す追加の情報をそれぞれの標準化されたデータ・アイテムに関連付けるステップとを含み、
第3のモジュールが、それぞれのデータ・アイテムの少なくとも1つの画像キーフレームおよび関連付けられている追加の情報を、1つまたは複数の基礎モデルによって自動的に生成された1つまたは複数の初期注釈を添えられている注釈付けのためにヒューマン・マシン・インターフェースを介して人の注釈者に提示するステップと、ヒューマン・マシン・インターフェースを介して注釈者からの注釈を受信するステップと、少なくとも1つの画像キーフレームを、対応する注釈情報と合わせて、少なくとも1つの注釈付きデータセットへ拡張するステップとを含み、
第4のモジュールが、未校正フレームのための更新された初期注釈を提供するためにも少なくとも1つの注釈付きデータセットを使用して少なくとも1つのマシン・ラーニング・モデルを生成するステップおよび更新するステップのうちの少なくとも1つを含み、
第5のモジュールが、少なくとも1つのマシン・ラーニング・アルゴリズムを使用する1つまたは複数のプロセスによるアクセスのために少なくとも1つのマシン・ラーニング・モデルをタスク固有のマシン・ラーニング・モデルとしてストレージ・デバイスへアップロードするステップを含む、コンピュータ実施方法が開示されている。
【0015】
したがって、本発明の態様は、分析技術のためのソフトウェア組み立てラインまたはモデル・ファクトリとしての役割を果たして、さまざまなモデル・アーキテクチャーおよび対象とされる特定の注釈タスクの迅速な開発および適合を可能にすることができる。データ・パイプラインは、センサの自己を中心としたデータを摂取し、標準化し、匿名化し、変形し、バージョン管理し、強化し、ダウンストリームのAIトレーニング、チューニング、および推論へ送信するために必要とされる処理を促進し、半自動化し、拡大することが可能である。自己を中心としたデータに関する量、種類、および速度の要件の増大に伴って、インテリジェントAR開発者にとっては、クラウド、ハイブリッド・クラウド、およびエッジ・コンピューティング環境内で地理的にもパフォーマンス的にも拡大することが可能であるデータ・パイプライン・ソリューションを見つけ出すことが、ますます不可欠になるであろう。たとえば、2022年11月25日にhttps://www.technologyreview.com/2021/12/06/1040716/evolution-of-intelligent-data-pipelines/からアクセスされたSCHMARZO,BILL:Evolution of Intelligent Data Pipelines.MIT Technology Review Online.2021年12月6日を参照されたい。
【0016】
一態様においては、本発明の高められた機能性が、処理モジュールどうしの組合せおよび相互作用によって達成される。詳細には、本発明は、処理モジュールどうしの集合であり、それぞれの処理モジュールは、その処理モジュールを通過するデータについて特定のオペレーションまたは一連のオペレーションを実行する。モジュールどうしは、順番に編成されており、たとえば、第1のモジュールが、生のデータ・ストリームを受信し、それを処理し、次いでその出力をシーケンスにおける後続のモジュールにとって利用可能にする。たとえば、米国特許出願公開第2005/0154696A1号、とりわけ[003]における第1欄を参照されたい。しかしながら、プロセスは、1つまたはいくつかのフィードバック・ループを伴って反復することも可能である。それらの処理モジュールは、一緒に、マシン・ラーニング・モデルの生成に関するデータ処理時間およびエラーを削減する。
【0017】
本発明は、自律運転など、拡張現実を超えたその他の使用分野にも適用可能であり得る。複数の実施形態によれば、上述されている課題に加えて、本発明は、マシン・ラーニング・トレーニングのために自己を中心としたデータを処理することに関連した下記の課題に対処することが可能である。
収集されるデータは、非常に多様であり、複数の領域にわたる。
センサ・リグ・カメラは、さまざまな機能(たとえば、照明の変化に対処するための)を有しており、結果として画像の解像度および品質が変わり得る。
ビデオ・データ・ストリームは、急速で頻繁なロケーションおよび注目の変化を示す(たとえば、頭の動きがモーション・ブラーをもたらすことがある)。
自己を中心としたデータの取り込みは、たとえば、自律運転用のデータの取り込み(限られたオブジェクト・カテゴリーを伴う静的な車載カメラ)とは対照的に、一式の事前に定義されたルールセットに従わない(膨大なオブジェクト・カテゴリーを伴う動的なヘッドマウント・センサ・リグ)。
データ・プライバシー規制は、データの使用および保持を妨げる。
【0018】
一実施形態によれば、少なくとも1つのマシン・ラーニング・モデルは、拡張現実アプリケーションの1つまたは複数のプロセスによって使用されるように構成されており、センサ・データは、ウェアラブル・コンピューティング・デバイスのユーザの観点から収集された自己を中心としたセンサ・データを含む。
【0019】
一実施形態によれば、センサ・データは、1つまたは複数のセンサによって提供されるマルチセンサ・データである。
【0020】
たとえば、ARアプリケーションを用いずにウェアラブル・ハードウェア・デバイス(「Tobii Proスマート・グラス」など)によってデータが収集されることが可能である。しかしながら、別の実施形態によれば、ウェアラブル・ハードウェア・デバイスを離れて稼働しているARアプリケーションが、データ・パイプラインへと挿入するための自己を中心としたセンサ・データを収集しながら、AR体験を同時に提供することが可能である。
【0021】
一実施形態によれば、センサ・データは、1つまたは複数の画像、1つまたは複数のビデオ・ストリーム、地理的位置データ、オーディオ・データ、赤外線データ、コレクタ視線データ(とりわけ、角膜反射、ステレオ・ジオメトリ、目の向きおよび/または動き)、ならびに慣性測定データ(とりわけ、加速度計、ジャイロスコープ、および/または磁力計データ)というデータのうちの1つまたは複数を含む。
【0022】
一実施形態によれば、少なくとも1つのマシン・ラーニング・モデルは、拡張現実アプリケーションの1つまたは複数のプロセスによって使用されるように構成されており、データは、拡張現実アプリケーションのユーザによって着用されている1つまたは複数のそれぞれのセンサによって取り込まれる。
【0023】
一実施形態によれば、標準化されたデータ・アイテムのうちの少なくともいくつかをメタ・データ情報に関連付けるステップは、メディア・プロパティ、とりわけビデオまたは画像プロパティ、ロケーション情報、スキーマおよびバージョン情報、ならびに、さまざまなセンサ入力モダリティまたは結び付けられる情報のための1つまたは複数の追加データ・チャネルのうちの1つまたは複数を含む標準化されたデータ・アイテムのうちの少なくともいくつかにそれぞれのメタ・データ・コンテナを割り振るステップを含む。複数の実施形態によれば、結び付けられる情報は、データ・チェック・ログ、法的メタ・データ、または、必ずしもデバイスからのものとは限らない任意の付随データなど、必ずしもデバイスからのセンサ情報または注釈情報であるとは限らない可能性がある任意の情報であり得る。
【0024】
一実施形態によれば、第1のモジュールは、少なくとも1つの規制スキームに従った、特定のデータ・カテゴリーの難読化、とりわけ、データ対象の顔、ナンバー・プレートのぼかし、および/または音声オーディオ・フィルタリングを含む。
【0025】
一実施形態によれば、標準化されたデータ・アイテムのうちの少なくともいくつかをメタ・データ情報に関連付けるステップは、状況、事象、対象オブジェクト、および/またはロケーション・タグに関するメタ・データを含む標準化されたデータ・アイテムに追加のメタ・データ情報を割り振るステップを含む。
【0026】
一実施形態によれば、第1のモジュールは、機能的および法的タスクのうちの少なくとも1つを含むタスク要件に対する収集されたデータの手動検証と、視野におけるオブジェクト・カテゴリーを介した自動タスク検証とを含む。たとえば、タスク要件/検証は、単なる機能チェックを超えるものであることがある(たとえば、顔インスタンスに関する自動チェックが実行され、法的同意の数に比較される場合)。
【0027】
一実施形態によれば、第3のモジュールは、マシン・ラーニング・モデルによって返されたどのオブジェクト・インスタンスが手動での改訂および訂正のための開始点として使用されるかに従ったインスタンス・セグメンテーションを含む、注釈のうちの1つまたは複数を手動で洗練するための1つまたは複数のプロセスを含む。
【0028】
一実施形態によれば、第3のモジュールは、人の注釈者に対して注釈提案を表示するために使用される、マシン・ラーニング・モデルの出力に由来する1つまたは複数の推定カテゴリーをどの1つまたは複数のオブジェクト・インスタンスが割り振られるかに従ったカテゴリー化を含む、注釈のうちの1つまたは複数を手動で洗練するための1つまたは複数のプロセスを含む。
【0029】
一実施形態によれば、注釈提案、注釈訂正提案、顕著なオブジェクトの強調表示、および/または推定エラー・マーキングなどのガイド信号を提供することによって注釈がさらに拡張される。
【0030】
一実施形態によれば、第3のモジュールは、手動で(4眼原理)または自動的に実行されることが可能である、品質が高いことを確実にするための人による注釈中の検証ステップを含む。たとえば、検証は、QAレビュー(以降を参照されたい)の一部とみなされる場合が多いが、品質を改善するのを手助けする上で人による注釈中に有益である場合もある。
【0031】
一実施形態によれば、第3のモジュールは、注釈エラーの可能性が高い画像フレームまたはフレーム領域を強調表示するためのガイダンスを伴う少なくとも1つの手動洗練プロセスを含む。
【0032】
一実施形態によれば、標準化されたデータ・アイテムごとに少なくとも1つの画像キーフレームを識別するステップは、コントラストをほとんどもしくはまったく含まないまたは不鮮明なオブジェクトを含む画像フレームを除外して、豊富なコンテキストを伴う画像フレームを促進するステップを含む。
【0033】
一実施形態によれば、標準化されたデータ・アイテムごとに少なくとも1つの画像キーフレームを識別するステップは、視線追跡、ロケーション・センシング、慣性測定データ、およびコンテキスト情報のうちの1つまたは複数からの追加のセンサ情報を解析するステップを含む。
【0034】
一実施形態によれば、標準化されたデータ・アイテムのうちの少なくともいくつかをメタ・データ情報に関連付けるステップは、標準化されたタイムスタンプ、とりわけ作成日時および/または修正日時をそれぞれのセンサ・データに割り振るステップを含む。たとえば、タイムスタンプは、センサ・データどうしを(たとえば、ビデオ・フレームを視線と)同期化するというコンテキストにおいて好ましい。
【0035】
さらなる態様によれば、命令を含むコンピュータ・プログラムであって、それらの命令が、少なくとも1つのコンピュータによってそのプログラムが実行されたときに、本発明による方法をその少なくとも1つのコンピュータに、本明細書において記述されているように実行させる、コンピュータ・プログラムが提供されている。
【0036】
本発明の態様が次いで、下記の図に関連してさらに記述され、それらの図は、例示的な実施形態を示している。
【図面の簡単な説明】
【0037】
【
図1】本開示の実施形態によるコンピュータ実施方法を示す図である。
【
図2A】
図1による方法のそれぞれの拡大図である。
【
図2B】
図1による方法のそれぞれの拡大図である。
【
図3】本開示の一実施形態による方法の例示的な使用事例における例示的なシナリオを示す図である。
【発明を実施するための形態】
【0038】
本発明の態様が次いで、図を参照しながら、より詳細に記述される。本発明は、開示されている実施形態に限定されず、それらの実施形態は主に、本発明の特定の態様を例示的な様式で記述するために提供されているということに留意されたい。本発明の1つまたは複数の実施形態の詳細な記述が、本発明を示す添付の図とともに以降で提供されている。本発明は、そのような実施形態に関連して記述されているが、本発明は、いかなる実施形態にも限定されない。明確にする目的で、本発明が不必要にわかりにくくされることのないように、当業者に知られている技術的な題材または用語は、詳細に記述されない。
【0039】
本明細書において使用されているマシン・ラーニング(ML)は、当技術分野において一般に知られている用語として理解される。MLに関連している技術は、ディープ・ラーニング(DL)、人工知能(AI)などと呼ばれる場合もある。MLは、マシン・ラーニングまたはディープ・ラーニングに基づくすべてのさまざまな形態のアルゴリズムを記述する用語として使用されている。これは、画像分類、オブジェクト検知、または、センサ、タスク、および/もしくはプロセスデータを解釈するその他の方法であり得る。たとえば、人工ニューラル・ネットワークなどのマシン・ラーニング・モデルを使用してディープ・ラーニング分析が実行される。
【0040】
マシン・ラーニング・モデルは、AIまたはMLアルゴリズムによって使用される用意が整っているモデルであるとして理解され、たとえば、人工ニューラル・ネットワークである。
【0041】
コンテキストまたはコンテキスト情報は、本明細書においては、適切なマシン・ラーニング・モデルを作成するためにMLプロセスに関連付けられている状況、使用事例、環境、および/または意図を示す情報の集合として使用されている。
【0042】
データとは、さまざまなタイプの1つまたは複数のセンサを使用することによって検知されることが可能である画像、オブジェクト、環境、アクション、ジェスチャー、またはその他の一般的な特徴(視覚面での、数値面での、音響面でのなど)のうちの1つまたは複数を指す。フレームとは、単一の静止画像を表して使用される、当技術分野において知られている一般的な用語である。キーフレームとは、本明細書において記述されている本発明の態様によるさらなる手順のために複数のフレームのうちから選択されるのに適している、たとえば特定のしきい値を超えるコントラストなどの1つまたは複数のプロパティを有するフレームである。たとえば、ビデオのケースにおいては、ビデオのキーフレームはたとえば、典型的には、そのビデオの正確なまたは最も正確な表示を提供するフレームまたはフレームどうしの最小のセットであることを目指している。
【0043】
注釈または注釈付きデータとは、MLベースのプロセスまたはそのようなプロセスの構成要素を生成するために使用されることが可能であるような構成を有するデータを指す。特に、注釈または注釈付きデータは、たとえば、マシン・ラーニング・モデルをトレーニングするために使用される、データに関するマシン可読情報を含む。典型的には、それは、マシンによってさらに処理されることが可能であるフォーマットでの取り込まれたデータの記述(注釈)を含む。
【0044】
潜在的な実施態様においては、コンピューティング・デバイス1、および/またはデータ・ソース(1つもしくは複数のセンサのような、
図1においては全体的にデータ・ソースと呼ばれている)10のうちのいくつかは、ソフトウェアおよび/またはハードウェアで、個別のまたは分散された様式で、ローカルデバイスの、たとえば、モバイルもしくはウェアラブル・コンピュータ・システムの、ならびに/または、ローカル・ネットワークおよび/もしくはインターネットを通じてアクセス可能な1つもしくは複数のサーバ・コンピュータの1つまたは複数のマイクロプロセッサでなど、任意の適切な処理デバイスで実装されることが可能である。別段の記載がない限り、タスクを実行するように構成されているとして記述されているプロセッサまたはメモリまたはストレージ・デバイスなどのコンポーネントは、所与の時点でタスクを実行するように一時的に構成される一般的なコンポーネント、またはタスクを実行するように製造されている特定のコンポーネントとして実装されることが可能である。本明細書において使用される際には、プロセッサ、処理デバイス、またはコンピューティング・デバイスという用語はそれぞれ、コンピュータ・プログラム命令などのデータを処理するように構成されている1つまたは複数のデバイス、回路、マイクロプロセッサ、サーバ、および/または処理コアを指す。
【0045】
本発明の態様を適用する際には、潜在的なAR適用例(完全に網羅されてはいない)は、下記のとおりである。
【0046】
適用例1:エクササイズ中のフィットネス機器および人体のビデオ、視線、およびIMUデータが、人体のエクササイズ位置、人の動き、およびコンテキスト情報(たとえば、バックグラウンドの視覚およびオーディオ「ノイズ」)のスペクトルを認識することを目指して処理される。これは、フィットネス・スタジオによって彼らのクラブ・メンバーのために提供されるワークアウト・エクササイズの正しい実行を追跡するためにエンドユーザ・アプリの作成者によって活用されることが可能である。ユーザによって着用されている消費者デバイス、たとえば、スマート・グラスが、鏡の前でエクササイズを開始する前にオンにされる。
【0047】
適用例2:音声による記述を伴う、食品、人、キッチン用具、および食事の準備についてのビデオ、IMU、視線、およびオーディオ・データが、調理用品および器具、食品カテゴリー、クッキング・アクティビティ、ならびにコンテキスト情報を検知することを目指して処理される。エンドユーザ・アプリケーションが、これらのモデルを活用して、食事をどのようにして準備するかについて趣味の料理人をガイドすることが可能である。この目的のために、エンド・ユーザに対して彼女のスマート・グラス上で示されるビデオのセットには、デバイスを通じて再生される音声による指示も添えられている。
【0048】
適用例3:家具、人、および組み立てアクティビティについてのビデオ、IMU、視線、およびオーディオ・データが、家具および金物類のカテゴリー、人の動き、組み立てタスク、およびコンテキスト情報を検知することを目指して処理される。エンドユーザ・アプリケーションが、家具をどのようにして組み立てるかについてユーザをガイドすることが可能である。使用中に、スマート・グラス上の外界に向いているカメラがアクティブ化されて、ユーザ・マニュアルにおける関連のあるステップを検知し、仮想コンテンツがスマート・グラス上にスーパーインポーズされて、次のステップについてのガイダンスを提供する。正しいステップにユーザが焦点を合わせているかどうかを理解するために、アイ・トラッキングが使用される。
【0049】
適用例4:人および家電機器の操作およびアフターサービスについてのビデオ、IMU、視線、およびオーディオ・データが、機器部品、人の動き、メンテナンス・アクティビティ、およびコンテキスト情報を検知することを目指して処理される。エンドユーザ・アプリケーションが、自動コーヒー・マシンの水垢を落とすこと、オーブン内のライトを取り替えること、またはエア・フライヤーを掃除することなどのサービスおよびメンテナンス・タスクをどのようにして実行するかについて、スーパーインポーズされた仮想情報を介してユーザをガイドすることが可能である。サポート・エンジニアをいつ呼ぶかを検知するために、外界に向いているカメラが使用されることが可能である。自動化された指示を改善するために、失敗のケースにおいて、さらなるビデオ、IMU、視線、およびオーディオ・データが記録されることが可能である。スーパーインポーズされたビデオが、Q&Aユーザ・マニュアルおよび取扱説明書を高めることが可能である。
【0050】
適用例5:外の景色、および外部環境との人の相互作用についてのビデオ、GPS、IMU、および視線データが、人の動きおよびコンテキスト情報を用いてジオロケーションを検知することを目指して、ならびにサイクリストの観点から、野生動物、不整地、人、および交通などの環境危険を認識することを目指して処理される。可能なエンドユーザ・アプリケーション用として、自転車運転中に安全機能を供給するために視線データが使用される。そのような安全機能は、リアルタイムでの気づかれていない迂回路、危険、車、および歩行者に関するスーパーインポーズされた画像またはオーディオ警告を含むことが可能である。
【0051】
少なくとも1つのコンピューティング・デバイスまたはコンピュータ・システムまたはコンピュータ装置(1で概略的に示されている)によって実施される、本発明の態様による方法は、以降でさらに詳細に記述されてもいるように、
図1において示されている少なくとも1つのセンサ10に含まれている画像センサによって取り込まれた少なくとも1つの画像を受信するステップを含む、1つまたは複数のセンサ10からの、複数の実施形態によれば複数のセンサからのセンサ・データ(マルチセンサ・データとも呼ばれる)を少なくとも1つのコンピューティング・デバイス1によって受信するステップを含む。
【0052】
1つまたは複数のコンピューティング・デバイス1は、図における実施形態に従って示されているように、および以降でさらに詳細に記述されているように、一連の処理モジュールを順番に、または処理モジュールのうちの第1~第5のモジュールからの、1つまたは複数のフィードバック・ループを伴う反復プロセスで実行する。
【0053】
以降においては、第1のモジュールの実施形態が記述されることになる。一般には、第1のモジュールの機能は、「データ摂取および前処理」と見出しを付けられることが可能である。
【0054】
一般には、上で提示されているように、
図1において示されている第1のモジュールM1は、センサ・データを受信するステップと、センサ・データのそれぞれの着信ソースを特定するステップと、メタ・データ情報を含むソース情報を解析するステップと、センサ・データを複数の標準化されたデータ・アイテムへと変換するステップと、標準化されたデータ・アイテムのうちの少なくともいくつかをメタ・データ情報に関連付けるステップと、標準化されたデータ・アイテムのうちの少なくともいくつかを、関連付けられているメタ・データ情報とともに、リモート・アクセス用に適合されているデータ・ウェアハウスに摂取するステップとを含む。
【0055】
たとえば、複数の実施形態によれば、第1のモジュールM1は、データ・ソース10から生のセンサ・データ11を受信し(ステップ1.1)、生のセンサ・データ11は、たとえば、画像およびビデオ・ストリーム、GPSセンシング、オーディオ、赤外線、コレクタ視線(たとえば、角膜反射、ステレオ・ジオメトリ、目の向き、および/もしくは動き)、ならびに/またはIMU(加速度計、ジャイロスコープ、および/もしくは磁力計などの)データを含む。このデータは、ユーザの観点から収集されるので、「自己を中心としたデータ」と呼ばれる。一般に、このデータは、人のデータ収集者に、たとえば、当技術分野において知られているヘッドマウント・センサ・リグ(たとえば、スマート・グラス)を装着することによって取り込まれることが可能である。
【0056】
センサ・データ11(複数の実施形態によれば、マルチセンサからの自己を中心としたデータ)は、それぞれのセンサから直接、または組織内収集物、オープンソースの公開データセット、もしくはサードパーティ独自のデータセットを介してなど、多くのソースまたは入力ストリームから来ることが可能である。これらのさまざまなストリームから入ってくるデータは、典型的には、相関付けられることまたは標準化されることが可能ではないさまざまなフォーマットでの多くのデータ・ファイルを含む。
【0057】
最初に、前処理(ステップ1.1、1.2、および1.3)は、下記の標準化および変形アクションを含むことが可能である。
【0058】
データ摂取:センサ・データの着信ソースを特定し、ソース情報を解析し、テンポラリ・ストレージ13へとソートする。
【0059】
抽出および変形:データのインテグリティ、検索可能性、アクセシビリティ、相互運用性、および再利用性を確実にするために、メタ・データ・コンテナが、メディア・プロパティ(たとえば、ビデオまたは画像)、利用可能な場合にはロケーション情報、スキーマおよびバージョン情報、ならびに、さまざまなセンサ入力モダリティまたは結び付けられる情報のためのさらなる追加データ・チャネルを割り振られる。
【0060】
たとえば、絶対日時をソース日時に対するタイムスタンプへ変形することによって、標準化されたタイムスタンプをすべての異なるセンサ・ストリームに割り振ること。たとえば、ソース日時(たとえば、センサ・リグからのインポートされたデータ)、作成日時、たとえば、内部取り入れ日、内部処理アクションを記録する修正日時。
【0061】
センサ・データを、同様のサイズおよびフォーマットの標準化された処理可能なデータ・ユニットどうし(たとえば、標準化されたピクセル・フォーマットおよび同様の長さのビデオ・エンコーディングを伴うMP4ビデオ・ファイルどうし)へと変換すること。
【0062】
さらなる任意選択のステップは、GDPRおよび/またはその他のプライバシー規制スキームに従った、特定のデータ・カテゴリーの難読化(ステップ1.4)、たとえば、データ対象の顔およびナンバー・プレートのぼかし、ならびに/または音声オーディオ・フィルタリングであり得る。
【0063】
追加のメタ・データ情報をデータ・アイテム(たとえば、状況、事象、対象オブジェクト、および/またはロケーション・タグ)に割り振ること。
【0064】
さらなる任意選択のステップは、タスク要件(たとえば、機能的および/または法的タスク)に対する収集されたデータの手動検証、ならびに視野におけるオブジェクト・カテゴリーを介した自動タスク検証であり得る。
【0065】
本実施形態においては、変形アクティビティの結果は、メタ・データ・コンテナを伴う標準化されたデータ・アイテム14である。これらは、特定の目的(たとえば、自己を中心としたオープンワールドのシナリオをカバーすること)に役立つデータセットまたはデータセットの集合へとまとめられることが可能である。
【0066】
変形後に、ステップ1.4において、データは、データ・ウェアハウス20へと摂取され、データ・ウェアハウス20は、視覚化、注釈付け、および校正のための検索可能性および分散アクセスを可能にする。ストレージは、特定の要件に関して複数のデータベース・アーキテクチャーに基づくクラウド・ネイティブ・アプローチの組合せを使用することが可能である。すべてのデータおよびモデル・ストレージ・コンポーネントは、保存時の暗号化技術およびアクセス制御をサポートすることが可能である。ストレージは、グローバルに分散可能である。保存時および転送中の暗号化に加えて、個々のクライアント側の暗号化が使用されることが可能である。
【0067】
データは、非構造化データから構造化データまで非常に多様であるので、ストレージは、データ構造における柔軟性を可能にする。提案されているアーキテクチャーは、バージョン管理されたスキーマの施行ならびにガバナンスおよび監査の必要性をサポートする。
【0068】
データ・ウェアハウス20はまた、拡張および分析されたデータ・アイテムを含む、パイプラインを通じて生成または導出されたデータを格納し、それによって、パイプライン結果の参照およびさらなる反復ならびに比較および改善を可能にする(
図1、データ・ウェアハウスを参照されたい)。
【0069】
上述されている抽出および変形ステップを考慮したさらなるセンサ・データに加えて、ビデオまたは画像などのセンサ・データ21が、定義された基準(結果に対する満足度または検知の信頼度についてのユーザ・フィードバックなど)に基づいてデータ・ウェアハウス20に付加され、モデル・トレーニングをさらに可能にするために格納されることが可能である。
【0070】
たとえば、上記の適用例4において、サポート・エンジニアを従事させる必要があるケースにおいては、ユーザは、センサ・データを記録されることに同意することが可能であり、それらのセンサ・データは、次いで変換されてデータ・ウェアハウス20に格納される。これらのデータ・アイテムは、個々の状況(たとえば、部分的に見えにくくされている悪光条件下のコーヒー・マシン)における特定の使用事例(たとえば、コーヒー・マシンの水垢を落とすこと)のモデル作成を改善するために使用されることが可能である。
【0071】
以降においては、第2のモジュールの実施形態が記述されることになる。一般には、第2のモジュールの機能は、「トレーニングおよび校正の準備」と見出しを付けられることが可能である。
【0072】
一般には、上で提示されているように、
図1において示されている第2のモジュールM2は、データ・ウェアハウスにアクセスしてデータ・ウェアハウスの標準化されたデータ・アイテムごとに少なくとも1つの画像キーフレームを識別するステップと、少なくとも1つの画像キーフレームを示す追加の情報をそれぞれの標準化されたデータ・アイテムに関連付けるステップとを含む。
【0073】
詳細には、複数の実施形態によれば、図式化されたデータをトレーニングおよび校正のために使用することに備えて、メタ・データは、追加のパラメータで拡張される。追加のパラメータは、キーフレームに関する情報を含み、それらのキーフレームは、たとえば、コントラストをほとんどもしくはまったく含まないまたは(たとえば、速い頭の動きを通じた)不鮮明なオブジェクトを含むフレームを除外して、豊富なコンテキスト(
図3を参照されたい。以降でさらに詳細に記述されている)を伴うフレームを促進することによって識別される。視線追跡、ロケーション・センサ、IMUからの追加センサ情報、またはコンテキスト情報など、さらなる情報が考慮されることが可能である。抽出されたメディア・プロパティは、手動での洗練のためにキーフレームのみを提示することによって校正を推進するために、またはトレーニング中に提示されたサンプルをそれらのサンプルの内容によって重み付けするために使用されることが可能である。
【0074】
上述されている例示的な適用例においては、IMUデータは、注釈プロセスにとってあまり有益ではないフレームをフィルタリングするために使用されることが可能である。たとえば、著しい頭の動きはモーション・ブラーにつながることになると特定されることが可能であり、ひいては、それらのフレームは除外されることになる。さらに、上記の適用例1における非常にわずかな動きは、一時停止を決定すること、およびそれらのセクションを除外することをもたらすことが可能である。そのようなキーフレームを選択することは、キーフレームのみが注釈を付けられて著しい時間およびリソースを節約するという点で、効率的な注釈のための基礎を構築する。
【0075】
視線データ(たとえば、注目マーカ)が使用されて、シーンにおけるオブジェクトの顕著性を特定することが可能であり、これは、校正中における領域どうしの高められた焦点合わせおよび優先順位付けを可能にする。このメカニズムは、現在のコンテキストにおいて関連のないオブジェクト、たとえば、バックグラウンドにある、またはオクルージョンに起因して部分的にしか見えないオブジェクトをフィルタリングすることを可能にする。
【0076】
有効なトレーニング・データセットに向けた任意選択のステップは、データセットについての初期推論タスクに起因した校正ステップに関する推奨事項の生成である。これが使用されて、校正中に提示されることになるキーフレームの選択をさらに優先順位付けることが可能である。
【0077】
データ・アイテムは、フレームの集合23として格納されているそれぞれの画像フレームに関する初期注釈(2.2)を入手するために1つまたは複数の基礎モデル(22)に提供される(2.1)。画像フレームは、キーフレームを検知することによってフィルタリングされ(2.3~2.4)、結果として生じるキーフレーム情報は、フレーム集合を拡張する(2.5)ために使用される。1つまたは複数の基礎モデルによって提供される初期注釈は、算出コストがフィルタリングに関する追加情報を上回るケースにおいては、キーフレーム・フィルタリングの後に提供されることも可能であるということに留意されたい。
【0078】
以降においては、第3のモジュールの実施形態が記述されることになる。一般には、第3のモジュールの機能は、「注釈」と見出しを付けられることが可能である。
【0079】
一般には、上で提示されているように、
図1において示されている第3のモジュールM3は、それぞれのデータ・アイテムの少なくとも1つの画像キーフレームおよび関連付けられている追加の情報を、1つまたは複数の基礎モデルによって自動的に生成された1つまたは複数の初期注釈を添えられている注釈付けのために、コンピュータ・デバイスのディスプレイなどのヒューマン・マシン・インターフェースを介して人の注釈者に提示するステップと、ヒューマン・マシン・インターフェースを介して注釈者からの注釈を受信するステップと、少なくとも1つの画像キーフレームを、対応する注釈情報と合わせて、少なくとも1つの注釈付きデータセットへ拡張するステップとを含む。
【0080】
典型的には、注釈用のデータをキュレートすること、および注釈の品質は、モデルをトレーニングするためのデータを準備する企業にとって最大の課題である。高品質でデータに注釈を付け損なうことは、貧弱なモデル・パフォーマンスにつながる場合が多い。
【0081】
詳細には、複数の実施形態によれば、注釈の開始点は、ステップ2.6において供給されるフレームの集合23における検知されたキーフレームであり、それらは、初期注釈を添えられることが可能であり、それらのそれぞれは、対象タスクに応じて画像データおよび必要とされる注釈ツールを提示する注釈フレームワークを通じて手動で注釈を付けられる。そのようなタスクは、個々のオブジェクト・マスクのピクセルレベルの注釈、既存のオブジェクト・マスクのカテゴリー化および属性の特定、またはシーン・プロパティのラベル付けをカバーすることが可能である。
【0082】
ステップ3.1において注釈ツール31によって注釈者(または校正者)32に提示されるキーフレームは、自動的に生成された初期注釈を添えられ、それらの初期注釈は、基礎モデル22によって生成されたものである。典型的には、当技術分野において知られているように、基礎モデルは、多様なデータセットの大きなプールでトレーニングされ、ここでは、一式の一般的なハイレベルのカテゴリー(たとえば、人、食品、家具、床、空など)へとカテゴリー化されるオブジェクトのインスタンスを出力するモデルを指す。
【0083】
注釈プロセスは、注釈訂正提案、顕著なオブジェクトの強調表示、および/または推定エラー・マーキングなどのガイド信号(ステップ6.2)によってさらに拡張されることが可能である(
図1、ガイダンス・システム60を参照されたい)。たとえば、カテゴリーの提案は、オンラインラーニング・システムとして実施されることが可能であり、そのオンラインラーニング・システムは、新しい手動注釈で更新されて、ほぼリアルタイムでオブジェクト・カテゴリーを提案する。データは、注釈付きデータセット33からステップ6.1を通じてガイダンス・システム60に提供される。一実施形態によれば、ガイダンス・システム60は、オーバーセグメンテーションまたはその他の改善プロセスのような、任意選択の改善プロセスどうしのまとまりとして実装されることが可能である。複数の実施形態によれば、ガイダンス・システム60は、潜在的なエラーに関する訂正提案および洗練ヘルプのようないくつかのプロセスを含むことも可能である。
【0084】
例示的な適用例1:
それぞれのワークアウト・エクササイズは、アスリートのさまざまな身体部位(脚、腕、頭、胴体、...)ならびにバーベル、ケトルベル、およびマシンなどのエクササイズ機器を対象とするキーフレームおよび注釈によってカバーされている。手動注釈は、2つの基礎モデルによってサポートされており、それらの基礎モデルのうちの一方は、人物ごとのマスク(基礎モデル)を出力し、他方は、人物マスク内のさまざまな身体部位の提案を提供するオーバーセグメンテーション(改善プロセス)を出力する。オーバーセグメンテーションは、フレームを一貫した領域どうしへと分割し、基礎モデルと比べて、類似したテクスチャーによってさらにバイアスをかけられる。たとえば、シャツ、ショーツ、腕、および脚は、オーバーセグメンテーションにおける独立した領域であるが、それらはすべて、同じ人物マスクに属する。
【0085】
それぞれの身体部位領域は、次いで人の注釈者によって訂正され、対応するカテゴリーでラベル付けされる。カテゴリーの提案が、オンラインラーニング・アプローチを通じて最適化され、オンラインラーニング・アプローチは、オブジェクトごとの統計を考慮し、ラベル付けされていないオブジェクトを、以前にカテゴリー化されたオブジェクトと照合する。
【0086】
以降においては、第4のモジュールの実施形態が記述されることになる。一般には、第4のモジュールの機能は、「モデルの生成」と見出しを付けられることが可能である。
【0087】
一般には、上で提示されているように、
図1において示されている第4のモジュールM4は、少なくとも1つの注釈付きデータセットを使用して少なくとも1つのマシン・ラーニング・モデルを生成するステップおよび更新するステップのうちの少なくとも1つを含む。
【0088】
複数の実施形態によれば、注釈付きデータセット33の注釈付きデータ(ステップ3.3において更新されている)が使用されて、タスクに特化したモデルを最初から作成すること、または既存のモデルを更新して対象タスク用に微調整することが可能である(ステップ4.1)。タスク固有のモデル41が、その後にデータ要素のうちの残りに適用されることが可能である(ステップ4.2)。新たに注釈を付けられたデータで既存のモデルを更新することは、小さなステップで徐々に反復して行われることが可能であり、ビデオの第1の最小のセット(たとえば、100フレームよりも多い)の注釈付けの後に、画像と注釈とのペアが使用されて、開始モデルを微調整して、タスク固有のオブジェクト・インスタンス・セグメンテーション(形状識別)およびオブジェクト・カテゴリー(カテゴリー化)を出力し、これは次いで、元の基礎モデルで利用可能であろうものと比べて、人による校正のためのさらに詳細な開始点を提供する。微調整されたモデルは、その後に、元の基礎モデルで利用可能であろうものと比べて、さらなる詳細さを伴って要素のうちの残りに適用される。
【0089】
複数の実施形態によれば、2つの主要なタイプの注釈を手動で洗練する(校正する)ための2つのプロセスが、以降でさらに詳述されている。
インスタンス・セグメンテーション:モデルによって返されたオブジェクト・インスタンスが、手動での改訂および訂正のための開始点として使用される。訂正プロセスは、ブラシ・ツールを介して、またはスーパーピクセル(画像を分割するサブオブジェクトの断片)全体をマージすることまたは再び割り振ることによってピクセルのチャンクを特定のオブジェクトに再び割り振ることを含むことが可能である。
カテゴリー化:あらゆるオブジェクト・インスタンスが、モデル出力に由来する推定カテゴリーを割り振られ、人の注釈者に対して注釈提案を表示するために使用される。注釈提案は、シーン・コンテキストおよび注釈履歴に基づいて拡張または洗練されることが可能である(ステップ3.2を参照)。
【0090】
校正され、注釈を付けられたデータセットがさらに使用されて、元の基礎モデルを更新して、次のデータセットについてのさらに正確な初期予測を提供することが可能である。この目的で、一般的な適用性を提供するために、タスク固有のおよび詳細なカテゴリーが、粗いレベルにマップされ直される。上記の例示的な適用例のケースにおいては、適用例1および4のための開始点としての基礎モデルは、適用例2によって提供される追加のトレーニング・データ(キッチン用具、食品、人物、...に関するオブジェクト・マスク)から恩恵を受けることになる。
【0091】
基礎モデル22ならびにタスクに特化したモデル41は、オブジェクト・マスクおよびカテゴリー予測を生成する(ステップ4.2)。
【0092】
以降においては、第5のモジュールの実施形態が記述されることになる。複数の実施形態によれば、第5のモジュールの機能は、「推論/品質保証(QA)レビュー」と見出しを付けられることが可能である。
【0093】
一般には、上で提示されているように、
図1において示されている第5のモジュールM5は、少なくとも1つのマシン・ラーニング・アルゴリズムを使用する1つまたは複数のプロセスによるアクセスのために少なくとも1つのマシン・ラーニング・モデルをタスク固有のマシン・ラーニング・モデルとしてストレージ・デバイスへアップロードするステップを含む。
【0094】
複数の実施形態によれば、基礎モデル22ならびにタスクに特化したモデル41は、オブジェクト・マスクおよびカテゴリー予測を生成することが可能である(ステップ4.2)。モデルの実行は、分散クラウド・コンピューティングを使用して並列に行われる。分散のために、データセット33は、複数のチャンク(処理を容易にするために、より小さな単位へと分割されたデータセットの断片)へと分割されることが可能であり、それらのチャンクは、一時的な算出ノードによって処理され、これは、マシン・ラーニング・モデルの入力に役立つための前処理(詳細には、モデルによって必要とされるフォーマット(サイズ/解像度)に合わせてデータセットの画像を調整すること)、実際の推論、および後処理の後の最終的なデータ出力をデータ・ウェアハウス20へアップロードすることを含む。推論は、クラウド・ホスティング環境における一時的な算出ノードにおいて生じることが可能であり、それによって、推論タスクのためにオン・デマンドでノードが割り当てられることが可能である。
【0095】
推論は、レビュー・ガイダンスのために不確かなモデル予測に関して情報提供するために出力統計を、および堅牢な予測を生成するためにテスト時の拡張と一緒にモデル・アンサンブリング(複数のモデル・バリエーション)を活用することが可能である。
【0096】
いくつかの実施形態においては、推論は、マシン・ラーニング・モデルを新鮮なデータセット(すなわち、以前にトレーニングのために使用されていないデータセット)に適用して、出力または「予測」を生成することを含む。そのようなプロセスは、典型的には「MLモデルを運用可能にすること」または「MLモデルを稼働させること」とも呼ばれる。このフェーズ中に、推論システムは、コンテンツ・プロバイダ(たとえば、サービスとしての自らのデータセットに関する注釈を要求するサードパーティ企業)から新たな入力を受け入れ、データを処理し、そのデータをMLモデルへとフィードし、出力を再びプロバイダへ供給して、オブジェクト・マスクとカテゴリー予測とで注釈を付けられたデータセットを得る。
【0097】
複数の実施形態によれば、「オブジェクト・マスク」という出力は、ピクセルの点でのオブジェクト検知を表し、画像におけるオブジェクトの上の色フィルタとして視覚化されることが可能である。いくつかの実施形態によれば、セマンティック・セグメンテーションが、「カテゴリー」予測をもたらす(たとえば、「バックグラウンド」対「街路」対「オブジェクト」)。インスタンス・セグメンテーションが、個々のインスタンスの予測をもたらす(たとえば、同じオブジェクトの3つのインスタンス)。パノプティック・セグメンテーションが、オブジェクト・インスタンスおよびオブジェクト・カテゴリーの両方を検知することを含む。
【0098】
品質保証(QA)レビュー(ステップ5.1を参照):
複数の実施形態によれば、推論を通じて、見えないデータセットが、インスタンスおよびカテゴリーのマスク/ラベルで注釈を付けられる。マスクが実際のオブジェクト境界と一致しないことなど、推論結果または予測は、間違っているまたは「外れている」場合がある。
【0099】
複数の実施形態によれば、品質保証レビューの一部として、データ・サンプルが付加されることまたは取り除かれることが可能であり(データ・キュレーション)、モデル・ハイパーパラメータまたはマスク自体が再検討され訂正されて、たとえば、データ・ウェアハウス20に格納される、最終的な注釈付きデータセット51を得ることが可能である。この方法においては、フィードバック・ループがある。「モデル・アンサンブリング」とは、モデルどうしを混合することであり、それによってベース・モデル予測どうしが集約されて、見えないデータに関する1つの最終的な予測をもたらす。テスト時の拡張は、入力された画像を何らかの方法で変更して(たとえば、その画像を歪ませて、その画像を切断して、またはその画像を反転させて)、再びモデルを通過させ、予測を改善することを含む。
【0100】
それゆえに、本発明の態様は、上述されているように、それぞれの方法ステップを処理モジュールM1~M5が実施することを自動化し、ひいてはエラーを低減し、自己を中心としたビデオおよび画像データに注釈を付けるのに必要とされる時間を低減することに焦点を合わせている。最近まで、自己を中心としたデータの摂取、処理、校正、注釈付け、およびモデル・トレーニング・アクティビティは、難しく、エラーが発生しやすく、時間がかかっていた。
【0101】
複数の実施形態によれば、開示されているデータ・パイプラインは、データの標準化、注釈付け、およびモデルの洗練をひとまとめにしており、また、自動化された注釈付けをガイダンス信号とともに高度に統合して、手動注釈プロセスを、最小化された時間要件を伴うガイドされる校正プロセスへと変える。1つの注目すべき構成要素は、高められた正確さを伴って所与のタスクを解決するための既存の基礎モデルまたは作成物の迅速な修正を可能にする柔軟なトレーニング環境である。モデル出力は、視覚化および注釈ツールへと統合されて、強化および最終的な訂正のための初期の正確な注釈を人の注釈者に提供することが可能である。
【0102】
カテゴリー注釈に関するモデル出力およびガイダンス信号のそのような統合の一例は、語彙データベースを活用して、予測されたモデル・カテゴリーを階層的分類へと埋め込み、その階層的分類は、人の注釈者のためにきめ細かい提案が表示されることを可能にする。これは最終的に、特化したオブジェクト・カテゴリーに関する迅速なモデル構築を可能にする。
【0103】
図3は、本開示の一実施形態による方法の例示的な使用事例における例示的なシナリオを示している。それは、サイクリングの使用事例に適用されるトレーニングおよび校正のための図式化されたデータを示しており、その使用事例においては、センサ・データは、半透明のメガネと、現実環境の画像または画像のストリーム(ビデオ)を取り込むための少なくとも1つのカメラと、オーディオおよび視線検知センサならびに/またはIMUのようなさらなるセンサとを含むヘッドマウント・センサ・リグ101によって提供される。画像141を提供することに加えて、さらなる情報が抽出および変形され、メタ・データ・コンテナ142が、メディア・プロパティ(たとえば、ビデオまたは画像)と、ロケーション情報、視線(
図3において視線オーバーレイ画像143において示されている)、スキーマおよびバージョン情報のようなその他の情報とを割り振られる。
【0104】
注釈ツール31によって注釈者(または校正者)32に提示されるキーフレーム26のうちの1つは、自動的に生成された初期注釈を添えられ(ステップ2.2)、それらの初期注釈は、基礎モデル22によって生成されたものである。キーフレーム26は、上述されているように、画像フレーム25からフィルタリングされる。
【0105】
たとえば、IMUデータは、注釈プロセスにとってあまり有益ではないフレームを初期フレーム25(フレーム1~n)からフィルタリングするために使用されることが可能である。たとえば、IMUによって検知された著しい頭の動きはモーション・ブラーにつながることになると特定されることが可能であり、ひいては、それらのフレームは除外されて、フィルタリングされたキーフレーム26の減少されたセット(キーフレーム1~m)を得ることになる。
【符号の説明】
【0106】
1 コンピューティング・デバイス
10 データ・ソース
センサ
11 生のセンサ・データ
13 テンポラリ・ストレージ
14 メタ・データ・コンテナを伴う標準化されたデータ・アイテム
20 データ・ウェアハウス
21 センサ・データ
22 基礎モデル
23 フレームの集合
25 画像フレーム
26 キーフレーム
31 注釈ツール
32 校正者
33 注釈付きデータセット
41 タスク固有のモデル
タスクに特化したモデル
60 ガイダンス・システム
101 ヘッドマウント・センサ・リグ
141 画像
142 メタ・データ・コンテナ
143 視線オーバーレイ画像
【外国語明細書】