IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ニューララ インコーポレイテッドの特許一覧

特開2023-85346深層ニューラルネットワークおよびニューラルネットワークアプリケーション向けのデータストリームのタグ付けおよびラベル付けのためのオンラインでのインクリメンタルリアルタイム学習
<>
  • 特開-深層ニューラルネットワークおよびニューラルネットワークアプリケーション向けのデータストリームのタグ付けおよびラベル付けのためのオンラインでのインクリメンタルリアルタイム学習 図1A
  • 特開-深層ニューラルネットワークおよびニューラルネットワークアプリケーション向けのデータストリームのタグ付けおよびラベル付けのためのオンラインでのインクリメンタルリアルタイム学習 図1B
  • 特開-深層ニューラルネットワークおよびニューラルネットワークアプリケーション向けのデータストリームのタグ付けおよびラベル付けのためのオンラインでのインクリメンタルリアルタイム学習 図2
  • 特開-深層ニューラルネットワークおよびニューラルネットワークアプリケーション向けのデータストリームのタグ付けおよびラベル付けのためのオンラインでのインクリメンタルリアルタイム学習 図3
  • 特開-深層ニューラルネットワークおよびニューラルネットワークアプリケーション向けのデータストリームのタグ付けおよびラベル付けのためのオンラインでのインクリメンタルリアルタイム学習 図4
  • 特開-深層ニューラルネットワークおよびニューラルネットワークアプリケーション向けのデータストリームのタグ付けおよびラベル付けのためのオンラインでのインクリメンタルリアルタイム学習 図5
  • 特開-深層ニューラルネットワークおよびニューラルネットワークアプリケーション向けのデータストリームのタグ付けおよびラベル付けのためのオンラインでのインクリメンタルリアルタイム学習 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023085346
(43)【公開日】2023-06-20
(54)【発明の名称】深層ニューラルネットワークおよびニューラルネットワークアプリケーション向けのデータストリームのタグ付けおよびラベル付けのためのオンラインでのインクリメンタルリアルタイム学習
(51)【国際特許分類】
   G06V 10/774 20220101AFI20230613BHJP
   G06T 7/00 20170101ALI20230613BHJP
【FI】
G06V10/774
G06T7/00 350C
【審査請求】有
【請求項の数】27
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023042142
(22)【出願日】2023-03-16
(62)【分割の表示】P 2019551365の分割
【原出願日】2018-03-19
(31)【優先権主張番号】62/472,925
(32)【優先日】2017-03-17
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】514282530
【氏名又は名称】ニューララ インコーポレイテッド
(74)【代理人】
【識別番号】100099623
【弁理士】
【氏名又は名称】奥山 尚一
(74)【代理人】
【識別番号】100125380
【弁理士】
【氏名又は名称】中村 綾子
(74)【代理人】
【識別番号】100142996
【弁理士】
【氏名又は名称】森本 聡二
(74)【代理人】
【識別番号】100166268
【弁理士】
【氏名又は名称】田中 祐
(74)【代理人】
【識別番号】100180231
【弁理士】
【氏名又は名称】水島 亜希子
(72)【発明者】
【氏名】ネヴェス,ルーカス
(72)【発明者】
【氏名】デビーシ,リアム
(72)【発明者】
【氏名】ヴェルサーチ,ヘザー・エイムズ
(72)【発明者】
【氏名】ワーブズ,ジェレミー
(72)【発明者】
【氏名】ゴルシェチニコフ,アナトリー
(72)【発明者】
【氏名】ヴェルサーチ,マッシミリアーノ
(72)【発明者】
【氏名】カッツ,ウォーレン
(57)【要約】      (修正有)
【課題】人工ニューラルネットワークをトレーニングするために用いるタグ付けされたデータの大きなセットを作成する方法及びシステムを提供する。
【解決手段】特徴抽出ユニットおよび高速学習分類器は、画像から抽出される特徴とラベルを関連付けて、同じラベルによって画像からの類似の特徴または他の画像にタグ付けする人工ニューラルネットワークとして実装することができる。さらに、スマートタグ付けシステムは、ユーザ調整からその提案されたタグ付けまで学習することができる。これにより、タグ付け時間とエラーが減少する。
【選択図】図1A
【特許請求の範囲】
【請求項1】
画像のシーケンスにタグ付けする方法であって、
ユーザによって、画像のシーケンスの第一の画像のオブジェクトの表現の第一のインス
タンスにタグ付けするステップと、
少なくとも一つのプロセッサによって、前記第一の画像の前記ユーザによってタグ付け
された前記オブジェクトの前記表現を学習するステップと、
前記少なくとも一つのプロセッサによって、画像の前記シーケンスの前記オブジェクト
の前記表現の第二のインスタンスにタグ付けするステップと、
前記ユーザによって、前記少なくとも一つのプロセッサによって作成される前記オブジ
ェクトの前記表現の前記第二のインスタンスのタグおよび/または位置の調整を実行する
ステップと、
前記少なくとも一つのプロセッサによって、前記調整に基づいて、画像の前記シーケン
スの前記オブジェクトの前記表現の第三のインスタンスにタグ付けするステップと
を含む方法。
【請求項2】
前記オブジェクトの前記表現の前記第二のインスタンスが画像の前記シーケンスの前記
第一の画像にある、請求項1に記載の方法。
【請求項3】
前記オブジェクトの前記表現の前記第二のインスタンスが画像の前記シーケンスの別の
画像にある、請求項1に記載の方法。
【請求項4】
前記ユーザによって、前記少なくとも一つのプロセッサによって作成される前記オブジ
ェクトの前記表現の前記第三のインスタンスのタグおよび/または位置の調整を実行する
ステップと、
前記少なくとも一つのプロセッサによって、前記オブジェクトの前記表現の前記第三の
インスタンスのタグおよび/または位置の前記調整に基づいて、画像の前記シーケンスの
前記オブジェクトの前記表現の第四のインスタンスにタグ付けするステップと
をさらに含む請求項1に記載の方法。
【請求項5】
前記少なくとも一つのプロセッサ上で実行される高速学習分類器を介して、前記第一の
画像の前記ユーザによってタグ付けされた前記オブジェクトの前記表現を分類するステッ
プをさらに含む請求項1に記載の方法。
【請求項6】
前記オブジェクトの前記表現の前記第三のインスタンスにタグ付けするステップが、
動作可能に前記高速学習分類器に連結されたニューラルネットワークによって、前記オ
ブジェクトの前記表現の前記第三のインスタンスの特徴を表す畳み込み出力を抽出するス
テップと、
前記高速学習分類器によって、前記畳み込み出力に基づいて前記オブジェクトの前記表
現の前記第三のインスタンスを分類するステップと
を含む、請求項5に記載の方法。
【請求項7】
前記オブジェクトの前記表現の前記第二のインスタンスにタグ付けするステップが、
前記少なくとも一つのプロセッサ上で実行されるニューラルネットワークによって、前
記オブジェクトの前記表現の前記第二のインスタンスの特徴を表す畳み込み出力を抽出す
るステップと、
動作可能に前記ニューラルネットワークに連結された分類器によって、前記畳み込み出
力に基づいて前記オブジェクトの前記表現の前記第二のインスタンスを分類するステップ

を含む、請求項1に記載の方法。
【請求項8】
画像のシーケンスにタグ付けするシステムであって、
ユーザが画像の前記シーケンスの第一の画像のオブジェクトの表現の第一のインスタン
スにタグ付けすることを可能にする、ユーザインターフェースと、
前記第一の画像の前記ユーザによってタグ付けされる前記オブジェクトの前記表現を学
習して、画像の前記シーケンスの前記オブジェクトの前記表現の第二のインスタンスにタ
グ付けする、動作可能に前記ユーザインターフェースに連結された少なくとも一つのプロ
セッサと
を含み、
前記ユーザインターフェースは、前記ユーザが前記少なくとも一つのプロセッサによっ
て作成される前記オブジェクトの前記表現の前記第二のインスタンスのタグおよび/また
は位置の調整を実行することを可能にし、前記少なくとも一つのプロセッサは、前記調整
に基づいて画像の前記シーケンスの前記オブジェクトの前記表現の第三のインスタンスに
タグ付けするように構成される、システム。
【請求項9】
ユーザインターフェースは、前記ユーザが前記少なくとも一つのプロセッサによって作
成される前記オブジェクトの前記表現の前記第三のインスタンスのタグおよび/または位
置の調整を前記ユーザによって実行することを可能にし、前記少なくとも一つのプロセッ
サは、前記オブジェクトの前記表現の前記第三のインスタンスの前記タグおよび/または
位置の前記調整に基づいて、画像の前記シーケンスの前記オブジェクトの前記表現の第四
のインスタンスにタグ付けするように構成される、請求項8に記載のシステム。
【請求項10】
前記オブジェクトの前記表現の前記第二のインスタンスが画像の前記シーケンスの前記
第一の画像にある、請求項8に記載のシステム。
【請求項11】
前記オブジェクトの前記表現の前記第二のインスタンスが画像の前記シーケンスの第二
の画像にある、請求項8に記載のシステム。
【請求項12】
前記プロセッサが、高速学習分類器を実装して、前記第一の画像の前記ユーザによって
タグ付けされる前記オブジェクトの前記表現を分類するように構成される、請求項8に記
載のシステム。
【請求項13】
前記プロセッサが、ニューラルネットワークを実装して、前記オブジェクトの前記表現
の前記第二のインスタンスおよび前記オブジェクトの前記表現の前記第三のインスタンス
のうち少なくとも一つに対応する特徴を表す少なくとも一つの畳み込み出力を抽出するよ
うにさらに構成され、
前記分類器が、少なくとも一つの畳み込み出力に基づいて前記オブジェクトの前記表現
の前記第二のインスタンスおよび前記前記オブジェクトの前記表現の前記第三のインスタ
ンスのうち少なくとも一つを分類するように構成される、請求項12に記載のシステム。
【請求項14】
データストリームのオブジェクトにタグ付けする方法であって、
少なくとも一つのプロセッサ上で実行されるニューラルネットワークによって、データ
ストリームからの第一の畳み込み出力を抽出するステップであって、前記データストリー
ムはオブジェクトの第一のクラスの少なくとも二つの表現を含み、前記第一の畳み込み出
力はオブジェクトの前記第一のカテゴリの第一の表現の特徴を表す、抽出するステップと

前記ニューラルネットワークに動作可能に連結された分類器によって、前記第一の表現
を前記第一の畳み込み出力に基づいてオブジェクトの前記第一のカテゴリに分類するステ
ップと、
前記分類器に動作可能に結合されたユーザインターフェースを介して、前記第一のカテ
ゴリに基づいて前記第一の表現のためのタグおよび/または位置を表示するステップと、
前記ユーザインターフェースを介してユーザによって、前記第一の表現のための前記タ
グおよび/または前記位置の調整を実行するステップと、
前記分類器によって、前記調整に基づいて前記オブジェクトの前記少なくとも一つの表
現の前記タグおよび/または前記位置を学習するステップと
を含む方法。
【請求項15】
前記タグが第一のタグであり、前記位置が第一の位置であり、
前記ニューラルネットワークによって、第二の畳み込み出力を前記データストリームか
ら抽出するステップであって、前記第二の畳み込み出力はオブジェクトの前記第一のカテ
ゴリの第二の表現の特徴を表す、抽出するステップと、
前記分類器によって、前記第二の畳み込み出力ならびに前記第一の表現のための前記タ
グおよび/または前記位置の前記調整に基づいて前記第二の表現を前記第一のカテゴリに
分類するステップと、
前記ユーザインターフェースを介して、前記第一のカテゴリに基づいて第二のタグおよ
び/または第二の位置を表示するステップと
をさらに含む請求項14に記載の方法。
【請求項16】
前記分類器によって、前記第一の表現の前記タグおよび/または位置が正しいという信
頼値を決定するステップと、
前記信頼値を前記ユーザに表示するステップと
をさらに含む請求項14に記載の方法。
【請求項17】
前記オブジェクトが第一のオブジェクトであり、前記タグが第一のタグであり、
前記分類器によって、オブジェクトの第二のカテゴリのための第二のタグを学習するス
テップであって、前記データストリームがオブジェクトの前記第二のカテゴリの少なくと
も一つの表現を含む、学習するステップをさらに含む請求項14に記載の方法。
【請求項18】
前記ニューラルネットワークによって、後続のデータストリームから後続の畳み込み出
力を抽出するステップであって、前記後続のデータストリームはオブジェクトの前記第二
のカテゴリの少なくとも一つの他の表現を含み、前記後続の畳み込み出力はオブジェクト
の前記第二のカテゴリの前記少なくとも一つの他の表現の特徴を表す、抽出するステップ
と、
前記分類器によって、前記後続の畳み込み出力および前記第二のタグに基づいてオブジ
ェクトの前記第二のカテゴリの前記少なくとも一つの他の表現を前記第二のカテゴリに分
類するステップと、
前記ユーザインターフェースを介して、前記第二のタグを表示するステップと
をさらに含む、請求項17に記載の方法。
【請求項19】
前記第一の畳み込み出力を抽出するステップが、
前記データストリームの第一の画像の複数の分割されたサブエリアを生成するステップ
と、
前記ニューラルネットワークによって、前記複数の分割されたサブエリアのそれぞれを
コード化するステップと
を含む、請求項18に記載の方法。
【請求項20】
少なくとも一つのプロセッサであって、
第一の畳み込み出力をデータストリームから抽出するニューラルネットワークであって
、前記データストリームはオブジェクトの第一のカテゴリの少なくとも二つの表現を含み
、前記第一の畳み込み出力はオブジェクトの前記第一のカテゴリの第一の表現の特徴を表
す、ニューラルネットワークと、
前記第一の畳み込み出力に基づいて前記第一の表現を前記第一のカテゴリに分類し、ユ
ーザによる調整に基づいて前記オブジェクトの前記第一の表現のタグおよび/または位置
を学習する高速学習モジュールと、を実装するように構成される、少なくとも一つのプロ
セッサと、
前記第一の表現のための前記タグおよび/または前記位置を表示して、前記ユーザが前
記第一の表現の前記タグおよび/または前記位置の前記調整を実行することを可能にする
、動作可能に前記少なくとも一つのプロセッサに結合されたユーザインターフェースと
を含むシステム。
【請求項21】
前記タグが第一のタグであり、
前記位置が第一の位置であり、
前記ニューラルネットワークが第二の畳み込み出力を前記データストリームから抽出す
るように構成され、前記第二の畳み込み出力はオブジェクトの前記第一のカテゴリの第二
の表現の特徴を表し、
前記高速学習モジュールが、前記第二の畳み込み出力および前記オブジェクトの前記少
なくとも一つの表現の前記第一のインスタンスのための前記第一のタグおよび/または前
記第一の位置の前記調整に基づいて、前記第二の表現を前記第一のカテゴリに分類するよ
うに構成され、
前記ユーザインターフェースが前記第一のカテゴリに基づいて第二のタグおよび第二の
位置を表示するようにさらに構成される、請求項20に記載のシステム。
【請求項22】
前記高速学習モジュールは前記第一のタグおよび/または前記第一の位置が正しいとい
う信頼値を決定するように構成され、
前記ユーザインターフェースが前記ユーザに前記信頼値を表示するようにさらに構成さ
れる、請求項20に記載のシステム。
【請求項23】
前記タグが第一のタグであり、前記高速学習モジュールがオブジェクトの第二のカテゴ
リのための第二のタグを学習するようにさらに構成され、前記データストリームがオブジ
ェクトの前記第二のカテゴリの少なくとも一つの表現を含む、請求項20に記載のシステ
ム。
【請求項24】
前記ニューラルネットワークが後続のデータストリームから後続の畳み込み出力を抽出
するようにさらに構成され、前記後続のデータストリームはオブジェクトの前記第二のカ
テゴリの少なくとも一つの他の表現を含み、前記後続の畳み込み出力はオブジェクトの前
記第二のカテゴリの前記少なくとも一つの他の表現の特徴を表し、
前記高速学習モジュールが、前記後続の畳み込み出力および前記第二のタグに基づいて
オブジェクトの前記第二のカテゴリの前記少なくとも一つの他の表現を前記第二のカテゴ
リに分類するようにさらに構成され、
前記ユーザインターフェースが前記第二のタグを表示するようにさらに構成される、請
求項23に記載のシステム。
【請求項25】
前記ニューラルネットワークが、
前記データストリームの第一の画像の複数の分割されたサブエリアを生成し、
前記複数の分割されたサブエリアのそれぞれをコード化するようにさらに構成される、
請求項20に記載のシステム。
【請求項26】
オブジェクトの複数のインスタンスにタグ付けする方法であって、
特徴抽出モジュールによって、前記複数のインスタンスの前記オブジェクトの第一のイ
ンスタンスを表す第一の特徴ベクトルを抽出するステップと、
ユーザインターフェースを介して、第一のラベルによって前記オブジェクトの前記第一
のインスタンスにタグ付けするステップと、
分類器モジュールによって、前記第一の特徴ベクトルを前記第一のラベルと関連付ける
ステップと、
前記特徴抽出モジュールによって、前記複数のインスタンスの前記オブジェクトの第二
のインスタンスを表す第二の特徴ベクトルを抽出するステップと、
前記分類器モジュールによって、前記第一の特徴ベクトルと前記第二の特徴ベクトルの
間の距離を計算するステップと、
前記分類器モジュールによって、定義済み閾値との差の比較を実行するステップと、
前記分類器モジュールによって、前記比較に基づいて前記オブジェクトの前記第二のイ
ンスタンスを分類するステップと
を含む方法。
【請求項27】
前記比較に基づいて前記第一のラベルによって前記オブジェクトの前記第二のインスタ
ンスにタグ付けするステップをさらに含む請求項26に記載の方法。
【請求項28】
前記比較に基づいて前記分類の信頼度を決定するステップをさらに含む請求項26に記
載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連特許出願に対する相互参照
本出願は、米国特許出願第62/472,925号(2017年3月17日出願)の米
国特許法119条(e)の優先権利益を主張し、その米国特許出願の内容は本明細書の一
部をなすものとする。
【背景技術】
【0002】
入力層と出力層との間に配置されるニューロンの多くの層を含む畳み込みニューラルネ
ットワーク(CNN, Convolutional Neural Network)を含む従来の深層ニューラルネッ
トワーク(DNN, Deep Neural Network)は、特定のデータセットに対してトレーニン
グのために数千回または数百万回の繰り返しサイクルを必要とする。このトレーニングが
起こる前に、データセット内のすべての画像を人間のユーザによってタグ付けしなければ
ならない。タグ付けのプロセスには、個々のオブジェクトの分類および検出/セグメンテ
ーションのための特定のオブジェクトとして、各画像の個々の領域の分類またはラベル付
けのために画像全体のラベル付けをすることが必要な場合がある。
【0003】
従来の画像タグ付けは、遅くて時間のかかるプロセスである。人間は、コンピュータ、
タブレットまたはスマートフォン上の画像を見て、画像の一つ以上のオブジェクトを識別
し、それらのオブジェクトに説明的なタグ(例えば、「木」、「住宅」または「車」)で
タグ付けする。関心オブジェクトに手動でタグ付けする際の主要な難しさには、速度の遅
さならびに注意散漫および疲労によって生じるヒューマンエラーの影響を受けやすいこと
が含まれる。これらの問題によって、二種類の課題が生じ、それは、トレーニングのため
のデータ準備に学術的な設定以外の場合ではどこでも容認できないほど長い時間がかかり
得るということ、そして、不適切にタグ付けされたデータが、DNNが許容可能なパフォ
ーマンス基準に達することができないほどタグ付けの品質は後続の学習の品質に直接影響
を及ぼすということである。
【発明の概要】
【0004】
本発明の技術の実施形態は、画像のシーケンスをタグ付けするための方法およびシステ
ムを含む。例示的な方法は、ユーザインターフェースを介してユーザによって、画像のシ
ーケンスの第一の画像でのオブジェクトの表現の第一のインスタンスをタグ付けすること
を含む。少なくとも一つのプロセッサは、第一の画像においてユーザによってタグ付けさ
れるオブジェクトの表現を学習して、画像のシーケンスのオブジェクトの表現の第二のイ
ンスタンスにタグ付けする。ユーザは、プロセッサによって作成されたオブジェクトの表
現の第二のインスタンスのタグおよび/または位置の調整を実行する。そしてプロセッサ
は、調整に基づいて、画像のシーケンスのオブジェクトの表現の第三のインスタンスにタ
グ付けする。
【0005】
オブジェクトの表現の第二のインスタンスは、画像のシーケンスの第一の画像の中かま
たは画像のシーケンスの別の画像の中にあり得る。
【0006】
いくつかの場合、ユーザは、プロセッサによって作成されるオブジェクトの表現の第三
のインスタンスのタグおよび/または位置の調整を実行してもよく、またプロセッサは、
オブジェクトの表現の第三のインスタンスのタグおよび/または位置の調整に基づいて、
画像のシーケンスの、オブジェクトの表現の第四のインスタンスにタグを付ける。
【0007】
この方法の例は、プロセッサ上で実行される高速学習分類器を介して分類することも含
むことができ、オブジェクトの表現は、第一の画像でユーザによってタグ付けされたオブ
ジェクトの表現である。この場合、オブジェクトの表現の第三のインスタンスのタグ付け
は、高速学習分類器に動作可能に連結されたニューラルネットワークを用いて、オブジェ
クトの表現の第三のインスタンスの特徴を表す畳み込み出力を抽出することを含み得る。
高速学習分類器は、畳み込み出力に基づいてオブジェクトの表現の第三のインスタンスを
分類する。
【0008】
この方法の例は、プロセッサ上で実行されるニューラルネットワークを用いてオブジェ
クトの表現の第二のインスタンスの特徴を表す畳み込み出力を抽出することによって表現
の第二のインスタンスにタグ付けすること、および、動作可能にニューラルネットワーク
に連結された分類器を用いて畳み込み出力に基づいてオブジェクトの表現の第二のインス
タンスを分類することも含み得る。
【0009】
画像のシーケンスをタグ付けするためのシステムは、ユーザインターフェースと、ユー
ザインターフェースに動作可能に連結された少なくとも一つのプロセッサとを含み得る。
動作中、ユーザインターフェースは、ユーザが画像のシーケンスの第一の画像内のオブジ
ェクトの表現の第一のインスタンスにタグ付けすることを可能にする。また、プロセッサ
は、第一の画像のユーザによってタグ付けされたオブジェクトの表現を学習し、画像のシ
ーケンスのオブジェクトの表現の第二のインスタンスにタグを付ける。ユーザインターフ
ェースは、ユーザが少なくとも一つのプロセッサによって作成されたオブジェクトの表現
の第二のインスタンスのタグおよび/または位置の調整を実行することを可能にし、プロ
セッサは調整に基づいて画像のシーケンスのオブジェクトの表現の第三のインスタンスに
タグ付けする。
【0010】
本技術の他の実施形態には、データストリーム内のオブジェクトにタグ付けするための
方法およびシステムが含まれる。例示的なシステムは、ニューラルネットワークと高速学
習モジュールとを実装するよう構成された少なくとも一つのプロセッサ、およびプロセッ
サに動作可能に連結されたユーザインターフェースを含む。動作中、ニューラルネットワ
ークは、オブジェクトの第一のカテゴリの少なくとも二つの表現を含むデータストリーム
から、第一の畳み込み出力を抽出する。この第一の畳み込み出力は、オブジェクトの第一
のカテゴリの第一の表現の特徴を表す。高速学習モジュールは、第一の畳み込み出力に基
づいて第一の表現を第一のカテゴリに分類し、ユーザによる調整に基づいて、タグおよび
/またはオブジェクトの第一の表現の位置を学習する。また、ユーザインターフェースは
、第一の表現のためのタグおよび/または位置を表示し、ユーザが第一の表現のタグおよ
び/または位置の調整を実行できるようにする。
【0011】
いくつかの場合では、タグは第一のタグであり、位置は第一の位置である。これらの場
合、ニューラルネットワークは、データストリームから第二の畳み込み出力を抽出しても
よい。この第二の畳み込み出力は、オブジェクトの第一のカテゴリの第二の表現の特徴を
表す。そして、これらの場合、分類器は、第二の畳み込み出力および第一の表現のための
タグおよび/または位置の調整に基づいて、第二の表現を第一のカテゴリに分類する。ユ
ーザインターフェースは、第一のカテゴリに基づいて、第二のタグおよび/または第二の
位置を表示してもよい。
【0012】
必要に応じて、分類器は、第一の表現のタグおよび/または位置が正しいという信頼値
を決定することができる。ユーザインターフェースは、ユーザに信頼値を表示してもよい
【0013】
オブジェクトが第一のオブジェクトであり、タグが第一のタグである場合、分類器は、
データストリーム内で表されるオブジェクトの第二のカテゴリのための第二のタグを学習
できる。これらの場合、ニューラルネットワークは、オブジェクトの第二のカテゴリの少
なくとも一つの他の表現を含む後続データストリームから後続の畳み込み出力を抽出する
ことができる。この後続の畳み込み出力は、オブジェクトの第二のカテゴリの他の表現の
特徴を表す。分類器は、後続の畳み込み出力および第二のタグに基づいて、オブジェクト
の第二のカテゴリの他の表現を第二のカテゴリに分類する。また、ユーザインターフェー
スは第二のタグを表示する。これらの場合、ニューラルネットワークは、データストリー
ム内の第一の画像の複数の分割されたサブエリアを生成し、複数の分割されたサブエリア
の各々をコード化することによって、第一の畳み込み出力を抽出し得る。
【0014】
本技術のさらに別の実施形態は、オブジェクトの複数のインスタンスにタグ付けする方
法を含む。この方法の例は、特徴抽出モジュールを使用して複数のインスタンスのオブジ
ェクトの第一のインスタンスを表す第一の特徴ベクトルを抽出することを含む。ユーザは
、ユーザインターフェースを介してオブジェクトの第一のインスタンスに第一のラベルを
タグ付けする。分類器モジュールは、第一の特徴ベクトルを第一のラベルと関連付ける。
特徴抽出モジュールは、複数のインスタンスのオブジェクトの第二のインスタンスを表す
第二の特徴ベクトルを抽出する。分類器モジュールは、第一の特徴ベクトルと第二の特徴
ベクトルとの間の距離を計算し、所定の閾値との差の比較を実行して、比較に基づいてオ
ブジェクトの第二のインスタンスを分類する。必要に応じて、オブジェクトの第二のイン
スタンスは、比較に基づいて第一のラベルでタグ付けされてもよい。そして、分類器モジ
ュールは、比較に基づいて分類の信頼度を判定してもよい。
【0015】
当然のことながら、前述の概念および以下でより詳細に論じる追加的概念のすべての組
み合わせは(このような概念は相互に矛盾していないという前提で)、本明細書に開示さ
れる本発明の主題の一部であると考えられる。特に、本開示の最後に現れる請求項に記載
された主題のすべての組み合わせは、本明細書に開示される発明主題の一部であると考え
られる。また当然のことながら、参照により組み込まれるあらゆる開示において明示的に
用いられる用語は、本明細書に開示される特定の概念と最も一致する意味を与える必要が
ある。
【図面の簡単な説明】
【0016】
当業者であれば、図面が主として例示的な目的であること、そして本明細書に記載され
る本発明の主題の範囲を制限することを意図していないことを理解する。図面は必ずしも
一定の比率ではなく、一部の例では、本明細書に開示される本発明の主題の様々な態様は
、異なる特徴の理解を容易にするために図面内で誇張または拡大され得る。図面では、同
様の参照文字は一般的に、同様の特徴(例えば、機能的に類似した、および/または構造
的に類似した要素)を意味する。
【0017】
図1A図1Aは、プロセッサ実装された畳み込みニューラルネットワークと高速学習分類器によるデータストリームのタグ付けおよびラベル付けに関するオンラインのインクリメンタルリアルタイム学習のプロセスを示す。
【0018】
図1B図1Bは、本発明のスマートタグ付けシステムを用いて、一つ以上の画像(例えば、データベース内のビデオまたは画像のフレーム)におけるオブジェクトにタグ付けする動作ワークフローを示す。
【0019】
図2図2A~2Dは、ユーザの視点からの発明のスマートタグ付けシステムの動作ワークフローを示す。
【0020】
図3図3は、ユーザタグが第一のオブジェクトの第一のインスタンスにタグ付けした後の例示的実装のスクリーンショットを示す。
【0021】
図4図4は、システムが前のステップから学習をして第一のオブジェクトの第二のインスタンスをタグ付けするためのユーザへの示唆を行った後の、例示的実装のスクリーンショットを示す。
【0022】
図5図5は、ユーザがシステムによって作成された提案を修正した後の、例示的実装のスクリーンショットを示す。
【0023】
図6図6は、ビデオまたは他の画像データの同じフレームまたは異なるフレーム内のユーザ選択オブジェクトに類似したオブジェクトに自動的にタグ付けすることができるスマートタグ付けユーティリティの実装の模式的な概略である。
【発明を実施するための形態】
【0024】
深層ニューラルネットワークおよび畳み込みニューラルネットワークを含むバックプレ
ーシングベースのニューラルネットワークの能力は、これらのアーキテクチャの性能を高
めて検証する大量のトレーニングおよびテストデータの利用可能性に依存する。しかし、
大量のラベル付けされたかまたはタグ付けされたデータを作成するのは、手動で、煩雑か
つ高コストのプロセスである。
【0025】
本出願は、データストリーム(例えば、赤/緑/青(RGB)画像、ポイントクラウド
データ、IR画像、ハイパースペクトル画像またはこれらもしくは他のデータの組合せ)
において識別されて、位置検出されるべき関心オブジェクトに自動的にタグ付けするか、
注釈を付けるかまたは、ラベルを付けることに関係する。これらのタグ付けされたデータ
ストリームの一つの使用法は、適切なトレーニングのために何千もの画像を使用するバッ
クプロパゲーションベースの深層ニューラルネットワークを含む管理されたニューラルネ
ットワークのトレーニングおよびテスト中に利用される、トレーニングおよびグラウンド
トゥルースデータを作成することである。「注釈付け」、「ラベル付け」、および「タグ
付け」という用語は、本文書で互換的に使用される。「高速学習」という用語は、本出願
いおいて、異なるバックプロパゲーションが、例えば単一の例から、前に提示されたデー
タ(のすべて)について全体システムを再トレーニングすることを必要とせずに、インク
リメンタルにアップデートされることができる方法を記載するために使用される。高速学
習は「バッチ」トレーニングと対照的であり、オブジェクトの単一の新しいインスタンス
を学習するためにさえデータの大きなコーパスの反復表現を含む。
【0026】
本明細書に記述した技術は、自動化されたリアルタイムの高速学習ステップを導入する
ことによって、手動でデータにラベル付けする正確性を加速および改善する。この高速学
習は、タグ付けされた項目の第一のインスタンスと同じ画像、後続の画像、またはその両
方において、タグ付けされた項目の後続の出現のための候補タグを提案する。逆に、デー
タをタグ付けする現在の技術は、各フレーム(例えば、ビデオストリームのフレーム)の
関心のオブジェクトのそれぞれにラベル付けしている人間に依存する。
【0027】
本発明の方法は、ユーザに対するインタラクティブな支援を導入する。このインタラク
ティブな支援は、スマートタグ付けシステムまたはユーティリティとも呼ばれるニューラ
ルネットワークベースの自動アシスタントの形態であり、データのラベル付けにおける人
間のプロセス中に新たなタグを高速に学習する能力がある。自動のアシスタントは、新し
いデータのためのラベル付けまたはラベルの示唆を行い、その示唆されたラベルに対する
ユーザから修正を受け、ユーザが自動のアシスタントによってなされるあり得る誤りを修
正し続ける際に、反復的に自動ラベル付けの質を精緻化する。これにより、システムがそ
れ自体上のより多くの作業を行い、それが学習したことをユーザから遠ざけるとともに、
ユーザが関心対象の新しいオブジェクトに集中し、自動タグの検証を行うことができると
いう利点がある。結果として、タグ付けプロセスは、より多くの画像が処理されるにつれ
てより高速となる。我々の研究は、単純な人間のタグ付け者に対して最大40%のタグ付
け速度の改善を示しており、言い換えれば、発明のスマートタグ付けユーティリティでの
支援は、これまで画像にタグ付けしたことのない者の手動タグ付けの40%である。
【0028】
図1Aは、このタグ付けプロセス10の実施例を示す。
1.ユーザは、フレーム1のオブジェクトの第一のインスタンスにタグ付けする(例え
ば、図1Aの12で)。例えば、ユーザは、境界ポリゴンを描画することができ、フレー
ム1上のオブジェクト、例えば、木にタグ付けすることができる。
2.スマートタグ付けユーティリティの一つ以上のプロセッサ上で実行される分類器は
、タグ付けされたオブジェクトを表す特徴をユーザによって定義されたタグと関連付ける
ことによって、(例えば、図1Aの14で)オブジェクトの第一のインスタンスを学習す
る。ステップ1(木のタグ付け)の例では、分類器はタグ付け直後に木を学習する。
3.プロセッサは、(例えば、図1Aの16で)オブジェクトの後続のインスタンスに
タグ付けすることができる。例えば、プロセッサによって実行される畳み込みニューラル
ネットワークは、(例えば、図1Aの18で)フレームからの特徴を抽出することができ
る。分類器は、(例えば、図1Aの20で)抽出された特徴をユーザ定義タグと関連付け
られた抽出された特徴に対するそれらの類似性に基づいて分類する。例えば、プロセッサ
は、フレーム1の他の木にタグ付けすることができる。異なる場合、ニューラルネットワ
ークはフレーム1から他の木の特徴を抽出し、分類器はそれらを適切に分類する。各木は
、境界ポリゴンに関連付けられた信頼値を有し、いくつかの視覚的表示(例えば、境界ポ
リゴンの色、点線または破線の境界ポリゴン輪郭など)を介して、他の、手動でラベル付
けされたオブジェクトと区別され得る。信頼値は、関心オブジェクトの分類またはトラッ
キングのためのいくつかの方法によって割り当てることができ、ここで、信頼度は、例え
ば、0と1の間のスカラーであり得て、そこで、1は関心オブジェクトが特定のクラスに
属するという絶対信頼度を示す。特定のオブジェクトは、クラスの階層と関連付けられた
確率の分布を有することができる。例えば、オブジェクトは、木として、またプラントと
して同時に分類され得る。
4.必要に応じて、22で、ユーザはラベルを調整するかまたはフレーム1の機械が生
成する境界ポリゴンの位置または形状を編集し、分類器は高速学習を利用してその知識を
更新して、ユーザによってまだ検証されていないフレーム1のオブジェクトの提案を更新
する。これにより、必要に応じて、オブジェクトがフレーム1で充分にタグ付けされるま
で、フレーム1のタグ付けされたオブジェクトを自動的にアップデートすることができる

5.ユーザはフレーム2をロードする。
6.スマートタグ付けユーティリティは、フレーム1において学習されるオブジェクト
がフレーム2に現れる場合、それらに自動的にタグ付けする。別の言い方をすれば、スマ
ートタグ付けユーティリティは、フレーム1のタグのいずれかがフレーム2のオブジェク
トにタグ付けする場合、ユーザの調整を考慮に入れて、オブジェクトを自動的にタグ付け
する。
7.必要に応じて、ユーザは、フレーム1に存在しない新しいオブジェクトを追加する
か、または次のフレームに進み、いずれの場合も、ステップ1~7で説明したプロセスは
、提供された画像の所望のオブジェクトがタグ付けされるまで、またはユーザがプロセス
を終了するまで、繰り返す。
【0029】
この方法は、矩形、ポリゴン、またはピクセルベースのタグ付けなど、いかなる関心領
域にも適用することができる。ポリゴンであるかピクセルベースのタグ付けにおいて、オ
ブジェクトの陰影は画像の領域よりはむしろ詳細に描写され、背景の領域がタグ付けされ
ているオブジェクトに含まれることができる、矩形であるかポリゴンのタグに関して「タ
ーゲットのピクセル」カウントを増加させる。
【0030】
様々な技術を採用して高速学習アーキテクチャを導入することができ、その中には、例
えば、
・別のニューラルネットワーク、サポートベクトル機械、または決定木などの、DNN
が高速分類器への入力としての役割を果たす機能セットを提供する、高速分類器を有する
DNNの組合せと、
・画像のターゲットサブセット(例えば、キーポイントトラッカ)上で短時間に初期化
できる特徴検出およびトラッキングプロセスと、
・上述した技術のいかなる組合せも含むことができるが、これに限定するものではない
【0031】
本発明の技術は、バックプロパゲーションベースのニューラルネットワーク、特にDN
Nのトレーニングのためのデータセットの効率的かつコスト効果の高い準備を可能にし、
さらに一般的に言えば、リアルタイムで自律走行車両、ドローンまたは他のロボットを制
御するなどの目的のためのデータ解析を実行する、並列型、分散方程式系の学習を合理化
する。
【0032】
より具体的には、本発明の技術の実施例は、データストリーム(例えば、フレーム)ま
たはフレームのシーケンスの特定のオブジェクトの各発生に手動でタグ付けするプロセス
、および、データセット準備と関連した手作業および経費を減らすことによってオブジェ
クトを最適に選択するプロセスを、改善するかまたは置き換える。
【0033】
[データストリームのタグ付けおよびラベル付けのためのインクリメンタルリアルタイ
ム学習のプロセス]
図1Bは、発明のスマートタグ付けシステムの動作プロセスのフローチャートを示す。
この例では、システムは画像に動作を行うが、それは異なったオブジェクトを有する人間
が理解可能な2D表現またはタグ付けされるべき関心領域を備え得るいかなるデータにも
同等によく動作を行うことができる。ユーザは、システムを開始し(100)、画像のセ
ットまたはビデオファイルをシステムへロードする。ビデオファイルの場合、追加の処理
ステップは、ビデオをキーフレームのシーケンスに分解して、冗長な画像の数を減らす。
この分解は、ビデオファイルにコード化されるキーフレーム情報を使用して自動的に行う
か、ユーザによって手動で行うか、またはその両方で行うことができる。画像のシーケン
スが準備できると、システムはタグ付けされていないフレームがあるかどうか調べ(10
5)、残ったものが無い場合、終了する(110)。タグ付けされるべきフレームがある
場合、システムは第一のフレームをロードして(115)、このフレームで特徴抽出を実
行する(120)。別の言い方をすれば、システムは第一のフレームをロードして、シス
テムの一つ以上のプロセッサ上のニューラルネットワークは畳み込み出力を抽出して、第
一のフレーム上の特徴を表す特徴ベクトルを作成する。特徴抽出の実施の詳細は、下記の
対応するセクションに概説されている。
【0034】
同時に、システムは、それがすでに知識を有するかどうかをチェックする(125)。
この知識は、抽出された特徴ベクトルと対応するラベルとの間の以前に学習した関連性の
セットを含み得る。以前に学習した知識が抽出された特徴ベクトルと対応するラベルとの
間の関連性を含む場合、一つ以上のプロセッサ上で実行される分類器は、抽出された特徴
ベクトルをそれぞれのラベルで分類する。抽出された特徴ベクトルを分類するために、シ
ステムは特徴マッチングを実施する。例えば、システムは、抽出された特徴ベクトルを、
システムに既知の特徴(および特徴ベクトル)(例えば、以前に学習された知識)と比較
する。比較は、抽出された特徴ベクトルとシステムにとって既知である特徴の間の特徴空
間の距離を計測する距離メトリック(例えば、関連した特徴空間のユークリッドノルム)
に基づいて実行される。次に、システムは差に基づいてオブジェクトを分類する。抽出さ
れた特徴とシステムの既存の知識の第一のオブジェクトのための特徴の間の差が閾値より
小さい場合、システムは特徴を潜在的な第一のオブジェクトとして分類する。距離と閾値
の間の実際の距離または差は、一致の品質を示す信頼値であり得るか、それを導き出すた
めに用いることができる。
【0035】
システムは、タグ付けセッションの後にこのような知識を保存することができ、この保
存された知識は新しいセッションの開始時にユーザによってロードされ得る。これは、現
在タグ付けされている画像のセットが、ユーザおよびシステムが以前タグ付けをした同じ
ドメインから来る場合、特に有用であり得る。知識が事前ロードされていない場合、シス
テムはフレームをユーザに表示し(130)、ユーザ入力を待つ(135)。システムに
以前の知識がない第一のフレームの場合、ユーザは、ユーザインターフェースを介して第
一の画像内のオブジェクトの一つ以上のインスタンスに手動でタグ付けする(140)。
ユーザが画像内の第一のオブジェクトの第一のインスタンスにタグ付けすると、システム
はタグ付けされたオブジェクトの機能および関連するラベルを学習する(145)。この
ステージに関係する高速学習分類器の詳細は、下記の対応するセクションに記載されてい
る。
【0036】
システムがフレーム内のタグ付けされたオブジェクトの特徴を学習した後、システムは
フレームを処理して、それがフレーム内の同じオブジェクトの他のインスタンスを発見す
ることができるかどうかをチェックする(150)。システムが以前のセッションから知
識を事前ロードした場合、第一のフレームが同じプロセスを通してユーザに表示される前
に、それが既知のオブジェクトを発見(150)しようとすることができることに留意さ
れたい。システムが画像で発見したオブジェクトのインスタンスについて、システムは、
アタッチされたラベルを有する境界ポリゴンを作成し(155)、境界ポリゴンを画像に
重畳し(160)、重畳された境界ポリゴンおよびタグを有する画像をユーザに表示する
(130)。いくつかの例では、システムが作成するタグにユーザが満足していない場合
、ユーザはユーザインターフェースを介してタグを調整することができる。分類器は、調
整されたタグを学習して、その知識を更新する。それから、内側のループ(170)は、
ユーザがこのフレーム用のタグ付けに満足するまで、ユーザが新しいオブジェクトを追加
して、システム予測を修正するのを継続する。ユーザが満足すると、システムはタグ付け
すべきフレームがまだ存在するかどうかチェックし(105)、存在する場合は、システ
ムは次のフレームをロードし(115)、特徴抽出を実行し(120)、内側のループ(
170)に再び入る。この場合、システムは少なくとも一つ前のフレームからの事前知識
を有するので、内側のループ(170)は、ワークフローの下側分岐を通して入ってきて
、システムはユーザにフレームを表示(130)する前に予測(150、155、160
)を行う、ということに留意する。
【0037】
プロセス全体は、画像がタグ付けされるまで、またはユーザがワークフローを終了する
まで続けられる。終了する前に、システムはこのセッションでユーザから取得した知識を
保存することができるので、次のセッションでそれを再利用できる。
【0038】
[ユーザの視点からの動作手順]
図2A~2Dは、ユーザの視点から図1Bの動作ワークフローを示す。システムは、図
2Aで示すように、いくつかの入力様式(例えば、マウス(200)またはタッチスクリ
ーン(210))をシステム操作の制御のため、そして、画像のタグ付けのためにユーザ
に提供することができる。タグ付けすべきフレームのシーケンスは、システムがインスト
ールされるローカルコンピュータ上の画像で占められるディレクトリ、画像で占められる
遠隔ディレクトリ、または画像のためのローカルであるか遠隔ファイル名を含んでいるプ
レーンテキストもしくはマークアップ文書のいずれかとして、あるいは一つ以上のビデオ
ファイルとして、ユーザによってロードされる。後者の場合、ビデオは、システムによっ
てキーフレームのシーケンスに分割される。いずれの場合でも、システムは、処理するフ
レームのシーケンス(220)が定義され、かつ最初のフレームがシステムにロードされ
ると動作準備ができて、その結果ユーザが画面上の画像を見る。ユーザが希望する場合、
ユーザは本明細書に記載されたシステムのトレーニングを受けたバージョンをロードし、
タグ付けプロセスをさらに速くし、タスクの手動部分を減少させることさえできる。
【0039】
図2Bにおいて、ユーザは、フレーム1の、例えば、矩形の境界ボックス(230)を
有する木を選択する。あるいは、候補領域を選択する他の方法が可能であり、例えば、ユ
ーザは図3~5に示すようにポリゴンを描くことができる。システムは、境界ポリゴンの
範囲内の特徴の組合せを学習し、特徴のその組合せをユーザにより提供されるラベル(例
えば、「木」)と関連付ける。学習プロセスは、例示実装において100ミリ秒以内に完
了する高速学習手順である。プロセスが非常に高速であるので、システムはフレームの同
じオブジェクトの他のまだタグ付けされていないインスタンスについてユーザに示唆を提
供することが可能である。この例示実装ではこれらの示唆はまた計算に100ミリ秒未満
しかかからないので、ユーザにとって非常にシームレスに、ユーザが一つのオブジェクト
にタグ付けし終わった直後に、システムは画像の同じオブジェクトの他のインスタンス(
240)のためのタグ付けを提案する。
【0040】
最初に、特に前にトレーニングを受けたシステムが事前ロードされていない場合、シス
テムによって作成された示唆(240)は、ユーザの観点からはかなりかけ離れている場
合がある。次に、ユーザは、完全に誤っている予測を拒否し、正しい境界ポリゴンのため
に誤っているラベルを調整し、図2Cに示すように正しいラベルのための分類器によって
示唆される境界ポリゴンを調整し、および/または、正しい提案を受け入れることができ
る。プロセスを単純化するために、分類器(240、260)によって示唆される境界ポ
リゴンは点線で表示することができ、ユーザの元のタグ付け(230、270)および受
入れられた修正(250)は、図2Cおよび2Dに示すように破線または実線で表示する
ことができる。受け入れられた修正は、オブジェクトの特定クラスをさらに精緻化し再ト
レーニングしてタグ付けへのさらなる示唆を改善するためにシステムが用いることができ
る、別の入力を構成する。
【0041】
次に、プロセスは、図2Dに示すように、後続フレームについて継続し、ここで、新し
いオブジェクト(270)はユーザによってタグ付けされることができ、前にタグ付けさ
れたオブジェクト(260)は、システムが、それが画像にマークするオブジェクトに対
するその示唆においてどの程度確信しているかについて示すそれらの関連するクラスおよ
び信頼値によって視覚化され得る。システムがますますトレーニングされるにつれて、ユ
ーザとの対話処理は、主に示唆を修正することから、システムによりなされる示唆を受け
入れることにシフトし、それは、手動で画像にタグ付けするよりも、著しく労力が少なく
、かつ非常により高速なものである。単純なタグ付け者に対してはテストデータセットの
全体的なタグ付け速度は最高40%の増加が見られ、専門のタグ付け者に対してはより急
激ではないが著しい増加が見られた。
【0042】
図3~5は、例示のスマートタグ付けシステムのグラフィカルユーザインターフェース
からのスクリーンショットを提供する。ユーザは、手動タグ付けツール(300)を起動
し、既存のラベルのリストからラベルを選択するか、新規なラベルを作成し、第一の自転
車に乗る人(310)の周りにポリゴンを描画する。ポリゴンの色は、この例で選択した
ラベルを表す。このポリゴンは手動で作成されたため、それは承認された状態(320)
を自動的に得る。これらのアクションの結果を図3に示す。それから、スマートタグ付け
システムの高速分類器は、ポリゴン(310)の範囲内の特徴を学習し、それらを第一の
自転車に乗る人のためのユーザのラベルと関連付ける。次に、システムはフレーム全体の
特徴を見て、画像内の別の自転車に乗る人を発見して、それ(400)の周辺でポリゴン
を作成することを試み、図4に示すように他の自転車に乗る人の上に重畳されたポリゴン
をユーザに示す。ポリゴンがシステムによって作成されるため、それは提案の信頼値とと
もに「提案された」とマークされる(410)ことに留意する。最後に、図5は、ユーザ
が手動修正ツール(300)を再起動させて、第二の自転車に乗る人(500)のための
ポリゴンをアップデートしたこと、そして、それが現在承認されたラベル(510)を得
ていることを示す。ユーザは、ここで必要に応じてフレームの他のオブジェクトにタグ付
けすることができるか、矢印ボタン(530)を使用して次のフレームへ行くことができ
るか、または、「タグ付け完了」ボタン(540)を押すことによってセッションを完了
することができる。
【0043】
[スマートタグ付けシステム]
図6は、本明細書に記載されるスマートタグ付けユーティリティを実装するためのハー
ドウェア構成である、スマートタグ付けシステムを示す。感覚情報(例えば、RGB、赤
外線(IR)、および/またはLIDAR画像)は、ロボット、ドローン、自動運転車両
、玩具ロボット、工業用ロボット、および/またはその他の装置(610)に由来する。
代替的な実施形態は、単離されたかまたはネットワーク化されたセンサ(例えば、カメラ
、LIDAR620)からのデータを導き出し得る。さらに、データは既存のデータベー
ス(630)内に編成されてもよい。データは、ユーザ(640)がデータ(画像)を視
覚化し、画像にタグ付けし、タグ付けされた画像を視覚化し、必要に応じてタグを調整す
るために使用できるユーザインターフェース(650)を装備したコンピューティング装
置に送信される。コンピューティング装置は、デジタル信号処理ユニット、フィールドプ
ログラマブルゲートアレイ(FPGA)、中央処理装置(CPU)、グラフィック処理ユ
ニット(GPU)、および/または図1Bのワークフローを実施するのに十分なこれらの
プロセッサの組合せなどの一つ以上のプロセッサまたは処理ユニット(670)を備えた
、モバイルデバイス(例えば、スマートフォン、タブレット、ラップトップ)、デスクト
ップ、またはサーバとすることができる。これらの処理ユニット(670)は、タグを学
習して自動的に適用および調整する特徴抽出部および分類器を実装するために使用され得
る。いくつかのソフトウェアモジュールを含むアーキテクチャは、メモリ(680)に保
存され、実行のために処理ユニット(670)にロードされ得る。タグ付けされた画像は
、ユーザ(640)に表示するためにUI(650)で視覚化され、別個のデータベース
(660)内に保存することができる。
【0044】
[特徴抽出モジュール]
特徴解析モジュール(図6の120、図1の672)は、本明細書に記載される自動ス
マートタグ付けシステムの二つのコア構成要素の一つである。それは、表示された形式で
システムへの入力を受信する。システムのグラフィカルユーザインターフェースでの視覚
化およびタグ付けの便宜のために、生の外部入力の2D表現が好ましいが、それは入力様
式を視覚映像だけに制限はしない。音は高速フーリエ変換の後2Dで表現することができ
、他の入力様式は他の手段によって2D表現にすることができる。テキスト入力は、テキ
ストとして表示し、システムに供給することができる。仮想および拡張現実システムなど
の3Dディスプレイの進歩により、システムが3Dデータの受け入れとタグ付けを行うこ
とが可能になる。
【0045】
特徴抽出モジュールの出力は、特徴ベクトルのセットである。タグ付けの性質に応じて
、特徴ベクトルのセットは、(例えば、シーンの認識のために画像全体が一度にタグ付け
される単純なケースにおける)画像当たりの一つの特徴ベクトル、またはこれらの特徴が
見つかる画像の関連する領域を有する複数の特徴ベクトルであることができる。これらの
領域は、タグ付けプロセスの最終的な目的に応じて、矩形の境界ボックス、より複雑な形
のポリゴンまたはピクセル的なマスクとさえ同じ程度に単純でありえる。
【0046】
本明細書に記載の例示的実装は、特徴抽出のための深層畳み込みニューラルネットワー
クを使用する。畳み込みニューラルネットワーク(CNN)は畳み込みユニットを使用し
、ここでユニットフィルタ(重みベクトル)の受容フィールドは、入力の高さおよび幅寸
法全体に段階的に移動される。各フィルターは小さいため、パラメータの数は完全に接続
された層と比較して大幅に減少する。オブジェクトが一つの空間位置にあるときにそのオ
ブジェクトのために特徴のセットが抽出され得る場合、特徴の同じセットは、オブジェク
トを含む特徴がオブジェクトの空間位置から独立しているので、それが他のいかなる空間
位置にも現れるときに、同じオブジェクトのために抽出され得る。これらの不変性は、入
力のコード化が視覚の変化に対する向上した安定度を持ち、その意味は、入力が変化する
(例えば、オブジェクトが、画像フレームにおいてわずかに並進して、回転する)につれ
て、出力値は入力値よりも非常に小さくしか変化しない、という特徴空間を提供する。
【0047】
畳み込みニューラルネットワークは一般化も得意である。一般化とは、トレーニングを
受けた様式内で、トレーニングを受けたデータと同一ではないテストデータに対してネッ
トワークが類似の出力を生成できることを意味する。クラス特有の特徴のセットを定義す
る主要な規則性を学習するには、大量のデータが必要である。ネットワークが多くのクラ
スでトレーニングされている場合、フィルターがクラス間で共有される下位層は、同じ様
式の入力に対する良好な規則性のセットを提供する。したがって、一つのタスクについて
トレーニングを受けたCNNは、他のタスクの初期化として使用される場合、または下位
層が新しい高レベルの表現のプロセッサとして使用される場合、優れた結果を提供できる
。例えば、自然の画像は統計的特性の共通セットを共有する。下位層の学習された特徴は
かなりクラスから独立しているので、それらは、ユーザがタグ付けしようとしているクラ
スが、CNNが関係していたクラスの一つでない場合であっても、再利用することができ
る。それは、これらの特徴ベクトルを取り込んで、それらをシステムの高速学習分類器部
分(図1Bの150)への入力として供給するのに十分である。
【0048】
タグ付けプロセスのターゲットの最終結果に応じて、異なるCNNは特徴抽出器として
機能することができる。全体のシーンの認識のために、Alexnet、GoogLeN
etまたはResNetのバージョンが、利用可能なハードウェアの計算能力に応じて使
用できる。平均プーリング層は、画像の位置全体にプーリングしてシーン特徴ベクトル全
体を作成するために、これらのネットワークの最後の特徴層の後に追加されなければなら
ない。システムがトレーニング検出ネットワークのデータセットを作成するために使用さ
れる場合、同じネットワークが平均プーリングなしで用いられることができ、または、f
RCNNのような領域提案ネットワークがより良い空間的精度のためにその代わりに使わ
れることができる。画像セグメンテーションがターゲットである場合、Mask RCN
N、FCNまたはU-Netのようなセグメンテーションネットワークが特徴抽出および
マスク生成のために使用できる。これらのマスクは、表示および修正のためにポリゴンに
変換できる。図3~5に示される例示的な実装に対して、FCNのカスタムメイドのバー
ジョンが使用された。
【0049】
特徴抽出モジュールの代替的な実装は、限定するものではないが、スケール不変特徴変
換(SIFT)、高速化頑強特徴(SURF)、Haar-like特徴検出器、次元縮
退、構成要素分析、及びその他のものであって、システムタグ付けすることを必要とする
異なるオブジェクトに対して十分に明瞭であり、十分に高速に動作することができるので
システムが特徴セットを計算する一方でユーザは目立つほどの時間の間待つことのない、
特徴ベクトルを作成するものである限り、特徴抽出のためのいかなる適当な技法も、使用
することができる。
【0050】
[高速学習分類器モジュール]
高速学習分類器モジュール(図1Bの150、図6の674)は、特徴抽出モジュール
図1Bの120)によって作成される特徴ベクトルを取り込み、分類または特徴マッチ
ングを実行して、特徴の所与のセットごとに、クラスラベルを出力する。一つの例示的な
実装は、単純なテンプレートマッチングとすることができ、システムは、既知のオブジェ
クトごとにユーザ入力に基づいて得られるテンプレート特徴ベクトルを格納する。特徴ベ
クトルの入力セットが提示される場合、これらのベクトルの各々は、現在の入力とテンプ
レートとの間の差異を測定するために、いくつかの距離メトリック(例えば、関連特徴空
間のユークリッドノルム)に基づいてテンプレートベクトルと比較される。次に、分類器
は、可能性のあるオブジェクトとして設定された閾値より小さい差分メトリックを有する
特徴ベクトルをマークする。距離の逆数の値は、この分類スキームの信頼度測定値として
機能することができる。
【0051】
高速学習に従う他の技術はこのテンプレートマッチング技術のための分類器で置換され
ることができ、その技術には、回帰分析法(例えば、直線回帰、ロジスティック回帰、ミ
ニマックス分析)、カーネル方法(例えば、サポートベクトルマシン)、ベイズモデル、
アンサンブル方法(例えば、専門家のアンサンブル)、決定木(例えば、インクリメンタ
ル決定木、超高速決定木およびその派生物)、適応共鳴理論ベースのモデル(例えば、F
uzzy ARTMAP)および線形差別的オンラインアルゴリズム(例えば、オンライ
ンの受動的積極的アルゴリズム)を含む。例えば、図3~5に示される実装は、高速学習
のための変更されたARTMAPを使用する。変更は、ARTMAPの順序従属性を減ら
して、統計整合性を改善して、それが新しいオブジェクトを学習するにつれてシステムメ
モリのフットプリントの成長を減らす。
【0052】
[結論]
本明細書において様々な発明的実施形態が記述され、例示されてきたが、当業者は、本
明細書に記載の機能を実施および/または結果ならびに一つ以上の利点を得るための様々
な他の手段および/または構造を容易に展開することができ、かかる変形および/または
変更の各々は、本明細書に記載の発明の実施形態の範囲内であると見なされる。より一般
的に言えば、当業者は、本明細書に記載されるすべてのパラメータ、寸法、材料、および
構成が、例示的であり、実際のパラメータ、寸法、材料、および/または構成が特定の用
途または本発明の教示が使用される用途に依存することを容易に理解するであろう。当業
者は、本明細書に記載される特定の発明的実施形態に対する多数の同等物を通常の実験を
用いて認識することができ、または確認することができる。したがって、前述の実施形態
は、例としてのみ提示され、添付した請求項およびその同等物の範囲内で、本発明の実施
形態が特に記載され特許請求の範囲で特に記載されている以外にも実施され得ることを理
解されたい。本開示の発明的実施形態は、本明細書に記載される個々の特徴、システム、
物品、材料、キット、および/または方法を対象とする。さらに、二つ以上のこうした特
徴、システム、物品、材料、キット、および/または方法の任意の組み合わせは、こうし
た特徴、システム、物品、材料、キット、および/または方法が相互に矛盾しない場合、
本開示の本発明の範囲内に含まれる。
【0053】
上述の実施形態は、多数の方法のいずれかで実施することができる。例えば、本明細書
に開示される技術の実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わ
せを使用して実施されてもよい。ソフトウェアで実装される場合、ソフトウェアコードは
、単一のコンピュータに提供されているか、複数のコンピュータの間で分散されているか
どうかにかかわらず、任意の適切なプロセッサまたはプロセッサの集合で実行され得る。
【0054】
さらに、コンピュータは、ラック搭載型コンピュータ、デスクトップコンピュータ、ラ
ップトップコンピュータ、またはタブレット型コンピュータなど、多数の形態のいずれか
で具体化され得ることが理解されるべきである。加えて、コンピュータは、パーソナルデ
ジタルアシスタント(PDA)、スマートフォンまたはその他任意の適切な携帯型または
固定電子装置を含む、コンピュータとして一般的に見なされるが、適切な処理能力を持つ
装置内に埋め込まれてもよい。
【0055】
また、コンピュータは一つ以上の入力および出力デバイスを有し得る。これらの装置は
、とりわけ、ユーザインターフェースを提示するために使用することができる。ユーザイ
ンターフェースを提供するために使用できる出力装置の例としては、出力およびスピーカ
ーの視覚的表現、または出力の可聴表現のためのその他の音声発生装置のプリンターまた
はディスプレイ画面が挙げられる。ユーザインターフェースに使用できる入力装置の例に
は、キーボード、およびマウス、タッチパッド、およびデジタイザタブレットなどのポイ
ンティング装置が含まれる。別の例として、コンピュータは、発言認識または他の可聴フ
ォーマットで入力情報を受信してもよい。
【0056】
こうしたコンピュータは、ローカルエリアネットワーク、またはエンタープライズネッ
トワークなどの広域ネットワーク、インテリジェントネットワーク(IN)またはインタ
ーネットなど、任意の適切な形態の一つ以上のネットワークによって相互接続されてもよ
い。こうしたネットワークは、任意の適切な技術に基づいてもよく、任意の適切なプロト
コルに従って動作してもよく、無線ネットワーク、有線ネットワーク、または光ファイバ
ーネットワークを含んでもよい。
【0057】
本明細書に概説した様々な方法またはプロセスは、様々なオペレーティングシステムま
たはプラットフォームのうちのいずれか一つを用いる一つ以上のプロセッサに実行可能な
ソフトウェアとしてコード化されてもよい。さらに、こうしたソフトウェアは、多数の適
切なプログラミング言語および/またはプログラミングまたはスクリプトツールのいずれ
かを使用して記述されてもよく、またフレームワークまたは仮想マシン上で実行される実
行可能な機械コードまたは中間コードとしてコンパイルされてもよい。
【0058】
これに関して、様々な発明の概念は、一つ以上のコンピュータまたは他のプロセッサ上
で実行された場合に、上述の本発明の様々な実施形態を実施する方法を実行する一つ以上
のプログラムによってコード化されるコンピュータ可読記憶媒体(または複数のコンピュ
ータ可読記憶媒体)(例えば、コンピュータメモリ、一つ以上のフロッピーディスク、コ
ンパクトディスク、光ディスク、磁気テープ、フラッシュメモリ、フィールドプログラマ
ブルゲートアレイもしくは他の半導体デバイスの回路構成または他の非一時的媒体もしく
は有形のコンピュータ記憶媒体)として具現化され得る。コンピュータ可読媒体または媒
体は、上述のように、その上に保存されたプログラムまたはプログラムを一つ以上の異な
るコンピュータまたは他のプロセッサにロードして、本発明の様々な態様を実施すること
ができるように、移動可能であり得る。
【0059】
「プログラム」または「ソフトウェア」という用語は、本明細書では、上述のように、
コンピュータまたは他のプロセッサをプログラムするために使用することができる任意の
タイプのコンピュータコードまたはコンピュータ実行可能命令のセットを一般的に意味す
るために本明細書で使用される。さらに、当然のことながら、一態様によると、実行され
る本発明の方法を実行する一つ以上のコンピュータプログラムは、単一のコンピュータま
たはプロセッサ上に属する必要はなく、本発明の様々な態様を実施するための多数の異な
るコンピュータまたはプロセッサの間でモジュール形式で分散されてもよい。
【0060】
コンピュータ実行可能命令は、一つ以上のコンピュータまたは他のデバイスによって実
行されるプログラムモジュールなどの多くの形態であってもよい。一般に、プログラムモ
ジュールには、特定のタスクを実行する、または特定の抽象データタイプを実装するルー
チン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。通常は
、プログラムモジュールの機能は、様々な実施形態において望ましいように組み合わせら
れてもよく、または分散されてもよい。
【0061】
また、データ構造は、任意の適切な形態でコンピュータ可読媒体内に保存されてもよい
。例示の簡略化のために、データ構造は、データ構造の位置に関連するフィールドを有す
るように示されてもよい。このような関係は、フィールド間の関係を伝えるコンピュータ
可読媒体内の位置を有するフィールドの記憶を割り当てることによって同様に達成され得
る。しかしながら、データ要素間の関係を確立するポインタ、タグまたはその他の機構を
使用することを含む、データ構造のフィールドの情報間の関係を確立するために適切な任
意の機構を使用し得る。
【0062】
また、様々な発明の概念が、一つ以上の方法として具現化されてもよく、その例が提供
されている。方法の一部として実行される動作は、任意の適切な方法で順序付けられ得る
。したがって、動作が例示されるものとは異なる順序で実行される実施形態を造ることが
でき、それは、例示的実施形態において連続的動作として示されている場合であっても、
いくつかの動作を同時に実行することを含むことができる。
【0063】
本明細書で定義および使用されるすべての定義は、辞書定義、参照により組み込まれる
文書の定義、および/または定義された用語の通常の意味を統制するものと理解されるべ
きである。
【0064】
本明細書および請求項で使用される場合、不定冠詞「a」および「an」は、明確にそ
うでないと示されない限り、「少なくとも一つ」を意味すると理解されるべきである。
【0065】
本明細書および請求項で使用される場合、「および/または」という語句は、結合され
た要素の「いずれかまたは両方」を意味し、すなわち、一部の場合においては結合的に存
在し、他の場合には分離的に存在する要素を意味すると理解されるべきである。「および
/または」で挙げられる複数の要素は、同じ形態で、すなわち、結合された要素の「一つ
以上」であると解釈されるべきである。その他の要素は、具体的に識別される要素に関連
するかまたは関連しないかに関わらず、「および/または」節によって識別される要素以
外に随意に存在してもよい。したがって、非限定的な例として、「Aおよび/またはB」
に対する参照は、「含む」などの制限のない語法と連動して使われるときに、一実施形態
においては、Aのみ(任意選択的にB以外の要素を含む)を指すことができ、別の実施形
態においては、Bのみ(任意選択的にA以外の要素を含む)を指すことができ、また別の
実施形態においては、AおよびB両方(任意選択的に他の要素を含む)を指すことができ
るなどである。
【0066】
本明細書および請求項において使用される場合、「または」は、上記で定義された「お
よび/または」と同じ意味を有すると理解されるべきである。例えば、リスト内の項目を
分離するとき、「または」または「および/または」は包括的なものとして解釈され、す
なわち、多数の要素のまたは要素のリスト、および随意にリストに無い追加の項目、のう
ち少なくとも一つを含むが、二つ以上も含むものとして解釈される。それとは反対に明確
に指示した用語だけ、例えば「のうち一つだけ」、もしくは「のうち正確に一つ」、また
は請求項において使われるときに、「から成る」という用語だけは、多数の要素またはリ
ストの要素のうち正確に一要素の包含を指す。一般に、本明細書で使用される場合、「ま
たは」という用語は、排他性の用語、例えば、「いずれか」、「のうち一つ」、「のうち
一つだけ」または「のうち正確に一つ」が先行するときには、排他的な代替物(すなわち
「両方ともでなくどちらか一方」)を示すとしか解釈されない。「から基本的に成る」は
、請求項において使用される場合、特許法の分野において使用される通常の意味を有する
ものとする。
【0067】
本明細書で使用される場合、「約」および「およそ」という用語は、記述された値のプ
ラスマイナス10%を一般的に意味する。
【0068】
本明細書および請求項で使用される場合、一つ以上の要素のリストを参照する「少なく
とも一つ」という語句は、要素のリストの要素のいずれか一つ以上から選択される少なく
とも一つの要素を意味するが、しかし、必ずしも要素のリストの範囲内で具体的に列挙し
たそれぞれのどの要素の少なくとも一つも含むというわけではなく、また要素のリストの
いかなる要素の組合せも除外するものではない、と理解されるべきである。この定義はま
た、「少なくとも一つ」というフレーズが指す要素のリストの範囲内で具体的に識別され
る要素以外の要素が、具体的に識別される要素に関連があるか関連が無いかにかかわらず
、任意に存在し得ることを許容する。したがって、非限定的な例として、「AおよびBの
うち少なくとも一つ」(または、等価的に、「AまたはBのうち少なくとも一つ」、また
は、等価的に「Aおよび/またはBのうち少なくとも一つ」)は、一実施形態においては
、Bは存在せず、少なくとも一つの、任意選択的には二つ以上を含むA(任意選択的にB
以外の要素を含む)を指すことができ、別の実施形態においては、Aは存在せず、少なく
とも一つの、任意選択的には二つ以上を含むB(任意選択的にA以外の要素を含む)を指
すことができ、また別の実施形態においては、少なくとも一つの、任意選択的には二つ以
上を含むA、および少なくとも一つの、任意選択的には二つ以上を含むB(および、任意
選択的に他の要素を含む)を指すことができるなどである。
【0069】
請求項ならびに、上記の明細書で、すべての移行語句、例えば「含む(compris
ing)」、「含む(including)」、「運ぶ」「有する」、「含む(cont
aining)」、「含む(involving)」、「保持する」、「構成される」お
よび同様のものは、制限がないと理解され、すなわち、含むがそれに限定はされないとい
うことを意味する。「から成る」および「実質的に成る」という移行語句のみが、米国特
許庁特許審査基準、セクション2111.03に記載されている、それぞれ閉鎖的または
半閉鎖的な移行の語句であるものとする。
図1A
図1B
図2
図3
図4
図5
図6
【手続補正書】
【提出日】2023-04-17
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像のシーケンスにタグ付けする方法であって、
ユーザによって、画像のシーケンスの第一の画像のオブジェクトの表現の第一のインスタンスにタグ付けするステップと、
少なくとも一つのプロセッサ上で実行される高速学習分類器によって、前記第一の画像において前記ユーザによってタグ付けされた前記オブジェクトの表現を、それまでに前記高速学習分類器に提示されたデータに関して前記高速学習分類器が再トレーニングされることなく学習するステップと、
前記少なくとも一つのプロセッサによって、画像の前記シーケンスの前記オブジェクトの前記表現の第二のインスタンスにタグ付けするステップと、
前記ユーザによって、前記少なくとも一つのプロセッサによって作成される前記オブジェクトの前記表現の前記第二のインスタンスのタグおよび/または位置の調整を実行するステップと、
前記少なくとも一つのプロセッサによって、前記調整に基づいて、画像の前記シーケンスの前記オブジェクトの前記表現の第三のインスタンスにタグ付けするステップと
を含む方法。
【請求項2】
前記オブジェクトの前記表現の前記第二のインスタンスが画像の前記シーケンスの前記第一の画像にある、請求項1に記載の方法。
【請求項3】
前記オブジェクトの前記表現の前記第二のインスタンスが画像の前記シーケンスの別の画像にある、請求項1に記載の方法。
【請求項4】
前記ユーザによって、前記少なくとも一つのプロセッサによって作成される前記オブジェクトの前記表現の前記第三のインスタンスのタグおよび/または位置の調整を実行するステップと、
前記少なくとも一つのプロセッサによって、前記オブジェクトの前記表現の前記第三のインスタンスのタグおよび/または位置の前記調整に基づいて、画像の前記シーケンスの前記オブジェクトの前記表現の第四のインスタンスにタグ付けするステップと
をさらに含む請求項1に記載の方法。
【請求項5】
前記少なくとも一つのプロセッサ上で実行される前記高速学習分類器が、前記第一の画像の前記ユーザによってタグ付けされた前記オブジェクトの前記表現を分類するステップをさらに含む請求項1に記載の方法。
【請求項6】
前記オブジェクトの前記表現の前記第三のインスタンスにタグ付けするステップが、
動作可能に前記高速学習分類器に連結されたニューラルネットワークによって、前記オブジェクトの前記表現の前記第三のインスタンスの特徴を表す畳み込み出力を抽出するステップと、
前記高速学習分類器によって、前記畳み込み出力に基づいて前記オブジェクトの前記表現の前記第三のインスタンスを分類するステップと
を含む、請求項5に記載の方法。
【請求項7】
前記オブジェクトの前記表現の前記第二のインスタンスにタグ付けするステップが、
前記少なくとも一つのプロセッサ上で実行されるニューラルネットワークによって、前記オブジェクトの前記表現の前記第二のインスタンスの特徴を表す畳み込み出力を抽出するステップと、
動作可能に前記ニューラルネットワークに連結された分類器によって、前記畳み込み出力に基づいて前記オブジェクトの前記表現の前記第二のインスタンスを分類するステップと
を含む、請求項1に記載の方法。
【請求項8】
画像のシーケンスにタグ付けするシステムであって、
ユーザが画像の前記シーケンスの第一の画像のオブジェクトの表現の第一のインスタンスにタグ付けすることを可能にする、ユーザインターフェースと、
前記ユーザインターフェースに動作可能に接続され高速学習分類器を実行し、前記第一の画像において前記ユーザによってタグ付けされる前記オブジェクトの表現を、それまでに前記高速学習分類器に提示されたデータに関して再トレーニングされることなく学習して、画像の前記シーケンスの前記オブジェクトの前記表現の第二のインスタンスにタグ付けする少なくとも一つのプロセッサと
を含み、
前記ユーザインターフェースは、前記ユーザが前記少なくとも一つのプロセッサによって作成される前記オブジェクトの前記表現の前記第二のインスタンスのタグおよび/または位置の調整を実行することを可能にし、前記高速学習分類器は、前記調整に基づいて画像の前記シーケンスの前記オブジェクトの前記表現の第三のインスタンスにタグ付けするように構成される、システム。
【請求項9】
ユーザインターフェースは、前記ユーザが前記少なくとも一つのプロセッサによって作成される前記オブジェクトの前記表現の前記第三のインスタンスのタグおよび/または位置の調整を前記ユーザによって実行することを可能にし、前記少なくとも一つのプロセッサは、前記オブジェクトの前記表現の前記第三のインスタンスの前記タグおよび/または位置の前記調整に基づいて、画像の前記シーケンスの前記オブジェクトの前記表現の第四のインスタンスにタグ付けするように構成される、請求項8に記載のシステム。
【請求項10】
前記オブジェクトの前記表現の前記第二のインスタンスが画像の前記シーケンスの前記第一の画像にある、請求項8に記載のシステム。
【請求項11】
前記オブジェクトの前記表現の前記第二のインスタンスが画像の前記シーケンスの第二の画像にある、請求項8に記載のシステム。
【請求項12】
前記高速学習分類器は、前記第一の画像の前記ユーザによってタグ付けされる前記オブジェクトの前記表現を分類するように構成される、請求項8に記載のシステム。
【請求項13】
前記プロセッサが、ニューラルネットワークを実装して、前記オブジェクトの前記表現の前記第二のインスタンスおよび前記オブジェクトの前記表現の前記第三のインスタンスのうち少なくとも一つに対応する特徴を表す少なくとも一つの畳み込み出力を抽出するようにさらに構成され、
前記分類器が、少なくとも一つの畳み込み出力に基づいて前記オブジェクトの前記表現の前記第二のインスタンスおよび前記前記オブジェクトの前記表現の前記第三のインスタンスのうち少なくとも一つを分類するように構成される、請求項12に記載のシステム。
【請求項14】
データストリームのオブジェクトにタグ付けする方法であって、
少なくとも一つのプロセッサ上で実行されるニューラルネットワークによって、データストリームからの第一の畳み込み出力を抽出するステップであって、前記データストリームはオブジェクトの第一のクラスの少なくとも二つの表現を含み、前記第一の畳み込み出力はオブジェクトの前記第一のカテゴリの第一の表現の特徴を表す、抽出するステップと、
前記ニューラルネットワークに動作可能に連結された分類器によって、前記第一の表現を前記第一の畳み込み出力に基づいてオブジェクトの前記第一のカテゴリに分類するステップと、
前記分類器に動作可能に結合されたユーザインターフェースを介して、前記第一のカテゴリに基づいて前記第一の表現のためのタグおよび/または位置を表示するステップと、
前記ユーザインターフェースを介してユーザによって、前記第一の表現のための前記タグおよび/または前記位置の調整を実行するステップと、
前記分類器によって、前記調整に基づいて前記オブジェクトの前記少なくとも一つの表現の前記タグおよび/または前記位置を、それまでに前記分類器に提示されたデータに関して前記分類器が再トレーニングされることなく学習するステップと
を含む方法。
【請求項15】
前記タグが第一のタグであり、前記位置が第一の位置であり、
前記ニューラルネットワークによって、第二の畳み込み出力を前記データストリームから抽出するステップであって、前記第二の畳み込み出力はオブジェクトの前記第一のカテゴリの第二の表現の特徴を表す、抽出するステップと、
前記分類器によって、前記第二の畳み込み出力ならびに前記第一の表現のための前記タグおよび/または前記位置の前記調整に基づいて前記第二の表現を前記第一のカテゴリに分類するステップと、
前記ユーザインターフェースを介して、前記第一のカテゴリに基づいて第二のタグおよび/または第二の位置を表示するステップと
をさらに含む請求項14に記載の方法。
【請求項16】
前記分類器によって、前記第一の表現の前記タグおよび/または位置が正しいという信頼値を決定するステップと、
前記信頼値を前記ユーザに表示するステップと
をさらに含む請求項14に記載の方法。
【請求項17】
前記オブジェクトが第一のオブジェクトであり、前記タグが第一のタグであり、
前記分類器によって、オブジェクトの第二のカテゴリのための第二のタグを学習するステップであって、前記データストリームがオブジェクトの前記第二のカテゴリの少なくとも一つの表現を含む、学習するステップをさらに含む請求項14に記載の方法。
【請求項18】
前記ニューラルネットワークによって、後続のデータストリームから後続の畳み込み出力を抽出するステップであって、前記後続のデータストリームはオブジェクトの前記第二のカテゴリの少なくとも一つの他の表現を含み、前記後続の畳み込み出力はオブジェクトの前記第二のカテゴリの前記少なくとも一つの他の表現の特徴を表す、抽出するステップと、
前記分類器によって、前記後続の畳み込み出力および前記第二のタグに基づいてオブジェクトの前記第二のカテゴリの前記少なくとも一つの他の表現を前記第二のカテゴリに分類するステップと、
前記ユーザインターフェースを介して、前記第二のタグを表示するステップと
をさらに含む、請求項17に記載の方法。
【請求項19】
前記第一の畳み込み出力を抽出するステップが、
前記データストリームの第一の画像の複数の分割されたサブエリアを生成するステップと、
前記ニューラルネットワークによって、前記複数の分割されたサブエリアのそれぞれをコード化するステップと
を含む、請求項18に記載の方法。
【請求項20】
少なくとも一つのプロセッサであって、
第一の畳み込み出力をデータストリームから抽出するニューラルネットワークであって、前記データストリームはオブジェクトの第一のカテゴリの少なくとも二つの表現を含み、前記第一の畳み込み出力はオブジェクトの前記第一のカテゴリの第一の表現の特徴を表す、ニューラルネットワークと、
前記第一の畳み込み出力に基づいて前記第一の表現を前記第一のカテゴリに分類し、ユーザによる調整に基づいて前記オブジェクトの前記第一の表現のタグおよび/または位置を、それまでに提示されたデータに関して再トレーニングされることなく学習する高速学習モジュールと、を実装するように構成される、少なくとも一つのプロセッサと、
前記第一の表現のための前記タグおよび/または前記位置を表示して、前記ユーザが前記第一の表現の前記タグおよび/または前記位置の前記調整を実行することを可能にする、動作可能に前記少なくとも一つのプロセッサに結合されたユーザインターフェースと
を含むシステム。
【請求項21】
前記タグが第一のタグであり、
前記位置が第一の位置であり、
前記ニューラルネットワークが第二の畳み込み出力を前記データストリームから抽出するように構成され、前記第二の畳み込み出力はオブジェクトの前記第一のカテゴリの第二の表現の特徴を表し、
前記高速学習モジュールが、前記第二の畳み込み出力および前記オブジェクトの前記少なくとも一つの表現の前記第一のインスタンスのための前記第一のタグおよび/または前記第一の位置の前記調整に基づいて、前記第二の表現を前記第一のカテゴリに分類するように構成され、
前記ユーザインターフェースが前記第一のカテゴリに基づいて第二のタグおよび第二の位置を表示するようにさらに構成される、請求項20に記載のシステム。
【請求項22】
前記高速学習モジュールは前記第一のタグおよび/または前記第一の位置が正しいという信頼値を決定するように構成され、
前記ユーザインターフェースが前記ユーザに前記信頼値を表示するようにさらに構成される、請求項20に記載のシステム。
【請求項23】
前記タグが第一のタグであり、前記高速学習モジュールがオブジェクトの第二のカテゴリのための第二のタグを学習するようにさらに構成され、前記データストリームがオブジェクトの前記第二のカテゴリの少なくとも一つの表現を含む、請求項20に記載のシステム。
【請求項24】
前記ニューラルネットワークが後続のデータストリームから後続の畳み込み出力を抽出するようにさらに構成され、前記後続のデータストリームはオブジェクトの前記第二のカテゴリの少なくとも一つの他の表現を含み、前記後続の畳み込み出力はオブジェクトの前記第二のカテゴリの前記少なくとも一つの他の表現の特徴を表し、
前記高速学習モジュールが、前記後続の畳み込み出力および前記第二のタグに基づいてオブジェクトの前記第二のカテゴリの前記少なくとも一つの他の表現を前記第二のカテゴリに分類するようにさらに構成され、
前記ユーザインターフェースが前記第二のタグを表示するようにさらに構成される、請求項23に記載のシステム。
【請求項25】
前記ニューラルネットワークが、
前記データストリームの第一の画像の複数の分割されたサブエリアを生成し、
前記複数の分割されたサブエリアのそれぞれをコード化するようにさらに構成される、請求項20に記載のシステム。
【請求項26】
前記ユーザによってタグ付けがなされた前記第一の画像内のオブジェクトを学習する前に、
前記第一の画像における特徴ベクトルを抽出するステップと、
それまでに学習がなされた、前記特徴ベクトルの特徴と該特徴に対応するラベルとの関連付けをチェックするステップと
をさらに含む請求項1に記載の方法。
【請求項27】
前記高速学習分類器により、それまでに学習された前記関連付けに基づいて前記第一の画像内のオブジェクトを分類するステップをさらに含む請求項26に記載の方法。
【外国語明細書】