IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シー−アウト プロプライアタリー リミティドの特許一覧

<>
  • 特許-画像分類及びラベリング 図1
  • 特許-画像分類及びラベリング 図2
  • 特許-画像分類及びラベリング 図3
  • 特許-画像分類及びラベリング 図4
  • 特許-画像分類及びラベリング 図5
  • 特許-画像分類及びラベリング 図6
  • 特許-画像分類及びラベリング 図7
  • 特許-画像分類及びラベリング 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-21
(45)【発行日】2023-03-02
(54)【発明の名称】画像分類及びラベリング
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230222BHJP
   G06F 16/55 20190101ALI20230222BHJP
   G06N 3/08 20230101ALI20230222BHJP
【FI】
G06T7/00 350C
G06F16/55
G06N3/08
【請求項の数】 20
(21)【出願番号】P 2021105527
(22)【出願日】2021-06-25
(62)【分割の表示】P 2018558501の分割
【原出願日】2017-02-01
(65)【公開番号】P2021168162
(43)【公開日】2021-10-21
【審査請求日】2021-06-25
(31)【優先権主張番号】62/289,902
(32)【優先日】2016-02-01
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518272360
【氏名又は名称】シー-アウト プロプライアタリー リミティド
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100114018
【弁理士】
【氏名又は名称】南山 知広
(72)【発明者】
【氏名】サンドラ モー
(72)【発明者】
【氏名】サベサン シバパラン
【審査官】山田 辰美
(56)【参考文献】
【文献】国際公開第2015/035477(WO,A1)
【文献】M SAITO et al.,Illustration2Vec: A Semantic Vector Representation of Illustrations,SIGGRAPH Asia 2015 Technical Briefs,米国,ACM,2015年,p.1-p.4,https://dl.acm.org/doi/pdf/10.1145/2820903.2820907
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06F 16/55
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
1以上の画像分類モデルを使用して画像を分類する方法であって、
複数の訓練画像のうちの1以上の訓練画像が2以上のラベルと関連付けられており、各ラベルが1つの画像分類クラスに対応し、前記ラベルが階層構造を有する、前記ラベルに関連する訓練画像を処理ユニットによって取得することと、
前記訓練画像と前記訓練画像に関連する階層構造ラベルを使用して少なくとも2つの畳込みニューラルネットワークを前記処理ユニットによって訓練し、個々の畳込みニューラルネットワークは、前記階層構造の各レベルについて訓練されることと、
訓練された前記少なくとも2つの畳込みニューラルネットワークに基づいて1以上のクラスに入力画像を前記処理ユニットによって分類することであって、前記入力画像を分類することは、
下位レベルのラベルについての訓練された畳込みニューラルネットワークからの確率スコア出力に上位レベルのラベルについての訓練された畳込みニューラルネットワークからの確率スコア出力を乗算すること、
を含むこと、
を含む、方法。
【請求項2】
各畳込みニューラルネットワークの分類層は、ソフトシグモイドアクティベーションに基づき、前記ソフトシグモイドアクティベーションは、ソフトマックス関数とシグモイド関数との組合せである、請求項1に記載の方法。
【請求項3】
前記訓練画像と前記入力画像は、グラフィカルデザインされた画像を含む、請求項1に記載の方法。
【請求項4】
前記ラベルが非相互排他的なラベルである、請求項1に記載の方法。
【請求項5】
前記ラベルは、商標登録機関によって使用されるコードである、請求項1に記載の方法。
【請求項6】
前記ラベルは、意匠特許画像または工業デザイン画像を分類するために使用されるコードである、請求項1の方法。
【請求項7】
前記ラベルは、前記ラベルに関連する前記訓練画像のメタデータとして利用可能である、請求項1に記載の方法。
【請求項8】
前記分類することは、前記2以上のクラスに対応する2以上のラベルで前記入力画像をラベリングすることを更に含む、請求項1に記載の方法。
【請求項9】
前記処理ユニットによって前記訓練画像を前処理することをさらに含む、請求項1に記載の方法であって、
前記少なくとも2つの畳込みニューラルネットワークを訓練することは、前処理された前記訓練画像及び前記訓練画像に関連するラベルに基づく、方法。
【請求項10】
1以上の画像分類モデルを使用して画像を分類する装置であって、
複数の訓練画像のうちの1以上の訓練画像が2以上のラベルと関連付けられており、各ラベルが1つの画像分類クラスに対応し、前記ラベルが階層構造を有する、前記ラベルに関連する訓練画像を取得し、
前記訓練画像と前記訓練画像に関連する階層構造ラベルを使用して少なくとも2つの畳込みニューラルネットワークを訓練し、個々の畳込みニューラルネットワークは、前記階層構造の各レベルについて訓練され、
下位レベルのラベルについての訓練された畳込みニューラルネットワークからの確率スコア出力に上位レベルのラベルについての訓練された畳込みニューラルネットワークからの確率スコア出力を乗算することによって、訓練された前記少なくとも2つの畳込みニューラルネットワークに基づいて1以上のクラスに入力画像を分類する、
ように構成された処理ユニットを備える、装置。
【請求項11】
各畳込みニューラルネットワークの分類層は、ソフトシグモイドアクティベーションに基づき、前記ソフトシグモイドアクティベーションは、ソフトマックス関数とシグモイド関数との組合せである、請求項10に記載の装置。
【請求項12】
前記訓練画像と前記入力画像は、グラフィカルデザインされた画像を含む、請求項10に記載の装置。
【請求項13】
前記ラベルが非相互排他的なラベルである、請求項10に記載の装置。
【請求項14】
前記ラベルは、商標登録機関によって使用されるコードである、請求項10に記載の装置。
【請求項15】
前記処理ユニットは、
前記訓練画像を前処理し、前記少なくとも2つの畳込みニューラルネットワークを訓練することは、前処理された前記訓練画像及び前記訓練画像に関連するラベルに基づくように更に構成された、請求項10に記載の装置。
【請求項16】
コンピュータによって実行するときに、
1以上の画像分類モデルを使用して画像を分類する方法であって、
複数の訓練画像のうちの1以上の訓練画像が2以上のラベルと関連付けられており、各ラベルが1つの画像分類クラスに対応し、前記ラベルが階層構造を有する、前記ラベルに関連する訓練画像を取得することと、
前記訓練画像と前記訓練画像に関連する階層構造ラベルを使用して少なくとも2つの畳込みニューラルネットワークを訓練し、個々の畳込みニューラルネットワークは、前記階層構造の各レベルについて訓練されることと、
下位レベルのラベルについての訓練された畳込みニューラルネットワークからの確率スコア出力に上位レベルのラベルについての訓練された畳込みニューラルネットワークからの確率スコア出力を乗算することによって、訓練された前記少なくとも2つの畳込みニューラルネットワークに基づいて1以上のクラスに入力画像を分類することと、
を含む、方法を前記コンピュータによって実行させるコンピュータ可読命令を記憶する非一時的コンピュータ可読記憶媒体。
【請求項17】
各畳込みニューラルネットワークの分類層は、ソフトシグモイドアクティベーションに基づき、前記ソフトシグモイドアクティベーションは、ソフトマックス関数とシグモイド関数との組合せである、請求項16に記載の非一時的コンピュータ可読記憶媒体。
【請求項18】
前記訓練画像と前記入力画像は、グラフィカルデザインされた画像を含む、請求項16に記載の非一時的コンピュータ可読記憶媒体。
【請求項19】
前記ラベルが非相互排他的なラベルである、請求項16に記載の非一時的コンピュータ可読記憶媒体。
【請求項20】
前記ラベルは、商標登録機関によって使用されるコードである、請求項16に記載の非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本出願は、米国特許法第119(e)の定めにより、2016年2月1日に出願された米国仮特許出願番号62/289,902の出願日の利益を受けることを請求し、「Method for Training an Algorithm to Classify Elements and Objects in Images」と題するこの全内容は、参照により本明細書に組み込まれる。
【0002】
本開示は、画像分類に関し、特に、複数のクラスに関連する訓練画像に基づいて画像分類モデルを訓練し、訓練された画像分類モデルを使用して画像を複数のクラスに分類することに関する。
【背景技術】
【0003】
商標、ロゴ、その他のグラフィカルにデザインされた画像、及びその他のブランド関連の知的財産権(IP)は、重要なビジネス資産である。多くの国では、商標登録及び意匠特許登録を介して、グラフィカルにデザインされた画像を含む商標、意匠など、それらのIPを保護する、人々や企業のために正式なメカニズムを提供する。例えば、商標登録システムは、商標データベースに会社がその名前やロゴを登録することを可能にし、又は類似する他の名前やロゴに対して異議を申し立て又は権利行使することを可能にする。同様に、米国での意匠特許及び他の国や地域(例えば、ヨーロッパ)での産業デザインの登録は、2次元斜視図とともに線画、3次元CADモデルなどの多種多様のグラフィック表現を持つデザインについて正式な保護を提供する。
【0004】
世界中の多くの商標庁は、例えば、グラフィカル画像内の要素又はオブジェクトを意味論的に記述するキーワードやコード(例えば、米国ではデザインコード、ヨーロッパではウィーンコード、及びオーストラリアでは画像構成)のリストを用いて商標をラベルする。説明のためには、米国デザインコードとウィーンコードは、画像内の画像及び/又はオブジェクトが意味論的に記述されるクラスラベルである。これらのクラスラベルは、階層構造を持っており、画像の図形要素を分類するために使用されている。一般的に、いくつかのIP登録システムで使用されるラベルの階層構造は、一般的からより具体的に進み、例えば、商標の図形要素を階層レベルにおいてカテゴリから開始し、ディビジョンの後にセクションの順で考慮する。一部のIP登録システムでは、単一レベル(非階層型)システムを使用する場合があるが、他のIP登録システムでは、3レベル未満又は3レベル以上の階層を使用する場合がある。
【0005】
多くのIPオフィスは、意匠特許及び工業デザインにロカルノ分類と呼ばれる分類システムと、製品及びその外観の両方を記述する製品表示とを採用している。米国は、米国デザインクラスと呼ばれる独自のデザイン分類のセットを持っている。ロカルノクラスと米国デザインクラスはどちらも本質的には階層的であり、通常は製品の機能を最上位に記述し、特定の機能的な特徴、独特の装飾的な外観又は形状をサブクラスに記述する。非政府組織はまた、そのようなロゴやデザインのグラフィカル資産を分類し、及び/又は注釈を付けるための同種のラベルを使用することができる。
【0006】
IPの所有者は、潜在的な侵害と類似の商標やデザインを登録するための試みを監視し、対処することを通じてIPの権利を行使しなければならない。しかし、例えば、電子商取引サイト上で、画像使用の侵害を発見し、又はソーシャルネットワークやインターネットでブランドの誤用を見つけることが困難な場合がある。さらに、企業は、名称、ロゴ、又はデザインを使用し、及び/又は登録するかどうかを決定するのに登録商標又は意匠の検索が困難な場合がある。
【0007】
米国とヨーロッパを含む多くのIP登録システムでは、画像又は画像(例えば、商標又は意匠)内の要素/オブジェクトと複数のラベルを関連付けることができる。ラベルは、階層的なラベルであってもよい。画像又は画像オブジェクト/要素に関連付けることができる複数のラベルは、本明細書においてマルチラベルと呼ぶことができる。
【発明の概要】
【発明が解決しようとする課題】
【0008】
したがって、システム及び方法は、複数のクラスに画像及び/又は画像内のオブジェクト/要素を分類可能であることが望ましい。
【課題を解決するための手段】
【0009】
本開示は、一般的には、画像分類に関し、より詳細には、複数のクラス(クラスラベル付き)に関連する訓練画像に基づいて、画像分類モデルを訓練し、訓練された画像分類モデルを使用して、画像を複数のクラス(クラスラベル付き)に分類することに関する。そして、1つの例示的な実施形態において、画像分類モデルを訓練する方法は、ラベルに関連する画像を取得し訓練することを含む。ここで、複数のラベルのうちの2以上のラベルは、訓練画像の各々に関連付けられ、2以上のラベルの各ラベルは、ある画像分類クラスに対応する。この方法は、深層畳込みニューラルネットワークを用いて、訓練画像を1以上のクラスに分類し、訓練画像に関連するラベルに対して訓練画像の分類を比較することをさらに含む。この方法はまた、訓練画像に関連するラベルに対して訓練画像の分類との比較に基づいて、深層畳込みニューラルネットワークのパラメータを更新することを含む。
【0010】
別の例示的な実施形態では、1以上の画像分類モデルを使用して画像を分類する方法は、画像処理装置によって、ラベルに関連する訓練画像を取得することを含み、複数のラベルのうちの2以上のラベルが訓練画像の各々と関連付けられており、2以上のラベルの各ラベルは、ある画像分類クラスに対応する。この方法はさらに、画像処理装置によって、訓練画像と訓練画像に関連するラベルを使用して、深層畳込みニューラルネットワークを訓練することを含む。この方法はまた、画像処理装置によって、訓練された深層畳込みニューラルネットワークに基づいて2以上のクラスに入力画像を分類することを含む。
【0011】
さらに別の例示的な実施形態では、1以上の画像分類モデルを使用する画像を分類するシステムは、前記ラベルに関連する訓練画像を含む訓練画像源を含み、複数のラベルのうちの2以上のラベルは、訓練画像の各々に関連付けられる。システムはさらに、前記訓練画像源に通信可能に結合された画像処理装置を含み、画像処理装置は、前記訓練画像源から前記訓練画像を取得して、前記訓練画像と前記訓練画像に関連するラベルを使用して深層畳込みニューラルネットワークを訓練するように構成される。システムはまた、クラスに分類される入力画像を含む入力画像源を含んでもよく、複数のクラスに入力画像を分類することは、前記複数のクラスに対応する前記入力画像を複数のクラスに関連付けることである。
【0012】
これら及び他の態様、目的、特徴及び実施形態は、以下の説明及び添付の特許請求の範囲から明らかであろう。
【発明の効果】
【0013】
参照は、必ずしも縮尺通りではない添付の図面についてなされる。
【図面の簡単な説明】
【0014】
図1】例示的な実施形態による画像分類モデルを訓練し、及び画像を分類するシステムを示す。
図2】例示的な実施形態による画像分類モデルを訓練し、及び画像を分類する方法を示す。
図3】例示的な実施形態による画像分類モデル(すなわち、畳込みニューラルネットワーク)を訓練する方法を示す。
図4】例示的な実施形態による訓練された分類モデルを使用して画像を分類する方法を示す。
図5図1のシステムを使用して、及び図2、3及び4の方法に基づく画像の分類/ラベリングを示す。
図6】例示的な実施形態によるマルチラベルの各階層レベルについて訓練された分類モデルに基づく入力画像の分類を示す。
図7】例示的な実施形態によるマルチラベルの各階層レベルについて訓練された分類モデルに基づく入力画像の分類を示す。
図8】例示的な実施形態によるマルチラベルの各階層レベルについて訓練された分類モデルに基づく入力画像の分類を示す。
【0015】
図面は、例示的な実施形態を示すにすぎないので、範囲を限定すると考えるべきではない。図面に示される要素及び特徴は、必ずしも縮尺通りではなく、明らかに例示的な実施形態の原理を説明することに重点が置かれる。特定の寸法や配置は、図面においてこのような原理を視覚的に伝えることを補助するために拡大されてもよいが、参照番号は、必ずしも同一の要素ではなく、同様又は対応する要素を指定するものであってもよい。
【発明を実施するための形態】
【0016】
以下の段落では、図面を参照してさらに例示的な実施形態を詳細に説明する。説明では、既知のコンポーネント、方法、及び/又は処理技術を省略し、又は簡単に説明している。さらに、実施形態の様々な特徴への言及は、すべての実施形態が参照した特徴(複数可)を含まなければならないことを示唆するものではない。
【0017】
いくつかの例示的な実施形態において、畳込みニューラルネットワークに基づいているシステム及び方法は、各画像が複数のラベルのそれぞれに関連付けられるように、複数のクラスに画像を分類するために使用されてもよい。説明するために、1以上の畳込みニューラルネットワーク(分類モデルとも呼ばれる)は最初に訓練され、次に訓練された畳込みニューラルネットワークは、画像を分類するために使用される。単一の画像又は画像内の要素オブジェクトに関連付けることができるラベルは、ラベル、複数のラベル、又はマルチラベルと呼ぶことができる。
【0018】
いくつかの例示的な実施形態において、訓練操作中、畳込みニューラルネットワーク(例えば、深層畳込みニューラルネットワーク)は、パラメータが画像の視覚意味論的な意味を記載するマルチラベルに(例えば、手動で)タグ付けされた訓練画像を用いて学習されるように訓練できる。分類操作中に、訓練された畳込みニューラルネットワークは、マルチラベルが画像に関連付けられるように他の画像を分類するために使用される。例えば、訓練されたネットワークによって分類された画像をタグ付けしてもよいし、そうでなければ画像の視覚意味論的意味をマルチラベルに関連付けられる。以下でより詳細に説明するように、訓練された畳込みニューラルネットワーク(すなわち、訓練された分類モデル)は、画像が適切なマルチラベルと関連付けるように画像を確実に分類するために、畳込み、プーリング、アクティベーション(活性化)、ゲーティング、密結合及びドロップアウトを含むいくつかの層を含んでもよい。
【0019】
いくつかの例示的な実施形態において、訓練画像に関連付けられ、画像を分類するために使用されるマルチラベルは、階層的なラベルであってもよい。説明するために、マルチラベルが階層的なラベルである場合、訓練された分類モデル(各々の畳込みニューラルネットワーク)は、階層的なラベルの各レベルについて訓練できる。例えば、訓練画像が3つの階層を持つマルチラベルにタグ付けされている場合、あるいは関連付けられている場合、3つの畳込みニューラルネットワークを訓練できる。分類操作中に、複数の訓練された分類モデルは、画像が各階層レベルの階層的なマルチラベルにタグ付けされ、又はそうでなければ関連付けられるように画像を分類するために使用されてもよい。
【0020】
説明するために、商標データベースで使用される画像や、例えば、米国デザインコード、ウィーンコード、及びキーワード画像構成に関連する意味論的記述ラベルを使用して、非常に膨大な深層畳込みニューラルネットワークを訓練し、意味論的情報を特徴量マップにエンコードできる。訓練された畳込みニューラルネットワーク(すなわち、訓練操作に起因する分類モデル)は、画像が商標データベースで使用される意味論的記述ラベルのそれぞれに関連付けられるように他の画像を分類するために使用されてもよい。
【0021】
例えば、表1は、米国では商標として登録できる画像の意味論的記述に基づく例示のラベルを示す。特定の画像は、表1に示されないラベルにタグ付けされ、あるいは関連付けられていることに留意されたい。
【表1】
【0022】
表1に示すように、マルチラベルは、画像1と画像2に関する意味論的記述情報を提供することを意図している。表1のラベルは、階層が「カテゴリ」、「ディビジョン」、「セクション」という階層構造を有している。例えば、最上位の階層「カテゴリ」は、下位の階層に比べて画像のより一般的な意味論的記述を提供する。次に上位の階層「ディビジョン」は、下位の階層に比べて画像のより一般的な意味論的記述を提供し、「ディビジョン」は最上位の階層「カテゴリ」よりもより具体的な意味論的記述を提供する。いくつかの代替的な実施形態においては、本開示の範囲から逸脱することなしに、階層的なマルチラベルが表1に示されるものとは異なる階層関係を有していてもよい。いくつかの画像データベース/データセットと対比して、表1の各画像は、各階層で複数のラベルと関連付けられている。
【0023】
図1は、例示的な実施形態による画像分類モデルを訓練し、及び画像を分類するためのシステム100を示す。システム100は、画像処理装置102、訓練画像源104、及び入力画像源106を含むことができる。画像処理装置102は、ネットワーク108上の訓練画像源104、入力画像源106と通信できる。例えば、ネットワーク108は、インターネット、ローカルエリアネットワーク、広域ネットワーク、又はそれらの組み合わせであってもよい。例えば、ネットワーク108の代わりに又はそれに加えて、例えば、ユニバーサルシリアルバス(USB)ケーブル接続などの有線接続を含んでもよい。
【0024】
いくつかの例示的な実施形態において、訓練画像源104は、マルチラベルにタグ付けされ、又はそうでなければ関連する画像の1以上のデータベースを含むことができる。訓練画像源104からの画像は、画像処理装置102によって使用され、入力画像源106から画像として他の画像を分類するために使用できる畳込みニューラルネットワーク(すなわち、分類モデル)を訓練してもよい。訓練画像は、グラフィカルにデザインされた画像(例えば、ライン図面、3次元CADモデルの2次元斜視図、2次元図面等)、写真、その他の種類の画像、又は前記1以上の組み合わせであってもよい。訓練画像は、商標、ロゴであってもよく、また意匠、特許、及び工業デザインの登録に使用される画像等を含む製品設計であってもよい。訓練画像源104は、特定の用途に応じて数百万又は少数の画像を含む画像データベースを含むことができる。訓練画像源104は、1以上の独立型データ記憶装置、コンピュータ又はコンピュータネットワークのデータ記憶装置、又は関連するマルチラベルと共に画像を提供するために使用できる別のデバイス又はシステムであってもよい。例えば、訓練画像源104は、記憶装置(例えば、スタティックRAM又は別の種類のコンピュータ可読媒体)を含むことができる。訓練画像源104によって画像処理装置102に提供される個々の訓練画像に関連するマルチラベルは、個々の訓練画像のメタデータの形で、又はそうでなければ各々のマルチラベルを有する個々の訓練画像を関連付ける別のフォーマットであってもよい。いくつかの例示的な実施形態において、視覚意味論的(すなわち、意味論的記述的)な可能性の数百又は数千ラベルは、潜在的に訓練画像をラベルするために使用できる。訓練画像源104は、画像処理装置102に通信可能に結合された記憶装置(例えば、スタティックRAM等)であってもよい。
【0025】
いくつかの例示的な実施形態において、訓練画像源104からの画像に関連するマルチラベルは、上述したように階層構造を有していてもよい。あるいは、マルチラベルは非階層的であってもよい。非限定的な例として、訓練画像源104は、米国特許商標庁などの1以上のIP登録機関のデータベースを含むことができ、マルチラベルは、米国デザインコード又は他の意味論的記述コードのような意味論的記述ラベルであってもよい。
【0026】
いくつかの例示的な実施形態において、入力画像源106は、訓練された畳込みニューラルネットワーク(すなわち、分類モデル)を使用して、画像処理装置102によって分類できる1以上の画像のデータベースを含むことができる。畳込みニューラルネットワークは、訓練画像源104によって提供され、マルチラベルにタグ付け又はそうでなければ関連付けられる訓練画像を使用して訓練される。入力画像源106に含まれる画像は、グラフィカルにデザインできる画像(例えば、線画、3次元CADモデルの2次元斜視図、2次元図面、等)、写真、画像の他の種類、又はそれらの1以上の組み合わせ)であってもよい。入力画像源106によって提供される画像は、商標、ロゴ、意匠特許及び意匠登録等に使用されている画像を含む製品設計とすることができる。入力画像源106は、特定の用途に応じて数百の画像又は少数の画像を含む画像データベースを含んでいてもよく、数百又は数千のクラスに分類できる(すなわち、画像が数百又は数千の可能なラベルによってラベル付けされてもよい)。入力画像源106は、1以上の独立型データ記憶装置、コンピュータ又はコンピュータネットワークのデータ記憶装置、又は別のデバイス又は例えば、画像処理装置102によって分類する画像を提供するために使用され得るシステムとすることができる。例えば、入力画像源106は、記憶装置(例えば、スタティックRAM又は他の種類のコンピュータ可読媒体)を含むことができる。いくつかの例示的な実施形態において、入力画像源106は、ユーザが画像処理装置102によって分類したい1以上の画像を提出するユーザ装置を含むことができる。その代わりに又はそれに加えて、入力画像源106は、メタデータを有する画像を含むウェブページを含むことができる。
【0027】
いくつかの例示的な実施形態において、画像処理装置102は、中央処理ユニットとして処理ユニット110、メモリ装置112、記憶装置114、ネットワークインタフェース116、及び分類モデルを訓練し、画像を分類する画像処理装置102の機能を補助する他のコンポーネントを備える。ネットワークインタフェース116は、訓練画像源104と入力画像源106を含む他の装置と通信するために画像処理装置102によって使用されてもよい。例えば、訓練画像源104と入力画像源106の一方又は両方は、ネットワークインタフェース116を介して、ケーブル(例えば、USBケーブル、又はCAT 5ケーブル)により、それぞれが画像処理装置102と通信可能に結合されるローカル記憶装置であってもよい。いくつかの例示的な実施形態において、訓練画像源104と入力画像源106は、関連するマルチラベル付き訓練画像及び分類される必要がある画像を含む単一の装置であってもよい。
【0028】
いくつかの例示的な実施形態において、処理ユニット110は、特殊な(例えば、グラフィックス)処理ユニットを含む複数の処理ユニットを含むことができる。例えば、コンピュータ実行可能コードは、記憶媒体112に格納されてもよく、訓練画像に基づいて分類モデルを訓練し、及び訓練された分類モデルに基づく画像の分類を実装するために、処理ユニット110によって実行されてもよい。例えば、メモリ装置112は、1以上のスタティックRAMデバイス又は別の種類の非一時的なコンピュータ可読媒体を含むことができる。
【0029】
いくつかの例示的な実施形態において、記憶装置114は、実行可能コード及び/又はデータを格納するために使用されてもよく、データは、画像データ、ラベル、及び/又は分類モデルの訓練及び画像の分類に関する他の情報を含む。例えば、いくつかの実施形態において、記憶装置114は、予め訓練画像源104から、又は関連するラベルを有する別の訓練画像源から受信された訓練画像を格納するために使用されてもよい。その代わりに又はそれに加えて、記憶装置114は、画像処理装置102によって分類する画像を格納するために使用されてもよい。記憶装置114は、1以上のスタティックRAMデバイス又は別の種類の非一時的なコンピュータ可読媒体を含むことができる。
【0030】
いくつかの例示的な実施形態において、メモリ装置112及び/又は記憶装置114は、訓練画像の特定のデータベースに適用可能なマルチラベルのリストを格納するために使用できる。例えば、商標又は意匠画像(例えば、グラフィカルにデザインされた画像)を分類するために組織によって使用される意味論的記述ラベルの完全又は特定の部分は、分類モデルの訓練中及び/又は画像の分類中に画像処理装置102による使用のために記憶装置114に格納されてもよい。
【0031】
訓練画像と訓練画像の個々の画像に関連する複数のラベルとで訓練された畳込みニューラルネットワーク(複数可)を使用することにより、システム100は、信頼性の高い複数のクラスへの画像の分類を行うことができる。各画像(又は画像の画素のセット)が単一のラベルに関連付けられ、それに応じて分類され、相互排他的なラベルに限定されるシステムやニューラルネットワークに比べて、本明細書に記載の画像を分類するための畳込みニューラルネットワークの使用により、複数のクラスへの画像の分類(すなわち、画像を複数のラベルに関連付ける)を可能にすることによって、画像処理装置102の画像分類能力を向上させることができる。例えば、相互排他的なラベルに限定されるシステムとニューラルネットワークでは、画像は「車」又は「人」のラベルを含むが、両方のラベルは含まないと考えることができる。一方で、システム100で使用されるラベルは、ラベルが複数の画像又は画像内のオブジェクトに関連付けることができる非相互排他的なラベルであってもよい。さらに、システム100は、画像の複数のクラスに関連付けられるラベルを可能にする。例えば、画像のクラスが犬であり、画像の別のクラスが猫である場合、システム100は、両方のクラスからの両方の画像と関連付けられるように意味論的記述ラベル(例えば、毛の生えた動物)を可能にする。
【0032】
いくつかの例示的な実施形態において、画像処理装置102は、ハードウェア(例えば、FPGA又はマイクロプロセッサ)、ソフトウェア、又はハードウェアとソフトウェアの組み合わせを使用して実装できる。さらに、画像処理装置102のコンポーネントのいくつかは、本開示の範囲から逸脱することなく、省略し、又は単一のコンポーネントに統合できる。画像処理装置102は、単一の装置として示されているが、いくつかの例示的な実施形態において、画像処理装置102は、複数のコンポーネント/デバイスのシステムであってもよい。システム100の特定のコンポーネントは、図1に示されているが、システム100は、図示よりも少ない又は多くのコンポーネントを含むことができる。画像(複数可)に関して本明細書で提供される説明は、画像(複数)内のオブジェクト/要素に適用してもよい。
【0033】
図2は、例示的な実施形態による訓練画像分類モデルと分類画像の方法200を示す。図1及び2を参照すると、いくつかの例示的な実施形態において、方法200は、ステップ202で、関連するラベル付き訓練画像を得ることを含む。例えば、画像処理装置102は、訓練画像源104からマルチラベルにタグ付けされ、又はそうでなければ関連する訓練画像を得ることができる。あるいは、画像処理装置102は、記憶装置114などの他のデバイスから訓練画像及び関連するラベルを取得してもよい。
【0034】
方法200は、ステップ204で1以上の分類モデル(すなわち、畳込みニューラルネットワーク)の訓練を含む。例えば、図1のシステム100は、1以上の畳込みニューラルネットワークを訓練するために使用されてもよい。畳込み層の基本概念は、重み共有や複数の特徴量マップのエンコーディングである。重み共有は、空間的位置にかかわらず視覚的情報を抽出でき(並進不変性)、複数の平行特徴量マップは、同時に異なる種類/レベルの画像の細部を抽出できる。畳込みニューラルネットワークの説明は、Y. LeCun, L. Bottou, Y. Bengio,及びP.Haffner,「Gradient-based learning applied to document recognition」PROC.,IEEE,第86巻,第11号,2278-2323頁,1998年、に見出すことができ、その内容は、参照により本明細書に組み込まれる。
【0035】
図3に関してより詳細に説明されるように、ステップ200で取得した訓練画像に基づいて訓練された畳込みニューラルネットワークは、いくつかの層を含む深層畳込みニューラルネットワークであってもよい。畳込みニューラルネットワークの訓練は、反復によるネットワークカーネルの重みとバイアスのチューニング/更新が含まれ、ラベル付きデータ(例えば、ヒトのラベル付きデータ)の勾配の最適化を行う。分類層にソフトマックスアクティベーション又はシグモイドアクティベーションを使用する畳込みニューラルネットワークとは対照的に、システム100によって及び方法200において使用される畳込みニューラルネットワークは、以下に詳述するように、複数のクラス(すなわち、複数の画像を1つの画像に関連付ける)への信頼性の高い画像分類のためにソフトシグモイドアクティベーションを使用する。例えば、分類層にソフトマックスアクティベーションを使用する畳込みニューラルネットワークは、相互排他的なクラス/ラベルを必要とする。分類層にシグモイドアクティベーション、又は最後の層のシグモイドアクティベーション、又は訓練中の目的関数にシグモイドクロスエントロピーを使用する畳込みニューラルネットワークは、負の飽和状態になり、極小をさまよう場合がある。分類層にソフトシグモイドアクティベーション、又は訓練中の目的関数にソフトシグモイドクロスエントロピーを有する畳込みニューラルネットワークを使用することによって、システム100及び画像処理装置102は、複数のラベル(すなわち、マルチラベル)にタグ付けされ、又はそうでない場合は関連する画像を使用して、1以上の畳込みニューラルネットワークを訓練し、訓練された1以上の畳込みニューラルネットワークを使用して、確実かつ効率的に複数のクラス(すなわち、画像を複数のラベルに関連付ける)に画像を分類できる。いくつかの代替的な実施形態において、システム100及び方法200は、本開示の範囲から逸脱することなく、負の飽和を防止し、又は回復するために異なる手段を使用できる。
【0036】
いくつかの例示的な実施形態において、個々の畳込みニューラルネットワークは、画像又は画像内のオブジェクト/要素に関連する階層的なマルチラベル(例えば、米国デザインコード、ウィーンコード)の各階層レベルに基づいて訓練できる。一般的には、システム100によって及び方法200において使用される畳込みニューラルネットワーク(複数可)の訓練に使用される訓練画像及び関連するマルチラベルは、非階層的又は階層的であってもよい。
【0037】
いくつかの例示的な実施形態において、訓練画像は、例えば、よりよいデータ強化のために、必要に応じて前処理されてもよい。例えば、訓練画像は、一定の高さと幅にサイズ変更してもよい。画像のアスペクト比は、例えば、黒、白、エッジの色でより小さいサイズの余白によって保持できる。RGB画像のグレースケールとバイナリバージョンは、データ強化として使用できる。前処理の他の例として、訓練画像を事前に白色化してもよく、ランダムコントラスト、ランダムな明るさ、ランダムフリップ及び回転もまた繰り返して適用されてもよい。
【0038】
いくつかの実施形態の例において、方法200は、ステップ206で訓練された畳込みニューラルネットワーク(複数可)(すなわち、訓練された分類モデル)をテストすることを含むことができる。例えば、訓練画像のサンプルと関連するマルチラベルが訓練画像源104又は別の供給源から画像処理装置102に提供され、訓練された畳込みニューラルネットワーク(複数可)のベンチマークをテストしてもよい。畳込みニューラルネットワークの追加の改良が実行され、例えば、システム100又は方法200の性能が閾値を下回る場合、いくつかの代替実施形態では、本開示の範囲から逸脱することなく、訓練された分類モデルのテストを省略してもよい。
【0039】
いくつかの例示的な実施形態において、方法200は、ステップ208で1以上の訓練された分類モデル(すなわち、訓練された畳込みニューラルネットワーク(複数可))を用いて入力画像を分類することを含む。例えば、入力画像源106から又は記憶装置114などの別の供給源から処理装置102によって入力された画像を受け取ることができる。画像処理装置102は、1以上の訓練された分類モデルにより入力画像を分類できる。例えば、非階層的なラベルに基づいて分類される画像の特定のデータセットのために、システム100は、単一の分類モデルを訓練して、対応する入力画像を分類するために使用できる。階層的なラベルに基づいて分類される画像の他のデータセットについて、システム100は、単一の分類モデルを訓練できる。複数のクラスに入力画像を分類することにより、画像処理装置102は、効果的にマルチラベルで分類された入力画像にラベル付けし、タグ付けし又は関連付ける。いくつかの実施例において、画像又は画像内のオブジェクト/要素が単一のクラスのみの分類に入る場合、1以上の入力画像は、単一のクラスに分類できる。
【0040】
図3は、例示的な実施形態による訓練画像分類モデル(すなわち、畳込みニューラルネットワーク)の方法/システム300を示す。図1-3を参照すると、深層畳込みニューラルネットワークは、図3に示すように畳込み層とプーリング層306、全結合層310、及びロジット層312を含むことができる。畳込み層において、重み共有カーネルが入力特徴量マップ(画像又は前の層の出力)上で走査され、非線形アクティベーション関数、例えば、ReLU、ELU、シグモイドが使用されて次の層のセットを生成する。重み共有カーネルの使用は並進不変性を可能にし、複数の並列カーネルは異なる視覚情報を抽出可能にする。
【0041】
プーリング層は、畳込み層間に使用されて入力特徴量マップの次元を減少させる。プーリングにおいて、重み共有カーネルは、1値画素ストライド長以上(一般的に2値画素スライド長が使用される)で走査され、カーネル領域内の最大値を取得する。最大値の代わりに、任意の統計的集約関数が使用できる(最大:Max-プーリング、最小:min-プーリングなど)。プーリング層は、次元を削減し、ノイズを無視するのに役立つ。
【0042】
畳込み層とプーリング層306のこれらの畳込み層とプーリング層は、何度も繰り返されて視覚情報が複数のレベルで(大域詳細からより細かい詳細に)抽出されていることを確認する。複数の畳込み層とプーリング層を有するネットワークが深い場合、ネットワークの先頭からの画像情報は、ゲーティング308を使用してネットワークの奥側に転送される。
【0043】
ネットワークのハイパーパラメータ(層数、カーネルサイズ、ゲーティング数及びカーネル数)は、アプリケーションで使用される画像データの複雑さとラベルの数とに基づいて設定される。また、アプリケーションがより複雑であり、より多くの特徴量マップを異なる分類ラベルについて学習する必要がある場合、ネットワークの一部を並行に繰り返して一体に連結できる。その結果、比較的広いネットワークとなる。
【0044】
一般に、畳込み層とプーリング層306は、主に次の操作を行う。1)重み共有カーネルを前処理された入力画像に畳み込む。2)画像不変性(例えば、並進)に適合させるために、生成された特徴量マップ上に関連のプーリング(最大、平均、最小)を適用する。そして3)適切なアクティベーション関数(ReLU、シグモイド、ELU、など)を使用して、非線形出力にプールされた特徴をマッピングする。これらの主な操作は、異なるカーネルサイズ(3×3、5×5、11×11)、アクティベーション関数、及びゲーティング(ハイウェイ、スキップ)の組み合わせを用いて繰り返されることにより、視覚的特徴の異なるレベルを捕捉する。畳込みネットワークが深くなるにつれて、多数の特徴量マップでより小さなカーネルサイズが使用されて、細かい詳細により小さな受容野を適合させる。
【0045】
畳込み層とプーリング層306の最後の畳込み層の出力は、一体に連結され、全結合層にマッピングされる。ドロップアウトの異なるスケールを使用して、ネットワークが過学習しないことを確認する。全結合層310は、分類ラベルをマッピングするために畳込み層から抽出された視覚情報を縮小することを確認する。
【0046】
ロジット層(すなわち、ソフトシグモイド層)312は、最後の全結合層(H)の出力をマッピングするために使用されて、各分類ラベルの信頼度スコアを得る。ソフトシグモイド層は、次のように定義される。
【数1】
【0047】
この場合、Fsがシグモイド関数である。Fgは、
【数2】
任意の非線形関数(入力の全範囲に対して非ゼロの勾配値を有する関数)である。コンテキストで動作する関数の例は、ソフトマックスである。他のアクティベーション関数、例えば、ReLU、ELUもまた、この要件を満たす。γはFgとFsに重みを設定する。畳込みニューラルネットワークの訓練中、γは、累積クロスエントロピー損失(モデルがより高い損失である場合のFgのブースティング)と相関する関数に設定される。このプロセスは、シグモイドの負の飽和領域でハングアップしている、偽陽性と偽陰性の信頼度スコアを取り戻すのに役立つ。訓練された畳込みニューラルネットワークを用いて入力画像の分類中、γは各ラベルに独立した信頼度スコアを生成するために0に設定される。
【0048】
マルチラベル304付き画像302を用いる畳込みニューラルネットワークの訓練は、ソフトシグモイドアクティベーションロジットとグランドトゥルースラベル間のクロスエントロピーを最小化するようにネットワークを誤差逆伝播することによって行われる。重みとバイアスなどのパラメータを更新すること、及び他の最適化は、最適化及び更新モジュール316によって、ソフトシグモイドクロスエントロピーモジュール314の出力に基づいて実行される。ランダムにシャッフルされた入力画像のデータキューからサイズ(64、128、256)のミニバッチが入力として使用することができ、異なるクラスに属する訓練画像間の損失関数を汎化する。
【0049】
上述のように、ラベル304が階層構造を有する場合、個々のモデルは、ラベルの階層の各レベルについて訓練される。畳込み層、カーネルサイズ、アクティベーション、プール及びゲートの種類の数、全結合層の数、全結合層上のニューロンの数は、ラベルの数、使用される訓練画像の数、使用されるラベルの種類及び訓練画像の種類等によって変化する。例えば、ネットワークが多数のラベル(数千以上)を分類する必要がある場合、視覚的特徴の複雑な構造を捕捉するには、多数のレイヤ(vgg16、Resnet101と同様)を用いる畳込みニューラルネットワークがより適切である。
【0050】
図4は、例示的な実施形態による訓練された分類モデルを使用して画像を分類する方法/システム400を示す。図1-4を参照して、上記分類モデルの訓練に起因した訓練された分類モデル(すなわち、訓練された畳込みニューラルネットワーク)は、図4に示すように畳込み層とプーリング層406、全結合層410、及びロジット層412を含む。図4の訓練された畳込みニューラルネットワークは、効果的に訓練プロセスの終了時の図3の畳込みニューラルネットワークである。説明では、パラメータ設定の違いを除いて、畳込み層とプーリング層406が畳込みニューラルネットワーク306に対応し、全結合層410が全結合層310に対応し、ロジット層412がロジット層312に対応する。分類する必要がある入力画像402は、入力画像源106又は他のソースなどの画像源から提供されてもよい。いくつかの例示的な実施形態において、入力画像は、訓練画像に関して説明したように同様の方法で前処理されてもよい。
【0051】
所与の入力画像について、方法200のステップ204から及び方法300から訓練された分類モデルは、各ラベルについて信頼度スコアを出力する。ソフトシグモイドアクティベーションロジット層412の出力は、ソフトマックスアクティベーションを使用する畳込みニューラルネットワークとは対照的に、各ラベルについて独立したシグモイド信頼度スコアを生成する。その結果、すべてのラベル間で分配される信頼度スコアは、スコアの合計が1に等しい。信頼度スコアは、画像内のオブジェクト又は画像が特定のクラス(すなわち、特定のラベル)に正しく分類されている信頼度のレベルを示す。例えば、1のスコアが最も高い信頼性レベルを示すこと、及び0のスコアが最低の信頼度を示すことができる。ソフトシグモイドアクティベーションを使用することによって、方法200、300及び400は、分類/ラベル出力414によって示されるように、1つの画像及び1つの画像内のオブジェクト/要素の複数のクラスへの分類を可能にする。つまり、複数のラベル(すなわち、マルチラベル)は、1つの画像と関連付けられることができる。例えば、1つの画像は、複数のラベルでタグ付けされてもよく、単一のクラスに限定されるものではない。
【0052】
図5は、システム100を使用して、及び方法200、300及び400に基づいて画像(例えば、グラフィカルにデザインされた画像)の分類/ラベリングを示す。図5に示すように、画像502は、パーセンテージで与えられる信頼度スコア506と共にクラス/ラベル504によって示されるように、3つのクラス(すなわち、3つのマルチラベルに関連付けられる)に分類される。
【0053】
図6-8は、実施例によるマルチラベルの各階層レベルについて訓練された分類モデルに基づいて入力画像の分類を示す。いくつかの例示的な実施形態において、別個の分類モデルは、上述したように階層的なラベルの階層の各レベルについて訓練できる。説明するために、米国デザインコードとウィーンコードのような商標ラベルは、表1に図示されているように、「カテゴリ」→「ディビジョン」→「セクション」による階層構造に基づいて構築される。各階層レベルについて訓練された分類モデル(例えば、「カテゴリ」に対してH(C)、「ディビジョン」に対してH(D)、「セクション」に対してH(S))は、画像又は画像内のオブジェクトの最終的な分類を決定するために使用できる。階層情報は、カテゴリ、ディビジョン及びセクションのラベルをそれぞれ分類するために使用されてもよい。前統計からの分類モデルの各々に関する情報を一体として有する階層情報が使用することができ、カテゴリ、ディビジョン及びセクションのラベルにそれぞれ堅固に分類できる。図6-8は、階層レベルのそれぞれについてラベルを同定する方法を示し、最終スコアを精緻するために使用される。
【0054】
説明のために、各クラス/ラベルの確率スコアは、上位から下位への階層について計算される。各モデルから、より高いレベルのラベルの信頼度スコアを計算し、図6に示すように平均化される。各下位レベルについて、現在のレベルのラベルの確率スコアは、図7と8に示すように、対応するより高いレベルのラベルの確率スコアで乗算される。
【0055】
大量の訓練画像を用いて、入力画像と関連するクラス/ラベルを正しく示すことに向けて、各分類モデルの信頼度の事前統計は、スコアを計算に組み込むことができる。説明するために、所与のクラスについて「カテゴリ」の各階層レベルの精度(例えば、「カテゴリ」に対してH(C)、「ディビジョン」に対してH(D)、「セクション」に対してH(S))を測定する事前確率が、例えば、数百万の訓練データから抽出された統計に基づいて予め計算できる。例えば、P(C|c1)は、カテゴリモデルをc1クラスに良好に予測する程度である。ラベルの信頼度スコアは、その子のモデル(D又はS)から(例えば、C1)を、所与のラベルの分類モデルの信頼度の事前統計との関連モデルから、その子の最大の信頼(D(c(di)==c1)又はS(c(si)==c1)に乗じて計算する。ラベルの最終的な信頼性スコアは、その子モデルのそれぞれからの信頼度の平均値に親の確率を乗じて定義できる。親確率(信頼度)は、子ラベルが属している上位階層のラベルの確率で定義されている。
【0056】
上述したシステム及び方法は、階層構造を有することができる意味論的記述(意味論的視覚)に基づいて画像を分類する深層畳込みニューラルネットワーク(複数可)を訓練するために使用できる。商標画像を記述する米国デザインコードに使用される3レベルの階層的なラベルの一例の説明は、上記表1に示される。意匠特許/工業デザイン空間におけるマルチラベルの例には、ロカルノ分類及び商品表示を含む。
【0057】
上述したように、画像分類システムを訓練する方法の例示的な実施形態では、大規模なロゴデータセットは、畳込みニューラルネットワーク(すなわち、分類モデル)を訓練するのに使用できる。商標画像(通常はグラフィカルにデザインされた画像)と商標画像コードは、深層学習システム(すなわち、深層畳込みに基づくシステムニューラルネットワーク(複数可))に入力されるラベルとして使用される。訓練画像セットとしての商標の使用は、画像、ロゴ等の分類に深層畳込みニューラルネットワークを訓練するために使用される大規模な画像源を提供してもよい。上述のように、本明細書で説明されるシステム及び方法は、工業デザインや商標及び意匠の組み合わせの分類を含む用途に使用できる。
【0058】
システムベンチマークは、ロゴデータセット(商標)と大規模な写真データセット(ImageNet)の両方、ならびに電子商取引サイトの画像(通常の製品の写真は、デジタル変更される複数の商品、あるいは単なるロゴ、のいずれかの写真)のようなアプリケーションの特定のデータセットに対して実行されてもよい。上述したように、訓練画像と入力画像の両方に分類される画像は、ホワイトバランスを正規化し、ノイズを除去し、画像をスケール等する前処理を受けることができる。
【0059】
また、ラベル及び他の関連情報を含むメタデータを前処理できる。全ての商標メタデータは、一般的に有用であり、いくつかの記述子が他のものより意味がある(例えば、セグメントを含むように画像を記述することは、チェックマークを形成する2つの接続セグメントとして画像を記述するよりも有用ではない)。これらのラベルのための関連統計は、深いネットワークの教師訓練プロセスに入力するために事前に収集できる。
【0060】
また、上述したように、異なるレベルのメタデータ(すなわち、階層的なラベル)が最も特定的なものから最も特定的でないものに分化させることができる。例えば、画像のための非常に特定のメタデータラベルは、商標出願番号11111(識別された商標ラベル)、より高いレベルのラベルはブランド名「Twitter」(ブランド/所有者)、さらに再びより高いレベルは「雀」、「鳥」、「動物」(例えば、VCカテゴリ、ディビジョン、セクションの階層、例えば、“02.01.01”、“02.01”、“02”)であるかもしれない。これらの異なるレベルの説明とラベルは、訓練に使用される。
【0061】
上記フォーマットされた情報は、畳込みニューラルネットワーク(すなわち、分類モデル)を訓練するために使用できる。上述したように、畳込み層と最大プーリング層とが交互し、典型的には分類器として最終層を有する、マルチレベルアーキテクチャを含む。例示的な実施形態では、上記ラベルが最終層を訓練するために使用できる。畳込みニューラルネットワークに基づくシステム及び方法において、畳込み及び最大プーリングは、畳込みから生じる特徴を効果的にクラスタリングして次元数を減少させる。畳込みの各層は、異なる表現でより高いレベルの機能のセットを提供する。意味論的ラベルのレベルに合ったアーキテクチャを理解することは訓練に役立つ。
【0062】
本明細書で説明されるシステム及び方法は、商標、ロゴ、及び製品のデザインを含む工業デザインの画像としてグラフィカルにデザインされた画像における視覚的要素又はオブジェクトの正確な分類を可能にする。階層毎の分類モデル(per-hierarchy models)を訓練することによって、マルチラベルの階層レベルの利点を取ることは、より信頼性の高い分類になりうる。写真内のオブジェクト及び要素は、本明細書に記載するシステム及び方法を使用して分類できる。アプリケーションは、様々なドメインの幅広いアプリケーション、例えば、メディアの監視、セキュリティ、及び民生用アプリケーションだけでなく、クリアランス検索と画像ベースの商標(及びコモンロー上のロゴ)、侵害に対する保護のための工業デザインの監視の向上を含む。
【0063】
本明細書で説明されるシステム及び方法は、多くのアプリケーションにおいて使用できる。例えば、ラベルをイメージするための既に確立されたコード規格を使用して、このシステム及び方法は、画像が業界標準(ウィーンコード、デザインコード及びキーワード等)に従って審査官によってラベル付けされる、グラフィカルにデザインされた画像の知的財産を保護するために使用できる。前述したように、ラベルを使用して階層的にラベルされたクラスに分類モデルを訓練することができ、かつ訓練された分類モデルを使用して新規登録の際に審査官へのコードの提案を生成し、本明細書に記載の分類システムに登録されることが望ましい画像や画像内のオブジェクトを提供することにより、類似の意匠/商標画像を検索するのを助ける。また、このようなコード生成機能は、類似のグラフィック画像の意匠による侵害を見つけるために使用できる。
【0064】
いくつかの例示的な実施形態において、画像検索は、クラスラベルに基づいて行われてもよい。説明するために、オブジェクトのラベルの組み合わせは、一意性(uniqueness of an)を説明する。訓練された分類モデルは、ラベルに使用できる、あるいはその他の画像内のラベルの画像やオブジェクトに関連付けられる。自動的にオブジェクトラベルのすべての組み合わせを生成する訓練された分類モデルを使用することにより、類似性について大規模データベースに対して画像を検索できる。
【0065】
いくつかの例示的な実施形態において、ウェブ画像検索は、メタデータに基づいて行うことができる。上述したように同様のアプローチは、ウェブ上で類似画像を検索するために使用できる。また、メタデータについて訓練された分類モデルを使用して、アップロードされた画像をデータベースに自動的にインデックスできる。本明細書に記載のシステム及び方法はまた、商標及び意匠クリアランス検索を実行し、監視サービスを提供するために使用できる。
【0066】
いくつかの例示的な実施形態において、逆画像検索は、訓練されたネットワーク(視覚的に符号化された特徴量マップ-中間ネットワーク層及び/又は自動生成されたセマンティックラベル)の出力からの付加的な特徴と本明細書で説明されるシステム及び方法を用いて行うことができる。さらに、異なる階層レベルのラベルに対して別々のモデルを有することにより、画像検索は、類似において細部の異なるレベルを調べるために行うことができる。例えば、Twitterのロゴのマッチングを用いて、i)Twitterのロゴの正確な形状/色/テクスチャ、ii)飛行中又は羽を広げた鳥、キツツキ、他の鳥;ハト、ワタリガラス、ロビンス、カーディナル、ドーブ、の組み合わせを有するロゴ、iii)動物の種類、又はiv)任意の動物のロゴの結果を期待して行うことができる。
【0067】
一般に、本明細書に記載のシステム及び方法は、独立して階層的なマルチラベル情報を有するロゴ訓練画像データの世界最大規模のコーパス上で非常に大きな(ワイド/深い)深層学習モデルを訓練するために使用される。このようなシステム及び方法は、訓練プロセスの間に500万以上の商標画像と数千のクラスラベルを容易に処理できる。
【0068】
方法の実施形態を詳細に記載してきたが、そのようなシステムは、必ずしも説明した特定の特徴又はアルゴリズムに限定されないことを理解すべきである。むしろ、特定の特徴及びアルゴリズムは、そのようなシステムを実装する形態の例として開示される。
【0069】
いくつかの実施形態が詳細に記載してきたが、これらの記載は一例である。本明細書に記載の実施形態は、代表的なものであり、代替の実施形態において、特定の特徴、要素、及び/又はステップを追加し、又は省略してもよい。さらに、本明細書に記載の実施形態の態様に対する修正は、以下の特許請求の範囲の精神及び範囲から逸脱することなく、当業者によってなされ得る。その請求の範囲は、修正及び同等の構造を包含するように最も広い解釈が与えられるべきである。
図1
図2
図3
図4
図5
図6
図7
図8