特許第6571200号(P6571200)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヴィセンズ・プライベート・リミテッドの特許一覧

特許6571200製品インデキシング方法およびそのシステム
<>
  • 特許6571200-製品インデキシング方法およびそのシステム 図000002
  • 特許6571200-製品インデキシング方法およびそのシステム 図000003
  • 特許6571200-製品インデキシング方法およびそのシステム 図000004
  • 特許6571200-製品インデキシング方法およびそのシステム 図000005
  • 特許6571200-製品インデキシング方法およびそのシステム 図000006
  • 特許6571200-製品インデキシング方法およびそのシステム 図000007
  • 特許6571200-製品インデキシング方法およびそのシステム 図000008
  • 特許6571200-製品インデキシング方法およびそのシステム 図000009
  • 特許6571200-製品インデキシング方法およびそのシステム 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6571200
(24)【登録日】2019年8月16日
(45)【発行日】2019年9月4日
(54)【発明の名称】製品インデキシング方法およびそのシステム
(51)【国際特許分類】
   G06F 16/51 20190101AFI20190826BHJP
   G06Q 30/02 20120101ALI20190826BHJP
   G06T 7/00 20170101ALI20190826BHJP
【FI】
   G06F16/51
   G06Q30/02 398
   G06T7/00 300F
【請求項の数】9
【全頁数】17
(21)【出願番号】特願2017-545663(P2017-545663)
(86)(22)【出願日】2015年2月24日
(65)【公表番号】特表2018-512655(P2018-512655A)
(43)【公表日】2018年5月17日
(86)【国際出願番号】SG2015000054
(87)【国際公開番号】WO2016137390
(87)【国際公開日】20160901
【審査請求日】2018年2月15日
(73)【特許権者】
【識別番号】517297670
【氏名又は名称】ヴィセンズ・プライベート・リミテッド
【氏名又は名称原語表記】VISENZE PTE LTD
(74)【代理人】
【識別番号】110001195
【氏名又は名称】特許業務法人深見特許事務所
(72)【発明者】
【氏名】リ,グアンダ
(72)【発明者】
【氏名】ソン,ヂェン
(72)【発明者】
【氏名】シュ,ファン
【審査官】 樋口 龍弥
(56)【参考文献】
【文献】 特開2006−331131(JP,A)
【文献】 特開昭59−184976(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
G06Q 10/00−99/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
製品インデキシング方法であって、
製品の製品データを受信することを含み、前記製品データは少なくとも画像を含み、前記画像は、前記製品の製品画像と、前記製品が存在するコンテキストを提供するコンテキスト画像とを含み、前記コンテキスト画像は少なくとも1つの非製品画像を含み、前記製品インデキシング方法はさらに、
前記製品画像を識別することと、
前記画像から前記コンテキスト画像を識別することと、
前記コンテキスト画像に基づいて前記製品画像における前記製品を照合することと、
前記製品画像を抽出することと、
前記製品画像をインデキシングすることと、
前記製品画像における前記製品の視点を識別することとを含む、製品インデキシング方法。
【請求項2】
前記製品画像のあらかじめ規定された視点にマッチするように前記製品画像を方向付けることをさらに含む、請求項1に記載の製品インデキシング方法。
【請求項3】
前記製品画像の前記あらかじめ規定された視点は、前記製品カテゴリーによって規定される、請求項2に記載の製品インデキシング方法。
【請求項4】
前記製品の別の視点を生成することをさらに含む、請求項1〜のいずれか1項に記載の製品インデキシング方法。
【請求項5】
前記別の視点は、前記製品カテゴリーによる前記製品のあらかじめ規定された視点に基づいて生成される、請求項に記載の製品インデキシング方法。
【請求項6】
前記製品画像をインデキシングすることは、前記製品画像の前記視点および/または別の視点をインデキシングすることを含む、請求項1〜のいずれか1項に記載の製品インデキシング方法。
【請求項7】
製品インデキシングシステムであって、
製品の製品データを受信するように構成されるサーバを含み、前記製品データは少なくとも画像を含み、前記画像は、前記製品の製品画像と、前記製品が存在するコンテキストを提供するコンテキスト画像とを含み、前記コンテキスト画像は少なくとも1つの非製品画像を含み、前記製品インデキシングシステムはさらに、
前記製品画像を識別するように構成される製品識別モジュールと、
前記画像における前記コンテキスト画像を識別するように構成されるコンテキスト識別モジュールと、
前記コンテキスト画像に基づいて前記製品画像を照合するように構成される照合モジュールと、
前記画像から前記製品画像を抽出するように構成される抽出モジュールと、
前記製品画像を選択およびインデキシングするように構成されるインデキシングモジュールと、
視点管理モジュールとを含み、前記視点管理モジュールは、前記製品画像の視点を識別すること、前記製品の別の視点を生成すること、または、前記製品画像のあらかじめ規定された視点とマッチするように前記製品画像を方向付けることのうちの少なくとも1つを行なうように構成される、製品インデキシングシステム。
【請求項8】
前記製品カテゴリーはあらかじめ規定された視点を含み、視点管理モジュールは、前記製品カテゴリーの前記あらかじめ規定された視点に基づいて、前記製品の視点を生成および/または方向付けするように構成される、請求項に記載の製品インデキシングシステム。
【請求項9】
前記製品画像の前記視点および/または別の視点をインデキシングするように構成される視点インデキシングモジュールをさらに含む、請求項または請求項に記載の製品インデキシングシステム。
【発明の詳細な説明】
【技術分野】
【0001】
技術分野
本発明は、製品インデキシング方法およびそのシステムに関し、たとえば、商品カタログのインデキシングのための製品インデキシング方法およびシステムに関する。
【背景技術】
【0002】
背景
電子商取引(eコマース)は近年爆発的に成長している。衣服、食料品および電子機器のような多くの種類の製品が電子商取引ウェブサイト上で販売されており、効率的に所望の製品を検索することができるシステムが買い手に必要である。テキスト検索は、買い手の検索意図を説明する能力に限界があることを示している。その一方、ユーザに自身の検索意図を表現するために問合せ画像をアップロードさせる視覚検索(visual search)が提案されている。視覚検索は、特にモバイルユーザについて、ユーザ検索体験を非常に改善し得る。
【0003】
具体的には、視覚検索システムは、ユーザの問合せ画像から視覚的特徴を抽出し、製品視覚的特徴インデックスから当該視覚的特徴を検索するために使用され得る。製品視覚的特徴インデックスを構築するために、たとえば製品カタログといった製品画像から同じ視覚的特徴を直接的に抽出し、次いで、あるインデキシングおよび圧縮方法を適用して製品視覚的特徴インデックスを生成するよう、従来の視覚的特徴インデキシングシステムが用いられ得る。しかしながら、製品検索システムは、問合せ画像および製品画像の両方のノイズおよび制御されていない視野角に対処する必要がある。これは、製品画像の場合、当該画像の品質は低い場合があり、製品画像における製品は、多くの可能な視野角で提供され得、および/または、雑然した背景(しばしば人間の一部として)において提供され得るからである。同様に、問合せ画像は、同じ問題を有し得るか、または、ノイズおよび制御されていない視野角においてより高い変動を有し得る。
【0004】
従来の視覚的特徴インデキシングシステムが使用される場合、問合せ画像/製品画像がノイジーであると、ユーザの検索意図は完全には満たされない場合がある。たとえば、問合せ画像/製品画像は、製品画像視覚的インデックスの一部分ではないかもしれない特徴を有する環境において撮像され得る。たとえば、バッグの問合せ画像/製品画像は、人が保持している状態で撮像され得る。そのような場合、問合せ画像の視覚的特徴と製品画像との間に有意な差が存在し得る。すなわち、人の画像はバッグの問合せ画像とは異なる。したがって、これは製品の抽出の失敗に帰着し得る。
【0005】
別の例では、問合せ画像/製品画像は、キャプション、テキストボックス、装飾および画像モザイク(image mosaic)といった人工的な効果で後処理され得る。そのような後処理はさらに当該視覚的特徴を汚染し得、ある製品が視覚検索によって発見されることが不可能になる。
【0006】
別の例では、問合せ画像/製品画像は異なる視野角で撮像され、製品の視野角における問合せ画像と製品画像との間での差によって、視覚検索結果の品質が影響を受け得る。
【0007】
したがって、ユーザが製品を効率的に検索し、より楽しい検索体験を有することができるように、信頼性があり有効なインデキシングシステムを有することが必要である。
【0008】
したがって、本発明の目的は、前述の問題を緩和することを試みることである。なお、上記の問題を克服することは有益であるが、電子商取引においては多数の製品カテゴリーが存在するため、上記の問題を緩和する如何なるソリューションも、異なる製品カテゴリーを扱うよう十分に堅牢であるべきである。
【発明の概要】
【課題を解決するための手段】
【0009】
概要
さまざまな実施形態に従うと、本発明は、製品インデキシング方法を提供し、当該製品インデキシング方法は、製品の製品データを受信することを含み、製品データは少なくとも画像を含み、画像は、製品の製品画像と、製品が存在し得るコンテキストを提供するコンテキスト画像とを含み、コンテキスト画像は少なくとも1つの非製品画像を含む。製品インデキシング方法はさらに、製品画像を識別することと、画像からコンテキスト画像を識別することと、コンテキスト画像に基づいて製品画像における製品を照合することと、製品画像を抽出することと、製品画像にインデキシングすることとを含む。
【0010】
さまざまな実施形態に従うと、上記方法は、製品データに基づいて製品の製品カテゴリーを決定することをさらに含み、製品画像は製品カテゴリーに基づいて識別され得る。
【0011】
さまざまな実施形態に従うと、上記方法は、製品予測スコアを生成することをさらに含み得、製品カテゴリーは製品予測スコアに基づいて決定され得る。
【0012】
さまざまな実施形態に従うと、製品予測スコアはテキスト予測スコアおよび/または画像予測スコアを含み得る。
【0013】
さまざまな実施形態に従うと、製品データは製品の製品テキストを含み得、製品カテゴリーは製品テキストに基づいて決定され得る。
【0014】
さまざまな実施形態に従うと、製品テキストは、製品の製品名を含み得、製品カテゴリーは製品名に基づいて決定され得る。
【0015】
さまざまな実施形態に従うと、製品テキストは製品の製品説明を含み得、製品カテゴリーは製品説明に基づいて決定され得る。
【0016】
さまざまな実施形態に従うと、製品カテゴリーは製品画像に基づいて決定され得る。
さまざまな実施形態に従うと、製品画像は製品カテゴリーに基づいて識別され得る。
【0017】
さまざまな実施形態に従うと、上記方法は、画像内の製品画像の位置を決定することをさらに含み得る。
【0018】
さまざまな実施形態に従うと、上記方法は、画像内のコンテキスト画像の位置を決定することをさらに含み得る。
【0019】
さまざまな実施形態に従うと、上記方法は、製品画像とコンテキスト画像との間の関係を識別することをさらに含み得る。
【0020】
さまざまな実施形態に従うと、関係を識別することは、製品画像とコンテキスト画像との間の空間関係を決定することを含み得る。
【0021】
さまざまな実施形態に従うと、上記方法は製品画像を規定することをさらに含み得る。
さまざまな実施形態に従うと、上記方法は、規定された製品画像を改良することをさらに含み得る。
【0022】
さまざまな実施形態に従うと、上記方法は、製品画像における製品の視点を識別することをさらに含み得る。
【0023】
さまざまな実施形態に従うと、上記方法は、製品画像のあらかじめ規定された視点にマッチするように製品画像を方向付けることをさらに含み得る。
【0024】
さまざまな実施形態に従うと、製品画像のあらかじめ規定された視点は、製品カテゴリーによって規定され得る。
【0025】
さまざまな実施形態に従うと、上記方法は、製品の別の視点を生成することをさらに含み得る。
【0026】
さまざまな実施形態に従うと、別の視点は、製品カテゴリーによる製品のあらかじめ規定された視点に基づいて生成され得る。
【0027】
さまざまな実施形態に従うと、製品画像をインデキシングすることは、製品画像の視点および/または別の視点をインデキシングすることを含み得る。
【0028】
さまざまな実施形態に従うと、製品画像のインデキシングは製品カテゴリーに基づき得る。
【0029】
さまざまな実施形態に従うと、本発明は、製品インデキシングシステムを提供する。上記製品インデキシングシステムは、製品の製品データを受信するように構成されるサーバを含み、製品データは少なくとも画像を含み、画像は、製品の製品画像と、製品が存在し得るコンテキストを提供するコンテキスト画像とを含み得、コンテキスト画像は少なくとも1つの非製品画像を含み得る。上記製品インデキシングシステムは、製品画像を識別するように構成される製品識別モジュールと、画像におけるコンテキスト画像を識別するように構成されるコンテキスト識別モジュールと、コンテキスト画像に基づいて製品画像を照合するように構成される照合モジュールと、画像から製品画像を抽出するように構成される抽出モジュールと、製品画像を選択およびインデキシングするように構成されるインデキシングモジュールとを含む。
【0030】
さまざまな実施形態に従うと、上記システムは、複数の製品カテゴリーをさらに含み得、製品の製品カテゴリーは製品データに基づいて決定され得、製品画像は製品カテゴリーに基づいて識別され得る。
【0031】
さまざまな実施形態に従うと、上記システムは、製品予測スコアをさらに含み得、製品カテゴリーは製品予測スコアに基づいて決定され得る。
【0032】
さまざまな実施形態に従うと、製品予測スコアはテキスト予測スコアおよび/または画像予測スコアを含み得る。
【0033】
さまざまな実施形態に従うと、製品カテゴリーは、製品データの製品テキストおよび/または製品画像に基づいて決定され得る。
【0034】
さまざまな実施形態に従うと、製品データは、製品名または製品説明のうち少なくとも1つを含み得、製品カテゴリーは、製品名または製品説明のうち少なくとも1つに基づいて決定され得る。
【0035】
さまざまな実施形態に従うと、製品カテゴリーの各々は製品検出モジュールを含み得、製品カテゴリーの製品検出モジュールは製品画像を識別するように構成され得る。
【0036】
さまざまな実施形態に従うと、製品検出モジュールは、画像内の製品画像および/またはコンテキスト画像の位置を識別するように構成され得る。
【0037】
さまざまな実施形態に従うと、照合モジュールは、製品画像とコンテキスト画像との間の関係を識別するように構成され得る。
【0038】
さまざまな実施形態に従うと、照合モジュールは、製品画像とコンテキスト画像との間の空間関係を照合するように構成される空間関係モジュールを含み得る。
【0039】
さまざまな実施形態に従うと、システムは、製品画像を規定するように構成される規定モジュールをさらに含み得る。
【0040】
さまざまな実施形態に従うと、システムは、規定された製品画像を改良するように構成される改良モジュールをさらに含み得る。
【0041】
さまざまな実施形態に従うと、システムは、視点管理モジュールをさらに含み得、視点管理モジュールは、製品画像の視点を識別すること、製品の別の視点を生成すること、または、製品画像のあらかじめ規定された視点とマッチするように製品画像を方向付けることのうちの少なくとも1つを行なうように構成される。
【0042】
さまざまな実施形態に従うと、製品カテゴリーはあらかじめ規定された視点を含み得、視点管理モジュールは、製品カテゴリーのあらかじめ規定された視点に基づいて、製品の視点を生成および/または方向付けするように構成され得る。
【0043】
さまざまな実施形態に従うと、システムは、製品画像の視点および/または別の視点をインデキシングするように構成される視点インデキシングモジュールをさらに含み得る。
【0044】
本発明は、視覚検索問合せに基づいた検索のための画像またはビデオにおいてより正確な製品特徴インデキシングシステムを提供することを目的とする。
【図面の簡単な説明】
【0045】
図1】例示的な製品インデキシングシステムを示す図である。
図2】製品データの例を示す図である。
図3】製品データの別の例を示す図である。
図4図1の製品インデキシングシステムのための例示的な製品インデキシング方法を示す図である。
図5】製品識別モジュールの例示的な実施形態の概略図を示す図である。
図6】コンテキスト画像の識別の例を示す図である。
図7】製品画像がインデキシングされるフローチャートを示す図である。
図8】インデキシングの例示的な方法のフローチャートを示す図である。
図9】例示的な製品インデキシング方法のフローチャートを示す図である。
【発明を実施するための形態】
【0046】
詳細な説明
図1は、製品の製品データを受信するように構成されるサーバ200を有する製品インデキシングシステム100を示す。上記製品データは少なくとも画像を含んでおり、当該画像は、製品の製品画像と、当該製品が存在するコンテキストを提供するコンテキスト画像とを含んでいる。製品インデキシングシステム100は、製品画像を識別するように構成される製品識別モジュール210と、上記画像におけるコンテキスト画像を識別するように構成されるコンテキスト識別モジュール220と、コンテキスト画像に基づいて製品画像を照合するように構成される照合モジュール230と、画像から製品画像を抽出するように構成される抽出モジュール240と、製品画像をインデキシングするように構成されるインデキシングモジュール250とを含む。インデキシングされた製品画像は、製品視覚的特徴インデックスを形成し得る。製品特徴視覚的インデックスは、製品カタログをインデキシングして視覚検索問合せを使用する検索を容易にするために使用されるインデックスであり得る。
【0047】
図2は、製品データ300の例を示す。製品データ300は少なくとも画像310を含み得る。画像310は、製品の製品画像320と、製品が存在するコンテキストを提供するコンテキスト画像330とを含み得る。
【0048】
図3は、製品データ302の別の例を示す。製品データ302は、製品の製品テキスト340を含み得る。製品テキスト340は、当該製品の製品名342および/または製品説明344を含み得る。製品名342は、製品会社によって提供され得る製品のブランド、モデル、名前などであり得る。製品説明344は、製品の製品仕様書または記事であり得る。製品データ302は製品会社から受信され得る。製品データ302は、デジタル製品カタログの形態であり得る。
【0049】
図4は、製品インデキシングシステム100のための製品インデキシング方法400を示す。製品インデキシング方法400は、410において、製品の製品データ300を受信することを含む。製品データ300は少なくとも画像310を有する。画像310は、製品の製品画像320と、製品が存在するコンテキストを提供するコンテキスト画像330とを有する。コンテキスト画像330は、少なくとも1つの非製品画像を含む。製品インデキシング方法400は、420において製品画像320を識別することと、430において画像310からコンテキスト画像330を識別することと、440において、コンテキスト画像330に基づいて製品画像320における製品を照合することと、450において製品画像320を抽出することと、460において製品画像320をインデキシングすることとを含む。
【0050】
サーバ200は、製品データ300を受信すると、製品データ300を分析して当該製品データ300における製品を識別し得る。図2を参照して、サーバ200は、製品識別モジュール210を使用して、たとえばコートといった製品の製品画像320を識別し得る。サーバ200は、コンテキスト識別モジュール220を使用して、画像310において、たとえば顔、手といったコンテキスト画像330を識別し得る。サーバ200は、照合モジュール230を使用して、識別されたコンテキスト画像330に基づいて、たとえばコートといった製品画像320を照合し得る。たとえば、手および顔が当該コートに隣接しているということを照合し得る。製品画像320がひとたび識別されると、サーバ20は、抽出モジュール240を使用して画像310から製品画像320を抽出し、インデキシングモジュール250を使用して製品画像320をインデキシングし得る。抽出された製品画像320は、製品視覚的特徴インデックスを形成するために使用され得る。
【0051】
記載されるように、製品データ300をインデキシングするために、製品データ300が表わす製品は、実行されるべきインデキシングのために識別され得る。その後、製品の製品画像320は、製品視覚的特徴インデックスに使用されるために識別、選択および抽出され得る。
【0052】
製品識別モジュール210は、製品データ300における製品の製品カテゴリー(以下に示される)を予測するように構成される製品予測モジュール211を含み得る。製品予測モジュール211は、画像310における製品画像320を予測するために使用され得る。図5は、製品予測モジュール211の例示的な方法213の概略図を示す。製品予測モジュール211は、画像310における製品のタイプを予測するように構成され得る。製品予測モジュール211は、テキスト予測モジュール212および/または画像予測モジュール214を含み得る。テキスト予測モジュール212および/または画像予測モジュール214は、あらかじめトレーニングされたテキスト分類モデルを含み得る。テキスト予測モジュール212および画像予測モジュール214はそれぞれ、たとえば機械学習アルゴリズムといった、従来のテキストベースおよび画像ベースの予測モデルであり得る。図5に示されるように、製品テキスト340の製品名342および/または製品説明344は、テキスト予測モジュール212によって予測され得る。画像310は、画像予測モジュール214によって予測され得る。
【0053】
製品インデキシングシステム100は、製品予測スコア215を含み得る。製品予測モジュール211は、製品予測スコア215を得る製品画像320を分析するために使用され得る。製品予測スコア215は、ある製品カテゴリーに属すると製品予測モジュール211によって予測された製品の確率を示す少なくとも1つの数字であり得る。たとえば、図3を参照して、製品予測モジュールは、製品画像320が靴であるとする製品予測スコアが85%であると予測し得、スリッパであるとする製品予測スコアが40%であると予測し得る。なぜならば、当該製品は、靴に対して高い類似性を有しているからである。製品予測モジュールは、複数の製品について複数の製品予測スコアを提供するよう、複数の製品の製品データを有する製品データベースを分析するように構成され得る。
【0054】
製品予測スコア215は、テキスト予測スコア216および/または画像予測スコア218を含み得る。製品予測モジュール211は、テキストベースおよび視覚ベースの予測モジュールを生成するために、教師あり学習モジュールを使用するように構成され得る。テキスト予測スコア216は、製品データ300がテキスト予測モジュール212によって分析されている場合、テキスト予測モジュール212から得られ得る。画像予測スコア218は、製品データ300が画像予測モジュール214によって分析される場合、画像予測モジュール214から得られ得る。製品予測スコア215は、スコア集約モジュール219を使用してテキスト予測スコア216および画像予測スコア218を集約することにより得られ得る。テキスト予測スコア216には、加重テキスト予測スコアを得るよう、テキスト予測重みが組み込まれ得る。画像予測スコアには、加重画像予測スコアを得るよう、画像予測重みが組み込まれ得る。テキスト予測重みおよび/または画像予測重みは経験的に構成され得る。製品予測スコアに基づいて、製品の(以下に説明されるような)製品カテゴリーが決定され得る。
【0055】
製品インデキシングシステム100は、複数の製品カテゴリーを含み得る。製品の製品カテゴリーは、製品データ300に基づいて決定され得る。製品の製品カテゴリーは製品予測スコア215に基づいて決定され得る。たとえば製品予測スコア215といった製品予測モジュール211の結果に基づいて、製品の製品カテゴリーが識別され得る。製品データ300から得られる製品予測スコア215は、複数の製品カテゴリーから製品の製品カテゴリーを予測するために使用され得る。製品予測スコア215に基づいて、サーバ200は、たとえば製品カテゴリーについて最も高い製品予測スコアといったように、製品に最も適切である製品カテゴリーを、製品についての複数の製品カテゴリーから識別および選択し得る。上述したように、製品予測スコア215は、テキスト予測スコア216および/または画像予測スコア218を含み得る。したがって、製品カテゴリーは、製品データ300の製品テキストおよび/または画像に基づいて識別および選択され得る。言いかえれば、製品名342または製品説明344の少なくとも1つに基づいて、製品カテゴリーが決定され得る。テキスト予測スコア216は製品予測スコア215の構成要素であるので、製品カテゴリーは、製品データ300の製品テキスト340および/または製品画像320に基づいて決定され得る。
【0056】
複数の製品カテゴリーは、複数の製品検出モジュールを含み得る。製品カテゴリーの各々は製品検出モジュールを含み得る。複数の製品検出モジュールの各々は、たとえば衣類、フットウェアまたはハンドバックなどについての製品検出モジュールといったように、製品の各カテゴリーについてあらかじめ規定され得る。製品検出モジュールは、画像310から製品の情報を抽出するように構成され得る。製品検出モジュールは、画像310において製品画像320の位置を抽出するように構成され得る。
【0057】
製品検出モジュールは画像検出モジュールを含み得る。製品検出モジュールはテキスト予測モジュール212を含み得る。テキスト予測モジュール212は、製品データ300からテキスト特徴表現を抽出するように構成され得る。画像検出モジュールは、製品データ300から画像特徴表現を抽出するように構成され得る。製品検出モジュールとテキスト特徴表現および/または画像特徴表現とに基づいて、たとえば回帰、SVM、ニューラルネットワークなどといった教師あり学習方法によって、製品のパラメトリックモデルが学習され得る。特徴表現および学習方法を変更することによって、テキスト特徴表現および/または画像特徴表現の両方について、複数のパラメトリックモデルが学習され得る。製品検出モジュールは、ラベル付けされた製品データセットであり得る。製品検出モジュールは、製品画像において製品を検出するように構成されるあらかじめトレーニングされた製品検出モジュールであり得る。テキスト予測モジュールは、あらかじめトレーニングされたテキスト分類モデルを含み得る。テキスト予測モジュール212はそれぞれ、たとえば機械学習アルゴリズムといった、従来のテキストベース予測モデルであり得る。
【0058】
製品カテゴリーの製品検出モジュールは製品画像を識別するように構成され得る。複数の製品カテゴリーの各々は製品検出モジュールを含み得る。製品検出モジュールはそれぞれの製品カテゴリーについてカスタマイズされ得る。たとえば、製品が靴である場合、製品カテゴリーは「フットウェア」であり得る。「フットウェア」についての製品検出モジュールは、靴、スリッパなどに関係のある画像を検出するように構成され得る。製品予測モジュール211とは異なり、製品検出モジュールは、画像内の製品画像を検出または識別するために、より製品に特化した検出アルゴリズムを有する。したがって、製品検出モジュールが組み込まれることにより、製品画像の品質が高められ、したがって、製品インデックスの品質が高められ得る。製品検出モジュールは、形状モデルを使用して構築される視覚的検出モデルを含み得る。Haar特徴、勾配方向ヒストグラム特徴畳み込みニューラルネットワーク(Histogram of Oriented Gradient Feature Convolutional Neural Network)を画像記述子(image descriptor)として検出モデルが利用され得る。製品インデキシングシステム100は、画像内の製品画像および/またはコンテキスト画像の位置を識別するように構成される画像位置識別モジュールを含み得る。画像位置識別モジュールは、製品検出モジュールから独立していてもよい。
【0059】
製品検出モジュールは、画像内の製品画像および/またはコンテキスト画像の位置を識別するように構成され得る。製品検出モジュールによる画像310における製品の検出中に、画像310における製品の製品位置が得られ得る。製品カテゴリーは、靴、コート、ズボンなどといった視覚的検出モデルを含み得る。そのような検出モデルは形状モデルを使用して構築され得る。Haar特徴、勾配方向ヒストグラム特徴畳み込みニューラルネットワーク(Histogram of Oriented Gradient Feature Convolutional Neural Network)を画像記述子(image descriptor)として検出モデルが使用され得る。
【0060】
製品カテゴリーは、製品画像320とコンテキスト画像330との間の空間関係を規定する条件を有する空間関係モジュールを含み得る。複数の製品カテゴリーの各々についての空間関係モジュールは、当該製品の性質に固有であり得る。したがって、複数の製品カテゴリーの各々についての空間関係モジュールにおける条件は、互いとは異なり得る。
【0061】
製品の製品カテゴリーが決定され得ない可能性が存在し得る。言及されたように、製品予測モジュール211は、製品の製品カテゴリーを予測するために使用され得る。製品予測モジュール211は、製品カテゴリーが決定されない場合、決定されていない製品カテゴリーに製品が属し得ると決定し得る。一般製品カテゴリーは、決定されていない製品を検出するように構成される一般製品カテゴリー検出モジュールを含み得る。一般製品カテゴリー検出モジュールを使用して、決定されていない製品の製品画像320が識別および抽出され得る。決定されていない製品の製品画像320は、「決定されていない」インデックスとしての製品視覚的特徴インデックスの一部分として、インデキシングモジュール250によってインデキシングされ得る。
【0062】
製品カテゴリーは、製品について少なくとも1つのあらかじめ規定された視点(viewpoint)を含み得る。製品検出モジュールは、それぞれの製品カテゴリーについて製品のあらかじめ規定された視点を格納するように構成され得る。たとえば、製品が靴である場合、あらかじめ規定された視点は、靴の左側から見たもの、右側から見たものおよび/または斜めに見たものであり得る。製品カテゴリーは、製品画像320における製品の視点を識別するように構成される視点管理モジュールを含み得る。製品の視点は、たとえば前側から見たもの、左側から見たもの、右側から見たもの、後側から見たもの、斜めからから見たものといった、製品から離れた地点から製品を見たものであり得る。視点管理モジュールは、製品カテゴリーのあらかじめ規定された視点とは異なる視点を有する製品画像320を、製品画像の視点をあらかじめ規定された視点に整列するよう方向付けるように構成され得る。
【0063】
コンテキスト識別モジュール220は、製品が存在し得るコンテキストを識別するように構成され得る。たとえばコートといった画像400の場合、図6に示されるように、コンテキスト画像330はたとえば、顔410、皮膚420、人間430、テキスト440および長方形/円形画像モザイク450を含み得る。コンテキスト識別モジュール220は、コンテキスト画像330を検出するように構成されるあらかじめトレーニングされたコンテキストモデルを含み得る。コンテキスト識別モジュール220は製品画像320に対してコンテキスト識別を行なうように構成され得る。
【0064】
コンテキスト画像330は、画像310または製品画像320に現われる共通の重要でないコンテンツであり得る。たとえば、図6に示されるように、視覚的モデルは、人間、顔、皮膚、テキスト、ボックス型または円型モザイクといったコンテキストオブジェクトについて構築され得る。これらのコンテキスト画像330は、製品に関係付けられ得るが、製品には重要でないものであり得る。
【0065】
コンテキスト識別モジュール220は、たとえば人間、顔およびテキストといった形状を検出するためにエッジ特徴記述子を有する形状モデルを含み得る。エッジ特徴記述子を有する形状モデルは、Haar特徴、畳み込みニューラルネットワークからの勾配方向ヒストグラム特徴またはピクセル畳み込みカーネル(Pixel Convolutional Kernel)を含み得る。
【0066】
コンテキスト識別モジュール220は、たとえば人間の皮膚といったような色に関係するコンテキスト画像330を識別するよう、たとえば色の混合ガウスモデル(GMM: Gaussian Mixture Model)といった従来の方法を使用し得る。
【0067】
コンテキスト識別モジュール220は、モザイクボックス/円のようなコンテキスト画像を予測するエッジ検出器、ライン検出器、円検出器およびコーナー検出器を含み得る。たとえばハフ変換(Hough Transform)といった、エッジ検出器、ライン検出器、円検出器およびコーナー検出器は、すべての高確率ボックス、円/楕円を検出し、当該ボックス、円/楕円を出力として生成するように実現され得る。
【0068】
コンテキスト画像330は、製品画像を抽出する際に除去される必要があり得る製品画像のエリアであり得る。コンテキスト画像330は、より正確な製品カテゴリー予測および/または位置予測に使用され得る。
【0069】
製品画像は、製品検出モジュール、製品予測モジュール211およびコンテキスト識別モジュール220のうちの少なくとも1つから得られた前述の結果に基づいて、照合モジュール230によって選択され得る。製品インデキシングシステム100は、製品画像320を選択するように構成される製品画像選択モジュールをさらに含み得る。製品画像選択モジュールは、照合モジュール230から独立していてもよい。
【0070】
たとえば空間関係モジュール、製品予測モジュール211からの予測された製品画像、および、コンテキスト識別モジュール220からのコンテキスト画像といった製品カテゴリーにおいて発見される製品に関係する情報は、照合モジュール230に供給され得る。照合モジュール230は、製品画像320のより正確な結果を生成するようすべての結果を分析し得る。
【0071】
コンテキスト識別モジュール220がひとたびコンテキスト画像330を識別すると、コンテキスト画像330は、画像310における製品画像320を照合するように使用され得る。照合モジュール230は、たとえば空間関係、時間関係といった、製品画像320とコンテキスト画像330との間の関係を識別するように構成され得る。画像位置識別モジュールは、画像310におけるコンテキスト画像330の位置を識別するように構成され得る。コンテキスト画像330の位置は、画像位置識別モジュールによって、画像310における製品の検出中に得られ得る。照合モジュール230は、製品画像320とコンテキスト画像330との間の空間関係または位置関係を照合するように構成される空間関係モジュールを含み得る。空間関係モジュールは、製品画像320とコンテキスト画像330との間の関係に関係する条件を有する視覚文法モジュールを含み得る。
【0072】
製品インデキシングシステム100は、製品画像320の正確さを照合するために、製品画像の照合において、製品検出モジュール、製品予測モジュール211およびコンテキスト識別モジュール220から得られる結果を利用し得る。
【0073】
たとえば、図6に示されるように、コンテキスト識別モジュール220は、たとえば顔410、皮膚420、人間430といった複数のコンテキスト画像330と、当該複数のコンテキスト画像330の位置とを識別し得る。たとえば顔および人体のいくつかの部分といった複数のコンテキスト画像330は、製品画像、すなわちコート、には該当しない場合があるが、当該複数のコンテキスト画像330は、製品画像320の位置を推論するのに重要であり得る。
【0074】
視覚文法モジュールは、上記3つのモジュール、すなわち製品検出モジュール、製品予測モジュール211およびコンテキスト識別モジュール220のうちの少なくとも1つについての予測結果をマージするために使用され得る。視覚文法モジュールは、空間関係有効性文法を含み得る。視覚文法モジュールは、製品画像320の位置とコンテキスト画像330の位置との間の空間関係を分析し得、無効な製品コンテキスト関係を有する製品画像320をフィルタリングし得る。視覚文法モジュールは、製品画像位置に対して改良を行ない得る。空間関係分析の結果に基づいて、製品画像320の予測は正しいが、製品画像320の位置はどういう訳か十分に正確でない場合があるということが分かり得る。視覚文法モジュールは、線形モデルを使用してコンテキスト画像330のうちの少なくとも1つに基づいて製品画像320を照合し得る。たとえば、たとえばコートといった製品画像の境界座標を顔ボックス412座標から予測し得る。視覚文法モジュールは、製品画像320の予測を改善するために、既存の製品検出モジュールから手動で調整または学習され得る予測パラメータを含み得る。
【0075】
製品インデキシングシステム100は、製品画像320を規定するように構成される製品画像規定モジュールを含み得る。図6に示されるように、製品画像およびコンテキスト画像をそれぞれ規定するように、製品ボックスおよびコンテキストボックスが使用され得る。たとえば、コンテキストボックスは、顔410の位置を識別する顔ボックス412と、皮膚420の位置を識別する皮膚ボックス422と、人間430の位置を識別する人間ボックス432と、テキスト440の位置を識別するテキストボックス442と、画像モザイク450の位置を識別する画像モザイクボックス452とを含み得る。示されるように、ボックスは、ボックス内に制限されるエリアを規定するために使用される。当該ボックスは、画像の境界を示すために使用される円形形状、正方形形状、あるいは任意の他の形状であり得る。
【0076】
視覚文法モジュールにおける規定の例は、次のものを含み得る。
・製品ボックス(図6に示されない)は、画像モザイクボックス/円内に存在するべきである。
【0077】
・上部衣服ボックス(図6に示されない)は、人間ボックス432を超えるべきではない。上部衣服ボックスの上部境界は顔ボックス412の中間部を超えるべきではない。
【0078】
・製品ボックス内の皮膚エリアは、しきい値(しきい値は製品カテゴリーによって変動し得る)を越えるべきではない。別の態様では、1)顔の色が皮膚予測に使用されていなければ、その皮膚エリアは無効であると考えられる(皮膚の予測が不正確である場合)、2)顔の色が皮膚の予測に使用されていれば、製品ボックスは無効である。
【0079】
・皮膚エリアは、製品画像に対するノイズデータとなる可能性が高いので、製品ボックスにおけるすべての皮膚エリアを除去する。
【0080】
製品カテゴリーは、視覚文法モジュールにおける規定を規定し得る。したがって、視覚文法は、製品の製品カテゴリーに従って柔軟に変動または変更され得る。
【0081】
コンテキスト画像330、すなわち写真コンテキスト情報、の使用は、製品画像320の識別において重要な要素であり得る。モデルベースのコンテキスト予測は、同様の画像処理アプローチと比較して、より一般的であり得る。図6に示されるように、テキスト、ボックス型または円型のモザイク、および人間といった共通の重要でないコンテキスト情報に関して、モデルが構築され得る。
【0082】
コンテキスト識別モジュールは、たとえば日の時間、年の季節といった時間関係データを検出し得る。時間関係データは、日の時間または年の季節に関係があり得る製品を識別するように使用され得る。たとえば、雪は、人が着用する服が冬服であり得ることを示し得る。示されるように、コンテキスト画像は、コンテキスト背景画像であり得る。別の例では、コンテキスト背景画像は、たとえばやかん、鉢といった少なくとも1つのキッチンアイテムであり得、製品画像は、キッチンアイテムのコンテキストにある視覚文法を使用して比較され得る。視覚文法は、物体対風景の関係条件および/または物体対物体の関係条件を含み得る。
【0083】
インデキシング目的で製品画像が抽出される場合、後で説明されるように、コンテキスト画像は除去され得る。
【0084】
以前に言及したように、製品に必要とされる視点は、製品カテゴリーにおいてあらかじめ規定され得る。たとえば、靴の場合、側面から見たものの鏡面反転バージョンが、生成およびインデキシングされる必要があり得る(図7(d)参照)。
【0085】
製品画像320は、異なる製品視点を生成するために、抽出され、視点管理モジュールに供給され得る。異なる製品は、たとえば対称、回転不変などといった異なる形状的特徴を有するので、視点管理モジュールは異なる製品カテゴリーに従って設計され得る。視点管理モジュールは、製品の必要とされる視点を予測するよう形状モデルを利用し得る。これにより、製品インデキシングシステム100の計算コストはかなり低くなる。
【0086】
製品の視点が完成すると、当該視点はインデキシングされ得る。より多くの視点を生成することによって、製品の製品インデックスが増強され得、これにより、製品の視覚インデックス品質が改善される。
【0087】
製品は、異なる視点から見ると、異なって見え得る。したがって、製品の視点は、さまざまなユーザの問合せから統一された検索結果を得るために、さらに処理される必要があり得る。製品位置および視点が良好に予測される場合、鏡面反転による視界回転した視界といったような他の視点からの製品の視点が合成され得る。
【0088】
製品画像320は製品カテゴリーに基づいて識別され得る。図7は、製品画像がインデキシングされるフローチャート380を示す。画像310は、画像予測モジュール214によって予測され得る。
【0089】
以前に言及したように、製品検出モジュールは、画像310における製品画像320の位置および製品の視点を検出するように構成され得る。製品検出モジュールの画像位置識別モジュールは、画像座標における製品の位置を予測するために使用され得る。図7(a)を参照して、製品画像320がひとたび検出されると、製品画像ボックス322が製品画像320の画像エリアを規定するように生成され得る。
【0090】
図7(b)を参照して、視点管理モジュールは、製品の視点(製品画像ボックス322の矢印によって示される)を検出するように使用され得る。たとえば、2足の靴が、45°および90°回転された靴モデルによって検出され得る。
【0091】
図7(c)を参照して、製品カテゴリーにおける製品のあらかじめ規定された視点に基づいて、製品画像320は、製品画像ボックスの境界に沿って抽出され、当該製品についての製品カテゴリーのあらかじめ規定された視点に整列され得る。図7(c)に示されるように、右側の靴の製品画像320は、製品カテゴリーにおいて規定されるように、90°反時計回りに回転され得る。製品画像320が製品画像においてあらかじめ規定された視点に既に整列している場合、製品画像は回転される必要はない。製品320の製品画像がひとたび得られると、製品画像320は、製品視覚的特徴インデックスとしてインデキシングされ得る。製品画像320が、たとえば側面から見たものといったような製品の視点を含んでいると、視点インデックスが生成され得る。製品インデックスおよび/または視点インデックスは、製品視覚的特徴インデックスに保存され得る。
【0092】
図7(d)を参照して、たとえば靴形状モデルといった製品は、側面から見たものと正面から見たものという2つの視点を有し得る。視点インデックスは、検索問合せも視点インデックスでラベル付けされている場合、検索を容易にし得る。
【0093】
製品カテゴリーによって必要とされるようなあらかじめ規定された視点に依存して、他の視点も視点管理モジュールによって生成され得る。たとえば図7(d)を参照して、視点管理モジュールは、製品画像320の鏡面反転した視点または回転した視点324を生成し得る。電子商取引製品データのほとんどは対称および回転不変ではない。したがって、検索に有用な視点を生成することが必要であり得る。
【0094】
製品画像320が識別および/または改良されると、製品の視覚的特徴説明が製品画像320から抽出され得る。製品カテゴリーは、異なる製品カテゴリーが異なる抽出パラメータに帰着し得るので、製品画像320の抽出に必要であり得る視覚的特徴抽出パラメータを含み得る。製品視覚的特徴インデックスは製品画像320から構築され得る。最終製品視覚的特徴インデックスは、ハッシングおよび転置インデックスのような一般的なデータインデキシング技術に基づいて、製品カテゴリーおよび抽出された視覚的特徴を使用して構築され得る。製品カテゴリーは、製品のより正確なインデキシングを提供するために、視覚的特徴抽出およびインデキシングに使用されてもよい。
【0095】
図8は、製品画像320のインデキシングの例示的な方法304のフローチャートを示す。図8(a)に示されるように、製品画像320は、製品予測モジュール211を使用して画像310から予測され得る。たとえば、製品予測モジュール211は、コートであると製品画像320を識別している。サーバ200は、製品画像320のまわりに製品画像ボックス322を生成することにより、製品画像320を選択し得る。製品予測スコア216は、製品予測モジュール211によって生成され得た。サーバ200は、製品予測スコア216に基づいて、コートについての製品カテゴリーを要求し得る。サーバ200は、製品画像320における製品を検出するように製品検出モジュールをアクティベートし得る。図8(b)を参照して、サーバ200は、たとえば画像310における人間のようなコンテキスト画像330を識別するためにコンテキスト識別モジュール220をアクティベートし得る。照合モジュール230を使用して、コンテキスト画像330は、製品画像320と比較され、かつ、たとえば視覚文法モジュールを使用して製品画像320を照合するように使用され得る。図8(c)を参照して、視覚文法に基づいて、サーバ200は、製品画像ボックス322を拡大させることによって製品画像320を改良し得、これにより、製品画像ボックス322内の製品をより良好に規定およびカプセル化する。図8(d)を参照して、コンテキスト識別モジュール220は、複数のコンテキスト画像330を識別し得、複数のコンテキスト画像330(図8(e)を参照)をマスキングし得る。サーバ200は、抽出モジュール240を使用して製品画像320を抽出し得る。製品画像320を抽出する際に、サーバ200は、複数のコンテキスト画像330、すなわちノイズ、から製品画像330を分離するよう製品画像320から複数のコンテキスト画像330を除去し得る。その後、製品画像320は、製品視覚的特徴インデックスを形成するために、インデキシングモジュール250を使用してインデキシングされ得る。複数のコンテキスト画像330の除去により、製品についての製品視覚的特徴インデックスの正確さが改善され得る。
【0096】
図9は、例示的な製品インデキシング方法900のフローチャートを示す。製品データ300を受信すると、製品識別モジュール210は、製品画像320を識別するよう製品データ300を分析するために使用され得る。製品画像320は、製品予測モジュール211を使用して画像310から識別され得る。画像310における製品のタイプは製品予測モジュール211によって予測され得る。製品予測モジュール211は、製品の製品カテゴリー350を予測するために使用され得る。製品カテゴリー350を識別する際、製品カテゴリー350に関係する製品検出モジュール260が、画像310における製品画像320を識別するように使用され得るとともに、たとえば取得されるべき視点を決定するといった他の機能のために使用され得る。コンテキスト画像330は、コンテキスト識別モジュール220によって画像310から識別され得る。製品画像320は、製品画像310、製品カテゴリー350およびコンテキスト画像330のうちの少なくとも1つからの入力を考慮することによって、照合モジュール230によって照合され得る。照合に基づいて、製品画像320が改良され得、改良された製品画像320が抽出モジュール240によって抽出され得る。画像310から抽出された製品画像320は、製品視覚的特徴インデックス370を得るよう、インデキシングモジュール250によってインデキシングされ得る。
【0097】
ユーザ検索問合せ画像も製品インデキシングシステム100によって処理され得る。製品インデキシングシステム100における上記のモジュールのうちの任意の1つ以上のものが、ユーザ検索問合せ画像について実行され得る。たとえば、視点管理モジュールは、ユーザ検索問合せの画像を鏡面反転または回転し得る。
図1
図2
図3
図4
図5
図6
図7
図8
図9