(58)【調査した分野】(Int.Cl.,DB名)
前記畳み込みニューラルネットワークが少なくとも5つの畳み込み層、2つの完全接続層、および1つのソフトマックス層を含むことを特徴とする、請求項3に記載の商品画像のセグメンテーション方法。
前記本体位置クラスが、少なくとも以下のクラス:複雑な多体画像、二体画像、単体標準画像、単体標準画像よりも狭い画像、および単体標準画像よりも広い画像のうちの1つまたはその組合せを含むことを特徴とする、請求項6に記載の商品画像のセグメンテーション方法。
前記商品画像の中心に近いほど、商品本体である重みが大きくなり、前記商品画像の前記中心から遠いほど、商品本体である前記重みが小さくなるように、前記重み分布場を構成するステップを更に含むことを特徴とする、請求項1に記載の商品画像のセグメンテーション方法。
前記商品画像の中心に近いほど、商品本体である重みが大きくなり、前記商品画像の前記中心から遠いほど、商品本体である前記重みが小さくなるように、前記重み分布場を構成する重み分布場構成装置を更に含むことを特徴とする、請求項10に記載の商品画像のセグメンテーション装置。
【発明の概要】
【発明が解決しようとする課題】
【0003】
概要
本発明の目的は、商品画像から商品本体を正確にセグメンテーションすることができる商品画像のセグメンテーション方法および装置を提案することである。
【課題を解決するための手段】
【0004】
上述の技術的課題を解決するために、本発明の実施形態は、画像分類を実行するように最初に画像分類器をトレーニングし、次いで画像分類の結果に応じて商品本体をセグメンテーションする商品画像のセグメンテーション方法を開示する。本方法は、
商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行するステップと、
画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択するステップであって、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場(weight distribution field)を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す、ステップと、
商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行するステップと
を含む。
【0005】
本発明の実施形態はまた、
商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行する分類装置と、
分類装置からの画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択する重み構成装置であって、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す、重み構成装置と、
商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行するセグメンテーション装置と
を含む、商品画像のセグメンテーション装置を開示する。
【0006】
従来技術と比較して、本発明の実施形態の主な差異および利点は以下の通りである。
【0007】
第1に、本発明は、画像セグメンテーション前に最初に本体位置に応じて画像を分類する。画像が直接セグメンテーションされる既存の技術と比較して、画像分類後のセグメンテーション結果が最適化される。
【0008】
更に、深層学習法が利用される。すなわち、分類が合理的であり、かつ分類効果も良好であるように、画像分類器としての役割を果たすように畳み込みニューラルネットワークがトレーニングされる。
【0009】
更に、畳み込みニューラルネットワークはトレーニング集合に基づいてトレーニングされ、トレーニング集合を構築する過程において、分類前にクラスタリングが実行され、それは、ビッグデータを処理する際の分類の精度を大幅に向上させ、かつ作業負荷およびコストを低減することができる。
【0010】
更に、商品画像の中心に近いほど、商品本体である重みが大きくなり、および商品画像の中心から遠いほど、商品本体である重みが小さくなるように、画像セグメンテーションテンプレートの重み分布場が構成され、従って、より正確なセグメンテーション結果を実現することが可能である。
【図面の簡単な説明】
【0011】
【
図1】本発明の第1の実施形態における商品画像のセグメンテーション方法の概略フローチャートである。
【
図2】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、CNNネットワークの概略構造図である。
【
図3】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する概略フローである。
【
図4】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のHOG機能抽出の概略構成図である。
【
図5】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。
【
図6】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。
【
図7】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。
【
図8】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。
【
図9】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。
【
図10】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。
【
図11】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。
【
図12】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。
【
図13】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。
【
図14】本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。
【
図15】本発明の第2の実施形態における商品画像のセグメンテーション装置の概略構造図である。
【発明を実施するための形態】
【0012】
詳細な説明
以下の説明において、本出願に対する読者の理解を深めるために多くの技術的詳細が提示される。しかし、当業者は、本出願に添付される請求項に記載された技術的解決策がこれらの技術的詳細なしに実施可能であり、各種の変更形態および変形形態が以下の実施形態に基づくことを理解するであろう。
【0013】
本発明の上述の目的、技術的解決策および利点を分かり易くするために、本発明の実施形態について添付の図面を参照しながら以下に詳細に記述する。
【0014】
本発明の第1の実装形態は商品画像のセグメンテーション方法に関する。
図1は、商品画像のセグメンテーション方法の概略フローチャートである。
【0015】
具体的には、本セグメンテーション方法において、画像分類の結果に応じて商品本体をセグメンテーションする。
図1に示すように、商品画像のセグメンテーション方法は以下のステップを含む。
ステップS101において、商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行する。
【0016】
その後、処理フローはステップS102へ進み、画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択し、ここで、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す。
【0017】
その後、処理フローはステップS103へ進み、商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションステップを実行する。
【0019】
上述のステップで分かるように、本発明は、画像セグメンテーション前に最初に本体位置に応じて画像を分類する。画像が直接セグメンテーションされる既存の技術と比較して、画像分類後のセグメンテーション結果が最適化される。
【0020】
ステップS101で実行される画像分類において、画像分類は深層学習法により実行され、分類は合理的かつ良好な効果を有する。当然のことながら、他の画像分類方法も本明細書において非限定的に適用可能である。
【0021】
本明細書で用いる深層学習法は、人工ニューラルネットワークに関するものであり、特に、画像分類器としての役割を果たすように畳み込みニューラルネットワーク(CNNネットワーク)をトレーニングすることに関する。
【0022】
畳み込みニューラルネットワーク以外にも、例えば、自動エンコーダ、疎符号化、制限付きボルツマン機械(RBM)、ディープビリーフネットワーク(DBN)等、他のあらゆる深層学習法が適用できることが理解され得る。
【0023】
画像分類器としてCNNネットワークを用いる場合、CNNネットワークは、深層ネットワークであり、例示的構造として
図2に示すように、5つの畳み込み層、2つの完全接続層、および1つのソフトマックス層を含む8層構造である。これに加え、CNNネットワークはまた、例えば、ダウンサンプリング層、または異なる数の畳み込み層等を含む別の構造内にあってもよいことが理解され得る。
【0024】
上述のCNNネットワークをトレーニングするために、トレーニング集合が最初に構築される。
図3は、トレーニング集合を構築する例示的なフローを示す。このフローにおける各ステップは、実際の要件に応じて調整可能であり、フロー全体が
図3に示す態様に限定されないことが理解され得る。
【0025】
図3に示すように、トレーニング集合の構築は以下のステップを含む。
ステップS201において商品画像を取得する。
【0026】
その後、ステップS202へ進み、取得した商品画像からの複数の特徴の抽出を実行する。
【0027】
その後、ステップS203へ進み、抽出された複数の特徴に応じて、取得した商品画像をクラスタリングし、クラスタの数はAである。
【0028】
その後、ステップS204へ進み、A個のクラスタの商品画像を確認し、商品画像内の本体位置に応じて、クラスタのうちのいくつかにおける全ての画像が同じ本体位置クラスに分類され、および他のクラスタにおける画像が各種の異なる本体位置クラスに分類され、本体位置クラスの数はBであり、AおよびBは両方とも整数であり、かつA>B≧2である。
【0030】
理解を容易にするために、上述のステップに従ってトレーニング集合を構築する例を以下に示す。本例において、処理対象は衣服商品画像である。本例は一例に過ぎず、本発明がこれに限定されることなく他の商品画像にも適用可能であることが理解され得る。
【0031】
最初に、クローラーを用いて商品画像をダウンロードする。本例では、Taobaoプラットフォーム上の女性用ドレスのカテゴリのデータをダウンロードし、データの数は100万個のオーダー、すなわちビッグデータである。画像をダウンロードし、次いて後続処理のために標準化することにより、全ての画像を同じサイズ、例えば解像度256×256に縮尺する。
【0032】
次に、データの2つの特徴、すなわち有向勾配(HOG)特徴のヒストグラムおよび画像サイズ特徴を抽出する。
図4に示すように、例えばHOG特徴の抽出に際して、1ブロックのサイズが96に設定され、ブロックはスライドしながら画像を横断的に移動し、ブロックの距離は40に設定され、各ブロックは4つのセルに分割されているため、セルのサイズは48に設定され、各セルの方向数は9に設定されている。簡単に言えば、HOG特徴の抽出は、画像(x、y、z(グレイスケール)三次元画像として撮像)をグレー階調化し、次いでそれを4つの小セルに分割して、各セル内の各画素の勾配(すなわち方位)を計算して、最後に勾配のヒストグラム(異なる勾配の数)を作成し、これにより各セルのHOG記述子を形成することができる。複数の画像が画像のHOG特徴およびサイズ特徴に応じてクラスタリングされて、A個のクラスタが得られ、Aは例えば512である。
図5〜9は、クラスタリング結果の画像のいくつかの例である。
【0033】
最後に、複数の画像がクラスタリング結果に応じて分類される。A個のクラスタの商品画像を確認することにより、商品画像内の本体位置に応じて、大多数の場合に、クラスタのいくつかにおける全ての画像が同じ本体位置クラスに分類され、および少数の場合に、他のクラスタにおける画像が各種の異なる本体位置クラスに分類される。本体位置クラスの数はBであり、Bは例えば5である。5つのクラスは各々、例えば、複雑な多体画像、二体画像、単体標準画像、単体標準画像よりも狭い画像、および単体標準画像よりも広い画像である。これらのクラスの例を
図10〜14に示す。
図10は複雑な多体画像、
図11は二体画像、
図12は単体標準画像、
図13は単体標準画像よりも狭い画像、および
図14は単体標準画像よりも広い画像である。
【0034】
AおよびBは両方とも整数であり、かつA>B≧2であり、先行する数により制限されない。トレーニング集合を構築する処理において、クラスタリングは分類前に実行されるため、ビッグデータを処理する際の分類の精度を大幅に向上させ、かつ作業負荷およびコストを低減することができる。
【0035】
ここで上述のステップS102について具体的に記述する。ステップS102において、画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択し、ここで、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場は、商品画像内の各画素が前景または背景に属する確率を表す。
【0036】
例えば、5つのクラスがあり、5つのクラスは各々、例えば、複雑な多体画像、二体画像、単体標準画像、単体標準画像よりも狭い画像、および単体標準画像よりも広い画像である。動作は以下のように実行される。
【0037】
複雑な多体画像の場合、画像セグメンテーションは実行されない。
【0038】
二体画像、単体標準画像、単体標準画像よりも狭い画像、および単体標準画像よりも広い画像の場合、本体位置テンプレートは各々定義されており、本体位置テンプレートの位置パラメータは互いに異なる。
【0039】
本体位置テンプレート用に構成された重み分布場の設計原理は、中心に近いほど、衣服本体である確率が大きく(すなわち重みが大きい)、中心から遠いほど、衣服本体である確率が小さい(すなわち重みが小さい)。従来の重み分布構成では、画素点の分布はそれらの色に応じて決定されるため、良好なセグメンテーション効果が得られないのに対し、本発明では、分布が本体位置により決定されるため、セグメンテーション効果が大幅に向上する。
【0040】
各画素点pに対して、例えば画素が前景または背景に属する確率、すなわち画素が商品本体である確率が以下の定義式により定義される。
【数1】
ここで、d(p)はpの画像中心点への距離測定値である。
【0041】
異なる種類の画像を処理するために、異なる本体位置テンプレートに対して位置パラメータa、bを導入する。
【0042】
具体的には
【数2】
であり、ここで、centerは画像の中心点を指し、center.xおよびcenter.yは中心点の水平および垂直座標を表す。p.xおよびp.yは各々、点pの水平および垂直座標を表す。
【0043】
位置パラメータは例えば以下のように設定することができる。
単体標準画像の場合、a=0.3、b=0.8に構成され、
単体標準画像よりも狭い画像の場合、a=0.2、b=0.79に構成され、
単体標準画像よりも広い画像の場合、a=0.4、b=0.81に構成され、および
二体画像の場合、最初に画像の左半分が撮像され、次いで単体標準画像として処理される。
【0044】
ここで上述のステップS103について詳述する。ステップS103において、商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行する。例えばGraph Cutsを用いて画像をセグメンテーションする。
【0045】
Graph Cuts以外の他の画像セグメンテーション方法、例えばGrabCutも本発明に適用できることが理解され得る。
【0046】
Graph Cutsによる画像セグメンテーションの実行について詳述する。
【0047】
各画像に対して、例えば解像度が256×256の場合、256×256個のセルを有する画像が生成され、各画素点位置は通常のノードであり、各通常のノードは各々、上下左右側が4つのノードに接続されたエッジを有している。各エッジは重みを有し、エッジのそのような重みは通常の重みであり、画素点同士の類似点に応じて構成されている。
【0048】
一方が前景ノード、他方が背景ノードである2つの仮想ノードを画像に追加する。各々の通常ノードは前景ノードに接続され、かつ背景ノードにも接続されている。前景ノードに接続された通常ノードの前方接続線の重み、および背景ノードに接続された通常ノードの後方接続線の重みは、ステップS102で重み分布場に応じて計算することにより得られる。すなわち、この重み分布場は、商品画像内の各画素が前景(商品本体)または背景に属する確率を表す。
【0049】
画像および重みが構成されると、画像は、合理的な方法で2つの部分に分割され、前景ノードに接続された部分が商品本体である。
【0050】
本発明の方法の各実装形態は、ソフトウェア、ハードウェア、ファームウェア等により実現可能である。本発明がソフトウェア、ハードウェア、またはファームウェアのいずれにより実現されるかに拘わらず、命令コードを任意の種類のコンピュータのアクセス可能なメモリ(例えば、永久または変更可能、揮発性または不揮発性、固体または非固体、固定または交換可能な媒体等)に保存することができる。同様に、メモリは例えばプログラム可能アレイ論理(略してPAL)、ランダムアクセスメモリ(略してRAM)、プログラム可能読み出し専用メモリ(略してPROM)、読み出し専用メモリ(略してROM)、電気的消去可能プログラム可能ROM(略してEEPROM)、ディスク、光ディスク、デジタル多用途ディスク(略してDVD)等であってよい。
【0051】
本発明の第2の実装形態は、商品画像のセグメンテーション装置に関する。
図15は、商品画像のセグメンテーション装置の概略構造図である。
図15の構造に限定されることなく、実際の要件に応じて本発明の現実の構造に対して必要な調整を行ってよい。
【0052】
具体的には、商品画像のセグメンテーション装置は、画像分類の結果に応じて商品本体をセグメンテーションすることができる。
図15に示すように、セグメンテーション装置100は、
商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行する分類装置101と、
分類装置からの画像分類の結果に応じて、異なるクラスの商品画像に対するそれぞれの本体位置テンプレートを選択する重み構成装置102であって、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す、重み構成装置102と、
商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行するセグメンテーション装置103と
を含む。
【0053】
第1の実装形態は、本実装形態に対応する方法実装形態であり、本実装形態は第1の実装形態と協同して実施可能である。第1の実装形態で言及した関連技術の詳細は依然として本実装形態で有効であり、反復を避けるために以下では記述しない。従って、本実装形態で言及する関連技術の詳細も第1の実装形態に適用可能である。
【0054】
必須ではないが選択肢として、セグメンテーション装置100は、トレーニング集合を構築するトレーニング集合構築装置104(
図15に示さず)を更に含み、トレーニング集合構築装置により構築されたトレーニング集合が、分類装置をトレーニングするために使用される。
【0055】
必須ではないが選択肢として、セグメンテーション装置100は、商品画像の中心に近いほど、商品本体である重みが大きくなり、および商品画像の中心から遠いほど、商品本体である重みが小さくなるように、重み分布場を構成する重み分布場構成装置105(
図15に示さず)を更に含む。
【0056】
本発明の装置実施形態で言及した各種装置が全て論理装置であってよく、物理的に論理装置は物理装置であってよく、また物理装置の一部であってもよく、更に複数の物理装置の組合せで実装されてもよいことに注意されたい。これらの論理装置の物理的実装形態自体はそれほど重要でないが、これらの論理装置により実現される機能の組合せは、本発明で提案する技術的課題を解決するうえで重要である。また、本発明の新規性を強調するために、本発明の上述の各種装置実施形態では、本発明で提案する技術的課題と密接に関連しない装置について紹介していないが、これは、上述の装置実施形態に他の装置が一切存在しないという意味ではない。
【0057】
本特許の請求項および記述において、第1、第2等の関係用語は、ある主体または動作を別の主体または動作から区別するために用いているに過ぎず、これらの主体または動作間に何らかの実際の関係または順序が存在することを要求または示唆するものではないことに注意されたい。更に、用語「包含する」、「含む」、またはこれらの任意の変化形は非排他的包含を意味し、従って、要素のリストを含む処理、方法、部品、または装置が必ずしもその要素に限定されず、明示的に列挙しない他の要素を含んでいてよく、または更にそのような処理、方法、部品、または装置に固有の要素を含む。別途限定しない限り、「1つ(a)/1つ(an)を含む」によって限定された要素は、その要素を含む処理、方法、部品、または装置に同じ要素が別途存在することを排除しない。
【0058】
本発明について、本発明のいくつかの好適な実施形態を参照しながら図示および説明してきたが、当業者は、本発明の範囲から逸脱することなく、本発明の形式および詳細に対して各種の変更形態がなされ得ることが理解されるであろう。