IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特開2023-180062情報処理装置、情報処理方法及びプログラム
<>
  • 特開-情報処理装置、情報処理方法及びプログラム 図1
  • 特開-情報処理装置、情報処理方法及びプログラム 図2
  • 特開-情報処理装置、情報処理方法及びプログラム 図3
  • 特開-情報処理装置、情報処理方法及びプログラム 図4
  • 特開-情報処理装置、情報処理方法及びプログラム 図5
  • 特開-情報処理装置、情報処理方法及びプログラム 図6
  • 特開-情報処理装置、情報処理方法及びプログラム 図7
  • 特開-情報処理装置、情報処理方法及びプログラム 図8
  • 特開-情報処理装置、情報処理方法及びプログラム 図9
  • 特開-情報処理装置、情報処理方法及びプログラム 図10
  • 特開-情報処理装置、情報処理方法及びプログラム 図11
  • 特開-情報処理装置、情報処理方法及びプログラム 図12
  • 特開-情報処理装置、情報処理方法及びプログラム 図13
  • 特開-情報処理装置、情報処理方法及びプログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023180062
(43)【公開日】2023-12-20
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231213BHJP
   G06V 10/774 20220101ALI20231213BHJP
   G06N 99/00 20190101ALI20231213BHJP
【FI】
G06T7/00 350B
G06V10/774
G06N99/00 180
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022093145
(22)【出願日】2022-06-08
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】坂井 亮介
(72)【発明者】
【氏名】白石 壮馬
(72)【発明者】
【氏名】金子 智一
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA22
5L096HA11
5L096JA05
5L096KA04
(57)【要約】
【課題】元画像と変換画像との類似の程度を考慮して画像識別モデルを学習させる情報処理装置を実現する。
【解決手段】情報処理装置(1)は、元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、元画像のクラスと画像変換パラメータとに応じた疑似クラスを付与する学習データ生成部(12)と、画像変換パラメータごとに決定されたクラスと疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成する学習用損失決定部(13)と、変換画像と目的関数とを用いて画像識別モデルを学習させる学習部(14)と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、前記元画像のクラスと前記画像変換パラメータとに応じた疑似クラスを付与する学習データ生成手段と、
前記画像変換パラメータごとに決定された前記クラスと前記疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成する学習用損失決定手段と、
前記変換画像と前記目的関数とを用いて画像識別モデルを学習させる学習手段と
を備えている情報処理装置。
【請求項2】
前記画像識別モデルは距離計量学習により学習されるモデルであり、前記目的関数は、前記画像識別モデルが出力する画像の推定クラスの尤度分布を調整するマージンの強度を前記補正項として反映した損失関数である
請求項1に記載の情報処理装置。
【請求項3】
前記学習用損失決定手段は、複数のクラスの前記元画像の変換画像に対して、当該元画像を変換する前記画像変換パラメータごとに共通の前記補正項を決定する
請求項1に記載の情報処理装置。
【請求項4】
前記学習用損失決定手段は、複数のクラスの前記元画像の変換画像に対して、当該元画像を変換する前記画像変換パラメータとクラスに依存した前記補正項を決定する
請求項1に記載の情報処理装置。
【請求項5】
前記学習用損失決定手段は、前記画像変換パラメータに対する前記補正項を、補正項生成モデルを用いて決定する
請求項1から4のいずれか一項に記載の情報処理装置。
【請求項6】
前記画像変換パラメータごとに決定された前記補正項を記憶する学習用パラメータ記憶手段を更に備える
請求項1から4のいずれか一項に記載の情報処理装置。
【請求項7】
前記学習手段は、所定の前記画像変換パラメータを用いて生成された前記変換画像を用いる頻度を変更して前記画像識別モデルを学習させる
請求項1から4のいずれか一項に記載の情報処理装置。
【請求項8】
少なくとも1つのプロセッサが、
元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、前記元画像のクラスと前記画像変換パラメータとに応じた疑似クラスを付与すること、
前記画像変換パラメータごとに決定された前記クラスと前記疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成すること、
前記変換画像と前記目的関数とを用いて画像識別モデルを学習させること、
を含む情報処理方法。
【請求項9】
コンピュータに、
元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、前記元画像のクラスと前記画像変換パラメータとに応じた疑似クラスを付与する処理と、
前記画像変換パラメータごとに決定された前記クラスと前記疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成する処理と、
前記変換画像と前記目的関数とを用いて画像識別モデルを学習させる処理と、
を実行させる情報処理プログラム。
【請求項10】
請求項9に記載の情報処理プログラムを記録した非一時的記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
対象画像に対して画像識別処理を適用する技術が知られている。また、モデルに画像を識別するための機械学習を行わせる学習データを機械的に生成することができる学習データ生成装置が知られている。例えば、特許文献1には、教師あり学習に基づくパターン識別器であって、画像データ等の未知データに対して、識別モデルを生成する際に訓練データに対して行ったデータ拡張と同じ方法でデータ拡張を行って疑似未知データを生成するデータ拡張部と、疑似未知データを識別モデルに適用し、それらの結果の期待値に基づいてクラス分類を行う識別部とを備える識別器が開示されている。この技術により、訓練データを拡張して学習をした上で、未知データの識別をするに際して、未知データをどのクラスに割り当てるかに関するルール(決定則)を改良して、識別性能を向上することができるとされている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2015-095212号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、商品識別モデルのための学習用画像は、学習に適した画像を新たに生成することが難しい。例えば、商品識別のための学習用画像は、既存の商品画像に色変換、文字変換、左右(水平)反転等の処理を施して生成することができるが、このような画像を用いて学習させたモデルは、時としてユーザから見ると容易と思われる画像識別ができない場合があることがわかった。発明者らが検討した結果、これは学習段階において、画像変換処理をした画像が同一クラスの商品と見なすことができないデータを生成し、学習に用いたことが考えられた。
【0005】
また、画像変換処理をした画像に対して疑似的な新しい商品クラスを付与した場合では、画像変換によって得られた変換画像と元画像間の類似の程度を考慮せずに異なる種類の商品であると識別するように学習させたため、学習データに過度に最適化した過学習が原因ではないかと考えられた。
【0006】
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、元画像と変換画像との類似の程度を考慮して画像識別モデルを学習させる技術を提供することである。
【課題を解決するための手段】
【0007】
本発明の一態様に係る情報処理装置は、元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、前記元画像のクラスと前記画像変換パラメータとに応じた疑似クラスを付与する学習データ生成手段と、前記画像変換パラメータごとに決定された前記クラスと前記疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成する学習用損失決定手段と、前記変換画像と前記目的関数とを用いて画像識別モデルを学習させる学習手段と、を備える。
【0008】
本発明の一態様に係る情報処理方法は、少なくとも1つのプロセッサが、元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、前記元画像のクラスと前記画像変換パラメータとに応じた疑似クラスを付与すること、前記画像変換パラメータごとに決定された前記クラスと前記疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成すること、前記変換画像と前記目的関数とを用いて画像識別モデルを学習させること、を含む。
【0009】
本発明の一態様に係る情報処理プログラムは、コンピュータに、元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、前記元画像のクラスと前記画像変換パラメータとに応じた疑似クラスを付与する処理と、前記画像変換パラメータごとに決定された前記クラスと前記疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成する処理と、前記変換画像と前記目的関数とを用いて画像識別モデルを学習させる処理と、を実行させる。
【発明の効果】
【0010】
本発明の一態様によれば、元画像と変換画像との類似の程度を考慮して画像識別モデルを学習させることができる。
【図面の簡単な説明】
【0011】
図1】本発明の例示的実施形態1に係る情報処理装置1の構成を示すブロック図である。
図2】例示的実施形態1に係る情報処理方法S1の流れを示すフロー図である。
図3】本発明の例示的実施形態2に係る情報処理装置1Aの構成を示すブロック図である。
図4】例示的実施形態2に係る学習データ生成部が元画像から変換画像を生成する過程を示す一例である。
図5】例示的実施形態2に係る学習データ生成部が元画像から変換画像を生成する過程を示す他の例である。
図6】元画像と変換画像との類似の程度、又は変換画像同士の類似の程度の違いを示す概念図である。
図7】変換画像のマージン強度の設定の一例を示す表である。
図8】変換画像のマージン強度の設定の他の例を示す表である。
図9】学習用損失決定部がマージン強度を考慮して距離を調整する考え方を示す概念図である。
図10】学習用損失決定部がマージン強度を考慮して距離を調整する他の例の考え方を示す概念図である。
図11】学習用損失決定部が、各パラメータによる変換画像に対して、異なるパターンのマージン強度を決定する例を示す表である。
図12】本発明の例示的実施形態3に係る情報処理装置1Bの構成を示すブロック図である。
図13】ソフトウェアによって情報処理装置を実現するための構成図である。
図14】従来技術における、距離計量学習の考え方を示す概念図である。
【発明を実施するための形態】
【0012】
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
【0013】
(情報処理装置1の構成)
本例示的実施形態に係る情報処理装置1の構成について、図1を参照して説明する。図1は、情報処理装置1の構成を示すブロック図である。
【0014】
図1に示すように、情報処理装置1は、学習データ生成部12、学習用損失決定部13及び学習部14を備える。学習データ生成部12、学習用損失決定部13及び学習部14は、それぞれ特許請求の範囲に記載した学習データ生成手段、学習用損失決定手段及び学習手段の一形態である。
【0015】
学習データ生成部12は、元画像から画像変換パラメータを用いて変換画像を生成する。本例示的実施形態において、元画像とは既に存在する画像であり、一例として、商品の画像である。元画像には元クラスが付与されており、異なる商品の元画像に対しては、異なる元クラスが予め割り当てられている。画像変換パラメータは、画像変換の方法を示すパラメータであり、方法ごとに異なるパラメータが設定されている。パラメータは単に方法を区別するためのものであり、その種類は限定されない。画像変換の方法は、一例として、色変換、文字変換、左右反転等が挙げられるが、これらに限定されない。色変換は、画像の色相を変更する色相変換(回転)である。文字変換は、画像中に含まれる文字列を他の文字列に変更する変換である。左右反転は、画像を左右対称の画像に変更する変換である。また、画像変換の方法として、「変換しない」という選択肢があってもよい。
【0016】
学習データ生成部12は、色変換、文字変換、左右反転等を示すパラメータのいずれかを選択し、その方法を用いて変換画像を生成する。パラメータの選択方法は任意である。さらに学習データ生成部12は、生成した変換画像に対して、元クラスと変換パラメータとに応じた疑似クラスを付与してもよい。疑似クラスは、元クラスとは異なり新たに付与されるクラスであるが、元画像と変換画像は類似部分があるため、本例示的実施形態では擬似クラスと称する。学習データ生成部12は、変換しないという変換方法を選択した場合は、変換画像は生成しない。あるいは、変換しないという変換方法を選択した場合、学習データ生成部12は、変換画像として変換されていない画像を生成し、元の画像のクラスを同じクラスを付与してもよい。
【0017】
学習用損失決定部13は、クラスと疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成する。より具体的には、学習用損失決定部13は、ユーザ又は情報処理装置1が設定した補正項を含めて導出した目的関数を生成する。また、学習用損失決定部13は、目的関数の計算を行ってもよい。目的関数は、元クラスと疑似クラスとを含むすべてのクラスの画像を識別する画像識別モデルの識別結果を評価する値であり、その種類は限定されない。一例として、目的関数は、入力データに対する理想的な出力と実際の出力との誤差の大きさを示す損失関数でもよい。
【0018】
元画像と変換画像との類似の程度を考慮した補正項とは、2つの画像の見た目がどの程度類似するか、逆に言えばどの程度異なるかによって目的関数に加える補正項である。この補正項は、画像の類似度を評価する方法に従って、適宜設定することができる。以下では、類似の程度を類似度とも称する。一例として、画像の類似度を、画像を入力とした、学習中の畳み込みニューラルネットワークによって出力された多次元の特徴量ベクトル空間における距離として評価してもよい。この場合、2つの画像の類似度が大きいほど2つの画像間の距離が短いと評価される。逆に、2つの画像の類似度が小さいほど2つの画像間の距離が長いと評価される。目的関数としては、例えば、同一クラスの画像に対しては特徴量ベクトル間の距離を小さく、別クラス間の画像に対する特徴量ベクトル間の距離は大きくなるような目的関数を設定してもよい。また、補正項として、見た目が近い元クラスと疑似クラスの特徴量ベクトル間の距離は、他のクラスおよび他クラスから生成された疑似クラスの特徴量ベクトル間の距離と比べて近くなることを許容する補正項としてもよい。適切な目的(損失)関数を選ぶことによって同一クラスの画像は相対的に近い距離に、別クラスの画像は相対的に遠い距離になるようにネットワークモデルを学習させる。したがって、本例示的実施形態では、損失関数に付加する補正項は、学習モデルが意図した距離関係に変換できるように設定する。
【0019】
本例示的実施形態においては、元画像と変換画像の類似の程度を変更、又は指定することができる。そして、画像識別モデルを、その指定された類似の程度まで含めて学習させることができる。つまり、本例示的実施形態1に係る情報処理装置1によれば、類似度が大きい2つの画像は、元クラスと元クラスから生成される疑似クラス間の類似度が高い関係になるように画像識別モデルを学習させることができる。また、類似度が小さい2つの画像は、元クラスと疑似クラス間の類似度が低い関係になるように画像識別モデルを学習させることができる。これにより、生成した学習データをより有効に学習に用いることができる。また、商品画像の特徴を考慮した変換パラメータを選ぶことにより、未知の商品に対する識別能力を増強することができる。
【0020】
学習部14は、学習データ生成部12が生成した変換画像と学習用損失決定部13が生成した目的関数とを用いて画像識別モデルを学習させる。上述のように目的関数には、類似の程度を示す補正項が考慮されている。そして、学習部14は、補正項を考慮した目的関数が最大値、最小値等の目的位置に近づくように画像識別モデルを学習させる。一例として、画像識別モデルは、畳み込みニューラルネットワーク等を用いたニューラルネットワークモデルである。ニューラルネットワークモデルは、その出力を用いて計算した目的関数の計算結果が好ましい位置に向かうようにモデル内部の重み、バイアス等が更新されることによって学習される。ニューラルネットワークモデルにおける目的関数は、一例として、最小化を目的とする損失関数である。具体的には、softmax交差エントロピー誤差、又は2乗和誤差などで表現される損失関数が挙げられる。学習部14は、学習用損失決定部13が導出した目的関数(損失関数)の計算結果に応じて、画像識別モデルの重み、バイアス等を更新する。
【0021】
なお、図1では、学習データ生成部12、学習用損失決定部13及び学習部14が1か所にまとめて配置された情報処理装置1のように記載されているが、そのような形態に限定されない。つまり、情報処理装置1を構成する各部は、少なくともその一部が互いに情報通信可能に分散して配置されていてもよい。また、情報処理装置1を構成する各部は、少なくともその一部が互いに情報通信可能にクラウド上に配置されていてもよい。
【0022】
以上のように、本例示的実施形態に係る情報処理装置1においては、元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、元画像のクラスと画像変換パラメータとに応じた疑似クラスを付与する学習データ生成部12と、画像変換パラメータごとに決定されたクラスと疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成する学習用損失決定部13と、変換画像と目的関数とを用いて画像識別モデルを学習させる学習部14と、を備えるという構成が採用されている。このため、本例示的実施形態に係る情報処理装置1によれば、元画像と変換画像との類似の程度を考慮して画像識別モデルを学習させることができるという効果が得られる。また、補正項の大小を変更して学習させることにより、学習データをより有効に利用することができる。
【0023】
(情報処理方法の流れ)
本例示的実施形態に係る情報処理方法S1の流れについて、図2を参照して説明する。図2は、情報処理方法S1の流れを示すフロー図である。
【0024】
図2に示すように、情報処理方法S1は、ステップS11からステップS13を含む。ステップS11において、少なくとも1つのプロセッサ(例えば、学習データ生成部12)が、元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、元画像のクラスと画像変換パラメータとに応じた疑似クラスを付与する。画像変換パラメータについては情報処理装置1の構成で説明したとおりである。
【0025】
また、ステップS12において、少なくとも1つのプロセッサ(例えば、学習用損失決定部13)が、画像変換パラメータごとに決定されたクラスと疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成する。目的関数及び類似の程度を考慮した補正項については情報処理装置1の構成で説明したとおりである。
【0026】
また、ステップS13において、少なくとも1つのプロセッサ(例えば、学習部14)が、変換画像と目的関数とを用いて画像識別モデルを学習させる。画像識別モデルについては情報処理装置1の構成で説明したとおりである。
【0027】
以上のように、本例示的実施形態に係る情報処理方法S1においては、少なくとも1つのプロセッサが、元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、元画像のクラスと画像変換パラメータとに応じた疑似クラスを付与すること、画像変換パラメータごとに決定されたクラスと疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成すること、変換画像と目的関数とを用いて画像識別モデルを学習させること、を含む、という構成が採用されている。このため、本例示的実施形態に係る情報処理方法S1によれば、元画像(元クラス)と変換画像(疑似クラス)との類似の程度を考慮して画像識別モデルを学習させることができるという効果が得られる。また、補正項を変更して学習させることにより、学習データをより有効に利用することができる。
【0028】
〔例示的実施形態2〕
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。図3は、例示的実施形態2に係る情報処理装置1Aの構成を示すブロック図である。
【0029】
例示的実施形態2に係る情報処理装置1Aは、取得部10、画像変換パラメータ記憶部11、学習データ生成部12、学習用損失決定部13、学習部14、元画像記憶部15、及び変換画像記憶部16を備える。情報処理装置1Aは、商品識別モデルMと情報通信可能に接続されている。商品識別モデルMは、画像識別モデルの一形態である。学習データ生成部12、学習用損失決定部13及び学習部14の機能は、例示的実施形態1で説明した各部の機能と同様であるので、ここでの説明は省略する。以下では、取得部10、画像変換パラメータ記憶部11、元画像記憶部15、及び変換画像記憶部16について説明する。
【0030】
取得部10は、元画像を取得する。元画像のクラスを元クラスと称する。本例示的実施形態において、元画像は、一例として、1つの商品の画像である。異なる商品の画像に対しては、異なるクラスが予め割り当てられている。一例として、取得部10は、ユーザが情報処理装置1に入力した画像を取得する。あるいは、取得部10は、情報処理装置1の外部の記憶装置にアクセスして、記憶されている画像を取得してもよい。
【0031】
画像変換パラメータ記憶部11は、元画像を変換して変換画像を生成するための画像変換パラメータを記憶する。画像変換パラメータについては、例示的実施形態1で説明したとおりである。画像変換の方法は、一例として、色変換、文字変換、左右反転等が挙げられるが、このような変換方法は、新たな商品パッケージと既存商品パッケージとの違いを模擬するための変換方法である。つまり、実際に市場に出てくる新たな商品パッケージは、既存の商品パッケージと見た目が似ているものが多い。従って、このような新商品を識別するため、既存の商品画像に上記のような変換を加えて生成した画像が学習データとして有用である。
【0032】
なお、本例示的実施形態においては、学習データ生成部12は、画像変換パラメータ記憶部11に記憶された画像変換パラメータのうちのいずれかを選択し、その画像変換パラメータを用いて変換画像を生成する。
【0033】
元画像記憶部15は、取得部10が取得した元画像を記憶する。変換画像記憶部16は、学習データ生成部12が生成した変換画像を記憶する。変換画像は、それに付されたラベルを含めて商品識別モデルMを学習させるための学習データとなる。
【0034】
本例示的実施形態に係る情報処理装置1Aは、画像中の商品がすでに登録されたクラスの商品と同じか異なるかを識別する商品識別モデルMを学習させる装置である。様々な種類の商品を販売する小売店舗において、店舗の棚割りを画像に基づいて解析するサービスが提案されている。その場合、棚割りの画像からどのような商品があるかを解析する商品識別モデルが必要となる。小売店舗では、新商品、新たなパッケージの商品等が数多く入荷される。商品識別モデルは、画像の商品がすでにその店舗で扱っている既存の商品であるか、これまで扱ったことのない新商品であるか、扱ったことがあるが新たなパッケージの商品であるか等に関わらず識別する必要がある。情報処理装置1Aは、そのような商品識別モデルMを学習させる装置である。一例として、商品識別モデルMは、畳み込みニューラルネットワーク等を用いたニューラルネットワークモデルである。
【0035】
図4は、本例示的実施形態2に係る情報処理装置1の学習データ生成部12が元画像から変換画像を生成する過程を示す一例である。元画像Xは、元画像記憶部15に記憶されている複数の元画像から学習データ生成部12が任意に選択した画像である。一例として、学習データ生成部12は、元画像Xを色変換することにより、変換画像Xa、Xbを生成する。色変換の方法は任意であるが、円環状に色相を変えた色相環を用いて色相回転することにより色変換してもよい。図示する例では、色変換は色相回転して得た変換であり、変換画像XaとXbは、色相の回転角度が異なる画像である。
【0036】
図5は、学習データ生成部12が元画像から変換画像を生成する過程を示す他の例である。図示する例では、学習データ生成部12は、元画像Y中の文字列を変換することにより、変換画像Yaを生成する。一例として、学習データ生成部12は、元画像Y中の文字「さけ」を「いくら」に変換した変換画像Yaを生成する。なお、変換後の文字は、任意のひらがな、カタカナ、漢字、ローマ字等の文字列でもよく、画像の商品に矛盾しない、通常用いられる文字列でもよい。そのような文字列データを任意の記憶部に記憶しておいてもよい。
【0037】
文字などを含んだ左右反転(鏡映)対称性が無い元クラスの画像を左右反転変換することで、元クラスは別の疑似クラスとすることができる。一方、元クラスが犬や猫の顔など、左右反転(鏡映)対称性がある画像の場合は、左右反転した場合でも、元クラスを別の疑似クラスとすることはできない。
【0038】
画像変換パラメータ記憶部11は、画像変換パラメータとして、色変換を示すパラメータ、文字変換を示すパラメータ、画像の左右反転を示すパラメータ等を記憶している。また、画像変換パラメータ記憶部11は、画像変換パラメータで変換された変換画像に付与する疑似クラスを記憶してもよい。学習データ生成部12は、画像変換パラメータ記憶部11に記憶された画像変換パラメータを任意に取出し、それに基づいて元画像を変換して変換画像を生成する。学習データ生成部12は、生成した変換画像に疑似クラスを付与してもよい。生成された変換画像と付与された疑似クラスは、学習データ生成部12が変換画像記憶部16に記憶する。
【0039】
図6は、元画像と変換画像との類似の程度、又は変換画像同士の類似の程度の違いを示す概念図である。類似の程度の指標として、一例として、画像を入力とする畳み込みニューラルネットワークによって出力される多次元の特徴量ベクトル空間における距離を用いることができる。この場合、特徴量ベクトル空間における距離が大きいほど類似度が小さく、特徴量ベクトル空間における距離が小さいほど類似度が大きいと解釈する。従来手法では全クラス間の距離が等しく離れるように意図した目的関数に従って畳み込みニューラルネットワークモデルを学習するが、補正項を加えることで、元クラスと疑似クラス間の見た目が近い場合には、特徴量空間での距離が他クラスと比べて相対的に近い距離であることを許容する目的関数となる。
【0040】
以下では、異なる元画像をクラスの番号で表す。つまり、m個の異なる元画像をクラス1、クラス2…クラスmと表す。そして、元画像から画像変換して得られた変換画像を、画像変換の方法ごとに上添字を変えて表す。つまり、クラス1の元画像に色変換して得られた変換画像をクラス1’と表す。また、クラスmの元画像を左右反転することにより得られた変換画像をクラスm’’と表す。従って、クラス1の元画像からn種類の画像変換方法を用いて得られた変換画像のクラスを、クラス1’、クラス1’’…クラス1(n)と表す。
【0041】
クラス1の画像を色変換により得られたクラス1’の画像は、左右反転により得られたクラス1’’の画像よりも類似度が小さい。この関係を距離で表すと、図6に示すように、クラス1’の画像はクラス1’’の画像よりもクラス1の画像からの距離が大きい。クラス2の画像とそれを変換して得られたクラス2’、2’’の画像との関係も同様である。従来技術では、学習段階でこのような類似度の関係は考慮されていなかったが、本例示的実施形態では、このような距離関係を考慮して、商品識別モデルMを学習させる。このように特徴量ベクトル空間における距離に着目した学習方法を距離計量学習と称する。即ち、商品識別モデルMは距離計量学習により学習されるモデルである。
【0042】
本例示的実施形態では、類似度の大小、即ち距離の大小を、入力画像に対する各クラスの尤度に付加するマージンの強度によって設定する。尤度の一例は、後述する内積値である。以下では、各クラスの尤度に付加するマージンの強度、より具体的には、画像識別モデルが出力する画像の推定クラスの尤度分布を調整するマージンの強度を単にマージン強度とも称する。マージン強度は、補正項の一例である。そして、学習に用いる目的関数は、畳み込みニューラルネットワークモデルに入力された画像の特徴量が、入力クラスと入力クラスから生成された疑似クラスおよび、その他のクラスの代表特徴量との距離間にマージンを加えた損失関数である。つまり、学習用損失決定部13は、各クラス間の類似度に従ってそれぞれマージンの強度を設定し、補正項として反映した損失関数を目的関数として生成する。これにより、ニューラルネットワークモデルを用いた商品識別モデルを、マージン強度を補正項として考慮した損失関数を用いて学習させることができる。
【0043】
図7は、学習させる画像に対するマージン強度の設定の一例を示す表である。図7は、クラス1の元画像の入力に対して、クラス1から生成される疑似クラスに加えるマージン強度と、クラス1以外の元クラス及びクラス1以外のクラスから生成される疑似クラスに加えるマージン強度を示している。図示する例では、画像変換パラメータ1(以下、パラメータ1と称する)は、色相回転するパラメータである。画像変換パラメータ2(以下、パラメータ2と称する)は、色相回転と左右反転を組み合わせるパラメータである。画像変換パラメータn(以下、パラメータnと称する)は、左右反転するパラメータである。また、任意の元クラスCとの他のクラスとの見た目の類似度は、クラスCと疑似クラスC”との類似度<クラスCとクラスC以外の元クラス間の類似度及びクラスCとクラスC以外のクラスから生成された疑似クラス間の類似度≦クラスCと疑似クラスC’との類似度<クラスCと疑似クラスC(n)との類似度、のような関係であると仮定している。
【0044】
この場合、クラス1の疑似クラスに与えるマージン強度は、パラメータ2>パラメータ1>パラメータnと設定する。つまり、見た目の類似度に対応するようにマージン強度の大きさを調整する。具体的には、元画像のクラス1から画像変換パラメータnを用いて生成した疑似クラス1(n)は元クラスと見た目の類似度が高いため、マージン強度を弱くする。これにより、学習において、距離を大きくしようとする度合いが減少する。また、元画像のクラス1から画像変換パラメータ2を用いて生成したクラス1’’は元クラスと見た目の類似度が低いため、マージン強度を強くする。このように、マージン強度は、学習によって元クラスと疑似クラス間の特徴量距離が見た目に対応した関係になるように調整する役割を果たす。なお、クラス1の元クラスとクラス1以外の元クラス及びその元クラスの疑似クラスと、の類似度は同じであるため、与えるマージン強度は共通である。
【0045】
図8は、クラス2の元画像の入力に対して、クラス2から生成される疑似クラスに加えるマージン強度と、クラス2以外の元クラス及びクラス2以外のクラスから生成される疑似クラスに加えるマージン強度を示している。図7で示す場合と同様に、クラス2の疑似クラスに与えるマージン強度は、見た目の類似度に対応するようにマージン強度の大きさを調整する。また、クラス2の元クラスとクラス2以外の元クラス及びその元クラスの疑似クラスとの類似度は同じであるため、与えるマージン強度は共通である。
【0046】
図7、8の例はそれぞれ元クラス1、2から見た場合のマージン強度であるが、画像変換パラメータによって生成した変換画像で学習する際のマージン強度も同様の方法で決定できる。例えば、パラメータnで生成された疑似クラスから見ると、元クラスは左右反転関係、パラメータ2は色相回転関係、パラメータ1は色相回転と左右反転関係となっている。この場合、マージン強度はパラメータ1>パラメータ2>元クラスという関係となり、変換パラメータnから生成された変換画像を用いた学習をする際の補正項も決定できる。
【0047】
図7、8に示す例では、学習用損失決定部13は、複数のクラスの元画像の変換画像に対して、当該元画像を変換する画像変換パラメータごとに共通の補正項を決定している。つまり、元画像に対する学習において、元画像の変換画像に対しては、どのクラスにおいても画像変換パラメータごとに共通の補正項を決定している。ただし、元画像のクラス以外のクラスとその疑似クラスに対しては、画像変換パラメータに関わらず共通の補正項を決定する。なお、マージン強度は、ユーザが決定してもよく、情報処理装置1が機械的に行ってもよい。情報処理装置1は、グリッドサーチ等により、効果的なマージン強度をサーチして設定してもよい。また、強化学習により効果的なマージン強度を設定してもよい。
【0048】
図9は、学習用損失決定部13がマージン強度を考慮して補正項を決定する考え方を示す概念図である。図9に示すグラフの縦軸は、半径1のn次元超球面における、元クラスを入力としたときのモデルが出力する特徴量ベクトルと、各クラスの代表特徴量ベクトルとの内積値であり、それぞれ元画像が対応するクラスに属する尤度を示す。内積値は、その数値が1に近いほど入力画像がそのラベルである尤度が大きく、数値が-1に近いほど元画像との類似度が小さいことを示す。グラフの横軸は、元画像のラベル0~9と、ラベル0~9に左右反転をした変換画像のラベル0’~9’を示す。図9では、ラベル3の商品を入力としたときに商品識別モデルMを学習させるために、ラベル3’との距離が小さいことを許容するように調整する例を示している。具体的には、図9に示すように、ラベル3’のマージンを弱くする。マージンを弱くするとは、ラベル3’のマージン強度を小さく設定することである。これにより、商品識別モデルMのラベル3’の画像に対する学習を弱めることができる。
【0049】
また、図10のようにマージン強度を設定してもよい。図10では、ラベル3の商品に対する識別学習をさせるために、ラベル3’のマージンを強くする、つまりラベル3’のマージン強度を大きく設定する例を示している。このような設定では、ラベル3’の画像に対する学習を強くすることができる。これにより、商品識別モデルMのラベル3’の識別能力を強めることができる。
【0050】
学習部14は、マージン強度を補正項として考慮した損失関数を小さくするように商品識別モデルMを学習させる。具体的には、学習用損失決定部13は、損失関数に加えるマージン強度を決定する。学習部14は、変換画像を商品識別モデルMに識別させ、導出された損失関数にマージン強度を反映した補正値が小さくなるようにモデルの重み及びバイアスを変更する。学習部14は、このような処理を繰り返し、損失関数の値が所定の範囲に到達した段階で学習を終了する。
【0051】
以上のように、損失関数としての距離にマージン強度を考慮する理由は次のとおりである。図14に示すように、元画像の変換画像に元クラスとは異なる疑似クラスを付与する従来技術では、ラベル3の画像に対しては尤度が1に近づくように学習し、ラベル3以外のラベルの画像はすべて-1に近づくように学習させる。ラベル3の入力に対して、尤度を下げるマージンは他のラベル全体に対して効果がある。つまり、マージンによって正解である尤度を下げることで、学習ではより尤度を高くする必要がある。尤度を高くするためには、同一クラスの入力の特徴量ベクトル間の距離を小さくすることと、自分自身(ラベル3)以外のラベルの特徴量ベクトル間の距離を大きくすることである。一方で、ラベル3’は見た目が近いということを考慮して、尤度を実際の推定値よりも小さくすることで、学習によってラベル3’と特徴量ベクトル間の距離を無理に離さないようにすることができる。特にマージン強度を弱くすることによって、元クラスと疑似クラスの見た目が近いクラスが存在する場合に、無理に距離を大きくするような学習を防ぐことができる。これにより、テスト時の精度減少の原因となる過学習を回避することができる。
【0052】
学習部14は、所定の画像変換パラメータを用いて生成された変換画像を用いる頻度を変更して商品識別モデルMを学習させてもよい。一例として、学習部14は、商品識別モデルMの学習時において、学習効果が大きいと考えられる特定のラベルを変換した画像を多くする、あるいは学習効果が小さいと考えられる特定のラベルを変換した画像を少なくする等の調整を行ってもよい。これにより、特定のクラスの商品、又は学習効果が大きいクラスの商品を多く選択して学習させることができる。
【0053】
学習段階においては、例えば、学習データを、学習用データと検証用データと評価用データとに分割し、学習部14が学習用データを用いて商品識別モデルMを学習させ、ユーザが検証用データを用いて検証し、評価用データを用いて評価する分割交差検証法を用いてもよい。なお、上記のようなマージン強度をどのように設定するかの基準としては、ユーザの類似の程度判断に基づいて設定することができる。しかし、別な方法でマージン強度の大小関係を定めてもよい。
【0054】
なお、情報処理装置1Aを構成する取得部10、画像変換パラメータ記憶部11、学習データ生成部12、学習用損失決定部13、学習部14、元画像記憶部15及び変換画像記憶部16と商品識別モデルMは、少なくともその一部が互いに情報通信可能に分散して配置されていてもよい。また、上述の各部は、少なくともその一部が互いに情報通信可能にクラウド上に配置されていてもよい。
【0055】
上述の例示的実施形態では、図7、8に示すように、学習用損失決定部13は、複数の元画像であるクラス1,2,…mの変換画像に対して、当該元画像を変換する画像変換パラメータごとに共通のマージン強度を決定する例を説明した。しかし、学習用損失決定部13は、複数のクラスの元画像の変換画像に対して、当該元画像を変換する画像変換パラメータとクラスに依存した補正項を決定してもよい。図11は、学習用損失決定部13が、各パラメータによる変換画像に対して、異なるパターンのマージン強度を決定する例を示す表である。図11(a)に示す元クラス1に対する元クラス1の疑似クラスのマージン強度の分布と、図11(b)に示す元クラス2に対する元クラス2の疑似クラスのマージン強度の分布とは異なっている。パラメータ1,2,…nは図7で説明したとおりである。図11に示すように、パラメータ1,2,…nで生成された画像に対するマージン強度(補正項)は、画像変換パラメータとクラスに依存する。このように、マージン強度の分布パターンを変えて商品識別モデルMを学習させてもよい。これにより、商品識別モデルMの過学習の防止が見込まれ、限られた学習データからより多くの学習に効果的な学習画像を生成し、使用することができる。つまり、新商品に対して識別が可能となる多くの特徴量表現を獲得させるように、商品識別モデルMを学習させることができる。
【0056】
画像変換パラメータに対するマージン強度(補正項)を設定する方法は、ユーザが設定してもよく、学習用損失決定部13が補正項生成モデルを用いて設定してもよい。補正項生成モデルは、新たなラベルに対して、例えばランダムにマージン強度を入れ替える、あるいは既存のマージン強度に係数を乗じる等の変換をしてもよい。補正項生成モデルは、生成した補正項を考慮して行った学習結果を参照して、学習に適した補正項を生成するように学習されてもよい。これにより、補正項を幅広く設定して商品識別モデルを学習させることができる。
【0057】
(情報処理装置1Aの効果)
本例示的実施形態に係る情報処理装置1Aにおいては、例示的実施形態1に係る情報処理装置1の構成に加えて、取得部10、画像変換パラメータ記憶部11、元画像記憶部15及び変換画像記憶部16を備え、情報処理装置1Aが商品識別モデルMを学習させるという構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Aによれば、例示的実施形態2に係る情報処理装置1の奏する効果に加えて、商品画像の元クラスと疑似クラス間の類似度を考慮して商品識別モデルMを学習させることができるという効果が得られる。
【0058】
〔例示的実施形態3〕
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1、2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0059】
図12は、本発明の例示的実施形態3に係る情報処理装置1Bの構成を示すブロック図である。情報処理装置1Bは、取得部10、画像変換パラメータ記憶部11、学習データ生成部12、学習用損失決定部13、学習部14、元画像記憶部15、変換画像記憶部16及び学習用パラメータ記憶部17を備える。情報処理装置1Bは、商品識別モデルMと情報通信可能に接続されている。
【0060】
取得部10、画像変換パラメータ記憶部11、学習データ生成部12、学習用損失決定部13、学習部14、元画像記憶部15、変換画像記憶部16の機能については、例示的実施形態2で説明した各部の機能と同様である。
【0061】
学習用パラメータ記憶部17は、画像変換パラメータごとに決定された補正項を記憶する。画像変換パラメータごとに決定された補正項は、学習用パラメータとも称する。学習用パラメータは、一例として、図7、8又は図11に示したようなマージン強度のパターンセットでもよく、図9又は図10に示したようなマージン強度を考慮した内積値セットでもよい。ある商品識別モデルの学習に効果的であると確認された学習用パラメータは、他の商品識別モデルに対しても効果があると考えられる。また、異なる学習用パラメータを生成するためのテンプレートとすることができる。そのような異なるパターンの学習用パラメータを保存しておき、学習用損失決定部13が保存された学習用パラメータを適宜選択して、新たな商品識別モデルの学習に用いることで効率的に商品識別モデルを学習させることができる。
【0062】
(情報処理装置1Bの効果)
以上のように、本例示的実施形態に係る情報処理装置1Bにおいては、例示的実施形態2に係る情報処理装置1Aの構成に加えて、学習用パラメータ記憶部17を備える構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Bによれば、例示的実施形態2に係る情報処理装置1Aの奏する効果に加えて、より効率的に商品識別モデルを学習させることができるという効果が得られる。
【0063】
〔ソフトウェアによる実現例〕
情報処理装置1,1A,1Bの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
【0064】
後者の場合、情報処理装置1,1A,1Bは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図12に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1,1A,1Bとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1,1A,1Bの各機能が実現される。
【0065】
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
【0066】
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
【0067】
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
【0068】
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
【0069】
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
【0070】
(付記1)
元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、前記元画像のクラスと前記画像変換パラメータとに応じた疑似クラスを付与する学習データ生成手段と、前記画像変換パラメータごとに決定された前記クラスと前記疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成する学習用損失決定手段と、前記変換画像と前記目的関数とを用いて画像識別モデルを学習させる学習手段とを備えている情報処理装置。
【0071】
(付記2)
前記画像識別モデルは距離計量学習により学習されるモデルであり、前記目的関数は、前記画像識別モデルが出力する画像の推定クラスの尤度分布を調整するマージンの強度を前記補正項として反映した損失関数である、付記1に記載の情報処理装置。
【0072】
(付記3)
前記学習用損失決定手段は、複数のクラスの前記元画像の変換画像に対して、当該元画像を変換する前記画像変換パラメータごとに共通の前記補正項を決定する、付記1又は2に記載の情報処理装置。
【0073】
(付記4)
前記学習用損失決定手段は、複数のクラスの前記元画像の変換画像に対して、当該元画像を変換する前記画像変換パラメータとクラスに依存した前記補正項を決定する、付記1又は2に記載の情報処理装置。
【0074】
(付記5)
前記学習用損失決定手段は、前記画像変換パラメータに対する前記補正項を、補正項生成モデルを用いて決定する、付記1から4のいずれか一項に記載の情報処理装置。
【0075】
(付記6)
前記画像変換パラメータごとに決定された前記補正項を記憶する学習用パラメータ記憶手段を更に備える、付記1から5のいずれか一項に記載の情報処理装置。
【0076】
(付記7)
前記学習手段は、所定の前記画像変換パラメータを用いて生成された前記変換画像を用いる頻度を変更して前記画像識別モデルを学習させる、付記1から6のいずれか一項に記載の情報処理装置。
【0077】
(付記8)
少なくとも1つのプロセッサが、元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、前記元画像のクラスと前記画像変換パラメータとに応じた疑似クラスを付与すること、前記画像変換パラメータごとに決定された前記クラスと前記疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成すること、前記変換画像と前記目的関数とを用いて画像識別モデルを学習させること、を含む情報処理方法。
【0078】
(付記9)
コンピュータに、元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、前記元画像のクラスと前記画像変換パラメータとに応じた疑似クラスを付与する処理と、前記画像変換パラメータごとに決定された前記クラスと前記疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成する処理と、前記変換画像と前記目的関数とを用いて画像識別モデルを学習させる処理と、を実行させる情報処理プログラム。
【0079】
(付記10)
付記9に記載の情報処理プログラムを記録した非一時的記録媒体。
【0080】
(付記11)
少なくとも1つのプロセッサを備え、前記プロセッサは、元画像から画像変換パラメータを用いて変換画像を生成し、生成した当該変換画像に対して、前記元画像のクラスと前記画像変換パラメータとに応じた疑似クラスを付与する第1生成処理と、前記画像変換パラメータごとに決定された前記クラスと前記疑似クラスとの類似の程度を考慮した補正項を反映した目的関数を生成する第2生成処理と、前記変換画像と前記目的関数とを用いて画像識別モデルを学習させる学習処理と、を実行する情報処理装置。
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記第1生成処理と、前記第2生成処理と、前記学習処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【符号の説明】
【0081】
1,1A,1B…情報処理装置
10…取得部
11…画像変換パラメータ記憶部
12…学習データ生成部
13…学習用損失決定部
14…学習部
15…元画像記憶部
16…変換画像記憶部
17…学習用パラメータ記憶部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14