(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-12
(45)【発行日】2025-05-20
(54)【発明の名称】学習装置及び学習方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20250513BHJP
G06T 1/00 20060101ALI20250513BHJP
【FI】
G06T7/00 350B
G06T1/00 510
(21)【出願番号】P 2021154492
(22)【出願日】2021-09-22
【審査請求日】2024-07-05
(73)【特許権者】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(74)【代理人】
【識別番号】100083806
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100101247
【氏名又は名称】高橋 俊一
(74)【代理人】
【識別番号】100095500
【氏名又は名称】伊藤 正和
(74)【代理人】
【識別番号】100098327
【氏名又は名称】高松 俊雄
(72)【発明者】
【氏名】陳 放歌
【審査官】橋爪 正樹
(56)【参考文献】
【文献】特開2018-195078(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06T 7/00- 7/90
(57)【特許請求の範囲】
【請求項1】
車両の第1画像と、前記第1画像に対するユーザの評価コメントとを紐付けて記憶する記憶装置と、
コントローラと、を備え、
前記コントローラは、
前記第1画像に写る前記車両の車種を特定し、
特定された前記車種に対応する三次元モデルデータを用いて前記第1画像とは異なる第2画像を生成し、
前記第1画像、前記第2画像、及び前記ユーザの評価コメントを入力データとする、前記ユーザの評価コメントに関するモデルを学習し、
学習されたモデルを前記記憶装置に記憶する
ことを特徴とする学習装置。
【請求項2】
前記記憶装置には、車種ごとに車体の三次元モデルデータ、及びそれぞれの車種の部位ごとの形状の特徴が格納されており、
前記コントローラは、
前記第1画像に写る前記車両の各部位の形状の特徴を抽出し、
抽出された前記形状の特徴と、前記記憶装置に格納されている形状の特徴とを比較し、類似度の最も高い三次元モデルデータを出力し、
前記類似度には少なくとも画素値の類似度、エッジの類似度、前記形状の特徴の類似度のいずれか一つが含まれる
ことを特徴とする請求項1に記載の学習装置。
【請求項3】
前記記憶装置には、車種ごとに車体の三次元モデルデータが格納されており、
前記コントローラは、
前記第1画像に写る前記車両の各部位の形状の特徴を抽出し、
前記記憶装置にそれぞれの車種の部位ごとの形状の特徴が格納されていない場合は、前記第1画像が撮像されたときの角度、及び前記第1画像が撮像されたときのカメラから前記車両までの距離を取得し、
車種ごとの三次元モデルデータに対し、前記角度及び前記距離を用いて仮想的に写真を撮ることにより車種ごとの仮想画像を取得し、
複数の仮想画像のそれぞれと前記第1画像とを比較し、類似度の最も高い三次元モデルデータを出力し、
前記類似度には少なくとも画素値の類似度、エッジの類似度、前記形状の特徴の類似度のいずれか一つが含まれる
ことを特徴とする請求項1に記載の学習装置。
【請求項4】
前記第1画像を含む、複数の前記車両の画像が前記記憶装置に記憶され、
前記コントローラは、
前記車両の画像を含む複数の画像が撮像されたときの角度に応じて前記複数の画像を分類し、
最も枚数の多い角度に分類された画像から色彩及び明度を取得し、
前記最も枚数の多い角度以外の角度に対応する前記第2画像を前記色彩及び明度を用いて加工処理する
ことを特徴とする請求項1~3のいずれか1項に記載の学習装置。
【請求項5】
前記コントローラは、
出力された前記三次元モデルデータを用いて前記第1画像とは角度が異なる画像を生成し、それぞれの角度に対し前記学習されたモデルから評価コメントを生成する
ことを特徴とする請求項2または3に記載の学習装置。
【請求項6】
前記コントローラは、
前記車両全体の評価、及び前記部位ごとの評価を前記三次元モデルデータにマッピングする
ことを特徴とする請求項5に記載の学習装置。
【請求項7】
車両の第1画像と、前記第1画像に対するユーザの評価コメントとを紐付けて記憶する記憶装置と、コントローラとを備える学習装置の学習方法であって、
前記コントローラは、
前記第1画像に写る前記車両の車種を特定し、
特定された前記車種に対応する三次元モデルデータを用いて前記第1画像とは異なる第2画像を生成し、
前記第1画像、前記第2画像、及び前記ユーザの評価コメントを入力データとする、前記ユーザの評価コメントに関するモデルを学習し、
学習されたモデルを前記記憶装置に記憶する
ことを特徴とする学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置及び学習方法に関する。
【背景技術】
【0002】
従来より、画像(盛り付けた料理を被写体とするもの)に表されている料理の盛り付け位置の評価結果を用いて、盛り付けた料理を被写体とする画像を入力とし、画像に表されている料理の盛り付け位置の評価結果を教師データとして学習モデルを得る発明が知られている(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、撮像角度の枚数に違いがある場合、そのままモデルを学習させるとモデルのロバスト性が低くなるおそれがある。
【0005】
本発明は、上記問題に鑑みて成されたものであり、その目的は、ロバスト性が高いモデルを生成可能な学習装置及び学習方法を提供することである。
【課題を解決するための手段】
【0006】
本発明の一態様に係る学習装置は、第1画像に写る車両の車種を特定し、特定された車種に対応する三次元モデルデータを用いて第1画像とは異なる第2画像を生成し、第1画像、第2画像、及びユーザの評価コメントを入力データとする、ユーザの評価コメントに関するモデルを学習し、学習されたモデルを記憶装置に記憶する。
【発明の効果】
【0007】
本発明によれば、ロバスト性が高いモデルを生成することが可能となる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、本発明の実施形態に係る学習装置1の構成図である。
【
図2】
図2は、学習装置1の一動作例を説明するフローチャートである。
【
図3】
図3は、撮像角度の一例を説明する図である。
【
図4】
図4は、学習装置1の一動作例を説明するフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について、図面を参照して説明する。図面の記載において同一部分には同一符号を付して説明を省略する。
【0010】
図1を参照して学習装置1の構成例を説明する。
図1に示すように、学習装置1は、通信I/F10と、コントローラ20と、記憶装置30とを備える。学習装置1は一例として汎用のコンピュータに搭載される。
【0011】
通信I/F10はネットワークアダプタなどのハードウェア、各種の通信用ソフトウェア、及びこれらの組み合わせとして実装され、ネットワークを介した有線または無線の通信を実現できるように構成されている。また通信I/F10はデータを送受信するための入力部及び出力部としての機能を有する。本実施形態では通信I/F10はインターネット通信を行うものとして説明する。
【0012】
記憶装置30はHDD(Hard Disk Drive)、SSD(Solid State Drive)などから構成される。記憶装置30には複数のデータベースが格納されている。複数のデータベースには
図1に示すように画像データベース31、角度データセット32、三次元車体モデルデータセット33、及び学習モデルデータベース34が含まれる。それぞれのデータベースの詳細はコントローラ20の各機能と合わせて説明する。
【0013】
コントローラ20は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、CAN(Controller Area Network)通信回路などを有する電子制御ユニット(ECU:Electronic Control Unit)である。コントローラ20には、学習装置1として機能させるためのコンピュータプログラムがインストールされている。コンピュータプログラムを実行することにより、コントローラ20は学習装置1が備える複数の情報処理回路として機能する。なお、ここでは、ソフトウェアによって学習装置1が備える複数の情報処理回路を実現する例を示すが、もちろん、以下に示す各情報処理を実行するための専用のハードウェアを用意して情報処理回路を構成することも可能である。また、複数の情報処理回路を個別のハードウェアにより構成してもよい。コントローラ20は、複数の情報処理回路として、データ取得部21と、角度推定部22と、分類部23と、比較部24と、生成部25と、学習部26とを備える。
【0014】
次に
図2~3を参照してデータ取得部21、角度推定部22、分類部23の機能について説明する。
【0015】
データ取得部21は、通信I/F10を介してインターネットから車両の画像(二次元画像)を取得する(
図2のステップS101)。データ取得部21は車両の画像を取得する際、その画像に対するユーザのコメント(評価コメントと呼ぶ場合もある)も取得する。画像に対するユーザのコメントを取得するためにデータ取得部21は、主に口コミサイト、SNS(Social Networking Service)、またはアンケート調査結果を公開しているサイトから車両の画像及びその画像に対するユーザのコメントを取得する。
図1に示すようにデータ取得部21は取得した画像とコメントとを紐付けて画像データベース31に記憶する。
【0016】
またデータ取得部21は車両が撮像されたときの角度(車両に対するカメラから見た角度)、及び車両が撮像されたときのカメラから車両までの距離も取得する。以下では、「車両が撮像されたときの角度」を単に「撮像角度」、「車両が撮像されたときのカメラから車両までの距離」を単に「撮像距離」と呼ぶ場合がある。本実施形態において、「撮像角度」は
図3に示すように車両前方を真正面から撮像した場合の角度を0度と定義し、時計周りに角度が増加していく。180度以降は正負が反転する。なおこのような撮像角度の定義は一例であり、他の定義が用いられてもよい。データ取得部21は取得した画像と、コメントと、撮像角度と、撮像距離とを紐付けて画像データベース31に記憶する。データの紐付け方法は周知であるため説明を省略する。
【0017】
角度推定部22は、画像データベース31に記憶されている画像を読み出し、撮像角度及び撮像距離を推定する(
図2のステップS103)。上述の説明では、撮像角度及び撮像距離はデータ取得部21が取得すると説明した。しかし、画像を取得した際に、撮像角度及び撮像距離も一緒に取得できない場合がある。例えば、画像及びユーザのコメントのみが公開されている場合がこれに該当する。このような場合、角度推定部22は撮像角度及び撮像距離を推定する。より詳しくは、角度推定部22はデータ取得部21によって取得された画像のうち、撮像角度及び撮像距離が紐付けられていない画像に対し、撮像角度及び撮像距離を推定する。したがって、データ取得部21によって取得された画像のすべてにおいて、撮像角度及び撮像距離が紐付けられていれば、角度推定部22は不要となる。画像から撮像角度及び撮像距離の推定方法は特に限定されないが、例えば機械学習モデルを用いて推定する方法が挙げられる。角度推定部22は、推定した撮像角度及び撮像距離と画像とを紐付けて画像データベース31に記憶する。
【0018】
分類部23は、画像データベース31に記憶されている画像を、撮像角度に応じて所定角度ごとに分類する(
図2のステップS105)。所定角度は、例えば
図3に示すように45度である。
図3に示す符号40は-22.5度~22.5度の範囲を示す。同様に符号41は22.5度~67.5度の範囲を示し、符号42は67.5度~112.5度の範囲を示し、符号43は112.5度~157.5度の範囲を示し、符号44は157.5度~-157.5度の範囲を示し、符号45は-157.5度~-112.5度の範囲を示し、符号46は-112.5度~-67.5度の範囲を示し、符号47は-67.5度~-22.5度の範囲を示す。例えば撮像角度が0度の場合、クラス40に分類される。このように分類部23は撮像角度に応じて、画像データベース31に記憶されている画像を8つのクラスに分類する。分類部23は、分類した結果を角度データセット32に記憶する。また分類部23は各クラス(クラス40~47)に分類された画像の枚数も角度データセット32に記憶する(
図2のステップS107)。分類された画像においても、コメント、撮像角度、及び撮像距離が紐付けられている。
【0019】
次に
図4を参照して比較部24、生成部25の機能について説明する。撮像角度の違いによって、画像及びコメントのペア数(各クラスに分類された画像の枚数)が異なる場合がある。ペア数の少ないクラスについてはデータの積み増しが必要となる。ステップS201において比較部24は角度データセット32を参照して分類されたデータを取得する。処理はステップS203に進み、比較部24は各クラスのペア数を比較する。各クラスのペア数に差があれば、最もペア数が多いクラスと、それ以外のクラスに分類される。最もペア数が多いクラスは複数存在する場合もある。比較部24は比較結果を生成部25に出力する。なお各クラスのペア数に差がない場合もありうる。ここで、各クラスのペア数のうち、最もペア数が多いクラスをクラス40と仮定する。つまり、クラス41~47のペア数はクラス40のペア数と比較して少ないと仮定する(ステップS205でYES)。
【0020】
生成部25は比較部24による結果に基づいてデータを生成する。生成部25はクラス41~47のペア数がクラス40のペア数に達するまでデータを生成する。データ生成方法の一例をステップS209~217を参照して説明する。ステップS207において生成部25は角度データセット32を参照してペア数の最も多いクラス(ここではクラス40)から一組のペア(一連のデータセット)を取得する。「一連のデータセット」とは車両の画像と、画像に対するユーザのコメントと、撮像角度と、撮像距離とが紐付けられたデータセットのことである。処理はステップS209に進み、生成部25は取得した画像の車領域を抽出する。「車領域」とは、画像中において車両が写る領域である。
【0021】
処理はステップS211に進み、生成部25はセマンティックセグメンテーションを用いて車領域をそれぞれの部位に分け、各部位の形状の特徴を抽出する。セマンティックセグメンテーションとは画像内の全画素にラベルまたはカテゴリを関連付けるディープラーニングのアルゴリズムであり周知技術である。セマンティックセグメンテーションを用いることにより、例えば、フロントビューの画像(クラス40に分類された画像)に対して、グリル、ヘッドランプなどの形状の特徴が抽出される。
【0022】
処理はステップS213に進み、生成部25は三次元車体モデルデータセット33を参照して三次元モデルを探索する。三次元車体モデルデータセット33には車種ごとに車体の三次元モデルデータが格納されている。さらに三次元車体モデルデータセット33には、それぞれの車種の部位ごとに、形状の特徴が格納されている。生成部25は、三次元車体モデルデータセット33を参照して、ステップS211で抽出された形状の特徴を比較し、類似度の最も高い三次元モデルデータを出力する。なお、三次元車体モデルデータセット33に車種ごとに車体の三次元モデルデータは格納されているものの、それぞれの車種の部位ごとの、形状の特徴は格納されていない場合がある。この場合は、生成部25は次の処理によって類似度の最も高い三次元モデルデータを出力してもよい。生成部25は角度データセット32を参照して一連のデータセットを取得しているため、撮像角度と撮像距離は把握している。生成部25は車種ごとの三次元モデルデータ(複数の異なる三次元モデルデータ)に対し、撮像角度と撮像距離を用いて写真を撮る。この処理は、仮想的な視点から仮想的な写真を撮ることを意味する。これにより、車種ごとの三次元モデルデータのそれぞれに対し、所定の距離(撮像距離)から所定の角度(撮像角度)で撮像した仮想画像が取得される。生成部25は、この複数の仮想画像のそれぞれと、一連のデータセットに係る車両の画像とを比較し、類似度の最も高い仮想画像に係る三次元モデルデータを、類似度の最も高い三次元モデルデータとして出力する。なお類似度には少なくとも画素値の類似度、エッジの類似度、形状の特徴の類似度のいずれか一つが含まれる。
【0023】
処理はステップS215に進み、生成部25はステップS213で出力された三次元モデルデータを用いて、ペア数の少ない角度のクラス(ここではクラス41~47)に対し所定の距離から写真を撮る。これによりクラス41~47において、仮想画像を得ることができる。なおそれぞれのクラスにおいて角度は任意でよい。例えば、クラス41の仮想画像を取得する場合、撮像角度は22.5度~67.5度の間であれば角度は限定されないことを意味する。
【0024】
処理はステップS217に進み、生成部25は仮想画像を加工する。具体的には生成部25は、ペア数の最も多いクラス(ここではクラス40)から取得した一連のデータセットに係る画像の色彩、明度などの特徴を取得し、仮想画像に対して取得した色彩、明度などを付与する。処理はステップS219に進み、生成部25は、加工された仮想画像に対し、同じペア数の少ないクラスからランダムで選択されたコメント、撮像角度、及び撮像距離を紐付けて角度データセット32に記憶する。これにより、クラス40~47のペア数が等しくなる。ステップS205がNOである場合、生成部25による処理は実施されない。
【0025】
次に学習部26の機能について説明する。学習部26は、角度データセット32を参照して各クラス(クラス40~47)の一連のデータセットを取得して学習モデルを生成する。学習部26は、一連のデータセットのうち、車両の画像と、撮像角度と、撮像距離との3つのデータを入力データとし、この車両の画像に対する評価コメントを出力データとする学習モデル(評価コメント生成モデル)を生成する。モデル生成方法は特に限定されず、周知の方法が用いられる。学習部26は、評価コメント生成モデルによって生成された評価コメントと実際のユーザの評価コメントとを比較し、誤差を算出する。誤差を算出する方法として、キーワードを比較する方法、Transformer、BERTなどに代表される機械学習言語モデルに入力し、出力された文章の特徴の差分を算出し誤差として出力する方法が挙げられる。学習部26は、算出した誤差を用いてバックワードし、逆伝播法で学習モデルのパラメータを更新する。学習部26は、更新したパラメータを学習モデルデータベース34に記憶する。学習部26は、角度データセット32に記憶されたすべてのデータセットに対し学習を数百回単位で繰り返し行い、誤差の小さいモデルのパラメータを探索する。
【0026】
学習部26によって生成された学習モデル(学習済モデル)に対し、任意の一枚の車両の画像と、この画像が撮像されたときの角度と、この画像が撮像されたときのカメラから車両までの距離が入力されると、この画像に対する評価コメントが出力される。コントローラ20は、車両全体のイメージを出力するために、車両の三次元モデルから異なる角度の画像を生成し、それぞれの角度の画像に対して学習済モデルを用いて評価コメントを生成する。コントローラ20は、生成した評価コメントに対して、具体的な部位のキーワードと関連する形容詞を抽出し、その部位の良し悪しを判断する。ただし、部位のキーワードがないにも関わらず、形容詞が抽出された場合、コントローラ20は、車両全体の良し悪しとして記録する。コントローラ20は、車両全体の評価と部位ごとの評価を三次元モデルデータにマッピングする。
【0027】
(作用効果)
以上説明したように、本実施形態に係る学習装置1によれば、以下の作用効果が得られる。
【0028】
学習装置1は、車両の第1画像と、第1画像に対するユーザの評価コメントとを紐付けて記憶する記憶装置30と、コントローラ20と、を備える。第1画像は、通信I/F10を介してインターネットから取得される画像である。コントローラ20は第1画像に写る車両の車種を特定する。コントローラ20は特定された車種に対応する三次元モデルデータを用いて第1画像とは異なる第2画像を生成する。コントローラ20は第1画像、第2画像、及びユーザの評価コメントを入力データとする、ユーザの評価コメントに関するモデルを学習し、学習されたモデルを記憶装置30に記憶する。学習装置1によれば枚数の少ない角度で撮像された画像において特定した車種の三次元モデルを用いて枚数の少ない角度の画像を生成することにより、枚数を増やすことが可能となる。そして枚数を増やした上でモデルを学習するためロバスト性が高い学習モデルを生成することが可能となる。
【0029】
記憶装置30には、車種ごとに車体の三次元モデルデータ、及びそれぞれの車種の部位ごとの形状の特徴が格納されている。コントローラ20は第1画像に写る車両の各部位の形状の特徴を抽出する。コントローラ20は抽出された形状の特徴と、記憶装置30に格納されている形状の特徴とを比較し、類似度の最も高い三次元モデルデータを出力する。類似度には少なくとも画素値の類似度、エッジの類似度、形状の特徴の類似度のいずれか一つが含まれる。学習装置1によれば部位の形状の特徴に基づいて車体の三次元モデルデータを探索するため、グリル、ヘッドランプなどの細かい部位の特徴から車種を特定することが可能となる。
【0030】
記憶装置30には、車種ごとに車体の三次元モデルデータが格納されている。コントローラ20は第1画像に写る車両の各部位の形状の特徴を抽出する。コントローラ20は記憶装置30にそれぞれの車種の部位ごとの形状の特徴が格納されていない場合は、第1画像が撮像されたときの角度、及び第1画像が撮像されたときのカメラから車両までの距離を取得する。コントローラ20は車種ごとの三次元モデルデータに対し、撮像角度及び撮像距離を用いて仮想的に写真を撮ることにより車種ごとの仮想画像を取得する。コントローラ20は複数の仮想画像のそれぞれと第1画像とを比較し、類似度の最も高い三次元モデルデータを出力する。類似度には少なくとも画素値の類似度、エッジの類似度、形状の特徴の類似度のいずれか一つが含まれる。これにより、記憶装置30にそれぞれの車種の部位ごとの形状の特徴が格納されていない場合であっても類似度の最も高い三次元モデルデータを出力することが可能となる。
【0031】
第1画像を含む、複数の車両の画像が記憶装置30に記憶される。コントローラ20は複数の画像が撮像されたときの角度に応じて複数の画像を分類する。一例としてコントローラ20は角度に応じてクラス40~47のように分類する(
図3参照)。コントローラ20は最も枚数の多い角度に分類された画像から色彩及び明度を取得し、最も枚数の多い角度以外の角度に対応する第2画像を色彩及び明度を用いて加工処理する。これにより画像の積み増しのバリエーションを増やすことが可能となる。なお加工処理の一例は色彩及び明度の付与が挙げられる。
【0032】
コントローラ20は、出力された三次元モデルデータを用いて第1画像とは角度が異なる画像を生成し、それぞれの角度に対し学習されたモデルから評価コメントを生成する。これにより評価コメントの良し悪しを分析することが可能となる。
【0033】
コントローラ20は、車両全体の評価、及び部位ごとの評価を三次元モデルデータにマッピングする。これにより、車種ごとに全体と部位ごとの良し悪しを直観的に把握することが可能となる。
【0034】
上述の実施形態に記載される各機能は、1または複数の処理回路により実装され得る。処理回路は、電気回路を含む処理装置等のプログラムされた処理装置を含む。処理回路は、また、記載された機能を実行するようにアレンジされた特定用途向け集積回路(ASIC)や回路部品等の装置を含む。
【0035】
上記のように、本発明の実施形態を記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。
【符号の説明】
【0036】
1 学習装置、20 コントローラ、30 記憶装置