IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7240997モデル生成装置、学習モデル及び被写体認識装置
<>
  • 特許-モデル生成装置、学習モデル及び被写体認識装置 図1
  • 特許-モデル生成装置、学習モデル及び被写体認識装置 図2
  • 特許-モデル生成装置、学習モデル及び被写体認識装置 図3
  • 特許-モデル生成装置、学習モデル及び被写体認識装置 図4
  • 特許-モデル生成装置、学習モデル及び被写体認識装置 図5
  • 特許-モデル生成装置、学習モデル及び被写体認識装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-08
(45)【発行日】2023-03-16
(54)【発明の名称】モデル生成装置、学習モデル及び被写体認識装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230309BHJP
【FI】
G06T7/00 350C
【請求項の数】 4
(21)【出願番号】P 2019178736
(22)【出願日】2019-09-30
(65)【公開番号】P2021056735
(43)【公開日】2021-04-08
【審査請求日】2021-06-23
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【弁理士】
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】石川 彰夫
(72)【発明者】
【氏名】服部 元
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2019-046334(JP,A)
【文献】特開2006-301921(JP,A)
【文献】特開2018-120591(JP,A)
【文献】森山 明日佳,外2名,2次元画像における面内回転不変な物体認識に向けて,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM) 2017-CVIM-207 [online] ,日本,情報処理学会,2017年
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
画像と、当該画像に含まれる被写体の種別を示すラベルとを関連付けた教師データに基づいて、入力された画像に含まれる被写体の種別をラベルとして出力する、畳み込みニューラルネットワークの学習モデルを生成するモデル生成部を有し、
前記学習モデルは、入力された入力データをそれぞれ異なる角度に回転させる複数の回転層であって、並列に配置された前記複数の回転層を含み、前記複数の回転層が回転させることによって変換した複数の変換データに畳み込みフィルタを適用し、畳み込みフィルタを適用した前記複数の変換データを足し合わせる畳み込み層を含む複数の畳み込み層と、出力層とを
前記複数の回転層を含む畳み込み層は、前記複数の畳み込み層のうち、相対的に前記出力層に近い畳み込み層である、
モデル生成装置。
【請求項2】
前記回転層の領域のサイズは、前記画像に対する当該画像に含まれる被写体の大きさに基づいて定められる基準に合致するサイズである、
請求項1に記載のモデル生成装置。
【請求項3】
入力された画像に含まれる被写体の種別をラベルとして出力する、畳み込みニューラルネットワークの学習モデルであって、
入力された入力データをそれぞれ異なる角度に回転させる複数の回転層であって、並列に配置された前記複数の回転層を含み、前記複数の回転層が回転させることによって変換した複数の変換データに畳み込みフィルタを適用し、畳み込みフィルタを適用した前記複数の変換データを足し合わせる畳み込み層を含む複数の畳み込み層と、出力層とを
前記複数の回転層を含む畳み込み層は、前記複数の畳み込み層のうち、相対的に前記出力層に近い畳み込み層である、
学習モデル。
【請求項4】
画像を取得する画像取得部と、
請求項に記載の学習モデルを取得するモデル取得部と、
前記画像を前記学習モデルに入力することにより、前記学習モデルが出力したラベルを取得するモデル適用部と、
前記ラベルに基づいて、前記画像に含まれる被写体の種別を出力する出力部と、
を有する被写体認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像に含まれる被写体を認識するモデル生成装置、学習モデル及び被写体認識装置に関する。
【背景技術】
【0002】
従来、画像に含まれる被写体を認識する技術が知られている。特許文献1には、畳み込みニューラルネットワーク(以下、「CNN(Convolutional Neural Network)」という。)を用いて、画像に含まれる被写体を認識する装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2019-032773号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1のようなCNNの学習モデルにおいては、入力された画像に含まれる被写体が、学習に用いられた画像に含まれる被写体に対して多少の位置ずれや変形があっても柔軟に被写体を認識することができるが、画像に様々な態様で写る被写体を精度良く認識させるには、被写体が様々な態様で写る複数の画像を用いて学習させる必要がある。この場合、CNNの学習モデルの管理者は、上記のような複数の画像を含む教師データを用意しなければならず、管理者の負担が増大するという問題があった。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、教師データを用意する管理者の負担を軽減させることができるモデル生成装置、学習モデル及び被写体認識装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様にかかるモデル生成装置は、画像と、当該画像に含まれる被写体の種別を示すラベルとを関連付けた教師データに基づいて、入力された画像に含まれる被写体の種別をラベルとして出力する、畳み込みニューラルネットワークの学習モデルを生成するモデル生成部を有し、前記学習モデルは、入力された入力データにそれぞれ異なる所定の変換を施す複数の変換層を含み、前記複数の変換層が変換した複数の変換データに畳み込みフィルタを適用する畳み込み層を有する。
【0007】
前記学習モデルは、複数の畳み込み層と、出力層とを有してもよいし、前記複数の変換層を含む畳み込み層は、前記複数の畳み込み層のうち、相対的に前記出力層に近い畳み込み層であってもよい。
前記変換層の領域のサイズは、前記画像に対する当該画像に含まれる被写体の大きさに基づいて定められる基準に合致するサイズであってもよい。
【0008】
本発明の第2の態様にかかる学習モデルは、入力された画像に含まれる被写体の種別をラベルとして出力する、畳み込みニューラルネットワークの学習モデルであって、入力された入力データにそれぞれ異なる所定の変換を施す複数の変換層を含み、前記複数の変換層が変換した複数の変換データに畳み込みフィルタを適用する畳み込み層を有する。
【0009】
本発明の第3の態様にかかる被写体認識装置は、画像を取得する画像取得部と、前記学習モデルを取得するモデル取得部と、前記画像を前記学習モデルに入力することにより、前記学習モデルが出力したラベルを取得するモデル適用部と、前記ラベルに基づいて、前記画像に含まれる被写体の種別を出力する出力部と、を有する。
【発明の効果】
【0010】
本発明によれば、教師データを用意する管理者の負担を軽減させることができるという効果を奏する。
【図面の簡単な説明】
【0011】
図1】被写体認識装置の概要を説明するための図である。
図2】被写体認識装置の構成を示す図である。
図3】学習モデルの構成の一部を示す図である。
図4】畳み込み層におけるデータの流れを模式的に表した図である。
図5】畳み込み層におけるデータの流れを模式的に表した図である。
図6】被写体認識装置の処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0012】
[被写体認識装置1の概要]
図1は、被写体認識装置1の概要を説明するための図である。被写体認識装置1は、画像Gに含まれる被写体を認識するために用いられる装置であり、例えばPC(Personal Computer)をはじめとするコンピュータである。被写体認識装置1は、学習モデルMを生成するモデル生成装置としても機能する。被写体認識装置1は、生成した学習モデルMを用いて、画像Gに含まれる被写体を認識する。
【0013】
学習モデルMは、入力された画像Gに含まれる被写体の種別をラベルとして出力するように学習されたモデルである。学習モデルMは、CNNの学習モデルであり、複数の処理層を含む。図1に示す例において、学習モデルMは、複数の処理層として、入力層M10、隠れ層M20及び出力層M30を含む。隠れ層M20は、少なくとも畳み込み層M21を含む。隠れ層M20は、畳み込み層M21とは異なる他の畳み込み層、プーリング層、正規化層及び全結合層をさらに含んでもよい。被写体認識装置1は、画像Gを学習モデルMに入力し、入力層M10から出力層M30までの各処理層を伝搬させることにより、画像Gに含まれる被写体の種別をラベルとして学習モデルMに出力させる。
【0014】
図1に示す例において、画像G1には、猫が写っており、画像G2には、画像G1の猫とは異なる傾きの猫が写っている。一般的に、CNNの学習モデルは、画像G1に基づいて当該画像G1に含まれる被写体の種別(猫)を学習すると、画像G1に含まれる被写体が猫であることを認識することができる。しかしながら、画像G2においては、CNNの学習モデルが、画像G1に基づいて学習しても、画像G2に含まれる被写体が猫であることを認識することができない場合がある。画像G2に含まれる被写体が猫であることを精度良くCNNの学習モデルに認識させるためには、画像G2のような画像G1に写っている猫とは異なる傾きの猫が写る画像Gを用いてCNNの学習モデルに学習させる必要がある。この場合、CNNの学習モデルの管理者は、画像G1に加えて、画像G2をはじめとする様々な変換を施した複数の画像Gも用意しなければならず、管理者の負担が増大するという問題があった。
【0015】
そこで、被写体認識装置1は、直前の処理層から入力された入力データに所定の変換を施す変換層Cを含む学習モデルMを生成する。詳細については後述するが、変換層Cは、畳み込み層M21に含まれる。直前の処理層は、ある処理層に隣接する処理層のうちの上流側(入力層M10側)の処理層である。所定の変換は、回転、拡大・縮小、アフィン変換、射影変換等である。
【0016】
学習モデルMは、例えば、教師データとして画像G1が入力されると、当該画像G1に写っている被写体の特徴と、所定の変換を施した当該被写体の特徴に等しい特徴とを学習する。このようにすることで、学習モデルMは、教師データとして画像G1のみを用いた場合であっても、画像G2に含まれる被写体を認識することができる。その結果、被写体認識装置1は、教師データを用意する管理者の負担を軽減させることができる。
以下、被写体認識装置1の構成について説明する。
【0017】
[被写体認識装置1の構成]
図2は、被写体認識装置1の構成を示す図である。被写体認識装置1は、記憶部11と、制御部12とを有する。記憶部11は、ROM(Read Only Memory)、RAM(Random Access Memory)及びハードディスク等の記憶媒体である。記憶部11は、制御部12が実行するプログラムを記憶している。
【0018】
制御部12は、例えばCPU(Central Processing Unit)である。制御部12は、記憶部11に記憶されたプログラムを実行することにより、教師データ取得部121、モデル生成部122、画像取得部123、モデル取得部124、モデル適用部125及び出力部126として機能する。
【0019】
教師データ取得部121は、学習モデルMの学習に用いるための教師データを取得する。教師データは、画像Gと、当該画像Gに含まれる被写体の種別を示すラベルとを関連付けたデータである。教師データ取得部121は、予め記憶部11に記憶されている教師データを取得してもよいし、外部から入力された教師データを取得してもよい。
【0020】
モデル生成部122は、教師データ取得部121が取得した教師データに基づいて、学習モデルMを生成する。モデル生成部122は、例えば、学習モデルMを生成し、教師データを用いて学習モデルMに含まれる種々のパラメータを調整することにより、学習モデルMを生成する。モデル生成部122は、生成した学習モデルMを記憶部11に記憶させる。学習モデルMの構成については後述する。
【0021】
画像取得部123は、画像Gを取得する。画像取得部123が取得した画像Gは、静止画像であってもよいし、動画像であってもよい。画像取得部123は、予め記憶部11に記憶されている画像Gを取得してもよいし、外部から入力された画像Gを取得してもよい。
【0022】
モデル取得部124は、モデル生成部122が生成した学習モデルMを取得する。モデル取得部124は、例えば、記憶部11に記憶されている学習モデルMを取得する。
【0023】
モデル適用部125は、画像取得部123が取得した画像Gを、モデル取得部124が取得した学習モデルMに適用することにより、画像Gに含まれる被写体を認識する。具体的には、モデル適用部125は、画像Gを学習モデルMに入力することにより、学習モデルMが出力したラベルを取得する。学習モデルMが出力したラベルは、例えば、ビット列である。モデル適用部125は、例えば、画像取得部123によって取得された画像Gが動画像である場合、動画像に含まれるフレーム画像ごとに、当該フレーム画像を学習モデルMに適用する。
【0024】
出力部126は、モデル適用部125が取得したラベルに基づいて、学習モデルMに入力された画像Gに含まれる被写体の種別を出力する。出力部126は、例えば、モデル適用部125がラベルとして取得したビット列によって示される被写体の種別を、画像取得部123が取得した画像Gに含まれる被写体の種別として出力する。出力部126は、例えば、不図示の表示部に被写体の種別を示す情報を表示させることにより、被写体の種別を出力する。
【0025】
[学習モデルMの構成]
続いて、学習モデルMの構成について説明する。図3は、学習モデルMの構成の一部を示す図である。図3においては、畳み込み層M21の直前の処理層がプーリング層M22であるとして説明する。上述のとおり、学習モデルMは、変換層Cを含む畳み込み層M21を有する。具体的には、学習モデルMは、畳み込み層M21に入力された入力データにそれぞれ異なる所定の変換を施す複数の変換層Cを含み、複数の変換層Cが変換した複数の変換データに畳み込みフィルタFを適用する畳み込み層M21を有する。各変換層Cは、単一の処理層であってもよいし、畳み込み層及びプーリング層等の複数の処理層を含むモジュール(例えばInceptionモジュール)であってもよい。
【0026】
学習モデルMが、複数の畳み込み層を有する場合、複数の変換層Cを含む畳み込み層M21は、複数の畳み込み層のうち、相対的に出力層M30に近い畳み込み層であってもよい。このようにすることで、学習モデルMは、変換層Cが所定の変換を施す入力データのデータサイズが小さくなり、変換層Cが所定の変換を施す処理の負荷を軽減させることができる。隠れ層M20にプーリング層が含まれる場合、複数の変換層Cを含む畳み込み層M21は、プーリング層と出力層M30との間に含まれてもよい。
【0027】
図3(a)に示すように、畳み込み層M21には、複数の変換層Cが畳み込みフィルタFより上流側に配置されている。図3(a)に示す例において、畳み込み層M21には、複数の変換層Cに対して1つの畳み込みフィルタFが配置されている。図3(b)に示すように、畳み込み層M21には、複数の変換層Cそれぞれに対応する複数の畳み込みフィルタFであって、それぞれ同一の複数の畳み込みフィルタFが配置されてもよい。
【0028】
畳み込み層M21は、各変換層Cによって所定の変換が施された複数の変換データに畳み込みフィルタFを適用する。畳み込み層M21は、例えば、畳み込みフィルタFを適用した複数の変換データを足し合わせる。
【0029】
上述のとおり、複数の変換層Cは、入力データにそれぞれ異なる所定の変換を施す。それぞれ異なる所定の変換は、ある変換における変換の度合いを示す。例えば、変換層Cが入力データを回転させる回転層である場合、第1の変換層Cでは、入力データを0度に回転させる変換を施し、第2の変換層Cでは、入力データを30度に回転させる変換を施す。
【0030】
具体的には、各変換層Cは、所定の変換を施した入力データである変換データを算出することにより、入力データに所定の変換を施す。各変換層Cは、所定の単位に分割された複数の分割変換領域を含む変換領域を有する。所定の単位は、1つのピクセルであってもよいし、複数のピクセルであってもよい。
【0031】
ここで、変換領域(変換層C)のサイズは、画像Gに対する当該画像Gに含まれる被写体の大きさに基づいて定められる基準に合致するサイズである。「画像Gに対する当該画像Gに含まれる被写体の大きさに基づいて定められる基準に合致するサイズ」は、画像Gにおいて被写体の種別(例えば猫)を認識し得る領域(例えば猫の顔)に対応する入力データを含むサイズである。変換領域のサイズは、例えば、入力データの大きさに等しいサイズである。このようにすることで、学習モデルMは、入力された画像Gにおいて被写体の種別を認識し得る領域に所定の変換が施された場合の特徴に等しい特徴を学習することができる。
【0032】
各分割変換領域には、入力データに所定の変換を施した場合に少なくとも一部が重なる、入力データを所定の単位に分割した複数の分割データ領域のうちの一以上の分割データ領域と、分割データ領域が重なる割合に応じて定められた係数であって、当該一以上の分割データ領域それぞれに対応する係数とが関連付けられている。
【0033】
この場合において、まず、各変換層Cは、プーリング層M22から入力データが入力されると、当該入力データの分割データ領域に関連付けられている変換層Cの分割変換領域ごとに、当該分割変換領域に関連付けられている係数を当該分割データ領域の値に乗じた乗算値を算出する。そして、各変換層Cは、分割変換領域ごとに、当該分割変換領域と一以上の分割データ領域それぞれとに対応する一以上の乗算値を合計した変換データを算出する。各変換層Cは、変換データを算出すると、当該変換データを畳み込みフィルタFに入力する。
【0034】
図4及び図5は、畳み込み層M21におけるデータの流れを模式的に表した図である。図4及び図5においては、畳み込み層M21の直前の処理層がプーリング層M22であるとして説明する。図4及び図5に示す入力データDは、プーリング層M22が出力したデータである。図4及び図5においては、入力データDを9等分に分割した複数の分割データ領域のうちの分割データ領域D2に着目して説明する。図4及び図5に示すリンクLは、分割データ領域と分割変換領域との関連付けを示す。図4及び図5に示すリンクLには、係数が関連付けられており、リンクLが太いほど、係数によって示される値が大きいことを示す。
【0035】
図4に示す第1の変換層C1は、入力データDを、当該入力データDの中心を回転軸として0度回転させる変換を施す変換層Cである。入力データDを0度回転させた場合の分割データ領域D2が、第1の変換層C1の分割変換領域R2に重なる。そのため、分割データ領域D2と分割変換領域R2とが、リンクL1で関連付けられている。
【0036】
この場合において、第1の変換層C1は、リンクL1に関連付けられた係数(例えば1.0)を分割データ領域D2の値に乗じた乗算値を算出し、当該乗算値を分割変換領域R2に関連付ける。第1の変換層C1は、上記処理をリンクLごとに実行する。その後、第1の変換層C1は、分割変換領域ごとに、当該分割変換領域に関連付けた一以上の乗算値を合計することにより、変換データを算出する。
【0037】
図5に示す第2の変換層C2は、入力データDを、当該入力データDの中心を回転軸として45度左回転させる変換を施す変換層Cである。入力データDを45度左回転させた場合の分割データ領域D2は、分割変換領域R1、R2、R4それぞれに重なる。そのため、分割データ領域D2と分割変換領域R1とが、リンクL2で関連付けられている。また、分割データ領域D2と分割変換領域R2とが、リンクL3で関連付けられている。また、分割データ領域D2と分割変換領域R4とが、リンクL4で関連付けられている。
【0038】
この場合において、第2の変換層C2は、リンクL2に関連付けられた係数(例えば0.5)を分割データ領域D2の値に乗じた乗算値を算出し、当該乗算値を分割変換領域R1に関連付ける。また、第2の変換層C2は、リンクL3に関連付けられた係数(例えば0.25)を分割データ領域D2の値に乗じた乗算値を算出し、当該乗算値を分割変換領域R2に関連付ける。また、第2の変換層C2は、リンクL4に関連付けられた係数(例えば0.25)を分割データ領域D2の値に乗じた乗算値を算出し、当該乗算値を分割変換領域R4に関連付ける。
【0039】
第1の変換層C1は、他のリンクLに対して乗算値を算出した後において、分割変換領域ごとに、当該分割変換領域に関連付けた一以上の乗算値を合計することにより、変換データを算出する。各変換層Cは、変換データを算出すると、当該変換データを畳み込みフィルタFに入力する。
【0040】
[被写体認識装置1の処理]
続いて、被写体認識装置1の処理の流れについて説明する。図6は、被写体認識装置1の処理の流れを示すフローチャートである。図6において、S3の処理を実行した後にS4の処理を実行する例を説明するが、これに限らず、S4の処理を実行した後にS3の処理を実行してもよい。
【0041】
本処理は、教師データ取得部121が、教師データを取得したことを契機として開始する(S1)。モデル生成部122は、教師データ取得部121が取得した教師データに基づいて、学習モデルMを生成する(S2)。
【0042】
その後、画像取得部123は、画像Gを取得する(S3)。モデル取得部124はモデル生成部122が生成した学習モデルMを取得する(S4)。モデル適用部125は、画像取得部123が取得した画像Gを、モデル取得部124が取得した学習モデルMに適用する(S5)。具体的には、モデル適用部125は、画像Gを学習モデルMに入力することにより、学習モデルMが出力したラベルを取得する。
【0043】
そして、出力部126は、モデル適用部125が取得したラベルに基づいて、学習モデルMに入力された画像Gに含まれる被写体の種別を出力する(S6)。
【0044】
[本実施の形態における効果]
以上説明したとおり、被写体認識装置1は、入力データにそれぞれ異なる所定の変換を施す複数の変換層Cを含む畳み込み層M21を有する学習モデルMを生成する。そして、被写体認識装置1は、学習モデルMを用いて、入力された画像Gに含まれる被写体を認識する。このようにすることで、被写体認識装置1は、教師データとして1つの画像Gを用いた場合であっても、当該画像Gに写っている被写体の特徴と、所定の変換を施した当該被写体の特徴に等しい特徴とを学習モデルMに学習させることができる。その結果、被写体認識装置1は、教師データを用意する管理者の負担を軽減させることができる。
【0045】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0046】
1 被写体認識装置
11 記憶部
12 制御部
121 教師データ取得部
122 モデル生成部
123 画像取得部
124 モデル取得部
125 モデル適用部
126 出力部
C 変換層
D 入力データ
F 畳み込みフィルタ
G 画像
L リンク
M 学習モデル
M10 入力層
M20 隠れ層
M21 畳み込み層
M22 プーリング層
M30 出力層
図1
図2
図3
図4
図5
図6