特許7190419 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特許7190419学習装置、雰囲気認識装置、学習方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-12-07

(45)【発行日】2022-12-15

(54)【発明の名称】学習装置、雰囲気認識装置、学習方法、及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20221208BHJP

G06N 3/08 20060101ALI20221208BHJP

【ＦＩ】

G06T7/00 350C

G06N3/08

【請求項の数】 7

(21)【出願番号】P 2019207750

(22)【出願日】2019-11-18

(65)【公開番号】P2021081900

(43)【公開日】2021-05-27

【審査請求日】2021-11-17

(73)【特許権者】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100166006

【弁理士】

【氏名又は名称】泉通博

(74)【代理人】

【識別番号】100154070

【弁理士】

【氏名又は名称】久恒京範

(74)【代理人】

【識別番号】100153280

【弁理士】

【氏名又は名称】寺川賢祐

(72)【発明者】

【氏名】王亜楠

(72)【発明者】

【氏名】呉剣明

(72)【発明者】

【氏名】帆足啓一郎

【審査官】片岡利延

(56)【参考文献】

【文献】特開２０１８－１８０６２８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｎ３／０８

(57)【特許請求の範囲】

【請求項1】

複数の人物を被写体として含む複数の画像データと、前記画像データそれぞれの被写体に関する説明文と、前記画像データそれぞれの雰囲気を示すラベルとが対応づけられた教師データを取得する教師データ取得部と、
前記画像データに対応する説明文を、第１ベクトルデータに変換する第１ベクトル変換部と、
変換された前記第１ベクトルデータに対応する画像データを第２ベクトルデータに変換する第２ベクトル変換部と、
複数の層から構成される第１ニューラルネットワークに前記第１ベクトルデータを入力したときに、当該第１ベクトルデータに対応する前記ラベルを出力するように前記第１ニューラルネットワークを構成する各層のパラメータを学習する第１学習部と、
前記第１ニューラルネットワークを構成する層のうちの１部の層である特定層を共通に含む第２ニューラルネットワークに前記第２ベクトルデータを入力したときに、前記第２ニューラルネットワークにおける前記特定層に入力されるデータが前記第１ニューラルネットワークにおける前記特定層に入力されるデータと近づくように前記第２ニューラルネットワークを構成する各層のパラメータを学習する第２学習部と、
を備える学習装置。

【請求項2】

（１）前記第１ニューラルネットワークにおける前記特定層に入力されるデータと前記第２ニューラルネットワークにおける前記特定層に入力されるデータとの誤差と、（２）前記教師データに含まれるラベルと前記第１ニューラルネットワークの出力との誤差と、を含む評価関数の評価値を算出する評価値算出部をさらに備え、
前記第１学習部は、前記評価値に基づいて前記第１ニューラルネットワークを構成する各層のパラメータを更新し、
前記第２学習部は、前記評価値に基づいて前記第２ニューラルネットワークを構成する層のうち、入力層、前記特定層、及び前記入力層と前記特定層との間に存在する層のパラメータを更新する、
請求項１に記載の学習装置。

【請求項3】

前記第２学習部は、前記評価値があらかじめ定められた収束条件を満たすことを条件として、前記第２ニューラルネットワークに前記第２ベクトルデータを入力したときに、当該第２ベクトルデータに対応する前記ラベルを出力するように前記第２ニューラルネットワークを構成する各層のパラメータを学習する、
請求項２に記載の学習装置。

【請求項4】

前記第２学習部は、前記第２ニューラルネットワークを構成する層のうち、出力層と、前記出力層と前記特定層との間に存在する層のパラメータのみを学習する、
請求項３に記載の学習装置。

【請求項5】

請求項３又は４に記載の学習装置が生成した前記第２ニューラルネットワークを構成する各層のパラメータを学習モデルとして記憶する記憶部と、
画像データを取得する画像データ取得部と、
前記記憶部が記憶する学習モデルを前記画像データ取得部が取得した画像データに適用することにより、前記画像データの被写体の雰囲気を示すラベルを出力するモデル適用部と、
を備える雰囲気認識装置。

【請求項6】

プロセッサが、
複数の人物を被写体として含む複数の画像データと、前記画像データそれぞれの被写体に関する説明文と、前記画像データそれぞれの被写体の雰囲気を示すラベルとが対応づけられた教師データを取得するステップと、
前記画像データに対応する説明文を、第１ベクトルデータに変換するステップと、
変換された前記第１ベクトルデータに対応する前記画像データを第２ベクトルデータに変換するステップと、
複数の層から構成される第１ニューラルネットワークに前記第１ベクトルデータを入力したときに、当該第１ベクトルデータに対応する前記ラベルを出力するように前記第１ニューラルネットワークを構成する各層のパラメータを学習するステップと、
前記第１ニューラルネットワークを構成する層のうちの１部の層である特定層を共通に含む第２ニューラルネットワークに前記第２ベクトルデータを入力したときに、前記第２ニューラルネットワークにおける前記特定層が出力するベクトルが前記第１ニューラルネットワークにおける前記特定層が出力するベクトルと近づくように前記第２ニューラルネットワークを構成する各層のパラメータを学習するステップと、
を実行する学習方法。

【請求項7】

コンピュータに、
複数の人物を被写体として含む複数の画像データと、前記画像データそれぞれの被写体に関する説明文と、前記画像データそれぞれの被写体の雰囲気を示すラベルとが対応づけられた教師データを取得する機能と、
前記画像データに対応する説明文を、第１ベクトルデータに変換する機能と、
変換された前記第１ベクトルデータに対応する前記画像データを第２ベクトルデータに変換する機能と、
複数の層から構成される第１ニューラルネットワークに前記第１ベクトルデータを入力したときに、当該第１ベクトルデータに対応する前記ラベルを出力するように前記第１ニューラルネットワークを構成する各層のパラメータを学習する機能と、
前記第１ニューラルネットワークを構成する層のうちの１部の層である特定層を共通に含む第２ニューラルネットワークに前記第２ベクトルデータを入力したときに、前記第２ニューラルネットワークにおける前記特定層が出力するベクトルが前記第１ニューラルネットワークにおける前記特定層が出力するベクトルと近づくように前記第２ニューラルネットワークを構成する各層のパラメータを学習する機能と、
を実現させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習装置、雰囲気認識装置、学習方法、及びプログラムに関する。

【背景技術】

【0002】

従来、コミュニケーションシーンに参加している人間同士の雰囲気を認識する技術が提案されている。例えば、非特許文献１には、画像から顔、ポーズ、ジェスチャ、視線などの特徴量を抽出して、既知の深層学習手法を利用してグループレベルでの感情の認識モデルを実現するための技術が開示されている。

【先行技術文献】

【非特許文献】

【0003】

【文献】Xin Guo, Bin Zhu, Luisa F. Polania, Charles Boncelet, and Kenneth E. Barner. 2018. Group-Level Emotion Recognition using Hybrid Deep Models based on Faces, Scenes, Skeletons and Visual Attentions. ACM International Conference on Multimodal Interaction 2018.

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記の技術は、画像に含まれる視覚特徴を抽出して複数のモデルを構築し、それらのモデルで認識した結果を融合することで雰囲気認識の実現を試みる技術である。しかしながら、画像から抽出された低レベルの視覚特徴（例えば、顔特徴や表情特徴等）の組み合わせだけでは、実用的な認識性能を担保することが難しい場合がある。

【0005】

本発明はこれらの点に鑑みてなされたものであり、画像を入力とするニューラルネットワークの学習モデルに、画像以外の他の情報から得られる知識を移転させる技術を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明の第１の態様は、学習装置である。この装置は、複数の人物を被写体として含む複数の画像データと、前記画像データそれぞれの被写体に関する説明文と、前記画像データそれぞれの雰囲気を示すラベルとが対応づけられた教師データを取得する教師データ取得部と、前記画像データに対応する説明文を、第１ベクトルデータに変換する第１ベクトル変換部と、変換された前記第１ベクトルデータに対応する画像データを第２ベクトルデータに変換する第２ベクトル変換部と、複数の層から構成される第１ニューラルネットワークに前記第１ベクトルデータを入力したときに、当該第１ベクトルデータに対応する前記ラベルを出力するように前記第１ニューラルネットワークを構成する各層のパラメータを学習する第１学習部と、前記第１ニューラルネットワークを構成する層のうちの１部の層である特定層を共通に含む第２ニューラルネットワークに前記第２ベクトルデータを入力したときに、前記第２ニューラルネットワークにおける前記特定層に入力されるデータが前記第１ニューラルネットワークにおける前記特定層に入力されるデータと近づくように前記第２ニューラルネットワークを構成する各層のパラメータを学習する第２学習部と、を備える。

【0007】

前記学習装置は、（１）前記第１ニューラルネットワークにおける前記特定層に入力されるデータと前記第２ニューラルネットワークにおける前記特定層に入力されるデータとの誤差と、（２）前記教師データに含まれるラベルと前記第１ニューラルネットワークの出力との誤差と、を含む評価関数の評価値を算出する評価値算出部をさらに備えてもよく、前記第１学習部は、前記評価値に基づいて前記第１ニューラルネットワークを構成する各層のパラメータを更新してもよく、前記第２学習部は、前記評価値に基づいて前記第２ニューラルネットワークを構成する層のうち、入力層、前記特定層、及び前記入力層と前記特定層との間に存在する層のパラメータを更新してもよい。

【0008】

前記第２学習部は、前記評価値があらかじめ定められた収束条件を満たすことを条件として、前記第２ニューラルネットワークに前記第２ベクトルデータを入力したときに、当該第２ベクトルデータに対応する前記ラベルを出力するように前記第２ニューラルネットワークを構成する各層のパラメータを学習してもよい。

【0009】

前記第２学習部は、前記第２ニューラルネットワークを構成する層のうち、出力層と、前記出力層と前記特定層との間に存在する層のパラメータのみを学習してもよい。

【0010】

本発明の第２の態様は、雰囲気認識装置である。この装置は、上述した学習装置が生成した前記第２ニューラルネットワークを構成する各層のパラメータを学習モデルとして記憶する記憶部と、画像データを取得する画像データ取得部と、前記記憶部が記憶する学習モデルを前記画像データ取得部が取得した画像データに適用することにより、前記画像データの被写体の雰囲気を示すラベルを出力するモデル適用部と、を備える。

【0011】

本発明の第３の態様は、学習方法である。この方法において、プロセッサが、複数の人物を被写体として含む複数の画像データと、前記画像データそれぞれの被写体に関する説明文と、前記画像データそれぞれの被写体の雰囲気を示すラベルとが対応づけられた教師データを取得するステップと、前記画像データに対応する説明文を、第１ベクトルデータに変換するステップと、変換された前記第１ベクトルデータに対応する前記画像データを第２ベクトルデータに変換するステップと、複数の層から構成される第１ニューラルネットワークに前記第１ベクトルデータを入力したときに、当該第１ベクトルデータに対応する前記ラベルを出力するように前記第１ニューラルネットワークを構成する各層のパラメータを学習するステップと、前記第１ニューラルネットワークを構成する層のうちの１部の層である特定層を共通に含む第２ニューラルネットワークに前記第２ベクトルデータを入力したときに、前記第２ニューラルネットワークにおける前記特定層が出力するベクトルが前記第１ニューラルネットワークにおける前記特定層が出力するベクトルと近づくように前記第２ニューラルネットワークを構成する各層のパラメータを学習するステップと、を実行する。

【0012】

本発明の第４の態様はプログラムである。このプログラムは、コンピュータに、複数の人物を被写体として含む複数の画像データと、前記画像データそれぞれの被写体に関する説明文と、前記画像データそれぞれの被写体の雰囲気を示すラベルとが対応づけられた教師データを取得する機能と、前記画像データに対応する説明文を、第１ベクトルデータに変換する機能と、変換された前記第１ベクトルデータに対応する前記画像データを第２ベクトルデータに変換する機能と、複数の層から構成される第１ニューラルネットワークに前記第１ベクトルデータを入力したときに、当該第１ベクトルデータに対応する前記ラベルを出力するように前記第１ニューラルネットワークを構成する各層のパラメータを学習する機能と、前記第１ニューラルネットワークを構成する層のうちの１部の層である特定層を共通に含む第２ニューラルネットワークに前記第２ベクトルデータを入力したときに、前記第２ニューラルネットワークにおける前記特定層が出力するベクトルが前記第１ニューラルネットワークにおける前記特定層が出力するベクトルと近づくように前記第２ニューラルネットワークを構成する各層のパラメータを学習する機能と、を実現させる。

【0013】

このプログラムを提供するため、あるいはプログラムの一部をアップデートするために、このプログラムを記録したコンピュータ読み取り可能な記録媒体が提供されてもよく、また、このプログラムが通信回線で伝送されてもよい。

【0014】

なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。

【発明の効果】

【0015】

本発明によれば、画像を入力とするニューラルネットワークの学習モデルに、画像以外の他の情報から得られる知識を移転させることができる。

【図面の簡単な説明】

【0016】

【図1】実施の形態に係る処理の概要を説明するための模式図である。

【図2】実施の形態に係る学習装置の機能構成を模式的に示す図である。

【図3】実施の形態に係る第２誤差を説明するための図である。

【図4】実施の形態に係る雰囲気認識装置の機能構成を模式的に示す図である。

【図5】実施の形態に係る学習装置が実行する学習処理の流れを説明するためのフローチャートである。

【発明を実施するための形態】

【0017】

＜実施の形態の概要＞
本発明の実施の形態に係る学習装置は、複数の層から構成されるニューラルネットワークを利用して、複数の人物を被写体として含む画像データを入力したときに、その画像から得られる雰囲気を示すラベルを出力する学習モデルを生成する。このとき、実施の形態に係る学習装置は、複数の人物を被写体として含む画像データとその画像データの雰囲気を文章で表した説明文、及びその画像データの雰囲気を示すラベルが紐づけられたデータを教師データとして用いる。この教師データを用いることにより、実施の形態に係る学習装置は、画像データを入力として雰囲気を出力するための学習モデルを構成する層のパラメータに、説明文から得られる“知識”を抽出した知識特徴量を移転させる。これにより、実施の形態に係る学習装置は、最終的には画像データのみを入力とする学習モデルであるが、その学習モデルには説明文から得られる知識が反映された学習モデルを生成することができる。

【0018】

なお、「複数の人物を被写体として含む画像データの雰囲気」とは、その画像データに含まれる被写体同士の雰囲気の良し悪しを示す概念である。また、「画像データの雰囲気を文章で表した説明文」とは、画像データに含まれる被写体（人物以外も含む）を描写した文章であり、少なくとも名詞と動詞とを含む文章である。説明文の具体例としては、例えば、「二人の男性が口論をしている」、「３人の女性がカフェで紅茶を飲んでいる」、「会議室の白板にグラフが描かれている」等である。

【0019】

図１（ａ）－（ｂ）は、実施の形態に係る処理の概要を説明するための模式図である。具体的には、図１（ａ）は、説明文の知識を抽出するため雰囲気特徴学習処理を説明するための図である。また、図１（ｂ）は、雰囲気特徴学習処理によって抽出された雰囲気特徴量を用いて、雰囲気認識モデルを学習するモデル学習処理を説明するための図である。以下、図１を（ａ）－（ｂ）参照して、実施の形態に係る学習装置が実行する処理の概要を説明する。

【0020】

図１（ａ）において、教師データＴは、雰囲気特徴学習に用いられる教師データである。この教師データＴは、複数の人物を被写体として含む複数の画像データＩと、画像データＩそれぞれの被写体に関する説明文Ｄと、画像データＩそれぞれの雰囲気を示すラベルＬとが対応づけられたデータである。一例として、ラベルＬは１から５までの５段階の数値で表現され、数値が大きいほど雰囲気がよいことを示す。図１（ａ）に例示する教師データでは、画像データＩの雰囲気を示すラベルＬは「５」であり、雰囲気がよいことを示している。

【0021】

実施の形態に係る学習装置は、例えば既知のＢＥＲＴ(Bidirectional Encoder Representations from Transformers)を利用して、教師データＴに含まれる説明文Ｄを第１ベクトルデータＶ１に変換する。また、実施の形態に係る学習装置は、例えば既知のＶＧＧ（Visual Geometry Group）モデルを利用して教師データＴに含まれる画像データＩを第２ベクトルデータＶ２に変換する。なお、これらのベクトル変換の手法は一例であり、これ以外の手法が用いられてもよい。

【0022】

第１ニューラルネットワークＮ１は、第１ベクトルデータＶ１を入力したときに、第１ベクトルデータＶ１の元となった教師データＴに含まれるラベルＬを出力するためのニューラルネットワークである。また、第２ニューラルネットワークＮ２は、第２ベクトルデータＶ２を入力したときに、第２ベクトルデータＶ２の元となった教師データＴに含まれるラベルＬを出力するためのニューラルネットワークである。既知の技術であるため詳細な説明は省略するが、実施の形態に係る学習装置は、第１ニューラルネットワークＮ１に第１ベクトルデータＶ１を入力したときの出力と教師データＴに含まれるラベルＬとの誤差を逆伝搬することにより、第１ニューラルネットワークＮ１を構成するパラメータを学習する。第２ニューラルネットワークＮ２の学習についても同様である。

【0023】

第１ニューラルネットワークＮ１と第２ニューラルネットワークＮ２とはともに、入力層、出力層、及び中間層を含む複数の層から構成されるニューラルネットワークである。一般に、ニューラルネットワークが異なれば、ニューラルネットワークを構成するパラメータも異なる。しかしながら、図１（ａ）に示すように、実施の形態に係る第２ニューラルネットワークＮ２は、第１ニューラルネットワークＮ１を構成する層のうちの１部の層である特定層Ｓを共通に含んでいる。図１（ａ）において、斜線を付した矩形が、第１ニューラルネットワークＮ１及び第２ニューラルネットワークＮ２が共通に含む特定層Ｓである。

【0024】

実施の形態に係る学習装置は、雰囲気特徴学習処理として、第１ニューラルネットワークＮ１の学習と並行して、第２ニューラルネットワークＮ２に第２ベクトルデータＶ２を入力したときの第２ニューラルネットワークＮ２に含まれる特定層Ｓに入力されるベクトルデータが第１ニューラルネットワークＮ１に含まれる特定層Ｓに入力されるベクトルデータに近づくように、第２ニューラルネットワークＮ２の学習も実行する。

【0025】

上述したように、第１ニューラルネットワークＮ１は、第１ベクトルデータＶ１を入力したときに第１ベクトルデータＶ１に対応するラベルＬを出力するように学習される。すなわち、第１ニューラルネットワークＮ１は、説明文Ｄに基づく情報ないし知識が学習されるニューラルネットワークと言えるため、第１ニューラルネットワークＮ１に含まれる特定層Ｓにも、説明文Ｄに基づく知識が含まれると考えられる。

【0026】

したがって、第２ニューラルネットワークＮ２に含まれる特定層Ｓに入力されるベクトルデータを、第１ニューラルネットワークＮ１に含まれる特定層Ｓに入力されるベクトルデータと近づけることにより、説明文Ｄに基づく知識を第２ニューラルネットワークＮ２の特定層Ｓに移転することができる。言い換えると、実施の形態に係る学習装置は、画像データＩに由来する第２ベクトルデータＶ２を第２ニューラルネットワークＮ２に入力したときに特定層Ｓに入力されるベクトルデータを、説明文Ｄに由来する第１ベクトルデータＶ１を第１ニューラルネットワークＮ１に入力したときに特定層Ｓに入力されるベクトルデータと近似させることができる。

【0027】

説明文Ｄに基づく知識を第２ニューラルネットワークＮ２の特定層Ｓに移転する処理である雰囲気特徴学習処理が終了すると、実施の形態に係る学習装置は、雰囲気特徴学習処理によって得られた第２ニューラルネットワークＮ２を用いて、雰囲気認識モデルの学習を実行する。雰囲気認識モデルは、画像データＩを入力したときに、画像データＩの雰囲気を示すラベルＬを出力するように学習された機械学習モデルである。具体的には、第２ニューラルネットワークＮ２の構造及びそのパラメータである。

【0028】

実施の形態に係る学習装置は、雰囲気特徴学習処理によって得られた第２ニューラルネットワークＮ２のうち、入力層から特定層Ｓに至るまでの間に存在する層のパラメータを固定し、特定層Ｓよりも出力層側にある層のパラメータのみを学習する。図１（ｂ）において、一点鎖線の矩形で示す層が、第２ニューラルネットワークＮ２における入力層から特定層Ｓに至るまでの間に存在する層である。また、横線で示す層が、特定層Ｓよりも出力層側にある層である。これにより、実施の形態に係る学習装置は、第２ニューラルネットワークＮ２の特定層Ｓに入力されるベクトルデータを用いて、特定層Ｓよりも出力層側にある層のパラメータを学習させることができる。結果として、実施の形態に係る学習装置は、画像を入力とする第２ニューラルネットワークＮ２の学習モデルに、画像以外の他の情報である説明文Ｄに由来する知識を移転させることができる。

【0029】

＜実施の形態に係る学習装置１の機能構成＞
図２は、実施の形態に係る学習装置１の機能構成を模式的に示す図である。学習装置１は、記憶部１０と制御部１１とを備える。図２において、矢印は主なデータの流れを示しており、図２に示していないデータの流れがあってもよい。図２において、各機能ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図２に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

【0030】

記憶部１０は、学習装置１を実現するコンピュータのＢＩＯＳ（Basic Input Output System）等を格納するＲＯＭ（Read Only Memory）や学習装置１の作業領域となるＲＡＭ（Random Access Memory）、ＯＳ（Operating System）やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の大容量記憶装置である。

【0031】

制御部１１は、学習装置１のＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサであり、記憶部１０に記憶されたプログラムを実行することによって、教師データ取得部１１０、第１ベクトル変換部１１１、第２ベクトル変換部１１２、第１学習部１１３、第２学習部１１４、及び評価値算出部１１５として機能する。

【0032】

なお、図２は、学習装置１が単一の装置で構成されている場合の例を示している。しかしながら、学習装置１は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部１１を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。

【0033】

教師データ取得部１１０は、教師データＴを記憶部１０から読み出して取得する。教師データＴは、複数の人物を被写体として含む複数の画像データＩと、画像データそれぞれの被写体に関する説明文Ｄと、画像データＩそれぞれの雰囲気を示すラベルＬとが対応づけられたデータである。

【0034】

第１ベクトル変換部１１１は、教師データＴに含まれる画像データＩに対応する説明文Ｄを、第１ベクトルデータＶ１に変換する。第２ベクトル変換部１１２は、第１ベクトルデータに対応する画像データＩを第２ベクトルデータＶ２に変換する。

【0035】

［雰囲気特徴学習処理］
第１学習部１１３は、第１ニューラルネットワークＮ１に第１ベクトルデータＶ１を入力したときに、第１ベクトルデータＶ１に対応するラベルＬを出力するように第１ニューラルネットワークＮ１を構成する各層のパラメータを学習する。

【0036】

第２学習部１１４は、第２ニューラルネットワークＮ２を構成する各層のパラメータを学習する。ここで、第２ニューラルネットワークＮ２は、第１ニューラルネットワークＮ１を構成する層のうちの１部の層である特定層Ｓを共通に含むネットワークである。第２学習部１１４は、第２ニューラルネットワークＮ２に第２ベクトルデータＶ２を入力したときに、第２ニューラルネットワークＮ２における特定層Ｓに入力されるベクトルデータが第１ニューラルネットワークＮ１における特定層Ｓに入力されるベクトルデータと近づくように、第２ニューラルネットワークＮ２を構成する各層のパラメータを学習する。これにより、学習装置１は、第１ベクトルデータＶ１の由来となった説明文Ｄの知識を、第２ニューラルネットワークＮ２に含まれる特定層Ｓに移転することができる。

【0037】

第１学習部１１３及び第２学習部１１４が実行する学習についてより具体的に説明する。
評価値算出部１１５は、第１誤差Ｅ１と第２誤差Ｅ２との２つの誤差を含む評価関数Ｆの評価値Ｖを算出する。ここで、第１誤差は、第１ニューラルネットワークＮ１における特定層Ｓに入力されるベクトルデータと、第２ニューラルネットワークＮ２における特定層に入力されるベクトルデータとの誤差である。また、第２誤差は、教師データＴに含まれるラベルＬと第１ニューラルネットワークＮ１の出力との誤差である。

【0038】

図３は、実施の形態に係る第２誤差Ｅ２を説明するための図であり、第１ニューラルネットワークＮ１の特定層Ｓである第１特定層Ｓ１の構造と第２ニューラルネットワークＮ２の特定層Ｓである第２特定層Ｓ２の構造とを模式的に示す図である。図３に示す例では、第１特定層Ｓ１は、Ｎ個（Ｎは正の整数）のノード（第１ノードａ_１から第Ｎノードａ_Ｎ）を備えている。第２特定層Ｓ２も第１特定層Ｓ１と同一の構造であり、Ｎ個のノード（第１ノードｂ_１から第Ｎノードｂ_Ｎ）を備えている。

【0039】

第１特定層Ｓ１において第１ノードａ_１から第Ｎノードａ_Ｎまでのそれぞれのノードに入力される数値をそれぞれａ_１，ａ_２，・・・，ａ_Ｎとする。また、これらの数値を要素とするベクトルをベクトルＡ＝（ａ_１，ａ_２，・・・，ａ_Ｎ）とする。同様に、第２特定層Ｓ２において第１ノードｂ_１から第Ｎノードｂ_Ｎまでのそれぞれのノードに入力される数値をそれぞれｂ_１，ｂ_２，・・・，ｂ_Ｎとし、これらの数値を要素とするベクトルをベクトルＢ＝（ｂ_１，ｂ_２，・・・，ｂ_Ｎ）とする。このとき、第２誤差Ｅ２は、以下の式（１）で表される。

【0040】

【数1】

【0041】

式（１）に示すように、第１特定層Ｓ１に入力されるデータと第２特定層Ｓ２に入力されるデータとの差が小さいほど、第２誤差Ｅ２は小さくなる。

【0042】

一例として、評価関数Ｆの評価値Ｖは、以下の式（２）で表される。
Ｖ＝Ｅ１＋λＥ２（２）
ここで、λは、評価関数Ｆにおける第２誤差Ｅ２の影響を調整するためのパラメータである。評価関数Ｆとして式（１）の関数を採用する場合、第２学習部１１４及び評価値算出部１１５は、評価値Ｖの値が小さくなるように各ニューラルネットワークのパラメータを更新する。

【0043】

第１学習部１１３は、評価関数Ｆの評価値Ｖに基づいて、第１ニューラルネットワークＮ１を構成する各層のパラメータを更新する。また、第２学習部１１４は、評価関数Ｆの評価値Ｖに基づいて、第２ニューラルネットワークＮ２を構成する層のうち、入力層、特定層Ｓ、及び入力層と特定層Ｓとの間に存在する層のパラメータを更新する。

【0044】

これにより、第２学習部１１４は、説明文Ｄに由来する第１ベクトルデータＶ１を入力したときに、説明文Ｄに対応するラベルＬを出力する第１ニューラルネットワークＮ１の学習モデルを生成することができる。また、評価値算出部１１５は、第２学習部１１４が生成する第１ニューラルネットワークＮ１と共通の特定層Ｓを持ち、説明文Ｄに対応する画像データＩを入力したときに、特定層Ｓに入力されるベクトルデータが第１ニューラルネットワークＮ１における特定層Ｓに入力されるベクトルデータと近似するベクトルデータとなる第２ニューラルネットワークＮ２の学習モデルを生成することができる。

【0045】

［雰囲気認識モデルの学習処理］
第２学習部１１４は、評価関数Ｆの評価値Ｖがあらかじめ定められた収束条件を満たすことを条件として、第２ニューラルネットワークＮ２に第２ベクトルデータＶ２を入力したときに、第２ベクトルデータＶ２に対応するラベルＬを出力するように第２ニューラルネットワークＮ２を構成する各層のパラメータを学習する。

【0046】

ここで、「あらかじめ定められた収束条件」とは、雰囲気特徴学習処理が終了したか否かを判定するために第２学習部１１４が参照する「雰囲気特徴学習の終了判定条件」である。具体的な収束条件は、教師データＴの構成や雰囲気認識に要求される性能、計算コスト等を勘案して実験により定めればよい。評価関数Ｆの評価値Ｖとして式（２）に示す数式を採用する場合、所定の収束条件は、評価値Ｖが所定の閾値Ｔｈ以下となることとして定めることができる。

【0047】

雰囲気特徴学習処理は、説明文Ｄに由来する知識を第２ニューラルネットワークＮ２の特定層Ｓに移転するために、第２ニューラルネットワークＮ２のうち、入力層から特定層Ｓに至るまでの間のパラメータを決定する処理と言える。したがって、第２学習部１１４は、第２ニューラルネットワークＮ２を構成する層のうち、出力層と、出力層と特定層Ｓとの間に存在する層のパラメータのみを学習する。これにより、第２学習部１１４は、説明文Ｄの知識を移転した特定層Ｓを利用して、画像データＩを入力したときに画像データＩの雰囲気を示すラベルＬを出力する雰囲気認識モデルを生成することができる。

【0048】

［雰囲気認識処理］
以上、ニューラルネットワークの学習モデルである雰囲気認識モデルに、説明文Ｄに由来する知識を移転するための学習処理について説明した。続いて、学習処理によって得られた雰囲気認識モデルを用いて、未知の画像データを入力してその画像データの雰囲気を認識する雰囲気認識処理について説明する。

【0049】

図４は、実施の形態に係る雰囲気認識装置２の機能構成を模式的に示す図である。雰囲気認識装置２は、記憶部２０と制御部２１とを備える。図４において、矢印は主なデータの流れを示しており、図４に示していないデータの流れがあってもよい。図４において、各機能ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図４に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

【0050】

記憶部２０は、学習装置１を実現するコンピュータのＢＩＯＳ等を格納するＲＯＭや学習装置１の作業領域となるＲＡＭ、ＯＳやアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤやＳＳＤ等の大容量記憶装置である。

【0051】

制御部２１は、学習装置１のＣＰＵやＧＰＵ等のプロセッサであり、記憶部２０に記憶されたプログラムを実行することによって、画像データ取得部２１０、学習モデル取得部２１１、及びモデル適用部２１２として機能する。

【0052】

なお、図４は、雰囲気認識装置２が単一の装置で構成されている場合の例を示している。しかしながら、雰囲気認識装置２は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部２１を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。

【0053】

記憶部２０は、上述した学習装置１が生成した第２ニューラルネットワークＮ２を構成する各層のパラメータを雰囲気認識モデルとして記憶している。画像データ取得部２１０は、認識対象とする未知の画像データを取得する。モデル適用部２１２は、記憶部２０が記憶する学習モデルを画像データ取得部２１０が取得した未知の画像データＩに適用することにより、画像データＩの被写体の雰囲気を示すラベルＬを出力する。これにより、実施の形態に係る雰囲気認識装置２は、説明文Ｄの知識を移転した雰囲気認識モデルを用いて、画像データＩの雰囲気を推定することができる。

【0054】

＜学習装置１が実行する学習方法の処理フロー＞
図５は、実施の形態に係る学習装置１が実行する学習処理の流れを説明するためのフローチャートである。本フローチャートにおける処理は、例えば学習装置１が起動したときに開始する。

【0055】

教師データ取得部１１０は、複数の人物を被写体として含む複数の画像データＩと、画像データＩそれぞれの被写体に関する説明文Ｄと、画像データＩそれぞれの雰囲気を示すラベルＬとが対応づけられた教師データＴを取得する（Ｓ２）。

【0056】

第１ベクトル変換部１１１は、画像データＩに対応する説明文Ｄを、第１ベクトルデータＶ１に変換する（Ｓ４）。第２ベクトル変換部１１２は、変換された第１ベクトルデータＶ１に対応する画像データＩを第２ベクトルデータＶ２に変換する（Ｓ６）。

【0057】

第１学習部１１３は、複数の層から構成される第１ニューラルネットワークＮ１に第１ベクトルデータＶ１を入力したときに、第１ベクトルデータＶ１に対応するラベルＬを出力するように第１ニューラルネットワークＮ１を構成する各層のパラメータを学習する（Ｓ８）。

【0058】

第２学習部１１４は、第１ニューラルネットワークＮ１を構成する層のうちの１部の層である特定層Ｓを共通に含む第２ニューラルネットワークＮ２に第２ベクトルデータＶ２を入力したときに、第２ニューラルネットワークＮ２における特定層Ｓに入力されるデータが第１ニューラルネットワークＮ１における特定層Ｓに入力されるデータと近づくように、第２ニューラルネットワークＮ２を構成する各層のパラメータを学習する（Ｓ１０）。

【0059】

評価値算出部１１５は、（１）第１ニューラルネットワークＮ１における特定層Ｓに入力されるデータと第２ニューラルネットワークＮ２における特定層Ｓに入力されるデータとの誤差である第１誤差Ｅ１と、（２）教師データＴに含まれるラベルＬと第１ニューラルネットワークＮ１の出力との誤差である第２誤差Ｅ２と、を含む評価関数Ｆの評価値Ｖを算出する（Ｓ１２）。

【0060】

評価関数Ｆの評価値Ｖが所定の収束条件を満たすまでの間（Ｓ１４のＮｏ）、学習装置１はステップＳ８からステップＳ１２までの処理を繰り返す。評価関数Ｆの評価値Ｖが所定の収束条件を満たすと（Ｓ１４のＹｅｓ）、本フローチャートにおける処理は終了する。

【0061】

＜本発明の利用シーン＞
本発明に係る雰囲気認識装置を、例えばチャットボット用のような対話エージェントに導入することにより、雰囲気認識の結果をトリガーとして対話エージェントの自動起動が可能となる。これにより、実施の形態に係る雰囲気認識装置２によれば、例えば、対話エージェントの活用場面を増やし、ひいては人間同士のコミュニケーションを促進することが期待できる。

【0062】

＜実施の形態に係る学習装置１が奏する効果＞
以上説明したように、実施の形態に係る学習装置１によれば、画像を入力とするニューラルネットワークの学習モデルに、画像以外の他の情報から得られる知識を移転させることができる。

【0063】

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果をあわせ持つ。

【符号の説明】

【0064】

１・・・学習装置
１０・・・記憶部
１１・・・制御部
１１０・・・教師データ取得部
１１１・・・第１ベクトル変換部
１１２・・・第２ベクトル変換部
１１３・・・第１学習部
１１４・・・第２学習部
１１５・・・評価値算出部
２・・・雰囲気認識装置
２０・・・記憶部
２１・・・制御部
２１０・・・画像データ取得部
２１１・・・学習モデル取得部
２１２・・・モデル適用部

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版