(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024168625
(43)【公開日】2024-12-05
(54)【発明の名称】制御装置、制御装置の制御方法、プログラム、ニューラルネットワークの学習方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20241128BHJP
G10L 25/30 20130101ALI20241128BHJP
G10L 25/57 20130101ALI20241128BHJP
G10L 25/51 20130101ALI20241128BHJP
【FI】
G06T7/00 350C
G06T7/00 P
G10L25/30
G10L25/57
G10L25/51
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2023085463
(22)【出願日】2023-05-24
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100125254
【弁理士】
【氏名又は名称】別役 重尚
(72)【発明者】
【氏名】宮内 大
(72)【発明者】
【氏名】金子 裕
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA05
5L096GA08
5L096GA51
5L096HA11
5L096KA04
(57)【要約】
【課題】推論結果の精度の低下を抑制することができる制御装置を提供する。
【解決手段】制御装置100は、第1の推論モデル200及び第2の推論モデル220で構成されたニューラルネットワーク部101、判定部102、制御部103を備え、関連する2つの入力データを入力として、推論処理を行う。制御部103は、入力データの何れかが判定部102によって推論処理に使用不可能と判定された場合、第1の推論モデル200が第1の層201、第2の層202のうち推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、推論処理に使用可能と判定されたデータを入力として第2の推論モデル220によって抽出された特徴量とに基づいて結合層210から出力データを出力するように制御する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
関連する複数のデータを入力として推論処理を行う制御装置であって、
前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第1の推論モデルと、
前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第2の推論モデルと、
前記第1の推論モデル及び前記第2の推論モデルの動作を制御する制御手段と、
前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定手段とを備え、
前記制御手段は、
前記複数のデータの全てが前記判定手段によって前記推論処理に使用可能と判定された場合、前記第2の推論モデルが特徴量の抽出を行わず、前記第1の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、
前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記第1の推論モデルが前記複数の層のうち前記判定手段によって前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定手段によって前記推論処理に使用可能と判定されたデータを入力として前記第2の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とする制御装置。
【請求項2】
前記複数のデータの全てが前記判定手段によって前記推論処理に使用可能と判定された場合、前記制御手段は、前記第2の推論モデルの出力の代わりに、予め定めた固定値を前記結合層に入力するように制御することを特徴とする請求項1に記載の制御装置。
【請求項3】
前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記制御手段は、前記判定手段によって前記推論処理に使用不可能と判定されたデータを入力とする層の出力の代わりに、予め定めた固定値を前記結合層に入力するように制御することを特徴とする請求項1に記載の制御装置。
【請求項4】
前記判定手段は、前記複数のデータに対して夫々評価値を算出し、前記評価値と予め定めた閾値を比較した結果に基づいて前記推論処理に使用可能か否かを判定することを特徴とする請求項1に記載の制御装置。
【請求項5】
前記複数のデータは、画像データ及び音データであることを特徴とする請求項4に記載の制御装置。
【請求項6】
前記評価値は、前記画像データの輝度、前記画像データのボケ量、前記画像データの高感度ノイズ量の何れかに係る値であることを特徴とする請求項5に記載の制御装置。
【請求項7】
前記評価値は、前記音データの特徴成分に対するノイズ量に係る値であることを特徴とする請求項5に記載の制御装置。
【請求項8】
前記複数のデータは、人物を異なる角度から撮影して得られた複数の画像データであることを特徴とする請求項4に記載の制御装置。
【請求項9】
前記評価値は、前記画像データに写る人物の顔の向きに係る値であることを特徴とする請求項8に記載の制御装置。
【請求項10】
前記複数のデータは、着目画像データと、前記着目画像データのノイズを除去するノイズリダクションを行うための参照画像データとを含むことを特徴とする請求項4に記載の制御装置。
【請求項11】
前記評価値は、前記着目画像データと前記参照画像データとの差分に係る値であることを特徴とする請求項10に記載の制御装置。
【請求項12】
前記複数のデータは、被写体を撮影して得られた画像データであり、
前記判定手段は、前記画像データの撮影時の撮影条件に基づいて前記推論処理に使用可能か否かを判定することを特徴とする請求項1に記載の制御装置。
【請求項13】
前記複数のデータは、2つのデータであり、
前記第1の推論モデルは、前記2つのデータを夫々入力とする2つの層を備えることを特徴とする請求項1に記載の制御装置。
【請求項14】
前記複数のデータは、3つ以上のデータであり、
前記第1の推論モデルは、前記複数のデータを夫々入力とする3つ以上の層を備えることを特徴とする請求項1に記載の制御装置。
【請求項15】
前記判定手段は、前記複数のデータに対して夫々評価値を算出し、前記評価値に基づいて前記複数のデータに対して夫々重み付け値を設定し、
前記制御手段は、前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記重み付け値に基づいて前記第2の推論モデルの演算リソースを決定することを特徴とする請求項14に記載の制御装置。
【請求項16】
関連する複数のデータを入力として推論処理を行う制御装置の制御方法であって、
前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第1の推論モデルの動作を制御し、前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第2の推論モデルの動作を制御する制御工程と、
前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定工程とを有し、
前記制御工程は、
前記複数のデータの全てが前記判定工程にて前記推論処理に使用可能と判定された場合、前記第2の推論モデルが特徴量の抽出を行わず、前記第1の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、
前記複数のデータの何れかが前記判定工程にて前記推論処理に使用不可能と判定された場合、前記第1の推論モデルが前記複数の層のうち前記判定工程にて前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定工程にて前記推論処理に使用可能と判定されたデータを入力として前記第2の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とする制御装置の制御方法。
【請求項17】
関連する複数のデータを入力として推論処理を行う制御装置の制御方法をコンピュータに実行させるプログラムであって、
前記制御装置の制御方法は、
前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第1の推論モデルの動作を制御し、前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第2の推論モデルの動作を制御する制御工程と、
前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定工程とを有し、
前記制御工程は、
前記複数のデータの全てが前記判定工程にて前記推論処理に使用可能と判定された場合、前記第2の推論モデルが特徴量の抽出を行わず、前記第1の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、
前記複数のデータの何れかが前記判定工程にて前記推論処理に使用不可能と判定された場合、前記第1の推論モデルが前記複数の層のうち前記判定工程にて前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定工程にて前記推論処理に使用可能と判定されたデータを入力として前記第2の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とするプログラム。
【請求項18】
請求項1乃至15の何れか1項に記載の制御装置に用いるニューラルネットワークの学習方法であって、
関連する複数の学習データであって前記判定手段によって前記推論処理に使用可能と判定される複数の学習データと、
前記複数の学習データを入力として動作する前記第1の推論モデルと、を用いて第1の学習を行い、
関連する複数の学習データのうち前記判定手段によって前記推論処理に使用可能と判定される学習データと、
前記推論処理に使用可能と判定される学習データを入力として動作する第2の推論モデルと、
前記複数の層のうち前記判定手段によって前記推論処理に使用可能と判定される学習データを入力とする層の演算を行い、当該層の出力と前記第2の推論モデルの出力とを前記結合層に入力して動作する前記第1の推論モデルと、を用いて第2の学習を行うことを特徴とするニューラルネットワークの学習方法。
【請求項19】
前記第1の学習では、前記第2の推論モデルの出力の代わりに予め定めた固定値を前記結合層に入力して学習が行われることを特徴とする請求項18に記載のニューラルネットワークの学習方法。
【請求項20】
前記第2の学習では、前記複数の層のうち前記判定手段によって前記推論処理に使用不可能と判定される学習データを入力とする層の出力の代わりに、予め定めた固定値を前記結合層に入力して学習が行われることを特徴とする請求項18に記載のニューラルネットワークの学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、制御装置、制御装置の制御方法、プログラム、ニューラルネットワークの学習方法に関する。
【背景技術】
【0002】
ニューラルネットワークを用いたディープラーニング技術は、幅広い分野で利用されており、特に、画像を認識して分類するクラス分類は、人の認識能力を超えたと言われている。中でも特に広く利用されている畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)は、画像に対して畳み込み演算を再帰的に行うことで、高精度なディープラーニング処理を実現する。このようなディープラーニング処理によって得られた推論モデルが、近年では、撮影画像に含まれる顔の表情を認識する表情認識処理に利用されている。上記推論モデルを用いた表情認識処理では、主に、画像から抽出した顔の凹凸、質感、輪郭等の情報から表情を認識する精度が向上するが、撮影画像といった単一のモーダル情報のみで認識させているため、精度の向上が十分ではない。
【0003】
これに対し、複数のモーダル情報を用いてディープラーニング処理を行う技術が提案されている。関連する技術として、特許文献1の技術が提案されている。特許文献1では、複数のモーダル情報を用いて複数の推論モデルを統合的に学習させることにより、単一のモーダル情報で学習させる場合と比較して、推論結果の精度を向上可能となる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した特許文献1の技術を用いても、複数のモーダル情報の何れかが不良モーダル情報である場合、不良モーダル情報に対する推論結果の精度は低下するため、複数の推論モデルを統合的に学習させても、推論結果の精度は低下してしまう。
【0006】
本発明は、推論結果の精度の低下を抑制することができる制御装置、制御装置の制御方法、プログラム、ニューラルネットワークの学習方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明の制御装置は、関連する複数のデータを入力として推論処理を行う制御装置であって、前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第1の推論モデルと、前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第2の推論モデルと、前記第1の推論モデル及び前記第2の推論モデルの動作を制御する制御手段と、前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定手段とを備え、前記制御手段は、前記複数のデータの全てが前記判定手段によって前記推論処理に使用可能と判定された場合、前記第2の推論モデルが特徴量の抽出を行わず、前記第1の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記第1の推論モデルが前記複数の層のうち前記判定手段によって前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定手段によって前記推論処理に使用可能と判定されたデータを入力として前記第2の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とする。
【発明の効果】
【0008】
本発明によれば、推論結果の精度の低下を抑制することができる。
【図面の簡単な説明】
【0009】
【
図1】本実施の形態に係る制御装置の構成の一例を示すブロック図である。
【
図2】
図1のニューラルネットワーク部の構成の一例を示すブロック図である。
【
図3】
図1の制御装置で用いられる画像データの一例を示す図である。
【
図4】
図1の制御装置で用いられる音データの一例を示す図である。
【
図5】
図1の制御装置で用いられる音データの一例を示す図である。
【
図6】
図1の制御装置によって実行される注目領域推定処理の手順を示すフローチャートである。
【
図7】
図1のニューラルネットワーク部に用いるパラメーターの学習方法を例示した図である。
【
図8】
図1の制御装置で用いられる画像データの一例を示す図である。
【
図9】関連する3つの入力データを入力とする制御装置の構成の一例を示すブロック図である。
【
図10】
図9のニューラルネットワーク部の構成の一例を示すブロック図である。
【
図11】連続撮影で生成された画像データの一例を示す図である。
【
図12】
図9の制御装置によって実行される高画質化処理の手順を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明を実施するための形態について図面を用いて説明する。
【0011】
図1は、本実施の形態に係る制御装置100の構成の一例を示すブロック図である。制御装置100は、関連する2つの入力データに基づいて統合的に推論処理を行って、推論結果を出力する。本実施の形態では、一例として、制御装置100が、入力データ1として入力された画像データと、入力データ2として入力された音データとに基づいて、当該画像データにおける注目領域を推論する推論処理を行う構成について説明する。尚、注目領域は、当該画像データにおいて会話している人物に注目した領域である。
【0012】
図1において、制御装置100は、ニューラルネットワーク部101、判定部102、及び制御部103を備える。ニューラルネットワーク部101は、画像データと音データを入力とし、制御部103の指示に従って注目領域の推論処理を行い、推論結果を出力データとして出力する。出力データの出力先は、例えば、制御装置100が備える内部ストレージ(不図示)や、インターネット等の通信ネットワークを介して制御装置100と通信可能な外部機器である。本実施の形態において、ニューラルネットワーク部101は、一般的なニューラルネットワークモデルで採用される積和演算や非線形処理が可能な処理部である。判定部102は、入力された画像データ及び音データを注目領域の推論処理に使用可能であるか否かを判定し、判定結果を制御部103へ送信する。尚、判定方法については後述する。制御部103は、判定部102から取得した判定結果に基づいて、注目領域の推論処理を制御する指示をニューラルネットワーク部101へ送信する。
【0013】
図2は、
図1のニューラルネットワーク部101の構成の一例を示すブロック図である。尚、本実施の形態では、ニューラルネットワーク部101は、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)で構成されるものとする。一般的に、CNN処理にはバイアス加算や非線形処理等も含まれるが、本実施の形態ではその詳細について省略する。ただし、本発明は、ニューラルネットワーク部101の構成をCNNのみに限定するものではなく、全結合処理をはじめとする演算が含まれていてよい。
【0014】
図2において、ニューラルネットワーク部101は、第1の推論モデル200及び第2の推論モデル220で構成される。
【0015】
第1の推論モデル200は、第1の層201、第2の層202、結合層210で構成されている。
【0016】
第1の層201は、画像データを入力とし、この画像データから注目人物の特徴量を抽出する。第1の層201は、注目人物の特徴量として、例えば、右目、左目、鼻の3つの観点に基づく注目人物としての尤度を抽出する。
【0017】
第2の層202は、音データを入力とし、この音データから注目人物の特徴量を抽出する。例えば、第2の層202は、注目人物の特徴量として、例えば、音の高さの観点に基づく注目人物としての尤度を抽出する。
【0018】
第2の推論モデル220は、判定部102によって使用不可能と判定された入力データを用いなくても推論結果の精度が低下しないように予め学習されたモデルであり、第4の層221と第5の層222とで構成されている。
【0019】
第4の層221は、第1の層201と同様に、画像データを入力とし、この画像データから注目人物の特徴量を抽出する。第4の層221は、注目人物の特徴量として、第1の層201とは異なる観点、例えば、口の観点に基づく注目人物としての尤度を抽出する。このように、本実施の形態では、第4の層221は、第1の層201とは異なる観点で注目人物としての尤度を抽出する。
【0020】
第5の層222は、第2の層202と同様に、音データを入力とし、この音データから注目人物の特徴量を抽出する。第5の層222は、注目人物の特徴量として、第2の層202とは異なる観点、例えば、音量の観点に基づく注目人物としての尤度を抽出する。このように、本実施の形態では、第5の層222は、第2の層202とは異なる観点で注目人物としての尤度を抽出する。
【0021】
結合層210は、第1の層201、第2の層202、第4の層221、第5の層222のうち、判定部102による入力データの使用可否の判定結果に基づいて決定された2つの層によって抽出された特徴量を結合するように推論処理を行う。結合層210は、この推論結果を出力データとして出力する。尚、第1の層201、第2の層202、第4の層221、第5の層222のうち、上記2つの層以外の層では、特徴量を抽出するための演算が行われない。このため、当該演算が行われない層の出力として、特徴量の代わりに予め定めた固定値が結合層210に入力される。
【0022】
次に、判定部102による入力データの使用可否の判定について説明する。まず、入力データである画像データの使用可否の判定について説明する。
【0023】
図3は、
図1の制御装置100で用いられる画像データの一例を示す図である。
【0024】
図3(a)の画像データ、
図3(b)の画像データには夫々、会話する人300と歩く人301が含まれている。尚、
図3(b)の画像データは、
図3(a)の画像データより輝度が低い画像データである。
【0025】
判定部102は、入力された画像データの評価値を算出する。判定部102は、入力された画像データの評価値として、例えば、輝度の平均値を算出する。判定部102は、算出した輝度の平均値が予め定められた輝度閾値を超える場合、入力された画像データを使用可能であると判定する。例えば、算出した輝度の平均値が輝度閾値を超える
図3(a)の画像データは、判定部102によって使用可能と判定される。尚、本実施の形態では、輝度閾値として、第1の層201で人物の特徴を抽出可能な輝度レベルの値が設定されることとする。
【0026】
一方、判定部102は、算出した輝度の平均値が輝度閾値以下である場合、入力された画像データを使用不可能と判定する。例えば、算出した輝度の平均値が輝度閾値以下となる
図3(b)の画像データは、判定部102によって使用不可能と判定される。尚、本実施の形態では、一例として、入力された画像データの輝度の平均値に基づいて当該画像データの使用可否を判定する構成について説明するが、本発明はこの構成に限られない。例えば、入力された画像データの輝度のSN比に基づいて当該画像データの使用可否を判定してもよい。また、入力された画像データにおけるボケ量や高感度ノイズ量等といった、予め定められた閾値と比較可能な画像データのパラメーターに基づいて当該画像データの使用可否を判定してもよい。また、入力された画像データにおけるこれら複数のパラメータと、各パラメータに対応する閾値との比較結果を組み合わせて当該画像データの使用可否を判定してもよい。
【0027】
次に、入力データである音データの使用可否の判定について説明する。
【0028】
図4は、
図1の制御装置100で用いられる音データの一例を示す図である。
図4(a)は、制御装置100に入力される音データの波形の一例を示す。この音データには、会話する人300の音声成分やその周囲の環境で発生する音成分が含まれる。
【0029】
本実施の形態において、判定部102は、例えば、
図4(a)の音データが入力されると、この音データを
図4(b)の波形と
図4(c)の波形に分離する。
図4(b)は、
図4(a)の波形から会話する人300の音声成分を分離した波形である。
図4(c)は、
図4(a)の波形から音声成分(特徴成分)以外のノイズ成分を分離した波形である。本実施の形態では、
図4(c)の波形は、入力された音データの評価値として用いられる。
【0030】
次いで、判定部102は、
図4(c)のノイズ成分の最大振幅が予め定められたノイズ閾値以下である場合、
図4(a)に示される音データを使用可能と判定する。尚、ノイズ閾値として、例えば、
図4(b)の会話する人300の音声成分における振幅の最大値が設定されることとする。
【0031】
図5も、
図1の制御装置100で用いられる音データの一例を示す図である。
図5(a)は、
図4(a)の音データよりノイズ成分が大きい音データの波形の一例を示す。
【0032】
例えば、判定部102は、
図5(a)の音データが入力されると、この音データを
図5(b)の波形と
図5(c)の波形に分離する。
図5(b)は、
図5(a)の波形から会話する人300の音声成分を分離した波形である。尚、
図5(a)の音データにおける音声成分は、
図4(a)の音データにおける音声成分と同じであることとし、
図5(b)の波形は
図4(b)の波形と同等である。
図5(c)は、
図5(a)の波形から音声成分以外のノイズ成分を分離した波形であり、
図4(c)の波形と比較して、ノイズ成分が大きい。
図5(c)の波形も、入力された音データの評価値として用いられる。
【0033】
判定部102は、
図5(c)のノイズ成分の振幅の最大値が予め定められたノイズ閾値を超える場合、
図5(a)に示される音データを使用不可能と判定する。尚、本実施の形態では、入力された音データのノイズ成分に基づいて当該音データの使用可否を判定する構成について説明したが、本発明はこの構成に限られない。例えば、入力された音データの音量等といった予め定められた閾値と比較可能な音データのパラメーターに基づいて当該音データの使用可否を判定してもよい。
【0034】
ここで、画像データを入力とする第1の層201のみでは、画像データから人物を認識することはできるが、その人物が会話する人300であるか、歩く人301であるかを特定することが困難である。これに対し、本実施の形態では、音データを入力とする第2の層202と画像データを入力とする第1の層201とにより統合的に推論処理を行うことで、会話する人300を特定することができるように構成している。
【0035】
一方、入力された音データが判定部102によって推論処理に使用不可能と判定された不良データである場合、この音データを用いて推論処理を行うと、推論結果の精度が低下する懸念がある。このため、この音データを用いずに推論処理を行うのが好ましい。しかし、この音データを用いずに第1の層201のみで推論処理を行うと、上述したように、画像データから認識した人物が会話する人300であるか、歩く人301であるかを正確に特定することができない。
【0036】
これに対し、本実施の形態では、入力された画像データ及び音データの何れかが判定部102によって推論処理に使用不可能と判定された場合、以下のような処理が行われる。すなわち、第1の層201、第2の層202のうち推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、当該データを入力として第2の推論モデル220によって抽出された特徴量とに基づいて結合層210から出力データが出力される。
【0037】
図6は、
図1の制御装置100によって実行される注目領域の推論処理の手順を示すフローチャートである。
図6の注目領域の推論処理は、制御装置100が、入力データとして画像データと音データを取得した際に実行される。
【0038】
図6において、まず、S601において、判定部102は、取得した全ての入力データが推論処理に使用可能であるか否かを判定する。具体的には、判定部102は、取得した各入力データの評価値を算出し、算出した評価値と予め定めた閾値とを比較して、各入力データが推論処理に使用可能であるか否かを判定する。例えば、判定部102は、上述したように、入力データである画像データの輝度の平均値を算出し、算出した輝度の平均値と輝度閾値との比較を行う。また、判定部102は、上述したように、入力データである音データのノイズ成分を抽出し、このノイズ成分の最大振幅とノイズ閾値との比較を行う。例えば、輝度の平均値が輝度閾値を超える
図3(a)の画像データと、ノイズ成分の最大振幅がノイズ閾値以下の
図4(a)の音データとが入力された場合、S601では、取得した全ての入力データが使用可能であると判定される。この場合、注目領域の推論処理はS602へ進む。
【0039】
S602では、制御部103は、第1の層201の出力と第2の層202の出力を結合層210に入力するように第1の推論モデル200を制御する。また、制御部103は、第4の層221の演算と第5の層222の演算を行わないように第2の推論モデル220を制御する。このように、本実施の形態では、取得した画像データと音データの両方が使用可能であると判定された場合、制御部103は、第2の推論モデル220が特徴量の抽出を行わないように制御する。また、制御部103は、第1の推論モデル200が第1の層201と第2の層202で抽出された複数の特徴量に基づいて結合層210から出力データを出力するように制御する。
【0040】
次いで、S603では、制御部103は、演算を行わない層の出力の代わりに、予め定められた固定値を結合層210に入力するように第1の推論モデル200及び第2の推論モデル220を制御する。具体的に、制御部103は、演算を行わない第4の層221の出力と第5の層222の出力の代わりに、第4の層221に対応する固定値と、第5の層222に対応する固定値とを夫々結合層210に入力するように第2の推論モデル220を制御する。尚、予め定められた固定値は、第1の推論モデル200及び第2の推論モデル220の学習時に使用された値である。このように制御することで、第1の推論モデル200及び第2の推論モデル220で構成されたニューラルネットワーク部101は、第2の推論モデル220の演算を行わない処理であることを判別することができる。その結果、学習と紐づいていないデータを結合層210に入力した場合よりも高精度な推論結果を出力することができる。
【0041】
次いで、S604では、ニューラルネットワーク部101は、制御部103の制御に従って、ニューラルネットワークの演算を行い、推論結果を出力データとして出力する。その後、注目領域の推論処理は終了する。このようにして、本実施の形態では、
図3(c)の領域302のように、会話する人300を注目した領域を注目領域として特定することができる。
【0042】
一方、S601において、取得した何れかの入力データが使用不可能であると判定された場合、注目領域の推論処理はS605へ進む。例えば、輝度の平均値が輝度閾値以下の
図3(b)の画像データが入力された場合や、ノイズ成分の最大振幅がノイズ閾値を超える
図5(a)の音データが入力された場合に、S601では、取得した何れかの入力データが使用可能であると判定される。尚、本実施の形態では、輝度の平均値が輝度閾値以下となる画像データと、ノイズ成分の最大振幅がノイズ閾値を超える音データとが入力された場合、以下のように判定される。すなわち、これら入力データのうち、評価値と閾値との差が小さい入力データが使用可能と判定され、評価値と閾値との差が大きい入力データが使用不可能と判定される。
【0043】
S605では、制御部103は、使用不可能と判定された入力データを入力とする層の演算を行わずに、使用可能と判定された入力データを入力とする層の演算を行うように第1の推論モデル200及び第2の推論モデル220を制御する。
【0044】
例えば、判定部102により、画像データが使用可能と判定され、音データが使用不可能と判定された場合、画像データは良質データであり、音データは不良データとなる。このような場合、制御部103は、使用不可能と判定された音データを入力とする第2の層202の演算と第5の層222の演算を行わないように第1の推論モデル200及び第2の推論モデル220を制御する。また、制御部103は、使用可能と判定された画像データを入力とする第1の層201の演算と第4の層221の演算を行うように第1の推論モデル200及び第2の推論モデル220を制御する。このように制御することで、良質データである画像データに使用するリソースを、第2の推論モデル220のリソース分増やすことができる。また、第2の推論モデル220では、第1の推論モデル200における第1の層201とは異なる観点に基づく注目人物の特徴量が抽出されるので、不良データである音データを用いなくても、この特徴量に基づいて、注目領域の推論結果の精度の低下を抑制することが可能となる。
【0045】
また、判定部102により、画像データが使用不可能と判定され、音データが使用可能と判定された場合、画像データは不良データであり、音データは良質データとなる。このような場合、制御部103は、使用不可能と判定された画像データを入力とする第1の層201の演算と第4の層221の演算を行わないように第1の推論モデル200及び第2の推論モデル220を制御する。また、制御部103は、使用可能と判定された音データを入力とする第2の層202の演算と第5の層222の演算を行うように第1の推論モデル200及び第2の推論モデル220を制御する。このように制御することで、良質データである音データに使用するリソースを、第2の推論モデル220のリソース分増やすことができる。また、第2の推論モデル220では、第1の推論モデル200における第2の層202とは異なる観点に基づく注目人物の特徴量が抽出されるので、不良データである画像データを用いなくても、この特徴量に基づいて、注目領域の推論結果の精度の低下を抑制することが可能となる。
【0046】
次いで、注目領域の推論処理はS603へ進む。例えば、判定部102により、画像データが使用可能と判定され、音データが使用不可能と判定された場合、S603では、制御部103は、以下のように第1の推論モデル200及び第2の推論モデル220を制御する。すなわち、制御部103は、演算を行わない第2の層202の出力と第5の層222の出力の代わりに、第2の層202に対応する固定値と、第5の層222に対応する固定値とを夫々結合層210に入力するように制御する。また、判定部102により、画像データが使用不可能と判定され、音データが使用可能と判定された場合、S603では、制御部103は、以下のように第1の推論モデル200及び第2の推論モデル220を制御する。すなわち、制御部103は、演算を行わない第1の層201の出力と第4の層221の出力の代わりに、第1の層201に対応する固定値と、第4の層221に対応する固定値とを夫々結合層210に入力するように制御する。尚、これら固定値も、第1の推論モデル200及び第2の推論モデル220の学習時に使用された値である。このように制御することで、第1の推論モデル200及び第2の推論モデル220で構成されたニューラルネットワーク部101は、画像データ及び音データの一方のみを用いた処理であることを判別することができる。その結果、学習と紐づいていないデータを結合層210に入力した場合よりも高精度な推論結果を出力することができる。次いで、注目領域の推論処理は、S604へ進む。
【0047】
上述した実施の形態によれば、入力データの何れかが判定部102によって推論処理に使用不可能と判定された場合、以下のような処理が行われる。すなわち、第1の層201、第2の層202のうち推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、当該データを入力として第2の推論モデル220によって抽出された特徴量とに基づいて結合層210から出力データが出力される。これにより、第1の層201、第2の層202のうち推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量の他に、当該層とは別の観点で第2の推論モデル220によって抽出された特徴量を用いて推論処理を行うことができる。もって、推論結果の精度の低下を抑制することができる。
【0048】
また、上述した実施の形態では、入力データに対して夫々評価値が算出され、算出された評価値と閾値とを比較した結果に基づいて推論処理に使用可能か否かが判定される。これにより、入力データの何れかが推論処理に使用不可能であっても、推論結果の精度の低下を抑制することができる。
【0049】
上述した実施の形態では、入力データは、画像データ及び音データであるので、画像データ及び音データを入力とする推論処理において、推論結果の精度の低下を抑制することができる。
【0050】
上述した実施の形態では、評価値は、画像データの輝度、画像データのボケ量、画像データの高感度ノイズ量の何れかに係る値である。これにより、輝度、ボケ量、高感度ノイズ量に起因する不良な画像データが入力されても、推論結果の精度の低下を抑制することができる。
【0051】
上述した実施の形態では、音データの特徴成分に対するノイズ量に係る値であるので、ノイズに起因する不良な音データが入力されても、推論結果の精度の低下を抑制することができる。
【0052】
次に、ニューラルネットワーク部101に用いるパラメーターの学習について説明する。
【0053】
図7は、
図1のニューラルネットワーク部101に用いるパラメーターの学習方法を例示した図である。本実施の形態において、ニューラルネットワーク部101に用いるパラメーターは、事前にPC等の別の機器で学習を行うものとする。本実施の形態では、ニューラルネットワーク部101の構成を変化させながら3回に分けて学習が行われる。
【0054】
図7(a)は、一回目の学習を説明するための図である。
【0055】
図7(a)におけるニューラルネットワーク処理では、
図2に示す構成のうち、第1の層201と第2の層202で演算を行い、第4の層221と第5の層222で演算を行わず、第4の層221の出力と第5の層222の出力の代わりに夫々予め定められた固定値を結合層210に入力するように制御したモデル構成を用いて学習が行われる。本実施の形態では、予め定められた固定値を、結合層210の入力データと同じデータ長からなる0値とする。尚、本実施の形態では、一例として、固定値を0値とするが固定値は0値に限定されるものではない。本実施の形態では、学習時に用いた固定値と同じ値、例えば、0値を、S603にて固定値として使用する。学習時に用いた固定値と同じ値を、推論時に、S603にて固定値として使用することで、ニューラルネットワーク部101は、第2の推論モデル220の演算を行わない処理であることを判別することができる。
【0056】
1回目の学習(第1の学習)では、入力データとして、複数の画像データと複数の音データが使用される。尚、画像データと音データは、関連するデータである。尚、1回目の学習データでは、判定部102によって使用可能と判定されるような良質データのみが使用される。良質データのみを使用することで、良質な画像データと良質な音データが入力された場合に対応する学習を適切に行うことができる。以上のモデル構成と学習データを用いて1回目の学習が行われる。
【0057】
1回目の学習は、ニューラルネットワーク処理の演算結果である出力データと教師データとの関係が近付くようにパラメーター最適化処理によって処理された更新パラメーターを取得し、ニューラルネットワークの辞書データを更新することで行う。
【0058】
1回目の学習で得られた学習完了時の更新パラメーターを事前学習辞書データとして、2回目の学習に使用する。尚、教師データは、画像データと音データを入力として予め生成した注目領域のデータを事前に作成して学習を行えばよく、1、2、3回目の学習で同じ教師データを用いてもよい。また、事前学習辞書データで生成したデータを教師データとしてもよい。また、事前学習辞書データを初期値に設定して2回目の学習に使用してもよい。
【0059】
次に、2回目の学習(第2の学習)について説明する。
図7(b)は、2回目の学習を説明するための図である。
【0060】
図7(b)におけるニューラルネットワーク処理では、
図2に示す構成のうち、第1の層201と第4の層221で演算を行い、第2の層202と第5の層222で演算を行わず、第2の層202の出力と第5の層222の出力の代わりに予め定められた固定値を結合層210に入力するように制御したモデル構成を用いて学習が行われる。
【0061】
2回目の学習では、入力データとして、複数の画像データが使用される。尚、2回目の学習データでは、判定部102によって使用可能と判定されるような良質な画像データのみが使用される。以上のモデル構成と学習データを用いて2回目の学習が行われる。尚、2回目の学習は、1回目の学習と同様の方法で行われる。2回目の学習で得られた学習完了時の更新パラメーターを事前学習辞書データとして、3回目の学習に使用する。
【0062】
次に、3回目の学習(第2の学習)について説明する。
図7(c)は、3回目の学習を説明するための図である。
【0063】
図7(c)におけるニューラルネットワーク処理では、
図2に示す構成のうち、第2の層202と第5の層222で演算を行い、第1の層201と第4の層221で演算を行わず、第1の層201の出力と第4の層221の出力の代わりに予め定められた固定値を結合層210に入力するように制御したモデル構成を用いて学習が行われる。
【0064】
3回目の学習では、入力データとして、複数の音データが使用される。尚、3回目の学習データでは、判定部102によって使用可能と判定されるような良質な音データのみが使用される。以上のモデル構成と学習データを用いて3回目の学習が行われる。尚、3回目の学習は、1回目の学習と同様の方法で行われる。
【0065】
尚、本実施の形態では、2種類の入力データを使用する構成について説明したが、3種類以上の入力データを入力とし、それらのデータに対応する3つ以上の処理層をもったモデル構成で学習してもよく、更に複数回の学習を実施してもよい。
【0066】
以上が学習の概要である。尚、誤差逆伝播法等を初めとするニューラルネットワークの学習アルゴリズムについては、公知技術の範疇のため本実施の形態では説明を省略する。
【0067】
このように本実施の形態では、上述した
図6の注目領域の推論処理に用いられる第1の推論モデル200及び第2の推論モデル220を得ることができ、もって、推論結果の精度の低下を抑制することができる。
【0068】
尚、本実施の形態では、ニューラルネットワーク部101は、被写体となる人物を異なる角度から撮影した複数の画像データを入力として、これらの画像データに写る人物を特定する推論処理を行う構成であってもよい。これにより、異なる角度から撮影された複数の画像データを入力とし、これらの画像データに写る特定の人物の情報を特定する推論処理において、推論結果の精度の低下を抑制することができる。
【0069】
このような構成において、ニューラルネットワーク部101は、異なる角度から撮影された2つの画像データを入力とし、これらの画像データに写る特定の人物の情報を出力データとして出力する。例えば、ニューラルネットワーク部101は、被写体を正面から撮影して得られた
図8(a)の画像データと、被写体を真後ろから撮影して得られた
図8(b)の画像データとを入力とし、これらの画像データから特定の人物の情報を出力データとして出力する。尚、特定の人物の情報は、人物を特定可能な情報であれば、画像形式のデータであってもよく、また、テキスト形式のデータであってもよい。
【0070】
このような構成において、判定部102は、画像データに写る人物が特定の人物であると判定可能な状態であるか否かに基づいて入力データの使用可否を判定する。本実施の形態では、人の顔の向きに基づいて、画像データに写る人物が特定の人物であると判定可能な状態であるか否かを判定する。例えば、
図8(a)のように、被写体を正面から撮影して得られた画像データには、目鼻口等といった人物を特定可能な情報が含まれているため、判定部102は、このような画像データを使用可能と判定する。一方、
図8(b)のように、被写体を真後ろから撮影して得られた画像データには、目鼻口等といった人物を特定可能な情報が含まれていないため、判定部102は、このような画像データを使用不可能と判定する。
【0071】
このように、判定部102が人の顔の向きによって入力データの使用可否を判定することで、入力された2つの画像データに写る特定の人物の情報を特定する推論処理において、これら2つの画像データの一方が、
図8(b)のように、人物を特定可能な情報が含まれていない画像データであっても、推論結果の精度の劣化を抑制することができる。
【0072】
また、本実施の形態では、判定部102は、入力データとしての画像データの使用可否を、当該画像データの撮影条件に基づいてを判定してもよい。撮影条件とは、画像データの撮影時の情報であり、例えば、撮影機器名、解像度、シャッター速度、絞り(F値)、ISO感度、測光モード、フラッシュ使用の有無、露光補正ステップ値、焦点距離である。例えば、画像データのISO値が撮影したカメラの常用ISOを大幅に超えていた場合、画質の劣化具合によって推論結果の精度が悪くなる懸念がある。そこで、画像データのISO値が、常用ISOの範囲を超えている場合には、判定部102は、当該画像データを使用不可能と判定する。これにより、入力された画像データの撮影条件に起因して推論結果の精度が劣化するのを抑制することができる。
【0073】
また、本実施の形態では、制御装置が関連する3つ以上の入力データを入力とする構成であってもよい。以下では、一例として、制御装置が関連する3つの入力データを入力とする構成について説明する。
【0074】
図9は、関連する3つの入力データを入力とする制御装置900の構成の一例を示すブロック図である。制御装置900は、関連する3つの入力データに基づいて統合的に推論処理を行って、推論結果を出力する。
【0075】
図9において、制御装置900は、ニューラルネットワーク部901、判定部902、及び制御部903を備える。ニューラルネットワーク部901は、時系列の3つの画像データを入力とし、制御部903の指示に従って推論処理、具体的に、後述する高画質化処理を行い、高画質化処理済みの画像データを出力データとして出力する。尚、出力データの出力先は、例えば、制御装置900が備える内部ストレージ(不図示)や、インターネット等の通信ネットワークを介して制御装置900と通信可能な外部機器である。ニューラルネットワーク部901も、上述したニューラルネットワーク部101と同様に、一般的なニューラルネットワークモデルで採用される積和演算や非線形処理が可能な処理部である。判定部902は、入力された画像データを推論処理に使用可能か否かを判定し、判定結果を制御部903へ送信する。尚、判定方法については後述する。制御部903は、判定部902から取得した判定結果に基づいて、高画質化処理を制御する指示をニューラルネットワーク部901へ送信する。
【0076】
図10は、
図9のニューラルネットワーク部901の構成の一例を示すブロック図である。ニューラルネットワーク部901は、時系列の3つの画像データ、具体的に、着目画像データとその前後のコマの画像データを入力とし、制御部903の指示に従って高画質化処理を行う。高画質化処理では、着目画像データの前後のコマの画像データを参照画像データとして用いて着目画像データのノイズを除去するノイズリダクションが行われる。このように、複数の画像データを使用してノイズリダクションを行うことで、画像データにおけるエッジ部やノイズ部の検出精度が高まり、高精度なノイズ除去を実現可能となる。本実施の形態では、一例として、入力データ1として着目画像データの前のコマの画像データが入力され、入力データ2として着目画像データが入力され、入力データ3として着目画像データの後のコマの画像データが入力されることとする。
【0077】
図10において、ニューラルネットワーク部901は、第1の推論モデル1000及び第2の推論モデル1020で構成される。
【0078】
第1の推論モデル1000は、入力データ1を入力とする第1の層1001、入力データ2を入力とする第2の層1002、入力データ3を入力とする第3の層1003、結合層1010で構成されている。
【0079】
第1の層1001、第2の層1002、第3の層1003は、夫々ノイズリダクションを行うためのニューラルネットワーク層であり、入力された画像データの特徴量を抽出する。例えば、画像データの特徴量として、高周波のエッジを示す情報や、空間的に特異な画素を示す情報等が抽出される。
【0080】
第2の推論モデル1020は、判定部902によって使用不可能と判定された入力データを用いなくても推論結果の精度が低下しないように予め学習されたモデルである。第2の推論モデル1020は、入力データ1を入力とする第4の層1021、入力データ2を入力とする第5の層1022、入力データ3を入力とする第6の層1023で構成されている。第4の層1021、第5の層1022、第6の層1023は、夫々第1の層1001、第2の層1002、第3の層1003とは異なる観点で特徴量を抽出する。例えば、第4の層1021、第5の層1022、第6の層1023は夫々、入力された画像データの特徴量として、人の肌領域の情報を抽出する。尚、第1の層1001、第2の層1002、第3の層1003が、夫々第4の層1021、第5の層1022、第6の層1023の処理を含めて行うと、処理時間が長くなる。このため、本実施の形態では、画質への影響が極めて高い処理を第1の層1001、第2の層1002、第3の層1003が行うような構成としている。
【0081】
尚、本実施の形態では、第4の層1021、第5の層1022、第6の層1023に使用する演算リソースは変更可能であり、判定部902による入力データの使用可否の判定結果に基づいて制御部903がこれらの演算リソースを決定する。
【0082】
結合層1010は、第1の層1001、第2の層1002、第3の層1003、第4の層1021、第5の層1022、第6の層1023のうち、判定部902によって使用可能と判定された入力データを入力とする層の出力に基づいて出力データを出力する。例えば、結合層1010は、判定部902によって使用可能と判定された入力データを入力とする層から取得した特徴量に基づいて、着目画像データにおけるノイズ部を特定し、特定したノイズ部に平均化処理を施してノイズ除去を行う。また、結合層1010は、取得した特徴量であるエッジの情報に基づいて、着目画像データにおけるエッジ部を保持させる。このようにして、ノイズが除去された高画質化処理済みの画像データが出力データとして出力される。
【0083】
次に、判定部902による入力データの使用可否の判定について説明する。判定部902は、入力された注目画像データと参照画像データとの輝度差を算出し、その輝度差と閾値とを比較した結果に基づいて入力された画像データの使用可否を判定する。上記閾値は、例えば、学習データとして使用された関連する複数の画像データの輝度差に基づいて決定された値である。尚、注目画像データと参照画像データとの輝度差を、一定領域の平均や分散に基づいて算出してもよい。このとき、画像データ間の動きを予測し位置合わせをした上で画像データ間の輝度差を算出してもよい。判定部902は、算出した輝度差が閾値以下となる画像データを使用可能と判定する。
【0084】
図11は、連続撮影で生成された画像データの一例を示す図である。
図11(a)は、
図11(b)の着目画像データの前のコマの画像データである。
図11(b)は、着目画像データである。
図11(c)は、
図11(b)の着目画像データの後のコマの画像データである。
図11(d)は、
図11(b)の着目画像データの後のコマの画像データであり、フラッシュ発光の影響で
図11(c)の画像データより輝度値が大きい画像データである。尚、
図11(a)~
図11(d)の画像データは何れも、人物の顔の位置は同じであることとする。
【0085】
例えば、
図11(b)の着目画像データと、当該着目画像データとの輝度差が閾値以下となる
図11(a)や
図11(c)の参照画像データが入力された場合、これら参照画像データを用いてノイズが除去された高画質化処理済みの画像データを出力可能である。このため、着目画像データとの輝度差が閾値以下となる参照画像データが入力された場合、判定部902は、入力された画像データを使用可能と判定する。
【0086】
一方、
図11(b)の着目画像データと、当該着目画像データとの輝度差が閾値を超える
図11(d)の参照画像データが入力された場合、この参照画像データを用いて高画質化処理を行うと、ノイズ部の特定や、エッジ部の検出が適切に行われない。その結果、ノイズが除去された高画質化処理済みの画像データを出力することができない。このため、着目画像データとの輝度差が閾値を超える参照画像データが入力された場合、判定部902は、入力された画像データを使用不可能と判定する。
【0087】
図12は、
図9の制御装置900によって実行される高画質化処理の手順を示すフローチャートである。
図9の高画質化処理は、制御装置100が、連続撮影で得られた3つの画像データを入力データとして取得した際に実行される。
【0088】
図12において、まず、S1201において、判定部902は、取得した全ての入力データが使用可能であるか否かを判定する。具体的には、判定部902は、取得した各入力データの評価値を算出し、算出した評価値と予め定めた閾値とを比較して、各入力データが推論処理に使用可能であるか否かを判定する。例えば、判定部902は、上述したように、取得した注目画像データと参照画像データとの輝度差を算出し、その輝度差と閾値とを比較した結果に基づいて取得した入力データの使用可否を判定する。例えば、入力データ1、入力データ2、入力データ3として、夫々
図11(a)の参照画像データ、
図11(b)の着目画像データ、
図11(c)の参照画像データが入力された場合、これら参照画像データと着目画像データとの輝度差は上記閾値以下である。このような場合、S1201では、取得した全ての入力データが使用可能であると判定される。この場合、高画質化処理はS1202へ進む。
【0089】
S1202では、制御部903は、第1の層1001の出力、第2の層1002の出力、第3の層1003の出力を結合層1010に入力するように第1の推論モデル1000を制御する。また、制御部903は、第4の層1021の演算、第5の層1022の演算、第6の層1023の演算を行わないように第2の推論モデル1020を制御する。このように、本実施の形態では、取得した全ての入力データが使用可能であると判定された場合、制御部903は、以下のように制御する。すなわち、制御部903は、第2の推論モデル1020が特徴量の抽出を行わず、第1の推論モデル1000が第1の層1001、第2の層1002、第3の層1003で抽出された複数の特徴量に基づき結合層1010から出力データを出力するように制御する。
【0090】
次いで、S1203において、制御部903は、演算を行わない層の出力の代わりに、予め定められた固定値を結合層1010に入力するように第1の推論モデル1000及び第2の推論モデル1020を制御する。具体的に、制御部903は、演算を行わない第4の層1021の出力、第5の層1022の出力、第6の層1023の出力の代わりに、第4の層1021に対応する固定値、第5の層1022に対応する固定値、第6の層1023に対応する固定値を夫々結合層1010に入力するように第2の推論モデル1020を制御する。尚、予め定められた固定値は、第1の推論モデル1000及び第2の推論モデル1020の学習の際に用いられた値である。
【0091】
次いで、S1204において、ニューラルネットワーク部901は、制御部903の制御に従って、ニューラルネットワークの演算を行い、高画質化処理済みの画像データを出力データとして出力する。その後、高画質化処理は終了する。
【0092】
一方、例えば、入力データ1、入力データ2、入力データ3として、夫々
図11(a)の参照画像データ、
図11(b)の着目画像データ、
図11(d)の参照画像データが入力された場合、以下のように判定される。すなわち、着目画像データとの輝度差が上記閾値を超える
図11(d)の参照画像データ(入力データ3)は使用不可能と判定される。このような場合、S1201では、取得した何れかの入力データが使用不可能であると判定される。この場合、制御部903は、着目画像データに対する輝度差に基づいて、取得した各画像データに重み付けを行う。例えば、取得した
図11(a)、
図11(b)、
図11(d)の各画像データにおいて、
図11(b)の着目画像データに対する輝度差が夫々2、1、10である場合、判定部902は、これらの画像データに対し、1、2、0の重み付け値を設定する。
【0093】
次いで、S1205において、制御部903は、設定した重み付け値に基づいて、判定部902によって使用可能と判定されたデータを入力とする層である第4の層1021と第5の層1022に使用する演算リソースを決定する。例えば、上述したように、
図11(a)、
図11(b)、
図11(d)の各画像データの重み付け値が1、2、0である場合、制御部903は、1:2:0の割合で、第2の推論モデル1020が持つ演算リソースを分けるように制御する。このように制御することで、参照画像データから特徴量を抽出する第4の層1021に対してより多くの演算リソースを割いて、第4の層1021の演算精度を上げることができる。その結果、高画質化処理における推論結果の精度を向上することができる。尚、第2の推論モデル1020が持つ演算リソースは、使用不可データを入力とする第1の層1001の演算リソースと同等になるように設定してもよい。このようにすることで、推論処理を行う演算リソースの量を変えることなく、推論結果の精度低下を抑制することが可能となる。
【0094】
次いで、S1206において、制御部903は、使用不可能と判定されたデータを入力とする層の演算を行わずに、使用可能と判定されたデータを入力とする層の演算を行うように第1の推論モデル1000及び第2の推論モデル1020を制御する。具体的に、制御部903は、使用不可能と判定されたデータを入力とする第3の層1003の演算を行わずに、使用可能と判定されたデータを入力とする第1の層1001の演算と第2の層1002の演算を行うように第1の推論モデル1000を制御する。また、制御部903は、使用不可能と判定されたデータを入力とする第6の層1023の演算を行わずに、使用可能と判定されたデータを入力とする第4の層1021の演算と第5の層1022の演算を行うように第2の推論モデル1020を制御する。このように制御することで、判定部902によって使用可能と判定されたデータに使用するリソースを、第2の推論モデル1020のリソース分増やすことができる。また、第2の推論モデル1020では、第1の推論モデル1000では抽出されない人の肌領域の情報が抽出されるので、この情報に基づいて、人の肌の質感を落とさないようにノイズ除去(平均化処理)を抑えるようなフィルタ処理を実行可能となる。その結果、高画質化処理済みの画像データの画質を向上させることができる。
【0095】
次いで、高画質化処理はS1203へ進む。S1203では、制御部903は、演算を行わない第1の推論モデル1000における第3の層1003の出力の代わりに、第3の層1003に対応する固定値を結合層1010に入力するように第1の推論モデル1000を制御する。また、制御部903は、演算を行わない第2の推論モデル1020における第6の層1023の出力の代わりに、第6の層1023に対応する固定値を結合層1010に入力するように第2の推論モデル1020を制御する。次いで、高画質化処理はS1204へ進む。
【0096】
上述した実施の形態では、入力データは、着目画像データと、着目画像データのノイズを除去するノイズリダクションを行うための参照画像データを含む。これにより、着目画像データ及び参照画像データを入力とする高画質化処理において、推論結果の精度の低下を抑制することができる。
【0097】
また、上述した実施の形態では、評価値は、着目画像データと参照画像データとの差分に係る値であるので、着目画像データとの差分が大きい不良な参照画像データが入力されても、推論結果の精度の低下を抑制することができる。
【0098】
尚、本実施の形態では、第2の推論モデル1020に使用する演算リソースと第1の層1001の演算リソースを合わせる必要はなく、推論結果の精度の低下を抑制可能な演算リソース量であればよい。
【0099】
また、本実施の形態では、判定部902で入力データの使用可否を判定する際に、3つの入力データのうち、評価値と閾値との差が最も大きい入力データのみを使用不可能と判定してもよい。
【0100】
以上、実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、種々の変形及び変更が可能である。また、前述した実施例の構成要素を全部又は複数を組み合わせることも可能である。
【0101】
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0102】
尚、本実施形態の開示は、以下の構成および方法を含む。
(構成1)関連する複数のデータを入力として推論処理を行う制御装置であって、前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第1の推論モデルと、前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第2の推論モデルと、前記第1の推論モデル及び前記第2の推論モデルの動作を制御する制御手段と、前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定手段とを備え、前記制御手段は、前記複数のデータの全てが前記判定手段によって前記推論処理に使用可能と判定された場合、前記第2の推論モデルが特徴量の抽出を行わず、前記第1の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記第1の推論モデルが前記複数の層のうち前記判定手段によって前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定手段によって前記推論処理に使用可能と判定されたデータを入力として前記第2の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とする制御装置。
(構成2)前記複数のデータの全てが前記判定手段によって前記推論処理に使用可能と判定された場合、前記制御手段は、前記第2の推論モデルの出力の代わりに、予め定めた固定値を前記結合層に入力するように制御することを特徴とする構成1に記載の制御装置。
(構成3)前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記制御手段は、前記判定手段によって前記推論処理に使用不可能と判定されたデータを入力とする層の出力の代わりに、予め定めた固定値を前記結合層に入力するように制御することを特徴とする構成1又は2に記載の制御装置。
(構成4)前記判定手段は、前記複数のデータに対して夫々評価値を算出し、前記評価値と予め定めた閾値を比較した結果に基づいて前記推論処理に使用可能か否かを判定することを特徴とする構成1乃至3の何れか1つに記載の制御装置。
(構成5)前記複数のデータは、画像データ及び音データであることを特徴とする構成1乃至4の何れか1項に記載の制御装置。
(構成6)前記評価値は、前記画像データの輝度、前記画像データのボケ量、前記画像データの高感度ノイズ量の何れかに係る値であることを特徴とする構成5に記載の制御装置。
(構成7)前記評価値は、前記音データの特徴成分に対するノイズ量に係る値であることを特徴とする構成5又は6に記載の制御装置。
(構成8)前記複数のデータは、人物を異なる角度から撮影して得られた複数の画像データであることを特徴とする構成1乃至4の何れか1つに記載の制御装置。
(構成9)前記評価値は、前記画像データに写る人物の顔の向きに係る値であることを特徴とする構成8に記載の制御装置。
(構成10)前記複数のデータは、着目画像データと、前記着目画像データのノイズを除去するノイズリダクションを行うための参照画像データとを含むことを特徴とする構成1乃至4の何れか1つに記載の制御装置。
(構成11)前記評価値は、前記着目画像データと前記参照画像データとの差分に係る値であることを特徴とする構成10に記載の制御装置。
(構成12)前記複数のデータは、被写体を撮影して得られた画像データであり、前記判定手段は、前記画像データの撮影時の撮影条件に基づいて前記推論処理に使用可能か否かを判定することを特徴とする請求項1乃至4の何れか1つに記載の制御装置。
(構成13)前記複数のデータは、2つのデータであり、前記第1の推論モデルは、前記2つのデータを夫々入力とする2つの層を備えることを特徴とする構成1乃至4の何れか1つに記載の制御装置。
(構成14)前記複数のデータは、3つ以上のデータであり、前記第1の推論モデルは、前記複数のデータを夫々入力とする3つ以上の層を備えることを特徴とする構成1乃至4の何れか1つに記載の制御装置。
(構成15)前記判定手段は、前記複数のデータに対して夫々評価値を算出し、前記評価値に基づいて前記複数のデータに対して夫々重み付け値を設定し、前記制御手段は、前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記重み付け値に基づいて前記第2の推論モデルの演算リソースを決定することを特徴とする構成14に記載の制御装置。
(構成16)関連する複数のデータを入力として推論処理を行う制御装置の制御方法であって、前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第1の推論モデルの動作を制御し、前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第2の推論モデルの動作を制御する制御工程と、前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定工程とを有し、前記制御工程は、前記複数のデータの全てが前記判定工程にて前記推論処理に使用可能と判定された場合、前記第2の推論モデルが特徴量の抽出を行わず、前記第1の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、前記複数のデータの何れかが前記判定工程にて前記推論処理に使用不可能と判定された場合、前記第1の推論モデルが前記複数の層のうち前記判定工程にて前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定工程にて前記推論処理に使用可能と判定されたデータを入力として前記第2の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とする制御装置の制御方法。
(構成17)関連する複数のデータを入力として推論処理を行う制御装置の制御方法をコンピュータに実行させるプログラムであって、前記制御装置の制御方法は、前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第1の推論モデルの動作を制御し、前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第2の推論モデルの動作を制御する制御工程と、前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定工程とを有し、前記制御工程は、前記複数のデータの全てが前記判定工程にて前記推論処理に使用可能と判定された場合、前記第2の推論モデルが特徴量の抽出を行わず、前記第1の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、前記複数のデータの何れかが前記判定工程にて前記推論処理に使用不可能と判定された場合、前記第1の推論モデルが前記複数の層のうち前記判定工程にて前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定工程にて前記推論処理に使用可能と判定されたデータを入力として前記第2の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とするプログラム。
(構成18)構成1乃至15の何れか1つに記載の制御装置に用いるニューラルネットワークの学習方法であって、関連する複数の学習データであって前記判定手段によって前記推論処理に使用可能と判定される複数の学習データと、前記複数の学習データを入力として動作する前記第1の推論モデルと、を用いて第1の学習を行い、関連する複数の学習データのうち前記判定手段によって前記推論処理に使用可能と判定される学習データと、前記推論処理に使用可能と判定される学習データを入力として動作する第2の推論モデルと、前記複数の層のうち前記判定手段によって前記推論処理に使用可能と判定される学習データを入力とする層の演算を行い、当該層の出力と前記第2の推論モデルの出力とを前記結合層に入力して動作する前記第1の推論モデルと、を用いて第2の学習を行うことを特徴とするニューラルネットワークの学習方法。
(構成19)前記第1の学習では、前記第2の推論モデルの出力の代わりに予め定めた固定値を前記結合層に入力して学習が行われることを特徴とする構成18に記載のニューラルネットワークの学習方法。
(構成20)前記第2の学習では、前記複数の層のうち前記判定手段によって前記推論処理に使用不可能と判定される学習データを入力とする層の出力の代わりに、予め定めた固定値を前記結合層に入力して学習が行われることを特徴とする構成18に記載のニューラルネットワークの学習方法。
【符号の説明】
【0103】
100 制御装置
102 判定部
103 制御部
200 第1の推論モデル
201 第1の層
202 第2の層
210 結合層
220 第2の推論モデル
900 制御装置
902 判定部
903 制御部
1000 第1の推論モデル
1001 第1の層
1002 第2の層
1003 第3の層
1010 結合層
1020 第2の推論モデル