特開2024-168625 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特開2024-168625制御装置、制御装置の制御方法、プログラム、ニューラルネットワークの学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024168625

(43)【公開日】2024-12-05

(54)【発明の名称】制御装置、制御装置の制御方法、プログラム、ニューラルネットワークの学習方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20241128BHJP

G10L 25/30 20130101ALI20241128BHJP

G10L 25/57 20130101ALI20241128BHJP

G10L 25/51 20130101ALI20241128BHJP

【ＦＩ】

G06T7/00 350C

G06T7/00 P

G10L25/30

G10L25/57

G10L25/51

【審査請求】未請求

【請求項の数】20

【出願形態】ＯＬ

(21)【出願番号】P 2023085463

(22)【出願日】2023-05-24

(71)【出願人】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】100125254

【弁理士】

【氏名又は名称】別役重尚

(72)【発明者】

【氏名】宮内大

(72)【発明者】

【氏名】金子裕

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096EA05

5L096GA08

5L096GA51

5L096HA11

5L096KA04

(57)【要約】

【課題】推論結果の精度の低下を抑制することができる制御装置を提供する。
【解決手段】制御装置１００は、第１の推論モデル２００及び第２の推論モデル２２０で構成されたニューラルネットワーク部１０１、判定部１０２、制御部１０３を備え、関連する２つの入力データを入力として、推論処理を行う。制御部１０３は、入力データの何れかが判定部１０２によって推論処理に使用不可能と判定された場合、第１の推論モデル２００が第１の層２０１、第２の層２０２のうち推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、推論処理に使用可能と判定されたデータを入力として第２の推論モデル２２０によって抽出された特徴量とに基づいて結合層２１０から出力データを出力するように制御する。
【選択図】図２

【特許請求の範囲】

【請求項1】

関連する複数のデータを入力として推論処理を行う制御装置であって、
前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第１の推論モデルと、
前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第２の推論モデルと、
前記第１の推論モデル及び前記第２の推論モデルの動作を制御する制御手段と、
前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定手段とを備え、
前記制御手段は、
前記複数のデータの全てが前記判定手段によって前記推論処理に使用可能と判定された場合、前記第２の推論モデルが特徴量の抽出を行わず、前記第１の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、
前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記第１の推論モデルが前記複数の層のうち前記判定手段によって前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定手段によって前記推論処理に使用可能と判定されたデータを入力として前記第２の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とする制御装置。

【請求項2】

前記複数のデータの全てが前記判定手段によって前記推論処理に使用可能と判定された場合、前記制御手段は、前記第２の推論モデルの出力の代わりに、予め定めた固定値を前記結合層に入力するように制御することを特徴とする請求項１に記載の制御装置。

【請求項3】

前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記制御手段は、前記判定手段によって前記推論処理に使用不可能と判定されたデータを入力とする層の出力の代わりに、予め定めた固定値を前記結合層に入力するように制御することを特徴とする請求項１に記載の制御装置。

【請求項4】

前記判定手段は、前記複数のデータに対して夫々評価値を算出し、前記評価値と予め定めた閾値を比較した結果に基づいて前記推論処理に使用可能か否かを判定することを特徴とする請求項１に記載の制御装置。

【請求項5】

前記複数のデータは、画像データ及び音データであることを特徴とする請求項４に記載の制御装置。

【請求項6】

前記評価値は、前記画像データの輝度、前記画像データのボケ量、前記画像データの高感度ノイズ量の何れかに係る値であることを特徴とする請求項５に記載の制御装置。

【請求項7】

前記評価値は、前記音データの特徴成分に対するノイズ量に係る値であることを特徴とする請求項５に記載の制御装置。

【請求項8】

前記複数のデータは、人物を異なる角度から撮影して得られた複数の画像データであることを特徴とする請求項４に記載の制御装置。

【請求項9】

前記評価値は、前記画像データに写る人物の顔の向きに係る値であることを特徴とする請求項８に記載の制御装置。

【請求項10】

前記複数のデータは、着目画像データと、前記着目画像データのノイズを除去するノイズリダクションを行うための参照画像データとを含むことを特徴とする請求項４に記載の制御装置。

【請求項11】

前記評価値は、前記着目画像データと前記参照画像データとの差分に係る値であることを特徴とする請求項１０に記載の制御装置。

【請求項12】

前記複数のデータは、被写体を撮影して得られた画像データであり、
前記判定手段は、前記画像データの撮影時の撮影条件に基づいて前記推論処理に使用可能か否かを判定することを特徴とする請求項１に記載の制御装置。

【請求項13】

前記複数のデータは、２つのデータであり、
前記第１の推論モデルは、前記２つのデータを夫々入力とする２つの層を備えることを特徴とする請求項１に記載の制御装置。

【請求項14】

前記複数のデータは、３つ以上のデータであり、
前記第１の推論モデルは、前記複数のデータを夫々入力とする３つ以上の層を備えることを特徴とする請求項１に記載の制御装置。

【請求項15】

前記判定手段は、前記複数のデータに対して夫々評価値を算出し、前記評価値に基づいて前記複数のデータに対して夫々重み付け値を設定し、
前記制御手段は、前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記重み付け値に基づいて前記第２の推論モデルの演算リソースを決定することを特徴とする請求項１４に記載の制御装置。

【請求項16】

関連する複数のデータを入力として推論処理を行う制御装置の制御方法であって、
前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第１の推論モデルの動作を制御し、前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第２の推論モデルの動作を制御する制御工程と、
前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定工程とを有し、
前記制御工程は、
前記複数のデータの全てが前記判定工程にて前記推論処理に使用可能と判定された場合、前記第２の推論モデルが特徴量の抽出を行わず、前記第１の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、
前記複数のデータの何れかが前記判定工程にて前記推論処理に使用不可能と判定された場合、前記第１の推論モデルが前記複数の層のうち前記判定工程にて前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定工程にて前記推論処理に使用可能と判定されたデータを入力として前記第２の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とする制御装置の制御方法。

【請求項17】

関連する複数のデータを入力として推論処理を行う制御装置の制御方法をコンピュータに実行させるプログラムであって、
前記制御装置の制御方法は、
前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第１の推論モデルの動作を制御し、前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第２の推論モデルの動作を制御する制御工程と、
前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定工程とを有し、
前記制御工程は、
前記複数のデータの全てが前記判定工程にて前記推論処理に使用可能と判定された場合、前記第２の推論モデルが特徴量の抽出を行わず、前記第１の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、
前記複数のデータの何れかが前記判定工程にて前記推論処理に使用不可能と判定された場合、前記第１の推論モデルが前記複数の層のうち前記判定工程にて前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定工程にて前記推論処理に使用可能と判定されたデータを入力として前記第２の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とするプログラム。

【請求項18】

請求項１乃至１５の何れか１項に記載の制御装置に用いるニューラルネットワークの学習方法であって、
関連する複数の学習データであって前記判定手段によって前記推論処理に使用可能と判定される複数の学習データと、
前記複数の学習データを入力として動作する前記第１の推論モデルと、を用いて第１の学習を行い、
関連する複数の学習データのうち前記判定手段によって前記推論処理に使用可能と判定される学習データと、
前記推論処理に使用可能と判定される学習データを入力として動作する第２の推論モデルと、
前記複数の層のうち前記判定手段によって前記推論処理に使用可能と判定される学習データを入力とする層の演算を行い、当該層の出力と前記第２の推論モデルの出力とを前記結合層に入力して動作する前記第１の推論モデルと、を用いて第２の学習を行うことを特徴とするニューラルネットワークの学習方法。

【請求項19】

前記第１の学習では、前記第２の推論モデルの出力の代わりに予め定めた固定値を前記結合層に入力して学習が行われることを特徴とする請求項１８に記載のニューラルネットワークの学習方法。

【請求項20】

前記第２の学習では、前記複数の層のうち前記判定手段によって前記推論処理に使用不可能と判定される学習データを入力とする層の出力の代わりに、予め定めた固定値を前記結合層に入力して学習が行われることを特徴とする請求項１８に記載のニューラルネットワークの学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、制御装置、制御装置の制御方法、プログラム、ニューラルネットワークの学習方法に関する。

【背景技術】

【0002】

ニューラルネットワークを用いたディープラーニング技術は、幅広い分野で利用されており、特に、画像を認識して分類するクラス分類は、人の認識能力を超えたと言われている。中でも特に広く利用されている畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）は、画像に対して畳み込み演算を再帰的に行うことで、高精度なディープラーニング処理を実現する。このようなディープラーニング処理によって得られた推論モデルが、近年では、撮影画像に含まれる顔の表情を認識する表情認識処理に利用されている。上記推論モデルを用いた表情認識処理では、主に、画像から抽出した顔の凹凸、質感、輪郭等の情報から表情を認識する精度が向上するが、撮影画像といった単一のモーダル情報のみで認識させているため、精度の向上が十分ではない。

【0003】

これに対し、複数のモーダル情報を用いてディープラーニング処理を行う技術が提案されている。関連する技術として、特許文献１の技術が提案されている。特許文献１では、複数のモーダル情報を用いて複数の推論モデルを統合的に学習させることにより、単一のモーダル情報で学習させる場合と比較して、推論結果の精度を向上可能となる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２２－２０２３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上述した特許文献１の技術を用いても、複数のモーダル情報の何れかが不良モーダル情報である場合、不良モーダル情報に対する推論結果の精度は低下するため、複数の推論モデルを統合的に学習させても、推論結果の精度は低下してしまう。

【0006】

本発明は、推論結果の精度の低下を抑制することができる制御装置、制御装置の制御方法、プログラム、ニューラルネットワークの学習方法を提供することを目的とする。

【課題を解決するための手段】

【0007】

上記目的を達成するために、本発明の制御装置は、関連する複数のデータを入力として推論処理を行う制御装置であって、前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第１の推論モデルと、前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第２の推論モデルと、前記第１の推論モデル及び前記第２の推論モデルの動作を制御する制御手段と、前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定手段とを備え、前記制御手段は、前記複数のデータの全てが前記判定手段によって前記推論処理に使用可能と判定された場合、前記第２の推論モデルが特徴量の抽出を行わず、前記第１の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記第１の推論モデルが前記複数の層のうち前記判定手段によって前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定手段によって前記推論処理に使用可能と判定されたデータを入力として前記第２の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とする。

【発明の効果】

【0008】

本発明によれば、推論結果の精度の低下を抑制することができる。

【図面の簡単な説明】

【0009】

【図1】本実施の形態に係る制御装置の構成の一例を示すブロック図である。

【図2】図１のニューラルネットワーク部の構成の一例を示すブロック図である。

【図3】図１の制御装置で用いられる画像データの一例を示す図である。

【図4】図１の制御装置で用いられる音データの一例を示す図である。

【図5】図１の制御装置で用いられる音データの一例を示す図である。

【図6】図１の制御装置によって実行される注目領域推定処理の手順を示すフローチャートである。

【図7】図１のニューラルネットワーク部に用いるパラメーターの学習方法を例示した図である。

【図8】図１の制御装置で用いられる画像データの一例を示す図である。

【図9】関連する３つの入力データを入力とする制御装置の構成の一例を示すブロック図である。

【図10】図９のニューラルネットワーク部の構成の一例を示すブロック図である。

【図11】連続撮影で生成された画像データの一例を示す図である。

【図12】図９の制御装置によって実行される高画質化処理の手順を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下、本発明を実施するための形態について図面を用いて説明する。

【0011】

図１は、本実施の形態に係る制御装置１００の構成の一例を示すブロック図である。制御装置１００は、関連する２つの入力データに基づいて統合的に推論処理を行って、推論結果を出力する。本実施の形態では、一例として、制御装置１００が、入力データ１として入力された画像データと、入力データ２として入力された音データとに基づいて、当該画像データにおける注目領域を推論する推論処理を行う構成について説明する。尚、注目領域は、当該画像データにおいて会話している人物に注目した領域である。

【0012】

図１において、制御装置１００は、ニューラルネットワーク部１０１、判定部１０２、及び制御部１０３を備える。ニューラルネットワーク部１０１は、画像データと音データを入力とし、制御部１０３の指示に従って注目領域の推論処理を行い、推論結果を出力データとして出力する。出力データの出力先は、例えば、制御装置１００が備える内部ストレージ（不図示）や、インターネット等の通信ネットワークを介して制御装置１００と通信可能な外部機器である。本実施の形態において、ニューラルネットワーク部１０１は、一般的なニューラルネットワークモデルで採用される積和演算や非線形処理が可能な処理部である。判定部１０２は、入力された画像データ及び音データを注目領域の推論処理に使用可能であるか否かを判定し、判定結果を制御部１０３へ送信する。尚、判定方法については後述する。制御部１０３は、判定部１０２から取得した判定結果に基づいて、注目領域の推論処理を制御する指示をニューラルネットワーク部１０１へ送信する。

【0013】

図２は、図１のニューラルネットワーク部１０１の構成の一例を示すブロック図である。尚、本実施の形態では、ニューラルネットワーク部１０１は、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）で構成されるものとする。一般的に、ＣＮＮ処理にはバイアス加算や非線形処理等も含まれるが、本実施の形態ではその詳細について省略する。ただし、本発明は、ニューラルネットワーク部１０１の構成をＣＮＮのみに限定するものではなく、全結合処理をはじめとする演算が含まれていてよい。

【0014】

図２において、ニューラルネットワーク部１０１は、第１の推論モデル２００及び第２の推論モデル２２０で構成される。

【0015】

第１の推論モデル２００は、第１の層２０１、第２の層２０２、結合層２１０で構成されている。

【0016】

第１の層２０１は、画像データを入力とし、この画像データから注目人物の特徴量を抽出する。第１の層２０１は、注目人物の特徴量として、例えば、右目、左目、鼻の３つの観点に基づく注目人物としての尤度を抽出する。

【0017】

第２の層２０２は、音データを入力とし、この音データから注目人物の特徴量を抽出する。例えば、第２の層２０２は、注目人物の特徴量として、例えば、音の高さの観点に基づく注目人物としての尤度を抽出する。

【0018】

第２の推論モデル２２０は、判定部１０２によって使用不可能と判定された入力データを用いなくても推論結果の精度が低下しないように予め学習されたモデルであり、第４の層２２１と第５の層２２２とで構成されている。

【0019】

第４の層２２１は、第１の層２０１と同様に、画像データを入力とし、この画像データから注目人物の特徴量を抽出する。第４の層２２１は、注目人物の特徴量として、第１の層２０１とは異なる観点、例えば、口の観点に基づく注目人物としての尤度を抽出する。このように、本実施の形態では、第４の層２２１は、第１の層２０１とは異なる観点で注目人物としての尤度を抽出する。

【0020】

第５の層２２２は、第２の層２０２と同様に、音データを入力とし、この音データから注目人物の特徴量を抽出する。第５の層２２２は、注目人物の特徴量として、第２の層２０２とは異なる観点、例えば、音量の観点に基づく注目人物としての尤度を抽出する。このように、本実施の形態では、第５の層２２２は、第２の層２０２とは異なる観点で注目人物としての尤度を抽出する。

【0021】

結合層２１０は、第１の層２０１、第２の層２０２、第４の層２２１、第５の層２２２のうち、判定部１０２による入力データの使用可否の判定結果に基づいて決定された２つの層によって抽出された特徴量を結合するように推論処理を行う。結合層２１０は、この推論結果を出力データとして出力する。尚、第１の層２０１、第２の層２０２、第４の層２２１、第５の層２２２のうち、上記２つの層以外の層では、特徴量を抽出するための演算が行われない。このため、当該演算が行われない層の出力として、特徴量の代わりに予め定めた固定値が結合層２１０に入力される。

【0022】

次に、判定部１０２による入力データの使用可否の判定について説明する。まず、入力データである画像データの使用可否の判定について説明する。

【0023】

図３は、図１の制御装置１００で用いられる画像データの一例を示す図である。

【0024】

図３（ａ）の画像データ、図３（ｂ）の画像データには夫々、会話する人３００と歩く人３０１が含まれている。尚、図３（ｂ）の画像データは、図３（ａ）の画像データより輝度が低い画像データである。

【0025】

判定部１０２は、入力された画像データの評価値を算出する。判定部１０２は、入力された画像データの評価値として、例えば、輝度の平均値を算出する。判定部１０２は、算出した輝度の平均値が予め定められた輝度閾値を超える場合、入力された画像データを使用可能であると判定する。例えば、算出した輝度の平均値が輝度閾値を超える図３（ａ）の画像データは、判定部１０２によって使用可能と判定される。尚、本実施の形態では、輝度閾値として、第１の層２０１で人物の特徴を抽出可能な輝度レベルの値が設定されることとする。

【0026】

一方、判定部１０２は、算出した輝度の平均値が輝度閾値以下である場合、入力された画像データを使用不可能と判定する。例えば、算出した輝度の平均値が輝度閾値以下となる図３（ｂ）の画像データは、判定部１０２によって使用不可能と判定される。尚、本実施の形態では、一例として、入力された画像データの輝度の平均値に基づいて当該画像データの使用可否を判定する構成について説明するが、本発明はこの構成に限られない。例えば、入力された画像データの輝度のＳＮ比に基づいて当該画像データの使用可否を判定してもよい。また、入力された画像データにおけるボケ量や高感度ノイズ量等といった、予め定められた閾値と比較可能な画像データのパラメーターに基づいて当該画像データの使用可否を判定してもよい。また、入力された画像データにおけるこれら複数のパラメータと、各パラメータに対応する閾値との比較結果を組み合わせて当該画像データの使用可否を判定してもよい。

【0027】

次に、入力データである音データの使用可否の判定について説明する。

【0028】

図４は、図１の制御装置１００で用いられる音データの一例を示す図である。図４（ａ）は、制御装置１００に入力される音データの波形の一例を示す。この音データには、会話する人３００の音声成分やその周囲の環境で発生する音成分が含まれる。

【0029】

本実施の形態において、判定部１０２は、例えば、図４（ａ）の音データが入力されると、この音データを図４（ｂ）の波形と図４（ｃ）の波形に分離する。図４（ｂ）は、図４（ａ）の波形から会話する人３００の音声成分を分離した波形である。図４（ｃ）は、図４（ａ）の波形から音声成分（特徴成分）以外のノイズ成分を分離した波形である。本実施の形態では、図４（ｃ）の波形は、入力された音データの評価値として用いられる。

【0030】

次いで、判定部１０２は、図４（ｃ）のノイズ成分の最大振幅が予め定められたノイズ閾値以下である場合、図４（ａ）に示される音データを使用可能と判定する。尚、ノイズ閾値として、例えば、図４（ｂ）の会話する人３００の音声成分における振幅の最大値が設定されることとする。

【0031】

図５も、図１の制御装置１００で用いられる音データの一例を示す図である。図５（ａ）は、図４（ａ）の音データよりノイズ成分が大きい音データの波形の一例を示す。

【0032】

例えば、判定部１０２は、図５（ａ）の音データが入力されると、この音データを図５（ｂ）の波形と図５（ｃ）の波形に分離する。図５（ｂ）は、図５（ａ）の波形から会話する人３００の音声成分を分離した波形である。尚、図５（ａ）の音データにおける音声成分は、図４（ａ）の音データにおける音声成分と同じであることとし、図５（ｂ）の波形は図４（ｂ）の波形と同等である。図５（ｃ）は、図５（ａ）の波形から音声成分以外のノイズ成分を分離した波形であり、図４（ｃ）の波形と比較して、ノイズ成分が大きい。図５（ｃ）の波形も、入力された音データの評価値として用いられる。

【0033】

判定部１０２は、図５（ｃ）のノイズ成分の振幅の最大値が予め定められたノイズ閾値を超える場合、図５（ａ）に示される音データを使用不可能と判定する。尚、本実施の形態では、入力された音データのノイズ成分に基づいて当該音データの使用可否を判定する構成について説明したが、本発明はこの構成に限られない。例えば、入力された音データの音量等といった予め定められた閾値と比較可能な音データのパラメーターに基づいて当該音データの使用可否を判定してもよい。

【0034】

ここで、画像データを入力とする第１の層２０１のみでは、画像データから人物を認識することはできるが、その人物が会話する人３００であるか、歩く人３０１であるかを特定することが困難である。これに対し、本実施の形態では、音データを入力とする第２の層２０２と画像データを入力とする第１の層２０１とにより統合的に推論処理を行うことで、会話する人３００を特定することができるように構成している。

【0035】

一方、入力された音データが判定部１０２によって推論処理に使用不可能と判定された不良データである場合、この音データを用いて推論処理を行うと、推論結果の精度が低下する懸念がある。このため、この音データを用いずに推論処理を行うのが好ましい。しかし、この音データを用いずに第１の層２０１のみで推論処理を行うと、上述したように、画像データから認識した人物が会話する人３００であるか、歩く人３０１であるかを正確に特定することができない。

【0036】

これに対し、本実施の形態では、入力された画像データ及び音データの何れかが判定部１０２によって推論処理に使用不可能と判定された場合、以下のような処理が行われる。すなわち、第１の層２０１、第２の層２０２のうち推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、当該データを入力として第２の推論モデル２２０によって抽出された特徴量とに基づいて結合層２１０から出力データが出力される。

【0037】

図６は、図１の制御装置１００によって実行される注目領域の推論処理の手順を示すフローチャートである。図６の注目領域の推論処理は、制御装置１００が、入力データとして画像データと音データを取得した際に実行される。

【0038】

図６において、まず、Ｓ６０１において、判定部１０２は、取得した全ての入力データが推論処理に使用可能であるか否かを判定する。具体的には、判定部１０２は、取得した各入力データの評価値を算出し、算出した評価値と予め定めた閾値とを比較して、各入力データが推論処理に使用可能であるか否かを判定する。例えば、判定部１０２は、上述したように、入力データである画像データの輝度の平均値を算出し、算出した輝度の平均値と輝度閾値との比較を行う。また、判定部１０２は、上述したように、入力データである音データのノイズ成分を抽出し、このノイズ成分の最大振幅とノイズ閾値との比較を行う。例えば、輝度の平均値が輝度閾値を超える図３（ａ）の画像データと、ノイズ成分の最大振幅がノイズ閾値以下の図４（ａ）の音データとが入力された場合、Ｓ６０１では、取得した全ての入力データが使用可能であると判定される。この場合、注目領域の推論処理はＳ６０２へ進む。

【0039】

Ｓ６０２では、制御部１０３は、第１の層２０１の出力と第２の層２０２の出力を結合層２１０に入力するように第１の推論モデル２００を制御する。また、制御部１０３は、第４の層２２１の演算と第５の層２２２の演算を行わないように第２の推論モデル２２０を制御する。このように、本実施の形態では、取得した画像データと音データの両方が使用可能であると判定された場合、制御部１０３は、第２の推論モデル２２０が特徴量の抽出を行わないように制御する。また、制御部１０３は、第１の推論モデル２００が第１の層２０１と第２の層２０２で抽出された複数の特徴量に基づいて結合層２１０から出力データを出力するように制御する。

【0040】

次いで、Ｓ６０３では、制御部１０３は、演算を行わない層の出力の代わりに、予め定められた固定値を結合層２１０に入力するように第１の推論モデル２００及び第２の推論モデル２２０を制御する。具体的に、制御部１０３は、演算を行わない第４の層２２１の出力と第５の層２２２の出力の代わりに、第４の層２２１に対応する固定値と、第５の層２２２に対応する固定値とを夫々結合層２１０に入力するように第２の推論モデル２２０を制御する。尚、予め定められた固定値は、第１の推論モデル２００及び第２の推論モデル２２０の学習時に使用された値である。このように制御することで、第１の推論モデル２００及び第２の推論モデル２２０で構成されたニューラルネットワーク部１０１は、第２の推論モデル２２０の演算を行わない処理であることを判別することができる。その結果、学習と紐づいていないデータを結合層２１０に入力した場合よりも高精度な推論結果を出力することができる。

【0041】

次いで、Ｓ６０４では、ニューラルネットワーク部１０１は、制御部１０３の制御に従って、ニューラルネットワークの演算を行い、推論結果を出力データとして出力する。その後、注目領域の推論処理は終了する。このようにして、本実施の形態では、図３（ｃ）の領域３０２のように、会話する人３００を注目した領域を注目領域として特定することができる。

【0042】

一方、Ｓ６０１において、取得した何れかの入力データが使用不可能であると判定された場合、注目領域の推論処理はＳ６０５へ進む。例えば、輝度の平均値が輝度閾値以下の図３（ｂ）の画像データが入力された場合や、ノイズ成分の最大振幅がノイズ閾値を超える図５（ａ）の音データが入力された場合に、Ｓ６０１では、取得した何れかの入力データが使用可能であると判定される。尚、本実施の形態では、輝度の平均値が輝度閾値以下となる画像データと、ノイズ成分の最大振幅がノイズ閾値を超える音データとが入力された場合、以下のように判定される。すなわち、これら入力データのうち、評価値と閾値との差が小さい入力データが使用可能と判定され、評価値と閾値との差が大きい入力データが使用不可能と判定される。

【0043】

Ｓ６０５では、制御部１０３は、使用不可能と判定された入力データを入力とする層の演算を行わずに、使用可能と判定された入力データを入力とする層の演算を行うように第１の推論モデル２００及び第２の推論モデル２２０を制御する。

【0044】

例えば、判定部１０２により、画像データが使用可能と判定され、音データが使用不可能と判定された場合、画像データは良質データであり、音データは不良データとなる。このような場合、制御部１０３は、使用不可能と判定された音データを入力とする第２の層２０２の演算と第５の層２２２の演算を行わないように第１の推論モデル２００及び第２の推論モデル２２０を制御する。また、制御部１０３は、使用可能と判定された画像データを入力とする第１の層２０１の演算と第４の層２２１の演算を行うように第１の推論モデル２００及び第２の推論モデル２２０を制御する。このように制御することで、良質データである画像データに使用するリソースを、第２の推論モデル２２０のリソース分増やすことができる。また、第２の推論モデル２２０では、第１の推論モデル２００における第１の層２０１とは異なる観点に基づく注目人物の特徴量が抽出されるので、不良データである音データを用いなくても、この特徴量に基づいて、注目領域の推論結果の精度の低下を抑制することが可能となる。

【0045】

また、判定部１０２により、画像データが使用不可能と判定され、音データが使用可能と判定された場合、画像データは不良データであり、音データは良質データとなる。このような場合、制御部１０３は、使用不可能と判定された画像データを入力とする第１の層２０１の演算と第４の層２２１の演算を行わないように第１の推論モデル２００及び第２の推論モデル２２０を制御する。また、制御部１０３は、使用可能と判定された音データを入力とする第２の層２０２の演算と第５の層２２２の演算を行うように第１の推論モデル２００及び第２の推論モデル２２０を制御する。このように制御することで、良質データである音データに使用するリソースを、第２の推論モデル２２０のリソース分増やすことができる。また、第２の推論モデル２２０では、第１の推論モデル２００における第２の層２０２とは異なる観点に基づく注目人物の特徴量が抽出されるので、不良データである画像データを用いなくても、この特徴量に基づいて、注目領域の推論結果の精度の低下を抑制することが可能となる。

【0046】

次いで、注目領域の推論処理はＳ６０３へ進む。例えば、判定部１０２により、画像データが使用可能と判定され、音データが使用不可能と判定された場合、Ｓ６０３では、制御部１０３は、以下のように第１の推論モデル２００及び第２の推論モデル２２０を制御する。すなわち、制御部１０３は、演算を行わない第２の層２０２の出力と第５の層２２２の出力の代わりに、第２の層２０２に対応する固定値と、第５の層２２２に対応する固定値とを夫々結合層２１０に入力するように制御する。また、判定部１０２により、画像データが使用不可能と判定され、音データが使用可能と判定された場合、Ｓ６０３では、制御部１０３は、以下のように第１の推論モデル２００及び第２の推論モデル２２０を制御する。すなわち、制御部１０３は、演算を行わない第１の層２０１の出力と第４の層２２１の出力の代わりに、第１の層２０１に対応する固定値と、第４の層２２１に対応する固定値とを夫々結合層２１０に入力するように制御する。尚、これら固定値も、第１の推論モデル２００及び第２の推論モデル２２０の学習時に使用された値である。このように制御することで、第１の推論モデル２００及び第２の推論モデル２２０で構成されたニューラルネットワーク部１０１は、画像データ及び音データの一方のみを用いた処理であることを判別することができる。その結果、学習と紐づいていないデータを結合層２１０に入力した場合よりも高精度な推論結果を出力することができる。次いで、注目領域の推論処理は、Ｓ６０４へ進む。

【0047】

上述した実施の形態によれば、入力データの何れかが判定部１０２によって推論処理に使用不可能と判定された場合、以下のような処理が行われる。すなわち、第１の層２０１、第２の層２０２のうち推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、当該データを入力として第２の推論モデル２２０によって抽出された特徴量とに基づいて結合層２１０から出力データが出力される。これにより、第１の層２０１、第２の層２０２のうち推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量の他に、当該層とは別の観点で第２の推論モデル２２０によって抽出された特徴量を用いて推論処理を行うことができる。もって、推論結果の精度の低下を抑制することができる。

【0048】

また、上述した実施の形態では、入力データに対して夫々評価値が算出され、算出された評価値と閾値とを比較した結果に基づいて推論処理に使用可能か否かが判定される。これにより、入力データの何れかが推論処理に使用不可能であっても、推論結果の精度の低下を抑制することができる。

【0049】

上述した実施の形態では、入力データは、画像データ及び音データであるので、画像データ及び音データを入力とする推論処理において、推論結果の精度の低下を抑制することができる。

【0050】

上述した実施の形態では、評価値は、画像データの輝度、画像データのボケ量、画像データの高感度ノイズ量の何れかに係る値である。これにより、輝度、ボケ量、高感度ノイズ量に起因する不良な画像データが入力されても、推論結果の精度の低下を抑制することができる。

【0051】

上述した実施の形態では、音データの特徴成分に対するノイズ量に係る値であるので、ノイズに起因する不良な音データが入力されても、推論結果の精度の低下を抑制することができる。

【0052】

次に、ニューラルネットワーク部１０１に用いるパラメーターの学習について説明する。

【0053】

図７は、図１のニューラルネットワーク部１０１に用いるパラメーターの学習方法を例示した図である。本実施の形態において、ニューラルネットワーク部１０１に用いるパラメーターは、事前にＰＣ等の別の機器で学習を行うものとする。本実施の形態では、ニューラルネットワーク部１０１の構成を変化させながら３回に分けて学習が行われる。

【0054】

図７（ａ）は、一回目の学習を説明するための図である。

【0055】

図７（ａ）におけるニューラルネットワーク処理では、図２に示す構成のうち、第１の層２０１と第２の層２０２で演算を行い、第４の層２２１と第５の層２２２で演算を行わず、第４の層２２１の出力と第５の層２２２の出力の代わりに夫々予め定められた固定値を結合層２１０に入力するように制御したモデル構成を用いて学習が行われる。本実施の形態では、予め定められた固定値を、結合層２１０の入力データと同じデータ長からなる０値とする。尚、本実施の形態では、一例として、固定値を０値とするが固定値は０値に限定されるものではない。本実施の形態では、学習時に用いた固定値と同じ値、例えば、０値を、Ｓ６０３にて固定値として使用する。学習時に用いた固定値と同じ値を、推論時に、Ｓ６０３にて固定値として使用することで、ニューラルネットワーク部１０１は、第２の推論モデル２２０の演算を行わない処理であることを判別することができる。

【0056】

１回目の学習（第１の学習）では、入力データとして、複数の画像データと複数の音データが使用される。尚、画像データと音データは、関連するデータである。尚、１回目の学習データでは、判定部１０２によって使用可能と判定されるような良質データのみが使用される。良質データのみを使用することで、良質な画像データと良質な音データが入力された場合に対応する学習を適切に行うことができる。以上のモデル構成と学習データを用いて１回目の学習が行われる。

【0057】

１回目の学習は、ニューラルネットワーク処理の演算結果である出力データと教師データとの関係が近付くようにパラメーター最適化処理によって処理された更新パラメーターを取得し、ニューラルネットワークの辞書データを更新することで行う。

【0058】

１回目の学習で得られた学習完了時の更新パラメーターを事前学習辞書データとして、２回目の学習に使用する。尚、教師データは、画像データと音データを入力として予め生成した注目領域のデータを事前に作成して学習を行えばよく、１、２、３回目の学習で同じ教師データを用いてもよい。また、事前学習辞書データで生成したデータを教師データとしてもよい。また、事前学習辞書データを初期値に設定して２回目の学習に使用してもよい。

【0059】

次に、２回目の学習（第２の学習）について説明する。図７（ｂ）は、２回目の学習を説明するための図である。

【0060】

図７（ｂ）におけるニューラルネットワーク処理では、図２に示す構成のうち、第１の層２０１と第４の層２２１で演算を行い、第２の層２０２と第５の層２２２で演算を行わず、第２の層２０２の出力と第５の層２２２の出力の代わりに予め定められた固定値を結合層２１０に入力するように制御したモデル構成を用いて学習が行われる。

【0061】

２回目の学習では、入力データとして、複数の画像データが使用される。尚、２回目の学習データでは、判定部１０２によって使用可能と判定されるような良質な画像データのみが使用される。以上のモデル構成と学習データを用いて２回目の学習が行われる。尚、２回目の学習は、１回目の学習と同様の方法で行われる。２回目の学習で得られた学習完了時の更新パラメーターを事前学習辞書データとして、３回目の学習に使用する。

【0062】

次に、３回目の学習（第２の学習）について説明する。図７（ｃ）は、３回目の学習を説明するための図である。

【0063】

図７（ｃ）におけるニューラルネットワーク処理では、図２に示す構成のうち、第２の層２０２と第５の層２２２で演算を行い、第１の層２０１と第４の層２２１で演算を行わず、第１の層２０１の出力と第４の層２２１の出力の代わりに予め定められた固定値を結合層２１０に入力するように制御したモデル構成を用いて学習が行われる。

【0064】

３回目の学習では、入力データとして、複数の音データが使用される。尚、３回目の学習データでは、判定部１０２によって使用可能と判定されるような良質な音データのみが使用される。以上のモデル構成と学習データを用いて３回目の学習が行われる。尚、３回目の学習は、１回目の学習と同様の方法で行われる。

【0065】

尚、本実施の形態では、２種類の入力データを使用する構成について説明したが、３種類以上の入力データを入力とし、それらのデータに対応する３つ以上の処理層をもったモデル構成で学習してもよく、更に複数回の学習を実施してもよい。

【0066】

以上が学習の概要である。尚、誤差逆伝播法等を初めとするニューラルネットワークの学習アルゴリズムについては、公知技術の範疇のため本実施の形態では説明を省略する。

【0067】

このように本実施の形態では、上述した図６の注目領域の推論処理に用いられる第１の推論モデル２００及び第２の推論モデル２２０を得ることができ、もって、推論結果の精度の低下を抑制することができる。

【0068】

尚、本実施の形態では、ニューラルネットワーク部１０１は、被写体となる人物を異なる角度から撮影した複数の画像データを入力として、これらの画像データに写る人物を特定する推論処理を行う構成であってもよい。これにより、異なる角度から撮影された複数の画像データを入力とし、これらの画像データに写る特定の人物の情報を特定する推論処理において、推論結果の精度の低下を抑制することができる。

【0069】

このような構成において、ニューラルネットワーク部１０１は、異なる角度から撮影された２つの画像データを入力とし、これらの画像データに写る特定の人物の情報を出力データとして出力する。例えば、ニューラルネットワーク部１０１は、被写体を正面から撮影して得られた図８（ａ）の画像データと、被写体を真後ろから撮影して得られた図８（ｂ）の画像データとを入力とし、これらの画像データから特定の人物の情報を出力データとして出力する。尚、特定の人物の情報は、人物を特定可能な情報であれば、画像形式のデータであってもよく、また、テキスト形式のデータであってもよい。

【0070】

このような構成において、判定部１０２は、画像データに写る人物が特定の人物であると判定可能な状態であるか否かに基づいて入力データの使用可否を判定する。本実施の形態では、人の顔の向きに基づいて、画像データに写る人物が特定の人物であると判定可能な状態であるか否かを判定する。例えば、図８（ａ）のように、被写体を正面から撮影して得られた画像データには、目鼻口等といった人物を特定可能な情報が含まれているため、判定部１０２は、このような画像データを使用可能と判定する。一方、図８（ｂ）のように、被写体を真後ろから撮影して得られた画像データには、目鼻口等といった人物を特定可能な情報が含まれていないため、判定部１０２は、このような画像データを使用不可能と判定する。

【0071】

このように、判定部１０２が人の顔の向きによって入力データの使用可否を判定することで、入力された２つの画像データに写る特定の人物の情報を特定する推論処理において、これら２つの画像データの一方が、図８（ｂ）のように、人物を特定可能な情報が含まれていない画像データであっても、推論結果の精度の劣化を抑制することができる。

【0072】

また、本実施の形態では、判定部１０２は、入力データとしての画像データの使用可否を、当該画像データの撮影条件に基づいてを判定してもよい。撮影条件とは、画像データの撮影時の情報であり、例えば、撮影機器名、解像度、シャッター速度、絞り（Ｆ値）、ＩＳＯ感度、測光モード、フラッシュ使用の有無、露光補正ステップ値、焦点距離である。例えば、画像データのＩＳＯ値が撮影したカメラの常用ＩＳＯを大幅に超えていた場合、画質の劣化具合によって推論結果の精度が悪くなる懸念がある。そこで、画像データのＩＳＯ値が、常用ＩＳＯの範囲を超えている場合には、判定部１０２は、当該画像データを使用不可能と判定する。これにより、入力された画像データの撮影条件に起因して推論結果の精度が劣化するのを抑制することができる。

【0073】

また、本実施の形態では、制御装置が関連する３つ以上の入力データを入力とする構成であってもよい。以下では、一例として、制御装置が関連する３つの入力データを入力とする構成について説明する。

【0074】

図９は、関連する３つの入力データを入力とする制御装置９００の構成の一例を示すブロック図である。制御装置９００は、関連する３つの入力データに基づいて統合的に推論処理を行って、推論結果を出力する。

【0075】

図９において、制御装置９００は、ニューラルネットワーク部９０１、判定部９０２、及び制御部９０３を備える。ニューラルネットワーク部９０１は、時系列の３つの画像データを入力とし、制御部９０３の指示に従って推論処理、具体的に、後述する高画質化処理を行い、高画質化処理済みの画像データを出力データとして出力する。尚、出力データの出力先は、例えば、制御装置９００が備える内部ストレージ（不図示）や、インターネット等の通信ネットワークを介して制御装置９００と通信可能な外部機器である。ニューラルネットワーク部９０１も、上述したニューラルネットワーク部１０１と同様に、一般的なニューラルネットワークモデルで採用される積和演算や非線形処理が可能な処理部である。判定部９０２は、入力された画像データを推論処理に使用可能か否かを判定し、判定結果を制御部９０３へ送信する。尚、判定方法については後述する。制御部９０３は、判定部９０２から取得した判定結果に基づいて、高画質化処理を制御する指示をニューラルネットワーク部９０１へ送信する。

【0076】

図１０は、図９のニューラルネットワーク部９０１の構成の一例を示すブロック図である。ニューラルネットワーク部９０１は、時系列の３つの画像データ、具体的に、着目画像データとその前後のコマの画像データを入力とし、制御部９０３の指示に従って高画質化処理を行う。高画質化処理では、着目画像データの前後のコマの画像データを参照画像データとして用いて着目画像データのノイズを除去するノイズリダクションが行われる。このように、複数の画像データを使用してノイズリダクションを行うことで、画像データにおけるエッジ部やノイズ部の検出精度が高まり、高精度なノイズ除去を実現可能となる。本実施の形態では、一例として、入力データ１として着目画像データの前のコマの画像データが入力され、入力データ２として着目画像データが入力され、入力データ３として着目画像データの後のコマの画像データが入力されることとする。

【0077】

図１０において、ニューラルネットワーク部９０１は、第１の推論モデル１０００及び第２の推論モデル１０２０で構成される。

【0078】

第１の推論モデル１０００は、入力データ１を入力とする第１の層１００１、入力データ２を入力とする第２の層１００２、入力データ３を入力とする第３の層１００３、結合層１０１０で構成されている。

【0079】

第１の層１００１、第２の層１００２、第３の層１００３は、夫々ノイズリダクションを行うためのニューラルネットワーク層であり、入力された画像データの特徴量を抽出する。例えば、画像データの特徴量として、高周波のエッジを示す情報や、空間的に特異な画素を示す情報等が抽出される。

【0080】

第２の推論モデル１０２０は、判定部９０２によって使用不可能と判定された入力データを用いなくても推論結果の精度が低下しないように予め学習されたモデルである。第２の推論モデル１０２０は、入力データ１を入力とする第４の層１０２１、入力データ２を入力とする第５の層１０２２、入力データ３を入力とする第６の層１０２３で構成されている。第４の層１０２１、第５の層１０２２、第６の層１０２３は、夫々第１の層１００１、第２の層１００２、第３の層１００３とは異なる観点で特徴量を抽出する。例えば、第４の層１０２１、第５の層１０２２、第６の層１０２３は夫々、入力された画像データの特徴量として、人の肌領域の情報を抽出する。尚、第１の層１００１、第２の層１００２、第３の層１００３が、夫々第４の層１０２１、第５の層１０２２、第６の層１０２３の処理を含めて行うと、処理時間が長くなる。このため、本実施の形態では、画質への影響が極めて高い処理を第１の層１００１、第２の層１００２、第３の層１００３が行うような構成としている。

【0081】

尚、本実施の形態では、第４の層１０２１、第５の層１０２２、第６の層１０２３に使用する演算リソースは変更可能であり、判定部９０２による入力データの使用可否の判定結果に基づいて制御部９０３がこれらの演算リソースを決定する。

【0082】

結合層１０１０は、第１の層１００１、第２の層１００２、第３の層１００３、第４の層１０２１、第５の層１０２２、第６の層１０２３のうち、判定部９０２によって使用可能と判定された入力データを入力とする層の出力に基づいて出力データを出力する。例えば、結合層１０１０は、判定部９０２によって使用可能と判定された入力データを入力とする層から取得した特徴量に基づいて、着目画像データにおけるノイズ部を特定し、特定したノイズ部に平均化処理を施してノイズ除去を行う。また、結合層１０１０は、取得した特徴量であるエッジの情報に基づいて、着目画像データにおけるエッジ部を保持させる。このようにして、ノイズが除去された高画質化処理済みの画像データが出力データとして出力される。

【0083】

次に、判定部９０２による入力データの使用可否の判定について説明する。判定部９０２は、入力された注目画像データと参照画像データとの輝度差を算出し、その輝度差と閾値とを比較した結果に基づいて入力された画像データの使用可否を判定する。上記閾値は、例えば、学習データとして使用された関連する複数の画像データの輝度差に基づいて決定された値である。尚、注目画像データと参照画像データとの輝度差を、一定領域の平均や分散に基づいて算出してもよい。このとき、画像データ間の動きを予測し位置合わせをした上で画像データ間の輝度差を算出してもよい。判定部９０２は、算出した輝度差が閾値以下となる画像データを使用可能と判定する。

【0084】

図１１は、連続撮影で生成された画像データの一例を示す図である。図１１（ａ）は、図１１（ｂ）の着目画像データの前のコマの画像データである。図１１（ｂ）は、着目画像データである。図１１（ｃ）は、図１１（ｂ）の着目画像データの後のコマの画像データである。図１１（ｄ）は、図１１（ｂ）の着目画像データの後のコマの画像データであり、フラッシュ発光の影響で図１１（ｃ）の画像データより輝度値が大きい画像データである。尚、図１１（ａ）～図１１（ｄ）の画像データは何れも、人物の顔の位置は同じであることとする。

【0085】

例えば、図１１（ｂ）の着目画像データと、当該着目画像データとの輝度差が閾値以下となる図１１（ａ）や図１１（ｃ）の参照画像データが入力された場合、これら参照画像データを用いてノイズが除去された高画質化処理済みの画像データを出力可能である。このため、着目画像データとの輝度差が閾値以下となる参照画像データが入力された場合、判定部９０２は、入力された画像データを使用可能と判定する。

【0086】

一方、図１１（ｂ）の着目画像データと、当該着目画像データとの輝度差が閾値を超える図１１（ｄ）の参照画像データが入力された場合、この参照画像データを用いて高画質化処理を行うと、ノイズ部の特定や、エッジ部の検出が適切に行われない。その結果、ノイズが除去された高画質化処理済みの画像データを出力することができない。このため、着目画像データとの輝度差が閾値を超える参照画像データが入力された場合、判定部９０２は、入力された画像データを使用不可能と判定する。

【0087】

図１２は、図９の制御装置９００によって実行される高画質化処理の手順を示すフローチャートである。図９の高画質化処理は、制御装置１００が、連続撮影で得られた３つの画像データを入力データとして取得した際に実行される。

【0088】

図１２において、まず、Ｓ１２０１において、判定部９０２は、取得した全ての入力データが使用可能であるか否かを判定する。具体的には、判定部９０２は、取得した各入力データの評価値を算出し、算出した評価値と予め定めた閾値とを比較して、各入力データが推論処理に使用可能であるか否かを判定する。例えば、判定部９０２は、上述したように、取得した注目画像データと参照画像データとの輝度差を算出し、その輝度差と閾値とを比較した結果に基づいて取得した入力データの使用可否を判定する。例えば、入力データ１、入力データ２、入力データ３として、夫々図１１（ａ）の参照画像データ、図１１（ｂ）の着目画像データ、図１１（ｃ）の参照画像データが入力された場合、これら参照画像データと着目画像データとの輝度差は上記閾値以下である。このような場合、Ｓ１２０１では、取得した全ての入力データが使用可能であると判定される。この場合、高画質化処理はＳ１２０２へ進む。

【0089】

Ｓ１２０２では、制御部９０３は、第１の層１００１の出力、第２の層１００２の出力、第３の層１００３の出力を結合層１０１０に入力するように第１の推論モデル１０００を制御する。また、制御部９０３は、第４の層１０２１の演算、第５の層１０２２の演算、第６の層１０２３の演算を行わないように第２の推論モデル１０２０を制御する。このように、本実施の形態では、取得した全ての入力データが使用可能であると判定された場合、制御部９０３は、以下のように制御する。すなわち、制御部９０３は、第２の推論モデル１０２０が特徴量の抽出を行わず、第１の推論モデル１０００が第１の層１００１、第２の層１００２、第３の層１００３で抽出された複数の特徴量に基づき結合層１０１０から出力データを出力するように制御する。

【0090】

次いで、Ｓ１２０３において、制御部９０３は、演算を行わない層の出力の代わりに、予め定められた固定値を結合層１０１０に入力するように第１の推論モデル１０００及び第２の推論モデル１０２０を制御する。具体的に、制御部９０３は、演算を行わない第４の層１０２１の出力、第５の層１０２２の出力、第６の層１０２３の出力の代わりに、第４の層１０２１に対応する固定値、第５の層１０２２に対応する固定値、第６の層１０２３に対応する固定値を夫々結合層１０１０に入力するように第２の推論モデル１０２０を制御する。尚、予め定められた固定値は、第１の推論モデル１０００及び第２の推論モデル１０２０の学習の際に用いられた値である。

【0091】

次いで、Ｓ１２０４において、ニューラルネットワーク部９０１は、制御部９０３の制御に従って、ニューラルネットワークの演算を行い、高画質化処理済みの画像データを出力データとして出力する。その後、高画質化処理は終了する。

【0092】

一方、例えば、入力データ１、入力データ２、入力データ３として、夫々図１１（ａ）の参照画像データ、図１１（ｂ）の着目画像データ、図１１（ｄ）の参照画像データが入力された場合、以下のように判定される。すなわち、着目画像データとの輝度差が上記閾値を超える図１１（ｄ）の参照画像データ（入力データ３）は使用不可能と判定される。このような場合、Ｓ１２０１では、取得した何れかの入力データが使用不可能であると判定される。この場合、制御部９０３は、着目画像データに対する輝度差に基づいて、取得した各画像データに重み付けを行う。例えば、取得した図１１（ａ）、図１１（ｂ）、図１１（ｄ）の各画像データにおいて、図１１（ｂ）の着目画像データに対する輝度差が夫々２、１、１０である場合、判定部９０２は、これらの画像データに対し、１、２、０の重み付け値を設定する。

【0093】

次いで、Ｓ１２０５において、制御部９０３は、設定した重み付け値に基づいて、判定部９０２によって使用可能と判定されたデータを入力とする層である第４の層１０２１と第５の層１０２２に使用する演算リソースを決定する。例えば、上述したように、図１１（ａ）、図１１（ｂ）、図１１（ｄ）の各画像データの重み付け値が１、２、０である場合、制御部９０３は、１：２：０の割合で、第２の推論モデル１０２０が持つ演算リソースを分けるように制御する。このように制御することで、参照画像データから特徴量を抽出する第４の層１０２１に対してより多くの演算リソースを割いて、第４の層１０２１の演算精度を上げることができる。その結果、高画質化処理における推論結果の精度を向上することができる。尚、第２の推論モデル１０２０が持つ演算リソースは、使用不可データを入力とする第１の層１００１の演算リソースと同等になるように設定してもよい。このようにすることで、推論処理を行う演算リソースの量を変えることなく、推論結果の精度低下を抑制することが可能となる。

【0094】

次いで、Ｓ１２０６において、制御部９０３は、使用不可能と判定されたデータを入力とする層の演算を行わずに、使用可能と判定されたデータを入力とする層の演算を行うように第１の推論モデル１０００及び第２の推論モデル１０２０を制御する。具体的に、制御部９０３は、使用不可能と判定されたデータを入力とする第３の層１００３の演算を行わずに、使用可能と判定されたデータを入力とする第１の層１００１の演算と第２の層１００２の演算を行うように第１の推論モデル１０００を制御する。また、制御部９０３は、使用不可能と判定されたデータを入力とする第６の層１０２３の演算を行わずに、使用可能と判定されたデータを入力とする第４の層１０２１の演算と第５の層１０２２の演算を行うように第２の推論モデル１０２０を制御する。このように制御することで、判定部９０２によって使用可能と判定されたデータに使用するリソースを、第２の推論モデル１０２０のリソース分増やすことができる。また、第２の推論モデル１０２０では、第１の推論モデル１０００では抽出されない人の肌領域の情報が抽出されるので、この情報に基づいて、人の肌の質感を落とさないようにノイズ除去（平均化処理）を抑えるようなフィルタ処理を実行可能となる。その結果、高画質化処理済みの画像データの画質を向上させることができる。

【0095】

次いで、高画質化処理はＳ１２０３へ進む。Ｓ１２０３では、制御部９０３は、演算を行わない第１の推論モデル１０００における第３の層１００３の出力の代わりに、第３の層１００３に対応する固定値を結合層１０１０に入力するように第１の推論モデル１０００を制御する。また、制御部９０３は、演算を行わない第２の推論モデル１０２０における第６の層１０２３の出力の代わりに、第６の層１０２３に対応する固定値を結合層１０１０に入力するように第２の推論モデル１０２０を制御する。次いで、高画質化処理はＳ１２０４へ進む。

【0096】

上述した実施の形態では、入力データは、着目画像データと、着目画像データのノイズを除去するノイズリダクションを行うための参照画像データを含む。これにより、着目画像データ及び参照画像データを入力とする高画質化処理において、推論結果の精度の低下を抑制することができる。

【0097】

また、上述した実施の形態では、評価値は、着目画像データと参照画像データとの差分に係る値であるので、着目画像データとの差分が大きい不良な参照画像データが入力されても、推論結果の精度の低下を抑制することができる。

【0098】

尚、本実施の形態では、第２の推論モデル１０２０に使用する演算リソースと第１の層１００１の演算リソースを合わせる必要はなく、推論結果の精度の低下を抑制可能な演算リソース量であればよい。

【0099】

また、本実施の形態では、判定部９０２で入力データの使用可否を判定する際に、３つの入力データのうち、評価値と閾値との差が最も大きい入力データのみを使用不可能と判定してもよい。

【0100】

以上、実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、種々の変形及び変更が可能である。また、前述した実施例の構成要素を全部又は複数を組み合わせることも可能である。

【0101】

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【0102】

尚、本実施形態の開示は、以下の構成および方法を含む。
（構成１）関連する複数のデータを入力として推論処理を行う制御装置であって、前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第１の推論モデルと、前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第２の推論モデルと、前記第１の推論モデル及び前記第２の推論モデルの動作を制御する制御手段と、前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定手段とを備え、前記制御手段は、前記複数のデータの全てが前記判定手段によって前記推論処理に使用可能と判定された場合、前記第２の推論モデルが特徴量の抽出を行わず、前記第１の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記第１の推論モデルが前記複数の層のうち前記判定手段によって前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定手段によって前記推論処理に使用可能と判定されたデータを入力として前記第２の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とする制御装置。
（構成２）前記複数のデータの全てが前記判定手段によって前記推論処理に使用可能と判定された場合、前記制御手段は、前記第２の推論モデルの出力の代わりに、予め定めた固定値を前記結合層に入力するように制御することを特徴とする構成１に記載の制御装置。
（構成３）前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記制御手段は、前記判定手段によって前記推論処理に使用不可能と判定されたデータを入力とする層の出力の代わりに、予め定めた固定値を前記結合層に入力するように制御することを特徴とする構成１又は２に記載の制御装置。
（構成４）前記判定手段は、前記複数のデータに対して夫々評価値を算出し、前記評価値と予め定めた閾値を比較した結果に基づいて前記推論処理に使用可能か否かを判定することを特徴とする構成１乃至３の何れか１つに記載の制御装置。
（構成５）前記複数のデータは、画像データ及び音データであることを特徴とする構成１乃至４の何れか１項に記載の制御装置。
（構成６）前記評価値は、前記画像データの輝度、前記画像データのボケ量、前記画像データの高感度ノイズ量の何れかに係る値であることを特徴とする構成５に記載の制御装置。
（構成７）前記評価値は、前記音データの特徴成分に対するノイズ量に係る値であることを特徴とする構成５又は６に記載の制御装置。
（構成８）前記複数のデータは、人物を異なる角度から撮影して得られた複数の画像データであることを特徴とする構成１乃至４の何れか１つに記載の制御装置。
（構成９）前記評価値は、前記画像データに写る人物の顔の向きに係る値であることを特徴とする構成８に記載の制御装置。
（構成１０）前記複数のデータは、着目画像データと、前記着目画像データのノイズを除去するノイズリダクションを行うための参照画像データとを含むことを特徴とする構成１乃至４の何れか１つに記載の制御装置。
（構成１１）前記評価値は、前記着目画像データと前記参照画像データとの差分に係る値であることを特徴とする構成１０に記載の制御装置。
（構成１２）前記複数のデータは、被写体を撮影して得られた画像データであり、前記判定手段は、前記画像データの撮影時の撮影条件に基づいて前記推論処理に使用可能か否かを判定することを特徴とする請求項１乃至４の何れか１つに記載の制御装置。
（構成１３）前記複数のデータは、２つのデータであり、前記第１の推論モデルは、前記２つのデータを夫々入力とする２つの層を備えることを特徴とする構成１乃至４の何れか１つに記載の制御装置。
（構成１４）前記複数のデータは、３つ以上のデータであり、前記第１の推論モデルは、前記複数のデータを夫々入力とする３つ以上の層を備えることを特徴とする構成１乃至４の何れか１つに記載の制御装置。
（構成１５）前記判定手段は、前記複数のデータに対して夫々評価値を算出し、前記評価値に基づいて前記複数のデータに対して夫々重み付け値を設定し、前記制御手段は、前記複数のデータの何れかが前記判定手段によって前記推論処理に使用不可能と判定された場合、前記重み付け値に基づいて前記第２の推論モデルの演算リソースを決定することを特徴とする構成１４に記載の制御装置。
（構成１６）関連する複数のデータを入力として推論処理を行う制御装置の制御方法であって、前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第１の推論モデルの動作を制御し、前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第２の推論モデルの動作を制御する制御工程と、前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定工程とを有し、前記制御工程は、前記複数のデータの全てが前記判定工程にて前記推論処理に使用可能と判定された場合、前記第２の推論モデルが特徴量の抽出を行わず、前記第１の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、前記複数のデータの何れかが前記判定工程にて前記推論処理に使用不可能と判定された場合、前記第１の推論モデルが前記複数の層のうち前記判定工程にて前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定工程にて前記推論処理に使用可能と判定されたデータを入力として前記第２の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とする制御装置の制御方法。
（構成１７）関連する複数のデータを入力として推論処理を行う制御装置の制御方法をコンピュータに実行させるプログラムであって、前記制御装置の制御方法は、前記複数のデータを夫々入力とする複数の層であって入力されたデータの特徴量の抽出を行う複数の層と、抽出された特徴量に基づいて推論結果となる出力データを出力する結合層とで構成された第１の推論モデルの動作を制御し、前記複数のデータの何れかを入力とし、入力されたデータの特徴量の抽出を行う第２の推論モデルの動作を制御する制御工程と、前記複数のデータに対して夫々前記推論処理に使用可能か否かを判定する判定工程とを有し、前記制御工程は、前記複数のデータの全てが前記判定工程にて前記推論処理に使用可能と判定された場合、前記第２の推論モデルが特徴量の抽出を行わず、前記第１の推論モデルが前記複数の層で抽出された複数の特徴量に基づいて前記結合層から前記出力データを出力するように制御し、前記複数のデータの何れかが前記判定工程にて前記推論処理に使用不可能と判定された場合、前記第１の推論モデルが前記複数の層のうち前記判定工程にて前記推論処理に使用可能と判定されたデータを入力とする層で抽出された特徴量と、前記判定工程にて前記推論処理に使用可能と判定されたデータを入力として前記第２の推論モデルによって抽出された特徴量とに基づいて前記結合層から前記出力データを出力するように制御することを特徴とするプログラム。
（構成１８）構成１乃至１５の何れか１つに記載の制御装置に用いるニューラルネットワークの学習方法であって、関連する複数の学習データであって前記判定手段によって前記推論処理に使用可能と判定される複数の学習データと、前記複数の学習データを入力として動作する前記第１の推論モデルと、を用いて第１の学習を行い、関連する複数の学習データのうち前記判定手段によって前記推論処理に使用可能と判定される学習データと、前記推論処理に使用可能と判定される学習データを入力として動作する第２の推論モデルと、前記複数の層のうち前記判定手段によって前記推論処理に使用可能と判定される学習データを入力とする層の演算を行い、当該層の出力と前記第２の推論モデルの出力とを前記結合層に入力して動作する前記第１の推論モデルと、を用いて第２の学習を行うことを特徴とするニューラルネットワークの学習方法。
（構成１９）前記第１の学習では、前記第２の推論モデルの出力の代わりに予め定めた固定値を前記結合層に入力して学習が行われることを特徴とする構成１８に記載のニューラルネットワークの学習方法。
（構成２０）前記第２の学習では、前記複数の層のうち前記判定手段によって前記推論処理に使用不可能と判定される学習データを入力とする層の出力の代わりに、予め定めた固定値を前記結合層に入力して学習が行われることを特徴とする構成１８に記載のニューラルネットワークの学習方法。

【符号の説明】

【0103】

１００制御装置
１０２判定部
１０３制御部
２００第１の推論モデル
２０１第１の層
２０２第２の層
２１０結合層
２２０第２の推論モデル
９００制御装置
９０２判定部
９０３制御部
１０００第１の推論モデル
１００１第１の層
１００２第２の層
１００３第３の層
１０１０結合層
１０２０第２の推論モデル

【図1】