(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6723488
(24)【登録日】2020年6月25日
(45)【発行日】2020年7月15日
(54)【発明の名称】学習装置及び推論装置
(51)【国際特許分類】
G06N 3/02 20060101AFI20200706BHJP
【FI】
G06N3/02
【請求項の数】16
【全頁数】16
(21)【出願番号】特願2020-42563(P2020-42563)
(22)【出願日】2020年3月12日
【審査請求日】2020年3月14日
【早期審査対象出願】
(73)【特許権者】
【識別番号】717001444
【氏名又は名称】奥野 修二
(74)【代理人】
【識別番号】100167818
【弁理士】
【氏名又は名称】蓑和田 登
(72)【発明者】
【氏名】奥野 修二
【審査官】
今城 朋彬
(56)【参考文献】
【文献】
CHANG, Jung-Woo et al.,Optimizing FPGA-based convolutional neural networks accelerator for image super-resolution,2018 23rd Asia and South Pacific Design Automation Conference,IEEE [online],2018年 2月22日,pp.343-348,URL,https://ieeexplore.ieee.org/abstract/document/8297347
【文献】
JAVED, Sajid et al.,Robust background subtraction via online robust PCA using image decomposition,Proceedngs of the 2014 Conference on Research in Adaptive and Convergent Systems,ACM [online],2014年10月,pp.105-110,URL,https://dl.acm.org/doi/10.1145/2663761.664195
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/02
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
機械学習モデルを用いて一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータに対して所定の推論処理を実行する推論装置であって、
対象データの入力を受け付ける入力部と、
前記入力部に入力された対象データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定部と、
前記入力部からデータが入力される機械学習モデルと、
前記機械学習モデルを用いて、前記対象データに対して所定の推論処理を実行する推論処理実行部と、を備え、
前記推論処理実行部は、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力することを特徴とする推論装置。
【請求項2】
前記推論装置は、さらに、
前記予測可能領域とされたデータ領域に所定のデータ処理を行う予測データ生成部と、
前記機械学習モデルにおいて処理された対象データと、前記予測データ生成部において生成されたデータを結合するデータ結合部と、
前記データ結合部において結合されたデータを出力する出力部と、を備えることを特徴とする請求項1記載の推論装置。
【請求項3】
前記予測可能領域判定部は、対象データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定する、ことを特徴とする請求項1又は2記載の推論装置。
【請求項4】
前記予測可能領域判定部は、対象データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部を有する、ことを特徴とする請求項1又は2記載の推論装置。
【請求項5】
前記推論装置は、さらに、
前記入力部に入力された対象データを領域分割するブロック分割部を備え、
前記予測可能領域判定部は、前記ブロック分割部で分割されたブロック単位で予測可能領域の判定を行う、ことを特徴とする請求項1乃至4の何れか一項に記載の推論装置。
【請求項6】
前記推論処理実行部は、予測可能領域の全て又は少なくとも一部の領域をスキップさせたデータを前記機械学習モデルに出力する、ことを特徴とする請求項1乃至5の何れか一項に記載の推論装置。
【請求項7】
前記予測可能領域判定部は、予測可能領域の判定に所定範囲の誤差を有する領域を含ませる、ことを特徴とする請求項1乃至6の何れか一項に記載の推論装置。
【請求項8】
前記対象データは画像データである、ことを特徴する請求項1乃至7の何れか一項に記載の推論装置。
【請求項9】
一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現した学習用データに基づいて機械学習モデルにおける設定値を学習する学習装置であって、
学習用データの入力を受け付ける入力部と、
前記入力部に入力された学習用データが前記設定値を学習する必要性が低い予測可能領域を有しているか否かを判定する予測可能領域判定部と、
前記入力部からデータが入力される機械学習モデルと、
学習対象の機械学習モデルを用いて、学習用データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行部と、
前記設定値を記憶する学習結果記憶部と、を備え、
前記学習処理実行部は、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力する、ことを特徴とする学習装置。
【請求項10】
前記予測可能領域判定部は、学習用データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定する、ことを特徴とする請求項9記載の学習装置。
【請求項11】
前記予測可能領域判定部は、学習用データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部を有する、ことを特徴とする請求項9記載の学習装置。
【請求項12】
前記学習用データは画像データである、ことを特徴する請求項9乃至11の何れか一項に記載の学習装置。
【請求項13】
コンピュータを請求項1〜12の何れか1項に記載の学習装置又は推論装置として動作させる、ことを特徴とするコンピュータプログラム。
【請求項14】
請求項1〜12の何れか1項に記載の学習装置もしくは推論装置又は請求項13に記載のコンピュータプログラムに向けて入力データを送信し、これら学習装置もしくは推論装置又はコンピュータプログラムからの出力データを受信して利用する、ことを特徴とするコンピュータシステム。
【請求項15】
機械学習モデルを用いて一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータに対して所定の推論処理を実行する推論装置又はコンピュータプログラムを機能させるための推論方法であって、
対象データの入力を受け付ける入力ステップと、
前記入力ステップにおいて入力された対象データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定ステップと、
データが入力される機械学習モデルを用いて、前記対象データに対して所定の推論処理を実行する推論処理実行ステップと、を含み、
前記推論処理実行ステップにおいては、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力する、ことを特徴とする推論方法。
【請求項16】
一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現した学習用データに基づいて機械学習モデルにおける設定値を学習する学習装置又はコンピュータプログラムを機能させるための学習方法であって、
学習用データの入力を受け付ける入力ステップと、
前記入力ステップにおいて入力された学習用データが前記設定値を学習する必要性が低い予測可能領域を有しているか否かを判定する予測可能領域判定ステップと、
学習対象の機械学習モデルを用いて、学習用データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行ステップと、
前記設定値を記憶する学習結果記憶ステップと、を含み、
前記学習処理実行ステップにおいては、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力する、ことを特徴とする学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習モデルを用いた学習装置及び推論装置に関し、特に、画像処理用の機械学習モデルを用いた学習装置及び推論装置に関する。
【背景技術】
【0002】
従来より、機械学習によるデータ処理方法で、コンピュータのプログラムに対して、教師データとなるデータセットを与えて、プログラムのパラメータを学習することで、任意のデータに対してデータ処理を行うことができる学習済みモデルを生成する方法が知られている。
【0003】
例えば、機械学習を用いた「入力画像(教師データ)→学習用プログラム→出力画像(教師データ)」という処理において、入力画像と出力画像の誤差が一番小さくなるように学習用プログラムのパラメータを計算して「学習済みモデル」を生成する。そして、この「学習済モデル」を用いることで、「入力画像(任意のデータ:例えば低解像度画像)→学習済みモデル→出力画像(推論データ:例えば高解像度画像)」という、入力画像から出力画像を推論することで出力画像を生成することができる。
【0004】
近年、機械学習のうちニューラルネットワークを用いた機械学習が多くの分野に適用されている。特に画像認識、音声認識の分野にて、ニューラルネットワークを多層構造で使用したディープラーニング(Deep Learning;深層学習) が高い認識精度を発揮している。多層化したディープラーニングでも、入力の特徴を抽出する畳み込み層及びプーリング層を複数回使用した畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いた画像処理が行なわれている。
【0005】
そして、ニューラルネットワークを用いた画像処理としては、信号を高解像度化させる超解像装置(例えば、特許文献1参照)や疾患領域の違いを把握することを容易にして精度の高い診断支援を行う診断支援装置(例えば、特許文献2参照)などがある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2020-27557号公報
【特許文献1】特開2018-38789号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
ニューラルネットワークを用いるデータ処理においては、機械学習モデルに対象となるデータが入力される。例えば画像処理において、機械学習モデルに使用される画像データは、座標ごとに区画されたピクセル(画素)の集まりとして表現され、各ピクセルにはピクセル値(例えば色情報RGBの3つの値)が付与される。機械学習モデルでは、対象となる画像データの有する全てのピクセル値が入力ニューロンに入力されて機械学習が実行されている。
【0008】
しかしながら、画像データには例えば単色領域やエッジ成分のほとんどない(変化の少ない)領域など機械学習用の推論処理の前後で変化の生じなかったり、単純な処理で生成が可能な、すなわち推論結果を容易に予測できる領域(以下、予測可能領域と記載)が含まれているものがある。通常、機械学習モデルにおいては、より高速で高精度な処理を実現できるためにはパラメータ数や演算量を抑えることが好ましい。従って、画像データの特性を無視して、上述のような予測可能領域を含む画像データを一律に全て機械学習モデルに入力することで、演算量が増加したり、学習の処理効率が落ちたりするなどの問題が生じる。
【0009】
そして、上記特許文献に示される画像処理方法においても、入力される画像データの予測可能領域を配慮した演算処理は開示されていない。
【0010】
本発明は、上記課題に鑑みてなされたものであり、畳み込みニューラルネットワークなどの機械学習によるデータ処理において、表現力・精度を保ちながら演算量を抑えて、機械学習の処理の軽量化を図った学習装置及び推論装置を提供することを目的とする。
【課題を解決するための手段】
【0011】
上記目的を達成するために本発明は、機械学習モデルを用いて一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータに対して所定の推論処理を実行する推論装置であって、対象データの入力を受け付ける入力部と、前記入力部に入力された対象データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定部と、前記入力部からデータが入力される機械学習モデルと、前記機械学習モデルを用いて、前記対象データに対して所定の推論処理を実行する推論処理実行部と、を備え、前記推論処理実行部は、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力することを特徴とするものである。
【0012】
この推論装置において、前記推論装置は、さらに、前記予測可能領域とされたデータ領域に所定のデータ処理を行う予測データ生成部と、前記機械学習モデルにおいて処理された対象データと、前記予測データ生成部において生成されたデータを結合するデータ結合部と、前記データ結合部において結合されたデータを出力する出力部と、を備えることが好ましい。
【0013】
この推論装置において、前記予測可能領域判定部は、対象データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定することが好ましい。
【0014】
この推論装置において、前記予測可能領域判定部は、対象データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部を有することが好ましい。
【0015】
この推論装置において、前記推論装置は、さらに、前記入力部に入力された対象データを領域分割するブロック分割部を備え、前記予測可能領域判定部は、前記ブロック分割部で分割されたブロック単位で予測可能領域の判定を行うことが好ましい。
【0016】
この推論装置において、前記推論処理実行部は、予測可能領域の全て又は少なくとも一部の領域をスキップさせたデータを前記機械学習モデルに出力することが好ましい。
【0017】
この推論装置において、前記対象データは画像データであることが好ましい。
【0018】
また、上記目的を達成するために本発明は、一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現した学習用データに基づいて機械学習モデルにおける設定値を学習する学習装置であって、学習用データの入力を受け付ける入力部と、前記入力部に入力された学習用データが前記設定値を学習する必要性が低い予測可能領域を有しているか否かを判定する予測可能領域判定部と、前記入力部からデータが入力される機械学習モデルと、学習対象の機械学習モデルを用いて、学習用データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行部と、前記設定値を記憶する学習結果記憶部と、を備え、前記学習処理実行部は、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力することを特徴とするものである。
【0019】
この学習装置において、前記予測可能領域判定部は、学習用データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定することが好ましい。
【0020】
この学習装置において、前記予測可能領域判定部は、学習用データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部を有することが好ましい。
【0021】
この学習装置において、前記学習処理実行部は、さらに、予測可能領域を含む学習用データを前記機械学習モデルに出力することが好ましい。
【0022】
この学習装置において、前記学習用データは画像データであることが好ましい。
【0023】
また、本発明は、コンピュータを上記記載の学習装置又は推論装置として動作させることを特徴とするコンピュータプログラムである。
【0024】
また、本発明は、上記に記載の学習装置もしくは推論装置又は上記記載のコンピュータプログラムに向けて前記入力データを送信し、前記出力データを受信して利用することを特徴とするコンピュータシステムである。
【0025】
また、上記目的を達成するために本発明は、機械学習モデルを用いて一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータに対して所定の推論処理を実行する
推論装置又はコンピュータプログラムを機能させるための推論方法であって、対象データの入力を受け付ける入力ステップと、前記入力ステップにおいて入力された対象データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定ステップと、データが入力される機械学習モデルを用いて、前記対象データに対して所定の推論処理を実行する推論処理実行ステップと、を含み、前記推論処理実行ステップにおいては、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力することを特徴とするものである。
【0026】
また、上記目的を達成するために本発明は、一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現した学習用データに基づいて機械学習モデルにおける設定値を学習する
学習装置又はコンピュータプログラムを機能させるための学習方法であって、学習用データの入力を受け付ける入力ステップと、前記入力ステップにおいて入力された学習用データが前記設定値を学習する必要性が低い予測可能領域を有しているか否かを判定する予測可能領域判定ステップと、学習対象の機械学習モデルを用いて、学習用データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行ステップと、前記設定値を記憶する学習結果記憶ステップと、を含み、前記学習処理実行ステップにおいては、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力することを特徴とするものである。
【発明の効果】
【0027】
本発明に係る推論装置は、機械学習モデルを用いて一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータに対して所定の推論処理を実行する推論装置であって、対象データの入力を受け付ける入力部と、入力部に入力された対象データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定部と、入力部からデータが入力される機械学習モデルと、機械学習モデルを用いて、前記対象データに対して所定の推論処理を実行する推論処理実行部と、を備え、推論処理実行部は、予測可能領域ではない領域を推論するのに必要なデータを前記機械学習モデルに出力する。この構成により、本願発明に係る推論装置では、機械学習によるデータ処理において、表現力・精度を保ちながら演算量を抑えて、機械学習の処理の軽量化を図ることができる。
【図面の簡単な説明】
【0028】
【
図1】本発明の実施の形態1に係る画像処理装置の構成を示すブロック図である。
【
図3】同上画像処理装置の推論動作時の動作手順を示すフローチャートである。
【
図4】同上画像処理装置の学習動作時の動作手順を示すフローチャートである。
【
図5】同上画像処理装置における推論動作時の画像の遷移を示すイメージ図である。
【
図6】本発明の実施の形態2に係る画像処理装置の機能ブロック図である。
【
図7】同上画像処理装置の推論動作時の動作手順を示すフローチャートである。
【発明を実施するための形態】
【0029】
(実施の形態1)
本発明の実施の形態1に係る画像処理装置について
図1乃至
図5を参照して説明する。なお、本発明の対象データは、一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータであり、画像データに限定されるものではないが、以下の実施の形態では典型例としての画像データを用いて説明する。本実施の形態1に係る画像処理装置は、画像データなどの所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習装置、及び機械学習モデルを用いて対象画像データに対して所定の推論処理を実行する推論装置の少なくとも一方としての機能を発揮する。
【0030】
最初に、画像処理装置1に備わる各処理部に関して
図1を参照しながら説明する。画像処理装置1は、
図1に示すように、制御部10、画像処理部11、記憶部12、通信部13、表示部14、操作部15及び読取部16を備える。なお、画像処理装置1及び画像処理装置1における動作について以下では、1台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。
【0031】
制御部10は、CPUなどのプロセッサやメモリを用いて、装置の構成部を制御して各種機能を実現する。画像処理部11は、GPU又は専用回路等のプロセッサ及びメモリを用い、制御部10からの制御指示に応じて画像処理を実行する。なお、制御部10及び画像処理部11は、CPU,GPU等のプロセッサ、メモリ、さらには記憶部12及び通信部13を集積した1つのハードウェア(SoC:System on a Chip)として構成されていてもよい。
【0032】
記憶部12は、ハードディスクやフラッシュメモリを用いる。記憶部12には、画像処理プログラム1P、機械学習モデル(例えばCNN)としての機能を発揮させる機械学習ライブラリ1Lが記憶されている。また、記憶部12には、機械学習モデルを定義する定義データ、学習済み機械学習モデルにおける設定値等を含むパラメータなどが記憶される。
【0033】
通信部13は、インターネット等の通信網への通信接続を実現する通信モジュールである。通信部13は、ネットワークカード、無線通信デバイス又はキャリア通信用モジュールを用いる。
【0034】
表示部14は、液晶パネル又は有機EL(Electro Luminescence)ディプレイ等を用いる。表示部14は、制御部10の指示による画像処理部11での処理によって画像を表示することが可能である。
【0035】
操作部15は、キーボード又はマウス等のユーザインタフェースを含む。筐体に設けられた物理的ボタンを用いてもよい。及び表示部14に表示されるソフトウェアボタン等を用いてもよい。操作部15は、ユーザによる操作情報を制御部10へ通知する。
【0036】
読取部16は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体2に記憶してある画像処理プログラム2P、及び機械学習ライブラリ3Lを読み取ることが可能である。記憶部12に記憶してある画像処理プログラム1P及び機械学習ライブラリ1Lは、記録媒体2から読取部16が読み取った画像処理プログラム2P及び機械学習ライブラリ3Lを制御部10が記憶部12に複製したものであってもよい。
【0037】
次に、画像処理装置1の画像処理の機能に関して
図2を参照しながら説明する。画像処理装置1の制御部10は学習処理実行部101及び推論処理実行部102を備える。学習処理実行部101は、記憶部12に記憶してある機械学習ライブラリ1L、定義データ、パラメータ情報に基づき機械学習モデル(機械学習エンジン)として機能する。すなわち、学習処理実行部101は、学習対象の機械学習モデルを用いて、学習用画像データに基づいて、学習対象の機械学習モデルにおける設定値(パラメータ等)を学習する処理を実行する。
【0038】
推論処理実行部102は、記憶部12に記憶してある画像処理プログラム1Pに基づき、画像処理を行う。すなわち、推論処理実行部102は、機械学習モデルを用いて、入力される対象画像データ(対象データ)に対して所定の推論処理を実行する。また、推論処理実行部102は、ユーザの操作部15を用いた操作に基づき、入力データである画像データを入力部111に入力する画像処理実行部としての機能を発揮する。
【0039】
本実施の形態1において、画像処理部11の入力部111は学習用画像データ又は推論対象となる対象画像データの入力を受け付ける。入力部111に備わる予測可能領域判定部111aは、入力部111に入力された対象画像データ(すなわち学習用画像データ又は推論対象となる対象画像データ)が推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する。推論処理実行部102(及び学習処理実行部101)は、予測可能領域判定部111aにおいて対象画像データが予測可能領域を有していると判定される場合には、予測可能領域ではない領域を推論(学習)するのに必要なデータを機械学習モデル112に出力する。具体的には、推論処理実行部102は、予測可能領域の全て又は少なくとも一部の領域をスキップさせた画像データを機械学習モデル112に、予測可能領域の画像データ(機械学習モデル112に入力された画像データ以外の画像データ)を出力部113に振り分けて出力する。
【0040】
本実施の形態において、予測可能領域判定部111aは、対象データ(画像データ)における連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定し、単色領域判定部111b及びブロック分割部111cを有する。単色領域判定部111bは、対象画像データにおける連続した単色の領域の全部又はその内側の少なくとも一部の領域を予測可能領域と判定する。例えば、単色領域判定部111bは、対象画像データの有する画素の色情報(RGBの値など)に基づいて、同じサンプル値で連続した領域を予測可能領域とする。8ビット表現の場合にRGBで(0,0,0)の完全黒や(255,255,255)の完全白が連続する領域など、特定の色のみを対象として予測可能領域としても良い。また、連続した領域のうち、例えばその数ピクセル内側のみを予測可能領域としてもよい。領域の範囲に関しても所定数以上同じ値が連続(隣接)する領域を縦横任意のサイズのブロック単位で判定しても良いし、対象画像データがブロック分割される場合には1ブロック単位で判定しても構わない。
【0041】
特に、機械学習モデルがCNNとなる場合には、畳み込みの処理過程において処理対象ピクセルの周囲のピクセルも参照する場合もある。このため、単色領域判定部111bは、対象画像データにおける連続した単色領域の内側の少なくとも一部の領域を予測可能領域と判定することで、CNNと同様の画像データの参照範囲を模擬し、予測可能領域の予測値と機械学習モデルの出力との間に誤差が発生して判定領域の境界でノイズが出ることを防止できる。ここで内側とは、例えば、境界の全てのピクセルから任意の縦横ピクセル分以上離れた領域である。また同様に、予測可能領域以外の領域についても、機械学習モデルにおいて予測可能領域を参照してもよい。また、これに限らず、予測可能領域の境界部は、畳み込みの参照範囲などを考慮して適宜調整しても良い。
【0042】
ブロック分割部111cは、入力部111に入力された画像データを領域分割する。ブロック分割部111cは、画像データが例えば1920×1080ピクセルの色情報で表現される場合、 128×128ピクセル(1ブロック)などに領域分割してもよい(割り切れないピクセルは1ブロックのサイズを超えない最大限のブロックで分割してもよい)。ブロック分割はブロックが重なってもよいし、画像の周辺を画像の境界のピクセルと同じ画素で任意のピクセル分拡張を行ってからブロック分割してもよい。予測可能領域判定部111aは、ブロック分割部111cで分割されたブロック単位で予測可能領域の判定を行ってもよい。ブロック単位での判定は、前記のとおり畳み込みで参照する範囲を考慮して行っても良い。また、予測可能領域を自由な形で設定し、機械学習モデルに出力する画像データのみをブロック単位で出力することで、ブロック中の一部のみに予測可能領域を含むブロックが混在してもよい。
【0043】
機械学習モデル112は、学習済みモデル使用時にはそれぞれ既に学習済のパラメータに基づいて画像データの最適化処理(例えば高解像度化やノイズ除去)を行う。推論時の機械学習モデル112がCNNとなる場合には、定義データにより定義される複数段の畳み込み層及びプーリング層と、全結合層とを含んでもよく、画像データの特徴量を取り出し、取り出された特徴量に基づいて画像加工処理を行う。
【0044】
機械学習モデル112で処理された画像データ、及び予測可能領域判定部111aにおいて予測可能領域と判定された画像データは、出力部113に入力される。出力部113は、設定画像生成部(予測データ生成部)113a及び画像結合部(データ結合部)113bを有する。設定画像生成部113aは、予測可能領域とされた画像データ(データ領域)に所定の画像処理(データ処理)を行う。例えば推論処理が高解像度化であれば、予測可能領域を設定に応じて拡大した画像を生成する。前記の畳み込みの参照範囲による境界部の調整はここで行ってもよい。画像結合部113bは、機械学習モデル112において処理された対象データと、予測データ生成部113aにおいて生成されたデータを結合する。ここでは、画像データのピクセル毎に付与された座標情報を用いて機械学習モデル112において処理された画像データと、設定画像生成部113aにおいて生成された画像を再結合させる。なお、機械学習モデル112において処理された画像データと、設定画像生成部113aにおいて生成された画像の両方が存在するピクセルは、どちらのピクセルを使用してもよいし、合成してもよい。出力部113は、画像結合部113bにおいて結合された画像データを記憶部12に出力する。なお、出力データを画像処理部11において画像として描画し、表示部14へ出力してもよい。
【0045】
出力部113から出力される画像データは、例えば拡大、ノイズ除去、カラー化などの特定の画像処理を施すことができ、また、出力は画像データに限られずクラス分けの場合は特定されたクラスを出力する。
【0046】
次に、本実施の形態1に係る画像処理装置1が推論装置として動作する際の動作手順に関して
図3を参照しながら説明する。最初に、入力部111において画像データの入力がある場合(S301でYes)、予測可能領域判定部111aは画像データが予測可能領域(例えば完全単色の領域)を有するか否かを判定する(S302)。そして、予測可能領域を含む場合(S302でYes)、入力部111は、予測可能領域の少なくとも一部の領域
をスキップさせた画像データを機械学習モデル112、予測可能領域を出力部113に出力する(S303)。次に、機械学習モデル112は、入力された画像データに対してCNNなどによる推論処理を行い、推論画像を生成する(S304)。そして、設定画像生成部113aは予測可能領域に所定の画像処理(例えば拡大処理)を行うことで設定画像を生成し、画像結合部113bにおいてこの設定画像と推論画像が結合され(S305)、結果を記憶部12に格納する(S306)。
【0047】
一方、予測可能領域判定部111aにおいて入力部111に入力された対象画像データが予測可能領域を含まないと判定する場合(S302でNo)、入力部111は、対象画像データの全てを機械学習モデル112に出力する(S307)。次に、機械学習モデル112は、推論処理を行い画像を生成する(S308)。
【0048】
次に、本実施の形態1に係る画像処理装置1が学習装置として動作する際の動作手順に関して
図4を参照しながら説明する。最初に、入力部111において学習用データ(画像データ)の入力がある場合(S401でYes)、予測可能領域判定部111aは画像データが設定値を学習する必要性が低い予測可能領域、を有しているか否かを判定する(S402)。ここでは学習用データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定する。予測可能領域判定部111aは、学習用データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部として機能しても良い。そして、予測可能領域を含む場合(S402でYes)、入力部111は、予測可能領域の少なくとも一部の領域
をスキップさせた画像データを機械学習モデル112に出力する(S403)。次に、機械学習モデル112は、画像データのパラメータ更新処理(設定値の更新処理)を行う(S404)。この設定値の更新は、例えばパラメータをミニバッチ勾配降下法で更新するなど入力データと解答データとの差分を最小化する処理である。次に、更新された設定値を記憶部12に格納する(S405)。
【0049】
一方、予測可能領域判定部111aにおいて入力部111に入力された学習用データが予測可能領域を含まないと判定する場合(S402でNo)、入力部111は、全画像データを機械学習モデル112に出力する(S406)。次に、機械学習モデル112は、学習時にはそれぞれ画像データのパラメータ更新(設定値の更新処理)を行い、結果を記憶部12に格納する(S407)。
【0050】
このように、本実施の形態1に係る画像処理装置1は、予測可能領域を分けて、予測可能領域以外の領域専用に学習した機械学習モデル112を用意する。この構成により、学習用データから予測可能領域を分離して、予測可能領域を除く画像データに機械学習モデルを設定することができる。
【0051】
本実施の形態1に係る画像処理装置1における推論画像生成(高解像度画像生成)の場合の遷移イメージ図を
図5に示す。
図5(a)に示すように、画像データには完全単色または高周波成分を含まない一定範囲の予測可能領域(斜線領域)が含まれており、
図5(b)に示すように予測可能領域を除く画像データを機械学習モデル112に通して推論処理をする。そして、
図5(c)に示す機械学習モデル112において生成された推論画像と、設定画像生成部113aで生成された予測可能領域の画像データの設定画像を結合することで
図5(d)に示す最終的な推論画像が生成される。
【0052】
以上の説明のように、本実施の形態1に係る画像処理装置(推論装置)1は、学習済みモデルを用いた推論装置として機能する場合には、記憶部12に記憶してある定義データ及びパラメータを用いて、予測可能領域の少なくとも一部を除いた画像データ専用の機械学習モデル112を用いて画像生成を行う。そして、推論処理実行部102は、画像結合部113bにおいて結合された出力画像を出力する。
【0053】
この構成により、画像処理装置1では、畳み込みニューラルネットワークなどの機械学習において、予測可能領域に対した入力を省く(スキップする)ことで演算量を減らして処理の軽量化を図り、画像データを用いた機械学習の効率・精度を向上できる。すなわち、推論処理での表現力(精度)を保ち・向上させながらパラメータ数や演算量を抑えることで、より高精度なモデルを実現できる。
【0054】
一方、予測可能領域の少なくとも一部を除いた画像データを用いて機械学習モデル112を用いて学習を行なうことができ、機械学習による画像処理において、より効率的な処理を実現できる。より具体的には、学習処理実行部101は、予測可能領域を除いた学習データを機械学習モデル112に入力して得られる出力データと、既知の学習用画像データとの誤差を最小にする処理を実行し、パラメータ(重み)を更新できる。この学習処理により得られるパラメータは記憶部12に記憶される。この際、記憶部12は学習結果記憶部として機能している。
【0055】
なお、上述のように、本発明の適用対象データは、一次元又は二次元以上の空間に対する値を前記空間のサンプル点における離散値として表現したデータであり、画像データに限定されるものではない。例えば、音響データは時間の一次元の空間に対する音圧値である。また、動画データは縦方向、横方向及び時間の3次元に対するピクセル値である。これらのデータは、いずれも、本実施の形態の予測可能領域判定部111aにおける予測領域判定の対象データとなり得て、入力部111への入力データとなり、本願に係る推論方法及び学習方法を適用することが可能である。この場合も、予測可能領域判定部は、対象データにおける連続した同じサンプル値の領域の少なくとも一部の領域を予測可能領域と判定する。その他、機械学習モデルにおける中間層の出力データに対して用いてもよい。
【0056】
また、本実施の形態1に係る画像処理装置1のハードウェア構成の内、通信部13、表示部14、操作部15、及び読取部16は必須ではない。通信部13については、例えば記憶部12に記憶される画像処理プログラム1P、及び機械学習ライブラリ1Lを外部サーバ装置から取得する場合に一旦使用された後は使用しない場合がある。読取部16も同様に、画像処理プログラム1P、機械学習ライブラリ1Lを記憶媒体から読み出して取得した後は使用されない可能性がある。そして通信部13及び読取部16は、USB等のシリアル通信を用いた同一のデバイスであってもよい。
【0057】
画像処理装置1がWebサーバとして、上述の予測可能領域判定部111a、機械学習モデル112としての機能を、表示部及び通信部を備えるWebクライアント装置へ提供する構成としてもよい。この場合、通信部13は、Webクライアント装置からのリクエストを受信し、処理結果を送信するために使用される。
【0058】
そして、推論時や学習時に用いる誤差は、二乗誤差、絶対値誤差、又は交差エントロピー誤差等、入出力されるデータ、学習目的に応じて適切な関数を用いるとよい。例えば、出力が分類である場合、交差エントロピー誤差を用いる。誤差関数を用いることに拘わらずその他の基準を用いるなど柔軟な運用が適用できる。この誤差関数自体に外部の機械学習モデルを用いて評価を行なってもよい。例えば予測可能領域判定部111aは、予測可能領域の判定に所定範囲の誤差を有する領域を含ませることができる。この誤差は、例えば二乗平均誤差を用いてこの値が一定値以下の範囲を誤差の範囲としたり、ハイパスフィルタ通過後の係数が一定値以下の範囲を誤差の範囲とする。
【0059】
(変形例)
本発明の実施の形態1に係る画像処理装置1の変形例に関して説明する。本変形例では、学習処理の際に、学習処理実行部101は、予測可能領域を含む画像データを機械学習モデル112に出力する。更には、予測可能領域を含む画像データを複数追加し、または予測可能領域における誤差に重みを付ける。これにより、機械学習モデル112は、学習における演算量が増え、予測可能領域以外の精度が下がる可能性はあるが、逆に予測可能領域においては、より精度よく学習することが出来る。そうすることで、推論処理においては、予測可能領域の機械学習モデル112への入力をスキップした場合、例えばスキップしたブロックと、スキップしていないブロックで誤差が発生してブロックノイズが出る可能性を抑えることが出来る。
【0060】
(実施の形態2)
本発明の実施の形態2に係る画像処理装置に関して
図6及び
図7を参照しながら説明する。なお、上記実施の形態1に係る画像処理装置1と同様の構成については同様の符号を付し、その詳細な説明は省略する。
【0061】
通常、画像データは種類に応じて、例えばイラスト画像などはエッジ成分を多く含むために高周波成分を多く含み、風景画像などは画像に変化量が少なく高周波成分が少ない。本実施の形態2に係る画像処理装置1の予測可能領域判定部111aは、対象画像データにおける高周波成分に基づいて、高周波成分のない領域を予測可能領域と判定する高周波成分判定部111dを有する。ここで、高周波成分判定部111dはハイパスフィルタを用いて高周波成分を判定する。
【0062】
次に、本実施の形態2に係る画像処理装置1が推論装置として動作する際の動作手順に関して
図7を参照しながら説明する。最初に、入力部111において画像データの入力がある場合(S701でYes)、予測可能領域判定部111aは画像データが予測可能領域(例えば高周波領域)を有するか否かを判定する(S702)。そして、予測可能領域を含む場合(S702でYes)、入力部111は、予測可能領域の少なくとも一部の領域をスキップさせた画像データを機械学習モデル112、予測可能領域を出力部113に出力する(S703)。次に、機械学習モデル112は、入力された画像データに対してCNNなどによる推論処理を行い、推論画像を生成する(S704)。そして、設定画像生成部113aは予測可能領域に所定の画像処理(例えば拡大処理)を行うことで設定画像を生成し、画像結合部113bにおいて設定画像と推論画像が結合され(S705)、結果を記憶部12に格納する(S706)。
【0063】
一方、予測可能領域判定部111aにおいて入力部111に入力された対象画像データが予測可能領域を含まないと判定する場合(S702でNo)、入力部111は、対象画像データの全てを機械学習モデル112に出力する(S707)。次に、機械学習モデル112は、推論処理を行い画像を生成する(S708)。
【0064】
以上の説明のように、本実施の形態2に係る画像処理装置1では、学習済みモデルを用いた推論装置として機能する場合には、記憶部12に記憶してある定義データ及びパラメータを用いて、高周波成分の有無に基づいて予測可能領域の少なくとも一部を除いた画像データ専用の機械学習モデル112を用いて画像生成を行う。そして、推論処理実行部102は、画像結合部113bにおいて結合された出力画像を出力する。この構成により、画像処理装置1では、上記実施の形態1と同様の作用効果を奏することができる。なお、予測可能領域の抽出にはローパスフィルタやバンドパスフィルタの構成部を用いて抽出されたデータを用いても良い。また、予測可能領域判定部111aは、本実施の形態1における単色領域判定部111bと形態2における高周波判定部111dの両方を含んでいても良いし、その他の判定を行う装置を含んでいても良い。そして、それらの判定に機械学習モデルを用いても良く、形態1,2と同じくピクセル単位で判定しても良いし、ブロック単位で判定しても良い。
【0065】
本発明は、上記実施の形態の構成に限られず、発明の趣旨を変更しない範囲で種々の変形が可能である。また、本発明の目的を達成するために、本発明は、画像処理装置(学習装置及び推論装置)に含まれる特徴的な構成手段をステップとする画像処理方法(学習方法及び推論方法)としたり、それらの特徴的なステップを含むプログラムとして実現することもできる。そして、そのプログラムは、ROM等に格納しておくだけでなく、USBメモリ等の記録媒体や通信ネットワークを介して流通させることもできる。
【0066】
また、本発明は、画像処理装置又はコンピュータプログラムに向けて入力データを送信し、画像処理装置又はコンピュータプログラムからの出力データを受信して利用するコンピュータシステムとしても実現できる。このシステムは、上述の処理により学習済みの機械学習モデルから得られるデータを利用した処理システムで、種々のサービスを提供できる。本システムに用いる装置は、表示部及び通信部を備えた画像処理装置又はコンピュータと情報を送受信できる情報処理装置などであり、例えば所謂PC、スマートフォン、携帯端末、ゲーム機器などである。
【符号の説明】
【0067】
1 画像処理装置(学習装置及び推論装置)
12 記憶部(学習結果記憶部)
101 学習処理実行部
102 推論処理実行部
111 入力部
111a 予測可能領域判定部
111b 単色領域判定部
111c ブロック分割部
111d 高周波成分判定部
112 機械学習モデル
113 出力部
113a 設定画像生成部(予測データ生成部)
113b 画像結合部(データ結合部)
【要約】
【課題】機械学習によるデータ処理において、表現力・精度を保ちながら演算量を抑えて、機械学習の処理の軽量化を図った学習装置及び推論装置を提供する。
【解決手段】画像処理装置は、機械学習モデルを用いて所定の推論処理を実行する装置であって、画像データの処理を行う例では、対象画像データの入力を受け付ける入力部111と、入力部111に入力された対象画像データが推論処理の推論結果を容易に予測できる予測可能領域を有しているか否かを判定する予測可能領域判定部111aと、入力部111から画像データが入力される機械学習モデル112と、機械学習モデル112を用いて、対象画像データに対して所定の推論処理を実行する推論処理実行部102と、を備え、推論処理実行部102は、予測可能領域ではない領域を推論するのに必要な画像データを機械学習モデル112に出力する。この構成により、画像処理装置は、機械学習による画像処理において、表現力・精度を保ちながら演算量を抑えて、機械学習の処理の軽量化を実現できる。
【選択図】
図2