(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024024680
(43)【公開日】2024-02-22
(54)【発明の名称】情報処理装置
(51)【国際特許分類】
G06N 3/0464 20230101AFI20240215BHJP
【FI】
G06N3/0464
【審査請求】有
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2023219271
(22)【出願日】2023-12-26
(62)【分割の表示】P 2021201134の分割
【原出願日】2021-12-10
(71)【出願人】
【識別番号】398034168
【氏名又は名称】株式会社アクセル
(74)【代理人】
【識別番号】100104776
【弁理士】
【氏名又は名称】佐野 弘
(74)【代理人】
【識別番号】100119194
【弁理士】
【氏名又は名称】石井 明夫
(72)【発明者】
【氏名】奥野 修二
(57)【要約】
【課題】CNNを用いた人工知能において、データ量や処理負荷が過大になるのを抑止しつつ高い精度で解析や認識を行える情報処理装置を提供する。
【解決手段】畳み込みニューラルネットワークを備え、複数のチャンネルを有するデータに畳み込み処理を行うCNN114を備える情報処理装置1Aは、入力されたデータに対して非線形の変換を行ってCNN114に入力する第一の変換器112、及び/又は、CNN114から出力されたデータに対して非線形の変換を行って情報処理装置1Aから出力させる逆変換器115を備え、第一の変換器112、逆変換器115は、データに対してチャンネルごとに別個に非線形の変換を行うR変換器112r、G変換器112g、B変換器112b、R逆変換部115br、G逆変換部115bg、B逆変換部115bbを備え、第一の変換器112、及び/又は、逆変換器115は、学習によって変換パラメータを設定する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
畳み込み層を含む畳み込みニューラルネットワークを備え、複数のチャンネルを有するデータに対して畳み込み処理を行うデータ処理手段を備える情報処理装置であって、
該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手段に入力する変換手段、及び/又は、前記データ処理手段から出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手段を備え、
前記変換手段、及び/又は、前記逆変換手段は、前記データに対して前記チャンネルごとに別個に前記非線形の変換を行う第一の非線形処理手段を備え、
前記変換手段、及び/又は、前記逆変換手段は、学習によって変換パラメータを設定することを特徴とする情報処理装置。
【請求項2】
前記第一の非線形処理手段はノード数が1である入力層及び出力層と、複数ノードによって形成される1又は複数の中間処理層の、少なくとも3層の処理層を備えたことを特徴とする請求項1記載の情報処理装置。
【請求項3】
畳み込み層を含む畳み込みニューラルネットワークを備え、複数のチャンネルを有するデータに対して畳み込み処理を行うデータ処理手段を備える情報処理装置であって、
該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手段に入力する変換手段、及び/又は、前記データ処理手段から出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手段を備え、
前記変換手段、及び/又は、前記逆変換手段は、前記データに対して前記チャンネルごとに別個に前記非線形の変換を行う第一の非線形処理手段を備え、
該第一の非線形処理手段は、学習で得られた非線形変換の態様が記憶された変換テーブルを用いて演算を行うことを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、畳み込みニューラルネットワーク(CNN)を用いてデータを処理する情報処理装置に関する。
【背景技術】
【0002】
近年、人工知能(AI)を用いてデータの解析や認識を行うために、畳み込みニューラルネットワーク(CNN。以下「CNN」と称する。)が多く用いられる。たとえば、画像データや音声データ等の各種の解析や各種の認識においてCNNが用いられることが多い。従来、このようなCNNを用いた人工知能システムとしては、CNNによる解析や認識の精度を高めるため、離散値としての複数のパラメータを持つデータ、たとえばRGB色空間のデジタルのカラー画像データについて非線形に空間変換する変換器をCNNの前段に設ける発明が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、CNNを行う目的は、データの認識、データの解析、データの高精度化など、多様である。そして、データの種類や目的によっては、複数のパラメータのうちの特定のパラメータのみを非線形に変換することでCNNの処理による効果が高まる場合もある。しかし、上記特許文献1は、変換対象であるデータの複数のパラメータの全てを対象として非線形に変換するため、処理負荷が過大になり、処理精度が低下する場合があるという問題がある。
【0005】
本発明はこのような課題に鑑みてなされたものであり、CNNを用いた人工知能において、データ量や処理負荷が過大になるのを抑止しつつ高い精度で解析や認識を行うことのできる情報処理装置を提供することを課題としている。
【課題を解決するための手段】
【0006】
かかる課題を解決するため、請求項1に係る発明は、畳み込み層を含む畳み込みニューラルネットワークを備え、複数のチャンネルを有するデータに対して畳み込み処理を行うデータ処理手段を備える情報処理装置であって、該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手段に入力する変換手段、及び/又は、前記データ処理手段から出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手段を備え、前記変換手段、及び/又は、前記逆変換手段は、前記データに対して前記チャンネルごとに別個に前記非線形の変換を行う第一の非線形処理手段を備え、前記変換手段、及び/又は、前記逆変換手段は、学習によって変換パラメータを設定することを特徴とする。
【0007】
請求項2に記載の発明は、請求項1に記載の構成に加え、前記第一の非線形処理手段はノード数が1である入力層及び出力層と、複数ノードによって形成される1又は複数の中間処理層の、少なくとも3層の処理層を備えたことを特徴とする。
【0008】
請求項3に記載の発明は、畳み込み層を含む畳み込みニューラルネットワークを備え、複数のチャンネルを有するデータに対して畳み込み処理を行うデータ処理手段を備える情報処理装置であって、該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手段に入力する変換手段、及び/又は、前記データ処理手段から出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手段を備え、前記変換手段、及び/又は、前記逆変換手段は、前記データに対して前記チャンネルごとに別個に前記非線形の変換を行う第一の非線形処理手段を備え、該第一の非線形処理手段は、学習で得られた非線形変換の態様が記憶された変換テーブルを用いて演算を行うことを特徴とする。
【発明の効果】
【0009】
本発明によれば、CNNを用いた人工知能において、データ量や処理負荷が過大になるのを抑止しつつ高い精度で解析や認識を行うことが可能となる。
【図面の簡単な説明】
【0010】
【
図1】この実施の形態1の情報処理装置の全体構成を示す機能ブロック図である。
【
図2】同上情報処理装置の画像処理部の詳細構成を模式的に示す機能ブロック図である。
【
図3】同上情報処理装置の画像処理部の詳細構成を模式的に示す機能ブロック図である。
【
図4】同上情報処理装置の第一の変換器の詳細構成を示す機能ブロック図である。
【
図5】同上情報処理装置の第一の変換器の変形例の概略を示す機能ブロック図である。
【
図6】同上情報処理装置の第二の変換器の詳細構成を示す機能ブロック図である。
【
図7】同上情報処理装置のCNNの構成と処理手順(データ処理手順)を模式的に示すブロック図並びにタイムチャートである。
【
図8】この実施の形態2の情報処理装置の第一の変換器の構成を示す機能ブロック図である。
【
図9】この実施の形態3の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。
【
図10】この実施の形態4の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。
【
図11】この実施の形態5の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。
【
図12】この実施の形態6の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。
【
図13】この実施の形態7の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。
【
図14】この発明の実施例としての、(A)従来例1としての情報処理装置の画像処理部の構成の一部を示す機能ブロック図、(B)従来例2としての情報処理装置の画像処理部の構成の一部を示す機能ブロック図、(C)本件発明としての情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。
【発明を実施するための形態】
【0011】
[発明の実施の形態1]
図1乃至
図7に、この実施の形態1に係る情報処理装置及び情報処理装置における情報処理方法を示す。以下、この発明の実施の形態1について図面を参照して説明する。
【0012】
[基本構成]
まず、この実施の形態1の情報処理装置の及び構成について説明する。
図1に示す、この実施の形態1の情報処理装置1Aは、人工知能(AI、以下単に「AI」と記載する。)を備え、AIによる各種データの解析や認識や、解析や認識に用いたデータの復元を行う。情報処理装置1Aは、デジタルデータに対してCNNを用いたデータ処理を行う。
【0013】
以下、この実施の形態1では、情報処理装置1Aがデジタルデータとしての画像データの解析や認識、そして復元を行うものとして説明する。また、この実施の形態1の情報処理装置1Aに入力される画像データは、256階調のRGBカラーモデルの画像データ(R値、G値、B値の3つのパラメータを有する画像データ)であるものとする。
【0014】
ただし情報処理装置1Aが扱うデータは画像データに限らず、例えばデジタルデータとしての音声データや、音声以外の各種デジタルデータを扱うものでもよい。また、情報処理装置1Aが扱うデータはアナログデータをデジタルデータに変換して各種処理を行うものであってもよい。
【0015】
また、この実施の形態1で扱う画像データは、RGBカラーモデル以外の画像データ、例えばRGBカラーモデルをYUVやYCbCrなどの異なる色空間に変換した画像データであってもよいし、4つ以上のパラメータを有する画像データ(例えばRGBYの4つのパラメータを有する画像データ)であってもよい。この場合、以下に説明する情報処理装置1Aの機能手段は、パラメータの種類やパラメータの数に応じたものとして構成される。
【0016】
[情報処理装置の機能手段]
図1に示すとおり、この実施の形態1の情報処理装置1Aは、機能手段として、制御部10、画像処理部11、「記憶手段」としての記憶部12、通信部13、表示部14及び操作部15を備える。なお情報処理装置1Aにおける動作について以下では、1台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。
【0017】
制御部10は、CPU(Central Processing Unit )等のプロセッサ及びメモリ等を用い、装置の構成部を制御して各種機能を実現する。画像処理部11は、GPU(Graphics Processing Unit)又は専用回路等のプロセッサ及びメモリを用い、制御部10からの制御指示に応じて画像処理を実行する。なお、制御部10及び画像処理部11は、CPU,GPU等のプロセッサ、メモリ、更には記憶部12及び通信部13を集積した1つのハードウェア(SoC:System on a Chip)として構成されていてもよい。
【0018】
記憶部12は、各種記憶媒体であり、たとえばハードディスク又はフラッシュメモリを用いる。記憶部12には、画像処理プログラム1P、DL(Deep Learning)用、特にCNNとしての機能を発揮させるCNNライブラリ1L、及び変換器ライブラリ2Lが記憶されている。また記憶部12には、1つの学習毎に作成される、CNN114、第一の変換器112、第二の変換器113、逆変換器115、を定義する情報、学習済みのCNN114における各層の重み係数等を含むパラメータ情報等が記憶される。
【0019】
また、記憶部12には変換テーブル121が記憶される。この変換テーブル121は第一の変換器112に読み込まれ、第一の変換器112における演算処理に用いられる(後述の[変換テーブル]にて詳述。)
【0020】
通信部13は、インターネット等の通信網への通信接続を実現する通信モジュールである。通信部13は、ネットワークカード、無線通信デバイス又はキャリア通信用モジュールを用いる。
【0021】
表示部14は、液晶パネル又は有機EL(Electro Luminescence)ディスプレイ等を用いる。表示部14は、制御部10の指示による画像処理部11での処理によって画像を表示することが可能である。
【0022】
操作部15は、キーボード又はマウス等のユーザインタフェースを含む。筐体に設けられた物理的ボタンを用いてもよい。及び表示部14に表示されるソフトウェアボタン等を用いてもよい。操作部15は、ユーザによる操作情報を制御部10へ通知する。
【0023】
読取部16は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体2に記憶してある画像処理プログラム2P、CNNライブラリ3L、及び変換器ライブラリ4Lを読み取ることが可能である。記憶部12に記憶してある画像処理プログラム1P、CNNライブラリ1L、及び変換器ライブラリ2Lは、記録媒体2から読取部16が読み取った画像処理プログラム2P、CNNライブラリ3L、及び変換器ライブラリ4Lを制御部10が記憶部12に複製したものであってもよい。
【0024】
情報処理装置1Aの制御部10は、記憶部12に記憶してある画像処理プログラム1Pに基づき、「学習実行部」としての画像処理実行部101として機能する。また画像処理部11は、記憶部12に記憶してあるCNNライブラリ1L、定義データ、パラメータ情報に基づきメモリを用いてCNN114(CNNエンジン)として機能し、また変換器ライブラリ2L、フィルタ情報に基づきメモリを用いて第一の変換器112、第二の変換器113として機能する。画像処理部11は、第一の変換器112、第二の変換器113の種類に応じて逆変換器115として機能する場合もある。
【0025】
[画像処理実行部の機能手段]
図2に示すとおり、画像処理実行部101は、機能手段として、入力部111、「変換手段」「第一の非線形処理手段」としての第一の変換器112、「変換手段」「第二の非線形処理手段」としての第二の変換器113、「データ処理手段」としてのCNN114、「逆変換手段」としての逆変換器115、出力部116を備える。画像処理実行部101は、これらの機能手段を用い、各々へデータを与え、各々から出力されるデータを取得する処理を実行する。
【0026】
具体的には、画像処理実行部101は、ユーザの操作部15を用いた操作に基づいて入力部111に入力された、入力データである画像データを、第一の変換器112に入力し、第一の変換器112から出力された画像データを第二の変換器113に入力する。画像処理実行部101は、第二の変換器113から出力されたデータをCNN114に入力する。画像処理実行部101は、CNN114から出力されたデータを必要に応じて逆変換器115へ入力し、逆変換器115から出力されたデータを出力部116に入力し、入力されたデータは出力部116から出力データとして出力されて記憶部12に入力される。画像処理実行部101は、出力データを画像処理部11へ与えて画像として描画し、表示部14へ出力してもよい。
【0027】
CNN114は、定義データにより定義される複数段の畳み込み層及びプーリング層と、全結合層とを有し(
図7参照)、入力データの特徴量を取り出し、取り出された特徴量に基づいて分類を行なう(後述の[CNNの構成と処理手順]に詳述。)。
【0028】
第一の変換器112、第二の変換器113は、CNN114と同様に畳み込み層と多チャンネル層とを含み、入力されたデータに対して非線形変換を行なう。ここで非線形変換とは、例えば色空間変換やレベル補正のような入力値を非線形に歪めるような処理を言う。逆変換器115は、畳み込み層と多チャンネル層とを含んで逆変換する。逆変換器115は「第二の非線形処理手段」としての第一の変換器112、「第一の非線形処理手段」としての第二の変換器113による歪みを戻す機能を果たす。ただし、逆変換器115による変換は、第一の変換器112、第二の変換器113と対称となるような変換だけには限られない。
【0029】
[第一の変換器]
図3及び
図4に、この実施の形態1の第一の変換器112の構成を模式的に示す。
【0030】
第一の変換器112は、データに対してチャンネルごとに別個に非線形の変換を行う。ここでのチャンネルとは、RGBカラーモデルのカラー画像の画像データにおけるR値、G値、B値のこと(カラーチャンネル)をいう。つまりこの画像データは3チャンネルのデータである。
【0031】
図4に示すとおり、第一の変換器112は、R変換器112r、G変換器112g、B変換器112bを備える。R変換器112rは、ノード数が1である第1層(入力層)112r1と、ノード数が複数であり、この複数のノードによって緻密層が形成された畳み込み層(CONV)である第2層(中間処理層)112r2と、ノード数が1である第3層(出力層)112r3とで構成される。G変換器112g、B変換器112bも、R変換器112rと同様の構成である。即ち、G変換器112gは第1層112g1、第2層112g2、第3層112g3を備え、B変換器112bは第1層112b1、第2層112b2、第3層112b3を備えている。
【0032】
図3、
図4に示すとおり、中間処理層である第2層を構成するR変換器112rの第2層112r2は、例えば256個のノード1120
001,1120
002,・・・1120
255,1120
256を備える。ノード数は処理精度に比例するので、ノード数が多いほど処理精度が高まるが、ノード数が増えれば多くの演算処理が必要となるという関係にある。
図3に示すとおり、G変換器112g、B変換器112bも、同様にそれぞれ、256個のノード1120
001,1120
002,・・・1120
256を備えている。
【0033】
第一の変換器112は、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行う作用を持つ(変換手順、第一の非線形処理手順)。なお、第一の変換器112のR変換器112r、G変換器112g、B変換器112bの第2層112r2,112g2,112b2は、緻密層として構成されるものに限らず、畳み込み層として構成されるものであってもよい。
【0034】
[第一の変換器の具体的構成]
図4は、この実施の形態1の第一の変換器112の具体的構成を示す機能ブロック図である。
【0035】
第一の変換器112のR変換器112rは、入力層である第1層のノード112r1と、中間処理層である第2層112r2と、出力層である第3層112r3を有し、第2層112r2では1×1のフィルタの畳み込み処理により256個のノード1121001,1121002,・・・1121255,1121256として畳み込み処理結果が出力され、さらにelu活性化関数処理が行われ、1122001,1122002,・・・1122255,1122256の出力が得られる。また、第一の変換器112のR変換器112rの出力層である第3層112r3は、畳み込みノード112r31と出力ノード112r32とを備える。畳み込みノード112r31においては、中間処理層の第2層112r2のノード1122001,1122002,・・・1122255,1122256でelu活性化関数処理された出力を1×1のフィルタで畳み込む処理を行うと共に、畳み込みの結果についてelu活性化関数処理を行う。出力ノード112r32は、畳み込みノード112r31における処理の結果を出力する。
【0036】
このelu(Exponential Linear Unit)とは活性化関数の一つであり、eluを用いることでデータを非線形に変形することができる。第一の変換器112において、活性化関数としてeluを用いているのは、他の活性化関数、例えば後述するReLU等に比べ、eluを用いた処理の方が入力されたデータの曲線(RGBの数値の大きさと明度の大きさなどをパラメータとした特性曲線など)の変形が滑らかになる(活性化関数を用いた処理後の曲線の形状を、処理前と大きく変化させることのないものとすることができる。)ことによるものである。
【0037】
図3,
図4等に図示しないが、第一の変換器112のG変換器112g及びB変換器112bもR変換器112rと同様の構成である。
【0038】
なお、第一の変換器112のR変換器112rは、第2層112r2のelu活性化関数処理部1122001,1122002,・・・1122255,1122256、及び第3層のelu活性化関数処理部112r32のうち、少なくとも何れか一つが設けられていなくてもよいし、elu活性化関数以外のどのような関数が用いられてもよい。これは、第一の変換器112のG変換器112g、B変換器112b、第二の変換器113、逆変換器115の第一の逆変換部115a、第二の逆変換部115bにおいても同様である。
【0039】
なお、
図3、
図4に示すR変換器112r、G変換器112g、B変換器112bは、出力層である第3層の出力チャンネル数(ノード数)が入力チャンネル数と同数であるが、これに限らず減少させてもよいし、増加させてもよい。これは、第二の変換器113、逆変換器115の第一の逆変換部115a、第二の逆変換部115bのR逆変換部115br、G逆変換部115bg、B逆変換部115bbも同様である。
【0040】
[第一の変換器の構成の変形例]
図5は、この実施の形態1の第一の変換器112の構成の変形例の概略を示す機能ブロック図である。
【0041】
同図は、第一の変換器112のR変換器112rの変形例の概略を示している。
図5において、第一の変換器112は第3層112r3に畳み込みノード112r3
4とスキップコネクション112r3
5と活性化関数処理ノード112r3
6とを備えている。このスキップコネクション112r3
3は、畳み込みノード112r3
4は、第2層112r2の出力を1×1のフィルタで畳み込み処理を行う。スキップコネクション112r3
3は、第1層112r1から出力されたデータを第2層112r2の処理を行わずに第3層112r3に入力する。活性化関数処理ノード112r3
6は、畳み込みノード112r3
4で処理されたデータとスキップコネクション112r3
3から供給されたデータとを加算し、加算後のデータのelu活性化関数処理を行う。スキップコネクション112r3
3を設けることで、機械学習で生じ得るデータの勾配消失問題を適切に回避させることが可能となる。
【0042】
なお図示しないが、G変換器112g、B変換器112bにも同様のスキップコネクションを設け、同様の効果を得ることができる。これは、後述の[発明の実施の形態2]~[発明の実施の形態8]の第一の変換器112でも同様である。
【0043】
[第二の変換器]
図3及び
図6に、この実施の形態1の第二の変換器113の構成を模式的に示す。
【0044】
第二の変換器113は、ノード数が複数たとえば3である第1層1131r,1131g,1131bと、中間処理層として1×1のフィルタの畳み込み(CONV)を行う第2層1132001,1132002,・・・1132255,1132256と、1×1のフィルタの畳み込みにより3チャンネルの出力を得る第3層11331,11332,11333とで構成される。
【0045】
この実施の形態1において、第二の変換器113の第1層1131r,1131g,1131b、第3層11331,11332,11333のノード数3は、第一の変換器112を構成するR変換器112r、G変換器112g、B変換器112bの数に一致する数である。すなわち、第二の変換器113の第1層1131r,1131g,1131bや第3層11331,11332,11333のノード数は、RGBカラーモデルの色情報であるR,G,Bの3種類の分類数がこれに対応する。)に一致する。
【0046】
なお、第二の変換器113の第1層1131r,1131g,1131bや第3層11331,11332,11333のノード数と、第一の変換器112を構成する各変換器112r,112g,112bの数は必ずしも一致しなくてもよい。また、この実施の形態1において、第二の変換器113の第1層1131r,1131g,1131bと第3層11331,11332,11333とは同じノード数としているが、異なるノード数であってもよい。さらに、第二の変換器113は、第2層1132001,1132002,・・・1132255,1132256が緻密層を有するものに限らず、例えば畳み込み層を有するものでもよい。
【0047】
[逆変換器]
図3に、この実施の形態1の逆変換器115の構成を模式的に示す。
【0048】
逆変換器115は、第一の逆変換部115a、「第一の非線形処理手段」としての第二の逆変換部115bを備えている。
【0049】
第一の逆変換部115aは、第二の変換器113と同じ構成を備え、第二の変換器113による変換に対する逆変換を行う(逆変換手順)。具体的には、第一の逆変換部115aは、ノード数が複数たとえば3である第1層115a11,115a12,115a13と、第1層よりもノード数が多い緻密層(DENSE)として構成された第2層115a2001,115a2002,・・・115a2355,115a2256と、第2層115a2001,115a2002,・・・115a2355,115a2256よりも少ない複数のノード数、たとえば第1層115a11,115a12,115a13と同じノード数が3である第3層115a31,115a32,115a33とで構成される。
【0050】
第二の逆変換部115bは、第一の変換器112と同じ構成を備え、第一の変換器112による変換に対する逆変換を行う(逆変換手順)。第二の逆変換部115bは、データに対してチャンネルごとに別個に非線形の変換を行う。ここでのチャンネルとは、第一の変換器112の場合と同様、RGBカラーモデルのカラー画像の画像データにおけるR値、G値、B値のことをいう。
【0051】
具体的には、第二の逆変換部115bは、R変換器112rに対応するR逆変換部115br、G変換器112gに対応するG逆変換部115bg、B変換器112bに対応するB逆変換部115bbを備える。R逆変換部115brは、ノード数が1である第1層115br1と、ノード数が複数(ここでは256)の緻密層として構成された第2層115br2001,115br2002,・・・115br2256と、ノード数が1である第3層115br3とで構成される。G逆変換部115bg、B逆変換部115bbも、R逆変換部115brと同様の第1層115bg1,115bb1、第2層115bg2001,115bg2002,・・・115bg2256と、第3層115bb3,115bb3とを備えた構成である。
【0052】
第一の逆変換部115aは、第二の変換器113と同様に、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行なう。第二の逆変換部115bのR逆変換部115br、G逆変換部115bg、B逆変換部115bbも、第一の変換器112のR変換器112r、G変換器112g、B変換器112bと同様に、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行う作用を持つ(第一の非線形処理手順)。
【0053】
なお、第一の逆変換部115aは、第二の変換器113と同様に、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行なう。第二の逆変換部115bのR逆変換部115br、G逆変換部115bg、B逆変換部115bbも、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行なう。
【0054】
また、前述の[画像処理実行部の機能手段]に記載のとおり、第一の逆変換部115aの処理は第二の変換器113の完全に逆の処理でない場合もあり、第二の逆変換部115bの処理は第一の変換器112の完全に逆の処理でない場合も含まれる。
【0055】
また、情報処理装置1Aによる機械学習の出力データが入力データと同一形式の場合(例えば画像データの入力に対して画像データが出力される場合)は逆変換器115があった方が適切な処理を行える。一方、例えば情報処理装置1Aによる出力データが入力データと相違する形式である場合(例えば画像データの入力に対して画像認識の結果が文字やシンボル等のデータとして出力される場合)は逆変換器115が不要である場合が多い。そのため、この実施の形態1の逆変換器115は、情報処理装置1Aの処理するデータの種類や処理結果の出力態様等によっては情報処理装置1Aに含めない構成とすることも考えられる(後述する[発明の実施の形態4,5,7]等参照)。
【0056】
[変換テーブル]
この実施の形態1の第一の変換器112を構成するR変換器112r、G変換器112g、B変換器112bは、それぞれ、演算処理において変換テーブル121を用いる。
図2に示すように、この変換テーブル121は記憶部12に記憶され、第一の変換器112が記憶部12から取り込んで演算に使用する。
【0057】
具体的には、変換テーブル121には、各変換器112r,112b,112gは、それぞれ、第2層1120001,1120002,・・・1120255,1120256のノードの数である256種類の演算パターンが記録されている。各変換器112r,112b,112gは、この変換テーブル121を用いて実際の演算に対応する処理を行う。
【0058】
このような変換テーブル121を用いた処理が可能となるのは、この実施の形態1の構成におけるR変換器112r、G変換器112g、B変換器112bの演算の種類が事実上ノードの数だけであって演算のパターンの数が少なく、演算のパターンを変換テーブル121として容易に記録可能であるためである。
【0059】
第一の変換器112や第二の変換器113では、畳み込みの演算(二項演算)が必要である。そして、第二の変換器113では第2層のノードに入力される値のバリエーションが非常に多く、それらのバリエーションを網羅したテーブルを作成することは困難である。これに対し、第一の変換器112を構成するR変換器112r、G変換器112g、B変換器112bや、第二の逆変換部115bを構成するR逆変換部115br、G逆変換部115bg、B逆変換部115bbは、第1層112r1,112g1,112b1のノードがそれぞれ1つなので、第2層1120001,1120002,・・・1120255,1120256で演算を行う元データが1つである。そのため、第2層1120001,1120002,・・・1120255,1120256における各ノードのバリエーションは少ない。そのため、第2層1120001,1120002,・・・1120255,1120256の各ノードの演算結果を容易にテーブル化できる。これにより、R変換器112r、G変換器112g、B変換器112bの計算コストをほぼゼロにすることができる。なお、逆変換部115br、115bg、115bbでテーブルを利用する場合には逆変換部の出力を例えば256階調とし、各階調に対応した数値と出力値とをテーブルに設定し、設定された数値に一番近いテーブルの値を利用したり、各階調に対応した数値の範囲とその数値範囲の場合の出力値とをテーブルに設定し、入力データの値がどのテーブル値に含まれるかを検索し、出力値を得るようにしても良い。
【0060】
この実施の形態1におけるR変換器112r、G変換器112g、B変換器112b、の演算処理を変換テーブル121を用いて行うことにより、簡易な構成で確実に演算処理の処理負荷が過大になることを抑止し、処理を行える情報処理装置1Aを提供することが可能となる。また、CNN114における計算資源が少ない場合であっても、僅かな計算資源によって構築できる第一の変換器112を用いることで、機械学習の精度を高めることができる。
【0061】
特に、この実施の形態1の情報処理装置1Aの機械学習の用途が、たとえば超解像(解像度の低い画像データを高解像度化するもの。)などのように処理負荷の重いものである場合には、CNN114の処理全体における畳み込みの演算に要する計算コストの占める比率は無視できる程に低い。しかし、機械学習の用途が画像の認識のような処理負荷の軽いものである場合には、CNN114の処理全体の中の畳み込みの演算に要する計算コストの占める比率は高い。そのため、CNN114における演算が軽装なものにおいては、変換テーブル121を用いた計算コストの低減は特に効果的であるといえる。
【0062】
[CNNの構成と処理手順]
図7は、この実施の形態1の情報処理装置1AのCNN114の構成と処理手順(データ処理手順)を模式的に示すブロック図並びにタイムチャートである。
【0063】
図7に示すとおり、CNN114は、データが入力される入力部1140、データが出力される出力部1147の他に、畳み込み層とプーリング層からなる複数の階層、ここでは第1層1141、第2層1142、第3層1143、第4層1144、第5層1145の5層の階層と、1つの全結合層1146を有している。これらの階層は、CNN114の構成と処理の態様と模式的に示すものである。なお、畳み込み層とプーリング層の階層は5層よりも多くても少なくてもよい。
【0064】
この実施の形態1のCNN114においては、まず第1層1141において、畳み込み層11411でフィルタ(図示せず)を用いた畳み込み処理が行われると、画像データの特徴(画像データに表示された画像や図形の特徴)が抽出された、元の画像データよりも2次元方向の大きさが縮小された画像データがフィルタの枚数分生成される。プーリング層11412では、畳み込み層で生成された画像データの2次元方向の大きさが縮小された画像データが生成される。
【0065】
図7では、第1層1141の畳み込み層1141
1で64種類のフィルタを用いた64枚の畳み込みデータを生成し、プーリング層1141
2でその64種類の畳み込みデータの2次元方向の大きさが縮小された新たな画像データが生成される。第2層1142では、畳み込み層1142
1において、第1層1141で生成された64種類の画像データに128種類のフィルタを用いた畳み込み処理を行って128種類の畳み込みデータを生成し、プーリング層1142
2でその128種類の畳み込みデータの2次元方向の大きさが縮小された新たな画像データが生成される。
【0066】
以下、第3層1143、第4層1144、第5層1145でも同様の処理が行われる。第3層1143では畳み込み層11431、プーリング層11432の処理により256種類の畳み込みデータと新たな画像データが生成される。第4層1144、第5層1145では畳み込み層11441,11451、プーリング層11442,11452の処理により512種類の畳み込みデータと新たな画像データが生成される。
【0067】
全結合層1146では、第1層1141から第5層1145までの処理が行われたデータを1次データ変換し、それぞれの画像データに表示された画像の特徴を認識する。全結合層1146では、ReLU(Rectified Linear Unit)の活性化関数処理と、Batch Normalizationを用いた処理が行われるようにしてもよい。ただし、全結合層1146では、ReLU以外のどのような活性化関数が用いられた処理が行われてもよい。
【0068】
[情報処理装置の学習手順]
この実施の形態1の情報処理装置1Aは、画像処理実行部101が、第一の変換器112、第二の変換器113、及び逆変換器115を、CNN114を含むCNNの一部として用いて学習を行なう。具体的には画像処理実行部101は学習時には、学習データをCNN114全体に入力して得られる出力データと、既知の学習データの分類(出力)との誤差を最小にする処理を実行し、第一の変換器112、第二の変換器113、又は逆変換器115における重みを更新する。この学習処理により得られるCNN114におけるパラメータと、第一の変換器112、第二の変換器113における重みとは、対応するパラメータとして記憶部12に記憶される。画像処理実行部101は、学習済みのCNN114を使用する場合には、CNN114を定義する定義情報及び記憶部12に記憶してあるパラメータと、対応する第一の変換器112及び第二の変換器113の重みとを用い、入力データを第一の変換器112、第二の変換器113に入力した後のデータをCNN114へ入力して用いる。逆変換器115を用いる場合も学習により得られる学習済みのCNN114を定義する定義情報及びパラメータと対応する重みを使用する。
【0069】
第一の変換器112、第二の変換器113を、CNN114が畳み込みによる特徴抽出を行う前段に入力することによって、抽出されるべき画像データの特徴を更に強調させることができる。これにより、CNN114における学習効率及び学習精度が向上することが期待される。
【0070】
[その他の構成]
なお、この実施の形態1における情報処理装置1Aのハードウェア構成のうち、通信部13、表示部14、操作部15、及び読取部16は必須ではない。通信部13は、例えば記憶部12に記憶される画像処理プログラム1P、CNNライブラリ1L及び変換器ライブラリ2Lを外部サーバ装置(図示せず)等から取得する場合には、それらを一旦ダウンロードした後は使用しなくてもよい。同様に、読取部16も、画像処理プログラム1P、CNNライブラリ1L及び変換器ライブラリ2Lを外部の記憶媒体(図示せず)から読み出して取得した後は使用しない構成としてもよい。また、通信部13及び読取部16は、USB(Universal Serial Bus)等のシリアル通信を用いた同一デバイスであってもよい。
【0071】
また、情報処理装置1Aの構成をネットワーク(図示せず)上に分散させた構成としてもよい。たとえば、上述のCNN114、第一の変換器112、第二の変換器113、及び逆変換器115としての機能をネットワーク(図示せず)上のWebサーバ(図示せず)上に設け、表示部及び通信部を備えるWebクライアント装置(図示せず)からこれらの機能が利用できる構成としてもよい。この場合、通信部13は、Webクライアント装置(図示せず)からのリクエストを受信し、処理結果を送信するために使用される。
【0072】
なお学習時に用いる誤差は、二乗誤差、絶対値誤差、又は交差エントロピー誤差等、入出力されるデータ、学習目的に応じて適切な関数を用いるとよい。例えば、出力が分類である場合、交差エントロピー誤差を用いる。誤差関数を用いることに拘わらずその他の基準を用いるなど柔軟な運用が適用できる。この誤差関数自体に外部のCNN(図示せず)を用いて評価を行なってもよい。
【0073】
[作用効果]
この実施の形態1の情報処理装置1Aは、入力されたデータや信号に非線形の補正を行う場合に、適切な補正を容易に行うことが可能となる。
【0074】
これは、この実施の形態1の情報処理装置1Aは、CNN114の前後に第二の変換器113、逆変換器115を設け、情報処理装置1Aに入力されたデータを非線形に空間変換するのに加え、第二の変換器113の前段に第一の変換器112を設け、画像データを構成するRデータ、Gデータ、Bデータについて個々に非線形処理を行うことで、入力された画像データの特徴を増加させ得ることによるものである。
【0075】
このように構成することで、この実施の形態1の情報処理装置1Aは、第一の変換器112の非線形変換において機械学習の特徴を増加させ、機械学習の認識率を高めたり、あるいは、高精細な画像形成を行ったりすることが可能となる。
この実施の形態1の情報処理装置1Aの処理は、例えば、RGB色空間のカラー画像データにガンマ補正のような処理を行う場合が考えられる。
【0076】
たとえば、ピクセル毎にR、G、Bのパラメータを有する画像データについて、Rの値、Gの値、Bの値の少なくとも何れか一つ、例えばRの値にガンマ補正のような非線形変換の補正(個々の色空間変換のような補正)を行うとともに、RGB全体の値にガンマ補正のような非線形変換の補正を行う場合、第一の変換器112を構成する変換器の何れか一つ、たとえばR変換器112rを用いて画像データ中のRの値を非線形変換するとともに、第二の変換器113を用いてRGBの値全体を非線形変換することができる。
【0077】
このような処理を行うことで、画像データを構成する複数のパラメータのうちの一部のパラメータ(たとえばRGBのうちのRのパラメータ)について非線形変換等の補正を行うと共に、それら複数のパラメータ全てについての非線形変換等の補正を行うことが可能となる。これにより、画像データ等のデータや信号について多面的で的確な補正を簡単に行うことが可能となる。
【0078】
特に、複数のパラメータを有するデータや信号のうちの特定のパラメータのデータについての非線形変換等の変換と、全てのパラメータのデータについての非線形変換等の変換を順次行うことで良好な変換結果を得たい場合に、この実施の形態1の構成は有効性が高いと考えられる。
【0079】
なお、CNN114内の畳み込み層やプーリング層の数を増加させたり、畳み込みのチャンネル数(convolution数)を増加させ、CNN114内の処理負荷を高くした場合には、第一の変換器112を用いた(Rデータ、Gデータ、Bデータについて個々に行う非線形処理のような)チャンネル毎の非線形処理による機械学習の認識率向上が期待値並みに高くならない傾向にある。それゆえ、この実施の形態1の情報処理装置1Aは、CNN114内の演算が軽装な場合に高い効果を奏すると考えられる。すなわち、この実施の形態1の情報処理装置1Aは、CNN114における計算資源が少ない場合であっても、僅かな計算資源で構築できる第一の変換器112を用いることで、機械学習の精度を向上させることができる。
【0080】
この実施の形態1の情報処理装置1Aは、第一の変換器112がR変換器112r、G変換器112g、B変換器112bの少なくとも3層の処理群からなる処理層群を備えることや、第二の逆変換部115bがR逆変換部115br、G逆変換部115bg、B逆変換部115bbの少なくとも3層の処理層からなる処理層群を備えること、そして、そそれらの処理層群は、ノード数が1の入力層と、該入力層の後段に設けられたノード数が複数の畳み込み層又は緻密層である第2層と、該第2層の後段に設けられたノード数が1の畳み込み層又は緻密層である第3層とを含む処理層群として、畳み込みニューラルネットワークへ入力するデータのチャンネル(R,G,B3つのカラーチャンネル)毎に設けられていることにより、複数のチャンネル、複数のパラメータを有するデータについて、チャンネル毎、パラメータ毎のデータの非線形処理を行うことができ、機械学習の精度を一層向上させることができる。
【0081】
この実施の形態1の情報処理装置1Aは、第一の変換器112や第二の逆変換部115bの第2層が複数層からなることにより、R,G,Bのカラーチャンネルのような多チャンネルのデータについて機械学習の精度を一層向上させることができる。
【0082】
この実施の形態1の情報処理装置1Aは、第二の変換器113を用いることで、R値、G値、B値のような複数のパラメータを有するデータを、それらの複数のパラメータ(RGB3値全ての場合も、例えばRGB3値のうちのR値とG値の2値のような場合も含む)について非線形変換を行う処理を併せて行うことで、バリエーションを持たせた非線形処理を容易に行い、機械学習の精度を一層向上させることができる。
【0083】
この実施の形態1の情報処理装置1Aは、第一の変換器112と第二の変換器113とを複合させて非線形の変換を行うことにより、バリエーションを持たせた非線形処理を容易に行うことができる。
【0084】
この実施の形態1の情報処理装置1Aは、変換テーブル121を用いて非線形の変換を行うことにより、処理負荷を軽減させつつ精度の高い機械学習を行うことができる。
この実施の形態1の情報処理装置1Aは、畳み込み処理の結果に基づいて畳み込みニューラルネットワークにおけるパラメータを学習する画像処理実行部101を備えたことにより、機械学習に適したデータを用いた畳み込み処理の結果を用いて、精度の高い機械学習を行うことができる。
【0085】
[変形例]
なお、この実施の形態1の情報処理装置1Aは、下記に示す変形例のように構成することもできる。これらの構成をとることにより、データの内容や処理の内容に応じた適切な態様で、精度の高い機械学習を行うことが可能となる。
【0086】
(変形例1)
CNN114の前段に設けられる第一の変換器112や第二の変換器113の出力側のチャンネル数を、入力側のチャンネル数以上とすることができる。例えば、第1の変換器のR変換器112rの出力層で2チャンネル以上の出力を得るようにしても良い。G変換器112g、B変換器112bも同様の構成とすることができる。これにより、第一の変換器112に入力されたRGBの3チャンネルのデータは4チャンネル以上のデータとして出力される。
【0087】
(変形例2)
CNN114の前段に設けられる第一の変換器112や第二の変換器113の途中のチャンネル数を、入力側のチャンネル数以上とすることができる。例えば、R変換器112rの第1層112r1から、図示された第2層1120001,・・・1120256とは別系統の第2層(図示せず)にもデータを送る構成とできる。G変換器112g、B変換器112bも同様の構成とすることができる。これにより、入力されたRGBの3チャンネルのデータを第1の変換器112内で4チャンネル以上のデータとして処理を行える。
【0088】
(変形例3)
CNN114の前段に設けられる第一の変換器112や第二の変換器113の中間処理層を多層化することができる。例えば第一の変換器112のR変換器112rの中間処理層を、第2層1120001,・・・1120256の後や前に第2層α、第2層βのような構成(第2層の個々のノードの前後に連続した別のノード)を設けた構成とすることができる。G変換器112g、B変換器112bも同様の構成とすることができる。
【0089】
(変形例4)
CNN114の後段に設けられる逆変換器115の入力側のチャンネル数を、出力側のチャンネル数以上とすることができる。例えば、逆変換器115に入力されるデータを4チャンネル以上とし、出力されるデータをRGBの3チャンネルとすることができる。
【0090】
(変形例5)
CNN114の後段に設けられる逆変換器115の中間処理層のチャンネル数を、入力側のチャンネル数以上とすることができる(上記(変形例2)の構成を逆変換器115の第一の逆変換部115aや第二の逆変換部115bに適用した構成となる。)。
【0091】
(変形例6)
CNN114の後段に設けられる逆変換器115の中間処理層を多層化することができる。(上記(変形例3)の構成を逆変換器115の第一の逆変換部115aや第二の逆変換部115bに適用した構成となる。)。
【0092】
(変形例7)
第一の変換器112のR変換器112r、G変換器112g、B変換器112bの少なくとも何れか一つを、1チャンネル入力1チャンネル出力ではなく、多チャンネル入力や、多チャンネル出力とすることもできる。例えばR変換器112rの第1層112r1、第3層112r3を2つ以上のノードとして構成することもできる。このように構成しても、R変換器112r、G変換器112g、B変換器112bがそれぞれ独立したデータ処理を行う構成が維持されていれば
図1に示す第一の変換器112の機能は実現できる。ただし、入力側(第1層112r1,112g1,112b1)が1チャンネルの場合のみ、変換テーブル121を適用した演算が事実上可能である。
【0093】
(変形例8)
第二の変換器113は、入力側のチャンネルと出力側のチャンネルが、元のチャンネル数と同一でなくてもよい。たとえば、第二の変換器113の第1層1131r,1131g,1131bや、第3層11331,11332,11333は、チャンネル数が3つよりも多くても少なくてもよい。即ち、入力部111に入力された画像データのRGB3チャンネルよりもそれらのチャンネル数が多くても少なくてもよい。
【0094】
(変型例9)
第一の変換器112の第2層や第二の逆変換部115bの第2層は、1層であってもよい。このように構成することで、処理負荷を軽減させたり処理速度を向上させることが可能となる。
【0095】
(変形例10)
図5に示したように第一の変換器112に適用したスキップコネクションを逆変換器115で適用しても良い。またスキップコネクションのストリーム数は1に限るものではなく、各中間処理層の一の処理出力をスキップコネクションにより出力し、該出力と中間処理層の他の処理出力と合成するストリームと、入力層からのデータと前記中間処理層出力と合成するストリームなど、複数のストリームで構成しても良い。
【0096】
なお、上記(変形例1)~(変形例10)の構成は、以下の[発明の実施の形態2]~[発明の実施の形態8]にも適用可能である。
【0097】
[発明の実施の形態2]
図8は、この発明の実施の形態2の情報処理装置1Bの第一の変換器112の構成を示す機能ブロック図である。
【0098】
この実施の形態2の情報処理装置1Bは、計算量を増やしてでも精度を高めたい場合に適用される。
【0099】
具体的には、この実施の形態2の情報処理装置1Bは、第一の変換器112、第二の変換器113、CNN114、及び逆変換器115の基本的な構成は実施の形態1の情報処理装置1Aと同じだが(
図2参照)、それぞれの第2層1120
001,1120
002,・・・1120
511,1120
512のノード数が512ノードとなっている。
【0100】
なお、情報処理装置1Bの第2層1120
001,1120
002,・・・1120
511,1120
512のノード数は、適宜増減可能である。これは、情報処理装置1Bの第一の変換器112、逆変換器115の第一の逆変換部115a、第二の逆変換部115b(
図3参照)においても同じである。また、このようなノード数の調整は、この実施の形態2以外のこの発明の全ての実施の形態にも同様に適用できる。
【0101】
この実施の形態2においては、入力されたデータを精度良く処理することが可能となる。
【0102】
[発明の実施の形態3]
図9は、この発明の実施の形態3の情報処理装置1Cの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Cの画像処理部11は、第二の変換器113が存在しないこと以外は実施の形態1の情報処理装置1Aと同じ構成である。この場合、逆変換器115は第二の変換器113に対応する第一の逆変換部115aを設けない構成にもできる。
【0103】
このような構成とすることにより、複数のパラメータを一度に用いた空間変換で非線形処理を行う必要のない場合において、適切な処理を行うことが可能となる。
【0104】
[発明の実施の形態4]
図10は、この発明の実施の形態4の情報処理装置1Dの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Dの画像処理部11は、逆変換器115が存在しないこと以外は実施の形態1の情報処理装置1Aと同じ構成である。
【0105】
このような構成は出力データが非線形変換処理を必要としない場合に用いられる。
【0106】
なお、この実施の形態4の情報処理装置1Dの変形例として、実施の形態1の情報処理装置1AのR逆変換部115br、G逆変換部115bg、B逆変換部115bbのうちの1つないし2つが存在しない構成とすることもできる。
【0107】
[発明の実施の形態5]
図11は、この実施の形態5の情報処理装置1Eの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Eの画像処理部11は、第二の変換器113と逆変換器115が存在しないこと以外は実施の形態1の情報処理装置1Aと同じである。
【0108】
このような構成は出力データが非線形変換処理を必要としない場合に用いられる。
【0109】
[発明の実施の形態6]
図12は、この実施の形態6の情報処理装置1Fの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Fの画像処理部11は、第一の変換器112と第二の変換器113が逆に接続されている点が実施の形態1の情報処理装置1Aと相違する。なお、図示しないが、逆変換器115を構成する第一の逆変換部115aと第二の逆変換部115bが実施の形態1の情報処理装置1Aと逆に接続されていてもよい。
【0110】
このように構成することで、第二の変換器113による空間処理を先に行って空間処理を強調したい場合や、第一の変換器112による個々のパラメータの処理を後から行ってパラメータ毎の処理を強調したい場合等に、適切な処理を行うことが可能となる。なお、この情報処理装置1Fにおいて逆変換器115を設けない構成とすることもできる。
【0111】
[発明の実施の形態7]
図13は、この実施の形態7の情報処理装置1Gの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Gの画像処理部11は、実施の形態6の情報処理装置1Fにおける逆変換器115が設けられていない構成である。このように構成することで、実施の形態6の情報処理装置1Fによって適切な処理が行われるデータにおいて、逆変換が必要でない場合に、適切な処理を行うことができる。
【0112】
[発明の実施の形態8]
また、図示しないが、この実施の形態の情報処理装置においては、実施の形態1の情報処理装置1Aの構成において、CNN114の前段に第一の変換器112、第二の変換器113の何れも設けられていない構成とすること、及び/又は、CNN114の後段に第一の変換器112や第二の変換器113を設ける構成とすること、もできる。
【0113】
なお、上記各実施の形態は本発明の例示であり、本発明が上記各実施の形態のみに限定されるものではないことは、いうまでもない。
【0114】
[実施例]
以下、この発明の実施例について説明する。
【0115】
図14に、この発明の実施例を示す。
図14の(A)が従来例1としての画像処理部11の構成の一部を示す機能ブロック図である。この画像処理部11では、入力されたデータをCNN114に直接入力している。
【0116】
図14の(B)が従来例2としての画像処理部11の構成の一部を示す機能ブロック図である。この画像処理部11では、入力データを第二の変換器113に入力したのちCNN114に入力している。
【0117】
図14の(C)が本件発明としての画像処理部11の構成の一部を示す機能ブロック図である。この画像処理部11では、入力データを第一の変換器112に入力したのちにCNN114に入力している。
【0118】
この実施例では、10種類の絵(飛行機、自動車、鳥、猫、しか、犬、かえる、馬、船、トラック)が示された画像データを画像処理部で識別させる実験を行った。具体的には、画像処理部に上述の10種類の絵を学習させたのち、認識対象の画像を画像処理部に読み込ませ、読み込んだ画像が10種類の絵のうちのどれに該当するかを認識させたのち、それぞれの絵に相当するシンボルを出力させて解答させる実験を行った。
【0119】
この実験は、機械学習モデルとしてVGG16を改変したものを用い、データセットとしてCIFAR-10を利用し、読み込んだ絵の数に対して正答の数を出し、validity accuracy(正答率)(%)を検証した。
【0120】
なお、
図14に示すとおり、各画像処理部11には逆変換器を設けていない。これは、画像データの入力に対してシンボルを出力する構成であり、逆変換器が設けられていては認識精度が低下すると考えられたためである。
【0121】
【0122】
この表に示すとおり、従来例1、従来例2に比べ、本件発明は改善された正答率が得られている。よって、本件発明は、従来例に比べて高い認識率が得られることがわかる。なお、正答率の改善は1%未満と僅かではあるが、機械学習においては僅かであっても正答率を向上させることは重要な課題である。
【符号の説明】
【0123】
1A,1B,1C,1D,1E,1F,1G,1H,1J,1K・・情報処理装置
12・・・記憶部(記憶手段)
121・・・変換テーブル
101・・・画像処理実行部(学習実行部)
112・・・第一の変換器(変換手段、第一の非線形処理手段)
113・・・第二の変換器(変換手段、第二の非線形処理手段)
114・・・CNN(データ処理手段)
115・・・逆変換器(逆変換手段)
112r1,112g1,112b1,1131r,1131g,1131b,115a11,115a12,115a13,115br1,115bg1,115bb1・・・第1層(入力層)
1120001,1120002,・・・1120255,1120256,1132001,・・・1132256,115a2001,115a2002,・・・115a2255,115a2256,115br2001,115br2002,・・・115br2255,115br2256,115bg2001,115bg2002,・・・115bg2255,115bg2256,115bb2001,115bb2002,・・・115bb2255,115bb2256・・・第2層(中間処理層)
112r3,112g3,112b3,1133r,1133g,1133b,115a31,115a32,115a33,115br1,115bg3,115bb3・・・第3層(出力層)