(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-12
(45)【発行日】2024-03-21
(54)【発明の名称】プログラム、ニューラルネットワークシステム、情報処理方法およびニューラルネットワークモデルの生成方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240313BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2020056716
(22)【出願日】2020-03-26
【審査請求日】2023-01-20
【新規性喪失の例外の表示】特許法第30条第2項適用 令和 1年10月23日に、arXivのウェブサイトにて公開(https://arxiv.org/abs/1910.11107) 令和 1年10月23日に、ResearchGateのウェブサイトにて公開(https://www.researchgate.net/publication/336736993_Streaming_Networks_Enable_A_Robust_Classification_of_Noise-Corrupted_Images)
(73)【特許権者】
【識別番号】512200217
【氏名又は名称】GO株式会社
(74)【代理人】
【識別番号】100114557
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】タラセンコ セルゲイ
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2020-017082(JP,A)
【文献】特表2017-513144(JP,A)
【文献】特開2014-099027(JP,A)
【文献】特開2019-220129(JP,A)
【文献】内田 祐介,外1名,畳み込みニューラルネットワークの研究動向,電子情報通信学会技術研究報告 Vol.117 No.362,日本,一般社団法人電子情報通信学会,2017年,第117巻
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
(57)【特許請求の範囲】
【請求項1】
画像データを取得し、
取得した前記画像データ
を複数のピクセルバリュー範囲に基づいてそれぞれスライスすることにより、複数のスライス画像データを生成し、
コンボリューション層とプーリング層とを繰り返して構成した複数のストリームが相互に並列に配置されており、複数の前記ストリームのそれぞれに生成した前記スライス画像データを入力することにより、複数の前記スライス画像データそれぞれの特徴ベクトルを抽出し、
抽出した複数の前記特徴ベクトルを結合して1つの結合特徴ベクトルを生成し、
生成し
た前記結合特徴ベクトルを全結合層に入力して、前記全結合層から出力される推定結果を出力する
処理をコンピュータに実行させるプログラム。
【請求項2】
複数の前記ピクセルバリュー範囲は、一部が相互に重複している
請求項1に記載のプログラム。
【請求項3】
前記全結合層に連結したソフトマックス層を介して前記推定結果を出力する
請求項1または請求項2に記載のプログラム。
【請求項4】
抽出した前記特徴ベクトルを、学習可能なパラメータを有する追加層に入力して変換し、
変換した前記特徴ベクトルを結合して、前記結合特徴ベクトルを生成する
請求項1から
請求項3のいずれか一つに記載のプログラム。
【請求項5】
画像データ
を複数のピクセルバリュー範囲に基づいてそれぞれスライスすることにより生成された複数のスライス画像データそれぞれの特徴ベクトルを抽出する、相互に並列配置された複数のストリームと、
前記ストリームがそれぞれ抽出した複数の特徴ベクトルを結合した一つの特徴ベクトルが入力される全結合層と、
を備えるニューラルネットワークシステム。
【請求項6】
前記ストリームと、前記全結合層との間に、学習可能なパラメータを有する追加層を備える
請求項5に記載のニューラルネットワークシステム。
【請求項7】
前記ストリームは、スキップコネクションを有する
請求項5または
請求項6に記載のニューラルネットワークシステム。
【請求項8】
画像データを取得し、
取得した前記画像データ
を複数のピクセルバリュー範囲に基づいてそれぞれスライスすることにより、複数のスライス画像データを生成し、
コンボリューション層とプーリング層とを繰り返して構成した複数のストリームが相互に並列に配置されており、複数の前記ストリームのそれぞれに生成した前記スライス画像データを入力することにより、複数の前記スライス画像データそれぞれの特徴ベクトルを抽出し、
抽出した複数の前記特徴ベクトルを結合して1つの結合特徴ベクトルを生成し、
生成し
た前記結合特徴ベクトルを全結合層に入力して、前記全結合層から出力される推定結果を出力する
処理をコンピュータ
が実行
する情報処理方法。
【請求項9】
画像データ
を複数のピクセルバリュー範囲に基づいてそれぞれスライスすることにより生成された複数のスライス画像のセットとラベルとを関連づけて複数組記録した学習データを取得し、
複数のスライス画像データそれぞれの特徴ベクトルを抽出する、相互に並列配置された複数のストリーム、および、複数の前記ストリームがそれぞれ抽出した複数の特徴ベクトルを結合した一つの特徴ベクトルが入力される全結合層を備えるニューラルネットワークモデルを用意し、
前記学習データを用いて、前記セットを構成する複数の前記スライス画像のそれぞれを複数の前記ストリームのそれぞれに入力した場合に、前記画像データに関連するラベルの予測値を出力するように前記ニューラルネットワークモデルのパラメータを調整する
処理をコンピュータが実行するニューラルネットワークモデルの生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プログラム、ニューラルネットワークシステム、情報処理方法およびニューラルネットワークモデルの生成方法に関する。
【背景技術】
【0002】
教師あり機械学習を用いて、入力された画像がどのカテゴリに分類されるかを推定する分類器を生成する機械学習システムが提案されている(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
種々の原因により、元画像にノイズが重畳する場合がある。特許文献1の分類器では、ノイズが重畳した画像により機械学習が行なわれた場合には、精度の高い分類器を得られないという問題がある。
【0005】
一つの態様では、ノイズが重畳した画像を用いて機械学習を行なっても、高精度の機械学習を行なえるプログラム等を提供することを目的とする。
【課題を解決するための手段】
【0006】
プログラムは、画像データを取得し、取得した前記画像データを複数のピクセルバリュー範囲に基づいてそれぞれスライスすることにより、複数のスライス画像データを生成し、コンボリューション層とプーリング層とを繰り返して構成した複数のストリームが相互に並列に配置されており、複数の前記ストリームのそれぞれに生成した前記スライス画像データを入力することにより、複数の前記スライス画像データそれぞれの特徴ベクトルを抽出し、抽出した複数の前記特徴ベクトルを結合して1つの結合特徴ベクトルを生成し、生成した前記結合特徴ベクトルを全結合層に入力して、前記全結合層から出力される推定結果を出力する処理をコンピュータに実行させる。
【発明の効果】
【0007】
一つの態様では、ノイズが重畳した画像を用いて機械学習を行なっても、高精度の機械学習を行なえるプログラム等を提供できる。
【図面の簡単な説明】
【0008】
【
図1】ニューラルネットワークシステムの概要を説明する説明図である。
【
図2】情報処理装置の構成を説明する説明図である。
【
図3】スライス条件DBのレコードレイアウトを説明する説明図である。
【
図6】ストリームの変形例の概要を説明する説明図である。
【
図7】結合特徴ベクトル生成層の概要を説明する説明図である。
【
図8】プログラムの処理の流れを説明するフローチャートである。
【
図9】スライス画像生成のサブルーチンの処理の流れを説明するフローチャートである。
【
図10】スライス画像生成のサブルーチンの変形例の処理の流れを説明するフローチャートである。
【
図11】学習データDBのレコードレイアウトを説明する説明図である。
【
図12】実施の形態2のプログラムの処理の流れを説明するフローチャートである。
【
図13】シミュレーション例-1で用いる画像ノイズの例を説明する説明図である。
【
図14】テストデータに重畳したノイズ量による精度の相違をシミュレーションした結果を示すグラフである。
【
図15】シミュレーション例-2で用いる画像の例を説明する説明図である。
【
図16】画像の輝度による精度の相違をシミュレーションした結果を示すグラフである。
【
図17】画像に重畳したノイズの種類による精度の相違をシミュレーションした結果を示すグラフである。
【
図18】画像に重畳したノイズの種類による精度の相違をシミュレーションした結果を示すグラフである。
【
図19】画像に重畳したノイズの種類による精度の相違をシミュレーションした結果を示すグラフである。
【
図20】実施の形態3のスライス条件DBのレコードレイアウトを説明する説明図である。
【
図21】実施の形態4のニューラルネットワークシステムの概要を説明する説明図である。
【
図22】実施の形態5のスライス部の概要を説明する説明図である。
【
図23】実施の形態5のスライス条件DBのレコードレイアウトを説明する説明図である。
【
図24】実施の形態6の情報処理装置の機能ブロック図である。
【
図25】実施の形態7の情報処理装置の構成を説明する説明図である。
【発明を実施するための形態】
【0009】
[実施の形態1]
図1は、ニューラルネットワークシステム10の概要を説明する説明図である。ニューラルネットワークシステム10は、入力画像41が入力された場合に、入力画像41に対応する分類を推定した推定結果46を出力する。
図1においては、入力画像41が「車」のラベルに対応する確率が5パーセント、「鳥」のラベルに対応する確率が3パーセント、「虎」のラベルに対応する確率が90パーセント等であると出力されている。なお、ニューラルネットワークシステム10の出力は、推定結果に限られない。
【0010】
ニューラルネットワークシステム10は、スライス部11、複数のストリーム12、結合特徴ベクトル生成層16、全結合層13およびソフトマックス層14が、この順番で連結した構成を有する。複数のストリーム12は、スライス部11と結合特徴ベクトル生成層16との間に、相互に平行に配置されている。スライス部11、ストリーム12および結合特徴ベクトル生成層16の構成については後述する。全結合層13は、いわゆる全結合層であり、入力画像41に対応するラベルを出力する。
【0011】
ストリーム12および全結合層13は、機械学習によりそれぞれのパラメータが学習された学習モデル19を構成する。ソフトマックス層14により、全結合層13の出力が各ラベルに対する確率に変換される。ソフトマックス層14から、入力画像41がそれぞれのラベルに対応する画像である確率の予測値が出力される。
【0012】
図2は、情報処理装置20の構成を説明する説明図である。情報処理装置20は、制御部21、主記憶装置22、補助記憶装置23、通信部24、出力部25、入力部26およびバスを備える。制御部21は、本実施の形態のプログラムを実行する演算制御装置である。制御部21には、一または複数のCPU(Central Processing Unit)、GPU(Graphics Processing Unit)またはマルチコアCPU等が使用される。制御部21は、バスを介して情報処理装置20を構成するハードウェア各部と接続されている。
【0013】
主記憶装置22は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の記憶装置である。主記憶装置22には、制御部21が行なう処理の途中で必要な情報および制御部21で実行中のプログラムが一時的に保存される。
【0014】
補助記憶装置23は、SRAM、フラッシュメモリまたはハードディスク等の記憶装置である。補助記憶装置23には、スライス条件DB61、ニューラルネットワークシステム10、制御部21に実行させるプログラム、およびプログラムの実行に必要な各種データが保存される。
【0015】
スライス条件DB61およびニューラルネットワークシステム10は、情報処理装置20に接続された外部大容量記憶装置に記憶されていてもよい。ニューラルネットワークシステム10は、
図1を使用して説明した構成要素ごとに分割して記憶されていても良い。
【0016】
通信部24は、情報処理装置20とネットワークとの間のデータ通信を行なうインターフェイスである。出力部25は、液晶表示装置、または、有機EL(Electro-Luminescence)表示装置等の表示装置である。入力部26は、たとえばキーボード、マウス、タッチパネル、またはマイク等である。
【0017】
本実施の形態の情報処理装置20は、汎用のパーソナルコンピュータ、タブレット、スマートフォン等の情報処理装置である。情報処理装置20は、大型計算機上で動作する仮想マシンであっても良い。情報処理装置20は、分散処理を行なう複数のパソコン、または大型計算機等のハードウェアにより構成されても良い。情報処理装置20は、クラウドコンピューティングシステムまたは量子コンピュータにより構成されても良い。情報処理装置20は、データセンターサーバであっても良い。
【0018】
図3は、スライス条件DB61のレコードレイアウトを説明する説明図である。スライス条件DB61は、番号とスライス条件とを関連づけて記録するDBである。スライス条件DB61は、番号フィールドおよび条件フィールドを有する。番号フィールドには、条件の番号が記録されている。条件フィールドには、スライス部11の動作条件が規定されている。
【0019】
たとえば、
図3の番号1では、入力画像41を構成する画素のうち、赤色の成分のピクセルバリューが最大輝度の80パーセント以上100パーセント以下の画素を選択することが規定されている。同様に、
図3の番号8では、入力画像41を構成する画素のうち、緑色の成分のピクセルバリューが最大輝度の40パーセント以上60パーセント未満の画素を選択することが規定されている。
【0020】
赤色、緑色、青色のそれぞれが8ビット、すなわち0から255までの256階調で表現されるカラー画像を入力画像41に使用する場合を例にして、具体的に説明する。前述の「赤色の成分のピクセルバリューが最大輝度の80パーセント以上100パーセント以下の画素」は、「赤色の階調が204以上255以下である画素」である。同様に、「緑色の成分のピクセルバリューが最大輝度の40パーセント以上60パーセント未満の画素」は、「緑色の階調が102以上153未満である画素」である。
【0021】
図3に示すスライス画像DB61は、例示である。スライス画像DB61のレコード数および条件は、
図3に限定されない。
図3は入力画像41がカラー画像であり、各画素がRGB(Red Green Blue)の3色の成分を有する場合のスライス条件DB61の例を示す。
図3の各レコードは例示であり、これに限定するものではない。入力画像41が白黒画像である場合には、条件フィールドには画素の輝度範囲のみを規定する。
【0022】
図3においては、赤色、緑色、青色の各色の輝度をそれぞれ5等分にする例を示すが、たとえば青色は5等分にして、緑色は8等分にする等、色により分割数が異なっていても良い。分割は等分に限定しない。たとえば輝度が低い部分を細かく分割する等、任意の条件のスライス条件DB61を使用できる。
【0023】
スライス条件DB61には、各ピクセルの赤色、緑色、青色の3色のピクセルバリューの合計値に基づいて定めた条件が記録されていても良い。スライス条件DB61には、たとえば赤色と緑色等の2色のピクセルバリューの合計に基づいて定められた条件が記録されていても良い。
【0024】
図4は、スライス部11の概要を説明する説明図である。スライス部11により入力画像41からスライス画像42が生成される。スライス部11は、スライスDB61に基づいて動作する。1枚の入力画像41から、スライスDB61に記録されたレコード数と同数のスライス画像42が生成される。
【0025】
図3の番号1のレコードに対応するスライス画像42の生成について説明する。入力画像41の各画素から赤色の成分のみが抽出される。入力画像41を構成する画素のうち赤色の成分が最大輝度の80パーセント以上100パーセント未満の画素以外の画素のピクセルバリューは、ゼロに設定される。
【0026】
同様に、
図3の番号8のレコードに対応するスライス画像42の生成について説明する。入力画像41の各画素から緑色の成分のみが抽出される。入力画像41を構成する画素のうち緑色の成分が最大輝度の40パーセント以上60パーセント未満の画素以外の画素のピクセルバリューは、ゼロに設定される。その後、緑色の成分が0パーセントから100パーセントになるように、正規化される。
【0027】
スライス部11は、制御部21で動作するプログラムにより実現されても、ハードウェアにより実現されても良い。以下の説明においては、スライス部11がプログラムにより実現される場合を例にして説明する。
【0028】
なお、ニューラルネットワークシステム10には全画素のピクセルバリューを正規化した入力画像41が入力されることが望ましい。入力画像41を正規化しておくことで、スライス部11から出力される各スライス画像42に入力画像41に含まれる情報が反映される。その結果、ストリーム12の機能が十分に発揮される。以下の説明においては、正規化されていない入力画像41が入力された場合に、正規化の処理を行なった後にニューラルネットワークシステム10に入力するプログラムの例を説明する。具体的な正規化の処理については後述する。
【0029】
図5は、ストリーム12の概要を説明する説明図である。ストリーム12は、コンボリューション層121とプーリング層122との繰り返しを複数組含む。ストリーム12に入力されたスライス画像42から、1次元の特徴ベクトル43が抽出される。
【0030】
ニューラルネットワークシステム10に含まれる複数のストリーム12には、それぞれ同数のコンボリューション層121とプーリング層122とが含まれていても、異なる数のコンボリューション層121とプーリング層122とが含まれていても良い。
【0031】
ストリーム12の一部または全部は、たとえばVGG16、VGG19またはResNet等の、公知の学習済モデルに含まれるコンボリューション層およびプーリング層であってもよい。ストリーム12の一部または全部は、これらの公知の学習済モデルに含まれるコンボリューション層およびプーリング層に追加で学習させた層であってもよい。
【0032】
図6は、ストリーム12の変形例の概要を説明する説明図である。変形例のストリーム12は、プーリング層122の出力と、次のプーリング層122の出力とを接続するスキップコネクション17を有する。
【0033】
1つのストリーム12は、複数のスキップコネクション17を有してもよい。ニューラルネットワークシステム10に、スキップコネクション17を有するストリーム12と、スキップコネクション17を有さないストリーム12とが含まれていてもよい。
【0034】
図7は、結合特徴ベクトル生成層16の概要を説明する説明図である。結合特徴ベクトル生成層16は、それぞれのストリーム12により抽出された複数の特徴ベクトル43を結合して、一つの結合特徴ベクトル44を生成する。
図7において二点鎖線で囲んで示す[A
1,A
2,A
3 ‥‥‥]
T、[B
1,B
2,B
3 ‥‥‥]
T等は、それぞれ一つのストリーム12から出力された特徴ベクトル43を示す。
【0035】
それぞれの特徴ベクトル43に「0」の成分を加えて次元をそろえた後に加算することにより、すべての特徴ベクトル43を結合した結合特徴ベクトル44が生成される。結合特徴ベクトル生成層16は、制御部21で動作するプログラムにより実現されても、ハードウェアにより実現されても良い。以下の説明においては、結合特徴ベクトル生成層16がプログラムにより実現される場合を例にして説明する。
【0036】
ニューラルネットワークシステム10は、バッチノーマライズ層を有してもよい。たとえば、ストリーム12を構成する一部のコンボリューション層121とプーリング層122との間に、バッチノーマライズ層を配置できる。バッチノーマライズ層を設けることにより、迅速に学習可能なニューラルネットワークシステム10を実現できる。
【0037】
機械学習によりストリーム12および全結合層13のパラメータが十分に調整された後に、ニューラルネットワークシステム10全体が調整済のパラメータを用いたハードウェアにより構成されても良い。
【0038】
図8は、プログラムの処理の流れを説明するフローチャートである。制御部21は、入力画像41に対応する画像データを取得する(ステップS501)。入力画像41は、たとえば補助記憶装置23に記憶されている。制御部21は、ネットワークを介して外部から入力画像41を取得しても良い。制御部21は、図示を省略するカメラから入力画像41を取得しても良い。入力画像41は、動画であっても良い。入力画像41が動画である場合には、制御部21は1フレームごとに以後に示す処理を実行する。
【0039】
制御部21は、スライス画像生成のサブルーチンを起動する(ステップS502)。スライス画像生成のサブルーチンは、入力画像41から複数のスライス画像42に対応する画像データを生成するサブルーチンである。制御部21は、スライス画像生成のサブルーチンによりスライス部11の機能を実現する。
【0040】
制御部21は、それぞれのスライス画像42をストリーム12に入力して特徴ベクトル43を抽出する(ステップS503)。制御部21は、複数のステップS503を並列で処理する。制御部21は、複数のステップS503を1個ずつ順番に処理しても良い。制御部21は、ステップS503によりストリーム12の機能を実現する。
【0041】
制御部21は、
図7を使用して説明したように、それぞれのスライス画像42から抽出された特徴ベクトル43を結合して、結合特徴ベクトル44を生成する(ステップS504)。
【0042】
制御部21は、結合特徴ベクトル44を全結合層13に入力して、出力を取得する(ステップS505)。制御部21は、全結合層13の出力をソフトマックス層14に入力して、入力画像41が各ラベルに対応する確率を示す推定結果46を取得する(ステップS506)。
【0043】
制御部21は、出力部25から推定結果46を出力する(ステップS507)。たとえば制御部21は、推定結果46から確率が最も大きいラベルを抽出して出力する。制御部21は推定結果46から所定の閾値を超える確率を示すラベルを抽出して出力しても良い。その後、制御部21は処理を終了する。
【0044】
なお、結合特徴ベクトル生成層16以降のネットワーク構成は例示であり、これに限定されるものではない。
【0045】
確率の数値を出力する必要がなく、確率が最も大きいラベルを抽出して出力する場合には、ソフトマックス層14は存在しなくても良い。制御部21は、全結合層13の出力のうち、最も大きい出力に対応するラベルを出力することにより、確率が最も大きいラベルを出力できる。
【0046】
同様に、推定結果46から確率が大きい方から所定数のラベルを抽出して出力する場合にも、ソフトマックス層14は存在しなくても良い。全結合層13の出力のうち、制御部21は、大きい方から所定数の出力に対応するラベルを出力することにより、確率が大きい方から所定数のラベルを出力できる。
【0047】
制御部21は、全結合層13を使用する代わりに、結合特徴ベクトル生成層16から出力された結合特徴ベクトル44の回帰分析等の任意の手法に基づく演算を行ない、推定結果を出力しても良い。
【0048】
全結合層13に、結合特徴ベクトル生成層16から出力される結合特徴ベクトル44に加えて、他のCNN(Convolutional Neural Network)等を用いて音声またはテキストから抽出された任意の特徴ベクトルが入力されても良い。前述のとおり、それぞれのストリーム12のコンボリューション層121およびプーリング層122の数は異なっていても良い。そのほか、それぞれのストリーム12は、異なるネットワークであってもよい。
【0049】
たとえば、入力画像41から抽出された結合特徴ベクトル44と、入力画像41の撮影時に録音された音声から抽出された音声特徴ベクトルとを、全結合層13に入力することにより、推定結果46の精度を高めることができる。
【0050】
動画から1フレーム分のデータを抽出して入力画像41を生成しても良い。入力が動画である場合、結合特徴ベクトル44と、動画から抽出された動きベクトルとを、全結合層13に入力してもよい、被写体がユーザからの動作指令に基づいて動作するロボット等である場合、結合特徴ベクトル44と、被写体に対する動作指令とを、全結合層13に入力してもよい。
【0051】
車両またはロボット等の移動体に搭載したカメラを用いて動画を撮影した場合、結合特徴ベクトル44と、移動体に対する動作指令とを、全結合層13に入力してもよい。動画に撮影された被写体に関する推定結果46の精度を高めることができる。なお、全結合層13へ入力するデータは、上記の例示に限定されない。
【0052】
図9は、スライス画像生成のサブルーチンの処理の流れを説明するフローチャートである。スライス画像生成のサブルーチンは、入力画像41から複数のスライス画像42を生成するサブルーチンである。
【0053】
制御部21は、処理中の入力画像41のコピー画像を作成する(ステップS510)。以後の処理は、コピー画像に対して実行される。制御部21はコピー画像を構成する全画素のピクセルバリューを正規化する(ステップS511)。
【0054】
白黒画像等、1つの色の濃淡で表現された画像を正規化する場合を例にして説明を続ける。正規化は、たとえば(1)式に基づいて行う。
【0055】
【数1】
I(x,y)は、座標(x,y)の画素のピクセルバリューである。
S(x,y)は、座標(x,y)の画素の正規化後のピクセルバリューである。
Imaxは、コピー画像を構成する画素の最大値である。
Iminは、コピー画像を構成する画素の最小値である。
Aは、スライス画像の階調数である。
【0056】
カラー画像等の、それぞれの画素が複数の成分を有する画像を正規化する場合には、それぞれの成分を(1)式により正規化できる。たとえば、各画素がRGBの3色の成分を有するカラー画像である場合、R成分、G成分、B成分をそれぞれ独立して正規化する。
【0057】
(1)式は正規化する方法の一例である。制御部21は、ガンマカーブに相当する係数を積算する、または、所定の変換テーブルを用いてピクセルバリューを変換する等の、任意の方法によりコピー画像のピクセルバリューを正規化できる。
【0058】
制御部21は、スライス条件DB61から1つのレコードに記載されたスライス条件を取得する(ステップS512)。制御部21は、コピー画像を構成する一画素のピクセルバリューを取得する(ステップS513)。
【0059】
制御部21は、ステップS513で取得したピクセルバリューがステップS512で取得した条件に合致するか否かを判定する(ステップS514)。合致しないと判定した場合(ステップS514でNO)、制御部21は処理中の画素のピクセルバリューを0にする(ステップS515)。
【0060】
条件に合致すると判定した場合(ステップS514でYES)、またはステップS515の終了後、制御部21はコピー画像を構成する全画素の処理を終了したか否かを判定する(ステップS516)。終了していないと判定した場合(ステップS516でNO)、制御部21はステップS513に戻る。
【0061】
ステップS513からステップS516までの処理の繰り返しにより、ステップS510で作成したコピー画像が、ステップS512で取得したレコードに対応するスライス画像42に変換される。全画素の処理を終了したと判定した場合(ステップS516でYES)、制御部21はスライス画像42を補助記憶装置23に記録する(ステップS517)。
【0062】
制御部21は、スライス条件DB61に記録された全条件の処理を終了したか否かを判定する(ステップS518)。終了していないと判定した場合(ステップS518でNO)、制御部21はステップS510に戻る。終了したと判定した場合(ステップS518でYES)、制御部21は処理を終了する。
【0063】
マルチコアCPU等の並列処理が可能な制御部21を使用する場合、制御部21はステップS513からステップS516までのループ、または、ステップS510からステップS518までのループを並列して複数実行しても良い。プログラムの実行速度を高速化できる。
【0064】
図10は、スライス画像生成のサブルーチンの変形例の処理の流れを説明するフローチャートである。本変形例においては、制御部21は入力画像41を構成する画素ごとに、どのスライス条件に対応するかを判定する。
【0065】
制御部21は、処理中の入力画像41のコピー画像を、スライス条件DB61に記録されたレコードの数と同数、すなわち作成するスライス画像と同数作成する(ステップS550)。制御部21は、それぞれのコピー画像と、スライス条件DB61の番号フィールドに記録されているスライス条件の番号とを関連づけて、主記憶装置22または補助記憶装置23に一時的に記録する。以後の処理は、それぞれのコピー画像に対して実行される。
【0066】
制御部21は、それぞれのコピー画像を構成する全画素のピクセルバリューを正規化する(ステップS551)。正規化は、たとえば前述の(1)式に基づいて行う。制御部21は、コピー画像を構成する未処理の一画素のピクセルバリューを取得する(ステップS552)。未処理の画素であるため、ステップS552で取得するピクセルバリューは、ステップS551で作成したすべてのコピー画像において共通である。
【0067】
制御部21は、スライス条件DB61から1つのレコードに記載されたスライス条件を取得する(ステップS553)。制御部21は、ステップS552で取得したピクセルバリューがステップS553で取得した条件に合致するか否かを判定する(ステップS554)。
【0068】
合致しないと判定した場合(ステップS554でNO)、制御部21はステップS553で取得したスライス条件に対応するコピー画像を選択する(ステップS555)。制御部21は、ステップS555で選択したコピー画像のうち、処理中の画素のピクセルバリューを0にする(ステップS556)。
【0069】
条件に合致すると判定した場合(ステップS554でYES)、またはステップS556の終了後、制御部21はスライス条件DB61に記録されたすべてのスライス条件の処理を終了したか否かを判定する(ステップS557)。終了していないと判定した場合(ステップS557でNO)、制御部21はステップS553に戻る。
【0070】
終了したと判定した場合(ステップS557でYES)、制御部21はすべての画素の処理を終了したか否かを判定する(ステップS558)。終了していないと判定した場合(ステップS558でNO)、制御部21はステップS552に戻る。
【0071】
終了したと判定した場合(ステップS558でYES)、制御部21は処理を終了した1枚のコピー画像を選択する(ステップS559)。制御部21はスライス画像42を補助記憶装置23に記録する(ステップS560)。制御部21は、すべてのコピー画像の処理を終了したか否かを判定する(ステップS561)。終了していないと判定した場合(ステップS561でNO)、制御部21はステップS559に戻る。終了したと判定した場合(ステップS561でYES)、制御部21は処理を終了する
【0072】
マルチコアCPU等の並列処理が可能な制御部21を使用する場合、制御部21はステップS553からステップS557までのループ、または、ステップS552からステップS558までのループを並列して複数実行しても良い。プログラムの実行速度を高速化できる。
【0073】
図1の推定結果46に示す「車」、「鳥」、「虎」等のラベルは例示であり、これに限定するものではない。たとえば、入力画像41は人物の画像であり、推定結果46は「年齢」、「性別」、「職業」等の属性を示すラベルであっても良い。入力画像41は人物の画像であり、推定結果46は、「上機嫌」、「怒り」、「悲しみ」等の感情を示すラベルであっても良い。
【0074】
ノイズが重畳した画像を用いて機械学習を行なった場合の効果については、実施の形態2の説明の後に説明する。
【0075】
[実施の形態2]
本実施の形態は、ニューラルネットワークシステム10の機械学習を行なうプログラムに関する。実施の形態1と共通する部分については、説明を省略する。
【0076】
図11は、学習データDBのレコードレイアウトを説明する説明図である。学習データDBは、画像と、ラベルと、カテゴリとを関連づけて記録したデータベースであり、ニューラルネットワークシステム10の学習およびテストに使用される。学習データDBに記録された学習データは、訓練データまたは教師データと呼ばれる場合もある。同様に学習データDBは、訓練データDBまたは教師データDBと呼ばれる場合もある。
【0077】
学習データDBは、画像データフィールド、ラベルフィールド、およびカテゴリフィールドを有する。画像データフィールドは、第1スライス画像フィールド、第2スライス画像フィールド等のサブフィールドを有する。
【0078】
画像データフィールドの各サブフィールドには、スライス画像42に対応する画像データが記録されている。画像データフィールドの各サブフィールドに記録されるスライス画像42のセットは、たとえば
図9または
図10を使用して説明したスライス画像生成のサブルーチンに元画像を入力することにより生成できる。スライス画像42のセットは、GPUにより生成されてもよい。スライス画像42のセットは、スライス画像42の生成用にカスタマイズされたASIC(Application Specific Integrated Circuit)等のハードウェアを用いて生成されてもよい。
【0079】
ラベルフィールドには、それぞれの元画像に関連付けられたラベルが記録されている。ラベルは、たとえば整数である。カテゴリフィールドには、それぞれの元画像に関連づけられたカテゴリが記録されている。
【0080】
なお、
図11に示す学習データDBは一例である。ニューラルネットワークシステム10は、
図11に示す学習データDBとは異なる学習データを用いて生成し、テストすることも可能である。
【0081】
図12は、実施の形態2のプログラムの処理の流れを説明するフローチャートである。本実施の形態では、情報処理装置20を用いて機械学習を行なう場合を例にして説明する。
図12のプログラムは情報処理装置20とは別のハードウェアで実行され、機械学習が完了したニューラルネットワークシステム10が補助記憶装置23に複写されても良い。一つのハードウェアで学習させたニューラルネットワークシステム10を、複数の情報処理装置20で使用できる。
【0082】
図12のプログラムの実行に先立ち、
図1を使用して説明した構成を備えるニューラルネットワークモデルが準備されている。
図12のプログラムにより、準備されたニューラルネットワークモデルの各パラメータが調整される。
【0083】
制御部21は、学習データDBから1エポックの学習に使用する学習レコードを取得する(ステップS521)。1エポックの学習に使用する学習レコードの数は、いわゆるハイパーパラメータであり、適宜定められている。
【0084】
制御部21は、
図1を使用して説明したそれぞれのストリーム12に学習レコードに記録されたスライス画像42が入力された場合に、ソフトマックス層14から正解ラベルが出力されるように、ストリーム12および全結合層13のパラメータを調整する(ステップS522)。
【0085】
制御部21は、処理を終了するか否かを判定する(ステップS523)。たとえば、制御部21は所定のエポック数の学習を終了した場合に、処理を終了すると判定する。制御部21は、学習データDBからテストデータを取得してニューラルネットワークシステム10に入力し、所定の精度の出力が得られた場合に処理を終了すると判定しても良い。
【0086】
処理を終了しないと判定した場合(ステップS523でNO)、制御部21はステップS521に戻る。処理を終了すると判定した場合(ステップS523でYES)、制御部21は学習済のニューラルネットワークシステム10のパラメータを補助記憶装置23に記録する(ステップS524)。その後、制御部21は処理を終了する。以上の処理により、学習済のニューラルネットワークシステム10が生成される。
【0087】
なお、学習データDBには元画像のみが記録されていても良い。そのようにする場合には、制御部21は機械学習を行なう都度スライス画像生成のサブルーチンを起動してスライス画像42を生成する。ストリーム12の数を適宜変更したニューラルネットワークシステム10を生成できる。
【0088】
[シミュレーション例-1]
本実施の形態のニューラルネットワークシステム10の効果を説明する第1のシミュレーションについて説明する。
図13は、シミュレーション例-1で用いる画像ノイズの例を説明する説明図である。
図13Aは、入力画像41の例を示す。
図13Bおよび
図13Cは、入力画像41に黒点ノイズをランダムに重畳させたノイズ重畳画像49の例を示す。
図13Bにおいては、入力画像41の面積の30パーセントが黒点ノイズに覆われており、ノイズ量は30パーセントである。
図13Cにおいては、入力画像41の面積の50パーセントが黒点ノイズに覆われており、ノイズ量は50%である。
【0089】
図14は、テストデータに重畳したノイズ量による精度の相違をシミュレーションした結果を示すグラフである。
図14の横軸は、機械学習の学習回数を示すエポック数である。エポック数が大きいほど、ニューラルネットワークシステム10の学習回数が多いことを意味する。
図14の縦軸は、学習後のニューラルネットワークシステム10の精度である。
【0090】
6本のプロットは、ニューラルネットワークシステム10の精度評価に使用するテストデータおよびニューラルネットワークシステム10の構造の相違を示す。各プロットの意味を、表1に示す。なお、以下の説明においては、スライスDB61において赤色、緑色、青色をそれぞれn個に等分する場合を例にして説明する。ストリーム12の数は、nで示す。すなわち、
図3に例示するスライスDB61は、5個のストリーム12を有するニューラルネットワークシステム10と組み合わせて使用される。
【0091】
なお、入力画像はRGB画像に限定しない。前述のとおり、入力画像は白黒画像であっても良い。入力画像は、たとえば、CYMK(Cyan, Magenta, Yellow, Key plate)画像であってもよい。入力画像は、可視光領域に加えて赤外線領域等の不可視光領域を含む多成分画像であってもよい。
【0092】
【0093】
各プロットは、ノイズを含まない入力画像41を用いて横軸に示すエポック数の学習を行なったニューラルネットワークシステム10に、表1で示す条件のノイズを重畳したテストデータを入力し、出力ラベルの正解率を算出した結果を示す。
【0094】
具体的には、太い実線および細い実線は、訓練データDBから選択された画像データをそのままテストデータに使用した場合の結果を示す。太い破線および細い破線は、訓練DBから選択された画像データに30%のノイズを重畳したテストデータを使用した場合の結果を示す。太い二点鎖線および細い二点鎖線は、訓練DBから選択された画像データに30%のノイズを重畳したテストデータを使用した場合の結果を示す。
【0095】
なお、n=1である場合には、ニューラルネットワークシステム10は複数のストリーム12を備えない従来のCNNと同等である。したがって、n=1である場合を比較例に使用することにより、本実施の形態のニューラルネットワークシステム10の効果が示される。
【0096】
太い実線と細い実線とを比較した場合、いずれもエポック数50回程度で60パーセント程度の精度が得られる。すなわち、テストデータにノイズが重畳していない場合には、ストリーム12を複数使うことによる効果はみられない。
【0097】
太い破線の精度は50パーセント程度であり、細い破線の精度は30パーセント程度である。したがってテストデータに30パーセントのノイズが重畳している場合には、5個のストリーム12を使用することにより、比較例に比べて約1.7倍の精度が得られている。
【0098】
太い二点鎖線の精度は40%程度であり、細い二点鎖線の精度は20パーセント程度である。したがってテストデータに50パーセントのノイズが重畳している場合には、5個のストリーム12を使用することにより、比較例に比べて約2倍の精度が得られている。
【0099】
以上により、本実施の形態のニューラルネットワークシステム10は、入力画像41にノイズが重畳している場合でも、高い精度の結果を出力する。
【0100】
[シミュレーション例-2]
本実施の形態のニューラルネットワークシステム10の効果を説明する第2のシミュレーションについて説明する。
図15は、シミュレーション例-2で用いる画像ノイズの例を説明する説明図である。シミュレーション例-1と共通する部分については、説明を省略する。
【0101】
図15Aは、適正な条件で撮影された入力画像41の例を示す。
図15Bは、
図15Aに画像処理を施して、暗い画像を模擬した入力画像41の例を示す。
図15Bは、たとえば曇りの日、または、夜などに撮影された低輝度の画像を模擬している。
【0102】
図16は、画像の輝度による精度の相違をシミュレーションした結果を示すグラフである。
図16の横軸は、機械学習の学習回数を示すエポック数である。
図16の縦軸は、学習後のニューラルネットワークシステム10の精度である。
【0103】
本シミュレーション例においては、適正な条件で撮影された画像を学習データに使用して機械学習を行なう。4本のプロットは、ニューラルネットワークシステム10の構造、および、精度の評価に用いた入力画像41の相違を示す。各プロットの意味を、表2に示す。
【0104】
【0105】
太い実線と細い実線とを比較した場合、エポック数70回程度まではストリームが6個の方が高い精度が得られる。エポック数が80回を超えた場合、ストリーム12の数による精度の相違はみられない。すなわち、適正な輝度の画像に関しては、十分なエポック数の機械学習を行えばストリーム12を複数使うことによる効果はみられない。
【0106】
太い破線および細い破線で示すように、エポック数が70回程度までは、暗い入力画像41をテストデータに使用した場合には、適正な輝度の入力画像41をテストデータに使用した場合に比べて50パーセント程度精度が低下する。暗い画像に関しては、エポック数が80回を超えていても、複数のストリーム12を使用した場合に、比較例に比べて約10パーセント程度の高い精度が得られている。
【0107】
すなわち、複数のストリーム12を使用して、十分なエポック数の学習を行なうことにより、暗い入力画像41を入力した場合に、比較例に比べて高精度な判定を行なえる。
【0108】
[シミュレーション例-3]
本実施の形態のニューラルネットワークシステム10の効果を説明する第3のシミュレーションについて説明する。
【0109】
図17から
図19は、画像に重畳したノイズの種類による精度の相違をシミュレーションした結果を示すグラフである。
図17から
図19の横軸は、機械学習の学習回数を示すエポック数である。
図17から
図19の縦軸は、学習後のニューラルネットワークシステム10の精度である。
【0110】
図17から
図19の各プロットは、ノイズを含まない入力画像41を用いて横軸に示すエポック数の学習を行なったニューラルネットワークシステム10に、それぞれの種類のノイズを重畳したテストデータを入力し、出力ラベルの正解率を算出した結果を示す。太い実線はストリーム数が5個の場合の精度を、細い実線はストリーム数が1個の場合の精度をそれぞれ示す。
【0111】
図17は、テストデータに霧状(Fog corruption)のノイズが重畳した例を示す。
図18は、テストデータに霜状(Frost corruption)ノイズが重畳した例を示す。
図19は、テストデータにガウシアンノイズ(Gaussian Noise)が重畳した例を示す。画像にそれぞれのタイプのノイズを重畳する方法は公知であるため、説明を省略する。
【0112】
なお、
図17~
図19は、画像に重畳するノイズの影響をシミュレーションした結果の例示である。図示を省略するが、これらの3種類以外のノイズを重畳させてシミュレーションした場合であっても、同様の結果が得られている。
【0113】
いずれの種類のノイズを重畳した場合であっても、複数のストリーム12を使う方が高い精度が得られている。
【0114】
本実施の形態によると、ノイズの影響を受けにくいニューラルネットワークシステム10を提供できる。本実施の形態によると、暗い入力画像41に対しても比較的精度の高い判定を行なうニューラルネットワークシステム10を提供できる。
【0115】
[実施の形態3]
本実施の形態は、スライス画像42を作成する条件の一部が重複しているニューラルネットワークシステム10に関する。実施の形態1と共通する部分については、説明を省略する。
【0116】
図20は、実施の形態3のスライス条件DB61のレコードレイアウトを説明する説明図である。本実施の形態のスライス条件DB61のフィールド構成は、
図3を使用して説明した実施の形態1のスライス条件DB61のフィールド構成と同様であるため、説明を省略する。
【0117】
たとえば、
図20の番号1では、入力画像41を構成する画素のうち、赤色の成分が最大輝度の80パーセント以上100パーセント以下の画素を選択することが規定されている。番号2では、入力画像41を構成する画素のうち、赤色の成分が最大輝度の60パーセント以上85パーセント未満の画素を選択することが規定されている。
【0118】
したがって、番号1のレコードに規定された条件と、番号2のレコードに規定された条件とで、赤色の成分が80パーセント以上85パーセント未満の範囲は重複している。重複した範囲を満たす画素は、番号1のレコードに対応するスライス画像42と、番号2のレコードに対応するスライス画像42との両方に含まれる。
【0119】
本実施の形態によると、スライス画像42を生成する条件の一部が重複していることにより、さらにノイズの影響を受けにくいニューラルネットワークシステム10を提供できる。
【0120】
[実施の形態4]
本実施の形態は、追加層15を有するニューラルネットワークシステム10に関する。実施の形態1と共通する部分については、説明を省略する。
【0121】
図21は、実施の形態4のニューラルネットワークシステム10の概要を説明する説明図である。本実施の形態のニューラルネットワークシステム10は、それぞれのストリーム12に追加層15が接続されている。それぞれの追加層15は、結合特徴ベクトル生成層16に接続されている。
【0122】
追加層15は、機械学習により学習可能なパラメータを有する。追加層15は、たとえば
y(x)=α・x
αは、学習可能なパラメータ
の式で表現されるLA(Linear Activation layer)である。
【0123】
追加層15は、シグモイド関数、ステップ関数、またはReLu関数等の任意の関数を用いた活性化層であっても良い。複数の追加層15のそれぞれに、異なる関数が用いられていても良い。追加層15は、一部のストリーム12のみに接続されており、他の追加層15は結合特徴ベクトル生成層16に直接接続されていても良い。
【0124】
追加層15のパラメータは、ストリーム12および全結合層13のパラメータと同時に、機械学習により定められる。すなわち、ストリーム12および全結合層13の機械学習と同時に、追加層15の機械学習も行われる。機械学習によって調整された追加層15のパラメータは、ストリーム12および全結合層13のパラメータと同様に記録される。
【0125】
本実施の形態によると、ノイズの影響を受けにくいニューラルネットワークシステム10を提供できる。
【0126】
[実施の形態5]
本実施の形態は、入力画像41を座標に基づいてスライスするニューラルネットワークシステム10に関する。実施の形態1と共通する部分については、説明を省略する。
【0127】
図22は、実施の形態5のスライス部11の概要を説明する説明図である。
図22は、1枚の入力画像41を縦横それぞれ4分割して、16枚のスライス画像42を生成するスライス部11の例を示す。入力画像41中の位置と、スライス画像42との対応付けを、丸で囲んだ数字で示す。入力画像41およびスライス画像42に、丸で囲んだ数字を含む必要はない。
【0128】
図23は、実施の形態5のスライス条件DB61のレコードレイアウトを説明する説明図である。本実施の形態のスライス条件DB61は、番号フィールドおよび条件フィールドを有する。条件フィールドは、第1座標フィールドおよび第2座標フィールドを有する。番号フィールドには、条件の番号が記録されている。
【0129】
以下の説明では、画像の座標は原点(0、0)を左上にし、横軸は右側が正であり、縦軸は下側が正である場合を例に説明する。第1座標フィールドには、入力画像41を座標に基づいてスライスする際の左上の座標がピクセル単位で記録されている。第2座標フィールドには、入力画像41を座標に基づいてスライスする際の右下の座標がピクセル単位で記録されている。
【0130】
たとえば、
図23の番号1は、入力画像41を構成する画素のうち、左上の座標(0、0)および右下の座標(110、100)の2つの座標で規定した長方形の範囲の画素を選択することが規定されている。
図23の各レコードは例示であり、これに限定するものではない。
【0131】
図23に示す例においては、左右方向では隣接するスライス同士が重複しており、上下方向では隣接するスライス同士が重複していない。左右方向および上下方向のいずれにおいても、隣接するスライス同士が重複していても良い。左右方向および上下方向のいずれにおいても、隣接するスライス同士が重複していなくても良い。
【0132】
スライス条件DB61のレコード数に対応する数のストリーム12を有するニューラルネットワークシステム10が用意されて、機械学習によりパラメータが決定される。
【0133】
スライス条件DB61の各レコードで選択されるスライス画像42の画素数は、レコードごとに異なっていても良い。それぞれのスライス画像42の画素数に対応する数の入力ノードを有するストリーム12が用意されて、機械学習によりパラメータが決定される。
【0134】
本実施の形態によると、大きな入力画像41を処理可能なニューラルネットワークシステム10を提供できる。
【0135】
[実施の形態6]
図24は、実施の形態6の情報処理装置20の機能ブロック図である。情報処理装置20は、画像取得部81、スライス画像生成部82、複数の特徴ベクトル抽出部83、結合特徴ベクトル生成部84および出力部85を有する。複数の特徴ベクトル抽出部83は、互いに並列に接続されている。
【0136】
画像取得部81は、画像データを取得する。スライス画像生成部82は、画像取得部81が取得した画像データに基づいて複数のスライス画像データを生成する。特徴ベクトル抽出部83は、スライス画像生成部82が生成したそれぞれのスライス画像データの特徴ベクトル43を抽出する。
【0137】
結合特徴ベクトル生成部84は、複数の特徴ベクトル抽出部83がそれぞれ抽出した特徴ベクトル43を結合して、一つの結合特徴ベクトル44を生成する。出力部85は、結合特徴ベクトル生成部84が生成した結合特徴ベクトル44を全結合層13に入力して、全結合層13から出力される推定結果46を出力する。
【0138】
[実施の形態7]
本実施の形態は、汎用のコンピュータ90とプログラム97とを組み合わせて動作させることにより、本実施の形態の情報処理装置20を実現する形態に関する。
図25は、実施の形態7の情報処理装置20の構成を示す説明図である。実施の形態1と共通する部分については、説明を省略する。
【0139】
本実施の形態の情報処理装置20は、コンピュータ90を含む。コンピュータ90は、制御部21、主記憶装置22、補助記憶装置23、通信部24、出力部25、入力部26、読取部29およびバスを備える。コンピュータ90は、汎用のパーソナルコンピュータ、タブレットまたはサーバコンピュータ等の情報機器である。
【0140】
プログラム97は、可搬型記録媒体96に記録されている。制御部21は、読取部29を介してプログラム97を読み込み、補助記憶装置23に保存する。また制御部21は、コンピュータ90内に実装されたフラッシュメモリ等の半導体メモリ98に記憶されたプログラム97を読出しても良い。さらに、制御部21は、通信部24および図示しないネットワークを介して接続される図示しない他のサーバコンピュータからプログラム97をダウンロードして補助記憶装置23に保存しても良い。
【0141】
プログラム97は、コンピュータ90の制御プログラムとしてインストールされ、主記憶装置22にロードして実行される。これにより、コンピュータ90は上述した情報処理装置20として機能する。
【0142】
各実施例で記載されている技術的特徴(構成要件)はお互いに組合せ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
今回開示された実施の形態はすべての点で例示であって、制限的なものでは無いと考えられるべきである。本発明の範囲は、上記した意味では無く、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0143】
10 ニューラルネットワークシステム
11 スライス部
12 ストリーム
121 コンボリューション層
122 プーリング層
13 全結合層
14 ソフトマックス層
15 追加層
16 結合特徴ベクトル生成層
17 スキップコネクション
19 学習モデル
20 情報処理装置
21 制御部
22 主記憶装置
23 補助記憶装置
24 通信部
25 出力部
26 入力部
29 読取部
41 入力画像(画像データ)
42 スライス画像
43 特徴ベクトル
44 結合特徴ベクトル
46 推定結果
49 ノイズ重畳画像
61 スライス条件DB
81 画像取得部
82 スライス画像生成部
83 特徴ベクトル抽出部
84 結合特徴ベクトル生成部
85 出力部
90 コンピュータ
96 可搬型記録媒体
97 プログラム
98 半導体メモリ