特開2023-71029 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社アクセルの特許一覧

特開2023-71029情報処理装置、情報処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023071029

(43)【公開日】2023-05-22

(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20230515BHJP

G06N 20/00 20190101ALI20230515BHJP

G06N 3/04 20230101ALI20230515BHJP

G06N 3/08 20230101ALI20230515BHJP

【ＦＩ】

G06T7/00 350C

G06N20/00

G06N3/04

G06N3/08

【審査請求】有

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2021183600

(22)【出願日】2021-11-10

(71)【出願人】

【識別番号】398034168

【氏名又は名称】株式会社アクセル

(74)【代理人】

【識別番号】100104776

【弁理士】

【氏名又は名称】佐野弘

(74)【代理人】

【識別番号】100119194

【弁理士】

【氏名又は名称】石井明夫

(72)【発明者】

【氏名】奥野修二

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096DA02

5L096EA03

5L096EA35

5L096FA16

5L096FA62

5L096FA66

5L096FA69

5L096GA55

5L096HA11

5L096KA04

(57)【要約】

【課題】ＣＮＮを用いた人工知能において、データ量や処理負荷が過大になるのを抑止しつつ高い精度で解析や認識を行える情報処理装置を提供する。
【解決手段】情報処理装置は、元データのうちの少なくとも一部の領域に、元データに対する所定の処理を行う領域としてのフィルタやウインドウを、元データ上における最初に処理を行う位置としての開始位置として設定する開始位置設定部１１４と、元データ上のフィルタやウインドウの設定位置を移動させるストライド値を設定するストライド値設定部１１２と、フィルタやウインドウを用いた所定の処理の内容を設定する処理内容設定部１１５と、所定の処理を行うピクセルシフトダウンサンプル処理部１１ｄを備え、ピクセルシフトダウンサンプル処理部１１ｄは、開始位置を処理の始点とし、ストライド値で処理領域を移動させて複数回行う所定の処理を開始位置ごとに行う。
【選択図】図２

【特許請求の範囲】

【請求項1】

デジタルデータに対して畳み込みニューラルネットワークを用いたデータ処理を行う情報処理装置であって、
前記デジタルデータとしての元データのうちの少なくとも一部の領域に、該元データに対する所定の処理を行う領域としての処理領域を、前記元データ上における前記所定の処理を最初に行う位置としての開始位置として設定する開始位置設定手段と、
前記デジタルデータ上の前記処理領域を移動させる距離としてのストライドの大きさであるストライド値を設定するストライド値設定手段と、
前記所定の処理の内容を設定する処理内容設定手段と、
前記処理領域に対して前記処理内容設定手段で設定された前記所定の処理を行う処理実行手段とを備え、
前記開始位置設定手段は、同一の前記元データの異なる複数の位置に同一の前記処理領域を設定することで複数の前記開始位置を設定し、
前記処理実行手段は、前記開始位置を前記所定の処理の始点とし、前記ストライド値設定手段によって設定された前記ストライド値で前記元データ上の前記処理領域の位置を移動させて複数回行う前記所定の処理を、前記複数の前記開始位置ごとに行うことを特徴とする情報処理装置。

【請求項2】

前記開始位置設定手段は、前記元データ上の一の開始位置を基準位置としたときに、該基準位置に対して所定の距離だけ離れた前記元データ上の一又は複数の位置を他の開始位置として設定することを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記ストライド値は、前記元データが連続する次元方向の所定の移動距離として設定されることを特徴とする請求項１又は２に記載の情報処理装置。

【請求項4】

前記処理実行手段は、処理後のデータのデータ量を前記元データのデータ量以下とするダウンサンプル処理を行うことを特徴とする請求項１乃至３の何れか一つに記載の情報処理装置。

【請求項5】

前記ダウンサンプル処理は、フィルタとしての前記処理領域に対して所定のフィルタ係数を適用して演算するフィルタリング処理を有することを特徴とする請求項４に記載の情報処理装置。

【請求項6】

前記処理実行手段は、同一の前記元データに複数の前記フィルタを用いたフィルタリング処理を行う畳み込み処理手段、及び／又は、同一の前記元データに一の前記フィルタを用いたフィルタリング処理を行う単一フィルタ処理手段、を備えたことを特徴とする請求項５に記載の情報処理装置。

【請求項7】

機械学習の機能を有し、該機械学習によって、前記フィルタのフィルタ係数を設定するフィルタ係数設定手段を備えたことを特徴とする請求項５又は６に記載の情報処理装置。

【請求項8】

前記処理実行手段は、前記ダウンサンプル処理において、ウインドウ枠としての前記処理領域において所定の演算を行うことで前記処理領域のデータ量を減少させるプーリング処理を行うプーリング処理手段を備えたことを特徴とする請求項４乃至７の何れか一つに記載の情報処理装置。

【請求項9】

前記デジタルデータは画像データであることを特徴とする請求項１乃至８の何れか一つに記載の情報処理装置。

【請求項10】

デジタルデータに対して畳み込みニューラルネットワークを用いたデータ処理を行う情報処理装置による情報処理方法であって、
前記デジタルデータとしての元データのうちの少なくとも一部の領域に、該元データに対する所定の処理を行う領域としての処理領域を、前記元データ上における前記所定の処理を最初に行う位置としての開始位置として設定する開始位置設定手順と、
前記デジタルデータ上の前記処理領域を移動させる距離としてのストライドの大きさであるストライド値を設定させるストライド値設定手順と、
前記所定の処理の内容を設定させる処理内容設定手順と、
前記処理領域に対して前記処理内容設定手順において設定された前記所定の処理を行う処理実行手順とを備え、
前記開始位置設定手順においては、同一の前記元データの異なる複数の位置に同一の前記処理領域を設定することで複数の前記開始位置を設定し、
前記処理実行手順においては、前記開始位置を前記所定の処理の始点とし、前記ストライド値設定手順において設定された前記ストライド値で前記元データ上の前記処理領域の位置を移動させて複数回行う前記所定の処理を、前記複数の前記開始位置ごとに行うことを特徴とする情報処理装置による情報処理方法。

【請求項11】

コンピュータを、請求項１乃至９の何れか一つに記載の情報処理装置として機能させることを特徴とするプログラム。

【請求項12】

デジタルデータに対して畳み込みニューラルネットワークを用いたデータ処理を行う情報処理装置であって、
前記デジタルデータに対して単一フィルタ処理を行う単一フィルタ処理手段又はプーリング処理を行うプーリング処理手段と、
前記単一フィルタ処理手段又はプーリング処理手段の出力に対して逆ピクセルシャッフラー処理を行う逆ピクセルシャッフラー手段とを備えたことを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、畳み込みニューラルネットワーク（ＣＮＮ）を用いてデータを処理する情報処理装置及び情報処理方法に関する。

【背景技術】

【0002】

近年、人工知能（ＡＩ）を用いてデータの解析や認識を行うために、畳み込みニューラルネットワーク（ＣＮＮ。以下「ＣＮＮ」と称する。）が多く用いられる。これらのＣＮＮのうち、画像のセグメンテーションを推定するためのものとして、Ｕ－ｎｅｔと称されるネットワークが知られている。

【0003】

Ｕ－ｎｅｔの一般的な構成としては、非特許文献１に記載のように、エンコード側で畳み込み処理とプーリング処理とを順次行うことでダウンサンプルすると共に、エンコード側の各階層の畳み込み結果の一部を特徴マップとしてデコード側の階層に供給し、デコード側ではデータをアップサンプルすると共にエンコード側から供給された特徴マップのデータをクロップしてデータを畳み込みすることで処理が行われる。

【0004】

また、非特許文献２に記載されているように、ｐｉｘ２ｐｉｘというモデルではＵ－ｎｅｔを利用し、画像の領域特定に利用されている。このｐｉｘ２ｐｉｘでは非特許文献１に開示されたＵ－ｎｅｔのプーリング処理に替えて、畳み込みを用いてダウンサンプルしている。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】ＯｌａｆＲｏｎｎｅｂｅｒｇｅｒ、ＰｈｉｌｉｐｐＦｉｓｃｈｅｒ、ａｎｄＴｈｏｍａｓＢｒｏｘ、“Ｕ－Ｎｅｔ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＢｉｏｍｅｄｉｃａｌＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ”、「ＭＩＣＣＡＩ２０１５．ＬＮＣＳ」、Ｓｐｒｉｎｇｅｒ,ｖｏｌ．９３５１、ｐ．２３４－２４１,２０１５

【非特許文献2】ＰｈｉｌｌｉｐＩｓｏｌａＪｕｎ－ＹａｎＺｈｕＴｉｎｇｈｕｉＺｈｏｕＡｌｅｘｅｉＡ．Ｅｆｒｏｓ、“Ｉｍａｇｅ－ｔｏ－ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎｗｉｔｈＣｏｎｄｉｔｉｏｎａｌＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ”、ＢｅｒｋｅｌｅｙＡＩＲｅｓｅａｒｃｈ（ＢＡＩＲ）Ｌａｂｏｒａｔｏｒｙ、ＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ、Ｂｅｒｋｅｌｅｙ、２６Ｎｏｖ２０１８

【発明の概要】

【発明が解決しようとする課題】

【0006】

Ｕ－ｎｅｔ等におけるダウンサンプルは、認識等の場合で利用される特徴抽出という機能以外に多重解像度処理という側面もある。したがって、プーリングでダウンサンプルした場合は特徴抽出という側面が強い半面、多重解像度処理には向かないデータが生成される可能性がある。また、通常の畳み込み処理によるダウンサンプルは計算量が多くなるという課題や、正確なダウンサンプルにならず、用途によっては機械学習の性能が下がるという課題がある。

【0007】

本発明はこのような課題に鑑みてなされたものであり、ＣＮＮを用いた人工知能において、抽出する情報量を落とさず、かつ少ない計算で正確なダウンサンプルを行うことのできる情報処理装置、情報処理方法、プログラムを提供することを課題としている。

【課題を解決するための手段】

【0008】

かかる課題を解決するため、請求項１に係る発明は、デジタルデータに対して畳み込みニューラルネットワークを用いたデータ処理を行う情報処理装置であって、前記デジタルデータとしての元データのうちの少なくとも一部の領域に、該元データに対する所定の処理を行う領域としての処理領域を、前記元データ上における前記所定の処理を最初に行う位置としての開始位置として設定する開始位置設定手段と、前記デジタルデータ上の前記処理領域を移動させる距離としてのストライドの大きさであるストライド値を設定するストライド値設定手段と、前記所定の処理の内容を設定する処理内容設定手段と、前記処理領域に対して前記処理内容設定手段で設定された前記所定の処理を行う処理実行手段とを備え、前記開始位置設定手段は、同一の前記元データの異なる複数の位置に同一の前記処理領域を設定することで複数の前記開始位置を設定し、前記処理実行手段は、前記開始位置を前記所定の処理の始点とし、前記ストライド値設定手段によって設定された前記ストライド値で前記元データ上の前記処理領域の位置を移動させて複数回行う前記所定の処理を、前記複数の前記開始位置ごとに行うことを特徴とする。

【0009】

請求項２に記載の発明は、請求項１に記載の構成に加え、前記開始位置設定手段は、前記元データ上の一の開始位置を基準位置としたときに、該基準位置に対して所定の距離だけ離れた前記元データ上の一又は複数の位置を他の開始位置として設定することを特徴とする。

【0010】

請求項３に記載の発明は、請求項１又は２に記載の構成に加え、前記ストライド値は、前記元データが連続する次元方向の所定の移動距離として設定されることを特徴とする。

【0011】

請求項４に記載の発明は、請求項１乃至３の何れか一つに記載の構成に加え、前記処理実行手段は、処理後のデータのデータ量を前記元データのデータ量以下とするダウンサンプル処理を行うことを特徴とする。

【0012】

請求項５に記載の発明は、請求項４に記載の構成に加え、前記ダウンサンプル処理は、フィルタとしての前記処理領域に対して所定のフィルタ係数を適用して演算するフィルタリング処理を有することを特徴とする。

【0013】

請求項６に記載の発明は、請求項５に記載の構成に加え、前記処理実行手段は、同一の前記元データに複数の前記フィルタを用いたフィルタリング処理を行う畳み込み処理手段、及び／又は、同一の前記元データに一の前記フィルタを用いたフィルタリング処理を行う単一フィルタ処理手段、を備えたことを特徴とする。

【0014】

請求項７に記載の発明は、請求項５又は６に記載の構成に加え、機械学習の機能を有し、該機械学習によって、前記フィルタのフィルタ係数を設定するフィルタ係数設定手段を備えたことを特徴とする。

【0015】

請求項８に記載の発明は、請求項４乃至７の何れか一つに記載の構成に加え、前記ダウンサンプル処理において、ウインドウ枠としての前記処理領域において所定の演算を行うことで前記処理領域のデータ量を減少させるプーリング処理を行うプーリング処理手段を備えたことを特徴とする。

【0016】

請求項９に記載の発明は、請求項１乃至８の何れか一つに記載の構成に加え、前記デジタルデータは画像データであることを特徴とする。

【0017】

請求項１０に記載の発明は、デジタルデータに対して畳み込みニューラルネットワークを用いたデータ処理を行う情報処理装置による情報処理方法であって、前記デジタルデータとしての元データのうちの少なくとも一部の領域に、該元データに対する所定の処理を行う領域としての処理領域を、前記元データ上における前記所定の処理を最初に行う位置としての開始位置として設定する開始位置設定手順と、前記デジタルデータ上の前記処理領域を移動させる距離としてのストライドの大きさであるストライド値を設定させるストライド値設定手順と、前記所定の処理の内容を設定させる処理内容設定手順と、前記処理領域に対して前記処理内容設定手順において設定された前記所定の処理を行う処理実行手順とを備え、前記開始位置設定手順においては、同一の前記元データの異なる複数の位置に同一の前記処理領域を設定することで複数の前記開始位置を設定し、前記処理実行手順においては、前記開始位置を前記所定の処理の始点とし、前記ストライド値設定手順において設定された前記ストライド値で前記元データ上の前記処理領域の位置を移動させて複数回行う前記所定の処理を、前記複数の前記開始位置ごとに行うことを特徴とする。

【0018】

請求項１１に記載の発明は、プログラムであって、コンピュータを、請求項１乃至８の何れか一つに記載の情報処理装置として機能させることを特徴とする。

【0019】

請求項１２に記載の発明は、デジタルデータに対して畳み込みニューラルネットワークを用いたデータ処理を行う情報処理装置であって、前記デジタルデータに対して単一フィルタ処理を行う単一フィルタ処理手段又はプーリング処理を行うプーリング処理手段と、前記単一フィルタ処理手段又はプーリング処理手段の出力に対して逆ピクセルシャッフラー処理を行う逆ピクセルシャッフラー手段とを備えたことを特徴とする。

【発明の効果】

【0020】

本発明によれば、ＣＮＮを用いた人工知能において、データ量や処理負荷が過大になるのを抑止しつつ高い精度で解析や認識を行うことが可能となる。

【図面の簡単な説明】

【0021】

【図1】この実施の形態の情報処理装置の一実施例を示す機能ブロック図である。

【図2】この実施の形態のピクセルシフトダウンサンプル処理部の機能ブロック図である。

【図3】同上情報処理装置におけるストライドの原理とピクセルシフトダウンサンプル（ＰＳＤＳ）の原理とを模式的に示す図である。

【図4】同上情報処理装置におけるダウンサンプル処理の処理手順を示すフローチャートである。

【図5】同上情報処理装置におけるダウンサンプル処理、アップサンプル処理を模式的に示す図である。

【図6】同上情報処理装置におけるアップサンプル処理の処理手順を示すフローチャートである。

【図7】同上情報処理装置におけるフィルタ係数の設定の手順を示すフローチャートである。

【図8】同上情報処理装置におけるフィルタ係数の設定を模式的に示す図である。

【発明を実施するための形態】

【0022】

図１乃至図８に、この実施の形態に係る情報処理装置及び情報処理装置における情報処理方法を示す。以下、この発明の実施の形態について図面を参照して説明する。

【0023】

［基本構成］
まず、この実施の形態の情報処理装置の及び構成について説明する。

【0024】

図１に示す、この実施の形態の情報処理装置１は、人工知能（ＡＩ、以下単に「ＡＩ」と記載する。）を備え、ＡＩによる各種データの解析や認識や、解析や認識に用いたデータの復元を行う。情報処理装置１は、デジタルデータに対してＣＮＮを用いたデータ処理を行う。

【0025】

例えば、この実施の形態の情報処理装置１は、画像データのダウンサンプル処理（処理後のピクセル数を処理前のピクセル数以下とする処理）やアップサンプル処理（処理後のピクセル数を処理前のピクセル数以上とする処理）を行う。ただし、情報処理装置１がこれ以外のいかなるデータのいかなる処理に用いられてもよい。

【0026】

以下、この実施の形態では、情報処理装置１がデジタルデータとしての画像データの解析や認識、そして復元を行うものとして説明する。ただし情報処理装置１が扱うデータは画像データに限らず、例えばデジタルデータとしての音声データや、音声以外の各種デジタルデータを扱うものでもよい。

【0027】

図１に示すとおり、この実施の形態の情報処理装置１は、機能手段として、入力データ取得部１０と、ダウンサンプル部１１と、アップサンプル部１２と、クロップ処理部１３と、「フィルタ係数設定手段」としてのフィルタ係数設定部１４と、記憶部１５と、出力部１６とを備える。ダウンサンプル部１１は、前述のダウンサンプル処理のための一連の処理を行う。ダウンサンプル部１１は、「畳み込み処理手段」としての畳み込み処理部１１ａと、「プーリング処理手段」としてのプーリング処理部１１ｂと、「単一フィルタ処理手段」としての単一フィルタ処理部１１ｃと、「処理実行手段」としてのピクセルシフトダウンサンプル処理部１１ｄ、「逆ピクセルシャッフラー手段」としての逆ピクセルシャッフラー処理部１１ｅを備え、アップサンプル部１２は、前述のアップサンプル処理のための一連の処理を行う。アップサンプル部１２は、「畳み込み処理手段」としての畳み込み処理部１２ａとアップサンプル処理部１２ｂを備えている。これらの機能手段は、いずれもハードウェアやハードウェアとソフトウェア（コンピュータプログラム等）の協働によって構成されるが、これらの機能手段のうちの少なくとも何れか一つがソフトウェアのみによって構成されてもよい。

【0028】

入力データ取得部１０は、情報処理装置１における各種の処理の対象となるデータである、入力データを取得する。図１は、入力データ取得部１０が「元データ」としての入力画像１０１を取得する状態を示している。入力データ取得部１０は、ネットワーク（図示せず）等を介してデータをダウンロードすることにより、当該データを入力データとして取得してもよい。

【0029】

畳み込み処理部１１ａは、画像データ処理において、元データに対して畳み込み処理を行う。具体的には、畳み込み処理部１１ａは、入力するデータの各チャンネルにそれぞれ別のフィルタをかけ、その結果を足し合わせる（バイアス値を含めることもある）。また出力チャンネル毎に入力データに掛け合わせるフィルタ係数は変更される。したがって、入力データが３チャンネル、出力を６チャンネルとする場合には、１８種類のフィルタ及び６つのバイアス値が必要であり、各フィルタ処理では積和演算処理が行われる。

【0030】

プーリング処理部１１ｂは、データに対してデータ数を減少させるプーリング処理を行う。プーリング処理部１１ｂはプーリングの種別を設定するプーリング処理設定機能を含んでおり、設定に応じて、任意の方法で、プーリング処理を実行することができる。プーリング処理設定機能は、例えば、maxプーリング（処理領域であるウインドウ（以下単に「ウインドウ」と称する。）の中にある最大値のデータのみを抽出して他のデータを削除する処理のこと。）や、avgプーリング（ウインドウの中に存在するデータの平均値を算出する処理のこと。）等を設定し、プーリング処理を行うことでダウンサンプリングデータを生成する。

【0031】

単一フィルタ処理部１１ｃは単一のフィルタを用いてデータをフィルタリングする。フィルタリングの方法としては、所定のフィルタ係数と画素データとを積和演算し、フィルタリング結果としてのデジタルデータを得る。上記畳み込み処理部１１ａとの違いは、畳み込み処理では係数が異なる複数のフィルタ係数を用いて、例えば、６４ｃｈや１２８ｃｈ分のデータを生成するのに対し、単一フィルタ処理部１１ｃでは単一のフィルタ係数を用いてフィルタリングする点で相違する。したがって、後述するピクセルシフトダウンサンプル処理部１１ｄの機能を利用しない場合には、入力と同じチャンネル数のフィルタリングデータしか得られない。

【0032】

ピクセルシフトダウンサンプル処理部１１ｄはダウンサンプル処理におけるウインドウ枠の設定や、ストライド値の設定等を行うものであり、その詳細については後述する。また逆ピクセルシャッフラー処理部１１ｅの説明も後述する。

【0033】

クロップ処理部１３はＵ－ｎｅｔで利用されるクロップ処理を行うもので、畳み込み等が行われたデータの中央部分を切り出して特徴マップを生成する。

【0034】

アップサンプル部１２の畳み込み処理部１２ａはダウンサンプル部１１の畳み込み処理部１１ａと同様、入力データに対してフィルタを用いて畳み込み処理を行う。アップサンプル部１２のアップサンプル処理部１２ｂは逆畳み込み（Ｄｅｃｏｎｖｏｌｕｔｉｏｎ）処理やピクセルシャッフラー処理等、ピクセル数を増加させる処理を行う。

【0035】

フィルタ係数設定部１４は、機械学習の出力が所望の値となるようダウンサンプル部１１の畳み込み処理部１１ａ、アップサンプル部１２の畳み込み処理部１２ａ、単一フィルタ処理部１１ｃ、アップサンプル処理部１２ｂなどで使用するフィルタ係数を設定する。

【0036】

記憶部１５には、情報処理装置１により実現する機械学習のネットワークの設計情報等が記憶されていると共に、特徴マップの情報、あるいはダウンサンプル部１１やアップサンプル部１２の処理過程のデータ等が一時的に格納される。

【0037】

出力部１６は、機械学習結果としての出力、例えば機械学習がセグメンテーションに関するものである場合には入力画像に含まれる特定の物体の場所情報が出力される。

【0038】

図２は、ピクセルシフトダウンサンプル処理部１１ｄの機能ブロックを示す図であり、ウインドウ枠設定部１１１、ストライド値設定部１１２、開始位置数設定部１１３、開始位置設定部１１４、処理内容設定部１１５を備える。

【0039】

ウインドウ枠設定部１１１はダウンサンプル処理に用いる各種フィルタのウインドウ枠の大きさを設定し、ストライド値設定部１１２はフィルタ処理におけるウインドウ枠のスライド量を設定する。また開始位置数設定部１１３はピクセルシフトダウンサンプル処理において、各種フィルタリング処理を開始する位置数を設定し、開始位置設定部１１４は各種フィルタリング処理を開始する位置を設定する。処理内容設定部１１５はピクセルシフトダウンサンプル処理において畳み込み処理、プーリング処理、単一フィルタ処理のいずれの処理を行うかを設定する。なお、開始位置数はストライド値と相関を持たせても良く、本実施の形態ではストライド値の二乗としている。すなわち、ストライド値が２の場合、開始位置数は４、ストライド値が３の場合には開始位置数は９となる。ただし、相関を持たせることを限定するものではない。

【0040】

［ピクセルシフトダウンサンプルの原理］
図３は、この実施の形態の情報処理装置におけるダウンサンプル部１１で実行されるピクセルシフトダウンサンプル（ＰＳＤＳ）の原理を模式的に示す図である。なお、この実施の形態においては、ピクセルシフトダウンサンプル処理部１１ｄの各種設定が以下の状態になっている。
ウインドウ枠：２×２、ストライド値：２、開始位置数：４、処理内容設定：単一フィルタ処理。なお、開始位置設定については図３の実施形態にて説明する。

【0041】

例えば、画像データに対し、畳み込み処理に代表される各種のフィルタリング処理や、プーリング処理のようにウインドウを用いてピクセル数を減少させる、ダウンサンプルデータを得る場合を考える。

【0042】

フィルタやウインドウを画像データ上で異なる位置に複数回移動させて複数回の処理を行えば、複数の処理結果が得られる。

【0043】

また、画像データに対する処理の種類、ウインドウ枠の大きさの設定、処理の開始位置を複数用意しておけば、処理の開始位置ごとに、異なった情報を持つ複数の畳み込みデータや、異なった情報を持つ複数のプーリングデータ、異なった情報を持つ単一フィルタリング処理による複数のフィルタリングデータ等、異なった情報を持つ複数のダウンサンプルデータを生成することが可能になる。

【0044】

このように、処理対象となる元データ上で処理の開始位置をずらし、所定の処理を行うことを「ピクセルシフトダウンサンプル（ＰＳＤＳ）」と称する（以下単に「ＰＳＤＳ」と称する。）。

【0045】

図３は、ウインドウ枠が２×２、ストライド値が２（ストライド値設定手順）、開始位置数を４に設定したＰＳＤＳの処理を模式的に示している。ここでは、処理内容としてローパスフィルタを用いた単一フィルタ処理が設定されているものとする。以下４つの開始位置ごとに［処理１］～［処理４］として説明する。

【0046】

［処理１：基準位置を開始位置とする処理］
例えば、先ず図３の（ａ－１）に示すように、「元データ」としての画像データ２０のうちの２行×２列の４つの画素（以下単に「４画素」と称する。）に対して２行×２列のフィルタ処理のウインドウ枠２１（以下単に「フィルタ２１」と称する。）を乗算する行列演算を行い、処理結果としてのデータを得る。このフィルタ２１の中心部分の最初の設置位置を符号３０に示す「基準位置」と言い（以下単に「基準位置」と称する。）、また、このフィルタ２１の設置位置を符号３１に示す。ＰＳＤＳ処理部１１ｄにおける開始位置設定部１１４の設定情報の一つとして、開始位置である符号３１の位置情報（画素番号１、２、６、７がウインドウ枠（フィルタ２１）の中に収まるという情報）が設定されている（開始位置設定手順）。

【0047】

次に、（ａ－２）に示すように、画像データ２０のＸ方向（同図の左右方向。ここでは同図の右方向）にストライド値２（２データ分移動した位置）でフィルタ２１をスライドさせ、次の４画素に対して同じフィルタ２１で行列演算を行い、フィルタリング結果のデータを得る（処理内容設定手順、処理実行手順）。

【0048】

［処理２：右位置を開始位置とする処理］
一方、上記（ａ－１）の基準位置３０におけるフィルタ処理と並行し、（ｂ－１）に示すように、画像データ２０の基準位置３０に対してＸ方向に1画素ずれた位置を新たな開始位置３２とし、４画素（２行×２列）に対して（ａ－１）と同じ係数のフィルタ２１で行列演算を行い、畳み込みデータを得る。ＰＳＤＳ処理部１１ｄにおける開始位置設定部１１４の設定情報の一つとして、前記処理１と同様に、開始位置である符号３２の位置情報（画素番号２、３、７、８がウインドウ枠（フィルタ２１）の中に収まるという情報）が設定されている。この（ｂ－１）の開始位置３２は、基準位置３０に対して右位置となっている（以下この開始位置３２を単に「右位置」と称する。開始位置設定手順）。

【0049】

次に、（ｂ－２）に示すように、画像データ２０の右位置からＸ方向にストライド値２でフィルタ２１をスライドさせ、次の４画素に対してフィルタ２１で行列演算を行い、フィルタリング結果のデータを得る（ストライド値設定手順、処理内容設定手順、処理実行手順）。

【0050】

［処理３：下位置を開始位置とする処理］
さらに、上記基準位置、右位置におけるフィルタ処理と並行し、（ｃ－１）に示すように、画像データ２０の基準位置３０に対してＹ方向（同図の上下方向。ここでは同図の下方向）に1画素ずれた位置を新たな開始位置３３とし、4画素（２行×２列）に対して（ａ－１）と同じ係数のフィルタ２１で行列演算を行い、フィルタリング結果のデータを得る。この場合もＰＳＤＳ処理部１１ｄにおける開始位置設定部１１４の設定情報の一つとして、開始位置である符号３３の位置情報（画素番号６、７、１１、１２がウインドウ枠（フィルタ２１）の中に収まるという情報）が設定されている。この（ｃ－１）の開始位置は、基準位置３０に対して下位置となっている（以下この開始位置３３を単に「下位置」と称する。）となっている（開始位置設定手順）。

【0051】

次に、（ｃ－２）に示すように、画像データ２０の下位置からＸ方向（右方向）にストライド値２でフィルタ２１をスライドさせ、次の４画素に対してフィルタ２１で行列演算を行い、フィルタリング結果のデータを得る（ストライド値設定手順、処理内容設定手順、処理実行手順）。

【0052】

［処理４：斜め位置を開始位置とする処理］
またさらに、上記基準位置、右位置、下位置におけるフィルタ処理と並行し、（ｄ－１）に示すように、画像データ２０の基準位置３０に対して斜め右下方に1画素ずれた位置（Ｘ方向（右方向）とＹ方向（下方向）にそれぞれ１画素ずれた位置）を新たな開始位置３４とし、４画素（２行×２列）に対して（ａ－１）と同じ係数のフィルタ２１で行列演算を行い、フィルタリング結果のデータを得る。ＰＳＤＳ処理部１１ｄにおける開始位置設定部１１４の設定情報の一つとして、開始位置である符号３４の位置情報（画素番号７、８、１２、１３がウインドウ枠（フィルタ２１）の中に収まるという情報）が設定されている。この（ｄ－１）の開始位置３４は、基準位置４０に対して斜め位置（以下単に「斜め位置」と称する。）となっている（開始位置設定手順）。

【0053】

次に、（ｄ－２）に示すように、画像データ２０の斜め位置からＸ方向（右方向）にストライド値２でフィルタをスライドさせ、次の４画素に対してフィルタ２１で行列演算を行い、フィルタリング結果のデータを得る（ストライド値設定手順、処理内容設定手順、処理実行手順）。

【0054】

上記のように開始位置が４（つまり開始位置を４つ設定すること。）に設定されている場合には、４つの開始位置に関する情報が開始位置設定部１１４に設定されている。

【0055】

上記［処理１］～［処理４］においては、基準位置、右位置、下位置、斜め位置を開始位置３１、３２、３３、３４とする画像データ２０のフィルタリング処理において、縮小として動作する単一のフィルタが用いられる。このように単一のフィルタを用いても、画素中心がずれた複数のフィルタリング結果を得ることができる。これにより、フィルタリング処理の位置の偏りをなくすことができる。

【0056】

また、上記［処理１］～［処理４］の後は、それぞれ下記［処理５］が行われる。

【0057】

［処理５：処理の繰り返し］
上記［処理１］～［処理４］の基準位置３０、右位置３２、下位置３３、斜め位置３４を開始位置とするフィルタリング処理を、それぞれ上記と同様にフィルタ２１をＸ方向（右方向）にストライド値２でスライドさせながら画像データ２０の右端まで処理を行い、その後、それぞれ最初の開始位置３１、３２、３３、３４から画像データ２０のＹ方向（下方向）に２ピクセルシフトした位置を新たな開始位置（図示せず）として、上記と同様に、基準位置、右位置、下位置、斜め位置を開始位置とする、画像データ２０に対するフィルタ２１のフィルタリング処理が行われる。

【0058】

例えば、上記［処理１］の基準位置３０を開始位置３１とした演算は、ストライド値２で画像データ２０のＹ方向（下方向）に２画素分シフトした、図３に示す画素Ｎｏ．１１、１２、１６、１７に重なる位置を新たな開始位置（図示せず）とし、このＮｏ．１１、１２、１６、１７の4画素を対象にフィルタ２１のフィルタリングが行われ、その後、上記と同様のフィルタ２１によるフィルタリング処理が繰り返される。

【0059】

上記［処理２］の右位置、上記［処理３］の下位置、上記［処理４］の斜め位置のそれぞれの開始位置３２、３３、３４とするフィルタリングも同様に、当初の開始位置３２、３３、３４からＹ方向（下方向）に２画素分シフトした位置を新たな開始位置（図示せず）として、画像データ２０に対するフィルタ２１によるフィルタリング処理が繰り返される。

【0060】

なお、上記［処理５］は、上記［処理１］乃至［処理４］の少なくとも何れか一つと一連の処理として行ってもよい。また、［処理５］は同一の画像データ２０に対して繰り返し行ってもよい。例えば、上記画像データ２０に対する［処理１］の直後に［処理５］を繰り返し行うことで、一の画像データ２０全体に対して（ａ－１）を開始位置とするフィルタリング処理を行うことができる。また例えば、画像データ２０に対する、［処理１］の直後と、［処理２］乃至［処理４］のそれぞれの直後に［処理５］を繰り返し行うことで、一の画像データ２０全体に対してＰＳＤＳを用いたフィルタリング処理を行うことができる。

【0061】

上記［処理１］～［処理５］に示すように基準位置３０以外に右、下、斜めにそれぞれ一画素ずらした場所を基準に画素中心を設定して畳み込み処理を行うことで、固定された１の基準位置３０のみを基準にフィルタリング処理やプーリング処理を行う場合に比べ、通常の４倍のデータを得ることができ、４倍のデータを用いて学習、推論を行うことができる。そのため、従来のように基準位置が固定的なフィルタリング処理やプーリング処理を行うものと比較し、学習効率や推論結果の質の向上を図ることができる。また、従来の畳み込み処理の場合には多数のフィルタ係数を用いて処理を行う必要があるが、本発明では単一のフィルタ係数を用いながら、多くのフィルタリング処理結果が得られ、ダウンサンプル処理の精度を上げることができる。

【0062】

通常、畳み込みに用いるフィルタ係数はその種類を増やすほど精度が向上するといわれるが、本発明では単一のフィルタ係数を用いているにも関わらず、精度を向上させることができる。なお、ダウンサンプルで用いるフィルタのフィルタ係数は階層毎に同じでも異なっていても良い。

【0063】

この実施の形態では、特定の開始位置から処理が始まるフィルタリング処理によって形成される、２次元方向に連続する一のデータ群を「チャンネル」と称する。例えば、上記［処理１］～［処理５］の場合は、基準位置３０、右位置、下位置、斜め位置を開始位置３１、３２、３３、３４とする４つのデータ群が形成されるので、４チャンネルのフィルタリングデータが生成されることになる。

【0064】

なお、図３に示す事例では、基準位置３０に対して１画素ずれた右位置、下位置、斜め位置をそれぞれ開始位置３１、３２、３３、３４とし、それぞれの開始位置３１、３２、３３、３４からＸ方向（右方向）へのストライド値を２としてフィルタリング処理を行ったが、ストライドの大きさや方向はこれに限定されず、処理されたデータによる学習、推論を適切に行えるものであれば、どのようなストライドの大きさや方向であってもよい。

【0065】

上記説明では２×２のフィルタを用い、ストライド値を２に設定し、１／２の縮小（ピクセル数の減少）とした例を挙げて説明したが、例えば、３×３のフィルタを用い、ストライド値を２に設定して１／２の縮小とすれば、基準位置、右位置、下位置、斜め位置のそれぞれの開始位置はＮｏ．７、Ｎｏ．８、Ｎｏ．１２、Ｎｏ．１３の画素位置となる。これは２×２のフィルタを用いた場合の各開始位置と０．５ピクセルずれた位置でのフィルタリング結果となるので、このように単一フィルタを複数用意して、複数チャンネルのフィルタリングデータを生成することで、より多くのデータを入手するようにしても良い。また、単一フィルタの大きさを変更するのではなく、互いにフィルタ係数が異なり、フィルタ係数が偏ったフィルタを用いて複数チャンネルのフィルタリングデータを生成することで、より多くのデータを入手するようにしても良い。単一フィルタの種類としては、上記実施の形態で説明したように、画像の縮小成分を抽出するものとしてのローパスフィルタを用いても良く、また画像の高周波成分を抽出するためのハイパスフィルタ等を利用しても良い。

【0066】

なお、上記実施の形態では２×２のフィルタを用い、開始位置を画像内の画素が配置された位置に設定したが、開始位置を画像の外部に設定し、フィルタ枠内で画素が存在しない箇所についてはパディング等の処理を行っても良い。またストライド値もＸ方向、Ｙ方向で異なる値を設定しても良い。

【0067】

また、図３に示す事例では、縮小サイズを１／２にするため、ストライド値を２とし、その結果、４つのチャンネルデータを得たが、処理されたデータによる学習、推論を適切に行えるものであれば、チャンネル数は４に限定するものではない（例えば、開始位置を基準位置、右位置、下位置の３つとして、処理結果のチャンネル数を３としたり、開始位置を斜め位置のみとして処理結果のチャンネル数を１にしたりするなど。）。

【0068】

さらに、図３に示す事例では、用いるフィルタ２１を２行×２列の正方行列としたが、これに限定されない。即ち、処理されたデータによる学習、推論を適切に行えるものであれば、フィルタ２１を構成する行や列の数が３以上でもよいし、正方行列でなくてもよい。

【0069】

そして、上記［処理１］～［処理５］に示す原理は、単一のフィルタ係数を用いたフィルタリング処理だけでなく、畳み込み処理やプーリング処理にも適用することができる。畳み込み処理にＰＳＤＳを適用した場合、すなわち、ＰＳＤＳ処理部１１ｄの処理内容設定部１１５に「畳み込み」を設定した場合、元来、畳み込み自体、処理計算量が大きく、ＰＳＤＳを利用することでより一層の処理計算に必要な資源が必要となるが、情報量が多くなる分、より高精度な機械学習を期待することができる。また処理内容設定部１１５に「プーリング」を設定した場合も開始位置が異なる複数チャンネル（上記実施の形態においては４チャンネル）のプーリング結果が得られにおける。なお、畳み込み処理、プーリング処理、単一フィルタ処理のいずれにおいても、ウインドウ枠の大きさ、ストライド値、開始位置数、開始位置設定等の情報は図３の（ａ－１）～（ｄ－２）に例示するもののみには限定されない。

【0070】

また、逆ピクセルシャッフラー処理（space-to-depth）による処理結果はピクセルシフトしてデータ処理した状態と等価であるため、逆ピクセルシャッフラー処理を行う前に所望のデータ処理（例えば、単一フィルタリング処理や畳み込み処理、プーリング処理）を画像の全てのピクセルに対して実施し、その後、逆ピクセルシャッフラー処理を行うことで、データ量は逆ピクセルシャッフラー処理の前後で同一であるが、データの基準位置毎のチャンネルデータを得るようにしても良い。この場合、図１に示したピクセルシフトダウンサンプル処理部１１ｄに代えて逆ピクセルシャッフラー処理部１１ｅ（逆ピクセルシャッフラー手段）を利用することとなる。また、逆ピクセルシャッフラー処理部１１ｅにはＰＳＤＳ処理部と同様に処理内容設定部を含んでいるので、逆ピクセルシャッフラー処理を行う前の所望のデータ処理を適宜選択し、その処理されたデータを逆ピクセルシャッフラー処理することができる。更に、単一フィルタリング処理、畳み込み処理、逆ピクセルシャッフラー処理を組み合わせて利用したり、単一フィルタリング処理、プーリング処理、逆ピクセルシャッフラー処理を組み合わせて利用したり、畳み込み処理、プーリング処理、逆ピクセルシャッフラー処理を組み合わせて利用するようにしても良い。

【0071】

［処理手順］
図４は、この実施の形態の情報処理装置１のダウンサンプル処理の処理手順を示すフローチャートである。また、図５は、この実施の形態の情報処理装置におけるダウンサンプル処理、アップサンプル処理を模式的に示す図である。

【0072】

図５は、この実施の形態の情報処理装置を、ＣＮＮを用いた機械学習モデルの一例としての「Ｕ－ｎｅｔ」に適用して処理を行う状態を示したものである。このモデルでは、複数の階層化された処理階層においてデータの処理が行われる。各階層のエンコーダー側ではダウンサンプリングが行われ、デコーダー側ではアップサンプリングが行われる。また、エンコーダー側では各層４１～４５において畳み込み処理が行われ、第２階層４２～第５階層４５では畳み込み処理に加えて前述したＰＳＤＳによるフィルタリング処理が行われる。階層が深くなるほど（図４では下方の階層になるほど）データの空間的な広がりが小さくなるが、データのチャンネル数は多くなる。図５では、第一階層４１～第五階層４５が形成されている。ただし階層数はこれより多くても少なくてもよい。

【0073】

以下、同図に基づいてこの実施の形態の処理手順を説明する。なお、図５に示す事例は、従来のＵ－ｎｅｔにおけるプーリング処理や畳み込み処理に代えてＰＳＤＳを用いるものとする。従来のＵ－ｎｅｔの畳み込み処理に代えてＰＳＤＳを利用した単一フィルタ処理を用いることで、より高速な演算で処理を行うことができ、またプーリング処理に代えてＰＳＤＳを利用した単一フィルタ処理を用いることで、通常のプーリング処理結果より多いチャンネル数のデータを入手することができる。

【0074】

［１．ダウンサンプル処理の手順］
［ステップＳ１：入力画像取得］まず、入力データ取得部１０が、デジタルデータの「画像データ」としての入力画像１０１を取得する。この入力画像１０１の大きさ（ピクセル数）はどのようなものであってもよいが、一例として、この入力画像１０１は２５１×２５１ピクセルであるとする。なお、ここでは説明の簡単のため、入力画像１０１はグレースケールのデータ（ピクセル毎に１のパラメータ（白黒の濃淡）の値を有するデータ）として説明する。もし入力画像１０１がカラーのデータ（例えばピクセル毎に３のパラメータ（ＲＧＢ）の値を有するデータ）である場合は、入力が３チャンネルとなる。

【0075】

［ステップＳ２：ダウンサンプル部１１による畳み込み処理］
［手順２－１］畳み込み処理部１１ａは、入力画像１０１に畳み込み処理を行う。図５において畳み込み処理は出力チャンネル数に応じた数のフィルタ係数を用いて行われ、本実施の形態では６４ｃｈの出力を得るため、６４種類のフィルタ係数２２_１、２２_２、・・・２２_６４が利用される。また、フィルタ係数２２_１、２２_２、・・・２２_６４を用いて畳み込み処理（プーリング処理の場合も含む）を行うウインドウの位置を便宜的にフィルタ位置と称する。

【0076】

まず、畳み込み処理部１１ａは、２５１×２５１ピクセルの矩形マトリクス状の入力画像１０１に対し畳み込み処理を行う。畳み込み処理は、例えば３行×３列のフィルタ係数を用い、ピクセル毎の値とフィルタ係数で３行×３列の正方行列同士の積和演算を行い、その演算結果を算出する。

【0077】

この畳み込み処理を入力画像１０１の右上隅まで行う。ただし３行×３列のフィルタを用いているのでＸ方向のフィルタ出力は２４９となる。

【0078】

次に、畳み込み処理部１１ａは、フィルタ位置をＹ方向に１ピクセルずらして畳み込み処理を行い、その後、フィルタ位置を左から右に１ピクセル分ずつスライドさせながら順次畳み込み処理結果を得る。

【0079】

入力画像１０１の画素データに対して順次畳み込み処理を行い、以降、同様の畳み込み処理を入力画像１０１の右下隅まで繰り返す。

【0080】

ただし上述したＸ方向と同様、Ｙ方向のフィルタ出力も２４９となる。したがって、２５１×２５１ピクセルの入力画像に対して３×３のフィルタを用いて畳み込み処理を行うと、２４９×２４９の畳み込みデータ２０１が得られる。

【0081】

［手順２－２］次に、畳み込み処理部１１ａは２つめのフィルタ係数を用いて入力画像１０１に上記［手順２－１］と同じ処理を行う。これにより、２４９×２４９ピクセルの畳み込みデータ２０２が生成される。その後、畳み込み処理に用いるフィルタ係数を順次変更し、合計６４チャンネルの、２４９×２４９ピクセルの畳み込みデータ２０１、２０２、・・・２６４が生成される。

【0082】

なお、以下は説明を簡略化するため、特に区別の必要がある場合を除いてフィルタ係数２２_１、２２_２、・・・２２_６４をフィルタ係数２２_１００と、フィルタ係数２２_１００を用いたフィルタ処理のための構成をフィルタ２２ａと、畳み込みデータ２０１、２０２、・・・２６４を畳み込みデータ２００と、それぞれ記載する。また、以降の記載では、同一の手順にて生成された複数チャンネルのデータは、特に区別の必要がある場合を除いては上記「畳み込みデータ２００」と同様に同一の符号を記載して説明する。

【0083】

［手順２－４］畳み込み処理部１１ａは、上記［手順２－３］で得られた２４９×２４９×６４ｃｈのデータを再び畳み込み処理し、これにより、合計６４チャンネルの、２４７×２４７ピクセルの畳み込みデータ２００ａが生成される。畳み込み処理のため、６４２個のフィルタ係数及び６４個のバイアス値が用いられ、６４個の演算結果をチャンネル毎に加算することで、出力として６４ｃｈの畳み込みデータ２００ａを得る。

【0084】

［手順２－５］手順２－４で得られた畳み込み処理結果は記憶部１５に格納され、クロップ処理部１３によりそのデータの略中央部分の５６×５６ピクセルのデータを特徴マップ３５として抽出し、６４チャンネル分の特徴マップを生成し、記憶部１５に格納する。

【0085】

以上［手順２－１］～［手順２－５］により、第一階層４１の処理が完了する。

【0086】

［ステップＳ３：ＰＳＤＳ処理］
［手順３－１］ダウンサンプル部１１のピクセルシフトダウンサンプル処理部１１ｄは、［手順２－１］～［手順２－４］で生成された、合計６４チャンネルの畳み込みデータ２００ａに対してダウンサンプリング用のフィルタ２２ａを用いＰＳＤＳ処理を行う。この実施の形態ではＰＳＤＳ処理は基準位置を含めＮ個の開始位置がずれたウインドウを利用し、例えば、２×２のウインドウでストライド値を２に設定することにより、第一階層４１の畳み込み処理結果である２４７×２４７のデータを１／２の大きさである１２３×１２３×Ｎ（開始位置数）のデータとして生成する。

【0087】

［手順３－２］次に、ピクセルシフトダウンサンプル処理部１１ｄは、他の畳み込みデータに対しても上記［手順３－１］と同様の処理を行う。これにより、１２３×１２３×Ｎ×６４チャンネル分のダウンサンプリングデータ３００が生成される。

【0088】

［ステップＳ４：畳み込み処理］
［手順４－１］次に、畳み込み処理部１１ａは、［手順３－１］［手順３－２］にて生成されたダウンサンプリングデータ３００のそれぞれを畳み込み処理し、１２１×１２１×６４ｃｈ×Ｎの畳み込みデータ３７１を生成する。なお、この畳み込み処理も３×３のウインドウのフィルタ２２ａを用いて畳み込み処理を行うため、Ｘ、Ｙの２辺のデータが２個ずつ削減されている。

【0089】

［手順４－２］さらに、畳み込み処理部１１ａは、再度畳み込み処理を実施し、１１９×１１９×６４ｃｈ×Ｎ個の畳み込みデータ３７２が生成される。

【0090】

［手順４－３］手順４－２で得られた畳み込み処理結果は記憶部１５に格納されているので、クロップ処理部１３により、そのデータの略中央部分の３２×３２のデータを特徴マップ３５として抽出し、６４×Ｎチャンネル分の特徴マップを生成し、記憶部１５に格納する。

【0091】

以上［手順３－１］［手順３－２］、［手順４－１］～［手順４－３］により、第二階層４２の処理が完了する。

【0092】

以後、畳み込み処理部１１ａ、ピクセルシフトダウンサンプル処理部１１ｄは、［手順３－１］［手順３－２］、［手順４－１］～［手順４－３］の処理を繰り返すことで、図５に示す第三階層４３、第四階層４４、第五階層４５の処理を順次行う。

【0093】

［２．アップサンプル処理の手順］
図６は、この実施の形態のアップサンプル処理の処理手順を示すフローチャートである。以下、図５と図６に基づいてアップサンプル処理の手順を説明する。

【0094】

［ステップＳ１１：特徴マップ取得］
［手順６－１］クロップ処理部１３により抽出された各階層の特徴マップが記憶部１５に格納されているので、エンコーダー側からデコーダー側へのスキップコネクト（太矢印）を用いて階層毎の特徴マップを取得する。

【0095】

［ステップＳ１２：アップサンプル部］
［手順６－２］例えば、アップサンプル部１２は第五階層の畳み込み処理３８１の出力（７×７×６４ｃｈ×Ｎ^３のデータ）をアップサンプリングすることで１４×１４×６４ｃｈ×Ｎ^３のデータを得、このデータとクロップ処理部１３が抽出した１４×１４×６４ｃｈ×Ｎ^３の特徴マップのデータとをマージする。アップサンプリングはアップサンプル部１２のアップサンプル処理部１２ｂで実行され、本実施の形態では２×２の逆畳み込み処理を行うことでピクセル数を２倍にしている。なお、逆畳み込み処理に代えて、ピクセルシャッフラー処理を用いてピクセル数を増やしても良い。

【0096】

［ステップＳ１３：畳み込み処理］
［手順６－３］アップサンプル部１２の畳み込み処理部１２ａは、クロップ＆アップサンプルデータ３８２（１４×１４ピクセル、６４×Ｎ^３＋１４×１４ピクセル、６４ｃｈ×Ｎ^３）のそれぞれに畳み込み処理を行い、データ３８３を生成する。

【0097】

［手順６－４］また、アップサンプル部１２の畳み込み処理部１２ａは、畳み込みデータ３８３のそれぞれに対して、上記［手順２－１］～［手順２－４］と同様の畳み込み処理を行い、１０×１０ピクセル、６４ｃｈ×Ｎ^３の畳み込みデータ３８４を生成する。

【0098】

以上により、第五階層４５から第四階層４４までの処理が完了する。

【0099】

［ステップＳ１１～Ｓ１３：繰り返し］
［手順７］第三階層４３～第一階層４１のアップサンプル処理も、上記［手順６－１］～［手順６－４］と同様の手順で順次行われる。すなわち、エンコーダー側の畳み込みデータの略中央部から切り出された特徴マップを取得し、デコーダー側の畳み込みデータをアップサンプルしたものとマージし、そのマージしたデータに対して畳み込み処理を２回実施することで第三階層～第一階層のエンコーダー側のデータを生成する。

【0100】

各階層における詳細な説明は省略するが、第三階層４３から第一階層４１までデコードすると、５２×５２ピクセル、６４ｃｈの畳み込みデータ３９３が得られる。

【0101】

［ステップＳ１４：畳み込み処理］
［手順８］第一階層のエンコーダー側の畳み込みデータ３９３をアップサンプル部１２の畳み込み処理部１２ａで１×１の畳み込みを行うことで、出力画像１０２を得る。本実施の形態では入力画像としてグレースケールのものを用いたため、５２×５２ピクセル、１ｃｈの出力画像を得るが、入力画像としてＲＧＢのものを用いた場合には畳み込み出力は３ｃｈとなる。

【0102】

［３．フィルタ係数の設定］
［手順９］図７は、この実施の形態の情報処理装置１におけるフィルタ係数の設定の手順を示すフローチャートである。図８は、この実施の形態の情報処理装置１におけるフィルタ係数の設定を模式的に示した図である。この実施の形態では、フィルタ係数設定部１４がダウンサンプル部１１の各処理に用いられるフィルタ係数や、アップサンプル部１２の各処理に用いられるフィルタ係数の設定を行う。なお、以下は便宜的にフィルタ係数に上記［手順２－２］の説明及び図５の説明と同じ符号を付してフィルタ係数２２_１００と記載するが、以下の説明に示すフィルタ係数２２_１００の具体的な構成（個々の係数の値やマトリクスの大きさなど）は任意であり、上記［手順２－２］の説明及び図５の説明に示すものと同一である必要はない。

【0103】

フィルタ係数設定部１４は、例えば下記に示す方法でフィルタ係数２２_１００を設定する。

【0104】

［ステップＳ２１：教師データとの比較］
図８の（比較１）、すなわち、出力画像１０２と教師データ１０４との比較により、エンコード側及びデコード側の各畳み込み処理に用いるフィルタ係数２２_１００を調整する。本実施形態では、出力画像は５２×５２ピクセルの大きさであるので、元データ１０３（入力画像１０１に対応するデータ）の略中央部分のデータをクロップし、それを教師データとして比較する例を記載している。これにより、情報処理装置１全体として最適となるように各処理におけるフィルタ係数２２_１００が設定される。

【0105】

なお、本実施の形態では単一フィルタ処理に用いるフィルタ係数を学習せず、フィルタ係数は固定のものとしているが、単一フィルタ処理のフィルタ係数を学習するよう構成しても良い。

【0106】

［ステップＳ２２：生成されたデータとの比較］
図８の（比較２Ａ）に示すように、元データ１０３をダウンサンプル部１１でダウンサンプルし、元データ（２５１×２５１ピクセル）を１／２サイズ（ピクセル数が１／２、以下同じ。）に縮小し、そのデータの略中心部をクロップして教師データ１０５を生成する。なお、ダウンサンプルするにあたっては、ピクセルシフトダウンサンプル処理及び処理内容として単一フィルタ処理を選択することでピクセルシフトの開始位置数に応じたチャンネルデータが得られ、これを教師データとすることにより、より精細な比較を行うことができる。

【0107】

一方、Ｕ－ｎｅｔの第二階層４２のクロップ＆アップサンプルデータ３８８、畳み込みデータ３８９及び３９０のいずれかのデータを、ＰＳＤＳ処理にて得られた教師データのチャンネル数と合致するよう畳み込み処理し、それを前記教師データ１０５と比較し、各畳み込みに用いる係数や単一フィルタ処理に用いるフィルタ係数２２_１００を調整したり、ＰＳＤＳ処理のウインドウ枠、ストライド値、開始位置数、開始位置などを調整したりする。なお、データ３８８、３８９、３９０のいずれを畳み込み処理するかは設計次第であり、生成された教師データと比較するために最適なデータを利用すればよい。

【0108】

また、第三階層４３のエンコーダー側の出力（３８５、３８６、３８７）のいずれかを学習に用いる場合には、元データを１／４サイズ（ピクセル数１／４、以下同じ。）にＰＳＤＳ処理で縮小し、縮小されたデータの略中央部をクロップして教師データ１０６とし、この教師データ１０６とエンコーダー側の出力（３８５、３８６、３８７）のいずれかを畳み込み処理したデータとを比較することで、より高精度な学習を行うことができる。

【0109】

元データを１／４サイズに縮小するには図示したように元データからＰＳＤＳ処理で直接１／４サイズのデータを得る方法があり、この場合、ＰＳＤＳ処理で用いるウインドウ枠は４×４、ストライド値を４、開始位置数を１６に設定する。また、ＰＳＤＳ処理で１／２サイズに縮小したデータをさらに、１／２サイズ縮小のＰＳＤＳ処理で１／４サイズのデータを得るようにしても良い。いずれの場合であっても、元データを１／４サイズにＰＳＤＳ処理で縮小した場合には１６チャンネルのデータが生成され、それを教師データとして比較することで各畳み込み処理のフィルタ係数２２_１００や、プーリング処理に用いるウインドウ枠の大きさやウインドウ枠の中で行われる演算が最適化されるように調整される。

【0110】

［処理手順の変形例］
上記処理手順は、Ｕ－ｎｅｔの第二階層以降の最初の処理として用いられるプーリング処理や畳み込み処理に代えてＰＳＤＳ処理を用いる構成としたが、プーリング処理にＰＳＤＳ処理を適用したり、畳み込み処理にＰＳＤＳ処理を適用したりすることも可能である。

【0111】

［作用効果］
以上、この実施の形態においては、元データ上の一の開始位置３１を基準位置３０としたときに、基準位置３０に対して所定の距離（たとえば１ピクセル）だけ離れた元データ上の位置（例えば右位置、下位置、斜め位置）を他の開始位置３２、３３、３４として設定することにより、単一又は少ない数のフィルタ２１，２２ａを用いても、画素中心がずれた複数のフィルタリング処理の結果や、プーリング処理の結果を得ることができる。これにより、畳み込み処理や、プーリング処理の位置の偏りをなくすことができ、機械学習の精度を高めることができる。

【0112】

この実施の形態においては、基準位置３０に対して所定の距離だけ離れた元データ上の複数の位置を他の開始位置３２、３３、３４として設定することにより、画素中心がずれた複数のフィルタリング処理の結果や、プーリング処理の結果を、簡易な処理で的確に偏りのない状態で行うことができる。これにより、ダウンサンプル処理やアップサンプル処理を機械学習を用いて行う際に、高い精度で処理を行うことが可能となる。

【0113】

この実施の形態においては、フィルタ２１，２２ａを、ストライド処理によって、元データ上を移動させながら、畳み込み処理やプーリング処理を行う処理領域を設定することにより、フィルタ２１，２２ａを用いた元データに対する処理を、元データの広い範囲にわたって、処理領域の偏在を抑止しながら適切に行うことができ、機械学習の精度を高めることができる。

【0114】

この実施の形態においては、ダウンサンプル処理やフィルタリング処理等の処理を、元データの広い範囲にわたって、処理領域の偏在を抑止しながら適切に行うことができる。これにより、ＣＮＮを用いた人工知能において、抽出する情報量を落とさず、かつ少ない計算で正確なダウンサンプルを行うことができる。そして、ＣＮＮを用いた人工知能において、データ量や処理負荷が過大になるのを抑止しつつ高い精度で解析や認識を行うことが可能となる。

【0115】

この実施の形態においては、フィルタ２１，２２ａを用いた畳み込み処理や、ウインドウ２３を用いたプーリング処理の位置の偏りをなくすことができ、機械学習の精度を高めることができる。

【0116】

この実施の形態においては、同一の前記元データに複数の前記フィルタを用いたフィルタリング処理を行う場合、及び／又は、同一の前記元データに一の前記フィルタを用いたフィルタリング処理を行う場合において、元データの広い範囲にわたって、処理領域の偏在を抑止しながら適切に行うことができる。これにより、ＣＮＮを用いた人工知能において、抽出する情報量を落とさず、かつ少ない計算で正確なダウンサンプルを行うことができる。

【0117】

この実施の形態においては、元データ上の広い範囲から取得位置の偏在のないデータを取得し、取得されたデータに基づいて精度の高い機械学習を行い、処理精度の高いフィルタ係数２２_１００を設定することができる。

【0118】

この実施の形態においては、機械学習に基づいてアップサンプル処理を行う構成において、簡易な構成によって高い精度のアップサンプル処理を実現できる。

【0119】

この実施の形態においては、画像データに基づいて精度の高い各種機械学習を行うことが可能となる。

【0120】

なお、上記実施の形態は本発明の例示であり、本発明がこの実施の形態のみに限定されるものではないことは、いうまでもない。

【符号の説明】

【0121】

１・・・情報処理装置
１１・・・ダウンサンプル部
１１ａ・・・畳み込み処理部（畳み込み処理手段）
１１ｂ・・・プーリング処理部（プーリング処理手段）
１１ｃ・・・単一フィルタ処理部（単一フィルタ処理手段）
１１ｄ・・・ピクセルシフトダウンサンプル処理部、ＰＳＤＳ処理部（処理実行手段）
１１ｅ・・・逆ピクセルシャッフラー処理部（逆ピクセルシャッフラー手段）
１２・・・アップサンプル部
１２ａ・・・畳み込み処理部（畳み込み処理手段）
１２ｂ・・・アップサンプル処理部
１３・・・クロップ処理部
１４・・・フィルタ係数設定部（フィルタ係数設定手段）
２０・・・画像データ（元データ）
２１，２２ａ・・・フィルタ（ウインドウ枠）
２２_１，２２_２，・・・，２２_６４，２２_１００・・・フィルタ係数
３０・・・基準位置
３１、３２、３３、３４・・・開始位置
１０１・・・入力画像
１１１・・・ウインドウ枠設定部
１１２・・・ストライド値設定部（ストライド値設定手段）
１１３・・・開始位置数設定部
１１４・・・開始位置設定部（開始位置設定手段）
１１５・・・処理内容設定部（処理内容設定手段）

【図1】