IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パイオニア株式会社の特許一覧

特開2024-133609処理装置、演算装置、処理方法、およびプログラム
<>
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図1
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図2
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図3
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図4
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図5
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図6
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図7
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図8
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図9
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図10
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図11
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図12
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図13
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図14
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図15
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図16
  • 特開-処理装置、演算装置、処理方法、およびプログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024133609
(43)【公開日】2024-10-02
(54)【発明の名称】処理装置、演算装置、処理方法、およびプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240925BHJP
【FI】
G06T7/00 350C
【審査請求】有
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2024108113
(22)【出願日】2024-07-04
(62)【分割の表示】P 2023113464の分割
【原出願日】2018-09-20
(71)【出願人】
【識別番号】000005016
【氏名又は名称】パイオニア株式会社
(74)【代理人】
【識別番号】100110928
【弁理士】
【氏名又は名称】速水 進治
(74)【代理人】
【識別番号】100127236
【弁理士】
【氏名又は名称】天城 聡
(72)【発明者】
【氏名】井上 俊明
(57)【要約】
【課題】小さい計算コストで顕著性推定を実現することが一例として挙げられる。
【解決手段】処理装置10は、入力部110、非線形写像部120、および出力部130を備える。入力部110は、画像を写像処理可能な中間データに変換する。非線形写像部120は、中間データを写像データに変換する。出力部130は、写像データに基づき顕著性分布を示す顕著性推定情報を生成する。そして、非線形写像部120は、中間データに対し特徴の抽出を行う特徴抽出部121と、特徴抽出部121で生成されたデータのアップサンプルを行うアップサンプル部122とを備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
画像を写像処理可能な中間データに変換する入力部と、
前記中間データを写像データに変換する非線形写像部と、
前記写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部とを備え、
前記非線形写像部は、前記中間データに対し特徴の抽出を行う特徴抽出部と、前記特徴抽出部で生成されたデータのアップサンプルを行うアップサンプル部とを備え、
前記特徴抽出部と前記アップサンプル部とは、オーバーラッププーリングを行う第2のプーリング部を介して互いに接続されており、
前記顕著性推定情報は、前記画像を見た人の視線がその画像中の各位置に向く確率を示す
処理装置。
【請求項2】
請求項1に記載の処理装置において、
前記非線形写像部は、補正情報をさらに用いて前記中間データを前記写像データに変換し、
前記補正情報は、機械学習を用いて修正された情報である処理装置。
【請求項3】
請求項2に記載の処理装置において、
前記画像に対して生成された前記顕著性推定情報と、前記画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、前記顕著性推定情報が示す顕著性分布と前記顕著性実測情報が示す顕著性分布との誤差を算出する誤差算出部と、
前記誤差に基づいて前記補正情報を修正する修正部とをさらに備える処理装置。
【請求項4】
請求項2または3に記載の処理装置において、
前記非線形写像部は複数のフィルタを含み、
前記複数のフィルタの係数は前記補正情報に基づいて定められる処理装置。
【請求項5】
請求項1から3のいずれか一項に記載の処理装置において、
前記特徴抽出部および前記アップサンプル部の少なくとも一方は、複数の中間層を含むニューラルネットワークを含んで構成される処理装置。
【請求項6】
請求項5に記載の処理装置において、
前記複数の中間層のそれぞれは、一または二以上の畳み込み層を含み、
前記畳み込み層では、入力されたデータに対し複数のフィルタによる畳み込みが行われ、前記複数のフィルタの出力に対し活性化処理が施される処理装置。
【請求項7】
請求項6に記載の処理装置において、
前記特徴抽出部は、
前記複数の中間層を含む前記ニューラルネットワークを含んで構成され、
前記複数の中間層の間に第1のプーリング部を備える処理装置。
【請求項8】
請求項7に記載の処理装置において、
第1の前記中間層と、前記第1の中間層の後段に位置する第2の前記中間層とは、前記第1のプーリング部を介して互いに連続しており、
前記第1の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、前記第2の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、
>Nが成り立つ処理装置。
【請求項9】
請求項6から8のいずれか一項に記載の処理装置において、
前記アップサンプル部は、
前記複数の中間層を含む前記ニューラルネットワークを含んで構成され、
前記複数の中間層の間にアンプーリング部を備える処理装置。
【請求項10】
請求項9に記載の処理装置において、
第3の前記中間層と、前記第3の中間層の後段に位置する第4の前記中間層とは、前記アンプーリング部を介して互いに連続しており、
前記第3の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、前記第4の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、
<Nが成り立つ処理装置。
【請求項11】
請求項2に記載の処理装置で用いられる前記補正情報を生成する演算装置であって、
教師用画像に対して生成された前記顕著性推定情報と、前記教師用画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、前記顕著性推定情報が示す顕著性分布と前記顕著性実測情報が示す顕著性分布との誤差を算出する誤差算出部と、
前記誤差に基づいて前記補正情報を算出する補正部とを備える演算装置。
【請求項12】
コンピュータによって実行される処理方法であって、
画像を写像処理可能な中間データに変換する入力ステップと、
前記中間データを写像データに変換する非線形写像ステップと、
前記写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力ステップとを含み、
前記非線形写像ステップは、前記中間データに対し特徴の抽出を行う特徴抽出ステップと、前記特徴抽出ステップで生成されたデータのアップサンプルを行うアップサンプルステップとを含み、
前記特徴抽出ステップと前記アップサンプルステップとの間に、オーバーラッププーリングを行う第2のプーリングステップを含み、
前記顕著性推定情報は、前記画像を見た人の視線がその画像中の各位置に向く確率を示す
処理方法。
【請求項13】
請求項12に記載の処理方法の各ステップをコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、処理装置、演算装置、処理方法、およびプログラムに関する。
【背景技術】
【0002】
画像の中の顕著領域を自動で検出する技術が提案されている。このような技術は、自動運転技術等とも関連して重要性が高まっている。
【0003】
特許文献1には、複数の候補領域を設定し、複数の候補領域それぞれの顕著度を計算し、複数の候補領域の顕著度を統合して入力画像の顕著性情報を生成することが記載されている。
【0004】
また、非特許文献1には、入力画像を、畳み込みネットワークの一種であるDCN(Dilated Convolutional Network)および時系列ネットワークの一種であるLSTM(Long Short-Term Memory network)等で処理することが記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2017-4480号公報
【非特許文献】
【0006】
【非特許文献1】M. Cornia, et. al., "Predicting Human Eye Fixations via an LSTM-based Saliency Attentative Model", arXive:1611.09571v2, 17 Mar. 2017.
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、特許文献1および非特許文献1の技術では、顕著性の推定動作にかかる計算コストが大きいという問題があった。
【0008】
本発明が解決しようとする課題としては、小さい計算コストで顕著性推定を実現することが一例として挙げられる。
【課題を解決するための手段】
【0009】
第1の発明は、
画像を写像処理可能な中間データに変換する入力部と、
前記中間データを写像データに変換する非線形写像部と、
前記写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部とを備え、
前記非線形写像部は、前記中間データに対し特徴の抽出を行う特徴抽出部と、前記特徴抽出部で生成されたデータのアップサンプルを行うアップサンプル部とを備える処理装置である。
【0010】
第2の発明は、
請求項2に記載の処理装置で用いられる前記補正情報を生成する演算装置であって、
教師用画像に対して生成された前記顕著性推定情報と、前記教師用画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、前記顕著性推定情報が示す顕著性分布と前記顕著性実測情報が示す顕著性分布との誤差を算出する誤差算出部と、
前記誤差に基づいて前記補正情報を算出する補正部とを備える演算装置である。
【0011】
第3の発明は、
コンピュータによって実行される処理方法であって、
画像を写像処理可能な中間データに変換する入力ステップと、
前記中間データを写像データに変換する非線形写像ステップと、
前記写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力ステップとを含み、
前記非線形写像ステップは、前記中間データに対し特徴の抽出を行う特徴抽出ステップと、前記特徴抽出ステップで生成されたデータのアップサンプルを行うアップサンプルステップとを含む処理方法である。
【0012】
第4の発明は、
第3の発明に係る処理方法の各ステップをコンピュータに実行させるプログラムである。
【図面の簡単な説明】
【0013】
図1】第1の実施形態に係る処理装置の構成を例示するブロック図である。
図2】(a)は処理装置へ入力する画像を例示する図であり、(b)は(a)に対し推定される、顕著性分布を示す画像を例示する図である。
図3】第1の実施形態に係る処理方法を例示するフローチャートである。
図4】非線形写像部の構成を詳しく例示する図である。
図5】中間層の構成を例示する図である。
図6】(a)および(b)はそれぞれ、フィルタで行われる畳み込み処理の例を示す図である。
図7】(a)は、第1のプーリング部の処理を説明するための図であり、(b)は、第2のプーリング部の処理を説明するための図であり、(c)は、アンプーリング部の処理を説明するための図である。
図8】処理装置を実現するための計算機を例示する図である。
図9】第2の実施形態に係る処理装置の構成を例示する図である。
図10】第2の実施形態に係る学習動作を例示するフローチャートである。
図11】第3の実施形態に係る演算装置の構成および使用環境を例示する図である。
図12】第4の実施形態に係る処理装置の構成を例示する図である。
図13】合成部で生成された合成情報が示す画像を例示する図である。
図14】第5の実施形態に係る処理装置の構成を例示する図である。
図15】(a)は実施例1Aおよび比較例1Aにおける入力画像であり、(b)は(a)に対する顕著性を、アイトラッカを用いて実測した結果を示す図であり、(c)は比較例1Aにおける顕著性の推定結果を示す図であり、(d)は実施例1Aにおける顕著性の推定結果を示す図である。
図16】(a)から(c)は、それぞれ実施例3A、実施例3B、および実施例3Cにおける顕著性の推定結果を示す図である。
図17】(a)は実施例4Aおよび比較例4Aにおける入力画像であり、(b)は実施例4Aにおいて(a)に基づき生成された顕著性推定情報であり、(c)は比較例4Aにおける物体検出結果を示す図であり、(d)は実施例4Aにおける物体検出結果を示す図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【0015】
以下に示す説明において、処理装置10および演算装置20の各構成要素は、特に説明する場合を除きハードウエア単位の構成ではなく、機能単位のブロックを示している。処理装置10および演算装置20の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラム、そのプログラムを格納するハードディスクなどの記憶メディア、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置には様々な変形例がある。
【0016】
(第1の実施形態)
図1は、第1の実施形態に係る処理装置10の構成を例示するブロック図である。本実施形態に係る処理装置10は、入力部110、非線形写像部120、および出力部130を備える。入力部110は、画像を写像処理可能な中間データに変換する。非線形写像部120は、中間データを写像データに変換する。出力部130は、写像データに基づき顕著性分布を示す顕著性推定情報を生成する。そして、非線形写像部120は、中間データに対し特徴の抽出を行う特徴抽出部121と、特徴抽出部121で生成されたデータのアップサンプルを行うアップサンプル部122とを備える。以下に詳しく説明する。
【0017】
図2(a)は、処理装置10へ入力する画像を例示する図であり、図2(b)は、図2(a)に対し推定される、顕著性分布を示す画像を例示する図である。本実施形態に係る処理装置10は、画像における各部分の顕著性を推定する装置である。顕著性とはたとえば、目立ちやすさや視線の集まりやすさを意味する。具体的には顕著性は、確率等で示される。ここで、確率の大小は、たとえばその画像を見た人の視線がその位置に向く確率の大小に対応する。
【0018】
図2(a)と図2(b)とは、互いに位置が対応している。そして、図2(a)において、顕著性が高い位置ほど、図2(b)において輝度が高く表示されている。図2(b)のような顕著性分布を示す画像は、出力部130が出力する顕著性推定情報の一例である。本図の例において、顕著性は、256階調の輝度値で可視化されている。出力部130が出力する顕著性推定情報の例については詳しく後述する。
【0019】
顕著性分布の推定結果は、たとえば、運転者や歩行者等の交通参加者の視線予測や、交通参加者の見落とし防止、広告媒体などのコンテンツの見栄え評価、視線誘導、スポーツ選手や技能熟練者のノウハウのデータ化、生体の視覚認知の理解など、様々な分野で用いることができる。さらに、本実施形態に係る処理装置10および処理方法は、自動運転や先進運転支援システム(ADAS)、道路交通システム等のモビリティ分野、仮想現実(VR)、拡張現実(AR)、ゲーム等のエンターテインメント分野、ドキュメント、映像コンテンツ、サイネージ等のコンテンツ分野、画像診断、手術支援、介護サービス等の医療分野等への応用が可能である。
【0020】
図3は、第1の実施形態に係る処理方法を例示するフローチャートである。本実施形態に係る処理方法は、コンピュータによって実行される処理方法であって、入力ステップS110、非線形写像ステップS120、および出力ステップS130を含む。入力ステップS110では、画像が写像処理可能な中間データに変換される。非線形写像ステップS120では、中間データが写像データに変換される。出力ステップS130では、写像データに基づき顕著性分布を示す顕著性推定情報が生成される。ここで、非線形写像ステップS120は、中間データに対し特徴の抽出を行う特徴抽出ステップS121と、特徴抽出ステップS121で生成されたデータのアップサンプルを行うアップサンプルステップS122とを含む。本実施形態に係る処理方法は、実施形態に係る処理装置10により実現される。
【0021】
図1に戻り、処理装置10の各構成要素について説明する。入力ステップS110において入力部110は、画像を取得し、中間データに変換する。入力部110は、たとえば画像(画像データ)を処理装置10の外部の装置から取得する。外部の装置はたとえばカメラ等の撮像装置である。また、画像が処理装置10の内部または外部に設けられた記憶部190に保持されており、入力部110が記憶部190から画像を読み出して取得してもよい。そして入力部110は、取得した画像を中間データに変換する。中間データは非線形写像部120が受け付け可能なデータであれば特に限定されないが、たとえば高次元テンソルである。また、中間データはたとえば、取得した画像に対し輝度を正規化したデータ、または、取得した画像の各画素を、輝度の傾きに変換したデータである。入力ステップS110において入力部110は、さらに画像のノイズ除去や解像度変換等を行っても良い。
【0022】
非線形写像ステップS120において、非線形写像部120は入力部110から中間データを取得する。そして、非線形写像部120において中間データが写像データに変換される。ここで、写像データは例えば高次元テンソルである。非線形写像部120で中間データに施される写像処理は、たとえばパラメータ等により制御可能な写像処理であり、関数、汎関数、またはニューラルネットワークによる処理であることが好ましい。
【0023】
図4は、非線形写像部120の構成を詳しく例示する図であり、図5は、中間層123の構成を例示する図である。上記した通り、非線形写像部120は、特徴抽出部121およびアップサンプル部122を備える。特徴抽出部121において特徴抽出ステップS121が行われ、アップサンプル部122においてアップサンプルステップS122が行われる。また、本図の例において、特徴抽出部121およびアップサンプル部122の少なくとも一方は、複数の中間層123を含むニューラルネットワークを含んで構成される。ニューラルネットワークにおいては、複数の中間層123が結合されている。
【0024】
特にニューラルネットワークは畳み込みニューラルネットワークであることが好ましい。具体的には、複数の中間層123のそれぞれは、一または二以上の畳み込み層124を含む。そして、畳み込み層124では、入力されたデータに対し複数のフィルタ125による畳み込みが行われ、複数のフィルタ125の出力に対し活性化処理が施される。
【0025】
図4の例において、特徴抽出部121は、複数の中間層123を含むニューラルネットワークを含んで構成され、複数の中間層123の間に第1のプーリング部126を備える。また、アップサンプル部122は、複数の中間層123を含むニューラルネットワークを含んで構成され、複数の中間層123の間にアンプーリング部128を備える。さらに、特徴抽出部121とアップサンプル部122とは、オーバーラッププーリングを行う第2のプーリング部127を介して互いに接続されている。
【0026】
なお、本図の例において各中間層123は、二以上の畳み込み層124からなる。ただし、少なくとも一部の中間層123は、一の畳み込み層124のみからなってもよい。互いに隣り合う中間層123は、第1のプーリング部126、第2のプーリング部127およびアンプーリング部128のいずれかで区切られる。ここで、中間層123に二以上の畳み込み層124が含まれる場合、それらの畳み込み層124におけるフィルタ125の数は互いに等しいことが好ましい。
【0027】
本図では、「A×B」と記された中間層123は、B個の畳み込み層124からなり、各畳み込み層124は、各チャネルに対しA個の畳み込みフィルタを含むことを意味している。このような中間層123を以下では「A×B中間層」とも呼ぶ。たとえば、64×2中間層123は、2個の畳み込み層124からなり、各畳み込み層124は、各チャネルに対し64個の畳み込みフィルタを含むことを意味している。
【0028】
本図の例において、特徴抽出部121は、64×2中間層123、128×2中間層123、256×3中間層123、および、512×3中間層123をこの順に含む。また、アップサンプル部122は、512×3中間層123、256×3中間層123、128×2中間層123、および64×2中間層123をこの順に含む。また、第2のプーリング部127は、2つの512×3中間層123を互いに接続している。なお、非線形写像部120を構成する中間層123の数は特に限定されず、たとえば画像データの画素数に応じて定めることができる。
【0029】
なお、本図は非線形写像部120の構成の一例であり、非線形写像部120は他の構成を有していても良い。たとえば、64×2中間層123の代わりに64×1中間層123が含まれても良い。中間層123に含まれる畳み込み層124の数が削減されることで、計算コストがより低減される可能性がある。また、たとえば、64×2中間層123の代わりに32×2中間層123が含まれても良い。中間層123のチャネル数が削減されることで、計算コストがより低減される可能性がある。さらに、中間層123における畳み込み層124の数とチャネル数との両方を削減しても良い。
【0030】
ここで、特徴抽出部121に含まれる複数の中間層123においては、第1のプーリング部126を経る毎にフィルタ125の数が増加することが好ましい。具体的には、第1の中間層123aと第2の中間層123bとが、第1のプーリング部126を介して互いに連続しており、第1の中間層123aの後段に第2の中間層123bが位置する。そして、第1の中間層123aは、各チャネルに対するフィルタ125の数がNである畳み込み層124で構成されており、第2の中間層123bは、各チャネルに対するフィルタ125の数がNである畳み込み層124で構成されている。このとき、N>Nが成り立つことが好ましい。また、N=N×2が成り立つことがより好ましい。
【0031】
また、アップサンプル部122に含まれる複数の中間層123においては、アンプーリング部128を経る毎にフィルタ125の数が減少することが好ましい。具体的には、第3の中間層123cと第4の中間層123dとが、アンプーリング部128を介して互いに連続しており、第3の中間層123cの後段に第4の中間層123dが位置する。そして、第3の中間層123cは、各チャネルに対するフィルタ125の数がNである畳み込み層124で構成されており、第4の中間層123dは、各チャネルに対するフィルタ125の数がNである畳み込み層124で構成されている。このとき、N<Nが成り立つことが好ましい。また、N=N×2が成り立つことがより好ましい。
【0032】
特徴抽出部121では、入力部110から取得した中間データから勾配や形状など、複数の抽象度を持つ画像特徴を中間層123のチャネルとして抽出する。図5は、64×2中間層123の構成を例示している。本図を参照して、中間層123における処理を説明する。本図の例において、中間層123は第1の畳み込み層124aと第2の畳み込み層124bとで構成されており、各畳み込み層124は64個のフィルタ125を備える。第1の畳み込み層124aでは、中間層123に入力されたデータの各チャネルに対して、フィルタ125を用いた畳み込み処理が施される。たとえば入力部110へ入力された画像がRGB画像である場合、3つのチャネルh (i=1..3)のそれぞれに対して処理が施される。また、本図の例において、フィルタ125は64種の3×3フィルタであり、すなわち合計64×3種のフィルタである。畳み込み処理の結果、各チャネルiに対して、64個の結果h i,j(i=1..3,j=1..64)が得られる。
【0033】
次に、複数のフィルタ125の出力に対し、活性化部129において活性化処理が行われる。具体的には、全チャネルの対応する結果jについて、対応する要素毎の総和に活性化処理が施される。この活性化処理により、64チャネルの結果h (i=1..64)、すなわち、第1の畳み込み層124aの出力が、画像特徴として得られる。活性化処理は特に限定されないが、双曲関数、シグモイド関数、および正規化線形関数の少なくともいずれかを用いる処理が好ましい。
【0034】
さらに、第1の畳み込み層124aの出力データを第2の畳み込み層124bの入力データとし、第2の畳み込み層124bにて第1の畳み込み層124aと同様の処理を行って、64チャネルの結果h (i=1..64)、すなわち第2の畳み込み層124bの出力が、画像特徴として得られる。第2の畳み込み層124bの出力がこの64×2中間層123の出力データとなる。
【0035】
ここで、フィルタ125の構造は特に限定されないが、3×3の二次元フィルタであることが好ましい。また、各フィルタ125の係数は独立に設定可能である。本実施形態において、各フィルタ125の係数は記憶部190に保持されており、非線形写像部120がそれを読み出して処理に用いることができる。ここで、複数のフィルタ125の係数は機械学習を用いて生成、修正された補正情報に基づいて定められてもよい。たとえば、補正情報は、複数のフィルタ125の係数を、複数の補正パラメータとして含む。非線形写像部120は、この補正情報をさらに用いて中間データを写像データに変換することができる。記憶部190は処理装置10に備えられていてもよいし、処理装置10の外部に設けられていてもよい。また、非線形写像部120は補正情報を、通信ネットワークを介して外部から取得しても良い。
【0036】
図6(a)および図6(b)はそれぞれ、フィルタ125で行われる畳み込み処理の例を示す図である。図6(a)および図6(b)では、いずれも3×3畳み込みの例が示されている。図6(a)の例は、最近接要素を用いた畳み込み処理である。図6(b)の例は、距離が二以上の近接要素を用いた畳み込み処理である。なお、距離が三以上の近接要素を用いた畳み込み処理も可能である。フィルタ125は、距離が二以上の近接要素を用いた畳み込み処理を行うことが好ましい。より広範囲の特徴を抽出することができ、顕著性の推定精度をさらに高めることができるからである。
【0037】
以上、64×2中間層123の動作について説明した。他の中間層123(128×2中間層123、256×3中間層123、および、512×3中間層123等)の動作についても、畳み込み層124の数およびチャネルの数を除いて、64×2中間層123の動作と同じである。また、特徴抽出部121における中間層123の動作も、アップサンプル部122における中間層123の動作も上記と同様である。
【0038】
図7(a)は、第1のプーリング部126の処理を説明するための図であり、図7(b)は、第2のプーリング部127の処理を説明するための図であり、図7(c)は、アンプーリング部128の処理を説明するための図である。
【0039】
特徴抽出部121において、中間層123から出力されたデータは、第1のプーリング部126においてチャネル毎にプーリング処理が施された後、次の中間層123に入力される。第1のプーリング部126ではたとえば、非オーバーラップのプーリング処理が行われる。図7(a)では、各チャネルに含まれる要素群に対し、2×2の4つの要素30を1つの要素30に対応づける処理を示している。第1のプーリング部126ではこのような対応づけが全ての要素30に対し行われる。ここで、2×2の4つの要素30は互いに重ならないよう選択される。本例では、各チャネルの要素数が4分の1に縮小される。なお、第1のプーリング部126において要素数が縮小される限り、対応づける前後の要素30の数は特に限定されない。
【0040】
特徴抽出部121から出力されたデータは、第2のプーリング部127を介してアップサンプル部122に入力される。第2のプーリング部127では、特徴抽出部121からの出力データに対し、オーバーラッププーリングが施される。図7(b)では、一部の要素30をオーバーラップさせながら、2×2の4つの要素30を1つの要素30に対応づける処理を示している。すなわち、繰り返される対応づけにおいて、ある対応づけにおける2×2の4つの要素30のうち一部が、次の対応づけにおける2×2の4つの要素30にも含まれる。本図のような第2のプーリング部127では要素数は縮小されない。なお、第2のプーリング部127において対応づける前後の要素30の数は特に限定されない。
【0041】
第1のプーリング部126および第2のプーリング部127で行われる各処理の方法は特に限定されないが、たとえば、4つの要素30の最大値を1つの要素30とする対応づけ(max pooling)や4つの要素30の平均値を1つの要素30とする対応づけ(average pooling)が挙げられる。
【0042】
第2のプーリング部127から出力されたデータは、アップサンプル部122における中間層123に入力される。そして、アップサンプル部122の中間層123からの出力データはアンプーリング部128においてチャネル毎にアンプーリング処理が施された後、次の中間層123に入力される。図7(c)では、1つの要素30を複数の要素30に拡大する処理を示している。拡大の方法は特に限定されないが、1つの要素30を2×2の4つの要素30へ複製する方法が例として挙げられる。
【0043】
アップサンプル部122の最後の中間層123の出力データは写像データとして非線形写像部120から出力され、出力部130に入力される。出力ステップS130において出力部130は、非線形写像部120から取得したデータに対し、たとえば正規化や解像度変換等を行うことで顕著性推定情報を生成し、出力する。顕著性推定情報はたとえば、図2(b)に例示したような顕著性を輝度値で可視化した画像(画像データ)である。また、顕著性推定情報はたとえば、ヒートマップのように顕著性に応じて色分けされた画像であっても良いし、顕著性が予め定められた基準より高い顕著領域を、その他の位置とは識別可能にマーキングした画像であっても良い。さらに、顕著性推定情報は画像に限定されず、顕著領域を示す情報を列挙したテーブル等であっても良い。
【0044】
出力部130から出力された顕著性推定情報に対しては、処理装置10内、または処理装置10の外部において、画像分割や物体認識、画像分類などの各種コンピュータビジョン処理が施されても良い。
【0045】
処理装置10の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、処理装置10の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
【0046】
図8は、処理装置10を実現するための計算機1000を例示する図である。計算機1000は任意の計算機である。例えば計算機1000は、SoC(System On Chip)、Personal Computer(PC)、サーバマシン、タブレット端末、又はスマートフォンなどである。計算機1000は、処理装置10を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。
【0047】
計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、又は FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
【0048】
入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。
【0049】
ネットワークインタフェース1120は、計算機1000をネットワークに接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。ネットワークインタフェース1120がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。
【0050】
ストレージデバイス1080は、処理装置10の各機能構成部を実現するプログラムモジュールを記憶している。プロセッサ1040は、これら各プログラムモジュールをメモリ1060に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。
【0051】
また、記憶部190が処理装置10の内部に設けられる場合、例えば記憶部190は、ストレージデバイス1080を用いて実現される。
【0052】
以上、本実施形態によれば、非線形写像部120は、中間データに対し特徴の抽出を行う特徴抽出部121と、特徴抽出部121で生成されたデータのアップサンプルを行うアップサンプル部122とを備える。したがって、小さな計算コストで、顕著性を推定することができる。
【0053】
(第2の実施形態)
図9は、第2の実施形態に係る処理装置10の構成を例示する図である。本実施形態に係る処理装置10は、誤差算出部140および修正部150をさらに備える点を除いて第1の実施形態に係る処理装置10と同じである。誤差算出部140は、画像に対して生成された顕著性推定情報と、その画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、顕著性推定情報が示す顕著性分布と顕著性実測情報が示す顕著性分布との誤差を算出する。そして、修正部150は、算出された誤差に基づいて補正情報を修正する。
【0054】
本実施形態に係る処理装置10は、推定動作と、学習動作とを行う。推定動作では、入力された画像に対する顕著性推定情報が生成され、出力される。推定動作は、第1の実施形態で説明した通りの動作である。特に、本実施形態では、非線形写像部120は補正情報を用いて中間データを写像データに変換する。一方、学習動作では、教師用画像と教師用画像に対する顕著性実測情報とを用いて機械学習が行われ、補正情報が生成または修正(更新)される。補正情報は、非線形写像部120で用いられる情報であり、たとえば複数の補正パラメータを含む。
【0055】
本実施形態において、非線形写像部120は、補正情報を用いて中間データを写像データに変換する。補正情報は機械学習を用いて生成および修正の少なくとも一方がされた情報である。具体的には非線形写像部120は第1の実施形態で説明した通り複数のフィルタ125を含み、複数のフィルタ125の係数は補正情報に基づいて定められる。たとえば、補正情報は、複数のフィルタ125の係数を、複数の補正パラメータとして含む。
【0056】
本実施形態に係る処理装置10は、たとえば図8に示したような計算機1000により実現される。計算機1000のストレージデバイス1080は、誤差算出部140および修正部150を実現するプログラムモジュールをさらに記憶している。
【0057】
図10は、第2の実施形態に係る学習動作を例示するフローチャートである。学習動作について以下に詳しく説明する。学習動作のためには、教師用画像と、その教師用画像に対する顕著性実測情報とが準備される。たとえば教師用画像と顕著性実測情報とは互いに関連づけられて記憶部190に保持されている。入力部110および誤差算出部140はこれらの情報を記憶部190から読み出して用いることができる。
【0058】
教師用画像は写真等の任意の画像である。そして、顕著性実測情報はたとえば、人が教師用画像を見たときの視線を、アイトラッカを用いて実測した結果に基づき生成される。顕著性実測情報は、顕著性推定情報と同様の形態を有することができる。すなわち、顕著性実測情報は、顕著性を輝度値で可視化した画像であっても良いし、顕著性実測情報はたとえば、ヒートマップのように顕著性に応じて色分けされた画像であっても良い。
【0059】
学習動作では、入力ステップS110および非線形写像ステップS120および出力ステップS130が第1の実施形態に係る入力ステップS110および非線形写像ステップS120および出力ステップS130と同様に行われる。ただし、入力ステップS110において入力部110が取得する画像は教師用画像である。また、非線形写像ステップS120において非線形写像部120は記憶部190から補正情報を読み出す。そして、補正情報を用いて中間データを写像データに変換する。なお、非線形写像部120は、補正情報を記憶部190から読み出す代わりに、修正部150から直接取得しても良い。また、初期状態において、補正情報に含まれる補正パラメータは任意の値とすることができる。
【0060】
次いで、誤差算出ステップS140では、誤差算出部140が出力部130から顕著性推定情報を取得する。また、誤差算出部140はその顕著性推定情報の元となった教師用画像に関連づけられた顕著性実測情報を取得する。そして、誤差算出部140は、取得した顕著性推定情報と顕著性実測情報との誤差を算出する。誤差の算出方法は特に限定されないが、たとえばL1距離、L2距離(ユークリッド距離、平均二乗誤差)、Kullback-Leibler距離、Jensen-Shannon距離、およびPearson相関係数の少なくともいずれかを算出することが好ましい。
【0061】
具体的には、ユークリッド距離は以下の式(1)で求められ、Kullback-Leibler距離は以下の式(2)で求められ、Jensen-Shannon距離は以下の式(3)で求められる。ここで、pは推定結果(顕著性推定情報に基づく値)を示し、qは真値(顕著性実測情報に基づく値)を示す。
【0062】
【数1】
【数2】
【数3】
【0063】
次いで、修正ステップS150では、修正部150が誤差算出部140から誤差を取得し、この誤差が小さくなるように補正パラメータを修正する。そして、記憶部190に保持された補正パラメータが修正後の補正パラメータに置き換えられる。ここで、補正パラメータの修正方法は特に限定されないが、たとえば、最小二乗法、2次計画法、stochastic gradient descent(SGD)、adaptive moment estimation(ADAM)、および変分法の少なくともいずれかを用いることが好ましい。
【0064】
ここで、修正すべき補正パラメータは多数存在し、それらの値を効率よく確定して高精度に顕著性を推定するためには多数の教師データによる統計的な学習(機械学習)を用いることが好ましい。したがって、学習動作においては、非線形写像部120、誤差算出部140、および修正部150の協働により、機械学習が行われることが好ましい。
【0065】
なお、修正部150は、記憶部190に保持された補正パラメータを修正後の補正パラメータに置き換える代わりに、修正後の補正パラメータを直接非線形写像部120に対し出力しても良い。次の非線形写像ステップS120において、非線形写像部120は修正後の補正パラメータを用いて処理を行う。
【0066】
なお、1つの教師用画像に関連づけられる顕著性実測情報は1つであっても良いし、複数であっても良い。1つの教師用画像に複数の顕著性実測情報が関連づけられる場合、複数の顕著性実測情報は互いに異なる実測結果に基づく情報である。そして、誤差算出部140は顕著性推定情報と各顕著性実測情報との誤差を算出する。また、修正部150は、たとえば、全ての誤差の合計が小さくなるように補正パラメータを修正する。
【0067】
学習動作は教師用画像と顕著性実測情報との複数の組に対して行われてもよい。学習動作が繰り返されることにより、顕著性の推定精度がさらに向上する。
【0068】
学習動作が行われるタイミングは特に限定されない。たとえば、処理装置10はユーザによる学習動作を開始する旨の操作を受け付け可能である。そして、学習動作を開始する旨の操作に基づいて、処理装置10は学習動作を開始することができる。また、処理装置10は、学習動作を、ユーザによる終了操作または予め定められた終了条件に基づき終了することができる。終了条件としてはたとえば、予め定められた学習動作の反復回数を満たすこと、または、誤差が予め定められた基準値以下となることが挙げられる。
【0069】
以上、本実施形態によれば、第1の実施形態と同様、非線形写像部120は、中間データに対し特徴の抽出を行う特徴抽出部121と、特徴抽出部121で生成されたデータのアップサンプルを行うアップサンプル部122とを備える。したがって、小さな計算コストで、顕著性を推定することができる。
【0070】
くわえて、本実施形態によれば、処理装置10は誤差算出部140および修正部150を備える。したがって、学習動作により修正された補正情報を用いて、より高精度な顕著性推定が実現する。
【0071】
(第3の実施形態)
図11は、第3の実施形態に係る演算装置20の構成および使用環境を例示する図である。本実施形態に係る演算装置20は、処理装置10で用いられる補正情報を生成する装置である。演算装置20は、誤差算出部240および補正部250を備える。誤差算出部240は、教師用画像に対して生成された顕著性推定情報と、教師用画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、顕著性推定情報が示す顕著性分布と顕著性実測情報が示す顕著性分布との誤差を算出する。補正部250は、誤差に基づいて補正情報を算出する。
【0072】
本実施形態に係る処理装置10は、第1の実施形態に係る処理装置10と同様である。本実施形態に係る処理装置10は入力部110、非線形写像部120、および出力部130を備える。また、本実施形態に係る処理装置10は、第2の実施形態で説明した誤差算出部140および修正部150を備えなくても良い。本実施形態に係る入力部110は第1および第2の実施形態の少なくともいずれかに係る入力部110と同じであり、本実施形態に係る非線形写像部120は第1および第2の実施形態の少なくともいずれかに係る非線形写像部120と同じであり、本実施形態に係る出力部130は第1および第2の実施形態の少なくともいずれかに係る出力部130と同じである。本実施形態に係る誤差算出部240の動作は第2の実施形態に係る誤差算出部140の動作と同じであり、本実施形態に係る補正部250の動作は第2の実施形態に係る修正部150の動作と同じである。処理装置10と演算装置20とは協働して第2の実施形態において説明した学習動作および推定動作を行う。また、処理装置10と演算装置20とは物理的に離れていても良く、たとえば通信ネットワークを介して互いに接続されてもよい。
【0073】
また、本実施形態に係る学習動作においては、非線形写像部120、誤差算出部240、および補正部250の協働により、機械学習が行われることが好ましい。
【0074】
なお、出力部130は生成した顕著性推定情報を一旦記憶部190に記憶させ、誤差算出部240は記憶部190に記憶された顕著性推定情報を読み出して用いても良い。
【0075】
本実施形態に係る演算装置20は、たとえば図8に示したような計算機1000により実現される。計算機1000のストレージデバイス1080は、演算装置20の各機能構成部を実現するプログラムモジュールを記憶している。
【0076】
本図の例において記憶部190は処理装置10および演算装置20とは別途設けられているが本例に限定されず、記憶部190は処理装置10に設けられていても良いし、演算装置20に設けられていても良い。記憶部190が演算装置20の内部に設けられる場合、例えば記憶部190は、演算装置20を実現する計算機1000のストレージデバイス1080を用いて実現される。また、記憶部190は、処理装置10を実現する計算機1000のストレージデバイス1080と演算装置20を実現する計算機1000のストレージデバイス1080との協働で成り立っても良い。
【0077】
以上、本実施形態によれば、第1の実施形態と同様、非線形写像部120は、中間データに対し特徴の抽出を行う特徴抽出部121と、特徴抽出部121で生成されたデータのアップサンプルを行うアップサンプル部122とを備える。したがって、小さな計算コストで、顕著性を推定することができる。
【0078】
くわえて、本実施形態によれば、演算装置20は誤差算出部240および補正部250を備える。したがって、学習動作により修正された補正情報を用いて、より高精度な顕著性推定が実現する。
【0079】
(第4の実施形態)
図12は、第4の実施形態に係る処理装置10の構成を例示する図である。本実施形態に係る処理装置10は、合成部160および表示部180をさらに備える点を除いて第1および第2の実施形態の少なくともいずれかに係る処理装置10と同じである。
【0080】
合成部160は、顕著性推定情報が示す顕著性分布と、入力部110に入力された画像(入力画像)とを合成した合成情報を生成する。具体的には合成部160は、出力部130から顕著性推定情報を取得し、たとえば記憶部190から入力画像を取得する。そして、入力画像と顕著性分布とを合わせて示した合成情報を出力する。合成情報はたとえば処理装置10に備えられた表示部180に出力される。また、合成部160から出力された合成情報は、記憶部190に保持されたり、外部の装置により取得されたりしても良い。
【0081】
図13は、合成部160で生成された合成情報が示す画像を例示する図である。本図の例において、合成情報は入力画像と顕著性を示すヒートマップを重ねた画像である。なお、合成情報の形式は特に限定されない。合成情報はたとえば、顕著領域を、入力画像において円や四角で囲った画像であってもよい。また、合成手法も特に限定されず、αブレンド等が挙げられる。
【0082】
本実施形態に係る処理装置10を、たとえば、カメラ等の撮像装置を搭載した携帯端末(スマートフォン、タブレット等)に実装することができる。そうすれば、携帯端末で撮影しながら、顕著性の高い重要物体をその場で抽出すると共に、視認性良く可視化することができる。
【0083】
本実施形態に係る処理装置10は、たとえば図8に示したような計算機1000により実現される。計算機1000のストレージデバイス1080は、合成部160を実現するプログラムモジュールをさらに記憶している。また、表示部180はたとえば入出力インタフェース1100に接続されたディスプレイ装置である。
【0084】
以上、本実施形態によれば、第1の実施形態と同様、非線形写像部120は、中間データに対し特徴の抽出を行う特徴抽出部121と、特徴抽出部121で生成されたデータのアップサンプルを行うアップサンプル部122とを備える。したがって、小さな計算コストで、顕著性を推定することができる。
【0085】
くわえて、本実施形態によれば、処理装置10は合成部160をさらに備える。したがって、画像の各位置における顕著性を視認性良く可視化することができる。
【0086】
(第5の実施形態)
図14は、第5の実施形態に係る処理装置10の構成を例示する図である。本実施形態に係る処理装置10は、マスク画像生成部170、領域抽出部172、および物体検出部174をさらに備える点を除いて第1、第2および第4の実施形態の少なくともいずれかに係る処理装置10と同じである。
【0087】
マスク画像生成部170は、出力部130から顕著性推定情報を取得し、マスク画像を生成する。具体的には、マスク画像生成部170は顕著性推定情報で示される顕著性分布において、顕著性が予め定められた基準より低い領域をマスク領域とし、顕著性が予め定められた基準以上である領域を非マスク領域としたマスク画像を生成する。すなわち、マスク画像生成部170は顕著性分布の二値化を行う。ここで基準は予め設定され、記憶部190に保持されており、マスク画像生成部170がそれを読み出して用いることができる。
【0088】
領域抽出部172は、入力画像とマスク画像を取得する。そして、入力画像にマスク画像を作用させることにより、入力画像から顕著性の高い領域を抽出する。たとえば領域抽出部172は、入力画像とマスク画像と論理演算を行うことで、入力画像から顕著性の高い領域を抽出することができる。
【0089】
そして、物体検出部174は、領域抽出部172で抽出された領域から、物体を検出する。物体の検出方法は特に限定されないが、たとえばSingle Shot Multibox Detector(SSD)を用いる方法が挙げられる。本実施形態に係る処理装置10では予め顕著性が高い領域を抽出し、抽出された領域のみで物体検出が行われるため、誤検出が抑制される。
【0090】
本実施形態に係る処理装置10はたとえば自動車等の移動体に搭載される。そして、物体検出部174による物体の検出結果は自動運転や運転支援に用いることができる。
【0091】
本実施形態に係る処理装置10は、たとえば図8に示したような計算機1000により実現される。計算機1000のストレージデバイス1080は、マスク画像生成部170、領域抽出部172、および物体検出部174を実現するプログラムモジュールをさらに記憶している。
【0092】
以上、本実施形態によれば、第1の実施形態と同様、非線形写像部120は、中間データに対し特徴の抽出を行う特徴抽出部121と、特徴抽出部121で生成されたデータのアップサンプルを行うアップサンプル部122とを備える。したがって、小さな計算コストで、顕著性を推定することができる。
【0093】
くわえて、本実施形態によれば、処理装置10はマスク画像生成部170、領域抽出部172、および物体検出部174をさらに備える。したがって、入力画像において高精度の物体検出が行える。
【実施例0094】
以下、上記した実施形態を、実施例を参照して詳細に説明する。なお、実施形態は、これらの実施例の記載に何ら限定されるものではない。
【0095】
(実施例1)
画像の顕著性を、第1の実施形態に係る処理方法で推定し、実施例1Aとした。具体的には、実施例1Aでは、図1図4図5図6(a)、および図7(a)から図7(c)に示した構成を有する処理装置により顕著性を推定した。また、同じ画像の顕著性を非特許文献1に記載の方法で推定し、比較例1Aとした。
【0096】
非特許文献1の方法では、畳み込みニューラルネットワークの一種であるDilated Convolutional Networkを用いて入力画像から画像特徴を抽出する。そして、時系列ネットワークの一種であるLSTMを流用したAttentive Convolutional LSTMを用いて画像特徴から顕著性の高い特徴のみに選択的に注目する。
【0097】
これに対し、実施例A1では、畳み込みニューラルネットワークの一種をアップサンプル部として用い、画像特徴から顕著性の高い特徴をアップサンプル(高解像度化)することにより、顕著性の抽出精度を高めている。
【0098】
表1は、比較例1Aと実施例1Aの各計算コストを示している。くわえて、表1には、比較例1Aの計算コストを100%とした場合の計算コストの比率を合わせて示している。なお、本表中、単位Mは10である。
【0099】
【表1】
【0100】
比較例1Aでは、Attentive Convolutional LSTMのニューラルネットワーク層が深いため、推定動作の計算コストが大きくなった。これに対し実施例1Aでは、畳み込みニューラルネットワークによるアップサンプル部を用いることで、計算コストを効果的に削減できた。なお、比較例1Aおよび実施例1Aにおいて、中間データサイズは320×240とし、比較例1Aの計算コストは公開ソフトウエア(http://saliency.mit.edu/results_cat2000.html)に基づき算出した。
【0101】
図15(a)は、実施例1Aおよび比較例1Aにおける入力画像である。図15(b)は、図15(a)に対する顕著性を、アイトラッカを用いて実測した結果を示す図である。図15(c)は、比較例1Aにおける顕著性の推定結果を示す図である。図15(d)は、実施例1Aにおける顕著性の推定結果を示す図である。図15(b)から図15(d)では、顕著性が高い部分ほど高い輝度で示されている。
【0102】
図15(b)の実測結果では、図15(a)において矢印で示された部分において顕著性が高かった。そして、比較例1Aよりも実施例1Aにおいて、実測結果に近い推定結果が得られた。
【0103】
以上の通り、実施例1Aでは、比較例1Aよりも低い計算コストで高精度に顕著性を推定できた。
【0104】
(実施例2)
画像の顕著性を、実施例1Aと同じ処理方法で推定し、実施例2Aとした。また、同じ画像の顕著性を特許文献1に記載の方法で推定し、比較例2Aとした。
【0105】
特許文献1の方法では、ローカル顕著性取得部において、畳み込みニューラルネットワークの一種を用いて、入力画像から局所領域ごとにピクセル単位のローカル顕著性を推定する。そして、グローバル顕著性取得部において、ローカル顕著性および物体候補領域画像から抽出した特徴ベクトルを用いてグローバル顕著性を推定する。
【0106】
これに対し、実施例A2では、畳み込みニューラルネットワークの一種を用いて入力画像から全画像領域の画像特徴を抽出する。そして、畳み込みニューラルネットワークの一種をアップサンプル部として用い、画像特徴から顕著性の高い特徴をアップサンプル(高解像度化)する。そうすることにより、顕著性の抽出精度を高めている。
【0107】
表2は、比較例2Aと実施例2Aの各計算コストを示している。くわえて、表2には、比較例2Aの計算コストを100%とした場合の計算コストの比率を合わせて示している。なお、本表中、単位Mは10である。
【0108】
【表2】
【0109】
比較例2Aでは、ローカル顕著性取得部とグローバル顕著性取得部を構成する畳み込みニューラルネットワークのChannel数、Filterサイズ、およびInputサイズが大きいため、推定動作の計算コストが大きくなった。これに対し実施例2Aでは、チャネル数およびフィルタサイズの小さな畳み込みニューラルネットワーク構成を用いて特徴抽出部およびアップサンプル部を構成することができ、推定動作の計算コストを効果的に削減できた。なお、比較例2Aの計算コストは特許文献1の図1および表1に基づいて算出した。また、比較例2Aおよび実施例2Aにおいて、中間データサイズはそれぞれ51×51および320×240とした。
【0110】
以上の通り、実施例2Aでは、比較例2Aよりも低い計算コストで顕著性を推定できた。
【0111】
(実施例3)
実施例3A、3Bおよび3Cでは、第2の実施形態で説明した学習動作を行い、算出した補正パラメータを用いて推定動作を行った。学習動作において算出する損失関数(誤差)を、実施例3Aにおいてユークリッド距離とし、実施例3BにおいてKullback-Leibler距離とし、実施例3CにおいてJensen-Shannon距離とした。それ以外の条件は実施例3A、3Bおよび3Cで同じである。なお、実施例3Bは実施例1Aおよび実施例2Aに対応する。
【0112】
図16(a)から図16(c)は、それぞれ実施例3A、実施例3B、および実施例3Cにおける顕著性の推定結果を示す図である。図16(a)から図16(c)では、顕著性が高い部分ほど高い輝度で示されている。いずれの実施例においても比較例1Aよりも実測結果に近い推定結果が得られた。
【0113】
(実施例4)
実施例4Aでは、第5の実施形態で説明した処理方法で入力画像から物体検出を行った。また、比較例4Aでは、入力画像から直接物体検出を行った。なお、実施例4Aおよび比較例4Aにおいて物体検出はSSDにより行った。
【0114】
図17(a)は、実施例4Aおよび比較例4Aにおける入力画像である。図17(a)は具体的にはドライブレコーダーで取得された画像である。図17(b)は、実施例4Aにおいて図17(a)に基づき生成された顕著性推定情報である。本図では、顕著性が高い部分ほど高い輝度で示されている。図17(c)は、比較例4Aにおける物体検出結果を示す図である。図17(d)は、実施例4Aにおける物体検出結果を示す図である。本図において、黒く塗りつぶされた部分がマスク領域に相当する。
【0115】
図17(c)に示された比較例4Aの検出結果では、それぞれ四角で囲われた領域A、領域B、領域C、および領域Dにおいて物体が検出された。また、図17(d)に示された実施例4Aの検出結果では、それぞれ四角で囲われた領域Eおよび領域Fにおいて物体が検出された。領域Aは飛行機が検出された領域であり、領域Bは列車が検出された領域であり、領域Cおよび領域Eは車が検出された領域であり、領域Dおよび領域Fはバスが検出された領域である。
【0116】
図17(c)から分かるように、比較例4Aでは車やバスが正しく検出された一方で、道路の領域を飛行機や列車として検出しており、誤検出が発生した。それに対し、図17(d)から分かるように、実施例4Aでは、飛行機や列車は検出されず、誤検出が抑制された。
【0117】
以上の通り、実施例4Aでは比較例4Aよりも物体検出精度が高かった。
【0118】
以上、図面を参照して実施形態及び実施例について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【0119】
以下、参考形態の例を付記する。
1-1. 画像を写像処理可能な中間データに変換する入力部と、
前記中間データを写像データに変換する非線形写像部と、
前記写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部とを備え、
前記非線形写像部は、前記中間データに対し特徴の抽出を行う特徴抽出部と、前記特徴抽出部で生成されたデータのアップサンプルを行うアップサンプル部とを備える処理装置。
1-2. 1-1.に記載の処理装置において、
前記非線形写像部は、補正情報をさらに用いて前記中間データを前記写像データに変換し、
前記補正情報は、機械学習を用いて修正された情報である処理装置。
1-3. 1-2.に記載の処理装置において、
前記画像に対して生成された前記顕著性推定情報と、前記画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、前記顕著性推定情報が示す顕著性分布と前記顕著性実測情報が示す顕著性分布との誤差を算出する誤差算出部と、
前記誤差に基づいて前記補正情報を修正する修正部とをさらに備える処理装置。
1-4. 1-2.または1-3.に記載の処理装置において、
前記非線形写像部は複数のフィルタを含み、
前記複数のフィルタの係数は前記補正情報に基づいて定められる処理装置。
1-5. 1-1.から1-3.のいずれか一つに記載の処理装置において、
前記特徴抽出部および前記アップサンプル部の少なくとも一方は、複数の中間層を含むニューラルネットワークを含んで構成される処理装置。
1-6. 1-5.に記載の処理装置において、
前記複数の中間層のそれぞれは、一または二以上の畳み込み層を含み、
前記畳み込み層では、入力されたデータに対し複数のフィルタによる畳み込みが行われ、前記複数のフィルタの出力に対し活性化処理が施される処理装置。
1-7. 1-6.に記載の処理装置において、
前記特徴抽出部は、
前記複数の中間層を含む前記ニューラルネットワークを含んで構成され、
前記複数の中間層の間に第1のプーリング部を備える処理装置。
1-8. 1-7.に記載の処理装置において、
第1の前記中間層と、前記第1の中間層の後段に位置する第2の前記中間層とは、前記第1のプーリング部を介して互いに連続しており、
前記第1の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、前記第2の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、
>Nが成り立つ処理装置。
1-9. 1-6.から1-8.のいずれか一つに記載の処理装置において、
前記アップサンプル部は、
前記複数の中間層を含む前記ニューラルネットワークを含んで構成され、
前記複数の中間層の間にアンプーリング部を備える処理装置。
1-10. 1-9.に記載の処理装置において、
第3の前記中間層と、前記第3の中間層の後段に位置する第4の前記中間層とは、前記アンプーリング部を介して互いに連続しており、
前記第3の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、前記第4の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、
<Nが成り立つ処理装置。
1-11. 1-5.から1-10.のいずれか一つに記載の処理装置において、
前記特徴抽出部と前記アップサンプル部とは、オーバーラッププーリングを行う第2のプーリング部を介して互いに接続されている処理装置。
1-12. 1-2.に記載の処理装置で用いられる前記補正情報を生成する演算装置であって、
教師用画像に対して生成された前記顕著性推定情報と、前記教師用画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、前記顕著性推定情報が示す顕著性分布と前記顕著性実測情報が示す顕著性分布との誤差を算出する誤差算出部と、
前記誤差に基づいて前記補正情報を算出する補正部とを備える演算装置。
2-1. コンピュータによって実行される処理方法であって、
画像を写像処理可能な中間データに変換する入力ステップと、
前記中間データを写像データに変換する非線形写像ステップと、
前記写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力ステップとを含み、
前記非線形写像ステップは、前記中間データに対し特徴の抽出を行う特徴抽出ステップと、前記特徴抽出ステップで生成されたデータのアップサンプルを行うアップサンプルステップとを含む処理方法。
2-2. 2-1.に記載の処理方法において、
前記非線形写像ステップでは、補正情報をさらに用いて前記中間データを前記写像データに変換し、
前記補正情報は、機械学習を用いて修正された情報である処理方法。
2-3. 2-2.に記載の処理方法において、
前記画像に対して生成された前記顕著性推定情報と、前記画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、前記顕著性推定情報が示す顕著性分布と前記顕著性実測情報が示す顕著性分布との誤差を算出する誤差算出ステップと、
前記誤差に基づいて前記補正情報を修正する修正ステップとをさらに含む処理方法。
2-4. 2-2.または2-3.に記載の処理方法において、
前記非線形写像ステップでは複数のフィルタによる処理が行われ、
前記複数のフィルタの係数は前記補正情報に基づいて定められる処理方法。
2-5. 2-1.から2-3.のいずれか一つに記載の処理方法において、
前記特徴抽出ステップおよび前記アップサンプルステップの少なくとも一方では、複数の中間層を含むニューラルネットワークを用いて処理される処理方法。
2-6. 2-5.に記載の処理方法において、
前記複数の中間層のそれぞれは、一または二以上の畳み込み層を含み、
前記畳み込み層では、入力されたデータに対し複数のフィルタによる畳み込みが行われ、前記複数のフィルタの出力に対し活性化処理が施される処理方法。
2-7. 2-6.に記載の処理方法において、
前記特徴抽出ステップでは、
前記複数の中間層を含む前記ニューラルネットワークを用いて処理がされ、
前記複数の中間層の処理の間に第1のプーリングステップがさらに含まれる処理方法。
2-8. 2-7.に記載の処理方法において、
第1の前記中間層の処理と、前記第1の中間層の後段に位置する第2の前記中間層の処理とは、前記第1のプーリングステップを介して互いに連続しており、
前記第1の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、前記第2の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、
>Nが成り立つ処理方法。
2-9. 2-6.から2-8.のいずれか一つに記載の処理方法において、
前記アップサンプルステップでは、
前記複数の中間層を含む前記ニューラルネットワークを用いて処理がされ、
前記複数の中間層の処理の間にアンプーリングステップが含まれる処理方法。
2-10. 2-9.に記載の処理方法において、
第3の前記中間層の処理と、前記第3の中間層の後段に位置する第4の前記中間層の処理とは、前記アンプーリングステップを介して互いに連続しており、
前記第3の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、前記第4の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、
<Nが成り立つ処理方法。
2-11. 2-5.から2-10.のいずれか一つに記載の処理方法において、
前記特徴抽出ステップと前記アップサンプルステップとは、オーバーラッププーリングを行う第2のプーリングステップを介して互いに連続している処理方法。
2-12. 2-2.に記載の処理方法で用いられる前記補正情報を生成する演算方法であって、
教師用画像に対して生成された前記顕著性推定情報と、前記教師用画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、前記顕著性推定情報が示す顕著性分布と前記顕著性実測情報が示す顕著性分布との誤差を算出する誤差算出ステップと、
前記誤差に基づいて前記補正情報を算出する補正ステップとを含む演算方法。
3-1. 2-1から2-11のいずれか1つに記載の処理方法の各ステップをコンピュータに実行させるプログラム。
3-2. 2-12に記載の演算方法の各ステップをコンピュータに実行させるプログラム。
【符号の説明】
【0120】
10 処理装置
20 演算装置
30 要素
110 入力部
120 非線形写像部
121 特徴抽出部
122 アップサンプル部
123 中間層
124 畳み込み層
125 フィルタ
126 第1のプーリング部
127 第2のプーリング部
128 アンプーリング部
129 活性化部
130 出力部
140 誤差算出部
150 修正部
160 合成部
170 マスク画像生成部
172 領域抽出部
174 物体検出部
180 表示部
190 記憶部
240 誤差算出部
250 補正部
1000 計算機
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
【手続補正書】
【提出日】2024-07-24
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像を写像処理可能な中間データに変換する入力部と、
前記中間データを写像データに変換する非線形写像部と、
前記写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部とを備え、
前記非線形写像部は、
前記中間データに対し特徴の抽出を行う特徴抽出部と、
前記特徴抽出部で生成されたデータのアップサンプルを行うアップサンプル部と
前記特徴抽出部および前記アップサンプル部に接続され、オーバーラッププーリングを行う第2のプーリング部と、を備え
前記顕著性推定情報は、前記画像を見た人の視線がその画像中の各位置に向く確率を示す
処理装置。
【請求項2】
請求項1に記載の処理装置において、
前記非線形写像部は、補正情報をさらに用いて前記中間データを前記写像データに変換し、
前記補正情報は、機械学習を用いて修正された情報である処理装置。
【請求項3】
請求項2に記載の処理装置において、
前記画像に対して生成された前記顕著性推定情報と、前記画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、前記顕著性推定情報が示す顕著性分布と前記顕著性実測情報が示す顕著性分布との誤差を算出する誤差算出部と、
前記誤差に基づいて前記補正情報を修正する修正部とをさらに備える処理装置。
【請求項4】
請求項2または3に記載の処理装置において、
前記非線形写像部は複数のフィルタを含み、
前記複数のフィルタの係数は前記補正情報に基づいて定められる処理装置。
【請求項5】
請求項1から3のいずれか一項に記載の処理装置において、
前記特徴抽出部および前記アップサンプル部の少なくとも一方は、複数の中間層を含むニューラルネットワークを含んで構成される処理装置。
【請求項6】
請求項5に記載の処理装置において、
前記複数の中間層のそれぞれは、一または二以上の畳み込み層を含み、
前記畳み込み層では、入力されたデータに対し複数のフィルタによる畳み込みが行われ、前記複数のフィルタの出力に対し活性化処理が施される処理装置。
【請求項7】
請求項6に記載の処理装置において、
前記特徴抽出部は、
前記複数の中間層を含む前記ニューラルネットワークを含んで構成され、
前記複数の中間層の間に第1のプーリング部を備える処理装置。
【請求項8】
請求項7に記載の処理装置において、
第1の前記中間層と、前記第1の中間層の後段に位置する第2の前記中間層とは、前記第1のプーリング部を介して互いに連続しており、
前記第1の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、前記第2の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、
>Nが成り立つ処理装置。
【請求項9】
請求項6から8のいずれか一項に記載の処理装置において、
前記アップサンプル部は、
前記複数の中間層を含む前記ニューラルネットワークを含んで構成され、
前記複数の中間層の間にアンプーリング部を備える処理装置。
【請求項10】
請求項9に記載の処理装置において、
第3の前記中間層と、前記第3の中間層の後段に位置する第4の前記中間層とは、前記アンプーリング部を介して互いに連続しており、
前記第3の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、前記第4の中間層は、各チャネルに対する前記フィルタの数がNである前記畳み込み層で構成されており、
<Nが成り立つ処理装置。
【請求項11】
請求項2に記載の処理装置で用いられる前記補正情報を生成する演算装置であって、
教師用画像に対して生成された前記顕著性推定情報と、前記教師用画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、前記顕著性推定情報が示す顕著性分布と前記顕著性実測情報が示す顕著性分布との誤差を算出する誤差算出部と、
前記誤差に基づいて前記補正情報を算出する補正部とを備える演算装置。
【請求項12】
コンピュータによって実行される処理方法であって、
画像を写像処理可能な中間データに変換する入力ステップと、
前記中間データを写像データに変換する非線形写像ステップと、
前記写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力ステップとを含み、
前記非線形写像ステップは、
前記中間データに対し特徴の抽出を行う特徴抽出ステップと、
前記特徴抽出ステップで生成されたデータのアップサンプルを行うアップサンプルステップと
前記特徴抽出ステップと前記アップサンプルステップとの間、オーバーラッププーリングを行う第2のプーリングステップを含み、
前記顕著性推定情報は、前記画像を見た人の視線がその画像中の各位置に向く確率を示す
処理方法。
【請求項13】
請求項12に記載の処理方法の各ステップをコンピュータに実行させるプログラム。