IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカの特許一覧

特許7539795情報処理方法、情報処理システム、及び、情報処理装置
<>
  • 特許-情報処理方法、情報処理システム、及び、情報処理装置 図1
  • 特許-情報処理方法、情報処理システム、及び、情報処理装置 図2
  • 特許-情報処理方法、情報処理システム、及び、情報処理装置 図3
  • 特許-情報処理方法、情報処理システム、及び、情報処理装置 図4
  • 特許-情報処理方法、情報処理システム、及び、情報処理装置 図5
  • 特許-情報処理方法、情報処理システム、及び、情報処理装置 図6
  • 特許-情報処理方法、情報処理システム、及び、情報処理装置 図7
  • 特許-情報処理方法、情報処理システム、及び、情報処理装置 図8
  • 特許-情報処理方法、情報処理システム、及び、情報処理装置 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-16
(45)【発行日】2024-08-26
(54)【発明の名称】情報処理方法、情報処理システム、及び、情報処理装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240819BHJP
【FI】
G06T7/00 350B
【請求項の数】 9
(21)【出願番号】P 2020109061
(22)【出願日】2020-06-24
(65)【公開番号】P2021089708
(43)【公開日】2021-06-10
【審査請求日】2023-04-04
(31)【優先権主張番号】62/943,494
(32)【優先日】2019-12-04
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100109210
【弁理士】
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【弁理士】
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【弁理士】
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】佐藤 智
(72)【発明者】
【氏名】石井 育規
(72)【発明者】
【氏名】藤村 亮太
(72)【発明者】
【氏名】ポンサク ラサン
(72)【発明者】
【氏名】チャンシン ヂォゥ
【審査官】佐藤 実
(56)【参考文献】
【文献】Zihao W. Wang et al.,Privacy-Preserving Action Recognition Using Coded Aperture Videos,2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops,IEEE,2019年06月16日,pp.1-10,https://ieeexplore.ieee.org/document/9025454
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実行される情報処理方法であって、
マルチピンホールカメラにて生成された第1画像を取得し、
前記第1画像上の複数の領域それぞれにおいて少なくとも1つのPSF(Point Spread Function)を抽出し、
前記第1画像を生成した前記マルチピンホールカメラ異なるカメラで撮像された第2画像、及び、前記第2画像についての機械学習におけるリファレンスデータを取得し、
前記第1画像上の複数の領域のそれぞれにおいて抽出された前記少なくとも1つのPSFを前記第2画像上の複数の領域のそれぞれに畳み込むことで、第3画像を生成し、
前記リファレンスデータと前記第3画像との組を出力する
情報処理方法。
【請求項2】
前記少なくとも1つのPSFは、複数のPSFであり、
前記第2画像の各領域に畳み込まれるPSFは、前記複数のPSFから選択される
請求項1に記載の情報処理方法。
【請求項3】
複数の前記第2画像を取得し、
前記第2画像の各領域に畳み込まれるPSFとして選択されるPSFは、複数の前記第2画像のそれぞれで異なる
請求項2に記載の情報処理方法。
【請求項4】
前記リファレンスデータと訓練データとしての前記第3画像とを用いて機械学習で推論モデルを訓練する
請求項1~3のいずれか1項に記載の情報処理方法。
【請求項5】
前記第1画像の各領域と前記第2画像の各領域とは、それぞれ対応する領域である
請求項1~4のいずれか1項に記載の情報処理方法。
【請求項6】
前記第1画像の各領域、及び、前記第2画像の各領域はそれぞれ、複数の画素を含む領域である
請求項1~5のいずれか1項に記載の情報処理方法。
【請求項7】
前記第2画像は、前記第1画像を得た前記マルチピンホールカメラと異なるカメラにて生成された画像である
請求項1~6のいずれか1項に記載の情報処理方法。
【請求項8】
マルチピンホールカメラにて生成された第1画像を取得する第1取得部と、
前記第1画像上の複数の領域それぞれにおいて少なくとも1つのPSF(Point Spread Function)を抽出するPSF抽出部と、
前記第1画像を生成した前記マルチピンホールカメラ異なるカメラで撮像された第2画像、及び、前記第2画像についての機械学習におけるリファレンスデータを取得する第2取得部と、
前記第1画像上の複数の領域のそれぞれにおいて抽出された前記少なくとも1つのPSFを前記第2画像上の複数の領域のそれぞれに畳み込むことで、第3画像を生成する画像生成部と、
前記リファレンスデータと前記第3画像との組を出力する出力部とを備える
情報処理システム。
【請求項9】
マルチピンホールカメラから第4画像を取得する取得部と、
前記第4画像を推論モデルに入力して推論結果を取得させる制御部と、
取得された前記推論結果に基づくデータを出力する出力部と、を備え
前記推論モデルは、第2画像についての機械学習におけるリファレンスデータと訓練データとしての第3画像とを用いて機械学習で訓練され、
前記第3画像は、第1画像上の複数の領域のそれぞれにおいて抽出された少なくとも1つのPSF(Point Spread Function)を前記第1画像とは異なる前記第2画像上の複数の領域のそれぞれに畳み込むことで生成され、
前記第1画像は、マルチピンホールカメラにて生成される
情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理方法、情報処理システム、及び、情報処理装置に関する。
【背景技術】
【0002】
近年、画像を用いた機械学習による画像認識により、物体の認識が行われている。例えば、特許文献1には、ディープラーニング(Deep Learning:深層学習)により画像認識を行う画像処理装置が開示されている。
【0003】
また、非特許文献1には、画像認識における機械学習アルゴリズムの1つである、「CenterNET-Res18」及び「CenterNET-DLA34」について開示されている。また、非特許文献2には、画像認識における機械学習アルゴリズムの1つである「RefineDet」について開示されている。また、非特許文献3には、画像認識における機械学習アルゴリズムの1つである「YOLOv3-tiny」について開示されている。また、また、非特許文献4には、画像認識における機械学習アルゴリズムの1つである「MFFD」について開示されている。なお、「MFFD」は、「ThinNet」とも呼ばれることがある。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2018-163554号公報
【非特許文献】
【0005】
【文献】X.Zhou,D.Wang,and P.Krahenbuhl,“Objects as points,”in arXivpreprint arXiv:1904.07850,2019.
【文献】S.Zhang,L.Wen,X.Bian,Z.Lei,andS.Z.Li,“Single-shot refinement neural network for object detection,”in CVPR,2018.
【文献】J.Redmon and A.Farhadi,“Yolov3:An incremental improvement,”arXiv preprint arXiv:1804.02767,2018.
【文献】S,Cao,Y.Liu,P.Lasang,and S.Shen,“Detecting the objects on the road using modular lightweight network,”arXiv preprint arXiv:1811.06641,2018.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記特許文献1に開示された技術では、画像に写っている物体のプライバシーの保護が考慮されていない。プライバシー保護の観点で画像を加工する技術が知られているが、加工後の画像を用いた画像認識では認識結果が悪化することが多い。
【0007】
そこで、本開示は、画像を用いた物体の画像認識における物体のプライバシーを保護しつつ、画像認識における認識性能の低下を抑制することができる情報処理方法、情報処理システム、及び、情報処理装置を提供する。
【課題を解決するための手段】
【0008】
本開示の一態様に係る情報処理方法は、コンピュータにより実行される情報処理方法であって、マルチピンホールカメラにて生成された第1画像を取得し、前記第1画像上の複数の領域それぞれにおいて少なくとも1つのPSF(Point Spread Function)を抽出し、前記第1画像と異なる第2画像、及び、前記第2画像についての機械学習におけるリファレンスデータを取得し、前記第1画像上の複数の領域のそれぞれにおいて抽出された前記少なくとも1つのPSFを前記第2画像上の複数の領域のそれぞれに畳み込むことで、第3画像を生成し、前記リファレンスデータと前記第3画像との組を出力する。
【0009】
本開示の一態様に係る情報処理システムは、マルチピンホールカメラにて生成された第1画像を取得する第1取得部と、前記第1画像上の複数の領域それぞれにおいて少なくとも1つのPSF(Point Spread Function)を抽出するPSF抽出部と、前記第1画像と異なる第2画像、及び、前記第2画像についての機械学習におけるリファレンスデータを取得する第2取得部と、前記第1画像上の複数の領域のそれぞれにおいて抽出された前記少なくとも1つのPSFを前記第2画像上の複数の領域のそれぞれに畳み込むことで、第3画像を生成する画像生成部と、前記リファレンスデータと前記第3画像との組を出力する出力部とを備える。
【0010】
本開示の一態様に係る情報処理装置は、第4画像を取得する取得部と、第4画像を推論モデルに入力して推論結果を取得させる制御部と、取得された前記推論結果に基づくデータを出力する出力部と、を備え前記推論モデルは、第2画像についての機械学習におけるリファレンスデータと訓練データとしての第3画像とを用いて機械学習で訓練され、前記第3画像は、第1画像上の複数の領域のそれぞれにおいて抽出された少なくとも1つのPSF(Point Spread Function)を前記第1画像とは異なる前記第2画像上の複数の領域のそれぞれに畳み込むことで生成され、前記第1画像は、マルチピンホールカメラにて生成される。
【発明の効果】
【0011】
本開示の一態様に係る情報処理方法等によれば、画像を用いた物体の画像認識における物体のプライバシーを保護しつつ、画像認識における認識性能の低下を抑制することができる。
【図面の簡単な説明】
【0012】
図1図1は、実施の形態に係る情報処理システムの機能構成を示すブロック図である。
図2図2は、実施の形態に係る情報処理システムの訓練用のデータセットを生成する動作を示すフローチャートである。
図3図3は、実施の形態に係る第1画像の取得を説明するための図である。
図4図4は、実施の形態に係る第1画像の一例を示す図である。
図5図5は、実施の形態に係るPSFの抽出を説明するための図である。
図6図6は、実施の形態に係る第2画像から第3画像を生成することを説明するための図である。
図7図7は、実施の形態に係る物体認識モデルの訓練時の動作を示すフローチャートである。
図8図8は、認識モデルごとの認識性能を示す図である。
図9図9は、行動認識モデルの機械学習アルゴリズムがRefineDetの場合の認識結果を示す図である。
【発明を実施するための形態】
【0013】
(本開示に至った経緯)
本開示の実施の形態の説明に先立ち、本開示の基礎に至った経緯について説明する。
【0014】
近年、室内外に監視カメラ等のカメラが広く設置されており、屋内での人の様子、通行人の顔、自動車のナンバープレートなど、プライバシーを含む画像が取得されやすくなる一方、カメラで撮像された画像に写る物体のプライバシー保護の重要性が高まっている。そこで、本開示では、物体のプライバシー保護の観点から、マルチピンホールカメラを用いて物体を撮像する。詳細は後述するが、マルチピンホールカメラで撮像された画像(マルチピンホール画像:MPH画像)は、視差特性を含んだ画像となる。言い換えると、MPH画像は、ボケ画像である。これにより、取得される画像がボケ画像となるので、物体のプライバシーを保護することが可能となる。なお、マルチピンホールカメラは、マルチピンホールが形成されたマルチピンホールマスクを有するカメラである。
【0015】
また、このようなMPH画像は、例えば、機械学習により生成された画像認識モデルを用いて画像認識が行われる。当該画像認識モデルは、マルチピンホールカメラで撮像されたMPH画像が入力されても、つまりボケ画像が入力されても、画像認識を精度よく行うことが求められる。
【0016】
画像認識モデルの訓練には、例えば、公開されている画像のデータセットが用いられることがある。しかしながら、公開されているデータセットは、普通のカメラ(例えば、デジタルカメラ)用のデータセットが主である。そのようなデータセットを用いて訓練してもマルチピンホールカメラ特有のボケを有する画像であるMPH画像を画像認識する画像認識モデルを効果的に訓練することが困難である。また、当該画像認識モデルのための訓練用のデータセットを、マルチピンホールカメラで撮像された画像を用いて生成することは可能ではあるが、多大な時間及びコストを要する。
【0017】
そこで、本願発明者らは、MPH画像を画像認識する画像認識モデルを訓練するためのデータセットを容易に生成することについて鋭意検討を行い、以下に示す情報処理方法等を創案した。以下に示す情報処理方法等を用いて訓練された画像認識モデルは、画像を用いた物体の画像認識における物体のプライバシーを保護しつつ、画像認識における認識性能の低下を抑制することができる。なお、以下では、画像認識モデルが物体認識モデルである場合について説明するが、これに限定されない。本開示は、物体認識モデル以外の画像認識モデル(例えば、シーン認識モデルなど)においても、適用可能である。
【0018】
本開示の一態様に係る情報処理方法は、コンピュータにより実行される情報処理方法であって、マルチピンホールカメラにて生成された第1画像を取得し、前記第1画像上の複数の領域それぞれにおいて少なくとも1つのPSF(Point Spread Function)を抽出し、前記第1画像と異なる第2画像、及び、前記第2画像についての機械学習におけるリファレンスデータを取得し、前記第1画像上の複数の領域のそれぞれにおいて抽出された前記少なくとも1つのPSFを前記第2画像上の複数の領域のそれぞれに畳み込むことで、第3画像を生成し、前記リファレンスデータと前記第3画像との組を出力する。
【0019】
ここで、MPH画像は、画像における複数の領域のそれぞれで異なるPSFを有するという特性がある。そこで、上記のように、第1画像の複数の領域それぞれの少なくとも1つのPSFを第2画像に畳み込むことで、MPH画像と同一又はMPH画像に近い第3画像を生成することができる。つまり、マルチピンホールカメラで第3画像を取得するための撮像を行うことなく、リファレンスデータと第3画像との組を取得することができる。よって、リファレンスデータと第3画像との組である機械学習用のデータセットを容易に生成することができる。
【0020】
また、マルチピンホールカメラにて生成された画像(MPH画像)は、ボケ画像であり、物体のプライバシーを保護可能な画像である。また、リファレンスデータと第3画像との組である機械学習用のデータセットを用いて訓練された推論モデル(画像認識モデル)は、MPH画像を入力とし、画像認識を行うことが可能である。よって、本開示に係る情報処理方法によれば、画像を用いた物体の画像認識における物体のプライバシーを保護しつつ、認識性能の低下を抑制することができる。
【0021】
また、例えば、前記少なくとも1つのPSFは、複数のPSFであり、前記第2画像の各領域に畳み込まれるPSFは、前記複数のPSFから選択されてもよい。
【0022】
これにより、畳み込まれるPSFが複数のPSFから選択されるので、より訓練効率が向上される第3画像を生成することができる。よって、画像を用いた物体の画像認識における認識精度の低下をより抑制することができる。
【0023】
また、例えば、複数の前記第2画像を取得し、前記第2画像の各領域に畳み込まれるPSFとして選択されるPSFは、複数の前記第2画像のそれぞれで異なっていてもよい。
【0024】
これにより、複数の第2画像のそれぞれでPSFが異なる、つまりボケ度合が異なる第3画像を生成することができる。よって、画像を用いた物体の画像認識における認識精度の低下をさらに抑制することができる。
【0025】
また、例えば、前記リファレンスデータと訓練データとしての前記第3画像とを用いて機械学習で推論モデルを訓練してもよい。
【0026】
これにより、推論モデルの訓練のためのデータセットと、当該データセットを用いた推論モデルの訓練とを一体的に行うことができる。よって、画像を用いた物体の画像認識における認識精度の低下を抑制しつつ、当該物体のプライバシーを保護することができる推論モデルを、容易に生成することができる。
【0027】
また、例えば、前記第1画像の各領域と前記第2画像の各領域とは、それぞれ対応する領域であってもよい。
【0028】
これにより、第2画像の各領域に対応したPSFを用いて第3画像を生成することができる。よって、より効果的に訓練を行い得る第3画像を生成することができる。
【0029】
また、例えば、前記第1画像の各領域、及び、前記第2画像の各領域はそれぞれ、複数の画素を含む領域であってもよい。
【0030】
これにより、領域が1つの画素で形成されている(例えば、画素ごとにPSFがある)場合に比べて、第1画像から抽出されるPSFを記憶するために記憶部に要求される記憶容量を低減することができる。
【0031】
また、例えば、前記第2画像は、前記第1画像を得た前記マルチピンホールカメラと異なるカメラにて生成された画像であってもよい。
【0032】
これにより、カメラで生成された第2画像を用いて、畳み込み演算を行うだけで第3画像を生成することができる。
【0033】
また、本開示の一態様に係る情報処理システムは、マルチピンホールカメラにて生成された第1画像を取得する第1取得部と、前記第1画像上の複数の領域それぞれにおいて少なくとも1つのPSF(Point Spread Function)を抽出するPSF抽出部と、前記第1画像と異なる第2画像、及び、前記第2画像についての機械学習におけるリファレンスデータを取得する第2取得部と、前記第1画像上の複数の領域のそれぞれにおいて抽出された前記少なくとも1つのPSFを前記第2画像上の複数の領域のそれぞれに畳み込むことで、第3画像を生成する画像生成部と、前記リファレンスデータと前記第3画像との組を出力する出力部とを備える。
【0034】
これにより、上記情報処理方法と同様の効果を奏する。
【0035】
また、本開示の一態様に係る情報処理装置は、第4画像を取得する取得部と、第4画像を推論モデルに入力して推論結果を取得させる制御部と、取得された前記推論結果に基づくデータを出力する出力部と、を備え前記推論モデルは、第2画像についての機械学習におけるリファレンスデータと訓練データとしての第3画像とを用いて機械学習で訓練され、前記第3画像は、第1画像上の複数の領域のそれぞれにおいて抽出された少なくとも1つのPSF(Point Spread Function)を前記第1画像とは異なる前記第2画像上の複数の領域のそれぞれに畳み込むことで生成され、前記第1画像は、マルチピンホールカメラにて生成される。
【0036】
これにより、上記情報処理方法と同様の効果を奏する。
【0037】
さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
【0038】
以下、本開示の一態様に係る情報処理方法、及び、情報処理システムの具体例について、図面を参照しながら説明する。ここで示す実施の形態は、いずれも本開示の一具体例を示すものである。従って、以下の実施の形態で示される数値、数値、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
【0039】
また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、例えば、各図において縮尺などは必ずしも一致しない。また、各図において、実質的に同一の構成については同一の符号を付しており、重複する説明は省略又は簡略化する。
【0040】
また、本明細書において、等しいなどの要素間の関係性を示す用語、および、矩形などの要素の形状を示す用語、並びに、数値、および、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。
【0041】
(実施の形態)
以下、本実施の形態に係る情報処理システム等について、図1図9を参照しながら説明する。
【0042】
[1.情報処理システムの構成]
まずは、本実施の形態に係る情報処理システム1の構成について、図1を参照しながら説明する。図1は、本実施の形態に係る情報処理システム1の機能構成を示す図である。情報処理システム1は、画像認識モデルの一例である物体認識モデルの訓練用のデータセットをマルチピンホールカメラ10で撮像されたMPH画像に基づいて生成し、生成した訓練用のデータセットを用いて、物体認識モデルの訓練(学習)を行うシステムである。訓練用のデータセットは、学習用のデータセットとも称される。なお、物体認識モデルは、推論モデルの一例でもある。
【0043】
図1に示すように、情報処理システム1は、マルチピンホールカメラ10と、情報処理装置20と通信接続される。
【0044】
マルチピンホールカメラ10は、1回の撮像動作で物体(被写体)に対する視点が互いに異なる複数の画像(ピンホール画像:PH画像)を同時に取得可能である。マルチピンホールカメラ10は、複数のピンホール(マルチピンホール)を用いたカメラであり、マルチピンホールマスクとイメージセンサとを有する。マルチピンホールマスクは、イメージセンサに対して物体側に一定距離離れて配置されている。つまり、イメージセンサには、マルチピンホールマスクを通過した光が入射する。マルチピンホールマスクには、ランダム又は等間隔に配置された複数のピンホールが形成されている。なお、複数のピンホールは、例えば、2以上のピンホールであればよい。
【0045】
イメージセンサは、各ピンホールを通じて物体の画像(MPH画像)を取得する。MPH画像は、各ピンホールを介して取得される画像である。各ピンホールの位置及び大きさによって、取得されるPH画像が異なるため、イメージセンサは、複数のPH画像の重畳画像(符号化画像)をMPH画像として取得する。
【0046】
なお、詳細は後述するが、イメージセンサは、マルチピンホールカメラ10のPSF(Point Spread Function:点像強度分布関数)を取得可能なMPH画像を取得する。PSFが取得可能なMPH画像を第1画像とも記載する。なお、PSFは、点光源を撮像したときの光学系による像のボケ方(劣化の仕方)を示すものであり、ボケたときの強度分布を表す関数である。PSFは、理想的な点光源が光学系を通過した場合に、どのように光線が広がるかを表した関数であるとも言える。PSFは、理想的にはインパルス応答となる。
【0047】
ピンホールの位置は、イメージセンサ上に投影される物体の位置に影響を与え、ピンホールの大きさは、MPH画像のボケに影響を与える。マルチピンホールカメラ10は、マルチピンホールマスクを用いることによって、物体の位置が異なる複数のPH画像を重畳してMPH画像を取得する。複数のPH画像のそれぞれは、互いに視点が少しずつ異なる画像である。つまり、MPH画像は、視差情報を含んだ画像となる。
【0048】
MPH画像は、人が視覚的に認識できない画像であり得るが、コンピュータ処理を用いれば、撮像対象の物体及び周辺環境等の画像に含まれる情報の取得が可能な画像である。
【0049】
なお、本明細書において、マルチピンホールカメラ10以外のカメラで撮像された画像をノーマル画像とも記載する。ノーマル画像は、例えば、光学系を通した撮像される画像である。ノーマル画像は、通常、光学系により集光された物体からの光を結像することによって取得される。光学系の一例は、レンズである。物体が存在する環境下で、人が物体を直接見たとき、人はノーマル画像とほぼ同様の状態で、当該物体を知覚する。言い換えると、人は、通常のカメラ(例えば、デジタルカメラ)で撮像されたノーマル画像を、実空間の状態と同様に視覚的に認識する。なお、通常のカメラは、マルチピンホールマスクを有していない。
【0050】
情報処理システム1は、マルチピンホールカメラ10で撮像されたMPH画像に基づいて訓練用のデータセットを生成し、生成した訓練用のデータセットを用いて、物体認識モデルの訓練を行う。情報処理システム1は、第1制御部30と、第2制御部40とを有する。なお、情報処理システム1は、外部の装置と通信するための通信部を備えていてもよい。当該通信部は、例えば、通信回路により実現される。また、第1制御部30は、マルチピンホールカメラ10から第1画像(MPH画像)を取得すると、当該第1画像を第1記憶部33に記憶するものとする。
【0051】
第1制御部30は、マルチピンホールカメラ10から取得した第1画像(MPH画像)に基づいて、物体認識モデルの訓練用のデータセットを生成する。第1制御部30は、PSF抽出部31と、ボケ画像生成部32と、第1記憶部33とを有する。
【0052】
PSF抽出部31は、MPH画像に基づいて、マルチピンホールカメラ10のPSFを抽出する。PSF抽出部31は、第1画像を複数の領域に分割し、分割した領域のそれぞれにおいて少なくとも1つのPSFを抽出する。複数の領域は、2以上の領域であればよい。また、複数の領域のそれぞれは、複数の画素を含んで構成されるが、これに限定されない。例えば、複数の領域のそれぞれは、1つの画素のみを含んで構成されてもよい。つまり、画素の数だけ、領域が設定されてもよい。
【0053】
ボケ画像生成部32は、第1記憶部33に記憶されている第2画像(ノーマル画像)と、PSF抽出部31で抽出されたPSFとに基づいて、第2画像をボケさせた第3画像を生成する。ボケ画像生成部32は、例えば、PSFを用いた畳み込み演算(畳み込み積分演算)を第2画像に施すことで第3画像を生成する。ボケ画像生成部32は、第2画像を複数の領域に分割し、分割した領域ごとに、当該領域に対応するPSFであって、PSF抽出部31により抽出されたPSFを用いて畳み込み演算を施す。ボケ画像生成部32は、第1画像上の複数の領域のそれぞれにおいて抽出された少なくとも1つのPSFを第2画像上の複数の領域のそれぞれに畳み込むことで、第2画像から第3画像を生成するとも言える。
【0054】
これにより生成される第3画像は、マルチピンホールカメラ10で撮像された画像に類似する画像となる。つまり、第3画像は、複数のPH画像が重畳された画像となる。第3画像は、人が視覚的に認識できない画像であり得るが、物体認識モデルの訓練用の画像としては用いることが可能な画像である。なお、第2画像は、第1画像とは異なる画像である。
【0055】
なお、第2画像における複数の領域は、2以上の領域であればよい。また、複数の領域のそれぞれは、複数の画素を含んで構成されるが、これに限定されない。例えば、複数の領域のそれぞれは、1つの画素のみを含んで構成されてもよい。つまり、画素の数だけ、領域が設定されてもよい。
【0056】
なお、第2画像は、例えば、第1画像を得たマルチピンホールカメラ10と異なるカメラにて生成された画像である。本実施の形態では、第2画像は、マルチピンホールカメラ10以外のカメラにより撮像された画像であり、例えば、通常のカメラ(例えば、デジタルカメラ)で撮像された画像である。
【0057】
また、ボケ画像生成部32は、PSF抽出部31が複数の領域のそれぞれにおいて2以上のPSFを抽出している場合、複数の第2画像のそれぞれで畳み込み演算に使用するPSFを変更してもよい。ボケ画像生成部32は、複数の領域のそれぞれにおいて、第2画像の畳み込み演算に使用するPSFを、複数のPSFから選択してもよい。なお、ボケ画像生成部32は、複数の第2画像のそれぞれに、当該第2画像の複数の領域の少なくとも1つ領域のPSFを変えればよい。ボケ画像生成部32は、画像生成部の一例である。
【0058】
第1記憶部33は、物体認識モデルの訓練用のデータセットを生成するための画像等を記憶する。第1記憶部33は、例えば、第1画像(MPH画像)、第2画像(ノーマル画像)、第2画像に対応する正解情報、マルチピンホールカメラ10のPSF(第1画像に基づくPSF)、及び、第2画像に基づいて生成された第3画像を記憶する。第2画像及び第2画像に対応する正解情報は、インターネット上に公開されている訓練用のデータセットをダウンロードすることで取得されてもよい。正解情報は、第2画像に含まれる物体が属するカテゴリ情報と、物体の位置情報とを含む。物体のカテゴリの例は、人物、家具、自動車、自転車、信号等であるがこれに限定されない。位置情報は、第2画像上の物体の位置を含む。第1制御部30は、第2画像と正解情報とを対応付けて、第1記憶部33に記憶する。第1記憶部33は、半導体メモリなどにより実現されるが、これに限定されない。なお、第1記憶部33が記憶する正解情報は、いわゆるアノテーション情報であり、図示しない通信部を介して取得されてもよい。
【0059】
上記のように、第1制御部30は、物体認識モデルの訓練用に用いるデータセットを生成するデータセット生成装置として機能する。
【0060】
第2制御部40は、第1制御部30が生成した訓練用のデータセットを用いて、物体認識モデルの訓練を行う。第2制御部40は、訓練部41と、第2記憶部42とを有する。なお、物体認識モデルは、画像に基づいて物体の情報を取得する機械学習モデルの一例であり、例えば、Deep Larning(深層学習)等のニューラルネットワークを用いた機械学習モデルであるが、他の機械学習モデルであってもよい。
【0061】
訓練部41は、マルチピンホールカメラ10で撮像されたMPH画像に対して物体検出を行う物体認識モデルの訓練を行う。訓練部41は、第1制御部30から取得したデータセット(第3画像、及び、当該第3画像に対する正解情報)を用いて物体認識モデルの訓練を行う。訓練部41は、データセットを用いて物体認識モデルに学習させるとも言える。なお、正解情報は、機械学習におけるリファレンスデータの一例である。
【0062】
機械学習は、例えば、ディープラーニングなどにおける誤差逆伝播法(BP:BackPropagation)などによって実現される。具体的には、訓練部41は、物体認識モデルに第3画像を入力し、物体認識モデルが出力する検出結果を取得する。そして、訓練部41は、検出結果が正解情報となるように物体認識モデルを調整する。訓練部41は、このような調整をそれぞれ異なる複数の(例えば数千組の)第3画像及びこれに対応する正解情報について繰り返すことによって、物体認識モデルの検出精度を向上させる。
【0063】
第2記憶部42は、物体認識モデルを記憶する。なお、物体認識モデルを記憶するとは、物体認識モデルにおけるネットワークパラメータ、演算のアルゴリズム(機械学習アルゴリズム)などの情報を記憶することを意味する。なお、アルゴリズムは一例として、ThinNet、YOLOv3-tiny、RefineDet(Single-Shot Refinement Neural Network for Object Detection)、CenterNET-res18、CenterNET-DLA34などが挙げられるが、これらに限定されない。また、第2記憶部42は、半導体メモリなどにより実現されるが、これに限定されない。なお、第2記憶部42と上記の第1記憶部33とは、互いに異なる記憶装置によって実現されてもよいし、1つの記憶装置によって実現されてもよい。
【0064】
上記のように、第2制御部40は、第1制御部30により生成されたデータセットを用いて物体認識モデルの訓練を実行する訓練装置(学習装置)として機能する。また、第2制御部40は、例えば、訓練された物体認識モデルを情報処理装置20に送信する。
【0065】
情報処理装置20は、訓練された物体認識モデルを用いて、物体認識を行う。情報処理装置20は、取得部50と、第3制御部60と、出力部70と、第3記憶部80とを備える。
【0066】
取得部50は、マルチピンホールカメラ10から第4画像(MPH画像)を取得する。ここでの第4画像は、PSFを抽出するための画像ではなく、訓練済みの物体認識モデルによる物体認識を行う対象となる画像である。第4画像は、例えば、マルチピンホールカメラ10が所定の位置に設置され、設置された位置から撮像された画像であってもよい。第4画像は、ボケ画像であり、物体のプライバシーが保護された画像である。取得部50は、取得した第4画像を第3記憶部80に記憶してもよい。
【0067】
第3制御部60は、第4画像を物体認識モデルに入力して認識結果を取得させる制御を行う。第3制御部60は、訓練部41によって訓練された物体認識モデルに第4画像を入力し、当該物体認識モデルからの出力を認識結果として取得する。訓練部41によって訓練された物体認識モデルは、MPH画像に対する認識性能が向上している。よって、第3制御部60は、当該物体認識モデルを用いることで、ノーマル画像に対する認識性能と比較して認識性能の低下が抑制された当該MPH画像に対する認識を行うことができる。なお、第3制御部60は、制御部の一例であり、認識結果は、推論結果の一例である。
【0068】
出力部70は、取得された認識結果に基づく情報を出力する。出力部70は、例えば、液晶ディスプレイなどの表示装置であり、当該情報を表示により出力してもよいし、通信回路であり、当該データを通信により外部の装置に送信してもよい。
【0069】
第3記憶部80は、訓練部41によって訓練された物体認識モデルを記憶する。当該訓練された物体認識モデルは、通信を介して情報処理システム1から取得され第3記憶部80に記憶される。
【0070】
上記のように、情報処理装置20は、訓練された物体認識モデルを用いて、マルチピンホールカメラ10で撮像された第4画像の物体認識を行う物体認識装置として機能する。
【0071】
なお、情報処理システム1は、第2制御部40を備えていなくてもよい。
【0072】
[2.情報処理システムの動作]
続いて、上記で説明した情報処理システム1の動作について、図2図9を参照しながら説明する。まずは、情報処理システム1において、訓練用のデータセットを生成する動作について、図2図6を参照しながら説明する。図2は、本実施の形態に係る情報処理システム1の訓練用のデータセットを生成する動作を示すフローチャートである。図2に示すステップS101~S103は、情報処理システム1において、第1画像からPSFを取得する動作を示す。また、図2に示すステップS104~S108は、情報処理システム1において、物体認識モデルの訓練用のデータセットを生成する動作を示す。
【0073】
図2に示すように、第1制御部30は、マルチピンホールカメラ10で得た第1画像を取得する(S101)。第1制御部30は、マルチピンホールカメラ10から当該マルチピンホールカメラ10にて撮像された第1画像を取得する。第1制御部30は、例えば、マルチピンホールカメラ10から取得した第1画像を第1記憶部33に記憶する。第1制御部30は、第1画像を取得する第1取得部として機能する。
【0074】
ここで、マルチピンホールカメラ10における第1画像の取得について、図3を参照しながら説明する。図3は、本実施の形態に係る第1画像の取得を説明するための図である。
【0075】
図3に示すように、例えば、マルチピンホールカメラ10とスクリーン90とを含んで構成されるカメラシステムにより、第1画像を取得するための撮像が行われる。具体的には、スクリーン90は、複数または単一の輝点91(ドットパターン)を映す。マルチピンホールカメラ10は、例えば、複数の輝点91それぞれを含む領域を撮像可能に配置される。
【0076】
マルチピンホールカメラ10は、図3に示すドットパターンのときに撮像を行い、第1パターン画像(ピンホール画像)を取得する。次に、スクリーン90は、複数または単一の輝点91それぞれの位置を少しずつズラして表示する。マルチピンホールカメラ10は、位置がズレたドットパターンを撮像することで、第2パターン画像(ピンホール画像)を取得する。マルチピンホールカメラ10は、ドットパターンの位置が変わるごとに当該トッドパターンを撮像することで、複数のパターン画像(複数のピンホール画像)を取得する。
【0077】
なお、PSFを取得可能であれば、輝点91の間隔、輝点91の数、輝点91の形状(例えば、点状、リング状など)は、図3に示すものに限定されない。
【0078】
そして、マルチピンホールカメラ10は、複数のパターン画像を重畳することで、図4に示すような第1画像P1を生成する。図4は、本実施の形態に係る第1画像P1の一例を示す図である。
【0079】
図4に示すように、第1画像P1は、スジのような明るい部分が複数存在する画像となる。当該部分が延在する方向、当該部分の大きさ及び数は、第1画像P1上の場所で異なる。つまり、マルチピンホールカメラ10で撮像された画像は、画像上の場所ごとにPSFが異なる。そのため、PSF抽出部31は、以下で示すステップS102において、第1画像P1を複数の領域に分割し、複数の領域それぞれでPSFを抽出する。なお、第1画像P1は、例えば、マルチピンホールカメラ10に対して一意に決まる画像である。
【0080】
図2を再び参照して、次に、PSF抽出部31は、第1画像P1上の複数の領域それぞれにおいて、PSFを抽出する(S102)。具体的には、PSF抽出部31は、第1記憶部33から第1画像P1を読み出し、読み出した第1画像P1を複数の領域に分割し、分割した複数の領域それぞれにおいて少なくとも1つのPSFを抽出する。
【0081】
ここで、PSFの抽出について、図5を参照しながら説明する。図5は、本実施の形態に係るPSFの抽出を説明するための図である。
【0082】
図5に示すように、PSF抽出部31は、第1画像P1を、例えば、9つの領域R1~R9に分割する。そして、PSF抽出部31は、領域R1~R9それぞれにおいて、1以上のPSFを抽出する。図5の例では、PSF抽出部31が、領域R1~R9それぞれにおいて、1つのPSF(具体的には、PSF1~PSF9)を抽出した例を示している。PSF1は、領域R1に対応するPSFであり、破線枠内の明るさの分布を示す関数である。PSF1は、ボケ具合(劣化の様子)を示す。図5の例では、PSF1は、入射された点光源の光が、上下方向の延在する明るい部分と、左下がりの明るい部分とが現れるようにボケるPSFである。なお、PSF1は、例えば、位置情報と輝度情報の3次元関数で表される。
【0083】
また、PSFは、輝度情報の代わりに、波長ごとの受光強度情報の関数として表されてもよい。レンズ及びイメージセンサは、波長依存性がある。そのため、例えば赤、緑、青のカラー情報が取得される場合、PSFは、位置情報と赤の受光強度、緑の受光強度、青の受光強度を示す受光強度情報の5次元関数で表現されてよい。これは、撮像においてカラー用のイメージセンサ(RGBセンサ)が利用され、PSF抽出部31は、赤、緑、青それぞれのPSFを取得するようにすればよい。また、カラー用のイメージセンサではなく、マルチスペクトルの画像を撮像するイメージセンサが利用される場合、PSF抽出部31は、各波長のPSFを取得してもよい。
【0084】
領域R1において、破線枠が設定される位置、つまり領域R1内における明るさの分布のうちどの部分の分布をPSFとして抽出するかは、特に限定されず、任意に設定可能である。
【0085】
PSF2~PSF9においても、PSF1と同様に領域ごとに少なくとも1つのPSFが抽出される。
【0086】
第1画像P1における複数の領域の分割条件(分割数、領域の大きさなど)に関する情報は、例えば、第1記憶部33に予め記憶されていてもよい。PSF抽出部31は、例えば、当該情報に基づいて、第1画像P1を複数の領域に分割してもよい。例えば、分割数は、PSFを記憶するための第1記憶部33の記憶容量、ボケ画像生成部32の処理能力などに応じて、適宜決定されるとよい。また、PSF抽出部31が分割した領域それぞれの大きさ及び形状は、図5に示す例に限定されない。例えば、領域の大きさは、第1画像P1の中央付近の領域R4~R6が他の領域に比べて大きいことに限定されず、例えば、全ての領域の大きさは等しくてもよい。また、領域の形状は、図5に示すような矩形であることに限定されず、正方形、四角形以外の多角形などであってもよい。
【0087】
なお、PSF抽出部31は、1つの領域から複数のPSFを抽出する場合、当該領域内の破線枠の位置を変更する。つまり、PSF抽出部31は、破線枠の位置を変更するだけで、1つの領域から複数のPSFを抽出する。なお、破線枠の大きさは、当該破線枠が存在する領域の第1画像P1上での位置に応じて決定される。例えば、破線枠の大きさは、第1画像P1の中心の領域ほど大きく設定されてもよい。
【0088】
図2を再び参照して、PSF抽出部31は、ステップS102で抽出したPSFを第1記憶部33に記憶する(S103)。当該PSFは、マルチピンホールカメラ10に対応するPSFである。PSF抽出部31は、第1画像P1上での領域とPSFとを対応付けて第1記憶部33に記憶する。なお、PSF抽出部31は、ステップS102で抽出したPSFをボケ画像生成部32に出力してもよい。
【0089】
次に、第1制御部30は、データセットを生成するための第2画像及び正解情報を取得する(S104)。第1制御部30が取得する第2画像及び正解情報の組の数は特に限定されず、1以上であればよい。本実施の形態では、第1制御部30は、第2画像及び正解情報の組を複数取得する。第1制御部30は、例えば、公開されている機械学習用のデータセットを、通信部を介して取得してもよい。なお、ステップS104は、ステップS106より前の段階で実行されていればよく、例えば、ステップS101より前に実行されていてもよい。そして、ボケ画像生成部32は、第1記憶部33から第2画像を読み出すことで第2画像を取得する。なお、第1制御部30は、第1画像と異なる第2画像、及び、第2画像についての機械学習におけるリファレンスデータを取得する第2取得部として機能する。
【0090】
次に、ボケ画像生成部32は、PSFを第1記憶部33から取得する(S105)。ボケ画像生成部32は、ステップS103で記憶されたPSFを第1記憶部33から読み出すことでPSFを取得する。ボケ画像生成部32は、第2画像を分割する領域ごとに当該領域に対応するPSFを取得する。
【0091】
次に、ボケ画像生成部32は、第2画像の複数の領域それぞれに、各領域に対応するPSFを畳み込んで第3画像を生成する(S106)。ボケ画像生成部32は、例えば、第1画像P1の各領域と第2画像の各領域とがそれぞれ対応するように、第2画像を複数の領域に分割する。ボケ画像生成部32は、例えば、第1画像P1と第2画像との分割数が同じになるように、第2画像を複数の領域に分割してもよい。また、ボケ画像生成部32は、例えば、第1画像P1と第2画像との分割された領域の画像上での位置が対応するように、第2画像を分割してもよい。本実施の形態では、第1画像P1は9つの領域に分割されているので、ボケ画像生成部32は、例えば、第1画像P1の9つの領域R1~R9と画像上の位置が同一又は類似するように、第2画像を9つの領域に分割してもよい。なお、ボケ画像生成部32における複数の領域の分割方法は、上記に限定されず、2以上の領域に分割されればよい。
【0092】
ここで、第2画像から第3画像を生成することについて、図6を参照しながら説明する。図6は、本実施の形態に係る第2画像P2から第3画像P3を生成することを説明するための図である。
【0093】
図6の(a)は、9つの領域(領域R11~R19)に分割された第2画像P2を示す。第2画像P2の領域R11~R19のそれぞれは、第1画像P1の領域R1~R9のそれぞれに対応する。例えば、第2画像P2の領域R11の大きさ及び画像上の位置は、第1画像P1の領域R1の大きさ及び画像上の位置と同一又は類似する。ボケ画像生成部32は、例えば、画像の分割条件(分割数、領域の大きさなど)に関する情報を第1記憶部33から読み出し、当該情報に基づいて、第2画像P2を複数の領域に分割してもよい。
【0094】
図6の(b)は、第2画像P2にPSFを畳み込んで生成された第3画像P3を示す。ボケ画像生成部32は、第2画像P2の各領域に当該領域に対応したPSFを畳み込むことで第3画像P3を生成する。ボケ画像生成部32は、例えば、第2画像P2の領域R11に、領域R11に対応する第1画像P1上の領域R1のPSFであるPSF1を畳み込む。ボケ画像生成部32は、第2画像P2の領域R12~R19のそれぞれに、PSF2~PSF9のそれぞれを畳み込む。これにより、図6の(b)に示すようなボケ画像である第3画像P3が生成される。第3画像P3は、互いに視点が少しずつ異なる複数の画像が合成されたような画像となる。つまり、第3画像P3は、マルチピンホールカメラ10で撮像されたような画像となる。
【0095】
ボケ画像生成部32は、第2画像P2が複数あり、かつ、ステップS102において分割領域ごとにPSFが複数抽出されている場合、第2画像P2の各領域に畳み込まれるPSFを、複数の第2画像P2のそれぞれで異なるように選択してもよい。また、ボケ画像生成部32は、1枚の第2画像P2に対して、当該第2画像P2の各領域に畳み込まれるPSFを変えて複数回の畳み込み処理を行ってもよい。つまり、ボケ画像生成部32は、1つの第2画像P2からボケ度合が異なる複数の第3画像P3を生成してもよい。
【0096】
図2を再び参照して、ボケ画像生成部32は、ステップS106で生成した第3画像P3と、当該第3画像P3を生成するもととなった第2画像P2に付加された正解情報との組を第1記憶部33に記憶する(S107)。ボケ画像生成部32は、第3画像P3と正解情報とを対応付けて第1記憶部33に記憶する。
【0097】
上記のように、第1制御部30は、ノーマル画像である第2画像P2から、第1画像P1に基づく各領域のPSFを用いて、ボケ画像である第3画像P3を生成する。第1制御部30は、ノーマル画像である第2画像P2から、マルチピンホールカメラ10で撮像したような画像を生成するとも言える。情報処理システム1は、第3画像P3を物体認識モデルの訓練データとして用いることで、マルチピンホールカメラ10を用いて訓練データ用の画像の撮像を行うことなく、訓練データを取得することができる。第1制御部30は、例えば、公開されているデータセットに含まれる画像(第2画像P2)と、第1画像P1に基づく各領域のPSFとを取得するだけで、物体認識モデルの訓練用のデータセットを容易に生成することができる。
【0098】
次に、第1制御部30は、第3画像P3と第2画像P2に付加された正解情報との組を第2制御部40に出力する(S108)。第1制御部30は、第3画像P3と正解情報との組を第1記憶部33から読み出し、読み出した第3画像P3と正解情報との組を第2制御部40に出力する。第1制御部30は、例えば、第3画像P3と正解情報との組が所定数以上となると、所定数以上の第3画像P3と正解情報との組を含むデータセットを第2制御部40に出力してもよい。第1制御部30は、第3画像P3と正解情報との組を出力する出力部として機能する。
【0099】
続いて、情報処理システム1において、訓練用のデータセットを用いて物体認識モデルを訓練する動作について、図7図9を参照しながら説明する。図7は、本実施の形態に係る物体認識モデルの訓練時(学習時)の動作を示すフローチャートである。
【0100】
図7に示すように、訓練部41は、第3画像P3、及び、第2画像P2に付加された正解情報の組を取得する(S201)。訓練部41は、例えば、第1制御部30から出力された第3画像P3及び正解情報を取得する。訓練部41は、第1記憶部33から第3画像P3及び正解情報を読み出すとも言える。
【0101】
次に、訓練部41は、第3画像P3を訓練データ(入力データ)として、第2画像P2に付加された正解情報を用いて機械学習で物体認識モデルを訓練(S202)し、訓練された物体認識モデルを第2記憶部42に記憶する(S203)。機械学習は、例えば、ディープラーニングなどにおける誤差逆伝播法などにより行われるが、これに限定されない。
【0102】
これにより、マルチピンホールカメラ10で撮像されたMPH画像(ボケ画像)から物体検出を実行可能な物体認識モデルが生成される。
【0103】
ここで、図7に示す動作により訓練された物体認識モデルの例としての行動認識モデルにおける行動認識の認識性能について、図8及び図9を参照しながら説明する。図8は、行動認識モデルの機械学習アルゴリズムごとの認識性能を示す図である。
【0104】
行動識別の対象は、室内に設置したカメラからの撮像画像に対して「飲食している」「横になっている」「座っている」「立っている」「掃除機をかけている」の4種類の行動であり、図8は当該4種類の行動を行動認識モデルが識別した結果を示している。行動認識モデルの機械学習アルゴリズム(Method)として、「CenterNET-Res18」、「CenterNET-DLA34」、「RefineDet」、「YOLOv3-tiny」及び「MFFD」を用いている。また、通常のカメラ(Normal)及びマルチピンホールカメラ10(Multi-pinhоle)の項目に対応する数値は、認識結果の正解率であるAP(Average Precision)及びmAPを示す。通常のカメラ画像についての正解率は、各アルゴリズムによる行動認識モデルにノーマル画像を入力したときの正解率を示す。行動認識モデルは、公開されている訓練済みモデルであってもよい。また、マルチピンホールカメラ10の画像についての正解率は、各機械学習アルゴリズムによる行動認識モデルであって、訓練部41により訓練された行動認識モデルにマルチピンホール画像を入力したときの正解率を示す。また、各機械学習アルゴリズムの認識速度を示すFPS(Frames Per Second)も参考に記載している。
【0105】
図8に示すように、マルチピンホール画像についての正解率とノーマル画像の正解率との差は5~11%に抑制されており、物体認識モデルとしては使用可能なレベルであると考えられる。なお、公開されている訓練済みモデルに、マルチピンホールカメラ10のボケ画像を入力した場合は、行動を認識することができないことが多い。言い換えると、正解率が期待される値(又は許容される値)に達することが少ない。このことから、第1制御部30で生成されたデータセットを用いて行動認識モデルの訓練を行うことで、MPH画像に対する認識性能は大幅に向上していると言える。
【0106】
なお、データセットに含まれる第3画像P3が、第2画像P2と1つのPSFとに基づいて生成された画像であった場合、当該データセットを用いて訓練された物体認識モデルの正解率は、図8に示すほど高くないと想定される。これは、上述したMPH画像の特性が要因と考えられる。よって、高性能な物体認識モデルを生成する観点から、データセットに含まれる第3画像P3が、第2画像P2と当該第2画像P2を分割した複数の領域それぞれに対応するPSFとに基づいて生成された画像であるとよい。例えば、第1画像P1において、領域ごとにPSFが抽出されるとよい。
【0107】
図9は、行動認識モデルの機械学習アルゴリズムがRefineDetの場合の認識結果を示す図である。具体的には、ノーマル画像、マルチピンホール画像に対する認識結果を示す。図9では、認識対象の行動は、「横になっている」である。また、各枠(バウンディングボックス)は、認識結果における「横になっている」候補を示す。
【0108】
このように、第1制御部30で生成されたデータセットは、様々なアルゴリズムによる行動識別モデルのそれぞれにおいて、所望の認識性能を得られるデータセットとなっていることがわかる。つまり、第1制御部30は、MPH画像を認識可能なようにモデルを訓練する機械学習に有効な画像(第3画像)を生成することができている。このようなデータセットを用いて訓練された物体認識モデルに、実際にマルチピンホールカメラ10で撮像された画像が入力されると、所望の認識性能での物体認識を行うことができる。
【0109】
(その他の実施の形態)
以上、本開示について実施の形態に基づいて説明したが、本開示は、上記実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の1つまたは複数の態様の範囲内に含まれてもよい。
【0110】
例えば、上記実施の形態では、第2画像は、マルチピンホールカメラ以外のカメラで撮像された画像である例について説明したが、これに限定されない。第2画像は、図1に示すマルチピンホールカメラ10以外のマルチピンホールカメラ(例えば、ボケ度合が異なるマルチピンホールカメラ)で撮像された画像であってもよい。この場合、当該画像はボケ画像であるので、当該画像からボケを取り除く処理を施すことで、第2画像が取得される。
【0111】
また、上記実施の形態では、第2画像は、カメラにより取得される例について説明したが、これに限定されない。第2画像は、CG(Computer Graphics)により生成された画像であってもよい。また、第2画像は、絵画などを取り込んだ画像であってもよいし、アニメーション(例えば、CGアニメーション)であってもよい。
【0112】
また、上記実施の形態では、第1制御部は、物体認識モデルの訓練用のデータセットを、第1画像から取得されるPSFに基づいて生成する例について説明したが、さらに訓練された物体認識モデルの認識性能などを確認するための確認用のデータセットを、当該PSFに基づいて生成してもよい。
【0113】
また、上記実施の形態では、機械学習モデルは、ニューラルネットワークを用いた機械学習モデルである例について説明したが、他の機械学習モデルであってもよい。例えば、機械学習モデルは、Random Forest、又はGenetic Programming等を用いた機械学習モデルであってもよい。
【0114】
また、上記実施の形態では、訓練された物体認識モデルを用いた認識処理が情報処理装置にて行われる例を説明したが、当該認識処理は情報処理システムにて行われてもよい。また、情報処理装置は、マルチピンホールカメラに内蔵されていてもよい。
【0115】
また、上記実施の形態等において説明された複数の処理の順序は一例である。複数の処理の順序は、変更されてもよいし、複数の処理は、並行して実行されてもよい。また、複数の処理の一部は、実行されなくてもよい。
【0116】
また、上記実施の形態等で説明した各構成要素は、ソフトウェアとして実現されても良いし、典型的には、集積回路であるLSIとして実現されてもよい。これらは、個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmablegate Array)又は、LSI内部の回路セルの接続若しくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。更には、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて構成要素の集積化を行ってもよい。
【0117】
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを1つの機能ブロックとして実現したり、1つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
【0118】
また、情報処理装置は、単一の装置として実現されてもよいし、複数の装置によって実現されてもよい。例えば、第1制御部と、第2制御部と、取得部、第3制御部及び出力部とは、互いに異なる装置で実現されてもよい。情報処理装置が複数の装置によって実現される場合、情報処理装置が備える構成要素は、複数の装置にどのように振り分けられてもよい。また、複数の装置間の通信方法は、特に限定されない。
【0119】
さらに、本開示の技術は上記プログラムであってもよいし、上記プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。例えば、上記プログラム及び上記プログラムからなるデジタル信号は、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、記録媒体に記録して移送されることにより、又はネットワーク等を経由して移送されることにより、独立した他のコンピュータシステムにより実行されてもよい。
【0120】
また、各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
【産業上の利用可能性】
【0121】
本開示は、画像を用いて画像認識を行う装置に広く利用可能である。
【符号の説明】
【0122】
1 情報処理システム
10 マルチピンホールカメラ
20 情報処理装置
30 第1制御部
31 PSF抽出部
32 ボケ画像生成部
33 第1記憶部
40 第2制御部
41 訓練部
42 第2記憶部
50 取得部
60 第3制御部
70 出力部
80 第3記憶部
90 スクリーン
91 輝点
P1 第1画像
P2 第2画像
P3 第3画像
R1~R9、R11~R19 領域
図1
図2
図3
図4
図5
図6
図7
図8
図9