IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

<>
  • 特許-ノイズ除去装置及びプログラム 図1
  • 特許-ノイズ除去装置及びプログラム 図2
  • 特許-ノイズ除去装置及びプログラム 図3
  • 特許-ノイズ除去装置及びプログラム 図4
  • 特許-ノイズ除去装置及びプログラム 図5
  • 特許-ノイズ除去装置及びプログラム 図6
  • 特許-ノイズ除去装置及びプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-13
(45)【発行日】2024-08-21
(54)【発明の名称】ノイズ除去装置及びプログラム
(51)【国際特許分類】
   H04N 23/60 20230101AFI20240814BHJP
   G06T 7/12 20170101ALI20240814BHJP
   G06T 5/00 20240101ALI20240814BHJP
   G06T 7/00 20170101ALI20240814BHJP
   H04N 23/45 20230101ALI20240814BHJP
   H04N 23/66 20230101ALI20240814BHJP
【FI】
H04N23/60 500
G06T7/12
G06T5/00
G06T7/00 350B
H04N23/45
H04N23/66
【請求項の数】 11
(21)【出願番号】P 2021156701
(22)【出願日】2021-09-27
(65)【公開番号】P2023047657
(43)【公開日】2023-04-06
【審査請求日】2023-08-07
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】徐 建鋒
(72)【発明者】
【氏名】小森田 賢史
【審査官】岡田 弘
(56)【参考文献】
【文献】中国特許出願公開第112800860(CN,A)
【文献】中国特許出願公開第112581491(CN,A)
【文献】特開2021-013146(JP,A)
【文献】特開2013-196034(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/222-5/257
H04N 23/00
H04N 23/40-23/76
H04N 23/90-23/959
G06T 1/00-1/40
G06T 3/00-5/94
(57)【特許請求の範囲】
【請求項1】
共通のシーンを撮影する通常カメラ及びイベントカメラがそれぞれ取得する画像及びイベントカメラデータを用いて、当該イベントカメラデータからノイズ除去を行うノイズ除去装置であって、
前記画像より、所定対象を包含する包含領域を検出する検出部と、
前記イベントカメラデータのうち前記画像に対応する時間範囲にあるデータについて、前記包含領域に属する第1データと、当該第1データ以外の第2データと、に区別して、当該第1データは第1手法によりノイズ除去し、当該第2データは第2手法によりノイズ除去するノイズ除去部と、を備えることを特徴とするノイズ除去装置。
【請求項2】
前記検出部はさらに、前記画像よりエッジ領域を検出し、
前記ノイズ除去部では、前記第1データ以外の前記第2データとして、前記エッジ領域に属するイベントカメラデータを用いることを特徴とする請求項1に記載のノイズ除去装置。
【請求項3】
前記検出部では、前記画像よりエッジを検出し、当該エッジを包含する領域として前記エッジ領域を検出することを特徴とする請求項2に記載のノイズ除去装置。
【請求項4】
前記ノイズ除去部はさらに、前記イベントカメラデータのうち前記画像に対応する時間範囲にあるデータのうち、前記第1データまたは前記第2データ以外のものを第3データとし、当該第3データは第3手法によりノイズ除去することを特徴とする請求項2または3に記載のノイズ除去装置。
【請求項5】
前記第1手法、第2手法及び第3手法によるノイズ除去は、共通のノイズ除去モデルを当該各手法で対処する対象ごとに区別された学習用データを用いて学習したそれぞれの学習モデルを用いることによるノイズ除去であることを特徴とする請求項4に記載のノイズ除去装置。
【請求項6】
前記ノイズ除去部ではさらに、前記第1手法、第2手法及び第3手法によってノイズ除去した結果のデータに対して、前記第1データ、第2データ及び第3データの境界部分に位置しているものについてフィルタ処理を施すことを特徴とする請求項4または5に記載のノイズ除去装置。
【請求項7】
前記通常カメラではリアルタイムの各時刻において撮影を行っており、
前記イベントカメラデータのうち前記画像に対応する時間範囲は、当該画像の撮影タイミングから、当該画像の次にリアルタイムで撮影される画像のタイミングまでの時間範囲であり、
前記ノイズ除去部では、
前記イベントカメラデータのうち前記画像に対応する時間範囲にあるデータについて、前記包含領域に属する第1データと、前記エッジ領域に属する第2データと、前記第1データまたは前記第2データ以外のものである第3データと、に区別する際に、
前記イベントカメラデータの各々について、前記画像の撮影タイミングから、当該イベントカメラデータの取得時刻までの間における、前記画像を解析して得られる、当該イベントカメラデータの座標での動きベクトルによる座標変化を反映したうえで区別することを特徴とする請求項4ないし6のいずれかに記載のノイズ除去装置。
【請求項8】
前記通常カメラではリアルタイムの各時刻において撮影を行っており、
前記イベントカメラデータのうち前記画像に対応する時間範囲は、当該画像の撮影タイミングから、当該画像の次にリアルタイムで撮影される画像のタイミングまでの時間範囲であることを特徴とする請求項1ないし6のいずれかに記載のノイズ除去装置。
【請求項9】
前記所定対象は、前記画像に撮影された際のサイズが前記画像の全体のサイズと比べて微細な対象であることを特徴とする請求項1ないし8のいずれかに記載のノイズ除去装置。
【請求項10】
前記イベントカメラデータの各々は、各画素位置において、輝度値の累積変化が閾値を超えて発生するごとに取得されて、当該発生した時刻と共に記録されるものであることを特徴とする請求項1ないし9のいずれかに記載のノイズ除去装置。
【請求項11】
コンピュータを請求項1ないし10のいずれかに記載のノイズ除去装置として機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、イベントカメラデータからノイズ除去を行うノイズ除去装置及びプログラムに関する。
【背景技術】
【0002】
近年、より高速に計測対象物の視覚信号を生成する技術として、非特許文献1に開示されるイベントカメラが知られている。イベントカメラは生物の網膜構造にヒントを得て開発された。図1に模式例を示す通り、イベントカメラの出力は、輝度が所定の閾値TH以上に変化した場合の時刻、画素の位置、極性(輝度が小さくなったか大きくなったか)を表す非同期のデータ列である。
【0003】
図1では、ある1つの画素位置(x,y)に固定して、この画素(x,y)でセンシングされている輝度値のグラフ例より、この画素(x,y)からイベントカメラの出力として、グラフ上の時刻t1,t2,…,t8にあるそれぞれのデータ点d1,d2,…,d8が非同期な形で離散的に出力される例が示されている。これらデータ点d1,d2,…,d8は、図1のグラフ中に輝度値を等間隔(前述の閾値THの幅での等間隔)に区切って示す横線(点線で描く)をグラフが横切った時刻t1,t2,…,t8で出力されるものである。
【0004】
すなわち、ある1つの画素位置(x,y)において、イベントカメラ出力が発生する時刻系列をtk(k=1,2,…)とし、当該時刻tkでの輝度値をdk(k=1,2,…)とすると、イベントカメラ出力される時系列における隣接時刻tk, tk+1での輝度値dk及びdk+1の関係は以下の通りである。
「dk+1=dk+TH」または「dk+1=dk-TH」
【0005】
換言すれば、イベントカメラにおけるある画素位置(x,y)において、時刻tkにおいて輝度値dkを有するものとしてイベントカメラデータ出力が発生したものとし、時刻tk以降での同位置(x,y)での輝度値の時間変化の挙動をモニタし、初めて輝度値dkからの変化が閾値THを超えた時刻が、次の時刻tk+1として、次のイベントカメラデータ出力が発生するものとなる。
【0006】
そして、イベントカメラ出力においては前述の通り、離散的に出力された各時刻のデータにおいて、当該時刻での輝度値が、前の時刻での輝度値から閾値THだけ増加したか、または逆に閾値THだけ減少したか、の2値情報も極性として出力される。図1の例では例えば、時刻t1のデータd1は、前時刻t0のデータd0よりも輝度値が閾値THだけ増加したことをトリガとして出力されたものであるため、増加する方向の極性であり、その次の時刻t2のデータd2は、前時刻t1よりも輝度値が閾値THだけ減少したことをトリガとして出力されたものであるため、減少する方向の極性である。図1では増減の極性に関して増加を上矢印(↑)、減少を下矢印(↓)で模式的に示している。
【0007】
以上の図1の例は、ある1つの画素(x,y)を固定してイベントカメラ出力を観察したものであるが、画像範囲内の全ての画素(x,y)について同様の出力が得られることにより、イベントカメラ出力は一般に、以下のような形式のデータとなる。
【0008】
【数1】
【0009】
上記データにおいてtk≦tk+1であり、イベントカメラ出力データはすなわち、時間軸上でk番目の時刻tkにおいて、画素位置(xk,yk)において極性pk(増加↑または減少↓)の輝度値変化があったことを意味するものとなる。なお、Nは一定期間に渡ってイベントカメラの撮影を行って得られたデータの総数である。(撮影状況に全く変化がなく、ノイズ影響等もなかった場合は、N=0となってイベントカメラ出力が空データとなる場合もありうる。)
【0010】
なお、tk≦tk+1≦tk+2≦…であることから、同一時刻で2つ以上の異なる画素位置においてイベントカメラ出力が発生した場合も、不等号「≦」において等号「=」に該当する場合として、2つ以上の異なる連続したインデクスk,k+1,…が同一時刻(tk=tk+1=…)、異なる画素位置及び当該異なる画素位置での極性に紐づくことで、イベントカメラデータ上に記録することができる。例えば、同一時刻t=1秒においてある画素位置(0,0)で増加「↑」極性のイベントカメラデータが発生し、且つ、別の画素位置(1,1)で減少「↓」のイベントカメラデータが発生した場合、これら2個の同時時刻データに例えばk=1,2のインデクスが割り当てられたうえで、(t1=t2=1秒として)以下のように記録することができる。
(x1,y1,t1,p1)=(0, 0, 1秒, ↑)
(x2,y2,t2,p2)=(1, 1, 1秒, ↓)
【0011】
このような構成により、イベントカメラは、従来のカメラのように輝度変化のない画素情報、つまり冗長なデータは出力しないといった特徴があるため、データ通信量の軽減や画像処理の軽量化等が実現されることで、より高速に計測対象物の画像を生成することができる。
【0012】
よって、イベントカメラの出力(xk,yk,tk,pk)は、従来のカメラが映像として得る各時刻t(t=1,2,…)での出力画像P(x,y)(0≦x≦W-1, 0≦y≦H-1, ここでW,Hは画像の横幅、縦幅の画素数、P(x,y)は画素値)と比較して、空間的に非常にスパース(疎)であり、データ量が非常に少ない。また、イベントカメラは、従来のカメラと比較して、時間解像度が非常に高く(例えば、マイクロミリ秒オーダ)、ダイナミックレンジが高いという特性がある。すなわち、イベントカメラは、従来のカメラと比較して、少データ量、高時間解像度、ハイダイナミックレンジ(HDR)という特性を有している。これらの特性は、瞬時ないしリアルタイムに画像処理をして移動体を検知することにとって非常に重要である。
【0013】
一方、イベントカメラデータの中にノイズが多いという欠点もある。基本的に、ノイズはランダム的に発生し、時空間的に他のデータとの相関が小さいという特徴がある。逆に、撮影したオブジェクトの変化による出力されたデータは、例えばオブジェクトが形成するエッジが時間経過に伴ってオブジェクトと共に移動する等の形で現れるものであるため、時空間に隣接する他のデータとの相関が強い特徴がある。
【0014】
このような欠点に対して近年、イベントカメラデータに対するノイズ除去(Denoising)技術が開発された。非特許文献2,3,4は学習不要かつ処理が速いフィルタを使ってノイズを除去する。例えば、非特許文献2では、不応期フィルタ(Refractory Period Filter)と最近傍フィルタ(Nearest Neighbor (NNb) Filter)の二層フィルタを用いてノイズを除去する。このような学習不要のフィルタ方式はパラメータ調整が必要である。また、非特許文献5,6は学習が必要となるディープニューラルネットワーク(CNN)を使う。例えば、非特許文献5はRGB画像からノイズの尤度を算出し、正解(Ground truth)として用いることでディープニューラルネットワーク(CNN)を学習させる。
【先行技術文献】
【非特許文献】
【0015】
【文献】Lichtsteiner, P.; Posch, C.; Delbruck, T. (February 2008). "A 128×128 120 dB 15μs Latency Asynchronous Temporal Contrast Vision Sensor". IEEE Journal of Solid-State Circuits. 43 (2): 566-576.
【文献】Padala, V., Basu, A., & Orchard, G. (2018). A noise filtering algorithm for event-based asynchronous change detection image sensors on truenorth and its implementation on truenorth. Frontiers in neuroscience, 12, 118.
【文献】Wang, Y., Du, B., Shen, Y., Wu, K., Zhao, G., Sun, J., & Wen, H. (2019). EV-gait: Event-based robust gait recognition using dynamic vision sensors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 6358-6367).
【文献】Chen, G., Hong, L., Dong, J., Liu, P., Conradt, J., & Knoll, A. (2020). EDDD: Event-based drowsiness driving detection through facial motion analysis with neuromorphic vision sensor. IEEE sensors journal, 20(11), 6170-6181.
【文献】Baldwin, R., Almatrafi, M., Asari, V., & Hirakawa, K. (2020). Event probability mask (epm) and event denoising convolutional neural network (edncnn) for neuromorphic cameras. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1701-1710).
【文献】Duan, P., Wang, Z. W., Zhou, X., Ma, Y., & Shi, B. (2021). EventZoom: Learning to Denoise and Super Resolve Neuromorphic Events. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12824-12833).
【文献】Sun, X., Wu, P., & Hoi, S. C. (2018). Face detection using deep learning: An improved faster RCNN approach. Neurocomputing, 299, 42-50.
【文献】An improved faster RCNN approach. Neurocomputing, 299, 42-50.Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016, October). Ssd: Single shot multibox detector. In European conference on computer vision (pp. 21-37). Springer, Cham.
【文献】Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).
【文献】Canny, J., A Computational Approach To Edge Detection, IEEE Transactions on Pattern Analysis and Machine Intelligence, 8(6):679-698, 1986.
【発明の概要】
【発明が解決しようとする課題】
【0016】
しかしながら、従来技術におけるイベントカメラデータのノイズ除去は、画像範囲内において均一に処理することを前提としているため、イベントカメラデータを利用して画像範囲内における小さなオブジェクトを追跡する等の用途を想定した場合に、このような小さなオブジェクトに起因する小さい信号変化とノイズとを適切に区別することが困難であった。
【0017】
図2は、追跡対象としての小さいオブジェクトの例を示す図である。画像P1は会議室でテーブルに向って会議する3人の人物であり、イベントカメラがこの画像P1で表現される範囲を撮影している際に、追跡対象オブジェクトとして3人の人物のそれぞれの目を追跡することを考える。この目の範囲は画像P1の下側に同一サイズの範囲R1内において4つの黒丸の領域で模式的に示されるように、イベントカメラが撮影している範囲全体との比較において非常に小さい領域となってしまう。
【0018】
前述の通り、従来技術のノイズ除去では、この図2に目の場合を例として示すような、イベントカメラの撮影範囲と比較して小さいオブジェクト(イベントカメラデータ上においても微細なデータとなる)を追跡したい場合に、適切にノイズ除去することができなかった。
【0019】
例えば、非特許文献2のフィルタの手法では、パラメータ調整により、フィルタの強さをコントロールできる。しかし、強いフィルタを設定すると、微細なデータをノイズと誤認し、ノイズと共に削除されてしまう。一方で逆に、弱いフィルタを設定すると、ノイズも沢山残ってしまい、フィルタ後の処理として微細なデータを認識しようとしても、その認識精度を低下させてしまう。
【0020】
従来技術のその他のノイズ手法も上記の非特許文献2の場合と同様に、小さいオブジェクトに注目している場合に、その領域が小さいことを考慮せずに空間的に(考慮するサイズ的に)均一なノイズ除去を施してしまうことから、小さい変化の信号とノイズとの区別が困難であり、適切なノイズ除去結果を得ることができなかった。
【0021】
前記従来技術の課題に鑑み、本発明は、微細な対象に注目する場合であっても、イベントカメラデータから効果的にノイズ除去を行うことのできるノイズ除去装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0022】
上記目的を達成するため、本発明は、共通のシーンを撮影する通常カメラ及びイベントカメラがそれぞれ取得する画像及びイベントカメラデータを用いて、当該イベントカメラデータからノイズ除去を行うノイズ除去装置であって、前記画像より、所定対象を包含する包含領域を検出する検出部と、前記イベントカメラデータのうち前記画像に対応する時間範囲にあるデータについて、前記包含領域に属する第1データと、当該第1データ以外の第2データと、に区別して、 当該第1データは第1手法によりノイズ除去し、当該第2データは第2手法によりノイズ除去するノイズ除去部と、を備えることを特徴とする。また、コンピュータを前記ノイズ除去装置として機能させるプログラムであることを特徴とする。
【発明の効果】
【0023】
本発明によれば、微細な対象を所定対象とし、これを包含する包含領域と、この包含領域以外の領域とでノイズ除去手法を区別してイベントカメラデータからノイズ除去を行うことにより、微細な対象に注目する場合であっても、イベントカメラデータから効果的にノイズ除去を行うことができる。
【図面の簡単な説明】
【0024】
図1】イベントカメラの出力の模式例を示す図である。
図2】追跡対象としての小さいオブジェクトの例を示す図である。
図3】一実施形態に係るノイズ除去装置の機能ブロック図である。
図4】一実施形態に係るノイズ除去装置の動作のフローチャートである。
図5】時間軸上でのマッピング処理を模式的に示す図である。
図6図2の画像例に対応するものとして、各領域の検出結果の模式例を示す図である。
図7】一般的なコンピュータにおけるハードウェア構成を示す図である。
【発明を実施するための形態】
【0025】
図3は、一実施形態に係るノイズ除去装置10の機能ブロック図であり、図示するように、ノイズ除去装置10は、通常カメラ11及びイベントカメラ12を含む入力データ取得部1と、微細領域包含領域検出部21、エッジ領域検出部22及び他領域検出部23を含む領域検出部2と、マッピング部3と、微細領域包含領域ノイズ除去部41、エッジ領域ノイズ除去部42及び他領域ノイズ除去部43並びに後処理部44を含むノイズ除去部4と、を備える。
【0026】
なお、ノイズ除去装置10を利用する想定応用例として例えば以下が可能である。
【0027】
前掲の図2の画像P1に模式的に示されるように、会議室や教室で設置された専用イベントカメラから人物の眼球運動を検出し、会議参加者の視線分析や生徒の注意力分析を実現する利用シーンを想定する。画像P1のように従来のRGB画像のみを使うと、顔検出が出来ても、領域R1として示されるように眼の領域は微細であるため、眼球運動の検出が困難である。イベントカメラを併用すると、眼球運動の検出も可能になるが、イベントカメラデータのノイズが多いため、イベントカメラデータのノイズ除去を前処理として実施するのが望ましく、本実施形態のノイズ除去装置10ではこのような用途のためのノイズ除去が可能である。
【0028】
ただし、上記は一例に過ぎず、本実施形態のノイズ除去装置10は一定時間に小さい物体・人物部位の微細な動き(例えば、高速のボールや蚊など虫の動き、顔の微表情、眼球運動、瞬きなど)を映したRGB画像とイベントカメラデータをアラインメントして(紐づけて)収録するという前提であれば、他の応用例にも適用できる。
【0029】
図4は、一実施形態に係るノイズ除去装置10の動作のフローチャートである。以下、図4の各ステップを説明しながら、ノイズ除去装置10の各部の処理の詳細について説明する。
【0030】
ステップS1では、通常カメラ11及びイベントカメラ12において、それぞれが取得するデータにデータ取得時のタイムスタンプを付与するのに用いる時計の時刻同期を行い、両カメラ11,12においてリアルタイムでの撮影を開始してからステップS2へと進む。
【0031】
すなわち、ステップS1以降において、通常カメラ11ではリアルタイムの各時刻T(i)(i=1,2,3…)において撮影を行い、RGB画像等で構成される通常画像P(T(i))を取得し、イベントカメラ12も撮影を開始することでリアルタイムのイベントカメラデータ(xk,yk,tk,pk)(k=0,1,2,…)を取得する。この通常カメラ11の画像の時刻T(i)と、イベントカメラ12のデータの時刻tkとが共通の時計のものとして与えられることで、時刻の前後関係を共通の時間軸上において判定可能となるように、ステップS1では時計合わせを行う。
【0032】
なお、通常カメラ11とイベントカメラ12とは、共通のシーンを撮影するように同一位置に配置しておくことにより、画素の位置の対応関係が得られるようにしておくものとする。すなわち、通常カメラ11の画素位置(x,y)と、イベントカメラデータ(xk,yk,tk,pk)における画素位置(xk,yk)とは、ピクセル単位で、あるいはサブピクセル単位で、対応関係が与えられるように、両カメラ11,12を予め配置しておくものとする。例えば通常カメラ11が図2の画像P1のように会議室を撮影している場合であれば、イベントカメラ12も同様の配置で会議室の撮影を行うものとする。
【0033】
このような通常カメラ11とイベントカメラ12との座標位置合わせは、既製の機器を用いて実現することもできる。一例として、iniVation社のDAVIS346 COLORでは、346 x 260の解像度で同時にイベントカメラデータとRGB画像を出力する。イベントカメラデータは非同期的に出力され、RGB画像は40fpsで出力される。各画素が同じセンサーを使っているため、空間的にマッピングされる。よって、RGB画像の領域情報はそのままでイベントカメラデータにも使える。
【0034】
ステップS1でリアルタイムの撮影を開始した通常カメラ11及びイベントカメラ12について、通常カメラ11が得る各時刻T(i)(i=1,2,…)の画像は領域検出部2へ出力され、イベントカメラ12が得るイベントカメラデータ(xk,yk,tk,pk)(k=0,1,2,…)はマッピング部3へと出力される。
【0035】
ステップS2以降のステップS2~S5は、ノイズ除去装置10によるリアルタイムでのノイズ除去の処理が、通常カメラ11で撮影されるリアルタイムの各時刻T(i)(i=1,2,…)の画像に紐づいた各時刻T(i)について繰り返し実行される形となる。ステップS2では、当該リアルタイムで処理すべき対象となるデータを入力データとして取得してから、ステップS3へと進む。
【0036】
ステップS2ではすなわち、入力データ取得部1において各時刻T(i)(i=1,2,3…)の処理対象となるデータとして、通常カメラ11からRGB画像等の1枚の通常画像P(T(i))を取得し、これに対応する時間範囲のデータとして、イベントカメラ12からイベントカメラデータD(i)={(xk,yk,tk,pk)|tk∈[T(i),T(i+1)], k=0,1,2,…,N-1}を取得する。(なお、Nは取得されたイベントカメラデータD(t)の総数である。)
【0037】
ここで、既存技術としての「イベントカメラ」に関して図1等を参照して既に説明した通り、イベントカメラ12のデータ(xk,yk,tk,pk)は、通常画像P(T(i))よりも空間的にはスパースであるが時間解像度は高い傾向があるため、以下に示すように、通常画像P(T(i))の離散的な撮像タイミングT(i),T(i+1)の間に、多数(N個)のイベントカメラの要素データが存在しうることとなる。
T(i)≦t0≦t1≦t2≦…≦tN-2≦tN-1≦T(i+1)
【0038】
ステップS2ではさらに、マッピング部3が、イベントカメラ12からリアルタイムで得られているイベントカメラデータ(xk,yk,tk,pk)より、上記の通り通常画像P(T(i))の撮影時間範囲に相当する時間区間[T(t),T(t+1)]に属する(tk∈[T(t),T(t+1)]となる)ようなデータD(i)を取得する。この取得結果は時間軸上でのマッピング結果としてノイズ除去部4へと出力される。
【0039】
なお、マッピング部3の処理は、通常カメラ11の画像とイベントカメラ12のデータとの対応付け(マッピング)である。マッピング部3では当該ステップS2における時間軸上でのマッピングに加えて、次のステップS3での領域検出結果を得てからの空間上(画像座標上)でのマッピングも行う。
【0040】
図5は当該ステップS2におけるマッピング部3によるマッピング処理(時間軸上)を模式的に示す図である。図5では図1と同様にイベントカメラ12の出力データをある1つの画素位置(x,y)のみに注目して、輝度値が閾値TH以上変化する都度、出力されるものとして示している。通常カメラ11が画像P(T(i))を撮影する時間範囲はt3=[T(i),T(i+1)]であり、図5に示すように実際はこの範囲t3=[T(i),T(i+1)]のうちの前半側範囲t1が通常カメラ11の露光時間であり、後半側範囲t2はシャッタを閉じており露光していない状態にあることとなる(なお、特別な場合としてt2=0であってもよい)が、この後半側範囲t2も含めて時間範囲t3=[T(i),T(i+1)]に属するようなイベントカメラデータD(i)を、画像P(T(i))に対応するものとしてマッピングを行う。
【0041】
このようなマッピングにより、厳密には時間軸上で同期できない通常カメラ11の画像とイベントカメラ12のデータとを便宜上、時間軸上で同期させることができる。
【0042】
ステップS3では、通常カメラ11から得られた画像P(T(i))より領域検出部2が各領域を検出し、検出結果をマッピング部3へと出力して空間上でのマッピングを行い、マッピング結果をノイズ除去部4へと出力してからステップS4へと進む。この際、微細領域包含領域検出部21が微細領域包含領域R1(i)を検出し、エッジ領域検出部22がエッジ領域R2(i)を検出し、他領域検出部23が他領域R3(i)を検出する。具体的にそれぞれ以下のような検出を行う。
【0043】
<微細領域包含領域検出部21:微細なデータを含む領域R1(i)の検出>
前述した想定応用例のようにRGB画像から眼球を検出するのは、図2で例示したように眼球が微細領域となって困難であるため、より検出しやすい拡張された領域(例えば、眼球や瞬きではなく、顔全体)として、微細領域包含領域R1(i)を検出するのが、微細領域包含領域検出部21の役割である。
【0044】
微細領域包含領域検出部21では、用途として追跡等を行うことを想定した所定の微細な対象の種別に応じて、当該微細対象を包含する所定の対象(例えば眼球であれば顔)の領域を、通常画像P(T(i))から微細領域包含領域R1(i)として検出すればよい。
【0045】
例えば顔領域を検出する場合、任意の既存手法を用いてよい。顔検出技術は沢山開発されたが、近年、ディープニューラルネットワークを用いて顔を検出するのが一般的である。例えば、非特許文献7では、Faster RCNNを改善し、顔を検出する。また、SSD(非特許文献8)またはYOLO(非特許文献9)を用いて顔検出も可能である。出力した矩形上囲み枠領域(Bounding box)を顔領域としての微細領域包含領域R1(i)とすればよい。
【0046】
また、眼球以外の想定応用例以外でも同様に、微細対象の領域の包含領域として、所定種類の物体領域を検出するようにすればよい。例えば、微細対象として、バトミントンのシャトルをラケットにヒットする瞬間のシャトルを分析する場合、RGB画像からシャトルの検出が困難であるため、ラケットを検出することを対象にし、微細領域包含領域としてラケット領域を設定しておけばよい。また、微細対象として卓球ボールを解析する場合、卓球テーブルを検出することを対象にし、微細領域包含領域として卓球テーブルを設定しておけばよい。
【0047】
<エッジ領域検出部22:エッジ領域R2(i)の検出>
撮影したオブジェクトが動いた時に、輝度変化が激しい箇所は撮影したオブジェクトのエッジ領域である。よって、イベントカメラ12の信号は、撮影したオブジェクトのエッジ領域に発生しやすいという特徴があり、これを予めエッジ領域R2(i)として通常画像P(T(i))から検出するのが、エッジ領域検出部22の役割である。
【0048】
エッジ領域検出部22によるエッジ検出には任意の既存手法を用いればよい。例えば、キャニーエッジ検出器(Canny Edge Detector:非特許文献10)という技術がエッジ検出によく用いられるので、これを用いてもよい。また、前記キャニー法(Canny)以外にソーベル法(Sobel)やガウスのラプラシアン法(LoG:Laplacian of Gaussian)を使ってもよい。エッジであるものとして判定した画素から領域へと拡張するため、エッジの画素の周りの一定範囲内(例えば、その画素を中心に7x7の画素まで)をエッジ領域と定義し、エッジ領域R2(i)を出力すればよい。
【0049】
ただし、エッジ領域検出部22では、微細領域包含領域検出部21で検出した微細領域包含領域R1(i)は、エッジ領域から除外する。換言すれば、エッジ領域検出部22では通常画像P(T(i))の領域全体のうち、微細領域包含領域R1(i)を予め除外してエッジ検出(及び検出したエッジ画素から領域への拡張)を行うことで、エッジ領域R2(i)を得るようにすればよい。
【0050】
<他領域検出部23:他領域R3(i)の検出>
他領域検出部23は、通常画像P(T(i))の領域全体のうち、微細領域包含領域R1(i)とエッジ領域R2(i)以外の領域を他領域R3(i)として検出する。
【0051】
図6に、通常画像P(T(i))の内容が図2の画像P1に示される会議室であり、3人の人物の眼球の追跡等を行うことを目的として、当該眼球が微細領域として設定される場合の、領域検出部2による各領域の検出結果の模式例を示す。図6の例にて、微細領域包含領域R1(i)は眼球を包含する顔領域として、グレー色で示されており、エッジ領域R2(i)は、微細領域包含領域R1(i)以外の領域から検出されるエッジを所定範囲だけ拡大したものとして白色で示されており、他領域R3(i)は、これら以外の領域として黒色で示されている。
【0052】
ステップS3では最後に、マッピング部3が、領域検出部2で得た各領域R1(i),R2(i),R3(i)に、イベントカメラ12のデータD(i)(ステップS2で通常画像P(T(i))の時間範囲[T(i),T(i+1)]に属するものとして得たもの)を割り当てることでこのデータD(i)を各領域に対応する3つのデータD1(i),D2(i),D3(i)に区別し、この結果をマッピング結果としてノイズ除去部4へと出力する。具体的に、データD(i)の各要素(xk,yk,tk,pk)(tk∈[T(i),T(i+1)])につき、その座標(xk,yk,)が各領域R1(i),R2(i),R3(i)のいずれに属するかによって以下のように区別すればよい。
D1(i)= {(xk,yk,tk,pk)|tk∈[T(i),T(i+1)] 且つ (xk,yk,)∈R1(i)}
D2(i)= {(xk,yk,tk,pk)|tk∈[T(i),T(i+1)] 且つ (xk,yk,)∈R2(i)}
D3(i)= {(xk,yk,tk,pk)|tk∈[T(i),T(i+1)] 且つ (xk,yk,)∈R3(i)}
【0053】
なお、前述の通り、ステップS1において予め、通常カメラ11とイベントカメラ12とに関して同一の配置で同一シーンを撮影するようにしておくことにより、イベントカメラ12の出力データの座標(xk,yk,)と通常カメラ11の画像座標(x,y)との対応関係が成立するようにしているため、上記の通り、各領域R1(i),R2(i),R3(i)のいずれに属するかによってデータD(i)を3つのデータD1(i),D2(i),D3(i)に分けることが可能となる。
【0054】
ステップS4では、ノイズ除去部4が、ステップS3で得た領域分類結果R1(i),R2(i),R3(i)に応じたそれぞれのイベントカメラデータD1(i),D2(i),D3(i)に関して区別された手法でノイズ除去を行ってからステップS5へと進む。すなわち、小さい変化の領域(微細領域包含領域R1(i))とエッジ領域R2(i)、それ以外の領域(他領域R3(i))を分けた、領域ごとのイベントカメラデータD1(i),D2(i),D3(i)についてそれぞれの手法で、ノイズを除去する。本実施形態では、非特許文献5の学習モデルを用いて領域毎の各ノイズ除去部41,42,43においてそれぞれ、ノイズを除去する。
【0055】
<微細領域包含領域ノイズ除去部41>
微細領域包含領域ノイズ除去部41は、微細領域包含領域R1(i)のデータD1(i)からノイズを除去する。
【0056】
微細領域包含領域ノイズ除去部41では、学習データとしても微細領域包含領域R1(i)に属するデータに相当するイベントカメラデータのみを用いて、非特許文献5のモデルM1を予め学習しておく。微細領域包含領域ノイズ除去部41では、当該学習済のモデルM1を用いて、イベントカメラデータD(i)のうち微細領域包含領域R1(i)に対応するデータD1(i)からノイズを除去することができる。
【0057】
<エッジ領域ノイズ除去部42>
エッジ領域ノイズ除去部42は、エッジ領域R2(i)のデータD2(i)からノイズを除去する。
【0058】
エッジ領域ノイズ除去部42では、学習データとしてもエッジ領域R2(i)に属するデータに相当するイベントカメラデータのみを用いて、非特許文献5のモデルM2を予め学習しておく。エッジ領域ノイズ除去部42では、当該学習済のモデルM2を用いて、イベントカメラデータD(i)のうちエッジ領域R2(i)に対応するデータD2(i)からノイズを除去することができる。
【0059】
<他領域ノイズ除去部43>
他領域ノイズ除去部43は、他領域R3(i)のデータD3(i)からノイズを除去する。
【0060】
他領域ノイズ除去部43では、学習データとしても他領域R3(i)に属するデータに相当するイベントカメラデータのみを用いて、非特許文献5のモデルM3を予め学習しておく。他領域ノイズ除去部43では、当該学習済のモデルM3を用いて、イベントカメラデータD(i)のうち他領域R3(i)に対応するデータD3(i)からノイズを除去することができる。
【0061】
なお、以上の各ノイズ除去部41,42,43の学習を可能とするために、学習データとしてのイベントカメラデータを得る際は、ステップS1と同様にイベントカメラと通常カメラとで時計合わせ及び座標合わせを行い、通常カメラの撮影も行っておくことにより、学習用のイベントカメラデータを微細領域包含領域、エッジ領域、他領域の3種類のいずれに該当するかを分類しておく。
【0062】
以上、各ノイズ除去部41,42,43で各イベントカメラデータD1(i),D2(i),D3(i)をノイズ除去して得たデータをそれぞれE1(i),E2(i),E3(i)とする。ノイズ除去前のイベントカメラデータD(i)のノイズ除去結果は、これら3つのデータ全体E(i)={ E1(i),E2(i),E3(i)}としてもよいし、ステップS4ではさらに、当該ノイズ除去データE(i)に対して後処理部44による後処理を施したものを、ノイズ除去装置10によるノイズ除去結果として出力するようにしてもよい。
【0063】
後処理部44によるデータE(i)に対する後処理として、空間上の各領域R1(i),R2(i),R3(i)の境界及び時間軸上の隣接する時間帯のイベントカメラデータ(E(i)の少なくとも1つ前のデータE(i-1),E(i-2),…及び/又は少なくとも1つの後のデータE(i+1),E(i+2),…)の分布がスムーズとなるようにフィルタ処理を施してもよい。フィルタ処理としては例えばガウシアンフィルタ等の平滑化フィルタやメディアン(中央値)フィルタ等のように、不自然に不連続な点を排除して分布をスムーズにする効果を有する任意の既存手法を用いてよい。なお、データE(i)やその時間軸上での前後のデータE(i-1),E(i+1)等にフィルタ処理を施す際は、個別のデータ(xk,yk,tk,pk)から極性pkを除外することで3次元データ(xk,yk,tk)とみなして、3次元空間内で各データ点の近傍に位置する他のデータ点を判定したうえで、フィルタ処理を施すようにすればよい。また、極性pkを除外しない4次元データ(xk,yk,tk,pk)の形で、4次元空間内で各データ点の近傍に位置する他のデータ点を判定したうえで、フィルタ処理を施してもよい。
【0064】
領域R1(i),R2(i),R3(i)毎に処理すると、時空間の境界で不連続な信号が出る可能性があるため、後処理としてフィルタ処理を適用することにより、当該不連続性を柔らかくさせることができる。
【0065】
ステップS5では、通常カメラ11によるリアルタイムでの離散的な撮影タイミングである時刻T(i)を次の時刻T(i+1)へ更新してからステップS2へと戻ることで、次の画像P(T(i+1))及びこれに対応するイベントカメラデータD(i+1)(すなわち、時間範囲[T(i+1),T(i+2)]に属するイベントカメラデータ)を対象として以上と同様の処理が繰り返される。
【0066】
以上、本発明の実施形態によれば、イベントカメラデータにおいて微細な対象の追跡等を行う際に、小さい変化を含めて信号をノイズに誤認せず、ノイズを有効に除去することができる。この際、以下のような各手法を用いた。
【0067】
● 領域毎にノイズ除去することにより、小さい変化の領域と信号が発生しやすいエッジ領域、それ以外の領域でノイズ除去手法(用いる学習モデル)を変える。
● 特に、RGB画像を利用し、微細なデータを含む領域(微細領域包含領域R1(i))と撮影したオブジェクトのエッジを含む領域(エッジ領域R2(i))、その他の領域(他領域R3(i))を検出し、イベントカメラデータにこれら領域情報を時空間にマッピングする。
● RGB画像からより検出しやすい拡張の領域(例えば、眼球や瞬きではなく、顔全体)として微細領域包含領域R1(i)を検出し、小さい変化の領域をノイズ除去可能な形で検出する。
【0068】
以下、種々の補足例、追加例、代替例などについて説明する。
【0069】
(1) 本発明の実施形態のさらなる応用例として、アバタ描画の際の視線等をより精密に取得することが可能となる。そして、このような精密な情報によって描画されるアバタにより、臨場感ある遠隔コミュニケーションを実現可能である。これにより、遠隔地への実際の移動を必ずしも必須とせずに遠隔会議等を臨場感をもって行うことが可能となり、ユーザ移動に必要となるエネルギー資源を節約することで二酸化炭素排出量を抑制できることから、国連が主導する持続可能な開発目標(SDGs)の目標13「気候変動とその影響に立ち向かうため、緊急対策を取る」に貢献することが可能となる。
【0070】
(2) マッピング部3によるステップS3での各領域R1(i),R2(i),R3(i)へのイベントカメラ12のデータD(i)の割り当てで各データD1(i),D2(i),D3(i)を得る際に、対応する通常画像の撮影時刻T(i)と、イベントカメラデータの時刻tkとの間(図5等で示したマッピング関係から「T(i)≦tk」となる)の時間間隔[T(i),tk]での動きベクトルVk=(Δxk,Δyk,)を考慮して、この動きベクトルの分を減算した位置を以下のように割り当てるようにしてもよい。
D1(i)= {(xk,yk,tk,pk)|tk∈[T(i),T(i+1)] 且つ (xk,yk,)-Vk∈R1(i)}
D2(i)= {(xk,yk,tk,pk)|tk∈[T(i),T(i+1)] 且つ (xk,yk,)-Vk∈R2(i)}
D3(i)= {(xk,yk,tk,pk)|tk∈[T(i),T(i+1)] 且つ (xk,yk,)-Vk∈R3(i)}
【0071】
この動きベクトルVkには、映像としての通常画像P(T(i))から領域ごとにオプティカルフロー等で求められるものを用いてもよい。通常画像の撮影間隔T(i+1)-T(i)(またはT(i)-T(i-1))において求めたオプティカルフロー(大きさV)から、間隔tk-T(i)での移動量vを時間割合に比例するものとして以下のように求めて、動きベクトルVk(| Vk |=v)を求めるようにしてもよい。
v=V*{ tk-T(i)}/{ T(i+1)-T(i)}
【0072】
(3) 図7は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。ノイズ除去装置10は、このような構成を有する1台以上のコンピュータ装置70として実現可能である。なお、2台以上のコンピュータ装置70でノイズ除去装置10を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU(グラフィックス演算装置)72、CPU71(及びGPU72)にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、カメラ78と、これらの間でデータを授受するためのバスBSと、を備える。
【0073】
ノイズ除去装置10の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置(プロセッサ)の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。カメラ78は、通常カメラ11及びイベントカメラ12として実装すればよい。
【符号の説明】
【0074】
10…ノイズ除去装置、11…通常カメラ、12…イベントカメラ、2…領域検出部、3…マッピング部、4…ノイズ除去部
図1
図2
図3
図4
図5
図6
図7