IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ソニー・コンピュータエンタテインメントの特許一覧

特許7178499画像処理装置、画像処理方法、及び、プログラム
<>
  • 特許-画像処理装置、画像処理方法、及び、プログラム 図1
  • 特許-画像処理装置、画像処理方法、及び、プログラム 図2
  • 特許-画像処理装置、画像処理方法、及び、プログラム 図3
  • 特許-画像処理装置、画像処理方法、及び、プログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-16
(45)【発行日】2022-11-25
(54)【発明の名称】画像処理装置、画像処理方法、及び、プログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221117BHJP
【FI】
G06T7/00 C
【請求項の数】 6
(21)【出願番号】P 2021532559
(86)(22)【出願日】2019-07-12
(86)【国際出願番号】 JP2019027670
(87)【国際公開番号】W WO2021009798
(87)【国際公開日】2021-01-21
【審査請求日】2021-11-11
【新規性喪失の例外の表示】特許法第30条第2項適用 開催日 平成30年12月4日~平成30年12月7日 集会名、開催場所 シーグラフアジア2018カンファレンス仮想現実/拡張現実 アーティクルNo.17(SIGGRAPH Asia 2018 Virtual&Augmented Reality Article No.17)東京国際フォーラム(東京都千代田区丸の内3丁目5番1号) 展示日 平成30年12月4日~平成30年12月7日 展示会名 シーグラフアジア2018 展示会 掲載年月日 平成30年12月4日 掲載アドレス https://dl.acm.org/doi/10.1145/3275495.3275498 https://sa2018.siggraph.org/en/attendees/virtual-augmented-reality-vr-ar/session_slot/1079.htm
(73)【特許権者】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】110000154
【氏名又は名称】弁理士法人はるか国際特許事務所
(72)【発明者】
【氏名】堀川 勉
(72)【発明者】
【氏名】小野 大地
(72)【発明者】
【氏名】矢部 博之
【審査官】真木 健彦
(56)【参考文献】
【文献】米国特許出願公開第2019/0043203(US,A1)
【文献】TATENO, Keisuke et al.,CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction,2017 IEEE Conference on Computer Vision and Pattern Recognition,米国,IEEE,2017年,pp.6565-6574
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
2次元の入力画像をフレームごとに順次取得する画像取得部と、
フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行部と、
順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の3次元位置認識を実行して3次元マップを作成し、前記3次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与部と、
を含み、
前記ラベル付与部は、複数のフレームにおいて判定されたラベルの種類に基づいて、前記ボクセルにラベルを付す、ことを特徴とする画像処理装置。
【請求項2】
前記ラベル付与部は、各ボクセルに対して、
前フレームに付されたラベルと、現フレームで判定されたラベルと、が同じである場合にカウントをインクリメントし、
前フレームに付されたラベルと、現フレームで判定されたラベルと、が異なる場合にカウントをデクリメントし、
カウントが0である場合に、現フレームで判定されたラベルを付し、
カウントが0でない場合に、前フレームに付されたラベルを維持する、
ことを特徴とする請求項に記載の画像処理装置。
【請求項3】
前記ボクセルごとに、複数のフレームにおいて判定されたラベルを記憶する記憶部を有し、
前記ラベル付与部は、前記複数のフレームにおいて、最も多く判定された種類のラベルを前記ボクセルに付す、
ことを特徴とする請求項に記載の画像処理装置。
【請求項4】
前記オブジェクト種類認識実行部と前記ラベル付与部は、取得された前記各入力画像に対して、同一のフレームでセマンティックセグメンテーションとスラムを実行することを特徴とする請求項1からのいずれかに記載の画像処理装置。
【請求項5】
2次元の入力画像をフレームごとに順次取得する画像取得ステップと、
フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行ステップと、
順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の3次元位置認識を実行し、3次元マップを作成し、前記3次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与ステップと、
を含み、
前記ラベル付与ステップにおいて、複数のフレームにおいて判定されたラベルの種類に基づいて、前記ボクセルにラベルを付す、ことを特徴とする画像処理方法。
【請求項6】
2次元の入力画像をフレームごとに順次取得する画像取得手順と、
フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行手順と、
順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の3次元位置認識を実行し、3次元マップを作成し、前記3次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与手順と、
をコンピュータに実行させるプログラムであって、
前記ラベル付与手順において、複数のフレームにおいて判定されたラベルの種類に基づいて、前記ボクセルにラベルを付す、ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、及び、プログラムに関する。
【背景技術】
【0002】
入力画像の各ピクセルに対して、該ピクセルに表された人物、道路、空等のオブジェクトの種類を認識し、当該種類を表すラベルを各ピクセルに付すオブジェクト種類認識技術(いわゆる、セマンティックセグメンテーション(Semantic segmentation))が知られている。当該オブジェクト種類認識技術は、学習データを用いて学習済である機械学習モデルを用いて行われる。
【0003】
また、入力画像に基づいて、自己位置推定と入力画像に表された被写体の3次元位置認識を同時に実行することで3次元マップ形成を行う技術(いわゆる、スラム(SLAM: Simultaneous Localization and Mapping))が知られている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
3次元マップは、ボクセルによって構成される。当該ボクセルに表されたオブジェクトの種類を認識するために3次元マップに対してオブジェクト認識技術を適用すると、画像処理装置に過大な負荷がかかり、長い処理時間を要する。
【0005】
また、3次元マップに対してオブジェクト認識技術を適用するためには、3次元マップに対してオブジェクト認識技術を実行する学習済の機械学習モデルが必要である。さらに、当該機械学習モデルに対して機械学習を行うためには、予めボクセル毎にオブジェクトの種類を表すラベルが付された3次元マップの学習データが必要である。2次元画像である学習データを収集することと比較して、3次元マップの学習データを収集することは困難であり、コストもかかる。
【0006】
本発明は、上記問題点に鑑みてなされたものであり、その目的は、3次元マップの学習データを収集することが不要であって、かつ、負荷が少なく高速な処理が可能である、3次元マップのオブジェクト認識のための画像処理装置、画像処理方法、及び、プログラムを提供することである。
【課題を解決するための手段】
【0007】
本発明の一側面に係る画像処理装置は、2次元の入力画像をフレームごとに順次取得する画像取得部と、フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行部と、順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の3次元位置認識を実行して3次元マップを作成し、前記3次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与部と、を含むことを特徴とする。
【0008】
また、本発明の他の一側面に係る画像処理装置によれば、前記ラベル付与部は、複数のフレームにおいて判定されたラベルの種類に基づいて、前記ボクセルにラベルを付すことを特徴とする。
【0009】
また、本発明の他の一側面に係る画像処理装置によれば、前記ラベル付与部は、各ボクセルに対して、前フレームに付されたラベルと、現フレームで判定されたラベルと、が同じである場合にカウントをインクリメントし、前フレームに付されたラベルと、現フレームで判定されたラベルと、が異なる場合にカウントをデクリメントし、カウントが0である場合に、現フレームで判定されたラベルを付し、カウントが0でない場合に、前フレームに付されたラベルを維持する、ことを特徴とする。
【0010】
また、本発明の他の一側面に係る画像処理装置によれば、前記ボクセルごとに、複数のフレームにおいて判定されたラベルを記憶する記憶部を有し、前記ラベル付与部は、前記複数のフレームにおいて、最も多く判定された種類のラベルを前記ボクセルに付す、ことを特徴とする。
【0011】
また、本発明の他の一側面に係る画像処理装置によれば、前記オブジェクト種類認識実行部と前記ラベル付与部は、取得された前記各入力画像に対して、同一のフレームでセマンティックセグメンテーションとスラムを実行することを特徴とする。
【0012】
また、本発明の一側面に係る画像処理方法は、2次元の入力画像をフレームごとに順次取得する画像取得ステップと、フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行ステップと、順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の3次元位置認識を実行し、3次元マップを作成し、前記3次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与ステップと、を含むことを特徴とする。
【0013】
また、本発明の一側面に係るプログラムは、2次元の入力画像をフレームごとに順次取得する画像取得手順と、フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行手順と、順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の3次元位置認識を実行し、3次元マップを作成し、前記3次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与手順と、をコンピュータに実行させることを特徴とする。
【図面の簡単な説明】
【0014】
図1】本発明の一実施形態に係る画像処理装置の構成を示す図である。
図2】本発明の一実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。
図3】画像処理装置で行われる画像処理方法の一例を表す図である。
図4】ラベルの判定方法の一例を表すフロー図である。
【発明を実施するための形態】
【0015】
以下、本発明の一実施形態である第1実施形態について図面に基づき詳細 に説明する。なお、以下の説明では、オブジェクト種類認識技術の一例としてセマンティックセグメンテーション技術、3次元マップ形成技術の一例としてスラム技術が適用される場合について説明する。
【0016】
図1は、本実施形態に係る画像処理装置10の構成図である。本実施形態に係る画像処理装置10は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図1に示すように、本実施形態に係る画像処理装置10は、例えば、プロセッサ12、記憶部14、操作部16、表示部18を含んでいる。
【0017】
プロセッサ12は、例えば画像処理装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
【0018】
記憶部14は、ROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部14には、プロセッサ12によって実行されるプログラムなどが記憶される。
【0019】
操作部16は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ12に出力する。
【0020】
表示部18は、液晶ディスプレイ等の表示デバイスであって、プロセッサ12の指示に従って各種の画像を表示する。
【0021】
なお、画像処理装置10は、ネットワークボードなどの通信インタフェース、DVD-ROMやBlu-ray(登録商標)ディスクなどの光ディスクを読み取る光ディスクドライブ、USB(Universal Serial Bus)ポートなどを含んでいてもよい。
【0022】
本実施形態に係る画像処理装置10には学習済の機械学習モデルが実装される。そして当該機械学習モデルを用いて、各ボクセルに対して、ボクセルと対応するピクセルのラベルが付された3次元マップが生成される。
【0023】
以下、本実施形態に係る画像処理装置10の機能、及び、画像処理装置10で実行される処理についてさらに説明する。
【0024】
図2は、本実施形態に係る画像処理装置10で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像処理装置10で、図2に示す機能のすべてが実装される必要はなく、また、図2に示す機能以外の機能が実装されていても構わない。
【0025】
図2に示すように、本実施形態に係る画像処理装置10には、機能的には例えば、画像取得部202、深度情報取得部204、オブジェクト種類認識実行部206、ラベル付与部208、カウント記憶部210、が含まれる。以上の要素はプロセッサ12、及び、記憶部14を主として実装される。本実施形態に係る画像処理装置10は、各ピクセルにより表されたオブジェクトの種類を表すラベルが当該ピクセルに付された2次元画像を学習データとして、学習が実行済である機械学習モデルである。
【0026】
画像取得部202は、2次元の入力画像をフレームごとに順次取得する。具体的には、例えば、画像取得部202は、一般的なビデオカメラで撮影された動画像に含まれる各フレームの静止画像を順次取得する。ここで、静止画像は、例えば赤、緑、及び、青の各色の階調情報を含む2次元画像である。また、入力画像を撮影するビデオカメラは、時間に応じて位置及び方向が変化する。従って、画像取得部202は、時間によって連続的に視点及び画角が変化しながら撮影された2次元画像を取得する。
【0027】
深度情報取得部204は、画像取得部202が取得する入力画像のピクセル毎に対応する深度情報を取得する。具体的には、例えば、深度情報取得部204は、ビデオカメラのレンズ近傍に配置された測距センサである。深度情報取得部204は、画像取得部202が1フレームの入力画像を取得するごとに、各ピクセルに表されたオブジェクトとレンズの距離を測定することで、当該入力画像の各ピクセルに対応する深度情報を取得する。
【0028】
なお、画像取得部202と深度情報取得部204は一体的に構成されてもよい。具体的には、例えば、2眼のビデオカメラを用いて入力画像が取得される場合、画像取得部202と深度情報取得部204は、赤、緑、及び、青の各色の階調情報とともに、各ピクセルの深度情報を含む2次元画像を取得できる。
【0029】
オブジェクト種類認識実行部206は、フレームごとに取得した入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付す。具体的には、例えば、オブジェクト種類認識実行部206は、畳み込みニューラルネットワーク(CNN)により実装された機械学習モデルである。オブジェクト種類認識実行部206は、画像取得部202が1フレームの入力画像を取得するたびに、入力画像に含まれる階調情報に基づいて、当該入力画像に対するセマンティックセグメンテーションを実行する。これにより、フレームごとに、取得された入力画像の各ピクセルに対して、該ピクセルにより表されたオブジェクトの種類を表すラベルが付される。
【0030】
ラベル付与部208は、順次入力された入力画像に基づいて、入力画像に表された被写体の3次元位置認識を実行して3次元マップを作成し、3次元マップに含まれる各ボクセルに対して、ボクセルと対応するピクセルのラベルを付す。具体的には、ラベル付与部208は、画像取得部202が順次取得した入力画像と、深度情報取得部204が順次取得した深度情報と、に基づいて、スラムを実行する。ラベル付与部208がスラムを実行する際、GPS(図示なし)から取得した位置情報を用いて3次元位置認識を行ってもよい。
【0031】
ここで、ラベル付与部208は、2次元画像に含まれる各ピクセルと、3次元マップに含まれるボクセルとを対応づけることによって、2次元画像に含まれる各ピクセルから3次元マップを作成する。また、2次元画像から3次元マップが構成される際に、ラベル付与部208には各ピクセルにラベルが付された2次元画像が入力されている。従って、ラベル付与部208は、3次元マップを作成する際に、3次元マップに含まれる各ボクセルに対して、ボクセルと対応するピクセルのラベルを付すことができる。
【0032】
ラベル付与部208は、複数のフレームにおいて判定されたラベルの種類に基づいて、ボクセルにラベルを付す。具体的には、例えば、ラベル付与部208は、複数のフレームにおいて、最も多く判定された種類のラベルをボクセルに付す。また、後述するように、ラベル付与部208は、カウントを用いて判定されたラベルをボクセルに付してもよい。
【0033】
なお、オブジェクト種類認識実行部206とラベル付与部208は、取得された各入力画像に対して、同一のフレームでセマンティックセグメンテーションとスラムを実行することが好ましい。本実施形態によれば、上記のように、3次元マップを構成する際に、同時にラベルを付すことができるため、プロセッサに係る負荷を軽減できる。従って、オブジェクト種類認識実行部206とラベル付与部208は、セマンティックセグメンテーションとスラムを同一のフレームで実行することができる。
【0034】
カウント記憶部210は、ボクセルごとに、複数のフレームにおいて判定されたラベルの種類を記憶する。具体的には、例えば、カウント記憶部210は、各ボクセルについて、直近の30フレームの間に判定されたラベルを記憶する。これにより、ラベル付与部208は、各ボクセルに対して、30フレームの間で最も判定された回数の多いラベルを付すことができる。
【0035】
以上の機能は、コンピュータである画像処理装置10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ12で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像処理装置10に供給されてもよい。
【0036】
また、深度情報取得部204は省略されてもよい。具体的には、例えば、ラベル付与部208が深度情報を用いずに3次元マップを作成するビジュアルスラム(Visual SLAM)を実行する場合、ラベル付与部208は、カメラで撮影された2次元画像からカメラが撮影した環境の3次元情報とカメラの位置姿勢を同時に推定することができる。従って、ラベル付与部208は、深度情報を用いずに、順次取得される2次元画像のみを用いて3次元マップを作成できる。
【0037】
本実施形態では例えば、一般的なビデオカメラで撮影される2次元画像に基づいて、ボクセル毎にラベルが付された3次元マップが生成される。以下、3次元マップの生成方法について図3を参照しながら説明する。
【0038】
まず、画像取得部202によってフレームごとに順次取得された2次元の入力画像は、オブジェクト種類認識実行部206に入力される。具体的には、例えば、2眼のビデオカメラによって撮影された2次元の入力画像は、フレームごとに順次オブジェクト認識実行部に入力される。ここで、入力画像の各ピクセルは、赤、緑及び青を表す階調情報と、ビデオカメラからの距離を表す深度情報と、を含む。
【0039】
オブジェクト種類認識実行部206は、フレームごとに取得した入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付す。具体的には、オブジェクト種類認識実行部206は、入力された2次元の入力画像の各ピクセルの階調情報に基づいて、該ピクセルにより表されたオブジェクトの種類を判定する。そして、オブジェクト種類認識実行部206は、入力画像の各ピクセルに対して、判定された種類を表すラベルを付す。例えば、オブジェクト種類認識実行部206は、あるピクセルが表すオブジェクトがテーブルであると判定した場合、当該ピクセルに対して「T」というラベルを付す。また、例えば、オブジェクト種類認識実行部206は、あるピクセルが表すオブジェクトが壁面であると判定した場合、当該ピクセルに対して「W」というラベルを付す。従って、オブジェクト種類認識実行部206が出力した画像の各ピクセルは、階調情報及び深度情報に加えて、ラベルを表す情報を含む。
【0040】
次に、出力された画像は、フレームごとに順次ラベル付与部208に入力され、3次元マップが作成される。具体的には、上記のように、各ピクセルが階調情報、深度情報、及び、ラベルを表す情報を含む2次元の画像は、ラベル付与部208に入力される。ラベル付与部208は、順次入力された入力画像の階調情報及び深度情報に基づいて、入力画像に表された被写体の3次元位置認識を実行して3次元マップを作成する。ここで、3次元マップは、2次元の入力画像の各ピクセルと対応するボクセルによって構成されている。また、各ピクセルが階調情報及び深度情報に加えてラベルを表す情報を含むため、当該ラベルは、該ピクセルと対応する3次元マップのボクセルに対して付される。以上の方法により、各ボクセルに対してラベルが付された3次元マップを作成できる。
【0041】
2次元の入力画像が順次入力される毎に、当該入力画像に含まれるピクセルと対応するボクセルが3次元マップの中に形成される。ここで、異なるフレームにおける入力画像の各ピクセルが3次元マップにおける同じ位置を表すピクセルであると認識された場合、当該ピクセルは同じボクセルに対応すると判定される。オブジェクト種類認識実行部206によるラベルの判定結果が常に正確であれば、同一のボクセルに対応する各ピクセルは同じラベルが付されるはずである。しかしながら、入力画像が撮影された角度や、オブジェクトに照射される光の反射具合等、様々な要因によって、オブジェクト種類認識実行部206によるラベルの判定結果には誤差が含まれる。このような場合において、高精度なラベルが付された3次元マップを作成するために、本実施形態に係るラベル付与部208で付されるラベルの判定方法の一例について図4を参照しながら説明する。なお、以下において、「new」、「old」及び「c」は、それぞれソースコードに含まれる変数である。
【0042】
まず、2次元の入力画像がオブジェクト種類認識実行部206に入力される。ラベル付与部208は、作成中である3次元マップにおいて、対応するボクセルが存在するピクセルであるか判定する(S402)。なお、入力画像において、対象のピクセルには「new」というラベルが付されているものとする。
【0043】
対応するボクセルが存在するピクセルでないと判定された場合、ラベル付与部208は、当該ピクセルと対応するボクセルを3次元マップ中に新たに作成する。そして、ラベル付与部208は、当該ピクセルに付されたラベルを新たに作成したボクセルに「new」というラベルを付する(S404)。また、当該ボクセルに対して、新たに付与したラベルと関連付けて1というカウントを付する。なお、カウントはカウント記憶部210に記憶される。新たなボクセルが作成された場合、当該ピクセルに関する当該フレームにおける処理は終了する。
【0044】
一方、対応するボクセルが存在するピクセルであると判定された場合、S406のステップへすすむ。この時、当該既存のボクセルに対して付されたラベルは「old」であって、カウントは「c」であるとする。
【0045】
次に、ラベル付与部208は、当該既存のボクセルの付された「old」と、新たに入力された入力画像の対応するピクセルに付された「new」というラベルが表すオブジェクトが同じであるか判定する(S406)。
【0046】
ラベル付与部208は、各ボクセルに対して、前フレームに付されたラベルと、現フレームで判定されたラベルと、が同じである場合にカウントをインクリメントする(S408)。具体的には、「old」と「new」というラベルが表すオブジェクトが同じである場合、ラベル付与部208は、対応するボクセルのラベルは「old」のままとし、当該ボクセルに対して付されたカウント「c」をインクリメントする。そして、当該ピクセルに関する当該フレームにおける処理は終了する。
【0047】
一方、ラベル付与部208は、各ボクセルに対して、前フレームに付されたラベルと、現フレームで判定されたラベルと、が異なる場合にカウントをデクリメントする(S410)。具体的には、「old」と「new」というラベルが表すオブジェクトが異なる場合、ラベル付与部208は、対応するボクセルのラベルは「old」のままとし、当該ボクセルに対して付されたカウント「c」をデクリメントする。
【0048】
そして、ラベル付与部208は、当該ボクセルのカウントが0でない場合に前フレームに付されたラベルを維持する。すなわち、当該ボクセルに付されるラベルとして「old」が維持される(S412)。
【0049】
一方、ラベル付与部208は、カウントが0である場合に、現フレームで判定されたラベルを付す。すなわち、当該ボクセルに付されるラベルとして「new」が付される(S414)。また、このとき、当該ボクセルに対して、新たに付与したラベルと関連付けて1というカウントが付される。
【0050】
以上のようなフローで各ボクセルに付されるラベルが判定されることにより、オブジェクト種類認識実行部206があるフレームで誤ったラベルを付した場合であっても、前後のフレームで正しいラベルが付されていた場合、ラベル付与部208は、各ボクセルに対して正しいラベルを付すことができる。
【0051】
作成された3次元マップは、各ボクセルに、当該ボクセルにより表されたオブジェクトの種類を表すラベルが付されたボクセルの集合である。これにより、同じ種類のラベルが付されたボクセルの集合ごとに、異なる処理を行うことができる。具体的には、例えば、作成された3次元マップは、拡張現実(AR:Augmented Reality)技術に適用することができる。テーブル、テレビ、ソファ等が配置された部屋の内部の3次元マップを作成した場合、ユーザは、現実世界の部屋にいながら、現実世界の部屋が反映された仮想空間を体験できる。そして、ユーザが特定のラベルと対応する現実世界の対象物に対して何らかの挙動を行った場合、仮想空間において、当該ラベルが付されたボクセルの集合に対してのみ異なる処理を行うことができる。例えば、現実世界において、ユーザがテーブルの一部に触れる、テレビのある個所にボールをぶつける、等の挙動を行った場合、仮想空間において、テーブル全体のデザインを変更する、テレビの電源をONにする、等の同じラベルが付されたボクセルの集合ごとに異なる処理を行うことができる。
【0052】
なお、本発明は上述の実施形態に限定されるものではない。また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。例えば、上記のように、付されるラベルはカウントによって判定されず、複数のフレームにおいて、最も多く判定された種類のラベルが付されてもよい。
図1
図2
図3
図4