特許7489834 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社デンソーアイティーラボラトリの特許一覧

特許7489834情報処理装置、プロブラムおよび情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-16

(45)【発行日】2024-05-24

(54)【発明の名称】情報処理装置、プロブラムおよび情報処理方法

(51)【国際特許分類】

G06N 3/04 20230101AFI20240517BHJP

G06N 20/10 20190101ALI20240517BHJP

【ＦＩ】

G06N3/04

G06N20/10

【請求項の数】 6

(21)【出願番号】P 2020102504

(22)【出願日】2020-06-12

(65)【公開番号】P2021196829

(43)【公開日】2021-12-27

【審査請求日】2023-03-29

(73)【特許権者】

【識別番号】502324066

【氏名又は名称】株式会社デンソーアイティーラボラトリ

(74)【代理人】

【識別番号】100113549

【弁理士】

【氏名又は名称】鈴木守

(74)【代理人】

【識別番号】100115808

【弁理士】

【氏名又は名称】加藤真司

(72)【発明者】

【氏名】鈴木哲平

(72)【発明者】

【氏名】関川雄介

(72)【発明者】

【氏名】小澤圭右

【審査官】真木健彦

(56)【参考文献】

【文献】特開２０１９－１５９９４０（ＪＰ，Ａ）

【文献】特開２００９－０９８７１３（ＪＰ，Ａ）

【文献】国際公開第２０１９／０６０１２５（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０４

Ｇ０６Ｎ３／００

Ｇ０６Ｎ２０／１０

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

点群データの分析を行う装置であって、
前記点群データを入力する入力部と、
複数のガウシアンカーネルを用いて前記点群データを高次元写像して、前記点群データの局所特徴ベクトルを求める高次元写像化部と、
前記点群データの局所特徴ベクトルを対称関数に適用して、前記点群データの全体特徴ベクトルを求める全体特徴算出部と、
前記全体特徴ベクトルをニューラルネットワークに適用して前記点群データの分析を行う分析部と、
を備え、
前記分析部は、前記全体特徴ベクトルと前記局所特徴ベクトルを連結した連結特徴ベクトルをニューラルネットワークに適用して、前記点群データのセグメンテーションを行う情報処理装置。

【請求項2】

前記高次元写像化部は、ガウシアンカーネルとして混合ガウシアンカーネルを用いる請求項１に記載の情報処理装置。

【請求項3】

点群データの分析を行うためのプログラムであって、コンピュータに、
前記点群データを入力するステップと、
複数のガウシアンカーネルを用いて前記点群データを高次元写像して、前記点群データの局所特徴ベクトルを求めるステップと、
前記点群データの局所特徴ベクトルを対称関数に適用して、前記点群データの全体特徴ベクトルを求めるステップと、
前記全体特徴ベクトルをニューラルネットワークに適用して前記点群データの分析を行うステップと、
を実行させ、
前記点群データの分析を行うステップでは、前記全体特徴ベクトルと前記局所特徴ベクトルを連結した連結特徴ベクトルをニューラルネットワークに適用して、前記点群データのセグメンテーションを行うプログラム。

【請求項4】

前記局所特徴ベクトルを求めるステップでは、ガウシアンカーネルとして混合ガウシアンカーネルを用いる請求項３に記載のプログラム。

【請求項5】

情報処理装置によって点群データの分析を行う方法であって、
前記情報処理装置が前記点群データの入力を受け付けるステップと、
前記情報処理装置が複数のガウシアンカーネルを用いて前記点群データを高次元写像して、前記点群データの局所特徴ベクトルを求めるステップと、
前記情報処理装置が前記点群データの局所特徴ベクトルを対称関数に適用して、前記点群データの全体特徴ベクトルを求めるステップと、
前記情報処理装置が前記全体特徴ベクトルをニューラルネットワークに適用して前記点群データの分析を行うステップと、
を備え、
前記点群データの分析を行うステップでは、前記全体特徴ベクトルと前記局所特徴ベクトルを連結した連結特徴ベクトルをニューラルネットワークに適用して、前記点群データのセグメンテーションを行う情報処理方法。

【請求項6】

前記局所特徴ベクトルを求めるステップでは、ガウシアンカーネルとして混合ガウシアンカーネルを用いる請求項５に記載の情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、点群データの分析を行う情報処理技術に関する。

【背景技術】

【0002】

自動運転システムや自己位置推定と地図作成の同時実行（ＳＬＡＭ）などのロボット工学アプリケーションを開発する場合、ＬｉＤＡＲはシーン内の点群を含む３Ｄジオメトリをキャプチャするのに役立つセンサーであり、点群をリアルタイムで処理する方法がしばしば必要になる。ＬｉＤＡＲは毎秒１００万のオーダーの点群をキャプチャするが、点群には非構造化および点群の順序のあいまいさなどの扱いにくさがある。

【0003】

ニューラルネットワークは、点群認識タスクの顕著な結果を示す。ニューラルネットワークに基づくいくつかの方法では、点群をボクセルやメッシュなどの扱いやすい表現に変換する。ただし、これらの表現は情報の損失を引き起こすか、大量のメモリを必要とする。

【0004】

点群の順序によらず結果が不変であることを満たすための点群処理方法が提案されており、それらは情報の損失を回避することができる。この方法は、大きく２つのタイプに分けられる。１つは点ごとの埋め込みに基づいており、もう１つはグラフ畳込みに基づいている。通常、グラフ畳込みは局所形状をキャプチャできるため、グラフ畳込みは、点ごとの埋め込み方法よりも優れたパフォーマンスを実現する。ただし、点群のグラフ畳込みでは、Ｋ近傍法と畳込みのためのランダムメモリアクセスが必要なため、処理時間を要する。

【0005】

ＰｏｉｎｔＮｅｔは、点ごとの埋込み方式の先駆的な研究であり（非特許文献１）、最新のＧＰＵで毎秒１００万ポイントを処理できる。

【先行技術文献】

【非特許文献】

【0006】

【文献】Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas.「Pointnet: Deep learning on point sets for 3D classification and segmentation.」Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2017

【発明の概要】

【発明が解決しようとする課題】

【0007】

ＰｏｉｎｔＮｅｔは、点群データを高速に処理することができるが、高度なＬｉＤＡＲセンサーは毎秒４００万ポイント以上を取得するため、ＰｏｉｎｔＮｅｔは依然として低速である。ポイントボクセルＣＮＮ（ＰＶＣＮＮ）は、スピードアップとパフォーマンスの向上に取り組み、ＰｏｉｎｔＮｅｔの２倍のスピードとわずかに向上したパフォーマンスを実現したが、より高速な方法を開発することは、高度なセンサデータのリアルタイム処理にとって依然として重要である。

【0008】

本発明は、上記背景に鑑み、計算処理コストを軽減した点群処理の技術を提供することを目的とする。

【課題を解決するための手段】

【0009】

本発明の情報処理装置は、点群データの分析を行う装置であって、前記点群データを入力する入力部と、複数のガウシアンカーネルを用いて前記点群データを高次元写像して、前記点群データの局所特徴ベクトルを求める高次元写像化部と、前記点群データの局所特徴ベクトルを対称関数に適用して、前記点群データの全体特徴ベクトルを求める全体特徴算出部と、前記全体特徴ベクトルをニューラルネットワークに適用して前記点群データの分析を行う分析部とを備える。このようにガウシアンカーネルを用いることにより、高次元写像化に多層パーセプトロンを用いる場合に比べて計算すべきパラメータを減らし、計算コストを軽減することができる。

【0010】

本発明の情報処理装置において、前記高次元写像化部は、ガウシアンカーネルとして混合ガウシアンカーネルを用いてもよい。このように混合ガウシアンカーネルを用いることにより、指示関数としての形状の自由度を高めることができる。

【0011】

本発明の情報処理装置において、前記分析部は、前記全体特徴ベクトルと前記局所特徴ベクトルを連結した連結特徴ベクトルをニューラルネットワークに適用して、前記点群データのセグメンテーションを行ってもよい。

【0012】

本発明の情報処理装置は、前記点群データをボクセル化するボクセル化部と、ボクセル化したボクセルデータをニューラルネットワークに適用し、各ボクセルの特徴ベクトルを求めるボクセル特徴ベクトル算出部とを備え、前記分析部は、前記全体特徴ベクトルと前記ボクセルの特徴ベクトルを連結した連結特徴ベクトルをニューラルネットワークに適用して、前記点群データのセグメンテーションを行ってもよい。

【0013】

本発明のプログラムは、点群データの分析を行うためのプログラムであって、コンピュータに、前記点群データを入力するステップと、複数のガウシアンカーネルを用いて前記点群データを高次元写像して、前記点群データの局所特徴ベクトルを求めるステップと、前記点群データの局所特徴ベクトルを対称関数に適用して、前記点群データの全体特徴ベクトルを求めるステップと、前記全体特徴ベクトルをニューラルネットワークに適用して前記点群データの分析を行うステップとを実行させる。

【0014】

本発明のプログラムは、前記局所特徴ベクトルを求めるステップでは、ガウシアンカーネルとして混合ガウシアンカーネルを用いてもよい。

【0015】

本発明のプログラムは、前記点群データの分析を行うステップでは、前記全体特徴ベクトルと前記局所特徴ベクトルを連結した連結特徴ベクトルをニューラルネットワークに適用して、前記点群データのセグメンテーションを行ってもよい。

【0016】

本発明のプログラムは、前記点群データをボクセル化するステップと、ボクセル化したボクセルデータをニューラルネットワークに適用し、各ボクセルの特徴ベクトルを求めるステップとを実行させ、前記点群データの分析を行うステップでは、前記全体特徴ベクトルと前記ボクセルの特徴ベクトルを連結した連結特徴ベクトルをニューラルネットワークに適用して、前記点群データのセグメンテーションを行ってもよい。

【0017】

本発明の情報処理方法は、情報処理装置によって点群データの分析を行う方法であって、前記情報処理装置が前記点群データの入力を受け付けるステップと、前記情報処理装置が複数のガウシアンカーネルを用いて前記点群データを高次元写像して、前記点群データの局所特徴ベクトルを求めるステップと、前記情報処理装置が前記点群データの局所特徴ベクトルを対称関数に適用して、前記点群データの全体特徴ベクトルを求めるステップと、前記情報処理装置が前記全体特徴ベクトルをニューラルネットワークに適用して前記点群データの分析を行うステップとを備える。

【発明の効果】

【0018】

本発明によれば、点群データの分析の計算コストを低減することができる。

【図面の簡単な説明】

【0019】

【図1】実施の形態の情報処理装置の構成を示す図である。

【図2】情報処理装置で用いられるアーキテクチャの概要を示す図である。

【図3】第１の実施の形態の情報処理装置で用いられるアーキテクチャを示す図である。

【図4】第２の実施の形態の情報処理装置で用いられるアーキテクチャを示す図である。

【図5】第３の実施の形態の情報処理装置で用いられるアーキテクチャを示す図である。

【図6】第４の実施の形態の情報処理装置で用いられるアーキテクチャを示す図である。

【図7】第５の実施の形態の情報処理装置で用いられるアーキテクチャを示す図である。

【発明を実施するための形態】

【0020】

以下、本発明の実施の形態の情報処理装置、情報処理方法およびプログラムについて、図面を参照しながら説明する。
図１は、実施の形態の情報処理装置１の構成を示す図である。情報処理装置１は、入力部１０と、演算処理部１１と、記憶部１２と、出力部１３とを有している。入力部１０は、点群データを情報処理装置１に入力する機能を有し、例えば、通信インターフェースや、ユーザからの指示を入力するキーボードやマウス等である。演算処理部１１は、点群データの分析処理を行う機能を有し、例えば、ＣＰＵである。演算処理部１１は、例えばＲＯＭ等の記憶部１２から読み出したプログラムを実行することにより演算処理を行う。出力部１３は、演算処理部１１によって処理した結果等を出力する機能を有し、例えば、ディスプレイ、出力インターフェース、通信インターフェース等である。

【0021】

図２は、情報処理装置１にて行う処理を記載したアーキテクチャの概要を示す図である。上段は、入力された点群データが何であるかを分類する処理を行うアーキテクチャであり、下段は、上段で求めた全体特徴ベクトルを用いて、点群データのセグメンテーション（パーツセグメンテーション、セマンティックセグメンテーションの両方を含む）を行うアーキテクチャである。

【0022】

情報処理装置１に、点群データ（ｘ₁，・・・ｘ_N）が入力される。各点ｘ_n（ｎ＝１，・・・Ｎ）は、少なくとも空間内における３次元座標のデータを有しており、その他の局所的あるいはグローバルな特徴のデータを有してもよい。図２では、一般的にＭ次元のデータとして表現している。

【0023】

情報処理装置１は、点群データ（ｘ₁，・・・ｘ_N）が入力されると、入力された各点のデータをＫ個のガウシアンカーネルφ_k（ｋ＝１，・・・Ｋ）を用いて高次元写像化する。ここで、ガウシアンカーネルφ_kは次式で表される。次式において、μ_kは平均ベクトルを示し、Σ_kは逆分散行列を示している。平均ベクトルμ_kと逆分散行列Σ_kは、学習によって更新されるパラメータである。

【数1】

このガウシアンカーネルが、高次元写像化部に相当する。

【0024】

情報処理装置１は、ガウシアンカーネルφ_kで表した変数に対して、対称関数であるmax poolingを行うことで、点群データの全体特徴ベクトルを求める。具体的には、情報処理装置１は、各ガウシアンカーネルφ_k（ｋ＝１，・・・Ｋ）について、max{φ_k（ｘ₁），・・，φ_k（ｘ_N）}を求める。この対称関数を適用する構成が、全体特徴算出部に相当する。

【0025】

全体特徴ベクトルは、点群の順序によらない特徴ベクトルである。情報処理装置１は、全体特徴ベクトルにニューラルネットワークを適用することにより、全体特徴ベクトルが表すオブジェクトを分類する。複数のクラスのそれぞれについてスコアが求められ、スコアに基づいて点群データのクラスを決定する。図２に示す例では、「テーブル」のクラスのスコアが最も高く、入力された点群データは「テーブル」に分類される。

【0026】

次に、セグメンテーションの処理について説明する。セグメンテーションを行う場合にも、上記した分類の処理で行ったのと同様にして、点群データの全体特徴ベクトルを求める。その一方で、入力された点群データからＮ×Ｋ´次元の局所特徴ベクトルを求める。以下に説明する実施の形態では、局所特徴ベクトルを求める方法として、ガウシアンカーネルを用いる方法と三次元畳込みニューラルネットワーク（Volumetric CNN）を用いる方法を例示しているが、局所特徴ベクトルを求める方法はこれらに限定されるものではない。

【0027】

情報処理装置１は、Ｎ×Ｋ´次元の局所特徴ベクトルに対して、１×Ｋ次元の全体特徴ベクトルをＮ回繰り返して連結する。情報処理装置１は、連結して得られたＮ×（Ｋ＋Ｋ´）次元の特徴ベクトルに、ニューラルネットワークのニューラルネットワークを適用することにより、点群データの各点が属するクラスを求め、点群データのセグメンテーションを行う。点群データの全体特徴ベクトルおよび局所特徴ベクトルを用いて、分類処理やセグメンテーション処理を行う構成が分析部に相当する。以上、本実施の形態の情報処理装置１で用いられるアーキテクチャの概要について説明した。

【0028】

以下、実施の形態の情報処理装置について詳しく説明する。第１の実施の形態では、点群データの分類を行う情報処理装置について説明し、第２の実施の形態及び第３の実施の形態では、点群データに含まれるパーツのセグメンテーションを行う情報処理装置について説明し、第４の実施の形態及び第５の実施の形態では、点群データのセマンティックセグメンテーションを行う情報処理装置について説明する。

【0029】

（第１の実施の形態）
図３は、第１の実施の形態の情報処理装置で用いられるアーキテクチャを示す図である。第１の実施の形態の情報処理装置は、（ｘ，ｙ，ｚ）の座標値を有する点群データ（すなわち、Ｎ×３次元の点群データ）の入力を受け付け、入力された点群データが示すオブジェクトを４０のクラスのうちのいずれかに分類する処理を行う。

【0030】

第１の実施の形態の情報処理装置は、入力されたＮ×３次元の点群データを１０２４個のガウシアンカーネルφ_k（ｋ＝１，・・・，１０２４）を用いて高次元写像する。これにより、Ｎ×１０２４次元の局所特徴ベクトルが得られる。

【0031】

第１の実施の形態の情報処理装置で用いられるアーキテクチャは、Ｎ×１０２４次元の局所特徴ベクトルに対してmax poolingを行って、１×１０２４次元の全体特徴ベクトルを求め、全体特徴ベクトルをニューラルネットワークに適用して点群データの分類を行う。ここで用いるニューラルネットワークは、３層からなる多層パーセプトロンであり、各層の入出力の次元数は、それぞれ、１０２４次元と５１２次元、５１２次元と２５６次元、２５６次元と４０次元である。全体特徴ベクトルをこのニューラルネットワークに適用することにより、４０個のクラスのそれぞれに対するスコアが求められる。スコアの最も高かったクラスが、点群データに含まれるオブジェクトのクラスであると特定される。

【0032】

次に、図３に示すアーキテクチャの学習について説明する。ガウシアンカーネルφ_kの平均ベクトルμ_kと逆分散行列Σ_kが学習によって更新されるパラメータであることを説明した。ガウシアンカーネルφ_kのパラメータに加え、全体特徴ベクトルを適用するニューラルネットワークの重み付けのパラメータも学習対象である。本実施の形態では、ガウシアンカーネルのパラメータとニューラルネットワークのパラメータをエンドツーエンド学習（End-to-End training）によって学習する。すなわち、点群データとその点群データの正解のクラスとを教師データとし、点群データを入力したときに求められる各クラスのスコアと正解のクラスのスコアとの差分に基づいて、誤差逆伝播法によって各パラメータの学習を行う。

【0033】

本実施の形態では、誤差逆伝播法によるエンドツーエンド学習ができるように、ガウシアンカーネルの逆分散行列Σ_kの半正定値性を保証する。具体的には、逆分散行列Σ_kをコレスキー分解する。ここで、Ｌは、三角行列である。

【数2】

【0034】

本実施の形態では、逆分散行列Σ_kの学習は、三角行列Ｌを学習することによって行う。本実施の形態では、逆分散行列Σ_kをコレスキー分解することにより、ガウシアンカーネルの逆分散行列Σ_kで取り扱うべきパラメータ数は、Ｍ^２からＭ（Ｍ＋１）／２になり、ガウシアンカーネルのパラメータ数は、Ｋ（Ｍ（Ｍ＋１）／２＋Ｍ）となる。なお、判正定値性を保証するために逆分散行列Σ_kをコレスキー分解するのは、以下に説明する実施の形態でも同じである。

【0035】

以上、第１の実施の形態の情報処理装置について説明した。第１の実施の形態の情報処理装置では、点群データの高次元写像化にガウシアンカーネルを用いたが、ガウシアンカーネルに代えて、次式に示す混合ガウシアンカーネルを用いてもよい。次式において、α_kは、複数のガウシアンカーネルのそれぞれに乗じる混合係数であり、学習対象のパラメータである。なお、本実施の形態では、α_kの総和は１とする。Ｌは、混合するガウシアンカーネルの個数であり、ハイパーパラメータである。

【数3】

【0036】

このように混合ガウシアンカーネルを用いることにより、ガウシアンカーネルを用いた場合よりも高次元写像によって生成する局所特徴ベクトルの表現力を高めることができる。

【0037】

（第２の実施の形態）
図４は、第２の実施の形態の情報処理装置のアーキテクチャを示す図である。第２の実施の形態の情報処理装置は、（ｘ，ｙ，ｚ）の座標値を有する点群データ（すなわち、Ｎ×３次元の点群データ）の入力を受け付け、入力された点群データのパーツセグメンテーションを行う。本実施の形態では、５０のパーツに関連付けられた１６のカテゴリにセグメンテーションする。パーツセグメンテーションは、点群データのＮ個の各点を５０のパーツのいずれかに分類することにより行う。

【0038】

第２の実施の形態の情報処理装置は、Ｎ×３の点群データに加えて、Ｎ×１６のカテゴリラベルの入力を受け付ける。入力するカテゴリラベルは、Ｎ×３の点群データに対して、別途、カテゴリ分類用のモデルを使って推論をした結果を用いる。

【0039】

第２の実施の形態の情報処理装置は、入力されたＮ×３次元の点群データを２０４８個のガウシアンカーネルφ_k（ｋ＝１，・・・，２０４８）を用いて高次元写像し、Ｎ×２０４８次元の局所特徴ベクトルを得る。続いて、Ｎ×２０４８次元の局所特徴ベクトルに対してmax poolingを行って、１×２０４８次元の全体特徴ベクトルを求める。

【0040】

また、第２の実施の形態の情報処理装置は、８３２個の第２のガウシアンカーネルφ_k´（ｋ´＝１，・・・，８３２）を用いて入力された点群データを高次元写像し、Ｎ×８３２次元の局所特徴ベクトルを得る。

【0041】

情報処理装置は、入力されたＮ×１６次元のカテゴリのラベルと、上記で求めた２つの局所特徴ベクトルとを連結し、さらに、全体特徴ベクトルをＮ回繰り返し連結することにより、Ｎ×４９４４次元の連結特徴ベクトルを生成する。情報処理装置は、生成した連結特徴ベクトルをニューラルネットワークに適用して点群データのセグメンテーションを行う。ここで用いるニューラルネットワークは、４層からなる多層パーセプトロンであり、各層の入出力の次元数はそれぞれ、４９４４次元と２５６次元、２５６次元と２５６次元、２５６次元と１２８次元、１２８次元と５０次元である。このニューラルネットワークに連結特徴ベクトルを適用することにより、点群データの各点ｘ_nについて、５０個のパーツのそれぞれに対するスコアが求められる。各点ｘ_nは、スコアの最も高かったパーツに分類される。情報処理装置は、各点のパーツの情報に基づいてクラスタリングを行うことで、点群データをパーツに分類する。

【0042】

第２の実施の形態の情報処理装置において、学習対象のパラメータは、ガウシアンカーネルφ_k及び第２のガウシアンカーネルφ_k´のパラメータと、連結特徴ベクトルを適用するニューラルネットワークの重み付けのパラメータである。第２の実施の形態では、これらのパラメータをエンドツーエンド学習（End-to-End training）によって学習する。すなわち、点群データとその点群データの正解のクラスとを教師データとし、点群データを入力したときに求められる各パーツのスコアと正解のパーツのスコアとの差分に基づいて、誤差逆伝播法によって各パラメータの学習を行う。

【0043】

（第３の実施の形態）
図５は、第３の実施の形態の情報処理装置のアーキテクチャを示す図である。第３の実施の形態の情報処理装置は、（ｘ，ｙ，ｚ）の座標値を有する点群データ（すなわち、Ｎ×３次元の点群データ）の入力を受け付け、入力された点群データのパーツセグメンテーションを行う。本実施の形態では、５０のパーツに関連付けられた１６のカテゴリにセグメンテーションする。パーツセグメンテーションは、Ｎ個の各点を５０のパーツのいずれかに分類することにより行う。最初に概要を述べると、第３の実施の形態の情報処理装置は、第２の実施の形態の情報処理装置において用いられていた第２のガウシアンカーネルに代えて、点群データの３次元畳込みを行って局所特徴ベクトルを求める。

【0044】

第３の実施の形態の情報処理装置のアーキテクチャは、Ｎ×３の点群データに加えて、Ｎ×１６のカテゴリラベルの入力を受け付ける。入力するカテゴリラベルは、Ｎ×３の点群データに対して、別途、カテゴリ分類用のモデルを使って推論をした結果を用いる。

【0045】

第３の実施の形態の情報処理装置は、５１２個のガウシアンカーネルφ_k（ｋ＝１，・・・，５１２）を用いて入力されたＮ×３次元の点群データを高次元写像し、Ｎ×５１２次元の局所特徴ベクトルを得る。続いて、Ｎ×５１２次元の局所特徴ベクトルに対してmax poolingを行って、１×５１２次元の全体特徴ベクトルを求める。

【0046】

また、第３の実施の形態の情報処理装置は、入力された点群データをボクセル化する。具体的には、点群データを（３２×３２×３２）×３次元のボクセルデータに変換する。（３２×３２×３２）次元はボクセルの位置であり、３次元はボクセル内に存在する点群データの特徴ベクトル、すなわち、ボクセル内に存在する点群データのｘｙｚ座標値のそれぞれの平均値である。次に、情報処理装置は、このボクセルデータに対して畳み込み演算を行い、３２×３２×３２×１６次元の局所特徴ベクトル、１６×１６×１６×３２次元の局所特徴ベクトル、１６×１６×１６×３２次元の局所特徴ベクトル、１６×１６×１６×１２８次元の局所特徴ベクトルを得る。続いて、得られた局所特徴ベクトルを逆ボクセル化して、元の座標系における位置情報を回復した局所特徴ベクトルを得る。

【0047】

情報処理装置は、入力されたＮ×１６次元のカテゴリのラベルと、ガウシアンカーネルを用いて求めた局所特徴ベクトルを連結し、さらに、全体特徴ベクトルをＮ回繰り返し連結する。さらに、情報処理装置は、３次元畳込みと逆ボクセル化によって求めた局所特徴ベクトルを連結し、Ｎ×１２４８次元の連結特徴ベクトルを生成する。

【0048】

情報処理装置は、生成した連結特徴ベクトルをニューラルネットワークに適用して点群データのセグメンテーションを行う。ここで用いるニューラルネットワークは、４層からなる多層パーセプトロンであり、各層の入出力の次元数は、それぞれ、１２４８次元と６４次元、６４次元と６４次元、６４次元と３２次元、３２次元と５０次元である。このニューラルネットワークに連結特徴ベクトルを適用することにより、点群データの各点ｘ_nについて、５０個のパーツのそれぞれに対するスコアが求められる。各点ｘ_nは、スコアの最も高かったパーツに分類される。情報処理装置は、各点のパーツの情報に基づいてクラスタリングを行うことで、点群データをパーツに分類する。

【0049】

第３の実施の形態の情報処理装置において、学習対象のパラメータは、ガウシアンカーネルφ_kのパラメータと、連結特徴ベクトルを適用するニューラルネットワークの重み付けのパラメータと、ボクセル化した点群データに対して３次元畳込みを行うニューラルネットワークのパラメータである。第３の実施の形態では、これらのパラメータをエンドツーエンド学習（End-to-End training）によって学習する。すなわち、点群データとその点群データの正解のクラスとを教師データとし、点群データを入力したときに求められる各パーツのスコアと正解のパーツのスコアとの差分に基づいて、誤差逆伝播法によって各パラメータの学習を行う。

【0050】

（第４の実施の形態）
図６は、第４の実施の形態の情報処理装置のアーキテクチャを示す図である。第４の実施の形態の情報処理装置は、入力された点群データのセマンティックセグメンテーションを行う装置である。本実施の形態では、点群データを１３のカテゴリ（椅子、テーブル、床、壁等、およびノイズ）にセグメンテーションする。セマンティックセグメンテーションは、点群データのＮ個の各点をカテゴリに分類することにより行う。

【0051】

情報処理装置は、点群データの入力を受け付ける。本実施の形態において、情報処理装置に入力される点群データは、９次元のデータを有する。具体的には、各点の（ｘ，ｙ，ｚ）座標とＲＧＢの情報に加え、所定の領域において正規化された座標系における位置のデータを有している。この点群データのパラメータは、非特許文献１において、セマンティックセグメンテーションの実験で用いている点群データのパラメータと同じである。

【0052】

第４の実施の形態の情報処理装置は、入力されたＮ×９次元の点群データを１０２４個のガウシアンカーネルφ_k（ｋ＝１，・・・，１０２４）を用いて高次元写像し、Ｎ×１０２４次元の局所特徴ベクトルを得る。続いて、Ｎ×１０２４次元の局所特徴ベクトルに対してmax poolingを行って、１×１０２４次元の全体特徴ベクトルを求める。情報処理装置は、全体特徴ベクトルをニューラルネットワークに適用して低次元化する。ここで用いるニューラルネットワークは、２層からなる多層パーセプトロンであり、各層の入出力の次元数は、それぞれ、１２４８次元と２５６次元、２５６次元と１２８次元である。

【0053】

情報処理装置は、局所特徴ベクトルに対して、低次元化された全体特徴ベクトルを繰り返し連結して、Ｎ×１１５２次元の連結特徴ベクトルを生成し、連結特徴ベクトルをニューラルネットワークに適用して点群データのセグメンテーションを行う。ここで用いるニューラルネットワークは、３層からなる多層パーセプトロンであり、各層の入出力の次元数は、それぞれ、１１５２次元と５１２次元、５１２次元と２５６次元、２５６次元と１３次元である。このニューラルネットワークに連結特徴ベクトルを適用することにより、点群データの各点ｘ_nについて、１３カテゴリのそれぞれに対するスコアが求められる。各点ｘ_nは、スコアの最も高かったカテゴリに分類される。

【0054】

第４の実施の形態の情報処理装置において、学習対象のパラメータは、ガウシアンカーネルφ_kのパラメータと全体特徴ベクトルを適用するニューラルネットワークと連結特徴ベクトルを適用するニューラルネットワークの重み付けのパラメータである。第４の実施の形態では、これらのパラメータをエンドツーエンド学習（End-to-End training）によって学習する。すなわち、点群データとその点群データの正解のクラスとを教師データとし、点群データを入力したときに求められる各カテゴリのスコアと正解のカテゴリのスコアとの差分に基づいて、誤差逆伝播法によって各パラメータの学習を行う。

【0055】

本実施の形態では、Ｎ×９次元の点群データを入力する例について説明したが、入力される点群データは、第１～第３の実施の形態と同様に、Ｎ×３次元のデータであってもよいし、また、（ｘ，ｙ，ｚ）座標値に加えて、ＲＧＢのデータを有するＮ×６次元のデータでもよい。これらの点群データに対しても、ここで説明したのと同様に、セマンティックセグメンテーションを行える。

【0056】

（第５の実施の形態）
図７は、第５の実施の形態の情報処理装置のアーキテクチャを示す図である。第５の実施の形態の情報処理装置は、入力された点群データのセマンティックセグメンテーションを行う装置である。本実施の形態では、点群データを１３のカテゴリ（椅子、テーブル、床、壁等、およびノイズ）にセグメンテーションする。セマンティックセグメンテーションは、点群データのＮ個の各点をカテゴリに分類することにより行う。入力される点群データは、第４の実施の形態の情報処理装置の場合と同じである。

【0057】

第５の実施の形態の情報処理装置は、入力されたＮ×３次元の点群データを１２８個のガウシアンカーネルφ_k（ｋ＝１，・・・，１２８）を用いて高次元写像し、Ｎ×１２８次元の局所特徴ベクトルを得る。続いて、Ｎ×１２８次元の局所特徴ベクトルに対してmax poolingを行って、１×１２８次元の全体特徴ベクトルを求める。全体特徴ベクトルをニューラルネットワークに適用し、低次元化する。ここで、用いるニューラルネットワークは、３層からなる多層パーセプトロンであり、各層の入出力の次元数は、それぞれ、１２８次元と３２次元、３２次元と１６次元である。

【0058】

また、第５の実施の形態の情報処理装置は、入力された点群データをボクセル化する。具体的には、情報処理装置は、点群データを３２×３２×３２×３次元のボクセルデータに変換する。次に、このボクセルデータに対して３次元畳込み演算を行い、３２×３２×３２×８次元の局所特徴ベクトル、１６×１６×１６×８次元の局所特徴ベクトル、１６×１６×１６×８次元の局所特徴ベクトル、１６×１６×１６×１６次元の局所特徴ベクトルを得る。続いて、得られた局所特徴ベクトルを逆ボクセル化して、元の座標系における位置情報を回復したＮ個の局所特徴ベクトルを得る。

【0059】

情報処理装置は、局所特徴ベクトルに、低次元化した全体特徴ベクトルを繰り返し連結し、さらに、３次元畳込み及び逆ボクセル化によって求めた局所特徴ベクトルを連結して、Ｎ×１８４次元の連結特徴ベクトルを生成する。情報処理装置は、連結特徴ベクトルをニューラルネットワークに適用して点群データのセグメンテーションを行う。ここで用いるニューラルネットワークは、３層からなる多層パーセプトロンであり、各層の入出力の次元数は、それぞれ、１８４次元と６４次元、６４次元と３２次元、３２次元と１３次元である。このニューラルネットワークに連結特徴ベクトルを適用することにより、点群データの各点ｘ_nについて、１３カテゴリのそれぞれに対するスコアが求められる。情報処理装置は、各点ｘ_nを、スコアの最も高かったカテゴリに分類される。

【0060】

第５の実施の形態の情報処理装置において、学習対象のパラメータは、ガウシアンカーネルφ_kのパラメータと、全体特徴ベクトルと低次元化するニューラルネットワークの重み付けのパラメータと、ボクセル化した点群データに対して３次元畳込みを行うニューラルネットワークのパラメータと、連結特徴ベクトルを適用するニューラルネットワークの重み付けのパラメータである。第５の実施の形態では、これらのパラメータをエンドツーエンド学習（End-to-End training）によって学習する。すなわち、点群データとその点群データの正解のクラスとを教師データとし、点群データを入力したときに求められる各カテゴリのスコアと正解のカテゴリのスコアとの差分に基づいて、誤差逆伝播法によって各パラメータの学習を行う。

【0061】

【実施例】

【0062】

以下、本実施の形態の情報処理装置による点群データの分析処理結果と、従来法を比較する。ここで比較の対象とする従来法は、以下の３つである。なお、LUTI-MLPとPVCNNは、PointNetの高速化手法である。
・PointNet
・LUTI-MLP（Sekikawa, Y., & Suzuki, T. (2019). 「Tabulated MLP for Fast Point Feature Embedding.」arXiv preprint arXiv:1912.00790.）
・PVCNN（Liu, Z., Tang, H., Lin, Y., & Han, S. (2019). 「Point-Voxel CNN for effcient 3D deep learning. In Advances in Neural Information Processing Systems」(pp. 963-973).）

【0063】

実施例では、３次元畳込みを行う方法（第３及び第５の実施の形態）を除き、ガウシアンカーネルの平均パラメータを固定した。また、比較例と公正に比較するために、分類処理（第１の実施の形態）の実施例の場合には、TNetを用いた。

【0064】

［１］分類処理
ModelNet40を用いて分類処理の評価を行った。ModelNet40は、４０のカテゴリを有する１２３１１個のＣＡＤモデルを有する。ModelNet40のデータを、９８４３個のトレーニングデータ、２４６８個のテストデータに分けた。テストデータを用いて、第１の実施の形態の方法（表１において「GPointNet」と記載）と従来法とを比較した結果を表１に示す。表１は、ModelNet40での分類処理の精度（Accuracy）を示す。

【表1】

【0065】

なお、表中の「Input TNet」「Feature TNet」は、点群データの向きによって分析結果が変わらないようにするためのネットワークであり、入力された点群データに対して処理を行うのがInput TNet、局所特徴ベクトルに対して処理を行うのがFeature TNetである。分類問題を処理する際に、これらのネットワークによる処理を行った場合には、「レ」を付している。

【0066】

［パーツセグメンテーション］
ShapeNetを使ってパーツセグメンテーションの評価を行った。ShapeNetは、５０のパーツに関連付けられた１６のカテゴリを有する１６８８１個の形状を有する。ShapeNetのデータを、１２１３７個のトレーニングデータ、１８７０個のテストデータ、２８７４の検証データに分けた。テストデータを用いて、第２の実施の形態の方法（表２において「GPNG」と記載）および第３の実施の形態の方法（表２において「GPNC」と記載）と、従来法とを比較した結果を表２に示す。表２は、パーツセグメンテーションのmean IoUの比較結果を示す。なお、表２において、「PN」はPointNet、「LT」はLUTI-MLP、「PV」はPVCNNを示す。

【表2】

【0067】

［セマンティックセグメンテーション］
Standard 3D semantic parsing dataset（以下、「S3DIS」という）を使ってセマンティックセグメンテーションの評価を行った。S3DISは、２７１部屋を含む６領域の高精細３Ｄカメラ（米Matterport社製）でスキャンした３Ｄデータを含む。ここで、入力データの次元Ｍは、第４の実施の形態で説明した９次元に設定されている。なお、LUTI-MLPは非常に複雑なため、ここでは比較実験を行っていない。
次の表３は、Standard 3D semantic parsing datasetでのセマンティックセグメンテーションの精度とmean IoUの比較結果を示す図である。以下の表において、「GPN w/Gaussian」は、第４の実施の形態の方法を示し、「GPN w/Conv」は、第５の実施の形態の方法を示す。

【表3】

【0068】

以上の結果から、本実施の形態の情報処理装置は、従来法と遜色のない性能を有することが確認できた。

【0069】

［パラメータ数とFLOPs］
実施の形態に係るGPointNetの実装の複雑さとPointNet、LUTI-MLPの複雑さとを比較した。表４は、様々な実装モデルのパラメータ（#param）とサンプルごとのFLOPs（Floating-point operations per second）を示す。FLOPsは、Hunger, R. (2005). 「Floating point operations in matrix-vector calculus.」Munich: Munich University of Technology, Inst. for Circuit Theory and Signal Processing.に従って行った。

【0070】

PointNetについては、ModelNet40のモデルで計算した。表４において、Ｍは点群データの次元数、Ｋはガウシアンカーネルの次元数、Ｎは点群データのデータ数である。Ｄは、LUTI-MLPの離散化パラメータ、Ｅは、FLOPs／サンプルのexp(・)関数を示す。なお、PointNetのFLOPs／サンプルは、バッチノーマライゼーションとReLU活性化のFLOPs／サンプルを無視している。これらは、MLPのFLOPs／サンプルよりもずっと少ないからである。表４において、PointNetにおける定数は、入出力に関係しない中間レイヤのパラメータ数に相当する。

【表4】

【0071】

表５は、実験における様々な実装モデルと共通の分類器のためのパラメータ（#param）とサンプルごとのFLOPsを示す。表５において、Ｋは千を示し、Ｍは百万を示す。なお、GPointNetのFLOPs／サンプルは、実装に依存するため、exp(・)のFLOPsを無視している。比較例として、exp(・)がテーブルルックアップと４次のテイラー近似によって計算したときのFLOPs／サンプルを括弧内に示す。

【表5】

【0072】

表６は、本実施の形態の情報処理装置のFLOPs／サンプルの削減率を示す。上段は、PointNetからの削減率を示し、下段は、PVCNNからの削減率を示す。「Embedding」は全体特徴ベクトル算出部までのFLOPs／サンプルを示し、「Entire」は全体特徴ベクトルとニューラルネットワークの全体のFLOPs／サンプルを示す。LUTI-MLP、GPointNetおよびGPN w/Gaussianは、それぞれPointNetからの削減率を示している。また、GPN w/ConvはPVCNNからの削減率を示している。括弧内の割合は、表５における括弧内と同じexp(・)計算による。

【表6】

【0073】

表４に見られるように、LUTI-MLPのパラメータ数とFLOPs／サンプルは、離散化パラメータと入力の次元数に関して、指数関数のオーダーで増加する。これに対し、実施の形態に係るGPointNetでは、入力の次元数に関して二乗オーダーで増加するにとどまる。それゆえ、LUTI-MLPの複雑さは入力次元数に拠って爆発的に増えるのに対し、実施の形態の情報処理装置は、入力の次元数に対してロバストである。

【0074】

実際、セマンティックセグメンテーションモデル（Ｍ＝９，Ｋ＝１０２４，Ｄ＝８，Ｎ＝４０９６とする）を考えると、LUTI-MLPでは、表５に示すように、パラメータ数は1.4E+11、FLOPs／サンプルは2.1E+10である。この複雑さは、PointNetの複雑さよりも非常に大きい。一方で、実施の形態に係るGPointNetでは、パラメータ数は5.5E+04、FLOPs／サンプルは、>7.5E+07である。GPointNetは、規模の点で、LUTI-MLPよりも有利である。

【0075】

表６に示すように、GPN w/Gaussianは、LUTI-MLPより少ないパラメータで、LUTI-MLPに匹敵するスピードを達成している。さらに、セマンティックセグメンテーションのためのLUTI-MLPのFLOPs／サンプルおよびパラメータは、爆発的に増加するが、GPN w/Gaussianは、PointNetよりもFLOPs／サンプルとパラメータ数を抑えることができる。

【0076】

以上の結果から、本実施の形態の情報処理装置は、パラメータ数およびFLOPsを大幅に削減できることが確認できた。

【産業上の利用可能性】

【0077】

本発明は、点群データの分析を行う技術として有用である。

【符号の説明】

【0078】

１・・・情報処理装置、１０・・・入力部、１１・・・演算処理部、１２・・・記憶部、１３・・・出力部。

【図1】