IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許7391784情報処理装置、情報処理方法およびプログラム
<>
  • 特許-情報処理装置、情報処理方法およびプログラム 図1
  • 特許-情報処理装置、情報処理方法およびプログラム 図2
  • 特許-情報処理装置、情報処理方法およびプログラム 図3
  • 特許-情報処理装置、情報処理方法およびプログラム 図4
  • 特許-情報処理装置、情報処理方法およびプログラム 図5
  • 特許-情報処理装置、情報処理方法およびプログラム 図6
  • 特許-情報処理装置、情報処理方法およびプログラム 図7
  • 特許-情報処理装置、情報処理方法およびプログラム 図8
  • 特許-情報処理装置、情報処理方法およびプログラム 図9
  • 特許-情報処理装置、情報処理方法およびプログラム 図10
  • 特許-情報処理装置、情報処理方法およびプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-27
(45)【発行日】2023-12-05
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231128BHJP
   G06N 20/00 20190101ALI20231128BHJP
【FI】
G06T7/00 350C
G06N20/00 130
【請求項の数】 16
(21)【出願番号】P 2020116609
(22)【出願日】2020-07-06
(65)【公開番号】P2022014334
(43)【公開日】2022-01-19
【審査請求日】2022-08-24
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】櫻井 俊輔
(72)【発明者】
【氏名】中島 諒
(72)【発明者】
【氏名】関 晃仁
【審査官】小池 正彦
(56)【参考文献】
【文献】米国特許出願公開第2019/0244107(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
第1のドメインに属する第1の入力データと、第1のドメインとは異なる第2のドメインに属する第2の入力データと、を含む入力データを受け付ける受付部と、
前記入力データに基づくデータを第1のモデルに入力し、前記第1のモデルによる第1のタスクの実行結果を示す第1の出力データを得る第1のタスク実行部と、
前記入力データに基づくデータを第2のモデルに入力し、前記第2のモデルによる第2のタスクの実行結果を示す第2の出力データを得る第2のタスク実行部と、
前記第1の出力データを、前記第2のタスクの実行結果の形式で表される第1の変換データに変換する第1の変換部と、
前記第1の変換データと前記第2の出力データとに基づいて、前記第1の入力データに対する前記第2のモデルの教師データを生成する生成部と、
を備える情報処理装置。
【請求項2】
前記第1の入力データと前記教師データとを用いて、前記第2のモデルを学習する学習部をさらに備える、
請求項1に記載の情報処理装置。
【請求項3】
前記入力データの特徴を示す特徴データを算出する算出部をさらに備え、
前記第1のタスク実行部は、前記特徴データを前記第1のモデルに入力して前記第1の出力データを得る、
請求項1に記載の情報処理装置。
【請求項4】
前記入力データの特徴を示す特徴データを算出する算出部をさらに備え、
前記第2のタスク実行部は、前記特徴データを前記第2のモデルに入力して前記第2の出力データを得る、
請求項1に記載の情報処理装置。
【請求項5】
前記第2のモデルの教師データと、前記第1の変換データと、の差分に応じて定められる損失関数を用いて、前記第1の変換部が変換に用いる第1の変換モデルを学習する学習部をさらに備える、
請求項1に記載の情報処理装置。
【請求項6】
前記第1の変換データを、前記第1のタスクの実行結果の形式で表される第1の再変換データに変換する第1の再変換部をさらに備え、
前記学習部は、前記第1のモデルの教師データおよび前記第1の出力データの少なくとも一方と、前記第1の再変換データと、の差分に応じて定められる損失関数を用いて、前記第1の再変換部が変換に用いるモデルであって、前記第1の変換モデルと共通のパラメータを有する第1の再変換モデルを学習する、
請求項5に記載の情報処理装置。
【請求項7】
前記第2の出力データを、前記第1のタスクの実行結果の形式で表される第2の変換データに変換する第2の変換部をさらに備え、
前記学習部は、前記第1のモデルの教師データと、前記第2の変換データと、の差分に応じて定められる損失関数を用いて、前記第2の変換部が変換に用いる第2の変換モデルを学習する、
請求項5に記載の情報処理装置。
【請求項8】
前記第2の変換データを、前記第2のタスクの実行結果の形式で表される第2の再変換データに変換する第2の再変換部をさらに備え、
前記学習部は、前記第2のモデルの教師データおよび前記第2の出力データの少なくとも一方と、前記第2の再変換データと、の差分に応じて定められる損失関数を用いて、前記第2の再変換部が変換に用いるモデルであって、前記第2の変換モデルと共通のパラメータを有する第2の再変換モデルを学習する、
請求項7に記載の情報処理装置。
【請求項9】
前記第1の入力データは、前記第1のモデルの教師データを含み、前記第2のモデルの教師データを含まない、
請求項1に記載の情報処理装置。
【請求項10】
前記第2のタスクの実行結果は、複数の要素を含み、
前記生成部は、前記第1の変換データおよび前記第2の出力データの両方で信頼度が他の要素より大きい1以上の要素を含む前記教師データを生成する、
請求項1に記載の情報処理装置。
【請求項11】
前記第1の入力データに対して出力される前記第1の出力データと、前記第1のタスクの教師データと、の差分に応じて定められる損失関数を用いて前記第1のモデルを学習し、
前記第2の入力データに対して出力される前記第2の出力データと前記第2のタスクの教師データとの差分に応じて定められる損失関数、および、前記第1の入力データに対して出力される前記第2の出力データと前記教師データとの差分に応じて定められる損失関数を用いて前記第2のモデルを学習する、
学習部をさらに備える、
請求項1に記載の情報処理装置。
【請求項12】
前記第1のタスクおよび前記第2のタスクは、奥行き推定、セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーション、物体検出、オートエンコーダ、超解像、エッジ検出、顕著性マップの生成、および、法線推定のうちいずれか2つのタスクである、
請求項1に記載の情報処理装置。
【請求項13】
前記第1のモデルおよび前記第2のモデルの少なくとも一方は、ニューラルネットワークである、
請求項1に記載の情報処理装置。
【請求項14】
前記第1のタスクおよび前記第2のタスクは、3以上のタスクから選択される2つのタスクをそれぞれ含む2以上の組みに含まれる2つのタスクである、
請求項1に記載の情報処理装置。
【請求項15】
第1のドメインに属する第1の入力データと、第1のドメインとは異なる第2のドメインに属する第2の入力データと、を含む入力データを受け付ける受付ステップと、
前記入力データに基づくデータを第1のモデルに入力し、前記第1のモデルによる第1のタスクの実行結果を示す第1の出力データを得る第1のタスク実行ステップと、
前記入力データに基づくデータを第2のモデルに入力し、前記第2のモデルによる第2のタスクの実行結果を示す第2の出力データを得る第2のタスク実行ステップと、
前記第1の出力データを、前記第2のタスクの実行結果の形式で表される第1の変換データに変換する第1の変換ステップと、
前記第1の変換データと前記第2の出力データとに基づいて、前記第1の入力データに対する前記第2のモデルの教師データを生成する生成ステップと、
を含む情報処理方法。
【請求項16】
コンピュータに、
第1のドメインに属する第1の入力データと、第1のドメインとは異なる第2のドメインに属する第2の入力データと、を含む入力データを受け付ける受付ステップと、
前記入力データに基づくデータを第1のモデルに入力し、前記第1のモデルによる第1のタスクの実行結果を示す第1の出力データを得る第1のタスク実行ステップと、
前記入力データに基づくデータを第2のモデルに入力し、前記第2のモデルによる第2のタスクの実行結果を示す第2の出力データを得る第2のタスク実行ステップと、
前記第1の出力データを、前記第2のタスクの実行結果の形式で表される第1の変換データに変換する第1の変換ステップと、
前記第1の変換データと前記第2の出力データとに基づいて、前記第1の入力データに対する前記第2のモデルの教師データを生成する生成ステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。
【背景技術】
【0002】
異なる2つ以上のタスクの実行結果を出力する機能を備えたマルチタスク実行装置がある。例えば、奥行き推定の結果と、セマンティックセグメンテーション(領域分割)の結果とを同時に出力するマルチタスク実行装置がある。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2019―207491号公報
【非特許文献】
【0004】
【文献】I.Laina, et al., Deeper depth prediction with fully convolutional residual networks. 3DV 2016
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、教師データが欠損しているタスクについて、タスクに用いられるモデルの学習が不十分となり、タスクの精度が低下する問題があった。例えば教師データが欠損しているタスクが存在する場合には、いずれかのタスクの教師データがそれぞれ含まれる複数のデータセット(複数のドメイン)を用いて学習する必要があった。このため、データセット間のドメインの違いが原因により、目的のドメインに対する精度が低下する場合があった。
【課題を解決するための手段】
【0006】
実施形態の情報処理装置は、受付部と、第1のタスク実行部と、第2のタスク実行部と、第1の変換部と、生成部と、を備える。受付部は、第1の入力データと、第2の入力データと、を含む入力データを受け付ける。第1のタスク実行部は、入力データに基づくデータを第1のモデルに入力し、第1のタスクの実行結果を示す第1の出力データを得る。第2のタスク実行部は、入力データに基づくデータを第2のモデルに入力し、第2のタスクの実行結果を示す第2の出力データを得る。第1の変換部は、第1の出力データを、第2のタスクの実行結果の形式で表される第1の変換データに変換する。生成部は、第1の変換データと第2の出力データとに基づいて、第1の入力データに対する第2のモデルの教師データを生成する。
【図面の簡単な説明】
【0007】
図1】第1の実施形態にかかる情報処理装置のブロック図。
図2】変換処理部の機能ブロック図。
図3】変換処理部の動作例を示す図。
図4】第1の実施形態における学習処理のフローチャート。
図5】第1の実施形態における推論処理のフローチャート。
図6】推論処理で得られる出力データの一例を示す図。
図7】第2の実施形態にかかる情報処理装置のブロック図。
図8】変換処理部の機能ブロック図。
図9】第2の実施形態における学習処理のフローチャート。
図10】第2の実施形態における推論処理のフローチャート。
図11】第1または第2の実施形態にかかる情報処理装置のハードウェア構成図。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。
【0009】
(第1の実施形態)
第1の実施形態の情報処理装置は、出力空間では入力空間におけるドメイン間の差異が一部減少することを利用して教師データが存在しないドメインの疑似教師データを生成し、学習に利用する。入力空間とは、タスクの入力データが取り得る空間である。出力空間とは、タスクの出力データが取り得る空間である。本実施形態の情報処理装置は、各タスクの実行結果(推定結果)に基づいて、タスク間の変換を行い、変換した実行結果から疑似教師データを生成してタスクに用いられるモデル(ニューラルネットワークなど)のパラメータを更新する。これにより教師データの存在しないドメインにおいてもタスクのモデルを学習することが可能となる。この結果、タスクの推定の精度を向上させることができる。
【0010】
第1の実施形態では、奥行き推定と領域分割(セマンティックセグメンテーション)との2つのタスクを実行するマルチタスク実行装置である情報処理装置の例を説明する。奥行き推定は、入力画像から奥行き推定画像を推定するタスクである。
【0011】
奥行き推定画像は、入力画像を撮像したカメラ(撮像装置)と各画素に映る物体との実世界における距離を、その画素の画素値とする画像である。奥行き推定画像の画素値は、実際の距離のみならず、視差として距離の逆数であってもよい。
【0012】
領域分割は、入力画像から領域分割画像を推定するタスクである。領域分割画像は、物体の種類を示す複数のクラスのうち、いずれのクラスに属するかの確率を各画素の画素値として含む画像である。
【0013】
以下では、奥行き推定画像を変換した領域分割画像を用いて、領域分割のモデルの学習に用いる疑似教師データを生成する例を主に説明する。逆に、領域分割画像を変換した奥行き推定画像を用いて、奥行き推定のモデルの学習に用いる疑似教師データを生成する場合にも同様の手順を適用できる。また、これらの両者を実行し、領域分割のモデルの学習に用いる疑似教師データ、および、奥行き推定のモデルの学習に用いる疑似教師データの両方を生成するように構成してもよい。
【0014】
タスクはこれらに限られるものではなく、どのようなタスクの組み合わせであってもよい。例えばタスクは、奥行き推定、セマンティックセグメンテーション(領域分割)、インスタンスセグメンテーション、パノプティックセグメンテーション、物体検出、オートエンコーダ、超解像、エッジ検出、顕著性マップの生成、および、法線推定などのいずれであってもよい。
【0015】
また以下ではタスクそれぞれが、対応するニューラルネットワークを用いて実行される例を説明する。タスクを実行するモデルはニューラルネットワークに限られず、他の機械学習モデルを用いてもよい。
【0016】
図1は、第1の実施形態にかかる情報処理装置100の構成の一例を示すブロック図である。図1に示すように、情報処理装置100は、受付部101と、算出部102と、奥行き推定部103a(第1のタスク実行部の一例)と、領域分割部103b(第2のタスク実行部の一例)と、変換処理部110と、生成部104と、学習部105と、を備えている。
【0017】
受付部101は、情報処理装置100で用いられる各種データの入力を受け付ける。受付部101によるデータの受け付け方法はどのような方法であってもよい。例えば、インターネットなどのネットワークを介してデータを受信する方法、および、データを記憶した記憶媒体からデータを読み出す方法などを適用できる。
【0018】
例えば受付部101は、あるドメインA(第1のドメインの一例)に属する入力データ(第1の入力データの一例)と、ドメインAとは異なるドメインB(第2のドメインの一例)に属する入力データ(第2の入力データの一例)と、を含む入力データを受け付ける。ドメインAに属する入力データは、例えば、奥行き推定に用いられるニューラルネットワーク(第1のモデルの一例)の教師データを含むが、領域分割に用いられるニューラルネットワーク(第2のモデルの一例)の教師データは含んでもよいし、含まなくてもよい。
【0019】
ドメインとは、例えば画像であれば、以下のような画像の特性の集合を示す。
・撮像時の明度、季節、および、地域などの条件
・画像内に存在する物体のテクスチャおよび色
・カメラによって撮像された画像であるか、コンピュータグラフィックス(CG)によって生成された画像であるか
【0020】
複数の画像が異なるドメインに属するとは、このような特性のうち、共通しない特性が少なくとも1つ存在することを示す。
【0021】
奥行き推定および領域分割では、入力データとして画像が受け付けられる。以下では、画像の入力データを入力画像という。また受付部101が受け付けた入力画像のうちドメインAに属する入力画像111aといい、ドメインBに属する入力画像111bという。入力画像111aは奥行き推定に対応する真値である教師データ112aを有し、入力画像111bは領域分割に対応する真値である教師データ112bを有する。これらの教師データは、対応するタスクのモデルの学習時に用いられる。
【0022】
受付部101は、各入力画像に対して、学習または推論に対して適切となるデータ処理を行ってもよい。適切となるデータ処理とは、例えば画像の縮小、回転、反転、および、色調変化などの処理である。受付部101は、学習に用いる画像の多様性を増やすために、受け付けた入力画像から疑似的な入力画像を生成するデータ処理を行ってもよい。例えば受付部101は、受け付けた入力画像を左右反転させたうえで各画素の各チャネルの値を疑似乱数で生成した倍率によって変動させるなどの処理を行い、新たな入力画像を生成する。
【0023】
入力データは画像である必要はないため、入力データの形式に応じて上記以外の処理がデータ処理として用いられてもよい。受付部101によって処理された入力画像は、画像内の特徴を算出するために算出部102へ入力される。
【0024】
算出部102は、入力画像(入力データの一例)の特徴を示す特徴画像(特徴データの一例)を算出する。例えば算出部102は、受付部101によって処理された画像に対し、領域分割または奥行き推定を行うために有用な特徴となる領域を示す特徴画像を算出する。特徴画像の算出方法はどのような方法であってもよいが、例えば畳み込みニューラルネットなどの機械学習モデルを用いる方法を適用できる。
【0025】
例えば算出部102は、受付部101によって処理された画像に対し、畳み込みニューラルネットによる演算を複数の層で繰り返し、特徴画像121を算出する。以下では、入力画像111aに対して算出した特徴画像を特徴画像121aといい、入力画像111bに対して算出した特徴画像を特徴画像121bという。
【0026】
特徴画像121(121a、121b)は、奥行き推定部103aおよび領域分割部103bにそれぞれ入力される。奥行き推定部103aおよび領域分割部103bに対して同一の特徴画像121が入力されてもよいし、異なる特徴画像121が入力されてもよい。
【0027】
例えば畳み込みニューラルネットの最終層を、奥行き推定部103aに入力する特徴画像を算出する層と、領域分割部103bに入力する特徴画像を算出する層と、に分割する方法を用いてもよい。また、畳み込みニューラルネットの中間層の出力を特徴画像として、奥行き推定部103aおよび領域分割部103bのいずれかまたは両方に入力する方法を用いてもよい。
【0028】
なお各タスクのモデルは、特徴画像の代わりに入力画像を入力するように構成されてもよい。この場合、算出部102の機能の一部または全部は備えられなくてもよい。
【0029】
奥行き推定部103aは、入力画像に基づくデータを奥行き推定のモデルに入力し、このモデルによる奥行き推定の実行結果を示す出力データ(第1の出力データの一例)を得る。入力画像に基づくデータは、特徴画像121、または、入力画像自体である。奥行き推定のモデルはどのようなモデルであってもよいが、例えば異なるサイズの複数の受容野を持つ畳み込みニューラルネットである。
【0030】
以下では、特徴画像121をモデルの入力とする例を説明する。この場合、奥行き推定部103aは、算出部102により算出された特徴画像121(121a、121b)に基づいて奥行き推定画像131を推定して出力データとして出力する。以下では、特徴画像121aに対して生成した奥行き推定画像を奥行き推定画像131aといい、特徴画像121bに対して生成した奥行き推定画像を奥行き推定画像131bという。
【0031】
奥行き推定部103aで用いられる畳み込みニューラルネットは、奥行き推定画像131aと、教師データ112aとの差分を示す回帰損失関数を勾配法で最小化することにより学習される。この回帰損失関数には、例えば以下の(1)式で表されるBerHu損失LBerHuのような損失関数を用いることができる。
【数1】
【0032】
BerHu損失は、閾値δによってL1損失とL2損失が切り替わるような損失関数となっている。すなわちBerHu損失は、各画素における推定値dと真値dgtの差の絶対値が閾値δよりも小さく0に近い領域ではL1損失としてなだらかに0に近づき、閾値δよりも大きく0から離れている領域ではL2損失のようにより急速に0に近づく性質を持つ。BerHu損失を最小化することで、誤差が大きくなる傾向がある距離の離れた領域と、誤差の小さい領域を均質に学習することできる。閾値δは適応的に決めることができ、例えば画像内で最も大きい損失を取る画素の値に対して0.2倍の値を閾値δに設定してもよい。
【0033】
領域分割部103bは、入力画像に基づくデータを領域分割のモデルに入力し、このモデルによる領域分割の実行結果を示す出力データ(第2の出力データの一例)を得る。領域分割のモデルはどのようなモデルであってもよいが、例えば異なるサイズの複数の受容野を持つ畳み込みニューラルネットである。
【0034】
特徴画像121をモデルの入力とする場合、領域分割部103bは、算出部102により算出された特徴画像121(121a、121b)に基づいて領域分割画像141を推定して出力データとして出力する。以下では、特徴画像121aに対して生成した領域分割画像を領域分割画像141aといい、特徴画像121bに対して生成した領域分割画像を領域分割画像141bという。
【0035】
領域分割部103bで用いられる畳み込みニューラルネットは、領域分割画像141bと、教師データ112bとの差分を示す分類損失関数142を勾配法で最小化するにより学習される。この分類損失関数には、以下の(2)式で表されるCross Entropy損失Lceなどの損失関数を用いることができる。
【数2】
【0036】
Cross Entropy損失は、ラベルxのクラスに対する推定確率p(x)と真値q(x)の対数との積を取ったものである。q(x)はラベルxが正解ラベルと一致する場合1となり、それ以外は0となる関数である。
【0037】
変換処理部110は、奥行き推定部103aが生成した奥行き推定画像を変換し、領域分割の実行結果の形式で表される領域分割画像を出力する。以下、図2および図3を用いて、変換処理部110の機能の詳細を説明する。図2は、変換処理部110の詳細機能の一例を示すブロック図である。図3は、変換処理部110の動作例を示す図である。
【0038】
図2に示すように、変換処理部110は、奥行き・領域変換部51と、領域・奥行き変換部52と、領域・奥行き再変換部61と、奥行き・領域再変換部62と、を備える。
【0039】
奥行き・領域変換部51(第1の変換部の一例)は、奥行き推定画像131a、131bを、それぞれ領域分割画像151a、151b(第1の変換データの一例)に変換する。
【0040】
領域・奥行き変換部52(第2の変換部の一例)は、領域分割画像141a、141bを、それぞれ奥行き推定画像152a、152b(第2の変換データの一例)に変換する。
【0041】
領域・奥行き再変換部61(第1の再変換部の一例)は、領域分割画像151a、151bを、それぞれ奥行き推定画像153a、153b(第1の再変換データの一例)へと戻す再変換を行う。
【0042】
奥行き・領域再変換部62(第2の再変換部の一例)は、奥行き推定画像152a、152bを、それぞれ領域分割画像154a、154b(第2の再変換データの一例)へと戻す再変換を行う。
【0043】
奥行き・領域変換部51、領域・奥行き変換部52、領域・奥行き再変換部61、および、奥行き・領域再変換部62のそれぞれは、算出部102と、奥行き推定部103aまたは領域分割部103bと、を組み合わせたニューラルネットワークと同等の役割を持つように、例えば畳み込みニューラルネットワークで構成される。
【0044】
奥行き・領域変換部51が用いるモデル(第1の変換モデルの一例)および奥行き・領域再変換部62が用いるモデル(第1の再変換モデルの一例)は同様のニューラルネットワーク構成であり、畳み込みニューラルネットワークのパラメータを共有する。奥行き・領域変換部51および奥行き・領域再変換部62を統合し、1つの畳み込みニューラルネットワークとして構成してもよい。
【0045】
領域・奥行き変換部52が用いるモデル(第2の変換モデルの一例)および領域・奥行き再変換部61が用いるモデル(第2の再変換モデルの一例)は同様のニューラルネットワーク構成であり、畳み込みニューラルネットワークのパラメータを共有する。領域・奥行き変換部52および領域・奥行き再変換部61を統合し、1つの畳み込みニューラルネットワークとして構成してもよい。
【0046】
変換処理部110では、まず奥行き・領域変換部51が、奥行き推定部103aの算出した奥行き推定画像131aに基づいて領域分割画像151aを生成する、または、奥行き推定画像131bに基づいて領域分割画像151bを生成する。同様に、領域・奥行き変換部52が、領域分割部103bの算出した領域分割画像141aに基づいて奥行き推定画像152aを生成する、または、領域分割画像141bに基づいて奥行き推定画像152bを生成する。
【0047】
領域分割画像151a、151bは、領域・奥行き再変換部61に入力される。領域・奥行き再変換部61は、領域分割画像151aから奥行き推定画像153aを生成し、領域分割画像151bから奥行き推定画像153bを生成する。
【0048】
奥行き推定画像152a、152bは、奥行き・領域再変換部62に入力される。奥行き・領域再変換部62は、奥行き推定画像152aから領域分割画像154aを生成し、奥行き推定画像152bから領域分割画像154bを生成する。
【0049】
このような変換と再変換を繰り返す目的は、奥行き・領域変換部51に、入力空間でのドメインの違いが及ぼした出力空間での影響を過剰に学習させないことである。例えば、奥行き・領域変換部51を学習するには、領域分割画像151bと対応する教師データ112bの差分を示す分類誤差(分類損失関数)を最小化することが考えられる。しかし、領域分割画像151aに対しては、領域分割の教師データが欠落しているため、教師データとの差分を最小化する学習は実行できない。従って、奥行き・領域変換部51が用いるニューラルネットワークは、奥行き推定画像131bを領域分割画像151bに変換するニューラルネットワークとして学習される。
【0050】
このような学習のために、領域・奥行き変換部52は、領域分割画像141aに基づき奥行き推定画像152aを生成する。領域・奥行き変換部52が用いるニューラルネットワークは、奥行き推定画像152aと対応する奥行き推定の教師データ112aの差分を示す回帰損失関数を最小化することで学習される(図3の矢印301)。学習時の損失関数として、奥行き推定画像153aと対応する奥行き推定の教師データ112aの差分を示す回帰損失関数がさらに加えられてもよい(図3の矢印303)。
【0051】
奥行き推定画像152aは、奥行き・領域再変換部62へと入力される。奥行き・領域再変換部62は、奥行き推定画像152aに基づき領域分割画像154aを生成する。奥行き・領域再変換部62が用いるニューラルネットワークは、領域分割画像154aと、領域分割画像141aとが一致するように、すなわち再変換をした結果が変換前に戻るように学習される(図3の矢印302)。例えば、奥行き・領域再変換部62が用いるニューラルネットワークは、領域分割画像154aと領域分割画像141aの差分を表す分類損失関数を最小化することで学習される。
【0052】
奥行き・領域変換部51および奥行き・領域再変換部62はニューラルネットワークのパラメータを共有している。このため、奥行き・領域再変換部62の学習により、領域分割の教師データが欠落する入力画像111aに基づく領域分割の推定結果(領域分割画像151a)であっても、奥行き・領域変換部51の学習が可能となる。
【0053】
領域・奥行き変換部52にも奥行き・領域変換部51と同様の問題がある。このため、まず領域・奥行き再変換部61により、領域分割画像151bが奥行き推定画像153bに変換される。奥行き推定画像153bと奥行き推定画像131bの差分を表す回帰損失関数を最小化することで領域・奥行き再変換部61が用いるニューラルネットワークが学習される(図3の矢印312)。これにより、奥行き推定の教師データが欠落する入力画像111bに基づく奥行き推定の結果(奥行き推定画像131b)であっても、領域・奥行き変換部52の学習が可能となる。
【0054】
学習時の損失関数として、領域分割画像151bと対応する領域分割の教師データ112bとの差分を示す回帰損失関数(図3の矢印311)、および、領域分割画像154bと対応する領域分割の教師データ112bの差分を示す回帰損失関数がさらに加えられてもよい(図3の矢印313)。
【0055】
奥行き推定画像に対する回帰損失関数には、BerHu損失などを用いることができる。また、領域分割画像に対する分類損失関数には、Cross Entropy損失などを用いることができる。
【0056】
変換処理部110は、領域分割画像151aを生成部104に出力する。
【0057】
図1に戻り、生成部104は、変換処理部110から出力された領域分割画像151aと、領域分割部103bから出力された領域分割画像141aとに基づいて、入力画像111aに対応する領域分割の疑似教師データを生成する。
【0058】
疑似教師データを生成することで、入力画像111aが属するドメインに対しても算出部102および領域分割部103bの学習を行うことが可能となる。一方、タスクによる推定が誤っている領域を疑似教師データとして扱うと、誤った教師データによりモデルが学習され、モデルの推定精度が悪化する可能性がある。
【0059】
そこで生成部104は、疑似教師データの信頼性が損なわれることを避けるために、疑似教師データに含める画素(疑似教師画素)を、1つまたは複数の信頼度を担保するためのルールに基づいて決定する。例えば、以下のようなルールが適用される。
(R1)領域分割画像141aと領域分割画像151aの両方で、信頼度が他の画素(要素の一例)より大きい1以上の画素を疑似教師画素とする。信頼度は、例えば各クラスの分類確率である。信頼度が他の画素より大きいかは、例えば、信頼度が閾値より大きい画素であるかにより判定される。
(R2)領域分割画像141aおよび領域分割画像151aそれぞれで同じ座標に位置する画素が同じクラスに分類されている場合に、その画素を疑似教師画素とする。
【0060】
生成部104は、例えば、領域分割画像151aのうち、上記のようなルールに従って決定された疑似教師画素を疑似教師データとし、疑似教師画素以外の画素は分類不可クラスとして扱う。
【0061】
領域分割画像141aと生成された疑似教師データとの差分を示す分類損失関数(Cross Entropy損失など)を最小化することで、入力画像111bのみならず、入力画像111aの属するドメインに対しても算出部102および領域分割部103bが用いるモデルを学習することができる。
【0062】
学習部105は、上記の各部で用いられるモデルを学習する。例えば学習部105は、算出部102が特徴画像の算出に用いるモデル、奥行き推定部103aが奥行き推定に用いるモデル、領域分割部103bが領域分割に用いるモデル、および、変換処理部110がデータの変換に用いるモデル、の一部または全部を学習する。
【0063】
学習部105は、これらの複数のモデルの一部または全部を統合した1つのモデルを学習してもよいし、複数のモデルをそれぞれ独立に学習してもよい。学習部105は、各モデルに対して定められる上記のような損失関数を最小化するように学習を実行する。
【0064】
学習部105は、複数のモデルを予め定められた規則に従った順序で学習してもよい。例えば学習部105は、奥行き推定部103aが用いるモデル、および、領域分割部103bが用いるモデルを先に学習し、これらの学習が安定した後に、変換処理部110のモデルを学習してもよい。学習部105は、奥行き推定部103aが用いるモデルおよび領域分割部103bが用いるモデルの学習、並びに、変換処理部110の学習、を交互に実行するように構成してもよい。
【0065】
学習部105は、どのようなアルゴリズムで学習を実行してもよい。例えばモデルとしてニューラルネットワークを適用する場合は、学習部105は、勾配法などを用いて学習を実行することができる。
【0066】
上記各部(受付部101、算出部102、奥行き推定部103a、領域分割部103b、変換処理部110、生成部104、および、学習部105)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
【0067】
各モデルのパラメータは、例えば情報処理装置100内に備えられる記憶部(図示せず)に記憶されてもよい。記憶部は、フラッシュメモリ、メモリカード、RAM(Random Access Memory)、HDD(Hard Disk Drive)、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
【0068】
次に、このように構成された第1の実施形態にかかる情報処理装置100による学習処理について説明する。図4は、第1の実施形態における学習処理の一例を示すフローチャートである。
【0069】
受付部101は、入力画像の入力を受け付ける(ステップS101)。入力画像は、ドメインAに属する入力画像111aであってもよいし、ドメインBに属する入力画像111bであってもよい。受付部101は、上記のように、受け付けた入力画像に対してデータ処理を実行してもよい。
【0070】
算出部102は、受付部101から渡された入力画像から特徴画像を算出する(ステップS102)。
【0071】
奥行き推定部103aは、算出された特徴画像をニューラルネットワークに入力し、奥行き推定画像を推定する(ステップS103)。また、領域分割部103bは、算出された特徴画像を対応するニューラルネットワークに入力し、領域分割画像を推定する(ステップS104)。
【0072】
変換処理部110内の奥行き・領域変換部51は、ステップS103で生成された奥行き推定画像を領域分割画像に変換する(ステップS105)。また変換処理部110内の領域・奥行き変換部52は、ステップS104で生成された領域分割画像を奥行き推定画像に変換する(ステップS106)。また、変換処理部110内の各部の学習のため、領域・奥行き再変換部61による領域分割画像から奥行き推定画像への再変換、および、奥行き・領域再変換部62による奥行き推定画像から領域分割画像への再変換も実行される。
【0073】
生成部104は、ステップS105で変換された領域分割画像から、領域分割のモデルのための疑似教師データを生成する(ステップS107)。学習部105は、入力画像、並びに、入力画像に対する教師データおよび生成された疑似教師データを用いた学習を実行する(ステップS108)。
【0074】
学習された奥行き推定部103aのモデル、および、領域分割部103bのモデルは、その後の推論処理に使用することができる。図5は、第1の実施形態における推論処理の一例を示すフローチャートである。
【0075】
ステップS201からステップS203は、学習処理を示す図4のステップS101からステップS103と同様である。奥行き推定部103aおよび領域分割部103bはそれぞれ推定により得られた奥行き推定画像および領域分割画像を出力し(ステップS204)、推論処理を終了する。
【0076】
図6は、本実施形態による推論処理で得られる出力データの一例を示す図である。図6の例では、車両に搭載された撮像装置(カメラ)により道路および歩道などを含む車両の前方を撮像して得られる入力画像が用いられる。学習にはCGによって生成された画像を用いることも可能であるが、推論処理で用いる入力画像は実世界で撮像された画像である。
【0077】
領域分割画像701bは、入力画像に対応する領域分割の教師データ(真値画像)である。領域分割画像702bは、本実施形態を適用しない場合、すなわち、変換処理部110および生成部104により生成される疑似教師データを用いずに学習したモデルを用いて推論した場合の領域分割の推定結果を表す。領域分割画像703bは、本実施形態を適用した場合、すなわち、疑似教師データを用いて学習したモデルを用いて推論した場合の領域分割の推定結果を表す。
【0078】
奥行き推定画像701aは、入力画像に対応する奥行き推定の教師データ(真値画像)である。奥行き推定画像702aは、本実施形態を適用しない場合、すなわち、変換処理部110および生成部104により生成される疑似教師データを用いずに学習したモデルを用いて推論した場合の奥行き推定の推定結果を表す。奥行き推定画像703aは、本実施形態を適用した場合、すなわち、疑似教師データを用いて学習したモデルを用いて推論した場合の奥行き推定の結果を表す。
【0079】
領域分割画像702bに示されるように、本実施形態を適用しない場合は、歩道領域と道路領域とが混同されている箇所が多い。学習時と推定処理時のドメインの違いが影響していることが要因の1つである。
【0080】
一方、領域分割画像703bの領域712などに示されるように、本実施形態を適用した場合には、歩道領域と道路領域の混同が改善されている。また、領域711に示されるように、他の車両が存在する領域(車両領域)の推定の精度も改善されている。このように、本実施形態を適用した場合は、より教師データに近い領域分割が可能であることが確認できる。また、領域分割の改善に伴い奥行き推定が破綻するようなことはなく、マルチタスクネットワークの学習が正常に行われていることが確認できる。
【0081】
このように、第1の実施形態にかかる情報処理装置では、あるタスク(例えば領域分割)の教師データを持たないドメインの画像を用いても、このタスクの学習を行うことが可能となる。
【0082】
(第2の実施形態)
第2の実施形態では、3つのタスクを実行するマルチタスク実行装置である情報処理装置の例を説明する。3つのタスクは、奥行き推定、領域分割(セマンティックセグメンテーション)、および、法線推定である。法線推定は、入力画像から法線推定画像を推定するタスクである。法線推定画像は、画像中の各画素に写る物体表面の法線方向を各画素の画素値として含む画像である。
【0083】
第1の実施形態では、奥行き推定および領域分割の2つのタスクの組みについて疑似データが生成された。本実施形態では、奥行き推定および法線推定の2つのタスクの組みについても疑似データが生成される。
【0084】
2つのタスクの組みはこれらに限られるものではなく、例えば、領域分割および法線推定の2つのタスクの組みであってもよい。4つ以上のタスクを実行するマルチタスク実行装置の場合も同様に、任意の2つのタスクの組みに対して疑似データを生成し、学習に用いることができる。すなわち、疑似データを生成するための2つのタスク(モデル)は、上述したような3以上のタスクから選択される2つのタスクをそれぞれ含む2以上の組みに含まれる2つのタスクとすることができる。
【0085】
図7は、第2の実施形態にかかる情報処理装置100-2の構成の一例を示すブロック図である。図7に示すように、情報処理装置100-2は、受付部101-2と、算出部102と、奥行き推定部103aと、領域分割部103bと、法線推定部103c-2と、変換処理部110-2と、生成部104-2と、学習部105-2と、を備えている。
【0086】
第2の実施形態では、法線推定部103c-2を追加したこと、並びに、受付部101-2、変換処理部110-2、生成部104-2および学習部105-2の機能が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる情報処理装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
【0087】
受付部101-2は、さらに、入力画像111aと異なるドメインCに属する入力画像111cを含む入力データを受け付ける。入力画像111cは入力画像111bと同一のドメイン、または、同一の画像でもよい。入力画像111cは、対応する法線推定の教師データ(真値画像)を持つ。
【0088】
法線推定部103c-2は、入力画像に基づくデータ(特徴画像、または、入力画像など)を法線推定のモデルに入力し、このモデルによる法線推定の実行結果を示す出力データを得る。法線推定のモデルはどのようなモデルであってもよいが、例えば異なるサイズの複数の受容野を持つ畳み込みニューラルネットである。
【0089】
法線推定部103c-2で用いられる畳み込みニューラルネットは、法線推定画像と、法線推定の教師データとの差分を示す損失関数を勾配法で最小化することにより学習される。この損失関数は、例えば正規化された推定法線のベクトルnと正規化された真値ベクトルngtとの内積を用いて以下の(3)式のように定義できる。(3)式はnとngtが同一であるときに最小となる。従って(3)式の最小化によって法線推定部103c-2は正しい法線を推定するように学習される。
【数3】
【0090】
変換処理部110-2は、奥行き推定画像と法線推定画像との間の変換機能をさらに含む点が、第1の実施形態の変換処理部110と異なっている。なお、変換処理部110-2による奥行き推定画像と法線推定画像との間の変換処理は、第1の実施形態の変換処理部110による変換処理において領域分割を法線推定に置き換えた動作に類似する。図8は、変換処理部110-2の機能の詳細を示すブロック図である。
【0091】
図8に示すように、変換処理部110-2は、奥行き・領域変換部51と、領域・奥行き変換部52と、領域・奥行き再変換部61と、奥行き・領域再変換部62と、奥行き・法線変換部53-2と、法線・奥行き変換部54-2と、法線・奥行き再変換部63-2と、奥行き・法線再変換部64-2と、を備える。
【0092】
第2の実施形態では、奥行き・法線変換部53-2、法線・奥行き変換部54-2、法線・奥行き再変換部63-2、および、奥行き・法線再変換部64-2を追加したことが第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる変換処理部110のブロック図である図2と同様であるので、同一符号を付し、ここでの説明は省略する。
【0093】
奥行き・法線変換部53-2は、奥行き推定画像131a、131bを、それぞれ法線推定画像221a、221bに変換する。
【0094】
法線・奥行き変換部54-2は、法線推定画像211(211a、211b)を、奥行き推定画像222(222a、222b)に変換する。
【0095】
法線・奥行き再変換部63-2は、法線推定画像221(221a、221b)を、奥行き推定画像223(223a、223b)へと戻す再変換を行う。
【0096】
奥行き・法線再変換部64-2は、奥行き推定画像222(222a、222b)を、法線推定画像224(224a、224b)へと戻す再変換を行う。
【0097】
奥行き・法線変換部53-2、法線・奥行き変換部54-2、奥行き・法線再変換部64-2、法線・奥行き再変換部63-2のそれぞれは、算出部102と、奥行き推定部103aまたは法線推定部103c-2を組み合わせたニューラルネットワークと同等の役割を持つように、例えば畳み込みニューラルネットワークで構成される。
【0098】
奥行き・法線変換部53-2が用いるモデルおよび奥行き・法線再変換部64-2が用いるモデルは同様のニューラルネットワーク構成であり、畳み込みニューラルネットワークのパラメータを共有する。奥行き・法線変換部53-2が用いるモデルおよび奥行き・法線再変換部64-2を統合し、1つの畳み込みニューラルネットワークとして構成してもよい。
【0099】
法線・奥行き変換部54-2が用いるモデルおよび法線・奥行き再変換部63-2が用いるモデルは同様のニューラルネットワーク構成であり、畳み込みニューラルネットワークのパラメータを共有する。法線・奥行き変換部54-2が用いるモデルおよび法線・奥行き再変換部63-2を統合し、1つの畳み込みニューラルネットワークとして構成してもよい。
【0100】
変換処理部110-2では、まず奥行き・法線変換部53-2が、奥行き推定画像131を法線推定画像221に変換する。また、法線・奥行き変換部54-2が、法線推定画像211を奥行き推定画像222に変換する。
【0101】
法線推定画像221は法線・奥行き再変換部63-2によって奥行き推定画像223へと再変換される。また、奥行き推定画像222は奥行き・法線再変換部64-2によって法線推定画像224へと再変換される。
【0102】
変換と再変換を繰り返す目的は、第1の実施形態における変換処理部110で述べた目的と同様であり、入力画像の属するドメインのうち、各タスクの教師データがあるドメインに出力が偏ることを防止することである。
【0103】
奥行き・法線変換部53-2が用いるニューラルネットワークは、入力画像111cが入力された場合に、法線推定画像221と、法線推定の教師データとの差分を示す損失関数を最小化することで学習される。損失関数には例えば(3)式を用いることができる。
【0104】
法線・奥行き変換部54-2が用いるニューラルネットワークは、入力画像111aが入力された場合に、奥行き推定画像222と教師データ112aとの差分を示す損失関数を最小化することで学習される。損失関数には例えば(1)式に示すBerHu損失などの損失関数を用いることができる。
【0105】
奥行き・法線再変換部64-2が用いるニューラルネットワークは、入力画像111aが入力された場合には、法線推定画像224と法線推定画像211との差分を示す損失関数を最小化することで学習される。また、入力画像111cが入力された場合には、法線推定画像224と法線推定の教師データとの差分を示す損失関数を最小化することで学習される。いずれの場合も、損失関数には例えば(3)式を用いることができる。
【0106】
法線・奥行き再変換部63-2の学習は、入力画像111aが入力された場合には、奥行き推定画像222と教師データ112aとの差分を示す損失関数を最小化することで学習される。また、入力画像111cが入力された場合には、奥行き推定画像222と奥行き推定画像131との差分を示す損失関数を最小化することで学習される。いずれの場合も、損失関数には例えば(1)式を用いることができる。
【0107】
変換処理部110-2は、法線推定画像221を生成部104-2に出力する。
【0108】
図7に戻り、生成部104-2は、変換処理部110-2から出力された法線推定画像221と、法線推定部103c-2から出力された法線推定画像211とに基づいて、入力画像111aに対応する法線推定の疑似教師データを生成する機能をさらに備える。
【0109】
生成部104-2は、疑似教師データの信頼性が損なわれることを避けるために、疑似教師データに含める画素(疑似教師画素)を、1つまたは複数の信頼度を担保するためのルールに基づいて決定する。例えば、以下のようなルールがさらに適用される。
(R3)法線推定画像211および法線推定画像221の同一画素の法線ベクトルのコサイン類似度が他の画素より大きい1以上の画素を疑似教師画素とする。コサイン類似度が他の画素より大きいかは、例えば、コサイン類似度が閾値より大きい画素であるかにより判定される。
【0110】
生成部104-2は、例えば、法線推定画像221のうち、上記のようなルールに従って算出された疑似教師画素の領域を疑似教師データとし、疑似教師画素以外の画素は損失関数の算出に使用しない領域として扱う。
【0111】
法線推定画像211と生成された疑似教師データとの差分を示す誤差関数を最小化することで、入力画像111cのみならず、入力画像111aの属するドメインに対しても算出部102および法線推定部103c-2が用いるモデルを学習することができる。損失関数には、(3)式などを用いることができる。
【0112】
学習部105-2は、法線推定に関して追加されたモデルを学習する機能をさらに備える点が、第1の実施形態の学習部105と異なっている。追加されたモデルの学習には、上述のような損失関数を用いることができる。
【0113】
次に、このように構成された第2の実施形態にかかる情報処理装置100-2による学習処理について図9を用いて説明する。図9は、第2の実施形態における学習処理の一例を示すフローチャートである。
【0114】
ステップS301からステップS304までは、第1の実施形態にかかる情報処理装置100におけるステップS101からステップS104までと同様の処理なので、その説明を省略する。
【0115】
本実施形態では、法線推定部103c-2は、算出された特徴画像を対応するニューラルネットワークに入力し、法線推定画像を推定する(ステップS305)。
【0116】
変換処理部110-2内の奥行き・領域変換部51は、奥行き推定画像を領域分割画像に変換し、奥行き・法線変換部53-2は、奥行き推定画像を法線推定画像に変換する(ステップS306)。また変換処理部110内の領域・奥行き変換部52は、領域分割画像を奥行き推定画像に変換し、法線・奥行き変換部54-2は、法線推定画像を奥行き推定画像に変換する(ステップS307)。
【0117】
変換処理部110-2内の各部の学習のため、領域・奥行き再変換部61による領域分割画像から奥行き推定画像への再変換、奥行き・領域再変換部62による奥行き推定画像から領域分割画像への再変換、法線・奥行き再変換部63-2による法線推定画像から奥行き推定画像への再変換、および、奥行き・法線再変換部64-2による奥行き推定画像から法線推定画像への再変換も実行される。
【0118】
生成部104-2は、変換された領域分割画像から、領域分割のモデルのための疑似教師データを生成する(ステップS308)。また、生成部104-2は、変換された法線推定画像から、法線推定のモデルのための疑似教師データを生成する(ステップS309)。
【0119】
学習部105-2は、入力画像、並びに、入力画像に対する教師データおよび生成された疑似教師データを用いた学習を実行する(ステップS310)。
【0120】
図10は、第2の実施形態における推論処理の一例を示すフローチャートである。
【0121】
ステップS401からステップS405は、学習処理を示す図9のステップS301からステップS305と同様である。奥行き推定部103a、領域分割部103b、および、法線推定部103c-2は、それぞれ推定により得られた奥行き推定画像、領域分割画像および法線推定画像を出力し(ステップS406)、推論処理を終了する。
【0122】
このように、第2の実施形態では、法線推定の教師データを持たないドメインの画像を用いても法線推定の学習を行うことが可能となる。すなわち、教師データの存在する奥行き推定、および、第1の実施形態と同様の領域分割と合わせて3タスクでの学習が可能となる。
【0123】
以上説明したとおり、第1から第2の実施形態によれば、出力空間での変換に基づいて疑似教師データを作成することにより、教師データの欠損しているタスクが存在しても目的のドメインのデータに対して高精度な推定が可能となる。
【0124】
次に、第1または第2の実施形態にかかる情報処理装置のハードウェア構成について図11を用いて説明する。図11は、第1または第2の実施形態にかかる情報処理装置のハードウェア構成例を示す説明図である。
【0125】
第1または第2の実施形態にかかる情報処理装置は、CPU551などの制御装置と、ROM(Read Only Memory)552やRAM(Random Access Memory)553などの記憶装置と、ネットワークに接続して通信を行う通信I/F554と、各部を接続するバス561を備えている。
【0126】
情報処理装置は、物理的に1つの装置によって構成されてもよいし、物理的に複数の装置によって構成されてもよい。例えば情報処理装置は、クラウド環境上で構築されてもよい。
【0127】
第1または第2の実施形態にかかる情報処理装置で実行されるプログラムは、ROM552等に予め組み込まれて提供される。
【0128】
第1または第2の実施形態にかかる情報処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
【0129】
さらに、第1または第2の実施形態にかかる情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施形態にかかる情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0130】
第1または第2の実施形態にかかる情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、CPU551がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
【0131】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0132】
100、100-2 情報処理装置
101、101-2 受付部
102 算出部
103a 奥行き推定部
103b 領域分割部
103c-2 法線推定部
104、104-2 生成部
105、105-2 学習部
110、110-2 変換処理部
51 奥行き・領域変換部
52 領域・奥行き変換部
53-2 奥行き・法線変換部
54-2 法線・奥行き変換部
61 領域・奥行き再変換部
62 奥行き・領域再変換部
63-2 法線・奥行き再変換部
64-2 奥行き・法線再変換部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11