特許7391784 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社東芝の特許一覧

特許7391784情報処理装置、情報処理方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-27

(45)【発行日】2023-12-05

(54)【発明の名称】情報処理装置、情報処理方法およびプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20231128BHJP

G06N 20/00 20190101ALI20231128BHJP

【ＦＩ】

G06T7/00 350C

G06N20/00 130

【請求項の数】 16

(21)【出願番号】P 2020116609

(22)【出願日】2020-07-06

(65)【公開番号】P2022014334

(43)【公開日】2022-01-19

【審査請求日】2022-08-24

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】櫻井俊輔

(72)【発明者】

【氏名】中島諒

(72)【発明者】

【氏名】関晃仁

【審査官】小池正彦

(56)【参考文献】

【文献】米国特許出願公開第２０１９／０２４４１０７（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

第１のドメインに属する第１の入力データと、第１のドメインとは異なる第２のドメインに属する第２の入力データと、を含む入力データを受け付ける受付部と、
前記入力データに基づくデータを第１のモデルに入力し、前記第１のモデルによる第１のタスクの実行結果を示す第１の出力データを得る第１のタスク実行部と、
前記入力データに基づくデータを第２のモデルに入力し、前記第２のモデルによる第２のタスクの実行結果を示す第２の出力データを得る第２のタスク実行部と、
前記第１の出力データを、前記第２のタスクの実行結果の形式で表される第１の変換データに変換する第１の変換部と、
前記第１の変換データと前記第２の出力データとに基づいて、前記第１の入力データに対する前記第２のモデルの教師データを生成する生成部と、
を備える情報処理装置。

【請求項2】

前記第１の入力データと前記教師データとを用いて、前記第２のモデルを学習する学習部をさらに備える、
請求項１に記載の情報処理装置。

【請求項3】

前記入力データの特徴を示す特徴データを算出する算出部をさらに備え、
前記第１のタスク実行部は、前記特徴データを前記第１のモデルに入力して前記第１の出力データを得る、
請求項１に記載の情報処理装置。

【請求項4】

前記入力データの特徴を示す特徴データを算出する算出部をさらに備え、
前記第２のタスク実行部は、前記特徴データを前記第２のモデルに入力して前記第２の出力データを得る、
請求項１に記載の情報処理装置。

【請求項5】

前記第２のモデルの教師データと、前記第１の変換データと、の差分に応じて定められる損失関数を用いて、前記第１の変換部が変換に用いる第１の変換モデルを学習する学習部をさらに備える、
請求項１に記載の情報処理装置。

【請求項6】

前記第１の変換データを、前記第１のタスクの実行結果の形式で表される第１の再変換データに変換する第１の再変換部をさらに備え、
前記学習部は、前記第１のモデルの教師データおよび前記第１の出力データの少なくとも一方と、前記第１の再変換データと、の差分に応じて定められる損失関数を用いて、前記第１の再変換部が変換に用いるモデルであって、前記第１の変換モデルと共通のパラメータを有する第１の再変換モデルを学習する、
請求項５に記載の情報処理装置。

【請求項7】

前記第２の出力データを、前記第１のタスクの実行結果の形式で表される第２の変換データに変換する第２の変換部をさらに備え、
前記学習部は、前記第１のモデルの教師データと、前記第２の変換データと、の差分に応じて定められる損失関数を用いて、前記第２の変換部が変換に用いる第２の変換モデルを学習する、
請求項５に記載の情報処理装置。

【請求項8】

前記第２の変換データを、前記第２のタスクの実行結果の形式で表される第２の再変換データに変換する第２の再変換部をさらに備え、
前記学習部は、前記第２のモデルの教師データおよび前記第２の出力データの少なくとも一方と、前記第２の再変換データと、の差分に応じて定められる損失関数を用いて、前記第２の再変換部が変換に用いるモデルであって、前記第２の変換モデルと共通のパラメータを有する第２の再変換モデルを学習する、
請求項７に記載の情報処理装置。

【請求項9】

前記第１の入力データは、前記第１のモデルの教師データを含み、前記第２のモデルの教師データを含まない、
請求項１に記載の情報処理装置。

【請求項10】

前記第２のタスクの実行結果は、複数の要素を含み、
前記生成部は、前記第１の変換データおよび前記第２の出力データの両方で信頼度が他の要素より大きい１以上の要素を含む前記教師データを生成する、
請求項１に記載の情報処理装置。

【請求項11】

前記第１の入力データに対して出力される前記第１の出力データと、前記第１のタスクの教師データと、の差分に応じて定められる損失関数を用いて前記第１のモデルを学習し、
前記第２の入力データに対して出力される前記第２の出力データと前記第２のタスクの教師データとの差分に応じて定められる損失関数、および、前記第１の入力データに対して出力される前記第２の出力データと前記教師データとの差分に応じて定められる損失関数を用いて前記第２のモデルを学習する、
学習部をさらに備える、
請求項１に記載の情報処理装置。

【請求項12】

前記第１のタスクおよび前記第２のタスクは、奥行き推定、セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーション、物体検出、オートエンコーダ、超解像、エッジ検出、顕著性マップの生成、および、法線推定のうちいずれか２つのタスクである、
請求項１に記載の情報処理装置。

【請求項13】

前記第１のモデルおよび前記第２のモデルの少なくとも一方は、ニューラルネットワークである、
請求項１に記載の情報処理装置。

【請求項14】

前記第１のタスクおよび前記第２のタスクは、３以上のタスクから選択される２つのタスクをそれぞれ含む２以上の組みに含まれる２つのタスクである、
請求項１に記載の情報処理装置。

【請求項15】

第１のドメインに属する第１の入力データと、第１のドメインとは異なる第２のドメインに属する第２の入力データと、を含む入力データを受け付ける受付ステップと、
前記入力データに基づくデータを第１のモデルに入力し、前記第１のモデルによる第１のタスクの実行結果を示す第１の出力データを得る第１のタスク実行ステップと、
前記入力データに基づくデータを第２のモデルに入力し、前記第２のモデルによる第２のタスクの実行結果を示す第２の出力データを得る第２のタスク実行ステップと、
前記第１の出力データを、前記第２のタスクの実行結果の形式で表される第１の変換データに変換する第１の変換ステップと、
前記第１の変換データと前記第２の出力データとに基づいて、前記第１の入力データに対する前記第２のモデルの教師データを生成する生成ステップと、
を含む情報処理方法。

【請求項16】

コンピュータに、
第１のドメインに属する第１の入力データと、第１のドメインとは異なる第２のドメインに属する第２の入力データと、を含む入力データを受け付ける受付ステップと、
前記入力データに基づくデータを第１のモデルに入力し、前記第１のモデルによる第１のタスクの実行結果を示す第１の出力データを得る第１のタスク実行ステップと、
前記入力データに基づくデータを第２のモデルに入力し、前記第２のモデルによる第２のタスクの実行結果を示す第２の出力データを得る第２のタスク実行ステップと、
前記第１の出力データを、前記第２のタスクの実行結果の形式で表される第１の変換データに変換する第１の変換ステップと、
前記第１の変換データと前記第２の出力データとに基づいて、前記第１の入力データに対する前記第２のモデルの教師データを生成する生成ステップと、
を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。

【背景技術】

【0002】

異なる２つ以上のタスクの実行結果を出力する機能を備えたマルチタスク実行装置がある。例えば、奥行き推定の結果と、セマンティックセグメンテーション（領域分割）の結果とを同時に出力するマルチタスク実行装置がある。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９―２０７４９１号公報

【非特許文献】

【0004】

【文献】I.Laina, et al., Deeper depth prediction with fully convolutional residual networks. 3DV 2016

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来技術では、教師データが欠損しているタスクについて、タスクに用いられるモデルの学習が不十分となり、タスクの精度が低下する問題があった。例えば教師データが欠損しているタスクが存在する場合には、いずれかのタスクの教師データがそれぞれ含まれる複数のデータセット（複数のドメイン）を用いて学習する必要があった。このため、データセット間のドメインの違いが原因により、目的のドメインに対する精度が低下する場合があった。

【課題を解決するための手段】

【0006】

実施形態の情報処理装置は、受付部と、第１のタスク実行部と、第２のタスク実行部と、第１の変換部と、生成部と、を備える。受付部は、第１の入力データと、第２の入力データと、を含む入力データを受け付ける。第１のタスク実行部は、入力データに基づくデータを第１のモデルに入力し、第１のタスクの実行結果を示す第１の出力データを得る。第２のタスク実行部は、入力データに基づくデータを第２のモデルに入力し、第２のタスクの実行結果を示す第２の出力データを得る。第１の変換部は、第１の出力データを、第２のタスクの実行結果の形式で表される第１の変換データに変換する。生成部は、第１の変換データと第２の出力データとに基づいて、第１の入力データに対する第２のモデルの教師データを生成する。

【図面の簡単な説明】

【0007】

【図1】第１の実施形態にかかる情報処理装置のブロック図。

【図2】変換処理部の機能ブロック図。

【図3】変換処理部の動作例を示す図。

【図4】第１の実施形態における学習処理のフローチャート。

【図5】第１の実施形態における推論処理のフローチャート。

【図6】推論処理で得られる出力データの一例を示す図。

【図7】第２の実施形態にかかる情報処理装置のブロック図。

【図8】変換処理部の機能ブロック図。

【図9】第２の実施形態における学習処理のフローチャート。

【図10】第２の実施形態における推論処理のフローチャート。

【図11】第１または第２の実施形態にかかる情報処理装置のハードウェア構成図。

【発明を実施するための形態】

【0008】

以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。

【0009】

（第１の実施形態）
第１の実施形態の情報処理装置は、出力空間では入力空間におけるドメイン間の差異が一部減少することを利用して教師データが存在しないドメインの疑似教師データを生成し、学習に利用する。入力空間とは、タスクの入力データが取り得る空間である。出力空間とは、タスクの出力データが取り得る空間である。本実施形態の情報処理装置は、各タスクの実行結果（推定結果）に基づいて、タスク間の変換を行い、変換した実行結果から疑似教師データを生成してタスクに用いられるモデル（ニューラルネットワークなど）のパラメータを更新する。これにより教師データの存在しないドメインにおいてもタスクのモデルを学習することが可能となる。この結果、タスクの推定の精度を向上させることができる。

【0010】

第１の実施形態では、奥行き推定と領域分割（セマンティックセグメンテーション）との２つのタスクを実行するマルチタスク実行装置である情報処理装置の例を説明する。奥行き推定は、入力画像から奥行き推定画像を推定するタスクである。

【0011】

奥行き推定画像は、入力画像を撮像したカメラ（撮像装置）と各画素に映る物体との実世界における距離を、その画素の画素値とする画像である。奥行き推定画像の画素値は、実際の距離のみならず、視差として距離の逆数であってもよい。

【0012】

領域分割は、入力画像から領域分割画像を推定するタスクである。領域分割画像は、物体の種類を示す複数のクラスのうち、いずれのクラスに属するかの確率を各画素の画素値として含む画像である。

【0013】

以下では、奥行き推定画像を変換した領域分割画像を用いて、領域分割のモデルの学習に用いる疑似教師データを生成する例を主に説明する。逆に、領域分割画像を変換した奥行き推定画像を用いて、奥行き推定のモデルの学習に用いる疑似教師データを生成する場合にも同様の手順を適用できる。また、これらの両者を実行し、領域分割のモデルの学習に用いる疑似教師データ、および、奥行き推定のモデルの学習に用いる疑似教師データの両方を生成するように構成してもよい。

【0014】

タスクはこれらに限られるものではなく、どのようなタスクの組み合わせであってもよい。例えばタスクは、奥行き推定、セマンティックセグメンテーション（領域分割）、インスタンスセグメンテーション、パノプティックセグメンテーション、物体検出、オートエンコーダ、超解像、エッジ検出、顕著性マップの生成、および、法線推定などのいずれであってもよい。

【0015】

また以下ではタスクそれぞれが、対応するニューラルネットワークを用いて実行される例を説明する。タスクを実行するモデルはニューラルネットワークに限られず、他の機械学習モデルを用いてもよい。

【0016】

図１は、第１の実施形態にかかる情報処理装置１００の構成の一例を示すブロック図である。図１に示すように、情報処理装置１００は、受付部１０１と、算出部１０２と、奥行き推定部１０３ａ（第１のタスク実行部の一例）と、領域分割部１０３ｂ（第２のタスク実行部の一例）と、変換処理部１１０と、生成部１０４と、学習部１０５と、を備えている。

【0017】

受付部１０１は、情報処理装置１００で用いられる各種データの入力を受け付ける。受付部１０１によるデータの受け付け方法はどのような方法であってもよい。例えば、インターネットなどのネットワークを介してデータを受信する方法、および、データを記憶した記憶媒体からデータを読み出す方法などを適用できる。

【0018】

例えば受付部１０１は、あるドメインＡ（第１のドメインの一例）に属する入力データ（第１の入力データの一例）と、ドメインＡとは異なるドメインＢ（第２のドメインの一例）に属する入力データ（第２の入力データの一例）と、を含む入力データを受け付ける。ドメインＡに属する入力データは、例えば、奥行き推定に用いられるニューラルネットワーク（第１のモデルの一例）の教師データを含むが、領域分割に用いられるニューラルネットワーク（第２のモデルの一例）の教師データは含んでもよいし、含まなくてもよい。

【0019】

ドメインとは、例えば画像であれば、以下のような画像の特性の集合を示す。
・撮像時の明度、季節、および、地域などの条件
・画像内に存在する物体のテクスチャおよび色
・カメラによって撮像された画像であるか、コンピュータグラフィックス（ＣＧ）によって生成された画像であるか

【0020】

複数の画像が異なるドメインに属するとは、このような特性のうち、共通しない特性が少なくとも１つ存在することを示す。

【0021】

奥行き推定および領域分割では、入力データとして画像が受け付けられる。以下では、画像の入力データを入力画像という。また受付部１０１が受け付けた入力画像のうちドメインＡに属する入力画像１１１ａといい、ドメインＢに属する入力画像１１１ｂという。入力画像１１１ａは奥行き推定に対応する真値である教師データ１１２ａを有し、入力画像１１１ｂは領域分割に対応する真値である教師データ１１２ｂを有する。これらの教師データは、対応するタスクのモデルの学習時に用いられる。

【0022】

受付部１０１は、各入力画像に対して、学習または推論に対して適切となるデータ処理を行ってもよい。適切となるデータ処理とは、例えば画像の縮小、回転、反転、および、色調変化などの処理である。受付部１０１は、学習に用いる画像の多様性を増やすために、受け付けた入力画像から疑似的な入力画像を生成するデータ処理を行ってもよい。例えば受付部１０１は、受け付けた入力画像を左右反転させたうえで各画素の各チャネルの値を疑似乱数で生成した倍率によって変動させるなどの処理を行い、新たな入力画像を生成する。

【0023】

入力データは画像である必要はないため、入力データの形式に応じて上記以外の処理がデータ処理として用いられてもよい。受付部１０１によって処理された入力画像は、画像内の特徴を算出するために算出部１０２へ入力される。

【0024】

算出部１０２は、入力画像（入力データの一例）の特徴を示す特徴画像（特徴データの一例）を算出する。例えば算出部１０２は、受付部１０１によって処理された画像に対し、領域分割または奥行き推定を行うために有用な特徴となる領域を示す特徴画像を算出する。特徴画像の算出方法はどのような方法であってもよいが、例えば畳み込みニューラルネットなどの機械学習モデルを用いる方法を適用できる。

【0025】

例えば算出部１０２は、受付部１０１によって処理された画像に対し、畳み込みニューラルネットによる演算を複数の層で繰り返し、特徴画像１２１を算出する。以下では、入力画像１１１ａに対して算出した特徴画像を特徴画像１２１ａといい、入力画像１１１ｂに対して算出した特徴画像を特徴画像１２１ｂという。

【0026】

特徴画像１２１（１２１ａ、１２１ｂ）は、奥行き推定部１０３ａおよび領域分割部１０３ｂにそれぞれ入力される。奥行き推定部１０３ａおよび領域分割部１０３ｂに対して同一の特徴画像１２１が入力されてもよいし、異なる特徴画像１２１が入力されてもよい。

【0027】

例えば畳み込みニューラルネットの最終層を、奥行き推定部１０３ａに入力する特徴画像を算出する層と、領域分割部１０３ｂに入力する特徴画像を算出する層と、に分割する方法を用いてもよい。また、畳み込みニューラルネットの中間層の出力を特徴画像として、奥行き推定部１０３ａおよび領域分割部１０３ｂのいずれかまたは両方に入力する方法を用いてもよい。

【0028】

なお各タスクのモデルは、特徴画像の代わりに入力画像を入力するように構成されてもよい。この場合、算出部１０２の機能の一部または全部は備えられなくてもよい。

【0029】

奥行き推定部１０３ａは、入力画像に基づくデータを奥行き推定のモデルに入力し、このモデルによる奥行き推定の実行結果を示す出力データ（第１の出力データの一例）を得る。入力画像に基づくデータは、特徴画像１２１、または、入力画像自体である。奥行き推定のモデルはどのようなモデルであってもよいが、例えば異なるサイズの複数の受容野を持つ畳み込みニューラルネットである。

【0030】

以下では、特徴画像１２１をモデルの入力とする例を説明する。この場合、奥行き推定部１０３ａは、算出部１０２により算出された特徴画像１２１（１２１ａ、１２１ｂ）に基づいて奥行き推定画像１３１を推定して出力データとして出力する。以下では、特徴画像１２１ａに対して生成した奥行き推定画像を奥行き推定画像１３１ａといい、特徴画像１２１ｂに対して生成した奥行き推定画像を奥行き推定画像１３１ｂという。

【0031】

奥行き推定部１０３ａで用いられる畳み込みニューラルネットは、奥行き推定画像１３１ａと、教師データ１１２ａとの差分を示す回帰損失関数を勾配法で最小化することにより学習される。この回帰損失関数には、例えば以下の（１）式で表されるＢｅｒＨｕ損失Ｌ^{ＢｅｒＨｕ}のような損失関数を用いることができる。

【数1】

【0032】

ＢｅｒＨｕ損失は、閾値δによってＬ１損失とＬ２損失が切り替わるような損失関数となっている。すなわちＢｅｒＨｕ損失は、各画素における推定値ｄと真値ｄ^ｇｔの差の絶対値が閾値δよりも小さく０に近い領域ではＬ１損失としてなだらかに０に近づき、閾値δよりも大きく０から離れている領域ではＬ２損失のようにより急速に０に近づく性質を持つ。ＢｅｒＨｕ損失を最小化することで、誤差が大きくなる傾向がある距離の離れた領域と、誤差の小さい領域を均質に学習することできる。閾値δは適応的に決めることができ、例えば画像内で最も大きい損失を取る画素の値に対して０．２倍の値を閾値δに設定してもよい。

【0033】

領域分割部１０３ｂは、入力画像に基づくデータを領域分割のモデルに入力し、このモデルによる領域分割の実行結果を示す出力データ（第２の出力データの一例）を得る。領域分割のモデルはどのようなモデルであってもよいが、例えば異なるサイズの複数の受容野を持つ畳み込みニューラルネットである。

【0034】

特徴画像１２１をモデルの入力とする場合、領域分割部１０３ｂは、算出部１０２により算出された特徴画像１２１（１２１ａ、１２１ｂ）に基づいて領域分割画像１４１を推定して出力データとして出力する。以下では、特徴画像１２１ａに対して生成した領域分割画像を領域分割画像１４１ａといい、特徴画像１２１ｂに対して生成した領域分割画像を領域分割画像１４１ｂという。

【0035】

領域分割部１０３ｂで用いられる畳み込みニューラルネットは、領域分割画像１４１ｂと、教師データ１１２ｂとの差分を示す分類損失関数１４２を勾配法で最小化するにより学習される。この分類損失関数には、以下の（２）式で表されるＣｒｏｓｓＥｎｔｒｏｐｙ損失Ｌ^ｃｅなどの損失関数を用いることができる。

【数2】

【0036】

ＣｒｏｓｓＥｎｔｒｏｐｙ損失は、ラベルｘのクラスに対する推定確率ｐ（ｘ）と真値ｑ（ｘ）の対数との積を取ったものである。ｑ（ｘ）はラベルｘが正解ラベルと一致する場合１となり、それ以外は０となる関数である。

【0037】

変換処理部１１０は、奥行き推定部１０３ａが生成した奥行き推定画像を変換し、領域分割の実行結果の形式で表される領域分割画像を出力する。以下、図２および図３を用いて、変換処理部１１０の機能の詳細を説明する。図２は、変換処理部１１０の詳細機能の一例を示すブロック図である。図３は、変換処理部１１０の動作例を示す図である。

【0038】

図２に示すように、変換処理部１１０は、奥行き・領域変換部５１と、領域・奥行き変換部５２と、領域・奥行き再変換部６１と、奥行き・領域再変換部６２と、を備える。

【0039】

奥行き・領域変換部５１（第１の変換部の一例）は、奥行き推定画像１３１ａ、１３１ｂを、それぞれ領域分割画像１５１ａ、１５１ｂ（第１の変換データの一例）に変換する。

【0040】

領域・奥行き変換部５２（第２の変換部の一例）は、領域分割画像１４１ａ、１４１ｂを、それぞれ奥行き推定画像１５２ａ、１５２ｂ（第２の変換データの一例）に変換する。

【0041】

領域・奥行き再変換部６１（第１の再変換部の一例）は、領域分割画像１５１ａ、１５１ｂを、それぞれ奥行き推定画像１５３ａ、１５３ｂ（第１の再変換データの一例）へと戻す再変換を行う。

【0042】

奥行き・領域再変換部６２（第２の再変換部の一例）は、奥行き推定画像１５２ａ、１５２ｂを、それぞれ領域分割画像１５４ａ、１５４ｂ（第２の再変換データの一例）へと戻す再変換を行う。

【0043】

奥行き・領域変換部５１、領域・奥行き変換部５２、領域・奥行き再変換部６１、および、奥行き・領域再変換部６２のそれぞれは、算出部１０２と、奥行き推定部１０３ａまたは領域分割部１０３ｂと、を組み合わせたニューラルネットワークと同等の役割を持つように、例えば畳み込みニューラルネットワークで構成される。

【0044】

奥行き・領域変換部５１が用いるモデル（第１の変換モデルの一例）および奥行き・領域再変換部６２が用いるモデル（第１の再変換モデルの一例）は同様のニューラルネットワーク構成であり、畳み込みニューラルネットワークのパラメータを共有する。奥行き・領域変換部５１および奥行き・領域再変換部６２を統合し、１つの畳み込みニューラルネットワークとして構成してもよい。

【0045】

領域・奥行き変換部５２が用いるモデル（第２の変換モデルの一例）および領域・奥行き再変換部６１が用いるモデル（第２の再変換モデルの一例）は同様のニューラルネットワーク構成であり、畳み込みニューラルネットワークのパラメータを共有する。領域・奥行き変換部５２および領域・奥行き再変換部６１を統合し、１つの畳み込みニューラルネットワークとして構成してもよい。

【0046】

変換処理部１１０では、まず奥行き・領域変換部５１が、奥行き推定部１０３ａの算出した奥行き推定画像１３１ａに基づいて領域分割画像１５１ａを生成する、または、奥行き推定画像１３１ｂに基づいて領域分割画像１５１ｂを生成する。同様に、領域・奥行き変換部５２が、領域分割部１０３ｂの算出した領域分割画像１４１ａに基づいて奥行き推定画像１５２ａを生成する、または、領域分割画像１４１ｂに基づいて奥行き推定画像１５２ｂを生成する。

【0047】

領域分割画像１５１ａ、１５１ｂは、領域・奥行き再変換部６１に入力される。領域・奥行き再変換部６１は、領域分割画像１５１ａから奥行き推定画像１５３ａを生成し、領域分割画像１５１ｂから奥行き推定画像１５３ｂを生成する。

【0048】

奥行き推定画像１５２ａ、１５２ｂは、奥行き・領域再変換部６２に入力される。奥行き・領域再変換部６２は、奥行き推定画像１５２ａから領域分割画像１５４ａを生成し、奥行き推定画像１５２ｂから領域分割画像１５４ｂを生成する。

【0049】

このような変換と再変換を繰り返す目的は、奥行き・領域変換部５１に、入力空間でのドメインの違いが及ぼした出力空間での影響を過剰に学習させないことである。例えば、奥行き・領域変換部５１を学習するには、領域分割画像１５１ｂと対応する教師データ１１２ｂの差分を示す分類誤差（分類損失関数）を最小化することが考えられる。しかし、領域分割画像１５１ａに対しては、領域分割の教師データが欠落しているため、教師データとの差分を最小化する学習は実行できない。従って、奥行き・領域変換部５１が用いるニューラルネットワークは、奥行き推定画像１３１ｂを領域分割画像１５１ｂに変換するニューラルネットワークとして学習される。

【0050】

このような学習のために、領域・奥行き変換部５２は、領域分割画像１４１ａに基づき奥行き推定画像１５２ａを生成する。領域・奥行き変換部５２が用いるニューラルネットワークは、奥行き推定画像１５２ａと対応する奥行き推定の教師データ１１２ａの差分を示す回帰損失関数を最小化することで学習される（図３の矢印３０１）。学習時の損失関数として、奥行き推定画像１５３ａと対応する奥行き推定の教師データ１１２ａの差分を示す回帰損失関数がさらに加えられてもよい（図３の矢印３０３）。

【0051】

奥行き推定画像１５２ａは、奥行き・領域再変換部６２へと入力される。奥行き・領域再変換部６２は、奥行き推定画像１５２ａに基づき領域分割画像１５４ａを生成する。奥行き・領域再変換部６２が用いるニューラルネットワークは、領域分割画像１５４ａと、領域分割画像１４１ａとが一致するように、すなわち再変換をした結果が変換前に戻るように学習される（図３の矢印３０２）。例えば、奥行き・領域再変換部６２が用いるニューラルネットワークは、領域分割画像１５４ａと領域分割画像１４１ａの差分を表す分類損失関数を最小化することで学習される。

【0052】

奥行き・領域変換部５１および奥行き・領域再変換部６２はニューラルネットワークのパラメータを共有している。このため、奥行き・領域再変換部６２の学習により、領域分割の教師データが欠落する入力画像１１１ａに基づく領域分割の推定結果（領域分割画像１５１ａ）であっても、奥行き・領域変換部５１の学習が可能となる。

【0053】

領域・奥行き変換部５２にも奥行き・領域変換部５１と同様の問題がある。このため、まず領域・奥行き再変換部６１により、領域分割画像１５１ｂが奥行き推定画像１５３ｂに変換される。奥行き推定画像１５３ｂと奥行き推定画像１３１ｂの差分を表す回帰損失関数を最小化することで領域・奥行き再変換部６１が用いるニューラルネットワークが学習される（図３の矢印３１２）。これにより、奥行き推定の教師データが欠落する入力画像１１１ｂに基づく奥行き推定の結果（奥行き推定画像１３１ｂ）であっても、領域・奥行き変換部５２の学習が可能となる。

【0054】

学習時の損失関数として、領域分割画像１５１ｂと対応する領域分割の教師データ１１２ｂとの差分を示す回帰損失関数（図３の矢印３１１）、および、領域分割画像１５４ｂと対応する領域分割の教師データ１１２ｂの差分を示す回帰損失関数がさらに加えられてもよい（図３の矢印３１３）。

【0055】

奥行き推定画像に対する回帰損失関数には、ＢｅｒＨｕ損失などを用いることができる。また、領域分割画像に対する分類損失関数には、ＣｒｏｓｓＥｎｔｒｏｐｙ損失などを用いることができる。

【0056】

変換処理部１１０は、領域分割画像１５１ａを生成部１０４に出力する。

【0057】

図１に戻り、生成部１０４は、変換処理部１１０から出力された領域分割画像１５１ａと、領域分割部１０３ｂから出力された領域分割画像１４１ａとに基づいて、入力画像１１１ａに対応する領域分割の疑似教師データを生成する。

【0058】

疑似教師データを生成することで、入力画像１１１ａが属するドメインに対しても算出部１０２および領域分割部１０３ｂの学習を行うことが可能となる。一方、タスクによる推定が誤っている領域を疑似教師データとして扱うと、誤った教師データによりモデルが学習され、モデルの推定精度が悪化する可能性がある。

【0059】

そこで生成部１０４は、疑似教師データの信頼性が損なわれることを避けるために、疑似教師データに含める画素（疑似教師画素）を、１つまたは複数の信頼度を担保するためのルールに基づいて決定する。例えば、以下のようなルールが適用される。
（Ｒ１）領域分割画像１４１ａと領域分割画像１５１ａの両方で、信頼度が他の画素（要素の一例）より大きい１以上の画素を疑似教師画素とする。信頼度は、例えば各クラスの分類確率である。信頼度が他の画素より大きいかは、例えば、信頼度が閾値より大きい画素であるかにより判定される。
（Ｒ２）領域分割画像１４１ａおよび領域分割画像１５１ａそれぞれで同じ座標に位置する画素が同じクラスに分類されている場合に、その画素を疑似教師画素とする。

【0060】

生成部１０４は、例えば、領域分割画像１５１ａのうち、上記のようなルールに従って決定された疑似教師画素を疑似教師データとし、疑似教師画素以外の画素は分類不可クラスとして扱う。

【0061】

領域分割画像１４１ａと生成された疑似教師データとの差分を示す分類損失関数（ＣｒｏｓｓＥｎｔｒｏｐｙ損失など）を最小化することで、入力画像１１１ｂのみならず、入力画像１１１ａの属するドメインに対しても算出部１０２および領域分割部１０３ｂが用いるモデルを学習することができる。

【0062】

学習部１０５は、上記の各部で用いられるモデルを学習する。例えば学習部１０５は、算出部１０２が特徴画像の算出に用いるモデル、奥行き推定部１０３ａが奥行き推定に用いるモデル、領域分割部１０３ｂが領域分割に用いるモデル、および、変換処理部１１０がデータの変換に用いるモデル、の一部または全部を学習する。

【0063】

学習部１０５は、これらの複数のモデルの一部または全部を統合した１つのモデルを学習してもよいし、複数のモデルをそれぞれ独立に学習してもよい。学習部１０５は、各モデルに対して定められる上記のような損失関数を最小化するように学習を実行する。

【0064】

学習部１０５は、複数のモデルを予め定められた規則に従った順序で学習してもよい。例えば学習部１０５は、奥行き推定部１０３ａが用いるモデル、および、領域分割部１０３ｂが用いるモデルを先に学習し、これらの学習が安定した後に、変換処理部１１０のモデルを学習してもよい。学習部１０５は、奥行き推定部１０３ａが用いるモデルおよび領域分割部１０３ｂが用いるモデルの学習、並びに、変換処理部１１０の学習、を交互に実行するように構成してもよい。

【0065】

学習部１０５は、どのようなアルゴリズムで学習を実行してもよい。例えばモデルとしてニューラルネットワークを適用する場合は、学習部１０５は、勾配法などを用いて学習を実行することができる。

【0066】

上記各部（受付部１０１、算出部１０２、奥行き推定部１０３ａ、領域分割部１０３ｂ、変換処理部１１０、生成部１０４、および、学習部１０５）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

【0067】

各モデルのパラメータは、例えば情報処理装置１００内に備えられる記憶部（図示せず）に記憶されてもよい。記憶部は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

【0068】

次に、このように構成された第１の実施形態にかかる情報処理装置１００による学習処理について説明する。図４は、第１の実施形態における学習処理の一例を示すフローチャートである。

【0069】

受付部１０１は、入力画像の入力を受け付ける（ステップＳ１０１）。入力画像は、ドメインＡに属する入力画像１１１ａであってもよいし、ドメインＢに属する入力画像１１１ｂであってもよい。受付部１０１は、上記のように、受け付けた入力画像に対してデータ処理を実行してもよい。

【0070】

算出部１０２は、受付部１０１から渡された入力画像から特徴画像を算出する（ステップＳ１０２）。

【0071】

奥行き推定部１０３ａは、算出された特徴画像をニューラルネットワークに入力し、奥行き推定画像を推定する（ステップＳ１０３）。また、領域分割部１０３ｂは、算出された特徴画像を対応するニューラルネットワークに入力し、領域分割画像を推定する（ステップＳ１０４）。

【0072】

変換処理部１１０内の奥行き・領域変換部５１は、ステップＳ１０３で生成された奥行き推定画像を領域分割画像に変換する（ステップＳ１０５）。また変換処理部１１０内の領域・奥行き変換部５２は、ステップＳ１０４で生成された領域分割画像を奥行き推定画像に変換する（ステップＳ１０６）。また、変換処理部１１０内の各部の学習のため、領域・奥行き再変換部６１による領域分割画像から奥行き推定画像への再変換、および、奥行き・領域再変換部６２による奥行き推定画像から領域分割画像への再変換も実行される。

【0073】

生成部１０４は、ステップＳ１０５で変換された領域分割画像から、領域分割のモデルのための疑似教師データを生成する（ステップＳ１０７）。学習部１０５は、入力画像、並びに、入力画像に対する教師データおよび生成された疑似教師データを用いた学習を実行する（ステップＳ１０８）。

【0074】

学習された奥行き推定部１０３ａのモデル、および、領域分割部１０３ｂのモデルは、その後の推論処理に使用することができる。図５は、第１の実施形態における推論処理の一例を示すフローチャートである。

【0075】

ステップＳ２０１からステップＳ２０３は、学習処理を示す図４のステップＳ１０１からステップＳ１０３と同様である。奥行き推定部１０３ａおよび領域分割部１０３ｂはそれぞれ推定により得られた奥行き推定画像および領域分割画像を出力し（ステップＳ２０４）、推論処理を終了する。

【0076】

図６は、本実施形態による推論処理で得られる出力データの一例を示す図である。図６の例では、車両に搭載された撮像装置（カメラ）により道路および歩道などを含む車両の前方を撮像して得られる入力画像が用いられる。学習にはＣＧによって生成された画像を用いることも可能であるが、推論処理で用いる入力画像は実世界で撮像された画像である。

【0077】

領域分割画像７０１ｂは、入力画像に対応する領域分割の教師データ（真値画像）である。領域分割画像７０２ｂは、本実施形態を適用しない場合、すなわち、変換処理部１１０および生成部１０４により生成される疑似教師データを用いずに学習したモデルを用いて推論した場合の領域分割の推定結果を表す。領域分割画像７０３ｂは、本実施形態を適用した場合、すなわち、疑似教師データを用いて学習したモデルを用いて推論した場合の領域分割の推定結果を表す。

【0078】

奥行き推定画像７０１ａは、入力画像に対応する奥行き推定の教師データ（真値画像）である。奥行き推定画像７０２ａは、本実施形態を適用しない場合、すなわち、変換処理部１１０および生成部１０４により生成される疑似教師データを用いずに学習したモデルを用いて推論した場合の奥行き推定の推定結果を表す。奥行き推定画像７０３ａは、本実施形態を適用した場合、すなわち、疑似教師データを用いて学習したモデルを用いて推論した場合の奥行き推定の結果を表す。

【0079】

領域分割画像７０２ｂに示されるように、本実施形態を適用しない場合は、歩道領域と道路領域とが混同されている箇所が多い。学習時と推定処理時のドメインの違いが影響していることが要因の１つである。

【0080】

一方、領域分割画像７０３ｂの領域７１２などに示されるように、本実施形態を適用した場合には、歩道領域と道路領域の混同が改善されている。また、領域７１１に示されるように、他の車両が存在する領域（車両領域）の推定の精度も改善されている。このように、本実施形態を適用した場合は、より教師データに近い領域分割が可能であることが確認できる。また、領域分割の改善に伴い奥行き推定が破綻するようなことはなく、マルチタスクネットワークの学習が正常に行われていることが確認できる。

【0081】

このように、第１の実施形態にかかる情報処理装置では、あるタスク（例えば領域分割）の教師データを持たないドメインの画像を用いても、このタスクの学習を行うことが可能となる。

【0082】

（第２の実施形態）
第２の実施形態では、３つのタスクを実行するマルチタスク実行装置である情報処理装置の例を説明する。３つのタスクは、奥行き推定、領域分割（セマンティックセグメンテーション）、および、法線推定である。法線推定は、入力画像から法線推定画像を推定するタスクである。法線推定画像は、画像中の各画素に写る物体表面の法線方向を各画素の画素値として含む画像である。

【0083】

第１の実施形態では、奥行き推定および領域分割の２つのタスクの組みについて疑似データが生成された。本実施形態では、奥行き推定および法線推定の２つのタスクの組みについても疑似データが生成される。

【0084】

２つのタスクの組みはこれらに限られるものではなく、例えば、領域分割および法線推定の２つのタスクの組みであってもよい。４つ以上のタスクを実行するマルチタスク実行装置の場合も同様に、任意の２つのタスクの組みに対して疑似データを生成し、学習に用いることができる。すなわち、疑似データを生成するための２つのタスク（モデル）は、上述したような３以上のタスクから選択される２つのタスクをそれぞれ含む２以上の組みに含まれる２つのタスクとすることができる。

【0085】

図７は、第２の実施形態にかかる情報処理装置１００－２の構成の一例を示すブロック図である。図７に示すように、情報処理装置１００－２は、受付部１０１－２と、算出部１０２と、奥行き推定部１０３ａと、領域分割部１０３ｂと、法線推定部１０３ｃ－２と、変換処理部１１０－２と、生成部１０４－２と、学習部１０５－２と、を備えている。

【0086】

第２の実施形態では、法線推定部１０３ｃ－２を追加したこと、並びに、受付部１０１－２、変換処理部１１０－２、生成部１０４－２および学習部１０５－２の機能が第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる情報処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

【0087】

受付部１０１－２は、さらに、入力画像１１１ａと異なるドメインＣに属する入力画像１１１ｃを含む入力データを受け付ける。入力画像１１１ｃは入力画像１１１ｂと同一のドメイン、または、同一の画像でもよい。入力画像１１１ｃは、対応する法線推定の教師データ（真値画像）を持つ。

【0088】

法線推定部１０３ｃ－２は、入力画像に基づくデータ（特徴画像、または、入力画像など）を法線推定のモデルに入力し、このモデルによる法線推定の実行結果を示す出力データを得る。法線推定のモデルはどのようなモデルであってもよいが、例えば異なるサイズの複数の受容野を持つ畳み込みニューラルネットである。

【0089】

法線推定部１０３ｃ－２で用いられる畳み込みニューラルネットは、法線推定画像と、法線推定の教師データとの差分を示す損失関数を勾配法で最小化することにより学習される。この損失関数は、例えば正規化された推定法線のベクトルｎと正規化された真値ベクトルｎ^ｇｔとの内積を用いて以下の（３）式のように定義できる。（３）式はｎとｎ^ｇｔが同一であるときに最小となる。従って（３）式の最小化によって法線推定部１０３ｃ－２は正しい法線を推定するように学習される。

【数3】

【0090】

変換処理部１１０－２は、奥行き推定画像と法線推定画像との間の変換機能をさらに含む点が、第１の実施形態の変換処理部１１０と異なっている。なお、変換処理部１１０－２による奥行き推定画像と法線推定画像との間の変換処理は、第１の実施形態の変換処理部１１０による変換処理において領域分割を法線推定に置き換えた動作に類似する。図８は、変換処理部１１０－２の機能の詳細を示すブロック図である。

【0091】

図８に示すように、変換処理部１１０－２は、奥行き・領域変換部５１と、領域・奥行き変換部５２と、領域・奥行き再変換部６１と、奥行き・領域再変換部６２と、奥行き・法線変換部５３－２と、法線・奥行き変換部５４－２と、法線・奥行き再変換部６３－２と、奥行き・法線再変換部６４－２と、を備える。

【0092】

第２の実施形態では、奥行き・法線変換部５３－２、法線・奥行き変換部５４－２、法線・奥行き再変換部６３－２、および、奥行き・法線再変換部６４－２を追加したことが第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる変換処理部１１０のブロック図である図２と同様であるので、同一符号を付し、ここでの説明は省略する。

【0093】

奥行き・法線変換部５３－２は、奥行き推定画像１３１ａ、１３１ｂを、それぞれ法線推定画像２２１ａ、２２１ｂに変換する。

【0094】

法線・奥行き変換部５４－２は、法線推定画像２１１（２１１ａ、２１１ｂ）を、奥行き推定画像２２２（２２２ａ、２２２ｂ）に変換する。

【0095】

法線・奥行き再変換部６３－２は、法線推定画像２２１（２２１ａ、２２１ｂ）を、奥行き推定画像２２３（２２３ａ、２２３ｂ）へと戻す再変換を行う。

【0096】

奥行き・法線再変換部６４－２は、奥行き推定画像２２２（２２２ａ、２２２ｂ）を、法線推定画像２２４（２２４ａ、２２４ｂ）へと戻す再変換を行う。

【0097】

奥行き・法線変換部５３－２、法線・奥行き変換部５４－２、奥行き・法線再変換部６４－２、法線・奥行き再変換部６３－２のそれぞれは、算出部１０２と、奥行き推定部１０３ａまたは法線推定部１０３ｃ－２を組み合わせたニューラルネットワークと同等の役割を持つように、例えば畳み込みニューラルネットワークで構成される。

【0098】

奥行き・法線変換部５３－２が用いるモデルおよび奥行き・法線再変換部６４－２が用いるモデルは同様のニューラルネットワーク構成であり、畳み込みニューラルネットワークのパラメータを共有する。奥行き・法線変換部５３－２が用いるモデルおよび奥行き・法線再変換部６４－２を統合し、１つの畳み込みニューラルネットワークとして構成してもよい。

【0099】

法線・奥行き変換部５４－２が用いるモデルおよび法線・奥行き再変換部６３－２が用いるモデルは同様のニューラルネットワーク構成であり、畳み込みニューラルネットワークのパラメータを共有する。法線・奥行き変換部５４－２が用いるモデルおよび法線・奥行き再変換部６３－２を統合し、１つの畳み込みニューラルネットワークとして構成してもよい。

【0100】

変換処理部１１０－２では、まず奥行き・法線変換部５３－２が、奥行き推定画像１３１を法線推定画像２２１に変換する。また、法線・奥行き変換部５４－２が、法線推定画像２１１を奥行き推定画像２２２に変換する。

【0101】

法線推定画像２２１は法線・奥行き再変換部６３－２によって奥行き推定画像２２３へと再変換される。また、奥行き推定画像２２２は奥行き・法線再変換部６４－２によって法線推定画像２２４へと再変換される。

【0102】

変換と再変換を繰り返す目的は、第１の実施形態における変換処理部１１０で述べた目的と同様であり、入力画像の属するドメインのうち、各タスクの教師データがあるドメインに出力が偏ることを防止することである。

【0103】

奥行き・法線変換部５３－２が用いるニューラルネットワークは、入力画像１１１ｃが入力された場合に、法線推定画像２２１と、法線推定の教師データとの差分を示す損失関数を最小化することで学習される。損失関数には例えば（３）式を用いることができる。

【0104】

法線・奥行き変換部５４－２が用いるニューラルネットワークは、入力画像１１１ａが入力された場合に、奥行き推定画像２２２と教師データ１１２ａとの差分を示す損失関数を最小化することで学習される。損失関数には例えば（１）式に示すＢｅｒＨｕ損失などの損失関数を用いることができる。

【0105】

奥行き・法線再変換部６４－２が用いるニューラルネットワークは、入力画像１１１ａが入力された場合には、法線推定画像２２４と法線推定画像２１１との差分を示す損失関数を最小化することで学習される。また、入力画像１１１ｃが入力された場合には、法線推定画像２２４と法線推定の教師データとの差分を示す損失関数を最小化することで学習される。いずれの場合も、損失関数には例えば（３）式を用いることができる。

【0106】

法線・奥行き再変換部６３－２の学習は、入力画像１１１ａが入力された場合には、奥行き推定画像２２２と教師データ１１２ａとの差分を示す損失関数を最小化することで学習される。また、入力画像１１１ｃが入力された場合には、奥行き推定画像２２２と奥行き推定画像１３１との差分を示す損失関数を最小化することで学習される。いずれの場合も、損失関数には例えば（１）式を用いることができる。

【0107】

変換処理部１１０－２は、法線推定画像２２１を生成部１０４－２に出力する。

【0108】

図７に戻り、生成部１０４－２は、変換処理部１１０－２から出力された法線推定画像２２１と、法線推定部１０３ｃ－２から出力された法線推定画像２１１とに基づいて、入力画像１１１ａに対応する法線推定の疑似教師データを生成する機能をさらに備える。

【0109】

生成部１０４－２は、疑似教師データの信頼性が損なわれることを避けるために、疑似教師データに含める画素（疑似教師画素）を、１つまたは複数の信頼度を担保するためのルールに基づいて決定する。例えば、以下のようなルールがさらに適用される。
（Ｒ３）法線推定画像２１１および法線推定画像２２１の同一画素の法線ベクトルのコサイン類似度が他の画素より大きい１以上の画素を疑似教師画素とする。コサイン類似度が他の画素より大きいかは、例えば、コサイン類似度が閾値より大きい画素であるかにより判定される。

【0110】

生成部１０４－２は、例えば、法線推定画像２２１のうち、上記のようなルールに従って算出された疑似教師画素の領域を疑似教師データとし、疑似教師画素以外の画素は損失関数の算出に使用しない領域として扱う。

【0111】

法線推定画像２１１と生成された疑似教師データとの差分を示す誤差関数を最小化することで、入力画像１１１ｃのみならず、入力画像１１１ａの属するドメインに対しても算出部１０２および法線推定部１０３ｃ－２が用いるモデルを学習することができる。損失関数には、（３）式などを用いることができる。

【0112】

学習部１０５－２は、法線推定に関して追加されたモデルを学習する機能をさらに備える点が、第１の実施形態の学習部１０５と異なっている。追加されたモデルの学習には、上述のような損失関数を用いることができる。

【0113】

次に、このように構成された第２の実施形態にかかる情報処理装置１００－２による学習処理について図９を用いて説明する。図９は、第２の実施形態における学習処理の一例を示すフローチャートである。

【0114】

ステップＳ３０１からステップＳ３０４までは、第１の実施形態にかかる情報処理装置１００におけるステップＳ１０１からステップＳ１０４までと同様の処理なので、その説明を省略する。

【0115】

本実施形態では、法線推定部１０３ｃ－２は、算出された特徴画像を対応するニューラルネットワークに入力し、法線推定画像を推定する（ステップＳ３０５）。

【0116】

変換処理部１１０－２内の奥行き・領域変換部５１は、奥行き推定画像を領域分割画像に変換し、奥行き・法線変換部５３－２は、奥行き推定画像を法線推定画像に変換する（ステップＳ３０６）。また変換処理部１１０内の領域・奥行き変換部５２は、領域分割画像を奥行き推定画像に変換し、法線・奥行き変換部５４－２は、法線推定画像を奥行き推定画像に変換する（ステップＳ３０７）。

【0117】

変換処理部１１０－２内の各部の学習のため、領域・奥行き再変換部６１による領域分割画像から奥行き推定画像への再変換、奥行き・領域再変換部６２による奥行き推定画像から領域分割画像への再変換、法線・奥行き再変換部６３－２による法線推定画像から奥行き推定画像への再変換、および、奥行き・法線再変換部６４－２による奥行き推定画像から法線推定画像への再変換も実行される。

【0118】

生成部１０４－２は、変換された領域分割画像から、領域分割のモデルのための疑似教師データを生成する（ステップＳ３０８）。また、生成部１０４－２は、変換された法線推定画像から、法線推定のモデルのための疑似教師データを生成する（ステップＳ３０９）。

【0119】

学習部１０５－２は、入力画像、並びに、入力画像に対する教師データおよび生成された疑似教師データを用いた学習を実行する（ステップＳ３１０）。

【0120】

図１０は、第２の実施形態における推論処理の一例を示すフローチャートである。

【0121】

ステップＳ４０１からステップＳ４０５は、学習処理を示す図９のステップＳ３０１からステップＳ３０５と同様である。奥行き推定部１０３ａ、領域分割部１０３ｂ、および、法線推定部１０３ｃ－２は、それぞれ推定により得られた奥行き推定画像、領域分割画像および法線推定画像を出力し（ステップＳ４０６）、推論処理を終了する。

【0122】

このように、第２の実施形態では、法線推定の教師データを持たないドメインの画像を用いても法線推定の学習を行うことが可能となる。すなわち、教師データの存在する奥行き推定、および、第１の実施形態と同様の領域分割と合わせて３タスクでの学習が可能となる。

【0123】

以上説明したとおり、第１から第２の実施形態によれば、出力空間での変換に基づいて疑似教師データを作成することにより、教師データの欠損しているタスクが存在しても目的のドメインのデータに対して高精度な推定が可能となる。

【0124】

次に、第１または第２の実施形態にかかる情報処理装置のハードウェア構成について図１１を用いて説明する。図１１は、第１または第２の実施形態にかかる情報処理装置のハードウェア構成例を示す説明図である。

【0125】

第１または第２の実施形態にかかる情報処理装置は、ＣＰＵ５５１などの制御装置と、ＲＯＭ（Read Only Memory）５５２やＲＡＭ（Random Access Memory）５５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５５４と、各部を接続するバス５６１を備えている。

【0126】

情報処理装置は、物理的に１つの装置によって構成されてもよいし、物理的に複数の装置によって構成されてもよい。例えば情報処理装置は、クラウド環境上で構築されてもよい。

【0127】

第１または第２の実施形態にかかる情報処理装置で実行されるプログラムは、ＲＯＭ５５２等に予め組み込まれて提供される。

【0128】

第１または第２の実施形態にかかる情報処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

【0129】

さらに、第１または第２の実施形態にかかる情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１または第２の実施形態にかかる情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

【0130】

第１または第２の実施形態にかかる情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ５５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

【0131】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0132】

１００、１００－２情報処理装置
１０１、１０１－２受付部
１０２算出部
１０３ａ奥行き推定部
１０３ｂ領域分割部
１０３ｃ－２法線推定部
１０４、１０４－２生成部
１０５、１０５－２学習部
１１０、１１０－２変換処理部
５１奥行き・領域変換部
５２領域・奥行き変換部
５３－２奥行き・法線変換部
５４－２法線・奥行き変換部
６１領域・奥行き再変換部
６２奥行き・領域再変換部
６３－２法線・奥行き再変換部
６４－２奥行き・法線再変換部

【図1】