特表2022-525845 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特表2022-525845一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
3D
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-05-20

(54)【発明の名称】一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション

(51)【国際特許分類】

G06T 7/00 20170101AFI20220513BHJP

【ＦＩ】

G06T7/00 350C

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2021548653

(86)(22)【出願日】2020-02-19

(85)【翻訳文提出日】2021-07-27

(86)【国際出願番号】 IB2020051393

(87)【国際公開番号】W WO2020170167

(87)【国際公開日】2020-08-27

(31)【優先権主張番号】16/281,353

(32)【優先日】2019-02-21

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

２．ＺＩＧＢＥＥ

(71)【出願人】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】100092093

【弁理士】

【氏名又は名称】辻居幸一

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【識別番号】100109335

【弁理士】

【氏名又は名称】上杉浩

(74)【代理人】

【識別番号】100120525

【弁理士】

【氏名又は名称】近藤直樹

(74)【代理人】

【識別番号】100158551

【弁理士】

【氏名又は名称】山崎貴明

(72)【発明者】

【氏名】武田浩行

(72)【発明者】

【氏名】ガラヴィ－アルカンサリモハンマド

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096DA01

5L096FA19

5L096HA02

5L096HA08

5L096HA11

5L096KA04

5L096KA15

(57)【要約】

カラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置及び方法を提供する。画像処理装置は、第１のニューラルネットワークモデルに基づいて、一連のカラー画像フレームのうちの第１のカラー画像フレーム及びその後のカラー画像フレーム内の関心オブジェクトのための第１の前景マスク及び第２の前景マスクをそれぞれ生成する。画像処理装置は、第１の前景マスク及び第２の前景マスクの補間に基づいて第３の前景マスクを決定し、第２のニューラルネットワークモデルを使用して第３の前景マスクを第４の前景マスクに更新する。画像処理装置は、第１の前景マスク、第２の前景マスク及び第４の前景マスクを使用して、少なくとも第１のカラー画像フレーム、その後のカラー画像フレーム及び中間カラー画像フレームからそれぞれ関心オブジェクトをセグメント化する。
【選択図】図４

【特許請求の範囲】

【請求項1】

画像処理装置であって、
一連のカラー画像フレームを取り込むように構成されたイメージセンサと、
第１のニューラルネットワークモデル及び第２のニューラルネットワークモデルを記憶するように構成されたメモリと、
制御回路と、
を備え、前記制御回路は、
前記第１のニューラルネットワークモデルに基づいて、前記一連のカラー画像フレームのうちの第１のカラー画像フレームにおける関心オブジェクトのための第１の前景マスクを生成し、
前記第１のニューラルネットワークモデルに基づいて、前記一連のカラー画像フレームのうちの前記第１のカラー画像フレームに隣接していないその後のカラー画像フレームにおける前記関心オブジェクトのための第２の前景マスクを生成し、
前記第１の前景マスク及び前記第２の前景マスクの補間に基づいて第３の前景マスクを決定し、
前記決定された第３の前景マスクと、前記第１のカラー画像フレームと前記その後のカラー画像フレームとの間に存在する中間カラー画像フレームとに基づいて、前記第２のニューラルネットワークモデルを使用して、前記第３の前景マスクを該第３の前景マスクの精細化された前景マスクを表す第４の前景マスクに更新し、
少なくとも前記第１の前景マスクを使用して前記第１のカラー画像フレームから、前記第２の前景マスクを使用して前記その後のカラー画像フレームから、及び前記第４の前景マスクを使用して前記中間カラー画像フレームから、前記関心オブジェクトをセグメント化する、
ように構成される、
ことを特徴とする画像処理装置。

【請求項2】

前記第１のニューラルネットワークモデルは、画像ペアの組で訓練される事前訓練モデルであり、前記画像ペアの組の各画像ペアは、カラー画像フレーム及び前景マスク画像を含み、各画像ペアは、少なくともセグメント化すべき前記関心オブジェクトを含む、
請求項１に記載の画像処理装置。

【請求項3】

前記制御回路は、前記第１のニューラルネットワークモデルを利用して、前記一連のカラー画像フレームからの任意の入力カラー画像フレームから、該任意の入力カラー画像の１又は２以上の先行するカラー画像フレーム又は後続のカラー画像フレームからの画像情報とは無関係に前記関心オブジェクトの前景マスクを推定するように構成される、
請求項１に記載の画像処理装置。

【請求項4】

前記第１のニューラルネットワークモデルは、第１の畳み込みニューラルネットワークであり、前記第２のニューラルネットワークモデルは、前記第１の畳み込みニューラルネットワークとは異なる第２の畳み込みニューラルネットワークである、
請求項１に記載の画像処理装置。

【請求項5】

前記第１のニューラルネットワークモデルは、少なくともサイクル時間パラメータが前記第２のニューラルネットワークモデルと異なり、
前記サイクル時間パラメータは、前記一連のカラー画像フレームのうちの入力カラー画像フレームがニューラルネットワークモデルに通された時に前記入力カラー画像フレームの出力前景マスクを生成するための総時間を示し、
前記第２のニューラルネットワークモデルは、前記第１のニューラルネットワークモデルに比べてサイクル時間が短く高速である、
請求項１に記載の画像処理装置。

【請求項6】

前記制御回路は、前記第１のニューラルネットワークモデルの入力－出力画像ペアに基づいて前記第２のニューラルネットワークモデルを訓練するように構成される、
請求項５に記載の画像処理装置。

【請求項7】

前記制御回路は、前記第１のニューラルネットワークモデルに基づいて前記第１のカラー画像フレームを前景領域及び背景領域に分類するようにさらに構成され、前記前景領域は、二値画像である前記生成された第１の前景マスクにマッピングされる、
請求項１に記載の画像処理装置。

【請求項8】

前記制御回路は、前記第１のニューラルネットワークモデルに基づいて前記その後のカラー画像フレームを前景領域及び背景領域に分類するようにさらに構成され、前記前景領域は、二値画像である前記生成された第２の前景マスクにマッピングされる、
請求項１に記載の画像処理装置。

【請求項9】

前記補間は、前記第１の前景マスク及び前記第２の前景マスクの線形補間とすることができる、
請求項１に記載の画像処理装置。

【請求項10】

前記制御回路は、前記第１の前景マスク及び前記第２の前景マスクの前記線形補間において、前記第１の前景マスクの第１のオブジェクト境界及び前記第２の前景マスクの第２のオブジェクト境界から前記関心オブジェクトのオブジェクト境界を近似して正規化する近似操作を適用して、二値画像である前記第３の前景マスクを生成するように構成される、
請求項９に記載の画像処理装置。

【請求項11】

前記制御回路は、前記一連のカラー画像フレームのうちの第１の非連続フレームの組の各フレームに対応する、前記第１のニューラルネットワークモデルに基づいて生成された異なる出力前景マスクを使用して、前記第１の非連続フレームの組から前記関心オブジェクトをセグメント化するようにさらに構成され、前記異なる出力前景マスクは、少なくとも前記第１の前景マスク及び前記第２の前景マスクを含む、
請求項１に記載の画像処理装置。

【請求項12】

前記制御回路は、前記一連のカラー画像フレームのうちの第２の非連続フレームの組の各フレームに対応する、前記第２のニューラルネットワークモデルに基づいて生成された異なる出力前景マスクを使用して、前記第２の非連続フレームの組から前記関心オブジェクトをセグメント化するようにさらに構成され、前記異なる出力前景マスクは、少なくとも前記第４の前景マスクを含む、
請求項１１に記載の画像処理装置。

【請求項13】

イメージセンサと、第１のニューラルネットワークモデル及び第２のニューラルネットワークモデルを記憶するメモリと、制御回路とを備えた画像処理装置において、
前記イメージセンサが一連のカラー画像フレームを取り込むステップと、
前記制御回路が、前記第１のニューラルネットワークモデルに基づいて、前記一連のカラー画像フレームのうちの第１のカラー画像フレームにおける関心オブジェクトのための第１の前景マスクを生成するステップと、
前記制御回路が、前記第１のニューラルネットワークモデルに基づいて、前記一連のカラー画像フレームのうちの前記第１のカラー画像フレームに隣接していないその後のカラー画像フレームにおける前記関心オブジェクトのための第２の前景マスクを生成するステップと、
前記制御回路が、前記第１の前景マスク及び前記第２の前景マスクの補間に基づいて第３の前景マスクを決定するステップと、
前記制御回路が、前記補間に基づいて生成された前記第３の前景マスクと、前記第１のカラー画像フレームと前記その後のカラー画像フレームとの間に存在する中間カラー画像フレームとに基づいて、前記第１のニューラルネットワークモデルとは異なる前記第２のニューラルネットワークモデルを使用して、前記第３の前景マスクを該第３の前景マスクの精細化された前景マスクを表す第４の前景マスクに更新するステップと、
前記制御回路が、少なくとも前記第１の前景マスクを使用して前記第１のカラー画像フレームから、前記第２の前景マスクを使用して前記その後のカラー画像フレームから、及び前記第４の前景マスクを使用して前記中間カラー画像フレームから、前記関心オブジェクトをセグメント化するステップと、
を含むことを特徴とする方法。

【請求項14】

前記第１のニューラルネットワークモデルは、画像ペアの組で訓練される事前訓練モデルであり、前記画像ペアの組の各画像ペアは、カラー画像フレーム及び前景マスク画像を含み、各画像ペアは、少なくともセグメント化すべき前記関心オブジェクトを含む、
請求項１３に記載の方法。

【請求項15】

前記制御回路が、前記第１のニューラルネットワークモデルに基づいて、前記一連のカラー画像フレームからの任意の入力カラー画像フレームから、該任意の入力カラー画像の１又は２以上の先行するカラー画像フレーム又は後続のカラー画像フレームからの画像情報とは無関係に前記関心オブジェクトの前景マスクを推定するステップをさらに含む、
請求項１３に記載の方法。

【請求項16】

前記第１のニューラルネットワークモデルは、第１の畳み込みニューラルネットワークであり、前記第２のニューラルネットワークモデルは、前記第１の畳み込みニューラルネットワークとは異なる第２の畳み込みニューラルネットワークである、
請求項１３に記載の方法。

【請求項17】

【請求項18】

前記制御回路が、前記第１のニューラルネットワークモデルの入力－出力画像ペアに基づいて前記第２のニューラルネットワークモデルを訓練するステップをさらに含む、
請求項１３に記載の方法。

【請求項19】

前記制御回路が、前記第１のニューラルネットワークモデルを使用して前記第１のカラー画像フレームを前景領域及び背景領域に分類するステップをさらに含み、前記前景領域は、二値画像である前記生成された第１の前景マスクにマッピングされる、
請求項１３に記載の方法。

【請求項20】

前記補間は、前記第１の前景マスク及び前記第２の前景マスクの線形補間とすることができる、
請求項１３に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

〔関連出願との相互参照／引用による組み入れ〕
なし。

【0002】

本開示の様々な実施形態は、学習ベースの画像処理、コンピュータビジョン、及びカメラ技術に関する。具体的には、本開示の様々な実施形態は、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置及び方法に関する。

【背景技術】

【0003】

画像処理、コンピュータビジョン及びカメラ技術の分野の発展は、オブジェクトセグメンテーションなどの様々な画像処理システム及び技術の進歩をもたらした。従来のオブジェクトセグメンテーション装置は、異なるオブジェクトセグメンテーション技術に基づいて、シーンの画像から（人間の体又は人間の顔などの）関心オブジェクトをセグメント化することができる。このようなオブジェクトセグメンテーション技術の例としては、圧縮ベース、カラーベース、深度ベース、ヒストグラムベース、セマンティックセグメンテーションベース、又はシーン解析ベースのオブジェクトセグメンテーション技術を挙げることができる。

【発明の概要】

【発明が解決しようとする課題】

【0004】

現在、従来のカラーベースのセグメンテーション法の１つでは、取り込み画像から所定の静止背景画像を除去することに基づいて、取り込み画像から関心オブジェクトをセグメント化することができる。しかしながら、従来のオブジェクトセグメンテーション装置は、所定の静止背景画像を生成するために、シーン内に関心オブジェクトが存在しない時には最初に一連のシーン画像を取り込むことが必要な場合があり、このことは望ましくないと考えられる。シーンの所定の静止背景画像は、取り込まれた一連の画像から生成することができる。従来の背景画像除去法は、静止カメラを使用してシーンから一連の画像を取り込むことをさらに必要とし得る。カメラ位置がわずかに移動又は変動しただけで、静止背景画像の再推定が必要になることもある。

【0005】

別の従来の深度ベース法では、従来のオブジェクトセグメンテーション装置が、深度センサによって取り込むことができる深度画像を使用することによって関心オブジェクトをセグメント化することができる。深度センサが無効な深度値を含むノイズの多い深度画像を取り込んだ場合、従来のオブジェクトセグメンテーション装置は、取り込み画像から誤って不正確に関心オブジェクトをセグメント化する恐れがある。通常、他の従来のセマンティックセグメンテーション法又はシーン解析ベースのオブジェクトセグメンテーション法は２つのカテゴリに分類される。第１のカテゴリは、カラー画像のみを利用する比較的正確なものであるが、オブジェクトの処理及びセグメント化が遅すぎる。このため、このような従来のセマンティックセグメンテーション法又はシーン解析ベースのオブジェクトセグメンテーション法の実用的な使用が不可能になる場合があり、第２のカテゴリは、比較的高速であるが不正確である。

【0006】

当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法のさらなる限界及び不利点が明らかになるであろう。

【課題を解決するための手段】

【0007】

少なくとも１つの図に関連して図示及び／又は説明し、特許請求の範囲にさらに完全に示すような、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置及び方法を提供する。

【0008】

全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。

【図面の簡単な説明】

【0009】

【図1】本開示の実施形態による、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置のネットワーク環境を示すブロック図である。

【図2】本開示の実施形態による、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための例示的な画像処理装置を示すブロック図である。

【図3A】本開示の実施形態による、２つの畳み込みニューラルネットワーク（ＣＮＮ）に基づく一連のカラー画像フレームからのオブジェクトセグメンテーションのための例示的な処理パイプラインを示す図である。

【図3B】本開示の実施形態による、図３Ａの第２のＣＮＮの例示的な訓練データセットの準備を示す図である。

【図3C】本開示の実施形態による、２つの前景マスクの例示的な線形補間を示す図である。

【図3D】本開示の実施形態による、中間画像フレームの前景マスクを生成するための、図３Ａの第２のＣＮＮへの例示的な入力を示す図である。

【図4】本開示の実施形態による、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための例示的な方法を示すフローチャートである。

【発明を実施するための形態】

【0010】

複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置及び方法では、様々な実装を見出すことができる。本開示の例示的な態様は、第１のニューラルネットワークモデル及び第２のニューラルネットワークモデルなどの複数のニューラルネットワークモデルを利用して、一連のカラー画像フレームから人間オブジェクトなどの関心オブジェクトをセグメント化するように構成できる画像処理装置を含むことができる。第１のニューラルネットワークモデルは、畳み込みニューラルネットワーク（ＣＮＮ）などの事前訓練モデルとすることができる。一般に、ＣＮＮなどのニューラルネットワークの訓練データセットの準備は、通常は訓練データセットのための正確な出力が手動で作成されるので面倒である。従って、第１のニューラルネットワークモデルが利用可能になると、第２のニューラルネットワークモデルのグラウンドトゥルースとも呼ばれる真の前景マスクを手動で作成する必要なく、第１のニューラルネットワークモデルの入力－出力画像ペア及び異なるビデオに基づいて第２のニューラルネットワークモデルのための訓練データセットを生成することができる。

【0011】

開示する画像処理装置は、従来の手法とは対照的に、変形又は移動オブジェクトとすることができる関心オブジェクトを一連のカラー画像フレームからリアルタイム又は近リアルタイムで正確にセグメント化する。一連のカラー画像フレームからの関心オブジェクトのセグメンテーションにおいて使用される２つの異なるニューラルネットワークモデルは、従来のオブジェクトセグメンテーション法と比べた時に、最低限のセグメンテーションエラーを保証して、一連のカラー画像フレームから関心オブジェクトをセグメント化するためのフレーム当たりの処理速度を改善することができる。

【0012】

図１は、本開示の実施形態による、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置のネットワーク環境を示すブロック図である。図１にはネットワーク環境１００を示す。ネットワーク環境１００は、画像処理装置１０２及びサーバ１０４を含むことができる。画像処理装置１０２は、イメージセンサ１０２Ａなどの１又は２以上のセンサを含むことができる。画像処理装置１０２は、通信ネットワーク１０６を介してサーバ１０４に通信可能に結合することができる。さらに、人間オブジェクト１０８Ａ、無生物オブジェクト１０８Ｂ（例えば、家具アイテム）、及び生物オブジェクト１０８Ｃ（例えば、動物）などの複数のオブジェクトを含むシーン１０８も示す。イメージセンサ１０２Ａは、画像処理装置１０２の視野から見たシーン１０８の一連のカラー画像フレーム１１０を取り込むように構成することができる。画像処理装置１０２は、第１のニューラルネットワークモデル１１２Ａ及び第２のニューラルネットワークモデル１１２Ｂをさらに含むことができる。

【0013】

画像処理装置１０２は、イメージセンサ１０２Ａから一連のカラー画像フレーム１１０を受け取るように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。画像処理装置１０２は、一連のカラー画像フレーム１１０から人間オブジェクト１０８Ａなどの関心オブジェクトをセグメント化するようにさらに構成することができる。画像処理装置１０２の機能は、高速コンピュータ装置又はカメラなどのポータブル装置、及び／又はサーバ１０４などの非ポータブル装置に実装することができる。画像処理装置１０２の例としては、以下に限定するわけではないが、デジタルカメラ、デジタルカムコーダ、カメラフォン、スマートフォン、仮想現実装置、ゲーム機、モバイル装置又はハードウェアビデオプレーヤを挙げることができる。画像処理装置１０２の他の例としては、以下に限定するわけではないが、テレビ、家庭用娯楽システム、拡張現実装置及び（スマートメガネなどの）スマートウェアラブルを挙げることができる。

【0014】

イメージセンサ１０２Ａは、シーン１０８の一連のカラー画像フレーム１１０を取り込むように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。一連のカラー画像フレーム１１０は、赤色、緑色及び青色（ＲＧＢ）カラーモデル、色相、彩度及び明度（ＨＳＢ）カラーモデル、シアン、黄色、マゼンタ及び黒色（ＣＹＭＫ）カラーモデル、又は（Ｌが輝度を表し、Ａ及びＢが色彩成分である）ＬＡＢカラーモデルなどの、少なくとも１つのカラーモデルで取り込むことができる。イメージセンサ１０２Ａは、シーン１０８及び／又はシーン１０８内の特定の関心オブジェクトに合焦できる集束レンズなどの好適な光学機器を有することができる。イメージセンサ１０２Ａの実装例としては、以下に限定するわけではないが、半導体電荷結合素子（ＣＣＤ）ベースのイメージセンサ、相補型金属酸化膜半導体（ＣＭＯＳ）ベースのイメージセンサ、グローバルシャッターを有するバックライト付きＣＭＯＳセンサ、シリコンオンインシュレータ（ＳＯＩ）ベースのシングルチップイメージセンサ、Ｎ型金属酸化膜半導体ベースのイメージセンサ、フラットパネル検出器、又はその他のイメージセンサを挙げることができる。いくつかの実施形態では、イメージセンサ１０２Ａに加えて、深度センサを使用してシーン１０８の一連のカラー画像フレーム１１０に対応する一連の深度画像を取り込むことができる。いくつかの実施形態では、イメージセンサ１０２Ａを画像処理装置１０２内に一体化することができる。いくつかの実施形態では、イメージセンサ１０２Ａを画像処理装置１０２内に一体化しないこともできる。このような事例では、様々な有線及び無線通信プロトコルを介してイメージセンサ１０２Ａを画像処理装置１０２に通信可能に結合することができる。

【0015】

サーバ１０４は、第１のニューラルネットワークモデル１１２Ａ及び／又は第２のニューラルネットワークモデル１１２Ｂなどのニューラルネットワークモデルの訓練データを記憶するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。サーバ１０４の例としては、以下に限定するわけではないが、データベースサーバ、ファイルサーバ、ウェブサーバ、クラウドサーバ、アプリケーションサーバ、メインフレームサーバ、又はその他のタイプのサーバを挙げることができる。

【0016】

通信ネットワーク１０６は、画像処理装置１０２とサーバ１０４とが互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク１０６の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、無線フィデリティ（Ｗｉ－Ｆｉ）ネットワーク、パーソナルエリアネットワーク（ＰＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、又はメトロポリタンエリアネットワーク（ＭＡＮ）を挙げることができる。ネットワーク環境１００内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク１０６に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、ファイル転送プロトコル（ＦＴＰ）、ＺｉｇＢｅｅ、ＥＤＧＥ、ＩＥＥＥ８０２．１１、ライトフィデリティ（Ｌｉ－Ｆｉ）、８０２．１６、ＩＥＥＥ８０２．１１ｓ、ＩＥＥＥ８０２．１１ｇ、マルチホップ通信、無線アクセスポイント（ＡＰ）、装置間通信、セルラー通信プロトコル、及びＢｌｕｅｔｏｏｔｈ（ＢＴ）通信プロトコルのうちの少なくとも１つを挙げることができる。

【0017】

第１のニューラルネットワークモデル１１２Ａ及び第２のニューラルネットワークモデル１１２Ｂは、画像処理装置１０２内に提供することができる。ある実施形態によれば、第１のニューラルネットワークモデル１１２Ａは、第１の畳み込みニューラルネットワーク（ＣＮＮ）であることができ、第２のニューラルネットワーク１１２Ｂは、第１のＣＮＮとは異なることができる第２のＣＮＮであることができる。第１のニューラルネットワークモデル１１２Ａ及び第２のニューラルネットワークモデル１１２Ｂの他の例としては、機械学習モデル、再帰型ニューラルネットワーク（ＲＮＮ）などの深層学習モデル、ＣＮＮ、又は長短期メモリ（ＬＳＴＭ）ベースのＲＮＮ、コネクショニストテンポラルクラシフィケーション（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ：ＣＴＣ）ベースのＲＮＮ、又は敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ：ＧＡＮ）を挙げることができる。いくつかの実施形態では、第１のニューラルネットワークモデル１１２Ａ又は第２のニューラルネットワークモデル１１２Ｂの少なくとも一方を、画像処理装置１０２内の専門的ニューラルネットワーク回路として実装することができる。いくつかの実施形態では、第１のニューラルネットワークモデル１１２Ａ又は第２のニューラルネットワークモデル１１２Ｂを、ニューラルスキーマ又は人工知能（ＡＩ）ベースのアプリケーションとして画像処理装置１０２に記憶することができる。

【0018】

ある実施形態によれば、第１のニューラルネットワークモデル１１２Ａは、事前訓練モデルとすることができる。第１のニューラルネットワークモデル１１２Ａは、画像処理装置１０２に配置する前に画像ペアの組で訓練することができる。画像ペアの組の各画像ペアは、カラー画像フレーム及び前景マスク画像を含むことができる。各画像ペアは、少なくともセグメント化すべき関心オブジェクトを含むことができる。１つの例では、サーバ１０４を、第１のニューラルネットワークモデル１１２Ａを記憶するように構成することができる。サーバ１０４は、テストシーンのテストビデオを使用して第１のニューラルネットワークモデル１１２Ａを画像ペアの組で訓練するように構成することができる。

【0019】

第１のニューラルネットワークモデル１１２Ａは、入力層、１又は２以上の隠れ層及び出力層などの複数の層状に配置された、複数の相互接続されたプロセッシングユニットを有するニューラルスキーマを含むことができる。１つの層における各プロセッシングユニットは、重みとしても知られている異なる接続強度又はパラメータで相互接続することができる。

【0020】

第１のニューラルネットワークモデル１１２Ａの訓練中には、入力層を介して画像ペアの組の入力カラー画像を第１のニューラルネットワークモデル１１２Ａに通すことができる。場合によっては、関心オブジェクトの特性を定める１又は２以上の特徴を入力層において提供することもできる。出力層は、初期前景マスク画像の出力を生成することができる。第１のニューラルネットワークモデル１１２Ａによる訓練の初期段階で前景マスク画像の不正確な出力が生成された場合には、第１のニューラルネットワークモデル１１２Ａに正確な前景マスク画像を提供することができる。次に、この（真の前景マスク画像としても知られている）正確な前景マスクを、第１のニューラルネットワークモデル１１２Ａの以前の出力と比較することができる。この正確な前景マスクと第１のニューラルネットワークモデル１１２Ａの前の出力との比較結果としての差分を第１のニューラルネットワークモデル１１２Ａに戻すことができる。これに従って、次回に重みを調整することができる。従って、通常、ＣＮＮのための訓練データセットの準備は面倒である。

【0021】

いくつかの事例では、通常は真の前景マスク画像などの真の出力が手動で作成される。しかしながら、第１のニューラルネットワークモデル１１２Ａは、テストビデオの異なるカラー画像フレーム（例えば、ＲＧＢ入力フレーム）を使用して訓練が進むにつれて、訓練の基礎となる関心オブジェクトの前景マスク画像の正確な出力を学習して生成できるようになる。例えば、関心オブジェクトが人間形状オブジェクトである場合、第１のニューラルネットワークモデル１１２Ａは、訓練されると、人間形状オブジェクトを有するテストビデオ又は新たなビデオの任意の入力カラー画像フレームの正確な前景マスク画像を予測して出力することができる。複数の相互接続されたプロセッシングユニットにおけるプロセッシングユニットの数は、第１のＣＮＮなどのニューラルネットワークの計算の複雑さを定めるだけでなく、ニューラルネットワークの出力に関する精度の維持に寄与することもできる。プロセッシングユニットの数が多ければ多いほど、計算の複雑さは増すようになる。第１のニューラルネットワークモデル１１２Ａ（例えば、第１のＣＮＮ）は、第２のニューラルネットワークモデル１１２Ｂに比べて計算負荷の重いＣＮＮとすることができる。第１のニューラルネットワークモデル１１２Ａの訓練は、１回限りの動作（ｏｎｅ－ｔｉｍｅａｃｔｉｖｉｔｙ）とすることができる。第１のニューラルネットワークモデル１１２Ａは、訓練されると、オブジェクトセグメンテーションを目的として画像処理装置１０２などの様々な電子装置において使用及び／又は配置することができる。

【0022】

動作時には、イメージセンサ１０２Ａを、シーン１０８の一連のカラー画像フレーム１１０を取り込むように構成することができる。いくつかの実施形態では、画像処理装置１０２を、サーバ１０４から第１のニューラルネットワークモデル１１２Ａ及び第２のニューラルネットワークモデル１１２Ｂを受け取るように構成することができる。いくつかの実施形態では、第１のニューラルネットワークモデル１１２Ａ及び第２のニューラルネットワークモデル１１２Ｂを画像処理装置１０２内に事前インストール及び／又は事前構成することができる。

【0023】

画像処理装置１０２は、第１のニューラルネットワークモデル１１２Ａに基づいて、一連のカラー画像フレーム１１０のうちの第１のカラー画像フレーム１１０Ａ内に人間オブジェクト１０８Ａなどの関心オブジェクトの第１の前景マスクを生成するようにさらに構成することができる。画像処理装置１０２は、第１のニューラルネットワークモデル１１２Ａを利用して、一連のカラー画像フレーム１１０からの任意の入力カラー画像フレームから、関心オブジェクトの第１の前景マスクなどの前景マスクを推定するように構成することができる。第１の前景マスクなどの前景マスクの推定は、任意の入力カラー画像の１又は２以上の先行するカラー画像フレーム又は後続のカラー画像フレームからの画像情報に依存しないことができる。換言すれば、第１のニューラルネットワークモデル１１２Ａ（例えば、事前訓練モデルである第１のＣＮＮ）は、関心オブジェクトの第１の前景マスクなどの異なる前景マスクを生成するために基準フレームを必要としないことができる。

【0024】

画像処理装置１０２は、一連のカラー画像フレーム１１０の第１のカラー画像フレーム１１０Ａに隣接していないその後のカラー画像フレーム内に、第１のニューラルネットワークモデル１１２Ａに基づいて人間オブジェクト１０８Ａなどの関心オブジェクトの第２の前景マスクを生成するようにさらに構成することができる。例えば、第１のカラー画像フレーム１１０Ａに隣接していないその後のカラー画像フレームは、一連のカラー画像フレーム１１０の第３のカラー画像フレーム１１０Ｃとすることができる。

【0025】

画像処理装置１０２は、第１の前景マスク及び第２の前景マスクの補間に基づいて第３の前景マスクを決定するようにさらに構成することができる。例示的な実施形態によれば、この補間は、第１の前景マスク及び第２の前景マスクの線形補間とすることができる。別の実施形態によれば、この補間は、第１の前景マスク及び第２の前景マスクの非線形補間とすることもできる。画像処理装置１０２が第３の前景マスクを決定するために実行できる補間技術には、様々なものが存在することができる。線形補間技術の例としては、以下に限定するわけではないが、平均化ベースの補間、バイリニア補間、線形スプライン補間、及びその他の線形多項式補間を挙げることができる。非線形補間技術の例としては、以下に限定するわけではないが、余弦補間及びその他の非線形多項式補間を挙げることができる。

【0026】

線形補間では、第１の前景マスク及び第２の前景マスクなどの２つのマスクフレームの平均を、第３の前景マスクとすることができるラフな前景マスクとして解釈することができる。ある実施形態によれば、画像処理装置１０２は、第１の前景マスクの第１のオブジェクト境界及び第２の前景マスクの第２のオブジェクト境界から関心オブジェクトのオブジェクト境界を近似して正規化する近似操作を適用して、第３の前景マスクを生成するようにさらに構成することができる。

【0027】

ある実施形態によれば、画像処理装置１０２は、第２のニューラルネットワークモデル１１２Ｂを使用して、第３の前景マスクを第３の前景マスクの精細化された前景マスクを表す第４の前景マスクに更新するようにさらに構成することができる。第２のニューラルネットワークモデル１１２Ｂは、少なくともサイクル時間パラメータが第１のニューラルネットワークモデル１１２Ａとは異なることができる。サイクル時間パラメータは、第１のニューラルネットワークモデル１１２Ａ又は第２のニューラルネットワークモデル１１２Ｂなどのニューラルネットワークモデルに入力カラー画像フレームが通された時に一連のカラー画像フレーム１１０のうちの入力カラー画像フレームの出力前景マスクを生成するための総時間を示す。第２のニューラルネットワークモデル１１２Ｂは、第１のニューラルネットワークモデル１１２Ａに比べてサイクル時間が短い高速なものとすることができる。従って、第２のニューラルネットワークモデル１１２Ｂは、第１のニューラルネットワークモデル１１２Ａ（例えば、第１のＣＮＮ）などの計算負荷の重いＣＮＮと同様の正確なマスクを出力できる計算負荷の軽いＣＮＮと呼ぶこともできる。

【0028】

画像処理装置１０２は、第１のニューラルネットワークモデル１１２Ａの入力－出力画像ペアに基づいて、第２のニューラルネットワークモデル１１２Ｂを使用して生成される精細化された前景マスクと、第１のニューラルネットワークモデル１１２Ａ（例えば、第１の計算負荷の重いＣＮＮ）によって生成される前景マスクとの間の差分が最小化されるように第２のニューラルネットワークモデル１１２Ｂを訓練するようにさらに構成することができる。第４の前景マスクは、（第２のカラー画像フレーム１１０Ｂなどの）中間カラー画像フレーム及び決定された第３の前景マスクに基づいて生成することができる。（第２のカラー画像フレーム１１０Ｂなどの）中間カラー画像フレームは、第１のカラー画像フレーム１１０Ａと（第３のカラー画像フレーム１１０Ｃなどの）その後のカラー画像フレームとの間に位置することができる。

【0029】

画像処理装置１０２は、少なくとも第１の前景マスクを使用して第１のカラー画像フレーム１１０Ａから、及び第２の前景マスクを使用して（第３のカラー画像フレーム１１０Ｃなどの）その後のカラー画像フレームから、関心オブジェクトをセグメント化するようにさらに構成することができる。画像処理装置１０２は、第４の前景マスクを使用して（第２のカラー画像フレーム１１０Ｂなどの）中間カラー画像フレームから関心オブジェクトをセグメント化するようにさらに構成することができる。従って、第１のニューラルネットワークモデル１１２Ａに基づいて、第１の非連続フレームの組（例えば、第１のカラー画像フレーム１１０Ａ、第３のカラー画像フレーム１１０Ｃ、及び一連のカラー画像フレーム１１０の他の全ての隣接していない画像フレーム）の各フレームに対応する異なる出力前景マスクを生成することができる。

【0030】

画像処理装置１０２は、第１の非連続フレームの組の各フレームに対応する異なる出力前景マスクを使用して、一連のカラー画像フレーム１１０の第１の非連続フレームの組から人間オブジェクト１０８Ａなどの関心オブジェクトをセグメント化するようにさらに構成することができる。同様に、第２のニューラルネットワークモデル１１２Ｂに基づいて、第２の非連続フレームの組の各フレーム（例えば、第２のカラー画像フレーム１１０Ｂ、及び互いに隣接していない一連のカラー画像フレーム１１０の他の全ての中間画像フレーム）に対応する異なる出力前景マスクを生成することもできる。画像処理装置１０２は、第２の非連続フレームの組の各フレームに対応する異なる出力前景マスクを使用して、一連のカラー画像フレーム１１０の第２の非連続フレームの組から人間オブジェクト１０８Ａなどの関心オブジェクトをセグメント化するようにさらに構成することができる。

【0031】

図２は、本開示の実施形態による、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための例示的な画像処理装置を示すブロック図である。図２の説明は、図１の要素に関連して行う。図２には、画像処理装置１０２のブロック図２００を示す。画像処理装置１０２は、制御回路２０２を含むことができる。制御回路２０２は、オブジェクトセグメンテーション回路２０４などの１又は２以上の専門的なプロセッシングユニットを含むことができる。画像処理装置１０２は、メモリ２０６、ネットワークインターフェイス２０８、及びＩ／Ｏ装置２１０などの１又は２以上の入力／出力（Ｉ／Ｏ）装置をさらに含むことができる。画像処理装置１０２は、イメージセンサ１０２Ａをさらに含むことができる。メモリ２０６は、第１のニューラルネットワークモデル１１２Ａ及び第２のニューラルネットワークモデル１１２Ｂを記憶するように構成することができる。いくつかの実施形態では、第１のニューラルネットワークモデル１１２Ａ及び第２のニューラルネットワークモデル１１２Ｂを、画像処理装置１０２内のＡＩ加速器回路と共に実装することができる。

【0032】

制御回路２０２は、一連のカラー画像フレーム１１０の各々から関心オブジェクトをセグメント化するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。制御回路２０２は、オブジェクトセグメンテーション回路２０４、メモリ２０６、ネットワークインターフェイス２０８、Ｉ／Ｏ装置２１０、並びに第１のニューラルネットワークモデル１１２Ａ及び第２のニューラルネットワークモデル１１２Ｂなどのニューラルネットワークモデルに通信可能に結合することができる。いくつかの実施形態では、制御回路２０２を、当業で周知の複数のプロセッサ技術に基づいて実装することができる。制御回路２０２の実装例は、グラフィクスプロセッシングユニット（ＧＰＵ）、縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサ、特定用途向け集積回路（ＡＳＩＣ）プロセッサ、複数命令セットコンピューティング（ＣＩＳＣ）プロセッサ、マイクロコントローラ、中央処理装置（ＣＰＵ）、及び／又はその他の制御回路とすることができる。

【0033】

オブジェクトセグメンテーション回路２０４は、第１のニューラルネットワークモデル１１２Ａ及び第２のニューラルネットワークモデル１１２Ｂなどの異なるニューラルネットワークモデルを使用して一連のカラー画像フレーム１１０から関心オブジェクトをセグメント化するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。オブジェクトセグメンテーション回路２０４の実装例は、コプロセッサ、グラフィクスプロセッシングユニット（ＧＰＵ）、中央処理装置（ＣＰＵ）、縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサ、特定用途向け集積回路（ＡＳＩＣ）プロセッサ、複数命令セットコンピューティング（ＣＩＳＣ）プロセッサ、マイクロコントローラ、及び／又はその他の制御回路とすることができる。

【0034】

メモリ２０６は、制御回路２０２及びオブジェクトセグメンテーション回路２０４が実行できる命令を記憶するように構成できる好適なロジック、回路及び／又はインターフェイスを含むことができる。メモリ２０６は、イメージセンサ１０２Ａから受け取られた一連のカラー画像フレーム１１０を記憶するように構成することができる。メモリ２０６は、第１のニューラルネットワークモデル１１２Ａ及び第２のニューラルネットワークモデル１１２Ｂを含むことができる。メモリ２０６の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電子的に消去可能なプログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、固体ドライブ（ＳＳＤ）、ＣＰＵキャッシュ、及び／又はセキュアデジタル（ＳＤ）カードを挙げることができる。

【0035】

ネットワークインターフェイス２０８は、コンピュータ、スマートフォン、又はサーバ１０４などの複数の電子装置に接続して通信するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。ネットワークインターフェイス２０８は、無線通信をサポートする既知の技術を実装するように構成することができる。ネットワークインターフェイス２０８は、以下に限定するわけではないが、アンテナ、無線周波数（ＲＦ）トランシーバ、１又は２以上の増幅器、チューナ、１又は２以上の発振器、デジタルシグナルプロセッサ、コーダ－デコーダ（ＣＯＤＥＣ）チップセット、加入者アイデンティティモジュール（ＳＩＭ）カード、及び／又はローカルバッファを含むことができる。ネットワークインターフェイス２０８は、インターネット、イントラネットなどのネットワーク、及び／又は携帯電話ネットワーク、無線ローカルエリアネットワーク（ＷＬＡＮ）、パーソナルエリアネットワーク、及び／又はメトロポリタンエリアネットワーク（ＭＡＮ）などの無線ネットワークとオフライン及びオンライン無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーション（ＧＳＭ）、拡張データＧＳＭ環境（ＥＤＧＥ）、広帯域符号分割多重アクセス（Ｗ－ＣＤＭＡ）、符号分割多重アクセス（ＣＤＭＡ）、ＬＴＥ、時分割多重アクセス（ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ、無線フィデリティ（Ｗｉ－Ｆｉ）（ＩＥＥＥ８０２．１１、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ、ＩＥＥＥ８０２．１１ｎ、及び／又はいずれかの他のＩＥＥＥ８０２．１１プロトコルなど）、ボイスオーバインターネットプロトコル（ＶｏＩＰ）、Ｗｉ－ＭＡＸ、モノのインターネット（ＩｏＴ）技術、機械タイプ通信（ＭＴＣ）技術、電子メール、インスタントメッセージング及び／又はショートメッセージサービス（ＳＭＳ）のためのプロトコルなどの複数の通信規格、プロトコル及び技術のうちのいずれかを使用することができる。

【0036】

Ｉ／Ｏ装置２１０は、１又は２以上のユーザから入力を受け取るように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。Ｉ／Ｏ装置２１０は、１又は２以上のユーザに出力を提供するようにさらに構成することができる。Ｉ／Ｏ装置２１０は、制御回路２０２と通信するように構成できる様々な入力及び出力装置を含むことができる。入力装置の例としては、以下に限定するわけではないが、タッチ画面、物理的入力ボタン、ジョイスティック、マイク、（イメージセンサ１０２Ａなどの）画像取り込み装置、及び／又はドッキングステーションを挙げることができる。出力装置の例としては、以下に限定するわけではないが、内蔵ディスプレイ画面、タッチ画面ディスプレイ、及び／又はスピーカを挙げることができる。制御回路２０２の動作については、例えば図３Ａ、図３Ｂ、図３Ｃ及び図３Ｄにおいて詳細に説明する。

【0037】

図３Ａに、本開示の実施形態による、２つの畳み込みニューラルネットワーク（ＣＮＮ）に基づく一連のカラー画像フレームからのオブジェクトセグメンテーションのための例示的な処理パイプラインを示す。図３Ａには、処理パイプライン３００を示す。処理パイプライン３００には、本明細書で説明する一連の動作を示す。

【0038】

動作時には、イメージセンサ１０２Ａを、１又は２以上のオブジェクトを含むことができる一連のカラー画像フレーム３０２を取り込むように構成することができる。或いは、制御回路２０２は、メモリ２０６に記憶された一連のカラー画像フレーム３０２を検索するように構成することもできる。一連のカラー画像フレーム３０２は、第１のＲＧＢフレーム３０２Ａ、第２のＲＧＢフレーム３０２Ｂ、及び第３のＲＧＢフレーム３０２Ｃを含むことができる。メモリ２０６は、第１のＣＮＮ３０４Ａ及び第２のＣＮＮ３０４Ｂを記憶するようにさらに構成することができる。第１のＣＮＮ３０４Ａ及び第２のＣＮＮ３０４Ｂは、それぞれ第１のニューラルネットワークモデル１１２Ａ及び第２のニューラルネットワークモデル１１２Ｂに対応することができる。同様に、第１のＲＧＢフレーム、第２のＲＧＢフレーム及び第３のＲＧＢフレームは、それぞれ一連のカラー画像フレーム１１０のうちの第１のカラー画像フレーム１１０Ａ、第２のカラー画像フレーム１１０Ｂ及び第３のカラー画像フレーム１１０Ｃに対応することができる。

【0039】

制御回路２０２は、一連のカラー画像フレーム３０２のうちの（第１のＲＧＢフレーム３０２Ａなどの）第１のカラー画像フレーム内の人間オブジェクト３０８などの関心オブジェクトの第１の前景マスク３０６Ａを生成するように構成することができる。第１のＲＧＢフレーム３０２Ａは、第１の前景マスク３０６Ａを生成するように訓練されたＣＮＮとすることができる第１のＣＮＮ３０４Ａに通すことができる。制御回路２０２は、第１のニューラルネットワークモデル１１２Ａに基づいて、（第３のＲＧＢフレーム３０２Ｃなどの）その後のカラー画像フレーム内の人間オブジェクト３０８などの関心オブジェクトの第２の前景マスク３０６Ｂを生成するようにさらに構成することができる。（第３のＲＧＢフレーム３０２Ｃなどの）その後のカラー画像フレームは、一連のカラー画像フレーム３０２のうちの（第１のＲＧＢフレーム３０２Ａなどの）第１のカラー画像フレームに隣接しないことができる。

【0040】

制御回路２０２は、第１の前景マスク３０６Ａ及び第２の前景マスク３０６Ｂの線形補間３１０に基づいて第３の前景マスク３０６Ｃを決定するようにさらに構成することができる。制御回路２０２は、線形補間３１０を使用して、第１の前景マスク３０６Ａ及び第２の前景マスク３０６Ｂなどの２つのマスクフレームの平均を計算するようにさらに構成することができる。計算された平均は、第３の前景マスク３０６Ｃとすることができるラフな前景マスクに対応することができる。

【0041】

ある実施形態では、第２のＣＮＮ３０４Ｂを、ラフな前景マスク、すなわち第３の前景マスク３０６Ｃを精細化するように事前訓練することができる。別の実施形態では、第２のＣＮＮ３０４Ｂを、ラフな前景マスク、すなわち第３の前景マスク３０６Ｃを精細化するための特定の訓練データに基づいて訓練することが必要になり得る。従って、制御回路２０２は、特定の訓練データ、すなわち第３の前景マスク３０６Ｃ（すなわち、ラフな前景マスク）に連結された一連のカラー画像フレーム３０２のうちの（第２のＲＧＢフレーム３０２Ｂなどの）中間ＲＧＢフレームを含むことができる連結画像フレームを生成するように構成することができる。連結画像フレームは４チャネルＲＧＢ－Ｍ画像とすることができ、ここでのＲＧＢは、中間「ＲＧＢ」フレームのＲＧＢカラーチャネルに対応することができ、「Ｍ」は、第３の前景マスク３０６Ｃのマスク又は二値色（ｂｉｎａｒｙｃｏｌｏｒｓ）（すなわち、黒色及び白色）に対応することができる。また、制御回路２０２は、（図３Ｂで説明するように）第２のＲＧＢフレーム３０２Ｂ上に直接第１のＣＮＮ３０４Ａを適用することによって中間テストマスクを生成するように構成することもできる。

【0042】

制御回路２０２は、中間テストマスクと、第２のＣＮＮ３０４Ｂの部分的に訓練されたバージョン又は訓練されていないバージョンの出力とに基づいて第２のＣＮＮ３０４Ｂを訓練するようにさらに構成することができる。中間テストマスクは、第２のＣＮＮ３０４Ｂの最適な重みパラメータを推定するためのグラウンドトゥルースマスク又は正確な基準マスクとして機能することができる。訓練段階では、第２のＣＮＮ３０４Ｂの全ての出力を使用して、第２のＣＮＮ３０４Ｂの推定される前景マスクと中間テストマスクとの差分に基づいて第２のＣＮＮ３０４Ｂの訓練エラーを最小化することができる。訓練エラーが最小化されると、第２のＣＮＮ３０４Ｂは、第１のＣＮＮ３０４Ａに比べて出力生成のためのサイクル時間が短い状態で第２のＣＮＮ３０４Ｂの精度が第１のＣＮＮ３０４Ａの精度とほぼ同じになるように第４の前景マスク３０６Ｄを出力するように構成することができる。第４の前景マスク３０６Ｄは、第２のＲＧＢフレーム３０２Ｂなどの中間ＲＧＢフレームの人間オブジェクト３０８などの関心オブジェクトのための正確なマスクとすることができる。第２のＣＮＮ３０４Ｂの訓練データセットの準備の詳細については、例えば図３Ｂ、図３Ｃ及び図３Ｄにおいて詳細に説明する。

【0043】

制御回路２０２は、第２のＣＮＮ３０４Ｂを使用して、第３の前景マスク３０６Ｃの精細化された前景マスクを表す第４の前景マスク３０６Ｄを生成するようにさらに構成することができる。第２のＣＮＮ３０４Ｂは、第１のＣＮＮ３０４Ａなどの計算負荷の重いＣＮＮと同程度の正確なマスクを出力できる計算負荷の軽いＣＮＮとすることができる。この第２のＣＮＮ３０４Ｂの同等の精度は、第２のＣＮＮ３０４Ｂの訓練段階において達成することができる。計算負荷の軽いＣＮＮは、第１のＣＮＮ３０４Ａに比べて第２のＣＮＮ３０４Ｂの方がサイクル時間が短く高速であり得ることを示すことができる。第４の前景マスク３０６Ｄは、（第２のＲＧＢフレーム３０２Ｂなどの）中間カラー画像フレーム及び決定された第３の前景マスク３０６Ｃを第２のＣＮＮ３０４Ｂに入力することに基づいて生成することができる。

【0044】

第４のチャネルは、第３の前景マスク３０６Ｃ（すなわち、ラフな前景マスク）の形態の二値画像表現に対応することができるので、第２のＣＮＮ３０４Ｂが、第２のＲＧＢフレーム３０２Ｂに連結された第３の前景マスク３０６Ｃを含む４チャネル画像データをＲＧＢ－Ｍ入力として解釈すると、サイクル時間が短くなる。

【0045】

図３Ｂに、本開示の実施形態による、図３Ａの第２のＣＮＮの例示的な訓練データセットの準備を示す。図３Ｂには、一連のカラー画像フレーム３０２のＲＧＢフレーム３０２Ａ、３０２Ｂ及び３０２Ｃなどのフレームセットと、第１のＣＮＮ３０４Ａと、ＲＧＢフレーム３０２Ａ、３０２Ｂ及び３０２Ｃなどのフレームセットの各フレームに対応する異なる出力前景マスクとを示す。

【0046】

ある実施形態によれば、第１のＣＮＮ３０４Ａと、第１のＣＮＮ３０４Ａからの（ＲＧＢフレーム３０２Ａ、３０２Ｂ及び３０２Ｃなどの）フレームセットの各フレームに対応する異なる出力前景マスクとが利用可能になると、第２のＣＮＮ３０４Ｂのための訓練データセットを生成することができる。制御回路２０２は、第１のＣＮＮ３０４Ａの複数の入力－出力画像ペアに基づいて第１のＣＮＮ３０４Ａを訓練するように構成することができる。第１のＣＮＮ３０４Ａの複数の入力－出力画像ペアは、第１のＲＧＢフレーム３０２Ａ、第２のＲＧＢフレーム３０２Ｂ及び第３のＲＧＢフレーム３０２Ｃと、第１の前景マスク３０６Ａ、前景マスク３０６Ｅ及び第３の前景マスク３０６Ｃなどの対応する出力前景マスクとを含むことができる。前景マスク３０６Ｅは、第２のＣＮＮ３０４Ｂ、すなわち計算負荷の軽いＣＮＮの訓練のための中間テストマスク又はグラウンドトゥルースマスクに対応することができる。同様に、制御回路２０２は、第１のＣＮＮ３０４Ａを使用して一連のカラー画像フレーム３０２のうちの少なくともいくつかのフレーム（すなわち、フレームセット）又は全ての入力ＲＧＢフレームを処理し、一連のカラー画像フレーム３０２の各入力ＲＧＢフレームのための前景マスクを生成するように構成することができる。

【0047】

一連のカラー画像フレーム３０２の各入力ＲＧＢフレームのための異なる入力ＲＧＢフレーム及び対応する前景マスクを含む第１のＣＮＮ３０４Ａの複数の入力－出力画像ペアは、第２のＣＮＮ３０４Ｂのための訓練データセットとして利用することができる。第１のＣＮＮ３０４Ａの複数の入力－出力画像ペアに基づけば、（第２のＣＮＮ３０４Ｂのグラウンドトゥルースとも呼ばれる）真の前景マスクを手動で作成する必要性を回避できるので、第２のＣＮＮ３０４Ｂの訓練が効率的になることができる。

【0048】

図３Ｃに、本開示の実施形態による、２つの前景マスクの例示的な線形補間を示す。図３Ｃには、第１のＣＮＮ３０４Ａによって生成された第１の前景マスク３０６Ａ及び第２の前景マスク３０６Ｂの線形補間３１０を示す。

【0049】

制御回路２０２は、第１の前景マスク３０６Ａの第１のオブジェクト境界３１２Ａ及び第２の前景マスク３０６Ｂの第２のオブジェクト境界３１２Ｂから人間オブジェクト３０８などの関心オブジェクトのオブジェクト境界を近似して正規化する近似操作を適用して、第３の前景マスク３０６Ｃを生成するように構成することができる。線形補間３１０では、第３の前景マスク３０６Ｃとすることができるラフな前景マスクとして、第１の前景マスク３０６Ａ及び第２の前景マスク３０６Ｂなどの２つのマスクフレームの平均を取ることができる。第１の前景マスク３０６Ａと第２の前景マスク３０６Ｂとの間の共通領域は、ドット領域として示す。第１の前景マスク３０６Ａ及び第２の前景マスク３０６Ｂの共通でないエリアは、平均化又は近似することができる。

【0050】

図３Ｄに、本開示の実施形態による、中間画像フレームの前景マスクを生成するための、図３Ａの第２のＣＮＮへの例示的な入力を示す。図３Ｄには、第１のＲＧＢフレーム３０２Ａと第３のＲＧＢフレーム３０２Ｃとの間の第２のＲＧＢフレーム３０２Ｂ（すなわち、中間フレーム）のための第３の前景マスク３０６Ｃ（すなわち、ラフな前景マスク）を示す。また、連結フレーム３１４、及び第３の前景マスク３０６Ｃの更新である第４の前景マスク３０６Ｄも示す。

【0051】

制御回路２０２は、第３の前景マスク３０６Ｃを第４の前景マスク３０６Ｄに更新するために、（ｔ番目のフレームとｔ＋２番目のフレームとの間のｔ＋１番目のフレームなどの）第２のＲＧＢフレーム３０２Ｂと第３の前景マスク３０６Ｃ（すなわち、ラフな前景マスク）との連結３１６によって連結フレーム３１４を生成するように構成することができる。連結フレーム３１４は、４チャネル画像（すなわち、ＲＧＢチャネル及びマスク）とすることができる。

【0052】

制御回路２０２は、連結フレーム３１４を第２のＣＮＮ３０４Ｂへの入力として使用することによって第２のＣＮＮ３０４Ｂを訓練するようにさらに構成することができる。第２のＣＮＮ３０４Ｂは、対応する反復において第２のＣＮＮ３０４Ｂの訓練エラーに基づいて調整できる一連の重みのために、一連の反復の各反復において前景マスクを出力することができる。第２のＣＮＮ３０４Ｂは、各反復における第２のＣＮＮ３０４Ｂからの出力前景マスクと、前景マスク３０６Ｅ（すなわち、第１のＣＮＮ３０４Ａによって生成された中間テストマスク又はグラウンドトゥルースマスク）との間の差分が最小化されるように訓練することができる。前景マスク３０６Ｅ（すなわち、中間テストマスク）は、第２のＣＮＮ３０４Ｂの最適な重みパラメータを推定するためのグラウンドトゥルースマスク又は正確な基準マスクとして機能することができる。各反復における第２のＣＮＮ３０４Ｂからの出力前景マスクと前景マスク３０６Ｅとの間の差分の最小化は、第２のＣＮＮ３０４Ｂ（すなわち、計算負荷の軽いＣＮＮ）の訓練エラーの最小化に対応することができる。

【0053】

訓練エラーが最小化されると、制御回路２０２は、第２のＣＮＮ３０４Ｂを使用して第３の前景マスク３０６Ｃを第４の前景マスク３０６Ｄに更新するように構成することができる。第４の前景マスク３０６Ｄは、第３の前景マスク３０６Ｃの精細化された前景マスクを表すことができる。第３の前景マスク３０６Ｃは、第３の前景マスク３０６Ｃ及び中間カラー画像フレーム（すなわち、第１のＲＧＢフレーム３０２Ａと第３のＲＧＢフレーム３０２Ｃとの間に存在できる第２のＲＧＢフレーム３０２Ｂ）に基づいて第４の前景マスク３０６Ｄに更新することができる。具体的に言えば、第２のＣＮＮ３０４Ｂは、第１のＣＮＮ３０４Ａに比べて第４の前景マスク３０６Ｄの生成のためのサイクル時間が短い状態で第２のＣＮＮ３０４Ｂの精度が第１のＣＮＮ３０４Ｂの精度とほぼ同じになるように第４の前景マスク３０６Ｄを出力することができる。第４の前景マスク３０６Ｄは、第２のＲＧＢフレーム３０２Ｂの人間オブジェクト３０８などの関心オブジェクトのための正確なマスクとすることができる。

【0054】

オブジェクトセグメンテーション回路２０４は、少なくとも第１の前景マスク３０６Ａを使用して第１のＲＧＢフレーム３０２Ａから、第２の前景マスク３０６Ｄを使用して第３のＲＧＢフレーム３０２Ｃから、及び第４の前景マスク３０６Ｄを使用して第２のＲＧＢフレーム３０２Ｂから、（人間オブジェクト３０８などの）関心オブジェクトをセグメント化するようにさらに構成することができる。

【0055】

図４は、本開示の実施形態による、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための例示的な方法を示すフローチャートである。図４には、フローチャート４００を示す。この例示的な方法の動作は、画像処理装置１０２において実行することができる。動作は、４０２から開始して４０４に進むことができる。

【0056】

４０４において、一連のカラー画像フレーム１１０を取り込むことができる。制御回路２０２は、イメージセンサ１０２Ａを一連のカラー画像フレーム１１０を取り込むように制御するよう構成することができる。

【0057】

４０６において、第１のニューラルネットワークモデル１１２Ａに基づいて、一連のカラー画像フレーム１１０のうちの第１のカラー画像フレーム１１０Ａ内の関心オブジェクトのための第１の前景マスクを生成することができる。制御回路２０２は、第１のニューラルネットワークモデル１１２Ａに基づいて、一連のカラー画像フレーム１１０のうちの第１のカラー画像フレーム１１０Ａ内の関心オブジェクトのための第１の前景マスクを生成するように構成することができる。

【0058】

４０８において、第１のニューラルネットワークモデル１１２Ａに基づいて、一連のカラー画像フレーム１１０のうちの第１のカラー画像フレーム１１０Ａに隣接していないその後のカラー画像フレーム内の関心オブジェクトのための第２の前景マスクを生成することができる。制御回路２０２は、第１のニューラルネットワークモデル１１２Ａに基づいて、一連のカラー画像フレーム１１０のうちの第１のカラー画像フレーム１１０Ａに隣接していないその後のカラー画像フレーム内の関心オブジェクトのための第２の前景マスクを生成するように構成することができる。

【0059】

４１０において、第１の前景マスク及び第２の前景マスクの補間に基づいて第３の前景マスクを決定することができる。制御回路２０２は、第１の前景マスク及び第２の前景マスクの補間に基づいて第３の前景マスクを決定するように構成することができる。この補間は、第１の前景マスク及び第２の前景マスクの平均が第３の前景マスク（ラフな前景マスク）をもたらすことができる線形補間とすることができる。

【0060】

４１２において、第２のニューラルネットワークモデル１１２Ｂを使用して、決定された第３の前景マスクと、第１のカラー画像フレーム１１０Ａとその後のカラー画像フレームとの間に存在する中間カラー画像フレームとに基づいて、第３の前景マスクを第３の前景マスクの精細化された前景マスクを表すことができる第４の前景マスクに更新することができる。制御回路２０２は、第２のニューラルネットワークモデル１１２Ｂを使用して、第３の前景マスクを第３の前景マスクの精細化された前景マスクを表すことができる第４の前景マスクに更新するように構成することができる。第３の前景マスクは、決定された第３の前景マスクと、第１のカラー画像フレーム１１０Ａとその後のカラー画像フレームとの間に存在する中間カラー画像フレームとに基づいて更新することができる。

【0061】

４１４において、少なくとも第１の前景マスクを使用して第１のカラー画像フレーム１１０Ａから、第２の前景マスクを使用してその後のカラー画像フレームから、及び第４の前景マスクを使用して中間カラー画像フレームから、関心オブジェクトをセグメント化することができる。制御回路２０２は、少なくとも第１の前景マスクを使用して第１のカラー画像フレーム１１０Ａから、第２の前景マスクを使用してその後のカラー画像フレームから、及び第４の前景マスクを使用して中間カラー画像フレームから、関心オブジェクトをセグメント化するように構成することができる。制御は終了に進む。

【0062】

本開示の様々な実施形態は、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置を動作させるように機械及び／又はコンピュータが実行できる命令を記憶した非一時的コンピュータ可読媒体及び／又は記憶媒体を提供することができる。命令は、機械及び／又はコンピュータに一連のカラー画像フレームの取り込みを含む動作を実行させることができる。動作は、第１のニューラルネットワークモデル及び第２のニューラルネットワークモデルを記憶することをさらに含む。動作は、第１のニューラルネットワークモデルに基づいて、一連のカラー画像フレームのうちの第１のカラー画像フレーム内の関心オブジェクトのための第１の前景マスクを生成することをさらに含む。動作は、第１のニューラルネットワークモデルに基づいて、一連のカラー画像フレームのうちの第１のカラー画像フレームに隣接していないその後のカラー画像フレーム内の関心オブジェクトのための第２の前景マスクを生成することをさらに含む。動作は、第１の前景マスク及び第２の前景マスクの補間に基づいて第３の前景マスクを決定することをさらに含む。動作は、第２のニューラルネットワークモデルを使用して、第３の前景マスクを第３の前景マスクの精細化された前景マスクを表す第４の前景マスクに更新することをさらに含む。第３の前景マスクは、決定された第３の前景マスクと、第１のカラー画像フレームとその後のカラー画像フレームとの間に存在する中間カラー画像フレームとに基づいて更新される。動作は、少なくとも第１の前景マスクを使用して第１のカラー画像フレームから、第２の前景マスクを使用してその後のカラー画像フレームから、及び第４の前景マスクを使用して中間カラー画像フレームから、関心オブジェクトをセグメント化することをさらに含む。

【0063】

本開示のいくつかの実施形態は、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置及び方法において見出すことができる。本開示の様々な実施形態は、メモリ２０６（図２）、イメージセンサ１０２Ａ及び制御回路２０２（図２）を含むことができる画像処理装置１０２（図１）を提供することができる。イメージセンサ１０２Ａは、一連のカラー画像フレーム１１０を取り込むように構成することができる。メモリ２０６は、第１のニューラルネットワークモデル１１２Ａ及び第２のニューラルネットワークモデル１１２Ｂを記憶するように構成することができる。制御回路２０２は、第１のニューラルネットワークモデル１１２Ａに基づいて、一連のカラー画像フレーム１１０のうちの第１のカラー画像フレーム１１０Ａ内の関心オブジェクトのための第１の前景マスクを生成するように構成することができる。制御回路２０２は、第１のニューラルネットワークモデル１１２Ａに基づいて、一連のカラー画像フレーム１１０のうちの第１のカラー画像フレーム１１０Ａに隣接していないその後のカラー画像フレーム内の関心オブジェクトのための第２の前景マスクを生成するようにさらに構成することができる。制御回路２０２は、第１の前景マスク及び第２の前景マスクの補間に基づいて第３の前景マスクを決定するようにさらに構成することができる。制御回路２０２は、第２のニューラルネットワークモデル１１２Ｂを使用して、第３の前景マスクを第３の前景マスクの精細化された前景マスクを表す第４の前景マスクに更新するようにさらに構成することができる。第３の前景マスクは、決定された第３の前景マスクと、第１のカラー画像フレーム１１０Ａとその後のカラー画像フレームとの間に存在する中間カラー画像フレームとに基づいて更新することができる。制御回路２０２は、少なくとも第１の前景マスクを使用して第１のカラー画像フレーム１１０Ａから、第２の前景マスクを使用してその後のカラー画像フレームから、及び第４の前景マスクを使用して中間カラー画像フレームから関心オブジェクトをセグメント化するようにさらに構成することができる。

【0064】

ある実施形態によれば、第１のニューラルネットワークモデル１１２Ａは、画像ペアの組によって訓練される事前訓練モデルとすることができる。画像ペアの組の各画像ペアは、カラー画像フレーム及び前景マスク画像を含むことができる。各画像ペアは、少なくともセグメント化すべき関心オブジェクトを含むことができる。

【0065】

ある実施形態によれば、制御回路２０２は、第１のニューラルネットワークモデル１１２Ａを利用して、一連のカラー画像フレーム１１０からの任意の入力カラー画像フレームから、この任意の入力カラー画像フレームの１又は２以上の先行するカラー画像フレーム又は後続のカラー画像フレームからの画像情報とは無関係に関心オブジェクトの前景マスクを推定するように構成することができる。

【0066】

ある実施形態によれば、第１のニューラルネットワークモデル１１２Ａは、第１の畳み込みニューラルネットワークとすることができ、第２のニューラルネットワークモデル１１２Ｂは、第１の畳み込みニューラルネットワークとは異なる第２の畳み込みニューラルネットワークとすることができる。第１のニューラルネットワークモデル１１２Ａは、少なくともサイクル時間パラメータが第２のニューラルネットワークモデル１１２Ｂと異なることができる。サイクル時間パラメータは、入力カラー画像フレームがニューラルネットワークモデルに通された時に一連のカラー画像フレーム１１０の入力カラー画像フレームの出力前景マスクを生成するための総時間を示すことができる。第２のニューラルネットワークモデル１１２Ｂは、第１のニューラルネットワークモデル１１２Ａに比べてサイクル時間が短く高速である。ある実施形態によれば、制御回路２０２は、第１のニューラルネットワークモデル１１２Ａの入力－出力画像ペアに基づいて第２のニューラルネットワークモデル１１２Ｂを訓練するように構成することができる。

【0067】

ある実施形態によれば、制御回路２０２は、第１のニューラルネットワークモデル１１２Ａに基づいて第１のカラー画像フレーム１１０Ａを前景領域及び背景領域に分類するように構成することができる。前景領域は、二値画像である生成された第１の前景マスクにマッピングすることができる。

【0068】

ある実施形態によれば、制御回路２０２は、第１のニューラルネットワークモデル１１２Ａに基づいてその後のカラー画像フレームを前景領域および背景領域に分類するようにさらに構成することができる。前景領域は、二値画像である生成された第２の前景マスクにマッピングすることができる。

【0069】

ある実施形態によれば、補間は、第１の前景マスク及び第２の前景マスクの線形補間とすることができる。第１の前景マスク及び第２の前景マスクの線形補間では、制御回路２０２を、第１の前景マスクの第１のオブジェクト境界及び第２の前景マスクの第２のオブジェクト境界から関心オブジェクトのオブジェクト境界を近似して正規化する近似操作を適用して、二値画像である第３の前景マスクを生成するように構成することができる。

【0070】

ある実施形態によれば、制御回路２０２は、一連のカラー画像フレーム１１０のうちの第１の非連続フレームの組の各フレームに対応する、第１のニューラルネットワークモデル１１２Ａに基づいて生成された異なる出力前景マスクを使用して、第１の非連続フレームの組から関心オブジェクトをセグメント化するように構成することができる。異なる出力前景マスクは、少なくとも第１の前景マスク及び第２の前景マスクを含むことができる。

【0071】

ある実施形態によれば、制御回路２０２は、一連のカラー画像フレームのうちの第２の非連続フレームの組の各フレームに対応する、第２のニューラルネットワークモデル１１２Ｂに基づいて生成された異なる出力前景マスクを使用して、第２の非連続フレームの組から関心オブジェクトをセグメント化するようにさらに構成することができる。異なる出力前景マスクは、少なくとも第４の前景マスクを含むことができる。

【0072】

本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも１つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。

【0073】

本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはａ）別の言語、コード又は表記法への変換、ｂ）異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。

【0074】

いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。

【符号の説明】

【0075】

４００フローチャート
４０２開始
４０４一連のカラー画像フレームを取り込む
４０６第１のニューラルネットワークモデルに基づいて、一連のカラー画像フレームのうちの第１のカラー画像フレーム内の関心オブジェクトのための第１の前景マスクを生成４０８第１のニューラルネットワークモデルに基づいて、一連のカラー画像フレームのうちの第１のカラー画像フレームに隣接していないその後のカラー画像フレーム内の関心オブジェクトのための第２の前景マスクを生成
４１０第１の前景マスク及び第２の前景マスクの補間に基づいて第３の前景マスクを決定
４１２第２のニューラルネットワークモデルを使用して、第１のカラー画像フレームとその後のカラー画像フレームとの間に存在する中間カラー画像フレームと、決定された第３の前景マスクとに基づいて、第３の前景マスクを第３の前景マスクの調整された前景マスクを表す第４の前景マスクに更新
４１４少なくとも第１の前景マスクを使用して第１のカラー画像フレームから、第２の前景マスクを使用してその後の画像フレームから、及び第４の前景マスクを使用して中間カラー画像フレームから、関心オブジェクトをセグメント化

【図1】