IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特表2022-525845一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション
<>
  • 特表-一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション 図1
  • 特表-一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション 図2
  • 特表-一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション 図3A
  • 特表-一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション 図3B
  • 特表-一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション 図3C
  • 特表-一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション 図3D
  • 特表-一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-05-20
(54)【発明の名称】一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220513BHJP
【FI】
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021548653
(86)(22)【出願日】2020-02-19
(85)【翻訳文提出日】2021-07-27
(86)【国際出願番号】 IB2020051393
(87)【国際公開番号】W WO2020170167
(87)【国際公開日】2020-08-27
(31)【優先権主張番号】16/281,353
(32)【優先日】2019-02-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
2.ZIGBEE
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100092093
【弁理士】
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100158551
【弁理士】
【氏名又は名称】山崎 貴明
(72)【発明者】
【氏名】武田 浩行
(72)【発明者】
【氏名】ガラヴィ-アルカンサリ モハンマド
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096DA01
5L096FA19
5L096HA02
5L096HA08
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
カラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置及び方法を提供する。画像処理装置は、第1のニューラルネットワークモデルに基づいて、一連のカラー画像フレームのうちの第1のカラー画像フレーム及びその後のカラー画像フレーム内の関心オブジェクトのための第1の前景マスク及び第2の前景マスクをそれぞれ生成する。画像処理装置は、第1の前景マスク及び第2の前景マスクの補間に基づいて第3の前景マスクを決定し、第2のニューラルネットワークモデルを使用して第3の前景マスクを第4の前景マスクに更新する。画像処理装置は、第1の前景マスク、第2の前景マスク及び第4の前景マスクを使用して、少なくとも第1のカラー画像フレーム、その後のカラー画像フレーム及び中間カラー画像フレームからそれぞれ関心オブジェクトをセグメント化する。
【選択図】図4
【特許請求の範囲】
【請求項1】
画像処理装置であって、
一連のカラー画像フレームを取り込むように構成されたイメージセンサと、
第1のニューラルネットワークモデル及び第2のニューラルネットワークモデルを記憶するように構成されたメモリと、
制御回路と、
を備え、前記制御回路は、
前記第1のニューラルネットワークモデルに基づいて、前記一連のカラー画像フレームのうちの第1のカラー画像フレームにおける関心オブジェクトのための第1の前景マスクを生成し、
前記第1のニューラルネットワークモデルに基づいて、前記一連のカラー画像フレームのうちの前記第1のカラー画像フレームに隣接していないその後のカラー画像フレームにおける前記関心オブジェクトのための第2の前景マスクを生成し、
前記第1の前景マスク及び前記第2の前景マスクの補間に基づいて第3の前景マスクを決定し、
前記決定された第3の前景マスクと、前記第1のカラー画像フレームと前記その後のカラー画像フレームとの間に存在する中間カラー画像フレームとに基づいて、前記第2のニューラルネットワークモデルを使用して、前記第3の前景マスクを該第3の前景マスクの精細化された前景マスクを表す第4の前景マスクに更新し、
少なくとも前記第1の前景マスクを使用して前記第1のカラー画像フレームから、前記第2の前景マスクを使用して前記その後のカラー画像フレームから、及び前記第4の前景マスクを使用して前記中間カラー画像フレームから、前記関心オブジェクトをセグメント化する、
ように構成される、
ことを特徴とする画像処理装置。
【請求項2】
前記第1のニューラルネットワークモデルは、画像ペアの組で訓練される事前訓練モデルであり、前記画像ペアの組の各画像ペアは、カラー画像フレーム及び前景マスク画像を含み、各画像ペアは、少なくともセグメント化すべき前記関心オブジェクトを含む、
請求項1に記載の画像処理装置。
【請求項3】
前記制御回路は、前記第1のニューラルネットワークモデルを利用して、前記一連のカラー画像フレームからの任意の入力カラー画像フレームから、該任意の入力カラー画像の1又は2以上の先行するカラー画像フレーム又は後続のカラー画像フレームからの画像情報とは無関係に前記関心オブジェクトの前景マスクを推定するように構成される、
請求項1に記載の画像処理装置。
【請求項4】
前記第1のニューラルネットワークモデルは、第1の畳み込みニューラルネットワークであり、前記第2のニューラルネットワークモデルは、前記第1の畳み込みニューラルネットワークとは異なる第2の畳み込みニューラルネットワークである、
請求項1に記載の画像処理装置。
【請求項5】
前記第1のニューラルネットワークモデルは、少なくともサイクル時間パラメータが前記第2のニューラルネットワークモデルと異なり、
前記サイクル時間パラメータは、前記一連のカラー画像フレームのうちの入力カラー画像フレームがニューラルネットワークモデルに通された時に前記入力カラー画像フレームの出力前景マスクを生成するための総時間を示し、
前記第2のニューラルネットワークモデルは、前記第1のニューラルネットワークモデルに比べてサイクル時間が短く高速である、
請求項1に記載の画像処理装置。
【請求項6】
前記制御回路は、前記第1のニューラルネットワークモデルの入力-出力画像ペアに基づいて前記第2のニューラルネットワークモデルを訓練するように構成される、
請求項5に記載の画像処理装置。
【請求項7】
前記制御回路は、前記第1のニューラルネットワークモデルに基づいて前記第1のカラー画像フレームを前景領域及び背景領域に分類するようにさらに構成され、前記前景領域は、二値画像である前記生成された第1の前景マスクにマッピングされる、
請求項1に記載の画像処理装置。
【請求項8】
前記制御回路は、前記第1のニューラルネットワークモデルに基づいて前記その後のカラー画像フレームを前景領域及び背景領域に分類するようにさらに構成され、前記前景領域は、二値画像である前記生成された第2の前景マスクにマッピングされる、
請求項1に記載の画像処理装置。
【請求項9】
前記補間は、前記第1の前景マスク及び前記第2の前景マスクの線形補間とすることができる、
請求項1に記載の画像処理装置。
【請求項10】
前記制御回路は、前記第1の前景マスク及び前記第2の前景マスクの前記線形補間において、前記第1の前景マスクの第1のオブジェクト境界及び前記第2の前景マスクの第2のオブジェクト境界から前記関心オブジェクトのオブジェクト境界を近似して正規化する近似操作を適用して、二値画像である前記第3の前景マスクを生成するように構成される、
請求項9に記載の画像処理装置。
【請求項11】
前記制御回路は、前記一連のカラー画像フレームのうちの第1の非連続フレームの組の各フレームに対応する、前記第1のニューラルネットワークモデルに基づいて生成された異なる出力前景マスクを使用して、前記第1の非連続フレームの組から前記関心オブジェクトをセグメント化するようにさらに構成され、前記異なる出力前景マスクは、少なくとも前記第1の前景マスク及び前記第2の前景マスクを含む、
請求項1に記載の画像処理装置。
【請求項12】
前記制御回路は、前記一連のカラー画像フレームのうちの第2の非連続フレームの組の各フレームに対応する、前記第2のニューラルネットワークモデルに基づいて生成された異なる出力前景マスクを使用して、前記第2の非連続フレームの組から前記関心オブジェクトをセグメント化するようにさらに構成され、前記異なる出力前景マスクは、少なくとも前記第4の前景マスクを含む、
請求項11に記載の画像処理装置。
【請求項13】
イメージセンサと、第1のニューラルネットワークモデル及び第2のニューラルネットワークモデルを記憶するメモリと、制御回路とを備えた画像処理装置において、
前記イメージセンサが一連のカラー画像フレームを取り込むステップと、
前記制御回路が、前記第1のニューラルネットワークモデルに基づいて、前記一連のカラー画像フレームのうちの第1のカラー画像フレームにおける関心オブジェクトのための第1の前景マスクを生成するステップと、
前記制御回路が、前記第1のニューラルネットワークモデルに基づいて、前記一連のカラー画像フレームのうちの前記第1のカラー画像フレームに隣接していないその後のカラー画像フレームにおける前記関心オブジェクトのための第2の前景マスクを生成するステップと、
前記制御回路が、前記第1の前景マスク及び前記第2の前景マスクの補間に基づいて第3の前景マスクを決定するステップと、
前記制御回路が、前記補間に基づいて生成された前記第3の前景マスクと、前記第1のカラー画像フレームと前記その後のカラー画像フレームとの間に存在する中間カラー画像フレームとに基づいて、前記第1のニューラルネットワークモデルとは異なる前記第2のニューラルネットワークモデルを使用して、前記第3の前景マスクを該第3の前景マスクの精細化された前景マスクを表す第4の前景マスクに更新するステップと、
前記制御回路が、少なくとも前記第1の前景マスクを使用して前記第1のカラー画像フレームから、前記第2の前景マスクを使用して前記その後のカラー画像フレームから、及び前記第4の前景マスクを使用して前記中間カラー画像フレームから、前記関心オブジェクトをセグメント化するステップと、
を含むことを特徴とする方法。
【請求項14】
前記第1のニューラルネットワークモデルは、画像ペアの組で訓練される事前訓練モデルであり、前記画像ペアの組の各画像ペアは、カラー画像フレーム及び前景マスク画像を含み、各画像ペアは、少なくともセグメント化すべき前記関心オブジェクトを含む、
請求項13に記載の方法。
【請求項15】
前記制御回路が、前記第1のニューラルネットワークモデルに基づいて、前記一連のカラー画像フレームからの任意の入力カラー画像フレームから、該任意の入力カラー画像の1又は2以上の先行するカラー画像フレーム又は後続のカラー画像フレームからの画像情報とは無関係に前記関心オブジェクトの前景マスクを推定するステップをさらに含む、
請求項13に記載の方法。
【請求項16】
前記第1のニューラルネットワークモデルは、第1の畳み込みニューラルネットワークであり、前記第2のニューラルネットワークモデルは、前記第1の畳み込みニューラルネットワークとは異なる第2の畳み込みニューラルネットワークである、
請求項13に記載の方法。
【請求項17】
前記第1のニューラルネットワークモデルは、少なくともサイクル時間パラメータが前記第2のニューラルネットワークモデルと異なり、
前記サイクル時間パラメータは、前記一連のカラー画像フレームのうちの入力カラー画像フレームがニューラルネットワークモデルに通された時に前記入力カラー画像フレームの出力前景マスクを生成するための総時間を示し、
前記第2のニューラルネットワークモデルは、前記第1のニューラルネットワークモデルに比べてサイクル時間が短く高速である、
請求項13に記載の方法。
【請求項18】
前記制御回路が、前記第1のニューラルネットワークモデルの入力-出力画像ペアに基づいて前記第2のニューラルネットワークモデルを訓練するステップをさらに含む、
請求項13に記載の方法。
【請求項19】
前記制御回路が、前記第1のニューラルネットワークモデルを使用して前記第1のカラー画像フレームを前景領域及び背景領域に分類するステップをさらに含み、前記前景領域は、二値画像である前記生成された第1の前景マスクにマッピングされる、
請求項13に記載の方法。
【請求項20】
前記補間は、前記第1の前景マスク及び前記第2の前景マスクの線形補間とすることができる、
請求項13に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照/引用による組み入れ〕
なし。
【0002】
本開示の様々な実施形態は、学習ベースの画像処理、コンピュータビジョン、及びカメラ技術に関する。具体的には、本開示の様々な実施形態は、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置及び方法に関する。
【背景技術】
【0003】
画像処理、コンピュータビジョン及びカメラ技術の分野の発展は、オブジェクトセグメンテーションなどの様々な画像処理システム及び技術の進歩をもたらした。従来のオブジェクトセグメンテーション装置は、異なるオブジェクトセグメンテーション技術に基づいて、シーンの画像から(人間の体又は人間の顔などの)関心オブジェクトをセグメント化することができる。このようなオブジェクトセグメンテーション技術の例としては、圧縮ベース、カラーベース、深度ベース、ヒストグラムベース、セマンティックセグメンテーションベース、又はシーン解析ベースのオブジェクトセグメンテーション技術を挙げることができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
現在、従来のカラーベースのセグメンテーション法の1つでは、取り込み画像から所定の静止背景画像を除去することに基づいて、取り込み画像から関心オブジェクトをセグメント化することができる。しかしながら、従来のオブジェクトセグメンテーション装置は、所定の静止背景画像を生成するために、シーン内に関心オブジェクトが存在しない時には最初に一連のシーン画像を取り込むことが必要な場合があり、このことは望ましくないと考えられる。シーンの所定の静止背景画像は、取り込まれた一連の画像から生成することができる。従来の背景画像除去法は、静止カメラを使用してシーンから一連の画像を取り込むことをさらに必要とし得る。カメラ位置がわずかに移動又は変動しただけで、静止背景画像の再推定が必要になることもある。
【0005】
別の従来の深度ベース法では、従来のオブジェクトセグメンテーション装置が、深度センサによって取り込むことができる深度画像を使用することによって関心オブジェクトをセグメント化することができる。深度センサが無効な深度値を含むノイズの多い深度画像を取り込んだ場合、従来のオブジェクトセグメンテーション装置は、取り込み画像から誤って不正確に関心オブジェクトをセグメント化する恐れがある。通常、他の従来のセマンティックセグメンテーション法又はシーン解析ベースのオブジェクトセグメンテーション法は2つのカテゴリに分類される。第1のカテゴリは、カラー画像のみを利用する比較的正確なものであるが、オブジェクトの処理及びセグメント化が遅すぎる。このため、このような従来のセマンティックセグメンテーション法又はシーン解析ベースのオブジェクトセグメンテーション法の実用的な使用が不可能になる場合があり、第2のカテゴリは、比較的高速であるが不正確である。
【0006】
当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法のさらなる限界及び不利点が明らかになるであろう。
【課題を解決するための手段】
【0007】
少なくとも1つの図に関連して図示及び/又は説明し、特許請求の範囲にさらに完全に示すような、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置及び方法を提供する。
【0008】
全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。
【図面の簡単な説明】
【0009】
図1】本開示の実施形態による、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置のネットワーク環境を示すブロック図である。
図2】本開示の実施形態による、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための例示的な画像処理装置を示すブロック図である。
図3A】本開示の実施形態による、2つの畳み込みニューラルネットワーク(CNN)に基づく一連のカラー画像フレームからのオブジェクトセグメンテーションのための例示的な処理パイプラインを示す図である。
図3B】本開示の実施形態による、図3Aの第2のCNNの例示的な訓練データセットの準備を示す図である。
図3C】本開示の実施形態による、2つの前景マスクの例示的な線形補間を示す図である。
図3D】本開示の実施形態による、中間画像フレームの前景マスクを生成するための、図3Aの第2のCNNへの例示的な入力を示す図である。
図4】本開示の実施形態による、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための例示的な方法を示すフローチャートである。
【発明を実施するための形態】
【0010】
複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置及び方法では、様々な実装を見出すことができる。本開示の例示的な態様は、第1のニューラルネットワークモデル及び第2のニューラルネットワークモデルなどの複数のニューラルネットワークモデルを利用して、一連のカラー画像フレームから人間オブジェクトなどの関心オブジェクトをセグメント化するように構成できる画像処理装置を含むことができる。第1のニューラルネットワークモデルは、畳み込みニューラルネットワーク(CNN)などの事前訓練モデルとすることができる。一般に、CNNなどのニューラルネットワークの訓練データセットの準備は、通常は訓練データセットのための正確な出力が手動で作成されるので面倒である。従って、第1のニューラルネットワークモデルが利用可能になると、第2のニューラルネットワークモデルのグラウンドトゥルースとも呼ばれる真の前景マスクを手動で作成する必要なく、第1のニューラルネットワークモデルの入力-出力画像ペア及び異なるビデオに基づいて第2のニューラルネットワークモデルのための訓練データセットを生成することができる。
【0011】
開示する画像処理装置は、従来の手法とは対照的に、変形又は移動オブジェクトとすることができる関心オブジェクトを一連のカラー画像フレームからリアルタイム又は近リアルタイムで正確にセグメント化する。一連のカラー画像フレームからの関心オブジェクトのセグメンテーションにおいて使用される2つの異なるニューラルネットワークモデルは、従来のオブジェクトセグメンテーション法と比べた時に、最低限のセグメンテーションエラーを保証して、一連のカラー画像フレームから関心オブジェクトをセグメント化するためのフレーム当たりの処理速度を改善することができる。
【0012】
図1は、本開示の実施形態による、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置のネットワーク環境を示すブロック図である。図1にはネットワーク環境100を示す。ネットワーク環境100は、画像処理装置102及びサーバ104を含むことができる。画像処理装置102は、イメージセンサ102Aなどの1又は2以上のセンサを含むことができる。画像処理装置102は、通信ネットワーク106を介してサーバ104に通信可能に結合することができる。さらに、人間オブジェクト108A、無生物オブジェクト108B(例えば、家具アイテム)、及び生物オブジェクト108C(例えば、動物)などの複数のオブジェクトを含むシーン108も示す。イメージセンサ102Aは、画像処理装置102の視野から見たシーン108の一連のカラー画像フレーム110を取り込むように構成することができる。画像処理装置102は、第1のニューラルネットワークモデル112A及び第2のニューラルネットワークモデル112Bをさらに含むことができる。
【0013】
画像処理装置102は、イメージセンサ102Aから一連のカラー画像フレーム110を受け取るように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。画像処理装置102は、一連のカラー画像フレーム110から人間オブジェクト108Aなどの関心オブジェクトをセグメント化するようにさらに構成することができる。画像処理装置102の機能は、高速コンピュータ装置又はカメラなどのポータブル装置、及び/又はサーバ104などの非ポータブル装置に実装することができる。画像処理装置102の例としては、以下に限定するわけではないが、デジタルカメラ、デジタルカムコーダ、カメラフォン、スマートフォン、仮想現実装置、ゲーム機、モバイル装置又はハードウェアビデオプレーヤを挙げることができる。画像処理装置102の他の例としては、以下に限定するわけではないが、テレビ、家庭用娯楽システム、拡張現実装置及び(スマートメガネなどの)スマートウェアラブルを挙げることができる。
【0014】
イメージセンサ102Aは、シーン108の一連のカラー画像フレーム110を取り込むように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。一連のカラー画像フレーム110は、赤色、緑色及び青色(RGB)カラーモデル、色相、彩度及び明度(HSB)カラーモデル、シアン、黄色、マゼンタ及び黒色(CYMK)カラーモデル、又は(Lが輝度を表し、A及びBが色彩成分である)LABカラーモデルなどの、少なくとも1つのカラーモデルで取り込むことができる。イメージセンサ102Aは、シーン108及び/又はシーン108内の特定の関心オブジェクトに合焦できる集束レンズなどの好適な光学機器を有することができる。イメージセンサ102Aの実装例としては、以下に限定するわけではないが、半導体電荷結合素子(CCD)ベースのイメージセンサ、相補型金属酸化膜半導体(CMOS)ベースのイメージセンサ、グローバルシャッターを有するバックライト付きCMOSセンサ、シリコンオンインシュレータ(SOI)ベースのシングルチップイメージセンサ、N型金属酸化膜半導体ベースのイメージセンサ、フラットパネル検出器、又はその他のイメージセンサを挙げることができる。いくつかの実施形態では、イメージセンサ102Aに加えて、深度センサを使用してシーン108の一連のカラー画像フレーム110に対応する一連の深度画像を取り込むことができる。いくつかの実施形態では、イメージセンサ102Aを画像処理装置102内に一体化することができる。いくつかの実施形態では、イメージセンサ102Aを画像処理装置102内に一体化しないこともできる。このような事例では、様々な有線及び無線通信プロトコルを介してイメージセンサ102Aを画像処理装置102に通信可能に結合することができる。
【0015】
サーバ104は、第1のニューラルネットワークモデル112A及び/又は第2のニューラルネットワークモデル112Bなどのニューラルネットワークモデルの訓練データを記憶するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。サーバ104の例としては、以下に限定するわけではないが、データベースサーバ、ファイルサーバ、ウェブサーバ、クラウドサーバ、アプリケーションサーバ、メインフレームサーバ、又はその他のタイプのサーバを挙げることができる。
【0016】
通信ネットワーク106は、画像処理装置102とサーバ104とが互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク106の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、無線フィデリティ(Wi-Fi)ネットワーク、パーソナルエリアネットワーク(PAN)、ローカルエリアネットワーク(LAN)、又はメトロポリタンエリアネットワーク(MAN)を挙げることができる。ネットワーク環境100内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク106に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ファイル転送プロトコル(FTP)、Zig Bee、EDGE、IEEE802.11、ライトフィデリティ(Li-Fi)、802.16、IEEE802.11s、IEEE802.11g、マルチホップ通信、無線アクセスポイント(AP)、装置間通信、セルラー通信プロトコル、及びBluetooth(BT)通信プロトコルのうちの少なくとも1つを挙げることができる。
【0017】
第1のニューラルネットワークモデル112A及び第2のニューラルネットワークモデル112Bは、画像処理装置102内に提供することができる。ある実施形態によれば、第1のニューラルネットワークモデル112Aは、第1の畳み込みニューラルネットワーク(CNN)であることができ、第2のニューラルネットワーク112Bは、第1のCNNとは異なることができる第2のCNNであることができる。第1のニューラルネットワークモデル112A及び第2のニューラルネットワークモデル112Bの他の例としては、機械学習モデル、再帰型ニューラルネットワーク(RNN)などの深層学習モデル、CNN、又は長短期メモリ(LSTM)ベースのRNN、コネクショニストテンポラルクラシフィケーション(Connectionist Temporal Classification:CTC)ベースのRNN、又は敵対的生成ネットワーク(Generative Adversarial Network:GAN)を挙げることができる。いくつかの実施形態では、第1のニューラルネットワークモデル112A又は第2のニューラルネットワークモデル112Bの少なくとも一方を、画像処理装置102内の専門的ニューラルネットワーク回路として実装することができる。いくつかの実施形態では、第1のニューラルネットワークモデル112A又は第2のニューラルネットワークモデル112Bを、ニューラルスキーマ又は人工知能(AI)ベースのアプリケーションとして画像処理装置102に記憶することができる。
【0018】
ある実施形態によれば、第1のニューラルネットワークモデル112Aは、事前訓練モデルとすることができる。第1のニューラルネットワークモデル112Aは、画像処理装置102に配置する前に画像ペアの組で訓練することができる。画像ペアの組の各画像ペアは、カラー画像フレーム及び前景マスク画像を含むことができる。各画像ペアは、少なくともセグメント化すべき関心オブジェクトを含むことができる。1つの例では、サーバ104を、第1のニューラルネットワークモデル112Aを記憶するように構成することができる。サーバ104は、テストシーンのテストビデオを使用して第1のニューラルネットワークモデル112Aを画像ペアの組で訓練するように構成することができる。
【0019】
第1のニューラルネットワークモデル112Aは、入力層、1又は2以上の隠れ層及び出力層などの複数の層状に配置された、複数の相互接続されたプロセッシングユニットを有するニューラルスキーマを含むことができる。1つの層における各プロセッシングユニットは、重みとしても知られている異なる接続強度又はパラメータで相互接続することができる。
【0020】
第1のニューラルネットワークモデル112Aの訓練中には、入力層を介して画像ペアの組の入力カラー画像を第1のニューラルネットワークモデル112Aに通すことができる。場合によっては、関心オブジェクトの特性を定める1又は2以上の特徴を入力層において提供することもできる。出力層は、初期前景マスク画像の出力を生成することができる。第1のニューラルネットワークモデル112Aによる訓練の初期段階で前景マスク画像の不正確な出力が生成された場合には、第1のニューラルネットワークモデル112Aに正確な前景マスク画像を提供することができる。次に、この(真の前景マスク画像としても知られている)正確な前景マスクを、第1のニューラルネットワークモデル112Aの以前の出力と比較することができる。この正確な前景マスクと第1のニューラルネットワークモデル112Aの前の出力との比較結果としての差分を第1のニューラルネットワークモデル112Aに戻すことができる。これに従って、次回に重みを調整することができる。従って、通常、CNNのための訓練データセットの準備は面倒である。
【0021】
いくつかの事例では、通常は真の前景マスク画像などの真の出力が手動で作成される。しかしながら、第1のニューラルネットワークモデル112Aは、テストビデオの異なるカラー画像フレーム(例えば、RGB入力フレーム)を使用して訓練が進むにつれて、訓練の基礎となる関心オブジェクトの前景マスク画像の正確な出力を学習して生成できるようになる。例えば、関心オブジェクトが人間形状オブジェクトである場合、第1のニューラルネットワークモデル112Aは、訓練されると、人間形状オブジェクトを有するテストビデオ又は新たなビデオの任意の入力カラー画像フレームの正確な前景マスク画像を予測して出力することができる。複数の相互接続されたプロセッシングユニットにおけるプロセッシングユニットの数は、第1のCNNなどのニューラルネットワークの計算の複雑さを定めるだけでなく、ニューラルネットワークの出力に関する精度の維持に寄与することもできる。プロセッシングユニットの数が多ければ多いほど、計算の複雑さは増すようになる。第1のニューラルネットワークモデル112A(例えば、第1のCNN)は、第2のニューラルネットワークモデル112Bに比べて計算負荷の重いCNNとすることができる。第1のニューラルネットワークモデル112Aの訓練は、1回限りの動作(one-time activity)とすることができる。第1のニューラルネットワークモデル112Aは、訓練されると、オブジェクトセグメンテーションを目的として画像処理装置102などの様々な電子装置において使用及び/又は配置することができる。
【0022】
動作時には、イメージセンサ102Aを、シーン108の一連のカラー画像フレーム110を取り込むように構成することができる。いくつかの実施形態では、画像処理装置102を、サーバ104から第1のニューラルネットワークモデル112A及び第2のニューラルネットワークモデル112Bを受け取るように構成することができる。いくつかの実施形態では、第1のニューラルネットワークモデル112A及び第2のニューラルネットワークモデル112Bを画像処理装置102内に事前インストール及び/又は事前構成することができる。
【0023】
画像処理装置102は、第1のニューラルネットワークモデル112Aに基づいて、一連のカラー画像フレーム110のうちの第1のカラー画像フレーム110A内に人間オブジェクト108Aなどの関心オブジェクトの第1の前景マスクを生成するようにさらに構成することができる。画像処理装置102は、第1のニューラルネットワークモデル112Aを利用して、一連のカラー画像フレーム110からの任意の入力カラー画像フレームから、関心オブジェクトの第1の前景マスクなどの前景マスクを推定するように構成することができる。第1の前景マスクなどの前景マスクの推定は、任意の入力カラー画像の1又は2以上の先行するカラー画像フレーム又は後続のカラー画像フレームからの画像情報に依存しないことができる。換言すれば、第1のニューラルネットワークモデル112A(例えば、事前訓練モデルである第1のCNN)は、関心オブジェクトの第1の前景マスクなどの異なる前景マスクを生成するために基準フレームを必要としないことができる。
【0024】
画像処理装置102は、一連のカラー画像フレーム110の第1のカラー画像フレーム110Aに隣接していないその後のカラー画像フレーム内に、第1のニューラルネットワークモデル112Aに基づいて人間オブジェクト108Aなどの関心オブジェクトの第2の前景マスクを生成するようにさらに構成することができる。例えば、第1のカラー画像フレーム110Aに隣接していないその後のカラー画像フレームは、一連のカラー画像フレーム110の第3のカラー画像フレーム110Cとすることができる。
【0025】
画像処理装置102は、第1の前景マスク及び第2の前景マスクの補間に基づいて第3の前景マスクを決定するようにさらに構成することができる。例示的な実施形態によれば、この補間は、第1の前景マスク及び第2の前景マスクの線形補間とすることができる。別の実施形態によれば、この補間は、第1の前景マスク及び第2の前景マスクの非線形補間とすることもできる。画像処理装置102が第3の前景マスクを決定するために実行できる補間技術には、様々なものが存在することができる。線形補間技術の例としては、以下に限定するわけではないが、平均化ベースの補間、バイリニア補間、線形スプライン補間、及びその他の線形多項式補間を挙げることができる。非線形補間技術の例としては、以下に限定するわけではないが、余弦補間及びその他の非線形多項式補間を挙げることができる。
【0026】
線形補間では、第1の前景マスク及び第2の前景マスクなどの2つのマスクフレームの平均を、第3の前景マスクとすることができるラフな前景マスクとして解釈することができる。ある実施形態によれば、画像処理装置102は、第1の前景マスクの第1のオブジェクト境界及び第2の前景マスクの第2のオブジェクト境界から関心オブジェクトのオブジェクト境界を近似して正規化する近似操作を適用して、第3の前景マスクを生成するようにさらに構成することができる。
【0027】
ある実施形態によれば、画像処理装置102は、第2のニューラルネットワークモデル112Bを使用して、第3の前景マスクを第3の前景マスクの精細化された前景マスクを表す第4の前景マスクに更新するようにさらに構成することができる。第2のニューラルネットワークモデル112Bは、少なくともサイクル時間パラメータが第1のニューラルネットワークモデル112Aとは異なることができる。サイクル時間パラメータは、第1のニューラルネットワークモデル112A又は第2のニューラルネットワークモデル112Bなどのニューラルネットワークモデルに入力カラー画像フレームが通された時に一連のカラー画像フレーム110のうちの入力カラー画像フレームの出力前景マスクを生成するための総時間を示す。第2のニューラルネットワークモデル112Bは、第1のニューラルネットワークモデル112Aに比べてサイクル時間が短い高速なものとすることができる。従って、第2のニューラルネットワークモデル112Bは、第1のニューラルネットワークモデル112A(例えば、第1のCNN)などの計算負荷の重いCNNと同様の正確なマスクを出力できる計算負荷の軽いCNNと呼ぶこともできる。
【0028】
画像処理装置102は、第1のニューラルネットワークモデル112Aの入力-出力画像ペアに基づいて、第2のニューラルネットワークモデル112Bを使用して生成される精細化された前景マスクと、第1のニューラルネットワークモデル112A(例えば、第1の計算負荷の重いCNN)によって生成される前景マスクとの間の差分が最小化されるように第2のニューラルネットワークモデル112Bを訓練するようにさらに構成することができる。第4の前景マスクは、(第2のカラー画像フレーム110Bなどの)中間カラー画像フレーム及び決定された第3の前景マスクに基づいて生成することができる。(第2のカラー画像フレーム110Bなどの)中間カラー画像フレームは、第1のカラー画像フレーム110Aと(第3のカラー画像フレーム110Cなどの)その後のカラー画像フレームとの間に位置することができる。
【0029】
画像処理装置102は、少なくとも第1の前景マスクを使用して第1のカラー画像フレーム110Aから、及び第2の前景マスクを使用して(第3のカラー画像フレーム110Cなどの)その後のカラー画像フレームから、関心オブジェクトをセグメント化するようにさらに構成することができる。画像処理装置102は、第4の前景マスクを使用して(第2のカラー画像フレーム110Bなどの)中間カラー画像フレームから関心オブジェクトをセグメント化するようにさらに構成することができる。従って、第1のニューラルネットワークモデル112Aに基づいて、第1の非連続フレームの組(例えば、第1のカラー画像フレーム110A、第3のカラー画像フレーム110C、及び一連のカラー画像フレーム110の他の全ての隣接していない画像フレーム)の各フレームに対応する異なる出力前景マスクを生成することができる。
【0030】
画像処理装置102は、第1の非連続フレームの組の各フレームに対応する異なる出力前景マスクを使用して、一連のカラー画像フレーム110の第1の非連続フレームの組から人間オブジェクト108Aなどの関心オブジェクトをセグメント化するようにさらに構成することができる。同様に、第2のニューラルネットワークモデル112Bに基づいて、第2の非連続フレームの組の各フレーム(例えば、第2のカラー画像フレーム110B、及び互いに隣接していない一連のカラー画像フレーム110の他の全ての中間画像フレーム)に対応する異なる出力前景マスクを生成することもできる。画像処理装置102は、第2の非連続フレームの組の各フレームに対応する異なる出力前景マスクを使用して、一連のカラー画像フレーム110の第2の非連続フレームの組から人間オブジェクト108Aなどの関心オブジェクトをセグメント化するようにさらに構成することができる。
【0031】
図2は、本開示の実施形態による、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための例示的な画像処理装置を示すブロック図である。図2の説明は、図1の要素に関連して行う。図2には、画像処理装置102のブロック図200を示す。画像処理装置102は、制御回路202を含むことができる。制御回路202は、オブジェクトセグメンテーション回路204などの1又は2以上の専門的なプロセッシングユニットを含むことができる。画像処理装置102は、メモリ206、ネットワークインターフェイス208、及びI/O装置210などの1又は2以上の入力/出力(I/O)装置をさらに含むことができる。画像処理装置102は、イメージセンサ102Aをさらに含むことができる。メモリ206は、第1のニューラルネットワークモデル112A及び第2のニューラルネットワークモデル112Bを記憶するように構成することができる。いくつかの実施形態では、第1のニューラルネットワークモデル112A及び第2のニューラルネットワークモデル112Bを、画像処理装置102内のAI加速器回路と共に実装することができる。
【0032】
制御回路202は、一連のカラー画像フレーム110の各々から関心オブジェクトをセグメント化するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。制御回路202は、オブジェクトセグメンテーション回路204、メモリ206、ネットワークインターフェイス208、I/O装置210、並びに第1のニューラルネットワークモデル112A及び第2のニューラルネットワークモデル112Bなどのニューラルネットワークモデルに通信可能に結合することができる。いくつかの実施形態では、制御回路202を、当業で周知の複数のプロセッサ技術に基づいて実装することができる。制御回路202の実装例は、グラフィクスプロセッシングユニット(GPU)、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複数命令セットコンピューティング(CISC)プロセッサ、マイクロコントローラ、中央処理装置(CPU)、及び/又はその他の制御回路とすることができる。
【0033】
オブジェクトセグメンテーション回路204は、第1のニューラルネットワークモデル112A及び第2のニューラルネットワークモデル112Bなどの異なるニューラルネットワークモデルを使用して一連のカラー画像フレーム110から関心オブジェクトをセグメント化するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。オブジェクトセグメンテーション回路204の実装例は、コプロセッサ、グラフィクスプロセッシングユニット(GPU)、中央処理装置(CPU)、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複数命令セットコンピューティング(CISC)プロセッサ、マイクロコントローラ、及び/又はその他の制御回路とすることができる。
【0034】
メモリ206は、制御回路202及びオブジェクトセグメンテーション回路204が実行できる命令を記憶するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。メモリ206は、イメージセンサ102Aから受け取られた一連のカラー画像フレーム110を記憶するように構成することができる。メモリ206は、第1のニューラルネットワークモデル112A及び第2のニューラルネットワークモデル112Bを含むことができる。メモリ206の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電子的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、固体ドライブ(SSD)、CPUキャッシュ、及び/又はセキュアデジタル(SD)カードを挙げることができる。
【0035】
ネットワークインターフェイス208は、コンピュータ、スマートフォン、又はサーバ104などの複数の電子装置に接続して通信するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ネットワークインターフェイス208は、無線通信をサポートする既知の技術を実装するように構成することができる。ネットワークインターフェイス208は、以下に限定するわけではないが、アンテナ、無線周波数(RF)トランシーバ、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダ-デコーダ(CODEC)チップセット、加入者アイデンティティモジュール(SIM)カード、及び/又はローカルバッファを含むことができる。ネットワークインターフェイス208は、インターネット、イントラネットなどのネットワーク、及び/又は携帯電話ネットワーク、無線ローカルエリアネットワーク(WLAN)、パーソナルエリアネットワーク、及び/又はメトロポリタンエリアネットワーク(MAN)などの無線ネットワークとオフライン及びオンライン無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーション(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多重アクセス(W-CDMA)、符号分割多重アクセス(CDMA)、LTE、時分割多重アクセス(TDMA)、Bluetooth、無線フィデリティ(Wi-Fi)(IEEE802.11、IEEE802.11b、IEEE802.11g、IEEE802.11n、及び/又はいずれかの他のIEEE802.11プロトコルなど)、ボイスオーバインターネットプロトコル(VoIP)、Wi-MAX、モノのインターネット(IoT)技術、機械タイプ通信(MTC)技術、電子メール、インスタントメッセージング及び/又はショートメッセージサービス(SMS)のためのプロトコルなどの複数の通信規格、プロトコル及び技術のうちのいずれかを使用することができる。
【0036】
I/O装置210は、1又は2以上のユーザから入力を受け取るように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。I/O装置210は、1又は2以上のユーザに出力を提供するようにさらに構成することができる。I/O装置210は、制御回路202と通信するように構成できる様々な入力及び出力装置を含むことができる。入力装置の例としては、以下に限定するわけではないが、タッチ画面、物理的入力ボタン、ジョイスティック、マイク、(イメージセンサ102Aなどの)画像取り込み装置、及び/又はドッキングステーションを挙げることができる。出力装置の例としては、以下に限定するわけではないが、内蔵ディスプレイ画面、タッチ画面ディスプレイ、及び/又はスピーカを挙げることができる。制御回路202の動作については、例えば図3A図3B図3C及び図3Dにおいて詳細に説明する。
【0037】
図3Aに、本開示の実施形態による、2つの畳み込みニューラルネットワーク(CNN)に基づく一連のカラー画像フレームからのオブジェクトセグメンテーションのための例示的な処理パイプラインを示す。図3Aには、処理パイプライン300を示す。処理パイプライン300には、本明細書で説明する一連の動作を示す。
【0038】
動作時には、イメージセンサ102Aを、1又は2以上のオブジェクトを含むことができる一連のカラー画像フレーム302を取り込むように構成することができる。或いは、制御回路202は、メモリ206に記憶された一連のカラー画像フレーム302を検索するように構成することもできる。一連のカラー画像フレーム302は、第1のRGBフレーム302A、第2のRGBフレーム302B、及び第3のRGBフレーム302Cを含むことができる。メモリ206は、第1のCNN304A及び第2のCNN304Bを記憶するようにさらに構成することができる。第1のCNN304A及び第2のCNN304Bは、それぞれ第1のニューラルネットワークモデル112A及び第2のニューラルネットワークモデル112Bに対応することができる。同様に、第1のRGBフレーム、第2のRGBフレーム及び第3のRGBフレームは、それぞれ一連のカラー画像フレーム110のうちの第1のカラー画像フレーム110A、第2のカラー画像フレーム110B及び第3のカラー画像フレーム110Cに対応することができる。
【0039】
制御回路202は、一連のカラー画像フレーム302のうちの(第1のRGBフレーム302Aなどの)第1のカラー画像フレーム内の人間オブジェクト308などの関心オブジェクトの第1の前景マスク306Aを生成するように構成することができる。第1のRGBフレーム302Aは、第1の前景マスク306Aを生成するように訓練されたCNNとすることができる第1のCNN304Aに通すことができる。制御回路202は、第1のニューラルネットワークモデル112Aに基づいて、(第3のRGBフレーム302Cなどの)その後のカラー画像フレーム内の人間オブジェクト308などの関心オブジェクトの第2の前景マスク306Bを生成するようにさらに構成することができる。(第3のRGBフレーム302Cなどの)その後のカラー画像フレームは、一連のカラー画像フレーム302のうちの(第1のRGBフレーム302Aなどの)第1のカラー画像フレームに隣接しないことができる。
【0040】
制御回路202は、第1の前景マスク306A及び第2の前景マスク306Bの線形補間310に基づいて第3の前景マスク306Cを決定するようにさらに構成することができる。制御回路202は、線形補間310を使用して、第1の前景マスク306A及び第2の前景マスク306Bなどの2つのマスクフレームの平均を計算するようにさらに構成することができる。計算された平均は、第3の前景マスク306Cとすることができるラフな前景マスクに対応することができる。
【0041】
ある実施形態では、第2のCNN304Bを、ラフな前景マスク、すなわち第3の前景マスク306Cを精細化するように事前訓練することができる。別の実施形態では、第2のCNN304Bを、ラフな前景マスク、すなわち第3の前景マスク306Cを精細化するための特定の訓練データに基づいて訓練することが必要になり得る。従って、制御回路202は、特定の訓練データ、すなわち第3の前景マスク306C(すなわち、ラフな前景マスク)に連結された一連のカラー画像フレーム302のうちの(第2のRGBフレーム302Bなどの)中間RGBフレームを含むことができる連結画像フレームを生成するように構成することができる。連結画像フレームは4チャネルRGB-M画像とすることができ、ここでのRGBは、中間「RGB」フレームのRGBカラーチャネルに対応することができ、「M」は、第3の前景マスク306Cのマスク又は二値色(binary colors)(すなわち、黒色及び白色)に対応することができる。また、制御回路202は、(図3Bで説明するように)第2のRGBフレーム302B上に直接第1のCNN304Aを適用することによって中間テストマスクを生成するように構成することもできる。
【0042】
制御回路202は、中間テストマスクと、第2のCNN304Bの部分的に訓練されたバージョン又は訓練されていないバージョンの出力とに基づいて第2のCNN304Bを訓練するようにさらに構成することができる。中間テストマスクは、第2のCNN304Bの最適な重みパラメータを推定するためのグラウンドトゥルースマスク又は正確な基準マスクとして機能することができる。訓練段階では、第2のCNN304Bの全ての出力を使用して、第2のCNN304Bの推定される前景マスクと中間テストマスクとの差分に基づいて第2のCNN304Bの訓練エラーを最小化することができる。訓練エラーが最小化されると、第2のCNN304Bは、第1のCNN304Aに比べて出力生成のためのサイクル時間が短い状態で第2のCNN304Bの精度が第1のCNN304Aの精度とほぼ同じになるように第4の前景マスク306Dを出力するように構成することができる。第4の前景マスク306Dは、第2のRGBフレーム302Bなどの中間RGBフレームの人間オブジェクト308などの関心オブジェクトのための正確なマスクとすることができる。第2のCNN304Bの訓練データセットの準備の詳細については、例えば図3B図3C及び図3Dにおいて詳細に説明する。
【0043】
制御回路202は、第2のCNN304Bを使用して、第3の前景マスク306Cの精細化された前景マスクを表す第4の前景マスク306Dを生成するようにさらに構成することができる。第2のCNN304Bは、第1のCNN304Aなどの計算負荷の重いCNNと同程度の正確なマスクを出力できる計算負荷の軽いCNNとすることができる。この第2のCNN304Bの同等の精度は、第2のCNN304Bの訓練段階において達成することができる。計算負荷の軽いCNNは、第1のCNN304Aに比べて第2のCNN304Bの方がサイクル時間が短く高速であり得ることを示すことができる。第4の前景マスク306Dは、(第2のRGBフレーム302Bなどの)中間カラー画像フレーム及び決定された第3の前景マスク306Cを第2のCNN304Bに入力することに基づいて生成することができる。
【0044】
第4のチャネルは、第3の前景マスク306C(すなわち、ラフな前景マスク)の形態の二値画像表現に対応することができるので、第2のCNN304Bが、第2のRGBフレーム302Bに連結された第3の前景マスク306Cを含む4チャネル画像データをRGB-M入力として解釈すると、サイクル時間が短くなる。
【0045】
図3Bに、本開示の実施形態による、図3Aの第2のCNNの例示的な訓練データセットの準備を示す。図3Bには、一連のカラー画像フレーム302のRGBフレーム302A、302B及び302Cなどのフレームセットと、第1のCNN304Aと、RGBフレーム302A、302B及び302Cなどのフレームセットの各フレームに対応する異なる出力前景マスクとを示す。
【0046】
ある実施形態によれば、第1のCNN304Aと、第1のCNN304Aからの(RGBフレーム302A、302B及び302Cなどの)フレームセットの各フレームに対応する異なる出力前景マスクとが利用可能になると、第2のCNN304Bのための訓練データセットを生成することができる。制御回路202は、第1のCNN304Aの複数の入力-出力画像ペアに基づいて第1のCNN304Aを訓練するように構成することができる。第1のCNN304Aの複数の入力-出力画像ペアは、第1のRGBフレーム302A、第2のRGBフレーム302B及び第3のRGBフレーム302Cと、第1の前景マスク306A、前景マスク306E及び第3の前景マスク306Cなどの対応する出力前景マスクとを含むことができる。前景マスク306Eは、第2のCNN304B、すなわち計算負荷の軽いCNNの訓練のための中間テストマスク又はグラウンドトゥルースマスクに対応することができる。同様に、制御回路202は、第1のCNN304Aを使用して一連のカラー画像フレーム302のうちの少なくともいくつかのフレーム(すなわち、フレームセット)又は全ての入力RGBフレームを処理し、一連のカラー画像フレーム302の各入力RGBフレームのための前景マスクを生成するように構成することができる。
【0047】
一連のカラー画像フレーム302の各入力RGBフレームのための異なる入力RGBフレーム及び対応する前景マスクを含む第1のCNN304Aの複数の入力-出力画像ペアは、第2のCNN304Bのための訓練データセットとして利用することができる。第1のCNN304Aの複数の入力-出力画像ペアに基づけば、(第2のCNN304Bのグラウンドトゥルースとも呼ばれる)真の前景マスクを手動で作成する必要性を回避できるので、第2のCNN304Bの訓練が効率的になることができる。
【0048】
図3Cに、本開示の実施形態による、2つの前景マスクの例示的な線形補間を示す。図3Cには、第1のCNN304Aによって生成された第1の前景マスク306A及び第2の前景マスク306Bの線形補間310を示す。
【0049】
制御回路202は、第1の前景マスク306Aの第1のオブジェクト境界312A及び第2の前景マスク306Bの第2のオブジェクト境界312Bから人間オブジェクト308などの関心オブジェクトのオブジェクト境界を近似して正規化する近似操作を適用して、第3の前景マスク306Cを生成するように構成することができる。線形補間310では、第3の前景マスク306Cとすることができるラフな前景マスクとして、第1の前景マスク306A及び第2の前景マスク306Bなどの2つのマスクフレームの平均を取ることができる。第1の前景マスク306Aと第2の前景マスク306Bとの間の共通領域は、ドット領域として示す。第1の前景マスク306A及び第2の前景マスク306Bの共通でないエリアは、平均化又は近似することができる。
【0050】
図3Dに、本開示の実施形態による、中間画像フレームの前景マスクを生成するための、図3Aの第2のCNNへの例示的な入力を示す。図3Dには、第1のRGBフレーム302Aと第3のRGBフレーム302Cとの間の第2のRGBフレーム302B(すなわち、中間フレーム)のための第3の前景マスク306C(すなわち、ラフな前景マスク)を示す。また、連結フレーム314、及び第3の前景マスク306Cの更新である第4の前景マスク306Dも示す。
【0051】
制御回路202は、第3の前景マスク306Cを第4の前景マスク306Dに更新するために、(t番目のフレームとt+2番目のフレームとの間のt+1番目のフレームなどの)第2のRGBフレーム302Bと第3の前景マスク306C(すなわち、ラフな前景マスク)との連結316によって連結フレーム314を生成するように構成することができる。連結フレーム314は、4チャネル画像(すなわち、RGBチャネル及びマスク)とすることができる。
【0052】
制御回路202は、連結フレーム314を第2のCNN304Bへの入力として使用することによって第2のCNN304Bを訓練するようにさらに構成することができる。第2のCNN304Bは、対応する反復において第2のCNN304Bの訓練エラーに基づいて調整できる一連の重みのために、一連の反復の各反復において前景マスクを出力することができる。第2のCNN304Bは、各反復における第2のCNN304Bからの出力前景マスクと、前景マスク306E(すなわち、第1のCNN304Aによって生成された中間テストマスク又はグラウンドトゥルースマスク)との間の差分が最小化されるように訓練することができる。前景マスク306E(すなわち、中間テストマスク)は、第2のCNN304Bの最適な重みパラメータを推定するためのグラウンドトゥルースマスク又は正確な基準マスクとして機能することができる。各反復における第2のCNN304Bからの出力前景マスクと前景マスク306Eとの間の差分の最小化は、第2のCNN304B(すなわち、計算負荷の軽いCNN)の訓練エラーの最小化に対応することができる。
【0053】
訓練エラーが最小化されると、制御回路202は、第2のCNN304Bを使用して第3の前景マスク306Cを第4の前景マスク306Dに更新するように構成することができる。第4の前景マスク306Dは、第3の前景マスク306Cの精細化された前景マスクを表すことができる。第3の前景マスク306Cは、第3の前景マスク306C及び中間カラー画像フレーム(すなわち、第1のRGBフレーム302Aと第3のRGBフレーム302Cとの間に存在できる第2のRGBフレーム302B)に基づいて第4の前景マスク306Dに更新することができる。具体的に言えば、第2のCNN304Bは、第1のCNN304Aに比べて第4の前景マスク306Dの生成のためのサイクル時間が短い状態で第2のCNN304Bの精度が第1のCNN304Bの精度とほぼ同じになるように第4の前景マスク306Dを出力することができる。第4の前景マスク306Dは、第2のRGBフレーム302Bの人間オブジェクト308などの関心オブジェクトのための正確なマスクとすることができる。
【0054】
オブジェクトセグメンテーション回路204は、少なくとも第1の前景マスク306Aを使用して第1のRGBフレーム302Aから、第2の前景マスク306Dを使用して第3のRGBフレーム302Cから、及び第4の前景マスク306Dを使用して第2のRGBフレーム302Bから、(人間オブジェクト308などの)関心オブジェクトをセグメント化するようにさらに構成することができる。
【0055】
図4は、本開示の実施形態による、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための例示的な方法を示すフローチャートである。図4には、フローチャート400を示す。この例示的な方法の動作は、画像処理装置102において実行することができる。動作は、402から開始して404に進むことができる。
【0056】
404において、一連のカラー画像フレーム110を取り込むことができる。制御回路202は、イメージセンサ102Aを一連のカラー画像フレーム110を取り込むように制御するよう構成することができる。
【0057】
406において、第1のニューラルネットワークモデル112Aに基づいて、一連のカラー画像フレーム110のうちの第1のカラー画像フレーム110A内の関心オブジェクトのための第1の前景マスクを生成することができる。制御回路202は、第1のニューラルネットワークモデル112Aに基づいて、一連のカラー画像フレーム110のうちの第1のカラー画像フレーム110A内の関心オブジェクトのための第1の前景マスクを生成するように構成することができる。
【0058】
408において、第1のニューラルネットワークモデル112Aに基づいて、一連のカラー画像フレーム110のうちの第1のカラー画像フレーム110Aに隣接していないその後のカラー画像フレーム内の関心オブジェクトのための第2の前景マスクを生成することができる。制御回路202は、第1のニューラルネットワークモデル112Aに基づいて、一連のカラー画像フレーム110のうちの第1のカラー画像フレーム110Aに隣接していないその後のカラー画像フレーム内の関心オブジェクトのための第2の前景マスクを生成するように構成することができる。
【0059】
410において、第1の前景マスク及び第2の前景マスクの補間に基づいて第3の前景マスクを決定することができる。制御回路202は、第1の前景マスク及び第2の前景マスクの補間に基づいて第3の前景マスクを決定するように構成することができる。この補間は、第1の前景マスク及び第2の前景マスクの平均が第3の前景マスク(ラフな前景マスク)をもたらすことができる線形補間とすることができる。
【0060】
412において、第2のニューラルネットワークモデル112Bを使用して、決定された第3の前景マスクと、第1のカラー画像フレーム110Aとその後のカラー画像フレームとの間に存在する中間カラー画像フレームとに基づいて、第3の前景マスクを第3の前景マスクの精細化された前景マスクを表すことができる第4の前景マスクに更新することができる。制御回路202は、第2のニューラルネットワークモデル112Bを使用して、第3の前景マスクを第3の前景マスクの精細化された前景マスクを表すことができる第4の前景マスクに更新するように構成することができる。第3の前景マスクは、決定された第3の前景マスクと、第1のカラー画像フレーム110Aとその後のカラー画像フレームとの間に存在する中間カラー画像フレームとに基づいて更新することができる。
【0061】
414において、少なくとも第1の前景マスクを使用して第1のカラー画像フレーム110Aから、第2の前景マスクを使用してその後のカラー画像フレームから、及び第4の前景マスクを使用して中間カラー画像フレームから、関心オブジェクトをセグメント化することができる。制御回路202は、少なくとも第1の前景マスクを使用して第1のカラー画像フレーム110Aから、第2の前景マスクを使用してその後のカラー画像フレームから、及び第4の前景マスクを使用して中間カラー画像フレームから、関心オブジェクトをセグメント化するように構成することができる。制御は終了に進む。
【0062】
本開示の様々な実施形態は、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置を動作させるように機械及び/又はコンピュータが実行できる命令を記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体を提供することができる。命令は、機械及び/又はコンピュータに一連のカラー画像フレームの取り込みを含む動作を実行させることができる。動作は、第1のニューラルネットワークモデル及び第2のニューラルネットワークモデルを記憶することをさらに含む。動作は、第1のニューラルネットワークモデルに基づいて、一連のカラー画像フレームのうちの第1のカラー画像フレーム内の関心オブジェクトのための第1の前景マスクを生成することをさらに含む。動作は、第1のニューラルネットワークモデルに基づいて、一連のカラー画像フレームのうちの第1のカラー画像フレームに隣接していないその後のカラー画像フレーム内の関心オブジェクトのための第2の前景マスクを生成することをさらに含む。動作は、第1の前景マスク及び第2の前景マスクの補間に基づいて第3の前景マスクを決定することをさらに含む。動作は、第2のニューラルネットワークモデルを使用して、第3の前景マスクを第3の前景マスクの精細化された前景マスクを表す第4の前景マスクに更新することをさらに含む。第3の前景マスクは、決定された第3の前景マスクと、第1のカラー画像フレームとその後のカラー画像フレームとの間に存在する中間カラー画像フレームとに基づいて更新される。動作は、少なくとも第1の前景マスクを使用して第1のカラー画像フレームから、第2の前景マスクを使用してその後のカラー画像フレームから、及び第4の前景マスクを使用して中間カラー画像フレームから、関心オブジェクトをセグメント化することをさらに含む。
【0063】
本開示のいくつかの実施形態は、複数のニューラルネットワークに基づく一連のカラー画像フレームにおけるオブジェクトセグメンテーションのための画像処理装置及び方法において見出すことができる。本開示の様々な実施形態は、メモリ206(図2)、イメージセンサ102A及び制御回路202(図2)を含むことができる画像処理装置102(図1)を提供することができる。イメージセンサ102Aは、一連のカラー画像フレーム110を取り込むように構成することができる。メモリ206は、第1のニューラルネットワークモデル112A及び第2のニューラルネットワークモデル112Bを記憶するように構成することができる。制御回路202は、第1のニューラルネットワークモデル112Aに基づいて、一連のカラー画像フレーム110のうちの第1のカラー画像フレーム110A内の関心オブジェクトのための第1の前景マスクを生成するように構成することができる。制御回路202は、第1のニューラルネットワークモデル112Aに基づいて、一連のカラー画像フレーム110のうちの第1のカラー画像フレーム110Aに隣接していないその後のカラー画像フレーム内の関心オブジェクトのための第2の前景マスクを生成するようにさらに構成することができる。制御回路202は、第1の前景マスク及び第2の前景マスクの補間に基づいて第3の前景マスクを決定するようにさらに構成することができる。制御回路202は、第2のニューラルネットワークモデル112Bを使用して、第3の前景マスクを第3の前景マスクの精細化された前景マスクを表す第4の前景マスクに更新するようにさらに構成することができる。第3の前景マスクは、決定された第3の前景マスクと、第1のカラー画像フレーム110Aとその後のカラー画像フレームとの間に存在する中間カラー画像フレームとに基づいて更新することができる。制御回路202は、少なくとも第1の前景マスクを使用して第1のカラー画像フレーム110Aから、第2の前景マスクを使用してその後のカラー画像フレームから、及び第4の前景マスクを使用して中間カラー画像フレームから関心オブジェクトをセグメント化するようにさらに構成することができる。
【0064】
ある実施形態によれば、第1のニューラルネットワークモデル112Aは、画像ペアの組によって訓練される事前訓練モデルとすることができる。画像ペアの組の各画像ペアは、カラー画像フレーム及び前景マスク画像を含むことができる。各画像ペアは、少なくともセグメント化すべき関心オブジェクトを含むことができる。
【0065】
ある実施形態によれば、制御回路202は、第1のニューラルネットワークモデル112Aを利用して、一連のカラー画像フレーム110からの任意の入力カラー画像フレームから、この任意の入力カラー画像フレームの1又は2以上の先行するカラー画像フレーム又は後続のカラー画像フレームからの画像情報とは無関係に関心オブジェクトの前景マスクを推定するように構成することができる。
【0066】
ある実施形態によれば、第1のニューラルネットワークモデル112Aは、第1の畳み込みニューラルネットワークとすることができ、第2のニューラルネットワークモデル112Bは、第1の畳み込みニューラルネットワークとは異なる第2の畳み込みニューラルネットワークとすることができる。第1のニューラルネットワークモデル112Aは、少なくともサイクル時間パラメータが第2のニューラルネットワークモデル112Bと異なることができる。サイクル時間パラメータは、入力カラー画像フレームがニューラルネットワークモデルに通された時に一連のカラー画像フレーム110の入力カラー画像フレームの出力前景マスクを生成するための総時間を示すことができる。第2のニューラルネットワークモデル112Bは、第1のニューラルネットワークモデル112Aに比べてサイクル時間が短く高速である。ある実施形態によれば、制御回路202は、第1のニューラルネットワークモデル112Aの入力-出力画像ペアに基づいて第2のニューラルネットワークモデル112Bを訓練するように構成することができる。
【0067】
ある実施形態によれば、制御回路202は、第1のニューラルネットワークモデル112Aに基づいて第1のカラー画像フレーム110Aを前景領域及び背景領域に分類するように構成することができる。前景領域は、二値画像である生成された第1の前景マスクにマッピングすることができる。
【0068】
ある実施形態によれば、制御回路202は、第1のニューラルネットワークモデル112Aに基づいてその後のカラー画像フレームを前景領域および背景領域に分類するようにさらに構成することができる。前景領域は、二値画像である生成された第2の前景マスクにマッピングすることができる。
【0069】
ある実施形態によれば、補間は、第1の前景マスク及び第2の前景マスクの線形補間とすることができる。第1の前景マスク及び第2の前景マスクの線形補間では、制御回路202を、第1の前景マスクの第1のオブジェクト境界及び第2の前景マスクの第2のオブジェクト境界から関心オブジェクトのオブジェクト境界を近似して正規化する近似操作を適用して、二値画像である第3の前景マスクを生成するように構成することができる。
【0070】
ある実施形態によれば、制御回路202は、一連のカラー画像フレーム110のうちの第1の非連続フレームの組の各フレームに対応する、第1のニューラルネットワークモデル112Aに基づいて生成された異なる出力前景マスクを使用して、第1の非連続フレームの組から関心オブジェクトをセグメント化するように構成することができる。異なる出力前景マスクは、少なくとも第1の前景マスク及び第2の前景マスクを含むことができる。
【0071】
ある実施形態によれば、制御回路202は、一連のカラー画像フレームのうちの第2の非連続フレームの組の各フレームに対応する、第2のニューラルネットワークモデル112Bに基づいて生成された異なる出力前景マスクを使用して、第2の非連続フレームの組から関心オブジェクトをセグメント化するようにさらに構成することができる。異なる出力前景マスクは、少なくとも第4の前景マスクを含むことができる。
【0072】
本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも1つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。
【0073】
本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。
【0074】
いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。
【符号の説明】
【0075】
400 フローチャート
402 開始
404 一連のカラー画像フレームを取り込む
406 第1のニューラルネットワークモデルに基づいて、一連のカラー画像フレームのうちの第1のカラー画像フレーム内の関心オブジェクトのための第1の前景マスクを生成408 第1のニューラルネットワークモデルに基づいて、一連のカラー画像フレームのうちの第1のカラー画像フレームに隣接していないその後のカラー画像フレーム内の関心オブジェクトのための第2の前景マスクを生成
410 第1の前景マスク及び第2の前景マスクの補間に基づいて第3の前景マスクを決定
412 第2のニューラルネットワークモデルを使用して、第1のカラー画像フレームとその後のカラー画像フレームとの間に存在する中間カラー画像フレームと、決定された第3の前景マスクとに基づいて、第3の前景マスクを第3の前景マスクの調整された前景マスクを表す第4の前景マスクに更新
414 少なくとも第1の前景マスクを使用して第1のカラー画像フレームから、第2の前景マスクを使用してその後の画像フレームから、及び第4の前景マスクを使用して中間カラー画像フレームから、関心オブジェクトをセグメント化
図1
図2
図3A
図3B
図3C
図3D
図4
【国際調査報告】