IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧 ▶ ソニー ピクチャーズ エンターテインメント インコーポレイテッドの特許一覧

特表2023-520528輪郭精度評価を用いた画像セグメンテーション訓練
<>
  • 特表-輪郭精度評価を用いた画像セグメンテーション訓練 図1
  • 特表-輪郭精度評価を用いた画像セグメンテーション訓練 図2
  • 特表-輪郭精度評価を用いた画像セグメンテーション訓練 図3A
  • 特表-輪郭精度評価を用いた画像セグメンテーション訓練 図3B
  • 特表-輪郭精度評価を用いた画像セグメンテーション訓練 図3C
  • 特表-輪郭精度評価を用いた画像セグメンテーション訓練 図3D
  • 特表-輪郭精度評価を用いた画像セグメンテーション訓練 図3E
  • 特表-輪郭精度評価を用いた画像セグメンテーション訓練 図4
  • 特表-輪郭精度評価を用いた画像セグメンテーション訓練 図5
  • 特表-輪郭精度評価を用いた画像セグメンテーション訓練 図6
  • 特表-輪郭精度評価を用いた画像セグメンテーション訓練 図7A
  • 特表-輪郭精度評価を用いた画像セグメンテーション訓練 図7B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-05-17
(54)【発明の名称】輪郭精度評価を用いた画像セグメンテーション訓練
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230510BHJP
   G06T 7/13 20170101ALI20230510BHJP
   G06V 10/82 20220101ALI20230510BHJP
【FI】
G06T7/00 350C
G06T7/13
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022560283
(86)(22)【出願日】2021-05-28
(85)【翻訳文提出日】2022-10-03
(86)【国際出願番号】 US2021035026
(87)【国際公開番号】W WO2022005670
(87)【国際公開日】2022-01-06
(31)【優先権主張番号】63/047,750
(32)【優先日】2020-07-02
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/179,061
(32)【優先日】2021-02-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(71)【出願人】
【識別番号】596102126
【氏名又は名称】ソニー ピクチャーズ エンターテインメント インコーポレイテッド
(74)【代理人】
【識別番号】100092093
【弁理士】
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(72)【発明者】
【氏名】チェン メンユ
(72)【発明者】
【氏名】ジュー ミャオチー
(72)【発明者】
【氏名】高島 芳和
(72)【発明者】
【氏名】チャオ オウヤン
(72)【発明者】
【氏名】デ ラ ローサ ダニエル
(72)【発明者】
【氏名】ラフェンテ マイケル
(72)【発明者】
【氏名】シャピーロ スティーヴン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA01
5L096EA03
5L096EA16
5L096FA06
5L096GA40
5L096HA11
5L096KA04
5L096KA13
(57)【要約】
予測セグメンテーションマスクの精度を高めることが、セグメンテーション訓練のためのグラウンドトゥルースRGB画像コンテナから、グラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出することと、グラウンドトゥルースRGB画像バッファから予測セグメンテーションマスクを生成することと、特定のアルゴリズムを使用して、予測セグメンテーションマスクから第2の二値輪郭を生成することと、グラウンドトゥルースRGB画像バッファの手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、二値輪郭画像バッファの輪郭と予測セグメンテーションマスクの二値輪郭との間の輪郭精度損失を計算することと、セグメンテーション損失及び輪郭精度損失の加重平均としての総損失を計算することと、二値輪郭画像バッファの輪郭を計算された総損失で補償することによって改善された二値輪郭を生成し、改善された二値輪郭を使用して予測セグメンテーションマスクの精度を高めることと、を含む。
【選択図】 図1
【特許請求の範囲】
【請求項1】
予測セグメンテーションマスクの精度を高める方法であって、
セグメンテーション訓練のためのグラウンドトゥルース赤色-緑色-青色(RGB)画像コンテナから、グラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出することと、
前記グラウンドトゥルースRGB画像バッファから予測セグメンテーションマスクを生成することと、
特定のアルゴリズムを使用して、前記予測セグメンテーションマスクから第2の二値輪郭を生成することと、
前記グラウンドトゥルースRGB画像バッファの手動でセグメント化されたマスクと前記予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、
前記二値輪郭画像バッファの輪郭と前記予測セグメンテーションマスクの前記二値輪郭との間の輪郭精度損失を計算することと、
前記セグメンテーション損失及び前記輪郭精度損失の加重平均としての総損失を計算することと、
前記二値輪郭画像バッファの前記輪郭を前記計算された総損失で補償することによって改善された二値輪郭を生成し、前記改善された二値輪郭を使用して前記予測セグメンテーションマスクの精度を高めることと、
を含むことを特徴とする方法。
【請求項2】
前記特定のアルゴリズムを使用して、前記グラウンドトゥルースRGB画像の前記手動でセグメント化されたマスクに基づいて第1の二値輪郭を生成することと、
前記第1の二値輪郭を前記グラウンドトゥルースRGB画像内に交差させて前記グラウンドトゥルースRGB画像コンテナを生成することと、
をさらに含む請求項1に記載の方法。
【請求項3】
前記第1の二値輪郭を前記グラウンドトゥルースRGB画像内に交差させることは、
前記グラウンドトゥルースRGB画像の各行を前記グラウンドトゥルースRGB画像コンテナの第1の1行おきの行内に配置することと、
前記第1の二値輪郭の各行を前記グラウンドトゥルースRGB画像コンテナの第2の1行おきの行内に配置することと、
を含む、請求項2に記載の方法。
【請求項4】
前記第1の1行おきの行は偶数行であり、前記第2の1行おきの行は奇数行である、
請求項3に記載の方法。
【請求項5】
前記手動でセグメント化されたマスクは、前記グラウンドトゥルースRGB画像を手動でセグメント化することによって生成される、
請求項1に記載の方法。
【請求項6】
前記総損失を計算することは、
第1の定数に前記セグメンテーション損失を乗じたものと第2の定数に前記輪郭精度損失を乗じたものとの加算として前記総損失を計算することを含み、
前記第1の定数と前記第2の定数との和は1に等しい、
請求項1に記載の方法。
【請求項7】
予測セグメンテーションマスクの精度を高めるシステムであって、
交差画像コンテナからグラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出するバッファ抽出器と、
前記グラウンドトゥルースRGB画像バッファを受け取って予測セグメンテーションマスクを生成するセグメンテーションネットワークと、
前記予測セグメンテーションマスクを受け取り、前記予測セグメンテーションマスクに基づいて予測輪郭を生成し、手動でセグメント化されたマスクと前記予測セグメンテーションマスクとの間のセグメンテーション損失を計算し、前記予測輪郭と前記二値輪郭画像バッファとの間の輪郭精度損失も計算するプロセッサと、
前記セグメンテーション損失及び前記輪郭精度損失の加重平均としての総損失を計算するエンハンサと、
を備えることを特徴とするシステム。
【請求項8】
前記エンハンサは、前記総損失を使用して前記二値輪郭画像バッファの前記損失を補償して改善された二値輪郭を生成し、前記改善された二値輪郭を使用して前記予測セグメンテーションマスクの精度を高める、
請求項7に記載のシステム。
【請求項9】
前記プロセッサは、特定のアルゴリズムを使用して、前記予測セグメンテーションマスクに基づいて前記予測輪郭を生成する、
請求項7に記載のシステム。
【請求項10】
前記交差画像コンテナは、前記特定のアルゴリズムを使用して、前記グラウンドトゥルースRGB画像バッファ内のグラウンドトゥルースRGB画像の前記手動でセグメント化されたマスクに基づいて二値輪郭を生成し、前記二値輪郭画像バッファ内の二値輪郭を前記グラウンドトゥルースRGB画像内に交差させることによって構築される、
請求項9に記載のシステム。
【請求項11】
前記手動でセグメント化されたマスクは、前記グラウンドトゥルースRGB画像を手動でセグメント化することによって生成される、
請求項10に記載のシステム。
【請求項12】
予測セグメンテーションマスクの精度を高めるためのコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラムは、
セグメンテーション訓練のためのグラウンドトゥルース赤色-緑色-青色(RGB)画像コンテナから、グラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出することと、
前記グラウンドトゥルースRGB画像バッファから予測セグメンテーションマスクを生成することと、
特定のアルゴリズムを使用して、前記予測セグメンテーションマスクから第2の二値輪郭を生成することと、
前記グラウンドトゥルースRGB画像バッファの手動でセグメント化されたマスクと前記予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、
前記二値輪郭画像バッファの輪郭と前記予測セグメンテーションマスクの前記二値輪郭との間の輪郭精度損失を計算することと、
前記セグメンテーション損失及び前記輪郭精度損失の加重平均としての総損失を計算することと、
前記二値輪郭画像バッファの前記輪郭を前記計算された総損失で補償することによって改善された二値輪郭を生成し、前記改善された二値輪郭を使用して前記予測セグメンテーションマスクの精度を高めることと、
をコンピュータに行わせる実行可能命令を含む、ことを特徴とする非一時的コンピュータ可読記憶媒体。
【請求項13】
前記コンピュータプログラムは、
前記特定のアルゴリズムを使用して、前記グラウンドトゥルースRGB画像の前記手動でセグメント化されたマスクに基づいて第1の二値輪郭を生成することと、
前記第1の二値輪郭を前記グラウンドトゥルースRGB画像内に交差させて前記グラウンドトゥルースRGB画像コンテナを生成することと、
を前記コンピュータに行わせる実行可能命令をさらに含む、請求項12に記載の非一時的コンピュータ可読記憶媒体。
【請求項14】
前記第1の二値輪郭を前記グラウンドトゥルースRGB画像内に交差させることを前記コンピュータにさせる前記実行可能命令は、
前記グラウンドトゥルースRGB画像の各行を前記グラウンドトゥルースRGB画像コンテナの第1の1行おきの行内に配置することと、
前記第1の二値輪郭の各行を前記グラウンドトゥルースRGB画像コンテナの第2の1行おきの行内に配置することと、
を前記コンピュータに行わせる実行可能命令を含む、請求項13に記載の非一時的コンピュータ可読記憶媒体。
【請求項15】
前記第1の1行おきの行は偶数行であり、前記第2の1行おきの行は奇数行である、
請求項14に記載の非一時的コンピュータ可読記憶媒体。
【請求項16】
前記手動でセグメント化されたマスクは、前記グラウンドトゥルースRGB画像を手動でセグメント化することによって生成される、
請求項12に記載の非一時的コンピュータ可読記憶媒体。
【請求項17】
前記総損失を計算することを前記コンピュータに行わせる実行可能命令は、
第1の定数に前記セグメンテーション損失を乗じたものと第2の定数に前記輪郭精度損失を乗じたものとの加算として前記総損失を計算することを前記コンピュータに行わせる実行可能命令を含み、
前記第1の定数と前記第2の定数との和は1に等しい、
請求項12に記載の非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照〕
本出願は、2020年7月2日に出願された「輪郭精度評価を用いた機械学習ベースの画像セグメンテーション訓練(Machine Learning based Image Segmentation Training with Contour Accuracy Evaluation)」という名称の同時継続米国仮特許出願第63/047,750号の米国特許法第119条に基づく優先権の利益を主張するものであり、上記出願の開示は引用により本明細書に組み入れられる。
【0002】
本開示は、セグメンテーションマスクに関し、具体的には、輪郭精度を評価することによって予測セグメンテーションマスクの精度を高めることに関する。
【背景技術】
【0003】
マスクを使用する従来の機械学習(ML)ベースのセグメンテーション法は、ソーシャルメディア上の低解像度ビデオなどの非専門的メディアコンテンツについては十分な結果をもたらす。しかしながら、専門的な画像/ビデオ処理タスクの要件を満たすには、セグメンテーションマスクの品質が十分でないことがある。例えば、エッジの明瞭性がフレーム毎に異なることによって、誤って推測されたサブピクセルがマスク領域内に現れることがある。通常、これらの領域は、エッジ沿いの覆われていない穴又は不連続輪郭の形態で現れる。従って、いくつかのシナリオでは、MLベースのセグメンテーション法が信頼できる及び/又は一貫したセグメンテーションマスクを生成しないことがある。これらのシナリオとしては、高解像度画像(例えば、HD、4K)、とりわけ動きの速い物体を有する動的シーン、及びカラーグレーディングされたコンテンツ(例えば、低明度、前景及び背景内の同様のテクスチャ)を挙げることができる。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示は、輪郭精度を評価することによる予測セグメンテーションマスクの精度向上を提供する。
【0005】
1つの実装では、予測セグメンテーションマスクの精度を高める方法を開示する。この方法は、セグメンテーション訓練のためのグラウンドトゥルース赤色-緑色-青色(RGB)画像コンテナから、グラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出することと、グラウンドトゥルースRGB画像バッファから予測セグメンテーションマスクを生成することと、特定のアルゴリズムを使用して、予測セグメンテーションマスクから第2の二値輪郭を生成することと、グラウンドトゥルースRGB画像バッファの手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、二値輪郭画像バッファの輪郭と予測セグメンテーションマスクの二値輪郭との間の輪郭精度損失を計算することと、セグメンテーション損失及び輪郭精度損失の加重平均としての総損失を計算することと、二値輪郭画像バッファの輪郭を計算された総損失で補償することによって改善された二値輪郭を生成し、改善された二値輪郭を使用して予測セグメンテーションマスクの精度を高めることと、を含む。
【0006】
1つの実装では、方法が、特定のアルゴリズムを使用して、グラウンドトゥルースRGB画像の手動でセグメント化されたマスクに基づいて第1の二値輪郭を生成することと、第1の二値輪郭をグラウンドトゥルースRGB画像内に交差させてグラウンドトゥルースRGB画像コンテナを生成することと、をさらに含む。1つの実装では、第1の二値輪郭をグラウンドトゥルースRGB画像内に交差させることが、グラウンドトゥルースRGB画像の各行をグラウンドトゥルースRGB画像コンテナの第1の1行おきの行内に配置することと、第1の二値輪郭の各行をグラウンドトゥルースRGB画像コンテナの第2の1行おきの行内に配置することと、を含む。1つの実装では、第1の1行おきの行が偶数行であり、第2の1行おきの行が奇数行である。1つの実装では、手動でセグメント化されたマスクが、グラウンドトゥルースRGB画像を手動でセグメント化することによって生成される。1つの実装では、総損失を計算することが、第1の定数にセグメンテーション損失を乗じたものと第2の定数に輪郭精度損失を乗じたものとの加算として総損失を計算することを含み、第1の定数と第2の定数との和は1に等しい。
【0007】
別の実装では、予測セグメンテーションマスクの精度を高めるシステムを開示する。このシステムは、交差画像コンテナからグラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出するバッファ抽出器と、グラウンドトゥルースRGB画像バッファを受け取って予測セグメンテーションマスクを生成するセグメンテーションネットワークと、予測セグメンテーションマスクを受け取り、予測セグメンテーションマスクに基づいて予測輪郭を生成し、手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算し、予測輪郭と二値輪郭画像バッファとの間の輪郭精度損失も計算するプロセッサと、セグメンテーション損失及び輪郭精度損失の加重平均としての総損失を計算するエンハンサとを含む。
【0008】
1つの実装では、エンハンサが、総損失を使用して二値輪郭画像バッファの損失を補償して改善された二値輪郭を生成し、改善された二値輪郭を使用して予測セグメンテーションマスクの精度を高める。1つの実装では、プロセッサが、特定のアルゴリズムを使用して、予測セグメンテーションマスクに基づいて予測輪郭を生成する。1つの実装では、交差画像コンテナが、特定のアルゴリズムを使用して、グラウンドトゥルースRGB画像バッファ内のグラウンドトゥルースRGB画像の手動でセグメント化されたマスクに基づいて二値輪郭を生成し、二値輪郭画像バッファ内の二値輪郭をグラウンドトゥルースRGB画像内に交差させることによって構築される。1つの実装では、手動でセグメント化されたマスクが、グラウンドトゥルースRGB画像を手動でセグメント化することによって生成される。
【0009】
さらに別の実装では、予測セグメンテーションマスクの精度を高めるためのコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体を開示する。コンピュータプログラムは、セグメンテーション訓練のためのグラウンドトゥルース赤色-緑色-青色(RGB)画像コンテナから、グラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出することと、グラウンドトゥルースRGB画像バッファから予測セグメンテーションマスクを生成することと、特定のアルゴリズムを使用して、予測セグメンテーションマスクから第2の二値輪郭を生成することと、グラウンドトゥルースRGB画像バッファの手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、二値輪郭画像バッファの輪郭と予測セグメンテーションマスクの二値輪郭との間の輪郭精度損失を計算することと、セグメンテーション損失及び輪郭精度損失の加重平均としての総損失を計算することと、二値輪郭画像バッファの輪郭を計算された総損失で補償することによって改善された二値輪郭を生成し、改善された二値輪郭を使用して予測セグメンテーションマスクの精度を高めることと、をコンピュータに行わせる実行可能命令を含む。
【0010】
1つの実装では、コンピュータプログラムが、特定のアルゴリズムを使用して、グラウンドトゥルースRGB画像の手動でセグメント化されたマスクに基づいて第1の二値輪郭を生成することと、第1の二値輪郭をグラウンドトゥルースRGB画像内に交差させてグラウンドトゥルースRGB画像コンテナを生成することと、をコンピュータに行わせる実行可能命令をさらに含む。1つの実装では、第1の二値輪郭をグラウンドトゥルースRGB画像内に交差させることをコンピュータにさせる実行可能命令が、グラウンドトゥルースRGB画像の各行をグラウンドトゥルースRGB画像コンテナの第1の1行おきの行内に配置することと、第1の二値輪郭の各行をグラウンドトゥルースRGB画像コンテナの第2の1行おきの行内に配置することと、をコンピュータに行わせる実行可能命令を含む。1つの実装では、第1の1行おきの行が偶数行であり、第2の1行おきの行が奇数行である。1つの実装では、手動でセグメント化されたマスクが、グラウンドトゥルースRGB画像を手動でセグメント化することによって生成される。1つの実装では、総損失を計算することをコンピュータに行わせる実行可能命令が、第1の定数にセグメンテーション損失を乗じたものと第2の定数に輪郭精度損失を乗じたものとの加算として総損失を計算することをコンピュータに行わせる実行可能命令を含み、第1の定数と第2の定数との和は1に等しい。
【0011】
本開示の態様を一例として示す本明細書からは、他の特徴及び利点も明らかになるはずである。
【0012】
本特許又は出願書類は、カラーで作成された少なくとも1つの図面を含む。(単複の)カラー図面を含む本特許又は特許出願公開の複写物は、依頼時に必要な料金の支払いを受けて特許庁により提供される。
【0013】
同じ部分を同じ参照数字によって示す添付図面を検討することにより、本開示の詳細をその構造及び動作の両方に関して部分的に入手することができる。
【図面の簡単な説明】
【0014】
図1】本開示の1つの実装による、予測セグメンテーションマスクの精度を高める方法のフロー図である。
図2】グラウンドトゥルースRGB画像及び二値輪郭画像を示す図である。
図3A】画像バッファに保存された第2のグラウンドトゥルースRGB画像セットを示す図である。
図3B】画像のスケーリングを示す図である。
図3C】画像の回転を示す図である。
図3D】画像のトリミングを示す図である。
図3E】画像の明度制御を示す図である。
図4】拡張訓練セット、並びに抽出されたグラウンドトゥルースRGB画像バッファ及び二値輪郭画像を示す図である。
図5】本開示の1つの実装による、輪郭精度を評価することによって予測セグメンテーションマスクの精度を高めるプロセスを示す図である。
図6】本開示の1つの実装による、予測セグメンテーションマスクの精度を高めるシステムのブロック図である。
図7A】本開示の1つの実装によるコンピュータシステム及びユーザの表現である。
図7B】本開示の1つの実装による、画像処理アプリケーションをホストするコンピュータシステムを示す機能ブロック図である。
【発明を実施するための形態】
【0015】
上述したように、従来のMLベースのセグメンテーション法は、高解像度画像、動きの速い物体を含む動的シーン、及び/又はカラーグレーディングされたコンテンツを伴うシナリオでは、信頼できる及び/又は一貫したセグメンテーションマスクを生成できないことがある。
【0016】
本開示の特定の実装は、(特にエッジに沿った)輪郭精度を評価し、「バッファ交差(buffer intersection)」として知られている画像再フォーマット法を使用することによって、予測セグメンテーションマスクの精度を高める方法及びシステムを提供する。
【0017】
以下の説明を読んだ後には、様々な実装及び用途における本開示の実装方法が明らかになるであろう。本明細書では本開示の様々な実装について説明するが、これらの実装はほんの一例として提示するものであり、限定ではないと理解されたい。従って、様々な実装の詳細な説明は、本開示の範囲又は外延を限定するものとして解釈すべきではない。
【0018】
1つの実装では、エッジに沿った予測セグメンテーションマスクの精度を高めるために、(a)グラウンドトゥルース赤色-緑色-青色(RGB)画像の手動でセグメント化されたマスクに基づいて二値輪郭を生成する特定のアルゴリズムを選択し、(b)二値輪郭バッファをオリジナルRGB画像内に交差させることによって新たなグラウンドトゥルース画像セットを生成し、(c)セグメンテーション訓練のための拡張訓練セットからグラウンドトゥルースRGB画像バッファを抽出し、(d)特定のアルゴリズムを使用して、予測セグメンテーションマスクに基づいて二値輪郭を取得し、(e)グラウンドトゥルースRGB画像の手動でセグメント化されたマスクの輪郭と予測セグメンテーションマスクの輪郭との間の損失関数の形態の差分を計算し、(f)逆伝播のためにセグメンテーション損失に輪郭損失を加算する、というステップを採用することができる。
【0019】
図1は、本開示の1つの実装による、予測セグメンテーションマスクの精度を高める方法100のフロー図である。1つの実装では、輪郭精度を評価し、「バッファ交差」として知られている画像再フォーマット法を使用することによって、エッジに沿った予測セグメンテーションマスクの精度を高める。
【0020】
図1の例示的な実装では、ステップ110において、第1のグラウンドトゥルース赤色-緑色-青色(RGB)画像セットの手動でセグメント化されたマスクに基づいて二値輪郭を生成する境界トレースアルゴリズムを選択する。1つの実装では、選択すべき従来の又は機械学習ベースの特定のアルゴリズムが、正方形トレースアルゴリズム、ムーア近傍(Moore-neighbor)トレースアルゴリズム、及び径方向スイープ(radial sweep)を含む。別の実装では、特定のアルゴリズムが、OpenCV関数などの境界トレースアルゴリズムを含む。RGB画像は、各個々のピクセルの赤色、緑色及び青色成分を定めるトゥルーカラー画像である。
【0021】
図2に、グラウンドトゥルースRGB画像200及び二値輪郭画像210を示す。(例えば、第1のバッファに保存された)グラウンドトゥルースRGB画像200の手動セグメンテーション(矢印202を参照)を実行して手動でセグメント化されたマスク206を生成し、輪郭検出及び生成(矢印212を参照)を実行して手動でセグメント化されたマスクに基づいて(例えば、第2のバッファに保存された)二値輪郭画像210を生成する。
【0022】
再び図1の例示的な実装を参照すると、ステップ120において、二値輪郭画像210の輪郭をグラウンドトゥルースRGB画像200内に交差させることによって第2のグラウンドトゥルースRGB画像セットを生成し、この第2のグラウンドトゥルースRGB画像セットを1つの画像コンテナに保存する。すなわち、グラウンドトゥルースRGB画像の各行は、グラウンドトゥルースRGB画像コンテナの第1の1行おきの行内に配置される一方で、第1の二値輪郭の各行は、グラウンドトゥルースRGB画像コンテナの第2の1行おきの行内に配置される。
【0023】
図2には、二値輪郭画像210の輪郭をグラウンドトゥルースRGB画像200内に交差させるプロセスの1つの実装を示す。図2の例示的な実装では、(例えば、第1のバッファ内の)グラウンドトゥルースRGB画像200の各行204が画像コンテナ220の偶数行(例えば、0行目、2行目、4行目、6行目など)に配置される一方で、(例えば、第2のバッファ内の)二値輪郭画像210の各行214が画像コンテナ220の奇数行(例えば1行目、3行目、5行目、7行目など)に配置される。他の実装では、行と列を入れ替え、或いは奇数行又は列と偶数行又は列とを入れ替えることなどによって、異なる構成を使用してグラウンドトゥルースRGB画像200と二値輪郭画像210とを交差させ又は組み合わせることもできる。なお、列構成では、画像バッファが行ベースから列ベースに転置される。
【0024】
図3A図3Eに、(グラウンドトゥルースRGB画像及び二値輪郭画像の両方を含む)第2のグラウンドトゥルースRGB画像セットを生成してこれらの画像を1つの画像コンテナに保存する利点を示す。1つの画像コンテナに2又は3以上のバッファを収容する利点として、訓練中にピクセルが画像拡張による影響を受けないことができる。従って、グラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファの両方を1つの画像コンテナ内に有することにより、ユーザが選択した(単複の)画像拡張を使用して画像のピクセルを実質的に均等に処理(例えば、スケーリング、回転、トリミング、明度制御など)することができる。従って、訓練用のRGBバッファは、意図した通りの正しいフォーマット及びコード値を有するようになる。一方で、どのバッファに(単複の)拡張を適用すべきであるかをユーザが選択できるので、二値輪郭はそのままであることができる。図3Aには、画像バッファ内に保存された第2のグラウンドトゥルースRGB画像セット300を示す。図3Bには画像のスケーリング310を示す。図3Cには画像の回転320を示す。図3Dには画像のトリミング330を示す。図3Eには画像の明度調整340を示す。
【0025】
再び図1の例示的な実装を参照すると、ステップ130において、セグメンテーション訓練のための交差画像コンテナからグラウンドトゥルースRGB画像バッファを抽出すること(抽出ステップ)によって予測セグメンテーションマスクを生成する。ステップ140において、ステップ110で使用したものと同じアルゴリズムを使用して、予測セグメンテーションマスクに基づいて二値輪郭を生成する(二値輪郭生成ステップ)。次に、ステップ150において、手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算する(セグメンテーション損失計算ステップ)。なお、グラウンドトゥルースセグメンテーションマスクは予測セグメンテーションマスクよりも優れている。図4に、拡張訓練セット400、並びに抽出されたグラウンドトゥルースRGB画像バッファ410及び二値輪郭画像420を示す。
【0026】
図1の例示的な実装では、ステップ160において、グラウンドトゥルースRGB画像の手動でセグメント化されたマスクの輪郭と予測セグメンテーションマスクの輪郭との間の損失関数の形態の差分を計算する(輪郭精度損失計算ステップ)。その後、ステップ170において、この差分(輪郭精度損失)をセグメンテーション損失に加算して、誤差逆伝播のためにグラウンドトゥルース輪郭を生成する。
【0027】
図5に、本開示の1つの実装による、輪郭精度を評価することによって予測セグメンテーションマスクの精度を高めるプロセス500を示す。このプロセスは、抽出ステップ、二値輪郭生成ステップ、セグメンテーション損失計算ステップ、輪郭精度損失計算ステップ、及びグラウンドトゥルース輪郭生成ステップを含む。
【0028】
図5の例示的な実装では、拡張訓練セット510からグラウンドトゥルースRGB画像バッファ512及び二値輪郭画像バッファ514を抽出する。グラウンドトゥルースRGB画像バッファ512をセグメンテーションネットワーク520に入力して予測セグメンテーションマスク522を生成する。次に、予測セグメンテーションマスク522から予測輪郭524を生成する。手動でセグメント化されたマスク530と予測セグメンテーションマスク522との間のセグメンテーション損失542も計算する。
【0029】
図5の例示的な実装では、エンハンサ540が、セグメンテーション損失542及び輪郭精度損失544を受け取って、セグメンテーション損失542及び輪郭精度損失544の加重平均としての総損失を計算する(すなわち、総損失=k*セグメンテーション損失+(1-k)*輪郭精度損失)。1つの実装では、エンハンサ540が、総損失計算を使用して二値輪郭画像バッファ514の損失を補償して、改善された二値輪郭550を生成する。その後、エンハンサ540は、改善された二値輪郭550を利用して、予測セグメンテーションマスクの精度を高めるセグメンテーションネットワーク520の最適化プロセスを支援する。従って、エンハンサ540は、(訓練された輪郭精度ネットワークの使用を通じて)(既存の輪郭生成モデルを使用する)輪郭精度ネットワーク及びセグメンテーションネットワークの両方を訓練するように構成される。
【0030】
図6は、本開示の1つの実装による、予測セグメンテーションマスクの精度を高めるシステム600のブロック図である。図6の例示的な実装では、システム600が、バッファ抽出器610、セグメンテーションネットワーク620、プロセッサ630、及びエンハンサ640を含む。1つの実装では、システム600のブロック610、620、630、640が、1又は2以上のデジタルシグナルプロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、又はその他の同等の集積又はディスクリート論理回路を含むハードウェアのみで構成される。
【0031】
図6の例示的な実装では、バッファ抽出器610が、交差画像コンテナ602からグラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出する。セグメンテーションネットワーク620は、グラウンドトゥルースRGB画像バッファを受け取って予測セグメンテーションマスクを生成する。次に、プロセッサ630は、予測セグメンテーションマスクを受け取り、手動でセグメント化されたマスクから二値輪郭を生成するために使用したものと同じアルゴリズムを使用して、予測セグメンテーションマスクに基づいて予測輪郭を生成する。プロセッサ630は、手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失も計算し、計算されたセグメンテーション損失をエンハンサ640に送信する。プロセッサ630は、予測輪郭524と画像バッファの二値輪郭との間の輪郭精度損失をさらに計算する。
【0032】
図6の例示的な実装では、エンハンサ640が、セグメンテーション損失542及び輪郭精度損失544を受け取って、セグメンテーション損失542及び輪郭精度損失544の加重平均としての総損失を計算する(すなわち、総損失=k*セグメンテーション損失+(1-k)*輪郭精度損失)。エンハンサ640は、総損失計算を使用して二値輪郭画像バッファの損失を補償して改善された二値輪郭を生成する。その後、この改善された二値輪郭を使用して、セグメンテーションネットワーク620がより良好なセグメンテーションマスクを生成するのを支援する。
【0033】
図7Aは、本開示の実装によるコンピュータシステム700及びユーザ702の表現である。ユーザ702は、コンピュータシステム700を使用して、図1の方法100及び図6のシステム600に関して予測セグメンテーションマスクの精度を高めるための画像処理アプリケーション790を実行する。
【0034】
コンピュータシステム700は、図7Bの画像処理アプリケーション790を記憶して実行する。また、コンピュータシステム700は、ソフトウェアプログラム704と通信することもできる。ソフトウェアプログラム704は、画像処理アプリケーション790のためのソフトウェアコードを含むことができる。以下でさらに説明するように、ソフトウェアプログラム704は、CD、DVD又はストレージドライブなどの外部媒体にロードすることができる。
【0035】
さらに、コンピュータシステム700は、ネットワーク780に接続することもできる。ネットワーク780は、例えばクライアント-サーバアーキテクチャ、ピアツーピアネットワークアーキテクチャ又は他のタイプのアーキテクチャなどの様々な異なるアーキテクチャで接続することができる。例えば、ネットワーク780は、画像処理アプリケーション790内で使用されるエンジンとデータとを協調させるサーバ785と通信することができる。また、ネットワークは、異なるタイプのネットワークとすることもできる。例えば、ネットワーク780は、インターネット、ローカルエリアネットワーク又はローカルエリアネットワークのいずれかの変形形態、ワイドエリアネットワーク、メトロポリタンエリアネットワーク、イントラネット又はエクストラネット、或いは無線ネットワークとすることができる。
【0036】
図7Bは、本開示の実装による、画像処理アプリケーション790をホストするコンピュータシステム700を示す機能ブロック図である。コントローラ710はプログラマブルプロセッサであり、コンピュータシステム700及びそのコンポーネントの動作を制御する。コントローラ710は、メモリ720又は埋め込みコントローラメモリ(図示せず)から(例えば、コンピュータプログラムの形態の)命令をロードし、これらの命令を実行してシステムを制御する。コントローラ710は、その実行において、精度を高めた予測セグメンテーションマスクの生成を可能にするようなソフトウェアシステムを画像処理アプリケーション790に提供する。或いは、このサービスは、コントローラ710又はコンピュータシステム700内の別のハードウェアコンポーネントとして実装することもできる。
【0037】
メモリ720は、コンピュータシステム700の他のコンポーネントによって使用されるデータを一時的に記憶する。1つの実装では、メモリ720がRAMとして実装される。別の実装では、メモリ720が、フラッシュメモリ及び/又はROMなどの長期又は固定メモリも含む。
【0038】
ストレージ730は、コンピュータシステム700の他のコンポーネントによって使用されるデータを一時的に又は長期にわたって記憶する。例えば、ストレージ730は、画像処理アプリケーション790によって使用されるデータを記憶する。1つの実装では、ストレージ730がハードディスクドライブである。
【0039】
媒体装置740は、取り外し可能媒体を受け取り、挿入された媒体に対してデータの読み取り及び/又は書き込みを行う。1つの例では、媒体装置740が光ディスクドライブである。
【0040】
ユーザインターフェイス750は、コンピュータシステム700のユーザからのユーザ入力を受け入れてユーザ702に情報を提示するコンポーネントを含む。1つの実装では、ユーザインターフェイス750が、キーボード、マウス、オーディオスピーカ及びディスプレイを含む。コントローラ710は、ユーザ702からの入力を使用してコンピュータシステム700の動作を調整する。
【0041】
I/Oインターフェイス760は、外部記憶装置又は補助装置(例えば、プリンタ又はPDA)などの対応するI/O装置に接続するための1又は2以上のI/Oポートを含む。1つの実装では、I/Oインターフェイス760のポートが、USBポート、PCMCIAポート、シリアルポート及び/又はパラレルポートなどのポートを含む。別の実装では、I/Oインターフェイス760が、外部装置と無線で通信するための無線インターフェイスを含む。
【0042】
ネットワークインターフェイス770は、イーサネット接続をサポートするRJ-45又は(限定するわけではないが802.11を含む)「Wi-Fi」インターフェイスなどの有線及び/又は無線ネットワーク接続を含む。
【0043】
コンピュータシステム700は、コンピュータシステムに特有のさらなるハードウェア及びソフトウェア(例えば、電源、冷却、オペレーティングシステム)を含むが、これらのコンポーネントは、単純にするために図7Bには具体的に示していない。他の実装では、コンピュータシステムの異なる構成(例えば、異なるバス又はストレージ構成、又はマルチプロセッサ構成)を使用することもできる。
【0044】
本明細書に開示した実装の説明は、本発明をいずれかの当業者が実施又は利用できるように行ったものである。当業者には、これらの実装の数多くの修正が容易に明らかになると思われ、また本明細書で定める原理は、本発明の趣旨又は範囲から逸脱することなく他の実装にも適用することができる。従って、本開示は、本明細書に示す実装に限定されることを意図するものではなく、本明細書に開示する原理及び新規の特徴と一致する最も広い範囲を許容すべきものである。
【0045】
従って、さらなる変形及び実装も可能である。例えば、1つの実装は、画像セグメンテーションモデルの機械学習訓練に輪郭画像ベースの評価を追加して画像セグメンテーションプロセスの性能を高める。輪郭画像ベースの評価は、訓練中のモデルによるセグメンテーションが輪郭画像に一致する出力を提供しているかどうかにかかわらず、別の参照情報を提供することによってビデオセグメンテーションモデル訓練の効率を高めることができる。さらなる実装例としては、コンテンツ制作においてグリーンスクリーンを使用する必要性の排除、並びにロボット工学、自律運転、工場自動化のための画像セグメンテーション及び形状認識などが挙げられる。
【0046】
提案する解決策で訓練された高忠実度ビデオセグメンテーションエンジンを使用して、コンテンツ制作の視覚効果(VFX)プロセスにおける役者及び物体のマスキングプロセスを自動化することができる。現在、このようなマスキングは人間によって手動で行われており、機械学習ベースのツールを使用して時間のかかるプロセスを自動化することができる。
【0047】
本開示の特定の実装では、必ずしも上述した各実施例の全ての特徴が必要なわけではない。さらに、本明細書に示す説明及び図面は、本発明によって幅広く検討される主題を表すものであると理解されたい。さらに、本開示の範囲は、当業者に明らかになると考えられる他の実装を完全に含み、従って添付の特許請求の範囲以外のものによって限定されるものではないと理解されたい。
【符号の説明】
【0048】
110 アルゴリズムを使用して、グラウンドトゥルースRGBの手動でセグメント化されたマスクに基づいて二値輪郭を生成
120 二値輪郭をオリジナルRGB画像内に交差させることによって新たなグラウンドトゥルース画像セットを生成
130 セグメンテーション訓練のための交差画像コンテナからグラウンドトゥルースRGB画像バッファを抽出
140 予測セグメンテーションマスクに基づいて、アルゴリズムを使用して新たな二値輪郭を取得
150 手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算
160 二値輪郭と新たな二値輪郭との間の損失関数の形態の差分を計算
170 誤差逆伝播のためにセグメンテーション損失に輪郭損失を加算
図1
図2
図3A
図3B
図3C
図3D
図3E
図4
図5
図6
図7A
図7B
【国際調査報告】