特表2023-520528 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ソニー株式会社の特許一覧 ▶ ソニー　ピクチャーズ　エンターテインメント　インコーポレイテッドの特許一覧

特表2023-520528輪郭精度評価を用いた画像セグメンテーション訓練

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
3D
3E
4
5
6
7A
7B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-05-17

(54)【発明の名称】輪郭精度評価を用いた画像セグメンテーション訓練

(51)【国際特許分類】

G06T 7/00 20170101AFI20230510BHJP

G06T 7/13 20170101ALI20230510BHJP

G06V 10/82 20220101ALI20230510BHJP

【ＦＩ】

G06T7/00 350C

G06T7/13

G06V10/82

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022560283

(86)(22)【出願日】2021-05-28

(85)【翻訳文提出日】2022-10-03

(86)【国際出願番号】 US2021035026

(87)【国際公開番号】W WO2022005670

(87)【国際公開日】2022-01-06

(31)【優先権主張番号】63/047,750

(32)【優先日】2020-07-02

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/179,061

(32)【優先日】2021-02-18

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(71)【出願人】

【識別番号】596102126

【氏名又は名称】ソニーピクチャーズエンターテインメントインコーポレイテッド

(74)【代理人】

【識別番号】100092093

【弁理士】

【氏名又は名称】辻居幸一

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【識別番号】100109335

【弁理士】

【氏名又は名称】上杉浩

(74)【代理人】

【識別番号】100120525

【弁理士】

【氏名又は名称】近藤直樹

(72)【発明者】

【氏名】チェンメンユ

(72)【発明者】

【氏名】ジューミャオチー

(72)【発明者】

【氏名】高島芳和

(72)【発明者】

【氏名】チャオオウヤン

(72)【発明者】

【氏名】デラローサダニエル

(72)【発明者】

【氏名】ラフェンテマイケル

(72)【発明者】

【氏名】シャピーロスティーヴン

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096DA01

5L096EA03

5L096EA16

5L096FA06

5L096GA40

5L096HA11

5L096KA04

5L096KA13

(57)【要約】

予測セグメンテーションマスクの精度を高めることが、セグメンテーション訓練のためのグラウンドトゥルースＲＧＢ画像コンテナから、グラウンドトゥルースＲＧＢ画像バッファ及び二値輪郭画像バッファを抽出することと、グラウンドトゥルースＲＧＢ画像バッファから予測セグメンテーションマスクを生成することと、特定のアルゴリズムを使用して、予測セグメンテーションマスクから第２の二値輪郭を生成することと、グラウンドトゥルースＲＧＢ画像バッファの手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、二値輪郭画像バッファの輪郭と予測セグメンテーションマスクの二値輪郭との間の輪郭精度損失を計算することと、セグメンテーション損失及び輪郭精度損失の加重平均としての総損失を計算することと、二値輪郭画像バッファの輪郭を計算された総損失で補償することによって改善された二値輪郭を生成し、改善された二値輪郭を使用して予測セグメンテーションマスクの精度を高めることと、を含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

予測セグメンテーションマスクの精度を高める方法であって、
セグメンテーション訓練のためのグラウンドトゥルース赤色－緑色－青色（ＲＧＢ）画像コンテナから、グラウンドトゥルースＲＧＢ画像バッファ及び二値輪郭画像バッファを抽出することと、
前記グラウンドトゥルースＲＧＢ画像バッファから予測セグメンテーションマスクを生成することと、
特定のアルゴリズムを使用して、前記予測セグメンテーションマスクから第２の二値輪郭を生成することと、
前記グラウンドトゥルースＲＧＢ画像バッファの手動でセグメント化されたマスクと前記予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、
前記二値輪郭画像バッファの輪郭と前記予測セグメンテーションマスクの前記二値輪郭との間の輪郭精度損失を計算することと、
前記セグメンテーション損失及び前記輪郭精度損失の加重平均としての総損失を計算することと、
前記二値輪郭画像バッファの前記輪郭を前記計算された総損失で補償することによって改善された二値輪郭を生成し、前記改善された二値輪郭を使用して前記予測セグメンテーションマスクの精度を高めることと、
を含むことを特徴とする方法。

【請求項2】

前記特定のアルゴリズムを使用して、前記グラウンドトゥルースＲＧＢ画像の前記手動でセグメント化されたマスクに基づいて第１の二値輪郭を生成することと、
前記第１の二値輪郭を前記グラウンドトゥルースＲＧＢ画像内に交差させて前記グラウンドトゥルースＲＧＢ画像コンテナを生成することと、
をさらに含む請求項１に記載の方法。

【請求項3】

前記第１の二値輪郭を前記グラウンドトゥルースＲＧＢ画像内に交差させることは、
前記グラウンドトゥルースＲＧＢ画像の各行を前記グラウンドトゥルースＲＧＢ画像コンテナの第１の１行おきの行内に配置することと、
前記第１の二値輪郭の各行を前記グラウンドトゥルースＲＧＢ画像コンテナの第２の１行おきの行内に配置することと、
を含む、請求項２に記載の方法。

【請求項4】

前記第１の１行おきの行は偶数行であり、前記第２の１行おきの行は奇数行である、
請求項３に記載の方法。

【請求項5】

前記手動でセグメント化されたマスクは、前記グラウンドトゥルースＲＧＢ画像を手動でセグメント化することによって生成される、
請求項１に記載の方法。

【請求項6】

前記総損失を計算することは、
第１の定数に前記セグメンテーション損失を乗じたものと第２の定数に前記輪郭精度損失を乗じたものとの加算として前記総損失を計算することを含み、
前記第１の定数と前記第２の定数との和は１に等しい、
請求項１に記載の方法。

【請求項7】

予測セグメンテーションマスクの精度を高めるシステムであって、
交差画像コンテナからグラウンドトゥルースＲＧＢ画像バッファ及び二値輪郭画像バッファを抽出するバッファ抽出器と、
前記グラウンドトゥルースＲＧＢ画像バッファを受け取って予測セグメンテーションマスクを生成するセグメンテーションネットワークと、
前記予測セグメンテーションマスクを受け取り、前記予測セグメンテーションマスクに基づいて予測輪郭を生成し、手動でセグメント化されたマスクと前記予測セグメンテーションマスクとの間のセグメンテーション損失を計算し、前記予測輪郭と前記二値輪郭画像バッファとの間の輪郭精度損失も計算するプロセッサと、
前記セグメンテーション損失及び前記輪郭精度損失の加重平均としての総損失を計算するエンハンサと、
を備えることを特徴とするシステム。

【請求項8】

前記エンハンサは、前記総損失を使用して前記二値輪郭画像バッファの前記損失を補償して改善された二値輪郭を生成し、前記改善された二値輪郭を使用して前記予測セグメンテーションマスクの精度を高める、
請求項７に記載のシステム。

【請求項9】

前記プロセッサは、特定のアルゴリズムを使用して、前記予測セグメンテーションマスクに基づいて前記予測輪郭を生成する、
請求項７に記載のシステム。

【請求項10】

前記交差画像コンテナは、前記特定のアルゴリズムを使用して、前記グラウンドトゥルースＲＧＢ画像バッファ内のグラウンドトゥルースＲＧＢ画像の前記手動でセグメント化されたマスクに基づいて二値輪郭を生成し、前記二値輪郭画像バッファ内の二値輪郭を前記グラウンドトゥルースＲＧＢ画像内に交差させることによって構築される、
請求項９に記載のシステム。

【請求項11】

前記手動でセグメント化されたマスクは、前記グラウンドトゥルースＲＧＢ画像を手動でセグメント化することによって生成される、
請求項１０に記載のシステム。

【請求項12】

予測セグメンテーションマスクの精度を高めるためのコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラムは、
セグメンテーション訓練のためのグラウンドトゥルース赤色－緑色－青色（ＲＧＢ）画像コンテナから、グラウンドトゥルースＲＧＢ画像バッファ及び二値輪郭画像バッファを抽出することと、
前記グラウンドトゥルースＲＧＢ画像バッファから予測セグメンテーションマスクを生成することと、
特定のアルゴリズムを使用して、前記予測セグメンテーションマスクから第２の二値輪郭を生成することと、
前記グラウンドトゥルースＲＧＢ画像バッファの手動でセグメント化されたマスクと前記予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、
前記二値輪郭画像バッファの輪郭と前記予測セグメンテーションマスクの前記二値輪郭との間の輪郭精度損失を計算することと、
前記セグメンテーション損失及び前記輪郭精度損失の加重平均としての総損失を計算することと、
前記二値輪郭画像バッファの前記輪郭を前記計算された総損失で補償することによって改善された二値輪郭を生成し、前記改善された二値輪郭を使用して前記予測セグメンテーションマスクの精度を高めることと、
をコンピュータに行わせる実行可能命令を含む、ことを特徴とする非一時的コンピュータ可読記憶媒体。

【請求項13】

前記コンピュータプログラムは、
前記特定のアルゴリズムを使用して、前記グラウンドトゥルースＲＧＢ画像の前記手動でセグメント化されたマスクに基づいて第１の二値輪郭を生成することと、
前記第１の二値輪郭を前記グラウンドトゥルースＲＧＢ画像内に交差させて前記グラウンドトゥルースＲＧＢ画像コンテナを生成することと、
を前記コンピュータに行わせる実行可能命令をさらに含む、請求項１２に記載の非一時的コンピュータ可読記憶媒体。

【請求項14】

前記第１の二値輪郭を前記グラウンドトゥルースＲＧＢ画像内に交差させることを前記コンピュータにさせる前記実行可能命令は、
前記グラウンドトゥルースＲＧＢ画像の各行を前記グラウンドトゥルースＲＧＢ画像コンテナの第１の１行おきの行内に配置することと、
前記第１の二値輪郭の各行を前記グラウンドトゥルースＲＧＢ画像コンテナの第２の１行おきの行内に配置することと、
を前記コンピュータに行わせる実行可能命令を含む、請求項１３に記載の非一時的コンピュータ可読記憶媒体。

【請求項15】

前記第１の１行おきの行は偶数行であり、前記第２の１行おきの行は奇数行である、
請求項１４に記載の非一時的コンピュータ可読記憶媒体。

【請求項16】

前記手動でセグメント化されたマスクは、前記グラウンドトゥルースＲＧＢ画像を手動でセグメント化することによって生成される、
請求項１２に記載の非一時的コンピュータ可読記憶媒体。

【請求項17】

前記総損失を計算することを前記コンピュータに行わせる実行可能命令は、
第１の定数に前記セグメンテーション損失を乗じたものと第２の定数に前記輪郭精度損失を乗じたものとの加算として前記総損失を計算することを前記コンピュータに行わせる実行可能命令を含み、
前記第１の定数と前記第２の定数との和は１に等しい、
請求項１２に記載の非一時的コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

〔関連出願との相互参照〕
本出願は、２０２０年７月２日に出願された「輪郭精度評価を用いた機械学習ベースの画像セグメンテーション訓練（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｂａｓｅｄＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎＴｒａｉｎｉｎｇｗｉｔｈＣｏｎｔｏｕｒＡｃｃｕｒａｃｙＥｖａｌｕａｔｉｏｎ）」という名称の同時継続米国仮特許出願第６３／０４７，７５０号の米国特許法第１１９条に基づく優先権の利益を主張するものであり、上記出願の開示は引用により本明細書に組み入れられる。

【0002】

本開示は、セグメンテーションマスクに関し、具体的には、輪郭精度を評価することによって予測セグメンテーションマスクの精度を高めることに関する。

【背景技術】

【0003】

マスクを使用する従来の機械学習（ＭＬ）ベースのセグメンテーション法は、ソーシャルメディア上の低解像度ビデオなどの非専門的メディアコンテンツについては十分な結果をもたらす。しかしながら、専門的な画像／ビデオ処理タスクの要件を満たすには、セグメンテーションマスクの品質が十分でないことがある。例えば、エッジの明瞭性がフレーム毎に異なることによって、誤って推測されたサブピクセルがマスク領域内に現れることがある。通常、これらの領域は、エッジ沿いの覆われていない穴又は不連続輪郭の形態で現れる。従って、いくつかのシナリオでは、ＭＬベースのセグメンテーション法が信頼できる及び／又は一貫したセグメンテーションマスクを生成しないことがある。これらのシナリオとしては、高解像度画像（例えば、ＨＤ、４Ｋ）、とりわけ動きの速い物体を有する動的シーン、及びカラーグレーディングされたコンテンツ（例えば、低明度、前景及び背景内の同様のテクスチャ）を挙げることができる。

【発明の概要】

【課題を解決するための手段】

【0004】

本開示は、輪郭精度を評価することによる予測セグメンテーションマスクの精度向上を提供する。

【0005】

１つの実装では、予測セグメンテーションマスクの精度を高める方法を開示する。この方法は、セグメンテーション訓練のためのグラウンドトゥルース赤色－緑色－青色（ＲＧＢ）画像コンテナから、グラウンドトゥルースＲＧＢ画像バッファ及び二値輪郭画像バッファを抽出することと、グラウンドトゥルースＲＧＢ画像バッファから予測セグメンテーションマスクを生成することと、特定のアルゴリズムを使用して、予測セグメンテーションマスクから第２の二値輪郭を生成することと、グラウンドトゥルースＲＧＢ画像バッファの手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、二値輪郭画像バッファの輪郭と予測セグメンテーションマスクの二値輪郭との間の輪郭精度損失を計算することと、セグメンテーション損失及び輪郭精度損失の加重平均としての総損失を計算することと、二値輪郭画像バッファの輪郭を計算された総損失で補償することによって改善された二値輪郭を生成し、改善された二値輪郭を使用して予測セグメンテーションマスクの精度を高めることと、を含む。

【0006】

１つの実装では、方法が、特定のアルゴリズムを使用して、グラウンドトゥルースＲＧＢ画像の手動でセグメント化されたマスクに基づいて第１の二値輪郭を生成することと、第１の二値輪郭をグラウンドトゥルースＲＧＢ画像内に交差させてグラウンドトゥルースＲＧＢ画像コンテナを生成することと、をさらに含む。１つの実装では、第１の二値輪郭をグラウンドトゥルースＲＧＢ画像内に交差させることが、グラウンドトゥルースＲＧＢ画像の各行をグラウンドトゥルースＲＧＢ画像コンテナの第１の１行おきの行内に配置することと、第１の二値輪郭の各行をグラウンドトゥルースＲＧＢ画像コンテナの第２の１行おきの行内に配置することと、を含む。１つの実装では、第１の１行おきの行が偶数行であり、第２の１行おきの行が奇数行である。１つの実装では、手動でセグメント化されたマスクが、グラウンドトゥルースＲＧＢ画像を手動でセグメント化することによって生成される。１つの実装では、総損失を計算することが、第１の定数にセグメンテーション損失を乗じたものと第２の定数に輪郭精度損失を乗じたものとの加算として総損失を計算することを含み、第１の定数と第２の定数との和は１に等しい。

【0007】

別の実装では、予測セグメンテーションマスクの精度を高めるシステムを開示する。このシステムは、交差画像コンテナからグラウンドトゥルースＲＧＢ画像バッファ及び二値輪郭画像バッファを抽出するバッファ抽出器と、グラウンドトゥルースＲＧＢ画像バッファを受け取って予測セグメンテーションマスクを生成するセグメンテーションネットワークと、予測セグメンテーションマスクを受け取り、予測セグメンテーションマスクに基づいて予測輪郭を生成し、手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算し、予測輪郭と二値輪郭画像バッファとの間の輪郭精度損失も計算するプロセッサと、セグメンテーション損失及び輪郭精度損失の加重平均としての総損失を計算するエンハンサとを含む。

【0008】

１つの実装では、エンハンサが、総損失を使用して二値輪郭画像バッファの損失を補償して改善された二値輪郭を生成し、改善された二値輪郭を使用して予測セグメンテーションマスクの精度を高める。１つの実装では、プロセッサが、特定のアルゴリズムを使用して、予測セグメンテーションマスクに基づいて予測輪郭を生成する。１つの実装では、交差画像コンテナが、特定のアルゴリズムを使用して、グラウンドトゥルースＲＧＢ画像バッファ内のグラウンドトゥルースＲＧＢ画像の手動でセグメント化されたマスクに基づいて二値輪郭を生成し、二値輪郭画像バッファ内の二値輪郭をグラウンドトゥルースＲＧＢ画像内に交差させることによって構築される。１つの実装では、手動でセグメント化されたマスクが、グラウンドトゥルースＲＧＢ画像を手動でセグメント化することによって生成される。

【0009】

さらに別の実装では、予測セグメンテーションマスクの精度を高めるためのコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体を開示する。コンピュータプログラムは、セグメンテーション訓練のためのグラウンドトゥルース赤色－緑色－青色（ＲＧＢ）画像コンテナから、グラウンドトゥルースＲＧＢ画像バッファ及び二値輪郭画像バッファを抽出することと、グラウンドトゥルースＲＧＢ画像バッファから予測セグメンテーションマスクを生成することと、特定のアルゴリズムを使用して、予測セグメンテーションマスクから第２の二値輪郭を生成することと、グラウンドトゥルースＲＧＢ画像バッファの手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、二値輪郭画像バッファの輪郭と予測セグメンテーションマスクの二値輪郭との間の輪郭精度損失を計算することと、セグメンテーション損失及び輪郭精度損失の加重平均としての総損失を計算することと、二値輪郭画像バッファの輪郭を計算された総損失で補償することによって改善された二値輪郭を生成し、改善された二値輪郭を使用して予測セグメンテーションマスクの精度を高めることと、をコンピュータに行わせる実行可能命令を含む。

【0010】

１つの実装では、コンピュータプログラムが、特定のアルゴリズムを使用して、グラウンドトゥルースＲＧＢ画像の手動でセグメント化されたマスクに基づいて第１の二値輪郭を生成することと、第１の二値輪郭をグラウンドトゥルースＲＧＢ画像内に交差させてグラウンドトゥルースＲＧＢ画像コンテナを生成することと、をコンピュータに行わせる実行可能命令をさらに含む。１つの実装では、第１の二値輪郭をグラウンドトゥルースＲＧＢ画像内に交差させることをコンピュータにさせる実行可能命令が、グラウンドトゥルースＲＧＢ画像の各行をグラウンドトゥルースＲＧＢ画像コンテナの第１の１行おきの行内に配置することと、第１の二値輪郭の各行をグラウンドトゥルースＲＧＢ画像コンテナの第２の１行おきの行内に配置することと、をコンピュータに行わせる実行可能命令を含む。１つの実装では、第１の１行おきの行が偶数行であり、第２の１行おきの行が奇数行である。１つの実装では、手動でセグメント化されたマスクが、グラウンドトゥルースＲＧＢ画像を手動でセグメント化することによって生成される。１つの実装では、総損失を計算することをコンピュータに行わせる実行可能命令が、第１の定数にセグメンテーション損失を乗じたものと第２の定数に輪郭精度損失を乗じたものとの加算として総損失を計算することをコンピュータに行わせる実行可能命令を含み、第１の定数と第２の定数との和は１に等しい。

【0011】

本開示の態様を一例として示す本明細書からは、他の特徴及び利点も明らかになるはずである。

【0012】

本特許又は出願書類は、カラーで作成された少なくとも１つの図面を含む。（単複の）カラー図面を含む本特許又は特許出願公開の複写物は、依頼時に必要な料金の支払いを受けて特許庁により提供される。

【0013】

同じ部分を同じ参照数字によって示す添付図面を検討することにより、本開示の詳細をその構造及び動作の両方に関して部分的に入手することができる。

【図面の簡単な説明】

【0014】

【図1】本開示の１つの実装による、予測セグメンテーションマスクの精度を高める方法のフロー図である。

【図2】グラウンドトゥルースＲＧＢ画像及び二値輪郭画像を示す図である。

【図3A】画像バッファに保存された第２のグラウンドトゥルースＲＧＢ画像セットを示す図である。

【図3B】画像のスケーリングを示す図である。

【図3C】画像の回転を示す図である。

【図3D】画像のトリミングを示す図である。

【図3E】画像の明度制御を示す図である。

【図4】拡張訓練セット、並びに抽出されたグラウンドトゥルースＲＧＢ画像バッファ及び二値輪郭画像を示す図である。

【図5】本開示の１つの実装による、輪郭精度を評価することによって予測セグメンテーションマスクの精度を高めるプロセスを示す図である。

【図6】本開示の１つの実装による、予測セグメンテーションマスクの精度を高めるシステムのブロック図である。

【図7A】本開示の１つの実装によるコンピュータシステム及びユーザの表現である。

【図7B】本開示の１つの実装による、画像処理アプリケーションをホストするコンピュータシステムを示す機能ブロック図である。

【発明を実施するための形態】

【0015】

上述したように、従来のＭＬベースのセグメンテーション法は、高解像度画像、動きの速い物体を含む動的シーン、及び／又はカラーグレーディングされたコンテンツを伴うシナリオでは、信頼できる及び／又は一貫したセグメンテーションマスクを生成できないことがある。

【0016】

本開示の特定の実装は、（特にエッジに沿った）輪郭精度を評価し、「バッファ交差（ｂｕｆｆｅｒｉｎｔｅｒｓｅｃｔｉｏｎ）」として知られている画像再フォーマット法を使用することによって、予測セグメンテーションマスクの精度を高める方法及びシステムを提供する。

【0017】

以下の説明を読んだ後には、様々な実装及び用途における本開示の実装方法が明らかになるであろう。本明細書では本開示の様々な実装について説明するが、これらの実装はほんの一例として提示するものであり、限定ではないと理解されたい。従って、様々な実装の詳細な説明は、本開示の範囲又は外延を限定するものとして解釈すべきではない。

【0018】

１つの実装では、エッジに沿った予測セグメンテーションマスクの精度を高めるために、（ａ）グラウンドトゥルース赤色－緑色－青色（ＲＧＢ）画像の手動でセグメント化されたマスクに基づいて二値輪郭を生成する特定のアルゴリズムを選択し、（ｂ）二値輪郭バッファをオリジナルＲＧＢ画像内に交差させることによって新たなグラウンドトゥルース画像セットを生成し、（ｃ）セグメンテーション訓練のための拡張訓練セットからグラウンドトゥルースＲＧＢ画像バッファを抽出し、（ｄ）特定のアルゴリズムを使用して、予測セグメンテーションマスクに基づいて二値輪郭を取得し、（ｅ）グラウンドトゥルースＲＧＢ画像の手動でセグメント化されたマスクの輪郭と予測セグメンテーションマスクの輪郭との間の損失関数の形態の差分を計算し、（ｆ）逆伝播のためにセグメンテーション損失に輪郭損失を加算する、というステップを採用することができる。

【0019】

図１は、本開示の１つの実装による、予測セグメンテーションマスクの精度を高める方法１００のフロー図である。１つの実装では、輪郭精度を評価し、「バッファ交差」として知られている画像再フォーマット法を使用することによって、エッジに沿った予測セグメンテーションマスクの精度を高める。

【0020】

図１の例示的な実装では、ステップ１１０において、第１のグラウンドトゥルース赤色－緑色－青色（ＲＧＢ）画像セットの手動でセグメント化されたマスクに基づいて二値輪郭を生成する境界トレースアルゴリズムを選択する。１つの実装では、選択すべき従来の又は機械学習ベースの特定のアルゴリズムが、正方形トレースアルゴリズム、ムーア近傍（Ｍｏｏｒｅ－ｎｅｉｇｈｂｏｒ）トレースアルゴリズム、及び径方向スイープ（ｒａｄｉａｌｓｗｅｅｐ）を含む。別の実装では、特定のアルゴリズムが、ＯｐｅｎＣＶ関数などの境界トレースアルゴリズムを含む。ＲＧＢ画像は、各個々のピクセルの赤色、緑色及び青色成分を定めるトゥルーカラー画像である。

【0021】

図２に、グラウンドトゥルースＲＧＢ画像２００及び二値輪郭画像２１０を示す。（例えば、第１のバッファに保存された）グラウンドトゥルースＲＧＢ画像２００の手動セグメンテーション（矢印２０２を参照）を実行して手動でセグメント化されたマスク２０６を生成し、輪郭検出及び生成（矢印２１２を参照）を実行して手動でセグメント化されたマスクに基づいて（例えば、第２のバッファに保存された）二値輪郭画像２１０を生成する。

【0022】

再び図１の例示的な実装を参照すると、ステップ１２０において、二値輪郭画像２１０の輪郭をグラウンドトゥルースＲＧＢ画像２００内に交差させることによって第２のグラウンドトゥルースＲＧＢ画像セットを生成し、この第２のグラウンドトゥルースＲＧＢ画像セットを１つの画像コンテナに保存する。すなわち、グラウンドトゥルースＲＧＢ画像の各行は、グラウンドトゥルースＲＧＢ画像コンテナの第１の１行おきの行内に配置される一方で、第１の二値輪郭の各行は、グラウンドトゥルースＲＧＢ画像コンテナの第２の１行おきの行内に配置される。

【0023】

図２には、二値輪郭画像２１０の輪郭をグラウンドトゥルースＲＧＢ画像２００内に交差させるプロセスの１つの実装を示す。図２の例示的な実装では、（例えば、第１のバッファ内の）グラウンドトゥルースＲＧＢ画像２００の各行２０４が画像コンテナ２２０の偶数行（例えば、０行目、２行目、４行目、６行目など）に配置される一方で、（例えば、第２のバッファ内の）二値輪郭画像２１０の各行２１４が画像コンテナ２２０の奇数行（例えば１行目、３行目、５行目、７行目など）に配置される。他の実装では、行と列を入れ替え、或いは奇数行又は列と偶数行又は列とを入れ替えることなどによって、異なる構成を使用してグラウンドトゥルースＲＧＢ画像２００と二値輪郭画像２１０とを交差させ又は組み合わせることもできる。なお、列構成では、画像バッファが行ベースから列ベースに転置される。

【0024】

図３Ａ～図３Ｅに、（グラウンドトゥルースＲＧＢ画像及び二値輪郭画像の両方を含む）第２のグラウンドトゥルースＲＧＢ画像セットを生成してこれらの画像を１つの画像コンテナに保存する利点を示す。１つの画像コンテナに２又は３以上のバッファを収容する利点として、訓練中にピクセルが画像拡張による影響を受けないことができる。従って、グラウンドトゥルースＲＧＢ画像バッファ及び二値輪郭画像バッファの両方を１つの画像コンテナ内に有することにより、ユーザが選択した（単複の）画像拡張を使用して画像のピクセルを実質的に均等に処理（例えば、スケーリング、回転、トリミング、明度制御など）することができる。従って、訓練用のＲＧＢバッファは、意図した通りの正しいフォーマット及びコード値を有するようになる。一方で、どのバッファに（単複の）拡張を適用すべきであるかをユーザが選択できるので、二値輪郭はそのままであることができる。図３Ａには、画像バッファ内に保存された第２のグラウンドトゥルースＲＧＢ画像セット３００を示す。図３Ｂには画像のスケーリング３１０を示す。図３Ｃには画像の回転３２０を示す。図３Ｄには画像のトリミング３３０を示す。図３Ｅには画像の明度調整３４０を示す。

【0025】

再び図１の例示的な実装を参照すると、ステップ１３０において、セグメンテーション訓練のための交差画像コンテナからグラウンドトゥルースＲＧＢ画像バッファを抽出すること（抽出ステップ）によって予測セグメンテーションマスクを生成する。ステップ１４０において、ステップ１１０で使用したものと同じアルゴリズムを使用して、予測セグメンテーションマスクに基づいて二値輪郭を生成する（二値輪郭生成ステップ）。次に、ステップ１５０において、手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算する（セグメンテーション損失計算ステップ）。なお、グラウンドトゥルースセグメンテーションマスクは予測セグメンテーションマスクよりも優れている。図４に、拡張訓練セット４００、並びに抽出されたグラウンドトゥルースＲＧＢ画像バッファ４１０及び二値輪郭画像４２０を示す。

【0026】

図１の例示的な実装では、ステップ１６０において、グラウンドトゥルースＲＧＢ画像の手動でセグメント化されたマスクの輪郭と予測セグメンテーションマスクの輪郭との間の損失関数の形態の差分を計算する（輪郭精度損失計算ステップ）。その後、ステップ１７０において、この差分（輪郭精度損失）をセグメンテーション損失に加算して、誤差逆伝播のためにグラウンドトゥルース輪郭を生成する。

【0027】

図５に、本開示の１つの実装による、輪郭精度を評価することによって予測セグメンテーションマスクの精度を高めるプロセス５００を示す。このプロセスは、抽出ステップ、二値輪郭生成ステップ、セグメンテーション損失計算ステップ、輪郭精度損失計算ステップ、及びグラウンドトゥルース輪郭生成ステップを含む。

【0028】

図５の例示的な実装では、拡張訓練セット５１０からグラウンドトゥルースＲＧＢ画像バッファ５１２及び二値輪郭画像バッファ５１４を抽出する。グラウンドトゥルースＲＧＢ画像バッファ５１２をセグメンテーションネットワーク５２０に入力して予測セグメンテーションマスク５２２を生成する。次に、予測セグメンテーションマスク５２２から予測輪郭５２４を生成する。手動でセグメント化されたマスク５３０と予測セグメンテーションマスク５２２との間のセグメンテーション損失５４２も計算する。

【0029】

図５の例示的な実装では、エンハンサ５４０が、セグメンテーション損失５４２及び輪郭精度損失５４４を受け取って、セグメンテーション損失５４２及び輪郭精度損失５４４の加重平均としての総損失を計算する（すなわち、総損失＝ｋ＊セグメンテーション損失＋（１－ｋ）＊輪郭精度損失）。１つの実装では、エンハンサ５４０が、総損失計算を使用して二値輪郭画像バッファ５１４の損失を補償して、改善された二値輪郭５５０を生成する。その後、エンハンサ５４０は、改善された二値輪郭５５０を利用して、予測セグメンテーションマスクの精度を高めるセグメンテーションネットワーク５２０の最適化プロセスを支援する。従って、エンハンサ５４０は、（訓練された輪郭精度ネットワークの使用を通じて）（既存の輪郭生成モデルを使用する）輪郭精度ネットワーク及びセグメンテーションネットワークの両方を訓練するように構成される。

【0030】

図６は、本開示の１つの実装による、予測セグメンテーションマスクの精度を高めるシステム６００のブロック図である。図６の例示的な実装では、システム６００が、バッファ抽出器６１０、セグメンテーションネットワーク６２０、プロセッサ６３０、及びエンハンサ６４０を含む。１つの実装では、システム６００のブロック６１０、６２０、６３０、６４０が、１又は２以上のデジタルシグナルプロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルロジックアレイ（ＦＰＧＡ）、又はその他の同等の集積又はディスクリート論理回路を含むハードウェアのみで構成される。

【0031】

図６の例示的な実装では、バッファ抽出器６１０が、交差画像コンテナ６０２からグラウンドトゥルースＲＧＢ画像バッファ及び二値輪郭画像バッファを抽出する。セグメンテーションネットワーク６２０は、グラウンドトゥルースＲＧＢ画像バッファを受け取って予測セグメンテーションマスクを生成する。次に、プロセッサ６３０は、予測セグメンテーションマスクを受け取り、手動でセグメント化されたマスクから二値輪郭を生成するために使用したものと同じアルゴリズムを使用して、予測セグメンテーションマスクに基づいて予測輪郭を生成する。プロセッサ６３０は、手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失も計算し、計算されたセグメンテーション損失をエンハンサ６４０に送信する。プロセッサ６３０は、予測輪郭５２４と画像バッファの二値輪郭との間の輪郭精度損失をさらに計算する。

【0032】

図６の例示的な実装では、エンハンサ６４０が、セグメンテーション損失５４２及び輪郭精度損失５４４を受け取って、セグメンテーション損失５４２及び輪郭精度損失５４４の加重平均としての総損失を計算する（すなわち、総損失＝ｋ＊セグメンテーション損失＋（１－ｋ）＊輪郭精度損失）。エンハンサ６４０は、総損失計算を使用して二値輪郭画像バッファの損失を補償して改善された二値輪郭を生成する。その後、この改善された二値輪郭を使用して、セグメンテーションネットワーク６２０がより良好なセグメンテーションマスクを生成するのを支援する。

【0033】

図７Ａは、本開示の実装によるコンピュータシステム７００及びユーザ７０２の表現である。ユーザ７０２は、コンピュータシステム７００を使用して、図１の方法１００及び図６のシステム６００に関して予測セグメンテーションマスクの精度を高めるための画像処理アプリケーション７９０を実行する。

【0034】

コンピュータシステム７００は、図７Ｂの画像処理アプリケーション７９０を記憶して実行する。また、コンピュータシステム７００は、ソフトウェアプログラム７０４と通信することもできる。ソフトウェアプログラム７０４は、画像処理アプリケーション７９０のためのソフトウェアコードを含むことができる。以下でさらに説明するように、ソフトウェアプログラム７０４は、ＣＤ、ＤＶＤ又はストレージドライブなどの外部媒体にロードすることができる。

【0035】

さらに、コンピュータシステム７００は、ネットワーク７８０に接続することもできる。ネットワーク７８０は、例えばクライアント－サーバアーキテクチャ、ピアツーピアネットワークアーキテクチャ又は他のタイプのアーキテクチャなどの様々な異なるアーキテクチャで接続することができる。例えば、ネットワーク７８０は、画像処理アプリケーション７９０内で使用されるエンジンとデータとを協調させるサーバ７８５と通信することができる。また、ネットワークは、異なるタイプのネットワークとすることもできる。例えば、ネットワーク７８０は、インターネット、ローカルエリアネットワーク又はローカルエリアネットワークのいずれかの変形形態、ワイドエリアネットワーク、メトロポリタンエリアネットワーク、イントラネット又はエクストラネット、或いは無線ネットワークとすることができる。

【0036】

図７Ｂは、本開示の実装による、画像処理アプリケーション７９０をホストするコンピュータシステム７００を示す機能ブロック図である。コントローラ７１０はプログラマブルプロセッサであり、コンピュータシステム７００及びそのコンポーネントの動作を制御する。コントローラ７１０は、メモリ７２０又は埋め込みコントローラメモリ（図示せず）から（例えば、コンピュータプログラムの形態の）命令をロードし、これらの命令を実行してシステムを制御する。コントローラ７１０は、その実行において、精度を高めた予測セグメンテーションマスクの生成を可能にするようなソフトウェアシステムを画像処理アプリケーション７９０に提供する。或いは、このサービスは、コントローラ７１０又はコンピュータシステム７００内の別のハードウェアコンポーネントとして実装することもできる。

【0037】

メモリ７２０は、コンピュータシステム７００の他のコンポーネントによって使用されるデータを一時的に記憶する。１つの実装では、メモリ７２０がＲＡＭとして実装される。別の実装では、メモリ７２０が、フラッシュメモリ及び／又はＲＯＭなどの長期又は固定メモリも含む。

【0038】

ストレージ７３０は、コンピュータシステム７００の他のコンポーネントによって使用されるデータを一時的に又は長期にわたって記憶する。例えば、ストレージ７３０は、画像処理アプリケーション７９０によって使用されるデータを記憶する。１つの実装では、ストレージ７３０がハードディスクドライブである。

【0039】

媒体装置７４０は、取り外し可能媒体を受け取り、挿入された媒体に対してデータの読み取り及び／又は書き込みを行う。１つの例では、媒体装置７４０が光ディスクドライブである。

【0040】

ユーザインターフェイス７５０は、コンピュータシステム７００のユーザからのユーザ入力を受け入れてユーザ７０２に情報を提示するコンポーネントを含む。１つの実装では、ユーザインターフェイス７５０が、キーボード、マウス、オーディオスピーカ及びディスプレイを含む。コントローラ７１０は、ユーザ７０２からの入力を使用してコンピュータシステム７００の動作を調整する。

【0041】

Ｉ／Ｏインターフェイス７６０は、外部記憶装置又は補助装置（例えば、プリンタ又はＰＤＡ）などの対応するＩ／Ｏ装置に接続するための１又は２以上のＩ／Ｏポートを含む。１つの実装では、Ｉ／Ｏインターフェイス７６０のポートが、ＵＳＢポート、ＰＣＭＣＩＡポート、シリアルポート及び／又はパラレルポートなどのポートを含む。別の実装では、Ｉ／Ｏインターフェイス７６０が、外部装置と無線で通信するための無線インターフェイスを含む。

【0042】

ネットワークインターフェイス７７０は、イーサネット接続をサポートするＲＪ－４５又は（限定するわけではないが８０２.１１を含む）「Ｗｉ－Ｆｉ」インターフェイスなどの有線及び／又は無線ネットワーク接続を含む。

【0043】

コンピュータシステム７００は、コンピュータシステムに特有のさらなるハードウェア及びソフトウェア（例えば、電源、冷却、オペレーティングシステム）を含むが、これらのコンポーネントは、単純にするために図７Ｂには具体的に示していない。他の実装では、コンピュータシステムの異なる構成（例えば、異なるバス又はストレージ構成、又はマルチプロセッサ構成）を使用することもできる。

【0044】

本明細書に開示した実装の説明は、本発明をいずれかの当業者が実施又は利用できるように行ったものである。当業者には、これらの実装の数多くの修正が容易に明らかになると思われ、また本明細書で定める原理は、本発明の趣旨又は範囲から逸脱することなく他の実装にも適用することができる。従って、本開示は、本明細書に示す実装に限定されることを意図するものではなく、本明細書に開示する原理及び新規の特徴と一致する最も広い範囲を許容すべきものである。

【0045】

従って、さらなる変形及び実装も可能である。例えば、１つの実装は、画像セグメンテーションモデルの機械学習訓練に輪郭画像ベースの評価を追加して画像セグメンテーションプロセスの性能を高める。輪郭画像ベースの評価は、訓練中のモデルによるセグメンテーションが輪郭画像に一致する出力を提供しているかどうかにかかわらず、別の参照情報を提供することによってビデオセグメンテーションモデル訓練の効率を高めることができる。さらなる実装例としては、コンテンツ制作においてグリーンスクリーンを使用する必要性の排除、並びにロボット工学、自律運転、工場自動化のための画像セグメンテーション及び形状認識などが挙げられる。

【0046】

提案する解決策で訓練された高忠実度ビデオセグメンテーションエンジンを使用して、コンテンツ制作の視覚効果（ＶＦＸ）プロセスにおける役者及び物体のマスキングプロセスを自動化することができる。現在、このようなマスキングは人間によって手動で行われており、機械学習ベースのツールを使用して時間のかかるプロセスを自動化することができる。

【0047】

本開示の特定の実装では、必ずしも上述した各実施例の全ての特徴が必要なわけではない。さらに、本明細書に示す説明及び図面は、本発明によって幅広く検討される主題を表すものであると理解されたい。さらに、本開示の範囲は、当業者に明らかになると考えられる他の実装を完全に含み、従って添付の特許請求の範囲以外のものによって限定されるものではないと理解されたい。

【符号の説明】

【0048】

１１０アルゴリズムを使用して、グラウンドトゥルースＲＧＢの手動でセグメント化されたマスクに基づいて二値輪郭を生成
１２０二値輪郭をオリジナルＲＧＢ画像内に交差させることによって新たなグラウンドトゥルース画像セットを生成
１３０セグメンテーション訓練のための交差画像コンテナからグラウンドトゥルースＲＧＢ画像バッファを抽出
１４０予測セグメンテーションマスクに基づいて、アルゴリズムを使用して新たな二値輪郭を取得
１５０手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算
１６０二値輪郭と新たな二値輪郭との間の損失関数の形態の差分を計算
１７０誤差逆伝播のためにセグメンテーション損失に輪郭損失を加算

【図1】