IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧 ▶ ソニー ピクチャーズ エンターテインメント インコーポレイテッドの特許一覧

特許7432766オプティカルフローによって支援される、動いている物体のためのハイブリッドビデオセグメンテーション
<>
  • 特許-オプティカルフローによって支援される、動いている物体のためのハイブリッドビデオセグメンテーション 図1
  • 特許-オプティカルフローによって支援される、動いている物体のためのハイブリッドビデオセグメンテーション 図2
  • 特許-オプティカルフローによって支援される、動いている物体のためのハイブリッドビデオセグメンテーション 図3
  • 特許-オプティカルフローによって支援される、動いている物体のためのハイブリッドビデオセグメンテーション 図4A
  • 特許-オプティカルフローによって支援される、動いている物体のためのハイブリッドビデオセグメンテーション 図4B
  • 特許-オプティカルフローによって支援される、動いている物体のためのハイブリッドビデオセグメンテーション 図5
  • 特許-オプティカルフローによって支援される、動いている物体のためのハイブリッドビデオセグメンテーション 図6
  • 特許-オプティカルフローによって支援される、動いている物体のためのハイブリッドビデオセグメンテーション 図7A
  • 特許-オプティカルフローによって支援される、動いている物体のためのハイブリッドビデオセグメンテーション 図7B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-07
(45)【発行日】2024-02-16
(54)【発明の名称】オプティカルフローによって支援される、動いている物体のためのハイブリッドビデオセグメンテーション
(51)【国際特許分類】
   G06T 7/215 20170101AFI20240208BHJP
   G06V 10/764 20220101ALI20240208BHJP
   G06T 7/254 20170101ALI20240208BHJP
   G06T 1/00 20060101ALI20240208BHJP
【FI】
G06T7/215
G06V10/764
G06T7/254 A
G06T1/00 320A
【請求項の数】 17
(21)【出願番号】P 2022560284
(86)(22)【出願日】2021-05-28
(65)【公表番号】
(43)【公表日】2023-05-22
(86)【国際出願番号】 US2021035029
(87)【国際公開番号】W WO2022005671
(87)【国際公開日】2022-01-06
【審査請求日】2022-10-03
(31)【優先権主張番号】63/047,753
(32)【優先日】2020-07-02
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/179,094
(32)【優先日】2021-02-18
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(73)【特許権者】
【識別番号】596102126
【氏名又は名称】ソニー ピクチャーズ エンターテインメント インコーポレイテッド
(74)【代理人】
【識別番号】100092093
【弁理士】
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(72)【発明者】
【氏名】チェン メンユ
(72)【発明者】
【氏名】ジュー ミャオチー
(72)【発明者】
【氏名】高島 芳和
(72)【発明者】
【氏名】チャオ オウヤン
(72)【発明者】
【氏名】デ ラ ローサ ダニエル
(72)【発明者】
【氏名】ラフェンテ マイケル
(72)【発明者】
【氏名】シャピーロ スティーヴン
【審査官】藤原 敬利
(56)【参考文献】
【文献】米国特許出願公開第2020/0074642(US,A1)
【文献】特開2014-011767(JP,A)
【文献】特開2019-012426(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06T 7/00- 7/90
G06V 10/00-20/90
(57)【特許請求の範囲】
【請求項1】
入力ビデオのフレームに特定のパラメータ値でガンマ調整を適用して少なくとも1つのガンマ調整フレームセットを生成することと、
前記少なくとも1つのガンマ調整フレームセットにセグメンテーション法を適用してセグメンテーションマスクを生成することと、
前記少なくとも1つのガンマ調整フレームセットにオプティカルフロー法を適用してオプティカルフローマップを生成することと、
前記セグメンテーションマスクと前記オプティカルフローマップとを組み合わせてハイブリッドセグメンテーションマスクを生成することと、
前記ハイブリッドセグメンテーションマスクを受け取り、前記セグメンテーションマスクと前記オプティカルフローマップとの間のアライメントが受け入れ可能であるかどうかを判定することと、
前記アライメントが受け入れ難い場合に、別のパラメータ値セットを使用して前記セグメンテーションマスクと前記オプティカルフローマップの間の前記アライメントを改善することと、
セグメンテーション法を適用してセグメンテーションマスクを生成すること及びオプティカルフロー法を適用してオプティカルフローマップを生成することを繰り返すことと、
を含むことを特徴とする方法。
【請求項2】
前記セグメンテーションマスクと前記オプティカルフローマップとを組み合わせることは、前記セグメンテーション法を適用された物体のサブピクセルの赤色、緑色及び青色成分のピクセル単位のコード値を乗算することを含む、
請求項1に記載の方法。
【請求項3】
前記セグメンテーション法は、
前記少なくとも1つのガンマ調整フレームセットの各フレームをクラスにカテゴリ化することと、
各フレーム内の物体を検出して前記物体の周囲に境界線を引くことと、
各フレームの部分を識別して前記物体に対応付けることと、
を含む、請求項1に記載の方法。
【請求項4】
前記オプティカルフローマップの各フローマップは、前記少なくとも1つのガンマ調整フレームセットの連続するフレーム間における前記物体の動きのマップである、
請求項3に記載の方法。
【請求項5】
前記少なくとも1つのガンマ調整フレームセットは、第1のガンマ調整フレームセット及び第2のガンマ調整フレームセットを含む、
請求項1に記載の方法。
【請求項6】
前記第1のガンマ調整フレームセットは、前記セグメンテーション法のために生成される、
請求項5に記載の方法。
【請求項7】
前記第2のガンマ調整フレームセットは、前記オプティカルフロー法のために生成される、
請求項5に記載の方法。
【請求項8】
パラメータ値セットを使用して入力ビデオのフレームにガンマ調整を適用して少なくとも1つのガンマ調整フレームセットを生成するガンマ関数アプリケータと、
前記少なくとも1つのガンマ調整フレームセットにセグメンテーション法を適用してセグメンテーションマスクを生成するセグメンテーションマスク生成器と、
前記少なくとも1つのガンマ調整フレームセットにオプティカルフロー法を適用してオプティカルフローマップを生成するオプティカルフローマップ生成器と、
前記セグメンテーションマスクと前記オプティカルフローマップとを組み合わせてハイブリッドセグメンテーションマスクを生成するコンバイナと、
前記ハイブリッドセグメンテーションマスクを受け取り、前記コンバイナが生成した前記セグメンテーションマスクと前記オプティカルフローマップとの間のアライメントが受け入れ可能であるかどうかを判定するプロセッサと、
を備え、
前記プロセッサは、前記アライメントが受け入れ難い場合に、別のパラメータ値セットを使用して前記セグメンテーションマスクと前記オプティカルフローマップの間の前記アライメントを改善して、前記セグメンテーションマスク生成器及び前記オプティカルフローマップ生成器によって実行されるプロセスを繰り返すように前記ガンマ関数アプリケータに命令することを特徴とするシステム。
【請求項9】
前記セグメンテーションマスク生成器は、
前記少なくとも1つのガンマ調整フレームセットの各フレームをクラスにカテゴリ化するカテゴライザと、
各フレーム内の物体を検出して前記物体の周囲に境界線を引く検出器と、
各フレームの部分を識別して前記物体に対応付ける識別器と、
を含む、請求項に記載のシステム。
【請求項10】
前記オプティカルフローマップの各フローマップは、前記少なくとも1つのガンマ調整フレームセットの連続するフレーム間における前記物体の動きのマップである、
請求項に記載のシステム。
【請求項11】
前記少なくとも1つのガンマ調整フレームセットは、第1のガンマ調整フレームセット及び第2のガンマ調整フレームセットを含む、
請求項に記載のシステム。
【請求項12】
前記第1のガンマ調整フレームセットは、前記セグメンテーション法のために生成される、
請求項11に記載のシステム。
【請求項13】
前記第2のガンマ調整フレームセットは、前記オプティカルフロー法のために生成される、
請求項11に記載のシステム。
【請求項14】
セグメンテーションマスクを生成するためのコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラムは、
入力ビデオのフレームに特定のパラメータ値でガンマ調整を適用して少なくとも1つのガンマ調整フレームセットを生成することと、
前記少なくとも1つのガンマ調整フレームセットにセグメンテーション法を適用してセグメンテーションマスクを生成することと、
前記少なくとも1つのガンマ調整フレームセットにオプティカルフロー法を適用してオプティカルフローマップを生成することと、
前記セグメンテーションマスクと前記オプティカルフローマップとを組み合わせてハイブリッドセグメンテーションマスクを生成することと、
前記ハイブリッドセグメンテーションマスクを受け取り、前記セグメンテーションマスクと前記オプティカルフローマップとの間のアライメントが受け入れ可能であるかどうかを判定することと、
前記アライメントが受け入れ難い場合に、別のパラメータ値セットを使用して前記セグメンテーションマスクと前記オプティカルフローマップの間の前記アライメントを改善して、更にセグメンテーション法を適用してセグメンテーションマスクを生成するこ及びオプティカルフロー法を適用してオプティカルフローマップを生成することを繰り返すことと、
をコンピュータに行わせる実行可能命令を含む、ことを特徴とするコンピュータ可読記憶媒体。
【請求項15】
前記セグメンテーション法は、
前記少なくとも1つのガンマ調整フレームセットの各フレームをクラスにカテゴリ化することと、
各フレーム内の物体を検出して前記物体の周囲に境界線を引くことと、
各フレームの部分を識別して前記物体に対応付けることと、
を前記コンピュータに行わせる実行可能命令を含む、請求項14に記載のコンピュータ可読記憶媒体。
【請求項16】
前記オプティカルフローマップの各フローマップは、前記少なくとも1つのガンマ調整フレームセットの連続するフレーム間における前記物体の動きのマップである、
請求項15に記載のコンピュータ可読記憶媒体。
【請求項17】
前記少なくとも1つのガンマ調整フレームセットは、第1のガンマ調整フレームセット及び第2のガンマ調整フレームセットを含み、
前記第1のガンマ調整フレームセットは、前記セグメンテーション法のために生成され、
前記第2のガンマ調整フレームセットは、前記オプティカルフロー法のために生成される、
請求項14に記載のコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照〕
本出願は、2020年7月2日に出願された「オプティカルフローによって支援されるハイブリッドビデオセグメンテーション(Hybrid Video Segmentation Method Aided by Optical Flow)」という名称の同時継続米国仮特許出願第63/047,753号の米国特許法第119条に基づく優先権の利益を主張するものであり、上記出願の開示は引用により本明細書に組み入れられる。
【0002】
本開示は、ビデオセグメンテーションに関し、具体的には、改善されたセグメンテーションマスクの生成に関する。
【背景技術】
【0003】
マスクを使用する従来の機械学習(ML)ベースのセグメンテーション法は、ソーシャルメディア上の低解像度ビデオなどの非専門的メディアコンテンツについては十分な結果をもたらす。しかしながら、専門的な画像/ビデオ処理タスクの要件を満たすには、セグメンテーションマスクの品質が十分でないことがある。例えば、エッジの明瞭性がフレーム毎に異なることによって、誤って推測されたサブピクセルがマスク領域内に現れることがある。従って、いくつかのシナリオでは、MLベースのセグメンテーション法が信頼できる及び/又は一貫したセグメンテーションマスクを生成しないことがある。これらのシナリオとしては、高解像度画像(例えば、HD、4K)、とりわけ動きの速い物体を有する動的シーン、カラーグレーディングされたコンテンツ(例えば、低明度、同様のテクスチャ)、暗いシーン、及びシーン内の単独でセグメント化すべき複数の目標物体を挙げることができる。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示は、動いている物体をセグメント化するための改善されたセグメンテーションマスクの生成を提供する。
【0005】
1つの実装では、方法を開示する。この方法は、入力ビデオのフレームに特定のパラメータ値でガンマ調整を適用して少なくとも1つのガンマ調整フレームセットを生成することと、少なくとも1つのガンマ調整フレームセットにセグメンテーション法を適用してセグメンテーションマスクを生成することと、少なくとも1つのガンマ調整フレームセットにオプティカルフロー法を適用してオプティカルフローマップを生成することと、セグメンテーションマスクとオプティカルフローマップとを組み合わせてハイブリッドセグメンテーションマスクを生成することと、を含む。
【0006】
1つの実装では、セグメンテーションマスクとオプティカルフローマップとを組み合わせることが、セグメンテーション法を適用された物体のサブピクセルの赤色、緑色及び青色成分のピクセル単位のコード値を乗算することを含む。1つの実装では、セグメンテーション法が、少なくとも1つのガンマ調整フレームセットの各フレームをクラスにカテゴリ化することと、各フレーム内の物体を検出して物体の周囲に境界線を引くことと、各フレームの部分を識別して物体に対応付けることと、を含む。1つの実装では、オプティカルフローマップの各フローマップが、少なくとも1つのガンマ調整フレームセットの連続するフレーム間における物体の動きのマップである。1つの実装では、少なくとも1つのガンマ調整フレームセットが、第1のガンマ調整フレームセット及び第2のガンマ調整フレームセットを含む。1つの実装では、第1のガンマ調整フレームセットが、セグメンテーション法のために生成される。1つの実装では、第2のガンマ調整フレームセットが、オプティカルフロー法のために生成される。1つの実装では、方法が、入力ビデオのフレームに異なるパラメータ値でガンマ調整を適用して異なるガンマ調整フレームセットを生成し、セグメンテーションマスクとオプティカルフローマップとの間に位置ずれが存在する場合、この適用、及びセグメンテーション法とオプティカルフロー法との組み合わせを繰り返すことをさらに含む。
【0007】
別の実装では、システムを開示する。このシステムは、パラメータセットを使用して入力ビデオのフレームにガンマ調整を適用して少なくとも1つのガンマ調整フレームセットを生成するガンマ関数アプリケータと、少なくとも1つのガンマ調整フレームセットにセグメンテーション法を適用してセグメンテーションマスクを生成するセグメンテーションマスク生成器と、少なくとも1つのガンマ調整フレームセットにオプティカルフロー法を適用してオプティカルフローマップを生成するオプティカルフローマップ生成器と、セグメンテーションマスクとオプティカルフローマップとを組み合わせてハイブリッドセグメンテーションマスクを生成するコンバイナとを含む。
【0008】
1つの実装では、システムが、ハイブリッドセグメンテーションマスクを受け取り、コンバイナが生成したセグメンテーションマスクとオプティカルフローマップとの間のアライメントが受け入れ可能であるかどうかを判定するプロセッサをさらに含み、プロセッサは、アライメントが受け入れ難い場合に、別のパラメータ値セットを使用してセグメンテーションマスクとオプティカルフローマップの間のアライメントを改善して、セグメンテーションマスク生成器及びオプティカルフローマップ生成器によって実行されるプロセスを繰り返すようにガンマ関数アプリケータに命令する。1つの実装では、セグメンテーションマスク生成器が、少なくとも1つのガンマ調整フレームセットの各フレームをクラスにカテゴリ化するカテゴライザと、各フレーム内の物体を検出して物体の周囲に境界線を引く検出器と、各フレームの部分を識別して物体に対応付ける識別器とを含む。1つの実装では、オプティカルフローマップの各フローマップが、少なくとも1つのガンマ調整フレームセットの連続するフレーム間における物体の動きのマップである。1つの実装では、少なくとも1つのガンマ調整フレームセットが、第1のガンマ調整フレームセット及び第2のガンマ調整フレームセットを含む。1つの実装では、第1のガンマ調整フレームセットが、セグメンテーション法のために生成される。1つの実装では、第2のガンマ調整フレームセットが、オプティカルフロー法のために生成される。
【0009】
さらなる実装では、セグメンテーションマスクを生成するためのコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体を開示する。コンピュータプログラムは、入力ビデオのフレームに特定のパラメータ値でガンマ調整を適用して少なくとも1つのガンマ調整フレームセットを生成することと、少なくとも1つのガンマ調整フレームセットにセグメンテーション法を適用してセグメンテーションマスクを生成することと、少なくとも1つのガンマ調整フレームセットにオプティカルフロー法を適用してオプティカルフローマップを生成することと、セグメンテーションマスクとオプティカルフローマップとを組み合わせてハイブリッドセグメンテーションマスクを生成することと、をコンピュータに行わせる実行可能命令を含む。
【0010】
1つの実装では、セグメンテーション法が、少なくとも1つのガンマ調整フレームセットの各フレームをクラスにカテゴリ化することと、各フレーム内の物体を検出して物体の周囲に境界線を引くことと、各フレームの部分を識別して物体に対応付けることと、をコンピュータに行わせる実行可能命令を含む。1つの実装では、オプティカルフローマップの各フローマップが、少なくとも1つのガンマ調整フレームセットの連続するフレーム間における物体の動きのマップである。1つの実装では、少なくとも1つのガンマ調整フレームセットが、第1のガンマ調整フレームセット及び第2のガンマ調整フレームセットを含み、第1のガンマ調整フレームセットが、セグメンテーション法のために生成され、第2のガンマ調整フレームセットが、オプティカルフロー法のために生成される。1つの実装では、コンピュータプログラムが、入力ビデオのフレームに異なるパラメータ値でガンマ調整を適用して異なるガンマ調整フレームセットを生成し、セグメンテーションマスクとオプティカルフローマップとの間に位置ずれが存在する場合、この適用、及びセグメンテーション法とオプティカルフロー法との組み合わせを繰り返すことをコンピュータに行わせる実行可能命令をさらに含む。
【0011】
本開示の態様を一例として示す本明細書からは、他の特徴及び利点も明らかになるはずである。
【0012】
同じ部分を同じ参照数字によって示す添付図面を検討することにより、本開示の詳細をその構造及び動作の両方に関して部分的に入手することができる。
【図面の簡単な説明】
【0013】
図1】本開示の1つの実装による、より一貫した正確なセグメンテーションマスクを生成する方法のフロー図である。
図2】入力ビデオのオリジナルフレーム及び第2のビデオのガンマ調整フレームを示す図である。
図3】ガンマ調整フレーム及び生成されるセグメンテーションマスクを示す図である。
図4A】ガンマ調整フレーム及び生成されるオプティカルフローマップの1つの実装を示す図である。
図4B】フレームが複数の移動物体を含む場合にガンマ調整フレームから生成されるオプティカルフローマップを示す図である。
図5】セグメンテーションマスク、オプティカルフローマップ、及び生成されるハイブリッドセグメンテーションマスクを示す図である。
図6】本開示の1つの実装によるセグメンテーションマスク生成システムのブロック図である。
図7A】本開示の1つの実装によるコンピュータシステム及びユーザの表現である。
図7B】本開示の1つの実装による、ビデオアプリケーションをホストするコンピュータシステムを示す機能ブロック図である。
【発明を実施するための形態】
【0014】
上述したように、従来のMLベースのセグメンテーション法は、高解像度画像、動きの速い物体を含む動的シーン、カラーグレーディングされたコンテンツ、暗いシーン、及び/又はシーン内の複数の目標物体を伴うシナリオでは、信頼できる及び/又は一貫したセグメンテーションマスクを生成できないことがある。
【0015】
本開示の特定の実装は、ハイブリッドセグメンテーション法及びオプティカルフロー法を使用して、より一貫した正確なセグメンテーションマスクを生成する方法及びシステムを提供する。さらに、ガンマ補正を含む画像前処理技術を使用して技術の有効性を確実にする。セグメンテーションマスク生成プロセス及びオプティカルフローマップ生成プロセスでは最適な入力ビデオが異なることがあるが、各入力ビデオは、スタック層セグメンテーション結果(stacked layer segmentation result)の複合性能を改善するように調整(例えば、ガンマ補正)することができる。
【0016】
以下の説明を読んだ後には、様々な実装及び用途における本開示の実装方法が明らかになるであろう。本明細書では本開示の様々な実装について説明するが、これらの実装はほんの一例として提示するものであり、限定ではないと理解されたい。従って、様々な実装の詳細な説明は、本開示の範囲又は外延を限定するものとして解釈すべきではない。
【0017】
1つの実装では、セグメンテーションマスクの一貫性及び精度を高めるために、(a)未加工フレームにガンマ関数を適用して明度及び/又はコントラストを微調整し、(b)ガンマ調整フレームにセグメンテーション法を適用してセグメンテーションマスクを生成し、(c)ガンマ調整フレームにオプティカルフロー技術を適用してオプティカルフローマップを生成し、(d)セグメンテーションマスクとオプティカルフローマップとをスタッキングして(又は組み合わせて)ハイブリッドセグメンテーションマスクを生成する、というステップを採用することができる。ステップ(d)のスタッキングプロセスによって受け入れ難いアライメントが生じた場合には、アライメントを改善するようにステップ(a)の画像前処理(例えば、明度及びコントラスト制御)を調整する。「受け入れ難いアライメント」という用語は、セグメンテーションマスク及びオプティカルフローマップが境界に沿って所定のピクセル数だけ位置ずれしており、視覚的にも位置がずれていることを意味する。1つの実装では、所定のピクセル数が5である。
【0018】
図1は、本開示の1つの実装による、より一貫した正確なセグメンテーションマスクを生成する方法100のフロー図である。1つの実装では、ハイブリッドMLベースセグメンテーション法及びオプティカルフロー法を使用してセグメンテーションマスクを生成する。
【0019】
図1の例示的な実装では、入力ビデオが受け取られ、ステップ110において、入力ビデオのフレームに(明度及びコントラストを含む)特定のパラメータ値でガンマ調整を適用して少なくとも1つのガンマ調整フレームセットを生成する。ガンマ関数を適用すると、ガンマ調整フレームを含む第2のビデオが生成される。1つの実装では、ガンマ関数又はガンマ調整の適用が、極端な暗点及び明点への影響を抑えながら中間トーンを強化する明度及びコントラストの非線形調整を意味する。従って、ガンマ調整を適用することにより、明度及びコントラストが強調されて出力画像がより明るく自然に見えるようになる。図2に、入力ビデオのオリジナルフレーム200及び第2のビデオのガンマ調整フレーム210を示す。
【0020】
図1の例示的な実装では、ステップ120において、ガンマ調整フレームにセグメンテーション法を適用してセグメンテーションマスクを生成する。1つの実装では、セグメンテーション法が、画像をクラス(例えば、人々、自転車、山など)にカテゴリ化し、画像内の物体を検出して物体の周囲に境界線を引き、画像の部分(又は「サブピクセル」)を識別して物体に対応付けることを含むことができる。図3に、ガンマ調整フレーム300及び生成されるセグメンテーションマスク310を示す。
【0021】
図1の例示的な実装では、ステップ130において、ガンマ調整フレームにオプティカルフロー法を適用してオプティカルフローマップを生成する。1つの実装では、オプティカルフローマップが、カメラと(単複の)物体との間の動きによって生じる、連続するビデオフレーム間の(単複の)物体の動きのマップである。例えば、1つの実装では、オプティカルフローマップ法が、各ベクトルの方向に基づいて各ベクトルにグレースケールレベルを割り当て、各ベクトルのノルムに基づいてグレースケールレベルの強度を変化させることを含むことができる。図4Aに、ガンマ調整フレーム400及び生成されるオプティカルフローマップ410の1つの実装を示す。別の実装では、図4Bに、フレームが複数の移動物体を含む場合にガンマ調整フレーム420から生成されるオプティカルフローマップ430を示す。図4Bのオプティカルフローマップ430は、フレーム内で異なる方向に動いている物体及び/又は人物432、434を異なるグレースケールで示す。
【0022】
図1の例示的な実装では、ステップ140において、セグメンテーションマスクとオプティカルフローマップとをスタッキングし又は組み合わせてハイブリッドセグメンテーションマスクを生成する。1つの実装では、スタッキングプロセスが、赤色、緑色及び青色成分それぞれのピクセル単位のコード値乗算であり、この乗算は、セグメンテーションマップ内の特定のクラスの物体のセグメント化されたサブピクセルのみに適用される。上述したように、スタッキングプロセスのための2つのソース画像は、セグメンテーションマスク及びオプティカルフローマップを含む。セグメンテーションの目的では、フレーム内の移動物体が関心対象である。図5に、セグメンテーションマスク510、オプティカルフローマップ520、及び生成されるハイブリッドセグメンテーションマスク530を示す。
【0023】
上述したように、(図3に示す)セグメンテーションマスク生成プロセス及び(図4A及び図4Bに示す)オプティカルフローマップ生成プロセスでは、最適なビデオ入力が異なることができる。従って、各ビデオは、スタック層セグメンテーション結果の性能を高めるように(適切な、ただし異なるガンマ補正で)調整すべきである。
【0024】
図1の例示的な実装では、(図5に示す)ステップ140のスタッキングプロセスによって生成されたアライメントがステップ150において受け入れ難い場合、ステップ160において、アライメントを改善するようにフレーム前処理(例えば、明度及びコントラスト制御)を調整する。1つの実装では、ステップ140後のフレーム前処理が別のガンマ補正を含むが、補正量を変化させることができる。別の実装では、3-Dルックアップテーブル(LUT)を用いた別の前処理方法が使用される。このステップの目的は、カラーグレーディングされた画像の見た目を、既存のセグメンテーション及び/又はオプティカルフローアルゴリズムが正確な結果を生成できるように正規化することである。従って、ステップ160は、入力ビデオのフレームに異なるパラメータ値でガンマ調整を適用して異なるガンマ調整フレームセットを生成し、セグメンテーションマスクとオプティカルフローマップとの間に位置ずれが存在する場合には、これらの適用、及びセグメンテーション法とオプティカルフロー法との組み合わせを繰り返すことを含む。1つの実装では、パラメータが明度及び/又はコントラストを含む。別の実装では、パラメータが輝度及び/又は色相を含む。上述したように、「受け入れ難いアライメント」という用語は、セグメンテーションマスク及びオプティカルフローマップが境界に沿って所定のピクセル数(例えば、5)だけ位置ずれしており、視覚的にも位置がずれていることを意味する。
【0025】
その後、方法100は、ステップ120からステップ140を繰り返すように進む。一方で、ステップ140のスタッキングプロセスによってステップ150において受け入れ可能なアライメントが生じた場合、方法100は、生成されたハイブリッドセグメントマスク530を使用してビデオセグメンテーションを実行して終了する。
【0026】
図6は、本開示の1つの実装によるセグメンテーションマスク生成システム600のブロック図である。図6の例示的な実装では、セグメンテーションマスク生成システム600が、ガンマ関数アプリケータ610、セグメンテーションマスク生成器620、オプティカルフローマップ生成器630、コンバイナ640、及びプロセッサ650を含む。1つの実装では、セグメンテーションマスク生成システム600が、1又は2以上のデジタルシグナルプロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、又はその他の同等の集積又はディスクリート論理回路を含むハードウェアのみで構成されたシステムである。別の実装では、セグメンテーションマスク生成システム600が、ハードウェアとソフトウェアとの組み合わせで構成される。
【0027】
図6では、ガンマ関数アプリケータ610が入力ビデオ602を受け取り、入力ビデオ602のフレームにガンマ関数を適用して、入力ビデオ602の、とりわけ移動物体の明度及び/又はコントラストを微調整する。ガンマ関数アプリケータ610は、ガンマ調整フレームを含む第2のビデオ612を生成する。1つの実装では、セグメンテーションマスク生成器620が、ガンマ調整フレームにセグメンテーション法を適用してセグメンテーションマスクを生成する。1つの実装では、セグメンテーションマスク生成器620が、少なくとも1つのガンマ調整フレームセットの各フレームをクラスにカテゴリ化するカテゴライザ622と、各フレーム内の物体を検出して物体の周囲に境界線を引く検出器624と、各フレームの一部を識別して物体に対応付ける識別器626とを含む。1つの実装では、オプティカルフローマップ生成器630が、ガンマ調整フレームにオプティカルフロー法を適用してオプティカルフローマップを生成する。コンバイナ640は、セグメンテーションマスクとオプティカルフローマップとをスタッキングし又は組み合わせてハイブリッドセグメンテーションマスク604を生成する。
【0028】
上述したように、セグメンテーションマスク生成器620にとって最適な第2のビデオ612のガンマ調整フレームと、オプティカルフローマップ生成器630にとって最適な第2のビデオ612のガンマ調整フレームとは異なることができる。従って、生成器620、630の各々の第2のビデオ612のガンマ調整フレームは、スタック層のセグメンテーション結果の性能を高めるように(適切な、ただし異なるガンマ補正で)調整すべきである。
【0029】
図6では、コンバイナ640によって生成されたハイブリッドセグメンテーションマスク642がプロセッサ650によって受け取られ、プロセッサ650は、結合プロセスによって生成されたアライメントが受け入れ可能であるかどうかを判定するチェックを行う。受け入れ可能でない場合、プロセッサ650は、アライメントを改善するようにフレーム前処理(例えば、明度及びコントラスト制御)を調整した上で、セグメンテーションマスク生成器620及びオプティカルフローマップ生成器630によって実行されるプロセスを繰り返すようにガンマ関数アプリケータ610に命令する。一方で、コンバイナ640によって生成されたアライメントが受け入れ可能であるとプロセッサ650が判定した場合、コンバイナ640によって生成されたハイブリッドセグメンテーションマスク604が出力され、これを使用してビデオセグメンテーションを実行することができる。
【0030】
図7Aは、本開示の実装によるコンピュータシステム700及びユーザ702の表現である。ユーザ702は、コンピュータシステム700を使用して、図1の方法100及び図6のシステム600に関してセグメンテーションマスクを生成するためのビデオアプリケーション790を実行する。
【0031】
コンピュータシステム700は、図7Bのビデオアプリケーション790を記憶して実行する。また、コンピュータシステム700は、ソフトウェアプログラム704と通信することもできる。ソフトウェアプログラム704は、ビデオアプリケーション790のためのソフトウェアコードを含むことができる。以下でさらに説明するように、ソフトウェアプログラム704は、CD、DVD又はストレージドライブなどの外部媒体にロードすることができる。
【0032】
さらに、コンピュータシステム700は、ネットワーク780に接続することもできる。ネットワーク780は、例えばクライアント-サーバアーキテクチャ、ピアツーピアネットワークアーキテクチャ又は他のタイプのアーキテクチャなどの様々な異なるアーキテクチャで接続することができる。例えば、ネットワーク780は、ビデオアプリケーション790内で使用されるエンジンとデータとを協調させるサーバ785と通信することができる。また、ネットワークは、異なるタイプのネットワークとすることもできる。例えば、ネットワーク780は、インターネット、ローカルエリアネットワーク又はローカルエリアネットワークのいずれかの変形形態、ワイドエリアネットワーク、メトロポリタンエリアネットワーク、イントラネット又はエクストラネット、或いは無線ネットワークとすることができる。
【0033】
図7Bは、本開示の実装による、ビデオアプリケーション790をホストするコンピュータシステム700を示す機能ブロック図である。コントローラ710はプログラマブルプロセッサであり、コンピュータシステム700及びそのコンポーネントの動作を制御する。コントローラ710は、メモリ720又は埋め込みコントローラメモリ(図示せず)から(例えば、コンピュータプログラムの形態の)命令をロードし、これらの命令を実行してシステムを制御する。コントローラ710は、その実行において、より一貫した正確なセグメンテーションマスクの生成を可能にするようなソフトウェアシステムをビデオアプリケーション790に提供する。或いは、このサービスは、コントローラ710又はコンピュータシステム700内の別のハードウェアコンポーネントとして実装することもできる。
【0034】
メモリ720は、コンピュータシステム700の他のコンポーネントによって使用されるデータを一時的に記憶する。1つの実装では、メモリ720がRAMとして実装される。別の実装では、メモリ720が、フラッシュメモリ及び/又はROMなどの長期又は固定メモリも含む。
【0035】
ストレージ730は、コンピュータシステム700の他のコンポーネントによって使用されるデータを一時的に又は長期にわたって記憶する。例えば、ストレージ730は、ビデオアプリケーション790によって使用されるデータを記憶する。1つの実装では、ストレージ730がハードディスクドライブである。
【0036】
媒体装置740は、取り外し可能媒体を受け取り、挿入された媒体に対してデータの読み取り及び/又は書き込みを行う。1つの例では、媒体装置740が光ディスクドライブである。
【0037】
ユーザインターフェイス750は、コンピュータシステム700のユーザからのユーザ入力を受け入れてユーザ702に情報を提示するコンポーネントを含む。1つの実装では、ユーザインターフェイス750が、キーボード、マウス、オーディオスピーカ及びディスプレイを含む。コントローラ710は、ユーザ702からの入力を使用してコンピュータシステム700の動作を調整する。
【0038】
I/Oインターフェイス760は、外部記憶装置又は補助装置(例えば、プリンタ又はPDA)などの対応するI/O装置に接続するための1又は2以上のI/Oポートを含む。1つの実装では、I/Oインターフェイス760のポートが、USBポート、PCMCIAポート、シリアルポート及び/又はパラレルポートなどのポートを含む。別の実装では、I/Oインターフェイス760が、外部装置と無線で通信するための無線インターフェイスを含む。
【0039】
ネットワークインターフェイス770は、イーサネット接続をサポートするRJ-45又は(限定するわけではないが802.11を含む)「Wi-Fi」インターフェイスなどの有線及び/又は無線ネットワーク接続を含む。
【0040】
コンピュータシステム700は、コンピュータシステムに特有のさらなるハードウェア及びソフトウェア(例えば、電源、冷却、オペレーティングシステム)を含むが、これらのコンポーネントは、単純にするために図7Bには具体的に示していない。他の実装では、コンピュータシステムの異なる構成(例えば、異なるバス又はストレージ構成、又はマルチプロセッサ構成)を使用することもできる。
【0041】
本開示では、セグメンテーション法及びオプティカルフロー法を利用してより一貫した正確なセグメンテーションマスクを生成するハイブリッド法について説明した。さらに、ガンマ補正などの画像前処理技術を使用して方法の有効性を高める。ハイブリッド法の利点としては、(a)(本来解析が困難なソース画像(例えば、暗いシーン)に対処するためにシーン構造の意味的理解に基づいてガンマ補正を適用する効率、シーンが静的である場合の良好なセグメンテーションネットワークの効率、動的シーンにおいて動きベクトルを描写する場合の良好なオプティカルフローネットワークの精度、複数の移動物体を独立した物体として識別するオプティカルフローの能力、並びにセグメンテーションエンジン及びオプティカルフローエンジンのガンマ補正を単独で最適化して各エンジン性能を最大化することが挙げられる。
【0042】
本明細書に開示した実装の説明は、本発明をいずれかの当業者が実施又は利用できるように行ったものである。当業者には、これらの実装の数多くの修正が容易に明らかになると思われ、また本明細書で定める原理は、本発明の趣旨又は範囲から逸脱することなく他の実装にも適用することができる。従って、本開示は、本明細書に示す実装に限定されることを意図するものではなく、本明細書に開示する原理及び新規の特徴と一致する最も広い範囲を許容すべきものである。
【0043】
従って、さらなる変形及び実装も可能である。例えば、1つの実装は、異なるタイプのソース画像の処理において利点を有する複数のビデオセグメンテーション法を利用して、様々なビデオシーンにわたって一貫性のある安定したビデオセグメンテーション結果を提供する。また、それぞれのビデオセグメンテーション法に合わせて入力画像前処理を最適化して、ハイブリッドビデオセグメンテーションプロセス結果の全体性能を最大化することもできる。ビデオセグメンテーション法の一部は、動きを含むシーン及び複数の物体の単独識別において利点を有するオプティカルフローベースのモデルである。
【0044】
上述した解決策で訓練された高忠実度ビデオセグメンテーションエンジンを使用して、コンテンツ制作の視覚効果(VFX)プロセスにおける役者及び物体のマスキングプロセスを自動化することができる。現在、このようなマスキングは人間によって手動で行われているが、機械学習ベースのツールを使用して時間のかかるプロセスを自動化することができる。
【0045】
さらなる変形形態及び実装としては、コンテンツ制作においてグリーンスクリーンを使用する必要性の排除、ロボット工学、自律運転、工場自動化のための画像セグメンテーション及び形状認識、目標物体に焦点を合わせることによる物体認識性能の強化、並びにオブジェクトセグメンテーションを利用した画像マッチング性能の強化が挙げられる。
【0046】
当業者であれば、本明細書で説明した様々な例示的なモジュール及び方法ステップは、電子ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせとして実装することができると理解するであろう。このハードウェアとソフトウェアとの互換性を明確に説明するために、本明細書では様々な例示的なモジュール及び方法ステップを一般にこれらの機能の面で説明した。このような機能がハードウェアとして実装されるか、それともソフトウェアとして実装されるかは、システム全体に課せられる特定の用途及び設計制約に依存する。当業者であれば、説明した機能を特定の用途毎に様々な方法で実装することができるが、このような実装決定は、本発明の範囲からの逸脱を生じるものとして解釈すべきではない。また、モジュール又はステップ内の機能をグループ化しているのは、説明を容易にするためである。本開示から逸脱することなく、特定の機能を1つのモジュール又はステップから別のモジュール又はステップに移行させることもできる。
【0047】
本開示の特定の実装では、必ずしも上述した各実施例の全ての特徴が必要なわけではない。さらに、本明細書に示す説明及び図面は、本発明によって幅広く検討される主題を表すものであると理解されたい。さらに、本開示の範囲は、当業者に明らかになると考えられる他の実装を完全に含み、従って添付の特許請求の範囲以外のものによって限定されるものではないと理解されたい。
【符号の説明】
【0048】
110 入力ビデオのフレームに明度及びコントラストを含む特定のパラメータ値でガンマ調整を適用
120 ガンマ調整フレームにセグメンテーション法を適用してセグメンテーションマスクを生成
130 ガンマ調整フレームにオプティカルフロー法を適用してオプティカルフローマップを生成
140 セグメンテーションマスクとオプティカルフローマップとをスタッキングしてハイブリッドセグメンテーションマスクを生成
150 アライメントOK?
160 アライメントを改善するようにパラメータのフレーム前処理を調整
図1
図2
図3
図4A
図4B
図5
図6
図7A
図7B