IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

<>
  • 特許-前景抽出装置及びプログラム 図1
  • 特許-前景抽出装置及びプログラム 図2
  • 特許-前景抽出装置及びプログラム 図3
  • 特許-前景抽出装置及びプログラム 図4
  • 特許-前景抽出装置及びプログラム 図5
  • 特許-前景抽出装置及びプログラム 図6
  • 特許-前景抽出装置及びプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-07
(45)【発行日】2024-10-16
(54)【発明の名称】前景抽出装置及びプログラム
(51)【国際特許分類】
   G06T 7/194 20170101AFI20241008BHJP
   G06T 7/174 20170101ALI20241008BHJP
   G06T 7/162 20170101ALI20241008BHJP
   G06T 7/00 20170101ALI20241008BHJP
【FI】
G06T7/194
G06T7/174
G06T7/162
G06T7/00 350B
【請求項の数】 7
(21)【出願番号】P 2021139425
(22)【出願日】2021-08-27
(65)【公開番号】P2023032996
(43)【公開日】2023-03-09
【審査請求日】2023-08-07
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】野中 敬介
【審査官】吉田 千裕
(56)【参考文献】
【文献】米国特許出願公開第2017/0236290(US,A1)
【文献】特開2014-206926(JP,A)
【文献】Li, Yao and Ma, Lizhuang,"A Super-pixel based Method for Instance Segmentation Post-processing",2020 13th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI),2020年,pp.175-180
【文献】Giraldo, Jhony H. and Javed, Sajid and Bouwmans, Thierry,"Graph Moving Object Segmentation",IEEE Transactions on Pattern Analysis and Machine Intelligence,2020年,44,pp.2485-2503
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/194
G06T 7/174
G06T 7/162
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
前景または背景の区別が付与されていない第1映像と、当該区別が付与された第2画像群と、を入力として、第1映像の各フレームにおける前景を抽出する前景抽出装置であって、
前記第1映像及び前記第2画像群の各画像に対して、第1手法を適用することで前景候補領域を抽出し、
前記前景候補領域と、対応する画像に対して前記第1手法よりも細分化された領域分割を実現する第2手法を適用した領域分割結果と、を照合して、前記前景候補領域を修正した対象領域を求め、
対象領域の各々をノードとし、各ノードが前記第2画像群に起因する場合に前景または背景の区別をラベルとして付与したグラフを構築し、
前記グラフのコストを最小化するように、前記グラフの各ノードのうち前記第1映像に起因するノードに対して前景または背景の区別をラベルとして推定することで、前記第1映像の各フレームにおける前景抽出結果を得ており、
前記前景候補領域を抽出することは、前記第1映像の各フレームについて、前景抽出手法としての前記第1手法を適用した結果の前景領域について、各フレームの近傍時間のフレーム群での当該前景領域の和を取ることによって行われることを特徴とする前景抽出装置。
【請求項2】
前記和を取ることは、当該和を取る対象フレームの近傍時間のフレーム群での前景領域を、当該対象フレームの時刻に該当する位置に移動させたうえで行われることを特徴とする請求項に記載の前景抽出装置。
【請求項3】
前景または背景の区別が付与されていない第1映像と、当該区別が付与された第2画像群と、を入力として、第1映像の各フレームにおける前景を抽出する前景抽出装置であって、
前記第1映像及び前記第2画像群の各画像に対して、第1手法を適用することで前景候補領域を抽出し、
前記前景候補領域と、対応する画像に対して前記第1手法よりも細分化された領域分割を実現する第2手法を適用した領域分割結果と、を照合して、前記前景候補領域を修正した対象領域を求め、
対象領域の各々をノードとし、各ノードが前記第2画像群に起因する場合に前景または背景の区別をラベルとして付与したグラフを構築し、
前記グラフのコストを最小化するように、前記グラフの各ノードのうち前記第1映像に起因するノードに対して前景または背景の区別をラベルとして推定することで、前記第1映像の各フレームにおける前景抽出結果を得ており、
前記グラフを構築することは、ノードとされる対象領域の各々について画像特徴量を抽出し、異なるノード間において画像特徴量が類似しているほど異なるノード同士が類似しているものとして評価して、異なるノード間にエッジを設けるか否かを決定することによって行われ、
前記ノード同士の類似を評価することはさらに、
ノードとされる対象領域のペアについて、当該対象領域のペアが映像における同一時刻のフレームに属しており、且つ、当該対象領域のペアの当該同一時刻フレーム内での空間位置が近いと判定される場合にのみ、
当該対象領域のペアについて画像特徴量がより類似しているほど当該ノードのペアがより類似しているものとして追加で評価することを特徴とする前景抽出装置。
【請求項4】
前記グラフのコストは、ノード同士が類似していると判定されるノード群について、前景または背景を区別するラベル付与結果がより似ているほどより小さいものとして評価されることを特徴とする請求項に記載の前景抽出装置。
【請求項5】
前記第1手法はインスタンスセグメンテーションまたはセマンティックセグメンテーションであり、前記第2手法はスーパーピクセルセグメンテーションであることを特徴とする請求項1ないしのいずれかに記載の前景抽出装置。
【請求項6】
前記前景候補領域を修正した対象領域を求めることは、前記細分化された領域分割結果の各領域について、前記前景候補領域との重複の有無を判定し、重複している場合に当該細分化された領域が修正した対象領域に属し、重複していない場合に当該細分化された領域が修正した対象領域に属していないものとして行われることを特徴とする請求項1ないしのいずれかに記載の前景抽出装置。
【請求項7】
コンピュータを請求項1ないしのいずれかに記載の前景抽出装置として機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像から前景を抽出する前景抽出装置及びプログラムに関する。
【背景技術】
【0002】
映像から人物などの前景物体領域を抽出する技術(前景抽出技術)は、人物追跡、物体認識、3次元空間再構成などの映像処理アプリケーションの要素技術として広く用いられている。これまで多くの前景抽出技術が提案されているが、その中でも最新の技術である非特許文献1では、セマンティックセグメンテーションなどの領域分割(抽出)技術とグラフ構造に基づく機械学習を利用した高精度な前景抽出技術を提案している。
【0003】
図1は、この既存手法による前景抽出技術の説明図であり、当該技術において扱われる各データD1~D5と、これらデータに対して適用される各処理P1~P4の関係を模式的に示している。
【0004】
前景抽出対象の入力映像データD1の一部(またはすべて)において、セグメンテーション(処理P1)結果の分割後の各画像領域(セグメント)D2から画素値のヒストグラムや最大値などを特徴量ベクトルとして算出(処理P2)する。それを複数のフレームに対して行った結果得られる特徴量ベクトル群に対して、それぞれのベクトル間の距離を指標として、各セグメントがノードに対応するグラフD3を構築(グラフD3を構築する処理P3のうち一部P31)する。加えて、正解ラベルデータ(正解の前景領域を含む2値画像)があらかじめ付与されている異なる映像D4から一定数のフレームを選択し、上記同様にセグメントから得られるノードをグラフD3に追加(グラフD3を構築する処理P3の残りの一部P32)する。
【0005】
ここで、グラフD3を構築する処理P3は、図1中の説明欄にも示されるように、未定ラベルのノードを構築する処理P31及び正解ラベルのノードを構築する処理P32で構成される。正解ラベルに関する処理P32では、正解ラベルデータが付与された映像D4に対応するノードについて、正解の前景領域と各セグメントを比較することで、当該セグメントについて前景(または背景)の判定を行い、正解ラベルとしての前景/背景ラベルを付与してノード構築する。一方、未定ラベルに関する処理P31では、対応する正解データがない、入力映像D1のフレームに含まれるセグメントに関して、ラベル未定としてノード構築する。(図1では未定ラベルとなるノードを白色ノード、正解ラベルが付与されたノードをグレー色としてグラフD3を模式的に示している。)
【0006】
次に、前記グラフD3からノードの一部(またはすべて)をサンプリングし、グラフ構造に基づく補間処理(半教師あり学習)によって未定のラベルを決定(処理P4)する。このとき、補間処理によって決定されるのはセグメントごとの前景/背景のラベルのみであり、それぞれのセグメントの画素値(領域のサイズなど)は変更しないことに注意されたい。これらの処理を、抽出対象とする映像データD1すべてに対して実行することで高精度な前景抽出結果D5を得るようにしている。
【先行技術文献】
【非特許文献】
【0007】
【文献】J. H. Giraldo, S. Javed and T. Bouwmans, "Graph Moving Object Segmentation," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
【文献】R.Achanta, A.Shaji, K.Smith, A.Lucchi, P.Fua, and S.Susstrunk, "SLIC superpixels compared to state-of-the-art superpixel methods", IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011.
【発明の概要】
【発明が解決しようとする課題】
【0008】
前記既存手法では処理P1として様々なセグメンテーション手法を利用することができるが、画面全体を細かく分割した場合はセグメントの数ひいてはノードの数が爆発的に増えるため、グラフ構造に基づく補間処理P4の計算量が膨大になる。そのため、非特許文献1では主にMask-RCNNといった大まかな物体認識および抽出を行うインスタンスセグメンテーション(またはセマンティックセグメンテーション)を利用している。従って、得られる前景抽出結果D5も大まかなものとなってしまう。
【0009】
ここで、前景抽出結果D5を精密化するためには処理P1のセグメンテーションを大まかなものではなく過分割とすることが考えられるが、当該過分割したとする場合の計算量を抑える方策は非特許文献1では検討されていない。
【0010】
以上の議論から、非特許文献1の既存手法には、次のような点(1)~(3)で改良の余地が残っている。
【0011】
(1) 最終的な前景抽出結果D5はセグメンテーションの結果D2に強く依存するため、インスタンスセグメンテーションP1において抽出されなかった領域は最終的な出力D5においても抽出できない。すなわち、処理の対象とならずフレーム毎に前景領域が消失することがある。
【0012】
(2) 同様に、インスタンスセグメンテーションP1のように物体境界を粗く抽出するセグメンテーションを用いた場合、最終的な出力D5においても物体境界は正確に抽出されない。
【0013】
(3) 上記2点を解決するために、画像全体を細かく分割するセグメンテーション(過分割)を用いたとすると、グラフD3のノード数が爆発的に増えるため、半教師あり学習の処理P4の際に膨大な計算量を要する。
【0014】
上記従来技術の課題に鑑み、本発明は、グラフ構造に基づく映像からの前景抽出を効率的に行うことのできる前景抽出装置及びプログラムを提供することを第1の目的とする。また、当該第1の目的を達成する前景抽出装置の一部分のみを備える新規な構成により、入力画像から簡素かつ効率的に前景抽出を行うことができる前景抽出装置及びプログラムを提供することを第2の目的とする。
【課題を解決するための手段】
【0015】
上記第1の目的を達成するため、本発明は、前景または背景の区別が付与されていない第1映像と、当該区別が付与された第2画像群と、を入力として、第1映像の各フレームにおける前景を抽出する前景抽出装置であって、前記第1映像及び前記第2画像群の各画像に対して、第1手法を適用することで前景候補領域を抽出し、前記前景候補領域と、対応する画像に対して前記第1手法よりも細分化された領域分割を実現する第2手法を適用した領域分割結果と、を照合して、前記前景候補領域を修正した対象領域を求め、対象領域の各々をノードとし、各ノードが前記第2画像群に起因する場合に前景または背景の区別をラベルとして付与したグラフを構築し、前記グラフのコストを最小化する ように、前記グラフの各ノードのうち前記第1映像に起因するノードに対して前景または背景の区別をラベルとして推定することで、前記第1映像の各フレームにおける前景抽出結果を得ることを第1の特徴とする。
【0016】
また、上記第2の目的を達成するため、本発明は、入力画像における前景を抽出する前景抽出装置であって、前記入力画像に対して第1手法を適用することで前景候補領域を抽出し、前記前景候補領域と、前記入力画像に対して前記第1手法よりも細分化された領域分割を実現する第2手法を適用した領域分割結果と、を照合して、前記前景候補領域を修正した対象領域として、前記入力画像における前景を抽出することを第2の特徴とする。また、コンピュータを前記前景抽出装置として機能させるプログラムであることを特徴とする。
【発明の効果】
【0017】
前記第1の特徴によれば、セグメンテーション手法としての第1手法と第2手法を併用して、領域抽出の個数を抑制したうえで且つ適切な領域形状として抽出することにより、グラフ構造に基づく映像からの前景抽出を効率的に行うことができる。前記第2の特徴によれば、セグメンテーション手法としての第1手法と第2手法を併用して、画像から簡素且つ効率的に前景抽出を行うことができる。
【図面の簡単な説明】
【0018】
図1】既存手法による前景抽出技術の説明図である。
図2】一実施形態に係る前景抽出装置の機能ブロック図である。
図3】映像上において前景抽出が不正確となっている例を示す図である。
図4】和集合として前景候補領域を求める例を示す図である。
図5】多重分割部での処理の模式例を示す図である。
図6図2の構成の一部のみを備える、別の一実施形態に係る前景抽出装置の機能ブロック図である。
図7】一般的なコンピュータにおけるハードウェア構成を示す図である。
【発明を実施するための形態】
【0019】
図2は、一実施形態に係る前景抽出装置10の機能ブロック図である。前景抽出装置10は、映像入力部1、背景画像生成部2、前景候補領域決定部3、多重分割部4、特徴量抽出部5、グラフ構築部6、ラベル推定部7、映像出力部8及び正解DB(データベース)9を備える。
【0020】
前景抽出装置10は、その全体的な動作として図1の既存手法を踏襲しつつ、既存手法に対して改良された手法により効率的な前景抽出を行うことができる。すなわち、前景抽出装置10は既存手法と同様の枠組みとして、映像入力部1において前景抽出の対象となる入力映像(正解ラベルなし)を第1入力として読み込み、正解DB9に予め用意しておく前景/背景の区別が付与された映像(正解ラベルあり)を第2入力として読み込み、これら第1入力及び第2入力からグラフ構築を行って半教師あり学習を行うことにより、第1入力の前景抽出結果を映像出力部8において出力する。(すなわち、これら第1入力、第2入力及び出力は、図1に示したデータD1,D4,D5にそれぞれ対応するものである。)
【0021】
以下、前景抽出装置10の各機能部の処理の詳細について説明する。
【0022】
<<映像入力部1>>
映像入力部1では、ユーザ等によって準備される前景抽出対象の映像を入力として受け取り、この入力映像を背景画像生成部2及び前景候補領域決定部3へと出力する。すなわち、抽出対象とする映像の連続するフレームIt(t=1,2,…)を前景抽出装置10における入力(第1入力)として受け取り、背景画像生成部2及び前景候補領域決定部3に出力する。
【0023】
なお、以後、特に断りがない限り映像フレーム(画像)は輝度などの1チャネルのみをもつものとして記述するが、カラー画像などの複数のチャネルをもつ場合は「各チャネルの最終的な出力(画像領域ごとの前景/背景ラベル)の多数決により対応する画像領域のラベルを決定する」、「複数の中から1チャネル(Greenチャネルなど)を入力として用いる、もしくは平均値などの代表値を入力として用いる」ことで、同様に色チャネルごとに処理を行うことでカラー画像にも適用可能である。
【0024】
<<正解DB9>>
正解DB9は、映像入力部1に入力された映像とは異なる映像と、当該映像に対応する事前に準備された前景である画像領域が示されたデータ(すなわち、当該映像の各フレームにおける正解ラベルとしての前景領域データ)と、を前景抽出装置10における入力(第2入力)として保持する。当該第2入力のデータはユーザ等が予め準備しておき、正解DB9に記録しておく。ここで、映像データ(複数の画像フレーム)とそれに対応する正解ラベルデータ(対応するフレームの2値画像)は組で保持される。また正解ラベルデータの2値画像については、例えば人物領域などの前景と思われる画像領域にのみ1の値が付与され、それ以外の背景領域については0の値が付与されているような画像を想定する。
【0025】
正解DB9に記録されているデータは、映像に関して背景画像生成部2及び前景候補領域決定部3へ出力され、当該映像に対応する正解ラベルデータに関してグラフ構築部6へ出力され、当該出力された各部において利用される。
【0026】
<<背景画像生成部2>>
背景画像生成部2は、映像入力部1から得た映像と正解DB9から得た映像とのそれぞれを入力として、当該各映像における背景画像を生成し、特徴量抽出部5へと出力する。具体的には、例えば非特許文献1のように、ある一つの映像を入力として、連続する複数のフレームにおける各画素の中央値や平均値を取ることにより、背景画像を生成することができる。
【0027】
なお、本実施形態は背景画像に関して次のように構成される場合を想定する。映像入力部1の第1入力としての映像は、単一のシーンで構成され単一の背景画像が対応するものとして、背景画像生成部2において背景画像を生成する。(シーンが異なる映像の前景抽出結果を得たい場合は、シーンごとに映像を区切って、共通のシーンで構成される映像を第1入力部1へと入力し、前景抽出装置10全体の動作を共通シーン映像ごとに複数回行うようにすればよい。)一方で、映像内容によっては、単一のシーンで構成される第1入力の映像について、映像内の区間ごとに異なる背景画像を背景画像生成部2において生成してもよい。例えば、第1入力の映像が長尺となる場合、照明の変化などを吸収するために、抽出対象映像の近傍の一定区間の時刻の平均値をとるなどして複数の背景画像を生成してもよい。あるいは、長尺の映像の場合は、短尺の映像に分割してそれぞれの小区間の映像につき一つの背景画像を生成してもよい。
【0028】
また、正解DB9に用意しておく第2入力の映像は、半教師あり学習のための適切なグラフを構築する観点から、多様なシーンで構成され多様な背景画像が対応するものとして、背景画像生成部2において背景画像を生成する。予めマニュアル作業で第2入力の映像の全部または一部について背景画像も用意されている場合には、背景画像生成部2における背景画像の自動生成を省略して、当該用意されている背景画像を用いてもよい。
【0029】
<<前景候補領域決定部3>>
前景候補領域決定部3では、映像入力部1から得た映像と正解DB9から得た映像を入力として、当該各映像の各フレームに対して、前景抽出の候補となる領域(前景候補領域)を決定し、当該決定した前景候補領域を多重分割部4へと出力する。(なお、図2の構成にも示されているように、以降のグラフ構築部6までの処理においては、正解ラベルデータは利用されない。)具体的に、前景候補領域は以下のように決定することができる。
【0030】
まず、抽出対象の映像のある時刻tのフレームItに対して、Mask-RCNNのようなインスタンスセグメンテーション(またはセマンティックセグメンテーション)により前景物体と認識された画像領域(または当該領域を含むバウンディングボックス(矩形形状の囲み枠))をIS(インスタンスセグメンテーション(またはセマンティックセグメンテーション))領域It sとし、このIS領域It sに対応する画素インデックスの集合をΘ(It s)とする。なお、IS領域It sは時刻tのフレームにおいて抽出されたすべての領域(独立した複数の領域)を包含することに注意されたい。
【0031】
なお、以後でも上記と同様の関数表記を以下のように用いる。
Θ(・) …入力変数の画像領域に対応する画素インデックスの集合を返す関数
Θx -1(・) …画素インデックスの集合を入力とし、画像xの画像領域を返す関数
【0032】
この画素インデックスの集合Θ(It s)(IS領域It sの情報と同一)を得た時点ですべての前景物体が精度よく抽出されていることが望ましいが、インスタンスセグメンテーションの学習データの不足や対象映像のノイズなどにより、抽出されるべき候補領域が実際には抽出できないことがある。すなわち、本来の前景物体が領域として抽出されているが、その境界に過不足があって物体領域が正確でないことや、前景物体として抽出されるべき領域がそもそも全く抽出されていない(完全に背景のみとして抽出されている)場合や、この逆に、背景であるべき箇所が前景として抽出されていることがありうる。
【0033】
図3に、当該抽出が不正確となっている例を示す。映像上で時刻が連続するフレームI1,I2,I3の抽出結果I1 S,I2 S,I3 Sに関して、2枚のフレームI1及びI3では前景物体(例として車)が抽出できているが、その境界が不正確な状況にある。一方で、その真ん中のフレームI2については、映像上で連続している両隣の2枚のフレームI1及びI3での抽出結果と類似する抽出結果が本来であれば得られるべきであるが、全く前景領域を抽出できていない状況にある。(なお、図3の例では画像上の白色領域を前景、黒色領域を背景として抽出結果を示している。)
【0034】
これを解消するために、前景候補領域決定部3では各フレームItのIS領域It sに対してさらに次の処理を行ったものを前景候補領域の結果ftとする。
【0035】
すなわち、時刻tのフレームItの前後λフレームIt-λ,It-λ+1,…,It,…,It+λ-1,It+λ(λを所定数として、フレームItの前のλ枚のフレームとフレームItの後のλ枚のフレームとを加えた、フレームIt周辺の2λ+1枚のフレーム)における抽出結果を利用して、当該時刻の前景候補領域として出力する画素インデックス集合を算出する。具体的には、次の式(1)のように、前後λフレームのIS領域に対応する画素インデックスの和集合を対象フレームの前景候補領域ftとして出力採用する。
【0036】
【数1】
【0037】
なお、ftは時刻tのフレーム内の前景候補領域すべてを示し、複数の独立した前景候補領域を含む可能性がある。以後、これら独立した画像領域(またはそれを含むバウンディングボックス)をft,i(i∈{1,…,N})とする。(すなわち、ft={ft,i|i∈{1,…,N}}(ここで、Nは当該独立した画像領域(要素領域)の個数)であり、領域ft,iの各々が他の領域ft,j (j≠i)と重複しない連結領域である。)
【0038】
図4は、式(1)により和集合として前景候補領域を求める例を示す図であり、図3と同様の状況で得られている映像上で時刻が連続するフレームI1,I2,I3の抽出結果I1 S,I2 S,I3 Sに関して、真ん中の抽出結果I2 Sについてλ=1として、前後1フレームずつの抽出結果I1 S,I3 Sも加えた和集合∪(I1 S,I2 S,I3 S)として前景候補領域f2を得ている。抽出結果I2 Sでは前景が全く存在しなかったのに対し、和集合を取った前景候補領域f2では前景が存在する状態となっている。
【0039】
前景オブジェクトが動いている場合、実際の時刻tの画像It内の前景オブジェクトと前述の通り求めた前景候補領域ftとの間には、空間的な位置ずれが発生することが考えられる。しかしながら、後段の多重分割部4において、画像Itを過分割した結果も利用することで実際の時刻tの画像内容に沿った前景抽出が可能となることが期待されるため、前景抽出の精度に大きな影響は及ぼさないことを想定している。
【0040】
変形例として、空間的な位置ずれを可能な限り解決する方法として、式(1)内の和集合を取る要素としてΘ(It+k s)を利用する代わりに、それぞれの画像における空間移動量をオプティカルフロー等を用いて推定し、前後λ枚のそれぞれの画像It+kの画素位置を時刻tへとシフトすることで、時刻tのフレームIt内の前景オブジェクト位置を模擬したΘ(I't+k s)を利用してもよい。(ここで、領域I't+k sは領域It+k sに時刻t+k,t間のオプティカルフロー分の移動を適用して、時刻t+kの領域It+k sを時刻tに相当する位置へと移動したものである。なお、オプティカルフローは画素単位で適用してもよいし、画像範囲を分割したブロック単位で適用してもよいし、画像範囲全体での平均値を適用してもよい。)
【0041】
なお、正解DB9内の第2入力としての映像が連続するフレームによって構成されない場合(すなわち、独立した画像群(複数の個別の静止画)によってのみ構成される場合)は、映像としての近接時刻フレーム画像間での空間的な相関が存在しないため、前景候補領域決定部3では正解DB9内の各画像について、Mask-RCNNのようなインスタンスセグメンテーションの出力結果を単純に前景候補領域として出力すればよい。第1入力及び第2入力の両方が映像として構成される場合、当該両方について空間相関を考慮して上記オプティカルフローの手法を利用(Θ(It+k s)に代えてΘ(I't+k s)の利用)し、第2入力が映像ではなく個別の静止画で構成される場合、第2入力についてはインスタンスセグメンテーションの結果を単純に前景候補領域としてもよい。
【0042】
<<多重分割部4>>
多重分割部4では、前景候補領域決定部3の出力である各フレームItの前景候補領域ftに対して、複数のセグメンテーション技術を適用することによって得られたセグメントを多重化することによって、後段の特徴量抽出部5における、画像特徴量抽出に利用される画像領域を決定する。(なお、図2のデータ処理の流れにも示されるように、前景候補領域決定部3及び多重分割部4の処理は第1入力の正解ラベルなしの映像と、第2入力の正解ありの映像(及び/又は静止画像群)との両方に適用される。これにより、後段側のグラフ構築部6におけるグラフ構築での画像領域の分布を、第1入力と第2入力とで近いものにする効果が期待される。一方で、第2入力の正解ラベルとして付与されている前景領域が、第2入力について多重分割部4で得る画像領域(第1入力の場合には前景領域の候補に相当)と違っていることもありうる。第2入力について多重分割部4で得られた画像領域のうち、第2入力の正解ラベルでも大部分が前景となる領域はグラフ構築の際に前景ラベルが付与され、第2入力の正解ラベルでは大部分が背景となる領域はグラフ構築の際に背景ラベルが付与されることとなる。)
【0043】
多重分割部4では具体的には、前景候補領域決定部3にて得られた領域ft,i(前景候補領域ftの構成要素としての各々の独立領域)を含む矩形画像に対して、前景候補領域決定部3にて利用されたセグメンテーションとは異なるセグメンテーション技術を用いて領域分割を行う。一例として、非特許文献2にて開示されているSLIC (Simple Linear Iterative Clustering)などのスーパーピクセルセグメンテーションを利用して、矩形画像を小領域(SS領域)に分割する。この操作により、分割されたそれぞれのセグメントはオブジェクトや背景画像を過分割したものとなり、ひとつのSS領域のみで前景オブジェクトを表すことはできなくなるが、一方でオブジェクト境界にて正確に分割された領域群を得ることが期待される。(すなわち、分割対象となる矩形画像は1個の前景オブジェクトの候補として1個のみの個別領域ft,iを包含することにより個別領域ft,iと同程度の大きさであるため、当該同程度の大きさの矩形画像をスーパーピクセルセグメンテーションにより分割した複数の小領域(SS領域)は自ずと、前景オブジェクトの領域をさらに細分化した状態として得られるものとなる。なお、スーパーピクセルセグメンテーションは領域分割であって、得られる複数の小領域(SS領域)には、領域の区別の情報が含まれるが、前景/背景の区別の情報は含まれない。)
【0044】
次に、前景オブジェクトの概形を表す前景候補領域ftの各要素領域ft,iとSS領域群st,j(j∈{1,…,M})(Mは当該SS領域の個数)を比較し、次の式(2),(3)の通りv∈{1,…V}番目の特徴量抽出対象の領域Iv(特徴量抽出対象領域)を決定する。(なお、大文字Vは当該決定された領域Ivの個数であり、当該「領域Iv」等の記載における小文字vは全て(V個)の前景抽出対象フレームにおける特徴量抽出対象領域の通しインデックスであり、特に時刻tフレームの特徴量抽出対象領域を示す場合はIv tとすることに注意されたい。また同様に、以上では入力画像の時刻tのフレームをItとしていたが、この領域IvやIv tと(用いる添え字t,Vの区別以外でも)より明確に区別すべく、フレームItに関して以降では上付き添え字でフレームItとして表記する。)式(3)の1行目に該当する、要素領域ft,iに重複しないようなSS領域st,jについては領域Ivの構成要素とせず、要素領域ft,iに重複するSS領域st,jについては領域Ivの構成要素とすることで、要素領域ft,iの各々について、境界部でSS領域st,jと部分的に重複している箇所(st,j∩ft,i)について、当該SS領域st,jが重複していない残りの部分(st,j\ft,i、ここで「\」は差集合)を追加したものとして、領域Iv tを得ることができる。(すなわち一般に、前景候補領域ftを拡張することで修正したものとして、領域Iv tを得ることができる。)
【0045】
【数2】
【0046】
式(2),(3)において、i∈{1,2,…,N}であり、このインデクスiは、時刻tのフレームを固定したうえで、当該フレーム内における合計N個(N=N(t))の各々の要素領域ft,i及びこれを拡張して修正した領域Iiを表す。一方で、式(2)の「Iv t=Ii」は、ある時刻tのフレームに固定して用いられた領域Iiのインデクスiを、第1入力の映像全体(任意の時刻t)における領域Iv tのインデクスvに拡張したものである。(例えば第1入力が2フレームで構成され、時刻t=1のフレームに2領域i∈{1,2}が存在し、時刻t=2のフレームに3領域i∈{1,2,3}が存在する場合、この2フレーム映像全体での5領域のインデクスがv∈{1,2,3,4,5}等の形で得られることとなる。)一方、j∈{1,2,…,M}については既に説明した通り、ある時刻tのフレームのある要素領域ft,iに注目した際に、この要素領域ft,iの包含領域(バウンディングボックス等)をスーパーピクセルセグメンテーションにより分割した各SS領域st,jのインデクスである。(従って、その総数MについてM=M(t,i)となる。)
【0047】
図5に多重分割部4での処理の模式例を上段、中段及び下段側に分けて示す。上段側の前景候補領域ftについて、中段側に示すようにその各要素領域ft,iの各々(図5の例では、前景候補領域ftに要素領域ft,iが3個存在するうちの1つを例示している)が過分割の対象となり、その分割結果{st,j}が得られる。上記式(2),(3)により要素領域ft,iと分割結果のSS要素領域st,jとを照合し、要素領域ft,iに少なくとも一部が重複するSS要素領域st,jについては追加して要素領域ft,iの境界部において拡張が行われることにより、図5の下段側に例示する式(2)の特徴量抽出対象の領域Iv(=Iv t)が得られる。
【0048】
このように、多重分割部4で得る領域Iv tは、間違いを含むものの前景候補領域決定部3と多重分割部4により、可能な限り正解を包含するように処理されており(従って同様に、逆に、可能な限り正解を取りこぼすことがないように処理されており)、余分なものを含んでいる(しかし、境界だけは綺麗に分割されている)ことが想定されるものとなる。本実施形態の前景抽出装置10ではさらに、多重分割部4よりも後の処理により、この領域Iv tの中からグラフコスト最適化により不要な部分(背景と判定された領域Iv t)を取り除いたものとして、前景抽出結果を得ることができる。(なお、図6を参照して後述するように、図2の構成の前景抽出装置10の一部分として前景候補領域決定部3及び多重分割部4のみを抽出した構成により、図5に例示される手法で1枚の静止画のみから前景抽出を行うことも可能である。)
【0049】
その他、スーパーピクセルセグメンテーション以外の分割手法として、矩形グリッドで小領域に分割して、小領域ごとに前景/背景を判定したものを上記SS領域群st,jに代わるものとして利用する等の手法を用いてもよい。(上記の式(2),(3)の手法では、要素領域ft,iの境界部においてSS領域st,jが重複する場合に、重複していない部分の拡張のみが行われることで、要素領域ft,iから削られて削除される部分は存在しないが、小領域ごとに前景/背景を判定する場合、要素領域ft,iの境界部に位置する小領域においてこの判定結果に従って、背景となる場合は削除するようにしてもよい。)また、背景差分法などの「ノイズに弱いなどの欠点があるものの比較的物体境界を正確に表現可能である前景物体技術」によって得られた前景領域をSS領域として利用してもよい。
【0050】
上記のように、前景候補領域ftを構成する各独立領域ft,iといった限られた領域においてセグメンテーションによる再分割を行い、また、それらのうち特徴量抽出対象となるものを絞り込むことで、特徴量抽出対象領域の増加を抑えることが可能となり、ひいてはグラフ構築におけるノードの増加を抑える効果が期待できる。
【0051】
<<特徴量抽出部5>>
特徴量抽出部5では、多重分割部4で得た特徴量抽出の対象となる領域Ivの各々(及びこの領域Ivに対応するものとして背景画像生成部2で得られている背景画像)を入力として画像特徴量(特徴ベクトル)を抽出し、グラフ構築部6へと出力する。具体的には、v番目の特徴量抽出対象領域Iv tに対して、非特許文献1の手法に則り、次のように特徴量ベクトルを算出することができる。
【0052】
Bvを背景画像生成部2から出力された、抽出対象の領域Iv tに対応する背景画像領域(またはその矩形画像)とし、vx t(Θ(Iv t))およびvy t(Θ(Iv t))を、それぞれ水平方向(画像x軸方向)および垂直方向(画像y軸方向)のインデックスΘ(Iv t)に対応する、現在のフレームIt(⊃Iv t)のオプティカルフローベクトルとする。これらIv t、Iv t-1、Bv、|Iv t-Bv|、vx t(Θ(Iv t))およびvy t(Θ(Iv t))について、テクスチャパターン、強度ヒストグラム、最大値・最小値・標準偏差などの統計量、深層学習の隠れ層における特徴量などを算出、結合することでIv tに対応する特徴ベクトルxvを出力する。
【0053】
<<グラフ構築部6>>
グラフ構築部6は、特徴量抽出部5にて算出された特徴ベクトルxvを用いて、v番目の特徴量抽出対象領域に対応するノードをもつグラフを構築し、ラベル推定部7へと出力する。具体的にはまず、2つの特徴量抽出対象領域間(ノード間)の類似度距離d(i,j)(通常の距離とは逆に、類似度が高いほど大きくなる距離であって、当該距離が大きいほどより類似していることを表し、エッジ重みd(i,j)に相当する)を次の式(4),(5),(6)のとおり算出する。
【0054】
【数3】
【0055】
ここで、g(Ii)は当該特徴量抽出対象領域Iiの重心座標(もしくは類する画像座標の代表値)をベクトルとして返す関数であり、σx、σgはそれぞれxiおよびg(Ii)に対応する標準偏差である。dg(i,j)は特徴量抽出対象領域IiおよびIjが同一のフレーム(ある1つのフレームIt)に含まれる時、且つ、一定距離内に含まれる場合(当該共通の1フレームIt内に存在する当該2つの領域IiおよびIjの空間的な距離が一定距離β内である場合)にのみ、領域間の類似度を高める働きをする。また、αは特徴量抽出対象領域の特徴ベクトルの類似性と、画像平面上での空間的な距離とのバランスを調整するユーザ設定の変数である。この類似度の距離指標d(i,j)を用いて、K近傍法により最近傍ノード(最類似ノード)からK番目のノードまでを近接ノード(類似ノード)として接続する。この際、K番目までの近傍に含まれていてもある閾値以上の類似度距離をもつものを接続しない方法をとってもよい。その他、既存の類似度(距離)指標に基づくグラフ構築を広く利用可能である。
【0056】
本実施形態では特に、式(4)のdg(i,j)の項の導入により、画像平面上において近い距離にある特徴量抽出対象領域を近接ノードとして接続することが可能となり、後段のラベル推定部の処理によって過分割された複数の特徴量抽出対象領域をまとめて前景として抽出することが可能となる。
【0057】
グラフ構築部6では、以上のようにして異なるノードi,j間の距離d(i,j)を定めることでノードi,j間にエッジを設けるか否か(ノードi,jが隣接するか否か)を決定し、且つ、エッジが設けられたノードi,j間ではその類似度距離d(i,j)(類似度が高いほど大きい)をエッジ重みd(i,j)としてグラフを定め、且つ、グラフの各ノードについて、映像入力部1の第1入力の映像に該当するノードである場合はラベル(前景/背景の区別を表すラベル)を付与せず、正解DB9の第2入力の映像に該当するノードである場合はラベルを付与して、当該グラフをラベル推定部7へと出力する。なお、正解DB9の第2入力の映像に該当するノードvである場合、当該ノードvに対応する特徴量xvが抽出される対象となった領域Ivにおける前景/背景の区別状況に応じて前景/背景である旨のラベルを付与すればよい。領域Ivが背景のみで構成される場合には、当該ノードvは背景である旨のラベルを付与すればよい。
【0058】
すなわち、グラフ構築部6にて構築されたグラフのノードの一部は正解DB9の映像から算出されたものであり、正解ラベルデータをもつ。ラベル付与に関して、正解ラベルデータ(前景に1が、背景に0が付与された2値画像)とそれに対応する時刻の映像の特徴量抽出対象領域Iv(ノードvに対応)を比較し、当該領域Ivが前景にあたるかどうかを判定した結果をノードvの前景判定結果とし、グラフにおける正解ラベルとする。具体的には、正解ラベルデータとIvの画素インデックスの積集合を算出し、その画素数をIvの画素数で正規化した値ξvや、同積集合の画素数を正解ラベルデータとIvの画素インデックスの和集合の画素数で割った値μv(Intersection over union)などを用いて、正解ラベルデータとの重複度合いを判定し、閾値以上の重複度をもつIvについては、対応するノードに前景ラベルを割り当て、閾値未満の重複度をもつIvについては、対応するノードに背景ラベルを割り当てる。
【0059】
<<ラベル推定部7>>
ラベル推定部7では、グラフ構築部6で得たグラフのうち、映像入力部1の映像入力に起因するノードはラベルが未付与の状態であるため、非特許文献1に則りグラフのノードごとに前景背景のラベルを推定し、映像出力部8へと出力する。すなわち、グラフ構築部6で得た、一部のノードにラベルが割り当てられたグラフについて、その一部(またはすべて)を用いて、半教師あり学習によって次の式(7)のようにラベル未定のノード(Iv)のラベルを推定する。
【0060】
【数4】
【0061】
ここで、zはすべてのノードに対応するラベルをもつ変数であり、yは正解ラベルデータをもつノードを示すベクトルであり、y(x)はyの中から一部(または全部)のノードを抽出する関数である。xは、(多くの場合ランダムに)ノードを選択するためのインデックス集合であり(学習の際の利用サンプル指定等において一般的に行われるように、)別操作によって決定され、ユーザ入力なども想定する。すなわち、すでに確定している定数yというベクトルから引数xによって指定されたインデックスに対応する値を抽出しベクトルとして返す、「yによって変わる関数f_y(x)」を「y(x)」として簡潔に表記する。また、Mはすべてのノードからy(x)に対応するノードを抽出する行列である。(すなわち、式(7)の制約式「s.t.(such that~;~を満たす) Mz=y(x)」は、変数zにおいて正解ラベルを固定することを表す。)
【0062】
加えて、||z||TVはグラフ構造に基づき定義されるTotal variation(全変動、正則化項、コスト項の一種)であり、式(7)により正解ラベルを固定したうえで未定ラベルを変動させて当該コスト項が最小化されるような結果を未定ラベルに対する前景/背景の推定結果として求める。なお、Total variation以外にもSobolev Norm(ソボレフノルム)など他のノルムを用いてもよい。また、Mおよびy(x)はグラフ上の一部のノードを抽出するのではなくすべてのノードを抽出するように設計してもよい。この最適化問題(近接ノード群(当該ノード群に属する任意の2つの領域(ノード)IiとIjの距離d(i,j)(類似度距離ではない通常の距離)が小さい(すなわち、類似度(または類似度距離)が大きく、エッジ重みd(i,j)が大きい)と判定される2つ以上のノード群)ではラベル付与結果が似ている(当該ノード群内のノードのラベル付与結果の同一割合が高い)ほどコストが下がる)を解くことですべてのノードのラベルデータを推定することができる。ここで、ラベル推定は入力映像(第1入力としての映像入力部1から得た映像)すべてのフレーム対して同時に行われ、フレームごとの処理ではないことに注意されたい。
【0063】
ここで、半教師あり学習において一般的に行われているように、式(7)においてノード選択インデクスx等の設定により、例えば1回目は第1入力の半分をラベル推定し、これを正解に追加して2回目は第1入力の残りの半分をラベル推定する等の手順を取ってもよい。一部のデータに対してラベル分類を行い、それを教師データとして利用するといった処理を繰り返すことで、ラベル未定の全部のデータについて一括でラベル推定する場合よりも少量のデータを少しずつ推定していくことで誤りを可能な限り抑えながら推定する効果が期待できる。
【0064】
<<映像出力部8>>
映像出力部8では、ラベル推定部7において前記最適化式から推定されたすべてのノードに対応するラベルデータから、前景領域を画像として出力する。例えば、前記推定ラベルデータから前景とラベル付されたノードに対応する画像領域Ivについて、前景として判別される1として画素値を割り当て、背景のラベルが付与されたノードに対応する画像領域については0を割り当てる。それらを入力映像(映像入力部1の第1入力の映像)のすべてのフレームに対して行うことによって、前景抽出装置10における最終的な結果として、前景抽出の結果を得る。こうして、本実施形態では、第1入力の映像の各フレームについて複数の画像領域Ivを多重分割部4において(前景候補として)得て、この各々の画像領域Ivについてグラフ上のノードとしてラベルを推定することで、実際に前景であったか否かという形で前景抽出結果を得ることができる。換言すれば、第1入力の映像の各フレームについて多重分割部4において得た複数の画像領域Ivの全てうち、グラフ上のノードとして背景ではなく前景としてラベル付与された一部分のみが、前景抽出結果10における前景抽出結果となる。
【0065】
以上、本発明の実施形態によれば、インスタンスセグメンテーションとグラフ構造を組み合わせた前景抽出技術の問題点である、(A)「フレーム毎の前景領域の消失」や(B)「境界の不正確さ」を解決した高精度な前景抽出が可能となる。(A)について、図4に例示したように、前景候補領域決定部3において複数フレームの利用による前景対象領域の抽出で対処することができる。(B)について、図5に例示したように、多重分割部4(及び前景候補領域決定部3)においてセグメンテーション手法の組み合わせによる抽出領域境界の高精度化で対処することができる。
【0066】
本発明の実施形態の前景抽出装置10では、以上の問題点を解消した高精度な前景抽出により、自由視点映像などの前景物体の三次元復元や、物体認識・追跡などのアプリケーションにおける精度向上が期待できる。
【0067】
以下、種々の補足例、追加例、代替例などについて説明する。
【0068】
(1) 本発明の前景抽出技術は、要素技術として様々な用途に適用可能であり、例えば、ユーザの動作に連動して動くアバタの動作抽出や、スポーツ選手の動作の様子を自由視点映像として生成する際に利用可能である。これらは、例えば、アバタを用いた遠隔コミュニケーションや、スポーツ映像を自由視点映像として臨場感を持って遠隔配信することに利用可能であるため、コミュニケーションやスポーツ観戦等のために現地へとユーザが移動することを必須とせず、ユーザ移動に必要となるエネルギー資源を節約することで二酸化炭素排出量を抑制できることから、国連が主導する持続可能な開発目標(SDGs)の目標13「気候変動とその影響に立ち向かうため、緊急対策を取る」に貢献することが可能となる。
【0069】
(2) 図2の構成の前景抽出装置10は、非特許文献1の枠組みに即したものとして、前景/背景の正解ラベルが未付与の第1入力の映像と、正解ラベルを付与した第2入力の映像と、を用いて第1入力に対するラベル付与結果を前景抽出結果として得るものであった。別の一実施形態として、この図2の前景抽出装置10から一部分のみを抜粋した構成として、図6に示されるように前景抽出装置10が前景候補領域決定部3及び多重分割部4のみを備える構成で、1枚のみの静止画入力から、その前景抽出結果を得るようにすることも可能である。図6の構成では、図5に例示して説明したように、前景候補領域決定部3が正しく前景候補領域を抽出している前提(抽出されたある1つの前景候補領域の全体または大部分が、実際の正解は前景ではなく背景であったいう形での間違いが発生していない前提)で、この前景候補領域の境界が必ずしも正確でない場合に、多重分割部4の処理によって、境界をより正確にしたものとして、各領域Iv(入力の静止画の前景抽出結果)を得ることができる。
【0070】
(3) 図7は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。前景抽出装置10は、このような構成を有する1台以上のコンピュータ装置70として実現可能である。なお、2台以上のコンピュータ装置70で前景抽出装置10を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU(グラフィックス演算装置)72、CPU71(及びGPU72)にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、カメラ78と、これらの間でデータを授受するためのバスBSと、を備える。
【0071】
前景抽出装置10の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置(プロセッサ)の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。前景抽出装置10による処理結果等はディスプレイ76で表示して出力してよい。前景抽出装置10への入力として用いる映像の全部又は一部をカメラ78で撮影して得るようにしてもよい。
【符号の説明】
【0072】
10…前景抽出装置、1…映像入力部、2…背景画像生成部、3…前景候補領域決定部、4…多重分割部、5…特徴量抽出部、6…グラフ構築部、7…ラベル推定部、8…映像出力部、9…正解DB
図1
図2
図3
図4
図5
図6
図7