(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-11
(45)【発行日】2023-01-19
(54)【発明の名称】画像処理装置、サーバ、画像処理方法、姿勢推定方法、及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230112BHJP
【FI】
G06T7/00 660B
G06T7/00 350C
(21)【出願番号】P 2020026606
(22)【出願日】2020-02-19
【審査請求日】2021-12-20
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】酒澤 茂之
(72)【発明者】
【氏名】明堂 絵美
(72)【発明者】
【氏名】田坂 和之
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2019-158628(JP,A)
【文献】特開2019-71050(JP,A)
【文献】特開2019-62308(JP,A)
【文献】特開2011-35658(JP,A)
【文献】特開平9-138470(JP,A)
【文献】国際公開第2018/225061(WO,A1)
【文献】谷村朋樹, 外3名,“GANonymizer:物体検出と敵対的生成を用いた映像匿名化手法”,情報処理学会論文誌,第60巻, 第10号,日本,情報処理学会,2019年10月15日,p.1829-1844
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
秘匿対象の被写体を含む処理対象画像を取得する画像取得部と、
前記被写体に適用する秘匿化処理のパターンの選択を受け付ける選択受付部と、
画像に対してそれぞれが異なる秘匿化処理を実行するように学習された複数の異なる秘匿化モデルであって、複数の前記秘匿化処理のパターン毎に定められた秘匿化モデルを格納する秘匿化モデル記憶部から、前記選択受付部が受け付けた秘匿化処理のパターンに対応する秘匿化モデルを読み出す秘匿化モデル取得部と、
前記処理対象画像に対して前記秘匿化モデル取得部が読み出した秘匿化モデルを適用することにより、秘匿化画像を生成するモデル適用部と、
を備える画像処理装置。
【請求項2】
前記異なる秘匿化モデルそれぞれは、画像に対して異なる種類の秘匿化処理を実行する複数の異なる秘匿化サブモデルを共有しており、
前記モデル適用部は、複数の異なる秘匿化サブモデルの出力画像を、前記秘匿化処理のパターンに応じて定まる重み付け係数に基づいて重ね合わせた画像を前記秘匿化画像として出力する、
請求項1に記載の画像処理装置。
【請求項3】
前記複数の秘匿化サブモデルのそれぞれは、あらかじめ前記被写体に設定されたいずれかの部分領域か、又は前記被写体以外の領域として設定される背景領域か、の少なくとも一つの領域を秘匿化対象領域として学習されている、
請求項2に記載の画像処理装置。
【請求項4】
前記被写体は人物であり、
前記複数の秘匿化サブモデルのそれぞれは、(1)入力画像と当該入力画像に対して秘匿化サブモデルを適用して生成される出力画像との前記秘匿化対象領域における乖離度の大小を示す乖離度評価関数と、(2)前記複数の秘匿化サブモデルそれぞれを重ね合わせた前記秘匿化画像に含まれる人物の姿勢を推定するように学習された姿勢推定モデルの推定精度の高低を示す姿勢評価関数と、の2つの評価関数に基づいて、前記乖離度が大きくなり、かつ前記推定精度が高くなるように学習されている、
請求項3に記載の画像処理装置。
【請求項5】
前記乖離度評価関数は、入力画像と当該入力画像に対して秘匿化サブモデルを適用して生成される出力画像との前記秘匿化対象領域における乖離度である秘匿化対象領域乖離度の大小と、前記出力画像のうち前記秘匿化対象領域以外の領域における前記入力画像との乖離度である秘匿化対象外領域乖離度の大小と、を示すように構成されており、
前記複数の秘匿化サブモデルのそれぞれは、前記乖離度評価関数と前記姿勢評価関数とに基づいて、前記秘匿化対象領域乖離度が大きくなり、前記秘匿化対象外領域乖離度が小さくなり、かつ前記推定精度が高くなるように学習されており、
前記モデル適用部は、複数の異なる秘匿化サブモデルそれぞれの出力画像の画素値から各秘匿化サブモデルの秘匿化対象領域以外の領域の画素値を減じた画像を重ね合わせた画像を前記秘匿化画像として出力する、
請求項4に記載の画像処理装置。
【請求項6】
請求項4又は5に記載の画像処理装置が生成した秘匿化画像と、当該秘匿化画像に適用された秘匿化処理のパターンを示すパターン情報とを、通信ネットワークを介して取得する秘匿化画像取得部と、
画像に対してそれぞれが異なる鮮鋭化処理を実行するように学習された複数の異なる鮮鋭化モデルであって、複数の前記鮮鋭化処理のパターン毎に定められた鮮鋭化モデルを格納する鮮鋭化モデル記憶部から、前記パターン情報に対応する鮮鋭化モデルを読み出す鮮鋭化モデル取得部と、
前記秘匿化画像に対して前記鮮鋭化モデル取得部が読み出した鮮鋭化モデルを適用することにより、鮮鋭化画像を生成する鮮鋭化部と、
前記鮮鋭化画像に対して前記姿勢推定モデルを適用することにより、前記鮮鋭化画像に含まれる人物の姿勢を推定する姿勢推定部と、
を備えるサーバ。
【請求項7】
プロセッサが、
秘匿対象の被写体を含む処理対象画像を取得するステップと、
前記被写体に適用する秘匿化処理のパターンの選択を受け付けるステップと、
画像に対してそれぞれが異なる秘匿化処理を実行するように学習された複数の異なる秘匿化モデルであって、複数の前記秘匿化処理のパターン毎に定められた秘匿化モデルを格納する秘匿化モデル記憶部から、前記受け付けた秘匿化処理のパターンに対応する秘匿化モデルを読み出すステップと、
前記処理対象画像に対して前記読み出した秘匿化モデルを適用することにより、秘匿化画像を生成するステップと、
を実行する画像処理方法。
【請求項8】
コンピュータに、
秘匿対象の被写体を含む処理対象画像を取得する機能と、
前記被写体に適用する秘匿化処理のパターンの選択を受け付ける機能と、
画像に対してそれぞれが異なる秘匿化処理を実行するように学習された複数の異なる秘匿化モデルであって、複数の前記秘匿化処理のパターン毎に定められた秘匿化モデルを格納する秘匿化モデル記憶部から、前記受け付けた秘匿化処理のパターンに対応する秘匿化モデルを読み出す機能と、
前記処理対象画像に対して前記読み出した秘匿化モデルを適用することにより、秘匿化画像を生成する機能と、
を実現させるプログラム。
【請求項9】
請求項4又は5に記載の画像処理装置と通信ネットワークを介して接続するサーバのプロセッサが、
前記画像処理装置が生成した秘匿化画像と、当該秘匿化画像に適用された秘匿化処理のパターンを示すパターン情報とを、前記通信ネットワークを介して取得するステップと、
画像に対してそれぞれが異なる鮮鋭化処理を実行するように学習された複数の異なる鮮鋭化モデルであって、複数の前記鮮鋭化処理のパターン毎に定められた鮮鋭化モデルを格納する鮮鋭化モデル記憶部から、前記パターン情報に対応する鮮鋭化モデルを読み出すステップと、
前記秘匿化画像に対して前記読み出した鮮鋭化モデルを適用することにより、鮮鋭化画像を生成するステップと、
前記鮮鋭化画像に対して前記姿勢推定モデルを適用することにより、前記鮮鋭化画像に含まれる人物の姿勢を推定するステップと、
を実行する姿勢推定方法。
【請求項10】
請求項4又は5に記載の画像処理装置と通信ネットワークを介して接続するコンピュータに、
前記画像処理装置が生成した秘匿化画像と、当該秘匿化画像に適用された秘匿化処理のパターンを示すパターン情報とを、前記通信ネットワークを介して取得する機能と、
画像に対してそれぞれが異なる鮮鋭化処理を実行するように学習された複数の異なる鮮鋭化モデルであって、複数の前記鮮鋭化処理のパターン毎に定められた鮮鋭化モデルを格納する鮮鋭化モデル記憶部から、前記パターン情報に対応する鮮鋭化モデルを読み出す機能と、
前記秘匿化画像に対して前記読み出した鮮鋭化モデルを適用することにより、鮮鋭化画像を生成する機能と、
前記鮮鋭化画像に対して前記姿勢推定モデルを適用することにより、前記鮮鋭化画像に含まれる人物の姿勢を推定する機能と、
を実現させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、サーバ、画像処理方法、姿勢推定方法、及びプログラムに関する。
【背景技術】
【0002】
近年、ユーザが自身を被写体に含む画像をサーバに送信し、サーバにて画像認識処理を実行するサービスも実用化されつつある。例えば、ユーザが宅内でのヨガのポーズ指導を受けるために、スマートフォンで撮影した自身の映像をサーバに送信し、サーバがポーズ推定を行ったうえで結果をユーザに送信するサービスも検討されている。
【0003】
このようなサービスを実施するためには、ユーザがサーバに送信する画像からユーザの個人情報が漏洩することを防ぐことが求められる。例えば、非特許文献1には、ターゲットとなる姿勢推定と、プライバシー侵害推定とを両立させるような画像変換を学習によって求めるための技術が提案されている。
【先行技術文献】
【非特許文献】
【0004】
【文献】Haotao Wang, Zhenyu Wu, Zhangyang Wang, Zhaowen Wang, and Hailin Jin, “Privacy-Preserving Deep Visual Recognition: An Adversarial Learning Framework and A New Dataset” 2019年7月29日、[2020年1月30日検索]、インターネット<URL:https://arxiv.org/pdf/1906.05675.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記の技術における画像変換は一義的であり、どのような入力画像に対しても同じ処理が実行される。しかしながら、人のプライバシー上の懸念への感じ方には様々な要素があり、それらは人によって異なり、さらには同じ人でも時と場合によって変化しうる。このため、一律なプライバシーの秘匿化処理を施すだけでは必ずしもいつも画像の秘匿化を望むユーザの要望に応えられるとは限らない。
【0006】
本発明はこれらの点に鑑みてなされたものであり、画像の秘匿化のパターンをユーザの選択に応じて変更する技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の第1の態様は、画像処理装置である。この装置は、秘匿対象の被写体を含む処理対象画像を取得する画像取得部と、前記被写体に適用する秘匿化処理のパターンの選択を受け付ける選択受付部と、画像に対してそれぞれが異なる秘匿化処理を実行するように学習された複数の異なる秘匿化モデルであって、複数の前記秘匿化処理のパターン毎に定められた秘匿化モデルを格納する秘匿化モデル記憶部から、前記選択受付部が受け付けた秘匿化処理のパターンに対応する秘匿化モデルを読み出す秘匿化モデル取得部と、前記処理対象画像に対して前記秘匿化モデル取得部が読み出した秘匿化モデルを適用することにより、秘匿化画像を生成するモデル適用部と、を備える。
【0008】
前記異なる秘匿化モデルそれぞれは、画像に対して異なる種類の秘匿化処理を実行する複数の異なる秘匿化サブモデルを共有してもよく、前記モデル適用部は、複数の異なる秘匿化サブモデルの出力画像を、前記秘匿化処理のパターンに応じて定まる重み付け係数に基づいて重ね合わせた画像を前記秘匿化画像として出力してもよい。
【0009】
前記複数の秘匿化サブモデルのそれぞれは、あらかじめ前記被写体に設定されたいずれかの部分領域か、又は前記被写体以外の領域として設定される背景領域か、の少なくとも一つの領域を秘匿化対象領域として学習されていてもよい。
【0010】
前記被写体は人物であってもよく、前記複数の秘匿化サブモデルのそれぞれは、(1)入力画像と当該入力画像に対して秘匿化サブモデルを適用して生成される出力画像との前記秘匿化対象領域における乖離度の大小を示す乖離度評価関数と、(2)前記複数の秘匿化サブモデルそれぞれを重ね合わせた前記秘匿化画像に含まれる人物の姿勢を推定するように学習された姿勢推定モデルの推定精度の高低を示す姿勢評価関数と、の2つの評価関数に基づいて、前記乖離度が大きくなり、かつ前記推定精度が高くなるように学習されていてもよい。
【0011】
前記乖離度評価関数は、入力画像と当該入力画像に対して秘匿化サブモデルを適用して生成される出力画像との前記秘匿化対象領域における乖離度である秘匿化対象領域乖離度の大小と、前記出力画像のうち前記秘匿化対象領域以外の領域における前記入力画像との乖離度である秘匿化対象外領域乖離度の大小と、を示すように構成されていてもよく、前記複数の秘匿化サブモデルのそれぞれは、前記乖離度評価関数と前記姿勢評価関数とに基づいて、前記秘匿化対象領域乖離度が大きくなり、前記秘匿化対象外領域乖離度が小さくなり、かつ前記推定精度が高くなるように学習されていてもよく、前記モデル適用部は、複数の異なる秘匿化サブモデルそれぞれの出力画像の画素値から各秘匿化サブモデルの秘匿化対象領域以外の領域の画素値を減じた画像を重ね合わせた画像を前記秘匿化画像として出力してもよい。
【0012】
本発明の第2の態様は、サーバである。このサーバは、上述の画像処理装置が生成した秘匿化画像と、当該秘匿化画像に適用された秘匿化処理のパターンを示すパターン情報とを、通信ネットワークを介して取得する秘匿化画像取得部と、画像に対してそれぞれが異なる鮮鋭化処理を実行するように学習された複数の異なる鮮鋭化モデルであって、複数の前記鮮鋭化処理のパターン毎に定められた鮮鋭化モデルを格納する鮮鋭化モデル記憶部から、前記パターン情報に対応する鮮鋭化モデルを読み出す鮮鋭化モデル取得部と、前記秘匿化画像に対して前記鮮鋭化モデル取得部が読み出した鮮鋭化モデルを適用することにより、鮮鋭化画像を生成する鮮鋭化部と、前記鮮鋭化画像に対して前記姿勢推定モデルを適用することにより、前記鮮鋭化画像に含まれる人物の姿勢を推定する姿勢推定部と、を備える。
【0013】
本発明の第3の態様は、画像処理方法である。この方法において、プロセッサが、秘匿対象の被写体を含む処理対象画像を取得するステップと、前記被写体に適用する秘匿化処理のパターンの選択を受け付けるステップと、画像に対してそれぞれが異なる秘匿化処理を実行するように学習された複数の異なる秘匿化モデルであって、複数の前記秘匿化処理のパターン毎に定められた秘匿化モデルを格納する秘匿化モデル記憶部から、前記受け付けた秘匿化処理のパターンに対応する秘匿化モデルを読み出すステップと、前記処理対象画像に対して前記読み出した秘匿化モデルを適用することにより、秘匿化画像を生成するステップと、を実行する。
【0014】
本発明の第4の態様は、プログラムである。このプログラムは、コンピュータに、秘匿対象の被写体を含む処理対象画像を取得する機能と、前記被写体に適用する秘匿化処理のパターンの選択を受け付ける機能と、画像に対してそれぞれが異なる秘匿化処理を実行するように学習された複数の異なる秘匿化モデルであって、複数の前記秘匿化処理のパターン毎に定められた秘匿化モデルを格納する秘匿化モデル記憶部から、前記受け付けた秘匿化処理のパターンに対応する秘匿化モデルを読み出す機能と、前記処理対象画像に対して前記読み出した秘匿化モデルを適用することにより、秘匿化画像を生成する機能と、を実現させる。
【0015】
本発明の第5の態様は、姿勢推定方法である。この方法において、上述の画像処理装置と通信ネットワークを介して接続するサーバのプロセッサが、前記画像処理装置が生成した秘匿化画像と、当該秘匿化画像に適用された秘匿化処理のパターンを示すパターン情報とを、前記通信ネットワークを介して取得するステップと、画像に対してそれぞれが異なる鮮鋭化処理を実行するように学習された複数の異なる鮮鋭化モデルであって、複数の前記鮮鋭化処理のパターン毎に定められた鮮鋭化モデルを格納する鮮鋭化モデル記憶部から、前記パターン情報に対応する鮮鋭化モデルを読み出すステップと、前記秘匿化画像に対して前記読み出した鮮鋭化モデルを適用することにより、鮮鋭化画像を生成するステップと、前記鮮鋭化画像に対して前記姿勢推定モデルを適用することにより、前記鮮鋭化画像に含まれる人物の姿勢を推定するステップと、を実行する。
【0016】
本発明の第6の態様は、プログラムである。このプログラムは、上述の画像処理装置と通信ネットワークを介して接続するコンピュータに、前記画像処理装置が生成した秘匿化画像と、当該秘匿化画像に適用された秘匿化処理のパターンを示すパターン情報とを、前記通信ネットワークを介して取得する機能と、画像に対してそれぞれが異なる鮮鋭化処理を実行するように学習された複数の異なる鮮鋭化モデルであって、複数の前記鮮鋭化処理のパターン毎に定められた鮮鋭化モデルを格納する鮮鋭化モデル記憶部から、前記パターン情報に対応する鮮鋭化モデルを読み出す機能と、前記秘匿化画像に対して前記読み出した鮮鋭化モデルを適用することにより、鮮鋭化画像を生成する機能と、前記鮮鋭化画像に対して前記姿勢推定モデルを適用することにより、前記鮮鋭化画像に含まれる人物の姿勢を推定する機能と、を実現させる。
【0017】
本発明の第4の態様のプログラムと第6の態様のプログラムとを提供するため、あるいはこれらのプログラムの一部をアップデートするために、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体が提供されてもよく、また、これらのプログラムが通信回線で伝送されてもよい。
【0018】
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0019】
本発明によれば、画像の秘匿化のパターンをユーザの選択に応じて変更する技術を提供することができる。
【図面の簡単な説明】
【0020】
【
図1】実施の形態に係る画像処理装置が実行する画像処理の概要を説明するための模式図である。
【
図2】実施の形態に係る画像処理装置及びサーバの機能構成を模式的に示す図である。
【
図3】秘匿化処理のパターンを格納するパターンデータベースの内部構造を模式的に示す図である。
【
図4】秘匿化サブモデルの学習に用いるマスク画像を説明するための図である。
【
図5】秘匿化サブモデルを学習するための学習ネットワークの構造を模式的に示す図である。
【
図6】実施の形態に係る被写体に関する情報の一例を説明するための図である。
【
図7】姿勢推定損失を説明するための模式図である。
【
図8】実施の形態に係る画像処理装置が実行する画像処理の流れを説明するためのフローチャートである。
【
図9】実施の形態に係るサーバによる姿勢推定処理時の画像の変化を模式的に示す図である。
【
図10】実施の形態の第1の変形例に係る画像処理器の内部構成を説明するための模式図である。
【発明を実施するための形態】
【0021】
(実施の形態の概要)
実施の形態に係る画像処理装置は、処理対象画像に対して複数の異なる画像処理を実行し、各画像処理の処理結果を合成して一つの出力画像を生成する。ここで、複数の異なる画像処理は、それぞれ処理対象画像に対して異なる種類の秘匿化処理を実行する。したがって、各画像処理の処理結果を合成して生成される出力画像は、処理対象画像に対して複数の異なる秘匿化処理が施された画像となる。ここで、実施の形態に係る画像処理装置は、各画像処理の秘匿化処理の強度を変更可能であり、各画像処理の強度のパターンに関するユーザの選択を受け付けることができる。これにより、実施の形態に係る画像処理装置は、画像の秘匿化のパターンをユーザの選択に応じて変更することができる。
【0022】
図1は、実施の形態に係る画像処理装置が実行する画像処理の概要を説明するための模式図である。
図1は、処理対象画像Iに部屋の中でヨガのポーズを取る女性が写っている場合の例を示している。
【0023】
図1に示す例では、画像処理装置は、入力画像に対して第1画像処理器F1、第2画像処理器F2、及び第3画像処理器F3を含む画像処理器Fによる処理を実行し、それぞれ第1中間画像B1、第2中間画像B2、及び第3中間画像B3を出力する。その後、画像処理装置は、第1中間画像B1、第2中間画像B2、及び第3中間画像B3それぞれに対して重み付けをして重ね合わせることにより、秘匿化画像Hを出力する。
【0024】
図1に示す例では、第1画像処理器F1は、処理対象画像Iに撮像されている人物の顔領域を秘匿化するための画像処理器である。第2画像処理器F2は、処理対象画像Iに撮像されている人物の輪郭を秘匿化するための画像処理器である。さらに、第3画像処理器F3は、処理対象画像Iのうち人物以外の領域である背景領域を秘匿化するための画像処理器である。
【0025】
ここで、画像処理装置は、第1中間画像B1、第2中間画像B2、及び第3中間画像B3それぞれを重ね合わせる際に利用する重み付けとして複数の異なるパターンPを用意しており、あらかじめいずれのパターンPを採用するかの選択をユーザから受け付けている。
図1では、第2中間画像B2の重みが相対的に大きく、第3中間画像B3の重みが相対的に小さく、第1中間画像B1の重みは中間の大きさである場合の例を示している。
【0026】
ユーザは、中間画像Bの重み付けのパターンPを変更することにより、顔の秘匿化を重視したり、背景の秘匿化を重視したりする等、好みに応じて秘匿化処理のパターンPを変更することができる。
【0027】
(実施の形態に係る画像処理装置1の機能構成)
図2は、実施の形態に係る画像処理装置1及びサーバ2の機能構成を模式的に示す図である。画像処理装置1は、記憶部10、撮像部11、及び制御部12を備える。またサーバ2は、記憶部20と制御部21とを備える。画像処理装置1とサーバ2とは、インターネット等の通信ネットワークNを介して通信可能な態様で接続されている。
【0028】
図2において、矢印は主なデータの流れを示しており、
図2に示していないデータの流れがあってもよい。
図2において、各機能ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、
図2に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。
【0029】
記憶部10は、画像処理装置1を実現するコンピュータのBIOS(Basic Input Output System)等を格納するROM(Read Only Memory)や画像処理装置1の作業領域となるRAM(Random Access Memory)、OS(Operating System)やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するHDD(Hard Disk Drive)やSSD(Solid State Drive)等の大容量記憶装置である。
【0030】
撮像部11は、処理対象画像Iを生成するための撮像機器であり、例えばCCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等の既知の固体撮像素子を用いて実現される。制御部12は、画像処理装置1のCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサであり、記憶部10に記憶されたプログラムを実行することによって画像取得部120、選択受付部121、秘匿化モデル取得部122、及びモデル適用部123として機能する。
【0031】
記憶部20は、サーバ2を実現するコンピュータのBIOS等を格納するROMやサーバ2の作業領域となるRAM、OSやアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するHDDやSSD等の大容量記憶装置である。制御部21は、サーバ2のCPUやGPU等のプロセッサであり、記憶部20に記憶されたプログラムを実行することによって秘匿化画像取得部210、鮮鋭化モデル取得部211、鮮鋭化部212、及び姿勢推定部213として機能する。
【0032】
なお、
図2は、画像処理装置1及びサーバ2がそれぞれ単一の装置で構成されている場合の例を示している。しかしながら、画像処理装置1とサーバ2との少なくともいずれか一方は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部12又は制御部21を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。
【0033】
画像取得部120は、秘匿対象の被写体を含む処理対象画像Iを取得する。画像取得部120は、撮像部11が撮像した画像を処理対象画像Iとして取得してもよいし、図示しないメモリーカードから読み出して取得したり、他のPCから有線又は無線で取得したりしてもよい。
【0034】
選択受付部121は、被写体に適用する秘匿化処理のパターンPの選択を受け付ける。具体的には、選択受付部121は、マウスやキーボード、あるいはタッチパネル等の画像処理装置1の入力インタフェース(不図示)を介してユーザからの選択を受け付ける。
【0035】
秘匿化モデル取得部122は、複数の異なる秘匿化モデルを格納する秘匿化モデル記憶部から、選択受付部121が受け付けた秘匿化処理のパターンPに対応する秘匿化モデルを読み出す。ここで、各秘匿化モデルは、複数の秘匿化処理のパターンP毎に定められており、画像に対してそれぞれが異なる秘匿化処理を実行するように学習されている。なお、
図2に示す例では、記憶部10が秘匿化モデル記憶部を兼ねている。
【0036】
モデル適用部123は、処理対象画像Iに対して秘匿化モデル取得部122が読み出した秘匿化モデルを適用することにより、秘匿化画像Hを生成する。これにより、画像処理装置1は、ユーザの選択に応じたパターンPの秘匿化処理を用いて、処理対象画像Iの秘匿化を実行することができる。なお、サーバ2の詳細は後述する。
【0037】
(秘匿化モデルの詳細)
図1を参照して説明したように、各秘匿化モデルは、画像に対して異なる種類の秘匿化処理を実行する複数の異なる秘匿化サブモデル(
図1における画像処理器F)を有している。具体的には、各秘匿化モデルが有する秘匿化モデルは互いに異なるモデルではなく、各秘匿化モデルは秘匿化サブモデルを共有している。
【0038】
以下、本明細書において、処理対象画像Iに撮像されている人物の顔領域を秘匿化するためモデルを「第1秘匿化サブモデルF1」、処理対象画像Iに撮像されている人物の輪郭を秘匿化するためのモデルを「第2秘匿化サブモデルF2」、処理対象画像Iのうち人物以外の領域である背景領域を秘匿化するためのモデルを「第3秘匿化サブモデルF3」、各秘匿化サブモデルを特に区別しない場合には「秘匿化サブモデルF」と記載する。この意味で、秘匿化サブモデルF及び第1~3秘匿化サブモデルF1~F3は、それぞれ、
図1における画像処理器F及び第1~3画像処理器F1~F3に対応する。なお、各秘匿化サブモデルの処理内容は一例であり、この他の処理があってもよい。
【0039】
モデル適用部123は、複数の異なる秘匿化サブモデルFの出力画像である中間画像Bを、秘匿化処理のパターンPに応じて定まる重み付け係数に基づいて重ね合わせることで生成される画像を秘匿化画像Hとして出力する。これにより、各秘匿化モデルが有する秘匿化サブモデルFが同じであっても、画像処理装置1は、重み付けのパターンPを変えることによって異なる秘匿化画像Hを生成することができる。
【0040】
図3は、秘匿化処理のパターンPを格納するパターンデータベースの内部構造を模式的に示す図である。パターンデータベースはモデル適用部123によって管理されており、記憶部10に格納されている。
図3では、秘匿化処理のパターンPとして、「顔重視型」、「輪郭重視型」、「背景重視型」、及び「バランス型」の4つのパターンPそれぞれにおける重みが例示されている。
【0041】
例えば、「顔重視型」パターンPでは、第1中間画像B1の重みは0.7であり、第2中間画像B2の重み(0.15)及び第3中間画像B3の重み(0.15)よりも大きい。上述したように第1中間画像B1は、処理対象画像Iに撮像されている人物の顔領域を秘匿化するための画像処理が施された画像である。したがって、第1中間画像B1の重みが他の重みよりも大きいことは、秘匿化画像Hにおいて人物の顔領域の秘匿化が重視されていることを意味する。他のパターンPについても同様である。このように、パターンデータベースにあらかじめ複数の秘匿化処理のパターンPを記憶しておくことで、ユーザは選択操作をするだけで処理対象画像Iに対して施す秘匿化処理のパターンPを変更することができる。
【0042】
(秘匿化サブモデルFの学習)
実施の形態に係る秘匿化処理に用いられる各秘匿化サブモデルFは、ニューラルネットワークの一種である既知の敵対的生成ネットワーク(Generative Adversarial Networks;GAN)を用いた機械学習手法によって作成されている。以下、秘匿化サブモデルFの学習手法について説明する。なお、GANは既知であるためGAN自体の詳細な説明は省略し、以下では主に学習に用いるデータ及び評価関数について説明する。
【0043】
図4(a)-(d)は、秘匿化サブモデルの学習に用いるマスク画像Mを説明するための図である。具体的に、
図4(a)は、秘匿化サブモデルを生成するための教師データTの一例を示す図である。
図4(b)-(d)は、それぞれ第1秘匿化サブモデルF1、第2秘匿化サブモデルF2、及び第3秘匿化サブモデルF3を学習するために用いられるマスク画像Mである。
【0044】
図4(b)に示すように、第1マスク画像M1は、教師データTに写っている人物の顔領域以外の領域をマスクした画像である。また、
図4(c)に示すように、第2マスク画像M2は、教師データTに写っている人物以外の領域である背景領域をマスクした画像である。さらに、
図4(d)に示すように、第3マスク画像M3は、教師データTに写っている人物の領域をマスクした画像である。これらのマスク画像は、学習に用いる教師データT毎に、学習の実施者があらかじめ用意しておく。あるいは、従来技術を用いて、秘匿化サブモデルFの前処理としてマスク処理を実現してもよい。
【0045】
図5は、秘匿化サブモデルFを学習するための学習ネットワークNtの構造を模式的に示す図である。学習ネットワークNtは、画像処理器F、姿勢推定器E、及び乖離度算出器Dを備える。秘匿化サブモデルFの学習に用いられる教師データTは、画像データT1と、画像データT1に写っている人物の姿勢に関する情報T2とを含んでいる。ここで画像データT1には、
図4に例示されているマスク画像Mも含まれる。また、「人物の姿勢に関する情報T2」とは、各T1に撮像されている人物の体のパーツを示す情報である。
【0046】
図6(a)-(b)は、実施の形態に係る被写体に関する情報の一例を説明するための図である。具体的には、
図6(a)は画像データT1に撮像されている女性の被写体に設定された部位位置を模式的に示す図であり、
図6(b)は
図6(a)に示された各部位位置の位置座標を表形式で示す図である。
【0047】
図6(a)に示すように、人物の姿勢に関する情報T2には、被写体の頭頂、手首、肘、肩、首、腰、足の付け根、膝、足先等を含む15カ所の部位位置が設定されている。また、被写体の各部位位置を示す座標として、人物の姿勢に関する情報T2の左上を原点Oとし、人物の姿勢に関する情報T2の横方向をX軸、縦方向をY軸とする2次元座標系における座標が設定されている。
図6(b)に示すように、15カ所の部位位置にはそれぞれ1から15までの番号が部位番号として割り当てられており、各部位番号に対応する部位の座標が画像データT1に対応づけて設定されている。
【0048】
図5の説明に戻る。学習ネットワークにおいて、画像データT1はまず画像処理器Fに入力される。画像処理器Fは、第1秘匿化サブモデルF1、第2秘匿化サブモデルF2、及び第3秘匿化サブモデルF3を備えており、画像データT1は第1秘匿化サブモデルF1、第2秘匿化サブモデルF2、及び第3秘匿化サブモデルF3のそれぞれに入力される。
【0049】
ここで、各秘匿化サブモデルFは、対応するマスク画像Mでマスクされる領域を除いた領域について処理する。例えば、第1秘匿化サブモデルF1に対応する第1マスク画像M1は、教師データTに写っている人物の顔領域以外の領域をマスクした画像である。したがって、第1秘匿化サブモデルF1は、第1マスク画像M1でマスクされる領域を除いた領域、すなわち人物の顔領域について処理を実行することになる。同様に、第2秘匿化サブモデルF2は人物領域について処理を実行し、第3秘匿化サブモデルF3は背景領域について処理を実行する。
【0050】
第1秘匿化サブモデルF1、第2秘匿化サブモデルF2、及び第3秘匿化サブモデルF3それぞれの出力である第1中間画像B1、第2中間画像B2、及び第3中間画像B3は合成して出力される。各画像処理器Fの合成された出力は、姿勢推定器E及び乖離度算出器Dの入力となる。なお、各画像処理器Fの出力である中間画像B1~B3は、上述した秘匿化処理のパターンP毎に異なる重み付けで合成され秘匿化画像Hとなる。すなわち、秘匿化サブモデルFは、秘匿化処理のパターンP毎に異なる学習によって生成される。
【0051】
乖離度算出器Dは、第1乖離度算出器D1、第2乖離度算出器D2、及び第3乖離度算出器D3を備えている。乖離度算出器Dは、画像処理器Fに入力された画像と、画像処理器Fが出力した画像との乖離度を算出する。
【0052】
具体的には、第1乖離度算出器D1は、第1マスク画像M1でマスクされる領域を除いた領域における画像処理器Fの入力画像と出力画像との乖離度を算出する。すなわち、第1乖離度算出器D1は、人物の顔領域における乖離度を算出する。同様に、第2乖離度算出器D2は人物領域における乖離度を算出し、第3乖離度算出器D3は背景領域における乖離度を算出する。
【0053】
ここで、乖離度算出器Dが算出する乖離度は、画像処理器Fに入力された画像と画像処理器Fが出力した画像との乖離度を計ることができればどのような計測手法を用いてもよいが、一例としては平均二乗誤差(Mean Squared Error;MSE)を用いて計測される。以下、第1乖離度算出器D1が人物の顔領域について算出したMSEを第1原画乖離損失Ld1、第2乖離度算出器D2が人物領域について算出したMSEを第2原画乖離損失Ld2、第3乖離度算出器D3が背景領域について算出したMSEを第3原画乖離損失Ld3と記載する。実施の形態に係る画像処理装置1は、処理対象画像Iの秘匿化を一つの目的としているため、この目的のためには、各原画乖離損失Lが大きいほど好ましい。原画乖離損失Lが大きいほど、画像処理器Fの入力と出力とが乖離していることを示すからである。
【0054】
姿勢推定器Eは、複数の秘匿化サブモデルFそれぞれを重ね合わせた秘匿化画像Hに含まれる人物の姿勢を推定するように学習された既知の姿勢推定モデルで実現されている。より具体的には、姿勢推定器Eは、画像処理器Fが出力した画像に含まれる人物の頭頂、手首、肘、肩、首、腰、足の付け根、膝、足先等を含む15カ所の部位位置を推定する。ここで、姿勢推定器Eが推定の対象とする各部位位置は、人物の姿勢に関する情報T2として正解が定められている。そこで、姿勢推定器Eは、画像処理器Fが出力した画像から推定した各部位位置と、人物の姿勢に関する情報T2として定められた各部位位置の正解位置との誤差を姿勢推定損失Lpとして算出する。
【0055】
図7は、姿勢推定損失L
pを説明するための模式図である。
図7において、白抜きの丸は姿勢推定器Eが推定した部位位置を示している。また、白抜きの四角は、各部位位置の正解位置としてあらかじめ人物の姿勢に関する情報T2に設定されている人物の左肘の位置を示している。
【0056】
なお、煩雑となることを避けるために
図7では正解位置として左肘の位置のみを図示している。また、
図7において、破線の円Cは被写体の左肘部分の拡大図である。
図7に示すように、姿勢推定器Eが推定した左肘の位置と、左肘の正解位置とは、距離Qだけずれている。姿勢推定器Eは、各部位位置におけるずれ量の二乗平均を姿勢推定損失L
pとして算出する。
【0057】
この場合、姿勢推定損失Lpの値が小さいほど、姿勢推定器Eの認識精度が高いことを示す。実施の形態に係る画像処理装置1は、秘匿化画像Hから姿勢を推定することを一つの目的としているため、この目的のためには、姿勢推定損失Lpが小さいほど好ましい。
【0058】
そこで、各秘匿化サブモデルFは、以下に示す乖離度評価関数G1(第1乖離度評価関数G11、第2乖離度評価関数G12、及び第3乖離度評価関数G13)と姿勢評価関数G2とが小さくなるようにGANのフレームワークにおいて学習される。具体的には、
G11=1/λ1Ld1
G12=1/λ2Ld2
G13=1/λ3Ld3
G2=姿勢推定損失Lp
ここでλ1、λ2及びλ3は、それぞれ正の実数である。
【0059】
乖離度評価関数G1に基づく学習は、処理対象画像Iの秘匿化処理に関する学習である。マスク画像Mを用いることで、複数の秘匿化サブモデルFのそれぞれは、あらかじめ被写体に設定されたいずれかの部分領域か、又は被写体以外の領域として設定される背景領域か、の少なくとも一つの領域を秘匿化対象領域として学習されることになる。より具体的には、まず、第1乖離度評価関数G11を用いて第1画像処理器F1が学習され、続いて第2乖離度評価関数G12を用いて第2画像処理器F2が学習され、続いて第3乖離度評価関数G13を用いて第3画像処理器F3が学習され、続いて姿勢評価関数G2を用いて各画像処理器F(第1画像処理器F1、第2画像処理器F2、及び第3画像処理器F3)が学習される。これを繰り返すことにより、各画像処理器Fが学習される。なお、姿勢損失Lpを用いた学習の際には、各画像処理器Fに対して、対応するパターンPで重み付けられた誤差を用いて誤差逆伝搬(バックプロパゲーション)される。
【0060】
乖離度評価関数G1が小さくなることは、画像処理器Fの入力画像とその入力画像に対して秘匿化サブモデルFを適用して生成される出力画像との乖離度が大きくなることを示している。これにより、画像処理器Fは、処理対象画像Iと秘匿化画像Hとの乖離度が大きくなるように学習される。
【0061】
一方、姿勢評価関数G2が小さくなることは、姿勢推定モデルの推定精度が高くなることを示している。これにより、画像処理器Fは、処理対象画像Iと秘匿化画像Hとの姿勢推定損失が小さくなるように学習される。ここで、秘匿化処理に関する学習により、処理対象画像Iと秘匿化画像Hとの乖離度が大きくなることは、処理対象画像Iと秘匿化画像Hとの人物を含む領域の乖離度も大きくなることを意味する。この場合、秘匿化画像Hを入力とする人物推定の精度が悪くなりかねない。各秘匿化サブモデルFが乖離度評価関数G1のみならず姿勢評価関数G2にも基づいて学習されることによって処理対象画像Iの秘匿化と姿勢推定の精度との両立を図ることができる。
【0062】
(画像処理装置1が実行する画像処理方法の処理フロー)
図8は、実施の形態に係る画像処理装置1が実行する画像処理の流れを説明するためのフローチャートである。本フローチャートにおける処理は、例えば画像処理装置1が起動したときに開始する。
【0063】
画像取得部120は、秘匿対象の被写体を含む処理対象画像Iを取得する(S2)。選択受付部121は、被写体に適用する秘匿化処理のパターンPの選択をユーザから受け付ける(S4)。
【0064】
秘匿化モデル取得部122は、秘匿化モデル記憶部から、選択受付部121が受け付けた秘匿化処理のパターンPに対応する秘匿化モデルを読み出して取得する(S6)。モデル適用部123は、処理対象画像Iに対して秘匿化モデル取得部122が読み出した秘匿化モデルを適用することにより、秘匿化画像Hを生成する(S8)。モデル適用部123が秘匿化画像Hを生成すると、本フローチャートにおける処理は終了する。
【0065】
(姿勢推定サーバ)
再び
図2の説明に戻る。サーバ2の秘匿化画像取得部210は、画像処理装置1が生成した秘匿化画像Hと、秘匿化画像Hに適用された秘匿化処理のパターンPを示すパターン情報とを、通信ネットワークNを介して取得する。
【0066】
鮮鋭化モデル取得部211は、複数の鮮鋭化処理のパターンP毎に定められた鮮鋭化モデルを格納する鮮鋭化モデル記憶部から、パターン情報に対応する鮮鋭化モデルを読み出す。ここで、「鮮鋭化モデル」は、画像に対してそれぞれが異なる鮮鋭化処理を実行するように学習された複数の異なるモデルである。
【0067】
例えば、人物の姿勢推定には人物の輪郭が重要となる。秘匿化処理のパターンPとして輪郭重視型が選択されている場合には人物領域の輪郭が他のパターンPと比較してより不鮮明となっているため、輪郭重視型のパターンPにおける鮮鋭化モデルは、強めの鮮鋭化処理が実行されるように学習されている。なお、
図2に示す例では、記憶部20が鮮鋭化モデル記憶部を兼ねている。
【0068】
鮮鋭化部212は、秘匿化画像Hに対して鮮鋭化モデル取得部211が読み出した鮮鋭化モデルを適用することにより、鮮鋭化画像を生成する。姿勢推定部213は、鮮鋭化画像に対して姿勢推定モデルを適用することにより、鮮鋭化画像に含まれる人物の姿勢を推定する。
【0069】
図9は、実施の形態に係るサーバ2による姿勢推定処理時の画像の変化を模式的に示す図である。
図9に示すように、秘匿化画像Hは、人物の顔領域と背景領域、及び人物の輪郭が不鮮明となった画像となっている。鮮鋭化部212が秘匿化画像Hに対して鮮鋭化モデルを適用すると、人物領域のエッジが強調された鮮鋭化画像Sが出力される。
【0070】
姿勢推定部213が鮮鋭化画像Sに対して姿勢推定モデルを適用すると鮮鋭化画像Sに写っている人物の姿勢が推定される。具体的には、
図9に示すように、鮮鋭化画像Sに写っている人物の各部位が推定された処理結果Oが出力される。このように、サーバ2は、姿勢推定処理を実行する前に秘匿化画像Hに対して鮮鋭化処理を施すことにより、秘匿化画像Hに写っている人物の姿勢推定の精度を向上させることができる。
【0071】
(実施の形態に係る画像処理装置1及びサーバ2が奏する効果)
以上説明したように、実施の形態に係る画像処理装置1によれば、画像の秘匿化のパターンPをユーザの選択に応じて変更する技術を提供することができる。また、実施の形態に係るサーバ2によれば、画像処理装置1が生成した秘匿化画像Hに写っている人物の姿勢を推定することができる。
【0072】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果をあわせ持つ。以下そのような変形例について説明する。
【0073】
(第1の変形例)
上記では、乖離度評価関数G1が、入力画像とその入力画像に対して秘匿化サブモデルFを適用して生成される出力画像との秘匿化対象領域における乖離度の大小を示す場合について説明した。これに代えて、第1の変形例に係る乖離度評価関数G1は、入力画像とその入力画像に対して秘匿化サブモデルFを適用して生成される出力画像との秘匿化対象領域における乖離度である秘匿化対象領域乖離度の大小と、出力画像のうち秘匿化対象領域以外の領域における入力画像との乖離度である秘匿化対象外領域乖離度の大小と、を示すように構成されている。
G1=処理対象領域以外のMSE/処理対象領域のMSE
【0074】
例えば、第1画像処理器F1の学習に用いる評価関数である第1乖離度評価関数G11は、G11=(λ2Ld2+λ3Ld3)/(λ1Ld1)となる。同様に、第2画像処理器F2の学習に用いる評価関数である第2乖離度評価関数G12は、G12=(λ1Ld1+λ3Ld3)/(λ2Ld2)となり、第3画像処理器F3の学習に用いる評価関数である第3乖離度評価関数G13は、G13=(λ1Ld1+λ2Ld2)/(λ3Ld3)となる。第1の変形例に係る各秘匿化サブモデルFは、対応する乖離度評価関数G1を用いて独立に学習される。
【0075】
複数の秘匿化サブモデルFのそれぞれは、乖離度評価関数G1と姿勢評価関数G2とに基づいて、秘匿化対象領域乖離度が大きくなり、秘匿化対象外領域乖離度が小さくなり、かつ推定精度が高くなるように学習される。この結果、第1の変形例に係る秘匿化サブモデルFが出力する中間画像Bは、対応するマスク画像Mでマスクされる領域(すなわち、秘匿化対象領域以外の領域)が原画像と近くなるように学習される。
【0076】
具体的には、第1の変形例に係る学習ネットワークにおいて、複数の異なる秘匿化サブモデルFは、それぞれ出力画像の画素値から各秘匿化サブモデルの秘匿化対象領域以外の領域(すなわち、マスク画像Mがマスクする領域)の画素値を減じた画像を中間画像Bとして出力し、その中間画像Bを重ね合わせた画像を秘匿化画像Hとして出力する。
【0077】
図10は、実施の形態の第1の変形例に係る画像処理器Fを説明するための模式図である。具体的は、
図10は、実施の形態の第1の変形例に係る第3画像処理器F3の動作を説明するための図である。
図10に示すように、第1の変形例に係る第3画像処理器F3は、教師用の画像データT1のうち、第3マスク画像M3がマスクしていない背景領域を秘匿化し、第3マスク画像M3がマスクしている人物領域の画素の画素値は画像データT1の画素値を維持する。
【0078】
図10に示すように、第3画像処理器F3の出力画像は、画像データT1から減じられる。この結果、第3中間画像B3には、第3マスク画像M3がマスクしている人物領域の画素値が0となる。言い換えると、第1の変形例に係る第3中間画像B3は、秘匿化対象領域である背景画像のみが写っている画像となる。
【0079】
第1の変形例に係る第1画像処理器F1が出力する第1中間画像B1も同様であり、第1画像処理器F1の秘匿化対象領域(すなわち、第1マスク画像M1がマスクしていない領域)である顔領域のみを含む画像となる。また、第2画像処理器F2が出力する第2中間画像B2は、人物領域のみを含む画像となる。この結果、第1の変形例に係るモデル適用部123が出力する秘匿化画像Hは、各秘匿化サブモデルFの秘匿化対象領域がパッチワークのように重ね合わされた画像となり、秘匿化画像Hを構成する画素はいずれかの秘匿化サブモデルFが出力した画素のみで構成することができる。
【0080】
(第2の変形例)
上記では、秘匿化処理のパターンP毎に秘匿化サブモデルFを学習する場合について説明した。これに代えて、学習時には固定の重みパターンP(例えば、全ての秘匿化サブモデルの重みが等しいパターン)で学習し、秘匿化処理時には秘匿化処理のパターンP毎に重みを変更するようにしてもよい。これにより、画像処理器Fの生成に係る計算コストを削減することができる。
【0081】
(第3の変形例)
上記では、処理対象画像Iと秘匿化画像Hとのアスペクト比が同一である場合について主に説明した。しかしながら、秘匿化画像Hのアスペクト比は、処理対象画像Iのアスペクト比と異なっていてもよい。これは、制御部12中のアスペクト比変更部が、秘匿化画像Hのアスペクトを変更して新たに秘匿化画像Hとすればよい。秘匿化画像Hのアスペクト比が変更されれば秘匿化画像H中の人物の体形も変更されるため、見た目の秘匿化を促進できる点で有利である。
【符号の説明】
【0082】
1・・・画像処理装置
10・・・記憶部
11・・・撮像部
12・・・制御部
120・・・画像取得部
121・・・選択受付部
122・・・秘匿化モデル取得部
123・・・モデル適用部
2・・・サーバ
20・・・記憶部
21・・・制御部
210・・・秘匿化画像取得部
211・・・鮮鋭化モデル取得部
212・・・鮮鋭化部
213・・・姿勢推定部
D・・・乖離度算出器
E・・・姿勢推定器
F・・・画像処理器
N・・・通信ネットワーク
Nt・・・学習ネットワーク