IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

<>
  • 特許-学習方法、装置及びプログラム 図1
  • 特許-学習方法、装置及びプログラム 図2
  • 特許-学習方法、装置及びプログラム 図3
  • 特許-学習方法、装置及びプログラム 図4
  • 特許-学習方法、装置及びプログラム 図5
  • 特許-学習方法、装置及びプログラム 図6
  • 特許-学習方法、装置及びプログラム 図7
  • 特許-学習方法、装置及びプログラム 図8
  • 特許-学習方法、装置及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-15
(45)【発行日】2023-05-23
(54)【発明の名称】学習方法、装置及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230516BHJP
【FI】
G06T7/00 350C
【請求項の数】 12
(21)【出願番号】P 2020014490
(22)【出願日】2020-01-31
(65)【公開番号】P2021120840
(43)【公開日】2021-08-19
【審査請求日】2022-01-07
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】明堂 絵美
(72)【発明者】
【氏名】田坂 和之
(72)【発明者】
【氏名】酒澤 茂之
【審査官】伊知地 和之
(56)【参考文献】
【文献】特開2020-010365(JP,A)
【文献】特開2005-000301(JP,A)
【文献】Bo-Wei Tseng et al.,Compressive Privacy Generative Adversarial Network,IEEE Transactios on Information Forensics and Security,IEEE,2020年01月20日,Vol. 15,pp.2499-2513
【文献】菅原佑介他,ディープラーニングを用いたJPEG2000コードストリームレベルでの類似画像検索法,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2016年06月09日,第116巻 第96号,pp.79-84
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06T 3/00 - 3/60
G06T 5/00 - 5/50
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
CSDB(日本国特許庁)
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
ニューラルネットワーク構造による画像変換処理の重みパラメータを学習する学習方法であって、
訓練用画像を前記画像変換処理で変換したプライバシー保護画像を、所定タスクの認識を行うタスク処理で認識した認識結果に対する第1コストと、
前記訓練用画像を圧縮処理で圧縮した圧縮画像と、前記プライバシー保護画像と、の類似性の評価結果に対する第2コストと、を用いて前記画像変換処理の重みパラメータを学習し、
前記第2コストは、前記圧縮画像と前記プライバシー保護画像との差分に基づいて評価されることを特徴とする記載の学習方法。
【請求項2】
ニューラルネットワーク構造による画像変換処理の重みパラメータを学習する学習方法であって、
訓練用画像を前記画像変換処理で変換したプライバシー保護画像を、所定タスクの認識を行うタスク処理で認識した認識結果に対する第1コストと、
前記訓練用画像を圧縮処理で圧縮した圧縮画像と、前記プライバシー保護画像と、の類似性の評価結果に対する第2コストと、を用いて前記画像変換処理の重みパラメータを学習し、
前記圧縮画像をリアル画像として、前記プライバシー保護画像をフェイク画像として識別することで真贋を見分けるように学習される、ニューラルネットワーク構造による識別処理をさらに用いて、
前記識別処理が真贋を見分ける精度を向上させ、且つ、前記画像変換処理が前記識別処理に対して真贋を見誤らせる精度を向上させるように、敵対的生成ネットワークによって学習することをさらに含むことを特徴とする学習方法。
【請求項3】
前記圧縮処理は、離散コサイン変換又はウェーブレット変換を用いるものであることを特徴とする請求項1または2に記載の学習方法。
【請求項4】
前記圧縮処理は、変換基底を用いて周波数変換することと、当該周波数変換された最低周波数成分を一定値で置き換えること又は量子化することと、を含むことを特徴とする請求項1ないしのいずれかに記載の学習方法。
【請求項5】
前記圧縮処理は、変換基底を用いて周波数変換し、所定の変換基底の変換係数を削除することを含むことを特徴とする請求項1ないしのいずれかに記載の学習方法。
【請求項6】
ニューラルネットワーク構造による画像変換処理の重みパラメータを学習する学習方法であって、
訓練用画像を前記画像変換処理で変換したプライバシー保護画像を、所定タスクの認識を行うタスク処理で認識した認識結果に対する第1コストと、
前記訓練用画像を圧縮処理で圧縮した圧縮画像と、前記プライバシー保護画像と、の類似性の評価結果に対する第2コストと、を用いて前記画像変換処理の重みパラメータを学習し、
前記圧縮処理は、変換基底を用いて周波数変換することを含み、
前記画像変換処理におけるニューラルネットワーク構造内の層に、前記圧縮処理において用いられる変換基底をカーネルとして有する、学習により更新されない固定の畳込層が含まれることを特徴とする学習方法。
【請求項7】
前記固定の畳込層のストライド幅は、前記圧縮処理における圧縮ブロックサイズに一致するものとして設定されていることを特徴とする請求項に記載の学習方法。
【請求項8】
前記画像変換処理の重みパラメータを学習することは、
前記第1コストと前記第2コストとを交互に最小化すること、または、前記第1コスト及び前記第2コストより算出される総合コストを最小化すること、を含むことを特徴とする請求項1ないしのいずれかに記載の学習方法。
【請求項9】
ニューラルネットワーク構造による画像変換処理の重みパラメータを学習する学習装置であって、
訓練用画像を前記画像変換処理で変換したプライバシー保護画像を、所定タスクの認識を行うタスク処理で認識した認識結果に対する第1コストと、
前記訓練用画像を圧縮処理で圧縮した圧縮画像と、前記プライバシー保護画像と、の類似性の評価結果に対する第2コストと、を用いて前記画像変換処理の重みパラメータを学習し、
前記第2コストは、前記圧縮画像と前記プライバシー保護画像との差分に基づいて評価されることを特徴とする学習装置。
【請求項10】
ニューラルネットワーク構造による画像変換処理の重みパラメータを学習する学習装置であって、
訓練用画像を前記画像変換処理で変換したプライバシー保護画像を、所定タスクの認識を行うタスク処理で認識した認識結果に対する第1コストと、
前記訓練用画像を圧縮処理で圧縮した圧縮画像と、前記プライバシー保護画像と、の類似性の評価結果に対する第2コストと、を用いて前記画像変換処理の重みパラメータを学習し、
前記圧縮画像をリアル画像として、前記プライバシー保護画像をフェイク画像として識別することで真贋を見分けるように学習される、ニューラルネットワーク構造による識別処理をさらに用いて、
前記識別処理が真贋を見分ける精度を向上させ、且つ、前記画像変換処理が前記識別処理に対して真贋を見誤らせる精度を向上させるように、敵対的生成ネットワークによって学習することをさらに含むことを特徴とする学習装置。
【請求項11】
ニューラルネットワーク構造による画像変換処理の重みパラメータを学習する学習装置であって、
訓練用画像を前記画像変換処理で変換したプライバシー保護画像を、所定タスクの認識を行うタスク処理で認識した認識結果に対する第1コストと、
前記訓練用画像を圧縮処理で圧縮した圧縮画像と、前記プライバシー保護画像と、の類似性の評価結果に対する第2コストと、を用いて前記画像変換処理の重みパラメータを学習し、
前記圧縮処理は、変換基底を用いて周波数変換することを含み、
前記画像変換処理におけるニューラルネットワーク構造内の層に、前記圧縮処理において用いられる変換基底をカーネルとして有する、学習により更新されない固定の畳込層が含まれることを特徴とする学習装置。
【請求項12】
請求項1ないしのいずれかに記載の学習方法をコンピュータに実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、タスクの認識精度、プライバシー保護及び圧縮効率を確保した画像を得ることのできる画像変換処理を学習する学習方法、装置及びプログラムに関する。
【背景技術】
【0002】
ユーザのプライバシー情報が含まれうる画像/音声データを、クラウドに送信し、ニューラルネット等の機械学習を用いて解析するケースにおいて、ユーザへのプライバシー侵害が発生することを防止する必要がある。例えば、音声データに関して、クラウドに送られたスマートスピーカの内容を、仮にサービス提供者側が視聴したとすると、機械学習の精度向上等の技術的な目的の下での視聴であったとしても、結果としてプライバシーの侵害が発生しうる。
【0003】
なお、このようなスマートスピーカでは、一般的に通信路の盗聴からは、データの暗号化によりユーザのプライバシーを守っている。しかし、クラウド側では暗号化されたデータを復号するため、上記のような状況が発生しうることとなる。
【0004】
以下のURLのニュースリリース記事「暗号化したままディープラーニングの標準的な学習処理ができる秘密計算技術を世界で初めて実現」において開示されているように、クラウド側で暗号化したまま再学習やファインチューニング等の処理を行う手法もある。
https://www.ntt.co.jp/news2019/1909/190902a.html
【0005】
ここでの課題の一つ目は、サービス提供者の知覚による画像や音声データの確認ができないことである。実際に、問題の原因追究や機械学習の誤り等、人の知覚で行いたい作業もある。例えば、ポイズニングデータの目視排除等やユーザのクレーム対応等をサービス提供者側が行いたい場合があるが、そのような確認も難しくなると考えられる。二つ目の課題は、暗号化はしていても生データが含まれるため、ユーザにとっては、攻撃や運用ミスなどで生データが漏洩してしまうのではないかという不安を持ちやすいことである。
【0006】
一方、画像データに関しては、プライバシーと考えられるセンシティブな情報にぼかしや置き換え等の画像処理を行い、プライバシーを保護する手法が従来から行われている。ユーザにとっては、生データを提供しない安心感はあるものの、サービス提供者側の画像解析タスクの精度は非常に低下しやすい。
【0007】
近年では、ニューラルネット等の機械学習によるタスクの解析精度を可能な限り低下させずに、プライバシー画像を生成する試みもある。このような手法は、タスクの精度をある程度保ったまま、クラウド管理者やサービス提供者が画像を知覚で判断することができ、かつ、ユーザのプライバシーも守ることができる。ユーザも原画を送信しなくてよいので、サービス利用への心理的障壁を低下させる効果があると考えられる。
【0008】
例えば、特許文献1の手法では、顔器官や顔向きを推定し、アバターで顔を置き換えることで、プライバシーを守り、且つ、運転に関する行動認識精度も保つことができる。同様に、非特許文献1の手法では、顔領域をGAN(敵対的生成ネットワーク)で本人とは異なる顔で作りかえることでプライバシーを守り、且つ、行動認識の精度も保つことができる。
【0009】
これら特許文献1や非特許文献1の手法は、顔等の画像の一部のプライバシー領域を置き換える方法であり、画像全体のプライバシーについては考慮されていない。例えば、着ている服や肌質、部屋の様子等、サービスに不要なものが消されておらず、全体のリアリティーを消したいといった要望には対応できない。
【0010】
全体のリアリティーを消す/低減することが可能な手法として、非特許文献2の手法では、動画からの行動認識を低解像画像から行う。低解像なので画像ファイルサイズを軽減できるといった利点は存在する。しかし、単なる低解像動画から簡単な行動認識以外のタスクを行うのは難しく、適用可能なタスクが限定されてしまう。
【0011】
一方、非特許文献3では、ランダムノイズを大量に挿入したターゲット画像に近づくように、敵対的学習の枠組みを用いて原画像全体を変換するモデルを学習し生成している。敵対的学習の枠組みを用いることでタスクの精度を保ちつつ、ランダムノイズの入ったターゲット画像に近い画像変換モデルを学習できる。タスクとは例えば、画像認識、顔器官の認識等がある。
【0012】
同手法では、変換した画像全体からタスクの解析に不要な要素が隠されやすく、全体のリアリティーを消したいといったプライバシーに対する要望に対応しやすい。一方で、同手法ではタスクの精度の劣化も低く抑えることができる。
【先行技術文献】
【特許文献】
【0013】
【文献】特表2018-528536号公報
【非特許文献】
【0014】
【文献】Ren, Zhongzheng, Yong Jae Lee, and Michael S. Ryoo. "Learning to anonymize faces for privacy preserving action detection." Proceedings of the European Conference on Computer Vision (ECCV). 2018.
【文献】Ryoo, Michael S., et al. "Privacy-preserving human activity recognition from extreme low resolution." Thirty-First AAAI Conference on Artificial Intelligence. 2017.
【文献】Kim, Tae-hoon, et al. "Training with the Invisibles: Obfuscating Images to Share Safely for Learning Visual Recognition Models." arXiv preprint arXiv:1901.00098 (2019).
【発明の概要】
【発明が解決しようとする課題】
【0015】
しかしながら、上記のように種々の要求に対処しうる非特許文献3の手法においても、次のような課題が存在した。
【0016】
すなわち、非特許文献3の手法では、プライバシーのために変換された画像は、ランダムノイズが表れやすい。画像圧縮については考慮されておらず、ランダムノイズ化した変換画像は、空間周波数成分を低周波数成分から高周波成分に渡るまでの各成分において大きく有しており、圧縮効率が非常に悪化するという課題がある。画像解析では、多くの静止画像・動画像を送信・保存する際の容量の低減が課題となっており、プライバシーや解析精度を保ちつつファイルサイズを小さくすることが求められているが、圧縮効率が悪いとファイルサイズ低減の要求を満たすことができない。
【0017】
上記従来技術の課題に鑑み、本発明は、タスクの認識精度、プライバシー保護及び圧縮効率を確保した画像を得ることのできる画像変換処理を学習する学習方法、装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0018】
上記目的を達成するため、本発明は、ニューラルネットワーク構造による画像変換処理の重みパラメータを学習する学習方法であって、訓練用画像を前記画像変換処理で変換したプライバシー保護画像を、所定タスクの認識を行うタスク処理で認識した認識結果に対する第1コストと、前記訓練用画像を圧縮処理で圧縮した圧縮画像と、 前記プライバシー保護画像と、の類似性の評価結果に対する第2コストと、を用いて前記画像変換処理の重みパラメータを学習することを特徴とする。また、前記学習方法に対応する学習装置であることと、コンピュータに前記学習方法を実行させるプログラムであることを特徴とする。
【発明の効果】
【0019】
本発明によれば、前記第1コストと前記第2コストを用いて学習することで、タスクの認識精度、プライバシー保護及び圧縮効率を確保した画像を得ることのできる画像変換処理を学習することができる。
【図面の簡単な説明】
【0020】
図1】従来手法でのタスク実施時(推論時)の構成である従来実施構成の機能ブロック図である。
図2】従来画像変換部の重みパラメータを学習する際の構成である、従来学習構成の機能ブロック図である。
図3】従来学習構成による学習のフローチャートであり、既存手法であるGANを利用した学習を行う手順を示すものである。
図4】一実施形態に係るタスク実施時(推論時)の構成である認識装置の機能ブロック図である。
図5】画像変換部の重みパラメータを学習する際の構成である、一実施形態に係る学習装置の機能ブロック図である。
図6】一実施形態に係る学習装置による学習のフローチャートであり、既存手法であるGANを利用した学習を行う手順を示すものである。
図7図5とは別の一実施形態に係る学習装置の機能ブロック図である。
図8図7の構成における一実施形態に係る学習装置20による学習のフローチャートである。
図9】一般的なコンピュータ装置におけるハードウェア構成を示す図である。
【発明を実施するための形態】
【0021】
以下、本実施形態を説明する前に、対比例としての非特許文献3の手法(以下、「従来手法」と称する。)を簡潔に説明する。図1は、従来手法でのタスク実施時(推論時)の構成である従来実施構成100の機能ブロック図であり、従来実施構成100は従来画像変換部101、従来圧縮部102及び従来タスク部103を有する。
【0022】
従来画像変換部101は、画像の難読化器の役割を有し、変換対象となる画像(ユーザが提供する、プライバシー保護の対象となる画像)を変換して、プライバシー保護画像を出力する。従来圧縮部102は、既存手法で当該プライバシー保護画像を圧縮することで、圧縮プライバシー保護画像を出力する。従来タスク部103は、当該圧縮プライバシー保護画像を復号したうえで所定の認識タスク(例えば姿勢推定や画像認識)を実施して認識結果(例えば姿勢推定結果や画像認識結果)を出力する。
【0023】
既に説明したように、プライバシー保護画像(又はこれを保存や伝送するための圧縮プライバシー保護画像)は、プライバシーが保護された状態(難読化された状態)に変換されており、且つ、従来タスク部103での認識精度も一定精度を確保しうる画像となっている。しかしながら、圧縮効率が悪く、圧縮プライバシー保護画像のファイルサイズが大きくなるという課題を有する。
【0024】
図1の従来実施構成100によるタスク実施のためには、予め、所定の畳込ニューラルネットワークや多層パーセプトロン(以下、「畳込ニューラルネットワーク等」と呼ぶ)で構成されている従来画像変換部101を学習しておき、その重みパラメータを求めておく必要がある。図2は、従来画像変換部101の重みパラメータを当該学習する際の構成である、従来学習構成200の機能ブロック図である。図示されるように、従来学習構成200は、従来画像変換部101、従来タスク部103、従来第一評価部104、ターゲット画像生成部201、従来識別部203及び従来第二評価部204を有する。
【0025】
共通の符号が付されるように、図1及び図2の両方にそれぞれ存在する従来画像変換部101及び従来タスク部103は、図1及び図2において同一の構成である。ただし、従来画像変換部101の重みパラメータは、従来学習構成200による学習によって逐次的に更新され、学習が完了した際の重みパラメータで構成される従来画像変換部101が、図1の従来実施構成100において用いられるものとなる。
【0026】
一方、図1及び図2で共通の従来タスク部103に関しては、画像に対して所定のタスク(姿勢推定など)を実行する任意の既存の畳込ニューラルネットワーク等で構成されており、図2の従来学習構成200による学習を行う時点において既に学習済みであるものとして、その重みパラメータが定まっているものである。(すなわち、従来学習構成200による学習において、従来タスク部103の重みパラメータが学習されて更新されることはない。)
【0027】
図3は、従来学習構成200による学習のフローチャートであり、既存手法である敵対的学習の枠組みを利用した学習を行う手順を示すものである。当該フローの開始にあたり、学習対象となる従来画像変換部101(及び従来識別部203)の重みパラメータには初期値をランダム値等として設定しておく。当該フローが開始されるとステップS101では、GAN接続の構成における従来学習構成200により、従来識別部203の学習を行い、その重みパラメータを更新してから、ステップS102へと進む。
【0028】
GAN接続の構成とは、従来学習構成200において、従来タスク部103及び従来第一評価部104を省略した、従来画像変換部101、ターゲット画像生成部201、従来識別部203、従来第二評価部204のみを有する構成として定義される。具体的に以下の(101)~(104)で示される一連の学習手順により、ステップS101において従来識別部203の重みパラメータを更新する。
【0029】
(101) 学習データとして与えられる訓練用画像に対して、従来画像変換部101による変換処理を適用してフェイク画像を生成し、且つ、当該訓練用画像に対してターゲット画像生成部201によるノイズ重畳処理(ガウシアンノイズで画素近傍ごとにランダムに色を変えるノイズ重畳処理)を適用して、リアル画像を生成する。ここで例えば、半分をリアル画像として生成し、残りの半分をフェイク画像として生成して、これらをミニバッチとして得る。
【0030】
(102) 上記ミニバッチとして得られたフェイク画像とリアル画像とを従来識別部203で識別し、いずれがフェイク画像(従来画像変換部101の出力)であり、いずれがリアル画像(ターゲット画像生成部201の出力)であるかの識別結果を得る。なお、従来識別部203は、リアル画像とフェイク画像を識別するタスクを実行するもの(真贋を見分ける識別器、Discriminator)として、所定の畳込ニューラルネットワーク等で構成され、この従来学習構成200においてその重みパラメータが学習されるものである。(従って、従来識別部203にはミニバッチを構成するフェイク画像とリアル画像が入力されるが、当該入力された画像がリアル画像又はフェイク画像のいずれであるかの正解情報については与えられておらず、従来識別部203において自ら、その識別結果を得る。)
【0031】
(103) 従来第二評価部204では、従来識別部203の識別結果を受け取り、予め学習データとして与えられる正解(ミニバッチ内の各画像のいずれがリアル画像でいずれがフェイク画像であるかの正解)と照合し、識別結果が正解であれば低コスト値を、正解でなければ高コスト値を与える所定の識別用コスト関数で評価することにより、識別結果に対するコストを算出する。
【0032】
なお、上記の従来第二評価部204での識別用コスト関数は、従来識別部203が真贋を見分ける精度を向上させるためのものである。
【0033】
(104) 複数の訓練用画像について以上(101)~(103)の処理、すなわち、コスト(誤差)の順伝播計算を行ったうえで、当該コストを用いて逆方向に、従来第二評価部204→従来識別部203の誤差逆伝播法の計算を行うことで、確率的勾配降下法等のオプティマイザー(以下、「確率的勾配降下法等」と呼ぶ)を用いて従来識別部203の重みパラメータを更新する。当該更新により、従来識別部203が真贋を見分ける精度の向上が期待される。
【0034】
ステップS102では、GAN接続構成及びタスク接続構成において学習を行うことにより、従来画像変換部101の重みパラメータを更新してから、ステップS103へと進む。GAN接続構成はステップS101で説明した通りであり、一方、タスク接続構成とは、従来学習構成200において従来画像変換部101、従来タスク部103及び従来第一評価部104のみを備える構成として定義される。具体的に以下の(201)~(203A)または(203B)で示される一連の学習手順により、ステップS102において従来画像変換部101の重みパラメータを更新する。なお、以下に説明する通り、(203A)の手順の変形例として(203B)の手順も可能であり、いずれかを用いればよい。(203A)は従来第一評価部104の出力コストと従来第二評価部204の出力コストを交互に計算することにより、従来画像変換部101を交互に学習する手法であり、(203B)はこれら2つの出力コストから算出される総合コストにより従来画像変換部101を学習する手法である。
【0035】
(201) GAN接続構成において、学習データとして与えられる訓練用画像に対して、ステップS101に関して説明した(101)~(103)の手順を実施する。ただしこの際、(103)はステップS101における手順からは変更された手順(103')として実施し、具体的に手順(103')においては、従来第二評価部204が用いるコスト関数を、手順(103)で用いた識別用コスト関数とは真逆の評価を行う、識別失敗用コスト関数に変更する。すなわち、従来識別部203で得た識別結果が正解であれば高コスト値を、正解でなければ(識別に失敗していれば)低コスト値を与える、所定の識別失敗用コスト関数を用いて、従来第二評価部204における評価を実施し、識別結果に対するコストを算出する。
【0036】
なお、上記の従来第二評価部204での識別失敗用コスト関数は、従来識別部203が真贋を見分けることに失敗するように、従来画像変換部101におけるフェイク画像の生成精度を向上させるためのものである。
【0037】
(202) タスク接続構成において、学習データとして与えられる訓練用画像に対して、従来画像変換部101で変換を施してフェイク画像を得て、このフェイク画像を従来タスク部103で認識して認識結果を得て、この認識結果を従来第一評価部104において、学習データとして与えられる正解と照合することにより評価して、認識結果に対するコストを算出する。当該コストは、認識結果が正解であれば低コスト値とし、正解でなければ高コスト値となるように、従来第一評価部104において所定のコスト関数を用いて算出する。
【0038】
(203A) 複数の訓練用画像をミニバッチに分け、バッチごとに以上の(201)または(202)の処理、すなわち、コスト(誤差)の順伝播計算を行い、当該接続構成において、従来第一評価部104の出力したコストまたは従来第二評価部204の出力したコストを計算する。GAN接続構成の場合は、従来第二評価部204の出力したコストを用いて(GAN接続構成上を)逆方向に、従来第二評価部204→従来識別部203→従来画像変換部101の誤差逆伝播法の計算を行うことで、確率的勾配降下法等を用いて従来画像変換部101の重みパラメータを更新する。また、タスク接続構成の場合は、従来第一評価部104の出力したコストを用いて、逆方向に、従来第一評価部104→従来タスク部103→従来画像変換部101の誤差逆伝播法の計算を行うことで、確率的勾配降下法等を用いて従来画像変換部101の重みパラメータを更新する。以上のGAN接続構成の逆伝播、タスク接続構成の逆伝播を交互に行い、従来画像変換部101の重みパラメータは学習される。
【0039】
(203B) 総合コストを用いる場合には、複数の訓練用画像(GAN接続構成とタスク接続構成とで共通の訓練用画像)について以上の(201)及び(202)の処理、すなわち、コスト(誤差)の順伝播計算を行い、当該両接続構成において共通の訓練用画像ごとに、従来第一評価部104の出力したコストと従来第二評価部204の出力したコストとの所定の重みづけ和としての総合コストを計算し、当該総合コストを用いて(GAN接続構成上を)逆方向に、従来第二評価部204→従来識別部203→従来画像変換部101及び(タスク接続構成上を)逆方向に、従来第一評価部104→従来タスク部103→従来画像変換部101の誤差逆伝播法の計算を行うことで、確率的勾配降下法等を用いて従来画像変換部101の重みパラメータを更新してもよい。(なお、従来手法では、GAN接続構成時において、タスク部の誤差も少々考慮する総合コストを用いている。タスク接続構成の場合には総合コストを用いていない。)
【0040】
当該(203A)または(203B)の更新により、従来画像変換部101によって変換して得られるフェイク画像が、従来識別部203が真贋を見分けることを失敗させる(すなわち、ターゲット画像生成部201で得られるリアル画像に類似している)精度が向上したものとなり、且つ、従来タスク部103での認識精度も向上したものとなる(すなわち、認識処理に適した状態の画像となる)ことが期待される。
【0041】
ステップS103では学習が収束したか否かを判定し、収束していれば当該時点での従来画像変換部101(及び従来識別部203)の重みパラメータを最終的な学習結果として得たうえで図3のフローを終了し、収束していなければステップS101に戻ることにより、以上説明した通りの学習(ステップS101及びS102)がさらに継続して実施されることとなる。ステップS103での収束判定には例えば、訓練用画像とは別途のテスト用画像を用いることで手順(203B)の総合コストまたは手順(203A)の従来第一、第二評価部104,204がそれぞれ出力するコストを計算して学習モデルの精度を評価し、当該精度の向上(向上の履歴)が収束したか否かによって判定すればよい。単純に所定のエポック数等を収束条件としても良い。
【0042】
以上、非特許文献3の手法では、図2及び図3に示されるように敵対的学習の枠組みを利用して、従来画像変換部101と従来識別部203とを相互に競争させながら学習して、従来画像変換部101(及び従来識別部203)の学習結果を得ることができる。
【0043】
以下、非特許文献3の手法に対して画像圧縮率を考慮する改良を施したものとして、本発明の一実施形態を説明する。
【0044】
図4は、一実施形態に係るタスク実施時(推論時)の構成である認識装置10の機能ブロック図であり、認識装置10は画像変換部11、圧縮部21及びタスク部13を有する。
【0045】
画像変換部11は、画像の難読化器の役割を有し、変換対象となる画像(ユーザが提供する、プライバシー保護の対象となる画像)を変換して、プライバシー保護画像を出力する。圧縮部21は、既存手法で当該プライバシー保護画像を圧縮することで、圧縮プライバシー保護画像を出力する。この際、ユーザ指定される所定の圧縮設定に従って、圧縮部21は圧縮を行うことができる。タスク部13は、当該圧縮プライバシー保護画像を復号したうえで所定の認識タスク(例えば姿勢推定や画像認識)を実施して認識結果(例えば姿勢推定結果や画像認識結果)を出力する。
【0046】
本実施形態においても非特許文献3の従来手法と同様に、プライバシー保護画像(又はこれを保存や伝送するための圧縮プライバシー保護画像)は、プライバシーが保護された状態(難読化された状態)に変換されており、且つ、タスク部13での認識精度も一定精度を確保しうる画像となっている。
【0047】
一方、本実施形態では従来手法とは異なり、得られる画像は圧縮効率に優れており、画像変換部11で得たプライバシー保護画像(非圧縮状態のもの)を圧縮部21において圧縮プライバシー保護画像として(不可逆)圧縮することで、圧縮前から大きく品質を変えることなく、ファイルサイズを小さく抑えることができる。
【0048】
図4の認識装置10によるタスク実施のためには、予め、畳込ニューラルネットワーク等で構成されている画像変換部11を学習しておき、その重みパラメータを求めておく必要がある。図5は、画像変換部11の重みパラメータを当該学習する際の構成である、一実施形態に係る学習装置20の機能ブロック図である。図示されるように、学習装置20は、画像変換部11、タスク部13、第一評価部14、圧縮部21、識別部23及び第二評価部24を有する。
【0049】
共通の符号が付されるように、図4及び図5の両方にそれぞれ存在する画像変換部11、圧縮部21及びタスク部13は、図4及び図5において同一の構成である。ただし、画像変換部11の重みパラメータは、学習装置20による学習によって逐次的に更新され、学習が完了した際の重みパラメータで構成される画像変換部11が、図4の認識装置10において用いられるものとなる。
【0050】
一方、図4及び図5で共通のタスク部13に関しては、画像に対して所定のタスク(姿勢推定など)を実行する任意の既存の畳込ニューラルネットワーク等で構成されており、図5の学習装置20による学習を行う時点において既に学習済みであるものとして、その重みパラメータが定まっているものである。(すなわち、学習装置20による学習において、タスク部13の重みパラメータが学習されて更新されることは基本的にはないが、タスク精度が十分に保てない場合にはファインチューニングを行ってタスク部13の重みパラメータを更新しても良い。その場合、通常の画像のタスク精度は低下するが、画像変換器の出力画像に対してはタスクの精度が向上する。)
【0051】
図6は、一実施形態に係る学習装置20による学習のフローチャートであり、既存手法であるGANを利用した学習を行う手順を示すものである。学習装置20による図6の当該手順はステップS11,S12,S13で構成されるが、これらはそれぞれ、従来学習構成200による図3のステップS101,S102,S103に対応しており、従来学習構成200における各部を、学習装置20の各部に以下のように読み替えてステップS101,S102,S103を実施したものが、図6のステップS11,S12,S13にそれぞれ相当する。(従って、図6の各ステップに関して、処理主体となる機能部を図2のものから図5のものへと読み替えることによって図3の各ステップに対応しているため、重複する説明は省略する。)
【0052】
すなわち、「読み替え前の従来学習構成200の構成→読み替え後の学習装置20の構成」という形で読み替えの対応関係を示すと、「ターゲット画像生成部201→圧縮部21」、「従来識別部203→識別部23」、「従来第二評価部204→第二評価部24」、「従来画像変換部101→画像変換部11」、「従来タスク部103→タスク部13」及び「従来第一評価部104→第一評価部14」という対応関係で、読み替えることができる。学習の際のGAN接続やタスク接続に関しても、これら読み替えにより同様に定義される。
【0053】
上記対応関係において、「ターゲット画像生成部201及び圧縮部21」のみが互いに相違する処理を行う関係にあり、その他は全て、学習の際の各ステップにおいて同一の処理を行う関係にある。換言すれば、本実施形態では、従来学習構成200のターゲット画像生成部201を圧縮部21に置き換えたものとして学習装置20を用意し、図3の各ステップと同様である図6の各ステップを学習装置20において実行することで、結果的に、その重みパラメータが学習される画像変換部11が、図4の認識装置10において説明した通りの、圧縮効率に優れプライバシー保護されており、且つ、タスク部13による認識処理にも適した画像を出力可能なものとして得られることとなる。
【0054】
本実施形態において上記のように、(従来手法において用いられていたターゲット画像生成部201に代わるものとして、)学習装置20に圧縮部21を設けることは、次のような独自の知見に基づくものである。すなわち、圧縮部21ではユーザ指定される圧縮設定に従って、JPEG等の非可逆圧縮を行うことで、訓練用画像からリアル画像を得る。ここで、非可逆圧縮は劣化を伴うため、非可逆圧縮されデータサイズが小さくなったリアル画像は、そのまま、プライバシー保護画像としても利用可能である、という知見である。
【0055】
従って、敵対的学習の枠組みに即した図6のフローにより、画像変換部101は、圧縮部21によって圧縮された画像に類似するものとして、圧縮効率が高く、プライバシー保護も実現されている画像であって、且つ、タスク部13による認識にも適している画像を出力することができるものとして、敵対的関係にある識別部23と共にその重みパラメータを学習することが可能となる。
【0056】
図7は、図5とは別の一実施形態に係る学習装置20の機能ブロック図であり、図8は、図7の構成における一実施形態に係る学習装置20による学習のフローチャートである。
【0057】
図5及び図6の実施形態では敵対的学習の枠組みを利用して画像変換部11の重みパラメータを学習したのに対して、図7及び図8の実施形態では敵対的学習の枠組みを利用せずに画像変換部11の重みパラメータを学習することができる。敵対的学習の枠組みを利用しないことにより、図7の学習装置20は、図5の構成から識別部23が除外された構成となる。
【0058】
図7の学習装置20における第二評価部24は、図5における処理(識別部23の識別結果の評価処理)とは異なる処理として、次のような処理を行う。すなわち、図7の第二評価部24は、圧縮部21が訓練用画像を圧縮して得る圧縮画像と、画像変換部11が訓練用画像を変換して得るプライバシー保護画像と、を読み込み、所定のコスト関数により、これら2画像の相違が大きいほどその値が大きくなるようなコストを算出する。一実施形態では、圧縮画像とプライバシー保護画像との平均二乗誤差(MSE、当該2画像の差分画像の画素値の二乗和を画素数で割ったもの)として、図7の第二評価部24はコストを算出することができる。あるいは、差分画像の絶対値和の画素数平均により、コストを算出してもよい。
【0059】
一方、図7の学習装置20における第二評価部24以外の構成である圧縮部21、画像変換部11、タスク部13及び第一評価部14のそれぞれの処理内容に関しては、図5の学習装置20における処理内容と共通である。以下、図8のフローの各ステップを説明する。
【0060】
図8のフローの開始時には予め、画像変換部11の重みパラメータの初期値を設定しておく。(なお、タスク部13に関しては図5及び図6の実施形態と同様に、既に重みパラメータが学習済みの状態にある。)図8のフローが開始されると、ステップS21において、画像変換部11の学習を行い、その重みパラメータを更新してから、ステップS22へと進む。ステップS21では具体的に以下の(21)~(22A)又は(22B)で示される一連の学習手順により、画像変換部11の重みパラメータを更新することができる。手順(22A)と(22B)とは、基本的にはそのいずれかを用いればよい。(両方用いてもよい。)
【0061】
(21) 学習データとして与えられる訓練用画像を、画像変換部11で変換することによりプライバシー保護画像を得て、且つ、当該訓練用画像を圧縮部21で圧縮することにより圧縮画像を得る。当該プライバシー保護画像及び圧縮画像を第二評価部24で評価することにより、コストを計算する。また、当該プライバシー保護画像をタスク部13で認識して認識結果を得て、この認識結果を第一評価部14において学習データとして与えられる正解と照合することにより評価して、認識結果に対するコストを算出する。当該コストは、(図5及び図6の第一評価部14と同様である図2及び図3の従来第一評価部104と同様に、)認識結果が正解に近ければ低コスト値とし、正解に近くなければ高コスト値となるように、第一評価部14において所定のコスト関数を用いて算出する。
【0062】
(22A) 複数の訓練用画像をミニバッチに分け、バッチごとにコスト(誤差)の順伝播計算を行い、バッチごとに、第一評価部14の出力したコストまたは第二評価部24の出力したコストを計算する。GAN接続構成(図5に対応するものとして図7に関して画像変換部11、圧縮部21及び第二評価部24の構成(図5での識別部23を除外した構成)として定義)の場合は、第二評価部の出力したコストを用いて逆方向に、第二評価部24→画像変換部11の誤差逆伝播法の計算を行うことで、確率的勾配降下法等を用いて画像変換部11の重みパラメータを更新する。また、タスク接続構成(図7に関して図5と同様に定義)の場合は、第一評価部14の出力したコストを用いて、逆方向に、第一評価部14→タスク部13→画像変換部11の誤差逆伝播法の計算を行うことで、確率的勾配降下法等を用いて画像変換部11の重みパラメータを更新する。以上のGAN接続構成の逆伝播、タスク接続構成の逆伝播を交互に行い、画像変換部11の重みパラメータは学習される。
【0063】
(22B) 総合コストを用いる場合には、複数の訓練用画像(GAN接続構成とタスク接続構成とで共通の訓練用画像)について、コスト(誤差)の順伝播計算を行い、当該両接続構成において共通の訓練用画像ごとに、第一評価部14の出力したコストと第二評価部24の出力したコストとの所定の重みづけ和としての総合コストを計算し、当該総合コストを用いて(GAN接続構成上を)逆方向に、第二評価部24→画像変換部11及び第一評価部14→タスク部13→画像変換部11の誤差逆伝播法の計算を行うことで、確率的勾配降下法等を用いて画像変換部11の重みパラメータを更新してもよい。
【0064】
当該手順(22A)または(22B)のコストを用いた更新により、図5及び図6による敵対的学習の枠組み利用の場合と同様にこの図7及び図8の実施形態においても、画像変換部11で変換して得られるプライバシー保護画像が、圧縮部21で圧縮した画像と類似することでプライバシー保護及びファイルサイズ削減の要求を満たし、且つ、タスク部13による認識にも適した画像となることが期待される。
【0065】
ステップS22では学習が収束したか否かを判定し、収束していれば当該時点での画像変換部11の重みパラメータを最終的な学習結果として得たうえで図8のフローを終了し、収束していなければステップS21に戻ることにより、以上説明した通りの学習(ステップS21)がさらに継続して実施されることとなる。ステップS22での収束判定は、図3のステップS103や図6のステップS13と同様にして例えば、訓練用画像とは別途のテスト用画像を用いることで手順(22B)の総合コストや手順(22A)の第一評価部14のコスト及び第二評価部24のコストを計算して学習モデルの精度を評価し、当該精度の向上(向上の履歴)が収束したか否かによって判定すればよい。また、単純に所定のエポック数で学習を切り上げても良い。
【0066】
以上、図4図8等を参照して説明した本発明の各実施形態によれば、訓練用画像を画像変換部11で変換したプライバシー保護画像に対するタスク部13での認識結果を第一評価部14で評価した第1コストと、訓練用画像を圧縮部21で変換した圧縮画像とプライバシー保護画像との類似性を第二評価部24で評価した第2コストとを用いてニューラルネットワーク構造の画像変換部11の重みパラメータを学習することで、学習結果として得られる画像変換部11が、プライバシー保護、圧縮効率及びタスク部13での認識性能の3つの点の全てにおいて優れた画像を出力することが可能となる。既に説明したように、第1コスト及び第2コストを用いた学習として、各々のコストの交互の最小化や、重みづけ和として求まる総合コストの最小化がなされるように学習することが可能である。
【0067】
以下、種々の補足例や追加例などに関する説明を行う。
【0068】
(1) 図4図8の各実施形態で共通して用いられる圧縮部21に関して、以下のようにしてもよい。圧縮部21による圧縮は、例えば、周波数変換を用いる画像圧縮(基底にDCT(離散コサイン変換)を用いるJPEGや、基底にウェーブレット変換を用いるJPEG2000等)により、以下の(i)~(iii)の観点でユーザ指定される圧縮設定の下において行うことができる。
【0069】
(i) JPEGやJPEG2000圧縮であれば品質値が全体の半分以下となるように圧縮した低品質圧縮画像を得るように、設定してよい。JPEGであれば、量子化により多くの高周波成分が0となる。これにより、服のテクスチャなどのエッジに関するプライバシーを保護しやすくなり、圧縮率も高くなる。
【0070】
(ii)-a JPEGのDCT成分やJPEG2000のウェーブレット変換後の最小周波数成分を全て同一値(例:中間値が望ましい。0―1階調なら0.5)とする。これにより、大半のグラデーションがなくなり、肌等のプライバシーを保護しやすくなる。また、DCT係数の情報削減により圧縮率も高くなる。
【0071】
(ii)-b JPEGのDCT成分やウェーブレット変換後の最小周波数成分を数個の値(例:2値から8値)とする。これにより、微細なグラデーションがなくなり、肌等のプライバシーを保護しやすくなる。また、DCT係数の情報削減により圧縮率も高くなる。
【0072】
すなわち、(ii)-aでは、変換後の最小周波数成分(の本来の値)を同一値に書き換えており、(ii)-bでは、変換後の最小周波数成分を粗く量子化する。通常は画像品質を確保するために低周波成分は細かく量子化し、粗く量子化されないが、ここでは粗く量子化するのが特徴である。
【0073】
(iii) 用いる周波数の基底を選択する、及び/又は、強度を変更する。すなわち、基底を選択する場合は、選択されなかった所定の基底の変換係数を削除することとなる。強度(変換係数)を変更する場合は、所定基底の変換係数を一定値に強制的に書き換えるか、係数の絶対値を変更することとなる。例えばDCTのDC成分以外においては、係数の絶対値を小さくすることで強度が弱くなる。
【0074】
基本的には、タスクの精度を下げにくい(i)-(iii)を随時選択・組み合わせるとよい。一般的な行動認識や画像認識タスクであれば、動きやグラデーションが分かる(i)と(iii) が 向く可能性が高く、(ii)は顔や骨格のキーポイントを抽出するタスクに向くと考えられる。また、タスクと(i)-(iii)の相性が不明である場合は、(iii)で複数の周波数基底を選択しても良い。例えば、低周波、高周波、その中間周波数成分に分け、それぞれの周波成分のみ、または、どれか2つの領域の周波数成分のみで難読化器(画像変換部)を学習し、タスクの精度劣化度を得た後に、用いる周波数成分を決定するようにしてもよい。周波数成分の分け方は3つに限らない。
【0075】
例えば、同じ大きさで顔を撮影した場合、FFT(高速フーリエ変換)を用いた空間周波数解析により、空間周波数の強度と年齢または性別には高い相関関係があることが、以下の特許文献やURL(「顔画像における表情や印象と空間周波数特性との関係」)で開示されるように、知られている。
特許05827225号(特願2012-521378)
https://www.jstage.jst.go.jp/article/itej/69/11/69_836/_pdf/-char/ja
【0076】
この考えを用いると、年齢や男女を隠すように、圧縮に用いる周波数の強度を変更してもよい。例えば、低周波の強度が大きいと女性に判別されやすく、高周波の強度が大きいと男性に判別されやすいことが分かっている。そこで、女性の画像においても高周波成分を男性的に見えるように強度を段階的に強くする等によりプライバシーを保護できると考えられる。そのような圧縮画像を訓練用画像全体に対して作っておいてもよい。
【0077】
(2) プライバシー保護と圧縮率向上の観点から、ダイナミックレンジ(階調数)は予め縮小したものを訓練用画像として用いてもよい。例えば、ダイナミックレンジを縮小しつつ画素値平均を128近辺とする、RGBそれぞれ256の階調数→8値化する、等が可能である。また、減色する、肌色など人に目立つ色を別の色(例:青、紫、緑等)に変換する等を行ってもよい。
【0078】
タスク部13の学習済みパラメータをさらに更新しつつ画像変換部11の学習を行う場合(前述したファインチューニングを行う場合)は、生成画像をそのままタスクに入力してもよいが、そうでない場合は、タスク実施前に元のダイナミックレンジや色数に戻してからタスクを実施すればよい。同様に、画像のプライバシー保護やデータ削減のため、圧縮前に、減色する、肌色など人に目立つ色を別の色(例:青、紫、緑等)に変換する、ダイナミックレンジを縮小する等行っても良い。この場合は、タスク実施前に元の色数や色、ダイナミックレンジを元に戻してからタスクを実施する。
【0079】
(3) タスクが姿勢推定である場合、姿勢推定可能な状態でプライバシーを保護する応用例は様々であるが、例えば以下がある。
・宅内で運動した画像をサーバに送信し、姿勢推定による画像解析を行い、アドバイスを受ける場合に、宅内撮影画像の人物・肌・服装・部屋などのプライバシーを守ることができる。
・ドライブレコーダーで撮影した車外の映像をサーバに送信する際に、歩行者の挙手姿勢、転倒姿勢等をAI(人工知能)で認識できる状態を保ちつつ歩行者のプライバシーを守ることができる。
・サーバに集められたドライブレコーダーで撮影した車外の映像の公開レベルをあげてデータを移管・公開する際に、歩行者の挙手姿勢、転倒姿勢等をAIで認識できる状態を保ちつつ歩行者のプライバシーを守ることができる。
・ドライブレコーダーで撮影した車内の映像から、運転者や同乗者の行為(携帯で電話している、後ろを向いている等)を検出できるようにしつつ、運転手や車内の同乗者のプライバシーを守り、映像をサーバに送信する・公開することができる。
【0080】
(4) 図4図8の各実施形態で共通して用いられる画像変換部11に関して、以下のようにしてもよい。
【0081】
画像変換部11を構成するネットワークの中間層または出力層に、圧縮予定の周波数基底(圧縮部21で圧縮に用いるのと共通の周波数基底)をカーネルとした畳込層を挿入する。例えば、8×8のDCT基底をカーネルとする。(特定層の全部ではなく、一部のみに当該周波数基底カーネルの畳込層を入れてもよい。)ストライド幅は圧縮部21での圧縮ブロックサイズとすることで、圧縮しやすい画像を変換するネットワークを学習により生成しやすくなることが期待される。基底は予め選択しておいても、実験的にタスク精度・圧縮率が高くなったネットワークで選択された基底の組み合わせを後から特定してもよい。また、強度を変更してもよい。強度調整は例えばカーネル値を予めスカラー倍することで実現する。
【0082】
カーネル値は、品質(Quality)ごとのJPEG等の量子化テーブル値を用いて、1/テーブル値でスカラー倍してもよい。テーブル値は範囲が広いため、2~8値化等を行っておくとよい。その後、2~8値化できるステップ状のアクティベーション関数で量子化することで、実際のJPEG圧縮を画像生成のニューラルネットにおいて、ある程度模擬することも可能である。
【0083】
学習する際は、挿入した周波数基底カーネルのみは重みの更新を行わない。つまり、固定値とし、他の層の重みのみ更新すればよい。
【0084】
なお、挿入したDCT層(周波数基底カーネルを含む層)の後段(直後でなくて良い)に逆量子化と逆DCTにあたるアップコンボリューション層(重みが固定され学習で更新されない層)を挿入してもよい。アップコンボリューション層が入ることで、周波数領域でなく空間領域に戻り、見た目でプライバシーを確認しやすくなること、また、JPEG圧縮を模擬した画像変換器とタスクを直接接続でき、学習時にタスク誤差の画像変換器への逆伝播もできるため、JPEG圧縮の影響を正しく推測できることが期待できる。通常は、画像変換器の後のJPEG圧縮は、学習時には考慮しないが、これによりある程度正しくJPEG圧縮の影響も考慮することが可能になることが期待できる。
【0085】
(5) 図9は、一般的なコンピュータ装置70におけるハードウェア構成を示す図であり、図4図8の各実施形態の認識装置10及び学習装置20はそれぞれ、このような構成を有する1つ以上のコンピュータ装置70として実現可能である。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサ72(GPU(グラフィック演算装置)や深層学習専用プロセッサ等)、CPU71や専用プロセッサ72にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77と、これらの間でデータを授受するためのバスBSと、を備える。
【0086】
認識装置10及び学習装置20の各部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又は専用プロセッサ72によって実現することができる。また、学習装置20による学習方法は、図6または図8の各ステップに対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又は専用プロセッサ72によって実施することができる。
【符号の説明】
【0087】
10…認識装置、20…学習装置
21…圧縮部、23…識別部、24…第二評価部、11…画像変換部、13…タスク部、14…第一評価部
図1
図2
図3
図4
図5
図6
図7
図8
図9