(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-04
(45)【発行日】2024-12-12
(54)【発明の名称】情報処理方法、情報処理システム、及び、情報処理装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20241205BHJP
G06V 10/70 20220101ALI20241205BHJP
【FI】
G06T7/00 350B
G06V10/70
(21)【出願番号】P 2022505033
(86)(22)【出願日】2021-01-27
(86)【国際出願番号】 JP2021002859
(87)【国際公開番号】W WO2021176899
(87)【国際公開日】2021-09-10
【審査請求日】2023-11-02
(32)【優先日】2020-03-02
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】P 2020145219
(32)【優先日】2020-08-31
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100109210
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】石井 育規
(72)【発明者】
【氏名】佐藤 智
【審査官】岡本 俊威
(56)【参考文献】
【文献】特開2009-110349(JP,A)
【文献】特開2019-096146(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/00-10/98
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実行される方法であって、
入力された画像にボケ除去処理を行って特徴量を出力する機械学習モデルである第1モデルの出力が、入力された画像に物体認識処理を行って物体認識結果を出力する機械学習モデルである第2モデルの入力となるように、前記第1モデルと前記第2モデルとが連結された第3モデルを取得し、
前記第3モデルにボケを含む訓練画像を入力して前記第3モデルから出力された前記物体認識結果と、前記訓練画像に対応する前記物体認識結果のリファレンスデータとの差が小さくなるように、機械学習により前記第3モデルを訓練し、
訓練された前記第3モデルを出力する
情報処理方法。
【請求項2】
前記第3モデルの訓練では、前記第3モデルが有する前記第1モデルのパラメータを更新する
請求項1に記載の情報処理方法。
【請求項3】
前記第3モデルの訓練では、さらに、前記第3モデルが有する前記第2モデルのパラメータを更新する
請求項2に記載の情報処理方法。
【請求項4】
前記第3モデルの訓練では、さらに、
前記訓練画像に含まれるボケの度合いを判定し、
前記ボケの度合いに応じて、前記第1モデル及び前記第2モデルのパラメータ更新度合いを決定し、
決定された前記パラメータ更新度合いに応じて、前記第3モデルが有する前記第1モデル及び前記第2モデルのパラメータを更新する
請求項3に記載の情報処理方法。
【請求項5】
前記パラメータ更新度合いの決定では、
前記ボケの度合いが閾値より大きい場合、前記第1モデルの前記パラメータ更新度合いを前記第2モデルの前記パラメータ更新度合いより大きく決定する
請求項4に記載の情報処理方法。
【請求項6】
前記パラメータ更新度合いの決定では、
前記ボケの度合いが閾値より小さい場合、前記第1モデルの前記パラメータ更新度合いを前記第2モデルの前記パラメータ更新度合いより小さく決定する
請求項4に記載の情報処理方法。
【請求項7】
前記第3モデルの訓練では、さらに、
前記第1モデルの性能を判定し、
前記性能に応じて、前記第1モデルおよび前記第2モデルのパラメータ更新度合いを決定し、
決定された前記パラメータ更新度合いに応じて、前記第3モデルが有する前記第1モデル及び前記第2モデルのパラメータを更新する
請求項3に記載の情報処理方法。
【請求項8】
前記パラメータ更新度合いの決定では、
前記性能が閾値より高い場合、前記第1モデルの前記パラメータ更新度合いを前記第2モデルの前記パラメータ更新度合いより小さく決定する
請求項7に記載の情報処理方法。
【請求項9】
前記パラメータ更新度合いの決定では、
前記性能が閾値より低い場合、前記第1モデルの前記パラメータ更新度合いを前記第2モデルの前記パラメータ更新度合いより大きく決定する
請求項7に記載の情報処理方法。
【請求項10】
前記訓練画像は、マルチピンホールカメラの撮像により得られた画像を含む
請求項1~9のいずれか1項に記載の情報処理方法。
【請求項11】
前記訓練画像は、所定の画像に点広がり関数を畳み込むことにより得られた画像を含む
請求項1~9のいずれか1項に記載の情報処理方法。
【請求項12】
入力された画像にボケ除去処理を行って特徴量を出力する機械学習モデルである第1モデルの出力が、入力された画像に物体認識処理を行って物体認識結果を出力する機械学習モデルである第2モデルの入力となるように、前記第1モデルと前記第2モデルとが連結された第3モデルを取得する取得部と、
前記第3モデルにボケを含む訓練画像を入力して前記第3モデルから出力された前記物体認識結果と、前記訓練画像に対応する前記物体認識結果のリファレンスデータとの差が小さくなるように、機械学習により前記第3モデルを訓練する訓練部と、
訓練された前記第3モデルを出力する出力部とを備える
情報処理システム。
【請求項13】
ボケを含む画像を取得する取得部と、
前記ボケを含む画像を、入力された画像にボケ除去処理を行って特徴量を出力する機械学習モデルである第1モデルの出力が、入力された画像に物体認識処理を行って物体認識結果を出力する機械学習モデルである第2モデルの入力となるように、前記第1モデルと前記第2モデルとが連結された第3モデルに入力して前記物体認識結果を取得する制御部と、
取得された前記物体認識結果に基づく情報を出力する出力部と、を備え
前記第3モデルは、ボケを含む訓練画像が入力され前記第3モデルから出力された前記物体認識結果と、前記訓練画像に対応する前記物体認識結果のリファレンスデータとを用いて機械学習により訓練された機械学習モデルである
情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理方法、情報処理システム、及び、情報処理装置に関する。
【背景技術】
【0002】
近年、プライバシーが保護されるように画像を加工する技術が研究開発されている。例えば、非特許文献1では、画像に映る人の顔を検出し、顔部分にボケ処理を施すことが開示されている。また、非特許文献2では、画像に映る人を検出し、人部分を他の画像に置き換えることが開示されている。
【0003】
他方で、画像を用いた機械学習による物体認識により、画像に映る物体又は文字など(以下、単に物体とも称する)の認識が行われている。機械学習による物体認識を行う場合、認識精度を向上させる観点から、入力される画像は、焦点が合っている画像(輪郭がはっきりしている画像)であることが望まれる。例えば、特許文献1には、入力された画像から輪郭が強調された輪郭強調画像を生成することが可能な画像処理装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【文献】Nodari, A., Vanetti, M., Gallo, I.: Digital privacy: Replacing pedestrians from google street view images. In: Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012). pp. 2889-2893. IEEE (2012)
【文献】Fernandes, F.E., Yang, G., Do, H.M., Sheng, W.: Detection of privacy-sensitive situations for social robots in smart homes. In: 2016 IEEE International Conference on Automation Science and Engineering (CASE). pp. 727-732. IEEE (2016)
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記のような従来技術では、画像に映る物体に関するプライバシーを保護しつつ、画像に映る物体を物体認識モデルに認識させることが難しい。例えば、非特許文献1及び2の技術により加工された画像を用いた物体認識では認識結果が悪化することが多い。また、上記特許文献1に開示された技術では、画像に写っている物体等に関するプライバシーの保護が考慮されていない。
【0007】
そこで、本開示は、画像に映る物体に関するプライバシーを保護しつつ、物体認識における認識性能の低下を抑制することができる情報処理方法、情報処理システム、及び、情報処理装置を提供する。
【課題を解決するための手段】
【0008】
本開示の一態様に係る情報処理方法は、コンピュータにより実行される方法であって、入力された画像にボケ除去処理を行って特徴量を出力する機械学習モデルである第1モデルの出力が、入力された画像に物体認識処理を行って物体認識結果を出力する機械学習モデルである第2モデルの入力となるように、前記第1モデルと前記第2モデルとが連結された第3モデルを取得し、前記第3モデルにボケを含む訓練画像を入力して前記第3モデルから出力された前記物体認識結果と、前記訓練画像に対応する前記物体認識結果のリファレンスデータとの差が小さくなるように、機械学習により前記第3モデルを訓練し、訓練された前記第3モデルを出力する。
【0009】
本開示の一態様に係る情報処理システムは、入力された画像にボケ除去処理を行って特徴量を出力する機械学習モデルである第1モデルの出力が、入力された画像に物体認識処理を行って物体認識結果を出力する機械学習モデルである第2モデルの入力となるように、前記第1モデルと前記第2モデルとが連結された第3モデルを取得する取得部と、前記第3モデルにボケを含む訓練画像を入力して前記第3モデルから出力された前記物体認識結果と、前記訓練画像に対応する前記物体認識結果のリファレンスデータとの差が小さくなるように、機械学習により前記第3モデルを訓練する訓練部と、訓練された前記第3モデルを出力する出力部とを備える。
【0010】
本開示の一態様に係る情報処理装置は、ボケを含む画像を取得する取得部と、前記ボケを含む画像を、入力された画像にボケ除去処理を行って特徴量を出力する機械学習モデルである第1モデルの出力が、入力された画像に物体認識処理を行って物体認識結果を出力する機械学習モデルである第2モデルの入力となるように、前記第1モデルと前記第2モデルとが連結された第3モデルに入力して前記物体認識結果を取得する制御部と、取得された前記物体認識結果に基づく情報を出力する出力部と、を備え前記第3モデルは、ボケを含む訓練画像が入力され前記第3モデルから出力された前記物体認識結果と、前記訓練画像に対応する前記物体認識結果のリファレンスデータとを用いて機械学習により訓練された機械学習モデルである。
【発明の効果】
【0011】
本開示の一態様に係る情報処理方法等によれば、画像に映る物体に関するプライバシーを保護しつつ、物体認識における認識性能の低下を抑制することができる。
【図面の簡単な説明】
【0012】
【
図1】
図1は、実施の形態に係る情報システムの機能構成を示すブロック図である。
【
図2】
図2は、実施の形態に係る情報処理システムにおける顔復元型認識NWモデルの訓練手順を模式的に示す図である。
【
図3】
図3は、実施の形態に係る情報処理システムにおける、顔復元NWモデルの訓練処理を示すフローチャートである。
【
図4】
図4は、実施の形態に係る情報処理システムにおける、顔認識NWモデルの訓練処理を示すフローチャートである。
【
図5】
図5は、実施の形態に係る情報処理システムにおける、顔復元型認識NWモデルの訓練処理を示すフローチャートである。
【
図6】
図6は、実施の形態に係る情報処理装置における、顔復元型認識NWモデルを用いた認識処理を示すフローチャートである。
【
図7】
図7は、ボケ画像生成部により生成されたボケ画像を訓練画像として顔復元型認識NWモデルを訓練した場合の、訓練条件ごとの認識性能の比較を示す図である。
【
図8】
図8は、マルチピンホールカメラにより撮像されたボケ画像を訓練画像として顔復元型認識NWモデルを訓練した場合の、訓練条件ごとの認識性能の比較を示す図である。
【
図9】
図9は、実施の形態の変形例1に係る情報処理システムにおける、顔復元型認識NWモデルの訓練処理を示すフローチャートである。
【
図10】
図10は、実施の形態の変形例2に係る情報処理システムにおける、顔復元型認識NWモデルの訓練処理を示すフローチャートである。
【発明を実施するための形態】
【0013】
(本開示に至った経緯)
本開示の実施の形態の説明に先立ち、本開示に至った経緯について説明する。
【0014】
近年、室内外に監視カメラ等のカメラが広く設置されており、屋内での人の様子、通行人の顔、自動車のナンバープレートなど、プライバシーを含む画像が取得されやすくなっている。物体認識の一例である顔認識をそのような画像に対して行うことで、個人に適した家電制御を行う、個人に適したインタラクションを得るなど、顔認識結果を様々な用途に用いることが可能となる。
【0015】
一方で、カメラで撮像された画像に映る物体に関するプライバシー保護の重要性が高まっている。プライバシー保護の観点から非特許文献1及び2に開示されたような加工された画像を用いて物体認識を行う場合、認識結果が悪化することが多い。さらに、非特許文献1及び2に開示された技術では、加工前の画像が外部に流出する等の危険があるのでプライバシーの保護が不十分である。また、特許文献1に開示された技術では、画像に映っている物体等に関するプライバシーの保護が考慮されていない。
【0016】
そこで、本開示では、画像に映る物体に関するプライバシー保護の観点から、マルチピンホールカメラを用いて物体を撮像する。詳細は後述するが、マルチピンホールカメラで撮像された画像(マルチピンホール画像:MPH画像)は、視差特性を含んだ画像となる。言い換えると、MPH画像は、ボケを含む画像(ボケ画像)である。これにより、取得される画像がボケ画像となるので、物体のプライバシーを保護することが可能となる。なお、マルチピンホールカメラは、マルチピンホールが形成されたマルチピンホールマスクを有するカメラである。
【0017】
このようなMPH画像に対して、例えば、機械学習により生成された物体認識モデルを用いて物体認識が行われる。当該物体認識モデルは、マルチピンホールカメラで撮像されたMPH画像が入力されても、つまりボケ画像が入力されても、物体認識を精度よく行うことが求められる。しかしながら、マルチピンホールカメラ特有のボケを有する画像であるMPH画像を物体認識する物体認識モデルを効果的に訓練する、つまり認識性能の低下を抑制することが困難である。
【0018】
そこで、本願発明者らは、プライバシーの保護が可能であるMPH画像等の画像に対して物体認識する物体認識モデルにおける認識性能の低下を抑制することについて鋭意検討を行い、以下に示す情報処理方法等を創案した。以下に示す情報処理方法等を用いて訓練された物体認識モデルは、画像を用いた物体の物体認識における物体に関するプライバシーを保護しつつ、物体認識における認識性能の低下を抑制することができる。なお、以下では、物体認識モデルが人物の顔を認識する顔認識モデル(物体認識モデルの一例)である場合について説明するが、これに限定されない。本開示は、顔認識モデル以外の物体認識モデルにおいても、適用可能である。
【0019】
本開示の一態様に係る情報処理方法は、コンピュータにより実行される方法であって、入力された画像にボケ除去処理を行って特徴量を出力する機械学習モデルである第1モデルの出力が、入力された画像に物体認識処理を行って物体認識結果を出力する機械学習モデルである第2モデルの入力となるように、前記第1モデルと前記第2モデルとが連結された第3モデルを取得し、前記第3モデルにボケを含む訓練画像を入力して前記第3モデルから出力された前記物体認識結果と、前記訓練画像に対応する前記物体認識結果のリファレンスデータとの差が小さくなるように、機械学習により前記第3モデルを訓練し、訓練された前記第3モデルを出力する。
【0020】
これにより、第3モデルは、訓練時にボケを含む訓練画像が入力画像として用いられるので、認識時にボケを含む画像が入力されても物体認識を適切に行うことができる。つまり、第3モデルは、プライバシーが保護されていないボケを含まない画像を用いることなく、物体認識を適切に行うことができる。また、第3モデルは、第1モデル及び第2モデルが連結されて一体的に訓練されるので、第1モデルの出力が第2モデルの物体認識性能が向上するように変化する。そのため、第1モデル及び第2モデルが独立して利用される(例えば、第1モデル及び第2モデルが独立して訓練される)場合に比べて、物体認識の精度を向上させることができる。また、第3モデルは、第1モデル及び第2モデルが連結されて一体化しているので、第1モデルの出力が外部に流出することがない。そのため、第1モデルと第2モデルとが独立している場合に比べて、プライバシー保護を強化することができる。また仮に、第1モデルの出力が外部に流出したとしても、第1モデルは第2モデルと連結されて一体的に訓練されることにより第1モデルの出力が人にとって認識不能な値に変化するため、プライバシーは保護される。よって、本開示の一態様に係る情報処理方法によれば、画像を用いた物体の物体認識における物体のプライバシーを保護しつつ、物体認識における認識性能の低下を抑制することができる。なお、上記のように第1モデルの出力は、第3モデルの訓練により変化するが、値が画像として扱える範囲に収まるデータであってよいし、値が画像として扱える範囲に収まらないデータであってもよい。例えば、後述のように、第1モデルの出力は、第2モデルに入力可能なサイズのテンソルであれば値は任意である。
【0021】
また、例えば、前記第3モデルの訓練では、前記第3モデルが有する前記第1モデルのパラメータを更新してもよい。
【0022】
これにより、第1モデルは、第2モデルによる物体認識により適した特徴量を出力可能となる。よって、第3モデルによる認識性能の低下をより抑制することができる。
【0023】
また、例えば、前記第3モデルの訓練では、さらに、前記第3モデルが有する前記第2モデルのパラメータを更新してもよい。
【0024】
これにより、第2モデルは、第1モデルからの特徴量により適した認識結果を出力可能となる。よって、第3モデルによる認識性能の低下をより抑制することができる。
【0025】
また、例えば、前記第3モデルの訓練では、さらに、前記訓練画像に含まれるボケの度合いを判定し、前記ボケの度合いに応じて、前記第1モデル及び前記第2モデルのパラメータ更新度合いを決定し、決定された前記パラメータ更新度合いに応じて、前記第3モデルが有する前記第1モデル及び前記第2モデルのパラメータを更新してもよい。
【0026】
これにより、訓練画像のボケの度合いに応じてパラメータ更新度合いが決定されるので、訓練画像のボケの度合いに応じて効果的にパラメータの更新を行うことができる。
【0027】
また、例えば、前記パラメータ更新度合いの決定では、前記ボケの度合いが閾値より大きい場合、前記第1モデルの前記パラメータ更新度合いを前記第2モデルの前記パラメータ更新度合いより大きく決定してもよい。また、例えば、前記パラメータ更新度合いの決定では、前記ボケの度合いが閾値より小さい場合、前記第1モデルの前記パラメータ更新度合いを前記第2モデルの前記パラメータ更新度合いより小さく決定してもよい。
【0028】
これにより、訓練画像のボケの度合いによらず、第2モデルによる物体認識に有効な特徴量を出力することができるように、第1モデルを効果的に訓練することができる。例えば、ボケの度合いが閾値より高い場合は、第1モデルのパラメータ更新度合いを大きくして物体認識に対するボケの影響がより抑制される特徴量を出力するように第1モデルを訓練できる。また、ボケの度合いが閾値より低い場合は、第1モデルのパラメータ更新度合いを小さくして物体認識に対する第2モデルのパラメータの更新度合いを相対的に大きくすることができ、認識性能が向上するように第1モデルを訓練できる。
【0029】
また、例えば、前記第3モデルの訓練では、さらに、前記第1モデルの性能を判定し、前記性能に応じて、前記第1モデルおよび前記第2モデルのパラメータ更新度合いを決定し、決定された前記パラメータ更新度合いに応じて、前記第3モデルが有する前記第1モデル及び前記第2モデルのパラメータを更新してもよい。
【0030】
これにより、第1モデルの性能に応じてパラメータ更新度合いが決定されるので、第1モデルの性能に応じて効果的にパラメータの更新を行うことができる。
【0031】
また、例えば、前記パラメータ更新度合いの決定では、前記性能が閾値より高い場合、前記第1モデルの前記パラメータ更新度合いを前記第2モデルの前記パラメータ更新度合いより小さく決定してもよい。また、例えば、前記パラメータ更新度合いの決定では、前記性能が閾値より低い場合、前記第1モデルの前記パラメータ更新度合いを前記第2モデルの前記パラメータ更新度合いより大きく決定してもよい。
【0032】
これにより、第2モデルにおける物体認識に有効な特徴量を出力できるように、第1モデルを第1モデルの性能に応じて効果的に訓練することができる。例えば、性能が閾値より高い場合は、第1モデルのパラメータ更新度合いを小さくして特徴量が過剰に変化しないように第1モデルを訓練できる。また、性能が閾値より低い場合は、第1モデルのパラメータ更新度合いを大きくして物体認識性能が向上するだけの特徴量に変化するように第1モデルを訓練できる。
【0033】
また、例えば、前記訓練画像は、マルチピンホールカメラの撮像により得られた画像を含んでもよい。
【0034】
これにより、マルチピンホールカメラで撮像された画像が入力されても、適切な物体認識結果を出力可能な第3モデルを生成することができる。また、マルチピンホールカメラで撮像された画像は、ボケを多く含む画像であり、物体に対するプライバシー保護の効果をより高めることができる。
【0035】
また、例えば、前記訓練画像は、所定の画像に点広がり関数を畳み込むことにより得られた画像を含んでもよい。
【0036】
これにより、マルチピンホールカメラで撮影された画像と同一又は当該画像に近い訓練画像を生成することができる。つまり、マルチピンホールカメラで訓練画像を取得するための撮像を行うことなく、訓練画像を取得することができる。よって、機械学習用の訓練画像を容易に生成することができる。
【0037】
また、本開示の一態様に係る情報処理方法は、入力された画像にボケ除去処理を行って特徴量を出力する機械学習モデルである第1モデルの出力が、入力された画像に物体認識処理を行って物体認識結果を出力する機械学習モデルである第2モデルの入力となるように、前記第1モデルと前記第2モデルとが連結された第3モデルを取得する取得部と、前記第3モデルにボケを含む訓練画像を入力して前記第3モデルから出力された前記物体認識結果と、前記訓練画像に対応する前記物体認識結果のリファレンスデータとの差が小さくなるように、機械学習により前記第3モデルを訓練する訓練部と、訓練された前記第3モデルを出力する出力部とを備える。
【0038】
これにより、上記の情報処理方法と同様の効果を奏する。
【0039】
また、本開示の一態様に係る情報処理装置は、ボケを含む画像を取得する取得部と、前記ボケを含む画像を、入力された画像にボケ除去処理を行って特徴量を出力する機械学習モデルである第1モデルの出力が、入力された画像に物体認識処理を行って物体認識結果を出力する機械学習モデルである第2モデルの入力となるように、前記第1モデルと前記第2モデルとが連結された第3モデルに入力して前記物体認識結果を取得する制御部と、取得された前記物体認識結果に基づく情報を出力する出力部と、を備え前記第3モデルは、ボケを含む訓練画像が入力され前記第3モデルから出力された前記物体認識結果と、前記訓練画像に対応する前記物体認識結果のリファレンスデータとを用いて機械学習により訓練された機械学習モデルである。
【0040】
これにより、上記の情報処理方法と同様の効果を奏する。
【0041】
さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
【0042】
以下、本開示の一態様に係る情報処理方法、情報処理システム、及び、情報処理装置の具体例について、図面を参照しながら説明する。ここで示す実施の形態は、いずれも本開示の一具体例を示すものである。従って、以下の実施の形態で示される数値、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
【0043】
また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、例えば、各図において縮尺などは必ずしも一致しない。また、各図において、実質的に同一の構成については同一の符号を付しており、重複する説明は省略又は簡略化する。
【0044】
また、本明細書において、同一などの要素間の関係性を示す用語、並びに、数値、および、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度(例えば、5%程度)の差異をも含むことを意味する表現である。
【0045】
(実施の形態)
以下、本実施の形態に係る情報処理システム等について、
図1~
図8を参照しながら説明する。
【0046】
[1.情報システムの構成]
まずは、本実施の形態に係る情報システムの構成について、
図1を参照しながら説明する。
図1は、本実施の形態に係る情報システム10の機能構成を示す図である。情報システム10は、顔認識のための機械学習モデルをMPH画像などのボケ画像を用いて訓練し、訓練された機械学習モデルを用いて物体認識を行うシステムである。
【0047】
図1に示すように、情報システム10は、マルチピンホールカメラ100と、情報処理システム200と、情報処理装置300とを備える。マルチピンホールカメラ100及び情報処理システム200、マルチピンホールカメラ100及び情報処理装置300、情報処理システム200及び情報処理装置300はそれぞれ、通信可能に接続されている。なお、以下において、マルチピンホールカメラ100をMPHカメラ100とも記載する。また、訓練時においては、MPHカメラ100は備えられなくてもよい。
【0048】
MPHカメラ100は、1回の撮像動作で物体(被写体)に対する視点が互いに異なる複数の画像(ピンホール画像:PH画像)を同時に取得可能である。MPHカメラ100は、レンズレスマルチピンホールカメラとも称される。MPHカメラ100は、複数のピンホール(マルチピンホール)を用いたカメラであり、マルチピンホールマスクとイメージセンサとを有する。マルチピンホールマスクは、イメージセンサに対して物体側に一定距離離れて配置されている。つまり、イメージセンサには、マルチピンホールマスクを通過した光が入射する。マルチピンホールマスクには、ランダム又は等間隔に配置された複数のピンホールが形成されている。なお、複数のピンホールは、例えば、2以上のピンホールであれば数は特に限定されない。
【0049】
イメージセンサは、各ピンホールを通じて物体の画像(MPH画像)を取得する。MPH画像は、各ピンホールを介して取得される画像である。各ピンホールの位置及び大きさによって、取得されるPH画像が異なる。イメージセンサは、複数のPH画像の重畳画像(符号化画像)をMPH画像として取得する。MPH画像は、人が視覚的に認識できない画像であり得るが、コンピュータ処理を用いれば、撮像対象の物体及び周辺環境等の画像に含まれる情報の取得が可能な画像である。
【0050】
なお、本明細書において、MPHカメラ100のようなマルチピンホールマスクを備える種類のカメラ以外の種類のカメラで撮像された、マルチピンホールマスクにより生じるボケを含まない画像をボケ無し画像とも記載する。ボケ無し画像は、例えば、光学系を通して撮像される画像である。ボケ無し画像は、通常、光学系により集光された物体からの光を結像することによって取得される。光学系の一例は、レンズである。物体が存在する環境下で、人が物体を直接見たとき、人はボケ無し画像とほぼ同様の状態で、当該物体を知覚する。言い換えると、人は、通常のカメラ(例えば、レンズを有するカメラ)で撮像されたボケ無し画像を、実空間の状態と同様に視覚的に認識する。なお、通常のカメラは、マルチピンホールマスクを有していない。
【0051】
なお、本明細書において、ボケ画像及びボケ無し画像は、人物の顔が映る顔画像である。
【0052】
情報処理システム200は、MPHカメラ100で撮像されたボケ画像を入力画像(訓練画像)として、顔認識結果を出力する機械学習モデルである顔復元型認識NW(ニューラルネットワーク)モデルを生成する。顔認識結果は、例えば、2つのボケ画像に映る人物が同一人物であるか否かの判定結果であってもよいし、ボケ画像に映る人物の顔の特徴量であってもよい。
【0053】
情報処理システム200は、ボケ画像生成部210と、第1記憶部220と、第2記憶部230と、第3記憶部240と、第1訓練部250と、第4記憶部260と、第2訓練部270と、第5記憶部280とを有する。なお、ボケ画像生成部210及び第1記憶部220は、情報処理システム200に必須の構成ではない。また、第1記憶部220~第5記憶部280は、1つの記憶装置で実現されてもよいし、2以上の記憶装置により実現されてもよい。なお、顔復元型認識NWモデルは、物体認識モデルの一例である。
【0054】
ボケ画像生成部210は、第1記憶部220に記憶されているPSF(Point Spread Function:点像強度分布関数)の集合であるPSF集合と、第2記憶部230に記憶されているボケ無し画像とに基づいて、ボケ無し画像をボケさせたボケ画像を生成する。ボケ画像生成部210は、例えば、PSFを用いた畳み込み演算(畳み込み積分演算)をボケ無し画像に施すことでボケ画像を生成する。ボケ画像生成部210は、ボケ無し画像を複数の領域に分割し、分割した領域ごとに、当該領域に対応するPSFを用いて畳み込み演算を施してもよい。
【0055】
ボケ画像生成部210が生成したボケ画像は、後述する顔復元NWモデル及び顔復元型認識NWモデルの少なくとも一方の訓練時に用いられてもよいし、認識性能の確認時(後述する
図7を参照)に用いられてもよい。
【0056】
なお、PSF集合は、MPHカメラ100が撮像した画像から抽出されたPSFを含んでいてもよい。例えば、PSF集合は、MPHカメラ100が撮像した画像を複数の領域に分割し、分割した領域のそれぞれにおいて抽出されたPSFを含んでいてもよい。
【0057】
これにより、ボケ画像生成部210により生成されるボケ画像は、MPHカメラ100で撮像された画像に類似する画像となる。つまり、ボケ画像生成部210により生成されるボケ画像は、複数のPH画像が重畳されたような画像となる。ボケ画像生成部210により生成されるボケ画像は、人が視覚的に認識できない画像であり得るが、物体認識モデル(例えば、顔認識モデル)の訓練用の画像としては用いることが可能な画像である。
【0058】
第1記憶部220は、ボケ画像生成部210がボケ画像を生成するための複数のPSFを含むPSF集合を記憶する。PSFは、点光源を撮像したときの光学系による像のボケ方(劣化の仕方)を示すものであり、ボケたときの強度分布を表す関数である。PSFは、理想的な点光源が光学系を通過した場合に、どのように光線が広がるかを表した関数であるとも言える。PSFは、理想的にはインパルス応答となる。
【0059】
第2記憶部230は、第1訓練部250及び第2訓練部270での機械学習モデルの訓練に用いられる画像(訓練画像)を記憶する。第2記憶部230は、複数のボケ無し画像を含むボケ無し画像集合と、複数のボケ画像を含むボケ画像集合とを記憶する。ボケ無し画像集合は、通常のカメラが撮像した画像を含んでいてもよいし、インターネット上に公開されている訓練用のデータセットに含まれる画像を含んでいてもよい。ボケ画像集合は、ボケ画像生成部210が生成した画像を含んでいてもよいし、MPHカメラ100が撮像した画像を含んでいてもよいし、その両方の画像を含んでいてもよい。なお、通常のカメラで撮像された画像、及び、インターネット上に公開されている訓練用のデータセットに含まれる画像は、ボケ無し画像であり、所定の画像の一例である。
【0060】
第3記憶部240は、第1訓練部250及び第2訓練部270での機械学習モデルの訓練に用いられる教師データ(正解情報)を記憶する。教師データは、ボケ画像に対応するボケ無し画像、並びに、ボケ画像及びボケ無し画像に映る人物の特徴を含む情報(ID情報)である。
【0061】
第1訓練部250は、入力されたボケ画像にボケ除去処理を行って当該ボケ画像に対応するボケ無し画像の特徴量を出力する顔復元ニューラルネットワークモデル(顔復元NWモデル)、及び、特徴量が入力され当該特徴量に対応する顔認識結果を出力する顔認識ニューラルネットワークモデル(顔認識NWモデル)を個々に訓練する。第1訓練部250は、顔復元NW訓練部251と、顔認識NW訓練部252とを有する。
【0062】
顔復元NW訓練部251は、ボケ画像を入力画像とし、当該ボケ画像に対応するボケ無し画像を教師データとして、機械学習により顔復元NWモデルを訓練する。顔復元NWモデルは、入力された画像にボケ除去処理を行ってボケ除去処理後の特徴量を出力する機械学習モデルであり、第1モデルの一例である。顔復元NWモデルは、例えば、深層学習(Deep Learning)等のニューラルネットワーク(例えば、CNN(Convolutional Neural Network)を用いた機械学習モデルであるが、他の機械学習モデルであってもよい。顔復元NWモデルは、例えば、入力層、隠れ層及び出力層を有し、隠れ層は、畳み込み層とプーリング層とを含んで構成されていてもよい。なお、復元とは、ボケ画像からボケを除去することを含む。
【0063】
顔認識NW訓練部252は、ボケ無し画像を入力画像とし、当該ボケ無し画像に映る人物を識別するためのID情報を教師データとして、機械学習により顔認識NWモデルを訓練する。顔認識NWモデルは、入力された画像に顔認識処理を行って顔認識結果(物体認識結果の一例)を出力する機械学習モデルであり、第2モデルの一例である。顔認識NWモデルは、例えば、深層学習等のニューラルネットワークを用いた機械学習モデルであるが、他の機械学習モデルであってもよい。顔認識NWモデルは、既存の顔認識ネットワークが用いられてもよく、例えば、「SphereFace」、「CosFace」及び「ArcFace」などが用いられてもよい。
【0064】
第4記憶部260は、第1訓練部250により訓練された訓練済みの機械学習モデルを記憶する。第4記憶部260は、顔復元NW訓練部251により訓練された顔復元NWモデルと、顔認識NW訓練部252により訓練された顔認識NWモデルとを記憶する。なお、機械学習モデルを記憶するとは、機械学習モデルにおけるネットワークパラメータ、演算のアルゴリズム(機械学習アルゴリズム)などの情報を記憶することを意味する。
【0065】
第2訓練部270は、顔復元NWモデルと顔認識NWモデルとが連結された顔復元型認識ニューラルネットワークモデル(顔復元型認識NWモデル)を訓練する。顔復元NWモデル及び顔認識NWモデルが連結するとは、顔復元NWモデルの出力が顔認識NWモデルの入力となるように、情報の入出力を関係づけることである。顔復元NWモデルの出力及び顔認識NWモデルの入力は、顔復元型認識NWモデルにおける中間生成物となる。
【0066】
顔復元型認識NWモデルは、顔復元NWモデルと顔認識NWモデルとを用いてボケ画像から顔認識結果を出力する機械学習モデルであり、第3モデルの一例である。第2訓練部270は、顔復元型認識NW訓練部271を有する。
【0067】
顔復元型認識NW訓練部271は、ボケ画像を入力画像とし、当該ボケ画像に映る人物を識別するためのID情報を教師データとして、機械学習により顔復元型認識NWモデルを訓練する。顔復元型認識NW訓練部271は、訓練部の一例である。
【0068】
なお、第1訓練部250及び第2訓練部270における機械学習は、例えば、ディープラーニングなどにおける誤差逆伝播法(BP:BackPropagation)などによって実現される。
【0069】
第5記憶部280は、第2訓練部270により訓練された訓練済みの機械学習モデルを記憶する。第5記憶部280は、顔復元型認識NW訓練部271により訓練された顔復元型認識NWモデルを記憶する。
【0070】
なお、第1記憶部220~第5記憶部280は、半導体メモリなどにより実現されるが、これに限定されない。また、第1記憶部220~第5記憶部280は、互いに異なる記憶装置によって実現されてもよいし、1つの記憶装置によって実現されてもよい。
【0071】
情報処理システム200は、第5記憶部280に記憶されている訓練済みの顔復元型認識NWモデルを通信により情報処理装置300に出力する。これにより、情報処理装置300が有する第7記憶部320に顔復元型認識NWモデルを記憶させることができる。
【0072】
情報処理装置300は、訓練された物体認識モデルを用いて、物体認識を行う。本実施の形態では、情報処理装置300は、訓練された顔復元型認識NWモデルを用いて、顔認識を行う。情報処理装置300は、第6記憶部310と、第7記憶部320と、処理部330と、出力部340と、取得部350とを備える。
【0073】
第6記憶部310は、MPHカメラ100から通信により取得部350が取得した複数のボケ画像(MPH画像)を含むボケ画像集合を記憶する。当該ボケ画像は、訓練済みの顔復元型認識NWモデルによる顔認識を行う対象となる画像である。ボケ画像は、物体のプライバシーが保護された画像である。
【0074】
第7記憶部320は、情報処理システム200から出力された訓練済みの顔復元型認識NWモデルを記憶する。
【0075】
なお、第6記憶部310及び第7記憶部320は、半導体メモリなどにより実現されるが、これに限定されない。また、第6記憶部310及び第7記憶部320は、互いに異なる記憶装置によって実現されてもよいし、1つの記憶装置によって実現されてもよい。
【0076】
処理部330は、ボケ画像を顔復元型認識NWモデルに入力して顔認識結果を取得させる処理を行う。処理部330は、情報処理システム200によって訓練された顔復元型認識NWモデルに、第6記憶部310に記憶されたボケ画像を入力し、当該顔復元型認識NWモデルからの出力を顔認識結果として取得する。処理部330は、制御部の一例である。
【0077】
出力部340は、取得された顔認識結果に基づく情報を出力する。出力部340は、例えば、第1のボケ画像が顔復元型認識NWモデルに入力された出力である第1の顔認識結果と、第1のボケ画像と異なる第2のボケ画像が顔復元型認識NWモデルに入力された出力である第2の顔認識結果とに基づいて、第1のボケ画像に映る人物と、第2のボケ画像に映る人物とが同一人物であるか否かを判定し、判定結果を出力する。
【0078】
出力部340は、例えば、液晶ディスプレイなどの表示装置を含んで構成され、当該情報を表示により出力してもよいし、通信回路を含んで構成され、当該情報を通信により外部の装置に出力してもよい。
【0079】
取得部350は、MPHカメラ100からボケ画像を取得する。取得部350は、取得したボケ画像を第6記憶部310に記憶する。
【0080】
上記のように、情報処理装置300は、ボケ無し画像を用いずに顔認識結果を出力するので、ボケ無し画像を入力する場合に比べて、画像漏洩等によりプライバシーが流出することを抑制することができる。
【0081】
[2.情報システムの動作]
次に、上記の情報システム10の動作について、
図2~
図6を参照しながら説明する。
【0082】
[2-1.情報処理システムの動作]
まずは、情報処理システム200の動作について、
図2~
図5を参照しながら説明する。
図2は、本実施の形態に係る情報処理システム200における顔復元型認識NWモデルの訓練手順を模式的に示す図である。
図3は、本実施の形態に係る情報処理システム200における、顔復元NWモデルの訓練処理を示すフローチャートである。
【0083】
図2に示すように、本実施の形態では、機械学習モデルの訓練は、第1ステップ、第2ステップ及び第3ステップの手順で訓練が行われる。なお、機械学習モデルの訓練は、少なくとも第3ステップの訓練を含んでいればよい。
【0084】
図2に示すように、第1ステップでは、顔復元NWモデルの訓練が行われ、第2ステップでは、顔認識NWモデルの訓練が行われ、第3ステップでは、顔復元NWモデル及び顔認識NWモデルが連結された顔復元型認識NWモデルの訓練が行われる。第1ステップ及び第2ステップの訓練が行われた後に、第3ステップの訓練が行われる。また、第1ステップ及び第2ステップの訓練を行う順序は特に限定されない。
【0085】
第1ステップは、顔復元NWモデルにおいて、入力されるボケ画像からボケ除去処理を適切に行えるようにするための訓練を行うステップである。つまり、第1ステップでは、ボケ画像からボケ無し画像の特徴量を復元するためのパラメータの更新が行われる。第2ステップは、ボケ無し画像から顔認識を適切に行うための訓練を行うステップである。つまり、第2ステップでは、顔認識を適切に行うためのパラメータの更新が行われる。第1ステップ及び第2ステップは、顔復元NWモデル及び顔認識NWモデルに対してプレトレーニングを行うステップであるとも言える。
【0086】
第3ステップは、顔復元NWモデル及び顔認識NWモデルを連結して、顔復元NWモデル及び顔認識NWモデルを訓練しなおすステップである。つまり、第3ステップでは、ボケ画像から顔認識を適切に行うためのパラメータの更新が行われる。第3ステップは、訓練済みの顔復元NWモデル及び顔認識NWモデルを追加訓練するファインチューニングを行うステップであるとも言える。
【0087】
図3に示すように、第1ステップにおいて、顔復元NW訓練部251は、第2記憶部230からボケ画像を読み込み、かつ、第3記憶部240から当該ボケ画像に対応するボケ無し画像を読み込む(S11)。ここでのボケ画像とボケ無し画像とは、同一人物が映る画像である。
【0088】
次に、顔復元NW訓練部251は、顔復元NWモデルを訓練する(S12)。
図2に示すように、顔復元NW訓練部251は、ボケ画像を訓練画像とし、ボケ無し画像を教師データとして顔復元NWモデルを訓練する。これにより、顔復元NWモデルは、出力する特徴量と教師データとの誤差が小さくなるように、パラメータが更新される。顔復元NWモデルは、ボケ画像が入力されると、当該ボケ画像に応じたボケ無し画像の特徴量を出力することが可能となる。
【0089】
ここでの特徴量は、例えば、サイズが横幅×縦幅×チャネル数のテンソルである。テンソルの横幅は、教師データであるボケ無し画像の横幅と同じであり、テンソルの縦幅は、例えば、教師データであるボケ無し画像の縦幅と同じであり、テンソルのチャネル数は、教師データであるボケ無し画像のチャネル数と同じである。チャネル数は、例えば、一つの画素がRGB(Red、Green、Blue)の3チャネルから構成される。つまり、特徴量は、ボケ無し画像とテンソルのサイズが同じである。
【0090】
また、特徴量は、テンソルの値が復元の程度に応じて画像である場合もあれば、画像ではない場合もある。画像ではないとは、例えば、1チャネルの値が8bit(0~255)で表現される場合において、画素の少なくとも1つの値が、0~255に収まらない値を含む情報である場合である。
【0091】
次に、顔復元NW訓練部251は、訓練済みの顔復元NWモデルのパラメータを出力する(S13)。出力されたパラメータは、第4記憶部260に記憶される。
【0092】
続いて、第2ステップについて、
図2及び
図4を参照しながら説明する。
図4は、本実施の形態に係る情報処理システム200における、顔認識NWモデルの訓練処理を示すフローチャートである。
【0093】
図4に示すように、第2ステップにおいて、顔認識NW訓練部252は、第2記憶部230からボケ無し画像を読み込み、かつ、第3記憶部240から当該ボケ無し画像に映る人物のID情報を読み込む(S21)。ここでのボケ無し画像は、ステップS11で読み込まれ顔復元NWモデルの訓練時に教師データとして用いられたボケ無し画像とテンソルのサイズが同じである。
【0094】
次に、顔認識NW訓練部252は、顔認識NWモデルを訓練する(S22)。
図2に示すように、顔認識NW訓練部252は、ボケ無し画像を訓練画像とし、当該ボケ無し画像に対応するID情報を教師データとして顔認識NWモデルを訓練する。これにより、顔認識NWモデルは、ボケ無し画像に対する出力と教師データとの誤差が小さくなるように、パラメータが更新される。
【0095】
なお、顔認識NW訓練部252は、互いに比較される2つのボケ無し画像を訓練画像とし、当該2つのボケ無し画像に映る人物が互いに同一人物であるか否かを示す情報を教師データとして顔認識NWモデルを訓練してもよい。
【0096】
次に、顔認識NW訓練部252は、訓練済みの顔認識NWモデルのパラメータを出力する(S23)。出力されたパラメータは、第4記憶部260に記憶される。
【0097】
続いて、第3ステップについて、
図2及び
図5を参照しながら説明する。
図5は、本実施の形態に係る情報処理システム200における、顔復元型認識NWモデルの訓練処理を示すフローチャートである。
【0098】
図5に示すように、第3ステップにおいて、顔復元型認識NW訓練部271は、顔復元NWモデル及び顔認識NWモデルを第4記憶部260から読み込む(S31)。ステップS31は、第3モデルを取得することの一例である。また、顔復元型認識NW訓練部271は、取得部として機能する。
【0099】
次に、顔復元型認識NW訓練部271は、第2記憶部230からボケ画像を読み込み、かつ、第3記憶部240から当該ボケ画像に映る人物のID(ID情報)を読み込む(S32)。ステップS32で読み込まれるボケ画像は、訓練画像の一例であり、MPHカメラ100の撮像により得られた画像を含んでいてもよいし、所定の画像に点広がり関数を畳み込むことにより得られた画像を含んでいてもよいし、それらの両方の画像を含んでいてもよい。ID情報は、リファレンスデータの一例である。
【0100】
なお、ステップS32で読み込まれるボケ画像は、例えば、ステップS11で読み込まれるボケ画像と異なるボケ画像であってもよいし、少なくとも一部のボケ画像が重複していてもよい。
【0101】
次に、顔復元型認識NW訓練部271は、顔復元NWモデル及び顔認識NWモデルが連結された顔復元型認識NWモデルを訓練する(S33)。
図2に示すように、顔復元型認識NW訓練部271は、顔復元型認識NWモデルにボケ画像を入力して顔復元型認識NWモデルから出力された顔認識結果(物体認識結果の一例)と、ボケ画像に対応する顔認識結果の教師データであるID情報との差が小さくなるように、機械学習により顔復元型認識NWモデルを訓練する。具体的には、顔復元型認識NW訓練部271は、ボケ画像を顔復元NWモデルに入力して得られる当該ボケ画像に対応するボケ無し画像の特徴量を取得し、取得した特徴量を顔認識NWモデルに入力して得られる当該特徴量に応じた顔認識結果を取得する。そして、顔復元型認識NW訓練部271は、顔認識結果とID情報との差が小さくなるように、顔復元型認識NWモデルのパラメータを更新する。第3ステップは、プライバシーが保護されないボケ無し画像を用いずに行われる。
【0102】
これにより、顔復元NWモデルは、顔認識NWモデルに適応するように訓練される。つまり、顔復元NWモデルは、顔認識NWモデルの出力である顔認識結果が正確に出力され得る特徴量を出力可能なように訓練される。顔復元NWモデルは、第1ステップではボケ画像からボケ無し画像を出力するように訓練されるが、第3ステップではボケ画像から顔認識NWモデルに適応する特徴量を出力可能なように訓練される。顔認識NWモデルに適応する特徴量を抽出可能に訓練された顔復元NWモデルは、第1ステップで訓練されたときに比べ、ボケの除去度合いが低下することも起こり得る。なお、特徴量は、画像であってもよい。
【0103】
顔復元型認識NWモデルは、出力する顔認識結果と教師データとの誤差が小さくなるように、パラメータが更新される。顔復元型認識NWモデルは、ボケ画像が入力されると、当該ボケ画により適した顔認識結果を出力することが可能となる。
【0104】
このように、第3ステップが行われることにより、第1ステップの訓練が行われた顔復元NWモデルと、第2ステップの訓練が行われた顔認識NWモデルとを単に連結しただけの機械学習モデルに比べ、出力される顔認識結果の精度を高めることが可能となる。
【0105】
なお、顔復元型認識NW訓練部271は、ステップS33において、顔復元NWモデル及び顔認識NWモデルの少なくとも一方のパラメータを更新すればよい。顔復元型認識NW訓練部271は、例えば、ステップS33において、顔復元NWモデルのパラメータを更新してもよいし、さらに顔認識NWモデルのパラメータを更新してもよい。
【0106】
次に、顔復元型認識NW訓練部271は、訓練済みの顔復元型認識NWのパラメータを出力する(S34)。顔復元型認識NW訓練部271は、通信部(図示しない)を介して情報処理装置300に出力される。また、顔復元型認識NW訓練部271は、顔復元型認識NWのパラメータを第5記憶部280に記憶してもよい。顔復元型認識NW訓練部271は、出力部として機能する。
【0107】
[2-2.情報処理装置の動作]
続いて、上記の情報処理装置300の動作について、
図6を参照しながら説明する。
図6は、本実施の形態に係る情報処理装置300における、顔復元型認識NWモデルを用いた認識処理を示すフローチャートである。なお、訓練済みの顔復元型認識NWモデルは、第7記憶部320に記憶されており、ボケ画像は第6記憶部310に記憶されているとする。
【0108】
図6に示すように、処理部330は、第6記憶部310からボケ画像を読み込む(S41)。ボケ画像は、MPHカメラ100により撮像された画像である。
【0109】
次に、処理部330は、第7記憶部320から顔復元型認識NWモデルを読み出し、読み出した顔復元型認識NWモデルにボケ画像を入力する(S42)。処理部330は、顔復元NWモデルにボケ画像を入力することで、顔復元NWモデルの出力である当該ボケ画像に対応するボケ無し画像の特徴量を取得する。そして、処理部330は、顔認識NWモデルに取得したボケ無し画像の特徴量を入力することで、顔認識結果を取得する。
【0110】
次に、出力部340は、顔認識結果を出力する(S43)。
【0111】
このように、情報処理装置300は、プライバシーが保護されていないボケ無し画像を用いることなく、顔認識を行うことができるので、ボケ画像に映る人物のプライバシーを保護することができる。
【0112】
[3.実験結果]
ここで、上記のように生成された顔復元型認識NWモデルの認識性能について、
図7及び
図8を参照しながら説明する。
図7は、ボケ画像生成部210により生成されたボケ画像を訓練画像として顔復元型認識NWモデルを訓練した場合の、訓練条件ごとの認識性能の比較(シミュレーション実験結果)を示す図である。
図8は、MPHカメラ100により撮像されたボケ画像を訓練画像として顔復元型認識NWモデルを訓練した場合の、訓練条件ごとの認識性能の比較を示す図である。
【0113】
図7及び
図8におけるLFW(Labelled Faces in the Wild)、CPLFW(Cross-Pose LFW)及びCALFW(Cross-Age LFW)は、実験に用いた公知のデータセットを示す。PSFidは、ボケ画像生成部210が用いたPSFを示す。「3-025」を例に説明すると、ピンホールの数が3であり、ピンホールの間隔が0.25mmであるマルチピンホールマスクを有するMPHカメラ100を用いて取得されたPSFを示す。
【0114】
図7において、訓練時に用いられた機械学習用のデータセットは、MS1MV2である。訓練画像は、MS1MV2に含まれる画像(所定の画像の一例)に、PSFidが示すPSFを畳み込むことにより生成されたボケ画像である。
図8において、訓練時に用いられた訓練画像は、MPHカメラ100により撮像されたボケ画像である。MPHカメラ100が有するマルチピンホールマスクは、「3-025」及び「9-025」である。また、実験時に用いられた評価画像は、LFW、CPLFW及びCALFWに含まれる画像に、PSFidが示すPSFを畳み込むことにより生成されたボケ画像である。
【0115】
「SphereFace」、「CosFace」及び「ArcFace」は、顔認識NWモデルに用いた公知の顔認識ネットワークを示す。
【0116】
訓練条件は、(A)~(D)の4条件である。条件(A)は、ボケ画像で学習された顔認識NWモデルに評価画像を入力したときの正解率(%)を示す。条件(B)は、訓練時に第1ステップ~第3ステップのうち第1ステップ及び第3ステップを行った顔復元型認識NWモデルに評価画像を入力したときの正解率を示す。条件(C)は、訓練時に第1ステップ~第3ステップのうち第1ステップ及び第2ステップのみを行った顔復元型認識NWモデルに評価画像を入力したときの正解率を示す。つまり、条件(C)は、訓練時に第3ステップを行わなかった顔復元型認識NWモデルに評価画像を入力したときの正解率を示す。条件(D)は、訓練時に第1ステップ~第3ステップの全てを行った顔復元型認識NWモデルに評価画像を入力したときの正解率を示す。
【0117】
また、PSFidの下にある「SphereFace」、「CosFace」及び「ArcFace」の右側の数値は、それぞれの顔認識NWモデルにLFW、CPLFW又はCALFWに含まれるボケ無し画像を評価画像として入力したときの正解率を示し、ボケ無し画像正解率とも記載する。
【0118】
図7及び
図8の条件(B)~(D)に示すように、顔復元NWモデル及び顔認識NWモデルを連結した顔復元型認識NWモデルを用いた場合、全体的にある程度の正解率が得られていることがわかる。条件(B)では、第3ステップを行わなかった条件(C)よりも正解率が高い。また、特定の顔認識NW(例えば
図7のSphereFace、ArcFace)については条件(A)よりも一部で正解率が高い。他方で、条件(C)の正解率は条件(A)の正解率に及ばない。つまり、第3ステップを行うことにより、認識性能を向上させることができることがわかる。また、条件(D)では、全体的にボケ無し画像正解率と同等程度の正解率が得られていることがわかる。つまり、第1ステップ~第3ステップのそれぞれを行って顔復元型認識NWモデルを訓練することで、ボケ無し画像を用いた顔認識と同等程度の認識性能が得られていることがわかる。なお、公開されているボケ無し画像で訓練済みの顔認識NWモデル(すなわち条件(A)のようにボケ画像で訓練していない顔認識NWモデル)に、実験で用いた評価画像を入力した場合、顔を認識することができないことが多く、顔認識結果の正解率は
図7及び
図8の条件(B)~(D)に比べて十分低いと考えられる。
【0119】
以上のように、本実施の形態に係る情報処理システム200は、顔復元NWモデル及び顔認識NWモデルを連結した顔復元型認識NWモデルに対して、ボケ画像を入力して顔復元型認識NWモデルから出力された顔認識結果と、ボケ画像に対応する顔認識結果のリファレンスデータとの差が小さくなるように、機械学習により顔復元型認識NWモデルを訓練する。
【0120】
(実施の形態の変形例1)
次に、本変形例に係る情報処理システムについて、
図9を参照しながら説明する。
図9は、本変形例に係る情報処理システムにおける、顔復元型認識NWモデルの訓練処理を示すフローチャートである。本変形例に係る情報処理システムは、主に顔復元型認識NW訓練部が訓練時にボケ画像(訓練画像)に含まれるボケの度合い(ボケ度合い)に応じて、顔復元NWモデル及び顔認識NWモデルの学習率を変更する点において、実施の形態に係る情報処理システム200と相違する。以降において、本変形例に係る情報処理システムについて、実施の形態に係る情報処理システム200との相違点を中心に説明する。また、本変形例に係る情報処理システムの構成は、実施の形態に係る情報処理システム200と同一であり、実施の形態に係る情報処理システム200と同一の符号を付し、説明を省略又は簡略化する。また、
図9において、
図5と同一又は類似する処理には、
図5と同一の符号を付し、説明を省略又は簡略化する。なお、学習率は、パラメータ更新度合いの一例である。
【0121】
図9に示すように、本変形例に係る情報処理システム200の顔復元型認識NW訓練部271は、ボケ画像とID(ID情報)とを読み込む(S32)と、読み込んだボケ画像のボケ度合いを判定する(S131)。ボケ画像のボケ度合いは、ボケ画像を画像解析することにより判定されてもよい。また、ボケ画像のボケ度合いは、ボケ画像がMPHカメラ100で撮像された画像である場合、MPHカメラ100の仕様(ピンホールの数、ピンホールの間隔など)に基づいて判定されてもよい。また、ボケ画像のボケ度合いは、ボケ画像がボケ画像生成部210により生成された画像である場合、当該ボケ画像の生成に用いられたPSFに基づいて判定されてもよい。顔復元型認識NW訓練部271は、例えば、ボケ画像のボケ度合いを予め設定されたボケ度合い(1~10などの数値、又は、「高」、「中」、「低」などのレベル)のいずれであるかを判定してもよい。
【0122】
顔復元型認識NW訓練部271は、顔復元型認識NWモデルの訓練に用いる複数のボケ画像のボケ度合いの統計値を、当該訓練におけるボケ画像のボケ度合いであると判定してもよい。統計値は、複数のボケ画像それぞれのボケ度合いの平均値、中央値、最頻値、最小値又は最大値のいずれかであるが、これに限定されない。
【0123】
また、顔復元型認識NW訓練部271は、さらに判定されたボケ度合いが第1の閾値以上であるか否かを判定してもよい。第1の閾値は、予め設定されており、第4記憶部260に記憶されていてもよい。
【0124】
次に、顔復元型認識NW訓練部271は、判定されたボケ度合いに応じて、顔復元NWモデル及び顔認識NWモデルの学習率を決定する(S132)。顔復元型認識NW訓練部271は、例えば、ステップS133での訓練時に用いられる顔復元NWモデル及び顔認識NWモデルの学習率の組を1つ決定してもよいし、ボケ画像ごとに学習率の組を決定してもよい。
【0125】
顔復元型認識NW訓練部271は、例えば、ボケ度合いが大きいと、顔復元NWモデルの学習率が顔認識NWモデルの学習率より大きくなるように学習率を決定してもよい。顔復元型認識NW訓練部271は、例えば、ボケ度合いが大きいほど、顔復元NWモデルの学習率が顔認識NWモデルの学習率に対してより大きくなるように学習率を決定してもよい。つまり、顔復元型認識NW訓練部271は、例えば、ボケ度合いが大きいほど、顔復元NWモデルの学習率と顔認識NWモデルの学習率との差が大きく、かつ、顔復元NWモデルの学習率の方が高くなるように学習率を決定してもよい。
【0126】
また、顔復元型認識NW訓練部271は、例えば、ボケ度合いが小さいと、顔復元NWモデルの学習率が顔認識NWモデルの学習率より小さくなるように学習率を決定してもよい。顔復元型認識NW訓練部271は、例えば、ボケ度合いが小さいほど、顔復元NWモデルの学習率が顔認識NWモデルの学習率に対してより小さくなるように学習率を決定してもよい。つまり、顔復元型認識NW訓練部271は、例えば、ボケ度合いが小さいほど、顔復元NWモデルの学習率と顔認識NWモデルの学習率との差が大きく、かつ、顔認識NWモデルの学習率の方が高くなるように学習率を決定してもよい。
【0127】
また、顔復元型認識NW訓練部271は、例えば、判定されたボケ度合いが第1の閾値以上である場合、顔復元NWモデルの学習率が顔認識NWモデルの学習率より大きくなるように学習率を決定し、判定されたボケ度合いが第1の閾値より小さい場合、顔復元NWモデルの学習率が顔認識NWモデルの学習率より小さくなるように学習率を決定してもよい。
【0128】
また、顔復元型認識NW訓練部271は、例えば、判定されたボケ度合いが第1の閾値以上である場合、ボケ度合いが第1の閾値未満である場合に比べて、学習率が大きくなるように学習率を決定してもよい。
【0129】
また、顔復元型認識NW訓練部271は、ボケ画像のボケ度合いに応じて、段階的に学習率を設定してもよい。顔復元型認識NW訓練部271は、例えば、判定されたボケ度合いが第1の閾値以上かつ第1の閾値より大きい第2の閾値未満である場合、顔復元NWモデルの学習率を顔認識NWモデルの学習率より高い第1の学習率に決定し、判定されたボケ度合いが第2の閾値以上である場合、顔復元NWモデルの学習率を第1の学習率より高い第2の学習率に決定してもよい。
【0130】
また、顔復元型認識NW訓練部271は、ボケ度合いが大きいほど、顔復元NWモデルの学習率が顔認識NWモデルの学習率に対してより小さくなるように学習率を決定し、ボケ度合いが小さいほど、顔復元NWモデルの学習率が顔認識NWモデルの学習率に対してより大きくなるように学習率を決定してもよい。
【0131】
このように、顔復元NWモデルの学習率、及び、顔認識NWモデルの学習率は、第3ステップにおいて用いられるボケ画像のボケ度合いに応じて、互いに異なる学習率に決定されてもよい。
【0132】
次に、顔復元型認識NW訓練部271は、決定された学習率を用いて、顔復元型認識NWモデルを訓練する(S133)。顔復元型認識NW訓練部271は、決定された学習率に応じて、顔復元NWモデル及び顔認識NWモデルそれぞれのパラメータを更新する。これにより、顔復元型認識NWモデルは、訓練に用いられるボケ画像のボケ度合いに応じた学習率を用いて訓練されるので、ボケ画像により適した顔認識を行うことができるようにパラメータが更新される。
【0133】
なお、ボケ度合いに応じて、顔復元NWモデルのパラメータ更新度合い(以下D1)を、顔認識NWモデルのパラメータ更新度合い(以下D2)と比較して大きくしたり小さくしたりする例を説明したが、パラメータの更新度合いの変更はこれに限定されない。具体的には、ボケ度合いに応じて、D1がD2とは関係なく変更されてもよい。例えば、D2>D1である場合で、ボケ度合いが閾値より大きいとき、D1が増大させられるが、増大後のD1がD2より小さくてもよい。
【0134】
(実施の形態の変形例2)
次に、本変形例に係る情報処理システムについて、
図10を参照しながら説明する。
図10は、本変形例に係る情報処理システムにおける、顔復元型認識NWモデルの訓練処理を示すフローチャートである。本変形例に係る情報処理システムは、主に顔復元型認識NW訓練部が顔復元NWモデルの性能に応じて、顔復元NWモデル及び顔認識NWモデルの学習率を変更する点において、実施の形態に係る情報処理システム200と相違する。以降において、本変形例に係る情報処理システムについて、実施の形態に係る情報処理システム200との相違点を中心に説明する。また、本変形例に係る情報処理システムの構成は、実施の形態に係る情報処理システム200と同一であり、実施の形態に係る情報処理システム200と同一の符号を付し、説明を省略又は簡略化する。また、
図10において、
図5と同一又は類似する処理には、
図5と同一の符号を付し、説明を省略又は簡略化する。
【0135】
図10に示すように、本変形例に係る情報処理システム200の顔復元型認識NW訓練部271は、ボケ画像とID(ID情報)とを読み込む(S32)と、ステップS31で読み込んだ顔復元NWモデルの性能を判定する(S231)。顔復元NWモデルの性能は、顔復元NWモデルにおけるボケ画像の復元精度(ボケ除去性能)に基づいて判定されてもよい。顔復元NWモデルの性能は、例えば、第1ステップの訓練に用いられたボケ画像とは異なるボケ画像を顔復元NWモデルに入力して得られる出力(特徴量)と、当該ボケ画像に対応する教師データ(ボケ無し画像の特徴量)との差分に基づいて判定されてもよい。
【0136】
顔復元型認識NW訓練部271は、出力と教師データとの差分の統計値を、顔復元NWモデルの性能であると判定してもよい。統計値は、複数のボケ画像に対応する複数の差分の平均値、中央値、最頻値、最小値又は最大値のいずれかであるが、これに限定されない。
【0137】
また、顔復元型認識NW訓練部271は、さらに判定された差分が第1の閾値以上であるか否かを判定してもよい。第1の閾値は、予め設定されており、第4記憶部260に記憶されていてもよい。
【0138】
次に、顔復元型認識NW訓練部271は、顔復元NWモデルの性能に応じて、顔復元NWモデル及び顔認識NWモデルの学習率を決定する(S232)。顔復元型認識NW訓練部271は、例えば、ステップS133での訓練時に用いられる顔復元NWモデル及び顔認識NWモデルの学習率の組を1つ決定してもよいし、ボケ画像ごとに学習率の組を決定してもよい。
【0139】
顔復元型認識NW訓練部271は、例えば、顔復元NWモデルの性能が高いと、顔復元NWモデルの学習率が顔認識NWモデルの学習率より小さくなるように学習率を決定してもよい。顔復元型認識NW訓練部271は、例えば、顔復元NWモデルの性能が高いほど、顔復元NWモデルの学習率が顔認識NWモデルの学習率に対してより小さくなるように学習率を決定してもよい。つまり、顔復元型認識NW訓練部271は、例えば、顔復元NWモデルの性能が大きいほど、顔復元NWモデルの学習率と顔認識NWモデルの学習率との差が大きく、かつ、顔認識NWモデルの学習率の方が高くなるように学習率を決定してもよい。
【0140】
また、顔復元型認識NW訓練部271は、例えば、顔復元NWモデルの性能が低いと、顔復元NWモデルの学習率が顔認識NWモデルの学習率より大きくなるように学習率を決定してもよい。顔復元型認識NW訓練部271は、例えば、顔復元NWモデルの性能が低いほど、顔復元NWモデルの学習率が顔認識NWモデルの学習率に対してより大きくなるように学習率を決定してもよい。つまり、顔復元型認識NW訓練部271は、例えば、顔復元NWモデルの性能が低いほど、顔復元NWモデルの学習率と顔認識NWモデルの学習率との差が大きく、かつ、顔復元NWモデルの学習率の方が高くなるように学習率を決定してもよい。
【0141】
また、顔復元型認識NW訓練部271は、例えば、判定された顔復元NWモデルの性能が第1の閾値以上である場合、顔復元NWモデルの学習率が顔認識NWモデルの学習率より小さくなるように学習率を決定し、判定された顔復元NWモデルの性能が第1の閾値より低い場合、顔復元NWモデルの学習率が顔認識NWモデルの学習率より大きくなるように学習率を決定してもよい。
【0142】
また、顔復元型認識NW訓練部271は、例えば、判定された顔復元NWモデルの性能が第1の閾値以上である場合、顔復元NWモデルの性能が第1の閾値未満である場合に比べて、学習率が小さくなるように学習率を決定してもよい。
【0143】
また、顔復元型認識NW訓練部は、顔復元NWモデルの性能に応じて、段階的に学習率を設定してもよい。顔復元型認識NW訓練部271は、例えば、判定された顔復元NWモデルの性能が第1の閾値以上かつ第1の閾値より高い第2の閾値未満である場合、顔復元NWモデルの学習率を顔認識NWモデルの学習率より低い第1の学習率に決定し、判定された顔復元NWモデルの性能が第2の閾値以上である場合、顔復元NWモデルの学習率を第1の学習率より低い第2の学習率に決定してもよい。
【0144】
このように、顔復元NWモデルの学習率、及び、顔認識NWモデルの学習率は、第1ステップで訓練された訓練済みの顔復元NWモデルの性能に応じて、互いに異なる学習率に決定されてもよい。
【0145】
次に、顔復元型認識NW訓練部271は、決定された学習率を用いて、顔復元型認識NWモデルを訓練する(S133)。顔復元型認識NW訓練部271は、決定された学習率に応じて、顔復元NWモデル及び顔認識NWモデルそれぞれのパラメータを更新する。これにより、顔復元型認識NWモデルは、第1ステップで訓練された顔復元NWモデルの性能に応じた学習率を用いて訓練されるので、第3ステップにおいて、顔復元NWモデルの性能により適したパラメータの更新を行うことができる。
【0146】
なお、顔復元NWモデルの性能に応じて、顔復元NWモデルのパラメータ更新度合い(以下D1)を、顔認識NWモデルのパラメータ更新度合い(以下D2)と比較して大きくしたり小さくしたりする例を説明したが、パラメータの更新度合いの変更はこれに限定されない。具体的には、顔復元NWモデルの性能に応じて、D1がD2とは関係なく変更されてもよい。例えば、D2>D1である場合で、顔復元NWモデルの性能が閾値より大きいとき、D1が増大させられるが、増大後のD1がD2より小さくてもよい。
【0147】
(その他の実施の形態)
以上、本開示について実施の形態及び各変形例(以下において、実施の形態等とも記載する)に基づいて説明したが、本開示は、上記実施の形態等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態等に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の1つまたは複数の態様の範囲内に含まれてもよい。
【0148】
また、上記実施の形態等では、画像は、カメラにより取得される例について説明したが、これに限定されない。画像は、CG(Computer Graphics)により生成された画像であってもよい。
【0149】
また、上記実施の形態等では、画像は、可視光カメラにより取得される画像である例について説明したが、これに限定されない。画像は、赤外線カメラ、又は紫外線カメラ等のような不可視光カメラにより取得される画像であってもよいし、マルチスペクトルカメラ等のような可視光及び不可視光の両方をカバーするカメラにより取得される画像であってもよい。
【0150】
また、上記実施の形態等に係る情報処理装置における認識時には、MPHカメラで撮像された画像が入力画像として用いられる例について説明したが、ボケ画像生成部などにより生成されたボケ画像が入力画像として用いられてもよい。
【0151】
また、上記実施の形態等では、顔認識は、2つのボケ画像(顔画像)に映る人物が同一人物であるか否かを判定すること(1:1認証)である例について説明したが、これに限定されず、N人のボケ画像(顔画像)が予め与えられた状態で、個人が特定されていないボケ画像が入力された際に、そのボケ画像に映る人物がN人のうちのどれであるか、又は、どれでもないかを判定すること(1:N認証)であってもよい。
【0152】
また、上記実施の形態等では、機械学習モデルは、ニューラルネットワークを用いた機械学習モデルである例について説明したが、他の機械学習モデルであってもよい。例えば、機械学習モデルは、Random Forest、Genetic Programming等を用いた機械学習モデルであってもよい。
【0153】
また、上記実施の形態等では、訓練された物体認識モデルを用いた物体認識処理が情報処理装置において行われる例を説明したが、当該物体認識処理は情報処理システムにて行われてもよい。また、情報処理装置は、マルチピンホールカメラに内蔵されていてもよい。
【0154】
また、上記実施の形態等において説明された複数の処理の順序は一例である。複数の処理の順序は、変更されてもよいし、複数の処理は、並行して実行されてもよい。また、複数の処理の一部は、実行されなくてもよい。
【0155】
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを1つの機能ブロックとして実現したり、1つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
【0156】
また、情報処理システム又は情報処理装置はそれぞれ、単一の装置として実現されてもよいし、複数の装置によって実現されてもよい。例えば、第1訓練部と第2訓練部とは、互いに異なる装置で実現されてもよい。情報処理システム又は情報処理装置が複数の装置によって実現される場合、情報処理システム又は情報処理装置が備える構成要素は、複数の装置にどのように振り分けられてもよい。また、複数の装置間の通信方法は、特に限定されない。
【0157】
また、上記実施の形態等で説明した各構成要素は、ソフトウェアとして実現されても良いし、典型的には、集積回路であるLSIとして実現されてもよい。これらは、個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)又は、LSI内部の回路セルの接続若しくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。更には、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて構成要素の集積化を行ってもよい。
【0158】
さらに、本開示の技術は上記プログラムであってもよいし、上記プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。例えば、上記プログラム及び上記プログラムからなるデジタル信号は、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、記録媒体に記録して移送されることにより、又はネットワーク等を経由して移送されることにより、独立した他のコンピュータシステムにより実行されてもよい。
【0159】
また、実施の形態等において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
【産業上の利用可能性】
【0160】
本開示は、画像を用いて物体認識を行う装置に広く利用可能である。
【符号の説明】
【0161】
10 情報システム
100 マルチピンホールカメラ(MPHカメラ)
200 情報処理システム
210 ボケ画像生成部
220 第1記憶部
230 第2記憶部
240 第3記憶部
250 第1訓練部
251 顔復元NW訓練部
252 顔認識NW訓練部
260 第4記憶部
270 第2訓練部
271 顔復元型認識NW訓練部(取得部、訓練部、出力部)
280 第5記憶部
300 情報処理装置
310 第6記憶部
320 第7記憶部
330 処理部(制御部)
340 出力部
350 取得部