(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-13
(45)【発行日】2024-03-22
(54)【発明の名称】情報処理方法、情報処理装置及びプログラム
(51)【国際特許分類】
G06N 3/084 20230101AFI20240314BHJP
G06N 3/045 20230101ALI20240314BHJP
G06T 7/00 20170101ALI20240314BHJP
【FI】
G06N3/084
G06N3/045
G06T7/00 350C
(21)【出願番号】P 2021522683
(86)(22)【出願日】2020-04-08
(86)【国際出願番号】 JP2020015801
(87)【国際公開番号】W WO2020241074
(87)【国際公開日】2020-12-03
【審査請求日】2023-01-18
(32)【優先日】2019-05-30
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】P 2019229945
(32)【優先日】2019-12-20
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100109210
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】石井 育規
【審査官】真木 健彦
(56)【参考文献】
【文献】国際公開第2018/042211(WO,A1)
【文献】国際公開第2018/207334(WO,A1)
【文献】特開2018-200531(JP,A)
【文献】片岡 裕介 ほか,深層学習における敵対的ネットワークを用いた漫画画像の自動カラー化,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM) 2017-CVIM-20,日本,情報処理学会 [オンライン],2017年03月02日,pp.1-6,[検索日 2020.06.08], <URL: https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=178333&fil
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/084
G06N 3/045
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実行される方法であって、
ノイズを含む第1センシングデータを取得し、
ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第1訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第1モデルに前記第1センシングデータを入力し、前記第1センシングデータの入力に対してノイズが低減された前記第1センシングデータを模擬した前記模擬センシングデータである第1模擬センシングデータが出力されるまでの過程で生成された、前記第1センシングデータについての前記特徴データである第1特徴データを取得し、
前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第2訓練が実行される第2モデルに前記第1特徴データを入力し、前記第1特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第1推論結果データを取得し、
前記第1センシングデータに対する推論についてのリファレンスデータ及び前記第1推論結果データに基づいて、前記第2訓練を実行
し、
前記第1モデルは、ニューラルネットワークであり、
前記ニューラルネットワークは、複数の層を有するエンコーダとデコーダとを備え、
前記エンコーダは、前記センシングデータの入力に対して、当該センシングデータについての前記特徴データを出力し、
前記デコーダは、前記エンコーダが出力した前記特徴データの入力に対して、前記模擬センシングデータを生成して、前記模擬センシングデータを出力し、
前記エンコーダは、入力されたセンシングデータの平均及び分散を出力する層を有し、
前記特徴データは、前記平均及び前記分散に基づいて算出される潜在変数である
情報処理方法。
【請求項2】
前記特徴データは、前記第1センシングデータについての平均データ及び分散データである
請求項
1に記載の情報処理方法。
【請求項3】
前記特徴データは、前記第1センシングデータの事前分布に関する潜在変数である
請求項1
又は2に記載の情報処理方法。
【請求項4】
前記第1センシングデータ及び前記第1模擬センシングデータを取得し、
前記第1センシングデータ、前記第1模擬センシングデータ、及び前記第1特徴データに基づいて、前記第1訓練を行う
請求項1~
3のいずれか1項に記載の情報処理方法。
【請求項5】
前記第2訓練の後に、再訓練を実行し、
前記再訓練は、前記第1訓練をさらに実行し、さらに訓練された前記第1モデルが生成した前記特徴データである第2特徴データを取得し、前記第2特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第2推論結果データを取得し、前記第2推論結果データに基づいて前記第2訓練をさらに実行することを含む
請求項
4に記載の情報処理方法。
【請求項6】
前記推論結果データが示す前記第2モデルによる推論結果に対する評価を取得し、
前記評価が所定の基準を満たすまで、前記再訓練を繰り返す
請求項
5に記載の情報処理方法。
【請求項7】
前記センシングデータは、画像データである
請求項1~
6のいずれか1項に記載の情報処理方法。
【請求項8】
情報処理装置であって、
プロセッサと、
プログラムを記憶したメモリとを備え、
前記プログラムは、前記プロセッサに、
ノイズを含む第1センシングデータを取得
する処理、
ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第1訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第1モデルに前記第1センシングデータを入力し、前記第1センシングデータの入力に対してノイズが低減された前記第1センシングデータを模擬した前記模擬センシングデータである第1模擬センシングデータが出力されるまでの過程で生成された、前記第1センシングデータについての前記特徴データである第1特徴データを取得
する処理、及び、
前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第2訓練が実行される第2モデルに前記第1特徴データを入力し、前記第1特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第1推論結果データを取得
する処理を実行させ、
前記第1モデルは、ニューラルネットワークであり、
前記ニューラルネットワークは、複数の層を有するエンコーダとデコーダとを備え、
前記エンコーダは、前記センシングデータの入力に対して、当該センシングデータについての前記特徴データを出力し、
前記デコーダは、前記エンコーダが出力した前記特徴データの入力に対して、前記模擬センシングデータを生成して、前記模擬センシングデータを出力し、
前記エンコーダは、入力されたセンシングデータの平均及び分散を出力する層を有し、
前記特徴データは、前記平均及び前記分散に基づいて算出される潜在変数である
情報処理
装置。
【請求項9】
コンピュータにおいて、前記コンピュータが備えるプロセッサによって実行されることで前記プロセッサに、
ノイズを含む第1センシングデータを取得
する処理、
ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第1訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第1モデルへ前記第1センシングデータを入力させて、前記第1センシングデータの入力に対してノイズが低減された前記第1センシングデータを模擬した前記模擬センシングデータである第1模擬センシングデータが出力されるまでの過程で生成された、前記第1センシングデータについての前記特徴データである第1特徴データを取得
する処理、及び、
前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第1訓練が実行される第2モデルに前記第1特徴データを入力し、前記第1特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第1推論結果データを取得
する処理を実行させ、
前記第1モデルは、ニューラルネットワークであり、
前記ニューラルネットワークは、複数の層を有するエンコーダとデコーダとを備え、
前記エンコーダは、前記センシングデータの入力に対して、当該センシングデータについての前記特徴データを出力し、
前記デコーダは、前記エンコーダが出力した前記特徴データの入力に対して、前記模擬センシングデータを生成して、前記模擬センシングデータを出力し、
前記エンコーダは、入力されたセンシングデータの平均及び分散を出力する層を有し、
前記特徴データは、前記平均及び前記分散に基づいて算出される潜在変数である
プログラム。
【請求項10】
前記デコーダが生成する前記模擬センシングデータの条件を示すラベルが前記エンコーダの最終層及び前記デコーダの最初の層に入力される、
請求項1~7のいずれか1項に記載の情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータにより実行される情報処理方法に関する。
【背景技術】
【0002】
画像(以下、復元処理前の画像)の特徴量に基づいて当該画像を復元する復元処理に関する技術が研究されている(例えば非特許文献1参照)。例えば、復元処理を用いて復元された画像に対し画像認識を実行することで、復元処理前の画像に対する画像認識の結果を間接的に得ることが考えられる。
【先行技術文献】
【非特許文献】
【0003】
【文献】Diederik P. Kingma and Max Welling、“Auto-Encoding Variational Bayes”、arXiv preprint arXiv:1312.6114、2013年12月20日
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記のような従来技術では、復元処理が難化すると、復元処理前の画像等のデータに対する画像認識等の推論の結果が実質的に悪化するおそれがある。例えば、復元処理が出力する画像の質が低下すると、復元処理が出力する画像に対する画像認識の結果も悪化する。このため、復元処理前の画像に対する画像認識の結果が実質的に悪化するおそれがあるといえる。
【0005】
本開示では、復元処理が難化しても、復元処理前のデータに対する推論の結果が実質的に悪化することを抑制できる情報処理方法を提供する。
【課題を解決するための手段】
【0006】
本開示の一態様に係る情報処理方法は、コンピュータにより実行される方法であって、ノイズを含む第1センシングデータを取得し、ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第1訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第1モデルに前記第1センシングデータを入力し、前記第1センシングデータの入力に対してノイズが低減された前記第1センシングデータを模擬した前記模擬センシングデータである第1模擬センシングデータが出力されるまでの過程で生成された、前記第1センシングデータについての前記特徴データである第1特徴データを取得し、前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第2訓練が実行される第2モデルに前記第1特徴データを入力し、前記第1特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第1推論結果データを取得し、前記第1センシングデータに対する推論についてのリファレンスデータ及び前記第1推論結果データに基づいて、前記第2訓練を実行する。
【0007】
また、本開示の一態様に係る情報処理方法は、コンピュータにより実行される方法であって、ノイズを含む第1センシングデータを取得し、ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第1訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第1モデルに前記第1センシングデータを入力し、前記第1センシングデータの入力に対してノイズが低減された前記第1センシングデータを模擬した前記模擬センシングデータである第1模擬センシングデータが出力されるまでの過程で生成された、前記第1センシングデータについての前記特徴データである第1特徴データを取得し、前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第2訓練が実行される第2モデルに前記第1特徴データを入力し、前記第1特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第1推論結果データを取得し、前記第1推論結果データを出力する。
【0008】
また、本開示の一態様に係るプログラムは、コンピュータにおいて、前記コンピュータが備えるプロセッサによって実行されることで前記プロセッサに、ノイズを含む第1センシングデータを取得させ、ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第1訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第1モデルへ前記第1センシングデータを入力させて、前記第1センシングデータの入力に対してノイズが低減された前記第1センシングデータを模擬した前記模擬センシングデータである第1模擬センシングデータが出力されるまでの過程で生成された、前記第1センシングデータについての前記特徴データである第1特徴データを取得させ、前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第1訓練が実行される第2モデルに前記第1特徴データを入力し、前記第1特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第1推論結果データを取得させ、前記第1推論結果データを出力させる。
【0009】
なお、これらの包括的又は具体的な態様は、装置、システム、集積回路又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、装置、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
【発明の効果】
【0010】
本開示に係る情報処理方法及びプログラムを用いることで、復元処理が難化しても、復元処理前のデータに対する推論の結果が実質的に悪化することを抑制できる。
【図面の簡単な説明】
【0011】
【
図1】
図1は、画質の異なる画像及び各画像に対する復元処理結果の例を示す表である。
【
図2】
図2は、実施の形態に係る情報処理方法の概要を説明するための図である。
【
図3】
図3は、実施の形態に係る情報処理方法の手順例を示すフロー図である。
【
図4】
図4は、上記情報処理方法における変分オートコーダの訓練方法の手順例を示すフロー図である。
【
図5】
図5は、上記情報処理方法における認識器の訓練方法の手順例を示すフロー図である。
【
図6】
図6は、上記情報処理方法で訓練した認識器を用いた画像認識方法の手順例を示すフロー図である。
【
図7】
図7は、上記実施の形態の変形例に係る情報処理方法の概要を説明するための図である。
【
図8】
図8は、発明者による実験結果を示す表である。
【発明を実施するための形態】
【0012】
(基礎となる知見)
本発明者は、「背景技術」の欄において記載した画像認識の手法に関し、以下の問題を見出した。
【0013】
個人宅又は公共の場所に設置された監視カメラ等で撮影された画像に対して、セキュリティ等の目的で画像認識が実行されることがある。この画像認識の処理は、カメラから出力された画像データがクラウドサーバにアップロードされてから、この画像データに対してクラウドサーバで行われる場合もある。この場合、プライバシ保護の要請から、画像認識処理の対象となる画像にぼかし等のノイズが予め加えられることがある。言い換えると、プライバシ保護のために低画質な画像での画像認識が求められることがある。ただし、このようなノイズを加えることで劣化した画像では画像認識の精度が落ちやすいため、画像認識処理の下処理として、ノイズを軽減して画質を改善するための復元処理が行われる。
【0014】
しかしながら、プライバシの保護をより確実なものにするためにより強いノイズが加えられた画像では、精度の高い復元処理が困難になる。
図1は、異なる強度のノイズが加えられた画像及び各画像に対する復元処理結果の例を示す表である。この例では、MNIST(Modified National Institute of Standards and Technology)データベースに含まれる手書きの数字「9」が写る画像に10%、30%、50%、70%の割合でごま塩ノイズを付加した画像と、これらの各画像に復元処理を実行した結果として得られた画像とを上下に並べている。このような復元処理は、対象のノイズを除去又は軽減(以下、実際の効果が除去か軽減かの別なく軽減という)するための機械学習の訓練が実行されたモデル、例えばオートエンコーダを用いて行うことができる。
図1の例における復元処理には、畳み込みオートエンコーダが用いられている。
図1を参照すると、ノイズの割合が30%までは、復元によって得られた画像には肉眼で把握可能な手書きの「9」が含まれている。このことから、復元によって得られたこれらの画像の外観は、ノイズが付加される前の画像の外観に近いと推測される。ただし、復元処理前の画像では数字の「9」が肉眼で比較的把握しやすいことから、この強度のノイズではプライバシ保護には不十分である可能性がある。
【0015】
しかしながら、復元処理前の画像に写る数字の認識はノイズの割合が増すにつれて肉眼でもより困難になる。つまり、例えば人物写真に適用した場合には、よりいっそうのプライバシ保護の効果が期待される。ところが、ノイズの割合が50%以上になると、復元処理後の画像は全体のコントラストが低下し、輪郭のぼやけはより強くなって、数字の「9」を描くはずの白線には途切れ又は変形が見られる。したがって、これらの画像に対して画像認識を実行しても、正確な結果が得られるかは疑わしい。このように、プライバシ保護のためのノイズの強化と画像の復元の精度の向上とはトレードオフの関係にある。したがって、プライバシ保護の強化を図れば、結果的に画像認識性能が犠牲となるため、例えば画像認識の結果を利用してのセキュリティの強化は困難になる。
【0016】
このような問題を解決するために案出された、本開示の一態様に係る情報処理方法は、コンピュータにより実行される方法であって、ノイズを含む第1センシングデータを取得し、ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第1訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第1モデルに前記第1センシングデータを入力し、前記第1センシングデータの入力に対してノイズが低減された前記第1センシングデータを模擬した前記模擬センシングデータである第1模擬センシングデータが出力されるまでの過程で生成された、前記第1センシングデータについての前記特徴データである第1特徴データを取得し、前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第2訓練が実行される第2モデルに前記第1特徴データを入力し、前記第1特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第1推論結果データを取得し、前記第1センシングデータに対する推論についてのリファレンスデータ及び前記第1推論結果データに基づいて、前記第2訓練を実行する。
【0017】
これにより、精度の高い復元処理が難化しても、復元処理前のデータに対する推論の結果が実質的に悪化することを抑制できる。すなわち、ノイズを含むセンシングデータに対してより高い認識性能を発揮し得る認識モデルが得られる。
【0018】
また、前記第1モデルは、エンコーダとデコーダとを備え、前記エンコーダは、前記センシングデータの入力に対して、当該センシングデータについての前記特徴データを出力し、前記デコーダは、前記エンコーダが出力した前記特徴データの入力に対して、前記模擬センシングデータを生成して、前記模擬センシングデータを出力し、前記特徴データは、潜在変数であってもよい。また、前記特徴データは、前記第1センシングデータについての平均データ及び分散データであってもよい。また、前記特徴データは、前記第1センシングデータの事前分布に関する潜在変数であってもよい。
【0019】
このように、本開示の一態様に係る情報処理方法は、例えば画像データのノイズの軽減に従来用いられているオートエンコーダ又は変分オートエンコーダの中間データを利用することができる。したがって、例えば画像認識のために画像のノイズを低減するオートエンコーダをすでに利用している場合には、認識器を追加実装することで、本開示の一態様に係る情報処理方法の実行環境を構築することができる。つまりこの場合、本開示の一態様に係る情報処理方法は、処理量やハードウェアのコストの増加を抑えて導入することができる。また、単なるエンコーダの中間データではなく、入力データの傾向が整理された中間データ(言い換えると、入力データの特徴が所定の構造で表された中間データ)を第2モデルの入力とすることにより、第2モデルの推論処理の性能(特に精度)を向上させることができる。
【0020】
また、前記第1センシングデータ及び前記第1模擬センシングデータを取得し、前記第1センシングデータ、前記第1模擬センシングデータ、及び前記第1特徴データに基づいて、前記第1訓練を行ってもよい。そして、前記第2訓練の後に、再訓練を実行し、前記再訓練は、前記第1訓練をさらに実行し、さらに訓練された前記第1モデルが生成した前記特徴データである第2特徴データを取得し、前記第2特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第2推論結果データを取得し、前記第2推論結果データに基づいて前記第2訓練をさらに実行することを含んでもよいし、さらに、前記推論結果データが示す前記第2モデルによる推論結果に対する評価を取得し、前記評価が所定の基準を満たすまで、前記再訓練を繰り返してもよい。
【0021】
オートエンコーダの性能が向上すれば推論器の性能も向上する可能性が高いため、このように、オートエンコーダの訓練に応じて推論器の訓練を行うことにより、推論器の性能向上を期待することができる。また、第1モデルの機械学習による訓練も並行して実行することで、例えば第2モデルによる推論の精度を第1モデルの訓練の成果の指標に用いて、訓練の成否又は止め時を判断することができる。
【0022】
また、前記センシングデータは、画像データであってもよい。
【0023】
これにより、ノイズを含んで低画質な画像に対して、より高い認識性能を発揮し得る認識モデルが得られる。
【0024】
また、本開示の一態様に係る情報処理方法は、コンピュータにより実行される方法であって、ノイズを含む第1センシングデータを取得し、ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第1訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第1モデルに前記第1センシングデータを入力し、前記第1センシングデータの入力に対してノイズが低減された前記第1センシングデータを模擬した前記模擬センシングデータである第1模擬センシングデータが出力されるまでの過程で生成された、前記第1センシングデータについての前記特徴データである第1特徴データを取得し、前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第2訓練が実行される第2モデルに前記第1特徴データを入力し、前記第1特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第1推論結果データを取得し、前記第1推論結果データを出力する。
【0025】
これにより、ノイズを含むセンシングデータに対してより高い精度での認識が実行される。
【0026】
なお、これらの包括的又は具体的な態様は、装置、システム、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、装置、システム、方法、集積回路、コンピュータプログラム及び記録媒体からの任意な組み合わせで実現されてもよい。
【0027】
以下、実施の形態について、図面を参照しながら具体的に説明する。以下で説明する実施の形態は、包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、方法に含まれるステップの組み合わせ、ステップの順序等は一例であり、本開示に係る発明を限定する趣旨ではない。
【0028】
(実施の形態)
[1.概要]
図2は、実施の形態に係る情報処理方法の概要を説明するための図であり、1台以上のコンピュータ上に実現される、当該情報処理方法を実行するためのこれらの2つのモデルを含む構成例を示す。本実施の形態に係る情報処理方法は、プロセッサを備える1台以上のコンピュータによって実行される、訓練済みの機械学習の推定モデルを得るための情報処理方法である。この(又はこれらの)コンピュータは、当該情報処理方法を実行するために用いられる2つのモデルが動作するよう構成されている。
【0029】
2つのモデルのひとつは、ノイズを含むセンシングデータからノイズを低減したセンシングデータを模擬したデータを生成して出力するモデルである。
図2では、上下を隔てる線より上に描かれた第1モデルがこのモデルにあたる。この例では、第1モデルは、ニューラルネットワークの一種であるVAE(Variational Autoencoderの略)の生成モデルである。また、
図2においては、第1モデルは、センシングデータの例として画像のデータの入力を受けている。
【0030】
2つのモデルのもうひとつは、第1モデルによる処理の過程における中間的なデータの入力を受け、このデータに対して推論による認識を実行してその認識の結果を出力する認識器として機能するニューラルネットワークの推論モデルである。
図2では、上下を隔てる線より下に描かれた第2モデルがこのモデルにあたる。第2モデルが入力を受ける中間的なデータとは、エンコーダ10に入力されたセンシングデータの特徴を示すデータであり、
図2に示される例では潜在変数Zである。VAEである第1モデルの潜在変数Zは、エンコーダ10に入力されたセンシングデータの事前分布に関する潜在分布である。この潜在分布は、エンコーダ10が入力を受けたセンシングデータの特徴を圧縮して出力する多次元ガウス分布の平均(
図2中のμ)及び分散(
図2中のσ)をもとに、サンプリングによって求められる。
【0031】
このようにして得られた潜在変数Zは、VAEにおいてデコーダ20に入力される。デコーダ20は、潜在変数Zの入力を受けると、ノイズが低減されたセンシングデータを模擬したデータ(
図2の出力画像)を生成するよう訓練されている。この訓練については後述する。潜在変数Zは、本実施の形態における特徴データの例である。
【0032】
本実施の形態に係る情報処理方法では、第2モデルにもこの特徴データが入力される。特徴データの入力を受けた第2モデルは、エンコーダ10に入力されたセンシングデータに関する認識を実行する。
図2の例で言えば、センシングデータは手書きの数字の画像データであり、第2モデルは、この画像データについての特徴データからこの手書きの数字が何であるかを認識し、その結果を出力する。第2モデルの機械学習を用いた訓練は、本実施の形態に係る情報処理方法に含まれるステップのひとつである。
【0033】
第2モデルの訓練が進んで所望の認識性能が得られたところで、第1モデルのエンコーダ10と第2モデルとを用いてのセンシングデータに対する認識のための情報処理方法の用意が整ったと言える。
【0034】
なお、
図2においては、エンコーダ10、デコーダ20及び認識器30は、模式的に2層のネットワーク構成を持つものとしてそれぞれ図示されている。エンコーダ10、デコーダ20及び認識器30のネットワーク構成は設計事項であって、図示に限定されない。
【0035】
[2.手順]
図2に加えて
図3から
図5を参照して、本実施の形態に係る情報処理方法の手順について説明する。以下の説明では、認識処理の対象であるセンシングデータが画像データである場合を例に用いる。
【0036】
[2.1 全体の流れ]
図3は、本実施の形態に係る情報処理方法の手順例を示すフロー図である。コンピュータによって実行される当該情報処理方法の全体の流れは次のとおりである。
【0037】
(ステップS10)VAEである第1モデルを訓練する。このステップは、例えば第1モデルによるセンシングデータに対するノイズ低減の性能が所定のレベルに達するまで実行される。
【0038】
(ステップS20)エンコーダ10及びデコーダ20のパラメータが保存される。
【0039】
(ステップS30)エンコーダ10のパラメータを読み込む。
【0040】
(ステップS40)エンコーダ10を用いて、第2モデル、つまり認識器30の訓練を実行する。このステップは、例えば第2モデルによるセンシングデータに対する認識性能が所定のレベルに達するまで実行される。
【0041】
[2.2 VAEの訓練]
ステップS10のVAEの訓練について、
図2及び
図4を参照してより詳しく説明する。
図4は、VAEの訓練方法の手順例を示すフロー図である。
【0042】
はじめに、画像を取得してエンコーダ10に入力する(ステップS11)。入力する画像には、ノイズのある画像及びノイズのない画像を含む。
【0043】
次に、入力された画像についてエンコーダ10が出力する平均及び分散をもとに、潜在変数Zを多次元ガウス分布からサンプリングして取得する(ステップS12)。
【0044】
次に、ステップS12で取得した潜在変数Zをデコーダ20に入力し、この入力に対するデコーダ20の出力である画像(
図2の出力画像を参照)を取得する(ステップS13)。
【0045】
最後に、ステップS13で取得した出力画像のロス、つまりデコーダ20からの出力画像とエンコーダ10への入力画像との誤差を、誤差関数を用いて算出し、この誤差を用いてエンコーダ10及びデコーダ20のパラメータを更新する(ステップS14)。この誤差関数としては、例えばVAEに用いられる既知のものが利用可能である。なお、
図2中のεは、ステップS14においてVAEの訓練に誤差逆伝播法を適用するために用いる手法で導入されるノイズを表す。
【0046】
このようなVAEの機械学習の訓練は、本実施の形態における第1訓練の例である。
【0047】
[2.3 認識器の訓練]
上述の方法で訓練されたVAEのパラメータの保存(S20)及びエンコーダ10のパラメータの読込み(S30)を経て、ステップS40の認識器30の訓練、つまり
図2の例における第2モデルの訓練を実行する。認識器30の訓練について、
図2及び
図5を参照してより詳しく説明する。
図5は、認識器30の訓練方法の手順例を示すフロー図である。
【0048】
はじめに、画像を取得してエンコーダ10に入力する(ステップS41)。入力する画像には、ノイズのある画像及びノイズのない画像を含む。
【0049】
次に、入力された画像についてエンコーダ10が出力する平均及び分散をもとに、潜在変数Zを多次元ガウス分布からサンプリングして取得する(ステップS42)。
【0050】
次に、ステップS42で取得した潜在変数Zを認識器30に入力し、この入力に対する認識器30の出力である認識結果(
図2参照)を取得する(ステップS43)。本実施の形態の説明に用いている例でいえば、認識器30からは、エンコーダ10に入力された画像に写る数字の推論による認識が実行された結果が出力される。認識器30によるこの認識は、入力された画像の特徴を示す特徴データ(潜在変数Z)から復元された入力画像、又は入力画像からノイズが除去された画像を用いることなく実行されている。
【0051】
最後に、ステップS43で取得した認識結果と正解との誤差を、誤差関数を用いて算出し、この誤差を用いた誤差逆伝播法によって認識器30のパラメータを更新する(ステップS44)。この誤差として用いられるものは、認識器の用途に応じて適宜選択され得る。本実施の形態の説明に用いている例でいえば、入力された画像に写る数字は0から9のいずれか、といったクラス分類を用途とする認識器の場合、クロスエントロピー誤差が用いられてもよい。
【0052】
このような認識器の機械学習の訓練は、本実施の形態における第2訓練の例である。
【0053】
[2.4 訓練方法の小括]
このように、訓練された機械学習の推定モデルを得るための方法である本実施の形態に係る情報処理方法には、ノイズを含むセンシングデータの入力に対して、ノイズが低減されたセンシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練(第1訓練)が実行された第1モデルが用いられる。この訓練が実行された第1モデルは、ノイズを含むセンシングデータの入力に対して模擬センシングデータを出力するまでの過程で、このセンシングデータについての特徴データを生成する。
【0054】
このような第1モデルからは、ノイズを含む第1センシングデータの入力に対して当該ノイズが低減された第1センシングデータを模擬した第1模擬センシングデータを出力するまでの過程で生成される、第1センシングデータについての特徴データ(第1特徴データ)が取得される。上記の説明では、ステップS41でVAEのエンコーダ10に入力される画像は第1センシングデータの例であり、VAEのデコーダ20が生成して出力するセンシングデータは第1模擬センシングデータの例である。また、上記の説明においてステップS42で取得される潜在変数Zは、この第1特徴データの例である。
【0055】
次に、第1特徴データを第2モデルに入力する。本実施の形態に係る情報処理方法において、第2モデルは、特徴データの入力に対して推論結果を出力させる機械学習の訓練(第2訓練)の対象である。第2モデルは、第1特徴データのこの入力に対して、第1推論結果のデータを出力する。上記の説明においてステップS43で認識器から出力される認識結果は、この第1推論結果の例である。
【0056】
そして、第2モデルから取得された第1推論結果のデータと、第1センシングデータに対する推論についてのリファレンスデータ(正解ラベル)とに基づいて、第2訓練を実行する。
【0057】
このような訓練が行われた第2モデルが、上述の例のような画像認識のための認識器である場合、この認識器を用いた画像認識は、いったん復元された画像を用いることなく実行される。つまり、本実施の形態に係る情報処理方法によって、
図1に示したように入力画像が含むノイズの量に左右されやすい画像復元の精度の影響を受けない認識器を得ることができる。
【0058】
[3.認識器を用いた認識方法]
本実施の形態に係る情報処理方法の中で訓練された認識器を用いた認識方法は、上述の訓練済みの機械学習の推定モデルを得るための方法と同じく、プロセッサを備える1台以上のコンピュータによって実行される情報処理方法である。この認識方法の手順は、認識器30の訓練方法の手順から、誤差を用いてのパラメータの更新のステップ(
図5のS44)を除いたものにほぼ相当する。
図6は、訓練済みの認識器30を用いた画像認識の手順例を示すフロー図である。ステップS50はステップS41に、ステップS60はステップS42に、ステップS70はステップS43に相当する。ただし、ステップS50でエンコーダ10に入力する画像には、ステップS41のようにノイズを含まない画像を含める必要はない。ステップS50でノイズを含む画像の入力を受けたエンコーダ10の出力から、この画像についての特徴データである潜在変数Zが取得される(ステップS60)。ステップS60で取得した潜在変数Zを、次は訓練済みの認識器30に入力すると、認識器30から認識結果、ここまで用いている例に沿えば、ステップS50でエンコーダ10に入力された画像に写る数字の推論による認識が実行された結果が出力される(ステップS70)。
【0059】
この認識結果は、入力された画像の特徴を示す特徴データ(潜在変数Z)から復元された画像を用いることなく取得されている。つまり、
図1に示したように入力画像が含むノイズの量に左右されやすい画像復元の精度の影響を受けていない。したがって、このような認識器を用いた認識方法では、従来に比べて、例えばプライバシ保護の強化のために強度のノイズが付加された画像からも、より高い精度での画像認識が可能である。つまり、復元処理が難化しているデータからも、復元処理前のデータに対する推論の結果の実質的な悪化が抑制される。この認識方法を用いた認識の性能については、次に説明する変形例の後で実験結果を提示する。
【0060】
[4.変形例等]
本開示の一又は複数の態様に係る情報処理方法は、上記実施の形態の説明に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が想到する各種の変形を上記実施の形態に施したものも本開示の態様に含まれ得る。下記にそのような変形の例、及び上記実施の形態の説明へのその他の補足事項を挙げる。
【0061】
(1)上記実施の形態の説明で用いた例では、第1モデルは各々ニューラルネットワークのモデルであるエンコーダ及びデコーダを含むVAEとしたが、これに限定されない。より細かな例を挙げると、第1モデルは全結合型のVAEであってもよいし、その他にCVAE(Conditional VAEの略)、ConvVAE(Convolutional VAEの略)又はConvCVAE(Convolutional Conditional VAEの略であり、前二者の複合)といったネットワーク構成のVAEが第1モデルに用いられてもよい。また上述のとおり、各ニューラルネットワークの層数についても設計事項として選択可能である。
【0062】
図7は、第1モデルがCVAEである変形例に係る情報処理方法の概要を示す図である。
図2に示す概要とは、エンコーダ10Aの最終層及びデコーダ20Aの最初の層に、条件を示すラベルが入力される点が異なる。エンコーダ10Aにラベルが入力されることで、ラベルが示す条件以外の情報が潜在変数Zに抽出される。デコーダ20Aには、条件を示すラベルを入力することで、この条件に応じた画像を潜在変数Zから生成させることができる。例えば入力画像がノイズを含むことを示すラベルが入力されたデコーダ20Aは、潜在変数Zからノイズを含む画像を生成する。
【0063】
また、第1モデルはVAEではなく、AE(Autoencoder)であってもよい。この場合、認識器に入力される特徴データとしては、エンコーダから選択されるいずれかの層の出力が用いられる。層の選択には、例えば各層の出力が、エンコーダに入力されるデータのどのような特徴であるかを可視化する処理を行って、エンコーダに入力されるデータの平均及び分散を示すデータを出力する層が選択されてもよい。あるいは、試行的にいくつかの層からの出力を特徴データとして認識器に入力して認識を実行させ、より好適な評価の認識性能が得られた層が選択されてもよい。また例えば、各層での入力データからの次元の圧縮の程度、又は計算量等が選択に考慮されてもよい。
【0064】
なお、どのようなネットワーク構成の第1モデルを用いるかは、例えばエンコーダの用途(入力されるセンシングデータの種類)に応じて選択されてもよい。上記実施の形態は、センシングデータの例として画像データを用いたが、その他の各種のセンシングデータ、例えば音声データ、加速度データ、角速度データ、距離データ、温度データが、VAE又はAEのエンコーダに入力されて抽出される特徴から推論モデルによる何らかの推論が実行される対象となり得る。
【0065】
(2)上記実施の形態の説明で用いた例では、画像が含むノイズはごま塩ノイズであるが、これに限定されない。例えばガウシアンブラー等の他の種類のノイズであってもよい。また、上記に例示した他の種類のセンシングデータであれば、その種類に応じたノイズが含まれ得る。
【0066】
(3)上記実施の形態で説明しているのは、ノイズを付加して劣化させた画像に対してより高い画像認識性能を有する認識モデルを得るための情報処理方法であるが、当該情報処理方法は、その他の原因による低画質な画像での画像認識性能の向上にも適用可能である。例えば、圧縮処理によって劣化した画像、性能の低いカメラで撮影された画像、好適でない通信環境での通信によって取得された画像又は経年劣化したメディアに記録されている画像であってもよい。さらに本開示に係る情報処理方法が適用されるのは画像データの認識に限らず、クオリティの低い各種のセンシングデータからでもより高い認識性能を有する認識モデルを得る方法としても利用可能である。所望の性能の第2モデルを得るための訓練に要する量のデータ及び正解情報が用意できれば、本開示に係る情報処理方法を利用して、より高い認識性能を有する認識モデルを得ることができる。
【0067】
(4)上記実施の形態では、第1訓練、第2訓練の順に行う情報処理方法のみについて説明したが、これに限定されない。第1モデルの性能の向上に伴い、第2モデルの性能も向上する可能性があることに鑑みて、第2訓練の後に、さらに第1訓練及び第2訓練を含む再訓練を実行してもよい。再訓練では、第1訓練をさらに実行した第1モデルから特徴データ(第2特徴データ)を取得する。次に、第2特徴データを、認識器である第2モデルに入力して、第2モデルから第2特徴データに対する推論結果データである第2推論結果データを出力させる。そして、第2推論結果データ及びリファレンスデータに基づいて第2訓練をさらに実行する。
【0068】
ただし、復元の精度がより高い第1モデル由来の特徴データを用いて訓練することで、より高性能の認識器が得られるとは限らない。したがって、例えば
図3に示す手順の進行において、ステップS10で所定量の訓練の実行後に試行的に以降の手順に移って、第2モデルによる認識結果(認識性能)の評価を取得し、この評価が所定の基準に照らして再訓練をさらに繰り返すか否か決定されてもよい。例えば評価としての認識の正解率が所定の高さに達する、又は訓練量の増加に対する正解率の向上率が所定の大きさを下回るといった基準を満たすまで、
図3に示す一連の手順からなるサイクルが繰り返されてもよい。認識性能の評価としては、正解率以外に、精度、検出率、及びF値も用い得る。
【0069】
(5)上述の各情報処理システムが備える機能的な構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)で構成されてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read-Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサがこのコンピュータプログラムに従って動作することにより、システムLSIは各構成要素の機能を達成する。
【0070】
なお、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
【0071】
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。
【0072】
(6)本開示の一態様は、フロー図を用いて上述した情報処理方法に限定されず、コンピュータによって実行されるプログラム、及びコンピュータを含む情報処理システムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。
【0073】
[5.実施例]
本発明者は、ここまでに説明した情報処理方法を用いて得た認識器による認識性能を確認するための実験を行った。
図8は、この実験の結果を示す表である。
【0074】
この実験では、MNISTの手書き数字の画像データにノイズを付加したものと付加していないものとを合わせて用いて機械学習の訓練を行った。付加したノイズはごま塩ノイズ及びガウシアンブラーの2種類で、それぞれでノイズの強度が異なるものを用意した。このような画像データを訓練では6万枚用い、認識及びその評価は1万枚を対象に行った。
【0075】
第1モデルにはCVAEを採用し、訓練時には入力画像のノイズの有無を示すラベルを用いた。認識器としては、従来のモデル、つまりデコーダが出力した復元画像から数字を認識する認識器と、本開示に係る情報処理方法を用いて訓練されたモデル、つまりCVAEの潜在変数の入力を受けて数字を認識する第2モデルに相当する認識器との2種類を用意した。表中の「ノイズラベルの表示」の欄は、認識時にエンコーダに入力したラベルの表示を示す。つまり、ラベルの表示が「ノイズ無」の場合は、入力画像の実際の状態と一致しない。
【0076】
また、参考のために、ノイズを含む画像、つまり上記のCVAEではエンコーダに入力した画像から直接に認識を実行する認識器として、3層の全結合層からなり、10クラス分類を行う認識モデルも用意した。
【0077】
図8の表が示すのは、上記の各認識器による条件ごとの正解率である。この結果からは、下記の点が把握される。
【0078】
(i)ノイズの種類及び認識器の種類のいずれにかかわらず、ノイズの強度が上がるほど正解率は下がる傾向を示した。
【0079】
(ii)潜在変数からの認識、つまり本開示に係る情報処理方法を用いて訓練されたモデルによる認識(データ行の3行目及び5行目)は、ノイズ画像からの認識(データ行の1行目)、生成画像からの認識(データ行の2行目及び4行目)のいずれよりも正解率が高かった。
【0080】
(iii)特にごま塩ノイズの方では、本開示に係る情報処理方法を用いて訓練されたモデルでは、他のモデルに比べて、ノイズの強度を上げても認識性能の低下が小さかった。
【0081】
(iv)潜在変数からの認識、生成画像からの認識のいずれの場合も、ラベルの表示はノイズ無とした方が、ノイズ有とするよりも正解率が高かった。
【0082】
上記の(ii)からは、本開示に係る情報処理方法を用いて得られる認識器の性能が従来の手法によって得られる認識器よりも性能が高いことが確認される。
【0083】
また、上記の(iv)は、「ノイズ無」のラベルを入力することで、ノイズを含む画像を入力する場合でも、ノイズが無い状態に相当する画像特徴が抽出されやすくなることによる結果と考えられる。
【産業上の利用可能性】
【0084】
本開示に係る情報処理方法は、センシングデータに対する認識処理に利用可能である。
【符号の説明】
【0085】
10,10A エンコーダ
20,20A デコーダ
30 認識器(第2モデル)