特開2023-75764 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックＩＰマネジメント株式会社の特許一覧

特開2023-75764学習装置、学習方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023075764

(43)【公開日】2023-05-31

(54)【発明の名称】学習装置、学習方法及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20230524BHJP

G06N 3/08 20230101ALI20230524BHJP

G06T 1/40 20060101ALI20230524BHJP

【ＦＩ】

G06T7/00 350C

G06N3/08

G06T1/40

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021188872

(22)【出願日】2021-11-19

(71)【出願人】

【識別番号】314012076

【氏名又は名称】パナソニックＩＰマネジメント株式会社

(74)【代理人】

【識別番号】100132241

【弁理士】

【氏名又は名称】岡部博史

(74)【代理人】

【識別番号】100135703

【弁理士】

【氏名又は名称】岡部英隆

(72)【発明者】

【氏名】中村譲

(72)【発明者】

【氏名】石井育規

(72)【発明者】

【氏名】丸山悠樹

(72)【発明者】

【氏名】佐藤智

【テーマコード（参考）】

5B057

5L096

【Ｆターム（参考）】

5B057CA01

5B057CA08

5B057CA12

5B057CA16

5B057CB01

5B057CB02

5B057CB08

5B057CB12

5B057CB16

5B057DC40

5L096DA01

5L096DA02

5L096HA11

5L096JA11

5L096KA04

5L096KA15

(57)【要約】

【課題】推定に用いられるニューラルネットワークの汎化性能の向上に適した学習データを生成する。
【解決手段】第１のニューラルネットワークを用いて第１の画像を第２のドメインの画像に疑似的に変換した第２の変換画像を作成し、第１のニューラルネットワークと異なる第２のニューラルネットワークを用いて第２の変換画像を第１のドメインの画像に再構成した第１の再構成画像に変換し、第２のニューラルネットワークを用いて第２の画像を第１のドメインの画像に疑似的に変換した第１の変換画像を作成し、第１のニューラルネットワークを用いて第１の変換画像を第２のドメインの画像に再構成した第２の再構成画像に変換する変換部と、画像変換による損失を計算し、損失が最小になる第１のニューラルネットワーク及び第２のニューラルネットワークのパラメータに更新する更新部を備える、学習装置。
【選択図】図３

【特許請求の範囲】

【請求項1】

第１のドメインの第１の画像を第２のドメインの第２の画像に変換する第１のニューラルネットワークの学習装置であって、
前記第１のニューラルネットワークを用いて前記第１の画像を前記第２のドメインの画像に疑似的に変換した第２の変換画像を作成し、前記前記第１のニューラルネットワークと異なる第２のニューラルネットワークを用いて前記第２の変換画像を前記第１のドメインの画像に再構成した第１の再構成画像に変換し、前記第２のニューラルネットワークを用いて前記第２の画像を前記第１のドメインの画像に疑似的に変換した第１の変換画像を作成し、前記第１のニューラルネットワークを用いて前記第１の変換画像を前記第２のドメインの画像に再構成した第２の再構成画像に変換する変換部と、
前記第１の画像と前記第１の再構成画像との第１の差分を計算し、前記第２の画像と前記第２の再構成画像との第２の差分を計算し、前記第１のドメインの第１の正解ラベルに基づいた構造情報から、前記第１の画像と前記第２の変換画像との第３の差分を計算し、前記第２のドメインの第２の正解ラベルに基づいた構造情報から、前記第２の画像と前記第１の変換画像との第４の差分を計算し、前記第１の差分、前記第２の差分、前記第３の差分及び前記第４の差分に基づいて画像変換による損失を計算し、前記損失が最小になる第１のニューラルネットワーク及び第２のニューラルネットワークのパラメータに更新する更新部を備える、
学習装置。

【請求項2】

前記変換部は、前記第１及び第２のニューラルネットワークと異なる第３のニューラルネットワークを用いて、前記第２の画像及び前記第２の変換画像が真の画像か偽の画像か画像の真偽を識別し、前記第１乃至第３のニューラルネットワークと異なる第４のニューラルネットワークを用いて、前記第１の画像及び前記第１の変換画像が真の画像か偽の画像か画像の真偽を識別する
請求項１に記載の学習装置。

【請求項3】

前記更新部は、前記第３のニューラルネットワークまたは前記第４のニューラルネットワークが出力した画像の真偽識別結果に基づいて、前記第３のニューラルネットワークまたは前記第４のニューラルネットワークのパラメータを更新する、
請求項２に記載の学習装置。

【請求項4】

前記第１の画像は可視光画像であり、前記第２の画像は赤外線画像である、
請求項１～３のいずれかに記載の学習装置。

【請求項5】

学習装置を用いて、第１のドメインの第１の画像を第２のドメインの第２の画像に変換する第１のニューラルネットワークの学習方法であって、
前記学習装置の処理部は、前記第１のニューラルネットワークを用いて前記第１の画像を前記第２のドメインの画像に疑似的に変換した第２の変換画像を作成し、前記前記第１のニューラルネットワークと異なる第２のニューラルネットワークを用いて前記第２の変換画像を前記第１のドメインの画像に再構成した第１の再構成画像に変換し、前記第２のニューラルネットワークを用いて前記第２の画像を前記第１のドメインの画像に疑似的に変換した第１の変換画像を作成し、前記第１のニューラルネットワークを用いて前記第１の変換画像を前記第２のドメインの画像に再構成した第２の再構成画像に変換し、
前記学習装置の処理部は、前記第１の画像と前記第１の再構成画像との第１の差分を計算し、前記第２の画像と前記第２の再構成画像との第２の差分を計算し、前記第１のドメインの第１の正解ラベルに基づいた構造情報から、前記第１の画像と前記第２の変換画像との第３の差分を計算し、前記第２のドメインの第２の正解ラベルに基づいた構造情報から、前記第２の画像と前記第１の変換画像との第４の差分を計算し、前記第１の差分、前記第２の差分、前記第３の差分及び前記第４の差分に基づいて画像変換による損失を計算し、前記損失が最小になる第１のニューラルネットワーク及び第２のニューラルネットワークのパラメータに更新する、
学習方法。

【請求項6】

請求項５に記載の学習方法を、前記学習装置の処理部に実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は学習装置、学習方法及びプログラムに関するものである。

【背景技術】

【0002】

クラス識別、物体検出及び位置回帰などの推定を行うニューラルネットワークなどの機械学習で使用される学習データを生成する技術が従来から知られている。例えば、変分自己符号化器（ＶＡＥ）や敵対的ネットワーク（ＧＡＮ）などのディープラーニングを用いて学習データに類似したデータを生成する技術が、学習データの水増しや学習データの代替に利用されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２１－８６４９７号公報

【非特許文献】

【0004】

【非特許文献1】Ｊｕｎ－ＹａｎＺｈｕ，ＴａｅｓｕｎｇＰａｒｋ，ＰｈｉｌｌｉｐＩｓｏｌａ，ＡｌｅｘｅｉＡ．Ｅｆｒｏｓ，“ＵｎｐａｉｒｅｄＩｍａｇｅ－ｔｏ－ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎｕｓｉｎｇＣｙｃｌｅ－ＣｏｎｓｉｓｔｅｎｔＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ”ＩＣＣＶ２０１７

【非特許文献2】Ａ．Ｒａｄｆｏｒｄ，Ｌ．Ｍｅｔｚ，ａｎｄＳ．Ｃｈｉｎｔａｌａ．Ｕｎｓｕｐｅｒｖｉｓｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ．ＩｎＩＣＬＲ，２０１６

【非特許文献3】ＰｈｉｌｌｉｐＩｓｏｌａ，Ｊｕｎ－ＹａｎＺｈｕ，ＴｉｎｇｈｕｉＺｈｏｕ，ＡｌｅｘｅｉＡ．Ｅｆｒｏｓ，ＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ，Ｂｅｒｋｅｌｅｙ，“Ｉｍａｇｅ－ｔｏ－ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎｗｉｔｈＣｏｎｄｉｔｉｏｎａｌＡｄｖｅｒｓａｒｉａｌＮｅｔｓ，”ＣＶＰＲ２０１７

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら従来の技術では、データの変換そのものを目的としており、推定に用いられるニューラルネットワークの識別性能の向上に適した学習データを生成することが困難であった。

【課題を解決するための手段】

【0006】

本開示の一態様に係る学習装置は、第１のドメインの第１の画像を第２のドメインの第２の画像に変換する第１のニューラルネットワークの学習装置である。学習装置は、変換部と更新部を備える。変換部は、第１のニューラルネットワークを用いて前記第１の画像を前記第２のドメインの画像に疑似的に変換した第２の変換画像を作成し、前記前記第１のニューラルネットワークと異なる第２のニューラルネットワークを用いて前記第２の変換画像を前記第１のドメインの画像に再構成した第１の再構成画像に変換し、前記第２のニューラルネットワークを用いて前記第２の画像を前記第１のドメインの画像に疑似的に変換した第１の変換画像を作成し、前記第１のニューラルネットワークを用いて前記第１の変換画像を前記第２のドメインの画像に再構成した第２の再構成画像に変換する。更新部は、前記第１の画像と前記第１の再構成画像との第１の差分を計算し、前記第２の画像と前記第２の再構成画像との第２の差分を計算し、前記第１のドメインの第１の正解ラベルに基づいた構造情報から、前記第１の画像と前記第２の変換画像との第３の差分を計算し、前記第２のドメインの第２の正解ラベルに基づいた構造情報から、前記第２の画像と前記第１の変換画像との第４の差分を計算し、前記第１の差分、前記第２の差分、前記第３の差分及び前記第４の差分に基づいて画像変換による損失を計算し、前記損失が最小になる第１のニューラルネットワーク及び第２のニューラルネットワークのパラメータに更新する。

【0007】

本開示の一態様に係る学習方法は、学習装置を用いて、第１のドメインの第１の画像を第２のドメインの第２の画像に変換する第１のニューラルネットワークの学習方法である。学習方法は、学習装置の処理部で行われる。前記学習装置の処理部は、前記第１のニューラルネットワークを用いて前記第１の画像を前記第２のドメインの画像に疑似的に変換した第２の変換画像を作成し、前記前記第１のニューラルネットワークと異なる第２のニューラルネットワークを用いて前記第２の変換画像を前記第１のドメインの画像に再構成した第１の再構成画像に変換し、前記第２のニューラルネットワークを用いて前記第２の画像を前記第１のドメインの画像に疑似的に変換した第１の変換画像を作成し、前記第１のニューラルネットワークを用いて前記第１の変換画像を前記第２のドメインの画像に再構成した第２の再構成画像に変換する。前記学習装置の処理部は、前記第１の画像と前記第１の再構成画像との第１の差分を計算し、前記第２の画像と前記第２の再構成画像との第２の差分を計算し、前記第１のドメインの第１の正解ラベルに基づいた構造情報から、前記第１の画像と前記第２の変換画像との第３の差分を計算し、前記第２のドメインの第２の正解ラベルに基づいた構造情報から、前記第２の画像と前記第１の変換画像との第４の差分を計算し、前記第１の差分、前記第２の差分、前記第３の差分及び前記第４の差分に基づいて画像変換による損失を計算し、前記損失が最小になる第１のニューラルネットワーク及び第２のニューラルネットワークのパラメータに更新する。

【発明の効果】

【0008】

本開示の学習装置、学習方法及びプログラムによれば、従来の技術よりも推定に用いられるニューラルネットワークの識別性能の向上に適した学習データを水増しすることができるため、ニューラルネットワークなどの機械学習を用いて性能の高いクラス識別、物体検出及び位置回帰などの推定を行うことができる。

【図面の簡単な説明】

【0009】

【図1】実施形態の画像変換の概要図

【図2】実施形態の学習装置の機能構成の例を示す図

【図3】実施形態のニューラルネットワークの構成例を示す図

【図4】実施形態の学習方法の例を示すフローチャート

【発明を実施するための形態】

【0010】

以下、適宜図面を参照しながら、学習装置、学習方法及びプログラムの実施形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

【0011】

なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために、提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

【0012】

（実施形態）
本発明に係る実施形態の学習装置は、第１ドメインのデータとして第１画像の入力を受け付け、第２のドメインのデータである第２画像に類似するように（第２のドメインのデータ風に）変換を行う第１のニューラルネットワークと、第２ドメインのデータとして第２画像の入力を受け付け、第１のドメインのデータである第１画像に類似するように（第１のドメインのデータ風に）変換を行う第２のニューラルネットワークとを学習させる装置である。

【0013】

図１は、実施形態の画像変換の概要図である。例えば、図１のように第１のニューラルネットワークの入力が、車載カメラによって撮影された前方の可視光画像であり、第２のニューラルネットワークの入力が、車載カメラによって撮影された前方の赤外線画像である。そして、学習装置が、第１ドメインのデータとして可視光画像の入力を受け付け、第２のドメインのデータである赤外線画像に類似するような疑似赤外線画像に変換を行い、第２ドメインのデータとして疑似赤外線画像の入力を受け付け、第１のドメインのデータに類似するような再構成可視光画像に変換する。このような変換を行うことで、第１のニューラルネットワーク及び第２のニューラルネットワークの学習を行う場合について説明する。

【0014】

このような変換を学習するために、本発明に係る実施形態の学習装置には、車載カメラであらかじめ撮影された可視光画像（第１のドメインのデータ）と、赤外線画像（第２のドメインのデータ）と、第１のドメインの正解ラベルのデータと、第２のドメインの正解ラベルのデータと、が格納されている。正解ラベルには、画像内に含まれる他車両の外接矩形や車両の外接直方体の地面と接している頂点の画像内の位置などが記述されている。

【0015】

また、本発明に係る実施形態の学習装置は、第１のドメインのデータによる第１のニューラルネットワークと第２のドメインのデータによる第２のニューラルネットワークの学習による変換品質を向上させるため、第１のニューラルネットワークと第２のニューラルネットワークをさらに学習する。第１のニューラルネットワークは、第１のドメインのデータを、第２のドメインのデータに類似するように（第２のドメインのデータ風に）変換し、第２のニューラルネットワークは、第２のドメインのデータを、第１のドメインのデータに類似するように（第１のドメインのデータ風に）変換する。

【0016】

第２のドメインのデータは、例えば赤外線画像と、正解ラベルのデータである。

【0017】

このように学習用の赤外線画像（第２のドメインのデータ）と、それらに対する正解ラベルとが本発明に係る実施形態の学習装置に格納される。

【0018】

なお、第２のドメインのデータは、赤外線画像に限られない。第２のドメインのデータ及びその正解ラベルは、第１のドメインのデータの水増しあるいは代替として利用できるデータと、正解データとの組であれば任意でよい。

【0019】

また正解ラベルについては、第１のドメインのデータの正解ラベルには含まれているが、第２のドメインのデータの正解ラベルには含まれていないデータがあってもよい。逆に、第２のドメインのデータの正解ラベルには含まれているが、第１のドメインのデータの正解ラベルには含まれていないデータがあってもよい。

【0020】

また、第２のニューラルネットワークが、第１のドメインのデータの正解ラベルから第１のドメインのデータに対応するデータを生成できる場合、第２のドメインのデータの正解ラベルを用意しなくてもよい（第１のドメインのデータの正解ラベルと同一でもよい）。

【0021】

第１のニューラルネットワークは、第１のドメインのデータを第２のドメインのデータと類似するように変換できるニューラルネットワークであれば任意でよい。第２のニューラルネットワークは、第２のドメインのデータを第１のドメインのデータと類似するように変換できるニューラルネットワークであれば任意でよい。第１及び第２のニューラルネットワークには、第２のドメインのデータ形式と第１のドメインのデータ形式とに基づいて、最も適切な変換技術を適用してよい。第１及び第２のニューラルネットワークに適用される変換技術は、例えばＣｙｃｌｅＧＡＮ（非特許文献１）、ＤＣＧＡＮ（非特許文献２）及びＰｉｘ２Ｐｉｘ（非特許文献３）などである。

【0022】

［構成例］
図２は、本発明に係る実施形態の学習装置１の構成例を示すブロック図である。この学習装置１は、例えば専用または汎用コンピュータを用いて構成される。本発明に係る実施形態の学習装置１は、図２に示すように、処理部１０、記憶部２０、通信部３０、及び、各構成を接続するバス４０を備える。

【0023】

処理部１０は、取得部１１、変換部１２、更新部１３を備える。各部の処理の具体的な説明については後述する。なお、図２では、本発明に係る実施形態に関わる主要な機能ブロックを例示しているが、処理部１０が有する機能はこれらに限られない。

【0024】

学習装置１で実行される各機能の処理は、例えば、コンピュータによって実行可能なプログラムの形態で記憶部２０に記憶されている。処理部１０は、記憶部２０からプログラムを読み出して実行することで、各プログラムに対応する機能を実現するプロセッサである。各プログラムを読み出した状態の処理部１０は、図２に示した各機能ブロックを有する。

【0025】

なお、図２では、単一の処理部１０により各機能ブロックが実現されるものとして図示しているが、複数の独立したプロセッサを組み合わせて処理部１０を構成しても構わない。この場合、各処理機能がプログラムとして構成されてもよいし、特定の機能が専用の独立したプログラム実行回路に実装されてもよい。

【0026】

上述の「プロセッサ」は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの汎用プロセッサ、あるいは、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、プログラマブル論理デバイス（例えば、単純プログラマブル論理デバイス（ＳｉｍｐｌｅＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＳＰＬＤ）、複合プログラマブル論理デバイス（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＣＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ））などの回路である。

【0027】

処理部１０は記憶部２０に保存されたプログラムを読み出し実行することで機能を実現する。なお、記憶部２０にプログラムを保存する代わりに、処理部１０の回路内にプログラムを直接組み込むよう構成しても構わない。この場合、処理部１０は回路内に組み込まれたプログラムを読み出し実行することで機能を実現する。

【0028】

記憶部２０は、処理部１０の各機能ブロックに伴うデータなどを必要に応じて記憶する。記憶部２０は、ニューラルネットワークのプログラムと、重みパラメータを記憶している。本発明に係る実施形態の記憶部２０は、プログラムと、各種の処理に用いられるデータとを記憶する。例えば、記憶部２０は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリなどの半導体メモリ素子、ハードディスク、光ディスクなどである。また、記憶部２０は、学習装置１の外部の記憶装置で代替されてもよい。記憶部２０は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットなどにより伝達されたプログラムをダウンロードして記憶または一時記憶した記憶媒体であってもよい。また、記憶媒体は１つに限らず、複数の媒体から構成されてもよい。

【0029】

記憶部２０には、あらかじめ学習に用いる第１のドメインのデータ及びそのデータに対する正解ラベルと、第２のドメインのデータとそのデータに対する正解ラベルが格納されていてもよいし、別のサーバなどの装置にあらかじめ格納されている前述のデータを、ＬＡＮなどを介して一部ずつ読み出し、記憶部２０に格納してもよい。

【0030】

通信部３０は、有線または無線で接続された外部装置と情報の入出力を行うインタフェースである。通信部３０は、ネットワークに接続して通信を行ってもよい。

【0031】

次に、処理部１０が有する各機能ブロックの処理について説明する。

【0032】

取得部１１は、記憶部２０から第１のドメインのデータと、第１のドメインのデータの正解ラベルとを学習データとして読み出す。また、取得部１１は、記憶部２０から第２のドメインのデータと、第２のドメインのデータの正解ラベルとを学習データとして読み出す。

【0033】

変換部１２は、ニューラルネットワークを用いて図１のように、第１のドメインのデータ（可視光画像）を受け付け、第１のドメインのデータを第２のドメインのデータに類似する第２の変換データ（疑似赤外線画像）に変換し、第２のドメインのデータを受け付け、第２のドメインのデータを第１のドメインのデータに類似する第１の変換データ（再構成可視画像）に変換する。なお、変換に用いられるニューラルネットワークの構成の詳細については、後述する。変換部１２がニューラルネットワークを用いるとは、記憶部２０に記憶されたニューラルネットワークのプログラムと、重みパラメータを用いることを意味する。

【0034】

更新部１３は、取得部１１によって読み出された学習データ（第１のドメインのデータ及びその正解ラベル、又は、第２のドメインのデータ及びその正解ラベル）に基づいて、ニューラルネットワークのパラメータを更新する。なお、更新方法の詳細については後述する。

【0035】

［ニューラルネットワークの構成例］
図３は本発明に係る実施形態のニューラルネットワークの構成例を示す図である。図３の例では、第１のドメインのデータとして可視光画像が用いられ、第２のドメインのデータとして赤外線画像が用いられる場合を示す。

【0036】

第１及び第２のドメインのデータは、Ｒ、Ｇ、Ｂのカラー画像でもよいし、色空間を変換したカラー画像（例えばＹ、Ｕ、Ｖのカラー画像）でもよい。また、第１及び第２のドメインのデータは、カラー画像をモノクロ化した１チャンネルの画像でもよい。また、第１及び第２のドメインのデータは、そのままの画像ではなく、例えばＲ、Ｇ、Ｂのカラー画像であれば、各チャンネルの画素値の平均値を引いた画像でもよい。また例えば、第１及び第２のドメインのデータは、各画素の画素値を０～１あるいは－１～１の範囲とした正規化画像などでもよい。正規化は、例えば各画素の画素値から平均値を引いた後、各画素値を分散あるいは画像の画素値のダイナミックレンジで割ることにより行われる。

【0037】

図３に示されるように、第１のニューラルネットワーク（以下図面では「ニューラルネットワーク」を「ＮＮ」と称す）１０１は、第１のドメインのデータＤ１Ｄの入力を受け付けると、第１のドメインのデータＤ１Ｄを第２のドメインのデータに類似する第２の変換データＤ２ＣＤに変換して出力する。

【0038】

第２のニューラルネットワーク１０２は、第２のドメインのデータＤ２Ｄの入力を受け付けると、第２のドメインのデータＤ２Ｄを第１のドメインのデータに類似する第１の変換データＤ１ＣＤに変換して出力する。

【0039】

第１のニューラルネットワーク１０１は、第１の変換データＤ１ＣＤの入力を受け付けると、第２のドメインのデータに類似する第２の再構成データＤ２ＲＤに変換して出力する。

【0040】

第２のニューラルネットワーク１０２は、第２の変換データＤ２ＣＤの入力を受け付けると、第１のドメインのデータに類似する第１の再構成データＤ１ＲＤに変換して出力する。

【0041】

第３のニューラルネットワーク１０３は、第２のドメインのデータＤ２Ｄ、又は、第２の変換データＤ２ＣＤの入力を受け付けると、真の画像か偽の画像かを識別する。そして、第３のニューラルネットワーク１０３は、第２のドメインのデータＤ２Ｄ、又は、第２の変換データＤ２ＣＤの真偽の識別結果を第３の更新部１３３に送信する。

【0042】

第４のニューラルネットワーク１０４は、第１のドメインのデータＤ１Ｄ、又は、第１の変換データＤ１ＣＤの入力を受け付けると、第１のドメインのデータＤ１Ｄ、又は、第１の変換データＤ１ＣＤの真の画像か偽の画像かを識別する。そして、第４のニューラルネットワーク１０４は、真偽の識別結果を第４の更新部１３４に送信する。

【0043】

第１のニューラルネットワーク１０１と、第２のニューラルネットワーク１０２と、第３のニューラルネットワーク１０３と、第４のニューラルネットワーク１０４は、上述の変換部１２によって利用される。

【0044】

第１のニューラルネットワーク１０１と、第２のニューラルネットワーク１０２と、第３のニューラルネットワーク１０３と、第４のニューラルネットワーク１０４のパラメータは、更新部１３によって更新される。更新部１３は、第１の更新部１３１と、第２の更新部１３２と、第３の更新部１３３と、第４の更新部１３４と、第５の更新部１３５と、第６の更新部１３６を備える。

【0045】

第１の更新部１３１は、第１のドメインのデータＤ１Ｄを受け付け、第２のニューラルネットワーク１０２から第１の再構成データＤ１ＲＤを受け付ける。そして、第１の更新部１３１は、第１のニューラルネットワーク１０１のパラメータと、第２のニューラルネットワーク１０２のパラメータを、第１の再構成データＤ１ＲＤが、第１のドメインのデータＤ１Ｄに近づくように更新する。

【0046】

第２の更新部１３２は、第２のドメインのデータＤ２Ｄを受け付け、第１のニューラルネットワーク１０１から第２の再構成データＤ２ＲＤを受け付ける。そして、第２の更新部１３２は、第２のニューラルネットワーク１０２のパラメータと、第１のニューラルネットワーク１０１のパラメータを、第２の再構成データＤ２ＲＤが、第２のドメインのデータＤ２Ｄに近づくように更新する。

【0047】

第３の更新部１３３は、第３のニューラルネットワーク１０３から真偽の識別結果を受け付ける。そして、第３の更新部１３３は、画像の真偽の識別結果に基づいて第３のニューラルネットワーク１０３のパラメータを、真の画像か偽の画像かを正しく識別できるように更新する。

【0048】

第４の更新部１３４は、第４のニューラルネットワーク１０４から真偽の識別結果を受け付ける。そして、第４の更新部１３４は、画像の真偽の識別結果に基づいて第４のニューラルネットワーク１０４のパラメータを、真の画像か偽の画像かを正しく識別できるように更新する。

【0049】

第５の更新部１３５は、第１のドメインのデータＤ１Ｄと、第２の変換データＤ２ＣＤと、取得部１１から第１のドメインのデータの正解ラベルＤ１ＣＬを受け付ける。そして、第５の更新部１３５は、第１のニューラルネットワーク１０１のパラメータを、第１のドメインのデータＤ１Ｄと、第２の変換データＤ２ＣＤと、第１のドメインのデータの正解ラベルＤ１ＣＬとに基づいて、第１のニューラルネットワーク１０１のパラメータを更新する。

【0050】

第６の更新部１３６は、第２のドメインのデータＤ２Ｄと、第１の変換データＤ１ＣＤと、取得部１１から第２のドメインのデータの正解ラベルＤ２ＣＬを受け付ける。そして、第６の更新部１３６は、第２のニューラルネットワーク１０２のパラメータを、第２のドメインのデータＤ２Ｄと、第１の変換データＤ１ＣＤと、第２のドメインのデータの正解ラベルＤ２ＣＬとに基づいて、第２のニューラルネットワーク１０２のパラメータを更新する。

【0051】

具体的には、第１の更新部１３１は、第１の再構成データＤ１ＲＤと、第１のドメインのデータＤ１Ｄとの差分から損失Ｌ_{ｃｙｃｌｅ１}を計算する。また同様に、第２の更新部１３２は、第２の再構成データＤ２ＲＤと、第２のドメインデータＤ２Ｄとの差分から損失Ｌ_{ｃｙｃｌｅ２}を計算する。第３の更新部１３３は、０を超え１未満の確率値で出力される数値と「真値：１」と「偽値：０」との差分から損失Ｌ_ｇａｎ１を計算する。また同様に、第４の更新部１３４は、０を超え１未満の確率値で出力される数値と「真値：１」と「偽値：０」との差分から損失Ｌ_ｇａｎ２を計算する。第５の更新部１３５は、第１のドメインのデータの正解ラベルＤ１ＣＬに基づいた領域構造情報から、第１のドメインのデータＤ１Ｄと、第２の変換データＤ２ＣＤとの差分から損失Ｌ_{ｅｄｇｅ１}を計算する。また同様に、第６の更新部１３６は、第２のドメインのデータの正解ラベルＤ２ＣＬに基づいた領域構造情報から、第２のドメインのデータＤ２Ｄと、第１の変換データＤ１ＣＤとの差分から損失Ｌ_{ｅｄｇｅ２}を計算する。そして更新部１３は、Ｌ_{ｃｙｃｌｅ１}とＬ_{ｃｙｃｌｅ２}とＬ_{ｅｄｇｅ１}とＬ_{ｅｄｇｅ２}を下記式（１）によって重み付き加算することにより損失Ｌ_ｇを求める。
Ｌ_ｇ＝ａ×Ｌ_{ｃｙｃｌｅ１}＋ｂ×Ｌ_{ｃｙｃｌｅ２}＋ｃ×Ｌ_{ｅｄｇｅ１}＋ｄ×Ｌ_{ｅｄｇｅ２} ・・・（１）
ここで、ａ、ｂ、ｃ、ｄは所定の定数である。

【0052】

そして、第１の更新部１３１、第２の更新部１３２、第５の更新部１３５、及び第６の更新部１３６は、この損失Ｌ_ｇが最小となるように第１のニューラルネットワーク１０１及び第２のニューラルネットワーク１０２のパラメータを更新する。

【0053】

なお、第１のニューラルネットワーク１０１及び第２のニューラルネットワーク１０２のパラメータの更新方法については、ここに述べた方法だけでなく、第１のニューラルネットワーク１０１及び第２のニューラルネットワーク１０２の出力において、第１及び第２のドメインのデータＤ１Ｄ，Ｄ２Ｄと、第１及び第２の再構成データＤ１ＲＤ，Ｄ２ＲＤとの差分が下がる方法であれば、他の方法であっても構わない。

【0054】

また、損失の計算方法は、損失をニューラルネットワークに遡及させてパラメータを更新できれば、どのような計算で行ってもよく、タスクに応じた損失の計算方法を選択すればよい。例えば、損失の計算方法は、Ｌ１Ｌｏｓｓ、Ｌ２Ｌｏｓｓ、ＳＳＩＭＬｏｓｓ、ＰｅｒｃｅｐｔｕａｌＬｏｓｓなどを使用してもよいし、これらの方法を組み合わせて使用してもよい。また、学習の進み具合に応じて、上記の定数ａ、ｂ、ｃ、ｄを適応的に変更してもよい。

【0055】

また、第３の更新部１３３及び第４の更新部１３４は、損失Ｌ_ｇａｎ１、Ｌ_ｇａｎ２が最小となるように第３のニューラルネットワーク１０３及び第４のニューラルネットワーク１０４のパラメータを更新する。

【0056】

なお、第３のニューラルネットワーク１０３及び第４のニューラルネットワーク１０４のパラメータの更新方法については、ここに述べた方法だけでなく、第３のニューラルネットワーク１０３及び第４のニューラルネットワーク１０４の出力において「真値：１」と「偽値：０」との差分が下がる方法であれば、他の方法であっても構わない。

【0057】

また、損失の計算方法は、損失をニューラルネットワークに遡及させてパラメータを更新できれば、どのような計算で行ってもよく、タスクに応じた損失の計算方法を選択すればよい。例えば損失の計算方法は、ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓやＬ１ＬｏｓｓやＬ２Ｌｏｓｓなどを選択すればよい。

【0058】

なお、Ｌ_{ｅｄｇｅ１}とＬ_{ｅｄｇｅ２}の計算方法については、ここに述べた方法だけでなく、第１及び第２のドメインの正解ラベルＤ１ＣＬ，Ｄ２ＣＬに基づいた領域構造情報から、第１及び第２のドメインのデータＤ１Ｄ，Ｄ２Ｄと、第１及び第２の変換データＤ１ＣＤ，Ｄ２ＣＤとの差分が下がる方法であれば任意でよい。例えば、第１及び第２のドメインの正解ラベルＤ１ＣＬ，Ｄ２ＣＬに基づく画像内に含まれる物体領域の外接矩形から、第１及び第２のドメインデータＤ１Ｄ，Ｄ２Ｄと、第１及び第２の変換データＤ１ＣＤ，Ｄ２ＣＤにおける各領域内の画素情報から任意の計算方法を選択してもよい。例えば、損失の計算方法は、エッジ抽出を行い、エッジの強度又は位置や方向の誤差、又はＣｈａｍｆｅｒ等のマッチング処理の結果を損失として選択してもよい。エッジの抽出方法としては、ＬａｐｌａｃｉａｎやＤｉｆｆｅｒｅｎｃｅｏｆＧａｕｓｓｉａｎ等の任意のフィルタ処理を選択してもよい。また、領域内の画素情報から周波数領域に変換を行い、周波数帯域での差分による計算方法を選択してもよい。

【0059】

［学習方法の例］
図４は本発明に係る実施形態の学習方法の例を示すフローチャートである。はじめに、取得部１１が、記憶部２０から学習データ（第１のドメインのデータ、第１のドメインのデータの正解ラベル、第２のドメインのデータ、及び、第２のドメインのデータの正解ラベル）を読み出す（ステップＳ３１）。

【0060】

取得部１１は、例えば第１のドメインのデータが可視光画像で、第２のドメインのデータが赤外線画像の場合、可視光画像とその正解ラベルとを１枚ずつ、赤外線画像とその正解ラベルとを１枚ずつ読み出してもよい。また例えば、取得部１１は、可視光画像とその正解ラベルの組、及び、赤外線画像とその正解ラベルの組を、例えば２枚や４枚、８枚ずつなど複数枚をセットで読み出してもよい。また例えば、取得部１１は、第１のドメインのデータＤ１Ｄ及び第２ドメインのデータＤ２Ｄの読み込み枚数を変えてもよい。

【0061】

これらの入力の組（１度に処理対象とするデータの単位）を以降ではバッチと呼ぶことがある。また入力１バッチに対するパラメータ更新処理の回数をイテレーション数と呼ぶことがある。

【0062】

次に、変換部１２が、第１のニューラルネットワーク１０１による変換処理を実行する（ステップＳ３２）。具体的には、変換部１２は、読み込まれたバッチ内の第１のドメインのデータＤ１Ｄを第１のニューラルネットワーク１０１に入力し、第２の変換データＤ２ＣＤを生成する。

【0063】

次に、変換部１２が、第２のニューラルネットワーク１０２による変換処理を実行する（ステップＳ３３）。具体的には、変換部１２は、読み込まれたバッチ内の第２のドメインのデータＤ２Ｄを第２のニューラルネットワーク１０２に入力し、第１の変換データＤ１ＣＤを生成する。

【0064】

次に、変換部１２が、第２のニューラルネットワーク１０２による変換処理を実行する（ステップＳ３４）。具体的には、変換部１２は、生成された第２の変換データを第２のニューラルネットワーク１０２に入力し、第１の再構成データＤ１ＲＤを生成する。

【0065】

次に、変換部１２が、第１のニューラルネットワーク１０１による変換処理を実行する（ステップＳ３５）。具体的には、変換部１２は、生成された第１の変換データを第１のニューラルネットワーク１０１に入力し、第２の再構成データＤ２ＲＤを生成する。

【0066】

次に、第１の更新部１３１、第２の更新部１３２、第５の更新部１３５、及び第６の更新部１３６が、ステップＳ３２～ステップＳ３５の処理結果に基づいて、上述の式（１）により定義された損失を計算する（ステップＳ３６）。

【0067】

次に、第１の更新部１３１、第２の更新部１３２、第５の更新部１３５及び第６の更新部１３６が、ステップＳ３６の処理によって計算された損失に基づいて、第１のニューラルネットワーク１０１及び第２のニューラルネットワーク１０２のパラメータを更新する（ステップＳ３７）。

【0068】

次に、変換部１２が第３のニューラルネットワーク１０３による識別処理を実行する（ステップＳ３８）。具体的には、変換部１２は、第２のドメインのデータＤ２Ｄと、生成された第２の変換データＤ２ＣＤを第３のニューラルネットワーク１０３に入力し、真の画像か偽の画像かを識別する。

【0069】

次に、変換部１２が第４のニューラルネットワーク１０４による識別処理を実行する（ステップＳ３９）。具体的には、変換部１２は、第１のドメインのデータＤ１Ｄと、生成された第１の変換データＤ１ＣＤを第４のニューラルネットワーク１０４に入力し、真の画像か偽の画像かを識別する。

【0070】

次に、第３の更新部１３３及び第４の更新部１３４が、ステップＳ３８及びステップＳ３９の処理結果に基づいて、損失を計算する（ステップＳ４０）。

【0071】

次に、第３の更新部１３３及び第４の更新部１３４が、ステップＳ４０の処理によって計算された損失に基づいて、第３のニューラルネットワーク１０３及び第４のニューラルネットワーク１０４のパラメータを更新する（ステップＳ４１）。

【0072】

次に、更新部１３が、所定の回数（イテレーション数）、更新処理を繰り返したか否かを判定する（ステップＳ４２）。所定の回数、更新処理を繰り返していない場合（ステップＳ４２、Ｎｏ）、処理はステップＳ３１に戻り、所定の回数、更新処理を繰り返した場合（ステップＳ４２、Ｙｅｓ）、処理は終了する。

【0073】

以上、説明したように、本発明に係る実施形態の学習装置１では、変換部１２が、第１のドメインのデータを受け付け、第１のドメインのデータを第２のドメインのデータに類似する第２の変換データに変換する第１のニューラルネットワーク１０１を用いて、第１のドメインのデータを第２の変換データに変換し、第２のドメインのデータを受け付け、第２のドメインのデータを第１のドメインのデータに類似する第１の変換データに変換する第２のニューラルネットワーク１０２を用いて、第２のドメインのデータを第１の変換データに変換し、第２の変換データを受け付け、第２の変換データを第１の再構成データに変換する第２のニューラルネットワーク１０２を用いて、第２の変換データを第１の再構成データに変換し、第１の変換データを受け付け、第１の変換データを第２の再構成データに変換する第１のニューラルネットワーク１０１を用いて、第１の変換データを第２の再構成データに変換する。第３のニューラルネットワーク１０３は、第２のドメインのデータ、又は、第２の変換データの入力を受け付けると、真の画像か偽の画像かを識別する。第４のニューラルネットワーク１０４は、第１のドメインのデータ、又は、第１の変換データの入力を受け付けると、真の画像か偽の画像かを識別する。

【0074】

第１の更新部１３１は、第１のニューラルネットワーク１０１のパラメータを、第１の再構成データが、第１のドメインのデータに近づくように更新する。第２の更新部１３２は、第２のニューラルネットワーク１０２のパラメータを、第２の再構成データが、第２のドメインのデータに近づくように更新する。第３の更新部１３３は、第３のニューラルネットワーク１０３のパラメータを、真の画像か偽の画像かを正しく識別できるように更新する。第４の更新部１３４は、第４のニューラルネットワーク１０４のパラメータを、真の画像か偽の画像かを正しく識別できるように更新する。第５の更新部１３５は、第１のニューラルネットワーク１０１のパラメータを、第１のドメインのデータと、第２の変換データと、第１のドメインのデータの正解ラベルとに基づいて、第１のニューラルネットワーク１０１のパラメータを更新する。第６の更新部１３６は、第２のニューラルネットワーク１０２のパラメータを、第２のドメインのデータと、第１の変換データと、第２のドメインのデータの正解ラベルとに基づいて、第２のニューラルネットワーク１０２のパラメータを更新する。

【0075】

これにより本発明に係る実施形態の学習装置１によれば、画像変換に用いられるニューラルネットワーク（第１のニューラルネットワーク１０１及び第２のニューラルネットワーク１０２）の生成品質の向上に適した学習をすることができる。具体的には、本発明に係る実施形態の学習装置１では、例えば可視光画像を入力し、赤外線画像を生成する第１のニューラルネットワーク１０１と、赤外線画像を入力し、可視光画像を生成する第２のニューラルネットワーク１０２とを学習できる。これにより、第１のドメインの画像（可視光画像など）を生成する生成ネットワーク（第１のニューラルネットワーク１０１）及び第２のドメインの画像（赤外線画像など）を生成する生成ネットワーク（第２のニューラルネットワーク１０２）の生成品質を向上させることができる。このため、推定に用いられるネットワークの識別性能を向上させることができる。

【0076】

なお、本発明に係る実施形態の学習装置１における上述の処理機能は、上述したように、例えばコンピュータを用いて構成される学習装置１がプログラムを実行することにより実現される。この場合、本発明に係る実施形態の学習装置１で実行されるプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、本発明に係る実施形態の学習装置１で実行されるプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。さらに、本発明に係る実施形態の学習装置１で実行されるプログラムを、ＲＯＭなどの不揮発性の記録媒体に予め組み込んで提供するようにしてもよい。

【0077】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【産業上の利用可能性】

【0078】

本開示にかかる学習装置、学習方法及びプログラムは、従来の技術よりも優れた学習データを水増しすることが可能となるため、クラス識別、物体検出及び位置回帰などのニューラルネットワークなどの機械学習を用いたデータ分析処理として有用である。

【符号の説明】

【0079】

１学習装置
１０処理部
１１取得部
１２変換部
１３更新部
２０記憶部
３０通信部
１０１第１のニューラルネットワーク
１０２第２のニューラルネットワーク
１０３第３のニューラルネットワーク
１０４第４のニューラルネットワーク
１３１第１の更新部
１３２第２の更新部
１３３第３の更新部
１３４第４の更新部
１３５第５の更新部
１３６第６の更新部

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版