特開2022-113135 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

特開2022-113135ニューラルネットワークトレーニング方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10A
10B
10C
10D
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022113135

(43)【公開日】2022-08-03

(54)【発明の名称】ニューラルネットワークトレーニング方法及び装置

(51)【国際特許分類】

G06T 7/00 20170101AFI20220727BHJP

G06N 3/04 20060101ALI20220727BHJP

G06N 3/08 20060101ALI20220727BHJP

【ＦＩ】

G06T7/00 350C

G06N3/04 154

G06N3/08

【審査請求】未請求

【請求項の数】25

【出願形態】ＯＬ

(21)【出願番号】P 2022005573

(22)【出願日】2022-01-18

(31)【優先権主張番号】10-2021-0009670

(32)【優先日】2021-01-22

(33)【優先権主張国・地域又は機関】KR

(31)【優先権主張番号】10-2021-0061877

(32)【優先日】2021-05-13

(33)【優先権主張国・地域又は機関】KR

(71)【出願人】

【識別番号】390019839

【氏名又は名称】三星電子株式会社

【氏名又は名称原語表記】ＳａｍｓｕｎｇＥｌｅｃｔｒｏｎｉｃｓＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】１２９，Ｓａｍｓｕｎｇ－ｒｏ，Ｙｅｏｎｇｔｏｎｇ－ｇｕ，Ｓｕｗｏｎ－ｓｉ，Ｇｙｅｏｎｇｇｉ－ｄｏ，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】崔熙▲みん▼

(72)【発明者】

【氏名】姜曉娥

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA09

5L096CA05

5L096DA02

5L096EA03

5L096EA35

5L096GA55

5L096KA04

(57)【要約】（修正有）

【課題】ニューラルネットワークトレーニング方法、記録媒体及び装置を提供する。
【解決手段】方法は、同じ場面に対する２以上の入力データを第１及び第２ニューラルネットワークモデルに適用して各入力データに対応する第１及び第２バックボーン特徴データを決定しＳ１１０、Ｓ１２０、第１バックボーン特徴データから第１畳み込みデータ及び第１ビューデータを算出し、第２バックボーン特徴データから第２畳み込みデータ及び第２ビューデータを決定しＳ１３０、第１畳み込みデータ、第１ビューデータ、第２畳み込みデータ、第２ビューデータ及び畳み込みデータのクラスタリング結果のうち２以上の組み合わせに基づいた損失に基づいて、第１ニューラルネットワークモデル及び第２ニューラルネットワークモデルのうち少なくとも１つをトレーニングさせるＳ１４０。
【選択図】図１

【特許請求の範囲】

【請求項1】

プロセッサで実現されるニューラルネットワークトレーニング方法であって、
同じ場面に対する２以上の入力データを第１ニューラルネットワークモデルに個別的に適用して各入力データに対応する第１バックボーン特徴データを決定するステップと、
前記２以上の入力データを第２ニューラルネットワークモデルに個別的に適用し、各入力データに対応する第２バックボーン特徴データを決定するステップと、
前記第１バックボーン特徴データからプロジェクションに基づいた第１畳み込みデータ及びドロップアウトに基づいた第１ビューデータを算出し、前記第２バックボーン特徴データからプロジェクションに基づいた第２畳み込みデータ及びドロップアウトに基づいた第２ビューデータを決定するステップと、
前記第１畳み込みデータ、前記第１ビューデータ、前記第２畳み込みデータ、前記第２ビューデータ、及び畳み込みデータのクラスタリング結果のうち２以上の組み合わせに基づいて決定された損失に基づいて、前記第１ニューラルネットワークモデル及び前記第２ニューラルネットワークモデルのうち少なくとも１つをトレーニングさせるステップと、
を含む、方法。

【請求項2】

前記トレーニングさせるステップは、
前記２以上の入力データのいずれか１つの入力データから前記第１ニューラルネットワークモデルに基づいて抽出された前記第１畳み込みデータの畳み込みデータが属しているクラスタを指示するコード値及び前記２以上の入力データのうち、他の入力データから前記第１ニューラルネットワークモデルに基づいて抽出された前記第１畳み込みデータの畳み込みデータに基づいて第１部分損失を決定するステップ、を含む、
請求項１に記載の方法。

【請求項3】

前記第１部分損失を決定するステップは、
前記２以上の入力データのいずれか１つの入力データから前記第１ニューラルネットワークモデルを用いて抽出された前記第１ビューデータのビューデータ、及び、クラスタリング結果にさらに基づいて前記第１部分損失を決定するステップ、を含む、
請求項２に記載の方法。

【請求項4】

前記トレーニングさせるステップは、
前記２以上の入力データのいずれか１つの入力データから前記第１ニューラルネットワークモデルに基づいて抽出された前記第１畳み込みデータの畳み込みデータが属しているクラスタを指示するコード値、及び、前記２以上の入力データのうち他の入力データから前記第２ニューラルネットワークモデルに基づいて抽出された前記第２畳み込みデータの畳み込みデータに基づいて第２部分損失を決定するステップ、を含む、
請求項１に記載の方法。

【請求項5】

前記第２部分損失を決定するステップは、
前記２以上の入力データのいずれか１つの入力データから前記第２ニューラルネットワークモデルに基づいて抽出された前記第２ビューデータのビューデータ、及びコード値にさらに基づいて前記第２部分損失を決定するステップ、を含む、
請求項４に記載の方法。

【請求項6】

前記トレーニングさせるステップは、
前記第１畳み込みデータ、前記第１ビューデータ、前記第２畳み込みデータ、及び、前記第２ビューデータのうちの１つと、コード値との間の交差エントロピー損失に基づいて、前記第１ニューラルネットワークモデルに関する第１部分損失及び前記第２ニューラルネットワークモデルに関する第２部分損失を決定するステップ、を含む、
請求項１に記載の方法。

【請求項7】

前記トレーニングさせるステップは、前記第１畳み込みデータ及び前記第２畳み込みデータから、傾斜リバースレイヤ（ＧＲｌａｙｅｒ、ＧｒａｄｉｅｎｔＲｅｖｅｒｓａｌｌａｙｅｒ）を用いて第３部分損失を決定するステップ、を含む、
請求項１に記載の方法。

【請求項8】

カメラセンサによって取得されたカラーイメージであるオリジナルデータから、ランダムノイズ付加、イメージ回転、スケール調整、イメージ移動、ランダムクロップ、及び、色の歪曲のうちの１つ又は２以上の組み合わせを含むデータ増強に基づいて、前記２以上の入力データを生成するステップ、をさらに含む、
請求項１に記載の方法。

【請求項9】

ライダーセンサによって取得されたライダーイメージであるオリジナルデータから、検出ポイント増強及び反射値調整のうちの１つ又は２以上の組み合わせを含むデータ増強に基づいて、前記２以上の入力データを生成するステップ、をさらに含む、
請求項１に記載の方法。

【請求項10】

前記方法は、さらに、
複数のセンサのいずれか１つのセンサを用いて場面をキャプチャーすることで、前記２以上の入力データのいずれか１つの入力データを生成するステップと、
前記複数のセンサのうち、他のタイプのセンサを用いて同じ場面をキャプチャーすることで前記２以上の入力データのうち他の入力データを生成するステップと、
を含む、請求項１に記載の方法。

【請求項11】

前記方法は、さらに、
前記第１バックボーン特徴データから第１プロジェクションモデルを用いてプロジェクションされた第１畳み込みデータを決定するステップと、
前記第１バックボーン特徴データから少なくとも１つのドロップアウトレイヤを含む第１ドロップモデルを用いてプロジェクションされた第１ビューデータを決定するステップと、
前記第２バックボーン特徴データから第２プロジェクションモデルを用いてプロジェクションされた第２畳み込みデータを決定するステップと、
前記第２バックボーン特徴データから少なくとも１つのドロップアウトレイヤを含む第２ドロップモデルを用いてプロジェクションされた第２ビューデータを決定するステップと、
を含む、
請求項１に記載の方法。

【請求項12】

前記第１ビューデータを決定するステップは、前記第１畳み込みデータに線型レイヤを適用した後、ドロップアウトレイヤを適用するステップ、を含み、
前記第２ビューデータを決定するステップは、前記第２畳み込みデータに線型レイヤを適用した後、ドロップアウトレイヤを適用するステップ、を含む、
請求項１１に記載の方法。

【請求項13】

前記第１ニューラルネットワークモデルのパラメータ数は、前記第２ニューラルネットワークモデルのパラメータ数よりも多い、
請求項１に記載の方法。

【請求項14】

前記方法は、さらに、
前記第１ニューラルネットワークモデル及び前記第２ニューラルネットワークモデルを含む複数のニューラルネットワークモデルのうち、最も高い認識性能を有するモデルによって出力された畳み込みデータが属しているクラスタを指示するコード値、各モデルによって出力された畳み込みデータごとのコード値、及び、クラスタリング損失が最も小さいモデルによって出力された畳み込みデータが属しているクラスタを指示するコード値のうちの１つを決定するステップ、を含む、
請求項１に記載の方法。

【請求項15】

前記第２バックボーン特徴データを決定するステップは、
前記２以上の入力データをターゲットハードウェアによって定義されるフォーマットに基づいて変換するステップと、
前記変換されたデータを前記第２ニューラルネットワークモデルに入力するステップと、
を含む、
請求項１に記載の方法。

【請求項16】

前記トレーニングさせるステップは、前記決定された損失が最小化されるように、前記第２ニューラルネットワークモデルのパラメータをアップデートするステップを含む、
請求項１に記載の方法。

【請求項17】

前記方法は、
前記トレーニングが完了した第２ニューラルネットワークモデルに基づいて検出データから抽出される畳み込みデータを用いて、前記検出データに対する目標作業の推論結果を生成するステップ、を含む、
請求項１に記載の方法。

【請求項18】

前記方法は、
前記第２ニューラルネットワークモデルを格納した電子装置の動作を前記推論結果に基づいて制御するステップ、を含む、
請求項１７に記載の方法。

【請求項19】

前記推論結果は、オブジェクト認識、オブジェクト分類、身元検証、オブジェクト検出、及び、言語認識のうちの１つ又は組み合せに対応する、
請求項１７に記載の方法。

【請求項20】

請求項１～１９のいずれか一項に記載の方法を実行するための命令語を含む１つ以上のコンピュータプログラムを格納したコンピュータで読み出し可能な記録媒体。

【請求項21】

ニューラルネットワークトレーニング装置であって、
ニューラルネットワークと、
第１ニューラルネットワーク及び第２ニューラルネットワークを格納する、メモリと、
プロセッサであり、
同じ場面に対する２以上の入力データを前記第１ニューラルネットワークモデルに個別的に適用して各入力データに対応する第１バックボーン特徴データを決定し、
前記２以上の入力データを第２ニューラルネットワークモデルに個別的に適用して、各入力データに対応する第２バックボーン特徴データを決定し、
前記第１バックボーン特徴データからプロジェクションに基づいた第１畳み込みデータ及びドロップアウトに基づいて、第１ビューデータを決定し、
前記第２バックボーン特徴データからプロジェクションに基づいた第２畳み込みデータ及びドロップアウトに基づいて、第２ビューデータを決定し、
前記第１畳み込みデータ、前記第１ビューデータ、前記第２畳み込みデータ、前記第２ビューデータ、及び、前記第１畳み込みデータが属しているクラスタを指示するコード値のうち２以上の組み合わせに基づいて決定された損失に基づいて、前記第１ニューラルネットワークモデル及び前記第２ニューラルネットワークモデルのうち少なくとも１つをトレーニングさせる、
プロセッサと、
を含む、装置。

【請求項22】

ニューラルネットワークトレーニングのためのプロセッサで実現される方法であって、
第１ニューラルネットワーク及び第２ニューラルネットワークのそれぞれに対して同じ場面の異なるビューの第１入力データ及び第２入力データを個別的に適用することで、第１バックボーン特徴データ及び第２バックボーン特徴データを決定するステップと、
前記第１バックボーン特徴データに基づいて、第１プロジェクション基盤畳み込みデータと第１ドロップアウト基盤ビューデータ、及び、前記第２バックボーン特徴データに基づいて、第２プロジェクション基盤畳み込みデータ及び第２ドロップアウト基盤ビューデータを決定するステップと、
前記第１畳み込みデータ及び前記第１畳み込みデータが属している１つ以上のクラスタを指示するコード値に基づいて、第１部分損失を決定するステップと、
前記第２畳み込みデータ及び前記コード値に基づいて、第２部分損失を決定するステップと、
前記第１部分損失及び前記第２部分損失に基づいて、前記第１ニューラルネットワーク及び前記第２ニューラルネットワークのうち少なくとも１つをトレーニングさせるステップと、
を含む、方法。

【請求項23】

前記コード値は、前記第１畳み込みデータの畳み込みデータが属しているクラスタを指示する第１コード値、及び、前記第１畳み込みデータの他の畳み込みデータが属しているクラスタを指示する第２コード値、を含む、
請求項２２に記載の方法。

【請求項24】

前記第２部分損失を決定するステップは、
前記第２畳み込みデータの畳み込みデータと前記第２コード値との間の第１交差損失を決定するステップと、
前記第２畳み込みデータの他の畳み込みデータと前記第１コード値との間の第２交差損失を決定するステップと、
を含む、請求項２３に記載の方法。

【請求項25】

前記第１部分損失を決定するステップは、
前記第１畳み込みデータの畳み込みデータと前記第２コード値との間の第１交差損失を決定するステップと、
前記第１畳み込みデータの他の畳み込みデータと前記第１コード値との間の第２交差損失を決定するステップと、
を含む、請求項２３に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

以下の実施形態は、ニューラルネットワークトレーニングに関する。

【背景技術】

【0002】

ヒトが有している効率的なパターンの認識方法を、実際のコンピュータに適用させようとする研究の１つとして、ヒトの生物学的な神経細胞の特性を数学的な表現によりモデリングした人工ニューラルネットワーク（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）に対する研究が行われている。入力パターンを特定のグループに分類する問題を解決するために、人工ニューラルネットワークは、ヒトが有している学習という能力を模倣したアルゴリズムを使用する。このアルゴリズムを介して人工ニューラルネットワークは、入力パターンと出力パターンとの間のマッピングを生成することができ、学習に利用されていない入力パターンに対しても比較的に正しい出力を生成できる一般化能力を有している。

【0003】

上記で説明した背景技術は、発明者が本明細書の開示内容を導き出す過程で保持し、または、習得したものであり、必ずしも本出願前に一般の公衆に公開された公知技術とは言えない。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明の目的は、ニューラルネットワークトレーニングを提供することにある。

【課題を解決するための手段】

【0005】

一実施形態に係るプロセッサで実現されるニューラルネットワークトレーニング方法は、同じ場面に対する２以上の入力データを第１ニューラルネットワークモデルに個別的に適用して各入力データに対応する第１バックボーン特徴データを決定するステップと、前記２以上の入力データを第２ニューラルネットワークモデルに個別的に適用し、各入力データに対応する第２バックボーン特徴データを決定するステップと、前記第１バックボーン特徴データからプロジェクションに基づいた第１畳み込みデータ及びドロップアウトに基づいた第１ビューデータを算出し、前記第２バックボーン特徴データからプロジェクションに基づいた第２畳み込みデータ及びドロップアウトに基づいた第２ビューデータを決定するステップと、前記第１畳み込みデータ、前記第１ビューデータ、前記第２畳み込みデータ、前記第２ビューデータ、及び畳み込みデータのクラスタリング結果のうち２以上の組み合わせに基づいて決定された損失に基づいて、前記第１ニューラルネットワークモデル及び前記第２ニューラルネットワークモデルのうち少なくとも１つをトレーニングさせるステップと、を含む。

【0006】

前記トレーニングさせるステップは、前記２以上の入力データのいずれか１つの入力データから前記第１ニューラルネットワークモデルに基づいて抽出された前記第１畳み込みデータの畳み込みデータが属しているクラスタを指示するコード値及び前記２以上の入力データのうち、他の入力データから前記第１ニューラルネットワークモデルに基づいて抽出された前記第１畳み込みデータの畳み込みデータに基づいて第１部分損失を決定するステップ、を含むことができる。

【0007】

前記第１部分損失を決定するステップは、前記２以上の入力データのいずれか１つの入力データから前記第１ニューラルネットワークモデルを用いて抽出された前記第１ビューデータのビューデータ、及び、クラスタリング結果にさらに基づいて前記第１部分損失を決定するステップ、を含むことができる。

【0008】

前記トレーニングさせるステップは、前記２以上の入力データのいずれか１つの入力データから前記第１ニューラルネットワークモデルに基づいて抽出された前記第１畳み込みデータの畳み込みデータが属しているクラスタを指示するコード値、及び、前記２以上の入力データのうち他の入力データから前記第２ニューラルネットワークモデルに基づいて抽出された前記第２畳み込みデータの畳み込みデータに基づいて第２部分損失を決定するステップ、を含むことができる。

【0009】

前記第２部分損失を決定するステップは、前記２以上の入力データのいずれか１つの入力データから前記第２ニューラルネットワークモデルに基づいて抽出された前記第２ビューデータのビューデータ、及び、コード値にさらに基づいて前記第２部分損失を決定するステップ、を含むことができる。

【0010】

前記トレーニングさせるステップは、前記第１畳み込みデータ、前記第１ビューデータ、前記第２畳み込みデータ、及び前記第２ビューデータのうちの１つと、コード値との間の交差エントロピー損失に基づいて、前記第１ニューラルネットワークモデルに関する第１部分損失及び前記第２ニューラルネットワークモデルに関する第２部分損失を決定するステップ、を含むことができる。

【0011】

前記トレーニングさせるステップは、前記第１畳み込みデータ及び前記第２畳み込みデータから傾斜リバースレイヤ（ＧＲｌａｙｅｒ、ＧｒａｄｉｅｎｔＲｅｖｅｒｓａｌｌａｙｅｒ）を用いて第３部分損失を決定するステップを含むことができる。

【0012】

カメラセンサによって取得されたカラーイメージであるオリジナルデータから、ランダムノイズ付加、イメージ回転、スケール調整、イメージ移動、ランダムクロップ、及び、色の歪曲のうちの１つ又は２以上の組み合わせを含むデータ増強に基づいて前記２以上の入力データを生成するステップ、をさらに含むことができる。

【0013】

ライダーセンサによって取得されたライダーイメージであるオリジナルデータから、検出ポイント増強、及び、反射値調整のうちの１つ又は２以上の組み合わせを含むデータ増強に基づいて、前記２以上の入力データを生成するステップをさらに含むことができる。

【0014】

複数のセンサのいずれか１つのセンサを用いて場面をキャプチャーすることで、前記２以上の入力データのいずれか１つの入力データを生成するステップと、前記複数のセンサのうち、他のタイプのセンサを用いて同じ場面をキャプチャーすることで前記２以上の入力データのうち他の入力データを生成するステップとをさらに含むことができる。

【0015】

前記第１バックボーン特徴データから第１プロジェクションモデルを用いてプロジェクションされた第１畳み込みデータを決定するステップと、前記第１バックボーン特徴データから少なくとも１つのドロップアウトレイヤを含む第１ドロップモデルを用いてプロジェクションされた第１ビューデータを決定するステップと、前記第２バックボーン特徴データから第２プロジェクションモデルを用いてプロジェクションされた第２畳み込みデータを決定するステップと、前記第２バックボーン特徴データから少なくとも１つのドロップアウトレイヤを含む第２ドロップモデルを用いてプロジェクションされた第２ビューデータを決定するステップと、を含むことができる。

【0016】

前記第１ビューデータを決定するステップは、前記第１畳み込みデータに線型レイヤを適用した後ドロップアウトレイヤを適用するステップ、を含み、前記第２ビューデータを決定するステップは、前記第２畳み込みデータに線型レイヤを適用した後ドロップアウトレイヤを適用するステップ、を含むことができる。

【0017】

前記第１ニューラルネットワークモデルのパラメータ数は、前記第２ニューラルネットワークモデルのパラメータ数よりも多くてもよい。

【0018】

前記第１ニューラルネットワークモデル及び前記第２ニューラルネットワークモデルを含む複数のニューラルネットワークモデルのうち、最も高い認識性能を有するモデルによって出力された畳み込みデータが属しているクラスタを指示するコード値、各モデルによって出力された畳み込みデータごとのコード値、及び、クラスタリング損失が最も小さいモデルによって出力された畳み込みデータが属しているクラスタを指示するコード値のうちの１つを決定するステップをさらに含むことができる。

【0019】

前記第２バックボーン特徴データを決定するステップは、前記２以上の入力データをターゲットハードウェアによって定義されるフォーマットに基づいて変換するステップと、前記変換されたデータを前記第２ニューラルネットワークモデルに入力するステップと、を含むことができる。

【0020】

前記トレーニングさせるステップは、前記決定された損失が最小化されるように、前記第２ニューラルネットワークモデルのパラメータをアップデートするステップ、を含むことができる。

【0021】

前記トレーニングが完了された第２ニューラルネットワークモデルに基づいて検出データから抽出される畳み込みデータを用いて、前記検出データに対する目標作業の推論結果を生成するステップ、を含むことができる。

【0022】

前記第２ニューラルネットワークモデルを格納した電子装置の動作を前記推論結果に基づいて制御するステップ、を含むことができる。

【0023】

一実施形態に係るニューラルネットワークを有する装置は、第１ニューラルネットワーク及び第２ニューラルネットワークを格納するメモリと、プロセッサであり、同じ場面に対する２以上の入力データを前記第１ニューラルネットワークモデルに個別的に適用して各入力データに対応する第１バックボーン特徴データを決定し、前記２以上の入力データを第２ニューラルネットワークモデルに個別的に適用して各入力データに対応する第２バックボーン特徴データを決定し、前記第１バックボーン特徴データからプロジェクションに基づいて、第１畳み込みデータ及びドロップアウトに基づいた第１ビューデータを決定し、前記第２バックボーン特徴データからプロジェクションに基づいて、第２畳み込みデータ及びドロップアウトに基づいた第２ビューデータを決定し、前記第１畳み込みデータ、前記第１ビューデータ、前記第２畳み込みデータ、前記第２ビューデータ、及び、前記第１畳み込みデータが属しているクラスタを指示するコード値のうち２以上の組み合わせに基づいて決定された損失に基づいて前記第１ニューラルネットワークモデル及び前記第２ニューラルネットワークモデルのうち少なくとも１つをトレーニングさせる、プロセッサと、を含む。

【0024】

一実施形態に係るニューラルネットワークトレーニングのためのプロセッサで実現される方法は、第１ニューラルネットワーク及び第２ニューラルネットワークのそれぞれに対して同じ場面の異なるビューの第１入力データ及び第２入力データを個別的に適用することで、第１バックボーン特徴データ及び第２バックボーン特徴データを決定するステップと、前記第１バックボーン特徴データに基づいて、第１プロジェクション基盤畳み込みデータと第１ドロップアウト基盤ビューデータ、及び、前記第２バックボーン特徴データに基づいて、第２プロジェクション基盤畳み込みデータ及び第２ドロップアウト基盤ビューデータを決定するステップと、前記第１畳み込みデータ及び前記第１畳み込みデータが属している１つ以上のクラスタを指示するコード値に基づいて、第１部分損失を決定するステップと、前記第２畳み込みデータ及び前記コード値に基づいて第２部分損失を決定するステップと、前記第１部分損失及び前記第２部分損失に基づいて、前記第１ニューラルネットワーク及び前記第２ニューラルネットワークのうち少なくとも１つをトレーニングさせるステップと、を含む。

【0025】

前記コード値は、前記第１畳み込みデータの畳み込みデータが属しているクラスタを指示する第１コード値、及び、前記第１畳み込みデータの他の畳み込みデータが属しているクラスタを指示する第２コード値を含むことができる。

【0026】

前記第２部分損失を決定するステップは、前記第２畳み込みデータの畳み込みデータと前記第２コード値との間の第１交差損失を決定するステップと、前記第２畳み込みデータの他の畳み込みデータと前記第１コード値との間の第２交差損失を決定するステップと、を含むことができる。

【0027】

前記第１部分損失を決定するステップは、前記第１畳み込みデータの畳み込みデータと前記第２コード値との間の第１交差損失を決定するステップと、前記第１畳み込みデータの他の畳み込みデータと前記第１コード値との間の第２交差損失を決定するステップと、を含むことができる。

【発明の効果】

【0028】

本発明によると、ニューラルネットワークトレーニングを提供することができる。

【図面の簡単な説明】

【0029】

【図1】一実施形態に係るトレーニング方法を説明するためのフローチャートである。

【図2】一実施形態に係るトレーニングシステムの例を示す図である。

【図3】一実施形態に係るトレーニング動作を説明するための図である。

【図4】一実施形態に係るプロジェクションモデルを説明する図である。

【図5】一実施形態に係るドロップモデルを説明する図である。

【図6】他の一実施形態に係る複数のニューラルネットワークモデルのトレーニング動作を説明する図である。

【図7】更なる一実施形態に係る異種センサを用いて収集されたデータを用いたトレーニング動作を説明する図である。

【図8】更なる一実施形態に係るターゲットハードウェアに対応したトレーニング動作を説明する図である。

【図9】一実施形態によりトレーニングが完了されたモデルを用いた推論結果の生成を説明する図である。

【図10A】一実施形態によりトレーニングされたニューラルネットワークモデルの区別力を説明する図である。

【図10B】一実施形態によりトレーニングされたニューラルネットワークモデルの区別力を説明する図である。

【図10C】一実施形態によりトレーニングされたニューラルネットワークモデルの区別力を説明する図である。

【図10D】一実施形態によりトレーニングされたニューラルネットワークモデルの区別力を説明する図である。

【図11】一実施形態によりトレーニングされたニューラルネットワークモデルの正確度を説明するグラフである。

【図12】一実施形態に係る電子装置の構成を示すブロック図である。

【発明を実施するための形態】

【0030】

本明細書で開示する特定の構造的又は機能的な説明は、単に実施形態を説明するための目的として例示したものであり、実施形態は、様々な異なる形態で実施され、本発明は、本明細書で説明した実施形態に限定されるものではなく、本発明の範囲は、実施形態で説明した技術的な思想に含まれている変更、均等物、または代替物を含む。

【0031】

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は、１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に、第２構成要素は第１構成要素としても命名することができる。

【0032】

いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。

【0033】

単数の表現は、文脈上、明白に異なる意味をもたない限り、複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたもの、などの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

【0034】

異なるように定義がされない限り、技術的であるか又は科学的な用語を含む、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

【0035】

以下、添付する図面を参照しながら実施形態を詳細に説明する。添付図面を参照した説明において、図面符号に関係なく同じ構成要素には同じ参照符号を付与し、これに対する重複する説明は省略することにする。

【0036】

図１は、一実施形態に係るトレーニング方法を説明するためのフローチャートである。

【0037】

まず、ステップＳ１１０において、電子装置は、同じ場面に対する入力データから第１バックボーン特徴データ（ｆｉｒｓｔｂａｃｋｂｏｎｅｆｅａｔｕｒｅｄａｔａ）を算出する。一実施形態に係る電子装置は、同じ場面に対する２以上の入力データを第１ニューラルネットワークモデルに個別的に適用して各入力データに対応する第１バックボーン特徴データを算出することができる。例えば、電子装置は、ｍ個の入力データを第１ニューラルネットワークモデルに個別的に入力することで、ｍ個の第１バックボーン特徴データを抽出することができる。ここで、ｍは、２以上の整数であってもよい。２以上の入力データは、同じコンテキストに関するデータとして、例えば、１場面に対する１オリジナルイメージから増強されたデータ及び／又は同じ場面を互いに異なるセンサでキャプチャーしたデータであってもよい。異なる例として、２以上の入力データは、ある音（例えば、音声）に対する１オリジナル信号から増強されたデータ及び／又は同じ音を互いに異なるセンサでキャプチャーしたデータであってもよい。

【0038】

そして、ステップＳ１２０において、電子装置は、同じ場面に対する入力データから第２バックボーン特徴データ（ｓｅｃｏｎｄｂａｃｋｂｏｎｅｆｅａｔｕｒｅｄａｔａ）を算出する。一実施形態に係る電子装置は、２以上の入力データを第２ニューラルネットワークモデルに個別的に適用して各入力データに対応する第２バックボーン特徴データを算出することができる。電子装置は、ｍ個の入力データを第２ニューラルネットワークモデルに個別的に入力することで、ｍ個の第２バックボーン特徴データを抽出することができる。

【0039】

機械学習モデルは、機械学習を介して生成され、ニューラルネットワークモデルとも示してもよい。このような学習は、例えば、ニューラルネットワークモデルが実行される電子装置そのもので実行されてもよく、別途のサーバを介して実行されてもよい。学習アルゴリズムは、例えば、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、半教師あり学習（ｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、又は、強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）を含み得るが、前述した例に限定されない。ニューラルネットワークモデルは、複数の人工ニューラルネットワークレイヤを含んでもよい。ニューラルネットワークモデルは、深層神経網（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）、ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、ＲＮＮ（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）、ＲＢＭ（ｒｅｓｔｒｉｃｔｅｄｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ）、ＤＢＮ（ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ）、ＢＲＤＮＮ（ｂｉｄｉｒｅｃｔｉｏｎａｌｒｅｃｕｒｒｅｎｔｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）、深層Ｑ－ネットワーク（ｄｅｅｐＱ－ｎｅｔｗｏｒｋｓ）、又は、２以上の組み合せの１つであってもよいが、前述した例に限定されない。ニューラルネットワークモデルは、ハードウェア構造の他に、追加的又は代替的に、ソフトウェア構造を含んでもよい。電子装置は、入力データをニューラルネットワークモデルに入力して伝播することで、バックボーン特徴データを抽出することができる。バックボーン特徴データは、入力データを抽象化したデータとして、例示的に、特徴ベクトルの形態を有してもよい。バックボーン特徴データは、ターゲット作業（例えば、オブジェクト認識、オブジェクト分類、身元検証、オブジェクト検出、及び言語認識、など）に対応する推論結果を生成するために、ニューラルネットワークモデルの後続レイヤに伝播され得る。

【0040】

次に、ステップＳ１３０において、電子装置は、各バックボーン特徴データから畳み込みデータ及びビューデータを算出する。一実施形態に係る電子装置は、第１バックボーン特徴データから、プロジェクションに基づいた第１畳み込みデータ及びドロップアウト（ｄｒｏｐｏｕｔ）に基づいた第１ビューデータを算出し、第２バックボーン特徴データから、プロジェクションに基づいた第２畳み込みデータ及びドロップアウトに基づいた第２ビューデータを算出する。第１畳み込みデータ及び第１ビューデータは、例示的に、第１ニューラルネットワークモデルの第１畳み込み空間で畳み込まれた特徴ベクトルを示してもよく、第２畳み込みデータ及び第２ビューデータは、例示的に、第２ニューラルネットワークモデルの第２畳み込み空間で畳み込まれた特徴ベクトルを示してもよい。プロジェクション及びドロップアウトは、それぞれ下記の図４及び図５を参照して説明する。

【0041】

上述したように、電子装置は、同じソースのデータから様々なビューの特徴データを算出することができる。例示的に、１つのコンテキスト（例えば、場面）に対してｍ個の入力データが取得され、ｍ個の入力データのそれぞれに対してニューラルネットワークモデルごとにバックボーン特徴データが抽出され、各バックボーン特徴データごとに畳み込みデータ及びビューデータが算出されてもよい。電子装置がｎ個のニューラルネットワークモデルを含んでいる場合、電子装置は、ｍ×ｎ×２個のビューに対する特徴データを決定することができる。ここで、ｎは、２以上の整数であってもよい。本明細書において、ビューはデータを見ている観点を示す。

【0042】

そして、ステップＳ１４０において、電子装置は、損失を算出してトレーニングを行う。一実施形態に係る電子装置は、第１畳み込みデータ、第１ビューデータ、第２畳み込みデータ、第２ビューデータ、及び、畳み込みデータのクラスタリング結果のうち２以上の組み合わせに基づいて算出された損失に基づいて、第１ニューラルネットワークモデル及び第２ニューラルネットワークモデルのうち少なくとも１つをトレーニングさせることができる。例えば、電子装置は、前述した第１畳み込みデータ、第１ビューデータ、第２畳み込みデータ、及び、第２ビューデータと、クラスタリング結果に基づいて算出された部分損失の合計が最小化されるように、ニューラルネットワークモデルのパラメータをアップデートすることができる。例えば、電子装置は、算出された損失が閾値損失の未満であるか、収斂して最小化されるまで、第２ニューラルネットワークモデルのパラメータをアップデートすることができる。電子装置は、算出された損失が閾値未満になるまで繰り返してニューラルネットワークモデルのパラメータをアップデートすることができる。

【0043】

一実施形態に係る電子装置は、入力イメージが属しているクラスを指示するラベル（ｌａｂｅｌ）がなくても、ニューラルネットワークモデルをトレーニングすることができる。電子装置は、後述する方法によって互いに異なるクラス（例えば、互いに異なる場面）のデータに対して、ニューラルネットワークモデルをインプリメント（ｉｍｐｌｅｍｅｎｔ）することにより、抽出された特徴データ間の畳み込み空間内の距離が遠くなり、同じクラス（例えば、同じ場面）のデータに対して抽出された特徴データ間の畳み込み空間内の距離が近接するように、ニューラルネットワークモデルをトレーニングさせることができる。参考として、ターゲットの作業のための推論結果を生成するために、前述したトレーニング動作に加えて、ポストプロセッシング（Ｐｏｓｔ－ｐｒｏｃｅｓｓｉｎｇ）、及び／又は、追加ネットワークトレーニング（ａｄｄｉｔｉｏｎａｌＮｅｔｗｏｒｋＴｒａｉｎｉｎｇ）が求められてもよい。

【0044】

最近、教師なしビジュアル表現学習（ｖｉｓｕａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇ）が注目される改善点は、大きいバッチ（ｌａｒｇｅｂａｔｃｈ）トレーニングと共に重いネットワーク（ｈｅａｖｙｎｅｔｗｏｒｋｓ）に基づくことである。最近の方法は、ＲｅｓＮｅｔ－５０のように深層モデルの教師あり性能と、教師なし性能との間のギャップを極めて減少させたが、これは小さいモデルに対しては相対的に制限的である。

【0045】

本明細書において、深層自己教師あり表現学習（ｄｅｅｐｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇ）及び知識の蒸留（ｋｎｏｗｌｅｄｇｅｄｉｓｔｉｌｌａｔｉｏｎ）を単一のトレーニングプロセスで統合した、小規模ネットワークのための教師なし学習フレームワークが提供される。教師モデルは、同じイメージの異なるビュー間の一貫したクラスタリングを生成するようにトレーニングされる。同時に、学生モデルは、オンザフライ（ｏｎ－ｔｈｅ－ｆｌｙ）自己指図教師（ｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｔｅａｃｈｅｒ）の予測を模倣（ｍｉｍｉｃ）するようにトレーニングされ得る。

【0046】

効果的な知識伝達のために、ドメイン分類器が分布シフトに不変である区別力のある特徴により、学生モデルの特徴学習をガイドすることができる。ドロップアウトの期間、マルチビュー生成方法がネットワーク自体に含まれている有用な特徴情報をキャプチャーすることを補助できる。

【0047】

広範囲な試験において、一実施形態によりトレーニングされた学生モデルが最先端であるだけでなく、さらに強力な自己指図教師から最先端オフライン蒸留されたネットワークを超えることができる。例えば、後述するトレーニング方法により、ＲｅｓＮｅｔ－５０教師モデルと共にトレーニングされたＲｅｓＮｅｔ－１８学生モデルは、６８．３２％のＩｍａｇｅＮｅｔＴｏｐ－１正確度を線型評価で達成し、これは教師あり基準線（ｓｕｐｅｒｖｉｓｅｄｂａｓｅｌｉｎｅ）よりわずかに１．４４％低い。

【0048】

近年、教師なし及び自己教師あり学習において増加している関心は、数多いラベルされない（ｕｎｌａｂｅｌｅｄ）データから有用な表現を効率よく学習するためのものである。現在の自己教師ありビジュアル表現学習方法は、完全な教師あり方式に近接し、または、上回ることもある。

【0049】

教師なしビジュアル表現学習の最近において成功した大きい部分は、強力なコンピューティング資源でトレーニングされた大きいモデルの使用にある。以前の研究で最も小さいモデルはＲｅｓＮｅｔ－５０であり、ネットワークが１２８ＴＰＵコアのような複数の専門化されたハードウェア装置に関して大きいバッチ（例えば、４０９６枚のイメージ）でトレーニングされてもよい。一方、この重い具現は、限られたリソースの環境で実行可能なオプションではなく、実際のアプリケーションのための強力な小規模ネットワークが求められる。自己教師あり学習に関する既存の方法は、ラベリングされないデータを使用してより効率よく汎用ビジュアル表現を深層モデルが学習させることである。また、さらに大きいネットワークの予測性能がより小規模ネットワークへよく伝達されることを経験的に検証している。

【0050】

一実施形態に係る電子装置は、小規模ネットワークを独立的にトレーニングさせることなく、深層自己教師ありネットワークからの知識を伝達することで、軽量ネットワークのための豊富な表現を学習させることができる。

【0051】

教師なし表現学習文法において、以前の蒸留方法の大部分は、すでにトレーニングされた自己指図教師モデルを活用して特徴情報を学生モデルに伝達するという点で、オフライントレーニングとして見ることができる。さらに、この順次的なトレーニングパイプラインは、頻繁に性能を向上させるためにｋ－平均クラスタリング（ｋ－ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇ）のようなポストプロセッシングを要求する。このアクセスとは異なって、一実施形態に係る電子装置は、自己教師ありトレーニング及び知識の蒸留を単一のトレーニングプロセスに結合した、小規模ネットワークのための教師なし表現学習フレームワークを使用することができる。例示的に、教師モデルがクラスタ及び表現を学習し、同時に、学生モデルは、オンザフライ自己教師あり（ＯＳＳ、Ｏｎ－ｔｈｅ－ｆｌｙＳｅｌｆ－Ｓｕｐｅｒｖｉｓｅｄ）教師モデルのクラスタリングに対する予測に整列されるようにトレーニングされ得る。ドメイン分類器は、教師モデルと学生モデルとの間の分布シフトに不変である有用な区別力のある特徴により、学生モデルのトレーニングをガイドすることができる。経験的に、自己教師ありトレーニングの間に異なるビューの個数を増加させることは、結果的に、特徴の質を改善させることになる。マルチビューを生成するための多くのアクセスがあり、ほとんどのランダムイメージの変換方式に依存している。本明細書において、ネットワーク自体に含まれている豊富な特徴情報を活用するためのトレーニングについて説明する。

【0052】

以下では、一実施形態に係るトレーニングを詳細に説明する。

【0053】

図２は、一実施形態に係るトレーニングシステムの例を示す図である。

【0054】

一実施形態に係るトレーニングシステム２００は、入力データ取得部２１０、第１ニューラルネットワークモデル２２１、第２ニューラルネットワークモデル２２２、第１ビュー生成モデル２３１、第２ビュー生成モデル２３２、クラスタリング部２４０、第１損失算出部２５１、第２損失算出部２５２、及び、第３損失算出部２５３を含む。但し、これは説明の便宜のために示したモジュールであって、トレーニングシステム２００の各構成による動作は、プロセッサによって実行されてもよい。

【0055】

入力データ取得部２１０は、入力データを取得する。例えば、入力データ取得部２１０は、オリジナルデータ２０１から第１入力データ２１１～第ｍ入力データ２１２を生成する。入力データ取得部２１０は、それぞれ異なるデータ増強（ｄａｔａａｕｇｍｅｎｔａｔｉｏｎ）をオリジナルデータ２０１に適用することで、様々な入力データを生成することができる。データ増強は、単一のオリジナルデータ２０１のサンプルから互いに異なるデータ表現、言い換えれば、様々なビューに対応する入力データを生成する動作を示す。例えば、入力データ取得部２１０は、カメラセンサによって取得されたカラーイメージであるオリジナルデータ２０１からランダムノイズ付加、イメージ回転、スケール調整、イメージ移動、ランダムクロップ、及び色の歪曲、の１つ又は２以上の組み合わせを含むデータ増強に基づいて、２以上の入力データを生成することができる。

【0056】

第１ニューラルネットワークモデル２２１及び第２ニューラルネットワークモデル２２２は、トレーニングされるニューラルネットワークモデルであって、入力データからバックボーン特徴データを出力するように設計及びトレーニングされ得る。第１ニューラルネットワークモデル２２１のパラメータ数は、第２ニューラルネットワークモデル２２２のパラメータ個数より多くてもよい。第１ニューラルネットワークモデル２２１は、第２ニューラルネットワークモデル２２２よりも相対的に高い性能を示す。第２ニューラルネットワークモデル２２２は、トレーニングが完了した後で、推論結果を生成するために使用されてもよい。本明細書において、第１ニューラルネットワークモデル２２１は教師モデル、第２ニューラルネットワークモデル２２２は学生モデルのように示されてもよい。

【0057】

第１ビュー生成モデル２３１は、第１ニューラルネットワークモデル２２１から出力された第１バックボーン特徴データのビューを多様化することができる。例えば、第１ビュー生成モデル２３１は、第１プロジェクションモデル及び／又は第１ドロップモデルを含み、電子装置は、第１バックボーン特徴データを、第１プロジェクションモデルを介してプロジェクションすることで、第１畳み込みデータを算出して、第１バックボーン特徴データを第１ドロップモデルを用いてプロジェクションすることにより、第１ビューデータを算出することができる。第１ドロップモデルは、少なくとも１つのドロップアウトレイヤを含んでもよい。電子装置は、第１ビュー生成モデル２３１にデータを伝播するとき、ドロップアウトレイヤを伝播経路から排除することで、第１プロジェクションモデルとして動作させたり、ドロップアウトレイヤを伝播経路に含ませることで、第１ドロップモデルとして動作させてもよい。第１畳み込みデータは、第１バックボーン特徴データの次元よりも低い次元にプロジェクションされたデータであってもよく、第１ビューデータは、一部の特徴がドロップアウトされたデータであってもよい。

【0058】

第２ビュー生成モデル２３２は、第２ニューラルネットワークモデル２２２から出力された第２バックボーン特徴データのビューを多様化することができる。例えば、第２ビュー生成モデル２３２は、第２プロジェクションモデル及び／又は第２ドロップモデルを含み、電子装置は、第２バックボーン特徴データを、第２プロジェクションモデルを介してプロジェクションすることで、第２畳み込みデータを算出して、第２バックボーン特徴データを、第２ドロップモデルを用いてプロジェクションすることで、第２ビューデータを算出することができる。第２ドロップモデルは、少なくとも１つのドロップアウトレイヤを含んでもよい。第２畳み込みデータは、第２バックボーン特徴データの次元よりも低い次元でプロジェクションされたデータであってもよく、第２ビューデータは、一部の特徴がドロップアウトされたデータであってもよい。

【0059】

前述した第１プロジェクションモデル及び第２プロジェクションモデルは、下記の図４を参照して説明し、第１ドロップモデル及び第２ドロップモデルについては、下記の図５を参照して説明する。

【0060】

クラスタリング部２４０は、畳み込みデータが属しているクラスタを決定することができる。例えば、プロトタイプであるクラスタベクトルＣの元素個数（例えば、クラスタ個数）はＫ個に定義され、クラスタリング部２４０は、Ｋ個のクラスタのうち畳み込みデータが属しているクラスタを指示するコード値を決定してもよい。ここで、Ｋは１以上の整数であってもよい。例えば、クラスタリング部２４０は、同等のパーティションの条件下でＳｉｎｋｈｏｒｎ－Ｋｎｏｐｐアルゴリズムを用いてクラスタリング結果を生成することができる。

【0061】

第１損失算出部２５１は、損失２９０のうち第１部分損失２９１を算出する。第１部分損失２９１は、第１ニューラルネットワークモデル２２１から算出された畳み込みデータ及び／又はビューデータに対するクラスタベクトルの確率値と割り当てられるクラスタとの間の交差損失を含んでもよい。

【0062】

第２損失算出部２５２は、損失２９０のうち第２部分損失２９２を算出する。第２部分損失２９２は、第２ニューラルネットワークモデル２２２から算出された畳み込みデータ及び／又はビューデータに対するクラスタベクトルの確率値と割り当てられるクラスタとの間の交差損失を含んでもよい。

【0063】

第３損失算出部２５３は、損失２９０のうち第３部分損失２９３を算出する。第３部分損失２９３は、第１ニューラルネットワークモデル２２１に基づいて算出される第１畳み込みデータ及び第２ニューラルネットワークモデル２２２に基づいて算出される第２畳み込みデータ間の敵対的損失（ａｄｖｅｒｓａｒｉａｌｌｏｓｓ）を含んでもよい。敵対的な損失が最小化するほど、第１ニューラルネットワークモデル２２１の特徴分布と第２ニューラルネットワークモデル２２２の特徴分布との間の差が減少し得る。

【0064】

教師なしビジュアル表現学習において、豊富な特徴情報は、イメージデータ自体からラベルが取得される様々なプリテキスト作業を解決するために用いられる。この方法は、プリテキスト作業のタイプに応じて様々なカテゴリーに分類される。一実施形態に係るトレーニングは、クラスタリングに基づく。

【0065】

トレーニングの間にビューの個数を増加させることで自己教師あり学習の性能が改善される。一実施形態に係るトレーニングは、上述したように、オリジナルデータ２０１に対するデータ増強に加え、ドロップアウトに基づいて第１ニューラルネットワークモデル２２１の第１バックボーン特徴データ及び第２ニューラルネットワークモデル２２２の第２バックボーン特徴データに対する様々なビューのデータを取得することができる。

【0066】

自己教師ありモデルからの知識の蒸留において、一実施形態に係るトレーニングは、教師モデルの畳み込み空間におけるデータポイント間の相対的な類似性を模写するように教師モデルに対するクラスタリング結果を活用し学生モデルをトレーニングさせることで、ラベル情報が与えられなくても自己教師あり方式でニューラルネットワークモデルをトレーニングさせることができる。

【0067】

また、一実施形態に係る電子装置は、傾斜リバースレイヤ（ｇｒａｄｉｅｎｔｒｅｖｅｒｓａｌｌａｙｅｒ）を有するドメイン分類器を用いて教師モデルのドメイン及び学生モデルのドメイン間のシフト区別を困難にしてニューラルネットワークモデルをトレーニングさせることができる。電子装置は、教師モデルと学生モデルとの間の分布変化に不変である区別力のある特徴をトレーニングさせることができる。以下の図３において、第１ニューラルネットワークモデルが教師モデルであり、第２ニューラルネットワークモデルが学生モデルである例示について説明する。

【0068】

図３は、一実施形態に係るトレーニング動作を説明するためのフローチャートである。

【0069】

一実施形態に係るトレーニングシステム３００で電子装置は、教師モデル（例えば、ＲｅｓＮｅｔ－５０）ｆ_θ及び学生モデル（例えば、ＲｅｓＮｅｔ－１８）ｇ_ηをトレーニングさせるために、下記の数式（１）による損失を算出する。

【数1】

前述した数式（１）において、Ｌ_Ｔは教師モデルｆ_θのために設計された第１部分損失、Ｌ_Ｓは学生モデルｇ_ηのために設計された第２部分損失、Ｌ_Ｄは教師モデルｆ_θ及び学生モデルｇ_ηの間の特徴分布の差が減少するように設計された第３部分損失を示す。電子装置は、前述した部分損失を算出するために、入力データをフィードフォワーディングする。電子装置は、第１畳み込みデータ、第１ビューデータ、第２畳み込みデータ、及び第２ビューデータのうちの１つとコード値との間の交差エントロピー損失に基づいて、第１ニューラルネットワークモデルに関する第１部分損失Ｌ_Ｔ及び第２ニューラルネットワークモデルに関する第２部分損失Ｌ_Ｓを算出する。

【0070】

例えば、オリジナルイメージｘ_ｎに対してデータ増強を適用することで入力イメージｘ_ｎ１、ｘ_ｎ２を生成してもよい。上述したように、入力イメージｘ_１、ｘ_２は、オリジナルデータであるオリジナルイメージｘ_ｎを異なるビューでみた入力データを示す。電子装置は、生成された入力イメージｘ_ｎ１、ｘ_ｎ２を教師モデルｆ_θ及び学生モデルｇ_ηにそれぞれ下記の数式（２）及び数式（３）のようにフィードフォワーディングさせることができる。教師モデルｆ_θのパラメータ数（例えば、レイヤ個数、ノード個数、及び／又は連結加重値個数）は、学生モデルｇ_ηのパラメータ数よりも大きくてもよい。言い換えれば、教師モデルｆ_θのキャパシティーが学生モデルｇ_ηのキャパシティーよりも大きくて深くてもよい。

【数2】

【数3】

前述した数式２において、ｆ_ｎ１は、第１入力イメージｘ_ｎ１に教師モデルｆ_θを適用して抽出された第１バックボーン特徴データであり、ｆ_ｎ２は、第２入力イメージｘ_ｎ２に教師モデルｆ_θを適用して抽出された第１バックボーン特徴データを示す。上述したように、第１バックボーン特徴データは、教師モデルｆ_θに基づいて抽出されたバックボーン特徴データを示す。前述した数式（３）において、ｇ_ｎ１は、第１入力イメージｘ_ｎ１に学生モデルｇ_ηを適用して抽出された第２バックボーン特徴データであり、ｇ_ｎ２は、第２入力イメージｘ_ｎ２に学生モデルｇ_ηを適用して抽出された第２バックボーン特徴データを示す。上述したように、第２バックボーン特徴データは、学生モデルｇ_ηに基づいて抽出されたバックボーン特徴データを示す。

【0071】

電子装置は、前述した第１バックボーン特徴データｆ_ｎ１、ｆ_ｎ２を第１ビュー生成モデル３３１に伝播し、第２バックボーン特徴データｇ_ｎ１、ｇ_ｎ２を第２ビュー生成モデル３３２に伝播させることができる。例えば、電子装置は、第１ビュー生成モデル３３１のプロジェクションモデルｈ_Ｔに基づいて、第１バックボーン特徴データｆ_ｎ１、ｆ_ｎ２から下記の数式（４）のようにそれぞれ第１畳み込みデータｚ_ｎ１、ｚ_ｎ２を算出する。電子装置は、第２ビュー生成モデル３３２のプロジェクションモデルｈ_Ｓに基づいて第２バックボーン特徴データｇ_ｎ１、ｇ_ｎ２から下記の数式（５）のようにそれぞれ第２畳み込みデータｗ_ｎ１、ｗ_ｎ２を算出する。

【数4】

【数5】

また、数式（４）及び数式（５）に示したように、各バックボーン特徴データは、正規化され得る。電子装置は、第１ビュー生成モデル３３１のドロップモデルｈ_Ｔ ^ｄｒｏｐに基づいて、第１バックボーン特徴データｆ_ｎ１、ｆ_ｎ２からそれぞれ第１ビューデータＺ^～ _ｎ１、Ｚ^～ _ｎ２を算出する。電子装置は、第２ビュー生成モデル３３２のドロップモデルｈ_Ｓ ^ｄｒｏｐに基づいて、第２バックボーン特徴データｇ_ｎ１、ｇ_ｎ２からそれぞれ第２ビューデータＷ^～ _ｎ１、Ｗ^～ _ｎ２を算出する。ビューデータは、バックボーン特徴データから一部の特徴がドロップされたデータとして、下記の図５を参照して説明する。

【0072】

電子装置は、畳み込みデータに対するクラスタリング結果を決定することができる。例えば、電子装置は、複数のクラスタのうち畳み込みデータが属しているクラスタを決定してもよい。プロトタイプクラスタベクトルＣ＝｛ｃ_１、…、ｃ_Ｋ｝に定義され、Ｋは、プロトタイプクラスタベクトルＣによって指示されるクラスタの個数を示す。電子装置は、同等パーティションの条件下でＳｉｎｋｈｏｒｎ－Ｋｎｏｐｐアルゴリズムを用いて、プロトタイプクラスタグループのうち畳み込みデータが属しているクラスタを決定することができる。例えば、電子装置は、教師モデルｆ_θの畳み込み表現（ｅｍｂｅｄｄｉｎｇｒｅｐｒｅｓｅｎｔａｔｉｏｎ）、例えば、畳み込みデータｚ_ｎをプロトタイプクラスタベクトルＣでマッピングすることで、コードベクトルｑ_ｎを算出する。コードベクトルｑ_ｎは、各畳み込みデータに割り当てられたクラスタを指示するコード値を含んでもよい。図３において、電子装置は、教師モデルｆ_θに基づいて算出された第１畳み込みデータｚ_ｎ１が属しているクラスタを指示するコード値ｑ_ｎ１、第１畳み込みデータｚ_ｎ２が属しているクラスタを指示するコード値ｑ_ｎ２を決定することができる。

【0073】

一実施形態に係る電子装置は、ＳｗＡＶ（ＳｗａｐｐｉｎｇＡｓｓｉｇｎｍｅｎｔｓｂｅｔｗｅｅｎＶｉｅｗｓ）に類似に、様々なビューの入力データ間に前述したクラスタリング結果を交換して教師モデルｆ_θの損失を予測できる。電子装置は、２以上の入力データのいずれか１つの入力データから第１ニューラルネットワークモデルに基づいて抽出された畳み込みデータが属しているクラスタを指示するコード値及び２以上の入力データのうち、他の入力データから第１ニューラルネットワークモデルに基づいて抽出された第１畳み込みデータに基づいて第１部分損失Ｌ_Ｔを算出することができる。例えば、電子装置は、下記の数式（６）のようにコード値ｑ_ｎ２と第１畳み込みデータｚ_ｎ１との交差損失及びコード値ｑ_ｎ１と第１畳み込みデータｚ_ｎ２との交差損失を算出することができる。

【数6】

前述した数式（６）の交差損失は、下記の数式（７）のように算出される。数式（７）は、例示的にコード値ｑ_ｎ２と第１畳み込みデータｚ_ｎ１との交差エントロピー値を示し、コード値ｑ_ｎ１と第１畳み込みデータｚ_ｎ２との交差エントロピーも類似に算出され得る。

【数7】

【数8】

前述した数式（８）において、Ｔは前置を示す。前述した数式（７）に示したように、電子装置はコード値ｑ_ｎ２と第１畳み込みデータｚ_ｎ１との交差エントロピー値として、コード値ｑ_ｎ２及び第１畳み込みデータｚ_ｎ１に対するソフトマックス確率間の交差エントロピー値を示す。数式（８）は、プロトタイプクラスタベクトルＣの全てのクラスタと第１畳み込みデータｚ_ｎ１とのドット積（ｄｏｔｐｒｏｄｕｃｔ）の温度パラメータを有するソフトマックス確率を示す。数式（８）において例示的に第１畳み込みデータｚ_ｎ１に対するソフトマックス確率が説明されたが、これに限定されることなく、電子装置は、ｉ番目の入力イメージに対して算出された第ｉ畳み込みデータｚ_ｎｉに対するソフトマックス確率を算出してもよい。ここで、ｉは１以上ｍ以下の整数であってもよい。前述した数式（６）に係る第１部分損失Ｌ_ｔは教師モデルｆ_θにおいて、データ増強のようなビュー変化に強靭な区別力のある特徴を出力するように設計され得る。

【0074】

一実施形態に係る電子装置は、前述した教師モデルｆ_θに対する交差損失に類似に様々なビューの入力データ間に前述したクラスタリング結果を交換して学生モデルｇ_ηの損失を予測することができる。電子装置は、２以上の入力データのいずれか１つの入力データから第１ニューラルネットワークモデルに基づいて抽出された第１畳み込みデータが属しているクラスタを指示するコード値、及び２以上の入力データのうち他の入力データから第２ニューラルネットワークモデルに基づいて抽出された第２畳み込みデータに基づいて第２部分損失Ｌ_ｓを算出することができる。例えば、電子装置は、下記の数式（９）のようにコード値ｑ_ｎ２と第２畳み込みデータｗ_ｎ１との交差損失、及びコード値ｑ_ｎ１と第２畳み込みデータｗ_ｎ２との交差損失を算出することができる。

【数9】

前述した数式（９）に示したように、電子装置は、教師モデルに対するクラスタリング結果であるコード値ｑ_ｎ１及びｑ_ｎ２を参照して第２畳み込みデータｗ_ｎ１、ｗ_ｎ２に対する交差エントロピー値を算出する。交差エントロピー値Ｌｃ（）は、前述した数式（７）及び数式（８）と同様に算出されてもよい。電子装置は、学生モデルｇ_ηの第２畳み込みデータｗ_ｎ１、ｗ_ｎ２から教師モデルに対するクラスタリング結果であるコード値ｑ_ｎ１及びｑ_ｎ２を交換して予測するよう設計された第２部分損失Ｌ_ｓを介して、学生モデルｇ_ηが教師モデルｆ_θを模倣するようにトレーニングすることができる。

【0075】

電子装置は、前述した数式（６）に係る第１部分損失Ｌ_ｔ及び数式（９）に係る第２部分損失Ｌ_ｓを共同に最小化するよう、教師モデルｆ_θのパラメータ及び学生モデルｇ_ηのパラメータをアップデートすることができる。

【0076】

些細ではない（ｎｏｎ－ｔｒｉｖｉａｌ）オンラインクラスタリングにおいて、複数のコードｑ_ｎが、上述したようにサイズＢの格納された畳み込みを有するミニバッチ（ｍｉｎｉ－ｂａｔｃｈ）に対して同等パーティションの制約（ｅｑｕｉ－ｐａｒｔｉｔｉｏｎｃｏｎｓｔｒａｉｎｔ）下でＳｉｎｋｈｏｒｎ－Ｋｎｏｐｐアルゴリズムを用いて算出され得る。

【数10】

ｎ番目のオリジナルデータに対するコードベクトルＱ_ｎ＝［ｑ_ｎ１；…；ｑ_ｎＢ］は、与えられたプロトタイプクラスタベクトルＣ＝｛ｃ_１、…、ｃ_Ｋ｝及びＺ＝［ｚ_ｎ１、…、ｚ_ｎＢ］に対して搬送ポリトープ（ｔｒａｎｓｐｏｒｔａｔｉｏｎｐｏｌｙｔｏｐｅ）Ωにわたった前述した数式（１０）の最適化問題を解決することにより算出され得る。ここで、Ｈは下記の数式（１１）のようなエントロピー関数であり、εはスムージングパラメータ（ｓｍｏｏｔｈｉｎｇｐａｒａｍｅｔｅｒ）である。

【数11】

ここで、ミニバッチで制限された搬送ポリトープΩは、下記の数式（１２）により与えられる。

【数12】

ここで、１_ＫはＫ次元の１（ｏｎｅｓ）のベクトルを示す。

【0077】

また、電子装置は、前述した第１部分損失Ｌ_ｔ及び第２部分損失Ｌ_ｓにドロップアウトを反映した損失を追加する。例えば、電子装置は、２以上の入力データのいずれか１つの入力データから第１ニューラルネットワークモデルを用いて抽出されたビューデータ及びクラスタリング結果にさらに基づいて第１部分損失Ｌ_Ｔを算出することができる。電子装置は、ドロップアウトに基づいて算出された第１ビューデータＺ^～ _ｎ１、Ｚ^～ _ｎ２とクラスタリング結果との間の損失を下記の数式（１３）のように算出することができる。

【数13】

前述した数式（１３）において、｛Ｚ＾_ｎｖ｝^Ｖ _ｖ＝１は、小さくクロップされた特徴（ｓｍａｌｌｃｒｏｐｆｅａｔｕｒｅｓ）を示し、
｛Ｚ^～ _ｎｖ｝^Ｖ＋２ _ｖ＝１はドロップアウトされた特徴を示す。前述した数式（６）及び数式（１３）が合算された第１部分損失Ｌ_Ｔは、下記の数式（１４）のように示す。

【数14】

同様に、電子装置は、２以上の入力データのいずれか１つの入力データから第２ニューラルネットワークモデルに基づいて抽出されたビューデータ及びコード値にさらに基づいて第２部分損失Ｌ_Ｓを算出する。例えば、電子装置は、学生モデルｇ_ηに対しても前述した数式（９）及び
Ｌ_ｍｖ(ｗ^～，ｗ＾)を合算することで、第２部分損失Ｌ_Ｓを算出することができる。Ｌ_ｍｖ(ｗ^～，ｗ＾)は、前述した数式（１３）と同様に算出される。

【0078】

一実施形態に係る電子装置は、敵対的損失を適用して、教師モデルｆ_θと学生モデルｇ_ηの特徴分布の差を低減することができる。

【0079】

ドメイン分類器Ｄは、２の出力の大きさを有するＭＬＰ（ｍｕｌｔｉ－ｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ）を含んでもよい。電子装置は、教師モデルｆ_θから出力されたデータに対して０、学生モデルｇ_ηから出力されたデータに対して１の特徴ラベル、及びドメイン分類器の出力のソフトマックス確率間の交差エントロピー損失を下記の数式（１５）及び数式（１６）のように算出することができる。

【数15】

【数16】

前述した数式（１５）のｄ^(ｋ) _Ｓ，ｎｉは、前述した数式（１６）において第１畳み込みデータｚ_ｎｉの代わりに、第２畳み込みデータｗ_ｎｉを用いて算出され得る。例えば、電子装置は、第１畳み込みデータ及び第２畳み込みデータから傾斜リバースレイヤ（ＧＲｌａｙｅｒ、ＧｒａｄｉｅｎｔＲｅｖｅｒｓａｌｌａｙｅｒ）３５３を用いて、第３部分損失を算出することができる。教師モデルｆ_θの第１ビュー生成モデル及び学生モデルｇ_ηの第２ビュー生成モデルの最後のレイヤは、ドメイン分類器に傾斜リバースレイヤ３５３を介して連結される。傾斜リバースレイヤ３５３は、逆伝播トレーニングの間に特定の負の定数（ｎｅｇａｔｉｖｅｃｏｎｓｔａｎｔ）によって傾斜をスケーリングする。

【0080】

一実施形態に係る電子装置は、前述した第１部分損失Ｌ_Ｔ、第２部分損失Ｌ_Ｓ、及び第３部分損失Ｌ_Ｄに基づいて、教師モデルｆ_θ、学生モデルｇ_η、及び残りのレイヤのパラメータをアップデートすることができる。したがって、電子装置は、小規模ネットワークのビジュアル特徴をオンラインで効率よく学習するために、真の値（ｇｒｏｕｎｄｔｒｕｔｈ）ラベルにアクセスする必要がない場合もある。上述したように、電子装置は、オンザフライ自己教師あり学習のプロセスに知識の蒸留動作を統合することができる。

【0081】

図４は、一実施形態に係るプロジェクションモデルを説明する図である。図５は、一実施形態に係るドロップモデルを説明する図である。

【0082】

一実施形態によれば、電子装置は、第１バックボーン特徴データから第１プロジェクションモデルを用いてプロジェクションされた第１畳み込みデータを算出する。電子装置は、第１バックボーン特徴データから少なくとも１つのドロップアウトレイヤを含む第１ドロップモデル（ｄｒｏｐｍｏｄｅｌ）を用いてプロジェクションされた第１ビューデータを算出する。電子装置は、第２バックボーン特徴データから第２プロジェクションモデルを用いてプロジェクションされた第２畳み込みデータを算出する。電子装置は、第２バックボーン特徴データから少なくとも１つのドロップアウトレイヤを含む第２ドロップモデルを用いて、プロジェクションされた第２ビューデータを算出する。図４は、第１プロジェクションモデル及び第２プロジェクションモデルを説明し、図５は、第１ドロップモデル及び第２ドロップモデルを説明する。

【0083】

例えば、電子装置は、各ニューラルネットワークモデル（例えば、教師モデル及び学生モデル）から出力されたバックボーン特徴データにプロジェクションモデル４３０ｈを適用して畳み込みデータを算出してもよい。プロジェクションモデル４３０ｈは、完全接続レイヤ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）、畳み込みレイヤ（ｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒ）、活性化レイヤ（ａｃｔｉｖａｔｉｏｎｌａｙｅｒ）、及び正規化レイヤ（ｎｏｒｍａｌｉｚａｔｉｏｎｌａｙｅｒ）などの組み合わせを含んでもよい。図４に示された例示において、プロジェクションモデル４３０ｈは、線型レイヤ（ｌｉｎｅａｒｌａｙｅｒ）４３１、ＢＮ（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）レイヤ４３３、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）レイヤ４３４、線型レイヤ４３５、及び正規化レイヤ４３７を含んでもよい。但し、これは単なる例示であって、プロジェクションモデル４３０ｈの構成は、示しているものに限定されることはない。

【0084】

一実施形態に係る電子装置は、各ニューラルネットワークモデルから出力されたバックボーン特徴データにドロップモデル５３０ｈ^ｄｒｏｐを適用することでビューデータを算出することができる。ビューデータは、プロジェクションされた畳み込みデータとは異なるビューのデータを示す。ドロップモデル５３０ｈ^ｄｒｏｐは、前述したプロジェクションモデル４３０ｈにドロップアウトレイヤ５３２をさらに含むモデルであってもよい。例えば、電子装置は、第１畳み込みデータに線型レイヤ４３１，４３５を適用した後、ドロップアウトレイヤ５３２，５３６を適用する。電子装置は、第２畳み込みデータに線型レイヤ４３１，４３５を適用した後、ドロップアウトレイヤ５３２，５３６を適用する。図５では、ドロップモデル５３０ｈ^ｄｒｏｐが活性化レイヤであるＲｅＬＵレイヤ４３４に先行するドロップアウトレイヤ５３２、及びＲｅＬＵレイヤ４３４に後行するドロップアウトレイヤ５３６を含むものとして示されているが、これに限定されることはない。ドロップアウトレイヤ５３２，５３６によって様々なビューに関するデータが生成され得る。

【0085】

図６は、他の一実施形態に係る複数のニューラルネットワークモデルのトレーニング動作を説明する。

【0086】

一実施形態に係るトレーニングシステム６００は、ｎ個のニューラルネットワークモデル２２１，２２２，６２９を含む。トレーニングシステム６００は、各ニューラルネットワークモデルに接続されるビュー生成モデル２３１，２３２，６３９を含んでもよい。図６において、第２ニューラルネットワークモデル２２２が学生モデル、残りの第１ニューラルネットワークモデル２２１、第３ニューラルネットワークモデルないし第ｎニューラルネットワークモデル６２９は教師モデルであってもよい。但し、これに限定されることはなく、ニューラルネットワークモデルそれぞれのパラメータ数がそれぞれ異なってもよい。

【0087】

クラスタリング部６４０は、ビュー生成モデル２３１，２３２，６３９のそれぞれから出力される畳み込みデータをクラスタリングすることができる。交差損失算出部６５０は、前述した数式（１４）と同様に交差損失を算出することができる。数式（１４）において、交差損失を算出するために使用されるコード値は、次のように決定される。例えば、交差損失算出部６５０は、第１ニューラルネットワークモデル及び第２ニューラルネットワークモデルを含む複数のニューラルネットワークモデルのうち、最も高い認識性能を有するモデルによって出力された畳み込みデータが属しているクラスタを指示するコード値、各モデルによって出力された畳み込みデータごとのコード値、及びクラスタリング損失の最も小さいモデルによって出力された畳み込みデータが属しているクラスタを指示するコード値のうちの１つを決定することができる。交差損失算出部６５０は、決定されたコード値と畳み込みデータとの間の交差損失を算出し、逆伝播トレーニングに使用してもよい。

【0088】

区別損失算出部６６０は、ｎ個のニューラルネットワークモデルのうち、いずれか１つのニューラルネットワークモデルから出力された畳み込みデータと他のニューラルネットワークモデルから出力された畳み込みデータとの間の敵対的な損失を数式（１５）と同様に算出することができる。したがって、区別損失算出部６６０は、ｎ個のニューラルネットワークモデルの畳み込み空間の特徴分布に類似するように、トレーニングを行うことができる。

【0089】

トレーニングシステムは、ｎ個のニューラルネットワークモデルをアンサンブルさせることで、学生モデルである第２ニューラルネットワークモデル２２２が、より様々なビューのデータを学習することができる。

【0090】

図７は、更なる一実施形態に係る異種センサを用いて収集されたデータを用いたトレーニング動作を説明する。

【0091】

一実施形態に係る電子装置は、複数のセンサのいずれか１つのセンサを用いて場面をキャプチャーすることで、２以上の入力データのいずれか１つの入力データを生成することができる。電子装置は、複数のセンサのうち、異なるタイプのセンサを用いて同じ場面をキャプチャーすることで、２以上の入力データのうち異なる入力データを生成することができる。例えば、図７に示されているトレーニングシステム７００において、電子装置は、第１センサ７０１及び第２センサ７０２を含んでもよい。第１センサ７０１はカメラセンサ、第２センサ７０２はライダーセンサである例示を説明しているが、これに限定されることはない。第１センサ７０１及び第２センサ７０２は、画像センサ、カメラセンサ、ライダーセンサ、レーダーセンサ、及び赤外線センサのうち互いに異なるセンサであってもよい。

【0092】

例えば、トレーニングシステム７００は、カメライメージとライダーイメージにニューラルネットワークモデルをトレーニングさせる場合、同じ時間に同じ場面をキャプチャーすることで生成されたカメライメージとライダーイメージをそれぞれ第１ニューラルネットワークモデル２２１及び第２ニューラルネットワークモデル２２２に入力することができる。トレーニングシステム７００は、カメライメージから生成された第１入力データ２１１を第１ニューラルネットワークモデル２２１に入力する。トレーニングシステム７００は、ライダーイメージから生成された第ｍ入力データ２１２を第２ニューラルネットワークモデル２２２に入力してもよい。ここで、ｍは、２であってもよい。

【0093】

トレーニングシステム７００は、カメライメージに対してサイズ変形、カラー歪み、及びランダムクロップなどを適用することで、様々なビューに対する第１入力データ２１１を生成することができる。

【0094】

トレーニングシステム７００は、ライダーセンサによって取得されたライダーイメージであるオリジナルデータから検出ポイント増強及び反射値調整のうちの１つ又は２以上の組み合わせを含むデータ増強に基づいて、２以上の第ｍ入力データ２１２を生成することができる。

【0095】

第１ニューラルネットワークモデル２２１は、入力イメージから特徴ベクトルを抽出可能に設計されたモデルであって、例えば、ＲｅｓＮｅｔ、ＭｏｂｉｌｅＮｅｔ、及びＲｅｇＮｅｔなどであってもよい。第２ニューラルネットワークモデル２２２は、ライダーイメージであるポイントグレイシーケンスデータを処理可能に設計されたモデルであって、例えば、ＰｏｉｎｔＮｅｔ及びＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙｍｏｄｅｌｓ）などであってもよい。残りの動作については、図２及び図３を参照して前述したものと同様であるか類似する。

【0096】

図８は、更なる一実施形態に係るターゲットハードウェアに対応したトレーニング動作を説明する。

【0097】

一実施形態に係る、トレーニングシステム８００は、データ変換部８２０及びビュー変換部８３９をさらに含む。例えば、データ変換部８２０は、２以上の入力データをターゲットハードウェアによって定義されるフォーマットに基づいて変換し得る。

【0098】

例示的に、ビューデータの生成、教師モデルの学習、クラスタリング、損失の算出を通したトレーニングは、サーバ及び／又はパソコン（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）で実行され、実際の推論動作のための第２ニューラルネットワークモデル８２２は、より低い性能の電子装置（例えば、モバイル端末）のように実現され得る。異なる例として、互いに異なるコンピューティング環境をターゲットにする複数のニューラルネットワークモデルが共にトレーニングされてもよい。前述した様々なハードウェア環境に対するニューラルネットワークモデルのトレーニングのために、ターゲットハードウェアのためのデータ変換が求められる。

【0099】

データ変換部８２０は、第１入力データ２１１ないし第ｍ入力データ２１２をターゲットハードウェアの演算基礎データ形式（例えば、フローティングポイント形式、及びビット数など）に合わせて変換してもよい。データ変換部８２０は、変換されたデータを第２ニューラルネットワークモデル８２２に入力する。ビュー変換部８３９は、第２ビュー生成モデル８３２から出力される畳み込みデータ及びビューデータをトレーニングシステム８００の演算基礎データ形式に合わせて変換し、クラスタリング部２４０及び損失算出に提供することができる。また、データ変換部８２０及びビュー変換部８３９は、ターゲットハードウェアの特別なセンサ特徴（例えば、色空間の差、ベイヤーパターン映像など）に基づいて、ターゲットハードウェアの特徴に合わせてデータを変換してトレーニングに使用してもよい。

【0100】

図９は、一実施形態によりトレーニングが完了されたモデルを用いた推論結果の生成を説明する。

【0101】

一実施形態に係る電子装置は、トレーニングが完了されたニューラルネットワークモデルを用いて推論動作を行うことができる。例えば、電子装置は、トレーニングが完了された第２ニューラルネットワークモデル９２０に基づいて検出データ９０１から抽出される畳み込みデータを用いて、検出データ９０１に対する目標作業の推論結果９０９（ｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成する。電子装置は、第２ニューラルネットワークモデル９２０から抽出された畳み込みデータを出力レイヤ９２９に伝播して、推論結果９０９を生成することができる。出力レイヤ９２９は、目標作業のための推論結果９０９を出力するために、設計及び追加トレーニングされたパラメータを有するレイヤであってもよい。

【0102】

検出データ９０１は、センサによって収集されたデータとして、例えば、イメージデータであってもよく、第２ニューラルネットワークモデル９２０に入力されてもよい。目標作業は、オブジェクト検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）、オブジェクト分類（ｏｂｊｅｃｔｃｌａｓｓｉｆｉｃａｔｉｏｎ）、深度推定（ｄｅｐｔｈｅｓｔｉｍａｔｉｏｎ）、オブジェクト認識（ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ）、身元検証（ｉｄｅｎｔｉｔｙｖｅｒｉｆｉｃａｔｉｏｎ）、イメージ検出、及びイメージ分割などを含んでもよい。但し、これに限定されることなく、自律走行又はＡＤＡＳ（ＡｄｖａｎｃｅｄＤｒｉｖｅｒＡｓｓｉｓｔａｎｃｅＳｙｓｔｅｍｓ）に関する作業、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）機器に関する作業、携帯電話に関する作業、及びＴＶに関する作業も含んでもよい。

【0103】

電子装置は、第２ニューラルネットワークモデル９２０を格納した電子装置の動作を推論結果９０９に基づいて制御し得る。例えば、電子装置が車両に搭載されている場合、電子装置は、オブジェクト検出結果に基づいて車両とオブジェクトとの間の距離を推定し、車両とオブジェクトとの間の距離に応じて車両の速度、加速度、及びステアリング（ｓｔｅｅｒｉｎｇ）のうち少なくとも１つ又は２以上の組み合わせを変更してもよい。異なる例として、電子装置がモバイル端末として実現される場合、電子装置は、身元検証結果に応じて予め登録されているユーザであると検証された場合、電子装置のロック状態をアンロックして解除することができる。但し、電子装置の動作制御を前述したように限定せず、電子装置は、推論結果９０９に応じて電子装置によりアクセス可能な様々な素子、モジュール、回路、及び／又は、機能を制御することができる。

【0104】

図１～図８を参照して前述したように、トレーニングされた第２ニューラルネットワークモデルは、様々な性能、例えば、正確度、精密度、再現、平均精密度、平均再現、及び和集合に対する平均交差点などの向上を示す。

【0105】

図１０Ａ～図１０Ｄは、一実施形態によりトレーニングされたニューラルネットワークモデルの区別力を説明する。

【0106】

図１０Ａは、大型モデルの単独トレーニング時に特徴ベクトルの分布１０００ａを示し、図１０Ｂは、小型モデルの単独トレーニング時に特徴ベクトルの分布１０００ｂを示し、図１０Ｃは、一実施形態に係る教師モデルの特徴ベクトルの分布１０００ｃを示し、図１０Ｄは、一実施形態に係る学生モデルの特徴ベクトルの分布１０００ｄを示す。

【0107】

図１０Ｃ及び図１０Ｄは、図１０Ｂよりも特徴ベクトルがワイドに分布しており、他のクラスに対してもっと区別力のある特徴を保持（ｃｏｎｔａｉｎ）している。また、図１０Ｄに示されている学生モデルの特徴ベクトルの分布１０００ｄが、教師モデルの特徴ベクトルの分布１０００ｃに類似しており、知識の蒸留によって学生モデルが教師モデルに類似した程度の正確度を有することができる。

【0108】

図１１は、一実施形態によりトレーニングされたニューラルネットワークモデルの正確度を説明する。

【表1】

上記の表１は、トレーニング方式ごとのＲｅｓＮｅｔ－１８モデルのＴｏｐ－１正確度（％）として、図１１に示すグラフ１１００のように図示される。図１１に示されたグラフ１１００のように一実施形態に係る学生モデル（例えば、ＯＳＳ）は、全てのエポック（ｅｐｏｃｈ）にわたって優れた正確度を示す。一実施形態に係るトレーニングは、概念的に簡単でありながらシングル８個のＧＰＵマシーン上で典型的な２５６バッチトレーニングでも相当な認識性能を示すことができる。

【0109】

一実施形態に係るトレーニング装置は、自己教師あり学習（Ｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を介してラベルのないデータからデータの特徴ベクトル又は特徴マップを抽出する複数のニューラルネットワークモデルを同時にトレーニングさせ、各ニューラルネットワークに有意味で豊かな表現（ｒｉｃｈｒｅｐｒｅｓｅｎｔａｔｉｏｎ）をトレーニングすることができる。また、一実施形態に係るトレーニング装置は、単一のネットワークモデル学習時よりも区別力がある特徴ベクトルを出力するよう、ニューラルネットワークモデルをトレーニングさせることができる。トレーニング装置は、より少ないコンピューティングリソースを有して小さいサイズのニューラルネットワークモデルで高性能の認識正確度を示す特徴ベクトルを抽出することができる。

【0110】

図１２は、一実施形態に係る電子装置の構成を示すブロック図である。

【0111】

一実施形態に係るニューラルネットワークトレーニング装置（例えば、電子装置）１２００は、プロセッサ１２１０及びメモリ１２２０を含む。

【0112】

プロセッサ１２１０は、同じ場面に対する２以上の入力データを第１ニューラルネットワークモデルに個別的に適用し、各入力データに対応する第１バックボーン特徴データを算出する。プロセッサ１２１０は、２以上の入力データを第２ニューラルネットワークモデルに個別的に適用して各入力データに対応する第２バックボーン特徴データを算出する。プロセッサ１２１０は、第１バックボーン特徴データから、プロジェクションに基づいた第１畳み込みデータ及びドロップアウトに基づいた第１ビューデータを算出する。プロセッサ１２１０は、第２バックボーン特徴データから、プロジェクションに基づいた第２畳み込みデータ及びドロップアウトに基づいた第２ビューデータを算出する。プロセッサ１２１０は、第１畳み込みデータ、第１ビューデータ、第２畳み込みデータ、第２ビューデータ、及び第１畳み込みデータが属しているクラスタを指示するコード値のうち、２以上の組み合わせに基づいて算出された損失に基づいて、第１ニューラルネットワークモデル及び第２ニューラルネットワークモデルのうち少なくとも１つをトレーニングさせることができる。但し、プロセッサ１２１０の動作は、これに限定されることなく、図１～図１１を参照して前述した動作も行うことができる。

【0113】

メモリ１２２０は、第１ニューラルネットワーク及び第２ニューラルネットワークを格納する。また、メモリ１２２０は、一実施形態に係るトレーニングを行うために要求されるデータを一時的及び／又は永久的に格納してもよい。メモリ１２２０は、トレーニングが完了する前に臨時ニューラルネットワークモデルを格納することができ、トレーニングの完了されたニューラルネットワークモデルを格納することができる。

【0114】

以上で説明した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又は、ハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及び前記オペレーティングシステム上で行われる１つ以上のソフトウェアアプリケーションを行うことができる。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成することもできる。理解の利便のために、処理装置は、１つが使用されるものと説明される場合もあるが、当該技術分野において通常の知識を有する者であれば、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数のタイプの処理要素を含んでいることが分かる。例えば、処理装置は、複数のプロセッサ又は一つのプロセッサ及び一つのコントローラを含んでもよい。また、並列プロセッサのような、他の処理構成も可能である。

【0115】

ソフトウェアは、コンピュータプログラム、コード、命令、又は、そのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成し、または、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈され、または、処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は、送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納され、または、実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

【0116】

実施形態に係る方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク、及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及び、ＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって行われる高級言語コードを含む。

【0117】

上記で説明したハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

【0118】

上述したように、実施形態を限定された図面によって説明してきたが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて、様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で行われてよく、及び／又は、説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

【0119】

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

【符号の説明】

【0120】

２００、３００トレーニングシステム
４３０プロジェクションモデル
５３０ドロップモデル
６００、７００、８００トレーニングシステム
１０００特徴ベクトルの分布
１２００ニューラルネットワークトレーニング装置

【図1】