IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 宏達國際電子股▲ふん▼有限公司の特許一覧

<>
  • 特許-機器学習装置及び方法 図1
  • 特許-機器学習装置及び方法 図2
  • 特許-機器学習装置及び方法 図3
  • 特許-機器学習装置及び方法 図4
  • 特許-機器学習装置及び方法 図5
  • 特許-機器学習装置及び方法 図6
  • 特許-機器学習装置及び方法 図7
  • 特許-機器学習装置及び方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-04
(45)【発行日】2023-07-12
(54)【発明の名称】機器学習装置及び方法
(51)【国際特許分類】
   G06N 3/08 20230101AFI20230705BHJP
【FI】
G06N3/08
【請求項の数】 14
【外国語出願】
(21)【出願番号】P 2021195279
(22)【出願日】2021-12-01
(65)【公開番号】P2022088341
(43)【公開日】2022-06-14
【審査請求日】2022-02-21
(31)【優先権主張番号】63/120,216
(32)【優先日】2020-12-02
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/152,348
(32)【優先日】2021-02-23
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/448,711
(32)【優先日】2021-09-24
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】502160992
【氏名又は名称】宏達國際電子股▲ふん▼有限公司
(74)【代理人】
【識別番号】100206335
【弁理士】
【氏名又は名称】太田 和宏
(74)【代理人】
【識別番号】100120857
【弁理士】
【氏名又は名称】渡邉 聡
(74)【代理人】
【識別番号】100116872
【弁理士】
【氏名又は名称】藤田 和子
(72)【発明者】
【氏名】彭 宇劭
(72)【発明者】
【氏名】湯 凱富
(72)【発明者】
【氏名】張 智威
【審査官】加藤 優一
(56)【参考文献】
【文献】国際公開第2020/090651(WO,A1)
【文献】特開2020-135465(JP,A)
【文献】中国特許出願公開第111476363(CN,A)
【文献】特開2019-032807(JP,A)
【文献】特開2019-096006(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00 -99/00
G06F 18/00 -18/40
(57)【特許請求の範囲】
【請求項1】
プロセッサによってメモリからモデルパラメータを取得して、前記モデルパラメータに基づいて複数のニューラルネットワーク構造層を含む分類モデルを実行する工程と、
前記プロセッサによって複数のトレーニングサンプルに基づいて、前記複数のニューラルネットワーク構造層における出力層に対応する第1の損失と、前記複数のニューラルネットワーク構造層における前記出力層よりも前に位置するいずれかの層に対応する第2の損失を算出する工程と、
プロセッサによって前記第1の損失及び前記第2の損失に基づいて前記モデルパラメータに対して複数の更新操作を実行して前記分類モデルをトレーニングする工程と、
を備え、
前記複数のトレーニングサンプルに基づいて前記第1の損失と前記第2の損失を算出する前記工程は、
前記プロセッサによって、前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成する工程と、
前記プロセッサによって、前記複数の抽出特徴に基づいて前記第2の損失を算出する工程を含み、
前記複数の抽出特徴は、前記複数のニューラルネットワーク構造層の前記いずれかの層に対応し、前記第2の損失は、前記複数の抽出特徴の期待値と前記複数の抽出特徴の積との差の値である、
機器学習方法。
【請求項2】
前記複数のトレーニングサンプルに基づいて前記第1の損失及び前記第2の損失を算出する工程は、
前記プロセッサによって前記複数のトレーニングサンプルに基づいて前記複数のニューラルネットワーク構造層の前記出力層から複数の予測ラベルを生成する工程と、
前記プロセッサによって前記複数の予測ラベルと前記複数のトレーニングサンプルの複数のトレーニングラベルとを比較して前記第1の損失を算出する工程と、
を含む請求項1に記載の機器学習方法。
【請求項3】
前記第1の損失及び前記第2の損失に基づいて前記モデルパラメータに対して前記複数の更新操作を実行して前記分類モデルをトレーニングする工程は、
前記プロセッサによって前記第1の損失及び前記第2の損失に基づいて複数の損失差を算出する工程と、
前記プロセッサによって前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新する工程と、
を含む請求項に記載の機器学習方法。
【請求項4】
前記プロセッサによって前記複数の抽出特徴、及び前記複数のトレーニングサンプルの複数のトレーニングラベルの間の第3の損失を算出する工程を更に備え、
前記複数の抽出特徴は、前記複数のニューラルネットワーク構造層のいずれかの層に対応し、
前記第3の損失は、
【数1】
によって算出され、ここで、
【数10】
は、前記複数のトレーニングラベルであり、nとiは、正の整数であり、H i,j は、前記抽出特徴であり、
【数34】
は、強活性関数である、
請求項に記載の機器学習方法。
【請求項5】
前記第1の損失及び前記第2の損失に基づいて前記モデルパラメータに対して前記複数の更新操作を実行して前記分類モデルをトレーニングする工程は、
前記プロセッサによって前記第1の損失、前記第2の損失、及び前記第3の損失に基づいて、複数の損失差を算出する工程と、
前記プロセッサによって前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新する工程と、
を含む請求項に記載の機器学習方法。
【請求項6】
前記出力層は、少なくとも1つの完全結合層を含み、前記複数のニューラルネットワーク構造層における前記いずれかの層は、少なくとも1つの畳み込み層を含む請求項1に記載の機器学習方法。
【請求項7】
前記分類モデルは、ニューラルネットワークに関連づけられる請求項1に記載の機器学習方法。
【請求項8】
複数の命令及びモデルパラメータを記憶するためのメモリと、
前記メモリに接続されるプロセッサと、
を備える機器学習装置であって、
前記プロセッサは、分類モデルを実行するとともに、
前記メモリから前記モデルパラメータを取得して、前記モデルパラメータに基づいて複数のニューラルネットワーク構造層を含む前記分類モデルを実行し、
複数のトレーニングサンプルに基づいて、前記複数のニューラルネットワーク構造層における出力層に対応する第1の損失と、前記複数のニューラルネットワーク構造層における前記出力層よりも前に位置するいずれかの層に対応する第2の損失を算出し、
前記第1の損失及び前記第2の損失に基づいて前記モデルパラメータに対して複数の更新操作を実行して前記分類モデルをトレーニングするように、
前記複数の命令を実行するためのものであり、
前記プロセッサは、さらに、
前記複数のトレーニングサンプルに基づいて、前記分類モデルから複数の抽出特徴を生成し、
前記複数の抽出特徴に基づいて前記第2の損失を算出するように構成されており、
前記複数の抽出特徴は、前記複数のニューラルネットワーク構造層の前記いずれかの層に対応し、前記第2の損失は、前記複数の抽出特徴の期待値と前記複数の抽出特徴の積との差の値である、
機器学習装置。
【請求項9】
前記プロセッサは、更に、
前記複数のトレーニングサンプルに基づいて前記複数のニューラルネットワーク構造層の前記出力層から複数の予測ラベルを生成し、及び
前記第1の損失を算出するように、前記複数の予測ラベルと前記複数のトレーニングサンプルの複数のトレーニングラベルとを比較するためのものである、
請求項に記載の機器学習装置。
【請求項10】
前記プロセッサは、更に、
前記第1の損失及び前記第2の損失に基づいて複数の損失差を算出し、及び
前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新するためのもので
請求項に記載の機器学習装置。
【請求項11】
前記プロセッサは、更に、
前記複数の抽出特徴と、前記複数のトレーニングサンプルの複数のトレーニングラベルの間の第3の損失を算出するためのものであり、
前記複数の抽出特徴は、前記複数のニューラルネットワーク構造層のいずれかの層に対応し、
前記第3の損失は、
【数1】
によって算出され、ここで、
【数10】
は、前記複数のトレーニングラベルであり、nとiは、正の整数であり、H i,j は、前記抽出特徴であり、
【数34】
は、強活性関数である、
請求項に記載の機器学習装置。
【請求項12】
前記プロセッサは、更に、
前記第1の損失、前記第2の損失、及び前記第3の損失に基づいて複数の損失差を算出し、及び
前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新するためのものである、
請求項11に記載の機器学習装置。
【請求項13】
前記出力層は、少なくとも1つの完全結合層を含み、前記複数のニューラルネットワーク構造層におけるいずれかの層は、少なくとも1つの畳み込み層を含む請求項に記載の機器学習装置。
【請求項14】
前記分類モデルは、ニューラルネットワークに関連づけられる請求項に記載の機器学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、機器学習技術に関し、特に、偽相関を除去する機器学習技術に関する。
【背景技術】
【0002】
例えば、機器学習、ニューラルネットワーク等の技術は、人工知能技術の分野で広く適用されている。人工知能の重要な用途の1つとしては、オブジェクト(例えば、顔、ナンバープレート等)の識別、又はデータの予測(例えば、株価予測、医療予測等)がある。オブジェクト検出及びデータ予測は、特徴抽出及び特徴分類によって実現されることができる。
【0003】
しかしながら、特徴抽出及び特徴分類に用いられる特徴間には、一般的に、偽相関が発生し、しかも偽相関によりオブジェクト検出及びデータ予測の予測精度が低下してしまう。
【発明の概要】
【0004】
本開示の一態様は、プロセッサによってメモリからモデルパラメータを取得して、モデルパラメータに基づいて複数のニューラルネットワーク構造層を含む分類モデルを実行する工程と、プロセッサによって複数のトレーニングサンプルに基づいて、複数のニューラルネットワーク構造層における出力層に対応する第1の損失と、複数のニューラルネットワーク構造層における出力層よりも前に位置する一方に対応する第2の損失を算出する工程と、プロセッサによって、第1の損失及び前記第2の損失に基づいてモデルパラメータに対して複数の更新操作を実行して、分類モデルをトレーニングする工程と、を備える機器学習方法を開示する。
【0005】
いくつかの実施例において、前記複数のトレーニングサンプルに基づいて前記第1の損失及び前記第2の損失を算出する工程は、前記プロセッサによって前記複数のトレーニングサンプルに基づいて前記複数のニューラルネットワーク構造層の前記出力層から複数の予測ラベルを生成する工程と、前記プロセッサによって前記複数の予測ラベルと前記複数のトレーニングサンプルの複数のトレーニングラベルとを比較して前記第1の損失を算出する工程と、を含む。
【0006】
いくつかの実施例において、前記複数のトレーニングサンプルに基づいて前記第1の損失及び前記第2の損失を算出する工程は、前記プロセッサによって前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成する工程と、前記プロセッサによって前記複数のニューラルネットワーク構造層における一方に対応する前記複数の抽出特徴の間の統計独立性に基づいて、前記第2の損失を算出する工程と、を含む。
【0007】
いくつかの実施例において、前記第1の損失及び前記第2の損失に基づいて前記モデルパラメータに対して前記複数の更新操作を実行して前記分類モデルをトレーニングする工程は、
【0008】
前記プロセッサによって前記第1の損失及び前記第2の損失に基づいて複数の損失差を算出する工程と、前記プロセッサによって前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新する工程と、を含む。
【0009】
いくつかの実施例において、機器学習方法は、前記プロセッサによって前記複数の抽出特徴、及び前記複数のトレーニングサンプルの複数のトレーニングラベルの間の平均処理効果に基づいて第3の損失を算出する工程を更に備える。
【0010】
いくつかの実施例において、前記第1の損失及び前記第2の損失に基づいて前記モデルパラメータに対して前記複数の更新操作を実行して前記分類モデルをトレーニングする工程は、
【0011】
前記プロセッサによって前記第1の損失、前記第2の損失、及び前記第3の損失に基づいて、複数の損失差を算出する工程と、前記プロセッサによって前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新する工程と、を含む。
【0012】
いくつかの実施例において、前記複数のトレーニングサンプルに基づいて前記第1の損失及び前記第2の損失を算出する工程は、前記プロセッサによって前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成する工程と、前記プロセッサによって前記複数のニューラルネットワーク構造における一方に対応する前記複数の抽出特徴と、前記複数のトレーニングサンプルの複数のトレーニングラベルの間の平均処理効果とに基づいて前記第2の損失を算出する工程と、を含む。
【0013】
いくつかの実施例において、前記第1の損失及び前記第2の損失に基づいて前記モデルパラメータに対して前記複数の更新操作を実行して前記分類モデルをトレーニングする工程は、前記プロセッサによって前記第1の損失及び前記第2の損失に基づいて複数の損失差を算出する工程と、前記プロセッサによって前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新する工程と、を含む。
【0014】
いくつかの実施例において、出力層は、少なくとも1つの完全結合層を含み、前記複数のニューラルネットワーク構造層における一方は、少なくとも1つの畳み込み層を含む。
【0015】
いくつかの実施例において、前記分類モデルは、ニューラルネットワークに関連づけられる。
【0016】
本開示の別の態様は、複数のコマンド及びモデルパラメータを記憶するためのメモリと、メモリに接続されるプロセッサと、を備える機器学習装置であって、前記プロセッサは、分類モデルを実行するとともに、メモリからモデルパラメータを取得して、モデルパラメータに基づいて複数のニューラルネットワーク構造層を含む分類モデルを実行し、複数のトレーニングサンプルに基づいて、複数のニューラルネットワーク構造層における出力層に対応する第1の損失と、複数のニューラルネットワーク構造層における出力層よりも前に位置する一方に対応する第2の損失を算出し、第1の損失及び第2の損失に基づいて、モデルパラメータに対して複数の更新操作を実行して、分類モデルをトレーニングするように、複数のコマンドを実行するためのものである、機器学習装置を開示する。
【0017】
いくつかの実施例において、前記プロセッサは、更に、前記複数のトレーニングサンプルに基づいて前記複数のニューラルネットワーク構造層の前記出力層から複数の予測ラベルを生成し、及び前記第1の損失を算出するように、前記複数の予測ラベルと前記複数のトレーニングサンプルの複数のトレーニングラベルとを比較するためのものである。
【0018】
いくつかの実施例において、前記プロセッサは、更に、前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成し、及び前記複数のニューラルネットワーク構造層における一方に対応する前記複数の抽出特徴の間の統計独立性に基づいて前記第2の損失を算出するためのものである。
【0019】
いくつかの実施例において、前記プロセッサは、更に、前記第1の損失及び前記第2の損失に基づいて複数の損失差を算出し、及び前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新するためのものである。
【0020】
いくつかの実施例において、前記プロセッサは、更に、前記複数の抽出特徴と、前記複数のトレーニングサンプルの複数のトレーニングラベルの間の平均処理効果とに基づいて第3の損失を算出するためのものである。
【0021】
いくつかの実施例において、前記プロセッサは、更に、前記第1の損失、前記第2の損失、及び前記第3の損失に基づいて複数の損失差を算出し、及び前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新するためのものである。
【0022】
いくつかの実施例において、前記プロセッサは、更に、前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成し、及び前記複数のニューラルネットワーク構造における一方に対応する前記複数の抽出特徴と、前記複数のトレーニングサンプルの複数のトレーニングラベルの間の平均処理効果とに基づいて前記第2の損失を算出するためのものである。
【0023】
いくつかの実施例において、前記プロセッサは、更に、前記第1の損失及び前記第2の損失に基づいて複数の損失差を算出し、及び前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新するためのものである。
【0024】
いくつかの実施例において、前記出力層は、少なくとも1つの完全結合層を含み、前記複数のニューラルネットワーク構造層における一方は、少なくとも1つの畳み込み層を含む。
【0025】
いくつかの実施例において、前記分類モデルは、ニューラルネットワークに関連づけられる。
【図面の簡単な説明】
【0026】
図1】本開示の一実施例による機器学習装置を示す模式図である。
図2】本開示の一実施例による機器学習方法を示す模式図である。
図3】本開示の一実施例による分類モデル及び損失を示す模式図である。
図4】いくつかの実施例における図2のある工程の細部を示すフローチャートである。
図5】別のいくつかの実施例における図2のある工程の細部を示すフローチャートである。
図6】いくつかの実施例における図2の別の工程の細部を示すフローチャートである。
図7】いくつかの実施例における図2の追加工程を示すフローチャートである。
図8】別のいくつかの実施例における図2の別の工程の細部を示すフローチャートである。
【発明を実施するための形態】
【0027】
ここで、本開示の現在の実施例を詳細に参照し、その例を図面に示す。可能な場合には、図面及び説明において同一の要素符号を使用して同一の素子を表す。
【0028】
図1を参照すると、図1は、本開示の一実施例による機器学習装置を示す模式図である。機器学習装置100は、プロセッサ110と、メモリ120と、を備える。プロセッサ110及びメモリ120は、互いに接続される。
【0029】
いくつかの実施例において、機器学習装置100は、コンピュータ、サーバ、又は処理センターによって構築されてよい。いくつかの実施例において、プロセッサ110は、中央処理部又は演算部によって実現されてよい。いくつかの実施例において、メモリ120は、フラッシュメモリ、リードオンリーメモリ、ハードディスク、又は同等性を有する任意の記憶素子を用いて実現されてよい。
【0030】
いくつかの実施例において、機器学習装置100は、プロセッサ110とメモリ120とを含むことに限定されず、動作及び適用に必要な他の素子を更に含んでよく、例としては、出力インターフェース(例えば、情報を表示するための表示パネル)、入力インターフェース(例えば、タッチパネル、キーボード、マイク、スキャナ、又はフラッシュリーダ)、及び通信回路(例えば、WiFi通信モジュール、Bluetooth通信モジュール、無線通信ネットワーク通信モジュール等)を更に含んでよい。
【0031】
図1に示すように、プロセッサ110は、メモリ120に記憶された対応するソフトウェア/ファームウェアコマンドプログラムに基づいて分類モデル111を実行するためのものである。
【0032】
いくつかの実施例において、分類モデル111は、入力されたデータ(例えば、上記のデータ強調画像)を分類することができ、例えば、入力画像の中に車両、顔、ナンバープレート、文字、トーテムオブジェクト、又はその他の画像特徴を有するオブジェクトを検出することができる。分類モデル111は、分類結果に応じて、対応するラベルを生成する。特に説明すべきなのは、分類モデル111は、分類動作を行う際に、その自体のモデルパラメータMPを参照する必要がある。
【0033】
図1に示すように、メモリ120は、モデルパラメータMPを記憶するためのものである。いくつかの実施例において、モデルパラメータMPは、複数の重みパラメータ内容を含んでよい。
【0034】
本実施例において、分類モデル111は、複数のニューラルネットワーク構造層を含む。いくつかの実施例において、各層のニューラルネットワーク構造層は、モデルパラメータMPにおける1つの重みパラメータ内容(1つのニューラルネットワーク構造層の動作を決定するためのものである)に対応してもよい。一方、分類モデル111の各ニューラルネットワーク構造層は、互いに独立した重みパラメータ内容に対応してよい。つまり、各層のニューラルネットワーク構造層は、1つの重み値集合に対応してよく、重み値集合は、複数の重み値を含んでよい。
【0035】
いくつかの実施例において、ニューラルネットワーク構造層は、畳み込み層、プール層、線形整流層、完全結合層、又は他のタイプのニューラルネットワーク構造層であってよい。いくつかの実施例において、分類モデル111は、ニューラルネットワークに関連づけられてよい(例えば、分類モデル111は、深度残差ネットワーク及び完全結合層から構成され、又はEfficentNet及び完全結合層から構成されてよい)。
【0036】
本開示の一実施例による機器学習方法を示す模式図である図2を併せて参照すると、図1に示される機器学習装置100は、図2の機器学習方法を実行するために使用されてよい。
【0037】
図2に示すように、まず、工程S210において、メモリ120からモデルパラメータMPを取得して、モデルパラメータMPに基づいて分類モデル111を実行する。一実施例において、メモリ120におけるモデルパラメータMPは、従来のトレーニング経験から得られた平均値、人工的に与えられたデフォルト値、又は乱数値であってよい。
【0038】
工程S220において、複数のトレーニングサンプルに基づいて、複数のニューラルネットワーク構造層における出力層に対応する第1の損失と、複数のニューラルネットワーク構造層における出力層よりも前に位置する一方に対応する第2の損失を算出する。一実施例において、第1の損失は、分類モデル111のニューラルネットワーク構造層の出力層からプロセッサ110によって生成され、第2の損失は、出力層よりも前のニューラルネットワーク構造層からプロセッサ110によって生成される。いくつかの実施例において、出力層は、少なくとも1つの完全結合層を含んでよい。以下、具体例に合わせて、いくつかの実施例における工程S220の詳細な工程について更に説明する。
【0039】
工程S230において、第1の損失及び第2の損失に基づいて、モデルパラメータMPに対して複数の更新操作を実行して、分類モデル111をトレーニングする。一実施例において、トレーニングされたモデルパラメータMPを生成するように、プロセッサ110は、更新操作において、第1の損失及び第2の損失に基づいてモデルパラメータMPを更新し、更に、更新されたモデルパラメータMPに基づいて分類モデル111をトレーニングして、トレーニングされた分類モデル111を生成する。以下、具体例に合わせて、いくつかの実施例における工程S230の詳細な工程を更に説明する。
【0040】
これにより、トレーニングされた分類モデル111は、後のアプリケーションを実行するために使用されてよい。例えば、トレーニングされた分類モデル111は、画像や映像の入力、ストリームにおけるオブジェクト識別、顔識別、音声識別、又は動的検出等に使用され、又は株価データ又は天気情報に関するデータ予測に使用されてよい。
【0041】
図3及び図4を併せて参照すると、図3は、本開示の一実施例による分類モデル及び損失を示す模式図である。図4は、いくつかの実施例における工程S220の詳細な工程S221~S224Aを示すフローチャートである。
【0042】
図3に示すように、分類モデル111は、ニューラルネットワーク構造層SL1、SL2、~SLtを含む。いくつかの実施例において、tは正の整数である。一般的に、分類モデル111における総層数は、実際の適用の要求(例えば、分類の精度、分類対象物の複雑さ、入力映像の相違性)に応じて決定されてよい。場合によって、tの一般的な範囲は16~128であってよいが、本開示は特定の層数に限定されない。
【0043】
例としては、ニューラルネットワーク構造層SL1及びSL2は畳み込み層であってよく、ニューラルネットワーク構造層SL3はプール層であってよく、ニューラルネットワーク構造層SL4及びSL5は畳み込み層であってよく、ニューラルネットワーク構造層SL6はプール層であってよく、ニューラルネットワーク構造層SL7は畳み込み層であってよく、ニューラルネットワーク構造層SL8は線形整流層であってよく、ニューラルネットワーク構造層SLtは完全結合層であってよいが、本開示はこれらに限定されない。
【0044】
いくつかの実施例において、分類モデル111は複数の残差マップブロックを有してもよく、残差マップブロックの構造を使用することで、tを大幅に低減することができる。以下、分類モデル111のような構成を例として、工程S221~工程S224Aを更に説明する。
【0045】
なお、説明の便宜上、図3における分類モデル111は例示的な説明に過ぎず、残差マップブロックを有するモデル(例えば、ResNetモデル)を示すが、本開示はこれに限定されない。実際の適用では、分類モデル111は、他のタイプの畳み込みニューラルネットワークであってよい。いくつかの実施例において、分類モデル111はEfficentNetモデルであってよい。
【0046】
図3及び図4に示すように、工程S221において、プロセッサ110によって、ニューラルネットワーク構造層SLl、SL2、~SLtの出力層SLtから、トレーニングサンプル
【数1】
に基づいて複数の予測ラベル
【数2】
が生成される。注意すべきなのは、nはトレーニングサンプル
【数3】
の数であり、nは
【数4】
予測ラベルの数であり、nは正の整数であってよく、iはn以下の正の整数であってよい。図3に示すように、トレーニングサンプルXiが分類モデル111に入力されると、ニューラルネットワーク構造層SLl、SL2、~SLtの演算により、分類モデル111のニューラルネットワーク構造層SLt(すなわち、出力層)から予測ラベル
【数5】
を生成することができる。同様に、予測ラベル
【数6】
を生成するように、トレーニングサンプル
【数7】
を分類モデル111に入力してよい。
【0047】
図3及び図4に示すように、工程S222において、プロセッサ110によって比較アルゴリズムが実行されて予測ラベル
【数8】
とトレーニングサンプル
【数9】
の複数のトレーニングラベル
【数10】
とを比較して、第1の損失Llを生成する。図3に示すように、予測ラベル
【数11】
とトレーニングサンプルXiのトレーニングラベルyとを比較して、損失を算出する。同様に、プロセッサ110によって比較アルゴリズムが実行されて予測ラベルとトレーニングラベルとを比較して複数の損失を算出し、且つ、プロセッサ110によって、これらの損失(すなわち、従来の損失関数)に基づいて第1の損失L1を生成する。いくつかの実施例において、第1の損失L1を得るように、プロセッサ110によって予測ラベル
【数12】
及びトレーニングラベル
【数13】
に対してクロスエントロピー算出を実行してもよい。
【0048】
図3及び図4に示すように、工程S223において、トレーニングサンプル
【数14】
に基づいて分類モデル111から複数の抽出特徴
【数15】
を生成する。図3に示すように、トレーニングサンプルXiが分類モデル111に入力されると、ニューラルネットワーク構造層SL1、SL2、~SLt-1の操作により分類モデル111のニューラルネットワーク構造層Lt-1の人工ニューロンから抽出特徴Hi,1、Hi,2、~Hi,m(mは正の整数で人工ニューロンの数に等しい)を算出してよく、且つ、抽出特徴 i,1 、H i,2 、…H i,m はそれぞれニューラルネットワーク構造層Lt-1における人工ニューロンに対応する。また、抽出特徴 i,1 、H i,2 、…H i,m は、それぞれニューラルネットワーク構造層Lt-1よりも前の何れのニューラルネットワーク構造層における人工ニューロンに対応してもよい。同様に、人工ニューロンからトレーニングサンプル
【数16】
に対応する抽出特徴
【数17】
算出してよい。
【0049】
注意すべきなのは、抽出特徴
【数18】
とトレーニングラベル
【数19】
との間に偽相関が存在する可能性がある。詳細には、第1の抽出特徴は、第2の抽出特徴及びトレーニングラベルyの何れに対しても因果関係があるが、第2の抽出特徴とトレーニングラベルy同士の間には因果関係がないものとする。これに基づき、第2の抽出特徴及びトレーニングラベルyを関連付けることができる。第2の抽出特徴の数値がラベルの変化に伴い直線的に増加する場合、第2の抽出特徴とトレーニングラベルyとの間には偽相関が存在する。偽相関を引き起こす抽出特徴(すなわち、第1の抽出特徴、第2の抽出特徴、及びトレーニングラベルyの間の関係)が観察され得る場合、偽相関はドミナントである。そうでない場合、偽相関は、リセッシブ(すなわち、第2の抽出特徴とトレーニングラベルyとの間の関係)であると考えられてよい。偽相関は、予測ラベル
【数20】
とトレーニングラベル
【数21】
との間のより大きな差を引き起こす。
【0050】
例えば、患者の臨床画像が病巣の細胞組織、及び細胞組織と色が類似した骨を有する場合、骨の抽出特徴と病巣のラベルとの間のドミナントな偽相関を引き起こす。別の例では、患者の臨床画像は、典型的には、バックグラウンドを有し、患者の臨床画像における病巣及びバックグラウンドは類似である。従って、これは、バックグラウンドの抽出特徴と病巣のラベルとの間のリセッシブな偽相関を引き起こす。
【0051】
偽相関を回避するために、統計的独立性を使用してドミナントな偽相関を除去し、及び平均化効果を使用してリセッシブな偽相関を除去することの細部を、以下の段落で更に説明する。
【0052】
図3及び図4に示すように、工程S224Aにおいて、プロセッサ110によって、抽出特徴間の統計的独立性に基づいて第2の損失L2を算出し、抽出特徴はニューラルネットワーク構造層SL1、SL2、~SLtにおける1つ(すなわち、ニューラルネットワーク構造層SLt-1)に対応する。具体的には、確率変数の統計的独立性は、以下の式(1)で示される。
E(a)=E(a)E(b) (1)
【0053】
ここで、E(.)はランダム変数の期待値を表し、a及びbはランダム変数であり、p及びqは正の整数である。式(1)により、独立性損失は、以下の式(2)で表すことができる。
independent loss=-|E(a)-E(a)E(b)| (2)
【0054】
図3に示すように、ランダム変数を抽出特徴
【数22】
に置き換えることで、式(2)は、第2の損失L2(すなわち、抽出特徴
【数23】
間の独立性損失)を表す以下の式(3)に書き換えることができる。
【数24】
【0055】
ここで、j及びkは正の整数であり、m以下である。式(3)により、抽出特徴
【数25】
から第2の損失L2を算出する。いくつかの実施例において、式(3)の第2の損失に更に重要度値を乗算して第2の損失L2を生成してもよく、重要度値は、0より大きく且つ独立性損失の重要性を制御するハイパーパラメータである。
【0056】
別の実施例における工程S220の詳細な工程S221~S224Bを示すフローチャートである図5を併せて参照されたい。
【0057】
注意すべきなのは、図4図5との相違点は、工程S224Bのみにある。すなわち、工程S224Aを実行して第2の損失を生成することに加えて、工程S224Bを実行して第2の損失を生成してもよい。従って、以下、工程S224Bについてのみ説明し、残りの工程については繰り返して説明しない。
【0058】
図3及び図5に示すように、工程S224Bにおいて、プロセッサ110によって、抽出特徴とトレーニングサンプルのトレーニングラベルの間の平均処理効果とに基づいて第2の損失L3を算出し、抽出特徴はニューラルネットワーク構造層SL1、SL2、~SLtにおける1つ(すなわち、ニューラルネットワーク構造層SLt-1)に対応する。詳細には、確率変数の平均処理効果(すなわち、因果性)は、以下の式(4)で示される。
【数26】
【0059】
ここで、p(.)は確率変数の確率を表し、 及び は確率変数であり、
【数27】
は治療を表し、
【数28】
で且つ観察結果であり、
【数29】
で且つ共変ベクトルであり、及び
【数30】
である。
【0060】
図3に示すように、 及び をトレーニングラベル
【数31】
及び強活性関数により処理された抽出特徴
【数32】
に置き換えることで、式(4)は以下の式(5)のように書き換えられる。
【数33】
【0061】
ここで、j番目の抽出特徴の損失とは、抽出特徴H1,j、H2,j、~Hn,jに対応する因果的損失(すなわち、平均処理効果損失)であり、
【数34】
とは範囲が
【数35】
の強活性関数である。式(5)より、抽出特徴
【数36】
の平均処理効果を示す第2の損失L3は、以下の式(6)で示される。
【数37】
【0062】
式(6)により、抽出特徴とトレーニングサンプルのトレーニングラベルとに基づいて第2の損失L3を算出する。いくつかの実施例において、式(6)の第2の損失に、更に別の重要度値を乗算してもよく、他の重要度値は、0より大きく且つ平均処理効果損失の重要性を制御するハイパーパラメータである。
【0063】
いくつかの実施例における工程S230の詳細な工程S231A~S233を示すフローチャートである図6を併せて参照されたい。
【0064】
図6に示すように、工程S231Aにおいて、プロセッサ110によって、第1の損失及び第2の損失に基づいて損失差を算出する。詳細には、プロセッサ110によって第1の損失及び第2の損失の間の差分演算を実行して、損失差(すなわち、第1の損失から第2の損失を引く)を生成する。注意すべきなのは、第2の損失は、図4の工程S224A又は図5の工程S224Bから生成してもよい。つまり、第1の損失及び独立損失、又は第1の損失及び平均処理効果損失に基づいて、損失差を算出してよい。
【0065】
また、第1の損失、図4の工程S224Aで生成した第2の損失、及び図5の工程S224Bで生成した第2の損失に基づいて損失差を算出してよい(より詳細は、以下の段落でいくつかの例によって説明する)。
【0066】
工程S232では、損失差が収束したかを判断する。いくつかの実施例において、損失差は、収束すると、統計的実験結果から生じた差閾値に近づくか、又はこれに等しくなってよい。
【0067】
本実施例において、損失差が収束していなければ、工程S233を実行する。工程S233において、プロセッサ110によって、第1の損失及び第2の損失に基づいて分類モデルに対して逆伝搬操作を実行して、モデルパラメータMPを更新する。つまり、第1の損失及び第2の損失に基づく逆伝搬操作によって、モデルパラメータMPから更新されたモデルパラメータを生成する。
【0068】
これにより、工程S233、S220及びS231Aを継続的に繰り返して、モデルパラメータMPを繰り返しに徐々に更新する。このように、損失差は、差閾値に近づくか又は等しくなるまで、徐々に最小化する(すなわち、第2の損失が徐々に最大化する)。逆に、損失差が収束する場合、機器学習装置100がトレーニングを完了したことを示し、トレーニングされた分類モデル111は、後のアプリケーションを実行するために使用されてよい。
【0069】
上記実施例に基づき、工程S224Aにおける第2の損失を用いることで、工程S230においてドミナント的な偽相関に属する抽出特徴を除去することができる。また、工程S224Bにおける第2の損失を用いることで、工程S230においてリセッシブな偽相関に属する抽出特徴を除去することができる。
【0070】
図7を併せて参照すると、図は、いくつかの実施例における工程S224Aの次の追加工程を示すフローチャートである。
【0071】
図7に示すように、工程S220’Aは、工程S224Bにおける第2の損失の算出と同様に、第3の損失を算出する。つまり、これは、プロセッサ110によって第1の損失が生成した後に、独立損失及び平均処理効果損失が生成することを意味する。工程S220’A及び工程S224Bは同様であるので、その工程については繰り返して説明しない。
【0072】
別の実施例における工程S230の詳細な工程S231B~S233を示すフローチャートである図8を併せて参照されたい。
【0073】
注意すべきなのは、図6図8との相違点は、工程S231Bのみにある。すなわち、工程S231Aを実行して損失差を生成することに加えて、工程S231Bを実行して損失差を生成してもよい。従って、以下、工程S231Bについてのみ説明し、残りの工程については繰り返して説明しない。
【0074】
図8に示すように、工程S220’を実行した後、工程S231Bを実行する。工程S231Bにおいて、プロセッサ110によって、第1の損失、第2の損失及び第3の損失に基づいて損失差を算出する。詳細には、プロセッサ110によって、第1の損失と第2の損失との間の差分演算を実行して第1の差分値を生成し、次に第1の差分値と第3の損失との間で別の差分演算を実行して損失差を生成する(すなわち、第1の損失から第2の損失を減算し、その後に第3の損失を減算する)。従って、工程S233において、第1の損失、第2の損失及び第3の損失に基づく逆伝搬によって、モデルパラメータMPから更新されたモデルパラメータを生成する。これにより、工程S233、S220及びS231Bを継続的に繰り返して、モデルパラメータMPを繰り返しに徐々に更新する。このように、損失差も、同様に、損失差が差分閾値に近づくか又は等しくなるまで、徐々に最小化する(すなわち、第2の損失及び第3の損失が徐々に最大化する)。
【0075】
上記実施例に基づき、工程S224Aにおける第2の損失及びS220’における第3の損失を同時に用いることで、工程S230においてドミナント的な偽相関及びリセッシブな偽相関に属する抽出特徴を除去することができる。
【0076】
図1に示すように、抽出特徴とトレーニングラベルとの間のドミナント偽相関又はリセッシブな偽相関を回避するように、機器学習装置100のトレーニング過程において、第1の損失及び第2の損失に基づいて分類モデル111のモデルパラメータMPを更新し、第2の損失は、独立性損失又は平均処理効果損失であってよい。また、独立性損失と平均処理効果損失を用いてモデルパラメータMPを調整することで、ドミナント偽相関又はリセッシブな偽相関を除去して、分類モデル111の予測精度を大幅に向上させることができる。
【0077】
コンピュータビジョン及びコンピュータ予測の分野では、深層学習の正確度は、主に、大量のラベルのトレーニングデータに依存する。トレーニングデータの質、数、及びタイプの増加に伴い、分類モデルの性能は、一般に相対的に向上する。しかしながら、分類モデルは、抽出特徴とトレーニングラベルとの間に、常に、ドミナント偽相関又はリセッシブな偽相関が存在する。ドミナント偽相関又はリセッシブな偽相関を除去できれば、効率はより高く、より正確になる。上記の本開示の実施例において、独立性損失及び平均処理効果損失に基づいてモデルを調整し、分類モデルにおけるドミナント偽相関又はリセッシブな偽相関を除去することが提案される。従って、独立性損失及び平均処理効果損失に基づいてモデルパラメータを調整することで、モデルの全体的な性能を向上させることができる。
【0078】
適用の点において、本開示の機器学習方法及び機器学習システムは、機器視覚、画像分類、データ予測又はデータ分類を有する各種の分野に用いることができ、例としては、この機器学習方法は、正常状態、肺炎、気管支炎、心臓疾患にかかるX線イメージ、又は正常胎児、胎位不正を識別可能な超音波イメージのような医療イメージの分類に用いることができる。機器学習方法は、将来の株データの上昇又は下降を予測するためにも用いることができる。一方、この機器学習方法は、正常な路面、障害物のある路面、及び他の車両のある路面を識別可能な道路状況画像等の自動運転収集の映像の分類にも用いることができる。また、これに類似する機器学習分野もあり、例としては、本開示の機器学習方法及び機器学習システムは、音声スペクトルの識別、スペクトルの識別、ビッグデータの分析、データ特徴の識別等の他の機器学習関連カテゴリにも用いることができる。
【0079】
本開示の特定の実施例は、かかる上記の実施例をすでに開示したが、これらの実施例は、本開示を制限することを意図していない。様々な代替例および改良例は、本開示の原理及び趣旨から逸脱することなく、関連技術分野における当業者によって本開示において実施され得る。従って、本開示の保護範囲は、添付の特許請求の範囲によって決定される。
【符号の説明】
【0080】
100 機器学習装置
110 プロセッサ
120 メモリ
MP モデルパラメータ
111 分類モデル
SL1、SL2、~SLt ニューラルネットワーク構造層
【数38】
L1 第1の損失
L2、L3 第2の損失
S210~S230、S221~S223、S224A、224B、S231A、S231B、S232~S233、S220’ 工程
図1
図2
図3
図4
図5
図6
図7
図8