IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングの特許一覧

特開2023-168314非線形正規化のためのニューラルネットワーク層
<>
  • 特開-非線形正規化のためのニューラルネットワーク層 図1
  • 特開-非線形正規化のためのニューラルネットワーク層 図2
  • 特開-非線形正規化のためのニューラルネットワーク層 図3
  • 特開-非線形正規化のためのニューラルネットワーク層 図4
  • 特開-非線形正規化のためのニューラルネットワーク層 図5
  • 特開-非線形正規化のためのニューラルネットワーク層 図6
  • 特開-非線形正規化のためのニューラルネットワーク層 図7
  • 特開-非線形正規化のためのニューラルネットワーク層 図8
  • 特開-非線形正規化のためのニューラルネットワーク層 図9
  • 特開-非線形正規化のためのニューラルネットワーク層 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023168314
(43)【公開日】2023-11-24
(54)【発明の名称】非線形正規化のためのニューラルネットワーク層
(51)【国際特許分類】
   G06N 3/04 20230101AFI20231116BHJP
【FI】
G06N3/04
【審査請求】未請求
【請求項の数】13
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023079301
(22)【出願日】2023-05-12
(31)【優先権主張番号】22173331
(32)【優先日】2022-05-13
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ヤン ヘンドリク メッツェン
(57)【要約】      (修正有)
【課題】単一の外れ値による影響を強く受けない、より堅牢なパーセンタイル推定量を内部的に使用する非線形正規化方法を実現する機械学習システム、方法、プログラム及び記憶媒体を提供する。
【解決手段】コンピュータ実装された機械学習システム(60)であって、機械学習システム(60)は、当該機械学習システム(60)の複数の層(L,61)を通して入力信号(x)を転送することにより、入力信号(x)に基づいて出力信号(y)を提供する。複数の層(L,61)のうちの少なくとも1つの層(61)は、入力信号(x)に基づく層入力(l)を受信して層出力(o)を提供し、該層出力(o)に基づいて出力信号(y)が決定され、層(61)は、層入力(l)の非線形正規化を用いて層出力(o)を決定する層(61b)によって構成される。
【選択図】図1
【特許請求の範囲】
【請求項1】
コンピュータ実装された機械学習システム(60)であって、
前記機械学習システム(60)は、当該機械学習システム(60)の複数の層(L,61)を通して入力信号(x)を転送することにより、前記入力信号(x)に基づいて出力信号(y)を提供するように構成され、前記複数の層(L,61)のうちの少なくとも1つの層(61)は、前記入力信号(x)に基づく層入力(l)を受信して層出力(o)を提供するように構成され、該層出力(o)に基づいて前記出力信号(y)が決定され、前記層(61)は、前記層入力(l)の非線形正規化を用いて前記層出力(l)を決定するように構成される層(61)によって特徴付けられる、コンピュータ実装された機械学習システム(60)。
【請求項2】
前記層出力を決定するために、前記層は、前記層入力(l)の値の少なくとも1つのグループを正規化するように構成され、前記グループは、前記層入力(l)のすべての値または前記層入力(l)の値のサブセットを含む、請求項1記載の機械学習システム(60)。
【請求項3】
前記非線形正規化は、前記グループからの値の経験的パーセンタイルを予め定められた確率分布のパーセンタイルにマッピングすることによって特徴付けられる、請求項2記載の機械学習システム(60)。
【請求項4】
前記予め定められた確率分布は、標準正規分布である、請求項3記載の機械学習システム(60)。
【請求項5】
前記層出力(o)を決定するステップは、以下のステップ、
前記層入力(l)の値のグループを受信するステップと、
前記受信した値をソートするステップと、
前記ソートされた値の各位置についてのパーセンタイル値を計算するステップと、
前記予め定められた確率分布の分位数関数を用いて補間ターゲットを計算するステップと、
前記ソートされた値と前記補間ターゲットとの線形補間を特徴付ける関数を決定するステップと、
前記受信した値を関数によって処理することにより、前記層出力(o)を決定するステップとを含む、請求項3または4記載の機械学習システム(60)。
【請求項6】
前記関数を決定するステップの前に、前記層出力(o)を決定するステップは、前記ソートされた値を平滑化演算を用いて平滑化する付加的ステップを含んでいる、請求項5記載の機械学習システム(60)。
【請求項7】
前記層出力(o)を決定するステップは、前記受信した値を関数によって処理した後に得られた値をスケーリングおよび/またはシフトするステップをさらに含む、請求項5または6記載の機械学習システム(60)。
【請求項8】
前記入力信号(x)は、センサ(30)から得られる信号を特徴付ける、請求項1から7までのいずれか1項記載の機械学習システム(60)。
【請求項9】
請求項1から8までのいずれか1項記載の機械学習システム(60)をトレーニングするためのコンピュータ実装された方法。
【請求項10】
入力信号(x)に基づいて出力信号(y)を決定するためのコンピュータ実装された方法であって、前記出力信号(y)は、請求項1から8までのいずれか1項記載の機械学習システム(60)に前記入力信号(y)を提供することによって決定される、コンピュータ実装された方法。
【請求項11】
請求項9記載のトレーニング方法を実行するように構成されている、トレーニングシステム(140)。
【請求項12】
プロセッサ(45,145)によって実行されるときに、コンピュータに、請求項9または10記載の方法を該方法のすべてのステップによって実行させるように構成されている、コンピュータプログラム。
【請求項13】
請求項12記載のコンピュータプログラムが記憶されている、機械可読記憶媒体(46,146)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ実装された機械学習システム、機械学習システムをトレーニングするためのコンピュータ実装された方法、機械学習システムで推論を実行するためのコンピュータ実装された方法、コンピュータプログラム、および機械可読記憶媒体に関する。
【0002】
従来技術
IoffeおよびSzegedyによる文献“Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”,2015,https://arxiv.org/abs/1502.03167は、ニューラルネットワークのトレーニング中にミニバッチを正規化するための方法であるBatch Norm(BN)を開示している。
【0003】
WuおよびHeによる文献“Group Normalization”,2018,https://arxiv.org/abs/1803.08494は、BNに対する簡単な代替手段としてグループ正規化(GN)を開示している。GNは、チャネルをグループに分割し、各グループ内で正規化のための平均と分散とを計算している。
【0004】
Baらによる文献“Layer Normalization”,2016,https://arxiv.org/abs/1607.06450は、BNの転置応用である層正規化(LN)として知られる方法を開示している。
【0005】
Ulyanovらによる文献“Instance Normalization: The Missing Ingredient for Fast Stylization”,2016,https://arxiv.org/abs/1607.08022は、インスタンス正規化(IN)として知られる正規化方法を開示している。
【0006】
背景技術
ディープニューラルネットワークは、様々な技術分野における多くの技術的アプリケーション用のバックボーンとして使用される。特に、自動製造機またはロボットなどの機械の環境または内部状態を自動で分析する場合、ディープニューラルネットワークのための異なる正規化層が提案されている。そのような正規化技術の主要な利点の1つは、信号の前方流と勾配の後方流とが正規化され、勾配消失/勾配爆発の問題が緩和されるため、トレーニングが安定化することである。
【0007】
これは、そのような正規化層の入力から値のサブセットを線形にマッピングし、マッピング後にサブセットの値が、予め定められた平均値(典型的には0)と予め定められた分散(典型的には1)とを有するようにすることで達成される。
【0008】
しかしながら、本発明者らは、既知の正規化方法の線形的な特性が正規化の有効性を制限していることを発見した。本発明者らは、既知の正規化技術が、外れ値による影響を大きく受ける可能性がある中心傾向(平均)およびばらつき(分散/標準偏差)の非ロバスト推定量を使用するため、このようなことが起こることを発見した。
【0009】
それゆえ、本発明は、単一の外れ値による影響を強く受けない、より堅牢なパーセンタイル推定量を内部的に使用する非線形正規化方法を提案する。有利なことに、提案されたアプローチは、正規化層の入力の値の歪んだ、裾の重い分布または正規化層の入力の値の多峰性分布を導入するドメインシフトによってより良好に対処することができる。その結果、提案されたアプローチは、提案された正規化技術を使用する機械学習システムの性能を向上させることができる。
【0010】
発明の開示
第1の態様では、本発明は、コンピュータ実装された機械学習システムに関し、ここで、該機械学習システムは、機械学習システムの複数の層を通して入力信号を転送することにより、入力信号に基づいて出力信号を提供するように構成され、ここで、複数の層のうちの少なくとも1つの層は、入力信号に基づく層入力を受信して層出力を提供するように構成され、該層出力に基づいて出力信号が決定され、ここで、層は、層入力の非線形正規化を用いて層出力を決定するように構成される層によって特徴付けられる。
【0011】
好適には、機械学習システムは、層がニューラルネットワークの正規化層であるニューラルネットワークであってよい。しかしながら、この層は、複数の層、すなわち入力を受け入れ出力を提供するカプセル化されたモジュールを含む任意の機械学習システムにおいて使用することができる。例えば、機械学習システムは、サポートベクターマシン(SVM)のスタックを含むことができ、ここで、各SVMは層と見なされ、上記で言及された層は、スタックされたSVMの間に挿入することができる。
【0012】
機械学習システムへの入力信号は、出力信号を決定するために、機械学習システムの複数の層を通して転送される。これは、入力信号が機械学習システムの第1の層に提供され、ここで、第1の層は、入力信号に依存して層出力を決定するものとして理解されてよい。次いで、層出力は、別の層または複数の層に転送されてよく、ここで、第1の層から決定された層出力は、別の層または複数の層への入力として使用される。このようにして、機械学習システムの各層は、入力信号に基づいて決定される層入力を受信し、層出力を提供すると理解することができる。次いで、機械学習システムの最終層の層出力が、出力信号として提供されてよい。
【0013】
この層は、非線形正規化演算を実行する事実によって特徴付けられている。これは特に、層が任意の形状の層入力(例えば、ベクトル、行列、またはテンソル)を受け入れ、入力の各要素を正規化し、これによって層入力と同じ形状の層出力を決定するものとして理解されてよい。ただし、層出力における要素の値は、層入力における要素の値と比較して正規化される。
【0014】
入力信号は、特に、センサ信号および/または技術システムの内部状態を特徴付けることができる。例えば、機械学習システムは、センサを用いてその環境の要素を知覚するように構成された自律型のシステムまたは少なくとも部分的に自動化されたシステムの一部として使用されてよい。代替的または付加的に、入力信号は、技術システムの内部情報、例えば、温度、電流もしくは電圧、線速度もしくは角速度、および/またはパイプまたはノズルを通過する流体もしくは気体の量を特徴付けることができる。それゆえ、入力信号は、センサデータを特徴付けることができる。すなわち、入力信号は、センサからのセンサ信号であり得るし、あるいは同じタイプのセンサおよび/または異なるタイプのセンサからの複数のセンサ信号を含むことができる。1つまたは複数のセンサは、例えば、カメラ、ライダーセンサ、レーダーセンサ、超音波センサ、サーマルカメラ、マイクロフォン、ピエゾセンサであってよい。
【0015】
機械学習システムは、入力信号に符号化された情報を推論するように構成される。機械学習システムは、例えば、入力信号を分析すること、例えば、入力信号の分類を実行し、かつ/または入力信号に基づいて回帰分析を実行することができる。代替的または付加的に、機械学習システムは、トレーニング入力信号のデータセットに関して、供給された入力信号の尤度を決定するように構成されてもよい(例えば、機械学習システムは、正規化フローであってもよい)。また機械学習システムは、データを生成するように構成されてもよい。例えば、出力信号は、入力信号として使用される別の画像に基づいて生成される画像を特徴付けることができる。また出力信号は、音声信号、例えば、入力信号として提供される画像のシーンの音声的な説明を特徴付ける音声信号を特徴付けることもできる。
【0016】
有利には、層は、非線形正規化を実行することができる。すなわち、層出力の要素の値は、層入力の要素に基づく非線形関数を用いて得られる。これは、層入力の要素の値が、典型的には、多峰性分布および/または歪んだ分布および/または裾の重い分布に従うため有利である。本発明者らは、特に破損した入力信号に対して、提案された方法が、特にCIFAR-10Cなどの標準ベンチマークにおいて一般的な破損として知られる破損に対し、性能の一層の向上を達成させることが可能になることを発見した。
【0017】
好適には、層出力を決定するために、層は、層入力の値の少なくとも1つのグループを正規化するように構成され、ここで、グループは、層入力のすべての値または層入力の値のサブセットを含む。
【0018】
層入力は、特に、グループ正規化で行われるように、グループに分割されてよい。特に、層入力は、少なくともバッチ軸、チャネル軸、および空間軸を含むテンソルであってよい。テンソルは、次いで、グループに分割されてよく、ここで、各グループは、バッチ軸に沿った1つの要素、チャネル軸に沿った複数の要素、および空間軸のすべての要素を含む。好適には、各グループは、同じ量の要素を含む。
【0019】
しかしながら、非線形正規化は、グループの実際のサイズや量に対して不可知論的である。すなわち、層の入力は、全体として正規化されてよい。これは、単一のグループのみを使用するものと考察することができる。しかしながら、好適には、層入力は、複数のグループに分割され、ここで、各グループは、それぞれのグループの要素の値に基づいて個別に正規化される。層入力が分割されるグループの実際の量は、機械学習システムのハイパーパラメータと考察することができる。簡素化の理由から、層入力のすべての要素を正規化に使用することは、処理されるグループが1つしかないにもかかわらず、要素のグループに対して正規化を実行するものと見なされる。
【0020】
発明者らは、層入力を複数のグループに分割することが、単一のグループのみを使用する場合と比較して、機械学習システムの性能の一層の向上につながることを発見した。
【0021】
好適な実施形態では、非線形正規化は、グループからの値の経験的パーセンタイルを予め定められた確率分布のパーセンタイルにマッピングすることによって特徴付けられる。
【0022】
これは、あるグループの値が、いくつかの確率分布から引き出されたランダムな値であると考察されるものとして理解されてよい。目標は、正規化された値(すなわち、層出力に提供される値)の密度が、予め定められた確率分布の密度に可及的に近似するように、値を正規化された値にマッピングすることである。このようにして、グループの値が何らかの多峰性分布、歪んだ分布、および/または裾の重い分布に従う場合であっても、マッピングは、値を予め定められた確率分布の密度に正規化させることがまだ可能である。
【0023】
また予め定められた確率分布(例えば、正規分布、標準t分布、ラプラシアン分布)のタイプも、本方法のハイパーパラメータと見なすことができる。
【0024】
好適な実施形態では、予め定められた確率分布は、標準正規分布である。有利なことに、本発明者らは、この分布が、破損に対する性能をより一層向上させることを発見した。
【0025】
機械学習システムは、好適には、マッピングを行うために、以下のステップ、
層入力の値のグループを受信するステップと、
受信した値をソートするステップと、
ソートされた値の各位置についてのパーセンタイル値を計算するステップと、
予め定められた確率分布の分位数関数を用いて補間ターゲットを計算するステップと、
ソートされた値と補間ターゲットとの線形補間を特徴付ける関数を決定するステップと、
受信した値を関数によって処理することにより、層出力を決定するステップとを実行するように構成されてよい。
【0026】
値のグループを受信することは、正規化される値のグループを受信することと単に理解されてよい。受信した値(すなわち、グループ内の値)は、次いで、昇順にソートされてよく、ここで、ソートされた値における各位置について、パーセンタイル値が決定されてよい。複数のソートされた値のインデックスiにおけるパーセンタイル値Pは、好適には、以下の関数
【数1】
に従って決定されてよい。ここで、Nは受信した値の量(すなわち、グループ内の値の量)である。
【0027】
次のステップでは、補間ターゲットを決定するために、決定されたパーセンタイル値を、予め定められた確率分布のパーセントポイント関数または分位関数に入力してよい。例えば、予め定められた確率分布が標準正規分布である場合、プロビット関数が分位関数として使用される。
【0028】
次いで、ソートされた値および決定された補間ターゲットは、関数を決定するために使用されてよい。ソートされた値におけるその位置での値と、その位置のパーセンタイル値に基づいて決定された補間ターゲットとがマッピングタプルとして理解されてよく、すなわち、関数によって実行されるマッピングには、値を入力したときの結果として補間ターゲットが与えられるべきである。そのようなタプルのセットは離散的にしか存在しないので、好適には、一次元区分線形補間式がタプルに基づいて決定され、関数として提供されてよい。その場合、受信した値は、その後、層出力に提供することができる正規化された値を決定するために、補間式によって処理されてよい。
【0029】
このステップは、好適には、層入力が分割される各グループについて行われてよい。
【0030】
さらに好適な実施形態では、層出力を決定するステップは、ソートされた値を平滑化演算を用いて平滑化する付加的ステップを含んでいる。その場合、平滑化された値は、線形補間を決定するためのタプルで使用されてよい。
【0031】
この平滑化演算は、例えば、ソートされた値にわたってスライドする平滑化フィルタによって特徴付けられてよい。例えば、平滑化演算は、ガウシアンフィルタであってもよい。
【0032】
本発明者らは、ソートされた値を平滑化することは、値の経験的分布のパーセンタイルを決定するときのノイズの低減につながることを発見した。これは、機械学習システムの性能をより一層向上させることにつながる。
【0033】
好適な実施形態では、層出力を決定するステップは、受信した値を関数によって処理した後に得られた値をスケーリングおよび/またはシフトするステップをさらに含む。
【0034】
値をスケーリングおよび/またはシフトすることにより、機械学習システムは、層出力の期待値および値の分散が、層出力を層入力として使用する層にとって適切な範囲になるように、層出力を適合化させることが可能になる。シフトにおいて使用されるスケーリング係数および/またはバイアスは、特に、機械学習システムのトレーニング可能なパラメータであってよい。
【0035】
別の態様では、本発明は、上記に提示された実施形態のいずれか1つによる機械学習システムをトレーニングするためのコンピュータ実装された方法に関する。
【0036】
層入力に基づいて層出力を決定するための演算は微分可能であるため、誤差逆伝播法によって決定される勾配に基づく勾配降下法などの標準的な方法が、機械学習システムをトレーニングするために使用することができる。いずれのケースでも、進化的アルゴリズムなどの勾配自由最適化法が使用されてよい。
【0037】
別の態様では、本発明は、入力信号に基づいて出力信号を決定するためのコンピュータ実装された方法に関し、ここで、出力信号は、上記に提示された実施形態のいずれか1つによる機械学習システムに入力信号を提供することによって決定される。
【0038】
本方法における入力信号および出力信号も、機械学習システムについて先に説明したような形態とすることができる。
【0039】
本発明の実施形態は、以下の図面を参照しながらより詳細に説明される。
【図面の簡単な説明】
【0040】
図1】機械学習システムを示した図である。
図2】その環境内のアクチュエータを制御する機械学習システムを含んだ制御システムを示した図である。
図3】少なくとも部分的に自律的なロボットを制御する制御システムを示した図である。
図4】製造機械を制御する制御システムを示した図である。
図5】自動化されたパーソナルアシスタントを制御する制御システムを示した図である。
図6】アクセス制御システムを制御する制御システムを示した図である。
図7】監視システムを制御する制御システムを示した図である。
図8】撮像システムを制御する制御システムを示した図である。
図9】医療用分析システムを制御する制御システムを示した図である。
図10】分類器をトレーニングするためのトレーニングシステムを示した図である。
【0041】
実施形態の説明
図1は、機械学習システム60の一実施形態を示している。この実施形態において、機械学習システム60は、フィードフォワード型ニューラルネットワーク、例えば、多層パーセプトロン、畳み込みニューラルネットワーク、トランスフォーマ、ビジュアルトランスフォーマ、またはビジョントランスフォーマであってよい。機械学習システム60は、機械学習システム60の複数の層L,61によって処理される、入力信号xを提供される。
【0042】
機械学習システム60の複数の層L,61のうちの少なくとも1つの層61は、層61の層入力lに基づいて、層61の層出力oとして非線形正規化を決定するように構成されている。層61は、好適には、層入力lを受信し、該層入力lを予め定められた量のグループに分割する分割ユニット(61a)を含むことができ、ここで、グループの量は、機械学習システム60のハイパーパラメータである。代替的に、層入力lは、単一のグループの意味で全体として使用されてもよい。
【0043】
次いで、それに続くパーセンタイルユニット61bが、グループの各値について経験的パーセンタイル値を決定する。このパーセンタイルユニット61bは、最初にグループの値を昇順にソートすることによってこれを達成する。その場合、好適には、パーセンタイルユニット61bは、平滑化演算、好適にはガウシアンフィルタを用いて、ソートされた値を平滑化する。その場合、平滑化されたか否かにかかわらず、パーセンタイルユニット61bは、ソートされた値のリストの各位置、すなわち、インデックスについてパーセンタイル値を決定する。ソートされた値のリストのインデックスiにおけるパーセンタイル値Pは、好適には、以下の関数
【数2】
に従って決定されてよい。ここで、Nは、グループ内の値の量である。付加的に、パーセンタイルユニット61bは、各Pを、予め定められた確率分布の分位関数に提供することにより、補間ターゲットYを決定する。好適には、予め定められた確率分布は、標準正規分布であり、分位関数はプロビット関数である。それゆえ、N個のパーセンタイル値PとN個の補間ターゲットYとが存在し、ここで、パーセンタイル値あたり1個の補間ターゲットが存在している。
【0044】
次いで、グループの値、決定されたパーセンタイル値、および補間ターゲットは、補間ユニット61cへ転送される。次いで、補間ユニット61cは、以下の式
【数3】
に従って、N個のインデックスsを決定し、最初のインデックスs=1および最後のインデックスs=Nをセットする。付加的に、補間ユニット61cは、N個のさらなるインデックスtのリストを決定し、ここでは、t=iとする。それにより、インデックスsおよびtの2つのリストが存在し、ここで、これらの要素sおよびtは、対応するものと見なされる。次いで、補間ユニットは、sからすべての重複するインデックスを取り除き、sから取り除かれたインデックスに対応する値をtからも取り除く。除去後、リストsおよびtは、新たなサイズKとなる。
【0045】
次いで、リストsおよびkに基づき、以下のタプルのセット
【数4】
が形成され、ここで、Xは位置iにおいてソートされた値である。次いで、タプルに基づき、一次元線形補間式が決定される。その場合、グループの値は、層入力lに対して1つのグループのみが使用された場合には層出力oを決定するために、あるいは層入力lが複数のグループに分割された場合には層出力oの一部を決定するために、補間式によって処理される。層入力lが複数のグループに分割された場合、記述された手順は、好適には、各グループを正規化するために各グループについて行われる。次いで、決定された結果が組み合わされ、層出力oとして提供される。この組み合わせは、好適には、層出力oが層入力lと同じ形状であるように行われる。
【0046】
好適には、機械学習システム60は、複数の正規化層61を含んでいる。1つまたは複数の正規化層61は、機械学習システム60内の任意の位置に配置されてよく、例えば、正規化層61は、機械学習システム60の入力層、機械学習システム60の出力層、または機械学習システム60の隠れ層であってよい。
【0047】
図2は、その環境20におけるアクチュエータ10の実施形態を示している。このアクチュエータ10は、機械学習システム60を含む制御システム40と対話する。アクチュエータ10およびその環境20は、共同でアクチュエータシステムと称される。好適には等間隔の時点で、センサ30は、アクチュエータシステムの状態を感知する。センサ30は、複数のセンサを含み得る。好適には、センサ30は、環境20の画像を撮像する光学センサである。感知された状態を符号化するセンサ30の出力信号S(あるいは当該センサ30が複数のセンサを含む場合には、これらのセンサの各々についての出力信号S)は、制御システム40に伝送される。
【0048】
これにより、制御システム40は、センサ信号Sのストリームを受信する。次いで、制御システム40は、センサ信号Sのストリームに依存して一連の制御信号Aを計算し、次いでそれらがアクチュエータ10に伝送される。
【0049】
制御システム40は、センサ30のセンサ信号Sのストリームを、任意選択的な受信ユニット50で受信する。この受信ユニット50は、センサ信号Sを入力信号xに変換する。代替的に、受信ユニット50が存在しない場合には、各センサ信号Sは、入力信号xとして直接受け取られてもよい。入力信号xは、例えば、センサ信号Sからの抜粋として与えられてもよい。代替的に、センサ信号Sは、入力信号xをもたらすために処理されてもよい。換言すれば、入力信号xは、センサ信号Sに従って提供される。
【0050】
その場合、入力信号xは、機械学習システム60に渡される。
【0051】
機械学習システム60は、パラメータΦによってパラメータ化され、これらのパラメータΦは、パラメータストレージStに格納され、それによって提供される。
【0052】
機械学習システム60は、入力信号xから出力信号yを決定する。出力信号yは、入力信号xに対して1つまたは複数のラベルを割り当てる情報を含んでいる。出力信号yは、任意選択的な変換ユニット80に伝送され、この変換ユニット80は、出力信号yを制御信号Aに変換する。次いで、これらの制御信号Aは、アクチュエータ10を適宜制御するために当該アクチュエータ10に伝送される。代替的に、出力信号yは、制御信号Aとして直接受け取られてもよい。
【0053】
アクチュエータ10は、制御信号Aを受信して適宜制御され、当該制御信号Aに対応する動作を実行する。アクチュエータ10は、制御信号Aをさらなる制御信号に変換し、この制御信号をアクチュエータ10の制御のために使用する論理制御部を含むことができる。
【0054】
さらなる実施形態では、制御システム40は、センサ30を含むことができる。またさらなる実施形態では、制御システム40は、代替的または付加的に、アクチュエータ10を含むことができる。
【0055】
またさらなる実施形態では、制御システム40が、アクチュエータ10の代わりに、またはそれに加えて、ディスプレイ10aを制御することが想定され得る。
【0056】
その上さらに、制御システム40は、少なくとも1つのプロセッサ45と、実行されるときに制御システム40に本発明の態様による方法を実行させる命令が格納された少なくとも1つの機械可読記憶媒体46とを含むことができる。
【0057】
図3は、制御システム40が、少なくとも部分的に自律的なロボット、例えば、少なくとも部分的に自律的な車両100を制御するために使用される実施形態を示している。
【0058】
センサ30は、1つまたは複数のビデオセンサおよび/または1つまたは複数のレーダーセンサおよび/または1つまたは複数の超音波センサおよび/または1つまたは複数のLiDARセンサを含むことができる。これらのセンサの一部または全部は、好適には車両100に統合されているが、必ずしもそうでなくてもよい。それゆえ、入力信号xは入力画像として理解されてよく、機械学習システム60は画像分類器として理解されてもよい。
【0059】
画像分類器60は、入力画像xに基づいて、少なくとも部分的に自律的なロボットの近傍にある対象を検出するように構成されてよい。出力信号yは、少なくとも部分的に自律的なロボットの近傍のどこに対象が位置しているかを特徴付ける情報を含むことができる。次いで、制御信号Aは、例えば、検出された対象との衝突を回避するために、この情報に従って決定されてよい。
【0060】
好適には車両100に統合されているアクチュエータ10は、車両100のブレーキ、推進システム、エンジン、ドライブトレイン、またはステアリングによって与えられてよい。制御信号Aは、検出された対象との衝突が車両100によって回避されるようにアクチュエータ10を制御するように決定されてよい。検出された対象は、画像分類器60が最も可能性が高いと見なすもの、例えば歩行者または樹木に従って分類されてもよく、この分類に依存して制御信号Aが決定されてもよい。
【0061】
代替的または付加的に、制御信号Aは、例えば、画像分類器60によって検出された対象を表示すべくディスプレイ10aを制御するために使用されてもよい。また、制御信号Aは、検出された対象の少なくとも1つに車両100が衝突しそうになった場合に警告信号を生成するようにディスプレイ10aを制御し得ることも想像できる。警告信号は、警告音および/または触覚信号、例えば、車両のステアリングホイールの振動であってよい。
【0062】
さらなる実施形態では、少なくとも部分的に自律的なロボットは、別の移動ロボット(図示せず)によって与えられてもよく、この移動ロボットは、例えば、飛行、水泳、ダイビング、またはステッピングによって移動し得る。移動ロボットは、とりわけ、少なくとも部分的に自律的な芝刈り機または少なくとも部分的に自律的な掃除ロボットであってもよい。上記のすべての実施形態において、制御信号Aは、移動ロボットが識別した対象との衝突を回避できるように、当該移動ロボットの推進ユニットおよび/またはステアリングおよび/またはブレーキを制御するように決定されてよい。
【0063】
さらなる実施形態では、少なくとも部分的に自律的なロボットは、環境20内の植物の状態を決定するためにセンサ30、好適には光学センサを使用する園芸ロボット(図示せず)によって与えられてよい。アクチュエータ10は、液体を噴霧するためのノズルおよび/または例えばブレードなどの切断デバイスを制御することができる。識別された植物の種および/または識別された植物の状態に応じて、制御信号Aは、アクチュエータ10に、適切な量の適切な液体を植物に噴霧させ、かつ/または植物を切断させるように決定されてよい。
【0064】
さらにさらなる実施形態では、少なくとも部分的に自律的なロボットは、例えば洗濯機、コンロ、オーブン、電子レンジ、または食洗機のような家庭用電化製品(図示せず)によって与えられてよい。センサ30、例えば光学センサは、家事用電化製品による処理を受けることになる対象の状態を検出することができる。例えば、家庭用電化製品が洗濯機である場合、センサ30は、洗濯機内の洗濯物の状態を検出することができる。その場合、制御信号Aは、検出された洗濯物の材質に応じて決定されてよい。
【0065】
図4は、制御システム40が、製造システム200の製造機械11、例えばパンチカッター、カッター、ガンドリル、またはグリッパを、例えば製造ラインの一部として制御するために使用される実施形態を示している。製造機械は、製造製品12を移動させる搬送デバイス、例えば、コンベアベルトまたは組立ラインを含むことができる。制御システム40は、アクチュエータ10を制御し、このアクチュエータは、順次製造機械11を制御する。
【0066】
センサ30は、例えば製造製品12の特性を捕捉する光学センサによって与えられてよい。機械学習システム60は、それゆえ、画像分類器として理解されてよい。
【0067】
画像分類器60は、搬送デバイスに対する製造製品12の位置を決定することができる。その場合、アクチュエータ10は、製造製品12の後続の製造ステップのために、製造製品12の決定された位置に応じて制御されてよい。例えば、アクチュエータ10は、製造製品自体の特定の位置において製造製品を切断するように制御されてよい。代替的に、画像分類器60が、製造製品が壊れているか、または欠陥を呈しているかを分類することが想定されてもよい。その場合、アクチュエータ10は、製造製品を搬送デバイスから取り除くように制御されてよい。
【0068】
図5は、制御システム40が自動化されたパーソナルアシスタント250を制御するために使用される実施形態を示している。センサ30は、例えば、ユーザー249のジェスチャーのビデオ画像を受信するための、光学センサであってよい。代替的に、センサ30はまた、例えば、ユーザー249の音声コマンドを受信するための音声センサであってもよい。
【0069】
その場合、制御システム40は、自動化されたパーソナルアシスタント(250)を制御するための制御信号Aを決定する。制御信号Aは、センサ30のセンサ信号Sに従って決定される。センサ信号Sは、制御システム40に伝送される。例えば、機械学習システム60は、例えば、ユーザー249によって行われたジェスチャーを識別するためのジェスチャー認識アルゴリズムを実行するように構成されてよい。その場合、制御システム40は、自動化されたパーソナルアシスタント250に伝送するための制御信号Aを決定することができる。その場合、制御信号Aが自動化されたパーソナルアシスタント250に伝送される。
【0070】
例えば、制御信号Aは、機械学習システム60によって認識され識別されたユーザージェスチャに従って決定されてよい。それには、自動化されたパーソナルアシスタント250にデータベースから情報を取得させ、この取得された情報をユーザー249による受信に適した形態で出力させる情報を含ませることができる。
【0071】
さらなる実施形態では、自動化されたパーソナルアシスタント250の代わりに、制御システム40が、識別されたユーザージェスチャに従って制御される家庭用電化製品(図示せず)を制御することが想定されてよい。家庭用電化製品は、洗濯機、コンロ、オーブン、電子レンジ、または食洗機であってよい。
【0072】
図6は、制御システム40が、アクセス制御システム300を制御する実施形態を示している。このアクセス制御システム300は、アクセスを物理的に制御するように設計されてよい。それには、例えば、ドア401を含ませることができる。センサ30は、アクセスが許可されるべきか否かを決定するのに関連するシーンを検出するように構成することができる。それは、例えば人物の顔を検出するための例えば画像データまたはビデオデータを提供するための光学センサであってよい。それゆえ、機械学習システム60は、画像分類器として理解されてよい。
【0073】
画像分類器60は、例えば、検出された人物の顔を、データベースに格納されている他の既知の人物の顔と照合し、それによって人物の身元を決定することにより、当該人物の身元を分類するように構成されてよい。その場合、制御信号Aは、画像分類器60の分類に依存して、例えば、決定された身元に従って決定されてよい。アクチュエータ10は、制御信号Aに依存してドアを開閉するロックであってよい。代替的に、アクセス制御システム300は、非物理的で論理的なアクセス制御システムであってもよい。この場合、制御信号は、人物の身元に関する情報、および/または人物にアクセスを与えるかどうかに関する情報を示すようにディスプレイ10aを制御するために使用されてよい。
【0074】
図7は、制御システム40が監視システム400を制御する実施形態を示している。この実施形態は、図6に示された実施形態とほとんど同じである。したがって、異なる観点についてのみ詳細に説明する。センサ30は、監視下にあるシーンを検出するように構成されている。制御システム40は、必ずしもアクチュエータ10を制御する必要はなく、代替的にディスプレイ10aを制御できる。例えば、画像分類器60は、シーンの分類、例えば、光学センサ30によって検出されたシーンが正常であるか、またはシーンが異常を呈しているかどうかを決定することができる。その場合、ディスプレイ10aに伝送される制御信号Aは、例えば、ディスプレイ10aに、決定された分類に依存して表示コンテンツを調整させる、例えば、画像分類器60によって異常と見なされた対象を強調するように構成されてよい。
【0075】
図8は、制御システム40によって制御される医療用撮像システム500の一実施形態を示す。この撮像システムは、例えば、MRI装置、X線撮像装置、または超音波撮像装置であってよい。センサ30は、例えば、患者の少なくとも1つの画像を撮影し、例えば、患者の異なるタイプの身体組織を表示する画像センサであってよい。
【0076】
その場合、機械学習システム60は、感知された画像の少なくとも一部の分類を決定することができる。それゆえ、画像の少なくとも一部は、機械学習システム60に対する入力画像xとして使用される。それゆえ、機械学習システム60は、画像分類器として理解されてよい。
【0077】
その場合、制御信号Aは、分類に従って選択され、それによってディスプレイ10aが制御されるものであってよい。例えば、画像分類器60は、例えば画像に表示された組織を悪性組織または良性組織のいずれかに分類することにより、感知された画像内の異なるタイプの組織を検出するように構成されてよい。これは、画像分類器60による入力画像xのセマンティックセグメンテーションを用いて行われてよい。その場合、制御信号Aは、例えば、入力画像xを表示し、組織タイプが同一で領域が異なるものを同じ色で着色することによって、異なる組織がディスプレイ10aに表示されるように決定されてよい。
【0078】
さらなる実施形態(図示せず)では、撮像システム500は、非医療目的、例えばワークピースの材料特性を決定するために使用されてよい。これらの実施形態では、画像分類器60は、ワークピースの少なくとも一部の入力画像xを受信し、該入力画像xのセマンティックセグメンテーションを実行し、それによってワークピースの材料特性を分類するように構成されてよい。その場合、制御信号Aは、入力画像xだけでなく、検出された材料特性に関する情報もディスプレイ10aに表示されるように決定されてよい。
【0079】
図9は、制御システム40によって制御される医療用分析システム600の一実施形態を示している。この医療用分析システム600には、マイクロアレイ601が供給され、ここで、このマイクロアレイは、医療用検体に曝露された複数のスポット(602、特徴としても既知)からなる。例えば、医療用検体は、例えばスワブから得られるヒトの検体または動物の検体であってよい。
【0080】
マイクロアレイ601は、DNAマイクロアレイまたはタンパク質マイクロアレイであってよい。
【0081】
センサ30は、マイクロアレイ601を感知するように構成されている。センサ30は、好適には、ビデオセンサなどの光学センサである。それゆえ、機械学習システム60は、画像分類器として理解されてよい。
【0082】
画像分類器60は、センサ30から供給されるマイクロアレイの入力画像xに基づいて、検体の結果を分類するように構成されている。特に、画像分類器60は、マイクロアレイ601が検体中のウイルスの存在を示しているか否かを決定するように構成されてよい。
【0083】
その場合、制御信号Aは、ディスプレイ10aが分類の結果を示すように選択されてよい。
【0084】
図10は、トレーニングデータセットTを用いて制御システム40の機械学習システム60をトレーニングするためのトレーニングシステム140の一実施形態を示している。トレーニングデータセットTは、機械学習システム60をトレーニングするために使用される複数の入力信号xを含み、ここではさらに、トレーニングデータセットTが、各入力信号xについて、入力信号xに対応しかつ入力信号xの分類を特徴付ける所期の出力信号tを含んでいる。
【0085】
トレーニングのために、トレーニングデータユニット150は、コンピュータに実装されたデータベースStにアクセスし、データベースStは、トレーニングデータセットTを提供する。トレーニングデータユニット150は、トレーニングデータセットTから、好適にはランダムに少なくとも1つの入力信号xと、入力信号xに対応する所期の出力信号tとを決定し、入力信号xを機械学習システム60に伝送する。機械学習システム60は、入力信号xに基づいて出力信号yを決定する。
【0086】
所期の出力信号tおよび決定された出力信号yは、修正ユニット180に伝送される。
【0087】
その場合、所期の出力信号tおよび決定された出力信号yに基づいて、修正ユニット180は、機械学習システム60のための新たなパラメータΦ’を決定する。この目的のために、修正ユニット180は、損失関数を使用して、所期の出力信号tと決定された出力信号yとを比較する。この損失関数は、決定された出力信号yが、所期の出力信号tからどの程度逸脱しているかを特徴付ける第1の損失値を決定する。所定の実施形態では、負の対数尤度関数が損失関数として使用される。代替的な実施形態では、他の損失関数も考えられる。
【0088】
その上さらに、決定された出力信号yおよび所期の出力信号tの各々が、例えばテンソルの形態の複数のサブ信号を含み、ここで、所期の出力信号tのサブ信号が、決定された出力信号yのサブ信号に対応することが考えられる。例えば、機械学習システム60が対象検出のために構成され、第1のサブ信号が入力信号xの一部に関する対象の発生確率を特徴付け、第2のサブ信号は対象の正確な位置を特徴付けることも考えられる。決定された出力信号yおよび所期の出力信号tが複数の対応するサブ信号を含む場合、第2の損失値は、好適には、適切な損失関数を用いて対応する各サブ信号について決定され、決定された第2の損失値は、好適には、例えば加重和を用いて第1の損失値を形成するように結合される。
【0089】
修正ユニット180は、第1の損失値に基づいて新たなパラメータΦ’を決定する。所定の実施形態では、これは、勾配降下法、好適には確率的勾配降下法、Adam、またはAdamWを用いて行われる。さらなる実施形態では、トレーニングは、進化的アルゴリズムまたはニューラルネットワークをトレーニングするための二次的方法に基づいてもよい。
【0090】
他の好適な実施形態では、説明したトレーニングは、予め定められた数の反復ステップの間、反復的に繰り返され、あるいは第1の損失値が予め定められた閾値を下回るまで反復的に繰り返される。代替的または付加的に、テストまたは検証データセットに関する平均的な第1の損失値が、予め定められた閾値を下回る場合にトレーニングが終了されることも考えられる。反復の少なくとも1つでは、先の反復において決定された新たなパラメータΦ’が、機械学習システム60のパラメータΦとして使用される。
【0091】
その上さらに、トレーニングシステム140は、少なくとも1つのプロセッサ145と、該プロセッサ145によって実行されるときに、トレーニングシステム140に本発明の態様の1つによるトレーニング方法を実行させる命令を含んだ少なくとも1つの機械可読記憶媒体146とを含むことができる。
【0092】
「コンピュータ」という用語は、予め定められた計算規則を処理するための任意のデバイスを網羅するものとして理解されてよい。これらの計算規則は、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアとの混合物の形態であり得る。
【0093】
一般に、複数性は、インデックス化されること、すなわち、複数性の各要素には、好適には、複数性に含まれる要素への連続する整数の割り当てによる、固有のインデックスが割り当てられることが理解できる。好適には、複数性がN個の要素を含み、ここで、Nが複数性における要素の数であるならば、これらの要素には、1~Nまでの整数が割り当てられる。また、複数の要素には、それらのインデックスによってアクセス可能になると理解されてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2023-07-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータ実装された機械学習システム(60)であって、
前記機械学習システム(60)は、当該機械学習システム(60)の複数の層(L,61)を通して入力信号(x)を転送することにより、前記入力信号(x)に基づいて出力信号(y)を提供するように構成され、前記複数の層(L,61)のうちの少なくとも1つの層(61)は、前記入力信号(x)に基づく層入力(l)を受信して層出力(o)を提供するように構成され、該層出力(o)に基づいて前記出力信号(y)が決定され、前記層(61)は、前記層入力(l)の非線形正規化を用いて前記層出力()を決定するように構成される層(61)によって特徴付けられる、コンピュータ実装された機械学習システム(60)。
【請求項2】
前記層出力を決定するために、前記層は、前記層入力(l)の値の少なくとも1つのグループを正規化するように構成され、前記グループは、前記層入力(l)のすべての値または前記層入力(l)の値のサブセットを含む、請求項1記載の機械学習システム(60)。
【請求項3】
前記非線形正規化は、前記グループからの値の経験的パーセンタイルを予め定められた確率分布のパーセンタイルにマッピングすることによって特徴付けられる、請求項2記載の機械学習システム(60)。
【請求項4】
前記予め定められた確率分布は、標準正規分布である、請求項3記載の機械学習システム(60)。
【請求項5】
前記層出力(o)を決定するステップは、以下のステップ、
前記層入力(l)の値のグループを受信するステップと、
前記受信した値をソートするステップと、
前記ソートされた値の各位置についてのパーセンタイル値を計算するステップと、
前記予め定められた確率分布の分位数関数を用いて補間ターゲットを計算するステップと、
前記ソートされた値と前記補間ターゲットとの線形補間を特徴付ける関数を決定するステップと、
前記受信した値を関数によって処理することにより、前記層出力(o)を決定するステップとを含む、請求項記載の機械学習システム(60)。
【請求項6】
前記関数を決定するステップの前に、前記層出力(o)を決定するステップは、前記ソートされた値を平滑化演算を用いて平滑化する付加的ステップを含んでいる、請求項5記載の機械学習システム(60)。
【請求項7】
前記層出力(o)を決定するステップは、前記受信した値を関数によって処理した後に得られた値をスケーリングおよび/またはシフトするステップをさらに含む、請求項記載の機械学習システム(60)。
【請求項8】
前記入力信号(x)は、センサ(30)から得られる信号を特徴付ける、請求項記載の機械学習システム(60)。
【請求項9】
請求項1から8までのいずれか1項記載の機械学習システム(60)をトレーニングするためのコンピュータ実装された方法。
【請求項10】
入力信号(x)に基づいて出力信号(y)を決定するためのコンピュータ実装された方法であって、前記出力信号(y)は、請求項1から8までのいずれか1項記載の機械学習システム(60)に前記入力信号()を提供することによって決定される、コンピュータ実装された方法。
【請求項11】
請求項9記載のトレーニング方法を実行するように構成されている、トレーニングシステム(140)。
【請求項12】
プロセッサ(45,145)によって実行されるときに、コンピュータに、請求項記載の方法を該方法のすべてのステップによって実行させるように構成されている、コンピュータプログラム。
【請求項13】
請求項12記載のコンピュータプログラムが記憶されている、コンピュータ可読記憶媒体(46,146)。
【外国語明細書】