(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024161006
(43)【公開日】2024-11-15
(54)【発明の名称】情報保存型ニューラルネットワークアーキテクチャ
(51)【国際特許分類】
G06N 3/04 20230101AFI20241108BHJP
【FI】
G06N3/04
【審査請求】未請求
【請求項の数】16
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024074813
(22)【出願日】2024-05-02
(31)【優先権主張番号】10 2023 204 154.5
(32)【優先日】2023-05-04
(33)【優先権主張国・地域又は機関】DE
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】フランク シュミット
(72)【発明者】
【氏名】チャバ ドモコス
(72)【発明者】
【氏名】キリアン ランバッハ
(57)【要約】
【課題】測定データ(1b)を処理するためのニューラルネットワークアーキテクチャ(1)に関する。
【解決手段】当該ニューラルネットワークアーキテクチャ(1)は、それぞれ複数のニューロン(2a,3a,4a)を有する複数の層(2,3,4)を含み、各ニューロンは、複素数値の入力(2b,3b,4b)を活性化(6)のために正則オフセット関数(5)を用いて処理し、非線形活性化関数(7)を活性化(6)に適用することにより自身の出力(8)を求めるように構成されており、活性化関数も同様に正則である。
【選択図】
図1
【特許請求の範囲】
【請求項1】
測定データ(1b)を処理するためのニューラルネットワークアーキテクチャ(1)であって、前記ニューラルネットワークアーキテクチャ(1)は、それぞれ複数のニューロン(2a,3a,4a)を有する複数の層(2,3,4)を含み、各ニューロンは、複素数値の入力(2b,3b,4b)を活性化(6)のために正則オフセット関数(5)を用いて処理し、非線形活性化関数(7)を前記活性化(6)に適用することにより自身の出力(8)を求めるように構成されており、前記活性化関数も同様に正則である、ニューラルネットワークアーキテクチャ(1)。
【請求項2】
前記活性化関数(7)及び/又は当該活性化関数(7)の微分は、2つの複素数z1及びz2に適用された後、当該2つの複素数z1及びz2の間の中間角度が複素平面で維持され続ける共形写像である、請求項1に記載のニューラルネットワークアーキテクチャ(1)。
【請求項3】
前記活性化関数(7)は、自由係数a,b,c,dを用いた以下の形式
f(z)=(a・z+b)/(c・z+d)
のメビウス変換を含む、請求項1又は2に記載のニューラルネットワークアーキテクチャ(1)。
【請求項4】
前記メビウス変換の前記係数a,b,c,dは、実数値である、請求項3に記載のニューラルネットワークアーキテクチャ(1)。
【請求項5】
前記メビウス変換の前記係数の行列
【数1】
は、予め設定された値から最大で予め設定された絶対値分だけ偏差する行列式det(A)を有する、請求項3又は4に記載のニューラルネットワークアーキテクチャ(1)。
【請求項6】
前記ニューラルネットワークアーキテクチャ(1)は、少なくとも部分的に特徴抽出器(9a)として構成され、前記特徴抽出器(9a)の異なる層(2,3,4)におけるニューロン(2a,3a,4a)の出力は、前記測定データ(1b)における異なるスケール及び/又は複雑性の特徴の表現度を示す、請求項1乃至5のいずれか一項に記載のニューラルネットワークアーキテクチャ(1)。
【請求項7】
前記ニューラルネットワークアーキテクチャ(1)は、前記測定データ(1b)に関して、前記特徴抽出器(9a)の1つ又は複数の出力から、予め設定されたタスクの解を求めるように構成されたタスクヘッド(9b)をさらに含む、請求項6に記載のニューラルネットワークアーキテクチャ(1)。
【請求項8】
前記タスクヘッド(9b)は、前記測定データ(1b)について予め設定された分類の1つ又は複数のクラスに関して分類スコアを求めるように構成されている、請求項7に記載のニューラルネットワークアーキテクチャ(1)。
【請求項9】
少なくとも1つの電磁場の空間的及び/又は時間的分布を示す測定データ(1b)を処理するための、請求項1乃至8のいずれか一項に記載のニューラルネットワークアーキテクチャ(1)の使用。
【請求項10】
前記電磁場は、少なくとも部分的に、1つ又は複数の対象物における電磁的問合せビームの反射に由来する、請求項9に記載の使用。
【請求項11】
前記ニューラルネットワークアーキテクチャ(1)によって提供される1つ又は複数の出力(1c)から駆動制御信号(10)が形成され、
前記駆動制御信号(10)を用いて、車両(50)、運転支援システム(51)、ロボット(60)、品質管理システム(70)、領域監視システム(80)、及び/又は、医療用撮像システム(90)が駆動制御される、請求項9又は10に記載の使用。
【請求項12】
請求項1乃至8のいずれか一項に記載のニューラルネットワークアーキテクチャ(1)をトレーニングするための方法(100)であって、当該方法は、
測定データ(1b)のトレーニングレコード(1b*)が提供されるステップ(110)と、
前記トレーニングレコード(1b*)が前記ニューラルネットワークアーキテクチャ(1)に供給され、前記ニューラルネットワークアーキテクチャ(1)によって出力(1c)に処理されるステップ(120)と、
前記出力(1c)が、予め設定された実数値コスト関数(11)を用いて評価されるステップ(130)と、
前記ニューラルネットワークアーキテクチャ(1)の挙動を特徴付けるパラメータ(1a)が、前記トレーニングレコード(1b)のさらなる処理の際に、前記コスト関数(11)による評価(11a)を改善する目的で最適化されるステップ(140)と、
を含み、
前記パラメータ(1a)には、正則活性化関数(7)のためのパラメータ化されたアプローチの自由係数(7a)も含まれる、方法(100)。
【請求項13】
前記最適化されるステップ(140)の枠内において、
前記正則活性化関数のパラメータ化されたアプローチの係数から形成される行列Aの行列式det(A)の予め設定された値からの偏差が、予め設定された絶対値を上回っているかどうかが検査され(141)、
このことが該当する場合、当該行列の要素は、行列式det(A)の平方根
【数2】
によって除算される(142)、請求項12に記載の方法(100)。
【請求項14】
コンピュータプログラムであって、当該コンピュータプログラムが1つ又は複数のコンピュータ上で実行されるときに、前記1つ又は複数のコンピュータに、請求項1乃至8のいずれか一項に記載のニューラルネットワークアーキテクチャ(1)の少なくとも1つのインスタンスを実現させるための、及び/又は、請求項12又は13に記載の方法(100)を実施させるための機械可読命令を含むコンピュータプログラム。
【請求項15】
請求項14に記載のコンピュータプログラムを含む機械可読データ担体及び/又はダウンロード製品。
【請求項16】
1つ又は複数のコンピュータであって、請求項14に記載のコンピュータプログラム、及び/又は、請求項15に記載の機械可読データ担体及び/又はダウンロード製品を備えた1つ又は複数のコンピュータ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特に車両の環境監視の際に付随的に発生する、例えば画像又は点群などの測定データを評価するためのニューラルネットワークアーキテクチャに関する。
【背景技術】
【0002】
背景技術
道路交通又は企業敷地内での車両又はロボットの少なくとも部分的に自動化された運転のためには、車両又はロボットの環境の常時監視が不可欠である。そのような環境監視は、例えば画像又は点群などの測定データの記録を収集し、これらの記録を予め設定されたタスクに関してトレーニングされた機械学習モデルを用いて評価する。この目的のために、複数の層からなるニューラルネットワークアーキテクチャが使用されることが多い。典型的には、これらの測定データは、入力層に入力され、続いて、処理の結果が出力層から出力される前に1つ又は複数の中間層を通過する。
【0003】
測定データが複素数値である限り、常用的なアプローチは、各測定値の実部及び虚部を、又は、各測定値の極表現における絶対値及び位相も、ニューラルネットワークアーキテクチャの相互に独立した入力として処理することである。
【発明の概要】
【発明が解決しようとする課題】
【0004】
発明の開示
本発明は、測定データを処理するためのニューラルネットワークアーキテクチャを提供する。このネットワークアーキテクチャは、それぞれ複数のニューロンを有する複数の層を含む。これらのニューロンは、実質的に同等の効果を有する他の処理ユニットによって置き換えることもできる。以下においては、簡単化のために、ニューロンのみを取り上げる。
【課題を解決するための手段】
【0005】
ニューラルネットワークアーキテクチャにおいては、特に、例えば層の出力を、入力として隣接する層へ案内するものとしてよい。すなわち、入力された測定データは、結果が1つ又は複数の中間層で継続処理される前にまず入力層において処理され、出力層において処理の最終結果が求められる。この最終結果は、ニューラルネットワークアーキテクチャから出力される。
【0006】
各ニューロンは、複素数値の入力を活性化のために正則オフセット関数を用いて処理するように構成されている。ニューラルネットワークアーキテクチャの挙動は、実質的にこのオフセット関数のトレーニング可能なパラメータによって特徴付けられる。これらのパラメータには、例えば、ニューロンに供給される入力が活性化のためにオフセットされる重みを含めることができる。さらに、これらのパラメータには、例えば、活性化に含まれる加算バイアスを含めることもできる。
【0007】
各ニューロンは、さらに、非線形活性化関数をそのように得られた活性化に適用することにより自身の出力を求めるように構成されている。ここでは、活性化関数も同様に正則である。
【0008】
このようにして、複素数値の測定データの完全な情報内容が使用することができるようになることが認識された。この情報内容には、複素数値の変数の実部及び虚部(又は、絶対値及び位相)だけでなく、実部と虚部との間の関係又は絶対値と位相との間の関係も含まれる。特に、ニューラルネットワークアーキテクチャのトレーニングも、この完全な情報内容も使用して行うことができる。そのようなトレーニングの場合、ニューラルネットワークの出力に関するフィードバックとして、多くの場合、コスト関数(損失関数とも呼ばれる)の値が付随的に発生する。このコスト関数の値からは、いわゆるバックプロパゲーションによって勾配が求められ、それらに沿って、ニューラルネットワークアーキテクチャのトレーニング可能なパラメータは、高い確率でコスト関数の値の改善を達成するために有意に変更されるべきであろう。このバックプロパゲーションは、測定データ又はトレーニングの際に使用されるトレーニングデータの処理が完全に微分可能な方法により行われることを前提としている。ここでは、複素微分可能性が与えられていることにより、前述の実部と虚部との間の関係も、探索されるパラメータの勾配の算出に完全に含めることができる。
【0009】
これを簡単な例で明確にするならば、減衰された調和振動の場合、偏位sは、時間tの関数としての次の複素数値の関数
s=exp(i・ω・t-δ・t)
によって記述され、ここで、ωは、角振動数、δは、減衰定数である。この複素指数関数による記述方式においては、角振動数ωの自由振動が、減衰定数δの減衰項によってどのように修正されるかが直接明らかとなる。それに対して、sの実部と虚部とがそれぞれ実数値の三角関数を用いて記述される場合、この関係は、あまり明確ではなくなる。
【0010】
冒頭で述べた車両又はロボットの環境監視についてさらに関連するのは、測定データが少なくとも1つの電磁場の空間的及び/又は時間的分布を示す用途ケースである。そのため、特にマクスウェル方程式は、電気力学の基本として複素数値であり、この複素数値の力学には、単に実部と虚部とを相互に並べたものよりも多くの情報が含まれている。
【0011】
電磁場は、特に、例えば少なくとも部分的に、1つ又は複数の対象物における電磁的問合せビームの反射に由来し得る。この種の測定データは、例えば、環境が対象物についての問合せビームとしてレーダビーム又はライダビームを用いて探索されるときに付随的に発生する。次いで、完全な正則処理によって獲得可能な情報の多くは、例えば、それに続く対象物の位置の特定及び/又は対象物のタイプの分類の際に、より高い精度を生じさせることができる。そのため、例えば複素数値のレーダ信号には、信号の受信に関与したすべての物理的アンテナチャンネル及び/又は仮想アンテナチャンネルにわたるドップラースペクトル、並びに、送信された各レーダパルス(チャープ)の方位角スペクトルが含まれる。そのようなストレートなスペクトルは、対象物の識別や分類に役立つ。仮想アンテナチャンネルは、例えば、「多入力多出力」(MIMO)レーダを使用する場合に存在する。ホロモルフィック処理は、例えば、レーダ反射又はライダ反射が到来する方向(Direction of Arrival,DOA)を正確に求める場合にも有利であるが、この方向は、常に切り替わる環境条件と、各問合せビームのマルチパス伝搬の可能性とによって複雑になる。
【0012】
同様のことは、電磁場の伝搬が好適には複素数値の変数で示される他の無線用途にも当てはまる。
【0013】
具体的な用途に依存することのない、正則活性化関数を有するニューラルネットワークアーキテクチャの最も目立っている利点は、例えば、その活性化関数が実部と虚部とを相互に分離して処理するアーキテクチャよりも、トレーニング中の未知の入力に対する汎化がより良好なことである。したがって、これは、ニューラルネットワークアーキテクチャの入力空間における決定境界が平滑化されることを伴う。例えば、特に、例えば複素ReLU活性化関数の使用によって促進される断絶箇所の発生が抑制される。
【0014】
特に好適な態様においては、活性化関数及び/又はこの活性化関数の微分は、共形写像である。この共形写像に、複素平面での中間角度を含む2つの複素数z1及びz2が供給される場合、共形写像によって供給される結果は、複素平面での同等の中間角度を含む。さらに、複素数z1とz2との間の長さ比も同様に共形写像によって供給される結果の間で維持することができる。したがって、共形写像は複素平面での遠隔秩序を変化させるものではあるが、少なくともある程度の近傍秩序は維持される。特に、相互に直交する特徴の表現は、共形写像の適用後も同様に相互に直交したままである。ストレートな直交性は、特に重要な情報を体現する特徴間の関係である。それに対して、写像が共形写像でない場合、前述した表現からは、相互に非常に近い結果が現れ、それらはもはや数値的に相互に区別することができない。
【0015】
さらに特に好適な態様においては、活性化関数は、自由係数a,b,c,dを用いた以下の形式
f(z)=(a・z+b)/(c・z+d)
のメビウス変換を含む。これらの係数は、特に、例えば、ニューラルネットワークアーキテクチャをトレーニングする際に共にトレーニングすることができる。このようにして、パラメータ化されたアプローチの範囲内で、ニューラルネットワークアーキテクチャによって解決すべきタスク全体に関して最良の結果を提供する変換を見出すことができる。例えば、ReLU、Sigmoid及びtanhなどの従来の常用的な活性化関数は、この種の自由度を有しておらず、したがって、解決すべき具体的なタスクに適合化させることはできない。係数を共にトレーニングすることは、ここでは、利用可能な関数のカタログから厳密に1つの具体的な活性化関数を選択するよりも明らかに良好な動機付けが可能である。
【0016】
特に好適には、メビウス変換の係数a,b,c,dは、実数値である。このようにして、探索空間が明らかに縮小されている。同時に、正の虚部半平面がそれ自体に写像されることが保証される。さらに、ニューラルネットワークアーキテクチャの出力が実数値軸に「崩壊」する確率が減少する。
【0017】
さらに特に好適な態様においては、メビウス変換の係数の行列
【数1】
は、予め設定された値から最大で予め設定された絶対値分だけ偏差する行列式det(A)を有する。例えば、det(A)は、半径1/2の複素平面での円描写において、値1近辺に維持することができる。このようにして、例えば、行列Aが特異的にならないことを保証することができる。特に、例えば行列Aを変更する各トレーニングステップにおいてdet(A)を検査することができる。後でさらに説明するように、行列式det(A)の偏差が過度に大きい場合、Aのすべての要素を行列式det(A)の平方根
【数2】
によって除算することができる。
【0018】
ニューラルネットワークアーキテクチャは、特に、例えば特徴抽出器として構成されるものとしてよい。したがって、特徴抽出器の異なる層におけるニューロンの出力は、測定データにおける異なるスケール及び/又は複雑性の特徴の表現度を示す。特徴抽出器についての一例は、畳み込みニューラルネットワーク(Convolutional Neural Network,CNN)であり、これは測定データへのフィルターカーネルのスライディング方式での適用によって特徴マップを生成する。測定データへのフィルターカーネルの適用によって生成された特徴マップの部分は、このフィルターカーネルに対応する特徴マップの「チャネル」とも呼ばれる。すなわち、特徴マップは、この種のチャネルの積層体である。
【0019】
さらに特に好適な態様においては、ニューラルネットワークアーキテクチャは、測定データに関して、特徴抽出器の1つ又は複数の出力から予め設定されたタスクの解を求めるように構成されたタスクヘッドを含む。タスクヘッドのアーキテクチャは、ここでは、予め設定されたタスクに適合化される。ニューラルネットワークアーキテクチャのトレーニング後にタスクヘッドを切り替える場合は、新しいタスクヘッドをトレーニングするだけで十分となるであろう。それに対して、特徴抽出器は、例えば、短縮されたさらなるトレーニング(「微調整」)だけを受けること、又は、先行してトレーニングされた自身の状態で完全に固定することができる。タスクヘッドは、特に、例えば実数値の結果を提供することができる。すなわち、タスクヘッドは、例えば、最初に特徴抽出器の複素数値の出力を受け取ることができ、その限りにおいては、まだ完全な情報内容から入手することができる。次いで、この情報は、予め設定されたタスクに関する解に凝縮され、同時に実数値軸に移行される。
【0020】
タスクヘッドは、特に、例えば、測定データについて予め設定された分類の1つ又は複数のクラスに関して分類スコアを求めるように構成されるものとしてよい。例えば、タスクヘッドは、その存在を測定データが示唆する対象物のタイプを分類することができる。
【0021】
さらなる特に好適な態様においては、ニューラルネットワークアーキテクチャによって供給される1つ又は複数の出力から駆動制御信号が形成される。この駆動制御信号を用いて、車両、運転支援システム、ロボット、品質管理システム、領域監視システム、及び/又は、医療用撮像システムが駆動制御される。このようにして、各技術システムにより駆動制御信号に応答して実行される反応が、測定データによって具現化される状況において適当である確率が高まる。
【0022】
本発明は、先に説明したニューラルネットワークアーキテクチャをトレーニングするための方法にも関する。
【0023】
本方法の枠内においては、測定データのトレーニングレコードが提供される。これらのトレーニングレコードは、例えば、教師ありトレーニングのために目標出力で注釈(ラベル付け)されるものとしてもよい。
【0024】
ここでは、「レコード」という用語は、カードインデックスボックスのインデックスカードの情報に匹敵する、関連データのデータセットを表す。レコードには、例えば、技術システムの動作状態を併せて特徴付ける複数の測定変数の値、又は、画像データ及び場合によっては所属のメタデータが含まれる。ここでは「データセット」の代わりに「レコード」という用語が使用される。なぜなら、「データセット」という用語が機械学習の技術用語において既に多方面で例証されており、すべてのインデックスカードを含むカードインデックスボックスに匹敵する、すべてのレコードのコレクションを表すからである。
【0025】
トレーニングレコードは、トレーニングすべきニューラルネットワークアーキテクチャに供給され、このニューラルネットワークアーキテクチャによって出力に処理される。これらの出力は、予め設定された実数値コスト関数を用いて評価される。そのため、例えば、教師ありトレーニングの際に目標出力からの出力の偏差を測定することができる。しかしながら、例えば、特徴抽出器は、例えば特徴抽出器の出力から元の入力を再構成しようと試みるデコーダと併せて自己教師ありトレーニングを行うことも可能である。
【0026】
ニューラルネットワークアーキテクチャの挙動を特徴付けるパラメータは、トレーニングレコードのさらなる処理の際に、コスト関数による評価を改善する目的で最適化される。これらのパラメータには、例えばニューロンの活性化に対する入力のオフセットのための重み及びバイアス値などのニューラルネットワークの通常の調整ねじだけでなく、正則活性化関数のためのパラメータ化されたアプローチの自由係数も含まれる。すなわち、これらの係数は、例えば、重み及びバイアス値とともにベクトルに統合することができる。しかしながら、例えば、切り替えにおいて、一方では、重み及びバイアス値を有するベクトルを、他方では、係数を有するベクトルをトレーニングステップにおいて更新することも可能である。したがって、各勾配は、「混合」された空間における勾配よりも、具体的な用途に関してそれ自体でより意味のあるものとなる。
【0027】
先に説明したように、このようにして、活性化関数の選択に関して大きい柔軟性が造り出される。パラメータ化されたアプローチを可能にする関数の大きいクラスから、ニューラルネットワークアーキテクチャで最終的に追求される目標を達成するために最良であるものが正確に選択される。したがって、この選択は、例えば活性化関数を手動で選択するよりも良好に自動的に動機付けされる。パラメータ化されたアプローチとして、例えば、先に紹介したメビウス変換のクラスを選択することができる。
【0028】
特に好適な態様においては、最適化されるステップの枠内において、正則活性化関数のためのパラメータ化されたアプローチの係数から形成される行列Aの行列式det(A)の予め設定された値からの偏差が、予め設定された絶対値を上回っているかどうかが検査される。このことが該当する場合、当該行列の要素は、行列式det(A)の平方根
【数3】
によって除算される。このようにして、特に、例えば、行列Aが特異的になったり、活性化関数が単純化したりすることを阻止することができる。
【0029】
ニューラルネットワークアーキテクチャは、特に、例えば、コンピュータ実装されるものとしてよい。それゆえ、本発明は、コンピュータプログラムが1つ又は複数のコンピュータ上で実行されるときに、当該1つ又は複数のコンピュータに、先に説明したニューラルネットワークアーキテクチャの少なくとも1つのインスタンスを実現させるための機械可読命令を含むコンピュータプログラムにも関する。この文脈において、特に、例えば、それぞれ同様に機械可読命令を実行することが可能であるグラフィックプロセッサ、GPU、車両用制御装置、又は、他の装置への組み込み用埋め込みシステムも、コンピュータとみなすことができる。
【0030】
同様に、本発明は、1つ又は複数のコンピュータプログラムを含む機械可読データ担体及び/又はダウンロード製品にも関する。ダウンロード製品とは、データネットワークを介して転送可能な、すなわち、データネットワークのユーザによってダウンロード可能なデジタル製品であり、これは、例えばオンラインショップにおいて即時ダウンロード販売可能である。
【0031】
さらに、1つ又は複数のコンピュータ及び/又は計算インスタンスは、1つ又は複数のコンピュータプログラム、機械可読データ担体又はダウンロード製品を備えるものとしてよい。
【0032】
以下においては、本発明を改善するさらなる手段を、図面に基づいた本発明の好適な実施例の説明と併せてより詳細に示す。
【図面の簡単な説明】
【0033】
【
図1】ニューラルネットワークアーキテクチャ1の実施例を示した図である。
【
図2】ニューラルネットワークアーキテクチャ1の出力1cの例示的使用を示した図である。
【
図3】ニューラルネットワークアーキテクチャ1をトレーニングするための方法100の実施例を示した図である。
【
図4a】同様のトレーニングデータ(
図4a)で、非正則活性化関数(
図4b)を用いてトレーニングされたネットワークアーキテクチャ1の挙動と、正則活性化関数7(
図4c)を用いてトレーニングされたネットワークアーキテクチャ1の挙動との比較を示した図である。
【
図4b】同様のトレーニングデータ(
図4a)で、非正則活性化関数(
図4b)を用いてトレーニングされたネットワークアーキテクチャ1の挙動と、正則活性化関数7(
図4c)を用いてトレーニングされたネットワークアーキテクチャ1の挙動との比較を示した図である。
【
図4c】同様のトレーニングデータ(
図4a)で、非正則活性化関数(
図4b)を用いてトレーニングされたネットワークアーキテクチャ1の挙動と、正則活性化関数7(
図4c)を用いてトレーニングされたネットワークアーキテクチャ1の挙動との比較を示した図である。
【発明を実施するための形態】
【0034】
実施例
図1は、ニューラルネットワークアーキテクチャ1の一実施例の概略図である。このニューラルネットワークアーキテクチャ1は、入力として測定データ1bを受け取るニューロン2aを有する入力層2を含む。続いて、これらの測定データは、ニューロン3aを有する複数の中間層3において逐次的に継続処理される。これらの入力層2及び中間層3は、併せて特徴抽出器9aを形成する。
【0035】
ニューラルネットワークアーキテクチャ1は、付加的にさらに出力層4を含む。この出力層4は、解決すべきタスクに関して特徴抽出器9aの出力をニューラルネットワークアーキテクチャ1全体によって供給される最終結果1cに処理する。すなわち、出力層4は、同時に特徴抽出器9aの出力を継続処理するタスクヘッド9bとしても用いられる。
【0036】
図1の中央においては、中間層3におけるニューロン3a内における処理がどのように実行されるかが例示的に示されている。ニューロン3aに供給された入力3bは、活性化6のために、正則オフセット関数、ここでは加重和を用いて処理される。この加重和の重みと、活性化6に追加される任意選択的な加算バイアス値とは、ニューラルネットワークアーキテクチャ1の挙動を特徴付けるパラメータ1aに属する。活性化6は、ニューロン3aの出力8のために、正則非線形活性化関数7によって処理される。
図1に示されている例においては、この非線形活性化関数7に対して自由係数7aを用いてパラメータ化されるアプローチが選択される。したがって、これらの係数7aも同様に、ニューラルネットワークアーキテクチャ1の挙動を特徴付けるパラメータ1aになる。
【0037】
図2は、ニューラルネットワークアーキテクチャ1によって提供される出力1cがさらにどのように使用され得るのかを例示的に示している。制御ユニットSは、ニューラルネットワークアーキテクチャ1の出力1cを受信し、駆動制御信号10を求める。この駆動制御信号10を用いて、車両50、運転支援システム51、ロボット60、品質管理システム70、領域監視システム80、及び/又は、医療用撮像システム90が駆動制御される。
【0038】
図3は、前述したニューラルネットワークアーキテクチャ1をトレーニングするための方法100の一実施例の概略的なフローチャートである。
【0039】
ステップ110においては、測定データ1bのトレーニングレコード1b*が提供される。これらのトレーニングレコード1b*は、ステップ120において、ニューラルネットワークアーキテクチャ1に供給され、当該ニューラルネットワークアーキテクチャ1によって出力1cに処理される。そのように得られた出力1cは、ステップ130において、予め設定された実数値コスト関数11を用いて評価される。ここでは、評価11aが生じる。
【0040】
ステップ140においては、ニューラルネットワークアーキテクチャ1の挙動を特徴付けるパラメータ1aは、トレーニングレコード1bのさらなる処理の際に、コスト関数11による評価11aを改善する目的で最適化される。その際、これらのパラメータ1aには、正則活性化関数7のためのパラメータ化されたアプローチの自由係数7aも含まれる。パラメータ1a及び7aの最適化が完了した状態は、符号1a*又は7a*で示される。これらのパラメータ1a,7aは、同時にニューラルネットワークアーキテクチャ1のトレーニングが完了した状態1*も確定する。
【0041】
ブロック141に従って、この最適化されるステップの枠内において、特に、例えば、正則活性化関数のためのパラメータ化されたアプローチの係数から形成される行列Aの行列式det(A)の予め設定された値からの偏差が、予め設定された絶対値を上回っているかどうかを検査することが可能である。このことが該当する場合(真理値1)、ブロック142に従って、当該行列の要素は、行列式det(A)の平方根
【数4】
によって除算することができる。
【0042】
図4は、同様のトレーニングデータを起点として、非正則活性化関数から正則活性化関数への切り替えが、ニューラルネットワークアーキテクチャ1のトレーニングにどのように作用するのかを示す図である。
図4に示されている例においては、ニューラルネットワークアーキテクチャ1は、単一の複素数からなる入力1bを、2つの可能なクラスC1及びC2のうちの1つに割り当てる二値分類器である。
【0043】
図4aは、トレーニングデータのレコード1b*を示す。各レコード1b*について、それぞれ虚部Im(1b*)が実部Re(1b*)に関してプロットされている。曲線C1上のレコード1b*は、目標出力としてクラスC1でラベル付けされている。曲線C2上のレコード1b*は、目標出力としてクラスC2でラベル付けされている。
【0044】
図4bは、それらの実部Re(1b)と虚部(1b)とによって拡張された平面での例示的な測定データ1bについて、
図4aに示されているレコード1b*を用いてトレーニングされたニューラルネットワークアーキテクチャが、これらの測定データ1bをそれぞれ出力1cとしてどのクラスに割り当てるかを示す。活性化関数は、ここでは、非正則複素ReLU関数である。欠如する複素微分可能性は、ここでは、クラスC1とC2との間の決定境界における鋭角の折れ曲がりや断絶箇所の形態で顕著に表れている。
【0045】
図4cは、これに対する比較において、活性化関数7として正則メビウス変換f(z)=1-(1/z)への切り替えがどのように作用するのかを示している。クラスC1とクラスC2との間の決定境界がここでは明らかに滑らかになったことが、明確に認識することができる。鋭角の折れ曲がりや断絶箇所は完全に消えている。このことは、測定データ1bの小さい変化が出力1cの大きい変化につながりにくいという意味でもニューラルネットワークアーキテクチャ1をより堅固にする。
【手続補正書】
【提出日】2024-07-18
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
測定データ(1b)を処理するためのニューラルネットワークアーキテクチャ(1)であって、前記ニューラルネットワークアーキテクチャ(1)は、それぞれ複数のニューロン(2a,3a,4a)を有する複数の層(2,3,4)を含み、各ニューロンは、複素数値の入力(2b,3b,4b)を活性化(6)のために正則オフセット関数(5)を用いて処理し、非線形活性化関数(7)を前記活性化(6)に適用することにより自身の出力(8)を求めるように構成されており、前記非線形活性化関数(7)も同様に正則である、ニューラルネットワークアーキテクチャ(1)。
【請求項2】
前記非線形活性化関数(7)及び/又は当該非線形活性化関数(7)の微分は、2つの複素数z1及びz2に適用された後、当該2つの複素数z1及びz2の間の中間角度が複素平面で維持され続ける共形写像である、請求項1に記載のニューラルネットワークアーキテクチャ(1)。
【請求項3】
前記非線形活性化関数(7)は、自由係数a,b,c,dを用いた以下の形式
f(z)=(a・z+b)/(c・z+d)
のメビウス変換を含む、請求項1又は2に記載のニューラルネットワークアーキテクチャ(1)。
【請求項4】
前記メビウス変換の前記自由係数a,b,c,dは、実数値である、請求項3に記載のニューラルネットワークアーキテクチャ(1)。
【請求項5】
前記メビウス変換の前記
自由係数
a,b,c,dの行列
【数1】
は、予め設定された値から最大で予め設定された絶対値分だけ偏差する行列式det(A)を有する、請求項
3に記載のニューラルネットワークアーキテクチャ(1)。
【請求項6】
前記ニューラルネットワークアーキテクチャ(1)は、少なくとも部分的に特徴抽出器(9a)として構成され、前記特徴抽出器(9a)の異なる層(2,3,4)におけるニューロン(2a,3a,4a)の出力は、前記測定データ(1b)における異なるスケール及び/又は複雑性の特徴の表現度を示す、請求項1に記載のニューラルネットワークアーキテクチャ(1)。
【請求項7】
前記ニューラルネットワークアーキテクチャ(1)は、前記測定データ(1b)に関して、前記特徴抽出器(9a)の1つ又は複数の出力から、予め設定されたタスクの解を求めるように構成されたタスクヘッド(9b)をさらに含む、請求項6に記載のニューラルネットワークアーキテクチャ(1)。
【請求項8】
前記タスクヘッド(9b)は、前記測定データ(1b)について予め設定された分類の1つ又は複数のクラスに関して分類スコアを求めるように構成されている、請求項7に記載のニューラルネットワークアーキテクチャ(1)。
【請求項9】
少なくとも1つの電磁場の空間的及び/又は時間的分布を示す測定データ(1b)を処理するための、請求項1に記載のニューラルネットワークアーキテクチャ(1)の使用。
【請求項10】
前記電磁場は、少なくとも部分的に、1つ又は複数の対象物における電磁的問合せビームの反射に由来する、請求項9に記載の使用。
【請求項11】
前記ニューラルネットワークアーキテクチャ(1)によって提供される1つ又は複数の出力(1c)から駆動制御信号(10)が形成され、
前記駆動制御信号(10)を用いて、車両(50)、運転支援システム(51)、ロボット(60)、品質管理システム(70)、領域監視システム(80)、及び/又は、医療用撮像システム(90)が駆動制御される、請求項9又は10に記載の使用。
【請求項12】
請求項1に記載のニューラルネットワークアーキテクチャ(1)をトレーニングするための方法(100)であって、当該方法は、
測定データ(1b)のトレーニングレコード(1b*)が提供されるステップ(110)と、
前記トレーニングレコード(1b*)が前記ニューラルネットワークアーキテクチャ(1)に供給され、前記ニューラルネットワークアーキテクチャ(1)によって出力(1c)に処理されるステップ(120)と、
前記出力(1c)が、予め設定された実数値コスト関数(11)を用いて評価されるステップ(130)と、
前記ニューラルネットワークアーキテクチャ(1)の挙動を特徴付けるパラメータ(1a)が、前記トレーニングレコード(1b*)のさらなる処理の際に、前記コスト関数(11)による評価(11a)を改善する目的で最適化されるステップ(140)と、
を含み、
前記パラメータ(1a)には、正則活性化関数(7)のためのパラメータ化されたアプローチの自由係数(7a)も含まれる、方法(100)。
【請求項13】
前記最適化されるステップ(140)の枠内において、
前記正則活性化関数のパラメータ化されたアプローチの係数から形成される行列Aの行列式det(A)の予め設定された値からの偏差が、予め設定された絶対値を上回っているかどうかが検査され(141)、
前記正則活性化関数のパラメータ化されたアプローチの係数から形成される行列Aの行列式det(A)の予め設定された値からの偏差が、予め設定された絶対値を上回っている場合、当該行列の要素は、行列式det(A)の平方根
【数2】
によって除算される(142)、請求項12に記載の方法(100)。
【請求項14】
コンピュータプログラムであって、当該コンピュータプログラムが1つ又は複数のコンピュータ上で実行されるときに、前記1つ又は複数のコンピュータに、請求項1に記載のニューラルネットワークアーキテクチャ(1)の少なくとも1つのインスタンスを実現させるための、又は、請求項12に記載の方法(100)を実施させるための機械可読命令を含むコンピュータプログラム。
【請求項15】
請求項14に記載のコンピュータプログラムを含む機械可読データ担体。
【請求項16】
1つ又は複数のコンピュータであって、請求項14に記載のコンピュータプログラム、又は、請求項15に記載の機械可読データ担体を備えた1つ又は複数のコンピュータ。
【外国語明細書】