(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-02
(54)【発明の名称】予測不確実性を評価するためにアンサンブルニューラルネットワークデバイスをトレーニングするシステム
(51)【国際特許分類】
G06N 3/045 20230101AFI20240625BHJP
G06N 3/08 20230101ALI20240625BHJP
【FI】
G06N3/045
G06N3/08
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023575680
(86)(22)【出願日】2022-06-08
(85)【翻訳文提出日】2024-01-25
(86)【国際出願番号】 EP2022065475
(87)【国際公開番号】W WO2022258652
(87)【国際公開日】2022-12-15
(32)【優先日】2021-06-08
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009287
【氏名又は名称】フイルメニツヒ ソシエテ アノニム
【氏名又は名称原語表記】Firmenich SA
【住所又は居所原語表記】7,Rue de la Bergere,1242 Satigny,Switzerland
(74)【代理人】
【識別番号】100114890
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ギヨーム ゴダン
(72)【発明者】
【氏名】ルート ファン デュールセン
(72)【発明者】
【氏名】フロリアン ラヴァスィ
(72)【発明者】
【氏名】ユリエン ヘアツェン
(57)【要約】
アンサンブルニューラルネットワークデバイスをトレーニングするシステム(200)であって、次の各ステップ、すなわち、
-少なくとも1つの入力セット(220)と入力セットに関連付けられた少なくとも1つの出力セット(225)とを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブル(230)を含むニューラルネットワークデバイスへ提供するステップ(205)と、
-標本データセットに基づいてニューラルネットワークデバイスを動作させるステップ(210)と、
-出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップ(215)と、
を実行させるように構成されたシステム(200)において、
-ニューラルネットワークデバイスがさらに少なくとも2つの独立した活性化関数を含み、独立した活性化関数のうちの少なくとも2つが、複数の独立した予測の統計分布を表現しており、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つに対する少なくとも1つの出力(235,236)を提供するように構成されており、
-動作させるステップがさらに、アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップを含み、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つを表現する値を最小化するようにトレーニングされる、
ことを特徴とする、システム(200)。
【特許請求の範囲】
【請求項1】
アンサンブルニューラルネットワークデバイスをトレーニングするシステム(200)であって、
前記システム(200)は、1つもしくは複数のコンピュータプロセッサと、前記1つもしくは複数のコンピュータプロセッサに動作可能に結合された1つもしくは複数のコンピュータ可読媒体と、を含み、前記1つもしくは複数のコンピュータ可読媒体は、前記1つもしくは複数のコンピュータプロセッサによって実行される際に、前記1つもしくは複数のコンピュータプロセッサに、次の各ステップ、すなわち、
-少なくとも1つの入力セット(220)と前記入力セットに関連付けられた少なくとも1つの出力セット(225)とを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブル(230)を含むニューラルネットワークデバイスへ提供するステップ(205)と、
-前記標本データセットに基づいて前記ニューラルネットワークデバイスを動作させるステップ(210)と、
-出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップ(215)と、
を実行させるための命令を記憶している、システム(200)において、
-前記ニューラルネットワークデバイスは、少なくとも2つの独立した活性化関数をさらに含み、前記独立した活性化関数のうちの少なくとも2つは、複数の独立した予測の統計分布を表現しており、前記ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つに対する少なくとも1つの出力(235,236)を提供するように構成されており、
-前記動作させるステップは、前記アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップをさらに含み、前記ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つを表現する値を最小化するようにトレーニングされる、
ことを特徴とする、システム(200)。
【請求項2】
前記取得するステップ(215)において取得された前記ニューラルネットワークデバイスは、付加的に、前記出力の分散を表現する値を提供するように構成されている、
請求項1記載のシステム(200)。
【請求項3】
前記活性化関数のうちの少なくとも2つは、
-前記複数の独立した予測の統計分布の平均、および
-前記複数の独立した予測の統計分布の分散
を表現している、
請求項1または2記載のシステム(200)。
【請求項4】
前記ニューラルネットワークデバイスは、複数の独立した出力の学習された分布を前記少なくとも2つの独立した活性化関数のうちのトレーニングされた少なくとも2つの関数として使用することによって生成された出力のシミュレーション(245)を追加するように構成された層(240)をさらに含む、
請求項1から3までのいずれか1項記載のシステム(200)。
【請求項5】
ニューラルネットワークデバイスをトレーニングするためのコンピュータ実装方法(300)であって、前記コンピュータ実装方法(300)は、
-少なくとも1つの入力セットと前記入力セットに関連付けられた少なくとも1つの出力セットとを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブルを含むニューラルネットワークデバイスへ提供するステップ(305)と、
-前記標本データセットに基づいて前記ニューラルネットワークデバイスを動作させるステップ(310)と、
-出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップ(315)と、
を含む、コンピュータ実装方法(300)において、
-前記ニューラルネットワークデバイスを動作させるステップでは、前記ニューラルネットワークデバイスは、少なくとも2つの独立した活性化関数をさらに含み、前記独立した活性化関数のうちの少なくとも2つは、複数の独立した予測の統計分布を表現しており、前記ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つに対する少なくとも1つの出力を提供するように構成されており、
-前記動作させるステップは、前記アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップ(320)をさらに含み、前記ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つを表現する値を最小化するようにトレーニングされる、
ことを特徴とする、コンピュータ実装方法(300)。
【請求項6】
請求項5記載のコンピュータ実装方法(300)によって取得されることを特徴とする、コンピュータ実装ニューラルネットワークデバイス。
【請求項7】
コンピュータ上で実行される際に、請求項5記載の方法(300)の各ステップを実行するための命令を含むことを特徴とする、コンピュータプログラム製品。
【請求項8】
コンピュータ上で実行される際に、請求項5記載の方法(300)の各ステップを実行するための命令を記憶していることを特徴とする、コンピュータ可読媒体。
【請求項9】
フレーバー成分、フレグランス成分もしくは薬剤成分の物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を予測するためのコンピュータ実装方法(400)であって、前記コンピュータ実装方法(400)は、
-コンピューティングデバイスにより、請求項5記載の方法(300)に従ってニューラルネットワークデバイスをトレーニングするステップ(405)であって、標本データセットは、
-入力としての、フレーバー成分、フレグランス成分もしくは薬剤成分の組成物、および
-出力としての、うち1つが組成物の分子量である、少なくとも1つの物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性
を表現しているステップ(405)と、
-コンピュータインタフェース上で、少なくとも1つのフレーバー成分、フレグランス成分もしくは薬剤成分のデジタル識別子を入力するステップ(410)であって、得られる入力は、フレーバー成分、フレグランス成分もしくは薬剤成分の組成物に対応するステップ(410)と、
-コンピューティングデバイスにより、トレーニング済みニューラルネットワークデバイスを動作させるステップ(415)と、
-コンピュータインタフェース上で、前記組成物に対する、前記トレーニング済みニューラルネットワークデバイスによって出力された少なくとも1つの物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を提供するステップ(420)と、
を含むことを特徴とするコンピュータ実装方法(400)。
【請求項10】
画像における表現カテゴリを予測するためのコンピュータ実装方法(500)であって、前記コンピュータ実装方法(500)は、
-コンピューティングデバイスにより、請求項5記載の方法(300)に従ってニューラルネットワークデバイスをトレーニングするステップ(505)であって、標本データセットは、
-入力としての画像、および
-出力としての、入力画像における少なくとも1つの表現カテゴリ
を含むステップ(505)と、
-コンピュータインタフェース上で、少なくとも1つの画像を入力するステップ(510)と、
-コンピューティングデバイスにより、トレーニング済みニューラルネットワークデバイスを動作させるステップ(515)と、
-コンピュータインタフェース上で、前記組成物に対する、前記トレーニング済みニューラルネットワークデバイスによって出力された少なくとも1つの表現カテゴリを提供するステップ(520)と、
を含むことを特徴とするコンピュータ実装方法(500)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニューラルネットワークデバイスをトレーニングするシステム、ニューラルネットワークデバイスをトレーニングするためのコンピュータ実装方法、対応するコンピュータ実装ニューラルネットワークデバイス、本発明の対象である方法の各ステップを実行するためのコンピュータプログラム製品、本発明の対象である方法の各ステップを実行するための命令を記憶したコンピュータ可読媒体、フレーバー成分、フレグランス成分および薬剤成分の物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を予測するためのコンピュータ実装方法、ならびに画像における表現カテゴリを予測するためのコンピュータ実装方法に関する。
【0002】
本発明は特に、生物学的産業、化学的産業、医学的産業および薬学的産業に適用可能なフレーバー、フレグランスおよび薬剤の産業または画像処理の産業に適用される。
【背景技術】
【0003】
科学実験において、
図1に示されているようなデータベースに記憶された測定値105は、当該実験の環境によって変化する。典型的には、安定した状態を得るために、国際宇宙ステーションのような理想的な環境を使用する必要がある。ほぼ完璧な環境条件のもとにあっても、技術者による器具および試料の準備は相互に僅かずつ異なりうる。それぞれ異なるソースからの実験データをマージすることは、使用された測定条件に依存して実験ごとの分散が変化するため、困難となりうる。こうした分散を低減して中程度以上の良好な成功を達成するために、実験データを均質化するための統計的方法が開発されてきた。機械学習の分野では、トレーニングセットとテストセットとの間、また既知のデータと未来のデータとの間に、このような分散が生じる可能性がある。
【0004】
機械学習モデルにつき広く知られている別の問題はモデル内のハイパーパラメータの数であり、これは、モデルの能力に著しく影響を与え、
図1に示されているようなトレーニングデータ110に過剰適合することがある。利用可能なデータの量は、ニューラルネットワークにおける多数のハイパーパラメータをトレーニングするには不十分である可能性がある。したがって、データに対する有意なデジタルデータ表現を抽出する必要性の最小量を考えることが最善である。このことは、より少ない数のパラメータを有する特権的な層によって達成することができる。このような試みの一例は、dense層をコンパクトな畳み込み層によって置換することである。畳み込み層は特に、データから画像などの局所化特徴を抽出することに特化されている。しかし、コンパクトかつ効率的な畳み込み層を使用しても、数十億個のパラメータを有するネットワークがなお生成されうる。メガモデルの傾向分析は、このようなモデルが例えば画像、文学および音楽に利用可能なきわめて大きなデータセットを用いてのみトレーニング可能であることを示している。対照的に、化学、生物学などの科学分野は、数百個から数千個のデータポイントを含むデータセットを有することが多い。したがって、これらのドメインでは、データサイズに適合するようにパラメータ数を低減することを目標とすべきである。
【0005】
大きなサイズのネットワークを補償する1つの手法は、データ拡張によるものである。実際に、拡張率の増大に伴う性能の増大は、選択されたネットワークのサイズに対してより多くのデータが必要となることを示しており、ネットワークのサイズがなるべく低減されるとよいことが示唆される。同時に、拡張率を使用して、ネットワークがクリティカルにパラメータ化されているかどうかを、すなわち、拡張がモデルの性能に全くもしくは殆ど影響を与えないポイントを、識別することができる。すべてのモデルがデータ拡張に対してオープンであるわけではない。例えば、グラフニューラルネットワーク(GNN)は表現のシャッフルに対して不変である。よって、GNNは、自然言語処理または画像に使用される既存のデータ拡張方法に対する互換性を有さない。
【0006】
第3の問題は、モデルのトレーニング手順115がモデリングにおける重要な様相を定めることである。頻繁に、モデルの決定に影響を与えうる変数が過度に多くなる。このことは、ハイパーパラメータ化の最適化ストラテジが性能もしくは効率のためのモデルの改善になぜ必要とされうるのかについての説明となりうる。選択されたモデルとは別に、トレーニングセットとテストセットとの間のデータスプリットに関する問題も重要な役割を果たす。完全leave-one-outランダムスプリットからK-foldまでの交差検証の複数の方法を使用して、未見のデータに関するモデル品質をシミュレートし、推定することができる。最終的には、モデルの予測はまさに、使用されたトレーニング条件、モデルサイズ、最適化パラメータおよびデータスプリットに依存した教師あり推定となる。完了時に、最良のモデルが実際にトレーニングされたかどうかを知ることは不可能である。しかし、ここでは、計算されたモデルが使用されたテストポイントに対する最良のモデルであると仮定される。このことは、未来の未見のデータのすべての部分に対して性能結果が同じになることを必ずしも期待できないため、データモデリングアプローチの全般的な制限となる。また、未来の性能は、未見のデータに対して評価されたサンプルサイズと未見のデータに導入された可能なサンプルバイアスとに依存して相当程度に変化しうることにも留意されたい。こうした欠点を部分的に解決する1つの手法として、モデルを評価するための標準化されたメトリックとして正確な理論的エンドポイントを予測することによるものが挙げられる。このようなエンドポイントの一例は、化学反応中の分子の分子量である。
【0007】
過去数十年の間に、ディープニューラルネットワーク(DNN)は現代の生活に不可欠な部分となってきている。多くの科学分野において重要な技術であるうえ、DNNは今や次第に現実世界の用途に向けたソリューションとして提供されるようになってきている。ニューラルネットワークは、医用イメージング、画像認識および自動運転車両の分野において既に継続的に適用されている。多くの用途での急速な成長により、ニューラルネットワークの重大な欠点の一部につき考察することが重要である。ここでの欠点には、主に、
-モデルの決定ロジックに表現力と透明性が欠如していること、
-ドメインシフトへの感受性を含む、ドメイン内予測とドメイン外予測との区別の不能性、
-敵対的攻撃に対して脆弱でありうるニューラルネットワークをもたらす敵対例への感受性、および/または
-信頼性の高いモデル不確実性の推定を提供できないこと、
が含まれる。
【0008】
科学ドメインに応じて、ニューラルネットワークの予測についての説明を提供せよとの要求は、頻繁に話題とされるトピックである。実際に、ディープニューラルネットワークは、典型的にはブラックボックス技術として認知されている。ただし、このことは、用途における受容のための本質的な欠点とみなされるべきではない。さらに、複数の同程度の性能のソリューションを生成することができ、機械の推定したロジックを変化させることができることに留意されたい。このことは特に、同一の「機械」間またはそれぞれ異なるランダム初期化を有するモデル間で適用される。よって、説明は「機械」間で異なりうるものであり、その結果、当該説明が可能な最良の説明であるかどうかを判別することはできない。換言すれば、推定されたロジックはトレーニングされたシステムの特性であり、1つの可能な説明である。
【0009】
機械学習および人工知能において、モデルの予測性能がドメイン内ポイントとドメイン外ポイントとの間で大きく変化しうることは広く知られている。ポイント(x,y)のセットについての線形回帰の場合、モデリングされた数学的関数y=f(x)は、この関数の定義に使用される既知のポイント間に該当するすべてのポイントにのみ適用されるべきである。ドメイン外予測は既知のデータへの外挿であり、外側にあるデータの挙動は未知である。ここで(例えば、刊行物Hanser & al., Applicability Domain: Towards a More Formal Framework to Express the Applicability of a Model and the Confidence in Individual Predictions, Advances in Computational Toxicology, pp 215-232では)、こうした予測に体系的にフラグ付けまたは破棄を行うべきであることが提案されている。モデルの適用性のドメインは、さらに、モデルのアーキテクチャとモデルのトレーニングに使用されるデータとによって同時に定義される。したがって、アーキテクチャとデータとが組み合わされたシステムは、クローズドシステムを定義するものであって、不定の問題の一例である。したがって、この1つのシステムを使用して、ドメイン外予測の寄与因子、すなわち、これがアーキテクチャに由来するものかまたはデータに由来するものかを同時に判別することはできない。よって、これは、予測がすべてのシステムに対してドメイン外となることを意味しない。ドメイン外評価を得るために、典型的には、トレーニングセットまでの距離、潜在空間についての統計的ホテリング、またはエビデンス層の使用などの機構が適用される。こうしたメトリックに関して、ドメイン内呼び出しおよびドメイン外呼び出しは、モデルおよび選択されたドメイン方法からの結果となることに留意されたい。より厳密な意味では、選択された1つのドメイン外評価方法により予測がドメイン外にあるという事実が、すべての評価方法に対してポイントがドメイン外にあることを意味するわけではない、とも考えられる。まとめると、モデルの予測についての信頼性が限定されているユーザは、ドメイン外評価に使用される方法または提供される説明についての方法に関して同様の懸念を生じさせる可能性がある。帰謬法においてみれば、こうした過程が無限に続きうる。説明を提供することとは異なり、ドメイン外評価の使用は、予測のために生成される重要な値と考えることができる。このようなメトリックには意思決定プロセスを導くための十分な情報を提供することが期待され、当該意思決定プロセスは、高い実験費用または厳しい規制受容基準を伴う科学、例えば化学的産業、薬学的産業および生物学的産業にとって特に重要である。
【0010】
ニューラルネットワークは敵対的攻撃に対して脆弱であることが頻繁に報告されており、すなわち、故意の呼び出し反転または入力表現へのノイズ追加などの妨害行為に曝されることがある。安全性の懸念に加えて、敵対例はまた、著しく低いレベルのリスクをはらむ用途にも所定の作用を有する。敵対例は、通常、ネットワークによる高信頼度の誤分類として定義される。最も有望なソリューションは、モンテカルロドロップアウトネットワークを使用するものである。しかし、考慮中の任意の画像に対して1つのクラスが存在するといえる場合であっても、画像は人間どうしの間で異なって知覚される可能性があるため、報告されるクラスのセットは不完全でありうることに留意すべきである。したがって、否定表現が真の否定呼び出し(「絶対的否定」)に由来するかまたは呼び出し漏れ(「言及漏れ」)に由来するかをつねに判別できるとは限らない。第1のソリューションでは、ベイジアンニューラルネットワーク(BNN)が、敵対例に対する不確実性の重要度を評価するために使用されてきた。評価されたBNNは、表現学習のコンセプトに関する著しい欠点を表示する。実際に、ベイジアンロジックを有するBNNは、典型的に、他のニューラルネットワークよりも追跡可能性が低いと報告されている。そのため、学習された表現の品質についての判断を行えず、したがって、それ自体が上述した定義不能性の定理の例となる。よって、メタ分析が、学習された表現の品質についての判断の呼び出しを形成するために必要とされる。モンテカルロドロップアウトネットワークは、敵対例に対するロバスト性が等価の決定論的な対応部分よりも著しく高いものの、典型的には不確実性レベルを過小評価することが報告されている。結論として、不確実性およびロバスト性が敵対例に対抗するための重要なポイントであることが認識されているにもかかわらず、不確実性レベルの定量化はいまだ解決されていない。
【0011】
最近特に注目すべきこととして、ディープフェイクのコンテキストにおいて、敵対的ニューラルネットワークが生成目的で使用されることが多い。このようなネットワークの最も広く知られている例が敵対的生成ネットワーク(GAN)である。典型的なGANは、2つの単一決定論的ネットワークのシステム、すなわち生成ニューラルネットワークGと弁別ニューラルネットワークDとのシステムから構成されている。警察当局の企図と犯罪者の企図との間の敵対的競争と同様に、GANは、生成器Gと弁別器Dとを最適化する交番的機構を適用してトレーニングされる。ここでの交番的機構は、弁別器Dによって現実世界のデータからもはや区別されえない現実的な例を生成器Gが生成できるようにすることを目的として適用される。GANは、教師なし弁別器を使用して、状況に応じてトレーニングされてきた。選択されるトレーニング機構にかかわらず、GおよびDは単一の「機械」システムを定義する。その結果、収束解の品質およびトゥルースは、システム自体の内部では証明不能となる。換言すれば、モデルの収束の事実は、生成された出力が実際に真の現実に即していることを証明するには十分ではないのである。したがって、このようなニューラルネットワークの品質が期待される限界内にあるかどうかを評価するための、生産用途と同様に使用可能なメタ分析が必要である。このようなメタ分析の例は、現実の画像と生成された画像とが混合されたセットから現実のピクチャを選択するようにユーザの代表セットに問い合わせることである。
【0012】
上記の考察に従えば、定義不能性および不完全性があらゆる機械学習モデルの主な欠点を定めている。換言すれば、1つの機械のトゥルースをシステム自体の内部で評価することはできない。ある機械が所定の質問に回答しなかったとしても、誤回答のあった同じ質問セットへの回答にすべての機械が失敗することを意味するわけではない。また、幾つかの問題に対して複数のマシンが正答を提供した場合、どのマシンが尋ねられた質問の一部もしくは全部につきより良い回答を提供するかを直ちに決定することはできない。最終的に、選択された機械が未来の未見のデータのすべてに対する最良のソリューションであるかどうかを知ることはできない。ただし、我々は、選択した機械が多くの質問に対する最良のソリューションであることを期待する。しかし、通常、最良の性能モデルに対して最適な結果が得られると想定すべきである。こうした問題に深く対処するためには、予測不確実性またはモデルの不確実性を評価することが不可欠である。さらに、典型的にアーキテクチャ、データ、とりわけ幾つかの他の変数から構成されるトレーニング済みモデルがクローズドシステムを定義していると考えることができる。こうしたクローズドシステムの性能は、典型的には交差検証の方法を使用して較正される。テストデータがトレーニングに使用されていなくても、当該テストデータが依然として特定の目的のために生成されて現時点で既知となっているデータからのサンプルであることが既知となるべきである。このため、テストデータ中にバイアスが生じることもある。よって、たとえテストセットが未来の未見のデータポイントの典型的なセットの大部分を代表していても、このことが必ずしもすべての未来のデータについて真であるとは限らないことを予期しておかなければならない。つまり、未来のデータについての結果は、テストセットについて測定された結果から著しく逸脱することがある。特に、過去の選択が未来の選択の導出に使用される選択の問題において、強い偏差が生じうる。また、結果は、サンプルサイズおよびサンプルバイアスによっても強い影響を受ける。さらに、モデルの検証はテストデータを使用したモデルのトレーニング中に既に実行されており、未来のデータを使用して判断されるべきではない。
【0013】
モデリングに関する不確実性は、典型的には、偶発的不確実性と認識論的不確実性とに区別される。偶発的不確実性は一般に統計的不確実性として理解され、すなわち、実験が実行されるたびに未知の作用によって生じる変動の影響を受けることである。より一般的に、ここでのコンテキストでは、標準偏差またはデータ分散に関して論じる。したがって、偶発的不確実性は、モデルのトレーニングに使用されるデータによって定義されるものであり、データの不確実性と称される。よって、データにおけるノイズレベルが増大するにつれて予測誤差も増大することが予測されうる。同じ手順の表示を用いて生成されたデータが等分散性となり、一方、複数のソースに由来するデータが不均一分散性となりうることも予測可能である。変化する変動も、経時的に変化する実験条件によって導入されうる。データが不均一分散性である場合、分散は、それぞれ異なるソースからのデータのマージを成功させることにとって不可欠な特性である。偶発的不確実性とは対照的に、認識論的不確実性については、機械学習モデルおよび深層学習モデルの場合における、技術的限界または技術的知識の欠如によって引き起こされるエラーのコンセプトをいう。したがって、モデリングのコンテキストにおいては、認識論的不確実性はモデルの不確実性と称されうる。こうした種類の不確実性は、モデルパラメータが十分に決定されていないケース、すなわちデータが欠如した状態でトレーニングが行われたケースで典型的に生じると説明することで、容易に例示可能である。このようなケースは、ネットワークのハイパーパラメータにつき広範なアポステリオリ性を有するとも称される。
【0014】
近年、深層学習モデルにおける不確実性を評価するために、種々の方法が提案されている。不確実性の評価が1990年代以降継続されてきていることが指摘される。しかし、これらの初期の刊行物では、モデルの不確実性ではなくデータの不確実性について述べられている。換言すれば、これらのモデルは、モデル間の分散ではなく、データにおいて観察される分散を予測することを目的としている。こうした予測の顕著な欠点は、データ分散が典型的にはデータポイントの特性ではないという事実である。実際には、観察されるデータの不確実性は報告されるポイントの数に基づいて著しく変化しうるものであり、典型的には測定数の増大に伴って真の分散へと安定していく。モデルの不確実性を評価するために種々の方法が導入されてきた。これらの方法は、典型的には4つの潮流、すなわち、1)テスト時間拡張法、2)ベイズ法、3)単一決定論的ニューラルネットワークの不確実性、および4)アンサンブルニューラルネットワーク、に区別される。
【0015】
テスト時間拡張法によって生成される不確実性の評価は、同じモデルを使用した種々の入力表現を予測することに基づいている。拡張という場合、同じニューラルネットワークに送信可能な同じ物体のそれぞれ異なる表現を生成することをいう。画像の場合、拡張は、画像に対して水平方向もしくは垂直方向のフリップもしくは回転を適用することによって容易に例示可能である。使用される表現にかかわらず、ネットワークが物体を認識することが期待される。ここでのコンテキストにおいては、むしろ表現の不確実性について述べるものとする。したがって、テスト時間拡張は敵対例の評価に不可欠な方法であり、すなわち、我々は、修正がモデルの予測に影響を有さないかどうか、または影響を制限しているかどうかを評価する。他の報告では、ニューラルネットワークのロバスト性および安定性を改善するために、トレーニング時間中およびテスト時間中に拡張が適用されるべきであることが示されている。この方法の主な欠点は、データ表現が拡張可能となる要件である。この方法は、画像および言語のニューラルネットワークに対しては可能であるが、表現のシャッフルに関して不変の潜在空間を生成する任意のネットワークに対しては不可能である。後者のタイプのニューラルネットワークの例は、分子の予測に使用されることの多いグラフニューラルネットワークであり、例えば、論文David Duvenaud & al., Convolutional Networks on Graphs for Learning Molecular Fingerprints(https://arxiv.org/abs/1509.09292)に示されている。
【0016】
ベイジアンニューラルネットワークにおいては、モデルのパラメータにわたる確率分布が学習され、多くの場合これに続いて当該確率に対して正規化が適用される。このように、連続する2つのステップにより、本質的な特徴に関するエビデンス層が作成される。ベイジアンアプローチの大きな欠点として、特に高い複雑性レベルを有するシステムに対してソリューションがクローズド型のソリューションを定めないという事実が含まれる。複雑なシステムの例としてニューラルネットワークが挙げられる。この問題に対処するために、事後確率の計算に対し、計算コストの高い近似ベイズ推論(ABI)技術を適用する必要がある。代替的に、ABIをネットワークに組み込むこともできる。しかし、これにより、例外的に大きなニューラルネットワークが体系的に作成され、このようなタイプのネットワークの実用上の有用性が制限される。さらに、ベイジアンニューラルネットワークは、モンテカルロ近似などの近似技術を適用することによって部分的に修正可能な、低いレベルのトレーサビリティも示す。最終的に、ベイジアンアプローチの成功が関連する事前分布の選択に依存することは広く知られている。この点は、ニューラルネットワークについてはいまだ解決されていない。最適な事前分布を指定することは、深層学習のコンテキストにおいては未解決の問題であり続けている。
【0017】
モンテカルロ法のドロップアウトストラテジの適用は、論文Lewis Smith & al., Understanding Measures of Uncertainity for Adversarial Example Detection(https://arxiv.org/abs/1803.08533)に示されているように、モデルの不確実性を評価するために利用可能な、現時点で最良の方法である。このソリューションでは、モデルのトレーニング段階および推論段階の間、ドロップアウト層が使用される。不確実性を計算するために、使用される方法に対する技術的制約を定める、ネットワークにおける複数の順方向パスが要求される。生成された不確実性値に関して、これらの値がしばしば楽観的すぎること、より具体的には不確実性が過小評価される傾向があることが報告されている。当該効果は、パスごとに潜在変数のサブセットがランダムに選択され、ランダム選択が同じ変数セットを反復使用することができるという事実によって説明可能である。この問題は例外的に大きなドロップアウト率を使用することによって改善可能であるが、このようにすると当然ながらきわめて大きなニューラルネットワークが生じる。ネットワークサイズは、画像またはテキストに関する問題ほどではないが、付加的なデータポイントの生成に相当のコストを伴う用途に関しては考慮すべき重要点であることに留意すべきである。
【0018】
代替的に、単一決定論的ニューラルネットワークを使用して、ディープニューラルネットワークにおける不確実性を評価することができる。第1のグループのソリューションでは、不確実性は、第2のニューラルネットワークを使用して、すなわちトレーニングセットまでの距離のメトリックまたは潜在空間の統計的ホテリングを使用して、推定可能である。上記の方法のいずれも、既にトレーニング済みのモデルには影響を及ぼさない。定義不能性の問題は、トレーニングセットまでの距離を測定するコンセプトにおいては充分に可視となる。この方法では、距離が予測の信頼性を代表するものと仮定される。しかし、生成される距離は、選択された定義から得られるものであり、定義間で大きく異なりうる。換言すれば、1つの定義において距離が近いという事実は、すべての定義において距離が近いことを意味しない。さらに、1つのトレーニング済みモデルにおいて観察された距離が、第2のモデルにおいて観察された距離には対応しないことさえある。よって、帰謬法においてみると、先行するシステムの結果を証明する付加的なシステムが再帰的に必要となる。まとめると、ドメイン内評価、信頼性のメトリックまたは説明可能なAIを求めることは、定義不能性の定理によって制限される。
【発明の概要】
【発明が解決しようとする課題】
【0019】
本発明は、これらの欠点の全部または一部に対処することを目的とする。
【課題を解決するための手段】
【0020】
第1の態様によれば、本発明は、アンサンブルニューラルネットワークデバイスをトレーニングするシステムであって、1つもしくは複数のコンピュータプロセッサと、1つもしくは複数のコンピュータプロセッサに動作可能に結合された1つもしくは複数のコンピュータ可読媒体と、を含み、1つもしくは複数のコンピュータ可読媒体は、1つもしくは複数のコンピュータプロセッサによって実行される際に、1つもしくは複数のコンピュータプロセッサに、次の各ステップ、すなわち、
-少なくとも1つの入力セットと入力セットに関連付けられた少なくとも1つの出力セットとを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブルを含むニューラルネットワークデバイスへ提供するステップと、
-標本データセットに基づいてニューラルネットワークデバイスを動作させるステップと、
-出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップと、
を実行させるための命令を記憶している、システムであって、
-ニューラルネットワークデバイスがさらに、少なくとも2つの独立した活性化関数を含み、独立した活性化関数のうちの少なくとも2つが、複数の独立した予測の統計分布を表現しており、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つに対する少なくとも1つの出力を提供するように構成されており、
-動作させるステップがさらに、アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップを含み、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つを表現する値を最小化するようにトレーニングされる、
システムに関する。
【0021】
このような実施形態により、大幅に高い予測安定性、信頼性ならびに改善されたトレーニング速度および全体性能を得ることができ、さらにモデルの不確実性を表現する分散のメトリックが提供される。したがって、当該実施形態によって、計算時間または計算能力の観点から、またモデルの複雑性の観点から、リソースの節約が可能となる。典型的には、現行のアプローチは、信頼性の高い予測モデルを得るために多数のモデルおよび多数回の反復の使用を必要とする。
【0022】
当該実施形態では、例えば、標的の周囲での分布の平均が最小化されるようにトレーニングされ、分布の分散がゼロに近い値もしくはゼロに等しい値へ最小化されるようにトレーニングされる。これにより、1回の呼び出しで、トレーニング済みアンサンブルニューラルネットワークデバイスにおいて可能な最小の分散を得ることができる。
【0023】
従来技術では、時折、損失関数の勾配が分散の関数として修正されているが、これは、損失関数が特に損失における少なくとも2つの方程式を同時に解くことから成る散乱予測の問題を低減するという検証不能な希望に基づいている。これにより、多目的最適化問題が生じる。論理規則に従って、これら少なくとも2つの最小化すべき方程式対象間で妥協点が見出されなければならず、これは、最小化すべき目的関数が唯一である場合よりも複雑である。特定の実施形態では、取得するステップにおいて取得されたニューラルネットワークデバイスが、付加的に、出力の分散を表現する値を提供するように構成されている。
【0024】
このような実施形態は、より大きなモデルの説明可能性を可能にする。
【0025】
特定の実施形態では、活性化関数のうちの少なくとも2つは、
-複数の独立した予測の統計分布の平均、および
-複数の独立した予測の統計分布の分散
を表現している。
【0026】
特定の実施形態では、ニューラルネットワークデバイスがさらに、複数の独立した出力の学習された分布を少なくとも2つの独立した活性化関数のうちのトレーニングされた少なくとも2つの関数として使用することによって生成された出力のシミュレーションを追加するように構成された層を含む。
【0027】
このような実施形態により、初期入力が小さすぎる場合の分布を出力が表現するよう、当該出力を増強することができる。
【0028】
第2の態様によれば、本発明は、ニューラルネットワークデバイスをトレーニングするためのコンピュータ実装方法であって、
-少なくとも1つの入力セットと入力セットに関連付けられた少なくとも1つの出力セットとを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブルを含むニューラルネットワークデバイスへ提供するステップと、
-標本データセットに基づいてニューラルネットワークデバイスを動作させるステップと、
-出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップと、
を含み、
-ニューラルネットワークデバイスを動作させるステップでは、ニューラルネットワークデバイスが少なくとも2つの独立した活性化関数を含み、独立した活性化関数のうちの少なくとも2つが、複数の独立した予測の統計分布を表現しており、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つに対する少なくとも1つの出力を提供するように構成されており、
-動作させるステップがさらに、アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップを含み、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つを表現する値を最小化するようにトレーニングされる、
コンピュータ実装方法に関する。
【0029】
本発明の対象である方法は、本発明の対象であるシステムと同じ利点を提供する。
【0030】
第3の態様によれば、本発明は、本発明の対象であるコンピュータ実装方法によって取得されるコンピュータ実装ニューラルネットワークデバイスに関する。
【0031】
本発明の対象であるコンピュータ実装ニューラルネットワークデバイスは、本発明の対象であるシステムと同じ利点を提供する。
【0032】
第4の態様によれば、本発明は、コンピュータ上で実行される際に、本発明の対象である方法の各ステップを実行するための命令を含む、コンピュータプログラム製品に関する。
【0033】
本発明の対象であるコンピュータプログラム製品は、本発明の対象であるシステムと同じ利点を提供する。
【0034】
第5の態様によれば、本発明は、コンピュータ上で実行される際に、本発明の対象である方法の各ステップを実行するための命令を記憶した、コンピュータ可読媒体に関する。
【0035】
本発明の対象であるコンピュータ可読媒体は、本発明の対象であるシステムと同じ利点を提供する。
【0036】
第6の態様によれば、本発明は、フレーバー成分、フレグランス成分もしくは薬剤成分の物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を予測するためのコンピュータ実装方法であって、当該コンピュータ実装方法が、
-コンピューティングデバイスにより、本発明の方法に従ってニューラルネットワークデバイスをトレーニングするステップであって、ここで、標本データセットが、
-入力としての、フレーバー成分、フレグランス成分もしくは薬剤成分の組成物、および
-出力としての、うち1つが組成物の分子量である少なくとも1つの物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性
を表現している、ステップと、
-コンピュータインタフェース上で、少なくとも1つのフレーバー成分、フレグランス成分もしくは薬剤成分のデジタル識別子を入力するステップであって、ここで、得られる入力はフレーバー成分、フレグランス成分もしくは薬剤成分の組成物に対応する、ステップと、
-コンピューティングデバイスにより、トレーニング済みニューラルネットワークデバイスを動作させるステップと、
-コンピュータインタフェース上で、組成物に対する、トレーニング済みニューラルネットワークデバイスによって出力された少なくとも1つの物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を提供するステップと、
を含む、コンピュータ実装方法に関する。
【0037】
第7の態様によれば、本発明は、画像における表現カテゴリを予測するためのコンピュータ実装方法であって、当該方法が、
-コンピューティングデバイスにより、本発明の方法に従ってニューラルネットワークデバイスをトレーニングするステップであって、ここで、標本データセットが、
-入力としての画像、および
-出力としての、入力画像における少なくとも1つの表現カテゴリ
を含む、ステップと、
-コンピュータインタフェース上で、少なくとも1つの画像を入力するステップと、
-コンピューティングデバイスにより、トレーニング済みニューラルネットワークデバイスを動作させるステップと、
-コンピュータインタフェース上で、組成物に対する、トレーニング済みニューラルネットワークデバイスによって出力された少なくとも1つの表現カテゴリを提供するステップと、
を含む、コンピュータ実装方法に関する。
【0038】
このような規定により、例えば医用イメージングまたは細胞活性化において使用されるような、画像に基づく予測が可能となる。
【0039】
本発明の他の利点、目的および特定の特徴は、添付の図面に即した本発明の少なくとも1つの特定の実施形態の以下の非網羅的な説明から明らかとなるであろう。
【図面の簡単な説明】
【0040】
【
図1】ニューラルネットワークデバイスコンポーネントの一般的な表現を概略的に示す図である。
【
図2】本発明の対象であるシステムの第1の特定の一連のステップを概略的に示す図である。
【
図3】本発明の対象であるシステムの第2の特定の一連のステップを概略的に示す図である。
【
図4】本発明の対象であるシステムについての、方法の第1の特定のシーケンスを概略的に示す図である。
【
図5】本発明のフレグランス成分またはフレーバー成分の組成物の物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を予測するための方法の第1の特定のシーケンスを概略的に示す図である。
【
図6】本発明の対象である画像の表現カテゴリを予測するための方法の第1の特定のシーケンスを概略的に示す図である。
【
図7】本発明の対象である方法を実行するように構成されたコンピュータアーキテクチャを概略的に示す図である。
【
図8】分子の分子量を予測するために使用される2つの比較された特定のアーキテクチャを概略的に示す図である。
【
図9】2つの特定のアーキテクチャの性能結果を示す図である。
【
図10】2つの特定のアーキテクチャの性能結果を示す図である。
【
図11】2つの特定のアーキテクチャの性能結果を示す図である。
【
図12】2つの特定のアーキテクチャの性能結果を示す図である。
【
図13】2つの特定のアーキテクチャの性能結果を示す図である。
【発明を実施するための形態】
【0041】
1つの実施形態の各特徴は任意の他の実施形態の任意の他の特徴と有利な形式で組み合わせることができるので、ここでの説明は網羅的なものではない。
【0042】
様々な本発明のコンセプトを、そのうちの一例を提示した1つもしくは複数の方法として実現することができる。方法の一部として実行される動作は、任意の適切な方式で順序付けることができる。したがって、図示の順序とは異なる順序で動作が実行される実施形態を構成することもでき、ここでの順序には、図示の実施形態では連続する動作として示されていても、幾つかの動作を同時に実行することが含まれうる。
【0043】
本明細書および特許請求の範囲において使用される不定冠詞「1つの(“a”,“an”)」は、別段の明記がない限り、「少なくとも1つの」を意味すると理解されるべきである。
【0044】
本明細書および特許請求の範囲において使用される「および/または」なる語句は、この語句によって接続された要素の「いずれか一方または双方」、すなわち、ある場合には結合的に存在する要素を、他の場合には選択的に存在する要素を意味すると理解すべきである。「および/または」により列挙される複数の要素は、同じ形式で、すなわち、そのように組み合わされた要素の「1つもしくは複数」として解釈されるべきである。「および/または」句節にて具体的に識別される要素以外の他の要素も、具体的に識別される要素に関連するかもしくは関連しないかにかかわらず、任意選択手段として存在しうる。したがって、非限定的な例として、「含む(comprising)」などのオープンエンドな語と共に使用される場合、「Aおよび/またはB」との言及は、ある実施形態ではAのみ(任意選択手段としてB以外の要素を含む)を指し、別の実施形態ではBのみ(任意選択手段としてA以外の要素を含む)を指し、さらに別の実施形態ではAおよびBの双方(任意選択手段として他の要素を含む)などを指すことができる。
【0045】
本明細書および特許請求の範囲で使用される場合、「または」は、上記にて定義した「および/または」と同じ意味を有すると理解されるべきである。例えば、列挙における各項目を分離する場合、「または」もしくは「および/または」は包括的であると解釈されるべきであり、すなわち、少なくとも1つの要素を含み、また複数の要素もしくは要素リストのうちの2つ以上の要素を含み、さらに任意選択手段として列挙されていない付加的な項目も含むものと解釈されるべきである。逆に、明確な指示を有する語、例えば「~のうちの1つのみ」もしくは「~のうちの正確に1つ」、または特許請求の範囲において使用される場合の「~から成る」は、複数の要素または要素リストのうちの正確に1つの要素のみを含むことを指す。一般に、本明細書で使用される「または」なる語は、「~のいずれか」、「~のうちの1つ」、「~のうちの1つのみ」または「~のうちの正確に1つ」などの排他性を示す語が付随する場合にのみ、排他的な選択肢(すなわち「一方または他方であって双方ではない」こと)を示すものとして解釈されるべきである。特許請求の範囲において使用される場合の「実質的に~から成る」は、特許法分野において使用されている通常の意味を有する。
【0046】
本明細書および特許請求の範囲において使用される場合、1つもしくは複数の要素リストについていう「少なくとも1つ」なる語句は、要素リスト内の任意の1つもしくは複数の要素から選択された少なくとも1つの要素を意味すると理解されるべきであるが、必ずしも要素リスト内に具体的に列挙されたすべての要素をそれぞれ少なくとも1つずつ含むとは限らず、要素リスト内の要素の任意の組み合わせが除外されてはならない。当該定義により、「少なくとも1つ」なる語句の指す要素リスト内で特に識別される要素以外の各要素が、特に識別される要素に関連するかまたは関連しないかにかかわらず、任意選択手段として存在していてもよい。よって、非限定的な例として、「AおよびBのうちの少なくとも1つ」(または等価の「AまたはBのうちの少なくとも1つ」または等価の「Aおよび/またはBのうちの少なくとも1つ」)は、ある実施形態では、少なくとも1つの、任意選択手段としては2つ以上のAを含み、Bは存在しない(かつ任意選択手段としてB以外の要素を含む)ケース、また別の実施形態では、少なくとも1つの、任意選択手段としては2つ以上のBを含み、Aは存在しない(かつ任意選択手段としてA以外の要素を含む)ケース、さらに別の実施形態では、少なくとも1つの、任意選択手段としては2つ以上のAと、少なくとも1つの、任意選択手段としては2つ以上のBと、を含む、(かつ任意選択手段として他の要素を含む)ケース、などを指すことができる。
【0047】
特許請求の範囲および本明細書において、「備える」、「含む」、「担持する」、「有する」、「含有する」、「付属する」、「保持する」、「~から構成される」などのすべての移行句はオープンエンドであると理解されるべきであり、すなわち、記載の要素を含むがこれらに限定されないことを意味する。なお、「~から成る」および「~から実質的に成る」なる移行句は,それぞれクローズエンドまたは準クローズエンドであるものとする。
【0048】
ここで、図面は縮尺通りに描かれていないことに留意すべきである。
【0049】
本明細書で使用される「揮発性成分」なる用語は、好ましくはフレーバー付与能力またはフレグランス付与能力を示す任意の成分を指す。「化合物」または「成分」なる用語は、「揮発性成分」と同じ物品を指す。成分とは、1つもしくは複数の化学分子から形成されるものでありうる。
【0050】
組成物なる用語は、少なくとも1つのフレグランス成分またはフレーバー成分の液体状、固体状または気体状の調合物を指す。
【0051】
本明細書で使用される「フレーバー」とは、少なくとも1つの揮発性成分によるオルソネーザル嗅覚およびレトロネーザル嗅覚を介した、匂い物質受容体の活性化、増強および(存在する場合の)阻害と味覚受容体細胞を含む味蕾の活性化との総体から得られる嗅覚知覚を指す。したがって、例示であって本開示の範囲の限定を意図するものではないが、「フレーバー」とは、ココナッツの調性に関連付けられた匂い物質受容体もしくは味蕾を活性化する第1の揮発性成分と、セロリの調性に関連付けられた匂い物質受容体もしくは味蕾を活性化する第2の揮発性成分と、干し草の調性に関連付けられた匂い物質受容体もしくは味蕾を阻害する第3の揮発性成分と、の総体から得られるものである。
【0052】
本明細書で使用される「フレグランス」とは、少なくとも1つの揮発性成分による匂い物質受容体の活性化、増強および(存在する場合の)阻害の総体から得られる嗅覚知覚を指す。したがって、例示であって本開示の範囲の限定を意図するものではないが、「フレグランス」とは、ココナッツの調性に関連付けられた匂い物質受容体を活性化する第1の揮発性成分と、セロリの調性に関連付けられた匂い物質受容体を活性化する第2の揮発性成分と、干し草の調性に関連付けられた匂い物質受容体を阻害する第3の揮発性成分と、の総体から得られるものである。
【0053】
本明細書で使用される「入力手段」なる用語は、例えば、ユーザ入力を収集できる方式でコンピューティングシステムと対話するように適応化されたキーボード、マウスおよび/またはタッチスクリーンである。変形形態においては、入力手段は本質的に論理的なものであり、例えば、電子的に送信された入力コマンドを受信するように構成されたコンピューティングシステムのネットワークポートである。このような入力手段は、ユーザに対して示されるGUI(Graphics User Interface)またはAPI(Application Programming Interface)に関連付けることができる。別の変形形態によれば、入力手段は、意図された使用事例に関連する特定の物理パラメータを測定するように構成されたセンサとすることができる。
【0054】
本明細書で使用される「コンピューティングシステム」または「コンピュータシステム」なる用語は、中央型であるかまたは分散されているかにかかわらず、数値入力を受信し、任意の種類のインタフェースによってもしくは任意の種類のインタフェースへデジタルでかつ/またはアナログで数値出力を提供することのできる任意の電子計算デバイスを指す。典型的には、コンピューティングシステムとは、データストレージへのアクセスを有するソフトウェアを実行するコンピュータ、またはクライアント側がインタフェースとして動作する間、サーバ側でデータおよび/または計算が実行されるクライアント-サーバアーキテクチャのいずれかを指す。
【0055】
本明細書で使用される「デジタル識別子」なる用語は、任意のコンピュータ化された識別子、例えばコンピュータデータベースにおいて使用される識別子を指し、物理的な対象物、例えばフレーバー付与成分を表す。デジタル識別子は、フレーバー付与成分の名称、化学構造または内部参照を表すラベルを指すこともできる。
【0056】
本明細書で使用される「ヒト反応」なる用語は、組成物にヒトを直面させることによって誘発される任意の身体的挙動を指す。当該挙動は、組成物に対する評価または嫌悪のように広義に定義することもできるし、またはより詳細には、例えば組成物に直面した際の顔の表情もしくは体の動きのような記述であってもよい。
【0057】
本明細書では、「具体化される」なる用語は、本発明のデジタル環境外に存在するものを意図している。「具体化される」とは、例えば、自然界で容易に見出されるかまたは実験室もしくは化学プラントにおいて合成されることを意味しうる。いずれにしても、具体化された組成物は有形の現実性を示す。「配合される」または「配合した」なる用語は、成分の抽出および調合によるかまたは成分の合成および調合によるかに関わらず、組成物を具体化する動作を指す。
【0058】
本明細書で使用される「活性化関数」なる用語は、ニューラルネットワークにおいて、入力の重み付け和がどのようにネットワークの層内の1つもしくは複数のノードからの出力へ変換されるかを定義するものである。当該活性化関数は、ネットワーク内の層によってまたは損失関数における算術解によって定義可能である。
【0059】
以下に開示する実施形態は、一般的な方式で提示する。
【0060】
図2には、本発明の対象であるシステム200の特定の実施形態が示されている。アンサンブルニューラルネットワークデバイスをトレーニングする当該システム200は、1つもしくは複数のコンピュータプロセッサと、1つもしくは複数のコンピュータプロセッサに動作可能に結合された1つもしくは複数のコンピュータ可読媒体と、を備え、1つもしくは複数のコンピュータ可読媒体は、1つもしくは複数のコンピュータプロセッサによって実行される際に、1つもしくは複数のコンピュータプロセッサに、次の各ステップ、すなわち、
-少なくとも1つの入力セット220と入力セットに関連付けられた少なくとも1つの出力セット225とを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブル230を含むニューラルネットワークデバイスへ提供するステップ205と、
-標本データセットに基づいてニューラルネットワークデバイスを動作させるステップ210と、
-出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップ215と、
を実行させるための命令を記憶しており、ここで、
-ニューラルネットワークデバイスがさらに少なくとも2つの独立した活性化関数を含み、独立した活性化関数のうちの少なくとも2つが、複数の独立した予測の統計分布を表現しており、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つに対する少なくとも1つの出力235,236を提供するように構成されており、
-動作させるステップがさらに、アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップを含み、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つを表現する値を最小化するようにトレーニングされる。
【0061】
システム200自体は、コンピュータプロセッサによって実行される特徴的なステップを実行する手段の任意の組み合わせから形成可能である。
【0062】
提供するステップ205は、コンピュータインタフェース、例えばAPIまたは任意の他のデジタル入力手段を介して実行可能である。当該提供するステップ205は、手動でまたは自動的に開始可能である。標本データセットは、コンピュータインタフェース上で、手動で、またはコンピューティングシステムによって自動的に、より大きな標本データセットから組み立てることができる。
【0063】
標本データは、例えば、
-任意選択手段として組成物識別子に関連付けられる組成物を形成する、少なくとも1つのフレグランス成分、フレーバー成分もしくは薬剤成分の少なくとも1つのデジタル識別子、および
-組成物の分子量
を含みうる。
【0064】
このような標本データセットは、組成物を調合して各原子の理論重量を数学的に加算し、標本セットの組成物の分子量を得ることによって取得することができる。
【0065】
他の変形形態では、標本データは、例えば、
-少なくとも1つの画像、および
-少なくとも1つの前記画像についての、画像が表現している可能カテゴリリスト中のカテゴリ(例えば、「飛行機」、「車両」、「鳥」、「猫」、「シカ」、「犬」、「カエル」、「馬」、「船」、「トラック」)、
を含みうる。このようなカテゴリは、タグ、ラベル、呼び出しまたは表現のクラスと称されることもある。
【0066】
動作させるステップ210は、例えば、コンピューティングシステム上で実行されるコンピュータプログラムによって実行可能である。アンサンブルニューラルネットワークデバイスは、当該動作させるステップ210の間、入力データに基づいてトレーニングを行うように構成されている。アンサンブルニューラルネットワークデバイスの各ニューラルネットワークは、当該動作させるステップ210の間、人工ニューロンの層の係数をコンフィグレーションして、出力分布を形成する出力を提供する。分布を表現する統計パラメータの値が取得され、最小化されるべき活性化関数において使用可能となる。
【0067】
特定の実施形態では、活性化関数のうちの少なくとも2つは、
-複数の独立した予測の統計分布の平均、
-複数の独立した予測の統計分布の分散、および
-任意選択手段としての、
-複数の独立した予測の統計分布のスキュー、および/または
-複数の独立した予測の統計分布の尖度
を表現する付加的な活性化関数での拡張、
を表現している。
【0068】
取得するステップ215は、コンピュータインタフェース、例えばAPIまたは任意の他のデジタル出力システムを介して実行可能である。取得されたトレーニング済みアンサンブルニューラルネットワークデバイスは、例えばハードディスクドライブまたはデータベースのようなデータストレージに記憶可能である。
【0069】
特定の実施形態では、取得するステップ215の間に取得されたニューラルネットワークデバイスは、付加的に、出力の統計的分散を表現する少なくとも1つの値を提供するように構成される。
【0070】
図3には、本発明の対象であるシステム200の特定の実施形態が示されている。
【0071】
当該実施形態では、ニューラルネットワークデバイスがさらに、複数の独立した出力の学習された分布を少なくとも2つの独立した活性化関数のうちのトレーニングされた少なくとも2つの関数として使用することによって生成された出力のシミュレーション245を追加するように構成された層240を含む。
【0072】
こうした実施形態は、例えば、ニューラルネットワークデバイスが提供する出力の平均および分散に基づく、出力のガウス拡張に対応しうる。
【0073】
図4には、ニューラルネットワークデバイスをトレーニングするためのコンピュータ実装方法300の特定の一連のステップが概略的に示されており、当該方法は、
-少なくとも1つの入力セットと入力セットに関連付けられた少なくとも1つの出力セットとを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブルを含むニューラルネットワークデバイスへ提供するステップ305と、
-標本データセットに基づいてニューラルネットワークデバイスを動作させるステップ310と、
-出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップ315と、
を含み、
-ニューラルネットワークデバイスを動作させるステップでは、ニューラルネットワークデバイスがさらに少なくとも2つの独立した活性化関数を含み、独立した活性化関数のうちの少なくとも2つが、複数の独立した予測の統計分布を表現しており、ニューラルネットワークデバイスが、前記独立した活性化関数のうちの少なくとも2つに対する少なくとも1つの出力を提供するように構成されており、
-動作させるステップがさらに、アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップ320を含み、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つを表現する値を最小化するようにトレーニングされる。
【0074】
図2および
図3に示されている本発明の対象であるシステム200の対応するステップに関して、提供するステップ305、動作させるステップ310および320、および取得するステップ315が開示されている。
【0075】
本発明は、ニューラルネットワークデバイスが請求項5記載のコンピュータ実装方法300によって取得されることを特徴とする、コンピュータ実装ニューラルネットワークデバイスに関する。
【0076】
本発明は、コンピュータ上で実行される際に、
図4に示されている方法300の各ステップを実行するための命令を含む、コンピュータプログラム製品に関する。
【0077】
本発明は、コンピュータ上で実行される際に、
図4に示されている方法300の各ステップを実行するための命令を記憶した、コンピュータ可読媒体に関する。
【0078】
図5には、本発明の対象である方法400の特定の一連のステップが概略的に示されている。フレーバー成分、フレグランス成分もしくは薬剤成分の物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を予測するためのコンピュータ実装方法400(例えば、刊行物Molecular descriptors for chemoinfomatics, Roberto Todeschini, Viviana Consonni second, revised and enlarged edition, Wiley et al.に開示されているもの)は、
-コンピューティングデバイスにより、
図4に示されている方法300に従ってニューラルネットワークデバイスをトレーニングするステップ405であって、ここで、標本データセットが、
-入力としての、フレーバー成分、フレグランス成分もしくは薬剤成分の組成物、および
-出力としての、うち1つが組成物の分子量である、少なくとも1つの物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性、
を表現している、ステップ405と、
-コンピュータインタフェース上で、少なくとも1つのフレーバー成分、フレグランス成分もしくは薬剤成分のデジタル識別子を入力するステップ410であって、ここで、得られる入力はフレーバー成分、フレグランス成分もしくは薬剤成分の組成物に対応する、ステップ410と、
-コンピューティングデバイスにより、トレーニング済みニューラルネットワークデバイスを動作させるステップ415と、
-コンピュータインタフェース上で、組成物に対する、トレーニング済みニューラルネットワークデバイスによって出力された少なくとも1つの物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を提供するステップ420と、
を含む。
【0079】
方法400は、
図2に関して開示されている本発明の対象であるシステム200の実施形態の1つとして、本発明の対象となっている。
【0080】
こうして、分子の分子量(MW)を予測することができる。分子量は、分子内のすべての原子につき原子量を合計することにより計算される。このような単純な標的を使用することにより、提案の任意の所与の分子について分子量を計算できることを考慮して、所与のアーキテクチャが任意のデータサイズから有意の分子情報を抽出できるかどうかを評価することができる。こうしたアプローチの主な利点には、当該アプローチが測定値において分散のないことを示す正確なメトリックを有するという事実が含まれる。分子量とは対照的に、実験により測定される標的は、実質的には単なる原子量の合計ではなく、使用される条件に関する複雑な関数である。分子量を正確に予測することができれば、上記にて列挙した不確実性の欠点を考慮して、モデルがデータから化学知識を正しく抽出したことを少なくとも検証することができる。ここで、こうした化学知識の抽出の評価は、モデルが実験の標的についてのみトレーニングされている場合、簡単ではない。
【0081】
以下に、さらなる考察および実施形態を開示する。
【0082】
化学特性に関して、本明細書では、本発明のニューラルネットワークにおける分子量の予測に関する結果を提示する。分子量の予測のタスクは明らかであると思われるが、当該分子量の予測は2つの主な利点を有する。すなわち、第一に、標的が、最小からゼロの値分散を有する厳密な値となることである。よって、実験において、結果の説明としてのデータの分散を排除した結果を評価することができる。第二に、ニューラルネットワークが正しい化学的抽出を行うことができたかどうかが予測により明確に伝えられることである。
【0083】
ここでの比較は、単一決定論的ニューラルネットワーク(SDNN)と平均および分散(MSENN)を使用してトレーニングされるアンサンブルニューラルネットワークとによって分子量を予測するために実行される。モデルは、典型的には自然言語処理において使用されるリカレントニューラルネットワークを使用してトレーニングされている。入力は、分子の原子および結合を定義するトークン化されたベクトルによって定義され、典型的には自然言語処理に使用されるトークン化された入力にきわめて類似している。このようなフォーマットの例はSMILES文字列である。結果は、分子量が450未満である嗅覚特性、味覚特性および医学的特性のために使用される天然植物に典型的に認められる9979分子の内部データセットについて計算されたものである。
【0084】
第1の結果として、SDNNの再現性が制限されることが示されている。第一に、SDNNの性能が大きく変動することが見て取れる。実際には、データ上の分散は限定的であるにもかかわらず、トレーニングセット905およびテストセット910の双方の性能におけるRMSEについて、大きな差を見て取ることができる。すべてのネットワークが同一の初期重みから開始されてトレーニングされていることに留意されたい。第二に、性能が使用されたデータのスプリットに強く依存することが観察される。事実として、幾つかのデータスプリットにつきテスト性能が過度に楽観的であること、幾つかのポイントにつき十分に平衡化されていること、ならびに、ほとんどのスプリットに対して過度に悲観的であることが観察されうる。変動する結果に基づいて、予想される性能が著しく分散しうることを既に定義することができる。換言すれば、あるテストセットについて取得された性能が別のテストセットについての性能の知識を示さない。未来の未見のデータについての性能が同じ性能分散を示す可能性があると予想される場合であっても、正確な性能は評価された選択に強く依存する。実際に、未来の選択されたデータセットについてのサンプルサイズおよびサンプルバイアスは性能に強く影響を与える。
【0085】
第2の結果として、2つのネットワーク間で同じトレーニング-テストスプリットを適用したSDNNの性能に対して、本願のアンサンブルニューラルネットワークの性能が比較される。第一に、1個の例外を除いて、トレーニングセットについての性能1005が、0.5~0.6のRMSEで安定していることが見て取れる。トレーニングセットおよびテストセットにつき観察されたRMSE値による分布には、単一モデルと比較した、アンサンブルモデルに関する明らかなダウンシフト1010が示されている。第二に、テストセットの性能が単一ネットワークの性能と比較して著しく改善されていることも見て取れる。前述したように、性能は、使用されるスプリットに依存して変動する。実際には、トレーニング性能は、本発明のアンサンブルニューラルネットワークにおいてはきわめてロバストであるものの、テスト性能1015の範囲がきわめて大きくなっている。これらの結果は、ここでもまた、あるテストについての性能が別のテストについての性能を示さないことを示唆している。上述したように、未来の未見のデータについての性能を検証する際にも、同様の分散が発生すると予測すべきである。第三に、アンサンブルニューラルネットワークを使用した場合、ニューラルネットワークによってRMSEが15~30%低下していることも見て取れる。データ1020およびデータ1025におけるトレーニングセットおよびテストセットの双方につき、こうした低下が観察される。
【0086】
まとめると、平均および分散に基づいて能動的にトレーニングされるアンサンブルニューラルネットワークは、単一決定論的ニューラルネットワークと比較して、より良好な性能を示す。
【0087】
平均および分散の正規分布トレーニングが使用可能である一方、当該方法は、他の統計分布によっても使用可能である。
【0088】
図8には、分子の分子量を予測するようにトレーニングされた2つのニューラルネットワークデバイスが示されている。2つのネットワークの双方とも、入力は、ジエチルエーテル分子について示されているものと同じ分子を定義している複数のNLP互換表現のセットである。埋め込み層は、離散的な整数から連続ベクトルへの変換である。RNN層は、時間シーケンス分析を適用する。層の例は、GRUまたはLSTMである。マルチシーケンスアテンションは、処理されたすべての入力シーケンスから取得された知識を結合するためのプーリング機構を定義している。MLPは、“selu”活性化関数によって活性化されたサイズを低減する複数の全結合層から構成された多層パーセプトロンを定義しており、例えば“luckyrelu”、“relu”、“elu”のような他の活性化関数を使用することもできる。MWは、目標値を予測する層を定義している。すなわち、
A)単一決定論的ニューラルネットワークのためのアーキテクチャ。当該ネットワークは期待値に基づいてトレーニングされる;
B)正規分布N(μ,σ
2)としてMWを生成するn個のMLPのアンサンブルから構成される本発明のアンサンブルのアーキテクチャ。当該モデルは、期待値および0に対する平均および分散をそれぞれ最小化するようにトレーニングされている;
である。
【0089】
図9には、単一決定論的ネットワークによる分子量の予測の性能が示されている。示されている値は、二乗平均平方根誤差(RMSE)および相関係数(R2)である。黒線は、トレーニングとテストの間のRMSEまたはR2が等しい場合を示している。すなわち、
A)RMSE(テスト)対RMSE(トレーニング)について示された結果;
B)R2(テスト)対R2(トレーニング)について示された結果;
である。
【0090】
図10~
図12には、本発明のアンサンブルニューラルネットワークデバイスによる分子の予測の性能が「分散アンサンブル」によって示されており、一方、単一決定論的ニューラルネットワークが「単一」によって示されている。参考例1005は、各スプリットについてのトレーニングセットでのRMSE(分散アンサンブル)対RMSE(単一)の比較を示している。参考例1020は、各スプリットについてのテストセットについてのRMSE(分散アンサンブル)対RMSE(単一)の比較を示している。参考例1030は、トレーニングセットについてのRMSEのヒストグラムを、単一(黒色)および分散アンサンブル(灰色)で示している。参考例1010は、テストセットについてのRMSEのヒストグラムを、単一(黒色)および分散アンサンブル(灰色)で示している。参考例1025は、RMSE(分散アンサンブル):RMSE(単一)として、計算されたトレーニングセットの性能についての誤差低減分析を示しており、すなわち、1.0未満の値が改善を示す。参考例1035は、RMSE(分散アンサンブル):RMSE(単一)として、計算されたテストセットの性能についての誤差低減分析を示しており、すなわち、1.0未満の値が改善を示す。参考例1015は、本発明のアンサンブルニューラルネットワークの分散アンサンブルのためのRMSE(テスト)対RMSE(トレーニング)の性能を示している。
【0091】
図13には、平均アンサンブルとプリセットされた分散アンサンブルとの比較が示されている。同じスプリットを使用する古典的な平均アンサンブルの予測と、分子量(MW)450未満のすべての分子を考慮する本発明の分散アンサンブルと、を比較することができる。本明細書において提案している分散アンサンブルは、予測の精度すなわち不確実性に関する著しい改善を伴ってMWを予測する。平均アンサンブルでは、モデルは、8個の水素原子の差に対応する4の標準偏差(95%カットオフ)を報告している。しかし、分散アンサンブルモデルは、2個未満の水素の差に対応する0.8(95%)の標準偏差を示している。関連する水素の数が既知であることにより、分子中の飽和レベルに関する重要な情報が定義される。
【0092】
図13では実際に、分子量(MW)の予測のための平均アンサンブルと分散アンサンブルとの予測比較が示されている。すなわち、
A)標準偏差(分散アンサンブル、y軸)対標準偏差(平均アンサンブル、x軸)の分散のプロット;
B)報告された、分散アンサンブル(黒色)および平均アンサンブル(灰色)の推論に関する標準偏差の値分布;
C)報告された標準偏差についての改善を示すヒストグラム。平均アンサンブルの標準偏差を分散アンサンブルの標準偏差で除算したもの;
である。
【0093】
図6には、本発明の対象である方法500の特定の一連のステップが概略的に示されている。画像における表現カテゴリを予測するためのコンピュータ実装方法500は、
-コンピューティングデバイスにより、
図4に示されている方法300に従ってニューラルネットワークデバイスをトレーニングするステップ505であって、ここで、標本データセットが、
-入力としての画像、および
-出力としての、入力画像における少なくとも1つの表現カテゴリ
を含む、ステップ505と、
-コンピュータインタフェース上で、少なくとも1つの画像を入力するステップ510と、
-コンピューティングデバイスにより、トレーニング済みニューラルネットワークデバイスを動作させるステップ515と、
-コンピュータインタフェース上で、組成物に対する、トレーニング済みニューラルネットワークデバイスによって出力された少なくとも1つの表現カテゴリを提供するステップ520と、
を含む。
【0094】
本発明の対象である方法500は、
図2に関して開示されている本発明の対象であるシステム200の実施形態の1つを対象としている。
【0095】
以下に、さらなる考察および実施形態を開示する。
【0096】
ニューラルネットワークは、広範な用途に向けて導入されている新たな傾向である。大量の画像に基づいて、ニューラルネットワークは画像問題に広く採用されてきた。多くの場合に、ニューラルネットワークの画像学習は、単一決定論的ニューラルネットワークを使用して容易に解決可能である。単一決定論的ニューラルネットワークの主な欠点は、このニューラルネットワークが予測モデルの不確実性を伝えないことである。当該ネットワークの第2の欠点は、ほとんどの単一ネットワークがロバストでなく、データ摂動に対して、より口語的には敵対例として知られるものに対してきわめて脆弱であることである。まとめると、モデル不確実性の評価は、まだ解決されていない重要な分野の1つとして認識されている。
【0097】
近年、画像分類のためのモデルの不確実性を推定するために、エビデンス深層学習が導入されている。この方法では、事前に選択された分布に対するパラメータを提供するために、単一追加エビデンス層が導入される。次いで、選択された分布に対する分散方程式を適用して、分散を数学的に計算することができる。Sensoy et al.(https://arxiv.org/abs/1806.01768)の研究によれば、ディリクレ分布が分散の供給源として使用されている。これは、ドメイン外クエリの検出および敵対的摂動に対するロバスト性の向上につながった。この方法の第1の大きな欠点は、分布の選択に伴って導入される。したがって、結果として生じる分散は、ここでトレーニングされたシステムの境界結果である。帰謬法においてみれば、分散のソリューションが同じ懸念を等しく受けるとさえ言える。実際には、これらの新たなパラメータは、新たな単一決定論的ニューラルネットワークにも由来する。
【0098】
これらの欠点を改善するために、本発明では、アンサンブルニューラルネットワーク(ENN)が使用される。ENNは、ニューラルネットワークのロバスト性を改善するために導入されているが、モデルの不確実性のノーションを提供するためにも導入されている。ENNの例は、テスト時間平均アンサンブル、ブートストラッピングアンサンブル、スナップショットアンサンブル、ドロップアウトアンサンブル、平均アンサンブル、平均分散アンサンブル、および負の相関学習を使用してトレーニングされたアンサンブルである。
【0099】
当該グループのうち、スナップショットアンサンブルおよびドロップアウトアンサンブルは、典型的に単一決定論的ニューラルネットワークを使用して計算されるものであるため、目立つ。スナップショットアンサンブルでは、様々な時点における複数の重みコンフィグレーションが組み合わされる。したがって、結果として生じる分散は、予測されたポイントに対する時間安定性のメトリックである。ドロップアウトアンサンブルでは、推論時間にもドロップアウト層が適用されることにより、不確実性が発生する。したがって、生成された分散は、パラメータサブサンプリングの安定性の尺度である。双方のネットワークの欠点は、予測不確実性が多くの場合に過小評価されることである。スナップショットアンサンブルでは、これは時間依存性に由来する結果である。ドロップアウトアンサンブルでは、変数が複数の選択として存在しうる。これらは、ドロップアウト率がきわめて高いニューラルネットワークを適用することによって改善することができる。しかし、このことは、ネットワークのサイズに重大な影響を及ぼす可能性がある。
【0100】
特定のソリューションは、ブートストラッピングアンサンブルによって提供される。当該タイプのネットワークでは、異なるデータ選択で同じネットワークをトレーニングすることによってアンサンブルが作成される。よって、生成されたモデルの不確実性のノーションは、データサブサンプリングに対するメトリックまたはロバスト性となる。当該タイプのアンサンブルでは、高密度ポイントは十分にサポートされており、サブサンプリングによる影響を受けない。ドロップアウトネットワークに生じるものと同じ懸念が、ブートストラッピングアンサンブルについて生じる。ブートストラッピングオミッション率が小さいとデータポイントの繰り返しの使用が生じうるため、不確実性が過小評価されうることが予想される。後者は、データにおける高い密度レートから生じるポイントにとって特に有益である。
【0101】
平均アンサンブルおよびテスト時間平均アンサンブルのグループは、組み合わされて予測のための平均および分散を生成するアンサンブルネットワークのグループを定義している。平均アンサンブルが平均について能動的にトレーニングされるのに対し、テスト時間アンサンブルは独立してトレーニングされたネットワークのアンサンブルである。平均ネットワークの場合、モデルは、予測された右側平均値についてトレーニングされる。平均のみをトレーニングすることの主な欠点は、サブモデルの分散がそれぞれ異なるポイントでの予測間で著しく変化する可能性があるという事実である。テスト時間アンサンブルでは、すべてのモデルが個別にトレーニングされる。その結果、これらのネットワークは、ネットワーク間の平均値が平均アンサンブルの対応物につき最適化が行われたときのように最適化されないという問題を示すことさえある。
【0102】
平均分散アンサンブルと下側上側境界アンサンブルニューラルネットワークとは、データ分散を使用してトレーニングされる。下側境界および上側境界は平均および分散の分散であり、すなわち、下側境界および上側境界は、それぞれ、平均-分散および平均+分散として計算されたものである。これらのネットワークでは、ネットワークは、データ分散を使用してトレーニングされる。当該アプローチの主な欠点は、分散がモデルの不確実性に何ら結論を与えないことである。さらに、データ分散自体は、予測されたポイントの特性ではなく、その測定値において観察される変動の特性である。事実として、報告された分散は、各データポイントに対して実行される測定の数に強く依存する。報告されるデータポイントの数は、ポイントごとに大幅に変化しうる。
【0103】
上述した欠点は、負の相関学習と称されるストラテジを適用して解決されている。当該アプローチでは、典型的には、信号におけるダイバーシティを考慮して損失が修正される。提案のトレーニング機構の例は、カップリング項の使用またはKLダイバージェンスの使用である。当該方法は広く評価されており、base learnerの性能が強く変化することが観察されている。当該方法は、通常、小容量のbase learnerには有益であるが、大容量のbase learnerには有害であることが報告されている。まとめると、アンサンブルにおけるNCLの使用は、なるべく良好な結果を得るために、ハードファインチューニング最適化を必要とする。
【0104】
単一決定論的ニューラルネットワークをトレーニングする場合、一般的に、このようなネットワークの初期化が最良の結果をもたらしうるかどうかを判別することはできない。さらに、使用されたデータの特定のサブセットについてのバイアスをモデルが展開したかどうかを正確に判別することもできない。極端なケースでは、訊ねられた幾つかの質問に対する回答の提供にモデルが失敗する可能性があり、すなわち、幾つかのポイントの正しい予測に失敗することが観察されうる。
【0105】
ここでの特定の実施形態では、アンサンブルニューラルネットワークのサブモデル間の通信を確立するために、アンサンブルニューラルネットワークデバイスが平均および分散の双方でトレーニングされる。トレーニング機構の簡単化として、サンプリング機構が、可変自動エンコーダ(VAE)で使用されるサンプリング機構と同様に、アンサンブルにおいて生成される平均および分散に適用される。
【0106】
なお、本発明のシステムとは異なり、VAEは、ランダム分散の独立層を使用し、サンプリング機構を適用することによって生成ニューラルネットワークとなる、単一決定論的ニューラルネットワークであることに留意されたい。
【0107】
本研究では、当該方法論を、CIFAR-10データセットを使用して画像分類に適用している。CIFAR-10では、画像セットに対する10個の可能なクラスから1個のクラスを予測するよう、モデルに要求する。結果は、50000個の画像のトレーニングサイズおよび10000個の画像のテストセットを有する5つの異なるスプリットについて計算される。結果は、分類精度、すなわち正しい予測の割合を測定することによって要約されたものである。
【0108】
アンサンブルの平均および分散を使用するネットワークサンプリングと、アンサンブルの完全共分散を使用するサンプリングと、ネットワーク内に発生する独立した分散層からのサンプリングと、による性能の比較を行った。後者の方法は、VAEで使用されているストラテジと同じであることに留意されたい。次表では、3つの方法を、それぞれ対角、完全共分散、および対角MLPと称している。本発明の方法を、5つの既存のソリューション、すなわち、1)平均アンサンブル、2)負の相関学習、3)単一決定論的ニューラルネットワーク、4)ドロップアウトアンサンブル、および5)ブートストラッピングアンサンブルと比較した。当該表では、これらのソリューションは、それぞれ、平均アンサンブル、NCL、単一決定論的NN、ドロップアウトアンサンブル、およびバギングアンサンブルによって識別される。報告されている結果は予測精度である。
【0109】
テストされた方法論に基づく性能結果[精度の低下によるソート]
方法論 検証の正確性
完全共分散(本発明) 83.1±0.3%
ドロップアウトアンサンブル 82.8±1.1%
対角(本発明) 82.4±0.2%
負の相関学習NCL 81.7±0.4%
バギングアンサンブル 81.6±0.2%
平均アンサンブル 79.2±0.3%
単一決定論的NN 77.0±0.5%
対角MLP(本発明) 76.0±0.5%。
【0110】
上記の表の結果は、幾つかの明瞭な結果を示している。第一に、すべてのアンサンブルニューラルネットワークが単一決定論的ニューラルネットワークよりも高い性能を発揮している。実際に、単一決定論的ニューラルネットワークおよび対角MLPは、表の上方6つのテストされたアンサンブルの方法よりも著しく低い性能を示している。第二に、対角MLPについて、独立したランダム分散層の使用が結果の改善にとって有益ではないことが見て取れる。さらに、当該結果は、対角MLPの性能低下が単一決定論的ネットワークと比較した場合に統計的に有意であることを示している。第三に、古典的な平均アンサンブル(平均)、ブートストラッピングアンサンブル(バギング)および負の相関学習NCLはすべて予測精度を改善できることを見て取ることができる。第四に、本発明のアンサンブル技術である完全共分散および対が著しく良好に機能していることが見て取れる。第五に、報告されているアンサンブル方法のうち、ドロップアウトアンサンブルのみが同程度の精度の動作を行えている。しかし、ドロップアウトアンサンブルは、報告された性能に対してかなり強い分散を示すことに留意されたい。本発明のアンサンブルの方法論である完全共分散および対角はそれぞれ0.3%および0.2%の分散を示しているのに対し、ドロップアウトアンサンブルは1.1%という著しく大きな分散を示しており、本発明では既存のドロップアウト方法よりも強いロバスト性が示されている。
【0111】
まとめると、通信サブモデルを有するアンサンブルニューラルネットワークは、予測精度の再現性につき以前に報告されているアンサンブルニューラルネットワークよりも優れた性能を有するというコンセンサスに達する。
【0112】
図7には、本発明の対象であるシステム200を実現することのできるコンピュータアーキテクチャ600が概略的に示されている。当該コンピュータアーキテクチャ600は、
-少なくとも1つの入力セットと入力セットに関連付けられた少なくとも1つの出力セットとを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブルを含むニューラルネットワークデバイスへ提供する手段と、
-標本データセットに基づいてニューラルネットワークデバイスを動作させる手段と、
-出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得する手段と、
を備え、
-ニューラルネットワークデバイスがさらに、少なくとも2つの独立した活性化関数を含み、独立した活性化関数のうちの少なくとも2つが、複数の独立した予測の統計分布を表現しており、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つに対する少なくとも1つの出力を提供するように構成されており、
-動作させる手段がさらに、アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供する手段を含み、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも2つを表現する値を最小化するようにトレーニングされる。
【国際調査報告】