特表2024-523836 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フイルメニツヒ　ソシエテ　アノニムの特許一覧

特表2024-523836予測不確実性を評価するためにアンサンブルニューラルネットワークデバイスをトレーニングするシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-02

(54)【発明の名称】予測不確実性を評価するためにアンサンブルニューラルネットワークデバイスをトレーニングするシステム

(51)【国際特許分類】

G06N 3/045 20230101AFI20240625BHJP

G06N 3/08 20230101ALI20240625BHJP

【ＦＩ】

G06N3/045

G06N3/08

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023575680

(86)(22)【出願日】2022-06-08

(85)【翻訳文提出日】2024-01-25

(86)【国際出願番号】 EP2022065475

(87)【国際公開番号】W WO2022258652

(87)【国際公開日】2022-12-15

(31)【優先権主張番号】21178250.3

(32)【優先日】2021-06-08

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009287

【氏名又は名称】フイルメニツヒソシエテアノニム

【氏名又は名称原語表記】ＦｉｒｍｅｎｉｃｈＳＡ

【住所又は居所原語表記】７，ＲｕｅｄｅｌａＢｅｒｇｅｒｅ，１２４２Ｓａｔｉｇｎｙ，Ｓｗｉｔｚｅｒｌａｎｄ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】ギヨームゴダン

(72)【発明者】

【氏名】ルートファンデュールセン

(72)【発明者】

【氏名】フロリアンラヴァスィ

(72)【発明者】

【氏名】ユリエンヘアツェン

(57)【要約】

アンサンブルニューラルネットワークデバイスをトレーニングするシステム（２００）であって、次の各ステップ、すなわち、
－少なくとも１つの入力セット（２２０）と入力セットに関連付けられた少なくとも１つの出力セット（２２５）とを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブル（２３０）を含むニューラルネットワークデバイスへ提供するステップ（２０５）と、
－標本データセットに基づいてニューラルネットワークデバイスを動作させるステップ（２１０）と、
－出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップ（２１５）と、
を実行させるように構成されたシステム（２００）において、
－ニューラルネットワークデバイスがさらに少なくとも２つの独立した活性化関数を含み、独立した活性化関数のうちの少なくとも２つが、複数の独立した予測の統計分布を表現しており、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つに対する少なくとも１つの出力（２３５，２３６）を提供するように構成されており、
－動作させるステップがさらに、アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップを含み、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つを表現する値を最小化するようにトレーニングされる、
ことを特徴とする、システム（２００）。

【特許請求の範囲】

【請求項1】

アンサンブルニューラルネットワークデバイスをトレーニングするシステム（２００）であって、
前記システム（２００）は、１つもしくは複数のコンピュータプロセッサと、前記１つもしくは複数のコンピュータプロセッサに動作可能に結合された１つもしくは複数のコンピュータ可読媒体と、を含み、前記１つもしくは複数のコンピュータ可読媒体は、前記１つもしくは複数のコンピュータプロセッサによって実行される際に、前記１つもしくは複数のコンピュータプロセッサに、次の各ステップ、すなわち、
－少なくとも１つの入力セット（２２０）と前記入力セットに関連付けられた少なくとも１つの出力セット（２２５）とを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブル（２３０）を含むニューラルネットワークデバイスへ提供するステップ（２０５）と、
－前記標本データセットに基づいて前記ニューラルネットワークデバイスを動作させるステップ（２１０）と、
－出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップ（２１５）と、
を実行させるための命令を記憶している、システム（２００）において、
－前記ニューラルネットワークデバイスは、少なくとも２つの独立した活性化関数をさらに含み、前記独立した活性化関数のうちの少なくとも２つは、複数の独立した予測の統計分布を表現しており、前記ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つに対する少なくとも１つの出力（２３５，２３６）を提供するように構成されており、
－前記動作させるステップは、前記アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップをさらに含み、前記ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つを表現する値を最小化するようにトレーニングされる、
ことを特徴とする、システム（２００）。

【請求項2】

前記取得するステップ（２１５）において取得された前記ニューラルネットワークデバイスは、付加的に、前記出力の分散を表現する値を提供するように構成されている、
請求項１記載のシステム（２００）。

【請求項3】

前記活性化関数のうちの少なくとも２つは、
－前記複数の独立した予測の統計分布の平均、および
－前記複数の独立した予測の統計分布の分散
を表現している、
請求項１または２記載のシステム（２００）。

【請求項4】

前記ニューラルネットワークデバイスは、複数の独立した出力の学習された分布を前記少なくとも２つの独立した活性化関数のうちのトレーニングされた少なくとも２つの関数として使用することによって生成された出力のシミュレーション（２４５）を追加するように構成された層（２４０）をさらに含む、
請求項１から３までのいずれか１項記載のシステム（２００）。

【請求項5】

ニューラルネットワークデバイスをトレーニングするためのコンピュータ実装方法（３００）であって、前記コンピュータ実装方法（３００）は、
－少なくとも１つの入力セットと前記入力セットに関連付けられた少なくとも１つの出力セットとを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブルを含むニューラルネットワークデバイスへ提供するステップ（３０５）と、
－前記標本データセットに基づいて前記ニューラルネットワークデバイスを動作させるステップ（３１０）と、
－出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップ（３１５）と、
を含む、コンピュータ実装方法（３００）において、
－前記ニューラルネットワークデバイスを動作させるステップでは、前記ニューラルネットワークデバイスは、少なくとも２つの独立した活性化関数をさらに含み、前記独立した活性化関数のうちの少なくとも２つは、複数の独立した予測の統計分布を表現しており、前記ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つに対する少なくとも１つの出力を提供するように構成されており、
－前記動作させるステップは、前記アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップ（３２０）をさらに含み、前記ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つを表現する値を最小化するようにトレーニングされる、
ことを特徴とする、コンピュータ実装方法（３００）。

【請求項6】

請求項５記載のコンピュータ実装方法（３００）によって取得されることを特徴とする、コンピュータ実装ニューラルネットワークデバイス。

【請求項7】

コンピュータ上で実行される際に、請求項５記載の方法（３００）の各ステップを実行するための命令を含むことを特徴とする、コンピュータプログラム製品。

【請求項8】

コンピュータ上で実行される際に、請求項５記載の方法（３００）の各ステップを実行するための命令を記憶していることを特徴とする、コンピュータ可読媒体。

【請求項9】

フレーバー成分、フレグランス成分もしくは薬剤成分の物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を予測するためのコンピュータ実装方法（４００）であって、前記コンピュータ実装方法（４００）は、
－コンピューティングデバイスにより、請求項５記載の方法（３００）に従ってニューラルネットワークデバイスをトレーニングするステップ（４０５）であって、標本データセットは、
－入力としての、フレーバー成分、フレグランス成分もしくは薬剤成分の組成物、および
－出力としての、うち１つが組成物の分子量である、少なくとも１つの物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性
を表現しているステップ（４０５）と、
－コンピュータインタフェース上で、少なくとも１つのフレーバー成分、フレグランス成分もしくは薬剤成分のデジタル識別子を入力するステップ（４１０）であって、得られる入力は、フレーバー成分、フレグランス成分もしくは薬剤成分の組成物に対応するステップ（４１０）と、
－コンピューティングデバイスにより、トレーニング済みニューラルネットワークデバイスを動作させるステップ（４１５）と、
－コンピュータインタフェース上で、前記組成物に対する、前記トレーニング済みニューラルネットワークデバイスによって出力された少なくとも１つの物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を提供するステップ（４２０）と、
を含むことを特徴とするコンピュータ実装方法（４００）。

【請求項10】

画像における表現カテゴリを予測するためのコンピュータ実装方法（５００）であって、前記コンピュータ実装方法（５００）は、
－コンピューティングデバイスにより、請求項５記載の方法（３００）に従ってニューラルネットワークデバイスをトレーニングするステップ（５０５）であって、標本データセットは、
－入力としての画像、および
－出力としての、入力画像における少なくとも１つの表現カテゴリ
を含むステップ（５０５）と、
－コンピュータインタフェース上で、少なくとも１つの画像を入力するステップ（５１０）と、
－コンピューティングデバイスにより、トレーニング済みニューラルネットワークデバイスを動作させるステップ（５１５）と、
－コンピュータインタフェース上で、前記組成物に対する、前記トレーニング済みニューラルネットワークデバイスによって出力された少なくとも１つの表現カテゴリを提供するステップ（５２０）と、
を含むことを特徴とするコンピュータ実装方法（５００）。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラルネットワークデバイスをトレーニングするシステム、ニューラルネットワークデバイスをトレーニングするためのコンピュータ実装方法、対応するコンピュータ実装ニューラルネットワークデバイス、本発明の対象である方法の各ステップを実行するためのコンピュータプログラム製品、本発明の対象である方法の各ステップを実行するための命令を記憶したコンピュータ可読媒体、フレーバー成分、フレグランス成分および薬剤成分の物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を予測するためのコンピュータ実装方法、ならびに画像における表現カテゴリを予測するためのコンピュータ実装方法に関する。

【0002】

本発明は特に、生物学的産業、化学的産業、医学的産業および薬学的産業に適用可能なフレーバー、フレグランスおよび薬剤の産業または画像処理の産業に適用される。

【背景技術】

【0003】

科学実験において、図１に示されているようなデータベースに記憶された測定値１０５は、当該実験の環境によって変化する。典型的には、安定した状態を得るために、国際宇宙ステーションのような理想的な環境を使用する必要がある。ほぼ完璧な環境条件のもとにあっても、技術者による器具および試料の準備は相互に僅かずつ異なりうる。それぞれ異なるソースからの実験データをマージすることは、使用された測定条件に依存して実験ごとの分散が変化するため、困難となりうる。こうした分散を低減して中程度以上の良好な成功を達成するために、実験データを均質化するための統計的方法が開発されてきた。機械学習の分野では、トレーニングセットとテストセットとの間、また既知のデータと未来のデータとの間に、このような分散が生じる可能性がある。

【0004】

機械学習モデルにつき広く知られている別の問題はモデル内のハイパーパラメータの数であり、これは、モデルの能力に著しく影響を与え、図１に示されているようなトレーニングデータ１１０に過剰適合することがある。利用可能なデータの量は、ニューラルネットワークにおける多数のハイパーパラメータをトレーニングするには不十分である可能性がある。したがって、データに対する有意なデジタルデータ表現を抽出する必要性の最小量を考えることが最善である。このことは、より少ない数のパラメータを有する特権的な層によって達成することができる。このような試みの一例は、ｄｅｎｓｅ層をコンパクトな畳み込み層によって置換することである。畳み込み層は特に、データから画像などの局所化特徴を抽出することに特化されている。しかし、コンパクトかつ効率的な畳み込み層を使用しても、数十億個のパラメータを有するネットワークがなお生成されうる。メガモデルの傾向分析は、このようなモデルが例えば画像、文学および音楽に利用可能なきわめて大きなデータセットを用いてのみトレーニング可能であることを示している。対照的に、化学、生物学などの科学分野は、数百個から数千個のデータポイントを含むデータセットを有することが多い。したがって、これらのドメインでは、データサイズに適合するようにパラメータ数を低減することを目標とすべきである。

【0005】

大きなサイズのネットワークを補償する１つの手法は、データ拡張によるものである。実際に、拡張率の増大に伴う性能の増大は、選択されたネットワークのサイズに対してより多くのデータが必要となることを示しており、ネットワークのサイズがなるべく低減されるとよいことが示唆される。同時に、拡張率を使用して、ネットワークがクリティカルにパラメータ化されているかどうかを、すなわち、拡張がモデルの性能に全くもしくは殆ど影響を与えないポイントを、識別することができる。すべてのモデルがデータ拡張に対してオープンであるわけではない。例えば、グラフニューラルネットワーク（ＧＮＮ）は表現のシャッフルに対して不変である。よって、ＧＮＮは、自然言語処理または画像に使用される既存のデータ拡張方法に対する互換性を有さない。

【0006】

第３の問題は、モデルのトレーニング手順１１５がモデリングにおける重要な様相を定めることである。頻繁に、モデルの決定に影響を与えうる変数が過度に多くなる。このことは、ハイパーパラメータ化の最適化ストラテジが性能もしくは効率のためのモデルの改善になぜ必要とされうるのかについての説明となりうる。選択されたモデルとは別に、トレーニングセットとテストセットとの間のデータスプリットに関する問題も重要な役割を果たす。完全ｌｅａｖｅ－ｏｎｅ－ｏｕｔランダムスプリットからＫ－ｆｏｌｄまでの交差検証の複数の方法を使用して、未見のデータに関するモデル品質をシミュレートし、推定することができる。最終的には、モデルの予測はまさに、使用されたトレーニング条件、モデルサイズ、最適化パラメータおよびデータスプリットに依存した教師あり推定となる。完了時に、最良のモデルが実際にトレーニングされたかどうかを知ることは不可能である。しかし、ここでは、計算されたモデルが使用されたテストポイントに対する最良のモデルであると仮定される。このことは、未来の未見のデータのすべての部分に対して性能結果が同じになることを必ずしも期待できないため、データモデリングアプローチの全般的な制限となる。また、未来の性能は、未見のデータに対して評価されたサンプルサイズと未見のデータに導入された可能なサンプルバイアスとに依存して相当程度に変化しうることにも留意されたい。こうした欠点を部分的に解決する１つの手法として、モデルを評価するための標準化されたメトリックとして正確な理論的エンドポイントを予測することによるものが挙げられる。このようなエンドポイントの一例は、化学反応中の分子の分子量である。

【0007】

過去数十年の間に、ディープニューラルネットワーク（ＤＮＮ）は現代の生活に不可欠な部分となってきている。多くの科学分野において重要な技術であるうえ、ＤＮＮは今や次第に現実世界の用途に向けたソリューションとして提供されるようになってきている。ニューラルネットワークは、医用イメージング、画像認識および自動運転車両の分野において既に継続的に適用されている。多くの用途での急速な成長により、ニューラルネットワークの重大な欠点の一部につき考察することが重要である。ここでの欠点には、主に、
－モデルの決定ロジックに表現力と透明性が欠如していること、
－ドメインシフトへの感受性を含む、ドメイン内予測とドメイン外予測との区別の不能性、
－敵対的攻撃に対して脆弱でありうるニューラルネットワークをもたらす敵対例への感受性、および／または
－信頼性の高いモデル不確実性の推定を提供できないこと、
が含まれる。

【0008】

科学ドメインに応じて、ニューラルネットワークの予測についての説明を提供せよとの要求は、頻繁に話題とされるトピックである。実際に、ディープニューラルネットワークは、典型的にはブラックボックス技術として認知されている。ただし、このことは、用途における受容のための本質的な欠点とみなされるべきではない。さらに、複数の同程度の性能のソリューションを生成することができ、機械の推定したロジックを変化させることができることに留意されたい。このことは特に、同一の「機械」間またはそれぞれ異なるランダム初期化を有するモデル間で適用される。よって、説明は「機械」間で異なりうるものであり、その結果、当該説明が可能な最良の説明であるかどうかを判別することはできない。換言すれば、推定されたロジックはトレーニングされたシステムの特性であり、１つの可能な説明である。

【0009】

機械学習および人工知能において、モデルの予測性能がドメイン内ポイントとドメイン外ポイントとの間で大きく変化しうることは広く知られている。ポイント（ｘ，ｙ）のセットについての線形回帰の場合、モデリングされた数学的関数ｙ＝ｆ（ｘ）は、この関数の定義に使用される既知のポイント間に該当するすべてのポイントにのみ適用されるべきである。ドメイン外予測は既知のデータへの外挿であり、外側にあるデータの挙動は未知である。ここで（例えば、刊行物Hanser & al., Applicability Domain: Towards a More Formal Framework to Express the Applicability of a Model and the Confidence in Individual Predictions, Advances in Computational Toxicology, pp 215-232では）、こうした予測に体系的にフラグ付けまたは破棄を行うべきであることが提案されている。モデルの適用性のドメインは、さらに、モデルのアーキテクチャとモデルのトレーニングに使用されるデータとによって同時に定義される。したがって、アーキテクチャとデータとが組み合わされたシステムは、クローズドシステムを定義するものであって、不定の問題の一例である。したがって、この１つのシステムを使用して、ドメイン外予測の寄与因子、すなわち、これがアーキテクチャに由来するものかまたはデータに由来するものかを同時に判別することはできない。よって、これは、予測がすべてのシステムに対してドメイン外となることを意味しない。ドメイン外評価を得るために、典型的には、トレーニングセットまでの距離、潜在空間についての統計的ホテリング、またはエビデンス層の使用などの機構が適用される。こうしたメトリックに関して、ドメイン内呼び出しおよびドメイン外呼び出しは、モデルおよび選択されたドメイン方法からの結果となることに留意されたい。より厳密な意味では、選択された１つのドメイン外評価方法により予測がドメイン外にあるという事実が、すべての評価方法に対してポイントがドメイン外にあることを意味するわけではない、とも考えられる。まとめると、モデルの予測についての信頼性が限定されているユーザは、ドメイン外評価に使用される方法または提供される説明についての方法に関して同様の懸念を生じさせる可能性がある。帰謬法においてみれば、こうした過程が無限に続きうる。説明を提供することとは異なり、ドメイン外評価の使用は、予測のために生成される重要な値と考えることができる。このようなメトリックには意思決定プロセスを導くための十分な情報を提供することが期待され、当該意思決定プロセスは、高い実験費用または厳しい規制受容基準を伴う科学、例えば化学的産業、薬学的産業および生物学的産業にとって特に重要である。

【0010】

ニューラルネットワークは敵対的攻撃に対して脆弱であることが頻繁に報告されており、すなわち、故意の呼び出し反転または入力表現へのノイズ追加などの妨害行為に曝されることがある。安全性の懸念に加えて、敵対例はまた、著しく低いレベルのリスクをはらむ用途にも所定の作用を有する。敵対例は、通常、ネットワークによる高信頼度の誤分類として定義される。最も有望なソリューションは、モンテカルロドロップアウトネットワークを使用するものである。しかし、考慮中の任意の画像に対して１つのクラスが存在するといえる場合であっても、画像は人間どうしの間で異なって知覚される可能性があるため、報告されるクラスのセットは不完全でありうることに留意すべきである。したがって、否定表現が真の否定呼び出し（「絶対的否定」）に由来するかまたは呼び出し漏れ（「言及漏れ」）に由来するかをつねに判別できるとは限らない。第１のソリューションでは、ベイジアンニューラルネットワーク（ＢＮＮ）が、敵対例に対する不確実性の重要度を評価するために使用されてきた。評価されたＢＮＮは、表現学習のコンセプトに関する著しい欠点を表示する。実際に、ベイジアンロジックを有するＢＮＮは、典型的に、他のニューラルネットワークよりも追跡可能性が低いと報告されている。そのため、学習された表現の品質についての判断を行えず、したがって、それ自体が上述した定義不能性の定理の例となる。よって、メタ分析が、学習された表現の品質についての判断の呼び出しを形成するために必要とされる。モンテカルロドロップアウトネットワークは、敵対例に対するロバスト性が等価の決定論的な対応部分よりも著しく高いものの、典型的には不確実性レベルを過小評価することが報告されている。結論として、不確実性およびロバスト性が敵対例に対抗するための重要なポイントであることが認識されているにもかかわらず、不確実性レベルの定量化はいまだ解決されていない。

【0011】

最近特に注目すべきこととして、ディープフェイクのコンテキストにおいて、敵対的ニューラルネットワークが生成目的で使用されることが多い。このようなネットワークの最も広く知られている例が敵対的生成ネットワーク（ＧＡＮ）である。典型的なＧＡＮは、２つの単一決定論的ネットワークのシステム、すなわち生成ニューラルネットワークＧと弁別ニューラルネットワークＤとのシステムから構成されている。警察当局の企図と犯罪者の企図との間の敵対的競争と同様に、ＧＡＮは、生成器Ｇと弁別器Ｄとを最適化する交番的機構を適用してトレーニングされる。ここでの交番的機構は、弁別器Ｄによって現実世界のデータからもはや区別されえない現実的な例を生成器Ｇが生成できるようにすることを目的として適用される。ＧＡＮは、教師なし弁別器を使用して、状況に応じてトレーニングされてきた。選択されるトレーニング機構にかかわらず、ＧおよびＤは単一の「機械」システムを定義する。その結果、収束解の品質およびトゥルースは、システム自体の内部では証明不能となる。換言すれば、モデルの収束の事実は、生成された出力が実際に真の現実に即していることを証明するには十分ではないのである。したがって、このようなニューラルネットワークの品質が期待される限界内にあるかどうかを評価するための、生産用途と同様に使用可能なメタ分析が必要である。このようなメタ分析の例は、現実の画像と生成された画像とが混合されたセットから現実のピクチャを選択するようにユーザの代表セットに問い合わせることである。

【0012】

上記の考察に従えば、定義不能性および不完全性があらゆる機械学習モデルの主な欠点を定めている。換言すれば、１つの機械のトゥルースをシステム自体の内部で評価することはできない。ある機械が所定の質問に回答しなかったとしても、誤回答のあった同じ質問セットへの回答にすべての機械が失敗することを意味するわけではない。また、幾つかの問題に対して複数のマシンが正答を提供した場合、どのマシンが尋ねられた質問の一部もしくは全部につきより良い回答を提供するかを直ちに決定することはできない。最終的に、選択された機械が未来の未見のデータのすべてに対する最良のソリューションであるかどうかを知ることはできない。ただし、我々は、選択した機械が多くの質問に対する最良のソリューションであることを期待する。しかし、通常、最良の性能モデルに対して最適な結果が得られると想定すべきである。こうした問題に深く対処するためには、予測不確実性またはモデルの不確実性を評価することが不可欠である。さらに、典型的にアーキテクチャ、データ、とりわけ幾つかの他の変数から構成されるトレーニング済みモデルがクローズドシステムを定義していると考えることができる。こうしたクローズドシステムの性能は、典型的には交差検証の方法を使用して較正される。テストデータがトレーニングに使用されていなくても、当該テストデータが依然として特定の目的のために生成されて現時点で既知となっているデータからのサンプルであることが既知となるべきである。このため、テストデータ中にバイアスが生じることもある。よって、たとえテストセットが未来の未見のデータポイントの典型的なセットの大部分を代表していても、このことが必ずしもすべての未来のデータについて真であるとは限らないことを予期しておかなければならない。つまり、未来のデータについての結果は、テストセットについて測定された結果から著しく逸脱することがある。特に、過去の選択が未来の選択の導出に使用される選択の問題において、強い偏差が生じうる。また、結果は、サンプルサイズおよびサンプルバイアスによっても強い影響を受ける。さらに、モデルの検証はテストデータを使用したモデルのトレーニング中に既に実行されており、未来のデータを使用して判断されるべきではない。

【0013】

モデリングに関する不確実性は、典型的には、偶発的不確実性と認識論的不確実性とに区別される。偶発的不確実性は一般に統計的不確実性として理解され、すなわち、実験が実行されるたびに未知の作用によって生じる変動の影響を受けることである。より一般的に、ここでのコンテキストでは、標準偏差またはデータ分散に関して論じる。したがって、偶発的不確実性は、モデルのトレーニングに使用されるデータによって定義されるものであり、データの不確実性と称される。よって、データにおけるノイズレベルが増大するにつれて予測誤差も増大することが予測されうる。同じ手順の表示を用いて生成されたデータが等分散性となり、一方、複数のソースに由来するデータが不均一分散性となりうることも予測可能である。変化する変動も、経時的に変化する実験条件によって導入されうる。データが不均一分散性である場合、分散は、それぞれ異なるソースからのデータのマージを成功させることにとって不可欠な特性である。偶発的不確実性とは対照的に、認識論的不確実性については、機械学習モデルおよび深層学習モデルの場合における、技術的限界または技術的知識の欠如によって引き起こされるエラーのコンセプトをいう。したがって、モデリングのコンテキストにおいては、認識論的不確実性はモデルの不確実性と称されうる。こうした種類の不確実性は、モデルパラメータが十分に決定されていないケース、すなわちデータが欠如した状態でトレーニングが行われたケースで典型的に生じると説明することで、容易に例示可能である。このようなケースは、ネットワークのハイパーパラメータにつき広範なアポステリオリ性を有するとも称される。

【0014】

近年、深層学習モデルにおける不確実性を評価するために、種々の方法が提案されている。不確実性の評価が１９９０年代以降継続されてきていることが指摘される。しかし、これらの初期の刊行物では、モデルの不確実性ではなくデータの不確実性について述べられている。換言すれば、これらのモデルは、モデル間の分散ではなく、データにおいて観察される分散を予測することを目的としている。こうした予測の顕著な欠点は、データ分散が典型的にはデータポイントの特性ではないという事実である。実際には、観察されるデータの不確実性は報告されるポイントの数に基づいて著しく変化しうるものであり、典型的には測定数の増大に伴って真の分散へと安定していく。モデルの不確実性を評価するために種々の方法が導入されてきた。これらの方法は、典型的には４つの潮流、すなわち、１）テスト時間拡張法、２）ベイズ法、３）単一決定論的ニューラルネットワークの不確実性、および４）アンサンブルニューラルネットワーク、に区別される。

【0015】

テスト時間拡張法によって生成される不確実性の評価は、同じモデルを使用した種々の入力表現を予測することに基づいている。拡張という場合、同じニューラルネットワークに送信可能な同じ物体のそれぞれ異なる表現を生成することをいう。画像の場合、拡張は、画像に対して水平方向もしくは垂直方向のフリップもしくは回転を適用することによって容易に例示可能である。使用される表現にかかわらず、ネットワークが物体を認識することが期待される。ここでのコンテキストにおいては、むしろ表現の不確実性について述べるものとする。したがって、テスト時間拡張は敵対例の評価に不可欠な方法であり、すなわち、我々は、修正がモデルの予測に影響を有さないかどうか、または影響を制限しているかどうかを評価する。他の報告では、ニューラルネットワークのロバスト性および安定性を改善するために、トレーニング時間中およびテスト時間中に拡張が適用されるべきであることが示されている。この方法の主な欠点は、データ表現が拡張可能となる要件である。この方法は、画像および言語のニューラルネットワークに対しては可能であるが、表現のシャッフルに関して不変の潜在空間を生成する任意のネットワークに対しては不可能である。後者のタイプのニューラルネットワークの例は、分子の予測に使用されることの多いグラフニューラルネットワークであり、例えば、論文David Duvenaud & al., Convolutional Networks on Graphs for Learning Molecular Fingerprints（https://arxiv.org/abs/1509.09292）に示されている。

【0016】

ベイジアンニューラルネットワークにおいては、モデルのパラメータにわたる確率分布が学習され、多くの場合これに続いて当該確率に対して正規化が適用される。このように、連続する２つのステップにより、本質的な特徴に関するエビデンス層が作成される。ベイジアンアプローチの大きな欠点として、特に高い複雑性レベルを有するシステムに対してソリューションがクローズド型のソリューションを定めないという事実が含まれる。複雑なシステムの例としてニューラルネットワークが挙げられる。この問題に対処するために、事後確率の計算に対し、計算コストの高い近似ベイズ推論（ＡＢＩ）技術を適用する必要がある。代替的に、ＡＢＩをネットワークに組み込むこともできる。しかし、これにより、例外的に大きなニューラルネットワークが体系的に作成され、このようなタイプのネットワークの実用上の有用性が制限される。さらに、ベイジアンニューラルネットワークは、モンテカルロ近似などの近似技術を適用することによって部分的に修正可能な、低いレベルのトレーサビリティも示す。最終的に、ベイジアンアプローチの成功が関連する事前分布の選択に依存することは広く知られている。この点は、ニューラルネットワークについてはいまだ解決されていない。最適な事前分布を指定することは、深層学習のコンテキストにおいては未解決の問題であり続けている。

【0017】

モンテカルロ法のドロップアウトストラテジの適用は、論文Lewis Smith & al., Understanding Measures of Uncertainity for Adversarial Example Detection（https://arxiv.org/abs/1803.08533）に示されているように、モデルの不確実性を評価するために利用可能な、現時点で最良の方法である。このソリューションでは、モデルのトレーニング段階および推論段階の間、ドロップアウト層が使用される。不確実性を計算するために、使用される方法に対する技術的制約を定める、ネットワークにおける複数の順方向パスが要求される。生成された不確実性値に関して、これらの値がしばしば楽観的すぎること、より具体的には不確実性が過小評価される傾向があることが報告されている。当該効果は、パスごとに潜在変数のサブセットがランダムに選択され、ランダム選択が同じ変数セットを反復使用することができるという事実によって説明可能である。この問題は例外的に大きなドロップアウト率を使用することによって改善可能であるが、このようにすると当然ながらきわめて大きなニューラルネットワークが生じる。ネットワークサイズは、画像またはテキストに関する問題ほどではないが、付加的なデータポイントの生成に相当のコストを伴う用途に関しては考慮すべき重要点であることに留意すべきである。

【0018】

代替的に、単一決定論的ニューラルネットワークを使用して、ディープニューラルネットワークにおける不確実性を評価することができる。第１のグループのソリューションでは、不確実性は、第２のニューラルネットワークを使用して、すなわちトレーニングセットまでの距離のメトリックまたは潜在空間の統計的ホテリングを使用して、推定可能である。上記の方法のいずれも、既にトレーニング済みのモデルには影響を及ぼさない。定義不能性の問題は、トレーニングセットまでの距離を測定するコンセプトにおいては充分に可視となる。この方法では、距離が予測の信頼性を代表するものと仮定される。しかし、生成される距離は、選択された定義から得られるものであり、定義間で大きく異なりうる。換言すれば、１つの定義において距離が近いという事実は、すべての定義において距離が近いことを意味しない。さらに、１つのトレーニング済みモデルにおいて観察された距離が、第２のモデルにおいて観察された距離には対応しないことさえある。よって、帰謬法においてみると、先行するシステムの結果を証明する付加的なシステムが再帰的に必要となる。まとめると、ドメイン内評価、信頼性のメトリックまたは説明可能なＡＩを求めることは、定義不能性の定理によって制限される。

【発明の概要】

【発明が解決しようとする課題】

【0019】

本発明は、これらの欠点の全部または一部に対処することを目的とする。

【課題を解決するための手段】

【0020】

第１の態様によれば、本発明は、アンサンブルニューラルネットワークデバイスをトレーニングするシステムであって、１つもしくは複数のコンピュータプロセッサと、１つもしくは複数のコンピュータプロセッサに動作可能に結合された１つもしくは複数のコンピュータ可読媒体と、を含み、１つもしくは複数のコンピュータ可読媒体は、１つもしくは複数のコンピュータプロセッサによって実行される際に、１つもしくは複数のコンピュータプロセッサに、次の各ステップ、すなわち、
－少なくとも１つの入力セットと入力セットに関連付けられた少なくとも１つの出力セットとを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブルを含むニューラルネットワークデバイスへ提供するステップと、
－標本データセットに基づいてニューラルネットワークデバイスを動作させるステップと、
－出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップと、
を実行させるための命令を記憶している、システムであって、
－ニューラルネットワークデバイスがさらに、少なくとも２つの独立した活性化関数を含み、独立した活性化関数のうちの少なくとも２つが、複数の独立した予測の統計分布を表現しており、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つに対する少なくとも１つの出力を提供するように構成されており、
－動作させるステップがさらに、アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップを含み、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つを表現する値を最小化するようにトレーニングされる、
システムに関する。

【0021】

このような実施形態により、大幅に高い予測安定性、信頼性ならびに改善されたトレーニング速度および全体性能を得ることができ、さらにモデルの不確実性を表現する分散のメトリックが提供される。したがって、当該実施形態によって、計算時間または計算能力の観点から、またモデルの複雑性の観点から、リソースの節約が可能となる。典型的には、現行のアプローチは、信頼性の高い予測モデルを得るために多数のモデルおよび多数回の反復の使用を必要とする。

【0022】

当該実施形態では、例えば、標的の周囲での分布の平均が最小化されるようにトレーニングされ、分布の分散がゼロに近い値もしくはゼロに等しい値へ最小化されるようにトレーニングされる。これにより、１回の呼び出しで、トレーニング済みアンサンブルニューラルネットワークデバイスにおいて可能な最小の分散を得ることができる。

【0023】

従来技術では、時折、損失関数の勾配が分散の関数として修正されているが、これは、損失関数が特に損失における少なくとも２つの方程式を同時に解くことから成る散乱予測の問題を低減するという検証不能な希望に基づいている。これにより、多目的最適化問題が生じる。論理規則に従って、これら少なくとも２つの最小化すべき方程式対象間で妥協点が見出されなければならず、これは、最小化すべき目的関数が唯一である場合よりも複雑である。特定の実施形態では、取得するステップにおいて取得されたニューラルネットワークデバイスが、付加的に、出力の分散を表現する値を提供するように構成されている。

【0024】

このような実施形態は、より大きなモデルの説明可能性を可能にする。

【0025】

特定の実施形態では、活性化関数のうちの少なくとも２つは、
－複数の独立した予測の統計分布の平均、および
－複数の独立した予測の統計分布の分散
を表現している。

【0026】

特定の実施形態では、ニューラルネットワークデバイスがさらに、複数の独立した出力の学習された分布を少なくとも２つの独立した活性化関数のうちのトレーニングされた少なくとも２つの関数として使用することによって生成された出力のシミュレーションを追加するように構成された層を含む。

【0027】

このような実施形態により、初期入力が小さすぎる場合の分布を出力が表現するよう、当該出力を増強することができる。

【0028】

第２の態様によれば、本発明は、ニューラルネットワークデバイスをトレーニングするためのコンピュータ実装方法であって、
－少なくとも１つの入力セットと入力セットに関連付けられた少なくとも１つの出力セットとを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブルを含むニューラルネットワークデバイスへ提供するステップと、
－標本データセットに基づいてニューラルネットワークデバイスを動作させるステップと、
－出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップと、
を含み、
－ニューラルネットワークデバイスを動作させるステップでは、ニューラルネットワークデバイスが少なくとも２つの独立した活性化関数を含み、独立した活性化関数のうちの少なくとも２つが、複数の独立した予測の統計分布を表現しており、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つに対する少なくとも１つの出力を提供するように構成されており、
－動作させるステップがさらに、アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップを含み、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つを表現する値を最小化するようにトレーニングされる、
コンピュータ実装方法に関する。

【0029】

本発明の対象である方法は、本発明の対象であるシステムと同じ利点を提供する。

【0030】

第３の態様によれば、本発明は、本発明の対象であるコンピュータ実装方法によって取得されるコンピュータ実装ニューラルネットワークデバイスに関する。

【0031】

本発明の対象であるコンピュータ実装ニューラルネットワークデバイスは、本発明の対象であるシステムと同じ利点を提供する。

【0032】

第４の態様によれば、本発明は、コンピュータ上で実行される際に、本発明の対象である方法の各ステップを実行するための命令を含む、コンピュータプログラム製品に関する。

【0033】

本発明の対象であるコンピュータプログラム製品は、本発明の対象であるシステムと同じ利点を提供する。

【0034】

第５の態様によれば、本発明は、コンピュータ上で実行される際に、本発明の対象である方法の各ステップを実行するための命令を記憶した、コンピュータ可読媒体に関する。

【0035】

本発明の対象であるコンピュータ可読媒体は、本発明の対象であるシステムと同じ利点を提供する。

【0036】

第６の態様によれば、本発明は、フレーバー成分、フレグランス成分もしくは薬剤成分の物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を予測するためのコンピュータ実装方法であって、当該コンピュータ実装方法が、
－コンピューティングデバイスにより、本発明の方法に従ってニューラルネットワークデバイスをトレーニングするステップであって、ここで、標本データセットが、
－入力としての、フレーバー成分、フレグランス成分もしくは薬剤成分の組成物、および
－出力としての、うち１つが組成物の分子量である少なくとも１つの物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性
を表現している、ステップと、
－コンピュータインタフェース上で、少なくとも１つのフレーバー成分、フレグランス成分もしくは薬剤成分のデジタル識別子を入力するステップであって、ここで、得られる入力はフレーバー成分、フレグランス成分もしくは薬剤成分の組成物に対応する、ステップと、
－コンピューティングデバイスにより、トレーニング済みニューラルネットワークデバイスを動作させるステップと、
－コンピュータインタフェース上で、組成物に対する、トレーニング済みニューラルネットワークデバイスによって出力された少なくとも１つの物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を提供するステップと、
を含む、コンピュータ実装方法に関する。

【0037】

第７の態様によれば、本発明は、画像における表現カテゴリを予測するためのコンピュータ実装方法であって、当該方法が、
－コンピューティングデバイスにより、本発明の方法に従ってニューラルネットワークデバイスをトレーニングするステップであって、ここで、標本データセットが、
－入力としての画像、および
－出力としての、入力画像における少なくとも１つの表現カテゴリ
を含む、ステップと、
－コンピュータインタフェース上で、少なくとも１つの画像を入力するステップと、
－コンピューティングデバイスにより、トレーニング済みニューラルネットワークデバイスを動作させるステップと、
－コンピュータインタフェース上で、組成物に対する、トレーニング済みニューラルネットワークデバイスによって出力された少なくとも１つの表現カテゴリを提供するステップと、
を含む、コンピュータ実装方法に関する。

【0038】

このような規定により、例えば医用イメージングまたは細胞活性化において使用されるような、画像に基づく予測が可能となる。

【0039】

本発明の他の利点、目的および特定の特徴は、添付の図面に即した本発明の少なくとも１つの特定の実施形態の以下の非網羅的な説明から明らかとなるであろう。

【図面の簡単な説明】

【0040】

【図1】ニューラルネットワークデバイスコンポーネントの一般的な表現を概略的に示す図である。

【図2】本発明の対象であるシステムの第１の特定の一連のステップを概略的に示す図である。

【図3】本発明の対象であるシステムの第２の特定の一連のステップを概略的に示す図である。

【図4】本発明の対象であるシステムについての、方法の第１の特定のシーケンスを概略的に示す図である。

【図5】本発明のフレグランス成分またはフレーバー成分の組成物の物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を予測するための方法の第１の特定のシーケンスを概略的に示す図である。

【図6】本発明の対象である画像の表現カテゴリを予測するための方法の第１の特定のシーケンスを概略的に示す図である。

【図7】本発明の対象である方法を実行するように構成されたコンピュータアーキテクチャを概略的に示す図である。

【図8】分子の分子量を予測するために使用される２つの比較された特定のアーキテクチャを概略的に示す図である。

【図9】２つの特定のアーキテクチャの性能結果を示す図である。

【図10】２つの特定のアーキテクチャの性能結果を示す図である。

【図11】２つの特定のアーキテクチャの性能結果を示す図である。

【図12】２つの特定のアーキテクチャの性能結果を示す図である。

【図13】２つの特定のアーキテクチャの性能結果を示す図である。

【発明を実施するための形態】

【0041】

１つの実施形態の各特徴は任意の他の実施形態の任意の他の特徴と有利な形式で組み合わせることができるので、ここでの説明は網羅的なものではない。

【0042】

様々な本発明のコンセプトを、そのうちの一例を提示した１つもしくは複数の方法として実現することができる。方法の一部として実行される動作は、任意の適切な方式で順序付けることができる。したがって、図示の順序とは異なる順序で動作が実行される実施形態を構成することもでき、ここでの順序には、図示の実施形態では連続する動作として示されていても、幾つかの動作を同時に実行することが含まれうる。

【0043】

本明細書および特許請求の範囲において使用される不定冠詞「１つの（“a”，“an”）」は、別段の明記がない限り、「少なくとも１つの」を意味すると理解されるべきである。

【0044】

本明細書および特許請求の範囲において使用される「および／または」なる語句は、この語句によって接続された要素の「いずれか一方または双方」、すなわち、ある場合には結合的に存在する要素を、他の場合には選択的に存在する要素を意味すると理解すべきである。「および／または」により列挙される複数の要素は、同じ形式で、すなわち、そのように組み合わされた要素の「１つもしくは複数」として解釈されるべきである。「および／または」句節にて具体的に識別される要素以外の他の要素も、具体的に識別される要素に関連するかもしくは関連しないかにかかわらず、任意選択手段として存在しうる。したがって、非限定的な例として、「含む（comprising）」などのオープンエンドな語と共に使用される場合、「Ａおよび／またはＢ」との言及は、ある実施形態ではＡのみ（任意選択手段としてＢ以外の要素を含む）を指し、別の実施形態ではＢのみ（任意選択手段としてＡ以外の要素を含む）を指し、さらに別の実施形態ではＡおよびＢの双方（任意選択手段として他の要素を含む）などを指すことができる。

【0045】

本明細書および特許請求の範囲で使用される場合、「または」は、上記にて定義した「および／または」と同じ意味を有すると理解されるべきである。例えば、列挙における各項目を分離する場合、「または」もしくは「および／または」は包括的であると解釈されるべきであり、すなわち、少なくとも１つの要素を含み、また複数の要素もしくは要素リストのうちの２つ以上の要素を含み、さらに任意選択手段として列挙されていない付加的な項目も含むものと解釈されるべきである。逆に、明確な指示を有する語、例えば「～のうちの１つのみ」もしくは「～のうちの正確に１つ」、または特許請求の範囲において使用される場合の「～から成る」は、複数の要素または要素リストのうちの正確に１つの要素のみを含むことを指す。一般に、本明細書で使用される「または」なる語は、「～のいずれか」、「～のうちの１つ」、「～のうちの１つのみ」または「～のうちの正確に１つ」などの排他性を示す語が付随する場合にのみ、排他的な選択肢（すなわち「一方または他方であって双方ではない」こと）を示すものとして解釈されるべきである。特許請求の範囲において使用される場合の「実質的に～から成る」は、特許法分野において使用されている通常の意味を有する。

【0046】

本明細書および特許請求の範囲において使用される場合、１つもしくは複数の要素リストについていう「少なくとも１つ」なる語句は、要素リスト内の任意の１つもしくは複数の要素から選択された少なくとも１つの要素を意味すると理解されるべきであるが、必ずしも要素リスト内に具体的に列挙されたすべての要素をそれぞれ少なくとも１つずつ含むとは限らず、要素リスト内の要素の任意の組み合わせが除外されてはならない。当該定義により、「少なくとも１つ」なる語句の指す要素リスト内で特に識別される要素以外の各要素が、特に識別される要素に関連するかまたは関連しないかにかかわらず、任意選択手段として存在していてもよい。よって、非限定的な例として、「ＡおよびＢのうちの少なくとも１つ」（または等価の「ＡまたはＢのうちの少なくとも１つ」または等価の「Ａおよび／またはＢのうちの少なくとも１つ」）は、ある実施形態では、少なくとも１つの、任意選択手段としては２つ以上のＡを含み、Ｂは存在しない（かつ任意選択手段としてＢ以外の要素を含む）ケース、また別の実施形態では、少なくとも１つの、任意選択手段としては２つ以上のＢを含み、Ａは存在しない（かつ任意選択手段としてＡ以外の要素を含む）ケース、さらに別の実施形態では、少なくとも１つの、任意選択手段としては２つ以上のＡと、少なくとも１つの、任意選択手段としては２つ以上のＢと、を含む、（かつ任意選択手段として他の要素を含む）ケース、などを指すことができる。

【0047】

特許請求の範囲および本明細書において、「備える」、「含む」、「担持する」、「有する」、「含有する」、「付属する」、「保持する」、「～から構成される」などのすべての移行句はオープンエンドであると理解されるべきであり、すなわち、記載の要素を含むがこれらに限定されないことを意味する。なお、「～から成る」および「～から実質的に成る」なる移行句は，それぞれクローズエンドまたは準クローズエンドであるものとする。

【0048】

ここで、図面は縮尺通りに描かれていないことに留意すべきである。

【0049】

本明細書で使用される「揮発性成分」なる用語は、好ましくはフレーバー付与能力またはフレグランス付与能力を示す任意の成分を指す。「化合物」または「成分」なる用語は、「揮発性成分」と同じ物品を指す。成分とは、１つもしくは複数の化学分子から形成されるものでありうる。

【0050】

組成物なる用語は、少なくとも１つのフレグランス成分またはフレーバー成分の液体状、固体状または気体状の調合物を指す。

【0051】

本明細書で使用される「フレーバー」とは、少なくとも１つの揮発性成分によるオルソネーザル嗅覚およびレトロネーザル嗅覚を介した、匂い物質受容体の活性化、増強および（存在する場合の）阻害と味覚受容体細胞を含む味蕾の活性化との総体から得られる嗅覚知覚を指す。したがって、例示であって本開示の範囲の限定を意図するものではないが、「フレーバー」とは、ココナッツの調性に関連付けられた匂い物質受容体もしくは味蕾を活性化する第１の揮発性成分と、セロリの調性に関連付けられた匂い物質受容体もしくは味蕾を活性化する第２の揮発性成分と、干し草の調性に関連付けられた匂い物質受容体もしくは味蕾を阻害する第３の揮発性成分と、の総体から得られるものである。

【0052】

本明細書で使用される「フレグランス」とは、少なくとも１つの揮発性成分による匂い物質受容体の活性化、増強および（存在する場合の）阻害の総体から得られる嗅覚知覚を指す。したがって、例示であって本開示の範囲の限定を意図するものではないが、「フレグランス」とは、ココナッツの調性に関連付けられた匂い物質受容体を活性化する第１の揮発性成分と、セロリの調性に関連付けられた匂い物質受容体を活性化する第２の揮発性成分と、干し草の調性に関連付けられた匂い物質受容体を阻害する第３の揮発性成分と、の総体から得られるものである。

【0053】

本明細書で使用される「入力手段」なる用語は、例えば、ユーザ入力を収集できる方式でコンピューティングシステムと対話するように適応化されたキーボード、マウスおよび／またはタッチスクリーンである。変形形態においては、入力手段は本質的に論理的なものであり、例えば、電子的に送信された入力コマンドを受信するように構成されたコンピューティングシステムのネットワークポートである。このような入力手段は、ユーザに対して示されるＧＵＩ（Graphics User Interface）またはＡＰＩ（Application Programming Interface）に関連付けることができる。別の変形形態によれば、入力手段は、意図された使用事例に関連する特定の物理パラメータを測定するように構成されたセンサとすることができる。

【0054】

本明細書で使用される「コンピューティングシステム」または「コンピュータシステム」なる用語は、中央型であるかまたは分散されているかにかかわらず、数値入力を受信し、任意の種類のインタフェースによってもしくは任意の種類のインタフェースへデジタルでかつ／またはアナログで数値出力を提供することのできる任意の電子計算デバイスを指す。典型的には、コンピューティングシステムとは、データストレージへのアクセスを有するソフトウェアを実行するコンピュータ、またはクライアント側がインタフェースとして動作する間、サーバ側でデータおよび／または計算が実行されるクライアント－サーバアーキテクチャのいずれかを指す。

【0055】

本明細書で使用される「デジタル識別子」なる用語は、任意のコンピュータ化された識別子、例えばコンピュータデータベースにおいて使用される識別子を指し、物理的な対象物、例えばフレーバー付与成分を表す。デジタル識別子は、フレーバー付与成分の名称、化学構造または内部参照を表すラベルを指すこともできる。

【0056】

本明細書で使用される「ヒト反応」なる用語は、組成物にヒトを直面させることによって誘発される任意の身体的挙動を指す。当該挙動は、組成物に対する評価または嫌悪のように広義に定義することもできるし、またはより詳細には、例えば組成物に直面した際の顔の表情もしくは体の動きのような記述であってもよい。

【0057】

本明細書では、「具体化される」なる用語は、本発明のデジタル環境外に存在するものを意図している。「具体化される」とは、例えば、自然界で容易に見出されるかまたは実験室もしくは化学プラントにおいて合成されることを意味しうる。いずれにしても、具体化された組成物は有形の現実性を示す。「配合される」または「配合した」なる用語は、成分の抽出および調合によるかまたは成分の合成および調合によるかに関わらず、組成物を具体化する動作を指す。

【0058】

本明細書で使用される「活性化関数」なる用語は、ニューラルネットワークにおいて、入力の重み付け和がどのようにネットワークの層内の１つもしくは複数のノードからの出力へ変換されるかを定義するものである。当該活性化関数は、ネットワーク内の層によってまたは損失関数における算術解によって定義可能である。

【0059】

以下に開示する実施形態は、一般的な方式で提示する。

【0060】

図２には、本発明の対象であるシステム２００の特定の実施形態が示されている。アンサンブルニューラルネットワークデバイスをトレーニングする当該システム２００は、１つもしくは複数のコンピュータプロセッサと、１つもしくは複数のコンピュータプロセッサに動作可能に結合された１つもしくは複数のコンピュータ可読媒体と、を備え、１つもしくは複数のコンピュータ可読媒体は、１つもしくは複数のコンピュータプロセッサによって実行される際に、１つもしくは複数のコンピュータプロセッサに、次の各ステップ、すなわち、
－少なくとも１つの入力セット２２０と入力セットに関連付けられた少なくとも１つの出力セット２２５とを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブル２３０を含むニューラルネットワークデバイスへ提供するステップ２０５と、
－標本データセットに基づいてニューラルネットワークデバイスを動作させるステップ２１０と、
－出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップ２１５と、
を実行させるための命令を記憶しており、ここで、
－ニューラルネットワークデバイスがさらに少なくとも２つの独立した活性化関数を含み、独立した活性化関数のうちの少なくとも２つが、複数の独立した予測の統計分布を表現しており、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つに対する少なくとも１つの出力２３５，２３６を提供するように構成されており、
－動作させるステップがさらに、アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップを含み、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つを表現する値を最小化するようにトレーニングされる。

【0061】

システム２００自体は、コンピュータプロセッサによって実行される特徴的なステップを実行する手段の任意の組み合わせから形成可能である。

【0062】

提供するステップ２０５は、コンピュータインタフェース、例えばＡＰＩまたは任意の他のデジタル入力手段を介して実行可能である。当該提供するステップ２０５は、手動でまたは自動的に開始可能である。標本データセットは、コンピュータインタフェース上で、手動で、またはコンピューティングシステムによって自動的に、より大きな標本データセットから組み立てることができる。

【0063】

標本データは、例えば、
－任意選択手段として組成物識別子に関連付けられる組成物を形成する、少なくとも１つのフレグランス成分、フレーバー成分もしくは薬剤成分の少なくとも１つのデジタル識別子、および
－組成物の分子量
を含みうる。

【0064】

このような標本データセットは、組成物を調合して各原子の理論重量を数学的に加算し、標本セットの組成物の分子量を得ることによって取得することができる。

【0065】

他の変形形態では、標本データは、例えば、
－少なくとも１つの画像、および
－少なくとも１つの前記画像についての、画像が表現している可能カテゴリリスト中のカテゴリ（例えば、「飛行機」、「車両」、「鳥」、「猫」、「シカ」、「犬」、「カエル」、「馬」、「船」、「トラック」）、
を含みうる。このようなカテゴリは、タグ、ラベル、呼び出しまたは表現のクラスと称されることもある。

【0066】

動作させるステップ２１０は、例えば、コンピューティングシステム上で実行されるコンピュータプログラムによって実行可能である。アンサンブルニューラルネットワークデバイスは、当該動作させるステップ２１０の間、入力データに基づいてトレーニングを行うように構成されている。アンサンブルニューラルネットワークデバイスの各ニューラルネットワークは、当該動作させるステップ２１０の間、人工ニューロンの層の係数をコンフィグレーションして、出力分布を形成する出力を提供する。分布を表現する統計パラメータの値が取得され、最小化されるべき活性化関数において使用可能となる。

【0067】

特定の実施形態では、活性化関数のうちの少なくとも２つは、
－複数の独立した予測の統計分布の平均、
－複数の独立した予測の統計分布の分散、および
－任意選択手段としての、
－複数の独立した予測の統計分布のスキュー、および／または
－複数の独立した予測の統計分布の尖度
を表現する付加的な活性化関数での拡張、
を表現している。

【0068】

取得するステップ２１５は、コンピュータインタフェース、例えばＡＰＩまたは任意の他のデジタル出力システムを介して実行可能である。取得されたトレーニング済みアンサンブルニューラルネットワークデバイスは、例えばハードディスクドライブまたはデータベースのようなデータストレージに記憶可能である。

【0069】

特定の実施形態では、取得するステップ２１５の間に取得されたニューラルネットワークデバイスは、付加的に、出力の統計的分散を表現する少なくとも１つの値を提供するように構成される。

【0070】

図３には、本発明の対象であるシステム２００の特定の実施形態が示されている。

【0071】

当該実施形態では、ニューラルネットワークデバイスがさらに、複数の独立した出力の学習された分布を少なくとも２つの独立した活性化関数のうちのトレーニングされた少なくとも２つの関数として使用することによって生成された出力のシミュレーション２４５を追加するように構成された層２４０を含む。

【0072】

こうした実施形態は、例えば、ニューラルネットワークデバイスが提供する出力の平均および分散に基づく、出力のガウス拡張に対応しうる。

【0073】

図４には、ニューラルネットワークデバイスをトレーニングするためのコンピュータ実装方法３００の特定の一連のステップが概略的に示されており、当該方法は、
－少なくとも１つの入力セットと入力セットに関連付けられた少なくとも１つの出力セットとを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブルを含むニューラルネットワークデバイスへ提供するステップ３０５と、
－標本データセットに基づいてニューラルネットワークデバイスを動作させるステップ３１０と、
－出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得するステップ３１５と、
を含み、
－ニューラルネットワークデバイスを動作させるステップでは、ニューラルネットワークデバイスがさらに少なくとも２つの独立した活性化関数を含み、独立した活性化関数のうちの少なくとも２つが、複数の独立した予測の統計分布を表現しており、ニューラルネットワークデバイスが、前記独立した活性化関数のうちの少なくとも２つに対する少なくとも１つの出力を提供するように構成されており、
－動作させるステップがさらに、アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供するステップ３２０を含み、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つを表現する値を最小化するようにトレーニングされる。

【0074】

図２および図３に示されている本発明の対象であるシステム２００の対応するステップに関して、提供するステップ３０５、動作させるステップ３１０および３２０、および取得するステップ３１５が開示されている。

【0075】

本発明は、ニューラルネットワークデバイスが請求項５記載のコンピュータ実装方法３００によって取得されることを特徴とする、コンピュータ実装ニューラルネットワークデバイスに関する。

【0076】

本発明は、コンピュータ上で実行される際に、図４に示されている方法３００の各ステップを実行するための命令を含む、コンピュータプログラム製品に関する。

【0077】

本発明は、コンピュータ上で実行される際に、図４に示されている方法３００の各ステップを実行するための命令を記憶した、コンピュータ可読媒体に関する。

【0078】

図５には、本発明の対象である方法４００の特定の一連のステップが概略的に示されている。フレーバー成分、フレグランス成分もしくは薬剤成分の物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を予測するためのコンピュータ実装方法４００（例えば、刊行物Molecular descriptors for chemoinfomatics, Roberto Todeschini， Viviana Consonni second， revised and enlarged edition, Wiley et al.に開示されているもの）は、
－コンピューティングデバイスにより、図４に示されている方法３００に従ってニューラルネットワークデバイスをトレーニングするステップ４０５であって、ここで、標本データセットが、
－入力としての、フレーバー成分、フレグランス成分もしくは薬剤成分の組成物、および
－出力としての、うち１つが組成物の分子量である、少なくとも１つの物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性、
を表現している、ステップ４０５と、
－コンピュータインタフェース上で、少なくとも１つのフレーバー成分、フレグランス成分もしくは薬剤成分のデジタル識別子を入力するステップ４１０であって、ここで、得られる入力はフレーバー成分、フレグランス成分もしくは薬剤成分の組成物に対応する、ステップ４１０と、
－コンピューティングデバイスにより、トレーニング済みニューラルネットワークデバイスを動作させるステップ４１５と、
－コンピュータインタフェース上で、組成物に対する、トレーニング済みニューラルネットワークデバイスによって出力された少なくとも１つの物理的特性、化学的特性、医学的特性、感覚的特性または薬学的特性を提供するステップ４２０と、
を含む。

【0079】

方法４００は、図２に関して開示されている本発明の対象であるシステム２００の実施形態の１つとして、本発明の対象となっている。

【0080】

こうして、分子の分子量（ＭＷ）を予測することができる。分子量は、分子内のすべての原子につき原子量を合計することにより計算される。このような単純な標的を使用することにより、提案の任意の所与の分子について分子量を計算できることを考慮して、所与のアーキテクチャが任意のデータサイズから有意の分子情報を抽出できるかどうかを評価することができる。こうしたアプローチの主な利点には、当該アプローチが測定値において分散のないことを示す正確なメトリックを有するという事実が含まれる。分子量とは対照的に、実験により測定される標的は、実質的には単なる原子量の合計ではなく、使用される条件に関する複雑な関数である。分子量を正確に予測することができれば、上記にて列挙した不確実性の欠点を考慮して、モデルがデータから化学知識を正しく抽出したことを少なくとも検証することができる。ここで、こうした化学知識の抽出の評価は、モデルが実験の標的についてのみトレーニングされている場合、簡単ではない。

【0081】

以下に、さらなる考察および実施形態を開示する。

【0082】

化学特性に関して、本明細書では、本発明のニューラルネットワークにおける分子量の予測に関する結果を提示する。分子量の予測のタスクは明らかであると思われるが、当該分子量の予測は２つの主な利点を有する。すなわち、第一に、標的が、最小からゼロの値分散を有する厳密な値となることである。よって、実験において、結果の説明としてのデータの分散を排除した結果を評価することができる。第二に、ニューラルネットワークが正しい化学的抽出を行うことができたかどうかが予測により明確に伝えられることである。

【0083】

ここでの比較は、単一決定論的ニューラルネットワーク（ＳＤＮＮ）と平均および分散（ＭＳＥＮＮ）を使用してトレーニングされるアンサンブルニューラルネットワークとによって分子量を予測するために実行される。モデルは、典型的には自然言語処理において使用されるリカレントニューラルネットワークを使用してトレーニングされている。入力は、分子の原子および結合を定義するトークン化されたベクトルによって定義され、典型的には自然言語処理に使用されるトークン化された入力にきわめて類似している。このようなフォーマットの例はＳＭＩＬＥＳ文字列である。結果は、分子量が４５０未満である嗅覚特性、味覚特性および医学的特性のために使用される天然植物に典型的に認められる９９７９分子の内部データセットについて計算されたものである。

【0084】

第１の結果として、ＳＤＮＮの再現性が制限されることが示されている。第一に、ＳＤＮＮの性能が大きく変動することが見て取れる。実際には、データ上の分散は限定的であるにもかかわらず、トレーニングセット９０５およびテストセット９１０の双方の性能におけるＲＭＳＥについて、大きな差を見て取ることができる。すべてのネットワークが同一の初期重みから開始されてトレーニングされていることに留意されたい。第二に、性能が使用されたデータのスプリットに強く依存することが観察される。事実として、幾つかのデータスプリットにつきテスト性能が過度に楽観的であること、幾つかのポイントにつき十分に平衡化されていること、ならびに、ほとんどのスプリットに対して過度に悲観的であることが観察されうる。変動する結果に基づいて、予想される性能が著しく分散しうることを既に定義することができる。換言すれば、あるテストセットについて取得された性能が別のテストセットについての性能の知識を示さない。未来の未見のデータについての性能が同じ性能分散を示す可能性があると予想される場合であっても、正確な性能は評価された選択に強く依存する。実際に、未来の選択されたデータセットについてのサンプルサイズおよびサンプルバイアスは性能に強く影響を与える。

【0085】

第２の結果として、２つのネットワーク間で同じトレーニング－テストスプリットを適用したＳＤＮＮの性能に対して、本願のアンサンブルニューラルネットワークの性能が比較される。第一に、１個の例外を除いて、トレーニングセットについての性能１００５が、０．５～０．６のＲＭＳＥで安定していることが見て取れる。トレーニングセットおよびテストセットにつき観察されたＲＭＳＥ値による分布には、単一モデルと比較した、アンサンブルモデルに関する明らかなダウンシフト１０１０が示されている。第二に、テストセットの性能が単一ネットワークの性能と比較して著しく改善されていることも見て取れる。前述したように、性能は、使用されるスプリットに依存して変動する。実際には、トレーニング性能は、本発明のアンサンブルニューラルネットワークにおいてはきわめてロバストであるものの、テスト性能１０１５の範囲がきわめて大きくなっている。これらの結果は、ここでもまた、あるテストについての性能が別のテストについての性能を示さないことを示唆している。上述したように、未来の未見のデータについての性能を検証する際にも、同様の分散が発生すると予測すべきである。第三に、アンサンブルニューラルネットワークを使用した場合、ニューラルネットワークによってＲＭＳＥが１５～３０％低下していることも見て取れる。データ１０２０およびデータ１０２５におけるトレーニングセットおよびテストセットの双方につき、こうした低下が観察される。

【0086】

まとめると、平均および分散に基づいて能動的にトレーニングされるアンサンブルニューラルネットワークは、単一決定論的ニューラルネットワークと比較して、より良好な性能を示す。

【0087】

平均および分散の正規分布トレーニングが使用可能である一方、当該方法は、他の統計分布によっても使用可能である。

【0088】

図８には、分子の分子量を予測するようにトレーニングされた２つのニューラルネットワークデバイスが示されている。２つのネットワークの双方とも、入力は、ジエチルエーテル分子について示されているものと同じ分子を定義している複数のＮＬＰ互換表現のセットである。埋め込み層は、離散的な整数から連続ベクトルへの変換である。ＲＮＮ層は、時間シーケンス分析を適用する。層の例は、ＧＲＵまたはＬＳＴＭである。マルチシーケンスアテンションは、処理されたすべての入力シーケンスから取得された知識を結合するためのプーリング機構を定義している。ＭＬＰは、“ｓｅｌｕ”活性化関数によって活性化されたサイズを低減する複数の全結合層から構成された多層パーセプトロンを定義しており、例えば“ｌｕｃｋｙｒｅｌｕ”、“ｒｅｌｕ”、“ｅｌｕ”のような他の活性化関数を使用することもできる。ＭＷは、目標値を予測する層を定義している。すなわち、
Ａ）単一決定論的ニューラルネットワークのためのアーキテクチャ。当該ネットワークは期待値に基づいてトレーニングされる；
Ｂ）正規分布Ｎ（μ，σ^２）としてＭＷを生成するｎ個のＭＬＰのアンサンブルから構成される本発明のアンサンブルのアーキテクチャ。当該モデルは、期待値および０に対する平均および分散をそれぞれ最小化するようにトレーニングされている；
である。

【0089】

図９には、単一決定論的ネットワークによる分子量の予測の性能が示されている。示されている値は、二乗平均平方根誤差（ＲＭＳＥ）および相関係数（Ｒ２）である。黒線は、トレーニングとテストの間のＲＭＳＥまたはＲ２が等しい場合を示している。すなわち、
Ａ）ＲＭＳＥ（テスト）対ＲＭＳＥ（トレーニング）について示された結果；
Ｂ）Ｒ２（テスト）対Ｒ２（トレーニング）について示された結果；
である。

【0090】

図１０～図１２には、本発明のアンサンブルニューラルネットワークデバイスによる分子の予測の性能が「分散アンサンブル」によって示されており、一方、単一決定論的ニューラルネットワークが「単一」によって示されている。参考例１００５は、各スプリットについてのトレーニングセットでのＲＭＳＥ（分散アンサンブル）対ＲＭＳＥ（単一）の比較を示している。参考例１０２０は、各スプリットについてのテストセットについてのＲＭＳＥ（分散アンサンブル）対ＲＭＳＥ（単一）の比較を示している。参考例１０３０は、トレーニングセットについてのＲＭＳＥのヒストグラムを、単一（黒色）および分散アンサンブル（灰色）で示している。参考例１０１０は、テストセットについてのＲＭＳＥのヒストグラムを、単一（黒色）および分散アンサンブル（灰色）で示している。参考例１０２５は、ＲＭＳＥ（分散アンサンブル）：ＲＭＳＥ（単一）として、計算されたトレーニングセットの性能についての誤差低減分析を示しており、すなわち、１．０未満の値が改善を示す。参考例１０３５は、ＲＭＳＥ（分散アンサンブル）：ＲＭＳＥ（単一）として、計算されたテストセットの性能についての誤差低減分析を示しており、すなわち、１．０未満の値が改善を示す。参考例１０１５は、本発明のアンサンブルニューラルネットワークの分散アンサンブルのためのＲＭＳＥ（テスト）対ＲＭＳＥ（トレーニング）の性能を示している。

【0091】

図１３には、平均アンサンブルとプリセットされた分散アンサンブルとの比較が示されている。同じスプリットを使用する古典的な平均アンサンブルの予測と、分子量（ＭＷ）４５０未満のすべての分子を考慮する本発明の分散アンサンブルと、を比較することができる。本明細書において提案している分散アンサンブルは、予測の精度すなわち不確実性に関する著しい改善を伴ってＭＷを予測する。平均アンサンブルでは、モデルは、８個の水素原子の差に対応する４の標準偏差（９５％カットオフ）を報告している。しかし、分散アンサンブルモデルは、２個未満の水素の差に対応する０．８（９５％）の標準偏差を示している。関連する水素の数が既知であることにより、分子中の飽和レベルに関する重要な情報が定義される。

【0092】

図１３では実際に、分子量（ＭＷ）の予測のための平均アンサンブルと分散アンサンブルとの予測比較が示されている。すなわち、
Ａ）標準偏差（分散アンサンブル、ｙ軸）対標準偏差（平均アンサンブル、ｘ軸）の分散のプロット；
Ｂ）報告された、分散アンサンブル（黒色）および平均アンサンブル（灰色）の推論に関する標準偏差の値分布；
Ｃ）報告された標準偏差についての改善を示すヒストグラム。平均アンサンブルの標準偏差を分散アンサンブルの標準偏差で除算したもの；
である。

【0093】

図６には、本発明の対象である方法５００の特定の一連のステップが概略的に示されている。画像における表現カテゴリを予測するためのコンピュータ実装方法５００は、
－コンピューティングデバイスにより、図４に示されている方法３００に従ってニューラルネットワークデバイスをトレーニングするステップ５０５であって、ここで、標本データセットが、
－入力としての画像、および
－出力としての、入力画像における少なくとも１つの表現カテゴリ
を含む、ステップ５０５と、
－コンピュータインタフェース上で、少なくとも１つの画像を入力するステップ５１０と、
－コンピューティングデバイスにより、トレーニング済みニューラルネットワークデバイスを動作させるステップ５１５と、
－コンピュータインタフェース上で、組成物に対する、トレーニング済みニューラルネットワークデバイスによって出力された少なくとも１つの表現カテゴリを提供するステップ５２０と、
を含む。

【0094】

本発明の対象である方法５００は、図２に関して開示されている本発明の対象であるシステム２００の実施形態の１つを対象としている。

【0095】

以下に、さらなる考察および実施形態を開示する。

【0096】

ニューラルネットワークは、広範な用途に向けて導入されている新たな傾向である。大量の画像に基づいて、ニューラルネットワークは画像問題に広く採用されてきた。多くの場合に、ニューラルネットワークの画像学習は、単一決定論的ニューラルネットワークを使用して容易に解決可能である。単一決定論的ニューラルネットワークの主な欠点は、このニューラルネットワークが予測モデルの不確実性を伝えないことである。当該ネットワークの第２の欠点は、ほとんどの単一ネットワークがロバストでなく、データ摂動に対して、より口語的には敵対例として知られるものに対してきわめて脆弱であることである。まとめると、モデル不確実性の評価は、まだ解決されていない重要な分野の１つとして認識されている。

【0097】

近年、画像分類のためのモデルの不確実性を推定するために、エビデンス深層学習が導入されている。この方法では、事前に選択された分布に対するパラメータを提供するために、単一追加エビデンス層が導入される。次いで、選択された分布に対する分散方程式を適用して、分散を数学的に計算することができる。Sensoy et al.（https://arxiv.org/abs/1806.01768）の研究によれば、ディリクレ分布が分散の供給源として使用されている。これは、ドメイン外クエリの検出および敵対的摂動に対するロバスト性の向上につながった。この方法の第１の大きな欠点は、分布の選択に伴って導入される。したがって、結果として生じる分散は、ここでトレーニングされたシステムの境界結果である。帰謬法においてみれば、分散のソリューションが同じ懸念を等しく受けるとさえ言える。実際には、これらの新たなパラメータは、新たな単一決定論的ニューラルネットワークにも由来する。

【0098】

これらの欠点を改善するために、本発明では、アンサンブルニューラルネットワーク（ＥＮＮ）が使用される。ＥＮＮは、ニューラルネットワークのロバスト性を改善するために導入されているが、モデルの不確実性のノーションを提供するためにも導入されている。ＥＮＮの例は、テスト時間平均アンサンブル、ブートストラッピングアンサンブル、スナップショットアンサンブル、ドロップアウトアンサンブル、平均アンサンブル、平均分散アンサンブル、および負の相関学習を使用してトレーニングされたアンサンブルである。

【0099】

当該グループのうち、スナップショットアンサンブルおよびドロップアウトアンサンブルは、典型的に単一決定論的ニューラルネットワークを使用して計算されるものであるため、目立つ。スナップショットアンサンブルでは、様々な時点における複数の重みコンフィグレーションが組み合わされる。したがって、結果として生じる分散は、予測されたポイントに対する時間安定性のメトリックである。ドロップアウトアンサンブルでは、推論時間にもドロップアウト層が適用されることにより、不確実性が発生する。したがって、生成された分散は、パラメータサブサンプリングの安定性の尺度である。双方のネットワークの欠点は、予測不確実性が多くの場合に過小評価されることである。スナップショットアンサンブルでは、これは時間依存性に由来する結果である。ドロップアウトアンサンブルでは、変数が複数の選択として存在しうる。これらは、ドロップアウト率がきわめて高いニューラルネットワークを適用することによって改善することができる。しかし、このことは、ネットワークのサイズに重大な影響を及ぼす可能性がある。

【0100】

特定のソリューションは、ブートストラッピングアンサンブルによって提供される。当該タイプのネットワークでは、異なるデータ選択で同じネットワークをトレーニングすることによってアンサンブルが作成される。よって、生成されたモデルの不確実性のノーションは、データサブサンプリングに対するメトリックまたはロバスト性となる。当該タイプのアンサンブルでは、高密度ポイントは十分にサポートされており、サブサンプリングによる影響を受けない。ドロップアウトネットワークに生じるものと同じ懸念が、ブートストラッピングアンサンブルについて生じる。ブートストラッピングオミッション率が小さいとデータポイントの繰り返しの使用が生じうるため、不確実性が過小評価されうることが予想される。後者は、データにおける高い密度レートから生じるポイントにとって特に有益である。

【0101】

平均アンサンブルおよびテスト時間平均アンサンブルのグループは、組み合わされて予測のための平均および分散を生成するアンサンブルネットワークのグループを定義している。平均アンサンブルが平均について能動的にトレーニングされるのに対し、テスト時間アンサンブルは独立してトレーニングされたネットワークのアンサンブルである。平均ネットワークの場合、モデルは、予測された右側平均値についてトレーニングされる。平均のみをトレーニングすることの主な欠点は、サブモデルの分散がそれぞれ異なるポイントでの予測間で著しく変化する可能性があるという事実である。テスト時間アンサンブルでは、すべてのモデルが個別にトレーニングされる。その結果、これらのネットワークは、ネットワーク間の平均値が平均アンサンブルの対応物につき最適化が行われたときのように最適化されないという問題を示すことさえある。

【0102】

平均分散アンサンブルと下側上側境界アンサンブルニューラルネットワークとは、データ分散を使用してトレーニングされる。下側境界および上側境界は平均および分散の分散であり、すなわち、下側境界および上側境界は、それぞれ、平均－分散および平均＋分散として計算されたものである。これらのネットワークでは、ネットワークは、データ分散を使用してトレーニングされる。当該アプローチの主な欠点は、分散がモデルの不確実性に何ら結論を与えないことである。さらに、データ分散自体は、予測されたポイントの特性ではなく、その測定値において観察される変動の特性である。事実として、報告された分散は、各データポイントに対して実行される測定の数に強く依存する。報告されるデータポイントの数は、ポイントごとに大幅に変化しうる。

【0103】

上述した欠点は、負の相関学習と称されるストラテジを適用して解決されている。当該アプローチでは、典型的には、信号におけるダイバーシティを考慮して損失が修正される。提案のトレーニング機構の例は、カップリング項の使用またはＫＬダイバージェンスの使用である。当該方法は広く評価されており、ｂａｓｅｌｅａｒｎｅｒの性能が強く変化することが観察されている。当該方法は、通常、小容量のｂａｓｅｌｅａｒｎｅｒには有益であるが、大容量のｂａｓｅｌｅａｒｎｅｒには有害であることが報告されている。まとめると、アンサンブルにおけるＮＣＬの使用は、なるべく良好な結果を得るために、ハードファインチューニング最適化を必要とする。

【0104】

単一決定論的ニューラルネットワークをトレーニングする場合、一般的に、このようなネットワークの初期化が最良の結果をもたらしうるかどうかを判別することはできない。さらに、使用されたデータの特定のサブセットについてのバイアスをモデルが展開したかどうかを正確に判別することもできない。極端なケースでは、訊ねられた幾つかの質問に対する回答の提供にモデルが失敗する可能性があり、すなわち、幾つかのポイントの正しい予測に失敗することが観察されうる。

【0105】

ここでの特定の実施形態では、アンサンブルニューラルネットワークのサブモデル間の通信を確立するために、アンサンブルニューラルネットワークデバイスが平均および分散の双方でトレーニングされる。トレーニング機構の簡単化として、サンプリング機構が、可変自動エンコーダ（ＶＡＥ）で使用されるサンプリング機構と同様に、アンサンブルにおいて生成される平均および分散に適用される。

【0106】

なお、本発明のシステムとは異なり、ＶＡＥは、ランダム分散の独立層を使用し、サンプリング機構を適用することによって生成ニューラルネットワークとなる、単一決定論的ニューラルネットワークであることに留意されたい。

【0107】

本研究では、当該方法論を、ＣＩＦＡＲ－１０データセットを使用して画像分類に適用している。ＣＩＦＡＲ－１０では、画像セットに対する１０個の可能なクラスから１個のクラスを予測するよう、モデルに要求する。結果は、５００００個の画像のトレーニングサイズおよび１００００個の画像のテストセットを有する５つの異なるスプリットについて計算される。結果は、分類精度、すなわち正しい予測の割合を測定することによって要約されたものである。

【0108】

アンサンブルの平均および分散を使用するネットワークサンプリングと、アンサンブルの完全共分散を使用するサンプリングと、ネットワーク内に発生する独立した分散層からのサンプリングと、による性能の比較を行った。後者の方法は、ＶＡＥで使用されているストラテジと同じであることに留意されたい。次表では、３つの方法を、それぞれ対角、完全共分散、および対角ＭＬＰと称している。本発明の方法を、５つの既存のソリューション、すなわち、１）平均アンサンブル、２）負の相関学習、３）単一決定論的ニューラルネットワーク、４）ドロップアウトアンサンブル、および５）ブートストラッピングアンサンブルと比較した。当該表では、これらのソリューションは、それぞれ、平均アンサンブル、ＮＣＬ、単一決定論的ＮＮ、ドロップアウトアンサンブル、およびバギングアンサンブルによって識別される。報告されている結果は予測精度である。

【0109】

テストされた方法論に基づく性能結果［精度の低下によるソート］
方法論検証の正確性
完全共分散（本発明）８３．１±０．３％
ドロップアウトアンサンブル８２．８±１．１％
対角（本発明）８２．４±０．２％
負の相関学習ＮＣＬ８１．７±０．４％
バギングアンサンブル８１．６±０．２％
平均アンサンブル７９．２±０．３％
単一決定論的ＮＮ７７．０±０．５％
対角ＭＬＰ（本発明）７６．０±０．５％。

【0110】

上記の表の結果は、幾つかの明瞭な結果を示している。第一に、すべてのアンサンブルニューラルネットワークが単一決定論的ニューラルネットワークよりも高い性能を発揮している。実際に、単一決定論的ニューラルネットワークおよび対角ＭＬＰは、表の上方６つのテストされたアンサンブルの方法よりも著しく低い性能を示している。第二に、対角ＭＬＰについて、独立したランダム分散層の使用が結果の改善にとって有益ではないことが見て取れる。さらに、当該結果は、対角ＭＬＰの性能低下が単一決定論的ネットワークと比較した場合に統計的に有意であることを示している。第三に、古典的な平均アンサンブル（平均）、ブートストラッピングアンサンブル（バギング）および負の相関学習ＮＣＬはすべて予測精度を改善できることを見て取ることができる。第四に、本発明のアンサンブル技術である完全共分散および対が著しく良好に機能していることが見て取れる。第五に、報告されているアンサンブル方法のうち、ドロップアウトアンサンブルのみが同程度の精度の動作を行えている。しかし、ドロップアウトアンサンブルは、報告された性能に対してかなり強い分散を示すことに留意されたい。本発明のアンサンブルの方法論である完全共分散および対角はそれぞれ０．３％および０．２％の分散を示しているのに対し、ドロップアウトアンサンブルは１．１％という著しく大きな分散を示しており、本発明では既存のドロップアウト方法よりも強いロバスト性が示されている。

【0111】

まとめると、通信サブモデルを有するアンサンブルニューラルネットワークは、予測精度の再現性につき以前に報告されているアンサンブルニューラルネットワークよりも優れた性能を有するというコンセンサスに達する。

【0112】

図７には、本発明の対象であるシステム２００を実現することのできるコンピュータアーキテクチャ６００が概略的に示されている。当該コンピュータアーキテクチャ６００は、
－少なくとも１つの入力セットと入力セットに関連付けられた少なくとも１つの出力セットとを含む標本データセットを、標本データに基づいて独立した予測を提供するように構成されたニューラルネットワークデバイスのアンサンブルを含むニューラルネットワークデバイスへ提供する手段と、
－標本データセットに基づいてニューラルネットワークデバイスを動作させる手段と、
－出力を提供するように構成されたトレーニング済みニューラルネットワークデバイスを取得する手段と、
を備え、
－ニューラルネットワークデバイスがさらに、少なくとも２つの独立した活性化関数を含み、独立した活性化関数のうちの少なくとも２つが、複数の独立した予測の統計分布を表現しており、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つに対する少なくとも１つの出力を提供するように構成されており、
－動作させる手段がさらに、アンサンブルの各ニューラルネットワークデバイスを動作させて出力のアンサンブルを提供する手段を含み、ニューラルネットワークデバイスは、前記独立した活性化関数のうちの少なくとも２つを表現する値を最小化するようにトレーニングされる。

【図1】