特表2024-545545 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アリゾナ　ボード　オブ　リージェンツ　フォー　アンド　オン　ビハーフ　オブ　アリゾナ　ステート　ユニバーシティの特許一覧

特表2024-545545深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のために透明モデルを実装するシステム、方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6A
6B
6C
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-12-10

(54)【発明の名称】深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のために透明モデルを実装するシステム、方法及び装置

(51)【国際特許分類】

G06N 5/045 20230101AFI20241203BHJP

G06T 7/00 20170101ALI20241203BHJP

G06V 10/776 20220101ALI20241203BHJP

G06V 10/82 20220101ALI20241203BHJP

G06V 10/764 20220101ALI20241203BHJP

G06N 3/0464 20230101ALI20241203BHJP

【ＦＩ】

G06N5/045

G06T7/00 350C

G06V10/776

G06V10/82

G06V10/764

G06N3/0464

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024509329

(86)(22)【出願日】2022-08-24

(85)【翻訳文提出日】2024-03-05

(86)【国際出願番号】 US2022041365

(87)【国際公開番号】W WO2023028135

(87)【国際公開日】2023-03-02

(31)【優先権主張番号】63/236,393

(32)【優先日】2021-08-24

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＰＹＴＨＯＮ

２．ＹｏｕＴｕｂｅ

(71)【出願人】

【識別番号】504318142

【氏名又は名称】アリゾナボードオブリージェンツオンビハーフオブアリゾナステートユニバーシティ

(74)【代理人】

【識別番号】100098394

【弁理士】

【氏名又は名称】山川茂樹

(72)【発明者】

【氏名】ロイ，アシム

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096HA11

(57)【要約】

透明モデルは、深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のために生成される。説明可能なＡＩは、物体を分類するために畳み込みニューラル・ネットワークを訓練し、物体及び物体の部位の両方を認識するために多層パーセプトロンを訓練することによって生成される。物体が中に埋め込まれた画像が受信される。ＣＮＮ及び説明可能なＡＩモデルは、画像認識システム内で実行され、説明可能なＡＩモデルを介して画像内の物体の予測を生成し、物体の部位を認識し、物体の予測の証拠として、物体内で認識された部位を提供し、認識された部位を含む証拠に基づき、画像システムが画像内で物体を予測した理由についての説明を生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

非透明ブラック・ボックスＡＩモデルから、コンピュータ・ビジョン又は画像認識のための透明で説明可能なＡＩモデルを生成する少なくとも１つのプロセッサとメモリとを中に有するシステムによって実施されるコンピュータ実装方法であって、前記方法は、
訓練画像セットを有する訓練データから物体を分類するため、畳み込みニューラル・ネットワーク（ＣＮＮ）を訓練することと、
前記物体及び前記物体の部位を認識するため、多層パーセプトロン（ＭＬＰ）を訓練することと、
前記ＭＬＰの訓練に基づき前記説明可能なＡＩモデルを生成することと、
物体が中に埋め込まれた画像を受信することであって、前記画像は、前記説明可能なＡＩモデルのための前記訓練データの部分を形成しない、受信することと、
画像認識システム内で前記ＣＮＮ及び前記説明可能なＡＩモデルを実行し、前記説明可能なＡＩモデルを介して前記画像内の前記物体の予測を生成することと、
前記物体の部位を認識することと、
前記物体の予測の証拠として、前記物体内で認識された前記部位を提供することと、
前記認識された部位を含む証拠に基づき、前記画像システムが前記画像内で前記物体を予測した理由についての説明を生成することと
を含む、方法。

【請求項2】

前記物体及び物体の部位の両方を認識するためにＭＬＰを訓練することは、
（ｉ）前記訓練データから選択された訓練画像を、訓練する前記ＣＮＮに提示することと、
（ｉｉ）前記ＣＮＮの全結合層（ＦＣ）層の活性化関数を読み込むことと、
（ｉｉｉ）前記ＭＬＰへの入力として前記活性化関数を受信することと、
（ｉｖ）前記訓練画像のためのマルチターゲット出力を設定することと、
（ｖ）重み調節方法に従って前記ＭＬＰの重みを調節することと
を含む動作を介してＭＬＰ訓練手順を実施することを含む、請求項１に記載の方法。

【請求項3】

前記物体内で認識された部位及び前記説明の少なくとも一部分を、前記画像認識システムのユーザに表示する説明ユーザ・インターフェース（ＵＩ）に送信すること
を更に含む、請求項１に記載の方法。

【請求項4】

前記物体の部位の識別は、前記物体の部位を認識するための畳み込みニューラル・ネットワーク（ＣＮＮ）の復号を含む、請求項１に記載の方法。

【請求項5】

前記ＣＮＮの復号は、前記物体の構成に関する情報を提供することを含み、前記情報は、前記ＣＮＮを復号するモデルのための前記物体の部位及び前記部位の結合性を含む、請求項４に記載の方法。

【請求項6】

前記部位の結合性は、前記部位の間の空間関係を含む、請求項５に記載の方法。

【請求項7】

前記モデルは、前記ＣＮＮモデルとは別個であるか又は前記ＣＮＮモデルと統合される多層パーセプトロン（ＭＬＰ）であり、前記統合モデルは、前記物体及び前記部位の両方を認識するように訓練される、請求項６に記載の方法。

【請求項8】

前記物体の構成についての情報を提供することは、前記物体の下位アセンブリを含む情報を提供することを更に含む、請求項６に記載の方法。

【請求項9】

前記物体の部位の認識は、前記物体の部位のユーザ定義リストを試験することを含む、請求項１に記載の方法。

【請求項10】

前記物体を分類するためのＣＮＮの訓練は、転移学習を使用して、注物体を分類するために前記ＣＮＮを訓練することを含む、請求項１に記載の方法。

【請求項11】

転移学習は、
同様の物体のクラス上で事前に訓練された事前訓練ＣＮＮの一部又は全部の畳み込み層の重みを凍結することと、
１つ又は複数の平坦化全結合層（ＦＣ）層を追加することと、
出力層を追加することと、
新たな分類タスクのために前記全結合層及び非凍結畳み込み層の両方の重みを訓練することと
を含む、請求項１０に記載の方法。

【請求項12】

前記物体及び物体の部位の両方を認識するためにＭＬＰを訓練することは、
前記ＣＮＮの１つ又は複数の全結合層（ＦＣ）層の活性化関数からの入力を受信することと、
前記ＭＬＰの出力ノードのため、部位のユーザ定義リストからのターゲット値を提供することと
を含み、前記出力ノードは、前記部位のユーザ定義リストによって指定された対象物体として定義される物体、及び前記部位のユーザ定義リストに従った対象物体の部位に対応する、請求項１に記載の方法。

【請求項13】

非透明ブラック・ボックスＡＩモデルから、コンピュータ・ビジョン又は画像認識のための前記透明で説明可能なＡＩモデルを生成すること
を更に含み、前記生成は、
Ｃ物体クラスのＭ画像を使用して、全結合層（ＦＣ）層セットを有する前記畳み込みニューラル・ネットワーク（ＣＮＮ）を訓練、試験することと、
画像合計セットＭＴの下位セットを使用して、前記マルチターゲットＭＬＰを訓練することと
を更に含む動作を介して行い、前記ＭＴは、ＣＮＮ訓練のための元のＭ画像、並びに部位及び下位アセンブリ画像の更なるセットＭＰを含み、
前記ＭＴ内の各画像ＩＭ_ｋのための訓練は、
（ｉ）画像ＩＭ_ｋを前記訓練ＣＮＮへの入力として受信することと、
（ｉｉ）１つ又は複数の指定されたＦＣ層で活性化関数を記録することと、
（ｉｉｉ）前記１つ又は複数の指定されたＦＣ層の活性化関数を前記マルチターゲットＭＬＰへの入力として受信することと、
（ｉｖ）前記画像ＩＭ_ｋのためのマルチターゲット出力ベクトルとしてＴＲ_ｋを設定することと、
（ｖ）重み調節アルゴリズムに従ってＭＬＰの重みを調節することと
を含む、請求項１に記載の方法。

【請求項14】

前記ＣＮＮの訓練は、最初から、又はＦＣ層を追加する転移学習の使用による前記ＣＮＮの訓練を含む、請求項１３に記載の方法。

【請求項15】

ＣＮＮ訓練のための元のＭ画像、並びに部位及び下位アセンブリ画像の更なるセットＭＰを含む前記画像合計セットＭＴの下位セットを使用する前記マルチターゲットＭＬＰの訓練は、前記部位及び下位アセンブリ画像の更なるセットＭＰ並びに部位の結合性から、Ｃ物体クラスの物体のＭ画像の構成を教示することを含む、請求項１３に記載の方法。

【請求項16】

前記部位及び下位アセンブリ画像の更なるセットＭＰ並びに部位の結合性からＣ物体クラスのＭ画像の構成を教示することは、
前記ＭＬＰ個別画像の部位を示すことによって、前記部位を識別することと、
前記ＭＬＰ画像の下位アセンブリを示すことによって、前記下位アセンブリを識別し、中に含まれる前記部位をリスト化することであって、前記ＭＬＰが、アセンブリ又は下位アセンブリ及び対応する画像のための前記部位リストを考慮に入れて前記物体の構成及び下位アセンブリ並びに前記部位の結合性を学習するようにする、リスト化することと、
前記画像のためのマルチターゲット出力の形態で前記部位リストを前記ＭＬＰに提供することと
を含む、請求項１５に記載の方法。

【請求項17】

命令を記憶するメモリと、
前記メモリ内に記憶された命令を実行するプロセッサと
を備えるシステムであって、
前記システムは、前記プロセッサを介して前記メモリ内に記憶された命令を実行するように特別に構成され、
物体を分類するため、畳み込みニューラル・ネットワーク（ＣＮＮ）を訓練することと、
訓練画像セットを有する訓練データから物体を分類するため、畳み込みニューラル・ネットワーク（ＣＮＮ）を訓練することと、
前記物体及び前記物体の部位を認識するため、多層パーセプトロン（ＭＬＰ）を訓練することと、
前記ＭＬＰの訓練に基づき前記説明可能なＡＩモデルを生成することと、
物体が中に埋め込まれた画像を受信することであって、前記画像は、前記説明可能なＡＩモデルのための前記訓練データの部分を形成しない、受信することと、
画像認識システム内で前記ＣＮＮ及び前記説明可能なＡＩモデルを実行し、前記説明可能なＡＩモデルを介して前記画像内の前記物体の予測を生成することと、
前記物体の部位を認識することと、
前記物体の予測の証拠として、前記物体内で認識された前記部位を提供することと、
前記認識された部位を含む証拠に基づき、前記画像システムが前記画像内で前記物体を予測した理由についての説明を生成することと
を含む動作を前記システムに実施させる、システム。

【請求項18】

【請求項19】

前記物体内で認識された部位及び前記説明の少なくとも一部分を、前記画像認識システムのユーザに表示する説明ユーザ・インターフェース（ＵＩ）に送信すること
を更に含む、請求項１７に記載のシステム。

【請求項20】

前記物体の部位の識別は、前記物体の部位を認識するための畳み込みニューラル・ネットワーク（ＣＮＮ）の復号を含み、
前記ＣＮＮの復号は、前記物体の構成に関する情報を提供することを含み、前記情報は、前記ＣＮＮを復号するモデルのための前記物体の部位及び前記部位の結合性を含み、
前記部位の結合性は、前記部位の間の空間関係を含み、
前記モデルは、前記ＣＮＮモデルとは別個であるか又は前記ＣＮＮモデルと統合される多層パーセプトロン（ＭＬＰ）であり、前記統合モデルは、前記物体及び前記部位の両方を認識するように訓練され、
前記物体の構成についての情報を提供することは、前記物体の下位アセンブリを含む情報を提供することを更に含む、請求項１７に記載のシステム。

【請求項21】

命令を中に記憶させた非一時的コンピュータ可読記憶媒体であって、前記命令は、システムのプロセッサによって実行されると、
訓練画像セットを有する訓練データから物体を分類するため、畳み込みニューラル・ネットワーク（ＣＮＮ）を訓練することと、
前記物体及び前記物体の部位を認識するため、多層パーセプトロン（ＭＬＰ）を訓練することと、
前記ＭＬＰの訓練に基づき前記説明可能なＡＩモデルを生成することと、
物体が中に埋め込まれた画像を受信することであって、前記画像は、前記説明可能なＡＩモデルのための前記訓練データの部分を形成しない、受信することと、
画像認識システム内で前記ＣＮＮ及び前記説明可能なＡＩモデルを実行し、前記説明可能なＡＩモデルを介して前記画像内の前記物体の予測を生成することと、
前記物体の部位を認識することと、
前記物体の予測の証拠として、前記物体内で認識された前記部位を提供することと、
前記認識した部位を含む証拠に基づき、前記画像システムが前記画像内で前記物体を予測した理由についての説明を生成することと
を含む動作を前記システムに実施させる、非一時的コンピュータ可読記憶媒体。

【請求項22】

【請求項23】

前記命令により、
前記物体内で認識された部位及び前記説明の少なくとも一部分を、前記画像認識システムのユーザに表示する説明ユーザ・インターフェース（ＵＩ）に送信すること
を更に含む動作を前記システムに実施させる、請求項２１に記載の非一時的コンピュータ可読記憶媒体。

【請求項24】

【発明の詳細な説明】

【技術分野】

【0001】

優先権の主張
特許協力条約（ＰＣＴ）の元に出願される本特許出願は、２０２１年８月２４日出願、代理人整理番号第３７６８４．６７１Ｐ号を有する「ＳＹＳＴＥＭＳ，ＭＥＴＨＯＤＳ，ＡＮＤＡＰＰＡＲＡＴＵＳＥＳＦＯＲＡＴＲＡＮＳＰＡＲＥＮＴＭＯＤＥＬＦＯＲＣＯＭＰＵＴＥＲＶＩＳＩＯＮ／ＩＭＡＧＥＲＥＣＯＧＮＩＴＩＯＮＦＲＯＭＡＤＥＥＰＬＥＡＲＮＩＮＧＮＯＮＴＲＡＮＳＰＡＲＥＮＴＢＬＡＣＫＢＯＸＭＯＤＥＬ」という名称の米国仮特許出願第６３／２３６，３９３号に関連し、当該出願に対する優先権を主張するものであり、当該出願の内容全体は、完全に示されるかのように参照により本明細書に組み込まれる。

【0002】

政府の権利及び政府機関による支援の通知
支援助成金は、２０２１年Ｄｅａｎ’ｓＥｘｃｅｌｌｅｎｃｅｉｎＲｅｓｅａｒｃｈＳｕｍｍｅｒＲｅｓｅａｒｃｈＧｒａｎｔ、Ｗ．Ｐ．ＣａｒｅｙＳｃｈｏｏｌｏｆＢｕｓｉｎｅｓｓ、ＡＳＵ、及び２０２０年Ｄｅａｎ’ｓＥｘｃｅｌｌｅｎｃｅｉｎＲｅｓｅａｒｃｈＳｕｍｍｅｒＲｅｓｅａｒｃｈＧｒａｎｔ、Ｗ．Ｐ．ＣａｒｅｙＳｃｈｏｏｌｏｆＢｕｓｉｎｅｓｓ、ＡＳＵを含む。

【0003】

著作権の通知
本特許文書の開示の一部分は、著作権保護を受ける素材を含む。当該著作権者は、複製が米国特許商標庁の特許ファイル又は記録内に出現するため、誰かが当該特許文書又は当該特許の開示を複製することに異議はないが、それ以外の場合の全ての著作権の権利を全て留保する。

【0004】

本発明の実施形態は、一般に、コンピュータ・ビジョンのための深層学習のあらゆる適用領域で使用するための、深層学習非透明ブラック・ボックス・モデルからのコンピュータ・ビジョン／画像認識の分野に関し、適用領域には、限定はしないが、透明で信頼できるモデルから利益を得る軍事及び医療適用領域を含む。

【背景技術】

【0005】

この背景技術の項で論じる主題は、背景技術の項での単なる言及の結果として、従来技術であるとみなすべきではない。同様に、背景技術の項で述べられる又は背景技術の項の主題に関連する問題は、従来技術で既に認識されているとみなすべきではない。背景技術の項における主題は、様々な手法を表すにすぎず、これらの手法自体も、請求する発明の実施形態に対応する。

【0006】

深層学習（ｄｅｅｐｌｅａｒｎｉｎｇ）（ｄｅｅｐｓｔｒｕｃｔｕｒｅｄｌｅａｒｎｉｎｇとしても公知）は、表現学習を伴う人工ニューラル・ネットワーク（ＡＮＮ）に基づく、より広範な群の機械学習方法の一部である。学習は、教師あり学習、半教師あり学習、教師なし学習とし得る。

【0007】

ディープ・ニューラル・ネットワーク、深層信念ネットワーク、深層強化学習、回帰型ニューラル・ネットワーク及び畳み込みニューラル・ネットワーク等の深層学習のアーキテクチャは、コンピュータ・ビジョン、音声認識、自然言語処理、機械翻訳、バイオインフォマティクス、医薬品設計、医用画像分析、材料検査、及びボード・ゲーム・プログラムを含む分野に適用されている。

【0008】

深層学習の形容詞「深層」とは、ネットワーク内での多層の使用を指す。初期の研究は、線形パーセプトロンは汎用分類器になり得ないが、非多項式活性化関数及び無限幅の１つの隠れ層を伴うネットワークは、汎用分類器になり得ることを示した。深層学習は、有限サイズの無限数の層に関係する現代の一変形であり、実用的な適用及び最適な実装を可能にする一方で、緩やかな条件下で理論上の汎用性を保持する。深層学習において、複数の層は、効率、訓練性及び理解性の目的のために、異成分からなることが可能であり、生物学的に通知されたコネクショニスト・モデルから広く逸脱することも可能であるため、「構造化された」部分である。

【0009】

機械学習は、深層学習の出現と同時に、技術として途方もなく成功している。しかし、この技術の大部分の展開は、低リスク領域内にある。深層学習ベースの画像認識システムに対して可能性のある２つの適用領域－軍事及び医療領域－は、こうした深層学習モデルが、誰もがほぼ理解できない非透明ブラック・ボックス・モデルであるので、この技術の使用を躊躇している。

【発明の概要】

【発明が解決しようとする課題】

【0010】

必要とされるのは、透明で信頼できるモデルである。

【課題を解決するための手段】

【0011】

したがって、現在の最新技術は、本明細書で説明するように、深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のために透明モデルを実装するシステム、方法及び装置から利益を得ることができる。

【0012】

実施形態は、限定としてではなく、例として示され、図面に関連して考慮される以下の詳細な説明を参照するとより十分に理解し得る。

【図面の簡単な説明】

【0013】

【図1】説明する実施形態による、ＤＡＲＰＡに準拠する説明可能なＡＩ（ＸＡＩ）モデルの例示的アーキテクチャの概略図であり、説明可能なＡＩ（ＸＡＩ）モデルは、説明する改良点を有し、情報を提供されるユーザのために実装される。

【図2】説明する実施形態による、４つの別個のクラスの画像を分類する本発明の実施形態による手法の図である。

【図3】説明する実施形態による、２つのきめの細かいクラスの画像を分類する本発明の実施形態による手法の図である。

【図4】説明する実施形態による、追加したＣＮＮの全結合層の重みの訓練のみを伴う、新たな分類タスクのための転移学習の図である。

【図5】説明する実施形態による、別個のマルチターゲットＭＬＰの訓練の図であり、入力は、ＣＮＮの全結合層の活性化関数から到来し、ＭＬＰの出力ノードは、物体及び物体の部位の両方に対応する。

【図6A】説明する実施形態による、別個のマルチラベルＭＬＰの訓練の図であり、入力は、ＣＮＮの全結合層の活性化関数である。

【図6B】説明する実施形態による、物体及び部位を認識すると共に、構成及び結合性について学習するマルチラベルＣＮＮ６０１の訓練の図である。

【図6C】説明する実施形態による、部位及び部位の結合性から、物体の構成ではなく、物体及び部位の両方を認識する単一ラベルＣＮＮの訓練の図である。

【図7】説明する実施形態による、ネコの様々な部位のサンプル画像の図である。

【図8】説明する実施形態による、トリの様々な部位のサンプル画像の図である。

【図9】説明する実施形態による、車の様々な部位のサンプル画像の図である。

【図10】説明する実施形態による、オートバイの様々な部位のサンプル画像の図である。

【図11】説明する実施形態による、ハスキー犬の目及びハスキー犬の耳のサンプル画像の図である。

【図12】説明する実施形態による、オオカミの目及びオオカミの耳のサンプル画像の図である。

【図13】説明する実施形態による表１の図であり、どちらがＣＮＮ＋ＭＬＰアーキテクチャ内にあるものを学習するかを示す。

【図14】説明する実施形態による表２の図であり、ＣＮＮ及びＭＬＰの訓練及び試験に使用される画像数を示す。

【図15】説明する実施形態による表３の図であり、「車、オートバイ、ネコ、トリ」分類問題の結果を示す。

【図16】説明する実施形態による表４の図であり、「ネコ対イヌ」分類問題の結果を示す。

【図17】説明する実施形態による表５の図であり、「ハスキー犬及びオオカミ」分類問題の結果を示す。

【図18】説明する実施形態による表６の図であり、ＣＮＮ及びＸＡＩ－ＭＬＰモデルの最良の予測精度を比較する結果を示す。

【図19】説明する実施形態による、数字「５」及びオオカミの画像の図であり、数字「５」は、様々なイプシロン値で高速勾配方法によって改変されており、オオカミ画像も、様々なイプシロン値で高速勾配方法によって改変されている。

【図20】説明する実施形態による、ＭＮＩＳＴのためのカスタム畳み込みニューラル・ネットワーク・アーキテクチャを利用する例示的基本ＣＮＮモデルの図である。

【図21】説明する実施形態による、ＭＮＩＳＴ説明可能なＡＩモデルのためのカスタム畳み込みニューラル・ネットワーク・アーキテクチャを利用する例示的基本ＸＡＩ－ＣＮＮモデルの図である。

【図22】説明する実施形態による表７の図であり、１０回の様々な実行にわたる、様々なイプシロン値によって生成された敵対的画像に対する、ＭＮＩＳＴ基本ＣＮＮモデルの平均試験精度を示す。

【図23】説明する実施形態による表８の図であり、１０回の様々な実行にわたる、様々なイプシロン値によって生成された敵対的画像に対する、ＸＡＩ－ＣＮＮモデルの平均試験精度を示す。

【図24】説明する実施形態による表９の図であり、１０回の様々な実行にわたる、様々なイプシロン値によって生成された敵対的画像に対する、ハスキー犬及びオオカミの基本ＣＮＮモデルの平均試験精度を示する。

【図25】説明する実施形態による表１０の図であり、１０回の様々な実行にわたる、様々なイプシロン値によって生成された敵対的画像に対する、ハスキー犬及びオオカミのＸＡＩ－ＣＮＮモデルの平均試験精度を示す。

【図26】開示する実施形態による、深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のための透明モデルを実施する方法を示す流れ図である。

【図27】実施形態を中で稼働させ得る、インストールし得る、統合し得る又は構成し得るシステムの概略図である。

【図28】一実施形態によるコンピュータ・システムの例示的形態の機械の概略図である。

【発明を実施するための形態】

【0014】

本明細書で説明するのは、深層学習不透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のための透明モデルを実施するシステム、方法、及び装置である。

【0015】

国防高等研究計画局（ＤＡＲＰＡ）は、コンピュータ・ビジョンのための深層学習問題に関する認識して、以下のゴールを採択する説明可能なＡＩ（「ＸＡＩ」）と呼ばれるプログラムを開始した。

【0016】

ＤＡＲＰＡによれば、説明可能なＡＩ（ＸＡＩ）プログラムでは、より説明可能なモデルを生成する一方で高レベルの学習性能（予測精度）を維持し、人間のユーザが新興世代の人工知能パートナーを理解し、適切に信頼し、効果的に管理することを可能にする、機械学習技法のスイートの生成を目的とする。

【0017】

ＤＡＲＰＡは、ＸＡＩが、機械学習における劇的な成功をもたらし、相次ぐ人工知能（ＡＩ）の適用へと導いていると更に説明している。ＤＡＲＰＡは、継続的な進化により、それら自体で知覚、学習、判断、行動する自律システムの生成を約束するものであると主張している。しかし、これらのシステムの効果は、現在の機械が機械の判断及びアクションを人間のユーザに説明できないことにより、制限されている。ＤＡＲＰＡによれば、国防総省（「ＤｏＤ」）は、よりインテリジェントで、自律的で共生的なシステムを要求する課題に直面している。説明可能なＡＩ－特に、説明可能な機械学習－は、将来の兵士が新興世代の人工知能機械パートナーを理解し、適切に信頼し、効果的に管理する場合、必須である。

【0018】

したがって、ＤＡＲＰＡは、説明可能なＡＩ（ＸＡＩ）プログラムが、より説明可能なモデルを生成しながら、高レベルの学習性能（予測精度）を維持し、人間のユーザが新興世代の人工知能パートナーを理解し、適切に信頼し、効果的に管理することを可能にする機械学習技法のスイートの生成を目的とするものであると説明している。ＤＡＲＰＡは、新たな機械学習システムが、将来、新たな機械学習システムの理論的根拠を説明し、これらの長所及び短所を特徴付け、これらがどのように挙動するかについての理解を伝える能力を有するであろうと更に説明している。このゴールを達成する方策は、より説明可能なモデルを生成する新たな又は修正された機械学習技法を開発することである。ＤＡＲＰＡによれば、そのようなモデルは、エンドユーザが理解可能で有用な説明の対話にモデルを変換することが可能な最新技術のヒューマン－コンピュータ・インターフェース技法と組み合わせられる。ＤＡＲＰＡは、その方策が、性能－対－説明可能性のトレード空間をカバーする一連の設計オプションを将来の開発者等にもたらすモデルのポートフォリオを生成するため、様々な技法を追求することであると主張している。

【0019】

ＤＡＲＰＡは、ＸＡＩが、「第３次ＡＩシステム」の可能化が予期されるひと握りの現在のＤＡＲＰＡプログラムの１つであるという説明によって、更なる状況を提供しており、「第３次ＡＩシステム」では、機械が、基礎をなす説明モデルを稼働させ、経時的に構築し、これらの説明モデルにより、現実世界の現象の特徴付けを可能にする状況及び環境を理解する。ＤＡＲＰＡによれば、ＸＡＩプログラムは、２つの領域における挑戦的問題：（１）異種マルチメディア・データにおいて注目事象を分類する機械学習の問題、及び（２）自律システムが様々な模擬ミッションを実施するための判断方針を構築する機械学習の問題に対処することによって、複数のシステムの開発に焦点を当てるものである。これら２つの挑戦的問題領域は、２つの重要な機械学習手法（分類及び強化学習）とＤｏＤにとっての２つの重要な動作問題領域（情報分析及び自律システム）との交差部分を表すために選択された。

【0020】

ＤＡＲＰＡは、研究者等が説明の心理学を調査していること、より詳細には、ＸＡＩ研究プロトタイプがプログラムの行程全体を通じて試験され、連続的に評価されていることをまた更に述べている。２０１８年５月、ＸＡＩ研究者等は、説明可能な学習システムの初期の実装形態を実証し、説明可能な学習システムの第１段階の評価に対する初期のパイロット研究の結果を提示した。完全な第１段階システムの評価は、２０１８年１１月の予定である。プログラムの終了時に最終的に送り出されるのは、将来の説明可能なＡＩシステムの開発のために使用し得る機械学習及びヒューマン－コンピュータ・インターフェース・ソフトウェア・モジュールから構成されるツールキット・ライブラリである。プログラムの完成後、こうしたツールキットは、更なる洗練化、及び国防又は商業用途への移行に利用可能であろう。

【0021】

例示的な実施形態

【0022】

本発明の特定の実施形態は、深層学習の非透明ブラック・ボックス・モデルからのコンピュータ・ビジョン及び画像認識のための透明モデルを生成し、生成される透明モデルは、説明可能なＡＩ（ＸＡＩ）プログラムを通じて述べたＤＡＲＰＡの目的と一致する。例えば、開示する画像認識システムが画像はネコの画像であると予測する場合、それ以外の場合では非透明「ブラック・ボックス」予測となる表現に加えて、開示するシステムは、システムが画像はネコの画像であると「考える」理由又は画像はネコの画像であるとの予測を表現する理由についての説明を更に提供する。例えば、そのような例示的なシステムは、画像内の実体がほおひげ、毛及び爪を含むように見えるので、コンピュータ・ビジョン及び画像認識上で実行する透明モデルが、画像はネコの画像であると考える予測を裏付ける説明を出力し得る。

【0023】

システムが特定の予測を表現した「理由」に関してそのような裏付けの説明があれば、非透明又はブラック・ボックス予測モデルとはもはや言い得ない。

【0024】

ある意味では、ＤＡＲＰＡの所望のＸＡＩシステムは、物体の部位の認識、及び物体を予測する証拠としての部位の提示に基づく。以下で更に詳細に説明する本発明の実施形態は、この所望の機能を実装する。

【0025】

本発明の実施形態は、物体の部位を認識するため、畳み込みニューラル・ネットワーク（ＣＮＮ）（一種の深層学習モデル）を復号するように特別に構成されるコンピュータ実装方法を更に含む。部位及び部位の結合性から物体の構成についての情報を提供する、別個のモデル（多層パーセプトロン）は、ＣＮＮを復号するように実際に学習する。また、この第２のモデルは、説明可能なＡＩのためのシンボリック情報を具現化する。物体の部位の符号化は、ＣＮＮの多数のレベルで存在し、部位の情報は、分類判定の背後にある推論を説明するために容易に抽出し得ることが実験的に実証されている。本発明の実施形態に対する全体的な手法は、物体の部位について人間に教示するのと同様である。

【0026】

例示的な実施形態によれば、以下の情報：下位アセンブリの情報及び部位の間の結合性を含む、部位からの物体の構成についての情報が第２のモデルに提供される。構成の情報は、部位のリスト化によって提供される。例えば、ネコの頭の場合、リストは、目、鼻、耳及び口を含み得る。実施形態は、全体的な手法を様々な方式で実施し得る。従来の知恵は、説明可能性のために正確さを犠牲にするものである。しかし、この方法を伴う実験結果は、説明可能性が多数のＣＮＮモデルの正確さを実質的に改善し得ることを示している。更に、物体の部位は、物体だけでなく第２のモデルによって予測されるので、敵対的訓練が不要になる可能性がかなり高い。

【0027】

現在の最新技術、具体的には、そのような開示する実施形態の商業的可能性への影響は、多数の適用分野に影響を及ぼす可能性がある。例えば、現在、米軍は、説明能力を伴わない既存の深層学習ベースの画像認識システムを展開していない。したがって、本明細書に記載の本発明の開示する実施形態は、当該市場を開放し、米軍の能力及び即応性を改善するように働く可能性がある。また更に、国防及び軍事即応性の他に、医療診断用途、ヒューマン－コンピュータ・インターフェース、より効率的な通信プロトコル、並びに更にはエンターテインメント・コンテンツの配信及びゲーム・エンジンの改善等、多数の他の適用領域がそのような説明能力から利益を得るであろう。

【0028】

以下を含む、本発明の説明する実施形態に関連するいくつかの新規の態様を以下で更に詳細に示す。

【0029】

現在、述べた目的を満たすことが可能な公知の先行技術がないことを認めた上で、ＤＡＲＰＡが想起している説明可能なＡＩ（ＸＡＩ）モデルの種類を厳密に生成する手段を有する実施形態。

【0030】

物体の固有の部位（例えば、ほおひげ、毛及び爪）の検証に基づく物体（例えば、ネコ等）のＤＡＲＰＡＸＡＩモデルに準拠する予測を表現する手段を有する実施形態。

【0031】

物体の固有の部位を認識するように訓練された、新たな予測モデルを生成する手段を有する実施形態。

【0032】

現在、様々な物体の部位の画像を示すことによって部位を認識するためにモデルを教示する手順に従う公知の先行技術がないことを認めた上で、部位（例えば、ゾウの鼻）の画像を示すことによって、これらの部位を認識するモデルを教示する手段を有する実施形態。

【0033】

基本部位及び部位の結合性から、物体（及び下位アセンブリ）の新たなモデルの構成性を教示する手段を有する実施形態。例えば、そのような実施形態は、「ネコ」と定義される物体が肢、胴体、顔、尾、ほおひげ、毛、爪、目、鼻、耳、口等から構成されることをモデルに「教示」するか又はモデルに「学習」させる。再度、現在、基本部位から、物体（及び下位アセンブリ）のモデルの構成を教示する公知の先行システムがないことを認めた上で、そのような実施形態は、ネコと定義される物体の顔等の下位アセンブリが目、耳、鼻、口、ほおひげ等を含む部位から構成されることをモデルに教示するか又はモデルに学習させる。

【0034】

ＤＡＲＰＡＸＡＩモデルは、物体及び物体の部位が全てシンボルによって表現される限り、シンボリック・レベルで動作する。ネコの例を参照すると、そのようなシステムの場合、ネコの物体及びネコの全ての部位に対応するシンボルになるであろう。本明細書に記載の開示する実施形態は、所与の物体の部位リストをユーザが定義可能であるという意味において、ユーザがシンボリック・モデルを制御可能であることによって、そのような能力を拡大、拡張させる。例えば、システムは、ネコの肢、顔、胴体及び尾のみを認識し、その他は認識しないようにユーザが選択することを可能にする。前述のように、ユーザの特定の目的で必要とするような具体的に望ましい実装形態を構成する際、ユーザがシンボリック・モデルを柔軟に定義することを可能にする公知の先行システムはない。

【0035】

ＤＡＲＰＡＸＡＩモデルは、物体の予測を、部位の独立した検証を条件とすることによって、敵対的な攻撃からの保護をもたらす。本明細書に記載の開示する実施形態は、検証すべき部位をユーザが定義可能であることによって、そのような能力を拡大、拡張させる。概して、強化された更なる部位の検証は、敵対的な攻撃からより多くの保護をもたらす。前述のように、説明する実施形態によって可能になる様式で保護レベルをエンドユーザが定義することを可能にする公知の先行システムはない。

【0036】

例示的な実施形態によれば、シンボリックＡＩモデルは、画像内の物体を迅速に分類する生成システムに統合される。

【0037】

多数の既存のシステムは、視覚化に依存し、人間の検証を必要とし、ノー・ヒューマン・イン・ザ・ループ（人間がループ内にいない）生成システムに容易に統合できない。こうした理由のために、公知の最新技術と比較して、以下を含めて本発明の実施形態に対するいくつかの利点がある。

【0038】

ＤＡＲＰＡが指定する種類のシンボリックＡＩモデルを構築し得る他の現在利用可能なシステムは、市場にはない。本発明の実施形態は、そのようなモデルを構築し得る。

【0039】

現在、敵対的な攻撃に対して保護するため、深層学習モデルは、敵対的な攻撃を認識するように特別に訓練しなければならない。しかし、それでも、そのような攻撃に対する保護は保証されない。本発明の実施形態は、敵対的な訓練を必要とせずに、コンピュータ・ビジョンのための既存のシステムよりも、敵対的な攻撃からかなり高レベルの保護をもたらし得る。

【0040】

実験は、予測が部位の認識に基づくシンボリックＡＩシステムを伴う既存の方法と比較して、より高い予測精度が達成されることを示している。

【0041】

シンボリックＡＩモデルは、画像内の物体を迅速に分類する生成システムに容易に統合し得る。多数の既存のシステムは、視覚化に依存し、人間の検証を必要とし、ノー・ヒューマン・イン・ザ・ループの生成システムに容易に統合できない。

【0042】

ユーザ定義シンボリック・モデルの生成が可能な本発明の実施形態は、ユーザの観点からモデル内に透明性及び信頼をもたらす。ブラック・ボックス・モデルにおけるこの透明性及び信頼は、コンピュータ・ビジョンの分野では大いに望ましい。

【0043】

本発明の実施形態は、物体の部位を認識するため、カスタム畳み込みニューラル・ネットワーク（ＣＮＮ）を復号する方法を含む。部位及び部位の結合性から物体の構成についての情報を提供する、別個のマルチターゲット・モデル（例えば、ＭＬＰ又は同等モデル）は、ＣＮＮ活性化関数を復号するように実際に学習する。また、この第２のモデルは、説明可能なＡＩのためのシンボリック情報を具現化する。実験は、物体の部位の符号化が、ＣＮＮの多数のレベルで存在し、部位の情報は、分類判定の背後にある推論を説明するために容易に抽出し得ることを実証している。本発明の実施形態の手法は、物体の部位について人間に教示するのと同様の手法である。実施形態は、下位アセンブリの情報及び部位の間の結合性を含む、部位による物体の構成についての情報を第２のモデルに提供する。実施形態は、部位をリスト化することによって構成情報を提供するが、場所情報を一切提供しない。例えば、ネコの頭の場合、リストは、目、鼻、耳及び口を含み得る。実施形態は、注目部位のみをリスト化する。実施形態は、全体的な手法を様々な方式で実施し得る。以下の説明は、特定の実施形態を提示し、Ｘｃｅｐｔｉｏｎ、ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ（「ＶＧＧ」）及びＲｅｓＮｅｔを含むモデル等、いくつかのＩｍａｇｅＮｅｔで訓練されたＣＮＮモデルを使用する手法を示す。従来の知恵は、説明可能性のために正確さを犠牲にしなければならないことになっている。しかし、実験結果は、説明可能性が多数のＣＮＮモデルの正確さを実質的に改善し得ることを示している。更に、物体だけでなく、物体の部位が第２のモデルにおいて予測されるので、敵対的訓練が不要になる可能性がかなり高い。第２のモデルは、マルチターゲット分類問題として形作られる。

【0044】

本発明の実施形態は、マルチターゲット・モデルを使用する。一実施形態では、マルチターゲット・モデルは、多層パーセプトロン（ＭＬＰ）であり、フィードフォワード人工ニューラル・ネットワーク（ＡＮＮ）のクラスである。他の実施形態は、同等のマルチターゲット・モデルを使用し得る。用語ＭＬＰは、任意のフィードフォワードＡＮＮを意味するために曖昧に、時には大ざっぱに使用され、時には、（閾値活性化関数を伴う）複数の層のパーセプトロンから構成されるネットワークを厳密に指す。多層パーセプトロンは、時には、特に単一隠れ層を有する際、「バニラ」ニューラル・ネットワークと口語的に呼ばれる。

【0045】

ＭＬＰは、ノードの少なくとも３つの層：入力層、隠れ層及び出力層から構成される。入力ノードを除き、各ノードは、非線形活性化関数を使用するニューロンである。ＭＬＰは、訓練のために誤差逆伝播法と呼ばれる教師あり学習技法を利用する。ＭＬＰの複数の層及び非線形活性化関数は、ＭＬＰを線形パーセプトロンから区別する。ＭＬＰは、線形に分離可能ではないデータを区別し得る。

【0046】

多層パーセプトロンが、各ニューロンの出力に対して重み付けした入力をマッピングする線形関数等の線形活性化関数を全てのニューロン内に有する場合、任意の数の層を２層入力－出力モデルに低減し得る。ＭＬＰにおいて、一部のニューロンは、生物学的ニューロンの活動電位又は発火の頻度をモデル化するために開発された非線形活性化関数を使用する。各データを処理した後、予期される結果と比較した出力内のエラーの量に基づき、結合の重みを変更することによって、パーセプトロン内で学習が行われる。このことは、教師あり学習の一例であり、誤差逆伝播法、即ち、線形パーセプトロンにおける最小２乗平均アルゴリズムの一般化を通じて実行される。

【0047】

図１は、ＤＡＲＰＡに準拠する説明可能なＡＩ（ＸＡＩ）モデルの例示的アーキテクチャの概略図を示し、モデルは、情報を提供されるユーザのために実装される、説明する改良点を有する。

【0048】

図示のように、２つの手法が示される。まず、例示的アーキテクチャ１００は、ブラック・ボックス学習工程１１０を通じて処理された、訓練データ１０５上で訓練されているモデルを示し、ブラック・ボックス学習工程１１０は、ブロック１２０において、ある学習関数をもたらす。次に、この訓練モデルは、処理のための入力画像１１５を受信でき、これに応答して、予測出力１２５は、システムから、解決すべき特定のタスクを有するユーザ１３０に表現する。この方法は非透明であるため、説明は提供されず、ユーザにフラストレーションをもたらす。ユーザは、「なぜこれを行ったのか？」又は「なぜ何か他のものではなかったのか？」又は「いつ成功するのか？」又は「いつ失敗するのか？」又は「いつ信頼できるのか？」又は「どのようにエラーを修正するのか？」等の質問を尋ねるかもれない。

【0049】

逆に、本明細書で説明する改良モデルは、透明学習工程１６０に提供される同じ訓練データ１０５を下に示しており、この場合、以前の例からの同じ入力画像１１５の受信が可能な説明可能なモデル１６５をもたらす。しかし、以前のモデルとは異なり、今度は、説明インターフェース１７０があり、情報を提供されるユーザ１７５に透明な予測及び説明を提供し、ユーザ１７５は、特定のタスクの解決を試みる。図示のように、説明インターフェース１７０は、「これはネコである」及び「それは毛、ほおひげ及び爪を有する」、並びにネコの耳のグラフィック描写と共に「それはこの特徴を有する」等の情報をユーザに提供する。

【0050】

画像の階層構成は、ＣＮＮからの概念の生成及び抽出を可能にする。画像の内容の理解は、常にコンピュータ・ビジョンの対象となっている。画像パース・グラフにおいて、木のような構成を使用して、あるシーンをシーン・ラベルから分解し、物体の部位及び基本形状、並びにそれらの機能的及び空間的関係を示す。ＧＬＯＭモデルは、「固定アーキテクチャ・パースを有するニューラル・ネットワークは、ある画像を、どのように各画像に対して様々な構成を有する部分－全体階層に分解し得るのか」という質問に対する答えを探す。用語「ＧＬＯＭ」は、表現手法として、「ｇｌｏｍｔｏｇｅｔｈｅｒ（つかんで合わせる）」というスラング用語から得られるものであり、静的なニューラル・ネットが動的パース木を表現することを可能にするトランスフォーマ（ｔｒａｎｓｆｏｒｍｅｒ）、ニューラル場、対比表現学習、蒸留及びカプセルの使用を通じて画像処理を改善する。

【0051】

ＧＬＯＭモデルは、カプセルの概念を一般化し、画像の特定領域内の特定部位の種類に対するニューロンの群を、画像のそれぞれの小パッチのための積層オートエンコーダの概念に捧げるものである。次に、これらのオートエンコーダは、複数レベルの表現に－人の鼻孔から、その人の鼻、顔まで－そっくりそのまま又は人の「全体」を通じて完全に対処する。

【0052】

例示的な実施形態への序論

【0053】

いくつかの例示的な実施形態は、畳み込みニューラル・ネットワーク（ＣＮＮ）の全結合層の活性化関数から物体の部位を識別する特別に構成されたコンピュータ実装方法を提供する。しかし、部位の識別は、ＣＮＮの他の層の活性化関数からも可能である。実施形態は、部位及び部位の結合性からの物体の構成についての情報を別個のモデルに提供することによって活性化関数をどのように復号するかを、別個のモデル（マルチターゲット・モデル、例えば、ＭＬＰ）に教示することを伴う。

【0054】

物体の部位の識別は、図１に示すように、説明可能なＡＩ（ＸＡＩ）のためにＤＡＲＰＡが想定する種類のシンボリック・レベルで情報を生成する。この特定の形態は、物体の認識を物体の部位の識別に条件付ける。例えば、この形態は、物体がネコであることを予測するため、システムが、ネコの毛、ほおひげ及び爪等のネコの特定の特徴の一部を認識する必要があることも要求する。物体の部位又は特徴の認識を条件とする物体の予測は、物体に更なる検証をもたらし、予測をロバストで信頼できるものにする。例えば、そのような画像認識システムの場合、数画素の小さな摂動を伴うスクール・バスは、ダチョウの部位（例えば、長い肢、長い首、小さな頭）が画像内に存在しないので、ダチョウと予測されることはない。したがって、物体のいくつかの部位の識別を必要とすることにより、敵対的な環境においてかなり高レベルの保護をもたらす。そのようなシステムは、容易にだませない。また、こうしたシステムは、固有のロバストネスのために、ＧＡＮ及び他の機構による敵対的な訓練の必要性を更になくし得る。

【0055】

部分－全体識別問題にはいくつかの異なる手法がある。例えば、ＧＬＯＭ手法は、ネットワーク内にパース木を構築し、部分－全体階層構成を示す。逆に、説明する実施形態は、そのようなパース木を構築せず、必要ともしない。

【0056】

きめの細かい物体認識は、トリ又はイヌといった異なる種等の全般クラスの下位クラスの物体を区別しようとする。きめの細かい物体認識方法の多くは、物体の下位クラスの特有の部位を様々な様式で識別する。これらの方法の一部を関連する概念として以下で説明する。しかし、本発明の実施形態による物体の部位を識別する方法は、全てのこれらの方法とは異なる。詳細には、説明する実施形態は、部位からの物体の構成についての情報、及び構成要素部位からの部位についての情報を学習システムに提供する。例えば、ネコの画像の場合、実施形態は、顔、肢、尾等のネコの見える部位をリスト化する。実施形態は、これらの部位がバウンディング・ボックス又は同様の機構の場合のようなシステムを示すものではない。説明する実施形態は、画像内の物体の見える部位をリスト化する。例えば、説明する実施形態は、システムにネコの顔の画像を見せ、見える部位－目、耳、鼻及び口をリスト化し得る。したがって、説明する実施形態は、注目部位をリスト化するだけでよい。したがって、特定の問題又はタスクで鼻及び口に注目しない場合、鼻及び口は、リスト化されない。特定の説明する実施形態は、部位にアノテーションも付ける。

【0057】

繰り返すと、本発明の実施形態は、部位が画像内のどこにあるかについて一切示さない。したがって、説明する実施形態は、構成情報を提供するが、場所情報を提供しない。当然、本発明の実施形態は、注目部位－目、耳、鼻、口、肢、尾等－の全ての別個の画像を示し、認識システムが、これらの部位が何に見えるかが分かるようにする。しかし、システムは、提供された構成情報から、これらの部位の間の空間関係（「結合性」としても公知）を学習する。したがって、物体の部位を認識する公知の先行技法とは著しく異なるのは、この構成性情報を提供する能力である。説明する実施形態は、モデル（例えば、ＭＬＰ）、構成性、及び部位の空間関係を教示する。したがって、物体の部位についてシステムに教示する方法は、同じ又は同様の問題を解決するあらゆる公知の先行方法又はシステムとは異なる。

【0058】

部位の名前又はラベル（アノテーション）を提供する問題について、本発明の実施形態は、人間の学習の理解に依拠する。イヌ及び人間の両方が、脚、手及び顔等の人体の様々な特徴を認識すると主張することはおそらく理にかなっている。唯一の差は、人間が、これらの部位に対する名称をもっていて、イヌはもっていないことである。当然、人間は、人間の親から部位の名称を受け継いでいるのではない。言い換えれば、人間は、物体及び部位の名称を生まれながらに有するのではなく、教示されなければならない。また、この教示は、視覚システムがこれらの部位の認識を学習した後にのみ生じる。本発明の実施形態は、同じ２段階の部位の名称を教示する手法に従う。即ち、まず、システムに、部位の名称を与えずに、部位を視覚的に認識することを学習させ、次に、部位の名称を教示する。本発明の実施形態は、部位の名称を有する画像セットを提供する。

【0059】

脳内の高レベルの抽象化及び単一細胞の符号化は、視覚野の外側で見られることが多い。神経生理学の実験による脳の理解は、脳が、特に、高度に抽象的な概念及びマルチモーダルな物体の不変認識に対して、局所的な単一細胞表現を広範に使用していることである。先行技法は、視覚系の単一細胞の記録を使用して、単純型細胞及び複雑型細胞、線方位及び運動検出細胞等を発見し、最低レベルの視覚構成で単一細胞の抽象化を本質的に確認した。しかし、他の研究者等は、人（例えば、ジェニファー・アニストン）及び物体（例えば、シドニー・オペラハウス）のモダリティ不変認識を符号化するより高レベルの処理で、より複雑な単一細胞の抽象化を発見したことを報告した。１つの推定は、内側側頭葉（ＭＴＬ）細胞の４０％が、そのような明示的な表現に調整されるということである。神経科学の専門家等は、実験の証拠が、ＰＦＣがカテゴリ形成及び一般化において重大な役割を果たしていることを示していると主張している。専門家等は、前頭前野のニューロンが様々な刺激にわたり共通性を抽象化すると主張している。次に、彼らは、前頭前野のニューロンの物理的特性を無視することによって、前頭前野のニューロンの共通の意味に基づき前頭前野のニューロンをカテゴリ化している。

【0060】

これらの神経生理学の発見が意味することは、脳が、視覚野の外側で多数のモデルを生成し、様々な種類の抽象概念を生成することである。本発明の実施形態は、（１）物体の部位はそれ自体が抽象的な概念であるので、物体の部位に対して単一ニューロン（ノード）の抽象概念を生成し、（２）物体の部位を認識するため、ＣＮＮの外側に別個モデル（ＭＬＰ）を生成することによって、これらの生物学的手がかりを利用する。このことは、当然、ＣＮＮのモデルが実際に物体クラスのために単一出力ノードを使用するので、ＣＮＮにとっては何も新しいものではない。本発明の実施形態は、この単一ノード表現スキームを物体の部位にまさに拡張し、これらのノードをＭＬＰの出力層に追加している。

【0061】

本発明の実施形態は、様々な物体を認識するようにＣＮＮモデルを訓練する。そのように訓練されたＣＮＮモデルは、部位から物体の構成についての情報を一切与えない。本発明の実施形態は、部位からの物体の構成についての情報、及び他の構成要素部位からの部位（下位アセンブリ）の構成についての情報のみを後続のＭＬＰモデルに提供し、後続のＭＬＰモデルは、その入力をＣＮＮの全結合層から受信する。別個のＭＬＰモデルは、物体及び部位を認識し、部位の間の空間関係を理解するために、ＣＮＮ活性化関数を単に復号する。しかし、説明する実施形態は、公知の先行技法に一般的なバウンディング・ボックスの場合のように、どの部位の場所情報も提供しない。そうではなく、説明する実施形態は、単に、顔等、画像内のアセンブリを構成する部位のリストを提供する。

【0062】

しかし、実施形態は、部位を認識するために別個のモデル（ＭＬＰ又は任意の他の分類モデル）を構築する必要はないことに留意されたい。ＭＬＰモデルもＣＮＮモデルと密に結合し、統合モデルは、物体及び部位の両方を認識し得る。

【0063】

以下の項では、説明可能なＡＩ全般、その後、コンピュータ・ビジョンのための説明可能なＡＩ及びきめの細かい物体認識に関する更なる状況を提供する。その後の項では、本発明の実施形態の直観的な理解を提供する。その次の項では、本発明の特定の実施形態の実装利用されるアルゴリズムに関する更なる詳細を提供し、その後、実験結果に関する考察及び結びの見解を提供する。

【0064】

説明可能なＡＩ（ＸＡＩ）

【0065】

ＡＩシステムの説明可能性は、ＡＩシステムの使用に応じて多数の様々な形態を取る。１つのそのような形態において、物体又は概念をその特性により説明し、これらの特性は、他の抽象概念（又は下位概念）とし得る。例えば、肢、尾、頭、目、耳、鼻、口及びほおひげ等の（抽象下位概念である）主な特徴の一部を使用して（高レベルの抽象概念である）ネコを説明し得る。この説明可能なＡＩの形態は、シンボルが抽象概念及び下位概念を表現するシンボリックＡＩに直接関連する。本発明の実施形態は、この種類の抽象シンボリック情報を抽出するために畳み込みニューラル・ネットワークを復号し得る方法を提示する。

【0066】

別の観点から、機械学習のための説明可能なＡＩ方法は、（１）設計による透明性及び（２）事後説明とカテゴリ化し得る。設計による透明性は、まず、決定木等の解釈可能なモデルで開始されるモデル構成を使用する。事後説明方法は、既に学習したブラック・ボックス・モデルから情報を抽出し、ブラック・ボックス・モデルの性能を新たな解釈可能モデルと大きく近似させる。この手法の利益は、ブラック・ボックス・モデルの性能に影響を与えないことである。事後方法は、主に、ブラック・ボックス・モデルの入出力に対処するため、モデル・アグノスティックである。この観点から、本発明の実施形態は、事後方法を採用する。

【0067】

「ＣＯＧＬＥ」（ＣｏｍｍｏｎＧｒｏｕｎｄＬｅａｒｎｉｎｇａｎｄＥｘｐｌａｎａｔｉｏｎ）システムは、無人航空機システムのシミュレーションを制御するＸＡＩシステムの学習能力を説明するものである。ＣＯＧＬＥは、人間が使用可能なシンボリック表現を、基礎をなすモデルの抽象概念、構成及び一般化パターンに橋渡しする認知層を使用する。「共通領域（ｃｏｍｍｏｎｇｒｏｕｎｄ）」という考えは、ここでは、説明で使用するための共通用語を確立し、共通用語の意味を理解することを意味する。本発明の実施形態についての説明は、この共通用語という考えも使用する。

【0068】

深層学習のための説明可能なＡＩに対する手法の範囲

【0069】

ＣＮＮの内部で表現（符号化）を視覚化し、理解する公知の先行方法が利用可能である。例えば、ユニット又はフィルタを最大限に活性化する画像を主に合成する方法のクラスがある。ＣＮＮ特徴マップを画像に反転させることによって、別の種類の視覚化を提供する上昇畳み込み方法も公知である。視覚化を越え、フィルタによって符号化された特徴のセマンティックな意味を理解しようとする方法もある。

【0070】

また更に、説明のために画像レベルの解析を実施する方法がある。例えば、ＬＩＭＥ方法は、ネットワークの予測に高度に反応する画像領域を抽出し、関連する画像のパッチを示すことによって個々の予測の説明を提供する。モデルの一般的信頼は、多数のそのような個々の予測の試験に基づく。入力画像において画素を識別する方法のクラスもあり、画素は、予測－例えば、感度分析及びＬＲＰ（ｌａｙｅｒ－ｗｉｓｅｒｅｌｅｖａｎｃｅｐｒｏｐａｇａｔｉｏｎ）のために重要である。

【0071】

事後方法は、ＣＮＮモデルを表すセマンティックなグラフを学習する方法を含む。これらの方法は、各畳み込みフィルタをグラフ内でノードにすることによって、解釈可能なＣＮＮを生成し、次に、各ノードに物体の部位を表現させる。関連方法は、ＣＮＮからＡｃｔｉｖｅＱＡ（ａｃｔｉｖｅｑｕｅｓｔｉｏｎ－ａｎｓｗｅｒｉｎｇ）機構を通じて新たな解釈可能なモデルを学習する。テキストによる予測の説明を生成する方法もある。例えば、そのような方法は、「これは、コアホウドリである、なぜならこのトリが大きな翼開長、かぎ形の黄色いくちばし、及び白い腹面を有するためである」と言い得る。これらの方法は、テキストによる予測の説明を生成するように、ＣＮＮモデルの上部に積層ＬＳＴＭを使用する。

【0072】

別の手法は、テキスト行揃えを提供する際に顕著な領域を局所化するアテンションマスクを使用して、視覚情報及びテキスト情報を一緒に生成することである。そのような手法は、そのようなモデルを訓練する視覚的質問応答データセットを使用する。キャプションにより導かれる視覚的顕著性マップ方法も提案されており、方法は、画素とキャプションの単語との間の関係を学習するＬＳＴＭベースのエンコーダ－デコーダを使用して、予測されるキャプションのための空間－時間ヒートマップを生成する。１つのモデルは、深層ネットワークからいくつかの高レベルの概念を生成することによって、説明を提供し、別個の説明ネットワークを深層ネットワーク内の特定の層（どの層であってもよい）に付加し、ネットワークをいくつかの概念に低減する。これらの概念（特徴）は、最初、人間が理解可能ではないかもしれないが、領域専門家は、解釈可能な説明をこれらの特徴に付加し得る。研究により、物体検出器は、シーン分類を実施するＣＮＮの訓練から出現していることが発見されており、したがって、物体検出器は、物体の概念を明示的に教示されていないにもかかわらず、同じネットワークがシーン認識及び物体位置特定を実施し得ることを示している。

【0073】

きめの細かい物体認識における部位の識別

【0074】

きめの細かい物体認識のための深層学習ベースの方法について、ある調査がある。部位ベースの方法の大部分は、トリの下位カテゴリであるくちばしの色又は形状等、同様の物体の部位における微細な差の識別に焦点を当てるものである。例えば、１つの提案では、きめの細かいクラスの間で区別する部位の特別な特徴のセットを学習する。別の提案では、物体及び区別的な部位の両方を検出するため、部位ベースのＲＣＮＮを訓練する。部位ベースのＲＣＮＮは、物体及び区別的な部位の両方を位置特定するため、画像上のバウンディング・ボックスを使用する。試験中、全ての物体及び部位の提案（バウンディング・ボックス）は、スコア化され、最高スコアが選択される。部位ベースのＲＣＮＮは、位置特定した部位から抽出した特徴に基づくポーズ正規化カテゴリ化のために、別個の分類器を訓練する。１つの部位積層ＣＮＮ手法は、複数の物体の部位を位置特定する１つのＣＮＮ、並びに物体レベルの手がかり及び部位レベルの手がかりの両方を符号化する２ストリーム分類ネットワークを使用する。これらは、キーポイントとして各物体の部位の中心にアノテーションを付け、これらのキーポイントでローカリゼーション・ネットワークと呼ばれる完全畳み込みネットワークを訓練し、物体の部位を位置特定する。次に、これらの部位の場所は、最終分類ネットワークに送られる。１つの提案における深層ＬＡＣは、単一深層ネットワークにおける部位のローカリゼーション、アライメント及び分類を含む。これらは、部位を認識するローカリゼーション・ネットワークを訓練し、試験画像の部位のためのバウンディング・ボックスを生成する。

【0075】

本発明の実施形態は、物体又は部位を局所化するバウンディング・ボックス又はキーポイントを使用しない。実際、本発明の実施形態は、本発明の実施形態が訓練するモデルのいずれにも場所情報を一切提供しない。本発明の実施形態は、次の項で説明するように、別個の画像としてではあるが、部位の画像を示す。本発明の実施形態は、物体の部位（又は部位－下位部位）構成リストも提供するが、場所情報は提供しない。更に、本発明の実施形態は、概して、区別的な部位だけでなく、物体の全ての部位を識別する。物体の全ての部位の識別により、敵対的な攻撃に対して更なる保護をもたらす。

【0076】

部位ベースのＲＣＮＮと共通するのは、本発明の実施形態が、部位を、第２のＭＬＰモデルにおける別個の物体カテゴリとして識別することである。

【0077】

アルゴリズムの概要

【0078】

本発明の実施形態の一般的な概要、及びそのような実施形態をアルゴリズムによりどのように実装し得るかを、提供する。本発明の実施形態による手法を、２つの問題：（１）４つの別個のクラス－車、オートバイ、ネコ及びトリの画像を分類する問題（容易な問題）、並びに（２）２つのきめの細かいクラス－ハスキー犬及びオオカミの画像を分類する問題（より困難な問題）を使用して示す。

【0079】

図２は、４つの別個のクラスの画像を分類する本発明の実施形態による手法２００を示す。

【0080】

特に、上から、列１はネコの画像２０５を示し、列２はトリの画像２０６を示し、列３は車の画像２０７を示し、列４はオートバイの画像２０８を示す。

【0081】

図３は、２つのきめの細かいクラスの画像を分類する本発明の実施形態による手法３００を示す。

【0082】

特に、上から、列１はハスキー犬の画像３０５を示し、列２はオオカミの画像３０６を示す。

【0083】

図２及び図３に示すように、図２に示される第１の問題のサンプル画像、及び図３に示される第２の問題のサンプル画像がある。

【0084】

物体の分類のためのＣＮＮの使用

【0085】

第１のステップにより、本発明の実施形態は、対象物体を分類するためにＣＮＮを訓練する。ここで、本発明の実施形態は、ＣＮＮを最初から訓練するか、又は転移学習を使用し得る。実験において、本発明の実施形態は、ＲｅｓＮｅｔ、Ｘｃｅｐｔｉｏｎ及びＶＧＧモデル等、ＩｍａｇｅＮｅｔで訓練されたＣＮＮの一部を使用する転移学習を使用した。転移学習の場合、本発明の実施形態は、ＩｍａｇｅＮｅｔで訓練されたＣＮＮの畳み込み層の重みを凍結し、次に、１つの平坦化全結合層（ＦＣ）層を追加し、その後、ただ１つのＦＣ層を伴ってではあるが、図４の出力層のような出力層を追加する。次に、本発明の実施形態は、新たな分類タスクのため、全結合層の重みを訓練する。

【0086】

図４は、本発明の実施形態による、追加したＣＮＮの全結合層の重みの訓練のみを伴う、新たな分類タスクのための転移学習４００を示す。

【0087】

詳細には、凍結特徴学習層を含むＣＮＮネットワーク・アーキテクチャ４０５が示される。ＣＮＮネットワーク・アーキテクチャ４０５の中には、特徴学習部４３５及び分類部４４０の両方が存在する。特徴学習部４３５の中には、入力画像４１０、畳み込み＋ＲＥＬＵ４１５、最大値プーリング４２０、畳み込み＋ＲＥＬＵ４２５、及び最大値プーリング４３０が示される。分類部４４０の中には、ＣＮＮネットワーク・アーキテクチャ４０５のための処理を完成させる全結合層４４５が示される。

【0088】

本明細書に示すように、新たな分類タスクの場合、方法は、ＣＮＮの追加された全結合層の重みのみを訓練する。

【0089】

より詳細には、図示のアーキテクチャにおいて、ＣＮＮは、物体を分類するために最初に訓練される。ここで、ＣＮＮは、最初から訓練されるか、又は転移学習を介して訓練される。いくつかの実験において、転移学習のために、Ｘｃｅｐｔｉｏｎ及びＶＧＧモデル等、ＩｍａｇｅＮｅｔで訓練されたいくつかのＣＮＮモデルが利用された。転移学習の場合、畳み込み層の重みは、概して凍結され、次に、平坦化層が追加され、次に、全結合（ＦＣ）層が追加され、最後に、ただ１つのＦＣ層が一般に追加されることを除いて、図５に示される例等の出力層が追加される。次に、新たな分類タスクのため、全結合層の重みを訓練する。

【0090】

マルチターゲット分類問題のためのＭＬＰの使用

【0091】

本発明の実施形態は、物体の部位を明示的に認識するためにＣＮＮを訓練しない。本発明の実施形態は、別のモデルでＣＮＮを訓練し、本発明の実施形態は、図５に示すように、物体及び物体の部位の両方を認識するため、多層パーセプトロン（ＭＬＰ）を訓練する。例えば、物体がネコである場合、本発明の実施形態は、肢、尾、顔又は頭及び胴体のような部位の一部を認識し得る。車の場合、本発明の実施形態は、そのような部位をドア、タイヤ、ラジエータ・グリル及びルーフとして認識し得る。全ての物体の部位は、あるクラス内の物体ごとに存在しない場合がある（例えば、ルーフは大部分の車の部位であるが、一部のＪｅｅｐにはルーフがない）、又は画像内で見えない場合があることに留意されたい。概して、本発明の実施形態は、物体の確認工程の一部として全ての見える部位を検証することを望む。例えば、本発明の実施形態は、ネコの見える部位の一部を検証できなければ、物体がネコであることを確認しないはずである。

【0092】

図５は、本発明の実施形態による、別個のマルチターゲットＭＬＰ５００の訓練を示し、入力は、ＣＮＮの全結合層の活性化関数から到来し、ＭＬＰの出力ノードは、物体及び物体の部位の両方に対応する。

【0093】

本明細書に示すように、ＭＬＰ５００の処理は、ＣＮＮの全結合層の活性化関数を使用して、ＭＬＰ入力５０５が発生する別個のマルチターゲットＭＬＰを訓練することを含む。ＭＬＰ５００の出力ノード５５０は、物体（例えば、ネコ全体又はイヌ全体）及び物体のそれぞれの部位（例えば、ネコ又はイヌの胴体、肢、頭又は尾）の両方に対応する。より詳細には、マルチラベルＭＬＰ５００の出力ノード５５０は、物体及び物体の部位に対応し、シンボルを発する形態で示される。このＭＬＰ（例えば、ＭＬＰ入力５０５）への入力は、部位ではなく、物体を認識するように訓練されたＣＮＮモデルの全結合層の活性化関数から到来する。

【0094】

いくつかの事後方法は、ＣＮＮモデルを表すセマンティックなグラフを学習する。そのような方法は、各畳み込みフィルタをグラフ内のノードにすることによって、解釈可能なＣＮＮを生成し、次に、各ノードに物体の部位を表現させる。他の方法は、ＣＮＮからＡｃｔｉｖｅＱＡ（ａｃｔｉｖｅｑｕｅｓｔｉｏｎ－ａｎｓｗｅｒｉｎｇ）機構を通じて新たな解釈可能なモデルを学習する。例えば、いくつかのモデルは、上述のように、深層ネットワークからのいくつかの高レベルの概念を生成することによって説明を提供し、次に、別個の説明ネットワークを特定の層に付加する。

【0095】

説明する実施形態は、図５に示すように、マルチターゲット分類問題のためのＭＬＰを設定することによって部位を認識する。ＭＬＰの出力層において、各物体クラス及び物体の部位は、別個の出力ノードを有する。したがって、部位も、それら自体が物体クラスである。このマルチターゲット・フレームワークにおいて、例えば、入力がネコ全体の画像である場合、ネコの部位（頭、肢、胴体及び尾）を含むネコの物体に対応するＭＬＰの全ての出力ノードは、活性化するはずである。

【0096】

図６Ａは、説明する実施形態による、別個のマルチラベルＭＬＰ６００の訓練を示し、入力は、ＣＮＮの全結合層の活性化関数である。

【0097】

図６Ａで具体的に示されるのは、中に入力画像６０５を有するマルチターゲットＭＬＰ６００アーキテクチャは、畳み込み層及びプーリング層６１０をもたらし、次に、要素６１５に示されるように、２５６又は５１２ノードのいずれかのノード全結合（ＦＣ）層に進み、最後に、ＭＬＰ入力層５５５及びＭＬＰ出力層５６０の両方を有するＭＬＰ６２０に進む。マルチターゲットＭＬＰ６００は、別個のマルチターゲットＭＬＰを訓練し、入力は、ＣＮＮの全結合層の活性化関数である。ＭＬＰの出力ノードは、物体及び物体の部位の両方に対応する。

【0098】

図６Ａに示すように、ＭＬＰの出力ノードは、物体及び物体の部位の両方に対応する。

【0099】

図６Ｂは、説明する実施形態による、物体及び部位を認識する６２５と共に、構成及び結合性について学習する６３０マルチラベルＣＮＮ６０１の訓練を示す。

【0100】

図６Ｃは、説明する実施形態による、部位及び部位の結合性から、物体の構成ではなく物体及び部位６４５の両方を認識する単一ラベルＣＮＮ６９８の訓練を示す。更に示されるのは、別個のマルチラベルＭＬＰの訓練であり、入力は、ＣＮＮの全結合層の活性化関数である。図６Ｃに示されるように、ＭＬＰは、部位及び部位の結合性から物体の構成を学習する。

【0101】

図６に示されるように、実験において、本発明の実施形態は、概して、サイズ５１２又は２５６のただ１つの全結合層をＣＮＮに追加した。以下の実験結果の項は、ＭＬＰへの入力として、これら全結合（ＦＣ）層からの活性化関数の使用による結果を示す。図６は、ＭＬＰを訓練する処理の一般的な流れも示す：（１）訓練画像を訓練ＣＮＮに提示する、（２）全結合（ＦＣ）層の活性化関数を読み込む、（３）これらの活性化関数をＭＬＰへの入力として使用する、（４）この訓練画像のために適切なマルチターゲット出力を設定する、及び（５）重み調節方法の１つを使用してＭＬＰの重みを調節する。

【0102】

例えば、本発明の実施形態が、ＭＬＰへの入力として５１２ノードの全結合（ＦＣ）層の活性化関数を使用すると仮定する。訓練画像がネコの顔であり、以下の部位：目、耳及び口の識別に関心があると更に仮定する。この場合、ネコの顔、目、耳及び口に対応するＭＬＰ出力ノードのターゲット値は、１に設定される。この画像のための全体的な訓練工程は、以下のとおりである：（１）ネコの顔の画像をＣＮＮに入力する、（２）５１２ノードの全結合（ＦＣ）層の活性化関数を読み込む、（３）これらの活性化関数をＭＬＰへの入力として使用する、（４）顔、目、耳及び口のノードのためのターゲット出力を１に設定する、並びに（５）重み調節方法に従ってＭＬＰの重みを調節する。

【0103】

図７は、説明する実施形態による、ネコの様々な部位のサンプル画像を示す。詳細には、最初の列にネコの顔７０５、２番目の列にネコの肢７１０、３番目の列にネコの胴体７１５、第４の列にネコの尾７２０が示される。

【0104】

図８は、説明する実施形態による、トリの様々な部位のサンプル画像を示す。詳細には、最初の列にトリの胴体８０５、２番目の列にトリの頭８１０、３番目の列にトリの尾８１５、４番目の列にトリの羽８２０が示される。

【0105】

図９は、説明する実施形態による、車の様々な部位のサンプル画像を示す。詳細には、最初の列に車のリア（例えば、車の後部分）９０５、２番目の列に車のドア９１０、３番目の列に車のラジエータ（例えば、グリル）９１５、４番目の列に車の後輪９２０、５番目の列に車のフロント（例えば、車の前部分）９２５が示される。

【0106】

図１０は、説明する実施形態による、オートバイの様々な部位のサンプル画像を示す。詳細には、最初の列にオートバイの後輪１００５、２番目の列にオートバイの前輪１０１０、３番目の列にオートバイのハンドル１０１５、４番目の列にオートバイのシート１０２０、５番目の列にオートバイのフロント（例えば、オートバイの前部分）１０２５、６番目の列にオートバイのリア（例えば、オートバイの後部分）１０３０が示される。

【0107】

したがって、図７、図８、図９及び図１０は、本発明の実施形態が第１の問題のためにＭＬＰの訓練で使用するネコ（頭、肢、胴体及び尾）、トリ（胴体、頭、尾及び羽）、車（車の後ろ、ドア、ラジエータ・グリル、後輪、車のフロント）並びにオートバイ（後輪、前輪、ハンドル、シート、バイクの前部、及びバイクの後部）の様々な部位の例示的サンプル画像を提供する。

【0108】

ハスキー犬及びオオカミを認識する問題である第２の問題の場合、本発明の実施形態は、更なる２つの部位－目及び耳を同様の動物であるネコの部位のリストに追加した。このため、ハスキー犬及びオオカミは、６つの部位：顔又は頭、肢、胴体、尾、目及び耳を有した。

【0109】

図１１は、説明する実施形態による、ハスキー犬の目１１０５及びハスキー犬の耳１１１０のサンプル画像を示す。

【0110】

図１２は、説明する実施形態による、オオカミの目１２０５及びオオカミの耳１２１０のサンプル画像を示す。

【0111】

本発明の実施形態は、対応する物体の名称をタグ付けすることによって部位にアノテーションを付けることに留意されたい。したがって、「ネコの頭」及び「イヌの頭」並びに「ハスキー犬の耳」及び「オオカミの耳」がある。概して、本発明の実施形態は、物体にわたる同様の部位の間の差をＭＬＰに発見させる。本発明の実施形態は、ＡｄｏｂｅＰｈｏｔｏｓｈｏｐを使用して多数の部位の画像を生成した。「バイクのフロント」及び「車の後ろ」等、いくつかは、Ｐｙｔｈｏｎのコードを使用して全体画像から単にスライスした。本発明の実施形態は、現在、このタスクを自動化する方法を研究している。

【0112】

部位及び部位の結合性からの物体の構成の教示、並びに物体の部位の認識

【0113】

構成要素部位の存在を検証するため、本発明の実施形態は、これらの部位がどのようなものであり、これらの部位がどのように互いに結合されているかをＭＬＰに教示する。言い換えれば、本発明の実施形態は、構成要素部位及び構成要素部位の結合性から物体の構成を教示する。この教示は、２つのレベルにある。最下レベルでは、個々の基本部位を認識するため、本発明の実施形態は、車のドア又はネコの目の画像等、これらの部位の別個の画像をＭＬＰに単に示す。次のレベルにおいて、下位アセンブリ（例えば、ネコの顔だけ）又は物体全体（例えば、ネコ全体）を生成するために基本部位をどのように組み立てるのかを教示するため、本発明の実施形態は、下位アセンブリ及び物体全体の画像をＭＬＰに単に示し、画像内に含まれる部位をリスト化する。アセンブリ又は下位アセンブリのための部位リスト及び対応する画像が与えられると、ＭＬＰは、物体及び下位アセンブリの構成、並びに部位の結合性を学習する。本発明の実施形態は、既に説明したように、画像のためのマルチターゲット出力の形態でこの部位リストをＭＬＰに提供する。例えば、ネコの顔の画像の場合、注目部位が目、耳、鼻及び口である場合、本発明の実施形態は、これらの部位の出力ノードのターゲット値を１に設定し、残りを０に設定する。ネコの全体画像である場合、本発明の実施形態は、対応する出力ノードのターゲット値を１に設定し、残りを０に設定することによって、顔、肢、尾、本体、耳、鼻及び口等の全ての部位をリスト化する。したがって、マルチターゲットＭＬＰモデル内で出力ノードのターゲット出力値を適切に設定することは、アセンブリ又は下位アセンブリの部位をリスト化する１つの方法である。当然、注目部位をリスト化するだけでよい。尾があるという検証に注目しない場合、この尾の部位をリスト化しなくてよい。しかし、部位のリストが長いほど、当該物体に対する検証はより良好になる。

【0114】

構成によって説明可能なＡＩ

【0115】

実施形態によれば、ユーザは、説明可能なＡＩ（ＸＡＩ）モデルのアーキテクト及びビルダの両方であり、説明可能なＡＩ（ＸＡＩ）モデルは、物体の注目部位に依存し、検証が重要である。例えば、ネコ及びイヌの画像を伴う実験において（結果は第５項にある）、本発明の実施形態は、４つの特徴：胴体、顔又は頭、尾及び肢のみを使用した。ハスキー犬及びオオカミの場合（結果は第５項にある）、本発明の実施形態は、６つの特徴：胴体、顔又は頭、尾、肢、目及び耳を使用した。より多くの物体の特徴又は部位の検証により、より高い精度を得ることが可能である。

【0116】

ＭＬＰの出力層は、本質的にシンボリック・モデルの基部を含む。特定の閾値を越える出力ノードの活性化関数は、対応する部位（又は物体）の存在を示す。この活性化関数は、対応する部位のシンボル（例えば、ネコの目を表すシンボル）の値をＴＲＵＥと設定し、この部位の認識を示す。ＭＬＰ出力層のシンボリック出力に基づく物体認識のため、様々なシンボリック・モデルを構築し得る。１つの極端な形態では、ある物体を認識するため、画像内の物体の全ての部位の存在に固執し得る。又は、この条件を緩和し、物体が画像内で部分的にしか見えない状況に対処する。部分的に見える物体の場合、手元の証拠に基づいて判断しなければならない。別の変形形態では、特定の部位の検証に対してより多くの強調を置き得る。例えば、物体がネコであることを予測するため、頭又は顔が見えることに固執し、物体がネコであることを検証し得る。この場合、ネコの他の部位の認識に基づく予測は、許容可能ではない場合がある。

【0117】

本発明の実施形態は、ここでは、検証された部位の計数に基づく１つのシンボリック・モデルを提示する。Ｐ_ｉ，ｋ，ｋ＝１．．．ＮＰｉ，ｉ＝１．．．ＮＯＢは、ｉ番目の物体クラスのｋ番目の部位、ＮＰｉがｉ番目の物体クラス内の部位の総数、ＮＯＢが物体クラスの総数を示すと仮定する。物体の部位の存在が検証された場合にＰ_ｉ，ｋｋ＝１であり、それ以外の場合０であると仮定する。ＰＶ_ｉは、ｉ番目の物体クラスの検証された部位の総数を示し、ＰＶ_ｉ ^ｍｉｎは、ｉ番目のクラスの物体である物体の分類に必要な部位の検証最小数を示すと仮定する。式（１）及び（２）による、物体の部位の検証（認識）数に基づくこのシンボリック・モデルの一般的な形態は以下のとおりである：
式（１）
ＰＶ_ｉ≧ＰＶ_ｉ ^ｍｉｎである場合、ｉ番目の物体クラスは、認識の候補クラスであり、
式（２）
ＰＶ_ｉ＝Σ＿_{（ｋ＝１）} ^＾ＮＰｉ（Ｐ_ｉ，ｋは、見え、認識される）。

【0118】

予測されるクラスは、以下の式（３）による、最大ＰＶ_ｉが提供されるクラスであり、式（１）に示される条件を満たす：
式（３）
予測される物体クラスＰＯ＝ａｒｇｍａｘ_ｉ（ＰＶ_ｉ）。

【0119】

特定の部位の検証が予測に重要である場合、式（２）はこれらの部位のみを計数する。再度、部位の計数はシンボリック・レベルであることに留意されたい。

【0120】

アルゴリズム：表記を簡略化するため、本発明の実施形態は、Ｐ_ｉ，ｋが、物体の基本部位（例えば、目又は耳）、及び基本部位のアセンブリ（例えば、目、耳、鼻、口等から構成されるハスキー犬の顔）である、物体のより複雑な部位の両方を示すと仮定する。Ｍ_ｉが、ｉ番目のクラスの元の訓練画像のセット、及び訓練画像の合計セットＭを示すと仮定する。

【0121】

したがって、Ｍは、図２及び図３に示される種類の物体の画像から構成される。ＭＰ_ｉ，ｋ，ｋ＝１．．．ＮＰ_ｉ，ｉ＝１．．．Ｃは、ｉ番目の物体クラスのｋ番目の部位で利用可能な物体の部位画像のセットを示し、ＭＰは物体の部位の画像の合計セットを示すと仮定する。したがって、ＭＰは、図７から図１２に示される種類の物体の部位の画像から構成される。本発明の実施形態は、Ｍ元の画像からこれらのＭＰ物体の部位の画像を生成する。ＭＴ＝｛Ｍ ∪ ＭＰ｝が画像の合計セットであると仮定する。本発明の実施形態は、元のＭ画像を使用し、ＣＮＮ及びＭＴ画像を訓練、および試験し、ＭＬＰを訓練、および試験する。

【0122】

ＦＣ_ｊはＣＮＮにおけるｊ番目の全結合（ＦＣ）層を示し、ＪはＦＣ層の総数を示すと仮定する。本発明の実施形態は、現在、ＭＬＰへの入力としてＦＣ層のうち１つの層の活性化関数を使用するが、複数のＦＣ層も使用し得る。本発明の実施形態は、ｊ番目のＦＣ層を選択し、ＭＬＰへの入力を提供すると仮定する。このバージョンのアルゴリズムにおいて、本発明の実施形態は、ｊ番目のＦＣ層の活性化関数を復号するようにＭＬＰを訓練し、物体の部位を発見する。

【0123】

Ｔ_ｉは、マルチターゲットＭＬＰのためのｉ番目の物体クラスのターゲット出力ベクトルを表すと仮定する。Ｔ_ｉは、画像内の物体及び物体の部位の存在又は不在を示す０－１ベクトルである。例えば、部位の肢、胴体、尾、頭によって定義されるネコの場合、このベクトルはサイズ５である。また、ネコの出力ベクトルは、図５に示すように［ネコ物体，肢，頭，尾，胴体］と定義し得る。全ての部位が見えるネコ全体の画像の場合、このターゲット出力ベクトルは［１，１，１，１，１］である。ネコの尾が見えない場合、このベクトルは［１，１，１，０，１］である。本発明の実施形態は、ハスキー犬のために以下の部位：ハスキー犬＿頭、ハスキー犬＿尾、ハスキー犬＿胴体、ハスキー犬＿肢、ハスキー犬＿目、ハスキー犬＿耳を使用した。したがって、出力ベクトルのサイズはハスキー犬の場合は７であり、［ハスキー犬物体，ハスキー犬＿頭，ハスキー犬＿尾，ハスキー犬＿胴体，ハスキー犬＿肢，ハスキー犬＿目，ハスキー犬＿耳］と定義し得る。ハスキー犬の頭の画像の場合、このベクトルは［０，１，０，０，０，１，１］である。本発明の実施形態は、見える部位のみをリスト化することに留意されたい。また、見える部位はハスキー犬の頭のみであるので、本発明の実施形態は、第１の位置におけるハスキー犬の物体ターゲット値を０に設定する。概して、Ｔ_ｉベクトルは、第１の位置における物体であり、部位のリストはその後に続く。図５に示すように、これらの物体クラス出力ベクトルＴ_ｉは結合し、ＭＬＰのためのマルチターゲット出力ベクトルを生成する。図５のネコ及びイヌの問題の場合、マルチターゲット出力ベクトルはサイズ１０である。ネコ全体の画像の場合、［１，１，１，１，１，０，０，０，０，０］となるる。例えば全体的に、イヌ全体の画像の場合、［０，０，０，０，０，１，１，１，１，１］となる。

【0124】

ＩＭ_ｋは、Ｍ物体画像及びＭＰ部位画像から構成される合計画像セットＭＴにおけるｋ番目の画像であると仮定する。ＴＲ_ｋは、ｋ番目の画像のための対応するマルチターゲット出力ベクトルであると仮定する。

【0125】

元のＭ画像及びＭＰ部位画像の両方でＭＬＰを訓練するため、各画像ＩＭ_ｋは、まず、訓練ＣＮＮに入力され、指定されたｊ番目のＦＣ層の活性化関数が記録される。次に、ｊ番目のＦｃ層の活性化関数は、ＭＬＰへの入力になり、ＴＲ_ｋは、対応するマルチターゲット出力変数である。

【0126】

アルゴリズムの一般的な形態は、以下のとおりである。

【0127】

ステップ１：

【0128】

Ｃ物体クラスのＭ画像を使用して、全結合層（ＦＣ）層セットを有する畳み込みニューラル・ネットワーク（ＣＮＮ）を訓練、および試験する。ここで、ＣＮＮを最初から訓練するか、又はＦＣ層を追加する転移学習を使用し得る。

【0129】

ステップ２：

【0130】

ＭＴ画像の下位セットを使用してマルチターゲットＭＬＰを訓練する。各訓練画像ＩＭ_ｋに対して、
訓練ＣＮＮに画像ＩＭｋを入力し、
指定されたｊ番目のＦＣ層における活性化関数を記録し、
ｊ番目のＦＣ層の活性化関数をＭＬＰに入力し、
画像ＩＭ_ｋのためのマルチターゲット出力ベクトルとしてＴＲ_ｋを設定し、
適切な重み調節方法を使用してＭＬＰの重みを調節する。

【0131】

実験機構及び結果：

【0132】

実験機構：本発明の実施形態は、以下のクラスの物体：（１）車、オートバイ、ネコ及びトリ、（２）ハスキー犬及びオオカミ、並びに（３）ネコ及びイヌからの画像を伴う３つの問題について、ＸＡＩに対する本発明の手法の実施形態を試験した。第１の問題は、４つの別個のクラスからの画像を有し、ややより容易な側にある。他の２つの問題は、きめの細かい画像分類問題といくぶん同様であり、より近い物体を有する。表１は、ＣＮＮ及びＭＬＰの訓練、および試験に使用される画像数を示す。本発明の実施形態は、ＣＮＮ及びＭＬＰの両方を訓練するため、いくつかの強化画像を使用した。本発明の実施形態は、物体の部位の画像のみを使用してマルチターゲット（マルチラベル）ＭＬＰを訓練、および試験した。

【0133】

図１３は、説明する実施形態による表１を示し、要素１３００において、どちらがＣＮＮ＋ＭＬＰアーキテクチャ内にあるものを学習するかを示す。マルチラベルＭＬＰは、構成、及び物体と部位との間の結合性を学習する。

【0134】

図１４は、表２を示し、要素１４００において、ＣＮＮ及びＭＬＰの訓練、および試験に使用される（元の画像に強化画像を足した）画像数を示す。本発明の実施形態は、物体の部位の画像のみを使用してマルチターゲットＭＬＰを訓練、および試験した。

【0135】

本発明の実施形態は、ＩｍａｇｅＮｅｔで訓練されたＣＮＮによる転移学習、及び別個のＭＬＰモデルの構築のためにＫｅｒａｓソフトウェア・ライブラリを使用し、モデルを構築、実行するためにＧｏｏｇｌｅＣｏｌａｂを使用した。

【0136】

転移学習の場合、本発明の実施形態は、ＲｅｓＮｅｔ、Ｘｃｅｐｔｉｏｎ及びＶＧＧモデルを使用した。転移学習の場合、上記図４に示すように、本発明の実施形態は、畳み込み層の重みを凍結し、次に、平坦化層の後に全結合層を追加し、その後、出力層を追加した。次に、本発明の実施形態は、新たな分類タスクのため、全結合層の重みを訓練した。

【0137】

本発明の実施形態は、ドロップアウト及びバッチ正規化と共に、平坦化層と出力層との間に５１２又は２５６のいずれかのサイズの全結合（ＦＣ）層を１つだけ追加した。出力層は、ＦＣ層のＲｅＬｕ活性化関数と共にソフトマックス活性化関数を有した。本発明の実施形態は、２つの異なる全結合（ＦＣ）層（５１２及び２５６）を伴う手法を試験し、物体の部位の符号化が、異なるサイズのＦＣ層内に存在し、部位ベースのＭＬＰがこれらを適切に復号し得ることを示した。本発明の実施形態は、「カテゴリ交差エントロピー」を損失関数とするＲＭＳｐｒｏｐオプティマイザを使用して２５０エポックでＣＮＮを訓練した。本発明の実施形態は、別個の試験セットも生成し、検証セットとしてこの試験セットを使用した。本発明の実施形態は、ＣＮＮ及びＭＬＰの両方の試験で合計データセットの２０％を使用した。

【0138】

ＭＬＰには隠れ層がなかった。ＭＬＰには、マルチラベル（マルチターゲット）出力層に直接結合される入力があった。ＭＬＰ訓練の場合、物体の部位の画像を含むあらゆる画像は、最初に、訓練ＣＮＮに通され、５１２又は２５６ＦＣ層の出力が記録された。次に、この記録された５１２又は２５６ＦＣ層の出力は、ＭＬＰへの入力になった。本発明の実施形態は、ＭＬＰ出力層のためのシグモイド活性化関数を使用した。本発明の実施形態は、これがマルチラベル分類問題であるため、「二値交差エントロピー」を損失関数とする「ａｄａｍ」オプティマイザを使用して、２５０エポックでＭＬＰも訓練した。

【0139】

本発明の実施形態は、ＭＬＰにより物体を分類するため、式（２）のわずかな変形を使用した。本発明の実施形態は、各物体クラスのノード及び物体の部位の対応するノードのシグモイド活性化関数を単純に合計し、次に、全ての物体クラスの合計した出力を比較し、画像を分類した。最高の合計活性化関数を有する物体クラスが、予測される物体クラスになる。この変形において、本発明の実施形態は、Ｐ_ｉ，ｋ＝０から１の間のシグモイド活性化関数値であり、Ｐ_ｉ，ｋ，ｋ＝１．．．ＮＰ_ｉ，ｉ＝１．．．ＮＯＢは、ｉ番目の物体クラスのｋ番目の部位を示し、ＮＰ_ｉはｉ番目の物体クラスにおける部位の総数を示し、ＮＯＢは物体クラスの総数を示すと仮定する。ここで、本発明の実施形態は、以下の式（４）及び式（５）により、シグモイド出力値がその物体の部位の存在の確率を表すという解釈を使用する。

【0140】

式（４）：
ＰＶ_ｉ＝Σ＿_{（ｋ＝１）} ^＾ＮＰｉ（Ｐ_ｉ，ｋ＝対応する出力ノードのシグモイド出力値）

【0141】

式（５）：
予測される物体クラスＰＯ＝ａｒｇｍａｘ_ｉ（ＰＶ_ｉ）。ＰＯは予測される物体クラスである。

【0142】

物体の部位の命名についての実験結果：本発明の実施形態は、ここで、発明者等のＸＡＩに対する手法を試験するために解決される、本発明の３つの問題の実施形態に対する結果を提示している。本発明の実施形態は、同様の物体の部位（例えば、ネコ及びイヌの肢）を異なる名称で命名し、ＭＬＰが、物体の部位を違うものにする区別的な特徴を発見しようとするようにした。例えば、本発明の実施形態は、ハスキー犬の部位を「ハスキー犬の肢」、「ハスキー犬の胴体」、「ハスキー犬の頭」、「ハスキー犬の目」等と命名した。同様に、本発明の実施形態は、オオカミの部位を「オオカミの肢」、「オオカミの胴体」、「オオカミの頭」、「オオカミの目」等と命名した。おそらく、ハスキー犬は彼らの飼い主によって十分に手入れされているので、ハスキー犬の部位は、オオカミの部位とは異なって見えるはずである。

【0143】

本発明の実施形態は、３つの問題のために以下の物体の部位名を使用した。

【0144】

ａ）物体クラス－車、オートバイ、ネコ及びトリ：

【0145】

車の部位名－後ろ＿車、ドア＿車、ラジエータ＿グリル＿車、ルーフ＿車、タイヤ＿車、フロント＿車；

【0146】

ネコの部位名－ネコ＿頭、ネコ＿尾、ネコ＿胴体、ネコ＿肢；

【0147】

トリの部位名－トリ＿頭、トリ＿尾、トリ＿胴体、トリ＿羽；及び

【0148】

オートバイの部位名－フロント＿バイク、後ろ＿バイク、シート＿バイク、後輪＿バイク、前輪＿バイク、ハンドル＿バイク。

【0149】

ｂ）物体クラス－ネコ、イヌ

【0150】

ネコの部位名－ネコ＿頭、ネコ＿尾、ネコ＿胴体、ネコ＿肢、及び

【0151】

イヌの部位名－イヌ＿頭、イヌ＿尾、イヌ＿胴体、イヌ＿肢。

【0152】

ｃ）物体クラス－ハスキー犬、オオカミ

【0153】

ハスキー犬の部位名－ハスキー犬＿頭、ハスキー犬＿尾、ハスキー犬＿胴体、ハスキー犬＿肢、ハスキー犬＿目、ハスキー犬＿耳；及び

【0154】

オオカミの部位名－オオカミ＿頭、オオカミ＿尾、オオカミ＿胴体、オオカミ＿肢、オオカミ＿目、オオカミ＿耳。

【0155】

ＸＡＩ－ＭＬＰモデルを使用した分類結果

【0156】

図１５は、説明する実施形態による、要素１５００における表３を示し、「車、オートバイ、ネコ、トリ」分類問題の結果を示す。

【0157】

図１６は、説明する実施形態による、要素１６００における表４を示し、「ネコ対イヌ」分類問題の結果を示す。

【0158】

図１７は、説明する実施形態による、要素１７００における表５を示し、「ハスキー犬及びオオカミ」分類問題の結果を示す。

【0159】

図１８は、説明する実施形態による、要素１８００における表６を示し、ＣＮＮ及びＸＡＩ－ＭＬＰモデルの最良の予測精度を比較する結果を示す。

【0160】

表２、表３及び表４のそれぞれは分類結果を示す。これらの表において、欄Ａ及びＢは、２つの異なるＦＣ層を伴う、ＲｅｓＮｅｔ５０、ＶＧＧ１９及びＸｃｅｐｔｉｏｎモデルの訓練、および試験精度を有し、２つの異なるＦＣ層の一方は５１２ノードであり、他方は２５６ノードである。それぞれ、ＦＣ－５１２層を伴う一方のモデル、及びＦＣ－２５６層を伴う他方のモデルは、別個のモデルであり、本発明の実施形態は、これらを別個に訓練、および試験した。したがって、精度は異なる場合がある。欄Ｃ及びＤは、対応するＸＡＩ－ＭＬＰモデルの訓練、および試験精度を示す。本発明の実施形態がＦＣ－２５６層を伴うＣＮＮモデルを訓練する際、ＸＡＩ－ＭＬＰモデルは、ＦＣ－２５６層の出力をＭＬＰへの入力として使用することに留意されたい。また、本発明の実施形態は、マルチラベル（マルチターゲット）分類問題としてＸＡＩ－ＭＬＰを設定し、出力ノードは、物体及び物体の部位の両方に対応する。したがって、ネコ全体の画像の場合、本発明の実施形態は、「ネコ」物体出力ノード及び対応する部位出力ノード（ネコ＿頭、ネコ＿尾、ネコ＿胴体、及びネコ＿頭）のためのターゲット値を１に設定する。ハスキー犬の頭の画像の場合、本発明の実施形態は、部位出力ノード「ハスキー犬＿頭」、「ハスキー犬＿目」及び「ハスキー犬＿耳」のためのターゲット値を１に設定する。これは、本発明の実施形態が、ＸＡＩ－ＭＬＰの構成、並びに物体及び物体の部位の結合性を本質的にどのように教示するかについてである。本発明の実施形態は、部位のための場所情報を一切提供しない。

【0161】

表内の欄Ｅは、ＸＡＩ－ＭＬＰとＣＮＮモデルとの間の試験精度の差を示す。たいていの場合、ＸＡＩ－ＭＬＰモデルは、より高い精度を有する。予測精度と説明可能性との間には固有のトレードオフがある。本発明の実施形態は、この問題に対する決定的な言明を行うのにより多くの実験を実施する必要があるが、これらの限られた実験から、本発明の実施形態が、部位ベースの説明可能モデルによる予測精度の増大を得られたように見える。表５は、ＣＮＮモデルの最良の試験精度をＸＡＩ－ＭＬＰモデルの最良の試験精度と比較している。２つのきめの細かい問題（ネコ対イヌ、ハスキー犬対オオカミ）に対し、ＸＡＩ－ＭＬＰモデルは、予測精度に著しい増大をもたらしている。

【0162】

図１９は、説明する実施形態による、数字「５」及びオオカミ画像を示し、数字「５」は、様々なイプシロン値で高速勾配法によって改変されており、オオカミ画像も、様々なイプシロン値で高速勾配法によって改変されている。

【0163】

敵対的な攻撃に対する説明可能なＡＩのロバストネス

【0164】

高速勾配法を使用して、説明可能なＡＩモデルを敵対的な攻撃に対して試験した。詳細には、説明可能なＡＩモデルを２つの問題：（１）ＭＮＩＳＴデータセットを使用して手書きの数字を区別する問題、及び（２）既に述べた実験からのデータセットを使用してハスキー犬をオオカミから区別する問題について試験した。

【0165】

敵対的画像の生成について－これらの試験において、人間が容易に検出できない最小の敵対的な攻撃（例えば、１画素の攻撃）に焦点を当てた。言い換えれば、改変された画像は、モデルに何か誤った予測をさせることがあるが、人間には元の画像との差が全くわからない。イプシロンは、敵対的な攻撃の強度を決定する、高速勾配アルゴリズム内のハイパーパラメータである。より高いイプシロン値は、画素をより多大に不明瞭にし、人間の認識が及ばないことが多い。

【0166】

低い視覚的な劣化を保証するために、様々なイプシロン値を実験し、基本ＣＮＮモデルの精度に影響を与えるが、依然として人間には依然としてほぼ同じように見える値を決定した。ＭＮＩＳＴに対する最小イプシロン値は、基本ＣＮＮモデルの精度に影響を与えるのに約０．０１であることが発見された。

【0167】

したがって、最小から開始して、基本ＣＮＮモデル及びＸＡＩ－ＣＮＮモデルの両方に対して以下のイプシロン値：０．０１、０．０２、０．０３、０．０４及び０．０５を試験した。

【0168】

ハスキー犬及びオオカミの問題の場合、最小イプシロン値は０．０００５であった。したがって、以下のイプシロン値：０．０００５、０．００１０、０．００１５及び０．００２０を試みた。

【0169】

精度の低減を簡単に示すため、ハスキー犬及びオオカミでは４つであるのと比較して、ＭＮＩＳＴでは５つの異なるイプシロン値を使用した。ＭＮＩＳＴでは、より高いイプシロン値は０．０５であった。

【0170】

２つの問題についてのイプシロン値の差は、画像の背景の差によるものであることに留意されたい。ＭＮＩＳＴ画像は、簡素な背景を有する一方で、ハスキー犬及びオオカミの画像は、森林、公園等の自然環境又は寝室内に出現する。したがって、ＭＮＩＳＴ画像は、誤った分類を生成するように、より多くの摂動を必要とする。

【0171】

ＭＮＩＳＴ並びにハスキー犬及びオオカミのデータセットからのサンプル画像は、様々なイプシロン値で示される。大まかな試験は画像間の差を明らかにしていないことに注目されたい。

【0172】

ＭＮＩＳＴ－手書き数字の認識：

【0173】

データ－約６０，０００枚の画像のＭＮＩＳＴデータセットから、６，０００枚の画像の下位セットを数字ごとにサンプル化した。次に、これらを訓練、および試験のために半分に分割した。数字の部位の場合、上半分及び下半分を切り、次に、左半分及び右半分を切り、次に、サンプルのそれぞれを斜めに切った。これにより、数字の画像ごとに６つの部位の画像が得られた。これにより、各数字クラス（例えば、５）に対して部位の種類（例えば、上半分）ごとに６，０００枚の画像を生成し、数字の種類ごとに合計４２，０００枚［＝（６つの部位＋１つの全体画像）×６０００］の画像を生成した。部位を含めて、ＸＡＩモデル内の１０個の数字に対して７０の画像クラスがあった。

【0174】

図２０は、説明する実施形態による、ＭＮＩＳＴのためのカスタム畳み込みニューラル・ネットワーク・アーキテクチャを利用する例示的基本ＣＮＮモデルを示す。

【0175】

図２１は、説明する実施形態による、ＭＮＩＳＴ説明可能なＡＩモデルのためのカスタム畳み込みニューラル・ネットワーク・アーキテクチャを利用する例示的基本ＸＡＩ－ＣＮＮモデルを示す。特に、所与の数字に対して表現される予測は、７つの部位に分割される。詳細には、下斜め、下半分、完全な数字、左半分、右半分、上斜め、及び最後に上半分。この予測は、数字ごとに実施され、最終的に、当該数字（例では示される数字「９」）の最終部位である上半分で終了する。

【0176】

図２２は、説明する実施形態による、要素２２００における表７を示し、１０回の異なる実行にわたる、様々なイプシロン値によって生成された敵対的画像のためのＭＮＩＳＴ基本ＣＮＮモデルの平均試験精度を示す。

【0177】

図２３は、説明する実施形態による、要素２３００における表８を示し、１０回の異なる実行にわたる、様々なイプシロン値によって生成された敵対的画像のためのＸＡＩ－ＣＮＮモデルの平均試験精度を示す。

【0178】

図２４は、説明する実施形態による、要素２４００における表９を示し、１０回の異なる実行にわたる、様々なイプシロン値によって生成された敵対的画像のためのハスキー犬及びオオカミの基本ＣＮＮモデルの平均試験精度を示す。

【0179】

図２５は、説明する実施形態による、要素２５００における表１０を示し、１０回の異なる実行にわたる、様々なイプシロン値によって生成された敵対的画像のためのハスキー犬及びオオカミのＸＡＩ－ＣＮＮモデルの平均試験精度を示す。

【0180】

モデル・アーキテクチャ及び結果－敵対的な試験に関し、図６Ａのアーキテクチャを説明可能なモデルのために利用した。このモデルは、マルチラベルＣＮＮモデルを使用し、更なるＭＬＰを伴わない。図６Ｂに示すモデルは、ＭＮＩＳＴのための基本モデルとして使用される、カスタムに構築した単一ラベルＣＮＮモデルを示す。この基本モデルを全体画像で訓練したが、部位画像のいずれでも訓練しなかった。モデルは、１０個の数字のためのソフトマックス活性化関数を有する１０ノードを有する。基本ＣＮＮモデルを示す図２０で示すように、説明可能なＸＡＩ－ＣＮＮモデルの結果を比較した。具体的には、マルチラベルＸＡＩ－ＣＮＮモデルを数字の全体画像及び部位画像の両方で訓練したものである。

【0181】

試験のため、カテゴリ交差エントロピー損失関数及びａｄａｍオプティマイザを使用して、毎回３０エポックで基本ＣＮＮモデルを１０回訓練した。基本ＣＮＮモデルを、異なるイプシロン値で生成した敵対的な画像で試験した。図２２に示される表７は、異なるイプロシン値の１０回の異なる実行にわたる、敵対的な画像に対する平均試験精度を示す。

【0182】

図２１に示される説明可能なＡＩモデル（ＸＡＩ－ＣＮＮ）は、図２１の基本モデルと同じネットワーク構成を有し、重要な差は、（１）出力層におけるノード数は、ここでは、１０だけではなく、７０である、（２）出力層の活性化関数（ここではシグモイドを利用する）、及び（３）損失関数が二値交差エントロピーである。他の主な差は、ＸＡＩ－ＣＮＮモデルが、７０出力ノードを有するマルチラベル・モデルであり、数字ごとに７出力ノードがあり、これら７ノードのうち６ノードは数字の異なる部位に属することである。

【0183】

様々なイプシロン値を有するＸＡＩ－ＣＮＮモデルを使用して生成した敵対的な画像でモデルを試験した。図２３に示される表８は、異なるイプロシン値の１０回の異なる実行にわたる、ＸＡＩ－ＣＮＮモデルに対する平均試験精度を示す。

【0184】

データ－ハスキー犬及びオオカミについて、既に説明した実験の場合と同じデータセットを再度使用した。

【0185】

モデル・アーキテクチャ及び結果－通常通り、敵対的な試験に対し、図６Ａのアーキテクチャを説明可能なモデルのために使用した。しかし、ＭＮＩＳＴとは異なり、この場合、転移学習のためのＸｃｅｐｔｉｏｎモデルを利用した。転移学習の場合、処理は、畳み込み層の重みを凍結し、次に、平坦化層を追加し、次に、全結合（ＦＣ）層を追加し、次に、出力層を追加することである。次に、全結合層の重みを新たな分類タスクのために訓練した。

【0186】

基本ＣＮＮモデルは、常に単一ラベル分類モデルである。追加した層を加えたＸｃｅｐｔｉｏｎモデルから構成される基本ＣＮＮモデルを、ハスキー犬及びオオカミの全体画像で訓練した。モデルは、２ノードがソフトマックス活性化関数を有する出力層を有した。

【0187】

図６Ａの説明可能なＡＩモデル（ＸＡＩ－ＣＮＮ）、即ち、マルチラベル・モデルの場合、シグモイド活性化関数を有する１４出力ノードがあった。次に、マルチラベル・モデルは、ハスキー犬及びオオカミの全体画像及び部位画像の両方で訓練した。使用した損失関数及びオプティマイザは、ＭＮＩＳＴの場合と同じであった。基本ＣＮＮモデル及びＸＡＩ－ＣＮＮモデルの両方は、５０エポックで１０回訓練した。様々なイプシロン値を有するそれぞれのモデルを使用して生成された敵対的な画像でモデルを試験した。図２４に示される表９は、異なるイプロシン値の１０回の異なる実行にわたる、敵対的な画像に対する基本ＣＮＮモデルの平均試験精度を示す。図２５に示される表１０は、ＸＡＩ－ＣＮＮモデルの場合と同じものを示す。

【0188】

敵対的な攻撃の結果－表７及び表８（図２２及び図２３を参照）は、歪みのない場合（イプシロン＝０）、ＭＮＩＳＴ画像に対して基本ＣＮＮモデル及びＸＡＩ－ＣＮＮモデルの両方が約９８％の精度を有することを示す。しかし、基本ＣＮＮの場合、平均精度は、イプシロン０．０５では８５．８９％に低下する。対照的に、ＸＡＩ－ＣＮＮモデルの精度は、イプシロン０．０５では９７．９７％から９７．７１％に低下する。基本ＣＮＮモデルの精度の低下は１２．５％である一方で、ＸＡＩ－ＣＮＮモデルの精度の低下はわずか０．２６％である。

【0189】

表９及び表１０（図２４及び図２５を参照）は、ハスキー犬及びオオカミのデータセットに関する平均精度を示す。表９は、基本ＣＮＮモデルの平均精度が、イプシロン０．００２では４５．５２％に低下し、イプシロン０では８８．０１％に低下することを示す。表１０は、ＸＡＩ－ＣＮＮモデルの平均精度が、イプシロン０．００２では８３．３５％に低下し、イプシロン０では８５．０８％に低下することを示す。したがって、基本ＣＮＮモデルの精度は、たった１．７３％のＸＡＩ－ＣＮＮモデルの低下と比較して、４５．５２％低下している。

【0190】

全体として、これらの結果は、通常のＣＮＮモデルと比較して、ＤＡＲＰＡ式の説明可能なモデルが低レベルの敵対的な攻撃による影響を比較的受けないことを示す。この理由は、主に、マルチラベル・モデルが物体の部位を確認しており、容易にだませないためである。

【0191】

説明可能性の評価

【0192】

本明細書で説明する物体－部位説明可能性フレームワークは建設的であり、ユーザによって定義されるので、説明の妥当性を評定するのはユーザの責任である。極端な例において、ユーザは、最小数の部位を使用して説明を定義し、これにより、システムの性能が矛盾しない状態で、説明を単純に保ち得る。例えば、画像がネコの画像であることを予測するには、顔がネコの画像であることを検証すれば十分である。他の極端な状態では、ユーザは、何らかの冗長性を中に組み込んだ状態で、多数の部位による説明を定義し得る。例えば、画像がネコの画像であることを予測するには、ユーザは、多数の細部－耳、目及び尾からほおひげ、爪及び顔までの検証を望み得る。医療及び国防等の重大な用途では、必要で十分な説明のため、チームがどの部位を検証すべきかを定義すると仮定することが妥当であろう。要約すると、説明の評価の責任はユーザ側にあり、ユーザは、説明がシステムの予測と一貫していることを検証しなければならない。この部位ベースのフレームワークは、特定の実装形態の要件、及びユーザが指定する必要な目的又は要望に従って説明を構築する自由をもたらす。

【0193】

結論：

【0194】

本発明の実施形態は、画像における物体の部位の識別、及び画像内のこの物体の種類の特定の部位の存在の検証後にのみの物体の種類（クラス）の予測に関する、説明可能なＡＩに対する手法を本明細書で提示した。シンボリックＸＡＩモデルの元のＤＡＲＰＡ構想は、この部位ベースのモデルであった。本明細書で説明する実施形態では、ユーザは、自身が、物体の予測のために検証を望む物体の部位を定義しなければならないという意味において、ＸＡＩモデルを定義（設計）する。

【0195】

本発明の実施形態は、ＣＮＮモデルの復号によってＸＡＩシンボリック・モデルを構築する。シンボリック・モデルを生成するため、本発明の実施形態は、ブラック・ボックスのままであるＣＮＮ及びＭＬＰモデルを使用する。本明細書で提示する研究において、本発明の実施形態は、ＣＮＮの全結合層からの部位の復号を理解するためにＣＮＮ及びＭＬＰモデルを別々のままにした。しかし、２つのモデルを単一モデルに統合し得る。

【0196】

本発明の実施形態は、この研究において、単にマルチラベル（マルチターゲット）分類モデルを使用することによって、及び個々の物体の部位を示すことによって、部位から物体の構成を容易に教示し得ることを実証した。マルチラベル分類モデルの使用により、本発明の実施形態は、部位の厳密な場所を示すことを回避する。本発明の実施形態は、学習システムに、部位の間の結合性及び部位の相対的な場所を理解させる。

【0197】

物体の部位の生成及びアノテーション付けは、現在、冗長な手動工程である。本発明の実施形態は、本発明の実施形態がシステムに小さなアノテーション付き訓練セットを与えた後に本発明の実施形態が様々な画像から多数のアノテーション付き部位を抽出し得るように、現在、この工程を自動化する方法を探している。本発明の実施形態がそのような方法を開発すれば、本発明の実施形態は、本発明者等の手法の何らかの大規模試験を実施可能であるはずである。この文書において、本発明の実施形態は、基本的な発想を導入し、いくつかの限られた実験で本発明の実施形態が稼働し、シンボリックＸＡＩモデルを生成し得ることを実証することを希望しただけである。

【0198】

これまでの実験から、部位検証ベースの予測モデルが、予測精度を増大させる可能性があると思われるが、より多くの実験がこの主張を確認するために必要である。人間が物体の部位から物体を識別することを仮定すれば、この推測は道理にかなっている。

【0199】

部位ベースの物体検証は、敵対的な攻撃から保護し得ることも可能であるが、この推測も実験的な検証を必要とする。本発明の実施形態がこの推測を検証できれば、敵対的な学習は不要になり得る。

【0200】

全体として、部位ベースのシンボリックＸＡＩモデルは、本発明者等の画像認識用ＣＮＮモデルに透明性をもたらすのみならず、予測精度及び敵対的な攻撃に対する保護を増大させる可能性も有し得る。

【0201】

技術的問題への解決策：

【0202】

新たなＡＩ技術の状況において、ＵＡＶ（無人航空機）画像及び映像並びにＣＣＴＶ（閉回路テレビ）画像及び映像のためのプロセッシング・ソリューションを開発するニーズがあり、このニーズは、最新技術及び現在利用可能な技術によってでさえ依然として満たされていない。

【0203】

深層学習は、映像処理のための最も最近の技術である。しかし、深層学習モデルは、これらに透明性がないために理解が困難である。したがって、誤った判断が法的責任をもたらし得るかなり危険な状況で深層学習モデルを展開することに対して、懸念が大きくなっている。例えば、医療等の分野は、放射線学において、誤った判断又は欠陥のある診断の際に人命への明らかな危険性があるために、画像の読取り及び解釈を自動化する深層学習モデル及び技術の使用の展開を躊躇している。同じ種類の危険性は、ＣＣＴＶ及びＵＡＶのための深層学習による映像処理の自動化にも存在し、ブラック・ボックス（例えば、非透明）モデルによる誤った判断は、好ましくない結果をもたらす可能性がある。

【0204】

深層学習モデルは高い精度を有するので、これらを説明可能で透明にするための進行中の研究がある。ＤＡＲＰＡは、重大なＤｏＤ用途では甚大な結果をもたらし、ブラック・ボックス・モデルを使用できないため、説明可能なＡＩプログラムを開始した。ＮＳＦも説明可能性の研究にかなりの資金を充当している。

【0205】

現在、コンピュータ・ビジョンはいくつかの説明可能な方法を有する。しかし、ＬＩＭＥ、ＳＨＡＰ及びＧｒａｄ－ＣＡＭ等の優勢な技術はそれぞれ、視覚化に依存しており、このことは、各場合において画像を見る人間が必要であることを意味する。したがって、こうした公知の先行技術を使用して、そのような方法を使用する「人間が介入せずに」自動化映像処理を可能にするシステムを簡単に生成することは、可能ではない。したがって、革新的な解決策が、現在の制限を克服するために緊急に必要とされている。

【0206】

新たなＡＩ技術が必要である：

【0207】

深層学習モデルからのシンボリック・モデルの生成は、透明モデルを生成するための著しい革新である。

【0208】

シンボリック・モデル：ＤＡＲＰＡによる部位ベースの説明という発想は、シンボリック・モデルのための良好なフレームワークをもたらしている。例えば、ＤＡＲＰＡのフレームワークを使用して、ネコを認識する論理規則は以下のとおりとし得る：

【0209】

ＩＦｔｈｅＦｕｒｉｓｏｆａＣａｔＡＮＤｔｈｅＷｈｉｓｋｅｒｓａｒｅｏｆａＣａｔＡＮＤｔｈｅＣｌａｗｓａｒｅｏｆａＣａｔＴＨＥＮｉｔｉｓａＣａｔ（毛がネコのものであり、ほおひげがネコのものであり、爪がネコのものである場合、それはネコである）。

【0210】

ここで、ネコ、毛、ほおひげ及び爪は、これらに対応する同名のシンボルによって表される抽象概念であり、修正された深層学習モデルは、これらのシンボルに対するＴＲＵＥ／ＦＡＬＳＥ値を出力し、画像内にこれらの部位が存在するか又は不在であるかを示し得る。上記論理規則は、コンピュータ・プログラムによって容易に処理されるシンボリック・モデルであり、視覚化を必要とせず、ヒューマン・イン・ザ・ループを必要としない。特定のシーンでは、シーン内に複数の物体があり得る。防犯カメラからの例示的な映像（例えば、熊がプールのそばで寝ているグリーンフィールドの男性を起こす（ａｂｅａｒｗａｋｅｓｕｐＧｒｅｅｎｆｉｅｌｄｍａｎｓｌｅｅｐｉｎｇｂｙｐｏｏｌ）、ＹｏｕＴｕｂｅ）では、熊は、裏庭で観察され、男性はプールのそばで寝ているのが観察されている。インテリジェント・セキュリティ・システムは、未知の動物が近くにいることを瞬時に通知するであろう。説明可能なシンボリック・モデルは、セキュリティ・システムのために以下の情報を生成するであろう。

【0211】

１．未知の動物（ｔｒｕｅ）、顔（ｔｒｕｅ）、胴体（ｔｒｕｅ）、肢（ｔｒｕｅ）；

【0212】

２．人（ｔｒｕｅ）、脚（ｔｒｕｅ）、足（ｔｒｕｅ）、顔（ｆａｌｓｅ）、腕（ｆａｌｓｅ）；

【0213】

３．家のスイミング・プール（ｔｒｕｅ）、寝いす（ｔｒｕｅ）・・・

【0214】

これは、本明細書で説明する新たな説明可能なシンボリック・システムの種類である。やはり、開示する方法は、視覚化に一切依存しないため、ヒューマン・イン・ザ・ループを一切必要としない。更に、この種類の透明モデルは、システム内で信頼及び信用を増大させ、深層学習モデルのより広範な展開へ門戸を開くはずである。

【0215】

得られるモデルは、部位検証のために、敵対的な攻撃に対して保護ももたらす。－したがって、スクール・バスは、数画素の変更のためにダチョウになることはない。

【0216】

確実性及び信頼のために説明可能なＡＩモデルを伴う大規模な自動化映像処理

【0217】

上記に加えて、映像処理分野について精通している人は、非拡張性の問題を容易に認識するであろう。非拡張性の問題は、近年、取り込まれて処理を必要とするデータ量が増大し、それと共に防犯カメラが増大するにつれて、悪化しているだけである。

【0218】

ドローン及びＵＡＶからＣＣＴＶまで、監視システムの映像処理は、かなり労働集約的である。しばしば、映像は、人手不足のため、後の調査のために単に保存される。他の場合には、映像は、リアルタイム処理を必要とする。しかし、結局、両方の場合とも、人間が、取り込んだデータを観察し、処理することを必要とする。将来、映像処理は、量の増大のために、完全に自動化されなければならない。このことは、人件費を削減し、人手の制限された状況を助けるであろう。ＵＡＶ及びＣＣＴＶから生成される映像量が急速に増大しているので、労働集約的な映像処理は、対処すべき重大な問題である。

【0219】

未来のセキュリティ・システムについて話す以下の引用文を考慮されたい：「将来、ＡＩ解析を入口で実行するパン－チルト－ズーム・カメラは、人がもっている武器を識別し、ズームインし、近くで見て、アクセス制御システムにドアのロックを指示して入場を阻止するであろう。同時に、パン－チルト－ズーム・カメラは、警報を警備チーム、居住者又は当局にこの情報を送信するであろう、また、この人物を発見、攻撃するためにドローンを自律的に配備さえし得る。言い換えれば、このシステムは、人間の介入なしに有害な事件の可能性を防止する。

【0220】

「人間の介入」を飛び越すため、そのようなシステムは、高度に信頼、信用できなければならない。深層学習は、今や、映像処理のための卓越した技術である。しかし、深層学習モデルの判断論理は、理解が困難であるため、ＮＳＦ、国防総省及びＤＡＲＰＡは皆、従来の深層学習及び非透明ＡＩの問題を克服する１つの手法として、「説明可能なＡＩ」を探し求めている。

【0221】

したがって、説明する実施形態によれば、述べられたＤＡＲＰＡの目的を満たす「部位ベースの説明可能なシステム」が提供される。試験は、方法が、ネコ及びイヌの認識等の例示的な問題について成功していることを示しており、ＣＣＴＶ及びＵＡＶからのシーン等、ますます複雑になっているシーンでの稼働に拡張される予定である。多数の様々な物体がある病院のＩＣＵ内又は店の内側のシーンの複雑さを想像されたい。数百の様々な物体の部位を定義するタスクは、問題を引き起こしており、この問題は、あらゆる従来の公知の画像認識技法ではこれまで解決されたことがない。

【0222】

説明可能なモデルは、数千の物体のための部位の定義を伴う、複雑なシーンの対処に必要とされる。発想は、単純な問題ではうまくいくことが多いが、より複雑な問題では悲惨なほどに失敗する。しかし、説明可能な深層学習モデルがなければ、「人間の介入なしに」意図的に稼働するこうしたシステムでは、容認できないほど高い誤検知を発生する。また更に、説明可能なＡＩモデルの使用によって、人間が技術を最良の手法に案内、推進することが可能である一方で、ＡＩモデルは、ますます大規模でアクセス可能になっている訓練データセットの消費を通じて学習、進歩することが可能である。

【0223】

したがって、ヒューマン・イン・ザ・ループは、本明細書に記載の教示に基づき得られ、実施されるＡＩモデルの実行から意図的に取り除かれる。というのは、記載のＡＩモデルは、「説明可能なＡＩモデル」であるように明確に作製されるためである。とはいえ、人間の介入を自動化処理に強制的に入れない技術の向上及び展開のために人間の思考を利用することは可能であり、これにより、そのような技術の大規模な使用を防止するであろう。

【0224】

図２６は、開示する実施形態による、深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のための透明モデルを実施する方法２６００を示す流れ図を示す。方法７００は、ハードウェア（例えば、回路、専用論理、プログラム可能論理、マイクロコード等）、ソフトウェア（例えば、処理デバイス上で実行される命令）を含む処理論理によって実施し、設計、定義、抽出、パース、持続、露出、ロード、実行、稼働、受信、生成、保存、維持、生成、戻る、提示、インターフェース接続、通信、送信、照会、処理、提供、決定、トリガ、表示、更新、送信等の様々な動作を本明細書で説明するシステム及び方法に従って実施し得る。例えば、本明細書で説明するシステム２７０１（図２７を参照）及び機械２８０１（図２８を参照）並びに他の支持システム及び構成要素は、説明する方法を実施し得る。以下に列挙するブロック及び／又は動作の一部は、いくつかの実施形態によれば、オプションである。提示するブロックの番号付けは、明瞭性のためであり、様々なブロックが行わなければならない動作順序の規定を意図しない。

【0225】

図２６に示される方法２６００を参照すると、深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のための透明モデルを系統的に生成、出力する特別に構成されるシステムによって実施される方法がある。そのようなシステムは、システムに以下の動作を実施させる特別な命令を実行する少なくとも１つのプロセッサ及びメモリにより構成し得る。

【0226】

ブロック２６０５において、そのようなシステムの処理論理は、非透明ブラック・ボックスＡＩモデルから、以下の動作を介してコンピュータ・ビジョン又は画像認識のための透明で説明可能なＡＩモデルを生成する。

【0227】

ブロック２６１０において、処理論理は、訓練画像セットを有する訓練データから物体を分類するため、畳み込みニューラル・ネットワーク（ＣＮＮ）を訓練する。

【0228】

ブロック２６１５において、処理論理は、物体及び物体の部位の両方を認識するため、多層パーセプトロン（ＭＬＰ）を訓練する。

【0229】

ブロック２６２０において、処理論理は、ＭＬＰの訓練に基づき説明可能なＡＩモデルを生成する。

【0230】

ブロック２６２５において、処理論理は、物体が中に埋め込まれた画像を受信する。画像は、説明可能なＡＩモデルの訓練データの部分を形成しない。

【0231】

ブロック２６３０において、処理論理は、画像認識システム内でＣＮＮ及び説明可能なＡＩモデルを実行し、説明可能なＡＩモデルを介して画像内の物体の予測を生成する。

【0232】

ブロック２６３５において、処理論理は、物体の部位を認識する。

【0233】

ブロック２６４０において、処理論理は、物体の予測の証拠として、物体内で認識された部位を提供する。

【0234】

ブロック２６４５において、処理論理は、認識した部位を含む証拠に基づき、画像システムが画像内で物体を予測した理由についての説明を生成する。

【0235】

方法２６００の別の実施形態によれば、物体及び物体の部位の両方を認識するためにＭＬＰを訓練することは、（ｉ）訓練データから選択された訓練画像を訓練ＣＮＮに提示することと、（ｉｉ）ＣＮＮの全結合（ＦＣ）層の活性化関数を読み込むことと、（ｉｉｉ）これらの活性化関数をＭＬＰへの入力として受信することと、（ｉｖ）この訓練画像のためのマルチターゲット出力を設定することと、及び（ｖ）重み調節方法の１つに従ってＭＬＰの重みを調節することとを含む動作を介してＭＬＰ訓練手順を実施することを含む。

【0236】

別の実施形態によれば、方法２６００は、物体内で認識された部位及び説明の少なくとも一部分を、画像認識システムのユーザに表示する説明ユーザ・インターフェース（ＵＩ）に送信することを更に含む。

【0237】

方法２６００の別の実施形態によれば、物体の部位の識別は、物体の部位を認識するため、畳み込みニューラル・ネットワーク（ＣＮＮ）の復号を含む。

【0238】

方法２６００の別の実施形態によれば、ＣＮＮの復号は、物体の構成に関する情報を提供することを含み、情報は、ＣＮＮを復号するモデルのための物体の部位及び部位の結合性を含む。

【0239】

方法２６００の別の実施形態によれば、部位の結合性は、部位の間の空間関係を含む。

【0240】

方法２６００の別の実施形態によれば、このモデルは、ＣＮＮモデルとは別個であるか又はＣＮＮモデルと統合される多層パーセプトロン（ＭＬＰ）であり、統合モデルは、物体及び部位の両方を認識するように訓練される。

【0241】

方法２６００の別の実施形態によれば、物体の構成についての情報を提供することは、物体の下位アセンブリを含む情報を提供することを更に含む。

【0242】

方法２６００の別の実施形態によれば、物体の部位の認識は、物体の部位のユーザ定義リストを試験することを含む。

【0243】

方法２６００の別の実施形態によれば、物体を分類するためのＣＮＮの訓練は、転移学習を使用して対象物体を分類するようにＣＮＮを訓練することを含む。

【0244】

方法２６００の別の実施形態によれば、転移学習は、少なくとも以下の動作：同様の物体クラス上で事前に訓練された事前訓練ＣＮＮの一部又は全部の畳み込み層の重みを凍結することと、１つ又は複数の平坦化全結合層（ＦＣ）層を追加することと、出力層を追加することと、新たな分類タスクのために全結合層及び非凍結畳み込み層の両方の重みを訓練することとを含む。

【0245】

方法２６００の別の実施形態によれば、物体及び物体の部位の両方を認識するためにＭＬＰを訓練することは、ＣＮＮの１つ又は複数の全結合層の活性化関数から入力を受信することと、ＭＬＰの出力ノードのため、部位のユーザ定義リストからのターゲット値を提供することとを含み、出力ノードは、部位のユーザ定義リストによって指定された対象物体として定義された物体、及び部位のユーザ定義リストに従った対象物体の部位に対応する。

【0246】

別の実施形態によれば、方法２６００は、非透明ブラック・ボックスＡＩモデルから、透明で説明可能なＡＩモデルを生成することを更に含み、生成は、Ｃ物体クラスのＭ画像を使用して、全結合層（ＦＣ）層セットを有する畳み込みニューラル・ネットワーク（ＣＮＮ）を訓練、および試験することと、画像合計セットＭＴの下位セットを使用して、マルチターゲットＭＬＰを訓練することとを更に含む動作を介して行い、ＭＴは、ＣＮＮ訓練のための元のＭ画像、並びに部位及び下位アセンブリ画像の更なるセットＭＰを含み、ＭＴ内の各画像ＩＭ_ｋのための訓練は、画像ＩＭ_ｋを訓練ＣＮＮへの入力として受信することと、１つ又は複数の指定されたＦＣ層で活性化関数を記録することと、１つ又は複数の指定されたＦＣ層の活性化関数をマルチターゲットＭＬＰへの入力として受信することと、画像ＩＭ_ｋのためのマルチターゲット出力ベクトルとしてＴＲ_ｋを設定することと、重み調節アルゴリズムに従ってＭＬＰの重みを調節することとを含む。

【0247】

方法２６００の別の実施形態によれば、ＣＮＮの訓練は、最初からの訓練、又はＦＣ層を追加する転移学習の使用によるＣＮＮの訓練を含む。

【0248】

方法２６００の別の実施形態によれば、ＭＴが、ＣＮＮ訓練のための元のＭ画像、並びに部位及び下位アセンブリ画像の更なるセットＭＰを含む、画像の合計セットＭＴの下位セットを使用するマルチターゲットＭＬＰの訓練は、部位及び下位アセンブリ画像並びに部位の結合性の更なるセットＭＰからＣ物体クラスのＭ画像の構成を教示することを含む。

【0249】

方法２６００の別の実施形態によれば、部位及び下位アセンブリ画像並びに部位の結合性の更なるセットＭＰから、Ｃ物体クラスのＭ画像の構成を教示することは、部位のＭＬＰ個別画像を示すことによって、部位を識別することと、下位アセンブリのＭＬＰ画像を示すことによって、下位アセンブリを識別し、中に含まれる部位をリスト化することとを含み、アセンブリ又は下位アセンブリ及び対応する画像のための部位リストを考慮に入れて、ＭＬＰが物体及び下位アセンブリの構成、並びに部位の結合性を学習するようにする。

【0250】

特定の実施形態によれば、命令を中に記憶させた非一時的コンピュータ可読記憶媒体があり、命令は、少なくとも１つのプロセッサとメモリとを中に有するシステムによって実行されると、訓練画像セットを有する訓練データから物体を分類するため、畳み込みニューラル・ネットワーク（ＣＮＮ）を訓練することと、物体及び物体の部位を認識するため、多層パーセプトロン（ＭＬＰ）を訓練することと、ＭＬＰの訓練に基づき説明可能なＡＩモデルを生成することと、物体が中に埋め込まれた画像を受信することであって、画像は、説明可能なＡＩモデルのための訓練データの部分を形成しない、受信することと、画像認識システム内でＣＮＮ及び説明可能なＡＩモデルを実行し、説明可能なＡＩモデルを介して画像内の物体の予測を生成することと、物体の部位を認識することと、物体の予測の証拠として、物体内で認識された部位を提供することと、認識した部位を含む証拠に基づき、画像システムが画像内で物体を予測した理由についての説明を生成することとを含む動作をシステムに実施させる。

【0251】

図２７は、実施形態を中で稼働させ得る、インストールし得る、統合し得る、又は構成し得るシステム２７０１の概略図を示す。一実施形態によれば、システム２７０１があり、システム２７０１は、実施アプリケーション・コード２７９６を実行する少なくとも１つのプロセッサ２７９０とメモリ２７９５とを中に有する。そのようなシステム２７０１は、命令及びデータを送信するユーザ・デバイス、システム２７０１からの出力として特別に訓練された「説明可能なＡＩ」モデル２７６６を受信するユーザ・デバイス等の遠隔システムの助けにより、通信可能にインターフェース接続し、協働的に実行でき、「説明可能なＡＩ」モデル２７６６は、説明可能なＡＩユーザ・インターフェースを介してユーザに使用し、表示するために抽出した特徴２７４３を中に有し、説明可能なＡＩユーザ・インターフェースは、「説明可能なＡＩ」モデル２７６６が予測を表現した対象入力画像２７４１内の「部位」として位置特定されている決定に関する透明な説明を提供する。

【0252】

示される実施形態によれば、システム２７０１は、システム２７０１で命令を実行するプロセッサ２７９０とメモリ２７９５とを含む。ここで示されるシステム２７０１は、深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のための透明モデルを系統的に生成するように特別にカスタマイズされ、構成される。訓練データ２７３９は、画像特徴学習アルゴリズム２７９１を通じて処理され、画像特徴学習アルゴリズム２７９１から、決定された「部位」２７４０が複数の様々な物体（例えば、「ネコ」及び「イヌ」等）のために抽出され、事前訓練・微調整ＡＩマネジャ２７５０を任意に利用し、システムに提供された更なる訓練データに基づき所与の物体の予測を洗練し得る。

【0253】

特定の実施形態によれば、特別に構成されたシステム２７０１があり、システム２７０１は、非透明ブラック・ボックスＡＩモデルから、コンピュータ・ビジョン又は画像認識のための透明で説明可能なＡＩモデルを生成するようにカスタムに構成される。そのような実施形態によれば、システム２７０１は、実行可能アプリケーション・コード２７９６を介して命令を記憶するメモリ２７９５と、メモリ２７９５内に記憶された命令を実行するプロセッサ２７９０とを含み、システム２７０１は、プロセッサを介してメモリ内に記憶された命令を実行するように特別に構成され、訓練データ２７３９を含む訓練画像セット内に埋め込まれた物体を分類するため、畳み込みニューラル・ネットワーク（ＣＮＮ）２７６５を訓練することと、訓練画像のセットを有する訓練データ２７３９から物体を分類するため、畳み込みニューラル・ネットワーク（ＣＮＮ）２７６５を訓練することと、物体及び物体の部位を認識するため、画像特徴学習アルゴリズム２７９１を介して多層パーセプトロン（ＭＬＰ）を訓練することと、ＭＬＰの訓練に基づき説明可能なＡＩモデル２７６６を生成することと、物体が中に埋め込まれた画像（例えば、入力画像２７４１）を受信することであって、画像２７４１は、説明可能なＡＩモデル２７６６の訓練データ２７３９の部分を形成しない、受信することと、画像認識システム内でＣＮＮ及び説明可能なＡＩモデル２７６６を実行し、説明可能なＡＩモデル２７６６を介して画像内の物体の予測を生成することと、物体の部位を認識することと、物体の予測の証拠として、説明可能なＡＩモデルのために抽出した特徴２７４３を介して物体内で認識された部位を提供することと、画像システムが認識した部位を含む証拠に基づき画像内で物体を予測した理由についての説明を生成することとを含む動作をシステムに実施させる。

【0254】

システム２７０１の別の実施形態によれば、ユーザ・インターフェース２７２６は、システムから離れたユーザ・クライアント・デバイスと通信可能にインターフェース接続し、公衆インターネットを介してシステムと通信可能にインターフェース接続する。

【0255】

バス２７１６は、システム２７０１の様々な構成要素を互いの間で、システム２７０１の任意の他の周辺機器（複数可）及び外部ネットワーク要素、他の機械、クライアント・デバイス、クラウド・コンピューティング・サービス等の外部構成要素とインターフェース接続する。通信は、ネットワーク・インターフェースを介してＬＡＮ、ＷＡＮ又は公衆インターネット上での外部デバイスとの通信を更に含み得る。

【0256】

図２８は、一実施形態によるコンピュータ・システムの例示的形態の機械２８０１の概略図を示し、機械２８０１内で、本明細書で説明する方法の任意の１つ又は複数を実施させる命令のセットを機械／コンピュータ・システムに実行させ得る。

【0257】

代替実施形態では、機械は、ローカル・エリア・ネットワーク（ＬＡＮ）、イントラネット、エクストラネット又は公衆インターネット内で他の機械に接続（例えば、ネットワーク化）し得る。機械は、クライアントサーバ・ネットワーク環境内のサーバ又はクライアント・マシンの容量で、ピアツーピア（又は分散）ネットワーク環境内のピア・マシンとして、オンデマンド・サービス環境内のサーバ又は一連のサーバとして、動作し得る。機械の特定の実施形態は、パーソナル・コンピュータ（ＰＣ）、タブレットＰＣ、セットトップ・ボックス（ＳＴＢ）、携帯情報端末（ＰＤＡ）、携帯電話、ウェブ・アプライアンス、サーバ、ネットワーク・ルータ、スイッチ若しくはブリッジ、コンピューティング・システム、又は記憶された命令に従って、特別に構成されたアクションを機械が取ることを指定、要求する命令のセットを（連続的若しくはそれ以外の様式で）実行可能な任意の機械の形態とし得る。更に、単一機械のみを示すが、用語「機械」は、本明細書で論じる方法の任意の１つ又は複数を実施する命令のセット（又は複数のセット）を個々に又は共同で実行するあらゆる機械（例えば、コンピュータ）の集合を含むと解釈するものとする。

【0258】

例示的なコンピュータ・システム２８０１は、プロセッサ２８０２と、メイン・メモリ２８０４（例えば、読取り専用メモリ（ＲＯＭ）、フラッシュ・メモリ、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）若しくはＲａｍｂｕｓＤＲＡＭ（ＲＤＲＡＭ）等のダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）、フラッシュ・メモリ、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、揮発性高データレートＲＡＭ等のスタティック・メモリ）と、２次メモリ２８１８（例えば、ハード・ディスク・ドライブ及び永続データベース及び／又はマルチテナント・データベース実装形態を含む永続記憶デバイス）とを含み、バス２８３０を介して互いに通信する。メイン・メモリ２８０４は、透明学習工程２８２４を実行する命令を含み、透明学習工程２８２４は、本明細書で説明する方法及び技法を支持して、ユーザ・インターフェースが使用するために抽出される特徴２８２３を提供し、訓練された説明可能なＡＩモデル２８２５を生成し、訓練された説明可能なＡＩモデル２８２５の実行のために利用可能する。メイン・メモリ２８０４及びメイン・メモリ２８０４の下位要素は、本明細書で論じる方法を実施するように、処理論理２８２６及びプロセッサ２８０２と共に更に動作可能である。

【0259】

プロセッサ２８０２は、マイクロプロセッサ、中央処理ユニット等の特殊化され、特別に構成された１つ又は複数の処理デバイスを表す。より詳細には、プロセッサ２８０２は、複合命令セット・コンピューティング（ＣＩＳＣ）マイクロプロセッサ、縮小命令セット・コンピューティング（ＲＩＳＣ）マイクロプロセッサ、超長命令語（ＶＬＩＷ）マイクロプロセッサ、他の命令セットを実装するプロセッサ、又は命令セットの組合せを実装するプロセッサとし得る。プロセッサ２８０２は、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）、ネットワーク・プロセッサ等の１つ又は複数の専用処理デバイスであってもよい。プロセッサ２８０２は、本明細書で論じる動作及び機能を実施する処理論理２８２６を実行するように構成される。

【0260】

コンピュータ・システム２８０１は、ネットワーク・インターフェース・カード２８０８を更に含み得る。コンピュータ・システム２８０１は、ユーザ・インターフェース２８１０（映像表示ユニット、液晶ディスプレイ等）と、英数字入力デバイス２８１２（例えば、キーボード）と、カーソル制御デバイス２８１３（例えば、マウス）と、信号生成デバイス２８１６（例えば、一体型スピーカ）とを更に含み得る。コンピュータ・システム２８０１は、周辺デバイス２８３６（例えば、ワイヤレス又は有線通信デバイス、メモリ・デバイス、記憶デバイス、音声処理デバイス、映像処理デバイス等）を更に含み得る。

【0261】

２次メモリ２８１８は、本明細書で説明する方法又は機能の任意の１つ又は複数を実施する１つ又は複数の命令セット（例えば、ソフトウェア２８２２）が記憶される非一時的機械可読記憶媒体又は非一時的コンピュータ可読記憶媒体又は非一時的機械アクセス可能記憶媒体２８３１を含み得る。ソフトウェア２８２２は、同様に機械可読記憶媒体を構成するコンピュータ・システム２８０１、メイン・メモリ２８０４及びプロセッサ２８０２によってソフトウェア２８２２を実行する間、完全に又は少なくとも部分的に、メイン・メモリ２８０４及び／又はプロセッサ２８０２内に常駐してもよい。ソフトウェア２８２２は、ネットワーク２８２０上でネットワーク・インターフェース・カード２８０８を介して更に送受信し得る。

【0262】

本明細書で開示する主題を、例として特定の実施形態の観点から説明してきたが、請求する実施形態は、明示的に列挙した開示する実施形態に限定されないことを理解されたい。そうではなく、本開示は、当業者に明らかであるように、様々な修正形態及び同様の構成を含むことを意図する。したがって、添付の特許請求の範囲は、全てのそのような修正形態及び同様の構成を包含するように、最も広範な解釈が与えられるべきである。上記の説明は、例示的であり、制限的ではないことを意図すると理解されたい。多数の他の実施形態は、上記の説明を読み、理解すれば当業者に明らかであろう。したがって、開示する主題の範囲は、添付の特許請求の範囲を参照して、そのような特許請求の範囲の権利が与えられる等価物の完全な範囲と共に、決定されるべきである。

【図1】