IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アリゾナ ボード オブ リージェンツ フォー アンド オン ビハーフ オブ アリゾナ ステート ユニバーシティの特許一覧

特表2024-545545深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のために透明モデルを実装するシステム、方法及び装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-10
(54)【発明の名称】深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のために透明モデルを実装するシステム、方法及び装置
(51)【国際特許分類】
   G06N 5/045 20230101AFI20241203BHJP
   G06T 7/00 20170101ALI20241203BHJP
   G06V 10/776 20220101ALI20241203BHJP
   G06V 10/82 20220101ALI20241203BHJP
   G06V 10/764 20220101ALI20241203BHJP
   G06N 3/0464 20230101ALI20241203BHJP
【FI】
G06N5/045
G06T7/00 350C
G06V10/776
G06V10/82
G06V10/764
G06N3/0464
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024509329
(86)(22)【出願日】2022-08-24
(85)【翻訳文提出日】2024-03-05
(86)【国際出願番号】 US2022041365
(87)【国際公開番号】W WO2023028135
(87)【国際公開日】2023-03-02
(31)【優先権主張番号】63/236,393
(32)【優先日】2021-08-24
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
2.YouTube
(71)【出願人】
【識別番号】504318142
【氏名又は名称】アリゾナ ボード オブ リージェンツ オン ビハーフ オブ アリゾナ ステート ユニバーシティ
(74)【代理人】
【識別番号】100098394
【弁理士】
【氏名又は名称】山川 茂樹
(72)【発明者】
【氏名】ロイ,アシム
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096HA11
(57)【要約】
透明モデルは、深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のために生成される。説明可能なAIは、物体を分類するために畳み込みニューラル・ネットワークを訓練し、物体及び物体の部位の両方を認識するために多層パーセプトロンを訓練することによって生成される。物体が中に埋め込まれた画像が受信される。CNN及び説明可能なAIモデルは、画像認識システム内で実行され、説明可能なAIモデルを介して画像内の物体の予測を生成し、物体の部位を認識し、物体の予測の証拠として、物体内で認識された部位を提供し、認識された部位を含む証拠に基づき、画像システムが画像内で物体を予測した理由についての説明を生成する。
【選択図】図1
【特許請求の範囲】
【請求項1】
非透明ブラック・ボックスAIモデルから、コンピュータ・ビジョン又は画像認識のための透明で説明可能なAIモデルを生成する少なくとも1つのプロセッサとメモリとを中に有するシステムによって実施されるコンピュータ実装方法であって、前記方法は、
訓練画像セットを有する訓練データから物体を分類するため、畳み込みニューラル・ネットワーク(CNN)を訓練することと、
前記物体及び前記物体の部位を認識するため、多層パーセプトロン(MLP)を訓練することと、
前記MLPの訓練に基づき前記説明可能なAIモデルを生成することと、
物体が中に埋め込まれた画像を受信することであって、前記画像は、前記説明可能なAIモデルのための前記訓練データの部分を形成しない、受信することと、
画像認識システム内で前記CNN及び前記説明可能なAIモデルを実行し、前記説明可能なAIモデルを介して前記画像内の前記物体の予測を生成することと、
前記物体の部位を認識することと、
前記物体の予測の証拠として、前記物体内で認識された前記部位を提供することと、
前記認識された部位を含む証拠に基づき、前記画像システムが前記画像内で前記物体を予測した理由についての説明を生成することと
を含む、方法。
【請求項2】
前記物体及び物体の部位の両方を認識するためにMLPを訓練することは、
(i)前記訓練データから選択された訓練画像を、訓練する前記CNNに提示することと、
(ii)前記CNNの全結合層(FC)層の活性化関数を読み込むことと、
(iii)前記MLPへの入力として前記活性化関数を受信することと、
(iv)前記訓練画像のためのマルチターゲット出力を設定することと、
(v)重み調節方法に従って前記MLPの重みを調節することと
を含む動作を介してMLP訓練手順を実施することを含む、請求項1に記載の方法。
【請求項3】
前記物体内で認識された部位及び前記説明の少なくとも一部分を、前記画像認識システムのユーザに表示する説明ユーザ・インターフェース(UI)に送信すること
を更に含む、請求項1に記載の方法。
【請求項4】
前記物体の部位の識別は、前記物体の部位を認識するための畳み込みニューラル・ネットワーク(CNN)の復号を含む、請求項1に記載の方法。
【請求項5】
前記CNNの復号は、前記物体の構成に関する情報を提供することを含み、前記情報は、前記CNNを復号するモデルのための前記物体の部位及び前記部位の結合性を含む、請求項4に記載の方法。
【請求項6】
前記部位の結合性は、前記部位の間の空間関係を含む、請求項5に記載の方法。
【請求項7】
前記モデルは、前記CNNモデルとは別個であるか又は前記CNNモデルと統合される多層パーセプトロン(MLP)であり、前記統合モデルは、前記物体及び前記部位の両方を認識するように訓練される、請求項6に記載の方法。
【請求項8】
前記物体の構成についての情報を提供することは、前記物体の下位アセンブリを含む情報を提供することを更に含む、請求項6に記載の方法。
【請求項9】
前記物体の部位の認識は、前記物体の部位のユーザ定義リストを試験することを含む、請求項1に記載の方法。
【請求項10】
前記物体を分類するためのCNNの訓練は、転移学習を使用して、注物体を分類するために前記CNNを訓練することを含む、請求項1に記載の方法。
【請求項11】
転移学習は、
同様の物体のクラス上で事前に訓練された事前訓練CNNの一部又は全部の畳み込み層の重みを凍結することと、
1つ又は複数の平坦化全結合層(FC)層を追加することと、
出力層を追加することと、
新たな分類タスクのために前記全結合層及び非凍結畳み込み層の両方の重みを訓練することと
を含む、請求項10に記載の方法。
【請求項12】
前記物体及び物体の部位の両方を認識するためにMLPを訓練することは、
前記CNNの1つ又は複数の全結合層(FC)層の活性化関数からの入力を受信することと、
前記MLPの出力ノードのため、部位のユーザ定義リストからのターゲット値を提供することと
を含み、前記出力ノードは、前記部位のユーザ定義リストによって指定された対象物体として定義される物体、及び前記部位のユーザ定義リストに従った対象物体の部位に対応する、請求項1に記載の方法。
【請求項13】
非透明ブラック・ボックスAIモデルから、コンピュータ・ビジョン又は画像認識のための前記透明で説明可能なAIモデルを生成すること
を更に含み、前記生成は、
C物体クラスのM画像を使用して、全結合層(FC)層セットを有する前記畳み込みニューラル・ネットワーク(CNN)を訓練、試験することと、
画像合計セットMTの下位セットを使用して、前記マルチターゲットMLPを訓練することと
を更に含む動作を介して行い、前記MTは、CNN訓練のための元のM画像、並びに部位及び下位アセンブリ画像の更なるセットMPを含み、
前記MT内の各画像IMのための訓練は、
(i)画像IMを前記訓練CNNへの入力として受信することと、
(ii)1つ又は複数の指定されたFC層で活性化関数を記録することと、
(iii)前記1つ又は複数の指定されたFC層の活性化関数を前記マルチターゲットMLPへの入力として受信することと、
(iv)前記画像IMのためのマルチターゲット出力ベクトルとしてTRを設定することと、
(v)重み調節アルゴリズムに従ってMLPの重みを調節することと
を含む、請求項1に記載の方法。
【請求項14】
前記CNNの訓練は、最初から、又はFC層を追加する転移学習の使用による前記CNNの訓練を含む、請求項13に記載の方法。
【請求項15】
CNN訓練のための元のM画像、並びに部位及び下位アセンブリ画像の更なるセットMPを含む前記画像合計セットMTの下位セットを使用する前記マルチターゲットMLPの訓練は、前記部位及び下位アセンブリ画像の更なるセットMP並びに部位の結合性から、C物体クラスの物体のM画像の構成を教示することを含む、請求項13に記載の方法。
【請求項16】
前記部位及び下位アセンブリ画像の更なるセットMP並びに部位の結合性からC物体クラスのM画像の構成を教示することは、
前記MLP個別画像の部位を示すことによって、前記部位を識別することと、
前記MLP画像の下位アセンブリを示すことによって、前記下位アセンブリを識別し、中に含まれる前記部位をリスト化することであって、前記MLPが、アセンブリ又は下位アセンブリ及び対応する画像のための前記部位リストを考慮に入れて前記物体の構成及び下位アセンブリ並びに前記部位の結合性を学習するようにする、リスト化することと、
前記画像のためのマルチターゲット出力の形態で前記部位リストを前記MLPに提供することと
を含む、請求項15に記載の方法。
【請求項17】
命令を記憶するメモリと、
前記メモリ内に記憶された命令を実行するプロセッサと
を備えるシステムであって、
前記システムは、前記プロセッサを介して前記メモリ内に記憶された命令を実行するように特別に構成され、
物体を分類するため、畳み込みニューラル・ネットワーク(CNN)を訓練することと、
訓練画像セットを有する訓練データから物体を分類するため、畳み込みニューラル・ネットワーク(CNN)を訓練することと、
前記物体及び前記物体の部位を認識するため、多層パーセプトロン(MLP)を訓練することと、
前記MLPの訓練に基づき前記説明可能なAIモデルを生成することと、
物体が中に埋め込まれた画像を受信することであって、前記画像は、前記説明可能なAIモデルのための前記訓練データの部分を形成しない、受信することと、
画像認識システム内で前記CNN及び前記説明可能なAIモデルを実行し、前記説明可能なAIモデルを介して前記画像内の前記物体の予測を生成することと、
前記物体の部位を認識することと、
前記物体の予測の証拠として、前記物体内で認識された前記部位を提供することと、
前記認識された部位を含む証拠に基づき、前記画像システムが前記画像内で前記物体を予測した理由についての説明を生成することと
を含む動作を前記システムに実施させる、システム。
【請求項18】
前記物体及び物体の部位の両方を認識するためにMLPを訓練することは、
(i)前記訓練データから選択された訓練画像を、訓練する前記CNNに提示することと、
(ii)前記CNNの全結合層(FC)層の活性化関数を読み込むことと、
(iii)前記MLPへの入力として前記活性化関数を受信することと、
(iv)前記訓練画像のためのマルチターゲット出力を設定することと、
(v)重み調節方法に従って前記MLPの重みを調節することと
を含む動作を介してMLP訓練手順を実施することを含む、請求項17に記載のシステム。
【請求項19】
前記物体内で認識された部位及び前記説明の少なくとも一部分を、前記画像認識システムのユーザに表示する説明ユーザ・インターフェース(UI)に送信すること
を更に含む、請求項17に記載のシステム。
【請求項20】
前記物体の部位の識別は、前記物体の部位を認識するための畳み込みニューラル・ネットワーク(CNN)の復号を含み、
前記CNNの復号は、前記物体の構成に関する情報を提供することを含み、前記情報は、前記CNNを復号するモデルのための前記物体の部位及び前記部位の結合性を含み、
前記部位の結合性は、前記部位の間の空間関係を含み、
前記モデルは、前記CNNモデルとは別個であるか又は前記CNNモデルと統合される多層パーセプトロン(MLP)であり、前記統合モデルは、前記物体及び前記部位の両方を認識するように訓練され、
前記物体の構成についての情報を提供することは、前記物体の下位アセンブリを含む情報を提供することを更に含む、請求項17に記載のシステム。
【請求項21】
命令を中に記憶させた非一時的コンピュータ可読記憶媒体であって、前記命令は、システムのプロセッサによって実行されると、
訓練画像セットを有する訓練データから物体を分類するため、畳み込みニューラル・ネットワーク(CNN)を訓練することと、
前記物体及び前記物体の部位を認識するため、多層パーセプトロン(MLP)を訓練することと、
前記MLPの訓練に基づき前記説明可能なAIモデルを生成することと、
物体が中に埋め込まれた画像を受信することであって、前記画像は、前記説明可能なAIモデルのための前記訓練データの部分を形成しない、受信することと、
画像認識システム内で前記CNN及び前記説明可能なAIモデルを実行し、前記説明可能なAIモデルを介して前記画像内の前記物体の予測を生成することと、
前記物体の部位を認識することと、
前記物体の予測の証拠として、前記物体内で認識された前記部位を提供することと、
前記認識した部位を含む証拠に基づき、前記画像システムが前記画像内で前記物体を予測した理由についての説明を生成することと
を含む動作を前記システムに実施させる、非一時的コンピュータ可読記憶媒体。
【請求項22】
前記物体及び物体の部位の両方を認識するためにMLPを訓練することは、
(i)前記訓練データから選択された訓練画像を、訓練する前記CNNに提示することと、
(ii)前記CNNの全結合層(FC)層の活性化関数を読み込むことと、
(iii)前記MLPへの入力として前記活性化関数を受信することと、
(iv)前記訓練画像のためのマルチターゲット出力を設定することと、
(v)重み調節方法に従って前記MLPの重みを調節することと
を含む動作を介してMLP訓練手順を実施することを含む、請求項20に記載の非一時的コンピュータ可読記憶媒体。
【請求項23】
前記命令により、
前記物体内で認識された部位及び前記説明の少なくとも一部分を、前記画像認識システムのユーザに表示する説明ユーザ・インターフェース(UI)に送信すること
を更に含む動作を前記システムに実施させる、請求項21に記載の非一時的コンピュータ可読記憶媒体。
【請求項24】
前記物体の部位の識別は、前記物体の部位を認識するための畳み込みニューラル・ネットワーク(CNN)の復号を含み、
前記CNNの復号は、前記物体の構成に関する情報を提供することを含み、前記情報は、前記CNNを復号するモデルのための前記物体の部位及び前記部位の結合性を含み、
前記部位の結合性は、前記部位の間の空間関係を含み、
前記モデルは、前記CNNモデルとは別個であるか又は前記CNNモデルと統合される多層パーセプトロン(MLP)であり、前記統合モデルは、前記物体及び前記部位の両方を認識するように訓練され、
前記物体の構成についての情報を提供することは、前記物体の下位アセンブリを含む情報を提供することを更に含む、請求項21に記載の非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
優先権の主張
特許協力条約(PCT)の元に出願される本特許出願は、2021年8月24日出願、代理人整理番号第37684.671P号を有する「SYSTEMS, METHODS, AND APPARATUSES FOR A TRANSPARENT MODEL FOR COMPUTER VISION/ IMAGE RECOGNITION FROM A DEEP LEARNING NONTRANSPARENT BLACK BOX MODEL」という名称の米国仮特許出願第63/236,393号に関連し、当該出願に対する優先権を主張するものであり、当該出願の内容全体は、完全に示されるかのように参照により本明細書に組み込まれる。
【0002】
政府の権利及び政府機関による支援の通知
支援助成金は、2021年Dean’s Excellence in Research Summer Research Grant、W.P. Carey School of Business、ASU、及び2020年Dean’s Excellence in Research Summer Research Grant、W.P. Carey School of Business、ASUを含む。
【0003】
著作権の通知
本特許文書の開示の一部分は、著作権保護を受ける素材を含む。当該著作権者は、複製が米国特許商標庁の特許ファイル又は記録内に出現するため、誰かが当該特許文書又は当該特許の開示を複製することに異議はないが、それ以外の場合の全ての著作権の権利を全て留保する。
【0004】
本発明の実施形態は、一般に、コンピュータ・ビジョンのための深層学習のあらゆる適用領域で使用するための、深層学習非透明ブラック・ボックス・モデルからのコンピュータ・ビジョン/画像認識の分野に関し、適用領域には、限定はしないが、透明で信頼できるモデルから利益を得る軍事及び医療適用領域を含む。
【背景技術】
【0005】
この背景技術の項で論じる主題は、背景技術の項での単なる言及の結果として、従来技術であるとみなすべきではない。同様に、背景技術の項で述べられる又は背景技術の項の主題に関連する問題は、従来技術で既に認識されているとみなすべきではない。背景技術の項における主題は、様々な手法を表すにすぎず、これらの手法自体も、請求する発明の実施形態に対応する。
【0006】
深層学習(deep learning)(deep structured learningとしても公知)は、表現学習を伴う人工ニューラル・ネットワーク(ANN)に基づく、より広範な群の機械学習方法の一部である。学習は、教師あり学習、半教師あり学習、教師なし学習とし得る。
【0007】
ディープ・ニューラル・ネットワーク、深層信念ネットワーク、深層強化学習、回帰型ニューラル・ネットワーク及び畳み込みニューラル・ネットワーク等の深層学習のアーキテクチャは、コンピュータ・ビジョン、音声認識、自然言語処理、機械翻訳、バイオインフォマティクス、医薬品設計、医用画像分析、材料検査、及びボード・ゲーム・プログラムを含む分野に適用されている。
【0008】
深層学習の形容詞「深層」とは、ネットワーク内での多層の使用を指す。初期の研究は、線形パーセプトロンは汎用分類器になり得ないが、非多項式活性化関数及び無限幅の1つの隠れ層を伴うネットワークは、汎用分類器になり得ることを示した。深層学習は、有限サイズの無限数の層に関係する現代の一変形であり、実用的な適用及び最適な実装を可能にする一方で、緩やかな条件下で理論上の汎用性を保持する。深層学習において、複数の層は、効率、訓練性及び理解性の目的のために、異成分からなることが可能であり、生物学的に通知されたコネクショニスト・モデルから広く逸脱することも可能であるため、「構造化された」部分である。
【0009】
機械学習は、深層学習の出現と同時に、技術として途方もなく成功している。しかし、この技術の大部分の展開は、低リスク領域内にある。深層学習ベースの画像認識システムに対して可能性のある2つの適用領域-軍事及び医療領域-は、こうした深層学習モデルが、誰もがほぼ理解できない非透明ブラック・ボックス・モデルであるので、この技術の使用を躊躇している。
【発明の概要】
【発明が解決しようとする課題】
【0010】
必要とされるのは、透明で信頼できるモデルである。
【課題を解決するための手段】
【0011】
したがって、現在の最新技術は、本明細書で説明するように、深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のために透明モデルを実装するシステム、方法及び装置から利益を得ることができる。
【0012】
実施形態は、限定としてではなく、例として示され、図面に関連して考慮される以下の詳細な説明を参照するとより十分に理解し得る。
【図面の簡単な説明】
【0013】
図1】説明する実施形態による、DARPAに準拠する説明可能なAI(XAI)モデルの例示的アーキテクチャの概略図であり、説明可能なAI(XAI)モデルは、説明する改良点を有し、情報を提供されるユーザのために実装される。
図2】説明する実施形態による、4つの別個のクラスの画像を分類する本発明の実施形態による手法の図である。
図3】説明する実施形態による、2つのきめの細かいクラスの画像を分類する本発明の実施形態による手法の図である。
図4】説明する実施形態による、追加したCNNの全結合層の重みの訓練のみを伴う、新たな分類タスクのための転移学習の図である。
図5】説明する実施形態による、別個のマルチターゲットMLPの訓練の図であり、入力は、CNNの全結合層の活性化関数から到来し、MLPの出力ノードは、物体及び物体の部位の両方に対応する。
図6A】説明する実施形態による、別個のマルチラベルMLPの訓練の図であり、入力は、CNNの全結合層の活性化関数である。
図6B】説明する実施形態による、物体及び部位を認識すると共に、構成及び結合性について学習するマルチラベルCNN601の訓練の図である。
図6C】説明する実施形態による、部位及び部位の結合性から、物体の構成ではなく、物体及び部位の両方を認識する単一ラベルCNNの訓練の図である。
図7】説明する実施形態による、ネコの様々な部位のサンプル画像の図である。
図8】説明する実施形態による、トリの様々な部位のサンプル画像の図である。
図9】説明する実施形態による、車の様々な部位のサンプル画像の図である。
図10】説明する実施形態による、オートバイの様々な部位のサンプル画像の図である。
図11】説明する実施形態による、ハスキー犬の目及びハスキー犬の耳のサンプル画像の図である。
図12】説明する実施形態による、オオカミの目及びオオカミの耳のサンプル画像の図である。
図13】説明する実施形態による表1の図であり、どちらがCNN+MLPアーキテクチャ内にあるものを学習するかを示す。
図14】説明する実施形態による表2の図であり、CNN及びMLPの訓練及び試験に使用される画像数を示す。
図15】説明する実施形態による表3の図であり、「車、オートバイ、ネコ、トリ」分類問題の結果を示す。
図16】説明する実施形態による表4の図であり、「ネコ対イヌ」分類問題の結果を示す。
図17】説明する実施形態による表5の図であり、「ハスキー犬及びオオカミ」分類問題の結果を示す。
図18】説明する実施形態による表6の図であり、CNN及びXAI-MLPモデルの最良の予測精度を比較する結果を示す。
図19】説明する実施形態による、数字「5」及びオオカミの画像の図であり、数字「5」は、様々なイプシロン値で高速勾配方法によって改変されており、オオカミ画像も、様々なイプシロン値で高速勾配方法によって改変されている。
図20】説明する実施形態による、MNISTのためのカスタム畳み込みニューラル・ネットワーク・アーキテクチャを利用する例示的基本CNNモデルの図である。
図21】説明する実施形態による、MNIST説明可能なAIモデルのためのカスタム畳み込みニューラル・ネットワーク・アーキテクチャを利用する例示的基本XAI-CNNモデルの図である。
図22】説明する実施形態による表7の図であり、10回の様々な実行にわたる、様々なイプシロン値によって生成された敵対的画像に対する、MNIST基本CNNモデルの平均試験精度を示す。
図23】説明する実施形態による表8の図であり、10回の様々な実行にわたる、様々なイプシロン値によって生成された敵対的画像に対する、XAI-CNNモデルの平均試験精度を示す。
図24】説明する実施形態による表9の図であり、10回の様々な実行にわたる、様々なイプシロン値によって生成された敵対的画像に対する、ハスキー犬及びオオカミの基本CNNモデルの平均試験精度を示する。
図25】説明する実施形態による表10の図であり、10回の様々な実行にわたる、様々なイプシロン値によって生成された敵対的画像に対する、ハスキー犬及びオオカミのXAI-CNNモデルの平均試験精度を示す。
図26】開示する実施形態による、深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のための透明モデルを実施する方法を示す流れ図である。
図27】実施形態を中で稼働させ得る、インストールし得る、統合し得る又は構成し得るシステムの概略図である。
図28】一実施形態によるコンピュータ・システムの例示的形態の機械の概略図である。
【発明を実施するための形態】
【0014】
本明細書で説明するのは、深層学習不透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のための透明モデルを実施するシステム、方法、及び装置である。
【0015】
国防高等研究計画局(DARPA)は、コンピュータ・ビジョンのための深層学習問題に関する認識して、以下のゴールを採択する説明可能なAI(「XAI」)と呼ばれるプログラムを開始した。
【0016】
DARPAによれば、説明可能なAI(XAI)プログラムでは、より説明可能なモデルを生成する一方で高レベルの学習性能(予測精度)を維持し、人間のユーザが新興世代の人工知能パートナーを理解し、適切に信頼し、効果的に管理することを可能にする、機械学習技法のスイートの生成を目的とする。
【0017】
DARPAは、XAIが、機械学習における劇的な成功をもたらし、相次ぐ人工知能(AI)の適用へと導いていると更に説明している。DARPAは、継続的な進化により、それら自体で知覚、学習、判断、行動する自律システムの生成を約束するものであると主張している。しかし、これらのシステムの効果は、現在の機械が機械の判断及びアクションを人間のユーザに説明できないことにより、制限されている。DARPAによれば、国防総省(「DoD」)は、よりインテリジェントで、自律的で共生的なシステムを要求する課題に直面している。説明可能なAI-特に、説明可能な機械学習-は、将来の兵士が新興世代の人工知能機械パートナーを理解し、適切に信頼し、効果的に管理する場合、必須である。
【0018】
したがって、DARPAは、説明可能なAI(XAI)プログラムが、より説明可能なモデルを生成しながら、高レベルの学習性能(予測精度)を維持し、人間のユーザが新興世代の人工知能パートナーを理解し、適切に信頼し、効果的に管理することを可能にする機械学習技法のスイートの生成を目的とするものであると説明している。DARPAは、新たな機械学習システムが、将来、新たな機械学習システムの理論的根拠を説明し、これらの長所及び短所を特徴付け、これらがどのように挙動するかについての理解を伝える能力を有するであろうと更に説明している。このゴールを達成する方策は、より説明可能なモデルを生成する新たな又は修正された機械学習技法を開発することである。DARPAによれば、そのようなモデルは、エンドユーザが理解可能で有用な説明の対話にモデルを変換することが可能な最新技術のヒューマン-コンピュータ・インターフェース技法と組み合わせられる。DARPAは、その方策が、性能-対-説明可能性のトレード空間をカバーする一連の設計オプションを将来の開発者等にもたらすモデルのポートフォリオを生成するため、様々な技法を追求することであると主張している。
【0019】
DARPAは、XAIが、「第3次AIシステム」の可能化が予期されるひと握りの現在のDARPAプログラムの1つであるという説明によって、更なる状況を提供しており、「第3次AIシステム」では、機械が、基礎をなす説明モデルを稼働させ、経時的に構築し、これらの説明モデルにより、現実世界の現象の特徴付けを可能にする状況及び環境を理解する。DARPAによれば、XAIプログラムは、2つの領域における挑戦的問題:(1)異種マルチメディア・データにおいて注目事象を分類する機械学習の問題、及び(2)自律システムが様々な模擬ミッションを実施するための判断方針を構築する機械学習の問題に対処することによって、複数のシステムの開発に焦点を当てるものである。これら2つの挑戦的問題領域は、2つの重要な機械学習手法(分類及び強化学習)とDoDにとっての2つの重要な動作問題領域(情報分析及び自律システム)との交差部分を表すために選択された。
【0020】
DARPAは、研究者等が説明の心理学を調査していること、より詳細には、XAI研究プロトタイプがプログラムの行程全体を通じて試験され、連続的に評価されていることをまた更に述べている。2018年5月、XAI研究者等は、説明可能な学習システムの初期の実装形態を実証し、説明可能な学習システムの第1段階の評価に対する初期のパイロット研究の結果を提示した。完全な第1段階システムの評価は、2018年11月の予定である。プログラムの終了時に最終的に送り出されるのは、将来の説明可能なAIシステムの開発のために使用し得る機械学習及びヒューマン-コンピュータ・インターフェース・ソフトウェア・モジュールから構成されるツールキット・ライブラリである。プログラムの完成後、こうしたツールキットは、更なる洗練化、及び国防又は商業用途への移行に利用可能であろう。
【0021】
例示的な実施形態
【0022】
本発明の特定の実施形態は、深層学習の非透明ブラック・ボックス・モデルからのコンピュータ・ビジョン及び画像認識のための透明モデルを生成し、生成される透明モデルは、説明可能なAI(XAI)プログラムを通じて述べたDARPAの目的と一致する。例えば、開示する画像認識システムが画像はネコの画像であると予測する場合、それ以外の場合では非透明「ブラック・ボックス」予測となる表現に加えて、開示するシステムは、システムが画像はネコの画像であると「考える」理由又は画像はネコの画像であるとの予測を表現する理由についての説明を更に提供する。例えば、そのような例示的なシステムは、画像内の実体がほおひげ、毛及び爪を含むように見えるので、コンピュータ・ビジョン及び画像認識上で実行する透明モデルが、画像はネコの画像であると考える予測を裏付ける説明を出力し得る。
【0023】
システムが特定の予測を表現した「理由」に関してそのような裏付けの説明があれば、非透明又はブラック・ボックス予測モデルとはもはや言い得ない。
【0024】
ある意味では、DARPAの所望のXAIシステムは、物体の部位の認識、及び物体を予測する証拠としての部位の提示に基づく。以下で更に詳細に説明する本発明の実施形態は、この所望の機能を実装する。
【0025】
本発明の実施形態は、物体の部位を認識するため、畳み込みニューラル・ネットワーク(CNN)(一種の深層学習モデル)を復号するように特別に構成されるコンピュータ実装方法を更に含む。部位及び部位の結合性から物体の構成についての情報を提供する、別個のモデル(多層パーセプトロン)は、CNNを復号するように実際に学習する。また、この第2のモデルは、説明可能なAIのためのシンボリック情報を具現化する。物体の部位の符号化は、CNNの多数のレベルで存在し、部位の情報は、分類判定の背後にある推論を説明するために容易に抽出し得ることが実験的に実証されている。本発明の実施形態に対する全体的な手法は、物体の部位について人間に教示するのと同様である。
【0026】
例示的な実施形態によれば、以下の情報:下位アセンブリの情報及び部位の間の結合性を含む、部位からの物体の構成についての情報が第2のモデルに提供される。構成の情報は、部位のリスト化によって提供される。例えば、ネコの頭の場合、リストは、目、鼻、耳及び口を含み得る。実施形態は、全体的な手法を様々な方式で実施し得る。従来の知恵は、説明可能性のために正確さを犠牲にするものである。しかし、この方法を伴う実験結果は、説明可能性が多数のCNNモデルの正確さを実質的に改善し得ることを示している。更に、物体の部位は、物体だけでなく第2のモデルによって予測されるので、敵対的訓練が不要になる可能性がかなり高い。
【0027】
現在の最新技術、具体的には、そのような開示する実施形態の商業的可能性への影響は、多数の適用分野に影響を及ぼす可能性がある。例えば、現在、米軍は、説明能力を伴わない既存の深層学習ベースの画像認識システムを展開していない。したがって、本明細書に記載の本発明の開示する実施形態は、当該市場を開放し、米軍の能力及び即応性を改善するように働く可能性がある。また更に、国防及び軍事即応性の他に、医療診断用途、ヒューマン-コンピュータ・インターフェース、より効率的な通信プロトコル、並びに更にはエンターテインメント・コンテンツの配信及びゲーム・エンジンの改善等、多数の他の適用領域がそのような説明能力から利益を得るであろう。
【0028】
以下を含む、本発明の説明する実施形態に関連するいくつかの新規の態様を以下で更に詳細に示す。
【0029】
現在、述べた目的を満たすことが可能な公知の先行技術がないことを認めた上で、DARPAが想起している説明可能なAI(XAI)モデルの種類を厳密に生成する手段を有する実施形態。
【0030】
物体の固有の部位(例えば、ほおひげ、毛及び爪)の検証に基づく物体(例えば、ネコ等)のDARPA XAIモデルに準拠する予測を表現する手段を有する実施形態。
【0031】
物体の固有の部位を認識するように訓練された、新たな予測モデルを生成する手段を有する実施形態。
【0032】
現在、様々な物体の部位の画像を示すことによって部位を認識するためにモデルを教示する手順に従う公知の先行技術がないことを認めた上で、部位(例えば、ゾウの鼻)の画像を示すことによって、これらの部位を認識するモデルを教示する手段を有する実施形態。
【0033】
基本部位及び部位の結合性から、物体(及び下位アセンブリ)の新たなモデルの構成性を教示する手段を有する実施形態。例えば、そのような実施形態は、「ネコ」と定義される物体が肢、胴体、顔、尾、ほおひげ、毛、爪、目、鼻、耳、口等から構成されることをモデルに「教示」するか又はモデルに「学習」させる。再度、現在、基本部位から、物体(及び下位アセンブリ)のモデルの構成を教示する公知の先行システムがないことを認めた上で、そのような実施形態は、ネコと定義される物体の顔等の下位アセンブリが目、耳、鼻、口、ほおひげ等を含む部位から構成されることをモデルに教示するか又はモデルに学習させる。
【0034】
DARPA XAIモデルは、物体及び物体の部位が全てシンボルによって表現される限り、シンボリック・レベルで動作する。ネコの例を参照すると、そのようなシステムの場合、ネコの物体及びネコの全ての部位に対応するシンボルになるであろう。本明細書に記載の開示する実施形態は、所与の物体の部位リストをユーザが定義可能であるという意味において、ユーザがシンボリック・モデルを制御可能であることによって、そのような能力を拡大、拡張させる。例えば、システムは、ネコの肢、顔、胴体及び尾のみを認識し、その他は認識しないようにユーザが選択することを可能にする。前述のように、ユーザの特定の目的で必要とするような具体的に望ましい実装形態を構成する際、ユーザがシンボリック・モデルを柔軟に定義することを可能にする公知の先行システムはない。
【0035】
DARPA XAIモデルは、物体の予測を、部位の独立した検証を条件とすることによって、敵対的な攻撃からの保護をもたらす。本明細書に記載の開示する実施形態は、検証すべき部位をユーザが定義可能であることによって、そのような能力を拡大、拡張させる。概して、強化された更なる部位の検証は、敵対的な攻撃からより多くの保護をもたらす。前述のように、説明する実施形態によって可能になる様式で保護レベルをエンドユーザが定義することを可能にする公知の先行システムはない。
【0036】
例示的な実施形態によれば、シンボリックAIモデルは、画像内の物体を迅速に分類する生成システムに統合される。
【0037】
多数の既存のシステムは、視覚化に依存し、人間の検証を必要とし、ノー・ヒューマン・イン・ザ・ループ(人間がループ内にいない)生成システムに容易に統合できない。こうした理由のために、公知の最新技術と比較して、以下を含めて本発明の実施形態に対するいくつかの利点がある。
【0038】
DARPAが指定する種類のシンボリックAIモデルを構築し得る他の現在利用可能なシステムは、市場にはない。本発明の実施形態は、そのようなモデルを構築し得る。
【0039】
現在、敵対的な攻撃に対して保護するため、深層学習モデルは、敵対的な攻撃を認識するように特別に訓練しなければならない。しかし、それでも、そのような攻撃に対する保護は保証されない。本発明の実施形態は、敵対的な訓練を必要とせずに、コンピュータ・ビジョンのための既存のシステムよりも、敵対的な攻撃からかなり高レベルの保護をもたらし得る。
【0040】
実験は、予測が部位の認識に基づくシンボリックAIシステムを伴う既存の方法と比較して、より高い予測精度が達成されることを示している。
【0041】
シンボリックAIモデルは、画像内の物体を迅速に分類する生成システムに容易に統合し得る。多数の既存のシステムは、視覚化に依存し、人間の検証を必要とし、ノー・ヒューマン・イン・ザ・ループの生成システムに容易に統合できない。
【0042】
ユーザ定義シンボリック・モデルの生成が可能な本発明の実施形態は、ユーザの観点からモデル内に透明性及び信頼をもたらす。ブラック・ボックス・モデルにおけるこの透明性及び信頼は、コンピュータ・ビジョンの分野では大いに望ましい。
【0043】
本発明の実施形態は、物体の部位を認識するため、カスタム畳み込みニューラル・ネットワーク(CNN)を復号する方法を含む。部位及び部位の結合性から物体の構成についての情報を提供する、別個のマルチターゲット・モデル(例えば、MLP又は同等モデル)は、CNN活性化関数を復号するように実際に学習する。また、この第2のモデルは、説明可能なAIのためのシンボリック情報を具現化する。実験は、物体の部位の符号化が、CNNの多数のレベルで存在し、部位の情報は、分類判定の背後にある推論を説明するために容易に抽出し得ることを実証している。本発明の実施形態の手法は、物体の部位について人間に教示するのと同様の手法である。実施形態は、下位アセンブリの情報及び部位の間の結合性を含む、部位による物体の構成についての情報を第2のモデルに提供する。実施形態は、部位をリスト化することによって構成情報を提供するが、場所情報を一切提供しない。例えば、ネコの頭の場合、リストは、目、鼻、耳及び口を含み得る。実施形態は、注目部位のみをリスト化する。実施形態は、全体的な手法を様々な方式で実施し得る。以下の説明は、特定の実施形態を提示し、Xception、Visual Geometry Group(「VGG」)及びResNetを含むモデル等、いくつかのImageNetで訓練されたCNNモデルを使用する手法を示す。従来の知恵は、説明可能性のために正確さを犠牲にしなければならないことになっている。しかし、実験結果は、説明可能性が多数のCNNモデルの正確さを実質的に改善し得ることを示している。更に、物体だけでなく、物体の部位が第2のモデルにおいて予測されるので、敵対的訓練が不要になる可能性がかなり高い。第2のモデルは、マルチターゲット分類問題として形作られる。
【0044】
本発明の実施形態は、マルチターゲット・モデルを使用する。一実施形態では、マルチターゲット・モデルは、多層パーセプトロン(MLP)であり、フィードフォワード人工ニューラル・ネットワーク(ANN)のクラスである。他の実施形態は、同等のマルチターゲット・モデルを使用し得る。用語MLPは、任意のフィードフォワードANNを意味するために曖昧に、時には大ざっぱに使用され、時には、(閾値活性化関数を伴う)複数の層のパーセプトロンから構成されるネットワークを厳密に指す。多層パーセプトロンは、時には、特に単一隠れ層を有する際、「バニラ」ニューラル・ネットワークと口語的に呼ばれる。
【0045】
MLPは、ノードの少なくとも3つの層:入力層、隠れ層及び出力層から構成される。入力ノードを除き、各ノードは、非線形活性化関数を使用するニューロンである。MLPは、訓練のために誤差逆伝播法と呼ばれる教師あり学習技法を利用する。MLPの複数の層及び非線形活性化関数は、MLPを線形パーセプトロンから区別する。MLPは、線形に分離可能ではないデータを区別し得る。
【0046】
多層パーセプトロンが、各ニューロンの出力に対して重み付けした入力をマッピングする線形関数等の線形活性化関数を全てのニューロン内に有する場合、任意の数の層を2層入力-出力モデルに低減し得る。MLPにおいて、一部のニューロンは、生物学的ニューロンの活動電位又は発火の頻度をモデル化するために開発された非線形活性化関数を使用する。各データを処理した後、予期される結果と比較した出力内のエラーの量に基づき、結合の重みを変更することによって、パーセプトロン内で学習が行われる。このことは、教師あり学習の一例であり、誤差逆伝播法、即ち、線形パーセプトロンにおける最小2乗平均アルゴリズムの一般化を通じて実行される。
【0047】
図1は、DARPAに準拠する説明可能なAI(XAI)モデルの例示的アーキテクチャの概略図を示し、モデルは、情報を提供されるユーザのために実装される、説明する改良点を有する。
【0048】
図示のように、2つの手法が示される。まず、例示的アーキテクチャ100は、ブラック・ボックス学習工程110を通じて処理された、訓練データ105上で訓練されているモデルを示し、ブラック・ボックス学習工程110は、ブロック120において、ある学習関数をもたらす。次に、この訓練モデルは、処理のための入力画像115を受信でき、これに応答して、予測出力125は、システムから、解決すべき特定のタスクを有するユーザ130に表現する。この方法は非透明であるため、説明は提供されず、ユーザにフラストレーションをもたらす。ユーザは、「なぜこれを行ったのか?」又は「なぜ何か他のものではなかったのか?」又は「いつ成功するのか?」又は「いつ失敗するのか?」又は「いつ信頼できるのか?」又は「どのようにエラーを修正するのか?」等の質問を尋ねるかもれない。
【0049】
逆に、本明細書で説明する改良モデルは、透明学習工程160に提供される同じ訓練データ105を下に示しており、この場合、以前の例からの同じ入力画像115の受信が可能な説明可能なモデル165をもたらす。しかし、以前のモデルとは異なり、今度は、説明インターフェース170があり、情報を提供されるユーザ175に透明な予測及び説明を提供し、ユーザ175は、特定のタスクの解決を試みる。図示のように、説明インターフェース170は、「これはネコである」及び「それは毛、ほおひげ及び爪を有する」、並びにネコの耳のグラフィック描写と共に「それはこの特徴を有する」等の情報をユーザに提供する。
【0050】
画像の階層構成は、CNNからの概念の生成及び抽出を可能にする。画像の内容の理解は、常にコンピュータ・ビジョンの対象となっている。画像パース・グラフにおいて、木のような構成を使用して、あるシーンをシーン・ラベルから分解し、物体の部位及び基本形状、並びにそれらの機能的及び空間的関係を示す。GLOMモデルは、「固定アーキテクチャ・パースを有するニューラル・ネットワークは、ある画像を、どのように各画像に対して様々な構成を有する部分-全体階層に分解し得るのか」という質問に対する答えを探す。用語「GLOM」は、表現手法として、「glom together(つかんで合わせる)」というスラング用語から得られるものであり、静的なニューラル・ネットが動的パース木を表現することを可能にするトランスフォーマ(transformer)、ニューラル場、対比表現学習、蒸留及びカプセルの使用を通じて画像処理を改善する。
【0051】
GLOMモデルは、カプセルの概念を一般化し、画像の特定領域内の特定部位の種類に対するニューロンの群を、画像のそれぞれの小パッチのための積層オートエンコーダの概念に捧げるものである。次に、これらのオートエンコーダは、複数レベルの表現に-人の鼻孔から、その人の鼻、顔まで-そっくりそのまま又は人の「全体」を通じて完全に対処する。
【0052】
例示的な実施形態への序論
【0053】
いくつかの例示的な実施形態は、畳み込みニューラル・ネットワーク(CNN)の全結合層の活性化関数から物体の部位を識別する特別に構成されたコンピュータ実装方法を提供する。しかし、部位の識別は、CNNの他の層の活性化関数からも可能である。実施形態は、部位及び部位の結合性からの物体の構成についての情報を別個のモデルに提供することによって活性化関数をどのように復号するかを、別個のモデル(マルチターゲット・モデル、例えば、MLP)に教示することを伴う。
【0054】
物体の部位の識別は、図1に示すように、説明可能なAI(XAI)のためにDARPAが想定する種類のシンボリック・レベルで情報を生成する。この特定の形態は、物体の認識を物体の部位の識別に条件付ける。例えば、この形態は、物体がネコであることを予測するため、システムが、ネコの毛、ほおひげ及び爪等のネコの特定の特徴の一部を認識する必要があることも要求する。物体の部位又は特徴の認識を条件とする物体の予測は、物体に更なる検証をもたらし、予測をロバストで信頼できるものにする。例えば、そのような画像認識システムの場合、数画素の小さな摂動を伴うスクール・バスは、ダチョウの部位(例えば、長い肢、長い首、小さな頭)が画像内に存在しないので、ダチョウと予測されることはない。したがって、物体のいくつかの部位の識別を必要とすることにより、敵対的な環境においてかなり高レベルの保護をもたらす。そのようなシステムは、容易にだませない。また、こうしたシステムは、固有のロバストネスのために、GAN及び他の機構による敵対的な訓練の必要性を更になくし得る。
【0055】
部分-全体識別問題にはいくつかの異なる手法がある。例えば、GLOM手法は、ネットワーク内にパース木を構築し、部分-全体階層構成を示す。逆に、説明する実施形態は、そのようなパース木を構築せず、必要ともしない。
【0056】
きめの細かい物体認識は、トリ又はイヌといった異なる種等の全般クラスの下位クラスの物体を区別しようとする。きめの細かい物体認識方法の多くは、物体の下位クラスの特有の部位を様々な様式で識別する。これらの方法の一部を関連する概念として以下で説明する。しかし、本発明の実施形態による物体の部位を識別する方法は、全てのこれらの方法とは異なる。詳細には、説明する実施形態は、部位からの物体の構成についての情報、及び構成要素部位からの部位についての情報を学習システムに提供する。例えば、ネコの画像の場合、実施形態は、顔、肢、尾等のネコの見える部位をリスト化する。実施形態は、これらの部位がバウンディング・ボックス又は同様の機構の場合のようなシステムを示すものではない。説明する実施形態は、画像内の物体の見える部位をリスト化する。例えば、説明する実施形態は、システムにネコの顔の画像を見せ、見える部位-目、耳、鼻及び口をリスト化し得る。したがって、説明する実施形態は、注目部位をリスト化するだけでよい。したがって、特定の問題又はタスクで鼻及び口に注目しない場合、鼻及び口は、リスト化されない。特定の説明する実施形態は、部位にアノテーションも付ける。
【0057】
繰り返すと、本発明の実施形態は、部位が画像内のどこにあるかについて一切示さない。したがって、説明する実施形態は、構成情報を提供するが、場所情報を提供しない。当然、本発明の実施形態は、注目部位-目、耳、鼻、口、肢、尾等-の全ての別個の画像を示し、認識システムが、これらの部位が何に見えるかが分かるようにする。しかし、システムは、提供された構成情報から、これらの部位の間の空間関係(「結合性」としても公知)を学習する。したがって、物体の部位を認識する公知の先行技法とは著しく異なるのは、この構成性情報を提供する能力である。説明する実施形態は、モデル(例えば、MLP)、構成性、及び部位の空間関係を教示する。したがって、物体の部位についてシステムに教示する方法は、同じ又は同様の問題を解決するあらゆる公知の先行方法又はシステムとは異なる。
【0058】
部位の名前又はラベル(アノテーション)を提供する問題について、本発明の実施形態は、人間の学習の理解に依拠する。イヌ及び人間の両方が、脚、手及び顔等の人体の様々な特徴を認識すると主張することはおそらく理にかなっている。唯一の差は、人間が、これらの部位に対する名称をもっていて、イヌはもっていないことである。当然、人間は、人間の親から部位の名称を受け継いでいるのではない。言い換えれば、人間は、物体及び部位の名称を生まれながらに有するのではなく、教示されなければならない。また、この教示は、視覚システムがこれらの部位の認識を学習した後にのみ生じる。本発明の実施形態は、同じ2段階の部位の名称を教示する手法に従う。即ち、まず、システムに、部位の名称を与えずに、部位を視覚的に認識することを学習させ、次に、部位の名称を教示する。本発明の実施形態は、部位の名称を有する画像セットを提供する。
【0059】
脳内の高レベルの抽象化及び単一細胞の符号化は、視覚野の外側で見られることが多い。神経生理学の実験による脳の理解は、脳が、特に、高度に抽象的な概念及びマルチモーダルな物体の不変認識に対して、局所的な単一細胞表現を広範に使用していることである。先行技法は、視覚系の単一細胞の記録を使用して、単純型細胞及び複雑型細胞、線方位及び運動検出細胞等を発見し、最低レベルの視覚構成で単一細胞の抽象化を本質的に確認した。しかし、他の研究者等は、人(例えば、ジェニファー・アニストン)及び物体(例えば、シドニー・オペラハウス)のモダリティ不変認識を符号化するより高レベルの処理で、より複雑な単一細胞の抽象化を発見したことを報告した。1つの推定は、内側側頭葉(MTL)細胞の40%が、そのような明示的な表現に調整されるということである。神経科学の専門家等は、実験の証拠が、PFCがカテゴリ形成及び一般化において重大な役割を果たしていることを示していると主張している。専門家等は、前頭前野のニューロンが様々な刺激にわたり共通性を抽象化すると主張している。次に、彼らは、前頭前野のニューロンの物理的特性を無視することによって、前頭前野のニューロンの共通の意味に基づき前頭前野のニューロンをカテゴリ化している。
【0060】
これらの神経生理学の発見が意味することは、脳が、視覚野の外側で多数のモデルを生成し、様々な種類の抽象概念を生成することである。本発明の実施形態は、(1)物体の部位はそれ自体が抽象的な概念であるので、物体の部位に対して単一ニューロン(ノード)の抽象概念を生成し、(2)物体の部位を認識するため、CNNの外側に別個モデル(MLP)を生成することによって、これらの生物学的手がかりを利用する。このことは、当然、CNNのモデルが実際に物体クラスのために単一出力ノードを使用するので、CNNにとっては何も新しいものではない。本発明の実施形態は、この単一ノード表現スキームを物体の部位にまさに拡張し、これらのノードをMLPの出力層に追加している。
【0061】
本発明の実施形態は、様々な物体を認識するようにCNNモデルを訓練する。そのように訓練されたCNNモデルは、部位から物体の構成についての情報を一切与えない。本発明の実施形態は、部位からの物体の構成についての情報、及び他の構成要素部位からの部位(下位アセンブリ)の構成についての情報のみを後続のMLPモデルに提供し、後続のMLPモデルは、その入力をCNNの全結合層から受信する。別個のMLPモデルは、物体及び部位を認識し、部位の間の空間関係を理解するために、CNN活性化関数を単に復号する。しかし、説明する実施形態は、公知の先行技法に一般的なバウンディング・ボックスの場合のように、どの部位の場所情報も提供しない。そうではなく、説明する実施形態は、単に、顔等、画像内のアセンブリを構成する部位のリストを提供する。
【0062】
しかし、実施形態は、部位を認識するために別個のモデル(MLP又は任意の他の分類モデル)を構築する必要はないことに留意されたい。MLPモデルもCNNモデルと密に結合し、統合モデルは、物体及び部位の両方を認識し得る。
【0063】
以下の項では、説明可能なAI全般、その後、コンピュータ・ビジョンのための説明可能なAI及びきめの細かい物体認識に関する更なる状況を提供する。その後の項では、本発明の実施形態の直観的な理解を提供する。その次の項では、本発明の特定の実施形態の実装利用されるアルゴリズムに関する更なる詳細を提供し、その後、実験結果に関する考察及び結びの見解を提供する。
【0064】
説明可能なAI(XAI)
【0065】
AIシステムの説明可能性は、AIシステムの使用に応じて多数の様々な形態を取る。1つのそのような形態において、物体又は概念をその特性により説明し、これらの特性は、他の抽象概念(又は下位概念)とし得る。例えば、肢、尾、頭、目、耳、鼻、口及びほおひげ等の(抽象下位概念である)主な特徴の一部を使用して(高レベルの抽象概念である)ネコを説明し得る。この説明可能なAIの形態は、シンボルが抽象概念及び下位概念を表現するシンボリックAIに直接関連する。本発明の実施形態は、この種類の抽象シンボリック情報を抽出するために畳み込みニューラル・ネットワークを復号し得る方法を提示する。
【0066】
別の観点から、機械学習のための説明可能なAI方法は、(1)設計による透明性及び(2)事後説明とカテゴリ化し得る。設計による透明性は、まず、決定木等の解釈可能なモデルで開始されるモデル構成を使用する。事後説明方法は、既に学習したブラック・ボックス・モデルから情報を抽出し、ブラック・ボックス・モデルの性能を新たな解釈可能モデルと大きく近似させる。この手法の利益は、ブラック・ボックス・モデルの性能に影響を与えないことである。事後方法は、主に、ブラック・ボックス・モデルの入出力に対処するため、モデル・アグノスティックである。この観点から、本発明の実施形態は、事後方法を採用する。
【0067】
「COGLE」(Common Ground Learning and Explanation)システムは、無人航空機システムのシミュレーションを制御するXAIシステムの学習能力を説明するものである。COGLEは、人間が使用可能なシンボリック表現を、基礎をなすモデルの抽象概念、構成及び一般化パターンに橋渡しする認知層を使用する。「共通領域(common ground)」という考えは、ここでは、説明で使用するための共通用語を確立し、共通用語の意味を理解することを意味する。本発明の実施形態についての説明は、この共通用語という考えも使用する。
【0068】
深層学習のための説明可能なAIに対する手法の範囲
【0069】
CNNの内部で表現(符号化)を視覚化し、理解する公知の先行方法が利用可能である。例えば、ユニット又はフィルタを最大限に活性化する画像を主に合成する方法のクラスがある。CNN特徴マップを画像に反転させることによって、別の種類の視覚化を提供する上昇畳み込み方法も公知である。視覚化を越え、フィルタによって符号化された特徴のセマンティックな意味を理解しようとする方法もある。
【0070】
また更に、説明のために画像レベルの解析を実施する方法がある。例えば、LIME方法は、ネットワークの予測に高度に反応する画像領域を抽出し、関連する画像のパッチを示すことによって個々の予測の説明を提供する。モデルの一般的信頼は、多数のそのような個々の予測の試験に基づく。入力画像において画素を識別する方法のクラスもあり、画素は、予測-例えば、感度分析及びLRP(layer-wise relevance propagation)のために重要である。
【0071】
事後方法は、CNNモデルを表すセマンティックなグラフを学習する方法を含む。これらの方法は、各畳み込みフィルタをグラフ内でノードにすることによって、解釈可能なCNNを生成し、次に、各ノードに物体の部位を表現させる。関連方法は、CNNからActiveQA(active question-answering)機構を通じて新たな解釈可能なモデルを学習する。テキストによる予測の説明を生成する方法もある。例えば、そのような方法は、「これは、コアホウドリである、なぜならこのトリが大きな翼開長、かぎ形の黄色いくちばし、及び白い腹面を有するためである」と言い得る。これらの方法は、テキストによる予測の説明を生成するように、CNNモデルの上部に積層LSTMを使用する。
【0072】
別の手法は、テキスト行揃えを提供する際に顕著な領域を局所化するアテンションマスクを使用して、視覚情報及びテキスト情報を一緒に生成することである。そのような手法は、そのようなモデルを訓練する視覚的質問応答データセットを使用する。キャプションにより導かれる視覚的顕著性マップ方法も提案されており、方法は、画素とキャプションの単語との間の関係を学習するLSTMベースのエンコーダ-デコーダを使用して、予測されるキャプションのための空間-時間ヒートマップを生成する。1つのモデルは、深層ネットワークからいくつかの高レベルの概念を生成することによって、説明を提供し、別個の説明ネットワークを深層ネットワーク内の特定の層(どの層であってもよい)に付加し、ネットワークをいくつかの概念に低減する。これらの概念(特徴)は、最初、人間が理解可能ではないかもしれないが、領域専門家は、解釈可能な説明をこれらの特徴に付加し得る。研究により、物体検出器は、シーン分類を実施するCNNの訓練から出現していることが発見されており、したがって、物体検出器は、物体の概念を明示的に教示されていないにもかかわらず、同じネットワークがシーン認識及び物体位置特定を実施し得ることを示している。
【0073】
きめの細かい物体認識における部位の識別
【0074】
きめの細かい物体認識のための深層学習ベースの方法について、ある調査がある。部位ベースの方法の大部分は、トリの下位カテゴリであるくちばしの色又は形状等、同様の物体の部位における微細な差の識別に焦点を当てるものである。例えば、1つの提案では、きめの細かいクラスの間で区別する部位の特別な特徴のセットを学習する。別の提案では、物体及び区別的な部位の両方を検出するため、部位ベースのRCNNを訓練する。部位ベースのRCNNは、物体及び区別的な部位の両方を位置特定するため、画像上のバウンディング・ボックスを使用する。試験中、全ての物体及び部位の提案(バウンディング・ボックス)は、スコア化され、最高スコアが選択される。部位ベースのRCNNは、位置特定した部位から抽出した特徴に基づくポーズ正規化カテゴリ化のために、別個の分類器を訓練する。1つの部位積層CNN手法は、複数の物体の部位を位置特定する1つのCNN、並びに物体レベルの手がかり及び部位レベルの手がかりの両方を符号化する2ストリーム分類ネットワークを使用する。これらは、キーポイントとして各物体の部位の中心にアノテーションを付け、これらのキーポイントでローカリゼーション・ネットワークと呼ばれる完全畳み込みネットワークを訓練し、物体の部位を位置特定する。次に、これらの部位の場所は、最終分類ネットワークに送られる。1つの提案における深層LACは、単一深層ネットワークにおける部位のローカリゼーション、アライメント及び分類を含む。これらは、部位を認識するローカリゼーション・ネットワークを訓練し、試験画像の部位のためのバウンディング・ボックスを生成する。
【0075】
本発明の実施形態は、物体又は部位を局所化するバウンディング・ボックス又はキーポイントを使用しない。実際、本発明の実施形態は、本発明の実施形態が訓練するモデルのいずれにも場所情報を一切提供しない。本発明の実施形態は、次の項で説明するように、別個の画像としてではあるが、部位の画像を示す。本発明の実施形態は、物体の部位(又は部位-下位部位)構成リストも提供するが、場所情報は提供しない。更に、本発明の実施形態は、概して、区別的な部位だけでなく、物体の全ての部位を識別する。物体の全ての部位の識別により、敵対的な攻撃に対して更なる保護をもたらす。
【0076】
部位ベースのRCNNと共通するのは、本発明の実施形態が、部位を、第2のMLPモデルにおける別個の物体カテゴリとして識別することである。
【0077】
アルゴリズムの概要
【0078】
本発明の実施形態の一般的な概要、及びそのような実施形態をアルゴリズムによりどのように実装し得るかを、提供する。本発明の実施形態による手法を、2つの問題:(1)4つの別個のクラス-車、オートバイ、ネコ及びトリの画像を分類する問題(容易な問題)、並びに(2)2つのきめの細かいクラス-ハスキー犬及びオオカミの画像を分類する問題(より困難な問題)を使用して示す。
【0079】
図2は、4つの別個のクラスの画像を分類する本発明の実施形態による手法200を示す。
【0080】
特に、上から、列1はネコの画像205を示し、列2はトリの画像206を示し、列3は車の画像207を示し、列4はオートバイの画像208を示す。
【0081】
図3は、2つのきめの細かいクラスの画像を分類する本発明の実施形態による手法300を示す。
【0082】
特に、上から、列1はハスキー犬の画像305を示し、列2はオオカミの画像306を示す。
【0083】
図2及び図3に示すように、図2に示される第1の問題のサンプル画像、及び図3に示される第2の問題のサンプル画像がある。
【0084】
物体の分類のためのCNNの使用
【0085】
第1のステップにより、本発明の実施形態は、対象物体を分類するためにCNNを訓練する。ここで、本発明の実施形態は、CNNを最初から訓練するか、又は転移学習を使用し得る。実験において、本発明の実施形態は、ResNet、Xception及びVGGモデル等、ImageNetで訓練されたCNNの一部を使用する転移学習を使用した。転移学習の場合、本発明の実施形態は、ImageNetで訓練されたCNNの畳み込み層の重みを凍結し、次に、1つの平坦化全結合層(FC)層を追加し、その後、ただ1つのFC層を伴ってではあるが、図4の出力層のような出力層を追加する。次に、本発明の実施形態は、新たな分類タスクのため、全結合層の重みを訓練する。
【0086】
図4は、本発明の実施形態による、追加したCNNの全結合層の重みの訓練のみを伴う、新たな分類タスクのための転移学習400を示す。
【0087】
詳細には、凍結特徴学習層を含むCNNネットワーク・アーキテクチャ405が示される。CNNネットワーク・アーキテクチャ405の中には、特徴学習部435及び分類部440の両方が存在する。特徴学習部435の中には、入力画像410、畳み込み+RELU415、最大値プーリング420、畳み込み+RELU425、及び最大値プーリング430が示される。分類部440の中には、CNNネットワーク・アーキテクチャ405のための処理を完成させる全結合層445が示される。
【0088】
本明細書に示すように、新たな分類タスクの場合、方法は、CNNの追加された全結合層の重みのみを訓練する。
【0089】
より詳細には、図示のアーキテクチャにおいて、CNNは、物体を分類するために最初に訓練される。ここで、CNNは、最初から訓練されるか、又は転移学習を介して訓練される。いくつかの実験において、転移学習のために、Xception及びVGGモデル等、ImageNetで訓練されたいくつかのCNNモデルが利用された。転移学習の場合、畳み込み層の重みは、概して凍結され、次に、平坦化層が追加され、次に、全結合(FC)層が追加され、最後に、ただ1つのFC層が一般に追加されることを除いて、図5に示される例等の出力層が追加される。次に、新たな分類タスクのため、全結合層の重みを訓練する。
【0090】
マルチターゲット分類問題のためのMLPの使用
【0091】
本発明の実施形態は、物体の部位を明示的に認識するためにCNNを訓練しない。本発明の実施形態は、別のモデルでCNNを訓練し、本発明の実施形態は、図5に示すように、物体及び物体の部位の両方を認識するため、多層パーセプトロン(MLP)を訓練する。例えば、物体がネコである場合、本発明の実施形態は、肢、尾、顔又は頭及び胴体のような部位の一部を認識し得る。車の場合、本発明の実施形態は、そのような部位をドア、タイヤ、ラジエータ・グリル及びルーフとして認識し得る。全ての物体の部位は、あるクラス内の物体ごとに存在しない場合がある(例えば、ルーフは大部分の車の部位であるが、一部のJeepにはルーフがない)、又は画像内で見えない場合があることに留意されたい。概して、本発明の実施形態は、物体の確認工程の一部として全ての見える部位を検証することを望む。例えば、本発明の実施形態は、ネコの見える部位の一部を検証できなければ、物体がネコであることを確認しないはずである。
【0092】
図5は、本発明の実施形態による、別個のマルチターゲットMLP500の訓練を示し、入力は、CNNの全結合層の活性化関数から到来し、MLPの出力ノードは、物体及び物体の部位の両方に対応する。
【0093】
本明細書に示すように、MLP500の処理は、CNNの全結合層の活性化関数を使用して、MLP入力505が発生する別個のマルチターゲットMLPを訓練することを含む。MLP500の出力ノード550は、物体(例えば、ネコ全体又はイヌ全体)及び物体のそれぞれの部位(例えば、ネコ又はイヌの胴体、肢、頭又は尾)の両方に対応する。より詳細には、マルチラベルMLP500の出力ノード550は、物体及び物体の部位に対応し、シンボルを発する形態で示される。このMLP(例えば、MLP入力505)への入力は、部位ではなく、物体を認識するように訓練されたCNNモデルの全結合層の活性化関数から到来する。
【0094】
いくつかの事後方法は、CNNモデルを表すセマンティックなグラフを学習する。そのような方法は、各畳み込みフィルタをグラフ内のノードにすることによって、解釈可能なCNNを生成し、次に、各ノードに物体の部位を表現させる。他の方法は、CNNからActiveQA(active question-answering)機構を通じて新たな解釈可能なモデルを学習する。例えば、いくつかのモデルは、上述のように、深層ネットワークからのいくつかの高レベルの概念を生成することによって説明を提供し、次に、別個の説明ネットワークを特定の層に付加する。
【0095】
説明する実施形態は、図5に示すように、マルチターゲット分類問題のためのMLPを設定することによって部位を認識する。MLPの出力層において、各物体クラス及び物体の部位は、別個の出力ノードを有する。したがって、部位も、それら自体が物体クラスである。このマルチターゲット・フレームワークにおいて、例えば、入力がネコ全体の画像である場合、ネコの部位(頭、肢、胴体及び尾)を含むネコの物体に対応するMLPの全ての出力ノードは、活性化するはずである。
【0096】
図6Aは、説明する実施形態による、別個のマルチラベルMLP600の訓練を示し、入力は、CNNの全結合層の活性化関数である。
【0097】
図6Aで具体的に示されるのは、中に入力画像605を有するマルチターゲットMLP600アーキテクチャは、畳み込み層及びプーリング層610をもたらし、次に、要素615に示されるように、256又は512ノードのいずれかのノード全結合(FC)層に進み、最後に、MLP入力層555及びMLP出力層560の両方を有するMLP620に進む。マルチターゲットMLP600は、別個のマルチターゲットMLPを訓練し、入力は、CNNの全結合層の活性化関数である。MLPの出力ノードは、物体及び物体の部位の両方に対応する。
【0098】
図6Aに示すように、MLPの出力ノードは、物体及び物体の部位の両方に対応する。
【0099】
図6Bは、説明する実施形態による、物体及び部位を認識する625と共に、構成及び結合性について学習する630マルチラベルCNN601の訓練を示す。
【0100】
図6Cは、説明する実施形態による、部位及び部位の結合性から、物体の構成ではなく物体及び部位645の両方を認識する単一ラベルCNN698の訓練を示す。更に示されるのは、別個のマルチラベルMLPの訓練であり、入力は、CNNの全結合層の活性化関数である。図6Cに示されるように、MLPは、部位及び部位の結合性から物体の構成を学習する。
【0101】
図6に示されるように、実験において、本発明の実施形態は、概して、サイズ512又は256のただ1つの全結合層をCNNに追加した。以下の実験結果の項は、MLPへの入力として、これら全結合(FC)層からの活性化関数の使用による結果を示す。図6は、MLPを訓練する処理の一般的な流れも示す:(1)訓練画像を訓練CNNに提示する、(2)全結合(FC)層の活性化関数を読み込む、(3)これらの活性化関数をMLPへの入力として使用する、(4)この訓練画像のために適切なマルチターゲット出力を設定する、及び(5)重み調節方法の1つを使用してMLPの重みを調節する。
【0102】
例えば、本発明の実施形態が、MLPへの入力として512ノードの全結合(FC)層の活性化関数を使用すると仮定する。訓練画像がネコの顔であり、以下の部位:目、耳及び口の識別に関心があると更に仮定する。この場合、ネコの顔、目、耳及び口に対応するMLP出力ノードのターゲット値は、1に設定される。この画像のための全体的な訓練工程は、以下のとおりである:(1)ネコの顔の画像をCNNに入力する、(2)512ノードの全結合(FC)層の活性化関数を読み込む、(3)これらの活性化関数をMLPへの入力として使用する、(4)顔、目、耳及び口のノードのためのターゲット出力を1に設定する、並びに(5)重み調節方法に従ってMLPの重みを調節する。
【0103】
図7は、説明する実施形態による、ネコの様々な部位のサンプル画像を示す。詳細には、最初の列にネコの顔705、2番目の列にネコの肢710、3番目の列にネコの胴体715、第4の列にネコの尾720が示される。
【0104】
図8は、説明する実施形態による、トリの様々な部位のサンプル画像を示す。詳細には、最初の列にトリの胴体805、2番目の列にトリの頭810、3番目の列にトリの尾815、4番目の列にトリの羽820が示される。
【0105】
図9は、説明する実施形態による、車の様々な部位のサンプル画像を示す。詳細には、最初の列に車のリア(例えば、車の後部分)905、2番目の列に車のドア910、3番目の列に車のラジエータ(例えば、グリル)915、4番目の列に車の後輪920、5番目の列に車のフロント(例えば、車の前部分)925が示される。
【0106】
図10は、説明する実施形態による、オートバイの様々な部位のサンプル画像を示す。詳細には、最初の列にオートバイの後輪1005、2番目の列にオートバイの前輪1010、3番目の列にオートバイのハンドル1015、4番目の列にオートバイのシート1020、5番目の列にオートバイのフロント(例えば、オートバイの前部分)1025、6番目の列にオートバイのリア(例えば、オートバイの後部分)1030が示される。
【0107】
したがって、図7図8図9及び図10は、本発明の実施形態が第1の問題のためにMLPの訓練で使用するネコ(頭、肢、胴体及び尾)、トリ(胴体、頭、尾及び羽)、車(車の後ろ、ドア、ラジエータ・グリル、後輪、車のフロント)並びにオートバイ(後輪、前輪、ハンドル、シート、バイクの前部、及びバイクの後部)の様々な部位の例示的サンプル画像を提供する。
【0108】
ハスキー犬及びオオカミを認識する問題である第2の問題の場合、本発明の実施形態は、更なる2つの部位-目及び耳を同様の動物であるネコの部位のリストに追加した。このため、ハスキー犬及びオオカミは、6つの部位:顔又は頭、肢、胴体、尾、目及び耳を有した。
【0109】
図11は、説明する実施形態による、ハスキー犬の目1105及びハスキー犬の耳1110のサンプル画像を示す。
【0110】
図12は、説明する実施形態による、オオカミの目1205及びオオカミの耳1210のサンプル画像を示す。
【0111】
本発明の実施形態は、対応する物体の名称をタグ付けすることによって部位にアノテーションを付けることに留意されたい。したがって、「ネコの頭」及び「イヌの頭」並びに「ハスキー犬の耳」及び「オオカミの耳」がある。概して、本発明の実施形態は、物体にわたる同様の部位の間の差をMLPに発見させる。本発明の実施形態は、Adobe Photoshopを使用して多数の部位の画像を生成した。「バイクのフロント」及び「車の後ろ」等、いくつかは、Pythonのコードを使用して全体画像から単にスライスした。本発明の実施形態は、現在、このタスクを自動化する方法を研究している。
【0112】
部位及び部位の結合性からの物体の構成の教示、並びに物体の部位の認識
【0113】
構成要素部位の存在を検証するため、本発明の実施形態は、これらの部位がどのようなものであり、これらの部位がどのように互いに結合されているかをMLPに教示する。言い換えれば、本発明の実施形態は、構成要素部位及び構成要素部位の結合性から物体の構成を教示する。この教示は、2つのレベルにある。最下レベルでは、個々の基本部位を認識するため、本発明の実施形態は、車のドア又はネコの目の画像等、これらの部位の別個の画像をMLPに単に示す。次のレベルにおいて、下位アセンブリ(例えば、ネコの顔だけ)又は物体全体(例えば、ネコ全体)を生成するために基本部位をどのように組み立てるのかを教示するため、本発明の実施形態は、下位アセンブリ及び物体全体の画像をMLPに単に示し、画像内に含まれる部位をリスト化する。アセンブリ又は下位アセンブリのための部位リスト及び対応する画像が与えられると、MLPは、物体及び下位アセンブリの構成、並びに部位の結合性を学習する。本発明の実施形態は、既に説明したように、画像のためのマルチターゲット出力の形態でこの部位リストをMLPに提供する。例えば、ネコの顔の画像の場合、注目部位が目、耳、鼻及び口である場合、本発明の実施形態は、これらの部位の出力ノードのターゲット値を1に設定し、残りを0に設定する。ネコの全体画像である場合、本発明の実施形態は、対応する出力ノードのターゲット値を1に設定し、残りを0に設定することによって、顔、肢、尾、本体、耳、鼻及び口等の全ての部位をリスト化する。したがって、マルチターゲットMLPモデル内で出力ノードのターゲット出力値を適切に設定することは、アセンブリ又は下位アセンブリの部位をリスト化する1つの方法である。当然、注目部位をリスト化するだけでよい。尾があるという検証に注目しない場合、この尾の部位をリスト化しなくてよい。しかし、部位のリストが長いほど、当該物体に対する検証はより良好になる。
【0114】
構成によって説明可能なAI
【0115】
実施形態によれば、ユーザは、説明可能なAI(XAI)モデルのアーキテクト及びビルダの両方であり、説明可能なAI(XAI)モデルは、物体の注目部位に依存し、検証が重要である。例えば、ネコ及びイヌの画像を伴う実験において(結果は第5項にある)、本発明の実施形態は、4つの特徴:胴体、顔又は頭、尾及び肢のみを使用した。ハスキー犬及びオオカミの場合(結果は第5項にある)、本発明の実施形態は、6つの特徴:胴体、顔又は頭、尾、肢、目及び耳を使用した。より多くの物体の特徴又は部位の検証により、より高い精度を得ることが可能である。
【0116】
MLPの出力層は、本質的にシンボリック・モデルの基部を含む。特定の閾値を越える出力ノードの活性化関数は、対応する部位(又は物体)の存在を示す。この活性化関数は、対応する部位のシンボル(例えば、ネコの目を表すシンボル)の値をTRUEと設定し、この部位の認識を示す。MLP出力層のシンボリック出力に基づく物体認識のため、様々なシンボリック・モデルを構築し得る。1つの極端な形態では、ある物体を認識するため、画像内の物体の全ての部位の存在に固執し得る。又は、この条件を緩和し、物体が画像内で部分的にしか見えない状況に対処する。部分的に見える物体の場合、手元の証拠に基づいて判断しなければならない。別の変形形態では、特定の部位の検証に対してより多くの強調を置き得る。例えば、物体がネコであることを予測するため、頭又は顔が見えることに固執し、物体がネコであることを検証し得る。この場合、ネコの他の部位の認識に基づく予測は、許容可能ではない場合がある。
【0117】
本発明の実施形態は、ここでは、検証された部位の計数に基づく1つのシンボリック・モデルを提示する。Pi,k,k=1...NPi,i=1...NOBは、i番目の物体クラスのk番目の部位、NPiがi番目の物体クラス内の部位の総数、NOBが物体クラスの総数を示すと仮定する。物体の部位の存在が検証された場合にPi,kk=1であり、それ以外の場合0であると仮定する。PVは、i番目の物体クラスの検証された部位の総数を示し、PV minは、i番目のクラスの物体である物体の分類に必要な部位の検証最小数を示すと仮定する。式(1)及び(2)による、物体の部位の検証(認識)数に基づくこのシンボリック・モデルの一般的な形態は以下のとおりである:
式(1)
PV≧PV minである場合、i番目の物体クラスは、認識の候補クラスであり、
式(2)
PV=Σ_(k=1) ^NPi(Pi,kは、見え、認識される)。
【0118】
予測されるクラスは、以下の式(3)による、最大PVが提供されるクラスであり、式(1)に示される条件を満たす:
式(3)
予測される物体クラスPO=argmax(PV)。
【0119】
特定の部位の検証が予測に重要である場合、式(2)はこれらの部位のみを計数する。再度、部位の計数はシンボリック・レベルであることに留意されたい。
【0120】
アルゴリズム:表記を簡略化するため、本発明の実施形態は、Pi,kが、物体の基本部位(例えば、目又は耳)、及び基本部位のアセンブリ(例えば、目、耳、鼻、口等から構成されるハスキー犬の顔)である、物体のより複雑な部位の両方を示すと仮定する。Mが、i番目のクラスの元の訓練画像のセット、及び訓練画像の合計セットMを示すと仮定する。
【0121】
したがって、Mは、図2及び図3に示される種類の物体の画像から構成される。MPi,k,k=1...NP,i=1...Cは、i番目の物体クラスのk番目の部位で利用可能な物体の部位画像のセットを示し、MPは物体の部位の画像の合計セットを示すと仮定する。したがって、MPは、図7から図12に示される種類の物体の部位の画像から構成される。本発明の実施形態は、M元の画像からこれらのMP物体の部位の画像を生成する。MT={M ∪ MP}が画像の合計セットであると仮定する。本発明の実施形態は、元のM画像を使用し、CNN及びMT画像を訓練、および試験し、MLPを訓練、および試験する。
【0122】
FCはCNNにおけるj番目の全結合(FC)層を示し、JはFC層の総数を示すと仮定する。本発明の実施形態は、現在、MLPへの入力としてFC層のうち1つの層の活性化関数を使用するが、複数のFC層も使用し得る。本発明の実施形態は、j番目のFC層を選択し、MLPへの入力を提供すると仮定する。このバージョンのアルゴリズムにおいて、本発明の実施形態は、j番目のFC層の活性化関数を復号するようにMLPを訓練し、物体の部位を発見する。
【0123】
は、マルチターゲットMLPのためのi番目の物体クラスのターゲット出力ベクトルを表すと仮定する。Tは、画像内の物体及び物体の部位の存在又は不在を示す0-1ベクトルである。例えば、部位の肢、胴体、尾、頭によって定義されるネコの場合、このベクトルはサイズ5である。また、ネコの出力ベクトルは、図5に示すように[ネコ物体,肢,頭,尾,胴体]と定義し得る。全ての部位が見えるネコ全体の画像の場合、このターゲット出力ベクトルは[1,1,1,1,1]である。ネコの尾が見えない場合、このベクトルは[1,1,1,0,1]である。本発明の実施形態は、ハスキー犬のために以下の部位:ハスキー犬_頭、ハスキー犬_尾、ハスキー犬_胴体、ハスキー犬_肢、ハスキー犬_目、ハスキー犬_耳を使用した。したがって、出力ベクトルのサイズはハスキー犬の場合は7であり、[ハスキー犬物体,ハスキー犬_頭,ハスキー犬_尾,ハスキー犬_胴体,ハスキー犬_肢,ハスキー犬_目,ハスキー犬_耳]と定義し得る。ハスキー犬の頭の画像の場合、このベクトルは[0,1,0,0,0,1,1]である。本発明の実施形態は、見える部位のみをリスト化することに留意されたい。また、見える部位はハスキー犬の頭のみであるので、本発明の実施形態は、第1の位置におけるハスキー犬の物体ターゲット値を0に設定する。概して、Tベクトルは、第1の位置における物体であり、部位のリストはその後に続く。図5に示すように、これらの物体クラス出力ベクトルTは結合し、MLPのためのマルチターゲット出力ベクトルを生成する。図5のネコ及びイヌの問題の場合、マルチターゲット出力ベクトルはサイズ10である。ネコ全体の画像の場合、[1,1,1,1,1,0,0,0,0,0]となるる。例えば全体的に、イヌ全体の画像の場合、[0,0,0,0,0,1,1,1,1,1]となる。
【0124】
IMは、M物体画像及びMP部位画像から構成される合計画像セットMTにおけるk番目の画像であると仮定する。TRは、k番目の画像のための対応するマルチターゲット出力ベクトルであると仮定する。
【0125】
元のM画像及びMP部位画像の両方でMLPを訓練するため、各画像IMは、まず、訓練CNNに入力され、指定されたj番目のFC層の活性化関数が記録される。次に、j番目のFc層の活性化関数は、MLPへの入力になり、TRは、対応するマルチターゲット出力変数である。
【0126】
アルゴリズムの一般的な形態は、以下のとおりである。
【0127】
ステップ1:
【0128】
C物体クラスのM画像を使用して、全結合層(FC)層セットを有する畳み込みニューラル・ネットワーク(CNN)を訓練、および試験する。ここで、CNNを最初から訓練するか、又はFC層を追加する転移学習を使用し得る。
【0129】
ステップ2:
【0130】
MT画像の下位セットを使用してマルチターゲットMLPを訓練する。各訓練画像IMに対して、
訓練CNNに画像IMkを入力し、
指定されたj番目のFC層における活性化関数を記録し、
j番目のFC層の活性化関数をMLPに入力し、
画像IMのためのマルチターゲット出力ベクトルとしてTRを設定し、
適切な重み調節方法を使用してMLPの重みを調節する。
【0131】
実験機構及び結果:
【0132】
実験機構:本発明の実施形態は、以下のクラスの物体:(1)車、オートバイ、ネコ及びトリ、(2)ハスキー犬及びオオカミ、並びに(3)ネコ及びイヌからの画像を伴う3つの問題について、XAIに対する本発明の手法の実施形態を試験した。第1の問題は、4つの別個のクラスからの画像を有し、ややより容易な側にある。他の2つの問題は、きめの細かい画像分類問題といくぶん同様であり、より近い物体を有する。表1は、CNN及びMLPの訓練、および試験に使用される画像数を示す。本発明の実施形態は、CNN及びMLPの両方を訓練するため、いくつかの強化画像を使用した。本発明の実施形態は、物体の部位の画像のみを使用してマルチターゲット(マルチラベル)MLPを訓練、および試験した。
【0133】
図13は、説明する実施形態による表1を示し、要素1300において、どちらがCNN+MLPアーキテクチャ内にあるものを学習するかを示す。マルチラベルMLPは、構成、及び物体と部位との間の結合性を学習する。
【0134】
図14は、表2を示し、要素1400において、CNN及びMLPの訓練、および試験に使用される(元の画像に強化画像を足した)画像数を示す。本発明の実施形態は、物体の部位の画像のみを使用してマルチターゲットMLPを訓練、および試験した。
【0135】
本発明の実施形態は、ImageNetで訓練されたCNNによる転移学習、及び別個のMLPモデルの構築のためにKerasソフトウェア・ライブラリを使用し、モデルを構築、実行するためにGoogle Colabを使用した。
【0136】
転移学習の場合、本発明の実施形態は、ResNet、Xception及びVGGモデルを使用した。転移学習の場合、上記図4に示すように、本発明の実施形態は、畳み込み層の重みを凍結し、次に、平坦化層の後に全結合層を追加し、その後、出力層を追加した。次に、本発明の実施形態は、新たな分類タスクのため、全結合層の重みを訓練した。
【0137】
本発明の実施形態は、ドロップアウト及びバッチ正規化と共に、平坦化層と出力層との間に512又は256のいずれかのサイズの全結合(FC)層を1つだけ追加した。出力層は、FC層のReLu活性化関数と共にソフトマックス活性化関数を有した。本発明の実施形態は、2つの異なる全結合(FC)層(512及び256)を伴う手法を試験し、物体の部位の符号化が、異なるサイズのFC層内に存在し、部位ベースのMLPがこれらを適切に復号し得ることを示した。本発明の実施形態は、「カテゴリ交差エントロピー」を損失関数とするRMSpropオプティマイザを使用して250エポックでCNNを訓練した。本発明の実施形態は、別個の試験セットも生成し、検証セットとしてこの試験セットを使用した。本発明の実施形態は、CNN及びMLPの両方の試験で合計データセットの20%を使用した。
【0138】
MLPには隠れ層がなかった。MLPには、マルチラベル(マルチターゲット)出力層に直接結合される入力があった。MLP訓練の場合、物体の部位の画像を含むあらゆる画像は、最初に、訓練CNNに通され、512又は256FC層の出力が記録された。次に、この記録された512又は256FC層の出力は、MLPへの入力になった。本発明の実施形態は、MLP出力層のためのシグモイド活性化関数を使用した。本発明の実施形態は、これがマルチラベル分類問題であるため、「二値交差エントロピー」を損失関数とする「adam」オプティマイザを使用して、250エポックでMLPも訓練した。
【0139】
本発明の実施形態は、MLPにより物体を分類するため、式(2)のわずかな変形を使用した。本発明の実施形態は、各物体クラスのノード及び物体の部位の対応するノードのシグモイド活性化関数を単純に合計し、次に、全ての物体クラスの合計した出力を比較し、画像を分類した。最高の合計活性化関数を有する物体クラスが、予測される物体クラスになる。この変形において、本発明の実施形態は、Pi,k=0から1の間のシグモイド活性化関数値であり、Pi,k,k=1...NP,i=1...NOBは、i番目の物体クラスのk番目の部位を示し、NPはi番目の物体クラスにおける部位の総数を示し、NOBは物体クラスの総数を示すと仮定する。ここで、本発明の実施形態は、以下の式(4)及び式(5)により、シグモイド出力値がその物体の部位の存在の確率を表すという解釈を使用する。
【0140】
式(4):
PV=Σ_(k=1) ^NPi(Pi,k=対応する出力ノードのシグモイド出力値)
【0141】
式(5):
予測される物体クラスPO=argmax(PV)。POは予測される物体クラスである。
【0142】
物体の部位の命名についての実験結果:本発明の実施形態は、ここで、発明者等のXAIに対する手法を試験するために解決される、本発明の3つの問題の実施形態に対する結果を提示している。本発明の実施形態は、同様の物体の部位(例えば、ネコ及びイヌの肢)を異なる名称で命名し、MLPが、物体の部位を違うものにする区別的な特徴を発見しようとするようにした。例えば、本発明の実施形態は、ハスキー犬の部位を「ハスキー犬の肢」、「ハスキー犬の胴体」、「ハスキー犬の頭」、「ハスキー犬の目」等と命名した。同様に、本発明の実施形態は、オオカミの部位を「オオカミの肢」、「オオカミの胴体」、「オオカミの頭」、「オオカミの目」等と命名した。おそらく、ハスキー犬は彼らの飼い主によって十分に手入れされているので、ハスキー犬の部位は、オオカミの部位とは異なって見えるはずである。
【0143】
本発明の実施形態は、3つの問題のために以下の物体の部位名を使用した。
【0144】
a)物体クラス-車、オートバイ、ネコ及びトリ:
【0145】
車の部位名-後ろ_車、ドア_車、ラジエータ_グリル_車、ルーフ_車、タイヤ_車、フロント_車;
【0146】
ネコの部位名-ネコ_頭、ネコ_尾、ネコ_胴体、ネコ_肢;
【0147】
トリの部位名-トリ_頭、トリ_尾、トリ_胴体、トリ_羽;及び
【0148】
オートバイの部位名-フロント_バイク、後ろ_バイク、シート_バイク、後輪_バイク、前輪_バイク、ハンドル_バイク。
【0149】
b)物体クラス-ネコ、イヌ
【0150】
ネコの部位名-ネコ_頭、ネコ_尾、ネコ_胴体、ネコ_肢、及び
【0151】
イヌの部位名-イヌ_頭、イヌ_尾、イヌ_胴体、イヌ_肢。
【0152】
c)物体クラス-ハスキー犬、オオカミ
【0153】
ハスキー犬の部位名-ハスキー犬_頭、ハスキー犬_尾、ハスキー犬_胴体、ハスキー犬_肢、ハスキー犬_目、ハスキー犬_耳;及び
【0154】
オオカミの部位名-オオカミ_頭、オオカミ_尾、オオカミ_胴体、オオカミ_肢、オオカミ_目、オオカミ_耳。
【0155】
XAI-MLPモデルを使用した分類結果
【0156】
図15は、説明する実施形態による、要素1500における表3を示し、「車、オートバイ、ネコ、トリ」分類問題の結果を示す。
【0157】
図16は、説明する実施形態による、要素1600における表4を示し、「ネコ対イヌ」分類問題の結果を示す。
【0158】
図17は、説明する実施形態による、要素1700における表5を示し、「ハスキー犬及びオオカミ」分類問題の結果を示す。
【0159】
図18は、説明する実施形態による、要素1800における表6を示し、CNN及びXAI-MLPモデルの最良の予測精度を比較する結果を示す。
【0160】
表2、表3及び表4のそれぞれは分類結果を示す。これらの表において、欄A及びBは、2つの異なるFC層を伴う、ResNet50、VGG19及びXceptionモデルの訓練、および試験精度を有し、2つの異なるFC層の一方は512ノードであり、他方は256ノードである。それぞれ、FC-512層を伴う一方のモデル、及びFC-256層を伴う他方のモデルは、別個のモデルであり、本発明の実施形態は、これらを別個に訓練、および試験した。したがって、精度は異なる場合がある。欄C及びDは、対応するXAI-MLPモデルの訓練、および試験精度を示す。本発明の実施形態がFC-256層を伴うCNNモデルを訓練する際、XAI-MLPモデルは、FC-256層の出力をMLPへの入力として使用することに留意されたい。また、本発明の実施形態は、マルチラベル(マルチターゲット)分類問題としてXAI-MLPを設定し、出力ノードは、物体及び物体の部位の両方に対応する。したがって、ネコ全体の画像の場合、本発明の実施形態は、「ネコ」物体出力ノード及び対応する部位出力ノード(ネコ_頭、ネコ_尾、ネコ_胴体、及びネコ_頭)のためのターゲット値を1に設定する。ハスキー犬の頭の画像の場合、本発明の実施形態は、部位出力ノード「ハスキー犬_頭」、「ハスキー犬_目」及び「ハスキー犬_耳」のためのターゲット値を1に設定する。これは、本発明の実施形態が、XAI-MLPの構成、並びに物体及び物体の部位の結合性を本質的にどのように教示するかについてである。本発明の実施形態は、部位のための場所情報を一切提供しない。
【0161】
表内の欄Eは、XAI-MLPとCNNモデルとの間の試験精度の差を示す。たいていの場合、XAI-MLPモデルは、より高い精度を有する。予測精度と説明可能性との間には固有のトレードオフがある。本発明の実施形態は、この問題に対する決定的な言明を行うのにより多くの実験を実施する必要があるが、これらの限られた実験から、本発明の実施形態が、部位ベースの説明可能モデルによる予測精度の増大を得られたように見える。表5は、CNNモデルの最良の試験精度をXAI-MLPモデルの最良の試験精度と比較している。2つのきめの細かい問題(ネコ対イヌ、ハスキー犬対オオカミ)に対し、XAI-MLPモデルは、予測精度に著しい増大をもたらしている。
【0162】
図19は、説明する実施形態による、数字「5」及びオオカミ画像を示し、数字「5」は、様々なイプシロン値で高速勾配法によって改変されており、オオカミ画像も、様々なイプシロン値で高速勾配法によって改変されている。
【0163】
敵対的な攻撃に対する説明可能なAIのロバストネス
【0164】
高速勾配法を使用して、説明可能なAIモデルを敵対的な攻撃に対して試験した。詳細には、説明可能なAIモデルを2つの問題:(1)MNISTデータセットを使用して手書きの数字を区別する問題、及び(2)既に述べた実験からのデータセットを使用してハスキー犬をオオカミから区別する問題について試験した。
【0165】
敵対的画像の生成について-これらの試験において、人間が容易に検出できない最小の敵対的な攻撃(例えば、1画素の攻撃)に焦点を当てた。言い換えれば、改変された画像は、モデルに何か誤った予測をさせることがあるが、人間には元の画像との差が全くわからない。イプシロンは、敵対的な攻撃の強度を決定する、高速勾配アルゴリズム内のハイパーパラメータである。より高いイプシロン値は、画素をより多大に不明瞭にし、人間の認識が及ばないことが多い。
【0166】
低い視覚的な劣化を保証するために、様々なイプシロン値を実験し、基本CNNモデルの精度に影響を与えるが、依然として人間には依然としてほぼ同じように見える値を決定した。MNISTに対する最小イプシロン値は、基本CNNモデルの精度に影響を与えるのに約0.01であることが発見された。
【0167】
したがって、最小から開始して、基本CNNモデル及びXAI-CNNモデルの両方に対して以下のイプシロン値:0.01、0.02、0.03、0.04及び0.05を試験した。
【0168】
ハスキー犬及びオオカミの問題の場合、最小イプシロン値は0.0005であった。したがって、以下のイプシロン値:0.0005、0.0010、0.0015及び0.0020を試みた。
【0169】
精度の低減を簡単に示すため、ハスキー犬及びオオカミでは4つであるのと比較して、MNISTでは5つの異なるイプシロン値を使用した。MNISTでは、より高いイプシロン値は0.05であった。
【0170】
2つの問題についてのイプシロン値の差は、画像の背景の差によるものであることに留意されたい。MNIST画像は、簡素な背景を有する一方で、ハスキー犬及びオオカミの画像は、森林、公園等の自然環境又は寝室内に出現する。したがって、MNIST画像は、誤った分類を生成するように、より多くの摂動を必要とする。
【0171】
MNIST並びにハスキー犬及びオオカミのデータセットからのサンプル画像は、様々なイプシロン値で示される。大まかな試験は画像間の差を明らかにしていないことに注目されたい。
【0172】
MNIST-手書き数字の認識:
【0173】
データ-約60,000枚の画像のMNISTデータセットから、6,000枚の画像の下位セットを数字ごとにサンプル化した。次に、これらを訓練、および試験のために半分に分割した。数字の部位の場合、上半分及び下半分を切り、次に、左半分及び右半分を切り、次に、サンプルのそれぞれを斜めに切った。これにより、数字の画像ごとに6つの部位の画像が得られた。これにより、各数字クラス(例えば、5)に対して部位の種類(例えば、上半分)ごとに6,000枚の画像を生成し、数字の種類ごとに合計42,000枚[=(6つの部位+1つの全体画像)×6000]の画像を生成した。部位を含めて、XAIモデル内の10個の数字に対して70の画像クラスがあった。
【0174】
図20は、説明する実施形態による、MNISTのためのカスタム畳み込みニューラル・ネットワーク・アーキテクチャを利用する例示的基本CNNモデルを示す。
【0175】
図21は、説明する実施形態による、MNIST説明可能なAIモデルのためのカスタム畳み込みニューラル・ネットワーク・アーキテクチャを利用する例示的基本XAI-CNNモデルを示す。特に、所与の数字に対して表現される予測は、7つの部位に分割される。詳細には、下斜め、下半分、完全な数字、左半分、右半分、上斜め、及び最後に上半分。この予測は、数字ごとに実施され、最終的に、当該数字(例では示される数字「9」)の最終部位である上半分で終了する。
【0176】
図22は、説明する実施形態による、要素2200における表7を示し、10回の異なる実行にわたる、様々なイプシロン値によって生成された敵対的画像のためのMNIST基本CNNモデルの平均試験精度を示す。
【0177】
図23は、説明する実施形態による、要素2300における表8を示し、10回の異なる実行にわたる、様々なイプシロン値によって生成された敵対的画像のためのXAI-CNNモデルの平均試験精度を示す。
【0178】
図24は、説明する実施形態による、要素2400における表9を示し、10回の異なる実行にわたる、様々なイプシロン値によって生成された敵対的画像のためのハスキー犬及びオオカミの基本CNNモデルの平均試験精度を示す。
【0179】
図25は、説明する実施形態による、要素2500における表10を示し、10回の異なる実行にわたる、様々なイプシロン値によって生成された敵対的画像のためのハスキー犬及びオオカミのXAI-CNNモデルの平均試験精度を示す。
【0180】
モデル・アーキテクチャ及び結果-敵対的な試験に関し、図6Aのアーキテクチャを説明可能なモデルのために利用した。このモデルは、マルチラベルCNNモデルを使用し、更なるMLPを伴わない。図6Bに示すモデルは、MNISTのための基本モデルとして使用される、カスタムに構築した単一ラベルCNNモデルを示す。この基本モデルを全体画像で訓練したが、部位画像のいずれでも訓練しなかった。モデルは、10個の数字のためのソフトマックス活性化関数を有する10ノードを有する。基本CNNモデルを示す図20で示すように、説明可能なXAI-CNNモデルの結果を比較した。具体的には、マルチラベルXAI-CNNモデルを数字の全体画像及び部位画像の両方で訓練したものである。
【0181】
試験のため、カテゴリ交差エントロピー損失関数及びadamオプティマイザを使用して、毎回30エポックで基本CNNモデルを10回訓練した。基本CNNモデルを、異なるイプシロン値で生成した敵対的な画像で試験した。図22に示される表7は、異なるイプロシン値の10回の異なる実行にわたる、敵対的な画像に対する平均試験精度を示す。
【0182】
図21に示される説明可能なAIモデル(XAI-CNN)は、図21の基本モデルと同じネットワーク構成を有し、重要な差は、(1)出力層におけるノード数は、ここでは、10だけではなく、70である、(2)出力層の活性化関数(ここではシグモイドを利用する)、及び(3)損失関数が二値交差エントロピーである。他の主な差は、XAI-CNNモデルが、70出力ノードを有するマルチラベル・モデルであり、数字ごとに7出力ノードがあり、これら7ノードのうち6ノードは数字の異なる部位に属することである。
【0183】
様々なイプシロン値を有するXAI-CNNモデルを使用して生成した敵対的な画像でモデルを試験した。図23に示される表8は、異なるイプロシン値の10回の異なる実行にわたる、XAI-CNNモデルに対する平均試験精度を示す。
【0184】
データ-ハスキー犬及びオオカミについて、既に説明した実験の場合と同じデータセットを再度使用した。
【0185】
モデル・アーキテクチャ及び結果-通常通り、敵対的な試験に対し、図6Aのアーキテクチャを説明可能なモデルのために使用した。しかし、MNISTとは異なり、この場合、転移学習のためのXceptionモデルを利用した。転移学習の場合、処理は、畳み込み層の重みを凍結し、次に、平坦化層を追加し、次に、全結合(FC)層を追加し、次に、出力層を追加することである。次に、全結合層の重みを新たな分類タスクのために訓練した。
【0186】
基本CNNモデルは、常に単一ラベル分類モデルである。追加した層を加えたXceptionモデルから構成される基本CNNモデルを、ハスキー犬及びオオカミの全体画像で訓練した。モデルは、2ノードがソフトマックス活性化関数を有する出力層を有した。
【0187】
図6Aの説明可能なAIモデル(XAI-CNN)、即ち、マルチラベル・モデルの場合、シグモイド活性化関数を有する14出力ノードがあった。次に、マルチラベル・モデルは、ハスキー犬及びオオカミの全体画像及び部位画像の両方で訓練した。使用した損失関数及びオプティマイザは、MNISTの場合と同じであった。基本CNNモデル及びXAI-CNNモデルの両方は、50エポックで10回訓練した。様々なイプシロン値を有するそれぞれのモデルを使用して生成された敵対的な画像でモデルを試験した。図24に示される表9は、異なるイプロシン値の10回の異なる実行にわたる、敵対的な画像に対する基本CNNモデルの平均試験精度を示す。図25に示される表10は、XAI-CNNモデルの場合と同じものを示す。
【0188】
敵対的な攻撃の結果-表7及び表8(図22及び図23を参照)は、歪みのない場合(イプシロン=0)、MNIST画像に対して基本CNNモデル及びXAI-CNNモデルの両方が約98%の精度を有することを示す。しかし、基本CNNの場合、平均精度は、イプシロン0.05では85.89%に低下する。対照的に、XAI-CNNモデルの精度は、イプシロン0.05では97.97%から97.71%に低下する。基本CNNモデルの精度の低下は12.5%である一方で、XAI-CNNモデルの精度の低下はわずか0.26%である。
【0189】
表9及び表10(図24及び図25を参照)は、ハスキー犬及びオオカミのデータセットに関する平均精度を示す。表9は、基本CNNモデルの平均精度が、イプシロン0.002では45.52%に低下し、イプシロン0では88.01%に低下することを示す。表10は、XAI-CNNモデルの平均精度が、イプシロン0.002では83.35%に低下し、イプシロン0では85.08%に低下することを示す。したがって、基本CNNモデルの精度は、たった1.73%のXAI-CNNモデルの低下と比較して、45.52%低下している。
【0190】
全体として、これらの結果は、通常のCNNモデルと比較して、DARPA式の説明可能なモデルが低レベルの敵対的な攻撃による影響を比較的受けないことを示す。この理由は、主に、マルチラベル・モデルが物体の部位を確認しており、容易にだませないためである。
【0191】
説明可能性の評価
【0192】
本明細書で説明する物体-部位説明可能性フレームワークは建設的であり、ユーザによって定義されるので、説明の妥当性を評定するのはユーザの責任である。極端な例において、ユーザは、最小数の部位を使用して説明を定義し、これにより、システムの性能が矛盾しない状態で、説明を単純に保ち得る。例えば、画像がネコの画像であることを予測するには、顔がネコの画像であることを検証すれば十分である。他の極端な状態では、ユーザは、何らかの冗長性を中に組み込んだ状態で、多数の部位による説明を定義し得る。例えば、画像がネコの画像であることを予測するには、ユーザは、多数の細部-耳、目及び尾からほおひげ、爪及び顔までの検証を望み得る。医療及び国防等の重大な用途では、必要で十分な説明のため、チームがどの部位を検証すべきかを定義すると仮定することが妥当であろう。要約すると、説明の評価の責任はユーザ側にあり、ユーザは、説明がシステムの予測と一貫していることを検証しなければならない。この部位ベースのフレームワークは、特定の実装形態の要件、及びユーザが指定する必要な目的又は要望に従って説明を構築する自由をもたらす。
【0193】
結論:
【0194】
本発明の実施形態は、画像における物体の部位の識別、及び画像内のこの物体の種類の特定の部位の存在の検証後にのみの物体の種類(クラス)の予測に関する、説明可能なAIに対する手法を本明細書で提示した。シンボリックXAIモデルの元のDARPA構想は、この部位ベースのモデルであった。本明細書で説明する実施形態では、ユーザは、自身が、物体の予測のために検証を望む物体の部位を定義しなければならないという意味において、XAIモデルを定義(設計)する。
【0195】
本発明の実施形態は、CNNモデルの復号によってXAIシンボリック・モデルを構築する。シンボリック・モデルを生成するため、本発明の実施形態は、ブラック・ボックスのままであるCNN及びMLPモデルを使用する。本明細書で提示する研究において、本発明の実施形態は、CNNの全結合層からの部位の復号を理解するためにCNN及びMLPモデルを別々のままにした。しかし、2つのモデルを単一モデルに統合し得る。
【0196】
本発明の実施形態は、この研究において、単にマルチラベル(マルチターゲット)分類モデルを使用することによって、及び個々の物体の部位を示すことによって、部位から物体の構成を容易に教示し得ることを実証した。マルチラベル分類モデルの使用により、本発明の実施形態は、部位の厳密な場所を示すことを回避する。本発明の実施形態は、学習システムに、部位の間の結合性及び部位の相対的な場所を理解させる。
【0197】
物体の部位の生成及びアノテーション付けは、現在、冗長な手動工程である。本発明の実施形態は、本発明の実施形態がシステムに小さなアノテーション付き訓練セットを与えた後に本発明の実施形態が様々な画像から多数のアノテーション付き部位を抽出し得るように、現在、この工程を自動化する方法を探している。本発明の実施形態がそのような方法を開発すれば、本発明の実施形態は、本発明者等の手法の何らかの大規模試験を実施可能であるはずである。この文書において、本発明の実施形態は、基本的な発想を導入し、いくつかの限られた実験で本発明の実施形態が稼働し、シンボリックXAIモデルを生成し得ることを実証することを希望しただけである。
【0198】
これまでの実験から、部位検証ベースの予測モデルが、予測精度を増大させる可能性があると思われるが、より多くの実験がこの主張を確認するために必要である。人間が物体の部位から物体を識別することを仮定すれば、この推測は道理にかなっている。
【0199】
部位ベースの物体検証は、敵対的な攻撃から保護し得ることも可能であるが、この推測も実験的な検証を必要とする。本発明の実施形態がこの推測を検証できれば、敵対的な学習は不要になり得る。
【0200】
全体として、部位ベースのシンボリックXAIモデルは、本発明者等の画像認識用CNNモデルに透明性をもたらすのみならず、予測精度及び敵対的な攻撃に対する保護を増大させる可能性も有し得る。
【0201】
技術的問題への解決策:
【0202】
新たなAI技術の状況において、UAV(無人航空機)画像及び映像並びにCCTV(閉回路テレビ)画像及び映像のためのプロセッシング・ソリューションを開発するニーズがあり、このニーズは、最新技術及び現在利用可能な技術によってでさえ依然として満たされていない。
【0203】
深層学習は、映像処理のための最も最近の技術である。しかし、深層学習モデルは、これらに透明性がないために理解が困難である。したがって、誤った判断が法的責任をもたらし得るかなり危険な状況で深層学習モデルを展開することに対して、懸念が大きくなっている。例えば、医療等の分野は、放射線学において、誤った判断又は欠陥のある診断の際に人命への明らかな危険性があるために、画像の読取り及び解釈を自動化する深層学習モデル及び技術の使用の展開を躊躇している。同じ種類の危険性は、CCTV及びUAVのための深層学習による映像処理の自動化にも存在し、ブラック・ボックス(例えば、非透明)モデルによる誤った判断は、好ましくない結果をもたらす可能性がある。
【0204】
深層学習モデルは高い精度を有するので、これらを説明可能で透明にするための進行中の研究がある。DARPAは、重大なDoD用途では甚大な結果をもたらし、ブラック・ボックス・モデルを使用できないため、説明可能なAIプログラムを開始した。NSFも説明可能性の研究にかなりの資金を充当している。
【0205】
現在、コンピュータ・ビジョンはいくつかの説明可能な方法を有する。しかし、LIME、SHAP及びGrad-CAM等の優勢な技術はそれぞれ、視覚化に依存しており、このことは、各場合において画像を見る人間が必要であることを意味する。したがって、こうした公知の先行技術を使用して、そのような方法を使用する「人間が介入せずに」自動化映像処理を可能にするシステムを簡単に生成することは、可能ではない。したがって、革新的な解決策が、現在の制限を克服するために緊急に必要とされている。
【0206】
新たなAI技術が必要である:
【0207】
深層学習モデルからのシンボリック・モデルの生成は、透明モデルを生成するための著しい革新である。
【0208】
シンボリック・モデル:DARPAによる部位ベースの説明という発想は、シンボリック・モデルのための良好なフレームワークをもたらしている。例えば、DARPAのフレームワークを使用して、ネコを認識する論理規則は以下のとおりとし得る:
【0209】
IF the Fur is of a Cat AND the Whiskers are of a Cat AND the Claws are of a Cat THEN it is a Cat(毛がネコのものであり、ほおひげがネコのものであり、爪がネコのものである場合、それはネコである)。
【0210】
ここで、ネコ、毛、ほおひげ及び爪は、これらに対応する同名のシンボルによって表される抽象概念であり、修正された深層学習モデルは、これらのシンボルに対するTRUE/FALSE値を出力し、画像内にこれらの部位が存在するか又は不在であるかを示し得る。上記論理規則は、コンピュータ・プログラムによって容易に処理されるシンボリック・モデルであり、視覚化を必要とせず、ヒューマン・イン・ザ・ループを必要としない。特定のシーンでは、シーン内に複数の物体があり得る。防犯カメラからの例示的な映像(例えば、熊がプールのそばで寝ているグリーンフィールドの男性を起こす(a bear wakes up Greenfield man sleeping by pool )、YouTube)では、熊は、裏庭で観察され、男性はプールのそばで寝ているのが観察されている。インテリジェント・セキュリティ・システムは、未知の動物が近くにいることを瞬時に通知するであろう。説明可能なシンボリック・モデルは、セキュリティ・システムのために以下の情報を生成するであろう。
【0211】
1.未知の動物(true)、顔(true)、胴体(true)、肢(true);
【0212】
2.人(true)、脚(true)、足(true)、顔(false)、腕(false);
【0213】
3.家のスイミング・プール(true)、寝いす(true)・・・
【0214】
これは、本明細書で説明する新たな説明可能なシンボリック・システムの種類である。やはり、開示する方法は、視覚化に一切依存しないため、ヒューマン・イン・ザ・ループを一切必要としない。更に、この種類の透明モデルは、システム内で信頼及び信用を増大させ、深層学習モデルのより広範な展開へ門戸を開くはずである。
【0215】
得られるモデルは、部位検証のために、敵対的な攻撃に対して保護ももたらす。-したがって、スクール・バスは、数画素の変更のためにダチョウになることはない。
【0216】
確実性及び信頼のために説明可能なAIモデルを伴う大規模な自動化映像処理
【0217】
上記に加えて、映像処理分野について精通している人は、非拡張性の問題を容易に認識するであろう。非拡張性の問題は、近年、取り込まれて処理を必要とするデータ量が増大し、それと共に防犯カメラが増大するにつれて、悪化しているだけである。
【0218】
ドローン及びUAVからCCTVまで、監視システムの映像処理は、かなり労働集約的である。しばしば、映像は、人手不足のため、後の調査のために単に保存される。他の場合には、映像は、リアルタイム処理を必要とする。しかし、結局、両方の場合とも、人間が、取り込んだデータを観察し、処理することを必要とする。将来、映像処理は、量の増大のために、完全に自動化されなければならない。このことは、人件費を削減し、人手の制限された状況を助けるであろう。UAV及びCCTVから生成される映像量が急速に増大しているので、労働集約的な映像処理は、対処すべき重大な問題である。
【0219】
未来のセキュリティ・システムについて話す以下の引用文を考慮されたい:「将来、AI解析を入口で実行するパン-チルト-ズーム・カメラは、人がもっている武器を識別し、ズームインし、近くで見て、アクセス制御システムにドアのロックを指示して入場を阻止するであろう。同時に、パン-チルト-ズーム・カメラは、警報を警備チーム、居住者又は当局にこの情報を送信するであろう、また、この人物を発見、攻撃するためにドローンを自律的に配備さえし得る。言い換えれば、このシステムは、人間の介入なしに有害な事件の可能性を防止する。
【0220】
「人間の介入」を飛び越すため、そのようなシステムは、高度に信頼、信用できなければならない。深層学習は、今や、映像処理のための卓越した技術である。しかし、深層学習モデルの判断論理は、理解が困難であるため、NSF、国防総省及びDARPAは皆、従来の深層学習及び非透明AIの問題を克服する1つの手法として、「説明可能なAI」を探し求めている。
【0221】
したがって、説明する実施形態によれば、述べられたDARPAの目的を満たす「部位ベースの説明可能なシステム」が提供される。試験は、方法が、ネコ及びイヌの認識等の例示的な問題について成功していることを示しており、CCTV及びUAVからのシーン等、ますます複雑になっているシーンでの稼働に拡張される予定である。多数の様々な物体がある病院のICU内又は店の内側のシーンの複雑さを想像されたい。数百の様々な物体の部位を定義するタスクは、問題を引き起こしており、この問題は、あらゆる従来の公知の画像認識技法ではこれまで解決されたことがない。
【0222】
説明可能なモデルは、数千の物体のための部位の定義を伴う、複雑なシーンの対処に必要とされる。発想は、単純な問題ではうまくいくことが多いが、より複雑な問題では悲惨なほどに失敗する。しかし、説明可能な深層学習モデルがなければ、「人間の介入なしに」意図的に稼働するこうしたシステムでは、容認できないほど高い誤検知を発生する。また更に、説明可能なAIモデルの使用によって、人間が技術を最良の手法に案内、推進することが可能である一方で、AIモデルは、ますます大規模でアクセス可能になっている訓練データセットの消費を通じて学習、進歩することが可能である。
【0223】
したがって、ヒューマン・イン・ザ・ループは、本明細書に記載の教示に基づき得られ、実施されるAIモデルの実行から意図的に取り除かれる。というのは、記載のAIモデルは、「説明可能なAIモデル」であるように明確に作製されるためである。とはいえ、人間の介入を自動化処理に強制的に入れない技術の向上及び展開のために人間の思考を利用することは可能であり、これにより、そのような技術の大規模な使用を防止するであろう。
【0224】
図26は、開示する実施形態による、深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のための透明モデルを実施する方法2600を示す流れ図を示す。方法700は、ハードウェア(例えば、回路、専用論理、プログラム可能論理、マイクロコード等)、ソフトウェア(例えば、処理デバイス上で実行される命令)を含む処理論理によって実施し、設計、定義、抽出、パース、持続、露出、ロード、実行、稼働、受信、生成、保存、維持、生成、戻る、提示、インターフェース接続、通信、送信、照会、処理、提供、決定、トリガ、表示、更新、送信等の様々な動作を本明細書で説明するシステム及び方法に従って実施し得る。例えば、本明細書で説明するシステム2701(図27を参照)及び機械2801(図28を参照)並びに他の支持システム及び構成要素は、説明する方法を実施し得る。以下に列挙するブロック及び/又は動作の一部は、いくつかの実施形態によれば、オプションである。提示するブロックの番号付けは、明瞭性のためであり、様々なブロックが行わなければならない動作順序の規定を意図しない。
【0225】
図26に示される方法2600を参照すると、深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のための透明モデルを系統的に生成、出力する特別に構成されるシステムによって実施される方法がある。そのようなシステムは、システムに以下の動作を実施させる特別な命令を実行する少なくとも1つのプロセッサ及びメモリにより構成し得る。
【0226】
ブロック2605において、そのようなシステムの処理論理は、非透明ブラック・ボックスAIモデルから、以下の動作を介してコンピュータ・ビジョン又は画像認識のための透明で説明可能なAIモデルを生成する。
【0227】
ブロック2610において、処理論理は、訓練画像セットを有する訓練データから物体を分類するため、畳み込みニューラル・ネットワーク(CNN)を訓練する。
【0228】
ブロック2615において、処理論理は、物体及び物体の部位の両方を認識するため、多層パーセプトロン(MLP)を訓練する。
【0229】
ブロック2620において、処理論理は、MLPの訓練に基づき説明可能なAIモデルを生成する。
【0230】
ブロック2625において、処理論理は、物体が中に埋め込まれた画像を受信する。画像は、説明可能なAIモデルの訓練データの部分を形成しない。
【0231】
ブロック2630において、処理論理は、画像認識システム内でCNN及び説明可能なAIモデルを実行し、説明可能なAIモデルを介して画像内の物体の予測を生成する。
【0232】
ブロック2635において、処理論理は、物体の部位を認識する。
【0233】
ブロック2640において、処理論理は、物体の予測の証拠として、物体内で認識された部位を提供する。
【0234】
ブロック2645において、処理論理は、認識した部位を含む証拠に基づき、画像システムが画像内で物体を予測した理由についての説明を生成する。
【0235】
方法2600の別の実施形態によれば、物体及び物体の部位の両方を認識するためにMLPを訓練することは、(i)訓練データから選択された訓練画像を訓練CNNに提示することと、(ii)CNNの全結合(FC)層の活性化関数を読み込むことと、(iii)これらの活性化関数をMLPへの入力として受信することと、(iv)この訓練画像のためのマルチターゲット出力を設定することと、及び(v)重み調節方法の1つに従ってMLPの重みを調節することとを含む動作を介してMLP訓練手順を実施することを含む。
【0236】
別の実施形態によれば、方法2600は、物体内で認識された部位及び説明の少なくとも一部分を、画像認識システムのユーザに表示する説明ユーザ・インターフェース(UI)に送信することを更に含む。
【0237】
方法2600の別の実施形態によれば、物体の部位の識別は、物体の部位を認識するため、畳み込みニューラル・ネットワーク(CNN)の復号を含む。
【0238】
方法2600の別の実施形態によれば、CNNの復号は、物体の構成に関する情報を提供することを含み、情報は、CNNを復号するモデルのための物体の部位及び部位の結合性を含む。
【0239】
方法2600の別の実施形態によれば、部位の結合性は、部位の間の空間関係を含む。
【0240】
方法2600の別の実施形態によれば、このモデルは、CNNモデルとは別個であるか又はCNNモデルと統合される多層パーセプトロン(MLP)であり、統合モデルは、物体及び部位の両方を認識するように訓練される。
【0241】
方法2600の別の実施形態によれば、物体の構成についての情報を提供することは、物体の下位アセンブリを含む情報を提供することを更に含む。
【0242】
方法2600の別の実施形態によれば、物体の部位の認識は、物体の部位のユーザ定義リストを試験することを含む。
【0243】
方法2600の別の実施形態によれば、物体を分類するためのCNNの訓練は、転移学習を使用して対象物体を分類するようにCNNを訓練することを含む。
【0244】
方法2600の別の実施形態によれば、転移学習は、少なくとも以下の動作:同様の物体クラス上で事前に訓練された事前訓練CNNの一部又は全部の畳み込み層の重みを凍結することと、1つ又は複数の平坦化全結合層(FC)層を追加することと、出力層を追加することと、新たな分類タスクのために全結合層及び非凍結畳み込み層の両方の重みを訓練することとを含む。
【0245】
方法2600の別の実施形態によれば、物体及び物体の部位の両方を認識するためにMLPを訓練することは、CNNの1つ又は複数の全結合層の活性化関数から入力を受信することと、MLPの出力ノードのため、部位のユーザ定義リストからのターゲット値を提供することとを含み、出力ノードは、部位のユーザ定義リストによって指定された対象物体として定義された物体、及び部位のユーザ定義リストに従った対象物体の部位に対応する。
【0246】
別の実施形態によれば、方法2600は、非透明ブラック・ボックスAIモデルから、透明で説明可能なAIモデルを生成することを更に含み、生成は、C物体クラスのM画像を使用して、全結合層(FC)層セットを有する畳み込みニューラル・ネットワーク(CNN)を訓練、および試験することと、画像合計セットMTの下位セットを使用して、マルチターゲットMLPを訓練することとを更に含む動作を介して行い、MTは、CNN訓練のための元のM画像、並びに部位及び下位アセンブリ画像の更なるセットMPを含み、MT内の各画像IMのための訓練は、画像IMを訓練CNNへの入力として受信することと、1つ又は複数の指定されたFC層で活性化関数を記録することと、1つ又は複数の指定されたFC層の活性化関数をマルチターゲットMLPへの入力として受信することと、画像IMのためのマルチターゲット出力ベクトルとしてTRを設定することと、重み調節アルゴリズムに従ってMLPの重みを調節することとを含む。
【0247】
方法2600の別の実施形態によれば、CNNの訓練は、最初からの訓練、又はFC層を追加する転移学習の使用によるCNNの訓練を含む。
【0248】
方法2600の別の実施形態によれば、MTが、CNN訓練のための元のM画像、並びに部位及び下位アセンブリ画像の更なるセットMPを含む、画像の合計セットMTの下位セットを使用するマルチターゲットMLPの訓練は、部位及び下位アセンブリ画像並びに部位の結合性の更なるセットMPからC物体クラスのM画像の構成を教示することを含む。
【0249】
方法2600の別の実施形態によれば、部位及び下位アセンブリ画像並びに部位の結合性の更なるセットMPから、C物体クラスのM画像の構成を教示することは、部位のMLP個別画像を示すことによって、部位を識別することと、下位アセンブリのMLP画像を示すことによって、下位アセンブリを識別し、中に含まれる部位をリスト化することとを含み、アセンブリ又は下位アセンブリ及び対応する画像のための部位リストを考慮に入れて、MLPが物体及び下位アセンブリの構成、並びに部位の結合性を学習するようにする。
【0250】
特定の実施形態によれば、命令を中に記憶させた非一時的コンピュータ可読記憶媒体があり、命令は、少なくとも1つのプロセッサとメモリとを中に有するシステムによって実行されると、訓練画像セットを有する訓練データから物体を分類するため、畳み込みニューラル・ネットワーク(CNN)を訓練することと、物体及び物体の部位を認識するため、多層パーセプトロン(MLP)を訓練することと、MLPの訓練に基づき説明可能なAIモデルを生成することと、物体が中に埋め込まれた画像を受信することであって、画像は、説明可能なAIモデルのための訓練データの部分を形成しない、受信することと、画像認識システム内でCNN及び説明可能なAIモデルを実行し、説明可能なAIモデルを介して画像内の物体の予測を生成することと、物体の部位を認識することと、物体の予測の証拠として、物体内で認識された部位を提供することと、認識した部位を含む証拠に基づき、画像システムが画像内で物体を予測した理由についての説明を生成することとを含む動作をシステムに実施させる。
【0251】
図27は、実施形態を中で稼働させ得る、インストールし得る、統合し得る、又は構成し得るシステム2701の概略図を示す。一実施形態によれば、システム2701があり、システム2701は、実施アプリケーション・コード2796を実行する少なくとも1つのプロセッサ2790とメモリ2795とを中に有する。そのようなシステム2701は、命令及びデータを送信するユーザ・デバイス、システム2701からの出力として特別に訓練された「説明可能なAI」モデル2766を受信するユーザ・デバイス等の遠隔システムの助けにより、通信可能にインターフェース接続し、協働的に実行でき、「説明可能なAI」モデル2766は、説明可能なAIユーザ・インターフェースを介してユーザに使用し、表示するために抽出した特徴2743を中に有し、説明可能なAIユーザ・インターフェースは、「説明可能なAI」モデル2766が予測を表現した対象入力画像2741内の「部位」として位置特定されている決定に関する透明な説明を提供する。
【0252】
示される実施形態によれば、システム2701は、システム2701で命令を実行するプロセッサ2790とメモリ2795とを含む。ここで示されるシステム2701は、深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のための透明モデルを系統的に生成するように特別にカスタマイズされ、構成される。訓練データ2739は、画像特徴学習アルゴリズム2791を通じて処理され、画像特徴学習アルゴリズム2791から、決定された「部位」2740が複数の様々な物体(例えば、「ネコ」及び「イヌ」等)のために抽出され、事前訓練・微調整AIマネジャ2750を任意に利用し、システムに提供された更なる訓練データに基づき所与の物体の予測を洗練し得る。
【0253】
特定の実施形態によれば、特別に構成されたシステム2701があり、システム2701は、非透明ブラック・ボックスAIモデルから、コンピュータ・ビジョン又は画像認識のための透明で説明可能なAIモデルを生成するようにカスタムに構成される。そのような実施形態によれば、システム2701は、実行可能アプリケーション・コード2796を介して命令を記憶するメモリ2795と、メモリ2795内に記憶された命令を実行するプロセッサ2790とを含み、システム2701は、プロセッサを介してメモリ内に記憶された命令を実行するように特別に構成され、訓練データ2739を含む訓練画像セット内に埋め込まれた物体を分類するため、畳み込みニューラル・ネットワーク(CNN)2765を訓練することと、訓練画像のセットを有する訓練データ2739から物体を分類するため、畳み込みニューラル・ネットワーク(CNN)2765を訓練することと、物体及び物体の部位を認識するため、画像特徴学習アルゴリズム2791を介して多層パーセプトロン(MLP)を訓練することと、MLPの訓練に基づき説明可能なAIモデル2766を生成することと、物体が中に埋め込まれた画像(例えば、入力画像2741)を受信することであって、画像2741は、説明可能なAIモデル2766の訓練データ2739の部分を形成しない、受信することと、画像認識システム内でCNN及び説明可能なAIモデル2766を実行し、説明可能なAIモデル2766を介して画像内の物体の予測を生成することと、物体の部位を認識することと、物体の予測の証拠として、説明可能なAIモデルのために抽出した特徴2743を介して物体内で認識された部位を提供することと、画像システムが認識した部位を含む証拠に基づき画像内で物体を予測した理由についての説明を生成することとを含む動作をシステムに実施させる。
【0254】
システム2701の別の実施形態によれば、ユーザ・インターフェース2726は、システムから離れたユーザ・クライアント・デバイスと通信可能にインターフェース接続し、公衆インターネットを介してシステムと通信可能にインターフェース接続する。
【0255】
バス2716は、システム2701の様々な構成要素を互いの間で、システム2701の任意の他の周辺機器(複数可)及び外部ネットワーク要素、他の機械、クライアント・デバイス、クラウド・コンピューティング・サービス等の外部構成要素とインターフェース接続する。通信は、ネットワーク・インターフェースを介してLAN、WAN又は公衆インターネット上での外部デバイスとの通信を更に含み得る。
【0256】
図28は、一実施形態によるコンピュータ・システムの例示的形態の機械2801の概略図を示し、機械2801内で、本明細書で説明する方法の任意の1つ又は複数を実施させる命令のセットを機械/コンピュータ・システムに実行させ得る。
【0257】
代替実施形態では、機械は、ローカル・エリア・ネットワーク(LAN)、イントラネット、エクストラネット又は公衆インターネット内で他の機械に接続(例えば、ネットワーク化)し得る。機械は、クライアントサーバ・ネットワーク環境内のサーバ又はクライアント・マシンの容量で、ピアツーピア(又は分散)ネットワーク環境内のピア・マシンとして、オンデマンド・サービス環境内のサーバ又は一連のサーバとして、動作し得る。機械の特定の実施形態は、パーソナル・コンピュータ(PC)、タブレットPC、セットトップ・ボックス(STB)、携帯情報端末(PDA)、携帯電話、ウェブ・アプライアンス、サーバ、ネットワーク・ルータ、スイッチ若しくはブリッジ、コンピューティング・システム、又は記憶された命令に従って、特別に構成されたアクションを機械が取ることを指定、要求する命令のセットを(連続的若しくはそれ以外の様式で)実行可能な任意の機械の形態とし得る。更に、単一機械のみを示すが、用語「機械」は、本明細書で論じる方法の任意の1つ又は複数を実施する命令のセット(又は複数のセット)を個々に又は共同で実行するあらゆる機械(例えば、コンピュータ)の集合を含むと解釈するものとする。
【0258】
例示的なコンピュータ・システム2801は、プロセッサ2802と、メイン・メモリ2804(例えば、読取り専用メモリ(ROM)、フラッシュ・メモリ、シンクロナスDRAM(SDRAM)若しくはRambusDRAM(RDRAM)等のダイナミック・ランダム・アクセス・メモリ(DRAM)、フラッシュ・メモリ、スタティック・ランダム・アクセス・メモリ(SRAM)、揮発性高データレートRAM等のスタティック・メモリ)と、2次メモリ2818(例えば、ハード・ディスク・ドライブ及び永続データベース及び/又はマルチテナント・データベース実装形態を含む永続記憶デバイス)とを含み、バス2830を介して互いに通信する。メイン・メモリ2804は、透明学習工程2824を実行する命令を含み、透明学習工程2824は、本明細書で説明する方法及び技法を支持して、ユーザ・インターフェースが使用するために抽出される特徴2823を提供し、訓練された説明可能なAIモデル2825を生成し、訓練された説明可能なAIモデル2825の実行のために利用可能する。メイン・メモリ2804及びメイン・メモリ2804の下位要素は、本明細書で論じる方法を実施するように、処理論理2826及びプロセッサ2802と共に更に動作可能である。
【0259】
プロセッサ2802は、マイクロプロセッサ、中央処理ユニット等の特殊化され、特別に構成された1つ又は複数の処理デバイスを表す。より詳細には、プロセッサ2802は、複合命令セット・コンピューティング(CISC)マイクロプロセッサ、縮小命令セット・コンピューティング(RISC)マイクロプロセッサ、超長命令語(VLIW)マイクロプロセッサ、他の命令セットを実装するプロセッサ、又は命令セットの組合せを実装するプロセッサとし得る。プロセッサ2802は、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、デジタル信号プロセッサ(DSP)、ネットワーク・プロセッサ等の1つ又は複数の専用処理デバイスであってもよい。プロセッサ2802は、本明細書で論じる動作及び機能を実施する処理論理2826を実行するように構成される。
【0260】
コンピュータ・システム2801は、ネットワーク・インターフェース・カード2808を更に含み得る。コンピュータ・システム2801は、ユーザ・インターフェース2810(映像表示ユニット、液晶ディスプレイ等)と、英数字入力デバイス2812(例えば、キーボード)と、カーソル制御デバイス2813(例えば、マウス)と、信号生成デバイス2816(例えば、一体型スピーカ)とを更に含み得る。コンピュータ・システム2801は、周辺デバイス2836(例えば、ワイヤレス又は有線通信デバイス、メモリ・デバイス、記憶デバイス、音声処理デバイス、映像処理デバイス等)を更に含み得る。
【0261】
2次メモリ2818は、本明細書で説明する方法又は機能の任意の1つ又は複数を実施する1つ又は複数の命令セット(例えば、ソフトウェア2822)が記憶される非一時的機械可読記憶媒体又は非一時的コンピュータ可読記憶媒体又は非一時的機械アクセス可能記憶媒体2831を含み得る。ソフトウェア2822は、同様に機械可読記憶媒体を構成するコンピュータ・システム2801、メイン・メモリ2804及びプロセッサ2802によってソフトウェア2822を実行する間、完全に又は少なくとも部分的に、メイン・メモリ2804及び/又はプロセッサ2802内に常駐してもよい。ソフトウェア2822は、ネットワーク2820上でネットワーク・インターフェース・カード2808を介して更に送受信し得る。
【0262】
本明細書で開示する主題を、例として特定の実施形態の観点から説明してきたが、請求する実施形態は、明示的に列挙した開示する実施形態に限定されないことを理解されたい。そうではなく、本開示は、当業者に明らかであるように、様々な修正形態及び同様の構成を含むことを意図する。したがって、添付の特許請求の範囲は、全てのそのような修正形態及び同様の構成を包含するように、最も広範な解釈が与えられるべきである。上記の説明は、例示的であり、制限的ではないことを意図すると理解されたい。多数の他の実施形態は、上記の説明を読み、理解すれば当業者に明らかであろう。したがって、開示する主題の範囲は、添付の特許請求の範囲を参照して、そのような特許請求の範囲の権利が与えられる等価物の完全な範囲と共に、決定されるべきである。
図1
図2
図3
図4
図5
図6A
図6B
図6C
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
【図
【図
【図
【図
【図
【図
【図
【図
【図
【図
【図
【図
【図
【図
【国際調査報告】