(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023005037
(43)【公開日】2023-01-18
(54)【発明の名称】要因分析装置、要因分析方法、及びプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20230111BHJP
G05B 23/02 20060101ALI20230111BHJP
【FI】
G06N20/00
G05B23/02 T
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021106709
(22)【出願日】2021-06-28
(71)【出願人】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】丹野 良介
(72)【発明者】
【氏名】切通 恵介
(72)【発明者】
【氏名】島田 健一郎
【テーマコード(参考)】
3C223
【Fターム(参考)】
3C223AA12
3C223BA01
3C223BB08
3C223CC01
3C223DD01
3C223EB07
3C223FF04
3C223FF06
3C223FF18
3C223FF26
(57)【要約】
【課題】マルチモーダル分析による推論結果に対する要因分析を、モダリティ情報毎に行うことを可能とする技術を提供する。
【解決手段】推論結果に対する要因を分析する要因分析装置であって、入力された複数のモダリティ情報に対して、機械学習モデルを用いたマルチモーダル分析を行い、推論結果を出力する推論部と、前記推論部により前記推論結果が得られた要因の分析を、前記複数のモダリティ情報における各モダリティ情報に対して行う要因算出部と、前記要因算出部により得られた各モダリティ情報に対する要因分析結果を表示する要因可視化部とを備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
推論結果に対する要因を分析する要因分析装置であって、
入力された複数のモダリティ情報に対して、機械学習モデルを用いたマルチモーダル分析を行い、推論結果を出力する推論部と、
前記推論部により前記推論結果が得られた要因の分析を、前記複数のモダリティ情報における各モダリティ情報に対して行う要因算出部と、
前記要因算出部により得られた各モダリティ情報に対する要因分析結果を表示する要因可視化部と
を備える要因分析装置。
【請求項2】
前記推論部は、前記複数のモダリティ情報における各モダリティ情報の前記推論結果に対する寄与度を算出し、前記要因可視化部は当該寄与度を表示する
請求項1に記載の要因分析装置。
【請求項3】
前記要因可視化部は、前記複数のモダリティ情報のうちの少なくとも2つのモダリティ情報についての要因分析結果を時系列で同時に表示する
請求項1又は2に記載の要因分析装置。
【請求項4】
前記要因可視化部は、モダリティ情報毎に異なる可視化手法を用いて、要因分析結果の表示のための可視化を行う
請求項1ないし3のうちいずれか1項に記載の要因分析装置。
【請求項5】
推論結果に対する要因を分析する要因分析装置が実行する要因分析方法であって、
入力された複数のモダリティ情報に対して、機械学習モデルを用いたマルチモーダル分析を行い、推論結果を出力する推論ステップと、
前記推論ステップにより前記推論結果が得られた要因の分析を、前記複数のモダリティ情報における各モダリティ情報に対して行う要因算出ステップと、
前記要因算出ステップにより得られた各モダリティ情報に対する要因分析結果を表示する要因可視化ステップと
を備える要因分析方法。
【請求項6】
コンピュータを、請求項1ないし4のうちいずれか1項に記載の要因分析装置における各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、モデルによる推論結果に対する要因を分析する技術に関連するものである。
【背景技術】
【0002】
データ(例:センサデータ)と正解ラベルにより、深層ニューラルネットワークの学習を行うことで、深層ニューラルネットワークにより推論を行う技術が存在する。推論としては、例えば、分類、予測、異常検知(例:プラントの故障検知)等がある。
【0003】
しかし、センサデータ等の単独のモダリティ情報を用いて深層ニューラルネットワークの学習を行って推論を行う場合、推論の精度が十分ではない。
【0004】
そこで、複数のモダリティ情報を用いたマルチモーダル深層学習を推論に適用することで精度を向上させることが考えられる。マルチモーダル深層学習とは、異なるモダリティ(センサ、音声、自然言語など)に属するデータを共通の空間へ写像することで、意味的にアラインメントされた表現を獲得する学習方法である。複数入力をマルチモーダル表現へマッピングし、誤差逆伝播法により、入力から出力へ至る全てのニューラルネットネットワークの一貫学習を行う。なお、マルチモーダル深層学習に基づく推論をマルチモーダル分析と呼んでもよい。
【0005】
複数のモダリティ情報を統合的に利用することで、コンパクトで計算量的に軽量なニューラルネットワークの構造で判別精度を担保することができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2020-201910号公報
【特許文献2】特開2020-57290号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
産業へのニューラルネットワーク技術の応用に関して、ニューラルネットワークがブラックボックスであり、その判断根拠や入出力の関係性が不明であるという課題が従来から存在する。この課題に対する解決手段については種々の技術が提案されており、例えば特許文献1、2には、学習済みのモデルによりなされた推論結果に対し、どの入力値が重要であったか等を可視化して表示する技術が開示されている。
【0008】
従来技術により、ユニモーダル分析を行うモデルを用いる場合に判断根拠等を出力することができる。しかし、従来技術では、マルチモーダル分析を行うモデルを用いる場合において、どのモダリティ情報のどの部分が推論結果に大きく寄与しているか等の判断根拠を出力することは難しい。
【0009】
本発明は上記の点に鑑みてなされたものであり、マルチモーダル分析による推論結果に対する要因分析を、モダリティ情報毎に行うことを可能とする技術を提供することを目的とする。
【課題を解決するための手段】
【0010】
開示の技術によれば、推論結果に対する要因を分析する要因分析装置であって、
入力された複数のモダリティ情報に対して、機械学習モデルを用いたマルチモーダル分析を行い、推論結果を出力する推論部と、
前記推論部により前記推論結果が得られた要因の分析を、前記複数のモダリティ情報における各モダリティ情報に対して行う要因算出部と、
前記要因算出部により得られた各モダリティ情報に対する要因分析結果を表示する要因可視化部と
を備える要因分析装置が提供される。
【発明の効果】
【0011】
開示の技術によれば、マルチモーダル分析による推論結果に対する要因分析を、モダリティ情報毎に行うことを可能とする技術が提供される。
【図面の簡単な説明】
【0012】
【
図1】実施の形態の概要を説明するための図である。
【
図3】Attentionを説明するための図である。
【発明を実施するための形態】
【0013】
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下で説明する実施の形態に限られるわけではない。
【0014】
例えば、以下の説明では、マルチモーダル分析を行う機械学習モデルとしてニューラルネットワークを用いることを想定しているが、ニューラルネットワークを用いることは一例であり、ニューラルネットワーク以外の機械学習モデルを用いてマルチモーダル分析を行うこととしてもよい。
【0015】
(実施の形態の概要)
【0016】
図1を参照して本実施の形態の概要を説明する。
図1(a)に示すように、複数のモダリティ情報に対して、マルチモーダル分析を行う学習済みの機械学習モデルにより機械学習処理を行って、推論結果(予測、分類等)を出力する。この機械学習モデルは、後述する要因分析装置200における推論部100に相当する。
図1全体は、要因分析装置200の動作の一例を示している。複数のモダリティ情報は、例えば、センサ情報、画像情報、音情報、言語情報等である。
【0017】
一例として、工場内の工作機械等から得られるセンサ情報、工作機械の動作を撮影した映像、工作機械の動作音、工作機械を操作する操作者の音声等が機械学習モデルに入力され、異常の有無が推論結果として出力される。
【0018】
このように複数のモダリティ情報を用いてマルチモーダル分析を行うことで、例えば、単一のモダリティ情報のみでは異常を判別できないような事象を異常であると判別できる。逆に、単一のモダリティ情報のみでは異常であると誤って判別してしまうような事象を異常無しであると判別できる。
【0019】
本実施の形態に係る要因分析装置200では、
図1(b)に示すように、機械学習モデルによる推論結果に対して、各モーダルに対して(つまり、センサ情報、画像情報、音情報、言語情報等のそれぞれに対して)、推論結果を得るためにどの程度寄与したかを表す情報(この情報を「要因」、「重要度」、「寄与度」等と呼んでもよい)を出力する。出力は、人が見て分かり易いように可視化してディスプレイ上に表示される。
【0020】
図1(b)の例では、センサ情報に関し、現在時刻の推論結果に対して、5分前の温度が推論結果に対して+0.2だけ寄与し、10分前圧力が‐0.1だけ寄与したことが示されている。つまり、推論結果の要因として、5分前の温度が比較的大きく寄与していることがわかる。他のモーダルについても同様である。また、画像情報に関しては、顕著性マップ(Saliency Map)の画像が表示される。顕著性マップの画像上で強調表示されている箇所が、推論結果の要因として寄与していることを示している。
【0021】
要因分析装置200は、上記のように各モダリティの寄与箇所の出力を行うとともに、例えば、推論結果に最も大きく寄与するモダリティ情報を出力することも可能である。
【0022】
以下、本実施の形態に係る要因分析装置200の構成と動作について詳細に説明する。
【0023】
(要因分析装置200の構成例)
図2に、本実施の形態における要因分析装置200の構成例を示す。なお、
図2に示す要因分析装置200に関しては、モダリティ情報として映像情報とセンサ情報を使用する場合の構成を示しているが、これは一例である。モダリティ情報の個数、及びモダリティ情報の種類は特定のものに限定されるわけではない。
【0024】
図2に示すように、要因分析装置200は、推論部100、映像要因算出部10、センサ要因算出部20、要因可視化部30を有する。また、推論部100は、学習済みのモデルであり、映像前処理部101、センサ前処理部102、映像特徴量抽出ネットワーク部103、センサ特徴量抽出ネットワーク部104、映像特徴圧縮部105、センサ特徴圧縮部106、各モーダル着目領域算出部107、及びラベル出力部108を備える。なお、映像要因算出部10とセンサ要因算出部20とを合わせて要因算出部と呼んでもよい。
【0025】
要因分析装置200は、入力データに対する前処理を行い、前処理後のデータに対して特徴量抽出を行い、抽出された各モダリティ情報の特徴量を結合し、結合後の特徴量からラベルを推定し、出力する。一方、要因算出部により推論結果に対する要因分析がモダリティ情報毎に行われ、可視化して表示がなされる。
【0026】
以下、要因分析装置200を構成する各部の機能について、推論時の処理動作の手順に従って説明する。
【0027】
本例では、映像前処理部101、センサ前処理部102、映像特徴圧縮部105、センサ特徴圧縮部106を用いる場合の構成を示しているが、これらは必須ではない。これらのうちの全部又は一部を備えないこととしてもよい。
【0028】
(要因分析装置200の各部の機能)
<前処理>
推論部100内の映像前処理部101は、入力された映像(動画)データを、所定枚数の画像毎に分割する処理を行い、分割された各データ(複数枚の画像データ)を映像特徴量抽出ネットワーク部103に入力する。なお、所定枚数の画像毎に分割する処理を行わずに、映像データをそのまま入力に用いてもよい。
【0029】
センサ前処理部102は、センサデータに対して、例えば、正規化処理を行い、正規化したデータをセンサ特徴量ネットワーク部104に入力する。正規化処理は、例えば、値が平均0、標準偏差1になるような処理である。なお、センサデータについては、1種類のセンサからの出力データであってもよいし、複数種類のセンサからの出力データであってもよい。本実施の形態では、複数種類のセンサからの出力データであることを想定している。
【0030】
各特徴量抽出ネットワーク部に入力される映像データとセンサデータについて、例えば、時刻1、時刻2、時刻3のように時刻が進行するとして、まず、時刻1の映像データ1とセンサデータ1が入力され、次に、時刻2の映像データ2とセンサデータ2が入力され、次に、時刻3の映像データ3とセンサデータ3が入力され、……のように、同期したデータが入力される。
【0031】
<特徴量抽出>
【0032】
映像特徴量抽出ネットワーク部103、センサ特徴量抽出ネットワーク部104は、それぞれ深層ニューラルネットワーク(DNN)である。例えば、これらの特徴量抽出ネットワーク部103、104として、CNN(Convolutional Neural Network)を使用することができる。CNNは、出力層、畳み込み層、プーリング層、全結合層、出力層を有するニューラルネットワークである。
【0033】
映像特徴量抽出ネットワーク部103、センサ特徴量抽出ネットワーク部104はそれぞれ、入力されたデータについての特徴量を抽出し、出力する。より具体的には、映像特徴量抽出ネットワーク部103、センサ特徴量抽出ネットワーク部104はそれぞれ、
入力データとして、ある次元数のベクトルXを入力し、出力データとして、ある次元数のベクトルYを出力する。このベクトルYが上記の特徴量である。
【0034】
<特徴圧縮>
映像特徴圧縮部105、センサ特徴圧縮部106はそれぞれ、例えば、入力の次元数よりも出力の次元数が小さいニューラルネットワークである。また、映像特徴圧縮部105、センサ特徴圧縮部106としてそれぞれ、主成分分析(PCA)の機能、あるいは非負値行列因子分解(NMF)の機能を用いてもよい。
【0035】
映像特徴圧縮部105、センサ特徴圧縮部106はそれぞれ、その前段にある特徴量抽出ネットワーク部から出力された特徴量(ベクトル)を入力し、当該特徴量を圧縮して、入力されたベクトルの次元数よりも小さな次元数のベクトルを出力する。
【0036】
<各モーダル着目領域算出>
【0037】
各モーダル着目領域算出部107は、基本的には、映像特徴圧縮部105から出力された特徴量とセンサ特徴圧縮部106から出力された特徴量とを結合する処理を行う。
【0038】
ただし、本実施の形態では、各モーダル着目領域算出部107は、より大きく着目されているモーダル(つまり、推論結果に対する寄与度が大きいモーダル)についての特徴量が強くなるような処理を行って、結合を行う。強い特徴量は、推論結果への寄与度が高い特徴量であることを意味する。
【0039】
上記のような処理は、ニューラルネットワークにより実現できる。一例として、各モーダル着目領域算出部107において、Attention構造を用いることで、上記の処理を実現できる。Attention構造自体は既存技術であるが、マルチモーダル分析において、着目するモーダルの判別のためにAttention構造を使用することは既存技術ではない。
【0040】
Attention構造により、ニューラルネットワークの重み(入力された特徴量に乗算される重み)を各入力(各モーダル)で時刻毎に動的に変化させることができ、その重みを見ることでどのモーダルに着目しているのかを判別できる。
【0041】
図3は、Attention構造による処理のイメージを示している。
図3(a)は、Attention構造の前段階で得られている時系列の特徴量を示している。
図3(b)に示すように、Attention構造を用いない場合には、時系列の各時刻の特徴量には、均一の重みがかけられる。一方、Attention構造を用いることで、
図3(c)に示すように、動的に重みを変化させることができる。
【0042】
なお、各モーダル着目領域算出部107は、映像特徴圧縮部105から出力された特徴量とセンサ特徴圧縮部106から出力された特徴量とを連結して、連結した特徴量をラベル出力部108に出力する単純な機構であってもよい。このような機構でも、要因可視化部30は、映像要因算出部10からの出力、センサ要因算出部20からの出力に基づいて、モーダル毎の寄与度を可視化して出力できる。
【0043】
<結果出力>
ラベル出力部108は、各モーダル着目領域算出部107からの出力(映像の特徴量とセンサ情報の特徴量を結合した特徴量)を入力とし、当該特徴量から推論結果を推定して出力する。
【0044】
<要因算出>
図2の要因分析装置10における映像要因算出部10は、ラベル出力部108から出力される推論結果に対し、入力された映像のどの部分がどの程度寄与しているかを示す寄与度を計算する。映像要因算出部10は、ある時刻の推論結果に対して、その時刻あるいは過去の任意の時刻における、推論結果に対する映像の寄与度を算出できる。寄与度については、映像(画像)の中の部分(例:ピクセル)毎の寄与度を算出することもできるし、映像(画像)全体の寄与度を算出することもできるし、ある時間長における映像全体の寄与度を算出することもできる。
【0045】
映像要因算出部10は、例えば、誤差逆伝播法を利用した顕著性マップ(Saliency Map)の手法により上記寄与度を算出できる。顕著性マップ自体は既存技術であり、本実施の形態のように映像の特徴抽出にCNNを使用する場合、当該手法により得られる結果は、推論結果に影響を与えた映像上の位置を示している。
【0046】
また、映像要因算出部10は、出力の各入力に関する偏微分値を出力に寄与する寄与度として算出することとしてもよい。偏微分値の値が大きくなる入力要素は、その要素を少し動かすだけで出力が大きく変化することを意味し、出力に対する寄与度が大きいことを意味する。
【0047】
センサ要因算出部20についても映像要因算出部10と同様の技術を用いて寄与度を算出することができる。また、特許文献1に開示されているアトリビューション算出技術を利用することにより、アトリビューションとして寄与度を算出してもよい。センサ情報に関する寄与度については、複数センサ情報のうちの各センサ情報の寄与度を算出することもできるし、各センサ情報における部分情報毎(時刻毎、周波数毎等)の寄与度を算出することもできる。
【0048】
<要因可視化>
要因可視化部30は、各モーダル着目領域算出部107からの出力、映像要因算出部10からの出力、及びセンサ要因算出部20からの出力を入力として、推論結果に対する要因分析結果を可視化して表示する。要因可視化部30は、モダリティ情報毎に異なる可視化手法を用いて、要因分析結果の表示を行うことが可能である。
【0049】
各モーダル着目領域算出部107からの出力、映像要因算出部10からの出力、及びセンサ要因算出部20からの出力に対する表示は、これらをまとめて表示してもよいし、全部ではないが同時に複数の出力を表示してもよいし、1つ1つを別々のタイミングで表示することとしてもよい。
【0050】
また、表示に関しては、例えば、要因可視化部30がディスプレイを有し、そのディスプレイ上へ表示する。あるいは、要因可視化部30が例えばWebサーバ機能を有し、ネットワーク接続された端末に対して、要因(寄与度)を表示した画面データを送信することとしてもよい。このような「送信」も「表示」の一例である。
【0051】
具体的には、例えば、映像要因算出部10が、映像内の各ピクセルの要因(寄与度)を時刻毎に計算し、計算した映像内の各ピクセルの要因(寄与度)を時刻毎に要因可視化部30に送信する。これにより、要因可視化部30は、映像内のピクセル毎の寄与度を、動画のように時刻変化させながら表示できる。例えば、寄与度の大きなピクセルの輝度を大きくする、寄与度の大きなピクセルの色を「赤」のような目立つ色にする、などにより、推論結果に対する要因を一目で把握することができる。
【0052】
また、センサ要因算出部20は、例えば、複数センサにおける各センサの寄与度を時刻毎に計算し、計算した寄与度を時刻毎に要因可視化部30に送信する。これにより、要因可視化部30は、各センサの寄与度を、時刻変化とともに表示できる。表示は数値で行ってもよいし、ヒートマップなどで行ってもよい。
【0053】
また、特許文献2に開示されているように、縦軸をセンサ、横軸を時間枠とした画面を、各センサ・各時刻のマスに分け、センサ毎の各時刻の寄与度を、マスの色分けで表示してもよい。
【0054】
また、各モーダル着目領域算出部107は、例えば、全体の寄与度を100としたときのセンサの寄与度と映像の寄与度の割合(例:センサが60、映像が40)を時刻毎に計算し、計算結果を要因可視化部30に送信する。要因可視化部30は、センサの寄与度と映像の寄与度の割合を時刻毎に表示する。これにより、表示を見る人は、時々刻々と変化する寄与度の割合を把握することができる。
【0055】
なお、上記のように時系列で表示を行うことは一例であり、時系列ではなく、ある時刻、あるいはある時間長の期間における寄与度を表示してもよい。
【0056】
図4に、要因可視化部30による表示例を示す。この表示例は、各モーダル着目領域算出部107からの出力、映像要因算出部10からの出力、及びセンサ要因算出部20からの出力を全て1画面に表示する場合の例である。
【0057】
左上に、センサの寄与度が、例えば、縦軸をセンサ、横軸を時間枠とした画面により表示される。この表示は、時刻毎に変化する。同時に、右上に映像の寄与度が表示される。
図4の例では、例えば、要因分析装置200への入力となる映像(フレーム毎で見れば画像)とその画像に対する各部の寄与度を示す顕著性マップが表示される。この表示も時刻毎に変化する。また、画面の下側には、センサの寄与度と映像の寄与度の割合が表示される。この表示も時刻毎に変化する。
【0058】
本実施の形態では、例えは、入力される映像とセンサ情報のそれぞれに時刻情報(タイムスタンプ)が付加されている。例えば、各モーダル着目領域算出部107、映像要因算出部10、センサ要因算出部20のそれぞれが、処理する特徴量とともに、その特徴量の元の映像/センサ情報の時刻情報を把握し、その時刻情報とともに計算結果である寄与度を要因可視化部30に送信する。
【0059】
要因可視化部30は、当該時刻情報を用いて、ある時刻tの映像の寄与度と、その時刻tのセンサ情報の寄与度と、その時刻tの寄与度割合を同時に表示する。これにより、画面を見る人は、正確に同期した情報によりこれらの比較を行うことができる。
【0060】
あるいは、上記のような時刻情報を用いずに、各モーダル着目領域算出部107、映像要因算出部10、及びセンサ要因算出部20による計算結果を、計算が出来次第、表示することとしてもよい。それぞれの機能部ではリアルタイムに処理が行われるので、この手法でも時刻同期した表示を行うことができる。
【0061】
あるいは、ある計算の処理が遅い場合には、最も遅い計算時間に合わせて全体の表示を行うこととしてもよい。この場合、例えば、同時刻に発生したセンサ情報と映像を同時に入力してから寄与度算出完了までにかかる計算時間を、各モーダル着目領域算出部107、映像要因算出部10、センサ要因算出部20のそれぞれについて常時計測し、最も長い計算時間に合わせて、各モーダル着目領域算出部107の出力、映像要因算出部10の出力、センサ要因算出部20の出力を同時に表示する。つまり、要因可視化部30は、計算が早くできたもの(早く計算結果を受信したもの)については、表示まである時間だけ保持してから表示する。
【0062】
(ハードウェア構成例)
要因分析装置200は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。当該コンピュータは物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。
【0063】
すなわち、要因分析装置200は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該要因分析装置200で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
【0064】
図5は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。
図5のコンピュータは、それぞれバスBで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、及び出力装置1008等を有する。
【0065】
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0066】
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。また、メモリ装置1003(あるいは補助記憶装置1002)は、推論部100を構成するモデルのパラメータ、入力データ、処理中のデータ等を格納する。
【0067】
CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該要因分析装置200に係る機能を実現する。例えば、CPU1004は、メモリ装置1003に格納されたパラメータ(重み等)を読み出し、パラメータを用いた行列計算等を行うことでモデルとしての処理を実現する。
【0068】
インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
【0069】
(実施の形態の効果)
本実施の形態に係る技術により、出力に最も大きく寄与するモダリティ情報の同定を行うことができるとともに、各モダリティ情報の寄与箇所の同定を行うことが可能になる。また、モダリティ情報に応じて、寄与情報(要因分析結果)を適切に可視化して表示できる。
【0070】
(実施の形態のまとめ)
本明細書には、少なくとも下記各項の要因分析装置、要因分析方法、及びプログラムが開示されている。
(第1項)
推論結果に対する要因を分析する要因分析装置であって、
入力された複数のモダリティ情報に対して、機械学習モデルを用いたマルチモーダル分析を行い、推論結果を出力する推論部と、
前記推論部により前記推論結果が得られた要因の分析を、前記複数のモダリティ情報における各モダリティ情報に対して行う要因算出部と、
前記要因算出部により得られた各モダリティ情報に対する要因分析結果を表示する要因可視化部と
を備える要因分析装置。
(第2項)
前記推論部は、前記複数のモダリティ情報における各モダリティ情報の前記推論結果に対する寄与度を算出し、前記要因可視化部は当該寄与度を表示する
第1項に記載の要因分析装置。
(第3項)
前記要因可視化部は、前記複数のモダリティ情報のうちの少なくとも2つのモダリティ情報についての要因分析結果を時系列で同時に表示する
第1項又は第2項に記載の要因分析装置。
(第4項)
前記要因可視化部は、モダリティ情報毎に異なる可視化手法を用いて、要因分析結果の表示のための可視化を行う
第1項ないし第3項のうちいずれか1項に記載の要因分析装置。
(第5項)
推論結果に対する要因を分析する要因分析装置が実行する要因分析方法であって、
入力された複数のモダリティ情報に対して、機械学習モデルを用いたマルチモーダル分析を行い、推論結果を出力する推論ステップと、
前記推論ステップにより前記推論結果が得られた要因の分析を、前記複数のモダリティ情報における各モダリティ情報に対して行う要因算出ステップと、
前記要因算出ステップにより得られた各モダリティ情報に対する要因分析結果を表示する要因可視化ステップと
を備える要因分析方法。
(第6項)
コンピュータを、第1項ないし第4項のうちいずれか1項に記載の要因分析装置における各部として機能させるためのプログラム。
【0071】
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0072】
10 映像要因算出部
20 センサ要因算出部
30 要因可視化部
100 推論部
101 映像前処理部
102 センサ前処理部
103 映像特徴量抽出ネットワーク部
104 センサ特徴量抽出ネットワーク部
105 映像特徴圧縮部
106 センサ特徴圧縮部
107 各モーダル着目領域算出部
108 ラベル出力部
200 要因分析装置
1000 ドライブ装置
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置