IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-128509情報処理プログラム,情報処理装置及び情報処理方法
<>
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図1
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図2
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図3
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図4
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図5
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図6
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図7
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図8
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図9
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図10
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図11
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図12
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図13
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図14
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図15
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図16
  • 特開-情報処理プログラム,情報処理装置及び情報処理方法 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023128509
(43)【公開日】2023-09-14
(54)【発明の名称】情報処理プログラム,情報処理装置及び情報処理方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230907BHJP
   G06F 16/55 20190101ALI20230907BHJP
【FI】
G06T7/00 300F
G06F16/55
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022032885
(22)【出願日】2022-03-03
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100092978
【弁理士】
【氏名又は名称】真田 有
(74)【代理人】
【識別番号】100189201
【弁理士】
【氏名又は名称】横田 功
(72)【発明者】
【氏名】武本 健太郎
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA02
5B175FA01
5B175FA03
5L096AA02
5L096AA06
5L096BA02
5L096CA02
5L096FA72
5L096HA11
5L096JA11
5L096KA04
5L096MA07
(57)【要約】
【課題】画像データ中における複数の対象物と複数の対象物間の関係性とを反映して画像データを分類する。
【解決手段】画像データにおける複数の対象物と複数の対象物間の関係とを示すグラフに含まれる単語情報341それぞれに対して、単語情報341が属する関係性を示す情報342と、関係性における単語情報の役割を示す情報343と、を追加したデータ340を生成し、生成したデータ340を自己符号化器20への入力データとする機械学習により、入力データに対する特徴量30を取得し、取得した特徴量30に基づいて、画像データの分類を実行する。
【選択図】図10
【特許請求の範囲】
【請求項1】
画像データにおける複数の対象物と前記複数の対象物間の関係とを示すグラフに含まれる単語情報それぞれに対して、前記単語情報が属する関係性を示す情報と、前記関係性における前記単語情報の役割を示す情報と、を追加したデータを生成し、
生成した前記データを自己符号化器への入力データとする機械学習により、前記入力データに対する特徴量を取得し、
取得した前記特徴量に基づいて、前記画像データの分類を実行する、
処理をコンピュータに実行させる、情報処理プログラム。
【請求項2】
前記画像データは、動画データに含まれる複数のフレーム画像であり、
同じ場面に分類された複数のフレーム画像に対応する前記グラフのそれぞれに基づいて取得されるそれぞれの前記特徴量間の距離を小さくし、
異なる場面に分類された複数のフレーム画像に対応する前記グラフのそれぞれに基づいて取得される前記特徴量間の距離を大きくする、
請求項1に記載の情報処理プログラム。
【請求項3】
前記データを生成する処理において、
前記複数の対象物のうちの一の対象物についての前記単語情報を取得する第1の符号化処理を実行し、
前記第1の符号化処理に基づいて、前記関係性を示す情報と前記役割を示す情報とを取得する第2の符号化処理を実行し、
前記特徴量を取得する処理において、
前記第1の符号化処理と前記第2の符号化処理とに基づいて生成した前記データを用いて、前記特徴量を取得する第3の符号化処理を実行する、
処理をコンピュータに実行させる、請求項1又は2に記載の情報処理プログラム。
【請求項4】
前記役割を示す情報は、前記単語情報が主体に対応することを示す主体情報と、前記単語情報が客体に対応することを示す客体情報と、前記主体から前記客体に対する動作を示す動作情報を含む、
請求項1~3のいずれか1項に記載の情報処理プログラム。
【請求項5】
画像データにおける複数の対象物と前記複数の対象物間の関係とを示すグラフに含まれる単語情報それぞれに対して、前記単語情報が属する関係性を示す情報と、前記関係性における前記単語情報の役割を示す情報と、を追加したデータを生成し、
生成した前記データを自己符号化器への入力データとする機械学習により、前記入力データに対する特徴量を取得し、
取得した前記特徴量に基づいて、前記画像データの分類を実行する、
プロセッサを備える、情報処理装置。
【請求項6】
画像データにおける複数の対象物と前記複数の対象物間の関係とを示すグラフに含まれる単語情報それぞれに対して、前記単語情報が属する関係性を示す情報と、前記関係性における前記単語情報の役割を示す情報と、を追加したデータを生成し、
生成した前記データを自己符号化器への入力データとする機械学習により、前記入力データに対する特徴量を取得し、
取得した前記特徴量に基づいて、前記画像データの分類を実行する、
処理をコンピュータが実行する、情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理プログラム,情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
画像データから得られる知識グラフを用いて画像データに関連するトピックを識別する方法がある。トピックを識別するために、画像データとは別に教師データが用意される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-57365号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、用意される教師データの内容によっては、画像データ中の複数の対象物と複数の対象物間の関係性とを反映して画像データを分類できないおそれがある。
【0005】
1つの側面では、画像データ中における複数の対象物と複数の対象物間の関係性とを反映して画像データを分類することを目的とする。
【課題を解決するための手段】
【0006】
1つの側面では、情報処理プログラムは、画像データにおける複数の対象物と複数の対象物間の関係とを示すグラフに含まれる単語情報それぞれに対して、単語情報が属する関係性を示す情報と、関係性における単語情報の役割を示す情報と、を追加したデータを生成し、生成したデータを自己符号化器への入力データとする機械学習により、入力データに対する特徴量を取得し、取得した特徴量に基づいて、画像データの分類を実行する、処理をコンピュータに実行させる。
【発明の効果】
【0007】
1つの側面では、画像データ中における複数の対象物と複数の対象物間の関係性とを反映して画像データを分類することができる。
【図面の簡単な説明】
【0008】
図1】関連技術における画像特徴量に基づくクラスタリング処理を説明する図である。
図2】実施形態における情報処理装置のハードウェア構成例を模式的に示すブロック図である。
図3図2に示した情報処理装置による学習時における特徴量の取得処理の一例を説明する図である。
図4図2に示した情報処理装置におけるシーングラフの一例を模式的に示す図である。
図5図2に示した情報処理装置による学習時におけるソフトウェア構成例を模式的に示すブロック図である。
図6図2に示した情報処理装置による推論時におけるクラスタリング処理の一例を説明する図である。
図7図2に示した情報処理装置による推論時におけるクラスタリング処理の他の例を説明する図である。
図8図2に示した情報処理装置による推論時におけるソフトウェア構成例を模式的に示すブロック図である。
図9図2に示した情報処理装置におけるデータ形式の変換処理の一例を説明する図である。
図10図2に示した情報処理装置による学習処理の一例を示す図である。
図11図2に示した情報処理装置による学習処理の他の例を示す図である。
図12図2に示した情報処理装置による学習時における特徴量の取得処理の第2の例を説明する図である。
図13図2に示した情報処理装置による学習時における特徴量の取得処理の第3の例を説明する図である。
図14図2に示した情報処理装置における異常検知処理の一例を示す図である。
図15図2に示した情報処理装置におけるサマリー生成処理の一例を示す図である。
図16図2に示した情報処理装置における学習処理を説明するフローチャートである。
図17図2に示した情報処理装置における推論処理を説明するフローチャートである。
【発明を実施するための形態】
【0009】
〔A〕関連例
図1は、関連技術におけるクラスタリング処理を説明する図である。
【0010】
クラスタリングは、データ間の類似度に基づいて、データを分類することを意味する。図1に示される処理において、動画データ200に含まれるフレーム画像210-1~210-3は、特徴量に基づいてクラスタリングされる。動画データ200は、入力動画であり、一例において、監視映像であってよく、他の種類の動画であってもよい。
【0011】
一例において、動画データ200に含まれる各フレーム画像210-1~210-3(総称してフレーム画像210と称する場合がある)が画像データである。入力される各フレーム画像210に対してConvolutional Neural Network(CNN)等の画像処理が実行されることで、それぞれの特徴量#1~#3が得られる。CNNは、画像処理において広く用いられるニューラルネットワークである。
【0012】
特徴量#1~#3を得るために、CNN等の画像処理に加えて、対象物についての物体検出結果(例えば、図1に示す物体検出結果#1)が使用されてもよい。各フレーム画像210等の画像データそのものから得られる特徴量を「画像特徴量」と称する場合がある。対象物は、オブジェクトまたは物体と呼ばれる場合がある。
【0013】
しかしながら、各フレーム画像210そのものから特徴量を得る場合、画像の色味及び撮影角度等の影響を受けることがある。この結果、フレーム画像210中に登場する対象物や、対象物の動作、複数の対象物間の関係性等の場面内容が特徴量に正確に反映されないおそれがある。
【0014】
そこで、複数の対象物と複数の対象物間の関係性情報とを有するシーングラフを入力データに含めることが想定される。シーングラフは、主体となる対象物、客体となる対象物、及び対象物間の関係性の組が複数連なったデータ形式で表現される。そして、実施形態における処理においては、シーングラフに基づいて特徴量が取得される。
【0015】
〔B〕実施形態
以下、図面を参照して一実施の形態を説明する。但し、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
【0016】
以下、図中において、同一の各符号は同様の部分を示しているので、その説明は省略する。
【0017】
〔B-1〕構成例
図2は、実施形態における情報処理装置1のハードウェア構成例を模式的に示すブロック図である。
【0018】
情報処理装置1は、コンピュータである。図2に示すように、情報処理装置1は、Central Processing Unit(CPU)11,メモリ部12,表示制御部13,記憶装置14,入力Interface(IF)15,外部記録媒体処理部16及び通信IF17を備える。
【0019】
メモリ部12は、記憶部の一例であり、例示的に、Read Only Memory(ROM)及びRandom Access Memory(RAM)などである。メモリ部12のROMには、Basic Input/Output System(BIOS)等のプログラムが書き込まれてよい。メモリ部12のソフトウェアプログラムは、CPU11に適宜に読み込まれて実行されてよい。また、メモリ部12のRAMは、一時記録メモリあるいはワーキングメモリとして利用されてよい。
【0020】
表示制御部13は、表示装置130と接続され、表示装置130を制御する。表示装置130は、液晶ディスプレイやOrganic Light-Emitting Diode(OLED)ディスプレイ,Cathode Ray Tube(CRT),電子ペーパーディスプレイ等であり、オペレータ等に対する各種情報を表示する。表示装置130は、入力装置と組み合わされたものでもよく、例えば、タッチパネルでもよい。
【0021】
記憶装置14は、高IO性能の記憶装置であり、例えば、Dynamic Random Access Memory(DRAM)やSolid State Drive(SSD),Storage Class Memory(SCM),Hard Disk Drive(HDD)が用いられてよい。
【0022】
入力IF15は、マウス151やキーボード152等の入力装置と接続され、マウス151やキーボード152等の入力装置を制御してよい。マウス151やキーボード152は、入力装置の一例であり、これらの入力装置を介して、オペレータが各種の入力操作を行なう。
【0023】
外部記録媒体処理部16は、記録媒体160が装着可能に構成される。外部記録媒体処理部16は、記録媒体160が装着された状態において、記録媒体160に記録されている情報を読み取り可能に構成される。本例では、記録媒体160は、可搬性を有する。例えば、記録媒体160は、フレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、又は、半導体メモリ等である。
【0024】
通信IF17は、外部装置との通信を可能にするためのインタフェースである。
【0025】
CPU11は、プロセッサの一例であり、種々の制御や演算を行なう処理装置である。CPU11は、メモリ部12に読み込まれたOperating System(OS)やプログラムを実行することにより、種々の機能を実現する。
【0026】
情報処理装置1全体の動作を制御するための装置は、CPU11に限定されず、例えば、MPUやDSP,ASIC,PLD,FPGAのいずれか1つであってもよい。また、情報処理装置1全体の動作を制御するための装置は、CPU,MPU,DSP,ASIC,PLD及びFPGAのうちの2種類以上の組み合わせであってもよい。なお、MPUはMicro Processing Unitの略称であり、DSPはDigital Signal Processorの略称であり、ASICはApplication Specific Integrated Circuitの略称である。また、PLDはProgrammable Logic Deviceの略称であり、FPGAはField Programmable Gate Arrayの略称である。
【0027】
〔B-1-1〕学習時
図3は、図2に示した情報処理装置1による学習時における特徴量の取得処理の一例を説明する図である。図4は、図2に示した情報処理装置1におけるシーングラフ300の一例を模式的に示す図である。
【0028】
図3に示すように、情報処理装置1は、シーングラフ300を、自己符号化器20に入力して、シーングラフ302として復元して出力する。
【0029】
図4には、シーングラフ300とシーングラフ300の元になったフレーム画像210とが示されている。フレーム画像210中には、複数の対象物211-1~211-5(総称して対象物211と称する場合がある)が含まれる。本例では、対象物211は、人(対象物211-1)であってもよく、眼鏡(対象物211-2)、カップ(対象物211-3)及び携帯電話(対象物211-4)のように物であってもよく、手(対象物211-5)のように人または物の部分であってもよい。
【0030】
シーングラフ300は、フレーム画像210内において認識された複数の対象物211と複数の対象物211間の関係とを含むグラフである。シーングラフ300は、フレーム画像210内において認識された複数の対象物211と複数の対象物211間の関係をツリー構造で表したグラフであってよい。シーングラフは知識グラフの一種であってよい。グラフは、頂点(ノード)と、頂点同士の関係とを表したデータ構造である。
【0031】
シーングラフ300は、対象物211の名称に対応する第1単語情報321-1~321-5(総称して、第1単語情報321と称する場合がある)を含んでよい。また、シーングラフ300は、対象物211の動作を示す第2単語情報322-1~322-4(総称して、第2単語情報322と称する場合がある)を含んでよく、対象物211の動作以外の状態や様子を表す第3単語情報322-5を含んでよい。
【0032】
また、シーングラフ300は、複数の対象物211間の関係を有向性エッジ323で示してよい。有向性エッジ323は、矢印のある線であってよい。図4においては、説明の簡便のために第1単語情報321-1と第1単語情報321-2との間の有向性エッジ323のみ符号を示す。有向性エッジ323の両端の連結関係は複数の第1単語情報321の属する関係を示し、有向性エッジ323の向きは複数の第1単語情報321の役割を示す。
【0033】
図3において、情報処理装置1は、シーングラフ300に含まれる単語情報それぞれに対して、関係性を示す情報及び役割を示す情報を追加して変換データを生成する。生成された変換データは、シーングラフ300のデータ形式を変換したデータであってよい。
【0034】
情報処理装置1は、生成した変換データを自己符号化器(オートエンコーダ)20への入力データとする機械学習により、入力データに対する特徴量30を取得する。機械学習は、自己教師あり機械学習であってよい。自己符号化器20は、エンコーダネットワーク21及びデコーダネットワーク22を有する。エンコーダネットワーク21及びデコーダネットワーク22は、それぞれニューラルネットワークである。
【0035】
エンコーダネットワーク21は、シーングラフ300に対応する入力データを特徴量30に変換する。デコーダネットワーク22は、特徴量30からシーングラフ302に対応する出力データを復元する。
【0036】
情報処理装置1は、出力データが、入力データに一致するように自己符号化器20を調整する。具体的には、情報処理装置1は、出力データと入力データとを比較して復元誤差を算出する。復元誤差は、エンコーダネットワーク21への入力データと、デコーダネットワーク22からの出力データとの差分であってよい。情報処理装置1は、誤差逆伝搬によってエンコーダネットワーク21及びデコーダネットワーク22という2つのニューラルネットワークの重みを調整する。特徴量30は、エンコーダネットワーク21とデコーダネットワーク22との間において符号化される特徴量であるので、中間特徴量と呼ばれる場合がある。
【0037】
自己符号化器20は、対象物211と関係性とを復元できるように、エンコーダネットワーク21及びデコーダネットワーク22という2つのニューラルネットワークにおけるベクトル化モデルを学習する。
【0038】
図5は、図2に示した情報処理装置1による学習時におけるソフトウェア構成例を模式的に示すブロック図である。
【0039】
情報処理装置1(コンピュータ)のCPU11等のプロセッサは、OSやプログラムを実行することにより、シーングラフ生成部51,シーングラフ変換部52,特徴量算出部53,シーングラフ復元部54,クラスタリング部55,クラスター教師データ計算部56,及び誤差計算部57として機能する。
【0040】
シーングラフ生成部51は、入力された動画データ200に含まれるフレーム画像210から、それぞれのシーングラフ300を生成する。シーングラフ生成部51は、フレーム画像210中に含まれる対象物211及び関係性をCNN等の画像処理技術によって認識する。各対象物211は、画像における各対象物211の座標と、ラベル(人、携帯電話等)とにより表示される。シーングラフ生成部51の機能は、既存の技術を用いて実現することができるので、詳しい説明は省略する。情報処理装置1は、他の装置によって生成されたシーングラフ300を取得してよい。この場合、シーングラフ生成部51は省略することができる。
【0041】
シーングラフ変換部52は、シーングラフ300を自己符号化器20に入出力することができる形式に変換する。特徴量算出部53は、図3を用いて前述したエンコーダネットワーク21に相当する。シーングラフ復元部54は、図3を用いて前述したデコーダネットワーク22に相当する。
【0042】
クラスタリング部55は、同じ場面に分類された複数のフレーム画像210に対応するシーングラフ300のそれぞれに基づいて取得される各特徴量30間の距離を小さくする。また、クラスタリング部55は、異なる場面に分類された複数のフレーム画像210に対応するシーングラフ300のそれぞれに基づいて取得される各特徴量30間の距離を大きくしてよい。一例において、クラスタリング方法として、K-mean法やexpectation-maximization(EM)アルゴリズム、敵対的生成ネットワーク(GAN)を利用する方法等が用いられてよい。K-mean法、EMアルゴリズム、及びGANについての詳しい説明は省略する。
【0043】
クラスター教師データ計算部56は、クラスタリング部55のための教師データを作成する。クラスター教師データ計算部56は、一例において、特徴量30間の距離を計算した場合に、それぞれの特徴量30を計算したシーングラフ300が同じ場面であれば“0”とし、それぞれの特徴量を計算したシーングラフ300が異なる場面であれば“1”とする。但し、クラスタリング部55及びクラスター教師データ計算部56は省略されてもよい。
【0044】
誤差計算部57は、シーングラフ変換部52によって作成されて特徴量算出部53に入力される入力データとシーングラフ復元部54によって復元された出力データとを比較して、シーングラフ復元誤差を算出してよい。さらに、誤差計算部57は、クラスタリング部55による算出結果とクラスター教師データ計算部56による教師データとの間の誤差であるクラスタリング誤差を算出してよい。誤差計算部57は、シーングラフ復元誤差とクラスタリング誤差を足し合わせて誤差を計算してよい。誤差計算部57によって計算された誤差は、誤差逆伝搬によって特徴量算出部53及びシーングラフ復元部54にフィードバックされる。誤差に基づいて誤差が小さくなるように特徴量算出部53及びシーングラフ復元部54が調整される。誤差計算部57によって計算された誤差は、さらに、クラスタリング部55にフィードバックされてよい。
【0045】
〔B-1-2〕推論時
図6は、図2に示した情報処理装置1による推論時におけるクラスタリング処理の一例を説明する図である。
【0046】
シーングラフ生成部51の処理と同様の方法によって、動画データ200に含まれる各フレーム画像210-1~210-3からシーングラフ300-1~300-3が生成される。学習済みのエンコーダネットワーク21-1~21-3を用いて、各シーングラフ300-1~300-3からそれぞれに対応する特徴量30-1~30-3が計算される。
【0047】
図6に示される例では、情報処理装置1は、各フレームからのシーングラフ300-1、300-2、300-3をそれぞれのエンコーダネットワーク21-1、21-2、21-3に入力して特徴量30-1~30-3を算出する。
【0048】
情報処理装置1は、特徴量30-1~30-3を用いて、フレーム画像210-1~210-3についてクラスタリング(分類)を実行する。図6の例では、特徴量30-1~30-3に基づいて、フレーム#2とフレーム#3とが同じグループに分類され、フレーム#1はフレーム#2及びフレーム#3と異なるグループに分類される。
【0049】
図7は、図2に示した情報処理装置1による推論時におけるクラスタリング処理の他の例を説明する図である。
【0050】
図7に示される例では、情報処理装置1は、複数のフレーム画像210-1~210-3からのシーングラフ300-1、300-2、300-3を単一のエンコーダネットワーク21に入力して特徴量30-1~30-3を算出する。これにより動画としての情報が特徴量30-1~30-3に反映される。
【0051】
図8は、図2に示した情報処理装置1による推論時におけるソフトウェア構成例を模式的に示すブロック図である。
【0052】
情報処理装置1(コンピュータ)のCPU11等のプロセッサは、OSやプログラムを実行することにより、シーングラフ生成部51,シーングラフ変換部52,特徴量算出部53,クラスタリング部58,異常検知部61及びサマリー生成部62として機能する。
【0053】
シーングラフ生成部51,シーングラフ変換部52及び特徴量算出部53は、図5に示した学習時と同様の処理を実行する。
【0054】
クラスタリング部58は、取得した特徴量30に基づいて、画像データのクラスタリングを実行する。特徴量は、特徴量算出部53によって算出される。クラスタリング部58は、特徴量30の距離に応じて画像データをクラスタリングしてよい。クラスタリングは、既存のクラスタリング方法を使用して実行することができる。一例において、クラスタリング方法として、K-mean法やEMアルゴリズム、及びGANを利用する方法等が用いられてよい。K-mean法、EMアルゴリズム、及びGANについての詳しい説明は省略する。
【0055】
異常検知部61は、異常が発生している時系列に対応するフレーム画像#nを検出する。異常検知部61は、既存の外れ値検出手法用いて異常検知してよい。外れ値とは、データ点が分布から大きく外れているもの、つまり他のデータと比べて極端に離れた値であってよい。
【0056】
サマリー生成部62は、クラスタリング結果をもとに動画のサマリーを生成する。異常検知部61及びサマリー生成部62の内容については後述する。なお、異常検知部61及びサマリー生成部62は、省略されてもよい。
【0057】
図9は、図2に示した情報処理装置1におけるデータ形式の変換処理の一例を説明する図である。図9を参照して、図5及び図8に示したシーングラフ変換部52の機能について説明する。
【0058】
元データ330は、少なくともシーングラフ300を含む。元データ330は、フレーム画像210とフレーム画像に対応するシーングラフ300とを含むデータセットであってよい。データセットは、Visual Genome等により取得されてよい。シーングラフ300は、フレーム画像に対して関連情報を付与する注釈(アノテーション)として記述されていてもよい。
【0059】
シーングラフ変換部52は、シーングラフ300に含まれる単語情報それぞれに対して、単語情報が属する関係性を示す情報と、関係性における単語情報の役割を示す情報と、を追加した変換データ340を生成する。変換データ340は、シーングラフ300に含まれる単語情報に対応するラベルトークン341、ラベルトークンが属する関係性を示す関係性トークン342、及び関係性におけるラベルトークンの役割を示す種類トークン343を含む。
【0060】
ラベルトークン341は、シーングラフ300に含まれる単語情報の一例である。ラベルトークン341は、インスタンスごとのクラスを示す。インスタンスは、対象物(物体)と関係性とを含む。
【0061】
関係性トークン342は、各インスタンスが属する関係性を示す。関係性トークン342は、単語情報が属する関係性を示す情報の一例である。
【0062】
種類トークン343は、各インスタンスが関係性の中で果たす役割を示す。種類トークン343は、主体情報(図中「2」で表示)、客体情報(図中「3」で表示)、動作情報(図中「1」で表示)を含む。種類トークン343は、関係性におけるラベルトークンの役割を示す情報の一例である。
【0063】
シーングラフ300に含まれる単語情報、すなわち、インスタンスは、図4を用いて前述したように、対象物211の名称に対応する第1単語情報321-1~321-5、対象物211の動作を示す第2単語情報322-1~322-4、及び対象物211の動作以外の状態や様子を表す第3単語情報322-5を含んでよい。ラベルトークン341は、単語そのものであってもよく、学習済みエンベディングであってもよい。学習済みエンベディングは、汎用コンテキスト内等で事前に学習された単語または文の意味を示す特徴量であるベクトルであってよい。
【0064】
図9では、ラベルトークン341として、ラベルトークン341-1(「着用する(wearing)」)、ラベルトークン341-2(「人(man)」)、ラベルトークン341-3(「眼鏡(glasses)」)、ラベルトークン341-4(「持つ(holding)」)、ラベルトークン341-5(「人(man)」)、及びラベルトークン341-6(「電話(phone)」)がある。そして、関係性トークン342は、ラベルトークン341-1(「着用する」)、ラベルトークン341-2(「人」)及びラベルトークン341-3(「眼鏡」)が一つの関係性(「1」)に属することを示す。同様に、関係性トークン342は、ラベルトークン341-4(「持つ」)、ラベルトークン341-5(「人」)及びラベルトークン341-6(「電話」)が一つの関係性(「2」)に属することを示す。
【0065】
種類トークン343は、一つの関係性の中でラベルトークン341-2(「人」)が主体に対応することを示す主体情報(「2」)と、ラベルトークン341-3(「眼鏡」)が客体に対応することを示す客体情報(「3」)と、ラベルトークン341-1(「着用する」)が主体から客体に対する動作に対応することを示す動作情報(「1」)とを含んでよい。
【0066】
さらに、情報処理装置1は、画像データに対してCNN等の画像処理を実行することによって、それぞれの画像特徴量344を取得する処理を実行してよい。そして、変換データ340は、画像特徴量344をさらに含んでよい。
【0067】
本例では、画像特徴量344は、関係性トークン342及び種類トークン343がいずれも「0」に設定されていることによって、他のラベルトークン341とは区別可能になっている。図9に示されるように、シーングラフ300から作成されたデータと画像特徴量344とが連結されて変換データ340とされてもよい。この場合、シーングラフ300のデータ形式を変換した変換データ340のみならず、画像特徴量344についても、自己符号化部20に入力される。但し、画像特徴量344を含まずにシーングラフ300から作成されたデータを変換データ340としてもよい。
【0068】
図10は、図2に示した情報処理装置1による学習処理の一例を示す図である。
【0069】
自己符号化器20への入力データである変換データ340及び出力データ350は、それぞれラベルトークン341、関係性トークン342及び種類トークン343を含む。具体的には、エンコーダネットワーク21に入力される変換データ340(入力データ)が正解ラベルとして与えられる。そして、デコーダネットワーク22から出力される出力データが正解ラベルと一致するように、エンコーダネットワーク21及びデコーダネットワーク22が調整される。すなわち、情報処理装置1は、生成した変換データ340を自己符号化器20への入力データとする自己教師あり機械学習を実行する。
【0070】
図11は、図2に示した情報処理装置1による学習処理の他の例を示す図である。
【0071】
図11に示される例においては、自己符号化器20のエンコーダネットワーク21が単一のニューラルネットワークではなく、複数のモジュール41,42,43を有している。各モジュール41,42,43がニューラルネットワークである。
【0072】
第1符号化器41-1~41-4(総称して、第1符号化器41と称する場合がある)は、複数の対象物211のうちの一の対象物についての単語情報を取得する第1の符号化処理を実行する。本例では、第1符号化器41は、複数の対象物のうちの一の対象物についての単語情報と画像特徴量とが入力される。第1符号化器41は、機械学習により単語情報と画像特徴量とを反映した第1特徴量を算出する。
【0073】
第2符号化器42-1及び42-2(総称して、第2符号化器42と称する場合がある)は、第1の符号化処理の結果に基づいて、関係性を示す情報と役割を示す情報とを取得する第2の符号化処理を実行する。本例では、第2符号化器42には、複数の第1符号化器41によるそれぞれの第1の符号化処理の結果と、対象物211の動作または状態を示す単語情報とが入力される。第2符号化器42は、機械学習により単語情報と、関係性を示す情報と、役割を示す情報とを反映した第2特徴量を算出する。
【0074】
第3符号化器43は、第1の符号化処理と第2の符号化処理とに基づいて生成したデータを用いて、特徴量30を取得する第3の符号化処理を実行する。本例では、第3符号化器43には、第1の符号化処理と第2の符号化処理とに基づいて生成された複数の第2特徴量が入力される。
【0075】
本例によれば、第1符号化器41及び第2符号化器42による符号化処理によって、シーングラフ300に含まれる単語情報それぞれに対して、単語情報が属する関係性を示す情報と、関係性における単語情報の役割を示す情報と、を追加したデータとして第2特徴量が生成される。
【0076】
情報処理装置1は、デコーダネットワーク22によって特徴量30から復元された出力データ350と、第1符号化器41及び第2符号化器42に入力される元データ330に含まれるデータとを比較して復元誤差を算出してよい。情報処理装置1は、誤差逆伝搬によって、少なくとも第3符号化器43とデコーダネットワーク22とを調整し、好ましくは、さらに第1符号化器41及び第2符号化器42を調整する。
【0077】
図11の処理によれば、エンコーダネットワーク21がモジュール化されている。したがって、入力データ370においては、関係性トークン及び種類トークンを加える必要がない。したがって、ニューラルネットワークへの入力が単純になり学習が容易になる。
【0078】
また、第1符号化器41、第2符号化器42、第3符号化器43の入力長が限定されることからも、学習が容易になる。なお、図11に示される処理においては、デコーダネットワーク22は単一のニューラルネットワークであるが、デコーダネットワーク22も、単一のニューラルネットワークに代えて、図11のエンコーダネットワークのような階層的な複数のモジュールを有するようにしてもよい。
【0079】
図12は、図2に示した情報処理装置1による学習時における特徴量の取得処理の第2の例を説明する図である。
【0080】
図12において、動画データ200には、複数のフレーム画像#1,・・・#m,#m+1・・・#nが含まれる。動画データ200は、場面ごとにセグメンテーション(グループ分け)される。図12に示される例では、複数のフレーム画像は、場面A及び場面Bに分類される。
【0081】
情報処理装置1は、同じ場面Aに分類される複数のフレーム画像#1~#mに対応するシーングラフ300のそれぞれに基づいて取得されるそれぞれの特徴量#1~#mの距離を小さくする。また、情報処理装置1は、同じ場面Bに分類される複数のフレーム画像#m+1~#nに対応するシーングラフ300のそれぞれに基づいて取得されるそれぞれの特徴量#m+1~#nの距離を小さくする。一方、情報処理装置1は、場面Aに対応する特徴量#1~#mと、異なる場面Bに対応する特徴量#m+1~#nとの距離を大きくする。
【0082】
図12に示される処理では、特徴量#1~#nについて、シーングラフ300に含まれる単語情報それぞれに対して、関係性を示す情報と、役割を示す情報と、を追加したデータが生成される。生成されたデータを入力データとする機械学習により、入力データに対する特徴量を取得する処理を除いて、既存の方法を適用することができる。既存の方法としては、例えば、K-mean法やEMアルゴリズム、GANがある。K-mean法、EMアルゴリズム、及びGANについての詳しい説明は省略する。
【0083】
図13は、図2に示した情報処理装置1による学習時における特徴量の取得処理の第3の例を説明する図である。
【0084】
図13において、動画データ200は、複数の動画データ200-1(動画A)及び200-2(動画B)を含む。情報処理装置1は、同じ動画Aに含まれる複数のフレーム画像#A1~#A3に対応するシーングラフ300のそれぞれに基づいて取得される各特徴量#A1~#A3の距離を小さくする。情報処理装置1は、同じ動画Bに含まれる複数のフレーム画像#B1~#B3に対応するシーングラフ300のそれぞれに基づいて取得される各特徴量#B1~#B3の距離を小さくする。
【0085】
情報処理装置1は、動画Aに含まれる複数のフレーム画像#A1~#A3に対応する特徴量#A1~#A3と、動画Aと異なる動画Bに含まれる複数のフレーム画像#B1~#B3に対応する特徴量#B1~#B3との距離を大きくする。他の処理内容は、図12に示される場合と同様である。このように動画データ200がセグメンテーションされていない場合であっても、異なる動画の組み合わせがある場合には、疑似的なラベリングにより、クラスタリングの精度を向上することができる。
【0086】
図14は、図2に示した情報処理装置1における異常検知処理の一例を示す図である。
【0087】
異常検知処理は、画像データの分割処理を用いた応用例の一つである。図14では、図8に示した異常検知部61の処理内容を説明する。
【0088】
情報処理装置1は、複数のフレーム画像#1,#2,・・・#m,・・・,#nに対応するシーングラフ300のそれぞれに基づいて取得される複数の特徴量#1,#2,・・・#m,・・・,#nのそれぞれの間の距離に基づいて、異常が発生しているフレーム画像#mに対応する時系列を検出する処理を実行する。具体的には、情報処理装置1は、動画データ200において、異常が発生しているフレーム画像#mを特定する。一例において、情報処理装置1は、フレーム画像#mを示す時間情報を特定してよい。図14の処理には、既存の外れ値検出手法を利用してよい。
【0089】
図15は、図2に示した情報処理装置1におけるサマリー生成処理の一例を示す図である。
【0090】
サマリー生成処理は、画像データの分割処理を用いた応用例の一つである。図15では、図8に示したサマリー生成部62の処理内容を説明する。サマリー生成部62は、動画データ200のサマリーを生成する。サマリーは、動画要約とも呼ばれる。サマリーは、動画データ200において、時系列に動画内容を分類したデータであってよい。一例において、サマリーは、もとの映像の中で根幹をなす内容を捉えつつ、映像の長さを短くしたものであってよい。
【0091】
情報処理装置1は、複数のフレーム画像#1,#2,・・・#m,・・・#n,・・・・#pに対応するシーングラフ300のそれぞれに基づいて取得される複数の特徴量#1,#2,・・・#m,・・・#n,・・・・#pを得る。情報処理装置1は、複数の特徴量#1,#2,・・・#m,・・・#n,・・・・#pに基づいて、複数のフレーム画像#1,#2,・・・#m,・・・#n,・・・・#pに対してクラスタリング処理を実行する。この結果、複数のフレーム画像において、第1フレーム(#1)から第mフレーム(#m)までが場面Aにクラスタリングされる。第m+1フレームから第nフレーム(#n)までが場面Bにクラスタリングされる。第n+1フレームから第pフレーム(#p)までが場面Cにクラスタリングされる。情報処理装置1は、クラスタリング結果に基づいて得られる場面A、B、Cの遷移についての時間情報を用いて、時系列に動画内容を要約した動画要約(サマリー)を作成する処理を実行する。
【0092】
〔B-2〕動作例
〔B-2-1〕学習時
図2に示した情報処理装置1における学習処理を、図16に示すフローチャート(ステップS11~S19)に従って説明する。
【0093】
シーングラフ生成部51は、入力された動画データ200に含まれる各フレーム画像210からシーングラフ300を生成する(ステップS11)。
【0094】
シーングラフ変換部52は、シーングラフ300を自己符号化器20に入出力することができる形式に変換する(ステップS12)。ステップS12の処理は、シーングラフ300に含まれる単語情報それぞれに対して、関係性を示す情報と、役割を示す情報と、を追加したデータを生成する処理の一例である。
【0095】
エンコーダネットワーク21は、最初のフレーム画像210について、シーングラフ300から特徴量30を計算する(ステップS13)。一例において、エンコーダネットワーク21は、シーングラフ300に対応してステップS12で生成されたデータを特徴量30に変換する。
【0096】
デコーダネットワーク22は、特徴量30からシーングラフ302を復元する(ステップS14)。一例において、デコーダネットワーク22は、特徴量30からシーングラフ302に対応する出力データを復元する。
【0097】
誤差計算部57は、自己符号化器20のエンコーダネットワーク21に入力されるシーングラフ300と、復元されたシーングラフ302との間のシーングラフ復元誤差を計算する(ステップS15)。一例において、誤差計算部57は、シーングラフ300に対応してステップS12で生成されたデータと、特徴量30から復元された出力データとの差分を計算する。
【0098】
情報処理装置1は、誤差逆伝搬によってエンコーダネットワーク21及びデコーダネットワーク22という2つのニューラルネットワークを学習する(ステップS16)。
【0099】
クラスタリング部55は、各フレーム画像210に対応するシーングラフ300のそれぞれに基づいて取得される各特徴量30間の距離を計算する(ステップS17)。
【0100】
クラスター教師データ計算部56は、特徴量30が属するクラスター情報から、クラスタリング部55のための教師データを作成する。クラスタリング部55は、特徴量30が属するクラスター情報から距離の誤差であるクラスタリング誤差を計算する(ステップS18)。一例において、クラスタリング部55は、特徴量間の距離を計算した場合に、それぞれの特徴量を計算したシーングラフ300が同じ場面(同じクラスター)に属するのであれば“0”とし、それぞれの特徴量を計算したシーングラフ300が異なる場面(異なるクラスター)に属するのであれば“1”とする。誤差計算部57は、シーングラフ復元誤差とクラスタリング誤差とを足し合わせて誤差を計算してよい。
【0101】
ステップS17及びステップS18の処理は省略してよい。この場合、情報処理装置1は、ステップS17及びステップS18の処理を実行しない。また、情報処理装置1自体がシーングラフ300を生成する必要はなく、他の装置からシーングラフ300を受信してもよい。この場合、ステップS11は、省略される。
【0102】
全フレーム画像に対して処理が完了していない場合には(ステップS19のNOルート参照)、処理はステップS13に戻り、次のフレーム画像210に対して処理が実行される。
【0103】
一方、全フレーム画像に対して処理が完了した場合には(ステップS19のYESルート参照)、学習処理が終了し、必要に応じて別の動画データ200について学習処理が開始される。
【0104】
〔B-2-2〕推論時
図2に示した情報処理装置1における推論処理を、図17に示すフローチャート(ステップS21~ステップS26)に従って説明する。
【0105】
ステップS21及びステップS22の処理は、図16のステップS11及びステップS12の処理とそれぞれ同様である。
【0106】
情報処理装置1は、学習したモデルを用いて各シーングラフ300から特徴量30を計算する(ステップS23)。具体的には、エンコーダネットワーク21におけるベクトル化モデルが自己教師あり機械学習によって学習される。ステップS23の処理は、生成したデータを自己符号化器20への入力データとする機械学習により、入力データに対する特徴量を取得する処理の一例である。
【0107】
クラスタリング部58は、取得した特徴量に基づいて、画像データのクラスタリング(分類)を実行する(ステップS24)。クラスタリング結果は、種々の処理に用いることができる。
【0108】
異常検知部61は、特徴量30の外れ値に基づいて異常検知処理を実行してよい(ステップS25)。そして、推論処理は終了する。
【0109】
サマリー生成部62は、フレーム画像210の分類に基づいて、時系列に動画内容を要約した動画要約を作成する処理を実行してよい(ステップS26)。そして、推論処理は終了する。サマリー生成部62は、複数のフレーム画像210をクラスタリング結果に基づいて複数の場面に分類する。サマリー生成部62は、場面の遷移に対応して画像データを間引くことによって、動画内容を要約した動画要約を作成してよい。
【0110】
ステップS25及びステップS26の処理は双方ともを省略してよく、どちらか一方を省略してもよい。また、情報処理装置1自体がシーングラフ300を生成する必要はなく、他の装置からシーングラフ300を受信してもよい。この場合、ステップS21は、省略される。
【0111】
〔C〕効果
上述した実施形態の一例によれば、例えば、以下の作用効果を奏することができる。
【0112】
シーングラフ変換部52は、画像データにおける複数の対象物211と複数の対象物間の関係とを示すグラフ300に含まれる単語情報それぞれに対して、単語情報が属する関係性を示す情報と、関係性における単語情報の役割を示す情報と、を追加したデータ340を生成する。特徴量算出部53は、生成したデータ340を自己符号化器20への入力データとする機械学習により、入力データに対する特徴量30を取得する。クラスタリング部55は、取得した特徴量30に基づいて、画像データの分類を実行する。
【0113】
これにより、シーングラフ300に基づいて特徴量を取得し、特徴量に基づいて画像データを分類することができる。したがって、画像データ中に登場する対象物のみならず関係性に基づいて画像データを分類することができる。また、各フレーム画像210そのものから得られる特徴量に依拠して、各フレーム画像210を分類する場合と比べて、各フレーム画像210の色味及び撮影条件の影響を軽減することができる。したがって、各フレーム画像210中に登場する対象物や対象物の動作、対象物間の関係性等を含む場面の内容を特徴量30に正確に反映することができる。
【0114】
画像データは、動画データに含まれる複数のフレーム画像210である。クラスタリング部55は、同じ場面に分類された複数のフレーム画像210に対応するグラフ300のそれぞれに基づいて取得されるそれぞれの特徴量30間の距離を小さくする。クラスタリング部55は、異なる場面に分類された複数のフレーム画像210に対応するグラフ300のそれぞれに基づいて取得される特徴量30間の距離を大きくする、
【0115】
これにより、各特徴量30間の距離を最適化するように学習できる。したがって、特徴量30の精度を高めることができる。
【0116】
第1符号化器41は、複数の対象物211のうちの一の対象物についての単語情報を取得する第1の符号化処理を実行する。第2符号化器42は、第1の符号化処理に基づいて、関係性を示す情報と役割を示す情報とを取得する第2の符号化処理を実行する。第3符号化器43は、第1の符号化処理と第2の符号化処理とに基づいて生成したデータを用いて、特徴量30を取得する第3の符号化処理を実行する、
【0117】
これにより、シーングラフ300に含まれる情報を階層的に入力することによって、自己符号化器20に伝えることができる。
【0118】
単語情報の役割を示す情報は、単語情報341が主体に対応することを示す主体情報と、単語情報が客体に対応することを示す客体情報と、主体から客体に対する動作を示す動作情報を含む。
【0119】
これにより、各単語情報間の関係性を特徴量30に反映させることができる。
【0120】
2つのフレーム画像210を比較して同じ場面であるかを判定する場合と異なり、本実施形態の処理によれば、動画データ200のすべてのフレーム画像210について同時にクラスタリングを実行することもできる。
【0121】
主体となる対象物、客体となる対象物及び主体と客体間の関連性という複数のデータが連なった形式を持つシーングラフ300をラベルトークン341、関係性トークン342、種類トークン343を含むデータ形式に変換したデータが作成される。このため、シーングラフ300に含まれる情報すべてを自己符号化器20に伝えることができる。ラベルトークン341、関係性トークン342及び種類トークン343を含むデータ形式によれば、シーングラフ300そのものを入力データとする場合と異なり、単一の特徴量30を得やすくできる。
【0122】
生成したデータを自己符号化器20への入力データとする自己教師あり機械学習により、入力データに対する特徴量が取得される。したがって、別途の教師データを予め算出する処理が不要となり、教師データを格納しておく記憶容量も削減できる。
【0123】
2つのフレーム画像210において、画像中の対象物及び関係性が同じであるかを個別に判別し、個別の判別結果を統合することで、2つのフレーム画像210の場面が同じであるかを判別する場合は、O(m)(但し、mは動画中の対象物数)の計算量が必要となる。全フレームについて判別するには、同じ処理をk回(但し、kは全フレーム数)繰り返すので、O(m×k)の計算量が必要となる。一方、本実施形態の処理によれば、対象物及び関係性が単一のベクトルである特徴量に集約される。本実施形態によれば、O(m+n)(但し、mは動画中の対象物数、nは動画中の関係性の数)の計算量でよい。なお、O(m+n)の具体的な値は、エンコーダネットワーク21による。またk個の特徴量クラスタリングの計算量はO(k)であるので、全体の処理の計算量はO(m+n)+O(k)となる。したがって、本実施形態の処理によれば、計算量を削減することができる。
【0124】
画像データ中に登場する対象物、対象物の動作、対象物間の関係性等を含む場面の内容を反映した正確なクラスタリング結果に基づいて、異常検知処理を実行することができるで、登場する対象物自体は変わらない場合であっても、関係性の変化から異常検知ができる。
【0125】
画像データ中に登場する対象物、対象物の動作、対象物間の関係性等を含む場面の内容を反映した正確なクラスタリング結果に基づいて、場面の遷移を判別できるため、より正確な状況を反映したサマリーを作成することができる。一例において、サマリー生成処理によれば、工場等の作業所の様子を撮影して得られる動画データから、時間帯ごとに行われていたそれぞれの作業をまとめて動画要約を作成することができる。特に、異なる作業であっても、画像データ中に登場する対象物は変化しない場合がある。本実施形態のサマリー作成処理によれば、登場する対象物が変化しない場合であっても、対象物間の関係性の変化が特徴量30に反映されるので、場面の遷移を正確に捉えて、動画要約を作成することができる。
【0126】
〔D〕その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
【0127】
〔E〕付記
以上の実施形態に関し、更に以下の付記を開示する。
【0128】
(付記1)
画像データにおける複数の対象物と前記複数の対象物間の関係とを示すグラフに含まれる単語情報それぞれに対して、前記単語情報が属する関係性を示す情報と、前記関係性における前記単語情報の役割を示す情報と、を追加したデータを生成し、
生成した前記データを自己符号化器への入力データとする機械学習により、前記入力データに対する特徴量を取得し、
取得した前記特徴量に基づいて、前記画像データの分類を実行する、
処理をコンピュータに実行させる、情報処理プログラム。
【0129】
(付記2)
前記画像データは、動画データに含まれる複数のフレーム画像であり、
同じ場面に分類された複数のフレーム画像に対応する前記グラフのそれぞれに基づいて取得されるそれぞれの前記特徴量間の距離を小さくし、
異なる場面に分類された複数のフレーム画像に対応する前記グラフのそれぞれに基づいて取得される前記特徴量間の距離を大きくする、
付記1に記載の情報処理プログラム。
【0130】
(付記3)
前記データを生成する処理において、
前記複数の対象物のうちの一の対象物についての前記単語情報を取得する第1の符号化処理を実行し、
前記第1の符号化処理に基づいて、前記関係性を示す情報と前記役割を示す情報とを取得する第2の符号化処理を実行し、
前記特徴量を取得する処理において、
前記第1の符号化処理と前記第2の符号化処理とに基づいて生成した前記データを用いて、前記特徴量を取得する第3の符号化処理を実行する、
処理をコンピュータに実行させる、付記1又は2に記載の情報処理プログラム
【0131】
(付記4)
前記役割を示す情報は、前記単語情報が主体に対応することを示す主体情報と、前記単語情報が客体に対応することを示す客体情報と、前記主体から前記客体に対する動作を示す動作情報を含む、
付記1~3のいずれか1項に記載の情報処理プログラム。
【0132】
(付記5)
画像データにおける複数の対象物と前記複数の対象物間の関係とを示すグラフに含まれる単語情報それぞれに対して、前記単語情報が属する関係性を示す情報と、前記関係性における前記単語情報の役割を示す情報と、を追加したデータを生成し、
生成した前記データを自己符号化器への入力データとする機械学習により、前記入力データに対する特徴量を取得し、
取得した前記特徴量に基づいて、前記画像データの分類を実行する、
プロセッサを備える、情報処理装置。
【0133】
(付記6)
前記画像データは、動画データに含まれる複数のフレーム画像であり、
前記プロセッサは、
同じ場面に分類された複数のフレーム画像に対応する前記グラフのそれぞれに基づいて取得されるそれぞれの前記特徴量間の距離を小さくし、
異なる場面に分類された複数のフレーム画像に対応する前記グラフのそれぞれに基づいて取得される前記特徴量間の距離を大きくする、
付記5に記載の情報処理装置。
【0134】
(付記7)
前記プロセッサは、
前記データを生成する処理において、
前記複数の対象物のうちの一の対象物についての前記単語情報を取得する第1の符号化処理を実行し、
前記第1の符号化処理に基づいて、前記関係性を示す情報と前記役割を示す情報とを取得する第2の符号化処理を実行し、
前記特徴量を取得する処理において、
前記第1の符号化処理と前記第2の符号化処理とに基づいて生成した前記データを用いて、前記特徴量を取得する第3の符号化処理を実行する、
付記5または6に記載の情報処理装置。
【0135】
(付記8)
前記役割を示す情報は、前記単語情報が主体に対応することを示す主体情報と、前記単語情報が客体に対応することを示す客体情報と、前記主体から前記客体に対する動作を示す動作情報を含む、
付記5~7のいずれか1項に記載の情報処理装置。
【0136】
(付記9)
画像データにおける複数の対象物と前記複数の対象物間の関係とを示すグラフに含まれる単語情報それぞれに対して、前記単語情報が属する関係性を示す情報と、前記関係性における前記単語情報の役割を示す情報と、を追加したデータを生成し、
生成した前記データを自己符号化器への入力データとする機械学習により、前記入力データに対する特徴量を取得し、
取得した前記特徴量に基づいて、前記画像データの分類を実行する、
処理をコンピュータが実行する、情報処理方法。
【0137】
(付記10)
前記画像データは、動画データに含まれる複数のフレーム画像であり、
同じ場面に分類された複数のフレーム画像に対応する前記グラフのそれぞれに基づいて取得されるそれぞれの前記特徴量間の距離を小さくし、
異なる場面に分類された複数のフレーム画像に対応する前記グラフのそれぞれに基づいて取得される前記特徴量間の距離を大きくする、
処理をコンピュータが実行する、付記9に記載の情報処理方法。
【0138】
(付記11)
前記データを生成する処理において、
前記複数の対象物のうちの一の対象物についての前記単語情報を取得する第1の符号化処理を実行し、
前記第1の符号化処理に基づいて、前記関係性を示す情報と前記役割を示す情報とを取得する第2の符号化処理を実行し、
前記特徴量を取得する処理において、
前記第1の符号化処理と前記第2の符号化処理とに基づいて生成した前記データを用いて、前記特徴量を取得する第3の符号化処理を実行する、
処理をコンピュータが実行する、付記9又は10に記載の情報処理方法。
【0139】
(付記12)
前記役割を示す情報は、前記単語情報が主体に対応することを示す主体情報と、前記単語情報が客体に対応することを示す客体情報と、前記主体から前記客体に対する動作を示す動作情報を含む、
付記9~11のいずれか1項に記載の情報処理方法。
【符号の説明】
【0140】
1 :情報処理装置
11 :CPU
12 :メモリ部
13 :表示制御部
130 :表示装置
14 :記憶装置
15 :入力IF
151 :マウス
152 :キーボード
16 :外部記録媒体処理部
160 :記録媒体
17 :通信IF
20 :自己符号化器
51 :シーングラフ生成部
52 :シーングラフ変換部
53 :特徴量算出部
54 :シーングラフ復元部
55 :クラスタリング部
56 :クラスター教師データ算出部
57 :誤差計算部
58 :クラスタリング部
61 :異常検知部
62 :サマリー生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17