(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022190985
(43)【公開日】2022-12-27
(54)【発明の名称】知識グラフ生成装置、コンピュータープログラム及び方法
(51)【国際特許分類】
G06F 16/90 20190101AFI20221220BHJP
G06F 16/28 20190101ALI20221220BHJP
【FI】
G06F16/90 100
G06F16/28
【審査請求】未請求
【請求項の数】25
【出願形態】OL
(21)【出願番号】P 2021099556
(22)【出願日】2021-06-15
(71)【出願人】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110001900
【氏名又は名称】弁理士法人 ナカジマ知的財産綜合事務所
(72)【発明者】
【氏名】筒川 和樹
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175EA01
5B175KA12
(57)【要約】
【課題】利用者に対して回答を求めることなく、知識グラフを生成することができる知識グラフ生成装置を提供する。
【解決手段】複数のオブジェクトを含むフレーム画像を取得する入出力部120と、複数のオブジェクトのうち、2つのオブジェクト間の関係を表すキャプションを生成するキャプション生成部102と、前記2つのオブジェクトに相当する2つのエンティティ間の関係を、前記キャプションから抽出し、2つのエンティティ及び抽出した関係からなる知識グラフを生成する知識グラフ生成部104とを備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数のオブジェクトを含むフレーム画像を取得する取得手段と、
前記複数のオブジェクトのうち、2つのオブジェクト間の関係を表す文字表現を生成する文字表現生成手段と、
前記2つのオブジェクトに相当する2つのエンティティ間の関係を、前記文字表現から抽出し、前記2つのエンティティ及び抽出した前記関係からなる知識グラフを生成する知識グラフ生成手段と
を備えることを特徴とする知識グラフ生成装置。
【請求項2】
さらに、
知識グラフを記憶するための記憶手段と、
前記知識グラフ生成手段により生成された前記知識グラフを前記記憶手段に書き込む書込手段と
を備えることを特徴とする請求項1に記載の知識グラフ生成装置。
【請求項3】
さらに、
取得した前記フレーム画像に画像認識を施して複数のオブジェクトを検出し、オブジェクトに相当する特徴ベクトルを前記文字表現生成手段に出力する画像認識手段
を備えることを特徴とする請求項1に記載の知識グラフ生成装置。
【請求項4】
前記文字表現生成手段は、前記文字表現として、2つのオブジェクト間の関係を示す1つの文章を生成し、
前記知識グラフ生成手段は、前記文章から、前記2つのエンティティ間の関係を抽出する
ことを特徴とする請求項1に記載の知識グラフ生成装置。
【請求項5】
前記文字表現生成手段は、前記文字表現として、2つのオブジェクト間の関係を示す複数の文章を生成し、
前記知識グラフ生成手段は、前記複数の文章から、前記2つのエンティティ間の関係を、複数、抽出し、前記2つのエンティティと、抽出した複数の前記関係のそれぞれとを、複数の知識グラフとして、生成する
ことを特徴とする請求項1に記載の知識グラフ生成装置。
【請求項6】
前記知識グラフ生成手段は、前記複数のオブジェクトに相当する複数のエンティティから、2つのエンティティからなる候補組を、複数個、選択し、前記文字表現から、前記関係を抽出し、抽出した関係と選択した複数個の候補組のそれぞれとからなる複数の知識グラフの候補を生成し、前記文字表現を用いて、生成した複数の知識グラフの候補から、知識グラフを選択する
ことを特徴とする請求項1に記載の知識グラフ生成装置。
【請求項7】
前記知識グラフ生成手段は、生成した前記複数の知識グラフの候補のそれぞれについて、生成した前記文字表現との類似度を算出し、算出した類似度が所定の閾値以上の知識グラフの候補を、知識グラフとして選択する
ことを特徴とする請求項6に記載の知識グラフ生成装置。
【請求項8】
前記知識グラフ生成手段は、既知の知識グラフ又は既知の文字表現及び既知の知識グラフを基にして文字表現から知識グラフを生成する方法を予め学習して記憶しており、記憶している方法に基づいて、文字表現を用いて知識グラフを生成する
ことを特徴とする請求項1~7のいずれかに記載の知識グラフ生成装置。
【請求項9】
知識グラフを用いて情報処理を行なう情報処理装置であって、
請求項1~8のいずれかに記載の知識グラフ生成装置により、生成された知識グラフを記憶している記憶手段と、
データの入力を受け付ける受付手段と、
前記記憶手段に記憶されている知識グラフを用いて、前記受付手段により入力されたデータに対して、処理を実行する実行手段と
を備えることを特徴とする情報処理装置。
【請求項10】
コンピューターである知識グラフ生成装置において用いられる制御用のコンピュータープログラムであって、
コンピューターに、
複数のオブジェクトを含むフレーム画像を取得する取得ステップと、
前記複数のオブジェクトのうち、2つのオブジェクト間の関係を表す文字表現を生成する文字表現生成ステップと、
前記2つのオブジェクトに相当する2つのエンティティ間の関係を、前記文字表現から抽出し、前記2つのエンティティ及び抽出した前記関係からなる知識グラフを生成する知識グラフ生成ステップと
を実行させるためのコンピュータープログラム。
【請求項11】
前記知識グラフ生成装置は、知識グラフを記憶するための記憶手段を備え、
前記コンピュータープログラムは、さらに、
前記知識グラフ生成ステップにより生成された前記知識グラフを前記記憶手段に書き込む書込ステップを含む
ことを特徴とする請求項10に記載のコンピュータープログラム。
【請求項12】
前記コンピュータープログラムは、さらに、
取得した前記フレーム画像に画像認識を施して複数のオブジェクトを検出し、オブジェクトに相当する特徴ベクトルを前記文字表現生成ステップに出力する画像認識ステップ
を含むことを特徴とする請求項10に記載のコンピュータープログラム。
【請求項13】
前記文字表現生成ステップは、前記文字表現として、2つのオブジェクト間の関係を示す1つの文章を生成し、
前記知識グラフ生成ステップは、前記文章から、前記2つのエンティティ間の関係を抽出する
ことを特徴とする請求項10に記載のコンピュータープログラム。
【請求項14】
前記文字表現生成ステップは、前記文字表現として、2つのオブジェクト間の関係を示す複数の文章を生成し、
前記知識グラフ生成ステップは、前記複数の文章から、前記2つのエンティティ間の関係を、複数、抽出し、前記2つのエンティティと、抽出した複数の前記関係のそれぞれとを、複数の知識グラフとして、生成する
ことを特徴とする請求項10に記載のコンピュータープログラム。
【請求項15】
前記知識グラフ生成ステップは、前記複数のオブジェクトに相当する複数のエンティティから、2つのエンティティからなる候補組を、複数個、選択し、前記文字表現から、前記関係を抽出し、抽出した関係と選択した複数個の候補組のそれぞれとからなる複数の知識グラフの候補を生成し、前記文字表現を用いて、生成した複数の知識グラフの候補から、知識グラフを選択する
ことを特徴とする請求項10に記載のコンピュータープログラム。
【請求項16】
前記知識グラフ生成ステップは、生成した前記複数の知識グラフの候補のそれぞれについて、生成した前記文字表現との類似度を算出し、算出した類似度が所定の閾値以上の知識グラフの候補を、知識グラフとして選択する
ことを特徴とする請求項15に記載のコンピュータープログラム。
【請求項17】
前記知識グラフ生成装置は、既知の知識グラフ又は既知の文字表現及び既知の知識グラフを基にして文字表現から知識グラフを生成する方法を予め学習して記憶しており、
前記知識グラフ生成ステップは、記憶している方法に基づいて、文字表現を用いて知識グラフを生成する
ことを特徴とする請求項10~16のいずれかに記載のコンピュータープログラム。
【請求項18】
知識グラフ生成装置において用いられる制御用の方法であって、
複数のオブジェクトを含むフレーム画像を取得する取得ステップと、
前記複数のオブジェクトのうち、2つのオブジェクト間の関係を表す文字表現を生成する文字表現生成ステップと、
前記2つのオブジェクトに相当する2つのエンティティ間の関係を、前記文字表現から抽出し、前記2つのエンティティ及び抽出した前記関係からなる知識グラフを生成する知識グラフ生成ステップと
を含むことを特徴とする方法。
【請求項19】
前記知識グラフ生成装置は、知識グラフを記憶するための記憶手段を備え、
前記方法は、さらに、
前記知識グラフ生成ステップにより生成された前記知識グラフを前記記憶手段に書き込む書込ステップを含む
ことを特徴とする請求項18に記載の方法。
【請求項20】
前記方法は、さらに、
取得した前記フレーム画像に画像認識を施して複数のオブジェクトを検出し、オブジェクトに相当する特徴ベクトルを前記文字表現生成ステップに出力する画像認識ステップ
を含むことを特徴とする請求項18に記載の方法。
【請求項21】
前記文字表現生成ステップは、前記文字表現として、2つのオブジェクト間の関係を示す1つの文章を生成し、
前記知識グラフ生成ステップは、前記文章から、前記2つのエンティティ間の関係を抽出する
ことを特徴とする請求項18に記載の方法。
【請求項22】
前記文字表現生成ステップは、前記文字表現として、2つのオブジェクト間の関係を示す複数の文章を生成し、
前記知識グラフ生成ステップは、前記複数の文章から、前記2つのエンティティ間の関係を、複数、抽出し、前記2つのエンティティと、抽出した複数の前記関係のそれぞれとを、複数の知識グラフとして、生成する
ことを特徴とする請求項18に記載の方法。
【請求項23】
前記知識グラフ生成ステップは、前記複数のオブジェクトに相当する複数のエンティティから、2つのエンティティからなる候補組を、複数個、選択し、前記文字表現から、前記関係を抽出し、抽出した関係と選択した複数個の候補組のそれぞれとからなる複数の知識グラフの候補を生成し、前記文字表現を用いて、生成した複数の知識グラフの候補から、知識グラフを選択する
ことを特徴とする請求項18に記載の方法。
【請求項24】
前記知識グラフ生成ステップは、生成した前記複数の知識グラフの候補のそれぞれについて、生成した前記文字表現との類似度を算出し、算出した類似度が所定の閾値以上の知識グラフの候補を、知識グラフとして選択する
ことを特徴とする請求項23に記載の方法。
【請求項25】
前記知識グラフ生成装置は、既知の知識グラフ又は既知の文字表現及び既知の知識グラフを基にして文字表現から知識グラフを生成する方法を予め学習して記憶しており、
前記知識グラフ生成ステップは、記憶している方法に基づいて、文字表現を用いて知識グラフを生成する
ことを特徴とする請求項18~24のいずれかに記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、2つのエンティティと、2つのエンティティの間の関係(リレーション)とからなる知識グラフを生成する技術に関する。
【背景技術】
【0002】
知識グラフは、2つのエンティティの間のリレーションを直感的に表現するために、有効な記述方法である。
【0003】
特許文献1によると、知識グラフの補完の精度を向上させることができる知識グラフ補完装置は、知識グラフを記憶する知識グラフ記憶部に、未知のエンティティが存在する場合、当該知識グラフ記憶部が記憶する既知の知識グラフのパターンに基づいて、未知のエンティティについてのトリプル(2つのエンティティとその間の関係を言う。)候補を生成し、各トリプル候補の確信度を算出し、確信度が最も高いトリプル候補についての質問文を生成して、利用者に質問を投げかける。質問に対する利用者からの回答を用いて、未知のエンティティについての知識グラフを補完する。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【非特許文献1】Emma Strubell, Patrick Verga, Daniel Andor, David Weiss, Andrew McCallum,「Linguistically-Informed Self-Attention for Semantic Role Labeling」, College of Information and Computer Sciences, University of Massachusetts Amherst,2018年11月12日
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1により開示された技術によると、未知のエンティティを含む知識グラフを補完するため、利用者との間で、対話が必要である。このため、利用者には、回答の手間がかかる、という問題がある。
【0007】
上記の問題を解決するため、本開示に係る態様は、利用者に対して回答を求めることなく、2つのエンティティと、2つのエンティティの間のリレーションからなる知識グラフを生成することができる知識グラフ生成装置、コンピュータープログラム及び方法を提供する。
【課題を解決するための手段】
【0008】
この目的を達成するため、本開示に係る一態様は、知識グラフ生成装置であって、複数のオブジェクトを含むフレーム画像を取得する取得手段と、前記複数のオブジェクトのうち、2つのオブジェクト間の関係を表す文字表現を生成する文字表現生成手段と、前記2つのオブジェクトに相当する2つのエンティティ間の関係を、前記文字表現から抽出し、前記2つのエンティティ及び抽出した前記関係からなる知識グラフを生成する知識グラフ生成手段とを備えることを特徴とする。
【0009】
ここで、さらに、知識グラフを記憶するための記憶手段と、前記知識グラフ生成手段により生成された前記知識グラフを前記記憶手段に書き込む書込手段とを備える、としてもよい。
【0010】
ここで、さらに、取得した前記フレーム画像に画像認識を施して複数のオブジェクトを検出し、オブジェクトに相当する特徴ベクトルを前記文字表現生成手段に出力する画像認識手段を備えるとしてもよい。
【0011】
ここで、前記文字表現生成手段は、前記文字表現として、2つのオブジェクト間の関係を示す1つの文章を生成し、前記知識グラフ生成手段は、前記文章から、前記2つのエンティティ間の関係を抽出してもよい。
【0012】
ここで、前記文字表現生成手段は、前記文字表現として、2つのオブジェクト間の関係を示す複数の文章を生成し、前記知識グラフ生成手段は、前記複数の文章から、前記2つのエンティティ間の関係を、複数、抽出し、前記2つのエンティティと、抽出した複数の前記関係のそれぞれとを、複数の知識グラフとして、生成してもよい。
【0013】
ここで、前記知識グラフ生成手段は、前記複数のオブジェクトに相当する前記複数のエンティティから、2つのエンティティからなる候補組を、複数個、選択し、前記文字表現から、前記関係を抽出し、抽出した関係と選択した複数個の候補組のそれぞれとからなる複数の知識グラフの候補を生成し、前記文字表現を用いて、生成した複数の知識グラフの候補から、知識グラフを選択してもよい。
【0014】
ここで、前記知識グラフ生成手段は、生成した前記複数の知識グラフの候補のそれぞれについて、生成した前記文字表現との類似度を算出し、算出した類似度が所定の閾値以上の知識グラフの候補を、知識グラフとして選択してもよい。
【0015】
ここで、前記知識グラフ生成手段は、既知の知識グラフ又は既知の文字表現及び既知の知識グラフを基にして文字表現から知識グラフを生成する方法を予め学習して記憶しており、記憶している方法に基づいて、文字表現を用いて知識グラフを生成してもよい。
【0016】
また、本開示の一態様は、知識グラフを用いて情報処理を行なう情報処理装置であって、上記に記載の知識グラフ生成装置により、生成された知識グラフを記憶している記憶手段と、データの入力を受け付ける受付手段と、前記記憶手段に記憶されている知識グラフを用いて、前記受付手段により入力されたデータに対して、処理を実行する実行手段とを備えることを特徴とする。
【0017】
また、本開示の一態様は、コンピューターである知識グラフ生成装置において用いられる制御用のコンピュータープログラムであって、コンピューターに、複数のオブジェクトを含むフレーム画像を取得する取得ステップと、前記複数のオブジェクトのうち、2つのオブジェクト間の関係を表す文字表現を生成する文字表現生成ステップと、前記2つのオブジェクトに相当する2つのエンティティ間の関係を、前記文字表現から抽出し、前記2つのエンティティ及び抽出した前記関係からなる知識グラフを生成する知識グラフ生成ステップとを実行させることを特徴とする。
【0018】
ここで、前記知識グラフ生成装置は、知識グラフを記憶するための記憶手段を備え、前記コンピュータープログラムは、さらに、前記知識グラフ生成ステップにより生成された前記知識グラフを前記記憶手段に書き込む書込ステップを含む、としてもよい。
【0019】
ここで、前記コンピュータープログラムは、さらに、取得した前記フレーム画像に画像認識を施して複数のオブジェクトを検出し、オブジェクトに相当する特徴ベクトルを前記文字表現生成ステップに出力する画像認識ステップを含むとしてもよい。
【0020】
ここで、前記文字表現生成ステップは、前記文字表現として、2つのオブジェクト間の関係を示す1つの文章を生成し、前記知識グラフ生成ステップは、前記文章から、前記2つのエンティティ間の関係を抽出してもよい。
【0021】
ここで、前記文字表現生成ステップは、前記文字表現として、2つのオブジェクト間の関係を示す複数の文章を生成し、前記知識グラフ生成ステップは、前記複数の文章から、前記2つのエンティティ間の関係を、複数、抽出し、前記2つのエンティティと、抽出した複数の前記関係のそれぞれとを、複数の知識グラフとして、生成してもよい。
【0022】
ここで、前記知識グラフ生成ステップは、前記複数のオブジェクトに相当する前記複数のエンティティから、2つのエンティティからなる候補組を、複数個、選択し、前記文字表現から、前記関係を抽出し、抽出した関係と選択した複数個の候補組のそれぞれとからなる複数の知識グラフの候補を生成し、前記文字表現を用いて、生成した複数の知識グラフの候補から、知識グラフを選択してもよい。
【0023】
ここで、前記知識グラフ生成ステップは、生成した前記複数の知識グラフの候補のそれぞれについて、生成した前記文字表現との類似度を算出し、算出した類似度が所定の閾値以上の知識グラフの候補を、知識グラフとして選択してもよい。
【0024】
ここで、前記知識グラフ生成装置は、既知の知識グラフ又は既知の文字表現及び既知の知識グラフを基にして文字表現から知識グラフを生成する方法を予め学習して記憶しており、前記知識グラフ生成ステップは、記憶している方法に基づいて、文字表現を用いて知識グラフを生成してもよい。
【0025】
また、本開示の一態様は、知識グラフ生成装置において用いられる制御用の方法であって、複数のオブジェクトを含むフレーム画像を取得する取得ステップと、前記複数のオブジェクトのうち、2つのオブジェクト間の関係を表す文字表現を生成する文字表現生成ステップと、前記2つのオブジェクトに相当する2つのエンティティ間の関係を、前記文字表現から抽出し、前記2つのエンティティ及び抽出した前記関係からなる知識グラフを生成する知識グラフ生成ステップとを含むことを特徴とする。
【0026】
ここで、前記知識グラフ生成装置は、知識グラフを記憶するための記憶手段を備え、前記方法は、さらに、前記知識グラフ生成ステップにより生成された前記知識グラフを前記記憶手段に書き込む書込ステップを含む、としてもよい。
【0027】
ここで、前記方法は、さらに、取得した前記フレーム画像に画像認識を施して複数のオブジェクトを検出し、オブジェクトに相当する特徴ベクトルを前記文字表現生成ステップに出力する画像認識ステップを含むとしてもよい。
【0028】
ここで、前記文字表現生成ステップは、前記文字表現として、2つのオブジェクト間の関係を示す1つの文章を生成し、前記知識グラフ生成ステップは、前記文章から、前記2つのエンティティ間の関係を抽出してもよい。
【0029】
ここで、前記文字表現生成ステップは、前記文字表現として、2つのオブジェクト間の関係を示す複数の文章を生成し、前記知識グラフ生成ステップは、前記複数の文章から、前記2つのエンティティ間の関係を、複数、抽出し、前記2つのエンティティと、抽出した複数の前記関係のそれぞれとを、複数の知識グラフとして、生成してもよい。
【0030】
ここで、前記知識グラフ生成ステップは、前記複数のオブジェクトに相当する前記複数のエンティティから、2つのエンティティからなる候補組を、複数個、選択し、前記文字表現から、前記関係を抽出し、抽出した関係と選択した複数個の候補組のそれぞれとからなる複数の知識グラフの候補を生成し、前記文字表現を用いて、生成した複数の知識グラフの候補から、知識グラフを選択してもよい。
【0031】
ここで、前記知識グラフ生成ステップは、生成した前記複数の知識グラフの候補のそれぞれについて、生成した前記文字表現との類似度を算出し、算出した類似度が所定の閾値以上の知識グラフの候補を、知識グラフとして選択してもよい。
【0032】
ここで、前記知識グラフ生成装置は、既知の知識グラフ又は既知の文字表現及び既知の知識グラフを基にして文字表現から知識グラフを生成する方法を予め学習して記憶しており、前記知識グラフ生成ステップは、記憶している方法に基づいて、文字表現を用いて知識グラフを生成してもよい。
【発明の効果】
【0033】
この態様によると、利用者に対して回答を求めることなく、2つのエンティティと、2つのエンティティの間のリレーションとからなる知識グラフを生成することができる、という優れた効果を奏する。
【図面の簡単な説明】
【0034】
【
図1】一つの実施の形態としての知識グラフ生成装置10の構成を示すブロック図である。
【
図3】知識データベース150に記憶されている知識グラフの例を示す。
【
図4】静止画像134からキャプション141、142を生成するプロセスを示す。
【
図5】(a)キャプション141から生成される類似文141a、141bを示す。(b)キャプション142から生成される類似文142a、142bを示す。
【
図6】(a)キャプション141から知識グラフ161を生成するプロセスを示す。(b)形態素解析、構文解析及び意味解析のプロセスを適用する例を示す。
【
図7】キャプション141、類似文141a、141b、・・・から生成される知識グラフ171、172、173、・・・を示す。
【
図8】変形例として、キャプション181a、181bから知識グラフを生成するプロセスを示す。
【
図9】実施の形態の応用例(1)としての危険予測装置10aの構成を示すブロック図である。
【
図10】ルールテーブル165のデータ構造の一例を示す。
【
図11】危険予測装置10aの動作を示すフローチャートである。
【
図12】実施の形態の応用例(2)としての検索装置10bの構成を示すブロック図である。
【
図13】シーンテーブル190のデータ構造の一例を示す。
【
図14】検索装置10bの動作を示すフローチャートである。
【
図15】実施の形態の応用例(3)としてのVQA装置10cの構成を示すブロック図である。
【
図16】入力データ127から解答データ303を生成するプロセスを示す。
【
図17】実施の形態の応用例(4)としての知識グラフ補完装置10dの構成を示すブロック図である。
【
図19】実施の形態の変形例として、文章生成において、確率を用いて、一つの単語の後に続く単語を選択する様子を示す。
【発明を実施するための形態】
【0035】
1 実施の形態
一つの実施の形態としての知識グラフ生成装置10について、説明する。
【0036】
1.1 知識グラフ生成装置10
知識グラフ生成装置10は、
図1に示すように、CPU(Central Processing Unit)106、ROM(Read Only Memory)107、RAM(Random access memory)108、バス109、記憶部105及び入出力部120から構成されている。CPU106、ROM107、RAM108、記憶部105及び入出力部120は、バス109を介して、相互に接続されている。
【0037】
RAM108は、読出し及び書込みが可能な不揮発性の半導体メモリから構成されており、CPU106によるプログラム実行時のワークエリアを提供する。
【0038】
ROM107は、読出しのみが可能な不揮発性の半導体メモリから構成されており、知識グラフ生成装置10における処理を実行させるためのコンピュータープログラムである制御プログラム等を格納している。
【0039】
CPU106は、ROM107に記憶されている制御プログラムに従って動作する。
【0040】
CPU106が、RAM108をワークエリアとして用いて、ROM107に記憶されている制御プログラムに従って動作することにより、CPU106、ROM107及びRAM108は、機能的に、画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104を構成する。
【0041】
(1)入出力部120及び記憶部105
入出力部120(取得手段、書込手段)は、記憶部105に記憶されているデータの読み出し、及び、記憶部105に対するデータの書き込みを行なう。
【0042】
記憶部105(記憶手段)は、例えば、ハードディスクユニットから構成されている。
【0043】
記憶部105は、
図1に示すように、動画像データ131及び知識データベース150を記憶している。
【0044】
(動画像データ131)
動画像データ131は、例えば、MPEG(Moving Picture Experts Group)により規定された形式を有する動画像データである。
図2には、スマートフォンを持った男性が階段を降りていく様子を撮影した動画像の例を示す。この図に示すように、動画像データ131は、時系列に沿って並ぶ静止画像(フレーム画像)132、133、134、135、・・・を含んでいる。静止画像132、133、134、135、・・・は、それぞれ、識別番号により識別される。
【0045】
各静止画像は、1又は複数のオブジェクト画像を含んでいる。各オブジェクト画像には、1又は複数のオブジェクトが表現されている。ここで、オブジェクトは、人や物である。
【0046】
例えば、
図4に示す静止画像134は、3個のオブジェクト画像134a、134b、134cを含んでいる。オブジェクト画像134aには、人及びスマートフォンが表されている。また、オブジェクト画像134bには、人の腕及びスマートフォンが表されている。また、オブジェクト画像134cには、人の足及び階段が表されている。ここで、人、人の腕、人の足、スマートフォン、階段は、それぞれ、オブジェクトである。
【0047】
(知識データベース150)
知識データベース150は、知識グラフを記憶するためのデータベースである。
【0048】
知識データベース150は、
図3に示すように、複数の知識グラフ151、151a、151b、・・・を記憶するための領域を備えている。
【0049】
知識グラフ151は、エンティティ1(152)、エンティティ2(154)、及び、エンティティ1(152)とエンティティ2(154)とを関係付けるリレーション153から構成されている。リレーション153には、ラベルが付されている。知識グラフ151は、識別番号155により識別される。その他の知識グラフ151a、151b、・・・も、知識グラフ151と同じ構造を有している。
【0050】
例えば、知識グラフ151aは、エンティティ1(152a)「人」、エンティティ2(154a)「階段」、及び、エンティティ1(152a)とエンティティ2(154a)とを関係付けるリレーション153aから構成されている。リレーション153aには、ラベル「歩く」が付されている。知識グラフ151aは、識別番号155a「ID002」により識別される。
【0051】
また、知識グラフ151bは、エンティティ1(152b)「人」、エンティティ2(154b)「スマートフォン」、及び、エンティティ1(152b)とエンティティ2(154b)とを関係付けるリレーション153bから構成されている。リレーション153bには、ラベル「見る」が付されている。知識グラフ151bは、識別番号155b「ID003」により識別される。
【0052】
ここで、オブジェクトとエンティティとは、実質的に同一の概念である。オブジェクト画像に含まれる実体をオブジェクトと呼び、知識グラフの構成要素である実体をエンティティと呼ぶ。
【0053】
(2)画像認識部101
画像認識部101(画像認識手段)は、以下に示すようにして、取得したフレーム画像に画像認識を施して、複数のオブジェクトを検出する。なお、エンティティ(オブジェクト)は、以下に説明するように、コードとして表現される。
【0054】
画像認識部101には、一例として、ニューラルネットワークが組み込まれている。ニューラルネットワークは、公知であり、説明を省略する。このニューラルネットワークは、例えば、動物(人を含む)及び物、動物及び物の動作、動物及び物の状態、物と物との関係等を表した多数の画像をあらかじめ学習している。
【0055】
ここで、動物とは、例えば、人、男性、女性、犬、猫等である。物とは、例えば、容器、スマートフォン、階段等である。また、動物の動作とは、歩く、見る、立つ等である。さらに、物の状態とは、例えば、物が容器である場合、容器の蓋が開いている状態、又は、閉じている状態であり、物がスマートフォンである場合、着信を知らせるLEDランプが点滅している状態である。
【0056】
画像認識部101は、入出力部120を介して、記憶部105から動画像データ131を読み出す。
【0057】
画像認識部101は、一例として、
図4に示すように、組み込まれたニューラルネットワークを用いて、画像認識により、動画像データ131に含まれる静止画像134から、1又は複数のオブジェクトを検出する(プロセスP01)。
【0058】
次に、画像認識部101は、動画像データ131に含まれる静止画像から認識して区別した動物及び物に該当する領域(オブジェクト)の特徴ベクトルを生成し、生成した特徴ベクトルをキャプション生成部102に対して出力する。また、画像認識部101は、動画像データ131に含まれる静止画像から認識して区別した動物および物、動物の動作並びに物の状態等をそれぞれ示すコード(番号)を生成し、生成したコードを、キャプション生成部102及び知識グラフ生成部104に対して出力してもよい。
【0059】
(3)キャプション生成部102
キャプション生成部102(文字表現生成手段)は、以下に示すようにして、複数のオブジェクトのうち、2つのオブジェクト間の関係を表すキャプション(文字表現、文章)を生成する。
【0060】
キャプション生成部102には、例えば、Transformerモデル等のSeq2Seqモデルが組み込まれている。Transformerモデルは、encoder及びdecoderから構成され、単語間の距離(Positional Encoding)、注意メカニズム(Multi-head Attention)、全結合(Feed Forward)等が用いられている。Transformerモデル、Seq2Seqモデルは、公知であるので、説明を省略する。
【0061】
キャプション生成部102は、一例として、
図4に示すように、画像認識部101から、特徴ベクトルを受け取る。特徴ベクトルを受け取ると、キャプション生成部102は、Transformerモデル等の言語モデルを用いて、受け取った特徴ベクトルに対応する動物及び物、動物の動作並びに物の状態等を組み合わせて、キャプションを生成する(プロセスP02)。
【0062】
キャプション生成部102により生成されるキャプションの例は、「男性が階段を歩いている」、「男性がスマートフォンを見ている」等である。このように、キャプションは、2つのオブジェクト間の関係を表す文章である。
【0063】
キャプション生成部102は、生成したキャプションを類似文生成部103に対して出力する。
【0064】
上記の通り、キャプション生成部102は、2つのオブジェクト間の関係を示す1つの文章を生成する。
【0065】
(4)類似文生成部103
類似文生成部103(文字表現生成手段)には、例えば、上述したTransformerモデルが組み込まれている。なお、類似文生成部103は、キャプション生成部102に組み込まれたTransformerモデルを用いる、としてもよい。
【0066】
類似文生成部103は、キャプション生成部102から、キャプションを受け取る。次に、類似文生成部103は、Transformerモデルを用いて、受け取ったキャプションに類似する類似文を生成する。
【0067】
一例として、
図5(a)に示すように、類似文生成部103は、キャプション141「男性が階段を歩いている」から、類似文141a「男が階段を歩いている」及び類似文141b「人が階段を歩いている」を生成する。また、一例として、
図5(b)に示すように、類似文生成部103は、キャプション142「男性がスマートフォンを見ている」から、類似文142a「男性が携帯電話を見ている」及び類似文142b「男性がスマホを見ている」を生成する。
【0068】
類似文生成部103は、受け取ったキャプション及び生成した類似文を知識グラフ生成部104に対して、出力する。
【0069】
ここで、一例として、「男性」、「男」、「人」等の意味の上で類似している単語には、それぞれ、発生確率が予め設定されている、としてもよい。また、一例として、「スマートフォン」、「携帯電話」、「スマホ」等の意味の上で類似している単語にも、それぞれ、発生確率が予め設定されている、としてもよい。この場合、類似文を生成する際に、各単語に設定された確率に応じて、生成した類似文の発生する確率を設定してもよい。類似文生成部103は、複数の類似文のうち、設定された確率が、所定の閾値以上の場合に、その類似文を採用してもよい。
【0070】
このように、類似文生成部103は、キャプションに類似し、2つのオブジェクト間の関係を示す1つの類似文を生成する。
【0071】
こうして、キャプション生成部102及び類似文生成部103により、2つのオブジェクト間の関係を示す複数の文章を生成する。
【0072】
(5)知識グラフ生成部104
知識グラフ生成部104(知識グラフ生成手段)は、以下に示すように、2つのオブジェクトに相当する2つのエンティティ間の関係を、2つのオブジェクト間の関係を表す文章から抽出し、2つのエンティティ及び抽出した前記関係からなる知識グラフを生成する。
【0073】
知識グラフ生成部104は、画像認識部101から、動物及び物、動物の動作並びに物の状態等をそれぞれ示す特徴ベクトルを受け取る。受け取った特徴ベクトルから、動物及び物を表すエンティティを生成する。
【0074】
知識グラフ生成部104は、類似文生成部103から、キャプション及び類似文を受け取る。ここでは、キャプション及び類似文を文章と呼ぶ。
【0075】
知識グラフ生成部104は、受け取った全ての文章について、各文章を解釈して、動作主、対象及び述語を抽出する。
【0076】
例えば、知識グラフ生成部104は、
図6(a)に示すように、文章「男性が階段を歩いている」を解釈して(プロセスP06)、動作主145a「男が」、対象145b「階段を」及び述語145c「歩いている」を抽出する。
【0077】
次に、知識グラフ生成部104は、生成したエンティティのうち、動作主に相当するエンティティを、エンティティ1とする。また、知識グラフ生成部104は、生成したエンティティのうち、対象に相当するエンティティを、エンティティ2とする。さらに、知識グラフ生成部104は、述語をリレーションとする。このようにして、知識グラフ生成部104は、エンティティ1、エンティティ2及びリレーションからなる知識グラフを生成する。
【0078】
例えば、知識グラフ生成部104は、
図6(a)に示すように、動作主145a「男性が」をエンティティ1(162)「男性」とし、対象145b「階段を」をエンティティ2(164)「階段」とし、述語145c「歩いている」をリレーション163「歩く」として、エンティティ1(162)、エンティティ2(164)及びリレーション163からなる知識グラフ161を生成する。
【0079】
このようにして、知識グラフ生成部104は、
図7に一例として示すように、キャプション141、類似文141a、類似文141b、キャプション142、類似文142a、類似文142bのそれぞれについて、知識グラフ171、172、173、174、175、176を生成する。
【0080】
次に、知識グラフ生成部104は、入出力部120を介して、生成した知識グラフを記憶部105の知識データベース150に書き込む。
【0081】
また、知識グラフ生成部104は、複数の文章(キャプション及び類似文)から、2つのエンティティ間の関係を、複数、抽出し、2つのエンティティと、抽出した複数の関係のそれぞれとを、複数の知識グラフとして、生成してもよい。
【0082】
(変形例1)
なお、知識グラフ生成部104は、Deep Learningベースの手法を用いて、Semantic Role Labeling(意味役割付与)を行い、その結果を用いて、知識グラフを生成してもよい。
【0083】
つまり、知識グラフ生成部104は、既知の知識グラフ又は既知の文章及び既知の知識グラフを基にして文章から知識グラフを生成する方法を予め学習して記憶しており、記憶している方法に基づいて、文章から知識グラフを生成してもよい。
【0084】
ここで、既知の知識グラフ及び既知の文章(元の文章)の例は、以下の通りである。
【0085】
エンティティ1:「carnival glass」
リレーション:「derived from」
エンティティ2:「glass」
元の文章:「The word "carnival glass" is derived from "glass"」
知識グラフ生成部104は、これらを用いて、End-to-Endで、知識グラフのエンティティ1、2、リレーションを文章から推定するモデルを学習する。
【0086】
このモデルを用いて、知識グラフ生成部104は、文章を単語に分割し、後述する特徴ベクトルに変換し、Transformerモデルのencoderに入力する。次に、Transformerモデルのdecoderを、全結合層などに置き換え、エンティティ1、2、リレーションに相当する単語を推定してもよい。
【0087】
(変形例2)
また、知識グラフ生成部104は、構文解析等を行なうことにより、予め定めたルールをベースとして、意味役割付与を行い、その結果を用いて、知識グラフを生成してもよい。以下の順で意味役割付与を行い、知識グラフを得る。
【0088】
(a)形態素解析:文章を形態素に分かち、品詞を推定する。
【0089】
(b)構文解析:品詞の上位に存在する主部、述部、名詞句、動詞句などの構造を発見する。
【0090】
(c)意味解析:文章内の主体や動作の対象が何かという意味を推定する。
【0091】
図6(b)に、文章に形態素解析、構文解析及び意味解析を施して、知識グラフを生成する例を示す。
【0092】
知識グラフ生成部104は、文章31に、形態素解析を施して、形態素32a、32b、32c、32d、32eに分解する(プロセスP07)。文章31「私はおにぎりを食べた」は、形態素32a「私」、形態素32b「は」、形態素32c「おにぎり」、形態素32d「を」及び形態素32e「食べた」に分解される。形態素32a、32b、32c、32d、32eは、それぞれ、代名詞、助詞、名詞、助詞、動詞(過去形)である。
【0093】
次に、知識グラフ生成部104は、形態素32a、32b、32c、32d、32eに、構文解析を施して、名詞句33a「私」、助詞33b「は」、動詞句33c「おにぎりを食べた」に分類し、さらに、名詞句33a及び助詞33bを主部33d「私は」とし、動詞句33cを述部33e「おにぎりを食べた」とする(プロセスP08)。
【0094】
次に、知識グラフ生成部104は、主部33d及び述部33eに、意味解析を施して、主体34a「私」、動作34b「食べる」、動詞の対象34c「おにぎり」及び時制34d「過去」を生成する(プロセスP09)。
【0095】
次に、知識グラフ生成部104は、画像認識部101から受け取ったコードから生成したエンティティのうち、主体34a「私」に相当するエンティティを、エンティティ1(35a)「私」とし、動作34b「食べる」をリレーション35bとし、画像認識部101から受け取ったコードから生成した生成したエンティティのうち、動詞の対象34c「おにぎり」に相当するエンティティを、エンティティ2(35c)とし、エンティティ1(35a)、リレーション35b、エンティティ2(35c)からなる知識グラフ35を生成する(プロセスP10)。
【0096】
1.2 まとめ
以上説明したように、知識グラフ生成装置10は、取得したフレーム画像に画像認識を施してオブジェクトを検出し、そのうちの2つのオブジェクトから前記2つのエンティティを生成する画像認識部101、検出した2つのオブジェクトに相当する特徴ベクトルから、2つのオブジェクト間の関係を表すオリジナル文章を生成するキャプション生成部102、生成したオリジナル文章から当該オリジナル文章に類似する複数の類似文章を生成する類似文生成部103、生成したオリジナル文章及び複数の類似文章を用いて、2つのエンティティと、2つのエンティティ間の関係からなる複数の知識グラフを生成する知識グラフ生成部104を備える。
【0097】
このように、知識グラフ生成装置10は、利用者に対して回答を求めることなく、画像から、2つのエンティティと2つのエンティティの間のリレーションとからなる知識グラフを生成することができる。
【0098】
なお、キャプションは、フレーム画像内の人や物体の関係性を表しているので、フレーム画像が表す意味を反映した知識グラフを生成するために、キャプションを用いることは、有用である。
【0099】
(1)なお、上記においては、知識グラフ生成装置10は、キャプション生成部102及び類似文生成部103を備えるとしているが、これには限定されない。
【0100】
知識グラフ生成装置10は、類似文生成部103を備えていない、としてもよい。
【0101】
この場合、キャプション生成部102は、一例として、2つのオブジェクト画像134a、134c(
図4)から、キャプション「男性が階段を歩いている」を生成し、キャプションの類似文を生成することなく、生成したキャプションを知識グラフ生成部104に対して、出力してもよい。
【0102】
ここで、知識グラフ生成部104は、生成したキャプションを用いて、2つのエンティティの関係を抽出し、2つのエンティティと、2つのエンティティ間の関係とからなる知識グラフを生成してもよい。
【0103】
(2)知識グラフ生成部104は、次のようにして、知識グラフを生成してもよい。
【0104】
非特許文献1には、Semantic Role Labeling(SRL、誰が、誰に対して、何をしたかという情報を抽出)をメインタスクとし、述語特定、係り受け解析、品詞の特定をサブタスクとして行うEnd-to-Endのマルチタスク手法が記載されている。知識グラフ生成部104は、この手法を用いて、SRLの結果から、主体をエンティティ1とし、動作をリレーションとし、動作の対象をエンティティ2として、知識グラフを生成してもよい。
【0105】
1.3 変形例
知識グラフ生成装置10の変形例について、説明する。
【0106】
この変形例では、知識グラフ生成部104は、
図8に一例として示すように、類似文生成部103から受け取った文章としてのキャプション181a、181b(類似文であってもよい。)をベクトル化して、文章毎に特徴ベクトル182を生成する(プロセスP11)。ここで、キャプション181aは、一例として、「男性が階段を歩いている」であり、キャプション181bは、「男性がスマートフォンを見ている」である。
【0107】
文章毎の特徴ベクトルの生成の手順について、説明する。
【0108】
知識グラフ生成部104は、受け取った文章から固定次元の分散表現を得る。例えば、SWEM(Simple Word-Embedding-based Methods)や、LSTM(Long Short Term Memory)、CNN(Convolutional Neural Network),BERT(Bidirectional Encoder Representations from Transformers)などのディープラーニングによるモデルを用いて、文章を特徴ベクトルに変換してもよい。SWEM、LSTM、CNN,BERTは公知であるので、説明を省力する。ここで、文章が「男性が階段を歩いている」である場合、その特徴ベクトルは、例えば、(2.3159367E-1, 5.31529129E-1,-6.28219426E-1,-7.73212969E-1,・・・)である(
図8参照)。
【0109】
このようにして、知識グラフ生成部104は、文章毎に、その特徴ベクトルを生成する。
【0110】
記憶部105は、分類モデル183を予め記憶している。
【0111】
分類モデル183は、
図8に一例として示すように、複数のリレーションから構成される。例えば、分類モデル183は、リレーション183a「歩く」、リレーション183b「見る」、・・・等を含んでいる。
【0112】
次に、知識グラフ生成部104は、文章毎に生成した特徴ベクトルの中の、リレーション(例えば、「歩く」)が分類モデル183の中に存在するか否かを判断し、存在する場合、リレーション186「歩く」を特定する(プロセスP12)。なお、存在しない場合、知識グラフ生成部104は、この特徴ベクトルから、リレーションを特定しない。このため、以下の処理は、実行されず、知識グラフは、生成されない。
【0113】
次に、知識グラフ生成部104は、画像認識部101から受け取ったコードから生成したエンティティのうちの2つのエンティティと、特定したリレーションとの全ての組合せを生成する(プロセスP13)。
【0114】
ここで、
図8に示す例においては、エンティティ1は、「男性」、「階段」、「スマートフォン」であり、エンティティ2も、「男性」、「階段」、「スマートフォン」であり、リレーションは、「歩く」、「見る」である。
【0115】
また、エンティティ1、エンティティ2及び特定したリレーションの組合せは、
図8に示す例においては、知識グラフ184a、184b、184c、・・・である。
【0116】
次に、知識グラフ生成部104は、生成した組合せから、文章を作成する(プロセスP14)。
図8に示す例においては、文章185a、185b、185c、・・・が生成される。
【0117】
次に、知識グラフ生成部104は、受け取ったキャプション181aが、生成した文章185a、185b、185c、・・・のいずれに類似しているかを判定する(プロセスP15)。類似の判定をする際に、例えば、文章185a、185b、185c、・・・から特徴ベクトルを生成し、生成した特徴ベクトルと、受け取ったキャプション181aの特徴ベクトルとを比較してもよい。
【0118】
次に、知識グラフ生成部104は、文章185a、185b、185c、・・・のうち、受け取ったキャプション181aに類似する文章に対応する知識グラフを選択する。知識グラフ生成部104は、選択した知識グラフを知識データベースに150に書き込む(プロセスP16)。
【0119】
なお、知識グラフ生成部104は、文章185a、185b、185c、・・・のうち、受け取ったキャプション181aに最も類似する文章に対応する知識グラフを選択してもよい。また、知識グラフ生成部104は、文章185a、185b、185c、・・・のうち、受け取ったキャプション181aとの類似度が、所定の閾値以上の文章に対応する知識グラフを選択してもよい。
【0120】
以上説明したように、知識グラフ生成部104は、複数のオブジェクトに相当する複数のエンティティから、2つのエンティティからなる候補組を、複数個、選択し、生成された文章(キャプション又は類似文)から、関係を抽出し、抽出した関係と選択した複数個の候補組のそれぞれとからなる複数の知識グラフの候補を生成し、前記文章を用いて、生成した複数の知識グラフの候補から、知識グラフを選択してもよい。
【0121】
また、知識グラフ生成部104は、生成した複数の知識グラフの候補のそれぞれについて、生成した文章(キャプション又は類似文)との類似度を算出し、算出した類似度が所定の閾値以上の知識グラフの候補を、知識グラフとして選択してもよい。
【0122】
このように、変形例においても、画像から、2つのエンティティと、2つのエンティティの間のリレーションとからなる知識グラフを生成することができる。
【0123】
また、複数の類似文を生成することにより、複数種類の知識グラフを仮に生成し、そのうち、確度の高い知識グラフを知識データベース追加することができる。
【0124】
また、自然言語モデルにおいて、似た意味を持つ単語は、似た特徴ベクトルとなる性質を利用して、同様の類似文を容易に生成することができる。
【0125】
1.4 応用例(1)
実施の形態の応用例(1)としての危険予測装置10a(情報処理装置)について説明する。
【0126】
危険予測装置10aは、撮影された動画像データにより、撮影された状況の危険度を推定する。
【0127】
(1)危険予測装置10a
危険予測装置10aは、
図9に示すように、CPU106、ROM107、RAM108、記憶部105(記憶手段)、バス109、入力部111、カメラ112、出力部113、スピーカー114及び入出力部120から構成されている。CPU106、ROM107、RAM108、記憶部105、入力部111、出力部113及び入出力部120は、バス109を介して、相互に接続されている。
【0128】
危険予測装置10aのCPU106、ROM107、RAM108、記憶部105、バス109及び入出力部120は、それぞれ、実施の形態の知識グラフ生成装置10のCPU106、ROM107、RAM108、記憶部105、バス109及び入出力部120と、同様の構成を有している。
【0129】
危険予測装置10aは、実施の形態の知識グラフ生成装置10の機能に加えて、固有の機能を有している。
【0130】
ここでは、知識グラフ生成装置10との相違点を中心として説明する。
【0131】
ROM107には、危険予測装置10aにおける処理を実行させるためのコンピュータープログラムである制御プログラム等が格納されている。
【0132】
CPU106が、RAM108をワークエリアとして用いて、ROM107に記憶されている制御プログラムに従って動作することにより、CPU106、ROM107及びRAM108は、機能的に、画像認識部101、キャプション生成部102、類似文生成部103、知識グラフ生成部104及び危険判定部110を構成する。
【0133】
画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104は、それぞれ、実施の形態の知識グラフ生成装置10の画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104と同一の構成を有している。
【0134】
(2)記憶部105
記憶部105は、動画像データ131、知識データベース150、ルールテーブル165を記憶している。また、記憶部105は、動画像データ170を記憶するための領域を備えている。
【0135】
動画像データ131及び知識データベース150は、それぞれ、実施の形態の動画像データ131及び知識データベース150と同一である。
【0136】
知識データベース150は、既に、動画像データ131から生成した知識グラフを記憶している、とする。
【0137】
ルールテーブル165は、一例として、
図10に示すように、複数のルールデータ166を予め記憶しているデータテーブルである。各ルールデータ166は、知識データベース152に含まれる知識グラフを用いる際の危険度を示す。
【0138】
各ルールデータ166は、識別番号167、条件168及び危険度169を対応付けて含んでいる。
【0139】
識別番号167は、対応するルールデータ166を一意に識別するための識別情報である。
【0140】
条件168は、対応する危険度169が適用される条件を示す。条件168は、知識データベース150に含まれる知識グラフを識別する識別情報からなる。条件168は、例えば、一つの知識グラフを識別する一つの識別情報からなる場合があり、この場合、条件168は、一つの知識グラフのみを用いることを示す。また、条件168は、例えば、二つの知識グラフを識別する二つの識別情報からなる場合がある。この場合、二つの知識グラフは、AND条件により結合される。さらに、条件168は、例えば、三つ以上の知識グラフを識別する三つ以上の識別情報からなる場合もある。
【0141】
危険度169は、対応するルールデータ166が適用される場合の危険度を示す。危険度169は、例えば、「0」、「1」、「3」、・・・、「9」のいずれかの値を取る。「0」は、最も低い危険度であり、「9」は、最も高い危険度である。
【0142】
危険度169は、知識グラフに応じて、人手により、設定される。
【0143】
例えば、
図10に示すように、識別番号「R001」により識別されるルールデータは、条件「ID002」及び危険度「1」を含む。条件「ID002」は、知識データベース150に含まれる知識グラフ151a(
図3)を示している。知識グラフ151aは、人が階段を歩くことを示しているので、その危険度は、比較的低い(危険度「1」)。
【0144】
また、例えば、
図10に示すように、識別番号「R002」により識別されるルールデータは、条件「ID003」及び危険度「0」を含む。条件「ID003」は、知識データベース150に含まれる知識グラフ151b(
図3)を示している。知識グラフ151bは、人がスマートフォンを見ることを示しているので、その危険度は、極めて低い(危険度「0」)。
【0145】
また、例えば、
図10に示すように、識別番号「R003」により識別されるルールデータは、条件「ID002 AND ID003」及び危険度「5」を含む。条件に含まれる「ID002」は、知識データベース150に含まれる知識グラフ151aを示し、条件に含まれる「ID003」は、知識データベース150に含まれる知識グラフ151bを示している。つまり、条件「ID002 AND ID003」は、知識グラフ151a、かつ、知識グラフ151bが成立する場合を示している。この場合、人が階段を歩きながら、スマートフォンを見ることを示しているので、その危険度は、比較的高い(危険度「5」)。
【0146】
(3)入力部111及びカメラ112
カメラ112(受付手段)は、撮影により、動画像データを生成し、生成した動画像データを入力部111に対して出力する。
【0147】
入力部111(受付手段)は、カメラ112から動画像データを受け取り、受け取った動画像データを、バス109を介して、記憶部105に、動画像データ170として書き込む。
【0148】
(4)出力部113及びスピーカー114
出力部113は、危険判定部110の制御により、アラーム音を示す電気信号をスピーカー114に対して、出力する。
【0149】
スピーカー114は、出力部113から、アラーム音を示す電気信号を受信すると、受信した電気信号を音に変換して、アラーム音として、出力する。
【0150】
(5)画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104
実施の形態で説明した機能に加えて、画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104は、記憶部105に動画像データ170が書き込まれると、実施の形態で説明した方法と同様にして、動画像データ170から一つ又は複数の知識グラフを生成し、生成した一つ又は複数の知識グラフを危険判定部110に対して、出力する。
【0151】
(6)危険判定部110
危険判定部110(実行手段)は、記憶部105に動画像データ170が書き込まれると、知識グラフ生成部104から、動画像データ170に基づいて生成された一つ又は複数の知識グラフを受け取る。
【0152】
危険判定部110は、動画像データ170に基づいて生成された一つ又は複数の知識グラフが、ルールテーブル160内の条件のいずれかに一致するか否かを判断する。
【0153】
動画像データ170に基づいて生成された一つ又は複数の知識グラフが、ルールテーブル160内の条件のいずれかに一致する場合、危険判定部110は、ルールテーブル160から、対応する危険度を抽出する。
【0154】
次に、危険判定部110は、抽出した危険度と閾値(例えば、「4」)とを比較して、抽出した危険度が閾値より低い場合、危険度が低いと判断して、処理を終了する。
【0155】
一方、抽出した危険度が閾値より高い場合、又は、抽出した危険度が閾値に一致する場合、危険度が高いと判断して、危険判定部110は、出力部113に対して、アラーム音を示す電気信号をスピーカー114に対して、出力するように、制御する。この場合、スピーカー114は、出力部113から受信した電気信号を音に変換して、アラーム音として、出力する。
【0156】
このように、危険判定部110は、記憶部105の知識データベース150に記憶されている知識グラフを用いて、カメラ112及び入力部111により入力されたデータに対して、処理を実行する。
【0157】
(7)危険予測装置10aにおける動作
危険予測装置10aにおける動作について、
図11に示すフローチャートを用いて、説明する。
【0158】
カメラ112は、撮影により、動画像データを生成する(ステップS201)。
【0159】
画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104は、カメラ112により生成された動画像データから、知識グラフを生成する(ステップS202)。
【0160】
危険判定部110は、生成された知識グラフと、ルールテーブル160とを比較する(ステップS203)。
【0161】
生成された知識グラフが、ルールテーブル160内の条件と一致する場合(ステップS204で「YES」)、危険判定部110は、生成された知識データと一致する条件を含むルールデータから危険度を抽出する(ステップS205)。
【0162】
危険判定部110は、抽出した危険度と閾値とを比較する(ステップS206)。
【0163】
抽出した危険度が閾値より高い場合、又は、抽出した危険度が閾値に一致する場合(ステップS206で「≧」)、危険判定部110は、出力部113に対して、アラーム音を出力するように制御する。スピーカー114は、アラーム音を出力する(ステップS207)。これで、一連の処理を終了する。
【0164】
生成された知識グラフが、ルールテーブル160内の条件と一致しない場合(ステップS204で「NO」)、又は、抽出した危険度が閾値より低い場合(ステップS206で「<」)、処理を終了する。
【0165】
以上により、危険予測装置10aにおける動作を終了する。
【0166】
(8)まとめ
以上説明したように、知識データベース及びルールテーブルを用いて、カメラによる撮影により生成された動画像データから、動画像が撮影される状況の危険度を推定することができる。
【0167】
1.5 応用例(2)
実施の形態の応用例(2)としての検索装置10b(情報処理装置)について説明する。
【0168】
(1)検索装置10b
検索装置10bは、予め記憶している動画像データの複数のシーンの中から、新たに入力した動画像のシーンに一致する又は類似するシーンを検索する。
【0169】
ここで、シーンは、一つの塊として意味を有し、連続する複数の静止画像から構成される。例えば、男性が食事をするシーン、男性が階段を歩くシーン、男性がスマートフォンを見るシーン等である。また、例えば、男性が階段を歩いている場合に、階段の上段を歩く場面を一つのシーンとし、階段の中段を歩く場面を一つのシーンとし、階段の下段を歩く場面を一つのシーンとしてもよい。
【0170】
検索装置10bは、
図12に示すように、CPU106、ROM107、RAM108、記憶部105(記憶手段)、バス109、入力部111、カメラ112、出力部116、モニター117から構成されている。CPU106、ROM107、RAM108、記憶部105、入力部111、出力部116及び入出力部120は、バス109を介して、相互に接続されている。
【0171】
検索装置10bのCPU106、ROM107、RAM108、記憶部105、バス109及び入出力部120は、それぞれ、実施の形態の知識グラフ生成装置10のCPU106、ROM107、RAM108、記憶部105、バス109及び入出力部120と、同様の構成を有している。
【0172】
検索装置10bは、実施の形態の知識グラフ生成装置10の機能に加えて、固有の機能を有している。
【0173】
ここでは、知識グラフ生成装置10との相違点を中心として説明する。
【0174】
ROM107には、検索装置10bにおける処理を実行させるためのコンピュータープログラムである制御プログラム等が格納されている。
【0175】
CPU106が、RAM108をワークエリアとして用いて、ROM107に記憶されている制御プログラムに従って動作することにより、CPU106、ROM107及びRAM108は、機能的に、画像認識部101、キャプション生成部102、類似文生成部103、知識グラフ生成部104及び類似判定部115を構成する。
【0176】
画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104は、それぞれ、実施の形態の知識グラフ生成装置10の画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104と同一の構成を有している。
【0177】
(2)記憶部105
記憶部105は、動画像データ131、知識データベース150、シーンテーブル190を記憶している。また、記憶部105は、動画像データ170を記憶するための領域を備えている。
【0178】
動画像データ131及び知識データベース150は、それぞれ、実施の形態の動画像データ131及び知識データベース150と同一である。なお、検索装置10bの知識データベース150は、既に、動画像データ131内の全てのシーンについて、それぞれ、知識グラフを記憶している、とする。
【0179】
シーンテーブル190は、一例として、
図13に示すように、複数のシーンデータ191を予め記憶しているデータテーブルである。各シーンデータ191は、知識データベース152に含まれる知識グラフと動画像データ131内のシーンの対応関係を示す。
【0180】
各シーンデータ191は、シーンの識別番号192と知識グラフの識別番号193とを対応付けて含んでいる。
【0181】
シーンの識別番号192は、動画像データ131内のシーンを一意に識別するための識別情報である。
【0182】
知識グラフの識別番号193は、知識データベース152に含まれる知識グラフを一意に識別するための識別情報である。
【0183】
知識データベース152に含まれる知識グラフが特定されれば、シーンテーブル190を用いて、特定された知識グラフに対応する動画像データ131内のシーンを特定することができる。
【0184】
(3)入力部111及びカメラ112
カメラ112(受付手段)は、撮影により、動画像データを生成し、生成した動画像データを入力部111に対して出力する。
【0185】
入力部111(受付手段)は、カメラ112から動画像データを受け取り、受け取った動画像データを、バス109を介して、記憶部105に、動画像データ170として書き込む。
【0186】
(4)出力部116及びモニター117
出力部116は、類似判定部115の制御により、特定されたシーンを識別する識別番号をモニター117に対して、出力する。
【0187】
モニター117は、出力部116から、特定されたシーンを識別する識別番号を受信すると、受信した識別番号を表示する。
【0188】
(5)画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104
実施の形態で説明した機能に加えて、画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104は、記憶部105に動画像データ170が書き込まれると、実施の形態で説明した方法と同様にして、動画像データ170から一つ又は複数の知識グラフを生成し、生成した一つ又は複数の知識グラフを類似判定部115に対して、出力する。
【0189】
(6)類似判定部115
類似判定部115は、記憶部105に動画像データ170が書き込まれると、知識グラフ生成部104から、動画像データ170に基づいて生成された一つ又は複数の知識グラフを受け取る。
【0190】
類似判定部115は、動画像データ170に基づいて生成された一つ又は複数の知識グラフが、知識データベース150内の知識グラフのいずれかに一致するか否かを判断する。
【0191】
動画像データ170に基づいて生成された一つ又は複数の知識グラフが、知識データベース150内の知識グラフのいずれかに一致する場合、類似判定部115は、シーンテーブル190から、一致する知識グラフを識別する識別番号に対応するシーンの識別番号を抽出する。
【0192】
次に、類似判定部115は、抽出したシーンの識別番号を出力部116に対して、出力して、抽出したシーンの識別番号をモニター117に表示するように、制御する。
【0193】
一方、動画像データ170に基づいて生成された一つ又は複数の知識グラフが、知識データベース150内の知識グラフのいずれにも一致しない場合、類似判定部115は、一致するシーンが存在しない旨を示すメッセージを出力部116に対して、出力して、当該メッセージをモニター117に表示するように、制御する。モニター117は、当該メッセージを表示する。
【0194】
このように、類似判定部115は、記憶部105の知識データベース150に記憶されている知識グラフを用いて、カメラ112及び入力部111により入力されたデータに対して、処理を実行する。
【0195】
(7)検索装置10bにおける動作
検索装置10bにおける動作について、
図14に示すフローチャートを用いて、説明する。
【0196】
カメラ112は、撮影により、動画像データを生成する(ステップS231)。
【0197】
画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104は、カメラ112により生成された動画像データから、知識グラフを生成する(ステップS232)。
【0198】
類似判定部115は、生成された知識グラフと、知識データベース150内の知識グラフとを比較する(ステップS233)。
【0199】
生成された知識グラフが、知識データベース150内の知識グラフのいずれかと一致する場合(ステップS234で「YES」)、類似判定部115は、シーンテーブル190から、一致する知識グラフを識別する識別番号に対応するシーンの識別番号を抽出する(ステップS235)。次に、類似判定部115は、抽出したシーンの識別番号を出力部116に対して、出力して、抽出したシーンの識別番号をモニター117に表示するように、制御する。モニター117は、抽出したシーンの識別番号を表示する(ステップS236)。これで、一連の処理を終了する。
【0200】
一方、動画像データ170に基づいて生成された一つ又は複数の知識グラフが、知識データベース150内の知識グラフのいずれにも一致しない場合(ステップS234で「NO」)、類似判定部115は、一致するシーンが存在しない旨を示すメッセージを出力部116に対して、出力して、当該メッセージをモニター117に表示するように、制御する。モニター117は、当該メッセージを表示する(ステップS237)。これで、一連の処理を終了する。
【0201】
(8)まとめ
以上説明したように、知識データベース及びシーンテーブルを用いて、予め記憶している動画像のシーンの中から、カメラによる撮影により生成された動画像データ内のシーンと一致する、又は、類似するシーンを検索することができる。
【0202】
なお、上記においては、生成された知識グラフが、知識データベース150内の知識グラフのいずれかと一致する場合、モニター117は、抽出したシーンの識別番号を表示する。しかし、これには限定されない。
【0203】
生成された知識グラフが、知識データベース150内の知識グラフのいずれかと一致する場合、類似判定部115は、シーンテーブル190から、一致する知識グラフを識別する識別番号に対応するシーンの識別番号を抽出し、抽出したシーンの識別番号を出力部116に対して、出力し、出力部116は、受け取ったシーンの識別番号により識別されるシーンを動画像データ131から抽出し、シーンの識別番号と抽出したシーンとをモニター117に出力してもよい。モニター117は、シーンの識別番号とシーンとを表示する。
【0204】
1.6 応用例(3)
実施の形態の応用例(3)としてのVQA(Visual Question Answering)装置10c(情報処理装置)について説明する。
【0205】
VQA装置10cは、知識データベースを用いて、画像及び質問データから、質問に対する解答を得る。
【0206】
(1)VQA装置10c
VQA装置10cは、
図15に示すように、CPU106、ROM107、RAM108、記憶部105(記憶手段)、バス109、入力部126、出力部116、モニター117及び入出力部120から構成されている。CPU106、ROM107、RAM108、記憶部105、入力部126、出力部116及び入出力部120は、バス109を介して、相互に接続されている。
【0207】
VQA装置10cのCPU106、ROM107、RAM108、記憶部105、バス109及び入出力部120は、それぞれ、実施の形態の知識グラフ生成装置10のCPU106、ROM107、RAM108、記憶部105、バス109及び入出力部120と、同様の構成を有している。
【0208】
VQA装置10cは、実施の形態の知識グラフ生成装置10の機能に加えて、固有の機能を有している。
【0209】
ここでは、知識グラフ生成装置10との相違点を中心として説明する。
【0210】
ROM107には、VQA装置10cにおける処理を実行させるためのコンピュータープログラムである制御プログラム等が格納されている。
【0211】
CPU106が、RAM108をワークエリアとして用いて、ROM107に記憶されている制御プログラムに従って動作することにより、CPU106、ROM107及びRAM108は、機能的に、画像認識部101、キャプション生成部102、類似文生成部103、知識グラフ生成部104及びVQA部140を構成する。
【0212】
画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104は、それぞれ、実施の形態の知識グラフ生成装置10の画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104と同一の構成を有している。
【0213】
(2)記憶部105
記憶部105は、動画像データ131、知識データベース150を記憶している。
【0214】
動画像データ131及び知識データベース150は、それぞれ、実施の形態の動画像データ131及び知識データベース150と同一である。
【0215】
知識データベース150は、既に、動画像データ131から生成した知識グラフを記憶している、とする。
【0216】
(3)入力部126
入力部126(受付手段)は、入力データ127の入力を受け付ける。
【0217】
入力データ127は、
図16に一例として示すように、画像127a及び質問データ127bから構成されている。画像127aは、例えば、静止画像である。質問データ127bは、例えば、「人は何を見ているか?」という質問を表したテキストデータである。
【0218】
入力部126は、受け付けた入力データ127をVQA部140に対して出力する。
【0219】
(4)出力部116及びモニター117
出力部116は、VQA部140から、質問に対する解答データを受け取る。解答データを受け取ると、受け取った解答データをモニター117に出力する。
【0220】
モニター117は、出力部116から、解答データを受け取ると、受け取った解答データを表示する。
【0221】
(5)画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104
実施の形態で説明した機能に加えて、画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104は、VQA部140から画像127aを受け取る。画像127aを受け取ると、実施の形態で説明した方法と同様にして、画像127aから一つの知識グラフ301(
図16)を生成し、生成した知識グラフ301をVQA部140に対して、出力する。
【0222】
(6)VQA部140
VQA部140は、入力部126から入力データ127を受け取る。入力データ127は、上記の通り、一例として、画像127a及び質問データ127bを含む。
【0223】
入力データ127を受け取ると、VQA部140は、画像認識部101に対して、画像127aを出力して、画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104に対して、画像127aの知識グラフの生成を指示する。VQA部140は、知識グラフ生成部104から、知識グラフ301(
図16)を受け取る(プロセスP51)。
【0224】
また、入力データ127を受け取ると、VQA部140は、質問データ127bに対して、言語解析を実施して、質問型の知識グラフ302(
図16)を生成する(プロセスP52)。
【0225】
VQA部140は、知識グラフ301と、知識データベース150内の知識グラフとを比較して、一致する知識グラフが存在するか否かを判定する(プロセスP53)。
【0226】
一致する知識グラフが存在する場合、VQA部140は、知識データベース150から、一致する知識グラフ151b(
図16)を抽出する。
【0227】
次に、VQA部140は、抽出した知識グラフ151bと、生成した質問型の知識グラフ302とを比較して(プロセスP54)、質問型の知識グラフ302内の「何?」に相当するエンティティを特定する。ここで、
図16に示す例においては、VQA部140は、解答データ303として、「スマートフォン」を得る。
【0228】
VQA部140は、解答データ303を出力部116に対して出力して、解答データ303をモニター117に出力するように、制御する。モニター117は、解答データ303を表示する(プロセスP55)。
【0229】
このように、VQA部140は、記憶部105に記憶されている知識データベース150の知識グラフを用いて、入力部126により入力されたデータに対して、処理を実行する。
【0230】
(7)まとめ
以上説明したように、知識データベースを用いて、画像及び質問から、質問に対する解答を得ることができる。
【0231】
1.7 応用例(4)
実施の形態の応用例(4)としての知識グラフ補完装置10d(情報処理装置)について説明する。
【0232】
(1)知識グラフ補完装置10d
知識グラフ補完装置10dは、
図17に示すように、CPU106、ROM107、RAM108、記憶部105(記憶手段)、バス109、入力部118、マイク119、出力部113、スピーカー114及び入出力部120から構成されている。CPU106、ROM107、RAM108、記憶部105、入力部118、出力部113及び入出力部120は、バス109を介して、相互に接続されている。
【0233】
知識グラフ補完装置10dのCPU106、ROM107、RAM108、記憶部105、バス109及び入出力部120は、それぞれ、実施の形態の知識グラフ生成装置10のCPU106、ROM107、RAM108、記憶部105、バス109及び入出力部120と、同様の構成を有している。
【0234】
知識グラフ補完装置10dは、実施の形態の知識グラフ生成装置10の機能に加えて、固有の機能を有している。
【0235】
ここでは、知識グラフ生成装置10との相違点を中心として説明する。
【0236】
ROM107には、知識グラフ補完装置10dにおける処理を実行させるためのコンピュータープログラムである制御プログラム等が格納されている。
【0237】
CPU106が、RAM108をワークエリアとして用いて、ROM107に記憶されている制御プログラムに従って動作することにより、CPU106、ROM107及びRAM108は、機能的に、画像認識部101、キャプション生成部102、類似文生成部103、知識グラフ生成部104、対話生成部121、音声認識部122、言語解析部123及び補完部124を構成する。
【0238】
画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104は、それぞれ、実施の形態の知識グラフ生成装置10の画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104と同一の構成を有している。
【0239】
(2)記憶部105
記憶部105は、動画像データ131及び知識データベース150を記憶している。
【0240】
知識データベース150は、一例として、
図18に示すように、既に、知識グラフ151、151a、151b、・・・に加えて、未知のエンティティ154cを含む知識グラフ151cを含んでいる。
【0241】
(3)入力部118及びマイク119
マイク119(受付手段)は、音声の入力を受け付け、音声をアナログの電気信号に変換して、アナログの音声信号を入力部118に対して出力する。
【0242】
入力部118(受付手段)は、マイク119からアナログの音声信号を受け取り、受け取ったアナログをデジタルの音声信号に変換し、デジタルの音声信号を、バス109を介して、音声認識部122に対して、出力する。
【0243】
(4)出力部113及びスピーカー114
出力部113は、対話生成部121から、デジタルのメッセージ音データを受信し、受信したデジタルのメッセージ音データをアナログのメッセージ音信号に変換し、アナログのメッセージ音信号をスピーカー114に対して、出力する。
【0244】
スピーカー114は、出力部113から、アナログのメッセージ音信号を受信し、受信したメッセージ音信号を音に変換して、音として、出力する。
【0245】
(5)画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104
画像認識部101、キャプション生成部102、類似文生成部103及び知識グラフ生成部104は、実施の形態で説明した機能を有する。
【0246】
(6)対話生成部121
対話生成部121は、知識データベース150から未知のエンティティを含む知識グラフを抽出する。次に、抽出した知識グラフについて、未知のエンティティが何であるかを問う対話文を生成する(
図18のプロセスP41)。また、対話生成部121は、抽出した未知のエンティティを含む知識グラフを補完部124に対して、出力する。
【0247】
図18に示す知識データベース150においては、一例として、知識グラフ151cが未知のエンティティ154cを含む。未知のエンティティ154cは、操作の対象物であるので、対話生成部121は、対話文201「人が操作する対象物は何ですか?」を生成する。
【0248】
対話生成部121は、生成した対話文をデジタルのメッセージ音データに変換し、メッセージ音データを出力部113に出力して、アナログのメッセージ音信号をスピーカー114から出力するように、制御する。
【0249】
(7)音声認識部122
音声認識部122は、入力部118から、デジタルの音声信号を受信する。音声認識部122は、デジタルの音声信号に対して、音声認識を施して、音素の集合体を生成する(
図18のプロセスP42)。
【0250】
例えば、デジタルの音声信号が「パソコンです」である場合、音声認識部122は、音素の集合体「パ」、「ソ」、「コ」、「ン」、「デ」、「ス」を生成する。
【0251】
音声認識部122は、生成した音素の集合体を言語解析部123に対して、出力する。
【0252】
(8)言語解析部123
言語解析部123は、音声認識部122から音素の集合体を受信する。
【0253】
言語解析部123は、受信した音素の集合体に対して、言語解析を施して、単語を生成する(
図18のプロセスP43)。
【0254】
一例として、音素の集合体「パ」、「ソ」、「コ」、「ン」、「デ」、「ス」を受信した場合、言語解析部123は、音素の集合体から、単語「パソコン」及び単語「です」を生成する。
【0255】
言語解析部123は、生成した単語を補完部124に対して、出力する。
【0256】
(9)補完部124
補完部124は、対話生成部121から、未知のエンティティを含む知識グラフを受け取る。また、補完部124は、言語解析部123から、単語を受け取る。
【0257】
補完部124は、言語解析部123から受け取った単語により、未知のエンティティを含む知識グラフを補完する(
図18のプロセスP44)。
【0258】
図18に示す例においては、補完部124は、知識グラフ151cの未知のエンティティ154cを、単語「パソコン」により、補完して、知識グラフ203を生成する。
【0259】
補完部124は、知識データベース150内の未知のエンティティを含む知識グラフを、補完により生成した知識グラフに書き換える(
図18のプロセスP45)。
【0260】
(10)まとめ
以上説明したように、対話生成部121、音声認識部122、言語解析部123及び補完部124は、記憶部105に記憶されている知識データベース150の知識グラフを用いて、マイク119及び入力部118により入力されたデータに対して、処理を実行する。
【0261】
上記の通り、知識データベース内の未知のエンティティを含む知識グラフを、補完により生成した知識グラフに書き換えることができる。
【0262】
2 その他の変形例
本開示に係る態様は、上記において説明した実施の形態及び変形例には、限定されない。次に示すように構成してもよい。
【0263】
(1)キャプション生成部102は、次に示すようにして、複数種類の文章を生成してもよい。
【0264】
文章生成では、文章の一部(x1:t-1)が与えられたとき、その後に続く単語(xt)の確率を予測する。続く単語の確率に従って、続く単語を選択する(
図19参照)。
【0265】
図19に示すように、単語321「The」が与えられたとき、次に続く単語322「car」を選択する。ここで、単語「nice」、単語「dog」、単語「car」、・・・の確率は、それぞれ、「0.5」、「0.4」、「0.2」、・・・であると予測されたとする。単語322「car」の確率は、上位から3番目の「0.2」である。このように、最も確率の高い単語以外を選択することもできる。次に、単語322「car」に続く単語として、単語323「drives」を選択する。ここで、単語「drives」、単語「is」、単語「stops」、・・・の確率は、それぞれ、「0.6」、「0.4」、「0.1」、・・・であると予測されたとする。単語323「drives」は、選択できる複数の単語のうち、その確率が最も高い。
【0266】
文章の各単語xiが語彙Vから選択されたものであり(xi∈V)、文章をx=(x1,・・・xn)とすると、文章xを生成する確率は、以下の通りである。
【0267】
【数1】
続く単語を選択する方法は、大きく以下のように、2通りある。
【0268】
(a)決定論的デコーディング:最も確率の高い単語を選択
(b)確率論的デコーディング:予測された確率分布P(xt|x1,・・・,xt-1)からサンプリングする。
【0269】
確率論的デコーディングを用いることで、複数種類の文章を生成することができる。
【0270】
なお、低確率の単語を生成することを防ぐためには、top-Kサンプリング(上位K個から選択)が有効である。
【0271】
(2)エンティティ1、リレーション及びエンティティ2からなる知識グラフの例を
図20に示す。
【0272】
図20に示す知識グラフ351及び352は、それぞれ、
図3に示す知識グラフ151a及び151bと同じである。知識グラフ351及び352は、それぞれ、人の行動を示している。
【0273】
ここで、知識グラフは、人の行動を示すだけではなく、以下のような関係も示すことができる。
【0274】
知識グラフ353は、エンティティ1「スマートフォン」、リレーション「表示」、エンティティ2「メッセージ」からなり、スマートフォンが、メッセージを表示することを示す。つまり、知識グラフ353は、スマートフォンの動作を示す。
【0275】
知識グラフ354は、エンティティ1「A氏」、リレーション「友人」、エンティティ2「B氏」からなり、A氏が、B氏と友人であることを示す。つまり、知識グラフ354は、A氏とB氏との関係を示す。
【0276】
知識グラフ355は、エンティティ1「学生」、リレーション「行く」、エンティティ2「学校」からなり、学生が、学校へ行くことを示す。つまり、知識グラフ355は、学生の行動を示す。
【0277】
知識グラフ356は、エンティティ1「学生」、リレーション「属する」、エンティティ2「学校」からなり、学生が、学校に属することを示す。つまり、知識グラフ356は、学生の帰属関係を示す。
【0278】
知識グラフ357は、エンティティ1「象」、リレーション「大きい」、エンティティ2「ねずみ」からなり、象が、ねずみより大きいことを示す。つまり、知識グラフ357は、象とねずみの大小関係を示す。
【0279】
知識グラフ358は、エンティティ1「鉄球」、リレーション「重い」、エンティティ2「羽」からなり、鉄球が、羽より重いことを示す。つまり、知識グラフ358は、鉄球と羽との重さの関係を示す。
【0280】
知識グラフ359は、エンティティ1「目玉焼き」、リレーション「材料」、エンティティ2「タマゴ」からなり、目玉焼きの材料がタマゴであることを示す。つまり、知識グラフ359は、目玉焼きとタマゴが材料で関係している、ことを示す。
【0281】
知識グラフ360は、エンティティ1「目玉焼き」、リレーション「調理方法」、エンティティ2「焼く」からなり、目玉焼きは、焼くことにより調理されることを示す。つまり、知識グラフ360は、目玉焼きと焼く行為が調理方法で関係している、ことを示す。
【0282】
知識グラフ361は、エンティティ1「目玉焼き」、リレーション「調理器具」、エンティティ2「フライパン」からなり、目玉焼きは、フライパンを用いて調理されることを示す。つまり、知識グラフ361は、目玉焼きと焼く行為が調理器具で関係している、ことを示す。
【0283】
知識グラフ362は、エンティティ1「ニワトリ」、リレーション「親子」、エンティティ2「ヒヨコ」からなり、ニワトリとヒヨコとは、親子関係にあることを示している。
【0284】
知識グラフ363は、エンティティ1「卵」、リレーション「孵る」、エンティティ2「雛」からなり、卵から雛が孵ることを示す。つまり、知識グラフ363は、卵から雛への変化の関係を関係している。
【0285】
知識グラフ364は、エンティティ1「空」、リレーション「色」、エンティティ2「青」からなり、空の色が青であることを示す。つまり、知識グラフ364は、空について、色という一つの属性を示している。
【0286】
知識グラフ365は、エンティティ1「台風」、リレーション「発生」、エンティティ2「暴風」からなり、台風により暴風が発生することを示す。つまり、知識グラフ365は台風と暴風との因果関係を示している。
【0287】
上記の通り、知識グラフは、人の行動を示すだけではなく、エンティティ1とエンティティ2との間の様々な関係を表現することができる。
【0288】
(3)上記の実施の形態においては、画像認識部101は、動画像データに含まれる1枚の静止画像から、複数のオブジェクトを特定する。知識グラフ生成部104は、1枚の静止画像から、特定された複数のオブジェクト(複数のエンティティ)のうち、2つのエンティティ間の関係を示す知識グラフを生成する。
【0289】
しかし、これには、限定されない。
【0290】
画像認識部101は、動画像データに含まれる第1の静止画像から第1のオブジェクトを特定する。また、画像認識部101は、動画像データに含まれる第2のオブジェクトを特定してもよい。知識グラフ生成部104は、第1の静止画像から、特定された第1のオブジェクト(第1のエンティティ)と、第2の静止画像から、特定された第2のオブジェクト(第2のエンティティ)との間の関係を示す知識グラフを生成してもよい。
【0291】
(4)上記の実施の形態に示す方法に代えて、次のようにしてもよい。
【0292】
画像認識部101は、フレーム画像から、複数のオブジェクトを検出し、検出したオブジェクトから「階段」、「スマートフォン」等を認識し、その認識結果を示すコードをキャプション生成部102に出力してもよい。キャプション生成部102は、コードを受け取り、受け取ったコードを用いて、2つのオブジェクト間の関係を表すキャプション(文字表現、文章)を生成してもよい。
【0293】
(5)上記の実施の形態、変形例を組み合わせてもよい。
【産業上の利用可能性】
【0294】
本開示に係る態様は、利用者に対して回答を求めることなく、2つのエンティティと、2つのエンティティの間のリレーションとからなる知識グラフを生成することができる、という優れた効果を奏し、知識グラフを生成する技術として好適である。
【符号の説明】
【0295】
10 知識グラフ生成装置
10a 危険予測装置
10b 検索装置
10c VQA装置
10d 知識グラフ補完装置
101 画像認識部
102 キャプション生成部
103 類似文生成部
104 知識グラフ生成部
105 記憶部
106 CPU
107 ROM
108 RAM
109 バス
110 危険判定部
111 入力部
112 カメラ
113 出力部
114 スピーカー
115 類似判定部
116 出力部
117 モニター
118 入力部
119 マイク
120 入出力部
121 対話生成部
122 音声認識部
123 言語解析部
124 補完部
140 VQA部