(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-19
(45)【発行日】2024-03-28
(54)【発明の名称】木構造推定装置、パラメタ学習装置、木構造推定方法、パラメタ学習方法、及びプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20240321BHJP
G06N 5/04 20230101ALI20240321BHJP
G06V 10/82 20220101ALI20240321BHJP
G06V 20/70 20220101ALI20240321BHJP
G06F 40/211 20200101ALI20240321BHJP
【FI】
G06N20/00
G06N5/04
G06V10/82
G06V20/70
G06F40/211
(21)【出願番号】P 2021035375
(22)【出願日】2021-03-05
【審査請求日】2023-02-15
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】304021417
【氏名又は名称】国立大学法人東京工業大学
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】平尾 努
(72)【発明者】
【氏名】永田 昌明
(72)【発明者】
【氏名】福島 健司
(72)【発明者】
【氏名】上垣外 英剛
(72)【発明者】
【氏名】奥村 学
【審査官】坂庭 剛史
(56)【参考文献】
【文献】特開2016-162198(JP,A)
【文献】特開2017-041207(JP,A)
【文献】小林尚輝 ほか,"階層構造を考慮したトップダウン談話構造解析",言語処理学会 第25回年次大会 発表論文集,言語処理学会,2019年03月04日,p. 1002-1005
【文献】AKULA, Arjun R et al.,"Visual Discourse Parsing",arXiv [online],2019年03月,[2024年02月26日検索],インターネット<URL:https://arxiv.org/abs/1903.02252v2>,1903.02252v2
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06V 10/40-10/62
G06V 10/82
G06V 20/70
G06F 40/20-40/295
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定部と
を備える木構造推定装置。
【請求項2】
前記修辞構造木の葉が前記動画のシーンと、そのシーンに対するキャプションに対応し、ノードのラベルがシーン系列の核性に対応し、エッジのラベルがシーン系列間の修辞関係に対応する
請求項1に記載の木構造推定装置。
【請求項3】
前記特徴抽出部は、シーンを構成する各フレームの特徴ベクトルをLSTMに入力することにより当該シーンに対応する動画ベクトルを作成する
請求項1又は2に記載の木構造推定装置。
【請求項4】
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルに基づいて、前記動画の修辞構造木を表す木構造とラベルとを推定する木構造推定部と、
前記木構造推定部により推定された前記木構造と前記ラベル、及び、前記動画の修辞構造木を表す正解データを用いて、前記木構造推定部に対応するニューラルネットワークのパラメタを最適化するパラメタ最適化部と
を備えるパラメタ学習装置。
【請求項5】
木構造推定装置が実行する木構造推定方法であって、
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出ステップと、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成ステップと、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定ステップと
を備える木構造推定方法。
【請求項6】
パラメタ学習装置が実行するパラメタ学習方法であって、
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出ステップと、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成ステップと、
前記合成ベクトルに基づいて、前記動画の修辞構造木を表す木構造とラベルとを推定する木構造推定ステップと、
前記木構造推定ステップにより推定された前記木構造と前記ラベル、及び、前記動画の修辞構造木を表す正解データを用いて、前記木構造推定ステップを実行するニューラルネットワークのパラメタを最適化するパラメタ最適化ステップと
を備えるパラメタ学習方法。
【請求項7】
コンピュータを、請求項1ないし3のうちいずれか1項に記載の木構造推定装置における各部として機能させるためのプログラム。
【請求項8】
コンピュータを、請求項4に記載のパラメタ学習装置における各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、計算機を用いて自動的に動画を処理するコンピュータビジョン分野と自動的にテキストを処理する自然言語処理分野に関連し、特に、動画をイベント(シーン)に分割してキャプションを与え、それらの関係を木構造として表す技術に関連するものである。
【背景技術】
【0002】
自然言語処理分野では、文書全体を木構造として表現する談話構造解析技術が開発されている。特に、文書を修辞構造理論に基づいた木構造として表す技術が開発されている。
【0003】
修辞構造はテキストの話題構造を木として表現したものであるが、こうした構造はテキストだけではなく動画にも存在する。
【0004】
つまり、葉がイベント区間(シーン)とそのキャプションを表し、ノードがスパン(シーン系列)の核性役割を表し、エッジがスパン間の修辞関係を表す木として動画を表現することができる。ただし、テキストの場合とは異なり木の葉は、動画の区間とキャプション文なので、文内の構造は考えなくて良い。
【0005】
こうした構造を得るために、非特許文献1に開示された技術では、動画に対してキャプション文を生成し、得たキャプションに対して従来の修辞構造解析技術を適用し木構造を得る。そして、キャプション文と動画フレームとを、LSTMを用いて対応付けている。
【先行技術文献】
【非特許文献】
【0006】
【文献】Arjun R Akula, Song-Chun Zhu: Visual Discourse Parsing, ,CVPR 2019 Workshop on Language and Vision, (2019)
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来の技術において修辞構造木はテキスト情報のみを用いて構築される。しかし、動画を修辞構造木として表す場合において、テキストがシーンに対応する動画区間の全てを書き尽くしているとは限らないため、シーン間の構造や関係を決定するためにテキストを利用するだけでは十分とは限らない。特に木構造を決定する際にはシーン間の類似性が重要な要素となるがテキストだけでは類似性をうまくとらえることができないことが多々ある。
【0008】
本発明は上記の点に鑑みてなされたものであり、動画から、シーン間の類似性を適切に反映した修辞構造木を生成するための技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
開示の技術によれば、入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定部と
を備える木構造推定装置が提供される。
【発明の効果】
【0010】
開示の技術によれば、動画から、シーン間の類似性を適切に反映した修辞構造木を生成するための技術が提供される。
【図面の簡単な説明】
【0011】
【
図2】動画に適用した修辞構造木の例を示す図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
【0013】
(修辞構造木について)
まず、従来の修辞構造木の例を説明する。修辞構造理論では、文書は2分木(修辞構造木)として表現される。修辞構造木は、それを構成する最小の談話基本単位であるEDUの系列(以降、スパンと呼ぶ)を修辞関係により結合し、より大きなスパンを構成するという操作を再帰的に繰り返すことによって得られる木である。
【0014】
木の葉はEDU(節に相当)のユニットであり、木のノードにはそれが支配するスパンの核性ラベルが付与される。結合される2つのスパン(兄弟スパン)の一方は重要な情報を持つ核となり、もう一方はそれを補足する衛星となる。例外的に双方が核となる場合もある。木の枝にはスパン間の修辞関係を表す関係ラベルが付与される。修辞関係を表す関係ラベルは、18種類が定義されている。
【0015】
図1に修辞構造木の例を示す。図中のe
1~e
7がそれぞれEDUであり、S/Nがスパンの核性ラベル(Nが核でSが衛星)、Condition、Elaborationなどが兄弟スパンの間の関係ラベルである。関係ラベルは兄弟スパンの核性がSとNの組合せの場合、S側のスパンに対して与えられ、NとNになる場合には双方のスパンに対して与えられる。ConditionやElaborationはSとNの組合せに対して与えられ、List、Same-UnitはNとNの組合せに与えられる。
【0016】
(実施の形態の概要)
前述したとおり、修辞構造はテキストだけではなく動画にも存在し、葉がイベント(シーン)とそのキャプションを表し、ノードがスパン(シーン系列)の核性役割を表し、エッジがスパン間の修辞関係を表す木として動画を表現することができる。例えば、
図1に示す修辞構造木における葉(e)をシーンとキャプションのタプルに置き換えた修辞構造木により、動画の修辞構造とスパン間の関係が表される。
【0017】
図2に、動画を木構造とラベルにより修辞構造木として表した例を示す。
図2に示す例では、「[」,「]」の中の数字によりシーンが表す動画の開始、終了時刻を表し、cが、シーンに対応するキャプション文を表す。
【0018】
前述したように、非特許文献1に開示された従来技術では、シーン間の構造や関係を決定するのにテキストのみを利用してるため、シーン間の類似性をうまくとらえることができないことが多々ある。そこで、本実施の形態では、テキスト情報だけでなく画像情報も合わせてシーンの修辞構造推定、関係推定を行うことにより、シーン間の類似性を適切に反映した修辞構造木を生成することを可能としている。
【0019】
(装置構成例、動作概要)
図3に、本実施の形態における動画談話構造解析装置100の構成例を示す。
図3に示すように動画談話構造解析装置100は、データ入力部110、木構造推定部120、パラメタ学習部130、データ出力部140を備える。
【0020】
動画談話構造解析装置100は、1つのコンピュータで実装されてもよいし、複数のコンピュータで実装されてもよい。また、動画談話構造解析装置100のうちの一部又は全部の機能が、クラウド上の仮想マシンで実装されてもよい。データ入力部110、木構造推定部120、パラメタ学習部130、データ出力部140がそれぞれ別装置で実装されてもよく、これらをそれぞれ、データ入力装置、木構造推定装置、パラメタ学習装置、データ出力装置と呼んでもよい。また、「データ入力部110+木構造推定部120+データ出力部140」を木構造推定装置と呼んでもよい。
【0021】
図3には、処理の流れも示されている。
図3に示すように、データ入力部110は、動画を受け取り、動画からスパンベクトルを生成し、生成したスパンベクトルを木構造推定部120へ渡す。
【0022】
パラメタ学習部130は、
図2に示したアノテーション、つまりシーンに対するアノテーション(動画区間時間とキャプション)及び修辞構造に対するアノテーション(木構造とラベル)がなされた動画を受け取り、当該アノテーション済みの動画に基づいて、ニューラルネットワークによる修辞木構造推定、核性ラベル推定、関係ラベル推定のためのパラメタを学習し、学習済みのパラメタを木構造推定部120へ渡す。アノテーションとして与えられる木構造とラベルは、パラメタ学習の際の正解データとして用いられる。
【0023】
木構造推定部120は、データ入力部11からスパンベクトルを受け取り、パラメタ学習部130からパラメタを受け取り、これらを用いてシーンの分割点、及びシーンのラベルを推定し、推定したシーンの分割点、及びシーンのラベルをデータ出力部140へ渡す。
【0024】
データ出力部140は、木構造推定120から受け取ったシーンの分割点、及びラベルを受け取り、例えばS式を用いて木を出力する。
【0025】
なお、本実施の形態において、データ入力部110、木構造推定部120、パラメタ学習部130、データ出力部140はいずれもニューラルネットワークにより構成されるものとする。以下、各部の構成と処理内容を詳細に説明する。
【0026】
(データ入力部110)
データ入力部110は、ラベル付き木の生成対象である動画を入力として受け取り、シーン系列に対応するスパンベクトルを木構造推定装置120に渡す。
図4に、データ入力部110の機能構成を示す。
図4に示すように、データ入力部110は、キャプション生成部111とスパンベクトル生成部112を備える。各部の処理内容は下記のとおりである。
【0027】
<キャプション生成部111>
キャプション生成部111は、ビデオキャプション技術を用いて、入力された動画中の各シーンを同定して、同定したシーンのキャプションを生成する。つまり、各シーンの開始終了時刻とキャプションを与える。なお、ビデオキャプションには既存の技術を利用すれば良い。
【0028】
<スパンベクトル生成部112>
スパンベクトル生成部112は、後述するパラメタ学習部130が備えるものと同じ動画特徴抽出部、テキスト特徴抽出部、ベクトル合成部を有する。動画特徴抽出部、テキスト特徴抽出部、及びベクトル合成部の詳細についてはパラメタ学習部130の説明の際に説明する。動画特徴抽出部、テキスト特徴抽出部、ベクトル合成部のそれぞれのパラメタについては、パラメタ学習部130で最適化されたパラメタが使用される。
【0029】
キャプション生成部111により生成されたシーンの開始時刻、終了時刻、及び当該シーンに対するキャプション文が、動画特徴抽出部とテキスト特徴抽出部のそれぞれへ入力される。動画特徴抽出部とテキスト特徴抽出部のそれぞれが出力した特徴ベクトルをベクトル合成部へ渡し、ベクトル合成部によりスパンベクトルを生成する。
【0030】
(パラメタ学習部130)
図5に、パラメタ学習部130の機能構成を示す。
図5に示すように、パラメタ学習部130は、特徴量抽出部131、ベクトル合成部134、木構造推定処理部135、ラベル推定部136、パラメタ最適化部137を有する。特徴量抽出部131は、動画特徴抽出部132、テキスト特徴抽出部133を有する。
【0031】
図6は、パラメタ学習部130の動作概要を示している。動画特徴抽出部132とテキスト特徴抽出部133のそれぞれに、アノテーション済み動画が与えられる。アノテーション済み動画とは、動画におけるシーンに関するデータ(開始・終了時刻及びキャプション)と、スパン(シーン系列)の分割点と、スパンの核性ラベルと、スパン間の修辞関係ラベルとが、アノテーションとして付された動画である。
【0032】
動画特徴抽出部132から出力された動画ベクトルとテキスト特徴抽出部133から出力されたテキストベクトルがベクトル合成部134に入力され、ベクトル合成部134が、これらを合成してスパンベクトルを生成する。スパンベクトルに基づいて、木構造推定処理部135、ラベル推定部136、及びパラメタ最適化部137により、ニューラルネットワークにおける、木構造、核性、及び関係を推定するためのパタメタを出力する。以下、各部の処理内容を詳細に説明する。
【0033】
<動画特徴抽出部132>
動画特徴抽出部132は、アノテーション済み動画から、各シーンに対応する動画ベクトルを、動画中のフレームに対するベクトル(例えば、C3D、I3Dなどの手法で得た各フレームに対する特徴ベクトル)とLSTMを利用することで生成する。
【0034】
例えば、あるシーンの開始時刻が0:10であり終了時刻が1:00であるならば、その区間が支配する全てのフレームに対応するベクトルを前向きLSTM、及び後ろ向きLSTMに入力する。
【0035】
あるシーンが0:10から1:00であったとき、その区間に含まれるフレーム数がn個であるとして、j番目のフレームに対応するベクトル(C3Dなどで得られた特徴ベクトル)をvjとする。そして、前向きLSTMを→LSTMf、後ろ向きLSTMを←LSTMfとする。なお、本明細書での記載の便宜上、本明細書のテキストにおいて、頭の上に矢印線を記載したLSTMを「→LSTMf」、「←LSTMf」のように記載している。他の文字も同様に「→」、「←」を使用する。
【0036】
ここでj番目のフレームに対する前向き、後ろ向きの隠れ状態を用いてj番目のフレームの隠れ状態hv
jを以下の式で表す。なお、[→hv
j;←hv
j]は、→hv
jと←hv
jの連結を示す。
【0037】
【数1】
そして、シーンに対応する動画区間のベクトルをV=[h
v
1;h
v
n]とする。動画特徴抽出部132は、各シーンに対する動画ベクトルを出力する。なお、[h
v
1;h
v
n]は、h
v
1とh
v
nの連結を示す。
【0038】
<テキスト特徴抽出部133>
テキスト特徴抽出部133は、アノテーション済み動画から、シーンのキャプションに対応するテキストベクトルを、文に含まれる単語埋め込みベクトルとLSTMを用いて生成する。
【0039】
テキスト特徴抽出部133は、キャプションの文に含まれる全ての単語に対してその埋め込みベクトルを得た後、それを前向き、後ろ向きLSTMに入力する。動画特徴抽出部132と同様に、前向きLSTMによる隠れ状態、後ろ向きLSTMによる隠れ状態を用いてj番目の単語の隠れ状態hw
jを以下の式で表す。
【0040】
【数2】
そして、k単語からなる文全体のベクトル表現をS=[h
w
1;h
w
k]とする。なお、[h
w
1;h
w
k]は、h
w
1とh
w
kの連結を示す。テキスト特徴抽出部133は、各シーンのキャプションについてのテキストベクトルを出力する。なお、式(2)におけるwは単語埋め込みベクトルである。
【0041】
<ベクトル合成部134>
ベクトル合成部134では、まず、各シーンについて、シーンに対する動画ベクトルVとそのキャプションに対応するテキストベクトルSを合成し、シーンのベクトルを生成する。いま、シーンに対応するキャプションのj番目の単語の隠れ状態hw
j、動画ベクトルV、テキストベクトルSに対し、選択的ゲートを用いて新たなj番目の単語の隠れ状態h´w
jを以下の式で定義する。
【0042】
【数3】
W
S、U
S、U
Vは重み行列であり、b
Sはバイアスベクトルである。σはシグモイド関数を表す。〇の中に・を記載した記号はアダマール積を表す。そして、式(3)を用いて、シーンiのシーンベクトルを以下の式(4)で定義する。
【0043】
【数4】
次にこれを前向き、後ろ向きLSTMへ入力し以下の隠れ状態を得る。
【0044】
【数5】
上記の式におけるf、bは、前向き、後ろ向きLSTMの隠れ状態を表す。最終的に、m番目のシーンからn番目までのシーン系列に対応するスパンベクトルを以下の式で定義する。
【0045】
【数6】
なお、シーンベクトルについては上記の手順をふまず、単純にVとSを結合するだけでも良い。つまり、以下の式を用いても良い。スパンベクトルを得る手続については上記と同様であり、式(5)、式(6)により得られる。
【0046】
【数7】
<木構造推定処理部135>
木構造推定処理部135は、スパンの分割点を推定することで木構造を推定する。任意のスパン(i番目のシーンからj番目のシーンからなるシーンの系列)に対しk番目のシーンでスパンが分割されるスコアs
split(i;j;k)を以下の式で与える。
【0047】
【数8】
ここで、W
uは重み行列であり、v
l(添字lはLの小文字)とv
rはそれぞれ分割された左右のスパンに対する重みベクトルである。h
i:kとh
k+1:jは以下で定義される。
【0048】
hi:k=MLPleft(ui:k),hk+1:j=MLPright(uk+1:j),
MLP*は多層パーセプトロンを表す。スパンベクトルui:jはベクトル合成部134により得られたベクトルである。スパンは、下記の式のとおり、式(8)を最大にするkにて分割される。
【0049】
【数9】
<ラベル推定部136>
ラベル推定部136は、木構造推定処理部136が決定したスパンの分割点kに対し、分割した2つのスパンに対する核性ラベル、修辞関係ラベルを予測する。予測のスコアは以下の式で与えられる。
【0050】
【数10】
上記の式におけるW
l(添字lはLの小文字)は重み行列であり、u
1:i;u
j:nはそれぞれi番目のシーンの左側のスパンベクトル、j番目のシーンの右側のスパンベクトルである。最終的に、以下の式で式(10)を最大にするラベルを与える。
【0051】
【数11】
Lは、ラベル集合であり核性ラベルを付与する場合には3種のラベルからなる集合{N-S,S-N,N-N}となり、修辞関係ラベルを付与する場合には以下の18種のラベルからなる集合となる。ラベル:elaboration、joint、attribution、same-unit、contrast、temporal、background、explanation、cause、evaluation、condition、enablement、topic-comment、comparison、summary、manner-means、topic-change、texual-organization。
【0052】
なお、WlとMLPは核性ラベルを与える場合と修辞ラベルを与える場合とでは独立に最適化する。
【0053】
<パラメタ最適化部137>
パラメタ最適化部137は、学習対象の全てのパラメタ、すなわち、WS、US、UV、Wu、Wl、vr、vl、LSTM、及びMLPのパラメタを、以下に定義する2つの損失関数の和を最小化することで得る。なお、k*とl*(lはLの小文字)はそれぞれ正解の分割位置、ラベルである。正解の分割位置とラベルは、入力されたアノテーション済み動画のアノテーションかた得られる。損失関数を最小化する演算については、誤差逆伝搬法等の既存手法を用いて行うことができる。
【0054】
【数12】
(木構造推定部120)
木構造推定部120は、パラメタ学習部130が出力するパラメタとデータ入力部112が出力するスパンベクトルを用いて木構造を推定する。
図7に、木構造推定部120の機能構成を示す。
図7に示すように、木構造推定部120は、木構造推定処理部121とラベル推定部122を備える。以下、各部について説明する。
【0055】
<木構造推定処理部121>
木構造推定処理部121は、パラメタ学習部130における木構造推定処理部135と同じものである。木構造推定処理部121は初期状態として動画全体に対応するスパンベクトルを入力として受け取り、これを再帰的に2分割することで木構造を得る。シーン数がmである場合、パラメタ学習部130が決定したパラメタを使用した式(8)においてi=1;j=mとして、式(9)で分割点を決定する。これを再帰的に繰り返す。
【0056】
例えば、対象とする動画が、
図2に示した木構造になることを想定した場合、まず、c
1~c
3のスパンとc
4~c
6のスパンに分割され、分割された各スパンが図示のとおりに分割されていく。
【0057】
<ラベル推定部122>
ラベル推定部122もパラメタ学習部130のラベル推定部136と同じものである。ラベル推定部122は、木構造推定処理部121にて2分割された2つのスパンベクトルを受け取り、核性ラベルと関係ラベルのそれぞれを推定する。核性ラベルの推定時にはN-S、S-N、N-Nのいずれかに分類し、修辞ラベルの推定時には18種のラベルのいずれかに分類する。
【0058】
(データ出力部140)
データ出力部140は、木構造推定処理部121が推定したスパンの分割点、及びラベル推定部122が出力したスパンのラベル情報をまとめ、ラベル付き木として、例えばS式として出力する。
【0059】
(装置のハードウェア構成例)
動画談話構造解析装置100は、データ入力部110、木構造推定部120、パラメタ学習部130、データ出力部140、データ入力装置、木構造推定装置、パラメタ学習装置、データ出力装置(これらを総称して「装置」と呼ぶ)はいずれも、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。
【0060】
上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
【0061】
図8は、上記コンピュータのハードウェア構成例を示す図である。
図8のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
【0062】
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0063】
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
【0064】
(実施の形態の効果)
以上説明したとおり、本実施の形態では、動画を入力として、シーンを葉、シーン間の関係を核性、関係ラベルで表現する修辞構造木を出力できる。特に、テキスト情報だけでなく画像情報も合わせてシーンの修辞構造推定、関係推定を行うこととしたので、動画から、シーン間の類似性を適切に反映した修辞構造木を生成することができる。
【0065】
(実施の形態のまとめ)
本明細書には、少なくとも下記各項の木構造推定装置、パラメタ学習装置、木構造推定方法、パラメタ学習方法、及びプログラムが開示されている。
(第1項)
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定部と
を備える木構造推定装置。
(第2項)
前記修辞構造木の葉が前記動画のシーンと、そのシーンに対するキャプションに対応し、ノードのラベルがシーン系列の核性に対応し、エッジのラベルがシーン系列間の修辞関係に対応する
第1項に記載の木構造推定装置。
(第3項)
前記特徴抽出部は、シーンを構成する各フレームの特徴ベクトルをLSTMに入力することにより当該シーンに対応する動画ベクトルを作成する
第1項又は第2項に記載の木構造推定装置。
(第4項)
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルに基づいて、前記動画の修辞構造木を表す木構造とラベルとを推定する木構造推定部と、
前記木構造推定部により推定された前記木構造と前記ラベル、及び、前記動画の修辞構造木を表す正解データを用いて、前記木構造推定部に対応するニューラルネットワークのパラメタを最適化するパラメタ最適化部と
を備えるパラメタ学習装置。
(第5項)
木構造推定装置が実行する木構造推定方法であって、
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出ステップと、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成ステップと、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定ステップと
を備える木構造推定方法。
(第6項)
パラメタ学習装置が実行するパラメタ学習方法であって、
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出ステップと、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成ステップと、
前記合成ベクトルに基づいて、前記動画の修辞構造木を表す木構造とラベルとを推定する木構造推定ステップと、
前記木構造推定ステップにより推定された前記木構造と前記ラベル、及び、前記動画の修辞構造木を表す正解データを用いて、前記木構造推定ステップを実行するニューラルネットワークのパラメタを最適化するパラメタ最適化ステップと
を備えるパラメタ学習方法。
(第7項)
コンピュータを、第1項ないし第3項のうちいずれか1項に記載の木構造推定装置における各部として機能させるためのプログラム。
(第8項)
コンピュータを、第4項に記載のパラメタ学習装置における各部として機能させるためのプログラム。
【0066】
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0067】
100 動画談話構造解析装置
110 データ入力部
111 キャプション生成部
112 スパンベクトル生成部
120 木構造推定部
121 木構造推定処理部
122 ラベル推定部
130 パラメタ学習部
131 特徴量抽出部
132 動画特徴抽出部
133 テキスト特徴抽出部
134 ベクトル合成部
135 木構造推定処理部
136 ラベル推定部
137 パラメタ最適化部
140 データ出力部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置