特許7457332 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人東京工業大学の特許一覧

特許7457332木構造推定装置、パラメタ学習装置、木構造推定方法、パラメタ学習方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-19

(45)【発行日】2024-03-28

(54)【発明の名称】木構造推定装置、パラメタ学習装置、木構造推定方法、パラメタ学習方法、及びプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240321BHJP

G06N 5/04 20230101ALI20240321BHJP

G06V 10/82 20220101ALI20240321BHJP

G06V 20/70 20220101ALI20240321BHJP

G06F 40/211 20200101ALI20240321BHJP

【ＦＩ】

G06N20/00

G06N5/04

G06V10/82

G06V20/70

G06F40/211

【請求項の数】 8

(21)【出願番号】P 2021035375

(22)【出願日】2021-03-05

(65)【公開番号】P2022135518

(43)【公開日】2022-09-15

【審査請求日】2023-02-15

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(73)【特許権者】

【識別番号】304021417

【氏名又は名称】国立大学法人東京工業大学

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】平尾努

(72)【発明者】

【氏名】永田昌明

(72)【発明者】

【氏名】福島健司

(72)【発明者】

【氏名】上垣外英剛

(72)【発明者】

【氏名】奥村学

【審査官】坂庭剛史

(56)【参考文献】

【文献】特開２０１６－１６２１９８（ＪＰ，Ａ）

【文献】特開２０１７－０４１２０７（ＪＰ，Ａ）

【文献】小林尚輝ほか，"階層構造を考慮したトップダウン談話構造解析"，言語処理学会第２５回年次大会発表論文集，言語処理学会，2019年03月04日，p. 1002-1005

【文献】AKULA, Arjun R et al.，"Visual Discourse Parsing"，arXiv [online]，2019年03月，［2024年02月26日検索］，インターネット＜ＵＲＬ：https://arxiv.org/abs/1903.02252v2＞，1903.02252v2

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｖ１０／４０－１０／６２

Ｇ０６Ｖ１０／８２

Ｇ０６Ｖ２０／７０

Ｇ０６Ｆ４０／２０－４０／２９５

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定部と
を備える木構造推定装置。

【請求項2】

前記修辞構造木の葉が前記動画のシーンと、そのシーンに対するキャプションに対応し、ノードのラベルがシーン系列の核性に対応し、エッジのラベルがシーン系列間の修辞関係に対応する
請求項１に記載の木構造推定装置。

【請求項3】

前記特徴抽出部は、シーンを構成する各フレームの特徴ベクトルをＬＳＴＭに入力することにより当該シーンに対応する動画ベクトルを作成する
請求項１又は２に記載の木構造推定装置。

【請求項4】

入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルに基づいて、前記動画の修辞構造木を表す木構造とラベルとを推定する木構造推定部と、
前記木構造推定部により推定された前記木構造と前記ラベル、及び、前記動画の修辞構造木を表す正解データを用いて、前記木構造推定部に対応するニューラルネットワークのパラメタを最適化するパラメタ最適化部と
を備えるパラメタ学習装置。

【請求項5】

木構造推定装置が実行する木構造推定方法であって、
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出ステップと、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成ステップと、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定ステップと
を備える木構造推定方法。

【請求項6】

パラメタ学習装置が実行するパラメタ学習方法であって、
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出ステップと、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成ステップと、
前記合成ベクトルに基づいて、前記動画の修辞構造木を表す木構造とラベルとを推定する木構造推定ステップと、
前記木構造推定ステップにより推定された前記木構造と前記ラベル、及び、前記動画の修辞構造木を表す正解データを用いて、前記木構造推定ステップを実行するニューラルネットワークのパラメタを最適化するパラメタ最適化ステップと
を備えるパラメタ学習方法。

【請求項7】

コンピュータを、請求項１ないし３のうちいずれか１項に記載の木構造推定装置における各部として機能させるためのプログラム。

【請求項8】

コンピュータを、請求項４に記載のパラメタ学習装置における各部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、計算機を用いて自動的に動画を処理するコンピュータビジョン分野と自動的にテキストを処理する自然言語処理分野に関連し、特に、動画をイベント（シーン）に分割してキャプションを与え、それらの関係を木構造として表す技術に関連するものである。

【背景技術】

【0002】

自然言語処理分野では、文書全体を木構造として表現する談話構造解析技術が開発されている。特に、文書を修辞構造理論に基づいた木構造として表す技術が開発されている。

【0003】

修辞構造はテキストの話題構造を木として表現したものであるが、こうした構造はテキストだけではなく動画にも存在する。

【0004】

つまり、葉がイベント区間（シーン）とそのキャプションを表し、ノードがスパン（シーン系列）の核性役割を表し、エッジがスパン間の修辞関係を表す木として動画を表現することができる。ただし、テキストの場合とは異なり木の葉は、動画の区間とキャプション文なので、文内の構造は考えなくて良い。

【0005】

こうした構造を得るために、非特許文献１に開示された技術では、動画に対してキャプション文を生成し、得たキャプションに対して従来の修辞構造解析技術を適用し木構造を得る。そして、キャプション文と動画フレームとを、ＬＳＴＭを用いて対応付けている。

【先行技術文献】

【非特許文献】

【0006】

【文献】Arjun R Akula, Song-Chun Zhu: Visual Discourse Parsing, ,CVPR 2019 Workshop on Language and Vision, (2019)

【発明の概要】

【発明が解決しようとする課題】

【0007】

従来の技術において修辞構造木はテキスト情報のみを用いて構築される。しかし、動画を修辞構造木として表す場合において、テキストがシーンに対応する動画区間の全てを書き尽くしているとは限らないため、シーン間の構造や関係を決定するためにテキストを利用するだけでは十分とは限らない。特に木構造を決定する際にはシーン間の類似性が重要な要素となるがテキストだけでは類似性をうまくとらえることができないことが多々ある。

【0008】

本発明は上記の点に鑑みてなされたものであり、動画から、シーン間の類似性を適切に反映した修辞構造木を生成するための技術を提供することを目的とする。

【課題を解決するための手段】

【0009】

開示の技術によれば、入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定部と
を備える木構造推定装置が提供される。

【発明の効果】

【0010】

開示の技術によれば、動画から、シーン間の類似性を適切に反映した修辞構造木を生成するための技術が提供される。

【図面の簡単な説明】

【0011】

【図1】修辞構造木の例を示す図である。

【図2】動画に適用した修辞構造木の例を示す図である。

【図3】動画談話構造解析装置の構成図である。

【図4】データ入力部の構成図である。

【図5】パラメタ学習部の構成図である。

【図6】パラメタ学習部の動作概要を示す図である。

【図7】木構造推定部の構成図である。

【図8】装置のハードウェア構成例を示す図である。

【発明を実施するための形態】

【0012】

以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

【0013】

（修辞構造木について）
まず、従来の修辞構造木の例を説明する。修辞構造理論では、文書は２分木（修辞構造木）として表現される。修辞構造木は、それを構成する最小の談話基本単位であるＥＤＵの系列（以降、スパンと呼ぶ）を修辞関係により結合し、より大きなスパンを構成するという操作を再帰的に繰り返すことによって得られる木である。

【0014】

木の葉はＥＤＵ（節に相当）のユニットであり、木のノードにはそれが支配するスパンの核性ラベルが付与される。結合される２つのスパン（兄弟スパン）の一方は重要な情報を持つ核となり、もう一方はそれを補足する衛星となる。例外的に双方が核となる場合もある。木の枝にはスパン間の修辞関係を表す関係ラベルが付与される。修辞関係を表す関係ラベルは、１８種類が定義されている。

【0015】

図１に修辞構造木の例を示す。図中のｅ_１～ｅ_７がそれぞれＥＤＵであり、Ｓ／Ｎがスパンの核性ラベル（Ｎが核でＳが衛星）、Ｃｏｎｄｉｔｉｏｎ、Ｅｌａｂｏｒａｔｉｏｎなどが兄弟スパンの間の関係ラベルである。関係ラベルは兄弟スパンの核性がＳとＮの組合せの場合、Ｓ側のスパンに対して与えられ、ＮとＮになる場合には双方のスパンに対して与えられる。ＣｏｎｄｉｔｉｏｎやＥｌａｂｏｒａｔｉｏｎはＳとＮの組合せに対して与えられ、Ｌｉｓｔ、Ｓａｍｅ－ＵｎｉｔはＮとＮの組合せに与えられる。

【0016】

（実施の形態の概要）
前述したとおり、修辞構造はテキストだけではなく動画にも存在し、葉がイベント（シーン）とそのキャプションを表し、ノードがスパン（シーン系列）の核性役割を表し、エッジがスパン間の修辞関係を表す木として動画を表現することができる。例えば、図１に示す修辞構造木における葉（ｅ）をシーンとキャプションのタプルに置き換えた修辞構造木により、動画の修辞構造とスパン間の関係が表される。

【0017】

図２に、動画を木構造とラベルにより修辞構造木として表した例を示す。図２に示す例では、「［」，「］」の中の数字によりシーンが表す動画の開始、終了時刻を表し、ｃが、シーンに対応するキャプション文を表す。

【0018】

前述したように、非特許文献１に開示された従来技術では、シーン間の構造や関係を決定するのにテキストのみを利用してるため、シーン間の類似性をうまくとらえることができないことが多々ある。そこで、本実施の形態では、テキスト情報だけでなく画像情報も合わせてシーンの修辞構造推定、関係推定を行うことにより、シーン間の類似性を適切に反映した修辞構造木を生成することを可能としている。

【0019】

（装置構成例、動作概要）
図３に、本実施の形態における動画談話構造解析装置１００の構成例を示す。図３に示すように動画談話構造解析装置１００は、データ入力部１１０、木構造推定部１２０、パラメタ学習部１３０、データ出力部１４０を備える。

【0020】

動画談話構造解析装置１００は、１つのコンピュータで実装されてもよいし、複数のコンピュータで実装されてもよい。また、動画談話構造解析装置１００のうちの一部又は全部の機能が、クラウド上の仮想マシンで実装されてもよい。データ入力部１１０、木構造推定部１２０、パラメタ学習部１３０、データ出力部１４０がそれぞれ別装置で実装されてもよく、これらをそれぞれ、データ入力装置、木構造推定装置、パラメタ学習装置、データ出力装置と呼んでもよい。また、「データ入力部１１０＋木構造推定部１２０＋データ出力部１４０」を木構造推定装置と呼んでもよい。

【0021】

図３には、処理の流れも示されている。図３に示すように、データ入力部１１０は、動画を受け取り、動画からスパンベクトルを生成し、生成したスパンベクトルを木構造推定部１２０へ渡す。

【0022】

パラメタ学習部１３０は、図２に示したアノテーション、つまりシーンに対するアノテーション（動画区間時間とキャプション）及び修辞構造に対するアノテーション（木構造とラベル）がなされた動画を受け取り、当該アノテーション済みの動画に基づいて、ニューラルネットワークによる修辞木構造推定、核性ラベル推定、関係ラベル推定のためのパラメタを学習し、学習済みのパラメタを木構造推定部１２０へ渡す。アノテーションとして与えられる木構造とラベルは、パラメタ学習の際の正解データとして用いられる。

【0023】

木構造推定部１２０は、データ入力部１１からスパンベクトルを受け取り、パラメタ学習部１３０からパラメタを受け取り、これらを用いてシーンの分割点、及びシーンのラベルを推定し、推定したシーンの分割点、及びシーンのラベルをデータ出力部１４０へ渡す。

【0024】

データ出力部１４０は、木構造推定１２０から受け取ったシーンの分割点、及びラベルを受け取り、例えばＳ式を用いて木を出力する。

【0025】

なお、本実施の形態において、データ入力部１１０、木構造推定部１２０、パラメタ学習部１３０、データ出力部１４０はいずれもニューラルネットワークにより構成されるものとする。以下、各部の構成と処理内容を詳細に説明する。

【0026】

（データ入力部１１０）
データ入力部１１０は、ラベル付き木の生成対象である動画を入力として受け取り、シーン系列に対応するスパンベクトルを木構造推定装置１２０に渡す。図４に、データ入力部１１０の機能構成を示す。図４に示すように、データ入力部１１０は、キャプション生成部１１１とスパンベクトル生成部１１２を備える。各部の処理内容は下記のとおりである。

【0027】

＜キャプション生成部１１１＞
キャプション生成部１１１は、ビデオキャプション技術を用いて、入力された動画中の各シーンを同定して、同定したシーンのキャプションを生成する。つまり、各シーンの開始終了時刻とキャプションを与える。なお、ビデオキャプションには既存の技術を利用すれば良い。

【0028】

＜スパンベクトル生成部１１２＞
スパンベクトル生成部１１２は、後述するパラメタ学習部１３０が備えるものと同じ動画特徴抽出部、テキスト特徴抽出部、ベクトル合成部を有する。動画特徴抽出部、テキスト特徴抽出部、及びベクトル合成部の詳細についてはパラメタ学習部１３０の説明の際に説明する。動画特徴抽出部、テキスト特徴抽出部、ベクトル合成部のそれぞれのパラメタについては、パラメタ学習部１３０で最適化されたパラメタが使用される。

【0029】

キャプション生成部１１１により生成されたシーンの開始時刻、終了時刻、及び当該シーンに対するキャプション文が、動画特徴抽出部とテキスト特徴抽出部のそれぞれへ入力される。動画特徴抽出部とテキスト特徴抽出部のそれぞれが出力した特徴ベクトルをベクトル合成部へ渡し、ベクトル合成部によりスパンベクトルを生成する。

【0030】

（パラメタ学習部１３０）
図５に、パラメタ学習部１３０の機能構成を示す。図５に示すように、パラメタ学習部１３０は、特徴量抽出部１３１、ベクトル合成部１３４、木構造推定処理部１３５、ラベル推定部１３６、パラメタ最適化部１３７を有する。特徴量抽出部１３１は、動画特徴抽出部１３２、テキスト特徴抽出部１３３を有する。

【0031】

図６は、パラメタ学習部１３０の動作概要を示している。動画特徴抽出部１３２とテキスト特徴抽出部１３３のそれぞれに、アノテーション済み動画が与えられる。アノテーション済み動画とは、動画におけるシーンに関するデータ（開始・終了時刻及びキャプション）と、スパン（シーン系列）の分割点と、スパンの核性ラベルと、スパン間の修辞関係ラベルとが、アノテーションとして付された動画である。

【0032】

動画特徴抽出部１３２から出力された動画ベクトルとテキスト特徴抽出部１３３から出力されたテキストベクトルがベクトル合成部１３４に入力され、ベクトル合成部１３４が、これらを合成してスパンベクトルを生成する。スパンベクトルに基づいて、木構造推定処理部１３５、ラベル推定部１３６、及びパラメタ最適化部１３７により、ニューラルネットワークにおける、木構造、核性、及び関係を推定するためのパタメタを出力する。以下、各部の処理内容を詳細に説明する。

【0033】

＜動画特徴抽出部１３２＞
動画特徴抽出部１３２は、アノテーション済み動画から、各シーンに対応する動画ベクトルを、動画中のフレームに対するベクトル（例えば、Ｃ３Ｄ、Ｉ３Ｄなどの手法で得た各フレームに対する特徴ベクトル）とＬＳＴＭを利用することで生成する。

【0034】

例えば、あるシーンの開始時刻が０：１０であり終了時刻が１：００であるならば、その区間が支配する全てのフレームに対応するベクトルを前向きＬＳＴＭ、及び後ろ向きＬＳＴＭに入力する。

【0035】

あるシーンが０：１０から１：００であったとき、その区間に含まれるフレーム数がｎ個であるとして、ｊ番目のフレームに対応するベクトル（Ｃ３Ｄなどで得られた特徴ベクトル）をｖ_ｊとする。そして、前向きＬＳＴＭを^→ＬＳＴＭ_ｆ、後ろ向きＬＳＴＭを^←ＬＳＴＭ_ｆとする。なお、本明細書での記載の便宜上、本明細書のテキストにおいて、頭の上に矢印線を記載したＬＳＴＭを「^→ＬＳＴＭ_ｆ」、「^←ＬＳＴＭ_ｆ」のように記載している。他の文字も同様に「^→」、「^←」を使用する。

【0036】

ここでｊ番目のフレームに対する前向き、後ろ向きの隠れ状態を用いてｊ番目のフレームの隠れ状態ｈ^ｖ _ｊを以下の式で表す。なお、［^→ｈ^ｖ _ｊ；^←ｈ^ｖ _ｊ］は、^→ｈ^ｖ _ｊと^←ｈ^ｖ _ｊの連結を示す。

【0037】

【数1】

そして、シーンに対応する動画区間のベクトルをＶ＝［ｈ^ｖ _１；ｈ^ｖ _ｎ］とする。動画特徴抽出部１３２は、各シーンに対する動画ベクトルを出力する。なお、［ｈ^ｖ _１；ｈ^ｖ _ｎ］は、ｈ^ｖ _１とｈ^ｖ _ｎの連結を示す。

【0038】

＜テキスト特徴抽出部１３３＞
テキスト特徴抽出部１３３は、アノテーション済み動画から、シーンのキャプションに対応するテキストベクトルを、文に含まれる単語埋め込みベクトルとＬＳＴＭを用いて生成する。

【0039】

テキスト特徴抽出部１３３は、キャプションの文に含まれる全ての単語に対してその埋め込みベクトルを得た後、それを前向き、後ろ向きＬＳＴＭに入力する。動画特徴抽出部１３２と同様に、前向きＬＳＴＭによる隠れ状態、後ろ向きＬＳＴＭによる隠れ状態を用いてｊ番目の単語の隠れ状態ｈ^ｗ _ｊを以下の式で表す。

【0040】

【数2】

そして、ｋ単語からなる文全体のベクトル表現をＳ＝［ｈ^ｗ _１；ｈ^ｗ _ｋ］とする。なお、［ｈ^ｗ _１；ｈ^ｗ _ｋ］は、ｈ^ｗ _１とｈ^ｗ _ｋの連結を示す。テキスト特徴抽出部１３３は、各シーンのキャプションについてのテキストベクトルを出力する。なお、式（２）におけるｗは単語埋め込みベクトルである。

【0041】

＜ベクトル合成部１３４＞
ベクトル合成部１３４では、まず、各シーンについて、シーンに対する動画ベクトルＶとそのキャプションに対応するテキストベクトルＳを合成し、シーンのベクトルを生成する。いま、シーンに対応するキャプションのｊ番目の単語の隠れ状態ｈ^ｗ _ｊ、動画ベクトルＶ、テキストベクトルＳに対し、選択的ゲートを用いて新たなｊ番目の単語の隠れ状態ｈ´^ｗ _ｊを以下の式で定義する。

【0042】

【数3】

Ｗ_Ｓ、Ｕ_Ｓ、Ｕ_Ｖは重み行列であり、ｂ_Ｓはバイアスベクトルである。σはシグモイド関数を表す。〇の中に・を記載した記号はアダマール積を表す。そして、式（３）を用いて、シーンｉのシーンベクトルを以下の式（４）で定義する。

【0043】

【数4】

次にこれを前向き、後ろ向きＬＳＴＭへ入力し以下の隠れ状態を得る。

【0044】

【数5】

上記の式におけるｆ、ｂは、前向き、後ろ向きＬＳＴＭの隠れ状態を表す。最終的に、ｍ番目のシーンからｎ番目までのシーン系列に対応するスパンベクトルを以下の式で定義する。

【0045】

【数6】

なお、シーンベクトルについては上記の手順をふまず、単純にＶとＳを結合するだけでも良い。つまり、以下の式を用いても良い。スパンベクトルを得る手続については上記と同様であり、式（５）、式（６）により得られる。

【0046】

【数7】

＜木構造推定処理部１３５＞
木構造推定処理部１３５は、スパンの分割点を推定することで木構造を推定する。任意のスパン（ｉ番目のシーンからｊ番目のシーンからなるシーンの系列）に対しｋ番目のシーンでスパンが分割されるスコアｓ_{ｓｐｌｉｔ}（ｉ；ｊ；ｋ）を以下の式で与える。

【0047】

【数8】

ここで、Ｗ_ｕは重み行列であり、ｖ_ｌ（添字ｌはＬの小文字）とｖ_ｒはそれぞれ分割された左右のスパンに対する重みベクトルである。ｈ_ｉ：ｋとｈ_{ｋ＋１：ｊ}は以下で定義される。

【0048】

ｈ_ｉ：ｋ＝ＭＬＰ_ｌｅｆｔ（ｕ_ｉ：ｋ），ｈ_{ｋ＋１：ｊ}＝ＭＬＰ_{ｒｉｇｈｔ}（ｕ_{ｋ＋１：ｊ}），
ＭＬＰ_＊は多層パーセプトロンを表す。スパンベクトルｕ_ｉ：ｊはベクトル合成部１３４により得られたベクトルである。スパンは、下記の式のとおり、式（８）を最大にするｋにて分割される。

【0049】

【数9】

＜ラベル推定部１３６＞
ラベル推定部１３６は、木構造推定処理部１３６が決定したスパンの分割点ｋに対し、分割した２つのスパンに対する核性ラベル、修辞関係ラベルを予測する。予測のスコアは以下の式で与えられる。

【0050】

【数10】

上記の式におけるＷ_ｌ（添字ｌはＬの小文字）は重み行列であり、ｕ_１：ｉ；ｕ_ｊ：ｎはそれぞれｉ番目のシーンの左側のスパンベクトル、ｊ番目のシーンの右側のスパンベクトルである。最終的に、以下の式で式（１０）を最大にするラベルを与える。

【0051】

【数11】

Ｌは、ラベル集合であり核性ラベルを付与する場合には３種のラベルからなる集合｛Ｎ－Ｓ，Ｓ－Ｎ，Ｎ－Ｎ｝となり、修辞関係ラベルを付与する場合には以下の１８種のラベルからなる集合となる。ラベル：ｅｌａｂｏｒａｔｉｏｎ、ｊｏｉｎｔ、ａｔｔｒｉｂｕｔｉｏｎ、ｓａｍｅ－ｕｎｉｔ、ｃｏｎｔｒａｓｔ、ｔｅｍｐｏｒａｌ、ｂａｃｋｇｒｏｕｎｄ、ｅｘｐｌａｎａｔｉｏｎ、ｃａｕｓｅ、ｅｖａｌｕａｔｉｏｎ、ｃｏｎｄｉｔｉｏｎ、ｅｎａｂｌｅｍｅｎｔ、ｔｏｐｉｃ－ｃｏｍｍｅｎｔ、ｃｏｍｐａｒｉｓｏｎ、ｓｕｍｍａｒｙ、ｍａｎｎｅｒ－ｍｅａｎｓ、ｔｏｐｉｃ－ｃｈａｎｇｅ、ｔｅｘｕａｌ－ｏｒｇａｎｉｚａｔｉｏｎ。

【0052】

なお、Ｗ_ｌとＭＬＰは核性ラベルを与える場合と修辞ラベルを与える場合とでは独立に最適化する。

【0053】

＜パラメタ最適化部１３７＞
パラメタ最適化部１３７は、学習対象の全てのパラメタ、すなわち、Ｗ_Ｓ、Ｕ_Ｓ、Ｕ_Ｖ、Ｗ_ｕ、Ｗ_ｌ、ｖ_ｒ、ｖ_ｌ、ＬＳＴＭ、及びＭＬＰのパラメタを、以下に定義する２つの損失関数の和を最小化することで得る。なお、ｋ^＊とｌ^＊（ｌはＬの小文字）はそれぞれ正解の分割位置、ラベルである。正解の分割位置とラベルは、入力されたアノテーション済み動画のアノテーションかた得られる。損失関数を最小化する演算については、誤差逆伝搬法等の既存手法を用いて行うことができる。

【0054】

【数12】

（木構造推定部１２０）
木構造推定部１２０は、パラメタ学習部１３０が出力するパラメタとデータ入力部１１２が出力するスパンベクトルを用いて木構造を推定する。図７に、木構造推定部１２０の機能構成を示す。図７に示すように、木構造推定部１２０は、木構造推定処理部１２１とラベル推定部１２２を備える。以下、各部について説明する。

【0055】

＜木構造推定処理部１２１＞
木構造推定処理部１２１は、パラメタ学習部１３０における木構造推定処理部１３５と同じものである。木構造推定処理部１２１は初期状態として動画全体に対応するスパンベクトルを入力として受け取り、これを再帰的に２分割することで木構造を得る。シーン数がｍである場合、パラメタ学習部１３０が決定したパラメタを使用した式（８）においてｉ＝１；ｊ＝ｍとして、式（９）で分割点を決定する。これを再帰的に繰り返す。

【0056】

例えば、対象とする動画が、図２に示した木構造になることを想定した場合、まず、ｃ_１～ｃ_３のスパンとｃ_４～ｃ_６のスパンに分割され、分割された各スパンが図示のとおりに分割されていく。

【0057】

＜ラベル推定部１２２＞
ラベル推定部１２２もパラメタ学習部１３０のラベル推定部１３６と同じものである。ラベル推定部１２２は、木構造推定処理部１２１にて２分割された２つのスパンベクトルを受け取り、核性ラベルと関係ラベルのそれぞれを推定する。核性ラベルの推定時にはＮ－Ｓ、Ｓ－Ｎ、Ｎ－Ｎのいずれかに分類し、修辞ラベルの推定時には１８種のラベルのいずれかに分類する。

【0058】

（データ出力部１４０）
データ出力部１４０は、木構造推定処理部１２１が推定したスパンの分割点、及びラベル推定部１２２が出力したスパンのラベル情報をまとめ、ラベル付き木として、例えばＳ式として出力する。

【0059】

（装置のハードウェア構成例）
動画談話構造解析装置１００は、データ入力部１１０、木構造推定部１２０、パラメタ学習部１３０、データ出力部１４０、データ入力装置、木構造推定装置、パラメタ学習装置、データ出力装置（これらを総称して「装置」と呼ぶ）はいずれも、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。

【0060】

上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

【0061】

図８は、上記コンピュータのハードウェア構成例を示す図である。図８のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

【0062】

当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0063】

メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

【0064】

（実施の形態の効果）
以上説明したとおり、本実施の形態では、動画を入力として、シーンを葉、シーン間の関係を核性、関係ラベルで表現する修辞構造木を出力できる。特に、テキスト情報だけでなく画像情報も合わせてシーンの修辞構造推定、関係推定を行うこととしたので、動画から、シーン間の類似性を適切に反映した修辞構造木を生成することができる。

【0065】

（実施の形態のまとめ）
本明細書には、少なくとも下記各項の木構造推定装置、パラメタ学習装置、木構造推定方法、パラメタ学習方法、及びプログラムが開示されている。
（第１項）
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定部と
を備える木構造推定装置。
（第２項）
前記修辞構造木の葉が前記動画のシーンと、そのシーンに対するキャプションに対応し、ノードのラベルがシーン系列の核性に対応し、エッジのラベルがシーン系列間の修辞関係に対応する
第１項に記載の木構造推定装置。
（第３項）
前記特徴抽出部は、シーンを構成する各フレームの特徴ベクトルをＬＳＴＭに入力することにより当該シーンに対応する動画ベクトルを作成する
第１項又は第２項に記載の木構造推定装置。
（第４項）
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルに基づいて、前記動画の修辞構造木を表す木構造とラベルとを推定する木構造推定部と、
前記木構造推定部により推定された前記木構造と前記ラベル、及び、前記動画の修辞構造木を表す正解データを用いて、前記木構造推定部に対応するニューラルネットワークのパラメタを最適化するパラメタ最適化部と
を備えるパラメタ学習装置。
（第５項）
木構造推定装置が実行する木構造推定方法であって、
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出ステップと、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成ステップと、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定ステップと
を備える木構造推定方法。
（第６項）
パラメタ学習装置が実行するパラメタ学習方法であって、
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出ステップと、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成ステップと、
前記合成ベクトルに基づいて、前記動画の修辞構造木を表す木構造とラベルとを推定する木構造推定ステップと、
前記木構造推定ステップにより推定された前記木構造と前記ラベル、及び、前記動画の修辞構造木を表す正解データを用いて、前記木構造推定ステップを実行するニューラルネットワークのパラメタを最適化するパラメタ最適化ステップと
を備えるパラメタ学習方法。
（第７項）
コンピュータを、第１項ないし第３項のうちいずれか１項に記載の木構造推定装置における各部として機能させるためのプログラム。
（第８項）
コンピュータを、第４項に記載のパラメタ学習装置における各部として機能させるためのプログラム。

【0066】

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0067】

１００動画談話構造解析装置
１１０データ入力部
１１１キャプション生成部
１１２スパンベクトル生成部
１２０木構造推定部
１２１木構造推定処理部
１２２ラベル推定部
１３０パラメタ学習部
１３１特徴量抽出部
１３２動画特徴抽出部
１３３テキスト特徴抽出部
１３４ベクトル合成部
１３５木構造推定処理部
１３６ラベル推定部
１３７パラメタ最適化部
１４０データ出力部
１０００ドライブ装置
１００１記録媒体
１００２補助記憶装置
１００３メモリ装置
１００４ＣＰＵ
１００５インタフェース装置
１００６表示装置
１００７入力装置
１００８出力装置

【図1】