特開2024-124103 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人東京工業大学の特許一覧

特開2024-124103動画修辞構造解析学習装置、動画修辞構造推定装置、動画修辞構造解析学習方法、動画修辞構造推定方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024124103

(43)【公開日】2024-09-12

(54)【発明の名称】動画修辞構造解析学習装置、動画修辞構造推定装置、動画修辞構造解析学習方法、動画修辞構造推定方法及びプログラム

(51)【国際特許分類】

G06N 3/08 20230101AFI20240905BHJP

G06N 3/0455 20230101ALI20240905BHJP

G06N 20/00 20190101ALI20240905BHJP

【ＦＩ】

G06N3/08

G06N3/0455

G06N20/00

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023032042

(22)【出願日】2023-03-02

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】304021417

【氏名又は名称】国立大学法人東京工業大学

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】平尾努

(72)【発明者】

【氏名】奥村学

(72)【発明者】

【氏名】小林尚輝

(57)【要約】

【課題】キャプションが与えられていない動画の修辞構造解析を可能とすること。
【解決手段】動画修辞構造解析学習装置は、動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第１の学習部と、前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第１の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく１以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第１の修辞構造木とに基づいて前記モデルを学習する第２の学習部と、を有する。
【選択図】図４

【特許請求の範囲】

【請求項1】

動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第１の学習部と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第１の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく１以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第１の修辞構造木とに基づいて前記モデルを学習する第２の学習部と、
を有することを特徴とする動画修辞構造解析学習装置。

【請求項2】

前記第１の修辞構造木は、キャプションの修辞構造木から当該キャプションとフレーム列との対応関係に基づいて生成され修辞構造木である、
ことを特徴とする請求項１記載の動画修辞構造解析学習装置。

【請求項3】

前記第２の学習部によって学習された前記エンコーダが動画を構成する複数のフレーム列を入力した場合に出力するベクトルに基づく前記スパンごとのベクトルを前記ニューラルネットワークが入力した場合に出力される修辞構造木と、当該動画に対する正解としての修辞構造木とに基づいて前記モデルを追加学習する第３の学習部、
を有することを特徴とする請求項２記載の動画修辞構造解析学習装置。

【請求項4】

請求項１乃至３いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定部、
を有することを特徴とする動画修辞構造推定装置。

【請求項5】

、
動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第１の学習手順と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第１の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく１以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第１の修辞構造木とに基づいて前記モデルを学習する第２の学習手順と、
をコンピュータが実行することを特徴とする動画修辞構造解析学習方法。

【請求項6】

請求項１乃至３いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定手順、
をコンピュータが実行することを特徴とする動画修辞構造推定方法。

【請求項7】

動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第１の学習手順と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第１の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく１以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第１の修辞構造木とに基づいて前記モデルを学習する第２の学習手順と、
をコンピュータに実行させることを特徴とするプログラム。

【請求項8】

請求項１乃至３いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定手順、
をコンピュータに実行させることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、動画修辞構造解析学習装置、動画修辞構造推定装置、動画修辞構造解析学習方法、動画修辞構造推定方法及びプログラムに関する。

【背景技術】

【0002】

動画の構造を自動的に推定する動画修辞構造解析は、動画を、イベント区間（開始終了時刻を持つフレーム列）の系列とみなし、イベント区間の間の関係を再帰構造を持った２分木（修辞構造木）として表現する（図１）。なお、木の葉は単一のイベント区間となる。イベントスパン（単体のイベント区間又はその連なり）を表す非終端ノードはＮ（核）、Ｓ（衛星）という役割をもち、Ｓが対となったＮを予め定められた修辞関係（図中のＣａｕｓｅやＳｕｐｐｌｅｍｅｎｔなど）で修飾する。つまり、ＳからＮへ向かうエッジに修辞関係ラベルが与えられる。以下に、修辞関係ラベルとして扱われる文字列を示す。

【0003】

Ｐｒｅｐａｒａｔｉｏｎ、Ｃａｕｓｅ、Ｒｅｓｕｌｔ、Ｓｕｐｐｌｅｍｅｎｔ、Ｃｏｍｐａｒｉｓｏｎ、Ｌｉｓｔ、Ｂａｃｋ－ｇｒｏｕｎｄ、Ｓｕｍｍａｒｙ、Ｒｅｓｔａｔｅｍｅｎｔ、Ａｔｔｒｉｂｕｔｉｏｎ、Ｅｌａｂｏｒａｔｉｏｎ、Ｅｎ－ａｂｌｅｍｅｎｔ、Ｍａｎｎｅｒ－ｍｅａｎｓ、Ｓａｍｅ－ｕｎｉｔ
例外的に２つの非終端ノードが支配する２つのスパンの間の関係が並列である場合は双方にＮが与えられ、双方のエッジラベルに並列関係を表す修辞関係ラベル（Ｌｉｓｔ、Ｓａｍｅ－ｕｎｉｔ、Ｃｏｍｐａｒｉｓｏｎ）が与えられる。なお、この構造は修辞構造理論における木の構築ルールにしたがっている。

【0004】

こうした木構造を推定するため、イベント区間に対するキャプションを活用する手法が提案されている（非特許文献１）。この手法では、キャプションを用いて通常の修辞構造解析が行われ、キャプションとイベント区間との間の対応関係に基づきイベント区間の修辞構造木が得られる。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】Arjun R. Akula and Song-Chun Zhu、"Discourse Parsing in Videos: A Multi-modal Appraoch"、In CVPR Workshop on Language and Vision 2020

【発明の概要】

【発明が解決しようとする課題】

【0006】

非特許文献１の手法はキャプションが与えられた動画を対象とすることが前提となっている。つまり、単にテキストの修辞構造解析を行っているにすぎず、キャプションが与えられていない動画に対応できないという問題がある。

【0007】

本発明は、上記の点に鑑みてなされたものであって、キャプションが与えられていない動画の修辞構造解析を可能とすることを目的とする。

【課題を解決するための手段】

【0008】

そこで上記課題を解決するため、動画修辞構造解析学習装置は、動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第１の学習部と、前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第１の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく１以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第１の修辞構造木とに基づいて前記モデルを学習する第２の学習部と、を有する。

【発明の効果】

【0009】

キャプションが与えられていない動画の修辞構造解析を可能とすることができる。

【図面の簡単な説明】

【0010】

【図1】動画修辞構造解析を説明するための図である。

【図2】クリップエンコーダによるイベント区間からベクトルへの変換を示す図である。

【図3】本発明の実施の形態における動画修辞構造解析学習装置１０のハードウェア構成例を示す図である。

【図4】本発明の実施の形態における動画修辞構造解析学習装置１０の機能構成例を示す図である。

【図5】クリップエンコーダの事前学習を説明するための図である。

【図6】遷移型の解析法に基づくパラメタ最適化を説明するための図である。

【発明を実施するための形態】

【0011】

本実施の形態では、キャプションを必要とせずに、動画中のイベント区間（開始終了時刻を持つフレーム列）の系列の情報が付与された動画の修辞構造が解析される。但し、（イベントが付与された）動画を入力としてイベント区間を葉とする修辞構造木（二分木）を出力するニューラルネットワーク（以下、「動画修辞構造解析モデル」という。）の学習、つまりパラメタ推定には十分な量の訓練データが必要となる。しかし、イベント区間の間の関係を表す修辞構造木のアノテーションを与えるコストは非常に高い。よって、大規模な訓練データを用意することが困難である。なお、動画のイベント区間の同定に関しては以下の既存技術（以下、「参考文献１」という。）などを用いれば自動的に決定できる。

【0012】

［参考文献１］
Krishna, Ranjay and Hata, Kenji and Ren, Frederic and Fei-Fei, Li and Niebles, Juan Carlos、"Dense-Captioning Events in Videos"、In Proc. of International Conference on Computer Vision (ICCV),2017
本実施の形態では、この課題を解決するため、ActivityNet Captions（参考文献１）などで開発された、動画に対してイベント区間とキャプションの対が与えられたデータセットを活用する。まず、イベント区間をベクトル（クリップ表現ベクトル）へと変換し、動画修辞構造解析モデルの一部を構成するクリップエンコーダ（図２）の事前学習として、イベント区間からキャプションを生成するタスクを用いる。そして、テキスト修辞構造解析器を適用し、非特許文献１と同様に動画の修辞構造木を得て、これを擬似訓練データとして動画修辞構造解析モデルを構成するネットワーク全体（動画修辞構造解析モデル全体）の事前学習を行う。そして、訓練データを用いて再び動画修辞構造解析モデル全体の追加学習を行う。

【0013】

以下、図面に基づいて本発明の実施の形態を説明する。図３は、本発明の実施の形態における動画修辞構造解析学習装置１０のハードウェア構成例を示す図である。図３の動画修辞構造解析学習装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、プロセッサ１０４、及びインタフェース装置１０５等を有する。

【0014】

動画修辞構造解析学習装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0015】

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。プロセッサ１０４は、ＣＰＵ若しくはＧＰＵ（Graphics Processing Unit）、又はＣＰＵ及びＧＰＵであり、メモリ装置１０３に格納されたプログラムに従って動画修辞構造解析学習装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

【0016】

図４は、本発明の実施の形態における動画修辞構造解析学習装置１０の機能構成例を示す図である。図４において動画修辞構造解析学習装置１０は、クリップエンコーダ事前学習部１１、データ拡張部１２、事前学習部１３及び追加学習部１４を有する。これら各部は、動画修辞構造解析学習装置１０にインストールされた１以上のプログラムが、プロセッサ１０４に実行させる処理により実現される。

【0017】

動画修辞構造解析学習装置１０は、図４の機能構成に基づいて、イベント区間とキャプションの対を用いてクリップエンコーダを事前学習したのち、入力された擬似訓練データを用いて動画修辞構造解析モデル全体のパラメタを事前学習し、訓練データを用いて動画修辞構造解析モデル全体のパラメタを追加学習することで最終的なパラメタを出力する（図４）。

【0018】

以下、各部について詳細に説明する。

【0019】

［クリップエンコーダ事前学習部１１］
クリップエンコーダは、イベント区間に対応する動画のフレーム列を入力し、クリップ表現ベクトルを生成する（図２）。クリップエンコーダとしては既存技術、例えば、ＴＳＰ（Temporally-Sensitive Pretraining of Video Encoders）やVideoSwin Trans-formerなどを利用すればよい（図２）。但し、本実施の形態では、クリップエンコーダが生成するクリップ表現ベクトルをより動画修辞構造解析に適したものとするため、クリップエンコーダ事前学習部１１は、入力をイベント区間に対応するフレーム列、出力をそのイベント区間のキャプションとしてクリップエンコーダの事前学習を行う。イベント区間とキャプションの対についてはActivityNet CaptionsやYouCook2などを用いれば事前学習に十分な量のデータが利用できる。

【0020】

図５は、クリップエンコーダの事前学習を説明するための図である。上記したように、クリップエンコーダ事前学習部１１は、クリップエンコーダに対してイベント区間ｐ_ｔ（ｔ＝１～Ｍ）を入力する。クリップエンコーダ事前学習部１１は、クリップエンコーダがイベント区間ｐ_ｔに対して生成したクリップ表現ベクトルｖ_ｔをトランスフォーマに入力する。クリップエンコーダ事前学習部１１は、クリップ表現ベクトルｖ_ｔに対してトランスフォーマが出力するキャプションｃ_ｔと、イベント区間ｐ_ｔに対して入力されたキャプションとの比較に基づいて（キャプションｃ_ｔと、イベント区間ｐ_ｔに対して入力されたキャプションと損失を最小化するように）、クリップエンコーダ及びトランスフォーマについてパラメタの最適化を行う。

【0021】

図５では、ｖ_ｔからｃ_ｔを生成するためにトランスフォーマを用いる例が示されたが、ｖ_ｔからｃ_ｔを生成するためモデルは、ＬＳＴＭ等、系列変換モデルであれば所定のものに限られない。

【0022】

ここで学習したクリップエンコーダのパラメタは事前学習部１３におけるクリップエンコーダの初期値とされる。

【0023】

［データ拡張部１２］
データ拡張部１２は、テキスト修辞構造解析器を活用し擬似訓練データを生成する。データ拡張部１２は、まず、テキストを利用して学習された修辞構造解析器をActivityNet CaptionsやYouCook2などのイベント区間とキャプションの対が与えられたデータセットにおけるキャプションに適用して修辞構造解析を行うことで、キャプションを葉とする修辞構造木を得る。データ拡張部１２は、キャプションとイベント区間との対応関係からイベント区間が葉となる修辞構造木を得て擬似訓練データとする。

【0024】

［事前学習部１３］
事前学習部１３は、データ拡張部１２によって生成された擬似訓練データを入力として受け取り、動画修辞構造解析モデルの一部を構成するフィードフォワードネットワークについてランダムに初期化されたパラメタと、クリップエンコーダ事前学習部１１によって事前学習されたクリップエンコーダのパラメタとの最適化を行う。

【0025】

パラメタの最適化のための解析法は所定のものに限定されない。ここでは、図６に示されるように、遷移型の解析法に基づくパラメタ最適化について説明する。なお、図６におけるｐ_ｔ（ｔ＝１～Ｍ）は、擬似訓練データ（イベント区間を葉とする修辞構造木）における葉としてのイベント区間である。

【0026】

遷移型の解析法では、擬似訓練データ（イベント区間を葉とする修辞構造木）のうちの解析済みの木（部分木）を格納するスタック（Ｓｔａｃｋ）と未解析のイベント区間を格納するキュー（Ｑｕｅｕｅ）が用いられる。スタックの上部２つに格納された木とキューの先頭のイベント区間を用いてシフト（キューの先頭のイベント区間をスタック最上部に積む）、還元（スタック最上部の木とキュー先頭のイベント区間を結合して新たな木つくりスタック最上部に積む）操作を適用することで木を構築する。ここで、スタックに積まれた２つの木も連続したイベント区間であることに注意すると任意のスパン（１上の連続したイベント区間）をベクトル化できれば、シフトと還元操作は分類問題として定式化できる。スパンのベクトル（スパン表現ベクトル）はその左端のクリップの表現ベクトル（スパンの先頭のイベント区間をクリップエンコーダでベクトル化したもの）と右端のクリップの表現ベクトル（スパンの末尾のイベント区間をクリップエンコーダでベクトル化したもの）の（重み付き）平均、結合などが利用可能である。図６において動画修辞構造解析モデルの一部を構成するスパンエンコーダは、このような平均又は結合等により、スパンごとにスパン表現ベクトルを生成する。

【0027】

ベクトル化したスパン（つまり、スパン表現ベクトル）をそれぞれｕ_ｓ１（スタック２番目）、ｕ_ｓ０（スタック先頭）、ｕ_ｑ０（キュー先頭）として、以下の式でシフト、還元操作を決定する。

【0028】

ｓ_＊＝ＦＦＮ_＊（Ｃｏｎｃａｔ（ｕ_ｓ０，ｕ_ｓ１，ｕ_ｑ０））（１）
Ｃｏｎｃａｔは、ベクトルを結合する関数である。ＦＦＮ_＊は、動画修辞構造解析モデルの一部を構成するフィードフォワードネットワークであり、厳密には、ＦＦＮ_ａｃｔ（図６のアクション分類器）はシフトか還元を決定するフィードフォワードネットワーク、ＦＦＮ_ｎｕｃ（図６の核性分類器）は還元の左右のスパン（スタックの一番上のｕ_ｓ０及びキューの先頭のｕ_ｑ０）をＮ－Ｓ、Ｓ－Ｎ、Ｎ－Ｎのいずれで結合するかを決定するフィードフォワードネットワーク、ＦＦＮ_ｒｅｌ（図６の修辞関係分類器）は当該左右のスパンの間の修辞関係を決定するフィードフォワードネットワークである。ｓ_＊は分類結果を表し、ｓ_ａｃｔはシフト又は還元、ｓ_ｎｕｃはＮ－Ｓ、Ｓ－Ｎ、Ｎ－Ｎのいずれか、ｓ_ｒｅｌは修辞関係ラベルのいずれかを表す。

【0029】

事前学習部１３は、動画修辞構造解析モデル全体（ＦＦＮ_＊（フィードフォワードネットワーク）、スパンエンコーダ及びクリップエンコーダ）のパラメタを、ｓ_ａｃｔ、ｓ_ｎｕｃ、ｓ_ｒｅｌについての正解との比較に基づいて（ｓ_ａｃｔ、ｓ_ｎｕｃ、ｓ_ｒｅｌについて正確に対するクロスエントロピー損失を最小化するように）最適化する。最適化されたパラメタは追加学習部１４へ渡す。なお、３つのＦＦＮ（ＦＦＮ_ａｃｔ、ＦＦＮ_ｎｕｃ、ＦＦＮ_ｒｅｌ）を別々にするのであれば、クロスエントロピー損失はＦＦＮごとに最適化される。３つのＦＦＮを統合するのであれば、クロスエントロピー損失は統合された１つのＦＦＮに対して最適化される。クロスエントロピー損失を計算する際の各ｓ_＊（ｓ_ａｃｔ、ｓ_ｎｕｃ、ｓ_ｒｅｌ）に対する正解は擬似訓練データに含まれている。

【0030】

［追加学習部１４］
追加学習部１４は事前学習部１３で決定したパラメタで初期化されたフィードフォワードネットワーク、スパンエンコーダ及びクリップエンコーダのパラメタを訓練データ（イベント区間の系列と、当該系列に対して正解となる修辞構造木（二分木）との組を複数含むデータ）を用いて最適化する。パラメタ最適化の手続きは事前学習部１３と同様である。

【0031】

このようにして学習された動画修辞構造解析モデルは、動画を入力とし、当該動画を構成する各イベント区間を葉とする修辞構造木を出力することができる。したがって、任意のコンピュータは、動画修辞構造モデルを用いて、動画を入力と、当該動画を構成する各イベント区間を葉とする修辞構造木を出力する推定部を有する動画修辞構造推定装置として機能することができる。動画修辞構造解析学習装置１０が、動画修辞構造推定装置として機能してもよい。

【0032】

上述したように、本実施の形態によれば、キャプションが与えられていない動画の修辞構造解析を可能とすることができる。クリップエンコーダをキャプション生成タスクを用いて事前学習すること、クリップエンコーダ、フィードフォワードネットワークのパラメタを擬似訓練データで事前学習し、訓練データで追加学習することで精緻なパラメタ最適化が期待できる。

【0033】

なお、本実施の形態において、クリップエンコーダ事前学習部１１は、第１の学習部の一例である。事前学習部１３は、第２の学習部の一例である。追加学習部１４は、第３の学習部の一例である。擬似訓練データは、第１の修辞構造木の一例である。クリップエンコーダは、エンコーダの一例である。ＦＦＮ_＊は、ニューラルネットワークの一例である。

【0034】

以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0035】

１０動画修辞構造解析学習装置
１１クリップエンコーダ事前学習部
１２データ拡張部
１３事前学習部
１４追加学習部
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４プロセッサ
１０５インタフェース装置
Ｂバス

【図1】