特許7619576 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクモバイル株式会社の特許一覧 ▶ 学校法人明星学苑の特許一覧

特許7619576情報処理装置及び情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-01-14

(45)【発行日】2025-01-22

(54)【発明の名称】情報処理装置及び情報処理方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20250115BHJP

G06F 16/783 20190101ALI20250115BHJP

【ＦＩ】

G06T7/00 350B

G06F16/783

【請求項の数】 10

(21)【出願番号】P 2023032994

(22)【出願日】2023-03-03

(65)【公開番号】P2024124970

(43)【公開日】2024-09-13

【審査請求日】2023-10-19

(73)【特許権者】

【識別番号】501440684

【氏名又は名称】ソフトバンク株式会社

(73)【特許権者】

【識別番号】500132214

【氏名又は名称】学校法人明星学苑

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】宅島寛貴

(72)【発明者】

【氏名】堀隆之

(72)【発明者】

【氏名】鈴木裕真

(72)【発明者】

【氏名】岡本秀明

(72)【発明者】

【氏名】田之上隼人

(72)【発明者】

【氏名】植木一也

【審査官】豊田好一

(56)【参考文献】

【文献】特開２０１９－０９６１７９（ＪＰ，Ａ）

【文献】特開２０１９－０９２９７２（ＪＰ，Ａ）

【文献】特開２０２１－００９６９３（ＪＰ，Ａ）

【文献】特開２０２２－１８０９４２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｆ１６／７８３

(57)【特許請求の範囲】

【請求項1】

撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する動画生成部と、
前記学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する抽出部と、
前記学習用動画を構成する複数のフレーム画像のうち、前記撮像画像に対応する重みを前記撮像画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである学習用重みを決定する決定部と、
前記学習用フレーム特徴量と前記学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成するモデル生成部と、
を備える情報処理装置。

【請求項2】

前記動画生成部は、
画像から動画を生成する機械学習モデルである第１の動画生成モデルを用いて、前記画像文データセットに含まれる前記撮像画像から、前記撮像画像をフレームに含む前記学習用動画を生成する、
請求項１に記載の情報処理装置。

【請求項3】

前記動画生成部は、
文章から動画を生成する機械学習モデルである第２の動画生成モデルを用いて、前記画像文データセットに含まれる前記画像説明文から前記学習用動画を生成し、
前記決定部は、
前記学習用動画を構成する複数のフレーム画像それぞれと前記撮像画像との類似度に関する情報を前記複数のフレーム画像それぞれに対応する前記学習用重みとする、
請求項１に記載の情報処理装置。

【請求項4】

前記抽出部は、
撮像動画と前記撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる前記撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量を抽出し、
前記モデル生成部は、
前記事前学習用フレーム特徴量に基づいて、前記事前学習用フレーム特徴量と対応する特徴を有する前記動画説明文を生成するように事前に学習された機械学習モデルである事前学習済み文章生成モデルを生成し、前記学習用フレーム特徴量と前記学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように前記事前学習済み文章生成モデルを再学習させることにより、前記文章生成モデルを生成する、
請求項１に記載の情報処理装置。

【請求項5】

撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する取得部と、
処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する抽出部と、
前記対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを前記指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである対象重みを決定する決定部と、
前記対象フレーム特徴量と前記対象重みとに基づいて、前記対象重みによって重み付けされた前記対象フレーム特徴量を前記文章生成モデルに入力して、前記対象動画の内容を説明する文章である対象動画説明文を生成する文章生成部と、
を備える情報処理装置。

【請求項6】

前記文章生成モデルは、生成器ネットワークおよび識別器ネットワークを含む条件付き敵対的生成ネットワークであり、
前記学習用重みによって重み付けされた前記学習用フレーム特徴量に基づく条件ベクトルである第１の敵対的条件ベクトルおよびノイズベクトルを入力情報として前記生成器ネットワークに入力した場合に、前記学習用動画説明文を出力情報として出力するように学習された前記生成器ネットワークと、
撮像動画と前記撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる前記撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量に基づく条件ベクトルである第２の敵対的条件ベクトルおよび前記動画説明文を入力情報として前記識別器ネットワークに入力した場合に、前記動画説明文が、真の動画説明文であって、かつ、前記第２の敵対的条件ベクトルと対応する動画説明文であることを示す情報を出力情報として出力するように学習された前記識別器ネットワークであって、前記第１の敵対的条件ベクトルおよび前記生成器ネットワークが生成した偽の動画説明文である前記学習用動画説明文を入力情報として前記識別器ネットワークに入力した場合に、前記学習用動画説明文が、真の動画説明文であって、かつ、前記第１の敵対的条件ベクトルと対応する動画説明文であることを示す情報以外の情報を出力情報として出力するように学習された前記識別器ネットワークと、を含む機械学習モデルである、
請求項１または５に記載の情報処理装置。

【請求項7】

前記文章生成モデルは、エンコーダおよびデコーダを含む条件付き変分オートエンコーダであり、
撮像動画と前記撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる前記撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量に基づく条件ベクトルである第１の変分条件ベクトルおよび前記動画説明文を入力情報として前記エンコーダに入力した場合に、多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように学習された前記エンコーダと、
前記平均ベクトルおよび前記分散ベクトルに基づく前記多変量正規分布に従う標本である潜在ベクトル、および、前記学習用重みによって重み付けされた前記学習用フレーム特徴量に基づく条件ベクトルである第２の変分条件ベクトルを入力情報として前記デコーダに入力した場合に、前記学習用動画説明文を出力情報として出力するように学習された前記デコーダと、を含む機械学習モデルである、
請求項１または５に記載の情報処理装置。

【請求項8】

前記文章生成モデルは、条件付き拡散モデルであり、
ノイズベクトルを含む前記学習用動画説明文であるノイズ付き動画説明文および前記学習用重みによって重み付けされた前記学習用フレーム特徴量に基づく条件ベクトルである拡散条件ベクトルを入力情報として前記条件付き拡散モデルに入力した場合に、前記ノイズベクトルが従う多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように学習された前記条件付き拡散モデルを用いて前記ノイズベクトルを推定し、前記ノイズ付き動画説明文から前記ノイズベクトルを取り除くことにより、前記学習用動画説明文を生成する機械学習モデルである、
請求項１または５に記載の情報処理装置。

【請求項9】

情報処理装置が実行するプログラムにより実現される情報処理方法であって、
撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する動画生成工程と、
前記学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する抽出工程と、
前記学習用動画を構成する複数のフレーム画像のうち、前記撮像画像に対応する重みを前記撮像画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである学習用重みを決定する決定工程と、
前記学習用フレーム特徴量と前記学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成するモデル生成工程と、
を含む情報処理方法。

【請求項10】

情報処理装置が実行するプログラムにより実現される情報処理方法であって、
撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する取得工程と、
処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する抽出工程と、
前記対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを前記指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである対象重みを決定する決定工程と、
前記対象フレーム特徴量と前記対象重みとに基づいて、前記対象重みによって重み付けされた前記対象フレーム特徴量を前記文章生成モデルに入力して、前記対象動画の内容を説明する文章である対象動画説明文を生成する文章生成工程と、
を含む情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置及び情報処理方法に関する。

【背景技術】

【0002】

従来、動画からキャプション（キャプション文ともいう。以下、「動画説明文」と記載する。）を生成する技術が知られている。例えば、画像に含まれる要素を単語として出力する多層式のニューラルネットワークに監視カメラで撮影された動画を入力し、動画の説明文を生成する技術が知られている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１８－１０１３１７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上記の従来技術では、画像に含まれる要素を単語として出力する多層式のニューラルネットワークに監視カメラで撮影された動画を入力し、動画の説明文を生成するにすぎないため、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができるとは限らない。

【0005】

本願は、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができる情報処理装置及び情報処理方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

本願に係る情報処理装置は、撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する動画生成部と、前記学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する抽出部と、前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みを決定する決定部と、前記学習用フレーム特徴量と前記学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成するモデル生成部と、を備える。

【0007】

また、本願に係る情報処理装置は、撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する取得部と、処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する抽出部と、前記対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを前記指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである対象重みを決定する決定部と、前記対象フレーム特徴量と前記対象重みとに基づいて、前記対象重みによって重み付けされた前記対象フレーム特徴量を前記文章生成モデルに入力して、前記対象動画の内容を説明する文章である対象動画説明文を生成する文章生成部と、を備える。

【発明の効果】

【0008】

実施形態の一態様によれば、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施形態に係る情報処理装置の構成例を示す図である。

【図2】図２は、実施形態に係る事前学習方法に関する情報処理の一例を示す図である。

【図3】図３は、実施形態に係る第１の追加学習方法に関する情報処理の一例を示す図である。

【図4】図４は、実施形態に係る重みによってフレーム特徴量を重み付けする方法について説明するための図である。

【図5】図５は、実施形態に係る第２の追加学習方法に関する情報処理の一例を示す図である。

【図6】図６は、実施形態に係る類似度を算出する方法について説明するための図である。

【図7】図７は、実施形態に係る推論方法に関する情報処理の一例を示す図である。

【図8】図８は、実施形態に係る文章生成モデルの一例である条件付き敵対的生成ネットワーク（ＣＧＡＮ）を示す図である。

【図9】図９は、第１の変形例に係る文章生成モデルの一例である条件付き変分オートエンコーダ（ＣＶＡＥ）を示す図である。

【図10】図１０は、第２の変形例に係る文章生成モデルの一例である条件付き拡散モデルを示す図である。

【図11】図１１は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

【発明を実施するための形態】

【0010】

以下に、本願に係る情報処理装置及び情報処理方法を実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

【0011】

（実施形態）
〔１．はじめに〕
従来、動画から動画の内容を説明する文章である動画説明文を生成する技術が知られている。例えば、動画から動画説明文を生成する機械学習モデルが知られている。ここで、動画から動画説明文を生成する機械学習モデルによって生成される動画説明文は、動画内のどの範囲に注目するかによってその内容が異なることが知られている。

【0012】

また、近年、生成モデルに関する技術が知られている。生成モデルとは、データ生成のプロセスをモデル化したものである。生成モデルは、学習用データを学習し、学習用データに似たデータを生成することができる機械学習モデルである。また、条件付き生成モデルに関する技術が知られている。条件付き生成モデルは、条件を変えることによってデータ生成のプロセスを変化させ、多様で高品質なデータを生成することができる機械学習モデルである。

【0013】

ここで、条件付き生成モデルにおける条件とは、条件付き生成モデルによって生成される生成対象データの特徴が満たすべき条件のことを指す。言い換えると、ここでの条件とは、条件付き生成モデルによって生成される生成対象データの種類や属性（例えば、生成対象データに現れる特徴の種類や属性など）に関する条件のことを指す。例えば、条件付き生成モデルによって生成される生成対象データが画像である場合、条件とは、画像に含まれる対象物の属性や種別を示す情報であってよい。具体的には、条件付き生成モデルに条件として入力されるベクトルである条件ベクトルを入力情報として条件付き生成モデルに入力することにより、条件ベクトルと対応する特徴を有するデータが生成可能となる。例えば、条件ベクトルは、条件を示す情報に対応するベクトルであってよい。

【0014】

例えば、条件付き生成モデルの一例として、Conditional GAN（CGAN）（参考文献；論文名“Conditional Generative Adversarial Nets“,＜インターネット＞https://arxiv.org/pdf/1411.1784.pdf（令和５年２月１６日検索））が知られている。CGANは、条件付き敵対的生成ネットワークとも呼ばれ、ノイズから特定のデータを生成するGAN（敵対的生成ネットワーク）に対して条件を与えられるように改良された機械学習モデルである。

【0015】

また、条件付き生成モデルの一例として、Conditional Variational Auto Encoder（CVAE）（参考文献；論文名“Semi-supervised Learning with Deep Generative Models “,＜インターネット＞https://proceedings.neurips.cc/paper/2014/file/d523773c6b194f37b938d340d5d02232-Paper.pdf（令和５年２月１６日検索））が知られている。CVAEは、条件付き変分オートエンコーダとも呼ばれ、潜在表現に従ってデータを生成するVAE（変分オートエンコーダ）に対して条件を与えられるように改良された機械学習モデルである。

【0016】

また、条件付き生成モデルの一例として、Diffusion Model（参考文献；論文名“Denoising Diffusion Probabilistic Models “,＜インターネット＞https://arxiv.org/pdf/2006.11239.pdf（令和５年２月１６日検索））が知られている。Diffusion Modelは、ノイズから少しずつデータを復元する過程を学習する。Diffusion Modelは、一般的には拡散モデルと呼ばれているが、応用的な利用方法として、条件を与えたデータの生成が可能である。

【0017】

また、条件付き生成モデルのその他の例として、GLIDE（参考文献；論文名“GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models “,＜インターネット＞https://arxiv.org/pdf/2112.10741.pdf（令和５年２月１６日検索））、DALL-E 2 unCLIP（参考文献；論文名“Hierarchical Text-Conditional Image Generation with CLIP Latents “,＜インターネット＞https://arxiv.org/pdf/2204.06125.pdf（令和５年２月１６日検索））、Imagen（参考文献；論文名“Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding “,＜インターネット＞https://arxiv.org/pdf/2205.11487.pdf（令和５年２月１６日検索））、Parti（参考文献；論文名“Scaling Autoregressive Models for Content-Rich Text-to-Image Generation “,＜インターネット＞https://arxiv.org/pdf/2206.10789.pdf（令和５年２月１６日検索））が知られている。

【0018】

本実施形態に係る情報処理装置は、動画を構成する複数のフレーム画像それぞれに対応する重みと、動画を構成する複数のフレーム画像それぞれの特徴量であるフレーム特徴量とに基づいて、重み付けされたフレーム特徴量を条件として条件付き生成モデルに入力する。また、情報処理装置は、重み付けされたフレーム特徴量と対応する特徴を有する動画説明文を生成する。これにより、情報処理装置は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画のどの部分（どのフレーム画像）を重視した動画説明文を生成するのかをコントロール可能とすることができる。また、情報処理装置は、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができる。また、情報処理装置は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画の時系列情報を自然言語生成に反映することを可能とすることができる。

【0019】

〔２．情報処理装置の構成〕
図１を用いて、実施形態に係る情報処理装置１００の構成例について説明する。図１は、実施形態に係る情報処理装置１００の構成例を示す図である。情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

【0020】

（通信部１１０）
通信部１１０は、ＮＩＣ（Network Interface Card）やアンテナ等によって実現される。通信部１１０は、各種ネットワークと有線または無線で接続され、例えば、情報処理装置１００以外の他の情報処理装置との間で情報の送受信を行う。

【0021】

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。具体的には、記憶部１２０は、各種データを記憶する。例えば、記憶部１２０は、文章生成モデルの学習に用いられる学習用のデータを記憶する。また、記憶部１２０は、各種プログラムを記憶する。例えば、記憶部１２０は、モデル生成部１３４によって生成された文章生成モデルに関する情報を記憶する。

【0022】

（制御部１３０）
制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

【0023】

制御部１３０は、動画生成部１３１と、抽出部１３２と、決定部１３３と、モデル生成部１３４と、取得部１３５と、文章生成部１３６を機能部として有し、以下に説明する情報処理の作用を実現または実行してよい。なお、制御部１３０の内部構成は、図１に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、各機能部は、制御部１３０の機能を示したものであり、必ずしも物理的に区別されるものでなくともよい。

【0024】

（動画生成部１３１）
動画生成部１３１は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する。

【0025】

（抽出部１３２）
抽出部１３２は、学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する。また、抽出部１３２は、処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する。

【0026】

（決定部１３３）
決定部１３３は、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みを決定する。また、決定部１３３は、対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する重みである対象重みを決定する。

【0027】

（モデル生成部１３４）
モデル生成部１３４は、学習用フレーム特徴量と学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成する。ここで、文章生成モデルは、条件付き生成モデルであってよい。例えば、文章生成モデルは、条件付き敵対的生成ネットワーク（ＣＧＡＮ）、条件付き変分オートエンコーダ（ＣＶＡＥ）、または、条件付き拡散モデルであってよい。

【0028】

また、モデル生成部１３４は、文章生成モデルを事前学習させることで、事前学習済みの文章生成モデルを生成する。続いて、モデル生成部１３４は、事前学習済みの文章生成モデルを追加学習させることで、追加学習済みの文章生成モデルを生成する。モデル生成部１３４は、生成した追加学習済みの文章生成モデルに関する情報を記憶部１２０に格納する。なお、以下では、追加学習済みの文章生成モデルのことを単に「文章生成モデル」と記載する場合がある。

【0029】

（取得部１３５）
取得部１３５は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する。具体的には、取得部１３５は、モデル生成部１３４によって生成された文章生成モデルを取得する。例えば、取得部１３５は、記憶部１２０から文章生成モデルに関する情報を取得する。

【0030】

（文章生成部１３６）
文章生成部１３６は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を文章生成モデルに入力して、対象動画の内容を説明する文章である対象動画説明文を生成する。

【0031】

〔３．事前学習方法〕
図２を用いて、実施形態に係る文章生成モデルの事前学習方法について説明する。図２は、実施形態に係る事前学習方法に関する情報処理の一例を示す図である。ここで、事前学習とは、後述する第１の追加学習（図３参照）または第２の追加学習（図５参照）によりモデルを本格的に学習させる前に、事前に準備として行われるモデルの学習のことを指す。

【0032】

図２に示すように、事前学習の段階では、（１）動画と動画説明文との組を含む動画文データセットに含まれる動画を構成する各フレーム画像から画像特徴量を抽出する。（２）動画を構成する各フレーム画像に対する重み付けは行わない。（３）各フレーム画像から抽出した画像特徴量を条件として、条件付き生成モデルである文章生成モデルに入力し、画像特徴量に対応する特徴を有する動画説明文を生成するように文章生成モデルを学習させる。

【0033】

具体的には、抽出部１３２は、事前学習用の撮像動画（以下、「事前学習用動画＃１」と記載する場合がある）と事前学習用の撮像動画に対応する動画説明文（以下、「事前学習用動画説明文＃１」と記載する場合がある）との組を含む動画文データセット＃１を取得してよい。例えば、抽出部１３２は、通信部１１０を介して、外部の情報処理装置から動画文データセット＃１を取得してよい。

【0034】

続いて、抽出部１３２は、動画文データセット＃１に含まれる事前学習用動画＃１を構成する複数のフレーム画像それぞれから、事前学習用動画＃１を構成する複数のフレーム画像それぞれの画像特徴量を抽出してよい（ステップＳ１１）。例えば、画像特徴量は、多次元のベクトルであってよい。図２では、簡単のため、事前学習用動画＃１を構成するフレーム画像が３つである場合について説明するが、事前学習用動画＃１を構成するフレーム画像の数は４つ以上であってよい。図２では、事前学習用動画＃１の開始時刻に対応する１枚目のフレーム画像と、事前学習用動画＃１の開始時刻と終了時刻の間の時刻に対応する２枚目のフレーム画像と、事前学習用動画＃１の終了時刻に対応する３枚目のフレーム画像とが時系列順に並んでいる様子を示す。例えば、抽出部１３２は、１枚目のフレーム画像から特徴量ベクトルＶ１１を抽出する。また、抽出部１３２は、２枚目のフレーム画像から特徴量ベクトルＶ１２を抽出する。また、抽出部１３２は、３枚目のフレーム画像から特徴量ベクトルＶ１３を抽出する。続いて、抽出部１３２は、事前学習用動画＃１を構成する複数のフレーム画像それぞれの画像特徴量である事前学習用フレーム特徴量＃１として、特徴量ベクトルＶ１１～Ｖ１３の組のベクトル（Ｖ１１、Ｖ１２、Ｖ１３）を取得してよい。

【0035】

例えば、抽出部１３２は、画像から画像特徴量を抽出することができる任意の公知技術を用いて、動画を構成する複数のフレーム画像それぞれから画像特徴量を抽出してよい。例えば、抽出部１３２は、画像エンコーダを備え、画像エンコーダを用いて画像特徴量を抽出してよい。例えば、抽出部１３２は、画像エンコーダとして、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を備えてよい。そして、抽出部１３２は、ＣＮＮを用いて、各フレーム画像から画像特徴量を抽出してよい。また、例えば、抽出部１３２は、画像エンコーダとして、物体認識用に開発されたＲｅｓＮｅｔ（Residual Network）（Kaiming He et al., 2015）、ＡｌｅｘＮｅｔ（Krizhevsky et al., 2012）、ＶＧＧＮｅｔ（Simonyan et al., 2014）、ＧｏｏｇＬｅＮｅｔ（Szegedy et al., 2014）、ＳＥＮｅｔ（Squeeze-and-Excitation Networks）（Jie Hu et al., 2018）、ＥｆｆｉｃｉｅｎｔＮｅｔ（Tan et al., 2019）、またはＺＦＮｅｔ（Matthew et al., 2013）を備えてよい。そして、抽出部１３２は、ＲｅｓＮｅｔ、ＡｌｅｘＮｅｔ、ＶＧＧＮｅｔ、ＧｏｏｇＬｅＮｅｔ、ＳＥＮｅｔ、ＥｆｆｉｃｉｅｎｔＮｅｔ、またはＺＦＮｅｔを用いて、各フレーム画像か画像特徴量を抽出してよい。また、例えば、抽出部１３２は、画像エンコーダとして、物体検出用に開発されたＦａｓｔｅｒＲ－ＣＮＮ（Shaoqing Ren et al., 2015）、ＹＯＬＯ（You Look Only Onse）（Joseph Redmon et al., 2015）、またはＳＳＤ（Single Shot MultiBox Detector）（Wei Liu., 2015）を備えてよい。そして、抽出部１３２は、ＦａｓｔｅｒＲ－ＣＮＮ、ＹＯＬＯ、またはＳＳＤを用いて、各フレーム画像から画像特徴量を抽出してよい。

【0036】

このように、抽出部１３２は、撮像動画（図２の例では、事前学習用動画＃１）と撮像動画の内容を説明する文章である動画説明文（図２の例では、事前学習用動画説明文＃１）との組を含む動画文データセット＃１に含まれる撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量＃１を抽出する。

【0037】

続いて、モデル生成部１３４は、抽出部１３２によって抽出された事前学習用フレーム特徴量＃１を文章生成モデルＭ１に入力してよい（ステップＳ１２）。例えば、モデル生成部１３４は、事前学習用フレーム特徴量＃１に基づく条件ベクトル＃１を生成してよい。続いて、モデル生成部１３４は、生成した条件ベクトル＃１とノイズベクトル（乱数ベクトルともいう）を結合してよい。例えば、モデル生成部１３４は、線形変換処理を用いて、条件ベクトル＃１とノイズベクトルのサイズが同じになるように調整してよい。続いて、モデル生成部１３４は、条件ベクトル＃１の各要素をノイズベクトルの各要素に加算することにより、条件ベクトル＃１とノイズベクトルを結合してよい。あるいは、モデル生成部１３４は、条件ベクトル＃１の各要素をノイズベクトルの各要素に乗算することにより、条件ベクトル＃１とノイズベクトルを結合してよい。続いて、モデル生成部１３４は、結合された条件ベクトル＃１とノイズベクトルを入力情報として条件付き生成モデルである文章生成モデルＭ１に入力してよい。

【0038】

続いて、モデル生成部１３４は、結合された条件ベクトル＃１とノイズベクトルの入力に応じて文章生成モデルＭ１が生成した動画説明文であって、文章生成モデルＭ１から出力情報として出力された動画説明文を取得してよい（ステップＳ１３）。モデル生成部１３４は、条件ベクトル＃１に基づいて、条件ベクトル＃１と対応する特徴を有する動画説明文を生成するように文章生成モデルＭ１を学習させてよい。例えば、モデル生成部１３４は、バックプロパゲーション（誤差逆伝播法）等を用いて、文章生成モデルＭ１から出力された動画説明文と、動画文データセット＃１に含まれる事前学習用動画説明文＃１との誤差が小さくなるように文章生成モデルＭ１を学習させてよい。このようにして、モデル生成部１３４は、事前学習用フレーム特徴量＃１に基づいて、事前学習用フレーム特徴量＃１と対応する特徴を有する動画説明文を生成するように文章生成モデルＭ１を学習させてよい。

【0039】

このように、モデル生成部１３４は、事前学習用フレーム特徴量＃１に基づいて、事前学習用フレーム特徴量＃１と対応する特徴を有する動画説明文（図２では、事前学習用動画説明文＃１）を生成するように事前に学習された機械学習モデルである事前学習済み文章生成モデルＭ１を生成する。

【0040】

〔４．第１の追加学習方法〕
図３を用いて、実施形態に係る第１の追加学習方法について説明する。図３は、実施形態に係る第１の追加学習方法に関する情報処理の一例を示す図である。第１の追加学習は、図２で説明した事前学習の後に行われる本格的なモデルの学習のことを指す。

【0041】

図３に示すように、第１の追加学習の段階では、（１）公知の動画生成モデルを用いて、画像（静止画像）と画像説明文との組を含む画像文データセットに含まれる画像から動画を生成する。以下では、動画を生成する元となった画像（画像文データセットに含まれる画像）のことを「オリジナルの画像」と記載する場合がある。生成された動画は、オリジナルの画像をフレームに含む。（２）生成された動画を構成する各フレーム画像のうち、オリジナルの画像に対応するフレーム画像を注目箇所として、動画を構成する各フレーム画像に対応する重みを決定する。また、生成された動画を構成する各フレーム画像から画像特徴量を抽出し、各フレーム画像から抽出された画像特徴量を各フレーム画像に対応する重みによって重み付けする。（３）重み付けされた画像特徴量を条件として、条件付き生成モデルである事前学習済み文章生成モデルＭ１に入力し、重み付けされた画像特徴量に対応する特徴を有する動画説明文を生成するように事前学習済み文章生成モデルＭ１を再学習させることにより、第１の追加学習済みの文章生成モデルＭ２を生成する。

【0042】

具体的には、動画生成部１３１は、撮像画像（以下、「画像＃２」と記載する場合がある）と撮像画像の内容を説明する文章である画像説明文（以下、「画像説明文＃２」と記載する場合がある）との組を含む画像文データセット＃２に基づいて、学習用動画＃２を生成してよい。例えば、動画生成部１３１は、通信部１１０を介して、外部の情報処理装置から画像文データセット＃２を取得してよい。続いて、動画生成部１３１は、画像から動画を生成する機械学習モデルである第１の動画生成モデルＭ２１を取得してよい。例えば、第１の動画生成モデルＭ２１は、画像から動画を生成する公知の機械学習モデルであってよい（参考文献；“Generating Videos with Scene Dynamics“, Carl Vondrick et al. ,2016 ,＜インターネット＞https://arxiv.org/pdf/1609.02612.pdf（令和５年２月１６日検索））。例えば、動画生成部１３１は、あらかじめ第１の動画生成モデルＭ２１に関する情報を格納している記憶部１２０から第１の動画生成モデルＭ２１を取得してよい。続いて、動画生成部１３１は、画像文データセット＃２に含まれる画像＃２を第１の動画生成モデルＭ２１に入力して、画像＃２から画像＃２をフレームに含む学習用動画＃２を生成してよい（ステップＳ２１）。

【0043】

このように、動画生成部１３１は、画像から動画を生成する機械学習モデルである第１の動画生成モデルＭ２１を用いて、画像文データセット＃２に含まれる撮像画像（図３では、画像＃２）から、撮像画像をフレームに含む学習用動画＃２を生成する。以下では、学習用動画＃２を生成する元となった画像＃２のことを「オリジナルの画像＃２」と記載する場合がある。

【0044】

また、抽出部１３２は、動画生成部１３１によって生成された学習用動画＃２を構成する複数のフレーム画像それぞれから、学習用動画＃２を構成する複数のフレーム画像それぞれの画像特徴量を抽出してよい（ステップＳ２２）。なお、抽出部１３２が、各フレーム画像から画像特徴量を抽出する方法は、図２で説明した事前学習において各フレーム画像から画像特徴量を抽出する方法と同様であってよい。以下では、図２と重複する説明は省略する。図３では、簡単のため、学習用動画＃２を構成するフレーム画像が３つである場合について説明するが、学習用動画＃２を構成するフレーム画像の数は４つ以上であってよい。図３では、学習用動画＃２の開始時刻に対応する１枚目のフレーム画像と、学習用動画＃２の開始時刻と終了時刻の間の時刻に対応する２枚目のフレーム画像と、学習用動画＃２の終了時刻に対応する３枚目のフレーム画像とが時系列順に並んでいる様子を示す。例えば、抽出部１３２は、１枚目のフレーム画像から特徴量ベクトルＶ２１を抽出する。また、抽出部１３２は、２枚目のフレーム画像から特徴量ベクトルＶ２２を抽出する。また、抽出部１３２は、３枚目のフレーム画像から特徴量ベクトルＶ２３を抽出する。続いて、抽出部１３２は、学習用動画＃２を構成する複数のフレーム画像それぞれの画像特徴量である学習用フレーム特徴量＃２として、特徴量ベクトルＶ２１～Ｖ２３の組のベクトル（Ｖ２１、Ｖ２２、Ｖ２３）を取得してよい。

【0045】

このように、抽出部１３２は、学習用動画＃２を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量＃２を抽出する。

【0046】

また、決定部１３３は、動画生成部１３１によって生成された学習用動画＃２を構成する複数のフレーム画像それぞれに対応する重みを決定してよい（ステップＳ２２）。なお、抽出部１３２が画像特徴量を抽出する処理と、決定部１３３が重みを決定する処理は、いずれの処理が先に行われてもよく、抽出部１３２および決定部１３３によってそれぞれ同時に行われてもよい。

【0047】

例えば、決定部１３３は、学習用動画＃２を構成する複数のフレーム画像のうち、オリジナルの画像＃２に対応するフレーム画像の重みをオリジナルの画像＃２に対応するフレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する重みを決定してよい。例えば、決定部１３３は、ガウス関数（正規分布ともいう）や円の一部のような凸状の関数であって、極大値の周囲が微分可能な関数の値に基づいて、複数のフレーム画像それぞれに対応する重みを決定してよい。なお、決定部１３３は、ガウス関数や円の一部に限らず、極大値の周囲が微分可能な関数であればどのような関数を用いて重みを決定してもよい。例えば、決定部１３３は、極大値の周囲が微分可能な関数の極大値に対応する値をオリジナルの画像＃２に対応するフレーム画像の重みとしてよい。また、決定部１３３は、極大値の周囲が微分可能な関数の極大値の周辺に対応する値をオリジナルの画像＃２に対応するフレーム画像以外の他のフレーム画像に対応する重みとしてよい。

【0048】

図３では、決定部１３３は、横軸を動画の再生時刻、縦軸を重みとするガウス関数の値を用いて複数のフレーム画像それぞれに対応する重みを決定してよい。例えば、決定部１３３は、ガウス関数の平均値に対応する時刻をオリジナルの画像＃２に対応する２枚目のフレーム画像の再生時刻としてよい。また、決定部１３３は、ガウス関数の平均値に対応する時刻の値である「１．０」をオリジナルの画像＃２に対応する２枚目のフレーム画像の重み＃２２としてよい。また、決定部１３３は、ガウス関数の平均値よりも小さい値に対応する時刻を１枚目のフレーム画像の再生時刻としてよい。また、決定部１３３は、ガウス関数の平均値よりも小さい値に対応する時刻の値である「０．８」を１枚目のフレーム画像の重み＃２１としてよい。また、決定部１３３は、ガウス関数の平均値よりも大きい値に対応する時刻を３枚目のフレーム画像の再生時刻としてよい。また、決定部１３３は、ガウス関数の平均値よりも大きい値に対応する時刻の値である「０．８」を３枚目のフレーム画像の重み＃２３としてよい。例えば、決定部１３３は、学習用動画＃２を構成する複数のフレーム画像それぞれに対応する重みである学習用重み＃２として、１枚目のフレーム画像の重み＃２１～２枚目のフレーム画像の重み＃２３の組のベクトル（重み＃２１、重み＃２２、重み＃２３）＝（０．８、１．０、０．８）を取得してよい。

【0049】

このように、決定部１３３は、学習用動画＃２を構成する複数のフレーム画像のうち、撮像画像（図３では、オリジナルの画像＃２）に対応する重み（図３では、２枚目のフレーム画像の重み＃２２である「１．０」）を撮像画像以外の他のフレーム画像に対応する重み（図３では、１枚目のフレーム画像の重み＃２１である「０．８」および３枚目のフレーム画像の重み＃２３である「０．８」）よりも大きくするように複数のフレーム画像それぞれに対応する学習用重み＃２（図３では、（重み＃２１、重み＃２２、重み＃２３）＝（０．８、１．０、０．８））を決定する。また、このように、決定部１３３は、学習用動画＃２を構成する複数のフレーム画像それぞれに対応する重みである学習用重み＃２を決定する。

【0050】

また、モデル生成部１３４は、決定部１３３によって決定された学習用重み＃２によって、抽出部１３２によって抽出された学習用フレーム特徴量＃２を重み付けしてよい。モデル生成部１３４は、決定部１３３によって決定された学習用重み＃２によって重み付けされた学習用フレーム特徴量＃２である、重み付けされた学習用フレーム特徴量＃２´を生成してよい。図３では、モデル生成部１３４は、学習用動画＃２を構成する１枚目のフレーム画像に対応する重み＃２１である「０．８」を特徴量ベクトルＶ２１の各要素に乗じることにより、重み＃２１によって重み付けされた特徴量ベクトルＶ２１´を生成してよい。また、モデル生成部１３４は、学習用動画＃２を構成する２枚目のフレーム画像に対応する重み＃２２である「１．０」を特徴量ベクトルＶ２２の各要素に乗じることにより、重み＃２２によって重み付けされた特徴量ベクトルＶ２２´を生成してよい。また、モデル生成部１３４は、学習用動画＃２を構成する３枚目のフレーム画像に対応する重み＃２３である「０．８」を特徴量ベクトルＶ２３の各要素に乗じることにより、重み＃２３によって重み付けされた特徴量ベクトルＶ２３´を生成してよい。このようにして、モデル生成部１３４は、重み付けされた学習用フレーム特徴量＃２´を生成してよい。図３では、モデル生成部１３４は、重み付けされた学習用フレーム特徴量＃２´として、（重み＃２１、重み＃２２、重み＃２３）＊（Ｖ２１、Ｖ２２、Ｖ２３）＝（重み＃２１＊Ｖ２１、重み＃２２＊Ｖ２２、重み＃２３＊Ｖ２３）＝（Ｖ２１´、Ｖ２２´、Ｖ２３´）を生成してよい。

【0051】

続いて、モデル生成部１３４は、重み付けされた学習用フレーム特徴量＃２´を事前学習済み文章生成モデルＭ１（以下、「文章生成モデルＭ１」と略記する場合がある）に入力してよい（ステップＳ２３）。例えば、モデル生成部１３４は、重み付けされた学習用フレーム特徴量＃２´に基づく条件ベクトル＃２を生成してよい。続いて、モデル生成部１３４は、生成した条件ベクトル＃２とノイズベクトルを結合してよい。なお、モデル生成部１３４が、条件ベクトル＃２とノイズベクトルを結合する方法は、図２で説明した事前学習において条件ベクトル＃１とノイズベクトルを結合する方法と同様であってよい。以下では、図２と重複する説明は省略する。続いて、モデル生成部１３４は、結合された条件ベクトル＃２とノイズベクトルを入力情報として条件付き生成モデルである文章生成モデルＭ１に入力してよい。

【0052】

続いて、モデル生成部１３４は、結合された条件ベクトル＃２とノイズベクトルの入力に応じて文章生成モデルＭ１が生成した動画説明文であって、文章生成モデルＭ１から出力情報として出力された動画説明文（以下、「学習用動画説明文＃２」と記載する場合がある）を取得してよい（ステップＳ２４）。モデル生成部１３４は、条件ベクトル＃２に基づいて、条件ベクトル＃２と対応する特徴を有する動画説明文を生成するように文章生成モデルＭ１を再学習させてよい。例えば、モデル生成部１３４は、バックプロパゲーション（誤差逆伝播法）等を用いて、文章生成モデルＭ１から出力された学習用動画説明文＃２と、画像文データセット＃２に含まれる画像説明文＃２（オリジナルの画像＃２に対応する画像説明文）との誤差が小さくなるように文章生成モデルＭ１を再学習させてよい。このようにして、モデル生成部１３４は、重み付けされた学習用フレーム特徴量＃２´に基づいて、重み付けされた学習用フレーム特徴量＃２´と対応する特徴を有する動画説明文を生成するように文章生成モデルＭ１を再学習させてよい。

【0053】

このように、モデル生成部１３４は、学習用フレーム特徴量＃２と学習用重み＃２とに基づいて、学習用動画の内容を説明する文章である学習用動画説明文＃２であって、学習用重み＃２によって重み付けされた学習用フレーム特徴量＃２´と対応する特徴を有する学習用動画説明文＃２を生成するように事前学習済み文章生成モデルＭ１を再学習させることにより、文章生成モデルＭ２を生成する。

【0054】

図４は、実施形態に係る重みによってフレーム特徴量を重み付けする方法について説明するための図である。フレーム特徴量は、画像の各ピクセルに対応する値を持ってよい。図４に示す例では、簡単のため、画像の画素が３×３の行列で表される場合について説明する。このとき、フレーム特徴量は、３×３の行列で表されてよい。また、簡単のため、重みの値を「３」とする。このとき、モデル生成部１３４は、フレーム特徴量の各要素（３×３の行列の各要素）に重みの値である「３」を乗じることにより、重み付けされたフレーム特徴量を生成する。

【0055】

〔５．第２の追加学習方法〕
図４を用いて、実施形態に係る第２の追加学習方法について説明する。図５は、実施形態に係る第２の追加学習方法に関する情報処理の一例を示す図である。第２の追加学習は、図２で説明した事前学習の後に行われる本格的なモデルの学習のことを指す。図５では、モデル生成部１３４は、第１の追加学習の代わりに、第２の追加学習により、事前学習済み文章生成モデルＭ１を再学習させる点が図３と異なる。

【0056】

図５に示すように、第２の追加学習の段階では、（１）公知の動画生成モデルを用いて、画像（静止画像）と画像説明文との組を含む画像文データセットに含まれる画像説明文から動画を生成する。以下では、動画を生成する元となった画像説明文に対応する画像（画像文データセットに含まれる画像）のことを「オリジナルの画像」と記載する場合がある。（２）生成された動画を構成する各フレーム画像とオリジナルの画像との類似度を算出し、算出された類似度を、動画を構成する各フレーム画像に対応する重みとする。また、生成された動画を構成する各フレーム画像から画像特徴量を抽出し、各フレーム画像から抽出された画像特徴量を各フレーム画像に対応する重みによって重み付けする。（３）重み付けされた画像特徴量を条件として、条件付き生成モデルである事前学習済み文章生成モデルＭ１に入力し、重み付けされた画像特徴量に対応する特徴を有する動画説明文を生成するように事前学習済み文章生成モデルＭ１を再学習させることにより、第２の追加学習済みの文章生成モデルＭ３を生成する。

【0057】

具体的には、動画生成部１３１は、撮像画像（以下、「画像＃３」と記載する場合がある）と撮像画像の内容を説明する文章である画像説明文（以下、「画像説明文＃３」と記載する場合がある）との組を含む画像文データセット＃３に基づいて、学習用動画＃３を生成してよい。例えば、動画生成部１３１は、通信部１１０を介して、外部の情報処理装置から画像文データセット＃３を取得してよい。続いて、動画生成部１３１は、文章から動画を生成する機械学習モデルである第２の動画生成モデルＭ３１を取得してよい。例えば、第２の動画生成モデルＭ３１は、文章から動画を生成する公知の機械学習モデルであってよい（参考文献；“ CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers “, Wenyi Hong et al,2022) ,＜インターネット＞https://arxiv.org/pdf/2205.15868.pdf（令和５年２月１６日検索））。例えば、動画生成部１３１は、あらかじめ第２の動画生成モデルＭ３１に関する情報を格納している記憶部１２０から第２の動画生成モデルＭ３１を取得してよい。続いて、動画生成部１３１は、画像文データセット＃３に含まれる画像説明文＃３を第２の動画生成モデルＭ３１に入力して、画像説明文＃３から学習用動画＃３を生成してよい（ステップＳ３１）。

【0058】

このように、動画生成部１３１は、文章から動画を生成する機械学習モデルである第２の動画生成モデルＭ３１を用いて、画像文データセット＃３に含まれる画像説明文＃３から学習用動画＃３を生成する。以下では、学習用動画＃３を生成する元となった画像説明文＃３と対応する画像＃３（画像文データセット＃３に含まれる画像＃３）のことを「オリジナルの画像＃３」と記載する場合がある。

【0059】

また、抽出部１３２は、動画生成部１３１によって生成された学習用動画＃３を構成する複数のフレーム画像それぞれから、学習用動画＃３を構成する複数のフレーム画像それぞれの画像特徴量を抽出してよい（ステップＳ３２）。なお、図３と同様に、抽出部１３２が、各フレーム画像から画像特徴量を抽出する方法は、図２で説明した事前学習において各フレーム画像から画像特徴量を抽出する方法と同様であってよい。以下では、図２と重複する説明は省略する。図５では、簡単のため、学習用動画＃３を構成するフレーム画像が３つである場合について説明するが、学習用動画＃３を構成するフレーム画像の数は４つ以上であってよい。図５では、学習用動画＃３の開始時刻に対応する１枚目のフレーム画像と、学習用動画＃３の開始時刻と終了時刻の間の時刻に対応する２枚目のフレーム画像と、学習用動画＃３の終了時刻に対応する３枚目のフレーム画像とが時系列順に並んでいる様子を示す。例えば、抽出部１３２は、１枚目のフレーム画像から特徴量ベクトルＶ３１を抽出する。また、抽出部１３２は、２枚目のフレーム画像から特徴量ベクトルＶ３２を抽出する。また、抽出部１３２は、３枚目のフレーム画像から特徴量ベクトルＶ３３を抽出する。続いて、抽出部１３２は、学習用動画＃３を構成する複数のフレーム画像それぞれの画像特徴量である学習用フレーム特徴量＃３として、特徴量ベクトルＶ３１～Ｖ３３の組のベクトル（Ｖ３１、Ｖ３２、Ｖ３３）を取得してよい。

【0060】

このように、抽出部１３２は、学習用動画＃３を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量＃３を抽出する。

【0061】

また、決定部１３３は、動画生成部１３１によって生成された学習用動画＃３を構成する複数のフレーム画像それぞれに対応する重みを決定してよい（ステップＳ３２）。なお、図３と同様に、抽出部１３２が画像特徴量を抽出する処理と、決定部１３３が重みを決定する処理は、いずれの処理が先に行われてもよく、抽出部１３２および決定部１３３によってそれぞれ同時に行われてもよい。

【0062】

例えば、決定部１３３は、学習用動画＃３を構成する複数のフレーム画像それぞれとオリジナルの画像＃３との類似度に基づいて、複数のフレーム画像それぞれに対応する重みを決定してよい。図５では、決定部１３３は、１枚目のフレーム画像とオリジナルの画像＃３との類似度＃３１を「０．１」と算出する。続いて、決定部１３３は、算出された類似度＃３１の値である「０．１」を１枚目のフレーム画像の重み＃３１としてよい。また、決定部１３３は、２枚目のフレーム画像とオリジナルの画像＃３との類似度＃３２を「０．７」と算出する。続いて、決定部１３３は、算出された類似度＃３２の値である「０．７」を２枚目のフレーム画像の重み＃３２としてよい。また、決定部１３３は、３枚目のフレーム画像とオリジナルの画像＃３との類似度＃３３を「０．２」と算出する。続いて、決定部１３３は、算出された類似度＃３３の値である「０．２」を３枚目のフレーム画像の重み＃３３としてよい。例えば、決定部１３３は、学習用動画＃３を構成する複数のフレーム画像それぞれに対応する重みである学習用重み＃３として、１枚目のフレーム画像の重み＃３１～２枚目のフレーム画像の重み＃３３の組のベクトル（重み＃３１、重み＃３２、重み＃３３）＝（類似度＃３１、類似度＃３２、類似度＃３３）＝（０．１、０．７、０．２）を取得してよい。

【0063】

このように、決定部１３３は、学習用動画＃３を構成する複数のフレーム画像（図５では、１枚目のフレーム画像～３枚目のフレーム画像）それぞれと撮像画像（図５では、オリジナルの画像＃３）との類似度（図５では、（類似度＃３１、類似度＃３２、類似度＃３３）＝（０．１、０．７、０．２））に関する情報を複数のフレーム画像それぞれに対応する学習用重み＃３（図５では、（重み＃３１、重み＃３２、重み＃３３）＝（０．１、０．７、０．２））とする。また、このように、決定部１３３は、学習用動画＃３を構成する複数のフレーム画像それぞれに対応する重みである学習用重み＃３を決定する。

【0064】

また、モデル生成部１３４は、決定部１３３によって決定された学習用重み＃３によって、抽出部１３２によって抽出された学習用フレーム特徴量＃３を重み付けしてよい。モデル生成部１３４は、決定部１３３によって決定された学習用重み＃３によって重み付けされた学習用フレーム特徴量＃３である、重み付けされた学習用フレーム特徴量＃３´を生成してよい。図５では、モデル生成部１３４は、学習用動画＃３を構成する１枚目のフレーム画像に対応する重み＃３１である「０．１」を特徴量ベクトルＶ３１の各要素に乗じることにより、重み＃３１によって重み付けされた特徴量ベクトルＶ３１´を生成してよい。また、モデル生成部１３４は、学習用動画＃３を構成する２枚目のフレーム画像に対応する重み＃３２である「０．７」を特徴量ベクトルＶ３２の各要素に乗じることにより、重み＃３２によって重み付けされた特徴量ベクトルＶ３２´を生成してよい。また、モデル生成部１３４は、学習用動画＃３を構成する３枚目のフレーム画像に対応する重み＃３３である「０．２」を特徴量ベクトルＶ３３の各要素に乗じることにより、重み＃３３によって重み付けされた特徴量ベクトルＶ３３´を生成してよい。このようにして、モデル生成部１３４は、重み付けされた学習用フレーム特徴量＃３´を生成してよい。図５では、モデル生成部１３４は、重み付けされた学習用フレーム特徴量＃３´として、（重み＃３１、重み＃３２、重み＃３３）＊（Ｖ３１、Ｖ３２、Ｖ３３）＝（重み＃３１＊Ｖ３１、重み＃３２＊Ｖ３２、重み＃３３＊Ｖ３３）＝（Ｖ３１´、Ｖ３２´、Ｖ３３´）を生成してよい。

【0065】

続いて、モデル生成部１３４は、重み付けされた学習用フレーム特徴量＃３´を事前学習済み文章生成モデルＭ１（以下、「文章生成モデルＭ１」と略記する場合がある）に入力してよい（ステップＳ３３）。例えば、モデル生成部１３４は、重み付けされた学習用フレーム特徴量＃３´に基づく条件ベクトル＃３を生成してよい。続いて、モデル生成部１３４は、生成した条件ベクトル＃３とノイズベクトルを結合してよい。なお、モデル生成部１３４が、条件ベクトル＃３とノイズベクトルを結合する方法は、図２で説明した事前学習において条件ベクトル＃１とノイズベクトルを結合する方法と同様であってよい。以下では、図２と重複する説明は省略する。続いて、モデル生成部１３４は、結合された条件ベクトル＃３とノイズベクトルを入力情報として条件付き生成モデルである文章生成モデルＭ１に入力してよい。

【0066】

続いて、モデル生成部１３４は、結合された条件ベクトル＃３とノイズベクトルの入力に応じて文章生成モデルＭ１が生成した動画説明文であって、文章生成モデルＭ１から出力情報として出力された動画説明文（以下、「学習用動画説明文＃３」と記載する場合がある）を取得してよい（ステップＳ３４）。モデル生成部１３４は、条件ベクトル＃３に基づいて、条件ベクトル＃３と対応する特徴を有する動画説明文を生成するように文章生成モデルＭ１を再学習させてよい。例えば、モデル生成部１３４は、バックプロパゲーション（誤差逆伝播法）等を用いて、文章生成モデルＭ１から出力された学習用動画説明文＃３と、画像文データセット＃３に含まれる画像説明文＃３（オリジナルの画像＃３に対応する画像説明文）との誤差が小さくなるように文章生成モデルＭ１を再学習させてよい。このようにして、モデル生成部１３４は、重み付けされた学習用フレーム特徴量＃３´に基づいて、重み付けされた学習用フレーム特徴量＃３´と対応する特徴を有する動画説明文を生成するように文章生成モデルＭ１を再学習させてよい。

【0067】

このように、モデル生成部１３４は、学習用フレーム特徴量＃３と学習用重み＃３とに基づいて、学習用動画＃３の内容を説明する文章である学習用動画説明文＃３であって、学習用重み＃３によって重み付けされた学習用フレーム特徴量＃３´と対応する特徴を有する学習用動画説明文＃３を生成するように事前学習済み文章生成モデルＭ１を再学習させることにより、文章生成モデルＭ３を生成する。

【0068】

図６は、実施形態に係る類似度を算出する方法について説明するための図である。フレーム画像およびオリジナルの画像＃３は、画像の各ピクセルに対応する画素値を持っている。図６に示す例では、簡単のため、画像の画素が３×３の行列で表される場合について説明する。図６の左側は、学習用動画＃３を構成する複数のフレーム画像のうちの一のフレーム画像を示す。図６の右側は、オリジナルの画像＃３を示す。このとき、決定部１３３は、一のフレーム画像とオリジナルの画像＃３の類似度として、一のフレーム画像とオリジナルの画像＃３とのコサイン類似度を算出してよい。例えば、決定部１３３は、下記に示す数式（１）に従って、一のフレーム画像とオリジナルの画像＃３とのコサイン類似度を算出してよい。

【0069】

【数1】

【0070】

例えば、決定部１３３は、上記の数式（１）に従って、一のフレーム画像とオリジナルの画像＃３とのコサイン類似度を「｛(１．２＊０．２)＋(２．４＊７．２)＋(（－２．３）＊０．９)＋(０．８＊（－２．４）)＋(（－１．３）＊（－３．９）)＋(（－１．２）＊（－３．６）)＋(２．０＊６．０)＋(（－３．２）＊９．６)＋(０．３＊１．９)｝／｛１．２^２＋２．４^２＋(（－２．３）)^２＋０．８^２＋(（－１．３）)^２＋(（－１．２）)^２＋２．０^２＋(（－３．２）)^２＋０．３^２｝^１／２｛０．２^２＋７．２^２＋０．９^２＋(（－２．４）)^２＋(（－３．９）)^２＋(（－３．６）)^２＋６．０^２＋９．６^２＋１．９^２｝^１／２＝０．０５」と算出してよい。

【0071】

〔６．推論方法〕
図７を用いて、実施形態に係る推論方法について説明する。図７は、実施形態に係る推論方法に関する情報処理の一例を示す図である。推論の段階では、図３で説明した第１の追加学習済みの文章生成モデルＭ２、または、図５で説明した第２の追加学習済みの文章生成モデルＭ３を用いて、処理対象の動画である対象動画の内容を説明する文章である対象動画説明文を生成する。図７では、文章生成部１３６が、第１の追加学習済みの文章生成モデルＭ２（以下、「文章生成モデルＭ２」と略記する場合がある）を用いて対象動画説明文を生成する場合について説明する。なお、文章生成部１３６は、文章生成モデルＭ２の代わりに、第２の追加学習済みの文章生成モデルＭ３（以下、「文章生成モデルＭ３」と略記する場合がある）を用いて対象動画説明文を生成してもよい。

【0072】

図７に示すように、推論の段階では、（１）対象動画を構成する各フレーム画像から画像特徴量を抽出する。（２）利用者から注目するフレーム画像（以下、「指定フレーム画像」と記載する場合がある）の指定を受け付け、指定フレーム画像に対応する重みが最大となるように複数のフレーム画像それぞれに対応する重みを決定する。（３）各フレーム画像から抽出された画像特徴量を各フレーム画像に対応する重みによって重み付けする。重み付けされた画像特徴量を条件として、条件付き生成モデルである文章生成モデルＭ２に入力する。（４）文章生成モデルＭ２によって対象動画説明文を生成する。

【0073】

具体的には、抽出部１３２は、処理対象の動画である対象動画＃４を取得してよい。例えば、抽出部１３２は、通信部１１０を介して、利用者によって使用される情報処理装置から対象動画＃４を取得してよい。続いて、抽出部１３２は、対象動画＃４を構成する複数のフレーム画像それぞれから、対象動画＃４を構成する複数のフレーム画像それぞれの画像特徴量を抽出してよい（ステップＳ４１）。なお、図３および図５と同様に、抽出部１３２が、各フレーム画像から画像特徴量を抽出する方法は、図２で説明した事前学習において各フレーム画像から画像特徴量を抽出する方法と同様であってよい。以下では、図２と重複する説明は省略する。図７では、簡単のため、対象動画＃４を構成するフレーム画像が３つである場合について説明するが、対象動画＃４を構成するフレーム画像の数は４つ以上であってよい。図７では、対象動画＃４の開始時刻に対応する１枚目のフレーム画像と、対象動画＃４の開始時刻と終了時刻の間の時刻に対応する２枚目のフレーム画像と、対象動画＃４の終了時刻に対応する３枚目のフレーム画像とが時系列順に並んでいる様子を示す。例えば、抽出部１３２は、１枚目のフレーム画像から特徴量ベクトルＶ４１を抽出する。また、抽出部１３２は、２枚目のフレーム画像から特徴量ベクトルＶ４２を抽出する。また、抽出部１３２は、３枚目のフレーム画像から特徴量ベクトルＶ４３を抽出する。続いて、抽出部１３２は、対象動画＃４を構成する複数のフレーム画像それぞれの画像特徴量である対象フレーム特徴量＃４として、特徴量ベクトルＶ４１～Ｖ４３の組のベクトル（Ｖ４１、Ｖ４２、Ｖ４３）を取得してよい。

【0074】

このように、抽出部１３２は、処理対象の動画である対象動画＃４を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量＃４を抽出する。

【0075】

また、決定部１３３は、対象動画＃４を構成する複数のフレーム画像の中から利用者によって指定されたフレーム画像（以下、「指定フレーム画像＃４」と記載する場合がある）および対象動画＃４を取得してよい。例えば、決定部１３３は、通信部１１０を介して、利用者によって使用される情報処理装置から指定フレーム画像＃４および対象動画＃４を取得してよい。続いて、決定部１３３は、対象動画＃４を構成する複数のフレーム画像それぞれに対応する重みを決定してよい（ステップＳ４１）。なお、図３および図５と同様に、抽出部１３２が画像特徴量を抽出する処理と、決定部１３３が重みを決定する処理は、いずれの処理が先に行われてもよく、抽出部１３２および決定部１３３によってそれぞれ同時に行われてもよい。

【0076】

例えば、決定部１３３は、対象動画＃４を構成する複数のフレーム画像のうち、指定フレーム画像＃４に対応するフレーム画像の重みを指定フレーム画像＃４に対応するフレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する重みを決定してよい。例えば、決定部１３３は、ガウス関数や円の一部のような凸状の関数であって、極大値の周囲が微分可能な関数の値に基づいて、複数のフレーム画像それぞれに対応する重みを決定してよい。図７では、決定部１３３は、図３と同様に、横軸を動画の再生時刻、縦軸を重みとするガウス関数の値を用いて複数のフレーム画像それぞれに対応する重みを決定してよい。例えば、決定部１３３は、ガウス関数の平均値に対応する時刻を指定フレーム画像＃４に対応する２枚目のフレーム画像の再生時刻としてよい。また、決定部１３３は、ガウス関数の平均値に対応する時刻の値である「１．０」を指定フレーム画像＃４に対応する２枚目のフレーム画像の重み＃４２としてよい。また、決定部１３３は、ガウス関数の平均値よりも小さい値に対応する時刻を１枚目のフレーム画像の再生時刻としてよい。また、決定部１３３は、ガウス関数の平均値よりも小さい値に対応する時刻の値である「０．８」を１枚目のフレーム画像の重み＃４１としてよい。また、決定部１３３は、ガウス関数の平均値よりも大きい値に対応する時刻を３枚目のフレーム画像の再生時刻としてよい。また、決定部１３３は、ガウス関数の平均値よりも大きい値に対応する時刻の値である「０．８」を３枚目のフレーム画像の重み＃４３としてよい。例えば、決定部１３３は、対象動画＃４を構成する複数のフレーム画像それぞれに対応する重みである対象重み＃４として、１枚目のフレーム画像の重み＃４１～２枚目のフレーム画像の重み＃４３の組のベクトル（重み＃４１、重み＃４２、重み＃４３）＝（０．８、１．０、０．８）を取得してよい。

【0077】

このように、決定部１３３は、対象動画＃４を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像＃４に対応する重み（図７では、２枚目のフレーム画像の重み＃４２である「１．０」）を指定フレーム画像以外の他のフレーム画像に対応する重み（図７では、１枚目のフレーム画像の重み＃４１である「０．８」および３枚目のフレーム画像の重み＃４３である「０．８」）よりも大きくするように複数のフレーム画像それぞれに対応する重みである対象重み＃４を決定する。また、このように、決定部１３３は、対象動画＃４を構成する複数のフレーム画像それぞれに対応する重みである対象重み＃４を決定する。

【0078】

また、文章生成部１３６は、決定部１３３によって決定された対象重み＃４によって、抽出部１３２によって抽出された対象フレーム特徴量＃４を重み付けしてよい。文章生成部１３６は、決定部１３３によって決定された対象重み＃４によって重み付けされた対象フレーム特徴量＃４である、重み付けされた対象フレーム特徴量＃４´を生成してよい。図７では、文章生成部１３６は、対象動画＃４を構成する１枚目のフレーム画像に対応する重み＃４１である「０．８」を特徴量ベクトルＶ４１の各要素に乗じることにより、重み＃４１によって重み付けされた特徴量ベクトルＶ４１´を生成してよい。また、文章生成部１３６は、対象動画＃４を構成する２枚目のフレーム画像に対応する重み＃４２である「１．０」を特徴量ベクトルＶ４２の各要素に乗じることにより、重み＃４２によって重み付けされた特徴量ベクトルＶ４２´を生成してよい。また、文章生成部１３６は、対象動画＃４を構成する３枚目のフレーム画像に対応する重み＃４３である「０．８」を特徴量ベクトルＶ４３の各要素に乗じることにより、重み＃４３によって重み付けされた特徴量ベクトルＶ４３´を生成してよい。このようにして、文章生成部１３６は、重み付けされた対象フレーム特徴量＃４´を生成してよい。図７では、文章生成部１３６は、重み付けされた対象フレーム特徴量＃４´として、（重み＃４１、重み＃４２、重み＃４３）＊（Ｖ４１、Ｖ４２、Ｖ４３）＝（重み＃４１＊Ｖ４１、重み＃４２＊Ｖ４２、重み＃４３＊Ｖ４３）＝（Ｖ４１´、Ｖ４２´、Ｖ４３´）を生成してよい。

【0079】

また、取得部１３５は、文章生成モデルＭ２を取得してよい。例えば、取得部１３５は、文章生成モデルＭ２に関する情報を格納している記憶部１２０から文章生成モデルＭ２を取得してよい。

【0080】

このように、取得部１３５は、撮像画像（図７では、図３で説明した画像＃２）と撮像画像の内容を説明する文章である画像説明文（図７では、図３で説明した画像説明文＃２）との組を含む画像文データセット＃２に基づいて生成された学習用動画＃２を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量＃２と、学習用動画＃２を構成する複数のフレーム画像それぞれに対応する重みである学習用重み＃２とに基づいて、学習用動画＃２の内容を説明する文章である学習用動画説明文＃２であって、学習用重み＃２によって重み付けされた学習用フレーム特徴量＃２と対応する特徴を有する学習用動画説明文＃２を生成するように学習された機械学習モデルである文章生成モデルＭ２を取得する。

【0081】

また、文章生成部１３６は、取得部１３５によって取得された文章生成モデルＭ２に重み付けされた対象フレーム特徴量＃４´を入力してよい（ステップＳ４２）。例えば、文章生成部１３６は、重み付けされた対象フレーム特徴量＃４´に基づく条件ベクトル＃４を生成してよい。続いて、文章生成部１３６は、生成した条件ベクトル＃４とノイズベクトルを結合してよい。なお、文章生成部１３６が、条件ベクトル＃４とノイズベクトルを結合する方法は、図２で説明した事前学習において条件ベクトル＃１とノイズベクトルを結合する方法と同様であってよい。以下では、図２と重複する説明は省略する。続いて、文章生成部１３６は、結合された条件ベクトル＃４とノイズベクトルを入力情報として条件付き生成モデルである文章生成モデルＭ２に入力してよい。

【0082】

続いて、文章生成部１３６は、結合された条件ベクトル＃４とノイズベクトルの入力に応じて文章生成モデルＭ２が生成した動画説明文であって、文章生成モデルＭ２から出力情報として出力された動画説明文（以下、「対象動画説明文＃４」と記載する場合がある）を取得してよい（ステップＳ４３）。

【0083】

このように、文章生成部１３６は、対象フレーム特徴量＃４と対象重み＃４とに基づいて、対象重みによって重み付けされた対象フレーム特徴量＃４´を文章生成モデルＭ２に入力して、対象動画＃４の内容を説明する文章である対象動画説明文＃４を生成する。

【0084】

〔７．文章生成モデルの例〕
図８は、実施形態に係る文章生成モデルの一例である条件付き敵対的生成ネットワーク（ＣＧＡＮ）を示す図である。図８に示すように、文章生成モデルは、生成器ネットワークＧ１および識別器ネットワークＤ１を含む条件付き敵対的生成ネットワークであってよい。図８では、図３で説明した第１の追加学習または図５で説明した第２の追加学習について説明する。

【0085】

図８に示す生成器ネットワークＧ１は、時系列データであるテキストの生成に向いている機械学習モデルであってよい。例えば、生成器ネットワークＧ１は、再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）、ＧＲＵ（Gated Recurrent Unit）、ＬＳＴＭ（Long Short Term Memory）、Ｔｒａｎｓｆｏｒｍｅｒ（Ashish Vaswani et al., 2017）、ＴｒａｎｓｆｏｒｍｅｒをベースとしたＢＥＲＴ（Bidirectional Encoder Representations from Transformers）、ＧＰＴ－３（Generative Pre-Training3）またはＴ５（Text-to-Text Transfer Transformer）等であってよい。

【0086】

まず、モデル生成部１３４は、図２で説明した事前学習により、生成器ネットワークＧ１および識別器ネットワークＤ１を含む条件付き敵対的生成ネットワークを学習させてよい。例えば、モデル生成部１３４は、事前学習用フレーム特徴量＃５０に基づく条件ベクトルである事前学習用敵対的条件ベクトルＶ５０を生成してよい。続いて、モデル生成部１３４は、事前学習用敵対的条件ベクトルＶ５０およびノイズベクトルを入力情報として生成器ネットワークＧ１に入力した場合に、事前学習用敵対的条件ベクトルＶ５０と対応する特徴を有する動画説明文を生成するように生成器ネットワークＧ１を学習させてよい。例えば、モデル生成部１３４は、バックプロパゲーション（誤差逆伝播法）等を用いて、生成器ネットワークＧ１から出力された動画説明文と、動画文データセット＃５０に含まれる事前学習用動画説明文＃５０との誤差が小さくなるように生成器ネットワークＧ１を学習させてよい。このように、モデル生成部１３４は、事前学習用フレーム特徴量＃５０に基づいて、事前学習用フレーム特徴量＃５０と対応する特徴を有する動画説明文を生成するように事前に学習された事前学習済み生成器ネットワークＧ１を生成してよい。

【0087】

また、モデル生成部１３４は、事前学習用敵対的条件ベクトル＃および事前学習用動画説明文＃５０を入力情報として識別器ネットワークＤ１に入力した場合に、事前学習用動画説明文＃５０が、真の動画説明文であって、かつ、事前学習用敵対的条件ベクトルＶ５０と対応する動画説明文であることを示す情報（例えば、数字の「１」など）を出力情報として出力するように識別器ネットワークＤ１を学習させてよい。なお、モデル生成部１３４は、例えば、線形変換処理を用いて、事前学習用敵対的条件ベクトルＶ５０と事前学習用動画説明文＃５０のサイズが同じになるように調整してよい。続いて、モデル生成部１３４は、事前学習用敵対的条件ベクトルＶ５０と事前学習用動画説明文＃５０を結合し、結合された事前学習用敵対的条件ベクトルＶ５０と事前学習用動画説明文＃５０を入力情報として識別器ネットワークＤ１に入力してよい。また、モデル生成部１３４は、事前学習用敵対的条件ベクトルＶ５０および生成器ネットワークＧ１が生成した偽の動画説明文を入力情報として識別器ネットワークＤ１に入力した場合に、生成器ネットワークＧ１が生成した偽の動画説明文が、真の動画説明文であって、かつ、事前学習用敵対的条件ベクトルＶ５０と対応する動画説明文であることを示す情報以外の情報（例えば、数字の「０」など）を出力情報として出力するように識別器ネットワークＤ１を学習させてよい。このように、モデル生成部１３４は、事前学習用フレーム特徴量＃５０に基づいて、事前に学習された事前学習済み識別器ネットワークＤ１を生成してよい。

【0088】

また、モデル生成部１３４は、図３で説明した第１の追加学習または図５で説明した第２の追加学習により、事前学習済み生成器ネットワークＧ１（以下、「生成器ネットワークＧ１」と略記する場合がある）および事前学習済み識別器ネットワークＤ１（以下、「識別器ネットワークＤ１」と略記する場合がある）を再学習させてよい。

【0089】

図８では、モデル生成部１３４は、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである第１の学習用敵対的条件ベクトルＶ５１（以下、「第１の敵対的条件ベクトルＶ５１」と略記する場合がある）を生成してよい。続いて、モデル生成部１３４は、第１の敵対的条件ベクトルＶ５１およびノイズベクトルＮ１を入力情報として生成器ネットワークＧ１に入力した場合に、第１の敵対的条件ベクトルＶ５１と対応する特徴を有する動画説明文（図８では、学習用動画説明文＃５１）を生成するよう生成器ネットワークＧ１を再学習させてよい。例えば、モデル生成部１３４は、バックプロパゲーション（誤差逆伝播法）等を用いて、生成器ネットワークＧ１から出力された学習用動画説明文＃５１と、画像文データセット＃５１に含まれる画像説明文＃５１（オリジナルの画像＃５１に対応する画像説明文）との誤差が小さくなるように生成器ネットワークＧ１を再学習させてよい。このようにして、モデル生成部１３４は、重み付けされた学習用フレーム特徴量に基づいて、重み付けされた学習用フレーム特徴量と対応する特徴を有する動画説明文を生成するように生成器ネットワークＧ１を再学習させてよい。このようにして、モデル生成部１３４は、第１の追加学習済みまたは第２の追加学習済みの生成器ネットワークＧ１を生成してよい。

【0090】

また、モデル生成部１３４は、第１の敵対的条件ベクトルＶ５１および生成器ネットワークＧ１が生成した偽の動画説明文である学習用動画説明文＃５１を入力情報として識別器ネットワークＤ１に入力した場合に、学習用動画説明文＃５１が、真の動画説明文であって、かつ、第１の敵対的条件ベクトルＶ５１と対応する動画説明文であることを示す情報以外の情報（例えば、数字の「０」など）を出力情報として出力するように識別器ネットワークＤ１を再学習させてよい。また、モデル生成部１３４は、事前学習用動画＃５２と事前学習用動画説明文＃５２との組を含む動画文データセット＃５２に含まれる事前学習用動画＃５２を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量＃５２に基づく条件ベクトルである第２の学習用敵対的条件ベクトルＶ５２（以下、「第２の敵対的条件ベクトルＶ５２」と略記する場合がある）を生成してよい。続いて、モデル生成部１３４は、第２の敵対的条件ベクトルＶ５２および事前学習用動画説明文＃５２を入力情報として識別器ネットワークＤ１に入力した場合に、事前学習用動画説明文＃５２が、真の動画説明文であって、かつ、第２の敵対的条件ベクトルＶ５２と対応する動画説明文であることを示す情報（例えば、数字の「１」など）を出力情報として出力するように識別器ネットワークＤ１を再学習させてよい。このようにして、モデル生成部１３４は、第１の追加学習済みまたは第２の追加学習済みの識別器ネットワークＤ１を生成してよい。

【0091】

また、文章生成部１３６は、対象重みによって重み付けされた対象フレーム特徴量に基づく条件ベクトルである敵対的条件ベクトルＶ５３を生成してよい。続いて、モデル生成部１３４は、敵対的条件ベクトルＶ５３およびノイズベクトルＮ２を入力情報として生成器ネットワークＧ１に入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。このようにして、文章生成部１３６は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を、第１の追加学習済みまたは第２の追加学習済みの生成器ネットワークＧ１に入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。

【0092】

〔８．変形例〕
上述した実施形態に係る処理は、上記実施形態以外にも種々の異なる形態にて実施されてよい。。

【0093】

〔８－１．第１の変形例〕
上述した実施形態では、文章生成モデルが、生成器ネットワークおよび識別器ネットワークを含む条件付き敵対的生成ネットワークである場合について説明した。第１の変形例では、文章生成モデルが、エンコーダおよびデコーダを含む条件付き変分オートエンコーダである場合について説明する。

【0094】

図９は、第１の変形例に係る文章生成モデルの一例である条件付き変分オートエンコーダ（ＣＶＡＥ）を示す図である。図９に示すように、文章生成モデルは、エンコーダＥＮ１およびデコーダＤＥ１を含む条件付き変分オートエンコーダであってよい。図９では、図２で説明した事前学習について説明する。

【0095】

まず、モデル生成部１３４は、図２で説明した事前学習により、エンコーダＥＮ１およびデコーダＤＥ１を含む条件付き条件付き変分オートエンコーダを学習させてよい。例えば、モデル生成部１３４は、事前学習用フレーム特徴量＃６０に基づく条件ベクトルである事前学習用変分条件ベクトルＶ６０（以下、「変分条件ベクトルＶ６０」と略記する場合がある）を生成してよい。続いて、モデル生成部１３４は、変分条件ベクトルＶ６０および事前学習用動画説明文＃６０を入力情報としてエンコーダＥＮ１に入力した場合に、多変量正規分布における平均ベクトルμおよび分散ベクトルσを出力情報として出力するようにエンコーダＥＮ１を学習させてよい。また、モデル生成部１３４は、平均ベクトルμおよび分散ベクトルσに基づく多変量正規分布に従う標本である潜在ベクトルｚを決定してよい。なお、モデル生成部１３４は、標準正規分布からランダムにサンプリングして得る確率変数εを導入し、これを用いて潜在ベクトルｚを決定してよい。続いて、モデル生成部１３４は、潜在ベクトルｚおよび変分条件ベクトルＶ６０を入力情報としてデコーダＤＥ１に入力した場合に、変分条件ベクトルＶ６０と対応する特徴を有する動画説明文（図９では、事前学習用動画説明文＃６０）を出力情報として出力するようにデコーダＤＥ１を学習させてよい。例えば、モデル生成部１３４は、バックプロパゲーション（誤差逆伝播法）等を用いて、エンコーダＥＮ１に入力された事前学習用動画説明文＃６０と、デコーダＤＥ１から出力された動画説明文との誤差が小さくなるようにエンコーダＥＮ１およびデコーダＤＥ１を学習させてよい。このように、モデル生成部１３４は、事前学習用フレーム特徴量＃６０に基づいて、事前学習用フレーム特徴量＃６０と対応する特徴を有する動画説明文を生成するように事前に学習された事前学習済みデコーダＤＥ１を生成してよい。

【0096】

また、モデル生成部１３４は、図３で説明した第１の追加学習または図５で説明した第２の追加学習により、事前学習済みデコーダＤＥ１（以下、「デコーダＤＥ１」と略記する場合がある）を再学習させてよい。

【0097】

例えば、モデル生成部１３４は、エンコーダＥＮ１から出力された平均ベクトルμおよび分散ベクトルσに基づく多変量正規分布に従う標本である潜在ベクトルｚを決定してよい。また、モデル生成部１３４は、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである学習用変分条件ベクトルＶ６１（以下、「変分条件ベクトルＶ６１」と略記する場合がある）を生成してよい。続いて、モデル生成部１３４は、潜在ベクトルｚおよび変分条件ベクトルＶ６１を入力情報としてデコーダＤＥ１に入力した場合に、変分条件ベクトルＶ６１と対応する特徴を有する動画説明文を出力情報として出力するようにデコーダＤＥ１を再学習させてよい。例えば、モデル生成部１３４は、バックプロパゲーション（誤差逆伝播法）等を用いて、デコーダＤＥ１から出力された学習用動画説明文＃６１と、画像文データセット＃６１に含まれる画像説明文＃６１（オリジナルの画像＃６１に対応する画像説明文）との誤差が小さくなるようにデコーダＤＥ１を再学習させてよい。このようにして、モデル生成部１３４は、重み付けされた学習用フレーム特徴量に基づいて、重み付けされた学習用フレーム特徴量と対応する特徴を有する動画説明文を生成するようにデコーダＤＥ１を再学習させてよい。このようにして、モデル生成部１３４は、第１の追加学習済みまたは第２の追加学習済みのデコーダＤＥ１を生成してよい。

【0098】

また、文章生成部１３６は、対象重みによって重み付けされた対象フレーム特徴量に基づく条件ベクトルである変分条件ベクトルＶ６２を生成してよい。続いて、モデル生成部１３４は、潜在ベクトルｚおよび変分条件ベクトルＶ６２を入力情報としてデコーダＤＥ１に入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。このようにして、文章生成部１３６は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を、第１の追加学習済みまたは第２の追加学習済みのデコーダＤＥ１に入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。

【0099】

〔８－２．第２の変形例〕
上述した実施形態では、文章生成モデルが、生成器ネットワークおよび識別器ネットワークを含む条件付き敵対的生成ネットワークである場合について説明した。また、第１の変形例では、文章生成モデルが、エンコーダおよびデコーダを含む条件付き変分オートエンコーダである場合について説明した。第２の変形例では、文章生成モデルが、条件付き拡散モデルである場合について説明する。

【0100】

図１０は、第２の変形例に係る文章生成モデルの一例である条件付き拡散モデルを示す図である。図１０に示すように、文章生成モデルは、条件付き拡散モデルであってよい。図１０では、図３で説明した第１の追加学習または図５で説明した第２の追加学習について説明する。

【0101】

図１０では、条件付き拡散モデルの学習処理に用いるデータの一例として、初期の動画説明文ｘ_０に対してノイズが段階的に付与された複数のノイズ付き動画説明文を示す。モデル生成部１３４は、図１０に示す複数のノイズ付き動画説明文を含む学習用データを用いて条件付き拡散モデルを学習させる。図１０では、初期の動画説明文ｘ_０は、ノイズの付与に関する段階が段階＃０である。すなわち、ノイズが付加されていない動画説明文である。モデル生成部１３４は、初期の動画説明文ｘ_０に徐々にガウスノイズを足していき、最終的に純粋なガウスノイズｘ_Ｔを得る過程（拡散過程）において、初期の動画説明文ｘ_０に対して何度か微小なノイズが付加されたノイズ付き動画説明文ｘ_ｔ－１を生成する。ノイズ付き動画説明文ｘ_ｔ－１は、ノイズの付与に関する段階が段階＃ｔ－１である。すなわち、初期の動画説明文ｘ_０に対してノイズがｔ－１段階付与された動画説明文である。続いて、モデル生成部１３４は、ノイズ付き動画説明文ｘ_ｔ－１に微小なノイズが付加されたノイズ付き動画説明文ｘ_ｔを生成する。ノイズ付き動画説明文ｘ_ｔは、ノイズ付き動画説明文ｘ_ｔ－１に対してノイズがさらに１段階付加された動画説明文である。ノイズ付き動画説明文ｘ_ｔは、ノイズの付与に関する段階が段階＃ｔである。すなわち、初期の動画説明文ｘ_０に対してノイズがｔ段階付与された動画説明文である。例えば、ノイズ付き動画説明文ｘ_ｔは、ノイズ付き動画説明文ｘ_ｔ－１にノイズを付与するノイズ付与処理により生成される。図１０に示すｑ（ｘ_ｔ｜ｘ_ｔ－１）は、ノイズ付き動画説明文ｘ_ｔ－１からノイズ付き動画説明文ｘ_ｔに遷移する遷移確率を示す。

【0102】

続いて、モデル生成部１３４は、純粋なガウスノイズｘ_Ｔから徐々にガウスノイズを除去していき、最終的にノイズが付加されていない動画説明文ｘ_０を得る過程（逆拡散過程）において、ノイズ付き動画説明文ｘ_ｔから微小なノイズを除去してノイズ付き動画説明文ｘ_ｔ－１を生成する条件付き拡散モデルを学習させる。例えば、モデル生成部１３４は、ノイズ付き動画説明文ｘ_ｔを入力とし、一つ手前の過程、すなわちノイズ付き動画説明文ｘ_ｔからノイズを１段階除去したノイズ付き動画説明文ｘ_ｔ－１を出力するように条件付き拡散モデルを学習させる。図１０に示すｐ_θ（ｘ_ｔ－１｜ｘ_ｔ、Ｖ７１）は、ノイズ付き動画説明文ｘ_ｔ－１からノイズ付き動画説明文ｘ_ｔに遷移する遷移確率を示す。また、ｐ_θ（ｘ_ｔ－１｜ｘ_ｔ、Ｖ７１）は、学習によって定まるパラメータθを持つニューラルネットワークの出力である。このように、モデル生成部１３４は、純粋なガウスノイズｘ_Ｔを入力とし、徐々にノイズを除去していくことで、最終的にノイズが付加されていない動画説明文ｘ_０を生成する機械学習モデルである条件付き拡散モデルを学習させる。

【0103】

まず、モデル生成部１３４は、図２で説明した事前学習により、条件付き拡散モデルを学習させてよい。例えば、モデル生成部１３４は、事前学習用フレーム特徴量＃７０に基づく条件ベクトルである事前学習用拡散条件ベクトルＶ７０（以下、「拡散条件ベクトルＶ７０」と略記する場合がある）を生成してよい。続いて、モデル生成部１３４は、拡散条件ベクトルＶ７０を入力情報として条件付き拡散モデルに入力した場合に、ノイズベクトルが従う多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように条件付き拡散モデルを学習させてよい。例えば、モデル生成部１３４は、拡散条件ベクトルＶ７０および純粋なガウスノイズベクトルを入力情報として条件付き拡散モデルに入力した場合に、拡散条件ベクトルＶ７０と対応する特徴を有する動画説明文を生成するように条件付き拡散モデルを学習させてよい。例えば、モデル生成部１３４は、バックプロパゲーション（誤差逆伝播法）等を用いて、条件付き拡散モデルから出力された動画説明文と、動画文データセット＃７０に含まれる事前学習用動画説明文＃７０との誤差が小さくなるように条件付き拡散モデルを学習させてよい。このように、モデル生成部１３４は、事前学習用フレーム特徴量＃７０に基づいて、事前学習用フレーム特徴量＃７０と対応する特徴を有する動画説明文を生成するように事前に学習された事前学習済み条件付き拡散モデルを生成してよい。

【0104】

また、モデル生成部１３４は、図３で説明した第１の追加学習または図５で説明した第２の追加学習により、事前学習済み条件付き拡散モデル（以下、「条件付き拡散モデル」と略記する場合がある）を再学習させてよい。例えば、モデル生成部１３４は、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである学習用拡散条件ベクトルＶ７１（以下、「拡散条件ベクトルＶ７１」と略記する場合がある）を生成してよい。続いて、モデル生成部１３４は、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである拡散条件ベクトルＶ７１を入力情報として条件付き拡散モデルに入力した場合に、ノイズベクトルが従う多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように条件付き拡散モデルを学習させてよい。例えば、モデル生成部１３４は、拡散条件ベクトルＶ７１および純粋なガウスノイズを入力情報として条件付き拡散モデルに入力した場合に、拡散条件ベクトルＶ７１と対応する特徴を有する動画説明文を生成するように条件付き拡散モデルを再学習させてよい。例えば、モデル生成部１３４は、バックプロパゲーション（誤差逆伝播法）等を用いて、条件付き拡散モデルから出力された学習用動画説明文＃７１と、画像文データセット＃７１に含まれる画像説明文＃７１（オリジナルの画像＃７１に対応する画像説明文）との誤差が小さくなるように条件付き拡散モデルを再学習させてよい。このようにして、モデル生成部１３４は、重み付けされた学習用フレーム特徴量に基づいて、重み付けされた学習用フレーム特徴量と対応する特徴を有する動画説明文を生成するように条件付き拡散モデルを再学習させてよい。このようにして、モデル生成部１３４は、第１の追加学習済みまたは第２の追加学習済みの条件付き拡散モデルを生成してよい。

【0105】

また、文章生成部１３６は、学習済みの条件付き拡散モデル（以下、「条件付き拡散モデル」と略記する場合がある）を用いてノイズベクトルを推定し、ノイズ付き動画説明文特徴量からノイズベクトルを取り除くことにより、動画説明文を生成する。例えば、文章生成部１３６は、対象重みによって重み付けされた対象フレーム特徴量に基づく条件ベクトルである拡散条件ベクトルＶ７２を生成してよい。続いて、モデル生成部１３４は、拡散条件ベクトルＶ７２および純粋なガウスノイズベクトルを入力情報として条件付き拡散モデルに入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。このようにして、文章生成部１３６は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を、第１の追加学習済みまたは第２の追加学習済みの条件付き拡散モデルに入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。

【0106】

〔９．効果〕
上述したように、実施形態に係る情報処理装置１００は、動画生成部１３１と抽出部１３２と決定部１３３とモデル生成部１３４を備える。動画生成部１３１は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する。抽出部１３２は、学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する。決定部１３３は、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みを決定する。モデル生成部１３４は、学習用フレーム特徴量と学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成する。

【0107】

これにより、情報処理装置１００は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画のどの部分（どのフレーム画像）を重視した動画説明文を生成するのかをコントロール可能とすることができる。また、情報処理装置１００は、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができる。また、情報処理装置１００は、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができるので、持続可能な開発目標（ＳＤＧｓ）の目標９「産業と技術革新の基盤をつくろう」の達成に貢献できる。また、情報処理装置１００は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画の時系列情報を自然言語生成に反映することを可能とすることができる。

【0108】

また、動画生成部１３１は、画像から動画を生成する機械学習モデルである第１の動画生成モデルを用いて、画像文データセットに含まれる撮像画像から、撮像画像をフレームに含む学習用動画を生成する。決定部１３３は、学習用動画を構成する複数のフレーム画像のうち、撮像画像に対応する重みを撮像画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する学習用重みを決定する。

【0109】

これにより、情報処理装置１００は、動画を構成する複数のフレーム画像のうち、動画を生成する元となった撮像画像を他のフレーム画像よりも重視した動画説明文を生成可能とすることができる。

【0110】

また、動画生成部１３１は、文章から動画を生成する機械学習モデルである第２の動画生成モデルを用いて、画像文データセットに含まれる画像説明文から学習用動画を生成する。決定部１３３は、学習用動画を構成する複数のフレーム画像それぞれと撮像画像との類似度に関する情報を複数のフレーム画像それぞれに対応する学習用重みとする。

【0111】

これにより、情報処理装置１００は、動画を生成する元となった画像説明文に対応する撮像画像との類似度が低いフレーム画像よりも、動画を生成する元となった画像説明文に対応する撮像画像との類似度が高いフレーム画像を重視した動画説明文を生成可能とすることができる。

【0112】

また、抽出部１３２は、撮像動画と撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量を抽出する。モデル生成部１３４は、事前学習用フレーム特徴量に基づいて、事前学習用フレーム特徴量と対応する特徴を有する動画説明文を生成するように事前に学習された機械学習モデルである事前学習済み文章生成モデルを生成し、学習用フレーム特徴量と学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように事前学習済み文章生成モデルを再学習させることにより、文章生成モデルを生成する。

【0113】

これにより、情報処理装置１００は、フレーム特徴量と対応する特徴を有する動画説明文を生成可能とすることができる。

【0114】

また、情報処理装置１００は、取得部１３５と文章生成部１３６をさらに備える。取得部１３５は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する。抽出部１３２は、処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する。決定部１３３は、対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する重みである対象重みを決定する。文章生成部１３６は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を文章生成モデルに入力して、対象動画の内容を説明する文章である対象動画説明文を生成する。

【0115】

これにより、情報処理装置１００は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画のどの部分（どのフレーム画像）を重視した動画説明文を生成するのかをコントロール可能とすることができる。また、情報処理装置１００は、注目するフレーム画像に応じた多様な動画説明文を生成することができる。また、情報処理装置１００は、注目するフレーム画像に応じた多様な動画説明文を生成することができるので、持続可能な開発目標（ＳＤＧｓ）の目標９「産業と技術革新の基盤をつくろう」の達成に貢献できる。また、情報処理装置１００は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画の時系列情報を自然言語生成に反映することを可能とすることができる。

【0116】

また、文章生成モデルは、生成器ネットワークおよび識別器ネットワークを含む条件付き敵対的生成ネットワークであり、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである第１の敵対的条件ベクトルおよびノイズベクトルを入力情報として生成器ネットワークに入力した場合に、学習用動画説明文を出力情報として出力するように学習された生成器ネットワークと、撮像動画と撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量に基づく条件ベクトルである第２の敵対的条件ベクトルおよび動画説明文を入力情報として識別器ネットワークに入力した場合に、動画説明文が、真の動画説明文であって、かつ、第２の敵対的条件ベクトルと対応する動画説明文であることを示す情報を出力情報として出力するように学習された識別器ネットワークであって、第１の敵対的条件ベクトルおよび生成器ネットワークが生成した偽の動画説明文である学習用動画説明文を入力情報として識別器ネットワークに入力した場合に、学習用動画説明文が、真の動画説明文であって、かつ、第１の敵対的条件ベクトルと対応する動画説明文であることを示す情報以外の情報を出力情報として出力するように学習された識別器ネットワークと、を含む機械学習モデルである。

【0117】

これにより、情報処理装置１００は、条件付き敵対的生成ネットワークを用いて、注目するフレーム画像に応じた多様な動画説明文を生成することができる。

【0118】

また、文章生成モデルは、エンコーダおよびデコーダを含む条件付き変分オートエンコーダであり、撮像動画と撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量に基づく条件ベクトルである第１の変分条件ベクトルおよび動画説明文を入力情報としてエンコーダに入力した場合に、多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように学習されたエンコーダと、平均ベクトルおよび分散ベクトルに基づく多変量正規分布に従う標本である潜在ベクトル、および、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである第２の変分条件ベクトルを入力情報としてデコーダに入力した場合に、学習用動画説明文を出力情報として出力するように学習されたデコーダと、を含む機械学習モデルである。

【0119】

これにより、情報処理装置１００は、条件付き変分オートエンコーダを用いて、注目するフレーム画像に応じた多様な動画説明文を生成することができる。

【0120】

また、文章生成モデルは、条件付き拡散モデルであり、ノイズベクトルを含む学習用動画説明文であるノイズ付き動画説明文および学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである拡散条件ベクトルを入力情報として条件付き拡散モデルに入力した場合に、ノイズベクトルが従う多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように学習された条件付き拡散モデルを用いてノイズベクトルを推定し、ノイズ付き動画説明文からノイズベクトルを取り除くことにより、学習用動画説明文を生成する機械学習モデルである。

【0121】

これにより、情報処理装置１００は、条件付き拡散モデルを用いて、注目するフレーム画像に応じた多様な動画説明文を生成することができる。

【0122】

〔１０．ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置１００は、例えば図１１に示すような構成のコンピュータ１０００によって実現される。図１１は、情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

【0123】

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

【0124】

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

【0125】

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

【0126】

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

【0127】

例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

【0128】

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

【0129】

〔１１．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

【0130】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0131】

例えば、上述した実施形態では、情報処理装置１００が、動画生成部１３１と、抽出部１３２と、決定部１３３と、モデル生成部１３４と、取得部１３５と、文章生成部１３６を機能部として有する場合について説明したが、各部はそれぞれ別々の装置に分散して構成することができる。例えば、情報処理装置１００は、文章を生成する情報処理装置として、取得部１３５と、文章生成部１３６を機能部として有することができる。また、情報処理装置１００以外の情報処理装置（以下、「生成装置」と記載する）は、文章生成モデルを生成する情報処理装置として、動画生成部１３１と、抽出部１３２と、決定部１３３と、モデル生成部１３４を機能部として有することができる。このとき、情報処理装置１００と生成装置とは、各種ネットワークと有線または無線で接続され、相互に情報の送受信を行ってよい。例えば、情報処理装置１００は、生成装置によって生成された文章生成モデルに関する情報を生成装置から受信してよい。

【0132】

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【符号の説明】

【0133】

１００情報処理装置
１１０通信部
１２０記憶部
１３０制御部
１３１動画生成部
１３２抽出部
１３３決定部
１３４モデル生成部
１３５取得部
１３６文章生成部

【図1】