(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024124970
(43)【公開日】2024-09-13
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240906BHJP
G06F 16/783 20190101ALI20240906BHJP
【FI】
G06T7/00 350B
G06F16/783
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023032994
(22)【出願日】2023-03-03
(71)【出願人】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(71)【出願人】
【識別番号】500132214
【氏名又は名称】学校法人明星学苑
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】宅島 寛貴
(72)【発明者】
【氏名】堀 隆之
(72)【発明者】
【氏名】鈴木 裕真
(72)【発明者】
【氏名】岡本 秀明
(72)【発明者】
【氏名】田之上 隼人
(72)【発明者】
【氏名】植木 一也
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA04
5B175FA01
5B175FB01
5B175FB04
5L096CA04
5L096DA02
5L096EA39
5L096HA11
5L096KA04
(57)【要約】
【課題】注目するフレーム画像に応じた多様な動画説明文を生成可能とする。
【解決手段】本願に係る情報処理装置は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する動画生成部と、学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する抽出部と、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みを決定する決定部と、学習用フレーム特徴量と学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成するモデル生成部と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する動画生成部と、
前記学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する抽出部と、
前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みを決定する決定部と、
前記学習用フレーム特徴量と前記学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成するモデル生成部と、
を備える情報処理装置。
【請求項2】
前記動画生成部は、
画像から動画を生成する機械学習モデルである第1の動画生成モデルを用いて、前記画像文データセットに含まれる前記撮像画像から、前記撮像画像をフレームに含む前記学習用動画を生成し、
前記決定部は、
前記学習用動画を構成する複数のフレーム画像のうち、前記撮像画像に対応する重みを前記撮像画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する前記学習用重みを決定する、
請求項1に記載の情報処理装置。
【請求項3】
前記動画生成部は、
文章から動画を生成する機械学習モデルである第2の動画生成モデルを用いて、前記画像文データセットに含まれる前記画像説明文から前記学習用動画を生成し、
前記決定部は、
前記学習用動画を構成する複数のフレーム画像それぞれと前記撮像画像との類似度に関する情報を前記複数のフレーム画像それぞれに対応する前記学習用重みとする、
請求項1に記載の情報処理装置。
【請求項4】
前記抽出部は、
撮像動画と前記撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる前記撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量を抽出し、
前記モデル生成部は、
前記事前学習用フレーム特徴量に基づいて、前記事前学習用フレーム特徴量と対応する特徴を有する前記動画説明文を生成するように事前に学習された機械学習モデルである事前学習済み文章生成モデルを生成し、前記学習用フレーム特徴量と前記学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように前記事前学習済み文章生成モデルを再学習させることにより、前記文章生成モデルを生成する、
請求項1に記載の情報処理装置。
【請求項5】
撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する取得部と、
処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する抽出部と、
前記対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを前記指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである対象重みを決定する決定部と、
前記対象フレーム特徴量と前記対象重みとに基づいて、前記対象重みによって重み付けされた前記対象フレーム特徴量を前記文章生成モデルに入力して、前記対象動画の内容を説明する文章である対象動画説明文を生成する文章生成部と、
を備える情報処理装置。
【請求項6】
前記文章生成モデルは、生成器ネットワークおよび識別器ネットワークを含む条件付き敵対的生成ネットワークであり、
前記学習用重みによって重み付けされた前記学習用フレーム特徴量に基づく条件ベクトルである第1の敵対的条件ベクトルおよびノイズベクトルを入力情報として前記生成器ネットワークに入力した場合に、前記学習用動画説明文を出力情報として出力するように学習された前記生成器ネットワークと、
撮像動画と前記撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる前記撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量に基づく条件ベクトルである第2の敵対的条件ベクトルおよび前記動画説明文を入力情報として前記識別器ネットワークに入力した場合に、前記動画説明文が、真の動画説明文であって、かつ、前記第2の敵対的条件ベクトルと対応する動画説明文であることを示す情報を出力情報として出力するように学習された前記識別器ネットワークであって、前記第1の敵対的条件ベクトルおよび前記生成器ネットワークが生成した偽の動画説明文である前記学習用動画説明文を入力情報として前記識別器ネットワークに入力した場合に、前記学習用動画説明文が、真の動画説明文であって、かつ、前記第1の敵対的条件ベクトルと対応する動画説明文であることを示す情報以外の情報を出力情報として出力するように学習された前記識別器ネットワークと、を含む機械学習モデルである、
請求項1または5に記載の情報処理装置。
【請求項7】
前記文章生成モデルは、エンコーダおよびデコーダを含む条件付き変分オートエンコーダであり、
撮像動画と前記撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる前記撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量に基づく条件ベクトルである第1の変分条件ベクトルおよび前記動画説明文を入力情報として前記エンコーダに入力した場合に、多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように学習された前記エンコーダと、
前記平均ベクトルおよび前記分散ベクトルに基づく前記多変量正規分布に従う標本である潜在ベクトル、および、前記学習用重みによって重み付けされた前記学習用フレーム特徴量に基づく条件ベクトルである第2の変分条件ベクトルを入力情報として前記デコーダに入力した場合に、前記学習用動画説明文を出力情報として出力するように学習された前記デコーダと、を含む機械学習モデルである、
請求項1または5に記載の情報処理装置。
【請求項8】
前記文章生成モデルは、条件付き拡散モデルであり、
ノイズベクトルを含む前記学習用動画説明文であるノイズ付き動画説明文および前記学習用重みによって重み付けされた前記学習用フレーム特徴量に基づく条件ベクトルである拡散条件ベクトルを入力情報として前記条件付き拡散モデルに入力した場合に、前記ノイズベクトルが従う多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように学習された前記条件付き拡散モデルを用いて前記ノイズベクトルを推定し、前記ノイズ付き動画説明文から前記ノイズベクトルを取り除くことにより、前記学習用動画説明文を生成する機械学習モデルである、
請求項1または5に記載の情報処理装置。
【請求項9】
情報処理装置が実行するプログラムにより実現される情報処理方法であって、
撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する動画生成工程と、
前記学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する抽出工程と、
前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みを決定する決定工程と、
前記学習用フレーム特徴量と前記学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成するモデル生成工程と、
を含む情報処理方法。
【請求項10】
情報処理装置が実行するプログラムにより実現される情報処理方法であって、
撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する取得工程と、
処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する抽出工程と、
前記対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを前記指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである対象重みを決定する決定工程と、
前記対象フレーム特徴量と前記対象重みとに基づいて、前記対象重みによって重み付けされた前記対象フレーム特徴量を前記文章生成モデルに入力して、前記対象動画の内容を説明する文章である対象動画説明文を生成する文章生成工程と、
を含む情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
従来、動画からキャプション(キャプション文ともいう。以下、「動画説明文」と記載する。)を生成する技術が知られている。例えば、画像に含まれる要素を単語として出力する多層式のニューラルネットワークに監視カメラで撮影された動画を入力し、動画の説明文を生成する技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術では、画像に含まれる要素を単語として出力する多層式のニューラルネットワークに監視カメラで撮影された動画を入力し、動画の説明文を生成するにすぎないため、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができるとは限らない。
【0005】
本願は、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができる情報処理装置及び情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本願に係る情報処理装置は、撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する動画生成部と、前記学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する抽出部と、前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みを決定する決定部と、前記学習用フレーム特徴量と前記学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成するモデル生成部と、を備える。
【0007】
また、本願に係る情報処理装置は、撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する取得部と、処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する抽出部と、前記対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを前記指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである対象重みを決定する決定部と、前記対象フレーム特徴量と前記対象重みとに基づいて、前記対象重みによって重み付けされた前記対象フレーム特徴量を前記文章生成モデルに入力して、前記対象動画の内容を説明する文章である対象動画説明文を生成する文章生成部と、を備える。
【発明の効果】
【0008】
実施形態の一態様によれば、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、実施形態に係る情報処理装置の構成例を示す図である。
【
図2】
図2は、実施形態に係る事前学習方法に関する情報処理の一例を示す図である。
【
図3】
図3は、実施形態に係る第1の追加学習方法に関する情報処理の一例を示す図である。
【
図4】
図4は、実施形態に係る重みによってフレーム特徴量を重み付けする方法について説明するための図である。
【
図5】
図5は、実施形態に係る第2の追加学習方法に関する情報処理の一例を示す図である。
【
図6】
図6は、実施形態に係る類似度を算出する方法について説明するための図である。
【
図7】
図7は、実施形態に係る推論方法に関する情報処理の一例を示す図である。
【
図8】
図8は、実施形態に係る文章生成モデルの一例である条件付き敵対的生成ネットワーク(CGAN)を示す図である。
【
図9】
図9は、第1の変形例に係る文章生成モデルの一例である条件付き変分オートエンコーダ(CVAE)を示す図である。
【
図10】
図10は、第2の変形例に係る文章生成モデルの一例である条件付き拡散モデルを示す図である。
【
図11】
図11は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0010】
以下に、本願に係る情報処理装置及び情報処理方法を実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0011】
(実施形態)
〔1.はじめに〕
従来、動画から動画の内容を説明する文章である動画説明文を生成する技術が知られている。例えば、動画から動画説明文を生成する機械学習モデルが知られている。ここで、動画から動画説明文を生成する機械学習モデルによって生成される動画説明文は、動画内のどの範囲に注目するかによってその内容が異なることが知られている。
【0012】
また、近年、生成モデルに関する技術が知られている。生成モデルとは、データ生成のプロセスをモデル化したものである。生成モデルは、学習用データを学習し、学習用データに似たデータを生成することができる機械学習モデルである。また、条件付き生成モデルに関する技術が知られている。条件付き生成モデルは、条件を変えることによってデータ生成のプロセスを変化させ、多様で高品質なデータを生成することができる機械学習モデルである。
【0013】
ここで、条件付き生成モデルにおける条件とは、条件付き生成モデルによって生成される生成対象データの特徴が満たすべき条件のことを指す。言い換えると、ここでの条件とは、条件付き生成モデルによって生成される生成対象データの種類や属性(例えば、生成対象データに現れる特徴の種類や属性など)に関する条件のことを指す。例えば、条件付き生成モデルによって生成される生成対象データが画像である場合、条件とは、画像に含まれる対象物の属性や種別を示す情報であってよい。具体的には、条件付き生成モデルに条件として入力されるベクトルである条件ベクトルを入力情報として条件付き生成モデルに入力することにより、条件ベクトルと対応する特徴を有するデータが生成可能となる。例えば、条件ベクトルは、条件を示す情報に対応するベクトルであってよい。
【0014】
例えば、条件付き生成モデルの一例として、Conditional GAN(CGAN)(参考文献;論文名“Conditional Generative Adversarial Nets“,<インターネット>https://arxiv.org/pdf/1411.1784.pdf(令和5年2月16日検索))が知られている。CGANは、条件付き敵対的生成ネットワークとも呼ばれ、ノイズから特定のデータを生成するGAN(敵対的生成ネットワーク)に対して条件を与えられるように改良された機械学習モデルである。
【0015】
また、条件付き生成モデルの一例として、Conditional Variational Auto Encoder(CVAE)(参考文献;論文名“Semi-supervised Learning with Deep Generative Models “,<インターネット>https://proceedings.neurips.cc/paper/2014/file/d523773c6b194f37b938d340d5d02232-Paper.pdf(令和5年2月16日検索))が知られている。CVAEは、条件付き変分オートエンコーダとも呼ばれ、潜在表現に従ってデータを生成するVAE(変分オートエンコーダ)に対して条件を与えられるように改良された機械学習モデルである。
【0016】
また、条件付き生成モデルの一例として、Diffusion Model(参考文献;論文名“Denoising Diffusion Probabilistic Models “,<インターネット>https://arxiv.org/pdf/2006.11239.pdf(令和5年2月16日検索))が知られている。Diffusion Modelは、ノイズから少しずつデータを復元する過程を学習する。Diffusion Modelは、一般的には拡散モデルと呼ばれているが、応用的な利用方法として、条件を与えたデータの生成が可能である。
【0017】
また、条件付き生成モデルのその他の例として、GLIDE(参考文献;論文名“GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models “,<インターネット>https://arxiv.org/pdf/2112.10741.pdf(令和5年2月16日検索))、DALL-E 2 unCLIP(参考文献;論文名“Hierarchical Text-Conditional Image Generation with CLIP Latents “,<インターネット>https://arxiv.org/pdf/2204.06125.pdf(令和5年2月16日検索))、Imagen(参考文献;論文名“Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding “,<インターネット>https://arxiv.org/pdf/2205.11487.pdf(令和5年2月16日検索))、Parti(参考文献;論文名“Scaling Autoregressive Models for Content-Rich Text-to-Image Generation “,<インターネット>https://arxiv.org/pdf/2206.10789.pdf(令和5年2月16日検索))が知られている。
【0018】
本実施形態に係る情報処理装置は、動画を構成する複数のフレーム画像それぞれに対応する重みと、動画を構成する複数のフレーム画像それぞれの特徴量であるフレーム特徴量とに基づいて、重み付けされたフレーム特徴量を条件として条件付き生成モデルに入力する。また、情報処理装置は、重み付けされたフレーム特徴量と対応する特徴を有する動画説明文を生成する。これにより、情報処理装置は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画のどの部分(どのフレーム画像)を重視した動画説明文を生成するのかをコントロール可能とすることができる。また、情報処理装置は、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができる。また、情報処理装置は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画の時系列情報を自然言語生成に反映することを可能とすることができる。
【0019】
〔2.情報処理装置の構成〕
図1を用いて、実施形態に係る情報処理装置100の構成例について説明する。
図1は、実施形態に係る情報処理装置100の構成例を示す図である。情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。
【0020】
(通信部110)
通信部110は、NIC(Network Interface Card)やアンテナ等によって実現される。通信部110は、各種ネットワークと有線または無線で接続され、例えば、情報処理装置100以外の他の情報処理装置との間で情報の送受信を行う。
【0021】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。具体的には、記憶部120は、各種データを記憶する。例えば、記憶部120は、文章生成モデルの学習に用いられる学習用のデータを記憶する。また、記憶部120は、各種プログラムを記憶する。例えば、記憶部120は、モデル生成部134によって生成された文章生成モデルに関する情報を記憶する。
【0022】
(制御部130)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0023】
制御部130は、動画生成部131と、抽出部132と、決定部133と、モデル生成部134と、取得部135と、文章生成部136を機能部として有し、以下に説明する情報処理の作用を実現または実行してよい。なお、制御部130の内部構成は、
図1に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、各機能部は、制御部130の機能を示したものであり、必ずしも物理的に区別されるものでなくともよい。
【0024】
(動画生成部131)
動画生成部131は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する。
【0025】
(抽出部132)
抽出部132は、学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する。また、抽出部132は、処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する。
【0026】
(決定部133)
決定部133は、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みを決定する。また、決定部133は、対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する重みである対象重みを決定する。
【0027】
(モデル生成部134)
モデル生成部134は、学習用フレーム特徴量と学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成する。ここで、文章生成モデルは、条件付き生成モデルであってよい。例えば、文章生成モデルは、条件付き敵対的生成ネットワーク(CGAN)、条件付き変分オートエンコーダ(CVAE)、または、条件付き拡散モデルであってよい。
【0028】
また、モデル生成部134は、文章生成モデルを事前学習させることで、事前学習済みの文章生成モデルを生成する。続いて、モデル生成部134は、事前学習済みの文章生成モデルを追加学習させることで、追加学習済みの文章生成モデルを生成する。モデル生成部134は、生成した追加学習済みの文章生成モデルに関する情報を記憶部120に格納する。なお、以下では、追加学習済みの文章生成モデルのことを単に「文章生成モデル」と記載する場合がある。
【0029】
(取得部135)
取得部135は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する。具体的には、取得部135は、モデル生成部134によって生成された文章生成モデルを取得する。例えば、取得部135は、記憶部120から文章生成モデルに関する情報を取得する。
【0030】
(文章生成部136)
文章生成部136は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を文章生成モデルに入力して、対象動画の内容を説明する文章である対象動画説明文を生成する。
【0031】
〔3.事前学習方法〕
図2を用いて、実施形態に係る文章生成モデルの事前学習方法について説明する。
図2は、実施形態に係る事前学習方法に関する情報処理の一例を示す図である。ここで、事前学習とは、後述する第1の追加学習(
図3参照)または第2の追加学習(
図5参照)によりモデルを本格的に学習させる前に、事前に準備として行われるモデルの学習のことを指す。
【0032】
図2に示すように、事前学習の段階では、(1)動画と動画説明文との組を含む動画文データセットに含まれる動画を構成する各フレーム画像から画像特徴量を抽出する。(2)動画を構成する各フレーム画像に対する重み付けは行わない。(3)各フレーム画像から抽出した画像特徴量を条件として、条件付き生成モデルである文章生成モデルに入力し、画像特徴量に対応する特徴を有する動画説明文を生成するように文章生成モデルを学習させる。
【0033】
具体的には、抽出部132は、事前学習用の撮像動画(以下、「事前学習用動画#1」と記載する場合がある)と事前学習用の撮像動画に対応する動画説明文(以下、「事前学習用動画説明文#1」と記載する場合がある)との組を含む動画文データセット#1を取得してよい。例えば、抽出部132は、通信部110を介して、外部の情報処理装置から動画文データセット#1を取得してよい。
【0034】
続いて、抽出部132は、動画文データセット#1に含まれる事前学習用動画#1を構成する複数のフレーム画像それぞれから、事前学習用動画#1を構成する複数のフレーム画像それぞれの画像特徴量を抽出してよい(ステップS11)。例えば、画像特徴量は、多次元のベクトルであってよい。
図2では、簡単のため、事前学習用動画#1を構成するフレーム画像が3つである場合について説明するが、事前学習用動画#1を構成するフレーム画像の数は4つ以上であってよい。
図2では、事前学習用動画#1の開始時刻に対応する1枚目のフレーム画像と、事前学習用動画#1の開始時刻と終了時刻の間の時刻に対応する2枚目のフレーム画像と、事前学習用動画#1の終了時刻に対応する3枚目のフレーム画像とが時系列順に並んでいる様子を示す。例えば、抽出部132は、1枚目のフレーム画像から特徴量ベクトルV11を抽出する。また、抽出部132は、2枚目のフレーム画像から特徴量ベクトルV12を抽出する。また、抽出部132は、3枚目のフレーム画像から特徴量ベクトルV13を抽出する。続いて、抽出部132は、事前学習用動画#1を構成する複数のフレーム画像それぞれの画像特徴量である事前学習用フレーム特徴量#1として、特徴量ベクトルV11~V13の組のベクトル(V11、V12、V13)を取得してよい。
【0035】
例えば、抽出部132は、画像から画像特徴量を抽出することができる任意の公知技術を用いて、動画を構成する複数のフレーム画像それぞれから画像特徴量を抽出してよい。例えば、抽出部132は、画像エンコーダを備え、画像エンコーダを用いて画像特徴量を抽出してよい。例えば、抽出部132は、画像エンコーダとして、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を備えてよい。そして、抽出部132は、CNNを用いて、各フレーム画像から画像特徴量を抽出してよい。また、例えば、抽出部132は、画像エンコーダとして、物体認識用に開発されたResNet(Residual Network)(Kaiming He et al., 2015)、AlexNet(Krizhevsky et al., 2012)、VGGNet(Simonyan et al., 2014)、GoogLeNet(Szegedy et al., 2014)、SENet(Squeeze-and-Excitation Networks)(Jie Hu et al., 2018)、EfficientNet(Tan et al., 2019)、またはZFNet(Matthew et al., 2013)を備えてよい。そして、抽出部132は、ResNet、AlexNet、VGGNet、GoogLeNet、SENet、EfficientNet、またはZFNetを用いて、各フレーム画像か画像特徴量を抽出してよい。また、例えば、抽出部132は、画像エンコーダとして、物体検出用に開発されたFaster R-CNN(Shaoqing Ren et al., 2015)、YOLO(You Look Only Onse)(Joseph Redmon et al., 2015)、またはSSD(Single Shot MultiBox Detector)(Wei Liu., 2015)を備えてよい。そして、抽出部132は、Faster R-CNN、YOLO、またはSSDを用いて、各フレーム画像から画像特徴量を抽出してよい。
【0036】
このように、抽出部132は、撮像動画(
図2の例では、事前学習用動画#1)と撮像動画の内容を説明する文章である動画説明文(
図2の例では、事前学習用動画説明文#1)との組を含む動画文データセット#1に含まれる撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量#1を抽出する。
【0037】
続いて、モデル生成部134は、抽出部132によって抽出された事前学習用フレーム特徴量#1を文章生成モデルM1に入力してよい(ステップS12)。例えば、モデル生成部134は、事前学習用フレーム特徴量#1に基づく条件ベクトル#1を生成してよい。続いて、モデル生成部134は、生成した条件ベクトル#1とノイズベクトル(乱数ベクトルともいう)を結合してよい。例えば、モデル生成部134は、線形変換処理を用いて、条件ベクトル#1とノイズベクトルのサイズが同じになるように調整してよい。続いて、モデル生成部134は、条件ベクトル#1の各要素をノイズベクトルの各要素に加算することにより、条件ベクトル#1とノイズベクトルを結合してよい。あるいは、モデル生成部134は、条件ベクトル#1の各要素をノイズベクトルの各要素に乗算することにより、条件ベクトル#1とノイズベクトルを結合してよい。続いて、モデル生成部134は、結合された条件ベクトル#1とノイズベクトルを入力情報として条件付き生成モデルである文章生成モデルM1に入力してよい。
【0038】
続いて、モデル生成部134は、結合された条件ベクトル#1とノイズベクトルの入力に応じて文章生成モデルM1が生成した動画説明文であって、文章生成モデルM1から出力情報として出力された動画説明文を取得してよい(ステップS13)。モデル生成部134は、条件ベクトル#1に基づいて、条件ベクトル#1と対応する特徴を有する動画説明文を生成するように文章生成モデルM1を学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、文章生成モデルM1から出力された動画説明文と、動画文データセット#1に含まれる事前学習用動画説明文#1との誤差が小さくなるように文章生成モデルM1を学習させてよい。このようにして、モデル生成部134は、事前学習用フレーム特徴量#1に基づいて、事前学習用フレーム特徴量#1と対応する特徴を有する動画説明文を生成するように文章生成モデルM1を学習させてよい。
【0039】
このように、モデル生成部134は、事前学習用フレーム特徴量#1に基づいて、事前学習用フレーム特徴量#1と対応する特徴を有する動画説明文(
図2では、事前学習用動画説明文#1)を生成するように事前に学習された機械学習モデルである事前学習済み文章生成モデルM1を生成する。
【0040】
〔4.第1の追加学習方法〕
図3を用いて、実施形態に係る第1の追加学習方法について説明する。
図3は、実施形態に係る第1の追加学習方法に関する情報処理の一例を示す図である。第1の追加学習は、
図2で説明した事前学習の後に行われる本格的なモデルの学習のことを指す。
【0041】
図3に示すように、第1の追加学習の段階では、(1)公知の動画生成モデルを用いて、画像(静止画像)と画像説明文との組を含む画像文データセットに含まれる画像から動画を生成する。以下では、動画を生成する元となった画像(画像文データセットに含まれる画像)のことを「オリジナルの画像」と記載する場合がある。生成された動画は、オリジナルの画像をフレームに含む。(2)生成された動画を構成する各フレーム画像のうち、オリジナルの画像に対応するフレーム画像を注目箇所として、動画を構成する各フレーム画像に対応する重みを決定する。また、生成された動画を構成する各フレーム画像から画像特徴量を抽出し、各フレーム画像から抽出された画像特徴量を各フレーム画像に対応する重みによって重み付けする。(3)重み付けされた画像特徴量を条件として、条件付き生成モデルである事前学習済み文章生成モデルM1に入力し、重み付けされた画像特徴量に対応する特徴を有する動画説明文を生成するように事前学習済み文章生成モデルM1を再学習させることにより、第1の追加学習済みの文章生成モデルM2を生成する。
【0042】
具体的には、動画生成部131は、撮像画像(以下、「画像#2」と記載する場合がある)と撮像画像の内容を説明する文章である画像説明文(以下、「画像説明文#2」と記載する場合がある)との組を含む画像文データセット#2に基づいて、学習用動画#2を生成してよい。例えば、動画生成部131は、通信部110を介して、外部の情報処理装置から画像文データセット#2を取得してよい。続いて、動画生成部131は、画像から動画を生成する機械学習モデルである第1の動画生成モデルM21を取得してよい。例えば、第1の動画生成モデルM21は、画像から動画を生成する公知の機械学習モデルであってよい(参考文献;“Generating Videos with Scene Dynamics“, Carl Vondrick et al. ,2016 ,<インターネット>https://arxiv.org/pdf/1609.02612.pdf(令和5年2月16日検索))。例えば、動画生成部131は、あらかじめ第1の動画生成モデルM21に関する情報を格納している記憶部120から第1の動画生成モデルM21を取得してよい。続いて、動画生成部131は、画像文データセット#2に含まれる画像#2を第1の動画生成モデルM21に入力して、画像#2から画像#2をフレームに含む学習用動画#2を生成してよい(ステップS21)。
【0043】
このように、動画生成部131は、画像から動画を生成する機械学習モデルである第1の動画生成モデルM21を用いて、画像文データセット#2に含まれる撮像画像(
図3では、画像#2)から、撮像画像をフレームに含む学習用動画#2を生成する。以下では、学習用動画#2を生成する元となった画像#2のことを「オリジナルの画像#2」と記載する場合がある。
【0044】
また、抽出部132は、動画生成部131によって生成された学習用動画#2を構成する複数のフレーム画像それぞれから、学習用動画#2を構成する複数のフレーム画像それぞれの画像特徴量を抽出してよい(ステップS22)。なお、抽出部132が、各フレーム画像から画像特徴量を抽出する方法は、
図2で説明した事前学習において各フレーム画像から画像特徴量を抽出する方法と同様であってよい。以下では、
図2と重複する説明は省略する。
図3では、簡単のため、学習用動画#2を構成するフレーム画像が3つである場合について説明するが、学習用動画#2を構成するフレーム画像の数は4つ以上であってよい。
図3では、学習用動画#2の開始時刻に対応する1枚目のフレーム画像と、学習用動画#2の開始時刻と終了時刻の間の時刻に対応する2枚目のフレーム画像と、学習用動画#2の終了時刻に対応する3枚目のフレーム画像とが時系列順に並んでいる様子を示す。例えば、抽出部132は、1枚目のフレーム画像から特徴量ベクトルV21を抽出する。また、抽出部132は、2枚目のフレーム画像から特徴量ベクトルV22を抽出する。また、抽出部132は、3枚目のフレーム画像から特徴量ベクトルV23を抽出する。続いて、抽出部132は、学習用動画#2を構成する複数のフレーム画像それぞれの画像特徴量である学習用フレーム特徴量#2として、特徴量ベクトルV21~V23の組のベクトル(V21、V22、V23)を取得してよい。
【0045】
このように、抽出部132は、学習用動画#2を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量#2を抽出する。
【0046】
また、決定部133は、動画生成部131によって生成された学習用動画#2を構成する複数のフレーム画像それぞれに対応する重みを決定してよい(ステップS22)。なお、抽出部132が画像特徴量を抽出する処理と、決定部133が重みを決定する処理は、いずれの処理が先に行われてもよく、抽出部132および決定部133によってそれぞれ同時に行われてもよい。
【0047】
例えば、決定部133は、学習用動画#2を構成する複数のフレーム画像のうち、オリジナルの画像#2に対応するフレーム画像の重みをオリジナルの画像#2に対応するフレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する重みを決定してよい。例えば、決定部133は、ガウス関数(正規分布ともいう)や円の一部のような凸状の関数であって、極大値の周囲が微分可能な関数の値に基づいて、複数のフレーム画像それぞれに対応する重みを決定してよい。なお、決定部133は、ガウス関数や円の一部に限らず、極大値の周囲が微分可能な関数であればどのような関数を用いて重みを決定してもよい。例えば、決定部133は、極大値の周囲が微分可能な関数の極大値に対応する値をオリジナルの画像#2に対応するフレーム画像の重みとしてよい。また、決定部133は、極大値の周囲が微分可能な関数の極大値の周辺に対応する値をオリジナルの画像#2に対応するフレーム画像以外の他のフレーム画像に対応する重みとしてよい。
【0048】
図3では、決定部133は、横軸を動画の再生時刻、縦軸を重みとするガウス関数の値を用いて複数のフレーム画像それぞれに対応する重みを決定してよい。例えば、決定部133は、ガウス関数の平均値に対応する時刻をオリジナルの画像#2に対応する2枚目のフレーム画像の再生時刻としてよい。また、決定部133は、ガウス関数の平均値に対応する時刻の値である「1.0」をオリジナルの画像#2に対応する2枚目のフレーム画像の重み#22としてよい。また、決定部133は、ガウス関数の平均値よりも小さい値に対応する時刻を1枚目のフレーム画像の再生時刻としてよい。また、決定部133は、ガウス関数の平均値よりも小さい値に対応する時刻の値である「0.8」を1枚目のフレーム画像の重み#21としてよい。また、決定部133は、ガウス関数の平均値よりも大きい値に対応する時刻を3枚目のフレーム画像の再生時刻としてよい。また、決定部133は、ガウス関数の平均値よりも大きい値に対応する時刻の値である「0.8」を3枚目のフレーム画像の重み#23としてよい。例えば、決定部133は、学習用動画#2を構成する複数のフレーム画像それぞれに対応する重みである学習用重み#2として、1枚目のフレーム画像の重み#21~2枚目のフレーム画像の重み#23の組のベクトル(重み#21、重み#22、重み#23)=(0.8、1.0、0.8)を取得してよい。
【0049】
このように、決定部133は、学習用動画#2を構成する複数のフレーム画像のうち、撮像画像(
図3では、オリジナルの画像#2)に対応する重み(
図3では、2枚目のフレーム画像の重み#22である「1.0」)を撮像画像以外の他のフレーム画像に対応する重み(
図3では、1枚目のフレーム画像の重み#21である「0.8」および3枚目のフレーム画像の重み#23である「0.8」)よりも大きくするように複数のフレーム画像それぞれに対応する学習用重み#2(
図3では、(重み#21、重み#22、重み#23)=(0.8、1.0、0.8))を決定する。また、このように、決定部133は、学習用動画#2を構成する複数のフレーム画像それぞれに対応する重みである学習用重み#2を決定する。
【0050】
また、モデル生成部134は、決定部133によって決定された学習用重み#2によって、抽出部132によって抽出された学習用フレーム特徴量#2を重み付けしてよい。モデル生成部134は、決定部133によって決定された学習用重み#2によって重み付けされた学習用フレーム特徴量#2である、重み付けされた学習用フレーム特徴量#2´を生成してよい。
図3では、モデル生成部134は、学習用動画#2を構成する1枚目のフレーム画像に対応する重み#21である「0.8」を特徴量ベクトルV21の各要素に乗じることにより、重み#21によって重み付けされた特徴量ベクトルV21´を生成してよい。また、モデル生成部134は、学習用動画#2を構成する2枚目のフレーム画像に対応する重み#22である「1.0」を特徴量ベクトルV22の各要素に乗じることにより、重み#22によって重み付けされた特徴量ベクトルV22´を生成してよい。また、モデル生成部134は、学習用動画#2を構成する3枚目のフレーム画像に対応する重み#23である「0.8」を特徴量ベクトルV23の各要素に乗じることにより、重み#23によって重み付けされた特徴量ベクトルV23´を生成してよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量#2´を生成してよい。
図3では、モデル生成部134は、重み付けされた学習用フレーム特徴量#2´として、(重み#21、重み#22、重み#23)*(V21、V22、V23)=(重み#21*V21、重み#22*V22、重み#23*V23)=(V21´、V22´、V23´)を生成してよい。
【0051】
続いて、モデル生成部134は、重み付けされた学習用フレーム特徴量#2´を事前学習済み文章生成モデルM1(以下、「文章生成モデルM1」と略記する場合がある)に入力してよい(ステップS23)。例えば、モデル生成部134は、重み付けされた学習用フレーム特徴量#2´に基づく条件ベクトル#2を生成してよい。続いて、モデル生成部134は、生成した条件ベクトル#2とノイズベクトルを結合してよい。なお、モデル生成部134が、条件ベクトル#2とノイズベクトルを結合する方法は、
図2で説明した事前学習において条件ベクトル#1とノイズベクトルを結合する方法と同様であってよい。以下では、
図2と重複する説明は省略する。続いて、モデル生成部134は、結合された条件ベクトル#2とノイズベクトルを入力情報として条件付き生成モデルである文章生成モデルM1に入力してよい。
【0052】
続いて、モデル生成部134は、結合された条件ベクトル#2とノイズベクトルの入力に応じて文章生成モデルM1が生成した動画説明文であって、文章生成モデルM1から出力情報として出力された動画説明文(以下、「学習用動画説明文#2」と記載する場合がある)を取得してよい(ステップS24)。モデル生成部134は、条件ベクトル#2に基づいて、条件ベクトル#2と対応する特徴を有する動画説明文を生成するように文章生成モデルM1を再学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、文章生成モデルM1から出力された学習用動画説明文#2と、画像文データセット#2に含まれる画像説明文#2(オリジナルの画像#2に対応する画像説明文)との誤差が小さくなるように文章生成モデルM1を再学習させてよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量#2´に基づいて、重み付けされた学習用フレーム特徴量#2´と対応する特徴を有する動画説明文を生成するように文章生成モデルM1を再学習させてよい。
【0053】
このように、モデル生成部134は、学習用フレーム特徴量#2と学習用重み#2とに基づいて、学習用動画の内容を説明する文章である学習用動画説明文#2であって、学習用重み#2によって重み付けされた学習用フレーム特徴量#2´と対応する特徴を有する学習用動画説明文#2を生成するように事前学習済み文章生成モデルM1を再学習させることにより、文章生成モデルM2を生成する。
【0054】
図4は、実施形態に係る重みによってフレーム特徴量を重み付けする方法について説明するための図である。フレーム特徴量は、画像の各ピクセルに対応する値を持ってよい。
図4に示す例では、簡単のため、画像の画素が3×3の行列で表される場合について説明する。このとき、フレーム特徴量は、3×3の行列で表されてよい。また、簡単のため、重みの値を「3」とする。このとき、モデル生成部134は、フレーム特徴量の各要素(3×3の行列の各要素)に重みの値である「3」を乗じることにより、重み付けされたフレーム特徴量を生成する。
【0055】
〔5.第2の追加学習方法〕
図4を用いて、実施形態に係る第2の追加学習方法について説明する。
図5は、実施形態に係る第2の追加学習方法に関する情報処理の一例を示す図である。第2の追加学習は、
図2で説明した事前学習の後に行われる本格的なモデルの学習のことを指す。
図5では、モデル生成部134は、第1の追加学習の代わりに、第2の追加学習により、事前学習済み文章生成モデルM1を再学習させる点が
図3と異なる。
【0056】
図5に示すように、第2の追加学習の段階では、(1)公知の動画生成モデルを用いて、画像(静止画像)と画像説明文との組を含む画像文データセットに含まれる画像説明文から動画を生成する。以下では、動画を生成する元となった画像説明文に対応する画像(画像文データセットに含まれる画像)のことを「オリジナルの画像」と記載する場合がある。(2)生成された動画を構成する各フレーム画像とオリジナルの画像との類似度を算出し、算出された類似度を、動画を構成する各フレーム画像に対応する重みとする。また、生成された動画を構成する各フレーム画像から画像特徴量を抽出し、各フレーム画像から抽出された画像特徴量を各フレーム画像に対応する重みによって重み付けする。(3)重み付けされた画像特徴量を条件として、条件付き生成モデルである事前学習済み文章生成モデルM1に入力し、重み付けされた画像特徴量に対応する特徴を有する動画説明文を生成するように事前学習済み文章生成モデルM1を再学習させることにより、第2の追加学習済みの文章生成モデルM3を生成する。
【0057】
具体的には、動画生成部131は、撮像画像(以下、「画像#3」と記載する場合がある)と撮像画像の内容を説明する文章である画像説明文(以下、「画像説明文#3」と記載する場合がある)との組を含む画像文データセット#3に基づいて、学習用動画#3を生成してよい。例えば、動画生成部131は、通信部110を介して、外部の情報処理装置から画像文データセット#3を取得してよい。続いて、動画生成部131は、文章から動画を生成する機械学習モデルである第2の動画生成モデルM31を取得してよい。例えば、第2の動画生成モデルM31は、文章から動画を生成する公知の機械学習モデルであってよい(参考文献;“ CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers “, Wenyi Hong et al,2022) ,<インターネット>https://arxiv.org/pdf/2205.15868.pdf(令和5年2月16日検索))。例えば、動画生成部131は、あらかじめ第2の動画生成モデルM31に関する情報を格納している記憶部120から第2の動画生成モデルM31を取得してよい。続いて、動画生成部131は、画像文データセット#3に含まれる画像説明文#3を第2の動画生成モデルM31に入力して、画像説明文#3から学習用動画#3を生成してよい(ステップS31)。
【0058】
このように、動画生成部131は、文章から動画を生成する機械学習モデルである第2の動画生成モデルM31を用いて、画像文データセット#3に含まれる画像説明文#3から学習用動画#3を生成する。以下では、学習用動画#3を生成する元となった画像説明文#3と対応する画像#3(画像文データセット#3に含まれる画像#3)のことを「オリジナルの画像#3」と記載する場合がある。
【0059】
また、抽出部132は、動画生成部131によって生成された学習用動画#3を構成する複数のフレーム画像それぞれから、学習用動画#3を構成する複数のフレーム画像それぞれの画像特徴量を抽出してよい(ステップS32)。なお、
図3と同様に、抽出部132が、各フレーム画像から画像特徴量を抽出する方法は、
図2で説明した事前学習において各フレーム画像から画像特徴量を抽出する方法と同様であってよい。以下では、
図2と重複する説明は省略する。
図5では、簡単のため、学習用動画#3を構成するフレーム画像が3つである場合について説明するが、学習用動画#3を構成するフレーム画像の数は4つ以上であってよい。
図5では、学習用動画#3の開始時刻に対応する1枚目のフレーム画像と、学習用動画#3の開始時刻と終了時刻の間の時刻に対応する2枚目のフレーム画像と、学習用動画#3の終了時刻に対応する3枚目のフレーム画像とが時系列順に並んでいる様子を示す。例えば、抽出部132は、1枚目のフレーム画像から特徴量ベクトルV31を抽出する。また、抽出部132は、2枚目のフレーム画像から特徴量ベクトルV32を抽出する。また、抽出部132は、3枚目のフレーム画像から特徴量ベクトルV33を抽出する。続いて、抽出部132は、学習用動画#3を構成する複数のフレーム画像それぞれの画像特徴量である学習用フレーム特徴量#3として、特徴量ベクトルV31~V33の組のベクトル(V31、V32、V33)を取得してよい。
【0060】
このように、抽出部132は、学習用動画#3を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量#3を抽出する。
【0061】
また、決定部133は、動画生成部131によって生成された学習用動画#3を構成する複数のフレーム画像それぞれに対応する重みを決定してよい(ステップS32)。なお、
図3と同様に、抽出部132が画像特徴量を抽出する処理と、決定部133が重みを決定する処理は、いずれの処理が先に行われてもよく、抽出部132および決定部133によってそれぞれ同時に行われてもよい。
【0062】
例えば、決定部133は、学習用動画#3を構成する複数のフレーム画像それぞれとオリジナルの画像#3との類似度に基づいて、複数のフレーム画像それぞれに対応する重みを決定してよい。
図5では、決定部133は、1枚目のフレーム画像とオリジナルの画像#3との類似度#31を「0.1」と算出する。続いて、決定部133は、算出された類似度#31の値である「0.1」を1枚目のフレーム画像の重み#31としてよい。また、決定部133は、2枚目のフレーム画像とオリジナルの画像#3との類似度#32を「0.7」と算出する。続いて、決定部133は、算出された類似度#32の値である「0.7」を2枚目のフレーム画像の重み#32としてよい。また、決定部133は、3枚目のフレーム画像とオリジナルの画像#3との類似度#33を「0.2」と算出する。続いて、決定部133は、算出された類似度#33の値である「0.2」を3枚目のフレーム画像の重み#33としてよい。例えば、決定部133は、学習用動画#3を構成する複数のフレーム画像それぞれに対応する重みである学習用重み#3として、1枚目のフレーム画像の重み#31~2枚目のフレーム画像の重み#33の組のベクトル(重み#31、重み#32、重み#33)=(類似度#31、類似度#32、類似度#33)=(0.1、0.7、0.2)を取得してよい。
【0063】
このように、決定部133は、学習用動画#3を構成する複数のフレーム画像(
図5では、1枚目のフレーム画像~3枚目のフレーム画像)それぞれと撮像画像(
図5では、オリジナルの画像#3)との類似度(
図5では、(類似度#31、類似度#32、類似度#33)=(0.1、0.7、0.2))に関する情報を複数のフレーム画像それぞれに対応する学習用重み#3(
図5では、(重み#31、重み#32、重み#33)=(0.1、0.7、0.2))とする。また、このように、決定部133は、学習用動画#3を構成する複数のフレーム画像それぞれに対応する重みである学習用重み#3を決定する。
【0064】
また、モデル生成部134は、決定部133によって決定された学習用重み#3によって、抽出部132によって抽出された学習用フレーム特徴量#3を重み付けしてよい。モデル生成部134は、決定部133によって決定された学習用重み#3によって重み付けされた学習用フレーム特徴量#3である、重み付けされた学習用フレーム特徴量#3´を生成してよい。
図5では、モデル生成部134は、学習用動画#3を構成する1枚目のフレーム画像に対応する重み#31である「0.1」を特徴量ベクトルV31の各要素に乗じることにより、重み#31によって重み付けされた特徴量ベクトルV31´を生成してよい。また、モデル生成部134は、学習用動画#3を構成する2枚目のフレーム画像に対応する重み#32である「0.7」を特徴量ベクトルV32の各要素に乗じることにより、重み#32によって重み付けされた特徴量ベクトルV32´を生成してよい。また、モデル生成部134は、学習用動画#3を構成する3枚目のフレーム画像に対応する重み#33である「0.2」を特徴量ベクトルV33の各要素に乗じることにより、重み#33によって重み付けされた特徴量ベクトルV33´を生成してよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量#3´を生成してよい。
図5では、モデル生成部134は、重み付けされた学習用フレーム特徴量#3´として、(重み#31、重み#32、重み#33)*(V31、V32、V33)=(重み#31*V31、重み#32*V32、重み#33*V33)=(V31´、V32´、V33´)を生成してよい。
【0065】
続いて、モデル生成部134は、重み付けされた学習用フレーム特徴量#3´を事前学習済み文章生成モデルM1(以下、「文章生成モデルM1」と略記する場合がある)に入力してよい(ステップS33)。例えば、モデル生成部134は、重み付けされた学習用フレーム特徴量#3´に基づく条件ベクトル#3を生成してよい。続いて、モデル生成部134は、生成した条件ベクトル#3とノイズベクトルを結合してよい。なお、モデル生成部134が、条件ベクトル#3とノイズベクトルを結合する方法は、
図2で説明した事前学習において条件ベクトル#1とノイズベクトルを結合する方法と同様であってよい。以下では、
図2と重複する説明は省略する。続いて、モデル生成部134は、結合された条件ベクトル#3とノイズベクトルを入力情報として条件付き生成モデルである文章生成モデルM1に入力してよい。
【0066】
続いて、モデル生成部134は、結合された条件ベクトル#3とノイズベクトルの入力に応じて文章生成モデルM1が生成した動画説明文であって、文章生成モデルM1から出力情報として出力された動画説明文(以下、「学習用動画説明文#3」と記載する場合がある)を取得してよい(ステップS34)。モデル生成部134は、条件ベクトル#3に基づいて、条件ベクトル#3と対応する特徴を有する動画説明文を生成するように文章生成モデルM1を再学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、文章生成モデルM1から出力された学習用動画説明文#3と、画像文データセット#3に含まれる画像説明文#3(オリジナルの画像#3に対応する画像説明文)との誤差が小さくなるように文章生成モデルM1を再学習させてよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量#3´に基づいて、重み付けされた学習用フレーム特徴量#3´と対応する特徴を有する動画説明文を生成するように文章生成モデルM1を再学習させてよい。
【0067】
このように、モデル生成部134は、学習用フレーム特徴量#3と学習用重み#3とに基づいて、学習用動画#3の内容を説明する文章である学習用動画説明文#3であって、学習用重み#3によって重み付けされた学習用フレーム特徴量#3´と対応する特徴を有する学習用動画説明文#3を生成するように事前学習済み文章生成モデルM1を再学習させることにより、文章生成モデルM3を生成する。
【0068】
図6は、実施形態に係る類似度を算出する方法について説明するための図である。フレーム画像およびオリジナルの画像#3は、画像の各ピクセルに対応する画素値を持っている。
図6に示す例では、簡単のため、画像の画素が3×3の行列で表される場合について説明する。
図6の左側は、学習用動画#3を構成する複数のフレーム画像のうちの一のフレーム画像を示す。
図6の右側は、オリジナルの画像#3を示す。このとき、決定部133は、一のフレーム画像とオリジナルの画像#3の類似度として、一のフレーム画像とオリジナルの画像#3とのコサイン類似度を算出してよい。例えば、決定部133は、下記に示す数式(1)に従って、一のフレーム画像とオリジナルの画像#3とのコサイン類似度を算出してよい。
【0069】
【0070】
例えば、決定部133は、上記の数式(1)に従って、一のフレーム画像とオリジナルの画像#3とのコサイン類似度を「{(1.2*0.2)+(2.4*7.2)+((-2.3)*0.9)+(0.8*(-2.4))+((-1.3)*(-3.9))+((-1.2)*(-3.6))+(2.0*6.0)+((-3.2)*9.6)+(0.3*1.9)}/{1.22+2.42+((-2.3))2+0.82+((-1.3))2+((-1.2))2+2.02+((-3.2))2+0.32}1/2{0.22+7.22+0.92+((-2.4))2+((-3.9))2+((-3.6))2+6.02+9.62+1.92}1/2=0.05」と算出してよい。
【0071】
〔6.推論方法〕
図7を用いて、実施形態に係る推論方法について説明する。
図7は、実施形態に係る推論方法に関する情報処理の一例を示す図である。推論の段階では、
図3で説明した第1の追加学習済みの文章生成モデルM2、または、
図5で説明した第2の追加学習済みの文章生成モデルM3を用いて、処理対象の動画である対象動画の内容を説明する文章である対象動画説明文を生成する。
図7では、文章生成部136が、第1の追加学習済みの文章生成モデルM2(以下、「文章生成モデルM2」と略記する場合がある)を用いて対象動画説明文を生成する場合について説明する。なお、文章生成部136は、文章生成モデルM2の代わりに、第2の追加学習済みの文章生成モデルM3(以下、「文章生成モデルM3」と略記する場合がある)を用いて対象動画説明文を生成してもよい。
【0072】
図7に示すように、推論の段階では、(1)対象動画を構成する各フレーム画像から画像特徴量を抽出する。(2)利用者から注目するフレーム画像(以下、「指定フレーム画像」と記載する場合がある)の指定を受け付け、指定フレーム画像に対応する重みが最大となるように複数のフレーム画像それぞれに対応する重みを決定する。(3)各フレーム画像から抽出された画像特徴量を各フレーム画像に対応する重みによって重み付けする。重み付けされた画像特徴量を条件として、条件付き生成モデルである文章生成モデルM2に入力する。(4)文章生成モデルM2によって対象動画説明文を生成する。
【0073】
具体的には、抽出部132は、処理対象の動画である対象動画#4を取得してよい。例えば、抽出部132は、通信部110を介して、利用者によって使用される情報処理装置から対象動画#4を取得してよい。続いて、抽出部132は、対象動画#4を構成する複数のフレーム画像それぞれから、対象動画#4を構成する複数のフレーム画像それぞれの画像特徴量を抽出してよい(ステップS41)。なお、
図3および
図5と同様に、抽出部132が、各フレーム画像から画像特徴量を抽出する方法は、
図2で説明した事前学習において各フレーム画像から画像特徴量を抽出する方法と同様であってよい。以下では、
図2と重複する説明は省略する。
図7では、簡単のため、対象動画#4を構成するフレーム画像が3つである場合について説明するが、対象動画#4を構成するフレーム画像の数は4つ以上であってよい。
図7では、対象動画#4の開始時刻に対応する1枚目のフレーム画像と、対象動画#4の開始時刻と終了時刻の間の時刻に対応する2枚目のフレーム画像と、対象動画#4の終了時刻に対応する3枚目のフレーム画像とが時系列順に並んでいる様子を示す。例えば、抽出部132は、1枚目のフレーム画像から特徴量ベクトルV41を抽出する。また、抽出部132は、2枚目のフレーム画像から特徴量ベクトルV42を抽出する。また、抽出部132は、3枚目のフレーム画像から特徴量ベクトルV43を抽出する。続いて、抽出部132は、対象動画#4を構成する複数のフレーム画像それぞれの画像特徴量である対象フレーム特徴量#4として、特徴量ベクトルV41~V43の組のベクトル(V41、V42、V43)を取得してよい。
【0074】
このように、抽出部132は、処理対象の動画である対象動画#4を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量#4を抽出する。
【0075】
また、決定部133は、対象動画#4を構成する複数のフレーム画像の中から利用者によって指定されたフレーム画像(以下、「指定フレーム画像#4」と記載する場合がある)および対象動画#4を取得してよい。例えば、決定部133は、通信部110を介して、利用者によって使用される情報処理装置から指定フレーム画像#4および対象動画#4を取得してよい。続いて、決定部133は、対象動画#4を構成する複数のフレーム画像それぞれに対応する重みを決定してよい(ステップS41)。なお、
図3および
図5と同様に、抽出部132が画像特徴量を抽出する処理と、決定部133が重みを決定する処理は、いずれの処理が先に行われてもよく、抽出部132および決定部133によってそれぞれ同時に行われてもよい。
【0076】
例えば、決定部133は、対象動画#4を構成する複数のフレーム画像のうち、指定フレーム画像#4に対応するフレーム画像の重みを指定フレーム画像#4に対応するフレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する重みを決定してよい。例えば、決定部133は、ガウス関数や円の一部のような凸状の関数であって、極大値の周囲が微分可能な関数の値に基づいて、複数のフレーム画像それぞれに対応する重みを決定してよい。
図7では、決定部133は、
図3と同様に、横軸を動画の再生時刻、縦軸を重みとするガウス関数の値を用いて複数のフレーム画像それぞれに対応する重みを決定してよい。例えば、決定部133は、ガウス関数の平均値に対応する時刻を指定フレーム画像#4に対応する2枚目のフレーム画像の再生時刻としてよい。また、決定部133は、ガウス関数の平均値に対応する時刻の値である「1.0」を指定フレーム画像#4に対応する2枚目のフレーム画像の重み#42としてよい。また、決定部133は、ガウス関数の平均値よりも小さい値に対応する時刻を1枚目のフレーム画像の再生時刻としてよい。また、決定部133は、ガウス関数の平均値よりも小さい値に対応する時刻の値である「0.8」を1枚目のフレーム画像の重み#41としてよい。また、決定部133は、ガウス関数の平均値よりも大きい値に対応する時刻を3枚目のフレーム画像の再生時刻としてよい。また、決定部133は、ガウス関数の平均値よりも大きい値に対応する時刻の値である「0.8」を3枚目のフレーム画像の重み#43としてよい。例えば、決定部133は、対象動画#4を構成する複数のフレーム画像それぞれに対応する重みである対象重み#4として、1枚目のフレーム画像の重み#41~2枚目のフレーム画像の重み#43の組のベクトル(重み#41、重み#42、重み#43)=(0.8、1.0、0.8)を取得してよい。
【0077】
このように、決定部133は、対象動画#4を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像#4に対応する重み(
図7では、2枚目のフレーム画像の重み#42である「1.0」)を指定フレーム画像以外の他のフレーム画像に対応する重み(
図7では、1枚目のフレーム画像の重み#41である「0.8」および3枚目のフレーム画像の重み#43である「0.8」)よりも大きくするように複数のフレーム画像それぞれに対応する重みである対象重み#4を決定する。また、このように、決定部133は、対象動画#4を構成する複数のフレーム画像それぞれに対応する重みである対象重み#4を決定する。
【0078】
また、文章生成部136は、決定部133によって決定された対象重み#4によって、抽出部132によって抽出された対象フレーム特徴量#4を重み付けしてよい。文章生成部136は、決定部133によって決定された対象重み#4によって重み付けされた対象フレーム特徴量#4である、重み付けされた対象フレーム特徴量#4´を生成してよい。
図7では、文章生成部136は、対象動画#4を構成する1枚目のフレーム画像に対応する重み#41である「0.8」を特徴量ベクトルV41の各要素に乗じることにより、重み#41によって重み付けされた特徴量ベクトルV41´を生成してよい。また、文章生成部136は、対象動画#4を構成する2枚目のフレーム画像に対応する重み#42である「1.0」を特徴量ベクトルV42の各要素に乗じることにより、重み#42によって重み付けされた特徴量ベクトルV42´を生成してよい。また、文章生成部136は、対象動画#4を構成する3枚目のフレーム画像に対応する重み#43である「0.8」を特徴量ベクトルV43の各要素に乗じることにより、重み#43によって重み付けされた特徴量ベクトルV43´を生成してよい。このようにして、文章生成部136は、重み付けされた対象フレーム特徴量#4´を生成してよい。
図7では、文章生成部136は、重み付けされた対象フレーム特徴量#4´として、(重み#41、重み#42、重み#43)*(V41、V42、V43)=(重み#41*V41、重み#42*V42、重み#43*V43)=(V41´、V42´、V43´)を生成してよい。
【0079】
また、取得部135は、文章生成モデルM2を取得してよい。例えば、取得部135は、文章生成モデルM2に関する情報を格納している記憶部120から文章生成モデルM2を取得してよい。
【0080】
このように、取得部135は、撮像画像(
図7では、
図3で説明した画像#2)と撮像画像の内容を説明する文章である画像説明文(
図7では、
図3で説明した画像説明文#2)との組を含む画像文データセット#2に基づいて生成された学習用動画#2を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量#2と、学習用動画#2を構成する複数のフレーム画像それぞれに対応する重みである学習用重み#2とに基づいて、学習用動画#2の内容を説明する文章である学習用動画説明文#2であって、学習用重み#2によって重み付けされた学習用フレーム特徴量#2と対応する特徴を有する学習用動画説明文#2を生成するように学習された機械学習モデルである文章生成モデルM2を取得する。
【0081】
また、文章生成部136は、取得部135によって取得された文章生成モデルM2に重み付けされた対象フレーム特徴量#4´を入力してよい(ステップS42)。例えば、文章生成部136は、重み付けされた対象フレーム特徴量#4´に基づく条件ベクトル#4を生成してよい。続いて、文章生成部136は、生成した条件ベクトル#4とノイズベクトルを結合してよい。なお、文章生成部136が、条件ベクトル#4とノイズベクトルを結合する方法は、
図2で説明した事前学習において条件ベクトル#1とノイズベクトルを結合する方法と同様であってよい。以下では、
図2と重複する説明は省略する。続いて、文章生成部136は、結合された条件ベクトル#4とノイズベクトルを入力情報として条件付き生成モデルである文章生成モデルM2に入力してよい。
【0082】
続いて、文章生成部136は、結合された条件ベクトル#4とノイズベクトルの入力に応じて文章生成モデルM2が生成した動画説明文であって、文章生成モデルM2から出力情報として出力された動画説明文(以下、「対象動画説明文#4」と記載する場合がある)を取得してよい(ステップS43)。
【0083】
このように、文章生成部136は、対象フレーム特徴量#4と対象重み#4とに基づいて、対象重みによって重み付けされた対象フレーム特徴量#4´を文章生成モデルM2に入力して、対象動画#4の内容を説明する文章である対象動画説明文#4を生成する。
【0084】
〔7.文章生成モデルの例〕
図8は、実施形態に係る文章生成モデルの一例である条件付き敵対的生成ネットワーク(CGAN)を示す図である。
図8に示すように、文章生成モデルは、生成器ネットワークG1および識別器ネットワークD1を含む条件付き敵対的生成ネットワークであってよい。
図8では、
図3で説明した第1の追加学習または
図5で説明した第2の追加学習について説明する。
【0085】
図8に示す生成器ネットワークG1は、時系列データであるテキストの生成に向いている機械学習モデルであってよい。例えば、生成器ネットワークG1は、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、GRU(Gated Recurrent Unit)、LSTM(Long Short Term Memory)、Transformer(Ashish Vaswani et al., 2017)、TransformerをベースとしたBERT(Bidirectional Encoder Representations from Transformers)、GPT-3(Generative Pre-Training3)またはT5(Text-to-Text Transfer Transformer)等であってよい。
【0086】
まず、モデル生成部134は、
図2で説明した事前学習により、生成器ネットワークG1および識別器ネットワークD1を含む条件付き敵対的生成ネットワークを学習させてよい。例えば、モデル生成部134は、事前学習用フレーム特徴量#50に基づく条件ベクトルである事前学習用敵対的条件ベクトルV50を生成してよい。続いて、モデル生成部134は、事前学習用敵対的条件ベクトルV50およびノイズベクトルを入力情報として生成器ネットワークG1に入力した場合に、事前学習用敵対的条件ベクトルV50と対応する特徴を有する動画説明文を生成するように生成器ネットワークG1を学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、生成器ネットワークG1から出力された動画説明文と、動画文データセット#50に含まれる事前学習用動画説明文#50との誤差が小さくなるように生成器ネットワークG1を学習させてよい。このように、モデル生成部134は、事前学習用フレーム特徴量#50に基づいて、事前学習用フレーム特徴量#50と対応する特徴を有する動画説明文を生成するように事前に学習された事前学習済み生成器ネットワークG1を生成してよい。
【0087】
また、モデル生成部134は、事前学習用敵対的条件ベクトル#および事前学習用動画説明文#50を入力情報として識別器ネットワークD1に入力した場合に、事前学習用動画説明文#50が、真の動画説明文であって、かつ、事前学習用敵対的条件ベクトルV50と対応する動画説明文であることを示す情報(例えば、数字の「1」など)を出力情報として出力するように識別器ネットワークD1を学習させてよい。なお、モデル生成部134は、例えば、線形変換処理を用いて、事前学習用敵対的条件ベクトルV50と事前学習用動画説明文#50のサイズが同じになるように調整してよい。続いて、モデル生成部134は、事前学習用敵対的条件ベクトルV50と事前学習用動画説明文#50を結合し、結合された事前学習用敵対的条件ベクトルV50と事前学習用動画説明文#50を入力情報として識別器ネットワークD1に入力してよい。また、モデル生成部134は、事前学習用敵対的条件ベクトルV50および生成器ネットワークG1が生成した偽の動画説明文を入力情報として識別器ネットワークD1に入力した場合に、生成器ネットワークG1が生成した偽の動画説明文が、真の動画説明文であって、かつ、事前学習用敵対的条件ベクトルV50と対応する動画説明文であることを示す情報以外の情報(例えば、数字の「0」など)を出力情報として出力するように識別器ネットワークD1を学習させてよい。このように、モデル生成部134は、事前学習用フレーム特徴量#50に基づいて、事前に学習された事前学習済み識別器ネットワークD1を生成してよい。
【0088】
また、モデル生成部134は、
図3で説明した第1の追加学習または
図5で説明した第2の追加学習により、事前学習済み生成器ネットワークG1(以下、「生成器ネットワークG1」と略記する場合がある)および事前学習済み識別器ネットワークD1(以下、「識別器ネットワークD1」と略記する場合がある)を再学習させてよい。
【0089】
図8では、モデル生成部134は、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである第1の学習用敵対的条件ベクトルV51(以下、「第1の敵対的条件ベクトルV51」と略記する場合がある)を生成してよい。続いて、モデル生成部134は、第1の敵対的条件ベクトルV51およびノイズベクトルN1を入力情報として生成器ネットワークG1に入力した場合に、第1の敵対的条件ベクトルV51と対応する特徴を有する動画説明文(
図8では、学習用動画説明文#51)を生成するよう生成器ネットワークG1を再学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、生成器ネットワークG1から出力された学習用動画説明文#51と、画像文データセット#51に含まれる画像説明文#51(オリジナルの画像#51に対応する画像説明文)との誤差が小さくなるように生成器ネットワークG1を再学習させてよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量に基づいて、重み付けされた学習用フレーム特徴量と対応する特徴を有する動画説明文を生成するように生成器ネットワークG1を再学習させてよい。このようにして、モデル生成部134は、第1の追加学習済みまたは第2の追加学習済みの生成器ネットワークG1を生成してよい。
【0090】
また、モデル生成部134は、第1の敵対的条件ベクトルV51および生成器ネットワークG1が生成した偽の動画説明文である学習用動画説明文#51を入力情報として識別器ネットワークD1に入力した場合に、学習用動画説明文#51が、真の動画説明文であって、かつ、第1の敵対的条件ベクトルV51と対応する動画説明文であることを示す情報以外の情報(例えば、数字の「0」など)を出力情報として出力するように識別器ネットワークD1を再学習させてよい。また、モデル生成部134は、事前学習用動画#52と事前学習用動画説明文#52との組を含む動画文データセット#52に含まれる事前学習用動画#52を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量#52に基づく条件ベクトルである第2の学習用敵対的条件ベクトルV52(以下、「第2の敵対的条件ベクトルV52」と略記する場合がある)を生成してよい。続いて、モデル生成部134は、第2の敵対的条件ベクトルV52および事前学習用動画説明文#52を入力情報として識別器ネットワークD1に入力した場合に、事前学習用動画説明文#52が、真の動画説明文であって、かつ、第2の敵対的条件ベクトルV52と対応する動画説明文であることを示す情報(例えば、数字の「1」など)を出力情報として出力するように識別器ネットワークD1を再学習させてよい。このようにして、モデル生成部134は、第1の追加学習済みまたは第2の追加学習済みの識別器ネットワークD1を生成してよい。
【0091】
また、文章生成部136は、対象重みによって重み付けされた対象フレーム特徴量に基づく条件ベクトルである敵対的条件ベクトルV53を生成してよい。続いて、モデル生成部134は、敵対的条件ベクトルV53およびノイズベクトルN2を入力情報として生成器ネットワークG1に入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。このようにして、文章生成部136は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を、第1の追加学習済みまたは第2の追加学習済みの生成器ネットワークG1に入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。
【0092】
〔8.変形例〕
上述した実施形態に係る処理は、上記実施形態以外にも種々の異なる形態にて実施されてよい。。
【0093】
〔8-1.第1の変形例〕
上述した実施形態では、文章生成モデルが、生成器ネットワークおよび識別器ネットワークを含む条件付き敵対的生成ネットワークである場合について説明した。第1の変形例では、文章生成モデルが、エンコーダおよびデコーダを含む条件付き変分オートエンコーダである場合について説明する。
【0094】
図9は、第1の変形例に係る文章生成モデルの一例である条件付き変分オートエンコーダ(CVAE)を示す図である。
図9に示すように、文章生成モデルは、エンコーダEN1およびデコーダDE1を含む条件付き変分オートエンコーダであってよい。
図9では、
図2で説明した事前学習について説明する。
【0095】
まず、モデル生成部134は、
図2で説明した事前学習により、エンコーダEN1およびデコーダDE1を含む条件付き条件付き変分オートエンコーダを学習させてよい。例えば、モデル生成部134は、事前学習用フレーム特徴量#60に基づく条件ベクトルである事前学習用変分条件ベクトルV60(以下、「変分条件ベクトルV60」と略記する場合がある)を生成してよい。続いて、モデル生成部134は、変分条件ベクトルV60および事前学習用動画説明文#60を入力情報としてエンコーダEN1に入力した場合に、多変量正規分布における平均ベクトルμおよび分散ベクトルσを出力情報として出力するようにエンコーダEN1を学習させてよい。また、モデル生成部134は、平均ベクトルμおよび分散ベクトルσに基づく多変量正規分布に従う標本である潜在ベクトルzを決定してよい。なお、モデル生成部134は、標準正規分布からランダムにサンプリングして得る確率変数εを導入し、これを用いて潜在ベクトルzを決定してよい。続いて、モデル生成部134は、潜在ベクトルzおよび変分条件ベクトルV60を入力情報としてデコーダDE1に入力した場合に、変分条件ベクトルV60と対応する特徴を有する動画説明文(
図9では、事前学習用動画説明文#60)を出力情報として出力するようにデコーダDE1を学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、エンコーダEN1に入力された事前学習用動画説明文#60と、デコーダDE1から出力された動画説明文との誤差が小さくなるようにエンコーダEN1およびデコーダDE1を学習させてよい。このように、モデル生成部134は、事前学習用フレーム特徴量#60に基づいて、事前学習用フレーム特徴量#60と対応する特徴を有する動画説明文を生成するように事前に学習された事前学習済みデコーダDE1を生成してよい。
【0096】
また、モデル生成部134は、
図3で説明した第1の追加学習または
図5で説明した第2の追加学習により、事前学習済みデコーダDE1(以下、「デコーダDE1」と略記する場合がある)を再学習させてよい。
【0097】
例えば、モデル生成部134は、エンコーダEN1から出力された平均ベクトルμおよび分散ベクトルσに基づく多変量正規分布に従う標本である潜在ベクトルzを決定してよい。また、モデル生成部134は、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである学習用変分条件ベクトルV61(以下、「変分条件ベクトルV61」と略記する場合がある)を生成してよい。続いて、モデル生成部134は、潜在ベクトルzおよび変分条件ベクトルV61を入力情報としてデコーダDE1に入力した場合に、変分条件ベクトルV61と対応する特徴を有する動画説明文を出力情報として出力するようにデコーダDE1を再学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、デコーダDE1から出力された学習用動画説明文#61と、画像文データセット#61に含まれる画像説明文#61(オリジナルの画像#61に対応する画像説明文)との誤差が小さくなるようにデコーダDE1を再学習させてよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量に基づいて、重み付けされた学習用フレーム特徴量と対応する特徴を有する動画説明文を生成するようにデコーダDE1を再学習させてよい。このようにして、モデル生成部134は、第1の追加学習済みまたは第2の追加学習済みのデコーダDE1を生成してよい。
【0098】
また、文章生成部136は、対象重みによって重み付けされた対象フレーム特徴量に基づく条件ベクトルである変分条件ベクトルV62を生成してよい。続いて、モデル生成部134は、潜在ベクトルzおよび変分条件ベクトルV62を入力情報としてデコーダDE1に入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。このようにして、文章生成部136は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を、第1の追加学習済みまたは第2の追加学習済みのデコーダDE1に入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。
【0099】
〔8-2.第2の変形例〕
上述した実施形態では、文章生成モデルが、生成器ネットワークおよび識別器ネットワークを含む条件付き敵対的生成ネットワークである場合について説明した。また、第1の変形例では、文章生成モデルが、エンコーダおよびデコーダを含む条件付き変分オートエンコーダである場合について説明した。第2の変形例では、文章生成モデルが、条件付き拡散モデルである場合について説明する。
【0100】
図10は、第2の変形例に係る文章生成モデルの一例である条件付き拡散モデルを示す図である。
図10に示すように、文章生成モデルは、条件付き拡散モデルであってよい。
図10では、
図3で説明した第1の追加学習または
図5で説明した第2の追加学習について説明する。
【0101】
図10では、条件付き拡散モデルの学習処理に用いるデータの一例として、初期の動画説明文x
0に対してノイズが段階的に付与された複数のノイズ付き動画説明文を示す。モデル生成部134は、
図10に示す複数のノイズ付き動画説明文を含む学習用データを用いて条件付き拡散モデルを学習させる。
図10では、初期の動画説明文x
0は、ノイズの付与に関する段階が段階#0である。すなわち、ノイズが付加されていない動画説明文である。モデル生成部134は、初期の動画説明文x
0に徐々にガウスノイズを足していき、最終的に純粋なガウスノイズx
Tを得る過程(拡散過程)において、初期の動画説明文x
0に対して何度か微小なノイズが付加されたノイズ付き動画説明文x
t-1を生成する。ノイズ付き動画説明文x
t-1は、ノイズの付与に関する段階が段階#t-1である。すなわち、初期の動画説明文x
0に対してノイズがt-1段階付与された動画説明文である。続いて、モデル生成部134は、ノイズ付き動画説明文x
t-1に微小なノイズが付加されたノイズ付き動画説明文x
tを生成する。ノイズ付き動画説明文x
tは、ノイズ付き動画説明文x
t-1に対してノイズがさらに1段階付加された動画説明文である。ノイズ付き動画説明文x
tは、ノイズの付与に関する段階が段階#tである。すなわち、初期の動画説明文x
0に対してノイズがt段階付与された動画説明文である。例えば、ノイズ付き動画説明文x
tは、ノイズ付き動画説明文x
t-1にノイズを付与するノイズ付与処理により生成される。
図10に示すq(x
t|x
t-1)は、ノイズ付き動画説明文x
t-1からノイズ付き動画説明文x
tに遷移する遷移確率を示す。
【0102】
続いて、モデル生成部134は、純粋なガウスノイズx
Tから徐々にガウスノイズを除去していき、最終的にノイズが付加されていない動画説明文x
0を得る過程(逆拡散過程)において、ノイズ付き動画説明文x
tから微小なノイズを除去してノイズ付き動画説明文x
t-1を生成する条件付き拡散モデルを学習させる。例えば、モデル生成部134は、ノイズ付き動画説明文x
tを入力とし、一つ手前の過程、すなわちノイズ付き動画説明文x
tからノイズを1段階除去したノイズ付き動画説明文x
t-1を出力するように条件付き拡散モデルを学習させる。
図10に示すp
θ(x
t-1|x
t、V71)は、ノイズ付き動画説明文x
t-1からノイズ付き動画説明文x
tに遷移する遷移確率を示す。また、p
θ(x
t-1|x
t、V71)は、学習によって定まるパラメータθを持つニューラルネットワークの出力である。このように、モデル生成部134は、純粋なガウスノイズx
Tを入力とし、徐々にノイズを除去していくことで、最終的にノイズが付加されていない動画説明文x
0を生成する機械学習モデルである条件付き拡散モデルを学習させる。
【0103】
まず、モデル生成部134は、
図2で説明した事前学習により、条件付き拡散モデルを学習させてよい。例えば、モデル生成部134は、事前学習用フレーム特徴量#70に基づく条件ベクトルである事前学習用拡散条件ベクトルV70(以下、「拡散条件ベクトルV70」と略記する場合がある)を生成してよい。続いて、モデル生成部134は、拡散条件ベクトルV70を入力情報として条件付き拡散モデルに入力した場合に、ノイズベクトルが従う多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように条件付き拡散モデルを学習させてよい。例えば、モデル生成部134は、拡散条件ベクトルV70および純粋なガウスノイズベクトルを入力情報として条件付き拡散モデルに入力した場合に、拡散条件ベクトルV70と対応する特徴を有する動画説明文を生成するように条件付き拡散モデルを学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、条件付き拡散モデルから出力された動画説明文と、動画文データセット#70に含まれる事前学習用動画説明文#70との誤差が小さくなるように条件付き拡散モデルを学習させてよい。このように、モデル生成部134は、事前学習用フレーム特徴量#70に基づいて、事前学習用フレーム特徴量#70と対応する特徴を有する動画説明文を生成するように事前に学習された事前学習済み条件付き拡散モデルを生成してよい。
【0104】
また、モデル生成部134は、
図3で説明した第1の追加学習または
図5で説明した第2の追加学習により、事前学習済み条件付き拡散モデル(以下、「条件付き拡散モデル」と略記する場合がある)を再学習させてよい。例えば、モデル生成部134は、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである学習用拡散条件ベクトルV71(以下、「拡散条件ベクトルV71」と略記する場合がある)を生成してよい。続いて、モデル生成部134は、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである拡散条件ベクトルV71を入力情報として条件付き拡散モデルに入力した場合に、ノイズベクトルが従う多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように条件付き拡散モデルを学習させてよい。例えば、モデル生成部134は、拡散条件ベクトルV71および純粋なガウスノイズを入力情報として条件付き拡散モデルに入力した場合に、拡散条件ベクトルV71と対応する特徴を有する動画説明文を生成するように条件付き拡散モデルを再学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、条件付き拡散モデルから出力された学習用動画説明文#71と、画像文データセット#71に含まれる画像説明文#71(オリジナルの画像#71に対応する画像説明文)との誤差が小さくなるように条件付き拡散モデルを再学習させてよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量に基づいて、重み付けされた学習用フレーム特徴量と対応する特徴を有する動画説明文を生成するように条件付き拡散モデルを再学習させてよい。このようにして、モデル生成部134は、第1の追加学習済みまたは第2の追加学習済みの条件付き拡散モデルを生成してよい。
【0105】
また、文章生成部136は、学習済みの条件付き拡散モデル(以下、「条件付き拡散モデル」と略記する場合がある)を用いてノイズベクトルを推定し、ノイズ付き動画説明文特徴量からノイズベクトルを取り除くことにより、動画説明文を生成する。例えば、文章生成部136は、対象重みによって重み付けされた対象フレーム特徴量に基づく条件ベクトルである拡散条件ベクトルV72を生成してよい。続いて、モデル生成部134は、拡散条件ベクトルV72および純粋なガウスノイズベクトルを入力情報として条件付き拡散モデルに入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。このようにして、文章生成部136は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を、第1の追加学習済みまたは第2の追加学習済みの条件付き拡散モデルに入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。
【0106】
〔9.効果〕
上述したように、実施形態に係る情報処理装置100は、動画生成部131と抽出部132と決定部133とモデル生成部134を備える。動画生成部131は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する。抽出部132は、学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する。決定部133は、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みを決定する。モデル生成部134は、学習用フレーム特徴量と学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成する。
【0107】
これにより、情報処理装置100は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画のどの部分(どのフレーム画像)を重視した動画説明文を生成するのかをコントロール可能とすることができる。また、情報処理装置100は、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができる。また、情報処理装置100は、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができるので、持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」の達成に貢献できる。また、情報処理装置100は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画の時系列情報を自然言語生成に反映することを可能とすることができる。
【0108】
また、動画生成部131は、画像から動画を生成する機械学習モデルである第1の動画生成モデルを用いて、画像文データセットに含まれる撮像画像から、撮像画像をフレームに含む学習用動画を生成する。決定部133は、学習用動画を構成する複数のフレーム画像のうち、撮像画像に対応する重みを撮像画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する学習用重みを決定する。
【0109】
これにより、情報処理装置100は、動画を構成する複数のフレーム画像のうち、動画を生成する元となった撮像画像を他のフレーム画像よりも重視した動画説明文を生成可能とすることができる。
【0110】
また、動画生成部131は、文章から動画を生成する機械学習モデルである第2の動画生成モデルを用いて、画像文データセットに含まれる画像説明文から学習用動画を生成する。決定部133は、学習用動画を構成する複数のフレーム画像それぞれと撮像画像との類似度に関する情報を複数のフレーム画像それぞれに対応する学習用重みとする。
【0111】
これにより、情報処理装置100は、動画を生成する元となった画像説明文に対応する撮像画像との類似度が低いフレーム画像よりも、動画を生成する元となった画像説明文に対応する撮像画像との類似度が高いフレーム画像を重視した動画説明文を生成可能とすることができる。
【0112】
また、抽出部132は、撮像動画と撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量を抽出する。モデル生成部134は、事前学習用フレーム特徴量に基づいて、事前学習用フレーム特徴量と対応する特徴を有する動画説明文を生成するように事前に学習された機械学習モデルである事前学習済み文章生成モデルを生成し、学習用フレーム特徴量と学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように事前学習済み文章生成モデルを再学習させることにより、文章生成モデルを生成する。
【0113】
これにより、情報処理装置100は、フレーム特徴量と対応する特徴を有する動画説明文を生成可能とすることができる。
【0114】
また、情報処理装置100は、取得部135と文章生成部136をさらに備える。取得部135は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する。抽出部132は、処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する。決定部133は、対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する重みである対象重みを決定する。文章生成部136は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を文章生成モデルに入力して、対象動画の内容を説明する文章である対象動画説明文を生成する。
【0115】
これにより、情報処理装置100は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画のどの部分(どのフレーム画像)を重視した動画説明文を生成するのかをコントロール可能とすることができる。また、情報処理装置100は、注目するフレーム画像に応じた多様な動画説明文を生成することができる。また、情報処理装置100は、注目するフレーム画像に応じた多様な動画説明文を生成することができるので、持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」の達成に貢献できる。また、情報処理装置100は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画の時系列情報を自然言語生成に反映することを可能とすることができる。
【0116】
また、文章生成モデルは、生成器ネットワークおよび識別器ネットワークを含む条件付き敵対的生成ネットワークであり、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである第1の敵対的条件ベクトルおよびノイズベクトルを入力情報として生成器ネットワークに入力した場合に、学習用動画説明文を出力情報として出力するように学習された生成器ネットワークと、撮像動画と撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量に基づく条件ベクトルである第2の敵対的条件ベクトルおよび動画説明文を入力情報として識別器ネットワークに入力した場合に、動画説明文が、真の動画説明文であって、かつ、第2の敵対的条件ベクトルと対応する動画説明文であることを示す情報を出力情報として出力するように学習された識別器ネットワークであって、第1の敵対的条件ベクトルおよび生成器ネットワークが生成した偽の動画説明文である学習用動画説明文を入力情報として識別器ネットワークに入力した場合に、学習用動画説明文が、真の動画説明文であって、かつ、第1の敵対的条件ベクトルと対応する動画説明文であることを示す情報以外の情報を出力情報として出力するように学習された識別器ネットワークと、を含む機械学習モデルである。
【0117】
これにより、情報処理装置100は、条件付き敵対的生成ネットワークを用いて、注目するフレーム画像に応じた多様な動画説明文を生成することができる。
【0118】
また、文章生成モデルは、エンコーダおよびデコーダを含む条件付き変分オートエンコーダであり、撮像動画と撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量に基づく条件ベクトルである第1の変分条件ベクトルおよび動画説明文を入力情報としてエンコーダに入力した場合に、多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように学習されたエンコーダと、平均ベクトルおよび分散ベクトルに基づく多変量正規分布に従う標本である潜在ベクトル、および、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである第2の変分条件ベクトルを入力情報としてデコーダに入力した場合に、学習用動画説明文を出力情報として出力するように学習されたデコーダと、を含む機械学習モデルである。
【0119】
これにより、情報処理装置100は、条件付き変分オートエンコーダを用いて、注目するフレーム画像に応じた多様な動画説明文を生成することができる。
【0120】
また、文章生成モデルは、条件付き拡散モデルであり、ノイズベクトルを含む学習用動画説明文であるノイズ付き動画説明文および学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである拡散条件ベクトルを入力情報として条件付き拡散モデルに入力した場合に、ノイズベクトルが従う多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように学習された条件付き拡散モデルを用いてノイズベクトルを推定し、ノイズ付き動画説明文からノイズベクトルを取り除くことにより、学習用動画説明文を生成する機械学習モデルである。
【0121】
これにより、情報処理装置100は、条件付き拡散モデルを用いて、注目するフレーム画像に応じた多様な動画説明文を生成することができる。
【0122】
〔10.ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置100は、例えば
図11に示すような構成のコンピュータ1000によって実現される。
図11は、情報処理装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
【0123】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0124】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
【0125】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
【0126】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0127】
例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
【0128】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0129】
〔11.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0130】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0131】
例えば、上述した実施形態では、情報処理装置100が、動画生成部131と、抽出部132と、決定部133と、モデル生成部134と、取得部135と、文章生成部136を機能部として有する場合について説明したが、各部はそれぞれ別々の装置に分散して構成することができる。例えば、情報処理装置100は、文章を生成する情報処理装置として、取得部135と、文章生成部136を機能部として有することができる。また、情報処理装置100以外の情報処理装置(以下、「生成装置」と記載する)は、文章生成モデルを生成する情報処理装置として、動画生成部131と、抽出部132と、決定部133と、モデル生成部134を機能部として有することができる。このとき、情報処理装置100と生成装置とは、各種ネットワークと有線または無線で接続され、相互に情報の送受信を行ってよい。例えば、情報処理装置100は、生成装置によって生成された文章生成モデルに関する情報を生成装置から受信してよい。
【0132】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【符号の説明】
【0133】
100 情報処理装置
110 通信部
120 記憶部
130 制御部
131 動画生成部
132 抽出部
133 決定部
134 モデル生成部
135 取得部
136 文章生成部