(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-02
(45)【発行日】2024-12-10
(54)【発明の名称】情報処理装置、生成方法および生成プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241203BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2020168403
(22)【出願日】2020-10-05
【審査請求日】2023-07-07
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】車古 英治
(72)【発明者】
【氏名】中島 光朗
(72)【発明者】
【氏名】伊藤 幹朗
(72)【発明者】
【氏名】浜川 直也
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2015-166978(JP,A)
【文献】特開2015-176283(JP,A)
【文献】国際公開第2011/118723(WO,A1)
【文献】特開2017-173098(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
複数の画像データを記憶する記憶部と、
前記複数の画像データの特徴量を基にして、前記複数の画像データを複数のグループに分類し、各グループについて、前記グループに属する複数の画像データの特徴量
を基にして集約具合を算出し、前記集約具合が第1閾値以上、または、前記第1閾値より小さい第2閾値未満である場合に、前記グループを破棄対象と判定する判定部と、
前記複数のグループから破棄対象となるグループを破棄した残りのグループに属する複数の画像データを用いて教師データを生成する生成部と
を有することを特徴とする情報処理装置。
【請求項2】
前記判定部は、同一のグループに属する複数の画像データの特徴量の重心を算出し、前記重心と、前記同一のグループの属する複数の画像データの特徴量との差分を基にして、前記集約具合を算出することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記記憶部に記憶された前記複数の画像データには、予め指定されたローカル画像が含まれ、前記判定部は、各グループのうち、前記ローカル画像を含まないグループを、破棄対象として判定する処理を更に実行することを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記教師データを基にして、学習モデルの機械学習を実行する学習部を更に有することを特徴とする請求項1~
3のいずれか一つに記載の情報処理装置。
【請求項5】
コンピュータが実行する生成方法であって、
複数の画像データを記憶装置に記憶し、
前記複数の画像データの特徴量を基にして、前記複数の画像データを複数のグループに分類し、
分類した各グループについて、前記グループに属する複数の画像データの特徴量
を基にして集約具合を算出し、前記集約具合が第1閾値以上、または、前記第1閾値より小さい第2閾値未満である場合に、前記グループを破棄対象と判定し、
前記複数のグループから破棄対象となるグループを破棄した残りのグループに属する複数の画像データを用いて教師データを生成する
処理を実行することを特徴とする生成方法。
【請求項6】
コンピュータに、
複数の画像データを記憶装置に記憶し、
前記複数の画像データの特徴量を基にして、前記複数の画像データを複数のグループに分類し、
分類した各グループについて、前記グループに属する複数の画像データの特徴量
を基にして集約具合を算出し、前記集約具合が第1閾値以上、または、前記第1閾値より小さい第2閾値未満である場合に、前記グループを破棄対象と判定し、
前記複数のグループから破棄対象となるグループを破棄した残りのグループに属する複数の画像データを用いて教師データを生成する
処理を実行させることを特徴とする生成プログラム。
【請求項7】
複数の画像データを記憶する記憶部と、
前記複数の画像データの特徴量を基にして、前記複数の画像データを複数のグループに分類し、各グループについて、前記グループに属する複数の画像データの特徴量を基にして集約具合を算出し、前記複数のグループのうち、算出した前記集約具合が、第1閾値未満、かつ、前記第1閾値より小さい第2閾値以上であるグループを特定する判定部と、
特定した前記グループに属する複数の画像データを用いて教師データを生成する生成部と
を有することを特徴とする情報処理装置。
【請求項8】
コンピュータが実行する生成方法であって、
複数の画像データを記憶装置に記憶し、
前記複数の画像データの特徴量を基にして、前記複数の画像データを複数のグループに分類し、
分類した各グループについて、前記グループに属する複数の画像データの特徴量を基にして集約具合を算出し、前記集約具合が第1閾値未満、かつ、前記第1閾値より小さい第2閾値以上であるグループを特定し、
特定した前記グループに属する複数の画像データを用いて教師データを生成する
処理を実行することを特徴とする生成方法。
【請求項9】
コンピュータに、
複数の画像データを記憶装置に記憶し、
前記複数の画像データの特徴量を基にして、前記複数の画像データを複数のグループに分類し、
分類した各グループについて、前記グループに属する複数の画像データの特徴量を基にして集約具合を算出し、前記集約具合が第1閾値未満、かつ、前記第1閾値より小さい第2閾値以上であるグループを特定し、
特定した前記グループに属する複数の画像データを用いて教師データを生成する
処理を実行させることを特徴とする生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置等に関する。
【背景技術】
【0002】
近年、スマートフォンやタブレット端末等の普及により、動画コンテンツでプロモーション動画を見る機会が増加している。このため、商用店舗等では、プロモーション動画を作成して、商品のPR(Public Relations)等を行っている。
【0003】
ここで、PR対象となる店舗が複数存在する場合には、利用者の手作業によって、動画(プロモーション動画)を作成することは負担が大きいため、自動で動画を作成する動画生成装置が用いられている。
【0004】
図15は、従来技術の動作生成装置を説明するための図である。
図15に示すように、この動画生成装置10は、静止画DB(Data Base)11と、モデル生成部12と、素材分析部13と、イメージ挿入部14とを有する。
【0005】
動画生成装置10は、WEBスクレイピング等を用いて、プロモーション動画に関連する複数の静止画データを収集し、静止画DB11に格納する。また、動画生成装置10は、利用者の端末装置等から投稿される動画データから、複数の静止画データを抽出し、静止画DB11に格納する。動画生成装置10は、静止画DB11に格納された複数の静止画データに、正解ラベルを付与することで、教師データを生成する。
【0006】
モデル生成部12は、静止画DB11に格納された教師データを入力として機械学習を実行することで、学習モデルを生成する。たとえば、かかる学習モデルに静止画データを入力することで、静止画データの分類クラスが出力される。分類クラスは、静止画データに含まれる対象物の名称等に対応するものであり、静止画データのタグとして用いられる。モデル生成部12は、学習済みの学習モデルを、素材分析部13に出力する。
【0007】
素材分析部13は、利用者の端末装置等から投稿される動画データを取得し、動画データに含まれる複数の静止画データを、順に、学習モデルに入力することで、静止画データのタグ(分類クラス)を特定する。素材分析部13は、タグを付与した静止画データを、イメージ挿入部14に出力する。
【0008】
イメージ挿入部14は、テンプレートと、タグが付与された複数の静止画データとを基にして、プロモーション動画データを生成する。テンプレートには、動画の時間と、かかる時間に配置する静止画データのタグの種別とが定義されている。イメージ挿入部14は、テンプレートに従って、該当するタグの静止画データを配置する。たとえば、イメージ挿入部14は、タグ「店員」に対応する時間帯に、タグ「店員」が付与された複数の静止画データを配置することで、かかる時間帯において、店員の動画が生成される。
【先行技術文献】
【特許文献】
【0009】
【文献】特開2017-111731号公報
【文献】特開2017-173098号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
従来技術では、WEBスクレイピング等を用いて、教師データとして使用する静止画データを収集しているが、収集した静止画データには、同一の静止画データは複数含まれていたり、教師データに適さない静止画データが含まれていたりする。
【0011】
このような静止画データが、教師データに含まれている状態で、学習モデルの学習を行うと、過学習や低学習となり、学習モデルの精度が悪くなる。また、かかる学習モデルを用いて、タグ付けを行うと、静止画データに適切なタグを付与することができず、動画の精度が低下してしまう。
【0012】
なお、WEBスクレイピング等を用いて収集した静止画データを、利用者が1枚1枚確認して、不要な静止画データを除去することも考えられるが、確認対象となる静止画データが膨大であるため、現実的ではない。
【0013】
1つの側面では、本発明は、動画の精度を向上させることができる情報処理装置、生成方法および生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
第1の案では、情報処理装置は、記憶部と、判定部と、生成部とを有する。記憶部は、複数の画像データを記憶する。判定部は、複数の画像データの特徴量を基にして、複数の画像データを複数のグループに分類し、各グループについて、グループに属する複数の画像データの特徴量の集約具合を基にして、グループを破棄対象とするか否かを判定する。生成部は、複数のグループから破棄対象となるグループを破棄した残りのグループに属する複数の画像データを用いて教師データを生成する。
【発明の効果】
【0015】
動画の精度を向上させることができる。
【図面の簡単な説明】
【0016】
【
図1】
図1は、本実施例に係る情報処理装置の処理を説明するための図である。
【
図2】
図2は、本実施例に係るシステムの一例を示す図である。
【
図3】
図3は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。
【
図4】
図4は、静止画DBのデータ構造の一例を示す図である。
【
図5】
図5は、教師データテーブルのデータ構造の一例を示す図である。
【
図6】
図6は、投稿動画DBのデータ構造の一例を示す図である。
【
図7】
図7は、分析結果テーブルのデータ構造の一例を示す図である。
【
図8】
図8は、テンプレートのデータ構造の一例を示す図である。
【
図9】
図9は、判定部の処理を説明するための図である。
【
図10】
図10は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。
【
図11】
図11は、本実施例に係る破棄処理の処理手順を示すフローチャートである。
【
図12】
図12は、情報処理装置のその他の処理を説明するための図である。
【
図13】
図13は、情報処理装置のその他の処理手順を示すフローチャートである。
【
図14】
図14は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【
図15】
図15は、従来技術の動作生成装置を説明するための図である。
【発明を実施するための形態】
【0017】
以下に、本願の開示する情報処理装置、生成方法および生成プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例】
【0018】
図1は、本実施例に係る情報処理装置の処理を説明するための図である。たとえば、情報処理装置の処理を、ステップS10~S12の順に説明する。
【0019】
情報処理装置が実行するステップS10の処理について説明する。情報処理装置は、キーワードによるWEBスクレイピングを実行し、複数の静止画データ20を収集する。
【0020】
情報処理装置が実行するステップS11の処理について説明する。情報処理装置は、静止画データの特徴量を基にして、複数の静止画データ20に対して、クラスタリング(教師なし分類)を実行する。これによって、複数の静止画データ20は、複数のグループに分類される。ここでは、複数の静止画データ20が、グループGr1~Gr8に分類されるものとする。以下の説明では、複数のグループGr1~Gr8のうち、いずれか一つのグループを、「グループGrn」と表記する。
【0021】
情報処理装置が実行するステップS12の処理について説明する。情報処理装置は、グループGrnを選択し、選択したグループGrnに含まれる複数の静止画データの特徴量空間の集約具合を基にして、グループGrnを破棄するか否かを判定する。
【0022】
情報処理装置は、グループGrnに含まれる複数の静止画データが、広範囲に分布している場合、または、狭範囲に集中して分布している場合には、グループGrnを破棄すると判定する。
【0023】
情報処理装置は、破棄しないと判定したグループGrnに含まれる全ての静止画データを、静止画DB141に格納する。情報処理装置は、破棄すると判定したグループGrnに含まれる全ての静止画データを、破棄する。
【0024】
情報処理装置は、他のグループについても、上記処理を繰り返し実行する。情報処理装置は、静止画DB141に残った複数の静止画データを用いて、教師データを生成し、教師データを用いて、学習モデルの機械学習を実行する。
【0025】
上記のように、本実施例に係る情報処理装置は、複数の静止画データをクラスタリングし、グループごとに、静止画データの特徴量空間の集約具合を基にして、グループを破棄するか否かを判定する。たとえば、グループに含まれる静止画データが、広範囲に分布している場合、グループに含まれる静止画データは、不要な静止画データであるといえる。また、グループに含まれる静止画データが、狭範囲に分布している場合、グループに含まれる静止画データは、重複した静止画データであるといえる。
【0026】
このため、情報処理装置が、静止画DB141から、静止画データの特徴量空間の集約具合を基にして、グループの静止画データを破棄することで、不要な静止画データ、重複した静止画データを除去することができる。情報処理装置は、静止画DB141に残った静止画データを用いて、教師データを生成し、学習モデルの機械学習を実行することで、学習モデルの精度が向上し、かかる学習モデルを用いた動画の精度を向上させることができる。
【0027】
図2は、本実施例に係るシステムの一例を示す図である。
図2に示すように、このシステムは、端末装置30と、情報処理装置100とを有する。端末装置30と、情報処理装置100とは、ネットワーク50を介して相互に接続される。
図2では、端末装置30のみを示すが、このシステムは、他の端末装置を有していてもよい。
【0028】
端末装置30は、利用者が操作する端末装置であり、PC(Personal Computer)、ノートPC、タブレット端末、スマートフォン等に対応する。利用者は、端末装置30を操作して、自身の撮影した投稿動画データを情報処理装置100に送信し、プロモーション動画の作成依頼を行う。端末装置30は、複数種類の投稿動画データを、情報処理装置100に送信してもよい。
【0029】
情報処理装置100は、
図1で説明したステップS10~S12で説明した処理を実行することで、学習モデルを生成しておく。情報処理装置100は、端末装置30から、プロモーション動画の作成依頼を受け付けた場合に、端末装置30から受信する動画データ等を用いてプロモーション動画を作成する。
【0030】
図3は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。
図3に示すように、情報処理装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
【0031】
通信部110は、ネットワーク50を介して、端末装置30や、他の外部装置との間で情報の送受信を行う。たとえば、通信部110は、NIC(Network Interface Card)等によって実現される。
【0032】
入力部120は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部150に対して各種指示情報を入力する。たとえば、情報処理装置100の管理者は、入力部120を操作して、WEBスクレイピングで利用する各種のキーワードを入力する。
【0033】
表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、有機EL(Electro Luminescence)ディスプレイ、液晶ディスプレイ、タッチパネル等に対応する。
【0034】
記憶部140は、静止画DB141、教師データテーブル142、学習モデル143、投稿動画DB144、分析結果テーブル145、テンプレート146、動画データ147を有する。記憶部140は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
【0035】
静止画DB141は、WEBスクレイピング等によって収集される静止画データを格納するDBである。
図4は、静止画DBのデータ構造の一例を示す図である。
図4に示すように、この静止画DB141は、キーワードと、識別情報と、静止画データとを対応付ける。キーワードは、WEBスクレイピングを実行する場合に指定されたキーワードである。識別情報は、静止画データを識別する情報である。静止画データは、WEBスクレイピングによって収集された静止画データである。
【0036】
図4に示す例では、キーワード「KW01(たとえば、味噌ラーメン)」を指定することで、識別情報IM1-1~IM1-n1の静止画データが収集された場合を示している。キーワード「KW01(たとえば、ラーメンのどんぶり)」を指定することで、識別情報IM2-1~IM2-n2の静止画データが収集された場合を示している。
【0037】
教師データテーブル142は、学習モデル143の機械学習を実行するための教師データセットを格納するテーブルである。
図5は、教師データテーブルのデータ構造の一例を示す図である。
図5に示すように、教師データテーブル142は、分類クラスと、静止画データとを対応付ける。分類クラスは、機械学習を実行する場合の、正解ラベルに対応する。静止画データは、静止画DB141に格納された静止画データのうち、
図1で説明した処理によって破棄されなかった静止画データである。
【0038】
学習モデル143は、教師データテーブル142に格納された教師データセットを基にして機械学習されるNN(Neural Network)等の学習モデルである。学習モデル143に静止画データを入力することで、入力された静止画データの属する分類クラスが出力される。
【0039】
投稿動画DB144は、端末装置30から送信される投稿動画データ(時系列の静止画データ)を格納するDBである。
図6は、投稿動画DBのデータ構造の一例を示す図である。
図6に示すように、この投稿動画DB144は、投稿動画識別情報と、投稿動画データとを対応付ける。投稿動画識別情報は、投稿動画データを一意に識別する情報である。投稿動画データは、時系列の静止画データを有する。
【0040】
分析結果テーブル145は、投稿動画DB144に格納された複数の静止画データの分析結果を保持するテーブルである。
図7は、分析結果テーブルのデータ構造の一例を示す図である。
図7に示すように、この分析結果テーブル145は、投稿動画識別情報と、時刻と、静止画データと、タグとを対応付ける。投稿動画識別情報は、投稿動画データを一意に識別する情報である。時刻は、静止画データの時刻である。たとえば、投稿動画データの開始時刻を時刻t
1とする。静止画データは、投稿動画データに含まれる静止画データである。タグは、静止画データを、学習モデル143に入力した場合に、学習モデル143から出力される分類クラスに対応する。
【0041】
テンプレート146は、複数のシーンによってシナリオが定義されており、テンプレート146に定義されたシナリオに基づいて、動画データ147が生成される。
図8は、テンプレートのデータ構造の一例を示す図である。
図8に示す例では、テンプレート146に、店舗のシーン、ラーメンのシーン、店員のシーンが順に設定されている。
【0042】
たとえば、店舗のシーンの開始時刻は「T1」、終了時刻は「T2」となり、店舗のシーンに対応するタグが「分類クラスC1」であることが示される。ラーメンのシーンの開始時刻は「T2」、終了時刻は「T3」となり、ラーメンのシーンに対応するタグが「分類クラスC2」であることが示される。店員のシーンの開始時刻は「T3」、終了時刻は「T4」となり、店舗のシーンに対応するタグが「分類クラスC3」であることが示される。
【0043】
図3の説明に戻る。動画データ147は、テンプレート146のシナリオに合わせて生成される動画データである。
【0044】
制御部150は、収集部151と、判定部152と、生成部153と、学習部154と、受付部155と、素材分析部156と、イメージ挿入部157とを有する。制御部150は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部150は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
【0045】
収集部151は、入力部120からキーワードを受け付け、受け付けたキーワードを用いたWEBスクレイピングを実行することで、キーワードに対応する静止画データを、ネットワーク上の外部装置から収集する。収集部151は、収集した静止画データを、キーワードと対応付けて、静止画DB141に格納する。収集部151は、静止画DBにおいて、各静止画データに、ユニークな識別情報を割り当てる。
【0046】
管理者は、事前に複数のキーワードを収集部151に設定しておき、収集部151は、事前に設定されたキーワードを用いてWEBスクレイピングを実行してもよい。
【0047】
判定部152は、静止画DB141に登録された静止画データについて、静止画データの特徴量を基にして、複数のグループに分類する。判定部152は、各グループについて、グループに属する複数の画像データの特徴量の集約具合を基にして、グループを破棄するか否かを判定する。たとえば、静止画データの特徴量は、輝度、明度、彩度、SIFT、HOG等の特徴量でもよいし、他の画像の特徴量でよい。
【0048】
図9は、判定部の処理を説明するための図である。
図9では説明の便宜上、2次元の特徴量空間40を用いて説明するがこれに限定されるものではない。特徴量空間40は、横軸を第1特徴量、縦軸を第2特徴量とする空間である。静止画DB141の静止画データの特徴量を基にしてプロットしたものが、黒丸で示される。
【0049】
判定部152は、静止画DB141の複数の静止画データの特徴量を基にして、クラスタリングすることで、複数の静止画データを、複数のグループに分類する。
図9に示す例では、複数の静止画データは、グループGr1、Gr2、Gr3に分類される。判定部152は、k-means等を用いて、クラスタリングを実行してもよい。
【0050】
判定部152は、グループGrnを選択し、選択したグループGrnに含まれる複数の静止画データの特徴量空間40の集約具合を基にして、グループGrnを破棄するか否かを判定する。判定部152は、グループGrnの重心と、グループGrnの各特徴量との距離を基にして、集約具合を算出する。
図9では、グループGr1~3の重心を、白抜きのマルで示す。
【0051】
たとえば、判定部152は、式(1)を基にして、集約具合Sを算出する。ここでは一例として、特徴量空間を二次元とする。重心の座標を(X,Y)とし、グループGrnのi番目の静止画データの座標を(xi,yi)とする。グループGrnに含まれる静止画データの数をnとする。
【0052】
【0053】
また、判定部152は、第1閾値Th1と、第2閾値Th2とを計算する。判定部152は、重心の座標と、グループGrnの各静止画データの座標との距離をそれぞれ算出し、算出した各距離のうち、距離の最大値を特定する。判定部152は、特定した最大値をNaで除算した値を、第1閾値Th1として設定する。Naは予め設定される値であり、2、3、4あるいは他の数値となる。
【0054】
判定部152は、重心の座標と、グループGrnの各静止画データの座標との距離をそれぞれ算出し、算出した各距離のうち、距離の最小値を特定する。判定部152は、特定した最小値にNbを乗算した値を、第1閾値Th2として設定する。Nbは予め設定される値であり、2、3、4あるいは他の数値となる。
【0055】
判定部152は、集約具合Sが、第1閾値Th1以上である場合には、グループGrnに属する複数の静止画データが広範囲に分散しているものとして、グループGrnを破棄すると判定する。たとえば、
図9のグループGr1は、集約具合Sが、第1閾値Th1以上となるため、判定部152は、グループGr1を破棄すると判定する。
【0056】
判定部152は、集約具合Sが、第2閾値Th2未満である場合には、グループGrnに属する複数の静止画データが狭範囲に集中しているものとして、グループGrnを削除すると判定する。たとえば、
図9のグループGr3は、集約具合Sが、第1閾値Th2未満となるため、判定部152は、グループGr3を破棄すると判定する。
【0057】
これに対して、グループGr2の集約具合Sは、第1閾値Th1未満となり、かつ、第2閾値Th2以上となるため、判定部152は、グループGr2を破棄しないと判定する。
【0058】
判定部152は、分類した各グループに対して上記処理を繰り返し実行し、破棄するグループと、破棄しないグループを判定し、判定結果を、生成部153に出力する。たとえば、判定部152が、生成部153に出力する判定結果には、破棄対象のグループに含まれる静止画データの識別情報が含まれる。
【0059】
生成部153は、判定部152の判定結果と、静止画DB141とを基にして、教師データテーブル142を生成する。生成部153は、判定部152の判定結果を基にして、破棄対象のグループに含まれる静止画データを、静止画DB141から削除し、静止画DB141に残った静止画データを、この静止画データのキーワードとの組を取得する。
【0060】
生成部153は、タグ変換テーブル(図示略)を用いて、キーワードを汎用的な分類クラス(タグ)に変換する。タグ変換テーブルは、キーワードと、キーワードに対応する分類クラスとを対応付けたテーブルである。生成部153は、静止画データと、変換した分類クラスとを対応付けて、教師データテーブル142に登録する。
【0061】
生成部153は、静止画DB141に残った静止画データと、キーワードとの組について、上記処理を繰り返し実行する。
【0062】
学習部154は、教師データテーブル142に格納された教師データセットを入力として、学習モデル143の学習(誤差逆伝播法による機械学習)を実行する。たとえば、学習部154は、教師データテーブル142の静止画データ(入力データ)を、学習モデル143に入力した際の出力が、対応する分類クラスに近づくように、学習モデル143のパラメータを調整する。
【0063】
受付部155は、端末装置30から、動画の作成依頼を受け付ける。受付部155は、端末装置30から、投稿動画データを受信し、受信した投稿動画データを、投稿動画DB144に格納する。受付部155は、投稿動画データを、投稿動画DB144に格納する場合に、ユニークな投稿動画識別情報を割り当てる。
【0064】
素材分析部156は、投稿動画DB144に格納された投稿動画データに含まれる時系列の静止画データを、学習モデル143に入力することで、静止画データのタグ(分類クラス)を判定する。素材分析部156は、投稿動画識別情報、静止画データの時刻(あるいは、フレーム番号)、静止画データ、タグを対応付けて、分析結果テーブル145に格納する。
【0065】
素材分析部156は、投稿動画DB144に格納された投稿動画データに含まれる時系列の静止画データに対して、上記処理を繰り返し実行する。
【0066】
イメージ挿入部157は、分析結果テーブル145と、テンプレート146とを基にして、動画データを生成する。たとえば、イメージ挿入部157は、テンプレート146の各シナリオのタグ、開始時刻、終了時刻を特定する。イメージ挿入部157は、開始時刻から終了時刻までのシナリオ時間を算出する。イメージ挿入部157は、分析結果テーブル145を参照し、シナリオのタグに対応する静止画データから、シナリオ時間分の時系列の静止画データを取得し、取得した時系列の静止画データを動画データ147に設定する。
【0067】
イメージ挿入部157は、テンプレート146の各シナリオについて、上記処理を繰り返し実行することで、動画データ147を生成する。
【0068】
次に、本実施例に係る情報処理装置100の処理手順の一例について説明する。
図10は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。
図10に示すように、情報処理装置100の収集部151は、静止画データを収集し、静止画DB141に格納する(ステップS101)。
【0069】
情報処理装置100の判定部152は、静止画DB141の複数の静止画データの特徴量を基にして、クラスタリングを実行し、複数のグループに分類する(ステップS102)。情報処理装置100の判定部152および生成部153は、破棄処理を実行する(ステップS103)。
【0070】
生成部153は、静止画DBに残った静止画データを基にして、教師データセットを生成し、教師データテーブルに格納する(ステップS104)。情報処理装置100の学習部154は、教師データテーブル142を基にして、学習モデル143を学習する(ステップS105)。
【0071】
次に、
図10のステップS103に示した破棄処理の処理手順の一例について説明する。
図11は、本実施例に係る破棄処理の処理手順を示すフローチャートである。
図11に示すように、情報処理装置100の判定部152は、未選択のグループを選択する(ステップS201)。
【0072】
判定部152は、グループ内の特徴量の重心を算出する(ステップS202)。判定部152は、特徴量空間上において、各静止画データの特徴量と、重心との距離をそれぞれ算出する(ステップS203)。判定部152は、距離の最大値、距離の最小値、集積具合を特定する(ステップS204)。
【0073】
判定部152は、集積具合が、最大値の1/Na倍以上か否かを判定する(ステップS205)。集積具合が、最大値の1/Na倍以上の場合には(ステップS205,Yes)、情報処理装置の生成部153は、選択したグループの静止画データを、静止画DB141から破棄し(ステップS207)、ステップS208に移行する。
【0074】
判定部152は、集積具合が、最大値の1/Na倍以上でない場合には(ステップS205,No)、集積具合が、最小値のNb倍未満であるか否かを判定する(ステップS206)。判定部152は、集積具合が、最小値のNb倍未満である場合には(ステップS206,Yes)、ステップS207に移行する。
【0075】
一方、判定部152は、集積具合が、最小値のNb倍未満でない場合には(ステップS206,No)、ステップS208に移行する。判定部152は、全てのグループを選択していない場合には(ステップS208,No)、ステップS201に移行する。判定部152は、全てのグループを選択した場合には(ステップS208,Yes)、破棄処理を終了する。
【0076】
次に、本実施例に係る情報処理装置100の効果について説明する。情報処理装置100は、複数の静止画データをクラスタリングし、グループごとに、静止画データの特徴量空間の集約具合を基にして、グループを破棄するか否かを判定する。たとえば、グループに含まれる静止画データが、広範囲に分布している場合、グループに含まれる静止画データは、不要な静止画データであるといえる。また、グループに含まれる静止画データが、狭範囲に分布している場合、グループに含まれる静止画データは、重複した静止画データであるといえる。
【0077】
このため、情報処理装置100が、静止画DB141から、静止画データの特徴量空間の集約具合を基にして、グループの静止画データを破棄することで、不要な静止画データ、重複した静止画データを除去することができる。情報処理装置100は、静止画DB141に残った静止画データを用いて、教師データを生成し、学習モデルの機械学習を実行することで、学習モデルの精度が向上し、かかる学習モデルを用いた動画の精度を向上させることができる。
【0078】
情報処理装置100は、同一のグループに属する複数の画像データの特徴量の重心を算出し、重心と、同一のグループの属する複数の画像データの特徴量との差分の平均値を基にして、集約具合を算出する。これによって、各グループに含まれる複数の静止画データの集約具合を定量的に特定することができる。
【0079】
情報処理装置100は、第1閾値Th1、第2閾値Th2を算出し、集約具合と、第1閾値Th1、第2閾値Th2との比較によって、破棄対象のグループを特定する。これによって、不要な静止画データ、重複した静止画データを除去することができる。
【0080】
情報処理装置100は、静止画DB141から、不要な静止画データ、重複した静止画データを除去し、残った静止画データを基にして、教師データテーブル142を生成する。そして、情報処理装置100は、かかる教師データテーブル142を基にして、学習モデルを学習する。これによって、学習モデル143の過学習および低学習を抑止し、学習モデル143の精度が向上する。学習モデル143の精度が向上することで、学習モデル143を用いた動画データの精度も向上させることができる。
【0081】
ところで、上述した情報処理装置100は、複数の静止画データをクラスタリングし、グループごとに、静止画データの特徴量空間の集約具合を基にして、グループを破棄するか否かを判定していたがこれに限定されるものではない。以下において、情報処理装置100のその他の処理について説明する。
【0082】
図12は、情報処理装置のその他の処理を説明するための図である。たとえば、情報処理装置100のその他の処理を、ステップS20~S22の順に説明する。
【0083】
情報処理装置100が実行するステップS20の処理について説明する。情報処理装置100は、キーワードによるWEBスクレイピングを実行し、複数の静止画データ20aを収集する。また、情報処理装置100は、利用者自身が撮影した複数の静止画データを取得する。利用者自身が撮影した静止画データを、複数のローカル画像データ20bと表記する。ローカル画像データ20bは、利用者が、動画データに含めてほしい静止画データの特徴をよく表す静止画データといえる。
【0084】
情報処理装置100が実行するステップS21の処理について説明する。情報処理装置100の判定部152は、静止画データの特徴量を基にして、複数の静止画データ20a、複数のローカル画像データ20bに対して、クラスタリング(教師なし分類)を実行する。これによって、複数の静止画データ20aおよび複数のローカル画像データ20bは、複数のグループに分類される。ここでは、複数の静止画データ20aおよび複数のローカル画像データ20bが、グループGr1~Gr8に分類されるものとする。以下の説明では、複数のグループGr1~Gr8のうち、いずれか一つのグループを、「グループGrn」と表記する。
【0085】
情報処理装置100が実行するステップS21の処理について説明する。情報処理装置100の判定部152は、グループGrnを選択し、選択したグループGrnにローカル画像データが含まれているか否かに応じて、グループGrnを破棄するか否かを判定する。判定部152は、グループGrnを選択し、選択したグループGrnにローカル画像データが含まれていない場合に、Grnを破棄する。一方、判定部152は、グループGrnを選択し、選択したグループGrnにローカル画像データが含まれている場合に、Grnを破棄しない。
【0086】
情報処理装置100は、他のグループについても、上記処理を繰り返し実行する。情報処理装置100は、静止画DB141に残った複数の静止画データを用いて、教師データテーブル142を生成し、教師データテーブル142を用いて、学習モデル143の機械学習を実行する。
【0087】
ここで、情報処理装置100が実行するその他の処理の処理手順について説明する。
図13は、情報処理装置のその他の処理手順を示すフローチャートである。
図13に示す処理は、
図11に示した破棄処理の代わりとなる処理である。
【0088】
図13に示すように、情報処理装置100の判定部152は、未選択のグループを選択する(ステップS301)。
【0089】
判定部152は、グループ内にローカル画像データが含まれるか否かを判定する(ステップS302)。判定部152は、グループ内にローカル画像データが含まれない場合には(ステップS303,No)、選択したグループの静止画データを静止画DB141から破棄し(ステップS304)、ステップS305に移行する。
【0090】
一方、判定部152は、グループ内にローカル画像データが含まれる場合には(ステップS303,Yes)、全てのグループを選択したか否かを判定する(ステップS305)。判定部152は、全てのグループを選択していない場合には(ステップS305,No)、ステップS301に移行する。判定部152は、全てのグループを選択した場合には(ステップS305,Yes)、処理を終了する。
【0091】
上記のように、情報処理装置100によれば、グループGrnを選択し、選択したグループGrnにローカル画像データが含まれているか否かに応じて、グループGrnを破棄するか否かを判定する。これによって、利用者自身が撮影したローカル画像データと同じグループに属する静止画データを残すことができる。
【0092】
なお、本実施例に係る情報処理装置100は、
図11で説明した処理と、
図13で説明した処理とを組み合わせて、破棄対象となるグループを判定してもよい。たとえば、情報処理装置100は、
図13で示した処理を実行して、複数のグループから、ローカル画像データを含むグループを絞り込み、絞り込んだグループについて、集合具合を基にして、破棄するグループを判定してもよい。
【0093】
次に、上記実施例に示した情報処理装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。
図14は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【0094】
図14に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203とを有する。また、コンピュータ200は、記憶媒体からプログラム等を読み取る読み取り装置204と、有線または無線ネットワークを介して、端末装置30、他の外部装置等との間でデータの授受を行う通信装置205とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM206と、ハードディスク装置207とを有する。そして、各装置201~207は、バス208に接続される。
【0095】
ハードディスク装置207は、収集プログラム207a、判定プログラム207b、生成プログラム207c、学習プログラム207d、受付プログラム207e、素材分析プログラム207f、イメージ挿入プログラム207fを有する。また、CPU201は、各プログラム207a~207fを読み出してRAM206に展開する。
【0096】
収集プログラム207aは、収集プロセス206aとして機能する。判定プログラム207bは、判定プロセス206bとして機能する。生成プログラム207cは、生成プロセス206cとして機能する。学習プログラム207dは、学習プロセス206dとして機能する。受付プログラム207eは、受付プロセス206eとして機能する。素材分析プログラム207fは、素材分析プロセス206fとして機能する。イメージ挿入プログラム207gは、イメージ挿入プロセス206gとして機能する。
【0097】
収集プロセス206aの処理は、収集部151の処理に対応する。判定プロセス206bの処理は、判定部152の処理に対応する。生成プロセス206cの処理は、生成部153の処理に対応する。学習プロセス206dの処理は、学習部154の処理に対応する。受付プロセス206の処理は、受付部155の処理に対応する。素材分析プロセス206の処理は、素材分析部156の処理に対応する。イメージ挿入プロセス206gの処理は、イメージ挿入部157の処理に対応する。
【0098】
なお、各プログラム207a~207gについては、必ずしも最初からハードディスク装置207に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が各プログラム207a~207gを読み出して実行するようにしてもよい。
【0099】
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0100】
(付記1)複数の画像データを記憶する記憶部と、
前記複数の画像データの特徴量を基にして、前記複数の画像データを複数のグループに分類し、各グループについて、前記グループに属する複数の画像データの特徴量の集約具合を基にして、前記グループを破棄対象とするか否かを判定する判定部と、
前記複数のグループから破棄対象となるグループを破棄した残りのグループに属する複数の画像データを用いて教師データを生成する生成部と
を有することを特徴とする情報処理装置。
【0101】
(付記2)前記判定部は、同一のグループに属する複数の画像データの特徴量の重心を算出し、前記重心と、前記同一のグループの属する複数の画像データの特徴量との差分を基にして、前記集約具合を算出することを特徴とする付記1に記載の情報処理装置。
【0102】
(付記3)前記判定部は、前記集約具合が、第1閾値以上、または、前記第1閾値より小さい第2閾値未満である場合に、前記グループを破棄対象と判定することを特徴とする付記2に記載の情報処理装置。
【0103】
(付記4)前記記憶部に記憶された前記複数の画像データには、予め指定されたローカル画像が含まれ、前記判定部は、各グループのうち、前記ローカル画像を含まないグループを、破棄対象として判定する処理を更に実行することを特徴とする付記1に記載の情報処理装置。
【0104】
(付記5)前記教師データを基にして、学習モデルの機械学習を実行する学習部を更に有することを特徴とする付記1~4のいずれか一つに記載の情報処理装置。
【0105】
(付記6)コンピュータが実行する生成方法であって、
複数の画像データを記憶装置に記憶し、
前記複数の画像データの特徴量を基にして、前記複数の画像データを複数のグループに分類し、
分類した各グループについて、前記グループに属する複数の画像データの特徴量の集約具合を基にして、前記グループを破棄対象とするか否かを判定し、
前記複数のグループから破棄対象となるグループを破棄した残りのグループに属する複数の画像データを用いて教師データを生成する
処理を実行することを特徴とする生成方法。
【0106】
(付記7)前記判定する処理は、同一のグループに属する複数の画像データの特徴量の重心を算出し、前記重心と、前記同一のグループの属する複数の画像データの特徴量との差分を基にして、前記集約具合を算出することを特徴とする付記6に記載の生成方法。
【0107】
(付記8)前記判定する処理は、前記集約具合が、第1閾値以上、または、前記第1閾値より小さい第2閾値未満である場合に、前記グループを破棄対象と判定することを特徴とする付記7に記載の生成方法。
【0108】
(付記9)前記記憶装置に記憶された前記複数の画像データには、予め指定されたローカル画像が含まれ、前記判定する処理は、各グループのうち、前記ローカル画像を含まないグループを、破棄対象として判定する処理を更に実行することを特徴とする付記6に記載の生成方法。
【0109】
(付記10)前記教師データを基にして、学習モデルの機械学習を実行する処理を更に実行することを特徴とする付記6~9のいずれか一つに記載の生成方法。
【0110】
(付記11)コンピュータに、
複数の画像データを記憶装置に記憶し、
前記複数の画像データの特徴量を基にして、前記複数の画像データを複数のグループに分類し、
分類した各グループについて、前記グループに属する複数の画像データの特徴量の集約具合を基にして、前記グループを破棄対象とするか否かを判定し、
前記複数のグループから破棄対象となるグループを破棄した残りのグループに属する複数の画像データを用いて教師データを生成する
処理を実行させることを特徴とする生成プログラム。
【0111】
(付記12)前記判定する処理は、同一のグループに属する複数の画像データの特徴量の重心を算出し、前記重心と、前記同一のグループの属する複数の画像データの特徴量との差分を基にして、前記集約具合を算出することを特徴とする付記11に記載の生成プログラム。
【0112】
(付記13)前記判定する処理は、前記集約具合が、第1閾値以上、または、前記第1閾値より小さい第2閾値未満である場合に、前記グループを破棄対象と判定することを特徴とする付記12に記載の生成プログラム。
【0113】
(付記14)前記記憶装置に記憶された前記複数の画像データには、予め指定されたローカル画像が含まれ、前記判定する処理は、各グループのうち、前記ローカル画像を含まないグループを、破棄対象として判定する処理を更に実行することを特徴とする付記11に記載の生成プログラム。
【0114】
(付記15)前記教師データを基にして、学習モデルの機械学習を実行する処理を更に実行することを特徴とする付記11~14のいずれか一つに記載の生成プログラム。
【符号の説明】
【0115】
100 情報処理装置
110 通信部
120 入力部
130 表示部
140 記憶部
141 静止画DB
142 教師データテーブル
143 学習モデル
144 投稿動画DB
145 分析結果テーブル
146 テンプレート
147 動画データ
150 制御部
151 収集部
152 判定部
153 生成部
154 学習部
155 受付部
156 素材分析部
157 イメージ挿入部