特開2024-142123 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士フイルム株式会社の特許一覧

特開2024-142123画像処理システム、画像処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024142123

(43)【公開日】2024-10-10

(54)【発明の名称】画像処理システム、画像処理方法、及びプログラム

(51)【国際特許分類】

H04N 5/91 20060101AFI20241003BHJP

H04N 5/77 20060101ALI20241003BHJP

H04N 5/92 20060101ALI20241003BHJP

H04N 23/60 20230101ALI20241003BHJP

H04N 23/61 20230101ALI20241003BHJP

H04N 23/63 20230101ALI20241003BHJP

【ＦＩ】

H04N5/91

H04N5/77

H04N5/92 010

H04N23/60

H04N23/61

H04N23/63 300

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2023054143

(22)【出願日】2023-03-29

(71)【出願人】

【識別番号】306037311

【氏名又は名称】富士フイルム株式会社

(74)【代理人】

【識別番号】100083116

【弁理士】

【氏名又は名称】松浦憲三

(74)【代理人】

【識別番号】100170069

【弁理士】

【氏名又は名称】大原一樹

(74)【代理人】

【識別番号】100128635

【弁理士】

【氏名又は名称】松村潔

(74)【代理人】

【識別番号】100140992

【弁理士】

【氏名又は名称】松浦憲政

(74)【代理人】

【識別番号】100153822

【弁理士】

【氏名又は名称】増田重之

(72)【発明者】

【氏名】石田一樹

(72)【発明者】

【氏名】田中康一

(72)【発明者】

【氏名】藤本真一

(72)【発明者】

【氏名】小林俊輝

【テーマコード（参考）】

5C122

【Ｆターム（参考）】

5C122DA03

5C122DA04

5C122FA18

5C122FH10

5C122FH11

5C122FK28

5C122GA21

5C122GA34

5C122HB01

(57)【要約】（修正有）

【課題】動画に対して有効なチャプタ（目印）を付与する画像処理システム、画像処理方法及びプログラムを提供する。
【解決手段】アクションカメラ１００及びスマートフォン２００とネットワークＮＷで接続されている画像処理システム１０であって、アクションカメラで撮影された、第１の時刻情報を有するメイン動画を取得し、スマートフォンで撮影された、第２の時刻情報を有するサブ静止画又はサブ動画を取得し、取得したサブ静止画又はサブ動画と、第２の時刻情報に対応するメイン動画との比較結果に基づいて、メイン動画にチャプタを付与する。
【選択図】図７

【特許請求の範囲】

【請求項1】

プロセッサを備える画像処理システムであって、
前記プロセッサは、
第１の撮影装置で撮影された、第１の時刻情報を有する第１の動画を取得し、
第２の撮影装置で撮影された、第２の時刻情報を有する第２の静止画又は第２の動画を取得し、
取得された前記第２の静止画又は前記第２の動画と、前記第２の時刻情報に対応する前記第１の動画との比較結果に基づいて、前記第１の動画にチャプタを付与する、
画像処理システム。

【請求項2】

前記プロセッサは、
取得された前記第２の静止画又は前記第２の動画のシーンを解析し、第２の解析結果を生成し、
前記第２の時刻情報に対応する前記第１の時刻情報を有する前記第１の動画のシーンの解析を行って第１の解析結果を生成し、
前記第１の解析結果及び前記第２の解析結果の前記比較結果に基づいて、前記第１の動画に前記チャプタを付与する、
請求項１に記載の画像処理システム。

【請求項3】

前記プロセッサは、
取得された前記第２の静止画又は前記第２の動画に含まれる少なくとも１以上の画像と、前記第２の時刻情報に対応する前記第１の時刻情報を有する前記第１の動画に含まれる少なくとも１以上の画像との前記比較結果により、
前記第１の動画に前記チャプタを付与する、
請求項２に記載の画像処理システム。

【請求項4】

前記プロセッサは、
取得された前記第２の静止画又は前記第２の動画を、第２の被写体を抽出することにより解析し、
前記第１の動画を、第１の被写体を抽出することにより解析する請求項１に記載の画像処理システム。

【請求項5】

前記プロセッサは、前記第２の被写体と前記第１の被写体との属性に基づいて、前記第１の動画に前記チャプタを付与する請求項４に記載の画像処理システム。

【請求項6】

前記プロセッサは、前記第２の被写体と前記第１の被写体との位置及び姿勢の情報の少なくとも１つに基づいて、前記第１の動画に前記チャプタを付与する、請求項４に記載の画像処理システム。

【請求項7】

前記プロセッサは、
前記第１の動画のシーンにおいて、前記第２の被写体と前記第１の被写体との関連性に基づいて、前記第１の被写体が写っているシーンを有する前記第１の動画に前記チャプタを付与する請求項４に記載の画像処理システム。

【請求項8】

前記関連性を示す情報を記録する記録装置を備え、
前記プロセッサは、
前記第２の被写体の前記関連性を示す情報に基づいて、前記第１の被写体の前記関連性を判定する請求項７に記載の画像処理システム。

【請求項9】

前記関連性を示す関連情報は、前記第１の撮影装置に備えられる請求項８に記載の画像処理システム。

【請求項10】

前記プロセッサは、
前記第２の静止画又は前記第２の動画に含まれる、前記第２の被写体の行動に関する情報と、前記第１の動画に含まれる、前記第１の被写体の行動に関する情報と、に基づいて、
前記第１の被写体の行動に関する情報に対応した時刻に、前記チャプタを付与する請求項４に記載の画像処理システム。

【請求項11】

前記プロセッサは、
前記チャプタが付与された時刻に関する情報を表示し、
前記表示は、前記第１の被写体の属性に応じて表示形態が異なる請求項４に記載の画像処理システム。

【請求項12】

前記表示は、前記第１の被写体に応じて表示する色が異なる請求項１１に記載の画像処理システム。

【請求項13】

プロセッサを備える画像処理システムの画像処理方法であって、
前記プロセッサにより行われる、
第１の撮影装置で撮影された、第１の時刻情報を有する第１の動画を取得するステップと、
第２の撮影装置で撮影された、第２の時刻情報を有する第２の静止画又は第２の動画を取得するステップと、
取得された前記第２の静止画又は前記第２の動画と、前記第２の時刻情報に対応する前記第１の動画との比較結果に基づいて、前記第１の動画にチャプタを付与するステップと、
を含む画像処理方法。

【請求項14】

プロセッサを備える画像処理システムに画像処理方法を実行させるプログラムであって、
前記プロセッサに、
第１の撮影装置で撮影された、第１の時刻情報を有する第１の動画を取得するステップと、
第２の撮影装置で撮影された、第２の時刻情報を有する第２の静止画又は第２の動画を取得するステップと、
取得された前記第２の静止画又は前記第２の動画と、前記第２の時刻情報に対応する前記第１の動画との比較結果に基づいて、前記第１の動画にチャプタを付与するステップと、
を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、撮影した動画に対してチャプタ（目印）を付与する画像処理システム、画像処理方法、及びプログラムに関する。

【背景技術】

【0002】

近年、カメラの小型化により、アクションカメラ又はウェラブルカメラ（以下、アクションカメラ等と記載する）の開発が進んでいる。アクションカメラ等を使用することにより、撮影者は、撮影のための操作を行わずに、別の活動（例えば、スキーやスキューバダイビングのスポーツ）を行いながら撮影を行うことができる。また、アクションカメラ等は、被写体が撮影されているという意識が少ない状態で、動画を撮影することが可能であり、被写体の自然な表情の撮影を行うことができる。例えば、アクションカメラ等により撮影を長時間継続して行う（撮りっぱなしにする）ことにより、被写体の自然な表情を撮影することができる。

【0003】

特許文献１では、長時間撮影された動画（映像データ）から多くの人が意図する重要シーンを切り出す技術に関して開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１０－１９９８１６号公報

【発明の概要】

【0005】

本開示の技術にかかる一つの実施形態は、動画に対して有効なチャプタを付与する画像処理システム、画像処理方法、及びプログラムを提供することである。

【課題を解決するための手段】

【0006】

本発明の第１の態様である画像処理システムは、プロセッサを備える画像処理システムであって、プロセッサは、第１の撮影装置で撮影された、第１の時刻情報を有する第１の動画を取得し、第２の撮影装置で撮影された、第２の時刻情報を有する第２の静止画又は第２の動画を取得し、取得された第２の静止画又は第２の動画と、第２の時刻情報に対応する第１の動画との比較結果に基づいて、第１の動画にチャプタを付与する。

【0007】

第２の態様である画像処理システムは、好ましくは第１の態様において、プロセッサは、取得された第２の静止画又は第２の動画のシーンを解析し、第２の解析結果を生成し、第２の時刻情報に対応する第１の時刻情報を有する第１の動画のシーンの解析を行って第１の解析結果を生成し、第１の解析結果及び第２の解析結果の比較結果に基づいて、第１の動画にチャプタを付与する。

【0008】

第３の態様である画像処理システムは、好ましくは第２の態様において、プロセッサは、取得された第２の静止画又は第２の動画に含まれる少なくとも１以上の画像と、第２の時刻情報に対応する第１の時刻情報を有する第１の動画に含まれる少なくとも１以上の画像との比較結果により、第１の動画にチャプタを付与する。

【0009】

第４の態様である画像処理システムは、好ましくは第１の態様において、プロセッサは、取得された第２の静止画又は第２の動画を、第２の被写体を抽出することにより解析し、第１の動画を、第１の被写体を抽出することにより解析する。

【0010】

第５の態様である画像処理システムは、好ましくは第４の態様において、プロセッサは、第２の被写体と第１の被写体との属性に基づいて、第１の動画にチャプタを付与する。

【0011】

第６の態様である画像処理システムは、好ましくは第４の態様において、プロセッサは、第２の被写体と第１の被写体との位置及び姿勢の情報の少なくとも１つに基づいて、第１の動画にチャプタを付与する。

【0012】

第７の態様である画像処理システムは、好ましくは第４の態様において、プロセッサは、第１の動画のシーンにおいて、第２の被写体と第１の被写体との関連性に基づいて、第１の被写体が写っているシーンを有する第１の動画にチャプタを付与する。

【0013】

第８の態様である画像処理システムは、好ましくは第７の態様において、関連性を示す情報を記録する記録装置を備え、プロセッサは、第２の被写体の関連性を示す情報に基づいて、第１の被写体の関連性を判定する。

【0014】

第９の態様である画像処理システムは、好ましくは第８の態様において、関連性を示す関連情報は、第１の撮影装置に備えられる。

【0015】

第１０の態様である画像処理システムは、好ましくは第４の態様において、プロセッサは、第２の静止画又は第２の動画に含まれる、第２の被写体の行動に関する情報と、第１の動画に含まれる、第１の被写体の行動に関する情報と、に基づいて、第１の被写体の行動に関する情報に対応した時刻に、チャプタを付与する。

【0016】

第１１の態様である画像処理システムは、好ましくは第４の態様において、プロセッサは、チャプタが付与された時刻に関する情報を表示し、表示は、第１の被写体の属性に応じて表示形態が異なる。

【0017】

第１２の態様である画像処理システムは、好ましくは第１１の態様において、表示は、第１の被写体に応じて表示する色が異なる。

【0018】

第１３の態様である画像処理方法は、プロセッサを備える画像処理システムの画像処理方法であって、プロセッサにより行われる、第１の撮影装置で撮影された、第１の時刻情報を有する第１の動画を取得するステップと、第２の撮影装置で撮影された、第２の時刻情報を有する第２の静止画又は第２の動画を取得するステップと、取得された第２の静止画又は第２の動画と、第２の時刻情報に対応する第１の動画との比較結果に基づいて、第１の動画にチャプタを付与するステップと、を含む。

【0019】

第１４の態様であるプログラムは、プロセッサを備える画像処理システムに画像処理方法を実行させるプログラムであって、プロセッサに、第１の撮影装置で撮影された、第１の時刻情報を有する第１の動画を取得するステップと、第２の撮影装置で撮影された、第２の時刻情報を有する第２の静止画又は第２の動画を取得するステップと、取得された第２の静止画又は第２の動画と、第２の時刻情報に対応する第１の動画との比較結果に基づいて、第１の動画にチャプタを付与するステップと、を実行させる。

【図面の簡単な説明】

【0020】

【図1】図１は、画像処理システム、アクションカメラ、スマートフォンを示す図である。

【図2】図２は、アクションカメラのハードウェア構成例を示す図である。

【図3】図３は、スマートフォンのハードウェア構成例を示す図である。

【図4】図４は、画像処理システムのハードウェア構成の実施形態を示すブロック図である。

【図5】図５は、第３のプロセッサに実現される機能を示す機能ブロック図である。

【図6】図６は、チャプタ付きメイン動画の例を説明する図である。

【図7】図７は、画像処理システムにおけるチャプタ付きメイン動画の生成に関して説明する図である。

【図8】図８は、比較部の比較態様を説明する図である。

【図9】図９は、第１の実施形態におけるチャプタ付与を説明する図である。

【図10】図１０は、第２の実施形態におけるチャプタ付与を説明する図である。

【図11】図１１は、データベースに記憶されている被写体の関連性の記憶構成例を示す図である。

【図12】図１２は、第３の実施形態におけるチャプタ付与を説明する図である。

【図13】図１３は、チャプタ表示の一例を示す図である。

【図14】図１４は、チャプタ表示の他の例を説明する図である。

【図15】図１５は、チャプタ表示の他の例を説明する図である。

【図16】図１６は、データベースに記憶されているチャプタ表示を行うためのデータを示す概念図である。

【図17】図１７は、画像処理方法を示すフロー図である。

【図18】図１８は、画像処理システムが搭載されたアクションカメラを示す概念図である。

【発明を実施するための形態】

【0021】

以下、添付図面にしたがって本発明にかかる画像処理システム、画像処理方法、及びプログラムの好ましい実施形態について説明する。

【0022】

図１は、本発明の画像処理システムと、アクションカメラと、スマートフォンとを示す図である。

【0023】

画像処理システム１０は、例えばコンピュータで構成される。また、画像処理システム１０は、アクションカメラ１００及びスマートフォン２００とネットワークＮＷで接続されている。アクションカメラ１００は本発明の第１の撮影装置を構成し、スマートフォン２００は本発明の第２の撮影装置を構成している。ネットワークＮＷは、任意の周波数帯域が使用される無線通信を使用してもよいし、任意の有線形式の通信を使用してもよい。ネットワークＮＷは無線形式の通信と有線形式の通信とを組み合わせてもよく、ネットワークＮＷは、任意の通信規格を使用し得る。

【0024】

画像処理システム１０は、アクションカメラ１００で撮影された動画（第１の動画）を取得する。また、画像処理システム１０は、スマートフォン２００で撮影された動画（第２の動画）及び／又は静止画（第２の静止画）を取得する。なお、以下の説明では、アクションカメラ１００で撮影された動画をメイン動画として記載し、スマートフォン２００で撮影された動画をサブ動画、スマートフォン２００で撮影された静止画をサブ静止画として記載する。画像処理システム１０は、メイン動画とサブ静止画（又はサブ動画）とを取得し、メイン動画とサブ静止画（又はサブ動画）とを比較することにより、メイン動画にチャプタを付与する。

【0025】

アクションカメラ１００は、カメラ１１８（図２）の一部を構成するレンズ１１８Ａ、情報インジケータ１１８Ｂ、操作部１２０の一部を構成する操作ボタン１２０Ａを備える。例えば、アクションカメラ１００は、操作ボタン１２０Ａを１回押すと動画の撮影が開始され、動画の撮影が行われる。なお、撮影者は、アクションカメラ１００をヘルメットやリュックサックに取り付けて、ウェラブルカメラとして使用して、他の活動（例えばスキーやスキューバダイビングのスポーツ）を行うことができる。また、アクションカメラ
１００は、オートフォカス、自動露出（ＥＶ）、及びオートホワイトバランスにより撮影が行われる。アクションカメラ１００で撮影を行う場合には、撮影者は、被写体を狙いアクションカメラ１００を構えて撮影を行わず、例えば、ヘルメットやリュックサックに取り付けたまま、動画の撮影を行う。したがって、アクションカメラ１００で撮影されたメイン動画には、意図する被写体の自然な様子が写っているシーンが存在する。一方で、アクションカメラ１００は、被写体を狙って撮影を行っていないので、メイン動画には、意図する被写体が写っていないシーンや、意図する被写体が写っていても顔を背けていて上手く写っていないシーンが存在する場合がある。また、アクションカメラ１００での撮影は、動画の撮影を開始した後に、一定時間（長時間）継続して撮影することがある。したがって、アクションカメラ１００で撮影されたメイン動画は、長時間となる場合があり、メイン動画を後から鑑賞する場合には、見るべきタイミングを探すのに時間を要してしまう。

【0026】

スマートフォン２００は、アクションカメラ１００と同様にカメラ機能を有し、サブ動画及びサブ静止画を撮影することが可能である。例えば、撮影者は、スマートフォン２００により撮影を行う場合には、スマートフォン２００のカメラ２１８のレンズ（不図示）を狙った被写体に向けて、スマートフォン２００の表示部２０４に写った被写体（ライブビュー画像）を確認しながら動画又は静止画を撮影する。したがって、スマートフォン２００で撮影された動画又は静止画には、狙った被写体が写っている。一方で、スマートフォン２００での撮影は、被写体に対して構えて撮影を行うために、被写体の自然な表情を撮影することは難しい。

【0027】

ここで、上述した特許文献（特開２０１０－１９９８１６号公報）に記載された技術では、第２の撮像装置（本説明のスマートフォン２００に相当）の撮影時刻が集中している部分を、第１の撮像装置（本説明のアクションカメラ１００に相当）で撮影されている動画（本説明のメイン動画に相当）の重要時刻（時間帯）としてチャプタを付与している。

【0028】

しかしながら、上述したようにアクションカメラ１００とスマートフォン２００とで撮影を行って、単にスマートフォン２００でサブ静止画を撮影した時刻に応じて、アクションカメラ１００で撮影したメイン動画にチャプタを付与してしまうと、有効なチャプタを付与することが出来ない場合がある。

【0029】

例えば、スマートフォン２００でサブ静止画を撮影した時刻において、アクションカメラ１００が被写体である子供の方を向いていなく、メイン動画子供が上手く写っていない場合がある。このような場合に、スマートフォン２００でサブ静止画を撮影した時刻に応じて、メイン動画にチャプタを付与しても、有効なチャプタの付与を行うことができない。

【0030】

以上より、画像処理システム１０では、スマートフォン２００で撮影されたサブ動画又はサブ静止画の解析結果と、メイン動画の解析結果とを比較して、比較結果に応じてメイン動画にチャプタを付与する。これにより、メイン動画に有効なチャプタを付与することができ、見るべきタイミングを分かりやすくユーザに提供することができる。

【0031】

＜アクションカメラ及びスマートフォン＞
次に、アクションカメラ１００及びスマートフォン２００に関して説明する。

【0032】

図２は、アクションカメラ１００のハードウェア構成例を示す図である。

【0033】

アクションカメラ１００は、第１のプロセッサ１１２、メモリ１１６、通信インターフェース１１４、カメラ１１８、操作部１２０を少なくとも備える。

【0034】

第１のプロセッサ１１２は、ＣＰＵ（Central Processing Unit）で構成される。また、第１のプロセッサ１１２は、ＧＰＵ（Graphics Processing Unit）を含んで構成されてもよい。第１のプロセッサ１１２は、バス１１３を介してメモリ１１６、通信インターフェース１１４、カメラ１１８、及び操作部１２０に接続される。第１のプロセッサ１１２は、メモリ１１６に記憶されている専用のプログラムを実行することにより、様々な機能を実現することができる。

【0035】

メモリ１１６は、主記憶装置であるメモリ及び補助記憶装置であるストレージを含む。メモリ１１６は、例えば、半導体メモリ、ハードディスク（ＨＤＤ：Hard Disk Drive）装置、若しくはソリッドステートドライブ（ＳＳＤ：Solid State Drive）装置又はこれらの複数の組み合わせであってよい。メモリ１１６には、画像処理プログラムを含む各種のプログラム及びデータ等が記憶される。

【0036】

通信インターフェース１１４は、画像処理システム１０との無線又は有線通信を行う通信部である。

【0037】

カメラ１１８は、動画又は静止画を撮影することが可能であり、カメラ１１８によりメイン動画が撮影される。カメラ１１８は、オートフォカス、自動露出（ＥＶ）、及びオートホワイトバランスにより撮影が行われる。また、カメラ１１８は、動画を例えば２５ｆｐｓ（frames per second）又は３０ｆｐｓにより撮影することができる。また、カメラ１１８は、数十分間から数時間の動画の撮影を行うことができる。

【0038】

操作部１２０の一部は、操作ボタン１２０Ａで構成される。操作ボタン１２０Ａを押下することにより動画の記録の開始が行われ、もう一度操作ボタン１２０Ａを押下すると終了が行われる。また、操作ボタン１２０Ａは、静止画を撮影する場合にはシャッターボタンとして機能する。なお、第１のプロセッサ１１２は、時計機能を有しており、カメラ１１８で撮影された動画又は静止画の撮影時刻（第１の時刻情報）を、その動画又は静止画に付帯情報として付与する。

【0039】

図３は、スマートフォン２００のハードウェア構成例を示す図である。なお、図３に示す構成は本発明の説明に必要な部分示し、通話機能等の図示及び説明は省略する。

【0040】

スマートフォン２００は、第２のプロセッサ２１２、メモリ２１６、通信インターフェース２１４、表示部２０４、カメラ２１８、及び操作部２２０を備える。なお、第２のプロセッサ２１２、メモリ２１６、通信インターフェース２１４、及びカメラ２１８は前述したアクションカメラ１００と同様であるので、説明は省略する。

【0041】

スマートフォン２００は、表示部２０４を有する。また、カメラ２１８で動画又は静止画を撮影する場合には、表示部２０４にはライブビュー画像が表示される。したがって、撮影者はそのライブビュー画像を確認しながら動画又は静止画を撮影することができる。

【0042】

操作部２２０は、表示部２０４に備えられるタッチスクリーンやボタン２０６で構成される。操作部２２０を操作することによって、動画の記録の開始及び終了を制御することができる。また、操作部２２０は、静止画を撮影する場合のシャッターボタンとして機能する。なお、第２のプロセッサ２１２は、時計機能を有しており、カメラ２１８で撮影された動画又は静止画の撮影時刻（第２の時刻情報）を、その動画又は静止画に付帯情報として付与する。

【0043】

なお、第１のプロセッサ１１２及び第２のプロセッサ２１２により付与される撮影時刻
は、２０２３年３月１９日１６時３２分４３秒のような絶対的な時刻であってもよいし、また、例えば、アクションカメラ１００での撮影を開始した時点を、アクションカメラ１００とスマートフォン２００とで共有し、その時点からの経過時間を、メイン動画の撮影時刻（第１の時刻情報）、サブ動画又はサブ静止画の撮影時刻（第２の時刻情報）としてもよい。

【0044】

＜画像処理システム＞
次に、画像処理システム１０に関して説明する。

【0045】

図４は、画像処理システム１０のハードウェア構成の実施形態を示すブロック図である。

【0046】

図４に示す画像処理システム１０は、第３のプロセッサ１２、メモリ１４、データベース（記録装置）１６、表示部１８、入出力インターフェース２０、及び操作部２２を備える。

【0047】

第３のプロセッサ１２は、ＣＰＵ（Central Processing Unit）等から構成され、画像処理システム１０の各部を統括制御するとともに、後で説明する第１の取得部１２Ａ、第２の取得部１２Ｂ、第１の解析部１２Ｃ、第２の解析部１２Ｄ、比較部１２Ｅ、及びチャプタ付与部１２Ｆの機能を専用のプログラムを実行することにより実現する（図５参照）。この第３のプロセッサ１２の各種の処理の詳細については後述する。

【0048】

メモリ１４は、フラッシュメモリ、ＲＯＭ（Read-only Memory）、及びＲＡＭ(Random Access Memory)、ハードディスク装置等を含む。フラッシュメモリ、ＲＯＭ又はハードディスク装置は、オペレーションシステムを含む各種のプログラム等を記憶する不揮発性メモリである。ＲＡＭは、第３のプロセッサ１２による処理の作業領域として機能するとともに、フラッシュメモリ等に格納されたプログラム等を一時的に記憶する。なお、第３のプロセッサ１２が、メモリ１４の一部（ＲＡＭ）を内蔵していてもよい。

【0049】

また、メモリ１４は、アクションカメラ１００から取得するメイン動画を記録し、スマートフォン２００から取得するサブ動画又はサブ静止画を記録する。

【0050】

データベース１６は、画像処理に必要な様々なデータを記録する記録装置である。例えば、被写体と被写体との関連性を示す関連情報（図１０参照）を記録する。なお、関係性データに関しては後で説明を行う。

【0051】

表示部１８は、例えばメイン動画や、メイン動画５０に付与されたチャプタに関するチャプタ表示を表示する。

【0052】

入出力インターフェース２０は、外部機器と接続可能な接続部、及びネットワークＮＷと接続可能な通信部等を含む。外部機器と接続可能な接続部としては、ＵＳＢ（Universal Serial Bus）、ＨＤＭＩ（High-Definition Multimedia Interface）（ＨＤＭＩは登録商標）等を適用することができる。第３のプロセッサ１２は、入出力インターフェース２０を介して、アクションカメラ１００からメイン動画５０を取得したり、スマートフォン２００からサブ動画又はサブ静止画を取得したりする。また、入出力インターフェース２０は、外部からの要求に応じて必要な情報を出力することが可能である。

【0053】

操作部２２０は、マウス等のポインティングデバイス、キーボード等を含み（図１を参照）、ユーザ操作による各種の情報、指示の入力を受け付ける。

【0054】

＜画像処理システムの動作＞
次に、画像処理システム１０におけるメイン動画へのチャプタの付与に関して説明する。

【0055】

図５は、第３のプロセッサ１２に実現される機能を示す機能ブロック図である。なお、第３のプロセッサ１２は、メモリ１４に記憶されている専用のプログラムを実行することに機能を実現する。

【0056】

第３のプロセッサ１２は、第１の取得部１２Ａ、第２の取得部１２Ｂ、第１の解析部１２Ｃ、第２の解析部１２Ｄ、比較部１２Ｅ、チャプタ付与部１２Ｆの機能を実現する。

【0057】

第１の取得部１２Ａは、アクションカメラ１００で撮影されたメイン動画を取得する。例えば、画像処理システム１０の入出力インターフェース２０を介して取得したメイン動画５０を、第１の取得部１２Ａは取得する。なお、メイン動画には、メイン動画が撮影された時刻に関する第１の時刻情報が付されており、第１の取得部１２Ａはこの第１の時刻情報も合わせて取得する。

【0058】

第２の取得部１２Ｂは、スマートフォン２００で撮影されたサブ動画又はサブ静止画を取得する。例えば、画像処理システム１０の入出力インターフェース２０を介して取得したサブ動画又はサブ静止画を、第２の取得部１２Ｂは取得する。なお、サブ動画及びサブ静止画には、サブ動画又はサブ静止画が撮影された時刻に関する第２の時刻情報が付されており、第２の取得部１２Ｂはこの第２の時刻情報も合わせて取得する。

【0059】

第１の解析部１２Ｃは、メイン動画の解析を行い、第１の解析結果を生成する。また、第２の解析部１２Ｄは、取得したサブ動画又は取得したサブ静止画の解析を行い、第２の解析結果を生成する。第１の解析部１２Ｃ及び第２の解析部１２Ｄは、様々な手法により解析を行うことができる。例えば、第１の解析部１２Ｃ及び第２の解析部１２Ｄは、被写体を検出することにより解析を行う。

【0060】

比較部１２Ｅは、第１の解析結果と第２の解析結果とを比較する。例えば、比較部１２Ｅは、第１の解析結果と第２の解析結果とは同一又は同等である場合には、同一又は同等であるという比較結果を生成する。また、比較部１２Ｅは、第１の解析結果と第２の解析結果とは異なる場合には、異なるという比較結果を生成する。また例えば、比較部１２Ｅは、サブ動画又はサブ静止画に写っている被写体が、メイン動画に写っているかを、テンプレートマッチングや、類似度評価に基づいて比較を行ってもよい。

【0061】

チャプタ付与部１２Ｆは、比較結果に基づいてチャプタをメイン動画に付与する。具体的には、チャプタ付与部１２Ｆは、同一又は同等であるという比較結果の場合には、メイン動画５０にチャプタを付与する。また、異なるという比較結果の場合には、メイン動画５０にチャプタを付与しない。ここで、チャプタとは、動画を構成するフレーム画像の１枚以上に対して付すマーク又は目印を意味する。チャプタは、フレーム画像１枚（一瞬）に対して付与されてもよいし、連続する複数枚（時間帯）に付与されてもよい。なお、動画データの特定時刻を、リストや表に（別ファイルで）入力及び／又は保存することも、「チャプタ入力」とみなす。

【0062】

図６は、チャプタ付与部１２Ｆでチャプタが付与されたチャプタ付きメイン動画の例を説明する図である。

【0063】

図示するチャプタ付きメイン動画のファイル名は「２０２３０２０２１２１１．ｍｐ４」であり、ｍｐ４のファイル形式で保存されている。

【0064】

チャプタ付与部１２Ｆは、メイン動画の時刻「００：０４：１４」に「Ｃｈａｐｔｅｒ１」を付与している。また、チャプタ付与部１２Ｆは、メイン動画の時刻「００：１１：１０」に「Ｃｈａｐｔｅｒ２」を付与している。また、チャプタ付与部１２Ｆは、メイン動画の時刻「００：１５：１１」に「Ｃｈａｐｔｅｒ３」を付与している。また、チャプタ付与部１２Ｆは、メイン動画の時刻「００：１７：４０～００：２１：５５」「Ｃｈａｐｔｅｒ４－５」を付与している。このように、メイン動画にチャプタを付与することにより、チャプタ付きメイン動画を生成することができる。チャプタ付きメイン動画は、チャプタの情報と共に保存可能である。例えば、動画ファイル、２０２３０２０９１２１１．ｍｐ４の付帯情報として、２０２３０２０９１２１１．ｄａｔが存在して保存してもよい。また、チャプタの情報を２０２３０２０９１２１１．ｍｐ４のタグ領域に保存してもよい（ファイル一体型）。

【0065】

図７は、画像処理システム１０におけるチャプタ付きメイン動画の生成に関して説明する図である。

【0066】

アクションカメラ１００はメイン動画５０を撮影し、ネットワークＮＷを介して画像処理システム１０に送信する。画像処理システム１０の第１の取得部１２Ａは、メイン動画５０を取得する。

【0067】

また、スマートフォン２００は、サブ静止画５２又はサブ動画５４を撮影し、ネットワークＮＷを介して画像処理システム１０に送信する。画像処理システム１０の第２の取得部１２Ｂは、サブ静止画５２又はサブ動画５４を取得する。

【0068】

その後、画像処理システム１０の第１の解析部１２Ｃは、メイン動画５０を解析する。また、画像処理システム１０の第２の解析部１２Ｄは、取得されたサブ静止画５２又は取得されたサブ動画５４を解析する。そして、画像処理システム１０の比較部１２Ｅは、第１の解析部１２Ｃの第１の解析結果と第２の解析部１２Ｄの第２の解析結果とを比較する。

【0069】

比較部１２Ｅは、サブ静止画５２、又はサブ動画５４に含まれる少なくとも１以上の画像（フレーム）と、第２の時刻情報に対応する第１の時刻情報を有するメイン動画５０に含まれる少なくとも１以上のフレームとの比較結果を生成する。具体的には、比較部１２Ｅは、サブ静止画５２（又はサブ動画５４）が撮影された時刻に撮影されたメイン動画５０に含まれる少なくとも１以上のフレームとの比較結果を生成する。

【0070】

図８は、比較部１２Ｅの比較態様を説明する図である。

【0071】

図８（Ａ）では、比較部１２Ｅは、時刻Ｔ１で撮影されたサブ静止画５２と、時刻Ｔ１で撮影されたメイン動画５０の１フレームとでの解析結果を比較している。具体的には、比較部１２Ｅは、時刻Ｔ１で撮影されたサブ静止画５２に写っている被写体（解析結果）と、メイン動画５０の１フレームに写っている被写体（解析結果）とを比較し比較結果を生成する。なお、アクションカメラ１００は、メイン動画５０を例えば２５ｆｐｓで撮影している場合には、時刻Ｔ１（例えば、ＸＸ時ＸＸ分ＸＸ秒）で撮影された２５枚のフレームから代表する１フレーム（所定の期間に撮影されたフレームの中央のフレーム、又は最初のフレーム等）によって比較が行われる。

【0072】

図８（Ｂ）では、比較部１２Ｅは、時刻Ｔ１で撮影されたサブ静止画５２と、時刻Ｔ１で撮影されたメイン動画５０の複数のフレーム（図では３フレーム）とでの解析結果を比較している。具体的には、比較部１２Ｅは、時刻Ｔ１で撮影されたサブ静止画５２に写っ
ている被写体（解析結果）と、メイン動画５０の１フレームに写っている被写体（解析結果）とを比較し比較結果を生成する。なお、アクションカメラ１００は、メイン動画５０が例えば２５ｆｐｓで撮影している場合には、時刻Ｔ１（例えば、ＸＸ時ＸＸ分ＸＸ秒）における全てのフレーム又は代表する複数のフレーム（所定の期間に撮影されたフレームにおいて、選択された代表するフレーム）によって比較が行われる。

【0073】

図８（Ｃ）では、比較部１２Ｅは、時刻Ｔ１で撮影されたサブ動画５４の複数のフレーム（図では３フレーム）と、時刻Ｔ１で撮影されたメイン動画５０の１フレームとでの解析結果を比較している。具体的には、比較部１２Ｅは、時刻Ｔ１で撮影されたサブ動画５４に写っている被写体（解析結果）と、メイン動画５０の１フレームに写っている被写体（解析結果）とを比較し比較結果を生成する。なお、スマートフォン２００は、サブ静止画５２を例えば２５ｆｐｓで撮影している場合には、時刻Ｔ１（例えば、ＸＸ時ＸＸ分ＸＸ秒）における代表する複数のフレーム（所定の期間に撮影されたフレームにおいて、選択された代表するフレーム）によって比較が行われる。

【0074】

図８（Ｄ）では、比較部１２Ｅは、時刻Ｔ１で撮影されたサブ動画５４の複数のフレームと、時刻Ｔ１で撮影されたメイン動画５０の複数のフレームとでの解析結果を比較している。具体的には、比較部１２Ｅは、時刻Ｔ１（例えば、ＸＸ時ＸＸ分ＸＸ秒）で撮影されたサブ動画５４に写っている被写体（解析結果）と、時刻Ｔ１（例えば、ＸＸ時ＸＸ分ＸＸ秒）で撮影されたメイン動画５０に写っている被写体（解析結果）と、を比較し比較結果を生成する。なお、アクションカメラ１００及びスマートフォン２００は、時刻Ｔ１（例えば、ＸＸ時ＸＸ分ＸＸ秒）における代表する複数のフレームによって比較が行われる。

【0075】

このように、比較部１２Ｅは、同じ時刻、又は同じ時刻付近に撮影されたメイン動画５０とサブ静止画５２（サブ動画５４）を比較することにより、比較結果を生成する。

【0076】

図７に戻って、チャプタ付与部１２Ｆは、比較結果に基づいて、メイン動画５０にチャプタを付与しチャプタ付きメイン動画６０を生成する。以下に、チャプタ付与部１２Ｆにおけるメイン動画５０へのチャプタ付与の具体例を実施形態に沿って説明する。

【0077】

＜第１の実施形態＞
第１の実施形態では、チャプタ付与部１２Ｆは、比較部１２Ｅが第１の解析結果及び第２の解析結果において同一の被写体が写っていると比較結果を生成した場合には、チャプタをメイン動画５０に付与する。なお、ここで同一の被写体とは、第１の解析部１２Ｃ及び第２の解析部１２Ｄで、個人を特定する解析が行われた場合には、第１の解析結果と第２の解析結果とにおいて同一の個人が写っている場合である。また、同一の被写体とは、第１の解析部１２Ｃ及び第２の解析部１２Ｄで、被写体の属性（例えば「男」「女」「子供」等）を特定する解析が行われた場合には、同一の属性の被写体が写っている場合である。また、同一の被写体とは、第１の解析部１２Ｃ及び第２の解析部１２Ｄで、被写体の顔を抽出し特徴量ベクトル化して解析した場合には、第１の解析結果と第２の解析結果とにおいて特徴量ベクトルの差分が所定の範囲内である場合である。なお、第１の解析部１２Ｃ及び第２の解析部１２Ｄで、被写体の顔を抽出し特徴量ベクトルを算出する場合には、第１の解析部１２Ｃ及び第２の解析部１２Ｄは、特徴量ベクトルを予め定められた特徴（例えば、顔における目、鼻、口の面積比率）によって算出してもよいし、予め生成しておいた学習済みモデルで算出してもよい。

【0078】

図９は、第１の実施形態におけるチャプタ付与を説明する図である。

【0079】

第１の取得部１２Ａは、時刻Ｔ１での撮影を含むメイン動画５０を取得する。

【0080】

第２の取得部１２Ｂは、撮影時刻Ｔ＝Ｔ１で撮影したサブ静止画５２を取得し、第２の解析部１２Ｄは、サブ静止画５２を解析し第２の解析結果を生成する。具体的には、第２の解析部１２Ｄは、サブ静止画５２の被写体（第２の被写体）抽出を行い、被写体である母Ｐ１及び子供Ｐ２を抽出して、第２の解析結果を生成する。また、第１の解析部１２Ｃは、メイン動画５０における時刻Ｔ１でのシーンを解析し被写体（第１の被写体）抽出を行って第１の解析結果を生成する。そして、比較部１２Ｅは、第１の解析結果と第２の解析結果とを比較して、同一の被写体（ここでは母Ｐ１及び子供Ｐ２）が写っている場合には、メイン動画５０の時刻Ｔ１にチャプタＣ１を付与し、チャプタ付きメイン動画６０を生成する。なお、チャプタ付与部１２Ｆは、被写体との位置及び姿勢の情報の少なくとも１つに基づいて、チャプタを付与してもよい。例えば、チャプタ付与部１２Ｆは、メイン動画５０において母Ｐ１及び子供Ｐ２が正対して写っている場合には、チャプタＣ１を付与する。また例えば、チャプタ付与部１２Ｆは、メイン動画５０において母Ｐ１及び子供Ｐ２が近づいている場合には、チャプタＣ１を付与する。

【0081】

なお、上述の例では、母Ｐ１及び子供Ｐ２において第１の解析結果と第２の解析結果とを比較して同一性がある場合に、チャプタが付与される例について説明したが、本発明はこれに限定されるものではない。例えば、母Ｐ１又は子供Ｐ２において、第１の解析結果と第２の解析結果とを比較して同一性を判断してもよい。また、比較部１２Ｅの同一性の判断は、母Ｐ１ではなく、「女性」や「人」などの「属性」により、同一性を判断してもよい。

【0082】

以上のように、チャプタ付与部１２Ｆは、サブ静止画５２における被写体とメイン動画５０における被写体との同一性、又は同一の被写体の位置及び姿勢の少なくとも一つに基づいて、チャプタＣ１を付与する。これにより、ユーザは、メイン動画５０を後から鑑賞したり、所望のシーンを切り出し編集したりする場合に、有効なチャプタに基づいて見るべきタイミングを知ることができ、効率的な作業をすることができる。

【0083】

＜第２の実施形態＞
第２の実施形態では、チャプタ付与部１２Ｆは、第１の解析結果及び第２の解析結果において、関連性を有する場合には、チャプタをメイン動画５０に付与する。画像処理システム１０には、例えばデータベース１６に予め被写体の関連情報が記憶されており、その関連情報に基づいて関連性がある被写体がメイン動画５０に検出された場合には、チャプタ付与部１２Ｆはチャプタを付与する。

【0084】

図１０は、第２の実施形態におけるチャプタ付与を説明する図である。

【0085】

第１の取得部１２Ａは、時刻Ｔ１での撮影を含むメイン動画５０を取得する。

【0086】

第２の取得部１２Ｂは、撮影時刻Ｔ＝Ｔ１で撮影したサブ静止画５２を取得する。そして、第２の解析部１２Ｄは、サブ静止画５２の被写体（第２の被写体）抽出を行い、息子Ｐ３を抽出する。ここで、画像処理システム１０のデータベース１６には、被写体の関連情報が記憶されている。したがって、第２の解析部１２Ｄは、データベース１６の関連情報に基づいて、解析結果を生成する。

【0087】

図１１は、データベース１６に記憶されている被写体の関連情報の記憶構成例を示す図である。

【0088】

関連情報には、親子Ａの場合には息子Ｐ３と父親Ｐ４との顔画像が共に記憶されている。第２の解析部１２Ｄは、サブ静止画５２において息子Ｐ３を検出した場合に、関連情報
に基づいて、父親Ｐ４の顔画像も解析結果に含める。

【0089】

図１０に戻って、第１の解析部１２Ｃは、メイン動画５０における時刻Ｔ１でのシーンを解析し被写体（第１の被写体）抽出を行って第１の解析結果を生成する。比較部１２Ｅは、関連情報に基づいて、第１の解析部１２Ｃの解析結果と第２の解析部１２Ｄの解析結果を比較する。具体的には、比較部１２Ｅは、第１の解析部１２Ｃの解析結果において息子Ｐ又は息子Ｐ３に関連性のある父親Ｐ４が写っているかの判定を行う。そして、チャプタ付与部１２Ｆは、メイン動画５０に息子Ｐ３又は父親Ｐ４が写っている場合には、時刻Ｔ１にチャプタＣ２を付与する。

【0090】

以上のように、チャプタ付与部１２Ｆは、サブ静止画５２における被写体と関連性を有する被写体をメイン動画５０で検出した場合にも、チャプタを付与する。これにより、ユーザは、メイン動画５０を後から鑑賞したり、所望のシーンを切り出し編集したりする場合に、有効なチャプタに基づいて見るべきタイミングを知ることができ、効率的な作業をすることができる。また、本実施形態においては、サブ静止画５２（又はサブ動画５４）が有する被写体のみならず、関連情報に記憶された被写体を抽出した場合にも有効なチャプタが付与されるので、ユーザはより多くのシーンの見るべきタイミングを知ることができる。

【0091】

＜第３の実施形態＞
第３の実施形態では、チャプタ付与部１２Ｆは、第１の解析結果及び第２の解析結果において同一の行動を検出した場合には、行動の開始時刻と行動の終了時刻にチャプタを付与する。

【0092】

図１２は、第３の実施形態におけるチャプタ付与を説明する図である。

【0093】

第１の取得部１２Ａは、時刻Ｔ１での撮影を含むメイン動画５０を取得する。

【0094】

第２の取得部１２Ｂは、撮影時刻Ｔ＝Ｔ１で撮影したサブ静止画５２を取得する。そして、第２の解析部１２Ｄは、サブ静止画５２において、被写体（第２の被写体）が野球のバットを構えている行動を認識する（行動に関する情報の取得）。また、第１の解析部１２Ｃは、メイン動画５０において、被写体（第１の被写体）がバットを振る行動を認識する（行動に関する情報の取得）。そして、比較部１２Ｅは、同一被写体の同一行動であるという比較結果を生成し、チャプタ付与部１２Ｆは、被写体がバットを構えた瞬間（開始時刻）にチャプタＣ３を付与し、バットを振り抜いた時刻（終了時刻）にチャプタＣ４を付与する。

【0095】

以上のように、第２の解析部１２Ｄは、サブ静止画５２における被写体の行動を認識し、第１の解析部１２Ｃはメイン動画５０における被写体の行動を認識し、チャプタ付与部１２Ｆは行動開始と行動終了にチャプタを付与する。これにより、ユーザは、メイン動画５０を後から鑑賞したり、所望のシーンを切り出し編集したりする場合に、有効なチャプタに基づいて見るべきタイミングを知ることができ、効率的な作業をすることができる。また、本実施形態においては、メイン動画５０における行動に対して有効なチャプタが付与されるので、ユーザはより多くのシーンの見るべきタイミングを知ることができる。

【0096】

＜表示形態＞
次に、メイン動画５０においてチャプタを付与した場合に、チャプタが付与された時刻に関する情報の表示（チャプタ表示）について説明する。画像処理システム１０は、表示部１８を有し、この表示部１８にチャプタ表示を行うことで、ユーザに対してチャプタの位置又は時刻を報知することができる。

【0097】

図１３は、表示部１８でのチャプタ表示の一例を示す図である。

【0098】

第１の取得部１２Ａは、時刻Ｔａ及びＴｂを含むメイン動画５０を取得する。第１の解析部１２Ｃは、メイン動画５０において、時刻Ｔａにおいて父親Ｐ４を検出し、時刻Ｔｂにおいて、息子Ｐ３を検出する。

【0099】

第２の取得部１２Ｂは、時刻Ｔａ及びＴｂを含むサブ動画５４を取得する。第２の解析部１２Ｄは、サブ動画５４において、時刻Ｔａにおいて父親Ｐ４を検出する。また、第２の解析部１２Ｄは、サブ動画５４において、時刻Ｔｂにおいて父親Ｐ４を検出する。なお、息子Ｐ３と父親Ｐ４とは、前述した第２の実施形態で説明したように、関連性を有する被写体である。

【0100】

チャプタ付与部１２Ｆは、この場合には、時刻ＴａにチャプタＣ５を付与し、時刻ＴｂにチャプタＣ６を付与する。

【0101】

また、表示部１８は、時刻Ｔａでは、メイン動画５０及びサブ動画５４において、父親Ｐ４を検出されているので、赤色の矢印でチャプタＣ５のチャプタ表示を行う。一方、時刻Ｔｂでは、メイン動画５０では息子Ｔｂ、サブ動画５４では父親Ｐ４が検出されているので、青色の矢印でチャプタＣ６のチャプタ表示を行う。

【0102】

このように、メイン動画５０とサブ静止画５２との写っている被写体に応じて、チャプタ表示の表示態様（例えば色）を変えることにより、ユーザは効率的にメイン動画５０の鑑賞を行うことができる。

【0103】

図１４は、チャプタ表示の他の例を説明する図である。

【0104】

図１４に示す例では、ある区間を示すチャプタをタイムバー表示７０で示している。例えば、母及び子供が被写体として写っている時刻にチャプタを付与する場合には、赤のタイムバーでチャプタ表示７２を行い、子供のみ被写体として写っている時刻にチャプタを付与する場合には、黄色のタイムバーでチャプタ表示７４を行い、母、子供、及び父親が被写体として写っている時刻にチャプタを付与する場合には、青色のタイムバーでチャプタ表示７６を行う。

【0105】

このように、メイン動画５０で写っている被写体に応じて、タイムバーの色を変えて、チャプタ表示を行うことにより、ユーザは、メイン動画５０における被写体を把握することができ、効率的に鑑賞を行うことができる。

【0106】

図１５は、チャプタ表示の他の例を説明する図である。

【0107】

図１５に示す例では、文字表示によりチャプタ表示７８を表示部１８に行っている。チャプタ表示７８では、文字によりチャプタが付与された時刻と、その時刻に写っている被写体とが文字により示されている。また、このチャプタ表示７８は、写っている被写体に応じて色を変えてもよい。例えば、「子供」のチャプタ表示は橙色、「父親」のチャプタ表示は青色、「母親」のチャプタ表示は赤色で表示される。

【0108】

このように、メイン動画５０で写っている被写体を、文字及び色で表示することにより、ユーザは、メイン動画５０における被写体を把握することができ、効率的に鑑賞を行うことができる。

【0109】

以上で説明したように、チャプタ表示を行うためのデータは、例えば画像処理システム１０は、データベース１６に記憶されている。

【0110】

図１６は、データベース１６に記憶されているチャプタ表示を行うためのデータの具体例を示す概念図である。

【0111】

データベース１６には、メイン動画５０の１：５２：１０～１：５５：１０（動画）の間にチャプタ種類Ａのチャプタ表示を赤色で行うことが記憶されている。また、データベース１６には、メイン動画５０の２：１１：１０～２：１２：０５（動画）の間にチャプタ種類Ｂのチャプタ表示を青色で行うことが記憶されている。また、データベース１６には、メイン動画５０の２：５２：５０（静止画）にチャプタ種類Ａのチャプタ表示を赤色で行うことが記憶されている。

【0112】

＜画像処理方法＞
次に、画像処理システム１０を使用した画像処理方法に関して説明する。なお、画像処理システム１０は、第３のプロセッサ１２が専用のプログラムを実行することにより、画像処理方法を行う。

【0113】

図１７は、画像処理方法を示すフロー図である。

【0114】

先ず、第１の取得部１２Ａは、メイン動画５０を取得する（ステップＳ０１）。例えば、第１の取得部１２Ａは、アクションカメラ１００からメイン動画５０を取得する。次に、第２の取得部１２Ｂは、サブ静止画（又はサブ動画）５２を取得する（ステップＳ０２）。例えば、第２の取得部１２Ｂは、スマートフォン２００からサブ静止画（又はサブ動画）５２を取得する。

【0115】

そして、第１の解析部１２Ｃは、メイン動画５０を解析し第１の解析結果を生成する（ステップＳ０３）。また、第２の解析部１２Ｄは、サブ静止画（又はサブ動画）５２を解析し第２の解析結果を生成する（ステップＳ０４）。その後、比較部１２Ｅは、第１の解析結果と第２の解析結果とを比較し比較結果を生成する（ステップＳ０５）。そして、チャプタ付与部１２Ｆは、その比較結果に応じてチャプタを付与する（ステップＳ０６）。

【0116】

＜画像処理システムの他の態様＞
次に、画像処理システム１０の他の態様に関して説明する。以上で説明した例では、画像処理システム１０は、アクションカメラ１００やスマートフォン２００とは別体のコンピュータで構成されている例について説明した。しかしながら、本発明の画像処理システムはこの態様に限定されない。例えば、アクションカメラ１００に画像処理システム１０が搭載されていてもよい。すなわち、アクションカメラ１０１（図１８）は、図４及び図５で説明した画像処理システム１０のハードウェア構成や第３のプロセッサ１２が実現する機能を有している。

【0117】

図１８は、画像処理システムが搭載されたアクションカメラを示す概念図である。

【0118】

アクションカメラ１０１は、画像処理システム１０を搭載し、スマートフォン２００との情報を相互に送受信可能である。アクションカメラ１０１は、メイン動画５０を撮影し、スマートフォン２００は、サブ静止画（又はサブ動画）５２を撮影する。スマートフォン２００は、撮影したサブ静止画（又はサブ動画）５２をアクションカメラ１０１に送信する。これにより、アクションカメラ１０１は、メイン動画５０とサブ静止画（又はサブ動画）５２とを取得し、メイン動画５０に対してチャプタを付与する画像処理を行う。

【0119】

このように、アクションカメラ１０１に画像処理システム１０が搭載されている場合には、スマートフォン２００からサブ静止画（又はサブ動画）５２を取得して、メイン動画５０にチャプタを付与することができる。

【0120】

また、画像処理システム１０の別の態様として、スマートフォン２００に画像処理システム１０が搭載されていてもよい。この場合には、スマートフォン２００が、サブ静止画５２を取得したら、サブ静止画（又はサブ動画）５２が取得されたことをアクションカメラ１００に伝える。そして、アクションカメラ１００が、サブ静止画（又はサブ動画）５２の撮影時刻付近のメイン動画５０を切り出してスマートフォン２００に転送する。これにより、スマートフォン２００は、サブ静止画（又はサブ動画）５２と撮影時刻付近のメイン動画５０を有することになり、チャプタ付与を行うことができる。なお、この場合は、スマートフォン２００でチャプタ付与が決定されたら、再度アクションカメラ１００にチャプタ付与に関する情報が送信される。

【0121】

また、画像処理システム１０は、クラウドで構成されていてもよい。クラウドで構成された画像処理システム１０に、アクションカメラ１００で撮影したメイン動画５０及びスマートフォン２００で撮影されたサブ静止画（又はサブ動画）５２を撮影後直ぐに転送する。そして、クラウドで構成された画像処理システム１０は、チャプタの付与を決定し、チャプタ付与に関する情報が送信される。

【0122】

＜その他＞
上記実施形態において、各種の処理を実行する処理部（processing unit）のハードウェア的な構造は、次に示すような各種のプロセッサ（processor）である。各種のプロセッサには、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

【0123】

１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種又は異種の２つ以上のプロセッサ（例えば、複数のＦＰＧＡ、あるいはＣＰＵとＦＰＧＡの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

【0124】

さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

【0125】

上述の各構成及び機能は、任意のハードウェア、ソフトウェア、或いは両者の組み合わせによって適宜実現可能である。例えば、上述の処理ステップ（処理手順）をコンピュータに実行させるプログラム、そのようなプログラムを記録したコンピュータ読み取り可能な記録媒体（非一時的記録媒体）、或いはそのようなプログラムをインストール可能なコンピュータに対しても本発明を適用することが可能である。

【0126】

＜付記＞
なお、上述した開示内容には、以下に示す発明も含んでいる。
（態様１）
プロセッサを備える画像処理システムであって、
前記プロセッサは、
第１の撮影装置で撮影された、第１の時刻情報を有する第１の動画を取得し、
第２の撮影装置で撮影された、第２の時刻情報を有する第２の静止画又は第２の動画を取得し、
取得された前記第２の静止画又は前記第２の動画と、前記第２の時刻情報に対応する前記第１の動画との比較結果に基づいて、前記第１の動画にチャプタを付与する、
画像処理システム。
（態様２）
前記プロセッサは、
取得された前記第２の静止画又は前記第２の動画のシーンを解析し、第２の解析結果を生成し、
前記第２の時刻情報に対応する前記第１の時刻情報を有する前記第１の動画のシーンの解析を行って第１の解析結果を生成し、
前記第１の解析結果及び前記第２の解析結果の前記比較結果に基づいて、前記第１の動画に前記チャプタを付与する、
態様１に記載の画像処理システム。
（態様３）
前記プロセッサは、
取得された前記第２の静止画又は前記第２の動画に含まれる少なくとも１以上の画像と、前記第２の時刻情報に対応する前記第１の時刻情報を有する前記第１の動画に含まれる少なくとも１以上の画像との前記比較結果により、
前記第１の動画に前記チャプタを付与する、
態様２に記載の画像処理システム。
（態様４）
前記プロセッサは、
取得された前記第２の静止画又は前記第２の動画を、第２の被写体を抽出することにより解析し、
前記第１の動画を、第１の被写体を抽出することにより解析する態様１から３のいずれか１に記載の画像処理システム。
（態様５）
前記プロセッサは、前記第２の被写体と前記第１の被写体との属性に基づいて、前記第１の動画に前記チャプタを付与する態様４に記載の画像処理システム。
（態様６）
前記プロセッサは、前記第２の被写体と前記第１の被写体との位置及び姿勢の情報の少なくとも１つに基づいて、前記第１の動画に前記チャプタを付与する、態様４又は５に記載の画像処理システム。
（態様７）
前記プロセッサは、
前記第１の動画のシーンにおいて、前記第２の被写体と前記第１の被写体との関連性に基づいて、前記第１の被写体が写っているシーンを有する前記第１の動画に前記チャプタを付与する態様４から６のいずれか１に記載の画像処理システム。
（態様８）
前記関連性を示す情報を記録する記録装置を備え、
前記プロセッサは、
前記第２の被写体の前記関連性を示す情報に基づいて、前記第１の被写体の前記関連性を判定する態様７に記載の画像処理システム。
（態様９）
前記関連性を示す関連情報は、前記第１の撮影装置に備えられる態様８に記載の画像処理システム。
（態様１０）
前記プロセッサは、
前記第２の静止画又は前記第２の動画に含まれる、前記第２の被写体の行動に関する情報と、前記第１の動画に含まれる、前記第１の被写体の行動に関する情報と、に基づいて、
前記第１の被写体の行動に関する情報に対応した時刻に、前記チャプタを付与する態様４から８のいずれか１に記載の画像処理システム。
（態様１１）
前記プロセッサは、
前記チャプタが付与された時刻に関する情報を表示し、
前記表示は、前記第１の被写体の属性に応じて表示形態が異なる態様４から８、及び１０のいずれか１に記載の画像処理システム。
（態様１２）
前記表示は、前記第１の被写体に応じて表示する色が異なる態様１１に記載の画像処理システム。
（態様１３）
プロセッサを備える画像処理システムの画像処理方法であって、
前記プロセッサにより行われる、
第１の撮影装置で撮影された、第１の時刻情報を有する第１の動画を取得するステップと、
第２の撮影装置で撮影された、第２の時刻情報を有する第２の静止画又は第２の動画を取得するステップと、
取得された前記第２の静止画又は前記第２の動画と、前記第２の時刻情報に対応する前記第１の動画との比較結果に基づいて、前記第１の動画にチャプタを付与するステップと、
を含む画像処理方法。
（態様１４）
プロセッサを備える画像処理システムに画像処理方法を実行させるプログラムであって、
前記プロセッサに、
第１の撮影装置で撮影された、第１の時刻情報を有する第１の動画を取得するステップと、
第２の撮影装置で撮影された、第２の時刻情報を有する第２の静止画又は第２の動画を取得するステップと、
取得された前記第２の静止画又は前記第２の動画と、前記第２の時刻情報に対応する前記第１の動画との比較結果に基づいて、前記第１の動画にチャプタを付与するステップと、
を実行させるプログラム。

【0127】

以上で本発明の例に関して説明してきたが、本発明は上述した実施形態に限定されず、本発明の趣旨を逸脱しない範囲で種々の変形が可能であることは言うまでもない。

【符号の説明】

【0128】

１０：画像処理システム
１２：第３のプロセッサ
１２Ａ：第１の取得部
１２Ｂ：第２の取得部
１２Ｃ：第１の解析部
１２Ｄ：第２の解析部
１２Ｅ：比較部
１２Ｆ：チャプタ付与部
１４：メモリ
１６：データベース
１８：表示部
２０：入出力インターフェース
２２：操作部
１００：アクションカメラ
２００：スマートフォン

【図1】