特開2023-166195 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アポロ株式会社の特許一覧

特開2023-166195コンピュータプログラム、画像処理装置、画像処理方法及び学習モデル生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023166195

(43)【公開日】2023-11-21

(54)【発明の名称】コンピュータプログラム、画像処理装置、画像処理方法及び学習モデル生成方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20231114BHJP

G06V 20/40 20220101ALI20231114BHJP

G06F 16/73 20190101ALI20231114BHJP

H04N 5/91 20060101ALI20231114BHJP

H04N 21/8549 20110101ALI20231114BHJP

【ＦＩ】

G06T7/00 350B

G06T7/00 660

G06V20/40

G06F16/73

H04N5/91

H04N21/8549

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2022077073

(22)【出願日】2022-05-09

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り令和４年２月２２日にアポロ株式会社のウェブサイトにて公開ｈｔｔｐｓ：／／ａｐｏｌ．ｃｏ．ｊｐ／ｓｏｌｕｔｉｏｎ／ｍｏｔｉｏｎｃａｐ

(71)【出願人】

【識別番号】521463089

【氏名又は名称】アポロ株式会社

(74)【代理人】

【識別番号】100114557

【弁理士】

【氏名又は名称】河野英仁

(74)【代理人】

【識別番号】100078868

【弁理士】

【氏名又は名称】河野登夫

(72)【発明者】

【氏名】山本俊介

(72)【発明者】

【氏名】小川祐樹

【テーマコード（参考）】

5B175

5C053

5C164

5L096

【Ｆターム（参考）】

5B175DA04

5B175HB03

5C053FA14

5C053GB06

5C053JA21

5C053LA11

5C053LA14

5C164FA29

5C164MC03P

5C164UB01S

5L096CA04

5L096DA02

5L096EA39

5L096FA32

5L096FA35

5L096FA39

5L096FA59

5L096GA04

5L096HA08

5L096HA11

5L096JA03

5L096KA04

(57)【要約】

【課題】複数の人物が撮影された動画から対象人物を特定できるコンピュータプログラム、画像処理装置、画像処理方法及び学習モデル生成方法を提供する。
【解決手段】コンピュータプログラムは、コンピュータに、スポーツをする複数の人物を撮影した第１動画を取得し、対象人物を撮影した第２動画を取得し、取得した第１動画内の各人物、及び取得した第２動画内の対象人物を検出し、検出した対象人物と各人物との類似度を算出し、算出した類似度に基づいて、各人物の中から対象人物を特定する、処理を実行させる。
【選択図】図１

【特許請求の範囲】

【請求項1】

コンピュータに、
スポーツをする複数の人物を撮影した第１動画を取得し、
対象人物を撮影した第２動画を取得し、
取得した第１動画内の各人物、及び取得した第２動画内の対象人物を検出し、
検出した対象人物と各人物との類似度を算出し、
算出した類似度に基づいて、各人物の中から対象人物を特定する、
処理を実行させるコンピュータプログラム。

【請求項2】

コンピュータに、
検出した対象人物と各人物との身体類似度を算出し、
算出した身体類似度に基づいて、各人物の中から対象人物を特定する、
処理を実行させる請求項１に記載のコンピュータプログラム。

【請求項3】

コンピュータに、
検出した対象人物と各人物との顔類似度を算出し、
算出した顔類似度に基づいて、各人物の中から対象人物を特定する、
処理を実行させる請求項１に記載のコンピュータプログラム。

【請求項4】

コンピュータに、
検出した対象人物の背番号と各人物の背番号との一致度を算出し、
算出した一致度に基づいて、各人物の中から対象人物を特定する、
処理を実行させる請求項１に記載のコンピュータプログラム。

【請求項5】

コンピュータに、
検出した対象人物と各人物との身体類似度及び顔類似度を算出し、
検出した対象人物の背番号と各人物の背番号との一致度を算出し、
算出した身体類似度、顔類似度及び背番号の一致度に基づいて、各人物の中から対象人物を特定する、
処理を実行させる請求項１に記載のコンピュータプログラム。

【請求項6】

コンピュータに、
対象人物と各人物との身体類似度、顔類似度、及び前記対象人物の背番号と前記各人物の背番号との一致度を入力した場合に、前記対象人物と各人物との間のマッチング結果を出力する学習モデルに、検出した対象人物と各人物との身体類似度、顔類似度及び前記対象人物の背番号と前記各人物の背番号との一致度を入力して、対象人物と各人物との間のマッチング結果を取得し、
取得したマッチング結果に基づいて各人物の中から対象人物を特定する、
処理を実行させる請求項１に記載のコンピュータプログラム。

【請求項7】

コンピュータに、
取得した第１動画及び第２動画それぞれの動画特徴量を抽出し、
第１動画及び第２動画それぞれの動画特徴量をさらに入力した場合に、対象人物と各人物との間のマッチング結果を出力する前記学習モデルに、抽出した動画特徴量を入力して、対象人物と各人物との間のマッチング結果を取得する、
処理を実行させる請求項６に記載のコンピュータプログラム。

【請求項8】

前記動画特徴量は、明るさ及びコントラストの少なくとも一つを含む、
請求項７に記載のコンピュータプログラム。

【請求項9】

コンピュータに、
検出した対象人物を含む対象人物画像及び各人物を含む人物画像それぞれの画像特徴量を抽出し、
対象人物画像及び人物画像それぞれの画像特徴量をさらに入力した場合に、対象人物と各人物との間のマッチング結果を出力する前記学習モデルに、抽出した画像特徴量を入力して、対象人物と各人物との間のマッチング結果を取得する、
処理を実行させる請求項６に記載のコンピュータプログラム。

【請求項10】

前記画像特徴量は、画角、対象人物のサイズ及び各人物のサイズの少なくとも一つを含む、
請求項９に記載のコンピュータプログラム。

【請求項11】

コンピュータに、
特定した対象人物を含むフレーム画像を前記第１動画から抽出して対象人物の動画を生成する、
処理を実行させる請求項１から請求項１０のいずれか一項に記載のコンピュータプログラム。

【請求項12】

スポーツをする複数の人物を撮影した第１動画を取得する第１取得部と、
対象人物を撮影した第２動画を取得する第２取得部と、
取得した第１動画内の各人物、及び取得した第２動画内の対象人物を検出する検出部と、
検出した対象人物と各人物との類似度を算出する算出部と、
算出した類似度に基づいて、各人物の中から対象人物を特定する特定部と
を備える、
画像処理装置。

【請求項13】

スポーツをする複数の人物を撮影した第１動画を取得し、
対象人物を撮影した第２動画を取得し、
取得した第１動画内の各人物、及び取得した第２動画内の対象人物を検出し、
検出した対象人物と各人物との類似度を算出し、
算出した類似度に基づいて、各人物の中から対象人物を特定する、
画像処理方法。

【請求項14】

スポーツをする複数の人物を撮影した第１動画に含まれる各人物と第２動画に含まれる対象人物との身体類似度、顔類似度、及び前記対象人物の背番号と前記各人物の背番号との一致度並びに前記対象人物と各人物との間のマッチング結果を含む訓練データを取得し、
取得した訓練データに基づいて、対象人物と各人物との身体類似度、顔類似度、及び前記対象人物の背番号と前記各人物の背番号との一致度を入力した場合に、前記対象人物と各人物との間のマッチング結果を出力するように学習モデルを生成する、
学習モデル生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、コンピュータプログラム、画像処理装置、画像処理方法及び学習モデル生成方法に関する。

【背景技術】

【0002】

近年、インターネット技術の進展や多様化する映像番組の発信により、映像番組やユーザが独自に撮影した動画などから、目立つシーンをハイライト映像として抽出し、あるいはストーリーに沿って重要なシーンをダイジェスト映像として抽出する自動要約技術の有用性が高まっている。

【0003】

特許文献１には、スポーツ競技で発生したイベントをログ情報として順次記録し、ユーザによって入力されたキーワードによってログ情報を検索し、検索されたログ情報に対応するフレームを組み合わせてハイライト動画を自動的に生成する装置が記載されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２０－６１７２９号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

一方で、複数の選手や参加者が撮影されるスポーツ動画のように、多数の人物（群衆）が撮影された動画（映像）から特定の人物を抽出する技術が望まれている。

【0006】

本発明は、斯かる事情に鑑みてなされたものであり、複数の人物が撮影された動画から対象人物を特定できるコンピュータプログラム、画像処理装置、画像処理方法及び学習モデル生成方法を提供することを目的とする。

【課題を解決するための手段】

【0007】

本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、コンピュータプログラムは、コンピュータに、スポーツをする複数の人物を撮影した第１動画を取得し、対象人物を撮影した第２動画を取得し、取得した第１動画内の各人物、及び取得した第２動画内の対象人物を検出し、検出した対象人物と各人物との類似度を算出し、算出した類似度に基づいて、各人物の中から対象人物を特定する、処理を実行させる。

【発明の効果】

【0008】

本発明によれば、複数の人物が撮影された動画から対象人物を特定できる。

【図面の簡単な説明】

【0009】

【図1】本実施形態の画像処理装置の構成の一例を示す図である。

【図2】検出・トラッキングの一例を示す図である。

【図3】身体特徴量の抽出の一例を示す図である。

【図4】顔特徴量の抽出の一例を示す図である。

【図5】背番号の認識の一例を示す図である。

【図6】画像特徴量の抽出の一例を示す図である。

【図7】身体類似度の算出の一例を示す図である。

【図8】顔類似度の算出の一例を示す図である。

【図9】一致度算出の一例を示す図である。

【図10】マッチング処理の一例を示す図である。

【図11】マッチング部（学習モデル）の生成方法の一例を示す図である。

【図12】対象人物の動画の生成の一例を示す図である。

【図13】画像処理装置による処理の手順の一例を示す図である。

【図14】学習モデル（マッチング部）の生成方法の一例を示す図である。

【発明を実施するための形態】

【0010】

以下、本発明の実施の形態について説明する。図１は本実施形態の画像処理装置５０の構成の一例を示す図である。画像処理装置５０は、通信ネットワーク１を介して端末装置１０と接続される。端末装置１０は、例えば、カメラ、マイク、スピーカ、表示パネル、操作パネルやキーボードなどを備えるスマートフォン、タブレット端末、パーソナルコンピュータ等で構成することができる。なお、端末装置１０の数は１台に限定されない。

【0011】

端末装置１０は、ユーザが携帯または保有する。ユーザは端末装置１０を使って、家族や知人が参加するスポーツの試合や練習を撮影することができる。撮影された動画を、本明細書では、便宜上、試合動画（第１動画）と称するが、試合に限定されるものではなく、多数の人物（群衆）が撮影された動画（映像）であれば種類は問わない。

【0012】

また、ユーザは、試合動画に映っている家族、知人または自身だけを切り抜いた動画を作成するために、家族、知人または自身を撮影することができる。撮影された動画を、本明細書では、便宜上、自己紹介動画（第２動画）と称し、試合動画から切り出される家族、知人または自身などを対象人物と称する。自己紹介動画は、写真などの画像（静止画像）であってもよい。

【0013】

ユーザは、端末装置１０から試合動画及び自己紹介動画を画像処理装置５０に送信（アップロード）すると、画像処理装置５０は、試合動画の中から、自己紹介動画に映っている対象人物が写った動画を切り出して生成し、生成した対象人物の動画を端末装置１０へ送信する。

【0014】

画像処理装置５０は、装置全体を制御する制御部５１、通信部５２、メモリ５３、検出・トラッキング部５４、特徴抽出部５５、類似度算出部６０、一致度算出部６１、マッチング部６２、動画生成部６３、記憶部６４、及び記録媒体読取部６７を備える。特徴抽出部５５は、身体特徴抽出部５６、顔特徴抽出部５７、背番号認識部５８、及び画像特徴抽出部５９を備える。記憶部６４は、例えば、ハードディスク又は半導体メモリ等で構成することができ、コンピュータプログラム６５、学習モデル部６６、所要の情報を記憶する。なお、画像処理装置５０は、処理機能を分散させて、複数の装置で構成してもよい。

【0015】

制御部５１は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）等が所要数組み込まれて構成されている。制御部５１は、コンピュータプログラム６５で定められた処理を実行することができる。すなわち、制御部５１による処理は、コンピュータプログラム６５による処理でもある。制御部５１は、コンピュータプログラム６５を実行することにより、検出・トラッキング部５４、特徴抽出部５５、類似度算出部６０、一致度算出部６１、マッチング部６２、動画生成部６３の少なくとも１つの機能をハードウエアに代えてソフトウエアで実現することができる。制御部５１は、学習モデル部６６を用いた処理を行う。

【0016】

通信部５２は、例えば、通信モジュールを備え、通信ネットワーク１を介して端末装置１０との間で通信を行うことができる。通信部５２は、第１取得部及び第２取得部としての機能を有し、端末装置１０から試合動画及び自己紹介動画を受信（取得）する。

【0017】

メモリ５３は、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等の半導体メモリで構成することができる。コンピュータプログラム６５をメモリ５３に展開することにより、制御部５１は、コンピュータプログラム６５を実行することができる。

【0018】

コンピュータプログラム６５を記録した記録媒体６８、記録媒体読取部６７によって読み取ることができる。なお、コンピュータプログラム６５は、通信部５２を介して、外部の装置からダウンロードして記憶部６４に格納してもよい。

【0019】

検出・トラッキング部５４は、検出部としての機能を有し、通信部５２を介して取得した試合動画に写っている人物及び自己紹介動画に写っている対象人物それぞれを、動画のフレーム毎に検出してトラッキングを行う。

【0020】

図２は検出・トラッキングの一例を示す図である。図２に示すように、自己紹介動画のフレーム数をｍとして、各フレームをフレームＰ１、Ｐ２、…、Ｐｉ、…、Ｐｍとする。また、試合動画のフレーム数をｎとして、各フレームをフレームＳ１、Ｓ２、…、Ｓｋ、…、Ｓｎとする。一般的には、試合動画の方が自己紹介動画よりも撮影時間が長いので、ｎ＞ｍとなる。自己紹介動画内の対象人物をＡとすると、検出・トラッキング部５４は、自己紹介動画のフレーム毎に対象人物を検出してトラッキングを行う。図の例では、矩形の枠で対象人物Ａを表現している。また、フレームＰｉのように対象人物を検出できないフレームも存在し得る。自己紹介動画内に複数の対象人物が写っている場合には、対象人物毎に検出・トラッキングを行う。

【0021】

試合動画内の人物をＸ１、Ｘ２、…、Ｘ１５、…とすると、検出・トラッキング部５４は、試合動画のフレーム毎に人物を検出してトラッキングを行う。図の例では、矩形の枠で人物Ｘを表現している。フレームＳ１では、人物Ｘ１、Ｘ２、Ｘ３、Ｘ４、Ｘ５、Ｘ６、Ｘ７が検出され、フレームＳｋでは、人物Ｘ２、Ｘ３、Ｘ８、Ｘ１０、Ｘ１１、Ｘ１２、Ｘ１５が検出されている。このように、フレームによって写っている人物は異なる場合がある。人物を表現する矩形の枠は、人物が近くにいるか遠くにいるかで枠のサイズが異なっている。

【0022】

身体特徴抽出部５６は、検出・トラッキング部５４で検出されたフレーム毎の対象人物が写った対象人物画像に基づいて、対象人物の身体特徴量を抽出して出力する。同様に、身体特徴抽出部５６は、検出・トラッキング部５４で検出されたフレーム毎の人物が写った人物画像に基づいて、人物の身体特徴量を抽出して出力する。身体特徴抽出部５６は、学習モデル部６６内の学習モデルを用いることができ、例えば、ＣＮＮ（Convolutional Neural Network：畳み込みニューラルネットワーク）などのニューラルネットワークを用いることができる。身体特徴抽出部５６は、さらに、抽出した身体特徴量に対して一義的なベクトルを生成するベクトル化演算を行って身体特徴ベクトルを生成できる。身体特徴抽出は、ＣＮＮに限定されるものではなく、ＨＯＧ（Histogram of Oriented Gradients）、ＳＶＭ（Support Vector Machine）、ＹＯＬＯ（You Look Only Once）などのアルゴリズムを用いるものでもよい。

【0023】

図３は身体特徴量の抽出の一例を示す図である。図３Ａは、身体特徴抽出部５６に対象人物画像及び人物画像が入力されると、対象人物の身体特徴量及び人物の身体特徴量が出力される。身体特徴量は、たとえば、１２８０次元に圧縮された身体特徴データであるが、データの次元数は１２８０に限定されるものでない。

【0024】

図３Ｂは、自己紹介動画内の対象人物Ａの身体特徴量を表す。フレーム１、２、…、ｍ毎に対象人物Ａは検出又は未検出となる。対象人物Ａが検出されたフレーム分だけ身体特徴量が抽出される。図では、Ａの身体特徴量をＡＢ（１）、ＡＢ（２）、…、ＡＢ（ｌ）で表す。

【0025】

図３Ｃは、試合動画内の人物Ｘ１、Ｘ２、Ｘ３、…の身体特徴量を表す。フレーム１、２、…、ｎ毎に人物は検出又は未検出となる。人物が検出されたフレーム分だけ身体特徴量が抽出される。図では、Ｘ１の身体特徴量をＸ１Ｂ（１）、Ｘ１Ｂ（２）、…、Ｘ１Ｂ（ｑ）で表す。Ｘ２の身体特徴量をＸ２Ｂ（１）、Ｘ２Ｂ（２）、…、Ｘ２Ｂ（ｓ）で表す。Ｘ３の身体特徴量をＸ３Ｂ（１）、Ｘ３Ｂ（２）、…、Ｘ３Ｂ（ｔ）で表す。人物Ｘ１、Ｘ２、Ｘ３、…それぞれの身体特徴量の数は、人物が検出されたフレームの数に応じて異なる。

【0026】

顔特徴抽出部５７は、検出・トラッキング部５４で検出されたフレーム毎の対象人物の顔が写った対象人物顔画像に基づいて、対象人物の顔特徴量を抽出して出力する。同様に、顔特徴抽出部５７は、検出・トラッキング部５４で検出されたフレーム毎の人物の顔が写った人物顔画像に基づいて、人物の顔特徴量を抽出して出力する。顔特徴抽出部５７は、学習モデル部６６内の学習モデルを用いることができ、例えば、ＣＮＮ（Convolutional Neural Network：畳み込みニューラルネットワーク）などのニューラルネットワークを用いることができる。顔特徴抽出部５７は、さらに、抽出した顔特徴量に対して一義的なベクトルを生成するベクトル化演算を行って顔特徴ベクトルを生成できる。顔特徴抽出は、ＣＮＮに限定されるものではなく、ＨＯＧ（Histogram of Oriented Gradients）、ＳＶＭ（Support Vector Machine）、ＹＯＬＯ（You Look Only Once）などのアルゴリズムを用いるものでもよい。

【0027】

図４は顔特徴量の抽出の一例を示す図である。図４Ａは、顔特徴抽出部５７に対象人物顔画像及び人物顔画像が入力されると、対象人物の顔特徴量及び人物の顔特徴量が出力される。顔特徴量は、たとえば、５１２次元に圧縮された顔特徴データであるが、データの次元数は５１２に限定されるものでない。

【0028】

図４Ｂは、自己紹介動画内の対象人物Ａの顔特徴量を表す。フレーム１、２、…、ｍ毎に対象人物Ａの顔は検出又は未検出となる。対象人物Ａの顔が検出されたフレーム分だけ顔特徴量が抽出される。図では、Ａの顔特徴量をＡＦ（１）、ＡＦ（２）、…、ＡＦ（ｌ′）で表す。

【0029】

図４Ｃは、試合動画内の人物Ｘ１、Ｘ２、Ｘ３、…の顔特徴量を表す。フレーム１、２、…、ｎ毎に人物の顔は検出又は未検出となる。人物の顔が検出されたフレーム分だけ顔特徴量が抽出される。図では、Ｘ１の顔特徴量をＸ１Ｆ（１）、Ｘ１Ｆ（２）、…、Ｘ１Ｆ（ｑ′）で表す。Ｘ２の顔特徴量をＸ２Ｆ（１）、Ｘ２Ｆ（２）、…、Ｘ２Ｆ（ｓ′）で表す。Ｘ３の顔特徴量をＸ３Ｆ（１）、Ｘ３Ｆ（２）、…、ＸＦＢ（ｔ′）で表す。人物Ｘ１、Ｘ２、Ｘ３、…それぞれの顔特徴量の数は、顔が検出されたフレームの数に応じて異なる。

【0030】

背番号認識部５８は、検出・トラッキング部５４で検出されたフレーム毎の対象人物のユニホームの背番号が写った対象人物背番号画像に基づいて、対象人物の背番号を認識して出力する。同様に、背番号認識部５８は、検出・トラッキング部５４で検出されたフレーム毎の人物のユニホームが写った人物背番号画像に基づいて、人物の背番号を認識して出力する。背番号認識部５８は、ＯＣＲ（Optical Character Recognition）を備える。背番号認識部５８は、さらに、抽出（認識）した背番号に対して一義的なベクトルを生成するベクトル化演算を行って背番号特徴ベクトルを生成できる。

【0031】

図５は背番号の認識の一例を示す図である。図５Ａは、背番号認識部５８に対象人物背番号画像及び人物背番号画像が入力されると、対象人物の背番号及び人物の背番号が出力される。

【0032】

図５Ｂは、自己紹介動画内の対象人物Ａの背番号を表す。フレーム１、２、…、ｍ毎に対象人物Ａの背番号は検出又は未検出となる。対象人物Ａの背番号が検出されたフレーム分だけ背番号が抽出される。図では、Ａの背番号をＡＴ（１）、ＡＴ（２）、…、ＡＴ（ｌ′′）で表す。

【0033】

図５Ｃは、試合動画内の人物Ｘ１、Ｘ２、Ｘ３、…の背番号を表す。フレーム１、２、…、ｎ毎に各人物の背番号は検出又は未検出となる。人物の背番号が検出されたフレーム分だけ背番号が抽出される。図では、Ｘ１の背番号をＸ１Ｔ（１）、Ｘ１Ｔ（２）、…、Ｘ１Ｔ（ｑ′′）で表す。Ｘ２の背番号をＸ２Ｔ（１）、Ｘ２Ｔ（２）、…、Ｘ２Ｔ（ｓ′′）で表す。Ｘ３の背番号をＸ３Ｔ（１）、Ｘ３Ｔ（２）、…、Ｘ３Ｔ（ｔ′′）で表す。人物Ｘ１、Ｘ２、Ｘ３、…それぞれの背番号の数は、背番号が検出されたフレームの数に応じて異なる。また、ＯＣＲによる数字認識であるため、数字を誤認識する可能性もあるため、例えば、同じ人物について認識した背番号が異なる場合もある。

【0034】

画像特徴抽出部５９は、自己紹介動画及び試合動画それぞれの動画特徴量を抽出する。また、画像特徴抽出部５９は、自己紹介動画に基づいて検出された対象人物が写った対象人物画像、対象人物の顔が写った対象人物顔画像の画像特徴量を抽出するとともに、試合動画に基づいて検出された人物が写った人物画像、人物の顔が写った人物顔画像の画像特徴量を抽出する。動画特徴量と画像特徴量をまとめて画像特徴量とも称する。

【0035】

図６は画像特徴量の抽出の一例を示す図である。図６Ａに示すように、画像特徴抽出部５９は、自己紹介動画及び試合動画に基づいて、自己紹介動画の動画特徴量、試合動画の動画特徴量、両動画のコントラスト比を出力する。動画特徴量は、動画自体の特徴を表すことができる指標であればよく、例えば、動画（映像）の輝度値の最大値、平均値、中央値、分散、４分位範囲などであってもよい。コントラストは、両動画の最大輝度値の差分である。動画特徴量は、自己紹介動画及び試合動画それぞれに対して１つの値を抽出することができる。

【0036】

図６Ｂに示すように、画像特徴抽出部５９は、フレーム毎に特定される対象人物画像、人物画像、対象人物顔画像、及び人物顔画像それぞれの画像特徴量を出力する。画像特徴量は、例えば、各画像の画角でもよく、人物又は顔のサイズでもよい。例えば、試合動画に写っている人物は、近くにいれば人物や顔のサイズは大きくなり、身体特徴量や顔特徴量は精度よく抽出できる傾向がある。一方、試合動画に写っている人物が、遠くにいれば人物や顔のサイズは小さくなり、身体特徴量や顔特徴量は精度よく抽出できない傾向がある。画角は、例えば、端末装置１０から動画をアップロードする際にカメラ情報も一緒に取得し、カメラ情報から求めることができる。また画角は、動画のサイズと画像内の人物又は顔のサイズの相対的な大小関係により求めてもよい。

【0037】

具体的には、画像特徴抽出部５９は、対象人物Ａの対象人物画像及び対象人物顔画像それぞれで抽出された画像特徴量（画角、サイズなど）の統計値（例えば、平均値、中央値、最頻値、最大値または最小値など）を出力するとともに、各人物Ｘ１、Ｘ２、…それぞれの人物画像及び人物顔画像それぞれで抽出された画像特徴量（画角、サイズなど）の統計値を出力することができる。画像特徴量を考慮することにより、抽出される身体特徴量や顔特徴量の確度（あるいは重み付け）を考慮できる。なお、画像特徴量を付帯情報（例えば、特徴量の重み付け係数）として身体特徴ベクトルや顔特徴ベクトルに組み込んでもよい。

【0038】

類似度算出部６０は、算出部としての機能を有し、検出した対象人物と各人物との類似度を算出する。具体的には、類似度算出部６０は、検出した対象人物と各人物との身体類似度及び顔類似度を算出する。

【0039】

図７は身体類似度の算出の一例を示す図である。類似度算出部６０は、身体特徴抽出部５６が抽出した身体特徴量である、対象人物Ａの身体特徴ベクトル｛ＡＢ（１）、ＡＢ（２）、…｝と、人物Ｘ１の身体特徴ベクトル｛Ｘ１Ｂ（１）、Ｘ１Ｂ（２）、…｝、人物Ｘ２の身体特徴ベクトル｛Ｘ２Ｂ（１）、Ｘ２Ｂ（２）、…｝、人物Ｘ３の身体特徴ベクトル｛Ｘ３Ｂ（１）、Ｘ３Ｂ（２）、…｝、…それぞれとの類似度を算出して、対象人物Ａと人物Ｘ１との身体類似度、対象人物Ａと人物Ｘ２との身体類似度、対象人物Ａと人物Ｘ３との身体類似度、…を算出する。類似度の算出は、例えば、コサイン類似度を用いればよい。なお、類似度の算出は、コサイン類似度に限定されるものではなく、ユークリッド距離などを用いてもよい。なお、図示していないが、自己紹介動画に対象人物Ａ以外に他の対象人物（例えば、対象人物Ｂ、Ｃなど）が写っている場合には、類似度算出部６０は、対象人物Ａの場合と同様に、対象人物Ｂと人物Ｘ１との身体類似度、対象人物Ｂと人物Ｘ２との身体類似度、対象人物Ｂと人物Ｘ３との身体類似度、…を算出する。

【0040】

図８は顔類似度の算出の一例を示す図である。類似度算出部６０は、顔特徴抽出部５７が抽出した顔特徴量である、対象人物Ａの顔特徴ベクトル｛ＡＦ（１）、ＡＦ（２）、…｝と、人物Ｘ１の顔特徴ベクトル｛Ｘ１Ｆ（１）、Ｘ１Ｆ（２）、…｝、人物Ｘ２の顔特徴ベクトル｛Ｘ２Ｆ（１）、Ｘ２Ｆ（２）、…｝、人物Ｘ３の顔特徴ベクトル｛Ｘ３Ｆ（１）、Ｘ３Ｆ（２）、…｝、…それぞれとの類似度を算出して、対象人物Ａと人物Ｘ１との顔類似度、対象人物Ａと人物Ｘ２との顔類似度、対象人物Ａと人物Ｘ３との顔類似度、…を算出する。類似度の算出は、例えば、コサイン類似度を用いればよい。なお、類似度の算出は、コサイン類似度に限定されるものではなく、ユークリッド距離などを用いてもよい。なお、図示していないが、自己紹介動画に対象人物Ａ以外に他の対象人物（例えば、対象人物Ｂ、Ｃなど）が写っている場合には、類似度算出部６０は、対象人物Ａの場合と同様に、対象人物Ｂと人物Ｘ１との顔類似度、対象人物Ｂと人物Ｘ２との顔類似度、対象人物Ｂと人物Ｘ３との顔類似度、…を算出する。

【0041】

一致度算出部６１は、検出した対象人物の背番号と各人物の背番号との一致度を算出する。本実施形態では、一致度は、一致する（例えば、「１」、「Ｔｒｕｅ」）か、一致しない（「０」、「Ｆａｌｓｅ」）かの別を表すが、これに限定されるものではなく、例えば、０％～１００％の間の数値で一致度合いを表してもよい。

【0042】

図９は一致度算出の一例を示す図である。図９Ａに示すように、一致度算出部６１は、対象人物Ａの背番号ベクトル｛ＡＴ（１）、ＡＴ（２）、…｝と、人物Ｘ１の背番号ベクトル｛Ｘ１Ｔ（１）、Ｘ１Ｔ（２）、…｝、人物Ｘ２の背番号ベクトル｛Ｘ２Ｔ（１）、Ｘ２Ｔ（２）、…｝、人物Ｘ３の背番号ベクトル｛Ｘ３Ｔ（１）、Ｘ３Ｔ（２）、…｝、…それぞれとの一致度を算出して、対象人物Ａと人物Ｘ１との背番号の一致度、対象人物Ａと人物Ｘ２との背番号の一致度、対象人物Ａと人物Ｘ３との背番号の一致度、…を算出する。

【0043】

具体的には、図９Ｂに示すように、対象人物Ａの背番号ベクトルを｛５、５、５、６、５、５、３｝とする。対象人物Ａの背番号ベクトルは、対象人物Ａの背番号を認識できたフレームが全部で７フレームあり、認識した背番号は、順番に５、５、５、６、５、５、３であることを示す。対象人物Ａの背番号を「５」とすると、「６」、「３」は誤認識を表す。この場合、対象人物Ａの背番号最頻値は５回認識された「５」である。一方、対象人物Ｘ１の背番号ベクトルを｛５、５、２、５、３｝とする。人物Ｘ１の背番号ベクトルは、人物Ｘ１の背番号を認識できたフレームが全部で５フレームあり、認識した背番号は、順番に５、５、２、５、３であることを示す。この場合、人物Ｘ１の背番号最頻値は３回認識された「５」である。対象人物Ａの背番号最頻値と人物Ｘ１の背番号最頻値はいずれも「５」で一致するので、対象人物Ａの背番号と人物Ｘ１の背番号は一致すると判定できる。

【0044】

また、図９Ｃに示すように、対象人物Ａの背番号ベクトルを｛５、５、５、６、５、５、３｝とする。この場合、対象人物Ａの背番号最頻値は５回認識された「５」である。一方、対象人物Ｘ２の背番号ベクトルを｛８、８、７、３｝とする。人物Ｘ２の背番号ベクトルは、人物Ｘ２の背番号を認識できたフレームが全部で４フレームあり、認識した背番号は、順番に８、８、７、３であることを示す。この場合、人物Ｘ２の背番号最頻値は２回認識された「８」である。対象人物Ａの背番号最頻値と人物Ｘ２の背番号最頻値は一致しないので、対象人物Ａの背番号と人物Ｘ２の背番号は一致しないと判定できる。

【0045】

マッチング部６２は、特定部としての機能を有し、類似度算出部６０で算出した類似度に基づいて、各人物の中から対象人物を特定する。具体的には、マッチング部６２は、身体類似度、顔類似度、及び背番号一致度の少なくとも１つに基づいて、試合動画内の各人物の中から対象人物を特定する。マッチング部６２は、さらに画像特徴量（動画・画像特徴量）に基づいて、試合動画内の各人物の中から対象人物を特定してもよい。画像特徴量（動画・画像特徴量）は必須ではない。

【0046】

図１０はマッチング処理の一例を示す図である。マッチング部６２は、学習モデル部６６内の学習モデルを用いることができ、例えば、ＸＧＢｏｏｓｔ、決定木、ランダムフォレストなどの分類アルゴリズムを用いることができる。マッチング部６２に入力される入力データを、便宜上、縦（下）方向にサンプル、横（右）方向にデータの属性（類似度など）で構成されるデータ構造として表す。サンプルは、例えば、対象人物Ａと人物Ｘ１のデータ、対象人物Ａと人物Ｘ２のデータ、…、対象人物Ｂと人物Ｘ１のデータ、対象人物Ｂと人物Ｘ２のデータ、…、対象人物Ｃと人物Ｘ１のデータ、対象人物Ｃと人物Ｘ２のデータ、…である。対象人物Ａ、Ｂ、Ｃ、…は自己紹介画像に写っている対象人物であり、人物Ｘ１、Ｘ２、Ｘ３、…は、試合画像に写っている各人物である。入力データの属性は、類似度算出部６０で算出した身体類似度及び顔類似度、一致度算出部６１で算出した背番号一致度、画像特徴抽出部５９で抽出した動画・画像特徴量を含む。マッチング部６２に入力される入力データの属性は、身体類似度、顔類似度及び背番号一致度の少なくとも１つでもよく、身体類似度、顔類似度及び背番号一致度の全てを含んでもよい。また、マッチング部６２に入力される入力データの属性に、動画・画像特徴量を含めてもよい。

【0047】

マッチング部６２は、対象人物と各人物との間のマッチング結果を出力する。具体的には、図１０に示すように、対象人物Ａ、Ｂ、Ｃ、…毎に、人物Ｘ１、Ｘ２、Ｘ３、Ｘ４、Ｘ５、Ｘ６、…とのマッチング度（例えば、０％～１００％の範囲内の数値）を出力する。人物Ｘ１、Ｘ２、Ｘ３、Ｘ４、Ｘ５、Ｘ６、…とのマッチング度のうち、マッチング度が最も大きい人物が対象人物であると特定できる。図１０の例では、人物Ｘ５が対象人物Ａであると特定され、人物Ｘ２が対象人物Ｂであると特定され、人物Ｘ４が対象人物Ｃであると特定されている。

【0048】

上述のように、身体特徴（身体類似度）だけでなく、顔特徴（顔類似度）及び背番号（背番号一致度）の少なくとも一つを含む特徴を抽出することにより、多数の人物が写っている動画の中から特定の個人（対象人物）を容易に特定することができる。特に、多数の人物で密集するような場面が多い動画であっても、対象人物が写っているフレームを逃すことなく抽出できる。また、動画・画像特徴量を抽出することにより、撮影デバイス（端末装置１０）や天候、撮影環境などの影響も考慮して対象人物を特定することができ、精度よく所要の個人を特定できる。また、スマートフォンなどの端末装置１０で動画を撮ってアップロードするだけで、複数の人物が撮影された動画から所要の個人だけが写った動画を得ることができる。

【0049】

図１１はマッチング部６２（学習モデル）の生成方法の一例を示す図である。学習用の入力データは、対象人物と試合動画（切り抜き対象動画）内の人物との間のデータであり、データの属性は、例えば、身体類似度、顔類似度、背番号一致度、動画・画像特徴量を含む。教師データは、学習用の入力データを学習モデルに入力した場合に、学習モデルが出力する出力データの真値ｙ′である。学習モデルの学習は、学習用の入力データを学習モデルに入力した場合に、学習モデルが出力する出力データ（予測値ｙ）が教師データｙ′に近づくように、学習モデルのパラメータを調整する。

【0050】

制御部５１は、試合動画（第１動画）に含まれる各人物と自己紹介動画（第２動画）に含まれる対象人物との身体類似度、顔類似度、及び対象人物の背番号と各人物の背番号との一致度並びに対象人物と各人物との間のマッチング結果を含む訓練データを取得し、取得した訓練データに基づいて、対象人物と各人物との身体類似度、顔類似度、及び対象人物の背番号と各人物の背番号との一致度を入力した場合に、対象人物と各人物との間のマッチング結果を出力するように学習モデル（マッチング部６２）を生成できる。

【0051】

制御部５１は、試合動画及び自己紹介動画それぞれの動画特徴量をさらに入力した場合に、対象人物と各人物との間のマッチング結果を出力するように学習モデルを生成できる。また、制御部５１は、対象人物画像及び人物画像それぞれの画像特徴量をさらに入力した場合に、対象人物と各人物との間のマッチング結果を出力するように学習モデルを生成してもよく、あるいは、対象人物顔画像及び人物顔画像それぞれの画像特徴量をさらに入力した場合に、対象人物と各人物との間のマッチング結果を出力するように学習モデルを生成してもよい。

【0052】

動画生成部６３は、マッチング部６２で特定した対象人物を含むフレーム画像を試合動画から抽出して対象人物の動画を生成する。

【0053】

図１２は対象人物の動画の生成の一例を示す図である。自己紹介動画内の対象人物Ａが試合動画内の人物Ｘ５であるとすると、動画生成部６３は、試合動画の中から人物Ｘ５が写っているフレームを特定し、特定したフレームを繋げることによりＡさんの動画を生成することができる。なお、動画を魅力的にするため各種のエフェクトを使用してもよい。同様に、自己紹介動画内の対象人物Ｂが試合動画内の人物Ｘ２であるとすると、動画生成部６３は、試合動画の中から人物Ｘ２が写っているフレームを特定し、特定したフレームを繋げることによりＢさんの動画を生成することができる。他の対象人物についても同様である。

【0054】

図１３は画像処理装置５０による処理の手順の一例を示す図である。以下では便宜上、処理の主体を制御部５１として説明する。制御部５１は、試合動画を端末装置１０から取得し（Ｓ１１）、自己紹介動画を端末装置１０から取得する（Ｓ１２）。制御部５１は、自己紹介動画内の対象人物を検出・トラッキングする（Ｓ１３）。

【0055】

制御部５１は、自己紹介動画のフレーム毎に対象人物の身体特徴量、顔特徴量を抽出し、対象人物の背番号を認識する（Ｓ１４）。なお、身体特徴量、顔特徴量を抽出できないフレーム、背番号を認識できないフレームが存在する場合がある。制御部５１は、自己紹介動画の動画・画像特徴量を抽出する（Ｓ１５）。ここで、動画特徴量は、例えば、輝度（明るさ）を含む。画像特徴量は、画角、対象人物のサイズを含む。

【0056】

制御部５１は、対象人物の身体特徴量、顔特徴量、背番号、動画・画像特徴量を記憶部６４に記憶する（Ｓ１６）。

【0057】

制御部５１は、試合動画内の各人物を検出・トラッキングする（Ｓ１７）。制御部５１は、試合動画のフレーム毎に各人物の身体特徴量、顔特徴量を抽出し、各人物の背番号を認識する（Ｓ１８）。なお、身体特徴量、顔特徴量を抽出できないフレーム、背番号を認識できないフレームが存在する場合がある。制御部５１は、試合動画の動画・画像特徴量を抽出する（Ｓ１９）。ここで、動画特徴量は、例えば、輝度（明るさ）、両動画のコントラスを含む。画像特徴量は、画角、各人物のサイズを含む。

【0058】

制御部５１は、各人物の身体特徴量、顔特徴量、背番号、動画・画像特徴量を記憶部６４に記憶する（Ｓ２０）。

【0059】

制御部５１は、対象人物と各人物との間の身体類似度、顔類似度、背番号一致度（背番号最頻値一致）を算出し（Ｓ２１）、対象人物と各人物とのマッチング処理を行う（Ｓ２２）。制御部５１は、マッチング結果に基づいて試合動画内の各人物から対象人物を特定し（Ｓ２３）、特定した対象人物の動画を生成し（Ｓ２４）、処理を終了する。

【0060】

図１４は学習モデル（マッチング部６２）の生成方法の一例を示す図である。制御部５１は、対象人物と被特定人物（試合動画内の各人物）との間の身体類似度、顔類似度、背番号一致度、動画・画像特徴量、及び対象人物と被特定人物とのマッチング度（マッチング結果）を含む訓練データを取得する（Ｓ３１）。

【0061】

制御部５１は、取得した訓練データに基づいて、対象人物と被特定人物との間の身体類似度、顔類似度、背番号一致度、動画・画像特徴量を入力した場合に、対象人物と被特定人物とのマッチング度（マッチング結果）を出力するように学習モデルを生成する（Ｓ３２）。制御部５１は、生成した学習モデルを記憶部６４に記憶し（Ｓ３３）、処理を終了する。

【0062】

上述の実施形態では、多数の人物（群衆）が撮影された動画として試合動画を例に挙げて説明した。試合動画は、多数の人物が競技するスポーツであれば、サッカー、ラグビー、アメリカンフットボール、バレーボール、バスケットボール、アイスホッケーなど、どのようなスポーツであってもよい。また、群衆が撮影された動画は試合動画に限定されるものではない。例えば、イベントに参加する多数の人物を撮影した動画、不特定多数の人物を監視するために撮影した動画など、種々の動画を含む。

【0063】

上述の実施形態において、対象人物（特定の個人）が写っている動画を作成する際に、作成された動画に写り込むことを希望しない人物に対しては、予めその旨を設定しておき、作成した動画に当該人物が写っている場合には、当該人物の顔や体にモザイクをかけるようにしてもよい。

【0064】

上述の実施形態では、端末装置１０からアップロードされた動画（試合動画及び自己紹介動画）を、画像処理装置５０で処理して、対象人物が写っている動画を生成して端末装置１０に配信する構成であるが、これに限定されるものではなく、画像処理装置５０の処理機能を端末装置１０側に設けるようにして、端末装置１０だけで対象人物が写っている動画を生成するようにしてもよい。

【0065】

（付記１）本実施形態のコンピュータプログラムは、コンピュータに、スポーツをする複数の人物を撮影した第１動画を取得し、対象人物を撮影した第２動画を取得し、取得した第１動画内の各人物、及び取得した第２動画内の対象人物を検出し、検出した対象人物と各人物との類似度を算出し、算出した類似度に基づいて、各人物の中から対象人物を特定する、処理を実行させる。

【0066】

（付記２）本実施形態のコンピュータプログラムは、付記１のコンピュータプログラムにおいて、コンピュータに、検出した対象人物と各人物との身体類似度を算出し、算出した身体類似度に基づいて、各人物の中から対象人物を特定する、処理を実行させる。

【0067】

（付記３）本実施形態のコンピュータプログラムは、付記１又は付記２のコンピュータプログラムにおいて、コンピュータに、検出した対象人物と各人物との顔類似度を算出し、算出した顔類似度に基づいて、各人物の中から対象人物を特定する、処理を実行させる。

【0068】

（付記４）本実施形態のコンピュータプログラムは、付記１から付記３のいずれか一つのコンピュータプログラムにおいて、コンピュータに、検出した対象人物の背番号と各人物の背番号との一致度を算出し、算出した一致度に基づいて、各人物の中から対象人物を特定する、処理を実行させる。

【0069】

（付記５）本実施形態のコンピュータプログラムは、付記１のコンピュータプログラムにおいて、コンピュータに、検出した対象人物と各人物との身体類似度及び顔類似度を算出し、検出した対象人物の背番号と各人物の背番号との一致度を算出し、算出した身体類似度、顔類似度及び背番号の一致度に基づいて、各人物の中から対象人物を特定する、処理を実行させる。

【0070】

（付記６）本実施形態のコンピュータプログラムは、付記１から付記５のいずれか一つのコンピュータプログラムにおいて、コンピュータに、対象人物と各人物との身体類似度、顔類似度、及び前記対象人物の背番号と前記各人物の背番号との一致度を入力した場合に、前記対象人物と各人物との間のマッチング結果を出力する学習モデルに、検出した対象人物と各人物との身体類似度、顔類似度及び前記対象人物の背番号と前記各人物の背番号との一致度を入力して、対象人物と各人物との間のマッチング結果を取得し、取得したマッチング結果に基づいて各人物の中から対象人物を特定する、処理を実行させる。

【0071】

（付記７）本実施形態のコンピュータプログラムは、付記１から付記６のいずれか一つのコンピュータプログラムにおいて、コンピュータに、取得した第１動画及び第２動画それぞれの動画特徴量を抽出し、第１動画及び第２動画それぞれの動画特徴量をさらに入力した場合に、対象人物と各人物との間のマッチング結果を出力する前記学習モデルに、抽出した動画特徴量を入力して、対象人物と各人物との間のマッチング結果を取得する、処理を実行させる。

【0072】

（付記８）本実施形態のコンピュータプログラムは、付記７のコンピュータプログラムにおいて、前記動画特徴量は、明るさ及びコントラストの少なくとも一つを含む。

【0073】

（付記９）本実施形態のコンピュータプログラムは、付記１から付記８のいずれか一つのコンピュータプログラムにおいて、コンピュータに、検出した対象人物を含む対象人物画像及び各人物を含む人物画像それぞれの画像特徴量を抽出し、対象人物画像及び人物画像それぞれの画像特徴量をさらに入力した場合に、対象人物と各人物との間のマッチング結果を出力する前記学習モデルに、抽出した画像特徴量を入力して、対象人物と各人物との間のマッチング結果を取得する、処理を実行させる。

【0074】

（付記１０）本実施形態のコンピュータプログラムは、付記９のコンピュータプログラムにおいて、前記画像特徴量は、画角、対象人物のサイズ及び各人物のサイズの少なくとも一つを含む。

【0075】

（付記１１）本実施形態のコンピュータプログラムは、付記１から付記１０のいずれか一つのコンピュータプログラムにおいて、コンピュータに、特定した対象人物を含むフレーム画像を前記第１動画から抽出して対象人物の動画を生成する、処理を実行させる。

【0076】

（付記１２）本実施形態の画像処理装置は、スポーツをする複数の人物を撮影した第１動画を取得する第１取得部と、対象人物を撮影した第２動画を取得する第２取得部と、取得した第１動画内の各人物、及び取得した第２動画内の対象人物を検出する検出部と、検出した対象人物と各人物との類似度を算出する算出部と、算出した類似度に基づいて、各人物の中から対象人物を特定する特定部とを備える。

【0077】

（付記１３）本実施形態の画像処理方法は、スポーツをする複数の人物を撮影した第１動画を取得し、対象人物を撮影した第２動画を取得し、取得した第１動画内の各人物、及び取得した第２動画内の対象人物を検出し、検出した対象人物と各人物との類似度を算出し、算出した類似度に基づいて、各人物の中から対象人物を特定する。

【0078】

（付記１４）本実施形態の学習モデル生成方法は、スポーツをする複数の人物を撮影した第１動画に含まれる各人物と第２動画に含まれる対象人物との身体類似度、顔類似度、及び前記対象人物の背番号と前記各人物の背番号との一致度並びに前記対象人物と各人物との間のマッチング結果を含む訓練データを取得し、取得した訓練データに基づいて、対象人物と各人物との身体類似度、顔類似度、及び前記対象人物の背番号と前記各人物の背番号との一致度を入力した場合に、前記対象人物と各人物との間のマッチング結果を出力するように学習モデルを生成する。

【0079】

各実施形態に記載した事項は相互に組み合わせることが可能である。また、特許請求の範囲に記載した独立請求項及び従属請求項は、引用形式に関わらず全てのあらゆる組み合わせにおいて、相互に組み合わせることが可能である。さらに、特許請求の範囲には他の２以上のクレームを引用するクレームを記載する形式（マルチクレーム形式）を用いているが、これに限るものではない。マルチクレームを少なくとも一つ引用するマルチクレーム（マルチマルチクレーム）を記載する形式を用いて記載してもよい。

【符号の説明】

【0080】

１通信ネットワーク
１０端末装置
５０画像処理装置
５１制御部
５２通信部
５３メモリ
５４検出・トラッキング部
５５特徴抽出部
５６身体特徴抽出部
５７顔特徴抽出部
５８背番号認識部
５９画像特徴抽出部
６０類似度算出部
６１一致度算出部
６２マッチング部
６３動画生成部
６４記憶部
６５コンピュータプログラム
６６学習モデル部
６７記録媒体読取部
６８記録媒体

【図1】