特許7460997 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 楽天株式会社の特許一覧 ▶ 学校法人中部大学の特許一覧

特許7460997コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-26

(45)【発行日】2024-04-03

(54)【発明の名称】コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20240327BHJP

【ＦＩ】

G06T7/00 350B

【請求項の数】 12

(21)【出願番号】P 2024501933

(86)(22)【出願日】2022-03-28

(86)【国際出願番号】 JP2022014991

(87)【国際公開番号】W WO2023187899

(87)【国際公開日】2023-10-05

【審査請求日】2024-01-12

【新規性喪失の例外の表示】特許法第３０条第２項適用開催日令和３年７月２０日、令和３年７月２５日～令和３年７月２７日集会名２０２１１７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＶｉｓｉｏｎａｎｄＡｐｐｌｉｃａｔｉｏｎｓ（ＭＶＡ）開催場所（オンライン開催）（ア）ｈｔｔｐｓ：／／ｗｗｗ．ｍｖａ－ｏｒｇ．ｊｐ／ｍｖａ２０２１／（イ）ｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ａｂｓｔｒａｃｔ／ｄｏｃｕｍｅｎｔ／９５１１３４２（ウ）ｈｔｔｐｓ：／／ｗｗｗ．ｍｖａ－ｏｒｇ．ｊｐ／Ｐｒｏｃｅｅｄｉｎｇｓ／２０２１／ｐａｐｅｒｓ／Ｏ１－３－２．ｐｄｆ

【新規性喪失の例外の表示】特許法第３０条第２項適用開催日令和３年７月２１日、令和３年７月２７日～令和３年７月２９日集会名画像の認識・理解シンポジウム（ＭＩＲＵ）２０２１開催場所（オンライン開催）ｈｔｔｐ：／／ｃｖｉｍ．ｉｐｓｊ．ｏｒ．ｊｐ／ＭＩＲＵ２０２１／

【早期審査対象出願】

(73)【特許権者】

【識別番号】399037405

【氏名又は名称】楽天グループ株式会社

(73)【特許権者】

【識別番号】500433225

【氏名又は名称】学校法人中部大学

(74)【代理人】

【識別番号】110000154

【氏名又は名称】弁理士法人はるか国際特許事務所

(72)【発明者】

【氏名】山下隆義

(72)【発明者】

【氏名】藤吉弘亘

(72)【発明者】

【氏名】平川翼

(72)【発明者】

【氏名】中澤満

(72)【発明者】

【氏名】蔡永男

(72)【発明者】

【氏名】シュテンガービヨン

【審査官】藤原敬利

(56)【参考文献】

【文献】特開２０１８－１９０３３２（ＪＰ，Ａ）

【文献】特開２００９－０９３２５０（ＪＰ，Ａ）

【文献】特開２００８－１９８０３８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

(57)【特許請求の範囲】

【請求項1】

スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第１の連続画像データを有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得部と、
前記一部分について所定のシーン種別であるか否かの推定を行う機械学習モデルと、を有し、
前記機械学習モデルは、
前記複数の第１の連続画像データのそれぞれに対応する複数の第１の特徴量であって、対応する前記第１の連続画像データの特徴をそれぞれ示す前記複数の第１の特徴量を、前記複数の第１の連続画像データから取得する第１の特徴量取得部と、
前記複数の第１の特徴量にそれぞれ対応する複数の第１の顕著度であって、対応する前記第１の特徴量の顕著度をそれぞれ示す前記複数の第１の顕著度を算出し、対応する前記第１の顕著度により前記複数の第１の特徴量のそれぞれを重み付けすることによって、前記複数の第１の特徴量から複数の第２の特徴量を取得する第２の特徴量取得部と、
前記複数の第２の特徴量に基づき、前記推定の結果を取得する推定結果取得部と、
を有する、コンピュータビジョンシステム。

【請求項2】

前記複数の第１の顕著度は、前記複数の第１の特徴量間の類似度に基づいて算出される、
請求項１に記載のコンピュータビジョンシステム。

【請求項3】

前記連続画像データ取得部は、前記一部分を示すフレーム画像データであって前記連続画像データの数と異なる数の前記フレーム画像データを取得し、前記機械学習モデルに入力される前記連続画像データの数と同数の前記連続画像データを当該フレーム画像データから取得する、
請求項１又は２に記載のコンピュータビジョンシステム。

【請求項4】

前記複数の連続画像データは、前記複数の第１の連続画像データの後に連続する複数の第２の連続画像データを更に有し、
前記機械学習モデルは、
前記複数の第２の連続画像データのそれぞれに対応する複数の第３の特徴量であって、対応する前記第２の連続画像データの特徴をそれぞれ示す前記複数の第３の特徴量を、前記複数の第２の連続画像データから取得する第３の特徴量取得部と、
前記複数の第３の特徴量にそれぞれ対応する複数の第２の顕著度であって、対応する前記第３の特徴量の顕著度をそれぞれ示す前記複数の第２の顕著度を算出し、対応する前記第２の顕著度により前記複数の第３の特徴量のそれぞれを重み付けすることによって、前記複数の第３の特徴量から複数の第４の特徴量を取得する第４の特徴量取得部と、
を更に有し、
前記推定結果取得部は、前記複数の第２の特徴量と前記複数の第４の特徴量とに基づき、前記推定の結果を取得する、
請求項１から３のいずれかに記載のコンピュータビジョンシステム。

【請求項5】

前記第１の連続画像データの数は、前記第２の連続画像データの数と等しい、
請求項４に記載のコンピュータビジョンシステム。

【請求項6】

前記機械学習モデルは、前記一部分について、第１のシーン種別と第２のシーン種別とを有する複数のシーン種別のいずれであるかの推定を行うものであり、
前記連続画像データ取得部は、
前記一部分を示す第１のフレーム画像データであって前記第１のシーン種別に対応する数の前記第１のフレーム画像データと、前記一部分を示す第２のフレーム画像データであって前記第２のシーン種別に対応する数の前記第２のフレーム画像データと、を前記試合映像から取得し、
前記機械学習モデルに入力される前記連続画像データの数と同数の前記第１のシーン種別に係る前記連続画像データを当該第１のフレーム画像データから取得し、
前記機械学習モデルに入力される前記連続画像データの数と同数の前記第２のシーン種別に係る前記連続画像データを当該第２のフレーム画像データから取得し、
前記機械学習モデルは、
当該第１のシーン種別に係る前記連続画像データに基づき、前記第１のシーン種別であるか否かに関する第１の判断データを取得し、
当該第２のシーン種別に係る前記連続画像データに基づき、前記第２のシーン種別であるか否かに関する第２の判断データを取得し、
前記第１の判断データと前記第２の判断データとに基づき、前記複数のシーン種別のいずれであるかの前記推定の結果を取得する、
請求項４又は５に記載のコンピュータビジョンシステム。

【請求項7】

前記機械学習モデルは、
連続する複数の第１の訓練用連続画像データと当該複数の第１の訓練用連続画像データの後に連続する複数の第２の訓練用連続画像データとを有する複数の訓練用連続画像データと、前記複数の訓練用連続画像データと対応づけられたラベルデータであって前記複数の訓練用連続画像データに係る前記シーン種別を示す前記ラベルデータと、を取得すること、
前記複数の訓練用連続画像データを前記機械学習モデルに入力して、前記複数の訓練用連続画像データに係る前記シーン種別の推定の結果を取得すること、
当該推定の結果と前記ラベルデータとに基づき、前記機械学習モデルを学習させること、
により生成されたものである、
請求項４から６のいずれかに記載のコンピュータビジョンシステム。

【請求項8】

前記複数の第１の訓練用連続画像データは、前記複数の訓練用連続画像データに係る前記シーン種別を特徴付ける一のイベントの前に対応し、
前記複数の第２の訓練用連続画像データは、当該イベントの後に対応する、
請求項７に記載のコンピュータビジョンシステム。

【請求項9】

スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第１の連続画像データを有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得ステップと、
機械学習モデルを用い、前記一部分について所定のシーン種別であるか否かの推定を行う推定ステップであって、
前記複数の第１の連続画像データのそれぞれに対応する複数の第１の特徴量であって、対応する前記第１の連続画像データの特徴をそれぞれ示す前記複数の第１の特徴量を、前記複数の第１の連続画像データから取得し、
前記複数の第１の特徴量にそれぞれ対応する複数の第１の顕著度であって、対応する前記第１の特徴量の顕著度をそれぞれ示す前記複数の第１の顕著度を算出し、対応する前記第１の顕著度により前記複数の第１の特徴量のそれぞれを重み付けすることによって、前記複数の第１の特徴量から複数の第２の特徴量を取得し、
前記複数の第２の特徴量に基づき、前記推定の結果を取得する、
前記推定ステップと、
を有する、コンピュータビジョン方法。

【請求項10】

【請求項11】

スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第１の連続画像データと、当該複数の第１の連続画像データの後に連続する複数の第２の連続画像データと、を有する前記複数の連続画像データに基づき前記一部分について所定のシーン種別であるか否かの推定を行う機械学習モデル、の学習を行うための学習方法であって、
連続する複数の第１の訓練用連続画像データと当該複数の第１の訓練用連続画像データの後に連続する複数の第２の訓練用連続画像データとを有する複数の訓練用連続画像データと、前記複数の訓練用連続画像データと対応づけられたラベルデータであって前記複数の訓練用連続画像データに係る前記シーン種別を示す前記ラベルデータと、を取得する訓練データセット取得ステップと、
前記複数の訓練用連続画像データを前記機械学習モデルに入力して、前記複数の訓練用連続画像データに係る前記シーン種別の推定の結果を取得する推定結果取得ステップと、
当該推定の結果と前記ラベルデータとに基づき、前記機械学習モデルの学習を行う学習ステップと、を有し、
前記機械学習モデルは、
前記複数の第１の連続画像データのそれぞれに対応する複数の第１の特徴量であって、対応する前記第１の連続画像データの特徴をそれぞれ示す前記複数の第１の特徴量を、前記複数の第１の連続画像データから取得する第１の特徴量取得部と、
前記複数の第１の特徴量にそれぞれ対応する複数の第１の顕著度であって、対応する前記第１の特徴量の顕著度をそれぞれ示す前記複数の第１の顕著度を算出し、対応する前記第１の顕著度により前記複数の第１の特徴量のそれぞれを重み付けすることによって、前記複数の第１の特徴量から複数の第２の特徴量を取得する第２の特徴量取得部と、
前記複数の第２の連続画像データのそれぞれに対応する複数の第３の特徴量であって、対応する前記第２の連続画像データの特徴をそれぞれ示す前記複数の第３の特徴量を、前記複数の第２の連続画像データから取得する第３の特徴量取得部と、
前記複数の第３の特徴量にそれぞれ対応する複数の第２の顕著度であって、対応する前記第３の特徴量の顕著度をそれぞれ示す前記複数の第２の顕著度を算出し、対応する前記第２の顕著度により前記複数の第３の特徴量のそれぞれを重み付けすることによって、前記複数の第３の特徴量から複数の第４の特徴量を取得する第４の特徴量取得部と、
前記複数の第２の特徴量と前記複数の第４の特徴量とに基づき、前記推定の結果を取得する推定結果取得部と、
を有する、学習方法。

【請求項12】

前記複数の第１の訓練用連続画像データは、前記複数の訓練用連続画像データに係る前記シーン種別を特徴付ける一のイベントの前に対応し、
前記複数の第２の訓練用連続画像データは、当該イベントの後に対応する、
請求項１１に記載の学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法に関する。

【背景技術】

【0002】

機械学習モデルを用いて、スポーツの試合映像の任意の一部分に係るシーン種別を推定する技術が知られている。当該技術を用いることにより、例えば、サッカーの試合映像からゴールシーンや交代シーン、カードシーン等を抽出することができるため、ハイライト映像の作成等、試合映像の編集作業が容易となる。

【0003】

スポーツの試合映像の前記一部分Ｐに係るシーン種別を精度良く推定するためには、当該一部分を構成する複数の画像データ間の相互関連を考慮する機械学習モデルを用いることが重要である。スポーツの試合映像では、多くの場合、重要なシーンが映像全体にわたって疎に分布している。サッカーの試合を例に挙げて説明すると、９０分間の試合全体において、ゴールシーンは平均で２～３回しか存在しない。そのため、ゴールに向かってボールを蹴っている画像データのみをもってゴールシーンか否かを推定すると、誤った推定結果になる可能性が高い。したがって、ゴールシーンか否かをより確実に判定するためには、ボールがネットを揺らしている画像データや、選手や観客が歓喜している画像データ等、関連する他の画像データをも考慮することが重要である。

【0004】

従来、入力データ間の相互関連を考慮して推定を行う機械学習モデルとして、回帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ：ＲＮＮ）が知られている。例えば、非特許文献１には、ＲＮＮの一種であるＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）を用いて動画像に係るシーン種別の推定を行う手法が記載されている。

【先行技術文献】

【非特許文献】

【0005】

【文献】Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, and Trevor Darrell, “Long-term recurrent convolutional networks for visual recognition and description.” In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2015. p. 2625－2634.

【発明の概要】

【発明が解決しようとする課題】

【0006】

ＲＮＮを用いてシーン種別の推定を行う手法は、時系列に入力される連続データを逐次処理するため、学習時に勾配消失が起きやすい。

【0007】

本開示の目的の一つは、スポーツの試合映像の任意の一部分に係るシーン種別を推定する機械学習モデルであって、学習時に勾配消失を起こしにくい機械学習モデルを有するコンピュータビジョンシステムを提供することである。

【課題を解決するための手段】

【0008】

本開示に係るコンピュータビジョンシステムは、スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第１の連続画像データを有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得部と、前記一部分について所定のシーン種別であるか否かの推定を行う機械学習モデルと、を有し、前記機械学習モデルは、前記複数の第１の連続画像データのそれぞれに対応する複数の第１の特徴量であって、対応する前記第１の連続画像データの特徴をそれぞれ示す前記複数の第１の特徴量を、前記複数の第１の連続画像データから取得する第１の特徴量取得部と、前記複数の第１の特徴量にそれぞれ対応する複数の第１の顕著度であって、対応する前記第１の特徴量の顕著度をそれぞれ示す前記複数の第１の顕著度を算出し、対応する前記第１の顕著度により前記複数の第１の特徴量のそれぞれを重み付けすることによって、前記複数の第１の特徴量から複数の第２の特徴量を取得する第２の特徴量取得部と、前記複数の第２の特徴量に基づき、前記推定の結果を取得する推定結果取得部と、を有する。

【図面の簡単な説明】

【0009】

【図1】本開示に係るコンピュータビジョンシステムのハードウェア構成を示す図である。

【図2】本開示に係るコンピュータビジョンシステムで実現される機能の一例を示す機能ブロック図である。

【図3】機械学習モデルの詳細な構成の一例を示す図である。

【図4】顕著度重み付き前半特徴量取得部の詳細な構成の一例を示す図である。

【図5】訓練用連続画像データの詳細な構成の一例を示す図である。

【図6】学習部において実行される処理の詳細の一例を示す図である。

【図7】推定部において実行される処理の一例を示す図である。

【図8】推定部において実行される処理の詳細の一例を示すフロー図である。

【発明を実施するための形態】

【0010】

以下、本開示に係るコンピュータビジョンシステムの実施形態の例を説明する。本実施形態では、コンピュータビジョンシステムが１台のコンピュータによって実現される場合を説明するが、コンピュータビジョンシステムは複数台のコンピュータによって実現されてもよい。

【0011】

［１．コンピュータビジョンシステムの全体構成］
図１は、本開示に係るコンピュータビジョンシステムのハードウェア構成を示す図である。コンピュータビジョンシステム１０は、例えば、携帯電話機（スマートフォンを含む）、携帯情報端末（タブレット型コンピュータを含む）、パーソナルコンピュータ、又はサーバコンピュータ等である。図１に示すように、コンピュータビジョンシステム１０は、制御部１１と、記憶部１２と、通信部１３と、操作部１４と、表示部１５と、を有する。

【0012】

制御部１１は、少なくとも１つのプロセッサを含む。制御部１１は、記憶部１２に記憶されたプログラムやデータに従って処理を実行する。記憶部１２は、主記憶部及び補助記憶部を含む。例えば、主記憶部はＲＡＭなどの揮発性メモリであり、補助記憶部は、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、又はハードディスクなどの不揮発性メモリである。通信部１３は、有線通信又は無線通信用の通信インタフェースであり、インターネットなどのネットワークを介してデータ通信を行う。

【0013】

操作部１４は、入力デバイスである。操作部１４は、例えば、タッチパネルやマウス等のポインティングデバイス、キーボード、又はボタン等である。操作部１４は、ユーザによる操作内容を制御部１１に伝達する。

【0014】

表示部１５は、表示デバイスである。表示部１５は、例えば、液晶表示部又は有機ＥＬ表示部等である。表示部１５は、制御部１１の指示に従って画像を表示する。

【0015】

なお、記憶部１２に記憶されるものとして説明するプログラム及びデータは、ネットワークを介して供給されるようにしてもよい。また、上記説明した各コンピュータのハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、光ディスクドライブやメモリカードスロット）や外部機器とデータの入出力をするための入出力部（例えば、ＵＳＢポート）が含まれていてもよい。例えば、情報記憶媒体に記憶されたプログラムやデータが読取部や入出力部を介して、各コンピュータに供給されるようにしてもよい。

【0016】

［２．コンピュータビジョンシステムで実現される機能］
図２は、本開示に係るコンピュータビジョンシステムで実現される機能の一例を示す機能ブロック図である。コンピュータビジョンシステム１０は、学習システム２０と推定システム３０とを有する。学習システム２０の機能及び推定システム３０の機能は、図１に示すハードウェアによりそれぞれ実現される。また、学習システム２０の機能及び推定システム３０の機能は、本実施形態に係る学習プログラム及び推定プログラムを上記ハードウェアで実行することにより実現される。これらのプログラムは、半導体メモリなどのコンピュータ可読記憶媒体に格納され、当該媒体から上記ハードウェアに供給されてよい。

【0017】

［２－１．学習システムで実現される機能］
以下、学習システム２０で実現される機能について説明する。学習システム２０では、データ記憶部２１及び学習部２２が実現される。データ記憶部２１は、記憶部１２を主として実現され、学習部２２は、制御部１１を主として実現される。以下、データ記憶部２１と、学習部２２と、について説明する。

【0018】

［データ記憶部］
データ記憶部２１は、学習部２２での処理に必要なデータを記憶する。具体的には、データ記憶部２１は、機械学習モデルＭを記憶する。より具体的には、データ記憶部２１は、推定システム３０で利用される機械学習モデルＭのプログラム（アルゴリズム）やパラメータ等を記憶する。機械学習モデルＭは、学習部２２で学習された後に推定システム３０に送信される。また、データ記憶部２１は、訓練データセットＴＤを記憶する。訓練データセットＴＤは、複数の訓練用連続画像データＴＣＤとラベルデータとの組を複数格納する。本実施形態では、複数の訓練用連続画像データＴＣＤは、スポーツの試合映像Ｖの任意の一部分である推定部分Ｐを示すものである。ラベルデータは、複数の訓練用連続画像データＴＣＤと対応づけられており、複数の訓練用連続画像データＴＣＤに係るシーン種別を示す。

【0019】

以下、図３、図５及び図６を適宜参照しつつ、複数の訓練用連続画像データＴＣＤの概要について説明する。複数の訓練用連続画像データＴＣＤが示す推定部分Ｐは、試合映像Ｖ全体のうちの所定の時刻（以下、基準時刻ＲＥＦという）前後の部分を示すものである（図５及び６参照）。例えば、基準時刻ＲＥＦが試合映像Ｖのｔ秒目であり、推定部分Ｐの長さが１２０秒である場合、推定部分Ｐは、試合映像Ｖ全体のうち、ｔ－６０秒からｔ＋６０秒の部分を示すものである。なお、後述するように、推定部分Ｐの長さは、当該推定部分Ｐに係るシーン種別によって異なる。

【0020】

複数の訓練用連続画像データＴＣＤは、推定部分Ｐに係る動画像データを構成する連続の画像データであり、機械学習モデルＭに入力される訓練用連続画像データＴＣＤの数と等しい。本実施形態では、訓練用連続画像データＴＣＤがベクトル形式で表現される場合を説明する。訓練用連続画像データＴＣＤがベクトル形式で表現される場合、訓練用連続画像データＴＣＤの次元数は、訓練用連続画像データＴＣＤの元となる画像の解像度の値（Ｈ×Ｗ×Ｃ）と等しい。なお、訓練用連続画像データＴＣＤは、任意の形式で表現可能であり、ベクトル形式に限られず、配列形式、行列形式、又は単一の数値等の他の形式で表現されてもよい。

【0021】

複数の訓練用連続画像データＴＣＤは、より詳細には、連続する複数の前半訓練用連続画像データＴＣＤ１（第１の訓練用連続画像データ）と、複数の前半訓練用連続画像データＴＣＤ１の後に連続する複数の後半訓練用連続画像データＴＣＤ２（第２の訓練用連続画像データ）と、を有する（図３参照）。本実施形態では、前半訓練用連続画像データＴＣＤ１の数は、後半訓練用連続画像データＴＣＤ２の数と等しい。本実施形態では、複数の訓練用連続画像データＴＣＤが、複数の前半訓練用連続画像データＴＣＤ１と複数の後半訓練用連続画像データＴＣＤ２とに２分割されている場合を説明するが、複数の訓練用連続画像データＴＣＤは３以上に分割されていてもよい。また、前半訓練用連続画像データＴＣＤ１の数と後半訓練用連続画像データＴＣＤ２の数とは等しくなくてもよい。

【0022】

［機械学習モデル］
以下、図３を用いて機械学習モデルＭの具体的な構成について説明する。図３は、機械学習モデルの詳細な構成の一例を示す図である。機械学習モデルＭは、推定部分Ｐについて所定のシーン種別であるか否かの推定を行う。

【0023】

本実施形態に係る機械学習モデルＭは、ＲＮＮのような逐次処理に依ることなく、複数の連続画像データ間の相互関連に関する情報に基づいて推定を実行する。そのため、本実施形態に係る機械学習モデルＭでは、その学習を行う際に勾配消失が発生しにくい。

【0024】

また、本実施形態に係る機械学習モデルＭでは、スポーツの試合映像Ｖの推定部分Ｐのシーン種別の推定をより効率良く行うことができる。すなわち、スポーツの試合映像Ｖでは、イベントの前後で連続画像データＣＤの特徴が大きく変化することが多いため、イベントの前後で別々に判断を行った方が推定の効率がよい。この点、本実施形態に係る機械学習モデルＭによれば、イベントの前後で別々に判断を行うことができるため、シーン種別の推定をより効率良く実行できる。

【0025】

具体的には、機械学習モデルＭは、特徴量取得部４０と、推定結果取得部５０と、を有する。特徴量取得部４０は、画像特徴抽出部４１と、顕著度重み付け部４２と、を更に有する。以下、特徴量取得部４０（画像特徴抽出部４１及び顕著度重み付け部４２）と、推定結果取得部５０と、について説明する。

【0026】

画像特徴抽出部４１は、前半画像特徴量取得部４１１（第１の特徴量取得部）と、後半画像特徴量取得部４１２（第３の特徴量取得部）と、を有する。以下、前半画像特徴量取得部４１１と、後半画像特徴量取得部４１２と、について説明する。

【0027】

前半画像特徴量取得部４１１は、複数の前半訓練用連続画像データＴＣＤ１のそれぞれに対応する複数の前半画像特徴量Ｆ１（第１の特徴量）であって、対応する前半訓練用連続画像データＴＣＤ１の特徴をそれぞれ示す複数の前半画像特徴量Ｆ１を、複数の前半訓練用連続画像データＴＣＤ１から取得する。本実施形態では、前半画像特徴量Ｆ１はベクトル量である。前半画像特徴量取得部４１１としては、例えば、ＩｍａｇｅＮｅｔを用いて学習されたＲｅｓＮｅｔ－１５２等、固定の（公知の学習済みの）特徴抽出器を用いることができる。また、前半画像特徴量取得部４１１は、主成分分析等を用いた次元削減によって、前半画像特徴量Ｆ１の次元数を、対応する前半訓練用連続画像データＴＣＤ１の次元数より小さくする。なお、前半画像特徴量Ｆ１は、任意の形式で表現可能であり、ベクトル形式に限られず、配列形式、行列形式、又は単一の数値等の他の形式で表現されてもよい。

【0028】

後半画像特徴量取得部４１２は、前半画像特徴量取得部４１１と同様にして、複数の後半訓練用連続画像データＴＣＤ２のそれぞれに対応する複数の後半画像特徴量Ｆ３（第３の特徴量）であって、対応する後半訓練用連続画像データＴＣＤ２の特徴をそれぞれ示す複数の後半画像特徴量Ｆ３を、複数の後半訓練用連続画像データＴＣＤ２から取得する。

【0029】

顕著度重み付け部４２は、顕著度重み付き前半特徴量取得部４２１（第２の特徴量取得部）と、顕著度重み付き後半特徴量取得部４２２（第４の特徴量取得部）と、を有する。以下、図４を参照しながら、顕著度重み付き前半特徴量取得部４２１と、顕著度重み付き後半特徴量取得部４２２と、について説明する。図４は、顕著度重み付き前半特徴量取得部の詳細な構成の一例を示す図である。

【0030】

図４に示す構成によれば、機械学習モデルＭは、シーン種別の推定のために重要な画像特徴量をより重視して推定処理を行うため、効率良く推定処理を実行できる。試合映像Ｖの推定部分Ｐは、相互に類似する複数の連続画像を多く含んでいる。かかる連続画像に含まれる情報は、機械学習モデルＭでの推定処理にとってあまり重要でない場合が多い。したがって、相互に類似している（すなわち、顕著度が低い）多数の連続画像に係る特徴量については、重要度が低いものとみなして推定処理への寄与を小さくすることにより、機械学習モデルＭは効率良く推定処理を実行することができる。

【0031】

具体的には、顕著度重み付き前半特徴量取得部４２１は、複数の前半画像特徴量Ｆ１から複数の顕著度重み付き前半特徴量Ｆ２（第２の特徴量）を取得する。顕著度重み付き前半特徴量取得部４２１は、顕著度算出部４２１ａと、重み付け部４２１ｂと、再マッピング部４２１ｃと、を有する。

【0032】

顕著度算出部４２１ａは、複数の前半画像特徴量Ｆ１（第１の特徴量）にそれぞれ対応する複数の前半顕著度（第１の顕著度）であって、対応する前記前半画像特徴量Ｆ１の顕著度をそれぞれ示す複数の前半顕著度を算出する。具体的には、顕著度算出部４２１ａは、複数の前半画像特徴量Ｆ１間の類似度に基づいて前半顕著度を算出する。より詳細には、顕著度算出部４２１ａは、複数の前半画像特徴量Ｆ１のそれぞれに対して、当該前半画像特徴量Ｆ１と、当該前半画像特徴量Ｆ１及び当該他の前半画像特徴量Ｆ１と、の間の類似度に基づいて前半顕著度を算出する。

【0033】

顕著度算出部４２１ａは、複数の前半画像特徴量Ｆ１間の類似度を算出し、当該類似度に基づいて前半顕著度を算出する。本実施形態では、前半画像特徴量Ｆ１がベクトルであることから、ｉ番目の前半画像特徴量Ｆ１とｊ番目の前半画像特徴量Ｆ１との間の類似度（ｓ_ｉ，ｊ）は、下記の数１に示すようにコサイン類似度として表される。ここで、ｆ_ｉは正規化されたｉ番目の前半画像特徴量Ｆ１、ｆ_ｊは正規化されたｊ番目の前半画像特徴量Ｆ１である。

【数1】

【0034】

重み付け部４２１ｂは、対応する前半顕著度により複数の前半画像特徴量Ｆ１のそれぞれを重み付けする。具体的には、重み付け部４２１ｂは、一の前半画像特徴量Ｆ１であって、当該前半画像特徴量Ｆ１と当該他の前半画像特徴量Ｆ１との間の類似度の累積を示す値が小さいものを重く重み付けする。より具体的に言えば、本実施形態では、ｉ番目の重み付けされた複数の前半画像特徴量Ｆ１（ｋ_ｉ）は、下記の数２により表される。ここで、Ｎ_ｆは前半画像特徴量Ｆ１の数、θは所定の閾値である。勿論、前半顕著度による前半画像特徴量Ｆ１の重み付けの方法（すなわち、前半顕著度の表現形式）は、数２で表されるものに限られない。

【数2】

【0035】

本実施形態に係る機械学習モデルＭにおける上記顕著度算出部４２１ａ及び重み付け部４２１ｂは、学習システム２０により学習されない固定の変換器である。すなわち、本実施形態に係る機械学習モデルＭでは、後述する再マッピング部４３１ｃ及び推定結果取得部５０のみが学習システム２０により学習されるため、学習量が少なく済む。

【0036】

再マッピング部４２１ｃは、重み付け部４２１ｂにてそれぞれ重み付けされた複数の前半画像特徴量Ｆ１から、複数の顕著度重み付き前半特徴量Ｆ２を取得する。本実施形態では、再マッピング部４２１ｃは、２つの全結合型ニューラルネットワークと、当該ニューラルネットワークに続くＲｅＬｕ層と、により構成される。当該ニューラルネットワークの重みは、学習システム２０において学習されるパラメータである。

【0037】

なお、本実施形態では、顕著度重み付き前半特徴量取得部４２１は、顕著度算出部４２１ａの前から再マッピング部４２１ｃの後に残差接続を導入した構成を有する。さらに、本実施形態では、顕著度重み付き前半特徴量取得部４２１は、顕著度算出部４２１ａの前、及び重み付け部４２１ｂと再マッピング部４２１ｃとの間において、正規化処理を実行する構成を有する（不図示）。

【0038】

また、より詳細には、顕著度重み付き前半特徴量取得部４２１は、第１の顕著度重み付き前半特徴量取得部４２１－１と、第２の顕著度重み付き前半特徴量取得部４２１－２と、を有する複数の顕著度重み付き前半特徴量取得部４２１である。また、複数の顕著度重み付き前半特徴量Ｆ２は、複数の第１の顕著度重み付き前半特徴量Ｆ２－１と、複数の第２の顕著度重み付き前半特徴量Ｆ２－２と、を有する。具体的には、第１の顕著度重み付き前半特徴量取得部４２１－１は、複数の前半画像特徴量Ｆ１を入力として、複数の第１の顕著度重み付き前半特徴量Ｆ２－１を取得する。また、第２の顕著度重み付き前半特徴量取得部４２１－２は、複数の第１の顕著度重み付き前半特徴量Ｆ２－１を入力として、複数の第２の顕著度重み付き前半特徴量Ｆ２－２を取得する。

【0039】

換言すれば、顕著度重み付き前半特徴量取得部４２１は、顕著度算出部４２１ａと重み付け部４２１ｂと再マッピング部４２１ｃとの組が直列に多段結合した構成を有する。ここでは、顕著度算出部４２１ａと重み付け部４２１ｂと再マッピング部４２１ｃとの組が２段結合する場合を説明したが、顕著度算出部４２１ａと重み付け部４２１ｂと再マッピング部４２１ｃとの組は３段以上結合してもよい。かかる構成によれば、より高い精度で特徴量間の顕著度を抽出することができる。

【0040】

顕著度重み付き前半特徴量取得部４２１と同様にして、顕著度重み付き後半特徴量取得部４２２は、複数の後半画像特徴量Ｆ３から複数の顕著度重み付き後半特徴量Ｆ４（第４の特徴量）を取得する。

【0041】

推定結果取得部５０は、複数の顕著度重み付き前半特徴量Ｆ２と複数の顕著度重み付き後半特徴量Ｆ４とに基づき、推定の結果を取得する。具体的には、推定結果取得部５０は、入力されたデータに基づいて推定を行う推定器である。例えば、推定結果取得部５０は、全結合型のニューラルネットワークであり、その重みは学習システム２０において学習されるパラメータである。推定結果取得部５０は、推定の結果として、推定部分Ｐが所定のシーン種別である確率値を出力する。

【0042】

なお、機械学習モデルＭの構成は、本実施形態において説明した例に限られるものではない。変形例に係る機械学習モデルＭにおいては、画像特徴抽出部４１が前半画像特徴量取得部４１１と後半画像特徴量取得部４１２とを有さず、顕著度重み付け部４２が顕著度重み付き前半特徴量取得部４２１と顕著度重み付き後半特徴量取得部４２２とを有さない構成としてもよい。変形例に係る機械学習モデルに入力する複数の訓練用連続画像データＴＣＤは、複数の前半訓練用連続画像データＴＣＤ１と複数の後半訓練用連続画像データＴＣＤ２とを含まない。すなわち、図３に示した機械学習モデルＭと異なり、変形例に係る機械学習モデルＭにおいては、イベントの前後で別々に判断を行わないような構成としてもよい。

【0043】

［学習部］
学習部２２は、複数の訓練用連続画像データＴＣＤを用いて機械学習モデルＭを学習する。具体的には、学習部２２は、複数の訓練用連続画像データＴＣＤとラベルデータとを取得し、複数の訓練用連続画像データＴＣＤを機械学習モデルＭに入力して複数の訓練用連続画像データＴＣＤに係るシーン種別の推定の結果を取得し、当該推定の結果とラベルデータとに基づき、機械学習モデルＭの学習を行う。より具体的には、学習部２２は、前記ラベルデータに係るラベルの確率値が大きくなるように機械学習モデルの学習を行う。学習部２２は、学習途中で当該値が十分大きくなった場合には、その時点で学習を終了する。学習部２２は、当該値が十分大きくならなくても、所定回数の学習を繰り返した場合には、学習を終了してもよい。学習自体は、公知の手法を利用可能であり、例えば、ＡｄａｍやＲＭＳＰｒｏｐ等が利用されてもよい。

【0044】

［訓練用連続画像データの詳細］
ここで、図５を用いて、学習に用いられる訓練用連続画像データＴＣＤ（特に前半訓練用連続画像データＴＣＤ１及び後半訓練用連続画像データＴＣＤ２）の詳細な構成について説明する。図５は、訓練用連続画像データの詳細な構成の一例を示す図である。

【0045】

以下に説明する構成を有する訓練用連続画像データＴＣＤによれば、機械学習モデルＭの学習を効率良く行うことができる。すなわち、以下に説明する構成により、顕著度重み付き前半特徴量取得部４２１と顕著度重み付き後半特徴量取得部４２２とを、それぞれにとって最適な複数の訓練用連続画像データＴＣＤを用いて学習することができるため、機械学習モデルＭの学習を効率良く実行できる。

【0046】

具体的には、複数の前半訓練用連続画像データＴＣＤ１は、複数の訓練用連続画像データＴＣＤに係るシーン種別を特徴付ける一のイベントの前に対応し、複数の後半訓練用連続画像データＴＣＤ２は、当該イベントの後に対応する。ここで、当該イベントは基準時刻ＲＥＦに、複数の前半訓練用連続画像データＴＣＤ１は試合映像Ｖのうち基準時刻ＲＥＦの前の部分に、複数の後半訓練用連続画像データＴＣＤ２は試合映像Ｖのうち基準時刻ＲＥＦの後の部分に、それぞれ対応する。

【0047】

本実施形態では、試合映像Ｖはサッカーの試合映像であり、複数の訓練用連続画像データＴＣＤに係るシーン種別はゴールシーンである。この例において、複数の訓練用連続画像データＴＣＤが、プレイヤー達がゴールに向かって走っている場面Ａと、プレイヤーがゴールに向かってシュートしている場面Ｂと、プレイヤー達が駆け回り歓喜する場面Ｃと、により構成されると仮定する。ここで、場面Ａ、場面Ｂ及び場面Ｃはこの順に時系列で並ぶ。この場合、ゴールシーンを特徴付ける一のイベントは場面Ｂであり、複数の前半訓練用連続画像データＴＣＤ１は場面Ａに対応し、複数の後半訓練用連続画像データＴＣＤ２は場面Ｃに対応する。

【0048】

［学習部において実行される処理の詳細］
続いて、図６を用いて、学習部において実行される処理の詳細を説明する。図６は、学習部において実行される処理の詳細の一例を示す図である。

【0049】

機械学習モデルＭは、より詳細には、推定部分Ｐについて、第１のシーン種別と第２のシーン種別とを有する複数のシーン種別のいずれであるかの推定を行う。本実施形態では、複数のシーン種別が、第１のシーン種別と第２のシーン種別との２つのシーン種別を有する場合を説明するが、複数のシーン種別は、３以上のシーン種別を有してもよい。シーン種別の数は複数に限られず、一つでもよい。本実施形態では、第１のシーン種別がゴールシーンであり、第２のシーン種別がカードシーンである場合を説明する。なお、第１のシーン種別及び第２のシーン種別がこの例に限られないのは勿論である。

【0050】

図６に示す学習部の処理によれば、推定部分Ｐの長さに依らず、同数且つ少数の訓練用連続画像データＴＣＤで機械学習モデルＭの学習を実行することができる。サッカーの試合映像を例として説明すると、カードシーンを示す映像はゴールシーンを示す映像よりも長いことが多い。すなわち、カードシーンを示す推定部分Ｐの長さは、ゴールシーンを示す推定部分Ｐの長さと異なる。このように推定部分Ｐの長さがシーン種別毎に異なる場合であっても、図６に示す学習部の処理によれば、同数且つ少数の訓練用連続画像データＴＣＤで学習を実行することができる。

【0051】

具体的には、学習部２２は、推定部分Ｐを示す第１の訓練用フレーム画像データＴＦＤ１を試合映像Ｖから取得する（図６（ａ））。第１の訓練用フレーム画像データＴＦＤ１の数はゴールシーンに対応する。また、同様にして、学習部２２は、推定部分Ｐを示す第２の訓練用フレーム画像データＴＦＤ２を試合映像Ｖから取得する（図６（ｂ））。第２の訓練用フレーム画像データＴＦＤ２の数はカードシーンに対応する。例えば、ゴールシーンに対応する第１の訓練用フレーム画像データＴＦＤ１の数が６０である場合、カードシーンに対応する第２の訓練用フレーム画像データＴＦＤ２の数は９０である。勿論、これは一例であり、第１の訓練用フレーム画像データＴＦＤ１の数及び第２の訓練用フレーム画像データＴＦＤ２の数は任意に設定可能である。

【0052】

学習部２２は、機械学習モデルＭに入力される訓練用連続画像データＴＣＤの数と同数のゴールシーンに係る訓練用連続画像データＴＣＤを当該第１の訓練用フレーム画像データＴＦＤ１から取得する（図６（ａ））。機械学習モデルＭに入力される訓練用連続画像データＴＣＤの数は予め設定されている。そのため、第１の訓練用フレーム画像データＴＦＤ１の数が当該訓練用連続画像データＴＣＤの数と異なる場合、第１の訓練用フレーム画像データＴＦＤ１を機械学習モデルＭに直接入力することが出来ない。そこで、学習部２２は、第１の訓練用フレーム画像データＴＦＤ１に対してリサンプリング処理を行い、機械学習モデルＭに入力される訓練用連続画像データＴＣＤの数と同数の訓練用連続画像データＴＣＤを取得する。リサンプリング処理の方法としては種々の補間法を利用することができる。

【0053】

また、学習部２２は、ゴールシーンに係る訓練用連続画像データＴＣＤの場合と同様にして、機械学習モデルＭに入力される訓練用連続画像データＴＣＤの数と同数のカードシーンに係る訓練用連続画像データＴＣＤを当該第２の訓練用フレーム画像データＴＦＤ２から取得する（図６（ｂ））。

【0054】

ここで、当該ゴールシーンに係る訓練用連続画像データＴＣＤは、ゴールシーンを示す第１のラベルデータに対応付けられている（図６（ａ））。同様に、当該カードシーンに係る訓練用連続画像データＴＣＤは、カードシーンを示す第２のラベルデータに対応付けられている（図６（ｂ））。

【0055】

その後、学習部２２は、ゴールシーンに係る複数の訓練用連続画像データＴＣＤを機械学習モデルに入力し、当該訓練用連続画像データＴＣＤに係るシーン種別の推定の結果を取得する。学習部２２は、推定の結果と第１のラベルデータとに基づき、機械学習モデルＭの学習を実行する（図６（ａ））。同様に、学習部２２は、カードシーンに係る複数の訓練用連続画像データＴＣＤを機械学習モデルに入力し、当該訓練用連続画像データＴＣＤに係るシーン種別の推定の結果を取得する。学習部２２は、推定の結果と第２のラベルデータとに基づき、機械学習モデルＭの学習を実行する（図６（ｂ））。

【0056】

［２－２．推定システムで実現される機能］
ここで、図２に戻って、推定システム３０で実現される機能について説明する。推定システム３０では、データ記憶部３１及び推定部３２が実現される。データ記憶部３１は、記憶部１２を主として実現され、推定部３２は、制御部１１を主として実現される。以下、データ記憶部３１と、推定部３２と、について説明する。

【0057】

［データ記憶部］
データ記憶部３１は、推定部３２での処理に必要なデータを記憶する。具体的には、データ記憶部３１は、映像データセットＶＤを記憶する。映像データセットＶＤは、試合映像Ｖのデータを格納する。試合映像Ｖは、スポーツの試合映像である。本実施形態では、前記の通り、試合映像Ｖに係るスポーツはサッカーであるが、この例に限られず、例えば、野球、ラグビー、バレーボール等の他の集団競技の球技でもよい。また、試合映像Ｖに係るスポーツは、テニス、卓球、ゴルフ等の個人競技（ペア含む）の球技、フルマラソン等の陸上競技、競泳、オープンウォータースイミング等の水上競技、ノルディックスキー等の雪上競技、或いはトライアスロン、自転車ロードレース等の耐久競技でもよい。データ記憶部３１は、機械学習モデルＭのプログラム（アルゴリズム）やパラメータ等を記憶する。データ記憶部３１に記憶された機械学習モデルＭのパラメータは、学習システム２０での学習処理により調整済みのものである。

【0058】

［推定部］
以下、図７を用いて、推定部３２において実行される処理について説明する。図７は、推定部において実行される処理の一例を示す図である。推定部３２は、機械学習モデルＭを用いて、試合映像Ｖの推定部分Ｐに係るシーン種別の推定を実行する。

【0059】

推定部３２は、推定部分Ｐを示す複数の連続画像データＣＤを試合映像Ｖから取得する。複数の連続画像データＣＤは、推定部分Ｐを構成する連続の画像データであり、機械学習モデルＭに入力される連続画像データＣＤの数と等しい。本実施形態では、連続画像データＣＤがベクトル形式で表現される場合を説明する。連続画像データＣＤがベクトル形式で表現される場合、連続画像データＣＤの次元数は、連続画像データＣＤの元となる画像の解像度の値（Ｈ×Ｗ×Ｃ）と等しい。なお、連続画像データＣＤは、任意の形式で表現可能であり、ベクトル形式に限られず、配列形式、行列形式、又は単一の数値等の他の形式で表現されてもよい。

【0060】

具体的には、複数の連続画像データＣＤは、連続する複数の前半連続画像データＣＤ１（第１の連続画像データ）と、複数の前半連続画像データＣＤ１の後に連続する複数の後半連続画像データＣＤ２（第２の連続画像データ）と、を有する。本実施形態では、前半連続画像データＣＤ１の数は、後半連続画像データＣＤ２の数と等しい。本実施形態では、複数の連続画像データＣＤが、複数の前半連続画像データＣＤ１と複数の後半連続画像データＣＤ２とに２分割されている場合を説明するが、複数の連続画像データＣＤは３以上に分割されていてもよく、或いは分割されていなくてもよい。また、前半連続画像データＣＤ１の数と後半連続画像データＣＤ２の数とは等しくなくてもよい。

【0061】

推定部３２は、複数の連続画像データＣＤを機械学習モデルＭに入力し、図３を用いて説明したようにして、推定部分Ｐについて所定のシーン種別であるか否かの推定を実行する。

【0062】

［推定部において実行される処理の詳細］
最後に、図８を用いて、推定部３２において実行される処理の詳細を説明する。図８は、推定部において実行される処理の詳細の一例を示すフロー図である。図８に示す各ステップの処理は、推定プログラムを図１に示すハードウェアで実行することにより実現される。

【0063】

以下に説明する推定部３２の構成によれば、本実施形態に係る機械学習モデルＭを用いて、試合映像Ｖから特定のシーンを抽出することができる。当該構成により、例えば、サッカーの試合映像からゴールシーンや交代シーン、カードシーン等を抽出することができるため、ハイライト映像の作成等、試合映像の編集作業が容易となる。

【0064】

具体的には、推定部３２は、試合映像Ｖ全体にわたって基準時刻ＲＥＦを掃引し、試合映像Ｖの各時刻に対応する推定部分Ｐについて、複数のシーン種別のいずれであるかの推定を実行する。

【0065】

まず、推定部３２は基準時刻ＲＥＦを決定する（Ｓ１０）。具体的には、推定部３２は、試合映像Ｖの開始時刻から終了時刻までの期間の各時刻から基準時刻ＲＥＦを決定する。なお、開始時刻は、試合映像の実際の始点（すなわち、０秒）と必ずしも一致しない。終了時刻も同様に、試合映像の実際の終点と必ずしも一致しない。これは、後の処理工程において、基準時刻ＲＥＦに対応する推定部分Ｐを取得することを考慮したものである。

【0066】

次いで、推定部３２は、基準時刻ＲＥＦについて推定すべきシーン種別を複数のシーン種別から選択する（Ｓ１１）。本実施形態では、複数のシーン種別がゴールシーン（第１のシーン種別）及びカードシーン（第２のシーン種別）の場合を説明する。勿論、複数のシーン種別は３以上であってもよく、各シーン種別はこの例に限られない。

【0067】

推定部３２は、選択したシーン種別に対応する長さの推定部分Ｐを試合映像Ｖから取得する（Ｓ１２）。具体的には、推定部３２は、選択したシーン種別に対応する数のフレーム画像データを取得し、図６に示す処理と同様の方法により、機械学習モデルＭに入力される連続画像データＣＤの数と同数の連続画像データＣＤを当該フレーム画像データから取得する。より具体的には、推定部分Ｐを示す第１のフレーム画像データであってゴールシーンに対応する数の第１のフレーム画像データを取得し、機械学習モデルＭに入力される連続画像データＣＤの数と同数のゴールシーンに係る連続画像データＣＤを当該第１のフレーム画像データから取得する。推定部３２は、カードシーンについても同様の処理を実行する。

【0068】

次いで、推定部３２は、当該推定部分Ｐに係るシーン種別の推定を実行する（Ｓ１３）。具体的には、推定部３２は、取得した連続画像データＣＤを機械学習モデルＭに入力し、推定部分Ｐに係るシーン種別の推定の結果を取得する。推定部３２は、取得した推定の結果を保存する（Ｓ１４）。

【0069】

推定部３２は、Ｓ１１からＳ１４までの処理を、ゴールシーン及びカードシーンの両方について実行する（Ｓ１５；ＮＯ）。推定部３２は、Ｓ１１からＳ１４までの処理を、ゴールシーン及びカードシーンの両方について実行し終えると（Ｓ１５；ＹＥＳ）、保存された各シーン種別についての推定の結果を総合して、推定部分Ｐに係るシーン種別がゴールシーン又はカードシーンのいずれであるかの推定の結果を取得する（Ｓ１６）。

【0070】

以下、Ｓ１６での処理について説明する。具体的には、推定部３２において、機械学習モデルＭは、ゴールシーンに係る連続画像データＣＤに基づき、ゴールシーンであるか否かに関する第１の判断データを取得する。具体的には、第１の判断データは、ゴールシーンについての推定の結果である確率値である。同様に、機械学習モデルＭは、カードシーンに係る連続画像データＣＤに基づき、カードシーンであるか否かに関する第２の判断データを取得する。具体的には、第２の判断データは、カードシーンについての推定の結果である確率値である。

【0071】

また、具体的には、推定部３２において、機械学習モデルＭは、第１の判断データと第２の判断データとに基づき、ゴールシーン又はカードシーンのいずれであるかの推定の結果を取得する。より具体的には、機械学習モデルＭは、第１の判断データ及び第２の判断データが所定の閾値を超えているかを判断し、以下の判断に従って推定の結果を取得する。すなわち、機械学習モデルＭは、第１の判断データ及び第２の判断データのうち一方のみが当該閾値を超えている場合には、当該一方に対応するシーン種別を推定部分Ｐに係るシーン種別であると判断する。機械学習モデルＭは、第１の判断データ及び第２の判断データのいずれも当該閾値を超えていない場合には、推定部分Ｐに係るシーン種別はゴールシーンでもカードシーンでもない（すなわち、背景シーン）と判断する。機械学習モデルＭは、第１の判断データ及び第２の判断データの両方が当該閾値を超えている場合には、値の大きい方に対応するシーン種別を推定部分Ｐに係るシーン種別であると判断する。

【0072】

推定部３２は、Ｓ１０からＳ１６までの処理を、試合映像Ｖの開始時刻から終了時刻までの期間の全時刻について実行する（Ｓ１７；ＮＯ）。推定部３２は、Ｓ１０からＳ１６までの処理を、試合映像Ｖの開始時刻から終了時刻までの全期間について実行し終えると（Ｓ１７；ＹＥＳ）、処理を終了する。

【0073】

以上に説明した実施形態によれば、スポーツの試合映像の任意の一部分に係るシーン種別を推定する機械学習モデルであって、学習時に勾配消失を起こしにくい機械学習モデルを有するコンピュータビジョンシステムが提供される。

【0074】

また、本実施形態に係る機械学習モデルは、スポーツの試合映像の任意の一部分を構成する各連続画像データの顕著度を考慮して当該一部分に係るシーン種別の推定を行う。本実施形態に係る機械学習モデルでは、本実施形態に係る学習システムにより学習されない固定の変換器により重み付けされた特徴量を、本実施形態に係る学習システムにより学習される推定器に入力するため、学習量が少なく済む。

【図1】