IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 楽天株式会社の特許一覧 ▶ 学校法人中部大学の特許一覧

特許7460995コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法
<>
  • 特許-コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 図1
  • 特許-コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 図2
  • 特許-コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 図3
  • 特許-コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 図4
  • 特許-コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 図5
  • 特許-コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 図6
  • 特許-コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 図7
  • 特許-コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-26
(45)【発行日】2024-04-03
(54)【発明の名称】コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240327BHJP
【FI】
G06T7/00 350B
【請求項の数】 10
(21)【出願番号】P 2023536620
(86)(22)【出願日】2022-03-28
(86)【国際出願番号】 JP2022014990
(87)【国際公開番号】W WO2023002716
(87)【国際公開日】2023-01-26
【審査請求日】2024-01-12
(31)【優先権主張番号】63/223,932
(32)【優先日】2021-07-20
(33)【優先権主張国・地域又は機関】US
【新規性喪失の例外の表示】特許法第30条第2項適用 開催日 令和3年7月20日、令和3年7月25日~令和3年7月27日 集会名 2021 17th International Conference on Machine Vision and Applications (MVA) 開催場所(オンライン開催) (ア)https://www.mva-org.jp/mva2021/ (イ)https://ieeexplore.ieee.org/abstract/document/9511342 (ウ)https://www.mva-org.jp/Proceedings/2021/papers/O1-3-2.pdf
【新規性喪失の例外の表示】特許法第30条第2項適用 開催日 令和3年7月21日、令和3年7月27日~令和3年7月29日 集会名 画像の認識・理解シンポジウム(MIRU)2021 開催場所(オンライン開催) http://cvim.ipsj.or.jp/MIRU2021/
【早期審査対象出願】
(73)【特許権者】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(73)【特許権者】
【識別番号】500433225
【氏名又は名称】学校法人中部大学
(74)【代理人】
【識別番号】110000154
【氏名又は名称】弁理士法人はるか国際特許事務所
(72)【発明者】
【氏名】山下 隆義
(72)【発明者】
【氏名】藤吉 弘亘
(72)【発明者】
【氏名】平川 翼
(72)【発明者】
【氏名】中澤 満
(72)【発明者】
【氏名】蔡 永男
(72)【発明者】
【氏名】シュテンガー ビヨン
【審査官】藤原 敬利
(56)【参考文献】
【文献】特開2018-190332(JP,A)
【文献】特開2009-093250(JP,A)
【文献】特開2008-198038(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00- 7/90
G06V 10/00-20/90
(57)【特許請求の範囲】
【請求項1】
スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データと、当該複数の第1の連続画像データの後に連続する複数の第2の連続画像データと、を有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得部と、
前記一部分について所定のシーン種別であるか否かの推定を行う機械学習モデルと、を有し、
前記機械学習モデルは、
前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得する第1の特徴量取得部と、
前記複数の第2の連続画像データのそれぞれに対応する複数の第2の特徴量であって、対応する前記第2の連続画像データの特徴をそれぞれ示す前記複数の第2の特徴量を、前記複数の第2の連続画像データから取得する第2の特徴量取得部と、
前記複数の第1の特徴量のそれぞれに対して、当該第1の特徴量に対応する前記第1の連続画像データの順序に関する情報を付与することにより、前記複数の第1の特徴量から複数の第3の特徴量を取得する第3の特徴量取得部と、
前記複数の第2の特徴量のそれぞれに対して、当該第2の特徴量に対応する前記第2の連続画像データの順序に関する情報を付与することにより、前記複数の第2の特徴量から複数の第4の特徴量を取得する第4の特徴量取得部と、
前記複数の第3の特徴量のそれぞれに対して、前記複数の第3の特徴量間の関連度に関する情報を付与することにより、前記複数の第3の特徴量から複数の第5の特徴量を取得する第5の特徴量取得部と、
前記複数の第4の特徴量のそれぞれに対して、前記複数の第4の特徴量間の関連度に関する情報を付与することにより、前記複数の第4の特徴量から複数の第6の特徴量を取得する第6の特徴量取得部と、
前記複数の第5の特徴量と前記複数の第6の特徴量とに基づき、前記推定の結果を取得する推定結果取得部と、
を有する、コンピュータビジョンシステム。
【請求項2】
前記第1の連続画像データの数は、前記第2の連続画像データの数と等しい、
請求項1に記載のコンピュータビジョンシステム。
【請求項3】
前記連続画像データ取得部は、前記一部分を示すフレーム画像データであって前記連続画像データの数と異なる数の前記フレーム画像データを取得し、前記機械学習モデルに入力される前記連続画像データの数と同数の前記連続画像データを当該フレーム画像データから取得する、
請求項1又は2に記載のコンピュータビジョンシステム。
【請求項4】
前記機械学習モデルは、前記一部分について、第1のシーン種別と第2のシーン種別とを有する複数のシーン種別のいずれであるかの推定を行うものであり、
前記連続画像データ取得部は、
前記一部分を示す第1のフレーム画像データであって前記第1のシーン種別に対応する数の前記第1のフレーム画像データと、前記一部分を示す第2のフレーム画像データであって前記第2のシーン種別に対応する数の前記第2のフレーム画像データと、を前記試合映像から取得し、
前記機械学習モデルに入力される前記連続画像データの数と同数の前記第1のシーン種別に係る前記連続画像データを当該第1のフレーム画像データから取得し、
前記機械学習モデルに入力される前記連続画像データの数と同数の前記第2のシーン種別に係る前記連続画像データを当該第2のフレーム画像データから取得し、
前記機械学習モデルは、
当該第1のシーン種別に係る前記連続画像データに基づき、前記第1のシーン種別であるか否かに関する第1の判断データを取得し、
当該第2のシーン種別に係る前記連続画像データに基づき、前記第2のシーン種別であるか否かに関する第2の判断データを取得し、
前記第1の判断データと前記第2の判断データとに基づき、前記複数のシーン種別のいずれであるかの前記推定の結果を取得する、
請求項1から3のいずれかに記載のコンピュータビジョンシステム。
【請求項5】
前記機械学習モデルは、
連続する複数の第1の訓練用連続画像データと当該複数の第1の訓練用連続画像データの後に連続する複数の第2の訓練用連続画像データとを有する複数の訓練用連続画像データと、前記複数の訓練用連続画像データと対応づけられたラベルデータであって前記複数の訓練用連続画像データに係る前記シーン種別を示す前記ラベルデータと、を取得すること、
前記複数の訓練用連続画像データを前記機械学習モデルに入力して、前記複数の訓練用連続画像データに係る前記シーン種別の推定の結果を取得すること、
当該推定の結果と前記ラベルデータとに基づき、前記機械学習モデルを学習させること、
により生成されたものである、
請求項1から4のいずれかに記載のコンピュータビジョンシステム。
【請求項6】
前記複数の第1の訓練用連続画像データは、前記複数の訓練用連続画像データに係る前記シーン種別を特徴付ける一のイベントの前に対応し、
前記複数の第2の訓練用連続画像データは、当該イベントの後に対応する、
請求項5に記載のコンピュータビジョンシステム。
【請求項7】
スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データと、当該複数の第1の連続画像データの後に連続する複数の第2の連続画像データと、を有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得ステップと、
機械学習モデルを用い、前記一部分について所定のシーン種別であるか否かの推定を行う推定ステップであって、
前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得し、
前記複数の第2の連続画像データのそれぞれに対応する複数の第2の特徴量であって、対応する前記第2の連続画像データの特徴をそれぞれ示す前記複数の第2の特徴量を、前記複数の第2の連続画像データから取得し、
前記複数の第1の特徴量のそれぞれに対して、当該第1の特徴量に対応する前記第1の連続画像データの順序に関する情報を付与することにより、前記複数の第1の特徴量から複数の第3の特徴量を取得し、
前記複数の第2の特徴量のそれぞれに対して、当該第2の特徴量に対応する前記第2の連続画像データの順序に関する情報を付与することにより、前記複数の第2の特徴量から複数の第4の特徴量を取得し、
前記複数の第3の特徴量のそれぞれに対して、前記複数の第3の特徴量間の関連度に関する情報を付与することにより、前記複数の第3の特徴量から複数の第5の特徴量を取得し、
前記複数の第4の特徴量のそれぞれに対して、前記複数の第4の特徴量間の関連度に関する情報を付与することにより、前記複数の第4の特徴量から複数の第6の特徴量を取得し、
前記複数の第5の特徴量と前記複数の第6の特徴量とに基づき、前記推定の結果を取得する、
前記推定ステップと、
を有するコンピュータビジョン方法。
【請求項8】
スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データと、当該複数の第1の連続画像データの後に連続する複数の第2の連続画像データと、を有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得ステップと、
機械学習モデルを用い、前記一部分について所定のシーン種別であるか否かの推定を行う推定ステップであって、
前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得し、
前記複数の第2の連続画像データのそれぞれに対応する複数の第2の特徴量であって、対応する前記第2の連続画像データの特徴をそれぞれ示す前記複数の第2の特徴量を、前記複数の第2の連続画像データから取得し、
前記複数の第1の特徴量のそれぞれに対して、当該第1の特徴量に対応する前記第1の連続画像データの順序に関する情報を付与することにより、前記複数の第1の特徴量から複数の第3の特徴量を取得し、
前記複数の第2の特徴量のそれぞれに対して、当該第2の特徴量に対応する前記第2の連続画像データの順序に関する情報を付与することにより、前記複数の第2の特徴量から複数の第4の特徴量を取得し、
前記複数の第3の特徴量のそれぞれに対して、前記複数の第3の特徴量間の関連度に関する情報を付与することにより、前記複数の第3の特徴量から複数の第5の特徴量を取得し、
前記複数の第4の特徴量のそれぞれに対して、前記複数の第4の特徴量間の関連度に関する情報を付与することにより、前記複数の第4の特徴量から複数の第6の特徴量を取得し、
前記複数の第5の特徴量と前記複数の第6の特徴量とに基づき、前記推定の結果を取得する、
前記推定ステップと、
をコンピュータに実行させるためのコンピュータビジョンプログラム。
【請求項9】
スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データと、当該複数の第1の連続画像データの後に連続する複数の第2の連続画像データと、を有する前記複数の連続画像データに基づき前記一部分について所定のシーン種別であるか否かの推定を行う機械学習モデル、の学習を行うための学習方法であって、
連続する複数の第1の訓練用連続画像データと当該複数の第1の訓練用連続画像データの後に連続する複数の第2の訓練用連続画像データとを有する複数の訓練用連続画像データと、前記複数の訓練用連続画像データと対応づけられたラベルデータであって前記複数の訓練用連続画像データに係る前記シーン種別を示す前記ラベルデータと、を取得する訓練データセット取得ステップと、
前記複数の訓練用連続画像データを前記機械学習モデルに入力して、前記複数の訓練用連続画像データに係る前記シーン種別の推定の結果を取得する推定結果取得ステップと、
当該推定の結果と前記ラベルデータとに基づき、前記機械学習モデルの学習を行う学習ステップと、を有し、
前記機械学習モデルは、
前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得する第1の特徴量取得部と、
前記複数の第2の連続画像データのそれぞれに対応する複数の第2の特徴量であって、対応する前記第2の連続画像データの特徴をそれぞれ示す前記複数の第2の特徴量を、前記複数の第2の連続画像データから取得する第2の特徴量取得部と、
前記複数の第1の特徴量のそれぞれに対して、当該第1の特徴量に対応する前記第1の連続画像データの順序に関する情報を付与することにより、前記複数の第1の特徴量から複数の第3の特徴量を取得する第3の特徴量取得部と、
前記複数の第2の特徴量のそれぞれに対して、当該第2の特徴量に対応する前記第2の連続画像データの順序に関する情報を付与することにより、前記複数の第2の特徴量から複数の第4の特徴量を取得する第4の特徴量取得部と、
前記複数の第3の特徴量のそれぞれに対して、前記複数の第3の特徴量間の関連度に関する情報を付与することにより、前記複数の第3の特徴量から複数の第5の特徴量を取得する第5の特徴量取得部と、
前記複数の第4の特徴量のそれぞれに対して、前記複数の第4の特徴量間の関連度に関する情報を付与することにより、前記複数の第4の特徴量から複数の第6の特徴量を取得する第6の特徴量取得部と、
前記複数の第5の特徴量と前記複数の第6の特徴量とに基づき、前記推定の結果を取得する推定結果取得部と、
を有する、学習方法。
【請求項10】
前記複数の第1の訓練用連続画像データは、前記複数の訓練用連続画像データに係る前記シーン種別を特徴付ける一のイベントの前に対応し、
前記複数の第2の訓練用連続画像データは、当該イベントの後に対応する、
請求項9に記載の学習方法。


【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法に関する。
【背景技術】
【0002】
機械学習モデルを用いて、スポーツの試合映像の任意の一部分に係るシーン種別を推定する技術が知られている。当該技術を用いることにより、例えば、サッカーの試合映像からゴールシーンや交代シーン、カードシーン等を抽出することができるため、ハイライト映像の作成等、試合映像の編集作業が容易となる。
【0003】
スポーツの試合映像の任意の一部分に係るシーン種別を精度良く推定するためには、当該一部分を構成する複数の画像データ間の相互関連を考慮する機械学習モデルを用いることが重要である。スポーツの試合映像では、多くの場合、重要なシーンが映像全体にわたって疎に分布している。サッカーの試合を例に挙げて説明すると、90分間の試合全体において、ゴールシーンは平均で2~3回しか存在しない。そのため、ゴールに向かってボールを蹴っている画像データのみをもってゴールシーンか否かを推定すると、誤った推定結果になる可能性が高い。したがって、ゴールシーンか否かをより確実に判定するためには、ボールがネットを揺らしている画像データや、選手や観客が歓喜している画像データ等、関連する他の画像データをも考慮することが重要である。
【0004】
従来、入力データ間の相互関連を考慮して推定を行う機械学習モデルとして、回帰型ニューラルネットワーク(Recurrent Neural Network:RNN)が知られている。例えば、非特許文献1には、RNNの一種であるLSTM(Long Short-Term Memory)を用いて動画像に係るシーン種別の推定を行う手法が記載されている。
【先行技術文献】
【非特許文献】
【0005】
【文献】Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, and Trevor Darrell, “Long-term recurrent convolutional networks for visual recognition and description.” In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2015. p. 2625-2634.
【発明の概要】
【発明が解決しようとする課題】
【0006】
RNNを用いてシーン種別の推定を行う手法は、時系列に入力される連続データを逐次処理するため、学習時に勾配消失が起きやすい。
【0007】
本開示の目的の一つは、スポーツの試合映像の任意の一部分に係るシーン種別を推定する機械学習モデルであって、学習時に勾配消失を起こしにくい機械学習モデルを有するコンピュータビジョンシステムを提供することである。
【課題を解決するための手段】
【0008】
本開示に係るコンピュータビジョンシステムは、スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データと、当該複数の第1の連続画像データの後に連続する複数の第2の連続画像データと、を有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得部と、前記一部分について所定のシーン種別であるか否かの推定を行う機械学習モデルと、を有し、前記機械学習モデルは、前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得する第1の特徴量取得部と、前記複数の第2の連続画像データのそれぞれに対応する複数の第2の特徴量であって、対応する前記第2の連続画像データの特徴をそれぞれ示す前記複数の第2の特徴量を、前記複数の第2の連続画像データから取得する第2の特徴量取得部と、前記複数の第1の特徴量のそれぞれに対して、当該第1の特徴量に対応する前記第1の連続画像データの順序に関する情報を付与することにより、前記複数の第1の特徴量から複数の第3の特徴量を取得する第3の特徴量取得部と、前記複数の第2の特徴量のそれぞれに対して、当該第2の特徴量に対応する前記第2の連続画像データの順序に関する情報を付与することにより、前記複数の第2の特徴量から複数の第4の特徴量を取得する第4の特徴量取得部と、前記複数の第3の特徴量のそれぞれに対して、前記複数の第3の特徴量間の関連度に関する情報を付与することにより、前記複数の第3の特徴量から複数の第5の特徴量を取得する第5の特徴量取得部と、前記複数の第4の特徴量のそれぞれに対して、前記複数の第4の特徴量間の関連度に関する情報を付与することにより、前記複数の第4の特徴量から複数の第6の特徴量を取得する第6の特徴量取得部と、前記複数の第5の特徴量と前記複数の第6の特徴量とに基づき、前記推定の結果を取得する推定結果取得部と、を有する。
【図面の簡単な説明】
【0009】
図1】本開示に係るコンピュータビジョンシステムのハードウェア構成を示す図である。
図2】本開示に係るコンピュータビジョンシステムで実現される機能の一例を示す機能ブロック図である。
図3】機械学習モデルの詳細な構成の一例を示す図である。
図4】関連度情報付き前半特徴量取得部の詳細な構成の一例を示す図である。
図5】訓練用連続画像データの詳細な構成の一例を示す図である。
図6】学習部において実行される処理の詳細の一例を示す図である。
図7】推定部において実行される処理の一例を示す図である。
図8】推定部において実行される処理の詳細の一例を示すフロー図である。
【発明を実施するための形態】
【0010】
以下、本開示に係るコンピュータビジョンシステムの実施形態の例を説明する。本実施形態では、コンピュータビジョンシステムが1台のコンピュータによって実現される場合を説明するが、コンピュータビジョンシステムは複数台のコンピュータによって実現されてもよい。
【0011】
[1.コンピュータビジョンシステムの全体構成]
図1は、本開示に係るコンピュータビジョンシステムのハードウェア構成を示す図である。コンピュータビジョンシステム10は、例えば、携帯電話機(スマートフォンを含む)、携帯情報端末(タブレット型コンピュータを含む)、パーソナルコンピュータ、又はサーバコンピュータ等である。図1に示すように、コンピュータビジョンシステム10は、制御部11と、記憶部12と、通信部13と、操作部14と、表示部15と、を有する。
【0012】
制御部11は、少なくとも1つのプロセッサを含む。制御部11は、記憶部12に記憶されたプログラムやデータに従って処理を実行する。記憶部12は、主記憶部及び補助記憶部を含む。例えば、主記憶部はRAMなどの揮発性メモリであり、補助記憶部は、ROM、EEPROM、フラッシュメモリ、又はハードディスクなどの不揮発性メモリである。通信部13は、有線通信又は無線通信用の通信インタフェースであり、インターネットなどのネットワークを介してデータ通信を行う。
【0013】
操作部14は、入力デバイスである。操作部14は、例えば、タッチパネルやマウス等のポインティングデバイス、キーボード、又はボタン等である。操作部14は、ユーザによる操作内容を制御部11に伝達する。
【0014】
表示部15は、表示デバイスである。表示部15は、例えば、液晶表示部又は有機EL表示部等である。表示部15は、制御部11の指示に従って画像を表示する。
【0015】
なお、記憶部12に記憶されるものとして説明するプログラム及びデータは、ネットワークを介して供給されるようにしてもよい。また、上記説明した各コンピュータのハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部(例えば、光ディスクドライブやメモリカードスロット)や外部機器とデータの入出力をするための入出力部(例えば、USBポート)が含まれていてもよい。例えば、情報記憶媒体に記憶されたプログラムやデータが読取部や入出力部を介して、各コンピュータに供給されるようにしてもよい。
【0016】
[2.コンピュータビジョンシステムで実現される機能]
図2は、本開示に係るコンピュータビジョンシステムで実現される機能の一例を示す機能ブロック図である。コンピュータビジョンシステム10は、学習システム20と推定システム30とを有する。学習システム20の機能及び推定システム30の機能は、図1に示すハードウェアによりそれぞれ実現される。また、学習システム20の機能及び推定システム30の機能は、本実施形態に係る学習プログラム及び推定プログラムを上記ハードウェアで実行することにより実現される。これらのプログラムは、半導体メモリなどのコンピュータ可読記憶媒体に格納され、当該媒体から上記ハードウェアに供給されてよい。
【0017】
[2-1.学習システムで実現される機能]
以下、学習システム20で実現される機能について説明する。学習システム20では、データ記憶部21及び学習部22が実現される。データ記憶部21は、記憶部12を主として実現され、学習部22は、制御部11を主として実現される。以下、データ記憶部21と、学習部22と、について説明する。
【0018】
[データ記憶部]
データ記憶部21は、学習部22での処理に必要なデータを記憶する。具体的には、データ記憶部21は、機械学習モデルMを記憶する。より具体的には、データ記憶部21は、推定システム30で利用される機械学習モデルMのプログラム(アルゴリズム)やパラメータ等を記憶する。機械学習モデルMは、学習部22で学習された後に推定システム30に送信される。また、データ記憶部21は、訓練データセットTDを記憶する。訓練データセットTDは、複数の訓練用連続画像データTCDとラベルデータとの組を複数格納する。本実施形態では、複数の訓練用連続画像データTCDは、スポーツの試合映像Vの任意の一部分である推定部分Pを示すものである。ラベルデータは、複数の訓練用連続画像データTCDと対応づけられており、複数の訓練用連続画像データTCDに係るシーン種別を示す。
【0019】
以下、図3図5及び図6を適宜参照しつつ、複数の訓練用連続画像データTCDの概要について説明する。複数の訓練用連続画像データTCDが示す推定部分Pは、試合映像V全体のうちの所定の時刻(以下、基準時刻REFという)前後の部分を示すものである(図5及び6参照)。例えば、基準時刻REFが試合映像Vのt秒目であり、推定部分Pの長さが120秒である場合、推定部分Pは、試合映像V全体のうち、t-60秒からt+60秒の部分を示すものである。なお、後述するように、推定部分Pの長さは、当該推定部分Pに係るシーン種別によって異なる。
【0020】
複数の訓練用連続画像データTCDは、推定部分Pに係る動画像データを構成する連続の画像データであり、機械学習モデルMに入力される訓練用連続画像データTCDの数と等しい。本実施形態では、訓練用連続画像データTCDがベクトル形式で表現される場合を説明する。訓練用連続画像データTCDがベクトル形式で表現される場合、訓練用連続画像データTCDの次元数は、訓練用連続画像データTCDの元となる画像の解像度の値(H×W×C)と等しい。なお、訓練用連続画像データTCDは、任意の形式で表現可能であり、ベクトル形式に限られず、配列形式、行列形式、又は単一の数値等の他の形式で表現されてもよい。
【0021】
複数の訓練用連続画像データTCDは、より詳細には、連続する複数の前半訓練用連続画像データTCD1(第1の訓練用連続画像データ)と、複数の前半訓練用連続画像データの後に連続する複数の後半訓練用連続画像データ(第2の訓練用連続画像データ)TCD2と、を有する(図3参照)。本実施形態では、前半訓練用連続画像データTCD1の数は、後半訓練用連続画像データTCD2の数と等しい。本実施形態では、複数の訓練用連続画像データTCDが、複数の前半訓練用連続画像データTCD1と複数の後半訓練用連続画像データTCD2とに2分割されている場合を説明するが、複数の訓練用連続画像データTCDは3以上に分割されていてもよい。また、前半訓練用連続画像データTCD1の数と後半訓練用連続画像データTCD2の数とは等しくなくてもよい。
【0022】
[機械学習モデル]
以下、図3を用いて機械学習モデルMの具体的な構成について説明する。図3は、機械学習モデルの詳細な構成の一例を示す図である。機械学習モデルMは、推定部分Pについて所定のシーン種別であるか否かの推定を行う。
【0023】
本実施形態に係る機械学習モデルMは、RNNのような逐次処理に依ることなく、複数の連続画像データ間の相互関連に関する情報に基づいて推定を実行する。そのため、本実施形態に係る機械学習モデルMでは、その学習を行う際に勾配消失が発生しにくい。
【0024】
また、本実施形態に係る機械学習モデルMでは、スポーツの試合映像Vの推定部分Pのシーン種別の推定をより効率良く行うことができる。すなわち、スポーツの試合映像Vでは、イベントの前後で連続画像データCDの特徴が大きく変化することが多いため、イベントの前後で別々に判断を行った方が推定の効率がよい。この点、本実施形態に係る機械学習モデルMによれば、イベントの前後で別々に判断を行うことができるため、シーン種別の推定をより効率良く実行できる。
【0025】
具体的には、機械学習モデルMは、特徴量取得部40と、推定結果取得部50と、を有する。特徴量取得部40は、画像特徴抽出部41と、順序情報付与部42と、関連度情報付与部43と、を更に有する。以下、特徴量取得部40(画像特徴抽出部41、順序情報付与部42及び関連度情報付与部43)と、推定結果取得部50と、について説明する。
【0026】
画像特徴抽出部41は、前半画像特徴量取得部411(第1の特徴量取得部)と、後半画像特徴量取得部412(第2の特徴量取得部)と、を有する。以下、前半画像特徴量取得部411と、後半画像特徴量取得部412と、について説明する。
【0027】
前半画像特徴量取得部411は、複数の前半訓練用連続画像データTCD1のそれぞれに対応する複数の前半画像特徴量F1(第1の特徴量)であって、対応する前半訓練用連続画像データTCD1の特徴をそれぞれ示す複数の前半画像特徴量F1を、複数の前半訓練用連続画像データTCD1から取得する。本実施形態では、前半画像特徴量F1はベクトル量である。前半画像特徴量取得部411としては、例えば、ImageNetを用いて学習されたResNet-152等、固定の(公知の学習済みの)特徴抽出器を用いることができる。また、前半画像特徴量取得部411は、主成分分析等を用いた次元削減によって、前半画像特徴量F1の次元数を、対応する前半訓練用連続画像データTCD1の次元数より小さくする。なお、前半画像特徴量F1は、任意の形式で表現可能であり、ベクトル形式に限られず、配列形式、行列形式、又は単一の数値等の他の形式で表現されてもよい。
【0028】
後半画像特徴量取得部412は、前半画像特徴量取得部411と同様にして、複数の後半訓練用連続画像データTCD2のそれぞれに対応する複数の後半画像特徴量F2(第2の特徴量)であって、対応する後半訓練用連続画像データTCD2の特徴をそれぞれ示す複数の後半画像特徴量F2を、複数の後半訓練用連続画像データTCD2から取得する。
【0029】
順序情報付与部42は、順序情報付き前半特徴量取得部421(第3の特徴量取得部)と、順序情報付き後半特徴量取得部422(第4の特徴量取得部)と、を有する。以下、順序情報付き前半特徴量取得部421と、順序情報付き後半特徴量取得部422と、について説明する。
【0030】
順序情報付き前半特徴量取得部421は、複数の前半画像特徴量F1のそれぞれに対して、当該前半画像特徴量F1に対応する前半訓練用連続画像データTCD1の順序に関する情報を付与することにより、複数の前半画像特徴量F1から複数の順序情報付き前半特徴量F3(第3の特徴量)を取得する。具体的には、順序情報付き前半特徴量取得部421は、複数の前半画像特徴量F1のそれぞれに対して、当該前半画像特徴量F1に対応する前半訓練用連続画像データTCD1の順序を示す位置埋め込み量PEを加算する。本実施形態では、位置埋め込み量PEはベクトル量であり、その次元数は前半画像特徴量F1の次元数と等しい。
【0031】
例えば、位置埋め込み量PEは、下記の数1及び数2で表現される。数1及び数2において、tは対応する訓練用連続画像データTCDの順序、dは前半画像特徴量F1の次元数、iは位置埋め込みの引数である。なお、下記の数1及び数2は、位置埋め込み量の表現の一例であり、ベクトル形式に限られず、任意の形式で表現可能である。
【数1】
【数2】
【0032】
順序情報付き後半特徴量取得部422は、順序情報付き前半特徴量取得部421と同様にして、複数の後半画像特徴量F2のそれぞれに対して、当該後半画像特徴量F2に対応する後半訓練用連続画像データTCD2の順序に関する情報を付与することにより、複数の後半画像特徴量F2から複数の順序情報付き後半特徴量F4(第4の特徴量)を取得する。
【0033】
関連度情報付与部43は、関連度情報付き前半特徴量取得部431(第5の特徴量取得部)と、関連度情報付き後半特徴量取得部432(第6の特徴量取得部)と、を有する。以下、関連度情報付き前半特徴量取得部431と、関連度情報付き後半特徴量取得部432と、について説明する。
【0034】
関連度情報付き前半特徴量取得部431は、複数の順序情報付き前半特徴量F3のそれぞれに対して、複数の順序情報付き前半特徴量F3間の関連度に関する情報を付与することにより、複数の順序情報付き前半特徴量F3から複数の関連度情報付き前半特徴量F5(第5の特徴量)を取得する。より詳細には、関連度情報付き前半特徴量取得部431は、複数の順序情報付き前半特徴量F3のそれぞれに対して、当該順序情報付き前半特徴量F3と、当該順序情報付き前半特徴量F3及び当該他の順序情報付き前半特徴量F3と、の間の関連度に関する情報を付与する。
【0035】
ここで、図4を用いて、関連度情報付き前半特徴量取得部431の詳細な構成について説明する。図4は、関連度情報付き前半特徴量取得部の詳細な構成の一例を示す図である。具体的には、関連度情報付き前半特徴量取得部431は、注意機構部431aと、全結合部431bと、を有する。
【0036】
図4に示す本実施形態に係る機械学習モデルMでは、前記関連度の算出方法が学習により最適化されている。そのため、本実施形態に係る機械学習モデルMでは、高い精度での推定が実行可能である。
【0037】
注意機構部431aは、複数の順序情報付き前半特徴量F3を入力として、クエリ行列Qとキー行列Kとバリュー行列Vとをそれぞれ取得する。より具体的には、注意機構部431aは、クエリ重み行列φと、それぞれはベクトルである複数の順序情報付き前半特徴量F3により構成される行列Xと、の積を計算することにより、クエリ行列Qを取得する(数3)。クエリ重み行列φは、学習システム20において学習されるパラメータである。同様にして、注意機構部431aは、キー重み行列φと行列Xとの積を計算することによりキー行列Kを(数4)、バリュー重み行列φと行列Xとの積を計算することによりバリュー行列Vを取得する(数5)。キー重み行列φ及びバリュー重み行列φは、クエリ重み行列φと同様に、学習システム20において学習されるパラメータである。
【数3】
【数4】
【数5】
【0038】
次いで、注意機構部431aは、クエリ行列Qとキー行列Kとバリュー行列Vとに基づき、下記の数6で表される注意関数(attention)を算出する。数6において、dはキー行列Kの次元数である。ここで注意機構部431aは、以上の計算を、初期値の異なるクエリ重み行列φ、キー重み行列φ及びバリュー重み行列φのセットを用いて、複数回並列で実行する。
【数6】
【0039】
全結合部431bは、注意関数に基づいて、複数の関連度情報付き前半特徴量F5を取得する。全結合部431bは、全結合型のニューラルネットワークであり、その重みは学習システム20において学習されるパラメータである。
【0040】
なお、本実施形態では、関連度情報付き前半特徴量取得部431は、注意機構部431aの前後、及び全結合部431bの前後において、残差接続を導入した構成を有する。さらに、本実施形態では、関連度情報付き前半特徴量取得部431は、注意機構部431aの前、及び全結合部431bの前において、正規化処理を実行する構成を有する(不図示)。
【0041】
また、より詳細には、関連度情報付き前半特徴量取得部431は、第1の関連度情報付き前半特徴量取得部431-1と、第2の関連度情報付き前半特徴量取得部431-2と、を有する複数の関連度情報付き前半特徴量取得部431である。また、複数の順序情報付き前半特徴量F5は、複数の第1の順序情報付き前半特徴量F5-1と、複数の第2の順序情報付き前半特徴量F5-2と、を有する。具体的には、第1の関連度情報付き前半特徴量取得部431-1は、複数の順序情報付き前半特徴量F3を入力として、複数の第1の関連度情報付き前半特徴量F5-1を取得する。また、第2の関連度情報付き前半特徴量取得部431-2は、複数の第1の関連度情報付き前半特徴量F5-1を入力として、複数の第2の関連度情報付き前半特徴量F5-2を取得する。
【0042】
換言すれば、関連度情報付き前半特徴量取得部431は、注意機構部431aと全結合部431bとの組が直列に多段結合した構成を有する。ここでは、注意機構部431aと全結合部431bとの組が2段結合する場合を説明したが、注意機構部431aと全結合部431bとの組は3段以上結合してもよい。かかる構成によれば、より高い精度で特徴量間の関連度を抽出することができる。
【0043】
関連度情報付き後半特徴量取得部432は、関連度情報付き前半特徴量取得部431と同様にして、関連度情報付き前半特徴量取得部431複数の順序情報付き後半特徴量F4のそれぞれに対して、複数の順序情報付き後半特徴量F4間の関連度に関する情報を付与することにより、複数の順序情報付き後半特徴量F4から複数の関連度情報付き後半特徴量F6(第6の特徴量)を取得する。
【0044】
以上に説明した順序情報付き前半特徴量取得部421及び関連度情報付き前半特徴量取得部431としては、公知技術であるTransformerモデルのEncoder部が利用可能である(参考文献:Ashish Vaswani, et al., “Attention is all you need,” In Advances in Neural Information Processing Systems, pages 5998-6008, 2017.)。順序情報付き後半特徴量取得部422及び関連度情報付き後半特徴量取得部432についても同様である。
【0045】
推定結果取得部50は、複数の関連度情報付き前半特徴量F5と複数の関連度情報付き後半特徴量F6とに基づき、推定の結果を取得する。具体的には、推定結果取得部50は、入力されたデータに基づいて推定を行う推定器である。例えば、推定結果取得部50は、全結合型のニューラルネットワークであり、その重みは学習システム20において学習されるパラメータである。推定結果取得部50は、推定の結果として、推定部分Pが所定のシーン種別である確率値を出力する。
【0046】
[学習部]
学習部22は、複数の訓練用連続画像データTCDを用いて機械学習モデルMを学習する。具体的には、学習部22は、複数の訓練用連続画像データTCDとラベルデータとを取得し、複数の訓練用連続画像データTCDを機械学習モデルMに入力して複数の訓練用連続画像データTCDに係るシーン種別の推定の結果を取得し、当該推定の結果とラベルデータとに基づき、機械学習モデルMの学習を行う。より具体的には、学習部22は、前記ラベルデータに係るラベルの確率値が大きくなるように機械学習モデルの学習を行う。学習部22は、学習途中で当該値が十分大きくなった場合には、その時点で学習を終了する。学習部22は、当該値が十分大きくならなくても、所定回数の学習を繰り返した場合には、学習を終了してもよい。学習自体は、公知の手法を利用可能であり、例えば、AdamやRMSProp等が利用されてもよい。
【0047】
[訓練用連続画像データの詳細]
ここで、図5を用いて、学習に用いられる訓練用連続画像データTCD(特に前半訓練用連続画像データTCD1及び後半訓練用連続画像データTCD2)の詳細な構成について説明する。図5は、訓練用連続画像データの詳細な構成の一例を示す図である。
【0048】
以下に説明する構成を有する訓練用連続画像データTCDによれば、機械学習モデルMの学習を効率良く行うことができる。すなわち、以下に説明する構成により、関連度情報付き前半特徴量取得部431と関連度情報付き後半特徴量取得部432とを、それぞれにとって最適な複数の訓練用連続画像データTCDを用いて学習することができるため、機械学習モデルMの学習を効率良く実行できる。
【0049】
具体的には、複数の前半訓練用連続画像データTCD1は、複数の訓練用連続画像データTCDに係るシーン種別を特徴付ける一のイベントの前に対応し、複数の後半訓練用連続画像データTCD2は、当該イベントの後に対応する。ここで、当該イベントは基準時刻REFに、複数の前半訓練用連続画像データTCD1は試合映像Vのうち基準時刻REFの前の部分に、複数の後半訓練用連続画像データTCD2は試合映像Vのうち基準時刻REFの後の部分に、それぞれ対応する。
【0050】
本実施形態では、試合映像Vはサッカーの試合映像であり、複数の訓練用連続画像データTCDに係るシーン種別はゴールシーンである。この例において、複数の訓練用連続画像データTCDが、プレイヤー達がゴールに向かって走っている場面Aと、プレイヤーがゴールに向かってシュートしている場面Bと、プレイヤー達が駆け回り歓喜する場面Cと、により構成されると仮定する。ここで、場面A、場面B及び場面Cはこの順に時系列で並ぶ。この場合、ゴールシーンを特徴付ける一のイベントは場面Bであり、複数の前半訓練用連続画像データTCD1は場面Aに対応し、複数の後半訓練用連続画像データTCD2は場面Cに対応する。
【0051】
[学習部において実行される処理の詳細]
続いて、図6を用いて、学習部において実行される処理の詳細を説明する。図6は、学習部において実行される処理の詳細の一例を示す図である。
【0052】
機械学習モデルMは、より詳細には、推定部分Pについて、第1のシーン種別と第2のシーン種別とを有する複数のシーン種別のいずれであるかの推定を行う。本実施形態では、複数のシーン種別が、第1のシーン種別と第2のシーン種別との2つのシーン種別を有する場合を説明するが、複数のシーン種別は、3以上のシーン種別を有してもよい。シーン種別の数は複数に限られず、一つでもよい。本実施形態では、第1のシーン種別がゴールシーンであり、第2のシーン種別がカードシーンである場合を説明する。なお、第1のシーン種別及び第2のシーン種別がこの例に限られないのは勿論である。
【0053】
図6に示す学習部の処理によれば、推定部分Pの長さに依らず、同数且つ少数の訓練用連続画像データTCDで機械学習モデルMの学習を実行することができる。サッカーの試合映像を例として説明すると、カードシーンを示す映像はゴールシーンを示す映像よりも長いことが多い。すなわち、カードシーンを示す推定部分Pの長さは、ゴールシーンを示す推定部分Pの長さと異なる。このように推定部分Pの長さがシーン種別毎に異なる場合であっても、図6に示す学習部の処理によれば、同数且つ少数の訓練用連続画像データTCDで学習を実行することができる。
【0054】
具体的には、学習部22は、推定部分Pを示す第1の訓練用フレーム画像データTFD1を試合映像Vから取得する(図6(a))。第1の訓練用フレーム画像データTFD1の数はゴールシーンに対応する。また、同様にして、学習部22は、推定部分Pを示す第2の訓練用フレーム画像データTFD2を試合映像Vから取得する(図6(b))。第2の訓練用フレーム画像データTFD2の数はカードシーンに対応する。例えば、ゴールシーンに対応する第1の訓練用フレーム画像データTFD1の数が60である場合、カードシーンに対応する第2の訓練用フレーム画像データTFD2の数は90である。勿論、これは一例であり、第1の訓練用フレーム画像データTFD1の数及び第2の訓練用フレーム画像データTFD2の数は任意に設定可能である。
【0055】
学習部22は、機械学習モデルMに入力される訓練用連続画像データTCDの数と同数のゴールシーンに係る訓練用連続画像データTCDを当該第1の訓練用フレーム画像データTFD1から取得する(図6(a))。機械学習モデルMに入力される訓練用連続画像データTCDの数は予め設定されている。そのため、第1の訓練用フレーム画像データTFD1の数が当該訓練用連続画像データTCDの数と異なる場合、第1の訓練用フレーム画像データTFD1を機械学習モデルMに直接入力することが出来ない。そこで、学習部22は、第1の訓練用フレーム画像データTFD1に対してリサンプリング処理を行い、機械学習モデルMに入力される訓練用連続画像データTCDの数と同数の訓練用連続画像データTCDを取得する。リサンプリング処理の方法としては種々の補間法を利用することができる。
【0056】
また、学習部22は、ゴールシーンに係る訓練用連続画像データTCDの場合と同様にして、機械学習モデルMに入力される訓練用連続画像データTCDの数と同数のカードシーンに係る訓練用連続画像データTCDを当該第2の訓練用フレーム画像データTFD2から取得する(図6(b))。
【0057】
ここで、当該ゴールシーンに係る訓練用連続画像データTCDは、ゴールシーンを示す第1のラベルデータに対応付けられている(図6(a))。同様に、当該カードシーンに係る訓練用連続画像データTCDは、カードシーンを示す第2のラベルデータに対応付けられている(図6(b))。
【0058】
その後、学習部22は、ゴールシーンに係る複数の訓練用連続画像データTCDを機械学習モデルに入力し、当該訓練用連続画像データTCDに係るシーン種別の推定の結果を取得する。学習部22は、推定の結果と第1のラベルデータとに基づき、機械学習モデルMの学習を実行する(図6(a))。同様に、学習部22は、カードシーンに係る複数の訓練用連続画像データTCDを機械学習モデルに入力し、当該訓練用連続画像データTCDに係るシーン種別の推定の結果を取得する。学習部22は、推定の結果と第2のラベルデータとに基づき、機械学習モデルMの学習を実行する(図6(b))。
【0059】
[2-2.推定システムで実現される機能]
ここで、図2に戻って、推定システム30で実現される機能について説明する。推定システム30では、データ記憶部31及び推定部32が実現される。データ記憶部31は、記憶部12を主として実現され、推定部32は、制御部11を主として実現される。以下、データ記憶部31と、推定部32と、について説明する。
【0060】
[データ記憶部]
データ記憶部31は、推定部32での処理に必要なデータを記憶する。具体的には、データ記憶部31は、映像データセットVDを記憶する。映像データセットVDは、試合映像Vのデータを格納する。試合映像Vは、スポーツの試合映像である。本実施形態では、前記の通り、試合映像Vに係るスポーツはサッカーであるが、この例に限られず、例えば、野球、ラグビー、バレーボール等の他の集団競技の球技でもよい。また、試合映像Vに係るスポーツは、テニス、卓球、ゴルフ等の個人競技(ペア含む)の球技、フルマラソン等の陸上競技、競泳、オープンウォータースイミング等の水上競技、ノルディックスキー等の雪上競技、或いはトライアスロン、自転車ロードレース等の耐久競技でもよい。データ記憶部31は、機械学習モデルMのプログラム(アルゴリズム)やパラメータ等を記憶する。データ記憶部31に記憶された機械学習モデルMのパラメータは、学習システム20での学習処理により調整済みのものである。
【0061】
[推定部]
以下、図7を用いて、推定部32において実行される処理について説明する。図7は、推定部において実行される処理の一例を示す図である。推定部32は、機械学習モデルMを用いて、試合映像Vの推定部分Pに係るシーン種別の推定を実行する。
【0062】
推定部32は、推定部分Pを示す複数の連続画像データCDを試合映像Vから取得する。複数の連続画像データCDは、推定部分Pを構成する連続の画像データであり、機械学習モデルMに入力される連続画像データCDの数と等しい。本実施形態では、連続画像データCDがベクトル形式で表現される場合を説明する。連続画像データCDがベクトル形式で表現される場合、連続画像データCDの次元数は、連続画像データCDの元となる画像の解像度の値(H×W×C)と等しい。なお、連続画像データCDは、任意の形式で表現可能であり、ベクトル形式に限られず、配列形式、行列形式、又は単一の数値等の他の形式で表現されてもよい。
【0063】
具体的には、複数の連続画像データCDは、連続する複数の前半連続画像データCD1(第1の連続画像データ)と、複数の前半連続画像データCD1の後に連続する複数の後半連続画像データCD2(第2の連続画像データ)と、を有する。本実施形態では、前半連続画像データCD1の数は、後半連続画像データCD2の数と等しい。本実施形態では、複数の連続画像データCDが、複数の前半連続画像データCD1と複数の後半連続画像データCD2とに2分割されている場合を説明するが、複数の連続画像データCDは3以上に分割されていてもよく、或いは分割されていなくてもよい。また、前半連続画像データCD1の数と後半連続画像データCD2の数とは等しくなくてもよい。
【0064】
推定部32は、複数の連続画像データCDを機械学習モデルMに入力し、図3を用いて説明したようにして、推定部分Pについて所定のシーン種別であるか否かの推定を実行する。
【0065】
[推定部において実行される処理の詳細]
最後に、図8を用いて、推定部32において実行される処理の詳細を説明する。図8は、推定部において実行される処理の詳細の一例を示すフロー図である。図8に示す各ステップの処理は、推定プログラムを図1に示すハードウェアで実行することにより実現される。
【0066】
以下に説明する推定部32の構成によれば、本実施形態に係る機械学習モデルMを用いて、試合映像Vから特定のシーンを抽出することができる。当該構成により、例えば、サッカーの試合映像からゴールシーンや交代シーン、カードシーン等を抽出することができるため、ハイライト映像の作成等、試合映像の編集作業が容易となる。
【0067】
具体的には、推定部32は、試合映像V全体にわたって基準時刻REFを掃引し、試合映像Vの各時刻に対応する推定部分Pについて、複数のシーン種別のいずれであるかの推定を実行する。
【0068】
まず、推定部32は基準時刻REFを決定する(S10)。具体的には、推定部32は、試合映像Vの開始時刻から終了時刻までの期間の各時刻から基準時刻REFを決定する。なお、開始時刻は、試合映像の実際の始点(すなわち、0秒)と必ずしも一致しない。終了時刻も同様に、試合映像の実際の終点と必ずしも一致しない。これは、後の処理工程において、基準時刻REFに対応する推定部分Pを取得することを考慮したものである。
【0069】
次いで、推定部32は、基準時刻REFについて推定すべきシーン種別を複数のシーン種別から選択する(S11)。本実施形態では、複数のシーン種別がゴールシーン(第1のシーン種別)及びカードシーン(第2のシーン種別)の場合を説明する。勿論、複数のシーン種別は3以上であってもよく、各シーン種別はこの例に限られない。
【0070】
推定部32は、選択したシーン種別に対応する長さの推定部分Pを試合映像Vから取得する(S12)。具体的には、推定部32は、選択したシーン種別に対応する数のフレーム画像データを取得し、図6に示す処理と同様の方法により、機械学習モデルMに入力される連続画像データCDの数と同数の連続画像データCDを当該フレーム画像データから取得する。より具体的には、推定部分Pを示す第1のフレーム画像データであってゴールシーンに対応する数の第1のフレーム画像データを取得し、機械学習モデルMに入力される連続画像データCDの数と同数のゴールシーンに係る連続画像データCDを当該第1のフレーム画像データから取得する。推定部32は、カードシーンについても同様の処理を実行する。
【0071】
次いで、推定部32は、当該推定部分Pに係るシーン種別の推定を実行する(S13)。具体的には、推定部32は、取得した連続画像データCDを機械学習モデルMに入力し、推定部分Pに係るシーン種別の推定の結果を取得する。推定部32は、取得した推定の結果を保存する(S14)。
【0072】
推定部32は、S11からS14までの処理を、ゴールシーン及びカードシーンの両方について実行する(S15;NO)。推定部32は、S11からS14までの処理を、ゴールシーン及びカードシーンの両方について実行し終えると(S15;YES)、保存された各シーン種別についての推定の結果を総合して、推定部分Pに係るシーン種別がゴールシーン又はカードシーンのいずれであるかの推定の結果を取得する(S16)。
【0073】
以下、S16での処理について説明する。具体的には、推定部32において、機械学習モデルMは、ゴールシーンに係る連続画像データCDに基づき、ゴールシーンであるか否かに関する第1の判断データを取得する。具体的には、第1の判断データは、ゴールシーンについての推定の結果である確率値である。同様に、機械学習モデルMは、カードシーンに係る連続画像データCDに基づき、カードシーンであるか否かに関する第2の判断データを取得する。具体的には、第2の判断データは、カードシーンについての推定の結果である確率値である。
【0074】
また、具体的には、推定部32において、機械学習モデルMは、第1の判断データと第2の判断データとに基づき、ゴールシーン又はカードシーンのいずれであるかの推定の結果を取得する。より具体的には、機械学習モデルMは、第1の判断データ及び第2の判断データが所定の閾値を超えているかを判断し、以下の判断に従って推定の結果を取得する。すなわち、機械学習モデルMは、第1の判断データ及び第2の判断データのうち一方のみが当該閾値を超えている場合には、当該一方に対応するシーン種別を推定部分Pに係るシーン種別であると判断する。機械学習モデルMは、第1の判断データ及び第2の判断データのいずれも当該閾値を超えていない場合には、推定部分Pに係るシーン種別はゴールシーンでもカードシーンでもない(すなわち、背景シーン)と判断する。機械学習モデルMは、第1の判断データ及び第2の判断データの両方が当該閾値を超えている場合には、値の大きい方に対応するシーン種別を推定部分Pに係るシーン種別であると判断する。
【0075】
推定部32は、S10からS16までの処理を、試合映像Vの開始時刻から終了時刻までの期間の全時刻について実行する(S17;NO)。推定部32は、S10からS16までの処理を、試合映像Vの開始時刻から終了時刻までの全期間について実行し終えると(S17;YES)、処理を終了する。
【0076】
以上に説明した実施形態によれば、スポーツの試合映像の任意の一部分に係るシーン種別を推定する機械学習モデルであって、学習時に勾配消失を起こしにくい機械学習モデルを有するコンピュータビジョンシステムが提供される。
【0077】
また、本実施形態に係る機械学習モデルは、スポーツの試合映像の任意の一部分を構成する複数の連続画像データ間の関連度を考慮して当該一部分に係るシーン種別の推定を行う。本実施形態に係る機械学習モデルでは、前記関連度の算出方法が学習により最適化されているため、高い精度での推定が可能である。

図1
図2
図3
図4
図5
図6
図7
図8