(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-26
(45)【発行日】2024-04-03
(54)【発明の名称】コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240327BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2024501933
(86)(22)【出願日】2022-03-28
(86)【国際出願番号】 JP2022014991
(87)【国際公開番号】W WO2023187899
(87)【国際公開日】2023-10-05
【審査請求日】2024-01-12
【新規性喪失の例外の表示】特許法第30条第2項適用 開催日 令和3年7月20日、令和3年7月25日~令和3年7月27日 集会名 2021 17th International Conference on Machine Vision and Applications (MVA) 開催場所(オンライン開催) (ア)https://www.mva-org.jp/mva2021/ (イ)https://ieeexplore.ieee.org/abstract/document/9511342 (ウ)https://www.mva-org.jp/Proceedings/2021/papers/O1-3-2.pdf
【新規性喪失の例外の表示】特許法第30条第2項適用 開催日 令和3年7月21日、令和3年7月27日~令和3年7月29日 集会名 画像の認識・理解シンポジウム(MIRU)2021 開催場所(オンライン開催) http://cvim.ipsj.or.jp/MIRU2021/
【早期審査対象出願】
(73)【特許権者】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(73)【特許権者】
【識別番号】500433225
【氏名又は名称】学校法人中部大学
(74)【代理人】
【識別番号】110000154
【氏名又は名称】弁理士法人はるか国際特許事務所
(72)【発明者】
【氏名】山下 隆義
(72)【発明者】
【氏名】藤吉 弘亘
(72)【発明者】
【氏名】平川 翼
(72)【発明者】
【氏名】中澤 満
(72)【発明者】
【氏名】蔡 永男
(72)【発明者】
【氏名】シュテンガー ビヨン
【審査官】藤原 敬利
(56)【参考文献】
【文献】特開2018-190332(JP,A)
【文献】特開2009-093250(JP,A)
【文献】特開2008-198038(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00- 7/90
G06V 10/00-20/90
(57)【特許請求の範囲】
【請求項1】
スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データを有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得部と、
前記一部分について所定のシーン種別であるか否かの推定を行う機械学習モデルと、を有し、
前記機械学習モデルは、
前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得する第1の特徴量取得部と、
前記複数の第1の特徴量にそれぞれ対応する複数の第1の顕著度であって、対応する前記第1の特徴量の顕著度をそれぞれ示す前記複数の第1の顕著度を算出し、対応する前記第1の顕著度により前記複数の第1の特徴量のそれぞれを重み付けすることによって、前記複数の第1の特徴量から複数の第2の特徴量を取得する第2の特徴量取得部と、
前記複数の第2の特徴量に基づき、前記推定の結果を取得する推定結果取得部と、
を有する、コンピュータビジョンシステム。
【請求項2】
前記複数の第1の顕著度は、前記複数の第1の特徴量間の類似度に基づいて算出される、
請求項1に記載のコンピュータビジョンシステム。
【請求項3】
前記連続画像データ取得部は、前記一部分を示すフレーム画像データであって前記連続画像データの数と異なる数の前記フレーム画像データを取得し、前記機械学習モデルに入力される前記連続画像データの数と同数の前記連続画像データを当該フレーム画像データから取得する、
請求項1又は2に記載のコンピュータビジョンシステム。
【請求項4】
前記複数の連続画像データは、前記複数の第1の連続画像データの後に連続する複数の第2の連続画像データを更に有し、
前記機械学習モデルは、
前記複数の第2の連続画像データのそれぞれに対応する複数の第3の特徴量であって、対応する前記第2の連続画像データの特徴をそれぞれ示す前記複数の第3の特徴量を、前記複数の第2の連続画像データから取得する第3の特徴量取得部と、
前記複数の第3の特徴量にそれぞれ対応する複数の第2の顕著度であって、対応する前記第3の特徴量の顕著度をそれぞれ示す前記複数の第2の顕著度を算出し、対応する前記第2の顕著度により前記複数の第3の特徴量のそれぞれを重み付けすることによって、前記複数の第3の特徴量から複数の第4の特徴量を取得する第4の特徴量取得部と、
を更に有し、
前記推定結果取得部は、前記複数の第2の特徴量と前記複数の第4の特徴量とに基づき、前記推定の結果を取得する、
請求項1から3のいずれかに記載のコンピュータビジョンシステム。
【請求項5】
前記第1の連続画像データの数は、前記第2の連続画像データの数と等しい、
請求項4に記載のコンピュータビジョンシステム。
【請求項6】
前記機械学習モデルは、前記一部分について、第1のシーン種別と第2のシーン種別とを有する複数のシーン種別のいずれであるかの推定を行うものであり、
前記連続画像データ取得部は、
前記一部分を示す第1のフレーム画像データであって前記第1のシーン種別に対応する数の前記第1のフレーム画像データと、前記一部分を示す第2のフレーム画像データであって前記第2のシーン種別に対応する数の前記第2のフレーム画像データと、を前記試合映像から取得し、
前記機械学習モデルに入力される前記連続画像データの数と同数の前記第1のシーン種別に係る前記連続画像データを当該第1のフレーム画像データから取得し、
前記機械学習モデルに入力される前記連続画像データの数と同数の前記第2のシーン種別に係る前記連続画像データを当該第2のフレーム画像データから取得し、
前記機械学習モデルは、
当該第1のシーン種別に係る前記連続画像データに基づき、前記第1のシーン種別であるか否かに関する第1の判断データを取得し、
当該第2のシーン種別に係る前記連続画像データに基づき、前記第2のシーン種別であるか否かに関する第2の判断データを取得し、
前記第1の判断データと前記第2の判断データとに基づき、前記複数のシーン種別のいずれであるかの前記推定の結果を取得する、
請求項4又は5に記載のコンピュータビジョンシステム。
【請求項7】
前記機械学習モデルは、
連続する複数の第1の訓練用連続画像データと当該複数の第1の訓練用連続画像データの後に連続する複数の第2の訓練用連続画像データとを有する複数の訓練用連続画像データと、前記複数の訓練用連続画像データと対応づけられたラベルデータであって前記複数の訓練用連続画像データに係る前記シーン種別を示す前記ラベルデータと、を取得すること、
前記複数の訓練用連続画像データを前記機械学習モデルに入力して、前記複数の訓練用連続画像データに係る前記シーン種別の推定の結果を取得すること、
当該推定の結果と前記ラベルデータとに基づき、前記機械学習モデルを学習させること、
により生成されたものである、
請求項4から6のいずれかに記載のコンピュータビジョンシステム。
【請求項8】
前記複数の第1の訓練用連続画像データは、前記複数の訓練用連続画像データに係る前記シーン種別を特徴付ける一のイベントの前に対応し、
前記複数の第2の訓練用連続画像データは、当該イベントの後に対応する、
請求項7に記載のコンピュータビジョンシステム。
【請求項9】
スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データを有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得ステップと、
機械学習モデルを用い、前記一部分について所定のシーン種別であるか否かの推定を行う推定ステップであって、
前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得し、
前記複数の第1の特徴量にそれぞれ対応する複数の第1の顕著度であって、対応する前記第1の特徴量の顕著度をそれぞれ示す前記複数の第1の顕著度を算出し、対応する前記第1の顕著度により前記複数の第1の特徴量のそれぞれを重み付けすることによって、前記複数の第1の特徴量から複数の第2の特徴量を取得し、
前記複数の第2の特徴量に基づき、前記推定の結果を取得する、
前記推定ステップと、
を有する、コンピュータビジョン方法。
【請求項10】
スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データを有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得ステップと、
機械学習モデルを用い、前記一部分について所定のシーン種別であるか否かの推定を行う推定ステップであって、
前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得し、
前記複数の第1の特徴量にそれぞれ対応する複数の第1の顕著度であって、対応する前記第1の特徴量の顕著度をそれぞれ示す前記複数の第1の顕著度を算出し、対応する前記第1の顕著度により前記複数の第1の特徴量のそれぞれを重み付けすることによって、前記複数の第1の特徴量から複数の第2の特徴量を取得し、
前記複数の第2の特徴量に基づき、前記推定の結果を取得する、
前記推定ステップと、
をコンピュータに実行させるためのコンピュータビジョンプログラム。
【請求項11】
スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データと、当該複数の第1の連続画像データの後に連続する複数の第2の連続画像データと、を有する前記複数の連続画像データに基づき前記一部分について所定のシーン種別であるか否かの推定を行う機械学習モデル、の学習を行うための学習方法であって、
連続する複数の第1の訓練用連続画像データと当該複数の第1の訓練用連続画像データの後に連続する複数の第2の訓練用連続画像データとを有する複数の訓練用連続画像データと、前記複数の訓練用連続画像データと対応づけられたラベルデータであって前記複数の訓練用連続画像データに係る前記シーン種別を示す前記ラベルデータと、を取得する訓練データセット取得ステップと、
前記複数の訓練用連続画像データを前記機械学習モデルに入力して、前記複数の訓練用連続画像データに係る前記シーン種別の推定の結果を取得する推定結果取得ステップと、
当該推定の結果と前記ラベルデータとに基づき、前記機械学習モデルの学習を行う学習ステップと、を有し、
前記機械学習モデルは、
前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得する第1の特徴量取得部と、
前記複数の第1の特徴量にそれぞれ対応する複数の第1の顕著度であって、対応する前記第1の特徴量の顕著度をそれぞれ示す前記複数の第1の顕著度を算出し、対応する前記第1の顕著度により前記複数の第1の特徴量のそれぞれを重み付けすることによって、前記複数の第1の特徴量から複数の第2の特徴量を取得する第2の特徴量取得部と、
前記複数の第2の連続画像データのそれぞれに対応する複数の第3の特徴量であって、対応する前記第2の連続画像データの特徴をそれぞれ示す前記複数の第3の特徴量を、前記複数の第2の連続画像データから取得する第3の特徴量取得部と、
前記複数の第3の特徴量にそれぞれ対応する複数の第2の顕著度であって、対応する前記第3の特徴量の顕著度をそれぞれ示す前記複数の第2の顕著度を算出し、対応する前記第2の顕著度により前記複数の第3の特徴量のそれぞれを重み付けすることによって、前記複数の第3の特徴量から複数の第4の特徴量を取得する第4の特徴量取得部と、
前記複数の第2の特徴量と前記複数の第4の特徴量とに基づき、前記推定の結果を取得する推定結果取得部と、
を有する、学習方法。
【請求項12】
前記複数の第1の訓練用連続画像データは、前記複数の訓練用連続画像データに係る前記シーン種別を特徴付ける一のイベントの前に対応し、
前記複数の第2の訓練用連続画像データは、当該イベントの後に対応する、
請求項11に記載の学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法に関する。
【背景技術】
【0002】
機械学習モデルを用いて、スポーツの試合映像の任意の一部分に係るシーン種別を推定する技術が知られている。当該技術を用いることにより、例えば、サッカーの試合映像からゴールシーンや交代シーン、カードシーン等を抽出することができるため、ハイライト映像の作成等、試合映像の編集作業が容易となる。
【0003】
スポーツの試合映像の前記一部分Pに係るシーン種別を精度良く推定するためには、当該一部分を構成する複数の画像データ間の相互関連を考慮する機械学習モデルを用いることが重要である。スポーツの試合映像では、多くの場合、重要なシーンが映像全体にわたって疎に分布している。サッカーの試合を例に挙げて説明すると、90分間の試合全体において、ゴールシーンは平均で2~3回しか存在しない。そのため、ゴールに向かってボールを蹴っている画像データのみをもってゴールシーンか否かを推定すると、誤った推定結果になる可能性が高い。したがって、ゴールシーンか否かをより確実に判定するためには、ボールがネットを揺らしている画像データや、選手や観客が歓喜している画像データ等、関連する他の画像データをも考慮することが重要である。
【0004】
従来、入力データ間の相互関連を考慮して推定を行う機械学習モデルとして、回帰型ニューラルネットワーク(Recurrent Neural Network:RNN)が知られている。例えば、非特許文献1には、RNNの一種であるLSTM(Long Short-Term Memory)を用いて動画像に係るシーン種別の推定を行う手法が記載されている。
【先行技術文献】
【非特許文献】
【0005】
【文献】Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, and Trevor Darrell, “Long-term recurrent convolutional networks for visual recognition and description.” In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2015. p. 2625-2634.
【発明の概要】
【発明が解決しようとする課題】
【0006】
RNNを用いてシーン種別の推定を行う手法は、時系列に入力される連続データを逐次処理するため、学習時に勾配消失が起きやすい。
【0007】
本開示の目的の一つは、スポーツの試合映像の任意の一部分に係るシーン種別を推定する機械学習モデルであって、学習時に勾配消失を起こしにくい機械学習モデルを有するコンピュータビジョンシステムを提供することである。
【課題を解決するための手段】
【0008】
本開示に係るコンピュータビジョンシステムは、スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データを有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得部と、前記一部分について所定のシーン種別であるか否かの推定を行う機械学習モデルと、を有し、前記機械学習モデルは、前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得する第1の特徴量取得部と、前記複数の第1の特徴量にそれぞれ対応する複数の第1の顕著度であって、対応する前記第1の特徴量の顕著度をそれぞれ示す前記複数の第1の顕著度を算出し、対応する前記第1の顕著度により前記複数の第1の特徴量のそれぞれを重み付けすることによって、前記複数の第1の特徴量から複数の第2の特徴量を取得する第2の特徴量取得部と、前記複数の第2の特徴量に基づき、前記推定の結果を取得する推定結果取得部と、を有する。
【図面の簡単な説明】
【0009】
【
図1】本開示に係るコンピュータビジョンシステムのハードウェア構成を示す図である。
【
図2】本開示に係るコンピュータビジョンシステムで実現される機能の一例を示す機能ブロック図である。
【
図3】機械学習モデルの詳細な構成の一例を示す図である。
【
図4】顕著度重み付き前半特徴量取得部の詳細な構成の一例を示す図である。
【
図5】訓練用連続画像データの詳細な構成の一例を示す図である。
【
図6】学習部において実行される処理の詳細の一例を示す図である。
【
図7】推定部において実行される処理の一例を示す図である。
【
図8】推定部において実行される処理の詳細の一例を示すフロー図である。
【発明を実施するための形態】
【0010】
以下、本開示に係るコンピュータビジョンシステムの実施形態の例を説明する。本実施形態では、コンピュータビジョンシステムが1台のコンピュータによって実現される場合を説明するが、コンピュータビジョンシステムは複数台のコンピュータによって実現されてもよい。
【0011】
[1.コンピュータビジョンシステムの全体構成]
図1は、本開示に係るコンピュータビジョンシステムのハードウェア構成を示す図である。コンピュータビジョンシステム10は、例えば、携帯電話機(スマートフォンを含む)、携帯情報端末(タブレット型コンピュータを含む)、パーソナルコンピュータ、又はサーバコンピュータ等である。
図1に示すように、コンピュータビジョンシステム10は、制御部11と、記憶部12と、通信部13と、操作部14と、表示部15と、を有する。
【0012】
制御部11は、少なくとも1つのプロセッサを含む。制御部11は、記憶部12に記憶されたプログラムやデータに従って処理を実行する。記憶部12は、主記憶部及び補助記憶部を含む。例えば、主記憶部はRAMなどの揮発性メモリであり、補助記憶部は、ROM、EEPROM、フラッシュメモリ、又はハードディスクなどの不揮発性メモリである。通信部13は、有線通信又は無線通信用の通信インタフェースであり、インターネットなどのネットワークを介してデータ通信を行う。
【0013】
操作部14は、入力デバイスである。操作部14は、例えば、タッチパネルやマウス等のポインティングデバイス、キーボード、又はボタン等である。操作部14は、ユーザによる操作内容を制御部11に伝達する。
【0014】
表示部15は、表示デバイスである。表示部15は、例えば、液晶表示部又は有機EL表示部等である。表示部15は、制御部11の指示に従って画像を表示する。
【0015】
なお、記憶部12に記憶されるものとして説明するプログラム及びデータは、ネットワークを介して供給されるようにしてもよい。また、上記説明した各コンピュータのハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部(例えば、光ディスクドライブやメモリカードスロット)や外部機器とデータの入出力をするための入出力部(例えば、USBポート)が含まれていてもよい。例えば、情報記憶媒体に記憶されたプログラムやデータが読取部や入出力部を介して、各コンピュータに供給されるようにしてもよい。
【0016】
[2.コンピュータビジョンシステムで実現される機能]
図2は、本開示に係るコンピュータビジョンシステムで実現される機能の一例を示す機能ブロック図である。コンピュータビジョンシステム10は、学習システム20と推定システム30とを有する。学習システム20の機能及び推定システム30の機能は、
図1に示すハードウェアによりそれぞれ実現される。また、学習システム20の機能及び推定システム30の機能は、本実施形態に係る学習プログラム及び推定プログラムを上記ハードウェアで実行することにより実現される。これらのプログラムは、半導体メモリなどのコンピュータ可読記憶媒体に格納され、当該媒体から上記ハードウェアに供給されてよい。
【0017】
[2-1.学習システムで実現される機能]
以下、学習システム20で実現される機能について説明する。学習システム20では、データ記憶部21及び学習部22が実現される。データ記憶部21は、記憶部12を主として実現され、学習部22は、制御部11を主として実現される。以下、データ記憶部21と、学習部22と、について説明する。
【0018】
[データ記憶部]
データ記憶部21は、学習部22での処理に必要なデータを記憶する。具体的には、データ記憶部21は、機械学習モデルMを記憶する。より具体的には、データ記憶部21は、推定システム30で利用される機械学習モデルMのプログラム(アルゴリズム)やパラメータ等を記憶する。機械学習モデルMは、学習部22で学習された後に推定システム30に送信される。また、データ記憶部21は、訓練データセットTDを記憶する。訓練データセットTDは、複数の訓練用連続画像データTCDとラベルデータとの組を複数格納する。本実施形態では、複数の訓練用連続画像データTCDは、スポーツの試合映像Vの任意の一部分である推定部分Pを示すものである。ラベルデータは、複数の訓練用連続画像データTCDと対応づけられており、複数の訓練用連続画像データTCDに係るシーン種別を示す。
【0019】
以下、
図3、
図5及び
図6を適宜参照しつつ、複数の訓練用連続画像データTCDの概要について説明する。複数の訓練用連続画像データTCDが示す推定部分Pは、試合映像V全体のうちの所定の時刻(以下、基準時刻REFという)前後の部分を示すものである(
図5及び6参照)。例えば、基準時刻REFが試合映像Vのt秒目であり、推定部分Pの長さが120秒である場合、推定部分Pは、試合映像V全体のうち、t-60秒からt+60秒の部分を示すものである。なお、後述するように、推定部分Pの長さは、当該推定部分Pに係るシーン種別によって異なる。
【0020】
複数の訓練用連続画像データTCDは、推定部分Pに係る動画像データを構成する連続の画像データであり、機械学習モデルMに入力される訓練用連続画像データTCDの数と等しい。本実施形態では、訓練用連続画像データTCDがベクトル形式で表現される場合を説明する。訓練用連続画像データTCDがベクトル形式で表現される場合、訓練用連続画像データTCDの次元数は、訓練用連続画像データTCDの元となる画像の解像度の値(H×W×C)と等しい。なお、訓練用連続画像データTCDは、任意の形式で表現可能であり、ベクトル形式に限られず、配列形式、行列形式、又は単一の数値等の他の形式で表現されてもよい。
【0021】
複数の訓練用連続画像データTCDは、より詳細には、連続する複数の前半訓練用連続画像データTCD1(第1の訓練用連続画像データ)と、複数の前半訓練用連続画像データTCD1の後に連続する複数の後半訓練用連続画像データTCD2(第2の訓練用連続画像データ)と、を有する(
図3参照)。本実施形態では、前半訓練用連続画像データTCD1の数は、後半訓練用連続画像データTCD2の数と等しい。本実施形態では、複数の訓練用連続画像データTCDが、複数の前半訓練用連続画像データTCD1と複数の後半訓練用連続画像データTCD2とに2分割されている場合を説明するが、複数の訓練用連続画像データTCDは3以上に分割されていてもよい。また、前半訓練用連続画像データTCD1の数と後半訓練用連続画像データTCD2の数とは等しくなくてもよい。
【0022】
[機械学習モデル]
以下、
図3を用いて機械学習モデルMの具体的な構成について説明する。
図3は、機械学習モデルの詳細な構成の一例を示す図である。機械学習モデルMは、推定部分Pについて所定のシーン種別であるか否かの推定を行う。
【0023】
本実施形態に係る機械学習モデルMは、RNNのような逐次処理に依ることなく、複数の連続画像データ間の相互関連に関する情報に基づいて推定を実行する。そのため、本実施形態に係る機械学習モデルMでは、その学習を行う際に勾配消失が発生しにくい。
【0024】
また、本実施形態に係る機械学習モデルMでは、スポーツの試合映像Vの推定部分Pのシーン種別の推定をより効率良く行うことができる。すなわち、スポーツの試合映像Vでは、イベントの前後で連続画像データCDの特徴が大きく変化することが多いため、イベントの前後で別々に判断を行った方が推定の効率がよい。この点、本実施形態に係る機械学習モデルMによれば、イベントの前後で別々に判断を行うことができるため、シーン種別の推定をより効率良く実行できる。
【0025】
具体的には、機械学習モデルMは、特徴量取得部40と、推定結果取得部50と、を有する。特徴量取得部40は、画像特徴抽出部41と、顕著度重み付け部42と、を更に有する。以下、特徴量取得部40(画像特徴抽出部41及び顕著度重み付け部42)と、推定結果取得部50と、について説明する。
【0026】
画像特徴抽出部41は、前半画像特徴量取得部411(第1の特徴量取得部)と、後半画像特徴量取得部412(第3の特徴量取得部)と、を有する。以下、前半画像特徴量取得部411と、後半画像特徴量取得部412と、について説明する。
【0027】
前半画像特徴量取得部411は、複数の前半訓練用連続画像データTCD1のそれぞれに対応する複数の前半画像特徴量F1(第1の特徴量)であって、対応する前半訓練用連続画像データTCD1の特徴をそれぞれ示す複数の前半画像特徴量F1を、複数の前半訓練用連続画像データTCD1から取得する。本実施形態では、前半画像特徴量F1はベクトル量である。前半画像特徴量取得部411としては、例えば、ImageNetを用いて学習されたResNet-152等、固定の(公知の学習済みの)特徴抽出器を用いることができる。また、前半画像特徴量取得部411は、主成分分析等を用いた次元削減によって、前半画像特徴量F1の次元数を、対応する前半訓練用連続画像データTCD1の次元数より小さくする。なお、前半画像特徴量F1は、任意の形式で表現可能であり、ベクトル形式に限られず、配列形式、行列形式、又は単一の数値等の他の形式で表現されてもよい。
【0028】
後半画像特徴量取得部412は、前半画像特徴量取得部411と同様にして、複数の後半訓練用連続画像データTCD2のそれぞれに対応する複数の後半画像特徴量F3(第3の特徴量)であって、対応する後半訓練用連続画像データTCD2の特徴をそれぞれ示す複数の後半画像特徴量F3を、複数の後半訓練用連続画像データTCD2から取得する。
【0029】
顕著度重み付け部42は、顕著度重み付き前半特徴量取得部421(第2の特徴量取得部)と、顕著度重み付き後半特徴量取得部422(第4の特徴量取得部)と、を有する。以下、
図4を参照しながら、顕著度重み付き前半特徴量取得部421と、顕著度重み付き後半特徴量取得部422と、について説明する。
図4は、顕著度重み付き前半特徴量取得部の詳細な構成の一例を示す図である。
【0030】
図4に示す構成によれば、機械学習モデルMは、シーン種別の推定のために重要な画像特徴量をより重視して推定処理を行うため、効率良く推定処理を実行できる。試合映像Vの推定部分Pは、相互に類似する複数の連続画像を多く含んでいる。かかる連続画像に含まれる情報は、機械学習モデルMでの推定処理にとってあまり重要でない場合が多い。したがって、相互に類似している(すなわち、顕著度が低い)多数の連続画像に係る特徴量については、重要度が低いものとみなして推定処理への寄与を小さくすることにより、機械学習モデルMは効率良く推定処理を実行することができる。
【0031】
具体的には、顕著度重み付き前半特徴量取得部421は、複数の前半画像特徴量F1から複数の顕著度重み付き前半特徴量F2(第2の特徴量)を取得する。顕著度重み付き前半特徴量取得部421は、顕著度算出部421aと、重み付け部421bと、再マッピング部421cと、を有する。
【0032】
顕著度算出部421aは、複数の前半画像特徴量F1(第1の特徴量)にそれぞれ対応する複数の前半顕著度(第1の顕著度)であって、対応する前記前半画像特徴量F1の顕著度をそれぞれ示す複数の前半顕著度を算出する。具体的には、顕著度算出部421aは、複数の前半画像特徴量F1間の類似度に基づいて前半顕著度を算出する。より詳細には、顕著度算出部421aは、複数の前半画像特徴量F1のそれぞれに対して、当該前半画像特徴量F1と、当該前半画像特徴量F1及び当該他の前半画像特徴量F1と、の間の類似度に基づいて前半顕著度を算出する。
【0033】
顕著度算出部421aは、複数の前半画像特徴量F1間の類似度を算出し、当該類似度に基づいて前半顕著度を算出する。本実施形態では、前半画像特徴量F1がベクトルであることから、i番目の前半画像特徴量F1とj番目の前半画像特徴量F1との間の類似度(s
i,j)は、下記の数1に示すようにコサイン類似度として表される。ここで、f
iは正規化されたi番目の前半画像特徴量F1、f
jは正規化されたj番目の前半画像特徴量F1である。
【数1】
【0034】
重み付け部421bは、対応する前半顕著度により複数の前半画像特徴量F1のそれぞれを重み付けする。具体的には、重み付け部421bは、一の前半画像特徴量F1であって、当該前半画像特徴量F1と当該他の前半画像特徴量F1との間の類似度の累積を示す値が小さいものを重く重み付けする。より具体的に言えば、本実施形態では、i番目の重み付けされた複数の前半画像特徴量F1(k
i)は、下記の数2により表される。ここで、N
fは前半画像特徴量F1の数、θは所定の閾値である。勿論、前半顕著度による前半画像特徴量F1の重み付けの方法(すなわち、前半顕著度の表現形式)は、数2で表されるものに限られない。
【数2】
【0035】
本実施形態に係る機械学習モデルMにおける上記顕著度算出部421a及び重み付け部421bは、学習システム20により学習されない固定の変換器である。すなわち、本実施形態に係る機械学習モデルMでは、後述する再マッピング部431c及び推定結果取得部50のみが学習システム20により学習されるため、学習量が少なく済む。
【0036】
再マッピング部421cは、重み付け部421bにてそれぞれ重み付けされた複数の前半画像特徴量F1から、複数の顕著度重み付き前半特徴量F2を取得する。本実施形態では、再マッピング部421cは、2つの全結合型ニューラルネットワークと、当該ニューラルネットワークに続くReLu層と、により構成される。当該ニューラルネットワークの重みは、学習システム20において学習されるパラメータである。
【0037】
なお、本実施形態では、顕著度重み付き前半特徴量取得部421は、顕著度算出部421aの前から再マッピング部421cの後に残差接続を導入した構成を有する。さらに、本実施形態では、顕著度重み付き前半特徴量取得部421は、顕著度算出部421aの前、及び重み付け部421bと再マッピング部421cとの間において、正規化処理を実行する構成を有する(不図示)。
【0038】
また、より詳細には、顕著度重み付き前半特徴量取得部421は、第1の顕著度重み付き前半特徴量取得部421-1と、第2の顕著度重み付き前半特徴量取得部421-2と、を有する複数の顕著度重み付き前半特徴量取得部421である。また、複数の顕著度重み付き前半特徴量F2は、複数の第1の顕著度重み付き前半特徴量F2-1と、複数の第2の顕著度重み付き前半特徴量F2-2と、を有する。具体的には、第1の顕著度重み付き前半特徴量取得部421-1は、複数の前半画像特徴量F1を入力として、複数の第1の顕著度重み付き前半特徴量F2-1を取得する。また、第2の顕著度重み付き前半特徴量取得部421-2は、複数の第1の顕著度重み付き前半特徴量F2-1を入力として、複数の第2の顕著度重み付き前半特徴量F2-2を取得する。
【0039】
換言すれば、顕著度重み付き前半特徴量取得部421は、顕著度算出部421aと重み付け部421bと再マッピング部421cとの組が直列に多段結合した構成を有する。ここでは、顕著度算出部421aと重み付け部421bと再マッピング部421cとの組が2段結合する場合を説明したが、顕著度算出部421aと重み付け部421bと再マッピング部421cとの組は3段以上結合してもよい。かかる構成によれば、より高い精度で特徴量間の顕著度を抽出することができる。
【0040】
顕著度重み付き前半特徴量取得部421と同様にして、顕著度重み付き後半特徴量取得部422は、複数の後半画像特徴量F3から複数の顕著度重み付き後半特徴量F4(第4の特徴量)を取得する。
【0041】
推定結果取得部50は、複数の顕著度重み付き前半特徴量F2と複数の顕著度重み付き後半特徴量F4とに基づき、推定の結果を取得する。具体的には、推定結果取得部50は、入力されたデータに基づいて推定を行う推定器である。例えば、推定結果取得部50は、全結合型のニューラルネットワークであり、その重みは学習システム20において学習されるパラメータである。推定結果取得部50は、推定の結果として、推定部分Pが所定のシーン種別である確率値を出力する。
【0042】
なお、機械学習モデルMの構成は、本実施形態において説明した例に限られるものではない。変形例に係る機械学習モデルMにおいては、画像特徴抽出部41が前半画像特徴量取得部411と後半画像特徴量取得部412とを有さず、顕著度重み付け部42が顕著度重み付き前半特徴量取得部421と顕著度重み付き後半特徴量取得部422とを有さない構成としてもよい。変形例に係る機械学習モデルに入力する複数の訓練用連続画像データTCDは、複数の前半訓練用連続画像データTCD1と複数の後半訓練用連続画像データTCD2とを含まない。すなわち、
図3に示した機械学習モデルMと異なり、変形例に係る機械学習モデルMにおいては、イベントの前後で別々に判断を行わないような構成としてもよい。
【0043】
[学習部]
学習部22は、複数の訓練用連続画像データTCDを用いて機械学習モデルMを学習する。具体的には、学習部22は、複数の訓練用連続画像データTCDとラベルデータとを取得し、複数の訓練用連続画像データTCDを機械学習モデルMに入力して複数の訓練用連続画像データTCDに係るシーン種別の推定の結果を取得し、当該推定の結果とラベルデータとに基づき、機械学習モデルMの学習を行う。より具体的には、学習部22は、前記ラベルデータに係るラベルの確率値が大きくなるように機械学習モデルの学習を行う。学習部22は、学習途中で当該値が十分大きくなった場合には、その時点で学習を終了する。学習部22は、当該値が十分大きくならなくても、所定回数の学習を繰り返した場合には、学習を終了してもよい。学習自体は、公知の手法を利用可能であり、例えば、AdamやRMSProp等が利用されてもよい。
【0044】
[訓練用連続画像データの詳細]
ここで、
図5を用いて、学習に用いられる訓練用連続画像データTCD(特に前半訓練用連続画像データTCD1及び後半訓練用連続画像データTCD2)の詳細な構成について説明する。
図5は、訓練用連続画像データの詳細な構成の一例を示す図である。
【0045】
以下に説明する構成を有する訓練用連続画像データTCDによれば、機械学習モデルMの学習を効率良く行うことができる。すなわち、以下に説明する構成により、顕著度重み付き前半特徴量取得部421と顕著度重み付き後半特徴量取得部422とを、それぞれにとって最適な複数の訓練用連続画像データTCDを用いて学習することができるため、機械学習モデルMの学習を効率良く実行できる。
【0046】
具体的には、複数の前半訓練用連続画像データTCD1は、複数の訓練用連続画像データTCDに係るシーン種別を特徴付ける一のイベントの前に対応し、複数の後半訓練用連続画像データTCD2は、当該イベントの後に対応する。ここで、当該イベントは基準時刻REFに、複数の前半訓練用連続画像データTCD1は試合映像Vのうち基準時刻REFの前の部分に、複数の後半訓練用連続画像データTCD2は試合映像Vのうち基準時刻REFの後の部分に、それぞれ対応する。
【0047】
本実施形態では、試合映像Vはサッカーの試合映像であり、複数の訓練用連続画像データTCDに係るシーン種別はゴールシーンである。この例において、複数の訓練用連続画像データTCDが、プレイヤー達がゴールに向かって走っている場面Aと、プレイヤーがゴールに向かってシュートしている場面Bと、プレイヤー達が駆け回り歓喜する場面Cと、により構成されると仮定する。ここで、場面A、場面B及び場面Cはこの順に時系列で並ぶ。この場合、ゴールシーンを特徴付ける一のイベントは場面Bであり、複数の前半訓練用連続画像データTCD1は場面Aに対応し、複数の後半訓練用連続画像データTCD2は場面Cに対応する。
【0048】
[学習部において実行される処理の詳細]
続いて、
図6を用いて、学習部において実行される処理の詳細を説明する。
図6は、学習部において実行される処理の詳細の一例を示す図である。
【0049】
機械学習モデルMは、より詳細には、推定部分Pについて、第1のシーン種別と第2のシーン種別とを有する複数のシーン種別のいずれであるかの推定を行う。本実施形態では、複数のシーン種別が、第1のシーン種別と第2のシーン種別との2つのシーン種別を有する場合を説明するが、複数のシーン種別は、3以上のシーン種別を有してもよい。シーン種別の数は複数に限られず、一つでもよい。本実施形態では、第1のシーン種別がゴールシーンであり、第2のシーン種別がカードシーンである場合を説明する。なお、第1のシーン種別及び第2のシーン種別がこの例に限られないのは勿論である。
【0050】
図6に示す学習部の処理によれば、推定部分Pの長さに依らず、同数且つ少数の訓練用連続画像データTCDで機械学習モデルMの学習を実行することができる。サッカーの試合映像を例として説明すると、カードシーンを示す映像はゴールシーンを示す映像よりも長いことが多い。すなわち、カードシーンを示す推定部分Pの長さは、ゴールシーンを示す推定部分Pの長さと異なる。このように推定部分Pの長さがシーン種別毎に異なる場合であっても、
図6に示す学習部の処理によれば、同数且つ少数の訓練用連続画像データTCDで学習を実行することができる。
【0051】
具体的には、学習部22は、推定部分Pを示す第1の訓練用フレーム画像データTFD1を試合映像Vから取得する(
図6(a))。第1の訓練用フレーム画像データTFD1の数はゴールシーンに対応する。また、同様にして、学習部22は、推定部分Pを示す第2の訓練用フレーム画像データTFD2を試合映像Vから取得する(
図6(b))。第2の訓練用フレーム画像データTFD2の数はカードシーンに対応する。例えば、ゴールシーンに対応する第1の訓練用フレーム画像データTFD1の数が60である場合、カードシーンに対応する第2の訓練用フレーム画像データTFD2の数は90である。勿論、これは一例であり、第1の訓練用フレーム画像データTFD1の数及び第2の訓練用フレーム画像データTFD2の数は任意に設定可能である。
【0052】
学習部22は、機械学習モデルMに入力される訓練用連続画像データTCDの数と同数のゴールシーンに係る訓練用連続画像データTCDを当該第1の訓練用フレーム画像データTFD1から取得する(
図6(a))。機械学習モデルMに入力される訓練用連続画像データTCDの数は予め設定されている。そのため、第1の訓練用フレーム画像データTFD1の数が当該訓練用連続画像データTCDの数と異なる場合、第1の訓練用フレーム画像データTFD1を機械学習モデルMに直接入力することが出来ない。そこで、学習部22は、第1の訓練用フレーム画像データTFD1に対してリサンプリング処理を行い、機械学習モデルMに入力される訓練用連続画像データTCDの数と同数の訓練用連続画像データTCDを取得する。リサンプリング処理の方法としては種々の補間法を利用することができる。
【0053】
また、学習部22は、ゴールシーンに係る訓練用連続画像データTCDの場合と同様にして、機械学習モデルMに入力される訓練用連続画像データTCDの数と同数のカードシーンに係る訓練用連続画像データTCDを当該第2の訓練用フレーム画像データTFD2から取得する(
図6(b))。
【0054】
ここで、当該ゴールシーンに係る訓練用連続画像データTCDは、ゴールシーンを示す第1のラベルデータに対応付けられている(
図6(a))。同様に、当該カードシーンに係る訓練用連続画像データTCDは、カードシーンを示す第2のラベルデータに対応付けられている(
図6(b))。
【0055】
その後、学習部22は、ゴールシーンに係る複数の訓練用連続画像データTCDを機械学習モデルに入力し、当該訓練用連続画像データTCDに係るシーン種別の推定の結果を取得する。学習部22は、推定の結果と第1のラベルデータとに基づき、機械学習モデルMの学習を実行する(
図6(a))。同様に、学習部22は、カードシーンに係る複数の訓練用連続画像データTCDを機械学習モデルに入力し、当該訓練用連続画像データTCDに係るシーン種別の推定の結果を取得する。学習部22は、推定の結果と第2のラベルデータとに基づき、機械学習モデルMの学習を実行する(
図6(b))。
【0056】
[2-2.推定システムで実現される機能]
ここで、
図2に戻って、推定システム30で実現される機能について説明する。推定システム30では、データ記憶部31及び推定部32が実現される。データ記憶部31は、記憶部12を主として実現され、推定部32は、制御部11を主として実現される。以下、データ記憶部31と、推定部32と、について説明する。
【0057】
[データ記憶部]
データ記憶部31は、推定部32での処理に必要なデータを記憶する。具体的には、データ記憶部31は、映像データセットVDを記憶する。映像データセットVDは、試合映像Vのデータを格納する。試合映像Vは、スポーツの試合映像である。本実施形態では、前記の通り、試合映像Vに係るスポーツはサッカーであるが、この例に限られず、例えば、野球、ラグビー、バレーボール等の他の集団競技の球技でもよい。また、試合映像Vに係るスポーツは、テニス、卓球、ゴルフ等の個人競技(ペア含む)の球技、フルマラソン等の陸上競技、競泳、オープンウォータースイミング等の水上競技、ノルディックスキー等の雪上競技、或いはトライアスロン、自転車ロードレース等の耐久競技でもよい。データ記憶部31は、機械学習モデルMのプログラム(アルゴリズム)やパラメータ等を記憶する。データ記憶部31に記憶された機械学習モデルMのパラメータは、学習システム20での学習処理により調整済みのものである。
【0058】
[推定部]
以下、
図7を用いて、推定部32において実行される処理について説明する。
図7は、推定部において実行される処理の一例を示す図である。推定部32は、機械学習モデルMを用いて、試合映像Vの推定部分Pに係るシーン種別の推定を実行する。
【0059】
推定部32は、推定部分Pを示す複数の連続画像データCDを試合映像Vから取得する。複数の連続画像データCDは、推定部分Pを構成する連続の画像データであり、機械学習モデルMに入力される連続画像データCDの数と等しい。本実施形態では、連続画像データCDがベクトル形式で表現される場合を説明する。連続画像データCDがベクトル形式で表現される場合、連続画像データCDの次元数は、連続画像データCDの元となる画像の解像度の値(H×W×C)と等しい。なお、連続画像データCDは、任意の形式で表現可能であり、ベクトル形式に限られず、配列形式、行列形式、又は単一の数値等の他の形式で表現されてもよい。
【0060】
具体的には、複数の連続画像データCDは、連続する複数の前半連続画像データCD1(第1の連続画像データ)と、複数の前半連続画像データCD1の後に連続する複数の後半連続画像データCD2(第2の連続画像データ)と、を有する。本実施形態では、前半連続画像データCD1の数は、後半連続画像データCD2の数と等しい。本実施形態では、複数の連続画像データCDが、複数の前半連続画像データCD1と複数の後半連続画像データCD2とに2分割されている場合を説明するが、複数の連続画像データCDは3以上に分割されていてもよく、或いは分割されていなくてもよい。また、前半連続画像データCD1の数と後半連続画像データCD2の数とは等しくなくてもよい。
【0061】
推定部32は、複数の連続画像データCDを機械学習モデルMに入力し、
図3を用いて説明したようにして、推定部分Pについて所定のシーン種別であるか否かの推定を実行する。
【0062】
[推定部において実行される処理の詳細]
最後に、
図8を用いて、推定部32において実行される処理の詳細を説明する。
図8は、推定部において実行される処理の詳細の一例を示すフロー図である。
図8に示す各ステップの処理は、推定プログラムを
図1に示すハードウェアで実行することにより実現される。
【0063】
以下に説明する推定部32の構成によれば、本実施形態に係る機械学習モデルMを用いて、試合映像Vから特定のシーンを抽出することができる。当該構成により、例えば、サッカーの試合映像からゴールシーンや交代シーン、カードシーン等を抽出することができるため、ハイライト映像の作成等、試合映像の編集作業が容易となる。
【0064】
具体的には、推定部32は、試合映像V全体にわたって基準時刻REFを掃引し、試合映像Vの各時刻に対応する推定部分Pについて、複数のシーン種別のいずれであるかの推定を実行する。
【0065】
まず、推定部32は基準時刻REFを決定する(S10)。具体的には、推定部32は、試合映像Vの開始時刻から終了時刻までの期間の各時刻から基準時刻REFを決定する。なお、開始時刻は、試合映像の実際の始点(すなわち、0秒)と必ずしも一致しない。終了時刻も同様に、試合映像の実際の終点と必ずしも一致しない。これは、後の処理工程において、基準時刻REFに対応する推定部分Pを取得することを考慮したものである。
【0066】
次いで、推定部32は、基準時刻REFについて推定すべきシーン種別を複数のシーン種別から選択する(S11)。本実施形態では、複数のシーン種別がゴールシーン(第1のシーン種別)及びカードシーン(第2のシーン種別)の場合を説明する。勿論、複数のシーン種別は3以上であってもよく、各シーン種別はこの例に限られない。
【0067】
推定部32は、選択したシーン種別に対応する長さの推定部分Pを試合映像Vから取得する(S12)。具体的には、推定部32は、選択したシーン種別に対応する数のフレーム画像データを取得し、
図6に示す処理と同様の方法により、機械学習モデルMに入力される連続画像データCDの数と同数の連続画像データCDを当該フレーム画像データから取得する。より具体的には、推定部分Pを示す第1のフレーム画像データであってゴールシーンに対応する数の第1のフレーム画像データを取得し、機械学習モデルMに入力される連続画像データCDの数と同数のゴールシーンに係る連続画像データCDを当該第1のフレーム画像データから取得する。推定部32は、カードシーンについても同様の処理を実行する。
【0068】
次いで、推定部32は、当該推定部分Pに係るシーン種別の推定を実行する(S13)。具体的には、推定部32は、取得した連続画像データCDを機械学習モデルMに入力し、推定部分Pに係るシーン種別の推定の結果を取得する。推定部32は、取得した推定の結果を保存する(S14)。
【0069】
推定部32は、S11からS14までの処理を、ゴールシーン及びカードシーンの両方について実行する(S15;NO)。推定部32は、S11からS14までの処理を、ゴールシーン及びカードシーンの両方について実行し終えると(S15;YES)、保存された各シーン種別についての推定の結果を総合して、推定部分Pに係るシーン種別がゴールシーン又はカードシーンのいずれであるかの推定の結果を取得する(S16)。
【0070】
以下、S16での処理について説明する。具体的には、推定部32において、機械学習モデルMは、ゴールシーンに係る連続画像データCDに基づき、ゴールシーンであるか否かに関する第1の判断データを取得する。具体的には、第1の判断データは、ゴールシーンについての推定の結果である確率値である。同様に、機械学習モデルMは、カードシーンに係る連続画像データCDに基づき、カードシーンであるか否かに関する第2の判断データを取得する。具体的には、第2の判断データは、カードシーンについての推定の結果である確率値である。
【0071】
また、具体的には、推定部32において、機械学習モデルMは、第1の判断データと第2の判断データとに基づき、ゴールシーン又はカードシーンのいずれであるかの推定の結果を取得する。より具体的には、機械学習モデルMは、第1の判断データ及び第2の判断データが所定の閾値を超えているかを判断し、以下の判断に従って推定の結果を取得する。すなわち、機械学習モデルMは、第1の判断データ及び第2の判断データのうち一方のみが当該閾値を超えている場合には、当該一方に対応するシーン種別を推定部分Pに係るシーン種別であると判断する。機械学習モデルMは、第1の判断データ及び第2の判断データのいずれも当該閾値を超えていない場合には、推定部分Pに係るシーン種別はゴールシーンでもカードシーンでもない(すなわち、背景シーン)と判断する。機械学習モデルMは、第1の判断データ及び第2の判断データの両方が当該閾値を超えている場合には、値の大きい方に対応するシーン種別を推定部分Pに係るシーン種別であると判断する。
【0072】
推定部32は、S10からS16までの処理を、試合映像Vの開始時刻から終了時刻までの期間の全時刻について実行する(S17;NO)。推定部32は、S10からS16までの処理を、試合映像Vの開始時刻から終了時刻までの全期間について実行し終えると(S17;YES)、処理を終了する。
【0073】
以上に説明した実施形態によれば、スポーツの試合映像の任意の一部分に係るシーン種別を推定する機械学習モデルであって、学習時に勾配消失を起こしにくい機械学習モデルを有するコンピュータビジョンシステムが提供される。
【0074】
また、本実施形態に係る機械学習モデルは、スポーツの試合映像の任意の一部分を構成する各連続画像データの顕著度を考慮して当該一部分に係るシーン種別の推定を行う。本実施形態に係る機械学習モデルでは、本実施形態に係る学習システムにより学習されない固定の変換器により重み付けされた特徴量を、本実施形態に係る学習システムにより学習される推定器に入力するため、学習量が少なく済む。