(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-25
(45)【発行日】2024-10-03
(54)【発明の名称】コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240926BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2024501932
(86)(22)【出願日】2022-06-27
(86)【国際出願番号】 JP2022025491
(87)【国際公開番号】W WO2024003976
(87)【国際公開日】2024-01-04
【審査請求日】2024-01-12
【新規性喪失の例外の表示】特許法第30条第2項適用 (1)令和3年7月20日、令和3年7月25日~令和3年7月27日 集会名 2021 17th International Conference on Machine Vision and Applications (MVA) 開催場所(オンライン開催) (ア)https://www.mva-org.jp/mva2021/ (イ)https://ieeexplore.ieee.org/abstract/document/9511342 (ウ)https://www.mva-org.jp/Proceedings/2021/papers/O1-3-2.pdf (2)令和3年7月21日、令和3年7月27日~令和3年7月29日 集会名 画像の認識・理解シンポジウム(MIRU)2021 開催場所(オンライン開催) http://cvim.ipsj.or.jp/MIRU2021/
【早期審査対象出願】
(73)【特許権者】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(73)【特許権者】
【識別番号】500433225
【氏名又は名称】学校法人中部大学
(74)【代理人】
【識別番号】110000154
【氏名又は名称】弁理士法人はるか国際特許事務所
(72)【発明者】
【氏名】山下 隆義
(72)【発明者】
【氏名】藤吉 弘亘
(72)【発明者】
【氏名】平川 翼
(72)【発明者】
【氏名】中澤 満
(72)【発明者】
【氏名】蔡 永男
(72)【発明者】
【氏名】シュテンガー ビヨン
【審査官】宮島 潤
(56)【参考文献】
【文献】特開2018-190332(JP,A)
【文献】特開2019-110421(JP,A)
【文献】特開2019-91421(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
(57)【特許請求の範囲】
【請求項1】
スポーツの試合に関する第1のシーン種別に対応する
時間の長さである第1の長さを有するとともに推定対象期間を含む第1の期間の動画像データと、
スポーツの試合に関し前記第1のシーン種別とは異なる第2のシーン種別に対応するとともに前記第1の長さより長い
時間の長さである第2の長さを有し、前記第1の期間を含む第2の期間の動画像データと、をスポーツの試合映像から取得する動画像データ取得部と、
前記第1の長さの期間を示す訓練用動画像データを用いて予め学習された第1の機械学習モデルであって、前記推定対象期間について、前記第1のシーン種別であるか否かに関する第1の推定データと、前記第2のシーン種別であるか否かに関する第2の推定データと、を前記第1の期間の動画像データに基づいて生成する前記第1の機械学習モデルと、
前記第2の長さの期間を示す訓練用動画像データを用いて予め学習された第2の機械学習モデルであって、前記推定対象期間について、前記第1の推定データと、前記第2の推定データと、を前記第2の期間の動画像データに基づいて生成する前記第2の機械学習モデルと、
前記推定対象期間について、前記第1の機械学習モデルから出力される前記第1の推定データ
を前記第1のシーン種別であるか否かに関する第1の判断データとして取得し、前記第2の機械学習モデルから出力され
る前記第2の推定データ
を前記第2のシーン種別
であるか否かに関する第2の判断データとして取得することにより、前記第1の判断データ及び前記第2の判断データを含む判断データを生成する判断データ生成部と、
を有するコンピュータビジョンシステム。
【請求項2】
前記第1の長さは、前記第1のシーン種別と、
スポーツの試合に関し前記第1のシーン種別とは異なる第3のシーン種別と、に対応するものであり、
前記第1の機械学習モデルは、前記推定対象期間について、前記第1の推定データと、前記第2の推定データと、前記第3のシーン種別であるか否かに関する第3の推定データと、を前記第1の期間の動画像データに基づいて生成し、
前記第2の機械学習モデルは、前記推定対象期間について、前記第1の推定データと、前記第2の推定データと、前記第3の推定データと、を前記第2の期間の動画像データに基づいて生成し、
前記判断データは、前記第3のシーン種別であるか否かに関する第3の判断データを更に含み、
前記判断データ生成部は、
前記推定対象期間について、前記第1の機械学習モデルから出力され
る前記第3の推定データ
を前記第3の判断データとして取得することにより前記判断データを生成する、
請求項1に記載のコンピュータビジョンシステム。
【請求項3】
前記第2の長さは、前記第2のシーン種別と、
スポーツの試合に関し前記第2のシーン種別とは異なる第4のシーン種別と、に対応するものであり、
前記第1の機械学習モデルは、前記推定対象期間について、前記第1の推定データと、前記第2の推定データと、前記第4のシーン種別であるか否かに関する第4の推定データと、を前記第1の期間の動画像データに基づいて生成し、
前記第2の機械学習モデルは、前記推定対象期間について、前記第1の推定データと、前記第2の推定データと、前記第4の推定データと、を前記第2の期間の動画像データに基づいて生成し、
前記判断データは、前記第4のシーン種別であるか否かに関する第4の判断データを更に含み、
前記判断データ生成部は、
前記推定対象期間について、前記第2の機械学習モデルから出力され
る前記第4の推定データ
を前記第4の判断データとして取得することにより前記判断データを生成する、
請求項1に記載のコンピュータビジョンシステム。
【請求項4】
スポーツの試合に関する第1のシーン種別に対応する
時間の長さである第1の長さを有するとともに推定対象期間を含む第1の期間の動画像データと、
スポーツの試合に関し前記第1のシーン種別とは異なる第2のシーン種別に対応するとともに前記第1の長さより長い
時間の長さである第2の長さを有し、前記第1の期間を含む第2の期間の動画像データと、をスポーツの試合映像から取得する動画像データ取得ステップと、
前記第1の長さの期間を示す訓練用動画像データを用いて予め学習された第1の機械学習モデルを用いて、前記推定対象期間について、前記第1のシーン種別であるか否かに関する第1の推定データと、前記第2のシーン種別であるか否かに関する第2の推定データと、を前記第1の期間の動画像データに基づいて生成する第1の推定データ生成ステップと、
前記第2の長さの期間を示す訓練用動画像データを用いて予め学習された第2の機械学習モデルを用いて、前記推定対象期間について、前記第1の推定データと、前記第2の推定データと、を前記第2の期間の動画像データに基づいて生成する第2の推定データ生成ステップと、
前記推定対象期間について、前記第1の機械学習モデルから出力される前記第1の推定データ
を前記第1のシーン種別であるか否かに関する第1の判断データとして取得し、前記第2の機械学習モデルから出力され
る前記第2の推定データ
を前記第2のシーン種別
であるか否かに関する第2の判断データとして取得することにより、前記第1の判断データ及び前記第2の判断データを含む判断データを生成する判断データ生成ステップと、
を有するコンピュータビジョン方法。
【請求項5】
スポーツの試合に関する第1のシーン種別に対応する
時間の長さである第1の長さを有するとともに推定対象期間を含む第1の期間の動画像データと、
スポーツの試合に関し前記第1のシーン種別とは異なる第2のシーン種別に対応するとともに前記第1の長さより長い
時間の長さである第2の長さを有し、前記第1の期間を含む第2の期間の動画像データと、をスポーツの試合映像から取得する動画像データ取得ステップと、
前記第1の長さの期間を示す訓練用動画像データを用いて予め学習された第1の機械学習モデルを用いて、前記推定対象期間について、前記第1のシーン種別であるか否かに関する第1の推定データと、前記第2のシーン種別であるか否かに関する第2の推定データと、を前記第1の期間の動画像データに基づいて生成する第1の推定データ生成ステップと、
前記第2の長さの期間を示す訓練用動画像データを用いて予め学習された第2の機械学習モデルを用いて、前記推定対象期間について、前記第1の推定データと、前記第2の推定データと、を前記第2の期間の動画像データに基づいて生成する第2の推定データ生成ステップと、
前記推定対象期間について、前記第1の機械学習モデルから出力される前記第1の推定データ
を前記第1のシーン種別であるか否かに関する第1の判断データとして取得し、前記第2の機械学習モデルから出力され
る前記第2の推定データ
を前記第2のシーン種別
であるか否かに関する第2の判断データとして取得することにより、前記第1の判断データ及び前記第2の判断データを含む判断データを生成する判断データ生成ステップと、
をコンピュータに実行させるためのコンピュータビジョンプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラムに関する。
【背景技術】
【0002】
機械学習モデルを用いて、スポーツの試合映像の一部分に係るシーン種別を推定する技術が知られている。当該技術を用いることにより、例えば、サッカーの試合映像からゴールシーンや交代シーン、カードシーン等を抽出することができるため、ハイライト映像の作成等、試合映像の編集作業が容易となる(非特許文献1及び非特許文献2参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】Anthony Cioppa, Adrien Deli`ege, Silvio Giancola, Bernard Ghanem, Marc Van Droogenbroeck, Rikke Gade, and Thomas B. Moeslund. A context-aware loss function for action spotting in soccer videos. In Computer Vision and Pattern Recognition, pages 13126-13136, 2020.
【文献】Silvio Giancola and Bernard Ghanem. Temporally-aware feature pooling for action spotting in soccer broadcasts. arXiv:2104.06779, 2021.
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の手法では、各シーン種別の期間の長さが考慮されないため、推定の精度が低くなる場合がある。具体的には、従来の手法では、画一な長さの期間の動画像を用いて機械学習モデルを学習し、画一な長さの期間の動画像を当該機械学習モデルに入力して推定を行う。一方で、各シーン種別の期間の長さは異なっていることが多い。例えばサッカーの試合映像では、ゴールシーンの期間の長さはコーナーキックシーンの期間の長さより長いことが多い。そうであるにもかかわらず、各シーン種別の期間の長さを考慮せずに推定や学習を行うと、当該シーン種別であるか否かについての推定の精度が低くなる場合がある。
【0005】
本開示の目的の一つは、スポーツの試合映像の一部分に係るシーン種別を高精度で推定することを可能とするコンピュータビジョンシステムを提供することである。
【課題を解決するための手段】
【0006】
本開示に係るコンピュータビジョンシステムは、第1のシーン種別に対応する第1の長さを有するとともに推定対象期間を含む第1の期間の動画像データと、前記第1のシーン種別とは異なる第2のシーン種別に対応するとともに前記第1の長さより長い第2の長さを有し、前記第1の期間を含む第2の期間の動画像データと、をスポーツの試合映像から取得する動画像データ取得部と、前記第1の長さの期間を示す訓練用動画像データを用いて予め学習された第1の機械学習モデルであって、前記推定対象期間について、前記第1のシーン種別であるか否かに関する第1の推定データと、前記第2のシーン種別であるか否かに関する第2の推定データと、を前記第1の期間の動画像データに基づいて生成する前記第1の機械学習モデルと、前記第2の長さの期間を示す訓練用動画像データを用いて予め学習された第2の機械学習モデルであって、前記推定対象期間について、前記第1の推定データと、前記第2の推定データと、を前記第2の期間の動画像データに基づいて生成する前記第2の機械学習モデルと、前記第1の機械学習モデルから出力される前記第1の推定データ及び前記第2の推定データと、前記第2の機械学習モデルから出力される前記第1の推定データ及び前記第2の推定データと、に基づいて、前記推定対象期間について、前記第1のシーン種別及び前記第2のシーン種別のいずれであるかに関する判断データを生成する判断データ生成部と、を有する。
【図面の簡単な説明】
【0007】
【
図1】本開示に係るコンピュータビジョンシステムのハードウェア構成を示す図である。
【
図2】本開示に係るコンピュータビジョンシステムで実現される機能の一例を示す機能ブロック図である。
【
図3】推定部で実現される機能の一例を示す機能ブロック図である。
【
図4】推定部及び処理実行部において実行される処理の概要を示す図である。
【
図5】判断データ生成部での処理に用いられるテーブルの一例を示す図である。
【
図6】推定部及び処理実行部において実行される処理の詳細の一例を示すフロー図である。
【発明を実施するための形態】
【0008】
以下、本開示に係るコンピュータビジョンシステムの実施形態の例を説明する。本実施形態では、コンピュータビジョンシステムが1台のコンピュータによって実現される場合を説明するが、コンピュータビジョンシステムは複数台のコンピュータによって実現されてもよい。
【0009】
[1.コンピュータビジョンシステムの全体構成]
図1は、本開示に係るコンピュータビジョンシステムのハードウェア構成を示す図である。コンピュータビジョンシステムSは、例えば、携帯電話機(スマートフォンを含む)、携帯情報端末(タブレット型コンピュータを含む)、パーソナルコンピュータ、又はサーバコンピュータ等である。
図1に示すように、コンピュータビジョンシステムSは、制御部11と、記憶部12と、通信部13と、操作部14と、表示部15と、を有する。
【0010】
制御部11は、少なくとも1つのプロセッサを含む。制御部11は、記憶部12に記憶されたプログラムやデータに従って処理を実行する。記憶部12は、主記憶部及び補助記憶部を含む。例えば、主記憶部はRAMなどの揮発性メモリであり、補助記憶部は、ROM、EEPROM、フラッシュメモリ、又はハードディスクなどの不揮発性メモリである。通信部13は、有線通信又は無線通信用の通信インタフェースであり、インターネットなどのネットワークを介してデータ通信を行う。
【0011】
操作部14は、入力デバイスである。操作部14は、例えば、タッチパネルやマウス等のポインティングデバイス、キーボード、又はボタン等である。操作部14は、ユーザによる操作内容を制御部11に伝達する。
【0012】
表示部15は、表示デバイスである。表示部15は、例えば、液晶表示部又は有機EL表示部等である。表示部15は、制御部11の指示に従って画像を表示する。
【0013】
なお、記憶部12に記憶されるものとして説明するプログラム及びデータは、ネットワークを介して供給されるようにしてもよい。また、上記説明した各コンピュータのハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部(例えば、光ディスクドライブやメモリカードスロット)や外部機器とデータの入出力をするための入出力部(例えば、USBポート)が含まれていてもよい。例えば、情報記憶媒体に記憶されたプログラムやデータが読取部や入出力部を介して、各コンピュータに供給されるようにしてもよい。
【0014】
[2.コンピュータビジョンシステムで実現される機能]
図2は、本開示に係るコンピュータビジョンシステムで実現される機能の一例を示す機能ブロック図である。コンピュータビジョンシステムSの機能は、
図1に示すハードウェアによりそれぞれ実現される。また、コンピュータビジョンシステムSの機能は、本実施形態に係るプログラムを上記ハードウェアで実行することにより実現される。これらのプログラムは、半導体メモリなどのコンピュータ可読記憶媒体に格納され、当該媒体から上記ハードウェアに供給されてよい。
【0015】
以下、
図2を用いて、コンピュータビジョンシステムSで実現される機能について説明する。コンピュータビジョンシステムSでは、データ記憶部20、推定部30、及び処理実行部40が実現される。データ記憶部20は記憶部12を主として実現され、推定部30は制御部11を主として実現され、処理実行部40は制御部11及び記憶部12を主として実現される。以下、データ記憶部21と、推定部30と、処理実行部40と、について説明する。
【0016】
[データ記憶部]
データ記憶部20は、推定部30での処理に必要なデータを記憶する。具体的には、データ記憶部20は、映像データセットVDと、機械学習モデルセットMSと、テーブルTと、を記憶する。
【0017】
映像データセットVDは、スポーツの試合映像Vを格納する。試合映像Vは、後に説明する推定部30での処理に供される。本実施形態では、試合映像Vに係るスポーツはサッカーである。試合映像Vに係るスポーツは、この例に限られず、例えば、野球、ラグビー、バレーボール等の他の集団競技の球技でもよい。また、テニス、卓球、ゴルフ等の個人競技(ペア含む)の球技、フルマラソン等の陸上競技、競泳、オープンウォータースイミング等の水上競技、ノルディックスキー等の雪上競技、或いはトライアスロン、自転車ロードレース等の耐久競技でもよい。
【0018】
データ記憶部20に記憶された機械学習モデルセットMSは、具体的には、推定部30の機械学習部32のプログラム(アルゴリズム)やパラメータ等である(
図3参照)。本実施形態では、機械学習モデルセットMSとして、TransformerモデルのEncoder部を用いる(参考文献:Ashish Vaswani,et al.,“Attention is all you need,” In Advances in Neural Information Processing Systems, pages 5998-6008,2017.)。これ以外にも、機械学習モデルセットMSとして、Recurrent Neural Network (RNN)等、動画像に係るシーン種別の推定に用いられる種々の公知の機械学習モデルを利用することができる。機械学習モデルセットMSは、第1の機械学習モデルM1と第2の機械学習モデルM2とを含む。第1の機械学習モデルM1は、後述する第1の機械学習部32aのプログラムやパラメータ等であり、第2の機械学習モデルM2は、後述する第2の機械学習部32bのプログラムやパラメータ等である(
図3及び
図4参照)。
【0019】
テーブルTは、推定部30での処理に用いられる。テーブルTの詳細については後述する。
【0020】
[推定部]
以下、
図3から
図5を適宜用いて、推定部30について説明する。
図3は、推定部で実現される機能の一例を示す機能ブロック図である。
図4は、推定部及び処理実行部において実行される処理の概要を示す図である。
図5は、判断データ生成部での処理に用いられるテーブルの一例を示す図である。
【0021】
以下に説明する本実施形態の推定部30によれば、各シーン種別の期間の長さを考慮した上でシーン種別の推定を行うので、各シーン種別についての推定の精度を高めることができる。すなわち、本実施形態の推定部30では、各シーン種別の推定データを生成するにあたり、当該シーン種別に適した機械学習モデルが用いられる。そのため、本実施形態の推定部30では、各シーン種別についての推定の精度が向上する。
【0022】
推定部30は、データ記憶部20から入力される試合映像Vの一部分に係るシーン種別を推定する処理を実行する。推定部30は、
図3に示すように、動画像データ取得部31と、機械学習部32と、判断データ生成部33と、を有する。
【0023】
以下では、
図4を用いて、動画像データ取得部31について説明する。動画像データ取得部31は、試合映像Vの一部から動画像データを取得する。試合映像Vは、推定対象期間TPと、第1の期間P1と、第2の期間P2と、を含む。また、動画像データは、第1のビデオクリップVC1(第1の期間の動画像データ)と、第2のビデオクリップVC2(第2の期間の動画像データ)と、を含む。
【0024】
推定対象期間TPは、シーン種別の推定対象となる期間であって、第1の期間P1(ひいては第2の期間P2)に含まれる期間である。推定対象期間TPは、後に説明する判断データDDと紐付けられる期間である。すなわち、一の判断データDDは、一の推定対象期間TPと対応するものである。推定部30は、試合映像Vの開始時刻から終了時刻までの期間のうち、任意の期間を推定対象期間TPとして決定する。本実施形態では、推定対象期間TPの長さは0.5秒である。なお、開始時刻は、試合映像Vの実際の始点(すなわち、0秒)と必ずしも一致しない。終了時刻も同様に、試合映像Vの実際の終点と必ずしも一致しない。
【0025】
第1の期間P1は、第1のビデオクリップVC1の期間である。具体的には、第1の期間P1は、第1のシーン種別と、第1のシーン種別とは異なる第3のシーン種別と、に対応する第1の長さを有する。本実施形態では、第1の長さは15秒であり、第1のシーン種別はキックオフシーンであり、第3のシーン種別はゴールシーンである。勿論、第1のシーン種別及び第3のシーン種別は上記の例に限られず、第1の長さとしては、第1のシーン種別及び第3のシーン種別に応じて、適当な長さに変更可能である。また、本実施形態では、第1の長さに対応するシーン種別の数は2であるが、3以上としてもよい。なお、本実施形態では、第1の長さは、評価用データを用いて、キックオフシーン及びゴールシーンについて最適な値として決定される。
【0026】
第2の期間P2は、第2のビデオクリップVC2の期間である。具体的には、第2の期間P2は、第1のシーン種別とは異なる第2のシーン種別と、第2のシーン種別とは異なる第4のシーン種別と、に対応する第2の長さを有する。この第2の長さは、第1の長さより長い。すなわち、第2の期間P2は、第1の期間P1より長い期間である。さらに、第2の期間P2は、第1の期間P1(ひいては推定対象期間TP)を含む。本実施形態では、第2の長さは20秒であり、第2のシーン種別はペナルティシーンであり、第4のシーン種別はイエローカードシーンである。勿論、第2のシーン種別及び第4のシーン種別は上記の例に限られず、第2の長さとしては、第2のシーン種別及び第4のシーン種別に応じて、適当な長さに変更可能である。また、本実施形態では、第1の長さに対応するシーン種別の数は2であるが、3以上としてもよい。なお、本実施形態では、第2の長さは、第1の長さと同様に、評価用データを用いて、ペナルティシーン及びイエローカードシーンについて最適な値として決定される。
【0027】
本実施形態では、動画像データ取得部31により取得される動画像データの種類の数は2であるが(第1のビデオクリップVC1及び第2のビデオクリップVC2)、推定したいシーン種別の種類や数等に応じて3以上としてもよい。
【0028】
なお、詳細には、動画像データは複数の連続画像データを含むものである。具体的には、第1のビデオクリップVC1は複数の第1の連続画像データを含み、第1のビデオクリップVC1は複数の第2の連続画像データを含む(不図示)。第2の連続画像データの数は第1の連続画像データの数より多い。また、複数の第1の連続画像データは、複数の第2の連続画像データに含まれている。ちなみに、本実施形態では、後述する機械学習部32は、動画像データに含まれる各連続画像データから特徴量を抽出し、これを用いて推定データを生成する。
【0029】
以下では、
図4を用いて、本実施形態の機械学習部32について説明する。機械学習部32は、動画像データ取得部31により取得された動画像データに基づいて、シーン種別の推定に関わるデータを生成する。機械学習部32は、第1の機械学習部32aと、第2の機械学習部32bと、を含む。
【0030】
本実施形態の機械学習部32のそれぞれの機械学習モデルは、当該機械学習モデルに適しないシーン種別についても推定データを生成した上で、当該推定データとの相対値として、当該機械学習モデルに適するシーン種別についての推定データを生成する。そのため、各機械学習モデルにおける、当該機械学習モデルに対応するシーン種別についての推定がより高精度なものとなる。
【0031】
また、以下に説明するように、本実施形態の機械学習部32では、二つのシーン種別間で当該各シーン種別に対応する期間が同じであれば、一つの機械学習モデルを当該二つのシーン種別に対応させることができる。これにより、使用する機械学習モデルの数が少なく済むので、メモリ消費量を削減することができる。
【0032】
第1の機械学習部32a(第1の機械学習モデル)は、第1のビデオクリップVC1の期間と同じ長さの期間の訓練用ビデオクリップ(第1の長さの期間を示す訓練用動画像データ)を用いて予め学習された機械学習モデルである。学習自体は、公知の手法が利用可能であり、例えば、AdamやRMSProp等が利用されてもよい。
【0033】
第1の機械学習部32aは、推定対象期間TPについて、第1のビデオクリップVC1に基づいて推定データED-1を生成する。推定データED-1は、キックオフシーンであるか否かに関する第1の推定データED1-1と、ペナルティシーンであるか否かに関する第2の推定データED2-1と、ゴールシーンであるか否かに関する第3の推定データED3-1と、イエローカードシーンであるか否かに関する第4の推定データED4-1と、を含む。
【0034】
具体的には、第1の推定データED1-1は、推定対象期間TPについて、キックオフシーンである確率を示す値である。同様に、第2の推定データED2-1は、推定対象期間TPについて、ペナルティシーンである確率を示す値であり、第3の推定データED3-1は、推定対象期間TPについて、ゴールシーンである確率を示す値であり、第4の推定データED4-1は、推定対象期間TPについて、イエローカードシーンである確率を示す値である。
【0035】
第2の機械学習部32b(第2の機械学習モデル)は、第2のビデオクリップVC2の期間と同じ長さの期間の訓練用ビデオクリップ(第2の長さの期間を示す訓練用動画像データ)を用いて予め学習された機械学習モデルである。学習自体は、公知の手法が利用可能であり、例えば、AdamやRMSProp等が利用されてもよい。
【0036】
第2の機械学習部32bは、推定対象期間TPについて、第2のビデオクリップVC2に基づいて推定データED-2を生成する。推定データED-2は、キックオフシーンであるか否かに関する第1の推定データED1-2と、ペナルティシーンであるか否かに関する第2の推定データED2-2と、ゴールシーンであるか否かに関する第3の推定データED3-2と、イエローカードシーンであるか否かに関する第4の推定データED4-2と、を含む。
【0037】
具体的には、第1の推定データED1-2は、推定対象期間TPについて、キックオフシーンである確率を示す値である。同様に、第2の推定データED2-2は、推定対象期間TPについて、ペナルティシーンである確率を示す値であり、第3の推定データED3-2は、推定対象期間TPについて、ゴールシーンである確率を示す値であり、第4の推定データED4-2は、推定対象期間TPについて、イエローカードシーンである確率を示す値である。
【0038】
なお、本実施形態では、機械学習部32の機械学習モデルの数が2の場合を説明するが(第1の機械学習部32a及び第2の機械学習部32b)、前述の動画像データの種類の数に応じて3以上としてもよい。
【0039】
また、本実施形態では、第1の機械学習部32aから出力される推定データED-1及び第2の機械学習モデルから出力される推定データED-2は、後述する判断データ生成部33での処理に供する前に、正規化処理がなされる(不図示)。
【0040】
以下では、
図4を用いて、判断データ生成部33について説明する。前述したように、本実施形態の各機械学習モデルは、当該機械学習モデルに対応するシーン種別に好適に学習されている。本実施形態の判断データ生成部33によれば、各機械学習モデルから出力される前記シーン種別についての推定データが、最終的な判断データに反映される。そのため、各シーン種別について、高い精度での推定が可能となる。
【0041】
判断データ生成部33は、第1の機械学習モデルから出力される推定データED-1と、第2の機械学習モデルから出力される推定データED-2と、に基づいて、推定対象期間TPについて、キックオフシーン、ペナルティシーン、ゴールシーン、及びイエローカードシーンのいずれであるかに関する判断データDDを生成する。詳細には、判断データ生成部33は、第1の機械学習モデルから出力される第1の推定データED1-1、第2の推定データED2-1、第3の推定データED3-1及び第4の推定データED4-1と、第2の機械学習モデルから出力される第1の推定データED1-2、第2の推定データED2-2、第3の推定データED3-2及び第4の推定データED4-2と、に基づいて、推定対象期間TPについて、キックオフシーン、ペナルティシーン、ゴールシーン、及びイエローカードシーンのいずれであるかに関する判断データDDを生成する。
【0042】
判断データDDは、キックオフシーンであるか否かに関する第1の判断データDD1と、ペナルティシーンであるか否かに関する第2の判断データDD2と、ゴールシーンであるか否かに関する第3の判断データDD3と、イエローカードシーンであるか否かに関する第4の判断データDD4と、を含む。具体的には、第1の判断データDD1は、推定対象期間TPについて、キックオフシーンである確率を示す値である。同様に、第2の判断データDD2は、推定対象期間TPについて、ペナルティシーンである確率を示す値であり、第3の判断データDD3は、推定対象期間TPについて、ゴールシーンである確率を示す値であり、第4の判断データDD4は、推定対象期間TPについて、イエローカードシーンである確率を示す値である。
【0043】
より具体的には、判断データ生成部33は、第1の機械学習部32a及び第2の機械学習部32bのうち一方が第1の判断データDD1及び第3の判断データDD3に対して与える影響が、第1の機械学習部32a及び第2の機械学習部32bのうち他方が第1の判断データDD1及び第3の判断データDD3に対して与える影響より大きくなるようにして、第1の判断データDD1及び第3の判断データDD3を算出する。同様に、判断データ生成部33は、第1の機械学習部32a及び第2の機械学習部32bのうち前記他方が第2の判断データDD2及び第4の判断データDD4に対して与える影響が、第1の機械学習部32a及び第2の機械学習部32bのうち前記一方が第2の判断データDD2及び第4の判断データDD4に対して与える影響より大きくなるようにして、第2の判断データDD2及び第4の判断データDD4を算出する。
【0044】
本実施形態では、判断データ生成部33は、テーブルTを参照して、第1の機械学習部32aが第1の判断データDD1及び第3の判断データDD3に対して与える影響が、第2の機械学習部32bが第1の判断データDD1及び第3の判断データDD3に対して与える影響より大きくなるように決定する。ここで、テーブルTは、各シーン種別と
図5に示すように、キックオフシーンを第1の長さ(15秒)に関連づけ、ペナルティシーンを第2の長さ(20秒)に関連づけ、ゴールシーンを第1の長さ(15秒)に関連づけ、イエローカードシーンを第2の長さ(20秒)に関連づけるテーブルである。
【0045】
同様に、判断データ生成部33は、テーブルTを参照して、第2の機械学習部32bが第2の判断データDD2及び第4の判断データDD4に対して与える影響が、第1の機械学習部32aが第2の判断データDD2及び第4の判断データDD4に対して与える影響より大きくなるように決定する。
【0046】
判断データ生成部33は、より詳細には、テーブルTを参照して、第1の機械学習部32aから出力される第1の推定データED1-1を第1の判断データDD1として選択する。同様に、判断データ生成部33は、テーブルTを参照して、第2の機械学習部32bから出力される第2の推定データED2-2を第2の判断データDD2として選択し、第1の機械学習部32aから出力される第3の推定データED3-1を第3の判断データDD3として選択し、第2の機械学習部32bから出力される第4の推定データED4-2を第4の判断データDD4として選択する。
【0047】
なお、本実施形態では、判断データ生成部33がテーブルTを参照して判断データDDを生成する場合を説明したが、必ずしもテーブルTを用いる必要はない。例えば、第1の機械学習部32a及び第2の機械学習部32bのそれぞれから出力される推定データの最大値、あるいは加重平均を用いて、判断データDDを生成してもよい。
【0048】
[処理実行部]
以下では、
図3及び
図4を用いて、処理実行部40について説明する。本実施形態の処理実行部40によれば、本実施形態の機械学習部32を用いて、試合映像Vから特定のシーンを抽出することができる。当該構成により、例えば、サッカーの試合映像からゴールシーンや交代シーン、カードシーン等を抽出することができるため、ハイライト映像の作成等、試合映像の編集作業が容易となる。
【0049】
処理実行部40は、推定部30から出力される各推定対象期間TPについての判断データDDから、試合映像Vの全期間における判断データDDである解析用データADを生成する。各推定対象期間TPに係る解析用データADの各シーン種別についての値は、当該推定対象期間TPについて当該シーン種別である確率を示す値である。
【0050】
なお、
図4では、解析用データADはテーブル形式で表されているが、最終的な判断データDDはスペクトル形式で表すことも可能である(不図示)。スペクトル形式で表すことにより、各シーン種別が試合映像Vのいずれの期間に局在しているかを視覚的に容易に把握することが可能となる。この際、所定の閾値以下のピークをNon-Maximum Suppression(NMS)法により除去してもよい。
【0051】
[推定部において実行される処理の詳細]
最後に、
図6を用いて、推定部30及び処理実行部40において実行される処理の詳細を説明する。
図6は、推定部30及び処理実行部40において実行される処理の詳細の一例を示すフロー図である。
図6に示す各ステップの処理は、プログラムを
図1に示すハードウェアで実行することにより実現される。
【0052】
推定部30は、試合映像V全体にわたって推定対象期間TPを掃引し、試合映像Vの各推定対象期間TPについての判断データDDを取得する。そして、処理実行部40は、推定部30から出力される判断データDDから解析用データADを生成し、表示部15に表示する。以下、推定部30及び処理実行部40での各処理ステップについて説明する。
【0053】
まず、推定部30は推定対象期間TPを決定する(S10)。具体的には、推定部30は、試合映像Vの開始時刻から終了時刻までの期間から推定対象期間TPを決定する。なお、前述の通り、開始時刻は、試合映像の実際の始点(すなわち、0秒)と必ずしも一致しない。終了時刻も同様に、試合映像の実際の終点と必ずしも一致しない。
【0054】
次いで、動画像データ取得部31は、推定対象期間TPを含む第1のビデオクリップVC1及び第2のビデオクリップVC2を試合映像Vから取得する(S11)。第1のビデオクリップVC1は第1の機械学習部32aに入力される(S12;第1のビデオクリップ、S13)。第1の機械学習部32aは、入力された第1のビデオクリップVC1に基づいて、推定データED-1を生成する(S14)。同様に、第2のビデオクリップVC2は第2の機械学習部32bに入力され(S12;第2のビデオクリップ、S15)、第2の機械学習部32bは、入力された第2のビデオクリップVC2に基づいて、推定データED-2を生成する(S16)。その後、判断データ生成部33は、第1の機械学習部32aから出力される推定データED-1と、第2の機械学習部32bから出力される推定データED-2と、に基づいて、推定対象期間TPについて判断データDDを生成する(S17)。生成された判断データDDは、処理実行部40に入力され、一時的に記憶される。
【0055】
推定部30は、S10からS17までの処理を、試合映像Vの開始時刻から終了時刻までの期間の全期間について実行する(S18;NO)。推定部30が、S10からS17までの処理を、試合映像Vの開始時刻から終了時刻までの全期間について実行し終えると(S18;YES)、処理実行部40は、試合映像Vの全期間における判断データDDに基づいて解析用データADを生成し、解析用データADを表示部15に表示して処理を終了する(S19)。
【0056】
なお、本実施形態では、試合映像Vの全期間について処理を行う場合を説明したが、試合映像Vの一部の期間について上記処理を行う構成としてもよいのは勿論である。
【0057】
また、本実施形態では、推定対象期間TPごとに生成される判断データDDに基づいて、試合映像Vの全期間についての判断データDDである解析用データADを生成する場合を説明したが(
図4参照)、各機械学習部が試合映像Vの全期間についての推定データを生成したのちに、これらの推定データに基づいて解析用データADを生成する構成としてもよい。
【0058】
以上に説明した本実施形態に係るコンピュータビジョンシステムによれば、各シーン種別の期間の長さを考慮して、スポーツの試合映像の一部分に係るシーン種別を推定することが可能である。