特許7572654 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7572654学習装置、推定装置、学習モデルデータ生成方法、推定方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-16

(45)【発行日】2024-10-24

(54)【発明の名称】学習装置、推定装置、学習モデルデータ生成方法、推定方法及びプログラム

(51)【国際特許分類】

H04N 7/18 20060101AFI20241017BHJP

G06T 7/20 20170101ALI20241017BHJP

G06T 7/00 20170101ALI20241017BHJP

G06V 10/774 20220101ALI20241017BHJP

【ＦＩ】

H04N7/18 K

G06T7/20 300Z

G06T7/00 350B

G06V10/774

【請求項の数】 8

(21)【出願番号】P 2023522073

(86)(22)【出願日】2021-05-19

(86)【国際出願番号】 JP2021018964

(87)【国際公開番号】W WO2022244135

(87)【国際公開日】2022-11-24

【審査請求日】2023-08-28

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110001634

【氏名又は名称】弁理士法人志賀国際特許事務所

(72)【発明者】

【氏名】永井隆昌

(72)【発明者】

【氏名】武田翔一郎

(72)【発明者】

【氏名】松村誠明

(72)【発明者】

【氏名】志水信哉

(72)【発明者】

【氏名】山本奏

【審査官】秦野孝一郎

(56)【参考文献】

【文献】特開２０２１－７１９５３（ＪＰ，Ａ）

【文献】国際公開第２０２１／０６４９６３（ＷＯ，Ａ１）

【文献】国際公開第２０２１／０６４９６０（ＷＯ，Ａ１）

【文献】国際公開第２０２１／０６４８３０（ＷＯ，Ａ１）

【文献】特開２０２１－４７１６４（ＪＰ，Ａ）

【文献】国際公開第２０２１／００２０２５（ＷＯ，Ａ１）

【文献】国際公開第２０２０／０８４６６７（ＷＯ，Ａ１）

【文献】国際公開第２０２０／０５０１１１（ＷＯ，Ａ１）

【文献】国際公開第２０１９／２２５６９２（ＷＯ，Ａ１）

【文献】岩田あきほ、川島寛乃、大越匡、中澤仁，深層学習モデルを用いたフィギュアスケートにおけるステップシークエンスのエレメント認識，情報処理学会研究報告モバイルコンピューティングとパーベイシブシステム（ＭＢＬ）２０２０－ＭＢＬ－０９６［ｏｎｌｉｎｅ］，日本，情報処理学会，2020年09月22日，p.1-8

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ７／１８

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

(57)【特許請求の範囲】

【請求項1】

背景と競技者の動作とが記録された原映像データと、前記原映像データに含まれる複数の画像フレームの各々において前記競技者を囲む領域をマスクした競技者マスク映像データと、前記原映像データに含まれる複数の画像フレームの各々において前記競技者を囲む領域以外の領域をマスクした背景マスク映像データとを入力とし、前記原映像データを入力とした場合に、競技者の競技に対する評価値である真値競技スコアを出力とし、前記競技者マスク映像データを入力とした場合に、任意に定められる真値背景スコアを出力とし、前記背景マスク映像データを入力とした場合に、任意に定められる真値競技者スコアを出力とする学習モデルにおける学習モデルデータを生成する学習部
を備える学習装置。

【請求項2】

前記学習部は、
関数近似器を有しており、前記原映像データを前記関数近似器に与えた際に前記関数近似器の出力値として得られる推定競技スコアが、前記真値競技スコアに近づくように学習処理を行い、前記競技者マスク映像データを前記関数近似器に与えた際に前記関数近似器の出力値として得られる推定背景スコアが、前記真値背景スコアに近づくように学習処理を行い、前記背景マスク映像データを前記関数近似器に与えた際に前記関数近似器の出力値として得られる推定競技者スコアが、前記真値競技者スコアに近づくように学習処理を行うことにより前記関数近似器に適用する係数を更新して前記学習モデルデータを生成する、
請求項１に記載の学習装置。

【請求項3】

前記学習部は、
前記学習処理の途中の任意のタイミングにおいて、前記競技者マスク映像データを前記関数近似器に与えた際に前記関数近似器の出力値として得られる推定背景スコアを、新たな前記真値背景スコアとし、前記背景マスク映像データを前記関数近似器に与えた際に前記関数近似器の出力値として得られる推定競技者スコアを、新たな前記真値競技者スコアとする、
請求項２に記載の学習装置。

【請求項4】

前記真値競技スコアを、前記原映像データに記録される競技に対する採点結果の点数とし、前記真値背景スコアを、前記競技を評価しない場合の点数とし、前記真値競技者スコアを、前記真値競技スコアとする、
請求項１から請求項３のいずれか一項に記載の学習装置。

【請求項5】

競技者の動作が記録された評価対象の映像データを取り込む入力部と、
背景と競技者の動作とが記録された原映像データと、前記原映像データに含まれる複数の画像フレームの各々において前記競技者を囲む領域をマスクした競技者マスク映像データと、前記原映像データに含まれる複数の画像フレームの各々において前記競技者を囲む領域以外の領域をマスクした背景マスク映像データとを入力とし、前記原映像データを入力とした場合に、競技者の競技に対する評価値である真値競技スコアを出力とし、前記競技者マスク映像データを入力とした場合に、任意に定められる真値背景スコアを出力とし、前記背景マスク映像データを入力とした場合に、任意に定められる真値競技者スコアを出力とする学習済みの学習モデルと、前記入力部が取り込む前記評価対象の映像データとに基づいて、前記評価対象の映像データに対する推定競技スコアを推定する推定部と、
を備える推定装置。

【請求項6】

【請求項7】

競技者の動作が記録された評価対象の映像データを取り込み、
背景と競技者の動作とが記録された原映像データと、前記原映像データに含まれる複数の画像フレームの各々において前記競技者を囲む領域をマスクした競技者マスク映像データと、前記原映像データに含まれる複数の画像フレームの各々において前記競技者を囲む領域以外の領域をマスクした背景マスク映像データとを入力とし、前記原映像データを入力とした場合に、競技者の競技に対する評価値である真値競技スコアを出力とし、前記競技者マスク映像データを入力とした場合に、任意に定められる真値背景スコアを出力とし、前記背景マスク映像データを入力とした場合に、任意に定められる真値競技者スコアを出力とする学習済みの学習モデルと、取り込んだ前記評価対象の映像データとに基づいて、前記評価対象の映像データに対する推定競技スコアを推定する、
推定方法。

【請求項8】

請求項１から請求項３のいずれか一項に記載の学習装置又は請求項４に記載の推定装置としてコンピュータを実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、例えば、競技者の競技の採点の手法に関するノウハウを学習する学習装置、学習モデルデータ生成方法及び学習装置に対応するプログラム、並びに、学習結果に基づいて競技のスコアを推定する推定装置、推定方法及び推定装置に対応するプログラムに関する。

【背景技術】

【0002】

スポーツ競技において、高飛び込み、フィギュアスケート及び体操等の選手が行った競技に対して、オフィシャルな審判員がスコアを採点し、採点したスコアに基づいて個々の競技の順位を決める競技がある。このような競技には、採点における定量的な採点基準が存在している。

【0003】

近年、このような競技におけるスコアを自動的に推定するといったコンピュータビジョン分野での活動品質評価で使われる技術の検討が進められており、このような技術としてＡＱＡ（Action Quality Assessment）という技術が知られている。

【0004】

例えば、非特許文献１に記載の技術では、競技者が競技した一連の動作を記録した映像データを入力データとし、深層学習により映像データから特徴を抽出してスコアを推定する手法が提案されている。

【0005】

図８は、非特許文献１に記載の技術における学習装置１００と、推定装置２００の概略構成を示すブロック図である。学習装置１００の学習部１０１には、学習用データとして、競技者が競技した一連の動作を記録した映像データと、当該競技者の競技に対して審判員が採点した真値スコアｔ_{ｓｃｏｒｅ}とが与えられる。学習部１０１は、ＤＮＮ（Deep Neural Network）を備えており、ＤＮＮに学習モデルデータ記憶部１０２が記憶する重みやバイアス等の係数、すなわち学習モデルデータを適用する。

【0006】

学習部１０１は、ＤＮＮに映像データを与えることにより出力値として得られる推定スコアｙ_{ｓｃｏｒｅ}と、当該映像データに対応する真値スコアｔ_{ｓｃｏｒｅ}とを用いて損失Ｌ_ＳＲを算出する。学習部１０１は、算出した損失Ｌ_ＳＲを小さくするように誤差逆伝搬法によりＤＮＮに適用する新たな係数を算出する。学習部１０１は、算出した新たな係数を学習モデルデータ記憶部１０２に書き込むことにより係数を更新する。

【0007】

これらの係数を更新する処理を繰り返すことにより、係数が次第に収束し、最終的に収束した係数が、学習済みの学習モデルデータとして学習モデルデータ記憶部１０２に記憶されることになる。なお、非特許文献１では、損失Ｌ_ＳＲの算出に、Ｌ_ＳＲ＝Ｌ１距離（ｙ_{ｓｃｏｒｅ}，ｔ_{ｓｃｏｒｅ}）＋Ｌ２距離（ｙ_{ｓｃｏｒｅ}，ｔ_{ｓｃｏｒｅ}）という損失関数を用いている。

【0008】

推定装置２００は、学習部１０１と同一構成のＤＮＮを備える推定部２０１と、学習装置１００の学習モデルデータ記憶部１０２が記憶する学習済みの学習モデルデータを予め記憶する学習モデルデータ記憶部２０２とを備える。推定部２０１のＤＮＮには、学習モデルデータ記憶部２０２が記憶する学習済みの学習モデルデータが適用される。推定部２０１は、任意の競技者が競技した一連の動作を記録した映像データを入力データとしてＤＮＮに与えることにより、ＤＮＮの出力値として当該競技に対する推定スコアｙ_{ｓｃｏｒｅ}が得られる。

【先行技術文献】

【非特許文献】

【0009】

【文献】Paritosh Parmar and Brendan Tran Morris, “Learning To Score Olympic Events”, In CVPR Workshop. 2017

【発明の概要】

【発明が解決しようとする課題】

【0010】

非特許文献１に記載の技術に対して、以下のような実験を試みた。図９（ａ）に示す競技者が競技した一連の動作を記録した映像データ（以下「原映像データ」という。）と、図９（ｂ）に示す原映像データに含まれる複数の画像フレームの各々において競技者が表示されている領域を矩形形状の領域３０１，３０２，３０３で囲み、矩形形状の領域を画像フレームの平均色で塗りつぶした映像データ（以下「競技者マスク映像データ」という。）とを準備する。なお、領域３０１，３０２，３０３の範囲を点線の枠で示しているが、この点線の枠は、矩形形状の範囲を明確にするために示したものであり、実際の競技者マスク映像データには存在しない。

【0011】

図９（ａ）に示すように、推定部２０１に対して原映像データを与えた場合に得られる推定スコアｙ_{ｓｃｏｒｅ}の正確度合いは「０．８８９０」であった。これに対して、図９（ｂ）に示すように、推定部２０１に対して競技者マスク映像データを与えた場合に得られる推定スコアｙ_{ｓｃｏｒｅ}の正確度合いは「０．８５６３」であった。この実験結果より、競技者マスク映像データを推定部２０１に与えた場合、競技者の動作が見えないにも関わらず、高精度でスコアを推定しており、競技者の動作が見える原映像データの場合と比較して、スコアの推定精度がほとんど下がっていないことが分かる。

【0012】

非特許文献１に記載の技術では、競技者の動作に関する特徴、例えば、関節座標などを明示的に与えずに、映像データのみを学習用のデータとして与えている。そのため、上記の実験結果より、非特許文献１に記載の技術は、競技者の動作に関係ない映像中の特徴、例えば、会場などの背景の特徴を抽出しており、学習モデルは、競技者の動作に汎化していないのではないかと推測される。会場などの背景の特徴を抽出していることから、非特許文献１に記載の技術は、未知の背景を含む映像データに対して精度が悪化するのではないかとも推測される。

【0013】

人間の関節座標などの関節情報を明示的に与える手法も存在するが、関節は複雑な動作をするため推定が困難であり、不正確な関節情報は、逆に精度に悪影響を及ぼしてしまう。そのため、関節情報を明示的に与える手法は、回避したいという事情もある。

【0014】

上記事情に鑑み、本発明は、関節情報を明示的に与えることなく、競技者の動作を記録した映像データから、競技者の動作に汎化した学習モデルデータを生成して、競技における採点の精度を高めることを可能とする技術の提供を目的としている。

【課題を解決するための手段】

【0015】

本発明の一態様は、背景と競技者の動作とが記録された原映像データと、前記原映像データに含まれる複数の画像フレームの各々において前記競技者を囲む領域をマスクした競技者マスク映像データと、前記原映像データに含まれる複数の画像フレームの各々において前記競技者を囲む領域以外の領域をマスクした背景マスク映像データとを入力とし、前記原映像データを入力とした場合に、競技者の競技に対する評価値である真値競技スコアを出力とし、前記競技者マスク映像データを入力とした場合に、任意に定められる真値背景スコアを出力とし、前記背景マスク映像データを入力とした場合に、任意に定められる真値競技者スコアを出力とする学習モデルにおける学習モデルデータを生成する学習部を備える学習装置である。

【0016】

本発明の一態様は、競技者の動作が記録された評価対象の映像データを取り込む入力部と、背景と競技者の動作とが記録された原映像データと、前記原映像データに含まれる複数の画像フレームの各々において前記競技者を囲む領域をマスクした競技者マスク映像データと、前記原映像データに含まれる複数の画像フレームの各々において前記競技者を囲む領域以外の領域をマスクした背景マスク映像データとを入力とし、前記原映像データを入力とした場合に、競技者の競技に対する評価値である真値競技スコアを出力とし、前記競技者マスク映像データを入力とした場合に、任意に定められる真値背景スコアを出力とし、前記背景マスク映像データを入力とした場合に、任意に定められる真値競技者スコアを出力とする学習済みの学習モデルと、前記入力部が取り込む前記評価対象の映像データとに基づいて、前記評価対象の映像データに対する推定競技スコアを推定する推定部と、を備える推定装置である。

【0017】

【0018】

本発明の一態様は、競技者の動作が記録された評価対象の映像データを取り込み、背景と競技者の動作とが記録された原映像データと、前記原映像データに含まれる複数の画像フレームの各々において前記競技者を囲む領域をマスクした競技者マスク映像データと、前記原映像データに含まれる複数の画像フレームの各々において前記競技者を囲む領域以外の領域をマスクした背景マスク映像データとを入力とし、前記原映像データを入力とした場合に、競技者の競技に対する評価値である真値競技スコアを出力とし、前記競技者マスク映像データを入力とした場合に、任意に定められる真値背景スコアを出力とし、前記背景マスク映像データを入力とした場合に、任意に定められる真値競技者スコアを出力とする学習済みの学習モデルと、取り込んだ前記評価対象の映像データとに基づいて、前記評価対象の映像データに対する推定競技スコアを推定する、推定方法である。

【0019】

本発明の一態様は、上記の学習装置又は推定装置としてコンピュータを実行させるためのプログラムである。

【発明の効果】

【0020】

本発明により、関節情報を明示的に与えることなく、競技者の動作を記録した映像データから、競技者の動作に汎化した学習モデルデータを生成して、競技における採点の精度を高めることが可能になる。

【図面の簡単な説明】

【0021】

【図1】本発明の一実施形態による学習装置の構成を示すブロック図である。

【図2】本実施形態において用いられる原映像データに含まれる画像フレームの一例を示す図である。

【図3】本実施形態において用いられる競技者マスク映像データに含まれる画像フレームの一例を示す図である。

【図4】本実施形態において用いられる背景マスク映像データに含まれる画像フレームの一例を示す図である。

【図5】本実施形態の学習装置による処理の流れを示す図である。

【図6】本実施形態による推定装置の構成を示すブロック図である。

【図7】本実施形態の推定装置による処理の流れを示す図である。

【図8】非特許文献１に記載の技術における学習装置と推定装置の構成を示すブロック図である。

【図9】非特許文献１に記載の技術に対して行った実験の概要とその結果を示す図である。

【発明を実施するための形態】

【0022】

（学習装置の構成）
以下、本発明の実施形態について図面を参照して説明する。図１は、本発明の一実施形態による学習装置１の構成を示すブロック図である。学習装置１は、入力部１１、学習部１２及び学習モデルデータ記憶部１５を備える。

【0023】

入力部１１は、競技者が行う動作の中で採点の評価の対象となる一連の動作が背景と共に記録された原映像データを取り込む。例えば、競技者が、水泳の高飛び込みの選手である場合、原映像データには、競技者が、飛び込み台に立ち、ジャンプして、ひねりや回転などの動作をして、プールへの入水が完了するまでの動作が背景と共に記録されることになる。図２（ａ），（ｂ），（ｃ）に示す画像フレームは、ある原映像データに含まれる複数の画像フレームの中から時系列順に任意に選択した画像フレームの一例である。

【0024】

入力部１１は、原映像データに記録される競技者の動作に対する評価値である真値競技スコアを取り込む。真値競技スコアは、例えば、原映像データが記録された際に、原映像データに記録される競技者の動作に対して、実際に審判員が当該競技で採用されている定量的な採点基準に基づいて採点した採点結果の点数である。入力部１１は、取り込んだ原映像データと、当該原映像データに対応する真値競技スコアとを関連付けて原映像データの訓練データセットとする。

【0025】

入力部１１は、原映像データに対応する競技者マスク映像データを取り込む。ここで、競技者マスク映像データとは、原映像データに含まれている複数の画像フレームの各々において競技者の領域を囲った矩形領域をマスクした映像データである。図３（ａ），（ｂ），（ｃ）に示す画像フレームは、それぞれ図２（ａ），（ｂ），（ｃ）に示す原映像データの画像フレームの各々に対応する競技者マスク映像データの画像フレームである。なお、図３（ａ），（ｂ），（ｃ）において、矩形領域４１，４２，４３の範囲を点線の枠で示しているが、この点線の枠は、矩形領域４１，４２，４３の範囲を明確にするために示したものであり、実際の競技者マスク映像データには存在しない。図３（ａ），（ｂ），（ｃ）において、矩形領域４１，４２，４３がマスクされている状態をハッチングで示しているが、実際には、矩形領域４１，４２，４３の各々は、例えば、矩形領域４１，４２，４３の各々を含む画像フレームの平均色で塗りつぶしてマスクされる。

【0026】

入力部１１は、競技者マスク映像データに対応する真値背景スコアを取り込む。真値背景スコアは、競技者マスク映像データに対する評価値である。競技者マスク映像データは、競技者が完全に見えない映像データである。そのため、審判員は、採点することができないことを考慮して、当該競技において評価しない場合の点数、例えば、当該競技における最低点が、真値背景スコアとして定められる。例えば、当該競技において評価しない場合の点数が「０」である場合、「０」という値が、真値背景スコアとして予め定められる。入力部１１は、取り込んだ競技者マスク映像データと、当該競技者マスク映像データに対応する真値背景スコアとを関連付けて競技者マスク映像データの訓練データセットとする。

【0027】

入力部１１は、原映像データに対応する背景マスク映像データを取り込む。ここで、背景マスク映像データとは、原映像データに含まれている複数の画像フレームの各々において競技者の領域を囲った矩形領域以外の領域をマスクした映像データである。図４（ａ），（ｂ），（ｃ）に示す画像フレームは、それぞれ図２（ａ），（ｂ），（ｃ）に示す原映像データの画像フレームに対応する背景マスク映像データの画像フレームである。なお、図４（ａ），（ｂ），（ｃ）において、矩形領域４１，４２，４３の範囲を点線の枠で示しているが、この点線の枠は、矩形領域４１，４２，４３の範囲を明確にするために示したものであり、実際の背景マスク映像データには存在しない。図４（ａ），（ｂ），（ｃ）において、矩形領域４１，４２，４３以外の領域がマスクされている状態をハッチングで示しているが、実際には、矩形領域４１，４２，４３以外の領域は、例えば、矩形領域４１，４２，４３の各々を含む画像フレームの平均色で塗りつぶしてマスクされる。

【0028】

入力部１１は、背景マスク映像データに対応する真値競技者スコアを取り込む。真値競技者スコアは、背景マスク映像データに対する評価値である。背景マスク映像データは、競技者が見えている映像データである。そのため、例えば、背景マスク映像データに対応する原映像データの真値競技スコアが、当該背景マスク映像データに対応する真値競技者スコアとして予め定められる。入力部１１は、取り込んだ背景マスク映像データと、当該背景マスク映像データに対応して取り込んだ真値競技者スコアとを関連付けて背景マスク映像データの訓練データセットとする。

【0029】

入力部１１は、複数の原映像データの訓練データセットを取り込んだ場合、複数の原映像データの訓練データセットの各々に対応する競技者マスク映像データの訓練データセット及び背景マスク映像データの訓練データセットを取り込むことになる。

【0030】

図３（ａ），（ｂ），（ｃ）及び図４（ａ），（ｂ），（ｃ）に示した矩形領域４１，４２，４３の範囲は、例えば、下記の参考文献に示す技術によって映像データに含まれる画像フレームの各々から自動的に検出するようにしてもよいし、映像データに含まれる全ての画像フレームを目視で確認しながら矩形領域４１，４２，４３の範囲を手動で定めるようにしてもよい。

【0031】

［参考文献：Kaiming He, Georgia Gkioxari, Piotr Dollar and Ross Girshick, “Mask R-CNN”, In ICCV, 2017］

【0032】

上記の参考文献に示す技術を採用する場合、例えば、入力部１１が、原映像データを取り込み、取り込んだ原映像データから矩形領域の範囲を検出し、検出した矩形領域の範囲に基づいて、原映像データから競技者マスク映像データと、背景マスク映像データとを生成するようにしてもよい。この場合、真値背景スコアとして、例えば、上記した「０」を適用することが定められており、真値競技者スコアとして、真値競技スコアを適用することが定められているとする。この場合、入力部１１は、原映像データ及び真値競技スコアのみを取り込むことにより、原映像データの訓練データセットと、競技者マスク映像データの訓練データセットと、背景マスク映像データの訓練データセットとを生成することができる。

【0033】

なお、真値競技スコア、真値背景スコア、真値競技者スコアの各々は、上記したような評価値に限られるものではなく、任意に定めてもよい。例えば、原映像データに記録される競技者の競技を、当該競技で採用されている定量的な採点基準以外の基準によって採点した採点結果の点数を真値競技スコアとしてもよい。真値競技者スコアとして、真値競技スコア以外の値を採用するようにしてもよい。真値背景スコア及び真値競技者スコアについては、処理の途中で変更するようにしてもよい。

【0034】

学習部１２は、学習処理部１３と、関数近似器１４を備える。関数近似器１４として、例えば、ＤＮＮが適用される。なお、ＤＮＮは、どのようなネットワーク構造を有していてもよい。関数近似器１４は、学習処理部１３によって学習モデルデータ記憶部１５が記憶する係数が与えられる。ここで、係数とは、関数近似器１４がＤＮＮである場合、ＤＮＮに含まれる複数のニューロンの各々に適用される重みやバイアスである。

【0035】

学習処理部１３は、原映像データの訓練データセットに含まれる原映像データを関数近似器１４に与えることにより、関数近似器１４の出力値として得られる推定競技スコアが、関数近似器１４に与えた原映像データに対応する真値競技スコアに近づくように係数を更新する学習処理を行う。学習処理部１３は、競技者マスク映像データの訓練データセットに含まれる競技者マスク映像データを関数近似器１４に与えることにより、関数近似器１４の出力値として得られる推定背景スコアが、関数近似器１４に与えた競技者マスク映像データに対応する真値背景スコアに近づくように係数を更新する学習処理を行う。学習処理部１３は、背景マスク映像データの訓練データセットに含まれる背景マスク映像データを関数近似器１４に与えることにより、関数近似器１４の出力値として得られる推定競技者スコアが、関数近似器１４に与えた背景マスク映像データに対応する真値競技者スコアに近づくように係数を更新する学習処理を行う。

【0036】

学習モデルデータ記憶部１５は、関数近似器１４に適用する係数、すなわち学習モデルデータを記憶する。学習モデルデータ記憶部１５は、初期状態において、係数の初期値を予め記憶する。学習モデルデータ記憶部１５が記憶する係数は、学習処理部１３が学習処理により新たな係数を算出するごとに、学習処理部１３によって新たな係数に書き替えられる。

【0037】

すなわち、学習部１２は、学習処理部１３が行う学習処理によって、原映像データと、競技者マスク映像データと、背景マスク映像データとを入力とし、原映像データを入力とした場合に、真値競技スコアを出力とし、競技者マスク映像データを入力とした場合に、真値背景スコアを出力とし、背景マスク映像データを入力とした場合に、真値競技者スコアを出力とする学習モデルにおける学習モデルデータを生成することになる。ここで、学習モデルとは、学習モデルデータ記憶部１５が記憶する係数、すなわち学習モデルデータが適用された関数近似器１４のことである。

【0038】

（学習装置による処理）
次に、図５を参照しつつ、学習装置１による処理について説明する。図５は、学習装置１による処理の流れを示すフローチャートである。学習装置１が備える学習処理部１３において学習ルールが予め定められており、以下、予め定められる学習ルールごとの処理について説明する。

【0039】

（学習ルール（その１））
例えば、学習処理部１３において、以下のような学習ルールが予め定められているとする。すなわち、原映像データの訓練データデータセット、競技者マスク映像データの訓練データセット及び背景マスク映像データの訓練データセットの各々の数が、例えば、Ｎ個であり、ミニバッチサイズがＭであり、１エポック分の処理として、原映像データの訓練データデータセット、競技者マスク映像データの訓練データセット及び背景マスク映像データの訓練データセットの全てを用いるという学習ルールが予め定められているとする。学習ルールにおいて、原映像データの訓練データデータセット、競技者マスク映像データの訓練データセット、背景マスク映像データの訓練データセットの順に処理が行われることが予め定められているとする。ここで、ＮとＭは、１以上の整数であって、Ｍ＜Ｎであればどのような値であってもよい。以下では、一例として、Ｎが、「３００」であり、Ｍが、「１０」である場合について説明する。

【0040】

学習装置１の入力部１１は、３００個の原映像データと、３００個の原映像データの各々に対応する真値競技スコアとを取り込み、取り込んだ３００個の原映像データと、取り込んだ原映像データの各々に対応する真値競技スコアとを関連付けて３００個の原映像データの訓練データセットを生成する。

【0041】

入力部１１は、３００個の原映像データの各々に対応する３００個の競技者マスク映像データと、競技者マスク映像データの各々に対応する真値背景スコアとを取り込み、取り込んだ３００個の競技者マスク映像データと、取り込んだ競技者マスク映像データの各々に対応する真値背景スコアとを関連付けて３００個の競技者マスク映像データの訓練データセットを生成する。

【0042】

入力部１１は、３００個の原映像データの各々に対応する３００個の背景マスク映像データと、背景マスク映像データの各々に対応する真値競技者スコアとを取り込み、取り込んだ３００個の背景マスク映像データと、取り込んだ背景マスク映像データの各々に対応する真値競技者スコアとを関連付けて３００個の背景マスク映像データの訓練データセットを生成する。

【0043】

入力部１１は、それぞれ３００個ずつの原映像データの訓練データセットと、競技者マスク映像データの訓練データセットと、背景マスク映像データの訓練データセットとを学習処理部１３に出力する。学習処理部１３は、入力部１１が出力する、それぞれ３００個ずつの原映像データの訓練データセットと、競技者マスク映像データの訓練データセットと、背景マスク映像データの訓練データセットとを取り込む。学習処理部１３は、取り込んだ３００個ずつの原映像データの訓練データセットと、競技者マスク映像データの訓練データセットと、背景マスク映像データの訓練データセットとを内部の記憶領域に書き込んで記憶させる。

【0044】

学習処理部１３は、内部の記憶領域にエポック数、すなわちエポックの回数の値を記憶する領域を設けて、エポック数を「０」に初期化する。学習処理部１３は、内部の記憶領域にミニバッチ学習のパラメータ、すなわち、原映像データ、競技者マスク映像データ及び背景マスク映像データの各々を関数近似器１４に対して与えた回数を示す処理回数を記憶する領域を設けて、原映像データ、競技者マスク映像データ及び背景マスク映像データの各々の処理回数を「０」に初期化する（ステップＳａ１）。

【0045】

学習処理部１３は、内部の記憶領域が記憶する原映像データ、競技者マスク映像データ及び背景マスク映像データの各々の処理回数と、予め定められる学習ルールとにしたがって、選択する訓練データセットを選択する（ステップＳａ２）。ここでは、原映像データ、競技者マスク映像データ及び背景マスク映像データの各々の処理回数は、いずれも「０」であり、それぞれ３００個の原映像データ、競技者マスク映像データ及び背景マスク映像データの全てが処理に用いられていない状態である。上記したように、学習ルールにおいて、原映像データの訓練データデータセット、競技者マスク映像データの訓練データセット、背景マスク映像データの訓練データセットの順に処理が行われることが予め定められている。したがって、学習処理部１３は、最初に、原映像データの訓練データセットを選択する（ステップＳａ２、原映像データ）。

【0046】

学習処理部１３は、学習モデルデータ記憶部１５が記憶する係数を読み出し、読み出した係数を関数近似器１４に適用する（ステップＳａ３－１）。学習処理部１３は、ステップＳａ２の処理において選択した原映像データの訓練データセットを対象として、先頭から順に、学習ルールにおいて定められているミニバッチサイズＭの数の原映像データの訓練データセットを内部の記憶領域から読み出す。

【0047】

ここでは、ミニバッチサイズＭは、「１０」であるため、学習処理部１３は、１０個の原映像データの訓練データセットを内部の記憶領域から読み出す。学習処理部１３は、読み出した１０個の原映像データの訓練データセットから１つの原映像データを選択して関数近似器１４に与える。学習処理部１３は、原映像データを与えることにより関数近似器１４が出力する推定競技スコアを取り込む。学習処理部１３は、取り込んだ推定競技スコアと、関数近似器１４に与えた原映像データに対応する真値競技スコアとを関連付けて内部の記憶領域に書き込んで記憶させる。学習処理部１３は、関数近似器１４に原映像データを与えるごとに、内部の記憶領域が記憶する原映像データの処理回数に１を加算する（ステップＳａ４－１）。

【0048】

学習処理部１３は、１０個の原映像データの訓練データセットに含まれる１０個の原映像データの各々に対してステップＳａ４－１の処理を繰り返し行い（ループＬ１ｓ～Ｌ１ｅ）、内部の記憶領域において、１０個の推定競技スコアと真値競技スコアの組み合わせを生成する。

【0049】

学習処理部１３は、内部の記憶領域が記憶する１０個の推定競技スコアと真値競技スコアの組み合わせに基づいて、予め定められる損失関数に基づいて損失を算出する。学習処理部１３は、算出した損失に基づいて、例えば、誤差逆伝搬法により、関数近似器１４に適用する新たな係数を算出する。学習処理部１３は、学習モデルデータ記憶部１５が記憶する係数を、算出した新たな係数に書き換えて更新する（ステップＳａ５－１）。

【0050】

学習処理部１３は、内部の記憶領域が記憶する原映像データ、競技者マスク映像データ及び背景マスク映像データの各々の処理回数を参照し、１エポック分の処理を終了しているか否かを判定する（ステップＳａ６）。上記したように、学習ルールにおいて、１エポックの処理として、原映像データの訓練データデータセット、競技者マスク映像データの訓練データセット及び背景マスク映像データの訓練データセットが全て用いられるということが定められている。そのため、１エポック分の処理が終了している状態とは、原映像データ、競技者マスク映像データ及び背景マスク映像データの各々の処理回数が「３００」以上になっている状態である。ここでは、原映像データの処理回数が「１０」であり、競技者マスク映像データ及び背景マスク映像データの各々の処理回数が「０」である。そのため、学習処理部１３は、１エポック分の処理を終了してないと判定し（ステップＳａ６、Ｎｏ）、処理をステップＳａ２に進める。

【0051】

学習処理部１３は、再び行うステップＳａ２の処理において、原映像データの処理回数が「３００」以上になっていない場合、ステップＳａ２の処理において、再び原映像データの訓練データセットを選択し（ステップＳａ２、原映像データ）、ステップＳａ３－１以降の処理を行う。

【0052】

一方、学習処理部１３は、再び行うステップＳａ２の処理において、原映像データの処理回数が「３００」以上になっている場合、学習ルールにしたがって、次に、競技者マスク映像データの訓練データセットを選択する（ステップＳａ２，競技者マスク映像データ）。

【0053】

学習処理部１３は、学習モデルデータ記憶部１５が記憶する係数を読み出し、読み出した係数を関数近似器１４に適用する（ステップＳａ３－２）。

【0054】

学習処理部１３は、ステップＳａ２の処理において選択した競技者マスク映像データの訓練データセットを対象として、先頭から順に１０個の競技者マスク映像データの訓練データセットを内部の記憶領域から読み出す。学習処理部１３は、読み出した１０個の競技者マスク映像データの訓練データセットから１つの競技者マスク映像データを選択して関数近似器１４に与える。学習処理部１３は、競技者マスク映像データを与えることにより関数近似器１４が出力する推定背景スコアを取り込む。学習処理部１３は、取り込んだ推定背景スコアと、関数近似器１４に与えた競技者マスク映像データに対応する真値背景スコアとを関連付けて内部の記憶領域に書き込んで記憶させる。学習処理部１３は、関数近似器１４に競技者マスク映像データを与えるごとに、内部の記憶領域が記憶する競技者マスク映像データの処理回数に１を加算する（ステップＳａ４－２）。

【0055】

学習処理部１３は、１０個の競技者マスク映像データの訓練データセットに含まれる１０個の競技者マスク映像データの各々に対してステップＳａ４－２の処理を繰り返し行い（ループＬ２ｓ～Ｌ２ｅ）、内部の記憶領域において、１０個の推定背景スコアと真値背景スコアの組み合わせを生成する。

【0056】

学習処理部１３は、内部の記憶領域が記憶する１０個の推定背景スコアと真値背景スコアの組み合わせを用いて、予め定められる損失関数に基づいて損失を算出する。学習処理部１３は、算出した損失に基づいて、例えば、誤差逆伝搬法により、関数近似器１４に適用する新たな係数を算出する。学習処理部１３は、学習モデルデータ記憶部１５が記憶する係数を、算出した新たな係数に書き換えて更新する（ステップＳａ５－２）。

【0057】

学習処理部１３は、１エポック分の処理を終了しているか否かの判定を行う（ステップＳａ６）。学習処理部１３は、競技者マスク映像データの処理回数が「３００」以上になっていない場合、１エポック分の処理を終了していないと判定し（ステップＳａ６、Ｎｏ）、処理をステップＳａ２に進める。

【0058】

学習処理部１３は、再び行うステップＳａ２の処理において、競技者マスク映像データの処理回数が「３００」以上になっていない場合、再び競技者マスク映像データの訓練データセットを選択する（ステップＳａ２、競技者マスク映像データ）。その後、学習処理部１３は、ステップＳａ３－２以降の処理を行う。

【0059】

一方、学習処理部１３は、再び行うステップＳａ２の処理において、競技者マスク映像データの処理回数が「３００」以上になっている場合、学習ルールにしたがって、次に、背景マスク映像データの訓練データセットを選択する（ステップＳａ２，背景マスク映像データ）。

【0060】

学習処理部１３は、学習モデルデータ記憶部１５が記憶する係数を読み出す。学習処理部１３は、読み出した係数を関数近似器１４に適用する（ステップＳａ３－３）。

【0061】

学習処理部１３は、ステップＳａ２の処理において選択した背景マスク映像データの訓練データセットを対象として、先頭から順に１０個の背景マスク映像データの訓練データセットを内部の記憶領域から読み出す。学習処理部１３は、読み出した１０個の背景マスク映像データの訓練データセットから１つの背景マスク映像データを選択して関数近似器１４に与える。学習処理部１３は、背景マスク映像データを与えることにより関数近似器１４が出力する推定競技者スコアを取り込む。学習処理部１３は、取り込んだ推定競技者スコアと、関数近似器１４に与えた背景マスク映像データに対応する真値競技者スコアとを関連付けて内部の記憶領域に書き込んで記憶させる。学習処理部１３は、関数近似器１４に背景マスク映像データを与えるごとに、内部の記憶領域が記憶する背景マスク映像データの処理回数に１を加算する（ステップＳａ４－３）。

【0062】

学習処理部１３は、１０個の背景マスク映像データの訓練データセットに含まれる１０個の背景マスク映像データの各々に対してステップＳａ４－３の処理を繰り返し行い（ループＬ３ｓ～Ｌ３ｅ）、内部の記憶領域において、１０個の推定競技者スコアと真値競技者スコアの組み合わせを生成する。

【0063】

学習処理部１３は、内部の記憶領域が記憶する１０個の推定競技者スコアと真値競技者スコアの組み合わせに基づいて、予め定められる損失関数に基づいて損失を算出する。学習処理部１３は、算出した損失に基づいて、例えば、誤差逆伝搬法により、関数近似器１４に適用する新たな係数を算出する。学習処理部１３は、学習モデルデータ記憶部１５が記憶する係数を、算出した新たな係数に書き換えて更新する（ステップＳａ５－３）。

【0064】

学習処理部１３は、１エポック分の処理を終了しているか否かの判定を行う（ステップＳａ６）。学習処理部１３は、背景マスク映像データの処理回数が「３００」以上になっていない場合、１エポック分の処理を終了していないと判定する（ステップＳａ６、Ｎｏ）。この場合、学習処理部１３は、処理をステップＳａ２に進める。

【0065】

学習処理部１３は、再び行うステップＳａ２の処理において、背景マスク映像データの処理回数が「３００」以上になっていない場合、ステップＳａ２の処理において、再び背景マスク映像データの訓練データセットを選択し（ステップＳａ２、背景マスク映像データ）する。その後、学習処理部１３は、ステップＳａ３－３以降の処理を行う。

【0066】

一方、学習処理部１３は、ステップＳａ６の処理において、１エポック分の処理を終了している、すなわち、原映像データ、競技者マスク映像データ及び背景マスク映像データの各々の処理回数が「３００」以上になっている場合、１エポック分の処理が終了していると判定する（ステップＳａ６、Ｙｅｓ）。学習処理部１３は、内部の記憶領域が記憶するエポック数の数に１を加算する。学習処理部１３は、内部の記憶領域が記憶するミニバッチ学習のパラメータを「０」に初期化する（ステップＳａ７）。すなわち学習処理部１３は、原映像データ、競技者マスク映像データ及び背景マスク映像データの各々の処理回数を「０」に初期化する。

【0067】

学習処理部１３は、内部の記憶領域が記憶するエポック数が、終了条件を満たしているか否かを判定する（ステップＳａ８）。学習処理部１３は、例えば、エポック数が予め定められる上限値に達している場合、終了条件を満たしていると判定する。一方、学習処理部１３は、例えば、エポック数が予め定められる上限値に達していない場合、終了条件を満たしていないと判定する。

【0068】

学習処理部１３は、エポック数が、終了条件を満たしていると判定した場合（ステップＳａ８、Ｙｅｓ）、処理を終了する。一方、学習処理部１３は、エポック数が、終了条件を満たしていないと判定した場合（ステップＳａ８、Ｎｏ）、処理をステップＳａ２の処理に進める。ステップＳａ８の処理の後に再び行われるステップＳａ２の処理において、学習処理部１３は、再び学習ルールにしたがって、原映像データの訓練データセット、競技者マスク映像データの訓練データセット及び背景マスク映像データセットの順に選択を行う。その後、学習処理部１３は、選択したそれぞれに対して、ステップＳａ３－１以降の処理、ステップＳａ３－２以降の処理及びステップＳａ３－３以降の処理を行う。

【0069】

これにより、学習処理部１３が、処理を終了した際に、学習モデルデータ記憶部１５には、学習済みの係数、すなわち学習済みの学習モデルデータが生成されることになる。なお、学習処理部１３が行う学習処理とは、図５におけるステップＳａ２～ステップＳａ８に示す繰り返しの処理により関数近似器１４に適用する係数を更新する処理のことである。

【0070】

なお、上記した図５の処理において、学習処理部１３は、２回目以降に行うステップＳａ４－１，Ｓａ４－２，Ｓａ４－３の各々の処理において、内部の記憶領域から次の１０個の訓練データセットを読み出す際、前回の同一ステップの処理において選択した１０個の訓練データセットの後に続く１０個の訓練データセットを読み出すものとする。

【0071】

上記した図５の処理において、学習処理部１３が、ステップＳａ５－１，Ｓａ５－２，Ｓａ５－３の処理において用いる損失関数は、例えば、Ｌ１距離を算出する関数であってもよいし、Ｌ２距離を算出する関数であってもよいし、Ｌ１距離とＬ２距離の合計を算出する関数であってもよい。

【0072】

（学習ルール（その２））
学習ルールとして、例えば、エポック数の上限値が「１００」に予め定められており、エポック数が「５０」に到達するまでは、学習処理を安定させるため、すなわち、係数の収束を穏やかにするため、学習処理部１３は、ステップＳａ２の処理において、原映像データの訓練データセット、競技者マスク映像データの訓練データセットの順に選択し、背景マスク映像データについては選択しないようにする。エポック数が「５０」に到達して以降、次の５０エポックについては、学習処理部１３は、ステップＳａ２の処理において、原映像データの訓練データセット、競技者マスク映像データの訓練データセット、背景マスク映像データの訓練データセットの順に選択するという学習ルールを定めるようにしてもよい。これにより、上記の図５の処理において、エポック数が「５０」に到達するまでは、ステップＳａ３－３～ステップＳａ５－３の処理が行われなくなり、エポック数が「５０」に到達して以降、次の５０エポックについては、上記の図５の処理が行われることになる。このように、エポック数に応じて、ステップＳａ２の処理において選択する訓練データセットを変えるという学習ルールを定めるようにしてもよい。

【0073】

なお、上記のエポック数が「５０」というのは一例であり、別の値を定めるようにしてもよい。選択する訓練データセットの組み合わせを変えるエポック数を１つに限定するのではなく、選択する訓練データセットの組み合わせを変えるエポック数を複数定めておき、学習処理部１３は、複数定めたエポック数に到達するごとに、選択する訓練データセットを変えるという学習ルールを定めるようにしてもよい。この場合に、学習処理部１３がステップＳａ２の処理において選択する訓練データの組み合わせは、上記した訓練データの組み合わせの例に限られず、任意の組み合わせとしてもよい。エポック数が増加するごとに、ステップＳａ２の処理において学習処理部１３が選択する訓練データセットをランダムに変えるという学習ルールにしてもよい。

【0074】

（学習ルール（その３））
例えば、真値背景スコアを「０」としている場合に、学習処理が一定程度行われた後であっても、関数近似器１４に競技者マスク映像データを与えたときに、関数近似器１４が出力する推定背景スコアは、完全に「０」にはならず、「１」や「２」を出力することがシミュレーションの結果として分かっている。このようになるのは、審判が背景に対してもわずかに点数をつけている状態になっている可能性があると考えることができる。真値競技者スコアを、真値競技スコアとしている場合に、学習処理が一定程度行われた後であっても、関数近似器１４に背景マスク映像データを与えたときに、関数近似器１４は、真値競技スコアに完全に一致する値を出力するようにはならないことが分かっている。

【0075】

このように、審判の採点に背景が影響していることを想定し、学習ルールとして、エポック数が、予め定められる上限値未満の所定数になった際に、学習処理部１３は、競技者マスク映像データの訓練データセットに含まれる全ての真値背景スコアを、その時点で、競技者マスク映像データを与えた際に関数近似器１４が出力する推定背景スコアに置き換え、背景マスク映像データの訓練データセットに含まれる全ての真値競技者スコアを、その時点で、背景マスク映像データを与えた際に関数近似器１４が出力する推定競技者スコアに置き換えるという学習ルールを定めるようにしてもよい。

【0076】

この学習ルールが適用される場合、学習処理部１３は、エポック数が上記の所定数になるまでは、上記した図５の処理を行い、エポック数が所定数になった際に、原映像データの訓練データセットと、学習ルールにしたがって真値背景スコアの置き換えを行った競技者マスク映像データの訓練データセットと、学習ルールにしたがって真値競技者スコアの置き換えを行った背景マスク映像データの訓練データセットとに基づいて、残りのエポック数について、ステップＳａ２以降の処理を行うことになる。なお、学習処理部１３は、学習ルールにしたがった置き換えを行った後、最初から処理をやり直すようにしてもよい。すなわち、学習処理部１３は、エポック数を「０」に初期化し、ミニバッチ学習のパラメータを初期化して、ステップＳａ２以降の処理を行うようにしてもよい。なお、最初から処理をやり直す場合に、学習モデルデータ記憶部１５が記憶する係数については、そのまま継続して利用するようにしてもよいし、学習モデルデータ記憶部１５が記憶する係数を初期化するようにしてもよい。

【0077】

上記ではエポック数が所定数になった際に、真値背景スコア及び真値競技者スコアの置き換えを行うようにしているが、エポック数が所定数になったタイミング以外の予め定められる学習処理の途中の任意のタイミングで、真値背景スコア及び真値競技者スコアの置き換えを行ってもよい。例えば、関数近似器１４が出力する推定背景スコアと、直前の推定背景スコアとの差が予め定められる回数において連続して一定値以下になり、かつ関数近似器１４が出力する推定競技者スコアと、直前の推定競技者スコアとの差が予め定められる回数において連続して一定値以下になったことを学習処理部１３が検出したタイミングであってもよい。

【0078】

（その他の学習ルール）
上記した図５の処理では、ミニバッチサイズＭを、原映像データ、競技者マスク映像データ及び背景マスク映像データの各々の訓練データセットの数であるＮよりも小さい値としたミニバッチ学習による学習処理を示している。これに対して、ミニバッチサイズＭ＝Ｎとしたバッチ学習による学習処理を行うようにしてもよいし、ミニバッチサイズＭ＝１としたオンライン学習による学習処理を行うようにしてもよい。

【0079】

上記した図５の処理では、学習処理部１３が、繰り返し行うステップＳａ４－１，４ａ－２，４ａ－３の処理において、内部の記憶領域が記憶する原映像データ、競技者マスク映像データ、背景マスク映像データの各々から、ミニバッチサイズＭの数のデータを選択する際、内部の記憶領域に記憶されている順に、ミニバッチサイズＭの数ずつ選択するようにしている。これに対して、学習処理部１３は、内部の記憶領域からミニバッチサイズＭの数の訓練データをランダムに選択するようにしてもよいし、例えば、エポック数が、予め定められる上限値未満の所定数に到達するまでは、内部の記憶領域に記憶されている順に、ミニバッチサイズＭの数ずつ訓練データを選択するようにし、エポック数が、予め定められる上限値未満の所定数に到達した後は、ミニバッチサイズＭの数の訓練データをランダムに選択するようにしてもよい。

【0080】

上記した図５の処理では、ステップＳａ５－１の処理において、推定競技スコアと真値競技スコアの組み合わせに基づいて、損失を算出し、ステップＳａ５－２の処理において、推定背景スコアと真値背景スコアの組み合わせに基づいて、損失を算出し、ステップＳａ５－３の処理において、推定競技者スコアと真値競技者スコアの組み合わせに基づいて、損失を算出し、それぞれの損失に基づいて新たな係数を算出するようにしている。

【0081】

これに対して、例えば、学習処理部１３は、上記した図５の処理において、ループＬ１ｓ～Ｌ１ｅの処理が終了した後に、ステップＳａ５－１を行わずに、処理を、ステップＳａ６に進める。その後、ループＬ２ｓ～Ｌ２ｅの処理が終了した後にも、学習処理部１３は、ステップＳａ５－２の処理を行わずに、処理をステップＳａ６に進める。その後、ループＬ３ｓ～Ｌ３ｅの処理が終了した後、学習処理部１３は、ステップＳａ５－３の処理において、内部の記憶領域において生成されている全ての推定競技スコアと真値競技スコアの組み合わせと、全ての推定背景スコアと真値背景スコアの組み合わせと、全ての推定競技者スコアと真値競技者スコアの組み合わせとに基づいて損失を算出し、算出した損失に基づいて新たな係数を算出するようにしてもよい。

【0082】

例えば、学習処理部１３は、上記した図５の処理において、ループＬ１ｓ～Ｌ１ｅの処理が終了した後に、ステップＳａ５－１を行わずに、処理をステップＳａ６に進める。その後、ループＬ２ｓ～Ｌ２ｅの処理が終了した後に、学習処理部１３は、ステップＳａ５－２の処理において、内部の記憶領域において生成されている全ての推定競技スコアと真値競技スコアの組み合わせと、全ての推定背景スコアと真値背景スコアの組み合わせとに基づいて損失を算出し、算出した損失に基づいて新たな係数を算出するようにしてもよい。

【0083】

例えば、学習処理部１３は、上記した図５の処理において、ループＬ２ｓ～Ｌ２ｅの処理が終了した後に、ステップＳａ５－２を行わずに、処理をステップＳａ６に進める。その後、ループＬ３ｓ～Ｌ３ｅの処理が終了した後に、学習処理部１３は、ステップＳａ５－３の処理において、内部の記憶領域において生成されている全ての推定背景スコアと真値背景スコアの組み合わせと、全ての推定競技者スコアと真値競技者スコアの組み合わせとに基づいて損失を算出し、算出した損失に基づいて新たな係数を算出するようにしてもよい。

【0084】

上記した図５の処理では、ステップＳａ２の処理において、学習処理部１３は、原映像データの訓練データセット、競技者マスク映像データの訓練データセット、背景マスク映像データの訓練データセットの順に選択するようにしているが、この順に限られるものではなく、選択する順番を任意に変更するようにしてもよい。この場合、例えば、学習処理部１３は、原映像データの訓練データセット、競技者マスク映像データの訓練データセット、背景マスク映像データの訓練データセットの順に選択するときには、例えば、ループＬ１ｓ～Ｌ１ｅの処理が終了した後に、ステップＳａ５－１を行わずに、処理をステップＳａ６に進める。その後、ループＬ３ｓ～Ｌ３ｅの処理が終了した後、学習処理部１３は、ステップＳａ５－３の処理において、内部の記憶領域において生成されている全ての推定競技スコアと真値競技スコアの組み合わせと、全ての推定競技者スコアと真値競技者スコアの組み合わせとに基づいて損失を算出し、算出した損失に基づいて新たな係数を算出するようにしてもよい。

【0085】

このように、ステップＳａ２の処理における原映像データの訓練データセット、競技者マスク映像データの訓練データセット、背景マスク映像データの訓練データセットの選択順は、任意に定めるようにしてもよい。学習処理部１３は、推定競技スコアと真値競技スコアの組み合わせ、推定背景スコアと真値背景スコアの組み合わせ、推定競技者スコアと真値競技者スコアの組み合わせを任意に選択して、損失を算出し、算出した損失に基づいて新たな係数を算出するようにしてもよい。

【0086】

上記した図５の処理では、学習処理部１３は、例えば、原映像データの訓練データセットを選択した場合、原映像データの処理回数が、Ｎ以上となるまで、再び行われるステップＳａ２の処理において、繰り返し原映像データの訓練データセットを選択するようにしている。しかしながら、学習処理部１３は、前回のステップＳａ２において選択した訓練データセットとは異なる他の訓練データセットを選択するようにしてもよい。

【0087】

上記したその他の学習ルールの各々と、学習ルール（その１）と、学習ルール（その２）と、学習ルール（その３）とを任意に組み合わせた学習ルールを予め定めるようにしてもよい。

【0088】

（推定装置の構成）
図６は、本発明の実施形態による推定装置２の構成を示すブロック図である。推定装置２は、入力部２１、推定部２２及び学習モデルデータ記憶部２３を備える。学習モデルデータ記憶部２３は、学習装置１が図５に示す処理を終了した際に学習モデルデータ記憶部１５が記憶する学習済みの係数、すなわち学習済みの学習モデルデータを予め記憶する。入力部２１は、任意の映像データ、すなわち任意の競技者が行う一連の動作を背景と共に記録した評価対象の映像データ（以下、評価対象映像データという）を取り込む。

【0089】

推定部２２は、学習処理部１３が備える関数近似器１４と同一の構成である関数近似器を内部に備える。推定部２２は、入力部２１が取り込んだ評価対象映像データと、学習モデルデータ記憶部２３が記憶する学習済みの係数を適用した関数近似器、すなわち学習済みの学習モデルとに基づいて、映像データに対応する推定スコアを算出する。

【0090】

（推定装置による推定処理）
図７は、推定装置２による処理の流れを示すフローチャートである。入力部２１は、評価対象映像データを取り込み、取り込んだ評価対象映像データを推定部２２に出力する（ステップＳｂ１）。推定部２２は、入力部２１が出力する評価対象映像データを取り込む。推定部２２は、学習モデルデータ記憶部２３から学習済みの係数を読み出す。推定部２２は、読み出した学習済みの係数を内部に備える関数近似器に適用する（ステップＳｂ２）。

【0091】

推定部２２は、取り込んだ評価対象映像データを関数近似器に与える（ステップＳｂ３）。推定部２２は、関数近似器の出力値を、評価対象映像データに対する推定スコアとして出力する（ステップＳｂ４）。

【0092】

上記の実施形態の学習装置１は、原映像データと、競技者マスク映像データと、背景マスク映像データとを入力とし、原映像データを入力とした場合に、真値競技スコアを出力とし、競技者マスク映像データを入力とした場合に、真値背景スコアを出力とし、背景マスク映像データを入力とした場合に、真値競技者スコアを出力とする学習モデルにおける学習モデルデータを生成する。学習装置１は、原映像データと、競技者マスク映像データと、背景マスク映像データとを用いて学習処理を行うことにより、映像データの中の競技者の動作に関する特徴を抽出するように促進される。それにより、学習装置１は、関節情報を明示的に与えることなく、競技者の動作を記録した映像データから、競技者の動作に汎化した学習モデルデータを生成することが可能になる。このようにして学習装置１が生成した学習済みの学習モデルデータを関数近似器に適用して生成される学習済みの学習モデルを用いて行う推定装置２による推定処理において、競技における採点の精度を高めることが可能になる。

【0093】

なお、上記の実施形態では、原映像データに１人の競技者が含まれる例を示しているが、原映像データに記録される競技は、複数の競技者によって行われる競技であってもよく、この場合の矩形領域は、複数の競技者を囲む領域になる。

【0094】

上記の実施形態では、競技者の領域を囲む形状を矩形形状にしているが、矩形形状に限られるものではなく、矩形形状以外の形状であってもよい。

【0095】

上記の実施形態では、競技者マスク映像データ及び背景マスク映像データの映像データにおいて、マスクする際の色を、マスクを行う画像フレームにおける平均色としている。これに対して、競技者マスク映像データ及び背景マスク映像データの映像データの各々に対応する原映像データに含まれる全ての画像フレームの平均色を、マスクする際の色として選択してもよい。映像データごとに、任意に定める色をマスクする際の色としてもよい。なお、マスクする際の色は、目立たないようにした方がよいため、画像フレームごとの全体の色合いに応じて、目立たない色が選択する必要があり、その点では、背景に溶け込んで目立たない色合いになる画像フレームごとの平均色をマスクする際の色として選択するのが最も効果的であると考えられる。

【0096】

上記の実施形態の学習装置１の学習部１２が備える関数近似器１４と、推定装置２の推定部２２が内部に備える関数近似器は、例えば、ＤＮＮであるとしているが、ＤＮＮ以外のニューラルネットワークや、機械学習による手段や、関数近似器において近似する関数の係数を算出する任意の手段を適用してもよい。

【0097】

学習装置１と推定装置２とは、一体化されて構成されてもよい。このように構成される場合、学習装置１と推定装置２とが一体化された装置は、学習モードと推定モードとを有する。学習モードは、学習装置１による学習処理を行って学習モデルデータを生成するモードである。すなわち、学習モードでは、学習装置１と推定装置２とが一体化された装置は、図５に示す処理を実行する。推定モードは、学習済みの学習モデル、すなわち学習済みの学習モデルデータが適用された関数近似器を用いて推定スコアを出力するモードである。すなわち、推定モードでは、学習装置１と推定装置２とが一体化された装置は、図７に示す処理を実行する。

【0098】

上述した実施形態における学習装置１及び推定装置２をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

【0099】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【産業上の利用可能性】

【0100】

スポーツ競技における競技の採点に利用することができる。

【符号の説明】

【0101】

１…学習装置、１１…入力部、１２…学習部、１３…学習処理部、１４…関数近似器、１５…学習モデルデータ記憶部、２…推定装置、２１…入力部、２２…推定部、２３…学習モデルデータ記憶部

【図1】