IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人NHKサービスセンターの特許一覧

特開2024-155461映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム
<>
  • 特開-映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム 図1
  • 特開-映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム 図2
  • 特開-映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム 図3
  • 特開-映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム 図4
  • 特開-映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム 図5
  • 特開-映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム 図6
  • 特開-映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム 図7
  • 特開-映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム 図8
  • 特開-映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム 図9
  • 特開-映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム 図10
  • 特開-映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024155461
(43)【公開日】2024-10-31
(54)【発明の名称】映像の動作シーンを判定するためのモデルを生成する学習装置、動作シーン判定装置及びプログラム
(51)【国際特許分類】
   H04N 21/24 20110101AFI20241024BHJP
【FI】
H04N21/24
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023070197
(22)【出願日】2023-04-21
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(71)【出願人】
【識別番号】399060908
【氏名又は名称】一般財団法人NHK財団
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】▲桑▼野 裕也
(72)【発明者】
【氏名】島野 雄貴
(72)【発明者】
【氏名】高橋 正樹
(72)【発明者】
【氏名】今井 篤
(72)【発明者】
【氏名】都木 徹
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164GA06
5C164MA07S
5C164MC01S
5C164SB41P
5C164YA12
5C164YA21
(57)【要約】
【課題】解説音声サービスによりスポーツ中継等の解説音声をユーザへ提供する際に、手入力を行うオペレータの作業負荷を軽減すると共に、誤入力を防止し、画像全体の動作シーンをリアルタイムに判定する。
【解決手段】学習装置10の骨格検出手段13は、映像A1からフレーム毎の画像及び動作シーンラベルL1を抽出し、予測器を用いて、人物毎の骨格座標情報A2を生成する。アクション抽出手段14は、予測器を用いて、人物毎に、当該人物の骨格座標情報A2からアクション毎の予測スコアA3を生成する。動作シーン判定モデル学習手段15は、人物毎の骨格座標情報A2から検出人数を求め、動作シーンラベルL1を正解ラベルとし、人物毎の骨格座標情報A2、人物毎及びアクション毎の予測スコアA3、検出人数、並びに正解ラベルを用いて、モデルの学習を行い、動作シーン判定モデルを生成する。
【選択図】図2
【特許請求の範囲】
【請求項1】
映像の動作シーンを判定するためのモデルを生成する学習装置において、
前記映像、及び当該映像に付与された動作シーンを識別するための動作シーンラベルを入力し、所定の予測器を用いて、前記映像から1または複数の人物を検出し、前記1または複数の人物のそれぞれについての骨格座標を骨格座標情報として生成する骨格検出手段と、
所定の予測器を用いて、前記1または複数の人物のそれぞれについて、前記骨格検出手段により生成された当該人物の骨格座標情報に基づき、1または複数のアクションを抽出し、前記1または複数のアクションのそれぞれについての予測スコアをアクション毎の予測スコアとして生成するアクション抽出手段と、
前記映像に付与された前記動作シーンラベルを正解ラベルとして、前記骨格検出手段により生成された前記1または複数の人物のそれぞれについての骨格座標情報、前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコア、及び前記正解ラベルを用いて、前記1または複数の人物のそれぞれについての骨格座標情報、及び前記1または複数の人物のそれぞれについてのアクション毎の予測スコアと、前記動作シーンラベルとの間の関係を学習し、動作シーン判定モデルを生成する動作シーン判定モデル学習手段と、
を備えたことを特徴とする学習装置。
【請求項2】
請求項1に記載の学習装置において、
前記動作シーン判定モデル学習手段は、
前記骨格検出手段により検出された前記1または複数の人物の数を検出人数として、前記1または複数の人物のそれぞれについての骨格座標情報、前記1または複数の人物のそれぞれについてのアクション毎の予測スコア、前記検出人数及び前記正解ラベルを用いて、前記1または複数の人物のそれぞれについての骨格座標情報、前記1または複数の人物のそれぞれについてのアクション毎の予測スコア及び前記検出人数と、前記動作シーンラベルとの間の関係を学習し、前記動作シーン判定モデルを生成する、ことを特徴とする学習装置。
【請求項3】
請求項1に記載の学習装置において、
前記動作シーン判定モデル学習手段は、
前記1または複数の人物のそれぞれについての骨格座標情報、前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコアに対し、前記骨格座標情報に基づき予め設定された規則に従い、人物を単位としたソートを行い、
ソート後の前記1または複数の人物のそれぞれについての骨格座標情報、ソート後の前記1または複数の人物のそれぞれについてのアクション毎の予測スコア、及び前記正解ラベルを用いて、前記動作シーン判定モデルを生成する、ことを特徴とする学習装置。
【請求項4】
映像の動作シーンを判定する動作シーン判定装置において、
前記映像を入力し、所定の予測器を用いて、前記映像から1または複数の人物を検出し、前記1または複数の人物のそれぞれについての骨格座標を骨格座標情報として生成する骨格検出手段と、
所定の予測器を用いて、前記1または複数の人物のそれぞれについて、前記骨格検出手段により生成された当該人物の骨格座標情報に基づき、1または複数のアクションを抽出し、前記1または複数のアクションのそれぞれについての予測スコアをアクション毎の予測スコアとして生成するアクション抽出手段と、
請求項1に記載の学習装置により生成された前記動作シーン判定モデルを用いて、
前記骨格検出手段により検出された前記1または複数の人物のそれぞれについての骨格座標情報、及び前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコアから動作シーンラベルを判定し、前記動作シーンラベルに対応する動作シーンの名称を出力する動作シーン判定手段と、
を備えたことを特徴とする動作シーン判定装置。
【請求項5】
映像の動作シーンを判定する動作シーン判定装置において、
前記映像を入力し、所定の予測器を用いて、前記映像から1または複数の人物を検出し、前記1または複数の人物のそれぞれについての骨格座標を骨格座標情報として生成する骨格検出手段と、
所定の予測器を用いて、前記1または複数の人物のそれぞれについて、前記骨格検出手段により生成された当該人物の骨格座標情報に基づき、1または複数のアクションを抽出し、前記1または複数のアクションのそれぞれについての予測スコアをアクション毎の予測スコアとして生成するアクション抽出手段と、
前記骨格検出手段により検出された前記1または複数の人物の数を検出人数とし、請求項2に記載の学習装置により生成された前記動作シーン判定モデルを用いて、
前記骨格検出手段により検出された前記1または複数の人物のそれぞれについての骨格座標情報、前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコア及び前記検出人数から動作シーンラベルを判定し、前記動作シーンラベルに対応する動作シーンの名称を出力する動作シーン判定手段と、
を備えたことを特徴とする動作シーン判定装置。
【請求項6】
請求項4に記載の動作シーン判定装置において、
前記動作シーン判定手段は、
前記1または複数の人物のそれぞれについての骨格座標情報、前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコアに対し、前記骨格座標情報に基づき予め設定された規則に従い、人物を単位としたソートを行い、
前記動作シーン判定モデルを用いて、ソート後の前記1または複数の人物のそれぞれについての骨格座標情報、及びソート後の前記1または複数の人物のそれぞれについてのアクション毎の予測スコアから前記動作シーンラベルを判定し、前記動作シーンラベルに対応する動作シーンの名称を出力する、ことを特徴とする動作シーン判定装置。
【請求項7】
映像の動作シーンを判定するためのモデルを生成する学習装置を構成するコンピュータを、
前記映像、及び当該映像に付与された動作シーンを識別するための動作シーンラベルを入力し、所定の予測器を用いて、前記映像から1または複数の人物を検出し、前記1または複数の人物のそれぞれについての骨格座標を骨格座標情報として生成する骨格検出手段、
所定の予測器を用いて、前記1または複数の人物のそれぞれについて、前記骨格検出手段により生成された当該人物の骨格座標情報に基づき、1または複数のアクションを抽出し、前記1または複数のアクションのそれぞれについての予測スコアをアクション毎の予測スコアとして生成するアクション抽出手段、及び、
前記映像に付与された前記動作シーンラベルを正解ラベルとして、前記骨格検出手段により生成された前記1または複数の人物のそれぞれについての骨格座標情報、前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコア、及び前記正解ラベルを用いて、前記1または複数の人物のそれぞれについての骨格座標情報、及び前記1または複数の人物のそれぞれについてのアクション毎の予測スコアと、前記動作シーンラベルとの間の関係を学習し、動作シーン判定モデルを生成する動作シーン判定モデル学習手段として機能させるためのプログラム。
【請求項8】
映像の動作シーンを判定する動作シーン判定装置を構成するコンピュータを、
前記映像を入力し、所定の予測器を用いて、前記映像から1または複数の人物を検出し、前記1または複数の人物のそれぞれについての骨格座標を骨格座標情報として生成する骨格検出手段、
所定の予測器を用いて、前記1または複数の人物のそれぞれについて、前記骨格検出手段により生成された当該人物の骨格座標情報に基づき、1または複数のアクションを抽出し、前記1または複数のアクションのそれぞれについての予測スコアをアクション毎の予測スコアとして生成するアクション抽出手段、及び、
請求項1に記載の学習装置により生成された前記動作シーン判定モデルを用いて、
前記骨格検出手段により検出された前記1または複数の人物のそれぞれについての骨格座標情報、及び前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコアから動作シーンラベルを判定し、前記動作シーンラベルに対応する動作シーンの名称を出力する動作シーン判定手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像の動作シーンを判定するためのモデルを生成する学習装置、映像の動作シーンを判定する動作シーン判定装置、及びこれらのプログラムに関し、特に、視覚障害者のテレビ視聴を支援する技術等において、ながら視聴を行う健常者を含む多くのユーザに向けた音声配信サービスに使用する技術である。
【背景技術】
【0002】
従来、スポーツ中継番組を放送すると共に、その放送番組の解説音声を視聴者へ提供する解説音声サービスが知られている(例えば特許文献1を参照)。
【0003】
また、解説音声サービスに用いる技術として、本件特許出願の同一の出願人によりなされた、本件特許出願時に未公開の特願2022-082878号公報に記載のものも提案されている。この技術は、放送番組の解説音声を1つの情報源のみから取得するのではなく、複数の情報源から取得するように拡張性及び汎用性を考慮したものである。
【0004】
さらに、解説音声サービスに用いる技術として、本件特許出願の同一の出願人によりなされた、本件特許出願時に未公開の特願2023-016933号公報に記載のものも提案されている。この技術は、ユーザ操作に従って解説音声の情報量を個別に設定することで、解説音声サービスの質を向上させるものである。
【0005】
図11は、解説音声サービスを提供するシステムの概要を説明する図である。このシステムは、放送送信装置101、放送受信装置102、解説音声制作配信装置103、アプリサーバ104及び携帯端末105を備えて構成される。
【0006】
放送送信装置101、解説音声制作配信装置103及びアプリサーバ104は、例えば放送局に設置され、放送受信装置102は、例えば視聴者100の自宅に設置される。また、携帯端末105は、自宅で放送番組を視聴する視聴者100により使用される。
【0007】
このシステムの解説音声サービスにより、視聴者100は、アナウンサーの実況及び解説者の解説にて試合状況を説明する音声及び映像の放送番組と共に、解説音声の提供を受けることができる。
【0008】
放送送信装置101は、地上デジタル放送波を介して、放送番組コンテンツを放送受信装置102へ送信する。放送受信装置102は例えばテレビ受信機であり、放送送信装置101から地上デジタル放送波を介して送信された放送番組コンテンツを受信し、受信した放送番組コンテンツを再生する。
【0009】
解説音声制作配信装置103は、放送送信装置101が送信している放送番組コンテンツの解説音声を制作し、解説音声を携帯端末105へ送信する。アプリサーバ104は、携帯端末105で動作するアプリを記憶しており、携帯端末105からの要求に応じて、アプリを携帯端末105へ送信する。アプリは、アプリケーションの略語であり、ここでは、解説音声を受信して再生するプログラムである。
【0010】
携帯端末105は、例えばスマートフォン、PDA(Personal Digital Assistant)であり、放送受信装置102が受信した放送番組コンテンツに同期して、放送番組コンテンツの解説音声を再生する。携帯端末105は、解説音声を再生するときに、視聴者100の操作に従って再生速度等を変更する。
【0011】
例えば放送番組が野球中継である場合、視聴者100は、野球の試合の映像及び音声と共に、そのときの試合状況を詳しく解説した解説音声の提供を受けることができ、試合の内容を詳細に把握することができる。野球の解説音声は、例えば試合状況に応じた投手の情報、投手の動作、球種、球速、コース、打者の情報、打者の動作、得点等である。
【0012】
このような解説音声サービスを実現する解説音声制作配信装置103の例としては、ODF(Olympic Data Feed)の仕様に従ったデータの提供を受け、当該データを用いて解説音声を制作し、配信するシステムが知られている(例えば非特許文献1を参照)。
【0013】
この非特許文献1に記載された解説音声制作配信装置103は、オリンピックのデータを提供する1つの情報源から、現在の試合状況の得点、反則等のデータを逐次受信する。そして、解説音声制作配信装置103は、予め設定されたテンプレートに変数を当てはめる等することで、試合状況に応じた実況文面のテキストを生成し、音声合成器を用いてテキストを音声化し、解説音声の音声ファイルを携帯端末105へ送信する。
【0014】
このようなシステム構成の下で、例えばスポーツ中継番組を放送すると共に、その放送番組の解説音声を視聴者100へ提供する解説音声サービスが実現される。
【0015】
ところで、スポーツ中継番組の投球動作、打撃動作等を表した解説音声を視聴者へ提供する場合を想定すると、例えば映像からこれらの動作を自動的に判定する技術が必要となる。一般的な動作認識の技術としては、動作の分類技術も含めて多くの研究が行われている。例えば、機械学習等を行うことにより、映像から骨格を検出し、動作を推定する技術が知られている(例えば特許文献2を参照)。
【先行技術文献】
【特許文献】
【0016】
【特許文献1】特開2017-203827号公報
【特許文献2】特開2022-189456号公報
【非特許文献】
【0017】
【非特許文献1】熊野正、“スポーツ番組を解説する「音声ガイド」生成技術”、NHK技研R&D、No.154、pp.12-20、2017
【発明の概要】
【発明が解決しようとする課題】
【0018】
前述の本件特許出願時に未公開の公報に記載の技術は、複数の情報源のデータを利用し、汎用性の高い解説音声をリアルタイムで提供する技術である。一方、配信元の情報源において、リアルタイムに配信しない詳細な情報(例えば「ピッチャー構えた」「投げた」)等のデータについては、オペレータの手動操作により入力が行われている。
【0019】
このため、手入力のデータが多い場合には、実際の映像に対して手入力のタイミングが間に合わず、リアルタイム性の欠如、情報の誤入力、オペレータの労力等の問題が生じていた。
【0020】
また、前述の特許文献2等による従来の動作認識及び動作分類の技術は、人物毎に動作を推定する処理を基本とするものである。しかしながら、この技術を、複数の人物が映り込むケースが多くあるスポーツ中継番組等の放送コンテンツに適用した場合には、画像全体の状況として、どのようなシーン(動作シーン)であるかを判定することが難しい。
【0021】
例えば複数の人物が映り込んでいる画像に対し、従来の動作認識及び動作分類の技術を適用した場合には、人物毎に様々な動作が判定され、各動作に動作シーンのラベルが割り振られる。このため、人物毎の動作から画像全体の状況を表す動作シーンを判定することは困難であり、判定したとしても、誤判定が多発してしまう。
【0022】
画像全体としての動作シーンを正しく判定するためには、画像に映り込んでいる人物毎の動作及び位置から得られる人物同士の相関関係を考慮する必要がある。
【0023】
このため、画像に映り込んでいる人物毎の動作及び位置を総合して組み合わせた人物同士の相関関係を考慮し、これにより動作シーンを判定する手法が所望されていた。この手法を用いて判定された動作シーンの解説音声がリアルタイムにユーザへ提供されることで、ユーザは快適にスポーツ中継等を楽しむことができ、結果として、解説音声サービスの品質を向上させることができるからである。
【0024】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、解説音声サービスによりスポーツ中継等の解説音声をユーザへ提供する際に、手入力を行うオペレータの作業負荷を軽減すると共に、誤入力を防止し、画像全体の動作シーンをリアルタイムに判定可能な学習装置、動作シーン判定装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0025】
前記課題を解決するために、請求項1の学習装置は、映像の動作シーンを判定するためのモデルを生成する学習装置において、前記映像、及び当該映像に付与された動作シーンを識別するための動作シーンラベルを入力し、所定の予測器を用いて、前記映像から1または複数の人物を検出し、前記1または複数の人物のそれぞれについての骨格座標を骨格座標情報として生成する骨格検出手段と、所定の予測器を用いて、前記1または複数の人物のそれぞれについて、前記骨格検出手段により生成された当該人物の骨格座標情報に基づき、1または複数のアクションを抽出し、前記1または複数のアクションのそれぞれについての予測スコアをアクション毎の予測スコアとして生成するアクション抽出手段と、前記映像に付与された前記動作シーンラベルを正解ラベルとして、前記骨格検出手段により生成された前記1または複数の人物のそれぞれについての骨格座標情報、前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコア、及び前記正解ラベルを用いて、前記1または複数の人物のそれぞれについての骨格座標情報、及び前記1または複数の人物のそれぞれについてのアクション毎の予測スコアと、前記動作シーンラベルとの間の関係を学習し、動作シーン判定モデルを生成する動作シーン判定モデル学習手段と、を備えたことを特徴とする。
【0026】
また、請求項2の学習装置は、請求項1に記載の学習装置において、前記動作シーン判定モデル学習手段が、前記骨格検出手段により検出された前記1または複数の人物の数を検出人数として、前記1または複数の人物のそれぞれについての骨格座標情報、前記1または複数の人物のそれぞれについてのアクション毎の予測スコア、前記検出人数及び前記正解ラベルを用いて、前記1または複数の人物のそれぞれについての骨格座標情報、前記1または複数の人物のそれぞれについてのアクション毎の予測スコア及び前記検出人数と、前記動作シーンラベルとの間の関係を学習し、前記動作シーン判定モデルを生成する、ことを特徴とする。
【0027】
また、請求項3の学習装置は、請求項1に記載の学習装置において、前記動作シーン判定モデル学習手段が、前記1または複数の人物のそれぞれについての骨格座標情報、前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコアに対し、前記骨格座標情報に基づき予め設定された規則に従い、人物を単位としたソートを行い、ソート後の前記1または複数の人物のそれぞれについての骨格座標情報、ソート後の前記1または複数の人物のそれぞれについてのアクション毎の予測スコア、及び前記正解ラベルを用いて、前記動作シーン判定モデルを生成する、ことを特徴とする。
【0028】
さらに、請求項4の動作シーン判定装置は、映像の動作シーンを判定する動作シーン判定装置において、前記映像を入力し、所定の予測器を用いて、前記映像から1または複数の人物を検出し、前記1または複数の人物のそれぞれについての骨格座標を骨格座標情報として生成する骨格検出手段と、所定の予測器を用いて、前記1または複数の人物のそれぞれについて、前記骨格検出手段により生成された当該人物の骨格座標情報に基づき、1または複数のアクションを抽出し、前記1または複数のアクションのそれぞれについての予測スコアをアクション毎の予測スコアとして生成するアクション抽出手段と、請求項1に記載の学習装置により生成された前記動作シーン判定モデルを用いて、前記骨格検出手段により検出された前記1または複数の人物のそれぞれについての骨格座標情報、及び前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコアから動作シーンラベルを判定し、前記動作シーンラベルに対応する動作シーンの名称を出力する動作シーン判定手段と、を備えたことを特徴とする。
【0029】
また、請求項5の動作シーン判定装置は、映像の動作シーンを判定する動作シーン判定装置において、前記映像を入力し、所定の予測器を用いて、前記映像から1または複数の人物を検出し、前記1または複数の人物のそれぞれについての骨格座標を骨格座標情報として生成する骨格検出手段と、所定の予測器を用いて、前記1または複数の人物のそれぞれについて、前記骨格検出手段により生成された当該人物の骨格座標情報に基づき、1または複数のアクションを抽出し、前記1または複数のアクションのそれぞれについての予測スコアをアクション毎の予測スコアとして生成するアクション抽出手段と、前記骨格検出手段により検出された前記1または複数の人物の数を検出人数とし、請求項2に記載の学習装置により生成された前記動作シーン判定モデルを用いて、前記骨格検出手段により検出された前記1または複数の人物のそれぞれについての骨格座標情報、前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコア及び前記検出人数から動作シーンラベルを判定し、前記動作シーンラベルに対応する動作シーンの名称を出力する動作シーン判定手段と、を備えたことを特徴とする。
【0030】
また、請求項6の動作シーン判定装置は、請求項4に記載の動作シーン判定装置において、前記動作シーン判定手段が、前記1または複数の人物のそれぞれについての骨格座標情報、前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコアに対し、前記骨格座標情報に基づき予め設定された規則に従い、人物を単位としたソートを行い、前記動作シーン判定モデルを用いて、ソート後の前記1または複数の人物のそれぞれについての骨格座標情報、及びソート後の前記1または複数の人物のそれぞれについてのアクション毎の予測スコアから前記動作シーンラベルを判定し、前記動作シーンラベルに対応する動作シーンの名称を出力する、ことを特徴とする。
【0031】
さらに、請求項7のプログラムは、映像の動作シーンを判定するためのモデルを生成する学習装置を構成するコンピュータを、前記映像、及び当該映像に付与された動作シーンを識別するための動作シーンラベルを入力し、所定の予測器を用いて、前記映像から1または複数の人物を検出し、前記1または複数の人物のそれぞれについての骨格座標を骨格座標情報として生成する骨格検出手段、所定の予測器を用いて、前記1または複数の人物のそれぞれについて、前記骨格検出手段により生成された当該人物の骨格座標情報に基づき、1または複数のアクションを抽出し、前記1または複数のアクションのそれぞれについての予測スコアをアクション毎の予測スコアとして生成するアクション抽出手段、及び、前記映像に付与された前記動作シーンラベルを正解ラベルとして、前記骨格検出手段により生成された前記1または複数の人物のそれぞれについての骨格座標情報、前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコア、及び前記正解ラベルを用いて、前記1または複数の人物のそれぞれについての骨格座標情報、及び前記1または複数の人物のそれぞれについてのアクション毎の予測スコアと、前記動作シーンラベルとの間の関係を学習し、動作シーン判定モデルを生成する動作シーン判定モデル学習手段として機能させることを特徴とする。
【0032】
また、請求項8のプログラムは、映像の動作シーンを判定する動作シーン判定装置を構成するコンピュータを、前記映像を入力し、所定の予測器を用いて、前記映像から1または複数の人物を検出し、前記1または複数の人物のそれぞれについての骨格座標を骨格座標情報として生成する骨格検出手段、所定の予測器を用いて、前記1または複数の人物のそれぞれについて、前記骨格検出手段により生成された当該人物の骨格座標情報に基づき、1または複数のアクションを抽出し、前記1または複数のアクションのそれぞれについての予測スコアをアクション毎の予測スコアとして生成するアクション抽出手段、及び、請求項1に記載の学習装置により生成された前記動作シーン判定モデルを用いて、前記骨格検出手段により検出された前記1または複数の人物のそれぞれについての骨格座標情報、及び前記アクション抽出手段により生成された前記1または複数の人物のそれぞれについてのアクション毎の予測スコアから動作シーンラベルを判定し、前記動作シーンラベルに対応する動作シーンの名称を出力する動作シーン判定手段として機能させることを特徴とする。
【発明の効果】
【0033】
以上のように、本発明によれば、解説音声サービスによりスポーツ中継等の解説音声をユーザへ提供する際に、手入力を行うオペレータの作業負荷を軽減すると共に、誤入力を防止し、画像全体の動作シーンをリアルタイムに判定することができる。
【図面の簡単な説明】
【0034】
図1】本発明の実施形態による学習装置及び動作シーン判定装置を含む解説音声制作配信システムの全体構成例を説明する概略図である。
図2】本発明の実施形態による学習装置の構成例を示すブロック図である。
図3】学習装置の処理例を示すフローチャートである。
図4】骨格検出手段の処理例(ステップS302)を説明する図である。
図5】アクション抽出手段の処理例(ステップS303)を説明する図である。
図6】動作シーン判定モデル学習手段の処理例(ステップS304)を説明する図である。
図7】本発明の実施形態による動作シーン判定装置の構成例を示すブロック図である。
図8】動作シーン判定装置の処理例を示すフローチャートである。
図9】動作シーン判定手段の処理例(ステップS804)を説明する図である。
図10】本発明の実施形態のイメージを説明する図である。
図11】解説音声サービスを提供するシステムの概要を説明する図である。
【発明を実施するための形態】
【0035】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明の学習装置は、動作シーンが既知の映像を用いて、映像に映り込んでいる人物を単位として、それぞれの骨格座標情報及びアクション毎の予測スコアを生成し、これらの骨格座標情報及び予測スコア並びに既知の動作シーンのラベルを用いた学習により、動作シーン判定モデルを生成することを特徴とする。
【0036】
また、本発明の動作シーン判定装置は、動作シーンが既知でない映像に対し、映像に映り込んでいる人物を単位として、それぞれの骨格座標情報及びアクション毎の予測スコアを生成し、学習装置により生成された動作シーン判定モデルを用いて、これらの骨格座標情報及び予測スコアから動作シーンのラベルを判定することを特徴とする。
【0037】
このようにして判定された動作シーンは、動作シーン判定モデルを用いて自動的に判定されるため、人物毎の動作及び位置から得られる人物同士の相関関係が考慮されたシーンである。したがって、この動作シーンを反映した解説テキストを生成してユーザへ提供する解説音声サービスにおいて、手入力を行うオペレータの作業負荷を軽減すると共に、誤入力を防止し、画像全体の動作シーンをリアルタイムに判定することができる。
【0038】
〔解説音声制作配信システム〕
まず、解説音声サービスを実現する解説音声制作配信システムについて説明する。図1は、本発明の実施形態による学習装置及び動作シーン判定装置を含む解説音声制作配信システムの全体構成例を説明する概略図である。
【0039】
この解説音声制作配信システム6は、解説音声制作装置1、複数の情報源2、音声合成装置3、配信装置4及び携帯端末5を備えて構成される。解説音声制作配信システム6は、図11に示した解説音声サービスを提供するシステムのうち、解説音声制作配信装置103及び携帯端末105に対応している。
【0040】
解説音声制作装置1は、ライブ配信しているスポーツ番組等の解説音声を制作する際の解説テキストを発話毎に生成する装置である。解説音声制作装置1は、複数の情報源2のそれぞれから、ライブ配信しているスポーツ番組の試合状況等に応じたリアルタイムのデータを入力する。
【0041】
そして、解説音声制作装置1は、データの入力元である情報源2独自のデータフォーマットに従ってデータを解析することで、データからテキスト要素を抽出し、テキスト要素にラベルを付与し、ラベルが付与されたテキスト要素を情報管理テーブルに格納する。
【0042】
ここで、テキスト要素は、生成したい解説テキスト(発話したい内容のテキスト)を構成する1または複数の要素である。ラベルは、テキスト要素の内容を識別するための情報である。
【0043】
解説音声制作装置1は、発話の解説テキストを生成するために、テンプレートに定義された発話定義データに従い、情報管理テーブルからラベルが付与されたテキスト要素を読み出す。そして、解説音声制作装置1は、ラベルが付与されたテキスト要素及び再生時刻を含むJsonデータである発話データを生成すると共に、解説テキストを生成する。
【0044】
解説音声制作装置1は、発話毎に、発話データ及び解説テキストを音声合成装置3へ出力すると共に、発話データを配信装置4へ出力する。
【0045】
情報源2は、例えば競技種目毎の複数の情報源からなる。図1に示すように、野球の複数の情報源としては、例えばODFの仕様に従ったオリンピック関連のデータを配信する情報源2-1、BISの仕様に従ったプロ野球関連のデータを配信する情報源2-2がある。また、情報源2としては、放送番組を視聴しているオペレータの手動入力ツールの操作により、所定の仕様に従った野球関連のデータを配信する情報源2-3がある。
【0046】
さらに、情報源2としては、オペレータの手動操作によることなく、予め生成された動作シーン判定モデルを用いた自動入力ツールにより、映像から画像認識による動作シーンを自動的かつリアルタイムに判定し、動作シーンのデータを配信する情報源2-4がある。この自動入力ツールである情報源2-4は、本発明の実施形態による学習装置10及び動作シーン判定装置20に相当する。
【0047】
音声合成装置3は、解説音声制作装置1から発話データ及び解説テキストを入力し、既存技術により、解説テキストから合成音を生成することで音声ファイルを生成する。そして、音声合成装置3は、発話データ及び音声ファイルを配信装置4へ出力する。
【0048】
配信装置4は、解説音声制作装置1から発話データを入力すると共に、音声合成装置3から発話データ及び音声ファイルを入力し、同じ発話データの音声ファイルを発話データと共に携帯端末5へ配信する。
【0049】
携帯端末5は、配信装置4から配信された発話データ及び音声ファイルを受信し、発話データ及び音声ファイルを用いて、発話対象の音声の再生を行う。
【0050】
〔学習装置10〕
次に、本発明の実施形態による学習装置10について説明する。図2は、本発明の実施形態による学習装置10の構成例を示すブロック図であり、図3は、学習装置10の処理例を示すフローチャートである。
【0051】
この学習装置10は、映像の動作シーンを判定するための学習済モデルである動作シーン判定モデルを生成する装置であり、制御部11及び記憶部12を備えている。制御部11は、骨格検出手段13、アクション抽出手段14及び動作シーン判定モデル学習手段15を備えている。記憶部12は、骨格検出記憶手段16、アクション抽出記憶手段17及び動作シーン判定モデル記憶手段18を備えている。骨格検出記憶手段16には、後述する予測器が格納されており、アクション抽出記憶手段17にも、後述する予測器が格納されている。
【0052】
骨格検出手段13は、教師データである動作シーンが既知の映像A1(動作シーンラベルL1付き)を入力し(ステップS301)、骨格検出記憶手段16から予測器を読み出す。この映像A1には、例えば野球の「構えた」「投げた」「打った」等のいずれかの動作シーンに対応する時間区間毎にラベリングされた当該動作シーンを識別するための動作シーンラベルL1が付与されている。骨格検出記憶手段16から読み出される予測器は、例えば既存の大規模の骨格データを用いて事前学習されたモデルであり、画像から人物毎の骨格座標を予測することができる。例えばMediaPipe,Openposeのモデルが用いられる。
【0053】
骨格検出手段13は、映像A1から、例えばフレーム毎に画像及び動作シーンラベルL1を抽出する。そして、骨格検出手段13は、予測器を用いて、画像から1または複数の人物を特定し、1または複数の人物のそれぞれについて骨格を検出し、検出した骨格の座標を骨格座標情報A2として生成する(ステップS302)。
【0054】
尚、骨格検出手段13は、映像A1から、所定間隔のフレーム毎に画像及び動作シーンラベルL1を抽出するようにしてもよい。後述する動作シーン判定装置20に備えた骨格検出手段23についても同様である。
【0055】
骨格検出手段13は、人物毎の骨格座標情報A2をアクション抽出手段14に出力し、人物毎の骨格座標情報A2及び動作シーンラベルL1を動作シーン判定モデル学習手段15に出力する。
【0056】
図4は、骨格検出手段13の処理例(ステップS302)を説明する図である。図4に示すように、骨格検出記憶手段16から読み出された予測器(骨格検出用予測器)を用いて、例えば3人の人物が映り込んでいる映像A1から、人物毎の骨格座標情報A2が生成される。この例の人物毎の骨格座標情報A2は、人物P1の骨格座標情報A2、人物P2の骨格座標情報A2及び人物P3の骨格座標情報A2から構成される。
【0057】
尚、骨格検出手段13は、予測器を用いて、画像から人物毎の骨格座標情報A2を生成するようにしたが、予め設定された人数以下の人物に限定して、人物毎の骨格座標情報A2を生成するようにしてもよい。
【0058】
これにより、予め設定された人数分の骨格座標情報A2が生成され、後段のアクション抽出手段14においても、予め設定された人数分のアクション毎の予測スコアA3が生成されることとなる。したがって、学習装置10の処理負荷を低減すること共に、処理時間を短縮することができる。
【0059】
図2及び図3に戻って、アクション抽出手段14は、骨格検出手段13から人物毎の骨格座標情報A2を入力し、アクション抽出記憶手段17から予測器を読み出す。アクション抽出記憶手段17から読み出される予測器は、例えば既存のアクションデータセットを用いて事前学習されたモデルであり、人物の骨格座標からアクション毎のスコアを予測することができる。例えばニューラルネットワーク、グラフニューラルネットワーク、LSTMのモデルが用いられる。
【0060】
アクション抽出手段14は、予測器を用いて、人物毎に、当該人物の骨格座標情報A2から1または複数のアクションを抽出し、アクション毎の予測スコアA3を生成する(ステップS303)。
【0061】
具体的には、アクション抽出手段14は、予測器を用いて、人物毎に、骨格検出手段13により抽出された画像に対応する骨格座標情報A2、及び当該画像よりも前のフレームの連続した所定数の画像のそれぞれに対応する骨格座標情報A2から、1または複数のアクションを抽出し、アクション毎の予測スコアA3を生成する。
【0062】
例えばアクションとして、「座っている」「立っている」「走っている」「右手を挙げている」等が抽出される。アクション毎の予測スコアA3は、複数のアクションのうち、人物の骨格座標情報A2から抽出された当該アクションであることの確からしさを示すスコアである。
【0063】
これにより、画像に含まれる人物毎に(1または複数の人物のそれぞれについて)、アクション毎の予測スコアA3が得られる。
【0064】
アクション抽出手段14は、人物毎及びアクション毎(1または複数の人物のそれぞれについてのアクション毎)の予測スコアA3を動作シーン判定モデル学習手段15に出力する。
【0065】
図5は、アクション抽出手段14の処理例(ステップS303)を説明する図である。図5に示すように、アクション抽出記憶手段17から読み出された予測器(アクション抽出用予測器)を用いて、人物P1,P2,P3の骨格座標情報A2のそれぞれからアクション毎(アクションa,b,c,・・・,x)の予測スコアA3が生成される。具体的には、人物P1の骨格座標情報A2から人物P1のアクション毎の予測スコアA3が生成され、人物P2の骨格座標情報A2から人物P2のアクション毎の予測スコアA3が生成される。また、人物P3の骨格座標情報A2から人物P3のアクション毎の予測スコアA3が生成される。
【0066】
この例における人物毎及びアクション毎の予測スコアA3は、人物P1についてのアクションa,b,c,・・・,xのそれぞれに対応する予測スコア0.8,0.2,0.1,・・・,N1、人物P2についてのアクションa,b,c,・・・,xのそれぞれに対応する予測スコア0.2,0.1,0.5,・・・,N2、及び人物P3についてのアクションa,b,c,・・・,xのそれぞれに対応する予測スコア0.4,0.2,0.3,・・・,N3から構成される。
【0067】
アクションa,b,c,・・・,xは、人物P1,P2,P3を含む全ての人物に共通した固定の動作であり、後述する動作シーン判定装置20にて使用するものと同じ名称が予め設定されている。例えばアクションaは「座っている」、アクションbは「立っている」等である。
【0068】
図2及び図3に戻って、動作シーン判定モデル学習手段15は、骨格検出手段13から人物毎の骨格座標情報A2及び動作シーンラベルL1を入力すると共に、アクション抽出手段14から人物毎及びアクション毎の予測スコアA3を入力する。
【0069】
動作シーン判定モデル学習手段15は、人物毎の骨格座標情報A2、並びに人物毎及びアクション毎の予測スコアA3について、人物を単位としたソート及び各データの正規化等の前処理を行う。
【0070】
人物を単位としたソートは、例えば骨格の大きさ、骨格の位置情報等に基づいて行われる。例えば動作シーン判定モデル学習手段15は、人物毎の骨格座標情報A2を用いて、人物毎に、骨格のx,yの位置座標の最大値及び最小値を抽出し、これらから4点の位置座標を特定して骨格の矩形を生成し、その面積を算出する。これにより、人物毎の面積が算出される。そして、動作シーン判定モデル学習手段15は、面積の大きい人物の順に、人物毎の骨格座標情報A2を並び替えると共に、人物毎及びアクション毎の予測スコアA3を並び替える。
【0071】
尚、動作シーン判定モデル学習手段15は、人物毎に骨格のxの位置座標の最小値を抽出し、最小値が小さい順に、人物毎の骨格座標情報A2を並び替えると共に、人物毎及びアクション毎の予測スコアA3を並び替えるようにしてよいし、他の規則に従い、並び替えるようにしてもよい。
【0072】
このように、動作シーン判定モデル学習手段15は、予め設定された一定の規則に従って、人物の順位付けを行い、人物毎の骨格座標情報A2を並び替えると共に、人物毎及びアクション毎の予測スコアA3を並び替える。
【0073】
動作シーン判定モデル学習手段15は、入力した人物毎の骨格座標情報A2から人物の数を求め、これを検出人数とし、入力した動作シーンラベルL1を正解ラベルとする。
【0074】
動作シーン判定モデル学習手段15は、前処理後の人物毎の骨格座標情報A2、前処理後の人物毎及びアクション毎の予測スコアA3、検出人数、並びに正解ラベルを用いて、前処理後の人物毎の骨格座標情報A2、前処理後の人物毎及びアクション毎の予測スコアA3、並びに検出人数を入力データとし、動作シーンラベルL2を出力データとするモデルについて、入力データと出力データとの間の関係を学習する(ステップS304)。
【0075】
図6は、動作シーン判定モデル学習手段15の処理例(ステップS304)を説明する図である。図6に示すように、人物毎の骨格座標情報A2、人物毎及びアクション毎の予測スコアA3、並びに検出人数を入力データとし、動作シーンラベルL2を出力データとするモデル(生成対象の動作シーン判定モデル)に対し、前処理後の人物毎の骨格座標情報A2、並びに前処理後の人物毎及びアクション毎の予測スコアA3が入力され、さらに検出人数が入力されることで動作シーンラベルL2が判定される。動作シーンラベルL2は、例えば「構えた」「投げた」「打った」等のいずれかを示すラベルである。
【0076】
人物毎の骨格座標情報A2、人物毎及びアクション毎の予測スコアA3、並びに検出人数のそれぞれのデータは、モデルの入力層の対応するノードにそれぞれ入力される。
【0077】
そして、動作シーン判定モデル学習手段15に備えた更新部19により、動作シーン判定モデル学習手段15が入力した動作シーンラベルL1である正解ラベルと、モデルが出力した動作シーンラベルL2とが同一になるように、モデルのパラメータが更新される。
【0078】
このようなモデルのパラメータを更新する学習処理としては、例えば誤差逆伝播法(back propagation)が用いられる。また、モデルとしては、例えば順伝播ニューラルネットワーク(Feed Forward Neural Network:FFNN)が用いられる。
【0079】
尚、モデルは、入力データと出力データとの間の関係を、教師あり学習により学習できるものであれば、どのようなニューラルネットワークのモデルまたは学習器であってもよい。この教師あり学習は、他の一般的な機械学習を用いることができる。例えば、サポートベクタマシン(SVM:Support Vector Machine)、条件付確率場(CRF:Conditional Random Fields)等を用いることができる。
【0080】
図2及び図3に戻って、制御部11は、骨格検出手段13により映像A1から抽出された全ての画像について、ステップS302~S304の処理が完了したか否かを判定する(ステップS305)。制御部11は、ステップS305において、全ての画像の処理が完了していないと判定した場合(ステップS305:N)、ステップS302へ移行し、骨格検出手段13により、次のフレームの画像及び動作シーンラベルL1について処理が行われる。そして、ステップS302~S304の処理が行われる。
【0081】
一方、制御部11は、ステップS305において、全ての画像の処理が完了したと判定した場合(ステップS305:Y)、当該学習処理が完了したか否かを判定する(ステップS306)。制御部11は、ステップS306において、当該学習処理が完了していないと判定した場合(ステップS306:N)、ステップS301へ移行し、骨格検出手段13により、次の映像A1が入力され、ステップS301~S305の処理が行われる。
【0082】
一方、制御部11は、ステップS306において、当該学習処理が完了したと判定した場合(ステップS306:Y)、ステップS304にて学習された学習済モデルを動作シーン判定モデルとして生成し、これを動作シーン判定モデル記憶手段18に格納する(ステップS307)。
【0083】
以上のように、本発明の実施形態の学習装置10によれば、骨格検出手段13は、動作シーンラベルL1付き映像A1から、フレーム毎の画像及び動作シーンラベルL1を抽出し、予測器を用いて、画像から1または複数の人物を特定し、人物毎の骨格座標情報A2を生成する。
【0084】
アクション抽出手段14は、予測器を用いて、人物毎に、当該人物の骨格座標情報A2から1または複数のアクションを抽出し、アクション毎の予測スコアA3を生成する。
【0085】
動作シーン判定モデル学習手段15は、人物毎の骨格座標情報A2、並びに人物毎及びアクション毎の予測スコアA3について、人物を単位としたソート及び各データの正規化等の前処理を行い、入力した人物毎の骨格座標情報A2から検出人数を求め、入力した動作シーンラベルL1を正解ラベルとする。
【0086】
そして、動作シーン判定モデル学習手段15は、前処理後の人物毎の骨格座標情報A2、前処理後の人物毎及びアクション毎の予測スコアA3、検出人数、並びに正解ラベルを用いて、モデルの学習を行い、動作シーン判定モデルを生成する。
【0087】
このようにして生成された動作シーン判定モデルは、後述する動作シーン判定装置20にて使用され、映像から動作シーンが自動的に直接判定される。このため、オペレータの作業軽減、誤入力防止及びリアルタイム処理を実現することができる。つまり、解説音声サービスによりスポーツ中継等の解説音声をユーザへ提供する際に、手入力を行うオペレータの作業負荷を軽減すると共に、誤入力を防止し、画像全体の動作シーンをリアルタイムに判定することができる。
【0088】
また、動作シーン判定モデルは、人物毎の骨格座標情報A2、並びに人物毎及びアクション毎の予測スコアA3等を用いて生成されるため、画像に映り込んでいる人物毎の動作及び位置から得られる人物同士の相関関係が考慮されたモデルとなる。
【0089】
後述する動作シーン判定装置20は、この動作シーン判定モデルを用いることで、人物同士の相関関係を考慮した画像全体から見た動作シーンを推定することができるため、精度の高い動作シーンを得ることができる。つまり、精度の高い動作シーンの解説音声をユーザへ提供することができるため、ユーザは、快適にスポーツ中継等を楽しむことができ、解説音声サービスとしての品質を向上させることができる。
【0090】
〔動作シーン判定装置20〕
次に、本発明の実施形態による動作シーン判定装置20について説明する。図7は、本発明の実施形態による動作シーン判定装置20の構成例を示すブロック図であり、図8は、動作シーン判定装置20の処理例を示すフローチャートである。
【0091】
この動作シーン判定装置20は、図2に示した学習装置10により生成された動作シーン判定モデルを用いて、映像の動作シーンを判定する装置であり、制御部21及び記憶部22を備えている。制御部21は、骨格検出手段23、アクション抽出手段24及び動作シーン判定手段25を備えている。記憶部22は、骨格検出記憶手段26、アクション抽出記憶手段27及び動作シーン判定モデル記憶手段28を備えている。
【0092】
動作シーン判定モデル記憶手段28には、図2に示した学習装置10の動作シーン判定モデル学習手段15により生成され、動作シーン判定モデル記憶手段18に格納された学習済みの動作シーン判定モデルと同一のモデルが格納されている。
【0093】
骨格検出手段23は、動作シーンが未知の映像A1’(動作シーンラベルL1が付与されていない映像)を入力し(ステップS801)、骨格検出記憶手段26から予測器を読み出す。骨格検出記憶手段26から読み出される予測器は、図2に示した骨格検出記憶手段16から読み出される予測器と同じである。
【0094】
骨格検出手段23は、図2に示した骨格検出手段13と同様の処理を行う。つまり、骨格検出手段23は、映像A1’から例えばフレーム毎に画像を抽出する。そして、骨格検出手段23は、予測器を用いて、画像から1または複数の人物を特定し、1または複数の人物のそれぞれについて骨格を検出し、検出した骨格の座標を骨格座標情報A2’として生成する(ステップS802)。例えば3人の人物が映り込んでいる映像A1’から、人物毎(人物P1’,P2’,P3’のそれぞれについて)の骨格座標情報A2’が生成される。
【0095】
骨格検出手段23は、人物毎の骨格座標情報A2’をアクション抽出手段24及び動作シーン判定手段25に出力する。
【0096】
アクション抽出手段24は、骨格検出手段23から人物毎の骨格座標情報A2’を入力し、アクション抽出記憶手段27から予測器を読み出す。アクション抽出記憶手段27から読み出される予測器は、図2に示したアクション抽出記憶手段17から読み出される予測器と同じである。
【0097】
アクション抽出手段24は、図2に示したアクション抽出手段14と同様の処理を行う。つまり、アクション抽出手段24は、予測器を用いて、人物毎に、当該人物の骨格座標情報A2’から1または複数のアクションを抽出し、アクション毎の予測スコアA3’を生成する(ステップS803)。
【0098】
具体的には、アクション抽出手段24は、予測器を用いて、人物毎に、骨格検出手段23により抽出された画像に対応する骨格座標情報A2’、及び当該画像よりも前のフレームの連続した所定数の画像のそれぞれに対応する骨格座標情報A2’から、1または複数のアクションを抽出し、アクション毎の予測スコアA3’を生成する。
【0099】
例えば後述する図9に示すように、人物毎及びアクション毎の予測スコアA3’として、人物P1’についてのアクションa,b,c,・・・,xのそれぞれに対応する予測スコア0.7,0.1,0.2,・・・,N1’、人物P2’についてのアクションa,b,c,・・・,xのそれぞれに対応する予測スコア0.2,0.2,0.6,・・・,N2’、及び人物P3’についてのアクションa,b,c,・・・,xのそれぞれに対応する予測スコア0.2,0.4,0.3,・・・,N3’が生成される。
【0100】
アクションa,b,c,・・・,xは、人物P1’,P2’,P3’を含む全ての人物に共通した固定の動作であり、図2に示した学習装置10にて使用したものと同じ名称が予め設定されている。
【0101】
アクション抽出手段24は、人物毎及びアクション毎(1または複数の人物のそれぞれについてのアクション毎)の予測スコアA3’を動作シーン判定手段25に出力する。
【0102】
動作シーン判定手段25は、骨格検出手段23から人物毎の骨格座標情報A2’を入力すると共に、アクション抽出手段24から人物毎及びアクション毎の予測スコアA3’を入力する。
【0103】
動作シーン判定手段25は、人物毎の骨格座標情報A2’、並びに人物毎及びアクション毎の予測スコアA3’について、図2に示した動作シーン判定モデル学習手段15と同様に、人物を単位としたソート及び各データの正規化等の前処理を行う。
【0104】
動作シーン判定手段25は、入力した人物毎の骨格座標情報A2’から人物の数を求め、これを検出人数とする。また、動作シーン判定手段25は、動作シーン判定モデル記憶手段28から動作シーン判定モデルを読み出す。
【0105】
動作シーン判定手段25は、動作シーン判定モデルを用いて、前処理後の人物毎の骨格座標情報A2’、前処理後の人物毎及びアクション毎の予測スコアA3’、並びに検出人数から、動作シーンラベルL2’を判定する(ステップS804)。そして、動作シーン判定手段25は、動作シーンラベルL2’に対応する動作シーンの名称を出力する(ステップS805)。
【0106】
図9は、動作シーン判定手段25の処理例(ステップS804)を説明する図である。図9に示すように、動作シーン判定モデルを用いて、前処理後の人物毎の骨格座標情報A2’、前処理後の人物毎及びアクション毎の予測スコアA3’、並びに検出人数から、動作シーンラベルL2’が判定される。動作シーンラベルL2’は、例えば「構えた」「投げた」「打った」等のいずれかを示すラベルである。
【0107】
人物毎の骨格座標情報A2’、人物毎及びアクション毎の予測スコアA3’、並びに検出人数のそれぞれのデータは、動作シーン判定モデルの入力層の対応するノードにそれぞれ入力され、動作シーンラベルL2’は、動作シーン判定モデルの出力層から出力される。
【0108】
図7及び図8に戻って、制御部21は、骨格検出手段23により映像A1’から抽出された全ての画像について、ステップS802~S805の処理が完了したか否かを判定する(ステップS806)。制御部21は、ステップS806において、全ての画像の処理が完了していないと判定した場合(ステップS806:N)、ステップS802へ移行し、骨格検出手段23により、次のフレームの画像について処理が行われる。そして、ステップS802~S805の処理が行われる。
【0109】
一方、制御部21は、ステップS806において、全ての画像の処理が完了したと判定した場合(ステップS806:Y)、当該判定処理が完了したか否かを判定する(ステップS807)。制御部21は、ステップS807において、当該判定処理が完了していないと判定した場合(ステップS807:N)、ステップS801へ移行し、骨格検出手段23により、次の映像A1’が入力され、ステップS801~S806の処理が行われる。
【0110】
一方、制御部21は、ステップS807において、当該判定処理が完了したと判定した場合(ステップS807:Y)、処理を終了する。
【0111】
以上のように、本発明の実施形態の動作シーン判定装置20によれば、骨格検出手段23は、映像A1’からフレーム毎の画像を抽出し、予測器を用いて、画像から1または複数の人物を特定し、人物毎の骨格座標情報A2’を生成する。
【0112】
アクション抽出手段24は、予測器を用いて、人物毎に、当該人物の骨格座標情報A2’から1または複数のアクションを抽出し、アクション毎の予測スコアA3’を生成する。
【0113】
動作シーン判定手段25は、人物毎の骨格座標情報A2’、並びに人物毎及びアクション毎の予測スコアA3’について、人物を単位としたソート及び各データの正規化等の前処理を行い、入力した人物毎の骨格座標情報A2’から検出人数を求める。
【0114】
そして、動作シーン判定手段25は、図2に示した学習装置10により学習された動作シーン判定モデルを用いて、前処理後の人物毎の骨格座標情報A2’、前処理後の人物毎及びアクション毎の予測スコアA3’、及び検出人数から、動作シーンラベルL2’を判定する。動作シーン判定手段25は、動作シーンラベルL2’に対応する動作シーンの名称を出力する。このようにして出力された動作シーンの名称を用いて、解説テキストが生成される。
【0115】
これにより、映像A1’から動作シーンを自動的に直接判定することができるため、オペレータの作業軽減、誤入力防止及びリアルタイム処理を実現することができる。つまり、解説音声サービスによりスポーツ中継等の解説音声をユーザへ提供する際に、手入力を行うオペレータの作業負荷を軽減すると共に、誤入力を防止し、画像全体の動作シーンをリアルタイムに判定することができる。
【0116】
また、動作シーンラベルL2’を判定するために用いる動作シーン判定モデルは、学習装置10により生成された、画像に映り込んでいる人物毎の動作及び位置から得られる人物同士の相関関係が考慮されたモデルである。
【0117】
このような動作シーン判定モデルを用いることで、人物同士の相関関係を考慮した画像全体から見た動作シーンラベルL2’を総合的に推定することができ、精度の高い動作シーンを得ることができる。つまり、精度の高い動作シーンの解説音声をユーザへ提供することができるため、ユーザは、快適にスポーツ中継等を楽しむことができ、解説音声サービスとしての品質を向上させることができる。
【0118】
図10は、本発明の実施形態のイメージを説明する図である。例えば放送局において、手動入力ツールである情報源2-3にてデータが手動入力され、解説テキストが生成される。そして、解説テキスト及び当該解説テキストに関する音声ファイルが音声合成装置3にて生成され、発話データ及び音声ファイルが配信装置4から携帯端末5へ配信される。
【0119】
また、自動入力ツールである情報源2-4における本発明の実施形態の動作シーン判定装置20により動作シーンが判定され、当該動作シーンの解説テキスト(例えば“バッター「構えた」”)が生成される。そして、解説テキスト及び当該解説テキストに関する音声ファイルが音声合成装置3にて生成され、発話データ及び音声ファイルが配信装置4から携帯端末5へ配信される。
【0120】
家庭において、視聴者100が野球中継のTV音声を視聴しており、携帯端末5を操作することで、解説音声サービスの提供を受けることができる。この場合、携帯端末5は、配信装置4から発話データ及び音声ファイルを受信し、例えば「バッター構えた」の解説音声を再生する。
【0121】
このように、動作シーン判定装置20により動作シーン判定モデルを用いて映像A1’から動作シーンが判定され、当該動作シーンの発話データ及び音声ファイルが配信装置4から携帯端末5へ配信される。そして、携帯端末5が動作シーン判定装置20により判定された動作シーンの音声を再生することで、視聴者100は、野球中継のテレビ音声の視聴と共に、動作シーンの解説音声を聞くことができる。
【0122】
図1に示した解説音声制作配信システム6は、放送、インターネット等の映像メディアサービスに適用することができる。また、携帯アプリでの緊急速報に代表されるセキュリティシステム等、様々な用途にも適用することができる。
【0123】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0124】
例えば前記実施形態において、図2に示した学習装置10の動作シーン判定モデル学習手段15は、人物毎の骨格座標情報A2、人物毎及びアクション毎の予測スコアA3、検出人数、並びに正解ラベルを用いて、人物毎の骨格座標情報A2、人物毎及びアクション毎の予測スコアA3、並びに検出人数を入力データとし、動作シーンラベルL2を出力データとするモデルについて学習を行うようにした。
【0125】
これに対し、動作シーン判定モデル学習手段15は、検出人数を用いることなく、学習を行うようにしてもよい。具体的には、動作シーン判定モデル学習手段15は、人物毎の骨格座標情報A2、人物毎及びアクション毎の予測スコアA3、並びに正解ラベルを用いて、人物毎の骨格座標情報A2、並びに人物毎及びアクション毎の予測スコアA3を入力データとし、動作シーンラベルL2を出力データとするモデルについて学習を行う。
【0126】
また、例えば前記実施形態において、図7に示した動作シーン判定装置20の動作シーン判定手段25は、人物毎の骨格座標情報A2’、人物毎及びアクション毎の予測スコアA3’、並びに検出人数を入力データとし、動作シーンラベルL2’を出力データとする動作シーン判定モデルを用いて、人物毎の骨格座標情報A2’、人物毎及びアクション毎の予測スコアA3’、並びに検出人数から、動作シーンラベルL2’を判定するようにした。
【0127】
これに対し、動作シーン判定手段25は、検出人数を用いることなく、判定を行うようにしてもよい。具体的には、動作シーン判定手段25は、人物毎の骨格座標情報A2’、並びに人物毎及びアクション毎の予測スコアA3’を入力データとし、動作シーンラベルL2’を出力データとする動作シーン判定モデルを用いて、人物毎の骨格座標情報A2’、並びに人物毎及びアクション毎の予測スコアA3’から、動作シーンラベルL2’を判定する。
【0128】
また、例えば前記実施形態において、図2に示した学習装置10の記憶部12は、個別に骨格検出記憶手段16、アクション抽出記憶手段17及び動作シーン判定モデル記憶手段18を備えるようにした。これに対し、記憶部12は、1つの記憶手段を備えるようにしてもよい。この場合、当該1つの記憶手段の領域が複数に区分され、それぞれの区分の領域には、骨格検出手段13が読み出す予測器、アクション抽出手段14が読み出す予測器、及び動作シーン判定モデル学習手段15が格納する動作シーン判定モデルの各データが記憶される。
【0129】
また、例えば前記実施形態において、図7に示した動作シーン判定装置20の記憶部22に、個別に骨格検出記憶手段26、アクション抽出記憶手段27及び動作シーン判定モデル記憶手段28を備えるようにした。これに対し、記憶部22は、1つの記憶手段を備えるようにしてもよい。この場合、当該1つの記憶手段の領域が複数に区分され、それぞれの区分の領域には、骨格検出手段23が読み出す予測器、アクション抽出手段24が読み出す予測器、及び動作シーン判定手段25が読み出す動作シーン判定モデルの各データが記憶される。
【0130】
また、図2に示した学習装置10は記憶部12を備えているが、記憶部12は、学習装置10の外部に設けるようにしてもよい。また、図7に示した動作シーン判定装置20は記憶部22を備えているが、記憶部22は、動作シーン判定装置20の外部に設けるようにしてもよい。この場合の学習装置10は、制御部11のみを備えており、動作シーン判定装置20は、制御部21のみを備えている。
【0131】
また、例えば前記実施形態において、図2に示した学習装置10の動作シーン判定モデル学習手段15は、人物毎の骨格座標情報A2、並びに人物毎及びアクション毎の予測スコアA3について、人物を単位としたソートを行うようにした。これに対し、動作シーン判定モデル学習手段15は、人物毎の骨格座標情報A2、並びに人物毎及びアクション毎の予測スコアA3について、ソートを行うことなく、各データの正規化等の前処理のみを行うようにしてもよい。
【0132】
また、例えば前記実施形態において、図7に示した動作シーン判定装置20の動作シーン判定手段25は、人物毎の骨格座標情報A2’、並びに人物毎及びアクション毎の予測スコアA3’について、人物を単位としたソートを行うようにした。これに対し、動作シーン判定手段25は、人物毎の骨格座標情報A2’、並びに人物毎及びアクション毎の予測スコアA3’について、ソートを行うことなく、各データの正規化等の前処理のみを行うようにしてもよい。
【0133】
また、例えば前記実施形態において、図7に示した動作シーン判定装置20の動作シーン判定手段25は、動作シーン判定モデルを用いて、人物毎の骨格座標情報A2’、人物毎及びアクション毎の予測スコアA3’、並びに検出人数から、動作シーンラベルL2’を判定するようにした。これに対し、動作シーン判定手段25は、動作シーン判定モデルの代わりに、ルールベースアルゴリズム等を用いるようにしてもよい。
【0134】
例えば、人物毎の骨格座標情報A2’、人物毎及びアクション毎の予測スコアA3’、並びに検出人数のそれぞれのデータに対して、予め動作シーンラベルL2’のそれぞれに対応する閾値、つまり、動作シーンラベルL2’を判定するための条件として閾値を設定しておく。動作シーン判定手段25は、人物毎の骨格座標情報A2’、人物毎及びアクション毎の予測スコアA3’、並びに検出人数のそれぞれのデータと、予め設定されたそれぞれの閾値との間の閾値判定により、動作シーンラベルL2’を判定する。
【0135】
尚、本発明の実施形態による学習装置10及び動作シーン判定装置20のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置10及び動作シーン判定装置20のそれぞれは、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
【0136】
学習装置10に備えた制御部11(骨格検出手段13、アクション抽出手段14及び動作シーン判定モデル学習手段15)及び記憶部12(骨格検出記憶手段16、アクション抽出記憶手段17及び動作シーン判定モデル記憶手段18)の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0137】
また、動作シーン判定装置20の制御部21(骨格検出手段23、アクション抽出手段24及び動作シーン判定手段25)及び記憶部22(骨格検出記憶手段26、アクション抽出記憶手段27及び動作シーン判定モデル記憶手段28)の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0138】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0139】
1 解説音声制作装置
2 情報源
3 音声合成装置
4 配信装置
5,105 携帯端末
6 解説音声制作配信システム
10 学習装置
11,21 制御部
12,22 記憶部
13,23 骨格検出手段
14,24 アクション抽出手段
15 動作シーン判定モデル学習手段
16,26 骨格検出記憶手段
17,27 アクション抽出記憶手段
18,28 動作シーン判定モデル記憶手段
19 更新部
20 動作シーン判定装置
25 動作シーン判定手段
100 視聴者
101 放送送信装置
102 放送受信装置
103 解説音声制作配信装置
104 アプリサーバ
A1,A1’ 映像
A2,A2’ 人物毎の骨格座標情報
A3,A3’ 人物毎及びアクション毎の予測スコア
L1,L2,L2’ 動作シーンラベル
P1,P2,P3,P1’,P2’,P3’ 人物
a,b,c,・・・,x アクション
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11