(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024160884
(43)【公開日】2024-11-15
(54)【発明の名称】映像の文字スーパーの内容を判定するためのモデルを生成する学習装置、文字スーパー判定装置及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241108BHJP
G06V 10/70 20220101ALI20241108BHJP
【FI】
G06T7/00 350B
G06V10/70
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023076378
(22)【出願日】2023-05-03
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(71)【出願人】
【識別番号】399060908
【氏名又は名称】一般財団法人NHK財団
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】島野 雄貴
(72)【発明者】
【氏名】▲桑▼野 裕也
(72)【発明者】
【氏名】高橋 正樹
(72)【発明者】
【氏名】今井 篤
(72)【発明者】
【氏名】都木 徹
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA17
5L096EA16
5L096EA43
5L096FA19
5L096FA32
5L096GA51
5L096HA11
5L096KA04
(57)【要約】
【課題】解説音声サービスによりスポーツ中継等の解説音声をユーザへ提供する際に、安定的かつ高速に文字スーパーの内容を判定する。
【解決手段】学習装置10のかさ増し部11-1は、球速用文字スーパー画像を、予め設定された最大角度以内のランダムな角度で回転させ、かさ増しを行う。二値化部12-1は、かさ増し後の球速用文字スーパー画像を二値化し、球速用二値画像を生成する。学習部13-1は、球速用二値画像及び正解ラベルを用いて、球速用二値画像を入力データとし、球速用ラベルを出力データとするモデルの入力データと出力データとの間の関係を学習し、球速用スーパー内容判定モデルを生成する。学習装置10は、同様に、ボールカウント用文字スーパー画像及び正解ラベルを用いて、ボールカウント用スーパー内容判定モデルを生成し、打順用文字スーパー画像及び正解ラベルを用いて、打順用スーパー内容判定モデルを生成する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
文字スーパーを含む映像の解説テキストが生成される際に用いる、前記文字スーパーの内容を判定するためのモデルを生成する学習装置において、
前記文字スーパーの画像を文字スーパー画像として入力し、前記文字スーパー画像に含まれる文字の領域と前記文字を除く領域とを区別するように、前記文字スーパー画像を構成する各画素を二値化し、二値画像を生成する二値化部と、
前記文字スーパー画像に付与されたラベルであって、前記文字スーパー画像に含まれる文字を識別するための前記ラベルを正解ラベルとして、
前記二値化部により生成された前記二値画像及び前記正解ラベルを用いて、前記二値画像を入力データとし、前記二値画像に含まれる文字を識別するためのラベルを出力データとするモデルにおける前記入力データと前記出力データとの間の関係を学習し、スーパー内容判定モデルを生成する学習部と、
を備えたことを特徴とする学習装置。
【請求項2】
請求項1に記載の学習装置において、
さらに、前記文字スーパー画像を、予め設定された最大角度以内のランダムな角度で回転させることで、前記文字スーパー画像のかさ増しを行うかさ増し部を備え、
前記二値化部は、
前記かさ増し部によりかさ増しが行われた複数の前記文字スーパー画像のそれぞれについて、前記二値画像を生成する、ことを特徴とする学習装置。
【請求項3】
文字スーパーを含む映像の解説テキストを生成するために、前記文字スーパーの内容を判定する文字スーパー判定装置において、
映像を入力し、前記映像の予め設定された領域から、前記文字スーパーの画像を文字スーパー画像として切り出す画像切り出し部と、
前記画像切り出し部により切り出された前記文字スーパー画像に含まれる文字の領域と前記文字を除く領域とを区別するように、前記文字スーパー画像を構成する各画素を二値化し、二値画像を生成する二値化部と、
請求項1または2に記載の学習装置により生成されたスーパー内容判定モデルを用いて、前記二値化部により生成された前記二値画像から、当該二値画像に含まれる前記文字を識別するためのラベルを判定する判定部と、
を備えたことを特徴とする文字スーパー判定装置。
【請求項4】
請求項3に記載の文字スーパー判定装置において、
前記画像切り出し部は、
前記映像の予め設定された領域の平均輝度値を算出し、前記平均輝度値が予め設定された閾値以下である場合、前記映像に前記文字スーパーが含まれていると判定し、前記領域から前記文字スーパー画像を切り出し、前記平均輝度値が前記閾値よりも大きい場合、前記映像に前記文字スーパーが含まれていないと判定する、ことを特徴とする文字スーパー判定装置。
【請求項5】
請求項3に記載の文字スーパー判定装置において、
さらに、前記判定部により判定された前記ラベルに対応する文字を、予め設定されたテンプレートに挿入し、前記映像のシーンを解説するための前記解説テキストを生成する解説テキスト生成部を備えたことを特徴とする文字スーパー判定装置。
【請求項6】
請求項3に記載の文字スーパー判定装置において、
さらに、前記判定部により判定された前記ラベルを入力したときの当該ラベルを第一ラベルとし、前記第一ラベルの直前に入力したラベルを第二ラベルとして、前記第一ラベルを入力し、前記第一ラベルと前記第二ラベルとが異なると判定した場合、整合性チェックOKを判断して前記第一ラベルを出力し、前記第一ラベルと前記第二ラベルとが同じであると判定した場合、整合性チェックNGを判断する整合部と、
前記整合部により出力された前記第一ラベルに対応する文字を、予め設定されたテンプレートに挿入し、前記映像のシーンを解説するための前記解説テキストを生成する解説テキスト生成部と、
を備えたことを特徴とする文字スーパー判定装置。
【請求項7】
請求項3に記載の文字スーパー判定装置において、
さらに、前記判定部により判定された前記ラベルを入力したときの当該ラベルを第三ラベルとして、所定時点から前記第三ラベルを入力した時点までの経過時間を求め、前記経過時間が予め設定された閾値の時間を経過していると判定した場合、整合性チェックOKを判断して前記第三ラベルを出力し、前記経過時間が前記閾値の時間を経過していないと判定した場合、整合性チェックNGを判断する整合部と、
前記整合部により出力された前記第三ラベルに対応する文字を、予め設定されたテンプレートに挿入し、前記映像のシーンを解説するための前記解説テキストを生成する解説テキスト生成部と、を備え、
前記整合部により前記経過時間を求めるための前記所定時点を、前記解説テキスト生成部が、前記第三ラベルの直前に前記整合部により出力されたラベルに対応する文字について前記解説テキストを生成した時点とする、ことを特徴とする文字スーパー判定装置。
【請求項8】
文字スーパーを含む映像の解説テキストが生成される際に用いる、前記文字スーパーの内容を判定するためのモデルを生成する学習装置を構成するコンピュータを、
前記文字スーパーの画像を文字スーパー画像として入力し、前記文字スーパー画像に含まれる文字の領域と前記文字を除く領域とを区別するように、前記文字スーパー画像を構成する各画素を二値化し、二値画像を生成する二値化部、及び、
前記文字スーパー画像に付与されたラベルであって、前記文字スーパー画像に含まれる文字を識別するための前記ラベルを正解ラベルとして、
前記二値化部により生成された前記二値画像及び前記正解ラベルを用いて、前記二値画像を入力データとし、前記二値画像に含まれる文字を識別するためのラベルを出力データとするモデルにおける前記入力データと前記出力データとの間の関係を学習し、スーパー内容判定モデルを生成する学習部として機能させるためのプログラム。
【請求項9】
文字スーパーを含む映像の解説テキストを生成するために、前記文字スーパーの内容を判定する文字スーパー判定装置を構成するコンピュータを、
映像を入力し、前記映像の予め設定された領域から、前記文字スーパーの画像を文字スーパー画像として切り出す画像切り出し部、
前記画像切り出し部により切り出された前記文字スーパー画像に含まれる文字の領域と前記文字を除く領域とを区別するように、前記文字スーパー画像を構成する各画素を二値化し、二値画像を生成する二値化部、及び、
請求項1または2に記載の学習装置により生成されたスーパー内容判定モデルを用いて、前記二値化部により生成された前記二値画像から、当該二値画像に含まれる前記文字を識別するためのラベルを判定する判定部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像の文字スーパーの内容を判定するためのモデルを生成する学習装置、映像の文字スーパーの内容を判定する文字スーパー判定装置、及びこれらのプログラムに関し、特に、視覚障害者の視聴を支援する技術等において、ながら視聴を行う健常者を含む多くのユーザに向けた音声配信サービスに使用する技術である。
【背景技術】
【0002】
放送は、視聴者の視覚及び聴覚へ情報を提供するメディアである。しかし、放送により提供される映像情報は、視覚障害者にはほとんど伝わらない。そこで、映像情報を補完するためのサービスとして、解説音声サービスが提案されている(例えば特許文献1を参照)。
【0003】
解説音声サービスは、例えば番組を放送すると共に、その放送番組の解説音声を視聴者へ提供するものである。しかし、スポーツ中継等の生放送番組については、コストの問題、技術的な困難さ等から解説音声サービスがほとんど実現されていないのが現状である。
【0004】
このような状況に鑑みて、生放送番組についても解説音声サービスを実現するために、本件特許出願の同一の出願人によりなされた、本件特許出願時に未公開の特願2022-082878号公報に記載の解説音声制作配信システムが提案されている。
【0005】
この解説音声制作配信システムは、画像認識技術を用いて解説テキストを自動的に付与したり、解説音声を提供する情報源を拡張したりすることで、システム自体の拡張性及び汎用性を実現し、解説音声サービスの品質の向上を図るものである。
【0006】
また、解説音声サービスに用いる技術として、本件特許出願の同一の出願人によりなされた、本件特許出願時に未公開の特願2023-016933号公報に記載のものも提案されている。この技術は、ユーザ操作に従って解説音声の情報量を個別に設定することで、解説音声サービスの質を向上させるものである。
【0007】
一方で、画像から文字を認識する汎用的な画像認識技術として、光学文字認識 (OCR)によるTesseract(テッセラクト)と呼ばれる光学文字認識エンジンが知られている(例えば非特許文献1を参照)。この光学文字認識エンジンは、2007年から更新されており、現在に至っている(例えば非特許文献2を参照)。
【先行技術文献】
【特許文献】
【0008】
【非特許文献】
【0009】
【非特許文献1】Ray Smith,“An Overview of the Tesseract OCR Engine”,ICDAR,pp.629-633,2007
【非特許文献2】“tesseract OCR/tesseract”、[online]、GitHub,Inc.、[令和5年4月6日検索]、インターネット<URL:https://github.com/tesseract-ocr/tesseract>
【発明の概要】
【発明が解決しようとする課題】
【0010】
前述の解説音声制作配信システムは、コストを抑え、技術的困難さを軽減した上で、解説音声サービスを実現するものであるが、オペレータによる手動(人手)にて解説テキストを生成する場合が多く、オペレーションに限界があるという問題があった。
【0011】
例えば、解説を付与すべきイベントが一度に大量に発生した場合、オペレータによる解説テキストを生成する手動の処理では、十分に対応することができず、オペレータには大きな負荷となっていた。
【0012】
また、野球中継放送における球速が表示された文字スーパーのような表示時間の短い情報については、オペレータは見逃し易く、それを見逃した場合には、その解説をユーザへ提供することができなくなってしまう。
【0013】
このように、オペレータによる手動にて解説テキストを生成する負荷を低減し、放送番組の映像のシーンの解説を、映像に応じてリアルタイムにユーザへ提供する仕組みが所望されていた。
【0014】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、解説音声サービスによりスポーツ中継等の解説音声をユーザへ提供する際に、安定的かつ高速に文字スーパーの内容を判定可能な学習装置、文字スーパー判定装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0015】
前記課題を解決するために、請求項1の学習装置は、文字スーパーを含む映像の解説テキストが生成される際に用いる、前記文字スーパーの内容を判定するためのモデルを生成する学習装置において、前記文字スーパーの画像を文字スーパー画像として入力し、前記文字スーパー画像に含まれる文字の領域と前記文字を除く領域とを区別するように、前記文字スーパー画像を構成する各画素を二値化し、二値画像を生成する二値化部と、前記文字スーパー画像に付与されたラベルであって、前記文字スーパー画像に含まれる文字を識別するための前記ラベルを正解ラベルとして、前記二値化部により生成された前記二値画像及び前記正解ラベルを用いて、前記二値画像を入力データとし、前記二値画像に含まれる文字を識別するためのラベルを出力データとするモデルにおける前記入力データと前記出力データとの間の関係を学習し、スーパー内容判定モデルを生成する学習部と、を備えたことを特徴とする。
【0016】
また、請求項2の学習装置は、請求項1に記載の学習装置において、さらに、前記文字スーパー画像を、予め設定された最大角度以内のランダムな角度で回転させることで、前記文字スーパー画像のかさ増しを行うかさ増し部を備え、前記二値化部が、前記かさ増し部によりかさ増しが行われた複数の前記文字スーパー画像のそれぞれについて、前記二値画像を生成する、ことを特徴とする。
【0017】
さらに、請求項3の文字スーパー判定装置は、文字スーパーを含む映像の解説テキストを生成するために、前記文字スーパーの内容を判定する文字スーパー判定装置において、映像を入力し、前記映像の予め設定された領域から、前記文字スーパーの画像を文字スーパー画像として切り出す画像切り出し部と、前記画像切り出し部により切り出された前記文字スーパー画像に含まれる文字の領域と前記文字を除く領域とを区別するように、前記文字スーパー画像を構成する各画素を二値化し、二値画像を生成する二値化部と、請求項1または2に記載の学習装置により生成されたスーパー内容判定モデルを用いて、前記二値化部により生成された前記二値画像から、当該二値画像に含まれる前記文字を識別するためのラベルを判定する判定部と、を備えたことを特徴とする。
【0018】
また、請求項4の文字スーパー判定装置は、請求項3に記載の文字スーパー判定装置において、前記画像切り出し部が、前記映像の予め設定された領域の平均輝度値を算出し、前記平均輝度値が予め設定された閾値以下である場合、前記映像に前記文字スーパーが含まれていると判定し、前記領域から前記文字スーパー画像を切り出し、前記平均輝度値が前記閾値よりも大きい場合、前記映像に前記文字スーパーが含まれていないと判定する、ことを特徴とする。
【0019】
また、請求項5の文字スーパー判定装置は、請求項3に記載の文字スーパー判定装置において、さらに、前記判定部により判定された前記ラベルに対応する文字を、予め設定されたテンプレートに挿入し、前記映像のシーンを解説するための前記解説テキストを生成する解説テキスト生成部を備えたことを特徴とする。
【0020】
また、請求項6の文字スーパー判定装置は、請求項3に記載の文字スーパー判定装置において、さらに、前記判定部により判定された前記ラベルを入力したときの当該ラベルを第一ラベルとし、前記第一ラベルの直前に入力したラベルを第二ラベルとして、前記第一ラベルを入力し、前記第一ラベルと前記第二ラベルとが異なると判定した場合、整合性チェックOKを判断して前記第一ラベルを出力し、前記第一ラベルと前記第二ラベルとが同じであると判定した場合、整合性チェックNGを判断する整合部と、前記整合部により出力された前記第一ラベルに対応する文字を、予め設定されたテンプレートに挿入し、前記映像のシーンを解説するための前記解説テキストを生成する解説テキスト生成部と、を備えたことを特徴とする。
【0021】
また、請求項7の文字スーパー判定装置は、請求項3に記載の文字スーパー判定装置において、さらに、前記判定部により判定された前記ラベルを入力したときの当該ラベルを第三ラベルとして、所定時点から前記第三ラベルを入力した時点までの経過時間を求め、前記経過時間が予め設定された閾値の時間を経過していると判定した場合、整合性チェックOKを判断して前記第三ラベルを出力し、前記経過時間が前記閾値の時間を経過していないと判定した場合、整合性チェックNGを判断する整合部と、前記整合部により出力された前記第三ラベルに対応する文字を、予め設定されたテンプレートに挿入し、前記映像のシーンを解説するための前記解説テキストを生成する解説テキスト生成部と、を備え、前記整合部により前記経過時間を求めるための前記所定時点を、前記解説テキスト生成部が、前記第三ラベルの直前に前記整合部により出力されたラベルに対応する文字について前記解説テキストを生成した時点とする、ことを特徴とする。
【0022】
さらに、請求項8のプログラムは、文字スーパーを含む映像の解説テキストが生成される際に用いる、前記文字スーパーの内容を判定するためのモデルを生成する学習装置を構成するコンピュータを、前記文字スーパーの画像を文字スーパー画像として入力し、前記文字スーパー画像に含まれる文字の領域と前記文字を除く領域とを区別するように、前記文字スーパー画像を構成する各画素を二値化し、二値画像を生成する二値化部、及び、前記文字スーパー画像に付与されたラベルであって、前記文字スーパー画像に含まれる文字を識別するための前記ラベルを正解ラベルとして、前記二値化部により生成された前記二値画像及び前記正解ラベルを用いて、前記二値画像を入力データとし、前記二値画像に含まれる文字を識別するためのラベルを出力データとするモデルにおける前記入力データと前記出力データとの間の関係を学習し、スーパー内容判定モデルを生成する学習部として機能させることを特徴とする。
【0023】
また、請求項9のプログラムは、文字スーパーを含む映像の解説テキストを生成するために、前記文字スーパーの内容を判定する文字スーパー判定装置を構成するコンピュータを、映像を入力し、前記映像の予め設定された領域から、前記文字スーパーの画像を文字スーパー画像として切り出す画像切り出し部、前記画像切り出し部により切り出された前記文字スーパー画像に含まれる文字の領域と前記文字を除く領域とを区別するように、前記文字スーパー画像を構成する各画素を二値化し、二値画像を生成する二値化部、及び、請求項1または2に記載の学習装置により生成されたスーパー内容判定モデルを用いて、前記二値化部により生成された前記二値画像から、当該二値画像に含まれる前記文字を識別するためのラベルを判定する判定部として機能させることを特徴とする。
【発明の効果】
【0024】
以上のように、本発明によれば、解説音声サービスによりスポーツ中継等の解説音声をユーザへ提供する際に、安定的かつ高速に文字スーパーの内容を判定することができる。
【図面の簡単な説明】
【0025】
【
図1】本発明の実施形態による学習装置及び文字スーパー判定装置を含む解説音声制作配信システムの全体構成例を説明する概略図である。
【
図2】本発明の実施形態による学習装置の構成例を示すブロック図である。
【
図3】学習装置の球速用学習処理例を示すフローチャートである。
【
図4】学習部の処理例(ステップS304)を説明する図である。
【
図5】球速用スーパー内容判定モデルの構造例を示す概略図である。
【
図6】本発明の実施形態による文字スーパー判定装置の構成例を示すブロック図である。
【
図7】文字スーパー判定装置の処理例を示すフローチャートである。
【
図8】攻守判定部の処理例(ステップS702)を示すフローチャートである。
【
図9】画像切り出し部の処理例(ステップS703,S704)を説明する図である。
【
図10】(1)は、映像の例を示す図である。(2)は、文字スーパーの例を示す図である。
【
図11】判定部の処理例(ステップS706-1)を説明する図である。
【
図12】整合部による球速整合性チェックの例(ステップS707-1)を示すフローチャートである。
【
図13】整合部によるボールカウント(ストライク)整合性チェックの例(ステップS707-2)を示すフローチャートである。
【
図14】整合部によるボールカウント(アウト)整合性チェックの例(ステップS707-2)を示すフローチャートである。
【
図15】整合部による打順整合性チェックの例(ステップS707-3)を示すフローチャートである。
【
図16】解説テキスト生成部の処理例を説明する図である。
【発明を実施するための形態】
【0026】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、番組の映像に付加されたリアルタイムの表示情報に着目したものであり、例えばスポーツ中継番組の野球中継において、映像に表示される文字スーパー(球速、ボールカウント及び打順)を学習データとして学習済モデルを生成し、当該学習済モデルを用いて、映像の画像認識を行うことで文字スーパーの内容を判定するものである。そして、判定された文字スーパーの内容から、映像のシーンを解説するための解説テキストが生成され、その解説音声がユーザへ提供される。
【0027】
これにより、解説音声サービスによりスポーツ中継等の解説音声をユーザへ提供する際に、安定的かつ高速に文字スーパーの内容を判定することができる。
【0028】
〔解説音声制作配信システム〕
まず、解説音声サービスを実現する解説音声制作配信システムについて説明する。
図1は、本発明の実施形態による学習装置及び文字スーパー判定装置を含む解説音声制作配信システムの全体構成例を説明する概略図である。
【0029】
この解説音声制作配信システム6は、解説音声制作装置1、複数の情報源2、音声合成装置3、配信装置4及び携帯端末5を備えて構成される。
【0030】
解説音声制作装置1は、ライブ配信しているスポーツ番組等の解説音声を制作する際の解説テキストを発話毎に生成する装置である。解説音声制作装置1は、複数の情報源2のそれぞれから、ライブ配信しているスポーツ番組の試合状況等に応じたリアルタイムのデータを入力する。
【0031】
そして、解説音声制作装置1は、データの入力元である情報源2独自のデータフォーマットに従ってデータを解析することで、データからテキスト要素を抽出し、テキスト要素にラベルを付与し、ラベルが付与されたテキスト要素を情報管理テーブルに格納する。
【0032】
ここで、テキスト要素は、生成したい解説テキスト(発話したい内容のテキスト)を構成する1または複数の要素である。ラベルは、テキスト要素の内容を識別するための属性の情報である。
【0033】
解説音声制作装置1は、発話の解説テキストを生成するために、テンプレートに定義された発話定義データに従い、情報管理テーブルからラベルが付与されたテキスト要素を読み出す。そして、解説音声制作装置1は、ラベルが付与されたテキスト要素及び再生時刻を含むJsonデータである発話データを生成すると共に、解説テキストを生成する。
【0034】
解説音声制作装置1は、発話毎に、発話データ及び解説テキストを音声合成装置3へ出力すると共に、発話データを配信装置4へ出力する。
【0035】
情報源2は、例えば競技種目毎の複数の情報源からなる。
図1に示すように、野球の複数の情報源としては、例えばODFの仕様に従ったオリンピック関連のデータを配信する情報源2-1、BISの仕様に従ったプロ野球関連のデータを配信する情報源2-2がある。また、放送番組を視聴しているオペレータの手動入力ツールの操作により、所定の仕様に従った野球関連のデータを配信する情報源2-3がある。
【0036】
さらに、オペレータの手動操作によることなく、予め生成されたスーパー内容判定モデルを用いた自動入力ツールにより、映像から画像認識による文字スーパーの内容を自動的かつリアルタイムに判定し、文字スーパーの内容等を反映した解説テキストを生成し、Jsonデータからなる発話データを生成し、発話データ等をリアルタイムのデータとして配信する情報源2-4がある。この情報源2-4は、本発明の実施形態による学習装置10及び文字スーパー判定装置20に相当する。
【0037】
尚、解説音声制作装置1は、この情報源2-4から発話データ等を入力した場合、発話データ及び解説テキストの生成処理を行うことなく、発話データ及び解説テキストを音声合成装置3へ出力し、発話データを配信装置4へ出力する。
【0038】
音声合成装置3は、解説音声制作装置1から発話データ及び解説テキストを入力し、既存技術により、解説テキストから合成音を生成することで音声ファイルを生成する。そして、音声合成装置3は、発話データ及び音声ファイルを配信装置4へ出力する。
【0039】
配信装置4は、解説音声制作装置1から発話データを入力すると共に、音声合成装置3から発話データ及び音声ファイルを入力し、同じ発話データの音声ファイルを発話データと共に携帯端末5へ配信する。
【0040】
携帯端末5は、配信装置4から配信された発話データ及び音声ファイルを受信し、発話データ及び音声ファイルを用いて、発話対象の音声の再生を行う。
【0041】
図1に示した解説音声制作配信システム6は、放送、インターネット等の映像メディアサービスに適用することができ、また、携帯アプリでの緊急速報に代表されるセキュリティシステム等、様々な用途にも適用することができる。
【0042】
以下、スポーツ中継番組のうち野球中継の番組を対象として、映像に含まれる文字スーパーの内容を判定するための学習済モデルを生成する例について説明する。また、野球中継の番組の映像に対し、当該学習済モデルを用いて、映像に含まれる文字スーパーの内容を判定し、その内容を反映した解説テキストを生成する例について説明する。尚、文字には数字が含まれるものとし、以下の野球中継の番組の映像については、文字スーパーの数字を判定するものとする。
【0043】
〔学習装置10〕
まず、本発明の実施形態による学習装置10について説明する。
図2は、本発明の実施形態による学習装置10の構成例を示すブロック図である。
【0044】
この学習装置10は、映像に含まれる文字スーパーの内容を判定するための学習済モデルであるスーパー内容判定モデルを生成する装置である。学習装置10は、かさ増し部11-1,11-2,11-3、二値化部12-1,12-2,12-3、学習部13-1,13-2,13-3及び記憶部14を備えている。
【0045】
かさ増し部11-1、二値化部12-1及び学習部13-1は、球速用文字スーパー画像及び当該球速用文字スーパー画像に付与されたラベル(正解ラベル)を用いて、球速用スーパー内容判定モデルを生成する。球速用文字スーパー画像の正解ラベルは、[0]~[9],[None]のうちのいずれかのラベルである。
【0046】
球速用文字スーパー画像とは、野球中継の映像に含まれる文字スーパーに使用される球速表示において、1桁の数字に対応する画像である。例えば後述する
図10(1)に示す映像に含まれる文字スーパーには、球速として「142km/h」が表示されている。球速用文字スーパー画像は、これらの数字[1][4][2]のそれぞれに対応する1桁の数字を含む画像に相当する。
【0047】
また、かさ増し部11-2、二値化部12-2及び学習部13-2は、ボールカウント用文字スーパー画像及び当該ボールカウント用文字スーパー画像に付与されたラベル(正解ラベル)を用いて、ボールカウント用スーパー内容判定モデルを生成する。ボールカウント用文字スーパー画像の正解ラベルは、[0]~[3],[None]のうちのいずれかのラベルである。
【0048】
尚、ボールカウントには、ボール(B)、ストライク(S)及びアウト(O)の3つのカウントがある。
【0049】
ボールカウント用文字スーパー画像とは、野球中継の映像に含まれる文字スーパーに使用されるボールカウント表示において、1桁の数字に対応する画像である。例えば後述する
図10(1)に示す映像に含まれる文字スーパーには、ボール(B)として[2]、ストライク(S)として[2]、アウト(O)として[0]のボールカウントが表示されている。ボールカウント用文字スーパー画像は、これらの数字[2][2][0]のそれぞれに対応する1桁の数字を含む画像に相当する。
【0050】
また、かさ増し部11-3、二値化部12-3及び学習部13-3は、打順用文字スーパー画像及び当該打順用文字スーパー画像に付与されたラベル(正解ラベル)を用いて、打順用スーパー内容判定モデルを生成する。打順用文字スーパー画像の正解ラベルは、[1]~[9],[None]のうちのいずれかのラベルである。
【0051】
打順用文字スーパー画像とは、野球中継の映像に含まれる文字スーパーに使用される打順表示において、1桁の数字に対応する画像である。例えば後述する
図10(1)に示す映像に含まれる文字スーパーには、打順[4][5][6]が表示されている。打順用文字スーパー画像は、これらの数字[4][5][6]のそれぞれに対応する1桁の数字を含む画像に相当する。
【0052】
球速用スーパー内容判定モデルを生成するための球速用文字スーパー画像、ボールカウント用スーパー内容判定モデルを生成するためのボールカウント用文字スーパー画像、及び打順用スーパー内容判定モデルを生成するための打順用文字スーパー画像は、例えば野球中継の映像に含まれる文字スーパーの画像から切り出したものが用いられる。
【0053】
このように、学習装置10により生成されるモデルは、球速、ボールカウント及び打順の全てに対応する1つのモデルではなく、それぞれに対応する合計3つのモデルである。つまり、球速については球速用スーパー内容判定モデル、ボールカウントについてはボールカウント用スーパー内容判定モデル、打順については打順用スーパー内容判定モデルが生成されるように、区別している。
【0054】
これは、球速、ボールカウント及び打順について、これらのフォント及びサイズが異なり、またレンジも異なるからである。例えば、球速の各桁のレンジは0~9であり、ボールカウントのレンジは0~3であり、打順のレンジは1~9であり、それぞれのレンジが異なる。
【0055】
したがって、モデルを分けることにより、1つのモデルを用いる場合に比べ、球速、ボールカウント及び打順の判定精度を向上させることができる。
【0056】
(球速用スーパー内容判定モデルの生成)
まず、かさ増し部11-1、二値化部12-1及び学習部13-1が球速用スーパー内容判定モデルを生成する処理について説明する。
図3は、学習装置10の球速用学習処理例を示すフローチャートである。
【0057】
図2及び
図3を参照して、学習装置10は、映像に含まれる文字スーパーに表示される複数の桁の数字からなる球速について、複数の桁にそれぞれ使用される1桁の数字(0~9)を含む球速用文字スーパー画像を入力すると共に、当該球速用文字スーパー画像に付与されたラベル(正解ラベル、[0]~[9]のうちのいずれかを示すラベル)を入力する(ステップS301)。
【0058】
この場合、学習装置10は、スーパーの表示がオン(スーパーオン)に設定されている場合に対応するため、前述のデータを正例データとして入力する。一方、学習装置10は、スーパーの表示がオフ(スーパーオフ)に設定されている場合に対応して、負例データも入力する。つまり、学習装置10は、球速が反映されていない画像及びこの画像に付与されたラベル(正解ラベル、[None]を示すラベル)を、球速用文字スーパー画像及び正解ラベルとして入力する。
【0059】
かさ増し部11-1は、1桁の数字(0~9)を含む球速用文字スーパー画像または数字を含まない球速用文字スーパー画像を入力する。そして、かさ増し部11-1は、予め設定された最大角度以内の複数のランダムな角度を設定し、球速用文字スーパー画像を、複数のランダムな角度のそれぞれにて回転させることで、かさ増しを行う(ステップS302)。
【0060】
かさ増し部11-1は、かさ増しされた複数の回転後の球速用文字スーパー画像を生成し、これらの画像のそれぞれをかさ増し後の球速用文字スーパー画像として二値化部12-1に出力する。
【0061】
例えば予め設定された最大角度として、5度が用いられる。これは、野球中継の番組においては、球速を表す数字が反転したり、横に倒れたりすることはなく、比較的変化が少ないからである。また、かさ増し部11-1により、例えば1枚の球速用文字スーパー画像から1000枚のかさ増し後の球速用文字スーパー画像が生成される。
【0062】
これにより、入力した球速用文字スーパー画像に回転を加えてかさ増しすることで、効率的な学習を行うことができ、過学習を抑制することができる。また、後述する文字スーパー判定装置20において、未知の映像に含まれる文字スーパーに対する認識率を高めることができる。
【0063】
二値化部12-1は、かさ増し部11-1から、かさ増し後の球速用文字スーパー画像を入力し、球速用文字スーパー画像に含まれる文字(本例では数字)の領域と文字を除く領域とを区別するように、球速用文字スーパー画像を構成する各画素を二値化する(ステップS303)。そして、二値化部12-1は、二値化により球速用二値画像を生成し、球速用二値画像を学習部13-1に出力する。
【0064】
このように、二値化部12-1が球速用二値画像を生成し、学習部13-1が球速用二値画像を用いて学習処理を行うことにより、この学習処理を簡易にすることができる。後述する二値化部12-2,12-3及び学習部13-2,13-3についても同様である。
【0065】
学習部13-1は、二値化部12-1から球速用二値画像を入力すると共に、学習装置10が入力した球速用文字スーパー画像に付与された正解ラベルを入力する。
【0066】
学習部13-1は、球速用二値画像及び正解ラベルを用いて、球速用二値画像を入力データとし、球速用二値画像のラベル(球速用ラベル)を出力データとするモデルにおける入力データと出力データとの間の関係を学習し、学習済モデルとして球速用スーパー内容判定モデルを生成する(ステップS304)。そして、学習部13-1は、球速用スーパー内容判定モデル(のパラメータ)を記憶部14に格納する(ステップS305)。
【0067】
図4は、学習部13-1の処理例(ステップS304)を説明する図である。
図4に示すように、球速用二値画像を入力データとし、球速用ラベルを出力データとするモデル(生成対象の球速用スーパー内容判定モデル)に対し、二値化部12-1により生成された球速用二値画像が入力され、球速用ラベルが判定され出力される。球速用ラベルは、0~9,Noneのうちのいずれかを示すラベルである。
【0068】
そして、更新部により、学習部13-1が入力した正解ラベルと、モデルが出力した球速用ラベルとが同一になるように、モデルのパラメータが更新される。
【0069】
このようなモデルのパラメータを更新する学習処理としては、例えば誤差逆伝播法(back propagation)が用いられる。また、モデルとしては、例えば後述する
図5に示すニューラルネットワークが用いられる。尚、モデルは、入力データと出力データとの間の関係を、教師あり学習により学習できるものであれば、どのようなニューラルネットワークであってもよい。
【0070】
図5は、球速用スーパー内容判定モデルの構造例を示す概略図である。この球速用スーパー内容判定モデルは、主として、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)及び順伝播ニューラルネットワーク(Feed Forward Neural Network:FFN)により構成される。また、過学習の抑制のために、ドロップアウト(Dropout)層が設けられている。
【0071】
具体的には、この球速用スーパー内容判定モデルは、CNN及び整流化線形ユニット(ReLU)並びに最大値プーリング(Maxpooling)層が3層設けられており、さらに、Dropout層、平滑化(Flatten)層、FFN及びReLU、並びにFFN及びソフトマックス(Softmax)関数の層により構成される。
【0072】
入力層には、球速用二値画像が入力データとして入力される。出力層からは、[0]~[9],[None]のそれぞれに対応する球速用ラベルのうち、スコアが最大の球速用ラベルが出力データとして出力される。
図5の例では、[2]の球速用ラベルが出力されることを示している。
【0073】
尚、
図5の構造例は、球速用スーパー内容判定モデルだけでなく、ボールカウント用スーパー内容判定モデル及び打順用スーパー内容判定モデルにも適用がある。これらのモデルは、最終の出力層の次元数が異なるだけで、他の構造については同じである。
【0074】
このように、球速用文字スーパー画像がかさ増しされて球速用二値画像が生成され、球速用二値画像及び正解ラベルを用いて、球速用スーパー内容判定モデルが生成される。
【0075】
(ボールカウント用スーパー内容判定モデルの生成)
次に、かさ増し部11-2、二値化部12-2及び学習部13-2がボールカウント用スーパー内容判定モデルを生成する処理について説明する。
【0076】
学習装置10は、映像に含まれる文字スーパーに表示されるボール、ストライク及びアウトのカウント数を示す1桁の数字からなるボールカウントを含むボールカウント用文字スーパー画像を入力すると共に、当該ボールカウント用文字スーパー画像に付与されたラベル(正解ラベル、[0]~[3]のうちのいずれかを示すラベル)を入力する。
【0077】
この場合、学習装置10は、スーパーオンに設定されている場合に対応するため、前述のデータを正例データとして入力する。一方、学習装置10は、スーパーオフに設定されている場合に対応して、負例データも入力する。つまり、学習装置10は、ボールカウントが反映されていない画像及びこの画像に付与されたラベル(正解ラベル、[None]を示すラベル)を、ボールカウント用文字スーパー画像及び正解ラベルとして入力する。
【0078】
かさ増し部11-2は、1桁の数字(0~3)を含むボールカウント用文字スーパー画像または数字を含まないボールカウント用文字スーパー画像を入力する。そして、かさ増し部11-2は、かさ増し部11-1と同様の処理を行い、かさ増し後のボールカウント用文字スーパー画像を二値化部12-2に出力する。
【0079】
二値化部12-2は、かさ増し部11-2から、かさ増し後のボールカウント用文字スーパー画像を入力し、二値化部12-1と同様の処理を行い、ボールカウント用二値画像を学習部13-2に出力する。
【0080】
学習部13-2は、二値化部12-2からボールカウント用二値画像を入力すると共に、学習装置10が入力したボールカウント用文字スーパー画像に付与された正解ラベルを入力する。そして、学習部13-2は、ボールカウント用二値画像及び正解ラベルを用いて、学習部13-1の処理と同様に、ボールカウント用二値画像を入力データとし、ボールカウント用二値画像のラベル(ボールカウント用ラベル)を出力データとするモデルにおける入力データと出力データとの間の関係を学習し、学習済モデルとしてボールカウント用スーパー内容判定モデルを生成する。そして、学習部13-2は、ボールカウント用スーパー内容判定モデル(のパラメータ)を記憶部14に格納する。
【0081】
このように、ボールカウント用文字スーパー画像がかさ増しされてボールカウント用二値化画像が生成され、ボールカウント用二値画像及び正解ラベルを用いて、ボールカウント用スーパー内容判定モデルが生成される。
【0082】
(打順用スーパー内容判定モデルの生成)
次に、かさ増し部11-3、二値化部12-3及び学習部13-3が打順用スーパー内容判定モデルを生成する処理について説明する。
【0083】
学習装置10は、映像に含まれる文字スーパーに表示される1桁の数字からなる打順について、その1桁の数字(1~9)を含む打順用文字スーパー画像を入力すると共に、当該打順用文字スーパー画像に付与されたラベル(正解ラベル、[1]~[9]のうちのいずれかを示すラベル)を入力する。
【0084】
この場合、学習装置10は、スーパーオンに設定されている場合に対応するため、前述のデータを正例データとして入力する。一方、学習装置10は、スーパーオフに設定されている場合に対応して、負例データも入力する。つまり、学習装置10は、打順が反映されていない画像及びこの画像に付与されたラベル(正解ラベル、[None]を示すラベル)を、打順用文字スーパー画像及び正解ラベルとして入力する。
【0085】
かさ増し部11-3は、1桁の数字(1~9)を含む打順用文字スーパー画像または数字を含まない打順用文字スーパー画像を入力する。そして、かさ増し部11-3は、かさ増し部11-1と同様の処理を行い、かさ増し後の打順用文字スーパー画像を二値化部12-3に出力する。
【0086】
二値化部12-3は、かさ増し部11-3から、かさ増し後の打順用文字スーパー画像を入力し、二値化部12-1と同様の処理を行い、打順用二値画像を学習部13-3に出力する。
【0087】
学習部13-3は、二値化部12-3から打順用二値画像を入力すると共に、学習装置10が入力した打順用文字スーパー画像に付与された正解ラベルを入力する。そして、学習部13-3は、打順用二値画像及び正解ラベルを用いて、学習部13-1の処理と同様に、打順用二値画像を入力データとし、打順用二値画像のラベル(打順用ラベル)を出力データとするモデルにおける入力データと出力データとの間の関係を学習し、学習済モデルとして打順用スーパー内容判定モデルを生成する。そして、学習部13-3は、打順用スーパー内容判定モデル(のパラメータ)を記憶部14に格納する。
【0088】
このように、打順用文字スーパー画像がかさ増しされて打順用二値化画像が生成され、打順用二値画像及び正解ラベルを用いて、打順用スーパー内容判定モデルが生成される。
【0089】
以上のように、本発明の実施形態の学習装置10によれば、かさ増し部11-1は、球速用文字スーパー画像を、予め設定された最大角度以内のランダムな角度で回転させることで、かさ増しを行う。二値化部12-1は、かさ増し後の球速用文字スーパー画像を二値化し、球速用二値画像を生成する。
【0090】
学習部13-1は、球速用二値画像及び正解ラベルを用いて、球速用二値画像を入力データとし、球速用ラベルを出力データとするモデルにおける入力データと出力データとの間の関係を学習し、学習済モデルとして球速用スーパー内容判定モデルを生成し、記憶部14に格納する。
【0091】
かさ増し部11-2、二値化部12-2及び学習部13-2は、かさ増し部11-1、二値化部12-1及び学習部13-1と同様の処理を行い、ボールカウント用文字スーパー画像及び正解ラベルを用いて、ボールカウント用スーパー内容判定モデルを生成し、記憶部14に格納する。
【0092】
かさ増し部11-3、二値化部12-3及び学習部13-3は、かさ増し部11-1、二値化部12-1及び学習部13-1と同様の処理を行い、打順用文字スーパー画像及び正解ラベルを用いて、打順用スーパー内容判定モデルを生成し、記憶部14に格納する。
【0093】
このようにして生成された球速用スーパー内容判定モデル、ボールカウント用スーパー内容判定モデル及び打順用スーパー内容判定モデルは、文字スーパー判定装置20により用いられる。
【0094】
文字スーパー判定装置20は、野球中継の映像を入力し、これらのモデルを用いて、野球中継の映像に含まれる文字スーパーから球速用ラベル、ボールカウント用ラベル及び打順用ラベルを判定し、これらのラベルのそれぞれを反映した解説テキストを生成することができる。
【0095】
したがって、文字スーパーを含む映像の解説テキストを生成する際に、安定的かつ高速に文字スーパーの内容を判定することができる。
【0096】
つまり、
図1に示したとおり、解説音声制作配信システム6から、解説テキストの発話データ及び音声ファイルが携帯端末5へ送信されることで、野球中継の映像に含まれる文字スーパーの内容の解説を、リアルタイムにユーザへ提供することができ、オペレータによる手動にて解説テキストを生成する負荷を低減することができる。そして、視覚障害者、及びながら視聴を行う健常者を含む多くのユーザに対し、野球中継の情報を分かりやすく伝えることができる。
【0097】
〔文字スーパー判定装置20〕
次に、本発明の実施形態による文字スーパー判定装置20について説明する。
図6は、本発明の実施形態による文字スーパー判定装置20の構成例を示すブロック図であり、
図7は、文字スーパー判定装置20の処理例を示すフローチャートである。
【0098】
この文字スーパー判定装置20は、学習装置10により生成された学習済モデルであるスーパー内容判定モデルを用いて、映像に含まれる文字スーパーの内容を判定し、解説テキストを生成する装置である。
【0099】
文字スーパー判定装置20は、攻守判定部21、画像切り出し部22、二値化部23-1,23-2,23-3、記憶部24、判定部25-1,25-2,25-3、整合部26-1,26-2,26-3及び解説テキスト生成部27-1,27-2,27-3を備えている。
【0100】
記憶部24には、学習装置10により生成された学習済モデルであるスーパー内容判定モデル(球速用スーパー内容判定モデル、ボールカウント用スーパー内容判定モデル及び打順用スーパー内容判定モデル)が格納されている。つまり、
図2に示した記憶部14に格納されたスーパー内容判定モデルと、記憶部24に格納されたスーパー内容判定モデルとは同一である。
【0101】
二値化部23-1、判定部25-1、整合部26-1及び解説テキスト生成部27-1は、球速用スーパー内容判定モデルを用いて、映像から切り出された球速用文字スーパー画像から球速用ラベルを判定し、球速用ラベルに対応する球速を反映した解説テキストを生成する。
【0102】
また、二値化部23-2、判定部25-2、整合部26-2及び解説テキスト生成部27-2は、ボールカウント用スーパー内容判定モデルを用いて、映像から切り出されたボールカウント用文字スーパー画像からボールカウント用ラベルを判定し、ボールカウント用ラベルに対応するボールカウントを反映した解説テキストを生成する。
【0103】
また、二値化部23-3、判定部25-3、整合部26-3及び解説テキスト生成部27-3は、打順用スーパー内容判定モデルを用いて、映像から切り出された打順用文字スーパー画像から打順用ラベルを判定し、打順用ラベルに対応する打順を反映した解説テキストを生成する。
【0104】
文字スーパー判定装置20は、野球中継の映像を入力する(ステップS701)。攻守判定部21は、
図1に示した解説音声制作装置1から野球の試合データを定期的に入力し、試合データに基づいて、攻守の交代を判定する(ステップS702)。
【0105】
この場合、解説音声制作装置1は、例えばBISの情報源2-2から野球の試合データを取得しており、試合データは、情報源2-2から解説音声制作装置1を経由して文字スーパー判定装置20の攻守判定部21へ入力される。
【0106】
試合データには、先攻のチーム及び後攻のチームのうち、どちらのチームが現時点において攻撃中または守備中であるかを示す攻守データが含まれる。試合データにより、攻撃中のチーム及び守備中のチームを判断することができ、また、試合データの変化により、攻守の交代を判定することができる。
【0107】
攻守判定部21は、攻守の交代があったことを判定すると、攻守の交代があったことを示す情報、及び攻守のチームがどちらであるかを示す情報等を含む攻守交代情報を生成し、攻守交代情報を整合部26-1,26-2,26-3に出力する。
【0108】
これにより、整合部26-1,26-2,26-3は、攻守の交代があったこと、及び攻撃中のチーム及び守備中のチームを判断することができる。
【0109】
図8は、攻守判定部21の処理例(ステップS702)を示すフローチャートである。攻守判定部21は、野球の試合データを入力し(ステップS801)、試合データから攻守データを抽出し、これを攻守データp
newとしてメモリに格納する(ステップS802)。ここで、攻守判定部21が新たに入力して抽出し、メモリに格納した攻守データをp
newとし、この攻守データp
newよりも過去の時点で入力して抽出し、後述するステップS805にてメモリに格納した攻守データをp
preとする。
【0110】
攻守判定部21は、メモリから攻守データppre,pnewを読み出し、過去の攻守データppreと新たな(現在の)攻守データpnewとが異なるか否かを判定する(ステップS803)。攻守判定部21は、ステップS803において、攻守データppreと攻守データpnewとが異なると判定した場合(ステップS803:Y)、攻守の交代があったと判定し、攻守交代情報を生成して整合部26-1,26-2,26-3に出力し(ステップS804)、ステップS805へ移行する。
【0111】
これにより、整合部26-1,26-2,26-3にて、保持しているデータがクリアされる。詳細については後述する。
【0112】
一方、攻守判定部21は、ステップS803において、攻守データppreと攻守データpnewとが同じであると判定した場合(ステップS803:N)、ステップS805へ移行する。
【0113】
攻守判定部21は、ステップS804またはステップS803(N)から移行して、攻守データppreを攻守データpnewに更新し、更新後の攻守データppreを過去のデータとしてメモリに格納する(ステップS805)。
【0114】
このように、攻守判定部21により攻守の交代があったことが判定されると、攻守交代情報が整合部26-1,26-2,26-3に出力され、保持しているデータがクリアされる。これにより、後述する解説テキスト生成部27-1,27-2,27-3において、解説テキストが生成されなくなることを防ぐことができる。詳細については後述する。
【0115】
図6及び
図7に戻って、画像切り出し部22は、野球中継の映像を入力し、映像の予め設定された領域(文字スーパーが表示される領域)から、文字スーパーを検出することで文字スーパーの有無を判定する(ステップS703)。
【0116】
画像切り出し部22は、ステップS703において、文字スーパーを検出したと判定した場合(ステップS703:Y)、映像から球速用の画像(球速用文字スーパー画像)、ボールカウント用の画像(ボールカウント用文字スーパー画像)及び打順用の画像(打順用文字スーパー画像)をそれぞれ切り出す(ステップS704-1,S704-2,S704-3)。
【0117】
画像切り出し部22は、球速用文字スーパー画像を二値化部23-1に出力し、ボールカウント用文字スーパー画像を二値化部23-2に出力し、打順用文字スーパー画像を二値化部23-3に出力する。
【0118】
一方、画像切り出し部22は、ステップS703において、文字スーパーを検出していないと判定した場合(ステップS703:N)、ステップS702へ移行する。
【0119】
図9は、画像切り出し部22の処理例(ステップS703,S704)を説明する図であり、
図10(1)は、映像の例を示す図であり、
図10(2)は、文字スーパーの例を示す図である。
【0120】
例えば画像切り出し部22は、
図10(1)に示す映像を入力する。この映像には、右下の領域に文字スーパーが含まれており、この文字スーパーには、
図10(2)に示すように、球速(142km/h)、ボールカウント(ボールのカウントが2、ストライクのカウントが2、アウトのカウントが0)及び打順(4,5,6)が含まれる。
【0121】
図9を参照して、画像切り出し部22は、文字スーパーが表示される領域のうち、予め設定された、例えばボールカウント用文字スーパーにおけるボールのカウントが表示される領域を特定する(ステップS901)。
【0122】
スーパーオンの場合、この予め設定された領域には、ボールカウント用文字スーパーにおけるボールのカウントが表示されている。一方、スーパーオフの場合、予め設定された領域には、ボールカウント用文字スーパーにおけるボールのカウントが表示されていない。
【0123】
画像切り出し部22は、特定した領域の平均輝度値Lmeanを算出し(ステップS902)、平均輝度値Lmeanが予め設定された閾値θ以下であるか否かを判定する(ステップS903)。
【0124】
画像切り出し部22は、ステップS903において、平均輝度値L
meanが閾値θ以下であると判定した場合(ステップS903:Y)、スーパーオンであると判断し、映像から球速用文字スーパー画像、ボールカウント用文字スーパー画像及び打順用文字スーパー画像を切り出す(ステップS904)。これらのステップS901~S904の処理は、
図7に示したステップS703,S704-1,S704-2,S704-3に相当する。
【0125】
ここで、文字スーパーの所定領域の平均輝度値Lmeanと閾値θとを比較し、平均輝度値Lmeanが閾値θ以下である場合、スーパーオンであると判断するのは、文字スーパーの画像には黒成分の画素が多く、平均輝度値Lmeanが小さくなるからである。
【0126】
一方、画像切り出し部22は、ステップS903において、平均輝度値Lmeanが閾値θよりも大きいと判定した場合(ステップS903:N)、スーパーオフであると判断する。
【0127】
尚、画像切り出し部22は、文字スーパーが表示される領域のうち、ボールカウント用文字スーパーにおけるボールのカウントが表示される領域以外を、予め設定された領域とし、当該領域を特定するようにしてもよい。
【0128】
例えば、画像切り出し部22は、球速用文字スーパーが表示される領域を予め設定された領域としてもよいし、打順用文字スーパーが表示される領域を予め設定された領域としてもよい。また、球速用文字スーパー、ボールカウント用文字スーパー及び打順用文字スーパーを含む全ての領域(文字スーパーの領域)を予め設定された領域としてもよいし、これらの数字を含む全ての領域を予め設定された領域としてもよい。
【0129】
ここで、画像切り出し部22は、ボールカウント用文字スーパーの数字を含む領域を予め設定された領域とする場合、ステップS902において、当該領域の色を反転した後、平均輝度値Lmeanを算出する。
【0130】
(球速を判定し、解説テキストを生成する処理)
図6及び
図7に戻って、次に、二値化部23-1、判定部25-1、整合部26-1及び解説テキスト生成部27-1が、球速用スーパー内容判定モデルを用いて球速用文字スーパー画像から球速用ラベルを判定し、球速の解説テキストを生成する処理について説明する。この処理は、
図7のステップS705-1,S706-1,S707-1,S708-1,S709に相当する。
【0131】
二値化部23-1は、画像切り出し部22から球速用文字スーパー画像を入力し、球速用文字スーパー画像に含まれる文字の領域と文字を除く領域とを区別するように、当該球速用文字スーパー画像を構成する各画素を二値化する(ステップS705-1)。そして、二値化部23-1は、二値化により球速用二値画像を生成し、球速用二値画像を判定部25-1に出力する。
【0132】
判定部25-1は、記憶部24から球速用スーパー内容判定モデルを読み出し、二値化部23-1から球速用二値画像を入力する。そして、判定部25-1は、球速用スーパー内容判定モデルを用いて、球速用二値画像から球速用ラベルを判定する(ステップS706-1)。
【0133】
例えば球速が3桁の場合、判定部25-1は、桁毎に、球速(1番目の桁)用二値画像、球速(2番目の桁)用二値画像及び球速(3番目の桁)用二値画像から、球速(1番目の桁)用ラベル、球速(2番目の桁)用ラベル及び球速(3番目の桁)用ラベルをそれぞれ判定する。判定部25-1は、球速用ラベルを整合部26-1に出力する。
【0134】
図11は、判定部25-1の処理例(ステップS706-1)を説明する図である。
図11に示すように、判定部25-1により、球速用スーパー内容判定モデルを用いて、二値化部23-1から入力した球速用二値画像から、球速用ラベルが判定される。
【0135】
図6及び
図7に戻って、整合部26-1は、判定部25-1から球速用ラベルを入力し、球速の桁数分の球速用ラベルについて、整合性チェック(球速整合性チェック)を行う(ステップS707-1)。
【0136】
球速整合性チェックは、野球中継の実態に即した解説を実現するために、直近の球速用ラベルを保持または削除することで、球速の整合性をチェックするものである。
【0137】
球速用ラベルが判定部25-1により正確に判定されたとしても、この判定処理は例えばフレームの画像毎に行われるため、映像に文字スーパーが含まれる限り(スーパーオンに設定されている限り)、場合によっては同じ判定結果が出力される。また、実際に投球によって2球連続して同じ球速の球速用ラベルが判定された場合は、引き続き同じ判定結果が出力される。
【0138】
球速整合性チェックは、整合部26-1において、予め設定された時間期間以内で同じ判定結果の球速用ラベルを入力したとしても、後段の解説テキスト生成部27-1により同じ球速用解説テキストが生成されないように、出力処理を行わないようにするものである。また、球速用ラベルとして[None]を入力した場合も、後段の解説テキスト生成部27-1により球速用解説テキストが生成されないように、出力処理を行わないようにするものである。
【0139】
さらに、球速整合性チェックは、2球連続して同じ球速の球速用ラベルが入力された場合、後段の解説テキスト生成部27-1により同じ球速用解説テキストが生成されるように、予め設定された時間期間経過しているときに、整合部26-1から同じ球速の球速用ラベルを解説テキスト生成部27-1に出力するものである。
【0140】
整合部26-1は、ステップS707-1において、球速整合性チェックがOKである場合(ステップS707-1:OK)、判定部25-1から入力した球速用ラベルを解説テキスト生成部27-1に出力する。一方、整合部26-1は、ステップS707-1において、球速整合性チェックがNGである場合(ステップS707-1:NG)、解説テキスト生成部27-1への出力処理を行わず、ステップS702へ移行する。
【0141】
また、整合部26-1は、攻守判定部21から攻守交代情報を入力し、攻守の交代を判定すると、後述する
図12に示す球速用ラベルk
newを当該整合部26-1の図示しないメモリから削除する。
【0142】
図12は、整合部26-1による球速整合性チェックの例(ステップS707-1)を示すフローチャートである。整合部26-1は、判定部25-1から球速用ラベルを入力し、球速の桁数分の球速用ラベルk
newをメモリに格納する(ステップS1201)。
【0143】
整合部26-1は、後段の解説テキスト生成部27-1により(直前に当該整合部26-1が出力した)過去の球速用ラベルを用いて解説テキストが生成された時点から、ステップS1201にて新たな球速用ラベルを入力し球速用ラベルknewをメモリに格納する時点までの間の経過時間Tを求める(ステップS1202)。
【0144】
整合部26-1は、経過時間Tが予め設定された閾値(の時間)δを経過しているか否かを判定する(ステップS1203)。整合部26-1は、ステップS1203において、経過時間Tが閾値δを経過していると判定した場合(ステップS1203:Y)、メモリから球速用ラベルknewを読み出し、球速用ラベルknewが[None]のラベルでないか否かを判定する(ステップS1204)。
【0145】
整合部26-1は、ステップS1204において、球速用ラベルknewが[None]のラベルでないと判定した場合(ステップS1204:Y)、整合性チェックOKであると判断する(ステップS1205)。そして、整合部26-1は、入力した球速用ラベル(球速の桁数分の球速用ラベルknew)を解説テキスト生成部27-1に出力する
(ステップS1206)。
【0146】
一方、整合部26-1は、ステップS1203において、経過時間Tが閾値δを経過していないと判定した場合(ステップS1203:N)、ステップS1207へ移行する。また、整合部26-1は、ステップS1204において、球速用ラベルknewが[None]のラベルであると判定した場合(ステップS1204:N)、ステップS1207へ移行する。
【0147】
整合部26-1は、ステップS1203(N)またはステップS1204(N)から移行して、整合性チェックNGを判断し(ステップS1207)、解説テキスト生成部27-1への出力処理を行わない。
【0148】
このように、整合部26-1は、直前の球速用ラベルを用いて解説テキストが生成されてから新たな球速用ラベルを入力し球速用ラベルknewをメモリに格納するまでの間の経過時間Tが閾値δを経過しており、かつ球速用ラベルknewが[None]でないと判定した場合、整合性チェックOKであるとして、入力した球速用ラベルを解説テキスト生成部27-1に出力することで、解説テキスト生成部27-1に新たな球速用解説テキストを生成させる。
【0149】
一方、整合部26-1は、経過時間Tが閾値δを経過していない場合、または球速用ラベルknewが[None]である場合、整合性チェックNGであるとして、解説テキスト生成部27-1への出力処理を行わず、解説テキスト生成部27-1に対し、新たな球速用解説テキストを生成させないようにする。
【0150】
これにより、整合部26-1に、2球連続して同じ球速の球速用ラベルが入力された場合には、経過時間Tが閾値δを経過しているとして、解説テキスト生成部27-1は、同じ球速用解説テキストを生成することができる。
【0151】
図6及び
図7に戻って、解説テキスト生成部27-1は、整合部26-1から球速用ラベル(球速の桁数分の球速用ラベルk
new)を入力する。そして、解説テキスト生成部27-1は、球速用ラベル及び予め設定されたテンプレートを用いて、球速用ラベルに対応する球速をテンプレートの文章に挿入する等して、解説テキストを生成する(ステップS708-1)。
【0152】
解説テキスト生成部27-1は、解説テキストに属性のラベルを付与する等して、Jsonデータからなる発話データを生成し、発話データ等をリアルタイムのデータとして解説音声制作装置1へ出力する(ステップS709)。
【0153】
図16は、解説テキスト生成部27-1,27-2,27-3の処理例を説明する図である。
図16に示すように、例えば解説テキスト生成部27-1において、球速用ラベルとして[1][4][7]が入力された場合、予め設定されたテンプレートに基づいて、解説テキスト「球速[147]km」が生成され、発話データ等が出力される。
【0154】
(ボールカウントを判定し、解説テキストを生成する処理)
図6及び
図7に戻って、次に、二値化部23-2、判定部25-2、整合部26-2及び解説テキスト生成部27-2が、ボールカウント用スーパー内容判定モデルを用いてボールカウント用文字スーパー画像からボールカウント用ラベルを判定し、ボールカウントの解説テキストを生成する処理について説明する。この処理は、
図7のステップS705-2,S706-2,S707-2,S708-2,S709に相当する。
【0155】
二値化部23-2は、画像切り出し部22からボールカウント用文字スーパー画像を入力し、二値化部23-1と同様に、当該ボールカウント用文字スーパー画像を構成する各画素を二値化する(ステップS705-2)。そして、二値化部23-2は、二値化によりボールカウント用二値画像を生成し、ボールカウント用二値画像を判定部25-2に出力する。
【0156】
判定部25-2は、記憶部24からボールカウント用スーパー内容判定モデルを読み出し、二値化部23-2からボールカウント用二値画像を入力する。そして、判定部25-2は、ボールカウント用スーパー内容判定モデルを用いて、ボールカウント用二値画像からボールカウント用ラベルを判定する(ステップS706-2)。
【0157】
例えば判定部25-2は、ボール、ストライク及びアウトの順に、ボールカウント(ボール)用二値画像、ボールカウント(ストライク)用二値画像及びボールカウント(アウト)用二値画像から、ボールカウント(ボール)用ラベル、ボールカウント(ストライク)用ラベル及びボールカウント(アウト)用ラベルをそれぞれ判定する。判定部25-2は、ボールカウント用ラベルを整合部26-2に出力する。
【0158】
整合部26-2は、判定部25-2からボールカウント用ラベルを入力し、ボールカウント(ボール)用ラベル、ボールカウント(ストライク)用ラベル及びボールカウント(アウト)用ラベルのそれぞれについて、整合性チェック(ボールカウント整合性チェック)を行う(ステップS707-2)。
【0159】
ボールカウント整合性チェックは、野球中継の実態に即した解説を実現するために、直近のボールカウント用ラベルを保持または削除することで、ボールカウントの整合性をチェックするものである。
【0160】
ボールカウント用ラベルが判定部25-2により正確に判定されたとしても、この判定処理は例えばフレームの画像毎に行われるため、映像に文字スーパーが含まれる限り(スーパーオンに設定されている限り)、場合によっては同じ判定結果が出力される。
【0161】
ボールカウント整合性チェックは、整合部26-2において、ボールカウント(ボール)用ラベル、ボールカウント(ストライク)用ラベル及びボールカウント(アウト)用ラベルのそれぞれについて、同じ判定結果のボールカウント用ラベルを入力したとしても、後段の解説テキスト生成部27-2により同じボールカウント用解説テキストが生成されないように、出力処理を行わないようにするものである。また、ボールカウント用ラベルとして[None]を入力した場合も、後段の解説テキスト生成部27-2によりボールカウント用解説テキストが生成されないよう、出力処理を行わないようにするものである。
【0162】
整合部26-2は、ステップS707-2において、ボールカウント整合性チェックがOKである場合(ステップS707-2:OK)、判定部25-2から入力したボールカウント用ラベルを解説テキスト生成部27-2に出力する。一方、整合部26-2は、ステップS707-2において、ボールカウント整合性チェックがNGである場合(ステップS707-2:NG)、解説テキスト生成部27-2への出力処理を行わず、ステップS702へ移行する。整合部26-2によるボールカウント整合性チェックは、ボールカウント(ボール)用ラベル、ボールカウント(ストライク)用ラベル及びボールカウント(アウト)用ラベルのそれぞれについて個別に行われる。
【0163】
また、整合部26-2は、攻守判定部21から攻守交代情報を入力し、攻守の交代を判定すると、後述する
図13及び
図14に示すボールカウント(ストライク)用ラベルs
new,s
pre及びボールカウント(アウト)用ラベルo
new,o
preを当該整合部26-2の図示しないメモリから削除する。ボールカウント(ボール)用ラベルb
new,b
preについても同様である。
【0164】
図13は、整合部26-2によるボールカウント(ストライク)整合性チェックの例(ステップS707-2)を示すフローチャートである。整合部26-2は、判定部25-2からボールカウント(ストライク)用ラベルを入力し、これをボールカウント(ストライク)用ラベルs
newとしてメモリに格納する(ステップS1301)。
【0165】
ここで、整合部26-2が新たに入力し、メモリに格納したボールカウント(ストライク)用ラベルをsnewとし、このボールカウント(ストライク)用ラベルsnewよりも過去の時点で入力し、後述するステップS1304にてメモリに格納した(ボールカウント(ストライク)用ラベルsnewの時点に最も近い)ボールカウント(ストライク)用ラベルをspreとする。
【0166】
整合部26-2は、メモリからボールカウント(ストライク)用ラベルsnewを読み出し、ボールカウント(ストライク)用ラベルsnewが[None]のラベルでないか否かを判定する(ステップS1302)。
【0167】
整合部26-2は、ステップS1302において、ボールカウント(ストライク)用ラベルsnewが[None]のラベルでないと判定した場合(ステップS1302:Y)、メモリからボールカウント(ストライク)用ラベルspreを読み出す。そして、整合部26-2は、過去のボールカウント(ストライク)用ラベルspreと新たな(現在の)ボールカウント(ストライク)用ラベルsnewとが異なるか否かを判定する(ステップS1303)。
【0168】
整合部26-2は、ステップS1303において、ボールカウント(ストライク)用ラベルspreとボールカウント(ストライク)用ラベルsnewとが異なると判定した場合(ステップS1303:Y)、ボールカウント(ストライク)が変わったと判断する。
【0169】
整合部26-2は、ボールカウント(ストライク)用ラベルspreをボールカウント(ストライク)用ラベルsnewに更新し、更新後のボールカウント(ストライク)用ラベルspreを過去のデータとしてメモリに格納する(ステップS1304)。そして、整合部26-2は、整合性チェックOKであると判断し(ステップS1305)、メモリから後述するボールカウント(ボール)用ラベルbnewを読み出し、入力したボールカウント(ストライク)用ラベルsnew及び読み出したボールカウント(ボール)用ラベルbnewを解説テキスト生成部27-2に出力する(ステップS1306)。
【0170】
一方、整合部26-2は、ステップS1302において、ボールカウント(ストライク)用ラベルsnewが[None]のラベルであると判定した場合(ステップS1302:N)、ステップS1307へ移行する。
【0171】
整合部26-2は、ステップS1303において、ボールカウント(ストライク)用ラベルspreとボールカウント(ストライク)用ラベルsnewとが同じであると判定した場合(ステップS1303:N)、ボールカウント(ストライク)が変わっていないと判断し、ステップS1307へ移行する。
【0172】
整合部26-2は、ステップS1302(N)またはステップS1303(N)から移行して、整合性チェックNGを判断し(ステップS1307)、解説テキスト生成部27-2への出力処理を行わない。
【0173】
このように、整合部26-2は、ボールカウント(ストライク)用ラベルsnewが[None]でないと判定し、かつ、過去のボールカウント(ストライク)用ラベルspreとは異なると判定した場合、整合性チェックOKであるとして、入力したボールカウント(ストライク)用ラベルsnew及びメモリから読み出したボールカウント(ボール)用ラベルbnewを解説テキスト生成部27-2に出力することで、解説テキスト生成部27-2に、新たなボールカウント(ストライク,ボール)用解説テキストを生成させる。
【0174】
一方、整合部26-2は、ボールカウント(ストライク)用ラベルsnewが[None]であると判定した場合、または、過去のボールカウント(ストライク)用ラベルspreと同じであると判定した場合、整合性チェックNGであるとして、解説テキスト生成部27-2への出力処理を行わず、解説テキスト生成部27-2に対し、新たなボールカウント(ストライク,ボール)用解説テキストを生成させないようにする。
【0175】
これにより、整合部26-2に、連続して同じボールカウント(ストライク)用ラベルが入力された場合、解説テキスト生成部27-2は、同じボールカウント(ストライク,ボール)用解説テキストを生成することはない。また、整合部26-2に、ボールカウント(ストライク)用ラベルとして[None]が入力された場合、解説テキスト生成部27-2は、新たなボールカウント(ストライク,ボール)用解説テキストを生成することはない。
【0176】
尚、
図13に示したボールカウント(ストライク)整合性チェックの例は、ボールカウント(ボール)整合性チェックにも適用がある。整合部26-2が新たに入力し、メモリに格納したボールカウント(ボール)用ラベルをb
newとし、このボールカウント(ボール)用ラベルをb
newよりも過去の時点で入力し、メモリに格納したボールカウント(ボール)用ラベルをb
preとする。
【0177】
このように、整合部26-2は、ボールカウント(ボール)用ラベルbnewが[None]でないと判定し、かつ、過去のボールカウント(ボール)用ラベルbpreとは異なると判定した場合、整合性チェックOKであるとして、入力したボールカウント(ボール)用ラベルbnew及びメモリから読み出したボールカウント(ストライク)用ラベルsnewを解説テキスト生成部27-2に出力することで、解説テキスト生成部27-2に、新たなボールカウント(ストライク、ボール)用解説テキストを生成させる。
【0178】
一方、整合部26-2は、ボールカウント(ボール)用ラベルbnewが[None]であると判定した場合、または、過去のボールカウント(ボール)用ラベルbpreと同じであると判定した場合、整合性チェックNGであるとして、解説テキスト生成部27-2への出力処理を行わず、解説テキスト生成部27-2に対し、新たなボールカウント(ストライク、ボール)用解説テキストを生成させないようにする。
【0179】
これにより、整合部26-2に、連続して同じボールカウント(ボール)用ラベルが入力された場合、解説テキスト生成部27-2は、同じボールカウント(ストライク、ボール)用解説テキストを生成することはない。また、整合部26-2に、ボールカウント(ボール)用ラベルとして[None]が入力された場合、解説テキスト生成部27-2は、新たなボールカウント(ストライク、ボール)用解説テキストを生成することはない。
【0180】
図14は、整合部26-2によるボールカウント(アウト)整合性チェックの例(ステップS707-2)を示すフローチャートである。整合部26-2は、判定部25-2からボールカウント(アウト)用ラベルを入力し、これをボールカウント(アウト)用ラベルo
newとしてメモリに格納する(ステップS1401)。
【0181】
ここで、整合部26-2が新たに入力し、メモリに格納したボールカウント(アウト)用ラベルをonewとし、このボールカウント(アウト)用ラベルonewよりも過去の時点で入力し、後述するステップS1404にてメモリに格納した(ボールカウント(アウト)用ラベルonewの時点に最も近い)ボールカウント(アウト)用ラベルをopreとする。
【0182】
整合部26-2は、メモリからボールカウント(アウト)用ラベルonewを読み出し、ボールカウント(アウト)用ラベルonewが[None]のラベルでないか否かを判定する(ステップS1402)。
【0183】
整合部26-2は、ステップS1402において、ボールカウント(アウト)用ラベルonewが[None]のラベルでないと判定した場合(ステップS1402:Y)、メモリからボールカウント(アウト)用ラベルopreを読み出す。そして、整合部26-2は、過去のボールカウント(アウト)用ラベルopreと新たな(現在の)ボールカウント(アウト)用ラベルonewとが異なるか否かを判定する(ステップS1403)。
【0184】
整合部26-2は、ステップS1403において、ボールカウント(アウト)用ラベルopreとボールカウント(アウト)用ラベルonewとが異なると判定した場合(ステップS1403:Y)、ボールカウント(アウト)が変わったと判断する。
【0185】
整合部26-2は、ボールカウント(アウト)用ラベルopreをボールカウント(アウト)用ラベルonewに更新し、更新後のボールカウント(アウト)用ラベルopreを過去のデータとしてメモリに格納する(ステップS1404)。そして、整合部26-2は、ボールカウント(アウト)用ラベルopreが[0]のラベルでないか否かを判定する(ステップS1405)。
【0186】
整合部26-2は、ステップS1405において、ボールカウント(アウト)用ラベルopreが[0]のラベルでないと判定した場合(ステップS1405:Y)、整合性チェックOKであると判断し(ステップS1406)、入力したボールカウント(アウト)用ラベルonewを解説テキスト生成部27-2に出力する(ステップS1407)。
【0187】
一方、整合部26-2は、ステップS1402において、ボールカウント(アウト)用ラベルonewが[None]のラベルであると判定した場合(ステップS1402:N)、ステップS1408へ移行する。
【0188】
整合部26-2は、ステップS1403において、ボールカウント(アウト)用ラベルopreとボールカウント(アウト)用ラベルonewとが同じであると判定した場合(ステップS1403:N)、ボールカウント(アウト)が変わっていないと判断し、ステップS1408へ移行する。
【0189】
整合部26-2は、ステップS1405において、ボールカウント(アウト)用ラベルopreが[0]のラベルであると判定した場合(ステップS1405:N)、ステップS1408へ移行する。
【0190】
整合部26-2は、ステップS1402(N)、ステップS1403(N)またはステップS1405(N)から移行して、整合性チェックNGを判断し(ステップS1408)、解説テキスト生成部27-2への出力処理を行わない。
【0191】
このように、整合部26-2は、ボールカウント(アウト)用ラベルonewが[None]ではないと判定し、かつ、過去のボールカウント(アウト)用ラベルopreとは異なると判定し、かつボールカウント(アウト)用ラベルopreが[0]のラベルではないと判定した場合、整合性チェックOKであるとして、入力したボールカウント(アウト)用ラベルonewを解説テキスト生成部27-2に出力することで、解説テキスト生成部27-2に新たなボールカウント(アウト)用解説テキストを生成させる。
【0192】
一方、整合部26-2は、ボールカウント(アウト)用ラベルonewが[None]である場合、過去のボールカウント(アウト)用ラベルopreと同じであると判定した場合、またはボールカウント(アウト)用ラベルopreが[0]のラベルであると判定した場合、整合性チェックNGであるとして、解説テキスト生成部27-2への出力処理を行わず、解説テキスト生成部27-2に対し、新たなボールカウント(アウト)用解説テキストを生成させないようにする。
【0193】
これにより、整合部26-2に、連続して同じボールカウント(アウト)用ラベルが入力された場合、解説テキスト生成部27-2は、同じボールカウント(アウト)用解説テキストを生成することはない。また、整合部26-2に、ボールカウント(アウト)用ラベルとして[None]または[0]が入力された場合、解説テキスト生成部27-2は、新たなボールカウント(アウト)用解説テキストを生成することはない。
【0194】
図6及び
図7に戻って、解説テキスト生成部27-2は、整合部26-2からボールカウント用ラベル(ボールカウント(ストライク)用ラベルs
new及びボールカウント(ボール)用ラベルb
new、またはボールカウント(アウト)用ラベルo
new)を入力する。そして、解説テキスト生成部27-2は、ボールカウント用ラベル及び予め設定されたテンプレートを用いて、ボールカウント用ラベルに対応するカウントをテンプレートの文章に挿入する等して、解説テキストを生成する(ステップS708-2)。
【0195】
解説テキスト生成部27-2は、前述のステップS709と同様に、Jsonデータからなる発話データを生成し、発話データ等をリアルタイムのデータとして解説音声制作装置1へ出力する。
【0196】
図16に示すように、例えば解説テキスト生成部27-2において、ボールカウント(ストライク)用ラベル及びボールカウント(ボール)用ラベルとして、[2]及び[2]が入力された場合、予め設定されたテンプレートに基づいて、解説テキスト「[ツー]ボール[ツー]ストライク」が生成され、発話データ等が出力される。また、ボールカウント(アウト)用ラベルとして、[1]が入力された場合、予め設定されたテンプレートに基づいて、解説テキスト「[ワン]アウト」が生成され、発話データ等が出力される。
【0197】
(打順を判定し、解説テキストを生成する処理)
図6及び
図7に戻って、次に、二値化部23-3、判定部25-3、整合部26-3及び解説テキスト生成部27-3が、打順用スーパー内容判定モデルを用いて打順用文字スーパー画像から打順用ラベルを判定し、打順の解説テキストを生成する処理について説明する。この処理は、
図7のステップS705-3,S706-3,S707-3,S708-3,S709に相当する。
【0198】
二値化部23-3は、画像切り出し部22から打順用文字スーパー画像を入力し、二値化部23-1と同様に、当該打順用文字スーパー画像を構成する各画素を二値化する(ステップS705-3)。そして、二値化部23-3は、二値化により打順用二値画像を生成し、打順用二値画像を判定部25-3に出力する。
【0199】
判定部25-3は、記憶部24から打順用スーパー内容判定モデルを読み出し、二値化部23-3から打順用二値画像を入力する。そして、判定部25-3は、打順用スーパー内容判定モデルを用いて、打順用二値画像から打順用ラベルを判定する(ステップS706-3)。判定部25-3は、打順用ラベルを整合部26-3に出力する。
【0200】
整合部26-3は、判定部25-3から打順用ラベルを入力し、打順用ラベルについて整合性チェック(打順整合性チェック)を行う(ステップS707-3)。
【0201】
打順整合性チェックは、野球中継の実態に即した解説を実現するために、直近の打順用ラベルを保持または削除することで、打順の整合性をチェックするものである。
【0202】
打順用ラベルが判定部25-3により正確に判定されたとしても、この判定処理は例えばフレームの画像毎に行われるため、映像に文字スーパーが含まれる限り(スーパーオンに設定されている限り)、場合によっては同じ判定結果が出力される。
【0203】
打順整合性チェックは、整合部26-3において、同じ判定結果の打順用ラベルを入力したとしても、後段の解説テキスト生成部27-3により同じ打順用解説テキストが生成されないように、出力処理を行わないようにするものである。また、打順用ラベルとして[None]を入力した場合も、後段の解説テキスト生成部27-3により打順用解説テキストが生成されないよう、出力処理を行わないようにするものである。
【0204】
整合部26-3は、ステップS707-3において、打順整合性チェックがOKである場合(ステップS707-3:OK)、判定部25-3から入力した打順用ラベルを解説テキスト生成部27-3に出力する。一方、整合部26-3は、ステップS707-3において、打順整合性チェックがNGである場合(ステップS707-3:NG)、解説テキスト生成部27-3への出力処理を行わず、ステップS702へ移行する。
【0205】
また、整合部26-3は、攻守判定部21から攻守交代情報を入力し、攻守の交代を判定すると、後述する
図15に示す打順用ラベルd
new,d
preを当該整合部26-3の図示しないメモリから削除する。
【0206】
これにより、解説テキスト生成部27-3において、解説テキストが生成されなくなることを防ぐことができる。打順用ラベルd
new,d
preを削除する処理が行われない場合を想定すると、例えば4番バッターのアウトにより攻守が交代し、次の攻撃のチームのバッターが4番から始まるとすると、後述する
図15のステップS1503において「N」が判定され、整合性チェックがNGと判断されてしまい、解説テキスト生成部27-3への出力処理が行われず、解説テキストが生成されなくなるからである。
【0207】
図15は、整合部26-3による打順整合性チェックの例(ステップS707-3)を示すフローチャートである。整合部26-3は、判定部25-3から打順用ラベルを入力し、これを打順用ラベルd
newとしてメモリに格納する(ステップS1501)。
【0208】
ここで、整合部26-3が新たに入力し、メモリに格納した打順用ラベルをdnewとし、この打順用ラベルdnewよりも過去の時点で入力し、後述するステップS1504にてメモリに格納した(打順用ラベルdnewに最も近い時点の)打順用ラベルをdpreとする。
【0209】
整合部26-3は、メモリから打順用ラベルdnewを読み出し、打順用ラベルdnewが[None]のラベルでないか否かを判定する(ステップS1502)。
【0210】
整合部26-3は、ステップS1502において、打順用ラベルdnewが[None]のラベルでないと判定した場合(ステップS1502:Y)、メモリから打順用ラベルdpreを読み出す。そして、整合部26-3は、過去の打順用ラベルdpreと新たな(現在の)打順用ラベルdnewとが異なるか否かを判定する(ステップS1503)。
【0211】
整合部26-3は、ステップS1503において、打順用ラベルdpreと打順用ラベルdnewとが異なると判定した場合(ステップS1503:Y)、打順が変わったと判断する。
【0212】
整合部26-3は、打順用ラベルdpreを打順用ラベルdnewに更新し、更新後の打順用ラベルdpreを過去のデータとしてメモリに格納する(ステップS1504)。そして、整合部26-3は、整合性チェックOKであると判断し(ステップS1505)、入力した打順用ラベルdnewを解説テキスト生成部27-3に出力する(ステップS1506)。
【0213】
一方、整合部26-3は、ステップS1502において、打順用ラベルdnewが[None]のラベルであると判定した場合(ステップS1502:N)、ステップS1507へ移行する。
【0214】
整合部26-3は、ステップS1503において、打順用ラベルdpreと打順用ラベルdnewとが同じであると判定した場合(ステップS1503:N)、打順が変わっていないと判断し、ステップS1507へ移行する。
【0215】
整合部26-3は、ステップS1502(N)またはステップS1503(N)から移行して、整合性チェックNGを判断し(ステップS1507)、解説テキスト生成部27-3への出力処理を行わない。
【0216】
このように、整合部26-3は、打順用ラベルdnewが[None]でないと判定し、かつ、過去の打順用ラベルdpreとは異なると判定した場合、整合性チェックOKであるとして、入力した打順用ラベルdnewを解説テキスト生成部27-3に出力することで、解説テキスト生成部27-3に新たな打順用解説テキストを生成させる。
【0217】
一方、整合部26-3は、打順用ラベルdnewが[None]であると判定した場合、または、過去の打順用ラベルdpreと同じであると判定した場合、整合性チェックNGであるとして、解説テキスト生成部27-3への出力処理を行わず、解説テキスト生成部27-3に対し、新たな打順用解説テキストを生成させないようにする。
【0218】
これにより、整合部26-3に、連続して同じ打順用ラベルが入力された場合、解説テキスト生成部27-3は、同じ打順用解説テキストを生成することはない。また、整合部26-3に、打順用ラベルとして[None]が入力された場合、解説テキスト生成部27-3は、新たな打順用解説テキストを生成することはない。
【0219】
図6及び
図7に戻って、解説テキスト生成部27-3は、
図1に示した解説音声制作装置1から野球の試合の選手データを入力する。
【0220】
この場合、解説音声制作装置1は、例えばBISの情報源2-2から野球の試合の選手データを取得しており、選手データは、情報源2-2から解説音声制作装置1を経由して文字スーパー判定装置20の解説テキスト生成部27-3へ入力される。選手データには、選手の属するチーム名、背番号、氏名、右打か左打かの打席情報等が含まれる。
【0221】
解説テキスト生成部27-3は、整合部26-3から打順用ラベルを入力する。そして、解説テキスト生成部27-3は、打順用ラベル、選手データ及び予め設定されたテンプレートを用いて、打順用ラベル及び選手データをテンプレートの文章に挿入する等して、打者紹介の解説テキストを生成する(ステップS708-3)。
【0222】
解説テキスト生成部27-3は、前述のステップS709と同様に、Jsonデータからなる発話データを生成し、発話データ等をリアルタイムのデータとして解説音声制作装置1へ出力する。
【0223】
図16に示すように、例えば解説テキスト生成部27-3において、打順用ラベルとして、[4]が入力された場合、選手データ及び予め設定されたテンプレートに基づいて、解説テキスト「[4]番[技研]背番号[99][右打]」が生成され、発話データ等が出力される。
【0224】
以上のように、本発明の実施形態の文字スーパー判定装置20によれば、攻守判定部21は、解説音声制作装置1から入力した試合データに基づいて、攻守の交代を判定し、攻守交代情報を生成する。
【0225】
画像切り出し部22は、野球中継の映像から文字スーパーを検出することで、文字スーパーの有無を判定し、映像から球速用文字スーパー画像、ボールカウント用文字スーパー画像及び打順用文字スーパー画像を切り出す。
【0226】
二値化部23-1は、球速用文字スーパー画像を二値化し、球速用二値画像を生成する。判定部25-1は、学習済みの球速用スーパー内容判定モデルを用いて、球速用二値画像から球速用ラベルを判定する。整合部26-1は、球速用ラベルの整合性チェックを行い、解説テキスト生成部27-1は、整合性チェックOKの場合に、球速用ラベルに対応する球速の解説テキストを生成する。
【0227】
二値化部23-2、判定部25-2、整合部26-2及び解説テキスト生成部27-2は、二値化部23-1、判定部25-1、整合部26-1及び解説テキスト生成部27-1と同様の処理を行い、ボールカウント用文字スーパー画像を二値化してボールカウント用二値画像を生成し、学習済みのボールカウント用スーパー内容判定モデルを用いて、ボールカウント用二値画像からボールカウント用ラベルを判定し、ボールカウント用ラベルの整合性チェックを行い、整合性チェックOKの場合に、ボールカウント用ラベルに対応するボールカウントの解説テキストを生成する。
【0228】
二値化部23-3、判定部25-3、整合部26-3及び解説テキスト生成部27-3は、二値化部23-1、判定部25-1、整合部26-1及び解説テキスト生成部27-1と同様の処理を行い、打順用文字スーパー画像を二値化して打順用二値画像を生成し、学習済みの打順用スーパー内容判定モデルを用いて、打順用二値画像から打順用ラベルを判定し、打順用ラベルの整合性チェックを行い、整合性チェックOKの場合に、打順用ラベルに対応する打順の解説テキストを生成する。
【0229】
したがって、文字スーパーを含む映像の解説テキストを生成する際に、安定的かつ高速に文字スーパーの内容を判定することができる。
【0230】
つまり、
図1に示したとおり、解説音声制作配信システム6から、解説テキストの発話データ及び音声ファイルが携帯端末5へ送信されることで、野球中継の映像に含まれる文字スーパーの内容の解説を、リアルタイムにユーザへ提供することができ、オペレータによる手動にて解説テキストを生成する負荷を低減することができる。そして、視覚障害者、及びながら視聴を行う健常者を含む多くのユーザに対し、野球中継の情報を分かりやすく伝えることができる。
【0231】
〔実験結果〕
次に、本発明の実施形態による学習装置10及び文字スーパー判定装置20を用いた場合の実験結果について説明する。
図17は、実験結果を示す図である。
【0232】
図17(1)は、球速、ボールカウント及び打順の各スーパーの認識率の実験結果について、従来技術(非特許文献1,2)及び本発明の実施形態を比較する図である。従来技術(非特許文献1,2)の手法は、画像上の文字を認識するのに一般的に使用されるテッセラクトと呼ばれる光学文字認識エンジンを用いたものである。約1時間の野球中継を静止画として切り出したもの(2,235枚)を検証データとして使用した。
【0233】
図17(1)から、本発明の実施形態の方が従来技術(非特許文献1,2)よりも、球速、ボールカウント及び打順の各スーパーの認識率が高いことがわかる。
【0234】
図17(2)は、1枚(の画像)あたりの処理時間について、従来技術(非特許文献1,2)及び本発明の実施形態を比較する図である。従来技術(非特許文献1,2)の手法は、
図17(1)と同様である。
【0235】
図17(2)から、1枚あたりの処理時間は、従来技術(非特許文献1,2)では1.34秒であり、本発明の実施形態では0.26秒であり、本発明の実施形態の方が従来技術(非特許文献1,2)よりも、処理時間が短いことがわかる。
【0236】
また、
図17(1)(2)の実験結果から、本発明の実施形態の方が、従来技術(非特許文献1,2)よりも安定的かつ高速に文字スーパーの内容を判定することができるといえる。
【0237】
図17(3)は、球速の表示から発話までに要した時間について、手動入力(
図1において、手動入力ツールの情報源2-3を使用した場合)及び本発明の実施形態を比較する図である。
【0238】
手動入力では35球分、本発明の実施形態では26球分について測定した。手動入力では13球について発話に成功したが、本発明の実施形態では全球について発話に成功した。また、球速表示が1秒未満のケースでは、手動入力では全体の1/3球について発話に成功したが、本発明の実施形態では全球について発話に成功した。
【0239】
図17(3)に示すように、球速がテレビの画面に表示されてから発話されるまでに要した平均時間は、手動入力では9.0秒、本発明の実施形態では2.8秒であり、最小時間は、手動入力では5.0秒、本発明の実施形態では1.0秒であった。
【0240】
図17(1)~(3)の実験結果から、本発明の実施形態の方が従来技術(非特許文献1,2)及び手動入力よりも、正確かつ高速に解説音声の作成及び配信が可能であることがわかる。
【0241】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0242】
例えば前記実施形態では、スポーツ中継番組のうち野球中継の番組の映像を対象として、学習装置10及び文字スーパー判定装置20について説明した。本発明は、対象とする映像を野球に限定するものではなく、野球以外の映像、例えばバレーボール、ラグビー、卓球等の球技の映像にも適用がある。また、本発明は、スポーツ中継番組だけでなく、スポーツ中継番組以外の番組にも適用がある。
【0243】
要するに、本発明は、映像に含まれる文字スーパーの内容を判定するための学習済モデルを生成し、当該学習済モデルを用いて、未知の映像に含まれる文字スーパーの内容を判定することができれば、どのような映像にも適用がある。
【0244】
また、例えば前記実施形態では、放送により野球中継の番組の映像を配信する場合について説明した。本発明は、放送だけでなく、インターネット等の様々な映像メディアサービスに対して適用がある。
【0245】
また、例えば前記実施形態では、映像に含まれる文字スーパーの数字を判定するための学習済モデルを生成し、当該学習済モデルを用いて、未知の映像に含まれる文字スーパーの数字を判定するようにした。本発明は、判定対象を文字スーパーの数字に限定するものではなく、ひらがな、漢字、カタカナ、アルファベット等の各種の文字を判定対象とするようにしてもよい。
【0246】
また、例えば前記実施形態では、学習装置10のかさ増し部11-1は、球速用文字スーパー画像を入力してかさ増しを行い、二値化部12-1は、かさ増し後の球速用文字スーパー画像を入力して二値化を行うようにした。これに対し、二値化部12-1は、かさ増し前の球速用文字スーパー画像を直接入力するようにしてもよい。ボールカウント用文字スーパー画像を処理する二値化部12-2、及び打順用文字スーパー画像を処理する二値化部12-3についても同様である。
【0247】
また、例えば前記実施形態では、文字スーパー判定装置20の判定部25-1は、球速用ラベルを整合部26-1に出力するようにしたが、解説テキスト生成部27-1に直接出力するようにしてもよい。この場合、解説テキスト生成部27-1は、判定部25-1から球速用ラベルを入力し、当該球速用ラベルに対応する球速を反映した解説テキストを生成する。ボールカウント用ラベルを処理する判定部25-2及び解説テキスト生成部27-2、並びに打順用ラベルを処理する判定部25-3及び解説テキスト生成部27-3についても同様である。
【0248】
尚、本発明の実施形態による学習装置10及び文字スーパー判定装置20のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置10及び文字スーパー判定装置20は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
【0249】
学習装置10に備えたかさ増し部11-1,11-2,11-3、二値化部12-1,12-2,12-3、学習部13-1,13-2,13-3及び記憶部14の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0250】
また、文字スーパー判定装置20に備えた攻守判定部21、画像切り出し部22、二値化部23-1,23-2,23-3、記憶部24、判定部25-1,25-2,25-3、整合部26-1,26-2,26-3及び解説テキスト生成部27-1,27-2,27-3の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0251】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0252】
1 解説音声制作装置
2 情報源
3 音声合成装置
4 配信装置
5 携帯端末
6 解説音声制作配信システム
10 学習装置
11-1,11-2,11-3 かさ増し部
12-1,12-2,12-3,23-1,23-2,23-3 二値化部
13-1,13-2,13-3 学習部
14,24 記憶部
20 文字スーパー判定装置
21 攻守判定部
22 画像切り出し部
25-1,25-2,25-3 判定部
26-1,26-2,26-3 整合部
27-1,27-2,27-3 解説テキスト生成部
ppre,pnew 攻守データ
Lmean 平均輝度値
θ,δ 閾値
knew 球速用ラベル
T 経過時間
spre,snew ボールカウント(ストライク)用ラベル
bpre,bnew ボールカウント(ボール)用ラベル
opre,onew ボールカウント(アウト)用ラベル
dpre,dnew 打順用ラベル