IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人NHKサービスセンターの特許一覧

特開2024-112086解説音声制作装置、携帯端末及びプログラム
<>
  • 特開-解説音声制作装置、携帯端末及びプログラム 図1
  • 特開-解説音声制作装置、携帯端末及びプログラム 図2
  • 特開-解説音声制作装置、携帯端末及びプログラム 図3
  • 特開-解説音声制作装置、携帯端末及びプログラム 図4
  • 特開-解説音声制作装置、携帯端末及びプログラム 図5
  • 特開-解説音声制作装置、携帯端末及びプログラム 図6
  • 特開-解説音声制作装置、携帯端末及びプログラム 図7
  • 特開-解説音声制作装置、携帯端末及びプログラム 図8
  • 特開-解説音声制作装置、携帯端末及びプログラム 図9
  • 特開-解説音声制作装置、携帯端末及びプログラム 図10
  • 特開-解説音声制作装置、携帯端末及びプログラム 図11
  • 特開-解説音声制作装置、携帯端末及びプログラム 図12
  • 特開-解説音声制作装置、携帯端末及びプログラム 図13
  • 特開-解説音声制作装置、携帯端末及びプログラム 図14
  • 特開-解説音声制作装置、携帯端末及びプログラム 図15
  • 特開-解説音声制作装置、携帯端末及びプログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024112086
(43)【公開日】2024-08-20
(54)【発明の名称】解説音声制作装置、携帯端末及びプログラム
(51)【国際特許分類】
   G10L 13/08 20130101AFI20240813BHJP
   H04N 21/854 20110101ALI20240813BHJP
   G10L 13/00 20060101ALI20240813BHJP
【FI】
G10L13/08 122
H04N21/854
G10L13/08 124
G10L13/00 100S
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023016933
(22)【出願日】2023-02-07
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(71)【出願人】
【識別番号】399060908
【氏名又は名称】一般財団法人NHK財団
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】高橋 正樹
(72)【発明者】
【氏名】▲桑▼野 裕也
(72)【発明者】
【氏名】島野 雄貴
(72)【発明者】
【氏名】今井 篤
(72)【発明者】
【氏名】都木 徹
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA11
5C164MA06S
5C164MA07S
5C164MC01P
(57)【要約】
【課題】ユーザ操作に従って解説音声の情報量を個別に設定することで、ユーザの利便性を図ると共に、解説音声サービスの質を向上させる。
【解決手段】解説音声制作装置1のラベル処理部16の属性重畳手段22は、情報源2から配信されたテキストに付与されたラベルについて、発話情報量属性テーブル20から当該ラベルの4,5列目のグループ及び項目に対応する発話情報量属性データを読み出し、ラベルの1列目/情報源2の種類に対し、発話情報量属性データを重畳する。発話データ及びテキスト生成部18は、発話情報量属性データが重畳されたラベル、作成時刻及びテキストからなる発話データを生成すると共に、テキストを解説音声用テキストとして生成し、発話データ及び解説音声用テキストを出力する。
【選択図】図2
【特許請求の範囲】
【請求項1】
ライブ配信しているスポーツ番組の解説音声用テキストを生成して出力する解説音声制作装置において、
複数の情報源のそれぞれから前記スポーツ番組の試合状況に応じたデータを入力し、前記情報源の予め設定されたデータフォーマットに従って、前記データからテキストを抽出するテキスト抽出部と、
前記テキスト抽出部により抽出された前記テキストに対し、当該テキストの内容を識別するためのラベルを付与するラベル付与部と、
前記解説音声用テキストに基づき合成される発話の音声ファイルを再生する際に使用される属性データであって、前記発話の情報量を制御するための発話情報量属性データが、前記ラベルに対応して格納された発話情報量属性テーブルと、
前記発話情報量属性テーブルから、前記ラベル付与部により付与された前記ラベルに対応する前記発話情報量属性データを読み出し、前記ラベルに対して前記発話情報量属性データを重畳または追加し、重畳または追加後のラベル及び前記テキストを出力するラベル処理部と、
前記ラベル処理部により出力された前記重畳または追加後のラベル及び前記テキストを含む発話データを生成すると共に、前記テキストを前記解説音声用テキストとして生成し、前記発話データ及び前記解説音声用テキストを出力する発話データ及びテキスト生成部と、
を備えたことを特徴とする解説音声制作装置。
【請求項2】
請求項1に記載の解説音声制作装置において、
前記ラベル処理部は、
前記発話情報量属性テーブルから、前記ラベル付与部により付与された前記ラベルに対応する前記発話情報量属性データを読み出し、当該発話情報量属性データ、前記ラベル及び前記テキストを出力し、
前記発話データ及びテキスト生成部は、
前記ラベル処理部により出力された前記発話情報量属性データ、前記ラベル及び前記テキストを含む発話データを生成すると共に、前記テキストを前記解説音声用テキストとして生成し、前記発話データ及び前記解説音声用テキストを出力する、ことを特徴とする解説音声制作装置。
【請求項3】
請求項1または2に記載の解説音声制作装置において、
前記ラベルは、前記情報源の種類、前記スポーツ番組の競技種目、前記テキストが属するグループ、及び前記グループ内の項目を示すそれぞれの数値から構成されるものとし、
前記発話情報量属性テーブルには、前記発話情報量属性データが、前記ラベルを構成する前記グループ及び前記項目に対応して格納されている、ことを特徴とする解説音声制作装置。
【請求項4】
ライブ配信しているスポーツ番組の解説音声用テキストに基づき合成された発話の音声ファイルを受信し、当該発話の音声ファイルを再生する携帯端末において、
請求項1または2に記載の解説音声制作装置により出力された前記発話データを受信すると共に、請求項1または2に記載の解説音声制作装置により出力された前記解説音声用テキストに基づき合成された前記発話の音声ファイルを受信する通信部と、
ユーザにより予め設定されたデータであって、前記発話の情報量を制御するための発話情報量設定データが格納されたメモリと、
前記メモリから前記発話情報量設定データを読み出し、前記通信部により受信された前記発話データから前記発話情報量属性データを抽出し、前記発話情報量設定データ及び前記発話情報量属性データに基づいて、前記発話の音声ファイルの再生を行うか否かを判定し、前記再生を行うと判定した場合、前記発話の音声ファイルを発話対象に追加し、前記再生を行わないと判定した場合、前記発話の音声ファイルを発話対象から除外する再生処理部と、
を備えたことを特徴とする携帯端末。
【請求項5】
ライブ配信しているスポーツ番組の解説音声用テキストを生成して出力する解説音声制作装置を構成するコンピュータを、
複数の情報源のそれぞれから前記スポーツ番組の試合状況に応じたデータを入力し、前記情報源の予め設定されたデータフォーマットに従って、前記データからテキストを抽出するテキスト抽出部、
前記テキスト抽出部により抽出された前記テキストに対し、当該テキストの内容を識別するためのラベルを付与するラベル付与部、
前記解説音声用テキストに基づき合成される発話の音声ファイルを再生する際に使用される属性データであって、前記発話の情報量を制御するための発話情報量属性データが、前記ラベルに対応して格納された発話情報量属性テーブル、
前記発話情報量属性テーブルから、前記ラベル付与部により付与された前記ラベルに対応する前記発話情報量属性データを読み出し、前記ラベルに対して前記発話情報量属性データを重畳または追加し、重畳または追加後のラベル及び前記テキストを出力するラベル処理部、及び、
前記ラベル処理部により出力された前記重畳または追加後のラベル及び前記テキストを含む発話データを生成すると共に、前記テキストを前記解説音声用テキストとして生成し、前記発話データ及び前記解説音声用テキストを出力する発話データ及びテキスト生成部として機能させるためのプログラム。
【請求項6】
ライブ配信しているスポーツ番組の解説音声用テキストに基づき合成された発話の音声ファイルを受信し、当該発話の音声ファイルを再生する携帯端末が、ユーザにより予め設定されたデータであって、前記発話の情報量を制御するための発話情報量設定データが格納されたメモリを備えている場合に、
前記携帯端末を構成するコンピュータを、
請求項1または2に記載の解説音声制作装置により出力された前記発話データを受信すると共に、請求項1または2に記載の解説音声制作装置により出力された前記解説音声用テキストに基づき合成された前記発話の音声ファイルを受信する通信部、及び、
前記メモリから前記発話情報量設定データを読み出し、前記通信部により受信された前記発話データから前記発話情報量属性データを抽出し、前記発話情報量設定データ及び前記発話情報量属性データに基づいて、前記発話の音声ファイルの再生を行うか否かを判定し、前記再生を行うと判定した場合、前記発話の音声ファイルを発話対象に追加し、前記再生を行わないと判定した場合、前記発話の音声ファイルを発話対象から除外する再生処理部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、解説音声用のテキストを生成する解説音声制作装置、解説用の音声ファイルを再生する携帯端末、及びプログラムに関する。
【背景技術】
【0002】
テレビ放送は、視聴者の視覚及び聴覚へ情報を提供するメディアである。しかし、視覚障害者にとっては映像情報が伝わり難く、特に全盲者には画面に表示される情報は伝わらない。このため、視覚障害者に対しては、伝えられる情報が限られる。
【0003】
テレビ放送では解説放送サービスが実施されている。解説放送サービスは、テレビの副音声チャンネルに視覚情報を補完するための実況音声を重畳するサービスであり、ユーザは、リモコンの音声切替ボタンで副音声に切り替えることにより、その音声を聴取することができる。
【0004】
解説放送サービスは、解説音声の制作に大きなコストがかかるため、ドラマ、ドキュメンタリー等の収録番組に時間と人手をかけて提供されるのが一般的である。スポーツ中継等の生放送番組には、解説放送サービスがほぼ提供されていないのが現状である。解説音声は、テレビ音声が発話されていないタイミングで提供されることが望ましく、生放送番組では発話タイミングの隙間を判断することが難しいことも、生放送番組での解説放送サービスが少ない原因となっている。
【0005】
一方で、スポーツ中継の放送番組を放送すると共に、その放送番組の解説音声を視聴者へ提供する解説音声サービスが提案されている(例えば特許文献1を参照)。
【0006】
図16は、解説音声サービスを提供するシステムの概要を説明する図である。このシステムは、放送送信装置101、放送受信装置102、解説音声制作配信装置103、アプリサーバ104及び携帯端末105を備えて構成される。
【0007】
放送送信装置101、解説音声制作配信装置103及びアプリサーバ104は、例えば放送局に設置され、放送受信装置102は、例えば視聴者100の自宅に設置される。また、携帯端末105は、自宅で放送番組を視聴する視聴者100により使用される。
【0008】
このシステムの解説音声サービスにより、視聴者100は、アナウンサーの実況及び解説者の解説にて試合状況を説明する音声及び映像の放送番組と共に、解説音声の提供を受けることができる。
【0009】
放送送信装置101は、地上デジタル放送波を介して、放送番組コンテンツを放送受信装置102へ送信する。放送受信装置102は例えばテレビ受信機であり、放送送信装置101から地上デジタル放送波を介して送信された放送番組コンテンツを受信し、受信した放送番組コンテンツを再生する。
【0010】
解説音声制作配信装置103は、放送送信装置101が送信している放送番組コンテンツの解説音声を制作し、解説音声を携帯端末105へ送信する。アプリサーバ104は、携帯端末105で動作するアプリを記憶しており、携帯端末105からの要求に応じて、アプリを携帯端末105へ送信する。アプリは、アプリケーションの略語であり、ここでは、解説音声を受信して再生するプログラムである。
【0011】
携帯端末105は、例えばスマートフォン、PDA(Personal Digital Assistant)であり、放送受信装置102が受信した放送番組コンテンツに同期して、放送番組コンテンツの解説音声を再生する。携帯端末105は、解説音声を再生するときに、視聴者100の操作に従って再生速度等を変更する。
【0012】
例えば放送番組が野球中継である場合、視聴者100は、野球の試合の映像及び音声と共に、そのときの試合状況を詳しく解説した解説音声の提供を受けることができ、試合の内容を詳細に把握することができる。野球の解説音声は、例えば試合状況に応じた投手の情報、投手の動作、球種、球速、コース、打者の情報、打者の動作、得点等である。
【0013】
このような解説音声サービスを実現する解説音声制作配信装置103の例としては、ODF(Olympic Data Feed)の仕様に従ったデータの提供を受け、当該データを用いて解説音声を制作し、配信するシステムが知られている(例えば非特許文献1を参照)。
【0014】
この非特許文献1に記載された解説音声制作配信装置103は、オリンピックのデータを提供する1つの情報源から、現在の試合状況の得点、反則等のデータを逐次受信する。そして、解説音声制作配信装置103は、予め設定されたテンプレートに変数を当てはめる等することで、試合状況に応じた実況文面のテキストを生成し、音声合成器を用いてテキストを音声化し、解説音声の音声ファイルを携帯端末105へ送信する。
【0015】
しかしながら、前述の非特許文献1の技術は、特定のオリンピックの大会のみで利用することができるに過ぎず、拡張性及び汎用性が低いという問題があった。
【0016】
このような問題を解決するために、本件特許出願と同一の出願人によりなされた、本件特許出願時に未公開の特願2022-82878号公報に記載された解説音声制作技術が提案されている。また、同様の解説音声制作技術も開示されている(例えば非特許文献2を参照)。これらの解説音声制作技術は、複数の情報源のデータを利用すると共に、拡張性及び汎用性の高い解説音声をリアルタイムで提供するものである。
【先行技術文献】
【特許文献】
【0017】
【特許文献1】特開2017-203827号公報
【非特許文献】
【0018】
【非特許文献1】熊野正、“スポーツ番組を解説する「音声ガイド」生成技術”、NHK技研R&D、No.154、pp.12-20、2017
【非特許文献2】“解説音声の自動生成技術”、[online]、2022年3月、日本放送協会、[令和5年1月25日検索]、インターネット<URL:https://www.nhk.or.jp/strl/publica/giken_dayori/204/4.html>
【発明の概要】
【発明が解決しようとする課題】
【0019】
前述の特願2022-82878号公報に記載された解説音声制作技術及び非特許文献2の解説音声制作技術は、テレビ音声とは別にユーザの携帯端末105へ解説音声を配信することで、スポーツ中継に解説音声を付与する際に、特定の情報源に依存しないで複数の情報源のデータを利用し、多種、多様なデータを汎用性の高い解説音声としてリアルタイムに提供するものである。
【0020】
しかしながら、これらの解説音声制作技術では、聴取する解説音声をユーザ側で選択することができず、ユーザによっては不要な解説音声を提供してしまう。つまり、ユーザが操作する携帯端末105は、解説音声の情報量を制御することができず、受信した全ての解説音声の音声ファイルを再生することから、ユーザによっては、情報を過剰に取得してしまうという問題があった。
【0021】
また、これらの解説音声制作技術では、配信する解説音声をユーザ毎に変更する機能を有していないため、解説音声の情報量をユーザ単位でカスタマイズすることができないという問題もあった。
【0022】
このため、ユーザが解説音声の情報量を選択できるようにすることで、解説音声サービスの提供を受けるユーザの利便性を図り、サービスの質を向上させることが所望されていた。
【0023】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、ユーザ操作に従って解説音声の情報量を個別に設定することで、ユーザの利便性を図ると共に、解説音声サービスの質を向上させる解説音声制作装置、携帯端末及びプログラムを提供することにある。
【課題を解決するための手段】
【0024】
前記課題を解決するために、請求項1の解説音声制作装置は、ライブ配信しているスポーツ番組の解説音声用テキストを生成して出力する解説音声制作装置において、複数の情報源のそれぞれから前記スポーツ番組の試合状況に応じたデータを入力し、前記情報源の予め設定されたデータフォーマットに従って、前記データからテキストを抽出するテキスト抽出部と、前記テキスト抽出部により抽出された前記テキストに対し、当該テキストの内容を識別するためのラベルを付与するラベル付与部と、前記解説音声用テキストに基づき合成される発話の音声ファイルを再生する際に使用される属性データであって、前記発話の情報量を制御するための発話情報量属性データが、前記ラベルに対応して格納された発話情報量属性テーブルと、前記発話情報量属性テーブルから、前記ラベル付与部により付与された前記ラベルに対応する前記発話情報量属性データを読み出し、前記ラベルに対して前記発話情報量属性データを重畳または追加し、重畳または追加後のラベル及び前記テキストを出力するラベル処理部と、前記ラベル処理部により出力された前記重畳または追加後のラベル及び前記テキストを含む発話データを生成すると共に、前記テキストを前記解説音声用テキストとして生成し、前記発話データ及び前記解説音声用テキストを出力する発話データ及びテキスト生成部と、を備えたことを特徴とする。
【0025】
また、請求項2の解説音声制作装置は、請求項1に記載の解説音声制作装置において、前記ラベル処理部が、前記発話情報量属性テーブルから、前記ラベル付与部により付与された前記ラベルに対応する前記発話情報量属性データを読み出し、当該発話情報量属性データ、前記ラベル及び前記テキストを出力し、前記発話データ及びテキスト生成部が、前記ラベル処理部により出力された前記発話情報量属性データ、前記ラベル及び前記テキストを含む発話データを生成すると共に、前記テキストを前記解説音声用テキストとして生成し、前記発話データ及び前記解説音声用テキストを出力する、ことを特徴とする。
【0026】
また、請求項3の解説音声制作装置は、請求項1または2に記載の解説音声制作装置において、前記ラベルが、前記情報源の種類、前記スポーツ番組の競技種目、前記テキストが属するグループ、及び前記グループ内の項目を示すそれぞれの数値から構成されるものとし、前記発話情報量属性テーブルには、前記発話情報量属性データが、前記ラベルを構成する前記グループ及び前記項目に対応して格納されている、ことを特徴とする。
【0027】
さらに、請求項4の携帯端末は、ライブ配信しているスポーツ番組の解説音声用テキストに基づき合成された発話の音声ファイルを受信し、当該発話の音声ファイルを再生する携帯端末において、請求項1または2に記載の解説音声制作装置により出力された前記発話データを受信すると共に、請求項1または2に記載の解説音声制作装置により出力された前記解説音声用テキストに基づき合成された前記発話の音声ファイルを受信する通信部と、ユーザにより予め設定されたデータであって、前記発話の情報量を制御するための発話情報量設定データが格納されたメモリと、前記メモリから前記発話情報量設定データを読み出し、前記通信部により受信された前記発話データから前記発話情報量属性データを抽出し、前記発話情報量設定データ及び前記発話情報量属性データに基づいて、前記発話の音声ファイルの再生を行うか否かを判定し、前記再生を行うと判定した場合、前記発話の音声ファイルを発話対象に追加し、前記再生を行わないと判定した場合、前記発話の音声ファイルを発話対象から除外する再生処理部と、を備えたことを特徴とする。
【0028】
さらに、請求項5のプログラムは、ライブ配信しているスポーツ番組の解説音声用テキストを生成して出力する解説音声制作装置を構成するコンピュータを、複数の情報源のそれぞれから前記スポーツ番組の試合状況に応じたデータを入力し、前記情報源の予め設定されたデータフォーマットに従って、前記データからテキストを抽出するテキスト抽出部、前記テキスト抽出部により抽出された前記テキストに対し、当該テキストの内容を識別するためのラベルを付与するラベル付与部、前記解説音声用テキストに基づき合成される発話の音声ファイルを再生する際に使用される属性データであって、前記発話の情報量を制御するための発話情報量属性データが、前記ラベルに対応して格納された発話情報量属性テーブル、前記発話情報量属性テーブルから、前記ラベル付与部により付与された前記ラベルに対応する前記発話情報量属性データを読み出し、前記ラベルに対して前記発話情報量属性データを重畳または追加し、重畳または追加後のラベル及び前記テキストを出力するラベル処理部、及び、前記ラベル処理部により出力された前記重畳または追加後のラベル及び前記テキストを含む発話データを生成すると共に、前記テキストを前記解説音声用テキストとして生成し、前記発話データ及び前記解説音声用テキストを出力する発話データ及びテキスト生成部として機能させることを特徴とする。
【0029】
また、請求項6のプログラムは、ライブ配信しているスポーツ番組の解説音声用テキストに基づき合成された発話の音声ファイルを受信し、当該発話の音声ファイルを再生する携帯端末が、ユーザにより予め設定されたデータであって、前記発話の情報量を制御するための発話情報量設定データが格納されたメモリを備えている場合に、前記携帯端末を構成するコンピュータを、請求項1または2に記載の解説音声制作装置により出力された前記発話データを受信すると共に、請求項1または2に記載の解説音声制作装置により出力された前記解説音声用テキストに基づき合成された前記発話の音声ファイルを受信する通信部、及び、前記メモリから前記発話情報量設定データを読み出し、前記通信部により受信された前記発話データから前記発話情報量属性データを抽出し、前記発話情報量設定データ及び前記発話情報量属性データに基づいて、前記発話の音声ファイルの再生を行うか否かを判定し、前記再生を行うと判定した場合、前記発話の音声ファイルを発話対象に追加し、前記再生を行わないと判定した場合、前記発話の音声ファイルを発話対象から除外する再生処理部として機能させることを特徴とする。
【発明の効果】
【0030】
以上のように、本発明によれば、ユーザ操作に従って解説音声の情報量を個別に設定することで、ユーザの利便性を図ると共に、解説音声サービスの質を向上させることができる。
【図面の簡単な説明】
【0031】
図1】本発明の実施形態による解説音声制作装置及び携帯端末を含む解説音声制作配信システムの全体構成例を説明する概略図である。
図2】本発明の実施形態による解説音声制作装置の構成例を示すブロック図である。
図3】テキスト抽出部及びラベル付与部の処理例を示すフローチャートである。
図4】ラベルの例を説明する図である。
図5】テンプレートの例を示す図である。
図6】更新監視部の処理例を示すフローチャートである。
図7】更新監視部の処理例を説明する図である。
図8】ラベル処理部の処理例を示すフローチャートである。
図9】属性重畳手段による重畳処理の例(ステップS806)を示すフローチャートである。
図10】発話情報量属性テーブルのデータ構成例を示す図である。
図11】発話情報量属性データの示す動作例及び重畳後のデータ例を説明する図である。
図12】ラベルの1列目/情報源2の種類が「手動入力ツール」の場合のデータ例を示す図である。
図13】本発明の実施形態による携帯端末の構成例を示すブロック図である。
図14】再生処理部の処理例を示すフローチャートである。
図15】本発明の実施形態のイメージを説明する図である。
図16】解説音声サービスを提供するシステムの概要を説明する図である。
【発明を実施するための形態】
【0032】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔解説音声制作配信システム〕
まず、解説音声サービスを実現する解説音声制作配信システムについて説明する。図1は、本発明の実施形態による解説音声制作装置及び携帯端末を含む解説音声制作配信システムの全体構成例を説明する概略図である。
【0033】
この解説音声制作配信システム10は、解説音声制作装置1、複数の情報源2、音声合成装置3、配信装置4及び携帯端末5を備えて構成される。解説音声制作配信システム10は、図16に示した解説音声サービスを提供するシステムのうち、解説音声制作配信装置103及び携帯端末105に対応している。
【0034】
解説音声制作配信システム10は、情報源2から配信されるデータからテキストを抽出してラベルを付与し、ラベル及びテキストを含む発話データを生成すると共に、当該テキストを発話する音声ファイルを合成する。そして、解説音声制作配信システム10は、発話データ及び音声ファイルを携帯端末5へ配信し、携帯端末5にて音声ファイルを再生する。
【0035】
このような解説音声制作配信システム10による解説音声の制作及び配信の処理の際に、解説音声制作装置1は、携帯端末5へ配信される発話データに対し、発話情報量に関する追加属性(後述する発話情報量属性データ)を付与する。そして、携帯端末5は、発話データに含まれる発話情報量属性データ、及び予め設定された後述する発話情報量設定データに基づいて、発話情報量を制御する。
【0036】
解説音声制作装置1は、ライブ配信しているスポーツ番組の解説音声を制作する際の解説音声用テキストを発話毎に生成する装置である。解説音声制作装置1は、複数の情報源2のそれぞれから、ライブ配信しているスポーツ番組の試合状況に応じたリアルタイムのデータを入力する。
【0037】
解説音声制作装置1は、データの入力元である情報源2独自のデータフォーマットに従ってデータを解析することで、データからテキストを抽出し、テキストにラベルを付与し、ラベルが付与されたテキスト等を後述する情報管理テーブル13に格納する。
【0038】
ここで、テキストは、生成したい解説音声用テキスト(発話したい内容のテキスト)を構成する要素である。ラベルは、テキストの内容を識別するための情報である。詳細については後述する。
【0039】
解説音声制作装置1は、発話の解説音声用テキストを生成するために、後述するテンプレート14に定義された発話定義データに従い、後述する情報管理テーブル13からラベルが付与されたテキスト等を読み出す。そして、解説音声制作装置1は、ラベルに対し、当該ラベルに対応する(テキストの内容に対応する)発話情報量属性データを重畳し、発話毎に作成時刻(再生時刻)を含むJsonデータを生成し、発話毎に発話データ及び解説音声用テキストを生成する。
【0040】
発話情報量属性データは、携帯端末5が発話の音声ファイルを再生する際に、発話情報量を制御するために用いる属性データである。発話情報量属性データ及び発話データの詳細については後述する。
【0041】
解説音声制作装置1は、発話毎に、発話データ及び解説音声用テキストを音声合成装置3へ出力すると共に、発話データを配信装置4へ出力する。解説音声制作装置1の詳細については後述する。
【0042】
情報源2は、例えば競技種目毎の複数の情報源からなる。図1に示すように、野球の複数の情報源としては、例えばODFの仕様に従ったオリンピック関連のデータを配信する情報源2-1、BISの仕様に従ったプロ野球関連のデータを配信する情報源2-2、・・・、放送番組を視聴しているオペレータの手動入力ツールの操作により、所定の仕様に従った野球関連のデータを配信する情報源2-5等がある。
【0043】
音声合成装置3は、解説音声制作装置1から発話データ及び解説音声用テキストを入力し、既存技術により、解説音声用テキストから合成音を生成することで音声ファイルを生成する。そして、音声合成装置3は、発話データ及び音声ファイルを配信装置4へ出力する。
【0044】
配信装置4は、解説音声制作装置1から発話データを入力すると共に、音声合成装置3から発話データ及び音声ファイルを入力し、両発話データの対応付けを行い、発話データ及び音声ファイルを携帯端末5へ配信する。
【0045】
携帯端末5は、配信装置4から配信された発話データ及び音声ファイルを受信し、発話データから発話情報量属性データを抽出する。そして、携帯端末5は、発話情報量属性データ及び当該携帯端末5を操作するユーザにより予め設定された発話情報量設定データに基づいて、音声ファイルを発話対象に追加するか、または発話対象から除外するかを判定する。携帯端末5は、発話対象の音声ファイルを再生する。
【0046】
発話情報量設定データは、携帯端末5を操作するユーザにより予め設定されたデータであって、発話情報量を制御するために用いる設定データである。携帯端末5及び発話情報量設定データの詳細については後述する。
【0047】
尚、携帯端末5は、発話データからフラグを抽出し、フラグ及び発話情報量設定データに基づいて、音声ファイルを発話対象に追加するか、または発話対象から除外するかを判定するようにしてもよい。また、携帯端末5は、発話データから発話情報量属性データ及びフラグを抽出し、発話情報量属性データ、フラグ及び発話情報量設定データに基づいて、音声ファイルを発話対象に追加するか、または発話対象から除外するかを判定するようにしてもよい。
【0048】
〔解説音声制作装置1〕
次に、図1に示した解説音声制作装置1について詳細に説明する。図2は、本発明の実施形態による解説音声制作装置1の構成例を示すブロック図である。この解説音声制作装置1は、テキスト抽出部11、ラベル付与部12、情報管理テーブル13、テンプレート14、更新監視部15、ラベル処理部16、フォーマット変換部17、発話データ及びテキスト生成部18、順序破棄制御部19、発話情報量属性テーブル20及び操作処理部21を備えている。ラベル処理部16は、属性重畳手段22を備えている。
【0049】
<テキスト抽出部11>
まず、図2に示したテキスト抽出部11について説明する。図3は、テキスト抽出部11及びラベル付与部12の処理例を示すフローチャートである。
【0050】
テキスト抽出部11は、複数の情報源2から、ライブ配信しているスポーツ番組の試合状況に応じたデータを入力する(ステップS301)。入力するデータは、固定長、CSV、XML、Json等の様々な形式で定義されたデータである。
【0051】
テキスト抽出部11は、データの入力元である情報源2の種類を識別して識別情報を生成すると共に、入力した情報源2のデータについて、情報源2の予め設定されたデータフォーマットに従って解析することで、データからテキストを抽出する(ステップS302)。また、テキスト抽出部11は、テキストの抽出の際に、テキストがどのような種類、内容等の情報であるかを示す解析結果を生成し、テキスト、解析結果及び識別情報をラベル付与部12に出力する。
【0052】
例えばテキスト抽出部11は、情報源2-2からBISの仕様に従ったプロ野球関連のデータ(「ピッチャー鈴木」「かまえた」等)を入力し、識別情報として、情報源2の種類が「BIS」であることを示す情報を生成し、情報源2-2のデータフォーマットに合わせて解析することで、データからテキスト「ピッチャー鈴木」「かまえた」を抽出する。また、テキスト抽出部11は、解析結果として、競技種目が「野球」であり、「ピッチャー鈴木」が投手の名前であり、「かまえた」が投手の動作であること等を示す結果を生成する。
【0053】
<ラベル付与部12>
次に、図2に示したラベル付与部12について説明する。ラベル付与部12は、テキスト抽出部11からテキスト、解析結果及び識別情報を入力し、テキストに対し、解析結果及び識別情報に応じたラベルを付与する(ステップS303)。そして、ラベル付与部12は、ラベルが付与されたテキストをタイムスタンプと共に、情報管理テーブル13に格納(ラベルに応じた箇所に配置)する(ステップS304)。タイムスタンプは、テキストが情報管理テーブル13に格納される時刻に関する情報である。
【0054】
図4は、ラベルの例を説明する図である。ラベルは、テキストの内容を識別するための情報である。図4(1)に示すように、ラベルは、1つのテキストに対して付与され、1列目から5列目までの合計5個の数値により構成される。
【0055】
1列目は、テキストが取得された情報源2の種類を示し、2列目は、テキストの競技種目示す。3列目は、テキストを発話として提示する際の提示タイミングの優先度(優先順位)を示す。4列目は、図4(5)に示すように、テキストを内容に応じて分類したときのグループを示す。5列目は、図4(5)に示すように、テキストを内容に応じて分類したときのグループ内の項目を示し、テキストのカテゴリーをさらに細かく分類したときの情報であり、最も具体的に表した情報である。
【0056】
ラベルの1列目において、図4(2)に示すように、例えば数値「1」は「ODF」、数値「2」は「BIS」、・・・、数値「5」は「手動入力ツール」であることを示す。「ODF」及び「BIS」等は、データの配信を自動にて行う自動入力ツールであり、「手動入力ツール」は、データの配信を手動にて行うツールである。
【0057】
ラベルの2列目において、図4(3)に示すように、例えば数値「1」は「野球」、数値「2」は「テニス」、数値「3」は「卓球」、数値「4」は「バドミントン」、数値「5」は「バスケットボール」を示す。
【0058】
ラベルの3列目において、図4(4)に示すように、数値「1」は「即時」、数値「2」は「準即時」、数値「3」は「定期」、数値「4」は「その他」を示す。3列目の提示タイミングの優先度は、解説音声を提示するタイミングを制御するための情報である。
【0059】
解説音声は1つずつ提示する必要があり、放送に合わせて提示する条件下では特に、放送が解説音声に重なってもよいか否かの観点で、テキストに応じて提示タイミングが予め設定される。
【0060】
「即時」は、映像との同期が重要であり、放送音声との重なりは一切考えず、配信装置4から解説音声の音声ファイル等が配信され次第、即時に携帯端末5のアプリはこれを再生する。このため、優先度としては最上位に位置する。例えば、解説音声が「ピッチャーかまえた」「投げた」の場合、これらは映像と同期して再生されなければ意味がない。
【0061】
「準即時」は、放送音声との重なりも考慮しつつ、所定の時間内に携帯端末5のアプリが解説音声の音声ファイルを再生する。例えば卓球の試合で技が決まった際に、解説音声が「鈴木対山田 10対6」の場合、携帯端末5のアプリは、放送音声と重ならずに発話させるために、例えば2秒の時間内に放送音声と重ならないときに再生を行うか、または2秒を超えたときに、即時に再生を行う。
【0062】
「定期」は、解説音声が試合タイトル、対戦カード、今の得点情報等、即時性がなく定期的に発話させた方がよい場合に設定される。携帯端末5のアプリは、所定時間間隔で、または所定条件下で解説音声の音声ファイルを再生する。
【0063】
この場合、ラベルの提示タイミングが「定期」である場合、解説音声の発話が放送音声の発話と重ならないように、作成時刻が変更される。
【0064】
ラベルの4列目において、図4(5)に示すように、例えば数値「1」は「試合情報」、数値「2」は「試合の種類」、・・・、数値「9」は「投手情報」、数値「10」は「打者情報」、数値「11」は「投手の動作」、・・・を示す。
【0065】
これにより、テキストがグループで管理されるため、下位に定められた5列目の情報を一括で制御することができる。
【0066】
ラベルの5列目において、図4(5)に示すように、例えばラベルの4列目/グループが数値「1」の「試合情報」である場合、項目の数値「1」は「大会名」、数値「2」は「試合名(例えばX対Y)」、数値「3」は「会場(例えばZ球場)」、・・・を示す。
【0067】
また、例えばラベルの4列目/グループが数値「9」の「投手情報」である場合、項目の数値「1」は「名前(例えば鈴木)」、数値「2」は「シーズン成績(例えば今シーズンの勝敗として5勝2敗)」、数値「3」は「今日の成績(例えば今日の防御率0.50)」を示す。つまり、ラベルの4,5列目が「9」-「1」である場合、グループが「投手情報」であり、項目が「名前」 であることから、投手の名前であることを示している。
【0068】
また、例えばラベルの4列目/グループが数値「11」の「投手の動作」である場合、項目の数値「1」は「かまえた」、数値「2」は「投げた」、数値「3」は「牽制」を示す。
【0069】
ラベルの4列目/グループにおいて、数値「1」~「5」,「18」は全競技共通の情報であり、情報源2からこの種のテキストを取得できない場合は使用されない。ラベルの4列目/グループにおける数値「6」,「7」,「15」~「17」は、ラケット競技共通の情報であり、例えば「競技種目」が「卓球」、「バドミントン」、「テニス」の場合に使用される。「競技種目」が「卓球」、「バドミントン」及び「テニス」の場合には、共通する「項目」が多いため、このような共通の情報が使用される。
【0070】
ラベルの4列目/グループにおける数値「8」~「14」は、「競技種目」が「野球」の場合の情報であるが、「競技種目」が「ソフトボール」の場合も共通の「項目」があるため、「野球」及び「ソフトボール」に共通の情報としてもよい。
【0071】
このように、複数の情報源2を用いることで、情報管理テーブル13の多くの「項目」にテキストを格納することができるため、多くの種類の解説音声用テキストを生成することができ、表現したい解説音声の幅を広げることができる。
【0072】
また、ラベルの4列目/グループが数値「40」の「助詞」である場合、項目の数値「1」は「は」、数値「2」は「の」、数値「3」は「へ」、数値「4」は「が」を示す。また、ラベルの4列目/グループが数値「41」の「単語(位置)」である場合、項目の数値「1」は「方向へ」、数値「2」は「奥へ」、数値「3」は「手前へ」を示す。
【0073】
ラベルの4列目/グループが数値「40」の「助詞」である場合、及びラベルの4列目/グループが数値「41」の「単語(位置)」である場合、これらのテキストは、情報源2から取得されるのではなく、固定の文字列として予め情報管理テーブル13に格納されている。
【0074】
このような「助詞」または「単語(位置)」のテキストを用いることにより、すなわち情報源2から取得されず、かつ情報管理テーブル13に予め格納された固定のテキストを用いることにより、柔軟な表現の解説音声用テキストを生成することができる。そして、携帯端末5のアプリは、人の発話に近い解説音声の音声ファイルを再生することができ、視聴者100は、解説音声を容易に認識することができる。
【0075】
図2及び図3に戻って、例えばラベル付与部12は、テキスト抽出部11からテキスト「ピッチャー鈴木」、解析結果(競技種目が「野球」であり、「ピッチャー鈴木」が投手の名前であること等を示す結果)及び識別情報(情報源2の種類が「BIS」であることを示す情報)を入力した場合、テキスト「ピッチャー鈴木」に対し、解析結果及び識別情報に応じたラベルとして「2-1-3-9-1」を付与する。
【0076】
また、例えばラベル付与部12は、テキスト抽出部11からテキスト「投げた」、解析結果(競技種目が「野球」であり、「投げた」が投手の動作である等を示す結果)及び識別情報(情報源2の種類が「BIS」であることを示す情報)を入力した場合、テキスト「投げた」に対し、解析結果及び識別情報に応じたラベルとして「2-1-1-11-2」を付与する。
【0077】
ここで、ラベル付与部12において、ラベルの1列目には、識別情報に応じた数値が付与され、ラベルの2,4,5列目には、解析結果に応じた数値が付与され、3列目の提示タイミングには、後述するテンプレート14に定義されたラベルの3列目における数値が付与される。具体的には、ラベル付与部12は、付与するラベルの1~5列目の数値について、まず、解析結果及び識別情報に応じて1,2,4,5列目の数値を決定する。そして、ラベル付与部12は、3列目について、後述するテンプレート14に定義されたラベルのうち、決定した1,2,4,5列目の数値と同じ1,2,4,5列目の数値を有するラベルを特定し、特定したラベルの3列目の数値を抽出し、当該数値を、付与するラベルの3列目の数値として決定する。
【0078】
尚、後述するテンプレート14に、ラベルの4,5列目に応じた3列目の提示タイミングが定義されるようにしてもよい。この場合、テンプレート14は、ラベルの4,5列目毎に、3列目の提示タイミングの数値を備えており、ラベル付与部12は、解析結果及び識別情報に応じてラベルの1,2,4,5列目の数値を決定した後、テンプレート14からラベルの4,5列目に対応する3列目の提示タイミングの数値を読み出し、読み出した数値を、付与するラベルの3列目の数値として決定する。
【0079】
<情報管理テーブル13、テンプレート14>
次に、図2に示した情報管理テーブル13及びテンプレート14について説明する。情報管理テーブル13には、ラベル付与部12によりラベルが付与されたテキストがタイムスタンプと共に格納される。つまり、情報管理テーブル13は、ラベル、テキスト及びタイムスタンプにより構成される。
【0080】
図5は、図2に示したテンプレート14の例を示す図である。このテンプレート14には、解説音声制作装置1が生成する解説音声用テキスト毎に、すなわち発話毎に、発話番号、発話内容、ラベル及びトリガーラベルからなる発話定義データが定義されている。新たに解説音声の種類を増やすためには、このテンプレート14に、新たな発話の発話定義データ、すなわち発話番号、発話内容、ラベル及びトリガーラベルを追加すればよい。
【0081】
テンプレート14に定義される発話定義データは、解説音声制作装置1を操作する作業者のキー入力により設定される。尚、図5に示すテンプレート14の構成は一例であり、これ以外の構成であってもよい。
【0082】
発話番号は、発話毎の発話定義データを識別するための番号である。発話内容は、発話したい内容であり、テキストの「項目」(ラベルの5列目の「項目」)により構成される。ラベルは発話内容に対応している。トリガーラベルは、後述する更新監視部15により更新が監視されるテキストに対応するラベルである。
【0083】
図5の例では、発話番号1として、発話内容が「投手の動作(投げた)」、ラベル及びトリガーラベルが「5-1-1-11-2」の各情報が定義されている。
【0084】
これは、情報管理テーブル13に格納されたトリガーラベル「5-1-1-11-2」のテキストが更新されたときに、情報管理テーブル13に格納されているラベル「5-1-1-11-2」のテキスト「投手の動作(投げた)」からなる解説音声用テキストを生成することを示している。
【0085】
また、発話番号2として、発話内容が「球種(変化球)」、ラベルが「5-1-1-12-1」、トリガーラベルが「5-1-1-12」の各情報が定義されている。さらに、発話番号3として、発話内容が「球種(ストレート)」、ラベルが「5-1-1-12-2」、トリガーラベルが「5-1-1-12」の各情報が定義されている。
【0086】
これは、情報管理テーブル13に格納されたトリガーラベル「5-1-1-12」の「グループ」である「球種」について、これに属するラベル「5-1-1-12-1」の「項目」のテキスト「変化球」またはラベル「5-1-1-12-2」の「項目」のテキスト「ストレート」が更新されたときに、情報管理テーブル13に格納されているラベル「5-1-1-12-1」のテキスト「変化球」またはラベル「5-1-1-12-2」のテキスト「ストレート」からなる解説音声用テキストを生成することを示している。
【0087】
尚、トリガーラベルが1~5列目のラベル「5-1-1-12-1」「5-1-1-12-2」ではなく、1~4列目のラベル「5-1-1-12」から構成されているのは、情報管理テーブル13から、ラベル「5-1-1-12-1」のテキスト「変化球」及びラベル「5-1-1-12-2」のテキスト「ストレート」のうち、更新されたいずれか一方が読み出され、両方のテキストが同時に読み出されることがないからである。
【0088】
<更新監視部15>
次に、図2に示した更新監視部15について説明する。図6は、図2に示した更新監視部15の処理例を示すフローチャートである。
【0089】
更新監視部15は、ラベル処理部16からトリガーラベルを入力し、情報管理テーブル13においてトリガーラベルが付与されたテキストが更新されたか否かを監視する(ステップS601)。尚、トリガーラベルは、ラベル処理部16によりテンプレート14から読み出され、ラベル処理部16から更新監視部15に出力される。
【0090】
更新監視部15は、ステップS601において、トリガーラベルのテキストが更新されていないと判定した場合(ステップS601:更新無)、ステップS601の処理を継続する。
【0091】
一方、更新監視部15は、ステップS601において、トリガーラベルのテキストが更新されたと判定した場合(ステップS601:更新有)、更新有及びトリガーラベルをラベル処理部16に出力する(ステップS602)。図6の処理は、テンプレート14に定義された発話毎(発話定義データ毎)に行われる。
【0092】
図7は、更新監視部15の処理例を説明する図であり、図5の例に示したテンプレート14の発話番号3の発話についての処理例を示す。更新監視部15は、ラベル処理部16からトリガーラベル「5-1-1-12」を入力する。そして、情報管理テーブル13において、トリガーラベル「5-1-1-12」に対応するラベル「5-1-1-12-1」「5-1-1-12-2」が付与されたテキストである「球種(変化球)」「球種(ストレート)」が更新され、「球種(変化球)」の領域には何ら格納されておらず、「球種(ストレート)」の領域に「ストレート」が格納されたとする(図7の「データ更新」を参照)。または、トリガーラベル「5-1-1-12」に対応するラベル「5-1-1-12-1」「5-1-1-12-2」のうちラベル「5-1-1-12-2」が付与されたテキスト「球種(ストレート)」のタイムスタンプが更新され、「球種(ストレート)」の領域に新たに「ストレート」が格納されたとする。
【0093】
そうすると、更新監視部15は、情報管理テーブル13におけるトリガーラベル「5-1-1-12」に対応するラベル「5-1-1-12-1」「5-1-1-12-2」に付与されたテキストである「球種(変化球)」「球種(ストレート)」の更新、またはラベル「5-1-1-12-2」に付与されたテキスト「球種(ストレート)」のタイムスタンプの更新を判断することで、更新有を判定し、更新有及びトリガーラベル「5-1-1-12」をラベル処理部16に出力する。
【0094】
これにより、テンプレート14の発話番号3に定義された発話内容「球種(ストレート)」に対応して、テキスト「ストレート」が得られる。この場合、タイムスタンプにて更新を判断することで、テキスト「ストレート」が連続して更新された場合も、連続して更新有を判定することができる。
【0095】
<ラベル処理部16>
次に、図2に示したラベル処理部16について説明する。図8は、図2に示したラベル処理部16の処理例を示すフローチャートである。
【0096】
ラベル処理部16は、テンプレート14から、発話毎の発話定義データ(発話番号、発話内容、ラベル及びトリガーラベル)を読み出す(ステップS801)。そして、ラベル処理部16は、発話毎のトリガーラベルを更新監視部15に出力する(ステップS802)。
【0097】
ラベル処理部16は、更新監視部15から更新有を入力したか否かを判定する(ステップS803)。ラベル処理部16は、ステップS803において、更新有を入力していないと判定した場合(ステップS803:N)、更新有を入力するまで待機する。
【0098】
一方、ラベル処理部16は、ステップS803において、更新監視部15から更新有を入力したと判定した場合(ステップS803:Y)、当該更新有と共に入力したトリガーラベルに対応する発話を特定する。そして、ラベル処理部16は、当該発話におけるラベルについて、情報管理テーブル13から当該ラベルが付与されたテキストを読み出す(ステップS804)。
【0099】
ここで、ラベル処理部16は、情報管理テーブル13において、当該ラベル(読出対象ラベル)と同種のラベル(同種ラベル(4,5列目の数値が同じラベル))のテキストが複数格納されている場合、これらのうち最先に格納されたテキストを読み出す(ステップS805)。同種ラベルとは、読出対象ラベルに加え、読出対象ラベルの4,5列目(グループ及び項目)と同じ数値を4,5列目に有し、かつ読出対象ラベルの1列目(情報源2の種類)と異なる数値を1列目に有するラベルをいう。
【0100】
また、ラベル処理部16は、情報管理テーブル13において、テンプレート14に定義されたラベル(読出対象ラベル)のテキストが格納されておらず、読出対象ラベル以外の同種ラベルのテキストのみが格納されている場合、読出対象ラベル以外の同種ラベルに付与されたテキストを読み出す。
【0101】
これにより、解説音声制作装置1が主となる情報源2からデータ(テンプレート14に定義されたラベルに関連するデータ)を取得することができない場合であっても、他の情報源2からデータ(テンプレート14に定義されたラベルにおいて1列目の情報源2の種類が異なるラベル(同種ラベル)に関連するデータ)を取得したときには、情報管理テーブル13から当該同種ラベルに付与されたテキストを読み出し、これが反映された解説音声用テキストを生成することができる。つまり、携帯端末5は、主となる情報源2以外の情報源2から取得したデータが反映された解説音声の音声ファイルを再生することができる。
【0102】
ラベル処理部16の属性重畳手段22は、情報管理テーブル13から読み出されたテキストに付与されたラベルに対し、当該ラベルに対応する発話情報量属性データを重畳する(ステップS806、重畳処理)。そして、ラベル処理部16は、発話毎の重畳後のラベル及びテキストをフォーマット変換部17に出力する(ステップS807)。
【0103】
図9は、属性重畳手段22による重畳処理の例(ステップS806)を示すフローチャートである。属性重畳手段22は、テキストに付与されたラベルから、4列目/グループ及び5列目/項目を抽出する(ステップS901)。
【0104】
属性重畳手段22は、発話情報量属性テーブル20から、ステップS901にて抽出されたラベルの4列目/グループ及び5列目/項目に対応する発話情報量属性データを読み出す(ステップS902)。そして、属性重畳手段22は、ラベルの1列目/情報源2の種類に対し、発話情報量属性データを重畳する(ステップS903)。
【0105】
図10は、発話情報量属性テーブル20のデータ構成例を示す図であり、図11は、発話情報量属性テーブル20に格納された発話情報量属性データの示す動作例及び重畳後のデータ例を説明する図である。また、図12は、ラベルの1列目/情報源2の種類が「手動入力ツール」の場合のデータ例を示している。
【0106】
前述のとおり、発話情報量属性データは、携帯端末5が発話の音声ファイルを再生する際に、発話情報量を制御するために用いる属性データである。図11に示す動作は、発話情報量属性データによって携帯端末5がどのように動作するかを示す例である。
【0107】
また、図11に示す重畳後のデータは、発話情報量属性データがラベルの1列目/情報源2の種類に重畳された場合の数値を示している。この場合のラベルの1列目/情報源2の種類は、図12に示すように、「手動入力ツール」であり、2進数表記では「0・・・00000101」、10進数表記では「5」であるとする。発話情報量属性データが重畳される箇所は、1列目/情報源2の種類「0・・・00000101」において、当該データの終わりの8ビットのうち、先頭の3ビットとする。
【0108】
図10を参照して、発話情報量属性テーブル20には、ラベルの4列目/グループ及びラベルの5列目/項目に対応して、発話情報量属性データが格納されている。発話情報量属性テーブル20のデータは、ラベルの4列目/グループ、ラベルの5列目/項目及び発話情報量属性データの各種データにより構成される。ここでは、発話情報量属性データをA,B,Cで表すものとする。発話情報量属性データA,B,Cの括弧内のデータは、当該属性データを3ビットで表した数値である。
【0109】
発話情報量属性データAを3ビットで表すと「100」、発話情報量属性データBは「010」、発話情報量属性データCは「001」、発話情報量属性データDは「110」及び発話情報量属性データEは「101」である。
【0110】
ここで、図2に示す操作処理部21は、解説音声制作装置1の作業者の操作に従い、ラベルの4列目/グループ、ラベルの5列目/項目及び発話情報量属性データの各種データを、発話情報量属性テーブル20に格納する。
【0111】
図11を参照して、図10に示した発話情報量属性テーブル20に格納された発話情報量属性データAは、「100」の3ビットで表される。この動作は、携帯端末5において、発話情報量設定データとして「多め」が選択(設定)されている場合、発話から除外すること、すなわち発話情報量属性データAが重畳されたフラグを含む発話データの音声ファイルを、発話対象から除外することを示している。
【0112】
発話情報量属性データA「100」は、ラベルの1列目/情報源2の種類「0・・・00000101」(10進数表記では「5」)における終わりの8ビットのうちの先頭の3ビットに重畳されることから、その10進数表記は「128」である。このため、発話情報量属性データA「100」がラベルの1列目/情報源2の種類「0・・・00000101」のうちの前述の3ビットの位置に重畳されることで、重畳後のデータは、2進数表記で「0・・・10000101」となる。10進数表記では、「133」となる(5+128=133)。
【0113】
また、発話情報量属性データBは、「010」の3ビットで表される。この動作は、携帯端末5において、発話情報量設定データとして「少なめ」が選択されている場合、発話に追加すること、すなわち発話情報量属性データBが重畳されたフラグを含む発話データの音声ファイルを発話対象に追加することを示している。
【0114】
同様に、発話情報量属性データB「010」は、ラベルの1列目/情報源2の種類「0・・・00000101」に重畳される位置を考慮すると、その10進数表記は「64」である。このため、発話情報量属性データB「010」が重畳されることで、重畳後のデータは、2進数表記で「0・・・01000101」となる。10進数表記では、「69」となる(5+64=69)。
【0115】
また、発話情報量属性データCは、「001」の3ビットで表される。この動作は、携帯端末5において、発話情報量設定データとして「全部」が選択されている場合、発話から除外すること、すなわち発話情報量属性データCが重畳されたフラグを含む発話データの音声ファイルを発話対象から除外することを示している。
【0116】
同様に、発話情報量属性データC「001」が重畳されることで、重畳後のデータは、2進数表記で「0・・・00100101」となる。10進数表記では、「37」となる(5+32=37)。
【0117】
また、発話情報量属性データDは、「110」の3ビットで表され、発話情報量属性データAの「100」及び発話情報量属性データBの「010」を結合した属性データである。この動作は、携帯端末5において、発話情報量設定データとして「多め」が選択されている場合、発話から除外し、発話情報量設定データとして「少なめ」が選択されている場合、発話に追加することを示している。
【0118】
同様に、発話情報量属性データD「110」が重畳されることで、重畳後のデータは、2進数表記で「0・・・11000101」となる。10進数表記では、「197」となる(5+128+64=197)。
【0119】
また、発話情報量属性データEは、「101」の3ビットで表され、発話情報量属性データAの「100」及び発話情報量属性データCの「001」を結合した属性データである。この動作は、携帯端末5において、発話情報量設定データとして「多め」が選択されている場合、発話から除外し、発話情報量設定データとして「全部」が選択されている場合、発話から除外することを示している。
【0120】
同様に、発話情報量属性データE「101」が重畳されることで、重畳後のデータは、2進数表記で「0・・・10100101」となる。10進数表記では、「165」となる(5+128+32=165)。
【0121】
このように、ラベル処理部16の属性重畳手段22により、情報源2から配信されたデータについて、テキストに付与されたラベルの1列目/情報源2の種類に対し、発話情報量属性データが重畳される。これにより、発話毎に、発話情報量属性データが重畳されたラベル及びテキストが得られ、フォーマット変換部17に出力される。
【0122】
尚、図10及び図11においては、発話情報量属性データA,B,Cに加え、組合せの例として発話情報量属性データD(A及びB),E(A及びC)の例を示したが、合計7通りの属性データ(A,B,C,D(A及びB),E(A及びC),F(B及びC),G(A,B及びC))を設定することができる。
【0123】
<フォーマット変換部17>
次に、図2に示したフォーマット変換部17について説明する。フォーマット変換部17は、ラベル処理部16から、発話毎の発話情報量属性データが重畳されたラベル及びテキストを入力する。
【0124】
フォーマット変換部17は、発話毎に、後述するJsonデータを識別するためのIDを付与する。そして、フォーマット変換部17は、Jsonデータを生成する際の時刻を基準として、音声合成装置3による音声合成処理の時間等による遅れを考慮することで時刻(作成時刻)を設定する。作成時刻は、携帯端末5が解説音声の音声ファイルを再生するときの時刻であり、後段の順序破棄制御部19及び図1に示した配信装置4にて再設定されることがあり得る。
【0125】
フォーマット変換部17は、予め設定されたデータフォーマットに従い、ID、作成時刻、ラベル(発話情報量属性データが重畳されたラベル)及びテキストを含むJsonデータを生成し、発話毎のJsonデータを発話データ及びテキスト生成部18及び順序破棄制御部19に出力する。
【0126】
例えばフォーマット変換部17は、発話のラベルとして数値5-1-1-11-2(1列目から5列目までのそれぞれの数値)を入力すると共に、当該ラベルに対応するテキスト「投げた」を入力したとする。そして、フォーマット変換部17は、当該発話のID(200000000000001078)を付与し、作成時刻(2022-09-27T19:09:45.143Z)を設定したとする。
【0127】
そうすると、フォーマット変換部17は、ID、作成時刻、ラベル及びテキストからなるJsonデータ{”ID”:200000000000001078,”tc”:”2022-09-27T19:09:45.143Z”,”Txt”:[{”Label”:”5-1-1-11-2”,”textLine1”:”投げた”}]}を生成する。
【0128】
<発話データ及びテキスト生成部18>
次に、図2に示した発話データ及びテキスト生成部18について説明する。発話データ及びテキスト生成部18は、フォーマット変換部17から発話毎のJsonデータを入力する。そして、発話データ及びテキスト生成部18は、Jsonデータからラベル、作成時刻及びテキストを抽出し、ラベル、作成時刻及びテキストからなる発話データを生成する。また、発話データ及びテキスト生成部18は、テキストを解説音声用テキストとして生成する。
【0129】
発話データ及びテキスト生成部18は、生成した解説音声用テキストの文字数を求め、文字数に基づき、所定の算出処理にて解説音声用テキストの音声ファイル(wav(Waveform Audio File Format)ファイル)の時間長を算出する。文字数から音声ファイルの時間長を算出するための処理は既知であるため、ここでは説明を省略する。
【0130】
発話データ及びテキスト生成部18は、発話データ及び時間長を順序破棄制御部19に出力し、発話データ及び解説音声用テキストを音声合成装置3へ出力する。
【0131】
<順序破棄制御部19>
次に、図2に示した順序破棄制御部19について説明する。順序破棄制御部19は、フォーマット変換部17からのJsonデータを入力すると共に、発話データ及びテキスト生成部18から発話データ及び時間長を入力する。
【0132】
順序破棄制御部19は、入力したJsonデータに対応する発話データ及び時間長を特定し、発話データ(ラベル、作成時刻及びテキスト)及び時間長からなるデータを生成し、配列の最後部に追加する。これにより、情報管理テーブル13において更新されたテキストに対応するデータが、配列に追加される。
【0133】
ここで、配列は、発話毎のデータにより構成される。発話される解説音声がない場合は、配列にはデータは存在しない。配列には、フォーマット変換部17からJsonデータが入力される毎に、当該Jsonデータに対応するデータが追加される。また、後述する処理により、配列内のデータが破棄される。
【0134】
順序破棄制御部19は、配列内の複数のデータについて、ラベルの3列目の「提示タイミング」に基づいて、「即時」>「準即時」>「定期」>「その他」の優先度となるように、配列内における複数のデータの順序を決定して並び替える。
【0135】
順序破棄制御部19は、並び替えられた配列内のデータについて、作成時刻を再設定する。具体的には、順序破棄制御部19は、配列内のデータについて、配列内の順序、並びに配列内のデータの作成時刻及び時間長に基づいて、その作成時刻を再設定する。
【0136】
順序破棄制御部19は、配列内にラベルの4,5列目が同じ数値である同種ラベルのデータが複数ある場合、古い作成時刻の発話データを破棄する。
【0137】
順序破棄制御部19は、配列内のデータについて、配列内に追加されたときから一定時間(予め設定された時間)経過したデータを破棄する。この場合も、順序破棄制御部19は、破棄の処理の後の配列内のデータについて、前述と同様の処理にて、作成時刻を再設定する。
【0138】
順序破棄制御部19は、配列内にデータがある場合、配列内の先頭のデータから発話データを抽出し、発話データを配信装置4へ出力する。そして、順序破棄制御部19は、配列内の先頭のデータを破棄する。
【0139】
以上のように、本発明の実施形態の解説音声制作装置1によれば、ラベル処理部16の属性重畳手段22は、情報源2から配信されたデータのテキストに付与されたラベルについて、発話情報量属性テーブル20から当該ラベルの4列目/グループ及び5列目/項目に対応する発話情報量属性データを読み出す。そして、属性重畳手段22は、ラベルの1列目/情報源2の種類に対し、発話情報量属性データを重畳する。
【0140】
発話データ及びテキスト生成部18は、発話情報量属性データが重畳されたラベル、作成時刻及びテキストからなる発話データを生成すると共に、テキストを解説音声用テキストとして生成し、発話データ及び解説音声用テキストを出力する。
【0141】
このように、情報源2から配信されたデータについて、当該データから抽出されたテキストに付与されたラベルの1列目/情報源2の種類に対し、発話情報量属性データが重畳される。これにより、発話毎に、発話情報量属性データが重畳されたラベル及びテキストが得られる。そして、解説音声用テキストは、音声合成装置3にて音声合成されることで音声ファイルが生成され、発話データ及び音声ファイルが配信装置4から携帯端末5へ配信される。
【0142】
そして、携帯端末5が、配信装置4から配信された発話データ及び音声ファイルを受信し、発話データから抽出した発話情報量属性データ及び予め設定された発話情報量設定データに基づいて、音声ファイルを発話対象に追加するか、または除外するかを判定し、発話対象の音声ファイルを再生する。
【0143】
これにより、発話のテキストにラベルが付与され、当該ラベルに応じた発話情報量属性データが携帯端末5へ配信されるため、このようなデータが携帯端末5へ配信されることのない前述の特許文献1及び非特許文献1,2とは異なり、本発明の実施形態では、携帯端末5側で、ユーザ毎に発話情報量を制御するためのカスタマイズを実現することができる。
【0144】
つまり、本発明の実施形態では、発話情報量属性データが重畳されたフラグを含む発話データが携帯端末5へ配信されるため、携帯端末5において発話を制御することが可能となる。これにより、ユーザ側で最適な発話情報量を設定し、快適にスポーツ中継を視聴することができる。
【0145】
したがって、携帯端末5のユーザ操作に従って解説音声の情報量を個別に設定することで、ユーザの利便性を図ると共に、解説音声サービスの質を向上させることができる。
【0146】
また、図1に示した解説音声制作配信システム10が提供する発話の情報量等をユーザ側で選択可能な多彩なアプリ機能を実現することが可能となり、例えば視覚障害者及びながら視聴を行う健常者等に対し、スポーツ中継の状況を分かり易く伝えることが可能となる。
【0147】
そして、ユーザ側で最適な情報量を設定することで、快適にスポーツ中継を視聴することができる。例えば画面スーパーを確認できる視力を有するユーザにとっては、球速表示等は画面で確認することができるため、この場合には、携帯端末5に対し、投球に関する音声ファイルを毎回発話させないようにすることができる。
【0148】
〔携帯端末5〕
次に、図1に示した携帯端末5について詳細に説明する。図13は、本発明の実施形態による携帯端末5の構成例を示すブロック図である。この携帯端末5は、操作処理部30、メモリ31、通信部32及び再生処理部33を備えている。
【0149】
操作処理部30は、ユーザ操作に従い、選択した発話情報量設定データを入力し、発話情報量設定データをメモリ31に格納する。
【0150】
前述のとおり、発話情報量設定データは、携帯端末5を操作するユーザにより予め設定されるデータであって、発話情報量を制御するために用いる設定データである。
【0151】
発話情報量は、後述する再生処理部33において、解説音声制作装置1から配信装置4を介して配信されてきた発話情報量属性データ及び予め設定された発話情報量設定データに基づいて、発話対象に発話の音声ファイルを追加し、または発話対象から発話の音声ファイルを除外することで制御される。つまり、ユーザにより予め設定される(選択される)発話情報量設定データに応じて、発話情報量が決定される。
【0152】
メモリ31には、発話情報量設定データとして、例えば「多め」「少なめ」「全部」「投球シーン」等のうちのいずれかのデータが格納される。
【0153】
「多め」は、携帯端末5における発話の情報量(再生される発話の音声ファイルの情報量)が多くなるように、ラベルに重畳された発話情報量属性データとの関係で、所定の音声ファイルのみを発話対象から除外するための設定データである。「少なめ」は、携帯端末5における発話の情報量が少なくなるように、ラベルに重畳された発話情報量属性データとの関係で、所定の音声ファイルのみを発話対象に追加するための設定データである。「全部」は、基本的には全ての音声ファイルを再生するが、ラベルに重畳された発話情報量属性データとの関係で、所定の音声ファイルのみを発話対象から除外するための設定データである。
【0154】
また、「投球シーン」は、投球に関する自動発話(例えばラベルの1列目/情報源2の種類が「ODF」及び「BIS」等の自動入力ツールであり、4列目/グループ及び5列目/項目が投球に関するデータである場合)の音声ファイルのみを再生するように、ラベルに重畳された発話情報量属性データとの関係で、投球に関する音声ファイルのみを発話対象に追加するための設定データである。
【0155】
この場合、発話情報量属性テーブル20には、ラベルの1列目/情報源2の種類が「ODF」及び「BIS」等の自動入力ツールであり、かつラベルの4列目/グループ及び5列目/項目が投球に関するデータである場合のこれらに対応する発話情報量属性データが格納されている。解説音声制作装置1のラベル処理部16の属性重畳手段22により、テキストに付与されたラベルから、1列目/情報源2の種類、4列目/グループ及び5列目/項目が抽出される。発話情報量属性テーブル20から、抽出されたラベルの1列目/情報源2の種類、4列目/グループ及び5列目/項目に対応する発話情報量属性データが読み出される。
【0156】
通信部32は、配信装置4から発話データ(ラベル、作成時刻及びテキスト)及びこれに対応する発話の音声ファイルを受信する。具体的には、通信部32は、配信装置4から発話データを受信すると、当該発話データに対応する音声ファイルの配信を受けるためのリクエストを配信装置4へ送信し、配信装置4から当該リクエストに対応する音声ファイルを受信する。通信部32は、発話データ及び音声ファイルを再生処理部33に出力する。
【0157】
<再生処理部33>
次に、図13に示した再生処理部33について説明する。図14は、再生処理部33の処理例を示すフローチャートである。
【0158】
再生処理部33は、通信部32から発話データ及び音声ファイルを入力し(ステップS1401)、メモリ31から発話情報量設定データを読み出す(ステップS1402)。
【0159】
再生処理部33は、発話データから発話情報量属性データを抽出する(ステップS1403)。具体的には、再生処理部33は、発話データからラベルを抽出し、ラベルから、1列目/情報源2の種類のデータを抽出し、当該データから発話情報量属性データを抽出する。図12に示した例では、再生処理部33は、ラベルの1列目/情報源2の種類のデータから、当該データの終わりの8ビットのうち先頭の3ビットである発話情報量属性データを抽出する。
【0160】
再生処理部33は、発話情報量属性データ及び発話情報量設定データに基づいて、発話対象に音声ファイルを追加するか、または発話対象から音声ファイルを除外するかを判定する(ステップS1404,S1405)。
【0161】
再生処理部33は、ステップS1405において、発話対象に音声ファイルを追加すると判定した場合(ステップS1405:追加)、発話対象に音声ファイルを追加し、当該音声ファイルを再生する(ステップS1406)。この場合、発話対象に追加された音声ファイルは、発話データに含まれる作成時刻である再生時刻に基づき、順番に再生される。
【0162】
一方、再生処理部33は、ステップS1405において、発話対象から音声ファイルを除外すると判定した場合(ステップS1405:除外)、当該音声ファイルを発話対象に追加しないように除外する。この場合、当該音声ファイルは再生されないこととなる。
【0163】
例えば発話情報量設定データが「多め」であるとする。この発話情報量設定データ「多め」は、発話情報量属性データ「A」(3ビット「100」)、発話情報量属性データ「D」(3ビット「110」)、発話情報量属性データ「E」(3ビット「101」)等を含む発話データに対応する音声ファイルを発話対象から除外するように、再生処理部33が動作することを示しているものとする。つまり、3ビットの発話情報量属性データのうち最上位ビットとして「1」を含む発話データに対応する音声ファイルを発話対象から除外するように、再生処理部33が動作することを示しているものとする。
【0164】
再生処理部33は、入力された発話データのフラグに発話情報量属性データのうち最上位ビットとして「1」が重畳されている場合、当該発話データに対応する音声ファイルを発話対象から除外し、再生しないようにする。一方、再生処理部33は、発話情報量属性データのうち最上位ビットとして「1」が重畳されていない場合、当該発話データに対応する音声ファイルを発話対象に追加し、再生する。
【0165】
これにより、ユーザが発話情報量設定データとして「多め」を選択した場合、発話情報量属性データのうち最上位ビットとして「1」以外の音声ファイルが再生され、携帯端末5における発話の情報量を多くすることができる。
【0166】
また、例えば発話情報量設定データが「少なめ」であるとする。この発話情報量設定データ「少なめ」は、発話情報量属性データ「B」(3ビット「010」)、発話情報量属性データ「D」(3ビット「110」)等を含む発話データに対応する音声ファイルを発話対象に追加するように、再生処理部33が動作することを示しているものとする。つまり、3ビットの発話情報量属性データのうち中央ビットとして「1」を含む発話データに対応する音声ファイルを発話対象に追加するように、再生処理部33が動作することを示しているものとする。
【0167】
再生処理部33は、入力された発話データのフラグに発話情報量属性データのうち中央ビットとして「1」が重畳されている場合、当該発話データに対応する音声ファイルを発話対象に追加し、再生する。一方、再生処理部33は、発話情報量属性データのうち中央ビットとして「1」が重畳されていない場合、当該発話データに対応する音声ファイルを発話対象から除外し、再生しないようにする。
【0168】
これにより、ユーザが発話情報量設定データとして「少なめ」を選択した場合、発話情報量属性データのうち中央ビットとして「1」の音声ファイルのみが再生され、携帯端末5における発話の情報量を少なくすることができる。
【0169】
また、例えば発話情報量設定データが「投球シーン」であるとする。この発話情報量設定データ「投球シーン」は、投球に関する自動発話を示す発話情報量属性データを含む発話データに対応する音声ファイルを発話対象に追加するように、再生処理部33が動作することを示しているものとする。
【0170】
再生処理部33は、入力された発話データのフラグに、投球に関する自動発話を示す発話情報量属性データが重畳されている場合、当該発話データに対応する音声ファイルを発話対象に追加し、再生する。一方、再生処理部33は、投球に関する自動発話を示す発話情報量属性データが重畳されていない場合、当該発話データに対応する音声ファイルを発話対象から除外し、再生しないようにする。
【0171】
これにより、ユーザが発話情報量設定データとして「投球シーン」を選択した場合、投球に関する自動発話を示す発話情報量属性データの音声ファイルのみが再生され、携帯端末5における発話を「投球シーン」に限定することができる。
【0172】
例えば、野球に詳しい全盲者が野球中継を視聴している場合、打者がボールを打った後の状況(ファール、2塁打等)はテレビ音声で伝えられることが多い。このため、携帯端末5における解説音声を「投球シーン」に限定することにより、投球に関する解説音声を聞くことができる。つまり、携帯端末5の解説音声により、スポーツ中継の状況を分かり易く伝えることができ、ユーザの利便性を図ると共に、解説音声サービスの質を向上させることができる。
【0173】
以上のように、本発明の実施形態の携帯端末5によれば、再生処理部33は、メモリ31から発話情報量設定データを読み出し、通信部32にて受信した発話データから発話情報量属性データを抽出する。そして、再生処理部33は、発話情報量属性データ及び発話情報量設定データに基づいて、発話対象に音声ファイルを追加するか、または発話対象から音声ファイルを除外するかを判定する。
【0174】
再生処理部33は、発話対象に音声ファイルを追加すると判定した場合、発話対象に音声ファイルを追加し、当該音声ファイルを再生し、発話対象から音声ファイルを除外すると判定した場合、当該音声ファイルを発話対象に追加しないように除外する。
【0175】
これにより、携帯端末5側で、発話情報量設定データに応じて、発話情報量を制御するためのカスタマイズを実現することができる。つまり、ユーザ側で最適な発話情報量を設定し、快適にスポーツ中継を視聴することができる。
【0176】
したがって、解説音声制作装置1と同様に、携帯端末5のユーザ操作に従って解説音声の情報量を個別に設定することで、ユーザの利便性を図ると共に、解説音声サービスの質を向上させることができる。
【0177】
例えば視覚障害者及びながら視聴を行う健常者等に対し、スポーツ中継の状況を分かり易く伝えることが可能となる。また、例えば画面スーパーを確認できる視力を有するユーザにとっては、球速表示等は画面で確認することができるため、この場合には、携帯端末5に対し、投球に関する音声ファイルを毎回発話させないようにすることができる。
【0178】
図15は、本発明の実施形態のイメージを説明する図である。家庭において、携帯端末5を操作するユーザにより、発話情報量設定データとして「多め」が予め設定され、発話男女選択、再生速度等が予め設定されたとする。そして、放送局において、手動入力されたデータから生成された解説音声用テキスト、及び文字認識により自動入力されたデータから生成された解説音声用テキストに関する音声ファイルが音声合成装置3にて生成され、発話データ及び音声ファイルが配信装置4から携帯端末5へ配信されたとする。
【0179】
ユーザがテレビ音声「速い球を見逃した」を聞いているときに、携帯端末5は、予め設定された発話情報量設定データ「多め」、及び受信した発話データに含まれる発話情報量属性データに基づき、「速球145キロ」の音声ファイルを発話対象に追加する。そして、携帯端末5は、予め設定された発話男女選択、再生速度等に従い、例えば音質強調されるように、「速球145キロ」の音声ファイルを再生する。
【0180】
図1に示した解説音声制作配信システム10は、放送、インターネット等の映像メディアサービスに適用することができる。また、携帯アプリでの緊急速報に代表されるセキュリティシステム等、様々な用途にも適用することができる。
【0181】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0182】
例えば図2に示した解説音声制作装置1において、ラベル処理部16の属性重畳手段22は、ラベルに発話情報量属性データを重畳し、発話データ及びテキスト生成部18は、発話情報量属性データが重畳されたラベルを含む発話データを生成するようにした。
【0183】
これに対し、ラベル処理部16は、ラベルに対し、発話情報量属性データを6列目の数値として追加し、合計6個の数値からなるラベルを生成し、発話データ及びテキスト生成部18は、発話情報量属性データが追加されたラベルを含む発話データを生成するようにしてもよい。また、ラベル処理部16は、発話情報量属性データをラベルに重畳したり、追加したりすることなく、発話情報量属性データ、ラベル及びテキストを出力し、発話データ及びテキスト生成部18は、ラベル、作成時刻及びテキストに加え、発話情報量属性データを追加した発話データを生成するようにしてもよい。
【0184】
この場合、前述の本発明の実施形態では、ラベル処理部16の属性重畳手段22がラベルに発話情報量属性データを重畳するようにしたため、ラベルの列数は従来の5のままでよく、その列数を増やす必要がない。これにより、システム全体を大幅に改修する必要がなく、改修負荷を低減することができる。
【0185】
また、例えば解説音声制作装置1のラベル処理部16の属性重畳手段22は、ラベルの1列目/情報源2の種類に対し、発話情報量属性データを重畳するようにした。これに対し、属性重畳手段22は、ラベルの1列目/情報源2の種類以外の2列目/競技種目、3列目/提示タイミング等のいずれかに対し、発話情報量属性データを重畳するようにしてもよい。
【0186】
また、例えば図13に示した携帯端末5において、再生処理部33は、受信した発話データに含まれる発話情報量属性データ、及び予め設定された発話情報量設定データに基づいて、発話対象に音声ファイルを追加するか、または発話対象から音声ファイルを除外するかを判定するようにした。これに対し、再生処理部33は、受信した発話データに含まれるラベル、及び予め設定された発話情報量設定データに基づいて、発話対象に音声ファイルを追加するか、または発話対象から音声ファイルを除外するかを判定するようにしてもよい。この場合は、発話情報量属性データは使用しない。
【0187】
例えば発話情報量設定データが「投球シーン」の場合、この発話情報量設定データは、投球に関する自動発話(例えばラベルの1列目/情報源2の種類が「ODF」及び「BIS」等の自動入力ツールであり、4列目/グループ及び5列目/項目が投球に関するデータである場合)の音声ファイルのみを再生するように、ラベルとの関係で、投球に関する音声ファイルのみを発話対象に追加するための設定データであるとする。つまり、この発話情報量設定データ「投球シーン」は、投球に関する自動発話を示すラベルを含む発話データにつき、当該発話データに対応する音声ファイルを発話対象に追加するように、再生処理部33が動作することを示している。
【0188】
再生処理部33は、入力された発話データのフラグが投球に関する自動発話のラベルである場合、すなわち1列目/情報源2の種類が「ODF」及び「BIS」等の自動入力ツールであり、4列目/グループ及び5列目/項目が投球に関するデータである場合、当該発話データに対応する音声ファイルを発話対象に追加し、再生する。一方、再生処理部33は、入力された発話データのフラグが投球に関する自動発話のラベルでない場合、当該発話データに対応する音声ファイルを発話対象から除外し、再生しないようにする。
【0189】
これにより、ユーザが発話情報量設定データとして「投球シーン」を選択した場合、投球に関する自動発話の音声ファイルのみが再生され、携帯端末5における発話を「投球シーン」に限定することができる。
【0190】
尚、本発明の実施形態による解説音声制作装置1のハードウェア構成としては、通常のコンピュータを使用することができる。解説音声制作装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。携帯端末5についても同様である。
【0191】
解説音声制作装置1に備えたテキスト抽出部11、ラベル付与部12、情報管理テーブル13、テンプレート14、更新監視部15、ラベル処理部16、フォーマット変換部17、発話データ及びテキスト生成部18、順序破棄制御部19、発話情報量属性テーブル20及び操作処理部21の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0192】
また、携帯端末5に備えた操作処理部30、メモリ31、通信部32及び再生処理部33の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0193】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0194】
1 解説音声制作装置
2 情報源
3 音声合成装置
4 配信装置
5,105 携帯端末
10 解説音声制作配信システム
11 テキスト抽出部
12 ラベル付与部
13 情報管理テーブル
14 テンプレート
15 更新監視部
16 ラベル処理部
17 フォーマット変換部
18 発話データ及びテキスト生成部
19 順序破棄制御部
20 発話情報量属性テーブル
21,30 操作処理部
22 属性重畳手段
31 メモリ
32 通信部
33 再生処理部
100 視聴者
101 放送送信装置
102 放送受信装置
103 解説音声制作配信装置
104 アプリサーバ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16