IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社スペースファクトリーの特許一覧

<>
  • 特開-音読支援システム 図1
  • 特開-音読支援システム 図2
  • 特開-音読支援システム 図3
  • 特開-音読支援システム 図4
  • 特開-音読支援システム 図5
  • 特開-音読支援システム 図6
  • 特開-音読支援システム 図7
  • 特開-音読支援システム 図8
  • 特開-音読支援システム 図9
  • 特開-音読支援システム 図10
  • 特開-音読支援システム 図11
  • 特開-音読支援システム 図12
  • 特開-音読支援システム 図13
  • 特開-音読支援システム 図14
  • 特開-音読支援システム 図15
  • 特開-音読支援システム 図16
  • 特開-音読支援システム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023003402
(43)【公開日】2023-01-11
(54)【発明の名称】音読支援システム
(51)【国際特許分類】
   H04N 5/93 20060101AFI20221228BHJP
   G06Q 50/10 20120101ALI20221228BHJP
   G10L 13/00 20060101ALI20221228BHJP
   G10L 13/02 20130101ALI20221228BHJP
【FI】
H04N5/93 050
G06Q50/10
G10L13/00 100S
G10L13/02 130Z
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022098832
(22)【出願日】2022-06-20
(31)【優先権主張番号】P 2021103925
(32)【優先日】2021-06-23
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】517278004
【氏名又は名称】株式会社スペースファクトリー
(74)【代理人】
【識別番号】110001335
【氏名又は名称】弁理士法人 武政国際特許商標事務所
(72)【発明者】
【氏名】黒岩 司
(72)【発明者】
【氏名】増子 貴志
(72)【発明者】
【氏名】横山 茉璃乃
【テーマコード(参考)】
5C053
5L049
【Fターム(参考)】
5C053LA04
5C053LA06
5C053LA11
5C053LA14
5L049CC11
(57)【要約】      (修正有)
【課題】従来手法に比べて容易に動画中の音読開始位置を設定することができる音読支援システムを提供する。
【解決手段】音読支援システム100Bは、動画再生手段310、開始点設定手段311及び台詞設定手段312を備える。動画再生手段310は、あらかじめ作成された動画データを読み出して、その動画を再生する。台詞設定手段312は、オペレータ操作によって台詞テキストデータを設定する。開始点設定手段311は、オペレータ操作によって、動画の再生中に台詞の音読を開始する時間位置である音読開始点を設定する。オペレータは、再生中の動画を確認しながら音読開始点を設定できる。
【選択図】図11
【特許請求の範囲】
【請求項1】
あらかじめ作成された動画を再生する動画再生手段と、
オペレータ操作によって、動画再生中に音読を開始する音読開始点を設定する開始点設定手段と、
オペレータ操作によって、前記音読開始点に対応する台詞を設定する台詞設定手段と、を備え、
前記開始点設定手段は、1又は2以上の前記音読開始点の設定が可能であるとともに、オペレータが再生中の動画を確認しながら該音読開始点を設定し得る、
ことを特徴とする音読支援システム。
【請求項2】
再生中の動画の進行状況を示す進行状況バーを表示する進行状況表示手段と、
前記音読開始点を表示する開始点表示手段と、をさらに備え、
オペレータが前記進行状況バーのうち所望の位置を指定することによって、前記開始点設定手段が前記音読開始点を設定し、
前記開始点表示手段は、前記進行状況バーの近傍に前記音読開始点を表示するとともに、動画の進行に応じた位置に該音読開始点を表示する、
ことを特徴とする請求項1記載の音読支援システム。
【請求項3】
前記台詞設定手段によって設定された台詞に基づいて、合成音声を生成する合成音声生成手段と、
前記合成音声の再生速度を設定する速度設定手段と、
前記合成音声出力手段が前記合成音声を出力する音読時間を設定する音読時間設定手段と、
前記音読時間設定手段によって設定された前記音読時間に応じた音読バーを表示する音読バー表示手段と、をさらに備え、
前記音読バー表示手段は、前記開始点表示手段によって表示された前記音読開始点を起点とし、前記進行状況バーの進行方向に伸びるように前記音読バーを表示する、
ことを特徴とする請求項2記載の音読支援システム。
【請求項4】
前記合成音声生成手段によって生成された前記合成音声を、前記速度設定手段で設定された前記音読速度で出力する合成音声出力手段を、さらに備え、
前記合成音声出力手段は、前記開始点設定手段で設定された前記音読開始点まで動画が進行すると、該音読開始点に対応する台詞に係る前記合成音声を出力する、
ことを特徴とする請求項3記載の音読支援システム。
【請求項5】
話者が台詞を音読した音声が記録された音読データを生成する音読データ生成手段を、さらに備え、
前記話者は、前記動画再生手段によって再生される動画と、前記進行状況表示手段によって表示される前記進行状況バーと、前記開始点表示手段によって表示される前記音読開始点と、を確認しながら台詞を音読し得る、
ことを特徴とする請求項2乃至請求項4のいずれかに記載の音読支援システム。
【発明の詳細な説明】
【技術分野】
【0001】
本願発明は、話者に音読を依頼する技術であり、より具体的には、動画に合わせて台詞を音読する話者を支援することができる音読支援システムに関するものである。
【背景技術】
【0002】
従来、他者に対して何らかの説明を行うにあたっては、文字や図画、動画などを用いるのが主流であった。例えば商品等を広告するケースでは、チラシや新聞折り込みなど文字や写真を中心とした紙媒体で説明したり、ウェブサイトを利用して文字や図画による静止画面で説明したり、あるいはテレビやインターネットを利用して動画で説明したりすることが多かった。また、学校などの教育現場や新入社員向けの研修場面などではパワーポイント(登録商標)といったスライド資料を表示しつつ口頭による説明を行うこともあり、ビジネスの場面では紙資料を相手に渡したうえで口頭による説明を行うこともあった。
【0003】
ところで、チラシや新聞折り込み、ウェブサイトの静止画などは、利用者がその内容を読んで理解する必要があるため、利用者によるいわば能動的な行動が求められる。これに対して、パワーポイントや営業資料を用いた口頭説明では、利用者はいわば受動的な姿勢で情報を入手することができ、同様に、動画による説明でもやはり受動的な姿勢で情報を入手することができる。すなわち、音声を伴う説明の方が利用者にとっての労が少なく、また音声を伴うこと(例えば、本の読み聞かせなど)でその理解が促進することも知られている。
【0004】
しかしながら、パワーポイントや営業資料による口頭説明は、説明者の負担が大きく、また再現性も確保されないため重要な説明が脱落するおそれすらある。一方、動画による説明は、説明者が不要であって再現性も確保されるものの、その製作に掛かる手間やコストが負担となる。そこで、パワーポイントや営業資料による口頭説明を事前に録音することが考えられる。例えば、その録音を再生しながらパワーポイントを表示し、新入社員に対して業務マニュアルや社則などを説明するわけである。ただしこの場合、説明側のいずれかの者が自ら録音することとなり、抑揚や強調、音読速度、感情的表現などいわば音読技術(ナレーション技術)として不十分となることが避けられず、換言すれば高い品質のナレーションを提供することができない。
【0005】
説明者自身による録音を回避したい場合、合成音声を利用することも考えられる。近年、合成音声に係る技術は飛躍的に発展しており、合成音声に関する新たな技術も種々提案されているところである。例えば特許文献1では、与えられたテキストに対して合成音声化すべきか否かを判断したうえで、テキストに対応する合成音声データを生成する技術について提案している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2018-004977号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1に開示される技術のような合成音声は、当然ながら人が発生する肉声ではない。したがって合成音声は機械的な印象を拭うことができず、やはり肉声による説明の方が訴求力ははるかに上回る。とはいえ、ナレーションの訓練を経験していない者が音声録音を行うと、上述したように高品質のナレーションを提供することができない。声優やアナウンサーなど高度なナレーション技術を有する者に依頼することも考えられるが、声優等に依頼する手順はあまり知られていないうえに思った以上に煩雑であり、また録音データの納品までに相当の時間を要し、さらに費用の把握が難しく最終的に予算以上の金額が請求されるといった問題があった。
【0008】
また、動画の再生中には種々のコメントが読まれることが多いが、この場合もやはりコメントの音読は声優等に依頼した方が好ましい。動画中のコメントの音読を依頼するにあたっては、依頼者は動画の再生中にどこでコメントの音読を開始するかを設定しなければならないが、この設定作業は思いのほか難しい。動画の再生時間を計測しながら設定することも考えられるが、動画を確認しながらその時刻を記録する手間を要するうえに、音読する側も設定された時刻を計測しながら開始するためそのタイミングを測りかねるおそれもある。
【0009】
本願発明の課題は、従来技術が抱える問題を解決することであり、すなわち従来手法に比べて容易に動画中の音読開始位置を設定することができる音読支援システムを提供することである。
【課題を解決するための手段】
【0010】
本願発明は、オペレータが再生中の動画を確認しながら音読の開始位置を設定する、という点に着目したものであり、従来にはなかった発想に基づいてなされた発明である。
【0011】
本願発明の音読支援システムは、動画再生手段と開始点設定手段、台詞設定手段を備えたものである。このうち動画再生手段は、あらかじめ作成された動画を再生する手段であり、音読開始点は、オペレータ操作によって動画再生中に音読を開始する「音読開始点(いわば、開始位置)」を設定する手段であり、また台詞設定手段は、オペレータ操作によって音読開始点に対応する台詞を設定する手段である。なお開始点設定手段は、1又は2以上の音読開始点の設定が可能であり、しかもオペレータが再生中の動画を確認しながら音読開始点を設定することができる。
【0012】
本願発明の音読支援システムは、進行状況表示手段と開始点表示手段をさらに備えたものとすることもできる。この進行状況表示手段は、再生中の動画の進行状況を示す「進行状況バー」を表示する手段であり、開始点表示手段は、音読開始点を図形や文字等によって表示する手段である。この場合、オペレータが進行状況バーのうち所望の位置を指定することによって、開始点設定手段は音読開始点を設定する。また開始点表示手段は、進行状況バーの近傍に音読開始点を表示するとともに、動画の進行に応じた位置に音読開始点を表示する。
【0013】
本願発明の音読支援システムは、合成音声生成手段と速度設定手段、音読時間設定手段、音読バー表示手段をさらに備えたものとすることもできる。この合成音声生成手段は、台詞設定手段によって設定された台詞に基づいて「合成音声」を生成する手段であり、速度設定手段は、合成音声の音読速度を設定する手段であり、音読時間設定手段は、合成音声出力手段が合成音声を出力する「音読時間(音読に係る時間長さ)」を設定する手段であり、また音読バー表示手段は、音読時間設定手段によって設定された音読時間に応じた「音読バー」を表示する手段である。この場合、音読バー表示手段は、開始点表示手段によって表示された音読開始点を起点とし、進行状況バーの進行方向に伸びるように音読バーを表示する。
【0014】
本願発明の音読支援システムは、合成音声出力手段をさらに備えたものとすることもできる。この合成音声出力手段は、合成音声生成手段によって生成された合成音声を速度設定手段で設定された「音読速度」で出力する手段である。この場合、合成音声出力手段は、開始点設定手段で設定された音読開始点まで動画が進行すると、音読開始点に対応する台詞に係る合成音声を出力する。
【0015】
本願発明の音読支援システムは、音読データ生成手段をさらに備えたものとすることもできる。この音読データ生成手段は、話者が台詞を音読した音声が記録された音読データを生成する手段である。この場合、話者は、動画再生手段によって再生される動画と、進行状況表示手段によって表示される進行状況バーと、開始点表示手段によって表示される音読開始点を、それぞれ確認しながら台詞を音読することができる。
【発明の効果】
【0016】
本願発明の音読支援システムには、次のような効果がある。
(1)声優など高いナレーション技術を有する話者に音読の依頼を行うにあたって、ユーザは従来の手順に比べて容易に依頼することができる。
(2)声優などに音読を依頼する結果、ユーザは高品質のナレーションなどを得ることができる。
(3)依頼手順が容易になる結果、ユーザは従来の手法に比べて迅速に音読結果を得ることができる。
(4)声優が録音する際のスタジオを用意する必要がなく、ユーザは従来の手法に比べて低コストで音読結果を得ることができる。
(5)オペレータは、動画を再生しながら音読の開始位置と終了位置を視覚的に確認できることから、容易に動画内での音読開始位置を設定し、調整することができる。
(6)2以上の音読開始点を表示することによって、音読可能な期間(セクション)を容易に把握することができる。
(7)2以上の音読開始点によるセクションと、音読バーを合わせて表示することによって、現状の音読の適否を判断することができる。この場合、音読速度を調整したり、台詞の文字数を増減したりすることで、適切な音読を依頼することができる。
【図面の簡単な説明】
【0017】
図1】第1実施形態の音読支援システムの主な構成を示すブロック図。
図2】情報管理サーバとユーザ側端末、話者側端末を利用して構成された本願発明の音読支援システムを模式的に示すモデル図。
図3】情報管理サーバとユーザ側端末、話者側端末を利用した場合の音読支援システムの主な構成を示すブロック図。
図4】スライドごとに生成されるスライド式ファイル用の依頼データと、スライドごとに生成されるスライド式ファイル用の音読データを、模式的に示すモデル図。
図5】ユーザ用アプリケーションのUI画面の例を示すUI図。
図6】話者用アプリケーションのUI画面の例を示すUI図。
図7】第1実施形態の音読支援システムの処理のうち、主にユーザ側端末に係る処理の流れを示すフロー図。
図8】主にユーザ側端末に係る処理のうち、特に候補話者の中から選定話者を選定する処理の流れを示すフロー図。
図9】第1実施形態の音読支援システムの処理のうち、主に情報管理サーバ係る処理の流れを示すフロー図。
図10】第1実施形態の音読支援システムの処理のうち、主に話者側端末係る処理の流れを示すフロー図。
図11】第2実施形態の音読支援システムの主な構成を示すブロック図。
図12】第1実施形態の音読支援システムのUI画面の例を示すUI図。
図13】オペレータがポインティングデバイスを使用して進行状況バーの所定位置を指定する例を示すUI図。
図14】開始点表示手段によって進行状況バーの近傍に表示された8つの音読開始点を示すUI図。
図15】セクションに対応する台詞テキストを表示する例を示すUI図。
図16】音読バー表示手段によって表示された音読バーの例を示すUI図。
図17】第2実施形態の音読支援システムの処理のうち、主にユーザ側端末に係る処理の流れを示すフロー図。
【発明を実施するための形態】
【0018】
本願発明の音読支援システムの実施の例を、図に基づいて説明する。本願発明の音読支援システムは、ナレーション等の経験が豊富でない者(以下、音読を依頼する者のことを単に「ユーザ」という。)が特定の話者に対して音読を依頼する際に、特に有効に利用することができる。ここで話者とは、音読を依頼される者であって、例えば声優やアナウンサー、ナレーター、俳優、司会を業とする者、DJ(Disc Jockey)、落語家など、高いナレーション技術や会話スキルを有する者を選定するとよい。なお、本願発明の音読支援システムは、必ずしも動画を伴わないケースと、動画に合わせて音読するケースに大別することができる。そこで、動画を伴わないケースを第1実施形態、動画に合わせて音読するケースを第2実施形態としたうえで、それぞれについて説明することとする。
【0019】
1.第1実施形態
図1は、第1実施形態の音読支援システム100Aの主な構成を示すブロック図である。この図に示すように第1実施形態の音読支援システム100Aは、音読条件設定手段301と依頼データ生成手段302、音読データ生成手段401を含んで構成される。ユーザは、音読を希望する文面(文章)を用意するとともに、この文面をデータ化したテキスト(以下、「音読テキスト」という。)を作成したうえで、音読条件設定手段301によって音読テキストを音読する際の条件(以下、「音読条件」という。)を設定する。これにより依頼データ生成手段302が、音読テキストと音読条件を記録したデータ(以下、「依頼データ」という。)を生成する。そして、この依頼データを受け取った話者は音読条件にしたがって音読テキストを音読し、音読データ生成手段401がその音声を記録した(つまり、録音した)データ(以下、「音読データ」という。)を生成する。なおここでデータとは、電子的方式や磁気的方式、そのほか人の知覚によって認識することができない方式で作られる記録であって、電子計算機(コンピュータ)による情報処理の用に供される電磁的記録を含むものである。
【0020】
第1実施形態の音読支援システム100Aは、図2に示すように情報管理サーバ200とユーザ側端末300、話者側端末400を利用して構成することもできる。この情報管理サーバ200は、音読支援システム100Aで扱われる種々の情報を集約するサーバであり、有線や無線などの電気通信回線を通じて複数(図では3機)のユーザ側端末300と、複数(図では3機)の話者側端末400と通信可能とされる。したがって音読支援システム100Aは、例えばクラウド上に構築したクラウドサーバとするとよい。
【0021】
一方、ユーザ側端末300は、ユーザ側に配置される端末機器であり、例えばスマートフォンやPC(Personal Computer)などのコンピュータ装置を利用することができる。ユーザは、このユーザ側端末300を用いて依頼データを生成し、話者に対して音読を依頼する。これに対して話者側端末400は、話者側に配置される端末機器であり、やはりスマートフォンやPCなどのコンピュータ装置を利用することができる。ユーザから依頼を受けた話者は、この話者側端末400を用いて依頼データを受け取るとともに音読データを生成する。
【0022】
図2に示すように情報管理サーバ200とユーザ側端末300、話者側端末400を利用する場合、音読支援システム100Aは図3に示す構成とすることができる。以下、主な構成要素についてそれぞれ機器ごとに詳しく説明する。
【0023】
(ユーザ側端末)
ユーザ側端末300は、音読条件設定手段301と依頼データ生成手段302、話者選定手段303、スライド音声出力手段304、合成音声生成手段305、合成音声試聴手段306、サンプル音声試聴手段307、ユーザ側表示手段308、ユーザ側送受信手段309を含んで構成することができる。
【0024】
音読条件設定手段301は、既述したとおりオペレータが操作することによって音読条件を設定するものである。なお、ユーザ本人がオペレータとして音読条件設定手段301を操作することもできるし、ユーザから依頼された他の者がオペレータとして音読条件設定手段301を操作することもできる。ここで設定される音読条件としては、音読テキストを音読する際の速度(以下、「音読速度」という。)や、強弱をつけるべき箇所、箇所ごとの抑揚、無発声とすべき箇所(いわゆる「間」)とその長さ、声色などを挙げることができ、そのほか音読する際に用いる言語(海外語)や方言、特定の漢字に対して読ませたい「ルビ」なども挙げることができる。また音読条件設定手段301は、句点(。)で区切られた一文(センテンス)ごとに音読条件(特に、音読速度)を設定することもできる。
【0025】
音読条件設定手段301は、オペレータが液晶ディスプレイなどのユーザ側表示手段308に表示された音読テキストを確認しながら音読条件を設定することができる仕様にするとよい。また、この場合の音読条件設定手段301は、音読テキストを入力する機能を備えるとよい。例えば、キーボード等を操作することによって所望の音読テキストを記入したり、別に用意した音読テキストを取り込んだり、あるいはあらかじめ用意された標準的な音読テキストを選択したりすることで、音読テキストを入力するわけである。
【0026】
依頼データ生成手段302は、既述したとおり音読テキストと音読条件が記録された依頼データを生成するものである。そして、ここで生成された依頼データは、オペレータ操作によりユーザ側送受信手段309を介して情報管理サーバ200にアップロードされる。
【0027】
合成音声生成手段305は、音読条件設定手段301で入力された音読テキストに対して合成音声を生成する手段である。ここで生成された合成音声はユーザ側端末300内に記憶される。なお合成音声生成手段305は、従来用いられている種々の合成音声技術を利用して合成音声を生成することができる。これに対して合成音声試聴手段306は、音読条件設定手段301によって生成された合成音声を出力する(つまり、再生する)手段である。具体的には、オペレータが合成音声試聴手段306を操作することによって、所定の合成音声が読み出されるとともに、スマートフォンやPCが具備するスピーカー機能を利用してその合成音声が出力される。
【0028】
話者選定手段303は、話者となり得る複数の候補者(以下、「候補話者」という。)の中から、ユーザが所望する話者を選定する手段である。なお、これら候補話者は情報管理サーバ200から提示される。サンプル音声試聴手段307は、候補話者がそれぞれ事前に録音したいわばデモンストレーション用の音声(以下、「サンプル音声データ」という。)を出力する(つまり、再生する)手段である。具体的には、オペレータがサンプル音声試聴手段307を操作することによって、所定の候補話者に係るサンプル音声データが読み出されるとともに、スマートフォンやPCが具備するスピーカー機能を利用してそのサンプル音声データが出力される。
【0029】
スライド音声出力手段304は、「スライド式ファイル」に対して音読データを出力する(つまり、再生する)手段である。ここでスライド式ファイルとは、複数のスライドを遷移させるアプリケーションソフトウェアで作成されたファイルのことであり、その代表的な例としてパワーポイントを挙げることができる。スライド音声出力手段304は、スライド式ファイルのスライドが遷移するたびに、当該スライドに対応した音読データを出力する。より詳しくは、スライド式ファイルを起動し、このスライド式ファイルが具備する機能を用いてオペレータがスライドを遷移させると、その遷移信号を受けたスライド音声出力手段304が遷移後のスライドに係る音読データを出力していくわけである。したがって図4に示す(この図では8スライドからなるスライド式ファイルを示す)ように、スライド式ファイル用の依頼データはスライドごとに生成され、当然ながらスライド式ファイル用の音読データもスライドごとに生成される。
【0030】
ユーザ側端末300を構成する音読条件設定手段301と依頼データ生成手段302、話者選定手段303、スライド音声出力手段304、合成音声生成手段305、合成音声試聴手段306、サンプル音声試聴手段307は、ひとつのアプリケーションソフトウェア(以下、便宜上「ユーザ用アプリケーション」という。)として構築することもできる。図5は、ユーザ用アプリケーションのUI(ユーザインターフェース)画面の例を示すUI図である。この場合、ユーザ側端末300に格納した(例えば、情報管理サーバ200からダウンロードした)ユーザ用アプリケーションをユーザ側のオペレータが操作する仕様とすることもできるし、情報管理サーバ200に格納されたユーザ用アプリケーションにアクセスしたうえでユーザ側のオペレータが操作する仕様とすることもできる。
【0031】
(情報管理サーバ)
情報管理サーバ200は、図3に示すようにサーバ側送受信手段201と選定結果通知手段202、話者サジェスト手段203、依頼データ記憶手段204、音読データ記憶手段205、候補話者情報記憶手段206、依頼履歴情報記憶手段207を含んで構成することができる。
【0032】
サーバ側送受信手段201は、ユーザ側端末300からアップロードされた依頼データを受信したり、話者側端末400からアップロードされた音読データを受信したり、話者側端末400に対して依頼データを送信したり、ユーザ側端末300に対して音読データを送信したりするなど、情報管理サーバ200とユーザ側端末300や話者側端末400の間でデータ等を送受信する手段である。
【0033】
選定結果通知手段202は、候補話者の中からユーザが選定した話者(以下、「選定話者」という。)に対して、選定された旨の情報とともに依頼データを通知する手段である。ところで、ユーザが所望の話者のタイプを指定することもあり、あるいは選定話者がその依頼を引き受けることができない場合もある。この場合、話者サジェスト手段203が、ユーザ(ユーザ側端末300)に対して他の候補話者を提示する仕様にするとよい。ユーザは、話者サジェスト手段203によっていわば推薦された候補話者を新たに選定話者として選定することができるわけである。
【0034】
依頼データ記憶手段204は、ユーザ側端末300からアップロードされた依頼データを、ユーザごとであって依頼案件ごとに記憶する手段である。一方、音読データ記憶手段205は、話者側端末400からアップロードされた音読データを、話者ごとであって依頼案件ごとに記憶する手段である。また候補話者情報記憶手段206は、あらかじめ登録された話者(つまり、候補話者)に関する情報を話者ごとに記憶する手段であり、依頼履歴情報記憶手段207は、過去の依頼に関する情報を依頼案件ごとに記憶する手段である。
【0035】
(話者側端末)
話者側端末400は、図3に示すように音読データ生成手段401と音読データ試聴手段402、録音側表示手段403、録音側送受信手段404を含んで構成することができる。このうち音読データ生成手段401は、既述したとおり話者が音読条件にしたがって音読テキストを音読した音声を記録した音読データを生成する手段である。ここで生成された音読データは、話者側端末400内に記憶され、そしてオペレータ操作によりユーザ側録音側送受信手段404を介して情報管理サーバ200にアップロードされる。
【0036】
音読データ試聴手段402は、音読データ生成手段401によって生成された音読データを出力する(つまり、再生する)手段である。具体的には、話者側のオペレータ(話者本人、あるいは話者から依頼された他の者)が音読データ試聴手段402を操作することによって、音声データが読み出されるとともに、スマートフォンやPCが具備するスピーカー機能を利用してその音声データが出力される。また録音側表示手段403は、話者側端末400が具備する液晶ディスプレイといった出力手段である。
【0037】
話者側端末400を構成する音読データ生成手段401と音読データ試聴手段402は、ひとつのアプリケーションソフトウェア(以下、便宜上「話者用アプリケーション」という。)として構築することもできる。図6は、話者用アプリケーションのUI(ユーザインターフェース)画面の例を示すUI図である。この場合、話者側端末400に格納した(例えば、情報管理サーバ200からダウンロードした)話者用アプリケーションを話者側のオペレータが操作する仕様とすることもできるし、情報管理サーバ200に格納された話者用アプリケーションにアクセスしたうえで話者側のオペレータが操作する仕様とすることもできる。
【0038】
(処理の流れ)
続いて、第1実施形態の音読支援システム100Aの主な処理の流れについて、図7図10を参照しながら説明する。
【0039】
はじめに、第1実施形態の音読支援システムの処理のうち、主にユーザ側端末300に係る処理について、図7図8を参照しながら説明する。図7は、第1実施形態の音読支援システムの処理のうち主にユーザ側端末300に係る処理の流れを示すフロー図であり、図8は、主にユーザ側端末300に係る処理のうち特に候補話者の中から選定話者を選定する処理の流れを示すフロー図である。なお図7図8では、中央の列に実行する処理(操作)を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。
【0040】
まずユーザ側では、依頼する音読用の文面を用意するともに、オペレータがこの文面に基づく音読テキストを、例えば音読条件設定手段301を用いて入力していく(図7のStep510)。またユーザ側のオペレータは、音読条件設定手段301を操作することによって、音読テキストに対して音読条件を設定する(図7のStep520)。このとき、音読速度や強弱、抑揚、間、声色、音読用の言語あるいは方言、ルビなどを音読条件として設定することができることは既述したとおりである
【0041】
音読条件が設定されると、音読テキストと音読条件が記録された依頼データが依頼データ生成手段302によって生成され(図7のStep530)、さらにこの依頼データに基づく合成音声が音声生成手段305によって生成される(図7のStep540)。そしてユーザは、合成音声試聴手段306を操作することでその合成音声を試聴する(図7のStep550)ことができ、すなわち最終的に得られる音読データをイメージすることができる。ここでユーザは、合成音声を試聴した結果、音読テキストを修正したり(図7のStep510)、音読条件を修正したり(図7のStep520)することもできる。
【0042】
合成音声を試聴して依頼データが確定すると、オペレータ操作により依頼データをアップロードする(図7のStep560)。また、情報管理サーバ200から複数の候補話者が提示される場合、ユーザはこれら候補話者の中から所望の話者(つまり、選定話者)を選定することができる(図7のStep560)。
【0043】
選定話者を選定するにあたっては、既述したとおり話者選定手段303が用いられる。例えばこの話者選定手段303は、情報管理サーバ200から提示された複数の候補話者をユーザ側表示手段308に表示したうえで、オペレータ操作によりユーザ所望の選定話者を選定する仕様とすることができる。このとき、候補話者ごとにその候補話者に関する情報(以下、「候補話者属性情報」という。)をユーザ側表示手段308に表示すると、ユーザはより詳しい情報を得たうえで選定話者を選定することができて好適となる。ここで候補話者属性情報としては、依頼単価(1文字当たりにかかる音読費用)や年齢、性別、これまでの依頼実績(依頼内容などを含む)、顧客評価、納期などを挙げることができる。なお納期に関しては、あらかじめ候補話者からヒアリングした納期を登録しておくこともできるし、ユーザから依頼があったタイミング(つまり、依頼データがアップロードされたタイミング)で候補話者にヒアリングしたうえでその納期を登録することもできる。
【0044】
ところで、多数の候補話者がある場合、これらすべてをユーザ側表示手段308に表示したのでは、ユーザは選定することが困難になる。そこで、あらかじめユーザが要望する話者としての条件(以下、「話者条件」という。)を入力する(図8のStep561)仕様にするとよい。情報管理サーバ200側は、ユーザが指定した話者条件に合致する候補話者や、その話者条件に近い候補話者を優先的に表示する(図8のStep563)ことができるわけである。なお話者条件としては、声色や声の高さ、声の強さなどが挙げられ、候補話者属性情報と同様、年齢、性別、顧客評価、実績などを含めることもできる。
【0045】
また、ユーザ側表示手段308に多数の候補話者が表示されることを回避するため、これら候補話者をあらかじめ2以上のグループ(以下、「話者グループ」という。)に分類しておくこともできる。具体的には、声色(落ち着いた声、元気な声、子供っぽい声)に応じた話者グループを設定したり、用途(ビジネス、解説、教育、営業、ナレーション)に応じて話者グループを設定したり、専門性やスキル(専門分野、方言などのスキル)に応じて話者グループを設定したりすることによって、各候補話者をそれぞれ対応する話者グループに分類するわけである。この場合、ユーザ側表示手段308に話者グループ(例えば、ビジネス用グループ、解説用グループ、教育用グループ、営業用グループ、ナレーション用グループなど)が表示され、ユーザ側のオペレータが所望の話者グループ(例えば、教育用グループ)を指定すると(図8のStep562)、指定された話者グループに属する各候補話者のみが表示される(図8のStep563)。このとき、話者条件が入力されていれば(図8のStep561)、指定された話者グループに属する各候補話者を、さらに優先順位を付けたうえで表示する(図8のStep563)こともできる。なお話者グループは、候補話者属性情報のうちのひとつの属性情報とすることができる。
【0046】
ユーザ側表示手段308に候補話者が表示されると、ユーザは候補話者の音声を視聴することができる(図8のStep564)。具体的には、オペレータがサンプル音声試聴手段307を操作することによって、指定した候補話者のサンプル音声データを読み出して出力する(つまり、再生する)。なおサンプル音声データは、候補話者属性情報のうちのひとつの属性情報とすることができる。またユーザは、指定した候補話者に係る依頼単価(候補話者属性情報)と音読テキスト(特に、文字数)に基づいて計算された依頼費用(いわば、見積もり金額)を算出することもできる(図8のStep565)。そしてユーザは、候補話者属性情報やサンプル音声データ、依頼費用などを参考にしつつ、依頼したい話者を決定し、話者選定手段303を操作することで選定話者を選定する(図8のStep566)。ここで選定された選定話者の情報は、情報管理サーバ200に送信される。
【0047】
依頼データが情報管理サーバ200にアップロードされ、選定話者の情報が情報管理サーバ200に送信されると、ユーザは音読データが完成するのを待つことになる。そして、情報管理サーバ200から音読データが完成した旨の通知を受けると(図7のStep580)、ユーザ所望のタイミングでオペレータ操作により情報管理サーバ200から音読データをダウンロードする(図7のStep590)。なおユーザ側端末300は、音読データを確認したユーザが当該話者を評価した情報(以下、「評価情報」という。)を登録する手段(以下、「話者評価手段」という。)を備えることもできる、この場合、ユーザ側のオペレータが話者評価手段を操作することによって評価情報(つまり、候補話者属性情報としての顧客評価や、話者条件としての客評価)を入力すると情報管理サーバ200に送信され、その評価情報は候補話者情報記憶手段206に記憶される。
【0048】
次に、主に情報管理サーバ200に係る音読支援システム100Aの主な処理について、図9を参照しながら説明する。図9は、主に情報管理サーバ200に係る処理の流れを示すフロー図であり、中央の列に実行する処理(操作)を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。
【0049】
まず情報管理サーバ200側では、依頼データがアップロードされるとこの依頼データを依頼データ記憶手段204に記憶する。また、ユーザ側端末300によって話者条件や話者グループが指定された場合は、ユーザに対して優先的に提示する候補話者(以下、「優先候補者」という。)を選出する(図9のStep610)。具体的には、話者サジェスト手段203が候補話者情報記憶手段206に照会することによって、ユーザによって指定された話者グループに属する候補話者を優先候補者として選出し、ユーザが指定した話者条件に合致する(あるいは近似する)候補話者を優先候補者として選出する。あるいは、さらに話者サジェスト手段203が依頼履歴情報記憶手段207を照会することによって、今回の依頼内容(依頼データ)と同様の音読実績がある候補話者を優先候補者として選出する仕様とすることもできる。このとき、話者条件に近い候補話者ほど高い優先順としたり、今回の依頼内容に近い実績を有する候補話者ほど高い優先順としたりするなど、複数の候補話者に対して優先順位を付与することもできる。
【0050】
そしてユーザが依頼したい話者を決定し、情報管理サーバ200が選定話者の情報を受信すると(図9のStep620)、依頼があった旨と依頼データ(以下、これらを合わせて「発注依頼情報」という。)が選定結果通知手段202によって当該選定話者に通知される(図9のStep630)。選定話者に発注依頼情報が通知されると、選定話者から受注するか否かの回答を待ち、受注可能であるとの回答であれば(図9のStep640のYes)次の処理に進む。一方、選定話者から受注不可であるとの回答をうけたとき(図9のStep640のNo)は、ユーザに対してその旨を通知するとともに、改めて優先候補者を選出し、再度ユーザに選定話者を選定させる。
【0051】
選定話者から受注可能の回答を受けると、情報管理サーバ200は音読データが完成するのを待つことになる。そして、話者側端末400によって音読データがアップロードされると(図9のStep650)、音読データが完成した旨をユーザ側端末300に対して通知する(図9のStep660)。
【0052】
続いて、主に話者側端末400に係る音読支援システム100Aの主な処理について、図10を参照しながら説明する。図10は、主に話者側端末400に係る処理の流れを示すフロー図であり、中央の列に実行する処理(操作)を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。
【0053】
まず話者側端末400側では、情報管理サーバ200からの発注依頼情報の通知を待つ。そして、発注依頼情報が通知されると(図10のStep710)、依頼データをダウンロードし(図10のStep720)、ユーザによって話者条件が指定されているときはこの話者条件も受信する。ユーザによって選定された話者(つまり、選定話者)は、依頼データや話者条件などを含めて検討し、当該依頼の受注可否を情報管理サーバ200に対して通知する(図10のStep730)。このとき、依頼データに基づいて生成される合成音声を、話者が試聴することができる仕様とすることもできる。この場合、話者側端末400にも合成音声が音声生成手段305と合成音声試聴手段306と同様の手段を備えるとよい。あるいは、ユーザ側端末300の合成音声生成手段305によって生成された合成音声が、情報管理サーバ200を介して話者側端末400に送信される仕様とし、話者がその合成音声を確認することもできる。
【0054】
受注可能の回答を通知した場合、選定話者は依頼データに記録された音読条件にしたがって依頼データに記録された音読テキストを音読し、音読データ生成手段401が音読データを生成する(図10のStep740)。音読データが生成されると、選定話者は音読データ試聴手段402によってその音声データを出力し(つまり、再生し)、問題がないことを確認する(図10のStep750)。もちろんその音読データに納得いかない場合は、繰り返し音読して音読データを生成するとよい。音声データが完成すると、話者側のオペレータ操作により音読データを情報管理サーバ200にアップロードする(図10のStep760)。ここでアップロードされた音読データは、情報管理サーバ200の音読データ記憶手段205に記憶される。このとき、音読データを解析したうえで音読データ記憶手段205に記憶する仕様とすることもできる。この場合、情報管理サーバ200が音読データを解析する手段(以下、「音読データ解析手段」という。)を備えることとし、この音読データ解析手段が音読データを解析することによって対応する属性情報を選出するとともに、その属性情報とともに音読データを音読データ記憶手段205に記憶させる。この属性情報としては、例えば声色や声の高さ、声の強さといった話者条件を挙げることができる。
【0055】
ここまでユーザが選定話者を設定する仕様で説明したが、第1実施形態の音読支援システム100Aは、話者側から申し出る(いわば、立候補する)仕様とすることもできる。この場合、情報管理サーバ200の話者サジェスト手段203は、申し出があった候補話者に対して優先候補者(優先順位を含む)を選出する。そしてユーザ側のオペレータは、情報管理サーバ200から提示された候補話者を候補話者属性情報とともにユーザ側表示手段308に表示したうえで、オペレータ操作によりユーザ所望の選定話者を選定する。
【0056】
2.第2実施形態
次に、第2実施形態の音読支援システム100Bについて、図を参照しながら詳しく説明する。なお、第1実施形態の音読支援システム100Aで説明した内容と重複する説明は避け、第2実施形態の音読支援システム100Bに特有の内容のみ説明することとする。すなわち、ここに記載されていない内容は、「1.第1実施形態」で説明したものと同様である。
【0057】
図11は、第2実施形態の音読支援システム100Bの主な構成を示すブロック図である。この図に示すように第1実施形態の音読支援システム100Aは、ユーザ側端末300を備えたものであり、さらに情報管理サーバ200と話者側端末400を含む構成とすることもできる。既述したとおり、情報管理サーバ200は音読支援システム100Aで扱われる種々の情報を集約するサーバであり、図2に示すように、有線や無線などの電気通信回線を通じて複数(図では3機)のユーザ側端末300と、複数(図では3機)の話者側端末400と通信可能とすることができる。なお、第2実施形態の音読支援システム100Bは、特にユーザ側端末300の構成に特徴を備えている。そこで、第2実施形態の音読支援システム100Bのユーザ側端末300について詳しく説明する。
【0058】
第2実施形態の音読支援システム100Bのユーザ側端末300は、図11に示すように、動画再生手段310と開始点設定手段311、台詞設定手段312を含んで構成され、さらに進行状況表示手段313や開始点表示手段314、速度設定手段315、音読時間設定手段316、音読バー表示手段317、合成音声出力手段318を含んで構成することもでき、もちろん第1実施形態の音読支援システム100Aのユーザ側端末300を構成する各手段を含んで構成することもできる。以下、ユーザ側端末300を構成する主な手段ごとに説明する。
【0059】
(動画再生手段)
動画再生手段310は、あらかじめ作成された動画データを読み出して、その動画を出力する(つまり、再生する)手段である。具体的には、所定の記憶手段に記憶された複数の動画データのうち所望のものをオペレータが指定すると、動画再生手段310がその動画データを再生する。このとき、ディスプレイなどのユーザ側表示手段308が利用され、例えば図12に示すような「動画表示エリア」に当該動画を出力することができる。
【0060】
図12に示すように、動画表示エリアの近傍(図では下側)には「進行状況バー」を表示するとよい。進行状況表示手段313によって表示されるこの進行状況バーは、再生中の動画の進行状況を示すもので、従来用いられている技術を利用することができる。例えば、図12に示すように時間軸(図では左右の軸)を示すとともに、動画再生の進行とともにスライダーがその時間軸に沿って移動したり、あるいはその時間軸に沿って既読長さを伸長したりすることによって動画の進行状況を示すことができる。もちろん、オペレータ操作によってスライダーを左右に移動することで、動画再生の位置が変更される仕様とすることもできる。
【0061】
(台詞設定手段)
台詞設定手段312は、事前に用意された台詞(いわば台本)に基づいてテキストデータ(以下、「台詞テキスト」という。)を設定する手段である。具体的には、音読条件設定手段301と同様、オペレータがキーボード等を操作することによって、台詞を新たに入力したり、別に用意した台詞テキストを取り込んで編集したり、あるいはあらかじめ用意された標準的な台詞テキストを選択したりすることで、台詞テキストを設定するわけである。このとき、オペレータがユーザ側表示手段308(液晶ディスプレイなど)を確認しながら台詞テキストを設定する仕様とすることもでき、例えば図12に示すような「台詞テキスト入力エリア」に入力(あるいは編集)したテキストを表示することができる。なお、動画の再生中に1回のみ台詞テキストを設定することもできるし、もちろん2回以上で台詞テキストを設定することもできる。
【0062】
(開始点設定手段)
第2実施形態の音読支援システム100Bは、話者に対して音読を依頼したい台詞と、動画の再生中に台詞の音読を開始する時間位置(以下、便宜上ここでは「音読開始点」という。)を提示するものである。そして開始点設定手段311は、その音読開始点を設定する手段である。具体的には、オペレータがポインティングデバイス(マウスやタッチパネル、ペンタブレット、タッチパッド、トラックパッド、トラックボールなど)やキーボード等を利用して操作すると、開始点設定手段311が音読開始点を設定する。例えば図13に示すように、再生動画が目的の位置に到達したときに、オペレータがポインティングデバイスを使用して進行状況バーのうち当該位置を指定(クリック)することで、開始点設定手段311が音読開始点を設定する仕様にすることができる。これによりオペレータは、再生中の動画を確認しながら音読開始点を設定することができるわけである。
【0063】
音読開始点は、当然ながら用意された台詞(つまり、台詞テキスト)の数だけ設定される。そして音読を依頼された話者は、進行状況バー(例えばスライダー)を確認しながら、再生動画が音読開始点に到達すると音読を開始することになる。したがって、音読開始点は、あらかじめ進行状況バーの近傍に表示しておくとよい。開始点表示手段314は、音読開始点を表示する手段である。例えば図14のケースでは、開始点表示手段314が進行状況バーの近傍(図では下側)に8箇所の音読開始点を表示している。この図に示すように音読開始点は、図形や文字、あるいは図形と文字の組み合わせ(図14では、円形マークと、順位を示す数字)によって表示するとよい。もちろん音読開始点は、進行状況バーの時間軸に対応する位置に表示される。例えば、動画再生から5分10秒経過した時点音読開始点が設定された場合、進行状況バーの時間軸のうち5分10秒の位置にその音読開始点が表示されるわけである。
【0064】
複数の音読開始点が設定された場合、話者は再生動画が次の音読開始点に到達する前に台詞の音読を完了しなければならない。換言すれば、前後の音読開始点に挟まれた期間(以下、「セクション」という。)に音読が完了するような台詞テキストを設定する必要がある。また話者は、再生動画が音読開始点に到達するタイミングで台詞を音読することから、当該セクションに対応する台詞テキストを表示する仕様にするとよい。例えば図15では、再生動画が6番目の音読開始点に到達しており、第6番目のセクションに対応する台詞テキストが台詞テキスト入力エリアに表示されている。これにより話者は、台詞を覚えることなくその場で音読することができる。さらに、現在音読すべき台詞テキスト(図15では、第6番目のセクションの台詞テキスト)に加えて、次に音読すべき台詞テキスト(図15では、第7番目のセクションの台詞テキスト)を表示することもできる。
【0065】
(合成音声生成手段)
合成音声生成手段305は、台詞設定手段312によって設定された台詞テキストに基づいて合成音声を生成する手段である。なお合成音声生成手段305は、従来用いられている種々の合成音声技術を利用して合成音声を生成することができる。もちろん合成音声は、音読開始点(あるいは、セクション)に関連付けられた(紐づけられた)うえで生成され、記憶される。そして動画再生手段310が動画を再生する際、合成音声出力手段318によって合成音声が適宜出力される(つまり、再生される)。具体的には、再生動画が音読開始点に到達するタイミングで、合成音声出力手段318がその音読開始点に対応する合成音声を再生する。
【0066】
(速度設定手段)
合成音声出力手段318は、標準的な(いわばデフォルトの)速度で合成音声を出力する(つまり、再生する)こともできるし、その再生速度を変更して合成音声を再生することもできる。速度設定手段315は、合成音声出力手段318が合成音声を再生する速度(以下、「再生速度」という。)を変更する手段である。具体的には、オペレータが操作すると、速度設定手段315が再生速度を変更するとともに、合成音声出力手段318は変更された再生速度で合成音声を再生する。例えば図13では、オペレータが指示バーを右に移動すると速度設定手段315が再生速度を高速(早口)に変更し、逆にオペレータが指示バーを左に移動すると速度設定手段315が再生速度を低速(ゆっくり)に変更する。なお、オペレータが指示バーを左右に移動する仕様に代えて(あるいは加えて)、直接的に再生速度の値を入力する仕様とすることもできる。
【0067】
(音読時間設定手段)
音読時間設定手段316は、速度設定手段315によって設定された再生速度で、合成音声出力手段318が合成音声を再生したときの時間長さ(以下、「音読時間」という。)を設定する手段である。なお音読時間を設定するにあたっては、再生速度と台詞テキスト(特に文字数)に基づいて論理的に算出する仕様、再生速度と合成音声に基づいて論理的に算出する仕様、あるいは実際に合成音声を出力した時間を計測して定める仕様などを採用することができる。そして音読時間設定手段316によって算出された音読時間は、音読バー表示手段317によって可視化され、すなわち音読バー表示手段317が図16に示すように音読時間を「音読バー」として表示する。この音読バーは、音読時間に応じた長さを表すものであり、対応する音読開始点(図16では第4番目)を起点とし、しかも進行状況バーの進行方向(図では右方向)に伸びるように音読バーは表示される。
【0068】
音読バー表示手段317が音読バーを表示することによって、その音読時間の適否を判断することができる。例えば図16のケースでは、第4番目の音読開始点に係る音読バーが第5番目の音読開始点を超えており、すなわち第4番目のセクションで再生される合成音声が長すぎることが分かる。この場合、速度設定手段315によって再生速度をより高速(早口)にするか、あるいは当該台詞を見直すことで台詞テキストを短くするなど、音読時間を短縮すべく適切に対応することができるわけである。
【0069】
(音読データ生成手段)
音読データ生成手段401は、話者側端末400を構成するものであり、話者が台詞テキストを音読した音声を記録した音読データを生成する手段である。そして話者側端末400にも、動画再生手段310と進行状況表示手段313、開始点表示手段314、音読バー表示手段317、そして合成音声出力手段318を設けるとよい。これにより依頼された話者は、合成音声出力手段318によって再生される合成音声の再生速度を確認したうえで、台詞を音読することできる。また話者は、動画再生手段310によって再生される動画と、進行状況表示手段313によって表示される進行状況バー、開始点表示手段314によって表示される音読開始点を確認しながら台詞を音読することができる。この場合はもちろん、ユーザ側で設定(あるいは、生成)された台詞テキストや音読開始点、再生速度、合成音声、音読バーが、情報管理サーバ200を介して話者側に送られる。
【0070】
(処理の流れ)
続いて、第2実施形態の音読支援システム100Bの主な処理の流れについて、図17を参照しながら説明する。図17は、第2実施形態の音読支援システムの処理のうち主にユーザ側端末300に係る処理の流れを示すフロー図であり、中央の列に実行する処理(操作)を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。
【0071】
まずユーザ側では、依頼する台詞の文面を用意するともに、オペレータがこの文面に基づく台詞テキストを、台詞設定手段312を用いて入力していく(図17のStep801)。またユーザ側のオペレータは、速度設定手段315を操作することによって、台詞テキストごとに再生速度を設定する(図8のStep802)。このとき、音読の際の強弱や抑揚、間、声色、音読用の言語あるいは方言、ルビなどを音読条件として設定することができることは既述したとおりである。
【0072】
台詞テキストが入力され、再生速度が設定されると、合成音声生成手段305が台詞テキストに基づいて合成音声を生成し(図8のStep803)、音読時間設定手段316が合成音声(あるいは、台詞テキスト)と再生速度に基づいて音読時間を設定する(図8のStep804)。そしてオペレータが所定の操作を行うことによって、動画再生手段310が動画データを読み出して再生し(図8のStep805)、また動画表示エリアの近傍に進行状況バーを表示する(図8のStep806)。
【0073】
動画再生手段310による動画再生が進行していくと、オペレータが随時操作することによって開始点設定手段311が音読開始点を設定するとともに(図8のStep807)、設定された音読開始点は開始点表示手段314によって進行状況バーの時間軸に対応する位置に表示され(図8のStep807)、また音読バー表示手段317が音読時間に基づいて音読バーを表示する(図8のStep809)。なお、動画再生手段310が動画を再生する際、その進行が音読開始点に到達した時点で合成音声出力手段318がその音読開始点に対応する合成音声を再生することもできる(図8のStep810)。
【0074】
ここまでの処理で設定された台詞テキストと音読開始点、再生速度など(つまり、依頼データ)は依頼された話者に送信される。そしてその話者は、話者側に設けられた合成音声出力手段318によって再生される合成音声の再生速度を確認したうえで、また動画再生手段310によって再生される動画と、進行状況表示手段313によって表示される進行状況バー、開始点表示手段314によって表示される音読開始点を確認しながら、台詞を音読して音声データを生成する。そして生成された音声データは、話者側のオペレータ操作により情報管理サーバ200を介してユーザ側に送られる。
【産業上の利用可能性】
【0075】
本願発明の音読支援システムは、プレゼンテーションや、新入社員などに対する業務マニュアルの説明、店舗における呼び込みあるいは商品紹介、商品取扱説明書の解説、飲食店メニューの説明など、様々な場面で利用することができる。本願発明は、例えば声優活躍する場を広げ、ひいては多くの者の雇用維持に寄与することを考えれば、産業上利用できるばかりでなく社会的にも大きな貢献が期待できる発明といえる。
【符号の説明】
【0076】
100A 第1実施形態の音読支援システム
100B 第2実施形態の音読支援システム
200 (音読支援システムの)情報管理サーバ
201 (情報管理サーバの)サーバ側送受信手段
202 (情報管理サーバの)選定結果通知手段
203 (情報管理サーバの)話者サジェスト手段
204 (情報管理サーバの)依頼データ記憶手段
205 (情報管理サーバの)音読データ記憶手段
206 (情報管理サーバの)候補話者情報記憶手段
207 (情報管理サーバの)依頼履歴情報記憶手段
300 (音読支援システムの)ユーザ側端末
301 (ユーザ側端末の)音読条件設定手段
302 (ユーザ側端末の)依頼データ生成手段
303 (ユーザ側端末の)話者選定手段
304 (ユーザ側端末の)スライド音声出力手段
305 (ユーザ側端末の)合成音声生成手段
306 (ユーザ側端末の)合成音声試聴手段
307 (ユーザ側端末の)サンプル音声試聴手段
308 (ユーザ側端末の)ユーザ側表示手段
309 (ユーザ側端末の)ユーザ側送受信手段
310 動画再生手段
311 開始点設定手段
312 台詞設定手段
313 進行状況表示手段
314 開始点表示手段
315 速度設定手段
316 音読時間設定手段
317 音読バー表示手段
318 合成音声出力手段
400 (音読支援システムの)話者側端末
401 (話者側端末の)音読データ生成手段
402 (話者側端末の)音読データ試聴手段
403 (話者側端末の)録音側表示手段
404 (話者側端末の)録音側送受信手段
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17