特開2023-3402 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社スペースファクトリーの特許一覧

特開2023-3402音読支援システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023003402

(43)【公開日】2023-01-11

(54)【発明の名称】音読支援システム

(51)【国際特許分類】

H04N 5/93 20060101AFI20221228BHJP

G06Q 50/10 20120101ALI20221228BHJP

G10L 13/00 20060101ALI20221228BHJP

G10L 13/02 20130101ALI20221228BHJP

【ＦＩ】

H04N5/93 050

G06Q50/10

G10L13/00 100S

G10L13/02 130Z

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022098832

(22)【出願日】2022-06-20

(31)【優先権主張番号】P 2021103925

(32)【優先日】2021-06-23

(33)【優先権主張国・地域又は機関】JP

(71)【出願人】

【識別番号】517278004

【氏名又は名称】株式会社スペースファクトリー

(74)【代理人】

【識別番号】110001335

【氏名又は名称】弁理士法人武政国際特許商標事務所

(72)【発明者】

【氏名】黒岩司

(72)【発明者】

【氏名】増子貴志

(72)【発明者】

【氏名】横山茉璃乃

【テーマコード（参考）】

5C053

5L049

【Ｆターム（参考）】

5C053LA04

5C053LA06

5C053LA11

5C053LA14

5L049CC11

(57)【要約】（修正有）

【課題】従来手法に比べて容易に動画中の音読開始位置を設定することができる音読支援システムを提供する。
【解決手段】音読支援システム１００Ｂは、動画再生手段３１０、開始点設定手段３１１及び台詞設定手段３１２を備える。動画再生手段３１０は、あらかじめ作成された動画データを読み出して、その動画を再生する。台詞設定手段３１２は、オペレータ操作によって台詞テキストデータを設定する。開始点設定手段３１１は、オペレータ操作によって、動画の再生中に台詞の音読を開始する時間位置である音読開始点を設定する。オペレータは、再生中の動画を確認しながら音読開始点を設定できる。
【選択図】図１１

【特許請求の範囲】

【請求項1】

あらかじめ作成された動画を再生する動画再生手段と、
オペレータ操作によって、動画再生中に音読を開始する音読開始点を設定する開始点設定手段と、
オペレータ操作によって、前記音読開始点に対応する台詞を設定する台詞設定手段と、を備え、
前記開始点設定手段は、１又は２以上の前記音読開始点の設定が可能であるとともに、オペレータが再生中の動画を確認しながら該音読開始点を設定し得る、
ことを特徴とする音読支援システム。

【請求項2】

再生中の動画の進行状況を示す進行状況バーを表示する進行状況表示手段と、
前記音読開始点を表示する開始点表示手段と、をさらに備え、
オペレータが前記進行状況バーのうち所望の位置を指定することによって、前記開始点設定手段が前記音読開始点を設定し、
前記開始点表示手段は、前記進行状況バーの近傍に前記音読開始点を表示するとともに、動画の進行に応じた位置に該音読開始点を表示する、
ことを特徴とする請求項１記載の音読支援システム。

【請求項3】

前記台詞設定手段によって設定された台詞に基づいて、合成音声を生成する合成音声生成手段と、
前記合成音声の再生速度を設定する速度設定手段と、
前記合成音声出力手段が前記合成音声を出力する音読時間を設定する音読時間設定手段と、
前記音読時間設定手段によって設定された前記音読時間に応じた音読バーを表示する音読バー表示手段と、をさらに備え、
前記音読バー表示手段は、前記開始点表示手段によって表示された前記音読開始点を起点とし、前記進行状況バーの進行方向に伸びるように前記音読バーを表示する、
ことを特徴とする請求項２記載の音読支援システム。

【請求項4】

前記合成音声生成手段によって生成された前記合成音声を、前記速度設定手段で設定された前記音読速度で出力する合成音声出力手段を、さらに備え、
前記合成音声出力手段は、前記開始点設定手段で設定された前記音読開始点まで動画が進行すると、該音読開始点に対応する台詞に係る前記合成音声を出力する、
ことを特徴とする請求項３記載の音読支援システム。

【請求項5】

話者が台詞を音読した音声が記録された音読データを生成する音読データ生成手段を、さらに備え、
前記話者は、前記動画再生手段によって再生される動画と、前記進行状況表示手段によって表示される前記進行状況バーと、前記開始点表示手段によって表示される前記音読開始点と、を確認しながら台詞を音読し得る、
ことを特徴とする請求項２乃至請求項４のいずれかに記載の音読支援システム。

【発明の詳細な説明】

【技術分野】

【0001】

本願発明は、話者に音読を依頼する技術であり、より具体的には、動画に合わせて台詞を音読する話者を支援することができる音読支援システムに関するものである。

【背景技術】

【0002】

従来、他者に対して何らかの説明を行うにあたっては、文字や図画、動画などを用いるのが主流であった。例えば商品等を広告するケースでは、チラシや新聞折り込みなど文字や写真を中心とした紙媒体で説明したり、ウェブサイトを利用して文字や図画による静止画面で説明したり、あるいはテレビやインターネットを利用して動画で説明したりすることが多かった。また、学校などの教育現場や新入社員向けの研修場面などではパワーポイント（登録商標）といったスライド資料を表示しつつ口頭による説明を行うこともあり、ビジネスの場面では紙資料を相手に渡したうえで口頭による説明を行うこともあった。

【0003】

ところで、チラシや新聞折り込み、ウェブサイトの静止画などは、利用者がその内容を読んで理解する必要があるため、利用者によるいわば能動的な行動が求められる。これに対して、パワーポイントや営業資料を用いた口頭説明では、利用者はいわば受動的な姿勢で情報を入手することができ、同様に、動画による説明でもやはり受動的な姿勢で情報を入手することができる。すなわち、音声を伴う説明の方が利用者にとっての労が少なく、また音声を伴うこと（例えば、本の読み聞かせなど）でその理解が促進することも知られている。

【0004】

しかしながら、パワーポイントや営業資料による口頭説明は、説明者の負担が大きく、また再現性も確保されないため重要な説明が脱落するおそれすらある。一方、動画による説明は、説明者が不要であって再現性も確保されるものの、その製作に掛かる手間やコストが負担となる。そこで、パワーポイントや営業資料による口頭説明を事前に録音することが考えられる。例えば、その録音を再生しながらパワーポイントを表示し、新入社員に対して業務マニュアルや社則などを説明するわけである。ただしこの場合、説明側のいずれかの者が自ら録音することとなり、抑揚や強調、音読速度、感情的表現などいわば音読技術（ナレーション技術）として不十分となることが避けられず、換言すれば高い品質のナレーションを提供することができない。

【0005】

説明者自身による録音を回避したい場合、合成音声を利用することも考えられる。近年、合成音声に係る技術は飛躍的に発展しており、合成音声に関する新たな技術も種々提案されているところである。例えば特許文献１では、与えられたテキストに対して合成音声化すべきか否かを判断したうえで、テキストに対応する合成音声データを生成する技術について提案している。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０１８－００４９７７号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

特許文献１に開示される技術のような合成音声は、当然ながら人が発生する肉声ではない。したがって合成音声は機械的な印象を拭うことができず、やはり肉声による説明の方が訴求力ははるかに上回る。とはいえ、ナレーションの訓練を経験していない者が音声録音を行うと、上述したように高品質のナレーションを提供することができない。声優やアナウンサーなど高度なナレーション技術を有する者に依頼することも考えられるが、声優等に依頼する手順はあまり知られていないうえに思った以上に煩雑であり、また録音データの納品までに相当の時間を要し、さらに費用の把握が難しく最終的に予算以上の金額が請求されるといった問題があった。

【0008】

また、動画の再生中には種々のコメントが読まれることが多いが、この場合もやはりコメントの音読は声優等に依頼した方が好ましい。動画中のコメントの音読を依頼するにあたっては、依頼者は動画の再生中にどこでコメントの音読を開始するかを設定しなければならないが、この設定作業は思いのほか難しい。動画の再生時間を計測しながら設定することも考えられるが、動画を確認しながらその時刻を記録する手間を要するうえに、音読する側も設定された時刻を計測しながら開始するためそのタイミングを測りかねるおそれもある。

【0009】

本願発明の課題は、従来技術が抱える問題を解決することであり、すなわち従来手法に比べて容易に動画中の音読開始位置を設定することができる音読支援システムを提供することである。

【課題を解決するための手段】

【0010】

本願発明は、オペレータが再生中の動画を確認しながら音読の開始位置を設定する、という点に着目したものであり、従来にはなかった発想に基づいてなされた発明である。

【0011】

本願発明の音読支援システムは、動画再生手段と開始点設定手段、台詞設定手段を備えたものである。このうち動画再生手段は、あらかじめ作成された動画を再生する手段であり、音読開始点は、オペレータ操作によって動画再生中に音読を開始する「音読開始点（いわば、開始位置）」を設定する手段であり、また台詞設定手段は、オペレータ操作によって音読開始点に対応する台詞を設定する手段である。なお開始点設定手段は、１又は２以上の音読開始点の設定が可能であり、しかもオペレータが再生中の動画を確認しながら音読開始点を設定することができる。

【0012】

本願発明の音読支援システムは、進行状況表示手段と開始点表示手段をさらに備えたものとすることもできる。この進行状況表示手段は、再生中の動画の進行状況を示す「進行状況バー」を表示する手段であり、開始点表示手段は、音読開始点を図形や文字等によって表示する手段である。この場合、オペレータが進行状況バーのうち所望の位置を指定することによって、開始点設定手段は音読開始点を設定する。また開始点表示手段は、進行状況バーの近傍に音読開始点を表示するとともに、動画の進行に応じた位置に音読開始点を表示する。

【0013】

本願発明の音読支援システムは、合成音声生成手段と速度設定手段、音読時間設定手段、音読バー表示手段をさらに備えたものとすることもできる。この合成音声生成手段は、台詞設定手段によって設定された台詞に基づいて「合成音声」を生成する手段であり、速度設定手段は、合成音声の音読速度を設定する手段であり、音読時間設定手段は、合成音声出力手段が合成音声を出力する「音読時間（音読に係る時間長さ）」を設定する手段であり、また音読バー表示手段は、音読時間設定手段によって設定された音読時間に応じた「音読バー」を表示する手段である。この場合、音読バー表示手段は、開始点表示手段によって表示された音読開始点を起点とし、進行状況バーの進行方向に伸びるように音読バーを表示する。

【0014】

本願発明の音読支援システムは、合成音声出力手段をさらに備えたものとすることもできる。この合成音声出力手段は、合成音声生成手段によって生成された合成音声を速度設定手段で設定された「音読速度」で出力する手段である。この場合、合成音声出力手段は、開始点設定手段で設定された音読開始点まで動画が進行すると、音読開始点に対応する台詞に係る合成音声を出力する。

【0015】

本願発明の音読支援システムは、音読データ生成手段をさらに備えたものとすることもできる。この音読データ生成手段は、話者が台詞を音読した音声が記録された音読データを生成する手段である。この場合、話者は、動画再生手段によって再生される動画と、進行状況表示手段によって表示される進行状況バーと、開始点表示手段によって表示される音読開始点を、それぞれ確認しながら台詞を音読することができる。

【発明の効果】

【0016】

本願発明の音読支援システムには、次のような効果がある。
（１）声優など高いナレーション技術を有する話者に音読の依頼を行うにあたって、ユーザは従来の手順に比べて容易に依頼することができる。
（２）声優などに音読を依頼する結果、ユーザは高品質のナレーションなどを得ることができる。
（３）依頼手順が容易になる結果、ユーザは従来の手法に比べて迅速に音読結果を得ることができる。
（４）声優が録音する際のスタジオを用意する必要がなく、ユーザは従来の手法に比べて低コストで音読結果を得ることができる。
（５）オペレータは、動画を再生しながら音読の開始位置と終了位置を視覚的に確認できることから、容易に動画内での音読開始位置を設定し、調整することができる。
（６）２以上の音読開始点を表示することによって、音読可能な期間（セクション）を容易に把握することができる。
（７）２以上の音読開始点によるセクションと、音読バーを合わせて表示することによって、現状の音読の適否を判断することができる。この場合、音読速度を調整したり、台詞の文字数を増減したりすることで、適切な音読を依頼することができる。

【図面の簡単な説明】

【0017】

【図1】第１実施形態の音読支援システムの主な構成を示すブロック図。

【図2】情報管理サーバとユーザ側端末、話者側端末を利用して構成された本願発明の音読支援システムを模式的に示すモデル図。

【図3】情報管理サーバとユーザ側端末、話者側端末を利用した場合の音読支援システムの主な構成を示すブロック図。

【図4】スライドごとに生成されるスライド式ファイル用の依頼データと、スライドごとに生成されるスライド式ファイル用の音読データを、模式的に示すモデル図。

【図5】ユーザ用アプリケーションのＵＩ画面の例を示すＵＩ図。

【図6】話者用アプリケーションのＵＩ画面の例を示すＵＩ図。

【図7】第１実施形態の音読支援システムの処理のうち、主にユーザ側端末に係る処理の流れを示すフロー図。

【図8】主にユーザ側端末に係る処理のうち、特に候補話者の中から選定話者を選定する処理の流れを示すフロー図。

【図9】第１実施形態の音読支援システムの処理のうち、主に情報管理サーバ係る処理の流れを示すフロー図。

【図10】第１実施形態の音読支援システムの処理のうち、主に話者側端末係る処理の流れを示すフロー図。

【図11】第２実施形態の音読支援システムの主な構成を示すブロック図。

【図12】第１実施形態の音読支援システムのＵＩ画面の例を示すＵＩ図。

【図13】オペレータがポインティングデバイスを使用して進行状況バーの所定位置を指定する例を示すＵＩ図。

【図14】開始点表示手段によって進行状況バーの近傍に表示された８つの音読開始点を示すＵＩ図。

【図15】セクションに対応する台詞テキストを表示する例を示すＵＩ図。

【図16】音読バー表示手段によって表示された音読バーの例を示すＵＩ図。

【図17】第２実施形態の音読支援システムの処理のうち、主にユーザ側端末に係る処理の流れを示すフロー図。

【発明を実施するための形態】

【0018】

本願発明の音読支援システムの実施の例を、図に基づいて説明する。本願発明の音読支援システムは、ナレーション等の経験が豊富でない者（以下、音読を依頼する者のことを単に「ユーザ」という。）が特定の話者に対して音読を依頼する際に、特に有効に利用することができる。ここで話者とは、音読を依頼される者であって、例えば声優やアナウンサー、ナレーター、俳優、司会を業とする者、ＤＪ（ＤｉｓｃＪｏｃｋｅｙ）、落語家など、高いナレーション技術や会話スキルを有する者を選定するとよい。なお、本願発明の音読支援システムは、必ずしも動画を伴わないケースと、動画に合わせて音読するケースに大別することができる。そこで、動画を伴わないケースを第１実施形態、動画に合わせて音読するケースを第２実施形態としたうえで、それぞれについて説明することとする。

【0019】

１．第１実施形態
図１は、第１実施形態の音読支援システム１００Ａの主な構成を示すブロック図である。この図に示すように第１実施形態の音読支援システム１００Ａは、音読条件設定手段３０１と依頼データ生成手段３０２、音読データ生成手段４０１を含んで構成される。ユーザは、音読を希望する文面（文章）を用意するとともに、この文面をデータ化したテキスト（以下、「音読テキスト」という。）を作成したうえで、音読条件設定手段３０１によって音読テキストを音読する際の条件（以下、「音読条件」という。）を設定する。これにより依頼データ生成手段３０２が、音読テキストと音読条件を記録したデータ（以下、「依頼データ」という。）を生成する。そして、この依頼データを受け取った話者は音読条件にしたがって音読テキストを音読し、音読データ生成手段４０１がその音声を記録した（つまり、録音した）データ（以下、「音読データ」という。）を生成する。なおここでデータとは、電子的方式や磁気的方式、そのほか人の知覚によって認識することができない方式で作られる記録であって、電子計算機（コンピュータ）による情報処理の用に供される電磁的記録を含むものである。

【0020】

第１実施形態の音読支援システム１００Ａは、図２に示すように情報管理サーバ２００とユーザ側端末３００、話者側端末４００を利用して構成することもできる。この情報管理サーバ２００は、音読支援システム１００Ａで扱われる種々の情報を集約するサーバであり、有線や無線などの電気通信回線を通じて複数（図では３機）のユーザ側端末３００と、複数（図では３機）の話者側端末４００と通信可能とされる。したがって音読支援システム１００Ａは、例えばクラウド上に構築したクラウドサーバとするとよい。

【0021】

一方、ユーザ側端末３００は、ユーザ側に配置される端末機器であり、例えばスマートフォンやＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などのコンピュータ装置を利用することができる。ユーザは、このユーザ側端末３００を用いて依頼データを生成し、話者に対して音読を依頼する。これに対して話者側端末４００は、話者側に配置される端末機器であり、やはりスマートフォンやＰＣなどのコンピュータ装置を利用することができる。ユーザから依頼を受けた話者は、この話者側端末４００を用いて依頼データを受け取るとともに音読データを生成する。

【0022】

図２に示すように情報管理サーバ２００とユーザ側端末３００、話者側端末４００を利用する場合、音読支援システム１００Ａは図３に示す構成とすることができる。以下、主な構成要素についてそれぞれ機器ごとに詳しく説明する。

【0023】

（ユーザ側端末）
ユーザ側端末３００は、音読条件設定手段３０１と依頼データ生成手段３０２、話者選定手段３０３、スライド音声出力手段３０４、合成音声生成手段３０５、合成音声試聴手段３０６、サンプル音声試聴手段３０７、ユーザ側表示手段３０８、ユーザ側送受信手段３０９を含んで構成することができる。

【0024】

音読条件設定手段３０１は、既述したとおりオペレータが操作することによって音読条件を設定するものである。なお、ユーザ本人がオペレータとして音読条件設定手段３０１を操作することもできるし、ユーザから依頼された他の者がオペレータとして音読条件設定手段３０１を操作することもできる。ここで設定される音読条件としては、音読テキストを音読する際の速度（以下、「音読速度」という。）や、強弱をつけるべき箇所、箇所ごとの抑揚、無発声とすべき箇所（いわゆる「間」）とその長さ、声色などを挙げることができ、そのほか音読する際に用いる言語（海外語）や方言、特定の漢字に対して読ませたい「ルビ」なども挙げることができる。また音読条件設定手段３０１は、句点（。）で区切られた一文（センテンス）ごとに音読条件（特に、音読速度）を設定することもできる。

【0025】

音読条件設定手段３０１は、オペレータが液晶ディスプレイなどのユーザ側表示手段３０８に表示された音読テキストを確認しながら音読条件を設定することができる仕様にするとよい。また、この場合の音読条件設定手段３０１は、音読テキストを入力する機能を備えるとよい。例えば、キーボード等を操作することによって所望の音読テキストを記入したり、別に用意した音読テキストを取り込んだり、あるいはあらかじめ用意された標準的な音読テキストを選択したりすることで、音読テキストを入力するわけである。

【0026】

依頼データ生成手段３０２は、既述したとおり音読テキストと音読条件が記録された依頼データを生成するものである。そして、ここで生成された依頼データは、オペレータ操作によりユーザ側送受信手段３０９を介して情報管理サーバ２００にアップロードされる。

【0027】

合成音声生成手段３０５は、音読条件設定手段３０１で入力された音読テキストに対して合成音声を生成する手段である。ここで生成された合成音声はユーザ側端末３００内に記憶される。なお合成音声生成手段３０５は、従来用いられている種々の合成音声技術を利用して合成音声を生成することができる。これに対して合成音声試聴手段３０６は、音読条件設定手段３０１によって生成された合成音声を出力する（つまり、再生する）手段である。具体的には、オペレータが合成音声試聴手段３０６を操作することによって、所定の合成音声が読み出されるとともに、スマートフォンやＰＣが具備するスピーカー機能を利用してその合成音声が出力される。

【0028】

話者選定手段３０３は、話者となり得る複数の候補者（以下、「候補話者」という。）の中から、ユーザが所望する話者を選定する手段である。なお、これら候補話者は情報管理サーバ２００から提示される。サンプル音声試聴手段３０７は、候補話者がそれぞれ事前に録音したいわばデモンストレーション用の音声（以下、「サンプル音声データ」という。）を出力する（つまり、再生する）手段である。具体的には、オペレータがサンプル音声試聴手段３０７を操作することによって、所定の候補話者に係るサンプル音声データが読み出されるとともに、スマートフォンやＰＣが具備するスピーカー機能を利用してそのサンプル音声データが出力される。

【0029】

スライド音声出力手段３０４は、「スライド式ファイル」に対して音読データを出力する（つまり、再生する）手段である。ここでスライド式ファイルとは、複数のスライドを遷移させるアプリケーションソフトウェアで作成されたファイルのことであり、その代表的な例としてパワーポイントを挙げることができる。スライド音声出力手段３０４は、スライド式ファイルのスライドが遷移するたびに、当該スライドに対応した音読データを出力する。より詳しくは、スライド式ファイルを起動し、このスライド式ファイルが具備する機能を用いてオペレータがスライドを遷移させると、その遷移信号を受けたスライド音声出力手段３０４が遷移後のスライドに係る音読データを出力していくわけである。したがって図４に示す（この図では８スライドからなるスライド式ファイルを示す）ように、スライド式ファイル用の依頼データはスライドごとに生成され、当然ながらスライド式ファイル用の音読データもスライドごとに生成される。

【0030】

ユーザ側端末３００を構成する音読条件設定手段３０１と依頼データ生成手段３０２、話者選定手段３０３、スライド音声出力手段３０４、合成音声生成手段３０５、合成音声試聴手段３０６、サンプル音声試聴手段３０７は、ひとつのアプリケーションソフトウェア（以下、便宜上「ユーザ用アプリケーション」という。）として構築することもできる。図５は、ユーザ用アプリケーションのＵＩ（ユーザインターフェース）画面の例を示すＵＩ図である。この場合、ユーザ側端末３００に格納した（例えば、情報管理サーバ２００からダウンロードした）ユーザ用アプリケーションをユーザ側のオペレータが操作する仕様とすることもできるし、情報管理サーバ２００に格納されたユーザ用アプリケーションにアクセスしたうえでユーザ側のオペレータが操作する仕様とすることもできる。

【0031】

（情報管理サーバ）
情報管理サーバ２００は、図３に示すようにサーバ側送受信手段２０１と選定結果通知手段２０２、話者サジェスト手段２０３、依頼データ記憶手段２０４、音読データ記憶手段２０５、候補話者情報記憶手段２０６、依頼履歴情報記憶手段２０７を含んで構成することができる。

【0032】

サーバ側送受信手段２０１は、ユーザ側端末３００からアップロードされた依頼データを受信したり、話者側端末４００からアップロードされた音読データを受信したり、話者側端末４００に対して依頼データを送信したり、ユーザ側端末３００に対して音読データを送信したりするなど、情報管理サーバ２００とユーザ側端末３００や話者側端末４００の間でデータ等を送受信する手段である。

【0033】

選定結果通知手段２０２は、候補話者の中からユーザが選定した話者（以下、「選定話者」という。）に対して、選定された旨の情報とともに依頼データを通知する手段である。ところで、ユーザが所望の話者のタイプを指定することもあり、あるいは選定話者がその依頼を引き受けることができない場合もある。この場合、話者サジェスト手段２０３が、ユーザ（ユーザ側端末３００）に対して他の候補話者を提示する仕様にするとよい。ユーザは、話者サジェスト手段２０３によっていわば推薦された候補話者を新たに選定話者として選定することができるわけである。

【0034】

依頼データ記憶手段２０４は、ユーザ側端末３００からアップロードされた依頼データを、ユーザごとであって依頼案件ごとに記憶する手段である。一方、音読データ記憶手段２０５は、話者側端末４００からアップロードされた音読データを、話者ごとであって依頼案件ごとに記憶する手段である。また候補話者情報記憶手段２０６は、あらかじめ登録された話者（つまり、候補話者）に関する情報を話者ごとに記憶する手段であり、依頼履歴情報記憶手段２０７は、過去の依頼に関する情報を依頼案件ごとに記憶する手段である。

【0035】

（話者側端末）
話者側端末４００は、図３に示すように音読データ生成手段４０１と音読データ試聴手段４０２、録音側表示手段４０３、録音側送受信手段４０４を含んで構成することができる。このうち音読データ生成手段４０１は、既述したとおり話者が音読条件にしたがって音読テキストを音読した音声を記録した音読データを生成する手段である。ここで生成された音読データは、話者側端末４００内に記憶され、そしてオペレータ操作によりユーザ側録音側送受信手段４０４を介して情報管理サーバ２００にアップロードされる。

【0036】

音読データ試聴手段４０２は、音読データ生成手段４０１によって生成された音読データを出力する（つまり、再生する）手段である。具体的には、話者側のオペレータ（話者本人、あるいは話者から依頼された他の者）が音読データ試聴手段４０２を操作することによって、音声データが読み出されるとともに、スマートフォンやＰＣが具備するスピーカー機能を利用してその音声データが出力される。また録音側表示手段４０３は、話者側端末４００が具備する液晶ディスプレイといった出力手段である。

【0037】

話者側端末４００を構成する音読データ生成手段４０１と音読データ試聴手段４０２は、ひとつのアプリケーションソフトウェア（以下、便宜上「話者用アプリケーション」という。）として構築することもできる。図６は、話者用アプリケーションのＵＩ（ユーザインターフェース）画面の例を示すＵＩ図である。この場合、話者側端末４００に格納した（例えば、情報管理サーバ２００からダウンロードした）話者用アプリケーションを話者側のオペレータが操作する仕様とすることもできるし、情報管理サーバ２００に格納された話者用アプリケーションにアクセスしたうえで話者側のオペレータが操作する仕様とすることもできる。

【0038】

（処理の流れ）
続いて、第１実施形態の音読支援システム１００Ａの主な処理の流れについて、図７～図１０を参照しながら説明する。

【0039】

はじめに、第１実施形態の音読支援システムの処理のうち、主にユーザ側端末３００に係る処理について、図７と図８を参照しながら説明する。図７は、第１実施形態の音読支援システムの処理のうち主にユーザ側端末３００に係る処理の流れを示すフロー図であり、図８は、主にユーザ側端末３００に係る処理のうち特に候補話者の中から選定話者を選定する処理の流れを示すフロー図である。なお図７と図８では、中央の列に実行する処理（操作）を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。

【0040】

まずユーザ側では、依頼する音読用の文面を用意するともに、オペレータがこの文面に基づく音読テキストを、例えば音読条件設定手段３０１を用いて入力していく（図７のＳｔｅｐ５１０）。またユーザ側のオペレータは、音読条件設定手段３０１を操作することによって、音読テキストに対して音読条件を設定する（図７のＳｔｅｐ５２０）。このとき、音読速度や強弱、抑揚、間、声色、音読用の言語あるいは方言、ルビなどを音読条件として設定することができることは既述したとおりである

【0041】

音読条件が設定されると、音読テキストと音読条件が記録された依頼データが依頼データ生成手段３０２によって生成され（図７のＳｔｅｐ５３０）、さらにこの依頼データに基づく合成音声が音声生成手段３０５によって生成される（図７のＳｔｅｐ５４０）。そしてユーザは、合成音声試聴手段３０６を操作することでその合成音声を試聴する（図７のＳｔｅｐ５５０）ことができ、すなわち最終的に得られる音読データをイメージすることができる。ここでユーザは、合成音声を試聴した結果、音読テキストを修正したり（図７のＳｔｅｐ５１０）、音読条件を修正したり（図７のＳｔｅｐ５２０）することもできる。

【0042】

合成音声を試聴して依頼データが確定すると、オペレータ操作により依頼データをアップロードする（図７のＳｔｅｐ５６０）。また、情報管理サーバ２００から複数の候補話者が提示される場合、ユーザはこれら候補話者の中から所望の話者（つまり、選定話者）を選定することができる（図７のＳｔｅｐ５６０）。

【0043】

選定話者を選定するにあたっては、既述したとおり話者選定手段３０３が用いられる。例えばこの話者選定手段３０３は、情報管理サーバ２００から提示された複数の候補話者をユーザ側表示手段３０８に表示したうえで、オペレータ操作によりユーザ所望の選定話者を選定する仕様とすることができる。このとき、候補話者ごとにその候補話者に関する情報（以下、「候補話者属性情報」という。）をユーザ側表示手段３０８に表示すると、ユーザはより詳しい情報を得たうえで選定話者を選定することができて好適となる。ここで候補話者属性情報としては、依頼単価（１文字当たりにかかる音読費用）や年齢、性別、これまでの依頼実績（依頼内容などを含む）、顧客評価、納期などを挙げることができる。なお納期に関しては、あらかじめ候補話者からヒアリングした納期を登録しておくこともできるし、ユーザから依頼があったタイミング（つまり、依頼データがアップロードされたタイミング）で候補話者にヒアリングしたうえでその納期を登録することもできる。

【0044】

ところで、多数の候補話者がある場合、これらすべてをユーザ側表示手段３０８に表示したのでは、ユーザは選定することが困難になる。そこで、あらかじめユーザが要望する話者としての条件（以下、「話者条件」という。）を入力する（図８のＳｔｅｐ５６１）仕様にするとよい。情報管理サーバ２００側は、ユーザが指定した話者条件に合致する候補話者や、その話者条件に近い候補話者を優先的に表示する（図８のＳｔｅｐ５６３）ことができるわけである。なお話者条件としては、声色や声の高さ、声の強さなどが挙げられ、候補話者属性情報と同様、年齢、性別、顧客評価、実績などを含めることもできる。

【0045】

また、ユーザ側表示手段３０８に多数の候補話者が表示されることを回避するため、これら候補話者をあらかじめ２以上のグループ（以下、「話者グループ」という。）に分類しておくこともできる。具体的には、声色（落ち着いた声、元気な声、子供っぽい声）に応じた話者グループを設定したり、用途（ビジネス、解説、教育、営業、ナレーション）に応じて話者グループを設定したり、専門性やスキル（専門分野、方言などのスキル）に応じて話者グループを設定したりすることによって、各候補話者をそれぞれ対応する話者グループに分類するわけである。この場合、ユーザ側表示手段３０８に話者グループ（例えば、ビジネス用グループ、解説用グループ、教育用グループ、営業用グループ、ナレーション用グループなど）が表示され、ユーザ側のオペレータが所望の話者グループ（例えば、教育用グループ）を指定すると（図８のＳｔｅｐ５６２）、指定された話者グループに属する各候補話者のみが表示される（図８のＳｔｅｐ５６３）。このとき、話者条件が入力されていれば（図８のＳｔｅｐ５６１）、指定された話者グループに属する各候補話者を、さらに優先順位を付けたうえで表示する（図８のＳｔｅｐ５６３）こともできる。なお話者グループは、候補話者属性情報のうちのひとつの属性情報とすることができる。

【0046】

ユーザ側表示手段３０８に候補話者が表示されると、ユーザは候補話者の音声を視聴することができる（図８のＳｔｅｐ５６４）。具体的には、オペレータがサンプル音声試聴手段３０７を操作することによって、指定した候補話者のサンプル音声データを読み出して出力する（つまり、再生する）。なおサンプル音声データは、候補話者属性情報のうちのひとつの属性情報とすることができる。またユーザは、指定した候補話者に係る依頼単価（候補話者属性情報）と音読テキスト（特に、文字数）に基づいて計算された依頼費用（いわば、見積もり金額）を算出することもできる（図８のＳｔｅｐ５６５）。そしてユーザは、候補話者属性情報やサンプル音声データ、依頼費用などを参考にしつつ、依頼したい話者を決定し、話者選定手段３０３を操作することで選定話者を選定する（図８のＳｔｅｐ５６６）。ここで選定された選定話者の情報は、情報管理サーバ２００に送信される。

【0047】

依頼データが情報管理サーバ２００にアップロードされ、選定話者の情報が情報管理サーバ２００に送信されると、ユーザは音読データが完成するのを待つことになる。そして、情報管理サーバ２００から音読データが完成した旨の通知を受けると（図７のＳｔｅｐ５８０）、ユーザ所望のタイミングでオペレータ操作により情報管理サーバ２００から音読データをダウンロードする（図７のＳｔｅｐ５９０）。なおユーザ側端末３００は、音読データを確認したユーザが当該話者を評価した情報（以下、「評価情報」という。）を登録する手段（以下、「話者評価手段」という。）を備えることもできる、この場合、ユーザ側のオペレータが話者評価手段を操作することによって評価情報（つまり、候補話者属性情報としての顧客評価や、話者条件としての客評価）を入力すると情報管理サーバ２００に送信され、その評価情報は候補話者情報記憶手段２０６に記憶される。

【0048】

次に、主に情報管理サーバ２００に係る音読支援システム１００Ａの主な処理について、図９を参照しながら説明する。図９は、主に情報管理サーバ２００に係る処理の流れを示すフロー図であり、中央の列に実行する処理（操作）を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。

【0049】

まず情報管理サーバ２００側では、依頼データがアップロードされるとこの依頼データを依頼データ記憶手段２０４に記憶する。また、ユーザ側端末３００によって話者条件や話者グループが指定された場合は、ユーザに対して優先的に提示する候補話者（以下、「優先候補者」という。）を選出する（図９のＳｔｅｐ６１０）。具体的には、話者サジェスト手段２０３が候補話者情報記憶手段２０６に照会することによって、ユーザによって指定された話者グループに属する候補話者を優先候補者として選出し、ユーザが指定した話者条件に合致する（あるいは近似する）候補話者を優先候補者として選出する。あるいは、さらに話者サジェスト手段２０３が依頼履歴情報記憶手段２０７を照会することによって、今回の依頼内容（依頼データ）と同様の音読実績がある候補話者を優先候補者として選出する仕様とすることもできる。このとき、話者条件に近い候補話者ほど高い優先順としたり、今回の依頼内容に近い実績を有する候補話者ほど高い優先順としたりするなど、複数の候補話者に対して優先順位を付与することもできる。

【0050】

そしてユーザが依頼したい話者を決定し、情報管理サーバ２００が選定話者の情報を受信すると（図９のＳｔｅｐ６２０）、依頼があった旨と依頼データ（以下、これらを合わせて「発注依頼情報」という。）が選定結果通知手段２０２によって当該選定話者に通知される（図９のＳｔｅｐ６３０）。選定話者に発注依頼情報が通知されると、選定話者から受注するか否かの回答を待ち、受注可能であるとの回答であれば（図９のＳｔｅｐ６４０のＹｅｓ）次の処理に進む。一方、選定話者から受注不可であるとの回答をうけたとき（図９のＳｔｅｐ６４０のＮｏ）は、ユーザに対してその旨を通知するとともに、改めて優先候補者を選出し、再度ユーザに選定話者を選定させる。

【0051】

選定話者から受注可能の回答を受けると、情報管理サーバ２００は音読データが完成するのを待つことになる。そして、話者側端末４００によって音読データがアップロードされると（図９のＳｔｅｐ６５０）、音読データが完成した旨をユーザ側端末３００に対して通知する（図９のＳｔｅｐ６６０）。

【0052】

続いて、主に話者側端末４００に係る音読支援システム１００Ａの主な処理について、図１０を参照しながら説明する。図１０は、主に話者側端末４００に係る処理の流れを示すフロー図であり、中央の列に実行する処理（操作）を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。

【0053】

まず話者側端末４００側では、情報管理サーバ２００からの発注依頼情報の通知を待つ。そして、発注依頼情報が通知されると（図１０のＳｔｅｐ７１０）、依頼データをダウンロードし（図１０のＳｔｅｐ７２０）、ユーザによって話者条件が指定されているときはこの話者条件も受信する。ユーザによって選定された話者（つまり、選定話者）は、依頼データや話者条件などを含めて検討し、当該依頼の受注可否を情報管理サーバ２００に対して通知する（図１０のＳｔｅｐ７３０）。このとき、依頼データに基づいて生成される合成音声を、話者が試聴することができる仕様とすることもできる。この場合、話者側端末４００にも合成音声が音声生成手段３０５と合成音声試聴手段３０６と同様の手段を備えるとよい。あるいは、ユーザ側端末３００の合成音声生成手段３０５によって生成された合成音声が、情報管理サーバ２００を介して話者側端末４００に送信される仕様とし、話者がその合成音声を確認することもできる。

【0054】

受注可能の回答を通知した場合、選定話者は依頼データに記録された音読条件にしたがって依頼データに記録された音読テキストを音読し、音読データ生成手段４０１が音読データを生成する（図１０のＳｔｅｐ７４０）。音読データが生成されると、選定話者は音読データ試聴手段４０２によってその音声データを出力し（つまり、再生し）、問題がないことを確認する（図１０のＳｔｅｐ７５０）。もちろんその音読データに納得いかない場合は、繰り返し音読して音読データを生成するとよい。音声データが完成すると、話者側のオペレータ操作により音読データを情報管理サーバ２００にアップロードする（図１０のＳｔｅｐ７６０）。ここでアップロードされた音読データは、情報管理サーバ２００の音読データ記憶手段２０５に記憶される。このとき、音読データを解析したうえで音読データ記憶手段２０５に記憶する仕様とすることもできる。この場合、情報管理サーバ２００が音読データを解析する手段（以下、「音読データ解析手段」という。）を備えることとし、この音読データ解析手段が音読データを解析することによって対応する属性情報を選出するとともに、その属性情報とともに音読データを音読データ記憶手段２０５に記憶させる。この属性情報としては、例えば声色や声の高さ、声の強さといった話者条件を挙げることができる。

【0055】

ここまでユーザが選定話者を設定する仕様で説明したが、第１実施形態の音読支援システム１００Ａは、話者側から申し出る（いわば、立候補する）仕様とすることもできる。この場合、情報管理サーバ２００の話者サジェスト手段２０３は、申し出があった候補話者に対して優先候補者（優先順位を含む）を選出する。そしてユーザ側のオペレータは、情報管理サーバ２００から提示された候補話者を候補話者属性情報とともにユーザ側表示手段３０８に表示したうえで、オペレータ操作によりユーザ所望の選定話者を選定する。

【0056】

２．第２実施形態
次に、第２実施形態の音読支援システム１００Ｂについて、図を参照しながら詳しく説明する。なお、第１実施形態の音読支援システム１００Ａで説明した内容と重複する説明は避け、第２実施形態の音読支援システム１００Ｂに特有の内容のみ説明することとする。すなわち、ここに記載されていない内容は、「１．第１実施形態」で説明したものと同様である。

【0057】

図１１は、第２実施形態の音読支援システム１００Ｂの主な構成を示すブロック図である。この図に示すように第１実施形態の音読支援システム１００Ａは、ユーザ側端末３００を備えたものであり、さらに情報管理サーバ２００と話者側端末４００を含む構成とすることもできる。既述したとおり、情報管理サーバ２００は音読支援システム１００Ａで扱われる種々の情報を集約するサーバであり、図２に示すように、有線や無線などの電気通信回線を通じて複数（図では３機）のユーザ側端末３００と、複数（図では３機）の話者側端末４００と通信可能とすることができる。なお、第２実施形態の音読支援システム１００Ｂは、特にユーザ側端末３００の構成に特徴を備えている。そこで、第２実施形態の音読支援システム１００Ｂのユーザ側端末３００について詳しく説明する。

【0058】

第２実施形態の音読支援システム１００Ｂのユーザ側端末３００は、図１１に示すように、動画再生手段３１０と開始点設定手段３１１、台詞設定手段３１２を含んで構成され、さらに進行状況表示手段３１３や開始点表示手段３１４、速度設定手段３１５、音読時間設定手段３１６、音読バー表示手段３１７、合成音声出力手段３１８を含んで構成することもでき、もちろん第１実施形態の音読支援システム１００Ａのユーザ側端末３００を構成する各手段を含んで構成することもできる。以下、ユーザ側端末３００を構成する主な手段ごとに説明する。

【0059】

（動画再生手段）
動画再生手段３１０は、あらかじめ作成された動画データを読み出して、その動画を出力する（つまり、再生する）手段である。具体的には、所定の記憶手段に記憶された複数の動画データのうち所望のものをオペレータが指定すると、動画再生手段３１０がその動画データを再生する。このとき、ディスプレイなどのユーザ側表示手段３０８が利用され、例えば図１２に示すような「動画表示エリア」に当該動画を出力することができる。

【0060】

図１２に示すように、動画表示エリアの近傍（図では下側）には「進行状況バー」を表示するとよい。進行状況表示手段３１３によって表示されるこの進行状況バーは、再生中の動画の進行状況を示すもので、従来用いられている技術を利用することができる。例えば、図１２に示すように時間軸（図では左右の軸）を示すとともに、動画再生の進行とともにスライダーがその時間軸に沿って移動したり、あるいはその時間軸に沿って既読長さを伸長したりすることによって動画の進行状況を示すことができる。もちろん、オペレータ操作によってスライダーを左右に移動することで、動画再生の位置が変更される仕様とすることもできる。

【0061】

（台詞設定手段）
台詞設定手段３１２は、事前に用意された台詞（いわば台本）に基づいてテキストデータ（以下、「台詞テキスト」という。）を設定する手段である。具体的には、音読条件設定手段３０１と同様、オペレータがキーボード等を操作することによって、台詞を新たに入力したり、別に用意した台詞テキストを取り込んで編集したり、あるいはあらかじめ用意された標準的な台詞テキストを選択したりすることで、台詞テキストを設定するわけである。このとき、オペレータがユーザ側表示手段３０８（液晶ディスプレイなど）を確認しながら台詞テキストを設定する仕様とすることもでき、例えば図１２に示すような「台詞テキスト入力エリア」に入力（あるいは編集）したテキストを表示することができる。なお、動画の再生中に１回のみ台詞テキストを設定することもできるし、もちろん２回以上で台詞テキストを設定することもできる。

【0062】

（開始点設定手段）
第２実施形態の音読支援システム１００Ｂは、話者に対して音読を依頼したい台詞と、動画の再生中に台詞の音読を開始する時間位置（以下、便宜上ここでは「音読開始点」という。）を提示するものである。そして開始点設定手段３１１は、その音読開始点を設定する手段である。具体的には、オペレータがポインティングデバイス（マウスやタッチパネル、ペンタブレット、タッチパッド、トラックパッド、トラックボールなど）やキーボード等を利用して操作すると、開始点設定手段３１１が音読開始点を設定する。例えば図１３に示すように、再生動画が目的の位置に到達したときに、オペレータがポインティングデバイスを使用して進行状況バーのうち当該位置を指定（クリック）することで、開始点設定手段３１１が音読開始点を設定する仕様にすることができる。これによりオペレータは、再生中の動画を確認しながら音読開始点を設定することができるわけである。

【0063】

音読開始点は、当然ながら用意された台詞（つまり、台詞テキスト）の数だけ設定される。そして音読を依頼された話者は、進行状況バー（例えばスライダー）を確認しながら、再生動画が音読開始点に到達すると音読を開始することになる。したがって、音読開始点は、あらかじめ進行状況バーの近傍に表示しておくとよい。開始点表示手段３１４は、音読開始点を表示する手段である。例えば図１４のケースでは、開始点表示手段３１４が進行状況バーの近傍（図では下側）に８箇所の音読開始点を表示している。この図に示すように音読開始点は、図形や文字、あるいは図形と文字の組み合わせ（図１４では、円形マークと、順位を示す数字）によって表示するとよい。もちろん音読開始点は、進行状況バーの時間軸に対応する位置に表示される。例えば、動画再生から５分１０秒経過した時点音読開始点が設定された場合、進行状況バーの時間軸のうち５分１０秒の位置にその音読開始点が表示されるわけである。

【0064】

複数の音読開始点が設定された場合、話者は再生動画が次の音読開始点に到達する前に台詞の音読を完了しなければならない。換言すれば、前後の音読開始点に挟まれた期間（以下、「セクション」という。）に音読が完了するような台詞テキストを設定する必要がある。また話者は、再生動画が音読開始点に到達するタイミングで台詞を音読することから、当該セクションに対応する台詞テキストを表示する仕様にするとよい。例えば図１５では、再生動画が６番目の音読開始点に到達しており、第６番目のセクションに対応する台詞テキストが台詞テキスト入力エリアに表示されている。これにより話者は、台詞を覚えることなくその場で音読することができる。さらに、現在音読すべき台詞テキスト（図１５では、第６番目のセクションの台詞テキスト）に加えて、次に音読すべき台詞テキスト（図１５では、第７番目のセクションの台詞テキスト）を表示することもできる。

【0065】

（合成音声生成手段）
合成音声生成手段３０５は、台詞設定手段３１２によって設定された台詞テキストに基づいて合成音声を生成する手段である。なお合成音声生成手段３０５は、従来用いられている種々の合成音声技術を利用して合成音声を生成することができる。もちろん合成音声は、音読開始点（あるいは、セクション）に関連付けられた（紐づけられた）うえで生成され、記憶される。そして動画再生手段３１０が動画を再生する際、合成音声出力手段３１８によって合成音声が適宜出力される（つまり、再生される）。具体的には、再生動画が音読開始点に到達するタイミングで、合成音声出力手段３１８がその音読開始点に対応する合成音声を再生する。

【0066】

（速度設定手段）
合成音声出力手段３１８は、標準的な（いわばデフォルトの）速度で合成音声を出力する（つまり、再生する）こともできるし、その再生速度を変更して合成音声を再生することもできる。速度設定手段３１５は、合成音声出力手段３１８が合成音声を再生する速度（以下、「再生速度」という。）を変更する手段である。具体的には、オペレータが操作すると、速度設定手段３１５が再生速度を変更するとともに、合成音声出力手段３１８は変更された再生速度で合成音声を再生する。例えば図１３では、オペレータが指示バーを右に移動すると速度設定手段３１５が再生速度を高速（早口）に変更し、逆にオペレータが指示バーを左に移動すると速度設定手段３１５が再生速度を低速（ゆっくり）に変更する。なお、オペレータが指示バーを左右に移動する仕様に代えて（あるいは加えて）、直接的に再生速度の値を入力する仕様とすることもできる。

【0067】

（音読時間設定手段）
音読時間設定手段３１６は、速度設定手段３１５によって設定された再生速度で、合成音声出力手段３１８が合成音声を再生したときの時間長さ（以下、「音読時間」という。）を設定する手段である。なお音読時間を設定するにあたっては、再生速度と台詞テキスト（特に文字数）に基づいて論理的に算出する仕様、再生速度と合成音声に基づいて論理的に算出する仕様、あるいは実際に合成音声を出力した時間を計測して定める仕様などを採用することができる。そして音読時間設定手段３１６によって算出された音読時間は、音読バー表示手段３１７によって可視化され、すなわち音読バー表示手段３１７が図１６に示すように音読時間を「音読バー」として表示する。この音読バーは、音読時間に応じた長さを表すものであり、対応する音読開始点（図１６では第４番目）を起点とし、しかも進行状況バーの進行方向（図では右方向）に伸びるように音読バーは表示される。

【0068】

音読バー表示手段３１７が音読バーを表示することによって、その音読時間の適否を判断することができる。例えば図１６のケースでは、第４番目の音読開始点に係る音読バーが第５番目の音読開始点を超えており、すなわち第４番目のセクションで再生される合成音声が長すぎることが分かる。この場合、速度設定手段３１５によって再生速度をより高速（早口）にするか、あるいは当該台詞を見直すことで台詞テキストを短くするなど、音読時間を短縮すべく適切に対応することができるわけである。

【0069】

（音読データ生成手段）
音読データ生成手段４０１は、話者側端末４００を構成するものであり、話者が台詞テキストを音読した音声を記録した音読データを生成する手段である。そして話者側端末４００にも、動画再生手段３１０と進行状況表示手段３１３、開始点表示手段３１４、音読バー表示手段３１７、そして合成音声出力手段３１８を設けるとよい。これにより依頼された話者は、合成音声出力手段３１８によって再生される合成音声の再生速度を確認したうえで、台詞を音読することできる。また話者は、動画再生手段３１０によって再生される動画と、進行状況表示手段３１３によって表示される進行状況バー、開始点表示手段３１４によって表示される音読開始点を確認しながら台詞を音読することができる。この場合はもちろん、ユーザ側で設定（あるいは、生成）された台詞テキストや音読開始点、再生速度、合成音声、音読バーが、情報管理サーバ２００を介して話者側に送られる。

【0070】

（処理の流れ）
続いて、第２実施形態の音読支援システム１００Ｂの主な処理の流れについて、図１７を参照しながら説明する。図１７は、第２実施形態の音読支援システムの処理のうち主にユーザ側端末３００に係る処理の流れを示すフロー図であり、中央の列に実行する処理（操作）を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。

【0071】

まずユーザ側では、依頼する台詞の文面を用意するともに、オペレータがこの文面に基づく台詞テキストを、台詞設定手段３１２を用いて入力していく（図１７のＳｔｅｐ８０１）。またユーザ側のオペレータは、速度設定手段３１５を操作することによって、台詞テキストごとに再生速度を設定する（図８のＳｔｅｐ８０２）。このとき、音読の際の強弱や抑揚、間、声色、音読用の言語あるいは方言、ルビなどを音読条件として設定することができることは既述したとおりである。

【0072】

台詞テキストが入力され、再生速度が設定されると、合成音声生成手段３０５が台詞テキストに基づいて合成音声を生成し（図８のＳｔｅｐ８０３）、音読時間設定手段３１６が合成音声（あるいは、台詞テキスト）と再生速度に基づいて音読時間を設定する（図８のＳｔｅｐ８０４）。そしてオペレータが所定の操作を行うことによって、動画再生手段３１０が動画データを読み出して再生し（図８のＳｔｅｐ８０５）、また動画表示エリアの近傍に進行状況バーを表示する（図８のＳｔｅｐ８０６）。

【0073】

動画再生手段３１０による動画再生が進行していくと、オペレータが随時操作することによって開始点設定手段３１１が音読開始点を設定するとともに（図８のＳｔｅｐ８０７）、設定された音読開始点は開始点表示手段３１４によって進行状況バーの時間軸に対応する位置に表示され（図８のＳｔｅｐ８０７）、また音読バー表示手段３１７が音読時間に基づいて音読バーを表示する（図８のＳｔｅｐ８０９）。なお、動画再生手段３１０が動画を再生する際、その進行が音読開始点に到達した時点で合成音声出力手段３１８がその音読開始点に対応する合成音声を再生することもできる（図８のＳｔｅｐ８１０）。

【0074】

ここまでの処理で設定された台詞テキストと音読開始点、再生速度など（つまり、依頼データ）は依頼された話者に送信される。そしてその話者は、話者側に設けられた合成音声出力手段３１８によって再生される合成音声の再生速度を確認したうえで、また動画再生手段３１０によって再生される動画と、進行状況表示手段３１３によって表示される進行状況バー、開始点表示手段３１４によって表示される音読開始点を確認しながら、台詞を音読して音声データを生成する。そして生成された音声データは、話者側のオペレータ操作により情報管理サーバ２００を介してユーザ側に送られる。

【産業上の利用可能性】

【0075】

本願発明の音読支援システムは、プレゼンテーションや、新入社員などに対する業務マニュアルの説明、店舗における呼び込みあるいは商品紹介、商品取扱説明書の解説、飲食店メニューの説明など、様々な場面で利用することができる。本願発明は、例えば声優活躍する場を広げ、ひいては多くの者の雇用維持に寄与することを考えれば、産業上利用できるばかりでなく社会的にも大きな貢献が期待できる発明といえる。

【符号の説明】

【0076】

１００Ａ第１実施形態の音読支援システム
１００Ｂ第２実施形態の音読支援システム
２００（音読支援システムの）情報管理サーバ
２０１（情報管理サーバの）サーバ側送受信手段
２０２（情報管理サーバの）選定結果通知手段
２０３（情報管理サーバの）話者サジェスト手段
２０４（情報管理サーバの）依頼データ記憶手段
２０５（情報管理サーバの）音読データ記憶手段
２０６（情報管理サーバの）候補話者情報記憶手段
２０７（情報管理サーバの）依頼履歴情報記憶手段
３００（音読支援システムの）ユーザ側端末
３０１（ユーザ側端末の）音読条件設定手段
３０２（ユーザ側端末の）依頼データ生成手段
３０３（ユーザ側端末の）話者選定手段
３０４（ユーザ側端末の）スライド音声出力手段
３０５（ユーザ側端末の）合成音声生成手段
３０６（ユーザ側端末の）合成音声試聴手段
３０７（ユーザ側端末の）サンプル音声試聴手段
３０８（ユーザ側端末の）ユーザ側表示手段
３０９（ユーザ側端末の）ユーザ側送受信手段
３１０動画再生手段
３１１開始点設定手段
３１２台詞設定手段
３１３進行状況表示手段
３１４開始点表示手段
３１５速度設定手段
３１６音読時間設定手段
３１７音読バー表示手段
３１８合成音声出力手段
４００（音読支援システムの）話者側端末
４０１（話者側端末の）音読データ生成手段
４０２（話者側端末の）音読データ試聴手段
４０３（話者側端末の）録音側表示手段
４０４（話者側端末の）録音側送受信手段

【図1】