(58)【調査した分野】(Int.Cl.,DB名)
テキストデータから音声データへの変換要求を行うユーザの端末と、前記テキストデータを音声データに変換する音声変換装置とにネットワークを介して接続され、前記端末からの前記テキストデータの変換要求に対して過去に該テキストデータの変換履歴がない場合に前記音声変換装置に前記テキストデータを変換させ、変換された音声データを前記端末へ送信する音声変換支援装置において、
前記音声変換装置により変換済の音声データとこの音声データと対応する変換元のテキストデータとが記憶された変換済音声データ記憶部と、
前記変換済音声データ毎に前記端末のユーザのアクセス権と保存先が登録されたアクセス権情報記憶部と、
前記端末から入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とを前記アクセス権情報記憶部から取得し、前記ユーザにアクセス権がある該音声データを自他の音声変換支援装置の保存先から取得する変換済音声データ取得部と、
前記変換済音声データ取得部により前記自他の音声変換支援装置から取得された該音声データをテスト再生するテスト再生部と、
前記テスト再生部によりテスト再生された音声データが正しいものとの指示を前記端末から受けた場合、前記テスト再生箇所を除いたテキストデータを前記音声変換装置に変換させて得られた音声データとテスト再生した過去に変換済みの音声データとを結合して前記端末へ送信する制御部と
を具備する音声変換支援装置。
前記変換済音声データ記憶部に新たに登録した変換済の音声データの内容とその音声データへのユーザのアクセス権と登録したユーザの識別情報と保存先を前記ネットワーク上の他の音声変換支援装置へ配信する配信部をさらに具備する請求項1記載の音声変換支援装置。
新規の音声データおよび前記ネットワーク上の他の音声変換支援装置から配信されてきた変換済の音声データへのユーザのアクセス権と登録したユーザの識別情報と保存先を前記アクセス権情報記憶部に登録する登録部をさらに具備する請求項1記載の音声変換支援装置。
テキストデータから音声データへの変換要求を行うユーザの端末と、前記テキストデータを音声データに変換する音声変換装置と、前記端末からの前記テキストデータの変換要求に対して過去に該テキストデータの変換履歴がない場合に前記音声変換装置に前記テキストデータを変換させ、変換された音声データを前記端末へ送信する音声変換支援装置とをネットワークを介して接続した音声合成システムにおいて、
前記音声変換装置は、
前記音声変換支援装置から変換要求を受けた前記テキストデータを音声データに変換して前記音声変換支援装置へ返す音声変換機能を備え、
前記音声変換支援装置は、
前記音声変換装置により変換済の音声データとこの音声データと対応する変換元のテキストデータとが記憶された変換済音声データ記憶部と、
前記変換済音声データ毎に前記端末のユーザのアクセス権と保存先が登録されたアクセス権情報記憶部と、
前記端末から入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とを前記アクセス権情報記憶部から取得し、前記ユーザにアクセス権がある該音声データを自他の音声変換支援装置の保存先から取得する変換済音声データ取得部と、
前記変換済音声データ取得部により前記自他の音声変換支援装置から取得された該音声データをテスト再生するテスト再生部と、
前記テスト再生部によりテスト再生された音声データが正しいものとの指示を前記端末から受けた場合、前記テスト再生箇所を除いたテキストデータを前記音声変換装置に変換させて得られた音声データとテスト再生した過去に変換済みの音声データとを結合して前記端末へ送信する制御部と
を具備する音声合成システム。
テキストデータから音声データへの変換要求を行うユーザの端末と、前記テキストデータを音声データに変換する音声変換装置とにネットワークを介して接続され、前記端末からの前記テキストデータの変換要求に対して過去に該テキストデータの変換履歴がない場合に前記音声変換装置に前記テキストデータを変換させ、変換された音声データを前記端末へ送信する音声変換支援装置における音声変換支援方法において、
前記音声変換装置により変換済の音声データとこの音声データと対応する変換元のテキストデータとを変換済音声データ記憶部に記憶し、
前記変換済音声データ毎に前記端末のユーザのアクセス権と保存先をアクセス権情報記憶部に登録し、
前記端末から入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とを前記アクセス権情報記憶部から変換済音声データ取得部が取得し、前記ユーザにアクセス権がある該音声データを自他の音声変換支援装置の保存先から取得し、
前記自他の音声変換支援装置から取得された該音声データをテスト再生部がテスト再生し、
前記テスト再生部によりテスト再生された音声データが正しいものとの指示を制御部が前記端末から受けた場合、前記テスト再生箇所を除いたテキストデータを前記音声変換装置に変換させて得られた音声データとテスト再生した過去に変換済みの音声データとを結合して前記端末へ送信する音声変換支援方法。
【発明を実施するための形態】
【0010】
以下、図面を参照して実施形態を詳細に説明する。
図1は実施形態の音声合成システムの構成を示す図である。
【0011】
図1に示すように、この実施形態の音声合成システムは、サービス利用者(以下「ユーザ」と称す)が操作する端末であるコンピュータ1a〜1m(以下「ユーザPC1a〜1m」と称す)、音声変換装置としてのコンピュータである音声合成サーバ3と、音声変換支援装置としてのコンピュータ2a〜2n(以下「アプリケーションサーバ2a〜2n」と称す)と、これらの機器を、ネットワーク4を介して接続されたものである。
【0012】
ユーザPC1a〜1mは、アプリケーションサーバ2a〜2nに対してテキストデータから音声データへの変換要求を行う。音声合成サーバ3は、音声変換機能としての音声合成エンジンを搭載している。音声合成エンジンはアプリケーションサーバ2a〜2nからの変換要求を受けてアプリケーションサーバ2a〜2nから受け取ったテキストデータを音声データに変換し、要求元のアプリケーションサーバ2a〜2nへ返す。
【0013】
詳細には、音声合成サーバ3は、アプリケーションサーバ2a〜2nから送られてきた中間ファイル(テキストデータとアクセント記号のペア(組))を音声データ(以下「音声ファイル」と称す)に変換してアプリケーションサーバ2a〜2nに戻す。
【0014】
アプリケーションサーバ2a〜2nは、ユーザPC1a〜1mと音声合成サーバ3とにネットワーク4を介して接続されている。アプリケーションサーバ2a〜2nは、音声合成サーバ3とユーザPC1a〜1mとの間に介在してテキストデータ、中間ファイルおよび音声ファイルのやりとりを行う。
【0015】
詳細には、アプリケーションサーバ2a〜2nは、ユーザPC1a〜1mからのテキストデータの変換要求に対して過去に該テキストデータの変換履歴がない場合に音声合成サーバ3にテキストデータを変換させ、音声合成サーバ3により変換された音声データをユーザPC1a〜1mへ送信する。
【0016】
ネットワーク4に接続された複数のアプリケーションサーバ2a〜2nのうち、
図2に示すように、例えばアプリケーションサーバ2aは、グラフィックユーザインターフェース部21(以下「GUI部21」と称す)、メモリ22、中間ファイル生成部23、キャッシュされた既存の音声データのアクセス権を管理するためのアクセス権記憶部としてのセキュリティ情報記憶部32、変換済音声データ記憶部としてのキャッシュデータ保存部25、既存音声ファイル取得部26、通信処理部27、データ処理部28、登録部29、テスト再生部30、配信部31などを有する。
【0017】
なお他のアプリケーションサーバ2b〜2nもアプリケーションサーバ2aと同様の構成を有するため、以下では代表してアプリケーションサーバ2aの構成について説明する。
【0018】
アプリケーションサーバ2aは、ユーザPC1a〜1mから入力されたテキストデータをキーワード(検索キー)にしてセキュリティ情報記憶部32の情報を利用してキャッシュデータ保存部25にキャッシュ(記憶)された音声ファイルを取得し、音声合成サーバ3に音声合成を要求することなく要求元であるユーザPC(ユーザPC1a〜1mのいずれか)に返す。
【0019】
すなわち、アプリケーションサーバ2aは、キーワードに対応する既存の音声ファイルが自他すべてのアプリケーションサーバ2a〜2nにキャッシュされているか否かをチェックし、既存の音声ファイルがキャッシュされていればその音声ファイルを該当保存先から取得しユーザPC1a〜1mへ送る。
【0020】
また、アプリケーションサーバ2aは、既存の音声ファイルがどこにもキャッシュされていない場合に、ユーザPC1a〜1mから入力されたテキストデータを音声合成サーバ3へ出力(音声合成要求)し、このテキストデータに対する応答として音声合成サーバ3にて変換(音声合成)された音声ファイルを取得しユーザPC1a〜1mへ送る。
【0021】
GUI部21は、ユーザPC1a〜1mからアプリケーションサーバ2aにログインするための画面、検索画面、登録画面などを表示し、ユーザPC1a〜1mからの音声合成要求、テキストデータの入力などを受け付けるとともに、要求に対する応答として音声ファイルをユーザPC1a〜1mへ送る。GUI部21は、例えば検索画面において、ユーザPC1a〜1mから新たに入力された変換対象のテキストデータのうち指定されたテスト再生箇所を受け付ける受付部として機能する。
【0022】
つまり、GUI部21は、ユーザPC1a〜1mとアプリケーションサーバ2aとの間の入出力インターフェースを実現するものである。
【0023】
メモリ22は、データ処理部28、既存音声ファイル取得部26および登録部29などがそれぞれの処理を実行する際のワークエリア、変換要求する際に作成された中間ファイルの一時記憶エリアとして利用される。
【0024】
中間ファイル生成部23は、ユーザPC1a〜1mから入力された変換対象のテキストデータを単語または文節の単位に分割し、分割したテキストデータのうちキャッシュされていないもの、またはテスト再生でユーザにより発音が正しくないものと指示されたものをキーワードにして音声変換用の登録辞書42を参照して、対応するアクセント記号を登録辞書42から読み出してテキストデータとアクセント記号とのペア(組)の中間ファイルを生成し、音声合成サーバ3への変換要求のためのデータとしてメモリ22に記憶する。この中間ファイルは、音声合成用の元データとして音声合成サーバ3へ送信される。
【0025】
なお、既にユーザの承認を受け、変換不要(確定済)のフラグが付されたテキストデータについては、音声変換をしないため中間ファイルも生成しない。
【0026】
キャッシュデータ保存部25には、以前(過去)に変換されたファイル(音声データのファイル、テキストデータのファイル、中間データのファイルなど)が保存されている。
【0027】
つまりキャッシュデータ保存部25には、音声合成サーバ3により変換済の音声データとこの音声データと対応する変換元のテキストデータとが記憶されている。
【0028】
図3に示すように、セキュリティ情報記憶部32には、音声ファイルの登録順序を示すインデックス(番号)と、音声ファイルを登録したユーザを識別するための情報である登録ユーザIDと、音声ファイルの内容(音声ファイルの変換元のテキストデータ)と、音声ファイルの公開レベル(アクセス可能なユーザやサーバ)を示すセキュリティレベルと、保存先とが対応して記憶されている。
【0029】
セキュリティレベル(安全性の度合いまたは値)は、例えば「1」〜「4」などの異なるレベルで設定されている。セキュリティレベル「1」はセキュリティが最も高く、音声ファイルを登録したユーザIDのユーザだけがその音声ファイルにアクセス可能というアクセス権限である。
【0030】
セキュリティレベル「2」はセキュリティが2番目に高く、予め登録されたユーザが属するグループのユーザだけがその音声ファイルにアクセス可能というアクセス権限である。ログインユーザと音声ファイルを登録したユーザIDのユーザとが同じグループに属していない場合はログインユーザには既存の音声ファイルへのアクセス権がない。
【0031】
セキュリティレベル「3」はセキュリティが3番目に高く、ログインユーザはログイン中のアプリケーションサーバ内にある音声ファイルにだけアクセスする権限である。
【0032】
セキュリティレベル「4」はセキュリティが一番低く、すべてのユーザが本サーバまたはネットワーク4に接続された他のアプリケーションサーバの音声ファイルにアクセス可能である。
【0033】
保存先は音声ファイルの保存先を示すサーバのIDと保存先インテックスを含む。保存先インテックスとは格納場所の番号などである。この例の場合、インデックス1に登録さていれる登録先「1−1」は1番サーバの1番目の格納場所に音声ファイルが登録されていることを示している。この他、保存先としては例えばディレクトリ、リンク先などであってもよい。
【0034】
すなわちセキュリティ情報記憶部32は、音声データ毎に各ユーザPC1a〜1mのユーザの音声ファイルへのアクセス権(セキュリティレベルと登録ユーザID)と保存先が設定されたアクセス権情報記憶部である。
【0035】
既存音声ファイル取得部26は、ユーザPC1a〜1mから入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声ファイルの保存先とユーザのセキュリティレベルと登録ユーザIDとをセキュリティ情報記憶部32から取得する。
【0036】
そして取得した保存先がこのアプリケーションサーバ2a内のキャッシュデータ保存部25の場合、既存音声ファイル取得部26は音声ファイルの取得先をキャッシュデータ保存部25としてキャッシュデータ保存部25から該音声ファイルを読み出し取得する。
【0037】
また取得した既存音声ファイルの保存先がネットワーク4上の他のアプリケーションサーバ2b〜2nの場合、既存音声ファイル取得部26はその外部のアプリケーションサーバ2b〜2nに対して該音声ファイルの取得要求を行い、該音声ファイルを取得する。
【0038】
詳細には、既存音声ファイル取得部26は、GUI部21がユーザPC1a〜1mに表示する画面において、ユーザPC1a〜1mから入力されたテキストデータのうちテスト再生箇所が指定された場合、GUI部21により受け付けられたテスト再生箇所の過去の変換済みデータ、つまり変換済みの音声ファイル(音声データ)がどのアプリケーションサーバ2a〜2nのキャッシュデータ保存部25に存在するか否かをチェックする。
【0039】
テスト再生部30は、既存音声ファイル取得部26によりキャッシュデータ保存部25から取得された該音声ファイル、または他のアプリケーションサーバ2b〜2nから取得された該音声ファイルをテスト再生する。
【0040】
通信処理部27は、音声合成サーバ3との間で、TCP(HTTP)通信により、データのやりとりを行う。
【0041】
データ処理部28は、既存音声ファイル取得部26により取得された既存の音声ファイルを、通信処理部27を通じて変換要求元のユーザPC1a〜1mへ転送する。
【0042】
ユーザPC1a〜1mの画面において、テスト再生部30によりテスト再生されたテスト再生箇所の音声データの発音が正しいものとの指示をユーザが行い、その指示をデータ処理部28がユーザPC1a〜1mから受けた場合、データ処理部28は、テスト再生箇所を除いたテキストデータを音声合成サーバ3に変換させて得られた音声データとテスト再生した既存の音声データとを結合して要求元のユーザPC1a〜1mへ送信(返却)する制御部として機能する。
【0043】
すなわちデータ処理部28は、テスト再生された音声ファイルが正しいものとの指示をユーザPC1a〜1mから受けた場合、テスト再生箇所を除いたテキストデータを音声合成サーバ3に変換させて得られた音声ファイルとテスト再生した過去に変換済みの既存音声ファイルとを結合して要求元のユーザPC1a〜1mへ送信する。
【0044】
セキュリティ情報記憶部32にキーワードと一致する音声のデータ(テキストデータ)が存在せず、既存音声ファイル取得部26により既存の音声ファイルが取得されない場合、データ処理部28は、入力されたテキストデータを基に中間ファイル生成部23により生成されメモリ22に記憶された中間ファイルを音声合成サーバ3へ送り、音声合成サーバ3により変換(音声合成)された音声ファイルを要求元のユーザPC1a〜1mへ転送(送信)する。なお中間ファイルではなく入力されたテキストデータを送ってもよい。
【0045】
登録部29は、GUI部21により表示される辞書登録画面にて、メモリ22内のユーザID毎の登録辞書42にユーザが独自に入力または編集した情報(音声データとテキストデータとアクセント記号)を登録する。
【0046】
また登録部29は変換済の音声ファイルの保存先(このサーバ内の場合はキャッシュデータ保存部25を示す保存先インデックスなど)、登録者の識別情報であるユーザID(登録ユーザID)、セキュリティレベル(ユーザのアクセス権のレベル)を指定してセキュリティ情報記憶部32に保存する。
【0047】
すなわち登録部29は既存音声ファイルの内容(テキスト)とその音声ファイルへのユーザのアクセス権と登録したユーザの識別情報と保存先と対応付けて登録する。登録部29は既存の音声ファイルに対して、異なるセキュリティレベル(セキュリティレベル「1」〜「4」など)に区分されたユーザのアクセス権をアクセス権情報記憶部に設定する。
【0048】
登録ユーザIDはログイン時に入力されており、保存先インデックスも固定されていれば、それらの情報を予めセキュリティ情報記憶部32に設定しておいてもよい。
【0049】
また登録部29はネットワーク4上の他のアプリケーションサーバ2b〜2nから配信されてきた音声ファイルの保存先の情報(音声ファイルの保存先、登録ユーザID、音声ファイルのセキュリティレベル)をセキュリティ情報記憶部32に登録する(
図3参照)。
【0050】
配信部31はキャッシュデータ保存部25に新たに登録された音声ファイルの保存先の情報をセキュリティ情報記憶部32から読み出してネットワーク4上の他のアプリケーションサーバ2b〜2nへ配信する。すなわち配信部31は既存音声ファイルの内容(テキスト)とその音声ファイルへのユーザのアクセス権と登録したユーザの識別情報と保存先とを配信する。
【0051】
メモリ22にはユーザID毎の登録辞書42が記憶されている。この他、メモリ22にはユーザID毎の変換履歴、このアプリケーションサーバ2のすべてのユーザの使用履歴などが記憶されている。このアプリケーションサーバ2にログインしたユーザ一人の変換履歴を第1変換履歴という。このアプリケーションサーバ2にログインした複数のユーザ(例えば今までログインした全てのユーザといってもよい)の変換履歴を第2変換履歴という。
【0052】
ユーザID毎の登録辞書42には、ユーザが独自に登録したテキストデータ(これを「テキスト」という)と、テキストとそのアクセスト記号のペア(組)である中間ファイルと、これらのデータに対応する音声ファイルの保存先を示す保存先インデックスとが記憶されている。
【0053】
このユーザID毎の登録辞書42は、既存音声ファイル取得部26がキャッシュデータを検索するときに初めに参照される。この登録辞書の中での参照順位は第1順位が中間ファイル、第2順位がテキストである。
保存先として登録される情報は、例えばサーバ自体の内部であればキャッシュデータ保存部25のディレクトリ、ネットワーク4に接続された他のサーバであれば、そのサーバのリンク情報かURLまたはサーバの保存先を識別するための識別情報である装置ID(サーバID+保存先インデックス)などである。
【0054】
次に、
図4〜
図6のフローチャートを参照してこの実施形態の音声合成システムに動作を説明する。まず
図4および
図5のフローチャートを参照してこのシステム全体の動作を説明する。
この実施形態の音声合成システムの場合、ユーザがユーザPC1a〜1mから所定のURLを入力し、アプリケーションサーバ2にアクセスすると、GUI部21はログイン画面をユーザPC1a〜1mに表示するので、ユーザは表示されたログイン画面の入力欄に、ログインID、例えば「ユーザ1」などのログイン情報を入力する(
図4のステップS101)。この他、ログイン情報としてパスワードなども入力する場合がある。
【0055】
すると、GUI部21は入力されたログイン情報をメモリ22のユーザIDテーブル41のユーザIDと照合することで、ログイン情報が登録済みか否かを判定し(ステップS102)、ログイン情報が登録済みの場合(ステップS102のYes)、アプリケーションサーバ2へのログインを許可し、音声変換画面を表示する(ステップS103)。
【0056】
ユーザが、音声変換画面の文字入力欄にカーソルを移動し、キー入力により変換対象の文字(テキストデータ)を入力すると(ステップS104)、GUI部21はその入力を受け付け、入力されたテキストデータを文字入力欄に表示する(ステップS105)。
【0057】
そして、音声変換画面に表示されている音声ファイル作成指示のためのボタンが押下されると(ステップS106のYes)、音声ファイル作成処理のルーチンへ進む。
【0058】
一方、文字入力欄に表示されているテキストデータのうちテスト再生箇所をユーザが範囲指定などの操作(マウスのドラッグ操作など)により指定され、音声変換画面に表示されているテスト再生ボタンが押下されると(ステップS107のYes)、GUI部21はテスト再生ボタンの押下を受け付け、既存音声ファイル取得部26に通知する。
【0059】
既存音声ファイル取得部26は、既存の音声ファイルがこの装置内の保存先(メモリ22またはキャッシュデータ保存部25など)に存在するか否か(有無)をチェックし、既存の音声ファイルが存在する場合はその保存先から既存の音声ファイルを取得する(ステップS108)。
【0060】
より詳細には、既存音声ファイル取得部26は、変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とをセキュリティ情報記憶部32から取得し、ユーザがアクセス可能な該音声データを自他の音声変換支援装置の保存先(この場合、キャッシュデータ保存部25)から取得し(ステップS109)、メモリ22の再生ワークエリアにキャッシュする(ステップS110)。この音声ファイルを<データ1>とする。
【0061】
テスト再生部30は、既存音声ファイル取得部26による検索の結果、既存のファイルが存在した場合、再生ワークエリアにキャッシュされたテスト再生箇所の既存の音声ファイルを読み出してユーザPC1a〜1mのスピーカから音声を再生する(ステップS111)。
【0062】
この音声を聞いたユーザが発音を確認し、発音が正しいものとして音声変換画面の「OK」等のボタンを選択操作すると(ステップS112のYes)、データ処理部28は、テスト再生された部分のテキストデータを確定し(ステップS113)、確定したテキストデータに変換不要のフラグを付す。テスト再生すべき次のテキストデータがあれば、S104の処理に戻り上記の処理繰り返す。
【0063】
このようにしてテスト再生すべき次のテキストデータがなくなり、テスト再生箇所すべてのテスト再生が終了し、音声ファイル作成指示のためのボタンが押下されると(ステップS115)、データ処理部28は、文字入力欄に入力された文面のテキストデータを単語または文節単位に分割し(ステップS116)、分割した単位でテキストデータを既存音声ファイル取得部26に渡し、分割単位に既存音声ファイルがこの装置内のキャッシュデータ保存部25に保存されているか否かをチェックし(ステップS117)既存音声ファイルが存在すればそれを取得する。
【0064】
なお、既存音声ファイルを取得動作の詳細については後述の
図6で説明する。また、この場合、既にユーザから承認を受け、変換不要(確定済)のフラグが付されているテスト再生済のテキストデータについては、音声へ変換しないため既存音声ファイルの取得は不要である。
【0065】
既存音声ファイル取得部26は、キャッシュデータ保存部25から取得した音声ファイルをメモリ22の再生ワークエリアにキャッシュする(ステップS119)。この音声ファイルを<データ2>とする。
【0066】
また上記既存音声ファイルを取得動作の結果、既存音声ファイルがこの装置内に存在しない場合(ステップS118のNo)、データ処理部28は、検索した分割テキストデータの中間ファイルを生成した上で音声合成サーバ3へ転送し(ステップS120)、音声合成サーバ3により変換された音声ファイルを取得する(ステップS121)。
【0067】
そして、得られた音声ファイル(生成物)をメモリ22の再生ワークエリアにキャッシュする(ステップS122)。この音声ファイルを<データ3>とする。
【0068】
そして、データ処理部28は、再生ワークエリアにキャッシュされた音声ファイル(<データ1>、<データ2>、<データ3>)を分割した順序に従い結合し(ステップS123)、文面通りの音声ファイルを生成し、結合した音声ファイルをユーザPC1a〜1mのスピーカから再生する(ステップS124)。
【0069】
この音声を聞いたユーザが再生音声の発音を確認し、発音が間違っていた場合は、その音声ファイルの中間ファイル(テキストデータとアクセント記号)を表示した編集画面を表示し(ステップS126)、例えば「間違っている箇所のアクセント記号を訂正してください」等といったメッセージを表示してユーザの訂正を促し、ユーザがアクセント記号を訂正すると(ステップS127)、ステップS124の処理に戻り音声を再生する。
【0070】
ユーザが発音を確認した結果、発音が正しいものとして、画面の音声保存ボタンを選択操作すると(ステップS128)、データ処理部28は、保存先を指定するための画面を表示し、保存先が指定されると(ステップS129)、その指定されたユーザPC1a〜1mの保存先へ音声ファイルを転送し保存する(ステップS130)。
【0071】
その後、処理を継続するか否かに応じて処理を変える。例えば処理終了操作が行われなければ処理を継続するものとして(ステップS131のYes)、ステップS104の処理に戻り、次のテキスト入力を待機する。
【0072】
また、処理終了操作が行われると、処理を継続しないものとして(ステップS131のNo)、データ処理部28は、音声ファイルを履歴記録エリアであるキャッシュデータ保存部25に保存し(ステップS132)、保存先の情報(装置ID(サーバID+保存先インデックス)とテキストデータ(以下これを「語句」と称す)をセキリティ情報記憶部32に登録するとともに(ステップS133)、保存先の情報をネットワーク4上の他のアプリケーションサーバ2b〜2nへ配信し(ステップS134)、一連のテキスト/音声の変換処理を終了する。
【0073】
なお他のアプリケーションサーバ2b〜2nから音声ファイルの保存先の情報(リンク情報または装置ID(サーバID+保存先インデックス)と音声のデータ(テキストデータ))が配信されてきて、通信処理部27に受信された場合、登録部29はその受信された保存先の情報(リンク情報または装置ID(サーバID+保存先インデックス)と音声のデータ(テキストデータ))をセキュリティ情報記憶部32に登録する。
【0074】
ここで、
図3と
図6のフローチャートを参照して既存音声ファイル取得部26による既存音声ファイルの取得動作(ステップS108、ステップS108、ステップS117、ステップS18)の詳細について説明する。
【0075】
ここで、
図6のフローチャートを参照して既存音声ファイル取得動作の詳細を説明する。この場合、既存音声ファイル取得部26は、テキストデータをキーワードにしてセキリティ情報記憶部32の情報を検索し、ログインユーザのユーザID(ユーザ1)で変換済みの音声ファイルが登録されているか否か(音声ファイルが存在するか否か)をチェックする(
図6のステップS201)。
チェックの結果、既存の音声ファイルが存在しない場合(S201のNo)、音声合成を要求する(ステップS202)。
また上記チェックの結果、既存の音声ファイルがどこかしらの保存先に登録されている(音声ファイルが存在する)場合(S201のYes)、既存音声ファイル取得部26は、セキュリティ情報記憶部32の登録ユーザIDのセキュリティレベルに基づいて既存音声ファイルにアクセス可能なユーザの範囲(音声ファイルの公開レベル)を確定する。
【0076】
つまり既存音声ファイル取得部26は、選択範囲のテキストデータをキーワードにしてセキュリティ情報記憶部32を参照して、テキストデータと一致した音声のデータのセキュリティレベル、登録ユーザのユーザID、保存先などを取得し、ログインユーザがその人のユーザIDでどの程度の範囲までの音声ファイルにアクセス権があるか否かをチェックする。
【0077】
例えばログインしたユーザのユーザIDが「ユーザ1」であり、セキュリティ情報記憶部32から取得した登録ユーザのユーザIDが「ユーザ1」、セキュリティレベルが「1」であれば(S203のYes)、登録ユーザIDと一致したログインユーザでなければ、該音声ファイルに対してその保存先にアクセスできない。この場合、登録ユーザのユーザIDとログインユーザのユーザIDとが一致するため、既存音声ファイル取得部26は当該音声ファイルの保存先から音声ファイルを取得する(S204)。
【0078】
例えばログインしたユーザのユーザIDが「ユーザ1」であり、セキュリティレベルが「2」であれば(S205のYes)、ログインユーザが登録ユーザとは異なるクループに属していた場合は該音声ファイルにはアクセス不可であり、該音声ファイルを取得できない。
またログインしたユーザのユーザグループに属するユーザのユーザIDで登録されていた場合は、該音声ファイルに対してその保存先にアクセス可能であり、既存音声ファイル取得部26は当該音声ファイルの保存先から音声ファイルを取得する(S206)。
【0079】
セキュリティレベルが「3」であれば(S207のYes)、ログインしたユーザがログインしているサーバ内に登録されている音声ファイルに対してその保存先にアクセス可能であり、既存音声ファイル取得部26は当該音声ファイルの保存先から音声ファイルを取得する(S208)。
【0080】
例えばセキュリティレベルが「4」であれば(S209のYes)、ログインした全てのユーザがいずれかのアプリケーションサーバ2a〜2nに登録されている音声ファイルに対してその保存先にアクセス可能であり(S210)、既存音声ファイル取得部26は当該音声ファイルの保存先がこのサーバ内か他のサーバかを判定する(S211)。
【0081】
この判定の結果、該音声ファイルの保存先がこのサーバ内であれば(S211のYes)、キャッシュデータ保存部25から当該音声ファイルを読み出し取得する(S212)。
【0082】
また判定の結果、該音声ファイルの保存先が他のサーバであれば(S211のNo)、保存先のアプリケーションサーバに当該音声ファイルを要求し取得する(S213)。
【0083】
このようにして既存音声ファイル取得部26は、存在を確認した既存の音声ファイルに対するユーザのアクセス権の範囲で、選択範囲のテキストデータに対する既存の音声ファイルの保存先を特定し、特定した保存先から既存の音声ファイルを読み出し取得する。
【0084】
図3の例では、登録ユーザIDが例えば「ユーザ1」であり、音声のデータが例えば「特許」であれば、セキュリティレベルが「1」なので、登録ユーザのユーザID「ユーザ1」でログインしたユーザにしか、音声ファイルへのアクセス権がなく、他のログインユーザ「ユーザ2」や「ユーザ3」では音声ファイルを得られない。
【0085】
また登録ユーザIDが例えば「ユーザ3」であり、音声のデータが例えば「打ち合わせ」であれば、セキュリティレベルが「4」なので、登録されている音声ファイルにすべてのログインユーザがアクセスする権限があり、広い範囲での音声ファイルの取得が可能である。
【0086】
このようにこの実施形態によれば、アプリケーションサーバ2a(自機または自装置ともいう)に今までに蓄積された既存の音声ファイルだけでなく、ネットワーク4上の他のアプリケーションサーバ2b〜2n(他機または他装置ともいう)に蓄積された音声ファイルについてもその蓄積情報を共有しつつ既存の音声ファイルへのユーザのアクセス権を管理することで、ユーザのアクセス権に応じた既存音声ファイルの利用が可能なり、実務面で情報管理(通常の音声ファイルは広く利用させる一方で秘匿性の高い音声ファイルは引用(共用)させないなど)が可能になる。
すなわちユーザが以前に音声合成サーバ3に変換させた変換済みの音声ファイルをネットワーク4に接続された複数のアプリケーションサーバ2a〜2nで個別に保持しながらも各サーバ2a〜2nの音声データを安全に共有して利用することで、音声合成サーバ3の負荷を軽減しつつレスポンス速度を向上することができる。
【0087】
ネットワーク4上の複数のアプリケーションサーバ2a〜2nに変換済みの音声ファイルを分散して保管させることで、個々のアプリケーションサーバ2a〜2nの保存容量や処理性能を抑えることができ、装置の低コスト化を図ることができる。
【0088】
また音声変換を音声合成サーバ3に依頼することなく、複数のアプリケーションサーバ2a〜2nに蓄積されていた過去に変換済みの音声ファイルを利用することで、音声合成サーバ3の負荷軽減を図ると共に変換時間を短縮し、ユーザへのレスポンス速度を向上することができる。また音声合成サーバ3が変換処理するデータ量を低減することができる。さらに、修正箇所のミニマム化が図れ、最終的にユーザの音声変換作業の時間短縮につながる。
【0089】
すなわち音声データの保存に関する管理情報を音声変換支援装置にて共有することにより、当該装置を直ちに特定して検索することにより処理速度を向上させるとともに負荷低減を図ることができる。
【0090】
説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0091】
また上記実施形態に示した各構成要素を、コンピュータのハードディスク装置などのストレージにインストールしたプログラムで実現してもよく、また上記プログラムを、コンピュータ読取可能な電子媒体:electronic mediaに記憶しておき、プログラムを電子媒体からコンピュータに読み取らせることで本発明の機能をコンピュータが実現するようにしてもよい。電子媒体としては、例えばCD−ROM等の記録媒体やフラッシュメモリ、リムーバブルメディア:Removable media等が含まれる。さらに、ネットワークを介して接続した異なるコンピュータに構成要素を分散して記憶し、各構成要素を機能させたコンピュータ間で通信することで実現してもよい。