特許6246626 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝電機サービス株式会社の特許一覧

特許6246626音声合成システム、音声変換支援装置および音声変換支援方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6246626

(24)【登録日】2017年11月24日

(45)【発行日】2017年12月13日

(54)【発明の名称】音声合成システム、音声変換支援装置および音声変換支援方法

(51)【国際特許分類】

G10L 13/047 20130101AFI20171204BHJP

【ＦＩ】

G10L13/047 E

【請求項の数】8

【全頁数】15

(21)【出願番号】特願2014-48388(P2014-48388)

(22)【出願日】2014年3月12日

(65)【公開番号】特開2015-172657(P2015-172657A)

(43)【公開日】2015年10月1日

【審査請求日】2016年2月29日

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(73)【特許権者】

【識別番号】598076591

【氏名又は名称】東芝インフラシステムズ株式会社

(74)【代理人】

【識別番号】110001092

【氏名又は名称】特許業務法人サクラ国際特許事務所

(72)【発明者】

【氏名】町田淳

【審査官】冨澤直樹

(56)【参考文献】

【文献】特開２００６−０３０３２６（ＪＰ，Ａ）

【文献】特開２００５−０７０３０４（ＪＰ，Ａ）

【文献】特開２００８−２６８４７８（ＪＰ，Ａ）

【文献】特開２０００−２９３４５８（ＪＰ，Ａ）

【文献】特開平０２−０１５７６４（ＪＰ，Ａ）

【文献】特開２００２−１５６９８７（ＪＰ，Ａ）

【文献】特開２００４−１１７７７８（ＪＰ，Ａ）

【文献】特開平０７−１６０２９０（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１３／００−１３／１０

(57)【特許請求の範囲】

【請求項1】

テキストデータから音声データへの変換要求を行うユーザの端末と、前記テキストデータを音声データに変換する音声変換装置とにネットワークを介して接続され、前記端末からの前記テキストデータの変換要求に対して過去に該テキストデータの変換履歴がない場合に前記音声変換装置に前記テキストデータを変換させ、変換された音声データを前記端末へ送信する音声変換支援装置において、
前記音声変換装置により変換済の音声データとこの音声データと対応する変換元のテキストデータとが記憶された変換済音声データ記憶部と、
前記変換済音声データ毎に前記端末のユーザのアクセス権と保存先が登録されたアクセス権情報記憶部と、
前記端末から入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とを前記アクセス権情報記憶部から取得し、前記ユーザにアクセス権がある該音声データを自他の音声変換支援装置の保存先から取得する変換済音声データ取得部と、
前記変換済音声データ取得部により前記自他の音声変換支援装置から取得された該音声データをテスト再生するテスト再生部と、
前記テスト再生部によりテスト再生された音声データが正しいものとの指示を前記端末から受けた場合、前記テスト再生箇所を除いたテキストデータを前記音声変換装置に変換させて得られた音声データとテスト再生した過去に変換済みの音声データとを結合して前記端末へ送信する制御部と
を具備する音声変換支援装置。

【請求項2】

前記変換済音声データ記憶部に新たに登録した変換済の音声データの内容とその音声データへのユーザのアクセス権と登録したユーザの識別情報と保存先を前記ネットワーク上の他の音声変換支援装置へ配信する配信部をさらに具備する請求項１記載の音声変換支援装置。

【請求項3】

新規の音声データおよび前記ネットワーク上の他の音声変換支援装置から配信されてきた変換済の音声データへのユーザのアクセス権と登録したユーザの識別情報と保存先を前記アクセス権情報記憶部に登録する登録部をさらに具備する請求項１記載の音声変換支援装置。

【請求項4】

前記変換済音声データ取得部は、
前記ユーザにアクセス権がある音声データの保存先がこの装置内部の前記変換済音声データ記憶部であれば、前記音声データを前記変換済音声データ記憶部から取得し、前記保存先が前記ネットワーク上の他の音声変換支援装置の場合、前記他の音声変換支援装置に対して該音声データの取得要求を行うことで該音声データを取得する請求項１記載の音声変換支援装置。

【請求項5】

前記登録部は、
前記変換済の音声データに対して、異なるセキュリティレベルに区分されたユーザのアクセス権を前記アクセス権情報記憶部に設定する請求項３記載の音声変換支援装置。

【請求項6】

前記セキュリティレベルが、ユーザ毎、ユーザが属するグループ毎、音声変換支援装置毎のセキュリティレベルに区分されている請求項５記載の音声変換支援装置。

【請求項7】

テキストデータから音声データへの変換要求を行うユーザの端末と、前記テキストデータを音声データに変換する音声変換装置と、前記端末からの前記テキストデータの変換要求に対して過去に該テキストデータの変換履歴がない場合に前記音声変換装置に前記テキストデータを変換させ、変換された音声データを前記端末へ送信する音声変換支援装置とをネットワークを介して接続した音声合成システムにおいて、
前記音声変換装置は、
前記音声変換支援装置から変換要求を受けた前記テキストデータを音声データに変換して前記音声変換支援装置へ返す音声変換機能を備え、
前記音声変換支援装置は、
前記音声変換装置により変換済の音声データとこの音声データと対応する変換元のテキストデータとが記憶された変換済音声データ記憶部と、
前記変換済音声データ毎に前記端末のユーザのアクセス権と保存先が登録されたアクセス権情報記憶部と、
前記端末から入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とを前記アクセス権情報記憶部から取得し、前記ユーザにアクセス権がある該音声データを自他の音声変換支援装置の保存先から取得する変換済音声データ取得部と、
前記変換済音声データ取得部により前記自他の音声変換支援装置から取得された該音声データをテスト再生するテスト再生部と、
前記テスト再生部によりテスト再生された音声データが正しいものとの指示を前記端末から受けた場合、前記テスト再生箇所を除いたテキストデータを前記音声変換装置に変換させて得られた音声データとテスト再生した過去に変換済みの音声データとを結合して前記端末へ送信する制御部と
を具備する音声合成システム。

【請求項8】

テキストデータから音声データへの変換要求を行うユーザの端末と、前記テキストデータを音声データに変換する音声変換装置とにネットワークを介して接続され、前記端末からの前記テキストデータの変換要求に対して過去に該テキストデータの変換履歴がない場合に前記音声変換装置に前記テキストデータを変換させ、変換された音声データを前記端末へ送信する音声変換支援装置における音声変換支援方法において、
前記音声変換装置により変換済の音声データとこの音声データと対応する変換元のテキストデータとを変換済音声データ記憶部に記憶し、
前記変換済音声データ毎に前記端末のユーザのアクセス権と保存先をアクセス権情報記憶部に登録し、
前記端末から入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とを前記アクセス権情報記憶部から変換済音声データ取得部が取得し、前記ユーザにアクセス権がある該音声データを自他の音声変換支援装置の保存先から取得し、
前記自他の音声変換支援装置から取得された該音声データをテスト再生部がテスト再生し、
前記テスト再生部によりテスト再生された音声データが正しいものとの指示を制御部が前記端末から受けた場合、前記テスト再生箇所を除いたテキストデータを前記音声変換装置に変換させて得られた音声データとテスト再生した過去に変換済みの音声データとを結合して前記端末へ送信する音声変換支援方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、例えばテキスト（文字、記号等）、図形等のキャラクタを音声に変換するサービスに利用される音声合成システム、音声変換支援装置および音声変換支援方法に関する。

【背景技術】

【0002】

近年、例えばインターネットなどでは、文字を音声に変換するサービスが開始されており、このサービスには音声合成装置が利用されている。

【0003】

一般に、音声合成装置は、ユーザが端末から入力したテキストの文面（文字列）を音声合成波形データに変換し、音声信号または音声ファイルを端末へ返すものである。

【0004】

ところで、ユーザが入力したテキストが、例えばひらがななどの場合、同音異義語、つまり文面では同じであるが意味上の違いから発音が異なる単語があり、このような単語を含む文面に対して音声変換処理を実施した場合、ユーザの意図とは異なる発音の音声信号または音声ファイルが端末に返されることがある。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２００４−１１７７７８号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

この場合、ユーザは修正したテキストの再変換、つまり音声変換のやり直しを音声合成装置に行わせることになるが、このようなやり直しの処理は、音声合成装置に多大な負荷をかけるだけでなく、それ相応の時間を要することから、ユーザへのレスポンスが悪化する。

【0007】

本発明が解決しようとする課題は、ユーザが以前に音声合成装置に変換させた変換済みの音声データをネットワークに接続された複数の音声変換支援装置で個別に保持しながらも各装置の音声データを安全に共有して利用することで、音声合成装置の負荷を軽減しつつレスポンス速度を向上することができる音声変換システムおよび音声変換支援装置を提供することにある。

【課題を解決するための手段】

【0008】

実施形態の音声変換支援装置は、変換済音声データ記憶部、既存音声データ取得部、アクセス権情報記憶部、テスト再生部、制御部を備える。変換済音声データ記憶部には音声変換装置が変換済の音声データとこの音声データと対応する変換元のテキストデータとが記憶されている。アクセス権情報記憶部には変換済音声データ毎に端末のユーザのアクセス権と保存先が登録されている。変換済音声データ取得部は端末から入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とをアクセス権情報記憶部から取得し、ユーザがアクセス可能な該音声データを自他の音声変換支援装置の保存先から取得する。テスト再生部は変換済音声データ取得部により自他の音声変換支援装置から取得された該音声データをテスト再生する。制御部はテスト再生部によりテスト再生された音声データが正しいものとの指示を端末から受けた場合、テスト再生箇所を除いたテキストデータを音声変換装置に変換させて得られた音声データとテスト再生した過去に変換済みの音声データとを結合して端末へ送信する。

【図面の簡単な説明】

【0009】

【図1】実施形態の音声合成システムの全体の構成を示す図である。

【図2】アプリケーションサーバのブロック図である。

【図3】セキュリティ情報記憶部の記憶内容の一例を示す図である。

【図4】この音声合成システムの動作を示すフローチャートである。

【図5】この音声合成システムの動作を示すフローチャートである。

【図6】この音声合成システムの検索動作を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下、図面を参照して実施形態を詳細に説明する。図１は実施形態の音声合成システムの構成を示す図である。

【0011】

図１に示すように、この実施形態の音声合成システムは、サービス利用者（以下「ユーザ」と称す）が操作する端末であるコンピュータ１ａ〜１ｍ（以下「ユーザＰＣ１ａ〜１ｍ」と称す）、音声変換装置としてのコンピュータである音声合成サーバ３と、音声変換支援装置としてのコンピュータ２ａ〜２ｎ（以下「アプリケーションサーバ２ａ〜２ｎ」と称す）と、これらの機器を、ネットワーク４を介して接続されたものである。

【0012】

ユーザＰＣ１ａ〜１ｍは、アプリケーションサーバ２ａ〜２ｎに対してテキストデータから音声データへの変換要求を行う。音声合成サーバ３は、音声変換機能としての音声合成エンジンを搭載している。音声合成エンジンはアプリケーションサーバ２ａ〜２ｎからの変換要求を受けてアプリケーションサーバ２ａ〜２ｎから受け取ったテキストデータを音声データに変換し、要求元のアプリケーションサーバ２ａ〜２ｎへ返す。

【0013】

詳細には、音声合成サーバ３は、アプリケーションサーバ２ａ〜２ｎから送られてきた中間ファイル（テキストデータとアクセント記号のペア（組））を音声データ（以下「音声ファイル」と称す）に変換してアプリケーションサーバ２ａ〜２ｎに戻す。

【0014】

アプリケーションサーバ２ａ〜２ｎは、ユーザＰＣ１ａ〜１ｍと音声合成サーバ３とにネットワーク４を介して接続されている。アプリケーションサーバ２ａ〜２ｎは、音声合成サーバ３とユーザＰＣ１ａ〜１ｍとの間に介在してテキストデータ、中間ファイルおよび音声ファイルのやりとりを行う。

【0015】

詳細には、アプリケーションサーバ２ａ〜２ｎは、ユーザＰＣ１ａ〜１ｍからのテキストデータの変換要求に対して過去に該テキストデータの変換履歴がない場合に音声合成サーバ３にテキストデータを変換させ、音声合成サーバ３により変換された音声データをユーザＰＣ１ａ〜１ｍへ送信する。

【0016】

ネットワーク４に接続された複数のアプリケーションサーバ２ａ〜２ｎのうち、図２に示すように、例えばアプリケーションサーバ２ａは、グラフィックユーザインターフェース部２１（以下「ＧＵＩ部２１」と称す）、メモリ２２、中間ファイル生成部２３、キャッシュされた既存の音声データのアクセス権を管理するためのアクセス権記憶部としてのセキュリティ情報記憶部３２、変換済音声データ記憶部としてのキャッシュデータ保存部２５、既存音声ファイル取得部２６、通信処理部２７、データ処理部２８、登録部２９、テスト再生部３０、配信部３１などを有する。

【0017】

なお他のアプリケーションサーバ２ｂ〜２ｎもアプリケーションサーバ２ａと同様の構成を有するため、以下では代表してアプリケーションサーバ２ａの構成について説明する。

【0018】

アプリケーションサーバ２ａは、ユーザＰＣ１ａ〜１ｍから入力されたテキストデータをキーワード（検索キー）にしてセキュリティ情報記憶部３２の情報を利用してキャッシュデータ保存部２５にキャッシュ（記憶）された音声ファイルを取得し、音声合成サーバ３に音声合成を要求することなく要求元であるユーザＰＣ（ユーザＰＣ１ａ〜１ｍのいずれか）に返す。

【0019】

すなわち、アプリケーションサーバ２ａは、キーワードに対応する既存の音声ファイルが自他すべてのアプリケーションサーバ２ａ〜２ｎにキャッシュされているか否かをチェックし、既存の音声ファイルがキャッシュされていればその音声ファイルを該当保存先から取得しユーザＰＣ１ａ〜１ｍへ送る。

【0020】

また、アプリケーションサーバ２ａは、既存の音声ファイルがどこにもキャッシュされていない場合に、ユーザＰＣ１ａ〜１ｍから入力されたテキストデータを音声合成サーバ３へ出力（音声合成要求）し、このテキストデータに対する応答として音声合成サーバ３にて変換（音声合成）された音声ファイルを取得しユーザＰＣ１ａ〜１ｍへ送る。

【0021】

ＧＵＩ部２１は、ユーザＰＣ１ａ〜１ｍからアプリケーションサーバ２ａにログインするための画面、検索画面、登録画面などを表示し、ユーザＰＣ１ａ〜１ｍからの音声合成要求、テキストデータの入力などを受け付けるとともに、要求に対する応答として音声ファイルをユーザＰＣ１ａ〜１ｍへ送る。ＧＵＩ部２１は、例えば検索画面において、ユーザＰＣ１ａ〜１ｍから新たに入力された変換対象のテキストデータのうち指定されたテスト再生箇所を受け付ける受付部として機能する。

【0022】

つまり、ＧＵＩ部２１は、ユーザＰＣ１ａ〜１ｍとアプリケーションサーバ２ａとの間の入出力インターフェースを実現するものである。

【0023】

メモリ２２は、データ処理部２８、既存音声ファイル取得部２６および登録部２９などがそれぞれの処理を実行する際のワークエリア、変換要求する際に作成された中間ファイルの一時記憶エリアとして利用される。

【0024】

中間ファイル生成部２３は、ユーザＰＣ１ａ〜１ｍから入力された変換対象のテキストデータを単語または文節の単位に分割し、分割したテキストデータのうちキャッシュされていないもの、またはテスト再生でユーザにより発音が正しくないものと指示されたものをキーワードにして音声変換用の登録辞書４２を参照して、対応するアクセント記号を登録辞書４２から読み出してテキストデータとアクセント記号とのペア（組）の中間ファイルを生成し、音声合成サーバ３への変換要求のためのデータとしてメモリ２２に記憶する。この中間ファイルは、音声合成用の元データとして音声合成サーバ３へ送信される。

【0025】

なお、既にユーザの承認を受け、変換不要（確定済）のフラグが付されたテキストデータについては、音声変換をしないため中間ファイルも生成しない。

【0026】

キャッシュデータ保存部２５には、以前（過去）に変換されたファイル（音声データのファイル、テキストデータのファイル、中間データのファイルなど）が保存されている。

【0027】

つまりキャッシュデータ保存部２５には、音声合成サーバ３により変換済の音声データとこの音声データと対応する変換元のテキストデータとが記憶されている。

【0028】

図３に示すように、セキュリティ情報記憶部３２には、音声ファイルの登録順序を示すインデックス（番号）と、音声ファイルを登録したユーザを識別するための情報である登録ユーザＩＤと、音声ファイルの内容（音声ファイルの変換元のテキストデータ）と、音声ファイルの公開レベル（アクセス可能なユーザやサーバ）を示すセキュリティレベルと、保存先とが対応して記憶されている。

【0029】

セキュリティレベル（安全性の度合いまたは値）は、例えば「１」〜「４」などの異なるレベルで設定されている。セキュリティレベル「１」はセキュリティが最も高く、音声ファイルを登録したユーザＩＤのユーザだけがその音声ファイルにアクセス可能というアクセス権限である。

【0030】

セキュリティレベル「２」はセキュリティが２番目に高く、予め登録されたユーザが属するグループのユーザだけがその音声ファイルにアクセス可能というアクセス権限である。ログインユーザと音声ファイルを登録したユーザＩＤのユーザとが同じグループに属していない場合はログインユーザには既存の音声ファイルへのアクセス権がない。

【0031】

セキュリティレベル「３」はセキュリティが３番目に高く、ログインユーザはログイン中のアプリケーションサーバ内にある音声ファイルにだけアクセスする権限である。

【0032】

セキュリティレベル「４」はセキュリティが一番低く、すべてのユーザが本サーバまたはネットワーク４に接続された他のアプリケーションサーバの音声ファイルにアクセス可能である。

【0033】

保存先は音声ファイルの保存先を示すサーバのＩＤと保存先インテックスを含む。保存先インテックスとは格納場所の番号などである。この例の場合、インデックス１に登録さていれる登録先「１−１」は１番サーバの１番目の格納場所に音声ファイルが登録されていることを示している。この他、保存先としては例えばディレクトリ、リンク先などであってもよい。

【0034】

すなわちセキュリティ情報記憶部３２は、音声データ毎に各ユーザＰＣ１ａ〜１ｍのユーザの音声ファイルへのアクセス権（セキュリティレベルと登録ユーザＩＤ）と保存先が設定されたアクセス権情報記憶部である。

【0035】

既存音声ファイル取得部２６は、ユーザＰＣ１ａ〜１ｍから入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声ファイルの保存先とユーザのセキュリティレベルと登録ユーザＩＤとをセキュリティ情報記憶部３２から取得する。

【0036】

そして取得した保存先がこのアプリケーションサーバ２ａ内のキャッシュデータ保存部２５の場合、既存音声ファイル取得部２６は音声ファイルの取得先をキャッシュデータ保存部２５としてキャッシュデータ保存部２５から該音声ファイルを読み出し取得する。

【0037】

また取得した既存音声ファイルの保存先がネットワーク４上の他のアプリケーションサーバ２ｂ〜２ｎの場合、既存音声ファイル取得部２６はその外部のアプリケーションサーバ２ｂ〜２ｎに対して該音声ファイルの取得要求を行い、該音声ファイルを取得する。

【0038】

詳細には、既存音声ファイル取得部２６は、ＧＵＩ部２１がユーザＰＣ１ａ〜１ｍに表示する画面において、ユーザＰＣ１ａ〜１ｍから入力されたテキストデータのうちテスト再生箇所が指定された場合、ＧＵＩ部２１により受け付けられたテスト再生箇所の過去の変換済みデータ、つまり変換済みの音声ファイル（音声データ）がどのアプリケーションサーバ２ａ〜２ｎのキャッシュデータ保存部２５に存在するか否かをチェックする。

【0039】

テスト再生部３０は、既存音声ファイル取得部２６によりキャッシュデータ保存部２５から取得された該音声ファイル、または他のアプリケーションサーバ２ｂ〜２ｎから取得された該音声ファイルをテスト再生する。

【0040】

通信処理部２７は、音声合成サーバ３との間で、ＴＣＰ（ＨＴＴＰ）通信により、データのやりとりを行う。

【0041】

データ処理部２８は、既存音声ファイル取得部２６により取得された既存の音声ファイルを、通信処理部２７を通じて変換要求元のユーザＰＣ１ａ〜１ｍへ転送する。

【0042】

ユーザＰＣ１ａ〜１ｍの画面において、テスト再生部３０によりテスト再生されたテスト再生箇所の音声データの発音が正しいものとの指示をユーザが行い、その指示をデータ処理部２８がユーザＰＣ１ａ〜１ｍから受けた場合、データ処理部２８は、テスト再生箇所を除いたテキストデータを音声合成サーバ３に変換させて得られた音声データとテスト再生した既存の音声データとを結合して要求元のユーザＰＣ１ａ〜１ｍへ送信（返却）する制御部として機能する。

【0043】

すなわちデータ処理部２８は、テスト再生された音声ファイルが正しいものとの指示をユーザＰＣ１ａ〜１ｍから受けた場合、テスト再生箇所を除いたテキストデータを音声合成サーバ３に変換させて得られた音声ファイルとテスト再生した過去に変換済みの既存音声ファイルとを結合して要求元のユーザＰＣ１ａ〜１ｍへ送信する。

【0044】

セキュリティ情報記憶部３２にキーワードと一致する音声のデータ（テキストデータ）が存在せず、既存音声ファイル取得部２６により既存の音声ファイルが取得されない場合、データ処理部２８は、入力されたテキストデータを基に中間ファイル生成部２３により生成されメモリ２２に記憶された中間ファイルを音声合成サーバ３へ送り、音声合成サーバ３により変換（音声合成）された音声ファイルを要求元のユーザＰＣ１ａ〜１ｍへ転送（送信）する。なお中間ファイルではなく入力されたテキストデータを送ってもよい。

【0045】

登録部２９は、ＧＵＩ部２１により表示される辞書登録画面にて、メモリ２２内のユーザＩＤ毎の登録辞書４２にユーザが独自に入力または編集した情報（音声データとテキストデータとアクセント記号）を登録する。

【0046】

また登録部２９は変換済の音声ファイルの保存先（このサーバ内の場合はキャッシュデータ保存部２５を示す保存先インデックスなど）、登録者の識別情報であるユーザＩＤ（登録ユーザＩＤ）、セキュリティレベル（ユーザのアクセス権のレベル）を指定してセキュリティ情報記憶部３２に保存する。

【0047】

すなわち登録部２９は既存音声ファイルの内容（テキスト）とその音声ファイルへのユーザのアクセス権と登録したユーザの識別情報と保存先と対応付けて登録する。登録部２９は既存の音声ファイルに対して、異なるセキュリティレベル（セキュリティレベル「１」〜「４」など）に区分されたユーザのアクセス権をアクセス権情報記憶部に設定する。

【0048】

登録ユーザＩＤはログイン時に入力されており、保存先インデックスも固定されていれば、それらの情報を予めセキュリティ情報記憶部３２に設定しておいてもよい。

【0049】

また登録部２９はネットワーク４上の他のアプリケーションサーバ２ｂ〜２ｎから配信されてきた音声ファイルの保存先の情報（音声ファイルの保存先、登録ユーザＩＤ、音声ファイルのセキュリティレベル）をセキュリティ情報記憶部３２に登録する（図３参照）。

【0050】

配信部３１はキャッシュデータ保存部２５に新たに登録された音声ファイルの保存先の情報をセキュリティ情報記憶部３２から読み出してネットワーク４上の他のアプリケーションサーバ２ｂ〜２ｎへ配信する。すなわち配信部３１は既存音声ファイルの内容（テキスト）とその音声ファイルへのユーザのアクセス権と登録したユーザの識別情報と保存先とを配信する。

【0051】

メモリ２２にはユーザＩＤ毎の登録辞書４２が記憶されている。この他、メモリ２２にはユーザＩＤ毎の変換履歴、このアプリケーションサーバ２のすべてのユーザの使用履歴などが記憶されている。このアプリケーションサーバ２にログインしたユーザ一人の変換履歴を第１変換履歴という。このアプリケーションサーバ２にログインした複数のユーザ（例えば今までログインした全てのユーザといってもよい）の変換履歴を第２変換履歴という。

【0052】

ユーザＩＤ毎の登録辞書４２には、ユーザが独自に登録したテキストデータ（これを「テキスト」という）と、テキストとそのアクセスト記号のペア（組）である中間ファイルと、これらのデータに対応する音声ファイルの保存先を示す保存先インデックスとが記憶されている。

【0053】

このユーザＩＤ毎の登録辞書４２は、既存音声ファイル取得部２６がキャッシュデータを検索するときに初めに参照される。この登録辞書の中での参照順位は第１順位が中間ファイル、第２順位がテキストである。
保存先として登録される情報は、例えばサーバ自体の内部であればキャッシュデータ保存部２５のディレクトリ、ネットワーク４に接続された他のサーバであれば、そのサーバのリンク情報かＵＲＬまたはサーバの保存先を識別するための識別情報である装置ＩＤ（サーバＩＤ+保存先インデックス）などである。

【0054】

次に、図４〜図６のフローチャートを参照してこの実施形態の音声合成システムに動作を説明する。まず図４および図５のフローチャートを参照してこのシステム全体の動作を説明する。
この実施形態の音声合成システムの場合、ユーザがユーザＰＣ１ａ〜１ｍから所定のＵＲＬを入力し、アプリケーションサーバ２にアクセスすると、ＧＵＩ部２１はログイン画面をユーザＰＣ１ａ〜１ｍに表示するので、ユーザは表示されたログイン画面の入力欄に、ログインＩＤ、例えば「ユーザ１」などのログイン情報を入力する（図４のステップＳ１０１）。この他、ログイン情報としてパスワードなども入力する場合がある。

【0055】

すると、ＧＵＩ部２１は入力されたログイン情報をメモリ２２のユーザＩＤテーブル４１のユーザＩＤと照合することで、ログイン情報が登録済みか否かを判定し（ステップＳ１０２）、ログイン情報が登録済みの場合（ステップＳ１０２のＹｅｓ）、アプリケーションサーバ２へのログインを許可し、音声変換画面を表示する（ステップＳ１０３）。

【0056】

ユーザが、音声変換画面の文字入力欄にカーソルを移動し、キー入力により変換対象の文字（テキストデータ）を入力すると（ステップＳ１０４）、ＧＵＩ部２１はその入力を受け付け、入力されたテキストデータを文字入力欄に表示する（ステップＳ１０５）。

【0057】

そして、音声変換画面に表示されている音声ファイル作成指示のためのボタンが押下されると（ステップＳ１０６のＹｅｓ）、音声ファイル作成処理のルーチンへ進む。

【0058】

一方、文字入力欄に表示されているテキストデータのうちテスト再生箇所をユーザが範囲指定などの操作（マウスのドラッグ操作など）により指定され、音声変換画面に表示されているテスト再生ボタンが押下されると（ステップＳ１０７のＹｅｓ）、ＧＵＩ部２１はテスト再生ボタンの押下を受け付け、既存音声ファイル取得部２６に通知する。

【0059】

既存音声ファイル取得部２６は、既存の音声ファイルがこの装置内の保存先（メモリ２２またはキャッシュデータ保存部２５など）に存在するか否か（有無）をチェックし、既存の音声ファイルが存在する場合はその保存先から既存の音声ファイルを取得する（ステップＳ１０８）。

【0060】

より詳細には、既存音声ファイル取得部２６は、変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とをセキュリティ情報記憶部３２から取得し、ユーザがアクセス可能な該音声データを自他の音声変換支援装置の保存先（この場合、キャッシュデータ保存部２５）から取得し（ステップＳ１０９）、メモリ２２の再生ワークエリアにキャッシュする（ステップＳ１１０）。この音声ファイルを＜データ１＞とする。

【0061】

テスト再生部３０は、既存音声ファイル取得部２６による検索の結果、既存のファイルが存在した場合、再生ワークエリアにキャッシュされたテスト再生箇所の既存の音声ファイルを読み出してユーザＰＣ１ａ〜１ｍのスピーカから音声を再生する（ステップＳ１１１）。

【0062】

この音声を聞いたユーザが発音を確認し、発音が正しいものとして音声変換画面の「ＯＫ」等のボタンを選択操作すると（ステップＳ１１２のＹｅｓ）、データ処理部２８は、テスト再生された部分のテキストデータを確定し（ステップＳ１１３）、確定したテキストデータに変換不要のフラグを付す。テスト再生すべき次のテキストデータがあれば、Ｓ１０４の処理に戻り上記の処理繰り返す。

【0063】

このようにしてテスト再生すべき次のテキストデータがなくなり、テスト再生箇所すべてのテスト再生が終了し、音声ファイル作成指示のためのボタンが押下されると（ステップＳ１１５）、データ処理部２８は、文字入力欄に入力された文面のテキストデータを単語または文節単位に分割し（ステップＳ１１６）、分割した単位でテキストデータを既存音声ファイル取得部２６に渡し、分割単位に既存音声ファイルがこの装置内のキャッシュデータ保存部２５に保存されているか否かをチェックし（ステップＳ１１７）既存音声ファイルが存在すればそれを取得する。

【0064】

なお、既存音声ファイルを取得動作の詳細については後述の図６で説明する。また、この場合、既にユーザから承認を受け、変換不要（確定済）のフラグが付されているテスト再生済のテキストデータについては、音声へ変換しないため既存音声ファイルの取得は不要である。

【0065】

既存音声ファイル取得部２６は、キャッシュデータ保存部２５から取得した音声ファイルをメモリ２２の再生ワークエリアにキャッシュする（ステップＳ１１９）。この音声ファイルを＜データ２＞とする。

【0066】

また上記既存音声ファイルを取得動作の結果、既存音声ファイルがこの装置内に存在しない場合（ステップＳ１１８のＮｏ）、データ処理部２８は、検索した分割テキストデータの中間ファイルを生成した上で音声合成サーバ３へ転送し（ステップＳ１２０）、音声合成サーバ３により変換された音声ファイルを取得する（ステップＳ１２１）。

【0067】

そして、得られた音声ファイル（生成物）をメモリ２２の再生ワークエリアにキャッシュする（ステップＳ１２２）。この音声ファイルを＜データ３＞とする。

【0068】

そして、データ処理部２８は、再生ワークエリアにキャッシュされた音声ファイル（＜データ１＞、＜データ２＞、＜データ３＞）を分割した順序に従い結合し（ステップＳ１２３）、文面通りの音声ファイルを生成し、結合した音声ファイルをユーザＰＣ１ａ〜１ｍのスピーカから再生する（ステップＳ１２４）。

【0069】

この音声を聞いたユーザが再生音声の発音を確認し、発音が間違っていた場合は、その音声ファイルの中間ファイル（テキストデータとアクセント記号）を表示した編集画面を表示し（ステップＳ１２６）、例えば「間違っている箇所のアクセント記号を訂正してください」等といったメッセージを表示してユーザの訂正を促し、ユーザがアクセント記号を訂正すると（ステップＳ１２７）、ステップＳ１２４の処理に戻り音声を再生する。

【0070】

ユーザが発音を確認した結果、発音が正しいものとして、画面の音声保存ボタンを選択操作すると（ステップＳ１２８）、データ処理部２８は、保存先を指定するための画面を表示し、保存先が指定されると（ステップＳ１２９）、その指定されたユーザＰＣ１ａ〜１ｍの保存先へ音声ファイルを転送し保存する（ステップＳ１３０）。

【0071】

その後、処理を継続するか否かに応じて処理を変える。例えば処理終了操作が行われなければ処理を継続するものとして（ステップＳ１３１のＹｅｓ）、ステップＳ１０４の処理に戻り、次のテキスト入力を待機する。

【0072】

また、処理終了操作が行われると、処理を継続しないものとして（ステップＳ１３１のＮｏ）、データ処理部２８は、音声ファイルを履歴記録エリアであるキャッシュデータ保存部２５に保存し（ステップＳ１３２）、保存先の情報（装置ＩＤ（サーバＩＤ＋保存先インデックス）とテキストデータ（以下これを「語句」と称す）をセキリティ情報記憶部３２に登録するとともに（ステップＳ１３３）、保存先の情報をネットワーク４上の他のアプリケーションサーバ２ｂ〜２ｎへ配信し（ステップＳ１３４）、一連のテキスト／音声の変換処理を終了する。

【0073】

なお他のアプリケーションサーバ２ｂ〜２ｎから音声ファイルの保存先の情報（リンク情報または装置ＩＤ（サーバＩＤ＋保存先インデックス）と音声のデータ（テキストデータ））が配信されてきて、通信処理部２７に受信された場合、登録部２９はその受信された保存先の情報（リンク情報または装置ＩＤ（サーバＩＤ＋保存先インデックス）と音声のデータ（テキストデータ））をセキュリティ情報記憶部３２に登録する。

【0074】

ここで、図３と図６のフローチャートを参照して既存音声ファイル取得部２６による既存音声ファイルの取得動作（ステップＳ１０８、ステップＳ１０８、ステップＳ１１７、ステップＳ１８）の詳細について説明する。

【0075】

ここで、図６のフローチャートを参照して既存音声ファイル取得動作の詳細を説明する。この場合、既存音声ファイル取得部２６は、テキストデータをキーワードにしてセキリティ情報記憶部３２の情報を検索し、ログインユーザのユーザＩＤ（ユーザ１）で変換済みの音声ファイルが登録されているか否か（音声ファイルが存在するか否か）をチェックする（図６のステップＳ２０１）。
チェックの結果、既存の音声ファイルが存在しない場合（Ｓ２０１のＮｏ）、音声合成を要求する（ステップＳ２０２）。
また上記チェックの結果、既存の音声ファイルがどこかしらの保存先に登録されている（音声ファイルが存在する）場合（Ｓ２０１のＹｅｓ）、既存音声ファイル取得部２６は、セキュリティ情報記憶部３２の登録ユーザＩＤのセキュリティレベルに基づいて既存音声ファイルにアクセス可能なユーザの範囲（音声ファイルの公開レベル）を確定する。

【0076】

つまり既存音声ファイル取得部２６は、選択範囲のテキストデータをキーワードにしてセキュリティ情報記憶部３２を参照して、テキストデータと一致した音声のデータのセキュリティレベル、登録ユーザのユーザＩＤ、保存先などを取得し、ログインユーザがその人のユーザＩＤでどの程度の範囲までの音声ファイルにアクセス権があるか否かをチェックする。

【0077】

例えばログインしたユーザのユーザＩＤが「ユーザ１」であり、セキュリティ情報記憶部３２から取得した登録ユーザのユーザＩＤが「ユーザ１」、セキュリティレベルが「１」であれば（Ｓ２０３のＹｅｓ）、登録ユーザＩＤと一致したログインユーザでなければ、該音声ファイルに対してその保存先にアクセスできない。この場合、登録ユーザのユーザＩＤとログインユーザのユーザＩＤとが一致するため、既存音声ファイル取得部２６は当該音声ファイルの保存先から音声ファイルを取得する（Ｓ２０４）。

【0078】

例えばログインしたユーザのユーザＩＤが「ユーザ１」であり、セキュリティレベルが「２」であれば（Ｓ２０５のＹｅｓ）、ログインユーザが登録ユーザとは異なるクループに属していた場合は該音声ファイルにはアクセス不可であり、該音声ファイルを取得できない。
またログインしたユーザのユーザグループに属するユーザのユーザＩＤで登録されていた場合は、該音声ファイルに対してその保存先にアクセス可能であり、既存音声ファイル取得部２６は当該音声ファイルの保存先から音声ファイルを取得する（Ｓ２０６）。

【0079】

セキュリティレベルが「３」であれば（Ｓ２０７のＹｅｓ）、ログインしたユーザがログインしているサーバ内に登録されている音声ファイルに対してその保存先にアクセス可能であり、既存音声ファイル取得部２６は当該音声ファイルの保存先から音声ファイルを取得する（Ｓ２０８）。

【0080】

例えばセキュリティレベルが「４」であれば（Ｓ２０９のＹｅｓ）、ログインした全てのユーザがいずれかのアプリケーションサーバ２ａ〜２ｎに登録されている音声ファイルに対してその保存先にアクセス可能であり（Ｓ２１０）、既存音声ファイル取得部２６は当該音声ファイルの保存先がこのサーバ内か他のサーバかを判定する（Ｓ２１１）。

【0081】

この判定の結果、該音声ファイルの保存先がこのサーバ内であれば（Ｓ２１１のＹｅｓ）、キャッシュデータ保存部２５から当該音声ファイルを読み出し取得する（Ｓ２１２）。

【0082】

また判定の結果、該音声ファイルの保存先が他のサーバであれば（Ｓ２１１のＮｏ）、保存先のアプリケーションサーバに当該音声ファイルを要求し取得する（Ｓ２１３）。

【0083】

このようにして既存音声ファイル取得部２６は、存在を確認した既存の音声ファイルに対するユーザのアクセス権の範囲で、選択範囲のテキストデータに対する既存の音声ファイルの保存先を特定し、特定した保存先から既存の音声ファイルを読み出し取得する。

【0084】

図３の例では、登録ユーザＩＤが例えば「ユーザ１」であり、音声のデータが例えば「特許」であれば、セキュリティレベルが「１」なので、登録ユーザのユーザＩＤ「ユーザ１」でログインしたユーザにしか、音声ファイルへのアクセス権がなく、他のログインユーザ「ユーザ２」や「ユーザ３」では音声ファイルを得られない。

【0085】

また登録ユーザＩＤが例えば「ユーザ３」であり、音声のデータが例えば「打ち合わせ」であれば、セキュリティレベルが「４」なので、登録されている音声ファイルにすべてのログインユーザがアクセスする権限があり、広い範囲での音声ファイルの取得が可能である。

【0086】

このようにこの実施形態によれば、アプリケーションサーバ２ａ（自機または自装置ともいう）に今までに蓄積された既存の音声ファイルだけでなく、ネットワーク４上の他のアプリケーションサーバ２ｂ〜２ｎ（他機または他装置ともいう）に蓄積された音声ファイルについてもその蓄積情報を共有しつつ既存の音声ファイルへのユーザのアクセス権を管理することで、ユーザのアクセス権に応じた既存音声ファイルの利用が可能なり、実務面で情報管理（通常の音声ファイルは広く利用させる一方で秘匿性の高い音声ファイルは引用（共用）させないなど）が可能になる。
すなわちユーザが以前に音声合成サーバ３に変換させた変換済みの音声ファイルをネットワーク４に接続された複数のアプリケーションサーバ２ａ〜２ｎで個別に保持しながらも各サーバ２ａ〜２ｎの音声データを安全に共有して利用することで、音声合成サーバ３の負荷を軽減しつつレスポンス速度を向上することができる。

【0087】

ネットワーク４上の複数のアプリケーションサーバ２ａ〜２ｎに変換済みの音声ファイルを分散して保管させることで、個々のアプリケーションサーバ２ａ〜２ｎの保存容量や処理性能を抑えることができ、装置の低コスト化を図ることができる。

【0088】

また音声変換を音声合成サーバ３に依頼することなく、複数のアプリケーションサーバ２ａ〜２ｎに蓄積されていた過去に変換済みの音声ファイルを利用することで、音声合成サーバ３の負荷軽減を図ると共に変換時間を短縮し、ユーザへのレスポンス速度を向上することができる。また音声合成サーバ３が変換処理するデータ量を低減することができる。さらに、修正箇所のミニマム化が図れ、最終的にユーザの音声変換作業の時間短縮につながる。

【0089】

すなわち音声データの保存に関する管理情報を音声変換支援装置にて共有することにより、当該装置を直ちに特定して検索することにより処理速度を向上させるとともに負荷低減を図ることができる。

【0090】

説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【0091】

また上記実施形態に示した各構成要素を、コンピュータのハードディスク装置などのストレージにインストールしたプログラムで実現してもよく、また上記プログラムを、コンピュータ読取可能な電子媒体：electronic mediaに記憶しておき、プログラムを電子媒体からコンピュータに読み取らせることで本発明の機能をコンピュータが実現するようにしてもよい。電子媒体としては、例えばＣＤ−ＲＯＭ等の記録媒体やフラッシュメモリ、リムーバブルメディア：Removable media等が含まれる。さらに、ネットワークを介して接続した異なるコンピュータに構成要素を分散して記憶し、各構成要素を機能させたコンピュータ間で通信することで実現してもよい。

【符号の説明】

【0092】

１ａ〜１ｍ…ユーザＰＣ、２ａ〜２ｎ…アプリケーションサーバ、３…音声合成サーバ３１…グラフィックユーザインターフェース部（ＧＵＩ部）、２２…メモリ、２３…中間ファイル生成部、２５…キャッシュデータ保存部、２６…既存音声ファイル取得部、２７…通信処理部、２８…データ処理部、２９…登録部、３０…テスト再生部、３２…セキュリティ情報記憶部、４２…ユーザＩＤ毎の登録辞書。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第6246626号(P6246626)IP Force 特許公報掲載プロジェクト 2022.1.31 β版