特許第6415929号(P6415929)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特許6415929音声合成装置、音声合成方法およびプログラム
<>
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000002
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000003
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000004
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000005
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000006
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000007
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000008
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000009
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000010
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000011
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000012
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000013
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000014
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000015
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000016
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000017
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000018
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000019
  • 特許6415929-音声合成装置、音声合成方法およびプログラム 図000020
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6415929
(24)【登録日】2018年10月12日
(45)【発行日】2018年10月31日
(54)【発明の名称】音声合成装置、音声合成方法およびプログラム
(51)【国際特許分類】
   G10L 13/10 20130101AFI20181022BHJP
【FI】
   G10L13/10 113C
   G10L13/10 113Z
【請求項の数】11
【全頁数】25
(21)【出願番号】特願2014-221770(P2014-221770)
(22)【出願日】2014年10月30日
(65)【公開番号】特開2016-90664(P2016-90664A)
(43)【公開日】2016年5月23日
【審査請求日】2017年3月28日
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(73)【特許権者】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】平野 薫
(72)【発明者】
【氏名】鈴木 優
(72)【発明者】
【氏名】水谷 博之
【審査官】 間宮 嘉誉
(56)【参考文献】
【文献】 特開2002−268664(JP,A)
【文献】 特開平9−160583(JP,A)
【文献】 特開2012−252200(JP,A)
【文献】 特開2009−186498(JP,A)
【文献】 特開2013−73275(JP,A)
【文献】 特開2004−325692(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−13/10
Science Direct
IEEE Xplore
Scopus
(57)【特許請求の範囲】
【請求項1】
音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部に登録されている複数の前記コンテンツの中から、選択コンテンツを決定するコンテンツ選択部と、
前記選択コンテンツに含まれる前記タグ付きテキストの前記タグ情報を、指定されたテキストに適用して新たな前記コンテンツを生成するコンテンツ生成部と、
生成された新たな前記コンテンツを前記コンテンツ記憶部に登録するコンテンツ登録部と、を備え
前記コンテンツ登録部は、前記コンテンツ記憶部に予め登録された目印となる前記コンテンツであるマーカコンテンツとの類似度に応じて、生成された前記コンテンツを前記マーカコンテンツと関連付けて前記コンテンツ記憶部に登録し、
前記コンテンツ選択部は、
前記マーカコンテンツの一覧を提示するマーカコンテンツ提示部と、
前記マーカコンテンツの一覧の中から選択された前記マーカコンテンツに関連付けられた前記コンテンツである関連コンテンツの一覧を提示する関連コンテンツ提示部と、
前記関連コンテンツの一覧の中から選択された前記関連コンテンツを、前記選択コンテンツとして決定する第1の選択コンテンツ決定部と、を備える、音声合成装置。
【請求項2】
前記関連コンテンツ提示部は、複数の前記関連コンテンツを前記マーカコンテンツに対する類似度に応じた並び順で並べた前記関連コンテンツの一覧を提示する、請求項に記載の音声合成装置。
【請求項3】
前記関連コンテンツ提示部は、複数の前記関連コンテンツを過去に前記選択コンテンツとして決定された回数に応じた並び順で並べた前記関連コンテンツの一覧を提示する、請求項に記載の音声合成装置。
【請求項4】
前記コンテンツ選択部は、
前記マーカコンテンツに含まれる合成音声の音声波形、または前記関連コンテンツに含まれる合成音声の音声波形を再生する第1の再生部をさらに備える、請求項のいずれか一項に記載の音声合成装置。
【請求項5】
前記コンテンツは、前記タグ付きテキストと、当該タグ付きテキストに対応する合成音声の音声波形とを含み、
前記コンテンツ生成部は、
前記選択コンテンツに含まれる前記タグ付きテキストから前記タグ情報を抽出するタグ情報抽出部と、
前記タグ情報抽出部が抽出した前記タグ情報を、指定されたテキストに適用して前記タグ付きテキストを生成するタグ付きテキスト生成部と、
音声合成辞書を用いて、前記タグ付きテキスト生成部が生成した前記タグ付きテキストに対応する合成音声の音声波形を生成する音声波形生成部と、を備え、
前記コンテンツ登録部は、前記タグ付きテキスト生成部により生成された前記タグ付きテキストと、前記音声波形生成部により生成された前記音声波形とを含む新たな前記コンテンツを前記コンテンツ記憶部に登録する、請求項1〜4のいずれか一項に記載の音声合成装置。
【請求項6】
前記コンテンツ生成部は、
前記音声波形生成部が生成した合成音声の音声波形を再生する第2の再生部をさらに備える、請求項に記載の音声合成装置。
【請求項7】
前記コンテンツ生成部は、
前記タグ付きテキスト生成部が生成した前記タグ付きテキストを、ユーザの操作に基づいて修正するタグ付きテキスト修正部をさらに備え、
前記音声波形生成部は、前記タグ付きテキスト修正部が前記タグ付きテキストを修正した場合、修正された前記タグ付きテキストに対応する合成音声の音声波形を生成する、請求項またはに記載の音声合成装置。
【請求項8】
前記コンテンツ選択部は、
前記コンテンツ記憶部に登録されている複数の前記コンテンツの中から、入力されたキーワードに適合する前記タグ付きテキストを含むコンテンツを検索するコンテンツ検索部と、
前記コンテンツ検索部により検索された前記コンテンツである検索コンテンツの一覧を提示する検索コンテンツ提示部と、
前記検索コンテンツの一覧の中から選択された前記検索コンテンツを、前記選択コンテンツとして決定する第2の選択コンテンツ決定部と、をさらに備える、請求項1〜7のいずれか一項に記載の音声合成装置。
【請求項9】
前記コンテンツ選択部は、
前記検索コンテンツに含まれる合成音声の音声波形を再生する第3の再生部をさらに備える、請求項に記載の音声合成装置。
【請求項10】
コンピュータにより実行される音声合成方法であって、
音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部に登録されている複数の前記コンテンツの中から、選択コンテンツを決定するコンテンツ選択工程と、
前記選択コンテンツに含まれる前記タグ付きテキストの前記タグ情報を、指定されたテキストに適用して新たな前記コンテンツを生成するコンテンツ生成工程と、
生成された新たな前記コンテンツを前記コンテンツ記憶部に登録するコンテンツ登録工程と、を含み、
前記コンテンツ登録工程では、前記コンテンツ記憶部に予め登録された目印となる前記コンテンツであるマーカコンテンツとの類似度に応じて、生成された前記コンテンツを前記マーカコンテンツと関連付けて前記コンテンツ記憶部に登録し、
前記コンテンツ選択工程では、
前記マーカコンテンツの一覧を提示し、
前記マーカコンテンツの一覧の中から選択された前記マーカコンテンツに関連付けられた前記コンテンツである関連コンテンツの一覧を提示し、
前記関連コンテンツの一覧の中から選択された前記関連コンテンツを、前記選択コンテンツとして決定する、音声合成方法。
【請求項11】
コンピュータに、
音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部に登録されている複数の前記コンテンツの中から、選択コンテンツを決定するコンテンツ選択機能と、
前記選択コンテンツに含まれる前記タグ付きテキストの前記タグ情報を、指定されたテキストに適用して新たな前記コンテンツを生成するコンテンツ生成機能と、
生成された新たな前記コンテンツを前記コンテンツ記憶部に登録するコンテンツ登録機能と、を実現させ
前記コンテンツ登録機能は、前記コンテンツ記憶部に予め登録された目印となる前記コンテンツであるマーカコンテンツとの類似度に応じて、生成された前記コンテンツを前記マーカコンテンツと関連付けて前記コンテンツ記憶部に登録し、
前記コンテンツ選択機能は、
前記マーカコンテンツの一覧を提示し、
前記マーカコンテンツの一覧の中から選択された前記マーカコンテンツに関連付けられた前記コンテンツである関連コンテンツの一覧を提示し、
前記関連コンテンツの一覧の中から選択された前記関連コンテンツを、前記選択コンテンツとして決定する、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声合成装置、音声合成方法およびプログラムに関する。
【背景技術】
【0002】
音声合成の分野では、例えば様々な感情表現などを伴う所望の合成音声を得るために有効な方法として、タグ付きテキストに基づいて合成音声の音声波形を生成する方法が知られている。タグ付きテキストは、音声合成の対象となるテキストに対して、マークアップ言語で記述されたタグ情報を付加したものである。タグ情報は、タグで囲まれたテキストに対する音声合成を制御するための情報である。音声合成エンジンは、このタグ情報に基づいて、例えば、音声合成に使用する辞書を選択したり韻律パラメータを調整したりすることにより、所望の合成音声を得ることができる。
【0003】
タグ付きテキストは、ユーザがエディタを使用してテキストにタグ情報を付加することで生成できるが、この方法ではユーザの作業が煩雑になる。このため、音声合成の対象となるテキストに対して事前に生成されたテンプレートを適用することで、タグ付きテキストを生成するのが一般的である。
【0004】
しかし、従来の一般的な方法では、様々なタグ情報に対応できるようにするために多数のテンプレートを事前に生成する必要があり、事前の準備に多大な工数を要する。機械学習によりテンプレートを自動生成する技術もあるが、この方法では、機械学習のための訓練データと正解データとを別途用意する必要があり、煩雑である。このため、タグ付きテキストを効率よく生成するための新たな仕組みの構築が望まれている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2003−295882号公報
【特許文献2】特開2007−233912号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする課題は、タグ付きテキストを効率よく生成することができる音声合成装置、音声合成方法およびプログラムを提供することである。
【課題を解決するための手段】
【0007】
実施形態の音声合成装置は、コンテンツ選択部と、コンテンツ生成部と、コンテンツ登録部と、を備える。コンテンツ選択部は、音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部に登録されている複数の前記コンテンツの中から、選択コンテンツを決定する。コンテンツ生成部は、前記選択コンテンツに含まれる前記タグ付きテキストの前記タグ情報を、指定されたテキストに適用して新たな前記コンテンツを生成する。コンテンツ登録部は、生成された新たな前記コンテンツを前記コンテンツ記憶部に登録する。前記コンテンツ登録部は、前記コンテンツ記憶部に予め登録された目印となる前記コンテンツであるマーカコンテンツとの類似度に応じて、生成された前記コンテンツを前記マーカコンテンツと関連付けて前記コンテンツ記憶部に登録する。前記コンテンツ選択部は、前記マーカコンテンツの一覧を提示するマーカコンテンツ提示部と、前記マーカコンテンツの一覧の中から選択された前記マーカコンテンツに関連付けられた前記コンテンツである関連コンテンツの一覧を提示する関連コンテンツ提示部と、前記関連コンテンツの一覧の中から選択された前記関連コンテンツを、前記選択コンテンツとして決定する第1の選択コンテンツ決定部と、を備える。
【図面の簡単な説明】
【0008】
図1図1は、実施形態の音声合成装置の概略構成を示すブロック図である。
図2図2は、コンテンツ選択部の構成例を示すブロック図である。
図3図3は、コンテンツ生成部の構成例を示すブロック図である。
図4図4は、コンテンツ登録部の構成例を示すブロック図である。
図5図5は、コンテンツ記憶部に登録されているコンテンツの一例を概念的に示す図である。
図6図6は、コンテンツ記憶部におけるコンテンツの格納形式を説明する図である。
図7図7は、ユーザ端末に表示させるUI画面の画面遷移を説明する図である。
図8図8は、マーカコンテンツ一覧画面の一例を示す図である。
図9図9は、関連コンテンツ一覧画面の一例を示す図である。
図10図10は、コンテンツ詳細画面の一例を示す図である。
図11図11は、コンテンツ生成画面の一例を示す図である。
図12図12は、コンテンツ選択部による処理手順の一例を示すフローチャートである。
図13図13は、コンテンツ生成部による処理手順の一例を示すフローチャートである。
図14図14は、コンテンツ登録部による処理手順の一例を示すフローチャートである。
図15図15は、第2実施形態のコンテンツ選択部の構成例を示すブロック図である。
図16図16は、ユーザ端末に表示させるUI画面の画面遷移を説明する図である。
図17図17は、コンテンツ検索画面の一例を示す図である。
図18図18は、第2実施形態のコンテンツ選択部による処理手順の一例を示すフローチャートである。
図19図19は、音声合成装置のハードウェア構成の一例を概略的に示すブロック図である。
【発明を実施するための形態】
【0009】
以下、実施形態の音声合成装置、音声合成方法およびプログラムを、図面を参照して詳細に説明する。実施形態の音声合成装置は、音声合成の対象となるテキストにタグ情報を付加したタグ付きテキストに基づいて音声合成を行うものであり、特に、タグ付きテキストを効率よく生成する仕組みを持つ。タグ付きテキストと、そのタグ付きテキストに基づいて生成される合成音声の音声波形との組み合わせを、以下では「コンテンツ」と呼ぶ。コンテンツには、タグ付きテキストと合成音声の音声波形のほか、例えば音声合成に使用する音声合成辞書の識別情報など、他の情報が含まれていてもよい。なお、音声合成の方法としては、例えば音声素片結合型の音声合成、HMM(隠れマルコフモデル)を用いた音声合成など、公知の方法をいずれも採用できるため、詳細な説明は省略する。
【0010】
(第1実施形態)
図1は、本実施形態に係る音声合成装置1の概略構成を示すブロック図である。本実施形態の音声合成装置1は、例えば、クライアントとしてネットワークに接続されたユーザ端末2に対してWebベースのサービスを提供するネットワーク上のサーバとして実現することができる。ユーザ端末2は、ユーザが使用するパーソナルコンピュータ、タブレット端末、スマートフォンなどの情報機器であり、CPUやメモリなどのコンピュータシステムを構成する各種リソースのほか、表示装置やスピーカ、各種入力デバイスなどのハードウェア、OS(オペレーションシステム)やWebブラウザなどの各種ソフトウェアを搭載する。
【0011】
なお、本実施形態の音声合成装置1は、単体の装置として構成されている必要はなく、複数の装置を連携させたシステムとして構成されていてもよい。また、音声合成装置1は、クラウドシステム上で動作する仮想マシンとして実現されていてもよい。
【0012】
音声合成装置1は、図1に示すように、コンテンツ選択部10と、コンテンツ生成部20と、コンテンツ登録部30と、コンテンツ記憶部40と、音声合成辞書50とを備える。
【0013】
コンテンツ選択部10は、ユーザ端末2にUI(ユーザインタフェース)画面を表示させながらこのUI画面を用いたユーザの操作入力を受け付けて、コンテンツ記憶部40に登録されている複数のコンテンツの中から、ユーザの操作に基づいて選択コンテンツを決定する。つまり、選択コンテンツとは、複数のコンテンツの中からユーザの操作に応じて選択されたコンテンツである。
【0014】
コンテンツ生成部20は、ユーザ端末2にUI画面を表示させながらこのUI画面を用いたユーザの操作入力を受け付けて、コンテンツ選択部10によって決定された選択コンテンツに含まれるタグ付きテキストのタグ情報を、ユーザにより指定されたテキストに適用して新たなコンテンツを生成する。
【0015】
コンテンツ登録部30は、コンテンツ生成部20により生成された新たなコンテンツ(新規コンテンツ)を、コンテンツ記憶部40に登録する。
【0016】
コンテンツ記憶部40は、目印となるコンテンツであるマーカコンテンツと、コンテンツ生成部20により生成されたコンテンツとを記憶する。マーカコンテンツは、特定の特徴を強調したコンテンツであり、コンテンツ記憶部40に事前に登録されている。コンテンツ生成部20により生成されたコンテンツは、コンテンツ登録部30によって、マーカコンテンツとの類似度に応じて、マーカコンテンツに関連付けてコンテンツ記憶部40に登録される。
【0017】
なお、コンテンツ記憶部40は、音声合成装置1の外部にあってもよい。この場合、コンテンツ登録部30は、例えばネットワーク経由で音声合成装置1の外部のコンテンツ記憶部40にアクセスし、コンテンツ生成部20により生成されたコンテンツをコンテンツ記憶部40に登録する。また、コンテンツ選択部10は、例えばネットワーク経由で音声合成装置1の外部のコンテンツ記憶部40にアクセスし、ユーザ操作に応じて必要なコンテンツをコンテンツ記憶部40から取得する。
【0018】
音声合成辞書50は、コンテンツ生成部20がタグ付きテキストに基づいて合成音声の音声波形を生成する際に使用する辞書である。音声合成辞書50は、例えば、生成する合成音声の特徴別に分類されており、タグ付きテキストのタグ情報に基づいて最適な辞書が選択される。なお、音声合成辞書50は、音声合成装置1の外部にあってもよい。この場合、コンテンツ生成部20は、例えばネットワーク経由で音声合成装置1の外部の音声合成辞書50にアクセスし、必要な情報を音声合成辞書50から取得する。
【0019】
次に、本実施形態の音声合成装置1を構成する各部の詳細を説明する。
【0020】
図2は、コンテンツ選択部10の構成例を示すブロック図である。コンテンツ選択部10は、図2に示すように、マーカコンテンツ提示部11と、関連コンテンツ提示部12と、選択コンテンツ決定部13と、再生部14とを備える。
【0021】
マーカコンテンツ提示部11は、コンテンツ記憶部40に登録されているマーカコンテンツの一覧をユーザに提示する。例えば、マーカコンテンツ提示部11は、ユーザ端末2に表示させるUI画面として、後述のマーカコンテンツ一覧画面SC1(図8参照)を生成してユーザ端末2に表示させる。
【0022】
関連コンテンツ提示部12は、マーカコンテンツの一覧の中からユーザにより選択されたマーカコンテンツに関連付けられたコンテンツである関連コンテンツの一覧をユーザに提示する。例えば、関連コンテンツ提示部12は、ユーザ端末2に表示させるUI画面として、後述の関連コンテンツ一覧画面SC2(図9参照)を生成してユーザ端末2に表示させる。
【0023】
選択コンテンツ決定部13は、関連コンテンツ一覧の中から選択された関連コンテンツを、選択コンテンツとして決定する。例えば、選択コンテンツ決定部13は、ユーザ端末2に表示されている関連コンテンツ一覧画面SC2の中からユーザにより選択された関連コンテンツを、選択コンテンツとして決定する。
【0024】
再生部14は、ユーザの操作に応じて、マーカコンテンツに含まれる合成音声の音声波形、または関連コンテンツに含まれる合成音声の音声波形を再生し、例えばユーザ端末2のスピーカから音声として出力させる。例えば、再生部14は、ユーザ端末2に表示されているマーカコンテンツ一覧画面SC1の中からユーザにより指定されたマーカコンテンツに含まれる合成音声の音声波形、またはユーザ端末2に表示されている関連コンテンツ一覧画面SC2の中からユーザにより指定された関連コンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声として出力させる。
【0025】
図3は、コンテンツ生成部20の構成例を示すブロック図である。コンテンツ生成部20は、図3に示すように、タグ情報抽出部21と、タグ付きテキスト生成部22と、タグ付きテキスト修正部23と、音声波形生成部24と、再生部25とを備える。
【0026】
タグ情報抽出部21は、選択コンテンツ決定部13により決定された選択コンテンツに含まれるタグ付きテキストから、タグ情報を抽出する。タグ情報は、当該タグ情報が適用されるテキストの前方に配置される開始タグと、当該タグ情報が適用されるテキストの後方に配置される終了タグとを含む。開始タグおよび終了タグには要素名が記述され、開始タグには要素名で表される要素の属性値が記述される。要素が複数の属性を含む場合は、開始タグにそれらの属性および属性ごとの属性値が記述される。タグ情報の要素としては、例えば性別(属性値は男性/女性)、感情(属性として喜び、哀しみ、怒り、・・・、優しさなどを含む)、韻律(属性として声の高さ、話す速さなどを含む)などが挙げられる。
【0027】
例えば、選択コンテンツ決定部13により決定された選択コンテンツに含まれるタグ付きテキストが
<性別=“女性”><prosody pitch=“+5%” rate=“−2%”>おはようございます</prosody></性別>
であったとする。この場合、タグ情報抽出部21は、このタグ付きテキストのタグ情報
<性別=“女性”><prosody pitch=“+5%” rate=“−2%”></prosody></性別>
を抽出する。なお、上記の例において、prosodyは韻律を表す要素名であり、pitchはprosody要素における声の高さを表す属性(属性値は+5%)であり、rateはprosody要素における発話の速さを表す属性(属性値は−2%)である。
【0028】
タグ付きテキスト生成部22は、タグ情報抽出部21が抽出したタグ情報を、ユーザにより指定されたテキストに適用してタグ付きテキストを生成する。例えば、ユーザにより指定されたテキストが「こんにちは」であり、タグ情報抽出部21により上記のタグ情報が抽出されたとする。この場合、タグ付きテキスト生成部22は、
<性別=“女性”><prosody pitch=“+5%” rate=“−2%”>こんにちは</prosody></性別>
というタグ付きテキストを生成する。
【0029】
タグ付きテキスト修正部23は、タグ付きテキスト生成部22が生成したタグ付きテキストを、ユーザの操作に基づいて修正する。例えば、タグ付きテキスト修正部23は、タグ付きテキスト生成部22が生成したタグ付きテキストに含まれるタグ情報の属性値(上記の例では+5%、−2%などの値)などを、ユーザの操作に基づいて修正する。
【0030】
音声波形生成部24は、音声合成辞書50を用いて、タグ付きテキスト生成部22が生成したタグ付きテキストに対応する合成音声の音声波形を生成する。タグ付きテキスト生成部22が生成したタグ付きテキストをタグ付きテキスト修正部23が修正した場合、音声波形生成部24は、修正されたタグ付きテキストに対応する合成音声の音声波形を生成する。
【0031】
再生部25は、ユーザの操作に応じて、音声波形生成部24が生成した合成音声の音声波形を再生し、例えばユーザ端末2のスピーカから音声として出力させる。
【0032】
図4は、コンテンツ登録部30の構成例を示すブロック図である。コンテンツ登録部30は、図4に示すように、類似度算出部31と、分類部32と、利用頻度更新部33とを備える。
【0033】
類似度算出部31は、コンテンツ生成部20により生成された新たなコンテンツ(新規コンテンツ)をマーカコンテンツと関連付けてコンテンツ記憶部40に登録するために、マーカコンテンツに対する新規コンテンツの類似度を算出する。
【0034】
マーカコンテンツは、上述したように、コンテンツ記憶部40に事前に登録されている特定の特徴を強調したコンテンツである。例えば、感情を表す属性(喜び、哀しみ、怒り・・・優しさなど)の属性値が0〜100(%)で設定可能であり、声の高さ(pitch)の属性値および話す速さ(rate)の属性値が−10〜+10(%)の範囲で設定可能であるとする。この場合、例えば図5に示すように、特定の特徴を強調したマーカコンテンツM1,M2,・・・,Mkが、コンテンツ記憶部40に事前に登録される。なお、図5は、コンテンツ記憶部40に登録されているコンテンツの一例を概念的に示す図である。
【0035】
類似度算出部31は、コンテンツ生成部20によって新規コンテンツが生成されると、コンテンツ記憶部40に事前に登録されている各マーカコンテンツに対する新規コンテンツの類似度を算出する。2つのコンテンツci,cjの類似度は、例えば、下記式(1)および式(2)に示されるコンテンツ間距離D(ci,cj)を算出することで求めることができる。
D(ci,cj)=√A ・・・(1)
A={喜び(ci)−喜び(cj)}+{哀しみ(ci)−哀しみ(cj)}+{怒り(ci)−怒り(cj)}+・・・+{優しさ(ci)−優しさ(cj)}+{声の高さ(ci)−声の高さ(cj)}+{話す速さ(ci)−話す速さ(cj)} ・・・(2)
【0036】
式(1)および式(2)により算出されるコンテンツ間距離D(ci,cj)が小さいほど、2つのコンテンツci,cjが似ていることを表す。なお、ここでは性別の属性値が同じコンテンツ同士を距離算出の対象としているが、性別の属性値に関する項を下記式(2)に組み込んで、性別に跨るコンテンツ間距離D(ci,cj)を算出するようにしてもよい。
【0037】
分類部32は、類似度算出部31により算出された類似度に基づいて、コンテンツ生成部20によって生成されたコンテンツを分類する。ここでの分類は、コンテンツ生成部20によって生成されたコンテンツを、当該コンテンツに類似するマーカコンテンツ(例えば、当該コンテンツとのコンテンツ間距離が所定の閾値以下のマーカコンテンツ)に関連付けてコンテンツ記憶部40に登録する処理である。コンテンツ生成部20によって生成されたコンテンツに類似するマーカコンテンツが複数存在する場合、当該コンテンツはこれら複数のマーカコンテンツのそれぞれに関連付けてコンテンツ記憶部40に登録される。分類部32は、コンテンツ生成部20によって新たなコンテンツが生成されるたびに、そのコンテンツの分類を行う。これにより、コンテンツ記憶部40には、マーカコンテンツごとに、そのマーカコンテンツに関連付けられたコンテンツが例えば類似度順に格納される。
【0038】
図6は、コンテンツ記憶部40におけるコンテンツの格納形式を説明する図である。コンテンツ生成部20によって生成されたコンテンツC1,C2,・・・,Cmは、図6に示すように、それぞれのコンテンツC1,C2,・・・,Cmに類似するマーカコンテンツM1,M2,・・・,Mkにより代表されるクラスに分類された状態で、コンテンツ記憶部40に格納される。また、各コンテンツには、そのコンテンツの利用頻度の情報が対応付けられている。利用頻度は、そのコンテンツが選択コンテンツとして利用された回数を表す。つまり、コンテンツ生成部20が新たなコンテンツを生成する際に選択コンテンツとして利用されるたびに、選択コンテンツとして利用されたコンテンツの利用頻度の値がインクリメント(+1)される。コンテンツの利用頻度は、そのコンテンツが人気のあるコンテンツであるかどうかをユーザに示す指標となる。
【0039】
利用頻度更新部33は、コンテンツ生成部20が生成した新たなコンテンツの登録時に、そのコンテンツを生成する際に選択コンテンツとして利用したコンテンツの利用頻度の値をインクリメントして更新する。
【0040】
次に、本実施形態の音声合成装置1がユーザ端末2に表示させるUI画面の具体例について、図7乃至図11を参照して説明する。
【0041】
図7は、ユーザ端末2に表示させるUI画面の画面遷移を説明する図である。本実施形態の音声合成装置1は、例えば図7に示す画面遷移に従って、マーカコンテンツ一覧画面SC1、関連コンテンツ一覧画面SC2、コンテンツ詳細画面SC3、およびコンテンツ生成画面SC4を、UI画面としてユーザ端末2に順次表示させる。
【0042】
図8は、マーカコンテンツ一覧画面SC1の一例を示す図である。マーカコンテンツ一覧画面SC1は、コンテンツ記憶部40に事前に登録されているマーカコンテンツの一覧をユーザに提示するUI画面である。このマーカコンテンツ一覧画面SC1には、図8に示すように、「タイトル」欄101、「性別」欄102、「パラメータ」欄103、性別切り替えボタン104、上下ボタン105、「再生」ボタン106、「コンテンツ」ボタン107および「close」ボタン108が設けられている。
【0043】
「タイトル」欄101には、各マーカコンテンツの名称が表示される。「性別」欄102には、各マーカコンテンツの性別の属性値(男性/女性)が表示される。「パラメータ」欄103には、各マーカコンテンツの感情や韻律などの属性および属性値(パラメータ)が表示される。なお、図8に示すマーカコンテンツ一覧画面SC1は、マーカコンテンツの一覧を男性/女性の性別ごとに提示する構成であり、性別切り替えボタン104を操作することで、提示するマーカコンテンツの性別を切り替えられるようになっている。図8では、男性のマーカコンテンツの一覧を提示している状態を示している。
【0044】
上下ボタン105は、図示しないカーソルを上下に移動させてマーカコンテンツの一覧の中から任意のマーカコンテンツを指定するためのボタンである。
【0045】
「再生」ボタン106は、指定されたマーカコンテンツに含まれる合成音声の音声波形を再生して音声出力するためのボタンである。提示しているマーカコンテンツの一覧の中から任意のマーカコンテンツが指定されている状態で「再生」ボタン106が押されると、指定されたマーカコンテンツの合成音声がユーザ端末2のスピーカから出力される。ユーザは、この「再生」ボタン106を利用して、所望のマーカコンテンツの合成音声を試聴することができる。
【0046】
「コンテンツ」ボタン107は、マーカコンテンツの一覧の中から所望のマーカコンテンツを選択するためのボタンである。提示しているマーカコンテンツの一覧の中から任意のマーカコンテンツが指定されている状態で「コンテンツ」ボタン107が押されると、ユーザ端末2に表示されるUI画面がマーカコンテンツ一覧画面SC1から関連コンテンツ一覧画面SC2に遷移して、指定されたマーカコンテンツに関連付けられた関連コンテンツの一覧が提示される。
【0047】
「close」ボタン108は、マーカコンテンツ一覧画面SC1を閉じるためのボタンである。この「close」ボタン108が押されると、ユーザ端末2におけるUI画面の表示が終了する。
【0048】
図9は、関連コンテンツ一覧画面SC2の一例を示す図である。関連コンテンツ一覧画面SC2は、マーカコンテンツ一覧画面SC1を用いてユーザが選択したマーカコンテンツに関連付けてコンテンツ記憶部40に登録されている関連コンテンツの一覧をユーザに提示するUI画面である。この関連コンテンツ一覧画面SC2には、図9に示すように、「タイトル」欄201、「距離」欄202、「利用頻度」欄203、上下ボタン204、「再生」ボタン205、「戻る」ボタン206、「詳細」ボタン207および「close」ボタン208が設けられている。
【0049】
「タイトル」欄201には、マーカコンテンツ一覧画面SC1で選択されたマーカコンテンツおよび各関連コンテンツの名称が表示される。「距離」欄202には、各関連コンテンツとマーカコンテンツとのコンテンツ間距離D(ci,cj)が表示される。「利用頻度」欄203には、マーカコンテンツおよび各関連コンテンツの利用頻度が表示される。関連コンテンツ一覧画面SC2では、図9に示すように、マーカコンテンツに関連付けられた複数の関連コンテンツが、コンテンツ間距離D(ci,cj)の値が小さい順、つまり、マーカコンテンツに似ている関連コンテンツほど上位になるように一覧表示される。また、コンテンツ間距離D(ci,cj)の値が同じ関連コンテンツ同士は、利用頻度の値が大きい関連コンテンツが上位になるように一覧表示される。なお、関連コンテンツの並び順は図9に示す例に限らない。例えば、利用頻度の値が大きい関連コンテンツほど上位になるように、複数の関連コンテンツを一覧表示してもよい。
【0050】
上下ボタン204は、図示しないカーソルを上下に移動させて関連コンテンツの一覧の中から任意の関連コンテンツを指定するためのボタンである。
【0051】
「再生」ボタン205は、指定された関連コンテンツに含まれる合成音声の音声波形を再生して音声出力するためのボタンである。提示している関連コンテンツの一覧の中から任意の関連コンテンツが指定されている状態で「再生」ボタン205が押されると、指定された関連コンテンツの合成音声がユーザ端末2のスピーカから出力される。ユーザは、この「再生」ボタン205を利用して、所望の関連コンテンツの合成音声を試聴することができる。
【0052】
「戻る」ボタン206は、ユーザ端末2に表示するUI画面を、図9の関連コンテンツ一覧画面SC2から図8のマーカコンテンツ一覧画面SC1に戻すためのボタンである。
【0053】
「詳細」ボタン207は、所望の関連コンテンツの詳細を確認するためのボタンである。提示している関連コンテンツの一覧の中から任意の関連コンテンツが指定されている状態で「詳細」ボタン207が押されると、ユーザ端末2に表示されるUI画面が関連コンテンツ一覧画面SC2からコンテンツ詳細画面SC3に遷移して、指定された関連コンテンツの詳細情報が表示される。
【0054】
「close」ボタン208は、関連コンテンツ一覧画面SC2を閉じるためのボタンである。この「close」ボタン208が押されると、ユーザ端末2におけるUI画面の表示が終了する。
【0055】
図10は、コンテンツ詳細画面SC3の一例を示す図である。コンテンツ詳細画面SC1は、関連コンテンツ一覧画面SC2を用いてユーザが選択した関連コンテンツの詳細情報をユーザに提示するUI画面である。このコンテンツ詳細画面SC2には、図10に示すように、コンテンツ名称欄301、「使用辞書」欄302、「テキスト」欄303、「タグ情報」欄304、「再生」ボタン305、「戻る」ボタン306、「コピー」ボタン307および「close」ボタン308が設けられている。
【0056】
コンテンツ名称欄301には、当該コンテンツの名称が表示される。「使用辞書」欄302には、当該コンテンツに含まれる合成音声の音声波形を生成する際に使用した音声合成辞書50の名称が表示される。「テキスト」欄302には、当該コンテンツに含まれるタグ付きテキストのテキスト部分(テキストの全体)が表示される。「タグ情報」欄304には、「テキスト」欄302に表示されているテキストの中で指定された範囲のタグ付きテキストが表示される。ユーザは、「テキスト」欄302に表示されているテキストの中で任意の範囲を指定することにより、その部分のタグ情報を「タグ情報」欄304で確認することができる。
【0057】
「再生」ボタン305は、「タグ情報」欄304に表示されているタグ付きテキストに対応する部分の合成音声の音声波形を再生して音声出力するためのボタンである。ユーザにより指定された範囲のタグ付きテキストが「タグ情報」欄304に表示されている状態で「再生」ボタン305が押されると、そのタグ付きテキストに対応する部分の合成音声がユーザ端末2のスピーカから出力される。ユーザは、この「再生」ボタン305を利用して、所望の箇所の合成音声を試聴することができる。
【0058】
「戻る」ボタン306は、ユーザ端末2に表示するUI画面を、図10のコンテンツ詳細画面SC3から図9の関連コンテンツ一覧画面SC2に戻すためのボタンである。
【0059】
「コピー」ボタン307は、当該コンテンツを選択コンテンツとして決定するためのボタンである。この「コピー」ボタン307が押されると、ユーザ端末2に表示されるUI画面が、コンテンツ詳細画面SC3からコンテンツ生成画面SC4に遷移する。
【0060】
「close」ボタン308は、コンテンツ詳細画面SC3を閉じるためのボタンである。この「close」ボタン308が押されると、ユーザ端末2におけるUI画面の表示が終了する。
【0061】
図11は、コンテンツ生成画面SC4の一例を示す図である。コンテンツ生成画面SC4は、選択コンテンツのタグ情報を適用して新たなコンテンツを生成するためのUI画面である。このコンテンツ生成画面SC4には、図11に示すように、「タイトル」欄401、「使用辞書」欄402、「テキスト」欄403、「タグ情報」欄404、「適用」ボタン405、「再生」ボタン406、「編集」ボタン407、「戻る」ボタン408、「登録」ボタン409および「close」ボタン410が設けられている。
【0062】
「タイトル」欄401は、コンテンツ生成画面SC4を用いて生成される新たなコンテンツの名称が表示される。ユーザは、この「タイトル」欄401に任意の名称を書き込むことで、新たなコンテンツに対して所望の名称を設定できる。「使用辞書」欄402には、選択コンテンツに含まれる合成音声の音声波形を生成する際に使用した音声合成辞書50の名称が表示される。ユーザは、この「使用辞書」欄402に表示されている音声合成辞書50の名称を変更することにより、新たなコンテンツに含まれる合成音声の音声波形を生成する際に使用する音声合成辞書50を変更することができる。「テキスト」欄403には、音声合成の対象となるテキストが表示される。ユーザは、この「テキスト」欄403に任意のテキストを書き込むことで、音声合成の対象とするテキストを指定できる。「タグ情報」欄404には、選択コンテンツに含まれるタグ付きテキストのタグ情報を、「テキスト」欄403で表示されるテキストに適用することで生成されるタグ付きテキストが表示される。
【0063】
「適用」ボタン405は、「タグ情報」欄404に表示されているタグ付きテキストに対応する合成音声の音声波形を生成するためのボタンである。「タグ情報」欄404にタグ付きテキストが表示されている状態で「適用」ボタン405が押されると、「タグ情報」欄404に表示されているタグ付きテキストに基づいて合成音声の音声波形が生成される。この際、「使用辞書」欄402に表示されている音声合成辞書50が使用される。
【0064】
「再生」ボタン406は、「タグ情報」欄404に表示されているタグ付きテキストに基づいて生成された合成音声の音声波形を再生して音声出力するためのボタンである。「適用」ボタン405が押された後に「再生」ボタン406が押されると、「適用」ボタン405の操作により生成された合成音声がユーザ端末2のスピーカから出力される。ユーザは、この「再生」ボタン406を利用して、新たに生成するコンテンツの合成音声を試聴することができる。
【0065】
「編集」ボタン407は、「タグ情報」欄404に表示されているタグ付きテキストを修正するためのボタンである。「編集」ボタン407が押されると、「タグ情報」欄404に表示されているタグ付きテキストの編集が可能になる。ユーザは、この「編集」ボタン407を押して「タグ情報」欄404に表示されているタグ付きテキストに対し、例えばタグ情報の属性値(図11の例では+5%)などを修正する操作を行うことで、新たに生成するコンテンツのタグ付きテキストを修正することができる。
【0066】
「戻る」ボタン408は、ユーザ端末2に表示するUI画面を、図11のコンテンツ生成画面SC4から図10のコンテンツ詳細画面SC3に戻すためのボタンである。
【0067】
「登録」ボタン409は、生成した新たなコンテンツをコンテンツ記憶部40に登録するためのボタンである。「登録」ボタン409が押されると、「タグ情報」欄404に表示されているタグ付きテキストと、このタグ付きテキストに基づいて生成された合成音声の音声波形との組み合わせが、新たなコンテンツとしてコンテンツ記憶部40に登録される。
【0068】
「close」ボタン410は、コンテンツ生成画面SC4を閉じるためのボタンである。この「close」ボタン410が押されると、ユーザ端末2におけるUI画面の表示が終了する。
【0069】
次に、図7乃至図11に例示したUI画面をユーザ端末2に表示させながらコンテンツを生成して登録する音声合成装置1の動作例について説明する。
【0070】
まず、コンテンツ選択部10により実施される処理について、図12を参照して説明する。図12は、コンテンツ選択部10による処理手順の一例を示すフローチャートである。
【0071】
図12のフローチャートで示す処理が開始されると、まず、マーカコンテンツ提示部11が、図8に例示したマーカコンテンツ一覧画面SC1をユーザ端末2に表示させる(ステップS101)。なお、図12のフローチャートでは記載を省略しているが、マーカコンテンツ一覧画面SC1をユーザ端末2に表示させた後、マーカコンテンツ一覧画面SC1の性別切り替えボタン104が操作されると、一覧表示するマーカコンテンツの性別が切り替えられる。また、いずれかのタイミングで「close」ボタン108が押されると、処理が終了する。
【0072】
次に、マーカコンテンツ一覧画面SC1で一覧表示されているマーカコンテンツのいずれかが指定された状態で「再生」ボタン106が押されたか否かが判定される(ステップS102)。そして、「再生」ボタン106が押された場合は(ステップS102:Yes)、再生部14が、指定されたマーカコンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声出力させた後(ステップS103)、ステップS102に戻る。
【0073】
一方、「再生」ボタン106が押されていない場合は(ステップS102:No)、次に、一覧表示されているマーカコンテンツのいずれかが指定された状態で「コンテンツ」ボタン107が押されたか否かが判定される(ステップS104)。そして、「コンテンツ」ボタン107が押されていない場合は(ステップS104:No)、ステップS102に戻る。一方、「コンテンツ」ボタン107が押された場合は(ステップS104:Yes)、関連コンテンツ提示部12が、図9に例示した関連コンテンツ一覧画面SC2をユーザ端末2に表示させる(ステップS105)。
【0074】
なお、図12のフローチャートでは記載を省略しているが、関連コンテンツ一覧画面SC2をユーザ端末2に表示させた後、いずれかのタイミングで「戻る」ボタン206が押されると、ステップS101に戻ってユーザ端末2にマーカコンテンツ一覧画面SC1が再表示される。また、いずれかのタイミングで「close」ボタン208が押されると、処理が終了する。
【0075】
次に、関連コンテンツ一覧画面SC2で一覧表示されている関連コンテンツのいずれかが指定された状態で「再生」ボタン205が押されたか否かが判定される(ステップS106)。そして、「再生」ボタン205が押された場合は(ステップS106:Yes)、再生部14が、指定された関連コンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声出力させた後(ステップS107)、ステップS106に戻る。
【0076】
一方、「再生」ボタン205が押されていない場合は(ステップS106:No)、次に、一覧表示されている関連コンテンツのいずれかが指定された状態で「詳細」ボタン207が押されたか否かが判定される(ステップS108)。そして、「詳細」ボタン207が押されていない場合は(ステップS108:No)、ステップS106に戻る。一方、「詳細」ボタン207が押された場合は(ステップS108:Yes)、選択コンテンツ決定部13が、図10に例示したコンテンツ詳細画面SC3をユーザ端末2に表示させる(ステップS109)。
【0077】
なお、図12のフローチャートでは記載を省略しているが、コンテンツ詳細画面SC3をユーザ端末2に表示させた後、いずれかのタイミングで「戻る」ボタン306が押されると、ステップS105に戻ってユーザ端末2に関連コンテンツ一覧画面SC2が再表示される。また、いずれかのタイミングで「close」ボタン308が押されると、処理が終了する。
【0078】
次に、コンテンツ詳細画面SC3の「タグ情報」欄304にタグ付きテキストが表示されている状態で「再生」ボタン305が押されたか否かが判定される(ステップS110)。そして、「再生」ボタン305が押された場合は(ステップS110:Yes)、再生部14が、「タグ情報」欄304に表示されているタグ付きテキストに対応する合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声出力させた後(ステップS111)、ステップS110に戻る。
【0079】
一方、「再生」ボタン305が押されていない場合は(ステップS110:No)、次に、「タグ情報」欄304にタグ付きテキストが表示されている状態で「コピー」ボタン307が押されたか否かが判定される(ステップS112)。そして、「コピー」ボタン307が押されていない場合は(ステップS112:No)、ステップS110に戻る。一方、「コピー」ボタン307が押された場合は(ステップS112:Yes)、選択コンテンツ決定部13が、コンテンツ詳細画面SC3により詳細情報を表示しているコンテンツを選択コンテンツとして決定し(ステップS113)、コンテンツ生成部20に処理を受け渡して、コンテンツ選択部10による一連の処理が終了する。
【0080】
次に、コンテンツ生成部20により実施される処理について、図13を参照して説明する。図13は、コンテンツ生成部20による処理手順の一例を示すフローチャートである。
【0081】
図13のフローチャートで示す処理が開始されると、まず、タグ情報抽出部21が、図11に例示したコンテンツ生成画面SC4をユーザ端末2に表示させる(ステップS201)。ユーザは、このコンテンツ生成画面SC4の「テキスト」欄403に音声合成の対象となるテキストを書き込む。このとき、タグ情報抽出部21は、選択コンテンツのタグ付きテキストからタグ情報を抽出する。また、タグ付きテキスト生成部22は、「テキスト」欄403に書き込まれたテキストに対して、タグ情報抽出部21が抽出したタグ情報を適用することで、タグ付きテキストを生成する。タグ付きテキスト生成部22が生成したタグ付きテキストは、コンテンツ生成画面SC4の「タグ情報」欄404に表示される。
【0082】
なお、図13のフローチャートでは記載を省略しているが、コンテンツ生成画面SC4をユーザ端末2に表示させた後、いずれかのタイミングで「戻る」ボタン408が押されると、図12のS109に戻ってユーザ端末2にコンテンツ詳細画面SC3が再表示される。また、いずれかのタイミングで「close」ボタン410が押されると、処理が終了する。
【0083】
次に、「タグ情報」欄404にタグ付きテキストが表示されている状態で「編集」ボタン407が押されたか否かが判定される(ステップS202)。そして、「編集」ボタン407が押された場合は(ステップS202:Yes)、タグ付きテキスト修正部23が、ユーザによるタグ付きテキストの修正操作を受け付けて、「タグ情報」欄404に表示するタグ付きテキストを修正した後(ステップS203)、ステップS202に戻る。
【0084】
一方、「編集」ボタン407が押されていない場合は(ステップS202:No)、次に、「タグ情報」欄404にタグ付きテキストが表示されている状態で「適用」ボタン405が押されたか否かが判定される(ステップS204)。そして、「適用」ボタン405が押されていない場合は(ステップS204:No)、ステップS202に戻る。一方、「適用」ボタン405が押された場合は(ステップS204:Yes)、音声波形生成部24が、「タグ情報」欄404に表示されているタグ付きテキストに基づき、「使用辞書」欄402に表示されている音声合成辞書50を使用して、合成音声の音声波形を生成する(ステップS205)。
【0085】
次に、「再生」ボタン406が押されたか否かが判定される(ステップS206)。そして、「再生」ボタン406が押された場合は(ステップS206:Yes)、再生部25が、ステップS205で生成された合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声出力させた後(ステップS207)、ステップS206に戻る。
【0086】
一方、「再生」ボタン406が押されていない場合は(ステップS206:No)、次に、「登録」ボタン409が押されたか否かが判定される(ステップS208)。そして、「登録」ボタン409が押されていない場合は(ステップS208:No)、ステップS206に戻る。一方、「登録」ボタン409が押された場合は(ステップS208:Yes)、コンテンツ登録部30に処理を受け渡して、コンテンツ生成部20による一連の処理が終了する。
【0087】
次に、コンテンツ登録部30により実施される処理について、図14を参照して説明する。図14は、コンテンツ登録部30による処理手順の一例を示すフローチャートである。
【0088】
図14のフローチャートで示す処理が開始されると、まず、類似度算出部31が、コンテンツ生成部20により生成された新たなコンテンツとコンテンツ記憶部40に登録されている各マーカコンテンツとの間のコンテンツ間距離D(ci,cj)を算出する(ステップS301)。
【0089】
次に、分類部32が、ステップS301で算出されたコンテンツ間距離D(ci,cj)に基づいて、コンテンツ生成部20により生成された新たなコンテンツを分類し、当該コンテンツに類似するマーカコンテンツに関連付けて、コンテンツ記憶部40に登録する(ステップS302)。コンテンツ記憶部40に登録された新たなコンテンツは、その後、他のコンテンツを生成する際に利用する選択コンテンツの候補となる。
【0090】
次に、利用頻度更新部33が、コンテンツ生成部20が新たなコンテンツを生成する際に選択コンテンツとして利用したコンテンツの利用頻度を更新し(ステップS303)、コンテンツ登録部30による一連の処理が終了する。
【0091】
以上、具体的な例を挙げながら詳細に説明したように、本実施形態の音声合成装置1は、UI画面を利用したユーザの操作に応じて、コンテンツ記憶部40に登録されているコンテンツの中から、新たなコンテンツを生成する際に利用する選択コンテンツを決定する。そして、決定した選択コンテンツに含まれるタグ付きテキストのタグ情報を、ユーザにより指定されたテキストに適用して新たなコンテンツを生成する。そして、生成した新たなコンテンツを、選択コンテンツの候補としてコンテンツ記憶部40に登録する。したがって、本実施形態の音声合成装置1によれば、タグ付きテキストを生成するために事前に多数のテンプレートを用意したり、テンプレートを自動作成するために訓練データや正解データを用意したりする必要がなく、過去に生成したコンテンツを利用して任意のテキストからタグ付きテキストを生成することができるので、タグ付きテキストを効率よく生成することができる。
【0092】
また、本実施形態の音声合成装置1によれば、ユーザは、過去に生成されたコンテンツの合成音声や所望のタグ情報を適用した場合に生成される合成音声を試聴しながら、適用すべきタグ情報を選択してタグ付きテキストを生成し、また必要に応じてタグ付きテキストを修正できるので、ユーザが求める合成音声を効率よく得ることができる。
【0093】
(第2実施形態)
次に、第2実施形態について説明する。第2実施形態の音声合成装置は、コンテンツ選択部の構成が第1実施形態とは異なる。以下、第2実施形態の音声合成装置を第1実施形態と区別して「音声合成装置1’」と表記し、この音声合成装置1’に特徴的なコンテンツ選択部を、第1実施形態と区別してコンテンツ選択部60と表記する。それ以外の構成は第1実施形態と同様であるため、以下では第1実施形態と重複する説明は適宜省略し、本実施形態に特徴的なコンテンツ選択部60についての説明を行う。
【0094】
図15は、コンテンツ選択部60の構成例を示すブロック図である。コンテンツ選択部60は、図15に示すように、コンテンツ検索部61と、検索コンテンツ提示部62と、選択コンテンツ決定部63と、再生部64とを備える。
【0095】
コンテンツ検索部61は、コンテンツ記憶部40に登録されているコンテンツの中から、入力されたキーワードに適合するタグ付きテキストを含むコンテンツを検索する。例えば、コンテンツ検索部61は、ユーザ端末2に表示させるUI画面として、後述のコンテンツ検索画面SC5(図17参照)をユーザ端末2に表示させ、このコンテンツ検索画面SC5を用いてユーザが入力したキーワードに適合するタグ付きテキストを含むコンテンツを、コンテンツ記憶部40に登録されているコンテンツの中から検索する。
【0096】
検索コンテンツ提示部62は、コンテンツ検索部61により検索されたコンテンツである検索コンテンツの一覧をユーザに提示する。例えば、検索コンテンツ提示部62は、ユーザ端末2にUI画面として表示されているコンテンツ検索画面SC5上で、コンテンツ検索部61により検索された検索コンテンツの一覧を表示させる。
【0097】
選択コンテンツ決定部63は、検索コンテンツの一覧の中から選択された検索コンテンツを、選択コンテンツとして決定する。例えば、選択コンテンツ決定部63は、コンテンツ検索画面SC5上で表示されている検索コンテンツの一覧の中からユーザにより選択された検索コンテンツを、選択コンテンツとして決定する。
【0098】
再生部64は、ユーザの操作に応じて、検索コンテンツに含まれる合成音声の音声波形を再生し、例えばユーザ端末2のスピーカから音声として出力させる。例えば、再生部64は、コンテンツ検索画面SC5上で表示されている検索コンテンツの一覧の中からユーザにより指定された検索コンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声として出力させる。
【0099】
図16は、第2実施形態の音声合成装置1’がユーザ端末2に表示させるUI画面の画面遷移を説明する図である。本実施形態の音声合成装置1’は、例えば図16に示す画面遷移に従って、コンテンツ検索画面SC5、コンテンツ詳細画面SC3、およびコンテンツ生成画面SC4を、UI画面としてユーザ端末2に順次表示させる。
【0100】
図17は、コンテンツ検索画面SC5の一例を示す図である。コンテンツ検索画面SC5は、コンテンツを検索するためのキーワードの入力を受け付けるとともに、検索結果である検索コンテンツの一覧をユーザに提示するUI画面である。このコンテンツ検索画面SC5には、図17に示すように、「キーワード」入力欄501、「タイトル」欄502、「利用頻度」欄503、「検索」ボタン504、上下ボタン505、「再生」ボタン506、「詳細」ボタン507および「close」ボタン508が設けられている。
【0101】
「キーワード」入力欄501は、検索に用いるキーワードを入力するためのエリアである。ユーザは、この「キーワード」入力欄501に、例えば音声合成の対象となるテキストと同じテキストなど、任意のテキストをキーワードとして入力することができる。「タイトル」欄502には、検索結果として得られた各検索コンテンツの名称が表示される。「利用頻度」欄503には、検索結果として得られた各検索コンテンツの利用頻度が表示される。
【0102】
「検索」ボタン504は、「キーワード」入力欄501に入力されたキーワードを用いて検索を行うためのボタンである。「キーワード」入力欄501にキーワードが入力されている状態で「検索ボタン」504が押されると、そのキーワードに適合するタグ付きテキストを含む検索コンテンツがコンテンツ記憶部40から検索され、得られた検索コンテンツの名称および利用頻度が「タイトル」欄502および「利用頻度」欄503にそれぞれ表示される。
【0103】
上下ボタン505は、図示しないカーソルを上下に移動させて検索コンテンツの一覧の中から任意の検索コンテンツを指定するためのボタンである。
【0104】
「再生」ボタン506は、指定された検索コンテンツに含まれる合成音声の音声波形を再生して音声出力するためのボタンである。提示している検索コンテンツの一覧の中から任意の検索コンテンツが指定されている状態で「再生」ボタン506が押されると、指定された検索コンテンツの合成音声がユーザ端末2のスピーカから出力される。ユーザは、この「再生」ボタン506を利用して、所望の検索コンテンツの合成音声を試聴することができる。
【0105】
「詳細」ボタン507は、所望の検索コンテンツの詳細を確認するためのボタンである。提示している検索コンテンツの一覧の中から任意の検索コンテンツが指定されている状態で「詳細」ボタン507が押されると、ユーザ端末2に表示されるUI画面がコンテンツ検索画面SC5からコンテンツ詳細画面SC3(図10参照)に遷移して、指定された検索コンテンツの詳細情報が表示される。
【0106】
「close」ボタン508は、コンテンツ検索画面SC5を閉じるためのボタンである。この「close」ボタン508が押されると、ユーザ端末2におけるUI画面の表示が終了する。
【0107】
次に、図17に例示したコンテンツ検索画面SC5および図10に例示したコンテンツ詳細画面SC3をユーザ端末2に表示させながら選択コンテンツを決定するコンテンツ選択部60の処理について、図18を参照して説明する。図18は、コンテンツ選択部60による処理手順の一例を示すフローチャートである。
【0108】
図18のフローチャートで示す処理が開始されると、まず、コンテンツ検索部61が、図17に例示したコンテンツ検索画面SC5をユーザ端末2に表示させる(ステップS401)。なお、図18のフローチャートでは記載を省略しているが、コンテンツ検索画面SC5をユーザ端末2に表示させた後、いずれかのタイミングで「close」ボタン508が押されると、処理が終了する。
【0109】
次に、コンテンツ検索画面SC5の「キーワード」入力欄501にキーワードが入力された状態で「検索」ボタン504が押されたか否かが判定される(ステップS402)。そして、「検索」ボタン504が押されていない場合は(ステップS402:No)、ステップS402に戻って判定が繰り返される。一方、「検索」ボタン504が押された場合は(ステップS402:Yes)、コンテンツ検索部61が、コンテンツ記憶部40に登録されているコンテンツの中から、「キーワード」入力欄501に入力されたキーワードに適合するタグ付きテキストを含む検索コンテンツを検索する(ステップS403)。そして、コンテンツ検索部61は、検索結果として得られた検索コンテンツの一覧を、コンテンツ検索画面SC5上で表示させる(ステップS404)。
【0110】
次に、コンテンツ検索画面SC5上で一覧表示されている検索コンテンツのいずれかが指定された状態で「再生」ボタン506が押されたか否かが判定される(ステップS405)。そして、「再生」ボタン506が押された場合は(ステップS405:Yes)、再生部64が、指定された検索コンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声出力させた後(ステップS406)、ステップS405に戻る。
【0111】
一方、「再生」ボタン506が押されていない場合は(ステップS405:No)、次に、一覧表示されている関連コンテンツのいずれかが指定された状態で「詳細」ボタン507が押されたか否かが判定される(ステップS407)。そして、「詳細」ボタン507が押されていない場合は(ステップS407:No)、ステップS405に戻る。一方、「詳細」ボタン507が押された場合は(ステップS407:Yes)、選択コンテンツ決定部63が、図10に例示したコンテンツ詳細画面SC3をユーザ端末2に表示させる(ステップS408)。
【0112】
なお、図18のフローチャートでは記載を省略しているが、コンテンツ詳細画面SC3をユーザ端末2に表示させた後、いずれかのタイミングで「戻る」ボタン306が押されると、ステップS401に戻ってユーザ端末2にコンテンツ検索画面SC5が再表示される。また、いずれかのタイミングで「close」ボタン308が押されると、処理が終了する。
【0113】
次に、コンテンツ詳細画面SC3の「タグ情報」欄304にタグ付きテキストが表示されている状態で「再生」ボタン305が押されたか否かが判定される(ステップS409)。そして、「再生」ボタン305が押された場合は(ステップS409:Yes)、再生部64が、「タグ情報」欄304に表示されているタグ付きテキストに対応する合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声出力させた後(ステップS410)、ステップS409に戻る。
【0114】
一方、「再生」ボタン305が押されていない場合は(ステップS409:No)、次に、「タグ情報」欄304にタグ付きテキストが表示されている状態で「コピー」ボタン307が押されたか否かが判定される(ステップS411)。そして、「コピー」ボタン307が押されていない場合は(ステップS411:No)、ステップS409に戻る。一方、「コピー」ボタン307が押された場合は(ステップS411:Yes)、選択コンテンツ決定部63が、コンテンツ詳細画面SC3により詳細情報を表示している検索コンテンツを選択コンテンツとして決定し(ステップS412)、コンテンツ生成部20に処理を受け渡して、コンテンツ選択部60による一連の処理が終了する。
【0115】
以上説明したように、本実施形態の音声合成装置1’は、UI画面を利用したユーザの操作に応じて、コンテンツ記憶部40に登録されているコンテンツの中からキーワードに合致するタグ付きテキストを含むコンテンツを検索し、得られた検索コンテンツの中から、新たなコンテンツを生成する際に利用する選択コンテンツを決定する。そして、決定した選択コンテンツに含まれるタグ付きテキストのタグ情報を、ユーザにより指定されたテキストに適用して新たなコンテンツを生成する。そして、生成した新たなコンテンツを、選択コンテンツの候補としてコンテンツ記憶部40に登録する。したがって、本実施形態の音声合成装置1’によれば、第1実施形態の音声合成装置1と同様に、過去に生成したコンテンツを利用して任意のテキストからタグ付きテキストを生成することができるので、タグ付きテキストを効率よく生成することができる。さらに、本実施形態の音声合成装置1’では、キーワードを用いて選択コンテンツの候補を絞り込むことができるので、タグ付きテキストの作成をより効率よく行うことができる。
【0116】
(補足説明)
以上説明した実施形態の音声合成装置1における各機能的な構成要素は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用いて実行されるプログラム(ソフトウェア)により実現することができる。
【0117】
図19は、音声合成装置1の主要部のハードウェア構成の一例を概略的に示すブロック図である。音声合成装置1の主要部は、図19に示すように、CPUなどのプロセッサ71と、RAMなどの主記憶部72と、各種の記憶装置を用いた補助記憶部73と、通信インタフェース74と、これらの各部を接続するバス75とを含んだ汎用のコンピュータシステムとして構成される。なお、補助記憶部73は、有線または無線によるLAN(Local Area Network)などで各部に接続されてもよい。
【0118】
音声合成装置1の各機能的な構成要素は、例えば、プロセッサ71が、主記憶部72を利用して、補助記憶部73などに格納されたプログラムを実行することによって実現される。このプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
【0119】
また、このプログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、このプログラムを、コンピュータ内部のROM(補助記憶部73)などに予め組み込んで提供するように構成してもよい。
【0120】
このプログラムは、音声合成装置1の機能的な構成要素(コンテンツ選択部10、コンテンツ生成部20、およびコンテンツ登録部30)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサ71が上記記録媒体からプログラムを読み出して実行することにより、上記の各構成要素が主記憶部72上にロードされ、上記の各構成要素が主記憶部72上に生成されるようになっている。なお、音声合成装置1の機能的な構成要素は、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
【0121】
以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0122】
1 音声合成装置
2 ユーザ端末
10 コンテンツ選択部
11 マーカコンテンツ提示部
12 関連コンテンツ提示部
13 選択コンテンツ決定部
14 再生部
20 コンテンツ生成部
21 タグ情報抽出部
22 タグ付きテキスト生成部
23 タグ付きテキスト修正部
24 音声波形生成部
25 再生部
30 コンテンツ登録部
31 類似度算出部
32 分類部
33 利用頻度更新部
40 コンテンツ記憶部
50 音声合成辞書
60 コンテンツ選択部
61 コンテンツ検索部
62 検索コンテンツ提示部
63 選択コンテンツ決定部
64 再生部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19