(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-07
(45)【発行日】2025-01-16
(54)【発明の名称】コンテンツ制作装置およびプログラム
(51)【国際特許分類】
G10L 13/07 20130101AFI20250108BHJP
G10L 13/033 20130101ALI20250108BHJP
G10L 13/10 20130101ALI20250108BHJP
【FI】
G10L13/07 B
G10L13/033 101A
G10L13/10 111D
(21)【出願番号】P 2021022463
(22)【出願日】2021-02-16
【審査請求日】2024-01-16
(31)【優先権主張番号】P 2020025203
(32)【優先日】2020-02-18
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(73)【特許権者】
【識別番号】399060908
【氏名又は名称】一般財団法人NHK財団
(74)【代理人】
【識別番号】100141139
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】熊野 正
(72)【発明者】
【氏名】今井 篤
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2006-313274(JP,A)
【文献】特開平9-16195(JP,A)
【文献】特開2003-5774(JP,A)
【文献】特開2016-9061(JP,A)
【文献】特開2012-27679(JP,A)
【文献】米国特許出願公開第2014/0350918(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
(57)【特許請求の範囲】
【請求項1】
文章を生成するための文章テンプレートを複数のバリエーションについて持つコンテンツテンプレートを記憶するテンプレート記憶部と、
データを取得するデータ取得部と、
前記コンテンツテンプレートに含まれる前記複数のバリエーションのそれぞれについて前記文章テンプレートに前記データを適用することによって文章を生成し、生成された前記文章
が持つ各文に対応する合成音声の時間長の総和である合成音声の時間長を決定するバリエーション生成部と、
前記文章を連結する際のつなぎ目であるポーズの時間長に関する条件と前記
合成音声の時間長および前記ポーズの時間長の総計に関する条件とに関する制約の下で、適宜定められた前記バリエーションごとの評価値の総計を評価関数として、バリエーションの組み合わせを探索する探索処理部と、
前記制約を満たすバリエーションの組み合わせを、前記評価関数の値に基づいて選択する選択部と、
前記ポーズの時間長に関する条件を満たし、且つ前記
合成音声の時間長および前記ポーズの時間長の総計に関する条件を満たすように、前記ポーズの時間長を調整するポーズ調整部と、
を備えるコンテンツ制作装置。
【請求項2】
前記コンテンツテンプレートは、トピックの列として構成されており、
前記トピックは、相互に排他的に選択され得る複数の前記バリエーションを含むように構成されている、
請求項1に記載のコンテンツ制作装置。
【請求項3】
前記ポーズの時間長に関する条件は、前記バリエーションに含まれる文の区切りにおけるポーズである文間ポーズの時間長に関する条件と、前記トピックの区切りにおけるポーズであるトピック間ポーズに時間長に関する条件と、を含む、
請求項2に記載のコンテンツ制作装置。
【請求項4】
前記ポーズ調整部は、前記文間ポーズの時間長がすべて同一になるように調整するとともに、前記トピック間ポーズの時間長がすべて同一になるように調整する、
請求項3に記載のコンテンツ制作装置。
【請求項5】
前記バリエーションごとの評価値は、前記コンテンツテンプレートに含まれる前記バリエーションの属性値として予め定められている、
請求項1から4までのいずれか一項に記載のコンテンツ制作装置。
【請求項6】
文章を生成するための文章テンプレートを複数のバリエーションについて持つコンテンツテンプレートを記憶するテンプレート記憶部と、
データを取得するデータ取得部と、
前記コンテンツテンプレートに含まれる前記複数のバリエーションのそれぞれについて前記文章テンプレートに前記データを適用することによって文章を生成し、生成された前記文章
が持つ各文に対応する合成音声の時間長の総和である合成音声の時間長を決定するバリエーション生成部と、
前記文章を連結する際のつなぎ目であるポーズの時間長に関する条件と前記
合成音声の時間長および前記ポーズの時間長の総計に関する条件とに関する制約の下で、適宜定められた前記バリエーションごとの評価値の総計を評価関数として、バリエーションの組み合わせを探索する探索処理部と、
前記制約を満たすバリエーションの組み合わせを、前記評価関数の値に基づいて選択する選択部と、
前記ポーズの時間長に関する条件を満たし、且つ前記
合成音声の時間長および前記ポーズの時間長の総計に関する条件を満たすように、前記ポーズの時間長を調整するポーズ調整部と、
を備えるコンテンツ制作装置としてコンピューターを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツ制作装置およびプログラムに関する。
【背景技術】
【0002】
合成音声をつなぎ合わせて用いることによって、人の発話を含まないコンテンツを制作する試みが為されている。
【0003】
特許文献1には、音声合成装置の構成が記載されている。具体的には、音声合成装置は、「合成音間に挟む無音の長さを予め定められた方法で推定又は無音を生成し、当該合成音と合成音間に挾む無音の長さの情報を格納した音声ファイルを作成する複数の合成音作成手段300」を含むことが記載されている。特許文献1に記載の音声合成装置は、上記の構成により、所定の時間長に収まる合成音声(放送番組等)を生成する。
【0004】
また、特許文献1の段落0018等には、番組を所望の長さに合わせるために、音声の話速変換を行うこととも記載されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
文面を固定的に作ってしまうと場合によっては話速を「大きく」変えなければならないため、品質を保つためには文面を加減しなければならない。
【0007】
本発明は、上記の課題認識に基づいて行なわれたものであり、話速変換に依らずに、所定の長さを有する自然な、音声としての品質の高いコンテンツを制作することのできるコンテンツ制作装置およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0008】
[1]上記の課題を解決するため、本発明の一態様によるコンテンツ制作装置は、文章を生成するための文章テンプレートを複数のバリエーションについて持つコンテンツテンプレートを記憶するテンプレート記憶部と、データを取得するデータ取得部と、前記コンテンツテンプレートに含まれる前記複数のバリエーションのそれぞれについて前記文章テンプレートに前記データを適用することによって文章を生成し、生成された前記文章の合計時間長を決定するバリエーション生成部と、前記文章を連結する際のつなぎ目であるポーズの時間長に関する条件と前記文章の時間長および前記ポーズの時間長の総計に関する条件とに関する制約の下で、適宜定められた前記バリエーションごとの評価値の総計を評価関数として、バリエーションの組み合わせを探索する探索処理部と、前記制約を満たすバリエーションの組み合わせを、前記評価関数の値に基づいて選択する選択部と、前記ポーズの時間長に関する条件を満たし、且つ前記文章の時間長および前記ポーズの時間長の総計に関する条件を満たすように、前記ポーズの時間長を調整するポーズ調整部と、を備える。
【0009】
[2]また、本発明の一態様は、上記のコンテンツ制作装置において、前記コンテンツテンプレートは、トピックの列として構成されており、前記トピックは、相互に排他的に選択され得る複数の前記バリエーションを含むように構成されているものである。
【0010】
[3]また、本発明の一態様は、上記のコンテンツ制作装置において、前記ポーズの時間長に関する条件は、前記バリエーションに含まれる文の区切りにおけるポーズである文間ポーズの時間長に関する条件と、前記トピックの区切りにおけるポーズであるトピック間ポーズに時間長に関する条件と、を含むものである。
【0011】
[4]また、本発明の一態様は、上記のコンテンツ制作装置において、前記ポーズ調整部は、前記文間ポーズの時間長がすべて同一になるように調整するとともに、前記トピック間ポーズの時間長がすべて同一になるように調整するものである。
【0012】
[5]また、本発明の一態様は、上記のコンテンツ制作装置において、前記バリエーションごとの評価値は、前記コンテンツテンプレートに含まれる前記バリエーションの属性値として予め定められているものである。
【0013】
[6]また、本発明の一態様は、文章を生成するための文章テンプレートを複数のバリエーションについて持つコンテンツテンプレートを記憶するテンプレート記憶部と、データを取得するデータ取得部と、前記コンテンツテンプレートに含まれる前記複数のバリエーションのそれぞれについて前記文章テンプレートに前記データを適用することによって文章を生成し、生成された前記文章の合計時間長を決定するバリエーション生成部と、前記文章を連結する際のつなぎ目であるポーズの時間長に関する条件と前記文章の時間長および前記ポーズの時間長の総計に関する条件とに関する制約の下で、適宜定められた前記バリエーションごとの評価値の総計を評価関数として、バリエーションの組み合わせを探索する探索処理部と、前記制約を満たすバリエーションの組み合わせを、前記評価関数の値に基づいて選択する選択部と、前記ポーズの時間長に関する条件を満たし、且つ前記文章の時間長および前記ポーズの時間長の総計に関する条件を満たすように、前記ポーズの時間長を調整するポーズ調整部と、を備えるコンテンツ制作装置としてコンピューターを機能させるためのプログラムである。
【発明の効果】
【0014】
本発明によれば、音声の話速変換(音声の時間の伸び縮み)の技術に依らずに、所望の時間長を有するコンテンツを制作することが可能である。
【図面の簡単な説明】
【0015】
【
図1】本発明の一実施形態によるコンテンツ制作装置の概略機能構成を示すブロック図である。
【
図2】同実施形態で用いる天気予報データの構成の一例を示す概略図である。
【
図3】同実施形態で用いる「天気予報(今日)」データの構成の一例を示す概略図である。
【
図4】同実施形態によるテンプレート記憶部が記憶するコンテンツテンプレートのデータの構成例を示す概略図である。
【
図5】同実施形態によるトピックテンプレートのデータの構成例を示す概略図である。
【
図6】同実施形態におけるトピックテンプレートに含まれる文章テンプレートと、その文章テンプレートを基に生成される生成文章との関係の例を示す概略図である。
【
図7】同実施形態におけるトピックテンプレートに含まれる文章テンプレートと、その文章テンプレートを基に生成される生成文章との関係の別の例を示す概略図である。
【
図8】同実施形態におけるコンテンツテンプレートに基づいてバリエーション生成部30が生成したトピックおよびそのバリエーションの相互関係を示す概略図である。
【
図9】同実施形態による探索処理部が探索処理を行う際の条件を示す概略図である。
【
図10】同実施形態によるコンテンツ制作装置の全体的な処理手順を示すフローチャートである。
【
図11】同実施形態によるコンテンツ制作装置が表示するユーザーインターフェースの画面例を示す概略図である。
【発明を実施するための形態】
【0016】
次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態によるコンテンツ制作装置1は、取得したデータを用いて、コンテンツを自動的に生成する。コンテンツ制作装置1が生成するコンテンツは、例えば、放送信号に載せて広い範囲に伝送されたり、インターネット等を介して端末装置に向けて送信されたり、することが可能である。コンテンツ制作装置1は、コンテンツを制作するために、予め、コンテンツのテンプレートのデータを保持している。コンテンツ制作装置1は、上記のデータを、コンテンツのテンプレートに適用することによって、コンテンツを制作する。コンテンツは、例えば、音声によるコンテンツである。コンテンツ制作装置1は、音声合成の技術を用いることによって、音声によるコンテンツを自動的に生成する。また、コンテンツ制作装置1は、所望の時間長のコンテンツを自動生成するために、コンテンツの多数のバリエーション(候補)を探索する処理を行う。本実施形態では、例として、天気予報の番組(音声のみによる番組)を自動的に生成するコンテンツ制作装置1を説明する。
【0017】
図1は、本実施形態によるコンテンツ制作装置の概略機能構成を示すブロック図である。同図において、1は、コンテンツ制作装置である。コンテンツ制作装置1は、データ受信部10と、テンプレート記憶部20と、バリエーション生成部30と、探索処理部40と、選択部50と、ポーズ調整部60と、出力部70とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。
【0018】
データ受信部10は、外部の装置から、通信ネットワーク(例えば、インターネット等)を介して、天気予報データを受信する。外部の装置とは、例えば、気象予報機関が運営するデータサーバー装置である。データ受信部10が受信する天気予報データは、天気予報に関する情報を含む。天気予報データの構成例については、別の図面を参照しながら後で説明する。データ受信部10は、受信した天気予報データを、バリエーション生成部30に渡す。なお、データ受信部10を「データ取得部」と呼んでもよい。データ受信部10は、通信によってデータを受信する代わりに、例えば記録媒体から読み出すなどといった通信に頼らない方法でデータを取得してもよい。
【0019】
テンプレート記憶部20は、コンテンツを制作するためのテンプレートのデータを記憶する。コンテンツを制作するためのテンプレートをコンテンツテンプレートと呼ぶ。コンテンツテンプレートは、1文もしくは複数の文からなる文章を生成するための文章テンプレートを、複数のバリエーションについて持つものである。その一形態として、コンテンツテンプレートは、トピックの列として構成してよい。トピックは、1つあるいは複数のバリエーションを含むように構成される。1つのトピック内において、それらのバリエーションは、相互に排他的に選択され得るものである。また、コンテンツテンプレート内の上記バリエーションの属性値として、バリエーションごとの評価値を、あらかじめ定める形で持つようにしてもよい。この評価値は、バリエーションの組み合わせを探索し選択する際の評価のための情報として用いられる。なお、テンプレート記憶部20が記憶する上記の文章テンプレートは、自然言語の文章のテキスト(文字コードの系列)であってもよく、合成指示形式で表わされる文章であってもよく、あるいはそれら両方であってもよい。合成指示形式とは、音声合成器に対する合成指示のためのデータの形式であり、音の並びのデータおよび韻律指示のデータを含むものである。合成指示形式の具体的な形態は、音声合成器に依って異なっていてもよい。テンプレートの具体的な構成については、別の図を参照しながら後で説明する。
【0020】
バリエーション生成部30は、テンプレートに含まれる複数のバリエーションのそれぞれについて、文章テンプレートに受信データを適用することによって文章を生成する。また、バリエーション生成部30は、生成された文章の合計時間長を決定する。バリエーション生成部30がこの合計時間長を決定するための方法の例は次の通りである。つまり、バリエーション生成部30は、音声合成器の機能を用いて、生成された文章が持つ各文に対応する合成音声を生成する。また、バリエーション生成部30は、この生成された各文の合成音声の時間長の総和である、バリエーションの合計時間長を決定する。例えば、バリエーション生成部30が合成音声を生成することにより必然的にその合成音声の時間長は決定される。
【0021】
探索処理部40は、合成音声を連結する際のつなぎ目であるポーズの時間長に関する条件と、合成音声の時間長およびポーズの時間長の総計に関する条件と、に関する制約の下で、探索処理を行う。探索処理部40が探索処理を行う際の評価関数は、選択するバリエーションの評価値の総計としてよい。つまり、探索処理部40は、評価関数の値が高くなるように、バリエーションの組み合わせを探索する。なお、ポーズの時間長に関する条件は、バリエーションに含まれる文の区切りにおけるポーズである文間ポーズの時間長に関する条件と、トピックの区切りにおけるポーズであるトピック間ポーズに時間長に関する条件とを含んでいてもよい。これらの条件の具体例については、
図9を参照しながら説明する。また、探索処理部40の処理の詳細についても、後述する。
【0022】
選択部50は、時間に関する制約を満たすバリエーションの組み合わせを、評価関数の値に基づいて1つ選択する。例えば、選択部50は、上記制約を満たすバリエーションの組み合わせの中から、評価関数値が最も良い組み合わせを選択する。あるいは、選択部50は、上記の探索処理部40が実行する探索アルゴリズムに依存して、評価関数の値が良いと判定される組み合わせ(必ずしも評価関数の値が最良でなくてもよい)を1つ選択する。
【0023】
ポーズ調整部60は、ポーズ(pause)の時間長に関する条件を満たし、且つ合成音声の時間長およびポーズの時間長の総計(つまり、生成されるコンテンツのトータルな時間長)に関する条件を満たすように、ポーズの時間長を調整する。ポーズとは、音声のコンテンツにおける無音の区間である。本実施形態では、文の区切りの箇所に挿入される文間ポーズと、トピックの区切りの箇所に挿入されるトピック間ポーズとのそれぞれについて、ポーズ調整部60が調整を行う。ポーズ調整部60がポーズの長さを調整することにより、コンテンツ制作装置1が生成するコンテンツ全体の長さが与えられた所定の条件を満足するように、調整できる。
【0024】
ポーズ調整部60は、その処理の一例として、文間ポーズの時間長がすべて同一になるように調整してもよい。また、ポーズ調整部60は、トピック間ポーズの時間長がすべて同一になるように調整してもよい。また、逆に、文間ポーズの時間長は一定でなくてもよい。また、トピック間ポーズの時間長が一定でなくてもよい。
【0025】
出力部70は、選択部50によって選択されたバリエーションの組み合わせによるコンテンツ(複数のトピックが連結された1本の音声コンテンツ)を出力する。出力部70が出力するコンテンツにおいて、ポーズの長さ(文間ポーズ、トピック間ポーズ)は既にポーズ調整部60が調整した長さとなっている。ポーズの区間には、無音ないしはそれに類する音声が既に挿入されている。出力部70が出力するコンテンツは、放送のための設備や、インターネット配信のための設備に渡される。
【0026】
図2は、天気予報データの構成の一例を示す概略図である。前述の通り、データ受信部10が、この天気予報データを受信する。図示するように、天気予報データ100は、日付、都道府県、内容の3つのデータ項目を含むように構成されている。日付は、この天気予報データが対象とする日付を表す。図示する例では、日付は「2020年01月25日」である。都道府県は、この天気予報データが対象とする都道府県名(地域名)を表す。
図示する例では、都道府県は「神奈川県」である。内容は、天気予報データの実体を有する部分である。内容は、複数のデータの塊の列を持つ。図示する例では、内容は、「警報・注意報」データ101と、「天気予報(今日)」データ102と、「予想気温(今日)」データ103と、「降水確率(今日)」データ104とを含むデータの列を持つ。「降水確率(今日)」データ104の後に、さらに別のデータの塊が続いていてもよい。ここでは、「警報・注意報」データ101、「天気予報(今日)」データ102、「予想気温(今日)」データ103、「降水確率(今日)」データ104のそれぞれが、後述するトピックに対応するようにデータを構成している。これらのうちの、「天気予報(今日)」データ102のさらに具体的な構成例を、次に説明する。
【0027】
図3は、「天気予報(今日)」データ102の構成の一例を示す概略図である。図示するように、「天気予報(今日)」データ102は、表形式のデータとして表現されており、地域、風向、天気、時間推移、局所天気の各項目を持つ。地域は、都道府県内をさらに小さい単位に分けたときの地域名である。風向は、天気予報における風向の予報である。
天気は、晴れ、曇り、雨、雪等といった言葉で表される天候の区分である。時間推移は、天気の時間的推移を表す表現である。例えば、天気予報で多用される時間推移の表現は、「後 曇り」、「時々 雨」、「一時 雪」などといった表現である。局所天気は、上記地域の中のさらに局所的な位置に依存して異なり得る天候の様相を表す表現である。図示する例では、地域「東部」に関しては、風向「西」、天気「晴れ」、時間推移「後 曇り」であり、局所天気はない。また、地域「西部」に関しては、風向「南」、天気「晴れ」、時間推移「後 曇り」、局所天気「所により 雨」である。
【0028】
図3に示した例では、表形式のデータとして「天気予報(今日)」データ102を表現した。ただし、データの表現形式としては、いかなる形式を用いてもよい。
図3に示したデータに関して、一例として、XML(拡張マークアップ言語、eXtensible Markup Language)を用いた表現形式を用いてもよい。また、その他の形式でデータを表現してもよい。
【0029】
図3においては、「天気予報(今日)」データ102の構成例を示したが、「警報・注意報」データ101や、「予想気温(今日)」データ103や、「降水確率(今日)」データ104や、その他のデータについても、適宜、適切な形でデータを構成するようにする。このようにして、データ受信部10は、コンテンツを生成するために必要な情報を外部から獲得する。
【0030】
図4は、テンプレート記憶部20が記憶するコンテンツテンプレートのデータの構成例を示す概略図である。図示するように、コンテンツテンプレートは、複数のトピックテンプレートを含むように構成される。また、これら複数のトピックテンプレートは、順序を有する。言い換えれば、1つのコンテンツテンプレートは、順序を有するトピックテンプレートの列として構成される。図示する例では、コンテンツテンプレートは、「あいさつ1」、「トピック 警報・注意報」、「トピック 今日の天気」、「トピック 今日の予想気温」、「トピック 降水確率」、「あいさつ2」といったトピックテンプレートを含む。トピックテンプレートのさらに詳細な構成については、次に説明する。
【0031】
図5は、1つのトピックテンプレートのデータの構成例を示す概略図である。図示するように、トピックテンプレートのデータは、必須フラグと、バリエーションのデータとを含むように構成される。必須フラグは、コンテンツ内において当該トピックが必須であるか否かを示す情報である。必須であるトピックは、コンテンツを生成する際に必ず含まれなければならない。必須ではないトピックは、例えばコンテンツ全体の時間長を調整する目的で、省略することが許される。必須フラグをtrue(真)とするかfalse(偽)とするかを、コンテンツテンプレートの作成者が適宜決定してよい。バリエーションは、そのトピックに関してコンテンツ制作装置1が生成し得る文章の複数の態様を表すデータである。バリエーションのデータを、図示するように、例えば表形式のデータとして構成してもよい。図示する例では、この表は、1番から5番までの5種類のバリエーションの情報を保持する。バリエーションの数は、5に限らず、任意である。この表は、番号、文章テンプレート、評価値、生成文章、各文の合成音声、合計時間長(duration)の各項目を持つ。文章テンプレートは、バリエーション生成部30が文章を生成する際の基となるテンプレートである。個々の文章テンプレートは、天気予報データを用いて置換することのできる部分(パラメーター)を持つ。評価値は、そのバリエーションを選択する場合の評価として用いられる数値である。例えば、評価値を、バリエーションごとに予め定めた固定値としてもよい。生成文章と合成音声と時間長の各項目は、テンプレートの段階では空欄であり、バリエーション生成部30が実際の文章を生成した際に埋められる項目である。生成文章は、前記の文章テンプレートを基にバリエーション生成部30が生成した文章を格納する欄である。合成音声は、前記の生成文章を基にバリエーション生成部30が合成した各文の合成音声を格納する欄である。合成音声のデータは、例えば、音圧レベルの系列のデータ(あるいは、それを符号化したデータ)として格納される。合計時間長は、前記の各文の合成音声を再生した場合の時間の長さの総和であり、例えば秒の単位で表わされる。
【0032】
なお、コンテンツテンプレート内において、トピックが必須であるか否かや、あるいはトピックが省略されなければならないか否かが、他のトピックの採否に依存するように規定されてもよい。例えば、トピックAがトピックBより先行する場合、「トピックAが存在する場合にはトピックBは必須」と規定されてもよい。また例えば、トピックAがトピックBより先行する場合、「トピックAが存在する場合にはトピックBは採用不可」と規定されてもよい。つまり、複数のトピックがセットで採用されたり、複数のトピックが排他的に採用されたりするという関係を導入できるようにしてもよい。なお、コンテンツテンプレート内における複数のトピック間の依存の態様は、ここに例示したものには限られず、任意の関係を導入してよい。
【0033】
以上、コンテンツテンプレートと、そのコンテンツテンプレートを構成するためのトピックテンプレートの、それぞれのデータについて説明した。つまり、音声コンテンツは、コンテンツテンプレートにしたがって、複数のトピックが決められた順番で並べられることによって生成されるものである。ただし、必須ではないトピックは省略されてもよい。
また、1つのトピックは、複数のバリエーションを持つことができる。トピックテンプレートは各バリエーションの文章テンプレートを持つため、バリエーション生成部30は、トピックテンプレートを用いて、各バリエーションの文章を生成することができる。また、バリエーション生成部30が生成文章に基づいて実際に音声合成することにより、その合成音声の合計時間長がわかる。また、トピックテンプレートにおいて、バリエーションごとの評価値が与えられている。つまり、バリエーション生成部30がそれぞれのトピックの複数のバリエーションを生成した後、その時間長や評価値に基づいて、コンテンツ全体の最適な形態を探索することが可能となる。この探索処理については、後述する。
【0034】
バリエーションごとの評価値としては、予め固定値が与えられている例を上で説明した。ただし、バリエーションごとの評価値は、必ずしも予め固定されていなくてもよい。例えば、文章テンプレートを基に生成された生成文章の内容等に応じて、評価値を可変としてもよい。
【0035】
図6は、上で説明したトピックテンプレートに含まれる文章テンプレートと、その文章テンプレートを基に生成される生成文章との関係の例を示す概略図である。図示する例では、文章テンプレートは、「(都道府県)の今日の天気です。」という文の後に、「(地域)は、(風向)の風、(天気)(時間推移)(局所天気)でしょう。」という文を複数回繰り返し得る、ことを表すデータである。本例において、この繰り返しは、都道府県内の地域ごとの繰り返しである。文章テンプレートに含まれる、(都道府県)、(地域)、(風向)、(天気)、(時間推移)、(局所天気)のそれぞれは、いずれもパラメーターである。パラメーターは、生成文章に変換される際に、実データで置換され得るものである。パラメーターを置換する実データは、データ受信部10が取得した天気予報データに含まれるものである。本例では、パラメーター(都道府県)は、実際の都道府県名である「神奈川県」(
図2を参照)で置換される。これにより、「(都道府県)の今日の天気です。」というテンプレートに基づいて、バリエーション生成部30は、「神奈川県の今日の天気です。」という文を生成する。また、パラメーターである(地域)、(風向)、(天気)、(時間推移)、(局所天気)のそれぞれは、
図3に示した「天気予報(今日)」のデータ内の情報で置換される。例えば、神奈川県の東部に関しては、「(地域)は、(風向)の風、(天気)(時間推移)(局所天気)でしょう。」というテンプレートに基づいて、バリエーション生成部30は、「東部は、西の風、晴れ 後 曇りでしょう。」という文を生成する。また、神奈川県の西部に関しては、「(地域)は、(風向)の風、(天気)(時間推移)(局所天気)でしょう。」というテンプレートに基づいて、バリエーション生成部30は、「西部は、南の風、晴れ 後 曇り 所により 雨でしょう。」という文を生成する。
【0036】
図7は、上で説明したトピックテンプレートに含まれる文章テンプレートと、その文章テンプレートを基に生成される生成文章との関係の別の例を示す概略図である。なお、
図6と
図7とは、同一のトピックである「今日の天気」に含まれる、互いに別のバリエーションである。
図7の例では、文章テンプレートは、「(都道府県)の今日の天気は、県内全域、(天気)(時間推移)でしょう。」という表現を表すデータである。この
図7の文章テンプレートは、
図6に示した文章テンプレートの例と比較して、(風向)や(局地天気)の情報が省略されている。つまり、
図6より情報が省略された伝え方になっている。また、この文章テンプレートは、(都道府県)内の全ての(地域)において、(天気)(時間推移)が同一であるときにしか文章を生成しない。それ以外の時には、このバリエーションは存在しないものとして取り扱う。この文章テンプレートに含まれる(都道府県)、(天気)、(時間推移)のそれぞれは、いずれも、パラメーターである。
図6の場合と同様に、文章テンプレート内に存在するパラメーターは、実データ(天気予報データ)の情報を用いて置換される。バリエーション生成部30は、
図7の文章テンプレートを基に、実データを用いてパラメーターの置換を行うことにより、「神奈川県の今日の天気は、県内全域、晴れ 後 曇りでしょう。」という文を生成する。
【0037】
以上説明したように、
図6および
図7でそれぞれ示した2種類の文章テンプレートは、同一のトピックのための、情報の詳細さが異なる2つのバリエーションに属するものである。バリエーション生成部30は、同一の受信データ(ここでは、天気予報データ)に基づいて、1つのトピックに関して、複数の文章テンプレートを用いることにより、複数の生成文章をバリエーションとして生成する。また、バリエーション生成部30は、これらの複数の生成文章のそれぞれに対応して、音声合成処理により、音声を生成する。音声の合計時間長は、バリエーションに応じて異なるものである。例として示した
図6および
図7では、
図6の文章テンプレートに基づいて作られる生成文章のほうが、
図7の文章テンプレートに基づいて作られる生成文章よりも長い。また、それぞれの生成文章に対応して生成される合成音声についても、
図6の文章テンプレートに対応した合成音声の合計時間長のほうが、
図7の文章テンプレートに対応した合成音声の合計時間長よりも長い。このように、バリエーション生成部30は、異なる文章テンプレートを用いることにより、1つのトピックに対して、異なる合計時間長を有する合成音声を生成する。
【0038】
図8は、コンテンツテンプレートに基づいてバリエーション生成部30が生成したトピックおよびそのバリエーションの相互関係を示す概略図である。言い換えれば、
図8は、トピックごとに複数のバリエーションを有する探索空間を示すものである。図示するように、探索空間は、シリアルなトピックの列を持っている。また、その列に含まれる各トピックは、並列する1個以上のバリエーションを持つことができる。
図8に示す例において、「あいさつ1」は1個のバリエーションを持つ。また、「トピック1」は、並列する3個のバリエーションを持つ。また、「トピック2」は、並列する3個のバリエーションを持ち、そのうちの1つのバリエーションには「なし」と記されている。この「なし」は、当該バリエーションが、生成文および合成音声を持たないことを表している。そして、「あいさつ2」は1個のバリエーションを持つ。「なし」と記されたバリエーション以外の通常のバリエーションの各々は、生成文章と、各文の合成音声と、合計時間長と、評価値とを持つ。生成文章は、バリエーション生成部30が文章テンプレートに基づいて生成した文章である。合成音声は、バリエーション生成部30が生成文章の各文に基づいて合成した音声である。合計時間長は、バリエーション生成部30によって生成された各文の合成音声の先頭から最後までの時間の長さの総和である。評価値は、そのバリエーションの評価値である。評価値は、そのバリエーションが選択されることの好ましさを表す数値である。評価値は、原則として、より詳細であり、結果としてより大きな合計時間長を持つようなバリエーションに対してより大きな値を与える。
【0039】
バリエーション生成部30がこの
図8に示すような探索空間を構築する。言い換えれば、バリエーション生成部30は、探索空間内の各バリエーションの生成文章を生成し、その生成文章に対応する合成音声を生成し、その合成音声の合計時間長を確定する。また、各バリエーションの評価値は、予め定められているか、あるいは生成文章や合成音声が生成された時点で確定される。つまり、バリエーション生成部30がこの探索空間を構築した時点までには、各バリエーションの評価値は確定している。このように、
図8に示す探索空間内の各バリエーションにおける、時間長および評価値の具体的な値が定まっている状態において、探索処理部40は、評価値の総計を最大にするようなバリエーションの選択を行うことができる。具体的には、探索処理部40は、各トピックから1個のバリエーションを選択することができる。そして、探索処理部40は、所定の条件を満しながら、評価値の総計が最大になる解を求める。ここでの解とは、コンテンツ内の各トピックにおいて選択するバリエーションの組み合わせである。バリエーション生成部30は、
図8に示す探索空間を表現するデータをメモリー等の記憶媒体に書き込み、探索処理部40が参照できるようにする。
【0040】
図9は、探索処理部40が探索処理を行う際の拘束条件を示す概略図である。図示するように、探索処理を行う際の条件は、トータルコンテンツ長と、文間ポーズ下限と、文間ポーズ上限と、トピック間ポーズ下限と、トピック間ポーズ上限とを含む。これらの条件は、例えば、あらかじめ設定され、探索処理部40から参照可能なメモリー等に書き込まれている。トータルコンテンツ長は、コンテンツ制作装置1が生成するコンテンツ全体の時間長である。制作対象であるコンテンツ内のすべてのトピックの音声を連結したときの時間長は、トータルコンテンツ長を超えてはならない。文間ポーズ下限は、文間のポーズの時間長の下限である。文間ポーズ上限は、文間のポーズの時間長の上限である。トピック間ポーズ下限は、トピック間のポーズの下限である。トピック間ポーズ上限は、トピック間のポーズの上限である。これらの設定値の単位は、すべて秒である。
【0041】
文間とは、生成されたトピック内の各文のつなぎである。言い換えれば、文間とは、
図6や
図7に示した文章テンプレートや生成文章において「<文区切り>」が存在する場所である。トピック間とは、コンテンツテンプレートにおけるトピックとトピックとの間の場所である。
図8において「<トピック区切り>」で示している箇所が、トピック間である。
【0042】
図示する例では、トータルコンテンツ長は、240.000[秒]である。また、文間ポーズ下限は、0.700[秒]である。また、文間ポーズ上限は、1.500[秒]である。また、トピック間ポーズ下限は、1.000[秒]である。また、トピック間ポーズ上限は、3.000[秒]である。
【0043】
探索処理部40は、設定された条件を満たしながら、選択されたバリエーションの評価値の総和を最大化するバリエーションの組み合わせを探索する。文間ポーズは、その下限と上限との間に差があるように設定される。トピック間ポーズもまた、その下限と上限との間に差があるように設定される。したがって、探索処理部40は、これらのポーズの時間長が後で調整可能であることを前提として、バリエーションを選択する。つまり、探索処理部40は、選択されたバリエーションの合成音声をすべて連結し、且つ文間ポーズおよびトピック間ポーズを各々の下限値とした結果の長さが、上記コンテンツ長以下であり、且つ文間ポーズおよびトピック間ポーズを各々の上限値とした結果の長さが、上記コンテンツ長以上であるような組み合わせの中から、評価値の総和が最大であるバリエーションの組み合わせを探索する。文間ポーズやトピック間ポーズが調整可能であるということは、それらそれぞれのポーズの時間長が、設定された条件内で伸び縮み可能であるということである。
【0044】
上記のコンテンツ長に関する制約を数式で表すと、次の通りである。即ち、コンテンツ長をa秒(固定長)として、コンテンツ内に含まれるトピック数をb、総文数をc、音声部分の時間長の総和をd秒、文間ポーズ下限をe秒、文間ポーズ上限をf秒、トピック間ポーズ下限をg秒、トピック間ポーズ上限をh秒とする。この場合の制約条件は、次の式(1)で表わされる。
【0045】
d+(c-b)×e+(b-1)×g≦a≦d+(c-b)×f+(b-1)×h
・・・(1)
【0046】
この式の制約条件を満たすように探索を行えば、文間ポーズの長さおよびトピック間ポーズの長さを適切に調整することにより、トータルコンテンツ長をちょうどa秒とすることができる。
【0047】
なお、コンテンツ長を上記のように固定値とする代わりに、コンテンツ長の上限および下限を設けて、その制約条件下で探索処理を行うようにしてもよい。
【0048】
なお、探索処理部40は、オプショントピックに関しては、そのトピックに属するバリエーションを選択しないような解を求めてもよい。オプショントピックは、
図5に示したトピックテンプレートにおいて、必須フラグが「false」に設定されているトピックである。なお、オプショントピックに関してバリエーションを選択しないことは、生成文や合成音声の存在しないバリエーション(例えば、
図8において「(なし)」と表記しているバリエーション)を選択することと等価である。
【0049】
探索処理部40は、どのような探索方法(アルゴリズム)を用いて探索処理を行ってもよい。探索処理部40は、一例として、予め決められた長さの制約付きのA*探索(A* search algorithm)を使ってもよい。A*探索自体は、既存の手法である。この場合、探索処理部40は、コンテンツの先頭のトピックから始め、評価値の高いバリエーションを優先して深さ方向の探索を行う。探索処理部40は、その探索処理中のあるトピックの箇所において、残っているトピックの期待評価値(各トピックについて最大評価値であるバリエーションを選んだ場合の評価値の総和)と、残っているトピックのトータルの最大時間長(各トピックについて最大合計時間長であるバリエーションを選び、かつ、各ポーズ長として上限値を選んだ場合の時間長の総計)および最小時間長(各トピックについて最小合計時間長であるバリエーションを選び、かつ、各ポーズ長として下限値を選んだ場合の時間長の総計)を保持する。そして、探索処理部40は、そのトピックの箇所までの時間長の総和の最大値(各ポーズ長として上限値を選んだ場合の時間長の総計)および最小値(各ポーズ長として下限値を選んだ場合の時間長の総計)に、残っているトピックのトータルの最大時間長および最小時間長を各々加算して、生成するコンテンツのトータルの時間長の最大および最小を見積もる。そして、探索処理部40は、そのトータルの時間長の最大および最小が所定範囲内に収まる仮説の中から、(そのトピックの箇所までの評価値の総和と、残っているトピックの期待評価値との和)が、最大である仮説について探索処理を伸ばしていく。
【0050】
ただし、探索処理部40による処理は、必ずしも上に例示したアルゴリズムに基づく必要はない。いずれの探索手法を用いる場合も、探索処理部40は、コンテンツのトータルの時間長が制約を満たし得ないようなバリエーションの組み合わせを排除しながら、探索空間内で、評価値の総和が最大となる解を探索する。
【0051】
なお、探索処理部40が探索を行う際のコンテンツ全体の時間長Tは、次のように計算される。バリエーションの組み合わせが決まると、それらのバリエーションが持つ合成音声の長さと、それらのバリエーションを用いてコンテンツを生成する場合の文間ポーズの数およびトピック間ポーズの数が定まる。また、1個の文間ポーズの時間長と、1個のトピック間ポーズの時間長とは、
図9に示した制約条件の中で可変である。なお、すべての文間ポーズの時間長が互いに等しくなるようにする。また、すべてのトピック間ポーズの時間長が互いに等しくなるようにする。このとき、次のA,B,Cの値(いずれも、時間の長さ)は、次の通りである。
A:選択されたバリエーションが持つ合成音声の時間長の合計B:文間ポーズの時間長×文間ポーズの数(=総文数-トピック数)C:トピック間ポーズの時間長×トピック間ポーズの数(=トピック数-1)そして、コンテンツ全体の時間長Tは、T=(A+B+C)で表わされる。ただし、BおよびCは、可変であり、各々最大値~最小値の間の値を取りうる。探索処理部40は、このTが前述の条件を満たす制約の中で、バリエーションの組み合わせを探索する。
【0052】
図10は、コンテンツ制作装置1の全体的な処理手順を示すフローチャートである。以下、このフローチャートに沿って処理の手順を説明する。
【0053】
まず、ステップS1において、データ受信部10は、コンテンツ制作用のデータを受信する。コンテンツ制作用のデータは、例えば、前述の天気予報データ100(
図2を参照)である。データ受信部10は、受信したデータを、バリエーション生成部30に渡す。
【0054】
次に、ステップS2において、バリエーション生成部30は、テンプレート記憶部20から、コンテンツのテンプレートのデータを読み出す。コンテンツのテンプレートのデータの例は、
図4に示したとおりである。
【0055】
次に、ステップS3において、バリエーション生成部30は、ステップS1において受け取ったデータを、ステップS2で読み込んだテンプレートに適用して、コンテンツのバリエーションを生成する。ここで、バリエーション生成部30は、使用する可能性のあるすべてのバリエーションを生成する。各々のバリエーションは、生成文章と、その各文の合成音声と、その音声の合計時間長の情報とを含むものである。また、各バリエーションには評価値が付与されている。
【0056】
次に、ステップS4において、探索処理部40は、ステップS3で生成されたバリエーションの探索を行う。探索処理については既に述べたとおりであり、探索処理部40は、コンテンツの長さ(時間長)に関する条件を満たすように、且つ評価値が高くなるように、バリエーションの組み合わせを探索する。探索処理部40は、探索処理の結果を、選択部50に渡す。探索処理の結果は、バリエーションの組み合わせの情報と、その組み合わせを選択する場合の評価値の情報とを含む。
【0057】
次に、ステップS5において、選択部50は、バリエーションの組み合わせを選択する。具体的には、選択部50は、評価値の総計が高くなるようにバリエーションの組み合わせを選択する。一例として、選択部50は、コンテンツの長さの制約条件を満たす組み合わせの中で、評価値の総計が最も高くなるバリエーションの組み合わせを選択する。選択部50は、選択したバリエーションの組み合わせに関する情報を、ポーズ調整部60に渡す。
【0058】
次に、ステップS6において、ポーズ調整部60は、ポーズの長さを調整する。具体的には、ポーズ調整部60は、文間ポーズ1個あたりの時間長と、トピック間ポーズ1個あたりの時間長とを調整する。ポーズ調整部60は、制作するコンテンツ全体の長さLに基づき、次の等式(2)を満たすPSおよびPTを決定する。
【0059】
LU+NS・PS+NT・PT=L ・・・ (2)
【0060】
ただし、式(2)において、NSおよびNTは、それぞれ、選択されたバリエーションの組み合わせを採用する場合の、文間ポーズの数およびトピック間ポーズの数である。バリエーションの組み合わせが決まれば、NSおよびNTそれぞれの値は決まる。PSおよびPTは、それぞれ、文間ポーズ1個あたりの時間長およびトピック間ポーズ1個あたりの時間長である。PSおよびPTは、ポーズ調整部60が決定すべき値である。LUは、合成音声の時間長の総和である。なお、ポーズ調整部60は、必要に応じて、PSの値とPTの値との間で、適切なバランスをとるようにしてもよい。
【0061】
PSおよびPTの値が求まると、ポーズ調整部60は、文間およびトピック間に、それぞれ、PSおよびPTで定まる長さのポーズ(無音区間)を挿入しながら、生成された合成音声をすべて連結して、全体として1本の音声コンテンツを作成する。ポーズ調整部60は、作成した音声コンテンツを出力部70に渡す。
【0062】
次に、ステップS7において、出力部70は、作成した音声コンテンツを外部に出力する。音声コンテンツは、例えば、放送(ラジオあるいはテレビ)やインターネット配信などの手段で、配信される。
【0063】
図11は、コンテンツ制作装置1のユーザーインターフェースの画面例を示す概略図である。コンテンツ制作装置1が想定するユーザーは、コンテンツ制作者である。コンテンツ制作装置1は、例えばサーバー装置として機能して、クライアント装置であるユーザー端末(PC等)のディスプレイ装置に、この画面を表示する。図示する画面例は、コンテンツ制作装置1が制作した音声コンテンツ(気象情報の番組)の構成をユーザーに提示するためのものである。
【0064】
この画面では、画面タイトルとして「コンテンツ制作」という文字列が表示される。また、コンテンツ名として、「2020/1/25 午前10時 気象情報」という文字列が表示される。このコンテンツ名は、適宜、設定されたものである。また、コンテンツ長が「240秒」であることが表示される。コンテンツ長は予め設定されているもの(
図9を参照)である。また、放送日時として、「2020/1/25 10:00:00」という文字列が表示される。放送日時は、予め設定されるものである。コンテンツ制作装置1が、放送日時の設定に基づいて、生成した音声コンテンツを適切なタイミングで自動的に外部に出力するようにしてもよい。また、送出状態として、「未了」という文字列が表示されている。この送出状態は、例えば、コンテンツ制作装置1内の管理部(不図示)が管理しているコンテンツごと状態の情報に基づいて表示されるようにしてよい。
【0065】
また、この画面の下側には、トピックごとの情報の列が表示される。画面は、適宜、上下方向にスクロール可能としてよい。トピックの情報としては、トピックの名称や、バリエーションの種類を表す名称や、生成文の文字列が表示される。また、画面が、試聴ボタンや編集ボタンを持つようにしてもよい。ユーザーが視聴ボタンを押す(クリック等)操作を行うと、ユーザーはそのトピックの合成音声を試聴することができる。ユーザーが編集ボタンを押す操作を行うと、編集画面を用いてユーザーが生成文を修正(編集)したり、修正後の文に基づいて音声を再合成したりできるようにしてよい。
【0066】
なお、ここに示したユーザーインターフェースは一例であり、コンテンツ制作装置1が、他の情報を画面に表示したり、ユーザーに他の操作を行わせたりできるようにしてもよい。
【0067】
本実施形態によれば、コンテンツ制作装置1は、テンプレートに基づいて、複数のバリエーションの中から適切な文章を選択し、組み合わせて、コンテンツを自動的に制作することができる。また、本実施形態によれば、コンテンツ制作装置1は、コンテンツ全体の長さ(時間長)が所望の値となるようにコンテンツを自動的に制作することができる。また、本実施形態によれば、コンテンツ制作装置1は、話速変換の処理を行うことなく、自然な速度でのアナウンスによるコンテンツを自動的に制作することができる。また、本実施形態によれば、コンテンツ制作装置1は、時間(コンテンツの時間長)の制約の中で、評価値に基づいてバリエーションを選択するため、結果として評価値の高い(即ち、内容としてより好ましい)コンテンツを自動的に制作することができる。
【0068】
なお、上述した実施形態におけるコンテンツ制作装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0069】
以上、実施形態を説明したが、本発明をさらに次のような変形例で実施してもよい。
【0070】
実施形態で説明したコンテンツの例では、トピックとして「あいさつ1」と「あいさつ2」とを含むようにした。これらのトピックに関しては、バリエーションがそれぞれ1種類ずつしか含まれていなかった。このように複数のバリエーションを持たないトピックに関しては、コンテンツ制作装置1による自動生成(時間長の調整のための解の探索)を行わないようにしてもよい。例えば、あいさつに相当する部分を、他の方法で制作するようにしてもよい。
【0071】
実施形態では、各文の時間長を特定するために全てのバリエーションの音声合成を事前に実施していたが、音声合成処理は一般に時間や計算資源を要する処理である。そこで、実際に音声合成処理を実施する前に、より簡易な処理によって各文の時間長を正確に求める処理のみをまず実施してもよい。実際に音声合成処理を行わずに文の時間長のみを正確に求める処理は、既存技術によって可能である(例えば、DNN音声合成技術において一般的なduration modelを用いるなど)。つまり、探索に先立って行う音声合成処理の代わりに時間長のみを求めておき、そして探索処理を行い、探索処理の終了後に、解として使われることになった文についてのみ音声合成処理を実施することにしてもよい。
一般に、音声の時間長のみを求める処理のコストは、実際にその音声波形を生成する処理のコストよりも十分に小さい。
【0072】
上記実施形態では、音声合成処理を含む構成で説明したが、コンテンツ制作装置1が音声合成処理を含まないようにしてもよい。探索処理終了後に、解として使われることになった文のみについて、発話文を出力するものでもよい。この出力された発話文を、別途音声合成処理するようにしてもかまわない。
【0073】
上記実施形態では、各文の時間長を正確に求める処理を行う例をあげて説明したが、各文の時間長が誤差を含むようにしてもよい。つまり、探索する段階において、各文の時間長がある程度の誤差が含むことを許容する。探索する段階においては、各文の時間長に所定程度の精度があれば、ポーズ調整部での調整や話速変換技術などを用いた尺調整でその誤差を吸収することが可能だからである。その場合、
図9に示すトータルコンテンツ長が、他のパラメーターと同様に、下限や上限で表わされるパラメーターであってもかまわない。あるいは、トータルコンテンツ長が、許容される誤差範囲を持つものであってもかまわない。許容される誤差範囲は、秒数(例えば、±10秒)で表わされてもよいし、トータルコンテンツ長に対する比率(例えば、±5%)で表わされてもよい。
【0074】
上記実施形態では、バリエーションの評価値として、予め固定値が与えられている例を説明したが、必ずしも予め固定された値でなくてもよい。バリエーションの評価値は、探索処理が行われる際に決まっていればよい。例えば、探索する際に、それまでに採用した文の中に同一の文や同意の文が含まれるか否かに応じて評価値を可変としてよい。そうすることにより、同じ表現や同じ情報が繰り返されるのを避けることができる。また、それまでに採用した文の時間長の合計値に応じて評価値を変えてもよい。そうすることにより、残った時間長によってコンテンツの内容を変えることもできる。つまり、同じ生成文であっても、コンテンツの中の出てくるタイミングや文の前後関係などに応じて、評価値を変えてもかまわない。
【0075】
上記実施形態においては、各文の正確な尺を予め確定させてから行う処理を説明したが、この長さは概算値であっても良い。その場合、本手法で制作されたコンテンツの実際の長さについて、各概算値と正確な値との差異に応じて、目標とする長さからずれが生じる場合がある。そのずれが微小なものであるならば、話速変換技術等を用いて正確な尺に調整することにしても良い。ある程度以下の範囲ならば話速変換を採用しても自然さが損なわれないことが知られている(A. Nakamura et al. “A New Approach to Compensate Degeneration of Speech Intelligibility for Elderly Listeners”, IEEE Transaction on Broadcasting, Vol.42, No3, 1996 など)。例えば、コンテンツとしての最終的な時間長が240秒である場合に、本発明で許容する誤差を12秒として文を作成した上で、この誤差を話速変換等で聴感上不自然にならないように調節することが考えられる。ここで、許容誤差の範囲内でコンテンツを制作することが求められるが、その方法の一例として、当該装置の音声合成器の平均的な発話速度を予め調べてこれを基準の話速とし、その値を用いて文字数から発話時間の推定をすることが考えられる。一般に音声合成による発話速度は一定であるため、許容誤差の範囲での発話時間推定が期待できる。また、コンテンツの用途によって、少し発話速度を速くあるいは遅く発話をすることが求められる場合がある。この場合は、上記、音声合成器の平均的な発話速度を話速変換技術等によって所望の値に一律にシフトさせて、これを新たに基準の話速として、上述の方法と同様に、その基準の発話速度に応じた誤差の少ない発話時間の推定を行うことができる。基準の話速を管理することで、その話速に応じた情報量によるコンテンツが制作される。
【0076】
実施形態では、天気予報(気象情報)の音声コンテンツを自動的に生成する処理について説明した。生成するコンテンツは、天気予報以外であってもよい。例えば、合成音声によってニュースを読み上げる形のニュース番組や、合成音声を用いて証券の銘柄ごとの価格の情報を流す証券市況番組や、演奏する曲目等を合成音声によって紹介する音楽番組や、その他のコンテンツを、コンテンツ制作装置1が制作するようにしてもよい。
【0077】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0078】
本発明は、例えば、コンテンツの制作等に利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0079】
1 コンテンツ制作装置
10 データ受信部(データ取得部)
20 テンプレート記憶部
30 バリエーション生成部
40 探索処理部
50 選択部
60 ポーズ調整部
70 出力部