特許第6134043号(P6134043)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社カプコンの特許一覧

<>
  • 特許6134043-音声生成プログラムおよびゲーム装置 図000002
  • 特許6134043-音声生成プログラムおよびゲーム装置 図000003
  • 特許6134043-音声生成プログラムおよびゲーム装置 図000004
  • 特許6134043-音声生成プログラムおよびゲーム装置 図000005
  • 特許6134043-音声生成プログラムおよびゲーム装置 図000006
  • 特許6134043-音声生成プログラムおよびゲーム装置 図000007
  • 特許6134043-音声生成プログラムおよびゲーム装置 図000008
  • 特許6134043-音声生成プログラムおよびゲーム装置 図000009
  • 特許6134043-音声生成プログラムおよびゲーム装置 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6134043
(24)【登録日】2017年4月28日
(45)【発行日】2017年5月24日
(54)【発明の名称】音声生成プログラムおよびゲーム装置
(51)【国際特許分類】
   G10L 13/08 20130101AFI20170515BHJP
   G10L 13/02 20130101ALI20170515BHJP
【FI】
   G10L13/08 160
   G10L13/08 122
   G10L13/02 130B
【請求項の数】3
【全頁数】14
(21)【出願番号】特願2016-216135(P2016-216135)
(22)【出願日】2016年11月4日
【審査請求日】2016年12月14日
【新規性喪失の例外の表示】特許法第30条第2項適用 平成28年8月25日 毎日放送 VOICE(ボイス) 平成28年8月25日 テレビ東京 ワールドビジネスサテライト 平成28年9月1日 http://www.youtube.com/watch?v=Swhfg07uako 平成28年9月19日 http://www.youtube.com/watch?v=eJUg−YH8HHA 平成28年9月7日 https://www.youtube.com/watch?v=3yRivId6oaM 平成28年9月15日 東京ゲームショウ2016 幕張メッセ 平成28年9月19日 http://hibiki−radio.jp/description/megami/detail 平成28年10月12日 https://www.youtube.com/watch?v=rJ6xGJXHGhc 平成28年10月24日 https://www.youtube.com/watch?v=ycORsq5r6dw 平成28年10月26日 https://www.youtube.com/watch?v=YGJnvR21xEU 平成28年10月19日 http://www.capcom.co.jp/cptv/
【早期審査対象出願】
(73)【特許権者】
【識別番号】000129149
【氏名又は名称】株式会社カプコン
(74)【代理人】
【識別番号】100123940
【弁理士】
【氏名又は名称】村上 辰一
(72)【発明者】
【氏名】山東 善樹
【審査官】 上田 雄
(56)【参考文献】
【文献】 特開2001−154685(JP,A)
【文献】 特開2004−037910(JP,A)
【文献】 特開2005−157602(JP,A)
【文献】 特開2006−268428(JP,A)
【文献】 特開2010−190995(JP,A)
【文献】 特開2004−118004(JP,A)
【文献】 特開2000−066696(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−13/10
(57)【特許請求の範囲】
【請求項1】
記憶部を備えたコンピュータを、
ユーザによって入力された語句を前記記憶部に記憶する第1手段、
所定のテキストデータに、前記記憶部から読み出された当該テキストデータと関連する語句を挿入し、所定の条件が成立した場合、前記関連する語句とは異なる他の語句を前記テキストデータに挿入する第2手段、
前記テキストデータを前記挿入された語句の直後で複数のフレーズに分割するテキスト分割手段、
このテキストデータを音声合成する第3手段、
この合成音声を、前記分割された各フレーズ毎に順次再生する第1音声再生手段、および、
前記第1音声再生手段による各フレーズの合成音声の再生の境目に、予め録音された音声信号である録音音声を再生する第2音声再生手段、
として機能させる音声生成プログラム。
【請求項2】
前記第2音声再生手段は、前記第2手段が前記関連する語句とは異なる他の語句を前記テキストデータに挿入した場合、前記録音音声として、語句を間違ったことに対応する間投詞の音声を選択する請求項に記載の音声生成プログラム。
【請求項3】
請求項1または請求項2に記載の音声生成プログラム、および、前記テキストデータを記憶する記憶部と、入力操作部と、該音声生成プログラムを実行する制御部と、を備え、
前記テキストデータは、前記ゲーム上の仮想的な話者がユーザに対して発声する会話文であり、
前記挿入される語句は、前記ユーザが前記入力操作部を用いて前記仮想的な話者に対して入力した語句である、
ゲーム装置。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、テキストに基づいて合成された音声を含む音声を再生する音声生成プログラムおよびゲーム装置に関する。
【背景技術】
【0002】
ビデオゲームなどで、場面に応じた音声を生成(generate)する場合、テキストデータに基いて音声波形を合成する音声合成(特許文献1参照)や、予め録音しておいた音声を再生する音声再生などが用いられる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001−034282
【発明の開示】
【発明が解決しようとする課題】
【0004】
音声合成は、どのような文でもテキストデータに基いて音声を合成できるため、自由度が高く、臨機応変な文の音声化が可能である。その反面、音声信号波形の合成に時間が掛かるため、即座の音声の生成ができない。また、人工的に合成された音声波形であるため単調で感情表現が十分できないという欠点がある。
【0005】
一方、録音音声の再生は、メモリから音声データを読みだすだけで再生できるため、即座の再生が可能であるとともに、録音音声として感情を込めた音を録音しておけば、感情豊かな表情のある音声の生成が可能である。その一方で、予め録音された音声しか再生できないため、自由度が低く臨機応変な内容を生成できないという欠点がある。
【0006】
この発明の目的は、自由度の高い内容の音声を表情豊かに生成できる音声生成プログラムおよびゲーム装置を提供することにある。
【課題を解決するための手段】
【0007】
本発明の音声合成プログラムは、記憶部を備えたコンピュータを、ユーザによって入力された語句を記憶部に記憶する第1手段、所定のテキストデータに、記憶部から読み出された当該テキストデータと関連する語句を挿入し、所定の条件が成立した場合、この関連する語句とは異なる他の語句をテキストデータに挿入する第2手段、このテキストデータを挿入された語句の直後で複数のフレーズに分割するテキスト分割手段、このテキストデータを音声合成する第3手段、この合成音声を分割された各フレーズ毎に順次再生する第1音声再生手段、および、第1音声再生手段による各フレーズの合成音声の再生の境目に、予め録音された音声信号である録音音声を再生する第2音声再生手段、として機能させる
【0011】
上記発明において、第2音声再生手段は、第2手段が関連する語句とは異なる他の語句をテキストデータに挿入した場合、録音音声として、語句を間違ったことに対応する間投詞の音声を選択してもよい。
【0012】
本発明のゲーム装置は、上記音声生成プログラム、および、テキストデータを記憶する記憶部と、入力操作部と、音声生成プログラムを実行する制御部と、を備える。テキストデータは、ゲーム上の仮想的な話者がユーザに対して発声する会話文であり、挿入される語句は、ユーザが入力操作部を用いて仮想的な話者に対して入力した語句であることを特徴とする。
【発明の効果】
【0013】
この発明によれば、テキストデータに基づく自由度の高い音声を録音音声で表情づけして生成することが可能になる。
【図面の簡単な説明】
【0014】
図1】本発明が適用される音声生成装置のブロック図である。
図2】音声生成装置による音声生成の手順を説明する図である。
図3】ゲーム装置のブロック図である。
図4】ゲーム装置のメモリ構成図である。
図5】ゲーム装置で実行されるゲームの進行手順を説明する図である。
図6】ゲーム装置の制御部のゲームにおける会話処理を示すフローチャートである。
図7】テキストデータに間違った語句を挿入し、その直後で分割して中音声を再生する場合のゲーム装置の制御部の動作を示すフローチャートである。
図8】合成音声の再生を分割し、途中に録音音声を挿入する場合の音声生成の手順を説明する図である。
図9】合成音声の生成を分割し、途中に録音音声を挿入する場合の音声生成の手順を説明する図である。
【発明を実施するための形態】
【0015】
図面を参照してこの発明が適用される音声生成装置(generator)100について説明する。図1は音声生成装置100の機能ブロック図である。図2は、音声生成装置100による音声生成の基本的な手順を示す図である。この音声生成装置100は、テキストデータ(以下、単にテキストと呼ぶ。)110に基いて音声データを合成(synthesize)する音声合成部101、および、音声データを再生(playback)する音声再生部104を備えている。
【0016】
音声再生部104は、予め録音された音声データ(録音音声)111、および、音声合成部101が合成した音声データ(合成音声)112の両方を再生する。音声合成部101がテキスト110に基づく音声を合成するとき、音声再生部104が、図2に示すように、その合成音声112を再生する前後に、予め録音されていた録音音声111(前音声111A、後音声111B)を再生する。
【0017】
録音音声は、たとえば声優などが表情豊かに発声した音声(生声)である。これにより、人工的に合成されて表情が乏しい合成音声112を録音音声で補完することができる。
【0018】
音声合成部101に供給されるテキスト110は、例えば、何らかの感情(例えば喜びや驚き)を伴ったものである。録音音声メモリ103には、種々の感情に対応し、その感情を表現する複数の録音音声が記憶されている。前音声111Aおよび後音声111Bは、供給されるテキストの感情と同じような感情を表現するもの(同じようなカテゴリに分類されるもの(図4参照))が選択される。
【0019】
テキスト110を音声合成して出力するプロセスがスタートすると、まず、前音声111Aがメモリ103から読み出され、これを音声再生部104で再生する。前音声111Aが再生されている間に、音声合成部101は、供給されたテキスト110を音声化(音声合成)する。音声合成部101によって合成された合成音声112は合成バッファ102に記憶され、前音声111Aの再生が終了したのち、前音声111Aに続いて再生される。合成音声112の再生中に後音声111Bが読み出される。合成音声112の再生が終了すると、音声再生部104は、これに続けて後音声111Bを再生する。
【0020】
後音声111Bも前音声111Aと同様に、メモリ103に記憶されている録音音声111のなかから、音声合成部101に供給されるテキスト110(音声合成部101で合成された合成音声112)に対応するものが選択される。なお、後音声111Bのメモリ103からの読み出しは、前音声111Aの読み出しと同時に行われてもよい。
【0021】
後音声111Bは前音声111Aとは別のものが選択されるのが好ましいが、同じものであってもよい。前音声111Aと合成音声112との間、および、合成音声112と後音声111Bとの間は、完全に連続していてもいなくてもよいが、ユーザが聴覚的に一連の発声として聞こえる程度の間隔(たとえば1秒以内)で連続して再生されることが好ましい。図2に示した前音声111A、後音声111Bは、両方再生されてもよいが前音声111Aのみでもよい。
【0022】
図1図2に説明した音声生成装置100は、音声を合成する種々の装置に適用可能である。例えば、ビデオゲームにおけるキャラクタの会話音声の生成に用いてもよい。以下、音声生成装置100の適用例として携帯ゲーム機およびこの携帯ゲーム装置で実行されるゲームについて説明する。
【0023】
以下一例として説明するゲームは、ゲーム中のキャラクタ(女の子)とユーザ(ゲームのプレイヤ)が会話をしながら、キャラクタ(AI)の知識を増やしてゆく育成ゲームである。キャラクタは、ユーザと会話する言葉を発する。この言葉の生成機能を上述の音声生成装置100が担当する。
【0024】
図3は、上記音声生成装置100の機能がプログラムとの協働で実現されるゲーム装置1のブロック図である。図3において、ゲーム装置1は、バス26上に、制御部20、操作部30、ゲームメディアインタフェース31、SDカードインタフェース32、無線通信回路部33およびマイクインタフェース34を有している。制御部20は、CPU21、ROM(フラッシュメモリ)22、RAM23、画像プロセッサ24および音声プロセッサ25を含んでいる。
【0025】
画像プロセッサ24には、ビデオRAM(VRAM)40が接続され、VRAM40には表示部41が接続されている。表示部41は、上述の上部ディスプレイ10および下部ディスプレイ11を含む。音声プロセッサ25には、D/Aコンバータを含むアンプ42が接続され、アンプ42にはスピーカ16およびイヤホン端子17が接続されている。
【0026】
操作部30は、上述のタッチパネル12、ボタン群13およびスライドパッド14を含み、それぞれユーザの操作を受け付けて、その操作内容に応じた操作信号を発生する。この操作信号はCPU21によって読み取られる。マイクインタフェース34は、A/Dコンバータを内蔵している。マイクインタフェース34には、マイク18が接続されている。マイクインタフェース34は、マイク18が集音した音声をデジタル信号に返還して制御部20に入力する。
【0027】
ゲームメディアインタフェース31はメディアスロット31Aを含み、メディアスロット31Aにセットされたゲームメディア5に対するリード/ライトを行う。ゲームメディア5は、専用の半導体メモリであり、内部にゲームデータおよびゲームプログラムが記憶されている。ゲームデータは、キャラクタが話す会話文のテキスト110、および、前音声、後音声として用いられる録音音声111などを含んでいる。また、ゲームメディア5は、ゲーム履歴データ記憶エリア50を有している。
【0028】
ゲーム履歴データは、ユーザがこのゲームにおいて入力した語句などを含む。ゲームが一旦終了されたとき、そのときのゲームの状態を示すゲーム履歴データがRAM23からゲーム履歴データ記憶エリア50に保存される。その後、ゲームが再開されるとき、ゲーム履歴データ記憶エリア50からRAM23に転送される。なお、ゲームメディア5は、専用の半導体メモリに限定されず、汎用の半導体メモリ、光ディスクなどでも構わない。
【0029】
SDカードインタフェース32にはSDカード6が接続される。SDカード6は、マイクロSDカードであり、下部筐体1Bに内蔵されている。SDカード6には、ダウンロードされたゲームプログラムなどが記憶される。
【0030】
RAM23には、ゲームメディア5から読み込まれたゲームプログラムおよびゲームデータを記憶するロードエリア、および、CPU21がゲームプログラムを実行する際に使用されるワークエリアが設定される。したがって、RAM23には、会話文テキスト110や録音音声111を記憶する記憶エリア61や、初期設定やキャラクタとの会話においてユーザが入力した語句を記憶する入力語句記憶エリア60が設けられている。また、図1の合成音声バッファ102もRAM23内に設けられる。ROM22は、フラッシュメモリで構成され、ゲーム装置1がゲームメディア5からゲームプログラムを読み込んでゲームを実行するための基本プログラムが設定される。
【0031】
画像プロセッサ24は、GPU(Graphics Processing Unit,グラフィックス・プロセッシング・ユニット)を有し、上述の上部ディスプレイ10に表示されるキャラクタの画像や下部ディスプレイ11に表示される文字パネルの画像などを形成しVRAM40上に描画する。
【0032】
音声プロセッサ25は、DSP(Digital Signal Processor,デジタル・シグナル・プロセッサ)を有し、ゲーム音声を生成する。このゲームにおいて、ゲーム音声には、キャラクタがユーザと会話する音声が含まれており、図1に示した音声生成装置100は、ゲーム装置1の制御部20(特に音声プロセッサ25)およびゲームプログラムの協働によって実現される。アンプ42は、音声プロセッサ25によって音声信号を増幅してスピーカ16およびイヤホン端子17に出力する。
【0033】
無線通信回路部33は、2.4GHz帯のデジタル通信回路を備えており、無線アクセスポイントを介したインターネット通信を行うとともに、直接他のゲーム装置1と通信を行う。無線通信回路部33は、インターネット通信を行う場合にはIEEE802.11g(いわゆるWi−Fi)規格で通信を行い、ローカル通信を行う場合にはIEEE802.11b規格のアドホックモードまたは独自の規格で通信を行う。
【0034】
なお、図1の音声合成部101および音声再生部104は、制御部20とゲームプログラムとの協働で実現される。
【0035】
図4は、ゲームデータの一部である会話文のテキスト110と録音音声111の記憶形態を説明する図である。図4(A)は、テキスト110および録音音声111の記憶エリア61の構成を示す図である。記憶エリア61は、複数のカテゴリに区分され、各カテゴリは複数のサブカテゴリに区分されている。
【0036】
カテゴリは、たとえば、「よろこび」、「通常」、「ドッキリ」などの大雑把な感情の分類である。サブカテゴリは、カテゴリ(大雑把な感情)中の具体的な感情を表している。たとえば、「よろこび」カテゴリは、「うれしい」、「満足」、「しあわせ」、「気楽」、「リラックス」などのサブカテゴリを含んでいる。また、「通常」カテゴリは、「確認」、「否定」、「思いつき」、「ひとりごと」などのサブカテゴリを含んでいる。
【0037】
各サブカテゴリに、1または複数の会話文のテキスト(会話文データ)、および、1または複数の録音音声が記憶される。所定の会話のタイミングにゲームの進行状況に応じたカテゴリおよび会話文110が選択され、このカテゴリに対応する録音音声が前音声111A、後音声111Bとして選択される。
【0038】
図4(B)は、音声生成データ記憶領域の一部の具体例を示した図である。この図は、「よろこび」カテゴリの記憶エリアの例を示した図である。「よろこび」カテゴリには「うれしい」、「満足」、「しあわせ」、「気楽」、「リラックス」のサブカテゴリを含み、それぞれのサブカテゴリ領域には1または複数の会話文および録音音声が記憶されている。
【0039】
会話文としては、「○○をもらってうれしいです。」や「○○おいしそう。」などのテキストが記憶される。テキストの一部の「○○」は空欄を示し、この箇所にユーザによって入力された語句(入力語句)が当てはめられる(挿入される)。
【0040】
録音音声としては「うわ〜」、「わーい」、「やった!」など「うれしい」の感情を表現する間投詞などの短い音声が記憶される。この記憶されている会話文および録音音声に基づいて「うわ〜、プレゼントをもらってうれしいです。やった!」などのキャラクタの発言が生成される。
【0041】
また、記憶された一部または全部の録音音声を複数のカテゴリに共通のものとしてもよい。たとえば、「え〜」、「う〜ん」、「あ〜」などの会話の間をつなぐ言葉または「ははは」「うふ」「キャ」などの笑い声などを共通の録音音声として記憶してもよい。これらの録音音声が、全てのカテゴリで共通に用いられてもよく、一部の(複数の)カテゴリで共通に用いられてもよい。
【0042】
また、同じ言葉、たとえば「う〜ん」などが複数のカテゴリで用いられる場合、各カテゴリ毎に録音音声として記憶されてもよい。この場合、それぞれそのカテゴリに応じた表情づけで発音されたものが録音されればよい。
【0043】
また、会話文中に設けられる空欄は複数であってもよい。たとえば、「○○さんは、△△が好きなんですか?」などである。○○、△△のところに、たとえばユーザの名前やユーザによって登録された語句が当てはめられる。
【0044】
図5はゲーム装置1の制御部20およびユーザによって行われる会話の順序・流れを示す図である。制御部20は、ゲームのスタート時に、ユーザがゲーム装置1に対してプロファイルや好みを登録する(S100)。そして、制御部20は、入力された内容を制御部20が入力語句記憶エリア60に記憶する(S101)。
【0045】
その後、制御部20は、ユーザとキャラクタがゲーム中で一緒に旅に出るゲームを開始させる(S110)。そして、制御部20は、旅の途中の場面ごとにキャラクタとユーザが会話するイベントを実行する(S120)。
【0046】
会話は以下の手順で行われる。まず、制御部20はキャラクタがユーザに質問するイベントを実行させ(S121)、これに対するユーザの回答を受け付ける(S122)。
【0047】
キャラクタは、ユーザによって登録された語句を会話文に当てはめることで会話を行う。これに対するユーザの会話の入力は、下画面に表示される文字パレットで文字を選択することで行われる。
【0048】
制御部20は、ユーザによって入力された回答を記憶し、その内容(質問に対する回答)を更新(学習)する。この会話イベントを繰り返すことで、入力語句記憶エリア60に記憶される語句が増加し、且つ、その語句の属性(意味)を蓄積する。これにより、キャラクタが成長する様子を表現することができる。
【0049】
図6は、キャラクタの発言を作成する制御部20の動作を示すフローチャートである。この処理は、定期的なトリガに応じて実行される。まず、制御部20は、現在のゲームの状況を判断する(S10)。制御部20は、このゲームの状況に基いて今が会話タイミングか否かを決定する(S11)。制御部20は、このゲームの状況に基いて今が会話タイミングでない場合には(S11でNO)そのまま動作を終了する。
【0050】
制御部20は、このゲームの状況に基いて今が会話のタイミングであると判断された場合は(S11でYES)、現在のゲームの状況に基づき生成する会話のカテゴリや会話文を選択する(S12)。なお、このカテゴリ、会話文の選択はランダムに行われてもよい。
【0051】
次に、制御部20は、選択された会話文の空欄に当てはめる語句を入力語句記憶エリア60から選択する(S13)。これで会話文のテキスト110が完成する。そして、制御部20は、この会話文と同じカテゴリに分類されている録音音声111のなかから、前音声111Aおよび後音声111Bを選択する(S14)。
【0052】
制御部20は、完成した会話文のテキストを音声合成部101に出力して音声データの合成を指示するとともに(S15)、前音声111Aを音声再生部104に入力して再生させる(S16)。前音声111Aの再生は1〜2秒程度継続し、この間に制御部20は、音声合成部101は会話文の音声を合成する。
【0053】
前音声111Aの再生が終了すると(S17)、制御部20は、音声合成部101によって合成された合成音声112を音声再生部104に再生させる(S18)。合成音声112の再生が終了すると(S19)、制御部20は、後音声111Bを音声再生部104に再生させる(S20)。制御部20は、この再生とともに、ユーザによる回答の入力を受け付ける(S21)。制御部20は、入力された回答の語句を入力語句記憶エリア60に記憶する(S22)。
【0054】
なお、制御部20は、会話文への語句の当てはめを、意味を考慮せずにランダムに行ってもよい。たとえば、ユーザの操作入力によって、記憶部に「カプコン」と「ケーキ」という語句が記憶されていた場合、通常「え〜、その(カプコン)って頑張ってますね。う〜ん。」との用法、または、「え〜、その(ケーキ)って美味しそうですね。う〜ん。」との用法で入力語句が使用されるところ、「え〜、その(カプコン)って美味しそうですね。う〜ん。」などの通常とは異なる用法で入力語句が使用されてもよい。
【0055】
この会話文中で、「え〜」および「う〜ん」が前音声および後音声であり、かっこで囲まれた「カプコン」が挿入された語句である。すなわちこの会話文は、「その○○って美味しそうですね。」のテキストデータに、「カプコン」の語句(ミスマッチ語句)が、食べ物ではないという情報とは無関係に挿入された例である。このゲームでは、この語句の間違った用法により、キャラクタの可愛さや学習レベルを演出している。
【0056】
また、制御部20は、キャラクタに「え〜、そのカプコンって美味しそうですね。う〜ん。」との会話をさせたあと、たとえば、「カプコンってどんな味ですか?」とユーザに質問させる。このとき、ユーザが「カプコンは食べ物ではない。」と返答(入力)をすると、制御部20は、カプコンが食べ物ではないことを記憶部に記憶する(学習する)。制御部20は、質問と並行して複数の回答用選択肢を表示し、ユーザに適当な選択肢を選択させることで、ユーザの返答を得るようにしてもよい。
【0057】
語句を間違えさせる形態は例えば以下のようである。
(1)語句の意味を間違えさせる。例、「昨日私はタイヤを食べました。」
(2)語句の音を間違えさせる。例、「野球(ヤキュウ)」を「ヤギュウ」と音声合成する。
(3)語句の語順を間違えさせる。例、「山本(ヤマモト)」を「ヤマトモ」と音声合成する。
(4)スムーズに発音させない(かませる)。例、「メソポタミア」を「メソポポ、ポタミア」と音声合成する。
などである。
【0058】
「タイヤ」、「野球」、「山本」、「メソポタミア」は、ユーザの操作入力によって記憶部に記憶された入力語句である。一方、「ヤギュウ」、「ヤマトモ」、「メソポポ、ポタミア」は、これらの入力語句の記憶に伴って、ミスマッチ語句として記憶部に記憶された語句である。制御部20は、ユーザによって操作入力された語句の一部を補正することでミスマッチ語句を生成する。
【0059】
なお、制御部20は、ミスマッチ語句は、間違った用法で生成する際に、語句の一部を補正することで生成してもよい。入力語句を新規に登録するときに、並行してミスマッチ語句も記憶していてもよいし、会話文の生成時にミスマッチ語句を生成してもよい。
【0060】
ゲームにおいて、ユーザはキャラクタと会話をすることでこのキャラクタに語句を教える。一方、キャラクタはこの語句を覚えた直後は、語句の意味や発音に関する情報を得ないまま使用する。すなわち、制御部20は、あらかじめ記憶部に記憶されたテキストデータの一部に入力語句をランダムに挿入して使用する。そして、制御部20は、会話によって入力語句の情報を蓄積させ、適切な会話となるようにテキストデータに基づいた語句を選択する。
【0061】
また、制御部20は、所定の条件が成立すると、入力語句の発音を異ならせたり、語順を入れ換えたりして、入力語句に変えてミスマッチ語句を選択する。たとえば、入力語句を初めて使用場合や使用回数が10回以内の場合(言葉の意味をよく理解していない状態を表現)、ランダム(うっかり間違いを表現)、または、入力語句が100回使用されている場合(ふざけている状態を表現)などを所定の条件とすることができる。これにより、キャラクタが言葉の意味を理解していなかったり、うっかり間違ったり、ふざけていることを会話で表現することができる。
【0062】
また、会話文で上のように語句を間違えさせ、間違えた語句の直後に録音音声を発生させてもよい。たとえば、間違えた直後に「テヘッ」など照れ隠しの語句を録音音声で挿入してもよい。さらに、そのあとに、制御部20は、正しい用法で使用された語句を含むテキストを音声合成してもよい。
【0063】
図7は、本発明の実施形態である音声生成の手順を説明する図である。この実施形態では、制御部20は、会話文にミスマッチ語句を挿入し、ミスマッチ語句を再生した後で会話文の再生を中断して、「テヘッ」、「あっ」などの短い録音音声を中音声として再生する。これにより、会話文の表情付けをより効率的に行う。
【0064】
図7は、会話文にミスマッチ語句を挿入し、ミスマッチ語句を再生した後に録音音声を中音声として再生する場合の制御部20の動作を示すフローチャートである。また、図8は、音声生成装置100による音声生成の手順を示す図である。この処理は、定期的なトリガに応じて実行される。まず、制御部20は、現在のゲームの状況を判断する(S30)。制御部20は、このゲームの状況に基いて今が会話タイミングか否かを決定する(S31)。制御部20は、タイミングでない場合には(S31でNO)そのまま動作を終了する。
【0065】
制御部20は、会話のタイミングであると判断した場合は(S31でYES)、現在のゲームの状況に基づき生成する会話のカテゴリや会話文を選択する(S32)。次に、制御部20は、選択された会話文の空欄に当てはめる語句を入力語句記憶領域60から選択する(S33)。このとき、制御部20は、会話文と語句との対応を無視してランダムに語句を選択してもよい。また、制御部20は、選択された語句の発音や語順を変更して間違えた語句にする(S34)。S33の語句の選択間違いとS34の発音の間違いは、いずれか一方を適用してもよく、両方を適用してもよい。また、間違える語句の直後を会話文の分割箇所とする。
【0066】
制御部20は、選択された会話文と同じカテゴリに分類されている録音音声のなかから前音声111A、後音声111Bを選択するとともに、間違えた語句の直後に再生される中音声111Cを選択する(S35)。間違えた語句の直後に再生される中音声111Cは、カテゴリ毎に分類されていてもよく、会話文のカテゴリとは別に間違え対応の録音音声に分類されていてもよい。
【0067】
こののち、制御部20は、会話文のテキストを音声合成部101に出力して音声データの合成を指示するとともに(S36)、前音声111Aの再生を指示する(S37)。制御部20は、S38で前音声111Aの再生が終了するまで待機し、前音声の再生が終了すると(S38でYES)、音声合成部101によって合成された合成音声のうち、語句を間違えた箇所までの前半部分112Aを音声再生部104に入力して再生させる(S40)。
【0068】
制御部20は、合成音声の前半112Aの再生が終了すると(S41でYES)、「テヘッ」、「あっ」などの中音声111Cを音声再生部104に再生する(S42)。制御部20は、中音声111Cの再生が終了すると(S43でYES)、合成音声の後半112Bを音声再生部104に再生する(S44)。そして、制御部20は、合成音声の後半112Bの再生が終了すると(S45でYES)、後音声111Bを音声再生部104に再生する(S46)。制御部20は、この再生とともに、ユーザによる回答の入力を受け付ける(S47)。制御部20は、入力された回答の語句を入力語句記憶領域60に記憶する(S48)。
【0069】
また、会話文のテキストが長い場合、会話文を複数のフレーズに分割してもよい。この場合、フレーズごとに音声合成して再生し、各フレーズの間にも録音音声を挿入すればよい。挿入された録音音声の再生中にその直後のフレーズの音声合成をすればよい。また、複数の会話文を連続して合成する場合にも同様に、会話文と会話文との間に録音音声を挿入して、この録音音声の再生中に後の会話文の音声合成を合成するようにすればよい。
【0070】
図8図9は、ミスマッチ語句を挿入する場合(中音声を発生させる場合の)音声生成の手順を説明する図である。ここでは、会話文を複数(この例では2つ)のフレーズに分割し、フレーズとふれーずの境目に「テヘッ」、「あっ」などの短い録音音声を挿入する。これにより、語句を間違えた場合の表情付けをより効率的に行う。
【0071】
このように、会話文中の語句を間違えさせ、その直後に生声である録音音声111を挿入することにより、よりリアルに表情を豊かにすることができる。
【0072】
図7図8の例では、テキスト110を前音声111Aの再生中に合成したが、テキストの前半(合成音声112Aに対応)を前音声111Aの再生中に合成し、後半(合成音声112Bに対応)を中音声111Cの再生中に合成してもよい。
【0073】
図9は、会話文を間違え箇所で2つのフレーズに分割し、フレーズ毎に音声合成する場合の手順を示した図である。
【0074】
間違い箇所のあるテキスト110が決定され、音声合成して出力するプロセスがスタートすると、まず、前音声111Aがメモリ103から読み出され、これを音声再生部104で再生する。前音声111Aが再生されている間に、音声合成部101は、間違え箇所までの前半のフレーズ(会話文の前半)を音声化(音声合成)する。音声合成部101によって合成された合成音声112Aは合成バッファ102に記憶され、前音声111Aの再生が終了したのち、前音声111Aに続いて再生される。合成音声112Aの再生中にフレーズ間で再生される録音音声である中音声111Cが読み出される。合成音声112Aの再生が終了すると、音声再生部104は、これに続けて中音声111Cを再生する。なお、中音声111Cの読み出しは、前音声111Aの読み出し後、合成音声112Aの生成終了までであればいつでもよい。
【0075】
中音声111Cとしては、たとえば上述したような「テヘッ」、「あっ」など、間違いの照れ隠しのような音声が選択される。中音声111Cが再生されている間に、音声合成部101は後半のフレーズ(会話文の後半)を音声合成する。音声合成部101によって合成された後半の合成音声112Bは合成バッファ102に記憶され、中音声111Cの再生が終了したのち、中音声111Cに続いて再生される。後半の合成音声112Bの再生中に後音声111Bが読み出される。合成音声112Bの再生が終了すると、音声再生部104は、これに続けて後音声111Bを再生する。
【0076】
以上の実施形態では、図7図9に示したように、会話文(合成音声)112の前後に録音音声111(前音声111A、後音声111B)を付加した、すなわち、会話文を録音音声で挟んでいる。これら前音声111A、後音声111Bは無くてもよく、また、いずれか一方のみ付加されていてもよい。
【0077】
なお、音声合成部101は、会話文の内容やゲームの状況に応じて、合成される音声112の速さ、ピッチ、音量などを変化させてもよい。その場合、そのパラメータが音声再生部104に提供され、音声再生部104は、合成音声112に合わせた速さ、ピッチ、音量で録音音声111を再生する。また、音声合成部101は通常の速さ、ピッチ、音量で音声を合成し、音声再生部104が、会話文の内容やゲームの状況に応じて、合成音声112、録音音声111の両方の速さ、ピッチ、音量を調整して再生するようにしてもよい。
【0078】
なお、後音声111Bの語尾を、キャラクタの性格、キャラクタの成長度合い、キャラクタの服装などに応じて変化させてもよい。すなわち、「〜にゃ」、「〜でございます。」などの語を選択された後音声の語尾に付加して再生してもよい。また、予め「○○にゃ」、「○○でございます。」(○○は語句)の音声を録音音声として記憶しておいてもよい。
【0079】
また、ゲーム上の場所に応じて、生成する音声(キャラクタが喋る音声)の音量や音質を変化させてもよい。例えば、場所が電車内の場合にはヒソヒソ声、青空の下では元気な声の音声を生成してもよい。
【符号の説明】
【0080】
1 ゲーム装置
5 ゲームメディア
20 制御部
21 CPU
22 ROM(フラッシュメモリ)
50 ゲーム履歴データ記憶エリア
60 入力語句記憶エリア
61 (会話文、録音音声の)記憶エリア
100 音声生成装置
101 音声合成部
104 音声再生部
【要約】
【課題】自由度の高い内容の音声を表情豊かに生成できる音声生成プログラムを提供する。
【解決手段】音声生成プログラムは、記憶部を備えたコンピュータを、ユーザによって入力された語句を記憶部に記憶する第1手段、所定のテキストデータに、記憶部から読み出された当該テキストデータの関連語句を挿入する第2手段、このテキストデータを音声合成して再生する第3手段として機能させる。さらに、第2手段は、所定の条件が成立した場合、関連語句とは異なる他の語句をテキストデータに挿入する。これにより、合成される音声に間違いを生じさせてリアルな会話にすることができる。
【選択図】図7
図1
図2
図3
図4
図5
図6
図7
図8
図9