IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2022-144261情報処理装置、情報処理方法、および情報処理プログラム
<>
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図1
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図2
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図3
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図4
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図5
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図6
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図7
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図8
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図9
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022144261
(43)【公開日】2022-10-03
(54)【発明の名称】情報処理装置、情報処理方法、および情報処理プログラム
(51)【国際特許分類】
   G06F 3/16 20060101AFI20220926BHJP
   G10L 13/10 20130101ALI20220926BHJP
【FI】
G06F3/16 690
G10L13/10 114
G10L13/10 112B
G10L13/10 112C
G06F3/16 620
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2021045181
(22)【出願日】2021-03-18
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】倉田 宜典
(72)【発明者】
【氏名】瀬戸 重宣
(72)【発明者】
【氏名】吉岡 寿朗
(57)【要約】
【課題】台本の意図に沿った上演音声の出力が可能なデータを提供する。
【解決手段】情報処理装置10は、出力部24を備える。出力部24は、上演の元となる第1台本データから、第1台本データに含まれる台詞の台詞データと台詞の発話者の発話者データとを対応付けた第2台本データを出力する。
【選択図】図1
【特許請求の範囲】
【請求項1】
上演の元となる第1台本データから、前記第1台本データに含まれる台詞の台詞データと前記台詞の発話者の発話者データとを対応付けた第2台本データを出力する出力部、
を備える情報処理装置。
【請求項2】
前記出力部は、
前記台詞データに基づいて、前記台詞データと、前記台詞を発話する前記発話者の推定結果である前記発話者データと、を対応付けた前記第2台本データを出力する、
請求項1に記載の情報処理装置。
【請求項3】
前記出力部は、
前記台詞に含まれる句読点を適正化した前記台詞データと、前記発話者データと、を対応付けた前記第2台本データを出力する、
請求項1または請求項2に記載の情報処理装置。
【請求項4】
前記出力部は、
前記台詞データの発話時の前記発話者の感情を推定し、推定した感情の感情データを更に対応付けた前記第1台本データを出力する、
請求項1~請求項3の何れか1項に記載の情報処理装置。
【請求項5】
前記出力部は、
前記台詞データごとに前記台詞データの台詞識別情報を更に対応付けた、前記第1台本データを出力する、
請求項1~請求項4の何れか1項に記載の情報処理装置。
【請求項6】
前記出力部は、
前記第1台本データを第1学習モデルに入力した出力結果である前記第2台本データを出力する、
請求項1~請求項5の何れか1項に記載の情報処理装置。
【請求項7】
前記出力部は、
前記第1台本データに含まれる前記発話者および前記台詞の配置を少なくとも表す台本パターンを特定する特定部と、
前記台本パターンに基づいて、前記第1台本データに含まれる前記台詞データおよび前記発話者データを解析する解析部と、
解析された前記台詞データと前記発話者データとを少なくとも対応付けた前記第2台本データを生成する第1生成部と、
を有する、
請求項1~請求項5の何れか1項に記載の情報処理装置。
【請求項8】
前記特定部は、
前記第1台本データを第2学習モデルに入力した出力結果として、前記第1台本データの前記台本パターンを特定する、
請求項7に記載の情報処理装置。
【請求項9】
前記台本パターンの補正指示を受け付ける受付部と、
前記補正指示に応じて前記台本パターンを補正する補正部と、
を備える請求項7または請求項8に記載の情報処理装置。
【請求項10】
前記第2台本データに含まれる前記台詞データに対応する、音声辞書データの辞書識別情報を含む設定情報を受け付ける受付部と、
受け付けた設定情報を、前記第2台本データにおける対応する前記台詞データに対応付けた、第3台本データを生成する第2生成部と、
を備える請求項1~請求項9の何れか1項に記載の情報処理装置。
【請求項11】
前記受付部は、
前記台詞データの前記台詞の発話時の声質情報、を更に含む前記設定情報を受け付ける、
請求項10に記載の情報処理装置。
【請求項12】
前記第3台本データに含まれる前記台詞データに、対応する前記辞書識別情報によって識別される前記音声辞書データを用いて前記台詞データの合成音声を生成するための音声合成パラメータおよび前記合成音声の合成音声データの少なくとも一方を対応付けた台詞音声データを含む、上演音声データを生成する上演音声データ生成部、
を備える、請求項10または請求項11に記載の情報処理装置。
【請求項13】
前記台詞音声データに対する1または複数のラベルを付与するラベル付与部、
を備える、請求項12に記載の情報処理装置。
【請求項14】
コンピュータによって実行される情報処理方法であって、
上演の元となる第1台本データから、前記第1台本データに含まれる台詞の台詞データと前記台詞の発話者の発話者データとを対応付けた第2台本データを出力するステップを含む情報処理方法。
【請求項15】
上演の元となる第1台本データから、前記第1台本データに含まれる台詞の台詞データと前記台詞の発話者の発話者データとを対応付けた第2台本データを出力するステップを、コンピュータに実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、情報処理装置、情報処理方法、および情報処理プログラムに関する。
【背景技術】
【0002】
テキストを音声に変換して出力する音声合成技術が知られている。例えば、入力されたテキストから様々な発話者の音声合成音声を作成して出力するシステムが知られている。また、漫画内に描かれた擬音を再生する技術が知られている。
【0003】
上演の元となる台本は、実際の発話対象の台詞に加えて、発話者の役名、ト書き、などの様々な情報を含んだ構成とされている。従来技術には、台本の意図に沿った上演用の音声合成を行う技術は開示されていなかった。すなわち、従来では、台本の意図に沿った上演音声の出力が可能なデータが提供されていなかった。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第5634853号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、台本の意図に沿った上演音声の出力が可能なデータを提供することができる、情報処理装置、情報処理方法、および情報処理プログラムを提供することである。
【課題を解決するための手段】
【0006】
実施形態の情報処理装置は、出力部を備える。出力部は、上演の元となる第1台本データから、前記第1台本データに含まれる台詞の台詞データと前記台詞の発話者の発話者データとを対応付けた第2台本データを出力する。
【図面の簡単な説明】
【0007】
図1図1は、実施形態の情報処理装置の一例を示す図である。
図2図2は、台本の一例の模式図である。
図3図3は、第2台本データのデータ構成の一例の模式図である。
図4図4は、UI画面の一例の模式図である。
図5図5は、第3台本データのデータ構成の一例を示す模式図である。
図6図6は、上演音声データのデータ構成の一例の模式図である。
図7図7は、第2台本データの出力処理の流れの一例を表すフローチャートである。
図8図8は、第3台本データの生成処理の流れの一例を表すフローチャートである。
図9図9は、上演音声データの生成処理の流れの一例を表すフローチャートである。
図10図10は、ハードウェア構成図である。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、情報処理装置、情報処理方法、および情報処理プログラムを詳細に説明する。
【0009】
図1は、本実施形態の情報処理装置10の一例を示す図である。
【0010】
情報処理装置10は、台本の意図に沿った上演音声の出力が可能なデータを生成する情報処理装置である。
【0011】
情報処理装置10は、通信部12と、UI(ユーザ・インターフェース)部14と、記憶部16と、処理部20と、を備える。通信部12、UI部14、記憶部16、および処理部20は、バス18を介して通信可能に接続されている。
【0012】
通信部12は、ネットワーク等を介して外部の他の情報処理装置と通信する。UI部14は、表示部14Aと、入力部14Bと、を含む。表示部14Aは、例えば、LCD(Liquid Crystal Display)、有機EL(Electro-Luminescence)などのディスプレイや、投影装置などである。入力部14Bは、ユーザの操作を受付ける。入力部14Bは、例えば、デジタルペン、マウス、またはトラックボール等のポインティングデバイスや、キーボード等の入力デバイスである。表示部14Aは、各種の情報を表示する。なお、UI部14は、表示部14Aと入力部14Bとを一体的に備えた、タッチパネルであってもよい。
【0013】
記憶部16は、各種のデータを記憶する。記憶部16は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部16は、情報処理装置10の外部に設けられた記憶装置であってもよい。また、記憶部16は、記憶媒体であってもよい。具体的には、記憶媒体は、プログラムや各種情報を、LAN(Local Area Network)やインターネットなどを介してダウンロードして記憶または一時記憶したものであってもよい。また、記憶部16を、複数の記憶媒体から構成してもよい。
【0014】
次に、処理部20について説明する。処理部20は、各種の情報処理を実行する。UI部14は、取得部22と、出力部24と、第2生成部26と、上演音声データ生成部28と、を備える。出力部24は、特定部24A、解析部24B、第1表示制御部24C、第1受付部24D、補正部24E、および第1生成部24Fを備える。第2生成部26は、第2受付部26A、リスト生成部26B、第2表示制御部26C、第3受付部26D、および設定部26E、を備える。上演音声データ生成部28は、音声生成部28A、第3表示制御部28B、ラベル受付部28C、およびラベル付与部28Dを備える。
【0015】
取得部22、出力部24、特定部24A、解析部24B、第1表示制御部24C、第1受付部24D、補正部24E、第1生成部24F、第2生成部26、第2受付部26A、リスト生成部26B、第2表示制御部26C、第3受付部26D、設定部26E、上演音声データ生成部28、音声生成部28A、第3表示制御部28B、ラベル受付部28C、および、ラベル付与部28Dは、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
【0016】
また、上記各部の少なくとも1つは、クラウド上で処理を実行するクラウドサーバに搭載されていてもよい。
【0017】
取得部22は、第1台本データを取得する。
【0018】
第1台本データとは、上演の元となる台本のデータである。台本とは、上演を目的とされた本であり、紙媒体、電子データ、の何れであってもよい。台本は、脚本および戯曲を含む概念であってもよい。
【0019】
図2は、台本31の一例の模式図である。台本31には、台詞、台詞の発話者の発話者名、ト書きなどの付加情報、が含まれる。台詞とは、上演対象の演劇や創作物の作中で登場する発話者が発する言葉である。発話者とは、台詞を発話する対象となるユーザである。ト書きとは、台本31における、台詞および発話者名以外の部分である。ト書きは、例えば、場面の状況、照明、音楽などの効果の指定、発話者の動き、などである。ト書きは、例えば、台詞の間に記載される。
【0020】
本実施形態では、台詞を、1人の発話者が1回の発話で発する言葉ごとに扱う。このため、台本31には、1または複数の台詞が含まれる。本実施形態では、台本31には、複数の台詞が含まれる形態を一例として説明する。
【0021】
台本31に含まれる台詞、発話者名、およびト書きなどの配置位置は、様々である。図2には、台本31の紙面内の上段の領域に発話者の配置領域Aが設けられた形態を示す。図2には、台本31に、発話者名として、「巧(たくみ)」および「優香(ゆうか)」が含まれる形態を一例として示す。また、図2には、発話者名の配置領域Cの下段に、発話者名の発話者の各々の台詞の配置領域Bが設けられた形態を示す。また、図2には、台本31の紙面内の端部であって、紙面の上端からの位置が発話者名および台詞とは異なる位置に、ト書きの配置領域Cが設けられた形態を示す。台本31における、台詞、発話者名、およびト書きなどの配置位置、並びに、フォントの種類やサイズや色などの記載形態は様々である。すなわち、台本31によって、発話者名および台詞の配置を少なくとも表す台本パターンが異なる。
【0022】
図1に戻り説明を続ける。情報処理装置10の取得部22は、台本31が紙媒体である場合には、台本31をスキャナ等で読み取った電子データである第1台本データ30を取得する。なお、取得部22は、記憶部16に予め記憶された第1台本データ30を読取ることで、第1台本データ30を取得してもよい。また、取得部22は、通信部12を介して外部の情報処理装置から第1台本データ30を受信することで、第1台本データ30を取得してもよい。また、台本31は、電子データであってもよい。この場合、取得部22は、電子データである台本31を読み取ることで、第1台本データ30を取得すればよい。
【0023】
出力部24は、第1台本データ30から、第1台本データ30に含まれる台詞の台詞データと台詞の発話者の発話者データとを対応付けた、第2台本データを出力する。発話者データは、発話者名のデータである。
【0024】
本実施形態では、出力部24は、特定部24Aと、解析部24Bと、第1受付部24D、第1受付部24Dと、補正部24Eと、第1生成部24Fと、を含む。
【0025】
特定部24Aは、第1台本データ30の台本パターンを特定する。台本パターンは、第1台本データ30の台本31に含まれる発話者および台詞の配置を少なくとも表す。
【0026】
図2を用いて説明したように、台本31における、台詞、発話者名、およびト書きなどの配置位置、並びに、フォントの種類やサイズや色などの記載形態は、台本31によって様々である。
【0027】
そこで、特定部24Aは、取得部22で取得した第1台本データ30の台本パターンを特定する。例えば、特定部24Aは、互いに異なる複数の台本パターンを予め記憶部16へ記憶する。特定部24Aは、第1台本データ30に含まれる文字を光学文字認識(OCR:Optical character recognition)などにより解析することで、第1台本データ30に含まれる文字および文字列の配置、並びに、フォントや色などの記載形態、を解析する。そして、特定部24Aは、解析した文字および文字列の配置および記載形態に最も類似する台本パターンを、記憶部16から特定することで、第1台本データ30の台本パターンを特定する。
【0028】
なお、特定部24Aは、予め、第1台本データ30と該第1台本データ30の台本パターンとの対を複数用意し、これらの複数の対を教師データとして用いて学習モデルを学習してもよい。そして、特定部24Aは、取得部22で取得した第1台本データ30を該学習モデルへ入力する。そして、特定部24Aは、該学習モデルの出力として、該第1台本データ30の台本パターンを特定してもよい。この学習モデルは、後述する第2学習モデルの一例である。
【0029】
解析部24Bは、特定部24Aで特定された台本パターンに基づいて、取得部22で取得した第1台本データ30に含まれる台詞データおよび発話者データを解析する。例えば、特定部24Aが、図2に示す台本31の台本パターンを特定した場合を想定する。
【0030】
この場合、解析部24Bは、第1台本データ30に含まれる文字の内、特定した台本パターンによって表される発話者名の配置領域Aに配置された文字を、発話者の発話者データとして解析する。また、解析部24Bは、第1台本データ30に含まれる文字の内、特定した台本パターンによって表される台詞の配置領域Bに配置された文字を、台詞の台詞データとして解析する。
【0031】
このとき、解析部24Bは、発話者名の配置領域Aに配置された発話者の文字に対応する配置領域Bに配置された文字を、該発話者の台詞データとして解析すればよい。発話者に対応する配置領域Bとは、図2に示す例の場合、台本31における発話者名の配置領域Aに配置された発話者の文字に対して、台詞の配置領域Bにおける、該発話者の文字と同じ書字方向の同じラインに配置された文字を意味する。書字方向は、文字を書き進める方向である。図2には、書字方向が縦書きである形態を一例として示す。
【0032】
これらの処理により、解析部24Bは、第1台本データ30に含まれる発話者の発話者データ、および、発話者の発話する台詞の台詞データを、台詞データごとに抽出する。上述したように、台詞データは、1人の発話者が1回の発話で発する台詞である。このため、解析部24Bは、第1台本データ30に含まれる複数の台詞の各々ごとに、台詞データと、該台詞データの台詞を発話する発話者の発話者データと、の対を抽出する。
【0033】
なお、解析部24Bは、第1台本データ30に含まれる発話者データの解析時に、台詞データに基づいて、台詞データの台詞を発話する発話者を推定した、推定結果である発話者データを解析してもよい。例えば、台本31には、発話者名が記載されていない台詞が含まれる場合がある。また、台本31中で、発話者名の記載が、一部略称になっている場合や、誤記などにより異なる表記で記載されている場合がある。この場合、解析部24Bは、第1台本データ30に含まれる台詞データから、該台詞データを発話する発話者を推定することで、発話者データを解析する。
【0034】
例えば、解析部24Bは、第1台本データ30における、発話者名の特定された台詞データの群を解析し、第1台本データ30に含まれる発話者名ごとに、台詞データの特長を特定する。台詞データの特長は、言い回しなどの特長を表す数値で規定される。そして、解析部24Bは、第1台本データ30に含まれる台詞データの各々について、特徴が類似する台詞データの群ごとに、同じ発話者の発話者データが対応付けられるように、発話者データを推定すればよい。これらの処理により、解析部24Bは、発話者名の記載の無い台詞データや、発話者名の表記に揺らぎのある台詞データに対して、推定した発話者の発話者データを対応付けることができる。
【0035】
また、解析部24Bは、第1台本データ30に含まれる台詞データごとに、台詞データを識別する識別情報である台詞ID(identifier)を付与する。第1台本データ30に台詞IDが含まれる場合には、解析部24Bは、第1台本データ30から台詞IDを特定し、台詞データに付与すればよい。第1台本データ30に台詞IDが含まれない場合には、解析部24Bは、第1台本データ30に含まれる台詞データの各々に、台詞IDを付与すればよい。
【0036】
なお、解析部24Bは、第1台本データ30に含まれる台詞データの出現順に沿って、昇順に台詞IDを付与することが好ましい。出現順とは、台本31の書字方向の上流側から下流側に向かう方向に沿った順である。解析部24Bが、台詞データの出現順に沿って台詞IDを付与することで、以下の効果が得られる。例えば、後述する上演音声データを用いた合成音声の出力時に、台本31に沿った流れで台詞データの合成音声が順次出力されるように、第1台本データ30を生成することが可能となる。
【0037】
第1台本データ30に含まれる台詞データには、句読点が含まれる場合がある。句読点とは、文字言語において文章の区切りや文意の区切りを示すために付けられる符号である。句読点は、例えば、句点、疑問符、感嘆符、省略符、改行記号、などである。解析部24Bは、第1台本データ30から抽出した台詞データを、人間の発話として違和感の無い形式に適正化することが好ましい。適正化する、とは、台詞データに含まれる句読点の種類または位置を適正化、または、新たな句読点の挿入、を意味する。例えば、解析部24Bは、第1台本データ30から抽出した台詞データを、予め記憶した適正化のための辞書データまたは学習モデルを用いて適正化することで、適正化した台詞データを生成すればよい。
【0038】
また、解析部24Bは、台詞データの発話時の発話者の感情を推定してもよい。例えば、解析部24Bは、抽出した台詞データ、該台詞データの発話者の発話者データ、および、該台詞に最も近い位置に配置されたト書きのト書きデータなどから、該台詞データの発話時の発話者の感情を推定する。例えば、解析部24Bは、台詞データに含まれる文字列、台詞データを発話する発話者の発話者データ、およびト書きデータから、感情データを出力する、学習モデルを予め学習する。そして、解析部24Bは、第1台本データ30から抽出した台詞データ、発話者データ、およびト書きデータを該学習モデルへ入力する。解析部24Bは、該学習モデルの出力として得られた感情データを、該台詞データの感情データとして推定すればよい。
【0039】
図1に戻り説明を続ける。解析部24Bは、解析結果である、第1台本データ30に含まれる複数の台詞データと、複数の台詞データの各々に対応する発話者データとを、第1生成部24Fへ出力する。本実施形態では、解析部24Bは、第1台本データ30に含まれる複数の台詞データと、複数の台詞データの各々の、台詞ID、発話者データ、および感情データと、を第1生成部24Fへ出力する。
【0040】
第1生成部24Fは、解析部24Bで解析された、台詞データと発話者データとを少なくとも対応付けた第2台本データを生成する。
【0041】
図3は、第2台本データ32のデータ構成の一例の模式図である。第2台本データ32は、台詞IDと、発話者データと、台詞データと、を少なくとも対応付けたデータである。本実施形態では、第2台本データ32が、台詞IDと、発話者データと、台詞データと、感情データと、を対応付けたデータである形態を一例として説明する。
【0042】
図1に戻り説明を続ける。ここで、解析部24Bによる第1台本データ30の解析中に、解析エラーが生じる場合がある。例えば、第1台本データ30に解析困難な文字が含まれる場合などがある。また、第1台本データ30における、特定部24Aで特定された台本パターンに当てはまらない領域に、文字が設定されている場合などがある。このような場合、解析部24Bは、正常な解析が困難となる場合がある。
【0043】
また、解析部24Bによる第1台本データ30の解析によって抽出された発話者データや台詞データの解析結果に、誤りが発生する場合がある。
【0044】
そこで、解析部24Bは、第1台本データ30の少なくとも一部を解析した時点で、解析結果を第1表示制御部24Cへ出力する。例えば、解析部24Bは、第1台本データ30の台本31の1頁分に相当する領域を解析すると、解析結果を第1表示制御部24Cへ出力する。また、解析部24Bは、解析エラーが発生した場合、解析済の解析結果を第1表示制御部24Cへ出力する。
【0045】
第1表示制御部24Cは、解析部24Bから受付けた解析結果を表示部14Aへ表示する制御を行う。ユーザは、表示部14Aを視認することで、解析部24Bによる解析結果に誤りがないか、違和感がないか、などを確認することができる。違和感や誤りがあると判断した場合、ユーザは、入力部14Bを操作することで、特定部24Aで特定された台本パターンの補正指示を入力する。例えば、ユーザは、表示部14Aを視認しながら入力部14Bを操作することで、特定部24Aで特定された台本パターンにおける、発話者名の配置領域A、台詞の配置領域B、ト書きの配置領域Cなどの位置、大きさ、範囲などの補正指示を入力する。
【0046】
補正指示を受付けた補正部24Eは、受付けた補正指示に応じて、特定部24Aで特定された台本パターンを補正する。また、補正部24Eは、受付けた補正指示に応じて、第1台本データ30から台本パターンを出力する学習モデルである第2学習モデルを補正する。
【0047】
このため、補正部24Eは、台本31の第1台本データ30からより正確に台詞データや発話者データを解析および抽出可能となるように、台本パターンおよび学習モデルの少なくとも一方を補正することができる。
【0048】
補正指示は、台詞IDの付与方法、感情データの推定方法、発話者データの推定方法、の補正指示であってもよい。この場合、補正部24Eは、受付けた補正指示に応じて、台詞IDの付与時、感情データの推定時、および発話者データの推定時、の各々のタイミングで用いるアルゴリズムまたは学習モデルを補正すればよい。
【0049】
そして、解析部24Bは、補正後の台本パターン、アルゴリズム、および学習モデルの少なくとも1つを用いて、第1台本データ30を解析する。これらの処理により、解析部24Bは、より高精度に第1台本データ30を解析することができる。また、第1生成部24Fは、より高精度に、第2台本データ32を生成することができる。
【0050】
なお、出力部24は、特定部24A、解析部24B、および第1生成部24Fを含まない構成であってもよい。この場合、出力部24は、第1台本データ30から第2台本データ32を出力する学習モデルに、第1台本データ30を入力すればよい。この学習モデルは、第1学習モデルの一例である。この場合、出力部24は、複数の第1台本データ30と、これらの複数の第1台本データ30の各々の正解データである第2台本データ32と、の対を教師データとし、第1学習モデルを予め学習する。そして、出力部24は、取得部22で取得した第1台本データ30を、第1学習モデルへ入力した出力結果として、第2台本データ32を出力してもよい。
【0051】
この場合、補正部24Eは、受付けた補正指示に応じて、第1台本データ30から第2台本データ32を出力する第1学習モデルを補正すればよい。
【0052】
出力部24は、第2台本データ32を記憶部16へ記憶する。図3に示すように、出力部24から出力される第2台本データ32は、第1台本データ30に含まれる発話者データの推定結果と、句読点を適正化された台詞データと、感情データと、台詞IDと、を対応付けたものとなる。
【0053】
出力部24は、取得部22が新たな第1台本データ30を取得するごとに、第1台本データ30から第2台本データ32を生成し、記憶部16へ記憶する。このため、記憶部16には、1または複数の第2台本データ32が記憶される。
【0054】
なお、出力部24は、台本31のジャンルまたはカテゴリを表す情報を、第2台本データ32に更に対応付けて記憶部16へ記憶してもよい。例えば、出力部24は、ユーザによる入力部14Bに操作によって入力されたジャンルまたはカテゴリを表す情報を、第2台本データ32へ対応付けて記憶部16へ記憶してもよい。
【0055】
次に、第2生成部26について説明する。第2生成部26は、第2台本データ32から第3台本データを生成する。第3台本データは、第2台本データ32に、更に、音声出力のための各種の情報を付加したデータである。第3台本データの詳細は後述する。
【0056】
第2生成部26は、第2受付部26Aと、リスト生成部26Bと、第2表示制御部26Cと、第3受付部26Dと、設定部26Eと、を備える。
【0057】
第2受付部26Aは、編集対象の第2台本データ32の指定を受付ける。ユーザは、入力部14Bを操作することで、編集対象の第2台本データ32を指定する。例えば、ユーザは、記憶部16に記憶されている複数の第2台本データ32の内、編集対象の1つの第2台本データ32を指定する。第2受付部26Aは、指定された第2台本データ32の識別情報を受付けることで、編集対象の第2台本データ32の指定を受付ける。
【0058】
また、ユーザは、入力部14Bを操作することで、編集作業時の編集単位の指定を入力する。例えば、ユーザは、入力部14Bを操作することで、発話者データおよび台詞データの何れを編集単位とするかを示す、編集単位の指定を入力する。第2受付部26Aは、入力部14Bから編集単位の指定を受付ける。
【0059】
リスト生成部26Bは、第2受付部26Aで指定を受付けた、編集対象の第2台本データ32を記憶部16から読み取る。そして、リスト生成部26Bは、読取った第2台本データ32に登録されている複数の台詞データを、第2受付部26Aで受付けた、指定された編集単位に分類する。例えば、指定された編集単位が発話者データであった場合を想定する。この場合、リスト生成部26Bは、第2台本データ32に含まれる台詞データを、発話者データごとに分類する。
【0060】
第2表示制御部26Cは、第2受付部26Aで指定を受付けた編集対象の第2台本データ32を、リスト生成部26Bで生成された編集単位に分類した、UI画面を生成する。そして、第2表示制御部26Cは、生成したUI画面を、表示部14Aに表示する。
【0061】
図4は、UI画面34の一例の模式図である。図4には、発話者データである“巧”および“優香”ごとに、各々の発話者データに対応する台詞データの少なくとも一部を含む、UI画面34を示す。
【0062】
ユーザは、UI画面34を視認しながら入力部14Bを操作することで、設定情報を入力する。すなわち、UI画面34は、台詞データに対する設定情報の入力を、ユーザから受付けるための入力画面である。
【0063】
設定情報とは、音響に関する情報である。具体的には、設定情報は、辞書ID、辞書IDの合成率、声質情報、を含む。なお、設定情報は、少なくとも辞書IDを含む情報であればよい。辞書IDとは、音声辞書データの辞書識別情報である。辞書識別情報とは、音声辞書データの識別情報である。
【0064】
音声辞書データとは、言語特徴量から音響特徴量を導出するための音響モデルである。音声辞書データは、発話者ごとに予め作成されている。言語特徴量とは、発話者の発話する音声のテキストから抽出された、言語の特長量である。例えば、言語特徴量は、前後の音素、発音に関する情報、句末位置、文長、アクセント句長、モーラ長、モーラ位置、アクセント型、品詞、係り受け情報などである。音響特徴量とは、発話者の発話する音声データから抽出された、音声または音響の特徴量である。音響特徴量には、例えば、HMM(隠れマルコフモデル(hidden Markov model))音声合成で使われる音響特徴量を用いればよい。例えば、音響特徴量は、音韻や声色を表すメルケプストラム係数、メルLPC係数、メルLSP係数、声の高さを表す基本周波数(F0)、音声の周期・非周期成分の割合を表す非周期性指標(BAP)などである。
【0065】
本実施形態では、複数の発話者の各々に対応する音声辞書データが予め用意されており、音声辞書データと辞書IDとが対応付けて記憶部16に予め記憶されているものとする。なお、音声辞書データに対応する発話者は、台本31に設定されている発話者と一致してもよいし、不一致であってもよい。
【0066】
ユーザは、発話者データ、および、発話者データに対応する台詞データを参照しながら入力部14Bを操作することで、発話者データの台詞データに対して、音声辞書データの辞書IDを入力する。このため、ユーザは、台詞データを確認しながら容易に辞書IDを入力することができる。
【0067】
また、ユーザは、入力部14Bを操作することで、1つの発話者データに対して、複数の音声辞書データの辞書IDを入力してもよい。この場合、ユーザは、辞書IDごとに合成率を入力する。合成率とは、複数の音声辞書データを合成して合成音声を生成するときの、音声辞書データの混合の比率を表す。
【0068】
また、ユーザは、入力部14Bを操作することで、声質情報を更に入力することができる。声質情報とは、発話者データに対応する台詞データの台詞の発話時の、声質を表す情報である。言い換えると、声質情報は、台詞データの合成音声の、声質を表す情報である。声質情報は、例えば、音量、話速、高さ、深さ、などで表される。ユーザは、入力部14Bを操作することで、声質情報を指定することができる。
【0069】
上述したように、第2表示制御部26Cは、第2台本データ32に含まれる台詞データを、リスト生成部26Bで生成された編集単位に分類したUI画面34を、表示部14Aへ表示する。このため、UI画面34は、発話者データである“巧”および“優香”ごとに、各々の発話者データに対応する台詞データの少なくとも一部を含む。このため、ユーザは、複数の発話者データの各々に対して、発話者データの発話者が発話する台詞データを参照しながら、所望の設定情報を入力することができる。
【0070】
図1に戻り説明を続ける。第3受付部26Dは、入力部14Bから設定情報を受付ける。
【0071】
設定部26Eは、第3受付部26Dで受付けた設定情報を、第2台本データ32に設定することで、第3台本データを生成する。
【0072】
図5は、第3台本データ36のデータ構成の一例を示す模式図である。第3台本データ36は、台詞IDと、話者データと、発話者データと、台詞データと、感情データと、辞書IDと、合成率と、声質情報と、を対応付けたデータである。設定部26Eは、第3受付部26Dで受付けた発話者データの各々に対応する設定情報を、第2台本データ32における発話者データの各々に対応付けて登録することで、第3台本データ36を生成する。なお、第3台本データ36は、少なくとも、台詞IDと、話者データと、台詞データと、辞書IDと、を対応付けた情報であればよい。
【0073】
図1に戻り説明を続ける。このように、第2生成部26は、ユーザによって入力された、発話者データの発話者の合成音声を生成するための設定情報を、第2台本データ32の話者データおよび台詞データに対応付けて登録することで、第3台本データ36を生成する。第2生成部26は、生成した第3台本データ36を、記憶部16へ記憶する。このため、第2生成部26は、ユーザによる設定情報の入力が行われるごとに、新たに生成した第3台本データ36を記憶部16へ記憶する。
【0074】
次に、上演音声データ生成部28について説明する。
【0075】
上演音声データ生成部28は、第3台本データ36から上演音声データを生成する。
【0076】
図6は、上演音声データ38のデータ構成の一例の模式図である。上演音声データ38は、第3台本データ36に含まれる複数の台詞データの各々ごとに、音声合成パラメータおよび合成音声データの少なくとも一方を更に対応付けたデータである。図6には、上演音声データ38が、音声合成パラメータおよび合成音声データの双方を含む形態を示す。
【0077】
すなわち、上演音声データ38は、複数の台詞音声データ39を含む。台詞音声データ39とは、台詞データごとに生成されるデータである。本実施形態では、台詞音声データ39は、1つの台詞IDと、発話者データと、台詞データと、感情データと、辞書IDと、合成率と、声質情報と、音声合成パラメータと、合成音声データと、を対応付けた情報である。このため、上演音声データ38は、含まれる台詞データの数と同じ数の、台詞音声データ39を含む構成である。
【0078】
音声合成パラメータとは、対応する辞書IDによって識別される音声辞書データを用いて台詞データの合成音声を生成するためのパラメータである。音声合成パラメータは、具体的には、音声合成モジュールで取り扱う韻律データ(Prosody)データなどである。なお、音声合成パラメータは、Prosodyデータに限定されない。
【0079】
合成音声データとは、音声合成パラメータによって生成される合成音声の音声データである。図6には、合成音声データのデータ形式がWAV(Waveform Audio File Format)ファイル形式である場合を一例として示した。しかし、合成音声データのデータ形式は、WAVファイル形式に限定されない。
【0080】
本実施形態では、上演音声データ生成部28は、音声生成部28A、第3表示制御部28B、ラベル受付部28C、およびラベル付与部28Dを含む。
【0081】
音声生成部28Aは、上演音声データ38の生成対象となる1つの第3台本データ36を読取る。例えば、上演音声データ生成部28は、新たな第3台本データ36が記憶部16に記憶されると、該第3台本データ36を生成対象の第3台本データ36として読取る。また、上演音声データ生成部28は、入力部14Bの操作指示によってユーザによって指定された第3台本データ36を、上演音声データ38の生成対象の第3台本データ36として読取ってもよい。
【0082】
音声生成部28Aは、読取った第3台本データ36について、第3台本データ36に含まれる複数の台詞データの各々ごとに、音声合成パラメータおよび音声データを生成する。
【0083】
例えば、音声生成部28Aは、複数の台詞IDの各々に対応する台詞データの各々ごとに、以下の処理を実行する。音声生成部28Aは、台詞データを、対応する辞書IDによって識別される音声辞書データを対応する合成率で用いることで実現される音声データの、音声合成パラメータを生成する。そして、さらに、音声生成部28Aは、生成した音声合成パラメータを、対応する感情データおよび声質情報に応じて補正することで、台詞データに対応するProsodyデータなどの音声合成パラメータを生成する。
【0084】
同様に、音声生成部28Aは、複数の台詞IDの各々に対応する台詞データの各々ごとに、以下の処理を実行する。音声生成部28Aは、台詞データを、対応する辞書IDによって識別される音声辞書データを対応する合成率で用いることで実現される、合成音声データを生成する。そして、さらに、音声生成部28Aは、生成した合成音声データを、対応する感情データおよび声質情報に応じて補正することで、台詞データに対応する合成音声データを生成する。
【0085】
なお、上演音声データ生成部28は、台詞データ、音声辞書データ、合成率、感情データ、および声質情報を入力とし、音声合成パラメータおよび合成音声データを出力する学習モデルを予め学習してもよい。そして、上演音声データ生成部28は、第3台本データ36に含まれる台詞データごとに、台詞データ、音声辞書データ、合成率、感情データ、および声質情報を該学習モデルに入力する。上演音声データ生成部28は、該学習モデルからの出力として、台詞データの各々に対応する、音声合成パラメータおよび合成音声データを生成してもよい。
【0086】
第3表示制御部28Bは、音声生成部28Aで生成された台詞音声データ39を表示部14Aへ表示する。例えば、表示部14Aには、図6に示す上演音声データ38における、直前に生成された台詞音声データ39が表示される。
【0087】
ユーザは、表示された台詞音声データ39を参照しながら入力部14Bを操作することで、台詞音声データ39に対する1または複数のラベルを入力する。
【0088】
ラベルとは、台詞音声データ39に付されるラベルであり、台詞音声データ39の内容に関するキーワードである。ラベルは、例えば、ハッピー、タイアド、モーニング、ミッドナイト、などのワードである。ユーザは、1つの台詞音声データ39に対して、1または複数のラベルを付与することが可能である。
【0089】
ラベル受付部28Cは、ユーザによって入力されたラベル、および該ラベルを付与する対象の台詞音声データ39に含まれる台詞ID、を入力部14Bから受付ける。ラベル付与部28Dは、ラベル受付部28Cで受付けたラベルを、受付けた台詞IDに対応付けて、該台詞音声データ39へ登録する。
【0090】
このため、上演音声データ38には、台詞音声データ39ごと、すなわち、話者データ、台詞データ、または、話者データおよび台詞データの対ごとに、1または複数のラベルが付与された状態となる。
【0091】
台詞音声データ39にラベルが付与されることで、ラベルを検索キーとした台詞音声データ39の検索が可能となる。例えば、ユーザが、作成済の音声合成パラメータまたは合成音声データを、類似する他の台詞データに付与することを所望する場合がある。このような場合、台詞データを検索キーとして台詞音声データ39を検索すると、同様な台詞データが複数含まれる場合、適切な台詞音声データ39を検索することが困難となる場合がある。一方、上演音声データ38の生成時にラベルを付与すると、ラベルを検索キーとした台詞音声データ39の検索が可能となる。このため、すでに作成された音声合成パラメータまたは合成音声データを、容易かつ適切に再利用可能とすることができる。また、編集時間の短縮を図ることができる。
【0092】
なお、ラベル付与部28Dは、台詞音声データ39に含まれる台詞データに含まれるテキストを解析することで、台詞データを表すラベルを自動生成し、台詞音声データ39に付与してもよい。
【0093】
上演音声データ生成部28の、音声生成部28A、第3表示制御部28B、ラベル受付部28C、およびラベル付与部28Dは、第3台本データ36に含まれる台詞データの各々ごとに、上記処理を実行する。このため、上演音声データ生成部28は、第3台本データ36に含まれる台詞データの各々ごとに、音声合成パラメータおよび合成音声データの少なくとも一方と、ラベルと、を対応付けた台詞音声データ39を順次記憶部16へ記憶する。そして、上演音声データ生成部28は、第3台本データ36に含まれる複数の台詞データの各々について、台詞音声データ39を生成することで、上演音声データ38を生成する。
【0094】
図6に示すように、上演音声データ38は、台詞データごとに、話者データと、音声合成パラメータおよび合成音声データの少なくとも一方と、を対応付けたデータである。このため、上演音声データ38を、合成音声を出力する公知の合成音声装置へ入力することで、容易に台本31の意図に沿った上演音声の出力が可能となる。
【0095】
例えば、合成音声装置は、上演音声データ38における台詞データの合成音声データを、上演音声データ38の台詞IDの配列に沿って順次出力する。このため、合成音声装置は、上演音声データ38を用いることで、台本31の流れに沿った台詞のやり取りを表す合成音声を、順次、容易に出力することができる。なお、合成音声装置による上演音声データ38を用いた上演形態は限定されない。例えば、上演音声データ38は、CG(Computer Graphics)映画、アニメーション、音声配信、耳で聞く読書サービス(Audible)などを提供する合成音声装置に適用可能である。
【0096】
次に、本実施形態の情報処理装置10で実行する情報処理を説明する。
【0097】
図7は、第2台本データ32の出力処理の流れの一例を表すフローチャートである。
【0098】
取得部22が、第1台本データ30を取得する(ステップS100)。特定部24Aは、ステップS100で取得した第1台本データ30の台本パターンを特定する(ステップS102)。
【0099】
解析部24Bは、ステップS102で特定された台本パターンに基づいて、ステップS100で取得した第1台本データ30に含まれる台詞データおよび発話者データを解析する(ステップS104)。例えば、解析部24Bは、第1台本データ30の台本31の1頁分を解析する。
【0100】
次に、第1表示制御部24Cは、ステップS104の解析結果を表示部14Aへ表示する(ステップS106)。ユーザは、表示部14Aを視認することで、解析部24Bによる解析結果に誤りがないか、違和感がないか、などを確認する。違和感や誤りがあると判断した場合、ユーザは、入力部14Bを操作することで、特定部24Aで特定された台本パターンの補正指示を入力する。
【0101】
補正部24Eは、入力部14Bから補正指示を受付けたか否かを判断する。補正指示を受付けた場合、補正部24Eは、台本パターン、学習モデル、および、解析に用いるアルゴリズムの少なくとも一つを補正する(ステップS110)。そして、上記ステップS104へ戻る。
【0102】
一方、補正無を示す指示信号を受付けた場合(ステップS108:No)、ステップS112へ進む。
【0103】
ステップS112では、解析部24Bは、第1台本データ30の全体を解析する(ステップS112)。詳細には、補正無の場合には、解析部24Bは、補正無の台本パターン、アルゴリズム、および学習モデルの少なくとも1つを用いて、第1台本データ30の全体を解析する。補正有の場合には、解析部24Bは、ステップS110の補正後の台本パターン、アルゴリズム、および学習モデルの少なくとも1つを用いて、第1台本データ30の全体を解析する。
【0104】
第1生成部24Fは、ステップS104~ステップS112の処理によって解析部24Bで解析された、台詞データと発話者データとを少なくとも対応付けた第2台本データ32を生成する(ステップS114)。そして、第1生成部24Fは、生成した第2台本データ32を記憶部16へ記憶する(ステップS116)。そして、本ルーチンを終了する。
【0105】
次に、第3台本データ36の生成の流れを説明する。
【0106】
図8は、第3台本データ36の生成処理の流れの一例を表すフローチャートである。
【0107】
第2受付部26Aは、編集対象の第2台本データ32の指定を受付ける(ステップS200)。ユーザは、入力部14Bを操作することで、編集対象の第2台本データ32を指定する。第2受付部26Aは、指定された第2台本データ32の識別情報を受付けることで、編集対象の第2台本データ32の指定を受付ける。
【0108】
また、第2受付部26Aは、編集作業時の編集単位の指定を受付ける(ステップS202)。例えば、ユーザは、入力部14Bを操作することで、発話者データおよび台詞データの何れを編集単位とするかを示す、編集単位の指定を入力する。第2受付部26Aは、入力部14Bから編集単位の指定を受付ける。
【0109】
リスト生成部26Bは、リストを生成する(ステップS204)。リスト生成部26Bは、ステップS200で指定を受付けた第2台本データ32に登録されている複数の台詞データを、ステップS202で指定を受付けた編集単位に分類することで、リストを生成する。
【0110】
第2表示制御部26Cは、UI画面34を表示部14Aに表示する(ステップS206)。第2表示制御部26Cは、ステップS200で指定を受付けた第2台本データ32を、ステップS204で生成された編集単位に分類したリスト形式で表すUI画面34を生成し、表示部14Aに表示する。ユーザは、UI画面34を視認しながら入力部14Bを操作することで、設定情報を入力する。
【0111】
第3受付部26Dは、入力部14Bから設定情報を受付ける(ステップS208)。
【0112】
設定部26Eは、ステップS208で受付けた設定情報を、ステップS200で指定を受付けた第2台本データ32に設定することで、第3台本データ36を生成する(ステップS210)。そして、設定部26Eは、生成した第3台本データ36を記憶部16へ記憶する(ステップS212)。そして、本ルーチンを終了する。
【0113】
次に、上演音声データ38の生成の流れを説明する。
【0114】
図9は、上演音声データ38の生成処理の流れの一例を表すフローチャートである。
【0115】
上演音声データ生成部28は、上演音声データ38の生成対象となる1つの第3台本データ36を読取る(ステップS300)。
【0116】
そして、上演音声データ生成部28は、複数の台詞IDの各々に対応する台詞データの各々ごとに、ステップS302~ステップS314の処理を実行する。
【0117】
詳細には、音声生成部28Aは、音声合成パラメータを生成する(ステップS302)。音声生成部28Aは、台詞IDに対応する台詞データを、対応する辞書IDによって識別される音声辞書データを対応する合成率で用いることで実現される音声データの、音声合成パラメータを生成する。そして、さらに、音声生成部28Aは、生成した音声合成パラメータを、対応する感情データおよび声質情報に応じて補正することで、台詞データに対応するProsodyデータなどの音声合成パラメータを生成する。
【0118】
また、音声生成部28Aは、合成音声データを生成する(ステップS304)。音声生成部28Aは、台詞データを、対応する辞書IDによって識別される音声辞書データを対応する合成率で用いることで実現される、合成音声データを生成する。
【0119】
そして、音声生成部28Aは、台詞IDと、台詞データと、ステップS302で生成した音声合成パラメータと、ステップS304で生成した合成音声データと、を少なくとも対応付けた台詞音声データ39を、記憶部16へ登録する(ステップS306)。
【0120】
第3表示制御部28Bは、ステップS306で生成された台詞音声データ39を表示部14Aへ表示する。例えば、表示部14Aには、図6に示す上演音声データ38における、1つの台詞音声データ39が表示される。ユーザは、表示された台詞音声データ39を参照しながら入力部14Bを操作することで、台詞音声データ39に対する1または複数のラベルを入力する。
【0121】
ラベル受付部28Cは、ユーザによって入力されたラベル、および該ラベルを付与する対象の台詞音声データ39に含まれる台詞ID、を入力部14Bから受付ける(ステップS310)。ラベル付与部28Dは、ステップS310で受付けたラベルを、該台詞音声データ39へ付与する(ステップS312)。詳細には、ラベル付与部28Dは、台詞音声データ39における受付けた台詞IDに対応付けて、受付けたラベルを該台詞音声データ39へ登録する。
【0122】
ラベル付与部28Dは、ラベルを付与された台詞音声データ39を、記憶部16へ記憶する(ステップS314)。すなわち、ラベル付与部28Dは、ステップS306で登録した台詞音声データ39へ、更にラベルを付与することで、1つの台詞IDに対応する台詞音声データ39を記憶部16へ記憶する。
【0123】
上演音声データ生成部28は、ステップS300で読み取った第3台本データ36に含まれる複数の台詞データの各々ごとに、ステップS302~ステップS314の処理を繰り返す。これらの処理により、上演音声データ生成部28は、第3台本データ36に含まれる台詞データの各々ごとの台詞音声データ39の群からなる、上演音声データ38を生成することができる。そして、本ルーチンを終了する。
【0124】
以上説明したように、本実施形態の情報処理装置10は、出力部24を備える。出力部24は、上演の元となる第1台本データ30から、第1台本データ30に含まれる台詞の台詞データと台詞の発話者の発話者データとを対応付けた第2台本データ32を出力する。
【0125】
台本31は、実際の発話対象の台詞に加えて、発話者名、ト書き、などの様々な情報を含んだ構成とされている。従来技術では、台本31の意図に沿った上演用の音声合成を行う技術は開示されていなかった。具体的には、台本31の台本パターンは様々であり、台本31から音声を合成して出力可能な技術は開示されていなかった。
【0126】
例えば、一般的な芝居の場合、台本31は、発話者名、ト書き、台詞、などの様々な付加情報を組み合わせて構成される。台詞を発話する演者は、自分の担当する発話者のふるまいを理解し、場合によっては想像による補完を行い、上演する。
【0127】
音声合成技術で芝居の実演などの上演を実現しようとする場合、従来技術では、台本31のト書きなどの付加情報などをコンピュータシステムが解析できなかった。このため、ユーザが台本31の内容に応じて設定および確認を行う作業が必要であった。また、従来技術では、台本31を解析するために特別なフォーマットのデータをユーザが手作業で用意する必要があった。
【0128】
一方、本実施形態の情報処理装置10では、出力部24が、上演の元となる第1台本データ30から、第1台本データ30に含まれる台詞の台詞データと台詞の発話者の発話者データとを対応付けた第2台本データ32を出力する。
【0129】
このため、本実施形態の情報処理装置10では、第1台本データ30を情報処理装置10で処理することで、自動的に、台本31の意図に沿った上演音声の出力が可能なデータを提供することができる。すなわち、本実施形態の情報処理装置10は、台本31に含まれる台詞データおよび発話者データを自動的に抽出して、第2台本データ32として提供することができる。
【0130】
従って、本実施形態の情報処理装置10は、台本31の意図に沿った上演音声の出力が可能なデータを提供することができる。
【0131】
また、本実施形態の情報処理装置10では、第1台本データ30に含まれる複数の台詞データの各々ごとに、台詞データと発話者データとを対応付けた第2台本データ32を生成する。このため、情報処理装置10では、台本31に出現する台詞の発言順に沿って、台詞データと発話者データとの対を配列した第2台本データ32を生成することができる。よって、情報処理装置10は、上記効果に加えて、第2台本データ32に含まれる台詞データの出現順に沿った音声合成が可能なデータを提供することができる。
【0132】
次に、本実施形態の情報処理装置10のハードウェア構成を説明する。
【0133】
図10は、本実施形態の情報処理装置10のハードウェア図の一例である。
【0134】
本実施形態の情報処理装置10は、CPU10Aなどの制御装置と、ROM(Read Only Memory)10BやRAM(Random Access Memory)10Cなどの記憶装置と、HDD(ハードディスクドライブ)10Dと、ネットワークに接続して通信を行うI/F10Eと、各部を接続するバス10Fと、を備える。
【0135】
本実施形態の情報処理装置10で実行されるプログラムは、ROM10B等に予め組み込まれて提供される。
【0136】
本実施形態の情報処理装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
【0137】
さらに、本実施形態の情報処理装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる情報処理装置10で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0138】
本実施形態の情報処理装置10で実行されるプログラムは、コンピュータを上述した情報処理装置10の各部として機能させうる。このコンピュータは、CPU10Aがコンピュータで読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
【0139】
なお、上記実施形態では、情報処理装置10が、単体の装置として構成されていることを想定して説明した。しかし、情報処理装置10は、物理的に分離されてネットワークなどを介して通信可能に接続された複数の装置により構成されていてもよい。
【0140】
例えば、情報処理装置10を、取得部22および出力部24を備えた情報処理装置、第2生成部26を備えた情報処理装置、および、上演音声データ生成部28を備えた情報処理装置、として構成してもよい。
【0141】
また、上記実施形態の情報処理装置10は、クラウドシステム上で動作する仮想マシンとして実現されていてもよい。
【0142】
なお、上記には、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0143】
10 情報処理装置
24 出力部
24A 特定部
24B 解析部
24D 第1受付部
24E 補正部
24F 第1生成部
26 第2生成部
28 上演音声データ生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10