特開2022-144261 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2022-144261情報処理装置、情報処理方法、および情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022144261

(43)【公開日】2022-10-03

(54)【発明の名称】情報処理装置、情報処理方法、および情報処理プログラム

(51)【国際特許分類】

G06F 3/16 20060101AFI20220926BHJP

G10L 13/10 20130101ALI20220926BHJP

【ＦＩ】

G06F3/16 690

G10L13/10 114

G10L13/10 112B

G10L13/10 112C

G06F3/16 620

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

(21)【出願番号】P 2021045181

(22)【出願日】2021-03-18

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(71)【出願人】

【識別番号】301063496

【氏名又は名称】東芝デジタルソリューションズ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】倉田宜典

(72)【発明者】

【氏名】瀬戸重宣

(72)【発明者】

【氏名】吉岡寿朗

(57)【要約】

【課題】台本の意図に沿った上演音声の出力が可能なデータを提供する。
【解決手段】情報処理装置１０は、出力部２４を備える。出力部２４は、上演の元となる第１台本データから、第１台本データに含まれる台詞の台詞データと台詞の発話者の発話者データとを対応付けた第２台本データを出力する。
【選択図】図１

【特許請求の範囲】

【請求項1】

上演の元となる第１台本データから、前記第１台本データに含まれる台詞の台詞データと前記台詞の発話者の発話者データとを対応付けた第２台本データを出力する出力部、
を備える情報処理装置。

【請求項2】

前記出力部は、
前記台詞データに基づいて、前記台詞データと、前記台詞を発話する前記発話者の推定結果である前記発話者データと、を対応付けた前記第２台本データを出力する、
請求項１に記載の情報処理装置。

【請求項3】

前記出力部は、
前記台詞に含まれる句読点を適正化した前記台詞データと、前記発話者データと、を対応付けた前記第２台本データを出力する、
請求項１または請求項２に記載の情報処理装置。

【請求項4】

前記出力部は、
前記台詞データの発話時の前記発話者の感情を推定し、推定した感情の感情データを更に対応付けた前記第１台本データを出力する、
請求項１～請求項３の何れか１項に記載の情報処理装置。

【請求項5】

前記出力部は、
前記台詞データごとに前記台詞データの台詞識別情報を更に対応付けた、前記第１台本データを出力する、
請求項１～請求項４の何れか１項に記載の情報処理装置。

【請求項6】

前記出力部は、
前記第１台本データを第１学習モデルに入力した出力結果である前記第２台本データを出力する、
請求項１～請求項５の何れか１項に記載の情報処理装置。

【請求項7】

前記出力部は、
前記第１台本データに含まれる前記発話者および前記台詞の配置を少なくとも表す台本パターンを特定する特定部と、
前記台本パターンに基づいて、前記第１台本データに含まれる前記台詞データおよび前記発話者データを解析する解析部と、
解析された前記台詞データと前記発話者データとを少なくとも対応付けた前記第２台本データを生成する第１生成部と、
を有する、
請求項１～請求項５の何れか１項に記載の情報処理装置。

【請求項8】

前記特定部は、
前記第１台本データを第２学習モデルに入力した出力結果として、前記第１台本データの前記台本パターンを特定する、
請求項７に記載の情報処理装置。

【請求項9】

前記台本パターンの補正指示を受け付ける受付部と、
前記補正指示に応じて前記台本パターンを補正する補正部と、
を備える請求項７または請求項８に記載の情報処理装置。

【請求項10】

前記第２台本データに含まれる前記台詞データに対応する、音声辞書データの辞書識別情報を含む設定情報を受け付ける受付部と、
受け付けた設定情報を、前記第２台本データにおける対応する前記台詞データに対応付けた、第３台本データを生成する第２生成部と、
を備える請求項１～請求項９の何れか１項に記載の情報処理装置。

【請求項11】

前記受付部は、
前記台詞データの前記台詞の発話時の声質情報、を更に含む前記設定情報を受け付ける、
請求項１０に記載の情報処理装置。

【請求項12】

前記第３台本データに含まれる前記台詞データに、対応する前記辞書識別情報によって識別される前記音声辞書データを用いて前記台詞データの合成音声を生成するための音声合成パラメータおよび前記合成音声の合成音声データの少なくとも一方を対応付けた台詞音声データを含む、上演音声データを生成する上演音声データ生成部、
を備える、請求項１０または請求項１１に記載の情報処理装置。

【請求項13】

前記台詞音声データに対する１または複数のラベルを付与するラベル付与部、
を備える、請求項１２に記載の情報処理装置。

【請求項14】

コンピュータによって実行される情報処理方法であって、
上演の元となる第１台本データから、前記第１台本データに含まれる台詞の台詞データと前記台詞の発話者の発話者データとを対応付けた第２台本データを出力するステップを含む情報処理方法。

【請求項15】

上演の元となる第１台本データから、前記第１台本データに含まれる台詞の台詞データと前記台詞の発話者の発話者データとを対応付けた第２台本データを出力するステップを、コンピュータに実行させるための情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、情報処理装置、情報処理方法、および情報処理プログラムに関する。

【背景技術】

【0002】

テキストを音声に変換して出力する音声合成技術が知られている。例えば、入力されたテキストから様々な発話者の音声合成音声を作成して出力するシステムが知られている。また、漫画内に描かれた擬音を再生する技術が知られている。

【0003】

上演の元となる台本は、実際の発話対象の台詞に加えて、発話者の役名、ト書き、などの様々な情報を含んだ構成とされている。従来技術には、台本の意図に沿った上演用の音声合成を行う技術は開示されていなかった。すなわち、従来では、台本の意図に沿った上演音声の出力が可能なデータが提供されていなかった。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特許第５６３４８５３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明が解決しようとする課題は、台本の意図に沿った上演音声の出力が可能なデータを提供することができる、情報処理装置、情報処理方法、および情報処理プログラムを提供することである。

【課題を解決するための手段】

【0006】

実施形態の情報処理装置は、出力部を備える。出力部は、上演の元となる第１台本データから、前記第１台本データに含まれる台詞の台詞データと前記台詞の発話者の発話者データとを対応付けた第２台本データを出力する。

【図面の簡単な説明】

【0007】

【図1】図１は、実施形態の情報処理装置の一例を示す図である。

【図2】図２は、台本の一例の模式図である。

【図3】図３は、第２台本データのデータ構成の一例の模式図である。

【図4】図４は、ＵＩ画面の一例の模式図である。

【図5】図５は、第３台本データのデータ構成の一例を示す模式図である。

【図6】図６は、上演音声データのデータ構成の一例の模式図である。

【図7】図７は、第２台本データの出力処理の流れの一例を表すフローチャートである。

【図8】図８は、第３台本データの生成処理の流れの一例を表すフローチャートである。

【図9】図９は、上演音声データの生成処理の流れの一例を表すフローチャートである。

【図10】図１０は、ハードウェア構成図である。

【発明を実施するための形態】

【0008】

以下に添付図面を参照して、情報処理装置、情報処理方法、および情報処理プログラムを詳細に説明する。

【0009】

図１は、本実施形態の情報処理装置１０の一例を示す図である。

【0010】

情報処理装置１０は、台本の意図に沿った上演音声の出力が可能なデータを生成する情報処理装置である。

【0011】

情報処理装置１０は、通信部１２と、ＵＩ（ユーザ・インターフェース）部１４と、記憶部１６と、処理部２０と、を備える。通信部１２、ＵＩ部１４、記憶部１６、および処理部２０は、バス１８を介して通信可能に接続されている。

【0012】

通信部１２は、ネットワーク等を介して外部の他の情報処理装置と通信する。ＵＩ部１４は、表示部１４Ａと、入力部１４Ｂと、を含む。表示部１４Ａは、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）などのディスプレイや、投影装置などである。入力部１４Ｂは、ユーザの操作を受付ける。入力部１４Ｂは、例えば、デジタルペン、マウス、またはトラックボール等のポインティングデバイスや、キーボード等の入力デバイスである。表示部１４Ａは、各種の情報を表示する。なお、ＵＩ部１４は、表示部１４Ａと入力部１４Ｂとを一体的に備えた、タッチパネルであってもよい。

【0013】

記憶部１６は、各種のデータを記憶する。記憶部１６は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部１６は、情報処理装置１０の外部に設けられた記憶装置であってもよい。また、記憶部１６は、記憶媒体であってもよい。具体的には、記憶媒体は、プログラムや各種情報を、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットなどを介してダウンロードして記憶または一時記憶したものであってもよい。また、記憶部１６を、複数の記憶媒体から構成してもよい。

【0014】

次に、処理部２０について説明する。処理部２０は、各種の情報処理を実行する。ＵＩ部１４は、取得部２２と、出力部２４と、第２生成部２６と、上演音声データ生成部２８と、を備える。出力部２４は、特定部２４Ａ、解析部２４Ｂ、第１表示制御部２４Ｃ、第１受付部２４Ｄ、補正部２４Ｅ、および第１生成部２４Ｆを備える。第２生成部２６は、第２受付部２６Ａ、リスト生成部２６Ｂ、第２表示制御部２６Ｃ、第３受付部２６Ｄ、および設定部２６Ｅ、を備える。上演音声データ生成部２８は、音声生成部２８Ａ、第３表示制御部２８Ｂ、ラベル受付部２８Ｃ、およびラベル付与部２８Ｄを備える。

【0015】

取得部２２、出力部２４、特定部２４Ａ、解析部２４Ｂ、第１表示制御部２４Ｃ、第１受付部２４Ｄ、補正部２４Ｅ、第１生成部２４Ｆ、第２生成部２６、第２受付部２６Ａ、リスト生成部２６Ｂ、第２表示制御部２６Ｃ、第３受付部２６Ｄ、設定部２６Ｅ、上演音声データ生成部２８、音声生成部２８Ａ、第３表示制御部２８Ｂ、ラベル受付部２８Ｃ、および、ラベル付与部２８Ｄは、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

【0016】

また、上記各部の少なくとも１つは、クラウド上で処理を実行するクラウドサーバに搭載されていてもよい。

【0017】

取得部２２は、第１台本データを取得する。

【0018】

第１台本データとは、上演の元となる台本のデータである。台本とは、上演を目的とされた本であり、紙媒体、電子データ、の何れであってもよい。台本は、脚本および戯曲を含む概念であってもよい。

【0019】

図２は、台本３１の一例の模式図である。台本３１には、台詞、台詞の発話者の発話者名、ト書きなどの付加情報、が含まれる。台詞とは、上演対象の演劇や創作物の作中で登場する発話者が発する言葉である。発話者とは、台詞を発話する対象となるユーザである。ト書きとは、台本３１における、台詞および発話者名以外の部分である。ト書きは、例えば、場面の状況、照明、音楽などの効果の指定、発話者の動き、などである。ト書きは、例えば、台詞の間に記載される。

【0020】

本実施形態では、台詞を、１人の発話者が１回の発話で発する言葉ごとに扱う。このため、台本３１には、１または複数の台詞が含まれる。本実施形態では、台本３１には、複数の台詞が含まれる形態を一例として説明する。

【0021】

台本３１に含まれる台詞、発話者名、およびト書きなどの配置位置は、様々である。図２には、台本３１の紙面内の上段の領域に発話者の配置領域Ａが設けられた形態を示す。図２には、台本３１に、発話者名として、「巧（たくみ）」および「優香（ゆうか）」が含まれる形態を一例として示す。また、図２には、発話者名の配置領域Ｃの下段に、発話者名の発話者の各々の台詞の配置領域Ｂが設けられた形態を示す。また、図２には、台本３１の紙面内の端部であって、紙面の上端からの位置が発話者名および台詞とは異なる位置に、ト書きの配置領域Ｃが設けられた形態を示す。台本３１における、台詞、発話者名、およびト書きなどの配置位置、並びに、フォントの種類やサイズや色などの記載形態は様々である。すなわち、台本３１によって、発話者名および台詞の配置を少なくとも表す台本パターンが異なる。

【0022】

図１に戻り説明を続ける。情報処理装置１０の取得部２２は、台本３１が紙媒体である場合には、台本３１をスキャナ等で読み取った電子データである第１台本データ３０を取得する。なお、取得部２２は、記憶部１６に予め記憶された第１台本データ３０を読取ることで、第１台本データ３０を取得してもよい。また、取得部２２は、通信部１２を介して外部の情報処理装置から第１台本データ３０を受信することで、第１台本データ３０を取得してもよい。また、台本３１は、電子データであってもよい。この場合、取得部２２は、電子データである台本３１を読み取ることで、第１台本データ３０を取得すればよい。

【0023】

出力部２４は、第１台本データ３０から、第１台本データ３０に含まれる台詞の台詞データと台詞の発話者の発話者データとを対応付けた、第２台本データを出力する。発話者データは、発話者名のデータである。

【0024】

本実施形態では、出力部２４は、特定部２４Ａと、解析部２４Ｂと、第１受付部２４Ｄ、第１受付部２４Ｄと、補正部２４Ｅと、第１生成部２４Ｆと、を含む。

【0025】

特定部２４Ａは、第１台本データ３０の台本パターンを特定する。台本パターンは、第１台本データ３０の台本３１に含まれる発話者および台詞の配置を少なくとも表す。

【0026】

図２を用いて説明したように、台本３１における、台詞、発話者名、およびト書きなどの配置位置、並びに、フォントの種類やサイズや色などの記載形態は、台本３１によって様々である。

【0027】

そこで、特定部２４Ａは、取得部２２で取得した第１台本データ３０の台本パターンを特定する。例えば、特定部２４Ａは、互いに異なる複数の台本パターンを予め記憶部１６へ記憶する。特定部２４Ａは、第１台本データ３０に含まれる文字を光学文字認識（ＯＣＲ：Ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）などにより解析することで、第１台本データ３０に含まれる文字および文字列の配置、並びに、フォントや色などの記載形態、を解析する。そして、特定部２４Ａは、解析した文字および文字列の配置および記載形態に最も類似する台本パターンを、記憶部１６から特定することで、第１台本データ３０の台本パターンを特定する。

【0028】

なお、特定部２４Ａは、予め、第１台本データ３０と該第１台本データ３０の台本パターンとの対を複数用意し、これらの複数の対を教師データとして用いて学習モデルを学習してもよい。そして、特定部２４Ａは、取得部２２で取得した第１台本データ３０を該学習モデルへ入力する。そして、特定部２４Ａは、該学習モデルの出力として、該第１台本データ３０の台本パターンを特定してもよい。この学習モデルは、後述する第２学習モデルの一例である。

【0029】

解析部２４Ｂは、特定部２４Ａで特定された台本パターンに基づいて、取得部２２で取得した第１台本データ３０に含まれる台詞データおよび発話者データを解析する。例えば、特定部２４Ａが、図２に示す台本３１の台本パターンを特定した場合を想定する。

【0030】

この場合、解析部２４Ｂは、第１台本データ３０に含まれる文字の内、特定した台本パターンによって表される発話者名の配置領域Ａに配置された文字を、発話者の発話者データとして解析する。また、解析部２４Ｂは、第１台本データ３０に含まれる文字の内、特定した台本パターンによって表される台詞の配置領域Ｂに配置された文字を、台詞の台詞データとして解析する。

【0031】

このとき、解析部２４Ｂは、発話者名の配置領域Ａに配置された発話者の文字に対応する配置領域Ｂに配置された文字を、該発話者の台詞データとして解析すればよい。発話者に対応する配置領域Ｂとは、図２に示す例の場合、台本３１における発話者名の配置領域Ａに配置された発話者の文字に対して、台詞の配置領域Ｂにおける、該発話者の文字と同じ書字方向の同じラインに配置された文字を意味する。書字方向は、文字を書き進める方向である。図２には、書字方向が縦書きである形態を一例として示す。

【0032】

これらの処理により、解析部２４Ｂは、第１台本データ３０に含まれる発話者の発話者データ、および、発話者の発話する台詞の台詞データを、台詞データごとに抽出する。上述したように、台詞データは、１人の発話者が１回の発話で発する台詞である。このため、解析部２４Ｂは、第１台本データ３０に含まれる複数の台詞の各々ごとに、台詞データと、該台詞データの台詞を発話する発話者の発話者データと、の対を抽出する。

【0033】

なお、解析部２４Ｂは、第１台本データ３０に含まれる発話者データの解析時に、台詞データに基づいて、台詞データの台詞を発話する発話者を推定した、推定結果である発話者データを解析してもよい。例えば、台本３１には、発話者名が記載されていない台詞が含まれる場合がある。また、台本３１中で、発話者名の記載が、一部略称になっている場合や、誤記などにより異なる表記で記載されている場合がある。この場合、解析部２４Ｂは、第１台本データ３０に含まれる台詞データから、該台詞データを発話する発話者を推定することで、発話者データを解析する。

【0034】

例えば、解析部２４Ｂは、第１台本データ３０における、発話者名の特定された台詞データの群を解析し、第１台本データ３０に含まれる発話者名ごとに、台詞データの特長を特定する。台詞データの特長は、言い回しなどの特長を表す数値で規定される。そして、解析部２４Ｂは、第１台本データ３０に含まれる台詞データの各々について、特徴が類似する台詞データの群ごとに、同じ発話者の発話者データが対応付けられるように、発話者データを推定すればよい。これらの処理により、解析部２４Ｂは、発話者名の記載の無い台詞データや、発話者名の表記に揺らぎのある台詞データに対して、推定した発話者の発話者データを対応付けることができる。

【0035】

また、解析部２４Ｂは、第１台本データ３０に含まれる台詞データごとに、台詞データを識別する識別情報である台詞ＩＤ（ｉｄｅｎｔｉｆｉｅｒ）を付与する。第１台本データ３０に台詞ＩＤが含まれる場合には、解析部２４Ｂは、第１台本データ３０から台詞ＩＤを特定し、台詞データに付与すればよい。第１台本データ３０に台詞ＩＤが含まれない場合には、解析部２４Ｂは、第１台本データ３０に含まれる台詞データの各々に、台詞ＩＤを付与すればよい。

【0036】

なお、解析部２４Ｂは、第１台本データ３０に含まれる台詞データの出現順に沿って、昇順に台詞ＩＤを付与することが好ましい。出現順とは、台本３１の書字方向の上流側から下流側に向かう方向に沿った順である。解析部２４Ｂが、台詞データの出現順に沿って台詞ＩＤを付与することで、以下の効果が得られる。例えば、後述する上演音声データを用いた合成音声の出力時に、台本３１に沿った流れで台詞データの合成音声が順次出力されるように、第１台本データ３０を生成することが可能となる。

【0037】

第１台本データ３０に含まれる台詞データには、句読点が含まれる場合がある。句読点とは、文字言語において文章の区切りや文意の区切りを示すために付けられる符号である。句読点は、例えば、句点、疑問符、感嘆符、省略符、改行記号、などである。解析部２４Ｂは、第１台本データ３０から抽出した台詞データを、人間の発話として違和感の無い形式に適正化することが好ましい。適正化する、とは、台詞データに含まれる句読点の種類または位置を適正化、または、新たな句読点の挿入、を意味する。例えば、解析部２４Ｂは、第１台本データ３０から抽出した台詞データを、予め記憶した適正化のための辞書データまたは学習モデルを用いて適正化することで、適正化した台詞データを生成すればよい。

【0038】

また、解析部２４Ｂは、台詞データの発話時の発話者の感情を推定してもよい。例えば、解析部２４Ｂは、抽出した台詞データ、該台詞データの発話者の発話者データ、および、該台詞に最も近い位置に配置されたト書きのト書きデータなどから、該台詞データの発話時の発話者の感情を推定する。例えば、解析部２４Ｂは、台詞データに含まれる文字列、台詞データを発話する発話者の発話者データ、およびト書きデータから、感情データを出力する、学習モデルを予め学習する。そして、解析部２４Ｂは、第１台本データ３０から抽出した台詞データ、発話者データ、およびト書きデータを該学習モデルへ入力する。解析部２４Ｂは、該学習モデルの出力として得られた感情データを、該台詞データの感情データとして推定すればよい。

【0039】

図１に戻り説明を続ける。解析部２４Ｂは、解析結果である、第１台本データ３０に含まれる複数の台詞データと、複数の台詞データの各々に対応する発話者データとを、第１生成部２４Ｆへ出力する。本実施形態では、解析部２４Ｂは、第１台本データ３０に含まれる複数の台詞データと、複数の台詞データの各々の、台詞ＩＤ、発話者データ、および感情データと、を第１生成部２４Ｆへ出力する。

【0040】

第１生成部２４Ｆは、解析部２４Ｂで解析された、台詞データと発話者データとを少なくとも対応付けた第２台本データを生成する。

【0041】

図３は、第２台本データ３２のデータ構成の一例の模式図である。第２台本データ３２は、台詞ＩＤと、発話者データと、台詞データと、を少なくとも対応付けたデータである。本実施形態では、第２台本データ３２が、台詞ＩＤと、発話者データと、台詞データと、感情データと、を対応付けたデータである形態を一例として説明する。

【0042】

図１に戻り説明を続ける。ここで、解析部２４Ｂによる第１台本データ３０の解析中に、解析エラーが生じる場合がある。例えば、第１台本データ３０に解析困難な文字が含まれる場合などがある。また、第１台本データ３０における、特定部２４Ａで特定された台本パターンに当てはまらない領域に、文字が設定されている場合などがある。このような場合、解析部２４Ｂは、正常な解析が困難となる場合がある。

【0043】

また、解析部２４Ｂによる第１台本データ３０の解析によって抽出された発話者データや台詞データの解析結果に、誤りが発生する場合がある。

【0044】

そこで、解析部２４Ｂは、第１台本データ３０の少なくとも一部を解析した時点で、解析結果を第１表示制御部２４Ｃへ出力する。例えば、解析部２４Ｂは、第１台本データ３０の台本３１の１頁分に相当する領域を解析すると、解析結果を第１表示制御部２４Ｃへ出力する。また、解析部２４Ｂは、解析エラーが発生した場合、解析済の解析結果を第１表示制御部２４Ｃへ出力する。

【0045】

第１表示制御部２４Ｃは、解析部２４Ｂから受付けた解析結果を表示部１４Ａへ表示する制御を行う。ユーザは、表示部１４Ａを視認することで、解析部２４Ｂによる解析結果に誤りがないか、違和感がないか、などを確認することができる。違和感や誤りがあると判断した場合、ユーザは、入力部１４Ｂを操作することで、特定部２４Ａで特定された台本パターンの補正指示を入力する。例えば、ユーザは、表示部１４Ａを視認しながら入力部１４Ｂを操作することで、特定部２４Ａで特定された台本パターンにおける、発話者名の配置領域Ａ、台詞の配置領域Ｂ、ト書きの配置領域Ｃなどの位置、大きさ、範囲などの補正指示を入力する。

【0046】

補正指示を受付けた補正部２４Ｅは、受付けた補正指示に応じて、特定部２４Ａで特定された台本パターンを補正する。また、補正部２４Ｅは、受付けた補正指示に応じて、第１台本データ３０から台本パターンを出力する学習モデルである第２学習モデルを補正する。

【0047】

このため、補正部２４Ｅは、台本３１の第１台本データ３０からより正確に台詞データや発話者データを解析および抽出可能となるように、台本パターンおよび学習モデルの少なくとも一方を補正することができる。

【0048】

補正指示は、台詞ＩＤの付与方法、感情データの推定方法、発話者データの推定方法、の補正指示であってもよい。この場合、補正部２４Ｅは、受付けた補正指示に応じて、台詞ＩＤの付与時、感情データの推定時、および発話者データの推定時、の各々のタイミングで用いるアルゴリズムまたは学習モデルを補正すればよい。

【0049】

そして、解析部２４Ｂは、補正後の台本パターン、アルゴリズム、および学習モデルの少なくとも１つを用いて、第１台本データ３０を解析する。これらの処理により、解析部２４Ｂは、より高精度に第１台本データ３０を解析することができる。また、第１生成部２４Ｆは、より高精度に、第２台本データ３２を生成することができる。

【0050】

なお、出力部２４は、特定部２４Ａ、解析部２４Ｂ、および第１生成部２４Ｆを含まない構成であってもよい。この場合、出力部２４は、第１台本データ３０から第２台本データ３２を出力する学習モデルに、第１台本データ３０を入力すればよい。この学習モデルは、第１学習モデルの一例である。この場合、出力部２４は、複数の第１台本データ３０と、これらの複数の第１台本データ３０の各々の正解データである第２台本データ３２と、の対を教師データとし、第１学習モデルを予め学習する。そして、出力部２４は、取得部２２で取得した第１台本データ３０を、第１学習モデルへ入力した出力結果として、第２台本データ３２を出力してもよい。

【0051】

この場合、補正部２４Ｅは、受付けた補正指示に応じて、第１台本データ３０から第２台本データ３２を出力する第１学習モデルを補正すればよい。

【0052】

出力部２４は、第２台本データ３２を記憶部１６へ記憶する。図３に示すように、出力部２４から出力される第２台本データ３２は、第１台本データ３０に含まれる発話者データの推定結果と、句読点を適正化された台詞データと、感情データと、台詞ＩＤと、を対応付けたものとなる。

【0053】

出力部２４は、取得部２２が新たな第１台本データ３０を取得するごとに、第１台本データ３０から第２台本データ３２を生成し、記憶部１６へ記憶する。このため、記憶部１６には、１または複数の第２台本データ３２が記憶される。

【0054】

なお、出力部２４は、台本３１のジャンルまたはカテゴリを表す情報を、第２台本データ３２に更に対応付けて記憶部１６へ記憶してもよい。例えば、出力部２４は、ユーザによる入力部１４Ｂに操作によって入力されたジャンルまたはカテゴリを表す情報を、第２台本データ３２へ対応付けて記憶部１６へ記憶してもよい。

【0055】

次に、第２生成部２６について説明する。第２生成部２６は、第２台本データ３２から第３台本データを生成する。第３台本データは、第２台本データ３２に、更に、音声出力のための各種の情報を付加したデータである。第３台本データの詳細は後述する。

【0056】

第２生成部２６は、第２受付部２６Ａと、リスト生成部２６Ｂと、第２表示制御部２６Ｃと、第３受付部２６Ｄと、設定部２６Ｅと、を備える。

【0057】

第２受付部２６Ａは、編集対象の第２台本データ３２の指定を受付ける。ユーザは、入力部１４Ｂを操作することで、編集対象の第２台本データ３２を指定する。例えば、ユーザは、記憶部１６に記憶されている複数の第２台本データ３２の内、編集対象の１つの第２台本データ３２を指定する。第２受付部２６Ａは、指定された第２台本データ３２の識別情報を受付けることで、編集対象の第２台本データ３２の指定を受付ける。

【0058】

また、ユーザは、入力部１４Ｂを操作することで、編集作業時の編集単位の指定を入力する。例えば、ユーザは、入力部１４Ｂを操作することで、発話者データおよび台詞データの何れを編集単位とするかを示す、編集単位の指定を入力する。第２受付部２６Ａは、入力部１４Ｂから編集単位の指定を受付ける。

【0059】

リスト生成部２６Ｂは、第２受付部２６Ａで指定を受付けた、編集対象の第２台本データ３２を記憶部１６から読み取る。そして、リスト生成部２６Ｂは、読取った第２台本データ３２に登録されている複数の台詞データを、第２受付部２６Ａで受付けた、指定された編集単位に分類する。例えば、指定された編集単位が発話者データであった場合を想定する。この場合、リスト生成部２６Ｂは、第２台本データ３２に含まれる台詞データを、発話者データごとに分類する。

【0060】

第２表示制御部２６Ｃは、第２受付部２６Ａで指定を受付けた編集対象の第２台本データ３２を、リスト生成部２６Ｂで生成された編集単位に分類した、ＵＩ画面を生成する。そして、第２表示制御部２６Ｃは、生成したＵＩ画面を、表示部１４Ａに表示する。

【0061】

図４は、ＵＩ画面３４の一例の模式図である。図４には、発話者データである“巧”および“優香”ごとに、各々の発話者データに対応する台詞データの少なくとも一部を含む、ＵＩ画面３４を示す。

【0062】

ユーザは、ＵＩ画面３４を視認しながら入力部１４Ｂを操作することで、設定情報を入力する。すなわち、ＵＩ画面３４は、台詞データに対する設定情報の入力を、ユーザから受付けるための入力画面である。

【0063】

設定情報とは、音響に関する情報である。具体的には、設定情報は、辞書ＩＤ、辞書ＩＤの合成率、声質情報、を含む。なお、設定情報は、少なくとも辞書ＩＤを含む情報であればよい。辞書ＩＤとは、音声辞書データの辞書識別情報である。辞書識別情報とは、音声辞書データの識別情報である。

【0064】

音声辞書データとは、言語特徴量から音響特徴量を導出するための音響モデルである。音声辞書データは、発話者ごとに予め作成されている。言語特徴量とは、発話者の発話する音声のテキストから抽出された、言語の特長量である。例えば、言語特徴量は、前後の音素、発音に関する情報、句末位置、文長、アクセント句長、モーラ長、モーラ位置、アクセント型、品詞、係り受け情報などである。音響特徴量とは、発話者の発話する音声データから抽出された、音声または音響の特徴量である。音響特徴量には、例えば、ＨＭＭ（隠れマルコフモデル（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ））音声合成で使われる音響特徴量を用いればよい。例えば、音響特徴量は、音韻や声色を表すメルケプストラム係数、メルＬＰＣ係数、メルＬＳＰ係数、声の高さを表す基本周波数（Ｆ０）、音声の周期・非周期成分の割合を表す非周期性指標（ＢＡＰ）などである。

【0065】

本実施形態では、複数の発話者の各々に対応する音声辞書データが予め用意されており、音声辞書データと辞書ＩＤとが対応付けて記憶部１６に予め記憶されているものとする。なお、音声辞書データに対応する発話者は、台本３１に設定されている発話者と一致してもよいし、不一致であってもよい。

【0066】

ユーザは、発話者データ、および、発話者データに対応する台詞データを参照しながら入力部１４Ｂを操作することで、発話者データの台詞データに対して、音声辞書データの辞書ＩＤを入力する。このため、ユーザは、台詞データを確認しながら容易に辞書ＩＤを入力することができる。

【0067】

また、ユーザは、入力部１４Ｂを操作することで、１つの発話者データに対して、複数の音声辞書データの辞書ＩＤを入力してもよい。この場合、ユーザは、辞書ＩＤごとに合成率を入力する。合成率とは、複数の音声辞書データを合成して合成音声を生成するときの、音声辞書データの混合の比率を表す。

【0068】

また、ユーザは、入力部１４Ｂを操作することで、声質情報を更に入力することができる。声質情報とは、発話者データに対応する台詞データの台詞の発話時の、声質を表す情報である。言い換えると、声質情報は、台詞データの合成音声の、声質を表す情報である。声質情報は、例えば、音量、話速、高さ、深さ、などで表される。ユーザは、入力部１４Ｂを操作することで、声質情報を指定することができる。

【0069】

上述したように、第２表示制御部２６Ｃは、第２台本データ３２に含まれる台詞データを、リスト生成部２６Ｂで生成された編集単位に分類したＵＩ画面３４を、表示部１４Ａへ表示する。このため、ＵＩ画面３４は、発話者データである“巧”および“優香”ごとに、各々の発話者データに対応する台詞データの少なくとも一部を含む。このため、ユーザは、複数の発話者データの各々に対して、発話者データの発話者が発話する台詞データを参照しながら、所望の設定情報を入力することができる。

【0070】

図１に戻り説明を続ける。第３受付部２６Ｄは、入力部１４Ｂから設定情報を受付ける。

【0071】

設定部２６Ｅは、第３受付部２６Ｄで受付けた設定情報を、第２台本データ３２に設定することで、第３台本データを生成する。

【0072】

図５は、第３台本データ３６のデータ構成の一例を示す模式図である。第３台本データ３６は、台詞ＩＤと、話者データと、発話者データと、台詞データと、感情データと、辞書ＩＤと、合成率と、声質情報と、を対応付けたデータである。設定部２６Ｅは、第３受付部２６Ｄで受付けた発話者データの各々に対応する設定情報を、第２台本データ３２における発話者データの各々に対応付けて登録することで、第３台本データ３６を生成する。なお、第３台本データ３６は、少なくとも、台詞ＩＤと、話者データと、台詞データと、辞書ＩＤと、を対応付けた情報であればよい。

【0073】

図１に戻り説明を続ける。このように、第２生成部２６は、ユーザによって入力された、発話者データの発話者の合成音声を生成するための設定情報を、第２台本データ３２の話者データおよび台詞データに対応付けて登録することで、第３台本データ３６を生成する。第２生成部２６は、生成した第３台本データ３６を、記憶部１６へ記憶する。このため、第２生成部２６は、ユーザによる設定情報の入力が行われるごとに、新たに生成した第３台本データ３６を記憶部１６へ記憶する。

【0074】

次に、上演音声データ生成部２８について説明する。

【0075】

上演音声データ生成部２８は、第３台本データ３６から上演音声データを生成する。

【0076】

図６は、上演音声データ３８のデータ構成の一例の模式図である。上演音声データ３８は、第３台本データ３６に含まれる複数の台詞データの各々ごとに、音声合成パラメータおよび合成音声データの少なくとも一方を更に対応付けたデータである。図６には、上演音声データ３８が、音声合成パラメータおよび合成音声データの双方を含む形態を示す。

【0077】

すなわち、上演音声データ３８は、複数の台詞音声データ３９を含む。台詞音声データ３９とは、台詞データごとに生成されるデータである。本実施形態では、台詞音声データ３９は、１つの台詞ＩＤと、発話者データと、台詞データと、感情データと、辞書ＩＤと、合成率と、声質情報と、音声合成パラメータと、合成音声データと、を対応付けた情報である。このため、上演音声データ３８は、含まれる台詞データの数と同じ数の、台詞音声データ３９を含む構成である。

【0078】

音声合成パラメータとは、対応する辞書ＩＤによって識別される音声辞書データを用いて台詞データの合成音声を生成するためのパラメータである。音声合成パラメータは、具体的には、音声合成モジュールで取り扱う韻律データ（Ｐｒｏｓｏｄｙ）データなどである。なお、音声合成パラメータは、Ｐｒｏｓｏｄｙデータに限定されない。

【0079】

合成音声データとは、音声合成パラメータによって生成される合成音声の音声データである。図６には、合成音声データのデータ形式がＷＡＶ（ＷａｖｅｆｏｒｍＡｕｄｉｏＦｉｌｅＦｏｒｍａｔ）ファイル形式である場合を一例として示した。しかし、合成音声データのデータ形式は、ＷＡＶファイル形式に限定されない。

【0080】

本実施形態では、上演音声データ生成部２８は、音声生成部２８Ａ、第３表示制御部２８Ｂ、ラベル受付部２８Ｃ、およびラベル付与部２８Ｄを含む。

【0081】

音声生成部２８Ａは、上演音声データ３８の生成対象となる１つの第３台本データ３６を読取る。例えば、上演音声データ生成部２８は、新たな第３台本データ３６が記憶部１６に記憶されると、該第３台本データ３６を生成対象の第３台本データ３６として読取る。また、上演音声データ生成部２８は、入力部１４Ｂの操作指示によってユーザによって指定された第３台本データ３６を、上演音声データ３８の生成対象の第３台本データ３６として読取ってもよい。

【0082】

音声生成部２８Ａは、読取った第３台本データ３６について、第３台本データ３６に含まれる複数の台詞データの各々ごとに、音声合成パラメータおよび音声データを生成する。

【0083】

例えば、音声生成部２８Ａは、複数の台詞ＩＤの各々に対応する台詞データの各々ごとに、以下の処理を実行する。音声生成部２８Ａは、台詞データを、対応する辞書ＩＤによって識別される音声辞書データを対応する合成率で用いることで実現される音声データの、音声合成パラメータを生成する。そして、さらに、音声生成部２８Ａは、生成した音声合成パラメータを、対応する感情データおよび声質情報に応じて補正することで、台詞データに対応するＰｒｏｓｏｄｙデータなどの音声合成パラメータを生成する。

【0084】

同様に、音声生成部２８Ａは、複数の台詞ＩＤの各々に対応する台詞データの各々ごとに、以下の処理を実行する。音声生成部２８Ａは、台詞データを、対応する辞書ＩＤによって識別される音声辞書データを対応する合成率で用いることで実現される、合成音声データを生成する。そして、さらに、音声生成部２８Ａは、生成した合成音声データを、対応する感情データおよび声質情報に応じて補正することで、台詞データに対応する合成音声データを生成する。

【0085】

なお、上演音声データ生成部２８は、台詞データ、音声辞書データ、合成率、感情データ、および声質情報を入力とし、音声合成パラメータおよび合成音声データを出力する学習モデルを予め学習してもよい。そして、上演音声データ生成部２８は、第３台本データ３６に含まれる台詞データごとに、台詞データ、音声辞書データ、合成率、感情データ、および声質情報を該学習モデルに入力する。上演音声データ生成部２８は、該学習モデルからの出力として、台詞データの各々に対応する、音声合成パラメータおよび合成音声データを生成してもよい。

【0086】

第３表示制御部２８Ｂは、音声生成部２８Ａで生成された台詞音声データ３９を表示部１４Ａへ表示する。例えば、表示部１４Ａには、図６に示す上演音声データ３８における、直前に生成された台詞音声データ３９が表示される。

【0087】

ユーザは、表示された台詞音声データ３９を参照しながら入力部１４Ｂを操作することで、台詞音声データ３９に対する１または複数のラベルを入力する。

【0088】

ラベルとは、台詞音声データ３９に付されるラベルであり、台詞音声データ３９の内容に関するキーワードである。ラベルは、例えば、ハッピー、タイアド、モーニング、ミッドナイト、などのワードである。ユーザは、１つの台詞音声データ３９に対して、１または複数のラベルを付与することが可能である。

【0089】

ラベル受付部２８Ｃは、ユーザによって入力されたラベル、および該ラベルを付与する対象の台詞音声データ３９に含まれる台詞ＩＤ、を入力部１４Ｂから受付ける。ラベル付与部２８Ｄは、ラベル受付部２８Ｃで受付けたラベルを、受付けた台詞ＩＤに対応付けて、該台詞音声データ３９へ登録する。

【0090】

このため、上演音声データ３８には、台詞音声データ３９ごと、すなわち、話者データ、台詞データ、または、話者データおよび台詞データの対ごとに、１または複数のラベルが付与された状態となる。

【0091】

台詞音声データ３９にラベルが付与されることで、ラベルを検索キーとした台詞音声データ３９の検索が可能となる。例えば、ユーザが、作成済の音声合成パラメータまたは合成音声データを、類似する他の台詞データに付与することを所望する場合がある。このような場合、台詞データを検索キーとして台詞音声データ３９を検索すると、同様な台詞データが複数含まれる場合、適切な台詞音声データ３９を検索することが困難となる場合がある。一方、上演音声データ３８の生成時にラベルを付与すると、ラベルを検索キーとした台詞音声データ３９の検索が可能となる。このため、すでに作成された音声合成パラメータまたは合成音声データを、容易かつ適切に再利用可能とすることができる。また、編集時間の短縮を図ることができる。

【0092】

なお、ラベル付与部２８Ｄは、台詞音声データ３９に含まれる台詞データに含まれるテキストを解析することで、台詞データを表すラベルを自動生成し、台詞音声データ３９に付与してもよい。

【0093】

上演音声データ生成部２８の、音声生成部２８Ａ、第３表示制御部２８Ｂ、ラベル受付部２８Ｃ、およびラベル付与部２８Ｄは、第３台本データ３６に含まれる台詞データの各々ごとに、上記処理を実行する。このため、上演音声データ生成部２８は、第３台本データ３６に含まれる台詞データの各々ごとに、音声合成パラメータおよび合成音声データの少なくとも一方と、ラベルと、を対応付けた台詞音声データ３９を順次記憶部１６へ記憶する。そして、上演音声データ生成部２８は、第３台本データ３６に含まれる複数の台詞データの各々について、台詞音声データ３９を生成することで、上演音声データ３８を生成する。

【0094】

図６に示すように、上演音声データ３８は、台詞データごとに、話者データと、音声合成パラメータおよび合成音声データの少なくとも一方と、を対応付けたデータである。このため、上演音声データ３８を、合成音声を出力する公知の合成音声装置へ入力することで、容易に台本３１の意図に沿った上演音声の出力が可能となる。

【0095】

例えば、合成音声装置は、上演音声データ３８における台詞データの合成音声データを、上演音声データ３８の台詞ＩＤの配列に沿って順次出力する。このため、合成音声装置は、上演音声データ３８を用いることで、台本３１の流れに沿った台詞のやり取りを表す合成音声を、順次、容易に出力することができる。なお、合成音声装置による上演音声データ３８を用いた上演形態は限定されない。例えば、上演音声データ３８は、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）映画、アニメーション、音声配信、耳で聞く読書サービス（Ａｕｄｉｂｌｅ）などを提供する合成音声装置に適用可能である。

【0096】

次に、本実施形態の情報処理装置１０で実行する情報処理を説明する。

【0097】

図７は、第２台本データ３２の出力処理の流れの一例を表すフローチャートである。

【0098】

取得部２２が、第１台本データ３０を取得する（ステップＳ１００）。特定部２４Ａは、ステップＳ１００で取得した第１台本データ３０の台本パターンを特定する（ステップＳ１０２）。

【0099】

解析部２４Ｂは、ステップＳ１０２で特定された台本パターンに基づいて、ステップＳ１００で取得した第１台本データ３０に含まれる台詞データおよび発話者データを解析する（ステップＳ１０４）。例えば、解析部２４Ｂは、第１台本データ３０の台本３１の１頁分を解析する。

【0100】

次に、第１表示制御部２４Ｃは、ステップＳ１０４の解析結果を表示部１４Ａへ表示する（ステップＳ１０６）。ユーザは、表示部１４Ａを視認することで、解析部２４Ｂによる解析結果に誤りがないか、違和感がないか、などを確認する。違和感や誤りがあると判断した場合、ユーザは、入力部１４Ｂを操作することで、特定部２４Ａで特定された台本パターンの補正指示を入力する。

【0101】

補正部２４Ｅは、入力部１４Ｂから補正指示を受付けたか否かを判断する。補正指示を受付けた場合、補正部２４Ｅは、台本パターン、学習モデル、および、解析に用いるアルゴリズムの少なくとも一つを補正する（ステップＳ１１０）。そして、上記ステップＳ１０４へ戻る。

【0102】

一方、補正無を示す指示信号を受付けた場合（ステップＳ１０８：Ｎｏ）、ステップＳ１１２へ進む。

【0103】

ステップＳ１１２では、解析部２４Ｂは、第１台本データ３０の全体を解析する（ステップＳ１１２）。詳細には、補正無の場合には、解析部２４Ｂは、補正無の台本パターン、アルゴリズム、および学習モデルの少なくとも１つを用いて、第１台本データ３０の全体を解析する。補正有の場合には、解析部２４Ｂは、ステップＳ１１０の補正後の台本パターン、アルゴリズム、および学習モデルの少なくとも１つを用いて、第１台本データ３０の全体を解析する。

【0104】

第１生成部２４Ｆは、ステップＳ１０４～ステップＳ１１２の処理によって解析部２４Ｂで解析された、台詞データと発話者データとを少なくとも対応付けた第２台本データ３２を生成する（ステップＳ１１４）。そして、第１生成部２４Ｆは、生成した第２台本データ３２を記憶部１６へ記憶する（ステップＳ１１６）。そして、本ルーチンを終了する。

【0105】

次に、第３台本データ３６の生成の流れを説明する。

【0106】

図８は、第３台本データ３６の生成処理の流れの一例を表すフローチャートである。

【0107】

第２受付部２６Ａは、編集対象の第２台本データ３２の指定を受付ける（ステップＳ２００）。ユーザは、入力部１４Ｂを操作することで、編集対象の第２台本データ３２を指定する。第２受付部２６Ａは、指定された第２台本データ３２の識別情報を受付けることで、編集対象の第２台本データ３２の指定を受付ける。

【0108】

また、第２受付部２６Ａは、編集作業時の編集単位の指定を受付ける（ステップＳ２０２）。例えば、ユーザは、入力部１４Ｂを操作することで、発話者データおよび台詞データの何れを編集単位とするかを示す、編集単位の指定を入力する。第２受付部２６Ａは、入力部１４Ｂから編集単位の指定を受付ける。

【0109】

リスト生成部２６Ｂは、リストを生成する（ステップＳ２０４）。リスト生成部２６Ｂは、ステップＳ２００で指定を受付けた第２台本データ３２に登録されている複数の台詞データを、ステップＳ２０２で指定を受付けた編集単位に分類することで、リストを生成する。

【0110】

第２表示制御部２６Ｃは、ＵＩ画面３４を表示部１４Ａに表示する（ステップＳ２０６）。第２表示制御部２６Ｃは、ステップＳ２００で指定を受付けた第２台本データ３２を、ステップＳ２０４で生成された編集単位に分類したリスト形式で表すＵＩ画面３４を生成し、表示部１４Ａに表示する。ユーザは、ＵＩ画面３４を視認しながら入力部１４Ｂを操作することで、設定情報を入力する。

【0111】

第３受付部２６Ｄは、入力部１４Ｂから設定情報を受付ける（ステップＳ２０８）。

【0112】

設定部２６Ｅは、ステップＳ２０８で受付けた設定情報を、ステップＳ２００で指定を受付けた第２台本データ３２に設定することで、第３台本データ３６を生成する（ステップＳ２１０）。そして、設定部２６Ｅは、生成した第３台本データ３６を記憶部１６へ記憶する（ステップＳ２１２）。そして、本ルーチンを終了する。

【0113】

次に、上演音声データ３８の生成の流れを説明する。

【0114】

図９は、上演音声データ３８の生成処理の流れの一例を表すフローチャートである。

【0115】

上演音声データ生成部２８は、上演音声データ３８の生成対象となる１つの第３台本データ３６を読取る（ステップＳ３００）。

【0116】

そして、上演音声データ生成部２８は、複数の台詞ＩＤの各々に対応する台詞データの各々ごとに、ステップＳ３０２～ステップＳ３１４の処理を実行する。

【0117】

詳細には、音声生成部２８Ａは、音声合成パラメータを生成する（ステップＳ３０２）。音声生成部２８Ａは、台詞ＩＤに対応する台詞データを、対応する辞書ＩＤによって識別される音声辞書データを対応する合成率で用いることで実現される音声データの、音声合成パラメータを生成する。そして、さらに、音声生成部２８Ａは、生成した音声合成パラメータを、対応する感情データおよび声質情報に応じて補正することで、台詞データに対応するＰｒｏｓｏｄｙデータなどの音声合成パラメータを生成する。

【0118】

また、音声生成部２８Ａは、合成音声データを生成する（ステップＳ３０４）。音声生成部２８Ａは、台詞データを、対応する辞書ＩＤによって識別される音声辞書データを対応する合成率で用いることで実現される、合成音声データを生成する。

【0119】

そして、音声生成部２８Ａは、台詞ＩＤと、台詞データと、ステップＳ３０２で生成した音声合成パラメータと、ステップＳ３０４で生成した合成音声データと、を少なくとも対応付けた台詞音声データ３９を、記憶部１６へ登録する（ステップＳ３０６）。

【0120】

第３表示制御部２８Ｂは、ステップＳ３０６で生成された台詞音声データ３９を表示部１４Ａへ表示する。例えば、表示部１４Ａには、図６に示す上演音声データ３８における、１つの台詞音声データ３９が表示される。ユーザは、表示された台詞音声データ３９を参照しながら入力部１４Ｂを操作することで、台詞音声データ３９に対する１または複数のラベルを入力する。

【0121】

ラベル受付部２８Ｃは、ユーザによって入力されたラベル、および該ラベルを付与する対象の台詞音声データ３９に含まれる台詞ＩＤ、を入力部１４Ｂから受付ける（ステップＳ３１０）。ラベル付与部２８Ｄは、ステップＳ３１０で受付けたラベルを、該台詞音声データ３９へ付与する（ステップＳ３１２）。詳細には、ラベル付与部２８Ｄは、台詞音声データ３９における受付けた台詞ＩＤに対応付けて、受付けたラベルを該台詞音声データ３９へ登録する。

【0122】

ラベル付与部２８Ｄは、ラベルを付与された台詞音声データ３９を、記憶部１６へ記憶する（ステップＳ３１４）。すなわち、ラベル付与部２８Ｄは、ステップＳ３０６で登録した台詞音声データ３９へ、更にラベルを付与することで、１つの台詞ＩＤに対応する台詞音声データ３９を記憶部１６へ記憶する。

【0123】

上演音声データ生成部２８は、ステップＳ３００で読み取った第３台本データ３６に含まれる複数の台詞データの各々ごとに、ステップＳ３０２～ステップＳ３１４の処理を繰り返す。これらの処理により、上演音声データ生成部２８は、第３台本データ３６に含まれる台詞データの各々ごとの台詞音声データ３９の群からなる、上演音声データ３８を生成することができる。そして、本ルーチンを終了する。

【0124】

以上説明したように、本実施形態の情報処理装置１０は、出力部２４を備える。出力部２４は、上演の元となる第１台本データ３０から、第１台本データ３０に含まれる台詞の台詞データと台詞の発話者の発話者データとを対応付けた第２台本データ３２を出力する。

【0125】

台本３１は、実際の発話対象の台詞に加えて、発話者名、ト書き、などの様々な情報を含んだ構成とされている。従来技術では、台本３１の意図に沿った上演用の音声合成を行う技術は開示されていなかった。具体的には、台本３１の台本パターンは様々であり、台本３１から音声を合成して出力可能な技術は開示されていなかった。

【0126】

例えば、一般的な芝居の場合、台本３１は、発話者名、ト書き、台詞、などの様々な付加情報を組み合わせて構成される。台詞を発話する演者は、自分の担当する発話者のふるまいを理解し、場合によっては想像による補完を行い、上演する。

【0127】

音声合成技術で芝居の実演などの上演を実現しようとする場合、従来技術では、台本３１のト書きなどの付加情報などをコンピュータシステムが解析できなかった。このため、ユーザが台本３１の内容に応じて設定および確認を行う作業が必要であった。また、従来技術では、台本３１を解析するために特別なフォーマットのデータをユーザが手作業で用意する必要があった。

【0128】

一方、本実施形態の情報処理装置１０では、出力部２４が、上演の元となる第１台本データ３０から、第１台本データ３０に含まれる台詞の台詞データと台詞の発話者の発話者データとを対応付けた第２台本データ３２を出力する。

【0129】

このため、本実施形態の情報処理装置１０では、第１台本データ３０を情報処理装置１０で処理することで、自動的に、台本３１の意図に沿った上演音声の出力が可能なデータを提供することができる。すなわち、本実施形態の情報処理装置１０は、台本３１に含まれる台詞データおよび発話者データを自動的に抽出して、第２台本データ３２として提供することができる。

【0130】

従って、本実施形態の情報処理装置１０は、台本３１の意図に沿った上演音声の出力が可能なデータを提供することができる。

【0131】

また、本実施形態の情報処理装置１０では、第１台本データ３０に含まれる複数の台詞データの各々ごとに、台詞データと発話者データとを対応付けた第２台本データ３２を生成する。このため、情報処理装置１０では、台本３１に出現する台詞の発言順に沿って、台詞データと発話者データとの対を配列した第２台本データ３２を生成することができる。よって、情報処理装置１０は、上記効果に加えて、第２台本データ３２に含まれる台詞データの出現順に沿った音声合成が可能なデータを提供することができる。

【0132】

次に、本実施形態の情報処理装置１０のハードウェア構成を説明する。

【0133】

図１０は、本実施形態の情報処理装置１０のハードウェア図の一例である。

【0134】

本実施形態の情報処理装置１０は、ＣＰＵ１０Ａなどの制御装置と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０ＢやＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０Ｃなどの記憶装置と、ＨＤＤ（ハードディスクドライブ）１０Ｄと、ネットワークに接続して通信を行うＩ／Ｆ１０Ｅと、各部を接続するバス１０Ｆと、を備える。

【0135】

本実施形態の情報処理装置１０で実行されるプログラムは、ＲＯＭ１０Ｂ等に予め組み込まれて提供される。

【0136】

本実施形態の情報処理装置１０で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（ＣｏｍｐａｃｔＤｉｓｋＲｅｃｏｒｄａｂｌｅ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

【0137】

さらに、本実施形態の情報処理装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる情報処理装置１０で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

【0138】

本実施形態の情報処理装置１０で実行されるプログラムは、コンピュータを上述した情報処理装置１０の各部として機能させうる。このコンピュータは、ＣＰＵ１０Ａがコンピュータで読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

【0139】

なお、上記実施形態では、情報処理装置１０が、単体の装置として構成されていることを想定して説明した。しかし、情報処理装置１０は、物理的に分離されてネットワークなどを介して通信可能に接続された複数の装置により構成されていてもよい。

【0140】

例えば、情報処理装置１０を、取得部２２および出力部２４を備えた情報処理装置、第２生成部２６を備えた情報処理装置、および、上演音声データ生成部２８を備えた情報処理装置、として構成してもよい。

【0141】

また、上記実施形態の情報処理装置１０は、クラウドシステム上で動作する仮想マシンとして実現されていてもよい。

【0142】

なお、上記には、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0143】

１０情報処理装置
２４出力部
２４Ａ特定部
２４Ｂ解析部
２４Ｄ第１受付部
２４Ｅ補正部
２４Ｆ第１生成部
２６第２生成部
２８上演音声データ生成部

【図1】