IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ REMEM株式会社の特許一覧

<>
  • 特開-音声合成向けエディタ提供装置 図1
  • 特開-音声合成向けエディタ提供装置 図2
  • 特開-音声合成向けエディタ提供装置 図3
  • 特開-音声合成向けエディタ提供装置 図4
  • 特開-音声合成向けエディタ提供装置 図5
  • 特開-音声合成向けエディタ提供装置 図6
  • 特開-音声合成向けエディタ提供装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024007651
(43)【公開日】2024-01-19
(54)【発明の名称】音声合成向けエディタ提供装置
(51)【国際特許分類】
   G10L 13/08 20130101AFI20240112BHJP
   G10L 13/10 20130101ALI20240112BHJP
【FI】
G10L13/08 124
G10L13/10 113Z
G10L13/10 114
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022108856
(22)【出願日】2022-07-06
(71)【出願人】
【識別番号】521483962
【氏名又は名称】REMEM株式会社
(74)【代理人】
【識別番号】100120916
【弁理士】
【氏名又は名称】佐藤 壽見子
(72)【発明者】
【氏名】森下 英昭
(72)【発明者】
【氏名】石田 尚人
(57)【要約】      (修正有)
【課題】対象となる原稿のテキストデータから自然な合成音声を生成するために、視認性が良く且つ作業効率が高く、操作性に優れた音声合成用データを生成するツールを提供する。
【解決手段】音声合成向けエディタ提供装置は、ディスプレイ画面部16に、原稿表示エリア、第1編集エリア及び第2編集エリアの3種類のエリアを横並びに表示させる。原稿表示エリアには音声化したい原稿を表示し、音声合成プロセスにかける。出力された音声が原稿を自然に読み上げているならば、その音声を保存する。音声に問題があれば、第1編集エリア上で読み上げ用テキストを編集し、音声合成プロセスにかけて試聴する。自然な音声であれば、その音声を保存する。音声に問題があれば、第2編集エリア上で表音文字記号列を編集し、合成された音声に問題が無ければ、その音声を保存する。
【選択図】図1
【特許請求の範囲】
【請求項1】
ディスプレイ画面部に、原稿表示エリアと第1編集エリアと第2編集エリアを横並びに配置表示し、
音声合成の対象となる原稿を、前記原稿表示エリアに表示する原稿入力表示手段と、
音声合成をするために前記原稿を解析するとともに、前記原稿を音声合成処理の単位となる区分に分割する原稿解析手段と、
前記区分ごとに音声合成を行い、音声を出力する音声合成手段と、
前記原稿表示エリア上で処理中の区分を、前記音声合成手段に入力して音声合成された音声を出力する合成音声確認手段と、
前記第1編集エリア上で処理中の区分に対応する読み上げ用テキストを編集し、前記音声合成手段に前記編集中の区分を入力して音声合成された音声を出力する第1編集手段と、
前記第2編集エリア上で処理中の区分に対応する表音文字記号列を編集し、前記音声合成手段に前記編集中の区分を入力して音声合成された音声を出力する第2編集手段と、
前記音声合成手段によって出力された区分ごとの最終出力音声を合成して、前記原稿の音声化データとして保存する音声化データ保存手段とを備えたことを特徴とする音声合成向けエディタ提供装置。
【請求項2】
前記区分毎に前記原稿表示エリア内で強調表示された文字と同期して前記第1編集エリアおよび/あるいは前記第2編集エリア内の文字及び音声が連動して表示されることを特徴とする請求項1に記載の音声合成向けエディタ提供装置。
【請求項3】
元になる前記原稿の前記音声合成手段による出力音声が自然な音声でない場合、前記原稿解析手段で生成した読み上げ用テキストを前記第1編集手段で修正することを特徴とする請求項1に記載の音声合成向けエディタ提供装置。
【請求項4】
前記第2編集手段は、現在処理対象の区分に対する韻律の修正をはじめ前記第1編集手段が修正しきれなかった事項を修正することを特徴とする請求項1に記載の音声合成向けエディタ提供装置。
【請求項5】
前記表音文字記号列は全角ひらがなによる表示を基本とし、制御記号は入力操作部を介した削除と挿入で修正可能であることを特徴とする請求項1に記載の音声合成向けエディタ提供装置。
【請求項6】
音声合成プロセスが動作するサーバ計算機と、前記ディスプレイ画面表示部の3つのエリア毎に文字及び音声を表示し、入力操作部を介した編集を受け付けるクライアント計算機とがネットワークを介して接続されることを特徴とする請求項1から請求項5の何れか1に記載の音声合成向けエディタ提供装置。
【請求項7】
ディスプレイ画面部に、原稿表示エリアと第1編集エリアと第2編集エリアを横並びに配置表示する工程と、
音声合成の対象となる原稿を、前記原稿表示エリアに表示する工程と、
音声合成をするために前記原稿を解析するとともに、前記原稿を音声合成処理の単位となる区分に分割する工程と、
前記区分ごとに音声合成を行い、音声を出力する工程と、
前記原稿表示エリア上で、処理中の区分を音声合成して音声を出力する工程と、
前記第1編集エリア上で処理中の区分に対応する読み上げ用テキストを編集し、前記編集中の区分を音声合成して音声を出力する工程と、
前記第2編集エリア上で処理中の区分に対応する表音文字記号列を編集し、前記編集中の区分を音声合成して音声を出力する工程と、
音声合成によって出力された区分ごとの最終出力音声を合成して、前記原稿の音声化データとして保存する工程とを備えたことを特徴とする音声合成向けエディタ提供方法。
【請求項8】
ディスプレイ画面部に、原稿表示エリアと第1編集エリアと第2編集エリアを横並びに配置表示する、音声合成向けエディタ提供装置に、
音声合成の対象となる原稿を、前記原稿表示エリアに表示する工程と、
音声合成をするために前記原稿を解析するとともに、前記原稿を音声合成処理の単位となる区分に分割する工程と、
前記区分ごとに音声合成を行い、音声を出力する工程と、
前記原稿表示エリア上で、処理中の区分を音声合成して音声を出力する工程と、
前記第1編集エリア上で処理中の区分に対応する読み上げ用テキストを編集し、前記編集中の区分を音声合成して音声を出力する工程と、
前記第2編集エリア上で処理中の区分に対応する表音文字記号列を編集し、前記編集中の区分を音声合成して音声を出力する工程と、
音声合成によって出力された区分ごとの最終出力音声を合成して、前記原稿の音声化データとして保存する工程とを実現させるための音声合成向けエディタ提供プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象となる原稿のテキストデータから自然な合成音声を生成するために、合成音声の試聴、修正を行うツールを提供する装置に関する。
【背景技術】
【0002】
音声合成で利用される日本語の形態素解析は、能力に限界があったり、原稿の日本語が文法的に正しくなかったりすることがある。そのため形態素解析を利用した音声合成プロセスで生成された音声が、意図した自然な読み方にならない場合がある。例えば、「今日は」という文字を「きょうは」「こんにちは」 のいずれで読むか、などは文章における位置、流れ、前後の文脈など、文法以外の判断が必要な場合があり、判定が難しい。そのため、音声合成においては、入力した文章に対し発音を修正する、という人手による作業は必須となっている。
そこで、合成された音声の質を向上させるために、自動的な音声合成プロセスに全面的に頼ることなく、手動でも編集することを目的とする発明が特許文献1、2などに提案されている。
【0003】
特許文献1には、韻律(アクセント)をフレーズ単位に修正することを目的とする発明が開示されている。この内容は、本出願時(2022年)においても主流になっている音声合成作成ツールと変わりがない。
特許文献2には、人手により編集するのであるが、読み記号列(本発明の「表音文字記号列」に相当)の部分での操作性改善、特に韻律の修正/編集に特化した発明が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2002-23781号公報
【特許文献2】特開2016-105210号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の発明は、編集する作業者にとっての視認性や操作性の向上を特に配慮してはいない。それは、原文のテキストを表示していないことからも窺える。音声合成の対象となる原文が表示されないので、編集に従い原文と乖離してきたとしても、どの辺が変化したのかが判然としない。また、韻律の修正もマウスのドラッグで行っている。このマウス・ドラッグは、韻律を特徴付けなどの目的で意図的に普通ではない形にするためには有効な修正方法といえる。しかし、通常の日本語の韻律規則に従った自然な発音を目的とする場合には、マウスとスライダー調整などの複雑で微妙な調整を行う必要はない。むしろ言葉の区切り調整やアクセント記号の修正などのテキスト編集操作で修正する方が、キーボードの利用で完結する点で効率が良い。
特許文献2の発明は、音声合成プロセスでできるだけ正しい読みとするために、修正作業の効率化を図るものであるが、その作業は全て読み記号列を使って行う。この修正は、半角カタカナの文字および特殊記号を混在させて表記されている「読み記号」で行われるので、非常に読みづらく作業効率が良くない。また、特許文献1の発明と同様に、音声を生成することだけに着目しており、元になる原稿テキストと生成される音声とが特にデータ的に連携していない。
【0006】
本発明は、このような従来の問題点に鑑み、視認性が良く且つ作業効率が高く、操作性に優れた音声合成用データを生成するツールを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の音声合成向けエディタ提供装置は、
ディスプレイ画面部に、原稿表示エリアと第1編集エリアと第2編集エリアを横並びに配置表示し、
音声合成の対象となる原稿を、前記原稿表示エリアに表示する原稿入力表示手段と、
音声合成をするために前記原稿を解析するとともに、前記原稿を音声合成処理の単位となる区分に分割する原稿解析手段と、
前記区分ごとに音声合成を行い、音声を出力する音声合成手段と、
前記原稿表示エリア上で処理中の区分を、前記音声合成手段に入力して音声合成された音声を出力する合成音声確認手段と、
前記第1編集エリア上で処理中の区分に対応する読み上げ用テキストを編集し、前記音声合成手段に前記編集中の区分を入力して音声合成された音声を出力する第1編集手段と、
前記第2編集エリア上で処理中の区分に対応する表音文字記号列を編集し、前記音声合成手段に前記編集中の区分を入力して音声合成された音声を出力する第2編集手段と、
前記音声合成手段によって出力された区分ごとの最終出力音声を合成して、前記原稿の音声化データとして保存する音声化データ保存手段とを備えたことを特徴とする。
【発明の効果】
【0008】
本発明では、読み上げ用テキストと表音文字記号列(両者あわせて「音声合成用テキスト」ということもある)の編集作業中、常に元原稿が表示されている。しかも音声合成は、原稿を小単位に分割した区分ごとに行われるので、原稿の区分ごとの文字表示と音声表示とを連動させることが可能となる。そのため、元になる原稿のどの部分を文字と音声で表示しているかを把握しながら編集作業ができる。
また、2つの編集エリアがあり、それぞれのエリアでの修正内容を特化することで、効率的に編集ができる。
【図面の簡単な説明】
【0009】
図1】第1の実施形態のディスプレイ画面部に表示される3つのエリアを示し、各エリア上で作業者により実行される処理の概略を説明する図である。
図2】第1の実施形態の各エリアに表示されるデータ種類を例示する図である。
図3】第1の実施形態の装置のハードウェア構成図である。
図4】第1の実施形態の装置の機能ブロック構成図である。
図5】第1の実施形態の編集対象となる表音文字記号列を説明する図である。
図6】第1の実施形態のディスプレイ画面部に表示される各エリア毎のGUI(Graphical User Interface.この実施形態ではポップアップメニュー)を説明する図である。
図7】第1の実施形態の原稿入力から最終成果物である音声を生成するまでの処理フロー図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施の形態について図面を参照しながら説明する。
【0011】
《第1の実施形態》
本発明の第1の実施の形態(以下、「本実施形態」という)について、次の順に説明する。
〔1.本実施形態の概要〕
〔1-1.画面表示される3つのエリア〕
〔1-1a. 原稿表示エリア〕
〔1-1b. 第1編集エリア〕
〔1-1c. 第2編集エリア〕
〔1-2.各エリアに表示されるテキスト〕
〔2.本実施形態の構成〕
〔2-1.ハードウェア構成〕
〔2-2.機能ブロック構成〕
〔3.本実施形態の動作〕
〔3-1.使用されるGUIの説明〕
〔3-2.処理フロー〕
【0012】
〔1.本実施形態の概要〕
〔1-1.画面表示される3つのエリア〕
本実施形態の装置(以下、「本装置」という)に実装されたツールを対話型で利用するために、本装置のディスプレイ画面部には、3つのエリアを横並びに表示する。図1の原稿表示エリアAreaA、第1編集エリアAreaB、第2編集エリアAreaCの3つである。以下、順に説明する。
【0013】
〔1-1a.原稿表示エリア〕
原稿表示エリアAreaA上で作業者は、対象となる原稿tx1を表示させる(ステップS1)。
原稿を解析し、処理単位となる区分に分割する(ステップS2)。 区分ごとに音声合成用の波形を生成してスピーカから出力する(ステップS3)。以後、図1のステップS9までは区分毎に処理をする。
出力された音声に問題が無ければ、この音声が処理中の区分の最終出力となる。したがって、当該区分については第1編集エリアAreaBおよび第2編集エリアAreaCでの作業は不要となる。
【0014】
〔1-1b.第1編集エリア〕
第1編集エリアAreaB上で、原稿表示エリアAreaAで生成された読み上げ用テキストtx2をエリア内に表示させる(ステップS4)。
編集作業をする(第1段階の編集、ステップS5)。このエリアでの編集内容としては、読みの修正、イントネーションの修正、発音のポーズ時間の修正などがある。
編集中の音声合成用テキストを音声波形に変換して、スピーカから出力する(ステップS6)。つまり、編集の適否を判断するために試聴するのである。
編集(ステップS5)と試聴(ステップS6)とを1回以上行い、意図通りであれば、この合成された音声が処理中の区分の最終出力となる。もし、第1編集エリアAreaBでは修正しきれない問題点があれば、次の第2編集エリアAreaCでの修正対象となる。
【0015】
〔1-1c.第2編集エリア〕
第2編集エリアAreaC上で、第1編集エリアAreaBの音声合成処理によって生成された 表音文字記号列tx3をエリア内に表示させる(ステップS7)。
編集作業をする(第2段階の編集、ステップS8)。このエリアでは、第1編集エリアAreaBにおける作業で修正しきれなかった事項を、表音文字記号列に対して修正を施す。
編集中の表音文字記号列を音声波形に変換して、スピーカから出力する(ステップS9)。つまり、編集の適否を判断するために試聴するのである。
編集(ステップS8)と試聴(ステップS9)とを1回以上行い、意図通りであれば、この合成された音声が処理中の区分の最終出力となる。全区分について最終出力が得られたならば、これらを合成し、対象となる原稿の音声化データとして保存する(ステップS10)。
【0016】
〔1-2.各エリアに表示されるテキストデータ〕
図2(1)は、各エリアに表示されるデータを例示するものである。
図2(2)に示すように、原稿表示エリアAreaAには、原稿テキストtx1を原則として全文表示するが、現在処理中の区分を一見してわかるように表示する。例えば、図2(2)では原稿表示エリアAreaAにおいて、目下処理対象としている区分「本館の展示作品説明は従来のパネル表示に加えてREMEMの技術を活用し 」に下線を付して示している。
一方、第1編集エリアAreaBと第2編集エリアAreaCには、図2(2)のように原稿表示エリアAreaAにおいて下線を付している部分のみを表示してもよい。
【0017】
上記のように、対象となる原稿の音声合成結果を視聴して問題があれば、第1編集エリアAreaBで編集し、その結果を試聴して問題があれば、第2編集エリアAreaCで編集するという2段階の編集作業を実行する。区分単位ごとで見ると、多くの場合は音声合成プロセスの機能によって修正の必要がなく、2つの編集エリアにデータを表示させる必要もない。編集の必要のある場合でも、その多くは第1編集エリアだけの作業で修正が完了するので、最も複雑な第2編集エリアでの作業が必要となるのは非常に限定的である。
以上が、〔1.本実施形態の概要〕である。続いて、〔2.本実施形態の構成〕を説明する。
【0018】
〔2.本実施形態の構成〕
本実施形態では、作業者はパソコンやタブレット端末などの情報処理装置を用いて、元になる原稿テキストtx1の入力から最終的な合成音声の生成・保存までの一連の処理を行う。
この情報処理装置(以下、「本装置」という)のハードウェア構成および制御部の機能ブロック構成について説明する。
【0019】
〔2-1.ハードウェア構成〕
本実施形態は、一般的なパソコンなどにソフトウェアを実装して実現するので、本装置1は、図3に示すようなハードウェア構成を有する。これは一般的なパソコンと同様である。
すなわち、装置全体を制御するCPU等の制御部11と、各種データ・各種プログラムを記憶するROM、RAM、HDDやCDドライブ装置等の記憶部12と、作業者による入力を受け付けるキーボードやマウスなどの入力操作部13と、外部装置との通信を制御する通信インタフェース部14と、スピーカなどの音声出力部15と、文字やGUIの部品などを表示するディスプレイ画面部16と、これらを接続するバス17等を備えている。
【0020】
〔2-2.機能ブロック構成〕
制御部11は、機能に着目すると図4に示すような次の各ブロックから構成される。
すなわち、原稿入力表示部111と、原稿解析部112と、音声合成部113と、合成音声確認部114と、第1編集部115と、第2編集部116と、音声化データ保存部117を備える。
他に、原稿、読み上げ用テキスト、表音文字記号列、音声波形などを記憶部12に格納したり、記憶部12から取り出したりする記憶制御部(図示せず)なども備える。
上記制御部11の各機能は記憶部12に格納されている各種プログラムをメモリ上に読みだして、CPUがこれを実行することにより実現される。ただし、これらの機能の一部をハードウェアが実行してもかまわない。
以下、制御部11の各ブロックについて説明する。
【0021】
(原稿入力表示部)
原稿入力表示部111は、音声合成の対象となる原稿tx1を、原稿表示エリアAreaAに表示する。作業者が入力操作部13を介して指定した原稿tx1を記憶部12から取り出したり、通信ネットワークを介して外部のデータベースから取得したりしてディスプレイ画面部16の原稿表示エリアAreaAに表示させる。
なお、音声合成の対象となるのは上記のような既存の原稿に限らず、作業者が原稿表示エリアAreaAにキーボードなどを介して入力してもよい。つまり、本装置による処理対象となる原稿は、本1冊分のような大部のデータでも、作業者がその都度入力する短文でもなんでもよいのである。
原稿表示エリアAreaAは、対象となる原稿やそのエリアで打ち込んだ文字列などのテキストtx1をそのまま表示することが基本である。しかし、原稿tx1を一切修正できないというわけではない。たとえば、「内蔵ハードディスク」が「内臓ハードディスク」と誤表記されているならば、これを原稿表示エリアAreaA上で修正するべきことは当然である。このように、実際には原稿表示エリアAreaAにおいても表示する文字の確認および最終的な編集を行う。これは、別に保存してあった原稿を文字表示としての完成形にする作業である。
【0022】
(原稿解析部)
原稿解析部112は、原稿入力表示部111によって入力された原稿tx1を解析する。具体的には、単語の読み・品詞などから成る言語辞書データを参照して、原稿に対して形態素解析を行う。形態素解析により、形態素に分割し、その形態素を自立語か非自立語に分類したり品詞を判別したりする。言語辞書は標準辞書と本装置1のユーザ等が追加した辞書がある(例えば、REMEMをリメムと登録する)。辞書が複数有るときは、まずは標準辞書、そのうえで追加辞書が有るならば上書き的にその辞書の情報が反映される。
【0023】
さらに、原稿解析部112は、音声と同期させるために原稿を処理単位である区分に分割する。原稿tx1には小説のように長い文章も含まれ、そのうえ、1文が何行にも及ぶような長い文もあるからである。長い文章は適当な段落に分割し、長い一文は文の途中で分割し、これらの分割された単位(「区分」という)毎に音声合成プロセスに入力する。これにより、音声合成プロセスを行う1単位が比較的短くなり、処理が短時間で完了し、音声と表示文字との同期性も高くなる。これにより、例えば音声書籍視聴用の機器で原稿を表示させながら朗読音声を聴くような場合、強調表示(例えば、点滅させたり、フォントやカラーを変えたり、下線を付したりする等)される文字の部分と音声とを同期させた再生を実現できるのである。
区分の単位に分割する作業は、自動で行っても手動で行ってもよく、原稿表示エリアAreaA上で行う。
この後の作業は基本的に、小さく分けられた区分単位で行うことになる。
【0024】
(音声合成部)
音声合成部113は、既存の音声合成アルゴリズムによって、入力された区分を音声波形に変換し、スピーカ15から出力する。
【0025】
(合成音声確認部)
合成音声確認部114は、目下確認対象となっている区分の音声が音声合成部113によってスピーカ15から出力されると、作業者による判断を受け付ける。ここで出力されるのは、作業者による編集前の音声である。音声を視聴した作業者が意図通りに音声合成されていると判断したならば、この音声を対象となる区分の最終出力として記憶部12に保存し、次の区分の音声合成処理に移る。
【0026】
(第1編集部)
第1編集部115は、ディスプレイ画面部16と入力操作部13を用いて、処理中の区分の読み上げ用テキストtx2を第1編集エリアAreaBに表示させて通常のテキストデータと同様に修正をする。第1編集部115による修正前の読み上げ用テキストtx2は原稿テキストtx1をコピーしたものであって、原稿テキストtx1と同一である。つまり、原稿表示エリアAreaA上で音声合成の再生を行なって、修正したいと思った区分を第1編集エリアAreaBに読み上げ用テキストtx2として表示し、編集作業を開始するのである。
たとえば、原稿が「北の方」となっているのをそのまま音声合成プロセスにかけると「きたのほう」と読んでしまうのを「きたのかた」と読ませたければ、原稿を変えることなく、読み上げ用テキストtx2の該当箇所を「北のかた」と書き換えることで対応できる。この例のように、読み上げ用テキストtx2に対する修正は音声のためだけの修正である。この点、原稿表示エリアAreaAでの原稿テキストtx1に対する修正が表示のためだけの修正であることと大きく相違する。
【0027】
なお、第1編集エリアAreaB上での編集対象を表音文字記号列tx3とすればよいとも思える。しかし、読み方の修正やポーズを入れたりする修正を表音文字記号列tx3に対して行うのは作業者にとって負担となるので、なるべく原稿テキストtx1に近い読み上げ用テキストtx2に対して編集を行うことにしたのである。そして、アクセント位置の変更のように読み上げ用テキストtx2に対する編集が適当でないときに限り、第2編集エリアAreaCにおいて表音文字記号列tx3を修正するのである。
【0028】
第1編集部115は、さらに編集中の区分を音声合成部113に入力し、音声がスピーカ15から出力されると、作業者による判断を受け付ける。ここで出力されるのは、正しい読み方に修正したり、発音のポーズ時間を修正したりした後の音声である。この音声を視聴した作業者が意図通りに音声合成されていると判断したならば、この音声を編集中の区分の最終出力として記憶部12に保存し、次の区分の音声合成処理に移る。
第1編集部115における編集と合成音声出力の試聴は連続して実行され、意図通りの合成音声が生成されるまで編集、試聴、編集、試聴、・・・の処理を繰り返す。第1編集部115によって修正しきれなかった当該区分の表音文字記号列tx3が第2編集エリアAreaCの編集対象となる。
【0029】
(第2編集部)
第2編集部116は、第1編集部115による最新の編集に対応する表音文字記号列tx3を、第2編集エリアAreaCに表示させたうえで通常のテキストデータと同様に修正をする。
第2編集部116による代表的な修正項目は、不適切な韻律である。さらには抑揚や音程などの意図的な修飾も行う。
【0030】
ここで、表音文字記号列tx3について、図5を参照しながら説明する。
一般に表音文字記号列としてJEITA規格TT-6004の音声合成記号を用いることが多い。TT-6004の音声合成記号では、半角カタカナが読みを、「%」が母音の無声化を、「'」がアクセント核位置を、「:」が文中の短いポーズを、スペースがアクセント区切りを、「.」が文末ポーズをそれぞれ表している。
第2編集エリアAreaCに表示される 情報(表音文字記号列tx3)は、上述のように半角カタカナで表記(図5のv1)されることが多く、作業者にとって認識しにくい。そのため、本実施形態では、表音文字記号列tx3を全角の表示(図5のv2)に換え、さらに全角ひらがな(図5のv3)に置き換えた。併せて、制御記号も分かりやすく見やすいものを導入(図5のv4)することで、視認性を高めた。
【0031】
さらに第2編集部116は、編集中の区分を音声合成部113に入力し、音声がスピーカ15から出力されると、これを試聴した作業者による判断を受け付ける。作業者は表音文字記号列tx3の編集の都度試聴し、意図した程度に自然な音声が得られたならば、この音声を当該区分の最終出力として記録部12に保存し、次の区分の音声合成処理に移る。
【0032】
(音声化データ保存部)
音声化データ保存部117は、区分ごとの最終出力を記憶部12に保存する。全区分の最終出力が、対象となる原稿全体に対応する音声化データである。
以上が、〔2.本実施形態の構成〕である。続いて、〔3.本実施形態の動作〕を説明する。
【0033】
〔3.本実施形態の動作〕
本装置1を使用して作業をする際、作業者は各エリアに用意されたGUIを介して作業をする。
そこで、まずGUIについて説明する。
【0034】
〔3-1.使用されるGUIの説明〕
本装置1と作業者とのインターフェースとなるGUI部品にはボタンやチェックボックスなど様々あるが、ここではエリア内をマウスで右クリックしたときなどに現れるポップアップメニューを用いる。図6は、各エリアのポップアップメニューを例示するものである。
【0035】
原稿表示エリアAreaA上に用意されたポップアップメニューmenuAは図6(1)に示すように、「原稿取得」、「試聴」、「保存」、「第1の編集へ」の各項目を含む。
第1編集エリアAreaB上に用意されたポップアップメニューmenuBは図6(2)に示すように、「試聴」、「保存」、「第2の編集へ」の各項目を含む。
第2編集エリアAreaC上に用意されたポップアップメニューmenuCは図6(3)に示すように、「試聴」、「保存」の各項目を含む。
各エリア上で何らかの作業をするときは、適宜メニュー項目を選択する。なお、メニュー項目には、上記以外に「編集内容暫定保存」や「編集内容クリア」などを設けてもよい。作業者が円滑に作業をできる環境が有ればよいのである。
【0036】
〔3-2.処理フロー〕
図7は、本装置1を用いた音声合成処理のフロー図である。
図6(1)のメニュー項目「原稿取得」をクリックすると、原稿入力表示部111は、音声合成の対象となる原稿tx1を原稿表示エリアAreaAに表示する(ステップF1)。
次に、作業者は原稿表示エリアAreaAの文書を確認し、音声と同期させて表示する文の区切りを確認し原稿を区分に分割していく(ステップF2)。これ以降、確認修正作業は基本的に区分単位で、未処理の区分が無くなるまで続ける(ステップF3で、有り)。
続いて、作業者が、作業する区分を選択しメニュー項目「試聴」をクリックすると、音声合成部113は、指定された区分のテキストを音声合成し波形を出力する(ステップF4)。試聴した音声が作業者にとって意図通りに自然であれば(ステップF5でYes)、メニュー項目「保存」をクリックし、合成音声を記憶部12に保存し(ステップF6)、次の区分の確認に進むためステップF3に戻る。もし、この音声に不満足であれば(ステップF5でNo)、メニュー項目「第1の編集へ」をクリックし、第1編集エリアAreaBに音声合成用テキストtx2を表示させる(ステップF7)。
【0037】
第1編集エリアAreaBに表示されている読み上げ用テキストtx2の修正を開始する(ステップF8)。作業者がメニュー項目「試聴」をクリックすると、音声合成部113は、編集中の読み上げ用テキストtx2から生成された音声をスピーカ15から出力する(ステップF9)。試聴した音声が作業者にとって意図通りであれば(ステップF10でYes)、メニュー項目「保存」をクリックし、合成音声を記憶部12に保存し(ステップF11)、次の区分へ進むためステップF3に戻る。もし、この音声に不満足であって(ステップF10でNo)且つ第1編集エリアAreaBでの修正が不十分であれば(ステップF12でYes)、ステップF8に戻る。つまり、編集と試聴を繰り返すことで合成された音声の質をできるだけ高めるのである。第1編集エリアAreaBで可能な編集がこれ以上ないと判断したとき(ステップF12でNo)はメニュー項目「第2の編集へ」をクリックし、第2編集エリアAreaCに表音文字記号列tx3を表示させる(ステップF13)。
【0038】
第2編集エリアAreaCに表示されている表音文字記号列tx3を修正する(ステップF14)。たとえば、原稿「渋谷のクラブ」の表音文字記号列「しぶやのく^らぶ」(「く」にアクセント)を「しぶやのくら^ぶ」(「ら」にアクセント)と修正するのはこのステップF14で行う。
続いて、作業者がメニュー項目「試聴」をクリックすると、音声合成部113は、編集中の表音文字記号列tx3を音声波形に変換し、変換された波形から合成音声を出力する(ステップF15)。試聴した音声が作業者にとって意図通りであれば(ステップF16でYes)、メニュー項目「保存」をクリックし、合成音声を記憶部12に保存し(ステップF17)、次の区分へ進むためステップF3に戻る。もし、この音声に不満足であれば(ステップF16でNo)、ステップF14に戻り修正作業を繰り返す。
原稿テキスtx1の全区分についての処理が終了したならば(ステップF3で、無し)、各区分の最終出力(ステップF6、F11、F17のいずれかで保存された)を合成して対象となる原稿の音声化データとして保存し(ステップF18)、当該原稿についての処理を終える。
以上が、〔3.本実施形態の動作〕である。
以下、特徴的な利点をまとめて記し、本実施形態の説明を終えることとする。
【0039】
本実施形態が、画面上に3つのエリアを設けたことによる利点は次のとおりである。
特許文献1や特許文献2には設けられていなかった原稿表示エリアを新設したことにより、第1・第2の編集エリアが表示とは関係なく、作業専用のエリアとなった。常に「原文」を参照しながら第1編集エリアでは原稿表記に捉われずに音声の修正だけを目的として自由にテキストの編集を行い、第1編集エリアで修正しきれない項目に限って第2編集エリアでさらに高度な編集を行う。このように2つの編集専用のエリアで自由に修正作業を行うことができ、作業効率が向上した。
【0040】
従来の多くの音声合成ツールでは、音声の生成だけに着目しており、原稿と生成される音声とが特にデータ的に連携することがなく、それぞれ独立したものとして扱われてきた。本実施形態では、原稿を区分に分割し、区分ごとに音声合成し、区分ごとにテキストとその音声とを対応づけて保存しているので、原稿の文字表示と音声による読上げを連動させることが可能となった。これにより、スマートフォンなどの視聴用デバイスに朗読している部分の文字を表示したり、前後の文字と共に朗読している箇所を強調するような『文字+音声』の表現が実現できるのである。ちなみに、従来は同期情報を加えるといった方法により、文字と音声との同期を行っているものがあったが、本実施形態では、同期情報のような余分な情報は不要である。
なお、文字表示と音声とを連動させるといっても、内容が同一である必要は無い。例えば、原稿を「梅の花にほひ」と旧仮名遣いのまま表示させながら、音声は「梅の花におい」と現代仮名使いで読んでかまわない。また、仮名遣いに限らず、敢えて原文とは異なる内容の音声を再生することで従来と異なる表現方法を提供することも可能である。例えば、元の原稿に「小鬼」と記載してあったら、これを「ゴブリン」と発音するような場合である。
【0041】
原文が長文の場合、第1・第2の編集エリアにも長文全体に対応するテキストを表示させながら編集するのでは、作業効率に影響が及ぶ。そこで、図2(2)に示したように、編集エリアには編集対象の文や段落のみを表示させる一方、原文表示エリアには全体を表示し、且つ現在編集中の箇所が強調表示などで一見してわかるようにするとよい。これにより、編集中の部分に集中できると同時に、原稿全体のどの辺を編集しているのかを直ちに把握できる。いずれのエリアも多量のテキストを表示しうるように、縦スクロールバーを用意し、テキストの進行に対応できるようにしておくとよい。
【0042】
《第2の実施形態》
第1の実施形態では、作業者の手元に有るパソコンが原稿読み込みから音声合成までの一連の処理を行っていた。しかし、第1の実施形態と同様の処理を、作業者の手元にあるクライアント計算機(以下、「クライアント」)と、このクライアントと通信ネットワークを介して接続するサーバ計算機(以下、「サーバ」)とで実行することもできる。基本的にクライアントにあるのは3つのエリアに文字を表示したり入力したりする装置、機能ボタンやポップアップメニューなどのユーザーインターフェース、音声を再生する装置のみで、原稿解析や音声合成に関わるすべての機能プロセスはサーバ側に備えられている。
【0043】
本発明のいくつかの実施形態を説明したが、これらは例示にすぎず、本発明の範囲を限定するものではない。特許請求の範囲に記載された本発明の要旨を逸脱しない範囲で、上記の実施形態以外に様々な形態で実施することが可能である。
【産業上の利用可能性】
【0044】
書籍など非常に大量の文を含む多様な原稿から正確で自然な音声を効率よく生成できる発明として、種々の活用が期待できる。 また、表示用文字と音声用文字を分離したことで、必ずしも表示とは一致しない音声を同期して再生するという新しい表現の可能性も広がる。
【符号の説明】
【0045】
1:エディタ提供装置
11:制御部
111:原稿入力表示部、112:原稿解析部、113:音声合成部、
114:合成音声確認部、115:第1編集部、
116:第2編集部、117:音声化データ保存部
12:記憶部
13:入力操作部
15:音声出力部
16:ディスプレイ画面部
AreaA:原稿表示エリア、AreaB:第1編集エリア、AreaC:第2編集エリア
tx1:原稿テキスト、tx2:読み上げ用テキスト、tx3:表音文字記号列
図1
図2
図3
図4
図5
図6
図7