(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023146961
(43)【公開日】2023-10-12
(54)【発明の名称】文書音声化システム
(51)【国際特許分類】
G10L 13/00 20060101AFI20231004BHJP
G06F 3/16 20060101ALI20231004BHJP
【FI】
G10L13/00 100K
G06F3/16 690
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2022054431
(22)【出願日】2022-03-29
(71)【出願人】
【識別番号】521483962
【氏名又は名称】REMEM株式会社
(74)【代理人】
【識別番号】100120916
【弁理士】
【氏名又は名称】佐藤 壽見子
(72)【発明者】
【氏名】森下 英昭
(72)【発明者】
【氏名】石田 尚人
(57)【要約】
【課題】書籍のような大型の文書を音声合成によって音声コンテンツ化するシステムを提供する。
【解決手段】ユーザ端末2が通信ネットワークNを介してサーバ1と接続し、サーバ1は、原稿文書から目次情報を分離抽出し、目次情報をインデックス化する手段と、インデックス化した目次情報をユーザ端末2に送信する手段と、ユーザ端末2から選択された目次等に対応する本文をユーザ端末2に送信する手段と、小区間に分割された本文を音声化してユーザ端末2に送信する手段を備える。ユーザ端末2は、前記目次情報から所望の箇所を選択してサーバ1に送信する手段と、サーバ1から当該箇所のテキストおよび音声合成によって生成された音声を受信する手段と、受信した音声データをテキストと同期させて出力する手段を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
通信ネットワークを介してサーバと接続するユーザ端末が大量のデータを含む原稿文書を音声化するシステムであって、
前記サーバは、
原稿文書に含まれる目次情報と本文とを分離して抽出し、目次情報をインデックス化する手段と、
前記インデックス化した目次情報を前記ユーザ端末に送信する手段と、
前記ユーザ端末によって選択された前記目次情報の該当箇所に対応する本文を前記ユーザ端末に送信する手段と、
前記本文を音声合成により音声化して前記ユーザ端末に送信する手段を備え、
前記ユーザ端末は、
前記目次情報から所望の箇所を選択して前記サーバに送信する手段と、
前記サーバから当該箇所のテキストデータおよび音声合成によって生成された音声データを受信する手段と、
前記音声データと音声化されている部分のテキストデータとを同期させて出力する手段を備えることを特徴とする文書音声化システム。
【請求項2】
通信ネットワークを介してサーバと接続するユーザ端末が大量のデータを含む原稿文書を音声化するシステムであって、
前記ユーザ端末は、
前記サーバが原稿文書から抽出した目次情報を受信する手段と、
受信した目次情報を画面表示し、所望の箇所を選択する手段と、
選択した箇所に対応する本文をサーバから受信し、画面表示する手段と、
受信した本文を音声合成によって音声化する手段と、
前記音声合成による音声データを、音声化されている部分のテキストデータと同期させて出力する手段を備えることを特徴とする文書音声化システム。
【請求項3】
前記選択された箇所に対応する本文を適切な小区分に分割し、小区分ごとに順次音声化することを特徴とする請求項1または2のいずれかに記載の文書音声化システム。
【請求項4】
音声再生の途中で、音声の声質や再生速度を変更する手段をさらに備えたことを特徴とする請求項1または2のいずれかに記載の文書音声化システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、書籍のような大型の文書を音声合成によって音声コンテンツ化するシステムに関する。
【背景技術】
【0002】
携帯端末の普及、いつでもどこでもインターネットを介して書籍データをダウンロードできるという環境の整備、通勤・通学電車の中や家事をしながら書籍を読みたい/聞きたいというニーズの増加などによって電子書籍やオーディオブックなどの音声書籍が普及してきた。
このようなニーズに鑑み、書籍や文書の音声化に関する発明が多数出願されてきている(特許文献1、特許文献2,特許文献3など)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006-243156号公報
【特許文献2】特許第4996750号公報
【特許文献3】特開2004-133119号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に開示された発明では、アノテーション(付箋、スタンプ、他オブジェクトへのリンクなど)の位置までのテキスト情報を取得すると、それに基づいて読み上げ情報を生成し、文書の終了位置に達するまで生成処理が何回も繰り返される。生成された読み上げ情報は、その生成順に連結される。したがって、分厚い実用書などの必要箇所のみを拾い読みしたいというユーザのニーズには適さない。このようなニーズに応えるには、ユーザーの読む部分のみを音声化し、読まない部分の音声化は省略するといった効率的な音声化が望まれるが、この先行発明は音声化自体の効率化を目的としていないからである。
特許文献2に開示された発明では、電子書籍データをインターネット経由でサーバからダウンロードしたり、電子書籍リーダーに予め保存したりする。この発明は、ユーザが専用機器を利用しており、さらにその専用機器は大きなデータファイルを保持していることを前提としている。
特許文献3に開示された発明では、不必要な情報の朗読を防止するために、合成目的データの範囲(例えば、筆者履歴などの付帯情報を含めない本文のみ)を選択し、選択した範囲に基づいて読み出したデータから合成音声データを生成し出力する。もしユーザが、目次/見出しといった単位、さらには小区分の文単位で読みたい箇所を指定して音声合成を開始できるのであれば、効率的に情報収集ができるツールとなるのであるが、そのような機能はみられない。
【0005】
このような先行出願の問題点を考慮し、本発明は、第一に書籍などの音声化自体を効率的に実現することを目的とする。
また、ユーザが読みかつ聞きたい(以下「視聴したい」)箇所をリアルタイムで音声合成することにより、大規模ファイルの保持を不要とすることを目的とする。
さらに、興味のある箇所のみを視聴したい というニーズを持つユーザのために、視聴したい 箇所にジャンプできるような仕組みを用意することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題解決のために、請求項1に係る発明は、
通信ネットワークを介してサーバと接続するユーザ端末が大量のデータを含む原稿文書を音声化するシステムであって、
前記サーバは、
原稿文書に含まれる目次情報と本文とを分離して抽出し、目次情報をインデックス化する手段と、
前記インデックス化した目次情報を前記ユーザ端末に送信する手段と、
前記ユーザ端末によって選択された前記目次情報の該当箇所に対応する本文を前記ユーザ端末に送信する手段と、
前記本文を音声合成により音声化して前記ユーザ端末に送信する手段を備え、
前記ユーザ端末は、
前記目次情報から所望の箇所を選択して前記サーバに送信する手段と、
前記サーバから当該箇所のテキストデータおよび音声合成によって生成された音声データを受信する手段と、
前記音声データと音声化されている部分のテキストデータとを同期させて出力する手段を備えることを特徴とする。
「目次情報」とは、目次だけでなく見出し等も含めた、本文(図や写真を含む)を除く書籍の部分をいう。見出しには大見出し、中見出し、小見出しなど階層化されていることが多く、この場合、階層構造も含めて目次情報という。この目次情報は、視聴したい箇所を選択するときのインデックスの役割りを果たす。
【0007】
これにより、目次情報を手がかりとして長い文書の視聴したい箇所をみつけ、その部分を表示しながら音声再生を行うことが可能になる。
さらに、長い文書の中で音声化するのはユーザが視聴したい部分だけとなるので、予め全体の音声データを作成する必要がなく、必要とするデータ容量を大幅に節減することができる。
リアルタイムに音声化する手法であるため、文書に変更があった場合や、新たな文書が追加された場合も即時に変更・追加箇所の音声再生が可能である。
【0008】
ところで、原稿の音声化には録音による方法もあるが、音声録音は手間も費用もかかり、音声データを保存しておく必要があるため記憶容量が大となってその分費用もかかる。例えば、書籍1冊の朗読時間は通常10数時間から20時間程度を要し、これを音声コンテンツ化するとその時間分の音声データを保存して通信、ダウンロードする必要があり、大きな負担となる。そのうえ、扱われる音声データは比較的大きな単位で区切られるため、1つの音声ファイルの途中部分を指定して視聴することは困難であり、元原稿に変更や追加があったときの訂正処理も容易でない。さらに、一部の箇所の声質を変えたいとか音声再生速度を変えたいといったユーザの希望に応えることが困難である。そこで、本システムではリアルタイムに実行する音声合成による方法を採るのである。
【0009】
音声合成プロセスを実行するプログラムをユーザ端末に実装し、ユーザ端末側で音声化してもよい。これにより、スマートフォンなどを既存の電子書籍リーダーのように使用することができる。
【0010】
選択された部分を適切な小区分に分割し、小区分ごとに順次音声化してもよい。これにより、音声合成プロセスや通信の負荷を抑制することができる。
【0011】
音声再生の途中で、音声の種類や再生速度を変更してもよい。
このような変更が可能となるのは、ユーザから視聴したい箇所の指定を受ける都度リアルタイムに音声化するからである。
【発明の効果】
【0012】
長編小説のような大量の文書の中で、ユーザが視聴したいと思う箇所を指定すると直ちにその箇所にジャンプし、テキストと音声とを同期させた形で再生できる。長い文書を先頭から読む必要がないので、特に時間的余裕のない多忙な人にとって、都合のよいシステムを提供できる。
【図面の簡単な説明】
【0013】
【
図1】実施の形態にかかるシステムの概要を説明する図である。
【
図2】実施の形態にかかるシステムの構成を示す図である。
【
図3】実施の形態にかかる処理全体のフロー図である。
【発明を実施するための形態】
【0014】
本発明の実施の形態のシステム(以下、「本システム」)について、次の順に説明する。
〔1〕本システムの概要
〔2〕本システムの構成
〔3〕本システムの動作
【0015】
〔1〕本システムの概要
図1に従い、概要を説明する。
ユーザが視聴したいと希望する原稿文書を指定する(ステップF1)と、『大見出し>小見出し>本文』といった構造化がなされる(ステップF2)。見出しなどの目次情報が本文とは分離して抽出されると、この目次情報がサーバからユーザ端末に送信され、Webブラウザによって画面に表示される(ステップF3)。
【0016】
これから、例えばユーザが「大見出し1」内の「小見出し2」を選択すると、サーバに対して「小見出し2」が選択されたことを送信する。サーバは「小見出し2」の本文のテキストを冒頭部分から送信し、Webブラウザはそのテキストを表示する(ステップF4)。
この時、Webブラウザに表示された冒頭部分から音声化を開始することも可能であり、また、本文はさらに適度な大きさに分割され(ステップF5)、「次へ進む」などのコマンドを使って、読み始める部分へ進むこともできる。実際に視聴したい部分で「音声再生」の指示を行うと、その部分の分割されたテキストデータがWebブラウザからサーバへ送信される。サーバは受信したテキストデータを音声合成プロセスに入力し、音声データを作成する(ステップF6)。
【0017】
ユーザ端末は作成された音声データを再生する。音声データの再生中、Webブラウザはその時点で音声化されている部分とともにその前後の分割されたテキストデータも表示し、本文を分割されていない形を保ちながら表示する(ステップF7)。
【0018】
上述したステップF6 において、音声データ化したいテキストデータをユーザ端末から受信する代わりに、サーバ内部で同期を保ちながら入力することも勿論可能である。
【0019】
以上述べた処理概要からわかるとおり、本システムの特徴は次の点にある。すなわち、
文書というレベルではなく、その中の一つの文レベルに対する操作やナビゲート等によって、まさに視聴しようとするときにその箇所を音声合成するという点である。
以上が本システムの概要である。以下、構成と動作を詳しく説明する。
【0020】
〔2〕本システムの構成
図2に従い、本システムの構成を説明する。
本システムを管理するサーバ1(以下、「サーバ1」)とユーザ端末2は、通信ネットワークNを介して接続している。
サーバ1は、各種原稿を構造化する機能や音声合成機能を提供するいわゆるクラウドサーバ等である。ユーザ端末2は、本システムのユーザが使用するパソコンやスマートフォンなどの端末である。
【0021】
サーバ1は、原稿取得部11、目次・本文分離抽出部12、テキスト分割処理部13、音声合成部14、テキスト送出部15、音声送出部16を備える。他に、図示しない通信インターフェース部、キーボードなどの入力部、画面やプリンタなどの出力部、各種プログラムや実行の途中経過を格納する記憶部なども備える。
【0022】
原稿取得部11は、書籍や書類のデータを格納している原稿データベース3と接続し、これから原稿データを取り出す。
目次・本文分離抽出部12は、取り出した原稿データから目次情報と本文とを分離して抽出するとともに、本文を見出し項目ごとに取り出しやすいように分割する。
テキスト分割処理部13は、ユーザ端末2から見出し項目の指定を受信すると、本文の対応する部分を適当な大きさに分割する。ユーザ端末2側で本文の分割処理を行うのであれば、サーバ1のテキスト分割処理部13は省略可能である。
音声合成部14は、分割された部分のテキストを順次音声合成によって音声化する。
テキスト送出部15は、目次・本文分離抽出部12が生成した目次情報を送出し、かつユーザによって選択された 見出し項目に対応する本文の該当箇所をユーザ端末2に送出する。
音声送出部16は、音声合成部14が生成した音声データをユーザ端末2に送出する。
【0023】
ユーザ端末2は、入力部21と、出力部22と、記憶部23と、送信部24と、受信部25と、テキスト分割処理部26などを備え、図示しないユーザインターフェース部なども備える。
入力部21はユーザ端末2がパソコンの場合はマウスやキーボードなどであり、スマートフォンやタブレット端末の場合はタッチパネルなどである。
出力部22はテキストを表示するディスプレイ、音声を出力するスピーカなどである。
記憶部23は、ROM、RAM、内蔵ハードディスクなどから構成され、各種プログラムや処理の途中経過を格納する。
送信部24は、ユーザによって指定された書籍名や 見出し項目をサーバ1へ送信する。
受信部25は、サーバ1から原稿データや目次情報を受信したり、ユーザが指定した箇所のテキストデータや音声データを受信する。
テキスト分割処理部26は、視聴したいテキストデータを適当な大きさに分割する。分割されたテキストデータは送信部24によって順次サーバ1へ送信される。もしテキストデータの分割がサーバ1によって実行されるのであれば、テキスト分割処理部26は省略可能である。
本システムでは、専用の電子書籍リーダーの代わりにパソコンやスマートフォンなどを使用する。そのため、サーバ1と送受信するための通信ネットワーク接続機能、およびテキストや音声を表示するプログラムであるWebブラウザも必要である。ただし、Webブラウザと同等の機能を有するアプリケーションプログラムがあれば、そのプログラムでWebブラウザに代えてもよいし、電子書籍リーダーがこうした機能を備えてもよい。
【0024】
〔3〕本システムの動作
図3を参照しながら、本システムの動作について説明する。
ユーザ端末2は、ユーザ認証などの手続を適宜終えると、希望する原稿データの名称などのデータ特定情報をサーバ1へ送信する(ステップS1)。
サーバ1は、データベース3からユーザの希望する原稿データを取得し(ステップS2)、この原稿データから目次情報と本文とを分離して抽出する(ステップS3)。
【0025】
本システムでは、文書から目次情報と本文を分離して抽出することを前提としている。この分離・抽出処理には、文書が電子書籍の場合、電子書籍ファイルの標準フォーマット規格であるEPUBを利用するとよい。EPUBでは、目次情報は本文とは分けて構成されているので、この手順に適合しているからである。また、EPUBはオープンフォーマットであり、いろいろなアプリケーションプログラムで利用可能であるからである。
ただし、EPUBを利用することは必須ではない。電子書籍以外の一般的な文書の場合は、
原稿のデータをWordのような文書作成ソフトで読み込み、文書作成ソフトが提供する分類機能を使って手作業で文書の各部分を例えば『タイトル>大見出し>小見出し>本文』のように分類しておき、あとでそれぞれの項目だけを抜き出すとよい。なお、このプロセスを自動化するのは、本発明とは別の発明のテーマである。
【0026】
サーバ1の記憶部は、目次情報と本文とを対応付けて記憶しておくとともに、目次情報はユーザ端末32に送信される(ステップS4)。
ユーザ端末2のWebブラウザは受信した目次情報を画面表示する(ステップS5)。
ユーザは 視聴したいと希望する箇所の見出し項目を選択してマウスクリックなどの動作をする(ステップS6)。選択された見出し項目はサーバ1に送信される。サーバ1は、受信した見出し項目に対応する本文を記憶部から取り出し、ユーザ端末に送信する(ステップS7)。ユーザ端末2のWebブラウザはその冒頭部分のテキストデータを表示する(ステップS8)。
【0027】
この時、Webブラウザに表示された部分から音声化を開始することも可能であり、また、本文はさらに適度な大きさに分割され、「次へ進む」などのコマンドを使って、読み始める部分へ進むこともできる。実際に視聴したい部分で「音声再生」の指示を行うと、その部分の分割された本文のテキストデータがWebブラウザからサーバへ送信され(ステップS9)、サーバは受信したテキストデータを音声合成プロセスに入力し、音声データを作成する(ステップS10)。
【0028】
分割する小区分は任意だが、音声合成の形態素解析を十分に行える単位、例えば一文程度であることが望ましい。複数の文を一塊として音声合成プロセスに入力することもできるが、大きすぎると音声合成プロセスや通信の負荷が増すので、小さい単位が望ましい。分割された1区分ごとに音声合成により音声データを作成し、順次ユーザ端末2に送信するのである。なお、一つの文が数行にわたるような長さのこともある。この場合は、読点に至らない部分でも、句点で区切って小区分としてもよい。
ステップS10 の音声合成の処理は既存の技術を利用すればよい。すなわち、入力されたテキストデータを形態素解析し、中間言語に変換してから音声合成エンジンに入力し、音声合成エンジンはコンテンツ辞書や基本辞書を参照して音声化し音声送出部に出力する。
【0029】
音声データはユーザ端末2に送信される(ステップS11)。ユーザ端末のWebブラウザにおいて、再生中その時点で音声化されている部分、つまり、その時点で視聴されている部分の前後の分割されたテキストデータも表示し、本文を分割されていない形を保ちながら表示する(ステップS12)。その際音声化されている部分のテキストを太字にしたり、色を変えたり、背景色を変えたりしてハイライトすることで、どの部分が読まれているのかを高い同期性をもって明示することができる。
なお、本システムのためのWebブラウザの画面は、視聴を「開始」するボタン、「終了」するボタンなどを備え、快適な操作性をユーザに提供するものとする。さらに、 Webブラウザの画面には、各種パラメータを指定するための「設定」ボタンを設けるとよい。指定可能なパラメータとしては音声再生速度や、声質(女性の声、若い人の声など)が含まれる。
【0030】
上述したように、本システムのユーザは、希望する箇所のみに絞って視聴できるので、見出しが多い実用書の必要箇所を読むとき等に最適なシステムである。さらに、同じ箇所を繰り返し指定すれば、理解できなかったり、よく聞き取れなかったり、重要と判断したりする箇所を何度でも納得いくまで聞くことができる。一方、システム側にとっても、予め全文を音声化して保存しておく必要がない、という利点もある。
要するに本システムは、電子書籍読み上げのためのナビゲーション機能を提供しながら、視聴したい箇所をリアルタイムで音声化するのである。
【0031】
ところで、スマートフォンのシステムにも、一般に「表示されている画面を読み上げる」機能が含まれている。しかし、これらのシステムでは目次の部分が明らかでなく、ユーザにとって目次と本文の区別をつけることができない。したがって、本システムのように、目次を選ぶ、そこから本文に飛ぶ、という手順を迷わず実行することができない。つまり、表示されている情報を順次読み上げていくことしかできないのである。ここで、見出し項目から該当する本文に飛ぶのは、非常に自然な動作であることを付言したい。忙しい人が分厚い書籍を読むときは、目次を眺め興味深そうなページを開くのが通常であり、複数の見出しで構成された長い文書を読む際には見出しを目安にして読みたい箇所を読むのが自然な動きである。この動作を本システムではユーザ端末上で実現できるのである。勿論、目次を使わずに栞・ブックマークなどを使って視聴したい箇所を示すことも可能である。
【0032】
本システムは、特に時間の有効活用のために何かをしながら読書もしたいという多忙な人からのニーズに応えるものである。このニーズに応えるという観点からはオーディオブックなどの音声書籍も同様であり、且つ音声書籍にも目次があって目次の項目単位で読み始める部分へ進むことができる。しかし、音声書籍では、一つの目次項目内において最初から読み上げるしかなく、音声プレイヤーで進めることはできるとはいえ、およその位置まで飛ばすことができるだけである。これに対して本発明はさらに小分割した単位で視聴したい箇所を特定して視聴することが可能なのである。
【0033】
以上、本発明の一実施の形態について説明したが、本発明はこれに限定されるものではない。特許請求の範囲に記載された内容を逸脱しない範囲でさまざまに変形して実施することができる。
【0034】
上記の説明では、音声合成はサーバが実行するが、ユーザ端末が実行するように構成してもよい。音声合成だけでなく、目次情報と本文の分離抽出をする機能も実装すれば、ユーザ端末を単体の装置のように使用できるのである。
また、
図3の処理フローでは、サーバは、音声データ化したいテキストデータをユーザ端末から受信していた(ステップS9)。しかし、サーバ内部で入力することも勿論可能である。例えば、「次へ進む」などのコマンドがWebブラウザ上で操作されるたびにユーザ端末がその情報をサーバへ送信し、サーバ側で分割された本文を同期して進め、サーバ内で視聴する箇所のテキストデータを音声合成プロセスに入力するのである。
【0035】
上記の実施の形態では本発明を主に書籍を対象とする形で説明しているが、本発明は書籍に限らず契約書や取扱説明書のような一般的な文書を対象とすることもできる。一般的な文書に対して、見出し、小見出しのような構造化を行うことで、書籍の目次に対するのと同様の操作が可能となる。また、目次や見出しがない文書であっても小分割して音声化するならば文字と音声の同期した出力が可能となる。
つまり、本システムは、電子書籍だけでなく世の中の様々なデジタルテキストコンテンツへ応用が利くのである。
【0036】
さらに拡張すると、音声化する元の原稿は固定化された文書でなくても、Webページの文書をHTMLやCSSから読み取って、本文の文字テキストを音声と同期させて表示することもできる。
【0037】
本発明にとって最も特徴的であるのは、ユーザが指定したテキストデータをその都度音声化する点である。この特徴を活かした次のようなビジネス方法も実現しうる。すなわち、サーバのデータベースに多数の原稿文書を保存しておき、それぞれの原稿文書にURI/URLなどのユニークなインデックスを連携させておき、そのURI/URLを利用者が指定することで直接視聴したい文書を呼び出す、というものである。それらのURI/URLを2次元コードに変換し、その2次元コードを利用者の端末で読み込むことで視聴したい文書の音声化を実現することができるのである。
【産業上の利用可能性】
【0038】
本発明は、長編小説のように大容量の文書データであっても、事前に録音しておくことなく、ユーザの視聴したい箇所を指定してテキストと同期させながら音声を出力させるので、音声書籍を兼ねた使い勝手のよい書籍リーダーとして需要が期待できる。
【符号の説明】
【0039】
1:サーバ
11:原稿取得部、12:目次・本文分離抽出部、13:テキスト分割処理部、
14:音声合成部、15:テキスト送出部、16:音声送出部
2:ユーザ端末
21:入力部、22:出力部、23:記憶部、24:送信部、
25:受信部、26:テキスト分割処理部
3:文書データベース
N:通信ネットワーク