(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023121372
(43)【公開日】2023-08-31
(54)【発明の名称】データ処理装置、データ処理方法及びプログラム
(51)【国際特許分類】
G10L 13/10 20130101AFI20230824BHJP
G10L 13/08 20130101ALI20230824BHJP
G10L 15/00 20130101ALI20230824BHJP
G06F 3/16 20060101ALI20230824BHJP
G06F 3/01 20060101ALI20230824BHJP
G10L 13/00 20060101ALI20230824BHJP
【FI】
G10L13/10 113Z
G10L13/08 124
G10L15/00 200Z
G06F3/16 690
G06F3/16 530
G06F3/16 620
G06F3/16 610
G06F3/16 540
G06F3/16 650
G06F3/01 510
G10L13/00 100K
G10L13/00 100J
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2022024675
(22)【出願日】2022-02-21
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【弁理士】
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】劉 亜菲
(72)【発明者】
【氏名】福原 忠行
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA46
5E555AA76
5E555BA02
5E555BA05
5E555BA06
5E555BA88
5E555BB02
5E555BB05
5E555BB06
5E555BC04
5E555CA42
5E555CA47
5E555CB64
5E555CB74
5E555CC01
5E555DA23
5E555DA31
5E555DB53
5E555DC13
5E555EA13
5E555EA20
5E555EA22
5E555EA23
5E555FA00
(57)【要約】 (修正有)
【課題】他の朗読者の間や抑揚のある朗読を所望する音声で再現したテキストの読み上げるデータ処理装置、方法及びプログラムを提供す。
【解決手段】データ処理装置1は、文字列から構成されるコンテンツを朗読する第1話者の音声の特徴量を示す時系列データである、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を記憶する朗読情報記憶部121と、第2話者が発声した音声をサンプリングして生成され、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報を記憶する発声情報記憶部122と、朗読情報の前記時刻それぞれにおける文字に発声情報において対応する音色と該時刻における音量と音高とからなる音として出力させる読上データを生成する生成部132と、読上データを出力するよう制御する出力制御部133と、を有する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
文字列から構成されるコンテンツを朗読する第1話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を記憶する朗読情報記憶部と、
第2話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報を記憶する発声情報記憶部と、
前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる読上データを生成する生成部と、
前記読上データを出力するよう制御する出力制御部と、
を有する、データ処理装置。
【請求項2】
前記朗読情報記憶部は、前記コンテンツにおいて基準となる音高を示す第1基準音高データをさらに関連付けた前記朗読情報を記憶し、
前記発声情報記憶部は前記第2話者の基準となる音高を示す第2基準音高データをさらに記憶し、
前記生成部は、前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色を、該時刻における音高と、第1基準音高データと第2基準音高データとの比に基づいて決定した音高で出力させる前記読上データを生成する、
請求項1に記載のデータ処理装置。
【請求項3】
複数の単語と、前記複数の単語それぞれが対応する方言と、前記方言を構成する1以上の文字と、前記方言を構成する文字を発音するための音高と、を関連付けた方言情報を記憶する方言情報記憶部をさらに有し、
前記朗読情報記憶部は、前記朗読情報を構成する単語と、前記単語を構成する1以上の前記文字と、をさらに関連付けた前記朗読情報を記憶し、
前記生成部は、前記朗読情報に含まれる前記1以上の文字と前記1以上の文字に対応する音高とを、前記1以上の文字それぞれが構成する前記単語に前記方言情報において対応する前記方言に含まれる文字と前記方言に含まれる文字を発音するための音高とで置換した置換朗読情報をさらに生成し、生成した置換朗読情報の前記時刻それぞれにおける置換後の文字に前記発声情報において対応する前記音色と該時刻における前記音量と置換後の音高とからなる音として出力させる前記読上データを生成する、
請求項1又は2に記載のデータ処理装置。
【請求項4】
前記朗読情報記憶部は、前記時刻と、フレーズを挿入するタイミングを示すフラグを関連付けた前記朗読情報を記憶し、
前記生成部は、前記フラグが示すタイミングに複数の所定のフレーズから選択したフレーズを出力させる前記読上データを生成させる、
請求項1から3のいずれか1項に記載のデータ処理装置。
【請求項5】
前記発声情報記憶部は、前記第2話者に対応する画像データをさらに記憶し、
前記出力制御部は、前記読上データを出力するよう制御している場合に前記第2話者に対応する画像を表示部に表示させるよう制御する、
請求項1から4のいずれか1項に記載のデータ処理装置。
【請求項6】
ユーザを撮像した撮像データを取得する撮像データ取得部と、
前記撮像データ取得部から取得した前記撮像データを画像解析することで前記ユーザの状態を判定する判定部と、をさらに有し、
前記出力制御部は、前記判定部が前記ユーザの状態を前記ユーザが眠っていると判定した場合に、前記読上データの出力を停止し、又は前記読上データの出力態様を変更する、
請求項1から5のいずれか1項に記載のデータ処理装置。
【請求項7】
ユーザを撮像した撮像データを取得する撮像データ取得部と、
前記撮像データ取得部から取得した前記撮像データを画像解析することで前記ユーザの状態を判定し、判定した前記ユーザの状態を情報端末に通知する判定部と、
をさらに有する、請求項1から5のいずれか1項に記載のデータ処理装置。
【請求項8】
前記朗読情報記憶部は、前記コンテンツを複数の異なる第1話者それぞれが朗読した複数の前記朗読情報それぞれと、前記朗読情報それぞれが適する状況とを関連付けて記憶し、
前記判定部は、前記ユーザの属性及び前記ユーザの状態の少なくともいずれかに基づいて前記ユーザの状況を判定し、
前記生成部は、前記判定部が判定した前記ユーザの状況に関連付けられた前記朗読情報を選択し、選択した前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる前記読上データを生成する、
請求項6又は7に記載のデータ処理装置。
【請求項9】
前記朗読情報記憶部は、前記朗読情報において朗読の対象となる前記コンテンツに含まれる言葉と前記言葉が示す意味とを対応付けた辞書情報を前記朗読情報と関連付けてさらに記憶し、
前記データ処理装置は、コンテンツを視聴するユーザが発話した音声情報を取得する音声情報取得部と、
前記音声情報取得部が取得した音声情報を音声認識し、前記ユーザの発話内容を取得する音声認識部と、を有し、
前記生成部は、前記音声認識部が取得した前記ユーザの発話内容が前記コンテンツに対する質問である場合に、前記辞書情報を参照し、前記質問に対する回答を示す回答情報を生成し、
前記出力制御部は、前記回答情報を出力するよう制御する、
請求項1から5のいずれか1項に記載のデータ処理装置。
【請求項10】
反応情報記憶部をさらに有し、
前記音声認識部は、前記ユーザの発話内容と、前記発話内容を前記ユーザが発話したタイミングに対応する、前記時刻と、を関連付けた反応情報を前記反応情報記憶部に記憶させる、請求項9に記載のデータ処理装置。
【請求項11】
コンピュータが実行する、朗読情報記憶部に記憶された文字列から構成されるコンテンツを朗読する第1話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を取得するステップと、
発声情報記憶部に記憶された第2話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報取得するステップと、
前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる読上データを生成するステップと、
前記読上データを出力するよう制御するステップと、
を有するデータ処理方法。
【請求項12】
コンピュータに、朗読情報記憶部に記憶された文字列から構成されるコンテンツを朗読する第1話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を取得するステップと、
発声情報記憶部に記憶された第2話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報取得するステップと、
前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる読上データを生成するステップと、
前記読上データを出力するよう制御するステップと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理装置、データ処理方法及びプログラムに関する。
【背景技術】
【0002】
テキストデータと音素データを合成させて所望の音声でテキストを読み上げる技術が知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしこのような音声合成技術においては、用意された音素を組み合わせてテキストの読上げを行うが、例えば忙しい両親が自分の声で朗読した読上げを聞かせることにより家族の絆を深めたいというユーザのニーズに十分にこたえることができていなかった。また、従来の音声合成装置においては、テキストデータを機械的に読み上げたような音声が出力されるため、聞き手が違和感を覚えるという問題が生じていた。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、他の朗読者の間や抑揚のある朗読を所望する音声で再現したテキストの読み上げができるようにすることを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様のデータ処理装置においては、文字列から構成されるコンテンツを朗読する第1話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を記憶する朗読情報記憶部と、第2話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報を記憶する発声情報記憶部と、前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる読上データを生成する生成部と、前記読上データを出力するよう制御する出力制御部と、を有する。
【0007】
前記朗読情報記憶部は、前記コンテンツにおいて基準となる音高を示す第1基準音高データをさらに関連付けた前記朗読情報を記憶し、前記発声情報記憶部は前記第2話者の基準となる音高を示す第2基準音高データをさらに記憶し、前記生成部は、前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色を、該時刻における音高と、第1基準音高データと第2基準音高データとの比に基づいて決定した音高で出力させる前記読上データを生成してもよい。
【0008】
複数の単語と、前記複数の単語それぞれが対応する方言と、前記方言を構成する1以上の文字と、前記方言を構成する文字を発音するための音高と、を関連付けた方言情報を記憶する方言情報記憶部をさらに有し、前記朗読情報記憶部は、前記朗読情報を構成する単語と、前記単語を構成する1以上の前記文字と、をさらに関連付けた前記朗読情報を記憶し、前記生成部は、前記朗読情報に含まれる前記1以上の文字と前記1以上の文字に対応する音高とを、前記1以上の文字それぞれが構成する前記単語に前記方言情報において対応する前記方言に含まれる文字と前記方言に含まれる文字を発音するための音高とで置換した置換朗読情報をさらに生成し、生成した置換朗読情報の前記時刻それぞれにおける置換後の文字に前記発声情報において対応する前記音色と該時刻における前記音量と置換後の音高とからなる音として出力させる前記読上データを生成してもよい。
【0009】
前記朗読情報記憶部は、前記時刻と、フレーズを挿入するタイミングを示すフラグを関連付けた前記朗読情報を記憶し、前記生成部は、前記フラグが示すタイミングに複数の所定のフレーズから選択したフレーズを出力させる前記読上データを生成させてもよい。
【0010】
前記発声情報記憶部は、前記第2話者に対応する画像データをさらに記憶し、前記出力制御部は、前記読上データを出力するよう制御している場合に前記第2話者に対応する画像を表示部に表示させるよう制御してもよい。
【0011】
ユーザを撮像した撮像データを取得する撮像データ取得部と、前記撮像データ取得部から取得した前記撮像データを画像解析することで前記ユーザの状態を判定する判定部と、をさらに有し、前記出力制御部は、前記判定部が前記ユーザの状態を前記ユーザが眠っていると判定した場合に、前記読上データの出力を停止し、又は前記読上データの出力態様を変更してもよい。
【0012】
ユーザを撮像した撮像データを取得する撮像データ取得部と、前記撮像データ取得部から取得した前記撮像データを画像解析することで前記ユーザの状態を判定し、判定した前記ユーザの状態を情報端末に通知する判定部と、をさらに有してもよい。
【0013】
前記朗読情報記憶部は、前記コンテンツを複数の異なる第1話者それぞれが朗読した複数の前記朗読情報それぞれと、前記朗読情報それぞれが適する状況とを関連付けて記憶し、前記判定部は、前記ユーザの属性及び前記ユーザの状態の少なくともいずれかに基づいて前記ユーザの状況を判定し、前記生成部は、前記判定部が判定した前記ユーザの状況に関連付けられた前記朗読情報を選択し、選択した前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる前記読上データを生成してもよい。
【0014】
前記朗読情報記憶部は、前記朗読情報において朗読の対象となる前記コンテンツに含まれる言葉と前記言葉が示す意味とを対応付けた辞書情報を前記朗読情報と関連付けてさらに記憶し、前記データ処理装置は、コンテンツを視聴するユーザが発話した音声情報を取得する音声情報取得部と、前記音声情報取得部が取得した音声情報を音声認識し、前記ユーザの発話内容を取得する音声認識部と、を有し、前記生成部は、前記音声認識部が取得した前記ユーザの発話内容が前記コンテンツに対する質問である場合に、前記辞書情報を参照し、前記質問に対する回答を示す回答情報を生成し、前記出力制御部は、前記回答情報を出力するよう制御してもよい。
【0015】
反応情報記憶部をさらに有し、前記音声認識部は、前記ユーザの発話内容と、前記発話内容を前記ユーザが発話したタイミングに対応する、前記時刻と、を関連付けた反応情報を前記反応情報記憶部に記憶させてもよい。
【0016】
本発明の第2の態様のデータ処理方法においては、コンピュータが実行する、朗読情報記憶部に記憶された文字列から構成されるコンテンツを朗読する第1話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を取得するステップと、発声情報記憶部に記憶された第2話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報取得するステップと、前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる読上データを生成するステップと、前記読上データを出力するよう制御するステップと、を有してもよい。
【0017】
本発明の第3の態様のプログラムにおいては、コンピュータに、朗読情報記憶部に記憶された文字列から構成されるコンテンツを朗読する第1話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を取得するステップと、発声情報記憶部に記憶された第2話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報取得するステップと、前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる読上データを生成するステップと、前記読上データを出力するよう制御するステップと、を実行させる。
【発明の効果】
【0018】
本発明によれば、他の朗読者の間や抑揚のある朗読を所望する音声で再現したテキストの読み上げができるという効果を奏する。
【図面の簡単な説明】
【0019】
【
図1】実施の形態にかかるデータ処理システムSの概要を説明する図である。
【
図2】データ処理装置1の構成を示すブロック図である。
【
図3】朗読情報記憶部121が記憶する朗読情報のデータ構造の一例を示す図である。
【
図4】朗読情報に関連付けられたメタデータのデータ構造の一例を示す図である。
【
図5】発声情報記憶部122が記憶する発声情報のデータ構造の一例を示す図である。
【
図6】方言情報記憶部123が記憶する方言情報のデータ構造の一例を示す図である。
【
図7】朗読情報記憶部121が記憶する辞書情報のデータ構造の一例を示す図である。
【
図8】データ処理装置1における処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0020】
[データ処理装置1の概要]
図1は、実施の形態にかかるデータ処理システムSの概要を説明する図である。データ処理システムSは、コンテンツの朗読をユーザが聴取するためのシステムである。データ処理システムSは、データ処理装置1と、情報端末2と、を有する。
【0021】
データ処理装置1は、第1話者による特徴のあるコンテンツの朗読を、朗読した話者と異なる第2話者の声質で再現した音声を出力するための読上データを生成する装置である。データ処理装置1は、例えばサーバやパーソナルコンピュータである。
【0022】
好適な使用例として、第1話者はプロの朗読者、ナレーター、俳優、声優等である。第2話者は、例えば、コンテンツを聴取するユーザの親、兄弟又は祖父母、友人等若しくは作家等のコンテンツの作者である。データ処理装置1がこのような音声を用いた読上データ を生成することで、ユーザは、プロのナレーター等が行った特徴のある朗読をユーザにとって身近な者の声で楽しむことができる。データ処理装置1を用いた読上げは、例えば、赤ちゃんに親の声を覚えさせたい又は親の声を聴かせて安心させたいといった場合に有効である。
【0023】
情報端末2は、データ処理装置1から入力された読上データに対応する音声を出力するためのデバイスである。情報端末2は、例えば、パーソナルコンピュータ、スマートスピーカー、スマートフォン又はタブレット等である。なお、データ処理装置1と情報端末2とは一体に構成されていてもよい。
【0024】
データ処理装置1は、第1話者S1がコンテンツを朗読した音声の特徴を示す朗読情報を記憶している。コンテンツは例えば絵本、小説、漫画又は教養書等の書籍、演劇等の台本若しくは紙芝居等である。朗読情報は、第1話者S1がコンテンツを朗読した音声の特徴量を示す時系列データである。朗読情報は、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、が関連づけられている。一例として、データ処理装置1は、第1話者S1がコンテンツを朗読した音声データを取得し、取得した音声データの声量、音高、発声されている文字を解析することで朗読情報を生成する。朗読情報は、コンテンツを構成する文字が、コンテンツの再生の開始からどれ位経過した時点でどのような音量及び音高で発声されるかを示すデータともいえる。
【0025】
なお、データ処理装置1は、異なる第1話者が同じコンテンツを朗読して生成された複数の朗読情報を記憶してもよい。異なる第1話者が同じコンテンツを朗読した朗読情報を記憶しておくことで、個性のある朗読の中から状況に適した朗読を選択することが可能となる。また、同じ話者が異なるコンテンツを朗読して生成された複数の朗読情報を記憶してもよい。
【0026】
データ処理装置1は、第1話者S1と異なる第2話者S2の声質を示す発声情報を記憶している。発声情報は、複数の文字と、第2話者S2が複数の文字それぞれを発音する際に発声された声の音色と、が関連づけられている。一例として、データ処理装置1は、第2話者S2が発声した音声をサンプリングした音声データを取得し、取得した音声データの音高、音色、発声されている文字を解析することで発声情報を生成する。
【0027】
ユーザUは、情報端末2を操作し、聴取したいコンテンツと第2話者を選択する。情報端末2は、聴取したいコンテンツと第2話者を含む操作情報をデータ処理装置1に送信する。データ処理装置1は、操作情報に含まれる聴取したいコンテンツに対応する朗読情報と、第2話者に対応する発声情報を取得する。
【0028】
データ処理装置1は、取得した朗読情報と発声情報とを合成して読上データを生成する。具体的には、データ処理装置1は、朗読情報に含まれる時刻それぞれにおける文字に発声情報において対応する音色と、朗読情報が示す該時刻における音量と音高とからなる音を時系列に示す読上データを生成する。
【0029】
そして、データ処理装置1は、読上データを情報端末2に出力する。データ処理装置1がこのように構成されることで、所望する音声で他の朗読者の間や抑揚のある朗読を再現したテキストの読み上げをすることができる。
【0030】
[データ処理装置1の構成]
図2は、データ処理装置1の構成を示すブロック図である。データ処理装置1は、通信部11、記憶部12及び制御部13を有する。記憶部12は、朗読情報記憶部121、発声情報記憶部122、方言情報記憶部123及び反応情報記憶部124を有する。制御部13は、操作受付部131、生成部132、出力制御部133、撮像データ取得部134、判定部135、音声情報取得部136及び音声認識部137を有する。
【0031】
通信部11は、他の装置とデータの送受信するための通信インターフェースである。記憶部12は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、SSD(Solid State Drive)、HDD(Hard Disk Drive)等の記憶媒体である。記憶部12は、制御部13が実行する各種のプログラムを記憶する。
【0032】
朗読情報記憶部121は、文字列から構成されるコンテンツを朗読する第1話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を記憶する。
図3は、朗読情報記憶部121が記憶する朗読情報のデータ構造の一例を示す図である。
図3に示す朗読情報においては、「時刻」と、「文字」と、「音量」と、「音高」と、が関連付けられている。
【0033】
朗読情報における「時刻」は、コンテンツの再生時間中における該データが位置する時刻を示す。「時刻」は、一例としてミリ秒又はマイクロ秒単位で表される。なお、「時刻」は、タイミングを示す指数で示されてもよい。この場合、サンプリング周期と指数を乗算し、時刻を求めることができる。
【0034】
朗読情報における「文字」は、当該時刻において発声される文字を示す。
図3においては一例として、「文字」は発声される音に対応するかな文字で示されている。かな文字で示される場合、「文字」においては、子音を発音するタイミングに所定のフラグ(
図3においては「!」)が挿入されている。こうすることで、発声される音が子音を含む音か母音かが区別される。「文字」は、かな文字ではなく、発声される母音と子音とにより示されてもよい。「文字」における「-」は当該時刻において発声される文字がないことを示す。すなわち、当該時刻は第1話者が朗読において間を取ったことを示している。
【0035】
朗読情報における「音量」は関連付けられた当該時刻において発声される音の大きさを示す。一例として、「音量」は基準となる音量に対する比であらわされてもよいし、音圧の大きさ(dB)で表されてもよい。「音高」は当該時刻において発声される文字の音高(ピッチ)を表す。「音高」はパルスの周期で示されてもよいし、周波数で示されてもよい。
【0036】
朗読情報記憶部121は、朗読情報を構成する単語と、単語を構成する1以上の文字と、をさらに関連付けた朗読情報を記憶する。
図3に示す朗読情報においては、「単語」がさらに関連付けられている。「単語」においては、当該時刻に発声される「文字」がどの単語の何番目の文字を示しているかを表している。一例として「時刻」1から5における「む」には単語IDのM01に対応する「むかし」という単語の一番目の文字であること、時刻6から11における「か」には「むかし」という単語の2番目の文字であることを示す情報が格納されている。単語IDは、単語を識別する情報である。
【0037】
朗読情報記憶部121は、時刻と、フレーズを挿入するタイミングを示すフラグを関連付けた朗読情報を記憶する。
図3に示す朗読情報においては、「フレーズ挿入」がさらに関連付けられている。「フレーズ挿入」は、各時刻において所定のフレーズを挿入するタイミングを示すフラグであり、「1」の場合はフレーズを挿入するタイミングであることを示す。また、朗読情報においては、コンテンツの場面に応じて挿入すべきフレーズの種類を示すフラグが関連付けられていてもよい。
【0038】
朗読情報記憶部121は、コンテンツを複数の異なる第1話者それぞれが朗読した複数の朗読情報それぞれと、朗読情報それぞれが適する状況とを関連付けて記憶してもよい。
朗読情報記憶部121は、朗読情報と関連付けて朗読情報のメタデータを記憶している。
図4は、朗読情報に関連付けられたメタデータのデータ構造の一例を示す図である。朗読情報のメタデータは、朗読情報を識別する「朗読情報ID」、朗読されるコンテンツを識別する「コンテンツ」、当該コンテンツを朗読した第2話者を識別する「話者ID」情報、朗読情報が適する状況を示す「特徴」がメタデータとして関連付けられている。「特徴」は、例えば「明るい」、「眠たくなる」、「落ち着く」、「盛り上がる」等のそれぞれの朗読が適する状況を示す情報が含まれている。
【0039】
発声情報記憶部122は、第2話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報を記憶する。
図5は、発声情報記憶部122が記憶する発声情報のデータ構造の一例を示す図である。発声情報は、話者を識別する情報と、文字と、当該文字の音色に対応する音の波形と、が関連付けられている。一例として、
図5における音の波形は、それぞれの文字に対応する波形を時系列に記録した情報が記憶されている。
【0040】
方言情報記憶部123は、複数の単語と、複数の単語それぞれが対応する方言と、方言を構成する1以上の文字と、方言を構成する文字を発音するための音高と、を関連付けた方言情報を記憶する。
図6は、方言情報記憶部123が記憶する方言情報のデータ構造の一例を示す図である。方言情報は、「方言の種類」と、「単語ID」と、「単語」と、「方言」と、「文字」と「音高」と、が関連付けられている。「方言の種類」は、例えば関西弁、沖縄弁等を示す。「方言」は、「方言の種類」が示す方言において、「単語」に対応する方言を示す。一例として、「むかし」には「んかし」が対応することが記憶されている。「文字」は「方言」を構成する文字を示す。「んかし」は、「ん」、「か」及び「し」により構成されることが記憶されている。「音高」は当該方言を発声する際に各文字につけるべき音高を示す。
【0041】
制御部13は、例えばCPU(Central Processing Unit)である。制御部13は、記憶部12に記憶されている制御プログラムを実行することにより、操作受付部131、生成部132、出力制御部133、撮像データ取得部134、判定部135、音声情報取得部136及び音声認識部137として機能する。
【0042】
[音声合成処理]
操作受付部131は、情報端末2からユーザの操作に対応する操作情報を受け付ける。一例として、操作受付部131は、ユーザが選択したコンテンツを含む再生指示を受け付ける。
【0043】
生成部132は、朗読情報の時刻それぞれにおける文字に発声情報において対応する音色と該時刻における音量と音高とからなる音として出力させる読上データを生成する。生成部132は、ユーザが選択したコンテンツに対応する朗読情報と、発声情報と、を取得する。まず、生成部132は、取得した朗読情報それぞれの時刻における「文字」に、発声情報において対応する文字の音の波形を取得する。すなわち、ある時刻における朗読情報の文字が「む」である場合、発声情報における「む」の波形を取得する。そして、取得した音の波形を朗読情報の当該時間における音高、音量に基づいて波形のピッチと波の強さを増減させる。これを朗読情報に含まれる各時刻における文字について繰り返すことで、生成部132は、読上データを生成する。
【0044】
出力制御部133は、読上データを出力するよう制御する。出力制御部133は、一例として、読上データと読上データを音声出力する指示とを情報端末2に送信する。
【0045】
ところで、例えば第1話者と第2話者の声の音高が大きく異なる場合、第1話者の音高で第2話者の音色を再現すると、不自然な朗読となってしまう。そこで、データ処理装置1が第1話者と第2話者の音高の違いに基づいて出力する音高を調整するように構成されることで自然な朗読を提供することができる。
【0046】
この場合、朗読情報記憶部121は、コンテンツにおいて基準となる音高を示す第1基準音高データをさらに関連付けた朗読情報を記憶する。
図4に示す朗読情報のメタデータは朗読情報に関連付けて第1基準音高データを示す「基準音高」を含む。第1基準音高データは、一例として、第1話者が当該コンテンツを朗読した音声の音高の平均値又は中央値である。
【0047】
また、発声情報記憶部122は第2話者の基準となる音高を示す第2基準音高データをさらに記憶してもよい。第2基準音高データは、一例として、第2話者の音声を収録する際に記録した音高の平均値、中央値である。
【0048】
生成部132は、朗読情報の時刻それぞれにおける文字に発声情報において対応する音色を、該時刻における音高と、第1基準音高データと第2基準音高データとの比に基づいて決定した音高で出力させる読上データを生成する。生成部132は、第1基準音高データと第2基準音高データとの比を算出する。そして、生成部132は、朗読データの各時刻における音高に算出した比を乗算することで、読上データの当該時刻において発声されるべき音高を決定する。データ処理装置1がこのように構成されることで、第1話者と第2話者の音高の差に鑑みた自然な抑揚をつけた朗読をすることができる。
【0049】
ところで、朗読を聴取するユーザに第2話者を視覚的に見せることで、ユーザに第2話者が実際に朗読しているように感じさせることができる。この場合、発声情報記憶部122は、第2話者に対応する画像データをさらに記憶する。
図5に示す発声情報においては、該発声情報に含まれる音声を提供した第2話者を被写体として含む画像データである「話者画像」が関連付けられている。画像データは、例えば、静止画、動画、3次元画像、AR(Augmented Reality)画像、VR(Virtual Reality)画像である。
【0050】
出力制御部133は、読上データを出力するよう制御している場合に第2話者に対応する画像を表示部に表示させるよう制御してもよい。生成部132は、選択された第2話者に対応する発声情報に関連付けられた画像データを取得する。出力制御部133は、取得した画像データを情報端末2の表示部に表示させる。出力制御部133は、一例として、画像データに含まれる人物の口元の画像が読上データの出力と連動して変化するように出力してもよい。このように構成されることで、ユーザは第2話者が実際に話しているような感覚を得ることができる。
【0051】
[朗読情報の置換]
朗読を読み上げる音色を発声情報に基づいて変化させる例について説明したが、朗読の内容に変化をつけることで、ユーザをより楽しませることができる。そこで、データ処理装置1は、朗読情報の一部を方言に置き換えて朗読させてもよいし、朗読の途中にフレーズを挿入するよう構成されてもよい。
【0052】
方言による朗読について説明する。この場合、操作受付部131は、一例として方言による朗読を行うか否かを示すフラグと、ユーザが選択した方言を含む操作情報を取得する。
【0053】
そして、生成部132は、朗読情報に含まれる1以上の文字と1以上の文字に対応する音高とを、1以上の文字それぞれが構成する単語に方言情報において対応する方言に含まれる文字と方言に含まれる文字を発音するための音高とで置換した置換朗読情報をさらに生成し、生成した置換朗読情報の時刻それぞれにおける置換後の文字に発声情報において対応する音色と該時刻における音量と置換後の音高とからなる音として出力させる読上データを生成する。操作受付部131が取得したユーザの操作内容が方言による朗読を選択したことを示す場合、生成部132は、方言情報をさらに取得する。そして、生成部132は、取得した朗読情報の単語と、方言情報に含まれる単語と、を比較し、合致する単語を方言情報に含まれる方言に置換する。一例として、朗読情報に含まれる「むかし」の単語を朗読情報において対応する方言である「んかし」に置換する。
【0054】
そして、置換した箇所の音高を方言情報の音高で出力させる読上データを生成する。朗読情報に含まれる単語と、方言情報において対応する方言の文字数が一致しない場合、一例として、当該単語を読み上げる時間が一致するように単語と方言とを構成する文字数の比に応じて各文字を読み上げる時間を短縮又は延長させてもよい。
【0055】
データ処理装置1が朗読情報に含まれる単語の一部を方言に置き換えた読上データを生成するよう構成されることで、例えば、第2話者が方言を話す場合において、の第2話者本来の話し方に近い読上げを行うことが可能となる。
【0056】
次に、朗読の途中にフレーズを挿入させる例について説明する。生成部132は、フラグが示すタイミングに複数の所定のフレーズから選択したフレーズを出力させる読上データを生成させる。操作受付部131が受け付けたユーザの操作内容が所定のフレーズを挿入して朗読することを示す場合、生成部132は、朗読情報におけるフレーズを挿入するタイミングを示すフラグが付与されているタイミングに所定のフレーズに対応する音を第2話者の音色で出力させる読上データを生成する。記憶部12は、所定のフレーズとして、例えば、「すごいね」、「面白いね」等の感想を伝えるフレーズや、「大丈夫かな?」「この後どうなるのかな?」等のような展開を予測させたりするフレーズを記憶している。なお、生成部132は、所定のフレーズからランダムに選択されたフレーズをフラグが付与されたタイミングに挿入した読上データを生成してもよい。
【0057】
フレーズは例えば、「~かしら」、「~だぜ」のような口癖であってもよい。この場合、朗読情報においてフラグが付与されているタイミングに口癖を示すフレーズを挿入してもよい。また、朗読情報においてフラグが付与されているタイミングに対応する文字を、口癖を示すフレーズで置換してもよい。
【0058】
朗読中のコンテンツの場面に適したフレーズが挿入されるようにデータ処理装置1が構成されてもよい。すなわち、生成部132は、朗読情報に付されたコンテンツの場面に応じて挿入すべきフレーズに対応するフレーズをフラグが付与されたタイミングに挿入する。この場合、各フレーズにはフレーズに対応する感情が関連付けられている。一例として、生成部132は、コンテンツの場面が明るい場面である場合は、「楽しいね」などの明るい感情を表すフレーズが挿入されてもよいし、コンテンツの場面が危機に陥っている状況である場合は、「大丈夫かな?」などの心配する感情を表すフレーズを挿入する。
【0059】
データ処理装置1がこのように構成されることで、変化をつけた朗読を出力させることが可能となり、ユーザをより楽しませることができる。
[ユーザの状況に応じた制御]
【0060】
コンテンツの朗読を聴取するユーザの状況に基づいて読上げの出力を制御してもよい。このように構成することで、例えば、子どもの入眠への導入としてデータ処理システムSを用いて読み聞かせをする利用シーンにおいて、子どもが入眠した場合に読上げを停止したり、音量を徐々に小さくさせながら停止させたりすることができる。
【0061】
撮像データ取得部134は、ユーザを撮像した撮像データを取得する。撮像データ取得部134は、情報端末2の撮像手段が撮像した撮像データを取得する。判定部135は、撮像データ取得部134から取得した撮像データを既知の画像解析技術を用いて画像解析することでユーザの状態を判定する。判定部135は、一例として、取得した撮像データを画像認識することでユーザの感情や、朗読に集中しているかどうか、ユーザが感じている眠気の状態又や眠っているか否か等を判定してもよい。
【0062】
出力制御部133は、判定部135が判定したユーザの状況に基づいて出力の態様を制御する。一例として、判定部135がユーザの状態をユーザが眠っていると判定した場合に、読上データの出力を停止し、又は読上データの出力態様を変更する。出力制御部133は、判定部135が、ユーザが眠っていると判定した場合又は眠気を感じていると判定した場合に、読上データを出力する音量を下げるように制御してもよいし、読上データの出力を停止させるよう制御してもよい。
【0063】
出力制御部133は、判定部135が判定したユーザの状況に基づいて読上げるコンテンツを他のコンテンツに切り替えてもよい。出力制御部133は、一例として、判定部135がユーザの状態をユーザが朗読に関心を示していないことを判定した場合、音楽などの他のコンテンツを出力させるよう制御してもよい。また、生成部132に他のコンテンツの朗読情報と選択された発声情報とから読上データを生成させ、読上データを出力するよう制御してもよい。
【0064】
コンテンツを聴取しているユーザに所定の状況が発生した場合に、ユーザの関係者に所定の状況が生じたことを通知するようデータ処理装置1が構成されてもよい。データ処理装置1は、例えば、朗読を聴取するユーザUの保護者やユーザUを介護する介護者に通知してもよい。
【0065】
判定部135は、判定したユーザの状態を情報端末2に通知してもよい。判定部135は、例えば、取得した撮像データを画像解析した結果、ユーザが怒っている又は泣いている等の状態にあることを判定した場合に、所定の通知先へユーザの状態を通知するメッセージを送信する。
【0066】
ところで、朗読情報には第1話者が行った様々な個性のある朗読情報が記録されており、判定部135が判定したユーザの状況に基づいて適切な朗読情報を選択することで、ユーザはより朗読を楽しむことができる。
【0067】
判定部135は、ユーザの属性及びユーザの状態の少なくともいずれかに基づいてユーザの状況を判定する。例えば、予め登録されているユーザUの年齢や性別等の属性に基づいてユーザの状況を判定してもよい。例えばユーザが幼児である場合、「盛り上がる」朗読情報を選択することが適切であると判定してもよい。また、既に説明したように判定部135は、取得した撮像データを画像認識することで、ユーザの状況を判定してもよい。
【0068】
生成部132は、判定部135が判定したユーザの状況に関連付けられた朗読情報を選択し、選択した朗読情報の時刻それぞれにおける文字に発声情報において対応する音色と該時刻における音量と音高とからなる音として出力させる読上データを生成する。生成部132は、判定部135が判定したユーザの状況と合致する状況に関連付けられた朗読情報を取得し、取得した朗読情報と発声情報とに基づいて読上データを生成する。
【0069】
[ユーザとのインタラクション]
ユーザの反応に基づいて出力を制御する例について説明したが、データ処理装置1がユーザの発話内容に対応する応答をするよう制御するよう構成されてもよい。
【0070】
この場合、朗読情報記憶部121は、朗読情報において朗読の対象となるコンテンツに含まれる言葉と言葉が示す意味とを対応付けた辞書情報を朗読情報と関連付けてさらに記憶する。
図7は、朗読情報記憶部121が記憶する辞書情報のデータ構造の一例を示す図である。辞書情報においては、「コンテンツ」と「単語」と「意味」が関連付けられている。「コンテンツ」は単語に対応する意味が一般的な意味であるか、特定のコンテンツにおける意味であるかを示す。例えば、「コンテンツ」が「一般」である場合は、一般的な意味を指し、コンテンツを識別する情報(例えば「ももたろう」)が格納されている場合、そのコンテンツ特有の意味であることを示す。
【0071】
音声情報取得部136は、コンテンツを視聴するユーザが発話した音声情報を取得する。音声情報取得部136は、情報端末2に搭載されたマイクが検出したユーザが発話した音声を示す音声情報を取得する。
【0072】
音声認識部137は、音声情報取得部136が取得した音声情報を音声認識し、ユーザの発話内容を取得する。音声認識部137は、取得した発話内容を既知の自然言語処理技術を用いて形態素解析、構文解析及び意味解析を行い、ユーザの発話内容を分類する。音声認識部137は、一例として、発話内容を「質問」、「感情の表現」等に分類する。分類された発話内容が質問の場合、音声認識部137は、取得した発話内容を解析して質問されている内容を特定する。例えば、ユーザの発話内容が「黍団子って何?」である場合、質問内容が黍団子の意味であることを特定する。
【0073】
生成部132は、音声認識部137が取得したユーザの発話内容がコンテンツに対する質問である場合に、辞書情報を参照し、質問に対する回答を示す回答情報を生成し、出力制御部133は、回答情報を出力するよう制御する。生成部132は、ユーザの発話内容がコンテンツに対する質問である場合、辞書情報を検索し、音声認識部137が特定した質問の内容に対応する意味を取得する。生成部132は、辞書情報に記録された一般的な意味と朗読データを出力しているコンテンツ特有の意味とを検索対象として検索する。
【0074】
生成部132は、所定のフォーマットに取得した意味を当てはめることで回答文を生成する。そして、生成部132は、生成した回答文を第2話者に対応する発声情報で読上げる回答情報を生成し、情報端末2に出力する。
【0075】
さらに、ユーザが朗読に対してどのような反応をしたかを記録するよう構成されてもよい。音声認識部137は、ユーザの発話内容と、発話内容をユーザが発話したタイミングに対応する時刻と、を関連付けた反応情報を反応情報記憶部124に記憶させる。音声認識部137は、ユーザが発話した際に朗読していたコンテンツを識別する情報をさらに関連付けた反応情報を反応情報記憶部124に記憶させてもよい。データ処理装置1がこのように構成されることで、ユーザの朗読に対する反応を記録し、ユーザの思い出を残すことができる。
【0076】
[データ処理装置1における処理の流れ]
図8は、データ処理装置1における処理の流れを示すフローチャートである。
図8に示すフローチャートは、朗読情報の選択を受け付ける準備ができた時点から開始している。操作受付部131は、第2話者と朗読対象のコンテンツとの選択を情報端末2から受け付ける(S101)。生成部132は、選択されたコンテンツに対応する朗読情報を朗読情報記憶部121から取得する(S102)。生成部132は、選択された第2話者に対応する発声情報を発声情報記憶部122から取得する(S103)。
【0077】
生成部132は、方言の選択を受付けたかを判定する(S104)。方言の選択を受付けた場合(S104におけるYES)、生成部132は、朗読情報に含まれる単語を対応する方言に置換する(S105)。方言の選択を受付けていない場合(S104におけるNO)、置換する処理をスキップする。
【0078】
生成部132は、朗読情報と発声情報とに基づいて読上データを生成する(S106)。そして、出力制御部133は、生成した読上データを情報端末2に出力するよう制御する(S107)。そして、データ処理装置1は、処理を終了する。
【0079】
以上記載したようにデータ処理装置1が構成されることで、他の朗読者の間や抑揚のある朗読を所望する音声で再現したテキストの読み上げを出力することができる。
【0080】
なお、本発明により、国連が主導する持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」に貢献することが可能となる。
【0081】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0082】
1 データ処理装置
2 情報端末
11 通信部
12 記憶部
13 制御部
121 朗読情報記憶部
122 発声情報記憶部
123 方言情報記憶部
124 反応情報記憶部
131 操作受付部
132 生成部
133 出力制御部
134 撮像データ取得部
135 判定部
136 音声情報取得部
137 音声認識部