特開2023-121372 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特開2023-121372データ処理装置、データ処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023121372

(43)【公開日】2023-08-31

(54)【発明の名称】データ処理装置、データ処理方法及びプログラム

(51)【国際特許分類】

G10L 13/10 20130101AFI20230824BHJP

G10L 13/08 20130101ALI20230824BHJP

G10L 15/00 20130101ALI20230824BHJP

G06F 3/16 20060101ALI20230824BHJP

G06F 3/01 20060101ALI20230824BHJP

G10L 13/00 20060101ALI20230824BHJP

【ＦＩ】

G10L13/10 113Z

G10L13/08 124

G10L15/00 200Z

G06F3/16 690

G06F3/16 530

G06F3/16 620

G06F3/16 610

G06F3/16 540

G06F3/16 650

G06F3/01 510

G10L13/00 100K

G10L13/00 100J

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2022024675

(22)【出願日】2022-02-21

(71)【出願人】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100166006

【弁理士】

【氏名又は名称】泉通博

(74)【代理人】

【識別番号】100154070

【弁理士】

【氏名又は名称】久恒京範

(74)【代理人】

【識別番号】100153280

【弁理士】

【氏名又は名称】寺川賢祐

(72)【発明者】

【氏名】劉亜菲

(72)【発明者】

【氏名】福原忠行

【テーマコード（参考）】

5E555

【Ｆターム（参考）】

5E555AA46

5E555AA76

5E555BA02

5E555BA05

5E555BA06

5E555BA88

5E555BB02

5E555BB05

5E555BB06

5E555BC04

5E555CA42

5E555CA47

5E555CB64

5E555CB74

5E555CC01

5E555DA23

5E555DA31

5E555DB53

5E555DC13

5E555EA13

5E555EA20

5E555EA22

5E555EA23

5E555FA00

(57)【要約】（修正有）

【課題】他の朗読者の間や抑揚のある朗読を所望する音声で再現したテキストの読み上げるデータ処理装置、方法及びプログラムを提供す。
【解決手段】データ処理装置１は、文字列から構成されるコンテンツを朗読する第１話者の音声の特徴量を示す時系列データである、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を記憶する朗読情報記憶部１２１と、第２話者が発声した音声をサンプリングして生成され、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報を記憶する発声情報記憶部１２２と、朗読情報の前記時刻それぞれにおける文字に発声情報において対応する音色と該時刻における音量と音高とからなる音として出力させる読上データを生成する生成部１３２と、読上データを出力するよう制御する出力制御部１３３と、を有する。
【選択図】図２

【特許請求の範囲】

【請求項1】

文字列から構成されるコンテンツを朗読する第１話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を記憶する朗読情報記憶部と、
第２話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報を記憶する発声情報記憶部と、
前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる読上データを生成する生成部と、
前記読上データを出力するよう制御する出力制御部と、
を有する、データ処理装置。

【請求項2】

前記朗読情報記憶部は、前記コンテンツにおいて基準となる音高を示す第１基準音高データをさらに関連付けた前記朗読情報を記憶し、
前記発声情報記憶部は前記第２話者の基準となる音高を示す第２基準音高データをさらに記憶し、
前記生成部は、前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色を、該時刻における音高と、第１基準音高データと第２基準音高データとの比に基づいて決定した音高で出力させる前記読上データを生成する、
請求項１に記載のデータ処理装置。

【請求項3】

複数の単語と、前記複数の単語それぞれが対応する方言と、前記方言を構成する１以上の文字と、前記方言を構成する文字を発音するための音高と、を関連付けた方言情報を記憶する方言情報記憶部をさらに有し、
前記朗読情報記憶部は、前記朗読情報を構成する単語と、前記単語を構成する１以上の前記文字と、をさらに関連付けた前記朗読情報を記憶し、
前記生成部は、前記朗読情報に含まれる前記１以上の文字と前記１以上の文字に対応する音高とを、前記１以上の文字それぞれが構成する前記単語に前記方言情報において対応する前記方言に含まれる文字と前記方言に含まれる文字を発音するための音高とで置換した置換朗読情報をさらに生成し、生成した置換朗読情報の前記時刻それぞれにおける置換後の文字に前記発声情報において対応する前記音色と該時刻における前記音量と置換後の音高とからなる音として出力させる前記読上データを生成する、
請求項１又は２に記載のデータ処理装置。

【請求項4】

前記朗読情報記憶部は、前記時刻と、フレーズを挿入するタイミングを示すフラグを関連付けた前記朗読情報を記憶し、
前記生成部は、前記フラグが示すタイミングに複数の所定のフレーズから選択したフレーズを出力させる前記読上データを生成させる、
請求項１から３のいずれか１項に記載のデータ処理装置。

【請求項5】

前記発声情報記憶部は、前記第２話者に対応する画像データをさらに記憶し、
前記出力制御部は、前記読上データを出力するよう制御している場合に前記第２話者に対応する画像を表示部に表示させるよう制御する、
請求項１から４のいずれか１項に記載のデータ処理装置。

【請求項6】

ユーザを撮像した撮像データを取得する撮像データ取得部と、
前記撮像データ取得部から取得した前記撮像データを画像解析することで前記ユーザの状態を判定する判定部と、をさらに有し、
前記出力制御部は、前記判定部が前記ユーザの状態を前記ユーザが眠っていると判定した場合に、前記読上データの出力を停止し、又は前記読上データの出力態様を変更する、
請求項１から５のいずれか１項に記載のデータ処理装置。

【請求項7】

ユーザを撮像した撮像データを取得する撮像データ取得部と、
前記撮像データ取得部から取得した前記撮像データを画像解析することで前記ユーザの状態を判定し、判定した前記ユーザの状態を情報端末に通知する判定部と、
をさらに有する、請求項１から５のいずれか１項に記載のデータ処理装置。

【請求項8】

前記朗読情報記憶部は、前記コンテンツを複数の異なる第１話者それぞれが朗読した複数の前記朗読情報それぞれと、前記朗読情報それぞれが適する状況とを関連付けて記憶し、
前記判定部は、前記ユーザの属性及び前記ユーザの状態の少なくともいずれかに基づいて前記ユーザの状況を判定し、
前記生成部は、前記判定部が判定した前記ユーザの状況に関連付けられた前記朗読情報を選択し、選択した前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる前記読上データを生成する、
請求項６又は７に記載のデータ処理装置。

【請求項9】

前記朗読情報記憶部は、前記朗読情報において朗読の対象となる前記コンテンツに含まれる言葉と前記言葉が示す意味とを対応付けた辞書情報を前記朗読情報と関連付けてさらに記憶し、
前記データ処理装置は、コンテンツを視聴するユーザが発話した音声情報を取得する音声情報取得部と、
前記音声情報取得部が取得した音声情報を音声認識し、前記ユーザの発話内容を取得する音声認識部と、を有し、
前記生成部は、前記音声認識部が取得した前記ユーザの発話内容が前記コンテンツに対する質問である場合に、前記辞書情報を参照し、前記質問に対する回答を示す回答情報を生成し、
前記出力制御部は、前記回答情報を出力するよう制御する、
請求項１から５のいずれか１項に記載のデータ処理装置。

【請求項10】

反応情報記憶部をさらに有し、
前記音声認識部は、前記ユーザの発話内容と、前記発話内容を前記ユーザが発話したタイミングに対応する、前記時刻と、を関連付けた反応情報を前記反応情報記憶部に記憶させる、請求項９に記載のデータ処理装置。

【請求項11】

コンピュータが実行する、朗読情報記憶部に記憶された文字列から構成されるコンテンツを朗読する第１話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を取得するステップと、
発声情報記憶部に記憶された第２話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報取得するステップと、
前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる読上データを生成するステップと、
前記読上データを出力するよう制御するステップと、
を有するデータ処理方法。

【請求項12】

コンピュータに、朗読情報記憶部に記憶された文字列から構成されるコンテンツを朗読する第１話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を取得するステップと、
発声情報記憶部に記憶された第２話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報取得するステップと、
前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる読上データを生成するステップと、
前記読上データを出力するよう制御するステップと、
を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ処理装置、データ処理方法及びプログラムに関する。

【背景技術】

【0002】

テキストデータと音素データを合成させて所望の音声でテキストを読み上げる技術が知られている（例えば、特許文献１を参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００２－３２８６９４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしこのような音声合成技術においては、用意された音素を組み合わせてテキストの読上げを行うが、例えば忙しい両親が自分の声で朗読した読上げを聞かせることにより家族の絆を深めたいというユーザのニーズに十分にこたえることができていなかった。また、従来の音声合成装置においては、テキストデータを機械的に読み上げたような音声が出力されるため、聞き手が違和感を覚えるという問題が生じていた。

【0005】

そこで、本発明はこれらの点に鑑みてなされたものであり、他の朗読者の間や抑揚のある朗読を所望する音声で再現したテキストの読み上げができるようにすることを目的とする。

【課題を解決するための手段】

【0006】

本発明の第１の態様のデータ処理装置においては、文字列から構成されるコンテンツを朗読する第１話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を記憶する朗読情報記憶部と、第２話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報を記憶する発声情報記憶部と、前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる読上データを生成する生成部と、前記読上データを出力するよう制御する出力制御部と、を有する。

【0007】

前記朗読情報記憶部は、前記コンテンツにおいて基準となる音高を示す第１基準音高データをさらに関連付けた前記朗読情報を記憶し、前記発声情報記憶部は前記第２話者の基準となる音高を示す第２基準音高データをさらに記憶し、前記生成部は、前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色を、該時刻における音高と、第１基準音高データと第２基準音高データとの比に基づいて決定した音高で出力させる前記読上データを生成してもよい。

【0008】

複数の単語と、前記複数の単語それぞれが対応する方言と、前記方言を構成する１以上の文字と、前記方言を構成する文字を発音するための音高と、を関連付けた方言情報を記憶する方言情報記憶部をさらに有し、前記朗読情報記憶部は、前記朗読情報を構成する単語と、前記単語を構成する１以上の前記文字と、をさらに関連付けた前記朗読情報を記憶し、前記生成部は、前記朗読情報に含まれる前記１以上の文字と前記１以上の文字に対応する音高とを、前記１以上の文字それぞれが構成する前記単語に前記方言情報において対応する前記方言に含まれる文字と前記方言に含まれる文字を発音するための音高とで置換した置換朗読情報をさらに生成し、生成した置換朗読情報の前記時刻それぞれにおける置換後の文字に前記発声情報において対応する前記音色と該時刻における前記音量と置換後の音高とからなる音として出力させる前記読上データを生成してもよい。

【0009】

前記朗読情報記憶部は、前記時刻と、フレーズを挿入するタイミングを示すフラグを関連付けた前記朗読情報を記憶し、前記生成部は、前記フラグが示すタイミングに複数の所定のフレーズから選択したフレーズを出力させる前記読上データを生成させてもよい。

【0010】

前記発声情報記憶部は、前記第２話者に対応する画像データをさらに記憶し、前記出力制御部は、前記読上データを出力するよう制御している場合に前記第２話者に対応する画像を表示部に表示させるよう制御してもよい。

【0011】

ユーザを撮像した撮像データを取得する撮像データ取得部と、前記撮像データ取得部から取得した前記撮像データを画像解析することで前記ユーザの状態を判定する判定部と、をさらに有し、前記出力制御部は、前記判定部が前記ユーザの状態を前記ユーザが眠っていると判定した場合に、前記読上データの出力を停止し、又は前記読上データの出力態様を変更してもよい。

【0012】

ユーザを撮像した撮像データを取得する撮像データ取得部と、前記撮像データ取得部から取得した前記撮像データを画像解析することで前記ユーザの状態を判定し、判定した前記ユーザの状態を情報端末に通知する判定部と、をさらに有してもよい。

【0013】

前記朗読情報記憶部は、前記コンテンツを複数の異なる第１話者それぞれが朗読した複数の前記朗読情報それぞれと、前記朗読情報それぞれが適する状況とを関連付けて記憶し、前記判定部は、前記ユーザの属性及び前記ユーザの状態の少なくともいずれかに基づいて前記ユーザの状況を判定し、前記生成部は、前記判定部が判定した前記ユーザの状況に関連付けられた前記朗読情報を選択し、選択した前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる前記読上データを生成してもよい。

【0014】

前記朗読情報記憶部は、前記朗読情報において朗読の対象となる前記コンテンツに含まれる言葉と前記言葉が示す意味とを対応付けた辞書情報を前記朗読情報と関連付けてさらに記憶し、前記データ処理装置は、コンテンツを視聴するユーザが発話した音声情報を取得する音声情報取得部と、前記音声情報取得部が取得した音声情報を音声認識し、前記ユーザの発話内容を取得する音声認識部と、を有し、前記生成部は、前記音声認識部が取得した前記ユーザの発話内容が前記コンテンツに対する質問である場合に、前記辞書情報を参照し、前記質問に対する回答を示す回答情報を生成し、前記出力制御部は、前記回答情報を出力するよう制御してもよい。

【0015】

反応情報記憶部をさらに有し、前記音声認識部は、前記ユーザの発話内容と、前記発話内容を前記ユーザが発話したタイミングに対応する、前記時刻と、を関連付けた反応情報を前記反応情報記憶部に記憶させてもよい。

【0016】

本発明の第２の態様のデータ処理方法においては、コンピュータが実行する、朗読情報記憶部に記憶された文字列から構成されるコンテンツを朗読する第１話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を取得するステップと、発声情報記憶部に記憶された第２話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報取得するステップと、前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる読上データを生成するステップと、前記読上データを出力するよう制御するステップと、を有してもよい。

【0017】

本発明の第３の態様のプログラムにおいては、コンピュータに、朗読情報記憶部に記憶された文字列から構成されるコンテンツを朗読する第１話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を取得するステップと、発声情報記憶部に記憶された第２話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報取得するステップと、前記朗読情報の前記時刻それぞれにおける前記文字に前記発声情報において対応する前記音色と該時刻における前記音量と前記音高とからなる音として出力させる読上データを生成するステップと、前記読上データを出力するよう制御するステップと、を実行させる。

【発明の効果】

【0018】

本発明によれば、他の朗読者の間や抑揚のある朗読を所望する音声で再現したテキストの読み上げができるという効果を奏する。

【図面の簡単な説明】

【0019】

【図1】実施の形態にかかるデータ処理システムＳの概要を説明する図である。

【図2】データ処理装置１の構成を示すブロック図である。

【図3】朗読情報記憶部１２１が記憶する朗読情報のデータ構造の一例を示す図である。

【図4】朗読情報に関連付けられたメタデータのデータ構造の一例を示す図である。

【図5】発声情報記憶部１２２が記憶する発声情報のデータ構造の一例を示す図である。

【図6】方言情報記憶部１２３が記憶する方言情報のデータ構造の一例を示す図である。

【図7】朗読情報記憶部１２１が記憶する辞書情報のデータ構造の一例を示す図である。

【図8】データ処理装置１における処理の流れを示すフローチャートである。

【発明を実施するための形態】

【0020】

［データ処理装置１の概要］
図１は、実施の形態にかかるデータ処理システムＳの概要を説明する図である。データ処理システムＳは、コンテンツの朗読をユーザが聴取するためのシステムである。データ処理システムＳは、データ処理装置１と、情報端末２と、を有する。

【0021】

データ処理装置１は、第１話者による特徴のあるコンテンツの朗読を、朗読した話者と異なる第２話者の声質で再現した音声を出力するための読上データを生成する装置である。データ処理装置１は、例えばサーバやパーソナルコンピュータである。

【0022】

好適な使用例として、第１話者はプロの朗読者、ナレーター、俳優、声優等である。第２話者は、例えば、コンテンツを聴取するユーザの親、兄弟又は祖父母、友人等若しくは作家等のコンテンツの作者である。データ処理装置１がこのような音声を用いた読上データを生成することで、ユーザは、プロのナレーター等が行った特徴のある朗読をユーザにとって身近な者の声で楽しむことができる。データ処理装置１を用いた読上げは、例えば、赤ちゃんに親の声を覚えさせたい又は親の声を聴かせて安心させたいといった場合に有効である。

【0023】

情報端末２は、データ処理装置１から入力された読上データに対応する音声を出力するためのデバイスである。情報端末２は、例えば、パーソナルコンピュータ、スマートスピーカー、スマートフォン又はタブレット等である。なお、データ処理装置１と情報端末２とは一体に構成されていてもよい。

【0024】

データ処理装置１は、第１話者Ｓ１がコンテンツを朗読した音声の特徴を示す朗読情報を記憶している。コンテンツは例えば絵本、小説、漫画又は教養書等の書籍、演劇等の台本若しくは紙芝居等である。朗読情報は、第１話者Ｓ１がコンテンツを朗読した音声の特徴量を示す時系列データである。朗読情報は、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、が関連づけられている。一例として、データ処理装置１は、第１話者Ｓ１がコンテンツを朗読した音声データを取得し、取得した音声データの声量、音高、発声されている文字を解析することで朗読情報を生成する。朗読情報は、コンテンツを構成する文字が、コンテンツの再生の開始からどれ位経過した時点でどのような音量及び音高で発声されるかを示すデータともいえる。

【0025】

なお、データ処理装置１は、異なる第１話者が同じコンテンツを朗読して生成された複数の朗読情報を記憶してもよい。異なる第１話者が同じコンテンツを朗読した朗読情報を記憶しておくことで、個性のある朗読の中から状況に適した朗読を選択することが可能となる。また、同じ話者が異なるコンテンツを朗読して生成された複数の朗読情報を記憶してもよい。

【0026】

データ処理装置１は、第１話者Ｓ１と異なる第２話者Ｓ２の声質を示す発声情報を記憶している。発声情報は、複数の文字と、第２話者Ｓ２が複数の文字それぞれを発音する際に発声された声の音色と、が関連づけられている。一例として、データ処理装置１は、第２話者Ｓ２が発声した音声をサンプリングした音声データを取得し、取得した音声データの音高、音色、発声されている文字を解析することで発声情報を生成する。

【0027】

ユーザＵは、情報端末２を操作し、聴取したいコンテンツと第２話者を選択する。情報端末２は、聴取したいコンテンツと第２話者を含む操作情報をデータ処理装置１に送信する。データ処理装置１は、操作情報に含まれる聴取したいコンテンツに対応する朗読情報と、第２話者に対応する発声情報を取得する。

【0028】

データ処理装置１は、取得した朗読情報と発声情報とを合成して読上データを生成する。具体的には、データ処理装置１は、朗読情報に含まれる時刻それぞれにおける文字に発声情報において対応する音色と、朗読情報が示す該時刻における音量と音高とからなる音を時系列に示す読上データを生成する。

【0029】

そして、データ処理装置１は、読上データを情報端末２に出力する。データ処理装置１がこのように構成されることで、所望する音声で他の朗読者の間や抑揚のある朗読を再現したテキストの読み上げをすることができる。

【0030】

［データ処理装置１の構成］
図２は、データ処理装置１の構成を示すブロック図である。データ処理装置１は、通信部１１、記憶部１２及び制御部１３を有する。記憶部１２は、朗読情報記憶部１２１、発声情報記憶部１２２、方言情報記憶部１２３及び反応情報記憶部１２４を有する。制御部１３は、操作受付部１３１、生成部１３２、出力制御部１３３、撮像データ取得部１３４、判定部１３５、音声情報取得部１３６及び音声認識部１３７を有する。

【0031】

通信部１１は、他の装置とデータの送受信するための通信インターフェースである。記憶部１２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＳＳＤ（Solid State Drive）、ＨＤＤ（Hard Disk Drive）等の記憶媒体である。記憶部１２は、制御部１３が実行する各種のプログラムを記憶する。

【0032】

朗読情報記憶部１２１は、文字列から構成されるコンテンツを朗読する第１話者の音声の特徴量を示す時系列データである朗読情報であって、コンテンツの再生時間における時刻と、該時刻において発声される文字と、音量と、音高と、を関連づけた朗読情報を記憶する。図３は、朗読情報記憶部１２１が記憶する朗読情報のデータ構造の一例を示す図である。図３に示す朗読情報においては、「時刻」と、「文字」と、「音量」と、「音高」と、が関連付けられている。

【0033】

朗読情報における「時刻」は、コンテンツの再生時間中における該データが位置する時刻を示す。「時刻」は、一例としてミリ秒又はマイクロ秒単位で表される。なお、「時刻」は、タイミングを示す指数で示されてもよい。この場合、サンプリング周期と指数を乗算し、時刻を求めることができる。

【0034】

朗読情報における「文字」は、当該時刻において発声される文字を示す。図３においては一例として、「文字」は発声される音に対応するかな文字で示されている。かな文字で示される場合、「文字」においては、子音を発音するタイミングに所定のフラグ（図３においては「！」）が挿入されている。こうすることで、発声される音が子音を含む音か母音かが区別される。「文字」は、かな文字ではなく、発声される母音と子音とにより示されてもよい。「文字」における「－」は当該時刻において発声される文字がないことを示す。すなわち、当該時刻は第１話者が朗読において間を取ったことを示している。

【0035】

朗読情報における「音量」は関連付けられた当該時刻において発声される音の大きさを示す。一例として、「音量」は基準となる音量に対する比であらわされてもよいし、音圧の大きさ（ｄＢ）で表されてもよい。「音高」は当該時刻において発声される文字の音高（ピッチ）を表す。「音高」はパルスの周期で示されてもよいし、周波数で示されてもよい。

【0036】

朗読情報記憶部１２１は、朗読情報を構成する単語と、単語を構成する１以上の文字と、をさらに関連付けた朗読情報を記憶する。図３に示す朗読情報においては、「単語」がさらに関連付けられている。「単語」においては、当該時刻に発声される「文字」がどの単語の何番目の文字を示しているかを表している。一例として「時刻」１から５における「む」には単語ＩＤのＭ０１に対応する「むかし」という単語の一番目の文字であること、時刻６から１１における「か」には「むかし」という単語の２番目の文字であることを示す情報が格納されている。単語ＩＤは、単語を識別する情報である。

【0037】

朗読情報記憶部１２１は、時刻と、フレーズを挿入するタイミングを示すフラグを関連付けた朗読情報を記憶する。図３に示す朗読情報においては、「フレーズ挿入」がさらに関連付けられている。「フレーズ挿入」は、各時刻において所定のフレーズを挿入するタイミングを示すフラグであり、「１」の場合はフレーズを挿入するタイミングであることを示す。また、朗読情報においては、コンテンツの場面に応じて挿入すべきフレーズの種類を示すフラグが関連付けられていてもよい。

【0038】

朗読情報記憶部１２１は、コンテンツを複数の異なる第１話者それぞれが朗読した複数の朗読情報それぞれと、朗読情報それぞれが適する状況とを関連付けて記憶してもよい。
朗読情報記憶部１２１は、朗読情報と関連付けて朗読情報のメタデータを記憶している。図４は、朗読情報に関連付けられたメタデータのデータ構造の一例を示す図である。朗読情報のメタデータは、朗読情報を識別する「朗読情報ＩＤ」、朗読されるコンテンツを識別する「コンテンツ」、当該コンテンツを朗読した第２話者を識別する「話者ＩＤ」情報、朗読情報が適する状況を示す「特徴」がメタデータとして関連付けられている。「特徴」は、例えば「明るい」、「眠たくなる」、「落ち着く」、「盛り上がる」等のそれぞれの朗読が適する状況を示す情報が含まれている。

【0039】

発声情報記憶部１２２は、第２話者が発声した音声をサンプリングして生成された発声情報であって、複数の文字と、複数の文字それぞれを発音する際に発声された声の音色と、を関連づけて記憶した発声情報を記憶する。図５は、発声情報記憶部１２２が記憶する発声情報のデータ構造の一例を示す図である。発声情報は、話者を識別する情報と、文字と、当該文字の音色に対応する音の波形と、が関連付けられている。一例として、図５における音の波形は、それぞれの文字に対応する波形を時系列に記録した情報が記憶されている。

【0040】

方言情報記憶部１２３は、複数の単語と、複数の単語それぞれが対応する方言と、方言を構成する１以上の文字と、方言を構成する文字を発音するための音高と、を関連付けた方言情報を記憶する。図６は、方言情報記憶部１２３が記憶する方言情報のデータ構造の一例を示す図である。方言情報は、「方言の種類」と、「単語ＩＤ」と、「単語」と、「方言」と、「文字」と「音高」と、が関連付けられている。「方言の種類」は、例えば関西弁、沖縄弁等を示す。「方言」は、「方言の種類」が示す方言において、「単語」に対応する方言を示す。一例として、「むかし」には「んかし」が対応することが記憶されている。「文字」は「方言」を構成する文字を示す。「んかし」は、「ん」、「か」及び「し」により構成されることが記憶されている。「音高」は当該方言を発声する際に各文字につけるべき音高を示す。

【0041】

制御部１３は、例えばＣＰＵ（Central Processing Unit）である。制御部１３は、記憶部１２に記憶されている制御プログラムを実行することにより、操作受付部１３１、生成部１３２、出力制御部１３３、撮像データ取得部１３４、判定部１３５、音声情報取得部１３６及び音声認識部１３７として機能する。

【0042】

［音声合成処理］
操作受付部１３１は、情報端末２からユーザの操作に対応する操作情報を受け付ける。一例として、操作受付部１３１は、ユーザが選択したコンテンツを含む再生指示を受け付ける。

【0043】

生成部１３２は、朗読情報の時刻それぞれにおける文字に発声情報において対応する音色と該時刻における音量と音高とからなる音として出力させる読上データを生成する。生成部１３２は、ユーザが選択したコンテンツに対応する朗読情報と、発声情報と、を取得する。まず、生成部１３２は、取得した朗読情報それぞれの時刻における「文字」に、発声情報において対応する文字の音の波形を取得する。すなわち、ある時刻における朗読情報の文字が「む」である場合、発声情報における「む」の波形を取得する。そして、取得した音の波形を朗読情報の当該時間における音高、音量に基づいて波形のピッチと波の強さを増減させる。これを朗読情報に含まれる各時刻における文字について繰り返すことで、生成部１３２は、読上データを生成する。

【0044】

出力制御部１３３は、読上データを出力するよう制御する。出力制御部１３３は、一例として、読上データと読上データを音声出力する指示とを情報端末２に送信する。

【0045】

ところで、例えば第１話者と第２話者の声の音高が大きく異なる場合、第１話者の音高で第２話者の音色を再現すると、不自然な朗読となってしまう。そこで、データ処理装置１が第１話者と第２話者の音高の違いに基づいて出力する音高を調整するように構成されることで自然な朗読を提供することができる。

【0046】

この場合、朗読情報記憶部１２１は、コンテンツにおいて基準となる音高を示す第１基準音高データをさらに関連付けた朗読情報を記憶する。図４に示す朗読情報のメタデータは朗読情報に関連付けて第１基準音高データを示す「基準音高」を含む。第１基準音高データは、一例として、第１話者が当該コンテンツを朗読した音声の音高の平均値又は中央値である。

【0047】

また、発声情報記憶部１２２は第２話者の基準となる音高を示す第２基準音高データをさらに記憶してもよい。第２基準音高データは、一例として、第２話者の音声を収録する際に記録した音高の平均値、中央値である。

【0048】

生成部１３２は、朗読情報の時刻それぞれにおける文字に発声情報において対応する音色を、該時刻における音高と、第１基準音高データと第２基準音高データとの比に基づいて決定した音高で出力させる読上データを生成する。生成部１３２は、第１基準音高データと第２基準音高データとの比を算出する。そして、生成部１３２は、朗読データの各時刻における音高に算出した比を乗算することで、読上データの当該時刻において発声されるべき音高を決定する。データ処理装置１がこのように構成されることで、第１話者と第２話者の音高の差に鑑みた自然な抑揚をつけた朗読をすることができる。

【0049】

ところで、朗読を聴取するユーザに第２話者を視覚的に見せることで、ユーザに第２話者が実際に朗読しているように感じさせることができる。この場合、発声情報記憶部１２２は、第２話者に対応する画像データをさらに記憶する。図５に示す発声情報においては、該発声情報に含まれる音声を提供した第２話者を被写体として含む画像データである「話者画像」が関連付けられている。画像データは、例えば、静止画、動画、３次元画像、ＡＲ（Augmented Reality）画像、ＶＲ（Virtual Reality）画像である。

【0050】

出力制御部１３３は、読上データを出力するよう制御している場合に第２話者に対応する画像を表示部に表示させるよう制御してもよい。生成部１３２は、選択された第２話者に対応する発声情報に関連付けられた画像データを取得する。出力制御部１３３は、取得した画像データを情報端末２の表示部に表示させる。出力制御部１３３は、一例として、画像データに含まれる人物の口元の画像が読上データの出力と連動して変化するように出力してもよい。このように構成されることで、ユーザは第２話者が実際に話しているような感覚を得ることができる。

【0051】

［朗読情報の置換］
朗読を読み上げる音色を発声情報に基づいて変化させる例について説明したが、朗読の内容に変化をつけることで、ユーザをより楽しませることができる。そこで、データ処理装置１は、朗読情報の一部を方言に置き換えて朗読させてもよいし、朗読の途中にフレーズを挿入するよう構成されてもよい。

【0052】

方言による朗読について説明する。この場合、操作受付部１３１は、一例として方言による朗読を行うか否かを示すフラグと、ユーザが選択した方言を含む操作情報を取得する。

【0053】

そして、生成部１３２は、朗読情報に含まれる１以上の文字と１以上の文字に対応する音高とを、１以上の文字それぞれが構成する単語に方言情報において対応する方言に含まれる文字と方言に含まれる文字を発音するための音高とで置換した置換朗読情報をさらに生成し、生成した置換朗読情報の時刻それぞれにおける置換後の文字に発声情報において対応する音色と該時刻における音量と置換後の音高とからなる音として出力させる読上データを生成する。操作受付部１３１が取得したユーザの操作内容が方言による朗読を選択したことを示す場合、生成部１３２は、方言情報をさらに取得する。そして、生成部１３２は、取得した朗読情報の単語と、方言情報に含まれる単語と、を比較し、合致する単語を方言情報に含まれる方言に置換する。一例として、朗読情報に含まれる「むかし」の単語を朗読情報において対応する方言である「んかし」に置換する。

【0054】

そして、置換した箇所の音高を方言情報の音高で出力させる読上データを生成する。朗読情報に含まれる単語と、方言情報において対応する方言の文字数が一致しない場合、一例として、当該単語を読み上げる時間が一致するように単語と方言とを構成する文字数の比に応じて各文字を読み上げる時間を短縮又は延長させてもよい。

【0055】

データ処理装置１が朗読情報に含まれる単語の一部を方言に置き換えた読上データを生成するよう構成されることで、例えば、第２話者が方言を話す場合において、の第２話者本来の話し方に近い読上げを行うことが可能となる。

【0056】

次に、朗読の途中にフレーズを挿入させる例について説明する。生成部１３２は、フラグが示すタイミングに複数の所定のフレーズから選択したフレーズを出力させる読上データを生成させる。操作受付部１３１が受け付けたユーザの操作内容が所定のフレーズを挿入して朗読することを示す場合、生成部１３２は、朗読情報におけるフレーズを挿入するタイミングを示すフラグが付与されているタイミングに所定のフレーズに対応する音を第２話者の音色で出力させる読上データを生成する。記憶部１２は、所定のフレーズとして、例えば、「すごいね」、「面白いね」等の感想を伝えるフレーズや、「大丈夫かな？」「この後どうなるのかな？」等のような展開を予測させたりするフレーズを記憶している。なお、生成部１３２は、所定のフレーズからランダムに選択されたフレーズをフラグが付与されたタイミングに挿入した読上データを生成してもよい。

【0057】

フレーズは例えば、「～かしら」、「～だぜ」のような口癖であってもよい。この場合、朗読情報においてフラグが付与されているタイミングに口癖を示すフレーズを挿入してもよい。また、朗読情報においてフラグが付与されているタイミングに対応する文字を、口癖を示すフレーズで置換してもよい。

【0058】

朗読中のコンテンツの場面に適したフレーズが挿入されるようにデータ処理装置１が構成されてもよい。すなわち、生成部１３２は、朗読情報に付されたコンテンツの場面に応じて挿入すべきフレーズに対応するフレーズをフラグが付与されたタイミングに挿入する。この場合、各フレーズにはフレーズに対応する感情が関連付けられている。一例として、生成部１３２は、コンテンツの場面が明るい場面である場合は、「楽しいね」などの明るい感情を表すフレーズが挿入されてもよいし、コンテンツの場面が危機に陥っている状況である場合は、「大丈夫かな？」などの心配する感情を表すフレーズを挿入する。

【0059】

データ処理装置１がこのように構成されることで、変化をつけた朗読を出力させることが可能となり、ユーザをより楽しませることができる。
［ユーザの状況に応じた制御］

【0060】

コンテンツの朗読を聴取するユーザの状況に基づいて読上げの出力を制御してもよい。このように構成することで、例えば、子どもの入眠への導入としてデータ処理システムＳを用いて読み聞かせをする利用シーンにおいて、子どもが入眠した場合に読上げを停止したり、音量を徐々に小さくさせながら停止させたりすることができる。

【0061】

撮像データ取得部１３４は、ユーザを撮像した撮像データを取得する。撮像データ取得部１３４は、情報端末２の撮像手段が撮像した撮像データを取得する。判定部１３５は、撮像データ取得部１３４から取得した撮像データを既知の画像解析技術を用いて画像解析することでユーザの状態を判定する。判定部１３５は、一例として、取得した撮像データを画像認識することでユーザの感情や、朗読に集中しているかどうか、ユーザが感じている眠気の状態又や眠っているか否か等を判定してもよい。

【0062】

出力制御部１３３は、判定部１３５が判定したユーザの状況に基づいて出力の態様を制御する。一例として、判定部１３５がユーザの状態をユーザが眠っていると判定した場合に、読上データの出力を停止し、又は読上データの出力態様を変更する。出力制御部１３３は、判定部１３５が、ユーザが眠っていると判定した場合又は眠気を感じていると判定した場合に、読上データを出力する音量を下げるように制御してもよいし、読上データの出力を停止させるよう制御してもよい。

【0063】

出力制御部１３３は、判定部１３５が判定したユーザの状況に基づいて読上げるコンテンツを他のコンテンツに切り替えてもよい。出力制御部１３３は、一例として、判定部１３５がユーザの状態をユーザが朗読に関心を示していないことを判定した場合、音楽などの他のコンテンツを出力させるよう制御してもよい。また、生成部１３２に他のコンテンツの朗読情報と選択された発声情報とから読上データを生成させ、読上データを出力するよう制御してもよい。

【0064】

コンテンツを聴取しているユーザに所定の状況が発生した場合に、ユーザの関係者に所定の状況が生じたことを通知するようデータ処理装置１が構成されてもよい。データ処理装置１は、例えば、朗読を聴取するユーザＵの保護者やユーザＵを介護する介護者に通知してもよい。

【0065】

判定部１３５は、判定したユーザの状態を情報端末２に通知してもよい。判定部１３５は、例えば、取得した撮像データを画像解析した結果、ユーザが怒っている又は泣いている等の状態にあることを判定した場合に、所定の通知先へユーザの状態を通知するメッセージを送信する。

【0066】

ところで、朗読情報には第１話者が行った様々な個性のある朗読情報が記録されており、判定部１３５が判定したユーザの状況に基づいて適切な朗読情報を選択することで、ユーザはより朗読を楽しむことができる。

【0067】

判定部１３５は、ユーザの属性及びユーザの状態の少なくともいずれかに基づいてユーザの状況を判定する。例えば、予め登録されているユーザＵの年齢や性別等の属性に基づいてユーザの状況を判定してもよい。例えばユーザが幼児である場合、「盛り上がる」朗読情報を選択することが適切であると判定してもよい。また、既に説明したように判定部１３５は、取得した撮像データを画像認識することで、ユーザの状況を判定してもよい。

【0068】

生成部１３２は、判定部１３５が判定したユーザの状況に関連付けられた朗読情報を選択し、選択した朗読情報の時刻それぞれにおける文字に発声情報において対応する音色と該時刻における音量と音高とからなる音として出力させる読上データを生成する。生成部１３２は、判定部１３５が判定したユーザの状況と合致する状況に関連付けられた朗読情報を取得し、取得した朗読情報と発声情報とに基づいて読上データを生成する。

【0069】

［ユーザとのインタラクション］
ユーザの反応に基づいて出力を制御する例について説明したが、データ処理装置１がユーザの発話内容に対応する応答をするよう制御するよう構成されてもよい。

【0070】

この場合、朗読情報記憶部１２１は、朗読情報において朗読の対象となるコンテンツに含まれる言葉と言葉が示す意味とを対応付けた辞書情報を朗読情報と関連付けてさらに記憶する。図７は、朗読情報記憶部１２１が記憶する辞書情報のデータ構造の一例を示す図である。辞書情報においては、「コンテンツ」と「単語」と「意味」が関連付けられている。「コンテンツ」は単語に対応する意味が一般的な意味であるか、特定のコンテンツにおける意味であるかを示す。例えば、「コンテンツ」が「一般」である場合は、一般的な意味を指し、コンテンツを識別する情報（例えば「ももたろう」）が格納されている場合、そのコンテンツ特有の意味であることを示す。

【0071】

音声情報取得部１３６は、コンテンツを視聴するユーザが発話した音声情報を取得する。音声情報取得部１３６は、情報端末２に搭載されたマイクが検出したユーザが発話した音声を示す音声情報を取得する。

【0072】

音声認識部１３７は、音声情報取得部１３６が取得した音声情報を音声認識し、ユーザの発話内容を取得する。音声認識部１３７は、取得した発話内容を既知の自然言語処理技術を用いて形態素解析、構文解析及び意味解析を行い、ユーザの発話内容を分類する。音声認識部１３７は、一例として、発話内容を「質問」、「感情の表現」等に分類する。分類された発話内容が質問の場合、音声認識部１３７は、取得した発話内容を解析して質問されている内容を特定する。例えば、ユーザの発話内容が「黍団子って何？」である場合、質問内容が黍団子の意味であることを特定する。

【0073】

生成部１３２は、音声認識部１３７が取得したユーザの発話内容がコンテンツに対する質問である場合に、辞書情報を参照し、質問に対する回答を示す回答情報を生成し、出力制御部１３３は、回答情報を出力するよう制御する。生成部１３２は、ユーザの発話内容がコンテンツに対する質問である場合、辞書情報を検索し、音声認識部１３７が特定した質問の内容に対応する意味を取得する。生成部１３２は、辞書情報に記録された一般的な意味と朗読データを出力しているコンテンツ特有の意味とを検索対象として検索する。

【0074】

生成部１３２は、所定のフォーマットに取得した意味を当てはめることで回答文を生成する。そして、生成部１３２は、生成した回答文を第２話者に対応する発声情報で読上げる回答情報を生成し、情報端末２に出力する。

【0075】

さらに、ユーザが朗読に対してどのような反応をしたかを記録するよう構成されてもよい。音声認識部１３７は、ユーザの発話内容と、発話内容をユーザが発話したタイミングに対応する時刻と、を関連付けた反応情報を反応情報記憶部１２４に記憶させる。音声認識部１３７は、ユーザが発話した際に朗読していたコンテンツを識別する情報をさらに関連付けた反応情報を反応情報記憶部１２４に記憶させてもよい。データ処理装置１がこのように構成されることで、ユーザの朗読に対する反応を記録し、ユーザの思い出を残すことができる。

【0076】

［データ処理装置１における処理の流れ］
図８は、データ処理装置１における処理の流れを示すフローチャートである。図８に示すフローチャートは、朗読情報の選択を受け付ける準備ができた時点から開始している。操作受付部１３１は、第２話者と朗読対象のコンテンツとの選択を情報端末２から受け付ける（Ｓ１０１）。生成部１３２は、選択されたコンテンツに対応する朗読情報を朗読情報記憶部１２１から取得する（Ｓ１０２）。生成部１３２は、選択された第２話者に対応する発声情報を発声情報記憶部１２２から取得する（Ｓ１０３）。

【0077】

生成部１３２は、方言の選択を受付けたかを判定する（Ｓ１０４）。方言の選択を受付けた場合（Ｓ１０４におけるＹＥＳ）、生成部１３２は、朗読情報に含まれる単語を対応する方言に置換する（Ｓ１０５）。方言の選択を受付けていない場合（Ｓ１０４におけるＮＯ）、置換する処理をスキップする。

【0078】

生成部１３２は、朗読情報と発声情報とに基づいて読上データを生成する（Ｓ１０６）。そして、出力制御部１３３は、生成した読上データを情報端末２に出力するよう制御する（Ｓ１０７）。そして、データ処理装置１は、処理を終了する。

【0079】

以上記載したようにデータ処理装置１が構成されることで、他の朗読者の間や抑揚のある朗読を所望する音声で再現したテキストの読み上げを出力することができる。

【0080】

なお、本発明により、国連が主導する持続可能な開発目標（SDGs）の目標９「産業と技術革新の基盤をつくろう」に貢献することが可能となる。

【0081】

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

【符号の説明】

【0082】

１データ処理装置
２情報端末
１１通信部
１２記憶部
１３制御部
１２１朗読情報記憶部
１２２発声情報記憶部
１２３方言情報記憶部
１２４反応情報記憶部
１３１操作受付部
１３２生成部
１３３出力制御部
１３４撮像データ取得部
１３５判定部
１３６音声情報取得部
１３７音声認識部

【図1】