(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-08
(45)【発行日】2024-04-16
(54)【発明の名称】対話型コミュニケーション装置、コミュニケーションシステム及びプログラム
(51)【国際特許分類】
G06F 3/01 20060101AFI20240409BHJP
A63H 11/00 20060101ALI20240409BHJP
A63H 3/33 20060101ALI20240409BHJP
G06F 3/16 20060101ALI20240409BHJP
【FI】
G06F3/01 510
A63H11/00 Z
A63H3/33 C
G06F3/16 650
G06F3/16 690
G06F3/16 540
(21)【出願番号】P 2020176397
(22)【出願日】2020-10-21
【審査請求日】2023-05-24
(73)【特許権者】
【識別番号】000220262
【氏名又は名称】東京瓦斯株式会社
(74)【代理人】
【識別番号】100104880
【氏名又は名称】古部 次郎
(74)【代理人】
【識別番号】100125346
【氏名又は名称】尾形 文雄
(74)【代理人】
【識別番号】100166981
【氏名又は名称】砂田 岳彦
(72)【発明者】
【氏名】平瀬 公太
(72)【発明者】
【氏名】川田 拓也
(72)【発明者】
【氏名】大野 明子
【審査官】井上 香緒梨
(56)【参考文献】
【文献】特開2018-014094(JP,A)
【文献】特開2014-153715(JP,A)
【文献】特開2020-086027(JP,A)
【文献】特開2020-042066(JP,A)
【文献】米国特許出願公開第2019/0221225(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F3/01
G06F3/048-3/04895
A63H1/00-37/00
G06F3/16
G10L13/00-13/10
G10L19/00-99/00
(57)【特許請求の範囲】
【請求項1】
ユーザとの会話によってコミュニケーションを進行させる対話型コミュニケーション装置であって、
ユーザから朗読に関する要求を取得する要求取得手段と、
ユーザとの会話からユーザの状態を検知する検知手段と、
朗読パターンを記憶する記憶手段と、
検知された前記ユーザの状態に応じて、朗読パターンを前記記憶手段から選択する選択手段と、
選択された朗読パターンにより、書籍を朗読する音声出力手段と、
を有
し、
前記検知手段は、書籍の朗読に対するユーザの評価をユーザとの会話からさらに検知し、
前記選択手段は、ユーザの評価をさらに加味して朗読パターンを選択する、
ことを特徴とする対話型コミュニケーション装置。
【請求項2】
さらに前記選択手段は、検知した前記ユーザの状態及び/又は予め登録されたユーザ情報に基づき、朗読する書籍を選択する、
ことを特徴とする請求項1記載の対話型コミュニケーション装置。
【請求項3】
ユーザの音声を取得する音声取得手段をさらに有し、
前記検知手段は、前記音声取得手段が取得した音声を基に前記ユーザの状態を検知する、
ことを特徴とする請求項1に記載の対話型コミュニケーション装置。
【請求項4】
前記選択手段は、同一のユーザに対し同一の書籍について過去に朗読した履歴により朗読パターンを変更する、
ことを特徴とする請求項1記載の対話型コミュニケーション装置。
【請求項5】
前記選択手段は、検知した前記ユーザの状態に基づき、朗読する速度、音声の高低レベル、音声の質、抑揚のうち少なくとも1つ以上のパラメータの組み合わせから特定される朗読パターンを選択する、
ことを特徴とする請求項1記載の対話型コミュニケーション装置。
【請求項6】
前記検知手段は、複数のユーザを判別し、
前記選択手段は、複数のユーザの中の何れかのユーザの状態に応じて、朗読パターンを選択する、
ことを特徴とする請求項1記載の対話型コミュニケーション装置。
【請求項7】
前記選択手段は、複数のユーザの中で、子供の状態に応じて、朗読パターンを選択する、
ことを特徴とする請求項1記載の対話型コミュニケーション装置。
【請求項8】
前記検知手段は、自装置の周辺の状況をさらに検知し、
前記選択手段は、検知した状況に基づき、朗読パターンを選択する、
ことを特徴とする請求項1に記載の対話型コミュニケーション装置。
【請求項9】
書籍を朗読する対話型コミュニケーション装置と、
前記書籍を朗読した音声コンテンツのデータを保存する保存装置と、
を備え、
前記対話型コミュニケーション装置は、
ユーザとの会話によってコミュニケーションを進行させる対話型コミュニケーション装置であって、
ユーザから朗読に関する要求を取得する要求取得手段と、
ユーザとの会話からユーザの状態を検知する検知手段と、
朗読パターンを記憶する記憶手段と、
検知された前記ユーザの状態に応じて、朗読パターンを前記記憶手段から選択する選択手段と、
選択された朗読パターンにより、書籍を朗読する音声出力手段と、
を有
し、
前記検知手段は、書籍の朗読に対するユーザの評価をユーザとの会話からさらに検知し、
前記選択手段は、ユーザの評価をさらに加味して朗読パターンを選択する、
ことを特徴とするコミュニケーションシステム。
【請求項10】
コンピュータに、
ユーザから朗読に関する要求を取得する要求取得機能と、
ユーザとの会話からユーザの状態を検知
し、ユーザとの会話から書籍の朗読に対するユーザの評価を検知する検知機能と、
検知された前記ユーザの状態
およびユーザの評価に応じて、朗読パターンを選択する選択機能と、
を実現させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話型コミュニケーション装置、コミュニケーションシステム、プログラムに関する。
【背景技術】
【0002】
ユーザとの会話によってコミュニケーションを進行させる対話型コミュニケーション装置が存在する。
【0003】
特許文献1には、脚式ロボットが記載されている。この脚式ロボットは、本あるいはその他の印刷媒体・記録媒体に印刷・記録されたストーリ、あるいはネットワーク経由でダウンロードされたストーリを朗読する際に、記述された文字通りに単に逐語的に読み上げるのではなく、時間の変化、季節の変化、あるいはユーザの感情変化などの外部要因を利用して、元の内容との実質的同一の範囲内で動的にストーリを改編し、毎回異なった内容を朗読することができる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
ナレーターや声優が書籍を朗読したものを録音した音声コンテンツがインターネットを介してダウンロード可能になってきている。また、これらの音声コンテンツを幼児向けに読み聞かせるホームロボットも出現している。通常、これらの音声コンテンツは、ナレーターや声優の朗読を録音した音声を再生するだけであるので、毎回、同じ音声が同じ音調で出力されるだけである。ところが、幼児は、同じストーリを何度も何度も聞きたがる傾向があり、毎回同じ音声出力では、面白味に欠けることがある。幼児の親にとっても本の内容に興味を持って幼児に付き添うことが望まれるため、読み聞かせ方に変化をもたせることが望まれていた。
本発明は、従来の常に同一の朗読と比較して、ユーザとの会話を通じてその場に適した書籍及び朗読パターンで朗読を行う対話型コミュニケーション装置等を提供することを目的とする。
【課題を解決するための手段】
【0006】
かくして本発明によれば、ユーザとの会話によってコミュニケーションを進行させる対話型コミュニケーション装置であって、ユーザから朗読に関する要求を取得する要求取得手段と、ユーザとの会話からユーザの状態を検知する検知手段と、朗読パターンを記憶する記憶手段と、検知されたユーザの状態に応じて、朗読パターンを記憶手段から選択する選択手段と、選択された朗読パターンにより、書籍を朗読する音声出力手段と、を有することを特徴とする対話型コミュニケーション装置が提供される。
【0007】
さらに選択手段は、検知したユーザの状態及び/又は予め登録されたユーザ情報に基づき、朗読する書籍を選択するようにすることができる。この場合、書籍の選択がより的確になる。
また、ユーザの音声を取得する音声取得手段をさらに有し、検知手段は、音声取得手段が取得した音声を基にユーザの状態を検知することができる。この場合、ユーザの音声に含まれる文言を基に、ユーザの状態を検知することができる。
さらに、選択手段は、同一のユーザに対し同一の書籍について過去に朗読した履歴により朗読パターンを変更することができる。この場合、ユーザの状態が同じときに、同一の朗読パターンがいつも選択されることを防止できる。
またさらに、選択手段は、検知したユーザの状態に基づき、朗読する速度、音声の高低レベル、音声の質、抑揚のうち少なくとも1つ以上のパラメータの組み合わせから特定される朗読パターンを選択することができる。この場合、朗読のパターンに変化を付けやすくなる。
さらに、検知手段は、書籍の朗読に対するユーザの評価をユーザとの会話からさらに検知し、選択手段は、ユーザの評価をさらに加味して朗読パターンを選択することができる。この場合、ユーザの評価をフィードバックして朗読パターンを選択することができる。
そして、検知手段は、複数のユーザを判別し、選択手段は、複数のユーザの中の何れかのユーザの状態に応じて、朗読パターンを選択することができる。この場合、複数のユーザの中から朗読を聞かせるユーザを判別することができる。
また、選択手段は、複数のユーザの中で、子供の状態に応じて、朗読パターンを選択することができる。この場合、子共に対する読み聞かせを行うときに有効な朗読パターンを選択することができる。
さらに、検知手段は、自装置の周辺の状況をさらに検知し、選択手段は、検知した状況に基づき、朗読パターンを選択することができる。この場合、周囲の状況をさらに加えて朗読パターンを選択することができる。
【0008】
さらに、本発明によれば、書籍を朗読する対話型コミュニケーション装置と、書籍を朗読した音声コンテンツのデータを保存する保存装置と、を備え、対話型コミュニケーション装置は、ユーザとの会話によってコミュニケーションを進行させる対話型コミュニケーション装置であって、ユーザから朗読に関する要求を取得する要求取得手段と、ユーザとの会話からユーザの状態を検知する検知手段と、朗読パターンを記憶する記憶手段と、検知されたユーザの状態に応じて、朗読パターンを記憶手段から選択する選択手段と、選択された朗読パターンにより、書籍を朗読する音声出力手段と、を有することを特徴とするコミュニケーションシステムが提供される。
【0009】
またさらに、本発明によれば、コンピュータに、ユーザから朗読に関する要求を取得する要求取得機能と、ユーザとの会話からユーザの状態を検知する検知機能と、検知されたユーザの状態に応じて、朗読パターンを選択する選択機能と、選択された朗読パターンにより、書籍を朗読する音声出力機能と、を実現させるためのプログラムが提供される。
【発明の効果】
【0010】
本発明によれば、従来の常に同一の朗読と比較して、ユーザとの会話を通じてその場に適した朗読を行う対話型コミュニケーション装置等を提供することができる。
【図面の簡単な説明】
【0011】
【
図1】本実施の形態におけるコミュニケーションシステムの構成例を示す図である。
【
図2】端末装置をロボットとした場合について説明した図である。
【
図3】コミュニケーションシステムの機能構成例を示したブロック図である。
【
図4】本実施形態のコミュニケーションシステムの動作の例について説明したフローチャートである。
【
図5】(a)~(b)は、書籍名に関し、記憶部に保存されるデータ構造について示した図である。
【
図6】朗読パターンに関し、記憶部に保存されるデータ構造について示した図である。
【
図7】(a)~(c)は、音声を、基本周波数と非周期成分とに分けた場合を示した図である。
【
図8】スペクトル包絡の例について示した図である。
【
図9】ユーザの年齢を推定する方法の一例を示した図である。
【発明を実施するための形態】
【0012】
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
【0013】
<コミュニケーションシステム1全体の説明>
図1は、本実施の形態におけるコミュニケーションシステム1の構成例を示す図である。
図示するように本実施の形態のコミュニケーションシステム1は、端末装置10と、管理サーバ20とが、ネットワーク70、ネットワーク80、アクセスポイント90を介して接続されることにより構成されている。
【0014】
端末装置10は、書籍を朗読する対話型コミュニケーション装置の一例である。端末装置10は、言葉や動作など、何らかの手段によってユーザとコミュニケーションをすることができ、ユーザとの会話によってコミュニケーションを進行させることができる。即ち、ユーザが、問いや指示を音声にて発すると、端末装置10は、この問いや指示に対し何らかの反応を返す。この反応は、例えば、音声、画像、ジェスチャーなどである。また逆に、端末装置10が、問いや指示を行い、ユーザがこの問いや指示に対し音声やジェスチャーを返すこともある。そして、ユーザや端末装置10が、これらの動作をすることで、ユーザと端末装置10との間で、コミュニケーションが成立する。端末装置10は、例えば、ロボットとすることができる。このロボットは、例えば、ロボットを所有するユーザの住居に置かれる。
【0015】
図2は、端末装置10をロボットとした場合について説明した図である。
図2に示した、ロボットとしての端末装置10は、歩行等を行うことで移動する機能を有する移動式としてもよいが、移動しない非移動式としてもよい。
端末装置10は、情報の送信及び受信を行う通信アンテナ101と、音声を取得するマイクロフォン102と、音声等の音を出力するスピーカ103と、ユーザが操作を行う操作ボタン104と、端末装置10の全体の制御を行う制御部105とを備える。
【0016】
管理サーバ20は、コミュニケーションシステム1の全体の管理をするサーバコンピュータである。管理サーバ20は、保存装置の一例であり、ナレーターや声優が書籍を朗読したものを録音した音声コンテンツのデータを保存する。そして、端末装置10は、管理サーバ20から音声コンテンツのデータをダウンロードし、端末装置10内に保存して、音声出力することができる。あるいは、端末装置10は、管理サーバ20からストリーミング形式で音声コンテンツをダウンロードし、音声出力することもできる。
【0017】
管理サーバ20は、演算手段であるCPU(Central Processing Unit)と、記憶手段であるメインメモリを備える。ここで、CPUは、OS(基本ソフトウェア)やアプリ(応用ソフトウェア)等の各種ソフトウェアを実行する。また、メインメモリは、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域である。さらに、管理サーバ20は、外部との通信を行うための通信インタフェース(以下、「通信I/F」と表記する)と、ビデオメモリやディスプレイ等からなる表示機構と、入力ボタン、タッチパネル、キーボード等の入力機構とを備える。また、管理サーバ20は、補助記憶装置として、HDD(Hard Disk Drive)やSSD(Solid State Drive)等のストレージを備える。
【0018】
ネットワーク70は、端末装置10及び管理サーバ20の情報通信に用いられる通信手段であり、例えば、インターネットである。
ネットワーク80も、ネットワーク70と同様に、端末装置10及び管理サーバ20の間の情報通信に用いられる通信手段であり、例えば、LAN(Local Area Network)である。
【0019】
アクセスポイント90は、無線通信回線を利用して無線通信を行う機器である。アクセスポイント90は、端末装置10とネットワーク70との間の情報の送受信を媒介する。
無線通信回線の種類としては、携帯電話回線、PHS(Personal Handy-phone System)回線、Wi-Fi(Wireless Fidelity)、Bluetooth(登録商標)、ZigBee、UWB(Ultra Wideband)等の各回線が使用可能である。
【0020】
次に、本実施の形態のコミュニケーションシステム1の詳細な機能構成及び動作について説明する。
【0021】
<コミュニケーションシステム1の機能構成の説明>
図3は、コミュニケーションシステム1の機能構成例を示したブロック図である。
なおここでは、コミュニケーションシステム1が有する種々の機能のうち本実施の形態に関係するものを選択して図示している。
コミュニケーションシステム1において、端末装置10は、音声コンテンツのデータの受信等を行う送受信部11と、ユーザの音声を取得する音声取得部12と、ユーザの要求を取得する要求取得部13と、ユーザの状態を検知する検知部14と、音声コンテンツのデータを記憶する記憶部15と、朗読パターンを選択する選択部16と、選択された朗読パターンによる音声を作成する音声作成部17と、音声を出力する音声出力部18とを備える。
【0022】
送受信部11は、管理サーバ20に対し、音声コンテンツのダウンロードの要求を送信する。また、送受信部11は、音声コンテンツのデータの受信を行う。送受信部11は、例えば、通信I/FやCPUであり、これは例えば、通信アンテナ101や制御部105に対応する。送受信部11は、ネットワーク70、ネットワーク80及びアクセスポイント90を介し、管理サーバ20との間でこれらの情報の送受信を行う。
【0023】
音声取得部12は、音声取得手段の一例であり、ユーザの音声等の音を取得する。音声取得部12は、例えば、マイクロフォン102に対応する。マイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いてよい。また、マイクロフォンとして、無指向性のMEMS(Micro Electro Mechanical Systems)型マイクロフォンであることが好ましい。
【0024】
要求取得部13は、要求取得手段の一例であり。ユーザの音声を基に、ユーザの要求を取得する。要求取得部13は、例えば、ユーザの音声を音声文字変換し、テキスト化する。そして、このテキストを基にユーザの要求を判断する。ここでは、要求取得部13は、ユーザから朗読に関する要求を取得する。
【0025】
検知部14は、検知手段の一例であり、ユーザとの会話からユーザの状態を検知する。この場合、検知部14は、音声取得部12が取得した音声を基にユーザの状態を検知する。ユーザの状態とは、例えば、ユーザは忙しい、急いでいる、怒っている、疲れている等を言う。
記憶部15は、記憶手段の一例であり、音声コンテンツを記憶する。また、記憶部15は、書籍の朗読のパターンである朗読パターンを記憶する。朗読パターンは、例えば、朗読する速度、音声の高低レベル、音声の質、抑揚のパターンである。さらに、記憶部15は、検知部14が検知したユーザの状態やユーザ情報を記憶する。ここで、ユーザ情報とは、ユーザに関する情報であれば、特に限られるものではない。ユーザ情報は、例えば、ユーザの性別、年齢、家族構成、続柄、生年月日などである。ユーザ情報は、操作ボタン104をユーザが操作することで、予めユーザが設定することができる。また、後述するように、端末装置10がユーザ情報を推定することもできる。
【0026】
選択部16は、選択手段の一例であり、検知されたユーザの状態に応じて、朗読パターンを記憶部15から選択する。さらに、選択部16は、検知したユーザの状態及び/又は予め登録されたユーザ情報に基づき、朗読する書籍を選択する。
音声作成部17は、選択された朗読パターンに応じた音声を作成する。音声作成部17は、送受信部11により取得された音声コンテンツのデータを基に、音声の変換を行い、選択された朗読パターンに応じた音声を作成する。
音声出力部18は、音声出力手段の一例であり、選択された朗読パターンにより、書籍を朗読する。
【0027】
要求取得部13、検知部14、選択部16は、例えば、CPUであり、制御部105に対応する。また、記憶部15は、例えば、メインメモリ、ストレージなどであり、制御部105に対応する。さらに、音声出力部18は、例えば、スピーカ103に対応する。
【0028】
管理サーバ20は、音声コンテンツのデータの送信等を行う送受信部21と、音声コンテンツを保存する保存部22と、管理サーバ20全体の制御を行う制御部23とを備える。
送受信部21は、端末装置10から、音声コンテンツのダウンロードの要求を受け付けると、端末装置10に対し、音声コンテンツのデータの送信を行う。送受信部21は、例えば、通信I/Fに対応する。
【0029】
保存部22は、音声コンテンツのデータの保存を行う。保存部22は、例えば、ストレージに対応する。
制御部23は、端末装置10からの音声コンテンツのダウンロードの要求に応じ、必要な音声コンテンツのデータを選択する。そして、保存部22から、選択した音声コンテンツのデータを取得し、送受信部21を介して端末装置10に対し送る。制御部23は、例えば、CPUやメインメモリに対応する。
【0030】
<コミュニケーションシステム1の動作の説明>
次に、本実施の形態のコミュニケーションシステム1の動作について、より詳細に説明を行う。
図4は、本実施形態のコミュニケーションシステム1の動作の例について説明したフローチャートである。
まず、端末装置10の音声取得部12が、ユーザの音声を取得する(ステップ101)。
次に、要求取得部13が、ユーザから、書籍の朗読の要求がなされたか否かを判断する(ステップ102)。これは、音声取得部12が取得したユーザの音声の中に、書籍の朗読の要求を行う文言が含まれるか否かで判断することができる。即ち、ユーザが、「本読んで。」、「○○を読んでください。」、「ねえ、何か読んでよ。」などの音声が含まれる場合、要求取得部13は、書籍の朗読の要求がなされたと判断する。なお、この場合、「○○」は、書籍の題名である。
【0031】
その結果、ユーザから、書籍の朗読の要求がなされていない場合(ステップ102でNo)、検知部14は、ユーザの状態を検知する(ステップ103)。そして、ステップ101に戻る。ユーザの状態は、音声取得部12が取得したユーザの音声の中の文言から、判断することができる。具体的には、「時間がない」などの文言が含まれる場合は、検知部14は、ユーザが忙しいと判断する。また、「早くして」などの文言が含まれる場合は、検知部14は、ユーザが急いでいると判断する。さらに、「いいかげんにして」などの文言が含まれる場合は、検知部14は、ユーザが怒っていると判断する。またさらに、「疲れた」などの文言が含まれる場合は、検知部14は、ユーザが疲れていると判断する。検知されたユーザの状態は、順次、記憶部15に記憶される。
【0032】
また、検知部14は、分散表現を利用した手法で、ユーザの状態を検知してもよい。具体的には、ユーザの音声を音声認識してテキスト化し、テキストを構成する単語を、分散表現を利用して、高次元の実数ベクトルで表現する。単語を高次元の実数ベクトルで表すには、例えば、word2vecを利用して行うことができる。Word2vecは、ニューラルネットワークを利用して自然言語を解析し、文中に出現した単語の潜在表現をベクトルの形で表現することができる。そして、このベクトルのユークリッド距離が近い単語同士は、近い意味を有すると考えることができる。よって、検知部14は、このベクトル空間内で、予め定められた領域を定め、それぞれの単語が、何れの領域に含まれるか否かを調べる。この領域は、ユーザの状態に対応付けられる。即ち、上述した、ユーザは忙しい、急いでいる、怒っている、疲れているなどの状態に対応する。そして、それぞれの領域に属する単語の数により、ユーザの状態を判断できる。例えば、このベクトル空間内で、「忙しい」に対応する領域に単語が多く含まれる場合は、ユーザの状態は、「忙しい」と判断できる。
【0033】
また、ユーザから、書籍の朗読の要求がなされていた場合(ステップ102でYes)、選択部16は、書籍の選択を行う(ステップ104)。選択部16は、ユーザの要求の中に書籍名が明示されていた場合は、この書籍名の書籍を選択する。また、選択部16は、ユーザの要求の中に書籍名がない場合は、検知したユーザの状態やユーザ情報に基づき、朗読する書籍を選択する。例えば、ユーザの状態が、疲れている状態の場合、選択部16は、ユーザをリラックスさせるような書籍を選択する。また、ユーザ情報により、ユーザが3歳の女の子であることがわかれば、選択部16は、この子に興味をもってもらえそうな童話を選択する。
【0034】
書籍名は、ユーザの状態やユーザ情報と予め関連付けられ、記憶部15に保存されている。また、ユーザの状態やユーザ情報に対し、複数の書籍名が記憶され、この中から選択することができることが好ましい。これにより、いつも同じ書籍が選択されることがなくなる。
【0035】
図5(a)~(b)は、書籍名に関し、記憶部15に保存されるデータ構造について示した図である。
図示するデータ構造は、ユーザ情報であるユーザの年齢、ユーザの状態及び書籍名が関連付けられる。
ここで、
図5(a)に示したデータ構造は、ユーザの年齢とそれに応じたグループとが関連付けられる。即ち、ユーザの年齢に合わせた書籍を選択できるように、ユーザの年齢に合わせて書籍をグループ分けする。ここでは、区分された年齢に合わせ、グループA,グループB、… にグループ分けされている。
また、
図5(b)に示したデータ構造は、それぞれのグループ毎に設定され、ユーザの状態と書籍名とを関連付けさせる。そして、ユーザの状態に応じ、書籍名は,複数関連付けられる。この場合、ユーザの状態に応じてそれぞれ3つの書籍名が関連付けられている。即ち、選択部16は、これらの中から何れの書籍名を選択してもよい。このようなデータ構造とすることで、選択部16は、ユーザの年齢や状態に応じた書籍を選択することができる。
【0036】
図4に戻り、次に、送受信部11が、管理サーバ20に対し、選択部16により選択された書籍名の音声コンテンツのデータのダウンロードの要求を行う(ステップ105)。
ダウンロードの要求は、管理サーバ20の送受信部21が受信し、制御部23は、保存部22から、要求された書籍名の音声コンテンツのデータを取得する。(ステップ106)。
音声コンテンツのデータは、制御部23が、送受信部21を介し、端末装置10に送信し、端末装置10の送受信部11が受信する(ステップ107)。
【0037】
次に、選択部16は、検知部14により検知されたユーザの状態に応じて、朗読パターンを記憶部15から選択する(ステップ108)。このとき、選択部16は、検知したユーザの状態に基づき、朗読する速度、音声の高低レベル、音声の質、抑揚のうち少なくとも1つ以上のパラメータの組み合わせから特定される朗読パターンを選択する。
【0038】
朗読パターンは、ユーザの状態と予め関連付けられ、記憶部15に保存されている。
図6は、朗読パターンに関し、記憶部15に保存されるデータ構造について示した図である。
図示するデータ構造は、ユーザの状態と朗読パターンとが関連付けられる。そして、ユーザの状態に応じて朗読パターンは,複数関連付けられる。この場合、ユーザの状態に応じてそれぞれ3つの朗読パターンが関連付けられている。即ち、選択部16は、これらの中から何れの朗読パターンを選択してもよい。朗読パターンを複数設定することで、ユーザの状態が同じときに、同一の朗読パターンが常に選択されることを防止できる。
【0039】
検知部14が、ユーザの状態として、忙しい、急いでいると判断した場合は、選択部16は、例えば、朗読の速度が速い朗読パターンを選択する。また、検知部14が、ユーザが、疲れていると判断した場合は、選択部16は、例えば、音声をやや低くゆっくりした口調の朗読パターンを選択する。
【0040】
音声作成部17は、選択された朗読パターンに応じた音声を作成する(ステップ109)。そして、作成された音声は、音声出力部18から出力される(ステップ110)。
音声作成部17は、送受信部11により取得された音声コンテンツのデータを基に、音声の変換を行い、選択された朗読パターンに応じた音声を作成する。そして、音声出力部18は、選択された朗読パターンに応じた、速度、音声の高低レベル、音声の質、抑揚にて、書籍を朗読する音声を出力する。
【0041】
音声作成部17が、音声の変換を行うには、例えば、以下の方法を用いることができる。
まず、音声作成部17は、音声を、基本周波数と非周期成分とに分ける。
図7(a)~(c)は、音声を、基本周波数と非周期成分とに分けた場合を示した図である。
ここで、
図7(a)は、音声の信号を表す。また、
図7(b)は、音声の信号の基本周波数を表し、
図7(c)は、音声の信号の非周期成分を表す。
図7(a)~(c)で、横軸は、時間であり、縦軸は、信号の強さである。
つまり、
図7(a)で示す音声の信号は、
図7(b)で示す基本周波数と、
図7(c)で示す非周期成分の2つに分けることができる。
基本周波数を異なる周波数とすることで、声の高さを変更することができる。つまり、音声の高低レベを変更できる。また、非周期成分は、声色を表す。よって、非周期成分の大きさを変化させることでも音声の質が変化する。例えば、非周期成分が小さいほど、声のかすれが小さくなり、大きいほど声のかすれが大きくなる。そして、変換後の波形を再合成すると、音声の質を変更できる。また、非周期成分の大きさを変化させることで、抑揚についても変更できる。
【0042】
また、スペクトル包絡を変換することで、異なる音声とすることができる。
この場合、音声作成部17は音声の信号をフーリエ変換し、周波数スペクトルを求め、これからスペクトル包絡を抽出する。スペクトル包絡は、周波数スペクトルの対数をさらにフーリエ変換したものであり、いわば、スペクトルのスペクトルである。
【0043】
図8は、スペクトル包絡の例について示した図である。
図8で、横軸は、周波数を表し、縦軸は、スペクトル強度を表す。図中、Ssで表す線は、周波数スペクトルである。一方、Shで表す線は、スペクトル包絡である。このスペクトル包絡Shは、周波数スペクトルSsのなだらかな変動を表したものであり、周波数スペクトルSsから、周波数スペクトルSsの細かな変動(スペクトル微細構造)を分離したものである。そして、このスペクトル包絡Shは、人間の声道の特性を表している。よって、このスペクトル包絡Shを変換することで、異なる声道のスペクトル包絡Shを再現することができる。つまり、元とは異なる音声とすることができる。これにより、音声の高低レベル、音声の質、抑揚が変更できる。
【0044】
以上説明した形態によれば、従来の常に同一の朗読と比較して、ユーザとの会話を通じてその場に適した書籍及び朗読パターンで朗読を行うことができる。
また、以上説明した形態によれば、端末装置10が、ユーザの状態やユーザの情報に応じた書籍及び朗読パターンを選択する。このため、親が子に絵本等の書籍の読み聞かせをする場合、読み聞かせ方に変化をもたせることができる。その結果、聞き手の子に対し、より興味を引きやすくなるばかりか、子の親も朗読に関心を抱きやすくなる。この場合、親にとっては、書籍の朗読の手間が削減するだけでなく、親子で高い関心をもって満足感のある時間を共有することができる。そして、親子の一体感の形成にも寄与することができる。
【0045】
<変形例>
以下、コミュニケーションシステム1の変形例について説明を行う。
(変形例1)
変形例1では、選択部16は、同一のユーザに対し同一の書籍について過去に朗読した履歴により朗読パターンを変更する、つまり、このような場合は、既にユーザは、過去にこの書籍の朗読を聞いているため、選択部16は、前回とは異なる朗読パターンを選択する。例えば、選択部16は、ややスピードを上げて朗読する朗読パターンを選択する。
また、選択部16は、毎回異なる朗読パターンを選択してもよく、同じ朗読パターンを予め定められた回数の中で1回だけとするようにしてもよい。これにより、同じ書籍の朗読を聞く場合でも、ユーザは、より新鮮な気分で朗読を聞くことができる
【0046】
(変形例2)
変形例2では、検知部14は、書籍の朗読に対するユーザの評価をユーザとの会話からさらに検知する。そして、選択部16は、ユーザの評価をさらに加味して朗読パターンを選択する。つまり、この場合、選択部16は、ユーザの評価をフィードバックして、朗読パターンを選択する。例えば、端末装置10や親が、書籍について「この本は面白かった?」と質問をした際に、子供の幼児からの回答である、「楽しかった」、「怖かった」等を記憶部15にて記憶し、選択部16は、次回の朗読パターンの選択の際にフィードバックを行う。これにより、ユーザの書籍に対する興味の傾向を把握することができ、より興味を抱きやすい朗読パターンや書籍を選択することができる。
【0047】
(変形例3)
変形例3では、検知部14は、複数のユーザを判別する。そして、選択部16は、複数のユーザの中の何れかのユーザの状態に応じて、朗読パターンを選択する。この複数のユーザは、例えば、親とその子供である。この場合、選択部16は、複数のユーザの中で、子供の状態に応じて、朗読パターンを選択する。また同様に、選択部16は、子供のユーザ情報や状態に応じて、書籍を選択する。端末装置10として、
図2に示すようなロボットを使用した場合、書籍の朗読は、大人よりも子供への絵本等の読み聞かせに用いられることが多い。よって、このようにすることで、朗読パターンや書籍の選択が、より的確になる。
【0048】
(変形例4)
変形例4では、検知部14は、自装置の周辺の状況をさらに検知し、選択部16は、検知した状況に基づき、朗読パターンを選択する。
ここでは、検知部14は、自装置の周囲の状態として、端末装置10の周囲の環境音を識別し、選択部16は、環境音に応じて朗読パターンを選択する。
この環境音は、ユーザの周囲から聞こえる音であり、雨の音、波の音、風の音、鳥や蝉の鳴き声、雑踏の音、自動車、電車、飛行機が通過する音等である。そして、この環境音が大きい場合、ユーザは、朗読を聞き取りにくくなる。そのため、選択部16は、環境音の音圧が大きいと判断された場合は、それに応じて書籍の朗読する際の音量を大きくしたり、朗読の速度を遅くする。
また、例えば、選択部16は、時間帯に合わせ、朗読を行う際の音量を設定してもよい。例えば、昼間には、音量を大きくし、夜間には、音量を小さくする。
【0049】
(変形例5)
変形例5では、端末装置10がユーザ情報を推定する。ここでは、ユーザ情報として、ユーザの年齢や性別を推定する場合について説明する。
図9は、ユーザの年齢を推定する方法の一例を示した図である。
図9は、音声の周波数スペクトルについて示している。ここで、横軸は、周波数を表し、縦軸は、スペクトル強度を表す。即ち、周波数スペクトルは、音声に含まれる周波数成分について、周波数とその強度との関係を示している。
ここでは、音声について、40歳、50歳、60歳、70歳の人物の周波数スペクトルの一例を示している。図示するように、年齢が上昇するに従い、4kHz以上のスペクトル強度が増加することがわかる。実際には、4kHz以上のスペクトル強度が増加することで、音声が、よりかれた状態となる嗄声(させい)となる。
よって、検知部14は、周波数スペクトルのうち、4kHz以上のスペクトル強度を見ることで、ユーザの年齢を推定する。
また、
図7に挙げた基本周波数は、声の高さを表す。例えば、男声の基本周波数は、100Hz~200Hzであり、女声の基本周波数は、250Hz~500Hzである。よって、検知部14は、基本周波数により、ユーザの性別を推定することができる。
【0050】
以上詳述した形態では、コミュニケーションシステム1は、端末装置10及び管理サーバ20が、ネットワーク70、ネットワーク80、アクセスポイント90を介して接続されることにより構成されていたが、管理サーバ20の機能を端末装置10に集約してもよい。この場合、端末装置10は、コミュニケーションシステム1であるとして捉えることができる。また、端末装置10で行う処理は、管理サーバ20でも同様のことができる。つまり、端末装置10の機能を管理サーバ20に集約してもよい。よって、この場合、管理サーバ20は、コミュニケーションシステム1であるとして捉えることができる。
さらに、上述した例では、端末装置10は、ロボットである例を示したが、これに限られるものではない。例えば、モバイルコンピュータ、携帯電話、スマートフォン、タブレット等のモバイル端末であってもよく、デスクトップコンピュータであってもよい。
【0051】
<プログラムの説明>
ここで、以上説明を行った本実施の形態における端末装置10が行う処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。そして、この処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、端末装置10に設けられたコンピュータ内部の図示しないCPUが、上述した各機能を実現するプログラムを実行し、これらの各機能を実現させる。
【0052】
よって、本実施の形態で、端末装置10が行う処理は、コンピュータに、ユーザから朗読に関する要求を取得する要求取得機能と、ユーザとの会話からユーザの状態を検知する検知機能と、検知されたユーザの状態に応じて、朗読パターンを選択する選択機能と、選択された朗読パターンにより、書籍を朗読する音声出力機能と、を実現させるためのプログラムとして捉えることもできる。
【0053】
なお、本実施の形態を実現するプログラムは、通信手段により提供することはもちろんCD-ROM等の記録媒体に格納して提供することも可能である。
【0054】
以上、本実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更又は改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
【符号の説明】
【0055】
1…コミュニケーションシステム、10…端末装置、11…送受信部、12…音声取得部、13…要求取得部、14…検知部、15…記憶部、16…選択部、17…音声作成部、18…音声出力部、20…管理サーバ