(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-25
(45)【発行日】2022-12-05
(54)【発明の名称】絵本表示システム
(51)【国際特許分類】
G10L 15/22 20060101AFI20221128BHJP
G10L 15/10 20060101ALI20221128BHJP
G10L 13/10 20130101ALI20221128BHJP
G10L 21/003 20130101ALI20221128BHJP
G10L 15/30 20130101ALI20221128BHJP
G06F 3/16 20060101ALI20221128BHJP
G06F 3/0483 20130101ALI20221128BHJP
G06F 16/51 20190101ALI20221128BHJP
【FI】
G10L15/22 460Z
G10L15/10 200W
G10L13/10 114
G10L21/003
G10L15/30
G06F3/16 650
G06F3/0483
G06F16/51
(21)【出願番号】P 2018210793
(22)【出願日】2018-11-08
【審査請求日】2021-07-27
(73)【特許権者】
【識別番号】000220262
【氏名又は名称】東京瓦斯株式会社
(74)【代理人】
【識別番号】100104880
【氏名又は名称】古部 次郎
(74)【代理人】
【識別番号】100125346
【氏名又は名称】尾形 文雄
(74)【代理人】
【識別番号】100166981
【氏名又は名称】砂田 岳彦
(72)【発明者】
【氏名】新田 友希
(72)【発明者】
【氏名】冨田 岳陽
(72)【発明者】
【氏名】清石 彩華
(72)【発明者】
【氏名】坂元 賢太郎
【審査官】岩田 淳
(56)【参考文献】
【文献】特表2016-511837(JP,A)
【文献】特開2006-178333(JP,A)
【文献】特開2011-248688(JP,A)
【文献】米国特許出願公開第2013/0145240(US,A1)
【文献】川合 康央 Yasuo Kawai,幼児の言語獲得に寄与するディジタル絵本の試作 Development of digital picture books for language acquisition in infant,情報処理学会 シンポジウム 情報教育シンポジウム 2012,日本,情報処理学会,2012年08月13日,pp.161-168
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-99/00
A63H 1/00-37/00
G06F 3/01
3/048-3/04895
3/16
16/00-16/958
G09B 1/00- 9/56
17/00-19/26
(57)【特許請求の範囲】
【請求項1】
読み手の発話音声を取得する音声取得手段と
前記読み手の発話音声の意味を把握する把握手段と、
前記把握手段が把握した前記意味に応じた画像を取得する画像取得手段と、
前記意味に応じて取得した前記画像を配置し、絵本とする配置手段と、
を有
し、
前記画像取得手段は、前記読み手の発話音声の中に、予め登録され前記画像を特定する文言が含まれるか否かを調べ、当該文言が含まれるときに、当該文言に対応する画像を取得し、
前記配置手段は、前記読み手の発話音声の中に、予め登録され前記画像取得手段が取得した前記画像の特徴を表す特徴情報が含まれる場合は、当該画像に対し当該特徴に合わせる処理を行い、
前記文言と前記特徴情報とは、前記絵本のページを示すページ数に対応付けて登録されており、
前記配置手段は、背景の画像と前景の画像とを区別して配置し、
前記画像取得手段が、新たな背景の画像を取得したときは、当該新たな背景の画像に対応づいているページ数のページとして扱うことを特徴とする絵本表示システム。
【請求項2】
前記把握手段は、聞き手の発話音声の意味をさらに把握し、
前記画像取得手段は、前記把握手段が把握した前記聞き手の発話音声の意味に応じた画像を取得することを特徴とする請求項
1に記載の絵本表示システム。
【請求項3】
前記読み手の発話音声と聞き手の発話音声とを分離する分離手段をさらに備えることを特徴とする請求項
1に記載の絵本表示システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、表示システム、絵本表示システム、プログラムに関する。
【背景技術】
【0002】
従来技術として、例えば、テレビに表示されたテキスト情報を読み手が読むと、テレビに絵本のページが表示される絵本表示装置が存在する。
【0003】
特許文献1には、ページ番号とページ画像と後続するページのページ番号とが対応付けて記憶するテキスト情報記憶手段と、テキスト情報とページ画像を所定の表示手段に表示させる表示画像制御部と、マイクロフォン部によって得られた音声情報を所定の出力手段に出力させる出力音声制御部と、得られた音声情報を分析して、音声情報の特徴を判別し、表示対象のページ番号に対応付けられた後続ページ番号において、特徴判別部の判別結果の特徴に対応付けられたページ番号を、後続ページ番号として特定する分岐処理部と、特定された後続ページ番号を次の表示対象のページ番号として特定する震度制御部とを有する電子絵本システムが記載されている。
また、特許文献2には、予め絵本となる画像および文章などを書き込む記録媒体と、この記録媒体から読み出した背景用画像データを格納する背景用メモリおよび動画用画像データを格納する動画用メモリと、これら背景用メモリおよび動画用メモリから読み出した背景データおよび動画データを合成して絵本にする合成部とを備え、この合成部が合成した画像データを絵本として表示するように構成する電子絵本表示装置が記載されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2009-122498号公報
【文献】特開平5-120400号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところが、従来は、絵本のストーリーは、予め用意されたものであり、読み手が自由に創作することはできない。また予め用意されたストーリーを読み手が読む場合も、絵の表示の切り換えは、読み手がコントローラ等を使用して進行操作をする必要がある。
本発明の目的は、読み手の話の内容に基づいて、聞き手の携帯端末等にリアルタイムで読み手の発話内容に応じた絵やテキスト等の表示画像が表示される表示システム等を提供することを目的とする。
【課題を解決するための手段】
【0007】
かくして本発明によれば、読み手の発話音声を取得する音声取得手段と、読み手の発話音声の意味を把握する把握手段と、把握手段が把握した意味に応じた画像を取得する画像取得手段と、意味に応じて取得した画像を配置し、絵本とする配置手段と、を有し、画像取得手段は、読み手の発話音声の中に、予め登録され画像を特定する文言が含まれるか否かを調べ、文言が含まれるときに、文言に対応する画像を取得し、配置手段は、読み手の発話音声の中に、予め登録され画像取得手段が取得した画像の特徴を表す特徴情報が含まれる場合は、画像に対し特徴に合わせる処理を行い、文言と特徴情報とは、絵本のページを示すページ数に対応付けて登録されており、配置手段は、背景の画像と前景の画像とを区別して配置し、画像取得手段が、新たな背景の画像を取得したときは、当該新たな背景の画像に対応づいているページ数のページとして扱うことを特徴とする絵本表示システムが提供される。
ここで、把握手段は、聞き手の発話音声の意味をさらに把握し、画像取得手段は、把握手段が把握した聞き手の発話音声の意味に応じた画像を取得するようにすることができる。この場合、読み手の発話音声のみならず聞き手の発話音声を基に絵本を作成することができる。
また、読み手の発話音声と聞き手の発話音声とを分離する分離手段をさらに備えるようにすることができる。この場合、読み手の発話音声を基に絵本を作成することができる。
【発明の効果】
【0009】
本発明によれば、読み手の話の内容に基づいて、聞き手の携帯端末等にリアルタイムで読み手の発話内容に応じた絵やテキスト等の表示画像が表示される表示システム等を提供することができる。
【図面の簡単な説明】
【0010】
【
図1】本実施の形態における表示システムの構成例を示す図である。
【
図2】表示システムの概略動作の例について示した図である。
【
図3】第1の実施形態における表示システムの機能構成例を示したブロック図である。
【
図4】第1の実施形態における表示システムの動作の例について説明したフローチャートである。
【
図5】分離部で読み手の発話音声と聞き手の発話音声とを分離する方法について示した図である。
【
図6】(a)~(b)は、第1の実施形態で用いられる記憶部のデータ構造を示した図である。
【
図7】(a)~(c)は、配置部が、画像を配置し、絵本とする処理について示した図である。
【
図8】第2の実施形態における表示システムの機能構成例を示したブロック図である。
【
図9】第2の実施形態の表示システムの動作の例について説明したフローチャートである。
【
図10】第3の実施形態における表示システムの機能構成例を示したブロック図である。
【
図11】第3の実施形態の表示システムの動作の例について説明したフローチャートである。
【
図12】第4の実施形態の表示システムの動作の例について説明したフローチャートである。
【
図13】第4の実施形態で用いられる記憶部のデータ構造を示した図である。
【
図14】(a)~(b)は、文章2行目以降に作成される絵本の例を示した図である。
【
図15】第5の実施形態における表示システムの機能構成例を示したブロック図である。
【
図16】第5の実施形態の表示システムの動作の例について説明したフローチャートである。
【発明を実施するための形態】
【0011】
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
【0012】
<表示システム1全体の説明>
図1は、本実施の形態における表示システム1の構成例を示す図である。
図示するように本実施の形態の表示システム1は、携帯端末20a、20bと、管理サーバ40とが、ネットワーク70、ネットワーク80、アクセスポイント90を介して接続されることにより構成されている。なお以後、携帯端末20aと携帯端末20bとを区別しない場合には、単に「携帯端末20」と言うことがある。
【0013】
携帯端末20は、例えば、モバイルコンピュータ、携帯電話、スマートフォン、タブレット等のモバイル端末である。携帯端末20a、20bは、無線通信を行うためにアクセスポイント90に接続する。そして、携帯端末20a、20bは、アクセスポイント90を介して、ネットワーク70に接続する。なお、詳しくは後述するが、携帯端末20aは、読み聞かせを行う際に、読み手が所持する携帯端末であり、携帯端末20bは、聞き手が所持する携帯端末である。
【0014】
管理サーバ40は、表示システム1の全体の管理をするサーバコンピュータである。詳しくは後述するが、例えば、管理サーバ40は、読み手の所持する携帯端末20aから、絵本等の文章を読む際の発話音声を取得する。そして、発話音声の内容に基づき画像等を取得し、絵本等の表示画像を作成する。そして、絵本等の表示画像の情報を聞き手の携帯端末20bに送信する。
【0015】
携帯端末20および管理サーバ40は、演算手段であるCPU(Central Processing Unit)と、記憶手段であるメインメモリを備える。ここで、CPUは、OS(基本ソフトウェア)やアプリ(応用ソフトウェア)等の各種ソフトウェアを実行する。また、メインメモリは、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域である。さらに、携帯端末20は、外部との通信を行うための通信インタフェース(以下、「通信I/F」と表記する)と、ビデオメモリやディスプレイ等からなる表示機構と、入力ボタン、タッチパネル、キーボード等の入力機構とを備える。そして、携帯端末20は、音声の出力を行うスピーカと、音声の入力を行うマイクロフォンとを備える。また、管理サーバ40は、補助記憶装置として、HDD(Hard Disk Drive)やSSD(Solid State Drive)を備える。
【0016】
ネットワーク70は、携帯端末20および管理サーバ40の情報通信に用いられる通信手段であり、例えば、インターネットである。
ネットワーク80も、ネットワーク70と同様に、携帯端末20および管理サーバ40の間の情報通信に用いられる通信手段であり、例えば、LAN(Local Area Network)である。
【0017】
アクセスポイント90は、無線通信回線を利用して無線通信を行う機器である。アクセスポイント90は、携帯端末20や管理サーバ40とネットワーク70やネットワーク80との間の情報の送受信を媒介する。
無線通信回線の種類としては、携帯電話回線、PHS(Personal Handy-phone System)回線、Wi-Fi(Wireless Fidelity)、Bluetooth(登録商標)、ZigBee、UWB(Ultra Wideband)等の各回線が使用可能である。
【0018】
<表示システム1の動作の概略説明>
図2は、表示システム1の概略動作の例について示した図である。
まず、携帯端末20aを所持する読み手が、本システムに使用される専用アプリを起動し、携帯端末20aのマイクロフォンに向け、絵本等の文章を話し、発話音声を入力する(1A)。マイクロフォンは、発話音声を、発話音声の音圧に応じた電気信号に変換する。そして、携帯端末20aでは、音声信号をいったん増幅する。そして、予め定められたサンプリング周波数にて、サンプリングし、デジタル化を行い、発話音声の情報を作成する。なお、聞き手は、読み手の側におり、聞き手の発話音声を聞くことができる。また、例えば、読み手は、親、祖父母であり、聞き手は、子供である。
【0019】
次に、携帯端末20aは、この発話音声の情報を、送信情報として管理サーバ40に対し送信する(1B)。送信情報は、アクセスポイント90、ネットワーク70、ネットワーク80を介し、管理サーバ40に送られる。
管理サーバ40では、受け取った発話音声の情報から、発話音声の意味を把握し、把握した意味を現す表示要素をデータベースから取得する(1C)。発話音声の意味は、音声認識により把握することができる。またここで、「表示要素」は、把握した意味に対応し、携帯端末20bで表示を行う表示画像の個々の要素である。具体的には、「表示要素」は、画像やテキスト等であり、例えば、把握した意味が「熊」であった場合、画像としては、熊の画像が「表示要素」となる。なお、画像は、静止画であるか動画であるかを問わない。またテキストとしては、「熊」、「bear」などの単語が「表示要素」となる。なお、このテキストは、単語でもよいが、複数の単語から構成されているセンテンスでもよい。
さらに、管理サーバ40では、データベースから取得した画像を配置し、聞き手が閲覧する絵本等の表示画像を作成する(1D)。
そして、管理サーバ40は、作成した表示画像の情報を、送信情報として聞き手の所持する携帯端末20bに対し送信する(1E)。表示画像の情報は、ネットワーク80、ネットワーク70、アクセスポイント90を介し、携帯端末20bに送られる。
【0020】
携帯端末20bでは、受け取った表示画像の情報を基に、表示機構に表示画像が表示される(1F)。そして、聞き手が、読み手の発話音声を聞きつつ、表示された表示画像を見ることで、読み聞かせを行うことができる。
【0021】
次に、本実施の形態の表示システム1の詳細な機能構成および動作について説明する。
【0022】
<表示システム1の機能構成の説明>
[第1の実施形態]
ここでは、まず、表示システム1の機能構成の第1の実施形態について説明を行う。第1の実施形態の表示システム1では、管理サーバ40が、読み手の発話音声の意味に応じた画像を取得し、取得した画像を配置して、表示画像として絵本を作成する。そして、聞き手は、携帯端末20bで、表示画像である絵本を閲覧する。即ち、この場合、表示システム1は、絵本表示システムとして機能する。
図3は、第1の実施形態における表示システム1の機能構成例を示したブロック図である。
なおここでは、表示システム1が有する種々の機能のうち本実施の形態に関係するものを選択して図示している。
表示システム1において、携帯端末20aと携帯端末20bとは、同様の機能構成を有し、送信情報の送受信を行う送受信部21と、画像の表示を行う表示部22と、情報を入力する入力部23と、発話音声を取得する音声取得部24とを備える。
【0023】
送受信部21は、発話音声の情報や絵本の情報などの送信情報の送受信を行う。送受信部21は、例えば、通信I/Fであり、アクセスポイント90、ネットワーク70およびネットワーク80を介し、管理サーバ40と情報の送受信を行う。
【0024】
表示部22は、絵本などの画像の表示を行う。表示部22は、例えば、タッチパネルである。この場合、表示部22は、各種情報が表示されるディスプレイと、指やスタイラスペン等で接触された位置を検出する位置検出シートとを備える。接触された位置を検出する手段としては、接触による圧力をもとに検出する抵抗膜方式や、接触した物の静電気をもとに検出する静電容量方式など、どのようなものが用いられてもよい。
【0025】
入力部23は、絵本の読み手や聞き手が、所定の操作を行うための操作機構である。
例えば、上述したタッチパネルである。この場合、タッチパネルは、表示部22および入力部23の双方の機能を有する。つまり、絵本などの画像を表示するとともに、表示された画面に対し、タッチを行うことで、専用アプリの起動・終了や専用アプリに対する操作を行うことができる。なお、これに限られるものではなく、入力部23は、キーボードやマウス等で構成されていてもよい。
【0026】
音声取得部24は、発話音声を取得する。音声取得部24は、例えば、マイクロフォンである。マイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いてよい。また、マイクロフォンとして、無指向性のMEMS(Micro Electro Mechanical Systems)型マイクロフォンであることが好ましい。
【0027】
管理サーバ40は、外部と通信を行う送受信部41と、読み手の発話音声と聞き手の発話音声とを分離する分離部42と、発話音声の意味を把握する把握部43と、把握した意味に応じた画像を取得する画像取得部44と、画像を記憶する記憶部45と、画像を配置して絵本とする配置部46とを有する。
【0028】
送受信部41は、携帯端末20と通信を行い、所定の情報のやりとりを行う。送受信部41は、音声取得手段の一例であり、携帯端末20aから送られた読み手の発話音声を送信情報として取得する。また、送受信部41は、出力手段の一例であり、絵本等の表示画像の情報を聞き手の携帯端末20bに送る。
分離部42は、分離手段の一例であり、読み手の発話音声と聞き手の発話音声とを分離する。これらの分離を行う方法は、後述する。
【0029】
把握部43は、把握手段の一例であり、読み手の発話音声の意味を把握する。詳しくは、後述するが、把握部43は、発話音声の中に、予め登録された文言が含まれているか否かを判断し、含まれていた場合は、この文言の意味を発話音声の意味の1つとする。
画像取得部44は、要素取得手段の一例および画像取得手段の一例であり、把握部43が把握した意味を現す表示要素を取得する。ここでは、表示要素として、把握部43が把握した意味に応じた画像を取得する。
【0030】
記憶部45は、上記意味と関連付けて画像取得部44が取得する画像を記憶する。また、記憶部45は、上記意味と関連付けて画像に対して行う処理の内容について記憶する。この処理の内容については、後述する。
配置部46は、配置手段の一例であり、取得した表示要素を配置し、聞き手が閲覧する表示画像とする。ここでは、配置部46は、把握した意味に応じて取得した画像を配置し、絵本とする。つまり、配置部46は、画像取得部44が取得した画像に対し、把握した意味に応じた所定の処理を行い、処理が行われた画像を配置して、絵本の絵を構成する。詳しくは、後述するが、絵本の絵は、背景に対し前景を重ね合わせることで行われる。
【0031】
送受信部41は、例えば、通信I/Fである。また、分離部42、把握部43、画像取得部44、配置部46の各機能は、例えば、CPUにより実現することができる。さらに、記憶部45は、例えば、HDDやSSD等の補助記憶装置を利用することで構築されたデータベースである。
【0032】
<表示システム1の動作の説明>
次に、第1の実施形態の表示システム1の動作について、より詳細に説明を行う。
図4は、第1の実施形態における表示システム1の動作の例について説明したフローチャートである。
まず、絵本の読み手が、携帯端末20aの入力部23を使用して専用アプリを操作し、発話音声を入力する。この発話音声は、音声取得部24が取得する(ステップ101)。
次に、読み手の携帯端末20aの送受信部21が、管理サーバ40に対し、発話音声の情報を、送信情報として送信する(ステップ102)。
【0033】
管理サーバ40では、送受信部41が、発話音声の情報を受信する(ステップ103)。これは、いったん記憶部45にて、記憶される。
次に、管理サーバ40の分離部42が、読み手の発話音声と聞き手の発話音声とを分離する(ステップ104)。つまり、絵本の読み聞かせをする際は、読み手の発話に対し、種々の反応を示すことが多い。例えば、読み手に絵本の内容について質問をしたり、絵本の内容に対する感想として、例えば、「すごい!」、「こわい!」などの音声を発することがある。本実施の形態では、分離部42は、読み手の発話音声だけを抽出するために、読み手の発話音声と聞き手の発話音声とを分離する。
【0034】
図5は、分離部42で読み手の発話音声と聞き手の発話音声とを分離する方法について示した図である。
ここで、縦軸は、聞き手の発話音声の音圧を1としたときの、読み手の発話音声の音圧を示している。この例では、聞き手の発話音声の音圧と読み手の発話音声の音圧との比は、4となっている。つまり、読み手は、携帯端末20aに向かい発話を行い、携帯端末20aと発声部位である口との距離は、非常に近い。対して、聞き手は、読み手のそばにいるものの、携帯端末20aに対して、比較的遠い位置にいる。そのため、この距離差に起因して、音圧に、この例では、4倍の差異が生じる。よって、音圧に閾値を設け、分離部42は、この閾値より大きい音圧が検出された場合は、読み手の発話音声と判断し、この閾値以下の音圧が検出された場合は、聞き手の発話音声と判断することができる。図示する例では、音圧として、2を閾値としている。
【0035】
図4に戻り、次に、把握部43が、分離部42で分離された読み手の発話音声の意味を把握する(ステップ105)。具体的には、把握部43は、既知の音声認識技術を使用し、音声を文字列に変換する。既知の音声認識技術は、例えば、隠れマルコフモデル(Hidden Markov Model)を用いた統計的手法や、動的時間伸縮法を用いることができる。
そして、把握部43は、変換された文字列の中に、予め登録され画像を特定する文言が含まれるか否かを調べる(ステップ106)。この文言は、単語でもよく、複数の単語から構成されているセンテンスでもよい。
その結果、含まれない場合(ステップ106でNo)、ステップ101に戻る。
対して、含まれる場合(ステップ106でYes)、画像取得部44は、記憶部45から、この文言に対応する画像を取得する(ステップ107)。
次に、配置部46は、読み手の発話音声の中に、予め登録され画像取得部44が取得した画像の特徴を表す特徴情報が含まれるか否かを調べる(ステップ108)。
その結果、含まれない場合(ステップ108でNo)、ステップ110に進む。
対して、含まれる場合(ステップ108でYes)、配置部46は、この画像に対しこの特徴に合わせる処理を行う(ステップ109)。
【0036】
図6(a)~(b)は、第1の実施形態で用いられる記憶部45のデータ構造を示した図である。
図示するように、記憶部45に記憶されるデータのデータ構造は、
図6(a)に示す画像情報に対するデータ構造と、
図6(b)に示す特徴情報に対するデータ構造の2種類が存在する。ここで「特徴情報」は、絵本に登場するものを特徴付ける情報である。
図6(a)に示す画像情報に対するデータ構造は、
図4のステップ106~ステップ107で使用される。このデータ構造は、No.文言、属性、画像の4つからなる。このうち、「No.」は、各文言毎に付与される番号である。また、「文言」は、ステップ106で述べた予め登録された文言である。さらに、「属性」は、画像の属性であり、背景であるか前景であるかの何れかを示す。そして、「画像」は、画像のデータが格納されるファイルのファイル名を示す。
【0037】
また、
図6(b)に示す特徴情報に対するデータ構造は、
図4のステップ108~ステップ109で使用される。このデータ構造は、No.文言、処理の3つからなる。このうち、「No.」は、各文言毎に付与される番号である。また、「文言」は、ステップ106で述べた予め登録された文言である。さらに、「処理」は、画像に対して行う処理の内容を示す。
【0038】
図4のステップ106において、把握部43は、変換された文字列の中に、
図6(a)に挙げた文言が存在するか否かを調べる。そして、存在した場合、画像取得部44は、ステップ107において、この文言に対応する画像を取得する。
図6(a)で図示した例は、例えば、文言として、「森」、「空」等が登録される。そして、森を表す画像として、「□×◇.jpg」のファイル名で示す画像のデータが用意され、空を表す画像として、「○×△.jpg」のファイル名で示す画像のデータが用意される。
【0039】
また、
図4のステップ108において、配置部46は、変換された文字列の中に、
図6(b)に挙げた文言が存在するか否かを調べる。そして、存在した場合、配置部46は、ステップ109において、この画像に対し、この特徴に合わせる処理を行う。
図6(b)で図示した例は、例えば、文言として、「大きい」、「小さい」等が登録される。そして、文言として「大きい」が存在したときは、対応する画像を拡大する。対して、文言として「小さい」が存在したときは、対応する画像を縮小する。また、例えば、「3匹」などの「数字+匹(ひき)」の組み合わせの場合は、動物等の画像の数を3匹になるように増減する。さらに、文言として、例えば、「走る」が存在したときは、対応する画像を速く動かし、走る様を表す。またさらに、文言として、例えば、「青い」が存在したときは、対応する画像を青色に着色する。
【0040】
再び
図4に戻り、次に、配置部46は、画像を配置し、絵本とする(ステップ110)。
図7(a)~(c)は、配置部46が、画像を配置し、絵本とする処理について示した図である。なお、ここでは、読み手が、以下の文章を発話した場合を例に取り説明を行う。
――――――――――――――――――――――――――――――――――――――――
読み手:「深い深い森の中に、熊さんがいました。熊さんは、3匹いました。」
――――――――――――――――――――――――――――――――――――――――
【0041】
このうち、
図7(a)は、読み手の発話音声の中に、「森」の文言が存在した場合に、配置部46が森に対応する画像Gmを配置した状態を示している。「森」の文言は、
図6(a)に示すNo.1001の「森」の文言に合致するため、画像取得部44は、森の画像Gmを取得し、配置部46が森の画像Gmを配置する。これは、読み手が、「深い深い森の中に、」の発話をした場合が該当する。また、配置部46は、画像を配置するときに、
図6(a)で示した属性を考慮する。即ち、属性には、背景と前景があり、配置部46は、背景の画像と前景の画像とを区別して配置する。この場合、「森」の文言の属性は、背景であるため、配置部46は、森の画像Gmを背景として配置する。
【0042】
次に、
図7(b)は、読み手の発話音声の中に、「熊」の文言が存在した場合に、配置部46が熊に対応する画像Gkを配置した状態を示している。「熊」の文言は、
図6(a)に示すNo.1006の「熊」の文言に合致するため、画像取得部44は、熊の画像Gkを取得し、配置部46が熊の画像Gkを配置する。これは、読み手が、「深い深い森の中に、」の後に、「熊さんがいました。」の発話をした場合が該当する。このとき、上述した場合と同様に、配置部46は、画像を配置するときに、
図6(a)で示した属性を考慮する。この場合、「熊」の文言の属性は、前景であるため、配置部46は、熊の画像Gkを前景として配置する。具体的には、背景の森の画像Gmを隠すようにして、熊の画像Gkを重畳させて配置する。
【0043】
さらに、
図7(c)は、読み手の発話音声の中に、「3匹」の文言が存在した場合に、配置部46がこれに対応する画像を配置した状態を示している。この場合、「3匹」の文言は、
図6(b)に示すNo.5004の「数字+匹(ひき)」の文言に合致するため、配置部46は、熊の画像Gkを3匹になるように増加させ、3匹となった熊の画像Gkを配置する。これは、例えば、読み手が、「深い深い森の中に、熊さんがいました。」の後に、「熊さんは、3匹いました。」等の発話をした場合が該当する。
【0044】
図4に戻り、送受信部41は、配置部46が作成した絵本の情報を、聞き手の携帯端末20bに送信する(ステップ111)。本実施の形態では、
図7(a)~(c)に示した絵本の各画像が、順次送られる。
絵本の情報は、携帯端末20bの送受信部21が受信し(ステップ112)、表示部22にて、絵本が表示される(ステップ113)。この場合、聞き手は、読み手の音声として、「深い深い森の中に、熊さんがいました。熊さんは、3匹いました。」を聞きつつ、これに合わせて、
図7(a)~(c)の画像を順次見ることになり、絵本の読み聞かせをすることができる。
【0045】
なお、画像取得部44が、新たな背景の画像を取得したときは、絵本における新しいページとして扱うことができる。つまり、背景が新しくなったときは、今までのページとは、異なる場面であり、新たなページであるとみなすことができる。よって、配置部46は、新しいページを用意し、新たな背景上に前景の画像を配置する。即ち、これによりページめくりをすることができる。
【0046】
[第2の実施形態]
次に、第2の実施形態について説明を行う。第2の実施形態では、読み手の発話音声だけでなく、聞き手の発話音声を加えて、絵本の作成を行う。
図8は、第2の実施形態における表示システム1の機能構成例を示したブロック図である。
この表示システム1において、携帯端末20aおよび携帯端末20bとは、
図3に示した第1の実施形態における表示システム1と同様の機能構成を有し、送信情報の送受信を行う送受信部21と、画像の表示を行う表示部22と、情報を入力する入力部23と、発話音声を取得する音声取得部24とを備える。
一方、管理サーバ40は、分離部42が存在しないことを除き、第1の実施形態と同様の機能構成を有する。即ち、送受信部41と、把握部43と、画像取得部44と、記憶部45と、配置部46とを有する。
携帯端末20a、携帯端末20bおよび管理サーバ40の各機能部は、第1の実施形態と同様の動作を行う。
【0047】
図9は、第2の実施形態の表示システム1の動作の例について説明したフローチャートである。
図9に示したフローチャートのステップ201~ステップ212は、
図4に示したフローチャートのステップ101~ステップ103、ステップ105~ステップ113と同様である。即ち、ステップ104がないことを除き同様である。よって、第2の実施形態では、読み手の発話音声と聞き手の発話音声との分離を行わない。そして、双方の発話音声についてステップ204以降の処理を行うため、読み手の発話音声の意味のみならず、聞き手の発話音声の意味についても把握し、絵本の作成に反映させる。なお、
図5で示したように、聞き手の発話音声の音圧は、小さいため、聞き手の発話音声は、携帯端末20aではなく、携帯端末20bで取得するようにしてもよい。この場合、携帯端末20bは、聞き手が所持しており、携帯端末20aよりも、より近い距離に存在するため、より大きい音圧で発話音声を取得することができる。
【0048】
第2の実施形態では、把握部43は、読み手の発話音声だけでなく、さらに聞き手の発話音声の意味を把握し、画像取得部44は、把握部43が把握した聞き手の発話音声の意味に応じた画像を取得する。さらに、配置部46は、画像取得部44が、取得した画像を配置して絵本を作成する。
【0049】
この具体例を、再び
図7(a)~(c)を用いて説明する。この場合、読み手と聞き手との間に、次のような会話があった場合が該当する。
――――――――――――――――――――――――――――――――――――――――
読み手:「深い深い森の中に、熊さんがいました。」
聞き手:「何匹いるの?」
読み手:「3匹。」
――――――――――――――――――――――――――――――――――――――――
【0050】
この場合、読み手の「深い深い森の中に、熊さんがいました。」の発話音声により、配置部46は、
図7(a)~(c)に示す画像を配置する点は、第1の実施形態と同様である。
一方、第2の実施形態では、把握部43は、聞き手の発話音声の意味として、聞き手の「何匹いるの?」により、熊の数を質問していることを把握する。そして、次の読み手の「3匹。」がその回答であるとして、配置部46は、熊の画像を3匹になるように増加させ、3匹となった熊の画像を配置する。その結果、
図7(c)に示すような画像となる。
第2の実施形態の場合、読み手の発話音声のみならず、聞き手の発話音声を反映させて、絵本を作成することができる。
【0051】
[第3の実施形態]
次に、第3の実施形態について説明を行う。第3の実施形態では、絵本の中に登場するキャラクタが発話するときは、この発話音声を、聞き手の携帯端末20bで実際の音声として、出力するものである。
図10は、第3の実施形態における表示システム1の機能構成例を示したブロック図である。
この表示システム1において、管理サーバ40は、第1の実施形態と同様の機能構成を有する。即ち、送受信部41と、分離部42と、把握部43と、画像取得部44と、記憶部45と、配置部46とを有する。
一方、携帯端末20aおよび携帯端末20bとは、第1の実施形態に対し、音声出力部25が加わる点で異なる。
【0052】
音声出力部25は、管理サーバ40から送られ、表示画像の中に登場するキャラクタの発話音声を出力する。表示画像が絵本の場合、「キャラクタ」は、絵本の中に絵として登場するものである。キャラクタは、特に限られるものではなく、現実に存在するキャラクタでもよく、現実に存在しないキャラクタでもよい。また、現実に存在するキャラクタであっても、人や動物などのように実際に音声等を発する能力がある場合に限られるものではなく、この能力がないキャラクタに発話させてもよい。この例としては、昆虫、木・花等の植物、太陽・月などの天体、おもちゃ等が挙げられる。また、現実に存在しないキャラクタとしては、例えば、妖精、恐竜、怪物、神様、幽霊等が挙げられる。
【0053】
図11は、第3の実施形態の表示システム1の動作の例について説明したフローチャートである。
図11に示したフローチャートのステップ301~ステップ313は、
図4に示したフローチャートのステップ101~ステップ113と同様である。そして、新たにステップ314が加わる。ステップ314では、上述したように、絵本の中に登場するキャラクタの発話音声を出力する。
【0054】
この場合、読み手は、例えば、以下のような文章を発話する。
――――――――――――――――――――――――――――――――――――――――
読み手:「走りながら熊さんはこう言いました。まて~!」
――――――――――――――――――――――――――――――――――――――――
【0055】
この場合、把握部43は、読み手の発話音声の意味として、「熊さんはこう言いました。」により、絵本の中に登場するキャラクタの発話であることを把握する。この場合、キャラクタは、熊である。そして、送受信部41は、絵本の情報として、熊の発話音声をさらに聞き手の携帯端末20bに送る。その結果、ステップ314で述べたように、携帯端末20bでは、絵本の中に登場する熊の発話音声が出力される。具体的には、聞き手は、以下のような音声を聞く。
――――――――――――――――――――――――――――――――――――――――
読み手:「走りながら熊さんはこう言いました。まて~!」
携帯端末20b:「まて~!」
――――――――――――――――――――――――――――――――――――――――
【0056】
このとき、携帯端末20bで出力される発話音声は、予め用意していたものでもよく、合成音声であってもよい。また、読み手の発話音声を加工したものであってもよい。そして、この発話音声は、キャラクタのイメージに合致した声質で出力することが好ましい。例えば、熊の場合は、低い音声で出力する。また、妖精の場合は、高い音声で出力する。この場合、携帯端末20bで出力される発話音声を、読み手の発話音声を加工したものとする場合、元の発話音声に対し、周波数変換等を行うことで実現できる。
第3の実施形態の場合、聞き手は、携帯端末20bから、キャラクタの発話音声を聞くことができ、臨場感がより向上する。
【0057】
[第4の実施形態]
次に、第4の実施形態について説明を行う。第4の実施形態では、読み手は、予め定められた音声を読むことで発話を行う。つまり、絵本のストーリーは、読み手の創作や実物の本を読む等でもよいが、携帯端末20aに表示し、これを読み、発話するようにすれば、読み手の負担を軽減することができる。この場合、絵本のストーリーは、管理サーバ40に用意されている。
【0058】
第4の実施形態における表示システム1の機能構成例を示すブロック図は、
図3に示した第1の実施形態と同様であるので、ここでは説明を省略する。
【0059】
図12は、第4の実施形態の表示システム1の動作の例について説明したフローチャートである。
まず、絵本の読み手が、携帯端末20aの入力部23を使用して専用アプリを操作し、読み聞かせをする絵本を選択する(ステップ401)。これは、専用アプリが、管理サーバ40に保存されている絵本の一覧を表示し、この一覧から選択することで行うことができる。
次に、管理サーバ40の送受信部41が、絵本の文章であり、予め用意され、読み手が読む文章を読み手の携帯端末20aに対し出力する(ステップ402)。これにより、携帯端末20aの表示部22には、この文章が表示され、読み手は、これを絵本の文章として読む。
【0060】
以下のステップ403~ステップ415は、第1の実施形態で説明した
図4のステップ101~ステップ113と同様である。
【0061】
図13は、第4の実施形態で用いられる記憶部45のデータ構造を示した図である。
図示するデータ構造は、No.ページ、文言、属性、画像、処理の6つからなる。このうち、「No.」、「文言」、「属性」、「画像」、「処理」は、第1の実施形態において、
図6で説明した場合と同様である。また、「ページ」は、絵本のページ数を表す。
このデータ構造が用意される絵本のストーリーは、例えば、下記に示すような場合である。
――――――――――――――――――――――――――――――――――――――――
読み手:「深い深い森の中に、熊さんがいました。熊さんは、3匹いました。」
読み手:「そこに、少女が1人現れました。少女は驚き、逃げだしました。」
読み手:「そして、熊さんも少女を追って走りだしました。」
読み手:「走りながら熊さんはこう言いました。まて~!」
読み手:「町に逃げ戻った少女は、助けを求めました。」
――――――――――――――――――――――――――――――――――――――――
【0062】
この場合、読み手の発話内容は、決まっており、把握部43は、画像を特定する文言として、発話音声の中に、
図13に示した文言が登場するか否かを調べる。そして、その文言が登場したときに、画像取得部44は、ステップ409において、この文言に対応する画像を取得する。また、配置部46は、変換された文字列の中に、
図13に示した文言が登場するか否かを調べる。そして、その文言が登場したときに、配置部46は、ステップ411において、この画像に対し、この特徴に合わせる処理を行う。
【0063】
上述した文章の場合、
図13において、No.7001~No.7009で示す箇所に対応する。
ここでは、まず、
図7(a)~(c)に挙げた絵本が作成される。具体的には、
図7(a)~(c)で説明したように、文章1行目の「深い深い森の中に、熊さんがいました。熊さんは、3匹いました。」により、No.7001~No.7003が参照され、
図7(a)~(c)の絵本が作成される。即ち、配置部46は、「森」の文言により、背景として森の画像を配置する(
図7(a))。さらに、配置部46は、「熊」の文言により、前景として熊の画像を配置する(
図7(b))。そして、配置部46は、「3匹」の文言により、熊を3匹に増加させる(
図7(c))。
【0064】
図14(a)~(b)は、文章2行目以降に作成される絵本の例を示した図である。
この場合、文章2行目の「そこに、少女が1人現れました。少女は驚き、逃げだしました。」により、No.7004~No.7005が参照され、
図14(a)の絵本が作成される。そして、矢印Ysで示した方向に少女が速く移動する。即ち、配置部46は、「少女」の文言により、前景として少女の画像を配置する。そして、「逃げだしました」の文言により、逃げだす様子を表すように、矢印Ysで示した方向に少女を速く移動させる。
次に、文章3行目の「そして、熊さんも少女を追って走りだしました。」により、No.7006が参照され、矢印Ykで示した方向に熊が速く移動する。即ち、配置部46は、「走り出しました」の文言により、少女を追いかける様子を表すように、矢印Ykで示した方向に熊を速く移動させる。
【0065】
さらに、文章4行目の「走りながら熊さんはこう言いました。まて~!」により、No.7007が参照され、第3の実施形態で説明したように、聞き手の携帯端末20bに、「まて~!」という熊の発話音声が出力される。
そして、文章5行目の「町に逃げ戻った少女は、助けを求めました。」により、No.7008~No.7009が参照され、
図14(b)の絵本が作成される。即ち、配置部46は、「町」の文言により、背景として町の画像を配置する。なお、この場合、ページ数が1から2に変化するため、ページめくりがされた状態となる。そして、配置部46は、「少女」の文言により、前景として少女の画像を配置する。
第4の実施形態の場合、読み手は、携帯端末20aに表示される文章を読み上げるだけで、読み聞かせを行うことができ、読み手の負担を軽減することができる。
【0066】
[第5の実施形態]
次に、第5の実施形態について説明を行う。第5の実施形態の表示システム1では、管理サーバ40は、読み手の発話音声の意味に応じたテキストを取得し、取得したテキストを配置し、表示画像として文章にする。そして、聞き手は、携帯端末20bで、表示画像として文章を閲覧する。
図15は、第5の実施形態における表示システム1の機能構成例を示したブロック図である。
この表示システム1において、携帯端末20aおよび携帯端末20bとは、
図3に示した第1の実施形態における表示システム1と同様の機能構成を有する。即ち、携帯端末20aおよび携帯端末20bは、送信情報の送受信を行う送受信部21と、画像の表示を行う表示部22と、情報を入力する入力部23と、発話音声を取得する音声取得部24とを備える。これらの各機能部は、第1の実施形態と同様の動作を行う。
一方、管理サーバ40は、第1の実施形態に比較して、画像取得部44の代わりにテキスト取得部47が入る。また、第1の実施形態に比較して、把握部43、画像取得部44および記憶部45の動作が異なる。よって、以下、この事項を中心に説明を行う。
【0067】
把握部43は、読み手の発話音声の意味を把握する。この場合、音声認識等の手法により、読み手の発話音声の意味の全てを把握することが好ましい。
テキスト取得部47は、要素取得手段の一例であり、把握部43が把握した意味を現す表示要素を取得する。ここでは、表示要素として、把握部43が把握した意味に応じたテキストを取得する。
【0068】
記憶部45は、上記意味と関連付けて画像取得部44が取得するテキストを記憶する。
配置部46は、把握した意味に応じて取得したテキストを配置し、表示情報とする。つまり、配置部46は、画像取得部44が取得したテキストを配置して、文章を構成する。配置部46は、例えば、縦書き、横書き、改行等を考慮してテキストの配置を行い、文章とすることが好ましい。
【0069】
図16は、第5の実施形態の表示システム1の動作の例について説明したフローチャートである。
図16に示したフローチャートのステップ501~ステップ505は、
図4に示したフローチャートのステップ101~ステップ105と同様である。
ステップ506以降は、配置部46は、テキストを配置し、文章とする(ステップ506)。
そして、送受信部41は、配置部46が作成した文章の情報を、聞き手の携帯端末20bに送信する(ステップ507)。
文章の情報は、携帯端末20bの送受信部21が受信し(ステップ508)、表示部22にて、文章が表示される(ステップ509)。この場合も、文章の読み聞かせをすることができる。
【0070】
以上詳述した表示システム1によれば、第1の実施形態~第4の実施形態では、把握部43が、読み手の発話音声の意味を把握し、配置部46が、これに応じた絵を配置し、絵本を作成する。これにより、読み手が自由に話し、ストーリーを創作するような場合でも絵本が作成される。また、読み手は、コントローラのボタン等を押すような作業は必要なく、絵本の絵の変更、ページめくりなどが、いわば自動的に行われ、ストーリーが進行するため、読み手の負担が軽減される。またその結果、絵本となる読み手の話の内容に基づいて、聞き手の携帯端末等にリアルタイムで絵本の絵が表示されるので、聞き手は、読み手の発話音声を聞きながら、携帯端末等で臨場感あふれる絵本を楽しむことができる。また、第5の実施形態では、把握部43が、読み手の発話音声の意味を把握し、配置部46が、これに応じたテキストを配置し、文章を作成する。これにより、文章を基に読み聞かせを行うことができる。
また、それぞれが、携帯端末20を使用することで、読み聞かせを行う場所などの制限が緩和され、読み手や聞き手が、好きな場所で読み聞かせを行うことができる。さらに、それぞれが携行可能な携帯端末20を所持することで、利便性が向上する。
【0071】
また、以上詳述した形態では、表示システム1は、携帯端末20および管理サーバ40が、ネットワーク70、ネットワーク80、アクセスポイント90を介して接続されることにより構成されていたが、管理サーバ40だけでも表示システムであるとして捉えることができる。また、管理サーバ40で行う処理は、携帯端末20でも同様のことができる。よってこの場合は、携帯端末20を表示システムとして捉えることもできる。
【0072】
さらに、上述した例では、携帯端末20を使用する例を示したが、これに限られるものではない。例えば、携帯端末20の代わりに、デスクトップコンピュータやテレビを使用することもできる。
またさらに、上述した例では、読み手と聞き手とは、そばにいる場合について説明を行ったが、これに限られるものではなく、読み手と聞き手とが離れていてもよい。この場合、読み手の発話音声は、聞き手には直接届かない。そのため、読み手の発話音声は、携帯端末20aから管理サーバ40を介して聞き手の携帯端末20bに送られ、携帯端末20bに備えられたスピーカ等から出力する。これにより、読み手の発話音声を、聞き手が聞くことができる。またこのとき、携帯端末20bにおいて、絵本や文章の表示のみならず、携帯端末20aで撮影した読み手の映像を併せて表示するようにしてもよい。さらに、携帯端末20aにおいて、携帯端末20bで取得した聞き手の映像や、発話音声を出力するようにしてもよい。なおこの場合、読み手と聞き手の発話音声は、それぞれの携帯端末20a、20bだけで取得されるため、読み手の発話音声と聞き手の発話音声とを分離する分離部42は、不要になる場合がある。
【0073】
<プログラムの説明>
ここで、以上説明を行った本実施の形態における管理サーバ40が行う処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。そして、この処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、管理サーバ40に設けられたコンピュータ内部の図示しないCPUが、上述した各機能を実現するプログラムを実行し、これらの各機能を実現させる。
【0074】
よって、本実施の形態で、管理サーバ40が行う処理は、コンピュータに、読み手の発話音声を取得する音声取得機能と、読み手の発話音声の意味を把握する把握機能と、把握機能が把握した意味を現す表示要素を取得する要素取得機能と、取得した表示要素を配置し、聞き手が閲覧する表示情報とする配置機能と、を実現させるためのプログラムとして捉えることもできる。
また、本実施の形態で、管理サーバ40が行う処理は、コンピュータに、読み手の発話音声を取得する音声取得機能と、読み手の発話音声の意味を把握する把握機能と、把握機能が把握した意味に応じた画像を取得する画像取得機能と、意味に応じて取得した画像を配置し、絵本とする配置機能と、を実現させるためのプログラムとして捉えることもできる。
【0075】
なお、本実施の形態を実現するプログラムは、通信手段により提供することはもちろんCD-ROM等の記録媒体に格納して提供することも可能である。
【0076】
以上、本実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
【符号の説明】
【0077】
1…表示システム、20、20a、20b…携帯端末、40…管理サーバ、41…送受信部、42…分離部、43…把握部、44…画像取得部、45…記憶部、46…配置部、47…テキスト取得部