(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-15
(45)【発行日】2024-10-23
(54)【発明の名称】スマートリーディング機器およびその制御方法
(51)【国際特許分類】
G10L 13/00 20060101AFI20241016BHJP
G10L 13/02 20130101ALI20241016BHJP
【FI】
G10L13/00 100K
G10L13/02 110B
(21)【出願番号】P 2021183859
(22)【出願日】2021-11-11
(62)【分割の表示】P 2020067406の分割
【原出願日】2020-04-03
【審査請求日】2023-04-03
(31)【優先権主張番号】10-2019-0077392
(32)【優先日】2019-06-27
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2019-0156138
(32)【優先日】2019-11-28
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】朴 志晞
(72)【発明者】
【氏名】慎 彗恩
(72)【発明者】
【氏名】姜 東漢
(72)【発明者】
【氏名】崔 升範
【審査官】山下 剛史
(56)【参考文献】
【文献】米国特許出願公開第2013/0168954(US,A1)
【文献】特開2008-83289(JP,A)
【文献】特開2015-69337(JP,A)
【文献】国際公開第2013/111278(WO,A1)
【文献】米国特許第6115482(US,A)
【文献】米国特許第9472113(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
B42D 15/00
G06K 9/00
(57)【特許請求の範囲】
【請求項1】
コンピュータ装置によって実現されるスマートリーディング機器で実行されるスマートリーディング制御方法であって、
前記スマートリーディング機器は、カメラ、照明、およびスピーカが結合されたスタンド型デバイスであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記スマートリーディング制御方法は、
前記少なくとも1つのプロセッサにより、前記カメラを利用して、前記カメラが撮影した印刷物のテキストを認識する段階、
前記少なくとも1つのプロセッサにより、前記認識されたテキストを音声発話して読み上げる機能を提供する段階、および
前記少なくとも1つのプロセッサにより、前記スマートリーディング機器に備えられた照度センサまたは前記カメラ内に備えられたセンサから取得した周辺情報に基づき、前記照明の明るさを調節する段階
を含
み、
前記照明は、1つ以上のLEDを配置して構成され、
前記照明の明るさを調節する段階は、
前記印刷物を撮影しているときに光反射が発生した場合、光反射の発生を防ぐために、特定の位置のLEDをOFFにするかLEDの明るさを調節する段階
を含む、スマートリーディング制御方法。
【請求項2】
コンピュータ装置によって実現されるスマートリーディング機器で実行されるスマートリーディング制御方法であって、
前記スマートリーディング機器は、カメラ、照明、およびスピーカが結合されたスタンド型デバイスであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記スマートリーディング制御方法は、
前記少なくとも1つのプロセッサにより、会話基盤インタフェースによってユーザの音声命令を認識する段階、
前記少なくとも1つのプロセッサにより、前記カメラを利用して、前記カメラが撮影した印刷物のテキストを認識する段階、
前記少なくとも1つのプロセッサにより、前記認識されたテキストを音声発話して読み上げる機能を提供する段階、および
前記少なくとも1つのプロセッサにより、音声分析によって現在のユーザを把握し、現在のユーザによって前記照明の色温度を調節する段階
を含む、スマートリーディング制御方法。
【請求項3】
前記照明の色温度を調節する段階は、
年代別に前記照明の色温度を調節する段階
を含む、請求項2に記載のスマートリーディング制御方法。
【請求項4】
コンピュータ装置によって実現されるスマートリーディング機器であって、
カメラ、照明、およびスピーカが結合されたスタンド型デバイスで構成され、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記少なくとも1つのプロセッサは、
前記カメラを利用して、前記カメラが撮影した印刷物のテキストを認識する過程、
前記認識されたテキストを音声発話して読み上げる機能を提供する過程、および
前記スマートリーディング機器に備えられた照度センサまたは前記カメラ内に備えられたセンサから取得した周辺情報に基づき、前記照明の明るさを調節する過程
を処理
し、
前記照明は、1つ以上のLEDを配置して構成され、
前記照明の明るさを調節する過程は、
前記印刷物を撮影しているときに光反射が発生した場合、光反射の発生を防ぐために、特定の位置のLEDをOFFにするかLEDの明るさを調節する過程
を含む、スマートリーディング機器。
【請求項5】
コンピュータ装置によって実現されるスマートリーディング機器であって、
カメラ、照明、およびスピーカが結合されたスタンド型デバイスで構成され、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記少なくとも1つのプロセッサは、
会話基盤インタフェースによってユーザの音声命令を認識する過程、
前記カメラを利用して、前記カメラが撮影した印刷物のテキストを認識する過程、
前記認識されたテキストを音声発話して読み上げる機能を提供する過程、および
音声分析によって現在のユーザを把握し、現在のユーザによって前記照明の色温度を調節する過程
を処理する、スマートリーディング機器。
【発明の詳細な説明】
【技術分野】
【0001】
以下の説明は、本を読み上げる技術に関する。
【背景技術】
【0002】
乳幼児や低学年児童のような低年齢の学習者のために、本を読み上げる技術が提案されている。
【0003】
例えば、特許文献1(登録日2004年01月02日)には、静電誘導方式を利用し、問題集に印刷された学習内容(文字や絵など)にライトペンを接触させると、接触位置に該当する関連の学習内容が音声で出力される技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
カメラ、照明、およびスピーカが結合された、スタンドタイプのスマートリーディング機器を提供する。
【0006】
本をスキャンして認識されたテキストを音声で発話する、スマートリーディング機器およびその制御方法を提供する。
【0007】
選択された声によって本を読み上げる、スマートリーディング機器およびその制御方法を提供する。
【0008】
本を多様な言語に翻訳して読み上げる、スマートリーディング機器およびその制御方法を提供する。
【0009】
楽譜をスキャンして多様な楽器の演奏を提供する、スマートリーディング機器およびその制御方法を提供する。
【0010】
被保護者のリアルタイムモニタリングと、保護者と被保護者のコミュニケーションを提供する、スマートリーディング機器およびその制御方法を提供する。
【0011】
映像撮影を利用して映像コンテンツを作成する、スマートリーディング機器およびその制御方法を提供する。
【課題を解決するための手段】
【0012】
多様な実施形態によると、カメラ、照明、およびスピーカが結合されたスマートリーディング機器の動作方法は、ユーザの命令に基づき、前記カメラに入力される映像を取得する段階、前記取得された映像から印刷物のページを検出する段階、前記検出されたページからテキストを認識する段階、および前記認識されたテキストに対する音声を前記スピーカから発話する段階を含む。
【0013】
多様な実施形態によると、スマートリーディング機器は、カメラ、照明、およびスピーカ、並びに前記カメラ、照明、およびスピーカと連結し、ユーザの命令に基づき、前記カメラに入力される映像を取得するように構成される少なくとも1つのプロセッサを含み、前記プロセッサは、前記取得された映像から印刷物のページを検出し、前記検出されたページからテキストを認識し、前記認識されたテキストに対する音声を前記スピーカから発話するように構成される。
【発明の効果】
【0014】
本発明の実施形態によると、カメラ、照明、およびスピーカが結合されたスマートリーディング機器を提供することができる。
【0015】
本発明の実施形態によると、本をスキャンして認識されたテキストを音声で発話することができる。
【0016】
本発明の実施形態によると、選択された声によって本を読み上げることができる。
【0017】
本発明の実施形態によると、本を多様な言語に翻訳して読み上げることができる。
【0018】
本発明の実施形態によると、楽譜をスキャンして多様な楽器の演奏を提供することができる。
【0019】
本発明の実施形態によると、被保護者のリアルタイムモニタリングと、保護者と被保護者とのコミュニケーションを提供することができる。
【0020】
本発明の実施形態によると、映像撮影を利用して映像コンテンツを作成することができる。
【図面の簡単な説明】
【0021】
【
図1】多様な実施形態における、コンピュータ装置の内部構成の一例を説明するためのブロック図である。
【
図2】多様な実施形態における、スマートリーディング機器を例示的に示した斜視図である。
【
図3】
図1のプロセッサの構成を詳しく示した図である。
【
図4】一実施形態における、クラウド人工知能プラットフォームの例を示した図である。
【
図5】第1実施形態における、スマートリーディング機器の動作方法を示したフローチャートである。
【
図6a】
図5のユーザ命令を認識する段階を示したフローチャートである。
【
図6b】
図5の映像を取得する段階を説明するための図である。
【
図7】第1実施形態における、スマートリーディング機器の設定段階を示したフローチャートである。
【
図8】
図5の読み上げ機能を提供する段階を示したフローチャートである。
【
図9a】
図5の読み上げ機能を提供する段階を説明するための図である。
【
図9b】
図5の読み上げ機能を提供する段階を説明するための図である。
【
図9c】
図5の読み上げ機能を提供する段階を説明するための図である。
【
図9d】
図5の読み上げ機能を提供する段階を説明するための図である。
【
図10a】
図8のテキストを認識する段階を説明するための図である。
【
図10b】
図8のテキストを認識する段階を説明するための図である。
【
図10c】
図8のテキストを認識する段階を説明するための図である。
【
図10d】
図8のテキストを認識する段階を説明するための図である。
【
図11】
図8の音声を発話する段階を示したフローチャートである。
【
図12】
図8の音声を発話する段階を示したフローチャートである。
【
図13a】
図8のページめくりを検出する段階を説明するための図である。
【
図13b】
図8のページめくりを検出する段階を説明するための図である。
【
図14】第2実施形態における、スマートリーディング機器の動作方法を示したフローチャートである。
【
図15】第3実施形態における、スマートリーディング機器の動作方法を示したフローチャートである。
【
図16】第4実施形態における、スマートリーディング機器の動作方法を示したフローチャートである。
【発明を実施するための形態】
【0022】
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
【0023】
本発明の実施形態は、本を読み上げる技術に関する。
【0024】
本明細書において具体的に開示される事項を含む実施形態は、カメラ、照明、およびスピーカが結合されたスマートリーディング機器においてすべての本をスキャンし、ユーザが希望する声で本を読み上げてくれる、スマートリーディング機器を提供する。
【0025】
図1は、多様な実施形態における、コンピュータ装置の例を示したブロック図である。例えば、本発明の実施形態に係るスマートリーディング機器は、
図1に示されたコンピュータ装置100によって実現されてよい。
【0026】
図1に示すように、コンピュータ装置100は、本発明の実施形態に係るスマートリーディング制御方法を実行するための構成要素として、メモリ110、プロセッサ120、通信インタフェース130、および入力/出力インタフェース140を含んでよい。
【0027】
メモリ110は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ110とは区分される別の永続的記録装置としてコンピュータ装置100に含まれてもよい。また、メモリ110には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ110とは別のコンピュータ読み取り可能な記録媒体からメモリ110にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース130を通じてメモリ110にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク160を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置100のメモリ110にロードされてよい。
【0028】
プロセッサ120は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ110または通信インタフェース130によって、プロセッサ120に提供されてよい。例えば、プロセッサ120は、メモリ110のような記録装置に記録されたプログラムコードに従って受信される命令を実行するように構成されてよい。
【0029】
通信インタフェース130は、ネットワーク160を介してコンピュータ装置100が外部機器、例えば、サーバ170と互いに通信するための機能を提供してよい。一例として、コンピュータ装置100のプロセッサ120がメモリ110のような記録装置に記録されたプログラムコードに従って作成した要求や命令、データ、ファイルなどが、通信インタフェース130の制御に従ってネットワーク160を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データファイルなどが、ネットワーク160を経てコンピュータ装置100の通信インタフェース130を通じてコンピュータ装置100に受信されてよい。通信インタフェース130を通じて受信された信号や命令、データなどは、プロセッサ120やメモリ110に伝達されてよく、ファイルなどは、コンピュータ装置100がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
【0030】
入力/出力インタフェース140は、入力/出力装置150とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、またはマウスなどの装置を含んでよく、出力装置は、ディスプレイやスピーカのような装置を含んでよい。他の例として、入力/出力インタフェース140は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置150は、コンピュータ装置100と1つの装置で構成されてもよい。
【0031】
また、他の実施形態において、コンピュータ装置100は、
図1の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置100は、上述した入力/出力装置150のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。
【0032】
通信方式が限定されることはなく、ネットワーク160が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離有線/無線通信が含まれてもよい。例えば、ネットワーク160は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク160は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
【0033】
図2は、多様な実施形態における、スマートリーディング機器を例示的に示した斜視図である。
【0034】
図2を参照すると、本発明の実施形態に係るスマートリーディング機器200は、
図1に示されたコンピュータ装置100によって実現されてよく、カメラ201、照明202、およびスピーカ204が結合されたスタンド型デバイスで構成されてよい。また、本や楽譜のような物体を載置するパッド、あるいは読書スタンド形態の追加の構成(図示せず)がともに備えられてもよい。
【0035】
カメラ201と照明202が含まれるヘッド部分203は、手動あるいは自動で回転可能な構造物を追加で備えてよく、一例として、X軸、Y軸、およびZ軸のうちの少なくとも2つ以上の軸を中心に回転可能な構造により、カメラ201と照明202が下を向くように回転するか、あるいは定められた場所(例えば、ユーザの顔や動きが認識された位置、ユーザがデバイスと連結するアプリによって指定した位置など)を向くように回転してよい。
【0036】
照明202は、1つ以上のLEDを配置して構成されてよい。このとき、照明202は、それぞれのLEDのON/OFF、または明るさや色温度の調節を可能とし、必要によって適切な照明を提供してよい。
【0037】
例えば、カメラ201が本を撮影しているときに光反射が発生した場合、特定の位置のLEDをOFFにするか明るさを調節することにより、光反射の発生を防いでよい。
【0038】
カメラ201は、ヘッド部分に1つが位置するように図に示されているが、この位置に限定されることはなく、必要によって2つ以上のカメラが備えられてもよく、スタンドの本体部分にカメラが位置してもよい。
【0039】
本実施形態において、スマートリーディング機器200は、音声入力を受けるためのマイク(図示せず)、映像入力を受けるためのカメラ201、音声を出力するためのスピーカ204を入力/出力装置150として基本的に含んでよい。場合によっては、スマートリーディング機器200とのインタフェースのための手段として、ディスプレイ(図示せず)や入力ボタンなどがさらに含まれてもよい。
【0040】
本発明の一実施形態に係るスマートリーディング機器200は、本などの印刷物を読み上げる機能(読書機能)を提供する。スマートリーディング機器200は、イメージを認識し、該当のページに該当する音源を再生してよい。適切な音源がない場合には、ページ内のテキストを認識し、音声合成技術を利用して該当のテキストの内容を音声で出力してよい。このとき、文章の感情を分析したり、誰を話者するかを把握したりすることにより、自然な合成音声が提供されるようにしてよい。
【0041】
この他にも、本発明に係るスマートリーディング機器200は、楽譜演奏機能、コミュニケーション機能、コンテンツ作成機能など、ユーザのための多様な機能を提供してよい。
【0042】
本発明に係るスマートリーディング機器200は、ユーザの活動を記録および管理してよい。これを利用することにより、ユーザの趣向や行動パターンを把握し、ユーザにより適したコンテンツの提供が可能となる。
【0043】
さらに、スマートリーディング機器200は、音声基盤のインタフェースを利用し、ユーザの発話によって入力される音声入力に含まれるユーザ命令(以下、「音声命令」と称する)を処理することのできる人工知能(AI)秘書サービス機能を含んでよい。
【0044】
スマートリーディング機器200は、ユーザの音声命令を直接に認識および分析して音声命令に適した動作を実行してユーザ命令を処理してもよいが、実施形態によっては、ユーザの音声命令に対する認識や認識された音声命令の分析、ユーザに提供される音声の合成などの処理を、スマートリーディング機器200と連係する外部のプラットフォームで実行してもよい。
【0045】
本発明に係るスマートリーディング機器は、照明機能を提供してよい。ユーザは、ボタン、音声入力、またはスマートリーディング機器を制御する個別のアプリなどを利用してスマートリーディング機器の照明202を制御してよい。また一実施形態によると、スマートリーディング機器は、周辺環境に適した明るさや色温度などの照明設定を自動で調節してもよく、あるいは予め設定された多様な照明モードをユーザに提供してもよい。
【0046】
具体的な例として、現在時刻や位置によって照明を調節してよい。例えば、位置によって日が当たる時間が異なることを考慮し、明るい時間帯と暗い時間帯の照明の明るさを異ならせてよい。また、年代別に好みの色温度が異なることもあるため、音声分析によって現在のユーザを把握して色温度を調節してもよい。また、照度センサを追加で備えて情報を取得したり、カメラ内に備えられたセンサ情報を活用したりし、入力される情報によって照明を調節してもよい。例えば、周辺が明るい場合には照明は暗くなるように、周辺が暗い場合には照明は明るくなるように自動で設定してよい。さらに、カメラ入力映像から周辺環境情報を取得して状況に適した照明を提供してもよい。例えば、入力される映像から、周辺は明るいか暗いか、何人の人物がいるか、人物はどのような行動をしているかなどを分析し、該当の状況に適した照明を設定してよい。
【0047】
ユーザは、自動照明調整機能を使用するか否かを個別に設定してよい。照明自動モードがonになっている場合には現在の周辺の明るさを感知し、暗ければ適正モードによって自動で照明が点くようにしてよい。
【0048】
スマートリーディング機器200は、少なくとも1つ以上の照明モード(例えば勉強(学習)モード、読書モード、クリエイトモード、就寝(ムード)モード、冥想モードなど)を提供してよい。
【0049】
それぞれの照明モードでは、該当のモードで実行される動作に適した色温度および/または明るさの照明を提供してよい。例えば、勉強モードは、算数や数学などの問題に取り掛かるのに適した環境であって、適切な色温度として6500~6900Kが設定されてよく、読書モードは、童話を読んだり英語を暗記したりするなど言語を読むために適した環境であって、適切な色温度として4500~4900Kが設定されてよく、クリエイトモードは、絵を描くなどの創造的な活動に適した環境であって、適切なとして色温度2600~2900Kが設定されてよく、就寝モードは、睡眠に適した環境であって、適切な色温度として2200~2800Kが設定されてよい。明るさ調節も、それぞれのモードに対して適した値が設定されてよい。各モードの色温度、および明るさ/照度値の好ましい事例については、下記の表1に示した。
【0050】
【0051】
また、照度センサを利用して周辺照度の明るさを調節する場合、これによって設定される各モード別の照明の一例については、下記の表2に示した。
【0052】
【0053】
図3は、
図1のプロセッサの構成を詳しく示した図である。
【0054】
図3を参照すると、プロセッサ120は、ビジョン(vision)モジュール310、文字認識モジュール320、文章分析モジュール330、音声処理モジュール340、または会話処理モジュール350のうちの少なくともいずれか1つを備えてよい。
【0055】
ビジョンモジュール310は、映像から印刷物のページを検出してよい。
【0056】
この後、ビジョンモジュール310は、検出されたページを識別してよい。
【0057】
ビジョンモジュール310は、検出されたページからイメージを取得し、検出されたページのイメージに基づいてデータベースを検索してよい。例えば、ビジョンモジュール310は、ディープラーニング(deep learning)によるイメージ検索(image retrieval:IR)技術を利用し、少なくとも1つの印刷物の各ページに対する少なくとも1つのイメージが記録されているデータベースを検索し、該当のページに関する情報が予め記録されているかを確認してよい。このとき、データベースには、各ページのイメージに対応して予め設定された音源がマッピングされて記録されていてよい。
【0058】
データベースは、スマートリーディング機器200内部のメモリ110および/またはスマートリーディング機器200の外部機器、例えば、サーバ170やプラットフォームに記録されていてよい。
【0059】
このような方式を利用することにより、該当のページに対応する音源ファイルが既に存在する場合には、テキストを認識して音声化しなくても、該当のページに対応する音をユーザに迅速に提供することが可能となる。さらに、ページイメージおよびこれに対応する音源ファイルをデータベースに追加するだけで、提供可能なコンテンツの幅を手軽に拡張することが可能となる。
【0060】
本発明の一実施形態によると、検出されたページに該当する情報がデータベース内に記録されているかを確認するために、データベース内に記録されたイメージとの類似度検索を実行してよい。例えば、ビジョンモジュール310は、データベースに記録されたイメージと検出されたページイメージとの類似度を計算し、類似度が最も高いイメージを選択してよい。最も類似するイメージが予め定められた閾値以上の類似度を満たせば、検出されたページのイメージとデータベースのイメージは同じ印刷物の同じページを撮影したものと見なしてよく、したがって、該当のイメージに関する情報は、検出されたページに該当するページ情報として識別してよい。このとき、最も類似するイメージであったとしても、予め定められた閾値を超過しない場合には、データベース内には検出されたページに該当する情報が存在しないと判断してよい。
【0061】
印刷物を特定しなくても、該当のページがどの印刷物のどのページであるかを検索するためには、イメージ検索を迅速かつ正確に実行する必要がある。本発明の実施形態によると、類似度検索のための特徴(feature)を抽出するためのモデルの一例として、
図9bに示すようなCGD(combination of multiple global descriptors)フレームワーク901が利用されてよい。
【0062】
CGDフレームワーク901は、1つのバックボーンCNNで多様な方法によってグローバルディスクリプタ(global descriptor)を作成し、これを組み合わせて類似度用のベクトルとして使用する方法である。ドメインに適したモデルでファインチューニング(fine tuning)するために分類ロス(classification loss)とランキングロス(ranking loss)をともに使用して一度に学習し、多様なグローバルディスクリプタを組み合わせて使用できることから、実行速度が速い上に高い性能を出すことができる。
【0063】
図9bを参照しながらより具体的に説明すると、CGDフレームワーク901は、メインモジュール910と補助モジュール920を含んでよい。メインモジュール910は、畳み込みニューラルネットワーク(CNN:convolution neural network)から抽出された互いに異なる複数のグローバルディスクリプタ(global descriptor:GD)GD 1、・・・、GD Nからイメージ表現(image representation)のランキングロス(ranking loss)を学習してよい。ここで、メインモジュール910は、グローバルディスクリプタGD 1、・・・、GD NをFCレイヤとL2レイヤに基づいてそれぞれ学習し、それぞれの学習結果を結合させてイメージ表現のランキングロスを学習してよい。補助モジュール920は、グローバルディスクリプタGD 1、・・・、GD Nのうちのいずれか1つからイメージ表現の分類ロス(classification loss)を学習してよい。ここで、補助モジュール920は、グローバルディスクリプタGD 1、・・・、GD Nのうちのいずれか1つをBNレイヤとFCレイヤに基づいて学習してイメージ表現の分類ロスを学習してよい。このとき、グローバルディスクリプタGD 1、・・・、GD Nは、グローバルプーリング技法(global pooling method)によって作成され、例えば、コンボリューションの合計プーリング(SPoC:sum pooling of convolution)、コンボリューションの最大活性化(MAC:maximum activation of convolution)、一般化平均プーリング(GeM:generalized-mean pooling)を含んでよい。本発明の一実施形態によると、本検索においては、GeMを単独で使用することが好ましい。
【0064】
文字認識モジュール320は、検出されたページからテキストを認識してよい。例えば、文字認識モジュール320は、OCR(optical character reader)技術によって検出されたページに含まれるテキストを認識してよい。
【0065】
OCR技術を利用して本の読み上げを提供するにあたり、本などの印刷物ではページ内においてテキストの配置が多様であり、どの部分をどのように、どのような順で読み上げなければならないかということが問題になることがある。
【0066】
図9cは、本発明の一実施形態における、本の読み上げに適した文字認識モジュール320の内部プロセスを説明した図である。図を参照すると、文字認識モジュール320は、イメージが入力されると、ディープラーニング基盤の文字検出モデルにより、イメージ内に含まれる文字がイメージ内のどの部分に位置するかを検出(Text Detection)してよい。このように検出された部分に対し、ディープラーニング基盤の文字認識モデルにより、どのような文字であるかを文字認識(Text Recognition)してよい。このとき、曲線や回転文字などのような多様な方向のテキスト認識や、多様な角度から本が入ってくることもあるため、文字を検出しながら文字の方向も同時に推定するようにしてよい。
図9dでは、ページ別にテキストを認識し、文字方向を認識した結果の一例を示している。
【0067】
認識されたテキスト間の距離を利用してクラスタリング(Text Clustering)することにより、1つ以上のグループを決定してよい。例えば、DBSCANに基づき、より近くに位置するOCR結果のテキスト同士が同じグループになるようにクラスタリングを実行してよい。
【0068】
これに基づき、線形回帰(Line regression)基盤のソーティング(Sorting)モデルを利用して読み上げ順を決定(Text Sorting)してよい。すなわち、入力映像において、ページの折れ曲がりによって文字の配列が曲線に見えたとしても、各単語を本来の順のとおりに読み上げることができるように、各列の多項式を回帰して単語の順序を定めてよい。
【0069】
また、韓国語/日本語/英語などのような多様な言語に対して、各言語別の個別のモデルではなく言語統合単一モデルが利用されてよく、このような方式を利用することにより、ページ内に多様な言語が混在する図書の読み上げも可能にすることができる。
【0070】
必要によって、実際に読み上げる必要のない文字は、後処理作業によって除外されてよい。例えば、本のページ番号、背景に使用された文字、本の内容とは関係のない書籍情報などの内容は、テキストとして認識されたとしても除外されてよい。
【0071】
文字認識モジュール320の結果をそのまま合成してユーザに提供する場合、ページ内の内容が長い場合には、音声合成に時間がかかるという問題が起こることもある。このような問題を解決するために、自然な読み上げ機能を実行するための文章分析モジュール330が追加で使用されてよい。
【0072】
文章分析モジュール330は、認識されたテキストを分析し、各文章を、自然に区切って読み上げることのできる意味単位に区分してよい。さらに、各文章の感情を分析してよい。このために、文章分析モジュール330は、テキストを分析してよい。このとき、文章分析モジュール330は、テキストを各文章に区分してよい。ここで、文章分析モジュール330は、文章の符号や分かち書きなどに基づいて文章を区分してよい。また、文章分析モジュール330は、テキストを校正してよい。このとき、文章分析モジュール330は、予め設定された規則に基づいて各文章を校正してよい。さらに、文章分析モジュール330は、各文章内の少なくとも1つの単語の意味、各文章と隣接する文章との文脈、または隣接する文章内の少なくとも1つの単語の意味に基づき、各文章の感情を分析してよい。
【0073】
例えば、文章分析モジュール330は、各文章の感情を肯定、否定、および中立に分類してよく、肯定の感情は感動と喜びの間で追加分類し、不定の感情は悲しみ、怒り、および苛立ちの間で追加分類してもよい。一例として、ある文章が「むかっ」、「しかめながら」、「かっと怒って」、または「怒鳴った」のうちの少なくともいずれか1つを含む場合、文章分析モジュール330は、該当の文章の感情を否定に分類してよい。これにより、文章分析モジュール330は、各文章に対して該当の文章の感情を示す音声タグを付与してよい。
【0074】
本発明の一実施形態によると、文章を感情分析するためのディープラーニングモデルを利用してよい。感情分析のためのモデルは、多数の文章および該当の文章の感情情報を利用して学習されてよい。学習されたモデルは、入力された文章の感情が肯定/中立/否定となるそれぞれの確率を計算し、このうち最も高い確率の感情を該当の文章の感情として選択してよい。
【0075】
音声処理モジュール340は、認識されたテキストに対応する音声を合成してよい。音声処理モジュール340は、認識されたテキストに音声タグを反映し、音声を合成してよい。このとき、音声処理モジュール340は、各文章に対して音声タグを反映し、音声を合成してよい。ここで、音声タグは、文章の類型、話者、または感情のうちの少なくともいずれか1つを示してよい。これにより、音声処理モジュール340は、該当の文章の類型、該当の文章の話者、または該当の文章の感情に基づき、各文章の音声を合成してよい。例えば、音声処理モジュール340は、NES(natural end-to-end speech synthesis system)技術によって自然な音声を合成してよい。
【0076】
会話処理モジュール350は、ユーザの音声命令を認識してよい。このとき、会話処理モジュール350は、音声命令に基づいてユーザを識別してよい。会話処理モジュール350は、音声命令に基づいてユーザの性別や年齢などを区分してよい。さらに、会話処理モジュール350は、音声命令に基づいてユーザが一個人であることを特定してよい。例えば、複数のユーザが予め登録されている場合、会話処理モジュール350は、音声命令に基づき、登録されたユーザのうちから1人を選択してよい。
【0077】
図4は、一実施形態における、クラウド人工知能プラットフォームの例を示した図である。
図4を参照すると、スマートリーディング機器200は、クラウド人工知能プラットフォーム420と連係して実現されてよい。プロセッサ120の構成要素のうちの少なくともいずれか1つが、クラウド人工知能プラットフォーム420に実現されてよい。上述したプロセッサ120のビジョン(vision)モジュール310、文字認識モジュール320、文章分析モジュール330、音声処理モジュール340、または会話処理モジュール350のうちの少なくともいずれか1つが、クラウド人工知能プラットフォーム420に実現されてよい。
【0078】
スマートリーディング機器200や該スマートリーディング機器200においてインストールされて実行されるアプリケーション(以下、アプリと称する)は、インタフェースコネクト440を介してクラウド人工知能プラットフォーム420と連係してよい。ここで、インタフェースコネクト440は、スマートリーディング機器200やスマートリーディング機器200においてインストールされて実行されるアプリの開発のためのSDK(Software Development Kit)および/または開発文書を開発者に提供してよい。また、インタフェースコネクト440は、スマートリーディング機器200やスマートリーディング機器200においてインストールされて実行されるアプリが、クラウド人工知能プラットフォーム420が提供する機能を活用することのできるAPI(Application Program Interface)を提供してよい。具体的な例として、開発者は、インタフェースコネクト440が提供するSDK(Software Development Kit)および/または開発文書を利用して開発した機器やアプリは、インタフェースコネクト440が提供するAPIを利用してクラウド人工知能プラットフォーム420が提供する機能を活用することが可能となる。
【0079】
拡張キット450は、コンテンツサービス430、例えば、第三者コンテンツ開発者または会社がクラウド人工知能プラットフォーム420に基づいて新たな音声基盤機能を実現することのできる開発キットを提供してよい。以下、スマートリーディング機器およびその制御方法の具体的な実施形態について説明する。
【0080】
スマートリーディング機器200は、動作モードごとに異なるように動作してよい。
【0081】
読書モードにおいて、スマートリーディング機器200は、印刷物に基づき、読み上げ機能をユーザに提供してよい。一実施形態によると、スマートリーディング機器200は、カメラ201に入力された映像に含まれる印刷物に基づき、読み上げ機能をユーザに提供してよい。
【0082】
また、スマートリーディング機器200は、ユーザの読書記録および/またはユーザが属するグループ、例えば、年齢、性別、性格などによるグループの読書記録を分析し、ユーザに印刷物を推薦してよい。また、スマートリーディング機器200は、ユーザが選択した印刷物に基づき、読み上げ機能をユーザに提供してよい。また、読書モードの終了時、スマートリーディング機器200は、印刷物と関連する追加機能を実行してよい。このとき、スマートリーディング機器200は、ユーザとのインタフェースによって追加機能を実行してよい。例えば、追加機能には、印刷物を読んだ感想またはコメント作成機能、予め設定された印刷物と関連する活動が含まれてよい。
【0083】
読書モードにおいて、スマートリーディング機器200は、読み上げ機能をユーザ別に提供してよい。例えば、スマートリーディング機器200に複数のユーザが登録されている場合、スマートリーディング機器200は、ユーザを識別してよい。一例として、スマートリーディング機器200は、音声命令の声に基づき、ユーザのうちからいずれか1人を識別してよい。他の例として、スマートリーディング機器200は、音声命令の主体を質問し、追加入力された音声命令の内容に基づき、ユーザのうちからいずれか1人を識別してよい。これにより、スマートリーディング機器200は、読み上げ機能をユーザ別に提供することが可能となる。このとき、スマートリーディング機器200は、各ユーザに対応する音声で読み上げ機能を提供してよい。
【0084】
印刷物が問題集である場合、スマートリーディング機器200の読書モードには、ユーザの解答に対する採点が含まれてよい。スマートリーディング機器200は、入力された映像の分析により、印刷物に追加で記載されたユーザの解答を認識してよい。これを利用することにより、該当の問題解釈が合っているかを確認したり、間違った部分を確認したりすることが可能となる。さらに、ユーザが問題を解くまでに長い時間がかかるなど問題解釈に困難が見られたり、他の要求をしたりした場合には、問題に対するヒントを提供してよい。
【0085】
読書モードの終了時、スマートリーディング機器200は、ユーザとのインタフェースにより、問題集と関連する追加機能を実行してよい。このために、スマートリーディング機器200は、外部機器、例えば、問題集と関連のあるサーバ170から関連データをダウンロードし、これに基づいて追加機能を実行してよい。スマートリーディング機器200は、問題集に対するユーザの読後活動を誘導してよい。また、スマートリーディング機器200は、問題集で間違った問題の解釈および解説を提供してよい。また、スマートリーディング機器200は、ユーザの学習達成度を評価するために、問題集と関連のあるクイズを提供してよい。また、スマートリーディング機器200は、読書モードの実行途中にカメラ201に入力された映像を取得し、外部機器、例えば、問題集と関連のあるサーバ170を経て予め定められた教師や講師を提供してよい。また、スマートリーディング機器200は、外部機器を経て教師や講師から受信されたファイルを提供してよい。さらに、スマートリーディング機器200は、問題集内の問題と類似の問題を検索して提供してよい。
【0086】
図5は、第1実施形態における、スマートリーディング機器の動作方法を示したフローチャートである。
【0087】
図5を参照すると、段階510において、プロセッサ120は、スマートリーディング機器200のユーザの命令を認識してよい。ユーザの命令は、ボタン命令または音声命令のうちの少なくともいずれか一方であってよい。一実施形態によると、プロセッサ120は、入力される音声を分析してユーザを識別してよい。例えば、スマートリーディング機器200に複数のユーザが登録されている場合、プロセッサ120は、音声命令からユーザのうちの1人を識別してよい。上述したように、スマートリーディング機器200は、複数の動作モードを含んでよく、動作モードごとに異なるように動作してよい。例えば、動作モードは、就寝モード、読書モード、勉強モード、または冥想モードのうちの少なくともいずれか1つを含んでよい。
【0088】
図6aは、
図5のユーザ命令を認識する動作を示したフローチャートである。
【0089】
図6aを参照すると、段階610において、プロセッサ120は、ボタン命令または音声命令の入力を受けてよい。プロセッサ120は、会話基盤インタフェースにおいてユーザの音声命令の入力を受けてよい。例えば、プロセッサ120は、会話基盤インタフェースとして、スマートリーディング機器200が含むマイクまたはスマートリーディング機器200と連動するマイクのような音声入力装置において、ユーザの発話による音声命令の入力を受けてよい。あるいは、プロセッサ120は、ユーザのボタン命令の入力を受けてよい。例えば、プロセッサ120は、スマートリーディング機器200に含まれるボタンまたはスマートリーディング機器200と連動するキーボードのようなボタン入力装置において、ボタン命令の入力を受けてよい。
【0090】
段階610において、音声命令またはボタン命令が入力されると、段階620において、プロセッサ120は、スマートリーディング機器200の動作モードのうちのいずれか1つを実行するための要求として、ユーザの命令を認識してよい。このとき、プロセッサ120は、ユーザの命令が読書モードを実行するための要求であるかどうかを判断してよい。
【0091】
一実施形態によると、プロセッサ120は、ユーザの命令に対応してカメラ201を起動させ、カメラ201に入力される物体を分析してユーザの命令を認識してよい。一例として、カメラ201が認識した物体が本である場合、プロセッサ120は、スピーカ204から「本を読んで欲しいの?」のようにユーザに質問してよい。ユーザからの応答が肯定的である場合、プロセッサ120は、ユーザの命令が読書モードを実行するための要求であると判断してよい。他の例として、カメラ201が認識した物体が楽譜である場合、プロセッサ120は、スピーカ204から「楽譜を演奏して欲しいの?」のように質問し、これに対する応答が肯定的である場合、ユーザの命令が楽譜演奏機能を実行するための他の動作モードを実行するための要求であると判断してよい。
【0092】
また、ユーザは、音声命令に基づいて特定のモードを実行させてよい。例えば、ユーザが「読書モード」のような音声命令を入力した場合、プロセッサ120は、読書モードを実行させるための要求であると判断してよい。
【0093】
段階620において、ユーザの命令が読書モードを実行するための要求であると判断されると、段階S630において、プロセッサ120は、読書モードを実行してよい。このとき、プロセッサ120は、読書モードに対応して設定された照度または色温度のうちの少なくともいずれか一方に基づき、照明202を調節してよい。一実施形態によると、プロセッサ120は、カメラ201を起動させてよい。この後、プロセッサ120は、
図5に戻ってよい。
【0094】
この反面、段階620において、ユーザの命令が読書モードを実行するための要求でないと判断されると、段階640において、プロセッサ120は、ユーザの命令に対応して該当の機能を実行してよい。このとき、プロセッサ120は、読書モード以外の他の動作モードを実行してよい。ここで、プロセッサ120は、他の動作モードに対応して設定された照度または色温度のうちの少なくともいずれか1つに基づき、照明202を調節してよい。
【0095】
再び
図5を参照すると、段階520において、プロセッサ120は、スマートリーディング機器200に含まれるカメラ201に入力される映像を取得してよい。プロセッサ120は、カメラ201から印刷物を含む映像を取得してよい。ここで、印刷物には、少なくとも1つのページが含まれてよい。ページは、印刷物の表紙と内部のページとを含んでよい。
【0096】
一実施形態によると、プロセッサ120は、映像から本のような印刷物のエッジ(edge)を検出してよい。このとき、映像から印刷物のエッジが検出されなかった場合、プロセッサ120は、スピーカ204から「本を正しい位置に置いてね」のような案内をユーザに提供してよい。これにより、スマートリーディング機器200のユーザは、印刷物をカメラ201と向かい合う位置に置くことが可能となる。
【0097】
他の実施形態によると、スマートリーディング機器200は、
図6bに示すように、ヘッド部分203に設置されたレーザ660をさらに含み、印刷物の適切な載置位置670をレーザ660によって案内してよい。これにより、スマートリーディング機器200のユーザは、レーザ660が案内する位置670に印刷物を置くことが可能となる。
【0098】
段階S530において、プロセッサ120は、カメラ201に入力される映像と関連のある読み上げ機能を提供してよい。一実施形態によると、プロセッサ120は、特定のユーザに対応する読み上げ機能を提供してよい。例えば、プロセッサ120は、段階510で識別されたユーザに対応して予め登録された音声に基づき、読み上げ機能を提供してよい。
【0099】
プロセッサ120は、映像から印刷物のページ内のテキストを認識してよい。この後、プロセッサ120は、認識されたページに対し、読み上げ機能を提供してよい。
【0100】
一例として、プロセッサ120は、OCR(optical character reader)技術を利用して本のテキストと絵を区別して認識してよい。これにより、プロセッサ120は、スマートリーディング機器200に含まれるスピーカ204からテキストに対応する音声を発話してよい。他の例として、プロセッサ120は、ページに印刷されたQR(quick response)コード(登録商標)あるいはバーコードを認識し、認識されたコードに基づき、スマートリーディング機器200に含まれるデータベースあるいはスマートリーディング機器200と連動可能なサーバ170やプラットフォーム上のデータベースから、該当のページのテキストまたは該当のページや該当のページを含む印刷物の音源を取得してよい。これにより、プロセッサ120は、スピーカ204からテキストに対応する音声を発話したり、音源を再生したりすることが可能となる。言い換えれば、プロセッサ120は、OCRスキャンやQRコード(登録商標)検索によって取得した印刷物のテキストを読み上げることが可能となる。ユーザに印刷物のページをめくるように促しながらスマートリーディング機器200が該当のページをOCRによってスキャンして読み上げてもよいし、あるいはQRコードによって印刷物の各ページが区分される場合、スマートリーディング機器200が該当のページのQRコードを認識し、認識されたページのテキストを取得して読み上げてもよい。プロセッサ120は、記録されている音源を利用してよく、記録された音源がない場合やユーザから要求がある場合には、音声合成器が合成した音声を提供してよい。
【0101】
一実施形態によると、プロセッサ120は、カメラ201に入力された印刷物の表紙が含まれる映像を分析し、該当の本が何であるかを探知してよい。より具体的に、プロセッサ120は、i)本の表紙に記載されたテキスト領域を検索して該当のテキストを文字認識する、ii)データベース内に記録された表紙イメージと比較する、iii)本の表紙に印刷されたQRコードあるいはバーコードなどを利用するなどの多様な方法により、該当の本に関する情報を探知してよい。本に関する情報を利用することにより、多様な方式によって予め構築されたデータベースの本の内容に関する情報(例えば、ページ内のテキストおよび/またはイメージ情報、ページ内のテキストに関する音声情報、本のあらすじ、作家、出版社などのような本に関する付加情報、ユーザ選好度情報など)を追加で活用してよい。例えば、スマートリーディング機器200は、本の表紙から本の情報を探知した後、データベース内に記録された該当の本に関する情報を活用してよい。この後、ページに対する映像が入力されたとき、テキストの一部に対する文字認識だけでも、該当の本に対するデータベース検索によってどのようなページであるかを認知することが可能となり、該当のページ全体を読み上げることが可能となる。また、追加のデータとして、該当のページに適したコンテンツ(テキストに対する音声、付加的な説明情報など)を提供してもよい。
【0102】
また、スマートリーディング機器200は、テキストの他に、イメージ分析によってカメラが撮影した事物自体を認識してもよく、本に印刷されたイメージを認識してイメージ認識結果を音声で発話してもよい。例えば、本にりんごのイメージが印刷されている場合、イメージ認識結果に基づき、「りんご」または「アップル」のような音声発話が出力されてよい。
【0103】
本発明によると、よりリアリティのある本の読み上げのために、本の追加的な情報を反映して音声を合成したり、従来の音声を変調して提供したりしてよい。例えば、フォントサイズが大きいテキストは大きな声で、フォントサイズが小さいテキストは小さな声で読み上げてよい。また、直接引用符号である括弧(「」)や吹き出し内の文章は、登場人物が直接行う発話であるため、話者を区分して異なる声で読み上げてよい。さらに、絵を分析することで、人物の表情が憂鬱であったり泣いたりしている場合には悲しい声で、笑顔の場合には明るい声で表現するなど、感情を把握してこれに合った音声を提供してもよい。段落の区分や省略符号がある部分では、適切に間隔を置きながら読み上げてよい。
【0104】
上述したようなテキストとイメージを認識する方法は例示的なものであり、これに限定されてはならず、周知の他の技術を利用することも可能である。
【0105】
また、スマートリーディング機器200は、読み上げ機能に対し、認識されたテキストとイメージを認識順に従って本ごとに記録してよく、ユーザの読書回数や読書中断ページなどを含んだユーザ履歴情報を記録してよい。このような情報を利用することにより、同じ本に対してはOCRスキャンやQRコード検索過程を経る必要がなくなり、実際に本がなくても該当の本の続きを読む機能を提供することが可能となり、続きを読む機能を提供する過程においては、ユーザが同じ本を何回読んだか、どのページまで読んだかなどの情報を活用することが可能となる。
【0106】
以下、上述したスマートリーディング機器200の動作方法によるシナリオ例について説明する。
【0107】
1.スマートリーディング機器200は、ユーザの発話によって入力された音声命令「本を読んで」を認識した場合、カメラ201を活性化させた後、「どの本を読もうか?本の表紙を見せて」のように、読み上げ機能のためのガイドを音声で出力してよい。
【0108】
2.ユーザがカメラ201の正面に本を置きながら「この本、読んだことある?」と質問した場合、スマートリーディング機器200は、記録された情報を検索し、検索結果に応じて「いや、読んだことのない本だよ!」のような応答を発話してよい。
【0109】
3.スマートリーディング機器200は、本の表紙を認識した後、「<ブラウン、何を考えているの?>という本だね?本をゆっくりめくりながら読んでみよう。それでは始めるよ。」のように、本の情報とともにガイドを発話した後、本の読み上げを開始してよい。
【0110】
スマートリーディング機器200は、テキストの読み上げの他にも、ユーザがイメージカードをカメラ201の正面に置きながら「これは何?」と質問すると、イメージを認識しながら「これは、りんごだよ」のように、イメージを認識して読み上げることも可能である。
【0111】
プロセッサ120は、ユーザが選択した特定の声でテキストに対応する音声を発話してよい。このために、スマートリーディング機器200には、少なくとも1つの声が予め設定されてよい。このとき、プロセッサ120は、読書モードが他の動作モードを実行しながら、声を設定してよい。例えば、プロセッサ120は、
図6の段階S640において、読書モードのための声を設定してもよい。これについては、
図7を参照しながらより詳細に説明する。
【0112】
図7は、第1実施形態における、スマートリーディング機器の設定段階を示したフローチャートである。このとき、
図7の設定動作は、
図5の動作方法に含まれてよい。ここで、
図7の設定動作は、
図5の動作方法の初期に実行されてよい。
【0113】
図7を参照すると、段階710において、スマートリーディング機器200は、スマートリーディング機器200に含まれるマイクに入力された特定人物の音声を録音した後、録音された音声から特定人物の声データを抽出して記録および保持してよい。このとき、スマートリーディング機器200は、読み上げ機能に活用するための声として、別途の録音機能によって特定人物(例えば、ママやパパなど)の声を録音して声の特徴を抽出した後、声の対象とマッチングして記録してよい。
【0114】
段階720において、スマートリーディング機器200は、ユーザの音声命令が読み上げ機能のための要求に該当する場合、読み上げ機能に適用可能な声リスト、あるいは少なくとも1つのおすすめの声をユーザに提供してよい。例えば、スマートリーディング機器200は、音声発話により、「この本を読む人を、ブラウン、コニー、セリーのうちから選んでね」のような声リストを提供するか、「この本、ママの声で読んでみようか?」のようなおすすめの声を提供してよい。
【0115】
これにより、スマートリーディング機器200は、ユーザとの会話に基づき、段階530で認識されたテキストを、ユーザが選択した特定の声で発話して読み上げる機能を提供することが可能となる。言い換えれば、スマートリーディング機器200は、読み上げ機能の音声発話に、ママやパパなどの録音された声を合成することができる。
【0116】
以下、上述したスマートリーディング機器200の動作方法によるシナリオ例について説明する。
【0117】
1.スマートリーディング機器200は、ユーザの発話によって入力された音声命令「本を読んで」を認識した場合、カメラ201を活性化させた後、「どの本を読もうか?本の表紙を見せて」のように、読み上げ機能のためのガイドを音声で出力してよい。
【0118】
2.ユーザがカメラ201の正面に本を置きながら「この本、読んだことある?」と質問した場合、スマートリーディング機器200は、記録された情報を検索し、検索結果に応じて「いや、読んだことのない本だよ!」のような応答を発話してよい。
【0119】
3.スマートリーディング機器200は、本の表紙を認識した後、「<ブラウン、何を考えているの?>という本だね?ママの声で読んでみようか?」のように、本の情報とともにおすすめの声を提供してよい。
【0120】
4.ユーザが「うん、いいね!」のようにおすすめの声を受諾した場合、スマートリーディング機器200は、「本をゆっくりめくりながら読んでみよう。それでは始めるよ」のようにガイドを発話した後、本の読み上げを開始してよい。
【0121】
また他の実施形態によると、プロセッサ120は、カメラ201に入力された印刷物のページが含まれる映像を分析し、印刷物および印刷物内の該当のページを識別してよい。すなわち、プロセッサ120は、印刷物の表紙に基づいて印刷物を識別することが可能なだけでなく、印刷物の内部ページを基づいて印刷物を識別することも可能である。言い換えれば、プロセッサ120は、印刷物の表紙に基づいて印刷物を識別した後、印刷物の内部ページを認識するのではなく、印刷物の内部ページに基づいて印刷物を識別することもできる。これについては、
図8を参照しながらより詳細に説明する。
【0122】
図8は、
図5の読み上げ機能を提供する段階を示したフローチャートである。
図9a、
図9b、
図9c、および
図9dは、
図5の読み上げ機能を提供する段階を説明するための図である。ここで、
図9bは、
図8のページを認識する段階を説明するための例示図であり、
図9a、
図9c、および
図9dは、
図8のテキストを認識する段階を説明するための例示図である。
図10a、
図10b、
図10c、および
図10dは、
図8のテキストを認識する段階を説明するための図である。
図13aおよび
図13bは、
図8のページめくりを検出する段階を説明するための図である。
【0123】
図8を参照すると、段階810において、プロセッサ120は、カメラ201が取得した映像から印刷物のページを検出してよい。このとき、プロセッサ120は、映像内から検出されるエッジに基づき、ページを検出してよい。ここで、ページは、印刷物の表紙または内部ページのうちのいずれか1つであってよい。
【0124】
段階820において、プロセッサ120は、検出されたページを識別してよい。データベースには、印刷物の各ページに対する少なくとも1つのイメージと、各イメージに対応して予め設定された音源とがマッピングされていてよい。これにより、プロセッサ120は、検出されたページに対するイメージに基づいてデータベースを検索してよい。一例として、データベースは、スマートリーディング機器200の内部に記録されていてよい。このとき、プロセッサ120は、検出されたページがデータベースに存在するかを判断してよい。他の例として、データベースは、スマートリーディング機器200の外部機器、例えば、サーバ170やプラットフォームに記録されていてもよい。このような場合、プロセッサ120は、検出されたページに対するイメージを外部機器に送信してデータベースを検索してよい。このとき、プロセッサ120は、検出されたページがデータベースに存在するかの判断を外部機器で行ってよい。
【0125】
印刷物が特定されなくても該当のページがある印刷物のあるページだということを検知するためには、イメージ検索を迅速かつ正確に実行する必要がある。本発明の一実施形態によると、類似度検索用特徴(feature)を抽出するためのモデルの一例として、
図9bに示すように、CGD(combination of multiple global discriptors)フレームワーク901を利用してよい。例えば、プロセッサ120は、データベースに記録されたイメージのうち、検出されたページと最も類似するイメージを検索してよい。一例として、プロセッサ120は、データベースに記録されたイメージと検出されたページとの類似度を計算し、記録されたイメージのうちから類似度が最も高いイメージを選択してよい。このとき、最も類似するイメージであったとしても、予め定められた閾値を超過しない場合には、データベースに該当のイメージは存在しないと判断してよい。
【0126】
段階820において、検出されたページがデータベースに存在すると判断されると、段階S830において、プロセッサ120は、検出されたページに対応する音源を再生してよい。一例として、プロセッサ120は、スマートリーディング機器200内部のデータベースから音源を読み取り、再生してよい。他の例として、プロセッサ120は、外部機器のデータベースから音源を受信し、スピーカ204によって再生してよい。
【0127】
一方、段階820において、検出されたページがデータベースに存在しないと判断された場合、段階840において、プロセッサ120は、検出されたページのテキストを認識してよい。
【0128】
一例として、文字認識モジュール320は、検出されたページ全体にわたってテキストを認識してよい。他の例として、文字認識モジュール320は、
図9aに示すように、検出されたページからガイダー900を検出し、検出されたページにおいてガイダー900が指示する一部領域のテキストを認識してよい。ここで、ガイダー900としては、予め定められた形状の物体、ユーザの手または指のうちの少なくともいずれか1つが含まれてよい。一例として、ガイダー900は、テキストの領域を可変的に定義することのできる構造で実現されてよい。このとき、文字認識モジュール320は、テキストが属する言語を識別し、識別された言語に基づき、テキストを識別してよい。一実施形態によると、文字認識モジュール320は、OCR(optical character reader)技術を利用して検出されたページのテキストを認識してよい。
【0129】
例えば、文字認識モジュール320は、
図9bに示すように、文字認識モジュール320は、イメージ入力を受け、ディープラーニング基盤の文字検出モデルを利用してイメージ内に含まれる文字がイメージ内のどの部分に位置するかを検出(Text Detection)してよい。このように検出された部分に対し、ディープラーニング基盤の文字認識モデルを利用してどのような文字であるか文字を認識(Text Recognition)してよい。このとき、曲線や回転した文字などの多様な方向のテキスト認識のためや、本が多様な角度で置かれることがあるため、文字を検出しながら文字の方向もともに推定するようにしてよい。
図9dでは、このようにページ別にテキストを認識し、文字方向を認識した結果の一例を示している。
【0130】
プロセッサ120は、テキストの音節をそれぞれ検出し、音節から語節または文字をそれぞれ認識してよい。ここで、プロセッサ120は、予め定められた値よりも明確でないか小さい音節は無視してよい。また、プロセッサ120は、語節または文字をクラスタリング(clustering)し、テキスト内で少なくとも1つの段落を区分してよい。また、プロセッサ120は、語節または文字をソーティング(sorting)してよい。例えば、プロセッサ120は、語節または文字を、主語、動詞、目的語、形容詞、副詞などに分類してよい。このような方式により、プロセッサ120は、
図10aに示すような横書きのテキスト、
図10bに示すような縦書きのテキスト、
図10cに示すような印刷物の折れ曲がりによって湾曲したテキスト、および
図10dに示すように円形または螺旋型の曲線に沿って湾曲したテキストをすべて認識することが可能となる。
【0131】
段階850において、プロセッサ120は、テキストに対応する音声を発話してよい。プロセッサ120は、テキストに対応する音声をスピーカ204から発話してよい。このとき、プロセッサ120は、少なくとも1つの声を使用してテキストに対応する音声を発話してよい。一実施形態によると、プロセッサ120は、テキストを翻訳した後、翻訳されたテキストに対応する音声を発話してよい。これについては、
図11を参照しながらより詳細に説明する。他の実施形態によると、プロセッサ120は、テキストと関連して少なくとも1つの音声タグを検出し、テキストに音声タグを反映することにより、テキストに対応する音声を発話してよい。これについては、
図12を参照しながらより詳細に説明する。
【0132】
図11は、
図8の音声を発話する段階を示したフローチャートである。
【0133】
段階1110において、プロセッサ120は、ユーザが選択した目的言語で、テキストを翻訳してよい。プロセッサ120は、ユーザとの会話に基づき、ユーザが選択した目的言語を特定してもよいし、あるいはユーザが事前に設定した目的言語を特定してもよい。プロセッサ120は、スマートリーディング機器200に含まれる辞書データベースあるいはスマートリーディング機器200と連動可能なサーバ170やプラットフォーム上の辞書データベースにより、検出されたページのテキストを目的言語に翻訳してよい。
【0134】
段階1120において、プロセッサ120は、ユーザの音声命令に対する応答として、目的言語に翻訳されたテキストをスマートリーディング機器200に含まれるスピーカ204から音声発話する、読み上げ機能を提供してよい。言い換えれば、プロセッサ120は、検出されたページのテキストをユーザが希望する言語に翻訳して読み上げることが可能となる。この後、プロセッサ120は、
図8に戻ってよい。
【0135】
以下、上述したスマートリーディング機器200の動作方法によるシナリオ例について説明する。
【0136】
1.ユーザが音声命令「この本を英語で読んで」を発話した場合、スマートリーディング機器200は、カメラ201を活性化させて映像を取得した後、撮影された映像から本のテキストを認識してよい。
【0137】
2.スマートリーディング機器200は、認識されたテキストをユーザの音声命令に含まれる目的言語、すなわち英語に翻訳し、翻訳結果を音声発話することによって読み上げ機能を提供してよい。
【0138】
以下、他のシナリオ例について説明する。
【0139】
1.ユーザがカメラ201の正面にりんごのイメージカードを置きながら「これは日本語で何?」と質問した場合、スマートリーディング機器200は、カメラ201を活性化させてイメージカードをスキャンした後、イメージオブジェクト「りんご」を認識してよい。
【0140】
2.スマートリーディング機器200は、認識されたイメージオブジェクト「りんご」をユーザの音声命令に含まれる目的言語、すなわち日本語に翻訳し、翻訳結果「りんご」を音声発話として読み上げてよい。
【0141】
図12は、
図8の音声を発話する段階を示したフローチャートである。
【0142】
図12を参照すると、段階1210において、プロセッサ120は、テキストを分析してよい。文章分析モジュール330は、テキスト内の各文章を分析してよい。このとき、文章分析モジュール330は、テキストから各文章を区分してよい。ここで、文章分析モジュール330は、文章符号や分かち書きなどに基づいて文章を区分してよい。段階1220において、文章分析モジュール330は、テキストを校正してよい。このとき、文章分析モジュール330は、予め設定された規則に従って各文章を校正してよい。
【0143】
段階1230において、文章分析モジュール330は、各文章の感情を分析してよい。このとき、文章分析モジュール330は、各文章内の少なくとも1つの単語の意味、各文章と隣接する文章との文脈、または隣接する文章内の少なくとも1つの単語の意味に基づき、各文章の感情を分析してよい。例えば、文章分析モジュール330は、各文章の感情を肯定、否定、および中立に分類してよく、肯定の感情は感動と喜びの間で追加分類し、不定の感情は悲しみ、怒り、および苛立ちの間で追加分類してよい。一例として、ある文章が「むかっ」、「しかめながら」、「かっと怒って」、または「怒鳴った」のうちの少なくともいずれか1つを含む場合、プロセッサ120は、該当の文章の感情を否定として分類してよい。
【0144】
段階1240において、文章分析モジュール330は、各文章から少なくとも1つの音声タグを検出してよい。音声タグは、文章の類型、話者、または感情のうちの少なくともいずれか1つを示してよい。一例として、文章の類型が会話文であれば音声タグは自然なトーンの音声を示し、文章の類型が疑問文であれば音声タグは質問トーンの音声を示してよい。他の例として、文章の話者がパパであれば音声タグはパパの音声を示し、文章の話者が「ジェーン(Jane)」であれば音声タグは女の子の音声を示してよい。また他の例として、文章の感情が肯定であれば音声タグは肯定の音声を示し、文章の感情が怒りであれば音声タグは怒りの音声を示してよい。
【0145】
段階1250において、プロセッサ120は、テキストに音声タグを反映して音声を合成してよい。このとき、プロセッサ120は、各文章に対して音声タグを反映して音声を合成してよい。これにより、プロセッサ120は、各文章を、該当の文章の類型、該当の文章の話者、または該当の文章の感情に基づき、音声を合成してよい。この後、プロセッサ120は、
図8に戻ってよい。
【0146】
再び
図8を参照すると、段階860において、プロセッサ120は、ページめくりを感知してよい。このために、プロセッサ120は、カメラ201に入力される映像を継続してモニタリングしてよい。このとき、プロセッサ120は、既に取得された映像とカメラ201に入力される映像、例えば、プレビュー映像とを比較してよい。これにより、既に取得された映像から検出されたページから他のページへのページめくりが感知されてよい。一例として、プロセッサ120は、
図13aに示すように、取得された映像1310の全体領域とプレビュー映像1320の全体領域とを比較し、検出されたページから他のページへの変化を確認してよい。これに対応することにより、プロセッサ120は、ページめくりを感知することが可能となる。他の例として、プロセッサ120は、
図13bに示すように、取得された映像1310で予め定められた位置1311の一部領域1313とプレビュー映像1320で予め定められた位置1321の一部領域1323とを比較し、検出されたページから他のページへの変化を確認してよい。ここで、取得された映像1310の定められた位置1311とプレビュー映像1320の定められた位置1321は、互いに対応してよい。これに対応することにより、プロセッサ120は、ページめくりを感知することが可能となる。
【0147】
段階860でページめくりが感知されると、プロセッサ120は、段階840に戻ってよい。この後、プロセッサ120は、他のページに対し、段階840~段階860を繰り返し実行してよい。すなわち、プロセッサ120は、他のページを取得し、他のページのテキストを認識し、テキストに対応する音声をスピーカ204から発話してよい。このとき、他のページでテキストの方向が変わると、プロセッサ120は、他のページのテキストに対応する音声は発話しないこともある。
【0148】
一方、段階860でページめくりが感知されなかった場合、段階870において、プロセッサ120は、読書モードの終了を判断してよい。一例として、プロセッサ120は、ユーザの命令に基づき、読書モードの終了を判断してよい。ユーザの命令は、ボタン命令または音声命令のうちの少なくともいずれか1つを含んでよい。他の例として、プロセッサ120は、読書モードの実行時間に基づき、読書モードの終了を判断してよい。ここで、読書モードの実行時間が予め設定された時間間隔だけ続いた場合、プロセッサ120は、読書モードを終了することを判断してよい。段階870において、読書モードの終了が判断されると、プロセッサ120は、読書モードを終了してよい。
【0149】
図14は、第2実施形態における、スマートリーディング機器の動作方法を示したフローチャートである。
【0150】
図14を参照すると、段階1410において、プロセッサ120は、会話基盤のインタフェースとして、スマートリーディング機器200に含まれるマイクまたはスマートリーディング機器200と連動するマイクのような音声入力装置においてユーザの発話による音声命令の入力を受けてよい。プロセッサ120は、スマートリーディング機器200で提供可能な機能(読み上げ機能、楽譜演奏機能、コミュニケーション機能、コンテンツ作成機能など)のうちのいずれか1つの機能のための要求として音声命令を区分して認識してよい。
【0151】
段階1420において、プロセッサ120は、ユーザの音声命令が楽譜演奏機能のための要求に該当する場合、スマートリーディング機器200に含まれるカメラ201を活性化させた後、カメラ201において映像の入力を受け、映像に含まれる楽譜を認識してよい。スマートリーディング機器200のユーザは、印刷物であるが複をカメラ201と向かい合う位置に置きながら楽譜演奏機能を実行してよい。このとき、プロセッサ120は、カメラ201に入力された映像に対し、OCRスキャンやQRコード検索によって楽譜を認識してよい。
【0152】
段階1430において、演奏提供部404は、ユーザの音声命令に対する応答として、段階1420で認識された楽譜をユーザが選択した特定の楽器で演奏することによって譜演奏機能を提供してよい。演奏提供部404は、ユーザとの会話に基づいてユーザが選択した楽器を特定してもよいし、あるいはユーザが事前に設定した楽器を特定してもよい。楽器別の音特徴データを含むデータベースは、スマートリーディング機器200に含まれても、あるいはスマートリーディング機器200と連動可能なサーバ170やプラットフォーム上に含まれてもよく、これにより、演奏提供部404は、ユーザが特定した楽器の音特徴データに基づき、カメラ201が認識した楽譜を該当の楽器で自動演奏することが可能となる。
【0153】
以下、上述したスマートリーディング機器200の動作方法によるシナリオ例について説明する。
【0154】
1.ユーザが音声命令「この楽譜をピアノで演奏して」を発話した場合、スマートリーディング機器200は、カメラ201を活性化させて映像を取得した後、映像として撮影された楽譜を認識してよい。
【0155】
2.スマートリーディング機器200は、認識された楽譜をユーザの音声命令に含まれる特定楽器、すなわちピアノバージョンで演奏してよい。
【0156】
図15は、第3実施形態における、スマートリーディング機器の動作方法を示したフローチャートである。
【0157】
図15を参照すると、段階1510において、プロセッサ120は、コミュニケーションのための要求を受信してよい。一例として、プロセッサ120は、スマートリーディング機器200に含まれるマイクまたはスマートリーディング機器200と連動するマイクのような音声入力装置において、ユーザの発話による音声命令として他のユーザとのコミュニケーションを要求するユーザ命令を受信してよい。例えば、自宅にいる子供が、スマートリーディング機器200を利用してママとのコミュニケーションを要求する場合が考えられる。他の例として、プロセッサ120は、ネットワーク160を介してスマートリーディング機器200と接続する他のユーザから、スマートリーディング機器200のユーザとのコミュニケーションを要求する命令を受信してよい。例えば、外にいるママが、スマートリーディング機器200によって接続可能なアプリを利用して自宅にいる子供とのコミュニケーションを要求する場合が考えられる。
【0158】
段階1520において、プロセッサ120は、コミュニケーション機能に該当する要求が受信された場合、スマートリーディング機器200がCCTVのように動作するように、スマートリーディング機器200のカメラ201が含まれるヘッド部分203の傾きを調整してよい。一例として、プロセッサ120は、ユーザが映像撮影のための方向にヘッド部分203の傾きを調整するようにするガイドを音声で発話する場合が考えられる。他の例として、スマートリーディング機器200がヘッド部分203の傾きを調整することのできる回転構造物を含む場合、プロセッサ120は、スマートリーディング機器200に含まれるセンサ、あるいはスマートリーディング機器200と連動するセンサを利用して周辺の動きを感知してよく、動きが感知された場所を向くようにヘッド部分203の傾きを自動調整してよい。
【0159】
段階1530において、プロセッサ120は、ヘッド部分203の傾きの調整が完了すると、スマートリーディング機器200のカメラ201に入力された映像を、ネットワーク160を介して事前に定められた他のユーザの電子機器にリアルタイムで送信してよい。言い換えれば、プロセッサ120は、スマートリーディング機器200のユーザあるいは事前に定められた他のユーザの要求を受信した場合、ユーザと他のユーザとのコミュニケーションのためにカメラ201を活性化させ、スマートリーディング機器200で撮影されたリアルタイム映像を他のユーザの電子機器に伝達することが可能となる。
【0160】
以下、上述したスマートリーディング機器200の動作方法によるシナリオ例について説明する。
【0161】
1.外部にいるママがスマートフォンを利用して自宅内のスマートリーディング機器200に接続してコミュニケーション機能を要求する場合、スマートリーディング機器200は、カメラ201やマイクなどを含んだ会話基盤のインタフェースを活性化させてよい。
【0162】
2.ママが「うちの娘、いま何している?」のように音声や文字メッセージを送信した場合、スマートリーディング機器200は、受信されたメッセージを音声で出力すると同時に、カメラ201が撮影した映像をリアルタイムでママのスマートフォンに伝達してよい。
【0163】
3.自宅にいる子供がスマートリーディング機器200を利用して「パズルで遊んでいるよ」のように発話した場合、子供の発話によって入力された音声をママのスマートフォンに伝達してよい。
【0164】
以下、他のシナリオ例について説明する。
【0165】
1.自宅にいる子供がスマートリーディング機器200を利用して「ママに繋いで」のように発話した場合、スマートリーディング機器200は、コミュニケーションのための要求として認識し、カメラ201やマイクなどを含んだ会話基盤のインタフェースを活性化させてよい。
【0166】
2.スマートリーディング機器200は、事前に定められた、例えば、ママのスマートフォンに、コミュニケーションのための要求を伝達してよい。ママのスマートフォンでは、スマートリーディング機器200と関連するアプリを通じ、スマートリーディング機器200からコミュニケーションのための要求を受信したことを通知として表示してよい。
【0167】
3.スマートリーディング機器200は、ママがコミュニケーション要求を受諾した場合、カメラ201が撮影した映像をママのスマートフォンにリアルタイムで伝達してよい。さらに、スマートリーディング機器200は、子供が「ママ、何時ごろ帰ってくる?」のように発話した場合、子供の発話音声をママのスマートフォンに伝達してよい。
【0168】
図16は、第4実施形態における、スマートリーディング機器の動作方法を示したフローチャートである。
【0169】
図16を参照すると、段階1610において、プロセッサ120は、コンテンツ作成のための要求を受信してよい。一例として、プロセッサ120は、スマートリーディング機器200に含まれるマイクまたはスマートリーディング機器200と連動するマイクのような音声入力装置において、ユーザの発話による音声命令としてコンテンツ製作を要求するユーザ命令を受信してよい。
【0170】
段階1620において、プロセッサ120は、コンテンツ作成機能に該当する要求が受信された場合、スマートリーディング機器200のカメラ201が含まれるヘッド部分203の傾きを調整してよい。一例として、プロセッサ120は、ユーザが映像撮影のための方向にヘッド部分203の傾きを調整できるようにするガイドを音声で発話してよい。他の例として、スマートリーディング機器200がヘッド部分203の傾きを調整することのできる回転構造物を含む場合、プロセッサ120は、スマートリーディング機器200に含まれるセンサ、あるいはスマートリーディング機器200と連動するセンサにおいて周辺の動きを感知してよく、動きが感知された場所を向くようにヘッド部分203の傾きを自動調整してよい。
【0171】
段階1630において、プロセッサ120は、ヘッド部分203の傾きの調整が完了すると、スマートリーディング機器200のカメラ201を利用した映像撮影によって映像コンテンツを作成してよい。プロセッサ120は、音声基盤のインタフェースにおいてコンテンツ作成と関連するユーザ命令を受信してよく、ユーザ命令に従って、カメラ201が撮影した映像を利用してコンテンツを作成してよい。プロセッサ120は、映像コンテンツの作成が完了すると、ユーザの要求に従って、ネットワーク160を介して事前に定められた外部サーバにアップロードしてよい。プロセッサ120は、SNSサーバやクラウドサーバなどのように、ユーザが映像コンテンツを掲載するために事前に定めておいた外部サーバに映像コンテンツを自動アップロードしてよい。
【0172】
以下、上述したスマートリーディング機器200の動作方法によるシナリオ例について説明する。
【0173】
1.ユーザがスマートリーディング機器200において「カメラをつけて」のように発話した場合、スマートリーディング機器200は、コンテンツ作成のための要求として認識し、カメラ201やマイクなどを含んだ会話基盤のインタフェースを活性化させてよい。
【0174】
2.スマートリーディング機器200は、会話基盤のインタフェースを活性化させた後、「カメラをつけたよ。準備ができたら言ってね」のようにガイドを発話した後、コンテンツ作成のための待機状態を維持してよい。
【0175】
3.ユーザが「動画スタート」のように発話した場合、スマートリーディング機器200は、カメラ201を利用して動画撮影を開始してよく、この後、動画撮影の最中にユーザが「動画ストップ」のように発話した場合、スマートリーディング機器200は、「動画ストップ」という発話時点前まで撮影された動画を作成コンテンツとして保存してよい。
【0176】
4.ユーザが「私のSNSチャンネルにアップロードして」のように発話した場合、スマートリーディング機器200は、予め設定されたユーザのSNSチャンネルに該当の動画コンテンツをアップロードしてよい。
【0177】
このように、本発明の実施形態によると、本やカードなどのようなすべての印刷物をスキャンして読み上げる機器として、カメラ、照明、AIスピーカが結合されたスタンドタイプのスマートリーディング機器を提供することができ、これにより、テキストやイメージを認識して読み上げる機能だけではなく、ユーザが希望する声で読み上げる機能、録音された声を活用して読み上げる機能、ユーザが希望する言語に翻訳して読み上げる機能、楽譜を認識して多様な楽器で自動演奏する機能、CCTVの用途として活用してコミュニケーションを提供する機能、映像基盤のコンテンツを作成する機能などを提供することができる。
【0178】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および作成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0179】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0180】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアや他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
【0181】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0182】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【符号の説明】
【0183】
200:スマートリーディング機器
201:カメラ
202:照明
203:ヘッド部分
204:スピーカ