(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024112003
(43)【公開日】2024-08-20
(54)【発明の名称】テキスト読み上げ装置、テキスト読み上げ装置の制御方法、及びプログラム
(51)【国際特許分類】
G06F 3/16 20060101AFI20240813BHJP
G10L 13/08 20130101ALI20240813BHJP
G10L 13/00 20060101ALI20240813BHJP
【FI】
G06F3/16 690
G06F3/16 610
G10L13/08 124
G10L13/00 100K
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023016802
(22)【出願日】2023-02-07
(71)【出願人】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】生越 大輔
(72)【発明者】
【氏名】竹下 浩
(72)【発明者】
【氏名】新井 雄太
(72)【発明者】
【氏名】門馬 悠生
(72)【発明者】
【氏名】笠原 孝幸
(72)【発明者】
【氏名】高谷 怜奈
(57)【要約】 (修正有)
【課題】画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置、テキスト読み上げ装置の制御方法及びプログラムを提供する。
【解決手段】テキスト読み上げ装置は、ユーザの周囲の映像データを取得する映像データ取得部131と、ユーザの位置を取得する位置情報取得部132と、位置情報と、ユーザの位置を含む領域に関する地図情報とに基づいて、ユーザが位置する場所のカテゴリーを特定するカテゴリー特定部134と、映像データに含まれるテキストを示すテキスト情報を抽出するテキスト抽出部133と、テキスト抽出部が抽出したテキスト情報とカテゴリー特定部が特定した場所のカテゴリーとの関連度が高いほど、テキスト情報に高い優先度を設定する優先度設定部135と、テキスト抽出部が抽出したテキスト情報を、優先度設定部で設定した優先度が高い順に音声に変換して出力する音声出力部136と、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ユーザの周囲の映像を含む映像データを取得する映像データ取得部と、
ユーザの位置を示す位置情報を取得する位置情報取得部と、
前記位置情報取得部が取得した位置情報と、前記位置情報が示すユーザの位置を含む領域に関する地図情報とに基づいて、前記ユーザが位置する場所のカテゴリーを特定するカテゴリー特定部と、
前記映像データ取得部が取得した映像データに基づいて、前記映像データに含まれるテキストを示すテキスト情報を抽出するテキスト抽出部と、
前記テキスト抽出部が抽出した前記テキスト情報に優先度を設定する優先度設定部と、
前記テキスト抽出部が抽出した前記テキスト情報を、前記優先度設定部で設定した優先度が高い順に音声に変換して出力する音声出力部と、を備え、
前記優先度設定部は、前記テキスト情報と前記カテゴリー特定部が特定した場所のカテゴリーとの関連度が高いほど設定する優先度を高くする、
テキスト読み上げ装置。
【請求項2】
前記優先度設定部は、前記テキスト抽出部が抽出した前記テキスト情報について、前記映像データにおける位置、前記映像データにおける大きさ、前記映像データの背景とのコントラストの大きさの、少なくともいずれかに基づいて優先度を設定する、
請求項1に記載のテキスト読み上げ装置。
【請求項3】
前記優先度設定部は、あらかじめユーザ毎に設定されたテキスト毎の優先度に基づいて、前記テキスト抽出部が抽出した前記テキスト情報の優先度を設定する、
請求項1または請求項2に記載のテキスト読み上げ装置。
【請求項4】
ユーザの周囲の映像を含む映像データを取得するステップと、
ユーザの位置を示す位置情報を取得するステップと、
取得した位置情報と、前記位置情報が示す位置を含む領域に関する地図情報とに基づいて、前記ユーザが位置する場所のカテゴリーを特定するステップと、
取得した映像データに基づいて、前記映像データに含まれるテキストを示すテキスト情報を抽出するステップと、
抽出した前記テキスト情報に優先度を設定するステップと、
抽出した前記テキスト情報を、設定した優先度が高い順に音声に変換して出力するステップと、を備え、
前記優先度を設定するステップにおいては、前記テキスト情報と、特定された場所のカテゴリーとの関連度が高いほど設定する優先度を高くする、
テキスト読み上げ装置の制御方法。
【請求項5】
ユーザの周囲の映像を含む映像データを取得するステップと、
ユーザの位置を示す位置情報を取得するステップと、
取得した位置情報と、前記位置情報が示す位置を含む領域に関する地図情報とに基づいて、前記ユーザが位置する場所のカテゴリーを特定するステップと、
取得した映像データに基づいて、前記映像データに含まれるテキストを示すテキスト情報を抽出するステップと、
抽出した前記テキスト情報に優先度を設定するステップと、
抽出した前記テキスト情報を、設定した優先度が高い順に音声に変換して出力するステップと、を備え、
前記優先度を設定するステップにおいては、前記テキスト情報と、特定された場所のカテゴリーとの関連度が高いほど設定する優先度を高くすること、
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、テキスト読み上げ装置、テキスト読み上げ装置の制御方法、及びプログラムに関する。
【背景技術】
【0002】
視覚に障害を持つユーザは、日常生活を行ううえで街中に掲示される文字によって表される情報を認識することが難しく、日常生活に支障をきたすことがあった。これに対して、例えば、カメラにより撮像された映像から、テキスト情報を音声で読み上げを行う技術や、画像や映像からテキストを抽出し、抽出したテキストを読み上げる技術があった。
【0003】
例えば、下記の特許文献1には、画像中の情報を好適に読み上げる視覚認識支援装置であって、被写体像に含まれる文字列、および物体の少なくともいずれかをオブジェクトとして検出する検出手段と、オブジェクトの称呼を規定するデータベースを参照して、検出手段によって検出されるオブジェクトについての称呼を取得する称呼情報取得手段と、少なくともユーザに対して音声を出力するスピーカーと、一つの被写体像から複数のオブジェクトが検出される場合において、それぞれのオブジェクトに対し称呼情報取得手段によって取得される称呼を、スピーカーを介して並列的に読み上げる読み上げ制御手段と、を備える視覚認識支援装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の特許文献1に記載の視覚認識支援装置は、画像中に複数のオブジェクトが認識された場合に、スピーカーを介して並列的に読み上げることはできるものの、画像中に認識されたテキストの内容に優先度をつけて読み上げることができなかった。
【0006】
本開示は上記課題を鑑み、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置、テキスト読み上げ装置の制御方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決し、目的を達成するために、本開示に係るテキスト読み上げ装置は、ユーザの周囲の映像を含む映像データを取得する映像データ取得部と、ユーザの位置を示す位置情報を取得する位置情報取得部と、前記位置情報取得部が取得した位置情報と、前記位置情報が示すユーザの位置を含む領域に関する地図情報とに基づいて、前記ユーザが位置する場所のカテゴリーを特定するカテゴリー特定部と、前記映像データ取得部が取得した映像データに基づいて、前記映像データに含まれるテキストを示すテキスト情報を抽出するテキスト抽出部と、前記テキスト抽出部が抽出した前記テキスト情報に優先度を設定する優先度設定部と、前記テキスト抽出部が抽出した前記テキスト情報を、前記優先度設定部で設定した優先度が高い順に音声に変換して出力する音声出力部と、を備え、前記優先度設定部は、前記テキスト情報と前記カテゴリー特定部が特定した場所のカテゴリーとの関連度が高いほど設定する優先度を高くする。
【発明の効果】
【0008】
本開示によれば、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置、テキスト読み上げ装置の制御方法、及びプログラムができる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、本開示に係るテキスト読み上げ装置の概要を示す模式図である。
【
図2】
図2は、本開示に係るテキスト読み上げ装置の構成を示す図である。
【
図3】
図3は、本開示に係るテキスト読み上げ装置のテキスト抽出部が抽出したテキスト情報の一例を示す図である。
【
図4】
図4は、本開示に係るテキスト読み上げ装置の優先度設定部が設定したテキスト情報の優先度の一例を示す図である。
【
図5】
図5は、本開示に係るテキスト読み上げ装置において、新たなテキスト情報が検出されたときの処理のフローを示すフローチャートである。
【
図6】
図6は、本開示に係るテキスト読み上げ装置において、映像データからテキスト情報が消えたときの処理のフローを示すフローチャートである。
【発明を実施するための形態】
【0010】
以下に、本発明の実施形態を図面に基づいて詳細に説明する。なお、以下に説明する実施形態により本発明が限定されるものではない。
【0011】
(テキスト読み上げ装置の概要)
まず、
図1を用いて、本開示に係るテキスト読み上げ装置100の概要について説明する。
図1は、本開示に係るテキスト読み上げ装置の概要を示す模式図である。
図1に示すように、本開示に係るテキスト読み上げ装置100は、ユーザが頭部に装着して用いる態様のデバイス、すなわちウェアラブル端末であってよい。
図1に示すように、本開示に係るテキスト読み上げ装置100は、撮像部140と、スピーカー170を備える。テキスト読み上げ装置100は、これら以外の構成も備えるが、これら以外の構成については後述して説明する。
【0012】
なお、本開示に係るテキスト読み上げ装置100の態様は、
図1に示す態様のデバイスに限定されることなく、
図1には図示しないその他の態様のデバイスであってもよい。
【0013】
図1に示す態様のテキスト読み上げ装置100は、例えば頭部装着型のデバイスであって、後述して説明する撮像部140により撮像された画像からリアルタイムにテキスト情報を抽出して、音声による読み上げを行う。テキスト読み上げ装置100によるテキストの読み上げは、画像を解析してテキストとの距離、大きさ、色、書体、発光のパターン、現在地などの情報から優先順位をつけ、優先度順に行う。それぞれのテキストには、優先度や読み上げ不要などの情報をタグとして付加して管理することで効率の良いユーザの視覚補助を行う。本実施形態に係るテキスト読み上げ装置100は、視覚に障害を持つユーザはもちろんのこと、視覚に障害を持たないユーザも使用可能である。
【0014】
(テキスト読み上げ装置の構成)
次に、本開示に係るテキスト読み上げ装置100の構成について、
図2を用いて説明する。
図2は、本開示に係るテキスト読み上げ装置の構成を示す図である。
図2に示すように、本開示に係るテキスト読み上げ装置100は、通信部110と、記憶部120と、制御部130と、撮像部140と、測距センサ150と、位置情報センサ160と、スピーカー170を備える。以下のこれらの構成について、順を追って説明する。
【0015】
通信部110は、テキスト読み上げ装置100とその他の装置の間において、相互に情報の送受信を行う。通信部110は、例えば、無線LAN(Local Area Network)カード、Bluetooth(登録商標)モジュール、Wi-Fi(登録商標)モジュール、アンテナ等によって実現されてよい。
【0016】
記憶部120は、各種の情報を記憶する記憶装置である。記憶部120は、主記憶装置と補助記憶装置により実現されてよい。主記憶装置は、例えばRAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)等のような半導体メモリ素子によって実現されてよい。また、補助記憶装置は、例えばハードディスクやSSD(Solid State Drive)、光ディスク等によって実現されてよい。
【0017】
図2に示すように、記憶部120は、映像データ記憶部121と、地図情報記憶部122を含む。
【0018】
映像データ記憶部121は、撮像部140が撮像した映像データを記憶する。映像データ記憶部121には、映像データに対して、識別子を付与して、個々の映像データを識別可能にして、撮像部140が撮像した映像データが記憶されていてよい。また、映像データのデータ形式は、任意の形式であってよく、例えば、MPEG4などであってよい。
【0019】
地図情報記憶部122は、地図情報を記憶する。地図情報記憶部122が記憶する地図情報は、緑地や河川、道路、鉄道の駅、空港、店舗、イベント会場などの場所にまつわるカテゴリーに関する情報や、都道府県等の区画の情報が含まれる。地図情報は、緯度、及び経度に基づいて、所定のメッシュ状に区切られた情報であってよい。この場合、地図情報は、緯度、及び経度に基づいて、所定のメッシュ状に区切れていることから、緯度と、経度と、メッシュの寸法を指定することにより、所定の位置を含む領域の地図情報を読み出すことができる。
【0020】
制御部130は、テキスト読み上げ装置100を司り、制御するコントローラ(controller)である。制御部130は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、記憶部120に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、例えばASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
【0021】
図2に示すように、制御部130は、映像データ取得部131と、位置情報取得部132と、テキスト抽出部133と、カテゴリー特定部134と、優先度設定部135と、音声出力部136を備える。制御部130は、記憶部120からプログラムを読み出して実行することで、これらの構成を実現して、これらの処理を実行する。なお、制御部130は、1つのCPUによってこれらの処理を実行してもよいし、複数のCPUを備えて、複数のCPUで、これらの処理を並列に実行してもよい。以下、これらの構成について順に説明する。
【0022】
映像データ取得部131は、ユーザの周囲の映像を含む映像データを取得する。すなわち、映像データ取得部131は、撮像部140が撮像したユーザの周囲の映像を含む映像データを取得する。映像データ取得部131は、撮像部140から映像データを取得したら、取得した映像データを映像データ記憶部121に記憶する。
【0023】
位置情報取得部132は、ユーザの位置を示す位置情報を取得する。すなわち、位置情報取得部132は、後述して説明する位置情報センサ160から位置情報センサ160が計測した位置情報を取得する。位置情報取得部132は、位置情報センサ160から位置情報を取得したら、取得した位置情報をカテゴリー特定部134に出力する。
【0024】
テキスト抽出部133は、映像データ取得部131が取得した映像データに基づいて、映像データに含まれるテキストを示すテキスト情報を抽出する。なお、ここで、テキストは、文字や文字列、文章を意味する。テキスト抽出部133は、例えば、光学文字認識(OCR:Optical Character Recognition)の技術を用いて実現されてよい。ここで、光学文字認識とは、画像認識を用いて、画像中に現れるテキストを書き起こして、テキストデータに変換する技術である。例えば、画像認識技術を用いて画像中に含まれるテキストを検出するモデルと、検出したテキストを分類してテキストデータとして認識するモデルによって構成されてよい。これらのモデルは、例えば、ニューラルネットワーク(Neural Network)により実現される。テキスト抽出部133は、映像データ取得部131が取得した映像データのフレームごとに、光学文字認識を実行して、映像データに含まれるテキスト情報を抽出してよい。
【0025】
ここで、テキスト抽出部133が抽出したテキスト情報の一例について、
図3を用いて説明する。
図3は、本開示に係るテキスト読み上げ装置のテキスト抽出部が抽出したテキスト情報の一例を示す図である。
図3に示すように、テキスト抽出部133は、映像データ取得部131が取得した映像データから、画像中に現れるテキストを抽出して、テキスト情報として抽出する。
図3には、映像データからテキスト情報として、「中央改札 出口」、「羽田空港 品川 新橋 浅草 方面」、「中央改札 出口 エレベータ行 通路」、「○○営業センター」、「非常停止ボタン」、「××コンビニ」というテキストが抽出されたことが示されている。
図3に示すように、テキスト抽出部133は、抽出したテキスト情報ごとに、テキスト情報を識別する識別子である「ID」を付与してもよい。
【0026】
カテゴリー特定部134は、位置情報取得部132が取得した位置情報と、位置情報が示すユーザの位置を含む領域に関する地図情報に基づいて、ユーザが位置する場所のカテゴリーを特定する。まず、カテゴリー特定部134は、位置情報取得部132が取得した位置情報が示すユーザの位置を含む領域に関する地図情報を地図情報記憶部122から読み出す。そして、カテゴリー特定部134は、ユーザの位置を含む領域に関する地図情報が示すカテゴリーを特定する。具体的には、カテゴリー特定部134は、地図情報に含まれるカテゴリーを参照することによって、ユーザが位置する場所のカテゴリーを特定する。なお、カテゴリー特定部134は、位置情報が示すユーザの位置を含む領域に関する地図情報を、通信部110を介して外部の地図情報を提供するサーバ装置から取得してもよい。
【0027】
優先度設定部135は、テキスト抽出部133が抽出したテキスト情報に優先度を設定する。すなわち、優先度設定部135は、テキスト抽出部133が抽出した複数のテキスト情報に対して、それぞれに優先度を設定する。ここで、優先度とは、テキスト情報を読み上げる順番を決定する際に基準となる指標であって、優先度が高いほど、テキスト情報の読み上げる順番が早くなる。優先度設定部135は、抽出されたテキスト情報の集合体に関して、特定のパターンや規則によってグルーピングを行ったものを同一の優先度とし、映像の解析によって、テキストの位置、ユーザからの距離、テキストの大きさ、色、発光パターンによって優先度をスコア化して、読み上げ候補リストに追加する。
【0028】
優先度設定部135は、テキスト情報とカテゴリー特定部134が特定した場所のカテゴリーとの関連度が高いほど設定する優先度を高くする。優先度設定部135は、ユーザの現在地の場所のカテゴリー(例:駅、空港、店舗、イベント会場など)に応じて、テキスト情報が示すテキストの内容によって優先度のスコアを加算、減算する。例えば、ユーザが駅にいる場合は、テキスト情報が示すテキストが駅の設備や電車に関する情報(エレベータ、改札、出口、券売機、○○方面、○○行)などの情報である場合には高スコアを付ける。その他のカテゴリーに関するテキスト情報についても、同様に高スコアとするテキストを設定してもよい。例えば、ユーザが空港にいる場合は、テキスト情報が示すテキストが、チェックインカウンターや、手荷物検査エリア、両替所、旅行会社カウンターに関する情報である場合に、高スコアを付けてよい。また、ユーザが店舗にいる場合であれば、テキスト情報が示すテキストが、店名に関する情報である場合に、高スコアを付けてよい。また、ユーザがイベント会場にいる場合であれば、テキスト情報が示すテキストが、スタンドや、アリーナに関する情報である場合に、高スコアを付けてよい。
【0029】
優先度設定部135は、テキスト抽出部133が抽出したテキストの映像データにおける位置が中心に近いほど、映像データにおける大きさが大きいほど、映像データの背景とのコントラストが高いほど、優先度のスコアを高く設定する。優先度設定部135は、テキスト抽出部133が抽出したテキスト情報のテキストの位置が中心に近いほど高スコアとする。また、優先度設定部135は、測距センサにより計測された映像内のテキスト情報ごと距離を計測し、テキスト情報の距離が近いほど高スコアとする。また、優先度設定部135は、テキストの大きさが大きいほど高スコアとする。なお、テキストの大きさは、測距センサから得られた検出部分との距離と、映像内のテキストのサイズを積算して算出する。優先度設定部135は、テキストの色や書体に関して、テキスト色と背景のコントラストを算出して大きいほど高スコアとする。また、優先度設定部135は、発光のパターンに関して周囲との輝度コントラストが高いほど高スコアとする。また、優先度設定部135は、テキストが点滅等している場合はスコアを加算する。なお、これらの各要素によるスコアの付け方は、ユーザが任意に選択、カスタマイズできるようにしてもよい。
【0030】
優先度設定部135は、あらかじめユーザ毎に設定された、テキスト毎の優先度に基づいて、抽出したテキスト情報の優先度を設定する。すなわち、記憶部120にテキストごとの優先度に関する情報を記憶しておき、優先度設定部135は、記憶部120に記憶されたテキストごとの優先度に関する情報を読み出して、テキスト毎の優先度に基づいて、抽出したテキスト情報の優先度を設定してもよい。すなわち、あらかじめ記憶されたテキスト毎に設定されたスコアに基づいて、優先度を設定する。
【0031】
ここで、
図4を用いて、優先度設定部135が設定したテキスト情報の優先度の一例について説明する。
図4は、本開示に係るテキスト読み上げ装置の優先度設定部が設定したテキスト情報の優先度の一例を示す図である。なお、
図4に示されるテキスト情報は、読み上げの対象となるテキストを示していることから、
図4に示されるリストを「読み上げリスト」と呼んでもよい。
図4には、「ID」、「読み上げテキスト」、「水平位置」、「垂直位置」、「距離」、「テキストサイズ」、「発光」、「属性」、「位置情報」、「優先度スコア」、「読み上げ順」という項目に係る情報が示されている。
【0032】
「ID」は、テキスト情報を識別する識別子であり、番号によって表される。「読み上げテキスト」は、テキスト情報に含まれるテキストを示す。「水平位置」は、テキスト情報の映像データにおける水平方向の位置を示す。「垂直位置」は、テキスト情報の映像データにおける垂直方向の位置を示す。「距離」は、測距センサ150が計測したテキスト情報の距離を示す。「テキストサイズ」は、テキスト情報が示すテキストの大きさを示す。「発光」は、テキスト情報が発光しているか否かを示す。「属性」は、テキスト情報の属性に関する情報である。「位置情報」は、テキスト情報が抽出されたときのユーザの位置を示す。「優先度スコア」は、テキスト情報の優先度のスコアを示す。「読み上げ順」は、「優先度スコア」に基づいて、決定されたテキスト情報を読み上げる順番を示す。
【0033】
すなわち、優先度設定部135は、「水平位置」、「垂直位置」に基づいて、テキスト情報の映像データにおける位置の中心からの距離を算出する。また、優先度設定部135は、「距離」に基づいて、テキスト情報の距離が近いほど優先度を高スコアとする。また、優先度設定部135は、「テキストサイズ」に基づいて、テキストの大きさが大きいほど優先度を高スコアとする。また、優先度設定部135は、「発光」に基づいて、発光のパターンに関して周囲との輝度コントラストが高いほど優先度を高スコアに設定する。また、優先度設定部135は、「属性」に基づいて、テキスト情報とユーザが位置する場所のカテゴリーとの関連度を判断して、関連度が高いほど優先度を高スコアに設定する。
【0034】
音声出力部136は、テキスト抽出部133が抽出したテキスト情報を、優先度設定部135で設定した優先度が高い順に音声に変換して出力する。すなわち、音声出力部136は、テキスト抽出部133が抽出したテキスト情報が示すテキストに対応付けられた音声を記憶部120から読み出して、スピーカー170に出力させるように制御指令を与える。
【0035】
例えば、優先度設定部135が、
図4に示すように優先度スコアを設定した場合であれば、音声出力部136は、「読み上げ順」に示される順番にしたがって、「中央改札出口」、「羽田空港 品川~」、「中央改札 出口エレベータ行~」、「××コンビニ」、「非常停止ボタン」、「○○営業センター」という順番に沿って、テキスト情報を読み上げるようにスピーカー170に制御指令を与える。
【0036】
撮像部140は、ユーザの周囲の映像を含む映像データを撮像する。撮像部140は、例えばカメラであり、カメラは、光学素子と撮像素子を含む。光学素子は、例えばレンズ、ミラー、プリズム、フィルタなどの光学系を構成する素子である。撮像素子は、光学素子を通して入射した光を電気信号である画像信号に変換する素子である。なお、撮像素子は、例えば、CCD(Charge Coupled Device)センサや、CMOS(Complementary Metal Oxide Semiconductor)センサなどであってよい。
【0037】
測距センサ150は、ユーザの周囲の構造物などの対象との間の距離を計測する。測距センサ150は、レーザ距離センサであってよく、例えば、LiDAR(Light Detection and Ranging)により実現されてよい。LiDARは、近赤外光や可視光、紫外線を対象物に照射して、対象物からの反射光を光センサで捉えることにより、対象物との距離を測定する。また、測距センサ150は、ToF(Time of Flight)方式を用いて、画像の位置ごとに対象物との間の距離を計測してよい。この場合、測距センサ150は、投光素子と、受光素子と、を備え、投光素子から発せられた光子が物体に当たり、反射した反射光を受光素子で受光するまでの時間を計測することで物体までの距離を計測する。
【0038】
位置情報センサ160は、テキスト読み上げ装置100の位置情報を計測する。位置情報センサ160は、例えば、GPS(Global Positioning System)センサであってよい。GPSセンサは、GPS衛星から送信される電波を受信する受信機を備える。GPSセンサは、複数のGPS衛星から送信される電波を受信し、電波を受信した時刻と、GPS衛星が電波を発信した時刻との差を用いて、GPS衛星からテキスト読み上げ装置100までの距離を算出することによって、テキスト読み上げ装置100の現在位置(例えば、緯度、及び経度)、すなわちユーザの現在位置を計測する。
【0039】
スピーカー170は、音声出力部136の制御指令にしたがって音声を出力する。すなわち、スピーカー170は、音声出力部136の制御指令に基づいて、優先度設定部135が設定した優先度が高い順にテキスト情報を読み上げる音声を出力する。スピーカー170は、電気信号をダイヤフラムにより音に変換する。すなわち、スピーカー170は、音声出力部136から電気信号により与えられる制御指令に基づいて、ダイヤフラムを所定の振幅、振動数によって振動させることにより、ダイヤフラムに接している空気を振動させて音を出力する。
【0040】
(テキスト読み上げ装置100の第一の処理のフロー)
次に、本開示に係るテキスト読み上げ装置100の第一の処理について、
図5を用いて説明する。
図5は、本開示に係るテキスト読み上げ装置において、新たなテキスト情報が検出されたときの処理のフローを示すフローチャートである。
図5に示すフローチャートに沿って、本開示に係るテキスト読み上げ装置100の第一の処理について説明する。
【0041】
まず、テキスト抽出部133が新たなテキスト情報を抽出したとする(ステップS101)。この場合、優先度設定部135は、抽出された新たなテキスト情報に対して、優先度を付ける(ステップS102)。優先度設定部135は、読み上げリストに登録されているテキストの数がN個であるか否か判定する(ステップS103)。なお、Nは、読み上げリストに登録するテキストの最大数であり、固定数であってもよいし、ユーザが予め任意に設定してもよい。テキストの数がNの場合(ステップS103:Yes)、優先度設定部135は、新たなテキスト情報に対して付与された優先度と、先に抽出されたテキスト情報に対して付与された読み上げリストにおいて優先度が最低の値のテキスト情報の優先度とを比較して、新たなテキスト情報に対して付与された優先度が高いか否かを判定する(ステップS104)。新たなテキスト情報に対して付与された優先度が高い場合(ステップS104:Yes)、新たなテキスト情報を読み上げリストに追加する(ステップS105)。次に、優先度設定部135は、読み上げリストの優先度が最低の値のテキスト情報を削除(ステップS106)して、ステップS101の処理に戻って、ステップS101以降の処理を繰り返して実行する。
【0042】
テキストの数がNではない場合(ステップS103:No)、テキスト読み上げ装置100は、新たなテキスト情報を読み上げリストに追加する(ステップS108)。そして、テキスト読み上げ装置100は、ステップS101の処理に戻って、ステップS101以降の処理を繰り返して実行する。
【0043】
なお、新たなテキスト情報に対して付与された優先度が低い場合(ステップS104:No)、テキスト読み上げ装置100は、新たなテキスト情報を読み上げリストに追加しない(ステップS107)。そして、テキスト読み上げ装置100は、ステップS101の処理に戻って、ステップS101以降の処理を繰り返して実行する。
【0044】
これにより、テキスト読み上げ装置100が、新たなテキスト情報を抽出した場合であっても、新たなテキスト情報に対して優先度を設定して、適切な順序で抽出した新たなテキスト情報を読み上げることができる。そのため、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置100を提供することができる。
【0045】
(テキスト読み上げ装置100の第二の処理のフロー)
次に、本開示に係るテキスト読み上げ装置100の第二の処理について、
図6を用いて説明する。
図6は、本開示に係るテキスト読み上げ装置において、映像データからテキスト情報が消えたときの処理のフローを示すフローチャートである。
図6に示すフローチャートに沿って、本開示に係るテキスト読み上げ装置100の第二の処理について説明する。
【0046】
まず、テキスト読み上げ装置100が取得した映像データから先に抽出されたテキスト情報が消えたとする(ステップS201)。次に、テキスト読み上げ装置100は、位置情報を取得する(ステップS202)。次に、テキスト読み上げ装置100は、取得した位置情報と、当該のテキスト情報を抽出した時の位置情報を比較して、当該のテキスト情報を抽出した時の位置から近いか否かを判定する(ステップS203)。なお、当該のテキスト情報を抽出した時の位置から近いか否かを判定する基準は、例えば、先に抽出されたテキスト情報が消えた時の位置と、当該のテキスト情報が消えた時の位置が、所定の距離の範囲内であるか否かを基準に判定してよい。当該のテキスト情報を抽出した時の位置から近い場合(ステップS203:Yes)、テキスト読み上げ装置100は、先に抽出されたテキスト情報を読み上げリストに維持する(ステップS204)。次に、優先度設定部135は、必要に応じて先に抽出されたテキスト情報の優先度を変更する(ステップS205)。そして、テキスト読み上げ装置100は、ステップS201の処理に戻って、ステップS201以降の処理を繰り返して実行する。
【0047】
なお、当該のテキスト情報を抽出した時の位置から近くない場合(ステップS203:No)、優先度設定部135は、先に抽出されたテキスト情報を読み上げリストから削除する(ステップS206)。そして、テキスト読み上げ装置100は、ステップS201の処理に戻って、ステップS201以降の処理を繰り返して実行する。
【0048】
これにより、テキスト読み上げ装置100が、先に抽出したテキスト情報が映像データから消えた場合に、先に抽出したテキスト情報が消えた位置に応じて、適切に順序を設定して、テキスト情報を読み上げることができる。そのため、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置100を提供することができる。
【0049】
(構成と効果)
本開示に係るテキスト読み上げ装置100は、ユーザの周囲の映像を含む映像データを取得する映像データ取得部131と、ユーザの位置を示す位置情報を取得する位置情報取得部132と、位置情報取得部132が取得した位置情報と、位置情報が示すユーザの位置を含む領域に関する地図情報とに基づいて、ユーザが位置する場所のカテゴリーを特定するカテゴリー特定部134と、映像データ取得部131が取得した映像データに基づいて、映像データに含まれるテキストを示すテキスト情報を抽出するテキスト抽出部133と、テキスト抽出部133が抽出したテキスト情報に優先度を設定する優先度設定部135と、テキスト抽出部133が抽出したテキスト情報を、優先度設定部135で設定した優先度が高い順に音声に変換して出力する音声出力部136と、を備え、優先度設定部135は、テキスト情報とカテゴリー特定部134が特定した場所のカテゴリーとの関連度が高いほど設定する優先度を高くする。
【0050】
この構成によれば、テキスト情報とユーザの位置する場所のカテゴリーとの関連度が高いほど優先度を高く設定して、カテゴリーとの関連度が高い順にテキスト情報を読み上げることができる。そのため、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置100を提供することができる。
【0051】
本開示に係るテキスト読み上げ装置100の優先度設定部135は、テキスト抽出部133が抽出したテキスト情報について、映像データにおける位置、映像データにおける大きさ、映像データの背景とのコントラストの大きさの、少なくともいずれかに基づいて、優先度を設定する。
【0052】
この構成によれば、抽出したテキストの映像データにおける位置、映像データにおける大きさ、映像データの背景とのコントラストの大きさの、少なくともいずれかに基づいて、優先度を設定することができる。そのため、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置100を提供することができる。
【0053】
本開示に係るテキスト読み上げ装置100の優先度設定部135は、あらかじめユーザ毎に設定された、テキスト毎の優先度に基づいて、抽出したテキスト情報の優先度を設定する。
【0054】
この構成によれば、あらかじめユーザ毎に設定されたテキスト毎の優先度に基づいて、テキスト抽出部133が抽出したテキスト情報の優先度を設定することができる。そのため、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置100を提供することができる。
【0055】
本開示に係るテキスト読み上げ装置の制御方法は、ユーザの周囲の映像を含む映像データを取得するステップと、ユーザの位置を示す位置情報を取得するステップと、取得した位置情報と、位置情報が示す位置を含む領域に関する地図情報とに基づいて、ユーザが位置する場所のカテゴリーを特定するステップと、取得した映像データに基づいて、映像データに含まれるテキストを示すテキスト情報を抽出するステップと、抽出したテキスト情報に優先度を設定するステップと、抽出したテキスト情報を、設定した優先度が高い順に音声に変換して出力するステップと、を備え、優先度を設定するステップにおいては、テキスト情報と、特定された場所のカテゴリーとの関連度が高いほど設定する優先度を高くする。
【0056】
この構成によれば、テキスト情報とユーザの位置する場所のカテゴリーとの関連度が高いほど優先度を高く設定して、カテゴリーとの関連度が高い順にテキスト情報を読み上げることができる。そのため、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置の制御方法を提供することができる。
【0057】
本開示に係るプログラムは、ユーザの周囲の映像を含む映像データを取得するステップと、ユーザの位置を示す位置情報を取得するステップと、取得した位置情報と、位置情報が示す位置を含む領域に関する地図情報とに基づいて、ユーザが位置する場所のカテゴリーを特定するステップと、取得した映像データに基づいて、映像データに含まれるテキストを示すテキスト情報を抽出するステップと、抽出したテキスト情報に優先度を設定するステップと、抽出したテキスト情報を、設定した優先度が高い順に音声に変換して出力するステップと、を備え、優先度を設定するステップにおいては、テキスト情報と、特定された場所のカテゴリーとの関連度が高いほど設定する優先度を高くする。
【0058】
この構成によれば、テキスト情報とユーザの位置する場所のカテゴリーとの関連度が高いほど優先度を高く設定して、カテゴリーとの関連度が高い順にテキスト情報を読み上げることができる。そのため、画像中のテキストを適切な順序で読み上げることができるプログラムを提供することができる。
【0059】
以上、本発明の実施形態を説明したが、この実施形態の内容により実施形態が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
【符号の説明】
【0060】
100 テキスト読み上げ装置
110 通信部
120 記憶部
130 制御部
131 映像データ取得部
132 位置情報取得部
133 テキスト抽出部
134 カテゴリー特定部
135 優先度設定部
136 音声出力部
140 撮像部
150 測距センサ
160 位置情報センサ
170 スピーカー