特開2024-112003 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特開2024-112003テキスト読み上げ装置、テキスト読み上げ装置の制御方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024112003

(43)【公開日】2024-08-20

(54)【発明の名称】テキスト読み上げ装置、テキスト読み上げ装置の制御方法、及びプログラム

(51)【国際特許分類】

G06F 3/16 20060101AFI20240813BHJP

G10L 13/08 20130101ALI20240813BHJP

G10L 13/00 20060101ALI20240813BHJP

【ＦＩ】

G06F3/16 690

G06F3/16 610

G10L13/08 124

G10L13/00 100K

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2023016802

(22)【出願日】2023-02-07

(71)【出願人】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】生越大輔

(72)【発明者】

【氏名】竹下浩

(72)【発明者】

【氏名】新井雄太

(72)【発明者】

【氏名】門馬悠生

(72)【発明者】

【氏名】笠原孝幸

(72)【発明者】

【氏名】高谷怜奈

(57)【要約】（修正有）

【課題】画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置、テキスト読み上げ装置の制御方法及びプログラムを提供する。
【解決手段】テキスト読み上げ装置は、ユーザの周囲の映像データを取得する映像データ取得部１３１と、ユーザの位置を取得する位置情報取得部１３２と、位置情報と、ユーザの位置を含む領域に関する地図情報とに基づいて、ユーザが位置する場所のカテゴリーを特定するカテゴリー特定部１３４と、映像データに含まれるテキストを示すテキスト情報を抽出するテキスト抽出部１３３と、テキスト抽出部が抽出したテキスト情報とカテゴリー特定部が特定した場所のカテゴリーとの関連度が高いほど、テキスト情報に高い優先度を設定する優先度設定部１３５と、テキスト抽出部が抽出したテキスト情報を、優先度設定部で設定した優先度が高い順に音声に変換して出力する音声出力部１３６と、を備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

ユーザの周囲の映像を含む映像データを取得する映像データ取得部と、
ユーザの位置を示す位置情報を取得する位置情報取得部と、
前記位置情報取得部が取得した位置情報と、前記位置情報が示すユーザの位置を含む領域に関する地図情報とに基づいて、前記ユーザが位置する場所のカテゴリーを特定するカテゴリー特定部と、
前記映像データ取得部が取得した映像データに基づいて、前記映像データに含まれるテキストを示すテキスト情報を抽出するテキスト抽出部と、
前記テキスト抽出部が抽出した前記テキスト情報に優先度を設定する優先度設定部と、
前記テキスト抽出部が抽出した前記テキスト情報を、前記優先度設定部で設定した優先度が高い順に音声に変換して出力する音声出力部と、を備え、
前記優先度設定部は、前記テキスト情報と前記カテゴリー特定部が特定した場所のカテゴリーとの関連度が高いほど設定する優先度を高くする、
テキスト読み上げ装置。

【請求項2】

前記優先度設定部は、前記テキスト抽出部が抽出した前記テキスト情報について、前記映像データにおける位置、前記映像データにおける大きさ、前記映像データの背景とのコントラストの大きさの、少なくともいずれかに基づいて優先度を設定する、
請求項１に記載のテキスト読み上げ装置。

【請求項3】

前記優先度設定部は、あらかじめユーザ毎に設定されたテキスト毎の優先度に基づいて、前記テキスト抽出部が抽出した前記テキスト情報の優先度を設定する、
請求項１または請求項２に記載のテキスト読み上げ装置。

【請求項4】

ユーザの周囲の映像を含む映像データを取得するステップと、
ユーザの位置を示す位置情報を取得するステップと、
取得した位置情報と、前記位置情報が示す位置を含む領域に関する地図情報とに基づいて、前記ユーザが位置する場所のカテゴリーを特定するステップと、
取得した映像データに基づいて、前記映像データに含まれるテキストを示すテキスト情報を抽出するステップと、
抽出した前記テキスト情報に優先度を設定するステップと、
抽出した前記テキスト情報を、設定した優先度が高い順に音声に変換して出力するステップと、を備え、
前記優先度を設定するステップにおいては、前記テキスト情報と、特定された場所のカテゴリーとの関連度が高いほど設定する優先度を高くする、
テキスト読み上げ装置の制御方法。

【請求項5】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、テキスト読み上げ装置、テキスト読み上げ装置の制御方法、及びプログラムに関する。

【背景技術】

【0002】

視覚に障害を持つユーザは、日常生活を行ううえで街中に掲示される文字によって表される情報を認識することが難しく、日常生活に支障をきたすことがあった。これに対して、例えば、カメラにより撮像された映像から、テキスト情報を音声で読み上げを行う技術や、画像や映像からテキストを抽出し、抽出したテキストを読み上げる技術があった。

【0003】

例えば、下記の特許文献１には、画像中の情報を好適に読み上げる視覚認識支援装置であって、被写体像に含まれる文字列、および物体の少なくともいずれかをオブジェクトとして検出する検出手段と、オブジェクトの称呼を規定するデータベースを参照して、検出手段によって検出されるオブジェクトについての称呼を取得する称呼情報取得手段と、少なくともユーザに対して音声を出力するスピーカーと、一つの被写体像から複数のオブジェクトが検出される場合において、それぞれのオブジェクトに対し称呼情報取得手段によって取得される称呼を、スピーカーを介して並列的に読み上げる読み上げ制御手段と、を備える視覚認識支援装置が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１６－１９４６１２号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記の特許文献１に記載の視覚認識支援装置は、画像中に複数のオブジェクトが認識された場合に、スピーカーを介して並列的に読み上げることはできるものの、画像中に認識されたテキストの内容に優先度をつけて読み上げることができなかった。

【0006】

本開示は上記課題を鑑み、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置、テキスト読み上げ装置の制御方法、及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

上述した課題を解決し、目的を達成するために、本開示に係るテキスト読み上げ装置は、ユーザの周囲の映像を含む映像データを取得する映像データ取得部と、ユーザの位置を示す位置情報を取得する位置情報取得部と、前記位置情報取得部が取得した位置情報と、前記位置情報が示すユーザの位置を含む領域に関する地図情報とに基づいて、前記ユーザが位置する場所のカテゴリーを特定するカテゴリー特定部と、前記映像データ取得部が取得した映像データに基づいて、前記映像データに含まれるテキストを示すテキスト情報を抽出するテキスト抽出部と、前記テキスト抽出部が抽出した前記テキスト情報に優先度を設定する優先度設定部と、前記テキスト抽出部が抽出した前記テキスト情報を、前記優先度設定部で設定した優先度が高い順に音声に変換して出力する音声出力部と、を備え、前記優先度設定部は、前記テキスト情報と前記カテゴリー特定部が特定した場所のカテゴリーとの関連度が高いほど設定する優先度を高くする。

【発明の効果】

【0008】

本開示によれば、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置、テキスト読み上げ装置の制御方法、及びプログラムができる。

【図面の簡単な説明】

【0009】

【図1】図１は、本開示に係るテキスト読み上げ装置の概要を示す模式図である。

【図2】図２は、本開示に係るテキスト読み上げ装置の構成を示す図である。

【図3】図３は、本開示に係るテキスト読み上げ装置のテキスト抽出部が抽出したテキスト情報の一例を示す図である。

【図4】図４は、本開示に係るテキスト読み上げ装置の優先度設定部が設定したテキスト情報の優先度の一例を示す図である。

【図5】図５は、本開示に係るテキスト読み上げ装置において、新たなテキスト情報が検出されたときの処理のフローを示すフローチャートである。

【図6】図６は、本開示に係るテキスト読み上げ装置において、映像データからテキスト情報が消えたときの処理のフローを示すフローチャートである。

【発明を実施するための形態】

【0010】

以下に、本発明の実施形態を図面に基づいて詳細に説明する。なお、以下に説明する実施形態により本発明が限定されるものではない。

【0011】

（テキスト読み上げ装置の概要）
まず、図１を用いて、本開示に係るテキスト読み上げ装置１００の概要について説明する。図１は、本開示に係るテキスト読み上げ装置の概要を示す模式図である。図１に示すように、本開示に係るテキスト読み上げ装置１００は、ユーザが頭部に装着して用いる態様のデバイス、すなわちウェアラブル端末であってよい。図１に示すように、本開示に係るテキスト読み上げ装置１００は、撮像部１４０と、スピーカー１７０を備える。テキスト読み上げ装置１００は、これら以外の構成も備えるが、これら以外の構成については後述して説明する。

【0012】

なお、本開示に係るテキスト読み上げ装置１００の態様は、図１に示す態様のデバイスに限定されることなく、図１には図示しないその他の態様のデバイスであってもよい。

【0013】

図１に示す態様のテキスト読み上げ装置１００は、例えば頭部装着型のデバイスであって、後述して説明する撮像部１４０により撮像された画像からリアルタイムにテキスト情報を抽出して、音声による読み上げを行う。テキスト読み上げ装置１００によるテキストの読み上げは、画像を解析してテキストとの距離、大きさ、色、書体、発光のパターン、現在地などの情報から優先順位をつけ、優先度順に行う。それぞれのテキストには、優先度や読み上げ不要などの情報をタグとして付加して管理することで効率の良いユーザの視覚補助を行う。本実施形態に係るテキスト読み上げ装置１００は、視覚に障害を持つユーザはもちろんのこと、視覚に障害を持たないユーザも使用可能である。

【0014】

（テキスト読み上げ装置の構成）
次に、本開示に係るテキスト読み上げ装置１００の構成について、図２を用いて説明する。図２は、本開示に係るテキスト読み上げ装置の構成を示す図である。図２に示すように、本開示に係るテキスト読み上げ装置１００は、通信部１１０と、記憶部１２０と、制御部１３０と、撮像部１４０と、測距センサ１５０と、位置情報センサ１６０と、スピーカー１７０を備える。以下のこれらの構成について、順を追って説明する。

【0015】

通信部１１０は、テキスト読み上げ装置１００とその他の装置の間において、相互に情報の送受信を行う。通信部１１０は、例えば、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）カード、Ｂｌｕｅｔｏｏｔｈ（登録商標）モジュール、Ｗｉ－Ｆｉ（登録商標）モジュール、アンテナ等によって実現されてよい。

【0016】

記憶部１２０は、各種の情報を記憶する記憶装置である。記憶部１２０は、主記憶装置と補助記憶装置により実現されてよい。主記憶装置は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）等のような半導体メモリ素子によって実現されてよい。また、補助記憶装置は、例えばハードディスクやＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク等によって実現されてよい。

【0017】

図２に示すように、記憶部１２０は、映像データ記憶部１２１と、地図情報記憶部１２２を含む。

【0018】

映像データ記憶部１２１は、撮像部１４０が撮像した映像データを記憶する。映像データ記憶部１２１には、映像データに対して、識別子を付与して、個々の映像データを識別可能にして、撮像部１４０が撮像した映像データが記憶されていてよい。また、映像データのデータ形式は、任意の形式であってよく、例えば、ＭＰＥＧ４などであってよい。

【0019】

地図情報記憶部１２２は、地図情報を記憶する。地図情報記憶部１２２が記憶する地図情報は、緑地や河川、道路、鉄道の駅、空港、店舗、イベント会場などの場所にまつわるカテゴリーに関する情報や、都道府県等の区画の情報が含まれる。地図情報は、緯度、及び経度に基づいて、所定のメッシュ状に区切られた情報であってよい。この場合、地図情報は、緯度、及び経度に基づいて、所定のメッシュ状に区切れていることから、緯度と、経度と、メッシュの寸法を指定することにより、所定の位置を含む領域の地図情報を読み出すことができる。

【0020】

制御部１３０は、テキスト読み上げ装置１００を司り、制御するコントローラ（ｃｏｎｔｒｏｌｌｅｒ）である。制御部１３０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等によって、記憶部１２０に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えばＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の集積回路により実現されてもよい。

【0021】

図２に示すように、制御部１３０は、映像データ取得部１３１と、位置情報取得部１３２と、テキスト抽出部１３３と、カテゴリー特定部１３４と、優先度設定部１３５と、音声出力部１３６を備える。制御部１３０は、記憶部１２０からプログラムを読み出して実行することで、これらの構成を実現して、これらの処理を実行する。なお、制御部１３０は、１つのＣＰＵによってこれらの処理を実行してもよいし、複数のＣＰＵを備えて、複数のＣＰＵで、これらの処理を並列に実行してもよい。以下、これらの構成について順に説明する。

【0022】

映像データ取得部１３１は、ユーザの周囲の映像を含む映像データを取得する。すなわち、映像データ取得部１３１は、撮像部１４０が撮像したユーザの周囲の映像を含む映像データを取得する。映像データ取得部１３１は、撮像部１４０から映像データを取得したら、取得した映像データを映像データ記憶部１２１に記憶する。

【0023】

位置情報取得部１３２は、ユーザの位置を示す位置情報を取得する。すなわち、位置情報取得部１３２は、後述して説明する位置情報センサ１６０から位置情報センサ１６０が計測した位置情報を取得する。位置情報取得部１３２は、位置情報センサ１６０から位置情報を取得したら、取得した位置情報をカテゴリー特定部１３４に出力する。

【0024】

テキスト抽出部１３３は、映像データ取得部１３１が取得した映像データに基づいて、映像データに含まれるテキストを示すテキスト情報を抽出する。なお、ここで、テキストは、文字や文字列、文章を意味する。テキスト抽出部１３３は、例えば、光学文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ)の技術を用いて実現されてよい。ここで、光学文字認識とは、画像認識を用いて、画像中に現れるテキストを書き起こして、テキストデータに変換する技術である。例えば、画像認識技術を用いて画像中に含まれるテキストを検出するモデルと、検出したテキストを分類してテキストデータとして認識するモデルによって構成されてよい。これらのモデルは、例えば、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）により実現される。テキスト抽出部１３３は、映像データ取得部１３１が取得した映像データのフレームごとに、光学文字認識を実行して、映像データに含まれるテキスト情報を抽出してよい。

【0025】

ここで、テキスト抽出部１３３が抽出したテキスト情報の一例について、図３を用いて説明する。図３は、本開示に係るテキスト読み上げ装置のテキスト抽出部が抽出したテキスト情報の一例を示す図である。図３に示すように、テキスト抽出部１３３は、映像データ取得部１３１が取得した映像データから、画像中に現れるテキストを抽出して、テキスト情報として抽出する。図３には、映像データからテキスト情報として、「中央改札出口」、「羽田空港品川新橋浅草方面」、「中央改札出口エレベータ行通路」、「○○営業センター」、「非常停止ボタン」、「××コンビニ」というテキストが抽出されたことが示されている。図３に示すように、テキスト抽出部１３３は、抽出したテキスト情報ごとに、テキスト情報を識別する識別子である「ＩＤ」を付与してもよい。

【0026】

カテゴリー特定部１３４は、位置情報取得部１３２が取得した位置情報と、位置情報が示すユーザの位置を含む領域に関する地図情報に基づいて、ユーザが位置する場所のカテゴリーを特定する。まず、カテゴリー特定部１３４は、位置情報取得部１３２が取得した位置情報が示すユーザの位置を含む領域に関する地図情報を地図情報記憶部１２２から読み出す。そして、カテゴリー特定部１３４は、ユーザの位置を含む領域に関する地図情報が示すカテゴリーを特定する。具体的には、カテゴリー特定部１３４は、地図情報に含まれるカテゴリーを参照することによって、ユーザが位置する場所のカテゴリーを特定する。なお、カテゴリー特定部１３４は、位置情報が示すユーザの位置を含む領域に関する地図情報を、通信部１１０を介して外部の地図情報を提供するサーバ装置から取得してもよい。

【0027】

優先度設定部１３５は、テキスト抽出部１３３が抽出したテキスト情報に優先度を設定する。すなわち、優先度設定部１３５は、テキスト抽出部１３３が抽出した複数のテキスト情報に対して、それぞれに優先度を設定する。ここで、優先度とは、テキスト情報を読み上げる順番を決定する際に基準となる指標であって、優先度が高いほど、テキスト情報の読み上げる順番が早くなる。優先度設定部１３５は、抽出されたテキスト情報の集合体に関して、特定のパターンや規則によってグルーピングを行ったものを同一の優先度とし、映像の解析によって、テキストの位置、ユーザからの距離、テキストの大きさ、色、発光パターンによって優先度をスコア化して、読み上げ候補リストに追加する。

【0028】

優先度設定部１３５は、テキスト情報とカテゴリー特定部１３４が特定した場所のカテゴリーとの関連度が高いほど設定する優先度を高くする。優先度設定部１３５は、ユーザの現在地の場所のカテゴリー（例：駅、空港、店舗、イベント会場など）に応じて、テキスト情報が示すテキストの内容によって優先度のスコアを加算、減算する。例えば、ユーザが駅にいる場合は、テキスト情報が示すテキストが駅の設備や電車に関する情報（エレベータ、改札、出口、券売機、○○方面、○○行）などの情報である場合には高スコアを付ける。その他のカテゴリーに関するテキスト情報についても、同様に高スコアとするテキストを設定してもよい。例えば、ユーザが空港にいる場合は、テキスト情報が示すテキストが、チェックインカウンターや、手荷物検査エリア、両替所、旅行会社カウンターに関する情報である場合に、高スコアを付けてよい。また、ユーザが店舗にいる場合であれば、テキスト情報が示すテキストが、店名に関する情報である場合に、高スコアを付けてよい。また、ユーザがイベント会場にいる場合であれば、テキスト情報が示すテキストが、スタンドや、アリーナに関する情報である場合に、高スコアを付けてよい。

【0029】

優先度設定部１３５は、テキスト抽出部１３３が抽出したテキストの映像データにおける位置が中心に近いほど、映像データにおける大きさが大きいほど、映像データの背景とのコントラストが高いほど、優先度のスコアを高く設定する。優先度設定部１３５は、テキスト抽出部１３３が抽出したテキスト情報のテキストの位置が中心に近いほど高スコアとする。また、優先度設定部１３５は、測距センサにより計測された映像内のテキスト情報ごと距離を計測し、テキスト情報の距離が近いほど高スコアとする。また、優先度設定部１３５は、テキストの大きさが大きいほど高スコアとする。なお、テキストの大きさは、測距センサから得られた検出部分との距離と、映像内のテキストのサイズを積算して算出する。優先度設定部１３５は、テキストの色や書体に関して、テキスト色と背景のコントラストを算出して大きいほど高スコアとする。また、優先度設定部１３５は、発光のパターンに関して周囲との輝度コントラストが高いほど高スコアとする。また、優先度設定部１３５は、テキストが点滅等している場合はスコアを加算する。なお、これらの各要素によるスコアの付け方は、ユーザが任意に選択、カスタマイズできるようにしてもよい。

【0030】

優先度設定部１３５は、あらかじめユーザ毎に設定された、テキスト毎の優先度に基づいて、抽出したテキスト情報の優先度を設定する。すなわち、記憶部１２０にテキストごとの優先度に関する情報を記憶しておき、優先度設定部１３５は、記憶部１２０に記憶されたテキストごとの優先度に関する情報を読み出して、テキスト毎の優先度に基づいて、抽出したテキスト情報の優先度を設定してもよい。すなわち、あらかじめ記憶されたテキスト毎に設定されたスコアに基づいて、優先度を設定する。

【0031】

ここで、図４を用いて、優先度設定部１３５が設定したテキスト情報の優先度の一例について説明する。図４は、本開示に係るテキスト読み上げ装置の優先度設定部が設定したテキスト情報の優先度の一例を示す図である。なお、図４に示されるテキスト情報は、読み上げの対象となるテキストを示していることから、図４に示されるリストを「読み上げリスト」と呼んでもよい。図４には、「ＩＤ」、「読み上げテキスト」、「水平位置」、「垂直位置」、「距離」、「テキストサイズ」、「発光」、「属性」、「位置情報」、「優先度スコア」、「読み上げ順」という項目に係る情報が示されている。

【0032】

「ＩＤ」は、テキスト情報を識別する識別子であり、番号によって表される。「読み上げテキスト」は、テキスト情報に含まれるテキストを示す。「水平位置」は、テキスト情報の映像データにおける水平方向の位置を示す。「垂直位置」は、テキスト情報の映像データにおける垂直方向の位置を示す。「距離」は、測距センサ１５０が計測したテキスト情報の距離を示す。「テキストサイズ」は、テキスト情報が示すテキストの大きさを示す。「発光」は、テキスト情報が発光しているか否かを示す。「属性」は、テキスト情報の属性に関する情報である。「位置情報」は、テキスト情報が抽出されたときのユーザの位置を示す。「優先度スコア」は、テキスト情報の優先度のスコアを示す。「読み上げ順」は、「優先度スコア」に基づいて、決定されたテキスト情報を読み上げる順番を示す。

【0033】

すなわち、優先度設定部１３５は、「水平位置」、「垂直位置」に基づいて、テキスト情報の映像データにおける位置の中心からの距離を算出する。また、優先度設定部１３５は、「距離」に基づいて、テキスト情報の距離が近いほど優先度を高スコアとする。また、優先度設定部１３５は、「テキストサイズ」に基づいて、テキストの大きさが大きいほど優先度を高スコアとする。また、優先度設定部１３５は、「発光」に基づいて、発光のパターンに関して周囲との輝度コントラストが高いほど優先度を高スコアに設定する。また、優先度設定部１３５は、「属性」に基づいて、テキスト情報とユーザが位置する場所のカテゴリーとの関連度を判断して、関連度が高いほど優先度を高スコアに設定する。

【0034】

音声出力部１３６は、テキスト抽出部１３３が抽出したテキスト情報を、優先度設定部１３５で設定した優先度が高い順に音声に変換して出力する。すなわち、音声出力部１３６は、テキスト抽出部１３３が抽出したテキスト情報が示すテキストに対応付けられた音声を記憶部１２０から読み出して、スピーカー１７０に出力させるように制御指令を与える。

【0035】

例えば、優先度設定部１３５が、図４に示すように優先度スコアを設定した場合であれば、音声出力部１３６は、「読み上げ順」に示される順番にしたがって、「中央改札出口」、「羽田空港品川～」、「中央改札出口エレベータ行～」、「××コンビニ」、「非常停止ボタン」、「○○営業センター」という順番に沿って、テキスト情報を読み上げるようにスピーカー１７０に制御指令を与える。

【0036】

撮像部１４０は、ユーザの周囲の映像を含む映像データを撮像する。撮像部１４０は、例えばカメラであり、カメラは、光学素子と撮像素子を含む。光学素子は、例えばレンズ、ミラー、プリズム、フィルタなどの光学系を構成する素子である。撮像素子は、光学素子を通して入射した光を電気信号である画像信号に変換する素子である。なお、撮像素子は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）センサや、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサなどであってよい。

【0037】

測距センサ１５０は、ユーザの周囲の構造物などの対象との間の距離を計測する。測距センサ１５０は、レーザ距離センサであってよく、例えば、ＬｉＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）により実現されてよい。ＬｉＤＡＲは、近赤外光や可視光、紫外線を対象物に照射して、対象物からの反射光を光センサで捉えることにより、対象物との距離を測定する。また、測距センサ１５０は、ＴｏＦ（ＴｉｍｅｏｆＦｌｉｇｈｔ）方式を用いて、画像の位置ごとに対象物との間の距離を計測してよい。この場合、測距センサ１５０は、投光素子と、受光素子と、を備え、投光素子から発せられた光子が物体に当たり、反射した反射光を受光素子で受光するまでの時間を計測することで物体までの距離を計測する。

【0038】

位置情報センサ１６０は、テキスト読み上げ装置１００の位置情報を計測する。位置情報センサ１６０は、例えば、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）センサであってよい。ＧＰＳセンサは、ＧＰＳ衛星から送信される電波を受信する受信機を備える。ＧＰＳセンサは、複数のＧＰＳ衛星から送信される電波を受信し、電波を受信した時刻と、ＧＰＳ衛星が電波を発信した時刻との差を用いて、ＧＰＳ衛星からテキスト読み上げ装置１００までの距離を算出することによって、テキスト読み上げ装置１００の現在位置（例えば、緯度、及び経度）、すなわちユーザの現在位置を計測する。

【0039】

スピーカー１７０は、音声出力部１３６の制御指令にしたがって音声を出力する。すなわち、スピーカー１７０は、音声出力部１３６の制御指令に基づいて、優先度設定部１３５が設定した優先度が高い順にテキスト情報を読み上げる音声を出力する。スピーカー１７０は、電気信号をダイヤフラムにより音に変換する。すなわち、スピーカー１７０は、音声出力部１３６から電気信号により与えられる制御指令に基づいて、ダイヤフラムを所定の振幅、振動数によって振動させることにより、ダイヤフラムに接している空気を振動させて音を出力する。

【0040】

（テキスト読み上げ装置１００の第一の処理のフロー）
次に、本開示に係るテキスト読み上げ装置１００の第一の処理について、図５を用いて説明する。図５は、本開示に係るテキスト読み上げ装置において、新たなテキスト情報が検出されたときの処理のフローを示すフローチャートである。図５に示すフローチャートに沿って、本開示に係るテキスト読み上げ装置１００の第一の処理について説明する。

【0041】

まず、テキスト抽出部１３３が新たなテキスト情報を抽出したとする（ステップＳ１０１）。この場合、優先度設定部１３５は、抽出された新たなテキスト情報に対して、優先度を付ける（ステップＳ１０２）。優先度設定部１３５は、読み上げリストに登録されているテキストの数がＮ個であるか否か判定する（ステップＳ１０３）。なお、Ｎは、読み上げリストに登録するテキストの最大数であり、固定数であってもよいし、ユーザが予め任意に設定してもよい。テキストの数がＮの場合（ステップＳ１０３：Ｙｅｓ）、優先度設定部１３５は、新たなテキスト情報に対して付与された優先度と、先に抽出されたテキスト情報に対して付与された読み上げリストにおいて優先度が最低の値のテキスト情報の優先度とを比較して、新たなテキスト情報に対して付与された優先度が高いか否かを判定する（ステップＳ１０４）。新たなテキスト情報に対して付与された優先度が高い場合（ステップＳ１０４：Ｙｅｓ）、新たなテキスト情報を読み上げリストに追加する（ステップＳ１０５）。次に、優先度設定部１３５は、読み上げリストの優先度が最低の値のテキスト情報を削除（ステップＳ１０６）して、ステップＳ１０１の処理に戻って、ステップＳ１０１以降の処理を繰り返して実行する。

【0042】

テキストの数がＮではない場合（ステップＳ１０３：Ｎｏ）、テキスト読み上げ装置１００は、新たなテキスト情報を読み上げリストに追加する（ステップＳ１０８）。そして、テキスト読み上げ装置１００は、ステップＳ１０１の処理に戻って、ステップＳ１０１以降の処理を繰り返して実行する。

【0043】

なお、新たなテキスト情報に対して付与された優先度が低い場合（ステップＳ１０４：Ｎｏ）、テキスト読み上げ装置１００は、新たなテキスト情報を読み上げリストに追加しない（ステップＳ１０７）。そして、テキスト読み上げ装置１００は、ステップＳ１０１の処理に戻って、ステップＳ１０１以降の処理を繰り返して実行する。

【0044】

これにより、テキスト読み上げ装置１００が、新たなテキスト情報を抽出した場合であっても、新たなテキスト情報に対して優先度を設定して、適切な順序で抽出した新たなテキスト情報を読み上げることができる。そのため、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置１００を提供することができる。

【0045】

（テキスト読み上げ装置１００の第二の処理のフロー）
次に、本開示に係るテキスト読み上げ装置１００の第二の処理について、図６を用いて説明する。図６は、本開示に係るテキスト読み上げ装置において、映像データからテキスト情報が消えたときの処理のフローを示すフローチャートである。図６に示すフローチャートに沿って、本開示に係るテキスト読み上げ装置１００の第二の処理について説明する。

【0046】

まず、テキスト読み上げ装置１００が取得した映像データから先に抽出されたテキスト情報が消えたとする（ステップＳ２０１）。次に、テキスト読み上げ装置１００は、位置情報を取得する（ステップＳ２０２）。次に、テキスト読み上げ装置１００は、取得した位置情報と、当該のテキスト情報を抽出した時の位置情報を比較して、当該のテキスト情報を抽出した時の位置から近いか否かを判定する（ステップＳ２０３）。なお、当該のテキスト情報を抽出した時の位置から近いか否かを判定する基準は、例えば、先に抽出されたテキスト情報が消えた時の位置と、当該のテキスト情報が消えた時の位置が、所定の距離の範囲内であるか否かを基準に判定してよい。当該のテキスト情報を抽出した時の位置から近い場合（ステップＳ２０３：Ｙｅｓ）、テキスト読み上げ装置１００は、先に抽出されたテキスト情報を読み上げリストに維持する（ステップＳ２０４）。次に、優先度設定部１３５は、必要に応じて先に抽出されたテキスト情報の優先度を変更する（ステップＳ２０５）。そして、テキスト読み上げ装置１００は、ステップＳ２０１の処理に戻って、ステップＳ２０１以降の処理を繰り返して実行する。

【0047】

なお、当該のテキスト情報を抽出した時の位置から近くない場合（ステップＳ２０３：Ｎｏ）、優先度設定部１３５は、先に抽出されたテキスト情報を読み上げリストから削除する（ステップＳ２０６）。そして、テキスト読み上げ装置１００は、ステップＳ２０１の処理に戻って、ステップＳ２０１以降の処理を繰り返して実行する。

【0048】

これにより、テキスト読み上げ装置１００が、先に抽出したテキスト情報が映像データから消えた場合に、先に抽出したテキスト情報が消えた位置に応じて、適切に順序を設定して、テキスト情報を読み上げることができる。そのため、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置１００を提供することができる。

【0049】

（構成と効果）
本開示に係るテキスト読み上げ装置１００は、ユーザの周囲の映像を含む映像データを取得する映像データ取得部１３１と、ユーザの位置を示す位置情報を取得する位置情報取得部１３２と、位置情報取得部１３２が取得した位置情報と、位置情報が示すユーザの位置を含む領域に関する地図情報とに基づいて、ユーザが位置する場所のカテゴリーを特定するカテゴリー特定部１３４と、映像データ取得部１３１が取得した映像データに基づいて、映像データに含まれるテキストを示すテキスト情報を抽出するテキスト抽出部１３３と、テキスト抽出部１３３が抽出したテキスト情報に優先度を設定する優先度設定部１３５と、テキスト抽出部１３３が抽出したテキスト情報を、優先度設定部１３５で設定した優先度が高い順に音声に変換して出力する音声出力部１３６と、を備え、優先度設定部１３５は、テキスト情報とカテゴリー特定部１３４が特定した場所のカテゴリーとの関連度が高いほど設定する優先度を高くする。

【0050】

この構成によれば、テキスト情報とユーザの位置する場所のカテゴリーとの関連度が高いほど優先度を高く設定して、カテゴリーとの関連度が高い順にテキスト情報を読み上げることができる。そのため、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置１００を提供することができる。

【0051】

本開示に係るテキスト読み上げ装置１００の優先度設定部１３５は、テキスト抽出部１３３が抽出したテキスト情報について、映像データにおける位置、映像データにおける大きさ、映像データの背景とのコントラストの大きさの、少なくともいずれかに基づいて、優先度を設定する。

【0052】

この構成によれば、抽出したテキストの映像データにおける位置、映像データにおける大きさ、映像データの背景とのコントラストの大きさの、少なくともいずれかに基づいて、優先度を設定することができる。そのため、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置１００を提供することができる。

【0053】

本開示に係るテキスト読み上げ装置１００の優先度設定部１３５は、あらかじめユーザ毎に設定された、テキスト毎の優先度に基づいて、抽出したテキスト情報の優先度を設定する。

【0054】

この構成によれば、あらかじめユーザ毎に設定されたテキスト毎の優先度に基づいて、テキスト抽出部１３３が抽出したテキスト情報の優先度を設定することができる。そのため、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置１００を提供することができる。

【0055】

本開示に係るテキスト読み上げ装置の制御方法は、ユーザの周囲の映像を含む映像データを取得するステップと、ユーザの位置を示す位置情報を取得するステップと、取得した位置情報と、位置情報が示す位置を含む領域に関する地図情報とに基づいて、ユーザが位置する場所のカテゴリーを特定するステップと、取得した映像データに基づいて、映像データに含まれるテキストを示すテキスト情報を抽出するステップと、抽出したテキスト情報に優先度を設定するステップと、抽出したテキスト情報を、設定した優先度が高い順に音声に変換して出力するステップと、を備え、優先度を設定するステップにおいては、テキスト情報と、特定された場所のカテゴリーとの関連度が高いほど設定する優先度を高くする。

【0056】

この構成によれば、テキスト情報とユーザの位置する場所のカテゴリーとの関連度が高いほど優先度を高く設定して、カテゴリーとの関連度が高い順にテキスト情報を読み上げることができる。そのため、画像中のテキストを適切な順序で読み上げることができるテキスト読み上げ装置の制御方法を提供することができる。

【0057】

本開示に係るプログラムは、ユーザの周囲の映像を含む映像データを取得するステップと、ユーザの位置を示す位置情報を取得するステップと、取得した位置情報と、位置情報が示す位置を含む領域に関する地図情報とに基づいて、ユーザが位置する場所のカテゴリーを特定するステップと、取得した映像データに基づいて、映像データに含まれるテキストを示すテキスト情報を抽出するステップと、抽出したテキスト情報に優先度を設定するステップと、抽出したテキスト情報を、設定した優先度が高い順に音声に変換して出力するステップと、を備え、優先度を設定するステップにおいては、テキスト情報と、特定された場所のカテゴリーとの関連度が高いほど設定する優先度を高くする。

【0058】

この構成によれば、テキスト情報とユーザの位置する場所のカテゴリーとの関連度が高いほど優先度を高く設定して、カテゴリーとの関連度が高い順にテキスト情報を読み上げることができる。そのため、画像中のテキストを適切な順序で読み上げることができるプログラムを提供することができる。

【0059】

以上、本発明の実施形態を説明したが、この実施形態の内容により実施形態が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。

【符号の説明】

【0060】

１００テキスト読み上げ装置
１１０通信部
１２０記憶部
１３０制御部
１３１映像データ取得部
１３２位置情報取得部
１３３テキスト抽出部
１３４カテゴリー特定部
１３５優先度設定部
１３６音声出力部
１４０撮像部
１５０測距センサ
１６０位置情報センサ
１７０スピーカー

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版