IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ロゼッタの特許一覧

特開2022-59095認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム
<>
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図1
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図2A
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図2B
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図2C
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図3
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図4
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図5
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図6
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図7
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図8
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図9
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図10
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図11A
  • 特開-認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム 図11B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022059095
(43)【公開日】2022-04-13
(54)【発明の名称】認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラム
(51)【国際特許分類】
   G06V 30/14 20220101AFI20220406BHJP
   G06T 7/20 20170101ALI20220406BHJP
   G06F 3/038 20130101ALI20220406BHJP
   G06F 3/01 20060101ALI20220406BHJP
   G06F 3/0481 20220101ALI20220406BHJP
   G06F 40/58 20200101ALI20220406BHJP
【FI】
G06K9/20 340A
G06T7/20 300Z
G06F3/038 310A
G06F3/01 510
G06F3/0481
G06F17/28 690
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2019026289
(22)【出願日】2019-02-18
(71)【出願人】
【識別番号】504315532
【氏名又は名称】株式会社メタリアル
(74)【代理人】
【識別番号】100131451
【弁理士】
【氏名又は名称】津田 理
(74)【代理人】
【識別番号】100167933
【弁理士】
【氏名又は名称】松野 知紘
(72)【発明者】
【氏名】中村 俊介
【テーマコード(参考)】
5B029
5B087
5B091
5E555
5L096
【Fターム(参考)】
5B029BB02
5B029CC25
5B087AA09
5B087BC05
5B087BC12
5B087DD09
5B087DD14
5B091AA05
5B091CB09
5B091CB22
5B091CB32
5B091CD15
5E555AA17
5E555AA67
5E555BA04
5E555BA38
5E555BA82
5E555BB04
5E555BB38
5E555BC19
5E555BE17
5E555CA41
5E555CA42
5E555CB44
5E555CB45
5E555CB65
5E555CB66
5E555CC05
5E555CC19
5E555DA08
5E555DA09
5E555DB41
5E555DB53
5E555DC09
5E555DC13
5E555DC63
5E555DC72
5E555DC84
5E555EA22
5E555FA00
5L096BA18
5L096CA04
5L096FA67
5L096FA69
5L096HA02
5L096HA05
(57)【要約】
【課題】精度が高く、かつ、高速な文字認識処理が可能な認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラムを提供する。
【解決手段】ウェアラブル文字認識デバイスに搭載される認識装置であって、前記ウェアラブル文字認識デバイスを装着したユーザの視点を取得する視点情報取得部と、前記ウェアラブル文字認識デバイスの前方を撮影するカメラからのカメラ画像のうち、前記視点に応じた一部分の領域において認識される文字を示す文字情報を取得する文字情報取得部と、前記文字情報が示す文字に応じた出力を行う出力部と、を備える認識装置が提供される。
【選択図】図3
【特許請求の範囲】
【請求項1】
ウェアラブル文字認識デバイスに搭載される認識装置であって、
前記ウェアラブル文字認識デバイスを装着したユーザの視点を取得する視点情報取得部と、
前記ウェアラブル文字認識デバイスの前方を撮影するカメラからのカメラ画像のうち、前記視点に応じた一部分の領域において認識される文字を示す文字情報を取得する文字情報取得部と、
前記文字情報が示す文字に応じた出力を行う出力部と、を備える認識装置。
【請求項2】
前記ウェアラブル文字認識デバイスには、前記ユーザの眼球を追跡するアイトラッキングモジュールが設けられ、
前記視点情報取得部は、前記アイトラッキングモジュールの出力から前記ユーザの視点を取得し、
前記アイトラッキングモジュールの出力から、認識開始を示す所定のユーザ動作を検知し、該検知に応答して、前記文字情報を取得するよう制御を行う制御部を備える、請求項1に記載の認識装置。
【請求項3】
前記所定のユーザ動作は、まばたき、ウィンクおよび所定時間目を瞑ること、のいずれかである、請求項2に記載の認識装置。
【請求項4】
前記文字情報取得部は、前記文字情報が示す文字の翻訳を前記文字情報として取得し、
前記出力部は、前記翻訳に応じた出力を行う、請求項1乃至3のいずれかに記載の認識装置。
【請求項5】
前記ウェアラブル文字認識デバイスには、前記ユーザの前方に透過型ディスプレイが設けられ、
前記出力部は、前記透過型ディスプレイにおける、前記文字の位置に応じた位置に前記翻訳を表示させる、請求項4に記載の認識装置。
【請求項6】
ユーザによって装着されるウェアラブル文字認識デバイスであって、
前記ユーザの前方を撮影するカメラと、
前記ユーザの眼球を追跡し、前記ユーザの視点を取得するためのアイトラッキングモジュールと、
請求項1乃至5のいずれかに記載の認識装置と、
前記認識装置における出力部からの制御に応じて、前記文字を読み上げるスピーカと、を備えるウェアラブル文字認識デバイス。
【請求項7】
ユーザによって装着されるウェアラブル文字認識デバイスであって、
前記ユーザの前方を撮影するカメラと、
前記ユーザの眼球を追跡し、前記ユーザの視点を取得するためのアイトラッキングモジュールと、
請求項5に記載の認識装置と、
前記ユーザの前方に設けられ、前記認識装置における出力部からの制御に応じて、前記文字の位置に応じた位置に前記翻訳を表示する透過型ディスプレイと、を備えるウェアラブル文字認識デバイス。
【請求項8】
ウェアラブル文字認識デバイスに搭載されるプロセッサを、
前記ウェアラブル文字認識デバイスを装着したユーザの視点を取得する視点情報取得部と、
前記ウェアラブル文字認識デバイスの前方を撮影するカメラからのカメラ画像のうち、前記視点に応じた一部分の領域において認識される文字を示す文字情報を取得する文字情報取得部と、
前記文字情報が示す文字に応じた出力を行う出力部と、として機能させる認識プログラム。
【請求項9】
ウェアラブル文字認識デバイスの前方を撮影するカメラからのカメラ画像のうち、前記ウェアラブル文字認識デバイスを装着したユーザの視点に応じた一部分の領域に対して文字認識を行う文字認識部を備える認識装置。
【請求項10】
前記文字認識部は、前記ユーザの視点を含む領域を認識領域として文字認識を行い、その認識領域で文字を認識できない場合、より広い前記認識領域で文字認識を行う、請求項9に記載の認識装置。
【請求項11】
前記文字認識部は、前記ユーザの視点を含む領域を認識領域として文字認識を行い、その結果、
視点の最も近くで認識された文字のクラスタと、前記認識領域との距離が閾値以上であれば、認識成功と判断し、
視点の最も近くで認識された文字のクラスタと、前記認識領域との距離が前記閾値未満であれば、より広い前記認識領域で文字認識を行う、請求項9または10に記載の認識装置。
【請求項12】
前記文字認識部は、前記認識領域を広げた結果、前記認識領域の大きさが前記所定値以上であれば、文字認識に失敗したと判断する、請求項10または11に記載の認識装置。
【請求項13】
ウェアラブル文字認識デバイスの前方を撮影するカメラからのカメラ画像のうち、前記ウェアラブル文字認識デバイスを装着したユーザの視点に応じた一部分の領域に対して文字認識を行う認識方法。
【請求項14】
コンピュータを、ウェアラブル文字認識デバイスの前方を撮影するカメラからのカメラ画像のうち、前記ウェアラブル文字認識デバイスを装着したユーザの視点に応じた一部分の領域に対して文字認識を行う文字認識部として機能させる認識プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラムに関する。
【背景技術】
【0002】
非特許文献1には、視界内の文字を認識して翻訳するデバイスが開示されている。また、非特許文献2には、視界内の文字を認識して読み上げるデバイスが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特表2016-519797号公報
【非特許文献】
【0004】
【非特許文献1】https://madgaze.com/vader/
【非特許文献2】https://otonglass.jp/products/
【非特許文献3】https://www.youtube.com/watch?v=EEe9I6fQQqE
【非特許文献4】https://www.vuzix.com/products/blade-smart-glasses
【非特許文献5】https://www.tobiipro.com/ja/product-listing/tobii-pro-glasses-2/
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1,2に開示のデバイスは、文字認識の精度や速度が必ずしも十分とは言えない。
【0006】
本発明はこのような問題点に鑑みてなされたものであり、本発明の課題は、精度が高く、かつ、高速な文字認識処理が可能な認識装置、ウェアラブル文字認識デバイス、認識方法および認識プログラムを提供することである。
【課題を解決するための手段】
【0007】
本発明の一態様によれば、ウェアラブル文字認識デバイスに搭載される認識装置であって、前記ウェアラブル文字認識デバイスを装着したユーザの視点を取得する視点情報取得部と、前記ウェアラブル文字認識デバイスの前方を撮影するカメラからのカメラ画像のうち、前記視点に応じた一部分の領域において認識される文字を示す文字情報を取得する文字情報取得部と、前記文字情報が示す文字に応じた出力を行う出力部と、を備える認識装置が提供される。
【0008】
前記ウェアラブル文字認識デバイスには、前記ユーザの眼球を追跡するアイトラッキングモジュールが設けられ、前記視点情報取得部は、前記アイトラッキングモジュールの出力から前記ユーザの視点を取得し、当該認識装置は、前記アイトラッキングモジュールの出力から、認識開始を示す所定のユーザ動作を検知し、該検知に応答して、前記文字情報を取得するよう制御を行う制御部を備えてもよい。
【0009】
前記所定のユーザ動作は、まばたき、ウィンクおよび所定時間目を瞑ること、のいずれかであってよい。
【0010】
前記文字情報取得部は、前記文字情報が示す文字の翻訳を前記文字情報として取得し、前記出力部は、前記翻訳に応じた出力を行ってもよい。
【0011】
前記ウェアラブル文字認識デバイスには、前記ユーザの前方に透過型ディスプレイが設けられ、前記出力部は、前記透過型ディスプレイにおける、前記文字の位置に応じた位置に前記翻訳を表示させてもよい。
【0012】
本発明の別の態様によれば、ユーザによって装着されるウェアラブル文字認識デバイスであって、前記ユーザの前方を撮影するカメラと、前記ユーザの眼球を追跡し、前記ユーザの視点を取得するためのアイトラッキングモジュールと、上記認識装置と、前記認識装置における出力部からの制御に応じて、前記文字を読み上げるスピーカと、を備えるウェアラブル文字認識デバイスが提供される。
【0013】
本発明の別の態様によれば、ユーザによって装着されるウェアラブル文字認識デバイスであって、前記ユーザの前方を撮影するカメラと、前記ユーザの眼球を追跡し、前記ユーザの視点を取得するためのアイトラッキングモジュールと、上記認識装置と、前記ユーザの前方に設けられ、前記認識装置における出力部からの制御に応じて、前記文字の位置に応じた位置に前記翻訳を表示する透過型ディスプレイと、を備えるウェアラブル文字認識デバイスが提供される。
【0014】
本発明の別の態様によれば、ウェアラブル文字認識デバイスに搭載されるプロセッサを、前記ウェアラブル文字認識デバイスを装着したユーザの視点を取得する視点情報取得部と、前記ウェアラブル文字認識デバイスの前方を撮影するカメラからのカメラ画像のうち、前記視点に応じた一部分の領域において認識される文字を示す文字情報を取得する文字情報取得部と、前記文字情報が示す文字に応じた出力を行う出力部と、として機能させる認識プログラムが提供される。
【0015】
本発明の別の態様によれば、ウェアラブル文字認識デバイスの前方を撮影するカメラからのカメラ画像のうち、前記ウェアラブル文字認識デバイスを装着したユーザの視点に応じた一部分の領域に対して文字認識を行う文字認識部を備える認識装置が提供される。
【0016】
前記文字認識部は、前記ユーザの視点を含む領域を認識領域として文字認識を行い、その認識領域で文字を認識できない場合、より広い前記認識領域で文字認識を行ってもよい。
【0017】
前記文字認識部は、前記ユーザの視点を含む領域を認識領域として文字認識を行い、その結果、視点の最も近くで認識された文字のクラスタと、前記認識領域との距離が閾値以上であれば、認識成功と判断し、視点の最も近くで認識された文字のクラスタと、前記認識領域との距離が前記閾値未満であれば、より広い前記認識領域で文字認識を行ってもよい。
【0018】
前記文字認識部は、前記認識領域を広げた結果、前記認識領域の大きさが前記所定値以上であれば、文字認識に失敗したと判断してもよい。
【0019】
本発明の別の態様によれば、ウェアラブル文字認識デバイスの前方を撮影するカメラからのカメラ画像のうち、前記ウェアラブル文字認識デバイスを装着したユーザの視点に応じた一部分の領域に対して文字認識を行う認識方法が提供される。
【0020】
本発明の別の態様によれば、コンピュータを、ウェアラブル文字認識デバイスの前方を撮影するカメラからのカメラ画像のうち、前記ウェアラブル文字認識デバイスを装着したユーザの視点に応じた一部分の領域に対して文字認識を行う文字認識部として機能させる認識プログラムが提供される。
【発明の効果】
【0021】
精度が高く、かつ、高速な文字認識処理を実現できる。
【図面の簡単な説明】
【0022】
図1】第1の実施形態に係るウェアラブルデバイス100の概略斜視図。
図2A】カメラ画像を模式的に示す図。
図2B】視点が右方向にある場合の処理を説明する図。
図2C】視点が左方向にある場合の処理を説明する図。
図3】第1の実施形態に係る文字認識システムの概略構成を示す機能ブロック図。
図4】文字認識システムの処理動作の一例を示すシーケンス図。
図5】文字認識処理の処理動作の一例を示すフローチャート。
図6】認識領域の初期値を模式的に示す図。
図7】距離r1を説明する図。
図8】広げた認識領域を模式的に示す図。
図9】第2の実施形態に係るウェアラブルデバイス101の概略斜視図。
図10】第2の実施形態に係る文字認識システムの概略構成を示す機能ブロック図。
図11A】視点が右方向にある場合の透過型ディスプレイ7の表示を模式的に示す図。
図11B】視点が左方向にある場合の透過型ディスプレイ7の表示を模式的に示す図。
【発明を実施するための形態】
【0023】
以下、本発明に係る実施形態について、図面を参照しながら具体的に説明する。
【0024】
(第1の実施形態)
図1は、第1の実施形態に係るウェアラブル文字認識デバイス(以下、単に「ウェアラブルデバイス100」という。)の概略斜視図である。ウェアラブルデバイス100は、眼鏡型の枠体1と、カメラ2と、アイトラッキングモジュール3と、認識部4と、スピーカ5と、通信モジュール6とを備えている。枠体1以外の各部は図示しない充電式バッテリによって駆動される。
【0025】
カメラ2は枠体1の前面に取り付けられ、ウェアラブルデバイス100を顔に装着したユーザの前方(視線と同じ向き)を撮影する。カメラ2から出力されるカメラ画像は認識部4に供給される。
【0026】
アイトラッキングモジュール3はユーザの眼を向くよう枠体1に取り付けられる。そして、アイトラッキングモジュール3はユーザの眼球を追跡することで、ユーザの視点を特定する。アイトラッキングモジュール3から出力される視点情報は認識部4に供給される。
【0027】
認識部4は枠体1の内部に配置され、カメラ画像および視点情報を用いてユーザの前方にて認識される文字の情報を出力する。認識部4の詳細は後述する。
【0028】
スピーカ5は枠体1におけるユーザの耳近傍に取り付けられ、認識部4からの制御に応じて文字を読み上げる。
【0029】
通信モジュール6は後述するサーバ200との間で種々のデータ送受を行う。
【0030】
本実施形態は、ユーザの前方を撮影したカメラ画像から文字を認識して読み上げるものである。以下、本実施形態における文字認識の概要を説明する。
【0031】
図2Aは、カメラ画像を模式的に示す図である。この例では、道路の左側に喫茶店の店舗があり、右側にパン屋の店舗があるものとする。そして、ユーザの前方左寄りに「喫茶店」という文字があり、前方右寄りに「パン屋」という文字がある。ここで、カメラ画像全体に対して文字認識を行い、「喫茶店」および「パン屋」の両方を認識することも考えられる。
【0032】
しかしながら、カメラ画像全体に対して文字認識を行う場合、認識対象の範囲が広すぎて処理負荷が大きく、処理速度が実用的でないことがある。かといって、処理速度を上げようとすると認識精度が低下してしまう。
【0033】
そこで、本実施形態では、カメラ画像における、ユーザの視点に応じた一部分の領域に対してのみ、文字認識を行う。例えば、ユーザの視点が右方向であれば、図2Bの一点鎖線に示すように、ユーザの前方右寄りの「パン屋」のみが認識され、読み上げられる。一方、ユーザの視点が左方向であれば、図2Cの一点鎖線に示すように、ユーザの前方左寄りの「喫茶店」のみが認識され、読み上げられる。
【0034】
このように、文字認識の領域を狭くすることで、認識精度を低下させることなく、処理速度が向上する。以下、詳細に説明する。
【0035】
図3は、第1の実施形態に係る文字認識システムの概略構成を示す機能ブロック図である。文字認識システムは、上述したウェアラブルデバイス100と、サーバ200(認識装置)とから構成される。ウェアラブルデバイス100は、例えば3G回線、4G回線あるいはWiFi(登録商標)により、サーバ200と通信可能である。
【0036】
ウェアラブルデバイス100の認識部4は、カメラ画像取得部41と、視点情報取得部42と、文字情報取得部43と、出力部44と、制御部45とを有する。これら各機能部の一部または全部は、ハードウェア回路で実装されてもよい。あるいは、認識部4がCPUを含んでおり、所定のプログラムがCPUによって実行されることでこれら各機能部の一部または全部が実現されてもよい。
【0037】
カメラ画像取得部41はカメラ2と接続されており、カメラ2から出力されるカメラ画像を取得して、通信モジュール6を介してサーバ200に送信する。
【0038】
視点情報取得部42はアイトラッキングモジュール3と接続されており、アイトラッキングモジュール3から出力される視点情報を取得して、通信モジュール6を介してサーバ200に送信する。視点情報はカメラ画像におけるどの部分に視点があるかを示す。具体的には、視点情報は、カメラ画像における特定の1または複数画素を示してもよいし、カメラ画像を複数領域に分割したうちの1つの領域を示していてもよい。
【0039】
文字情報取得部43は、カメラ画像のうち、ユーザの視点に応じた領域を含む一部分の領域において認識される文字を示す文字情報を通信モジュール6を介してサーバ200から取得する。
【0040】
出力部44は文字情報が示す文字をスピーカ5から出力する。
【0041】
制御部45は認識部4の全体を制御する。
【0042】
サーバ200は、カメラ画像受信部21と、視点情報受信部22と、認識領域設定部23と、文字認識部24と、文字情報送信部25とを有する。これら各機能部の一部または全部は、ハードウェア回路で実装されてもよい。あるいは、サーバ200がCPUを含んでおり、所定のプログラムがCPUによって実行されることでこれら各機能部の一部または全部が実現されてもよい。
【0043】
カメラ画像受信部21および視点情報受信部22は、ウェアラブルデバイス100から通信モジュール20を介して、それぞれカメラ画像および視点情報を受信する。
【0044】
認識領域設定部23は、視点情報に基づき、カメラ画像の認識領域を設定する。認識領域は、カメラ画像の一部分であって、文字認識部24による文字認識の対象となる領域である。
【0045】
文字認識部24は、カメラ画像のうち、認識領域設定部23によって設定された認識領域のみにおいて文字認識を実行する。文字認識の手法に特に制限はないが、例えばディープラーニングを適用した人工知能を利用することができる。
【0046】
文字情報送信部25は、文字認識の結果(少なくも認識された文字を示し、文字認識の成功/失敗の情報や、文字の位置を含んでいてもよい)を示す文字情報を、通信モジュール20を介してウェアラブルデバイス100に送信する。
【0047】
また、サーバ200はウェアラブルデバイス100との間で種々のデータ送受を行う通信モジュール20を有する。
【0048】
図4は、文字認識システムの処理動作の一例を示すシーケンス図である。
【0049】
ユーザは文字認識処理を開始させるためのトリガ動作をウェアラブルデバイス100に対して行う。トリガ動作は任意であるが、例えば所定時間目を瞑る、ウィンクを行う、所定回瞬きをする、などアイトラッキングモジュール3で検知できる予め定めた動作であるのが望ましい。制御部45は、アイトラッキングモジュール3の出力からトリガ動作を検知すると(ステップS1のYES)、以下に述べるようにカメラ画像から文字情報を取得するよう制御する。
【0050】
制御部45は、カメラ画像を取得するようカメラ画像取得部41を制御するとともに、カメラ画像取得時における(多少のタイムラグは構わない)ユーザの視点を示す視線情報を取得するよう視点情報取得部42を制御する(ステップS2)。取得されたカメラ画像および視点情報は、通信モジュール6を介してサーバ200に送信される(ステップS3)。
【0051】
サーバ200のカメラ画像受信部21および視点情報受信部22は、通信モジュール20を介して、ウェアラブルデバイス100からのカメラ画像および視点情報をそれぞれ受信する(ステップS11)。そして、認識領域設定部23および文字認識部24は、視点情報を利用し、カメラ画像における一部分のみの領域において文字認識を行う。(ステップS12)。その詳細は図5を用いて後述する。文字情報送信部25は、文字認識の結果を示す文字情報を、通信モジュール20を介してウェアラブルデバイス100に送信する(ステップS13)。
【0052】
ウェアラブルデバイス100の文字情報取得部43は、通信モジュール6を介して、サーバ200から文字情報を受信する(ステップS4)。そして、出力部44は、文字情報に基づいて、カメラ画像から認識された文字を読み上げるようスピーカ5を制御する(ステップS5)。
【0053】
以上の処理を文字認識処理停止のユーザ指示があるまでリアルタイムで繰り返してもよいが、1回(あるいは予め定めた有限回)行った時点で文字認識処理を終了するのが望ましい。ウェアラブルデバイス100のバッテリを節約でき、また、サーバ200の処理負荷を軽減できるためである。
【0054】
図2Aに示した例において、例えば視点が右方向であれば図4のステップS5において「パン屋」は読み上げられるが、「喫茶店」は読み上げられない。一方、視点が左方向であれば図4のステップS5において「喫茶店」は読み上げられるが、「パン屋」は読み上げられない。
【0055】
続いて、図4のステップS12に示す文字認識処理について詳しく説明する。図5は、文字認識処理の処理動作の一例を示すフローチャートである。
【0056】
認識領域設定部23は視点情報に基づいて認識領域の初期値を設定する(ステップS21)。図6は、認識領域の初期値を模式的に示す図である。図示のように、認識領域設定部23はカメラ画像における視点を含む小さいエリアを認識領域の初期値とする。認識領域は、例えば視点を中心とし、カメラ画像を縮小した(あるいはカメラ画像と長手方向が一致する)長方形である。
【0057】
続いて、文字認識部24は設定された認識領域内で文字認識を行う(ステップS22)。認識領域内で文字が認識された場合(ステップS23のYES)、単語あるいは文章を認識すべく、文字認識部24は文字領域のクラスタリング(近接する文字をまとめる処理)を行い、文字のクラスタ(塊)を形成する(ステップS24)。
【0058】
続いて、文字認識部24は中央のクラスタと認識領域の端との距離r1を算出する(ステップS25、図7参照)。なお、中央のクラスタとは、認識されたクラスタのうち最も視点に近いものをいう。距離r1は、認識領域が長方形である場合、長方形の4辺のうち中央のクラスタと最も近い辺との距離をr1とすることができる。
【0059】
そして、距離r1が所定の閾値TH1以上であれば(ステップS26のYES)、中央のクラスタとまとめるべき文字は他にないと考えられるため、文字認識部24は文字認識に成功したと判断する。
【0060】
一方、ステップS23において、文字が認識されない場合(ステップS23のNO)、認識領域設定部23は認識領域を広げる(ステップS27)。また、ステップS26において、距離r1が閾値TH1未満である場合(ステップS26)、中央のクラスタの周囲にまだ認識すべき文字が存在する可能性があるので、やはり認識領域設定部23は認識領域を広げる(ステップS27)。
【0061】
図8は、広げた認識領域を模式的に示す図である。図示のように、認識領域設定部23は、視点を中心としたまま所定量だけ長方形を大きくして、新たな認識領域とする。その結果、認識領域の大きさが所定の閾値以上となった場合(ステップS28のYES)、文字認識部24は文字認識に失敗したと判断する。なお、認識領域の大きさは、例えば長方形の長辺あるいは短辺の長さを基準にしてもよいし、面積を基準にしてもよい。
【0062】
認識領域の大きさが所定の閾値未満であれば(ステップS28のNO)、文字認識部24は新たな認識領域内で文字認識を行う(ステップS22)。以上の処理を認識成功あるいは認識失敗と判断されるまで行う。
【0063】
このようにして認識された文字(およびそのカメラ画像における位置)を示す文字情報がウェアラブルデバイス100に送信される(図4のステップS13)。
【0064】
このように、第1の実施形態では、カメラ画像の全体に対して文字認識を行うのではなく、視点に応じた一部分に対してのみ文字認識を行う。これにより、文字認識の領域が狭くなるため、認識精度を低下させることなく、処理速度が向上する。
【0065】
なお、図3に示すシステム構成は例示にすぎず、ウェアラブルデバイス100の機能の一部をサーバ200が行ってもよいし、サーバ200の機能の一部または全部をウェアラブルデバイス100が行ってもよい。具体例として、認識領域設定部23をウェアラブルデバイス100内に設け、認識領域の初期値をウェアラブルデバイス100からサーバ200に送信してもよい。
【0066】
別の例として、認識領域設定部23に加え、文字認識部24もウェアラブルデバイス100内に設けてもよい。この構成によれば、処理性能に優れるサーバ200での文字認識と比較すると認識精度や認識速度が多少犠牲になる可能性もあるが、通信機能が不要となり、ウェアラブルデバイス100単体で一連の処理が可能となる。また、ウェアラブルデバイス100でもサーバ200でも文字認識を行えるようにし、通信可能な環境下ではサーバ200で文字認識を行い、通信不能な環境下ではウェアラブルデバイス100で文字認識を行うようにしてもよい。
【0067】
(第2の実施形態)
次に説明する第2の実施形態は、文字認識に加え、認識された文字の翻訳も行うものである。以下、第1の実施形態との相違点を中心に説明する。
【0068】
図9は、第2の実施形態に係るウェアラブルデバイス101の概略斜視図である。図1との相違点として、本ウェアラブルデバイス101は眼鏡のレンズに当たる部分に配置された透過型ディスプレイ7(いわゆる「シースルーディスプレイ」)を備えている。透過型ディスプレイ7は認識部4からの制御に応じて文字を表示する。なお、透過型ディスプレイ7には、カメラ画像が表示されなくてよい。
【0069】
図10は、第2の実施形態に係る文字認識システムの概略構成を示す機能ブロック図である。その処理動作は第1の実施形態で説明した図4および図5とほぼ同様である。
【0070】
第1の実施形態との相違点として、サーバ201は翻訳部26を備えている。翻訳部26は文字認識部24によって認識された文字を所定の言語(以下、英語であるとする。)に翻訳する。この処理は、例えば図4のステップS12の後に行われる。文字情報送信部25は、文字認識部24によって認識された文字のカメラ画像における位置、および、当該文字の翻訳を文字情報としてウェアラブルデバイス101に送信する。
【0071】
また、ウェアラブルデバイス101における認識部4の出力部44は、文字情報が示す文字の翻訳をスピーカ5から出力するとともに、同翻訳を透過型ディスプレイ7に表示させる(図4のステップS5)。透過型ディスプレイ7における表示位置は任意だが、文字が認識された位置に応じた位置に表示されるのが望ましい。
【0072】
本実施形態によれば、例えば、図2Aの例において、視点が右方向にあり、「パン屋」の文字が中央右寄りの位置において認識された場合、図11Aに示すように、透過型ディスプレイ7の中央右寄りに「パン屋」の英訳である「Bakery」が表示される。この例では視点が右方向であるため、カメラ画像の左寄りに位置する「喫茶店」の翻訳は表示されない。なお、図11Aにおいて、風景(道路や店舗、「パン屋」や「喫茶店」といった文字)はカメラ画像ではなく実際のものが透過型ディスプレイ7を透過して見えており、「Bakery」の文字は透過型ディスプレイ7に表示されたものである。
【0073】
一方、図2Aの例において、視点が左方向にあり、「喫茶店」の文字が中央左寄りの位置において認識された場合、図11Bに示すように、透過型ディスプレイ7の中央左寄りに「喫茶店」の英訳である「Cafe」が表示される。この例では視点が左方向であるため、カメラ画像の右寄りに位置する「パン屋」の翻訳は表示されない。
【0074】
このように、第2の実施形態でも、カメラ画像の全体に対して文字認識および翻訳を行うのではなく、視点に応じた一部分に対してのみ文字認識および翻訳を行う。これにより、文字認識の領域が狭くなるため、認識精度を低下させることなく、処理速度が向上する。
【0075】
なお、第1の実施形態と同様、図10に示すシステム構成が例示にすぎない。例えば、翻訳部26をウェアラブルデバイス101内に設けてもよい。また、翻訳部26が文字認識部24とは別のサーバ(不図示)内にあってもよい。さらに、図10では、文字認識部24による文字認識の結果を直接、翻訳部26が翻訳することとしているが、翻訳部26が別のサーバ内にある場合や、文字認識部24のAPIと翻訳部26のAPIとが異なる場合には、一旦、文字認識部24による文字認識の結果をウェアラブルデバイス101に送信し、ウェアラブルデバイス101から翻訳部26に翻訳すべき文字を転送するようにしてもよい。
【0076】
また、ウェアラブルデバイス101の出力部44は、翻訳後の文字のみを出力してもよいし、翻訳前後の文字を出力してもよい。さらに、スピーカ5を省略し、出力部44は翻訳後の文字を透過型ディスプレイ7に表示するのみであってもよい。
【0077】
上述した実施形態は、本発明が属する技術分野における通常の知識を有する者が本発明を実施できることを目的として記載されたものである。上記実施形態の種々の変形例は、当業者であれば当然になしうることであり、本発明の技術的思想は他の実施形態にも適用しうることである。したがって、本発明は、記載された実施形態に限定されることはなく、特許請求の範囲によって定義される技術的思想に従った最も広い範囲とすべきである。
【符号の説明】
【0078】
1 枠体
2 カメラ
3 アイトラッキングモジュール
4 認識部
41 カメラ画像取得部
42 視点情報取得部
43 文字情報取得部
44 出力部
45 制御部
5 スピーカ
6 通信モジュール
7 透過型ディスプレイ
100,101 ウェアラブルデバイス
20 通信モジュール
21 カメラ画像受信部
22 視点情報受信部
23 認識領域設定部
24 文字認識部
25 文字情報送信部
26 翻訳部
200,201 サーバ
図1
図2A
図2B
図2C
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B