(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2016-143060(P2016-143060A)
(43)【公開日】2016年8月8日
(54)【発明の名称】視覚補助装置及びオブジェクトの分類の検出方法
(51)【国際特許分類】
G09B 21/00 20060101AFI20160711BHJP
G06T 7/00 20060101ALI20160711BHJP
【FI】
G09B21/00 D
G06T7/00 300F
【審査請求】未請求
【請求項の数】14
【出願形態】OL
【外国語出願】
【全頁数】18
(21)【出願番号】特願2016-14319(P2016-14319)
(22)【出願日】2016年1月28日
(31)【優先権主張番号】14/609,874
(32)【優先日】2015年1月30日
(33)【優先権主張国】US
(71)【出願人】
【識別番号】507342261
【氏名又は名称】トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100153729
【弁理士】
【氏名又は名称】森本 有一
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100147555
【弁理士】
【氏名又は名称】伊藤 公一
(74)【代理人】
【識別番号】100130133
【弁理士】
【氏名又は名称】曽根 太樹
(72)【発明者】
【氏名】ラジブ ダヤル
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA08
5L096CA02
5L096HA09
5L096JA03
5L096JA11
(57)【要約】 (修正有)
【課題】盲人、又は視覚障碍者の補助に役に立つ視覚補助装置を提供する。
【解決手段】視覚補助装置100は、シーンに対応する画像データを生成する少なくとも1つの画像センサと、プロセッサと、音声装置とを含む。プロセッサは、少なくとも1つの画像センサから画像データを受信し、シーンに存在する検出オブジェクトの分類を決定するために画像データにおいてオブジェクト認識を実行し、検出オブジェクトの分類に対する信頼値を決定するようにプログラミングされる。信頼値は、検出オブジェクトの分類が検出オブジェクトの実際の分類に一致することの信頼性に基づく。また、プロセッサは、信頼値に基づいて音声信号を生成するようにプログラミングされる。音声装置は、プロセッサから音声信号を受信し、音声信号から音声メッセージを生成する。音声メッセージは、検出オブジェクトの分類及び信頼値を示す。
【選択図】
図3
【特許請求の範囲】
【請求項1】
シーンに対応する画像データを生成する少なくとも1つの画像センサと、
プロセッサであって、
前記少なくとも1つの画像センサから前記画像データを受信し、
前記シーンに存在する検出オブジェクトの分類を決定するために前記画像データにおいてオブジェクト認識を実行し、
前記検出オブジェクトの分類に対する信頼値を決定し、ここで前記信頼値は、前記検出オブジェクトの分類が前記検出オブジェクトの実際の分類に一致することの信頼性に基づき、
前記信頼値に基づいて音声信号を生成する、
ようにプログラミングされるプロセッサと、
前記プロセッサから前記音声信号を受信し、前記検出オブジェクトの分類及び前記信頼値を示す音声メッセージを前記音声信号から生成する音声装置と、
を有する視覚補助装置。
【請求項2】
前記信頼値は、前記検出オブジェクトの分類が前記検出オブジェクトの実際の分類と一致することの信頼性に基づくパーセンテージであり、
前記音声メッセージは、前記信頼値の前記パーセンテージを含む、請求項1に記載の視覚補助装置。
【請求項3】
前記信頼値は、最小信頼値から最大信頼値の範囲を有する信頼値範囲から選択され、
前記信頼値範囲は、前記最小信頼値から前記最大信頼値までの複数のサブインクリメントを含み、前記複数のサブインクリメントのそれぞれのサブインクリメントは、複数の信頼値に広がり、
前記複数のサブインクリメントのそれぞれのサブインクリメントは、信頼性の程度を示す音声説明に関連付けられ、
前記音声信号は、選択された信頼値を含む前記複数のサブインクリメントの選択サブインクリメントを選択し、前記選択サブインクリメントに関連付けられた音声説明を前記音声信号に組み込むことで生成される、請求項1に記載の視覚補助装置。
【請求項4】
前記プロセッサは、
前記音声メッセージに対するユーザフィードバック信号を受信し、
前記ユーザフィードバック信号に基づいて、前記信頼値範囲の前記複数のサブインクリメントを調整するように更にプログラミングされる、請求項3に記載の視覚補助装置。
【請求項5】
前記少なくとも1つの画像センサは、第1画像センサと、第2画像センサとを有する、請求項1に記載の視覚補助装置。
【請求項6】
ユーザに装着されるように構成される、請求項1に記載の視覚補助装置。
【請求項7】
眼鏡フレームを更に有し、前記少なくとも1つの画像センサは、前記眼鏡フレームに接続される、請求項1に記載の視覚補助装置。
【請求項8】
ユーザの耳に挿入されるように構成されたイヤホンを更に含み、前記音声装置は、前記イヤホンの内部に配置される、請求項7に記載の視覚補助装置。
【請求項9】
前記プロセッサは、前記眼鏡フレームの内部に配置される、請求項7に記載の視覚補助装置。
【請求項10】
ユーザによって装着されるように構成された筐体を更に含む、請求項1に記載の視覚補助装置。
【請求項11】
前記筐体は、首部と、第1胸部と、第2胸部とを有する、請求項10に記載の視覚補助装置。
【請求項12】
前記少なくとも1つの画像センサは、前記第1胸部及び/又は前記第2胸部の内部に配置される、請求項11に記載の視覚補助装置。
【請求項13】
前記プロセッサは、
前記音声メッセージに対するユーザフィードバック信号を受信し、前記ユーザフィードバック信号は、前記検出オブジェクトに関連付けられた音声メッセージのユーザの無視に対応し、
前記音声メッセージを無視するユーザフィードバック信号に関連付けられた前記検出オブジェクトの分類と同一の分類を有する将来の検出オブジェクトのそれぞれのために、信頼値が、無視された前記音声メッセージに関連付けられた前記信頼値よりも大きいときのみに、音声信号を生成するように更にプログラミングされる、請求項1に記載の視覚補助装置。
【請求項14】
前記プロセッサは、
前記音声メッセージに対するユーザフィードバック信号を受信し、前記ユーザフィードバック信号は、前記音声メッセージに関連付けられた前記検出オブジェクトの分類が前記検出オブジェクトの実際の分類であることのユーザの確認に対応し、
前記ユーザフィードバック信号の受信に対して、前記検出オブジェクト及び前記分類を示す画像データを非一時的にコンピュータ読み取り可能な媒体に記憶するように更にプログラミングされる、請求項1に記載の視覚補助装置。
【請求項15】
少なくとも1つの画像センサからシーンの画像データを受信し、
プロセッサが、前記シーンに存在する検出オブジェクトの分類を前記画像データから決定し、
前記検出オブジェクトの分類に対する信頼値を決定し、ここで前記信頼値は、前記検出オブジェクトの分類が前記検出オブジェクトの実際の分類に一致することの信頼性に基づき、
前記検出オブジェクトの分類及び前記信頼値を示す音声メッセージを生成する、
ことを含むオブジェクトの分類の検出方法。
【請求項16】
前記信頼値は、前記検出オブジェクトの分類が前記検出オブジェクトの実際の分類と一致することの信頼性に基づくパーセンテージであり、
前記音声メッセージは、前記信頼値の前記パーセンテージを含む、請求項15に記載の方法。
【請求項17】
前記信頼値は、最小信頼値から最大信頼値の範囲を有する信頼値範囲から選択され、
前記信頼値範囲は、前記最小信頼値から前記最大信頼値までの複数のサブインクリメントを含み、前記複数のサブインクリメントのそれぞれのサブインクリメントは、複数の信頼値に広がり、
前記複数のサブインクリメントのそれぞれのサブインクリメントは、音声説明に関連付けられ、
選択された信頼値を含む前記複数のサブインクリメントの選択サブインクリメントを選択することを更に含み、
前記音声メッセージは、前記選択サブインクリメントに関連付けられた音声説明を含む、請求項15に記載の方法。
【請求項18】
前記音声メッセージに対するユーザフィードバック信号を受信し、
前記ユーザフィードバック信号に基づいて、前記信頼値範囲の前記複数のサブインクリメントを調整する、
ことを更に含む、請求項17に記載の方法。
【請求項19】
前記音声メッセージに対するユーザフィードバック信号を受信し、前記ユーザフィードバック信号は、前記検出オブジェクトに関連付けられた音声メッセージのユーザの無視に対応し、
前記音声メッセージを無視するユーザフィードバック信号に関連付けられた前記検出オブジェクトの分類と同一の分類を有する将来の検出オブジェクトのそれぞれのために、信頼値が、無視された前記音声メッセージに関連付けられた前記信頼値よりも大きいときのみに、音声信号を生成する、
ことを更に含む、請求項15に記載の方法。
【請求項20】
前記音声メッセージに対するユーザフィードバック信号を受信し、前記ユーザフィードバック信号は、前記音声メッセージに関連付けられた前記検出オブジェクトの分類が前記検出オブジェクトの実際の分類であることのユーザの確認に対応し、
前記ユーザフィードバック信号の受信に対して、前記検出オブジェクト及び前記分類を示す画像データを非一時的にコンピュータ読み取り可能な媒体に記憶する、
ことを更に含む、請求項15に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書は、視覚補助装置(vision-assist devices)に関し、より詳細には、環境中で検出されたオブジェクトに関する聴覚制限情報を提供する視覚補助装置に関する。
【背景技術】
【0002】
盲人、又は視覚障碍者は、環境中のオブジェクトの位置及び種類を検出することが容易ではないので、環境中を進むことは難しい。盲人、又は視覚障碍者は、空間を進むときに補助的にステッキを使用することがある。コンピュータベースの視覚システムは、画像データに存在するオブジェクトを検出可能であるが、このような視覚システムは、オブジェクトの種類を誤検出することがある。オブジェクトがある種のオブジェクトであるとコンピュータベースの視覚システムが人に信じさせたものの、オブジェクトが異なるものであることが分かったとき、人はコンピュータベースの視覚システムが提供する情報を信じることができなくなるおそれがある。したがって、このようなコンピュータベースの視覚システムは、検出したオブジェクトに関する情報に関して信用が欠如するため、盲人、又は視覚障碍者の補助には役に立たなくなるおそれがある。
【0003】
このように、盲人、又は視覚障碍者のための代替的な視覚補助装置への要求がある。
【発明の概要】
【課題を解決するための手段】
【0004】
1つの実施形態では、視覚補助装置は、シーンに対応する画像データを生成する少なくとも1つの画像センサと、プロセッサと、音声装置とを含む。プロセッサは、少なくとも1つの画像センサから画像データを受信し、シーンに存在する検出オブジェクトの分類を決定するために画像データにおいてオブジェクト認識を実行し、検出オブジェクトの分類に対する信頼値を決定するようにプログラミングされる。信頼値は、検出オブジェクトの分類が検出オブジェクトの実際の分類に一致することの信頼性に基づく。また、プロセッサは、信頼値に基づいて音声信号を生成するようにプログラミングされる。音声装置は、プロセッサから音声信号を受信し、音声信号から音声メッセージを生成する。音声メッセージは、検出オブジェクトの分類及び信頼値を示す。
【0005】
他の実施形態において、オブジェクトの分類を検出する方法は、少なくとも1つの画像センサからシーンの画像データを受信し、シーンに存在する検出オブジェクトの分類を画像データからプロセッサにより決定し、検出オブジェクトの分類に対する信頼値を決定することを含む。信頼値は、検出オブジェクトの分類が検出オブジェクトの実際の分類に一致することの信頼性に基づく。また、方法は、検出オブジェクトの分類及び信頼値を示す音声メッセージを生成することを含む。
【図面の簡単な説明】
【0006】
【
図1】
図1は、説明される1つ又は2つ以上の実施形態に従う視覚補助装置を概略的に示す図である。
【
図2】
図2は、説明される1つ又は2つ以上の実施形態に従って、ユーザの首の周りに装着されるように構成された視覚補助装置を概略的に示す図である。
【
図3】
図3は、説明される1つ又は2つ以上の実施形態に従って、ユーザによって装着された
図2に示す視覚補助装置を概略的に示す図である。
【
図4】
図4は、説明される1つ又は2つ以上の実施形態に従って、眼鏡として構成された視覚補助装置を概略的に示す図である。
【
図5】
図5は、ユーザが進むことができる環境を概略的に示す図である。
【
図6】
図6は、説明される1つ又は2つ以上の実施形態に従って、環境内でオブジェクトを検出し、検出オブジェクトに関する音声情報を提供する処理を示す図である。
【
図7】
図7は、説明される1つ又は2つ以上の実施形態に従う信頼値の範囲を示す図である。
【
図8】
図8は、説明される1つ又は2つ以上の実施形態に従う視覚補助装置がユーザフィードバック時の受信及び動作を示すフローチャートである。
【発明を実施するための形態】
【0007】
本明細書で説明される実施形態が提供する構成及び付加的な構成は、図面と共に以下の詳細な説明を考慮することで、より深く理解されることになる。
【0008】
図面で説明される実施形態は、実際は説明に使用される例示的なものであり、クレームで規定される主題を限定することを意図するものではない。説明される実施形態の以下の説明は、同一の構造は同一の符号が付された図面と共に読むことで理解できる。
【0009】
図面を参照すると、本開示の実施形態は、環境を進む盲人又は視覚障碍の個々人を補助する視覚補助装置を対象とする。本明細書で説明される実施形態は、1つ又は2つ以上の画像センサ(すなわち1つ又は2つ以上のカメラ)を使用してユーザの環境の画像データを撮像する装置として構成されてもよく、ユーザの環境内のオブジェクト又は人々を検出するためにオブジェクト識別分析を実行してもよい。このような情報は、盲人又は視覚障碍者が環境中を進むときに有用であろう。オブジェクト識別分析は、100%正確な結果を得ることができないので、本明細書で説明さえる実施形態は、装置が検出したオブジェクトの種類だけでなく、環境内に物理的に存在するオブジェクトの形式又は分類の信頼性の程度のユーザへの音声メッセージを生成する。この方法では、ユーザは、視覚補助装置が提供した音声情報を信頼して受け入れるか否かを自分で決定できる。
【0010】
限定されない例において、視覚補助装置は、階段がユーザの正面にあることを検出してもよく、「階段があなたのすぐ前にあることの正確性は60%です」という音声メッセージを生成してもよい。以下により詳細に説明されるように、音声メッセージは、「階段があなたのすぐ前にあることを非常に確信します」又は「階段があなたの前にあると思いますが、自信はありません」のように、程度の一般的な用語の中にオブジェクト識別情報を提供してもよい。次いで、ユーザは、オブジェクトを更に調査することを決定してもよく、音声メッセージを無視してもよく、他の動作をしてもよい。
【0011】
視覚補助装置又はオブジェクトの分類を検出する方法の種々の実施形態は、本明細書で詳細に説明される。
【0012】
ここで
図1を参照すると、視覚補助装置100が図示される。視覚補助装置は、筐体180を有し、1つ又は2つ以上のプロセッサ110と、1つ又は2つ以上の画像センサ130と、コンピュータが読み取り可能な命令を記憶する1つ又は2つ以上のメモリコンポーネント140と、1つ又は2つ以上の音声装置150と、1つ又は2つ以上のユーザ入力装置160とを筐体180の内部又は表面に有する。より詳細に説明するように、筐体180は、何れの形状を有してもよく、いくつかの実施形態では、ユーザが身に着けることでユーザが視覚補助装置100を操作するときにユーザの手を自由にすることができる。
【0013】
メモリコンポーネント140は、揮発性及び不揮発性の非一時的なコンピュータ読み取り可能な媒体として構成されてもよく、ランダムアクセスメモリ(SRAM、DRAM及び/又は他の形式のランダムアクセスメモリを含む)、フラッシュメモリ、レジスタ、コンパクトディスク(CD)、DVD(digital versatile discs)、磁気ディスク及び/又は他の形式の記憶素子のようなものを含んでもよい。加えて、以下により詳細に説明するように、メモリコンポーネント140は、操作論理、オブジェクト認識論理及び音声メッセージ生成論理を他の物と共に記憶するように構成されてもよい。メモリコンポーネント140は、1つ又は2つ以上の画像センサが撮像した画像データ、又は外部から獲得された画像データ等を、以下で説明されるオブジェクト識別分析を実行するために記憶してもよい。
【0014】
また、ローカルインタフェース120は、
図1に含まれ、バス又は他のインタフェースとして実装されて、視覚補助装置100の構成素子の間の通信を補助してもよい。
図1に示されないが、視覚補助装置100は、遠隔のコンピュータ装置又は遠隔のコンピュータネットワークに接続するためにネットワークインタフェースを含んでもよい。ネットワークインタフェースモジュールは、モデム、LANポート、ワイヤレスフィディリティ(wireless fidelity、Wi−Fi)カード、WiMaxカード、モバイル通信ハードウェア、及び/又は他のネットワーク及び/又は装置と通信するための他のハードウェアを含んでもよい。
【0015】
1つ又は2つ以上のプロセッサ110は、(メモリコンポーネント140等から)情報を受信し、命令を実行するように構成された何れかの処理コンポーネントを含んでもよい。
【0016】
1つ又は2つ以上の画像センサ130は、視覚補助装置100が動作する環境(シーン等)の画像データを撮像するように構成されてもよい。画像データは、シーン内のオブジェクト及び人々のような視覚補助装置100が動作するシーンをデジタルで示す。画像センサ130は、例えば、可視スペクトルの波長を有する光学的放射を検出するための、非限定的には固体撮像デバイス画像センサ、相補型金属酸化膜半導体センサのような画像データを撮像するように動作する何れかのセンサとして構成されてもよい。1つ又は2つ以上の画像センサ130は、赤外線波長のような可視光の波長の外側の光学的放射を検出するように構成されてもよい。いくつかの実施形態では、2つの画像センサ130が提供されて、深さ情報を撮像することができるステレオ画像データを生成する。
【0017】
1つ又は2つ以上の音声装置150は、プロセッサ110から音声信号を受信(直接的に、又はアンプ、ドライバ、DAコンバータ等の他のハードウェアから間接的に)して、ユーザが聞くことができる音声メッセージを生成することができるスピーカとして構成されてもよい。いくつかの実施形態では、1つ又は2つ以上の音声装置150は、第1スピーカ及び第2スピーカを含み、音声メッセージがユーザにステレオで提供されてもよい。
【0018】
1つ又は2つ以上のユーザ入力装置160は、視覚補助装置100とユーザが通信するために提供されてもよい。1つ又は2つ以上のユーザ入力装置160をユーザが使用して、プログラムの優先度又は設定のようなタスクを達成してもよく、視覚補助装置100に命令を提供してもよく、視覚補助装置100にフィードバックを提供してもよい。1つ又は2つ以上のユーザ入力装置160は、適当な何れの構造であってもよい。例えば、1つ又は2つ以上のユーザ入力装置160は、キーボード、ボタン、スイッチ、タッチパッド、マイク等として構成されてもよい。適当な何れのユーザ入力装置を利用してもよい。
【0019】
視覚補助装置100は、電源、電圧調整器、ADコンバータ、DAコンバータ、ドライバ、信号調整回路、電磁フィルタ回路のような
図1に示されない付加的なコンポーネントを含んでもよい。
【0020】
ここで、
図2及び3を参照すると、例示的な視覚補助装置100が非限定的に図示される。
図2は例示的な視覚補助装置100がユーザなしに示され、
図3はユーザ170が装着した
図2の例示的な視覚補助装置100が示される。
図2及び3の双方を参照すると、例示的な視覚補助装置100は、ユーザ170の首の周りに装着されるネックレス構造を有する。視覚補助装置の筐体180は、首部184、第1胸部182A及び第2胸部182Bを規定する。筐体180は、
図2及び3に示すものと異なるように構成されてもよく、筐体は、他の実施形態において、他の形状及び大きさを有してもよいことを理解すべきである。
【0021】
いくつかの実施形態では、筐体180は、非限定的にはエチレンビニルアセレートのような柔軟な材料で形成されてもよい。他の実施形態では、筐体180は、硬い材料から形成される。
【0022】
図3を具体的に参照すると、視覚補助装置100は、ユーザ170の首の周りに装着されて、首部184がユーザの首の後方に接触し又は近接するように構成されてもよい。第1胸部182A及び第2胸部182Bは、ユーザの胸を覆う。
図2及び3に示す例では、第1胸部182Aは、第1音声装置150Aと、第1画像センサ130Aと、タッチパッド又は機械的なボタンとして構成された第1ユーザ入力装置160Aとを含む。同様に、第2胸部182Bは、第2音声装置150Bと、第2画像センサ130Bと、第2ユーザ入力装置160Bとを含む。
図2及び3に示す例示的な視覚補助装置100の筐体180における種々のコンポーネントの配置は、説明を目的とするものであり、より多くのコンポーネント又はより少ないコンポーネントは、
図2及び3に示す配置とは異なる方法で提供又は配置されてもよいことを理解すべきである。例えば、非限定的且つ代替的な配置では、第1胸部182A及び第2胸部182Bの1つのみは、ユーザ入力装置を含んでもよい。他の実施形態では、第1音声装置150A及び第2音声装置150Bは、筐体に配置されずに、ユーザが装着するヘッドホンとして構成されてもよい。
【0023】
第1画像センサ130A及び第2画像センサ130Bは、画像データを撮像して、以下で詳細に説明さえるように、オブジェクト及び人々の検出のためのオブジェクト認識アルゴリズムが使用するユーザが進む環境のようなシーンの3次元画像を生成するように構成される。
図3に示すように、第1画像センサ130A及び第2画像センサ130Bは、第1胸部182A及び第2胸部182Bに配置され、正面に向き、ユーザの真正面のシーンの画像データを撮像する。他の実施形態において、1つ又は2つ以上の付加的な画像センサを筐体に配置して、ユーザの左右及び/又は後方のようなユーザ170の正面以外の方向の画像を提供してもよい。
【0024】
第1音声装置150A及び第2音声装置150Bは、ユーザによって受信されることを意図する音声メッセージを生成する。音声メッセージは、ユーザにメニュー案内オプションを提供して、ユーザが視覚補助装置100をプログラムし又は視覚補助装置100のパラメータを設定してもよい。また、音声メッセージは、以下に詳細に説明されるように、シーンについての環境情報を含んでもよい。2つの音声装置が示されるが、より多い音声装置が提供されてもよく、より少ない音声装置が提供されてもよい。いくつかの実施形態では、マイクがユーザ入力装置として提供されて、視覚補助装置100の音声制御を可能にしてもよい。この方法では、ユーザは、音声命令を使用して、視覚補助装置100にフィードバックを提供してもよい。非限定的な例では、第1音声装置150A及び/又は第2音声装置150Bは、音声命令の受信及び音声メッセージ/音の発信の双方が可能なスピーカ/マイクの組み合わせとして構成されてもよい。
【0025】
ここで、
図4を参照すると、眼鏡として構成された例示的な視覚補助装置200は、図示される。この例では、筐体280は、ユーザが装着するように操作可能な眼鏡フレームとして構成される。第1前方画像センサ230A及び第2前方画像センサ230Bは、筐体280のそれぞれの端部に配置される。上述のように、第1前方画像センサ230A及び第2前方画像センサ230Bは、シーンの画像データを撮像可能な何れの装置として構成される。プロセッサ及び他のハードウェア(付図示)は、筐体280に内部に配置される。
【0026】
説明される視覚補助装置200は、ユーザの耳の周りに装着されるように構成されるイヤホン290を更に含む。イヤホンは、ユーザの耳に挿入され、本明細書で説明される音声メッセージを生成する音声装置250を含む。例示的なイヤホン290は、視覚補助装置200に情報(すなわち音声命令)を入力するユーザ入力装置としてマイク260を含んでもよい。このように、イヤホン290は、視覚補助装置200の入力装置/出力装置として動作する。符号295で示されるように、イヤホン290は、筐体280の内部のコンポーネント(すなわちプロセッサ)と無線通信してもよい。他の実施形態では、イヤホン290は、眼鏡フレームの筐体280と一体化される。
【0027】
ここで、視覚補助装置100の動作が説明される。
図5は、ユーザが進んでもよいシーン又は環境300を示す。例えば、環境300は、小売店であってもよい。いくつかのオブジェクト又は地物は、第1ゴミ箱301A、及び第2ゴミ箱301B、男性用トイレ表示302により示される男性用トイレ、女性用トイレ表示303で示される女性用トイレ、テーブル304、ランプ305及び出口表示306で示される出口のように図示される環境300の内部に存在する。ユーザが環境300を進むとき、視覚補助装置100は、画像データを撮像し、環境内のオブジェクトを検出する。
【0028】
図6は、例えば
図5に示す環境300のような環境内のオブジェクトの検出処理、及び環境内で検出されたオブジェクトについて視覚補助装置のユーザへの音声フィードバックの提供処理を示す。ユーザが環境300を進むとき、ブロック410において、視覚補助装置100は、1つ又は2つ以上の画像センサ130を使用して画像データを撮像する。画像データは、1つ又は2つ以上の静止画像、若しくは多くの連続するデジタル画像で構成されるビデオの形式であってもよい。画像データは、例えば、メモリコンポーネント140に記憶されてもよい。ブロック420において、プロセッサ110は、画像データにアクセスし、オブジェクト認識論理に従って、画像データにおいて、1つ又は2つ以上のオブジェクト認識アルゴリズムを実行する。オブジェクト認識論理は、シーンを示す画像データ内の1つ又は2つ以上のオブジェクトを検出する。
【0029】
既知のオブジェクト認識アルゴリズム又は未だ開発されていないオブジェクト認識アルゴリズムを利用して、環境を示す画像データ内のオブジェクトを検出してもよい。例示的なオブジェクト認識アルゴリズムは、エッジ検出アルゴリズム、コーナ検出アルゴリズム、ブロブ検出アルゴリズム、機能説明アルゴリズム(SIFT(scale-invariant feature transform)、SURF(speeded up robust features)、GLOH(gradient location and orientation histogram)等)を非限定的に含んでもよい。本明細書で使用する時、用語「オブジェクト認識アルゴリズム」は、画像データに存在する人を検出する顔検出アルゴリズムを含むことを理解すべきである。
【0030】
ブロック430において、オブジェクトの分類は、オブジェクト認識処理の結果として決定される。分類は、検出されたオブジェクトの種類を示す。例えば、
図5に示す環境300を示す画像データは、ごみ箱301Aを含む。オブジェクト認識アルゴリズムは、オブジェクト301Aをゴミ箱として分類することができる。
【0031】
オブジェクト認識アルゴリズムは、100%の精度でなく、種々の理由でオブジェクトを誤分類する可能性がある。オブジェクトが不正確に分類される非限定的な理由は、低環境光、画像データのエラー、環境のオブジェクトの姿勢、異なる種類のオブジェクトの間の類似した形状、及びオブジェクトへの不慣れである。本開示のオブジェクト認識アルゴリズムは、画像データから検出されたオブジェクトに対して信頼値を生成する(ブロック440)。信頼値は、物理的な環境の実際のオブジェクトは、画像データから決定されたオブジェクトの種類であるか否かに関する信頼の程度を示す。信頼値は最小値(すなわち、最も低い信頼性)から最大値(すなわち、最も高い信頼性)までの範囲を有する。低信頼性は、オブジェクト識別が検出オブジェクトの適切な分類を、高信頼性を有して決定できないときに生成される。反対に、オブジェクト認識は、検出オブジェクトの分類に確信があるとき、高信頼値を生成する。いくつかの実施形態では、信頼値は、最小値としての0%から最大値としての100%までの範囲のパーセンテージである。他の実施形態では、信頼値は、パーセンテージの形式ではなく、所定のスケール(例えば、0から1.0まで又は0から20まで)の数字であってもよい。
【0032】
視覚補助装置100のユーザは、視覚補助装置100が提供する情報を信頼すべきである。視覚補助装置100が、オブジェクトは、環境の実際のオブジェクトと異なるものであるとユーザに繰り返し伝えると、ユーザは、視覚補助装置100を使用したくなくなる可能性がある。本開示の実施形態は、オブジェクト認識アルゴリズムが生成した信頼値を、盲人又は視覚障碍者が聞いて理解できる音声メッセージに変換する。音声メッセージは、検出オブジェクトの分類が環境に物理的に存在するオブジェクトの実際の種類であるか否かについての正解性の程度を提供する。適切な方法で音声情報をユーザに提供することで、ユーザは、環境の情報を信頼すべきか否かを決定することができ、視覚補助装置100が提供する情報を全体として信頼することができ、視覚補助装置100を使用し続けることができる。
【0033】
ブロック450において、プロセッサ110は、検出オブジェクトの分類と共に検出オブジェクトの信頼値の表示を少なくとも含む音声信号を生成する。本明細書で使用するとき、音声信号は、プロセッサ(単体若しくは付加的な回路又は集積回路と協働)が生成し、1つ又は2つ以上の音声装置150に提供され(ブロック460)、1つ又は2つ以上の音声装置150により発せられる音声信号を示すデジタル信号又はアナログ信号である。
【0034】
1つの実施形態では、プロセッサ110が生成する音声信号は、既知のコンピュータスピーチ合成処理又は未だ開発されていないコンピュータスピーチ合成処理により生成されてもよい。いくつかの実施形態において、音声信号は、自然な会話である(すなわち、完全なセンテンスである)音声メッセージを生成する。例えば、音声装置150に提供される音声信号は、「40%の確度であなたの前にゴミ箱があります」と主張する。このように、音声メッセージは、オブジェクトの分類(例えば、「ゴミ箱」)及び信頼値の音声表示(例えば、40%の確度)の双方を含む。
【0035】
ブロック460において、音声装置150によって生成される音声メッセージの他の形式は、信頼性の実際のパーセンテージを復唱せずに、視覚補助装置100が検出したオブジェクトの分類を他の方法で特定する。非限定的な例では、音声メッセージは、「確かでない」、「と思う」、「まず間違いない」、「かなり確信する」、「確かな」、「間違いなく」等のような言葉及び表現を使用することで、分類を特定する。例えば、音声メッセージは、信頼値が非常に低いとき、「あなたの前にゴミ箱があると思うが、確かではない」と主張してもよく、信頼値が非常に高いとき、「間違いなくあなたの前にゴミ箱がある」と主張してもよい。情報をこのように特定することで、視覚補助装置100のユーザは、情報を信用するか否かを決定でき、情報を使用して、どのようにユーザが応答するかを決定してもよい(例えば、情報を無視する、より近くで見る)。
【0036】
ここで、音声メッセージの信頼性のために変換的に特定する表現を選択する非限定的な方法が説明される。
図7を参照すると、信頼値は、最小信頼値(例えば0)〜最大信頼値(例えば100)までの範囲を有する信頼値範囲500から選択されてもよい。信頼値範囲は、複数のサブインクリメント502A〜502Eに更に分割される。いずれの数のサブインクリメントを提供してもよい。非限定的な例として、サブインクリメント502A内の信頼値は0から20の範囲であり、サブインクリメント502B内の信頼値は21から40の範囲であり、サブインクリメント502C内の信頼値は41から60の範囲であり、サブインクリメント502D内の信頼値は61から80の範囲であり、サブインクリメント502E内の信頼値は81から100の範囲である。
【0037】
サブインクリメント502A〜502Eのそれぞれは、1つ又は2つ以上の関連付けられた記述を有する。音声説明は、信頼値に関して特定するステートメントである。サブインクリメント502Aの音声説明は、サブインクリメント502Eの音声説明よりも検出オブジェクトの分類に対する確度の程度が低いことを示す。非限定的な例では、サブインクリメント502Aに関連付けられた音声説明は、「確かでない」、「と思う」を含んでもよく、サブインクリメント502Eに関連付けられた音声説明は、「確信する」、「確かである」を非限定的に含んでもよい。多くの音声説明が可能であることを理解すべきである。
【0038】
音声信号を生成するとき、特定の検出オブジェクトの分類の信頼値に関連付けられるサブインクリメントは、決定される。上述の例を使用すると、オブジェクト識別アルゴリズムは、74の信頼値によりゴミ箱として
図5のオブジェクト301Aを検出すると、サブインクリメント502Dが選択される。プロセッサ110は、検出オブジェクト(例えば、ごみ箱)の分類を、サブインクリメント502Dni関連付けられた1つ又は2つ以上の音声説明(例えば、「まず間違いない」又は「かなり確信する」)と共に含むことによって、音声信号を生成する。例示的な音声信号は、「あなたの前にゴミ箱があるとかなり確信する」という音声メッセージを生成してもよい。
【0039】
また、プロセッサ110は、例えば、左右への角度のような方向情報を音声メッセージに組み込んでもよい。また、距離情報が提供されてもよい(例えば、「あなたの左約30度にあなたから約10mのところにゴミ箱があると確信します」)。
【0040】
いくつかの実施形態では、視覚補助装置100は、ユーザのフィードバックに基づいて、ユーザの好みを学習してもよい。視覚補助装置100は、音声情報をどのように提供するか、及び/又はどのような種類の音声情報を提供するかを調整してもよい。加えて、以下により詳細に説明するように、ユーザフィードバックは、検出オブジェクトを分類するオブジェクト認識アルゴリズムが使用する画像データを記憶するときに使用されてもよい。
【0041】
図8のフローチャート600を参照すると、ブロック610において、ユーザはユーザフィードバックを提供する。ユーザフィードバックは、1つ又は2つ以上のユーザ入力装置160によって提供されてもよい。例えば、ユーザフィードバックは、環境の実際のオブジェクトは、視覚補助装置100が言ったものではなかったこと(すなわち、ユーザは、視覚補助装置100が提供した分類を否定する)を示してもよく、ユーザフィードバックは、環境の実際のオブジェクトが視覚補助装置100が言ったものと一致したことを確認してもよい。ブロック620において、ユーザフィードバックが分類を確認したことを示す場合、処理はブロック630に進み、検出オブジェクトの画像データ及び検出オブジェクトの分類は、データベースに記憶される。代替的には、実際の画像データでなく、検出オブジェクトの属性及び検出オブジェクトの分類が記憶されてもよい。このような情報は、将来、オブジェクトを検出するときにオブジェクト認識アリゴリズムにより使用されることで、正確性を向上できる。
【0042】
しかしながら、ブロック620において、ユーザフィードバックは、視覚補助装置100により提供された分類を確認しなかったとき、処理はブロック640に進み、ユーザフィードバックは、視覚補助装置100が提供した検出オブジェクトの分類を拒否したか否かを評価する。ユーザフィードバックが視覚補助装置100が提供した分類を拒否しない(例えば、ユーザフィードバックは、オブジェクトの分類に無関係である)とき、処理はブロック650で終了し、他の動作が行われることになる。ユーザフィードバックが視覚補助装置100が提供した分類を実際に拒否した(ユーザが音声メッセージを無視するか、又はユーザが視覚補助装置100が言ったものと異なるオブジェクトであると言うかの何れか)とき、処理はブロック660に進み、音声メッセージは、フィルタリング又は変更される。例えば、視覚補助装置は、40%の確かさで検出オブジェクトがゴミ箱であることを示すことができる。ユーザが情報を拒否したとき、視覚補助装置は、40%の確かさで検出オブジェクトがゴミ箱であること以上の何れのメッセージをユーザに提供しなくてもよい。
【0043】
他のシナリオでは、ユーザフィードバックが視覚補助装置100が言ったものと異なる分類を目標物が有することを示すとき、拒否された分類に関連付けられる情報は、記憶され、将来のオブジェクト認識を改良するために使用される。
【0044】
ここで、本明細書で説明された実施形態は、盲人又は視覚障碍者のための視覚補助装置を目的とすることを理解すべきである。本明細書で説明される視覚補助装置は、ユーザの環境内のオブジェクトを検出する。視覚補助装置は、環境で検出されたオブジェクトの種類に関する音声メッセージを生成する。さらに、音声メッセージは、視覚補助装置が検出したオブジェクトの種類に関して視覚補助装置が正しいと信じる信頼性に関する特定のステートメントを含む。ユーザは、視覚補助装置が提供する情報に信頼を寄せられるかを知ることで、視覚補助装置に対する信頼性が向上する。
【0045】
具体的な実施形態が本明細書で説明されるが、種々の他の変化及び修正がクレームされた主題の精神及び範囲を逸脱することなく可能であることを理解すべきである。また、クレームされた主題は種々の態様は、本明細書で説明されるが、このような態様は、組み合わされて利用される必要はない。したがって、クレームされた発明は、クレームの主題の範囲内でこのような変化及び修正を含むことを意図するものである。
【手続補正書】
【提出日】2016年3月17日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
シーンに対応する画像データを生成する少なくとも1つの画像センサと、
プロセッサであって、
前記少なくとも1つの画像センサから前記画像データを受信し、
前記シーンに存在する検出オブジェクトの分類を決定するために前記画像データにおいてオブジェクト認識を実行し、
前記検出オブジェクトの分類に対する信頼値を決定し、ここで前記信頼値は、前記検出オブジェクトの分類が前記検出オブジェクトの実際の分類に一致することの信頼性に基づき、
前記信頼値に基づいて音声信号を生成する、
ようにプログラミングされるプロセッサと、
前記プロセッサから前記音声信号を受信し、前記検出オブジェクトの分類及び前記信頼値を示す音声メッセージを前記音声信号から生成する音声装置と、
を有する視覚補助装置。
【請求項2】
前記信頼値は、前記検出オブジェクトの分類が前記検出オブジェクトの実際の分類と一致することの信頼性に基づくパーセンテージであり、
前記音声メッセージは、前記信頼値の前記パーセンテージを含む、請求項1に記載の視覚補助装置。
【請求項3】
前記信頼値は、最小信頼値から最大信頼値の範囲を有する信頼値範囲から選択され、
前記信頼値範囲は、前記最小信頼値から前記最大信頼値までの複数のサブインクリメントを含み、前記複数のサブインクリメントのそれぞれのサブインクリメントは、複数の信頼値に広がり、
前記複数のサブインクリメントのそれぞれのサブインクリメントは、信頼性の程度を示す音声説明に関連付けられ、
前記音声信号は、選択された信頼値を含む前記複数のサブインクリメントの選択サブインクリメントを選択し、前記選択サブインクリメントに関連付けられた音声説明を前記音声信号に組み込むことで生成される、請求項1に記載の視覚補助装置。
【請求項4】
前記プロセッサは、
前記音声メッセージに対するユーザフィードバック信号を受信し、
前記ユーザフィードバック信号に基づいて、前記信頼値範囲の前記複数のサブインクリメントを調整するように更にプログラミングされる、請求項3に記載の視覚補助装置。
【請求項5】
前記少なくとも1つの画像センサは、第1画像センサと、第2画像センサとを有する、請求項1に記載の視覚補助装置。
【請求項6】
ユーザに装着されるように構成される、請求項1に記載の視覚補助装置。
【請求項7】
眼鏡フレームを更に有し、前記少なくとも1つの画像センサは、前記眼鏡フレームに接続される、請求項1に記載の視覚補助装置。
【請求項8】
ユーザの耳に挿入されるように構成されたイヤホンを更に含み、前記音声装置は、前記イヤホンの内部に配置される、請求項7に記載の視覚補助装置。
【請求項9】
前記プロセッサは、前記眼鏡フレームの内部に配置される、請求項7に記載の視覚補助装置。
【請求項10】
ユーザによって装着されるように構成された筐体を更に含む、請求項1に記載の視覚補助装置。
【請求項11】
前記筐体は、首部と、第1胸部と、第2胸部とを有する、請求項10に記載の視覚補助装置。
【請求項12】
前記少なくとも1つの画像センサは、前記第1胸部及び/又は前記第2胸部の内部に配置される、請求項11に記載の視覚補助装置。
【請求項13】
前記プロセッサは、
前記音声メッセージに対するユーザフィードバック信号を受信し、前記ユーザフィードバック信号は、前記検出オブジェクトに関連付けられた音声メッセージのユーザの無視に対応し、
前記音声メッセージを無視するユーザフィードバック信号に関連付けられた前記検出オブジェクトの分類と同一の分類を有する将来の検出オブジェクトのそれぞれのために、信頼値が、無視された前記音声メッセージに関連付けられた前記信頼値よりも大きいときのみに、音声信号を生成するように更にプログラミングされる、請求項1に記載の視覚補助装置。
【請求項14】
前記プロセッサは、
前記音声メッセージに対するユーザフィードバック信号を受信し、前記ユーザフィードバック信号は、前記音声メッセージに関連付けられた前記検出オブジェクトの分類が前記検出オブジェクトの実際の分類であることのユーザの確認に対応し、
前記ユーザフィードバック信号の受信に対して、前記検出オブジェクト及び前記分類を示す画像データを非一時的にコンピュータ読み取り可能な媒体に記憶するように更にプログラミングされる、請求項1に記載の視覚補助装置。
【外国語明細書】