IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 矢崎総業株式会社の特許一覧

<>
  • 特開-ウェアラブル機器 図1
  • 特開-ウェアラブル機器 図2
  • 特開-ウェアラブル機器 図3
  • 特開-ウェアラブル機器 図4
  • 特開-ウェアラブル機器 図5
  • 特開-ウェアラブル機器 図6
  • 特開-ウェアラブル機器 図7
  • 特開-ウェアラブル機器 図8
  • 特開-ウェアラブル機器 図9
  • 特開-ウェアラブル機器 図10
  • 特開-ウェアラブル機器 図11
  • 特開-ウェアラブル機器 図12
  • 特開-ウェアラブル機器 図13
  • 特開-ウェアラブル機器 図14
  • 特開-ウェアラブル機器 図15
  • 特開-ウェアラブル機器 図16
  • 特開-ウェアラブル機器 図17
  • 特開-ウェアラブル機器 図18
  • 特開-ウェアラブル機器 図19
  • 特開-ウェアラブル機器 図20
  • 特開-ウェアラブル機器 図21
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022187072
(43)【公開日】2022-12-19
(54)【発明の名称】ウェアラブル機器
(51)【国際特許分類】
   G06F 3/01 20060101AFI20221212BHJP
   H04N 5/64 20060101ALI20221212BHJP
   G09B 21/00 20060101ALI20221212BHJP
【FI】
G06F3/01 590
H04N5/64 511A
G09B21/00 D
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021094880
(22)【出願日】2021-06-07
(71)【出願人】
【識別番号】000006895
【氏名又は名称】矢崎総業株式会社
(74)【代理人】
【識別番号】110001771
【氏名又は名称】弁理士法人虎ノ門知的財産事務所
(72)【発明者】
【氏名】稲葉 永吾
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA44
5E555BA04
5E555BA88
5E555BB04
5E555BC30
5E555BE08
5E555CA47
5E555CB44
5E555DA08
5E555DB44
5E555DB57
5E555EA23
5E555FA00
(57)【要約】
【課題】適正にコミュニケーションを補助することができるウェアラブル機器を提供することを目的とする。
【解決手段】ウェアラブル機器1は、人体101の頭部102に装着された状態で、装着者100の視界に情報を表示可能である表示器本体10と、表示器本体10に設けられ、対話者の音声を入力可能である音声入力部60と、表示器本体10に設けられ、音声入力部60によって入力された音声を視覚情報に変換する処理、及び、変換した当該視覚情報を表示器本体に表示させる処理を実行可能である処理部80とを備えることを特徴とする。この結果、ウェアラブル機器1は、適正にコミュニケーションを補助することができる、という効果を奏する。
【選択図】図1
【特許請求の範囲】
【請求項1】
人体の頭部に装着された状態で、装着者の視界に情報を表示可能である表示器本体と、
前記表示器本体に設けられ、対話者の音声を入力可能である音声入力部と、
前記表示器本体に設けられ、前記音声入力部によって入力された前記音声を視覚情報に変換する処理、及び、変換した当該視覚情報を前記表示器本体に表示させる処理を実行可能である処理部とを備えることを特徴とする、
ウェアラブル機器。
【請求項2】
前記表示器本体に設けられ、前記装着者の視線を検出可能である視線検出部を備え、
前記処理部は、前記視線検出部によって検出された前記装着者の視線に基づいて前記対話者を特定する処理、及び、特定された前記対話者の位置に基づいて前記音声入力部による集音における指向角を可変とする処理を実行可能である、
請求項1に記載のウェアラブル機器。
【請求項3】
前記処理部は、特定された前記対話者と前記音声入力部との距離が相対的に長いほど、前記指向角を相対的に小さくし、前記距離が相対的に短いほど、前記指向角を相対的に大きくする、
請求項2に記載のウェアラブル機器。
【請求項4】
前記視覚情報は、前記音声に対応した文字列を表す文字画像情報を含む、
請求項1乃至請求項3のいずれか1項に記載のウェアラブル機器。
【請求項5】
前記視覚情報は、前記音声に対応した手話を表す手話動画像情報を含む、
請求項1乃至請求項4のいずれか1項に記載のウェアラブル機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ウェアラブル機器に関する。
【背景技術】
【0002】
従来のウェアラブル機器として、例えば、特許文献1には、視聴用のキャプションを表示するシステムが開示されている。このシステムは、異なるスペクトル範囲と実質的に相補的な偏光とによって、異なるカラーの少なくとも1つにより少なくとも2つのキャプションを表示するディスプレイを有する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特表2014-508962号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、このようなウェアラブル機器は、例えば、聴覚障害者のコミュニケーションの補助等の用途での使用も望まれている。
【0005】
本発明は、上記の事情に鑑みてなされたものであって、適正にコミュニケーションを補助することができるウェアラブル機器を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明のウェアラブル機器は、人体の頭部に装着された状態で、装着者の視界に情報を表示可能である表示器本体と、前記表示器本体に設けられ、対話者の音声を入力可能である音声入力部と、前記表示器本体に設けられ、前記音声入力部によって入力された前記音声を視覚情報に変換する処理、及び、変換した当該視覚情報を前記表示器本体に表示させる処理を実行可能である処理部とを備えることを特徴とする。
【発明の効果】
【0007】
本発明に係るウェアラブル機器は、音声入力部によって入力された対話者の音声を、処理部による処理に応じて視覚情報に変換する。そして、ウェアラブル機器は、処理部による処理に応じて、頭部に装着された状態で装着者の視界に情報を表示可能である表示器本体に当該視覚情報を表示させる。この結果、ウェアラブル機器は、適正にコミュニケーションを補助することができる、という効果を奏する。
【図面の簡単な説明】
【0008】
図1図1は、実施形態に係るウェアラブル機器の概略構成を表す模式図である。
図2図2は、実施形態に係るウェアラブル機器の概略構成を表すブロック図である。
図3図3は、実施形態に係るウェアラブル機器における表示の一例を表す模式図である。
図4図4は、実施形態に係るウェアラブル機器における視線検出について説明する模式図である。
図5図5は、実施形態に係るウェアラブル機器における視線検出について説明する模式図である。
図6図6は、実施形態に係るウェアラブル機器における輻輳角と距離との関係について説明する模式図である。
図7図7は、実施形態に係るウェアラブル機器における輻輳角と距離との関係について説明する模式図である。
図8図8は、実施形態に係るウェアラブル機器における輻輳角と距離との関係について説明する模式図である。
図9図9は、対話者との距離とマイクの指向角との関係の傾向を説明する模式図である。
図10図10は、対話者との距離とマイクの指向角との関係の傾向を説明する模式図である。
図11図11は、実施形態に係るウェアラブル機器における対話者との距離とマイクの指向角との関係を説明する模式図である。
図12図12は、実施形態に係るウェアラブル機器における対話者との距離とマイクの指向角との関係を説明する模式図である。
図13図13は、実施形態に係るウェアラブル機器におけるマイクの指向角の算出方法の一例を説明する模式図である。
図14図14は、実施形態に係るウェアラブル機器における対話者との距離とマイクの指向角との関係を説明する表図である。
図15図15は、実施形態に係る実施形態に係るウェアラブル機器の処理部によって行われる処理の一例を示すフローチャートである。
図16図16は、実施形態に係る実施形態に係るウェアラブル機器の処理部によって行われる処理の一例を示すフローチャートである。
図17図17は、実施形態に係る実施形態に係るウェアラブル機器の処理部によって行われる処理の一例を示すフローチャートである。
図18図18は、変形例に係るウェアラブル機器の処理部によって行われる処理の一例を示すフローチャートである。
図19図19は、変形例に係るウェアラブル機器の処理部によって行われる処理の一例を示すフローチャートである。
図20図20は、変形例に係るウェアラブル機器における対話者との距離の算出方法の一例を説明する模式図である。
図21図21は、変形例に係るウェアラブル機器における表示の一例を表す模式図である。
【発明を実施するための形態】
【0009】
以下に、本発明に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。
【0010】
[実施形態]
図1図2図3に示す本実施形態のウェアラブル機器1は、人体101の頭部102に装着され、装着者100の視界に種々の情報を表示するスマートグラスを構成するものである。本実施形態のウェアラブル機器1は、集音した音声を視覚情報VIに変換し、当該変換した視覚情報VIを装着者100の視界に表示することで、聴覚障害者のコミュニケーションを適正に補助することができるツールを実現する。典型的には、本実施形態のウェアラブル機器1は、視線検出機能、音声認識機能、及び、情報表示機能を有し、装着者100の視線を検出し、視線の方向に位置する対話者200(図6等参照)の音声を認識して、スマートグラスの表面に字幕等による視覚情報VIを表示させる。以下、図1を参照してウェアラブル機器1の各構成について詳細に説明する。
【0011】
具体的には、ウェアラブル機器1は、図1図2に示すように、表示器本体10と、電源20と、装着センサ30と、視線検出部としての視線検出センサ40と、外向きカメラ50と、音声入力部としてのマイク60と、記憶部70と、処理部80とを備える。電源20、装着センサ30、視線検出センサ40、外向きカメラ50、マイク60、記憶部70、及び、処理部80は、表示器本体10に設けられ、相互に通信可能に接続されている。
【0012】
表示器本体10は、人体101の頭部102に装着可能なヘッドマウントディスプレイ(HMD)方式のメガネ型表示デバイスである。表示器本体10は、人体101の頭部102に装着された状態で、装着者100の視界に情報を表示可能である。
【0013】
具体的には、表示器本体10は、透明ディスプレイ11、及び、フレーム12を含んで構成される。
【0014】
透明ディスプレイ11は、視覚情報VIを表示可能であり、ウェアラブル機器1における視覚情報VIの表示面を構成する。透明ディスプレイ11は、当該透明ディスプレイ11越しに背景を視認可能な程度に高い透明性を有している。透明ディスプレイ11は、例えば、液晶ディスプレイ、有機ELディスプレイ等によって構成される。ここでは、透明ディスプレイ11は、装着者100の右の眼球103Rに対応した右ディスプレイ11R、及び、装着者100の左の眼球103Lに対応した左ディスプレイ11Lを含んで構成される。
【0015】
フレーム12は、人体101の頭部102に装着され、透明ディスプレイ11を装着者100の視界に支持する構造体であり、弦や枠等を含んで構成される。フレーム12は、右ディスプレイ11Rを装着者100の右の眼球103Rと対向する位置に支持し、左ディスプレイ11Lを装着者100の左の眼球103Lと対向する位置に支持する。フレーム12は、ウェアラブル機器1を構成する電源20、装着センサ30、視線検出センサ40、外向きカメラ50、マイク60、記憶部70、処理部80等の各部が組み付けられる。
【0016】
上記構成により、表示器本体10は、フレーム12が人体101の頭部102に装着された状態で、透明ディスプレイ11越しの背景に重畳させて当該透明ディスプレイ11上に視覚情報VIを表示することで、当該視覚情報VIを装着者100の視界に表示可能である。図3に例示するように、透明ディスプレイ11によって装着者100の視界に表示する視覚情報VIは、例えば、対話者200(図6等参照)の音声に対応した文字列(テキスト)を表す文字画像情報VI1を含む。なお、透明ディスプレイ11は、上記に限らず、例えば、網膜投射型のディスプレイ等によって構成されてもよい。
【0017】
電源20は、ウェアラブル機器1の電力源である。電源20は、リチウムイオン電池等の充放電可能な二次電池等を含んで構成され、ウェアラブル機器1内の各部に対して電力を供給する。
【0018】
装着センサ30は、ウェアラブル機器1が人体101の頭部102に装着されていることを検出可能な検出器である。装着センサ30は、例えば、温度検知や発汗検知を行う検出器によって構成される。装着センサ30は、温度検知や発汗検知に基づいてフレーム12が装着者100の頭部102に触れていることを検出することで、ウェアラブル機器1が頭部102に装着されていることを検出する。
【0019】
視線検出センサ40は、装着者100の視線を検出可能な検出器である。視線検出センサ40は、例えば、フレーム12の中央の弦部分に設けられる。視線検出センサ40は、例えば、図4に例示するように、内向きカメラ41によって構成される。内向きカメラ41は、装着者100の眼球103L、103Rを撮像可能な撮像器である。視線検出センサ40を構成する内向きカメラ41は、図5に示すように、眼球103L、103Rの瞳孔103aとプルキニエ像(角膜表面における反射光)103bを検出することで、瞳孔-角膜反射法により装着者100の視線検出を可能とする。なお、視線検出センサ40は、上記に限らず、例えば、フレーム12の中央の弦部分に内蔵され眼球運動に伴う目の周りの電位差を検出することで、装着者100の視線検出を行う眼電位センサによって構成されてもよい。
【0020】
外向きカメラ50は、装着者100の眼球103L、103R側とは反対側を撮像可能な撮像器である。言い換えれば、外向きカメラ50は、透明ディスプレイ11越しに装着者100の視線が向う側を撮像する。外向きカメラ50は、例えば、フレーム12の端部に設けられる。
【0021】
マイク60は、対話者200の音声を入力可能な集音器である。マイク60は、集音方向、及び、指向角α(図11等参照)を変更可能な指向性マイクである。ここで、指向角αとは、集音可能な角度範囲を表し、小さいほど当該角度範囲が狭いことを表し、大きいほど当該角度範囲が広いことを表す。マイク60は、例えば、2チャンネル話者追尾型マイクロホンアレーを用いることができる。
【0022】
記憶部70は、各種データ(情報)を記憶する記憶回路である。記憶部70は、例えば、ウェアラブル機器1が各種の機能を実現するためのプログラムを記憶する。記憶部70に記憶されるプログラムには、透明ディスプレイ11を機能させるプログラム、電源20を機能させるプログラム、装着センサ30を機能させるプログラム、視線検出センサ40を機能させるプログラム、外向きカメラ50を機能させるプログラム、マイク60を機能させるプログラム、処理部80を機能させるプログラム等が含まれる。また、記憶部70は、処理部80での各種処理に必要なデータ、透明ディスプレイ11で表示するデータ等の各種データを記憶する。記憶部70は、処理部80等によってこれらの各種データが必要に応じて読み出される。なお、記憶部70は、ネットワークを介してウェアラブル機器1に接続されたクラウドサーバ等により実現されてもよい。
【0023】
処理部80は、ウェアラブル機器1における各種処理機能を実現する処理回路である。処理部80は、例えば、プロセッサによって実現される。プロセッサとは、例えば、CPU(Central Processing Unit)等の回路を意味する。処理部80は、例えば、記憶部70から読み込んだプログラムを実行することにより、各処理機能を実現する。
【0024】
本実施形態に係る処理部80は、マイク60によって入力された音声を視覚情報VIに変換し、変換した当該視覚情報VIを表示器本体10の透明ディスプレイ11に表示させる各種処理を行うための機能を有している。また、本実施形態の処理部80は、視線検出センサ40によって検出された装着者100の視線に基づいて対話者200を特定し、特定された対話者200の位置に基づいてマイク60による集音における指向角αを可変とする各種処理を行うための機能を有している。
【0025】
具体的には、本実施形態の処理部80は、上記各種処理機能を実現するために、機能概念的に、装着検出処理部81、電源制御処理部82、視線検出処理部83、対話者特定処理部84、指向角設定処理部85、音声入力処理部86、変換処理部87、及び、表示制御処理部88を含んで構成される。処理部80は、例えば、記憶部70から読み込んだプログラムを実行することにより、これら装着検出処理部81、電源制御処理部82、視線検出処理部83、対話者特定処理部84、指向角設定処理部85、音声入力処理部86、変換処理部87、及び、表示制御処理部88の各処理機能を実現する。
【0026】
装着検出処理部81は、ウェアラブル機器1が人体101の頭部102に装着されていることを判定する処理を実行可能な機能を有する部分である。装着検出処理部81は、装着センサ30による検出結果に基づいて、ウェアラブル機器1が頭部102に装着されていることを判定する。
【0027】
電源制御処理部82は、電源20を制御する処理を実行可能な機能を有する部分である。電源制御処理部82は、装着検出処理部81によってウェアラブル機器1が頭部102に装着されていると判定された場合、ウェアラブル機器1の電源20をONとする。一方、電源制御処理部82は、装着検出処理部81によってウェアラブル機器1が頭部102に装着されていないと判定された場合、ウェアラブル機器1の電源20をOFF(最小限の待機状態)とする。この処理により、ウェアラブル機器1は、消費電力を削減することができる。
【0028】
視線検出処理部83は、ウェアラブル機器1を装着した装着者100の視線を検出する処理を実行可能な機能を有する部分である。視線検出処理部83は、視線検出センサ40による検出結果に基づいて、装着者100の視線を検出する。ここでは、視線検出処理部83は、視線検出センサ40を構成する内向きカメラ41によって撮像された眼球103L、103Rの画像から瞳孔103a、プルキニエ像103bの位置を検出する。そして、視線検出処理部83は、これら瞳孔103a、プルキニエ像103bの位置に基づいて瞳孔-角膜反射法により装着者100の視線の方向を検出する。
【0029】
対話者特定処理部84は、視線検出センサ40によって検出され視線検出処理部83によって処理された装着者100の視線に基づいて対話者200を特定する処理を実行可能な機能を有する部分である。ここでは、対話者特定処理部84は、例えば、人物が人物と話をする場合、一定時間、対話者200を見る傾向を利用し、装着者100の視線が所定時間(例えば、2秒以上)停留した人物を対話者200として特定する。
【0030】
本実施形態の対話者特定処理部84は、一例として、装着者100の視線に加えて、外向きカメラ50によって撮像された当該視線が向う側の画像に基づいて対話者200を特定する。対話者特定処理部84は、外向きカメラ50によって撮像された画像から人物を検出し、検出した人物から装着者100の視線の方向に位置する人物を特定する。そして、対話者特定処理部84は、装着者100の視線が当該特定した人物に所定時間(例えば、2秒以上)滞留した場合に、当該人物を対話者200として特定する。
【0031】
また、本実施形態の対話者特定処理部84は、特定した対話者200の位置に基づいて当該対話者200までの距離を推定する。ここでいう対話者200までの距離とは、装着者100と対話者200との距離であり、概略的には、特定された対話者200とマイク60との距離にも相当する。
【0032】
ここでは、対話者特定処理部84は、一例として、図6図7図8に示すように、視線検出センサ40によって検出され視線検出処理部83によって処理された装着者100の視線に基づいて装着者100の輻輳角θを算出し、算出した当該輻輳角θに基づいて対話者200までの距離Dを推定する。
【0033】
ここでいう装着者100の輻輳角θとは、図6図7図8に示すように、装着者100の左の眼球103Lの視線と右の眼球103Rの視線とがなす角度である。なお、この図6図7図8中には、瞳孔103aと共に中心窩103cも図示している。対話者特定処理部84は、視線検出センサ40によって検出され視線検出処理部83によって処理された左の眼球103Lの視線の方向と右の眼球103Rの視線の方向とに基づいて装着者100の当該輻輳角θを算出する。なお、視線に基づいて算出される輻輳角θは、装着者100によって個人差があるので、ウェアラブル機器1の使用にあたっては適宜キャリブレーションを実施しておくことが好ましい。
【0034】
ここで、図6図7図8に示すように、人体は、近くの対話者(物体)200を視る場合、すなわち、対話者200までの距離Dが相対的に短い場合に輻輳角θが相対的に大きくなる傾向にある。逆に、人体は、遠くの対話者(物体)200を視る場合、すなわち、対話者200までの距離Dが相対的に長い場合に輻輳角θが相対的に小さくなる傾向にある。
【0035】
対話者特定処理部84は、図6図7図8に示すような対話者200までの距離Dと輻輳角θとの傾向を利用し、算出した輻輳角θに基づいて対話者200までの距離Dを推定する。例えば、ウェアラブル機器1は、対話者200までの距離Dと輻輳角θとの傾向を表す数式やテーブルを記憶部70に予め記憶しておく。そして、対話者特定処理部84は、当該数式や当該テーブルに基づいて、輻輳角θから対話者200までの距離Dを算出する。
【0036】
指向角設定処理部85は、対話者特定処理部84によって特定された対話者200の位置に基づいてマイク60による集音における指向角αを可変とする処理を実行可能な機能を有する部分である。
【0037】
ここで、図9図10を参照して、対話者200の位置にかかわらず、マイク60の指向角αを固定とした場合について説明する。例えば、マイク60は、図9に例示するように、装着者100からの距離Dが相対的に短く当該装着者100の近くに位置する対話者200Aの肩幅(例えば45~46cm程度)にあわせて指向角αを相対的に大きな値に設定した場合を仮定する。この場合、マイク60は、装着者100からの距離Dが相対的に長く当該装着者100から離れて位置する対話者200Bの音声を集音するに際には、周囲のノイズ(例えば、周囲の人物の音声等)を拾い易い傾向となる。逆に、マイク60は、図10に例示するように、装着者100からの距離Dが相対的に長く当該装着者100から離れて位置する対話者200Bの肩幅にあわせて指向角αを相対的に小さな値に設定した場合を仮定する。この場合、マイク60は、装着者100からの距離Dが相対的に短く当該装着者100の近くに位置する対話者200Aの音声を集音するに際には、対話者200Aの音声を拾い難い傾向となる。
【0038】
本実施形態の指向角設定処理部85は、マイク60による集音において、対話者200までの距離Dに応じてより好ましい指向角αが異なる、という上記のような傾向に基づいて、マイク60の指向角αを変化させる。すなわちここでは、指向角設定処理部85は、上記のような傾向に基づいて、対話者200の位置に応じて、マイク60の集音方向、及び、指向角αを設定する。この処理により、指向角設定処理部85は、マイク60を介した音声認識率を向上させる。
【0039】
より具体的には、指向角設定処理部85は、上記のような傾向に基づいて、対話者200までの距離Dに応じてマイク60の指向角αを設定する。指向角設定処理部85は、図11図12に示すように、特定された対話者200とマイク60との距離Dが相対的に長いほど、指向角αを相対的に小さくし、特定された対話者200とマイク60との距離Dが相対的に短いほど、指向角αを相対的に大きくする。
【0040】
人物の肩幅の範囲を全て集音対象範囲に入れるとすると、必要となる指向角αは、上述したようにその人物(対話者200)までの距離Dに応じて変わり、例えば、図13に例示するように、下記の数式(1)を用いて距離Dに応じて定まる。

tan(α/2)=肩幅/2×1/D ・・・ (1)
【0041】
図14は、対話者200までの距離Dと、当該距離Dにおける好適な指向角αとの関係の一例を表した表図である。人物の肩幅は、45~46cm程度と略一定なので、例えば、肩幅を固定値=45cmと仮定すると、指向角αは、距離Dが0.45mである場合は53.1度程度、距離Dが1.2mである場合は21.2度程度、距離Dが3.5mである場合は7.36度程度にとなる。
【0042】
例えば、ウェアラブル機器1は、対話者200までの距離Dと指向角αとの上記のような傾向を表す数式やテーブルを記憶部70に予め記憶しておく。そして、指向角設定処理部85は、当該数式や当該テーブルに基づいて、対話者200までの距離Dから指向角αを算出、設定する。指向角設定処理部85は、距離Dに応じて指向角αをリニアに変更して設定してもよいが、ここでは、距離Dに応じて上記の3つの指向角αを段階的に変更して設定する。
【0043】
そして、指向角設定処理部85は、視線の方向、対話者200の位置、距離D等に応じて集音方向、指向角αを設定し、当該設定した集音方向、指向角αに応じた動作指令をマイク60に入力し、当該マイク60を設定した集音方向、指向角αで集音させる。
【0044】
この処理により、ウェアラブル機器1は、図11に示すように、装着者100からの距離Dが相対的に短く当該装着者100の近くに位置する対話者200Aの音声を集音するに際には、指向角αが相対的に大きく設定される。これにより、ウェアラブル機器1は、対話者200Aの音声を拾い易くすることができる。一方、ウェアラブル機器1は、図12に示すように、装着者100からの距離Dが相対的に長く当該装着者100から離れて位置する対話者200Bの音声を集音するに際には、指向角αが相対的に小さく設定される。これにより、ウェアラブル機器1は、対話者200Bの周囲のノイズ(例えば、周囲の人物の音声等)を拾い難くすることができる。
【0045】
音声入力処理部86は、マイク60を制御し当該マイク60によって音声を入力する処理を実行可能な機能を有する部分である。音声入力処理部86は、指向角設定処理部85によって設定された集音方向、指向角αでマイク60によって集音する。音声入力処理部86は、マイク60によって集音した集音データを一旦記憶回部70に記憶させるようにしてもよい。
【0046】
変換処理部87は、マイク60によって入力された音声を視覚情報VIに変換する処理を実行可能な機能を有する部分である。変換処理部87は、指向角設定処理部85によって設定された集音方向、指向角αでマイク60によって集音された音から、音声認識機能(音声認識エンジン)によって対話者200の音声を認識する。そして、変換処理部87は、音声認識した対話者200の音声を視覚情報VIに変換する。ここでは、変換処理部87は、音声認識した対話者200の音声を、対話者200の音声に対応した文字列(テキスト)に変換し、図3に例示したように、視覚情報VIとして、当該文字列を表す文字画像情報VI1を生成する。変換処理部87は、生成した視覚情報VI、ここでは、文字画像情報VI1を一旦記憶回部70に記憶させるようにしてもよい。
【0047】
表示制御処理部88は、変換処理部87によって変換した視覚情報VIを表示器本体10の透明ディスプレイ11に表示させる処理を実行可能な機能を有する部分である。表示制御処理部88は、図3に例示するように、対話者200の音声に対応した視覚情報VIとして、当該音声に対応した文字列を表す文字画像情報VI1を、透明ディスプレイ11によって装着者100の視界に表示させ、対話者200の音声を字幕表示させる。
【0048】
次に、図15図16図17のフローチャート図を参照して、ウェアラブル機器1おける処理手順について説明する。
【0049】
まず、図15に示すように、処理部80の装着検出処理部81は、装着センサ30による検出結果に基づいて、装着者100がウェアラブル機器(スマートグラス)1を外したか否か、言い換えれば、ウェアラブル機器1が頭部102に装着されているか否かを判定する(ステップS1)。
【0050】
処理部80の電源制御処理部82は、装着検出処理部81によって装着者100がウェアラブル機器1を外したと判定された場合(ステップS1:Yes)、言い換えれば、ウェアラブル機器1が頭部102に装着されていないと判定された場合、電源20をOFF(最小限の待機状態)とし、この処理を終了する。
【0051】
処理部80の視線検出処理部83は、装着検出処理部81によって装着者100がウェアラブル機器1を外していないと判定された場合(ステップS1:No)、言い換えれば、ウェアラブル機器1が頭部102に装着されていると判定された場合、視線検出センサ40による検出結果に基づいて、装着者100の視線を検出したか否かを判定する(ステップS2)。
【0052】
処理部80は、視線検出処理部83によって装着者100の視線を検出していないと判定された場合(ステップS2:No)、ステップS1に戻って以降の処理を繰り返し実行する。
【0053】
視線検出処理部83は、装着者100の視線を検出したと判定された場合(ステップS2:Yes)、視線検出センサ40による検出結果に基づいて、入力された視線から当該視線の方向を取得する(ステップS3)。
【0054】
次に、処理部80の対話者特定処理部84は、視線検出処理部83によって処理された装着者100の視線の方向と、外向きカメラ50によって撮像された画像とに基づいて、当該画像から特定される人物に視線が2秒以上滞留したか否かを判定する(ステップS4)。
【0055】
処理部80は、対話者特定処理部84によって画像から特定される人物に視線が2秒以上滞留していないと判定された場合(ステップS4:No)、ステップS2に戻って以降の処理を繰り返し実行する。
【0056】
対話者特定処理部84は、画像から特定される人物に視線が2秒以上滞留したと判定した場合(ステップS4:Yes)、当該人物を対話者200として特定する(ステップS5)。
【0057】
次に、対話者特定処理部84は、視線検出センサ40による検出結果に基づいて、入力された視線から装着者100の輻輳角θを取得する(ステップS6)。対話者特定処理部84は、左の眼球103Lの視線の方向と右の眼球103Rの視線の方向とに基づいて装着者100の輻輳角θを算出、取得する。
【0058】
次に、対話者特定処理部84は、取得した装着者100の輻輳角θに基づいて対話者200までの距離Dを推定する(ステップS7)。対話者特定処理部84は、例えば、記憶部70に記憶されている数式やテーブルに基づいて、輻輳角θから対話者200までの距離Dを算出、推定する。
【0059】
次に、指向角設定処理部85は、対話者特定処理部84によって推定された対話者200までの距離Dに基づいてマイク60の指向角αを決定する(ステップS8)。指向角設定処理部85は、例えば、記憶部70に記憶されている数式やテーブルに基づいて、対話者200までの距離Dからマイク60の指向角αを決定する。なお、この指向角αの決定フローについては、図17で一例を後述する。
【0060】
そして、指向角設定処理部85は、視線の方向、対話者200の位置、距離D等に基づいて取得した集音方向、指向角αに応じた動作指令をマイク60に入力する(ステップS9)。
【0061】
そして、処理部80の音声入力処理部86は、指向角設定処理部85によって設定された集音方向にマイク60を向け、指向角設定処理部85によって設定された指向角αで集音させる(ステップS10)。
【0062】
次に、処理部80の変換処理部87は、マイク60によって入力された音声を取得し、公知の音声認識エンジンに入力する(ステップS11)。
【0063】
そして、変換処理部87は、音声認識を実行して、集音された音から対話者200の音声を認識し、音声認識した対話者200の音声を文字列(テキスト)に変換し、視覚情報VIとして、当該文字列を表す文字画像情報VI1を生成する(ステップS12)。
【0064】
次に、処理部80の表示制御処理部88は、変換処理部87によって変換した視覚情報VI、ここでは、音声認識の結果として、文字列を表す文字画像情報VI1を表示器本体10の透明ディスプレイ11に出力し表示させる(ステップS13)。
【0065】
ここでは、表示制御処理部88は、図16に示すように、出力する文字列を所定文字数、例えば、20文字ごとに区切り(ステップS14)、透明ディスプレイ11上で当該文字列を出力する位置を決定する(ステップS15)。
【0066】
そして、表示制御処理部88は、現在、透明ディスプレイ11上に出力されている20文字を消し(ステップS16)、次に20文字に区切られた文字列を表す文字画像情報VI1を透明ディスプレイ11上の決められた位置に出力する(ステップS17)。
【0067】
そして、表示制御処理部88は、出力する文字がもうないか否かを判定し(ステップS18)、出力する文字がまだあると判定した場合(ステップS18:No)、ステップS16に戻って以降の処理を繰り返し実行する。処理部80は、表示制御処理部88によって出力する文字がもうないと判定された場合(ステップS18:Yes)、図15のステップS1に戻って以降の処理を繰り返し実行する。
【0068】
次に、図17を参照して、ステップS8の指向角αの決定フローの一例について説明する。
【0069】
この場合まず、指向角設定処理部85は、ステップS7で対話者特定処理部84によって輻輳角θに基づいて推定された対話者200までの距離Dが3.5m以上であるかを判定する(ステップS21)。
【0070】
指向角設定処理部85は、対話者200までの距離Dが3.5m以上であると判定した場合(ステップS21:Yes)、マイク60の指向角αを7.36度に決定し(ステップS22)、当該決定フローを終了する。
【0071】
指向角設定処理部85は、対話者200までの距離Dが3.5m未満であると判定した場合(ステップS21:No)、対話者200までの距離Dが1.2m以上3.5m未満であるかを判定する(ステップS23)。
【0072】
指向角設定処理部85は、対話者200までの距離Dが1.2m以上3.5m未満であると判定した場合(ステップS23:Yes)、マイク60の指向角αを21.2度に決定し(ステップS24)、当該決定フローを終了する。
【0073】
指向角設定処理部85は、対話者200までの距離Dが1.2m未満であると判定した場合(ステップS24:No)、対話者200までの距離Dが0.45m以上1.2m未満であるかを判定する(ステップS25)。
【0074】
指向角設定処理部85は、対話者200までの距離Dが0.45m以上1.2m未満であると判定した場合(ステップS25:Yes)、マイク60の指向角αを53.1度に決定し(ステップS26)、当該決定フローを終了する。
【0075】
指向角設定処理部85は、対話者200までの距離Dが0.45m未満であると判定した場合(ステップS25:No)、現状の指向角α(典型的には最大の指向角α)を維持したまま、当該決定フローを終了する。
【0076】
以上で説明したウェアラブル機器1は、マイク60によって入力された対話者200の音声を、処理部80による処理に応じて視覚情報VIに変換する。そして、ウェアラブル機器1は、処理部80による処理に応じて、頭部102に装着された状態で装着者100の視界に情報を表示可能である表示器本体10に当該視覚情報VIを表示させる。この結果、ウェアラブル機器1は、例えば、聴覚障害者が対話者200の言葉を読み取るために当該対話者200の口元に視線を集中させなくても、リアルタイムに対話者200の会話内容を知ることができる。
【0077】
以上のように、ウェアラブル機器1は、例えば、通訳者等によらずに、適正にコミュニケーションを補助することができる。この結果、ウェアラブル機器1は、例えば、聴覚障害者におけるコミュニケーションの負担を緩和することができ、聴覚障害者の生活福祉を向上させることができる。
【0078】
また、以上で説明したウェアラブル機器1は、処理部80が視線検出センサ40によって検出された装着者100の視線に基づいて対話者200を特定し、特定された対話者200の位置に基づいてマイク60による集音における指向角αを可変とする処理を実行する。この処理により、ウェアラブル機器1は、特定した対話者200の位置に応じた適切な指向角αでマイク60による集音を行うことができるので、対話者200の位置にかかわらず音声認識率を向上させることができる。この結果、ウェアラブル機器1は、対話者200の位置にかかわらずより適正にコミュニケーションを補助することができる。
【0079】
より具体的には、以上で説明したウェアラブル機器1は、処理部80が対話者200とマイク60との距離Dが相対的に長いほど、指向角αを相対的に小さくし、当該距離Dが相対的に短いほど、指向角αを相対的に大きくする。この処理により、ウェアラブル機器1は、装着者100からの距離Dが相対的に短く当該装着者100の近くに位置する対話者200の音声を集音するに際には、当該対話者200の音声を拾い易くすることができる。一方、ウェアラブル機器1は、装着者100からの距離Dが相対的に長く当該装着者100から離れて位置する対話者200の音声を集音するに際には、当該対話者200の周囲のノイズ(例えば、周囲の人物の音声等)を拾い難くすることができる。この結果、ウェアラブル機器1は、上記のように対話者200がいずれの位置にいる場合であっても、周囲の他の人物の音声等のノイズを拾い難くし、当該対話者200の音声を拾い易くすることができる。これにより、ウェアラブル機器1は、上記のように、対話者200の位置にかかわらずより適正にコミュニケーションを補助することができる。
【0080】
ここでは、以上で説明したウェアラブル機器1は、視覚情報VIとして対話者200の音声に対応した文字列(テキスト)を表す文字画像情報VI1を含む。これにより、ウェアラブル機器1は、対話者200の音声に対応した文字列を表す文字画像情報VI1を、表示器本体10によって装着者100の視界に視覚情報VIとして表示させ、対話者200の音声を字幕表示させることができる。
【0081】
なお、上述した本発明の実施形態に係るウェアラブル機器は、上述した実施形態に限定されず、特許請求の範囲に記載された範囲で種々の変更が可能である。
【0082】
以上の説明では、対話者特定処理部84は、視線検出センサ40によって検出された装着者100の視線に基づいて輻輳角θを算出し、算出した当該輻輳角θに基づいて対話者200までの距離Dを推定するものとして説明したがこれ限らない。対話者特定処理部84は、例えば、図18図19図20に示すように、輻輳角θに基づかずに、外向きカメラ50によって撮像された画像に基づいて人物の大きさ等から対話者200までの距離Dを推定してもよい。
【0083】
この場合、対話者特定処理部84は、図18に示すように、対話者200を特定した後(ステップS5)、外向きカメラ50によって撮像された画像において、対話者200の肩幅の画面上の大きさから当該対話者200までの距離Dを算出、推定し、指向角設定処理部85は、当該距離Dからマイク60の指向角αを決定する(ステップS6A)。
【0084】
具体的には、対話者特定処理部84は、図19の指向角αの決定フローに例示するように、外向きカメラ50によって撮像された画像から対話者200に相当する人物を検出し、外向きカメラ50のイメージセンサ上の肩幅Wの大きさに相当するpixel値W1を検出する(ステップS20A)。
【0085】
ここで、上述したように、人物の肩幅Wは、45~46cm程度と略一定なので、例えば、肩幅を固定値=45cmと仮定すると、図20に示すように、対話者特定処理部84は、対話者200の肩幅Wについて、外向きカメラ50のイメージセンサ上のpixel値W1を検出することで、対話者200までの距離Dを算出、推定することができる。
【0086】
例えば、外向きカメラ50のイメージセンサのサイズを1/3インチ、画素数をVGA(640×480)、焦点距離F=2mmとすると、水平方向の撮影範囲D1は、対話者200までの距離Dに応じて、下記の数式(2)により求まる。

D1=4.8mm(イメージセンサの幅)×D/F ・・・ (2)
【0087】
そして、対話者200までの距離Dが0.45mである場合、水平方向の撮影範囲D1は、上記の数式(2)より、D1=4.8mm×0.45m/2mm=1.08mとなるので、pixel値W1は、下記の比例式(3)の関係となる。

0.45m:1.08m=W1:640pixel ・・・ (3)

これにより、対話者200までの距離Dが0.45mである場合は、W1=267pixelとなる。
【0088】
同様にして、対話者200までの距離Dが1.2mである場合、水平方向の撮影範囲D1は、上記の数式(2)より、D1=4.8mm×1.2m/2mm=2.88mとなるので、pixel値W1は、下記の比例式(4)の関係となる。

0.45m:2.88m=W1:640pixel ・・・ (4)

これにより、対話者200までの距離Dが1.2mである場合は、W1=100pixelとなる。
【0089】
また、対話者200までの距離Dが3.5mである場合、水平方向の撮影範囲D1は、上記の数式(2)より、D1=4.8mm×3.5m/2mm=8.4mとなるので、pixel値W1は、下記の比例式(5)の関係となる。

0.45m:8.4m=W1:640pixel ・・・ (5)

これにより、対話者200までの距離Dが3.5mである場合は、W1=34.3pixelとなる。
【0090】
以上を用いて、対話者特定処理部84は、外向きカメラ50の画像認識結果から求めた画像上の肩幅Wの大きさから、距離Dを推定することが可能である。
【0091】
ここでは、対話者特定処理部84は、ステップS20Aの後、ステップS20Aで検出した肩幅Wの大きさに相当するpixel値W1が34.3pixel以下であるか否かを判定する(ステップS21A)。
【0092】
対話者特定処理部84は、pixel値W1が34.3pixel以下であると判定した場合(ステップS21A:Yes)、対話者200までの距離Dが3.5m以上であるものと判定する。そして、指向角設定処理部85は、マイク60の指向角αを7.36度に決定し(ステップS22A)、当該決定フローを終了する。
【0093】
対話者特定処理部84は、pixel値W1が34.3pixelより大きいと判定した場合(ステップS21A:No)、当該pixel値W1が34.3pixelより大きく100pixel以下であるか否かを判定する(ステップS23A)。
【0094】
対話者特定処理部84は、pixel値W1が34.3pixelより大きく100pixel以下であると判定した場合(ステップS23A:Yes)、対話者200までの距離Dが1.2m以上3.5m未満であるものと判定する。そして、指向角設定処理部85は、マイク60の指向角αを21.2度に決定し(ステップS24A)、当該決定フローを終了する。
【0095】
対話者特定処理部84は、pixel値W1が100pixelより大きいと判定した場合(ステップS23A:No)、当該pixel値W1が100pixelより大きく267pixel以下であるか否かを判定する(ステップS25A)。
【0096】
対話者特定処理部84は、pixel値W1が100pixelより大きく267pixel以下であると判定した場合(ステップS25A:Yes)、対話者200までの距離Dが0.45m以上1.2m未満であるものと判定する。そして、指向角設定処理部85は、マイク60の指向角αを53.1度に決定し(ステップS26A)、当該決定フローを終了する。
【0097】
対話者特定処理部84は、pixel値W1が267pixelより大きいと判定した場合(ステップS25A:No)、対話者200までの距離Dが0.45m未満であると判定し、指向角設定処理部85は、現状の指向角α(典型的には最大の指向角α)を維持したまま、当該決定フローを終了する。
【0098】
以上のように、ウェアラブル機器1は、外向きカメラ50によって撮像された画像に基づいて対話者200までの距離Dを推定し、当該距離Dに基づいてマイク60の指向角αを設定することもできる。この場合であっても、ウェアラブル機器1は、対話者200の位置にかかわらず音声認識率を向上させることができ、より適正にコミュニケーションを補助することができる。
【0099】
また、以上の説明では、対話者特定処理部84は、一例として、装着者100の視線に加えて、外向きカメラ50によって撮像された画像に基づいて対話者200を特定するものとして説明したがこれに限らない。対話者特定処理部84は、外向きカメラ50によって撮像された画像を用いず、視線検出センサ40を介して視線検出処理部83によって検出された装着者100の視線の方向や当該視線の方向に応じた輻輳角θに基づいて対話者200の位置の特定や距離Dの推定を簡略化して行うようにしてもよい。例えば、対話者特定処理部84は、視線の方向や輻輳角θが所定時間、変化しない場合に、このときの視線の方向や輻輳角θに基づいて対話者200の位置の特定や距離Dの推定を行うことができる。この場合、ウェアラブル機器1は、外向きカメラ50を備えない構成であってもよい。
【0100】
また、以上の説明では、ウェアラブル機器1は、装着者100の視線を検出して対話者200の位置を特定するものとして説明したが、そもそも、装着者100の視線検出を行わない構成であってもよい。この場合、ウェアラブル機器1は、視線検出センサ40を備えない構成であってもよく、処理部80は、対話者200までの距離Dにかかわらずマイク60の指向角αを固定してマイク60による集音を行うようにしてもよい。
【0101】
また、以上の説明では、透明ディスプレイ11によって装着者100の視界に表示する視覚情報VIは、文字画像情報VI1を含むものとして説明したがこれ限らない。当該視覚情報VIは、例えば、図21に示すように、対話者200の音声に対応した手話を表す手話動画像情報VI2を含むものであってもよい。この場合、変換処理部87は、音声認識した対話者200の音声を、対話者200の音声に対応した手話に関する情報に変換し、視覚情報VIとして、当該手話を表す手話動画像情報VI2を生成する。表示制御処理部88は、対話者200の音声に対応した視覚情報VIとして、当該音声に対応した手話を表す手話動画像情報VI2を、透明ディスプレイ11によって装着者100の視界に表示させる。これにより、ウェアラブル機器1は、対話者200の音声に対応した手話を表す手話動画像情報VI2を、表示器本体10によって装着者100の視界に視覚情報VIとして表示させ、例えば、手話通訳ロボットをオーバーレイ表示させることができる。
【0102】
以上で説明した処理部80は、単一のプロセッサによって各処理機能が実現されるものとして説明したがこれに限らない。処理部80は、複数の独立したプロセッサを組み合わせて各プロセッサがプログラムを実行することにより各処理機能が実現されてもよい。また、処理部80が有する処理機能は、単一又は複数の処理回路に適宜に分散又は統合されて実現されてもよい。また、処理部80が有する処理機能は、その全部又は任意の一部をプログラムにて実現してもよく、また、ワイヤードロジック等によるハードウェアとして実現してもよい。
【0103】
本実施形態に係るウェアラブル機器は、以上で説明した実施形態、変形例の構成要素を適宜組み合わせることで構成してもよい。
【符号の説明】
【0104】
1 ウェアラブル機器
10 表示器本体
11 透明ディスプレイ
11L 左ディスプレイ
11R 右ディスプレイ
12 フレーム
20 電源
30 装着センサ
40 視線検出センサ(視線検出部)
41 内向きカメラ
50 外向きカメラ
60 マイク(音声入力部)
70 記憶部
80 処理部
81 装着検出処理部
82 電源制御処理部
83 視線検出処理部
84 対話者特定処理部
85 指向角設定処理部
86 音声入力処理部
87 変換処理部
88 表示制御処理部
100 装着者
101 人体
102 頭部
200、200A、200B 対話者
D 距離
VI 視覚情報
VI1 文字画像情報
VI2 手話動画像情報
α 指向角
θ 輻輳角
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21