【文献】
がじぇっとりっぷ,首に掛けるだけ。LINKFLOWの「FITT360°」は新しいタイプの360°カメラ,がじぇっとりっぷ,2018年 3月15日,URL,https://gadgetrip.jp/2018/03/linkflow_fitt360
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、特許文献1のシステムは、ユーザからの操作入力を受け付けるための操作部を備える。また、特許文献1では、操作部の例として、撮像部による撮像の開始又は停止を指示する入力を受け付けるカメラボタンが挙げられており、この操作部をタッチ操作やスライド操作を受け付けるタッチスライダーによって実現することもできると提案されている。
【0006】
しかしながら、首掛け型装置は、装着者の死角(首元)に装着されるものであることから、特許文献1のように、カメラボタンのような物理ボタンで撮像部の操作を受け付けることとすると、装着者が撮像部を操作しにくくなり、必要なタイミングで撮像の開始又は停止をすることが難しくなるという問題がある。また、首掛け型装置において撮像の開始を物理ボタンで受け付ける場合、その物理ボタンを押下するときに装置全体が振動することから、撮像画像にブレが生じたり、狙った範囲とは異なる範囲を撮像してしまったりするという問題が生じることも考えられる。また、このような撮像時における装置全体の振動を抑えるために一方の手で装置を抑えつつ他方の手で物理ボタンを押下することを推奨することも考えられるが、撮像時に装置を両手で扱うことを装着者に求めると首掛け型装置の利便性が低下するという問題がある。また、物理ボタンのように人手による直接の接触が求められるものを採用すると、例えば装着者の手が汚れている場合や、医療現場のように衛生上の理由から装置に直接触れることが好ましくない場合に、装着者が撮像を行いにくくなるという問題もある。また、カメラで撮影を行うにしても、例えば静止画の撮影、動画の撮影、スローモーション撮影、パノラマ撮影など様々な方法があるが、ディスプレイを持たない首掛け型装置において物理ボタンを利用して多様な撮影方法の中から任意の方法を選択することには限界がある。
【0007】
さらに、上記した各種の問題を解消するために、撮像部を常時起動しておくということも考えられるが、装置に搭載されたバッテリー消費が著しく多くなり、装置を長時間連続して使用することができなくなるため現実的ではない。
【0008】
そこで、本発明は、装着者にとって操作しやすい撮像部を備えた首掛け型装置を提供することを主たる目的とする。
【課題を解決するための手段】
【0009】
本発明の発明者は、従来発明が抱える問題の解決手段について鋭意検討した結果、首掛け型装置において、装着者の首元を挟んだ位置に配置される2つの腕部の一方に撮像部(カメラ)を配置し、他方に撮像部の制御に関する情報を検知するための非接触型のセンサ部を配置することで、装着者が撮像部の操作を行いやすくなるという知見を得た。そして、発明者は、上記知見に基づけば従来発明の問題を解決できることに想到し、本発明を完成させた。具体的に説明すると、本発明は以下の構成を有する。
【0010】
本発明は、ユーザの首元に装着される首掛け型装置に関する。本発明に係る首掛け型装置は、首元を挟んだ位置に配置可能な第1腕部と第2腕部を備える。第1腕部には撮像部が設けられ、第2の腕部には非接触型のセンサ部が設けられている。センサ部による検知情報は撮像部の制御に利用される。非接触型のセンサ部としては、例えば光学式、超音波式、磁気式、静電容量式、又は温感式などの近接センサやジェスチャーセンサが挙げられるが、これらのものに限定されない。
【0011】
上記構成のように、首掛け型装置の一方の腕部に設けられた撮像部を、他方の腕部に設けられた非接触型のセンサ部を介して制御することで、撮像部やセンサ部が装着者の死角に位置する場合であっても、装着者が静止画像や動画像(以下単に画像という)を撮影しやすくなる。また、上記のように撮像部とセンサ部を別々の腕部に配置することで、撮像部の撮像範囲に装着者の手指が入りにくくなるため、撮像画像中に手指が写り込むことを回避しやすくなる。また、非接触型のセンサ部を介して撮像部を制御することにより、撮影時における装置全体の振動を抑制できることから、撮像画像にブレが生じたり、狙った範囲とは異なる範囲を撮像してしまうといった事態も回避できる。さらに、非接触型のセンサ部を採用することで、装着者が装置に直接触れることができない状況であっても、簡単に撮影を行うことができる。また、ジェスチャーセンサでは手指の形や動作に応じて様々な命令を装置に入力することが可能であるため、例えばジェスチャーによって多様な撮影方法の中から任意の方法を選択することも容易になる。また、センサ部の検出情報に基づいて首掛け型装置に搭載されているマイクを起動し、マイクによる音声認識によって様々な命令を装置に入力することとしてもよい。
【0012】
本発明に係る首掛け型装置において、撮像部はセンサ部の入力情報に基づいて起動するものであることが好ましい。具体的には、撮像部がスリープ状態(給電停止状態)にある場合に、センサ部が所定の情報を検知したときに撮像部が起動状態(給電状態)となることが好ましい。これにより、撮像部を常時起動しておく必要がなくなる。また、センサ部の消費電力は一般的に撮像部よりも少ないことから、首掛け型装置全体のバッテリー消費を抑えることができる。
【0013】
本発明に係る首掛け型装置は、第1腕部と第2腕部とが装着者の首裏で連結された平面略U字形であることが好ましい。つまり、首掛け型装置は、首の両側から後ろ側(背中側)にかけて半周回するような形状となる。この場合に、撮像部は第1腕部の先端面に設けられ、センサ部は第2腕部の先端面に設けられていることが好ましい。このように、撮像部とセンサ部をそれぞれの腕部の先端面に設けることで、装着者の正面側を撮影しやすくなるとともに、装着者がセンサ部を介して撮像部を操作しやすくなる。
【0014】
本発明に係る首掛け型装置において、撮像部の光軸は第1腕部の先端面に対して垂直であるか又は上向きに傾いていることが好ましい。より具体的に説明すると、撮像部の光軸が第1腕部の先端面に対して垂直である場合とは、第1腕部の先端面を鉛直に立てたときに、撮像部の光軸が水平と略平行になることを意味する。このように、撮像部の光軸を水平と略平行とすることで、撮像部の撮影画像が装着者が実際に視ている景色に近いものとなる。また、撮像部の光軸が第1腕部の先端面に対して上向きに傾いている場合とは、第1腕部の先端面を鉛直に立てたときに、撮像部の光軸が水平に対して上向きに傾くことを意味する。このように、装着者の首元に位置する撮像部の光軸を上向きに傾けることで、装着者と対話している者(対話者)の顔や口元を撮影しやすくなる。特に、人体の構造上、身体の向きを変えたり屈んだりすることで、首元に位置する撮像部の光軸を、身体の左右方向や垂直方向下側に向けることは比較的容易であるが、この撮像部の光軸を垂直方向上側に向けることは比較的困難である。このため、予め撮像部の光軸を水平に対して上向きに傾けておくことで、装着者に無理な体勢をとることを強いることなく垂直方向上側の空間を撮影することができるようになる。
【0015】
本発明に係る首掛け型装置において、撮像部の垂直方向画角は100度以上であることが好ましい。このように、撮像部に垂直方向の画角の広い広角レンズを用いることで、装着者の首元に位置する撮像部によって、対話者の顔や口元、胸部、さらには必要に応じて全身の画像を撮影しやすくなる。
【0016】
本発明に係る首掛け型装置において、撮像部が設けられた第1腕部の先端面は、第1腕部の下縁となす角が鋭角なるように傾斜していることが好ましい。このように設計することで、首掛け型装置の装着時に第1腕部の先端面が鉛直に立ちやすくなり、そこに設けられた撮像部によって広い範囲を効率的に撮像できる。また、装着時において、第1腕部の延長線が対話者の目の方向に向かって延びていると、対話者は撮像部によって撮影されている感覚が強くなり、対話者に対して不快感を与えるおそれがある。この点、装着時において第1腕部の延長線が地面方向を向きつつ、第1腕部の先端面が鉛直に立ち、かつ、撮像部の光軸が水平又は上向きに傾くように首掛け型装置の筐体を設計することで、対話者に与える不快感を軽減しつつ、対話者の顔や口元を効果的に撮影できるようになる。
【0017】
本発明に係る首掛け型装置は撮像部によって撮像された画像に応じて、センサ部の入力情報に基づく制御命令の内容が変化することとしてもよい。例えば、センサ部によって特定のジェスチャーを検出した場合に、撮像部によって風景が撮影されている場合と人物が撮影されている場合とで、その特定のジェスチャーに基づく撮像部の制御命令を変化させることができる。例えば、ある特定のジェスチャーを検出したときに、撮像部によって風景が撮影されている場合にはパノラマ撮影を開始し、人物が撮影されている場合には被写体の顔をオートフォーカスするといったように、同じジェスチャーの意味を撮影状況に応じて変えることができる。このように、撮影状況に応じてジェスチャーの意味を変化させることで、さらに多様な制御命令を首掛け型装置に対して入力できるようになる。
【発明の効果】
【0018】
本発明によれば、装着者にとって操作しやすい撮像部を備えた首掛け型装置を提供することができる。
【発明を実施するための形態】
【0020】
以下、図面を用いて本発明を実施するための形態について説明する。本発明は、以下に説明する形態に限定されるものではなく、以下の形態から当業者が自明な範囲で適宜変更したものも含む。
【0021】
図1は、本発明に係る首掛け型装置100の一実施形態を示している。また、
図2は、首掛け型装置100を装着した状態を示している。
図1に示されるように、首掛け型装置100は、左腕部10、右腕部20、及び中央集積部30を備える。左腕部10と右腕部20は、それぞれ中央集積部30の左端と右端から前方に向かって延出しており、首掛け型装置100は、平面視したときに装置全体として略U字をなす構造となっている。首掛け型装置100を装着する際には、
図2に示されるように、中央集積部30を装着者の首裏に接触させ、左腕部10と右腕部20を装着者の首横から胸部側に向かって垂らすようにして、装置全体を首元に引っ掛ければよい。
【0022】
左腕部10と右腕部20には、それぞれ複数の集音部(マイク)41〜45が設けられている。集音部41〜45は、主に装着者とその対話者の音声を取得することを目的として配置されている。少なくとも、左腕部10に第1集音部41と第2集音部42を設け、右腕部20に第3集音部43と第4集音部44を設ける。また、任意の要素として、左腕部10と右腕部20に、一又は複数の集音部を追加で設けることとしてもよい。
図1に示した例では、左腕部10に、上記第1集音部41及び第2集音部42に加えて、第5集音部45を設けることとしている。これらの集音部41〜45によって取得した音信号は、中央集積部30内に設けられた制御部80(
図4参照)へ伝達されて所定の解析処理が行われる。中央集積部30には、このような制御部80を含む電子回路やバッテリ(図示省略)などの制御系が内装されている。
【0023】
集音部41〜45は、それぞれ左腕部10と右腕部20の前方(装着者の胸部側)に設けられている。具体的には、一般的な成人男性(首囲35〜37cm)の首元に首掛け型装置100を装着することを想定した場合に、少なくとも第1集音部41から第4集音部44が、装着者の首よりも前方(胸部側)に位置するように設計されていることが好ましい。首掛け型装置100は、装着者と対話者の音声を同時に集音することを想定したものであり、各集音部41〜44を装着者の首の前方側に配置することで、装着者の音声だけでなく、その対話者の音声を適切に取得することができる。また、各集音部41〜44を装着者の首の前方側に配置すると、装着者の背部側に立つ者の音声が装着者の身体によって遮られて、集音部41〜44には直接届きにくくなる。装着者の背部側に立つ者は装着者と対話している者ではないと推定されるため、このような者の音声を遮ることで、集音部41〜44の物理的な配置によって雑音を抑制できる。
【0024】
また、第1集音部41から第4集音部44は、左右対称となるように、それぞれ左腕部10と右腕部20に配置されている。すなわち、第1集音部41と第2集音部42を繋ぐ線分、第3集音部43と第4集音部44を繋ぐ線分、第1集音部41と第3集音部43を繋ぐ線分、及び第2集音部42と第4集音部44を繋ぐ線分からなる四角形状が線対称形となる。具体的に、本実施形態においては、第1集音部41と第3集音部43を繋ぐ線分が短辺となる台形状をなしている。ただし、上記四角形は台形状に限られず、長方形や正方形となるように各集音部41〜44を配置することもできる。
【0025】
左腕部10には、さらに撮像部60が設けられている。具体的には、左腕部10の先端面12に撮像部60が設けられており、この撮像部60によって装着者の正面側の静止画像や動画像を撮影することができる。撮像部60によって取得された画像は、中央集積部30内の制御部80に伝達され、画像データとして記憶される。また、撮像部60によって取得された画像をインターネットでサーバ装置へ送信することとしてもよい。また、詳しくは後述するとおり、撮像部60が取得した画像から対話者の口元の位置を特定して、その口元から発せられた音声を強調する処理(ビームフォーミング処理)を行うことも可能である。
【0026】
右腕部20には、さらに非接触型のセンサ部70が設けられている。センサ部70は、主に首掛け型装置100の正面側における装着者の手の動きを検知することを目的として、右腕部20の先端面22に配置されている。センサ部70の検知情報は、撮像部60の起動や、撮影の開始、停止など、主に撮像部60の制御に利用される。例えば、センサ部70は、装着者の手などの物体がそのセンサ部70に近接したことを検知して撮像部60を制御することとしてもよいし、あるいはセンサ部70の検知範囲内で装着者が所定のジェスチャーを行ったことを検知して撮像部60を制御することとしてもよい。なお、本実施形態において、左腕部10の先端面12に撮像部60を配置し、右腕部20の先端面22にセンサ部70を配置することとしているが、撮像部60とセンサ部70の位置を入れ替えることも可能である。
【0027】
また、センサ部70での検知情報を、撮像部60、集音部41〜45、及び/又は制御部80(メインCPU)の起動に利用することも可能である。例えば、センサ部70、集音部41〜45、及び制御部80が常時起動し、撮像部60が停止している状態において、センサ部70にて特定のジェスチャーを検知したときに撮像部60を起動させることができる(条件1)。なお、この条件1では、集音部41〜45が特定の音声を検出したときに撮像部60を起動させることも可能である。あるいは、センサ部70及び集音部41〜45が常時起動し、制御部80及び撮像部60が停止している状態において、センサ部70にて特定のジェスチャーを検知したときに制御部80と撮像部60のうちの任意のものを起動させることができる(条件2)。この条件2においても、集音部41〜45が特定の音声を検出したときに制御部80及び撮像部60を起動させることが可能である。あるいは、センサ部70のみが常時起動し、集音部41〜45、制御部80、及び撮像部60が停止している状態において、センサ部70にて特定のジェスチャーを検知したときに集音部41〜45、制御部80、撮像部60のうちの任意のものを起動させることができる(条件3)。上記条件1〜条件3は、条件3>条件2>条件1の順に消費電力の削減効果が大いといえる。
【0028】
図2の側面図に示されるように、本実施形態では、装着時に左腕部10の先端面12(及び右腕部20の先端面22)が鉛直になることを理想として、首掛け型装置100の筐体が設計されている。つまり、首掛け型装置100は、左腕部10と右腕部20が首裏から胸部の鎖骨前付近に向かってやや垂れ下がるように装着され、その鎖骨前辺りに左腕部10と右腕部20の先端面12,22が位置する。このとき、先端面12,22が鉛直方向に対してほぼ平行(±10度以内)になることが好ましい。
【0029】
また、上記のように先端面12,22を鉛直に立てるために、各腕部10,20の先端面12,22は、それぞれの下縁13,23に対して傾斜した面となっている。
図2では、先端面12,22と下縁13,23のなす角(先端面の傾斜角)を符号θ
1で示している。なお、
図2において、直線Sは先端面12,22と平行な直線を示し、符号Lは各腕部10,20の下縁13,23の延長線を示している。ここで、先端面12,22の傾斜角θ
1は、鋭角であり、例えば40〜85度であることが好ましく、50〜80度又は60〜80度であることが特に好ましい。このように、先端面12,22を各腕部10,20の下縁13,23に対して傾斜させることで、装着時に先端面12,22が鉛直となりやすい。このため、各先端面12,22に設けられた撮像部60とセンサ部70によって、装着者の正面側の領域を効率よく撮影あるいは検知することができる。
また、
図2において、直線Aは撮像部60の光軸を示している。光軸(主軸)とは、撮像部60のレンズの中心を通る対称軸である。
図2に示されるように、装着時において左腕部10の先端面12が鉛直になっていると仮定した場合に、撮像部60の光軸Aは、ほぼ水平(±10度)となることが好ましい。このように、首掛け型装置100の装着状態において撮像部60の光軸Aがほぼ水平となることにより、装着者が正面を向いている場合の視線と撮像部60の光軸Aがほぼ平行となるため、撮像部60によって撮像された画像が、装着者が実際に視認している景色に近いものとなる。より具体的に説明すると、
図2では、左腕部の先端面12と撮像部60の光軸Aのなす角を符号θ
2で示している。この光軸Aの傾斜角θ
2は、75〜115度又は80〜100度であることが好ましく、85〜95度又は90度であることが特に好ましい。
【0030】
また、
図2において、直線A´は撮像部60の光軸の別例を示している。
図2に示されるように、装着時において左腕部10の先端面12が鉛直になっていると仮定した場合に、撮像部60の光軸A´は、水平(
図2中の直線Aに相当)に対して上向きに傾斜していることが好ましい。前述の通り、装着時において各腕部10,20の先端面12,22は装着者の鎖骨前付近に位置することになるが、撮像部60の光軸Aを上向きとすることで、対話者の顔や口元を撮影しやすくなる。また、予め撮像部の光軸A´を水平に対して上向きに傾けておくことで、装着者に無理な体勢をとることを強いることなく垂直方向上側の空間を撮影することができるようになる。より具体的に説明すると、
図2では、左腕部の先端面12と撮像部60の光軸Aのなす角(光軸の傾斜角)を符号θ
2で示している。この光軸Aの傾斜角θ
2は、装着時において上向きになるように、30〜85度であることが好ましく、40〜80度又は50〜80度であることが特に好ましい。
【0031】
また、
図2に示されるように、各腕部10,20は、その下縁13,23と上縁14,24の延長線が共に下向であり、地面方向を指している。このため、装着者に対峙した対話者は、左腕部10の先端面12に設けられた撮像部60によって自身の顔を撮影されている印象を受けにくくなる。このように、撮像部60によって対話者の顔や口元を撮影する場合であっても、対話者に対して不快感を与えにくくしている。他方で、前述したとおり、本実施形態では、装着時に左腕部10の先端面12がほぼ鉛直に立ち、この先端面12に配置された撮像部60の光軸が上向きになるように設計している。このため、対話者は自身の顔を撮影されている印象を受けにくいものの、実際には撮像部60によってその対話者の顔や口元を効果的に撮影することができる。
【0032】
また、首掛け型装置100の構造的特徴として、左腕部10と右腕部20は、中央集積部30との連結部位の近傍にフレキシブル部11,21を有する。フレキシブル部11,21は、ゴムやシリコーンなどの可撓性材料で形成されている。このため、首掛け型装置100の装着時に、左腕部10及び右腕部20が装着者の首元や肩上にフィットしやすくなる。なお、フレキシブル部11,21にも、各集音部41〜45と操作部50を制御部80に接続する配線が挿通されている。
【0033】
また、中央集積部30は、左腕部10及び右腕部20よりも下方に向かって延出する下垂部31を有する。中央集積部30に下垂部31を設けることで、制御系回路を内装するための空間を確保している。また、中央集積部30には制御系回路が集中して搭載されている。このため、首掛け型装置100の全重量を100%とした場合に、中央集積部30の重量は40〜80%又は50%〜70%を占める。このような重量の大きい中央集積部30を装着者の首裏に配置することで、装着時における安定性が向上する。また、装着者の体幹に近い位置に重量の大きい中央集積部30を配置することで、装置全体の重量が装着者に与える負荷を軽減できる。
【0034】
図3は、集音部41〜45が設けられた部位における左腕部10と右腕部20の断面形状を模式的に表したものである。
図3に示されるように、好ましい実施形態において、左腕部10と右腕部20は、集音部41〜45が設けられた部位の断面形状が略菱形となる。左腕部10と右腕部20は、装着者の頭部(より具体的には装着者の口)に向かって面する傾斜面10a,20aをそれぞれ有する。つまり、各傾斜面10a,20aに対して垂直な垂線が、装着者の頭部の方を向くこととなる。そして、各集音部41〜45は、この左腕部10と右腕部20の傾斜面10a,20aに設けられている。このように傾斜面10a,20aに集音部41〜45を配置することで、装着者の口から発せられた音声が直線的に各集音部41〜45に到達しやすくなる。また、
図3に示されるように、例えば装着者の周囲で発生した風雑音などが各集音部41〜45に直接入りにくくなるため、このような雑音を物理的に抑制できる。なお、
図3に示した例では、左腕部10と右腕部20の断面形状を菱形状としたが、これに限られず、三角形状や五角形状、その他の多角形状など、装着者の頭部に対向する傾斜面10a,20aを持つ形状とすることも可能である。
【0035】
図4は、首掛け型装置100の機能構成を示したブロック図である。
図4に示されるように、首掛け型装置100は、第1集音部41から第5集音部45、操作部50、撮像部60、センサ部70、制御部80、記憶部81、及び通信部82を有する。左腕部10には、第1集音部41、第2集音部42、第5集音部45、操作部50、及び撮像部60が配置され、右腕部20には、第3集音部43、第4集音部44、及びセンサ部70が配置され、中央集積部30には、制御部80、記憶部81、及び通信部82が配置されている。なお、首掛け型装置100は、
図4に示した機能構成に加えて、放音部(スピーカ)や、ジャイロセンサ、加速度センサ、又はGPSセンサなどのセンサ類など、一般的な携帯型情報端末に搭載されているモジュール機器を適宜搭載することができる。
【0036】
各集音部41〜45としては、ダイナミックマイクやコンデンサマイクなど、公知のマイクロホンを採用すればよい。集音部41〜45は、音を電信信号に変換し、その電気信号をアンプ回路によって増幅した上で、A/D変換回路によってデジタル情報に変換して制御部80へと出力する。本発明の首掛け型装置100は、装着者の音声だけでなく、その周囲に存在する一又は複数の対話者の音声を取得することを目的の一つとしている。このため、装着者周囲で発生した音を広く集音できるように、各集音部41〜45としては、全指向性(無指向性)のマイクロホンを採用することが好ましい。
【0037】
操作部50は、装着者による操作の入力を受け付ける。操作部50としては、公知のスイッチ回路又はタッチパネルなどを採用することができる。操作部50は、例えば音声入力の開始又は停止を指示する操作や、装置の電源のON又はOFFを指示する操作、スピーカの音量の上げ下げを指示する操作、その他首掛け型装置100の機能の実現に必要な操作を受け付ける。操作部50を介して入力された情報は制御部80へと伝達される。
【0038】
撮像部60は、静止画像又は動画像の画像データを取得する。撮像部60としては一般的なデジタルカメラを採用すればよい。撮像部60は、例えば、撮影レンズ、メカシャッター、シャッタードライバ、CCDイメージセンサユニットなどの光電変換素子、光電変換素子から電荷量を読み出し画像データを生成するデジタルシグナルプロセッサ(DSP)、及びICメモリで構成される。また、撮像部60は、撮影レンズから被写体までの距離を測定するオートフォーカスセンサ(AFセンサ)と、このAFセンサが検出した距離に応じて撮影レンズの焦点距離を調整するための機構とを備えることが好ましい。AFセンサの種類は特に限定されないが、位相差センサやコントラストセンサといった公知のパッシブ方式のものを用いればよい。また、AFセンサとして、赤外線や超音波を被写体に向けてその反射光や反射波を受信するアクティブ方式のセンサを用いることもできる。撮像部60によって取得された画像データは、制御部80へと供給されて記憶部81に記憶され、所定の画像解析処理が行われたり、あるいは通信部82を介してインターネット経由でサーバ装置へと送信される。
【0039】
また、撮像部60は、いわゆる広角レンズを備えるものであることが好ましい。具体的には、撮像部60の垂直方向画角は、100〜180度であることが好ましく、110〜160度又は120〜150度であることが特に好ましい。このように、撮像部60の垂直方向画角を広角とすることで、少なくとも対話者の頭部から胸部を広く撮影することができ、場合によっては対話者の全身を撮影することも可能となる。また、撮像部60の水平方向画角は特に制限されないが、100〜160度程度の広角のものを採用することが好ましい。
【0040】
また、撮像部60は、一般的に消費電力が大きいものであるため、必要な場合に限り起動し、それ以外の場合においてはスリープ状態となっていることが好ましい。具体的には、センサ部70の検知情報に基づいて、撮像部60の起動や、撮影の開始又は停止が制御されるが、撮影停止後一定時間が経過した場合には、撮像部60を再びスリープ状態とすればよい。
【0041】
センサ部70は、装着者の手指などの物体の動きを検知するための非接触型の検知装置である。センサ部70の例は、近接センサ又はジェスチャーセンサである。近接センサは、例えば装着者の手指が所定範囲まで近接したことを検知する。近接センサとしては、光学式、超音波式、磁気式、静電容量式、又は温感式などの公知のものを採用できる。ジェスチャーセンサは、例えば装着者の手指の動作や形を検知する。ジェスチャーセンサの例は光学式センサであり、赤外発光LEDから対象物に向けて光を照射し、その反射光の変化を受光素子で捉えることで対象物の動作や形を検出する。センサ部70による検知情報は、制御部80へと伝達され、主に撮像部60の制御に利用される。また、センサ部70による検知情報に基づいて、各集音部41〜45の制御を行うことも可能である。センサ部70は、一般的に消費電力が小さいものであるため、首掛け型装置100の電源がONになっている間は常時起動していることが好ましい。
【0042】
制御部80は、首掛け型装置100が備える他の要素を制御する演算処理を行う。制御部80としては、CPUなどのプロセッサを利用することができる。制御部80は、基本的に、記憶部81に記憶されているプログラムを読み出し、このプログラムに従って所定の演算処理を実行する。また、制御部80は、プログラムに従った演算結果を記憶部81に適宜書き込んだり読み出したりすることができる。詳しくは後述するが、制御部80は、主に撮像部60の制御処理やビームフォーミング処理を行うための音声解析部80a、音声処理部80b、入力解析部80c、撮像制御部80d、及び画像解析部80eを有する。これらの要素80a〜80eは、基本的にソフトウェア上の機能として実現される。ただし、これらの要素はハードウェアの回路として実現されるものであってもよい。
【0043】
記憶部81は、制御部80での演算処理等に用いられる情報やその演算結果を記憶するための要素である。具体的に説明すると、記憶部81は、汎用的な携帯型の情報通信端末を、本発明に係る音声入力装置として機能させるプログラムを記憶している。ユーザからの指示によりこのプログラムが起動されると、制御部80によってプログラムに従った処理が実行される。記憶部81のストレージ機能は、例えばHDD及びSDDといった不揮発性メモリによって実現できる。また、記憶部81は、制御部80による演算処理の途中経過などを書き込む又は読み出すためのメモリとしての機能を有していてもよい。記憶部81のメモリ機能は、RAMやDRAMといった揮発性メモリにより実現できる。また、記憶部81には、それを所持するユーザ固有のID情報が記憶されていてもよい。また、記憶部81には、首掛け型装置100のネットワーク上の識別情報であるIPアドレスが記憶されていてもよい。
【0044】
また、記憶部81には、制御部80によるビームフォーミング処理で利用する学習済みモデルが記憶されていてもよい。学習済みモデルは、例えばクラウド上のサーバ装置においてディープラーニングや強化学習等の機械学習を行うことにより得られた推論モデルである。具体的に説明すると、ビームフォーミング処理では、複数の集音部で取得した音データを解析して、その音を発生した音源の位置又は方向を特定する。このとき、例えば、サーバ装置にある音源の位置情報とその音源から発生した音を複数の集音部で取得したデータとのデータセット(教師データ)を多数蓄積し、これらの教師データ用いた機械学習を実施して学習済みモデルを予め作成しておく。そして、個別の首掛け型装置100において複数の集音部により音データを取得したときに、この学習済みモデルを参照することで、音源の位置又は方向を効率良く特定することができる。また、首掛け型装置100は、サーバ装置と通信することによりこの学習済みモデルを随時アップデートすることもできる。
【0045】
通信部82は、クラウド上のサーバ装置又は別の首掛け型装置と無線通信するための要素である。通信部82は、インターネットを介してサーバ装置や別の首掛け型装置と通信を行うために、例えば、3G(W-CDMA)、4G(LTE/LTE-Advanced)、5Gといった公知の移動通信規格や、Wi-Fi(登録商標)等の無線LAN方式で無線通信するための通信モジュールを採用すればよい。また、通信部82は、別の首掛け型装置と直接的に通信を行うために、Bluetooth(登録商標)やNFC等の方式の近接無線通信用の通信モジュールを採用することもできる。
【0046】
続いて、
図5を参照して、ビームフォーミング処理について具体的に説明する。ユーザが
図1に示した実施形態の首掛け型装置100を装着すると、
図5(a)及び
図5(b)に示されるように、装着者の首元の胸部側に少なくとも4つの集音部41〜44が位置することとなる。なお、第5集音部45は補助的に集音を行うものであり必須の要素ではないため、ここでの説明は割愛する。本実施形態において、第1集音部41から第4集音部44はいずれも全指向性のマイクロホンであり、常時、主に装着者の口から発せられた音声を集音するとともに、その他の装着者周囲の環境音を集音している。なお、消費電力低減の、各集音部41〜44及び制御部80を停止させておき、センサ部70にて特定のジェスチャー等を検知したとき、これらの集音部41〜44及び制御部80を起動させることとしてもよい。環境音には、装着者の周囲に位置する対話者の音声が含まれる。装着者及び/又は対話者が音声を発すると、各集音部41〜44によって音声データが取得される。各集音部41〜44は、それぞれの音声データを制御部80へと出力する。
【0047】
制御部80の音声解析部80aは、各集音部41〜44で取得した音声データを解析する処理を行う。具体的には、音声解析部80aは、各集音部41〜44の音声データに基づいて、その音声が発せられた音源の空間上の位置又は方向を特定する。例えば、機械学習済みの学習済みモデルが首掛け型装置100にインストールされている場合、音声解析部80aは、その学習済みモデルを参照して各集音部41〜44の音声データから音源の位置又は方向を特定できる。あるいは、各集音部41間の距離は既知であるため、音声解析部80aは、音声が各集音部41〜44に到達した時間差に基づいて、各集音部41〜44から音源までの距離を求め、その距離から三角測量法により音源の空間位置又は方向を特定することとしてもよい。
【0048】
また、音声解析部80aは、上記処理により特定した音源の位置又は方向が、装着者の口又は対話者の口と推定される位置又は方向と一致するか否かを判断する。例えば、首掛け型装置100と装着者の口の位置関係や首掛け型装置100と対話者の口の位置関係は予め想定可能であるため、その想定される範囲内に音源が位置している場合に、その音源を装着者又は対話者の口であると判断すればよい。また、首掛け型装置100に対して著しく下方、上方、又は後方に音源が位置している場合、その音源は装着者又は対話者の口ではないと判断できる。
【0049】
次に、制御部80の音声処理部80bは、音声解析部80aが特定した音源の位置又は方向に基づいて、音声データに含まれる音成分を強調又は抑圧する処理を行う。具体的には、音源の位置又は方向が装着者又は対話者の口と推定される位置又は方向と一致する場合、その音源から発せられた音成分を強調する。他方で、音源の位置又は方向が装着者又は対話者の口と一致しない場合、その音源から発せられた音成分は雑音であるとみなして、その音成分を抑圧すればよい。このように、本発明では、複数の全指向性のマイクロホンを用いて全方位の音データを取得し、制御部80のソフトウェア上の音声処理によって特定の音成分と強調又は抑圧するビームフォーミング処理を行う。これにより、装着者の音声と対話者の音声を同時に取得し、必要に応じてその音声の音成分を強調することが可能となる。
【0050】
また、
図5(b)に示されるように、対話者の音声を取得する場合には、撮像部60を起動させて対話者を撮影することが好ましい。具体的に説明すると、装着者は、非接触型のセンサ部70の検知範囲内で自身の手指によって所定のジェスチャーを行う。ジェスチャーには、手指で所定の動作を行うことや、手指で所定の形を作ることが含まれる。センサ部70が手指の動作を検知すると、制御部80の入力解析部80cは、センサ部70の検知情報を解析して、装着者の手指のジェスチャーが予め設定されているものに一致するかどうかを判断する。例えば、撮像部60を起動させるためのジェスチャーや、撮像部60によって撮影を開始するためのジェスチャー、撮影を停止させるためのジェスチャーなど、撮像部60の制御に関する所定のジェスチャーが予め設定されているため、入力解析部80cは、センサ部70の検知情報に基づいて、装着者のジェスチャーが上記した所定のものに一致するかどうかを判断することとなる。
【0051】
次に、制御部80の撮像制御部80dは、入力解析部80cの解析結果に基づいて撮像部60を制御する。例えば、装着者のジェスチャーが撮像部60起動用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは撮像部60を起動させる。また、撮像部60の起動後、装着者のジェスチャーが撮影開始用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは画像の撮影を開始するように撮像部60を制御する。さらに、撮影の開始後、装着者のジェスチャーが撮影停止用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは画像の撮影を停止するように撮像部60を制御する。なお、撮像制御部80dは、撮影停止後一定時間を経過した段階で撮像部60を再びスリープ状態とすることとしてもよい。
【0052】
制御部80の画像解析部80eは、撮像部60によって取得した静止画像又は動画像の画像データを解析する。例えば、画像解析部80eは、画像データに解析することにより、首掛け型装置100から対話者の口までの距離や両者の位置関係を特定することができる。また、画像解析部80eは、画像データに基づいて、対話者の口が開いているか否か、あるいは対話者の口が開閉しているか否かを解析することにより、対話者が発声しているか否かを特定することも可能である。画像解析部80eによる解析結果は、上述したビームフォーミング処理に利用される。具体的には、各集音部41〜44によって集音した音声データの解析結果に加えて、撮像部60による画像データの解析結果を利用すれば、対話者の口の空間上の位置や方向を特定する処理の精度を高めることができる。また、画像データに含まれる対話者の口の動作を解析して、その対話者が発声していることを特定することで、その対話者の口から発せられた音声を強調する処理の精度を高めることができる。
【0053】
音声処理部80bによる処理後の音声データと、撮像部60によって取得された画像データは、記憶部81に記憶される。また、制御部80は、処理後の音声データと画像データを、通信部82を介してクラウド上のサーバ装置や別の首掛け型装置100に送信することもできる。サーバ装置は、首掛け型装置100から受信した音声データに基づいて、音声のテキスト化処理や、翻訳処理、統計処理、その他の任意の言語処理を行うこともできる。また、撮像部60によって取得された画像データを利用して、上記言語処理の精度を高めることともできる。また、サーバ装置は、首掛け型装置100から受信した音声データと画像データを機械学習用の教師データとして利用して、学習済みモデルの精度を向上させることも可能である。また、首掛け型装置100間で音声データを送受信し合うことにより装着者間で遠隔通話を行うこととしてもよい。その際に、首掛け型装置100同士で近接無線通信を介して直接音声データを送受信することしてもよいし、サーバ装置を介してインターネット経由で首掛け型装置100同士で音声データを送受信することとしてもよい。
【0054】
本願明細書では、主に、首掛け型装置100が、機能構成として音声解析部80a、音声処理部80b、及び画像解析部80eを備えており、ローカルでビームフォーミング処理を実行する実施形態について説明した。ただし、音声解析部80a、音声処理部80b、及び画像解析部80eのいずれか又は全ての機能を、首掛け型装置100にインターネットで接続されたクラウド上のサーバ装置に分担させることもできる。この場合、例えば、首掛け型装置100が各集音部41〜45で取得した音声データをサーバ装置に送信し、サーバ装置が音源の位置又は方向を特定したり、装着者又は対話者の音声を強調してそれ以外の雑音を抑制する音声処理を行ったりしてもよい。また、撮像部60によって取得した画像データを首掛け型装置100からサーバ装置に送信し、サーバ装置において当該画像データの解析処理を行うこととしてもよい。この場合、首掛け型装置100とサーバ装置によって音声処理システムが構築されることとなる。
【0055】
また、センサ部70による検知情報に基づいて、撮像部60による撮影方法を制御することも可能である。具体的には、撮像部60の撮影方法としては、例えば静止画の撮影、動画の撮影、スローモーション撮影、パノラマ撮影、タイムラプス撮影、タイマー撮影などが挙げられる。センサ部70が手指の動作を検知すると、制御部80の入力解析部80cは、センサ部70の検知情報を解析して、装着者の手指のジェスチャーが予め設定されているものに一致するかどうかを判断する。例えば、撮像部60を撮影方法には、それぞれ固有のジェスチャーが設定されており、入力解析部80cは、センサ部70の検知情報に基づいて、装着者のジェスチャーが予め設定されたジェスチャーに一致するかどうかを判断することとなる。撮像制御部80dは、入力解析部80cの解析結果に基づいて撮像部60による撮影方法を制御する。例えば、装着者のジェスチャーが撮像部60静止画撮影用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは撮像部60を制御して静止画の撮影を行う。あるいは、装着者のジェスチャーが撮像部60動画撮影用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは撮像部60を制御して動画の撮影を行う。このように、装着者のジェスチャーに応じて撮像部60による撮影方法を指定することができる。
【0056】
また、前述した実施形態では、センサ部70による検知情報に基づいて主に撮像部60を制御することとしたが、センサ部70による検知情報に基づいて各集音部41〜45を制御することも可能である。例えば、集音部41〜45による集音の開始又は停止に関する固有のジェスチャーが予め設定されており、入力解析部80cは、センサ部70の検知情報に基づいて、装着者のジェスチャーが予め設定されたジェスチャーに一致するかどうかを判断する。そして、集音の開始又は停止に関するジェスチャーが検出された場合に、当該ジェスチャーの検知情報に応じて各集音部41〜45によって集音を開始したり停止したりすればよい。
【0057】
また、前述した実施形態では、主にセンサ部70による検知情報に基づいて撮像部60を制御することとしたが、各集音部41〜45に入力された音声情報に基づいて撮像部60を制御することも可能である。具体的には、音声解析部80aが、集音部41〜45が取得した音声を解析する。つまり、装着者又は対話者の音声認識を行い、その音声が撮像部60の制御に関するものであるか否かを判断する。その後、撮像制御部80dが、その音声の解析結果に基づいて撮像部60を制御する。例えば、撮影開始に関する所定の音声が集音部41〜45に入力された場合には、撮像制御部80dは、撮像部60を起動させて撮影を開始する。また、撮像部60による撮影方法を指定する所定の音声が集音部41〜45に入力された場合には、撮像制御部80dは、撮像部60を制御して指定された撮影方法を実行する。また、センサ部70による検知情報に基づいて集音部41〜45を起動させた後、集音部41〜45に入力された音声情報に基づいて撮像部60を制御することも可能である。
【0058】
また、撮像部60によって撮像された画像に応じて、センサ部70の入力情報に基づく制御命令の内容が変化させることも可能である。具体的に説明すると、まず、画像解析部80eは、撮像部60によって取得された画像を解析する。例えば、画像に含まれる特徴点に基づいて、画像解析部80aは、人物が写った画像であるのか、特定の被写体(人工物や自然物など)が写った画像であるのか、あるいはその画像が撮像された状況(撮影場所や撮影時間、天候など)を特定する。なお、画像に含まれる人物については、その性別や年齢を分類することとしてもよいし、個人を特定することとしてもよい。
【0059】
次に、画像の種類(人物、被写体、状況の種別)に応じて、人の手指によるジェスチャーに基づく制御命令のパターンが記憶部81記憶されている。このとき、同じジェスチャーであっても、画像の種類によって制御命令が異なることとしてもよい。具体的には、ある同一のジェスチャーであっても、画像に人物が写っている場合には、その人物の顔をフォーカスする制御命令となったり、画像に特徴的な自然物が写っている場合には、その自然物の周囲をパノラマ撮影する制御命令となる。また、画像に写っている人物の性別や年齢、被写体が人工物であるか自然物であるか、あるいは画像の撮影場所や時間、天候などを画像から検出して、ジェスチャーの意味内容を異ならせることもできる。そして、入力解析部80cは、画像解析部80eの画像解析結果を参照して、センサ部70によって検出されたジェスチャーについて、その画像解析結果に対応する意味内容を特定して、首掛け型装置100に入力される制御命令を生成する。このように、画像の内容に応じてジェスチャーの意味内容を変化させることで、画像の撮影状況や目的に応じて、様々なバリエーションの制御命令をジェスチャーによって装置に入力することが可能となる。
【0060】
以上、本願明細書では、本発明の内容を表現するために、図面を参照しながら本発明の実施形態の説明を行った。ただし、本発明は、上記実施形態に限定されるものではなく、本願明細書に記載された事項に基づいて当業者が自明な変更形態や改良形態を包含するものである。
【解決手段】ユーザの首元に装着される首掛け型装置100であって、装着者の首裏で連結された平面略U字形であり首元を挟んだ位置に配置可能な第1腕部10及び第2腕部20と、第1腕部10に設けられた撮像部60と、第2腕部70に設けられた非接触型のセンサ部70を備える。そして、センサ部70による検知情報に基づいて、撮像部60は起動する。