IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7442330音声入力装置およびその制御方法ならびにプログラム
<>
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図1
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図2
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図3
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図4
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図5
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図6
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図7
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図8
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-22
(45)【発行日】2024-03-04
(54)【発明の名称】音声入力装置およびその制御方法ならびにプログラム
(51)【国際特許分類】
   G06F 3/16 20060101AFI20240226BHJP
   G10L 15/28 20130101ALI20240226BHJP
   G10L 15/10 20060101ALI20240226BHJP
   H04N 23/60 20230101ALI20240226BHJP
   H04N 23/611 20230101ALI20240226BHJP
   G03B 15/00 20210101ALI20240226BHJP
【FI】
G06F3/16 630
G10L15/28 230K
G10L15/10 200W
H04N23/60 100
H04N23/611
G03B15/00 Q
【請求項の数】 14
(21)【出願番号】P 2020018211
(22)【出願日】2020-02-05
(65)【公開番号】P2021124975
(43)【公開日】2021-08-30
【審査請求日】2023-01-31
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】植野 大優
(72)【発明者】
【氏名】奥脇 舞希
【審査官】前地 純一郎
(56)【参考文献】
【文献】国際公開第2018/155116(WO,A1)
【文献】特開2019-086535(JP,A)
【文献】特開2012-220959(JP,A)
【文献】特開2016-076799(JP,A)
【文献】特開2011-118822(JP,A)
【文献】国際公開第2019/093123(WO,A1)
【文献】特開2016-119615(JP,A)
【文献】特開2015-219441(JP,A)
【文献】米国特許出願公開第2015/0340030(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/16
G10L 15/00 -17/26
H04N 5/222- 5/257
H04N 23/00
H04N 23/40 -23/76
H04N 23/90 -23/959
G06F 3/01
G06F 3/048- 3/04895
H04M 1/00
H04M 1/24 - 1/82
H04M 99/00
G03B 15/00 -15/035
G03B 15/06 -15/16
(57)【特許請求の範囲】
【請求項1】
音声入力装置であって、
音声を入力する音声入力手段と、
所定のユーザを被写体として含んだ撮影画像を出力する撮像手段と、
前記音声入力装置に対する音声による操作を有効にするための第1の音声命令が入力された後の一定の期間に、前記音声入力装置を操作するための第2の音声命令が入力された場合に、前記第2の音声命令に対応する処理を実行する制御手段とを有し、
前記制御手段は、前記所定のユーザが第2の音声命令を発したと推定した場合には、前記第1の音声命令が入力されていない場合であっても、前記第2の音声命令が入力されると、前記第2の音声命令に対応する処理を実行し、
前記制御手段は、前記撮影画像に基づいて前記音声入力装置からの前記所定のユーザへの方向を表す第1の方向を算出すると共に、前記第2の音声命令に基づいて前記第2の音声命令が発せられた方向を第2の方向として算出し、前記第1の方向と前記第2の方向とが一致する場合には、前記所定のユーザが前記第2の音声命令を発したと推定し、
前記制御手段は、前記音声入力装置が撮影を行う状態でなければ、前記第2の音声命令に対応する処理を実行しない、ことを特徴とする音声入力装置。
【請求項2】
前記所定のユーザを被写体として含んだ撮影画像を出力する撮像手段を更に有し、
前記制御手段は、
前記第2の音声命令に基づいて前記音声入力装置から前記所定のユーザまでの距離を算出すると共に、前記撮影画像の前記被写体の顔の向きを第3の方向として算出し、
前記所定のユーザまでの距離が閾値以下であり、且つ、前記音声入力装置の向きである第4の方向と前記第3の方向とが向かい合うと判定した場合には、前記所定のユーザが前記第2の音声命令を発したと推定する、ことを特徴とする請求項1に記載の音声入力装置。
【請求項3】
前記所定のユーザを被写体として含んだ撮影画像を出力する撮像手段と、
前記所定のユーザの通信装置と近距離無線通信を行う通信手段とを更に有し、
前記制御手段は、
前記通信装置との間の近距離無線通信に基づいて前記音声入力装置から前記通信装置への距離を算出すると共に、前記撮影画像の前記被写体の顔の向きを第3の方向として算出し、
前記所定のユーザまでの距離が閾値以下であり、且つ、前記音声入力装置の向きである第4の方向と前記第3の方向とが向かい合うと判定した場合には、前記所定のユーザが前記第2の音声命令を発したと推定する、ことを特徴とする請求項1に記載の音声入力装置。
【請求項4】
前記制御手段は、前記撮像手段の光軸の向きで定められる前記第4の方向と前記第3の方向との角度差が所定の角度閾値以下である場合、前記音声入力装置の向きである第4の方向と前記第3の方向とが向かい合うと判定する、ことを特徴とする請求項又はに記載の音声入力装置。
【請求項5】
前記制御手段は、前記撮像手段の光軸の向きで定められる前記第4の方向と前記第3の方向との角度差が所定の角度閾値以下であり、且つ、前記角度差が該所定の角度閾値以下である時間が所定の時間閾値以上である場合、前記音声入力装置の向きである第4の方向と前記第3の方向とが向かい合うと判定する、ことを特徴とする請求項に記載の音声入力装置。
【請求項6】
前記制御手段は、前記音声入力装置から前記所定のユーザまでの距離が、所定の距離閾値以下でない場合、前記第2の音声命令が入力されても、前記第2の音声命令に対応する処理を実行しない、ことを特徴とする請求項からのいずれか1項に記載の音声入力装置。
【請求項7】
前記撮影画像の前記被写体の顔、又は、前記第2の音声命令の声に基づいて、前記所定のユーザが登録されたユーザであるかを判定する判定手段を更に有し、
前記制御手段は、前記所定のユーザが登録されたユーザであると判定され、且つ、前記所定のユーザが前記第2の音声命令を発したと推定される場合に、前記第1の音声命令が入力されていない場合であっても、前記第2の音声命令が入力されると、前記第2の音声命令に対応する処理を実行する、ことを特徴とする請求項からのいずれか1項に記載の音声入力装置。
【請求項8】
前記制御手段は、前記音声入力装置が撮影を行うモードに設定されていなければ、前記第2の音声命令に対応する処理を実行しない、ことを特徴とする請求項からのいずれか1項に記載の音声入力装置。
【請求項9】
前記制御手段は、前記第2の音声命令が撮影命令でなければ、前記第2の音声命令に対応する処理を実行しない、ことを特徴とする請求項に記載の音声入力装置。
【請求項10】
前記撮像手段は、前記音声入力装置の正面側、又は、背面側の少なくともいずれかに配置される、ことを特徴とする請求項からのいずれか1項に記載の音声入力装置。
【請求項11】
前記制御手段は、前記第2の音声命令の声量が一定の声量以上でなければ、前記第2の音声命令に対応する処理を実行しない、ことを特徴とする請求項1から10のいずれか1項に記載の音声入力装置。
【請求項12】
前記音声入力手段は、外部装置で入力された音声を前記外部装置から取得するように構成される、請求項1から11のいずれか1項に記載の音声入力装置。
【請求項13】
音声を入力する音声入力手段と、所定のユーザを被写体として含んだ撮影画像を出力する撮像手段とを有する音声入力装置の制御方法であって、
前記音声入力装置に対する音声による操作を有効にするための第1の音声命令が入力された後の一定の期間に、前記音声入力装置を操作するための第2の音声命令が入力された場合に、前記第2の音声命令に対応する処理を実行する制御工程を有し、
前記制御工程では、前記所定のユーザが第2の音声命令を発したと推定した場合には、前記第1の音声命令が入力されていない場合であっても、前記第2の音声命令が入力されると、前記第2の音声命令に対応する処理を実行し、
前記制御工程では、前記撮影画像に基づいて前記音声入力装置からの前記所定のユーザへの方向を表す第1の方向を算出すると共に、前記第2の音声命令に基づいて前記第2の音声命令が発せられた方向を第2の方向として算出し、前記第1の方向と前記第2の方向とが一致する場合には、前記所定のユーザが前記第2の音声命令を発したと推定し、
前記制御工程では、前記音声入力装置が撮影を行う状態でなければ、前記第2の音声命令に対応する処理を実行しない、ことを特徴とする音声入力装置の制御方法。
【請求項14】
コンピュータを、請求項1から12のいずれか1項に記載の音声入力装置の各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声入力装置およびその制御方法ならびにプログラムに関する。
【背景技術】
【0002】
近年、発話された音声入力を認識して、音声入力に対応した操作を行うことができる音声操作機能を備える装置が知られている。音声操作機能により、音声を使って、例えば、閲覧する所望のページを表示させる操作や、装置の現在の設定値を変更する操作、或いは、特定の相手に電話をかけたりメールの文章を入力したりする操作を行うことができる。音声操作機能には、自然な発話で操作を行うことができるといった利点がある一方で、意図しない音声に装置が反応し、誤動作が発生する場合がある。
【0003】
特許文献1では、音声操作の可能な装置がウェイクワードという音声操作を有効にするための特定の音声コマンドを受け付け、ウェイクワードから所定期間にのみ音声操作を受け付けることにより誤動作の発生を低減させる技術を提案している。また、特許文献2では、ユーザの口の状態を被写体画像から認識し、口が開いていると認識される場合に音声操作を受け付けつける技術を提案している。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2019-86535号公報
【文献】特開2017-54065号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1で提案された技術では、音声操作を実行するためには常にウェイクワードを入力する手間を要する課題がある。撮像装置を操作する際には、シャッターチャンスを逃さないように素早い設定変更が望まれる場合がある。ウェイクワードを常に入力する手間を要する場合、単純に操作が煩わしくなるだけでなく、ウェイクワードを伝えてから音声操作を行っていると所望のシャッターチャンスを逃してしまうおそれがある。
【0006】
また、特許文献2で提案された技術では、ユーザの手が口元を隠す(例えば口の前でピースサインをする)ような場合、画像からユーザの口を認識することができず、音声操作を行うことができない場合が生じ得る。
【0007】
本発明は、上記課題に鑑みてなされ、その目的は、音声操作を行う際に迅速な操作を可能にしつつ誤操作の発生を抑制する技術を実現することである。
【課題を解決するための手段】
【0008】
この課題を解決するため、例えば本発明の音声入力装置は以下の構成を備える。すなわち、音声入力装置であって、音声を入力する音声入力手段と、所定のユーザを被写体として含んだ撮影画像を出力する撮像手段と、前記音声入力装置に対する音声による操作を有効にするための第1の音声命令が入力された後の一定の期間に、前記音声入力装置を操作するための第2の音声命令が入力された場合に、前記第2の音声命令に対応する処理を実行する制御手段とを有し、前記制御手段は、前記所定のユーザが第2の音声命令を発したと推定した場合には、前記第1の音声命令が入力されていない場合であっても、前記第2の音声命令が入力されると、前記第2の音声命令に対応する処理を実行し、前記制御手段は、前記撮影画像に基づいて前記音声入力装置からの前記所定のユーザへの方向を表す第1の方向を算出すると共に、前記第2の音声命令に基づいて前記第2の音声命令が発せられた方向を第2の方向として算出し、前記第1の方向と前記第2の方向とが一致する場合には、前記所定のユーザが前記第2の音声命令を発したと推定し、前記制御手段は、前記音声入力装置が撮影を行う状態でなければ、前記第2の音声命令に対応する処理を実行しない、ことを特徴とする。
【発明の効果】
【0009】
本発明によれば、音声操作を行う際に迅速な操作を可能にしつつ誤操作の発生を抑制することが可能になる。
【図面の簡単な説明】
【0010】
図1】本発明に係る音声入力装置の一例としてのデジタルカメラの外観を示す図
図2】実施形態1に係るデジタルカメラの機能構成例を示すブロック図
図3】実施形態1に係るメイン処理の一連の動作を示すフローチャート
図4】実施形態1に係るウェイクワード省略処理の一連の動作を示すフローチャート
図5】実施形態1におけるデジタルカメラの状態を説明する図
図6】実施形態2に係るデジタルカメラの機能構成例を示すブロック図
図7】実施形態2に係る通信装置の一例としての携帯電話機の機能構成例を示すブロック図
図8】実施形態2に係るウェイクワード省略処理の一連の動作を示すフローチャート
図9】実施形態2に係るメイン処理処理の一連の動作を示すフローチャート
【発明を実施するための形態】
【0011】
(実施形態1)
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0012】
以下では音声入力装置の一例として、音声認識を用いた操作が可能なデジタルカメラを用いる例を説明する。しかし、本実施形態は、デジタルカメラに限らず、音声認識を用いた操作の可能な他の機器にも適用可能である。これらの機器には、例えば、スマートフォン、パーソナルコンピュータ、ゲーム機、タブレット端末、音楽プレーヤ、医療機器などが含まれてよい。
【0013】
(デジタルカメラの構成)
図1(a)及び図1(b)は、本実施形態に係る音声入力装置の一例としてのデジタルカメラ100の外観図を示している。図1(a)はデジタルカメラ100の前面斜視図であり、図1(b)はデジタルカメラ100の背面斜視図である。表示部28は画像や各種情報を表示する、カメラ背面に設けられた表示部である。タッチパネル70aは、表示部28の表示面(操作面)に対するタッチ操作を検出することができる。ファインダー外表示部43は、カメラ上面に設けられた表示部であり、シャッター速度や絞りをはじめとするカメラの様々な設定値が表示される。シャッターボタン61は撮影指示を行うための操作部である。モード切替スイッチ60は各種モードを切り替えるための操作部である。端子カバー40は外部機器との接続ケーブルとデジタルカメラ100とを接続するコネクタ(不図示)を保護するカバーである。
【0014】
メイン電子ダイヤル71は操作部70に含まれる回転操作部材であり、このメイン電子ダイヤル71を回すことで、シャッター速度や絞りなどの設定値の変更等が可能である。電源スイッチ72は、デジタルカメラ100の電源のON及びOFFを切り替える操作部材である。サブ電子ダイヤル73は操作部70に含まれる回転操作部材であり、選択枠の移動や画像送りなどを行うことができる。十字キー74は操作部70に含まれ、4方向に押し込み可能な押しボタンを有する操作部材である。十字キー74の押下した方向に応じた操作が可能である。SETボタン75は操作部70に含まれ、押しボタンであり、主に選択項目の決定などに用いられる。動画ボタン76は、動画撮影(記録)の開始、停止の指示に用いられる。音声入力ボタン77は、デジタルカメラ100の設定に応じて、当該ボタンを押下している時だけ音声による操作有効にするように制限することができるボタンである。但し、以下の説明では、音声入力ボタン77の押下の有無にかかわらず、音声を入力することができる設定値が設定されており、音声操作に応じて各種処理が動作する場合を例に説明する。拡大ボタン78は操作部70に含まれ、撮影モードのライブビュー表示において拡大モードのON、OFFを行うための操作ボタンである。拡大モードをONとしてからメイン電子ダイヤル71を操作することにより、ライブビュー画像の拡大、縮小を行える。再生モードにおいては再生画像を拡大し、拡大率を増加させるための拡大ボタンとして機能する。再生ボタン79は操作部70に含まれ、撮影モードと再生モードとを切り替える操作ボタンである。撮影モード中に再生ボタン79を押下することで再生モードに移行し、記録媒体200に記録された画像のうち最新の画像を表示部28に表示させることができる。メニューボタン81は、操作部70に含まれ、押下することにより各種の設定可能なメニュー画面が表示部28に表示される。ユーザは、表示部28に表示されたメニュー画面と、十字キー74やSETボタン75を用いて各種設定を行うことができる。
【0015】
通信端子10はデジタルカメラ100が後述するレンズユニット150(着脱可能)と通信を行う為の通信端子である。接眼部16は、接眼ファインダー(覗き込み型のファインダー)の接眼部であり、ユーザは、接眼部16を介して内部のEVF(Electric View Finder)29に表示された映像を視認することができる。接眼検知部57は接眼部16に撮影者が接眼しているか否かを検知する接眼検知センサーである。
【0016】
蓋202は記録媒体200を格納するスロットの蓋である。グリップ部90は、ユーザがデジタルカメラ100を構えた際に右手で握りやすい形状とした保持部である。グリップ部90を右手の小指、薬指、中指で握ってデジタルカメラ100を保持した状態で、右手の人差指で操作可能な位置にシャッターボタン61、メイン電子ダイヤル71が配置されている。また、同じ状態で、右手の親指で操作可能な位置に、サブ電子ダイヤル73が配置されている。
【0017】
次に、図2を参照して、本実施形態によるデジタルカメラ100の機能構成例について説明する。図2において、レンズユニット150は、交換可能な撮影レンズを搭載するレンズユニットである。レンズ103は通常、複数枚のレンズから構成されるが、ここでは簡略化して一枚のレンズのみで示している。通信端子6はレンズユニット150がデジタルカメラ100と通信を行う為の通信端子である。レンズユニット150は、この通信端子6と前述の通信端子10を介してシステム制御部50と通信し、内部のレンズシステム制御回路4によって絞り駆動回路2を介して絞り1の制御を行う。その後AF駆動回路3を介して、レンズ103を変位させることで焦点を合わせる。
【0018】
シャッター101は、システム制御部50の制御で撮像部22の露光時間を自由に制御できるフォーカルプレーンシャッターである。
【0019】
撮像部22は光学像を電気信号に変換するCCDやCMOS素子等で構成される撮像素子である。A/D変換器23は、撮像部22から出力されるアナログ信号をデジタル信号に変換するために用いられる。
【0020】
画像処理部24は、A/D変換器23からのデータ、または、後述するメモリ制御部15からのデータに対し所定の画素補間、縮小などのリサイズ処理、及び色変換処理を行う。また、画像処理部24では、撮像した画像データを用いて所定の演算処理を行う。画像処理部24により得られた演算結果に基づいてシステム制御部50が露光制御、測距制御を行う。これにより、TTL(スルー・ザ・レンズ)方式のAF(オートフォーカス)処理、AE(自動露出)処理、EF(フラッシュプリ発光)処理が行われる。画像処理部24では更に、撮像した画像データを用いて所定の演算処理を行い、得られた演算結果に基づいてTTL方式のAWB(オートホワイトバランス)処理を行う。
【0021】
メモリ制御部15は、A/D変換器23、画像処理部24、メモリ32間のデータ送受を制御する。A/D変換器23からの出力データは、画像処理部24およびメモリ制御部15を介して、あるいは、メモリ制御部15を介してメモリ32に直接書き込まれる。メモリ32は、撮像部22によって得られA/D変換器23によりデジタルデータに変換された画像データや、表示部28、EVF29に表示するための画像データを格納する。メモリ32は、所定枚数の静止画像や所定時間の動画像および音声を格納するのに十分な記憶容量を備えている。
【0022】
また、メモリ32は画像表示用のメモリ(ビデオメモリ)を兼ねている。メモリ32に書き込まれた表示用の画像データはメモリ制御部15を介して表示部28、EVF29により表示される。表示部28、EVF29は、LCDや有機EL等の表示器上に、メモリ制御部15からの信号に応じた表示を行う。A/D変換器23によってA/D変換されメモリ32に蓄積されたデータを、表示部28またはEVF29に逐次転送して表示することで、ライブビュー表示(LV表示)を行える。以下、ライブビューで表示される画像をライブビュー画像(LV画像)と称する。
【0023】
赤外発光ダイオード166は、ファインダー画面内におけるユーザの視線位置を検出するための発光素子であり、接眼部16に接眼したユーザの眼球(目)161に赤外光を照射する。赤外発光ダイオード166から発した赤外光は眼球(目)161で反射し、その赤外反射光はダイクロイックミラー162に到達する。ダイクロイックミラー162は赤外光だけを反射して可視光を透過させる。光路を変更された赤外反射光は、結像レンズ163を介して視線検知センサー164の撮像面に結像する。結像レンズ163は視線検知光学系を構成する光学部材である。視線検知センサー164は、CCD型イメージセンサ等の撮像デバイスから成る。
【0024】
視線検知センサー164は、入射された赤外反射光を電気信号に光電変換して視線検出回路165へ出力する。視線検出回路165は少なくとも1つのプロセッサを含み、視線検知センサー164の出力信号に基づき、ユーザの眼球(目)161の画像または動きからユーザの視線位置を検出し、検出情報をシステム制御部50に出力する。このようにダイクロイックミラー162、結像レンズ163、視線検知センサー164、赤外発光ダイオード166、視線検出回路165により視線検出ブロック160が構成される。視線検出ブロック160では、例えば、角膜反射法と呼ばれる方式で視線を検出する。角膜反射法とは、赤外発光ダイオード166から発した赤外光が眼球(目)161の特に角膜で反射した反射光と、眼球(目)161の瞳孔との位置関係から、視線の向き・位置を検出する方式である。この他にも黒目と白目での光の反射率が異なることを利用する強膜反射法と呼ばれる方式など、様々な視線の向き・位置を検出する方式がある。なお、視線の向き・位置を検出できる方式であれば、上記以外の視線検出手段の方式を用いてもよい。
【0025】
ファインダー外表示部43には、ファインダー外表示部駆動回路44を介して、シャッター速度や絞りをはじめとするデジタルカメラ100の様々な設定値が表示される。
【0026】
不揮発性メモリ56は、電気的に消去・記録可能なメモリであり、例えばFlash-ROM等が用いられる。不揮発性メモリ56には、システム制御部50の動作用の定数、プログラム等が記憶される。ここでいう、プログラムとは、本実施形態にて後述する各種フローチャートを実行するためのコンピュータープログラムのことである。
【0027】
システム制御部50は、例えばCPUなどの1つ以上のプロセッサを含み、デジタルカメラ100全体を制御する。システム制御部50は、不揮発性メモリ56に記録されたプログラムをシステムメモリ52に展開、実行することで、後述する本実施形態の各処理を実現する。システムメモリ52には、例えばRAMが用いられ、システム制御部50の動作用の定数、変数、不揮発性メモリ56から読み出したプログラム等が展開される。また、システム制御部50はメモリ32、表示部28等を制御することにより表示制御も行う。
【0028】
システムタイマー53は各種制御に用いる時間や、内蔵された時計の時間を計測する計時部である。モード切替スイッチ60、第1シャッタースイッチ62、第2シャッタースイッチ64、操作部70はシステム制御部50に各種の動作指示を入力するための操作手段である。モード切替スイッチ60は、システム制御部50の動作モードを静止画撮影モード、動画撮影モード等のいずれかに切り替える。静止画撮影モードに含まれるモードとして、オート撮影モード、オートシーン判別モード、マニュアルモード、絞り優先モード(Avモード)、シャッター速度優先モード(Tvモード)、プログラムAEモード(Pモード)、がある。また、撮影シーン別の撮影設定となる各種シーンモード、カスタムモード等がある。モード切替スイッチ60により、ユーザは、これらのモードのいずれかに直接切り替えることができる。あるいは、モード切替スイッチ60で撮影モードの一覧画面に一旦切り換えた後に、表示された複数のモードのいずれかを選択し、他の操作部材を用いて切り替えるようにしてもよい。同様に、動画撮影モードにも複数のモードが含まれていてもよい。
【0029】
第1シャッタースイッチ62は、デジタルカメラ100に設けられたシャッターボタン61の操作途中、いわゆる半押し(撮影準備指示)でONとなり第1シャッタースイッチ信号SW1を発生する。第1シャッタースイッチ信号SW1により、AF(オートフォーカス)処理、AE(自動露出)処理、AWB(オートホワイトバランス)処理、EF(フラッシュプリ発光)処理等の撮影準備動作を開始する。
【0030】
第2シャッタースイッチ64は、シャッターボタン61の操作完了、いわゆる全押し(撮影指示)でONとなり、第2シャッタースイッチ信号SW2を発生する。システム制御部50は、第2シャッタースイッチ信号SW2により、撮像部22からの信号読み出しから撮像された画像を画像ファイルとして記録媒体200に書き込むまでの一連の撮影処理の動作を開始する。
【0031】
操作部70は、ユーザからの操作を受け付ける入力部としての各種操作部材である。上述したように、操作部70には、シャッターボタン61やタッチパネル70a、メイン電子ダイヤル71、サブ電子ダイヤル73、十字キー74、SETボタン75などが含まれる。また、動画ボタン76、音声入力ボタン77、拡大ボタン78、再生ボタン79、メニューボタン81なども操作部70に含まれる。
【0032】
電源制御部80は、電池検出回路、DC-DCコンバータ、通電するブロックを切り替えるスイッチ回路等により構成され、電池の装着の有無、電池の種類、電池残量を検出する。また、電源制御部80は、その検出結果及びシステム制御部50の指示に基づいてDC-DCコンバータを制御し、必要な電圧を必要な期間、記録媒体200を含む各部へ供給する。電源部30は、アルカリ電池やリチウム電池等の一次電池やNiCd電池やNiMH電池、Li電池等の二次電池、ACアダプター等を含む。
【0033】
記録媒体I/F18は、メモリカードやハードディスク等の記録媒体200とのインターフェースである。記録媒体200は、撮影された画像を記録するためのメモリカード等の記録媒体であり、半導体メモリや磁気ディスク等から構成される。
【0034】
通信部54は、例えば通信回路又は通信モジュールを含み、無線または有線ケーブルによって接続し、映像信号や音声信号の送受信を行う。通信部54は、携帯電話用無線通信や無線LAN(Local Area Network)、インターネットとも接続可能である。通信部54は撮像部22で撮像した画像(ライブビュー画像を含む)や、記録媒体200に記録された画像を送信可能であり、また、外部機器から画像やその他の各種情報を受信することができる。
【0035】
姿勢検知部55は重力方向に対するデジタルカメラ100の姿勢を検知する。姿勢検知部55で検知された姿勢に基づいて、撮像部22で撮影された画像が、デジタルカメラ100を横に構えて撮影された画像であるか、縦に構えて撮影された画像であるかを判別可能である。システム制御部50は、姿勢検知部55で検知された姿勢に応じた向き情報を撮像部22で撮像された画像の画像ファイルに付加したり、画像を回転して記録したりすることが可能である。姿勢検知部55としては、加速度センサーやジャイロセンサーなどを用いることができる。姿勢検知部55である、加速度センサーやジャイロセンサーを用いて、デジタルカメラ100の動き(パン、チルト、持ち上げ、静止しているか否か等)を検知することも可能である。
【0036】
接眼検知部57はファインダーの接眼部16に対する目(物体)161の接近(接眼)および離脱(離眼)を検知する(接近検知)、接眼検知センサーである。システム制御部50は、接眼検知部57で検知された状態に応じて、表示部28とEVF29の表示(表示状態)/非表示(非表示状態)を切り替える。より具体的には、少なくともデジタルカメラ100が撮影待機状態、かつ、撮像部22で撮像されたライブビュー画像の表示先の切替設定が自動切替設定である場合において、非接眼中は表示先を表示部28として表示をオンとし、EVF29は非表示とする。また、接眼中は表示先をEVF29として表示をオンとし、表示部28は非表示とする。接眼検知部57は、例えば赤外線近接センサーを用いることができ、EVF29を内蔵するファインダーの接眼部16への何らかの物体の接近を検知することができる。物体が接近した場合は、接眼検知部57の投光部(不図示)から投光した赤外線が反射して赤外線近接センサーの受光部(不図示)に受光される。受光された赤外線の量によって、物体が接眼部16からどの距離まで近づいているか(接眼距離)も判別することができる。このように、接眼検知部57は、接眼部16への物体の近接距離を検知する接眼検知を行う。なお、本実施形態では接眼検知部57の投光部および受光部は前述の赤外発光ダイオード166および視線検知センサー164とは別体のデバイスであるものとする。ただし、接眼検知部57の投光部を赤外発光ダイオード166で兼ねてもよい。また、受光部を視線検知センサー164で兼ねてもよい。非接眼状態(非接近状態)から、接眼部16に対して所定距離以内に近づく物体が検出された場合に、接眼されたと検出するものとする。接眼状態(接近状態)から、接近を検知していた物体が所定距離以上離れた場合に、離眼されたと検出するものとする。接眼を検出する閾値と、離眼を検出する閾値は例えばヒステリシスを設けるなどして異なっていてもよい。また、接眼を検出した後は、離眼を検出するまでは接眼状態であるものとする。離眼を検出した後は、接眼を検出するまでは非接眼状態であるものとする。なお、赤外線近接センサーは一例であって、接眼検知部57には、接眼とみなせる目や物体の接近を検知できるものであれば他のセンサーを採用してもよい。
【0037】
システム制御部50は視線検出ブロック160からの出力に基づいて以下の操作、あるいは状態を検知できる。
・接眼部16に接眼したユーザの視線が新たに入力(検出)されたこと。すなわち、視線入力の開始。
・接眼部16に接眼したユーザの視線入力がある状態であること。
・接眼部16に接眼したユーザが注視している状態であること。
・接眼部16に接眼したユーザが入力していた視線を外したこと。すなわち、視線入力の終了。
・接眼部16に接眼したユーザが何も視線入力していない状態。
ここで述べた注視とは、ユーザの視線位置が所定時間内に所定の移動量を超えなかった場合のことを指す。
【0038】
タッチパネル70aと表示部28とは一体的に構成することができる。例えば、タッチパネル70aは光の透過率が表示部28の表示を妨げないように構成され、表示部28の表示面の上層に取り付けられる。そして、タッチパネル70aにおける入力座標と、表示部28の表示画面上の表示座標とを対応付ける。これにより、あたかもユーザが表示部28上に表示された画面を直接的に操作可能であるかのようなGUI(グラフィカルユーザインターフェース)を提供できる。システム制御部50はタッチパネル70aへの以下の操作、あるいは状態を検出できる。
・タッチパネル70aにタッチしていなかった指やペンが新たにタッチパネル70aにタッチしたこと。すなわち、タッチの開始(以下、タッチダウン(Touch-Down)と称する)。
・タッチパネル70aを指やペンでタッチしている状態であること(以下、タッチオン(Touch-On)と称する)。
・タッチパネル70aを指やペンでタッチしたまま移動していること(以下、タッチムーブ(Touch-Move)と称する)。
・タッチパネル70aへタッチしていた指やペンを離したこと。すなわち、タッチの終了(以下、タッチアップ(Touch-Up)と称する)。
・タッチパネル70aに何もタッチしていない状態(以下、タッチオフ(Touch-Off)と称する)。
【0039】
タッチダウンが検出されると、同時にタッチオンであることも検出される。タッチダウンの後、タッチアップが検出されない限りは、通常はタッチオンが検出され続ける。タッチムーブが検出されるのもタッチオンが検出されている状態である。タッチオンが検出されていても、タッチ位置が移動していなければタッチムーブは検出されない。タッチしていた全ての指やペンがタッチアップしたことが検出された後は、タッチオフとなる。
【0040】
これらの操作・状態や、タッチパネル70a上に指やペンがタッチしている位置座標は内部バスを通じてシステム制御部50に通知される。システム制御部50は通知された情報に基づいてタッチパネル70a上にどのような操作(タッチ操作)が行なわれたかを判定する。タッチムーブについてはタッチパネル70a上で移動する指やペンの移動方向についても、位置座標の変化に基づいて、タッチパネル70a上の垂直成分・水平成分毎に判定できる。所定距離以上をタッチムーブしたことが検出された場合はスライド操作が行なわれたと判定するものとする。タッチパネル上に指をタッチしたままある程度の距離だけ素早く動かして、そのまま離すといった操作をフリックと呼ぶ。フリックは、言い換えればタッチパネル70a上を指ではじくように素早くなぞる操作である。所定距離以上を、所定速度以上でタッチムーブしたことが検出され、そのままタッチアップが検出されるとフリックが行なわれたと判定できる(スライド操作に続いてフリックがあったものと判定できる)。更に、複数箇所(例えば2点)を同時にタッチして、互いのタッチ位置を近づけるタッチ操作をピンチイン、互いのタッチ位置を遠ざけるタッチ操作をピンチアウトと称する。ピンチアウトとピンチインを総称してピンチ操作(あるいは単にピンチ)と称する。タッチパネル70aは、抵抗膜方式や静電容量方式、表面弾性波方式、赤外線方式、電磁誘導方式、画像認識方式、光センサー方式等、様々な方式のタッチパネルのうちいずれの方式のものを用いても良い。方式によって、タッチパネルに対する接触があったことでタッチがあったと検出する方式や、タッチパネルに対する指やペンの接近があったことでタッチがあったと検出する方式があるが、いずれの方式でもよい。
【0041】
音声入力部85は、不図示のマイクロフォンを含み、デジタルカメラの周囲の音や後述するユーザからの音声命令を取得する処理を行う。音声入力部85は、音声入力装置の筐体の異なる位置に配置された不図示の複数のマイクロフォンから音声を入力してもよい。この場合、システム制御部50は、入力される音声の時間差などに基づいて、音声を発した方向を推定することができる。
【0042】
また、デジタルカメラ本体に限らず、有線または無線通信を介してデジタルカメラ(ネットワークカメラを含む)と通信し、デジタルカメラを遠隔で制御する制御装置にも本発明を適用可能である。デジタルカメラを遠隔で制御する装置としては、例えば、スマートフォンやタブレットPC、デスクトップPCなどの装置がある。制御装置側で行われた操作や制御装置側で行われた処理に基づいて、制御装置側からデジタルカメラに各種動作や設定を行わせるコマンドを通知することにより、デジタルカメラを遠隔から制御可能である。また、デジタルカメラで撮影したライブビュー画像を有線または無線通信を介して受信して制御装置側で表示できるようにしてもよい。
【0043】
(メイン処理の一連の動作)
次に、本実施形態に係るメイン処理について図3を参照して説明する。メイン処理の動作は、ユーザからの音声を認識して音声操作が完了するまでの動作である。なお、メイン処理の各処理は、システム制御部50が不揮発性メモリ56に格納されたプログラムをシステムメモリ52に展開して実行することにより実現される。また、ウェイクワードは、デジタルカメラ100に対する音声による操作を有効にするための特定の音声命令である。
【0044】
S301において、システム制御部50は、ユーザからの音声命令を音声入力部85から受信したかを判定する。システム制御部50は、音声入力部85からの信号に基づいて、ユーザからの音声命令を音声入力部85から受信したと判定した場合はS302へ進み、ユーザからの音声命令を受信していないと判定した場合はS309へ進む。
【0045】
S302において、システム制御部50は、ウェイクワード省略処理を実行する。ウェイクワード省略処理の詳細については、図4を参照して後述する。
【0046】
S303において、システム制御部50は、デジタルカメラ100がウェイクワード省略状態であるかを判定する。システム制御部50は、例えば、メモリ32(システムメモリ52であってよい。以下同様。)に記憶されているデジタルカメラ100の状態情報に基づいて、デジタルカメラ100がウェイクワード省略状態であるかを判定する。システム制御部50は、デジタルカメラ100の状態がウェイクワード省略状態であると判定した場合はS304へ進み、ウェイクワード省略状態でないと判定した場合はS305へ進む。以下に説明するように、原則として、デジタルカメラ100は、入力された音声命令がウェイクワードである場合に、音声命令有効状態となり、その後に受信した音声命令に対応する処理を実行する。しかし、ウェイクワード省略状態では、ウェイクワードを受信することなく(すなわち、ウェイクワードの受信を省略して)はじめに受信した音声命令により、音声命令に対応する処理を実行することができる。つまり、ウェイクワード省略状態を設けることにより、音声操作を行う際に迅速な操作を可能にする。
【0047】
S304において、システム制御部50は、ユーザから入力された音声命令に従って、音声命令処理を実行する。音声命令処理には、例えば、ユーザからの音声命令に従って静止画や動画の撮影を行う処理が含まれる。或いは、音声命令と対応する「シャッター速度(Tv値)や絞り値(Av値)の設定値を確認」するための画面を表示させたり、音声命令に従って当該音声命令と対応する「ヘルプガイダンスや写真のページ送り」を実行する処理などが含まれてよい。
【0048】
S305において(すなわちデジタルカメラ100の状態がウェイクワード非省略状態である場合において)、システム制御部50は、音声命令による操作が有効である状態(音声命令有効状態)であるかを判定する。システム制御部50は、例えば、メモリ32に記憶されているデジタルカメラ100の状態情報に基づいて、デジタルカメラ100の状態が音声命令有効状態であると判定した場合にはS304へ進む。一方、デジタルカメラ100は音声命令有効状態でないと判定した場合はS306へ進む。
【0049】
S306において、システム制御部50は、受信した音声命令が予め定められたウェイクワードであるかどうかを判定する。受信した音声命令が予め定められたウェイクワード(すなわち音声操作を有効にするための特定の音声命令)と一致する等により音声命令がウェイクワードであると判定した場合S307へ進む。一方、システム制御部50は、受信した音声命令がウェイクワードでないと判定したS312へ進む。
【0050】
S307において、システム制御部50は、一定時間にわたって、デジタルカメラ100を、音声命令による操作が有効である状態(すなわち音声命令有効状態)に設定する。S303~S305の処理について上述したように、デジタルカメラ100が音声命令有効状態である場合に音声命令を受信すると、音声命令と対応する処理が実行される。このとき、システム制御部50は、当該状態をメモリ32のデジタルカメラ100の状態情報に記憶させて、音声命令有効状態の継続時間をタイマーで計時する。
【0051】
S308において、システム制御部50は、例えば、図5(b)に示す音声命令有効状態画面を表示部28に表示させる。図5(b)に示す例では、音声操作が可能な画面に、デジタルカメラ100の状態が音声命令有効状態であることを示すガイダンス502を表示している。なお、図5(b)に示す例では、ガイダンスを表示する場合を例に説明しているが、同様の状態を所定のアイコンで示してもよい。
【0052】
S309において、システム制御部50は、デジタルカメラ100の状態が音声命令有効状態に変わってから一定時間だけ経過したかを判定する。システム制御部50は、例えばタイマーの計時時刻に基づいて、音声命令有効状態に変化してから一定時間だけ経過したと判定した場合はS310へ進み、音声命令有効状態に変化してから一定時間だけ経過していないと判定した場合はS312へ進む。
【0053】
S310において、システム制御部50は、デジタルカメラ100の状態を、音声命令による操作が無効となる状態(音声命令無効状態)に設定して、当該状態をメモリ32のデジタルカメラ100の状態情報に記憶させる。S311において、システム制御部50は、例えば、図5(c)に示す音声命令無効状態画面を表示部28に表示する。図5(c)に示す例では、音声操作が可能な画面に、デジタルカメラ100の状態が音声命令無効状態であることを示すガイダンス503を表示している。なお、図5(c)に示す例では、ガイダンスを示す場合を例に説明しているが、同様の状態を所定のアイコンで示してもよい。
【0054】
このように、システム制御部50は、デジタルカメラ100の状態を音声命令有効状態に変更してから一定時間の間に音声命令が受信された場合には、当該音声命令に対応する処理を実行する。一方、デジタルカメラ100の状態を音声命令有効状態に変更してから一定時間の間に音声命令が受信されない場合、デジタルカメラ100の状態を音声命令無効状態に再び戻して、受信した音声に基づいて誤動作しないように音声命令を処理しないようにする。
【0055】
S312において、システム制御部50は、電源スイッチ72を電源オフされたなどの、メイン処理終了指示があったかを判定する。システム制御部50は、例えば、電源スイッチ72や操作部70からの信号に基づいて、メイン処理終了指示が入力されたと判定した場合、本メイン処理を終了する。一方、システム制御部50は、メイン処理終了指示が入力されたと判定した場合は、上述の処理を繰り返すためにS301へ処理を戻す。なお、上述の動作の中でモードダイヤルなどを回されるなどの異常系操作が行われた場合、システム制御部50は、メイン処理の一連の動作を途中で中断してもよい。
【0056】
(ウェイクワード省略処理の一連の動作)
次に、図4を参照して、S302で実行されるウェイクワード省略処理の一連の動作について説明する。ウェイクワード省略処理の動作は、画像から認識した被写体の位置情報と認識した音声の音声方向に基づいて、デジタルカメラ100の状態をウェイクワード省略状態に制御する動作である。なお、ウェイクワード省略処理は、メイン処理と同様に、システム制御部50が不揮発性メモリ56に格納されたプログラムをシステムメモリ52に展開して実行することにより実現される。
【0057】
S401において、システム制御部50は、撮像部22から出力される撮影画像において被写体を認識しているかを判定する。システム制御部50は、撮影画像に対する画像認識処理の結果、なんらかの被写体を認識していると判定した場合はS402へ進み、被写体を認識していないと判定した場合はS403へ進む。
【0058】
S402において、システム制御部50は、デジタルカメラ100の状態を、ウェイクワード非省略状態に変更し、メモリ32のデジタルカメラの状態情報に記憶させる。なお、ウェイクワード非省略状態とは、ユーザがウェイクワードを入力してからでないと音声命令により音声操作を行うことができない状態である。ウェイクワード非省略状態は、ウェイクワードを受け付けて音声操作が有効になっている音声命令有効状態と、ウェイクワードを受け付けておらず音声操作が無効になっている音声命令無効状態とのサブ状態を有している。
【0059】
S403において、システム制御部50は、認識された被写体の目や鼻や口などの特徴を含む顔情報を取得し、取得した顔情報をメモリ32に記憶させる。S404において、システム制御部50は、認識された被写体の顔情報が予め登録されたユーザの顔情報と一致するかを判定する。システム制御部50は、認識された被写体の顔情報が登録されたユーザの顔情報と一致すると判定した場合はS405へ進み、認識された被写体の顔情報が登録されたユーザの顔情報と一致しないと判定した場合はS402へ進む。
【0060】
S405において、システム制御部50は、音声入力部85で受信した音声の声量や声紋などの特徴を含む声情報を取得し、取得した声情報をメモリ32に記憶させる。S406において、システム制御部50は、音声入力部85で受信した声情報が登録されているユーザの声情報と一致するかを判定する。システム制御部50は、音声入力部85で受信した音声の声情報が登録されているユーザの声情報と一致すると判定した場合はS407へ進む。一方、システム制御部50は、音声入力部85で受信した音声の声情報が登録してあるユーザの声情報と一致しないと判定した場合はS402へ進む。
【0061】
S407において、システム制御部50は、音声入力部85で受信した音声の声量が一定の声量以上かを判定する。システム制御部50は、音声入力部85で受信した音声の声量が一定の声量以上であると判定した場合はS408へ進み、音声入力部85で受信した音声の声量が一定の声量以上でないと判定した場合はS402へ進む。このように画像を用いた顔認識結果に加えて声情報や声量を判定することにより、ユーザがデジタルカメラ100と対面している際に意図せず発した言葉を、音声命令として動作する誤動作を低減することができる。
【0062】
S408において、システム制御部50は、デジタルカメラ100に現在設定されている動作モード情報を不揮発性メモリ56から取得して、取得した動作モード情報をメモリ32に記憶させる。S409において、システム制御部50は、デジタルカメラ100の現在の動作モードが撮影モードであるかを判定する。システム制御部50は、デジタルカメラ100の現在の動作モードが撮影モードであると判定した場合はS410へ進み、現在の動作モードが撮影モードでないと判定した場合はS402へ進む。このように、現在の動作モードが撮影モード(すなわち即時性の求められる動作モード)であるかに応じて、ウェイクワードを省略することができるため、音声操作を行う際に迅速な操作が可能になり、かつ誤動作の発生リスクを低減することができる。
【0063】
S410において、システム制御部50は、音声入力部85で受信した音声命令が予め定めた撮影命令であるかを判定する。システム制御部50は、音声入力部85で受信した音声命令が予め定めた撮影命令であると判定した場合はS411へ進み、音声入力部85で受信した音声命令が予め定めた撮影命令でないと判定した場合はS402へ進む。このように、特定の音声命令が入力された場合にのみウェイクワードを省略できるようにすれば、動作モードが撮影モードであっても、本当に即時性が必要な音声命令(撮影命令)についてのみウェイクワードを省略することができる。すなわち、必要な音声操作について迅速な操作が可能になるとともに、誤動作の発生リスクを更に低減させることのできる。
【0064】
S411において、システム制御部50は、認識された被写体方向と音声の発信方向を取得し、取得した被写体の方向情報と音声の発信方向情報をメモリ32に記憶させる。例えば、システム制御部50は、撮影画像における被写体の顔領域の大きさ及び位置から、デジタルカメラ100からの被写体の位置(例えば方向と距離)を推定する。また、システム制御部50は、例えば、上述の複数のマイクロフォンから入力される音声の時間差などに基づいて、音声の発信方向を算出する。
【0065】
S412において、システム制御部50は、顔の認識された被写体の方向と音声の発信方向が一致するかを判定する。システム制御部50は、認識された被写体の方向と音声の発信方向とが一致すると判定した場合はS413へ進み、認識された被写体の方向と音声の発信方向が一致しない場合はS402へ進む。このとき、顔の認識された被写体の方向と音声の発信方向とが一致すれば、被写体であるユーザが音声命令を発したと推定することができる。
【0066】
S413において、システム制御部50は、デジタルカメラ100の状態をウェイクワード省略状態に変更し、デジタルカメラ100の状態情報をメモリ32に記憶させる。このようにすることで、被写体に対する画像認識と音声の発信方向の認識とに基づき、被写体であるユーザが音声命令を発したと推定できた場合に、ウェイクワードを省略することができる。
【0067】
S414において、システム制御部50は、ウェイクワード省略状態であることを示す表示を表示部28に表示する。図5(a)は、音声操作可能な画面において、ウェイクワード省略状態を示すガイダンス501を表示する例を示している。なお、この例では、ガイダンスを表示する場合を例に説明しているが、同様の状態をアイコンで示すようにしてもよい。
【0068】
なお、上述の説明では、デジタルカメラ100の正面側を撮影した画像を用いて本実施形態を実施する例を説明した。しかし、デジタルカメラ100の背面側にも不図示の撮像部を更に配置して(すなわちスマートフォンのように正面側と背面側とにそれぞれ撮像部を備えて)、デジタルカメラ100の背面側にいるユーザに対して上述の実施形態を適用するようにしてもよい。或いは、正面側と背面側とにそれぞれ撮像部を備える装置において、いずれの側のカメラで撮影された画像であるかを更に考慮した上で、顔の認識された被写体の方向と音声の発信方向とが一致するかを判定してもよい。勿論、円筒状の筐体に撮像部を配置した装置に対して上述の実施形態を適用してもよい。
【0069】
また、上述の説明では、被写体を認識する装置と音声を入力する装置とが一体である場合を例に説明した。しかし、それぞれの装置が分かれているような形態、例えばカメラで撮像し、スマートフォンで音声入力するような形態にも本実施形態を適用可能である。また、本実施形態ではデジタルカメラを用いる場合を例に説明したが、撮影機能と音声入力機能をスマートフォンに持たせるような形態にも本実施形態を適用可能である。
【0070】
以上説明したように、本実施形態によれば、音声が届いた方向が被写体のいる方向と異なる場合にはウェイクワードを伝えることで音声操作を開始するため誤操作を防ぐことができる。音声が届いた方向が被写体のいる方向と同じ場合はウェイクワードを省略することで即座に音声操作を開始することができ、ユーザにとって快適で誤動作の発生し難い音声操作を提供することが可能となる。
【0071】
(実施形態2)
次に実施形態2について説明する。実施形態2では、近距離無線通信を用いてユーザ(他の通信装置)との相対的な方向と距離を測位し、相対的な方向や距離を考慮してウェイクワード省略状態や、音声命令有効状態へ状態を制御する。このため、本実施形態のデジタルカメラ600の構成は、実施形態1の構成に更に近距離無線通信部を有するが、その他の構成は実施形態1と同一又は実質的に同一である。また、本実施形態では、実施形態1のウェイクワード省略処理、及びメイン処理の一部が実施形態1と異なるが他の処理は同一又は実質的に同一である。従って、同一である構成及び同一の処理については説明を省略し、相違点について重点的に説明する。
【0072】
(デジタルカメラ600の構成)
図6は、本実施形態に係る音声入力装置の一例としてのデジタルカメラ600の機能構成例を示している。
【0073】
近距離無線通信部86は、例えば無線通信のためのアンテナと無線信号を処理するため変復調回路や通信コントローラを含む。近距離無線通信部86は、変調した無線信号をアンテナから出力し、またアンテナで受信した無線信号を復調することによりIEEE802.15の規格(いわゆるBluetooth(登録商標))に従った近距離無線通信を実現する。本実施形態においてBluetooth(登録商標)通信は、例えば低消費電力であるBluetooth(登録商標) Low Energyのバージョン5.1を採用する。このBluetooth(登録商標)通信は、無線LAN通信と比べて通信可能な範囲が狭い(つまり、通信可能な距離が短い)。また、Bluetooth(登録商標)通信は、無線LAN通信と比べて通信速度が遅い。その一方で、Bluetooth(登録商標)通信は、無線LAN通信と比べて消費電力が少ない。
【0074】
なお、本実施形態におけるデジタルカメラ100は、近距離無線通信部86を介したBluetooth(登録商標)通信により、通信装置である他のBluetooth(登録商標)デバイスとの相対的な方向と距離を測位する機能を有する。近距離無線通信部86は、アンテナから方向検知信号を発信する。他のBluetooth(登録商標)デバイスは、Bluetooth(登録商標)5.1規格に基づいて、デジタルカメラ100との相対的な方向と距離を計算し、デジタルカメラ100に相対的な方向と距離を送信する。デジタルカメラ100のシステム制御部50は、近距離無線通信部86を介して受信した他のBluetooth(登録商標)デバイスとの相対的な方向と距離から、他のBluetooth(登録商標)デバイスの相対的な位置を計算し、メモリ32に保持する。
【0075】
本実施形態では、通信部54により実現される通信の通信速度は、近距離無線通信部86により実現される通信の通信速度よりも速い。また、通信部54により実現される通信は、近距離無線通信部86による通信よりも、通信可能な範囲が広い。
【0076】
本実施形態におけるデジタルカメラ100の通信部54は、インフラストラクチャモードにおけるアクセスポイントとして動作するAPモードと、インフラストラクチャモードにおけるクライアントとして動作するCLモードとを有している。そして、通信部54をCLモードで動作させることにより、本実施形態におけるデジタルカメラ100は、インフラストラクチャモードにおけるCL機器として動作することが可能である。デジタルカメラ100がCL機器として動作する場合、周辺のAP機器に接続することで、AP機器が形成するネットワークに参加することが可能である。また、通信部54をAPモードで動作させることにより、本実施形態におけるデジタルカメラ100は、APの一種ではあるが、より機能が限定された簡易的なAP(以下、簡易AP)として動作することも可能である。デジタルカメラ100が簡易APとして動作すると、デジタルカメラ100は自身でネットワークを形成する。デジタルカメラ100の周辺の装置は、デジタルカメラ100をAP機器と認識し、デジタルカメラ100が形成したネットワークに参加することが可能となる。上記のようにデジタルカメラ100を動作させるためのプログラムは不揮発性メモリ56に保持されているものとする。
【0077】
なお、本実施形態におけるデジタルカメラ100はAPの一種であるものの、CL機器から受信したデータをインターネットプロバイダなどに転送するゲートウェイ機能は有していない簡易APである。したがって、自機が形成したネットワークに参加している他の装置からデータを受信しても、それをインターネットなどのネットワークに転送することはできない。
【0078】
(携帯電話機700の構成)
上述のように、近距離無線通信を用いた相対的な方向と距離の測位には、相手方の通信装置が必要となる。図7を参照して、本実施形態の通信装置の一例である携帯電話機700の機能構成例について説明する。なお、以下の説明では、通信装置の一例として携帯電話機を例に説明するが、通信装置はこれに限らない。例えば通信装置は、無線通信の可能なデジタルカメラ、タブレットデバイス、あるいはパーソナルコンピュータなどであってもよい。
【0079】
制御部701は、例えばCPUなどの1つ以上のプロセッサを含み、入力された信号や、後述のプログラムを実行することにより、携帯電話機700の各部を制御する。なお、制御部701が装置全体を制御する代わりに、複数のハードウェアが処理を分担することで、装置全体を制御してもよい。
【0080】
撮像部702は、撮像部702に含まれるレンズで結像された被写体光を電気信号に変換し、ノイズ低減処理などを行いデジタルデータを画像データとして出力する。撮像した画像データはバッファメモリに蓄えられた後、制御部701にて所定の演算を行い、記録媒体710に記録される。
【0081】
不揮発性メモリ703は、電気的に消去・記録可能な不揮発性のメモリである。不揮発性メモリ703には、制御部701が実行するプログラム、すなわち基本的なソフトウェアであるOS(オペレーティングシステム)や、このOSと協働して応用的な機能を実現するアプリケーションなどが格納されている。また、本実施形態では、不揮発性メモリ703には、デジタルカメラ100と通信するためのアプリケーション(単にアプリともいう)が格納されている。作業用メモリ704は、表示部706の画像表示用メモリや、制御部701の作業領域等として使用される。
【0082】
操作部705は、携帯電話機700に対する指示をユーザから受け付けるために用いられる。操作部705は例えば、ユーザが携帯電話機700の電源のON/OFFを指示するための電源ボタンや、表示部706に形成されるタッチパネルなどの操作部材を含む。
【0083】
表示部706は、画像データの表示、対話的な操作のための文字表示などを行う。なお、表示部706は必ずしも携帯電話機700が備える必要はない。携帯電話機700は表示部706と接続することができ、表示部706の表示を制御する表示制御機能を少なくとも有していればよい。
【0084】
記録媒体710は、撮像部702から出力された画像データを記録することができる。記録媒体710は、携帯電話機700に着脱可能なよう構成してもよいし、携帯電話機700に内蔵されていてもよい。すなわち、携帯電話機700は少なくとも記録媒体710にアクセスする手段を有していればよい。
【0085】
通信部711は、外部装置と接続するための通信インターフェースであり、通信回路又は通信モジュールを含む。本実施形態の携帯電話機700は、通信部711を介して、デジタルカメラ100とデータのやりとりを行うことができる。本実施形態では、通信部711はアンテナを含み、制御部701は、当該アンテナを介して、デジタルカメラ100と接続することができる。なお、デジタルカメラ100との接続では、直接接続してもよいしアクセスポイントを介して接続してもよい。データを通信するためのプロトコルとしては、例えば無線LANを通じたPTP/IP(Picture Transfer Protocol over Internet Protocol)を用いることができる。なお、デジタルカメラ100との通信はこれに限られるものではない。例えば、通信部711は、赤外線通信モジュール、Bluetooth(登録商標)通信モジュール、WirelessUSB等の無線通信モジュールを含むことができる。さらには、USBケーブルやHDMI(登録商標),IEEE1394など、有線接続を採用してもよい。
【0086】
近距離無線通信部712は、例えば無線通信のためのアンテナと無線信号を処理するため変復調回路や通信コントローラから構成される。近距離無線通信部712は、変調した無線信号をアンテナから出力し、またアンテナで受信した無線信号を復調することによりIEEE802.15の規格に従った近距離無線通信を実現する。本実施形態では、近距離無線通信部712は、IEEE802.15.1の規格(いわゆるBluetooth(登録商標))に従って他の装置と通信する。また、本実施形態においてBluetooth(登録商標)通信は、例えば低消費電力であるBluetooth(登録商標) Low Energyのバージョン5.1(BLE)を採用する。
【0087】
なお、本実施形態における携帯電話機700は、近距離無線通信部712を介したBluetooth(登録商標)通信により、他のBluetooth(登録商標)デバイスから発信された信号の方向を検知する機能と、信号を発信したデバイスとの距離を測位する機能を有している。近距離無線通信部712は、無線通信のための複数のアンテナを具備し、方向検知信号を受信した場合、アンテナごとの位相差から、信号を発信したデバイスの相対的な方向を計算する。近距離無線通信部712は、受信した信号の電波強度から、信号を発信したデバイスの距離を測位する。また、携帯電話機700の制御部701は、Bluetooth(登録商標)通信により検知した信号方向と測位した距離を、近距離無線通信部712を介して、他のBluetooth(登録商標)デバイスに送信する。
【0088】
公衆網通信部713は、公衆無線通信を行う際に用いられる通信インターフェースであり、通信回路又は通信モジュールを含む。携帯電話機700は、公衆網通信部713を介して、他の機器と通話することができる。この際、制御部701はマイク714およびスピーカ715を介して音声信号の入力と出力を行うことで、通話を実現する。本実施形態では、公衆網通信部713はアンテナであり、制御部701は、アンテナを介して、公衆網に接続することができる。なお、通信部711および公衆網通信部713は、一つのアンテナで兼用することも可能である。
【0089】
(ウェイクワード省略処理の一連の動作)
次に、図8を参照して、デジタルカメラ600とユーザが近距離かつ向かい合っている場合に、デジタルカメラの状態をウェイクワード省略状態にする、ウェイクワード省略処理の一連の動作について説明する。なお、この一連の動作は、システム制御部50が不揮発性メモリ56に格納されたプログラムをシステムメモリ52に展開して実行することにより実現される。また、この一連の動作は、例えば、図9に示す本実施形態に係るメイン処理において、音声命令を受信したと判定された場合(S301においてYes)に開始される(図9におけるS901に対応する)。
【0090】
S801において、システム制御部50は、ユーザの位置Oz及びユーザの向いている方向Odの情報を算出して、メモリ32に記憶させる。例えば、システム制御部50は、ユーザの位置Ozを、撮像部22で取得した画像データから、画像上のユーザの顔領域を認識して、顔の大きさ・顔の座標から算出する。或いは、ユーザが身に着けている携帯電話機700と近距離無線通信部86の通信信号で得られる、ユーザの相対的な方向及び距離からユーザの位置Ozを算出する方法を採用しても良い。システム制御部50は、ユーザの向いている方向Od(例えば正面顔に対する上下左右への傾き角度)を、撮像部22で取得した画像データから、画像上のユーザの顔領域を認識して、顔の向きから算出する。このとき、システム制御部50は、画像上のユーザの顔領域を画像上の座標Ovとして、メモリ32に記憶させてもよい。システム制御部50は、画像上で複数の人物を検出した場合、人数分の位置Oz、方向Od、及び画像上の座標Ovを、メモリ32に記憶させてもよい。システム制御部50は、近距離無線通信部86でユーザの位置Ozを受信した場合、画像上の座標Ovと比較することで、画像上の人物と携帯電話機700を保持する人物(ユーザ)を照合し、位置Oz・方向Odを算出しても良い。
【0091】
S802において、システム制御部50は、位置Oz、方向Odをメモリ32から読み出し、位置Oz・方向Odがあるか否かによってユーザを観測できたか否かを判定する。システム制御部50は、ユーザを観測ができたと判定した場合はS803に進み、そうでない場合は、S807に進む。
【0092】
S803において、システム制御部50は、撮像部22の光軸の向きと、ユーザの向いている方向Odをメモリ32から読み出し、向きの角度差θ(ユーザとの向かい合いの角度θ)を計算し、メモリ32に記憶させる。ユーザとデジタルカメラ600の向かい合いの角度θは、0度から90度の値を取り、ユーザとデジタルカメラ600が真正面で向かい合っていれば0度の値を取る。
【0093】
S804において、システム制御部50は、ユーザの位置Ozと近距離と判断できる距離閾値Zthをメモリ32から読み出し、ユーザとの距離が所定の距離閾値以下(距離閾値Zth以下)であるかを判定する。システム制御部50は、ユーザとの距離が距離閾値以下であると判定した場合にはS805へ進み、距離閾値より遠いと判定した場合にはS807へ進む。システム制御部50は、メモリ32から位置Oz・方向Odを複数人分読み出せた場合、人物同士の日常会話とカメラ100への音声入力を区別するために、距離閾値Zthを変更してもよい。
【0094】
S805において、システム制御部50は、ユーザとデジタルカメラ600の向かい合いの角度θと、向かい合っていると判断できる角度閾値θthをメモリ32から読み出し、角度θが所定の角度閾値以下(角度閾値θth以下)であるかを判定する。システム制御部50は、角度θが角度閾値θth以下であると判定した場合にはS806へ進み、閾値より大きいと判定した場合にはS807へ進む。なお、システム制御部50は、メモリ32から位置Oz・方向Odを複数人分読み出せた場合、人物同士の日常会話とカメラ100への音声入力を区別するために、角度閾値θthを変更してもよい。
【0095】
このように、システム制御部50は、ユーザが近距離で且つユーザの顔の向きと撮像部22の光軸の向きの角度差が角度閾値以下であれば、ユーザとデジタルカメラ600が向かい合っており、被写体であるユーザが音声命令を発したと推定することができる。
【0096】
S806において、システム制御部50は、向かい合い時間Tをメモリ32から読み出し、向かい合い時間Tをカウントアップして、カウントアップした時間Tをメモリ32に記憶させる。S807において、システム制御部50は、向かい合い時間Tをメモリ32から読み出し、向かい合い時間Tをクリアして、メモリ32に記憶させる。システム制御部50は、その後処理をS801に戻す。
【0097】
S808において、システム制御部50は、向かい合い時間Tと時間閾値Tthをメモリ32から読み出し、向かい合い時間Tが所定の時間閾値以上(時間閾値Tth以上)であるかを判定する。システム制御部50は、向かい合い時間Tが時間閾値Tth以上であると判定した場合にはS809へ進み、向かい合い時間Tが時間閾値Tthより短いと判定した場合には、S801へ進む。時間閾値Tthには、アイコンタクトのような、カメラとユーザが向かい合っていると判断することができる、予め決められた時間が設定される。このように、システム制御部50は、向かい合い時間を更に考慮してユーザとデジタルカメラ600との向かい合いを判定することができる。システム制御部50は、メモリ32から位置Oz・方向Odを複数人分読み出せた場合、人物同士の日常会話とカメラ100への音声入力を区別するために、時間閾値Tthを変更してもよい。時間閾値Tthは0であってもよい。
【0098】
S809において、システム制御部50は、デジタルカメラ100の状態を、ウェイクワード省略状態に設定し、設定した状態情報をメモリ32に記憶させる。システム制御部50は、その後、本ウェイクワード省略処理を終了する。
【0099】
(メイン処理の一連の動作)
図9は、本実施形態におけるメイン処理の一連の動作を示している。上述のウェイクワード省略処理のほか、実施形態1におけるメイン処理とは、ウェイクワードとユーザの位置を利用して、デジタルカメラ100の状態を音声命令有効状態に設定する点が異なる。すなわち、実施形態1におけるメイン処理とは、S306における判定処理の後にS902の処理が行われる点が異なる。
【0100】
S301、S303~S306において、システム制御部50は、実施形態1と同様に実行する。また、S901において、上述の実施形態2におけるウェイクワード省略処理を実行する。
【0101】
S902において、システム制御部50は、ユーザの位置Ozと、遠距離と判断できる距離閾値Zth2とをメモリ32から読み出す。システム制御部50は、ユーザの位置Ozが所定の距離閾値以下(距離閾値Zth2以下)であると判定した場合、S307へ進む。一方、システム制御部50は、ユーザの位置Ozが距離閾値より遠い位置であると判定した場合にはS312に戻る。その後、システム制御部50は、S307以降の処理を実施形態1と同様に実行して、メイン処理を終了する。
【0102】
以上説明したように、本実施形態によれば、デジタルカメラとユーザが近距離で向かい合っている状況であれば、ウェイクワードを受信することなく、音声指示を受け付けることができる。このため、音声操作を行う際に迅速な操作を可能にしつつ、誤操作の発生を抑制することが可能になり、また、より自然で直感的なUIをユーザに提供することが可能となる。
【0103】
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0104】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【符号の説明】
【0105】
22…撮像部、50…システム制御部、70…操作部、85…音声入力部
図1
図2
図3
図4
図5
図6
図7
図8
図9