IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7442331音声入力装置およびその制御方法ならびにプログラム
<>
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図1
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図2
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図3
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-22
(45)【発行日】2024-03-04
(54)【発明の名称】音声入力装置およびその制御方法ならびにプログラム
(51)【国際特許分類】
   G06F 3/16 20060101AFI20240226BHJP
   G10L 15/28 20130101ALI20240226BHJP
   G10L 15/10 20060101ALI20240226BHJP
   H04N 23/63 20230101ALI20240226BHJP
   H04N 23/667 20230101ALI20240226BHJP
   G03B 7/091 20210101ALI20240226BHJP
【FI】
G06F3/16 630
G10L15/28 230K
G10L15/10 200W
H04N23/63 300
H04N23/667
G03B7/091
【請求項の数】 11
(21)【出願番号】P 2020018212
(22)【出願日】2020-02-05
(65)【公開番号】P2021124976
(43)【公開日】2021-08-30
【審査請求日】2023-01-31
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】植野 大優
【審査官】前地 純一郎
(56)【参考文献】
【文献】特開2016-119615(JP,A)
【文献】国際公開第2018/155116(WO,A1)
【文献】特開2019-086535(JP,A)
【文献】特開2004-201104(JP,A)
【文献】特開2010-130487(JP,A)
【文献】特開2013-058996(JP,A)
【文献】特開2015-012339(JP,A)
【文献】米国特許出願公開第2018/0025733(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/16
G10L 15/00 -17/26
H04N 5/222- 5/257
H04N 23/00
H04N 23/40 -23/76
H04N 23/90 -23/959
G03B 7/00 - 7/30
G06F 3/01
G06F 3/048- 3/04895
(57)【特許請求の範囲】
【請求項1】
音声入力装置であって、
音声を入力する音声入力手段と、
撮像手段と、
前記撮像手段によって撮像する被写体を視認可能なファインダと、
前記ファインダに対する接眼状態を検出可能な検出手段と、
前記音声入力装置に対する音声による操作を有効にするための第1の音声命令が入力された後の一定の期間に、前記音声入力装置を操作するための第2の音声命令が入力された場合に、前記第2の音声命令に対応する処理を実行する制御手段とを有し、
前記制御手段は、前記検出手段により前記ファインダに対する接眼状態検出されている場合には、前記第1の音声命令が入力されていない場合であっても、前記第2の音声命令が入力されると、前記第2の音声命令に対応する処理を実行する、ことを特徴とする音声入力装置。
【請求項2】
前記音声入力手段による音声の入力を有効化する有効化手段を更に有し、
前記制御手段は、前記有効化手段により音声の入力が有効化されている場合に前記第2の音声命令に対する制御を行う、ことを特徴とする請求項1に記載の音声入力装置。
【請求項3】
前記撮像手段によって撮影して得られる画像情報をファインダに内蔵される第1の表示手段と前記ファインダの外側に搭載される第2の表示手段の、いずれか一方に表示させる表示制御手段と、を更に有し、
前記表示制御手段は、前記ファインダに対する接眼状態検出されているか否かに応じて、前記第1の表示手段と前記第2の表示手段で画像情報の表示出力先を切り替える、ことを特徴とする請求項1又は2に記載の音声入力装置。
【請求項4】
前記表示制御手段は、前記音声入力装置が、前記第1の音声命令が入力されていない場合に、前記第2の音声命令が入力されると前記第2の音声命令に対応する処理を実行する第1の状態であることを前記第1の表示手段に表示させる、ことを特徴とする請求項3に記載の音声入力装置。
【請求項5】
前記表示制御手段は、前記音声入力装置が前記第1の状態でない第2の状態であることを前記第2の表示手段に表示させる、ことを特徴とする請求項4に記載の音声入力装置。
【請求項6】
画像情報を表示させる第1の表示手段を点灯させる表示制御手段を更に有し、
前記表示制御手段は、前記検出手段により前記ファインダに対する接眼状態が検出されているか否かに応じて、前記第1の表示手段の点灯状態を切り替える、ことを特徴とする請求項1又は2に記載の音声入力装置。
【請求項7】
前記制御手段は、前記検出手段により前記ファインダに対する接眼状態が検出されている場合には、前記検出手段により前記ファインダに対する接眼状態が検出されていない場合よりも前記音声入力手段の感度を低下させる、ことを特徴とする請求項1から6のいずれか1項に記載の音声入力装置。
【請求項8】
前記制御手段は、前記検出手段により前記ファインダに対する接眼状態が検出されているか否かに応じて、入力された音声に対する処理時間が異なる動作モードを設定する、ことを特徴とする請求項1から7のいずれか1項に記載の音声入力装置。
【請求項9】
ユーザの視線を検出する視線検出手段を更に有し、
前記制御手段は、前記検出手段により前記ファインダに対する接眼状態が検出されている場合であって且つ前記視線検出手段により前記ユーザの視線を検出した場合に、前記第1の音声命令が入力されていない場合であっても、前記第2の音声命令が入力されると、前記第2の音声命令に対応する処理を実行する、ことを特徴とする請求項1から8のいずれか1項に記載の音声入力装置。
【請求項10】
音声を入力する音声入力手段と、被写体を視認可能なファインダと、前記ファインダに対する接眼状態を検出可能な検出手段とを備える音声入力装置の制御方法であって、
前記音声入力装置に対する音声による操作を有効にするための第1の音声命令が入力された後の一定の期間に、前記音声入力装置を操作するための第2の音声命令が入力された場合に、前記第2の音声命令に対応する処理を実行する制御工程を有し、
前記制御工程では、前記検出手段により前記ファインダに対する接眼状態が検出されている場合には、前記第1の音声命令が入力されていない場合であっても、前記第2の音声命令が入力されると、前記第2の音声命令に対応する処理を実行する、ことを特徴とする音声入力装置の制御方法。
【請求項11】
コンピュータを、請求項1から9のいずれか1項に記載の音声入力装置の各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声入力装置およびその制御方法ならびにプログラムに関する。
【背景技術】
【0002】
近年、発話された音声入力を認識して、音声入力に対応した操作を行うことができる音声操作機能を備える装置が知られている。音声操作機能により、音声を使って、例えば、閲覧する所望のページを表示させる操作や、装置の現在の設定値を変更する操作、或いは、特定の相手に電話をかけたりメールの文章を入力したりする操作を行うことができる。音声操作機能には、自然な発話で操作を行うことができるといった利点がある一方で、意図しない音声に装置が反応し、誤動作が発生する場合がある。
【0003】
特許文献1では、音声操作の可能な装置がウェイクワードという音声操作を有効にするための特定の音声コマンドを受け付け、ウェイクワードから所定期間にのみ音声操作を受け付けることにより誤動作の発生を低減させる技術を提案している。また、特許文献2では、近接センサーと音声操作を組み合わせた装置であって、近接センサーが反応すると音声入力受付を開始する技術を提案している。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2019-86535号公報
【文献】特開平2-131300号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1で提案された技術では、音声操作を実行するためには常にウェイクワードを入力する手間を要する課題がある。撮像装置を操作する際には、シャッターチャンスを逃さないように素早い設定変更が望まれる場合がある。ウェイクワードを常に入力する手間を要する場合、単純に操作が煩わしくなるだけでなく、ウェイクワードを伝えてから音声操作を行っていると所望のシャッターチャンスを逃してしまうおそれがある。
【0006】
また、特許文献2で提案された技術では、近接センサが反応している場合に初めて音声入力の受付を開始するため、近接センサが反応していないような距離にいる場合に音声操作を行うことができない課題がある。すなわち、例えば、撮像装置から離れた位置から集合写真を撮影するような場合に、音声操作(例えば撮影指示)を行いたいユーザは、いったん近接センサが反応する場所まで移動してから、音声を入力する必要がある。
【0007】
本発明は、上記課題に鑑みてなされ、その目的は、近接センサを備える音声入力装置において、音声操作を行う際に迅速な操作を可能にすると共に容易な音声操作を実現することが可能な技術を実現することである。
【課題を解決するための手段】
【0008】
この課題を解決するため、例えば本発明の音声入力装置は以下の構成を備える。すなわち、音声入力装置であって、音声を入力する音声入力手段と、撮像手段と、前記撮像手段によって撮像する被写体を視認可能なファインダと、前記ファインダに対する接眼状態を検出可能な検出手段と、前記音声入力装置に対する音声による操作を有効にするための第1の音声命令が入力された後の一定の期間に、前記音声入力装置を操作するための第2の音声命令が入力された場合に、前記第2の音声命令に対応する処理を実行する制御手段とを有し、前記制御手段は、前記検出手段により前記ファインダに対する接眼状態検出されている場合には、前記第1の音声命令が入力されていない場合であっても、前記第2の音声命令が入力されると、前記第2の音声命令に対応する処理を実行する、ことを特徴とする。
【発明の効果】
【0009】
本発明によれば、近接センサを備える音声入力装置において、音声操作を行う際に迅速な操作を可能にすると共に容易な音声操作を実現することが可能になる。
【図面の簡単な説明】
【0010】
図1】本実施形態に係る音声入力装置の一例としてのデジタルカメラの外観を示す図
図2】本実施形態に係るデジタルカメラの機能構成例を示すブロック図
図3】本実施形態に係るメイン処理の一連の動作を示すフローチャート
図4】本実施形態における写真の再生画面の一例を示す図
【発明を実施するための形態】
【0011】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0012】
以下では音声入力装置の一例として、音声認識を用いた操作が可能なデジタルカメラを用いる例を説明する。しかし、本実施形態は、デジタルカメラに限らず、音声認識を用いた操作の可能な他の機器にも適用可能である。これらの機器には、例えば、スマートフォン、パーソナルコンピュータ、ゲーム機、タブレット端末、音楽プレーヤ、VR又はARヘッドセット、医療機器などが含まれてよい。
【0013】
(デジタルカメラの構成)
図1(a)及び図1(b)は、本実施形態に係る音声入力装置の一例としてのデジタルカメラ100の外観図を示している。図1(a)はデジタルカメラ100の前面斜視図であり、図1(b)はデジタルカメラ100の背面斜視図である。表示部28は画像や各種情報を表示する、カメラ背面に設けられた表示部である。タッチパネル70aは、表示部28の表示面(操作面)に対するタッチ操作を検出することができる。ファインダー外表示部43は、カメラ上面に設けられた表示部であり、シャッター速度や絞りをはじめとするカメラの様々な設定値が表示される。シャッターボタン61は撮影指示を行うための操作部である。モード切替スイッチ60は各種モードを切り替えるための操作部である。端子カバー40は外部機器との接続ケーブルとデジタルカメラ100とを接続するコネクタ(不図示)を保護するカバーである。
【0014】
メイン電子ダイヤル71は操作部70に含まれる回転操作部材であり、このメイン電子ダイヤル71を回すことで、シャッター速度や絞りなどの設定値の変更等が可能である。電源スイッチ72は、デジタルカメラ100の電源のON及びOFFを切り替える操作部材である。サブ電子ダイヤル73は操作部70に含まれる回転操作部材であり、選択枠の移動や画像送りなどを行うことができる。十字キー74は操作部70に含まれ、4方向に押し込み可能な押しボタンを有する操作部材である。十字キー74の押下した方向に応じた操作が可能である。SETボタン75は操作部70に含まれ、押しボタンであり、主に選択項目の決定などに用いられる。動画ボタン76は、動画撮影(記録)の開始、停止の指示に用いられる。音声入力ボタン77は、当該ボタンを押下している時だけ音声による操作有効にするように制限することができるボタンである。但し、以下の説明では、音声入力ボタン77の押下の有無にかかわらず、音声を入力することができる設定値が設定されており、音声操作に応じて各種処理が動作する場合を例に説明する。拡大ボタン78は操作部70に含まれ、撮影モードのライブビュー表示において拡大モードのON、OFFを行うための操作ボタンである。拡大モードをONとしてからメイン電子ダイヤル71を操作することにより、ライブビュー画像の拡大、縮小を行える。再生モードにおいては再生画像を拡大し、拡大率を増加させるための拡大ボタンとして機能する。再生ボタン79は操作部70に含まれ、撮影モードと再生モードとを切り替える操作ボタンである。撮影モード中に再生ボタン79を押下することで再生モードに移行し、記録媒体200に記録された画像のうち最新の画像を表示部28に表示させることができる。メニューボタン81は、操作部70に含まれ、押下することにより各種の設定可能なメニュー画面が表示部28に表示される。ユーザは、表示部28に表示されたメニュー画面と、十字キー74やSETボタン75を用いて各種設定を行うことができる。
【0015】
通信端子10はデジタルカメラ100が後述するレンズユニット150(着脱可能)と通信を行う為の通信端子である。接眼部16は、接眼ファインダー(覗き込み型のファインダー)の接眼部であり、ユーザは、接眼部16を介して内部のEVF(Electric View Finder)29に表示された映像を視認することができる。接眼検知部57は接眼部16に撮影者が接眼しているか否かを検知する接眼検知センサーである。
【0016】
蓋202は記録媒体200を格納するスロットの蓋である。グリップ部90は、ユーザがデジタルカメラ100を構えた際に右手で握りやすい形状とした保持部である。グリップ部90を右手の小指、薬指、中指で握ってデジタルカメラ100を保持した状態で、右手の人差指で操作可能な位置にシャッターボタン61、メイン電子ダイヤル71が配置されている。また、同じ状態で、右手の親指で操作可能な位置に、サブ電子ダイヤル73が配置されている。
【0017】
次に、図2を参照して、本実施形態によるデジタルカメラ100の機能構成例について説明する。図2において、レンズユニット150は、交換可能な撮影レンズを搭載するレンズユニットである。レンズ103は通常、複数枚のレンズから構成されるが、ここでは簡略化して一枚のレンズのみで示している。通信端子6はレンズユニット150がデジタルカメラ100と通信を行う為の通信端子である。レンズユニット150は、この通信端子6と前述の通信端子10を介してシステム制御部50と通信し、内部のレンズシステム制御回路4によって絞り駆動回路2を介して絞り1の制御を行う。その後AF駆動回路3を介して、レンズ103を変位させることで焦点を合わせる。
【0018】
シャッター101は、システム制御部50の制御で撮像部22の露光時間を自由に制御できるフォーカルプレーンシャッターである。
【0019】
撮像部22は光学像を電気信号に変換するCCDやCMOS素子等で構成される撮像素子である。A/D変換器23は、撮像部22から出力されるアナログ信号をデジタル信号に変換するために用いられる。
【0020】
画像処理部24は、A/D変換器23からのデータ、または、後述するメモリ制御部15からのデータに対し所定の画素補間、縮小などのリサイズ処理、及び色変換処理を行う。また、画像処理部24では、撮像した画像データを用いて所定の演算処理を行う。画像処理部24により得られた演算結果に基づいてシステム制御部50が露光制御、測距制御を行う。これにより、TTL(スルー・ザ・レンズ)方式のAF(オートフォーカス)処理、AE(自動露出)処理、EF(フラッシュプリ発光)処理が行われる。画像処理部24では更に、撮像した画像データを用いて所定の演算処理を行い、得られた演算結果に基づいてTTL方式のAWB(オートホワイトバランス)処理を行う。
【0021】
メモリ制御部15は、A/D変換器23、画像処理部24、メモリ32間のデータ送受を制御する。A/D変換器23からの出力データは、画像処理部24およびメモリ制御部15を介して、あるいは、メモリ制御部15を介してメモリ32に直接書き込まれる。メモリ32は、撮像部22によって得られA/D変換器23によりデジタルデータに変換された画像データや、表示部28、EVF29に表示するための画像データを格納する。メモリ32は、所定枚数の静止画像や所定時間の動画像および音声を格納するのに十分な記憶容量を備えている。
【0022】
また、メモリ32は画像表示用のメモリ(ビデオメモリ)を兼ねている。メモリ32に書き込まれた表示用の画像データはメモリ制御部15を介して表示部28、EVF29により表示される。表示部28、EVF29は、LCDや有機EL等の表示器上に、メモリ制御部15からの信号に応じた表示を行う。A/D変換器23によってA/D変換されメモリ32に蓄積されたデータを、表示部28またはEVF29に逐次転送して表示することで、ライブビュー表示(LV表示)を行える。以下、ライブビューで表示される画像をライブビュー画像(LV画像)と称する。
【0023】
赤外発光ダイオード166は、ファインダー画面内におけるユーザの視線位置を検出するための発光素子であり、接眼部16に接眼したユーザの眼球(目)161に赤外光を照射する。赤外発光ダイオード166から発した赤外光は眼球(目)161で反射し、その赤外反射光はダイクロイックミラー162に到達する。ダイクロイックミラー162は赤外光だけを反射して可視光を透過させる。光路を変更された赤外反射光は、結像レンズ163を介して視線検知センサー164の撮像面に結像する。結像レンズ163は視線検知光学系を構成する光学部材である。視線検知センサー164は、CCD型イメージセンサ等の撮像デバイスから成る。
【0024】
視線検知センサー164は、入射された赤外反射光を電気信号に光電変換して視線検出回路165へ出力する。視線検出回路165は少なくとも1つのプロセッサを含み、視線検知センサー164の出力信号に基づき、ユーザの眼球(目)161の画像または動きからユーザの視線位置を検出し、検出情報をシステム制御部50に出力する。このようにダイクロイックミラー162、結像レンズ163、視線検知センサー164、赤外発光ダイオード166、視線検出回路165により視線検出ブロック160が構成される。視線検出ブロック160では、例えば、角膜反射法と呼ばれる方式で視線を検出する。角膜反射法とは、赤外発光ダイオード166から発した赤外光が眼球(目)161の特に角膜で反射した反射光と、眼球(目)161の瞳孔との位置関係から、視線の向き・位置を検出する方式である。この他にも黒目と白目での光の反射率が異なることを利用する強膜反射法と呼ばれる方式など、様々な視線の向き・位置を検出する方式がある。なお、視線の向き・位置を検出できる方式であれば、上記以外の視線検出手段の方式を用いてもよい。
【0025】
ファインダー外表示部43には、ファインダー外表示部駆動回路44を介して、シャッター速度や絞りをはじめとするデジタルカメラ100の様々な設定値が表示される。
【0026】
不揮発性メモリ56は、電気的に消去・記録可能なメモリであり、例えばFlash-ROM等が用いられる。不揮発性メモリ56には、システム制御部50の動作用の定数、プログラム等が記憶される。ここでいう、プログラムとは、本実施形態にて後述する各種フローチャートを実行するためのコンピュータープログラムのことである。
【0027】
システム制御部50は、1つ以上のプロセッサを含み、デジタルカメラ100全体を制御する。システム制御部50は、不揮発性メモリ56に記録されたプログラムをシステムメモリ52に展開、実行することで、後述する本実施形態の各処理を実現する。システムメモリ52には、例えばRAMが用いられ、システム制御部50の動作用の定数、変数、不揮発性メモリ56から読み出したプログラム等が展開される。また、システム制御部50はメモリ32、表示部28等を制御することにより表示制御も行う。
【0028】
システムタイマー53は各種制御に用いる時間や、内蔵された時計の時間を計測する計時部である。モード切替スイッチ60、第1シャッタースイッチ62、第2シャッタースイッチ64、操作部70はシステム制御部50に各種の動作指示を入力するための操作手段である。モード切替スイッチ60は、システム制御部50の動作モードを静止画撮影モード、動画撮影モード等のいずれかに切り替える。静止画撮影モードに含まれるモードとして、オート撮影モード、オートシーン判別モード、マニュアルモード、絞り優先モード(Avモード)、シャッター速度優先モード(Tvモード)、プログラムAEモード(Pモード)、がある。また、撮影シーン別の撮影設定となる各種シーンモード、カスタムモード等がある。モード切替スイッチ60により、ユーザは、これらのモードのいずれかに直接切り替えることができる。あるいは、モード切替スイッチ60で撮影モードの一覧画面に一旦切り換えた後に、表示された複数のモードのいずれかを選択し、他の操作部材を用いて切り替えるようにしてもよい。同様に、動画撮影モードにも複数のモードが含まれていてもよい。
【0029】
第1シャッタースイッチ62は、デジタルカメラ100に設けられたシャッターボタン61の操作途中、いわゆる半押し(撮影準備指示)でONとなり第1シャッタースイッチ信号SW1を発生する。第1シャッタースイッチ信号SW1により、AF(オートフォーカス)処理、AE(自動露出)処理、AWB(オートホワイトバランス)処理、EF(フラッシュプリ発光)処理等の撮影準備動作を開始する。
【0030】
第2シャッタースイッチ64は、シャッターボタン61の操作完了、いわゆる全押し(撮影指示)でONとなり、第2シャッタースイッチ信号SW2を発生する。システム制御部50は、第2シャッタースイッチ信号SW2により、撮像部22からの信号読み出しから撮像された画像を画像ファイルとして記録媒体200に書き込むまでの一連の撮影処理の動作を開始する。
【0031】
操作部70は、ユーザからの操作を受け付ける入力部としての各種操作部材である。上述したように、操作部70には、シャッターボタン61やタッチパネル70a、メイン電子ダイヤル71、サブ電子ダイヤル73、十字キー74、SETボタン75などが含まれる。また、動画ボタン76、音声入力ボタン77、拡大ボタン78、再生ボタン79、メニューボタン81なども操作部70に含まれる。
【0032】
電源制御部80は、電池検出回路、DC-DCコンバータ、通電するブロックを切り替えるスイッチ回路等により構成され、電池の装着の有無、電池の種類、電池残量を検出する。また、電源制御部80は、その検出結果及びシステム制御部50の指示に基づいてDC-DCコンバータを制御し、必要な電圧を必要な期間、記録媒体200を含む各部へ供給する。電源部30は、アルカリ電池やリチウム電池等の一次電池やNiCd電池やNiMH電池、Li電池等の二次電池、ACアダプター等を含む。
【0033】
記録媒体I/F18は、メモリカードやハードディスク等の記録媒体200とのインターフェースである。記録媒体200は、撮影された画像を記録するためのメモリカード等の記録媒体であり、半導体メモリや磁気ディスク等から構成される。
【0034】
通信部54は、例えば通信回路又は通信モジュールを含み、無線または有線ケーブルによって接続し、映像信号や音声信号の送受信を行う。通信部54は携帯電話用無線通信や無線LAN(Local Area Network)、インターネットとも接続可能である。また、通信部54は、Bluetooth(登録商標)やBluetooth(登録商標) Low Energyでも外部機器と通信可能である。通信部54は撮像部22で撮像した画像(ライブビュー画像を含む)や、記録媒体200に記録された画像を送信可能であり、また、外部機器から画像やその他の各種情報を受信することができる。
【0035】
姿勢検知部55は重力方向に対するデジタルカメラ100の姿勢を検知する。姿勢検知部55で検知された姿勢に基づいて、撮像部22で撮影された画像が、デジタルカメラ100を横に構えて撮影された画像であるか、縦に構えて撮影された画像であるかを判別可能である。システム制御部50は、姿勢検知部55で検知された姿勢に応じた向き情報を撮像部22で撮像された画像の画像ファイルに付加したり、画像を回転して記録したりすることが可能である。姿勢検知部55としては、加速度センサーやジャイロセンサーなどを用いることができる。姿勢検知部55である、加速度センサーやジャイロセンサーを用いて、デジタルカメラ100の動き(パン、チルト、持ち上げ、静止しているか否か等)を検知することも可能である。
【0036】
接眼検知部57はファインダーの接眼部16に対する目(物体)161の接近(接眼)および離脱(離眼)を検知する(接近検知)、接眼検知センサーである。システム制御部50は、接眼検知部57で検知された状態に応じて、表示部28とEVF29の表示(表示状態)/非表示(非表示状態)を切り替える。より具体的には、少なくともデジタルカメラ100が撮影待機状態、かつ、撮像部22で撮像されたライブビュー画像の表示先の切替設定が自動切替設定である場合において、非接眼中は表示先を表示部28として表示をオンとし、EVF29は非表示とする。また、接眼中は表示先をEVF29として表示をオンとし、表示部28は非表示とする。接眼検知部57は、例えば赤外線近接センサーを用いることができ、EVF29を内蔵するファインダーの接眼部16への何らかの物体の接近を検知することができる。物体が接近した場合は、接眼検知部57の投光部(不図示)から投光した赤外線が反射して赤外線近接センサーの受光部(不図示)に受光される。受光された赤外線の量によって、物体が接眼部16からどの距離まで近づいているか(接眼距離)も判別することができる。このように、接眼検知部57は、接眼部16への物体の近接距離を検知する接眼検知を行う。なお、本実施形態では接眼検知部57の投光部および受光部は前述の赤外発光ダイオード166および視線検知センサー164とは別体のデバイスであるものとする。ただし、接眼検知部57の投光部を赤外発光ダイオード166で兼ねてもよい。また、受光部を視線検知センサー164で兼ねてもよい。非接眼状態(非接近状態)から、接眼部16に対して所定距離以内に近づく物体が検出された場合に、接眼されたと検出するものとする。接眼状態(接近状態)から、接近を検知していた物体が所定距離以上離れた場合に、離眼されたと検出するものとする。接眼を検出する閾値と、離眼を検出する閾値は例えばヒステリシスを設けるなどして異なっていてもよい。また、接眼を検出した後は、離眼を検出するまでは接眼状態であるものとする。離眼を検出した後は、接眼を検出するまでは非接眼状態であるものとする。なお、赤外線近接センサーは一例であって、接眼検知部57には、接眼とみなせる目や物体の接近を検知できるものであれば他のセンサーを採用してもよい。
【0037】
システム制御部50は視線検出ブロック160からの出力に基づいて以下の操作、あるいは状態を検知できる。
・接眼部16に接眼したユーザの視線が新たに入力(検出)されたこと。すなわち、視線入力の開始。
・接眼部16に接眼したユーザの視線入力がある状態であること。
・接眼部16に接眼したユーザが注視している状態であること。
・接眼部16に接眼したユーザが入力していた視線を外したこと。すなわち、視線入力の終了。
・接眼部16に接眼したユーザが何も視線入力していない状態。
ここで述べた注視とは、ユーザの視線位置が所定時間内に所定の移動量を超えなかった場合のことを指す。
【0038】
タッチパネル70aと表示部28とは一体的に構成することができる。例えば、タッチパネル70aは光の透過率が表示部28の表示を妨げないように構成され、表示部28の表示面の上層に取り付けられる。そして、タッチパネル70aにおける入力座標と、表示部28の表示画面上の表示座標とを対応付ける。これにより、あたかもユーザが表示部28上に表示された画面を直接的に操作可能であるかのようなGUI(グラフィカルユーザインターフェース)を提供できる。システム制御部50はタッチパネル70aへの以下の操作、あるいは状態を検出できる。
・タッチパネル70aにタッチしていなかった指やペンが新たにタッチパネル70aにタッチしたこと。すなわち、タッチの開始(以下、タッチダウン(Touch-Down)と称する)。
・タッチパネル70aを指やペンでタッチしている状態であること(以下、タッチオン(Touch-On)と称する)。
・タッチパネル70aを指やペンでタッチしたまま移動していること(以下、タッチムーブ(Touch-Move)と称する)。
・タッチパネル70aへタッチしていた指やペンを離したこと。すなわち、タッチの終了(以下、タッチアップ(Touch-Up)と称する)。
・タッチパネル70aに何もタッチしていない状態(以下、タッチオフ(Touch-Off)と称する)。
【0039】
タッチダウンが検出されると、同時にタッチオンであることも検出される。タッチダウンの後、タッチアップが検出されない限りは、通常はタッチオンが検出され続ける。タッチムーブが検出されるのもタッチオンが検出されている状態である。タッチオンが検出されていても、タッチ位置が移動していなければタッチムーブは検出されない。タッチしていた全ての指やペンがタッチアップしたことが検出された後は、タッチオフとなる。
【0040】
これらの操作・状態や、タッチパネル70a上に指やペンがタッチしている位置座標は内部バスを通じてシステム制御部50に通知される。システム制御部50は通知された情報に基づいてタッチパネル70a上にどのような操作(タッチ操作)が行なわれたかを判定する。タッチムーブについてはタッチパネル70a上で移動する指やペンの移動方向についても、位置座標の変化に基づいて、タッチパネル70a上の垂直成分・水平成分毎に判定できる。所定距離以上をタッチムーブしたことが検出された場合はスライド操作が行なわれたと判定するものとする。タッチパネル上に指をタッチしたままある程度の距離だけ素早く動かして、そのまま離すといった操作をフリックと呼ぶ。フリックは、言い換えればタッチパネル70a上を指ではじくように素早くなぞる操作である。所定距離以上を、所定速度以上でタッチムーブしたことが検出され、そのままタッチアップが検出されるとフリックが行なわれたと判定できる(スライド操作に続いてフリックがあったものと判定できる)。更に、複数箇所(例えば2点)を同時にタッチして、互いのタッチ位置を近づけるタッチ操作をピンチイン、互いのタッチ位置を遠ざけるタッチ操作をピンチアウトと称する。ピンチアウトとピンチインを総称してピンチ操作(あるいは単にピンチ)と称する。タッチパネル70aは、抵抗膜方式や静電容量方式、表面弾性波方式、赤外線方式、電磁誘導方式、画像認識方式、光センサー方式等、様々な方式のタッチパネルのうちいずれの方式のものを用いても良い。方式によって、タッチパネルに対する接触があったことでタッチがあったと検出する方式や、タッチパネルに対する指やペンの接近があったことでタッチがあったと検出する方式があるが、いずれの方式でもよい。
【0041】
音声入力部85は、不図示のマイクロフォンを含み、デジタルカメラの周囲の音や後述ユーザからの音声命令を取得する処理を行う。また、デジタルカメラ本体に限らず、有線または無線通信を介してデジタルカメラ(ネットワークカメラを含む)と通信し、デジタルカメラを遠隔で制御する制御装置にも本発明を適用可能である。デジタルカメラを遠隔で制御する装置としては、例えば、スマートフォンやタブレットPC、デスクトップPCなどの装置がある。制御装置側で行われた操作や制御装置側で行われた処理に基づいて、制御装置側からデジタルカメラに各種動作や設定を行わせるコマンドを通知することにより、デジタルカメラを遠隔から制御可能である。また、デジタルカメラで撮影したライブビュー画像を有線または無線通信を介して受信して制御装置側で表示できるようにしてもよい。
【0042】
(メイン処理の一連の動作)
次に、本実施形態に係るメイン処理について図3を参照して説明する。メイン処理の動作は、EVF29を内蔵するファインダーへの近接を検知し、音声操作が完了するまでの動作である。なお、メイン処理の各処理は、システム制御部50が不揮発性メモリ56に格納されたプログラムをシステムメモリ52に展開して実行することにより実現される。ウェイクワードは、デジタルカメラ100に対する音声による操作を有効にするための特定の音声命令である。
【0043】
S301において、システム制御部50は、EVF29を内蔵するファインダーへの近接が検知されたかどうかを判定する。システム制御部50は、例えば接眼検知部57からの信号に基づいて、EVF29を内蔵するファインダーへの物体の近接が検知されたと判定した場合はS302へ進み、ファインダーへの近接が検知されなかったと判定した場合はS303へ進む。
【0044】
S302において、システム制御部50は、視線検出ブロック160によってユーザの視線を検知したかどうかを判定する。システム制御部50は、視線検出ブロック160からの信号に基づきユーザの視線を検知したと判定した場合はS306へ進み、ユーザの視線を検知していないと判定した場合はS303へ進む。
【0045】
S303において、システム制御部50は、モニター表示部28に画像情報の表示出力先を切り替える。なお、システム制御部50は、モニター表示部28に表示出力先を切り替えるのではなくモニター表示部28を点灯させる処理を実行(すなわちモニター表示部28の点灯状態を制御する)してもよい。このようにすればEVF29を内蔵してない光学ファインダーを覗きながら撮影するときに、離眼するだけでモニターの情報を確認することができる。
【0046】
S304において、システム制御部50は、デジタルカメラ100の状態をウェイクワード非省略状態に変更し、デジタルカメラの状態情報をメモリ32(システムメモリ52であってよい。以下同様。)に記憶させる。システム制御部50は、デジタルカメラ100の状態情報に基づいて、デジタルカメラ100がウェイクワード省略状態であるかを判定する。以下に説明するように、原則として、デジタルカメラ100は、入力された音声命令がウェイクワードである場合に、音声命令有効状態となり、その後に受信した音声命令に対応する処理を実行する。しかし、ウェイクワード省略状態では、ウェイクワードを受信することなく(すなわち、ウェイクワードの受信を省略して)はじめに受信した音声命令により、音声命令に対応する処理を実行することができる。つまり、ウェイクワード省略状態を設けることにより、音声操作を行う際に迅速な操作を可能にする。
【0047】
また、ウェイクワード非省略状態とは、ユーザがウェイクワードを入力してからでないと音声命令により音声操作を行うことができない状態である。ウェイクワード非省略状態は、ウェイクワードを受け付けて音声操作が有効になっている音声命令有効状態と、ウェイクワードを受け付けておらず音声操作が無効になっている音声命令無効状態とのサブ状態を有している。
【0048】
S305において、システム制御部50は、デジタルカメラ100の状態を詳細音声モードに変更し、当該デジタルカメラ100の状態情報をメモリ32に記憶させる。詳細音声モードは、対応している音声命令の種類が豊富な音声処理エンジンを利用したり、精度の高いクラウド上のサーバで音声処理させたりするなど、処理時間の長い音声を処理する動作モードである。
【0049】
S306において、(S302においてユーザの視線を検知すると)システム制御部50は、EVF29を内蔵するファインダー表示に画像情報の表示出力先を切り替える。なお、システム制御部50は、ファインダー表示に切り替えるのではなくモニター画面を消灯させる処理を実行してもよい。これによりEVF29を内蔵してない光学ファインダーを覗きながら撮影するときにモニター表示部28が光って眩しいという課題を解決できる効果がある。
【0050】
S307において、システム制御部50は、デジタルカメラ100の状態をウェイクワード省略状態に変更し、当該デジタルカメラ100の状態情報をメモリ32に記憶させる。S308において、システム制御部50は、ウェイクワード省略中を示す画面を、EVF29を内蔵するファインダーに表示する。例えば、図4(a)はウェイクワード省略中を示す音声操作可能な画面の一例であり、ガイダンス401はウェイクワード省略状態を示すガイダンスである。なお、この例では、ウェイクワード省略状態を示す表示例としてガイダンスを表示する場合を例に説明しているが、アイコンを表示してもよい。
【0051】
このように、システム制御部50は、デジタルカメラ100が、ウェイクワードが入力されていない場合であっても、音声命令が入力されると当該音声命令に対応する処理を実行する状態であることをファインダーに表示させるように表示制御を行う。
【0052】
S309において、システム制御部50は、デジタルカメラ100の状態を簡易音声モードに変更し、デジタルカメラ100の状態情報をメモリ32に記憶させる。簡易音声モードは、対応している音声命令の種類が少ない音声処理エンジンを利用したり、クラウドより比較的精度の低い本体内で音声処理させたりするなど、処理時間の短い音声を処理する動作モードである。
【0053】
S310において、システム制御部50は、音声入力部85を構成するマイクロフォンの感度を(ユーザが近接していない状態における感度よりも)低下させる。この動作では、マイクロフォンの感度を下げることによって一般に音声を拾いづらくなるものの、本ステップの状態では、ユーザがファインダーを覗いているためにデジタルカメラ100の本体に近接している。このためマイクロフォンの感度を下げてもユーザの音声命令の入力において問題は生じ難い。他方、マイクロフォンの感度を下げることでユーザ以外から発せられた意図しない音声による誤操作を低減することができる。このように、本実施形態に係るメイン処理では、ファインダーへの接近検知によりデジタルカメラ100への近接が検知されているか否かに応じて、モニタ表示とファインダー表示で表示出力先を切り替える。
【0054】
S311において、システム制御部50は、ユーザからの音声命令を音声入力部85から受信したかを判定する。システム制御部50は、音声入力部85からの信号に基づいてユーザからの音声命令から音声入力部85で受信したと判定した場合はS312へ進み、ユーザからの音声命令を受信していないと判定した場合はS320へ進む。
【0055】
S312において、システム制御部50は、デジタルカメラ100がウェイクワード省略状態であるかを判定する。システム制御部50は、例えば、メモリ32に記憶されているデジタルカメラ100の状態情報に基づいて、デジタルカメラ100がウェイクワード省略状態であるかを判定する。システム制御部50は、デジタルカメラ100の状態がウェイクワード省略状態であると判定した場合はS313へ進み、ウェイクワード省略状態でないと判定した場合はS316へ進む。
【0056】
S313において、システム制御部50は、音声入力ボタン77の押下状態を取得し、デジタルカメラ100の状態情報をメモリ32に記憶させる。S314において、システム制御部50は、メモリ32に記憶されているデジタルカメラ100の状態情報に基づいて、音声入力ボタン77が押下中の状態かを判定する。音声入力ボタン77は、音声入力部85による音声の入力を有効化する。音声入力ボタン77が押下中の状態であると判定した場合はS315へ進み、音声入力ボタン77が押下中でない場合はS323へ進む。
【0057】
S315において、システム制御部50は、ユーザから入力された音声命令に従って、音声命令処理を実行する。音声命令処理には、例えば、ユーザからの音声命令に従って静止画や動画の撮影を行う処理が含まれる。或いは、音声命令と対応する「シャッター速度(Tv値)や絞り値(Av値)の設定値を確認」するための画面を表示させたり、音声命令に従って当該音声命令と対応する「ヘルプガイダンスや写真のページ送り」を実行する処理などが含まれてよい。
【0058】
S316において、システム制御部50は、音声命令による操作が有効である状態(音声命令有効状態)であるかを判定する。システム制御部50は、例えば、メモリ32に記憶されているデジタルカメラ100の状態情報に基づいて、デジタルカメラ100の状態がウェイクワード非省略状態の音声命令有効状態であると判定した場合にはS313へ進む。一方、システム制御部50は、デジタルカメラ100の状態がウェイクワード非省略状態の音声命令有効状態でない場合はS317へ進む。
【0059】
S317において、システム制御部50は、受信した音声命令が予め定められたウェイクワードであるかどうかを判定する。受信した音声命令が予め定められたウェイクワード(すなわち音声操作を有効にするための特定の音声命令)と一致する等により音声命令がウェイクワードであると判定した場合S318へ進む。一方、システム制御部50は、受信した音声命令がウェイクワードでないと判定した場合にはS323へ進む。
【0060】
S318において、システム制御部50は、一定時間にわたって、デジタルカメラ100を、音声命令による操作が有効である状態(すなわち音声命令有効状態)に設定する。このとき、システム制御部50は、当該状態をメモリ32のデジタルカメラ100の状態情報に記憶させて、音声命令有効状態の継続時間をタイマーで計時する。
【0061】
S319において、システム制御部50は、例えば、図4(b)に示す音声命令有効状態画面を表示部28に表示させる。図4(b)に示す例では、音声操作が可能な画面に、デジタルカメラ100の状態が音声命令有効状態であることを示すガイダンス402を表示している。なお、図4(b)に示す例では、ガイダンスを表示する場合を例に説明しているが、同様の状態を所定のアイコンで示してもよい。
【0062】
S320において、システム制御部50は、デジタルカメラ100の状態が音声命令有効状態に変わってから一定時間だけ経過したかを判定する。システム制御部50は、例えばタイマーの計時時刻に基づいて、音声命令有効状態に変化してから一定時間だけ経過したと判定した場合はS321へ進み、音声命令有効状態に変わってから一定時間経過していない場合はS323へ進む。
【0063】
S321において、システム制御部50は、デジタルカメラ100の状態を、音声命令による操作が無効となる状態(音声命令無効状態)に設定して、当該状態をメモリ32のデジタルカメラ100の状態情報に記憶させる。S322において、システム制御部50は、例えば、図4(c)に示す音声命令無効状態画面を表示部28に表示する。図4(c)に示す例では、音声操作が可能な画面に、デジタルカメラ100の状態が音声命令無効状態であることを示すガイダンス403を表示している。なお、図4(c)に示す例では、ガイダンスを示す場合を例に説明しているが、同様の状態を所定のアイコンで示してもよい。
【0064】
このように、システム制御部50は、デジタルカメラ100の状態を音声命令有効状態に変更してから一定時間の間に音声命令が受信された場合には、当該音声命令に対応する処理を実行する。一方、デジタルカメラ100の状態を音声命令有効状態に変更してから一定時間の間に音声命令が受信されない場合には、デジタルカメラ100の状態を音声命令無効状態に再び戻して、音声命令に基づいて誤動作しないように音声命令を処理しない。
【0065】
S323において、システム制御部50は、電源スイッチ72を電源オフされたなどメイン処理終了指示が行われたかを判定する。メイン処理終了指示が行われたと判定した場合はメイン処理を終了し、メイン処理終了指示が行われていないと判定した場合はS301へ処理を戻す。なお、上述の動作の中でモードダイヤルなどを回されるなどの異常系操作が行われた場合、システム制御部50は、メイン処理の一連の動作を途中で中断してもよい。
【0066】
以上説明したように、本発明によれば、(ユーザによる)デジタルカメラへの近接を近接センサーが検出していない場合はウェイクワードを伝えることで音声操作を開始するようにした。このため、ユーザはデジタルカメラ100に近接しなくても離れて操作を行うことができるため、容易な音声操作を実現することができる。他方、デジタルカメラへの近接を近接センサーが検知している場合にはウェイクワードを省略することで、即座に音声操作を開始でき、音声操作を行う際に迅速な操作を可能にすることができる。
【0067】
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0068】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【符号の説明】
【0069】
22…撮像部、28…表示部、29…EVF、50…システム制御部、70…操作部、85…音声入力部、77…音声入力ボタン、160…視線検出ブロック
図1
図2
図3
図4