IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7482640音声入力装置およびその制御方法ならびにプログラム
<>
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図1
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図2
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図3
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図4
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図5
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図6
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図7
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図8
  • 特許-音声入力装置およびその制御方法ならびにプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-02
(45)【発行日】2024-05-14
(54)【発明の名称】音声入力装置およびその制御方法ならびにプログラム
(51)【国際特許分類】
   G10L 15/28 20130101AFI20240507BHJP
   G10L 15/10 20060101ALI20240507BHJP
【FI】
G10L15/28 230K
G10L15/10 200W
【請求項の数】 10
(21)【出願番号】P 2020018210
(22)【出願日】2020-02-05
(65)【公開番号】P2021124613
(43)【公開日】2021-08-30
【審査請求日】2023-01-31
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】植野 大優
【審査官】中村 天真
(56)【参考文献】
【文献】国際公開第2019/239656(WO,A1)
【文献】特開2021-086510(JP,A)
【文献】特開2019-040602(JP,A)
【文献】特開2014-006306(JP,A)
【文献】米国特許出願公開第2017/0154176(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
音声入力装置であって、
音声を入力する音声入力手段と、
前記音声入力装置に第1の音声命令が入力された後の所定の期間に、前記音声入力装置を操作するための第2の音声命令が入力された場合に、前記第2の音声命令に対応する処理を実行する制御手段とを有し、
前記制御手段は、前記第1の音声命令に応じて、前記所定の期間の長さを異ならせ
前記第1の音声命令は、前記音声入力装置に対する音声による操作を有効にするためのウェイクワードであって前記所定の期間を通常の長さを表す第1の長さにする第1のウェイクワードと、前記音声入力装置に対する音声による操作を有効にするためのウェイクワードであって前記所定の期間を前記通常の長さより長くする第2のウェイクワードとを含む、ことを特徴とする音声入力装置。
【請求項2】
前記第1の音声命令は、前記音声入力装置を操作するための音声命令と、前記音声入力装置に対する音声による操作を有効にするための音声命令とを含む、ことを特徴とする請求項1に記載の音声入力装置。
【請求項3】
前記第1の音声命令に含まれる異なる音声命令に対してユーザが異なる前記所定の期間を設定可能である手動設定手段を更に有する、ことを特徴とする請求項1または2に記載の音声入力装置。
【請求項4】
前記第1の音声命令に含まれる異なる音声命令に対して、過去の音声命令の履歴に基づいて異なる前記所定の期間を設定可能な自動設定手段を更に有する、ことを特徴とする請求項1または2に記載の音声入力装置。
【請求項5】
前記過去の音声命令の履歴は、複数の音声命令の間の入力間隔を含む、ことを特徴とする請求項に記載の音声入力装置。
【請求項6】
前記制御手段は、前記第2の音声命令が入力されたときに、前記音声入力装置が、入力された前記第2の音声命令に対応する状態である場合には、前記第2の音声命令に対応する処理を実行し、入力された前記第2の音声命令に対応する状態でない場合には、前記第2の音声命令に対応する処理を実行しない、ことを特徴とする請求項1からのいずれか1項に記載の音声入力装置。
【請求項7】
前記第2の音声命令に対応する状態は、前記音声入力装置の動作モードを含む、ことを特徴とする請求項に記載の音声入力装置。
【請求項8】
前記音声入力装置の動作モードは、前記音声入力装置の表示手段にコンテンツを表示させるモード、又は、前記音声入力装置の表示手段に前記音声入力装置の設定値を表示させるモードを含む、ことを特徴とする請求項に記載の音声入力装置。
【請求項9】
音声を入力する音声入力手段を備える音声入力装置の制御方法であって、
前記音声入力装置に第1の音声命令が入力された後の所定の期間に、前記音声入力装置を操作するための第2の音声命令が入力された場合に、前記第2の音声命令に対応する処理を実行する制御工程を有し、
前記制御工程では、前記第1の音声命令に応じて、前記所定の期間の長さを異ならせ
前記第1の音声命令は、前記音声入力装置に対する音声による操作を有効にするためのウェイクワードであって前記所定の期間を通常の長さを表す第1の長さにする第1のウェイクワードと、前記音声入力装置に対する音声による操作を有効にするためのウェイクワードであって前記所定の期間を前記通常の長さより長くする第2のウェイクワードとを含む、ことを特徴とする音声入力装置の制御方法。
【請求項10】
コンピュータを、請求項1からのいずれか1項に記載の音声入力装置の各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声入力装置およびその制御方法ならびにプログラムに関する。
【背景技術】
【0002】
近年、発話された音声入力を認識して、音声入力に対応した操作を行うことができる音声操作機能を備える装置が知られている。音声操作機能により、例えば、閲覧する所望のページを表示させる操作や、装置の現在の設定値を変更する操作、天気や気温を表示させる操作、特定の相手に電話をかけたり、メールの文章を入力したりする操作を音声を使って行うことができる。音声操作機能には、自然な発話で操作を行うことができるといった利点がある一方で、意図しない音声に装置が反応し、誤動作が発生する場合がある。
【0003】
特許文献1では、音声操作可能な装置がウェイクワードという音声操作を有効にするための特定の音声コマンドを受け付け、ウェイクワードから所定期間にのみ音声操作を受け付けることにより誤動作の発生を低減させる技術を提案している。また、特許文献2では、複数の制御対象機器を操作するために、部材操作が行われた期間に応じて音声入力の受付期間を変動させ、当該受付期間に受け付けた音声入力を有効にする技術を提案している。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2019-86535号公報
【文献】特開2002-351493号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1で提案された技術では、音声操作を有効にする期間が予め定められた固定期間であり、操作対象の機能によっては音声操作の有効な期間が短すぎて適切な操作指示を与えられない場合や、有効な期間が長すぎて意図しない音声が入力される場合がある。例えば、所望のページを表示させる操作では、前の音声操作と次の音声操作の間には文章に目を通す作業が挟まるため、前の音声操作から比較的長い期間が空いてから次の音声操作が発生されることが推測される。この場合、音声操作を有効にする期間が短すぎるとユーザの操作性を低下させることが考えられる。一方、天気や設定値を確認したり変更する音声操作では、気温や設定値を確認する操作の後に、気温や設定値を変更する次の音声操作が比較的短い期間内に連続的に行われることが推測される。この場合、音声操作の有効な期間は短くてよく、長すぎると意図しない音声を拾って誤動作が発生する可能性がある。
【0006】
また、特許文献2で提案された技術では、部材操作が行われた期間に応じて音声入力の受付期間を変動させることを提案するにすぎず、入力された音声命令に応じて音声操作の操作性を向上させることについては考慮していなかった。
【0007】
本発明は、上記課題に鑑みてなされ、その目的は、入力された音声命令に応じて音声操作の操作性を向上させることが可能な技術を実現することである。
【課題を解決するための手段】
【0008】
この課題を解決するため、例えば本発明の音声入力装置は以下の構成を備える。すなわち、音声入力装置であって、音声を入力する音声入力手段と、前記音声入力装置に第1の音声命令が入力された後の所定の期間に、前記音声入力装置を操作するための第2の音声命令が入力された場合に、前記第2の音声命令に対応する処理を実行する制御手段とを有し、前記制御手段は、前記第1の音声命令に応じて、前記所定の期間の長さを異ならせ
前記第1の音声命令は、前記音声入力装置に対する音声による操作を有効にするためのウェイクワードであって前記所定の期間を通常の長さを表す第1の長さにする第1のウェイクワードと、前記音声入力装置に対する音声による操作を有効にするためのウェイクワードであって前記所定の期間を前記通常の長さより長くする第2のウェイクワードとを含む、ことを特徴とする。
【発明の効果】
【0009】
本発明によれば、入力された音声命令に応じて音声操作の操作性を向上させることが可能になる。
【図面の簡単な説明】
【0010】
図1】本実施形態に係る音声入力装置の一例としてのデジタルカメラの外観を示す図
図2】本実施形態に係るデジタルカメラの機能構成例を示すブロック図
図3】本実施形態に係るメイン処理の一連の動作を示すフローチャート
図4】本実施形態における音声受付期間設定画面の非設定状態と設定状態の一例を示す図
図5】本実施形態における参照されるテーブルの一例を示す図
図6】本実施形態に係る音声命令処理の一連の動作を示すフローチャート
図7】本実施形態における音声命令認識処理の一連の動作を示すフローチャート
図8】本実施形態におけるヘルプガイド画面の先頭ページ、途中ページ、末尾ページの一例を示す図
図9】本実施形態における写真の再生画面の一例を示す図
【発明を実施するための形態】
【0011】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0012】
以下では音声入力装置の一例として、音声認識を用いた操作が可能なデジタルカメラを用いる例を説明する。しかし、本実施形態は、デジタルカメラに限らず、音声認識を用いた操作の可能な他の機器にも適用可能である。これらの機器には、例えば、スマートフォン、パーソナルコンピュータ、ゲーム機、タブレット端末、音楽プレーヤ、医療機器などが含まれてよい。
【0013】
(デジタルカメラの構成)
図1(a)及び図1(b)は、本実施形態に係る音声入力装置の一例としてのデジタルカメラ100の外観図を示している。図1(a)はデジタルカメラ100の前面斜視図であり、図1(b)はデジタルカメラ100の背面斜視図である。表示部28は画像や各種情報を表示する、カメラ背面に設けられた表示部である。タッチパネル70aは、表示部28の表示面(操作面)に対するタッチ操作を検出することができる。ファインダー外表示部43は、カメラ上面に設けられた表示部であり、シャッター速度や絞りをはじめとするカメラの様々な設定値が表示される。シャッターボタン61は撮影指示を行うための操作部である。モード切替スイッチ60は各種モードを切り替えるための操作部である。端子カバー40は外部機器との接続ケーブルとデジタルカメラ100とを接続するコネクタ(不図示)を保護するカバーである。
【0014】
メイン電子ダイヤル71は操作部70に含まれる回転操作部材であり、このメイン電子ダイヤル71を回すことで、シャッター速度や絞りなどの設定値の変更等が可能である。電源スイッチ72は、デジタルカメラ100の電源のON及びOFFを切り替える操作部材である。サブ電子ダイヤル73は操作部70に含まれる回転操作部材であり、選択枠の移動や画像送りなどを行うことができる。十字キー74は操作部70に含まれ、4方向に押し込み可能な押しボタンを有する操作部材である。十字キー74の押下した方向に応じた操作が可能である。SETボタン75は操作部70に含まれ、押しボタンであり、主に選択項目の決定などに用いられる。動画ボタン76は、動画撮影(記録)の開始、停止の指示に用いられる。音声入力ボタン77は、デジタルカメラ100の設定に応じて、当該ボタンを押下している時だけ音声による操作有効にするように制限することができるボタンである。但し、以下の説明では、音声入力ボタン77の押下の有無にかかわらず、音声を入力することができる設定値が設定されており、音声操作に応じて各種処理が動作する場合を例に説明する。拡大ボタン78は操作部70に含まれ、撮影モードのライブビュー表示において拡大モードのON、OFFを行うための操作ボタンである。拡大モードをONとしてからメイン電子ダイヤル71を操作することにより、ライブビュー画像の拡大、縮小を行える。再生モードにおいては再生画像を拡大し、拡大率を増加させるための拡大ボタンとして機能する。再生ボタン79は操作部70に含まれ、撮影モードと再生モードとを切り替える操作ボタンである。撮影モード中に再生ボタン79を押下することで再生モードに移行し、記録媒体200に記録された画像のうち最新の画像を表示部28に表示させることができる。メニューボタン81は、操作部70に含まれ、押下することにより各種の設定可能なメニュー画面が表示部28に表示される。ユーザは、表示部28に表示されたメニュー画面と、十字キー74やSETボタン75を用いて各種設定を行うことができる。
【0015】
通信端子10はデジタルカメラ100が後述するレンズユニット150(着脱可能)と通信を行う為の通信端子である。接眼部16は、接眼ファインダー(覗き込み型のファインダー)の接眼部であり、ユーザは、接眼部16を介して内部のEVF(Electric View Finder)29に表示された映像を視認することができる。接眼検知部57は接眼部16に撮影者が接眼しているか否かを検知する接眼検知センサーである。
【0016】
蓋202は記録媒体200を格納するスロットの蓋である。グリップ部90は、ユーザがデジタルカメラ100を構えた際に右手で握りやすい形状とした保持部である。グリップ部90を右手の小指、薬指、中指で握ってデジタルカメラ100を保持した状態で、右手の人差指で操作可能な位置にシャッターボタン61、メイン電子ダイヤル71が配置されている。また、同じ状態で、右手の親指で操作可能な位置に、サブ電子ダイヤル73が配置されている。
【0017】
次に、図2を参照して、本実施形態によるデジタルカメラ100の機能構成例について説明する。図2において、レンズユニット150は、交換可能な撮影レンズを搭載するレンズユニットである。レンズ103は通常、複数枚のレンズから構成されるが、ここでは簡略化して一枚のレンズのみで示している。通信端子6はレンズユニット150がデジタルカメラ100と通信を行う為の通信端子である。レンズユニット150は、この通信端子6と前述の通信端子10を介してシステム制御部50と通信し、内部のレンズシステム制御回路4によって絞り駆動回路2を介して絞り1の制御を行う。その後AF駆動回路3を介して、レンズ103を変位させることで焦点を合わせる。
【0018】
シャッター101は、システム制御部50の制御で撮像部22の露光時間を自由に制御できるフォーカルプレーンシャッターである。
【0019】
撮像部22は光学像を電気信号に変換するCCDやCMOS素子等で構成される撮像素子である。A/D変換器23は、撮像部22から出力されるアナログ信号をデジタル信号に変換するために用いられる。
【0020】
画像処理部24は、A/D変換器23からのデータ、または、後述するメモリ制御部15からのデータに対し所定の画素補間、縮小などのリサイズ処理、及び色変換処理を行う。また、画像処理部24では、撮像した画像データを用いて所定の演算処理を行う。画像処理部24により得られた演算結果に基づいてシステム制御部50が露光制御、測距制御を行う。これにより、TTL(スルー・ザ・レンズ)方式のAF(オートフォーカス)処理、AE(自動露出)処理、EF(フラッシュプリ発光)処理が行われる。画像処理部24では更に、撮像した画像データを用いて所定の演算処理を行い、得られた演算結果に基づいてTTL方式のAWB(オートホワイトバランス)処理を行う。
【0021】
メモリ制御部15は、A/D変換器23、画像処理部24、メモリ32間のデータ送受を制御する。A/D変換器23からの出力データは、画像処理部24およびメモリ制御部15を介して、あるいは、メモリ制御部15を介してメモリ32に直接書き込まれる。メモリ32は、撮像部22によって得られA/D変換器23によりデジタルデータに変換された画像データや、表示部28、EVF29に表示するための画像データを格納する。メモリ32は、所定枚数の静止画像や所定時間の動画像および音声を格納するのに十分な記憶容量を備えている。
【0022】
また、メモリ32は画像表示用のメモリ(ビデオメモリ)を兼ねている。メモリ32に書き込まれた表示用の画像データはメモリ制御部15を介して表示部28、EVF29により表示される。表示部28、EVF29は、LCDや有機EL等の表示器上に、メモリ制御部15からの信号に応じた表示を行う。A/D変換器23によってA/D変換されメモリ32に蓄積されたデータを、表示部28またはEVF29に逐次転送して表示することで、ライブビュー表示(LV表示)を行える。以下、ライブビューで表示される画像をライブビュー画像(LV画像)と称する。
【0023】
赤外発光ダイオード166は、ファインダー画面内におけるユーザの視線位置を検出するための発光素子であり、接眼部16に接眼したユーザの眼球(目)161に赤外光を照射する。赤外発光ダイオード166から発した赤外光は眼球(目)161で反射し、その赤外反射光はダイクロイックミラー162に到達する。ダイクロイックミラー162は赤外光だけを反射して可視光を透過させる。光路を変更された赤外反射光は、結像レンズ163を介して視線検知センサー164の撮像面に結像する。結像レンズ163は視線検知光学系を構成する光学部材である。視線検知センサー164は、CCD型イメージセンサ等の撮像デバイスから成る。
【0024】
視線検知センサー164は、入射された赤外反射光を電気信号に光電変換して視線検出回路165へ出力する。視線検出回路165は少なくとも1つのプロセッサを含み、視線検知センサー164の出力信号に基づき、ユーザの眼球(目)161の画像または動きからユーザの視線位置を検出し、検出情報をシステム制御部50に出力する。このようにダイクロイックミラー162、結像レンズ163、視線検知センサー164、赤外発光ダイオード166、視線検出回路165により視線検出ブロック160が構成される。視線検出ブロック160では、例えば、角膜反射法と呼ばれる方式で視線を検出する。角膜反射法とは、赤外発光ダイオード166から発した赤外光が眼球(目)161の特に角膜で反射した反射光と、眼球(目)161の瞳孔との位置関係から、視線の向き・位置を検出する方式である。この他にも黒目と白目での光の反射率が異なることを利用する強膜反射法と呼ばれる方式など、様々な視線の向き・位置を検出する方式がある。なお、視線の向き・位置を検出できる方式であれば、上記以外の視線検出手段の方式を用いてもよい。
【0025】
ファインダー外表示部43には、ファインダー外表示部駆動回路44を介して、シャッター速度や絞りをはじめとするデジタルカメラ100の様々な設定値が表示される。
【0026】
不揮発性メモリ56は、電気的に消去・記録可能なメモリであり、例えばFlash-ROM等が用いられる。不揮発性メモリ56には、システム制御部50の動作用の定数、プログラム等が記憶される。ここでいう、プログラムとは、本実施形態にて後述する各種フローチャートを実行するためのコンピュータープログラムのことである。
【0027】
システム制御部50は、1つ以上のプロセッサを含み、デジタルカメラ100全体を制御する。システム制御部50は、不揮発性メモリ56に記録されたプログラムをシステムメモリ52に展開、実行することで、後述する本実施形態の各処理を実現する。システムメモリ52には、例えばRAMが用いられ、システム制御部50の動作用の定数、変数、不揮発性メモリ56から読み出したプログラム等が展開される。また、システム制御部50はメモリ32、表示部28等を制御することにより表示制御も行う。
【0028】
システムタイマー53は各種制御に用いる時間や、内蔵された時計の時間を計測する計時部である。モード切替スイッチ60、第1シャッタースイッチ62、第2シャッタースイッチ64、操作部70はシステム制御部50に各種の動作指示を入力するための操作手段である。モード切替スイッチ60は、システム制御部50の動作モードを静止画撮影モード、動画撮影モード等のいずれかに切り替える。静止画撮影モードに含まれるモードとして、オート撮影モード、オートシーン判別モード、マニュアルモード、絞り優先モード(Avモード)、シャッター速度優先モード(Tvモード)、プログラムAEモード(Pモード)、がある。また、撮影シーン別の撮影設定となる各種シーンモード、カスタムモード等がある。モード切替スイッチ60により、ユーザは、これらのモードのいずれかに直接切り替えることができる。あるいは、モード切替スイッチ60で撮影モードの一覧画面に一旦切り換えた後に、表示された複数のモードのいずれかを選択し、他の操作部材を用いて切り替えるようにしてもよい。同様に、動画撮影モードにも複数のモードが含まれていてもよい。
【0029】
第1シャッタースイッチ62は、デジタルカメラ100に設けられたシャッターボタン61の操作途中、いわゆる半押し(撮影準備指示)でONとなり第1シャッタースイッチ信号SW1を発生する。第1シャッタースイッチ信号SW1により、AF(オートフォーカス)処理、AE(自動露出)処理、AWB(オートホワイトバランス)処理、EF(フラッシュプリ発光)処理等の撮影準備動作を開始する。
【0030】
第2シャッタースイッチ64は、シャッターボタン61の操作完了、いわゆる全押し(撮影指示)でONとなり、第2シャッタースイッチ信号SW2を発生する。システム制御部50は、第2シャッタースイッチ信号SW2により、撮像部22からの信号読み出しから撮像された画像を画像ファイルとして記録媒体200に書き込むまでの一連の撮影処理の動作を開始する。
【0031】
操作部70は、ユーザからの操作を受け付ける入力部としての各種操作部材である。上述したように、操作部70には、シャッターボタン61やタッチパネル70a、メイン電子ダイヤル71、サブ電子ダイヤル73、十字キー74、SETボタン75などが含まれる。また、動画ボタン76、音声入力ボタン77、拡大ボタン78、再生ボタン79、メニューボタン81なども操作部70に含まれる。
【0032】
電源制御部80は、電池検出回路、DC-DCコンバータ、通電するブロックを切り替えるスイッチ回路等により構成され、電池の装着の有無、電池の種類、電池残量を検出する。また、電源制御部80は、その検出結果及びシステム制御部50の指示に基づいてDC-DCコンバータを制御し、必要な電圧を必要な期間、記録媒体200を含む各部へ供給する。電源部30は、アルカリ電池やリチウム電池等の一次電池やNiCd電池やNiMH電池、Li電池等の二次電池、ACアダプター等を含む。
【0033】
記録媒体I/F18は、メモリカードやハードディスク等の記録媒体200とのインターフェースである。記録媒体200は、撮影された画像を記録するためのメモリカード等の記録媒体であり、半導体メモリや磁気ディスク等から構成される。
【0034】
通信部54は、例えば通信回路又は通信モジュールを含み、無線または有線ケーブルによって接続し、映像信号や音声信号の送受信を行う。通信部54は携帯電話用無線通信や無線LAN(Local Area Network)、インターネットとも接続可能である。また、通信部54は、Bluetooth(登録商標)やBluetooth(登録商標) Low Energyでも外部機器と通信可能である。通信部54は撮像部22で撮像した画像(ライブビュー画像を含む)や、記録媒体200に記録された画像を送信可能であり、また、外部機器から画像やその他の各種情報を受信することができる。
【0035】
姿勢検知部55は重力方向に対するデジタルカメラ100の姿勢を検知する。姿勢検知部55で検知された姿勢に基づいて、撮像部22で撮影された画像が、デジタルカメラ100を横に構えて撮影された画像であるか、縦に構えて撮影された画像であるかを判別可能である。システム制御部50は、姿勢検知部55で検知された姿勢に応じた向き情報を撮像部22で撮像された画像の画像ファイルに付加したり、画像を回転して記録したりすることが可能である。姿勢検知部55としては、加速度センサーやジャイロセンサーなどを用いることができる。姿勢検知部55である、加速度センサーやジャイロセンサーを用いて、デジタルカメラ100の動き(パン、チルト、持ち上げ、静止しているか否か等)を検知することも可能である。
【0036】
接眼検知部57はファインダーの接眼部16に対する目(物体)161の接近(接眼)および離脱(離眼)を検知する(接近検知)、接眼検知センサーである。システム制御部50は、接眼検知部57で検知された状態に応じて、表示部28とEVF29の表示(表示状態)/非表示(非表示状態)を切り替える。より具体的には、少なくともデジタルカメラ100が撮影待機状態、かつ、撮像部22で撮像されたライブビュー画像の表示先の切替設定が自動切替設定である場合において、非接眼中は表示先を表示部28として表示をオンとし、EVF29は非表示とする。また、接眼中は表示先をEVF29として表示をオンとし、表示部28は非表示とする。接眼検知部57は、例えば赤外線近接センサーを用いることができ、EVF29を内蔵するファインダーの接眼部16への何らかの物体の接近を検知することができる。物体が接近した場合は、接眼検知部57の投光部(不図示)から投光した赤外線が反射して赤外線近接センサーの受光部(不図示)に受光される。受光された赤外線の量によって、物体が接眼部16からどの距離まで近づいているか(接眼距離)も判別することができる。このように、接眼検知部57は、接眼部16への物体の近接距離を検知する接眼検知を行う。なお、本実施形態では接眼検知部57の投光部および受光部は前述の赤外発光ダイオード166および視線検知センサー164とは別体のデバイスであるものとする。ただし、接眼検知部57の投光部を赤外発光ダイオード166で兼ねてもよい。また、受光部を視線検知センサー164で兼ねてもよい。非接眼状態(非接近状態)から、接眼部16に対して所定距離以内に近づく物体が検出された場合に、接眼されたと検出するものとする。接眼状態(接近状態)から、接近を検知していた物体が所定距離以上離れた場合に、離眼されたと検出するものとする。接眼を検出する閾値と、離眼を検出する閾値は例えばヒステリシスを設けるなどして異なっていてもよい。また、接眼を検出した後は、離眼を検出するまでは接眼状態であるものとする。離眼を検出した後は、接眼を検出するまでは非接眼状態であるものとする。なお、赤外線近接センサーは一例であって、接眼検知部57には、接眼とみなせる目や物体の接近を検知できるものであれば他のセンサーを採用してもよい。
【0037】
システム制御部50は視線検出ブロック160からの出力に基づいて以下の操作、あるいは状態を検知できる。
・接眼部16に接眼したユーザの視線が新たに入力(検出)されたこと。すなわち、視線入力の開始。
・接眼部16に接眼したユーザの視線入力がある状態であること。
・接眼部16に接眼したユーザが注視している状態であること。
・接眼部16に接眼したユーザが入力していた視線を外したこと。すなわち、視線入力の終了。
・接眼部16に接眼したユーザが何も視線入力していない状態。
ここで述べた注視とは、ユーザの視線位置が所定時間内に所定の移動量を超えなかった場合のことを指す。
【0038】
タッチパネル70aと表示部28とは一体的に構成することができる。例えば、タッチパネル70aは光の透過率が表示部28の表示を妨げないように構成され、表示部28の表示面の上層に取り付けられる。そして、タッチパネル70aにおける入力座標と、表示部28の表示画面上の表示座標とを対応付ける。これにより、あたかもユーザが表示部28上に表示された画面を直接的に操作可能であるかのようなGUI(グラフィカルユーザインターフェース)を提供できる。システム制御部50はタッチパネル70aへの以下の操作、あるいは状態を検出できる。
・タッチパネル70aにタッチしていなかった指やペンが新たにタッチパネル70aにタッチしたこと。すなわち、タッチの開始(以下、タッチダウン(Touch-Down)と称する)。
・タッチパネル70aを指やペンでタッチしている状態であること(以下、タッチオン(Touch-On)と称する)。
・タッチパネル70aを指やペンでタッチしたまま移動していること(以下、タッチムーブ(Touch-Move)と称する)。
・タッチパネル70aへタッチしていた指やペンを離したこと。すなわち、タッチの終了(以下、タッチアップ(Touch-Up)と称する)。
・タッチパネル70aに何もタッチしていない状態(以下、タッチオフ(Touch-Off)と称する)。
【0039】
タッチダウンが検出されると、同時にタッチオンであることも検出される。タッチダウンの後、タッチアップが検出されない限りは、通常はタッチオンが検出され続ける。タッチムーブが検出されるのもタッチオンが検出されている状態である。タッチオンが検出されていても、タッチ位置が移動していなければタッチムーブは検出されない。タッチしていた全ての指やペンがタッチアップしたことが検出された後は、タッチオフとなる。
【0040】
これらの操作・状態や、タッチパネル70a上に指やペンがタッチしている位置座標は内部バスを通じてシステム制御部50に通知される。システム制御部50は通知された情報に基づいてタッチパネル70a上にどのような操作(タッチ操作)が行なわれたかを判定する。タッチムーブについてはタッチパネル70a上で移動する指やペンの移動方向についても、位置座標の変化に基づいて、タッチパネル70a上の垂直成分・水平成分毎に判定できる。所定距離以上をタッチムーブしたことが検出された場合はスライド操作が行なわれたと判定するものとする。タッチパネル上に指をタッチしたままある程度の距離だけ素早く動かして、そのまま離すといった操作をフリックと呼ぶ。フリックは、言い換えればタッチパネル70a上を指ではじくように素早くなぞる操作である。所定距離以上を、所定速度以上でタッチムーブしたことが検出され、そのままタッチアップが検出されるとフリックが行なわれたと判定できる(スライド操作に続いてフリックがあったものと判定できる)。更に、複数箇所(例えば2点)を同時にタッチして、互いのタッチ位置を近づけるタッチ操作をピンチイン、互いのタッチ位置を遠ざけるタッチ操作をピンチアウトと称する。ピンチアウトとピンチインを総称してピンチ操作(あるいは単にピンチ)と称する。タッチパネル70aは、抵抗膜方式や静電容量方式、表面弾性波方式、赤外線方式、電磁誘導方式、画像認識方式、光センサー方式等、様々な方式のタッチパネルのうちいずれの方式のものを用いても良い。方式によって、タッチパネルに対する接触があったことでタッチがあったと検出する方式や、タッチパネルに対する指やペンの接近があったことでタッチがあったと検出する方式があるが、いずれの方式でもよい。
【0041】
音声入力部85は、不図示のマイクロフォンを含み、デジタルカメラの周囲の音や後述ユーザからの音声命令を取得する処理を行う。また、デジタルカメラ本体に限らず、有線または無線通信を介してデジタルカメラ(ネットワークカメラを含む)と通信し、デジタルカメラを遠隔で制御する制御装置にも本発明を適用可能である。デジタルカメラを遠隔で制御する装置としては、例えば、スマートフォンやタブレットPC、デスクトップPCなどの装置がある。制御装置側で行われた操作や制御装置側で行われた処理に基づいて、制御装置側からデジタルカメラに各種動作や設定を行わせるコマンドを通知することにより、デジタルカメラを遠隔から制御可能である。また、デジタルカメラで撮影したライブビュー画像を有線または無線通信を介して受信して制御装置側で表示できるようにしてもよい。
【0042】
(メイン処理の一連の動作)
次に、本実施形態に係るメイン処理について図3を参照して説明する。メイン処理の動作は、音声受付期間設定画面で音声の受付期間を設定し、ウェイクワードで音声入力を可能な状態にしてから、音声操作が完了するまでの動作である。なお、メイン処理の各処理は、システム制御部50が不揮発性メモリ56に格納されたプログラムをシステムメモリ52に展開して実行することにより実現される。ウェイクワードは、デジタルカメラ100に対する音声による操作を有効にするための特定の音声命令である。
【0043】
S301において、システム制御部50は、音声受付期間の設定画面への遷移指示が行われたかを判定する。システム制御部50は、音声受付期間の設定画面へ遷移指示が行われたと判定した場合はS302へ進み、それ以外の場合はS310へ進む。
【0044】
S302において、システム制御部50は、音声受付期間の設定画面を表示部28に表示する。図4(a)及び図4(b)は、表示部28に表示される音声受付期間の設定画面の一例を示している。図4(a)に示す画面には、音声受付期間を個別に設定可能な音声命令が表示されている。音声命令には、それに対応する音声受付期間設定が並記されている。図4(b)に示す画面は、1つの音声命令に対して、音声受付期間を設定している設定状態の例を示している。1つの音声命令に対して設定可能な音声受付期間は、例えば、「推奨設定」、「ユーザ設定」、「自動設定」の中から一つを選択することにより設定することができる。「推奨設定」は、デジタルカメラ100に初期値として予め設定されている標準値である。「ユーザ設定」は、音声命令に対して、ユーザ自身が対応する音声受付期間を変更可能な設定である。例えば、ユーザは操作部70のダイヤルを回すことにより、所望の音声受付期間を設定することができる。すなわち、音声受付期間の設定画面は、異なる音声命令に対してユーザが異なる期間を設定可能な手動設定に係る画面である。
【0045】
「自動設定」は、ユーザの発した実際の命令間隔(すなわち過去の命令の履歴)に基づいて自動で音声受付期間を設定可能な設定である。音声命令と、各種別に対して選択可能な音声受付期間との関係は、例えば、図5(a)に示すテーブルのように表される。
【0046】
S303において、システム制御部50は、音声命令に対応する音声受付期間をユーザ設定に変更する指示が行われたかを判定する。システム制御部50は、音声命令に対応する音声受付期間をユーザ設定に変更する指示が行われたと判定した場合はS304へ進み、それ以外の場合はS305へ進む。なお、本ステップでは、音声命令の一例として、「ガイダンスのページ送り」、「写真のページ送り」、「Tv値の確認」「Av値の確認」を例に説明しているが、音声命令はこれに限らず、他の種別が含まれてよい。なお、上述の例では、ユーザが指示した内容が「ページ送り」である場合に、システム制御部50が、現在のデジタルカメラ100のコンテンツ表示モードが「ガイダンス」か「写真」かに応じて、対応する音声受付期間による処理が可能であることを表している。このような現在のデジタルカメラ100の動作モードに応じた動作は、「ガイダンス」や「写真」以外のコンテンツに対しても有効である。S304において、システム制御部50は、音声命令に対応する音声受付期間をユーザが設定した値に変更し、例えばメモリ32(システムメモリ52であってよい。以下同様。)に記憶する。
【0047】
S305において、システム制御部50は、音声命令に対応する音声受付期間を自動設定に変更する指示が行われたかを判定する。システム制御部50は、音声命令に対応する音声受付期間を自動設定に変更する指示が行われた場合はS306へ進み、それ以外の場合はS307へ進む。S306において、システム制御部50は、音声命令に対応する音声受付期間を自動的に算出された値に変更し、メモリ32に記憶する。なお、音声受付期間の自動的な算出は、音声命令の時間間隔によって行われるが、まだ一度も音声が命令されていないなど、時間間隔を算出できない場合がある。この場合には、例えば、自動設定の算出値には推奨設定の値が入力される。
【0048】
S307において、システム制御部50は、音声命令に対応する音声受付期間を推奨設定に変更する指示が行われたかを判定する。システム制御部50は、音声命令に対応する音声受付期間を推奨設定に変更する指示が行われたと判定した場合はS308へ進み、それ以外の場合はS309へ進む。S308において、システム制御部50は、音声命令に対応する音声受付期間を推奨設定に変更し、メモリ32に記憶する。
【0049】
S309において、システム制御部50は、音声受付期間の設定画面を終了する指示がなされたかを判定する。システム制御部50は、音声受付期間の設定画面を終了する指示がなされたと判定した場合はS310へ進み、それ以外の場合はS303に戻る。
【0050】
S310において、システム制御部50は、音声入力部85から音声命令を受信したかを判定する。システム制御部50は、音声入力部85からの信号に基づいて音声命令を受信したと判定した場合はS311へ進み、それ以外の場合はS317へ進む。
【0051】
S311において、システム制御部50は、音声命令による操作が有効である状態かどうかを判定する。システム制御部50は、例えばデジタルカメラ100に対する設定の状態に応じて、音声命令による操作が有効であると判定した場合はS312へ進み、音声命令による操作が有効状態でないと判定した場合はS313へ進む。
【0052】
S312において、システム制御部50は、音声命令処理を実行する。音声命令処理の具体的な処理については、後述する。S313において、システム制御部50は、受信した音声命令がウェイクワードかどうかを判定する。例えば、システム制御部50は、受信した音声を認識した結果、当該認識結果が予め定められたウェイクワードと一致した場合、受信した音声命令がウェイクワードであると判定してS314へ進む。一方、受信した音声命令がウェイクワード以外を表すと判定した場合、S317へ進む。
【0053】
S314において、システム制御部50は、受信したウェイクワードが音声受付期間をより長くするためのウェイクワードであるかを判定する。システム制御部50は、受信したウェイクワードが音声受付期間をより長くするためのワードであると判定した場合、S315へ進み、ウェイクワードが音声受付期間をより長くするワードでないと判定した場合、S316へ進む。例えば、システム制御部50は、音声受付期間の長さを制御するための2つのウェイクワードを識別する。例えば、音声受付期間の長さが通常の長さを表す第1のウェイクワードを例えば「Ok Voice Input」に定めておく。また、音声受付期間を通常の長さより長くする第2のウェイクワードを例えば「Ok Voice Input For A Long Time」と定めておく。このようにすることで、ユーザはウェイクワードを使って音声受付期間をコントロールすることが可能である。
【0054】
S315において、システム制御部50は、音声受付期間を長くするため、例えば60秒の間、音声命令による操作を有効にする。一方、S316において、システム制御部50は、音声受付期間を短いままにするため、例えば5秒の間、音声命令による操作を有効にする。
【0055】
S317において、システム制御部50は、例えば電源スイッチ72を電源オフにする等の、メイン処理終了指示が行われたかを判定する。システム制御部50は、メイン処理終了指示が行われたと判定した場合、メイン処理に係る一連の動作を終了する。システム制御部50は、それ以外の場合には、上述の処理を繰り返すためにS301へ進む。なお、メイン処理の動作において、モードダイヤルなどを回されるなどの異常系操作が行われた場合、システム制御部50は、途中でメイン処理の動作を中断してもよい。
【0056】
(音声命令処理の一連の動作)
次に、図6を参照して、S312において実行される音声命令処理の一連の動作について説明する。図6に示す音声命令処理の動作は、音声命令を認識する処理を行って、音声命令が有効な期間を更新するまでの動作である。音声命令処理は、メイン処理と同様に、システム制御部50が不揮発性メモリ56に格納されたプログラムを実行することにより実現される。
【0057】
S601において、システム制御部50は、音声命令認識処理を実行する。音声命令認識処理に係る動作については後述する。S602において、システム制御部50は、音声命令認識処理における認識結果の音声命令と当該音声命令に対応する時間を、履歴としてメモリ32に保存する。
【0058】
S603において、システム制御部50は、音声命令に対応する音声受付期間が「ユーザ設定」の期間であるかどうかを判定する。システム制御部50は、音声命令に対応する音声受付期間が「ユーザ設定」に設定されていると判定した場合にはS604へ進み、音声命令に対応する音声受付期間が「ユーザ設定」以外に設定されていると判定した場合にはS605へ進む。S604において、システム制御部50は、ユーザ設定の音声受付期間だけ、音声命令の受け付けを有効にする。
【0059】
S605において、システム制御部50は、音声命令認識結果に対応する音声受付期間が「自動設定」に設定されているかどうかを判定する。システム制御部50は、音声命令に対応する音声受付期間が「自動設定」に設定されていると判定した場合はS606へ進み、音声命令に対応する音声受付期間が「自動設定」に設定されていない場合はS610へ進む。
【0060】
S606において、システム制御部50は、音声命令が、初めて認識された音声命令かどうかを判定する。システム制御部50は、処理対象の音声命令とメモリ32に保存されている音声命令とを比較して、一致する音声命令が存在しない場合には、音声命令が初めて認識された音声命令であると判定した場合はS610へ進む。一方、処理対象の音声命令がメモリ32の音声命令と一致するする場合には、音声命令が初めて認識された音声命令でないと判定してS607へ進む。
【0061】
S607において、システム制御部50は、認識された音声命令が入力された今回の時間と前回の時間とをメモリ32から取得する。S608において、システム制御部50は、認識された音声命令が入力された今回の時間と前回の時間とから音声命令の入力間隔を計算する。システム制御部50は、例えば、図5(b)に示すように、入力された音声命令の前回の時間と今回の時間の差分から単純に入力間隔を算出する場合を例に説明する。しかし、音声命令の入力間隔は、過去の履歴情報から音声命令の入力間隔の平均値や中央値を算出するなど別の算出方法を用いてもよい。
【0062】
S609において、システム制御部50は、認識された音声命令の入力間隔の間だけ音声命令の受け付けを有効にする。S610において、システム制御部50は、認識された音声命令に対応する推奨設定の音声受付期間の間だけ音声命令の受け付けを有効にする。なお、音声命令処理の中で、モードダイヤルなどを回されるなどの異常系操作が行われた場合、一連の動作を途中で中断してもよい。
【0063】
(音声命令認識処理の一連の動作)
更に、図7を参照して、S601で実行される音声命令認識処理の一連の動作について説明する。音声命令認識処理の動作は、音声命令の認識を開始して、音声操作を実行するまでの動作である。本処理も他の処理と同様に、システム制御部50がプログラムを実行することにより実現される。
【0064】
S701において、システム制御部50は、受信した音声命令がページ送りに関する音声命令であるかどうかを判定する。システム制御部50は、既知の音声認識処理を施して、受信した音声命令がページ送りを表すと判定した場合はS702へ進み、受信した音声命令がページ送りを表すものではないと判定した場合はS706へ進む。
【0065】
S702において、システム制御部50は、デジタルカメラ100の表示状態がガイダンスコンテンツ表示モードかどうかを判定する。具体的には、システム制御部50は、デジタルカメラ100の設定値に基づいて、デジタルカメラ100の表示状態がガイダンスコンテンツ表示モードであると判定した場合はS703へ進む。一方、システム制御部50は、デジタルカメラ100の表示状態がガイダンスコンテンツ表示モードでないと判定した場合はS704へ進む。すなわち、システム制御部50は、音声命令が入力されたときに、デジタルカメラ100が、入力された音声命令に対応する状態(動作モード)である場合には、当該音声命令に対応する処理を実行する。一方、システム制御部50は、入力された音声命令に対応する状態(動作モード)でない場合には、音声命令に対応する処理を実行しない。
【0066】
S703において、システム制御部50は、ガイダンスのページ送りを実行する。例えば、図8は、本実施形態におけるガイダンスのページ送りの一例を示している。図8(a)は音声入力のヘルプガイド画面の先頭ページを、図8(b)は音声入力のヘルプガイド画面の途中ページを、図8(c)は音声入力のヘルプガイド画面の末尾ページを示している。システム制御部50が音声入力のヘルプガイド画面でページ送りを実行(例えば図8(a)から順に図8(c)へページを送る)する場合、先のページ送りと後のページ送りとの間にユーザが文章を読んで確認する作業が発生する。このため、ユーザがの文章コンテンツを確認する時間はユーザが写真を確認する場合よりも長くなると想定される。従って、図5に示したように、システム制御部50が制御するガイダンスのページ送りの音声受付期間は、写真のページ送りの音声受付期間より長い。
【0067】
S704において、システム制御部50は、デジタルカメラ100の表示状態が写真コンテンツ表示モードかどうかを判定する。具体的には、システム制御部50は、デジタルカメラ100の設定値に基づいて、デジタルカメラ100の表示状態が写真コンテンツ表示モードであると判定した場合はS705へ進む。一方、システム制御部50は、デジタルカメラ100の表示状態が写真コンテンツ表示モードでないと判定した場合はS706へ進む。
【0068】
S705において、システム制御部50は、写真のページ送りを実行する。図9は、写真の再生画面の一例を示している。システム制御部50が写真に対してページ送りを実行する場合、ページ送りとページ送りの間にユーザが写真を確認する作業が発生するが、ガイダンスのページ送りと比較してユーザが確認する時間は短くなると想定される。このため、従って、図5に示したように、システム制御部50が制御する写真のページ送りの音声受付期間は、ガイダンスのページ送りの音声受付期間より短い。
【0069】
S706において、システム制御部50は、受信した音声命令が設定値の確認かどうかを判定する。システム制御部50は音声命令が設定値の確認であると判定した場合はS707へ進み、受信した音声命令が設定値の確認でないと判定した場合は音声命令認識処理を終了する。
【0070】
S707において、システム制御部50は、デジタルカメラ100の現在の撮影状態がシャッター速度優先モード(Tvモード)かどうかを判定する。例えば、システム制御部50は、デジタルカメラ100の設定値に基づいて、デジタルカメラ100の現在の撮影状態がシャッター速度優先モード(Tvモード)であると判定した場合はS708へ進む。一方、システム制御部50は、デジタルカメラ100の現在の撮影状態がシャッター速度優先モード(Tvモード)でないと判定した場合はS709へ進む。
【0071】
S708において、システム制御部50は、ユーザがシャッター速度の設定値を確認することができるように、シャッター値を取得して例えば表示部28に表示させる。S709において、システム制御部50は、デジタルカメラ100の現在の撮影状態が絞り優先モード(Avモード)かどうかを判定する。例えば、システム制御部50は、デジタルカメラ100の設定値に基づいて、デジタルカメラ100の現在の撮影状態が絞り優先モード(Avモード)であると判定した場合はS710へ進む。一方、システム制御部50は、デジタルカメラ100の現在の撮影状態が絞り優先モード(Avモード)でないと判定した場合は音声命令認識処理を終了する。
【0072】
S710において、システム制御部50は、絞りの設定値を確認することができるように、絞り値を取得して例えば表示部28に表示させる。なお、音声命令認識処理の中でモードダイヤルなどを回されるなどの異常系操作が行われた場合、途中で動作が中断されてもよい。
【0073】
以上説明したように本実施形態では、システム制御部50が、受信した音声命令を受け付けると、認識した音声命令の種別又は音声命令の内容に応じて適した音声受付期間を設定するようにした。すなわち、先の音声命令が入力された後の所定の期間に、操作用の音声命令が入力された場合に、当該操作用の音声命令に対応する処理を実行する構成において、先の音声命令(の種別又は内容)に応じて、音声を受け付ける期間の長さを異ならせる。このようにすることで、入力された音声音声に応じて音声操作の操作性を向上させ、音声操作を行う際の誤動作をより低減することが可能となる。
【0074】
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0075】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【符号の説明】
【0076】
100…デジタルカメラ、28…表示部、50…システム制御部、70…操作部、200…記憶媒体、85…音声入力部
図1
図2
図3
図4
図5
図6
図7
図8
図9