(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-18
(45)【発行日】2024-01-26
(54)【発明の名称】通信装置、通信装置の制御方法、プログラム
(51)【国際特許分類】
G10L 15/32 20130101AFI20240119BHJP
G10L 15/00 20130101ALI20240119BHJP
G10L 15/30 20130101ALI20240119BHJP
H04N 23/66 20230101ALI20240119BHJP
G06F 3/16 20060101ALN20240119BHJP
【FI】
G10L15/32 220Z
G10L15/00 200A
G10L15/00 200G
G10L15/30
H04N23/66
G06F3/16 630
(21)【出願番号】P 2019196656
(22)【出願日】2019-10-29
【審査請求日】2022-10-18
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100126240
【氏名又は名称】阿部 琢磨
(74)【代理人】
【識別番号】100223941
【氏名又は名称】高橋 佳子
(74)【代理人】
【識別番号】100159695
【氏名又は名称】中辻 七朗
(74)【代理人】
【識別番号】100172476
【氏名又は名称】冨田 一史
(74)【代理人】
【識別番号】100126974
【氏名又は名称】大朋 靖尚
(72)【発明者】
【氏名】堀江 信行
(72)【発明者】
【氏名】梶村 文裕
(72)【発明者】
【氏名】会見 真宏
(72)【発明者】
【氏名】川田 峻
(72)【発明者】
【氏名】松野 太郎
【審査官】大野 弘
(56)【参考文献】
【文献】特開2016-076799(JP,A)
【文献】特開2016-063277(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/32
G10L 15/00
G10L 15/30
H04N 23/66
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
撮像装置と通信する通信手段と、
音声の入力を受け付ける音声入力手段と、
前記音声の内容を認識する認識手段と、
前記撮像装置が音声を認識する機能を有するか否かを判断する判断手段と、
前記判断手段により、前記撮像装置が音声を認識する機能を有していないと判断した場合、前記認識手段を用いて音声認識を実行し、前記撮像装置が音声を認識する機能を有していると判断した場合、
前記撮像装置の音声を認識する機能を用いて音声認識を実行するよう制御する制御手段とを有する通信装置。
【請求項2】
前記認識手段は、インターネットを介して接続する音声認識サーバに前記入力された音声を送信し、前記音声認識サーバにおいて音声認識を行うことを特徴とする請求項1に記載の通信装置。
【請求項3】
前記制御手段は
、インターネットを介して接続する音声認識サーバとの接続状況にも基づき、前記認識手段によって音声認識を実行するか否かを決定するよう制御することを特徴とする請求項1または2に記載の通信装置。
【請求項4】
前記撮像装置が音声を認識する機能を有していると判断した場合、かつ周囲の雑音が所定の量よりも少ない場合、前記制御手段は前記撮像装置が有する音声を認識する機能を用いて音声を認識するよう制御することを特徴とする請求項1乃至3のいずれか1項に記載の通信装置。
【請求項5】
前記撮像装置が音声を認識する機能を有していると判断した場合、前記制御手段は、前記認識手段の性能と前記撮像装置が有する音声を認識する機能との性能とにも基づき、前記認識手段によって音声認識を実行するか否かを決定するよう制御することを特徴とする請求項1乃至4のいずれか1項に記載の通信装置。
【請求項6】
前記撮像装置と通信する通信手段と、音声の入力を受け付ける音声入力手段とを有する通信装置の制御方法であって、
前記音声の内容を認識する認識ステップと、
前記撮像装置が音声を認識する機能を有するか否かを判断する判断ステップと、
前記判断ステップにより、前記撮像装置が音声を認識する機能を有していないと判断した場合、前記認識ステップを実行し、前記撮像装置が音声を認識する機能を有していると判断した場合、
前記撮像装置の音声を認識する機能を用いて音声認識を実行するよう制御する制御ステップとを有する通信装置の制御方法。
【請求項7】
前記認識ステップでは、インターネットを介して接続する音声認識サーバに前記入力された音声を送信し、前記音声認識サーバにおいて音声認識を行うことを特徴とする請求項6に記載の通信装置の制御方法。
【請求項8】
前記制御ステップは、前記インターネットを介して接続する音声認識サーバとの接続状況にも基づき、前記認識ステップを実行するか否かを決定するよう制御することを特徴とする請求項6または7に記載の通信装置
の制御方法。
【請求項9】
前記撮像装置が音声を認識する機能を有していると判断した場合、かつ周囲の雑音が所定の量よりも少ない場合、前記制御ステップでは前記撮像装置が有する音声を認識する機能を用いて音声を認識するよう制御することを特徴とする請求項6乃至8のいずれか1項に記載の通信装置
の制御方法。
【請求項10】
前記撮像装置が音声を認識する機能を有していると判断した場合、前記制御
ステップでは、前記認識ステップでの音声認識の性能と前記撮像装置が有する音声を認識する機能との性能とにも基づき、前記認識ステップを実行するか否かを決定するよう制御することを特徴とする請求項6乃至9のいずれか1項に記載の通信装置
の制御方法。
【請求項11】
コンピュータを、請求項1乃至5のいずれか1項に記載の通信装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、撮像装置の撮像を遠隔制御する通信装置に関するものである。
【背景技術】
【0002】
従来、無線通信機能を搭載した撮像装置があり、外部の通信装置から撮像装置を制御して撮影を行うことが可能である。撮像装置は例えばデジタルカメラであり、通信装置は携帯電話やリモコン等である。無線通信機能を使用することにより遠隔での撮影(例えば、携帯電話の画像を確認しながらのセルフタイマー撮影等)が行えるようになっている。
【0003】
一方、近年、ユーザが音声を発することによる音声入力によりカメラを操作する技術が提案されている。音声入力によりカメラを操作することで、煩雑な操作を行うことなくカメラを操作することができる。
【0004】
特許文献1では音声入力により操作命令を行う機器において、音声入力信号を外部装置に送信し、外部装置に配された音声認識システムを用いて音声入力信号の音声認識を行い、認識結果に基づく操作命令を機器に送信することが提案されている。外部装置であるクラウドシステム上では、複雑な音声命令であっても認識精度の高い音声認識システムを用意することができるので、精度よく音声認識を行いユーザの意図する機器の操作をすることができる。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述の特許文献に開示された従来技術では、通信装置の音声入力部で取得した音声をクラウドシステムに送信し、クラウドシステム上の音声認識結果を用いて撮像装置を操作する場合、音声認識に時間がかかる。また通信装置の通信状態によって通信動作に時間がかかることが考えられる。その結果、撮像装置の設定変更や撮影が素早く行なわれず、シャッターチャンスを逃すことが考えられる。
【0007】
そこで本発明の目的は、音声入力による操作が可能な撮像装置において、通信装置とのリモート操作時に、音声入力による撮像装置の設定変更や撮影をより素早く行うことができる撮像装置を提供することである。
【課題を解決するための手段】
【0008】
上記目的を達成するために、本発明の通信装置は、撮像装置と通信する通信手段と、音声の入力を受け付ける音声入力手段と、前記音声の内容を認識する認識手段と、前記撮像装置が音声を認識する機能を有するか否かを判断する判断手段と、前記判断手段により、前記撮像装置が音声を認識する機能を有していないと判断した場合、前記認識手段を用いて音声認識を実行し、前記撮像装置が音声を認識する機能を有していると判断した場合、前記撮像装置の音声を認識する機能を用いて音声認識を実行するよう制御する制御手段とを有する。
【発明の効果】
【0009】
本発明によれば、音声入力による操作が可能な撮像装置において、通信装置とのリモート操作時に、音声入力による撮像装置の設定変更や撮影をより素早く行うことができる。
【図面の簡単な説明】
【0010】
【
図1】(A)第1の実施形態に関わる撮像装置の構成図である。(B)第1の実施形態に関わる撮像装置のブロック図である。
【
図2】第1の実施形態に関わる通信装置のブロック図である。
【
図3】第1の実施形態に関わる撮像装置と通信装置の関係を示すフローチャートである。
【
図4】第1の実施形態に関わる通信装置とクラウドの関係を示す図である。
【
図5】第1の実施形態に関わる音声認識部の動作を示すフローチャートである。
【
図6】第1の実施形態に関わる音声認識の選択を示すフローチャートである。
【
図7】第2の実施形態に関わるネットワークの接続状況を考慮した音声認識の選択を示すフローチャートである。
【
図8】第2の実施形態に関わる音声認識の性能を考慮した音声認識の選択を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下に、本発明を実施するための形態について、添付の図面を用いて詳細に説明する。
【0012】
なお、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されてもよい。また、各実施の形態を適宜組み合せることも可能である。
【0013】
[第1の実施形態]
<デジタルカメラの構成>
図1(A)は本発明の第1の実施形態の撮影装置の構成図である。撮影光学系100は、絞り11、手振れ補正レンズ群12、フォーカスレンズ群13を備えており、光学像を撮像装置200へ導くことができる。撮像装置200は、撮影光学系100の光学像を光電変換する撮像素子21と露光時間を調整するメカシャッター22を備えている。撮像装置200は、背面部に背面液晶23を、ファインダー部には小型液晶24と光学系25を備え撮像素子21で撮像された画像を表示することができる。なお、電子シャッター機能を備えた撮像素子であればメカシャッターは不要であり、メカシャッターを備えた場合であっても電子シャッターで露光時間を調整する場合はメカシャッターが全開したままである。撮影時には、図示されていないシャッターボタンを一段目まで浅く押す、いわゆる「半押し」することで、自動合焦と自動露出機構によるシャッター速度、絞り値などの撮影条件の設定が行われる。更にシャッターボタンを半押しから二段目まで深く押す、いわゆる「全押し」することでメカシャッター22又は撮像素子21の電子シャッター機能が動作して撮像が行われる。
【0014】
図1(B)は本発明の第1の実施形態の撮影装置のブロック図である。撮像装置200は、電気回路20を備えており、電気回路20にはCPU201、画像処理手段202、制御手段203、撮像装置音声認識手段204、等が実装されている。絞り11、手振れ補正レンズ群12、フォーカスレンズ群13、メカシャッター22はそれぞれ図示されていない駆動手段を介して制御手段203から制御される。撮像素子21で光電変換された信号は画像処理手段202を経由してデジタルデータに変換して図示されていない記録媒体へ保存することができる。ファインダー部には接眼センサ26を備え、撮影者がファインダー部に接眼しているか否かを検出することができる。撮像装置200は、撮像装置音声入力手段27を備えており、撮像装置外部の音声を取得可能である。撮像装置音声入力手段27は例えばマイクである。撮像装置音声入力手段27からの音声信号に対し、電気回路20の撮像装置音声認識手段204によって音声認識処理を行なう。この撮像装置音声認識手段204は、撮像装置200内にて音声認識を行う。
【0015】
CPU201は、上記の全ての要素を電気的にコントロールすることができる処理装置である。また撮像装置200は、撮像装置通信手段28を備えている。撮像装置通信手段28は外部機器と接続するためのインターフェースであり、
図2にて後述する通信装置300との通信が可能である。有線通信、あるいは無線通信で外部機器と接続することができ、外部機器と相互に情報をやり取りすることができる。有線通信としては、例えばUSBケーブル、LANケーブルなどを介しての通信が、無線通信としては、例えば無線LANなどを用いた通信があげられる。なお、本実施例においては無線LANで通信装置300と接続する。
図1において制御信号線は省略されており、各要素間の情報の流れのみを矢印で示している。
【0016】
<通信装置の構成>
図2は本発明の第1の実施形態の通信装置300のブロック図である。通信装置300は、電気回路30を備えており、電気回路30にはCPU36、判別手段35、通信装置音声認識手段37が実装されている。
【0017】
通信装置300は、通信装置音声入力手段31を備えており、通信装置外部の音声を取得可能である。通信装置音声入力手段31は例えばマイクである。
【0018】
通信装置300は、ネットワーク通信手段34を備えており、無線ネットワーク41(いわゆるインターネット)を介してクラウドシステム(以下クラウド)との通信を行なう。詳細は後述するが、通信装置300のネットワーク通信手段34を介して送信された音声ファイルを受信し音声認識処理を行い、音声認識結果を通信装置300に送信する。
【0019】
通信装置300は表示手段32を備え、撮像装置200で撮像された画像を通信装置通信手段33より受信し、表示することができる。
【0020】
CPU36は、上記の全ての要素を電気的にコントロールすることができる処理装置である。
【0021】
また通信装置300は、通信装置通信手段33を備えている。通信装置通信手段33は外部機器と接続するためのインターフェースであり、
図1にて先述した撮像装置200との通信が可能である。有線通信、あるいは無線通信で外部機器と接続することができ、外部機器と相互に情報をやり取りすることができる。有線通信としては、例えばUSBケーブル、LANケーブルなどを介しての通信が、無線通信としては、例えば無線LANなどを用いた通信があげられる。なお、本実施例においては無線LANで撮像装置200と接続する。
図2において制御信号線は省略されており、各要素間の情報の流れのみを矢印で示している。
【0022】
判別手段35は、撮像装置200に撮像装置音声認識手段204があるかどうかを判別することが可能である。具体的には撮像装置200に撮像装置音声認識手段204があるかを通信にてやり取りし、その結果から判別することが可能である。
【0023】
<通信システム>
図4は通信装置300とクラウド上の音声認識サーバ42とで構成される通信システムの概念を示した図である。通信装置300と音声認識サーバ42では双方向の情報のやり取りを行なうことができる。通信装置音声入力手段31からの音声信号に対し、通信装置300のネットワーク通信手段34を介して送信された音声ファイルを受信し、音声認識サーバ42ではデータベース43を参照して音声認識処理を行い、音声認識結果を通信装置300に送信する。クラウド側に音声認識部を有しているので、複雑な音声命令であっても音声認識の正解率が高く、ユーザの所望の操作を行うことができる。
【0024】
<音声認識処理>
次に
図5を用いて音声認識処理について説明する。
図5は音声認識処理に関わるフローチャートである。本フローチャートで示される音声認識処理は、撮像装置200と通信装置300の両方で実行可能である。ゆえに、それぞれのステップは、撮像装置のCPU201または通信装置のCPU36により各部が制御されることで実行される。
【0025】
まずフローが開始するとステップS11では通信装置音声入力手段31、もしくは撮像装置音声入力手段27により、ユーザの発話に音声が入力される。
【0026】
ステップS12では、ステップS11で取得した信号から音声ファイルを作成する。例えば、音声ファイルはwavファイルやmp3ファイルなどである。
【0027】
ステップS13では、ステップS12で作成した音声ファイルを通信装置300の場合は、ネットワーク通信手段34を介して送信し、音声認識サーバ42にて言語を認識しテキストファイルを生成するテキスト化処理を行なう。また撮像装置200の場合は、撮像装置音声認識手段204を用いて、テキスト化処理を行う。
【0028】
ステップS14では、ステップS13で作成したテキストファイル内のワードを理解する言語理解処理を行なう。例えば、テキストファイルの内容が「レリーズ」であれば、撮像装置200のレリーズ釦操作による露光動作の開始の命令であると理解し、その結果の操作命令を生成し、フローを終了する。ここでは音声命令を「レリーズ」のみの1ワードを例としたが、複数のワードを組み合わせたテキストファイルでも構わない。例えば「記録フォーマットをJPEG+RAW」などでもよく、その場合は「記録フォーマット」を「JPEG+RAW」で記録するよう変更する命令と言語理解され、記録フォーマットが変更される。特にクラウド側の音声認識部は、ワード数が多い文章の場合や、複雑な音声命令であっても言語理解することが可能である。
【0029】
本実施例では、ステップS12からステップS14までの処理を音声認識処理と呼ぶこととする。
【0030】
撮像装置200を通信装置300でリモート操作する場合の音声認識においては、ユーザは通信装置300の付近にて操作しているため、通信装置300の音声認識サーバ42を用いることが考えられる。しかし、音声認識処理は通通信装置300のネットワーク通信手段34を介してクラウド側の音声認識サーバ42を用いて音声認識処理を行なう。そのため、通信状態が悪く転送レートが低い場合はクラウド側から音声認識処理結果が送られてくるまでに時間がかかる。
【0031】
そこで、本実施形態では撮像装置200内にも撮像装置音声認識手段204を有しているかを判別手段35にて判別し、あると判断した場合には撮像装置音声認識手段204で音声認識処理を行なう。撮像装置音声認識手段204は、例えば露光動作に直接関わる限定的なワードのような、撮像装置の操作に関わるワードが登録されたローカル音声辞書を有している。ローカル音声辞書が限定的なワードしか登録されていないため撮影に関係しない音声の認識はできないが、撮像装置200の操作に関わる音声としては十分な辞書が登録されており、クラウド側音声認識部からの結果を待たずに撮影動作に移ることができる。よって、ユーザは音声入力によるカメラの設定変更や撮影を素早く行うことができる。
【0032】
図3は本発明の第1の実施形態のフローチャートである。S3001~S3006は撮像装置200の処理を示している。S3101~S3106は通信装置300の処理を示している。3201~3204は撮像装置200と通信装置300の間で行う通信の内容を示している。撮像装置200の処理に関して説明する。
【0033】
S3001において、撮像装置200の図示されていない操作ボタンによってユーザにより無線通信モードの設定を行われたことを、撮像装置200のCPU201は判断する。撮像装置200のCPU201は、撮像装置通信手段28を用いて無線通信の受付を開始しビーコン情報3201を定期的に送信する。ビーコン情報3201はID情報、ビーコン情報の送信間隔、通信可能な周波数範囲などを含む情報である。そしてS3002へと進む。
【0034】
S3002において、撮像装置200のCPU201は、通信装置300等の外部機器からの接続要求3202を待つ。接続要求3202を受け取ると、S3003に進む。また本実施例においては特に説明しないが一定期間接続要求3202が来ないと処理を打ち切るように構成してもよい。
【0035】
S3003において、撮像装置200のCPU201は、接続完了通知3203を通信装置300に対して送信する。また暗号化なしの通信であればこれで接続は確立されるが、実際にはセキュリティ手続きなどの認証手続きが続く。本実施例においては認証手続きに関しては説明を省略する。またこのとき、撮像装置200のCPU201は、撮像装置音声認識手段204の有無通知3204を通信装置300に対して送信する。これは撮像装置200と通信装置300の接続確立後にやりとりしてもよい。本フローにおいては、3202の接続要求において、撮像装置音声認識手段204の有無に関しても問い合わせが来ているものとする。接続完了通知3203を送信後、S3004に進む。
【0036】
S3004において、撮像装置200のCPU201は、撮像装置音声認識手段204の使用通知3205が来るかを監視する。像装置音声認識手段204の使用通知3205が来た場合、S3005へと進む。また一定期間たっても撮像装置音声認識手段204の使用通知3205が来ない場合、S3006へと進む。
【0037】
S3005において、撮像装置200のCPU201は、撮像装置音声認識手段204の機能をONにし、S3006へと進む。
【0038】
S3006においては、撮影準備が完了したものとして、撮像装置200の一連の処理は完了する。
【0039】
続いて、通信装置300の処理に関して説明する。
【0040】
S3101において、指示手段34によってユーザにより無線通信モードの設定を行われたことを、通信装置300のCPU36は判断する。通信装置300のCPU36は、通信装置通信手段33を用いてビーコン情報3201をスキャンする。その後S3102へと進む。
【0041】
S3102において、通信装置300のCPU36は、撮像装置200等の外部機器からのビーコン情報3201を待つ。ビーコン情報3201を受け取ると、S3103に進む。また本実施例においては特に説明しないが一定期間ビーコン情報3201が来ないと処理を打ち切るように構成してもよい。
【0042】
S3103において、S3102で取得したビーコン情報3201より、接続したい対象をユーザは選択する。選択された対象(本実施例においては撮像装置200)を通信装置300のCPUは認識し、接続要求3202を撮像装置200に対して送信する。その後S3104へと進む。また先述したように接続要求3202には、撮像装置音声認識手段204の有無に関しての問い合わせも行われているものとする。
【0043】
S3104において、通信装置300のCPUは、撮像装置200等の外部機器からの接続完了通知3203、撮像装置の音声認識手段204の有無通知3204を待つ。接続完了通知3203、音声認識手段204の有無通知3204を受け取ると、撮像装置200との通信が確立し、S3105に進む。
【0044】
S3105において、通信装置300のCPU36は、音声認識手段204の有無通知3204より、以降の音声認識を、撮像装置音声認識手段204を用いて実施するか音声認識サーバ42を用いて実施するかを決定する。この決定方法の詳細に関しては、
図6を用いて後述する。音声認識手段204を用いて音声認識を実施すると決定した場合、S3106へと進む。また音声認識サーバ42を用いて音声認識を実施すると決定した場合、S3107へと進む。
【0045】
S3106において、音声認識使用通知3205を撮像装置200に対して送信する。その後S3107に進む。
【0046】
S3107において、撮像装置200との通信が確立したことを、通信装置300のCPUは表示手段32に表示する。通信装置300から撮像装置200の撮影が開始可能となる。
【0047】
図6は、音声認識処理を、撮像装置音声認識手段204を使用するか、音声認識サーバ42を使用するかの判断の詳細を示している。
図6の処理は通信装置300のCPU36によって実行される。
【0048】
S601において、通信装置300は撮像装置200をリモートで操作中であるか否かを判別する。これは、
図3のS3104において、通信装置300は撮像装置200が通信確立され、かつ、通信装置300が撮像装置200をリモートで操作しているかを判別するという意味である。通信装置300が、撮像装置200をリモートで通信しているかは、通信装置300が、撮像装置200を操作可能なアプリを立ち上げているかどうかで判断することが可能である。通信装置300と撮像装置200の無線通信確立後であっても、通信装置300が、撮像装置200を操作可能なアプリを立ち上げていない場合、リモートで操作はしていないと判断される。リモートで操作中であると判別した場合はS602へと進む。このように通信装置300が撮像装置200のリモート動作中であることが判別できることで、この間のユーザの指示音声が撮像に関係あるものと判断することが可能である。
【0049】
リモートで操作中ではないと判別した場合はS604へと進む。通信装置300が撮像装置200のリモート動作中でない場合には、この間のユーザの指示音声が撮像に関係ない指示の可能性もあるものと判断することが可能である。
【0050】
S602において、通信装置300のCPU36は撮像装置200に、撮像装置音声認識手段204があるか否かを判別する。これは、撮像装置音声認識手段204の有無通知3204を通信装置300が受け取ることで判断可能である。撮像装置音声認識手段204があると判断した場合、S603へと進む。撮像装置音声認識手段204がないと判断した場合、S604へと進む。
【0051】
S603において、以降の通信装置300の音声認識処理を、撮像装置音声認識手段204を用いて行う。ユーザが通信装置300の音声装置認識手段31に音声を入力した場合、CPU36はその音声データを通信装置通信手段33によって、撮像装置200へと送信する。撮像装置200は撮像装置通信手段28から受け取った音声データを撮像装置音声認識手段204によって音声認識処理し、その指示内容に応じた撮影動作を行う。指示内容とは前述したように例えば「レリーズ」であれば、撮像装置200のレリーズ釦操作による露光動作の開始の命令であると理解し、その結果の操作命令を生成し、フローを終了する。
【0052】
この結果、クラウドシステム上に音声データを送る必要がなくなり、音声認識サーバ42を用いる場合に比べて、音声認識にかかる時間を短縮することが可能で、撮像装置の設定変更や撮影が素早く行うことができる。
【0053】
なお、撮像装置200の撮像装置音声認識手段204は、撮像に関する音声認識としては十分な認識が可能であるものとする。撮像装置音声認識手段204の音声認識の性能が低い場合に関しては第2の実施形態にて後述する。
【0054】
S604において、以降の通信装置300の音声認識処理を、音声認識サーバ42を用いて行う。ユーザが通信装置300の音声装置認識手段31に音声を入力した場合、音声データをネットワーク通信手段34によって音声認識サーバに送信し、その音声認識処理の結果(すなわち、「レリーズ」などの撮影に関する操作命令)を通信装置300は受け取る。その後、通信装置通信手段33によって、撮像装置200への操作命令を撮像装置へと送信する。撮像装置200は撮像装置通信手段28から受け取った音操作命令に応じた撮影動作を行う。その後、フローを終了する。
【0055】
撮像装置200に撮像装置音声認識手段204がない場合には、音声認識サーバ42を用いて、クラウドシステム上に音声データを送る時間が発生してしまうが、確実に撮像装置の設定変更や撮影を行うことができる。
【0056】
通信装置300が撮像装置200をリモートで操作している時に、音声認識処理のフローを音声認識サーバ42から撮像装置音声認識手段204に変更することで、音声入力による撮像装置200の設定変更や撮影を素早く行うことができる。
【0057】
[第2の実施形態]
以下、
図7~8を参照して、本発明の第2の実施形態による、通信装置300と撮像装置200の状態に応じた音声認識について説明する。
【0058】
図7は本発明の第2の実施形態による、ネットワークの接続状況を考慮した音声認識の選択を示すフローチャートである。
【0059】
S601~S604に関しては
図6で説明済みのため、説明を割愛する。第1の実施形態においては、S602の判断後に撮像装置音声認識手段204があると判断した場合S603へと進んだが、本実施例2においては、S701へと進む。撮像装置音声認識手段204がないと判断した場合S604へと進むのは第1の実施形態と同様である。
【0060】
S701においては、撮像装置音声認識手段204と音声認識サーバ41の音声認識性能を比較する。音声認識性能の比較は、例えば撮影に関する撮像装置音声認識手段20の音声データベースの数と、音声認識サーバ41の音声データベースの数で比較すればよい。登録されている辞書のデータベースが多いほど多様な音声に対応することが可能である。またそれに限るものでなく、撮像装置音声認識手段204と音声認識サーバ41の音声データベースの更新された日で比較してもよい。撮像装置音声認識手段204の音声認識の性能は、通信装置通信手段33と、撮像装置通信手段28で情報をやり取りすることで、通信装置300のCPU36が判断可能である。
【0061】
ここで音声認識サーバ41の方が撮像装置音声認識手段204より性能がよいと判断した場合は、S604へと進む。また撮像装置音声認識手段204の方が音声認識サーバ41より、性能がよいと判断した場合は、S702へと進む。また特にこれに限るものではなく、撮像装置音声認識手段204の性能が水準以上か水準未満かで判断してもよい。撮像装置音声認識手段204の性能が水準未満と判断した場合、S702へと進む。また撮像装置の音声認識手段204性能が水準以上と判断した場合は、S604へと進む。
【0062】
この結果、撮像装置音声認識手段204が、撮像に関して十分な音声認識性能があるかを通信装置300のCPU36は判断可能となる。性能が十分であると判断した場合は、以降通信装置300が撮像装置200をリモートで撮影している限りにおいて、撮像装置音声認識手段204を使用することで、音声入力による撮像装置200の設定変更や撮影を素早く行うことができる。
【0063】
なお、性能が十分でないと判断した場合に関してはS702にて説明する。
【0064】
S702においては、通信装置300のネットワーク通信手段34の音声認識サーバ41とのネットワーク接続状況を確認する。ネットワーク接続状況は、具体的には音声認識サーバ41の通信レートを検出する。通信レートが所定値以下であればステップS603に進み、通信状態が悪く音声認識サーバ41の結果を待つと時間がかかると判断し、音声認識処理の信頼率は低いが撮像装置音声認識手段204の結果を用いる。一方、通信レートが所定値を越えており通信状態がよいと判断されればステップS604に進み音声認識サーバ41の結果を受信するまで待機される。
【0065】
このように、ネットワーク接続状況がよい場合は音声認識サーバ41を用いることで設定変更や撮影を一定時間以内に行うことができる。またネットワーク接続状況が悪い場合には、音声認識の性能は下がってしまうが撮像装置音声認識手段204を使用することで、音声入力による撮像装置200の設定変更や撮影ができなくならないように構成することができる。
【0066】
さらに、
図8はさらに外部の環境音を考慮した音声認識の選択を示すフローチャートである。
【0067】
S601~S604、S701~S702に関しては説明済みのため、説明を割愛する。
【0068】
図7においては、S701の判断後に撮像装置音声認識手段204の性能が水準以上と判断した場合S603へと進んだが、本実施例2においては、さらにS801へと進む。撮像装置音声認識手段204の性能が水準未満と判断した場合S702へと進むのは
図7と同様である。
【0069】
S801においては、通信装置音声入力手段31によって取得される音声データの雑音レベルを検出する。雑音レベルの検出は、例えば音声データを周波数解析し、ユーザの音声の周波数帯以外に信号があるかで判断することが可能である。さらに、ユーザの音声の周波数帯以外の信号の大きさ(音量)が所定の大きさ以上かどうかで判断することも可能である。また特にこれに限るものではなく、2つのマイクの位相差から音の方向を検出して、ユーザの発生した音か否かを判断してもよい。
【0070】
ここで雑音が多いと判断した場合(例えば風が強い屋外や、複数人が会話しているような状況)は、S702へと進む。また雑音が少ないと判断した場合は、S604へと進む。
【0071】
撮像装置音声認識手段204が撮像に関して十分な音声認識性能があると通信装置300のCPU36は判断した場合においても、周囲環境音に応じて音声認識サーバ41と撮像装置音声認識手段204を好適に切り替える。この結果、音声認識の性能が周囲環境音に応じて著しく下がることがないようにしつつ、音声入力による撮像装置200の設定変更や撮影を素早く行うことができる。
【0072】
通信装置300、撮像装置200がそれぞれ音声認識機能を有している場合、音声認識処理の性能、ネットワーク接続状況、周囲環境音に応じて音声認識のフローを変更することで音声入力による撮像装置200の設定変更や撮影を素早く行うことができる。
【0073】
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
【0074】
[その他の実施形態]
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムコードを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。