特許7422455 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7422455通信装置、通信装置の制御方法、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-18

(45)【発行日】2024-01-26

(54)【発明の名称】通信装置、通信装置の制御方法、プログラム

(51)【国際特許分類】

G10L 15/32 20130101AFI20240119BHJP

G10L 15/00 20130101ALI20240119BHJP

G10L 15/30 20130101ALI20240119BHJP

H04N 23/66 20230101ALI20240119BHJP

G06F 3/16 20060101ALN20240119BHJP

【ＦＩ】

G10L15/32 220Z

G10L15/00 200A

G10L15/00 200G

G10L15/30

H04N23/66

G06F3/16 630

【請求項の数】 11

(21)【出願番号】P 2019196656

(22)【出願日】2019-10-29

(65)【公開番号】P2021071542

(43)【公開日】2021-05-06

【審査請求日】2022-10-18

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】100126240

【弁理士】

【氏名又は名称】阿部琢磨

(74)【代理人】

【識別番号】100223941

【弁理士】

【氏名又は名称】高橋佳子

(74)【代理人】

【識別番号】100159695

【弁理士】

【氏名又は名称】中辻七朗

(74)【代理人】

【識別番号】100172476

【弁理士】

【氏名又は名称】冨田一史

(74)【代理人】

【識別番号】100126974

【弁理士】

【氏名又は名称】大朋靖尚

(72)【発明者】

【氏名】堀江信行

(72)【発明者】

【氏名】梶村文裕

(72)【発明者】

【氏名】会見真宏

(72)【発明者】

【氏名】川田峻

(72)【発明者】

【氏名】松野太郎

【審査官】大野弘

(56)【参考文献】

【文献】特開２０１６－０７６７９９（ＪＰ，Ａ）

【文献】特開２０１６－０６３２７７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／３２

Ｇ１０Ｌ１５／００

Ｇ１０Ｌ１５／３０

Ｈ０４Ｎ２３／６６

Ｇ０６Ｆ３／１６

(57)【特許請求の範囲】

【請求項1】

撮像装置と通信する通信手段と、
音声の入力を受け付ける音声入力手段と、
前記音声の内容を認識する認識手段と、
前記撮像装置が音声を認識する機能を有するか否かを判断する判断手段と、
前記判断手段により、前記撮像装置が音声を認識する機能を有していないと判断した場合、前記認識手段を用いて音声認識を実行し、前記撮像装置が音声を認識する機能を有していると判断した場合、前記撮像装置の音声を認識する機能を用いて音声認識を実行するよう制御する制御手段とを有する通信装置。

【請求項2】

前記認識手段は、インターネットを介して接続する音声認識サーバに前記入力された音声を送信し、前記音声認識サーバにおいて音声認識を行うことを特徴とする請求項１に記載の通信装置。

【請求項3】

前記制御手段は、インターネットを介して接続する音声認識サーバとの接続状況にも基づき、前記認識手段によって音声認識を実行するか否かを決定するよう制御することを特徴とする請求項１または２に記載の通信装置。

【請求項4】

前記撮像装置が音声を認識する機能を有していると判断した場合、かつ周囲の雑音が所定の量よりも少ない場合、前記制御手段は前記撮像装置が有する音声を認識する機能を用いて音声を認識するよう制御することを特徴とする請求項１乃至３のいずれか１項に記載の通信装置。

【請求項5】

前記撮像装置が音声を認識する機能を有していると判断した場合、前記制御手段は、前記認識手段の性能と前記撮像装置が有する音声を認識する機能との性能とにも基づき、前記認識手段によって音声認識を実行するか否かを決定するよう制御することを特徴とする請求項１乃至４のいずれか１項に記載の通信装置。

【請求項6】

前記撮像装置と通信する通信手段と、音声の入力を受け付ける音声入力手段とを有する通信装置の制御方法であって、
前記音声の内容を認識する認識ステップと、
前記撮像装置が音声を認識する機能を有するか否かを判断する判断ステップと、
前記判断ステップにより、前記撮像装置が音声を認識する機能を有していないと判断した場合、前記認識ステップを実行し、前記撮像装置が音声を認識する機能を有していると判断した場合、前記撮像装置の音声を認識する機能を用いて音声認識を実行するよう制御する制御ステップとを有する通信装置の制御方法。

【請求項7】

前記認識ステップでは、インターネットを介して接続する音声認識サーバに前記入力された音声を送信し、前記音声認識サーバにおいて音声認識を行うことを特徴とする請求項６に記載の通信装置の制御方法。

【請求項8】

前記制御ステップは、前記インターネットを介して接続する音声認識サーバとの接続状況にも基づき、前記認識ステップを実行するか否かを決定するよう制御することを特徴とする請求項６または７に記載の通信装置の制御方法。

【請求項9】

前記撮像装置が音声を認識する機能を有していると判断した場合、かつ周囲の雑音が所定の量よりも少ない場合、前記制御ステップでは前記撮像装置が有する音声を認識する機能を用いて音声を認識するよう制御することを特徴とする請求項６乃至８のいずれか１項に記載の通信装置の制御方法。

【請求項10】

前記撮像装置が音声を認識する機能を有していると判断した場合、前記制御ステップでは、前記認識ステップでの音声認識の性能と前記撮像装置が有する音声を認識する機能との性能とにも基づき、前記認識ステップを実行するか否かを決定するよう制御することを特徴とする請求項６乃至９のいずれか１項に記載の通信装置の制御方法。

【請求項11】

コンピュータを、請求項１乃至５のいずれか１項に記載の通信装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、撮像装置の撮像を遠隔制御する通信装置に関するものである。

【背景技術】

【0002】

従来、無線通信機能を搭載した撮像装置があり、外部の通信装置から撮像装置を制御して撮影を行うことが可能である。撮像装置は例えばデジタルカメラであり、通信装置は携帯電話やリモコン等である。無線通信機能を使用することにより遠隔での撮影（例えば、携帯電話の画像を確認しながらのセルフタイマー撮影等）が行えるようになっている。

【0003】

一方、近年、ユーザが音声を発することによる音声入力によりカメラを操作する技術が提案されている。音声入力によりカメラを操作することで、煩雑な操作を行うことなくカメラを操作することができる。

【0004】

特許文献１では音声入力により操作命令を行う機器において、音声入力信号を外部装置に送信し、外部装置に配された音声認識システムを用いて音声入力信号の音声認識を行い、認識結果に基づく操作命令を機器に送信することが提案されている。外部装置であるクラウドシステム上では、複雑な音声命令であっても認識精度の高い音声認識システムを用意することができるので、精度よく音声認識を行いユーザの意図する機器の操作をすることができる。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２００５－３１１８６４号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、上述の特許文献に開示された従来技術では、通信装置の音声入力部で取得した音声をクラウドシステムに送信し、クラウドシステム上の音声認識結果を用いて撮像装置を操作する場合、音声認識に時間がかかる。また通信装置の通信状態によって通信動作に時間がかかることが考えられる。その結果、撮像装置の設定変更や撮影が素早く行なわれず、シャッターチャンスを逃すことが考えられる。

【0007】

そこで本発明の目的は、音声入力による操作が可能な撮像装置において、通信装置とのリモート操作時に、音声入力による撮像装置の設定変更や撮影をより素早く行うことができる撮像装置を提供することである。

【課題を解決するための手段】

【0008】

上記目的を達成するために、本発明の通信装置は、撮像装置と通信する通信手段と、音声の入力を受け付ける音声入力手段と、前記音声の内容を認識する認識手段と、前記撮像装置が音声を認識する機能を有するか否かを判断する判断手段と、前記判断手段により、前記撮像装置が音声を認識する機能を有していないと判断した場合、前記認識手段を用いて音声認識を実行し、前記撮像装置が音声を認識する機能を有していると判断した場合、前記撮像装置の音声を認識する機能を用いて音声認識を実行するよう制御する制御手段とを有する。

【発明の効果】

【0009】

本発明によれば、音声入力による操作が可能な撮像装置において、通信装置とのリモート操作時に、音声入力による撮像装置の設定変更や撮影をより素早く行うことができる。

【図面の簡単な説明】

【0010】

【図1】（Ａ）第１の実施形態に関わる撮像装置の構成図である。（Ｂ）第１の実施形態に関わる撮像装置のブロック図である。

【図2】第１の実施形態に関わる通信装置のブロック図である。

【図3】第１の実施形態に関わる撮像装置と通信装置の関係を示すフローチャートである。

【図4】第１の実施形態に関わる通信装置とクラウドの関係を示す図である。

【図5】第１の実施形態に関わる音声認識部の動作を示すフローチャートである。

【図6】第１の実施形態に関わる音声認識の選択を示すフローチャートである。

【図7】第２の実施形態に関わるネットワークの接続状況を考慮した音声認識の選択を示すフローチャートである。

【図8】第２の実施形態に関わる音声認識の性能を考慮した音声認識の選択を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下に、本発明を実施するための形態について、添付の図面を用いて詳細に説明する。

【0012】

なお、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されてもよい。また、各実施の形態を適宜組み合せることも可能である。

【0013】

［第１の実施形態］
＜デジタルカメラの構成＞
図１（Ａ）は本発明の第１の実施形態の撮影装置の構成図である。撮影光学系１００は、絞り１１、手振れ補正レンズ群１２、フォーカスレンズ群１３を備えており、光学像を撮像装置２００へ導くことができる。撮像装置２００は、撮影光学系１００の光学像を光電変換する撮像素子２１と露光時間を調整するメカシャッター２２を備えている。撮像装置２００は、背面部に背面液晶２３を、ファインダー部には小型液晶２４と光学系２５を備え撮像素子２１で撮像された画像を表示することができる。なお、電子シャッター機能を備えた撮像素子であればメカシャッターは不要であり、メカシャッターを備えた場合であっても電子シャッターで露光時間を調整する場合はメカシャッターが全開したままである。撮影時には、図示されていないシャッターボタンを一段目まで浅く押す、いわゆる「半押し」することで、自動合焦と自動露出機構によるシャッター速度、絞り値などの撮影条件の設定が行われる。更にシャッターボタンを半押しから二段目まで深く押す、いわゆる「全押し」することでメカシャッター２２又は撮像素子２１の電子シャッター機能が動作して撮像が行われる。

【0014】

図１（Ｂ）は本発明の第１の実施形態の撮影装置のブロック図である。撮像装置２００は、電気回路２０を備えており、電気回路２０にはＣＰＵ２０１、画像処理手段２０２、制御手段２０３、撮像装置音声認識手段２０４、等が実装されている。絞り１１、手振れ補正レンズ群１２、フォーカスレンズ群１３、メカシャッター２２はそれぞれ図示されていない駆動手段を介して制御手段２０３から制御される。撮像素子２１で光電変換された信号は画像処理手段２０２を経由してデジタルデータに変換して図示されていない記録媒体へ保存することができる。ファインダー部には接眼センサ２６を備え、撮影者がファインダー部に接眼しているか否かを検出することができる。撮像装置２００は、撮像装置音声入力手段２７を備えており、撮像装置外部の音声を取得可能である。撮像装置音声入力手段２７は例えばマイクである。撮像装置音声入力手段２７からの音声信号に対し、電気回路２０の撮像装置音声認識手段２０４によって音声認識処理を行なう。この撮像装置音声認識手段２０４は、撮像装置２００内にて音声認識を行う。

【0015】

ＣＰＵ２０１は、上記の全ての要素を電気的にコントロールすることができる処理装置である。また撮像装置２００は、撮像装置通信手段２８を備えている。撮像装置通信手段２８は外部機器と接続するためのインターフェースであり、図２にて後述する通信装置３００との通信が可能である。有線通信、あるいは無線通信で外部機器と接続することができ、外部機器と相互に情報をやり取りすることができる。有線通信としては、例えばＵＳＢケーブル、ＬＡＮケーブルなどを介しての通信が、無線通信としては、例えば無線ＬＡＮなどを用いた通信があげられる。なお、本実施例においては無線ＬＡＮで通信装置３００と接続する。図１において制御信号線は省略されており、各要素間の情報の流れのみを矢印で示している。

【0016】

＜通信装置の構成＞
図２は本発明の第１の実施形態の通信装置３００のブロック図である。通信装置３００は、電気回路３０を備えており、電気回路３０にはＣＰＵ３６、判別手段３５、通信装置音声認識手段３７が実装されている。

【0017】

通信装置３００は、通信装置音声入力手段３１を備えており、通信装置外部の音声を取得可能である。通信装置音声入力手段３１は例えばマイクである。

【0018】

通信装置３００は、ネットワーク通信手段３４を備えており、無線ネットワーク４１（いわゆるインターネット）を介してクラウドシステム（以下クラウド）との通信を行なう。詳細は後述するが、通信装置３００のネットワーク通信手段３４を介して送信された音声ファイルを受信し音声認識処理を行い、音声認識結果を通信装置３００に送信する。

【0019】

通信装置３００は表示手段３２を備え、撮像装置２００で撮像された画像を通信装置通信手段３３より受信し、表示することができる。

【0020】

ＣＰＵ３６は、上記の全ての要素を電気的にコントロールすることができる処理装置である。

【0021】

また通信装置３００は、通信装置通信手段３３を備えている。通信装置通信手段３３は外部機器と接続するためのインターフェースであり、図１にて先述した撮像装置２００との通信が可能である。有線通信、あるいは無線通信で外部機器と接続することができ、外部機器と相互に情報をやり取りすることができる。有線通信としては、例えばＵＳＢケーブル、ＬＡＮケーブルなどを介しての通信が、無線通信としては、例えば無線ＬＡＮなどを用いた通信があげられる。なお、本実施例においては無線ＬＡＮで撮像装置２００と接続する。図２において制御信号線は省略されており、各要素間の情報の流れのみを矢印で示している。

【0022】

判別手段３５は、撮像装置２００に撮像装置音声認識手段２０４があるかどうかを判別することが可能である。具体的には撮像装置２００に撮像装置音声認識手段２０４があるかを通信にてやり取りし、その結果から判別することが可能である。

【0023】

＜通信システム＞
図４は通信装置３００とクラウド上の音声認識サーバ４２とで構成される通信システムの概念を示した図である。通信装置３００と音声認識サーバ４２では双方向の情報のやり取りを行なうことができる。通信装置音声入力手段３１からの音声信号に対し、通信装置３００のネットワーク通信手段３４を介して送信された音声ファイルを受信し、音声認識サーバ４２ではデータベース４３を参照して音声認識処理を行い、音声認識結果を通信装置３００に送信する。クラウド側に音声認識部を有しているので、複雑な音声命令であっても音声認識の正解率が高く、ユーザの所望の操作を行うことができる。

【0024】

＜音声認識処理＞
次に図５を用いて音声認識処理について説明する。図５は音声認識処理に関わるフローチャートである。本フローチャートで示される音声認識処理は、撮像装置２００と通信装置３００の両方で実行可能である。ゆえに、それぞれのステップは、撮像装置のＣＰＵ２０１または通信装置のＣＰＵ３６により各部が制御されることで実行される。

【0025】

まずフローが開始するとステップＳ１１では通信装置音声入力手段３１、もしくは撮像装置音声入力手段２７により、ユーザの発話に音声が入力される。

【0026】

ステップＳ１２では、ステップＳ１１で取得した信号から音声ファイルを作成する。例えば、音声ファイルはｗａｖファイルやｍｐ３ファイルなどである。

【0027】

ステップＳ１３では、ステップＳ１２で作成した音声ファイルを通信装置３００の場合は、ネットワーク通信手段３４を介して送信し、音声認識サーバ４２にて言語を認識しテキストファイルを生成するテキスト化処理を行なう。また撮像装置２００の場合は、撮像装置音声認識手段２０４を用いて、テキスト化処理を行う。

【0028】

ステップＳ１４では、ステップＳ１３で作成したテキストファイル内のワードを理解する言語理解処理を行なう。例えば、テキストファイルの内容が「レリーズ」であれば、撮像装置２００のレリーズ釦操作による露光動作の開始の命令であると理解し、その結果の操作命令を生成し、フローを終了する。ここでは音声命令を「レリーズ」のみの１ワードを例としたが、複数のワードを組み合わせたテキストファイルでも構わない。例えば「記録フォーマットをＪＰＥＧ＋ＲＡＷ」などでもよく、その場合は「記録フォーマット」を「ＪＰＥＧ＋ＲＡＷ」で記録するよう変更する命令と言語理解され、記録フォーマットが変更される。特にクラウド側の音声認識部は、ワード数が多い文章の場合や、複雑な音声命令であっても言語理解することが可能である。

【0029】

本実施例では、ステップＳ１２からステップＳ１４までの処理を音声認識処理と呼ぶこととする。

【0030】

撮像装置２００を通信装置３００でリモート操作する場合の音声認識においては、ユーザは通信装置３００の付近にて操作しているため、通信装置３００の音声認識サーバ４２を用いることが考えられる。しかし、音声認識処理は通通信装置３００のネットワーク通信手段３４を介してクラウド側の音声認識サーバ４２を用いて音声認識処理を行なう。そのため、通信状態が悪く転送レートが低い場合はクラウド側から音声認識処理結果が送られてくるまでに時間がかかる。

【0031】

そこで、本実施形態では撮像装置２００内にも撮像装置音声認識手段２０４を有しているかを判別手段３５にて判別し、あると判断した場合には撮像装置音声認識手段２０４で音声認識処理を行なう。撮像装置音声認識手段２０４は、例えば露光動作に直接関わる限定的なワードのような、撮像装置の操作に関わるワードが登録されたローカル音声辞書を有している。ローカル音声辞書が限定的なワードしか登録されていないため撮影に関係しない音声の認識はできないが、撮像装置２００の操作に関わる音声としては十分な辞書が登録されており、クラウド側音声認識部からの結果を待たずに撮影動作に移ることができる。よって、ユーザは音声入力によるカメラの設定変更や撮影を素早く行うことができる。

【0032】

図３は本発明の第１の実施形態のフローチャートである。Ｓ３００１～Ｓ３００６は撮像装置２００の処理を示している。Ｓ３１０１～Ｓ３１０６は通信装置３００の処理を示している。３２０１～３２０４は撮像装置２００と通信装置３００の間で行う通信の内容を示している。撮像装置２００の処理に関して説明する。

【0033】

Ｓ３００１において、撮像装置２００の図示されていない操作ボタンによってユーザにより無線通信モードの設定を行われたことを、撮像装置２００のＣＰＵ２０１は判断する。撮像装置２００のＣＰＵ２０１は、撮像装置通信手段２８を用いて無線通信の受付を開始しビーコン情報３２０１を定期的に送信する。ビーコン情報３２０１はＩＤ情報、ビーコン情報の送信間隔、通信可能な周波数範囲などを含む情報である。そしてＳ３００２へと進む。

【0034】

Ｓ３００２において、撮像装置２００のＣＰＵ２０１は、通信装置３００等の外部機器からの接続要求３２０２を待つ。接続要求３２０２を受け取ると、Ｓ３００３に進む。また本実施例においては特に説明しないが一定期間接続要求３２０２が来ないと処理を打ち切るように構成してもよい。

【0035】

Ｓ３００３において、撮像装置２００のＣＰＵ２０１は、接続完了通知３２０３を通信装置３００に対して送信する。また暗号化なしの通信であればこれで接続は確立されるが、実際にはセキュリティ手続きなどの認証手続きが続く。本実施例においては認証手続きに関しては説明を省略する。またこのとき、撮像装置２００のＣＰＵ２０１は、撮像装置音声認識手段２０４の有無通知３２０４を通信装置３００に対して送信する。これは撮像装置２００と通信装置３００の接続確立後にやりとりしてもよい。本フローにおいては、３２０２の接続要求において、撮像装置音声認識手段２０４の有無に関しても問い合わせが来ているものとする。接続完了通知３２０３を送信後、Ｓ３００４に進む。

【0036】

Ｓ３００４において、撮像装置２００のＣＰＵ２０１は、撮像装置音声認識手段２０４の使用通知３２０５が来るかを監視する。像装置音声認識手段２０４の使用通知３２０５が来た場合、Ｓ３００５へと進む。また一定期間たっても撮像装置音声認識手段２０４の使用通知３２０５が来ない場合、Ｓ３００６へと進む。

【0037】

Ｓ３００５において、撮像装置２００のＣＰＵ２０１は、撮像装置音声認識手段２０４の機能をＯＮにし、Ｓ３００６へと進む。

【0038】

Ｓ３００６においては、撮影準備が完了したものとして、撮像装置２００の一連の処理は完了する。

【0039】

続いて、通信装置３００の処理に関して説明する。

【0040】

Ｓ３１０１において、指示手段３４によってユーザにより無線通信モードの設定を行われたことを、通信装置３００のＣＰＵ３６は判断する。通信装置３００のＣＰＵ３６は、通信装置通信手段３３を用いてビーコン情報３２０１をスキャンする。その後Ｓ３１０２へと進む。

【0041】

Ｓ３１０２において、通信装置３００のＣＰＵ３６は、撮像装置２００等の外部機器からのビーコン情報３２０１を待つ。ビーコン情報３２０１を受け取ると、Ｓ３１０３に進む。また本実施例においては特に説明しないが一定期間ビーコン情報３２０１が来ないと処理を打ち切るように構成してもよい。

【0042】

Ｓ３１０３において、Ｓ３１０２で取得したビーコン情報３２０１より、接続したい対象をユーザは選択する。選択された対象（本実施例においては撮像装置２００）を通信装置３００のＣＰＵは認識し、接続要求３２０２を撮像装置２００に対して送信する。その後Ｓ３１０４へと進む。また先述したように接続要求３２０２には、撮像装置音声認識手段２０４の有無に関しての問い合わせも行われているものとする。

【0043】

Ｓ３１０４において、通信装置３００のＣＰＵは、撮像装置２００等の外部機器からの接続完了通知３２０３、撮像装置の音声認識手段２０４の有無通知３２０４を待つ。接続完了通知３２０３、音声認識手段２０４の有無通知３２０４を受け取ると、撮像装置２００との通信が確立し、Ｓ３１０５に進む。

【0044】

Ｓ３１０５において、通信装置３００のＣＰＵ３６は、音声認識手段２０４の有無通知３２０４より、以降の音声認識を、撮像装置音声認識手段２０４を用いて実施するか音声認識サーバ４２を用いて実施するかを決定する。この決定方法の詳細に関しては、図６を用いて後述する。音声認識手段２０４を用いて音声認識を実施すると決定した場合、Ｓ３１０６へと進む。また音声認識サーバ４２を用いて音声認識を実施すると決定した場合、Ｓ３１０７へと進む。

【0045】

Ｓ３１０６において、音声認識使用通知３２０５を撮像装置２００に対して送信する。その後Ｓ３１０７に進む。

【0046】

Ｓ３１０７において、撮像装置２００との通信が確立したことを、通信装置３００のＣＰＵは表示手段３２に表示する。通信装置３００から撮像装置２００の撮影が開始可能となる。

【0047】

図６は、音声認識処理を、撮像装置音声認識手段２０４を使用するか、音声認識サーバ４２を使用するかの判断の詳細を示している。図６の処理は通信装置３００のＣＰＵ３６によって実行される。

【0048】

Ｓ６０１において、通信装置３００は撮像装置２００をリモートで操作中であるか否かを判別する。これは、図３のＳ３１０４において、通信装置３００は撮像装置２００が通信確立され、かつ、通信装置３００が撮像装置２００をリモートで操作しているかを判別するという意味である。通信装置３００が、撮像装置２００をリモートで通信しているかは、通信装置３００が、撮像装置２００を操作可能なアプリを立ち上げているかどうかで判断することが可能である。通信装置３００と撮像装置２００の無線通信確立後であっても、通信装置３００が、撮像装置２００を操作可能なアプリを立ち上げていない場合、リモートで操作はしていないと判断される。リモートで操作中であると判別した場合はＳ６０２へと進む。このように通信装置３００が撮像装置２００のリモート動作中であることが判別できることで、この間のユーザの指示音声が撮像に関係あるものと判断することが可能である。

【0049】

リモートで操作中ではないと判別した場合はＳ６０４へと進む。通信装置３００が撮像装置２００のリモート動作中でない場合には、この間のユーザの指示音声が撮像に関係ない指示の可能性もあるものと判断することが可能である。

【0050】

Ｓ６０２において、通信装置３００のＣＰＵ３６は撮像装置２００に、撮像装置音声認識手段２０４があるか否かを判別する。これは、撮像装置音声認識手段２０４の有無通知３２０４を通信装置３００が受け取ることで判断可能である。撮像装置音声認識手段２０４があると判断した場合、Ｓ６０３へと進む。撮像装置音声認識手段２０４がないと判断した場合、Ｓ６０４へと進む。

【0051】

Ｓ６０３において、以降の通信装置３００の音声認識処理を、撮像装置音声認識手段２０４を用いて行う。ユーザが通信装置３００の音声装置認識手段３１に音声を入力した場合、ＣＰＵ３６はその音声データを通信装置通信手段３３によって、撮像装置２００へと送信する。撮像装置２００は撮像装置通信手段２８から受け取った音声データを撮像装置音声認識手段２０４によって音声認識処理し、その指示内容に応じた撮影動作を行う。指示内容とは前述したように例えば「レリーズ」であれば、撮像装置２００のレリーズ釦操作による露光動作の開始の命令であると理解し、その結果の操作命令を生成し、フローを終了する。

【0052】

この結果、クラウドシステム上に音声データを送る必要がなくなり、音声認識サーバ４２を用いる場合に比べて、音声認識にかかる時間を短縮することが可能で、撮像装置の設定変更や撮影が素早く行うことができる。

【0053】

なお、撮像装置２００の撮像装置音声認識手段２０４は、撮像に関する音声認識としては十分な認識が可能であるものとする。撮像装置音声認識手段２０４の音声認識の性能が低い場合に関しては第２の実施形態にて後述する。

【0054】

Ｓ６０４において、以降の通信装置３００の音声認識処理を、音声認識サーバ４２を用いて行う。ユーザが通信装置３００の音声装置認識手段３１に音声を入力した場合、音声データをネットワーク通信手段３４によって音声認識サーバに送信し、その音声認識処理の結果（すなわち、「レリーズ」などの撮影に関する操作命令）を通信装置３００は受け取る。その後、通信装置通信手段３３によって、撮像装置２００への操作命令を撮像装置へと送信する。撮像装置２００は撮像装置通信手段２８から受け取った音操作命令に応じた撮影動作を行う。その後、フローを終了する。

【0055】

撮像装置２００に撮像装置音声認識手段２０４がない場合には、音声認識サーバ４２を用いて、クラウドシステム上に音声データを送る時間が発生してしまうが、確実に撮像装置の設定変更や撮影を行うことができる。

【0056】

通信装置３００が撮像装置２００をリモートで操作している時に、音声認識処理のフローを音声認識サーバ４２から撮像装置音声認識手段２０４に変更することで、音声入力による撮像装置２００の設定変更や撮影を素早く行うことができる。

【0057】

［第２の実施形態］
以下、図７～８を参照して、本発明の第２の実施形態による、通信装置３００と撮像装置２００の状態に応じた音声認識について説明する。

【0058】

図７は本発明の第２の実施形態による、ネットワークの接続状況を考慮した音声認識の選択を示すフローチャートである。

【0059】

Ｓ６０１～Ｓ６０４に関しては図６で説明済みのため、説明を割愛する。第１の実施形態においては、Ｓ６０２の判断後に撮像装置音声認識手段２０４があると判断した場合Ｓ６０３へと進んだが、本実施例２においては、Ｓ７０１へと進む。撮像装置音声認識手段２０４がないと判断した場合Ｓ６０４へと進むのは第１の実施形態と同様である。

【0060】

Ｓ７０１においては、撮像装置音声認識手段２０４と音声認識サーバ４１の音声認識性能を比較する。音声認識性能の比較は、例えば撮影に関する撮像装置音声認識手段２０の音声データベースの数と、音声認識サーバ４１の音声データベースの数で比較すればよい。登録されている辞書のデータベースが多いほど多様な音声に対応することが可能である。またそれに限るものでなく、撮像装置音声認識手段２０４と音声認識サーバ４１の音声データベースの更新された日で比較してもよい。撮像装置音声認識手段２０４の音声認識の性能は、通信装置通信手段３３と、撮像装置通信手段２８で情報をやり取りすることで、通信装置３００のＣＰＵ３６が判断可能である。

【0061】

ここで音声認識サーバ４１の方が撮像装置音声認識手段２０４より性能がよいと判断した場合は、Ｓ６０４へと進む。また撮像装置音声認識手段２０４の方が音声認識サーバ４１より、性能がよいと判断した場合は、Ｓ７０２へと進む。また特にこれに限るものではなく、撮像装置音声認識手段２０４の性能が水準以上か水準未満かで判断してもよい。撮像装置音声認識手段２０４の性能が水準未満と判断した場合、Ｓ７０２へと進む。また撮像装置の音声認識手段２０４性能が水準以上と判断した場合は、Ｓ６０４へと進む。

【0062】

この結果、撮像装置音声認識手段２０４が、撮像に関して十分な音声認識性能があるかを通信装置３００のＣＰＵ３６は判断可能となる。性能が十分であると判断した場合は、以降通信装置３００が撮像装置２００をリモートで撮影している限りにおいて、撮像装置音声認識手段２０４を使用することで、音声入力による撮像装置２００の設定変更や撮影を素早く行うことができる。

【0063】

なお、性能が十分でないと判断した場合に関してはＳ７０２にて説明する。

【0064】

Ｓ７０２においては、通信装置３００のネットワーク通信手段３４の音声認識サーバ４１とのネットワーク接続状況を確認する。ネットワーク接続状況は、具体的には音声認識サーバ４１の通信レートを検出する。通信レートが所定値以下であればステップＳ６０３に進み、通信状態が悪く音声認識サーバ４１の結果を待つと時間がかかると判断し、音声認識処理の信頼率は低いが撮像装置音声認識手段２０４の結果を用いる。一方、通信レートが所定値を越えており通信状態がよいと判断されればステップＳ６０４に進み音声認識サーバ４１の結果を受信するまで待機される。

【0065】

このように、ネットワーク接続状況がよい場合は音声認識サーバ４１を用いることで設定変更や撮影を一定時間以内に行うことができる。またネットワーク接続状況が悪い場合には、音声認識の性能は下がってしまうが撮像装置音声認識手段２０４を使用することで、音声入力による撮像装置２００の設定変更や撮影ができなくならないように構成することができる。

【0066】

さらに、図８はさらに外部の環境音を考慮した音声認識の選択を示すフローチャートである。

【0067】

Ｓ６０１～Ｓ６０４、Ｓ７０１～Ｓ７０２に関しては説明済みのため、説明を割愛する。

【0068】

図７においては、Ｓ７０１の判断後に撮像装置音声認識手段２０４の性能が水準以上と判断した場合Ｓ６０３へと進んだが、本実施例２においては、さらにＳ８０１へと進む。撮像装置音声認識手段２０４の性能が水準未満と判断した場合Ｓ７０２へと進むのは図７と同様である。

【0069】

Ｓ８０１においては、通信装置音声入力手段３１によって取得される音声データの雑音レベルを検出する。雑音レベルの検出は、例えば音声データを周波数解析し、ユーザの音声の周波数帯以外に信号があるかで判断することが可能である。さらに、ユーザの音声の周波数帯以外の信号の大きさ（音量）が所定の大きさ以上かどうかで判断することも可能である。また特にこれに限るものではなく、２つのマイクの位相差から音の方向を検出して、ユーザの発生した音か否かを判断してもよい。

【0070】

ここで雑音が多いと判断した場合（例えば風が強い屋外や、複数人が会話しているような状況）は、Ｓ７０２へと進む。また雑音が少ないと判断した場合は、Ｓ６０４へと進む。

【0071】

撮像装置音声認識手段２０４が撮像に関して十分な音声認識性能があると通信装置３００のＣＰＵ３６は判断した場合においても、周囲環境音に応じて音声認識サーバ４１と撮像装置音声認識手段２０４を好適に切り替える。この結果、音声認識の性能が周囲環境音に応じて著しく下がることがないようにしつつ、音声入力による撮像装置２００の設定変更や撮影を素早く行うことができる。

【0072】

通信装置３００、撮像装置２００がそれぞれ音声認識機能を有している場合、音声認識処理の性能、ネットワーク接続状況、周囲環境音に応じて音声認識のフローを変更することで音声入力による撮像装置２００の設定変更や撮影を素早く行うことができる。

【0073】

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

【0074】

［その他の実施形態］
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムコードを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。

【図1】