特開2022-106109 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ニコンの特許一覧

特開2022-106109音声認識装置、音声処理装置および方法、音声処理プログラム、撮像装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022106109

(43)【公開日】2022-07-19

(54)【発明の名称】音声認識装置、音声処理装置および方法、音声処理プログラム、撮像装置

(51)【国際特許分類】

H04N 5/232 20060101AFI20220711BHJP

G10L 15/06 20130101ALI20220711BHJP

G10L 25/21 20130101ALI20220711BHJP

G10L 15/08 20060101ALI20220711BHJP

G10L 15/28 20130101ALI20220711BHJP

G03B 17/02 20210101ALI20220711BHJP

G03B 19/00 20210101ALI20220711BHJP

【ＦＩ】

H04N5/232 030

H04N5/232 450

G10L15/06 400V

G10L25/21

G10L15/08 300B

G10L15/28 400

G03B17/02

G03B19/00

【審査請求】未請求

【請求項の数】21

【出願形態】ＯＬ

(21)【出願番号】P 2021000858

(22)【出願日】2021-01-06

(71)【出願人】

【識別番号】000004112

【氏名又は名称】株式会社ニコン

(74)【代理人】

【識別番号】240000327

【弁護士】

【氏名又は名称】弁護士法人クレオ国際法律特許事務所

(72)【発明者】

【氏名】伊藤安軌

(72)【発明者】

【氏名】▲高▼野静二

【テーマコード（参考）】

2H054

2H100

5C122

【Ｆターム（参考）】

2H054BB13

2H100AA11

5C122DA03

5C122EA42

5C122FJ01

5C122FJ04

5C122FJ09

5C122FK15

5C122GA01

5C122GA23

5C122HA13

5C122HA35

5C122HA75

5C122HA76

5C122HA88

(57)【要約】

【課題】ユーザが発声する音声のうち囁き声を認識する。
【解決手段】音声認識装置を備える撮像装置１Ａは、ユーザ（撮影者）が発声する囁き声が入力される第１マイクロフォン１４ａと、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、囁き声を認識する音声認識部２２ｄと、音声認識部２２ｄによる認識結果に従って動作信号を出力するコマンド出力部２２ｅと、を備える。
【選択図】図５

【特許請求の範囲】

【請求項1】

少なくともユーザが発声する囁き声が入力される入力部と、
不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、前記囁き声を認識する認識部と、
前記認識部による認識結果に従ってコマンド信号を出力する出力部と、
を備えることを特徴とする音声認識装置。

【請求項2】

前記囁き声音響モデルは、前記不特定囁き声の囁き声周波数特性に基づいて作成される
ことを特徴とする請求項１に記載の音声認識装置。

【請求項3】

前記入力部には、少なくともユーザが発声する音声が入力され、
前記認識部は、囁き声モードと通常発声モードを有し、
前記囁き声モードは、前記囁き声音響モデルを用いて、入力された前記囁き声を認識するモードであり、
前記通常発声モードは、不特定通常発声の特徴を学習したことにより作成された通常発声音響モデルを用いて、入力された前記音声のうち通常発声を認識するモードであり、
前記囁き声モードまたは前記通常発声モードを判定する音声モード判定部を備える
ことを特徴とする請求項１又は請求項２に記載の音声認識装置。

【請求項4】

前記音声モード判定部は、前記入力部に入力された前記音声の周波数特性に基づいて前記囁き声モードまたは前記通常発声モードを判定する
ことを特徴とする請求項３に記載の音声認識装置。

【請求項5】

前記入力部に接してユーザが発声する接話か否かを検出する接話検出部を有し、
前記音声モード判定部は、接話のとき前記囁き声モードと判定し、接話でないとき前記通常発声モードと判定する
ことを特徴とする請求項３又は請求項４に記載の音声認識装置。

【請求項6】

前記入力部には、前記音声とユーザ周囲の環境音が入力され、
前記音声モード判定部は、前記入力部に入力された前記環境音の環境音ボリュームに基づいて前記囁き声モードまたは前記通常発声モードを判定する
ことを特徴とする請求項４又は請求項５に記載の音声認識装置。

【請求項7】

前記入力部には、前記音声とユーザ周囲の環境音が入力され、
前記入力部の感度を設定する音入力感度設定部を有し、
前記音入力感度設定部は、前記入力部に入力された前記環境音の環境音ボリュームが大きいほど前記入力部の感度を低く設定する
ことを特徴とする請求項１から請求項６までのいずれか一項に記載の音声認識装置。

【請求項8】

前記入力部には、前記音声とユーザ周囲の環境音が入力され、
前記認識部における音声認識時の仮説処理を間引くプルーニング閾値を判定するプルーニング閾値判定部を有し、
前記プルーニング閾値判定部は、前記入力部に入力された前記環境音の環境音ボリュームが大きいほど前記プルーニング閾値を大きく判定する
ことを特徴とする請求項１から請求項７までのいずれか一項に記載の音声認識装置。

【請求項9】

前記認識部が認識する前記音声の音圧を判定する音圧判定部を有し、
前記出力部は、前記認識部による認識結果に従った前記コマンド信号の出力対象の程度が変更できる場合、音圧判定結果により予め設定された前記出力対象の程度に従って前記コマンド信号を出力する
ことを特徴とする請求項３から請求項８までのいずれか一項に記載の音声認識装置。

【請求項10】

前記囁き声音響モデルを格納する記憶部と、
ユーザの前記囁き声の特徴を学習し、前記囁き声音響モデルを変換する囁き声音響モデル変換部と、
を備えることを特徴とする請求項１から請求項９までのいずれか一項に記載の音声認識装置。

【請求項11】

前記入力部には、ユーザが発声する音声のうち少なくとも前記囁き声とユーザ周囲の環境音との両方の音が入力され、
前記入力部に入力された前記音から前記音声を抽出する音声抽出部を有し、
前記入力部は三つ以上の複数であり、
三つ以上の前記入力部は、少なくとも一つの前記入力部を有する第１入力群と、同一平面上に配置された複数の前記入力部を有する第２入力群と、に分けられ、
前記第２入力群は、前記第１入力群に入力された前記音と位相差が生じる位置に配置され、
前記音声抽出部は、前記第２入力群の各入力部に入力された前記音から音方向を検出し、前記音方向に基づいて２つの前記入力群のうち先に前記音が入力された一方の前記入力群に入力された前記音に対して位相遅延を与え、前記第１入力群に入力された第１音と前記第２入力群に入力された第２音とを減算し、
前記認識部は、減算後の前記音に基づいて前記囁き声を認識する
ことを特徴とする請求項１から請求項１０までのいずれか一項に記載の音声認識装置。

【請求項12】

前記入力部には、前記音声のうち少なくとも前記囁き声とユーザ周囲の環境音との両方の音が入力され、
前記入力部に入力された前記音から前記音声を抽出する音声抽出部を有し、
前記入力部は複数であり、
三つ以上の前記入力部は、少なくとも一つの前記入力部を有する第１入力群と、残りの前記入力部を有する第２入力群と、に分けられ、
前記第２入力群は、前記第１入力群に入力された前記音と位相差が所定値以下となる位置に配置され、
前記音声抽出部は、前記第１入力群に入力された第１音と前記第２入力群に入力された第２音とを減算し、
前記認識部は、減算後の前記音に基づいて前記囁き声を認識する
ことを特徴とする請求項１から請求項１０までのいずれか一項に記載の音声認識装置。

【請求項13】

前記入力部には、ユーザが発声する音声とユーザ周囲の環境音との両方の音が入力され、
前記入力部に入力された前記音から前記音声を抽出する音声抽出部を有し、
前記入力部は三つ以上の複数であり、
三つの前記入力部は、同一平面上に配置され、少なくとも一つの前記入力部は一直線上に配置されず、
前記音声抽出部は、前記三つの入力部のそれぞれに入力された前記音から、特定の方向の特定方向音を抽出し、
前記認識部は、抽出後の前記特定方向音に基づいて前記音声を認識する
ことを特徴とする請求項１から請求項１０までのいずれか一項に記載の音声認識装置。

【請求項14】

前記入力部は、四つ以上の複数であり、
四つの前記入力部を点と仮定し、四つの前記点を線分で結ぶと三角錐を形成可能な位置に配置され、
前記音声抽出部は、前記四つの入力部のそれぞれに入力された前記音から、特定の方向の特定方向音を抽出し、
前記認識部は、抽出後の前記特定方向音に基づいて前記音声を認識する
ことを特徴とする請求項１３に記載の音声認識装置。

【請求項15】

少なくともユーザが発声する囁き声が入力されると、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、前記囁き声を認識する認識部と、
前記認識部による認識結果に従ってコマンド信号を出力する出力部と、
を備えることを特徴とする音声処理装置。

【請求項16】

少なくともユーザが発声する囁き声が入力されると、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、前記囁き声を認識する認識処理と、
前記認識処理による認識結果に従ってコマンド信号を出力する出力処理と、
を含むことを特徴とする音声処理方法。

【請求項17】

少なくともユーザが発声する囁き声が入力されると、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、前記囁き声を認識する認識処理と、
前記認識処理による認識結果に従ってコマンド信号を出力する出力処理と、
をコンピュータに実行させることを特徴とする音声処理プログラム。

【請求項18】

撮像光学系と、
請求項１から請求項１４までのいずれか一項に記載の音声認識装置、および、請求項１５に記載の音声処理装置の少なくとも一つと、
を備えることを特徴とする撮像装置。

【請求項19】

前記入力部は複数であり、
動画を記録するとき、前記入力部に入力された前記音から動画用の動画用音を抽出する動画用音抽出部を有し、
前記音声抽出部による前記音声の抽出と前記動画用音抽出部による前記動画用音の抽出との両方を同時に行い、
前記音声抽出部は、前記複数の入力部のそれぞれに入力された前記音から、前記音声の方向の特定方向音声を抽出し、
前記認識部は、抽出後の前記特定方向音声から前記音声を認識し、
前記動画用音抽出部は、前記複数の入力部のそれぞれに入力された前記音から、特定の方向の前記動画用音を抽出する
ことを特徴とする請求項１８に記載の撮像装置。

【請求項20】

複数の前記入力部と、
本体と、
前記本体の傾きを検出する傾きセンサと、
前記傾きセンサにより検出された傾き情報に基づいて、前記複数の入力部のうち少なくとも一つの入力部を音声認識用に変更する変更部と、を備える
ことを特徴とする請求項１８又は請求項１９に記載の撮像装置。

【請求項21】

前記本体に設けられたファインダと、
前記入力部に接してユーザが発声する接話か否かを検出する接話検出部と、
を備え、
前記変更部は、ユーザが前記ファインダを覗いている眼を判定し、眼の判定結果と前記傾き情報に基づいて、接話のときにユーザの口に最も近い、前記複数の入力部のうち一つの入力部を音声認識用に変更する
ことを特徴とする請求項２０に記載の撮像装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識装置、音声処理装置および方法、音声処理プログラム、撮像装置に関するものである。

【背景技術】

【0002】

ファインダに画像を表示する表示モードとディスプレイに画像を表示する表示モードとを切替える。ファインダに画像を表示している場合、音声入力の処理を接話用のモードに設定し、ディスプレイに画像を表示している場合、音声入力の処理を非接話用のモードに設定する。この装置において、設定された音声入力のモードに従って、予め設定された制御コマンドを音声入力するように構成されている（特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第５２４７３８４号公報

【0004】

しかし、上述の特許文献１に開示された技術では、ユーザが発声する音声のうち囁き声を認識することが困難である。

【発明の概要】

【0005】

第１の態様によれば、音声認識装置は、少なくともユーザが発声する囁き声が入力される入力部と、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、囁き声を認識する認識部と、認識部による認識結果に従ってコマンド信号を出力する出力部と、を備える。第２の態様によれば、音声処理装置は、少なくともユーザが発声する囁き声が入力されると、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、囁き声を認識する認識部と、認識部による認識結果に従ってコマンド信号を出力する出力部と、を備える。第３の態様によれば、音声処理方法は、少なくともユーザが発声する囁き声が入力されると、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、囁き声を認識する認識処理と、認識処理による認識結果に従ってコマンド信号を出力する出力処理と、を含む。第４の態様によれば、音声処理プログラムは、少なくともユーザが発声する囁き声が入力されると、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、囁き声を認識する認識処理と、認識処理による認識結果に従ってコマンド信号を出力する出力処理と、をコンピュータに実行させる。

【図面の簡単な説明】

【0006】

【図1】第１実施形態を示す音声認識装置を備える撮像装置の後方斜視図である。

【図2】第１実施形態を示す音声認識装置を備える撮像装置の平面図である。

【図3】第１実施形態を示す音声認識装置を備える撮像装置の背面図である。

【図4】第１実施形態を示す撮像装置の制御ユニットのブロック構成図である。

【図5】第１実施形態を示す撮像装置の音モジュールのブロック構成図である。

【図6】第１実施形態を示す撮像装置の音声抽出部が行う減算処理の一例を説明する説明図である。

【図7】第１実施形態を示す撮像装置の記憶部に格納されているコマンドリストと程度変更リストを示す図である。

【図8】第１実施形態の変形例１－１を示す撮像装置の音モジュールのブロック構成図である。

【図9】第１実施形態の変形例１－２を示す撮像装置の音モジュールのブロック構成図である。

【図10】第２実施形態を示す音声認識装置を備える撮像装置の平面図である。

【図11】第２実施形態を示す撮像装置の音モジュールのブロック構成図である。

【図12】第２実施形態を示す撮像装置の音声抽出部が行う位相遅延の付加を説明する説明図である。

【図13】第３実施形態を示す撮像装置の音モジュールのブロック構成図である。

【図14】第３実施形態を示す撮像装置の音声抽出部における特定方向音声の範囲の一例と撮像装置の環境音抽出部における特定方向音の範囲の一例を説明する説明図である。

【図15】第４実施形態を示す音声認識装置を備える撮像装置の背面図である。

【図16】第４実施形態を示す撮像装置の制御ユニットのブロック構成図である。

【図17】第４実施形態を示す撮像装置の音モジュールのブロック構成図である。

【図18】第４実施形態を示す撮像装置の横位置と縦位置の一例を説明する説明図である。

【図19】第４実施形態を示す撮像装置の音声抽出部における特定方向音声の範囲の一例と撮像装置の環境音抽出部における特定方向音の範囲の一例を説明する説明図である。

【図20】５．１ｃｈサラウンドとバイノーラルを作成する場合に撮像装置の環境音抽出部における特定方向音の範囲の一例を説明する説明図である。

【図21】縦位置の想定されるパターンを説明する説明図である。

【発明を実施するための形態】

【0007】

以下、図面に基づいて各実施形態である音声認識装置と音声処理装置と音声処理方法と音声処理プログラムと撮像装置が適用される撮像装置（例えばデジタルカメラ）について説明する。
（第１実施形態）

【0008】

図１～図７を参照して、撮像装置１Ａについて説明する。

【0009】

撮像装置１Ａの装置本体１０Ａ（本体、筐体）は、図１～図４に示すように、撮像光学系１１（結像光学系）と、ファインダ１２と、アイセンサ１３（接話検出部）と、第１マイクロフォン１４ａ（入力部）と、第２マイクロフォン１４ｂ（入力部）と、第３マイクロフォン１４ｃ（入力部）と、ディスプレイ１５と、を有する。装置本体１０Ａの右側にはグリップ部１００が一体に構成されている。更に、装置本体１０Ａは、操作部１６として、電源スイッチ１６ａと、撮影モードダイヤル１６ｂと、静止画／動画切り換えレバー１６ｃと、シャッタボタン１６ｄと、動画撮影ボタン１６ｅと、等を有する。更にまた、装置本体１０Ａは、制御ユニット２０を有する。更に、装置本体１０Ａは、図略の各種のアクチュエータ等を有する。なお、以下において、第１マイクロフォン１４ａ～第３マイクロフォン１４ｃを特に区別しない場合には「マイクロフォン１４」とも記載する。

【0010】

撮像光学系１１は、レンズ等から構成されており、装置本体１０Ａの前面、かつ、グリップ部１００の左側に配置されている。撮像光学系１１は、図略の撮像素子（例えばＣＭＯＳイメージセンサ）に被写体像を結像する。なお、「ＣＭＯＳ」は「ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ」の略である。

【0011】

ファインダ１２は、例えば、装置本体１０Ａの後側、かつ、撮像光学系１１とディスプレイ１５よりも上側に配置されている。ファインダ１２は、例えば公知の電子ビューファインダ（ＥＶＦ）であり、ファインダ１２内に設けられたファインダ用ディスプレイに表示される画像により被写体を確認するものである。なお、「ＥＶＦ」は「ＥｌｅｃｔｒｏｎｉｃＶｉｅｗＦｉｎｄｅｒ」の略である。

【0012】

アイセンサ１３は、撮影者（ユーザ）がファインダ１２を覗いているか否かを検出するセンサである。アイセンサ１３は、ファインダ１２を撮影者が覗く部分の周囲に配置されている。例えば、本実施形態ではファインダ１２の上側に配置されている。撮影者がファインダ１２を覗くと、アイセンサ１３は撮影者の眼がファインダ１２に接している接眼状態を検出する。撮影者がファインダ１２を覗いていないと、アイセンサ１３は撮影者の眼がファインダ１２から離れている離眼状態を検出する。

【0013】

第１マイクロフォン１４ａ～第３マイクロフォン１４ｃのそれぞれには、撮影者が発声する音声と撮影者周囲（ユーザ周囲）の環境音との両方の音が入力される。第１マイクロフォン１４ａ～第３マイクロフォン１４ｃのそれぞれは、音をアナログ信号の音アナログ信号（音アナログデータ）へ変換する。マイクロフォン１４の指向性は、例えば、全ての方向から同じ感度で音が入力される無指向性（全指向性）である。第１マイクロフォン１４ａ～第３マイクロフォン１４ｃは、第１マイクロフォン１４ａを有する第１マイク群１４Ａ（第１入力群）と、第２マイクロフォン１４ｂと第３マイクロフォン１４ｃを有する第２マイク群１４Ｂ（第２入力群）と、に分けられる。第１マイク群１４Ａと第２マイク群１４Ｂは、上下方向（垂直方向）において重なる位置に配置されている。言い換えると、以下の通りである。まず、第２マイクロフォン１４ｂと第３マイクロフォン１４ｃの配置関係は、第２マイクロフォン１４ｂと第３マイクロフォン１４ｃを点と仮定し、当該二つの点を線分で結ぶと直線を形成可能な位置に配置されている。そして、その直線と第１マイクロフォン１４ａは、上下方向（垂直方向）において重なる位置に配置されている。なお、第１マイクロフォン１４ａは、その直線の中央部に限らず、その直線内において上下方向（垂直方向）において重なる位置に配置されていれば良く、例えば第２マイクロフォン１４ｂまたは第３マイクロフォン１４ｃ寄りに配置されていても良い。第１マイク群１４Ａの第１マイクロフォン感度と第２マイク群１４Ｂの第２マイクロフォン感度とは、異なる感度に設定されている。第１マイクロフォン感度は、少なくとも撮影者が発声する無声音の入力が可能な感度に設定される。第２マイクロフォン感度は、少なくとも撮像装置１Ａを中心とした所定範囲の環境音の入力が可能な感度に設定される。なお、第１マイクロフォン感度と第２マイクロフォン感度が同じ感度に設定されている場合、第１マイクロフォン感度と第２マイクロフォン感度は、両方の条件を満たす感度に設定すれば良い。

【0014】

ここで、「撮影者が発声する音声」とは、通常発声と囁き声である。「通常発声」とは、母音が有声音の音声のことである。「有声音」とは、撮影者が発声する音声のうち、撮影者の声帯の振動を伴う音である。「囁き声」とは、上記の通常発声の音声の少なくとも一部を無声化した音声である。「無声化」とは、母音または子音が無声音になることを指す。「無声音」とは、撮影者が発声する音声のうち、撮影者の声帯の振動を伴わない音である。ここで、「通常発声」と「囁き声」について一例を示す。なお、英語の大文字を有声音と仮定し、英語の小文字を無声音と仮定して説明する。例えば、「動画」というワードを発声する場合について説明する。通常発声では「ＤＯＵＧＡ」となる。囁き声では、「ＤｏｕＧａ」や「ｔＯＵｋＡ」のように有声音と無声音の混合の場合や、「ｔｏｕｋａ」のように完全に無声化される場合がある。また、通常発声でも無声音を含む場合がある。例えば、「撮影」は、通常発声では「ｓＡｔＵＥＩ」となり、囁き声では「ｓａｔｕｅｉ」となる。このように、囁き声による「撮影」では、通常発声の音声の少なくとも一部を無声化した音声となる。そして、「環境音」とは、街の喧騒や自然の音等の日常的な音に加え、街で流れる音楽等も含む音である。環境音には、被写体が生き物である場合には、その生き物が発する音（例えば人間の音声や動物の鳴き声や虫の羽音等）も含む。

【0015】

第１マイクロフォン１４ａは、装置本体１０Ａの後面、かつ、撮像光学系１１とディスプレイ１５よりも下側に配置されている。第１マイクロフォン１４ａは、装置本体１０Ａに接して撮影者が発声するときに用いられる。なお、以下において、装置本体１０Ａに接して撮影者が発声することを「接話」（例えば第１マイクロフォン１４ａと撮影者の口の距離が数ｃｍ以内）とも記載し、装置本体１０Ａから離れて撮影者が発声することを「非接話」（例えば第１マイクロフォン１４ａと撮影者の口の距離が１０ｃｍ以上）とも記載する。

【0016】

第２マイク群１４Ｂは、ファインダ１２を撮影者が覗く部分よりも装置本体１０Ａの前側、かつ、撮像光学系１１よりも上側に配置されている。このため、第２マイク群１４Ｂは、第１マイク群１４Ａよりも環境音が入力されやすい。第２マイクロフォン１４ｂと第３マイクロフォン１４ｃは、ファインダ１２の左右位置に一つずつ配置され、かつ、同一平面上に配置されている。更に、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された音と位相差が所定値以下となる位置に配置されている。本実施形態では、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された、地平線に対して水平方向の音と位相差が生じない位置に配置されている。なお、所定値は、予め実験やシミュレーション等を行って値を設定する。

【0017】

ディスプレイ１５は、制御ユニット２０から供給される画像を表示する。ディスプレイ１５は、例えば液晶ディスプレイであり、タッチパネル機能を有している。ディスプレイ１５は、装置本体１０Ａの後面に設けられている。ディスプレイ１５には、撮影中の画像と、撮像装置１Ａの機能メニュー画像と、撮像装置１Ａの設定情報画像と、撮影された画像と、等を表示することができる。ディスプレイ１５のタッチ操作により撮像装置１Ａの各種機能の設定等を行うことができる。ディスプレイ１５は、上向きや下向き等へ角度を変えることができる。

【0018】

操作部１６は、撮影等に関するボタンやスイッチ等で構成されている。操作部１６は、ディスプレイ１５のタッチ操作により可能なものも含んでいる。電源スイッチ１６ａは、撮像装置１Ａの電源のＯＮとＯＦＦを切り替える。撮影モードダイヤル１６ｂは、撮影モードを変更する。なお、撮影モードには、各種設定を撮像装置１Ａが自動で設定するオートモードと、撮影者が頻繁に使用する機能を事前に登録する撮影者セッティングモードと、等が有る。静止画／動画切り換えレバー１６ｃは、静止画撮影または動画撮影を切り替える。シャッタボタン１６ｄは、半押しによりピントを合わせることができ、全押しにより静止画を撮影することができる。動画撮影ボタン１６ｅは、動画の撮影前に押すと動画の撮影を開始し、動画の撮影中に押すと動画の撮影を終了する。

【0019】

以下、図４を参照して、制御ユニット２０のブロック構成について説明する。

【0020】

制御ユニット２０（コンピュータ）は、記憶部２１と、音モジュール２２と、撮像部２３と、通信部２４と、を有する。

【0021】

制御ユニット２０は、ＣＰＵ等の演算素子を有し、記憶部２１に格納されている図略の制御用プログラムが起動時に読み出されて制御ユニット２０において実行される。これにより、制御ユニット２０は、ファインダ１２と、マイクロフォン１４と、ディスプレイ１５と、操作部１６と、音モジュール２２と、撮像部２３と、通信部２４と、を含む撮像装置１Ａ全体の制御を行う。制御ユニット２０には、アイセンサ１３の検出信号（検出結果）と、マイクロフォン１４の音アナログ信号と、等の信号が入力される。制御ユニット２０には、図略の入力インタフェースを介して、ディスプレイ１５のタッチ操作による撮像装置１Ａの各種機能の設定信号等と、操作部１６からの各操作信号と、等が入力される。制御ユニット２０は、入力された各種の信号に基づいて、撮像装置１Ａ全体の制御を行う。なお、「ＣＰＵ」は「ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ」の略である。

【0022】

例えば、制御ユニット２０は、アイセンサ１３の検出信号が接眼状態のとき、図略のディスプレイコントローラを介して、ディスプレイ１５の電源を自動的に消すと共に、ファインダ用ディスプレイの電源を自動的に入れる。制御ユニット２０は、アイセンサ１３の検出信号が離眼状態のとき、図略のディスプレイコントローラを介して、ディスプレイ１５の電源を自動的に入れると共に、ファインダ用ディスプレイの電源を自動的に消す。

【0023】

記憶部２１は、大容量記憶媒体（例えばフラッシュメモリやハードディスクドライブ等）およびＲＯＭ、ＲＡＭ等の半導体記憶媒体を備える。記憶部２１には上述の制御用プログラムが格納されていると共に、制御ユニット２０の制御動作時に必要とされる各種データが一時的に格納される。記憶部２１のＲＡＭには、マイクロフォン１４より入力された未圧縮のＲＡＷ音声データ（生音声データ）が一時的に格納される。記憶部２１には、撮像部２３から出力される画像データや映像データ等の各種データも格納される。なお、「ＲＯＭ」は「ＲｅａｄＯｎｌｙＭｅｍｏｒｙ」の略であり、「ＲＡＭ」は「ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ」の略である。

【0024】

音モジュール２２は、マイクロフォン１４より入力された音アナログ信号の変換や、撮影者が発声する音声の認識や、認識されたテキスト信号（認識結果）に従って動作信号（コマンド信号）の出力等の処理を行う。すなわち、音モジュール２２は、音声処理装置として機能する。音モジュール２２の詳細は後述する。

【0025】

撮像部２３において、図略の撮像素子は撮像光学系１１により結像する被写体像を撮像して画像信号を生成する。生成された画像信号に対して各種の画像処理（例えばノイズ除去処理や圧縮処理等）を施し、画像データ（静止画）を生成する。生成された画像データは記憶部２１に格納される。動画撮影の場合には、連続した複数の画像データから映像データを生成し、生成された映像データは記憶部２１に格納される。

【0026】

通信部２４は、有線または無線により外部機器と通信する。

【0027】

以下、図５を参照して、音モジュール２２のブロック構成について説明する。

【0028】

音モジュール２２は、音声モード判定部２２ａと、音処理部２２ｂと、音声抽出部２２ｃと、音声認識部２２ｄ（認識部）と、コマンド出力部２２ｅ（出力部）と、音響モデル変換部２２ｆ（囁き声音響モデル変換部）と、を有する。なお、図５に示す例では、本実施形態の音声認識装置は、アイセンサ１３と、マイクロフォン１４と、音モジュール２２と、記憶部２１と、を備える。制御用プログラムとして、各部２２ａ～２２ｆの処理を実行するためのプログラムが記憶部２１に格納されている。制御ユニット２０は、プログラムを読み出して、ＲＡＭにて実行することにより、各部２２ａ～２２ｆの処理を行う。なお、第１実施形態では、静止画撮影時の音モジュール２２が行う音声認識制御について説明する。

【0029】

音声モード判定部２２ａは、アイセンサ１３の検出信号に基づいて、音声認識部２２ｄが有する囁き声モードまたは通常発声モードを判定する。音声モード判定部２２ａは、判定したモードをモード信号として音声認識部２２ｄへ出力する。具体的には、音声モード判定部２２ａは、以下の音声モード判定処理を、アイセンサ１３から検出信号が入力される間に繰り返し行う。

【0030】

音声モード判定部２２ａは、アイセンサ１３の検出信号が接眼状態の場合、囁き声モードと判定する。つまり、撮影者が接眼状態であるので、撮影者が発声する場合には装置本体１０Ａに対して接話になる。このため、音声モード判定部２２ａは、囁き声モードと判定する。音声モード判定部２２ａは、アイセンサ１３の検出信号が離眼状態の場合、通常発声モードと判定する。つまり、撮影者が離眼状態であるので、撮影者が発声する場合には装置本体１０Ａに対して非接話になる。このため、音声モード判定部２２ａは、通常発声モードと判定する。そして、音声モード判定部２２ａは、判定したモードをモード信号として音声認識部２２ｄへ出力する。

【0031】

ここで、一般的に、ユーザが音声認識機能を利用する場合、マイクロフォン１４から離れていると（例えば１０ｃｍ以上）ユーザが発声する音声は通常発声になり、マイクロフォン１４の近傍であると（例えば数ｃｍ）ユーザが発声する音声は囁き声になる。例えば、マイクロフォン１４を人間の耳と仮定すると、耳の近傍で発声する場合には耳打ち等という言葉があるように無意識に人間は囁き声になる。このため、音声モード判定部２２ａは、接話のとき囁き声モードと判定し、非接話のとき通常発声モードと判定する。

【0032】

「囁き声モード」は、多数の話者から取得した不特定囁き声の囁き声教師データの特徴を学習したことにより作成された囁き声音響モデルを用いて、入力された音声のうち囁き声を認識するモードである。「通常発声モード」は、多数の話者から取得した不特定通常発声の通常発声教師データの特徴を学習したことにより作成された通常発声音響モデルを用いて、入力された音声のうち通常発声を認識するモードである。囁き声教師データは、多数の話者から取得した不特定囁き声の音声データとラベルデータ(何の言葉が発声されたか)のセットである。通常発声教師データは、多数の話者から取得した不特定通常発声の音声データとラベルデータ(何の言葉が発声されたか)のセットである。音響モデルは、物理的な「音」を文字の最小単位の「音素」に変換するためのモデルである。囁き声音響モデルは不特定囁き声の囁き声周波数特性に基づいて作成され、通常発声音響モデルは不特定通常発声の通常発声周波数特性に基づいて作成される。囁き声の周波数特性は、通常発声の周波数特性よりも低周波数（成分）が少ないという特徴がある。このため、音声認識において、通常発声音響モデルにより囁き声を認識するのは困難であるので、囁き声の認識には通常発声音響モデルとは別に囁き声音響モデルが必要になる。なお、囁き声教師データと、囁き声音響モデルと、通常発声教師データと、通常発声音響モデルと、は記憶部２１に格納されている。

【0033】

音処理部２２ｂは、マイクロフォン１４より入力された音アナログ信号を、音デジタル信号（音デジタルデータ、音）への変換や音デジタル信号の公知のノイズ除去等の音処理を行う。音処理部２２ｂは、音デジタル信号を音声抽出部２２ｃへ出力する。具体的には、音処理部２２ｂは、以下の音処理を、マイクロフォン１４に音が入力される間に繰り返し行う。なお、音処理は、第１マイクロフォン１４ａ～第３マイクロフォン１４ｃのそれぞれに入力された音について別々に行う。また、音デジタル信号は、第１マイクロフォン１４ａ～第３マイクロフォン１４ｃのそれぞれに入力された音が、音処理された信号を特に区別しない場合のことである。

【0034】

まず、音処理部２２ｂは、音アナログ信号を増幅する。音処理部２２ｂは、プリアンプを用いて、音アナログ信号を増幅する。音処理部２２ｂは、増幅した音アナログ信号をアナログ・デジタル・コンバータへ出力する。ここで、音アナログ信号を増幅する理由は、音アナログ信号が微弱だからである。増幅は、次のアナログ・デジタル・コンバータの受けられる電圧の幅に合わせることにより、ＳＮＲやダイナミックレンジを確保することができる。なお、「ＳＮＲ」は、「Ｓ／Ｎ比（信号対雑音比）」のことである。

【0035】

次いで、音処理部２２ｂは、音デジタル信号に変換する。音処理部２２ｂは、アナログ・デジタル・コンバータを用いて、音アナログ信号を音デジタル信号へ変換する。

【0036】

次いで、音処理部２２ｂは、音デジタル信号のＤＣ成分（直流成分）をカットする。例えば、音処理部２２ｂは、ハイ・パス・フィルタ（周波数帯域制限フィルタ）を用いて、ＤＣ成分をカットする。ここで、ＤＣ成分をカットしないと、音デジタル信号のバイアスにより、信号の振幅幅に制限ができてしまい、音割れやダイナミックレンジの悪化を伴うおそれがある。

【0037】

次いで、音処理部２２ｂは、音デジタル信号の周波数特性を調整する。例えば、音処理部２２ｂは、バンド・パス・フィルタを用いて、音デジタル信号の周波数特性を調整する。周波数特性を調整する理由は、電気的なピークノイズの除去や音質調整のためである。なお、バンド・パス・フィルタを、イコライザやノッチフィルタ（バンド・ストップ・フィルタ）としても良い。

【0038】

次いで、音処理部２２ｂは、音デジタル信号のボリュームを調整する。例えば、音処理部２２ｂは、ダイナミック・レンジ・コントロールやオート・ゲイン・コントロールを用いて、ボリュームが大きい音が入ったときには感度を下げ、小さい音が入ったときには感度を上げる、というボリューム処理を行う。なお、ボリュームの大小の判定は、予め実験やシミュレーション等に基づいて設定される。音処理部２２ｂは、ノイズゲートを更に用いて、ノイズレベルの小さな音しか入っていないときにはさらに感度を下げ、ベースノイズを抑制しても良い。なお、ベースノイズは、暗騒音のことであり、例えば撮像装置１Ａの駆動音等である。

【0039】

次いで、音処理部２２ｂは、音デジタル信号から風切り音を低減する。例えば、音処理部２２ｂは、音デジタル信号を解析し、風の入力を識別判断して、音デジタル信号につき風切り音を低減する処理を行う。なお、ＤＣ成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減の順番は上述した順番に限られない。そして、音処理部２２ｂは、音処理した音デジタル信号を音声抽出部２２ｃへ出力する。

【0040】

音声抽出部２２ｃは、音処理部２２ｂより入力された音デジタル信号から、環境音デジタル信号（環境音デジタルデータ、環境音）を抑制して、音声デジタル信号（音声デジタルデータ、音声）を抽出する。音声抽出部２２ｃは、抽出した音声デジタル信号を音声認識部２２ｄへ出力する。具体的には、音声抽出部２２ｃは、以下の音声抽出処理を、音処理部２２ｂから音デジタル信号が入力される間に繰り返し行う。なお、以下において、第１マイク群１４Ａに入力された音が、音処理された音デジタル信号を「第１音デジタル信号（第１音デジタルデータ、第１音）」と記載する。また、第２マイク群１４Ｂに入力された音が、音処理された音デジタル信号を「第２音デジタル信号（第２音デジタルデータ、第２音）」と記載する。そして、第１音デジタル信号と第２音デジタル信号を特に区別しない場合には上記と同様に「音デジタル信号」と記載する。

【0041】

第２マイク群１４Ｂは、第１マイク群１４Ａに入力された、地平線に対して水平方向の音と位相差が生じない位置に配置されているので、第１マイク群１４Ａと第２マイク群１４Ｂに入力された音の方向につき位相差は考慮しなくて良い。このため、音声抽出部２２ｃは、入力された音に位相遅延は与えない。第１マイクロフォン感度と第２マイクロフォン感度が異なるので、音処理部２２ｂから入力された第１音デジタル信号と第２音デジタル信号との環境音の環境音ボリュームの差を考慮する。このため、音声抽出部２２ｃは、感度分差分を演算で補正する。なお、第１マイクロフォン感度と第２マイクロフォン感度が同じ場合、音処理部２２ｂから入力された第１音デジタル信号と第２音デジタル信号との環境音の環境音ボリュームの差を考慮する必要はない。

【0042】

音声抽出部２２ｃは、音デジタル信号から音声デジタル信号を抽出する。例えば、音声抽出部２２ｃは、第１音デジタル信号と第２音デジタル信号を減算する減算処理を行う。そして、音声抽出部２２ｃは、減算処理された音声デジタル信号を音声認識部２２ｄへ出力する。

【0043】

図６を参照して、減算処理の一例を説明する。図６（Ａ）に示すように、撮影者が発声する音声と環境音は、第１マイク群１４Ａ（矢印Ａ）と第２マイク群１４Ｂ（矢印Ｂ）にそれぞれ入力される。そして、図６（Ｂ）では、第１マイク群１４Ａと第２マイク群１４Ｂのそれぞれに入力された音のうち、環境音を帯形状で示し、音声を環境音に重ねて波形で示している。なお、第１マイクロフォン感度と第２マイクロフォン感度が異なるので、上述したように音声抽出部２２ｃが感度分差分を演算で補正することにより、環境音を同じ帯形状で示すことが可能である。なお、第１マイクロフォン感度と第２マイクロフォン感度が同じ場合、環境音ボリュームの差は考慮しなくて良いため、環境音を同じ帯形状で示すことが可能である。撮影者の口は、図６（Ａ）に示すように、第２マイク群１４Ｂよりも第１マイク群１４Ａに近い（接話）。このため、図６（Ｂ）の範囲Ｃに示すように、音声の波形では第２マイク群１４Ｂの振幅よりも第１マイク群１４Ａの振幅の方が大きく入力されている。言い換えると、第１マイク群１４Ａと第２マイク群１４Ｂは上下方向（垂直方向）において重なる位置に配置されているので、第１マイク群１４Ａと第２マイク群１４Ｂで入力される音声のボリュームに差がある。そして、第１音デジタル信号と第２音デジタル信号を減算すると、図６（Ｃ）に示すように、音声デジタル信号を抽出することができる。なお、仮に環境音と音声が同じ位相でも、音声が打ち消されることはなく、環境音が打ち消される。

【0044】

ここで、各方向の音の位相差は、地平線に対する水平方向に限らず、上下方向やその他の方向にも生じる。即ち、音の位相差は全方位（三次元）に生じる。なぜなら、第１マイク群１４Ａと第２マイク群１４Ｂの間隔の距離に基づいても位相差が生じるからである。しかし、一般的に、音の成分のうち水平方向の成分は、上下方向等の他の方向の成分よりも多いことが知られている。例えば、野外での収録（収音）では周囲の暗騒音のレベルが高くなるが、ショットガンマイクの角度を真下に向けて収音することにより暗騒音のレベルを抑制できる。つまり、上下方向の音の成分が少なく、水平方向の音の量が多いということである。このため、上下方向等のその他の方向の音の位相差が生じていても、上述したように地平線に対して水平方向の音の位相差を合わせた状態にて減算処理を行う。これにより、音声認識が可能な音声デジタル信号を抽出することができる。

【0045】

音声認識部２２ｄは、音声モード判定部２２ａより入力されたモード信号に基づいて、囁き声モードまたは通常発声モードを設定する。音声認識部２２ｄは、音声抽出部２２ｃより入力された音声デジタル信号に基づいて、設定したモードにより音声を認識する。音声認識部２２ｄは、テキスト信号をコマンド出力部２２ｅへ出力する。音声認識部２２ｄは、音声デジタル信号とテキスト信号（ラベルデータ）をセットにした教師データ（囁き声教師データまたは通常発声教師データ）を、記憶部２１へ出力する。なお、音声認識部２２ｄは、設定したモードに合わせて、教師データを囁き声教師データまたは通常発声教師データとして、記憶部２１へ出力する。具体的には、音声認識部２２ｄは、以下の音声認識処理（認識処理）を、音声モード判定部２２ａからモード信号と、音声抽出部２２ｃから音声デジタル信号と、が入力される間に繰り返し行う。

【0046】

まず、音声認識部２２ｄは、モード信号に基づいて、囁き声モードまたは通常発声モードを設定する。音声認識部２２ｄは、設定後、設定したモードに基づいて、記憶部２１に格納されている囁き声音響モデルまたは通常発声音響モデルを読み込む。

【0047】

次いで、音声認識部２２ｄは、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。具体的には、音声認識部２２ｄは、囁き声モードを設定した場合、囁き声音響モデルを用いて、囁き声デジタル信号（音声デジタル信号、囁き声）を音素に変換する。一方、音声認識部２２ｄは、通常発声モードを設定した場合、通常発声音響モデルを用いて、通常発声デジタル信号（音声デジタル信号、通常発声）を音素に変換する。なお、音声認識エンジンは、入力された音声デジタル信号をテキスト化する。

【0048】

次いで、音声認識部２２ｄは、音素の並び順を、予め登録した単語辞書（発音辞書）と紐づけて、単語の候補を列挙する。なお、単語辞書は、囁き声音響モデルまたは通常発声音響モデルにて変換された音素から単語へ紐づけるための辞書である。また、単語辞書は、予め記憶部２１に格納されている。

【0049】

次いで、音声認識部２２ｄは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。なお、言語モデルは、単語の並びの確立情報モデルであり、言葉の並びを制限することにより単語の候補から正しい文章になる文章の候補の精度と速度を向上することができる。一例として、「わたし」「は」「げんき」「です」等である。また、言語モデルは、予め記憶部２１に格納されている。

【0050】

次いで、音声認識部２２ｄは、文章の候補のうち、最も統計的評価値が高い文章を選択する。そして、音声認識部２２ｄは、選択された文章（認識結果）をテキスト信号（テキストデータ）としてコマンド出力部２２ｅへ出力する。

【0051】

なお、撮像装置１Ａにおいて、単語辞書に登録される単語が限られ、音素から一つの単語が出力される場合には、文章の候補列挙と文章の選択を省略して、音素から出力された単語（認識結果）をテキスト信号（テキストデータ）としてコマンド出力部２２ｅへ出力しても良い。また、そもそも音処理された音デジタル信号に、環境音は含まれているが音声が含まれていない場合もある。この場合、音声が認識されなくても、文章や単語を含まないテキスト信号がコマンド出力部２２ｅへ出力される。

【0052】

コマンド出力部２２ｅは、音声認識部２２ｄより入力されたテキスト信号に従って、動作信号（コマンド信号）を出力する。具体的には、コマンド出力部２２ｅは、以下のコマンド出力処理（出力処理）を、音声認識部２２ｄからテキスト信号が入力される間に繰り返し行う。

【0053】

まず、コマンド出力部２２ｅは、記憶部２１に格納されている図７（Ａ）のコマンドリストを読み込む。次いで、コマンド出力部２２ｅは、テキスト信号が、読み込んだコマンドリストのワード欄に記載のワードと一致するか否かを判定（識別）する。言い換えると、コマンド出力部２２ｅは、音声認識部２２ｄにより音声が認識される音声デジタル信号が、読み込んだコマンドリストのワード欄に記載のワードと一致するか否かを判定する。コマンド出力部２２ｅは、ワードと一致する場合、コマンドリストの動作欄に記載の撮像装置１Ａの動作を動作信号として例えば図略の各種のアクチュエータ等へ出力して、処理を終了する。コマンド出力部２２ｅは、ワードと一致しない場合、何の動作信号も出力しないで、処理を終了する。そして、図略の各種のアクチュエータ等は、入力された動作信号により動作する。ここで、アクチュエータ等の具体例を示す。例えば、オートフォーカス調整用のモータ、シャッタ操作用のモータ、レンズズームモータ等がある。アクチュエータの他には、撮像装置１Ａの設定、メニュー検索による表示の変更、または、写真へのタグ等の情報付加等がある。写真へのタグとは、具体的に、撮った写真に音声でタグ（写真の表題や名前）を付けることである。

【0054】

音響モデル変換部２２ｆは、音声認識部２２ｄより記憶部２１へ入力された囁き声教師データまたは通常発声教師データに基づいて、撮影者の音声の特徴を学習し、記憶部２１に格納されている囁き声音響モデルまたは通常発声音響モデルを変換する。つまり、撮影者を特定話者とし、囁き声音響モデルまたは通常発声音響モデルを特定話者に適応させる。そして、変換した音響モデルを記憶部２１へ記録する。具体的には、音響モデル変換部２２ｆは、以下の音響モデル変換処理を音声認識部２２ｄから記憶部２１へ教師データが入力される間に繰り返される。以下、囁き声音響モデルと通常発声音響モデルの変換は同様であるため、区別せずに記載する。

【0055】

まず、音響モデル変換部２２ｆは、記憶部２１に格納されている教師データを読み込む。次いで、音響モデル変換部２２ｆは、教師データから音声（囁き声または通常発声）の特徴量を抽出する。例えば、音響モデル変換部２２ｆは、音声デジタル信号の周波数等を分析（学習）して、特徴量（特徴ベクトル）を抽出する。

【0056】

次いで、音響モデル変換部２２ｆは、読み込んだ教師データと抽出した特徴量とにより、音響モデルのパラメータを特徴量に近づけるように変換する。次いで、音響モデル変換部２２ｆは、変換した音響モデルを、記憶部２１へ記録して、処理を終了する。

【0057】

なお、音響モデル変換処理として、音響モデル変換部２２ｆは、教師データと個々の特徴量等との関係から求められる変換式により、特徴空間上で特徴量を音響モデルのパラメータに近づけるように変換しても良い。求まった変換式は記憶部２１へ記録する。そして、音声認識処理において、音声デジタル信号を、変換式に従い音素に変換しても良い。

【0058】

また、音モジュール２２は、音響モデル変換部２２ｆを囁き声音響モデル変換部と通常発声音響モデル変換部に分けて、別々に有していても良い。

【0059】

次に、従来の音声認識装置について説明する。

【0060】

従来の音声認識装置では、音声入力の処理を接話用のモードと非接話用のモードに設定し、設定された音声入力のモードに従って音声を認識する。一方で、接話用のモードと非接話用のモードとの設定はあるものの、ユーザが発声する音声のうち少なくとも囁き声に着目したものではない。このため、従来の音声認識装置では、ユーザが発声する音声のうち囁き声を認識できないおそれがある。

【0061】

ここで、ユーザが音声認識機能を利用する場合、以下のシーンが存在する。例えば、スポーツ観戦（例えばテニスやゴルフ）等でユーザが囁き声を発声するシーンや、周囲へ迷惑を掛けないようにユーザが囁き声を発声するシーンや、ユーザの中には周囲へ聞こえるような大きい声を発声することに抵抗がありユーザが囁き声を発声するシーン等が存在する。

【0062】

そこで、発明者らは、ユーザが音声認識機能を利用する場合、ユーザが発声する音声のうち囁き声の認識に着目する。

【0063】

次に、第１実施形態の作用効果について説明する。

【0064】

まず、撮像装置１Ａの音声認識制御の作用効果を説明する。音声モード判定部２２ａにおいて、アイセンサ１３の検出信号が入力されると、音声モード判定部２２ａによりアイセンサ１３の検出信号に基づいて囁き声モードと通常発声モードの一方が判定される（モード判定処理）。モード判定処理と同時またはモード判定処理の前後に、音処理部２２ｂにおいて、マイクロフォン１４に音が入力されると、音処理部２２ｂにより音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、音声抽出部２２ｃにおいて、音デジタル信号が入力されると、音声抽出部２２ｃにより音デジタル信号から音声デジタル信号が抽出される（音声抽出処理）。次いで、音声認識部２２ｄにおいて、モード信号と音声デジタル信号が入力されると、音声認識部２２ｄにより文章または単語が認識される（音声認識処理）。次いで、コマンド出力部２２ｅにおいて、認識結果であるテキスト信号が入力されると、コマンド出力部２２ｅによりテキスト信号に従って動作信号が出力される（コマンド出力処理）。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、撮影者が発声する囁き声または通常発声を認識することができ、認識結果に従って動作信号を出力することができる。

【0065】

また、音響モデル変換部２２ｆにおいて、音声認識部２２ｄより記憶部２１へ教師データが入力されると、音響モデル変換部２２ｆにより音響モデルが変換される（音響モデル変換処理）。これにより、撮影者の音声の認識精度を向上することができる。

【0066】

続いて、撮像装置１Ａの作用効果を説明する。

【0067】

本実施形態では、少なくとも囁き声が入力されるマイクロフォン１４と、囁き声を認識する音声認識部２２ｄと、テキスト信号に従って動作信号を出力するコマンド出力部２２ｅと、を備えている。従って、撮影者が発声する音声のうち囁き声を認識することができる（囁き声認識作用）。

【0068】

本実施形態では、囁き声音響モデルは、不特定囁き声の囁き声周波数特性に基づいて作成されているので、囁き声の認識精度を向上することができる（囁き声音響モデル作用）。

【0069】

本実施形態では、囁き声モードまたは通常発声モードを判定する音声モード判定部２２ａを備えているので、音声認識部２２ｄにて囁き声と通常発声を認識することができる（音声認識作用）。

【0070】

本実施形態では、音声モード判定部２２ａにより、アイセンサ１３の検出信号に基づいて、接話のとき囁き声モードと判定され、非接話のとき通常発声モードと判定される。即ち、撮影者によりモードが設定されなくても、自動的に音声認識部２２ｄにて囁き声と通常発声を認識することができる。従って、撮影者が音声認識機能を利用するとき、撮影者の操作性を向上することができる（モード判定接話作用）。

【0071】

本実施形態では、撮影者の囁き声の特徴を学習し、囁き声音響モデルを変換する音響モデル変換部２２ｆを備えている。従って、撮影者の囁き声の認識精度を向上することができる（学習作用）。なお、音響モデル変換部２２ｆにより、撮影者の通常発声の認識精度も同様に向上することができる。

【0072】

本実施形態では、第１マイク群１４Ａは、少なくとも装置本体１０Ａに接して撮影者が発声する接話のときに用いられる。第２マイク群１４Ｂは、第１マイク群１４Ａに入力された音と位相差が所定値以下となる位置に配置されている。本実施形態では、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された、地平線に対して水平方向の音と位相差が生じない位置に配置されている。音声抽出部２２ｃにより、第１マイク群１４Ａに入力された第１音デジタル信号と第２マイク群１４Ｂに入力された第２音デジタル信号とが減算される。そして、音声認識部２２ｄにより、減算後の音声デジタル信号に基づいて囁き声が認識される。これにより、マイクロフォン１４に入力された音から環境音を抑制することができる。従って、撮影者の囁き声の認識精度を向上することができる（位相差無し作用）。特に、撮像装置１Ａでは撮影者がファインダ１２を覗くという接話状態を利用するので、囁き声の認識精度の向上に有効的である。

【0073】

本実施形態では、上記の囁き声と同様に通常発声においても、第１音デジタル信号と第２音デジタル信号の位相差が所定値以下の場合、撮影者の通常発声の認識精度を向上することができる（位相差無し作用）。以下、通常発声の認識は、上記の囁き声の認識と同様であるため簡潔に説明する。通常発声においても、音声抽出部２２ｃにより、第１音デジタル信号と第２音デジタル信号とが減算される。そして、音声認識部２２ｄにより、減算後の音声デジタル信号に基づいて通常発声が認識される。これにより、マイクロフォン１４に入力された音から環境音を抑制することができる。従って、撮影者の通常発声の認識精度を向上することができる（位相差無し作用）。

【0074】

本実施形態では、撮像装置１Ａは撮像光学系１１を備える。撮像装置１Ａは、音声認識装置と音声処理装置を備える。即ち、撮像装置１Ａに音声を認識可能な機能を持たせることができる。このため、撮像装置１Ａを音声により操作することができる（撮像装置操作作用）。

【0075】

次に、図８を参照して、第１実施形態の別の形態（変形例１－１）を示す。なお、第１実施形態と同様の構成はその説明を省略または簡略化する。なお、アイセンサ１３を有していなくても良い。

【0076】

以下、図８を参照して、音モジュール２２のブロック構成について説明する。

【0077】

音モジュール２２は、音声モード判定部２２ａと、音処理部２２ｂと、音声抽出部２２ｃと、音声認識部２２ｄ（認識部）と、コマンド出力部２２ｅ（出力部）と、音響モデル変換部２２ｆと、音圧判定部２２ｇと、を有する。なお、図８に示す例では、本実施形態の音声認識装置は、マイクロフォン１４と、音モジュール２２と、記憶部２１と、を備える。制御用プログラムとして、各部２２ａ～２２ｇの処理を実行するためのプログラムが記憶部２１に格納されている。制御ユニット２０は、プログラムを読み出して、ＲＡＭにて実行することにより、各部２２ａ～２２ｇの処理を行う。なお、本変形例では、静止画撮影時の音モジュール２２が行う音声認識制御について説明する。また、音処理と音声抽出処理と音響モデル変換処理とは第１実施形態と同様である。

【0078】

音声モード判定部２２ａは、音声抽出部２２ｃより入力された音声デジタル信号に含まれる音声の周波数特性に基づいて、音声認識部２２ｄが有する囁き声モードまたは通常発声モードを判定する。音声モード判定部２２ａは、音声デジタル信号と共に判定したモードをモード信号として、音声認識部２２ｄと音圧判定部２２ｇとへ出力する。具体的には、音声モード判定部２２ａは、以下の音声モード判定処理を、音声抽出部２２ｃから音声デジタル信号が入力される間に繰り返し行う。

【0079】

まず、音声モード判定部２２ａは、記憶部２１に格納されているあらゆる言葉（単語や文章）の通常発声と囁き声との周波数特性データを読み込む。なお、音声デジタル信号のテキスト信号に従って出力される動作信号は、図７（Ａ）に示すように、ワード（単語や文章）が限定されている。このため、記憶部２１に格納されている周波数特性データは図７（Ａ）に記載のワードに限定しても良い。これにより、音声モード判定が容易になると共に音声モード判定処理の速度が高速化できる。

【0080】

ここで、「周波数特性データ」は、あらゆる言葉につき多数の話者から取得した不特定囁き声の囁き声周波数特性と、あらゆる言葉につき多数の話者から取得した不特定通常発声の通常発声周波数特性と、であり、予め記憶部２１に格納されている。

【0081】

次いで、音声モード判定部２２ａは、音声抽出部２２ｃから入力された音声デジタル信号に含まれる音声の周波数特性に基づいて、音声デジタル信号が囁き声か否かを判定する。具体的には、音声モード判定部２２ａは、読み込んだ周波数特性データと音声デジタル信号に含まれる音声の周波数特性より、総合的な特徴判定を行い、音声デジタル信号に含まれる音声の周波数特性が囁き声の周波数特性か否かを判定する。上述したように囁き声の周波数特性は通常発声の周波数特性よりも低周波数（成分）が少ないという特徴等があるため、音声モード判定部２２ａは総合的な特徴判定を行う。なお、音声モード判定部２２ａは、アイセンサ１３の検出信号に基づいてモードを判定しない。

【0082】

次いで、音声モード判定部２２ａは、囁き声の周波数特性の場合、囁き声モードと判定する。音声モード判定部２２ａは、囁き声ではない（通常発声）の周波数特性の場合、通常発声モードと判定する。そして、音声モード判定部２２ａは、音声デジタル信号と共に判定したモードをモード信号として、音声認識部２２ｄと音圧判定部２２ｇとへ出力する。

【0083】

音声認識部２２ｄでは、音声デジタル信号が、音声抽出部２２ｃではなく音声モード判定部２２ａより入力される点で第１実施形態と相違するが、その他は第１実施形態と同様である。

【0084】

音圧判定部２２ｇは、音声デジタル信号の音圧を判定する。具体的には、音圧判定部２２ｇは、以下の音圧判定処理を、音声モード判定部２２ａからモード信号と音声デジタル信号とが入力される間に繰り返し行う。

【0085】

まず、音圧判定部２２ｇは、モード信号が、囁き声モードか否かを判定する。次いで、音圧判定部２２ｇは、囁き声モードの場合、囁き声モードを音圧判定信号（音圧判定結果）としてコマンド出力部２２ｅへ出力する。音圧判定部２２ｇは、通常発声モードの場合、音声デジタル信号の音圧の高さを判定する。例えば、音声デジタル信号の音圧が、三段階（例えば、高、中、低である）のうちいずれに該当するか判定する。なお、音圧の高低の三段階は、予め実験やシミュレーション等に基づいて設定される。音圧判定部２２ｇは、音圧の高さの判定後、通常発声モードと音圧の高さ結果とを音圧判定信号（音圧判定結果）としてコマンド出力部２２ｅへ出力する。

【0086】

コマンド出力部２２ｅは、音声認識部２２ｄより入力されたテキスト信号に従って、動作信号を出力する。コマンド出力部２２ｅは、音声認識部２２ｄによるテキスト信号に従った動作信号の出力対象の程度が変更できる場合、音圧判定部２２ｇより入力された音圧判定信号から予め設定された出力対象の程度に従って動作信号を出力する。具体的には、コマンド出力部２２ｅは、以下のコマンド出力処理（出力処理）を、音声認識部２２ｄからテキスト信号と、音圧判定部２２ｇから音圧判定信号と、が入力される間に繰り返し行う。

【0087】

まず、コマンド出力部２２ｅは、第１実施形態と同様に、図７（Ａ）のコマンドリストを読み込み、テキスト信号がワードと一致するか否かを判定する。コマンド出力部２２ｅは、ワードと一致する場合には以下のように動作信号を出力して処理を終了し、ワードと一致しない場合には何の動作信号も出力しないで処理を終了する。

【0088】

次いで、コマンド出力部２２ｅは、ワードと一致する場合、コマンドリストに記載の動作信号の出力対象の程度が変更できるか否かを判定する。例えば、程度変更が可能な場合とは、コマンドリストの程度変更の欄が可能の場合である。具体的には、ワードが「明るく（明るくして）」の場合であり、動作信号の出力対象は「露出値」になるので程度が変更できる。一方、程度変更が不可の場合とは、コマンドリストの程度変更の欄が不可の場合である。具体的には、ワードが「撮影（撮影して）」の場合であり、動作信号の出力対象は「シャッタ」になるので程度が変更できない。

【0089】

次いで、コマンド出力部２２ｅは、程度変更が可能な場合、記憶部２１に格納されている図７（Ｂ）の程度変更リストを読み込む。次いで、コマンド出力部２２ｅは、一致したワードと音圧判定信号とに基づいて、読み込んだ程度変更リストに従って、動作信号の出力対象の程度を判定する。例えば、コマンドを「明るく（明るくして）」とする場合について説明する。コマンド出力部２２ｅは、音圧判定信号が囁き声モードの場合、露出の程度を「＋１／３段」と判定する。例えば、コマンド出力部２２ｅは、音圧判定信号が通常発声モードであって、音圧高さ結果が三段階のうち「高」の場合、露出の程度を「＋３段」と判定する。

【0090】

次いで、コマンド出力部２２ｅは、程度の判定後、コマンドリストと程度変更リストに記載の撮像装置１Ａの動作に従って動作信号を例えば図略の各種のアクチュエータ等（例えば図略の露出アクチュエータ）へ出力して、処理を終了する。また、コマンド出力部２２ｅは、ワードと一致する場合であって程度変更が不可の場合、コマンドリストの動作欄に記載の撮像装置１Ａの動作信号を図略の各種のアクチュエータ等（例えば図略のシャッタアクチュエータ）へ出力して、処理を終了する。

【0091】

なお、囁き声でも音圧の違いを出すことができるため、囁き声において例えば三段階の音圧により、動作信号の出力対象の程度を変更しても良い。更に、音圧の段階を、二段階や四段階以上にしても良い。更にまた、音圧は撮影者により異なる場合が有るので、例えば初期設定されている各段階の音圧を撮影者独自の音圧に変更しても良い。

【0092】

次に、変形例（１－１）の作用効果について説明する。

【0093】

まず、本変形例の音声認識制御の作用効果を説明する。音処理部２２ｂにおいて、マイクロフォン１４に音が入力されると、音処理部２２ｂにより音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、音声抽出部２２ｃにおいて、音デジタル信号が入力されると、音声抽出部２２ｃにより音デジタル信号から音声デジタル信号が抽出される（音声抽出処理）。次いで、音声モード判定部２２ａにおいて、音声デジタル信号が入力されると、音声モード判定部２２ａにより音声デジタル信号に含まれる音声の周波数特性に基づいて囁き声モードと通常発声モードの一方が判定される（モード判定処理）。次いで、音声認識部２２ｄにおいて、モード信号と音声デジタル信号が入力されると、音声認識部２２ｄにより文章または単語が認識される（音声認識処理）。音声認識処理と同時または音声認識処理の前後に、音圧判定部２２ｇにおいて、モード信号と音声デジタル信号が入力されると、音圧判定部２２ｇにより音声デジタル信号の音圧が判定される（音圧判定処理）。次いで、コマンド出力部２２ｅにおいて、テキスト信号と音圧判定信号とが入力されると、コマンド出力部２２ｅによりテキスト信号と音圧判定信号による動作信号の出力対象の程度に従って動作信号が出力される（コマンド出力処理）。そして、各種のアクチュエータ等は、入力された動作信号により動作する。このように、撮影者が発声する囁き声または通常発声を認識することができ、認識結果と出力対象の程度に従って動作信号を出力することができる。なお、第１実施形態と同様に、音響モデル変換処理により、撮影者の音声の認識精度を向上することができる。

【0094】

続いて、本変形例の撮像装置１Ａの作用効果を説明する。

【0095】

本変形例では、音声モード判定部２２ａにより、アイセンサ１３の検出信号は用いず、音声デジタル信号に含まれる音声の周波数特性に基づいて、囁き声の周波数特性の場合には囁き声モードと判定され、通常発声の周波数特性の場合には通常発声モードと判定される。即ち、撮影者によりモードが設定されなくても、音声認識部２２ｄにて囁き声と通常発声を認識することができる。従って、撮影者が音声認識機能を利用するとき、撮影者の操作性を向上することができる（モード判定周波数作用）。

【0096】

本変形例では、音声認識部２２ｄが認識する音声デジタル信号（音声）の音圧を判定する音圧判定部２２ｇを有している。そして、コマンド出力部２２ｅにより、音声認識部２２ｄによるテキスト信号（認識結果）に従った動作信号（コマンド信号）の出力対象の程度が変更できる場合、音圧判定信号（音圧判定結果）により予め設定された出力対象の程度に従って動作信号が出力される。ここで、例えば、音声認識において、動作信号の出力対象の程度を変更する場合、「ちょっと」や「もっと」等の副詞を用いることがある。しかし、撮影者や装置の初期設定によって使用する副詞が異なる等の理由から、程度の変更には慣れが必要であり、撮影者が普段に使用する副詞を無意識に発声することもある。そこで、発明者らは、音声の認識による同じ単語等でもユーザが発声する囁き声や通常発声やこれらの音圧に着目する。そして、本変形例では、囁き声と通常発声と通常発声の音圧により予め設定された出力対象の程度に従って動作信号が出力される。従って、撮影者が音声認識機能を利用するとき、撮影者の操作性を向上することができる（程度変更作用）。

【0097】

なお、本変形例（１－１）では、第１実施形態と同様に、囁き声認識作用と囁き声音響モデル作用と音声認識作用と学習作用と位相差無し作用と撮像装置操作作用を奏する。

【0098】

次に、図９を参照して、第１実施形態の別の形態（変形例１－２）を示す。なお、第１実施形態と同様の構成はその説明を省略または簡略化する。

【0099】

以下、図９を参照して、音モジュール２２のブロック構成について説明する。

【0100】

音モジュール２２は、音声モード判定部２２ａと、音処理部２２ｂと、音声抽出部２２ｃと、音声認識部２２ｄ（認識部）と、コマンド出力部２２ｅ（出力部）と、音響モデル変換部２２ｆと、音入力感度設定部２２ｈと、プルーニング閾値判定部２２ｉと、を有する。なお、図９に示す例では、本実施形態の音声認識装置は、アイセンサ１３と、マイクロフォン１４と、音モジュール２２と、記憶部２１と、を備える。制御用プログラムとして、各部２２ａ～２２ｆ，２２ｈ，２２ｉの処理を実行するためのプログラムが記憶部２１に格納されている。制御ユニット２０は、プログラムを読み出して、ＲＡＭにて実行することにより、各部２２ａ～２２ｆ，２２ｈ，２２ｉの処理を行う。なお、本変形例では、静止画撮影時の音モジュール２２が行う音声認識制御について説明する。また、音声抽出処理とコマンド出力処理と音響モデル変換処理とは第１実施形態と同様である。

【0101】

音処理部２２ｂは、音デジタル信号を、音声抽出部２２ｃと音声モード判定部２２ａと音入力感度設定部２２ｈとプルーニング閾値判定部２２ｉとへ出力する点で第１実施形態と相違するが、その他は第１実施形態と同様である。

【0102】

音入力感度設定部２２ｈは、自動的にマイクロフォン１４の感度を設定する。具体的には、音入力感度設定部２２ｈは、マイクロフォン１４に入力された環境音ボリュームが大きいほどマイクロフォン１４の感度を低く設定する。具体的には、音入力感度設定部２２ｈは、以下の音入力感度設定処理を、音処理部２２ｂから音デジタル信号が入力される間に繰り返し行う。

【0103】

まず、音入力感度設定部２２ｈは、音デジタル信号から、環境音ボリュームの大きさを判定する。例えば、音入力感度設定部２２ｈは、第２音デジタル信号から、環境音ボリュームの大きさを判定する。具体的には、音入力感度設定部２２ｈは、環境音ボリュームの大きさが、二十段階のうちいずれに該当するか判定する。なお、二十段階は、予め実験やシミュレーション等に基づいて設定される。

【0104】

次いで、音入力感度設定部２２ｈは、環境音ボリュームの判定結果に基づいて、マイクロフォン１４の感度を設定する。具体的には、音入力感度設定部２２ｈは、判定結果の環境音ボリュームが大きいほどマイクロフォン１４の感度を低く設定する。

【0105】

音声モード判定部２２ａは、環境音ボリュームに基づいて、自動的に囁き声モードまたは通常発声モードを仮判定する。次いで、音声モード判定部２２ａは、アイセンサ１３の検出信号に基づいて、囁き声モードまたは通常発声モードを本判定する。音声モード判定部２２ａは、本判定したモードをモード信号として音声認識部２２ｄへ出力する。具体的には、音声モード判定部２２ａは、以下の音声モード判定処理を、音処理部２２ｂから音デジタル信号が入力され、アイセンサ１３から検出信号が入力される間に繰り返し行う。

【0106】

まず、音声モード判定部２２ａは、音処理部２２ｂから音デジタル信号が入力されると、環境音ボリュームがボリューム所定値より小さいか否かを判定する。例えば、音声モード判定部２２ａは、環境音が入力されやすい第２音デジタル信号から、環境音ボリュームがボリューム所定値より小さいか否かを判定する。ここで、ボリューム所定値について説明する。一般的に、環境音ボリュームが比較的大きいとユーザが発声する音声は無意識に大きくなり、環境音ボリュームが比較的小さいとユーザが発声する音声は無意識に小さくなる。例えば、会話の際、環境音ボリュームの大小に人間は反応して、発声する音声の大小も変わる。つまり、人間が発声する音声の大小は、環境音ボリュームの大小に左右される。このため、ボリューム所定値は、環境音ボリュームの大小に対する人間が発声する音声の大小について予め実験やシミュレーション等に基づいて設定される。

【0107】

次いで、音声モード判定部２２ａは、環境音ボリュームがボリューム所定値より小さい場合、囁き声モードと仮判定する。音声モード判定部２２ａは、囁き声モードと仮判定した後、アイセンサ１３の検出信号に基づいて、音声認識部２２ｄが有する囁き声モードまたは通常発声モードを本判定する。音声モード判定部２２ａは、アイセンサ１３の検出信号が接眼状態の場合、囁き声モードと本判定する。音声モード判定部２２ａは、アイセンサ１３の検出信号が離眼状態の場合、通常発声モードと本判定する。また、音声モード判定部２２ａは、環境音ボリュームがボリューム所定値より大きい場合、アイセンサ１３の検出信号に関係なく、通常発声モードと本判定する。なお、接眼状態の場合と離眼状態の場合との詳細は第１実施形態と同様である。

【0108】

つまり、音声モード判定部２２ａは、環境音ボリュームがボリューム所定値より小さい場合、かつ、接眼状態の場合、囁き声モードと本判定する。また、音声モード判定部２２ａは、接眼状態または離眼状態にかかわらず、環境音ボリュームがボリューム所定値より大きい場合、通常発声モードと本設定する。また、環境音ボリュームがボリューム所定値より小さい場合であっても離眼状態の場合、通常発声モードと本設定する。そして、音声モード判定部２２ａは、本判定したモードをモード信号として音声認識部２２ｄへ出力する。

【0109】

プルーニング閾値判定部２２ｉは、自動的にプルーニング閾値を判定する。具体的には、プルーニング閾値判定部２２ｉは、環境音ボリュームが大きいほどプルーニング閾値を大きく判定する。具体的には、プルーニング閾値判定部２２ｉは、以下のプルーニング閾値判定処理を、音処理部２２ｂから音デジタル信号が入力される間に繰り返し行う。

【0110】

ここで、プルーニング閾値について説明する。前提として、音声認識処理では、音声を音素に変換する過程にて仮説の演算が行われる。当該仮説の演算の際に、処理を高速化するために、仮説処理を間引くプルーニング（剪定、枝刈り）の処理が行われる。つまり、プルーニング閾値とは、音声認識部２２ｄにおける音声認識時の仮説処理を間引く閾値である。プルーニングが厳しい（プルーニング閾値が小さい）と処理は高速になり、プルーニングが緩い（プルーニング閾値が大きい）と処理は低速になる。また、プルーニングが厳しすぎると、正解の仮説処理まで間引いてしまい、音声認識性能が低下する。環境音ボリュームが比較的小さい場合に、プルーニングが緩いと、不要な仮説の演算が行われることになる。このため、プルーニング閾値は、環境音ボリュームに基づいて適切に変更する。

【0111】

まず、プルーニング閾値判定部２２ｉは、音デジタル信号から、環境音ボリュームの大きさを数値化する。例えば、プルーニング閾値判定部２２ｉは、環境音が入力されやすい第２音デジタル信号から、環境音ボリュームの大きさを数値化する。

【0112】

次いで、プルーニング閾値判定部２２ｉは、環境音ボリュームの数値に基づいて、プルーニング閾値を判定する。即ち、プルーニング閾値判定部２２ｉは、環境音ボリュームの数値が大きいほどプルーニング閾値を大きく判定する。一方、プルーニング閾値判定部２２ｉは、環境音ボリュームの数値が小さいほど、プルーニング閾値を小さく判定する。そして、プルーニング閾値判定部２２ｉは、判定したプルーニング閾値をプルーニング閾値信号として音声認識部２２ｄへ出力する。

【0113】

音声認識部２２ｄは、音声モード判定部２２ａより入力されたモード信号に基づいて、囁き声モードまたは通常発声モードを設定する。音声認識部２２ｄは、プルーニング閾値判定部２２ｉより入力されたプルーニング閾値信号に基づいて、音声認識の際のプルーニング閾値を設定する。音声認識部２２ｄは、音声抽出部２２ｃより入力された音声デジタル信号に基づいて、設定したモードと設定したプルーニング閾値により音声を認識する。音声認識部２２ｄの出力先は、第１実施形態と同様である。具体的には、音声認識部２２ｄは、以下の音声認識処理を、音声モード判定部２２ａからモード信号と、プルーニング閾値判定部２２ｉからプルーニング閾値信号と、音声抽出部２２ｃから音声デジタル信号と、が入力される間に繰り返し行う。

【0114】

まず、音声認識部２２ｄは、モード信号に基づいて、囁き声モードまたは通常発声モードを設定する。次いで、音声認識部２２ｄは、プルーニング閾値信号に基づいて、音声認識の際のプルーニング閾値を設定する。音声認識処理のその他の処理は、第１実施形態と同様である。

【0115】

次に、変形例（１－２）の作用効果について説明する。

【0116】

まず、本変形例の音声認識制御の作用効果を説明する。音処理部２２ｂにおいて、マイクロフォン１４に音が入力されると、音処理部２２ｂにより音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、音声抽出部２２ｃにおいて、音デジタル信号が入力されると、音声抽出部２２ｃにより音デジタル信号から音声デジタル信号が抽出される（音声抽出処理）。音処理よりも後であって音声認識処理よりも前に、以下の音入力感度設定処理とモード判定処理とプルーニング閾値判定処理とを行う。音入力感度設定部２２ｈにおいて、音デジタル信号が入力されると、音入力感度設定部２２ｈにより環境音ボリュームが大きいほどマイクロフォン１４の感度が低く設定される（音入力感度設定処理）。音声モード判定部２２ａにおいて、音デジタル信号が入力されると、音声モード判定部２２ａにより環境音ボリュームに基づいて、囁き声モードと通常発声モードの一方が仮判定される（モード仮判定処理、モード判定処理）。次いで、音声モード判定部２２ａにおいて、アイセンサ１３の検出信号が入力されると、音声モード判定部２２ａによりアイセンサ１３の検出信号に基づいて囁き声モードと通常発声モードの一方が本判定される（モード本判定処理、モード判定処理）。プルーニング閾値判定部２２ｉにおいて、音デジタル信号が入力されると、プルーニング閾値判定部２２ｉにより環境音ボリュームが大きいほどプルーニング閾値が大きく判定される（プルーニング閾値判定処理）。次いで、音声認識部２２ｄにおいて、モード信号とプルーニング閾値信号が入力されると、音声認識部２２ｄにより文章または単語が認識される（音声認識処理）。次いで、コマンド出力部２２ｅにおいて、テキスト信号が入力されると、コマンド出力部２２ｅによりテキスト信号に従って動作信号が出力される（コマンド出力処理）。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、撮影者が発声する囁き声または通常発声を認識することができ、認識結果に従って動作信号を出力することができる。なお、第１実施形態と同様に、音響モデル変換処理により、撮影者の音声の認識精度を向上することができる。

【0117】

続いて、本変形例の撮像装置１Ａの作用効果を説明する。

【0118】

本変形例では、音声モード判定部２２ａにより、マイクロフォン１４に入力された環境音ボリュームに基づいて囁き声モードまたは通常発声モードが判定される。即ち、環境音ボリュームの大小に撮影者が無意識に反応して発声する音声の大小が変わっても、音声認識部２２ｄにて囁き声と通常発声を認識することができる。従って、撮影者が音声認識機能を利用するとき、環境音ボリュームを考慮した囁き声と通常発声の認識が可能となる（モード判定環境音作用）。

【0119】

更に、本変形例では、環境音ボリュームに基づくモードの判定と合わせて、音声モード判定部２２ａにより、アイセンサ１３の検出信号に基づいて、囁き声モードまたは通常発声モードが判定される。即ち、二段階にて囁き声モードまたは通常発声モードが判定されるので、撮影者が音声認識機能を利用するとき、より正しいモードが判定される。従って、撮影者の音声の認識精度を向上することができる。

【0120】

本変形例では、マイクロフォン１４の感度を設定する音入力感度設定部２２ｈを有している。そして、音入力感度設定部２２ｈにより、環境音ボリュームが大きいほどマイクロフォン１４の感度が低く設定される。即ち、環境音ボリュームが大きいほど、マイクロフォン１４の感度が低く設定されるので、環境音ボリュームの大小に撮影者が無意識に反応して発声する音声が大きくなっても、音割れが生じることを抑制することができる。環境音ボリュームが小さいほど、マイクロフォン１４の感度が高く設定されるので、環境音ボリュームの大小に撮影者が無意識に反応して発声する音声が小さくなっても、音声が入力される。従って、撮影者の音声の認識精度を向上することができる（マイク感度作用）。

【0121】

本変形例では、音声認識部２２ｄにおける音声認識時の仮説処理を間引くプルーニング閾値を判定するプルーニング閾値判定部２２ｉを有している。そして、プルーニング閾値判定部２２ｉにより、環境音ボリュームが大きいほどプルーニング閾値が大きく判定される。即ち、環境音ボリュームが大きいほど、外乱が大きいということになる。このため、環境音ボリュームが大きいほど、プルーニング閾値を大きく判定すれば、音声認識時には正解の仮説を立てやすくなる。環境音ボリュームが小さいほど、外乱が小さいということになる。このため、環境音ボリュームが小さいほど、プルーニング閾値を小さく判定しても、音声認識時には正解の仮説を立てやすくなるので、音声認識性能への影響は小さく、音声認識処理も高速になる。このように、プルーニング閾値は、環境音ボリュームの大小に基づいて適切に変更される。従って、撮影者の音声の認識精度を向上することができる（プルーニング作用）。

【0122】

なお、本変形例（１－２）では、第１実施形態と同様に、囁き声認識作用と囁き声音響モデル作用と音声認識作用とモード判定接話作用と学習作用と位相差無し作用と撮像装置操作作用を奏する。
（第２実施形態）

【0123】

次に、図１０を参照して、第２実施形態の撮像装置１Ｂについて説明する。なお、第１実施形態と同様の構成はその説明を省略または簡略化する。なお、制御ユニット２０のブロック構成は、第１実施形態の図４と同様である。

【0124】

撮像装置１Ｂの装置本体１０Ｂ（本体、筐体）は、第１実施形態と異なり、第１マイクロフォン１４ａ（入力部、図３等参照）と、第２マイクロフォン１４ｂ（入力部）と、第３マイクロフォン１４ｃ（入力部）と、第４マイクロフォン１４ｄ（入力部）と、を有する。その他のファインダ１２と、操作部１６と、制御ユニット２０と、等は第１実施形態と同様に有する。以下において、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄを特に区別しない場合には「マイクロフォン１４」とも記載する。

【0125】

第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれには、撮影者が発声する音声と撮影者周囲の環境音との両方の音が入力される。第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれは、音をアナログ信号の音アナログ信号へ変換する。マイクロフォン１４の指向性は、例えば、全ての方向から同じ感度で音が入力される無指向性（全指向性）である。第１マイクロフォン１４ａ～第４マイクロフォン１４ｄは、第１マイクロフォン１４ａを有する第１マイク群１４Ａ（第１入力群）と、第２マイクロフォン１４ｂと第３マイクロフォン１４ｃと第４マイクロフォン１４ｄとを有する第２マイク群１４Ｂ（第２入力群）と、に分けられる。第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄによりマイクロフォンアレイを構成する。第１マイク群１４Ａと第２マイク群１４Ｂは、上下方向（垂直方向）において重ならない位置に配置されている。言い換えると、以下の通りである。まず、第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄの配置関係は、第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄを点と仮定し、当該三つの点を線分で結ぶと三角形を形成可能な位置に配置されている。そして、第１マイクロフォン１４ａは、上下方向（垂直方向）においてその三角形の外側の位置に配置されている。第１マイクロフォン１４ａの配置等は第１実施形態と同様である。第１マイク群１４Ａの第１マイクロフォン感度と第２マイク群１４Ｂの第２マイクロフォン感度とは、異なる感度に設定されている。

【0126】

ここで、「マイクロフォンアレイ」とは、複数のマイクロフォンを平面上に配置して、各マイクロフォンに入力される音（詳細には音波の存在する平面の空間（音場））を処理することにより、水平方向（平面）における特定の方向の特定方向音を得ることができる装置である。そして、マイクロフォンアレイを用いて指向性を制御する公知のビームフォーミングにより特定方向音を強調または低減することができる。基本的には、複数のマイクロフォン同士の間に距離があるため、音源から各マイクロフォンへの音波には位相差が生じる。この音波の位相差の分だけ、音源に近いマイクロフォンに入力された一方の音波を遅延させる。そして、一方と他方の音波を加算または減算することにより、波の重ね合わせの原理により音の周波数によって特定方向音を強め合ったり打ち消しあったりすることができる。これにより、指向性を形成することができる。なお、指向性は周波数に依存する。

【0127】

第２マイク群１４Ｂは、ファインダ１２を撮影者が覗く部分よりも装置本体１０Ｂの前側、かつ、撮像光学系１１よりも上側に配置されている。三つの第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄは同一平面上に配置されている。第２マイクロフォン１４ｂと第３マイクロフォン１４ｃは、装置本体１０Ｂの上面、かつ、撮像光学系１１の左右位置に一つずつ配置されている。第４マイクロフォン１４ｄは、装置本体１０Ｂの上面であって、装置本体１０Ｂの撮影モードダイヤル１６ｂよりも後側、かつ、平面視の前後方向において第２マイクロフォン１４ｂに一致する位置に配置されている。言い換えると、第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄの配置関係は、上述したように三角形を形成可能な位置に配置されている。即ち、第４マイクロフォン１４ｄは、第２マイクロフォン１４ｂと第３マイクロフォン１４ｃとを結ぶ一直線上に配置されていない。このため、地平線に対する水平方向（角度３６０度）の音方向が検出できる。更に、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された音と位相差が生じる位置に配置されている。本実施形態において、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された、地平線に対して水平方向の音と位相差が生じる位置に配置されているものとする。なお、三つの第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄの配置が、互いに離れていればいるほど、地平線に対する水平方向の音の位相差が大きくなる。

【0128】

以下、図１１を参照して、音モジュール２２のブロック構成について説明する。

【0129】

音モジュール２２は、音声モード判定部２２ａと、音処理部２２ｂと、音声抽出部２２ｃと、音声認識部２２ｄ（認識部）と、コマンド出力部２２ｅ（出力部）と、音響モデル変換部２２ｆと、を有する。更に、音モジュール２２は、環境音抽出部２２１（動画用音抽出部）と、エンコード部２２２と、を有する。なお、図１１に示す例では、本実施形態の音声認識装置は、アイセンサ１３と、マイクロフォン１４と、音モジュール２２と、記憶部２１と、を備える。制御用プログラムとして、各部２２ａ～２２ｆ，２２１，２２２の処理を実行するためのプログラムが記憶部２１に格納されている。制御ユニット２０は、プログラムを読み出して、ＲＡＭにて実行することにより、各部２２ａ～２２ｆ，２２１，２２２の処理を行う。なお、第２実施形態では、静止画撮影時の音モジュール２２が行う音声認識制御と、動画撮影時の音モジュール２２が行う動画用音制御と、について説明する。先に、音声認識制御について説明する。また、音声認識処理とコマンド出力処理と音響モデル変換処理とは第１実施形態と同様である。

【0130】

音声モード判定部２２ａは、モード信号を音処理部２２ｂと音声認識部２２ｄへ出力する点で第１実施形態と相違するが、その他は第１実施形態と同様である。

【0131】

音処理部２２ｂは、音アナログ信号を、音デジタル信号（音デジタルデータ、音）への変換の音処理を行う。音処理部２２ｂは、音デジタル信号を音声抽出部２２ｃへ出力し、音デジタル信号と音声モード判定部２２ａより入力されたモード信号を環境音抽出部２２１へ出力する。具体的には、音処理部２２ｂは、以下の音処理を、マイクロフォン１４に音が入力される間に繰り返し行う。なお、音処理は、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれに入力された音について別々に行う。また、以下において、第１マイクロフォン１４ａに入力された音が、音処理された信号を「第１マイク音デジタル信号（第１マイク音デジタルデータ）」と記載する。第２マイクロフォン１４ｂに入力された音が、音処理された信号を「第２マイク音デジタル信号（第２マイク音デジタルデータ）」と記載する。第３マイクロフォン１４ｃに入力された音が、音処理された信号を「第３マイク音デジタル信号（第３マイク音デジタルデータ）」と記載する。第４マイクロフォン１４ｄに入力された音が、音処理された信号を「第４マイク音デジタル信号（第４マイク音デジタルデータ）」と記載する。音デジタル信号は、第１マイク音デジタル信号～第４マイク音デジタル信号を特に区別しない場合のことである。

【0132】

音処理部２２ｂは、第１実施形態と同様に、音アナログ信号を増幅し、次いで、音デジタル信号に変換する。そして、音処理部２２ｂは、音処理した音デジタル信号を音声抽出部２２ｃと環境音抽出部２２１へ出力する。なお、音処理部２２ｂは、第１実施形態と異なり、ＤＣ成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減のノイズ除去（ノイズキャンセル）の処理は行わない。

【0133】

音声抽出部２２ｃは、音処理部２２ｂより入力された音デジタル信号から、環境音デジタル信号を抑制して、音声デジタル信号を抽出する。音声抽出部２２ｃは、抽出した音声デジタル信号を音声認識部２２ｄへ出力する。具体的には、音声抽出部２２ｃは、以下の音声抽出処理を、音処理部２２ｂから音デジタル信号が入力される間に繰り返し行う。

【0134】

第２マイク群１４Ｂは、第１マイク群１４Ａに入力された、地平線に対して水平方向の音と位相差が生じる位置に配置されている。このため、音声抽出部２２ｃは、第１マイク群１４Ａと第２マイク群１４Ｂに入力された音の方向につき位相差を考慮して、第１マイク群１４Ａまたは第２マイク群１４Ｂの一方に入力された音に位相遅延を与える。なお、第１実施形態と同様に、第１マイクロフォン感度と第２マイクロフォン感度が異なるので、音処理部２２ｂから入力された第１音デジタル信号と第２音デジタル信号との環境音の環境音ボリュームの差を考慮する。このため、音声抽出部２２ｃは、感度分差分を演算で補正する。

【0135】

まず、音声抽出部２２ｃは、音の方向を検出する。音声抽出部２２ｃは、第２音デジタル信号から、音の音方向を検出する。音方向を検出するための音は、例えば所定時点に入力された音である。第２マイク群１４Ｂでは、第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄのそれぞれの間隔の距離に基づいて位相差が生じる。言い換えると、第２マイク音デジタル信号～第４マイク音デジタル信号のそれぞれにおいて、同じ音が入力されたとき位相差が生じる。この位相差により波の性質である重ね合わせの原理により、入力された音の周波数によって音波の強弱が生じる。このため、音がどの方向から到達したかを計算により、推定（検出）することができる。

【0136】

次いで、音声抽出部２２ｃは、位相遅延を付加する。音方向から第１マイク群１４Ａと第２マイク群１４Ｂに入った音の位相差を考慮して、音声抽出部２２ｃは、先に音が到達した第１音デジタル信号と第２音デジタル信号のうち一方に位相遅延を与える。音の位相差は、地平線に対する水平方向の音の位相差である。ここで、図１２を一例として、位相遅延について説明する。撮影者が接話にて、マイクロフォン１４へ音声が入力されたものと仮定する。そうすると、図１２（Ａ）に示すように、音声は、第２マイク群１４Ｂよりも先に第１マイク群１４Ａに到達する。このため、図１２（Ｂ）に示すように、先に到達した第１マイク群１４Ａの第１音デジタル信号に位相遅延を付加する。これにより、第１音デジタル信号と第２音デジタル信号では位相差が生じない音デジタル信号となる。

【0137】

次いで、音声抽出部２２ｃは、第１音デジタル信号と第２音デジタル信号との環境音ボリュームを調整する。第１マイクロフォン感度と第２マイクロフォン感度は感度が異なるので、後で行う減算処理にて第１音デジタル信号と第２音デジタル信号との環境音が打ち消せるようにボリューム調整を行い、環境音のレベルを合わせ込む。そして、音声抽出部２２ｃは、第１音デジタル信号と第２音デジタル信号との環境音のレベルを合わせ込む処理を行う。例えば、合わせ込む処理は、第１マイク群１４Ａと第２マイク群１４Ｂとの配置関係と、第１マイクロフォン感度と第２マイクロフォン感度との感度の違いと、等から予め実験やシミュレーション等に基づいて設定される。また、第１マイク群１４Ａと第２マイク群１４Ｂとに入った環境音は装置本体１０Ｂの大きさにより回折現象が起こり、音の周波数特性に変化が生じる。この回折現象は環境音の方向に依存し、その方向における伝達関数を考慮することにより、音の周波数特性の変化を調整することできる。

【0138】

次いで、音声抽出部２２ｃは、上記の処理を経た第１音デジタル信号と第２音デジタル信号について、第１実施形態と同様に減算処理を行う。なお、位相遅延を付加する処理を行っているため、第１実施形態の図６と同様に、音声デジタル信号を抽出することができる。仮に環境音と音声が同じ位相でも、音声が打ち消されることはなく、環境音が打ち消される。

【0139】

次いで、音声抽出部２２ｃは、抽出した音声デジタル信号について、第１実施形態の音処理にて記載したＤＣ成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減のノイズ除去の処理を行う。そして、音声抽出部２２ｃは、ノイズ除去した音声デジタル信号として音声認識部２２ｄへ出力する。なお、上述したように地平線に対して水平方向の音の位相差を合わせた状態にて減算処理を行うことにより、音声認識が可能な音声デジタル信号を抽出することができる。

【0140】

続いて、動画用音制御について説明する。なお、静止画／動画切り換えレバー１６ｃが動画撮影であり、動画撮影ボタン１６ｅが操作されて動画の撮影が開始されると、動画用音制御が開始される。そして、動画撮影ボタン１６ｅが操作されて動画の撮影が終了されると、動画用音制御が終了される。なお、動画撮影ボタン１６ｅに限らず、撮影者が音声認識機能を利用して、動画を撮影しても良い。また、動画用音制御は、音声認識制御とは別のＲＡＭにて実行しても良い。

【0141】

環境音抽出部２２１は、音処理部２２ｂにより入力された音デジタル信号から、音声デジタル信号を抑制して、環境音デジタル信号（環境音デジタルデータ、環境音、動画用の動画用音）を抽出する。ここで、動画用の動画用音は、マイクロフォン１４に入力された音のうち、音声を抑制した環境音である。環境音抽出部２２１は、抽出した環境音デジタル信号をエンコード部２２２へ出力する。具体的には、環境音抽出部２２１は、以下の環境音抽出処理を、音処理部２２ｂから音デジタル信号が入力される間に繰り返し行う。

【0142】

第１マイク群１４Ａは、第２マイク群１４Ｂに入力された、地平線に対して水平方向の音と位相差が生じる位置に配置されている。このため、環境音抽出部２２１は、第１マイク群１４Ａと第２マイク群１４Ｂに入力される音の方向につき位相差を考慮して、第１マイク群１４Ａまたは第２マイク群１４Ｂの一方に入力された音に位相遅延を与える。音の位相差は、地平線に対する水平方向の音の位相差である。また、環境音抽出部２２１は、音処理部２２ｂよりより入力されたモード信号に基づいて、囁き声モードまたは通常発声モードを判定する。同様に、音処理部２２ｂから入力された第１音デジタル信号と第２音デジタル信号との音声の音声ボリュームの差を考慮する。このため、環境音抽出部２２１は、音声ボリュームを調整する。なお、上述したように、各方向の音の位相差は、地平線に対する水平方向に限らず、上下方向やその他の方向にも生じる。

【0143】

まず、環境音抽出部２２１は、音方向の検出と、位相遅延の付加と、を音声抽出部２２ｃと同様に行う。

【0144】

次いで、環境音抽出部２２１は、第１音デジタル信号と第２音デジタル信号との音声ボリュームを調整する。第１マイクロフォン感度と第２マイクロフォン感度は感度が異なるので、後で行う減算処理にて第１音デジタル信号と第２音デジタル信号との音声が打ち消せるようにボリューム調整を行い、音声のレベルを合わせ込む。そして、環境音抽出部２２１は、第１音デジタル信号と第２音デジタル信号との音声のレベルを合わせ込む処理を行う。例えば、合わせ込む処理は、第１マイク群１４Ａと第２マイク群１４Ｂとの配置関係と、第１マイクロフォン感度と第２マイクロフォン感度との感度の違いと、等から予め実験やシミュレーション等に基づいて設定される。また、第１マイク群１４Ａと第２マイク群１４Ｂとに入った音声は装置本体１０Ｂの大きさにより回折現象が起こり、音の周波数特性に変化が生じる。この回折現象は音声の方向に依存し、その方向における伝達関数を考慮することにより、音の周波数特性の変化を調整することできる。

【0145】

次いで、環境音抽出部２２１は、上記の処理を経た第１音デジタル信号と第２音デジタル信号について、第１実施形態と同様に減算処理を行う。このとき、音声は音声の帯域成分（例えば２００Ｈｚ～４ＫＨｚ）が主であるため、その帯域に絞って減算することにより、必要以上に環境音に影響を与えずに済むことができる。なお、位相遅延を付加する処理を行っているため、環境音デジタル信号を抽出することができる。仮に環境音と音声が同じ位相でも、環境音が打ち消されることはなく、音声が打ち消される。なお、上述したように、環境音の抽出においても、音の成分のうち水平方向の成分は、上下方向等の他の方向の成分よりも多い。このため、環境音の抽出においても、地平線に対して水平方向の音の位相差を合わせた状態にて減算処理を行うことにより、必要以上に環境音に影響を与えずに、環境音デジタル信号を抽出することができる。

【0146】

次いで、環境音抽出部２２１は、抽出した環境音デジタル信号について、上述した音声抽出部２２ｃと同様にノイズ除去の処理を行う。そして、環境音抽出部２２１は、ノイズ除去した音声デジタル信号としてエンコード部２２２へ出力する。

【0147】

エンコード部２２２は、環境音抽出部２２１より入力された環境音デジタル信号をエンコードして記憶部２１へ記録する。具体的には、エンコード部２２２は、以下のエンコード処理を、環境音抽出部２２１から環境音デジタル信号が入力される間に繰り返し行う。

【0148】

まず、エンコード部２２２は、環境音デジタル信号を、非圧縮のＷＡＶフォーマットや圧縮形式のＡＡＣ等に変換する。環境音デジタル信号からファイルへの変換は、予め設定されたフォーマットや形式に基づいて変換される。次いで、エンコード部２２２は、変換された環境音デジタル信号を映像データと同期して動画ファイルとしてエンコードする。そして、エンコード部２２２は、動画ファイルを記憶部２１へ記録する。

【0149】

次に、第２実施形態の作用効果について説明する。

【0150】

まず、撮像装置１Ｂの音声認識制御の作用効果を説明する。音声モード判定部２２ａにおいて、アイセンサ１３の検出信号が入力されると、音声モード判定部２２ａによりアイセンサ１３の検出信号に基づいて囁き声モードと通常発声モードの一方が判定される（モード判定処理）。モード判定処理と同時またはモード判定処理の前後に、音処理部２２ｂにおいて、マイクロフォン１４に音が入力されると、音処理部２２ｂにより音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、音声抽出部２２ｃにおいて、音デジタル信号が入力されると、音声抽出部２２ｃにより、第１音デジタル信号と第２音デジタル信号のうち一方に位相遅延を与え、音デジタル信号から音声デジタル信号が抽出される（音声抽出処理）。次いで、音声抽出部２２ｃにより、抽出された音声デジタル信号についてノイズ除去の処理を行う（音声抽出処理）。次いで、音声認識部２２ｄにおいて、モード信号と音声デジタル信号が入力されると、音声認識部２２ｄにより文章または単語が認識される（音声認識処理）。次いで、コマンド出力部２２ｅにおいて、テキスト信号が入力されると、コマンド出力部２２ｅによりテキスト信号に従って動作信号が出力される（コマンド出力処理）。そして、各種のアクチュエータ等は、入力された動作信号により動作する。このように、撮影者が発声する囁き声または通常発声を認識することができ、認識結果に従って動作信号を出力することができる。なお、第１実施形態と同様に、音響モデル変換処理により、撮影者の音声の認識精度を向上することができる。

【0151】

次いで、撮像装置１Ｂの動画用音制御の作用効果を説明する。音処理部２２ｂにおいて、マイクロフォン１４に音が入力されると、音処理部２２ｂにより音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、環境音抽出部２２１において、音デジタル信号が入力されると、環境音抽出部２２１により、第１音デジタル信号と第２音デジタル信号のうち一方に位相遅延を与え、音デジタル信号から環境音デジタル信号が抽出される（環境音抽出処理）。次いで、環境音抽出部２２１により、抽出された環境音デジタル信号についてノイズ除去の処理を行う（環境音抽出処理）。次いで、エンコード部２２２において、環境音デジタル信号が入力されると、エンコード部２２２により、環境音デジタル信号からファイルへ変換され、映像データと同期して動画ファイルとしてエンコードされる（エンコード処理）。そして、エンコード部２２２により動画ファイルが記憶部２１へ記録される（エンコード処理）。

【0152】

続いて、撮像装置１Ｂの作用効果を説明する。

【0153】

本実施形態では、第１マイク群１４Ａは、少なくとも装置本体１０Ｂに接して撮影者が発声する接話のときに用いられる。第２マイク群１４Ｂは、同一平面上に配置された第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄを有する。第２マイク群１４Ｂは、第１マイク群１４Ａに入力された音と位相差が生じる位置に配置されている。本実施形態では、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された、地平線に対して水平方向の音と位相差が生じる位置に配置されている。音声抽出部２２ｃにより、第２マイク群１４Ｂの第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄにそれぞれ入力された第２マイク音デジタル信号～第４マイク音デジタル信号から音方向が検出される。音声抽出部２２ｃにより、音方向に基づいて第１マイク群１４Ａと第２マイク群１４Ｂのうち先に音声が入力された第１マイク群１４Ａまたは第２マイク群１４Ｂの一方に入力された音声に対して位相遅延が与えられる。音声抽出部２２ｃにより、第１マイク群１４Ａに入力された第１音デジタル信号と第２マイク群１４Ｂに入力された第２音デジタル信号とが減算される。そして、音声認識部２２ｄにより、減算後の音声デジタル信号に基づいて囁き声が認識される。即ち、第１音デジタル信号と第２音デジタル信号に位相差が生じる場合であっても、位相を合わせることにより、囁き声が認識される。これにより、マイクロフォン１４に入力された音から環境音を抑制することができる。従って、第１音デジタル信号と第２音デジタル信号に位相差が生じる場合であっても、撮影者の囁き声の認識精度を向上することができる（位相差有り作用）。特に、撮像装置１Ａでは撮影者がファインダ１２を覗くという接話状態を利用するので、囁き声の認識精度の向上に有効的である。

【0154】

本実施形態では、上記の囁き声と同様に通常発声においても、第１音デジタル信号と第２音デジタル信号に位相差が生じる場合であっても、撮影者の通常発声の認識精度を向上することができる（位相差有り作用）。以下、通常発声の認識は、上記の囁き声の認識と同様であるため簡潔に説明する。通常発声においても、音声抽出部２２ｃにより、音方向に基づいて第１マイク群１４Ａと第２マイク群１４Ｂのうち先に音声が入力された第１マイク群１４Ａまたは第２マイク群１４Ｂの一方に入力された音声に対して位相遅延が与えられる。また、音声抽出部２２ｃにより、第１音デジタル信号と第２音デジタル信号とが減算される。そして、音声認識部２２ｄにより、減算後の音声デジタル信号に基づいて通常発声が認識される。即ち、第１音デジタル信号と第２音デジタル信号に位相差が生じる場合であっても、位相を合わせることにより、通常発声が認識される。これにより、マイクロフォン１４に入力された音から環境音を抑制することができる。従って、第１音デジタル信号と第２音デジタル信号に位相差が生じる場合であっても、撮影者の通常発声の認識精度を向上することができる（位相差有り作用）。

【0155】

なお、本実施形態では、第１実施形態と同様に、囁き声認識作用と囁き声音響モデル作用と音声認識作用とモード判定接話作用と学習作用と撮像装置操作作用を奏する。
（第３実施形態）

【0156】

次に、第３実施形態の撮像装置１Ｃについて説明する。なお、第１実施形態と同様の構成はその説明を省略または簡略化する。なお、制御ユニット２０のブロック構成は、第１実施形態の図４と同様である。

【0157】

撮像装置１Ｃの装置本体１０Ｃ（本体、筐体）は、第１実施形態および第２実施形態の第１マイクロフォン１４ａを有さない。撮像装置１Ｃの装置本体１０Ｃは、第２実施形態の図１０に示すように、第２マイクロフォン１４ｂ（入力部）と、第３マイクロフォン１４ｃ（入力部）と、第４マイクロフォン１４ｄ（入力部）と、を有する。第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄによりマイクロフォンアレイを構成する。その他のファインダ１２と、操作部１６と、制御ユニット２０と、等は第１実施形態と同様に有する。以下において、第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄを特に区別しない場合には「マイクロフォン１４」とも記載する。なお、第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄは、第２実施形態と同様である。

【0158】

以下、図１３を参照して、音モジュール２２のブロック構成について説明する。

【0159】

音モジュール２２は、音声モード判定部２２ａと、音処理部２２ｂと、音声抽出部２２ｃと、音声認識部２２ｄ（認識部）と、コマンド出力部２２ｅ（出力部）と、音響モデル変換部２２ｆと、を有する。更に、音モジュール２２は、環境音抽出部２２１（動画用音抽出部）と、エンコード部２２２と、を有する。なお、図１３に示す例では、本実施形態の音声認識装置は、アイセンサ１３と、マイクロフォン１４と、音モジュール２２と、記憶部２１と、を備える。制御用プログラムとして、各部２２ａ～２２ｆ，２２１，２２２の処理を実行するためのプログラムが記憶部２１に格納されている。制御ユニット２０は、プログラムを読み出して、ＲＡＭにて実行することにより、各部２２ａ～２２ｆ，２２１，２２２の処理を行う。なお、第３実施形態では、静止画撮影時の音モジュール２２が行う音声認識制御と、動画撮影時の音モジュール２２が行う動画用音制御と、について説明する。先に、音声認識制御について説明する。また、音声認識処理と音響モデル変換処理とは第１実施形態と同様であり、エンコード処理は第２実施形態と同様である。

【0160】

音声モード判定部２２ａは、モード信号を音声認識部２２ｄと音声抽出部２２ｃへ出力する点で第１実施形態と相違するが、その他は第１実施形態と同様である。

【0161】

音処理部２２ｂは、音アナログ信号を、音デジタル信号（音デジタルデータ、音）への変換の音処理を行う。音処理部２２ｂは、音デジタル信号を音声抽出部２２ｃと環境音抽出部２２１へ出力する。具体的には、音処理部２２ｂは、以下の音処理を、マイクロフォン１４に音が入力される間に繰り返し行う。なお、音処理は、第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄのそれぞれに入力された音について別々に行う。また、以下において、第２マイクロフォン１４ｂに入力された音が、音処理された信号を「第２マイク音デジタル信号（第２マイク音デジタルデータ）」と記載する。第３マイクロフォン１４ｃに入力された音が、音処理された信号を「第３マイク音デジタル信号（第３マイク音デジタルデータ）」と記載する。第４マイクロフォン１４ｄに入力された音が、音処理された信号を「第４マイク音デジタル信号（第４マイク音デジタルデータ）」と記載する。音デジタル信号は、第２マイク音デジタル信号～第４マイク音デジタル信号を特に区別しない場合のことである。

【0162】

【0163】

音声抽出部２２ｃは、音声モード判定部２２ａより入力されたモード信号に基づいて、音処理部２２ｂにより入力された音デジタル信号から、音声デジタル信号を抽出する。音声抽出部２２ｃは、抽出した音声デジタル信号を音声認識部２２ｄと環境音抽出部２２１へ出力する。具体的には、音声抽出部２２ｃは、以下の音声抽出処理を、音声モード判定部２２ａからモード信号が入力され、音処理部２２ｂから音デジタル信号が入力される間に繰り返し行う。

【0164】

まず、音声抽出部２２ｃは、モード信号に基づいて、囁き声モードまたは通常発声モードを判定する。次いで、音声抽出部２２ｃは、音デジタル信号から、上述した指向性制御（公知のビームフォーミング）により音声デジタル信号を抽出する。図１４を一例として、特定方向音声の範囲について説明する。音声抽出部２２ｃは、囁き声モードの場合、図１４（Ａ）に示す範囲２３１のように、接眼状態であるから装置本体１０Ｃの近傍であって装置本体１０Ｃの後方である音声の方向の特定方向音声（特定方向音）を平面の空間の囁き声デジタル信号として抽出する。音声抽出部２２ｃは、通常発声モードの場合、図１４（Ｂ）に示す範囲２３２のように、離眼状態であるから装置本体１０Ｃの遠方であって装置本体１０Ｃの後方である音声の方向の特定方向音声（特定方向音）を平面の空間の通常発声デジタル信号として抽出する。なお、音声抽出部２２ｃは、音声デジタル信号を抽出するとき、音声デジタル信号を抽出した部分の時間情報を、時間信号として抽出する。また、図１４（Ｂ）は一例であるから、範囲２３２に限られない。例えば、三脚に撮像装置１Ｃを設置して、自分の写真を撮影する（自撮り）シーンにおいて、音声抽出部２２ｃは、以下のように特定方向音声を抽出する。音声抽出部２２ｃは、自撮りシーンであって通常発声モードの場合、離眼状態であるから装置本体１０Ｃの前方である特定の方向の特定方向音声（特定方向音）を平面の空間の通常発声デジタル信号として抽出する。

【0165】

次いで、音声抽出部２２ｃは、抽出した音声デジタル信号について、第１実施形態の音処理にて記載したＤＣ成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減のノイズ除去の処理を行う。そして、音声抽出部２２ｃは、ノイズ除去した音声デジタル信号を音声認識部２２ｄと環境音抽出部２２１へ出力する。なお、音声抽出部２２ｃは、時間信号も音声認識部２２ｄと環境音抽出部２２１へ出力する。

【0166】

コマンド出力部２２ｅは、音声認識部２２ｄより入力されたテキスト信号に従って、動作信号を出力する。具体的には、コマンド出力部２２ｅは、以下のコマンド出力処理（出力処理）を、音声認識部２２ｄからテキスト信号が入力される間に繰り返し行う。

【0167】

まず、コマンド出力部２２ｅは、第１実施形態と同様に、図７（Ａ）のコマンドリストを読み込み、テキスト信号がワードと一致するか否かを判定する。次いで、コマンド出力部２２ｅは、判定結果をワード判定信号として、環境音抽出部２２１へ出力する。その他については第１実施形態と同様であり、コマンド出力部２２ｅは、ワードと一致する場合には動作信号を図略の各種のアクチュエータ等へ出力し、ワードと一致しない場合には何の動作信号も出力しない。ワードと一致しない場合のテキスト信号の内容は、例えば、撮影者と被写体との会話や撮影者の音声メモ等である。

【0168】

【0169】

環境音抽出部２２１は、音処理部２２ｂより入力された音デジタル信号から、音声デジタル信号を抑制して、環境音デジタル信号（環境音デジタルデータ、環境音、動画用の動画用音）を抽出する。ここで、動画用の動画用音は、マイクロフォン１４に入力された音のうち、音声を抑制した環境音である。環境音抽出部２２１は、環境音デジタル信号を抽出する際、音声抽出部２２ｃより入力された音声デジタル信号と時間信号、および、コマンド出力部２２ｅより入力されたワード判定信号から、音デジタル信号に含まれる音声デジタル信号を抑制する。そして、環境音抽出部２２１は、抽出した環境音デジタル信号をエンコード部２２２へ出力する。具体的には、環境音抽出部２２１は、以下の環境音抽出処理を、音処理部２２ｂから音デジタル信号が入力され、音声抽出部２２ｃから音声デジタル信号と時間信号が入力され、コマンド出力部２２ｅからワード判定信号が入力される間に繰り返し行う。

【0170】

まず、環境音抽出部２２１は、音デジタル信号から、上述した指向性制御（公知のビームフォーミング）により特定音デジタル信号を抽出する。図１４を一例として、特定方向音の範囲について説明する。環境音抽出部２２１は、囁き声モードまたは通常発声モードにかかわらず、図１４に示す範囲３３０のように、装置本体１０Ｃの前方である特定の方向の特定方向音を平面の空間の特定音デジタル信号として抽出する。

【0171】

次いで、環境音抽出部２２１は、ワード判定信号が、ワードと一致か否かを判定する。次いで、環境音抽出部２２１は、ワードと一致する場合（ワード一致）、音声デジタル信号と時間信号を用いて、抽出した特定音デジタル信号から音声デジタル信号を抑制する。詳述すると、環境音抽出部２２１は、時間信号に対応する音デジタル信号について、音声デジタル信号を減算する処理を行う。言い換えると、環境音抽出部２２１は、特定音デジタル信号から音声デジタル信号を抑制することにより、環境音デジタル信号を抽出する。このとき、音声は音声の帯域成分（例えば２００Ｈｚ～４ＫＨｚ）が主であるため、その帯域に絞って減算することにより、必要以上に環境音に影響を与えずに済むことができる。ワードと一致しない場合（ワード不一致）、音声デジタル信号は各種のアクチュエータ等を動作させるための音声デジタル信号（コマンドを実行させるためのコマンド用の音声デジタル信号）ではない。このため、環境音抽出部２２１は、特定音デジタル信号について音声デジタル信号を減算する処理を行わない。これにより、ワードと一致しない場合、特定音デジタル信号が環境音デジタル信号となる。次いで、環境音抽出部２２１は、環境音デジタル信号について、上述した音声抽出部２２ｃと同様にノイズ除去の処理を行う。そして、環境音抽出部２２１は、ノイズ除去した環境音デジタル信号をエンコード部２２２へ出力する。なお、特定方向音を抽出する処理を行う前に、音デジタル信号から音声デジタル信号を減算する処理を行っても良い。

【0172】

次に、第３実施形態の作用効果について説明する。

【0173】

まず、撮像装置１Ｃの音声認識制御の作用効果を説明する。音声モード判定部２２ａにおいて、アイセンサ１３の検出信号が入力されると、音声モード判定部２２ａによりアイセンサ１３の検出信号に基づいて囁き声モードと通常発声モードの一方が判定される（モード判定処理）。モード判定処理と同時またはモード判定処理の前後に、音処理部２２ｂにおいて、マイクロフォン１４に音が入力されると、音処理部２２ｂにより音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、音声抽出部２２ｃにおいて、モード信号と音デジタル信号が入力されると、音声抽出部２２ｃにより音デジタル信号から指向性制御よって音声デジタル信号が抽出される（音声抽出処理）。次いで、音声抽出部２２ｃにより、抽出された音声デジタル信号についてノイズ除去の処理を行う（音声抽出処理）。次いで、音声認識部２２ｄにおいて、モード信号と音声デジタル信号が入力されると、音声認識部２２ｄにより文章または単語が認識される（音声認識処理）。次いで、コマンド出力部２２ｅにおいて、テキスト信号が入力されると、コマンド出力部２２ｅによりテキスト信号に従って動作信号が出力される（コマンド出力処理）。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、撮影者が発声する囁き声または通常発声を認識することができ、認識結果に従って動作信号を出力することができる。なお、第１実施形態と同様に、音響モデル変換処理により、撮影者の音声の認識精度を向上することができる。

【0174】

次いで、撮像装置１Ｃの動画用音制御の作用効果を説明する。音処理部２２ｂにおいて、マイクロフォン１４に音が入力されると、音処理部２２ｂにより音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、環境音抽出部２２１において、音デジタル信号と音声デジタル信号と時間信号とワード判定信号とが入力されると、環境音抽出部２２１により、音デジタル信号から指向性制御によって特定音デジタル信号が抽出される（環境音抽出処理）。次いで、ワード一致の場合、環境音抽出部２２１により、時間信号に対応する特定音デジタル信号から音声デジタル信号が抑制されることにより環境音デジタル信号が抽出される（環境音抽出処理）。なお、ワード不一致の場合、環境音抽出部２２１により、特定音デジタル信号が環境音デジタル信号として抽出される（環境音抽出処理）。次いで、環境音抽出部２２１により、抽出された環境音デジタル信号についてノイズ除去の処理を行う（環境音抽出処理）。次いで、エンコード部２２２において、環境音デジタル信号が入力されると、エンコード部２２２により環境音デジタル信号からファイルへ変換され、映像データと同期して動画ファイルとしてエンコードされる（エンコード処理）。そして、エンコード部２２２により動画ファイルが記憶部２１へ記録される（エンコード処理）。

【0175】

次いで、撮像装置１Ｃの作用効果を説明する。

【0176】

本実施形態では、第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄは、同一平面上に配置されている。第４マイクロフォン１４ｄは、第２マイクロフォン１４ｂと第３マイクロフォン１４ｃとを結ぶ一直線上に配置されていない。音声抽出部２２ｃにより、第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄのそれぞれに入力された第２マイク音デジタル信号～第４マイク音デジタル信号から、特定の方向の特定方向音声（音声デジタル信号）が抽出される。そして、音声認識部２２ｄにより、抽出後の特定方向音声に基づいて音声が認識される。即ち、指向性制御により音デジタル信号から音声デジタル信号が抽出され、音声が認識される。従って、指向性制御により抽出された音声デジタル信号に基づいて音声の認識を行うことができる（平面の指向作用）。

【0177】

本実施形態では、第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄのそれぞれに入力された第２マイク音デジタル信号～第４マイク音デジタル信号から環境音デジタル信号を抽出する環境音抽出部２２１を有している。音声抽出部２２ｃによる特定方向音声の抽出と環境音抽出部２２１による特定方向音の抽出との両方が同時に行われる。音声抽出部２２ｃにより、第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄのそれぞれに入力された第２マイク音デジタル信号～第４マイク音デジタル信号から、音声の方向の特定方向音声が抽出される。そして、音声認識部２２ｄにより、抽出後の特定方向音声から音声が認識される。環境音抽出部２２１により、第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄのそれぞれに入力された第２マイク音デジタル信号～第４マイク音デジタル信号から、特定の方向の特定方向音が抽出される。即ち、指向性制御により音デジタル信号から音声デジタル信号が抽出され、音声が認識される。同時に、指向性制御により音デジタル信号から環境音デジタル信号が抽出される。従って、指向性制御により音声デジタル信号と環境音デジタル信号とを同時に抽出することができ、抽出された音声デジタル信号から音声の認識を行うことができる（同時処理作用）。

【0178】

本実施形態では、コマンド出力部２２ｅにより、テキスト信号がワードと一致するか否かが判定される。環境音抽出部２２１により、コマンド出力部２２ｅより入力されたワード判定結果（ワード判定信号）がワード一致の場合、抽出された特定の方向の特定音デジタル信号（特定方向音）から音声抽出部２２ｃより入力された音声デジタル信号（特定方向音声）が減算され、環境音デジタル信号（動画用音）が抽出される。環境音抽出部２２１により、コマンド出力部２２ｅより入力されたワード判定信号がワード不一致の場合、抽出された特定の方向の特定音デジタル信号（特定方向音）が環境音デジタル信号（動画用音）として抽出される。即ち、例えば各種のアクチュエータ等を動作させるための音声デジタル信号である場合には、特定音デジタル信号から音声デジタル信号が抑制される。各種のアクチュエータ等を動作させるための音声デジタル信号ではない場合には、特定音デジタル信号から音声デジタル信号が抑制されず、特定音デジタル信号に音声デジタル信号が含められる。従って、撮影者が意図する動画用音を自動的に抽出することができる。

【0179】

なお、本実施形態では、第１実施形態と同様に、囁き声認識作用と囁き声音響モデル作用と音声認識作用とモード判定接話作用と学習作用と撮像装置操作作用を奏する。また、本実施形態では、撮像装置１Ｃは、音声認識装置と音声処理装置とを備える。即ち、撮像装置１Ｃに音声を認識可能な機能を持たせることができる。このため、撮像装置１Ｃを音声により操作することができる（撮像装置操作作用）。
（第４実施形態）

【0180】

次に、図１５を参照して、第４実施形態の撮像装置１Ｄについて説明する。なお、第１実施形態と同様の構成はその説明を省略または簡略化する。

【0181】

撮像装置１Ｄの装置本体１０Ｄ（本体、筐体）は、第１マイクロフォン１４ａ（入力部）と、第２マイクロフォン１４ｂ（入力部、図１と図１０等参照）と、第３マイクロフォン１４ｃ（入力部、図１と図１０等参照）と、第４マイクロフォン１４ｄ（入力部）と、有する。その他のファインダ１２と、操作部１６と、制御ユニット２０と、等は第１実施形態と同様に有する。以下において、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄを特に区別しない場合には「マイクロフォン１４」とも記載する。

【0182】

撮像装置１Ｄの全方位（三次元）の音を再現するために、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄを用いる。第４実施形態では、三次元サウンドフォーマットとしてＡｍｂｉｓｏｎｉｃｓ（アンビソニックス）を適用する。三次元サウンドは、近年、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）動画にて用いるような音の方向を自由に変えて再生する技術の総称であり、立体音響技術の一部である。Ａｍｂｉｓｏｎｉｃｓには、ＦＯＡ（ＦｉｒｓｔＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ）やＨＯＡ（ＨｉｇｈＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ）等に分類されるフォーマットがある。ＦＯＡには、ＡｍｂｉＸやＦｕＭａ等がある。例えば、「ＡｍｂｉＸ」とは、全方位の空間の音（詳細には音波の存在する空間（音場））を記録することにより、音の再生時に音源が存在する特定の方向の音を再現することができる技術である。また、全方位における特定の方向の音を強調または低減することができる。

【0183】

第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれには、撮影者が発声する音声と撮影者周囲の環境音との両方の音が入力される。第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれは、音をアナログ信号の音アナログ信号へ変換する。マイクロフォン１４の指向性は、例えば、全ての方向から同じ感度で音が入力される無指向性（全指向性）である。第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれのマイクロフォン感度は同一である。なお、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれのマイクロフォン感度は異ならせても良く、感度の違いによる調整は音処理部２２ｂ等により行えば良い。

【0184】

第１マイクロフォン１４ａは、第１実施形態と同様の位置に配置されている。第２マイクロフォン１４ｂと第３マイクロフォン１４ｃは、第２実施形態と同様の位置に配置されている。第４マイクロフォン１４ｄは、図１５に示すように、装置本体１０Ｄの後面かつ右端（グリップ部１００側）に配置されている。

【0185】

第１マイクロフォン１４ａ～第４マイクロフォン１４ｄの位置関係について説明する。第１マイクロフォン１４ａ～第４マイクロフォン１４ｄをそれぞれ点と仮定し、当該四つの点を線分で結ぶと三角錐を形成可能な位置に配置されている。第１マイクロフォン１４ａは、第２マイクロフォン１４ｂと第３マイクロフォン１４ｃとを結ぶ一直線上に配置されていない。

【0186】

以下、図１６を参照して、制御ユニット２０のブロック構成について説明する。

【0187】

制御ユニット２０は、記憶部２１と、音モジュール２２と、撮像部２３と、通信部２４と、ジャイロセンサ２５（傾きセンサ）と、を有する。なお、ジャイロセンサ２５は第１実施形態と相違するが、その他の構成は第１実施形態と同様である。

【0188】

ジャイロセンサ２５は、装置本体１０Ｄの傾きすなわち装置本体１０Ｄの角度（姿勢）や角速度や角加速度を検出する公知のセンサである。

【0189】

以下、図１７を参照して、音モジュール２２のブロック構成について説明する。

【0190】

音モジュール２２は、音声モード判定部２２ａと、音処理部２２ｂと、音声抽出部２２ｃと、音声認識部２２ｄ（認識部）と、コマンド出力部２２ｅ（出力部）と、音響モデル変換部２２ｆと、変更部２２ｊを有する。更に、音モジュール２２は、環境音抽出部２２１（動画用音抽出部）と、エンコード部２２２と、を有する。なお、図１７に示す例では、本実施形態の音声認識装置は、アイセンサ１３と、マイクロフォン１４と、音モジュール２２と、記憶部２１と、ジャイロセンサ２５と、を備える。制御用プログラムとして、各部２２ａ～２２ｆ，２２ｊ，２２１，２２２の処理を実行するためのプログラムが記憶部２１に格納されている。制御ユニット２０は、プログラムを読み出して、ＲＡＭにて実行することにより、各部２２ａ～２２ｆ，２２ｊ，２２１，２２２の処理を行う。なお、第４実施形態では、静止画撮影時の音モジュール２２が行う音声認識制御と、動画撮影時の音モジュール２２が行う動画用音制御について説明する。先に、音声認識制御について説明する。また、音声モード判定処理と音声認識処理と音響モデル変換処理とは第１実施形態と同様であり、コマンド出力処理とエンコード処理は第３実施形態と同様である。

【0191】

変更部２２ｊは、ジャイロセンサ２５の角度信号（傾き情報）等に基づいて、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち少なくとも一つのマイクロフォンを音声認識用に変更する。変更部２２ｊは、撮影者がファインダ１２を覗いている眼を判定する。変更部２２ｊは、角度信号と眼の判定結果に基づいて、接話のときに撮影者の口に最も近い、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち一つのマイクロフォンを音声認識用に変更する。言い換えると、変更部２２ｊは、角度信号と眼の判定結果に基づいて、接話のときにおける撮影者の口の位置を推定し、最も近い第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち一つのマイクロフォンを音声認識用に変更する。変更部２２ｊは、音声認識用に変更した一つのマイクロフォンの情報をマイクロフォン情報信号として、音処理部２２ｂへ出力する。また、変更部２２ｊは、角度信号を音処理部２２ｂへ出力する。具体的には、変更部２２ｊは、以下の変更処理を、角度信号が入力される間に繰り返し行う。

【0192】

まず、変更部２２ｊは、ジャイロセンサ２５の角度信号が横位置か否かを判定する。ここで、図１８を一例として横位置と縦位置を説明する。「横位置」とは、図１８（Ａ）に示すように、ファインダ１２が撮像光学系１１よりも上側にある状態位置であり、撮影者が右眼でファインダ１２を覗いている状態位置である。横位置ではないすなわち「縦位置」とは、例えば図１８（Ｂ）に示すように、グリップ部１００が撮像光学系１１よりも下側であり、撮影者が右眼でファインダ１２を覗いている状態位置である。

【0193】

次いで、変更部２２ｊは、撮影者がファインダ１２を覗いている眼を判定する。例えば、撮影者が事前に登録（設定）する情報から、変更部２２ｊは撮影者がファインダ１２を覗いている眼を判定する。登録の情報は、撮影者がファインダ１２を覗くとき頻繁に使用する眼であり、記憶部２１に格納されている。変更部２２ｊは、記憶部２１に格納されている登録の情報を読み込んで、眼を判定する。なお、登録の情報は、図１８と同様に右眼とする。

【0194】

次いで、変更部２２ｊは、角度信号が横位置であって目の判定が右眼の場合、第１マイクロフォン１４ａを接話のときに用いられる音声認識用に変更する。言い換えると、変更部２２ｊは、撮影者の口に最も近い第１マイクロフォン１４ａを音声認識用に変更する。理由は、この場合、接話のとき、第１マイクロフォン１４ａと撮影者の口は装置本体１０Ｄの前後方向において一致または略一致するからである。変更部２２ｊは、角度信号が縦位置であって目の判定が右眼の場合、第４マイクロフォン１４ｄを接話のときに用いられる音声認識用に変更する。言い換えると、変更部２２ｊは、撮影者の口に最も近い第４マイクロフォン１４ｄを音声認識用に変更する。理由は、横位置の場合と同様であり、接話のとき、第４マイクロフォン１４ｄと撮影者の口は装置本体１０Ｄの前後方向において一致または略一致するからである。なお、縦位置の場合、指向性も変更される。そして、変更部２２ｊは、音声認識用に変更した一つのマイクロフォンをマイクロフォン情報信号として、音処理部２２ｂへ出力する。本実施形態では、変更部２２ｊは、「横位置」の接話のときに用いられる音声認識用に変更した第１マイクロフォン１４ａをマイクロフォン情報信号として、音処理部２２ｂへ出力する。また、変更部２２ｊは、「縦位置」の接話のときに用いられる音声認識用に変更した第４マイクロフォン１４ｄをマイクロフォン情報信号として、音処理部２２ｂへ出力する。なお、変更部２２ｊは、横位置や縦位置にかかわらず、角度信号を音処理部２２ｂへ出力する。

【0195】

音処理部２２ｂは、音アナログ信号を、音デジタル信号（音デジタルデータ、音）への変換の音処理を行う。音処理部２２ｂは、音デジタル信号を音声抽出部２２ｃと環境音抽出部２２１へ出力する。更に、音処理部２２ｂは、マイクロフォン情報信号と角度信号を音声抽出部２２ｃへ出力し、角度信号を環境音抽出部２２１へ出力する。具体的には、音処理部２２ｂは、以下の音処理を、マイクロフォン１４に音が入力され、マイクロフォン情報信号と角度信号が入力される間に繰り返し行う。なお、音処理は、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれに入力された音について別々に行う。また、以下において、第１マイクロフォン１４ａに入力された音が、音処理された信号を「第１マイク音デジタル信号（第１マイク音デジタルデータ）」と記載する。第２マイクロフォン１４ｂに入力された音が、音処理された信号を「第２マイク音デジタル信号（第２マイク音デジタルデータ）」と記載する。第３マイクロフォン１４ｃに入力された音が、音処理された信号を「第３マイク音デジタル信号（第３マイク音デジタルデータ）」と記載する。第４マイクロフォン１４ｄに入力された音が、音処理された信号を「第４マイク音デジタル信号（第４マイク音デジタルデータ）」と記載する。音デジタル信号は、第１マイク音デジタル信号～第４マイク音デジタル信号を特に区別しない場合のことである。

【0196】

音処理部２２ｂは、第１実施形態と同様に、音アナログ信号を増幅し、次いで、音デジタル信号に変換する。そして、音処理部２２ｂは、音処理した音デジタル信号とマイクロフォン情報信号と角度信号を音声抽出部２２ｃへ出力し、音処理した音デジタル信号と角度信号を環境音抽出部２２１へ出力する。なお、音処理部２２ｂは、第１実施形態と異なり、ＤＣ成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減のノイズ除去の処理は行わない。

【0197】

音声抽出部２２ｃは、角度信号に基づいて、指向性を切り替える。本実施形態では、縦位置の場合、角度信号に基づいて、指向性を切り替える。音声抽出部２２ｃは、音声モード判定部２２ａより入力されたモード信号と変更部２２ｊより入力されたマイクロフォン情報信号とに基づいて、音処理部２２ｂより入力された音デジタル信号から、音声デジタル信号を抽出する。音声抽出部２２ｃは、抽出した音声デジタル信号を音声認識部２２ｄと環境音抽出部２２１へ出力する。具体的には、音声抽出部２２ｃは、以下の音声抽出処理を、音声モード判定部２２ａからモード信号が入力され、音処理部２２ｂから音デジタル信号マイクロフォン情報信号と角度信号が入力される間に繰り返し行う。

【0198】

音声デジタル信号は、以下の三つの方法のうち一つの方法にて抽出される。第１の抽出方法として、音声抽出部２２ｃは、マイクロフォン情報信号に基づいて、第１マイク音デジタル信号～第４マイク音デジタル信号のうち音声認識用に変更されたマイクロフォンの信号を音声デジタル信号として抽出する。第２の抽出方法として、音声抽出部２２ｃは、マイクロフォン情報信号に基づいて、音デジタル信号から上述した指向性制御（公知のビームフォーミング）により音声デジタル信号を抽出する。なお、第２の抽出方法では、角度信号と眼の判定結果に基づいて、撮影者の口の方向に指向性を変更して、音デジタル信号から上述した指向性制御により音声デジタル信号を抽出しても良い。第３の抽出方法として、音声抽出部２２ｃは、第１マイク音デジタル信号～第４マイク音デジタル信号により音声の位置（撮影者の口の位置）を推定して、その音声の位置に基づいて音デジタル信号から音声デジタル信号を抽出する。以下、音声抽出部２２ｃについて、第１の抽出方法と第２の抽出方法を詳述する。

【0199】

まず、音声抽出部２２ｃは、音声モード判定部２２ａより入力されたモード信号に基づいて、囁き声モードまたは通常発声モードか判定する。囁き声モードの場合であって横位置の場合について説明する。次いで、第１の抽出方法では、音声抽出部２２ｃは、第１マイク音デジタル信号を音声デジタル信号として抽出する。次に、第２の抽出方法では、音声抽出部２２ｃは、マイクロフォン情報信号に基づいて、音デジタル信号から上述した指向性制御により音声デジタル信号を抽出する。図１９を一例として、特定方向音声の範囲について説明する。なお、図１９では、第４マイクロフォン１４ｄを図示していないが、第４マイクロフォン１４ｄに入力された音についても音声デジタル信号と特定音デジタル信号の抽出に用いるものとする。音声抽出部２２ｃは、囁き声モードの場合であって横位置の場合、図１９（Ａ）に示す範囲２４１のように、接眼状態であるから第１マイクロフォン１４ａの近傍であって装置本体１０Ｄの後方である特定の方向の特定方向音声（特定方向音）を全方位の空間の音声デジタル信号として抽出する。言い換えると、音声抽出部２２ｃは、第１マイクロフォン１４ａの近傍の音を音声デジタル信号として抽出する。

【0200】

また、囁き声モードの場合であって縦位置の場合について説明する。音声抽出部２２ｃは、角度信号に基づいて指向性を切り替える。第１の抽出方法では、音声抽出部２２ｃは、第４マイク音デジタル信号を音声デジタル信号として抽出する。次に、第２の抽出方法では、音声抽出部２２ｃは、接眼状態であるから第４マイクロフォン１４ｄの近傍であって装置本体１０Ｄの後方である特定の方向の特定方向音声（特定方向音）を全方位の空間の音声デジタル信号として抽出する。言い換えると、音声抽出部２２ｃは、第４マイクロフォン１４ｄの近傍の音を音声デジタル信号として抽出する。

【0201】

通常発声モードの場合について説明する。通常発声モードでは、離眼状態であるからマイクロフォンを音声認識用に変更していないので、第２の抽出方法について説明する。音声抽出部２２ｃは、図１９（Ｂ）に示す範囲２４２のように、離眼状態であるから装置本体１０Ｄの遠方であって装置本体１０Ｄの後方かつ下方である特定の方向の特定方向音声（特定方向音）を全方位の空間の音声デジタル信号として抽出する。なお、音声抽出部２２ｃは、通常発声モードの場合であって縦位置の場合、角度信号に基づいて指向性を切り替える。また、通常発声モードの場合でも、囁き声モードのようにマイクロフォンを音声認識用に変更しても良く、第１の抽出方法は囁き声モードの場合と同様である。更に、図１９（Ｂ）は一例であるから、範囲２４２に限られない。例えば、三脚に撮像装置１Ｄを設置して、自分の写真を撮影する（自撮り）シーンにおいて、音声抽出部２２ｃは、以下のように特定方向音声を抽出する。音声抽出部２２ｃは、自撮りシーンであって通常発声モードの場合、離眼状態であるから装置本体１０Ｄの前方である特定の方向の特定方向音声（特定方向音）を全方位の空間の音声デジタル信号として抽出する。

【0202】

音声抽出部２２ｃは、音声デジタル信号を抽出するとき、音声デジタル信号を抽出した部分の時間情報を、時間信号として抽出する。

【0203】

【0204】

【0205】

まず、環境音抽出部２２１は、囁き声モードまたは通常発声モードにかかわらず、第３実施形態と同様に、音処理部２２ｂより入力された音デジタル信号から、音声デジタル信号を抑制する。即ち、環境音抽出部２２１は、ワード判定信号がワードと一致か否かを判定し、ワードと一致する場合、音デジタル信号から音声デジタル信号を減算する処理を行う。一方、環境音抽出部２２１は、ワードと一致しない場合、音デジタル信号から音声デジタル信号を減算する処理を行わない。

【0206】

次いで、環境音抽出部２２１は、音デジタル信号から音声デジタル信号を抑制した残りの音デジタル信号または音声デジタル信号を抑制しない音デジタル信号を、アンビソニックス化する処理を行う（アンビソニックスに変換する）。次いで、環境音抽出部２２１は、角度信号に基づいて、アンビソニックス化された音デジタル信号における音の再現方向を変更する。そして、環境音抽出部２２１は、アンビソニックス化され音の再現方向が変更された音デジタル信号から、環境音デジタル信号（環境音デジタルデータ、環境音、動画用の動画用音）を抽出する。例えば、環境音抽出部２２１は、アンビソニックス化され音の再現方向が変更された音デジタル信号から、図１９に示す範囲３４０のように、装置本体１０Ｄの前方である特定の方向の音を全方位の空間の環境音デジタル信号として抽出する。このように、環境音抽出部２２１は、音デジタル信号から環境音デジタル信号を抽出する。その他のノイズ除去の処理やエンコード部２２２への出力の処理は、第３実施形態と同様である。なお、アンビソニックス化する処理を行った後に、音声デジタル信号を減算する処理を行っても良い。

【0207】

次に、第４実施形態の作用効果について説明する。

【0208】

まず、撮像装置１Ｄの音声認識制御の作用効果を説明する。音声モード判定部２２ａにおいて、アイセンサ１３の検出信号が入力されると、音声モード判定部２２ａによりアイセンサ１３の検出信号に基づいて囁き声モードと通常発声モードの一方が判定される（モード判定処理）。音処理の前に、変更部２２ｊにおいて、角度信号と眼の判定結果に基づいて、接話のときに撮影者の口に最も近い、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち一つのマイクロフォンを音声認識用に変更する（変更処理）。次いで、モード判定処理と同時またはモード判定処理の前後に、音処理部２２ｂにおいて、マイクロフォン１４に音が入力されマイクロフォン情報信号と角度信号が入力されると、音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、音声抽出部２２ｃにおいて、モード信号とマイクロフォン情報信号と角度信号と音デジタル信号が入力されると、音声抽出部２２ｃにより音デジタル信号から第１～第３の抽出方法によって音声デジタル信号が抽出される（音声抽出処理）。次いで、音声抽出部２２ｃにより、抽出された音声デジタル信号についてノイズ除去の処理を行う（音声抽出処理）。次いで、音声認識部２２ｄにおいて、モード信号と音声デジタル信号が入力されると、音声認識部２２ｄにより文章または単語が認識される（音声認識処理）。次いで、コマンド出力部２２ｅにおいて、テキスト信号が入力されると、コマンド出力部２２ｅによりテキスト信号に従って動作信号が出力される（コマンド出力処理）。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、撮影者が発声する囁き声または通常発声を認識することができ、認識結果に従って動作信号を出力することができる。なお、第１実施形態と同様に、音響モデル変換処理により、撮影者の音声の認識精度を向上することができる。

【0209】

次いで、撮像装置１Ｄの動画用音制御の作用効果を説明する。音処理の前に、変更部２２ｊにおいて、ジャイロセンサ２５の角度信号が入力される（変更処理）。次いで、音処理部２２ｂにおいて、マイクロフォン１４に音が入力されマイクロフォン情報信号と角度信号が入力されると、音処理部２２ｂにより音アナログ信号が音デジタル信号へ変換される（音処理）。次いで、環境音抽出部２２１において、音デジタル信号と角度信号と音声デジタル信号と時間信号とワード判定信号とが入力されると、環境音抽出部２２１により、ワード判定信号がワードと一致か否かが判定される（環境音抽出処理）。次いで、ワード一致の場合、環境音抽出部２２１により、時間信号に対応する音デジタル信号から音声デジタル信号を減算する処理が行われる（環境音抽出処理）。なお、ワード不一致の場合、環境音抽出部２２１により、音デジタル信号から音声デジタル信号を減算する処理が行われない（環境音抽出処理）。次いで、環境音抽出部２２１により、音デジタル信号から音声デジタル信号を抑制した残りの音デジタル信号または音声デジタル信号を抑制しない音デジタル信号を、アンビソニックス化する処理が行われる（環境音抽出処理）。次いで、環境音抽出部２２１は、角度信号に基づいて、アンビソニックス化された音デジタル信号における音の再現方向を変更する（環境音抽出処理）。そして、環境音抽出部２２１により、アンビソニックス化され音の再現方向が変更された音デジタル信号から、特定の方向の環境音デジタル信号が抽出される（環境音抽出処理）。次いで、環境音抽出部２２１により、抽出された環境音デジタル信号についてノイズ除去の処理を行う（環境音抽出処理）。次いで、エンコード部２２２において、環境音デジタル信号が入力されると、エンコード部２２２により環境音デジタル信号からファイルへ変換され、映像データと同期して動画ファイルとしてエンコードされる（エンコード処理）。そして、エンコード部２２２により動画ファイルが記憶部２１へ記録される（エンコード処理）。

【0210】

次いで、撮像装置１Ｄの作用効果を説明する。

【0211】

本実施形態では、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄをそれぞれ点と仮定し、当該四つの点を線分で結ぶと三角錐を形成可能な位置に配置されている。音声抽出部２２ｃにより、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのそれぞれに入力された第１マイク音デジタル信号～第４マイク音デジタル信号から、特定の方向の特定方向音声（音声デジタル信号）が抽出される。そして、音声認識部２２ｄにより、抽出後の特定方向音声に基づいて音声が認識される。即ち、指向性制御により音デジタル信号から音声デジタル信号が抽出され（第２の抽出方法）、音声が認識される。従って、指向性制御により抽出された音声デジタル信号に基づいて音声の認識を行うことができる（立体の指向作用）。加えて、全方位の空間の音から音声デジタル信号が抽出されるため、平面の空間の音から音声デジタル信号が抽出されるよりも、撮影者の音声の認識精度を向上することができる。特に、通常発声モードの場合、撮影者の音声の認識精度を向上することができる。なお、第３の抽出方法により音デジタル信号から音声デジタル信号が抽出され、音声が認識されることも可能である。

【0212】

本実施形態では、第３実施形態と同様に、同時処理作用を奏する。加えて、全方位の空間の音から音声デジタル信号と環境音デジタル信号が抽出されるため、平面の空間の音から音声デジタル信号と環境音デジタル信号が抽出されるよりも、撮影者の音声の認識精度と動画用音の抽出精度を向上することができる。

【0213】

本実施形態では、第３実施形態と同様に、各種のアクチュエータ等を動作させるための音声デジタル信号である場合には、音デジタル信号から音声デジタル信号が抑制される。各種のアクチュエータ等を動作させるための音声デジタル信号ではない場合には、音デジタル信号から音声デジタル信号が抑制されず、音デジタル信号に音声デジタル信号を含められる。従って、撮影者が意図する動画用音を自動的に抽出することができる。

【0214】

本実施形態では、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄと、装置本体１０Ｄと、装置本体１０Ｄの傾きを検出するジャイロセンサ２５と、ジャイロセンサ２５により検出された角度信号に基づいて、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち少なくとも一つのマイクロフォンを音声認識用に変更する変更部２２ｊと、備えている。即ち、装置本体１０Ｄの傾きが変更されると、角度信号に基づいて、少なくとも一つのマイクロフォンが音声認識用に変更されるので、音声が収音されやすくなる（第１の抽出方法）。従って、撮影者の音声の認識精度を向上することができる（音声認識用マイク変更作用）。

【0215】

本実施形態では、変更部２２ｊにより、撮影者がファインダ１２を覗いている眼が判定される。変更部２２ｊにより、眼の判定結果と角度信号に基づいて、接話のときに撮影者の口に最も近い、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち一つのマイクロフォンが音声認識用に変更される。変更部２２ｊにより、横位置の場合には、接話のときに撮影者の口に最も近い、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち第１マイクロフォン１４ａが音声認識用に変更される。また、変更部２２ｊにより、縦位置の場合には、接話のときに撮影者の口に最も近い、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち第４マイクロフォン１４ｄが音声認識用に変更される。即ち、接話のとき、撮影者の発声する囁き声が正確に抽出される（第１の抽出方法）。また、マイクロフォン１４の数を増やさなくて良い。従って、マイクロフォン１４の数を抑制しつつ、撮影者の囁き声の認識精度を向上することができる（接話時音声認識用マイク変更作用）。

【0216】

なお、本実施形態では、第１実施形態と同様に、囁き声認識作用と囁き声音響モデル作用と音声認識作用とモード判定接話作用と学習作用と撮像装置操作作用を奏する。また、本実施形態では、撮像装置１Ｄは、音声認識装置と音声処理装置とを備える。即ち、撮像装置１Ｄに音声を認識可能な機能を持たせることができる。このため、撮像装置１Ｄを音声により操作することができる（撮像装置操作作用）。

【0217】

上述した実施形態や一例では、囁き声モードと通常発声モードを一つずつ有する例を示したが、これに限られない。例えば、囁き声モードと通常発声モードを二つ以上ずつ有していても良い。ここで、囁き声と通常発声との違いほどではないが、ユーザの発声の強弱により音声の周波数特性等の特徴が変化する。このため、モードを増やすことにより、ユーザの音声の認識精度を向上することができる。なお、発声のボリュームが違う場合でも音素に変換することは可能である。この場合、プルーニングを比較的緩く設定しておけば、ユーザの音声の認識精度を維持することは可能である。

【0218】

上述した第１実施形態～第４実施形態では、音声モード判定部２２ａはアイセンサ１３の検出信号に基づいて囁き声モードまたは通常発声モードを判定する例を示した。変形例（１－１）では、音声モード判定部２２ａは音声の周波数特性に基づいて囁き声モードまたは通常発声モードを判定する例を示した。変形例（１－２）では、音声モード判定部２２ａは、環境音ボリュームに基づいて囁き声モードまたは通常発声モードを仮判定した後、アイセンサ１３の検出信号に基づいてモードを本判定する例を示した。しかし、これらに限られない。要するに、音声モード判定部２２ａは、少なくともアイセンサ１３の検出信号と音声の周波数特性の一方に基づいてモードを判定すれば良く、これに加えて、環境音ボリュームに基づいて囁き声モードまたは通常発声モードを判定しても良い。このように、モードを判定しても、上述したモード判定周波数作用とモード判定接話作用とモード判定環境音作用を奏する。例えば、音声モード判定部２２ａは、アイセンサ１３の検出信号と音声の周波数特性の両方に基づいてモードを判定する場合、アイセンサ１３の検出信号に基づいてモードを仮判定した後、音声の周波数特性に基づいてモードを本判定する。また、変形例１－２では、仮判定と本判定の順序を入れ替え、アイセンサ１３の検出信号に基づいてモードを仮判定した後、環境音ボリュームに基づいてモードを本判定しても良い。なお、音声モード判定部２２ａが音声の周波数特性に基づいて囁き声モードまたは通常発声モードを判定する場合、ファインダ１２とアイセンサ１３を有さなくても良い。

【0219】

上述した実施形態や一例では、自動的に、音声モード判定部２２ａは囁き声モードまたは通常発声モードを判定し、音声認識部２２ｄはモード信号に基づいて囁き声モードまたは通常発声モードを設定する例を示したが、これに限られない。例えば、スイッチやボタンやタッチパネルの画面上において、ユーザの手動により囁き声モードまたは通常発声モードの設定が行われても良く、ファインダ１２とアイセンサ１３を有さなくても良い。

【0220】

上述した変形例（１－１）や一例では、音声モード判定部２２ａは、音声抽出部２２ｃから入力されたあらゆる言葉の音声デジタル信号に含まれる音声の周波数特性に基づいて、囁き声モードまたは通常発声モードを判定する例を示した。しかし、これに限られない。例えば、音声認識制御の開始には、特定のトリガ―ワードの検出を必要としても良い。そして、音声モード判定部２２ａは、記憶部２１に格納されているトリガ―ワードの通常発声と囁き声との周波数特性データを読み込む。次いで、音声モード判定部２２ａは、上述した変形例（１－１）に記載の処理を行い、トリガ―ワードが囁き声の周波数特性の場合、囁き声モードと判定する。また、音声モード判定部２２ａは、トリガ―ワードが囁き声ではない（通常発声の）周波数特性の場合、通常発声モードと判定する。そして、音声モード判定部２２ａは、音声デジタル信号と共に判定したモードをモード信号として、音声認識部２２ｄと音圧判定部２２ｇへ出力する。これにより、トリガーワードに続く音声も、トリガ―ワードと同様に囁き声または通常発声だと考えられるので、トリガーワードにより、囁き声モードまたは通常発声モードを判定する。この結果、音声モード判定がより一層容易になると共に音声モード判定処理の速度が高速化できる。なお、トリガ―ワードの検出によってモード判定処理を行った場合には、トリガ―ワードに続く音声についてモード判定処理を行わず、音声抽出処理からモード判定処理を介して音声認識処理へ進む。また、音声認識制御の開始は、上述した変形例（１－１）とトリガ―ワードを併用しても良く、トリガ―ワードの検出を必須の要件としなくても良い。

【0221】

上述した実施形態や変形例（１－２）では、接話検出部をアイセンサ１３とする例を示したが、これに限られない。例えば、スイッチやボタンやタッチパネルの画面上において、ユーザの手動により接話と非接話を切り替えられても良く、ファインダ１２とアイセンサ１３を有さなくても良い。そして、音声モード判定部２２ａは手動の切り替えに基づいて、囁き声モードまたは通常発声モードを判定すれば良い。

【0222】

上述した実施形態や一例では、囁き声と通常発声の両方を音声認識する例を示したが、これに限られない。要するに、囁き声のみを音声認識することができれば良い。例えば、音声認識部２２ｄは、囁き声モードに設定したときは囁き声を認識し、通常発声モードに設定したときは音声を認識しなくても良い。この他の例として、音声認識部２２ｄは、接話のときに音声を認識し、非接話のときに音声を認識しなくても良い。この接話のときに音声を認識する場合、まず、音声認識部２２ｄは、接話のとき、音声の周波数特性等に基づいて、音声デジタル信号が囁き声か否かを判定する。そして、音声認識部２２ｄは、その判定結果より、囁き声または通常発声を認識すれば良い。

【0223】

上述した変形例（１－１）では、音圧判定部２２ｇはモード信号を判定し通常発声モードの場合に音声デジタル信号の音圧を判定する例を示したが、これに限られない。例えば、音圧判定部２２ｇは、モード信号に関わらず音声デジタル信号の音圧を判定しても良く、この音圧の判定を音声モード判定処理よりも前または同時に行っても良い。そして、コマンド出力部２２ｅは、テキスト信号とモード信号と音圧判定信号（モード信号を含まない音圧の高さ結果）から、テキスト信号に従った動作信号の出力対象の程度が変更できる場合、音圧判定信号により予め設定された出力対象の程度に従って動作信号を出力すれば良い。このように構成しても、上述した程度変更作用を奏する。

【0224】

上述した変形例（１－１）や一例では、音圧判定部２２ｇは音声デジタル信号の音圧を判定し、コマンド出力部２２ｅはテキスト信号に従った動作信号の出力対象の程度が変更できる場合、音圧判定信号により予め設定された出力対象の程度に従って動作信号を出力する例を示した。この例を上述した実施形態や一例に適用しても良く、上述した程度変更作用を奏する。

【0225】

上述した変形例（１－２）では、音入力感度設定部２２ｈは環境音ボリュームが大きいほどマイクロフォン１４の感度を低く設定する（音入力感度設定処理）例を示した。プルーニング閾値判定部２２ｉは環境音ボリュームが大きいほどプルーニング閾値を大きく判定する（プルーニング閾値判定処理）例を示した。しかし、これに限られない。例えば、どちらか一方のみの処理を行っても良い。また、音入力感度設定処理とプルーニング閾値判定処理との少なくとも一方を、上述した実施形態や一例に適用しても良く、上述したマイク感度作用とプルーニング作用を奏する。

【0226】

上述した第２実施形態では、音方向は、三つの第２マイク音デジタル信号～第４マイク音デジタル信号から検出する例を示したが、これに限られない。例えば、音方向は、第１マイク音デジタル信号を加えて４つの音デジタル信号から検出しても良い。これにより、地平線に対する水平方向に加え、水平方向と前後方向に垂直な上下方向の音方向も検出可能になる。

【0227】

上述した第２実施形態では、音から通常発声を認識する例として、音声認識部２２ｄにより、減算後の音声デジタル信号に基づいて通常発声を認識する例を示したが、これに限られない。例えば、第３実施形態のように、音声抽出部２２ｃにおいて音デジタル信号から指向性制御により通常発声デジタル信号を抽出し（図１４（Ｂ）参照）、音声認識部２２ｄにより通常発声デジタル信号から通常発声を認識しても良い。

【0228】

上述した第２実施形態では、環境音抽出部２２１は減算処理によって音デジタル信号より音声デジタル信号を抑制して環境音デジタル信号を抽出する例を示したが、これに限られない。例えば、第３実施形態のように、コマンド出力部２２ｅによりテキスト信号がワードと一致するか否かの判定結果に基づいて、減算処理を行うか否を判定しても良い。ワード一致との判定の場合には減算処理を行い、ワード不一致との判定の場合には減算処理を行わない。これにより、撮影者が意図する動画用音を自動的に抽出することができる。

【0229】

上述した第３実施形態～第４実施形態や一例では、コマンド出力部２２ｅによりテキスト信号がワードと一致するか否かの判定結果に基づいて、音声デジタル信号の抑制の要否を決定する例を示したが、これに限られない。例えば、音声認識部２２ｄにより音声が認識されたか否かの音声認識信号を環境音抽出部２２１へ出力しても良い。そして、環境音抽出部２２１は、音声認識信号が音声認識有りの場合には、ワード判定信号の入力後に、音声デジタル信号の抑制の要否を決定する。また、環境音抽出部２２１は、音声認識信号が音声認識無しの場合には、ワード判定信号の入力を待たずに、音声デジタル信号の抑制を行わないことを決定する。これにより、撮影者が意図する動画用音を自動的に抽出することができる。

【0230】

上述した実施形態や一例では、音アナログ信号を音デジタル信号に変換した後に、各処理を行う例を示したが、これに限られない。例えば、同様の各処理を行うことが可能なアナログ電気電子回路によって実現しても良い。

【0231】

上述した実施形態や一例では、マイクロフォン１４は音をアナログ信号の音アナログ信号（音アナログデータ）へ変換する例を示したが、これに限られない。例えば、マイクロフォン１４は音をデジタル信号の音デジタル信号（音デジタルデータ）へ変換しても良い。これにより、音処理部２２ｂにおける音アナログ信号から音デジタル信号に変換する処理が不要となる。

【0232】

上述した第１実施形態とその変形例（１－１，１－２）では音処理において、上述した第２実施形態～第４実施形態では音声抽出処理と環境音抽出処理において、ノイズ除去の処理を行う例を示したが、これに限られない。要するに、ノイズ除去の処理は、音アナログ信号を音デジタル信号へ変換した後のタイミングであればいつでも良い。

【0233】

上述した第２実施形態～第４実施形態や一例では、音処理の後であってエンコード処理の前のリアルタイムに環境音抽出処理を行う例を示したが、これに限られない。例えば、音デジタル信号から環境音デジタル信号を抽出する必要が無ければ、リアルタイムにて環境音抽出処理を行わず後処理しても良い。後処理の場合、音処理の後に、音デジタル信号のままファイルへ変換し映像データと同期して動画ファイルとしてエンコードする。そして、動画ファイルを記憶部２１へ記録する。また、音声デジタル信号をデータとして記憶部２１へ記録する。ただし、音デジタル信号と音声デジタル信号の時間をタグ付けしておく。これにより、後処理を容易に行うことができる。

【0234】

上述した第３実施形態では、環境音抽出部２２１は指向性制御により装置本体１０Ｃの前方である特定の方向の特定方向音を特定音デジタル信号として抽出する例を示した。また、上述した第４実施形態では、環境音抽出部２２１はアンビソニックス化され音の再現方向が変更された音デジタル信号から、装置本体１０Ｄの前方である特定の方向の音を環境音デジタル信号として抽出する例を示した。しかし、これに限られない。例えば、指向性制御を行うことができるため、環境音抽出部２２１が抽出する特定の方向の音を、図２０（Ａ）に示すような５．１ｃｈ等の公知のマルチサラウンドや図２０（Ｂ）に示すような音場情報と頭部伝達関数を用いた公知のバイノーラル化技術としても良い。５．１ｃｈサラウンドは、例えば図２０（Ａ）に示す範囲３５１～３５５のように、装置本体１０Ｃ，１０Ｄの五つの方向に指向性を形成する特定の方向の音を特定音デジタル信号または環境音デジタル信号として抽出する。そして、残りの環境音抽出処理とエンコード処理を行うと共に、公知の方法により５．１ｃｈサラウンドを作成する。これにより、六つのスピーカを用いて、記憶部２１に記録される動画ファイルを再生すると、聞いている人を取り囲むような音が再生される。また、バイノーラル化技術は、例えば図２０（Ｂ）に示す範囲３６１～３６４のように、装置本体１０Ｃ，１０Ｄの四つの方向に指向性を形成する特定の方向の音を特定音デジタル信号または環境音デジタル信号として抽出する。そして、残りの環境音抽出処理とエンコード処理を行うと共に、公知の方法によりバイノーラル化された音を作成する。これにより、ヘッドホンを用いて、記憶部２１に記録される動画ファイルを再生すると、再生時に実際に発せられているような音（実際に近い音の定位）が再生される。

【0235】

上述した第４実施形態では、マイクロフォン１４（三次元サウンドフォーマットの技術）と、ジャイロセンサ２５と、変更部２２ｊと、を備える例を示した。そして、第４実施形態では、装置本体１０Ｄの傾きが変更されても、動画用音が再生されたとき、動画の録画時と再生時の音の向き（音の再現方向）が同一の状態で再生される例を示したが、これに限られない。例えば、撮像装置１Ｄが電子的に手振れを補正する電子手振れ補正機能を有する場合や、撮像装置１Ｄが自由視点動画（例えばＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）動画や３６０度動画等）の撮影が可能な装置である場合等がある。これらの場合でも、マイクロフォン１４（三次元サウンドフォーマットの技術）と、ジャイロセンサ２５と、変更部２２ｊと、を備えることにより、映像方向と音の向きが同一の状態（一致した状態）で再生される。

【0236】

上述した第４実施形態では、変更部２２ｊは登録の情報から眼を判定する例を示したが、これに限られない。例えば、変更部２２ｊは、ディスプレイ１５のタッチパネル静電容量の値から、撮影者がファインダ１２を覗いている眼を判定しても良い。撮影者がファインダ１２を覗いている眼によって、ディスプレイ１５に被る撮影者の顔の面積が異なる。このため、ディスプレイ１５に被る撮影者の顔の面積により、ディスプレイ１５のタッチパネル静電容量の値が変化するので、眼の判定が可能となる。また、変更部２２ｊは、音デジタル信号に含まれる音声デジタル信号の音源方向の解析結果から、撮影者がファインダ１２を覗いている眼を判定しても良い。変更部２２ｊは音デジタル信号に含まれる音声デジタル信号の音源方向を解析し、その解析の結果から音源方向を検知する。例えば、撮像装置の電源をＯＮした状態で撮影者が音声認識機能の利用を開始した数回にて、音デジタル信号に含まれる音声デジタル信号の音源方向を解析し、解析の結果から音源方向を検知する。そして、検知した音源方向から、変更部２２ｊは撮影者がファインダ１２を覗いている眼を判定する。なお、撮像装置の電源をＯＮした状態でのときに、常時、音源方向を検知すると、撮影者以外の人間の音声も解析してしまうので、撮影者が音声認識機能の利用を開始した数回にて、音源方向を検知する。なお、変更部２２ｊは、登録の情報とタッチパネル静電容量の値と解析結果とのうち二つ以上を組み合わせて、眼を判定しても良い。このように構成しても、第４実施形態と同様の作用効果を奏する。

【0237】

上述した第４実施形態では、変更部２２ｊによる音声認識用のマイクロフォンの変更は、登録の情報を右眼とし、図１８の横位置と縦位置との場合について音声認識用のマイクロフォンを変更する例を示したが、これに限られない。縦位置の場合については、図１８（Ｂ）の他に、図２１に示すように三つのパターンが想定される。三つのパターンにつき詳述すると、図１８（Ｂ）と同様にグリップ部１００が撮像光学系１１よりも下側であり、撮影者が左眼でファインダ１２を覗いている状態位置のパターンである。更に、グリップ部１００が撮像光学系１１よりも上側にあり、撮影者が左眼と右眼の一方でファインダ１２を覗いている状態位置のパターンである。三つのパターンでは、図２１に示すように、第４実施形態の装置本体１０Ｄの前後方向において撮影者の口と一致または略一致するマイクロフォン１４が無い状態である。なお、眼の判定は、上述した登録の情報とタッチパネル静電容量の値と解析結果のうち少なくとも一つにより行う。そして、図２１に示す三つのパターンの場合には、撮影者の口に最も近い、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち少なくとも一つのマイクロフォンを音声認識用に変更すれば良い。このように構成しても、第４実施形態と同様の作用効果を奏する。要するに、変更部２２ｊによる音声認識用のマイクロフォンの変更は、上述したように、タッチパネル静電容量の値等による撮影者の顔の位置、撮影者の口の位置、装置本体の傾き情報、撮影者の眼の接眼状態に関する情報等から変更すれば良い。

【0238】

上述した第４実施形態や一例で示した、変更部２２ｊによる変更処理は、上述した実施形態や一例に適用しても良く、上述した音声認識用マイク変更作用と接話時音声認識用マイク変更作用を奏する。また、上述した第４実施形態では、第１マイクロフォン１４ａ～第４マイクロフォン１４ｄのうち一つのマイクロフォンを音声認識用に変更する例を示したが、これに限らず、複数のマイクロフォンのうち二つ以上のマイクロフォンを音声認識用に変更しても良い。更に、例えば、第１実施形態～第３実施形態において、変更処理により一つのマイクロフォンを音声認識用に変更した（位置づけた）ことに加え、左右のチャンネルを他のマイクロフォンに変更しても（位置づけても）良い。これにより、装置本体１０Ｄの傾きが変更されても、動画用音が再生されたとき、動画の録画時と再生時の音の向きが同一の状態で再生される。

【0239】

上述した第１実施形態とその変形例（１－１，１－２）では、第１マイク群１４Ａを一つの第１マイクロフォン１４ａとし、第２マイク群１４Ｂを二つの第２マイクロフォン１４ｂと第３マイクロフォン１４ｃとする例を示したが、これに限られない。例えば、第１マイク群１４Ａを一つのマイクロフォンとし、第２マイク群１４Ｂを三つのマイクロフォンとしても良い。例えば、第２マイク群１４Ｂの三つのマイクロフォンは同一平面上に配置され、一つのマイクロフォンは残り二つのマイクロフォンを結ぶ一直線上に配置されないものとする。そして、三つのマイクロフォンの配置関係は、三つのマイクロフォンを点と仮定し、当該三つの点を線分で結ぶと三角形を形成可能な位置に配置される。そして、第１マイクロフォン１４ａは、上下方向（垂直方向）においてその三角形の内側の位置に配置されていれば良い。これにより、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された、地平線に対して水平方向の音と位相差が生じない位置に配置されることになる。このように構成しても、第１実施形態とその変形例（１－１，１－２）と同様の作用効果を奏する。その他の例として、第１マイク群１４Ａと第２マイク群１４Ｂとを両方とも一つのマイクロフォンとしても良い。このように構成しても、第１実施形態とその変形例（１－１，１－２）と同様の作用効果を奏する。要するに、位相差無し作用を奏する構成とすれば良い。その他の例として、装置本体１０Ａに一つのマイクロフォンとしても良い。一つのマイクロフォンは、囁き声の認識を考慮すると、上述した第１実施形態とその変形例（１－１，１－２）の第１マイクロフォン１４ａの配置のように装置本体１０Ａの後面の配置が好ましい。一つのマイクロフォンの構成にしても、第１実施形態とその変形例（１－１，１－２）と同様の作用効果を奏するが、位相差無し作用は奏しない。

【0240】

上述した第１実施形態とその変形例（１－１，１－２）では、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された、地平線に対して水平方向の音と位相差が生じない位置に配置される例を示した。即ち、第１マイク群１４Ａと第２マイク群１４Ｂは、上下方向（垂直方向）において重なる位置に配置されている例を示したが、これに限られない。要するに、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された音と位相差が所定値以下となる位置に配置されていれば良い。以下、これに該当する一例を説明する。まず、第１マイク群１４Ａは、装置本体１０Ａの前面であって、撮像光学系１１よりも下側かつ左側に配置されている。また、第２マイク群１４Ｂは、装置本体１０Ａの前面であって、撮像光学系１１よりも上側、かつ、左右方向において撮像光学系１１とグリップ部１００との間に配置されている。即ち、第１マイク群１４Ａと第２マイク群１４Ｂは、装置本体１０Ａの前面から見たとき（前面視では）、上下方向（垂直方向）において重ならない位置に配置されている。一方、第１マイク群１４Ａと第２マイク群１４Ｂは、装置本体１０Ａの左側面または右側面から見たとき（側面視では）、上下方向（垂直方向）において重なる位置に配置されている。言い換えると、第１マイク群１４Ａと第２マイク群１４Ｂは、撮像光学系１１のレンズの光軸に直交する垂直面の位置に配置されている。このように、第１マイク群１４Ａと第２マイク群１４Ｂを装置本体１０Ａに配置しても良い。これにより、第１マイク群１４Ａと第２マイク群１４Ｂに入力された音の方向につき位相差は考慮しなくて良く、第１実施形態と同様に音声抽出処理等が行われれば良い。このように構成しても、第１実施形態とその変形例（１－１，１－２）と同様の作用効果を奏する。

【0241】

上述した第２実施形態では、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された、地平線に対して水平方向の音と位相差が生じる位置に配置される例を示した。即ち、第１マイク群１４Ａと第２マイク群１４Ｂは、上下方向（垂直方向）において重ならない位置に配置されている例を示したが、これに限られない。要するに、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された音と位相差が生じる位置に配置されていれば良い。

【0242】

上述した第１実施形態とその変形例（１－１，１－２）と第２実施形態では、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された、地平線に対して水平方向の音と「位相差が生じない位置」または「位相差が生じる位置」に配置される例を示したが、これに限れない。上述したように、音の位相差は、地平線に対する水平方向に限らず、上下方向やその他の方向にも生じる。即ち、音の位相差は全方位（三次元）に生じる。このため、各方向に生じる位相差に対して、第２実施形態と同様に位相遅延を与えても良い。これにより、環境音がより打ち消された鮮明な音声デジタル信号と、音声がより打ち消された鮮明な環境音デジタル信号と、が抽出される。従って、撮影者の音声の認識精度や動画用音の抽出精度をより一層向上することができる。

【0243】

例えば、第２実施形態において、上下方向の位相差を考慮する場合について説明する。この場合、上下方向の位相遅延を付加する。撮影者がファインダ１２を覗いている（接話の）とき、撮影者の口の位置が固定されるので、位相遅延の量も第１マイク群１４Ａと第２マイク群１４Ｂの間隔でおおよそ決定される。このため、先に音が到達した第１音デジタル信号と第２音デジタル信号のうち一方に、第１マイク群１４Ａと第２マイク群１４Ｂの間隔から決定される位相遅延を与える。音声は、第２マイク群１４Ｂよりも先に第１マイク群１４Ａに到達する。このため、音声抽出部２２ｃと環境音抽出部２２１は、第１音デジタル信号に上下方向の位相遅延を付加する。撮影者の撮像装置１Ｂの構え方や撮影者の顔の大きさ等により、撮影者の口の位置が変化することを考慮すると、位相遅延の量を微調整および操作して、音デジタル信号から環境音デジタル信号または音声デジタル信号を削減する量等を指標に微調整しても良い。このとき、撮像装置１Ｂを使用する撮影者の顔の大きさ等の撮影者情報を登録する等することにより、撮影者情報を参照して量を微調整しても良い。このように、水平方向の位相遅延に加え、上下方向の位相遅延を付加すれば、音声デジタル信号と環境音デジタル信号が鮮明になるので、撮影者の音声の認識精度や動画用音の抽出精度をより一層向上することができる。

【0244】

上述した第１実施形態とその変形例（１－１，１－２）では、音モジュール２２が音声認識制御を行う例を示したが、これに限られない。即ち、音声認識制御に加え、動画用音を記憶部２１へ記録しても良い。単に、動画用音を記憶部２１へ記録しても良いし、第２実施形態や第３実施形態のように動画用音制御により動画用音を抽出しても良い。このように構成しても、第１実施形態とその変形例（１－１，１－２）と同様の作用効果を奏する。

【0245】

上述した第２実施形態では、第１マイク群１４Ａを一つの第１マイクロフォン１４ａとし、第２マイク群１４Ｂを三つの第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄとする例を示したが、これに限られない。例えば、第１マイク群１４Ａを一つのマイクロフォンとし、第２マイク群１４Ｂを二つのマイクロフォンとしても良い。第２マイク群１４Ｂを二つのマイクロフォンとする一例として、図１０の第４マイクロフォン１４ｄを削除する。言い換えると、二つのマイクロフォンは、同一平面上に配置され、左右方向において一直線上に配置されている。なお、図１０の第４マイクロフォン１４ｄを削除しても、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された音と位相差が生じる位置に配置されることになる。第２マイク群１４Ｂが二つのマイクロフォンの場合は、音方向の検出は角度１８０度になる。このため、第２マイク群１４Ｂが図１０の第２マイクロフォン１４ｂと第３マイクロフォン１４ｃの二つとなると、装置本体１０Ｂの前後方向から入力される音については以下の走査的手法を行う。以下、走査的手法の一例を示す。装置本体１０Ｂの前後方向から入力される音については、その方向が前方向または後方向の二つ方向に絞られる。そして、前方向から入力された音と仮定して位相遅延を与える前方仮定処理と、後方向から入力された音と仮定して位相遅延を与える後方仮定処理と、を行う。即ち、音声抽出部２２ｃは、一方から入力された音であることを仮定して位相遅延を与える処理を行う。そして、音声抽出部２２ｃは、第２実施形態と同様に、各仮定処理に対し、環境音ボリュームの調整等を行い、減算処理を行う。これらの処理により、各仮定処理のうち一方の仮定処理された音については、環境音デジタル信号が抑制された音声デジタル信号が抽出される。また、これらの処理により、各仮定処理のうち他方の仮定処理された音については、環境音デジタル信号が抑制されていない音声デジタル信号が抽出される。この結果から、入力された音が、装置本体１０Ｂの前後方向のどちらの方向から到達したかを、推定（検出）することができる。環境音の抽出についても、同様の走査的手法により環境音を抽出することができる。従って、第２マイク群１４Ｂを二つのマイクロフォンとした場合であっても、音声認識制御と動画用音制御を行うことができる。このように構成しても、第２実施形態と同様の作用効果を奏する。そして、走査的手法により音デジタル信号から音声デジタル信号が抽出され、音声が認識される。同時に、走査的手法により音デジタル信号から環境音デジタル信号が抽出される。従って、走査的手法により音声デジタル信号と環境音デジタル信号とを同時に抽出することもでき、抽出された音声デジタル信号から音声の認識を行うことができる（同時処理作用）。なお、第２マイク群１４Ｂの三つ以上のマイクロフォンが、同一平面上に配置され、前後方向や左右方向において一直線上に配置されている場合も同様である。なお、この場合でも、例えば三つのマイクロフォンのうち二つのマイクロフォンに入力される音から上述した走査的手法のように音方向を検出することできる。要するに、位相差有り作用を奏する構成とすれば良い。

【0246】

上述した第３実施形態では、三つの第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄを有する例を示したが、これに限られない。例えば、第２実施形態と同様に、四つの第１マイクロフォン１４ａ～第４マイクロフォン１４ｄを有していても良い。なお、第２マイク群１４Ｂは、第１マイク群１４Ａに入力された音と位相差が生じる位置に配置されても、第１マイク群１４Ａに入力された音と位相差が所定値以下となる位置に配置されても良い。このとき、例えば、音声抽出部２２ｃによる囁き声デジタル信号の抽出は、第１実施形態または第２実施形態と同様に行っても良く、上述した位相差有り作用または位相差無し作用を奏する。音声抽出部２２ｃによる通常発声デジタル信号と環境音抽出部２２１による環境音デジタル信号との抽出は、第３実施形態と同様に行っても良い。また、例えば、二つのマイクロフォンとすることが可能である。二つのマイクロフォンとした場合であっても、上述したように音声認識制御と動画用音制御を行うことができる。なお、三つ以上のマイクロフォンが、同一平面上に配置され、前後方向や左右方向において一直線上に配置されている場合も同様である。

【0247】

上述した第１実施形態～第４実施形態と変形例（１－１，１－２）では、マイクロフォン１４の数を三つ～四つとする例を示したが、これに限られない。マイクロフォン１４の数は増やしても良い。例えば、図２１に示す三つのパターンのそれぞれにおいて、口に最も近い装置本体１０Ｄの位置にマイクロフォンを追加しても良い。また、第１マイク群１４Ａの数を複数としても良い。マイクロフォンの数を増やせば増やすほど、撮影者の音声の認識精度や動画用音の抽出精度を向上することができる。更に、マイクロフォンを増やせば増やすほど空間的に周波数のサンプリング精度が上がり、音の方向の検出精度向上および指向性が強く形成できる。

【0248】

上述した実施形態や一例では、マイクロフォン１４を各箇所に配置する例を示したが、これに限られない。例えば、第１マイクロフォン１４ａは、装置本体１０Ａ，１０Ｂ，１０Ｄの後面の中央部に配置されていても良いし、装置本体１０Ａ，１０Ｂ，１０Ｄの前面（例えば撮像光学系１１よりも下側）に配置されていても良い。被写体側からの動画用音の抽出や自分の写真を撮影すること（自撮り）を考慮すれば、全てのマイクロフォンを装置本体１０Ａ～１０Ｄの前面に配置（例えば撮像光学系１１の周囲の位置）することが好ましい。また、変更部２２ｊによる変更処理を有していれば、装置本体１０Ａ，１０Ｂ，１０Ｄにおける第１マイクロフォン１４ａの位置は限定されない。即ち、変更部２２ｊにより、接話のときにユーザの口に最も近い、装置本体１０Ａ，１０Ｂ，１０Ｄに設けられたマイクロフォン１４のうち少なくとも一つのマイクロフォンを音声認識用に変更すれば良い。また、例えば、第２マイクロフォン１４ｂと第３マイクロフォン１４ｃは、装置本体１０Ａ～１０Ｄの左右方向において、装置本体１０Ａ～１０Ｄの左端と右端に一つずつ配置されていても良いし、ファインダ１２の左側面と右側面に一つずつ配置されていても良い（例えば図２）。また、例えば、第４マイクロフォン１４ｄは、装置本体１０Ｂ～１０Ｄの後面かつ左端に配置されていても良いし、装置本体１０Ｂ～１０Ｄの後面かつ上側の左端に配置されていても良いし、ファインダ１２の側面に配置されていても良い（図２参照）。なお、四つのマイクロフォンを有する場合、第４実施形態と同様に三角錐を形成可能な位置に配置されていれば、第４実施形態と同様にアンビソニックスを適用することができる。ここで、複数のマイクロフォンを各箇所に配置して、位相差無し作用、位相差有り作用、平面の指向作用または立体の指向作用を奏するためには、各作用を奏する位置に複数のマイクロフォンを配置すれば各マイクロフォンの位置はどこに配置されていても良い。

【0249】

上述した実施形態や一例では、マイクロフォン１４の指向性を無指向性とする例を示したが、これに限られない。例えば、マイクロフォン１４の指向性は、特定の方向の音を捉える単一指向性（例えば角度１８０度）としても良い。要するに、マイクロフォン１４の指向性は、取付位置や入力される音や抽出する音に基づいて決定されれば良い。

【0250】

上述した実施形態や一例では、制御用プログラムは記憶部２１に格納されている例を示したが、これに限られない。例えば、制御用プログラムは外部の記憶媒体に格納されていても良い。記憶媒体は、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）外部記憶装置、メモリーカード等である。ＤＶＤ等は、光学ディスクドライブ等を用いて制御ユニット２０に接続する。そして、制御用プログラムが格納されているＤＶＤ等から、制御用プログラムを制御ユニット２０に読み込んで、ＲＡＭにて実行しても良い。また、記憶媒体は、インターネット上のサーバ装置としても良い。そして、制御用プログラムが格納されているサーバ装置内から、通信部２４を通じて、制御用プログラムを制御ユニット２０に読み込んで、ＲＡＭにて実行しても良い。

【0251】

上述した実施形態や一例では、囁き声教師データと、囁き声音響モデルと、通常発声教師データと、通常発声音響モデルと、は記憶部２１に格納されている例を示したが、これに限られない。なお、以下において、囁き声教師データと、囁き声音響モデルと、通常発声教師データと、通常発声音響モデルと、をまとめて「音響モデル等」と記載する。例えば、音響モデル等は外部の記憶媒体に格納されていても良い。記憶媒体は、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）外部記憶装置、メモリーカード等である。ＤＶＤ等は、光学ディスクドライブ等を用いて例えば制御ユニット２０に接続する。そして、音響モデル等が格納されているＤＶＤ等から音響モデル等を読み込んでも良く、変換後の音響モデルをＤＶＤ等へ記録しても良い。また、記憶媒体は、インターネット上のサーバ装置としても良い。そして、音響モデル等が格納されているサーバ装置内から、通信部２４を通じて、音響モデル等を読み込んでも良い。また、通信部２４を通じて、変換後の音響モデルをサーバ装置内へ記録しても良い。更に、音響モデル変換部２２ｆは撮像装置１Ａ～１Ｄ内に備えている例を示したが、これに限られない。音響モデル変換部２２ｆ（プログラム含む）は、撮像装置１Ａ～１Ｄ外としても良く、例えば電子計算機やクラウド(サーバ)が備えていても良い。そして、音響モデル変換処理は電子計算機やクラウド(サーバ)で行えば良い。

【0252】

上述した実施形態や一例では、本発明の音声認識装置、音声処理装置、音声処理方法、音声処理プログラム、および、撮像装置を、撮像装置１Ａ～１Ｄに適用する例を示したが、これに限られない。例えば、本発明の音声認識装置と音声処理装置および方法と音声処理プログラムを、電子計算機（例えばスマートフォン）等に適用することができる。電子計算機（例えばスマートフォン）等は、マイクロフォン等を備え、少なくとも音声認識部２２ｄとコマンド出力部２２ｅを備える。また、電子計算機（例えばスマートフォン）等は、撮像光学系やファインダを備えていれば、本発明の撮像装置を適用しても良い。なお、上述した実施形態や一例では、装置本体１０Ｂ，１０Ｃの上面よりも上側にファインダ１２を有する撮像装置１Ａ～１Ｄに、本実施形態の音声認識装置、音声処理装置、音声処理方法、音声処理プログラム、および、撮像装置を適用する例を示したが、これに限られない。例えば、装置本体１０Ｂの上面にファインダ１２を有しないレンジファインダ型等の撮像装置に、本実施形態の音声認識装置、音声処理装置、音声処理方法、音声処理プログラム、および、撮像装置を適用しても良い。レンジファインダ型の場合、例えば図１０に示すように三つの第２マイクロフォン１４ｂ～第４マイクロフォン１４ｄを装置本体１０Ｂの上面に配置することが可能である。

【0253】

また、本発明の音声処理装置および方法と音声処理プログラムを、外部機器（例えば外部サーバや電子計算機等）に適用することができる。外部機器は、少なくとも音声認識部２２ｄとコマンド出力部２２ｅを備える。例えば、撮像装置１Ａ～１Ｄは、マイクロフォン１４を有し、通信部２４により音アナログ信号を外部機器（例えば、外部サーバ）へ送信する。次いで、外部機器では、音モジュール２２の音声認識処理（認識処理）やコマンド出力処理（出力処理）等の各処理が行われる。次いで、外部機器は、動作信号を一台以上の撮像装置１Ａ～１Ｄへ送信する。次いで、撮像装置１Ａ～１Ｄの例えば各種アクチュエータ等は、通信部２４により受信した動作信号により動作する。このように、本実施形態の音声処理装置、音声処理方法、および、音声処理プログラムを、外部機器（例えば外部サーバや電子計算機等）に適用しても、少なくとも囁き声認識作用を奏する。その他の例として、一台の親撮像装置と複数台の子撮像装置により構成される親子撮像装置システムについて説明する。親撮像装置は、本発明の音声認識装置および音声処理装置の少なくとも一つを備える。親撮像装置は、マイクロフォンと音声認識部２２ｄとコマンド出力部２２ｅと通信部２４を有する。複数台の子撮像装置のそれぞれは、通信部２４を有し、マイクロフォンを有していても有していなくても良い。複数台の子撮像装置のそれぞれは、親撮像装置とは異なる位置に配置されている。そして、親撮像装置は、上記のように撮像装置と外部機器の機能を兼用する。このため、親撮像装置は、通信部２４を通じて、動作信号を複数台の子撮像装置へ送信する。親撮像装置の例えば各種アクチュエータ等は、動作信号により動作する。一方、複数台の子撮像装置のそれぞれは親撮像装置からの動作信号を受信して、子撮像装置の例えば各種アクチュエータ等は通信部２４により受信した動作信号により動作する。例えば、動作信号が「ピントを調整してから、静止画を撮影する」の場合、親撮像装置と複数台の子撮像装置は、静止画を撮影する撮像装置として機能する。つまり、複数台の子撮像装置を親撮像装置と連携させることができる。このため、親撮像装置と複数台の子撮像装置を一斉に動作させることができる。なお、親撮像装置は、本発明の音声処理装置を備え、複数台の子撮像装置のそれぞれは、通信部２４とマイクロフォンを有する。そして、親撮像装置は、通信部２４を通じて、子撮像装置から音声が入力されると、音声が認識され、認識結果に従ってコマンド信号を出力しても良い。このため、親撮像装置を介して、複数台の子撮像装置を連携させることができる。

【符号の説明】

【0254】

１Ａ，１Ｂ，１Ｃ，１Ｄ撮像装置（音声認識装置）
１０Ａ，１０Ｂ，１０Ｃ，１０Ｄ装置本体（本体）
１２ファインダ
１３アイセンサ（接話検出部）
１４マイクロフォン（入力部、音入力部）
１４Ａ第１マイク群（第１入力群、第１音入力群）
１４Ｂ第２マイク群（第２入力群、第２音入力群）
１４ａ第１マイクロフォン（入力部、音入力部）
１４ｂ第２マイクロフォン（入力部、音入力部）
１４ｃ第３マイクロフォン（入力部、音入力部）
１４ｄ第４マイクロフォン（入力部、音入力部）
２０制御ユニット
２１記憶部
２２音モジュール（音声処理装置）
２２ａ音声モード判定部
２２ｂ音処理部
２２ｃ音声抽出部
２２ｄ音声認識部（認識部）
２２ｅコマンド出力部（出力部）
２２ｆ音響モデル変換部（囁き声音響モデル変換部）
２２ｇ音圧判定部
２２ｈ音入力感度設定部
２２ｉプルーニング閾値判定部
２２ｊ変更部
２５ジャイロセンサ（傾きセンサ）
２２１環境音抽出部（動画用音抽出部）

【図1】