(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022106109
(43)【公開日】2022-07-19
(54)【発明の名称】音声認識装置、音声処理装置および方法、音声処理プログラム、撮像装置
(51)【国際特許分類】
H04N 5/232 20060101AFI20220711BHJP
G10L 15/06 20130101ALI20220711BHJP
G10L 25/21 20130101ALI20220711BHJP
G10L 15/08 20060101ALI20220711BHJP
G10L 15/28 20130101ALI20220711BHJP
G03B 17/02 20210101ALI20220711BHJP
G03B 19/00 20210101ALI20220711BHJP
【FI】
H04N5/232 030
H04N5/232 450
G10L15/06 400V
G10L25/21
G10L15/08 300B
G10L15/28 400
G03B17/02
G03B19/00
【審査請求】未請求
【請求項の数】21
【出願形態】OL
(21)【出願番号】P 2021000858
(22)【出願日】2021-01-06
(71)【出願人】
【識別番号】000004112
【氏名又は名称】株式会社ニコン
(74)【代理人】
【識別番号】240000327
【弁護士】
【氏名又は名称】弁護士法人クレオ国際法律特許事務所
(72)【発明者】
【氏名】伊藤 安軌
(72)【発明者】
【氏名】▲高▼野 静二
【テーマコード(参考)】
2H054
2H100
5C122
【Fターム(参考)】
2H054BB13
2H100AA11
5C122DA03
5C122EA42
5C122FJ01
5C122FJ04
5C122FJ09
5C122FK15
5C122GA01
5C122GA23
5C122HA13
5C122HA35
5C122HA75
5C122HA76
5C122HA88
(57)【要約】
【課題】ユーザが発声する音声のうち囁き声を認識する。
【解決手段】音声認識装置を備える撮像装置1Aは、ユーザ(撮影者)が発声する囁き声が入力される第1マイクロフォン14aと、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、囁き声を認識する音声認識部22dと、音声認識部22dによる認識結果に従って動作信号を出力するコマンド出力部22eと、を備える。
【選択図】
図5
【特許請求の範囲】
【請求項1】
少なくともユーザが発声する囁き声が入力される入力部と、
不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、前記囁き声を認識する認識部と、
前記認識部による認識結果に従ってコマンド信号を出力する出力部と、
を備えることを特徴とする音声認識装置。
【請求項2】
前記囁き声音響モデルは、前記不特定囁き声の囁き声周波数特性に基づいて作成される
ことを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記入力部には、少なくともユーザが発声する音声が入力され、
前記認識部は、囁き声モードと通常発声モードを有し、
前記囁き声モードは、前記囁き声音響モデルを用いて、入力された前記囁き声を認識するモードであり、
前記通常発声モードは、不特定通常発声の特徴を学習したことにより作成された通常発声音響モデルを用いて、入力された前記音声のうち通常発声を認識するモードであり、
前記囁き声モードまたは前記通常発声モードを判定する音声モード判定部を備える
ことを特徴とする請求項1又は請求項2に記載の音声認識装置。
【請求項4】
前記音声モード判定部は、前記入力部に入力された前記音声の周波数特性に基づいて前記囁き声モードまたは前記通常発声モードを判定する
ことを特徴とする請求項3に記載の音声認識装置。
【請求項5】
前記入力部に接してユーザが発声する接話か否かを検出する接話検出部を有し、
前記音声モード判定部は、接話のとき前記囁き声モードと判定し、接話でないとき前記通常発声モードと判定する
ことを特徴とする請求項3又は請求項4に記載の音声認識装置。
【請求項6】
前記入力部には、前記音声とユーザ周囲の環境音が入力され、
前記音声モード判定部は、前記入力部に入力された前記環境音の環境音ボリュームに基づいて前記囁き声モードまたは前記通常発声モードを判定する
ことを特徴とする請求項4又は請求項5に記載の音声認識装置。
【請求項7】
前記入力部には、前記音声とユーザ周囲の環境音が入力され、
前記入力部の感度を設定する音入力感度設定部を有し、
前記音入力感度設定部は、前記入力部に入力された前記環境音の環境音ボリュームが大きいほど前記入力部の感度を低く設定する
ことを特徴とする請求項1から請求項6までのいずれか一項に記載の音声認識装置。
【請求項8】
前記入力部には、前記音声とユーザ周囲の環境音が入力され、
前記認識部における音声認識時の仮説処理を間引くプルーニング閾値を判定するプルーニング閾値判定部を有し、
前記プルーニング閾値判定部は、前記入力部に入力された前記環境音の環境音ボリュームが大きいほど前記プルーニング閾値を大きく判定する
ことを特徴とする請求項1から請求項7までのいずれか一項に記載の音声認識装置。
【請求項9】
前記認識部が認識する前記音声の音圧を判定する音圧判定部を有し、
前記出力部は、前記認識部による認識結果に従った前記コマンド信号の出力対象の程度が変更できる場合、音圧判定結果により予め設定された前記出力対象の程度に従って前記コマンド信号を出力する
ことを特徴とする請求項3から請求項8までのいずれか一項に記載の音声認識装置。
【請求項10】
前記囁き声音響モデルを格納する記憶部と、
ユーザの前記囁き声の特徴を学習し、前記囁き声音響モデルを変換する囁き声音響モデル変換部と、
を備えることを特徴とする請求項1から請求項9までのいずれか一項に記載の音声認識装置。
【請求項11】
前記入力部には、ユーザが発声する音声のうち少なくとも前記囁き声とユーザ周囲の環境音との両方の音が入力され、
前記入力部に入力された前記音から前記音声を抽出する音声抽出部を有し、
前記入力部は三つ以上の複数であり、
三つ以上の前記入力部は、少なくとも一つの前記入力部を有する第1入力群と、同一平面上に配置された複数の前記入力部を有する第2入力群と、に分けられ、
前記第2入力群は、前記第1入力群に入力された前記音と位相差が生じる位置に配置され、
前記音声抽出部は、前記第2入力群の各入力部に入力された前記音から音方向を検出し、前記音方向に基づいて2つの前記入力群のうち先に前記音が入力された一方の前記入力群に入力された前記音に対して位相遅延を与え、前記第1入力群に入力された第1音と前記第2入力群に入力された第2音とを減算し、
前記認識部は、減算後の前記音に基づいて前記囁き声を認識する
ことを特徴とする請求項1から請求項10までのいずれか一項に記載の音声認識装置。
【請求項12】
前記入力部には、前記音声のうち少なくとも前記囁き声とユーザ周囲の環境音との両方の音が入力され、
前記入力部に入力された前記音から前記音声を抽出する音声抽出部を有し、
前記入力部は複数であり、
三つ以上の前記入力部は、少なくとも一つの前記入力部を有する第1入力群と、残りの前記入力部を有する第2入力群と、に分けられ、
前記第2入力群は、前記第1入力群に入力された前記音と位相差が所定値以下となる位置に配置され、
前記音声抽出部は、前記第1入力群に入力された第1音と前記第2入力群に入力された第2音とを減算し、
前記認識部は、減算後の前記音に基づいて前記囁き声を認識する
ことを特徴とする請求項1から請求項10までのいずれか一項に記載の音声認識装置。
【請求項13】
前記入力部には、ユーザが発声する音声とユーザ周囲の環境音との両方の音が入力され、
前記入力部に入力された前記音から前記音声を抽出する音声抽出部を有し、
前記入力部は三つ以上の複数であり、
三つの前記入力部は、同一平面上に配置され、少なくとも一つの前記入力部は一直線上に配置されず、
前記音声抽出部は、前記三つの入力部のそれぞれに入力された前記音から、特定の方向の特定方向音を抽出し、
前記認識部は、抽出後の前記特定方向音に基づいて前記音声を認識する
ことを特徴とする請求項1から請求項10までのいずれか一項に記載の音声認識装置。
【請求項14】
前記入力部は、四つ以上の複数であり、
四つの前記入力部を点と仮定し、四つの前記点を線分で結ぶと三角錐を形成可能な位置に配置され、
前記音声抽出部は、前記四つの入力部のそれぞれに入力された前記音から、特定の方向の特定方向音を抽出し、
前記認識部は、抽出後の前記特定方向音に基づいて前記音声を認識する
ことを特徴とする請求項13に記載の音声認識装置。
【請求項15】
少なくともユーザが発声する囁き声が入力されると、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、前記囁き声を認識する認識部と、
前記認識部による認識結果に従ってコマンド信号を出力する出力部と、
を備えることを特徴とする音声処理装置。
【請求項16】
少なくともユーザが発声する囁き声が入力されると、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、前記囁き声を認識する認識処理と、
前記認識処理による認識結果に従ってコマンド信号を出力する出力処理と、
を含むことを特徴とする音声処理方法。
【請求項17】
少なくともユーザが発声する囁き声が入力されると、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、前記囁き声を認識する認識処理と、
前記認識処理による認識結果に従ってコマンド信号を出力する出力処理と、
をコンピュータに実行させることを特徴とする音声処理プログラム。
【請求項18】
撮像光学系と、
請求項1から請求項14までのいずれか一項に記載の音声認識装置、および、請求項15に記載の音声処理装置の少なくとも一つと、
を備えることを特徴とする撮像装置。
【請求項19】
前記入力部は複数であり、
動画を記録するとき、前記入力部に入力された前記音から動画用の動画用音を抽出する動画用音抽出部を有し、
前記音声抽出部による前記音声の抽出と前記動画用音抽出部による前記動画用音の抽出との両方を同時に行い、
前記音声抽出部は、前記複数の入力部のそれぞれに入力された前記音から、前記音声の方向の特定方向音声を抽出し、
前記認識部は、抽出後の前記特定方向音声から前記音声を認識し、
前記動画用音抽出部は、前記複数の入力部のそれぞれに入力された前記音から、特定の方向の前記動画用音を抽出する
ことを特徴とする請求項18に記載の撮像装置。
【請求項20】
複数の前記入力部と、
本体と、
前記本体の傾きを検出する傾きセンサと、
前記傾きセンサにより検出された傾き情報に基づいて、前記複数の入力部のうち少なくとも一つの入力部を音声認識用に変更する変更部と、を備える
ことを特徴とする請求項18又は請求項19に記載の撮像装置。
【請求項21】
前記本体に設けられたファインダと、
前記入力部に接してユーザが発声する接話か否かを検出する接話検出部と、
を備え、
前記変更部は、ユーザが前記ファインダを覗いている眼を判定し、眼の判定結果と前記傾き情報に基づいて、接話のときにユーザの口に最も近い、前記複数の入力部のうち一つの入力部を音声認識用に変更する
ことを特徴とする請求項20に記載の撮像装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置、音声処理装置および方法、音声処理プログラム、撮像装置に関するものである。
【背景技術】
【0002】
ファインダに画像を表示する表示モードとディスプレイに画像を表示する表示モードとを切替える。ファインダに画像を表示している場合、音声入力の処理を接話用のモードに設定し、ディスプレイに画像を表示している場合、音声入力の処理を非接話用のモードに設定する。この装置において、設定された音声入力のモードに従って、予め設定された制御コマンドを音声入力するように構成されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【0004】
しかし、上述の特許文献1に開示された技術では、ユーザが発声する音声のうち囁き声を認識することが困難である。
【発明の概要】
【0005】
第1の態様によれば、音声認識装置は、少なくともユーザが発声する囁き声が入力される入力部と、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、囁き声を認識する認識部と、認識部による認識結果に従ってコマンド信号を出力する出力部と、を備える。第2の態様によれば、音声処理装置は、少なくともユーザが発声する囁き声が入力されると、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、囁き声を認識する認識部と、認識部による認識結果に従ってコマンド信号を出力する出力部と、を備える。第3の態様によれば、音声処理方法は、少なくともユーザが発声する囁き声が入力されると、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、囁き声を認識する認識処理と、認識処理による認識結果に従ってコマンド信号を出力する出力処理と、を含む。第4の態様によれば、音声処理プログラムは、少なくともユーザが発声する囁き声が入力されると、不特定囁き声の特徴を学習したことにより作成された囁き声音響モデルを用いて、囁き声を認識する認識処理と、認識処理による認識結果に従ってコマンド信号を出力する出力処理と、をコンピュータに実行させる。
【図面の簡単な説明】
【0006】
【
図1】第1実施形態を示す音声認識装置を備える撮像装置の後方斜視図である。
【
図2】第1実施形態を示す音声認識装置を備える撮像装置の平面図である。
【
図3】第1実施形態を示す音声認識装置を備える撮像装置の背面図である。
【
図4】第1実施形態を示す撮像装置の制御ユニットのブロック構成図である。
【
図5】第1実施形態を示す撮像装置の音モジュールのブロック構成図である。
【
図6】第1実施形態を示す撮像装置の音声抽出部が行う減算処理の一例を説明する説明図である。
【
図7】第1実施形態を示す撮像装置の記憶部に格納されているコマンドリストと程度変更リストを示す図である。
【
図8】第1実施形態の変形例1-1を示す撮像装置の音モジュールのブロック構成図である。
【
図9】第1実施形態の変形例1-2を示す撮像装置の音モジュールのブロック構成図である。
【
図10】第2実施形態を示す音声認識装置を備える撮像装置の平面図である。
【
図11】第2実施形態を示す撮像装置の音モジュールのブロック構成図である。
【
図12】第2実施形態を示す撮像装置の音声抽出部が行う位相遅延の付加を説明する説明図である。
【
図13】第3実施形態を示す撮像装置の音モジュールのブロック構成図である。
【
図14】第3実施形態を示す撮像装置の音声抽出部における特定方向音声の範囲の一例と撮像装置の環境音抽出部における特定方向音の範囲の一例を説明する説明図である。
【
図15】第4実施形態を示す音声認識装置を備える撮像装置の背面図である。
【
図16】第4実施形態を示す撮像装置の制御ユニットのブロック構成図である。
【
図17】第4実施形態を示す撮像装置の音モジュールのブロック構成図である。
【
図18】第4実施形態を示す撮像装置の横位置と縦位置の一例を説明する説明図である。
【
図19】第4実施形態を示す撮像装置の音声抽出部における特定方向音声の範囲の一例と撮像装置の環境音抽出部における特定方向音の範囲の一例を説明する説明図である。
【
図20】5.1chサラウンドとバイノーラルを作成する場合に撮像装置の環境音抽出部における特定方向音の範囲の一例を説明する説明図である。
【
図21】縦位置の想定されるパターンを説明する説明図である。
【発明を実施するための形態】
【0007】
以下、図面に基づいて各実施形態である音声認識装置と音声処理装置と音声処理方法と音声処理プログラムと撮像装置が適用される撮像装置(例えばデジタルカメラ)について説明する。
(第1実施形態)
【0008】
図1~
図7を参照して、撮像装置1Aについて説明する。
【0009】
撮像装置1Aの装置本体10A(本体、筐体)は、
図1~
図4に示すように、撮像光学系11(結像光学系)と、ファインダ12と、アイセンサ13(接話検出部)と、第1マイクロフォン14a(入力部)と、第2マイクロフォン14b(入力部)と、第3マイクロフォン14c(入力部)と、ディスプレイ15と、を有する。装置本体10Aの右側にはグリップ部100が一体に構成されている。更に、装置本体10Aは、操作部16として、電源スイッチ16aと、撮影モードダイヤル16bと、静止画/動画切り換えレバー16cと、シャッタボタン16dと、動画撮影ボタン16eと、等を有する。更にまた、装置本体10Aは、制御ユニット20を有する。更に、装置本体10Aは、図略の各種のアクチュエータ等を有する。なお、以下において、第1マイクロフォン14a~第3マイクロフォン14cを特に区別しない場合には「マイクロフォン14」とも記載する。
【0010】
撮像光学系11は、レンズ等から構成されており、装置本体10Aの前面、かつ、グリップ部100の左側に配置されている。撮像光学系11は、図略の撮像素子(例えばCMOSイメージセンサ)に被写体像を結像する。なお、「CMOS」は「Complementary Metal Oxide Semiconductor」の略である。
【0011】
ファインダ12は、例えば、装置本体10Aの後側、かつ、撮像光学系11とディスプレイ15よりも上側に配置されている。ファインダ12は、例えば公知の電子ビューファインダ(EVF)であり、ファインダ12内に設けられたファインダ用ディスプレイに表示される画像により被写体を確認するものである。なお、「EVF」は「Electronic View Finder」の略である。
【0012】
アイセンサ13は、撮影者(ユーザ)がファインダ12を覗いているか否かを検出するセンサである。アイセンサ13は、ファインダ12を撮影者が覗く部分の周囲に配置されている。例えば、本実施形態ではファインダ12の上側に配置されている。撮影者がファインダ12を覗くと、アイセンサ13は撮影者の眼がファインダ12に接している接眼状態を検出する。撮影者がファインダ12を覗いていないと、アイセンサ13は撮影者の眼がファインダ12から離れている離眼状態を検出する。
【0013】
第1マイクロフォン14a~第3マイクロフォン14cのそれぞれには、撮影者が発声する音声と撮影者周囲(ユーザ周囲)の環境音との両方の音が入力される。第1マイクロフォン14a~第3マイクロフォン14cのそれぞれは、音をアナログ信号の音アナログ信号(音アナログデータ)へ変換する。マイクロフォン14の指向性は、例えば、全ての方向から同じ感度で音が入力される無指向性(全指向性)である。第1マイクロフォン14a~第3マイクロフォン14cは、第1マイクロフォン14aを有する第1マイク群14A(第1入力群)と、第2マイクロフォン14bと第3マイクロフォン14cを有する第2マイク群14B(第2入力群)と、に分けられる。第1マイク群14Aと第2マイク群14Bは、上下方向(垂直方向)において重なる位置に配置されている。言い換えると、以下の通りである。まず、第2マイクロフォン14bと第3マイクロフォン14cの配置関係は、第2マイクロフォン14bと第3マイクロフォン14cを点と仮定し、当該二つの点を線分で結ぶと直線を形成可能な位置に配置されている。そして、その直線と第1マイクロフォン14aは、上下方向(垂直方向)において重なる位置に配置されている。なお、第1マイクロフォン14aは、その直線の中央部に限らず、その直線内において上下方向(垂直方向)において重なる位置に配置されていれば良く、例えば第2マイクロフォン14bまたは第3マイクロフォン14c寄りに配置されていても良い。第1マイク群14Aの第1マイクロフォン感度と第2マイク群14Bの第2マイクロフォン感度とは、異なる感度に設定されている。第1マイクロフォン感度は、少なくとも撮影者が発声する無声音の入力が可能な感度に設定される。第2マイクロフォン感度は、少なくとも撮像装置1Aを中心とした所定範囲の環境音の入力が可能な感度に設定される。なお、第1マイクロフォン感度と第2マイクロフォン感度が同じ感度に設定されている場合、第1マイクロフォン感度と第2マイクロフォン感度は、両方の条件を満たす感度に設定すれば良い。
【0014】
ここで、「撮影者が発声する音声」とは、通常発声と囁き声である。「通常発声」とは、母音が有声音の音声のことである。「有声音」とは、撮影者が発声する音声のうち、撮影者の声帯の振動を伴う音である。「囁き声」とは、上記の通常発声の音声の少なくとも一部を無声化した音声である。「無声化」とは、母音または子音が無声音になることを指す。「無声音」とは、撮影者が発声する音声のうち、撮影者の声帯の振動を伴わない音である。ここで、「通常発声」と「囁き声」について一例を示す。なお、英語の大文字を有声音と仮定し、英語の小文字を無声音と仮定して説明する。例えば、「動画」というワードを発声する場合について説明する。通常発声では「DOUGA」となる。囁き声では、「DouGa」や「tOUkA」のように有声音と無声音の混合の場合や、「touka」のように完全に無声化される場合がある。また、通常発声でも無声音を含む場合がある。例えば、「撮影」は、通常発声では「sAtUEI」となり、囁き声では「satuei」となる。このように、囁き声による「撮影」では、通常発声の音声の少なくとも一部を無声化した音声となる。そして、「環境音」とは、街の喧騒や自然の音等の日常的な音に加え、街で流れる音楽等も含む音である。環境音には、被写体が生き物である場合には、その生き物が発する音(例えば人間の音声や動物の鳴き声や虫の羽音等)も含む。
【0015】
第1マイクロフォン14aは、装置本体10Aの後面、かつ、撮像光学系11とディスプレイ15よりも下側に配置されている。第1マイクロフォン14aは、装置本体10Aに接して撮影者が発声するときに用いられる。なお、以下において、装置本体10Aに接して撮影者が発声することを「接話」(例えば第1マイクロフォン14aと撮影者の口の距離が数cm以内)とも記載し、装置本体10Aから離れて撮影者が発声することを「非接話」(例えば第1マイクロフォン14aと撮影者の口の距離が10cm以上)とも記載する。
【0016】
第2マイク群14Bは、ファインダ12を撮影者が覗く部分よりも装置本体10Aの前側、かつ、撮像光学系11よりも上側に配置されている。このため、第2マイク群14Bは、第1マイク群14Aよりも環境音が入力されやすい。第2マイクロフォン14bと第3マイクロフォン14cは、ファインダ12の左右位置に一つずつ配置され、かつ、同一平面上に配置されている。更に、第2マイク群14Bは、第1マイク群14Aに入力された音と位相差が所定値以下となる位置に配置されている。本実施形態では、第2マイク群14Bは、第1マイク群14Aに入力された、地平線に対して水平方向の音と位相差が生じない位置に配置されている。なお、所定値は、予め実験やシミュレーション等を行って値を設定する。
【0017】
ディスプレイ15は、制御ユニット20から供給される画像を表示する。ディスプレイ15は、例えば液晶ディスプレイであり、タッチパネル機能を有している。ディスプレイ15は、装置本体10Aの後面に設けられている。ディスプレイ15には、撮影中の画像と、撮像装置1Aの機能メニュー画像と、撮像装置1Aの設定情報画像と、撮影された画像と、等を表示することができる。ディスプレイ15のタッチ操作により撮像装置1Aの各種機能の設定等を行うことができる。ディスプレイ15は、上向きや下向き等へ角度を変えることができる。
【0018】
操作部16は、撮影等に関するボタンやスイッチ等で構成されている。操作部16は、ディスプレイ15のタッチ操作により可能なものも含んでいる。電源スイッチ16aは、撮像装置1Aの電源のONとOFFを切り替える。撮影モードダイヤル16bは、撮影モードを変更する。なお、撮影モードには、各種設定を撮像装置1Aが自動で設定するオートモードと、撮影者が頻繁に使用する機能を事前に登録する撮影者セッティングモードと、等が有る。静止画/動画切り換えレバー16cは、静止画撮影または動画撮影を切り替える。シャッタボタン16dは、半押しによりピントを合わせることができ、全押しにより静止画を撮影することができる。動画撮影ボタン16eは、動画の撮影前に押すと動画の撮影を開始し、動画の撮影中に押すと動画の撮影を終了する。
【0019】
以下、
図4を参照して、制御ユニット20のブロック構成について説明する。
【0020】
制御ユニット20(コンピュータ)は、記憶部21と、音モジュール22と、撮像部23と、通信部24と、を有する。
【0021】
制御ユニット20は、CPU等の演算素子を有し、記憶部21に格納されている図略の制御用プログラムが起動時に読み出されて制御ユニット20において実行される。これにより、制御ユニット20は、ファインダ12と、マイクロフォン14と、ディスプレイ15と、操作部16と、音モジュール22と、撮像部23と、通信部24と、を含む撮像装置1A全体の制御を行う。制御ユニット20には、アイセンサ13の検出信号(検出結果)と、マイクロフォン14の音アナログ信号と、等の信号が入力される。制御ユニット20には、図略の入力インタフェースを介して、ディスプレイ15のタッチ操作による撮像装置1Aの各種機能の設定信号等と、操作部16からの各操作信号と、等が入力される。制御ユニット20は、入力された各種の信号に基づいて、撮像装置1A全体の制御を行う。なお、「CPU」は「Central Processing Unit」の略である。
【0022】
例えば、制御ユニット20は、アイセンサ13の検出信号が接眼状態のとき、図略のディスプレイコントローラを介して、ディスプレイ15の電源を自動的に消すと共に、ファインダ用ディスプレイの電源を自動的に入れる。制御ユニット20は、アイセンサ13の検出信号が離眼状態のとき、図略のディスプレイコントローラを介して、ディスプレイ15の電源を自動的に入れると共に、ファインダ用ディスプレイの電源を自動的に消す。
【0023】
記憶部21は、大容量記憶媒体(例えばフラッシュメモリやハードディスクドライブ等)およびROM、RAM等の半導体記憶媒体を備える。記憶部21には上述の制御用プログラムが格納されていると共に、制御ユニット20の制御動作時に必要とされる各種データが一時的に格納される。記憶部21のRAMには、マイクロフォン14より入力された未圧縮のRAW音声データ(生音声データ)が一時的に格納される。記憶部21には、撮像部23から出力される画像データや映像データ等の各種データも格納される。なお、「ROM」は「Read Only Memory」の略であり、「RAM」は「Random Access Memory」の略である。
【0024】
音モジュール22は、マイクロフォン14より入力された音アナログ信号の変換や、撮影者が発声する音声の認識や、認識されたテキスト信号(認識結果)に従って動作信号(コマンド信号)の出力等の処理を行う。すなわち、音モジュール22は、音声処理装置として機能する。音モジュール22の詳細は後述する。
【0025】
撮像部23において、図略の撮像素子は撮像光学系11により結像する被写体像を撮像して画像信号を生成する。生成された画像信号に対して各種の画像処理(例えばノイズ除去処理や圧縮処理等)を施し、画像データ(静止画)を生成する。生成された画像データは記憶部21に格納される。動画撮影の場合には、連続した複数の画像データから映像データを生成し、生成された映像データは記憶部21に格納される。
【0026】
通信部24は、有線または無線により外部機器と通信する。
【0027】
以下、
図5を参照して、音モジュール22のブロック構成について説明する。
【0028】
音モジュール22は、音声モード判定部22aと、音処理部22bと、音声抽出部22cと、音声認識部22d(認識部)と、コマンド出力部22e(出力部)と、音響モデル変換部22f(囁き声音響モデル変換部)と、を有する。なお、
図5に示す例では、本実施形態の音声認識装置は、アイセンサ13と、マイクロフォン14と、音モジュール22と、記憶部21と、を備える。制御用プログラムとして、各部22a~22fの処理を実行するためのプログラムが記憶部21に格納されている。制御ユニット20は、プログラムを読み出して、RAMにて実行することにより、各部22a~22fの処理を行う。なお、第1実施形態では、静止画撮影時の音モジュール22が行う音声認識制御について説明する。
【0029】
音声モード判定部22aは、アイセンサ13の検出信号に基づいて、音声認識部22dが有する囁き声モードまたは通常発声モードを判定する。音声モード判定部22aは、判定したモードをモード信号として音声認識部22dへ出力する。具体的には、音声モード判定部22aは、以下の音声モード判定処理を、アイセンサ13から検出信号が入力される間に繰り返し行う。
【0030】
音声モード判定部22aは、アイセンサ13の検出信号が接眼状態の場合、囁き声モードと判定する。つまり、撮影者が接眼状態であるので、撮影者が発声する場合には装置本体10Aに対して接話になる。このため、音声モード判定部22aは、囁き声モードと判定する。音声モード判定部22aは、アイセンサ13の検出信号が離眼状態の場合、通常発声モードと判定する。つまり、撮影者が離眼状態であるので、撮影者が発声する場合には装置本体10Aに対して非接話になる。このため、音声モード判定部22aは、通常発声モードと判定する。そして、音声モード判定部22aは、判定したモードをモード信号として音声認識部22dへ出力する。
【0031】
ここで、一般的に、ユーザが音声認識機能を利用する場合、マイクロフォン14から離れていると(例えば10cm以上)ユーザが発声する音声は通常発声になり、マイクロフォン14の近傍であると(例えば数cm)ユーザが発声する音声は囁き声になる。例えば、マイクロフォン14を人間の耳と仮定すると、耳の近傍で発声する場合には耳打ち等という言葉があるように無意識に人間は囁き声になる。このため、音声モード判定部22aは、接話のとき囁き声モードと判定し、非接話のとき通常発声モードと判定する。
【0032】
「囁き声モード」は、多数の話者から取得した不特定囁き声の囁き声教師データの特徴を学習したことにより作成された囁き声音響モデルを用いて、入力された音声のうち囁き声を認識するモードである。「通常発声モード」は、多数の話者から取得した不特定通常発声の通常発声教師データの特徴を学習したことにより作成された通常発声音響モデルを用いて、入力された音声のうち通常発声を認識するモードである。囁き声教師データは、多数の話者から取得した不特定囁き声の音声データとラベルデータ(何の言葉が発声されたか)のセットである。通常発声教師データは、多数の話者から取得した不特定通常発声の音声データとラベルデータ(何の言葉が発声されたか)のセットである。音響モデルは、物理的な「音」を文字の最小単位の「音素」に変換するためのモデルである。囁き声音響モデルは不特定囁き声の囁き声周波数特性に基づいて作成され、通常発声音響モデルは不特定通常発声の通常発声周波数特性に基づいて作成される。囁き声の周波数特性は、通常発声の周波数特性よりも低周波数(成分)が少ないという特徴がある。このため、音声認識において、通常発声音響モデルにより囁き声を認識するのは困難であるので、囁き声の認識には通常発声音響モデルとは別に囁き声音響モデルが必要になる。なお、囁き声教師データと、囁き声音響モデルと、通常発声教師データと、通常発声音響モデルと、は記憶部21に格納されている。
【0033】
音処理部22bは、マイクロフォン14より入力された音アナログ信号を、音デジタル信号(音デジタルデータ、音)への変換や音デジタル信号の公知のノイズ除去等の音処理を行う。音処理部22bは、音デジタル信号を音声抽出部22cへ出力する。具体的には、音処理部22bは、以下の音処理を、マイクロフォン14に音が入力される間に繰り返し行う。なお、音処理は、第1マイクロフォン14a~第3マイクロフォン14cのそれぞれに入力された音について別々に行う。また、音デジタル信号は、第1マイクロフォン14a~第3マイクロフォン14cのそれぞれに入力された音が、音処理された信号を特に区別しない場合のことである。
【0034】
まず、音処理部22bは、音アナログ信号を増幅する。音処理部22bは、プリアンプを用いて、音アナログ信号を増幅する。音処理部22bは、増幅した音アナログ信号をアナログ・デジタル・コンバータへ出力する。ここで、音アナログ信号を増幅する理由は、音アナログ信号が微弱だからである。増幅は、次のアナログ・デジタル・コンバータの受けられる電圧の幅に合わせることにより、SNRやダイナミックレンジを確保することができる。なお、「SNR」は、「S/N比(信号対雑音比)」のことである。
【0035】
次いで、音処理部22bは、音デジタル信号に変換する。音処理部22bは、アナログ・デジタル・コンバータを用いて、音アナログ信号を音デジタル信号へ変換する。
【0036】
次いで、音処理部22bは、音デジタル信号のDC成分(直流成分)をカットする。例えば、音処理部22bは、ハイ・パス・フィルタ(周波数帯域制限フィルタ)を用いて、DC成分をカットする。ここで、DC成分をカットしないと、音デジタル信号のバイアスにより、信号の振幅幅に制限ができてしまい、音割れやダイナミックレンジの悪化を伴うおそれがある。
【0037】
次いで、音処理部22bは、音デジタル信号の周波数特性を調整する。例えば、音処理部22bは、バンド・パス・フィルタを用いて、音デジタル信号の周波数特性を調整する。周波数特性を調整する理由は、電気的なピークノイズの除去や音質調整のためである。なお、バンド・パス・フィルタを、イコライザやノッチフィルタ(バンド・ストップ・フィルタ)としても良い。
【0038】
次いで、音処理部22bは、音デジタル信号のボリュームを調整する。例えば、音処理部22bは、ダイナミック・レンジ・コントロールやオート・ゲイン・コントロールを用いて、ボリュームが大きい音が入ったときには感度を下げ、小さい音が入ったときには感度を上げる、というボリューム処理を行う。なお、ボリュームの大小の判定は、予め実験やシミュレーション等に基づいて設定される。音処理部22bは、ノイズゲートを更に用いて、ノイズレベルの小さな音しか入っていないときにはさらに感度を下げ、ベースノイズを抑制しても良い。なお、ベースノイズは、暗騒音のことであり、例えば撮像装置1Aの駆動音等である。
【0039】
次いで、音処理部22bは、音デジタル信号から風切り音を低減する。例えば、音処理部22bは、音デジタル信号を解析し、風の入力を識別判断して、音デジタル信号につき風切り音を低減する処理を行う。なお、DC成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減の順番は上述した順番に限られない。そして、音処理部22bは、音処理した音デジタル信号を音声抽出部22cへ出力する。
【0040】
音声抽出部22cは、音処理部22bより入力された音デジタル信号から、環境音デジタル信号(環境音デジタルデータ、環境音)を抑制して、音声デジタル信号(音声デジタルデータ、音声)を抽出する。音声抽出部22cは、抽出した音声デジタル信号を音声認識部22dへ出力する。具体的には、音声抽出部22cは、以下の音声抽出処理を、音処理部22bから音デジタル信号が入力される間に繰り返し行う。なお、以下において、第1マイク群14Aに入力された音が、音処理された音デジタル信号を「第1音デジタル信号(第1音デジタルデータ、第1音)」と記載する。また、第2マイク群14Bに入力された音が、音処理された音デジタル信号を「第2音デジタル信号(第2音デジタルデータ、第2音)」と記載する。そして、第1音デジタル信号と第2音デジタル信号を特に区別しない場合には上記と同様に「音デジタル信号」と記載する。
【0041】
第2マイク群14Bは、第1マイク群14Aに入力された、地平線に対して水平方向の音と位相差が生じない位置に配置されているので、第1マイク群14Aと第2マイク群14Bに入力された音の方向につき位相差は考慮しなくて良い。このため、音声抽出部22cは、入力された音に位相遅延は与えない。第1マイクロフォン感度と第2マイクロフォン感度が異なるので、音処理部22bから入力された第1音デジタル信号と第2音デジタル信号との環境音の環境音ボリュームの差を考慮する。このため、音声抽出部22cは、感度分差分を演算で補正する。なお、第1マイクロフォン感度と第2マイクロフォン感度が同じ場合、音処理部22bから入力された第1音デジタル信号と第2音デジタル信号との環境音の環境音ボリュームの差を考慮する必要はない。
【0042】
音声抽出部22cは、音デジタル信号から音声デジタル信号を抽出する。例えば、音声抽出部22cは、第1音デジタル信号と第2音デジタル信号を減算する減算処理を行う。そして、音声抽出部22cは、減算処理された音声デジタル信号を音声認識部22dへ出力する。
【0043】
図6を参照して、減算処理の一例を説明する。
図6(A)に示すように、撮影者が発声する音声と環境音は、第1マイク群14A(矢印A)と第2マイク群14B(矢印B)にそれぞれ入力される。そして、
図6(B)では、第1マイク群14Aと第2マイク群14Bのそれぞれに入力された音のうち、環境音を帯形状で示し、音声を環境音に重ねて波形で示している。なお、第1マイクロフォン感度と第2マイクロフォン感度が異なるので、上述したように音声抽出部22cが感度分差分を演算で補正することにより、環境音を同じ帯形状で示すことが可能である。なお、第1マイクロフォン感度と第2マイクロフォン感度が同じ場合、環境音ボリュームの差は考慮しなくて良いため、環境音を同じ帯形状で示すことが可能である。撮影者の口は、
図6(A)に示すように、第2マイク群14Bよりも第1マイク群14Aに近い(接話)。このため、
図6(B)の範囲Cに示すように、音声の波形では第2マイク群14Bの振幅よりも第1マイク群14Aの振幅の方が大きく入力されている。言い換えると、第1マイク群14Aと第2マイク群14Bは上下方向(垂直方向)において重なる位置に配置されているので、第1マイク群14Aと第2マイク群14Bで入力される音声のボリュームに差がある。そして、第1音デジタル信号と第2音デジタル信号を減算すると、
図6(C)に示すように、音声デジタル信号を抽出することができる。なお、仮に環境音と音声が同じ位相でも、音声が打ち消されることはなく、環境音が打ち消される。
【0044】
ここで、各方向の音の位相差は、地平線に対する水平方向に限らず、上下方向やその他の方向にも生じる。即ち、音の位相差は全方位(三次元)に生じる。なぜなら、第1マイク群14Aと第2マイク群14Bの間隔の距離に基づいても位相差が生じるからである。しかし、一般的に、音の成分のうち水平方向の成分は、上下方向等の他の方向の成分よりも多いことが知られている。例えば、野外での収録(収音)では周囲の暗騒音のレベルが高くなるが、ショットガンマイクの角度を真下に向けて収音することにより暗騒音のレベルを抑制できる。つまり、上下方向の音の成分が少なく、水平方向の音の量が多いということである。このため、上下方向等のその他の方向の音の位相差が生じていても、上述したように地平線に対して水平方向の音の位相差を合わせた状態にて減算処理を行う。これにより、音声認識が可能な音声デジタル信号を抽出することができる。
【0045】
音声認識部22dは、音声モード判定部22aより入力されたモード信号に基づいて、囁き声モードまたは通常発声モードを設定する。音声認識部22dは、音声抽出部22cより入力された音声デジタル信号に基づいて、設定したモードにより音声を認識する。音声認識部22dは、テキスト信号をコマンド出力部22eへ出力する。音声認識部22dは、音声デジタル信号とテキスト信号(ラベルデータ)をセットにした教師データ(囁き声教師データまたは通常発声教師データ)を、記憶部21へ出力する。なお、音声認識部22dは、設定したモードに合わせて、教師データを囁き声教師データまたは通常発声教師データとして、記憶部21へ出力する。具体的には、音声認識部22dは、以下の音声認識処理(認識処理)を、音声モード判定部22aからモード信号と、音声抽出部22cから音声デジタル信号と、が入力される間に繰り返し行う。
【0046】
まず、音声認識部22dは、モード信号に基づいて、囁き声モードまたは通常発声モードを設定する。音声認識部22dは、設定後、設定したモードに基づいて、記憶部21に格納されている囁き声音響モデルまたは通常発声音響モデルを読み込む。
【0047】
次いで、音声認識部22dは、音声デジタル信号を、音声認識エンジンにて「音素」に変換する。具体的には、音声認識部22dは、囁き声モードを設定した場合、囁き声音響モデルを用いて、囁き声デジタル信号(音声デジタル信号、囁き声)を音素に変換する。一方、音声認識部22dは、通常発声モードを設定した場合、通常発声音響モデルを用いて、通常発声デジタル信号(音声デジタル信号、通常発声)を音素に変換する。なお、音声認識エンジンは、入力された音声デジタル信号をテキスト化する。
【0048】
次いで、音声認識部22dは、音素の並び順を、予め登録した単語辞書(発音辞書)と紐づけて、単語の候補を列挙する。なお、単語辞書は、囁き声音響モデルまたは通常発声音響モデルにて変換された音素から単語へ紐づけるための辞書である。また、単語辞書は、予め記憶部21に格納されている。
【0049】
次いで、音声認識部22dは、単語の候補を、言語モデルを用いて、単語の候補から正しい文章になる文章の候補を列挙する。なお、言語モデルは、単語の並びの確立情報モデルであり、言葉の並びを制限することにより単語の候補から正しい文章になる文章の候補の精度と速度を向上することができる。一例として、「わたし」「は」「げんき」「です」等である。また、言語モデルは、予め記憶部21に格納されている。
【0050】
次いで、音声認識部22dは、文章の候補のうち、最も統計的評価値が高い文章を選択する。そして、音声認識部22dは、選択された文章(認識結果)をテキスト信号(テキストデータ)としてコマンド出力部22eへ出力する。
【0051】
なお、撮像装置1Aにおいて、単語辞書に登録される単語が限られ、音素から一つの単語が出力される場合には、文章の候補列挙と文章の選択を省略して、音素から出力された単語(認識結果)をテキスト信号(テキストデータ)としてコマンド出力部22eへ出力しても良い。また、そもそも音処理された音デジタル信号に、環境音は含まれているが音声が含まれていない場合もある。この場合、音声が認識されなくても、文章や単語を含まないテキスト信号がコマンド出力部22eへ出力される。
【0052】
コマンド出力部22eは、音声認識部22dより入力されたテキスト信号に従って、動作信号(コマンド信号)を出力する。具体的には、コマンド出力部22eは、以下のコマンド出力処理(出力処理)を、音声認識部22dからテキスト信号が入力される間に繰り返し行う。
【0053】
まず、コマンド出力部22eは、記憶部21に格納されている
図7(A)のコマンドリストを読み込む。次いで、コマンド出力部22eは、テキスト信号が、読み込んだコマンドリストのワード欄に記載のワードと一致するか否かを判定(識別)する。言い換えると、コマンド出力部22eは、音声認識部22dにより音声が認識される音声デジタル信号が、読み込んだコマンドリストのワード欄に記載のワードと一致するか否かを判定する。コマンド出力部22eは、ワードと一致する場合、コマンドリストの動作欄に記載の撮像装置1Aの動作を動作信号として例えば図略の各種のアクチュエータ等へ出力して、処理を終了する。コマンド出力部22eは、ワードと一致しない場合、何の動作信号も出力しないで、処理を終了する。そして、図略の各種のアクチュエータ等は、入力された動作信号により動作する。ここで、アクチュエータ等の具体例を示す。例えば、オートフォーカス調整用のモータ、シャッタ操作用のモータ、レンズズームモータ等がある。アクチュエータの他には、撮像装置1Aの設定、メニュー検索による表示の変更、または、写真へのタグ等の情報付加等がある。写真へのタグとは、具体的に、撮った写真に音声でタグ(写真の表題や名前)を付けることである。
【0054】
音響モデル変換部22fは、音声認識部22dより記憶部21へ入力された囁き声教師データまたは通常発声教師データに基づいて、撮影者の音声の特徴を学習し、記憶部21に格納されている囁き声音響モデルまたは通常発声音響モデルを変換する。つまり、撮影者を特定話者とし、囁き声音響モデルまたは通常発声音響モデルを特定話者に適応させる。そして、変換した音響モデルを記憶部21へ記録する。具体的には、音響モデル変換部22fは、以下の音響モデル変換処理を音声認識部22dから記憶部21へ教師データが入力される間に繰り返される。以下、囁き声音響モデルと通常発声音響モデルの変換は同様であるため、区別せずに記載する。
【0055】
まず、音響モデル変換部22fは、記憶部21に格納されている教師データを読み込む。次いで、音響モデル変換部22fは、教師データから音声(囁き声または通常発声)の特徴量を抽出する。例えば、音響モデル変換部22fは、音声デジタル信号の周波数等を分析(学習)して、特徴量(特徴ベクトル)を抽出する。
【0056】
次いで、音響モデル変換部22fは、読み込んだ教師データと抽出した特徴量とにより、音響モデルのパラメータを特徴量に近づけるように変換する。次いで、音響モデル変換部22fは、変換した音響モデルを、記憶部21へ記録して、処理を終了する。
【0057】
なお、音響モデル変換処理として、音響モデル変換部22fは、教師データと個々の特徴量等との関係から求められる変換式により、特徴空間上で特徴量を音響モデルのパラメータに近づけるように変換しても良い。求まった変換式は記憶部21へ記録する。そして、音声認識処理において、音声デジタル信号を、変換式に従い音素に変換しても良い。
【0058】
また、音モジュール22は、音響モデル変換部22fを囁き声音響モデル変換部と通常発声音響モデル変換部に分けて、別々に有していても良い。
【0059】
次に、従来の音声認識装置について説明する。
【0060】
従来の音声認識装置では、音声入力の処理を接話用のモードと非接話用のモードに設定し、設定された音声入力のモードに従って音声を認識する。一方で、接話用のモードと非接話用のモードとの設定はあるものの、ユーザが発声する音声のうち少なくとも囁き声に着目したものではない。このため、従来の音声認識装置では、ユーザが発声する音声のうち囁き声を認識できないおそれがある。
【0061】
ここで、ユーザが音声認識機能を利用する場合、以下のシーンが存在する。例えば、スポーツ観戦(例えばテニスやゴルフ)等でユーザが囁き声を発声するシーンや、周囲へ迷惑を掛けないようにユーザが囁き声を発声するシーンや、ユーザの中には周囲へ聞こえるような大きい声を発声することに抵抗がありユーザが囁き声を発声するシーン等が存在する。
【0062】
そこで、発明者らは、ユーザが音声認識機能を利用する場合、ユーザが発声する音声のうち囁き声の認識に着目する。
【0063】
次に、第1実施形態の作用効果について説明する。
【0064】
まず、撮像装置1Aの音声認識制御の作用効果を説明する。音声モード判定部22aにおいて、アイセンサ13の検出信号が入力されると、音声モード判定部22aによりアイセンサ13の検出信号に基づいて囁き声モードと通常発声モードの一方が判定される(モード判定処理)。モード判定処理と同時またはモード判定処理の前後に、音処理部22bにおいて、マイクロフォン14に音が入力されると、音処理部22bにより音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、音声抽出部22cにおいて、音デジタル信号が入力されると、音声抽出部22cにより音デジタル信号から音声デジタル信号が抽出される(音声抽出処理)。次いで、音声認識部22dにおいて、モード信号と音声デジタル信号が入力されると、音声認識部22dにより文章または単語が認識される(音声認識処理)。次いで、コマンド出力部22eにおいて、認識結果であるテキスト信号が入力されると、コマンド出力部22eによりテキスト信号に従って動作信号が出力される(コマンド出力処理)。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、撮影者が発声する囁き声または通常発声を認識することができ、認識結果に従って動作信号を出力することができる。
【0065】
また、音響モデル変換部22fにおいて、音声認識部22dより記憶部21へ教師データが入力されると、音響モデル変換部22fにより音響モデルが変換される(音響モデル変換処理)。これにより、撮影者の音声の認識精度を向上することができる。
【0066】
続いて、撮像装置1Aの作用効果を説明する。
【0067】
本実施形態では、少なくとも囁き声が入力されるマイクロフォン14と、囁き声を認識する音声認識部22dと、テキスト信号に従って動作信号を出力するコマンド出力部22eと、を備えている。従って、撮影者が発声する音声のうち囁き声を認識することができる(囁き声認識作用)。
【0068】
本実施形態では、囁き声音響モデルは、不特定囁き声の囁き声周波数特性に基づいて作成されているので、囁き声の認識精度を向上することができる(囁き声音響モデル作用)。
【0069】
本実施形態では、囁き声モードまたは通常発声モードを判定する音声モード判定部22aを備えているので、音声認識部22dにて囁き声と通常発声を認識することができる(音声認識作用)。
【0070】
本実施形態では、音声モード判定部22aにより、アイセンサ13の検出信号に基づいて、接話のとき囁き声モードと判定され、非接話のとき通常発声モードと判定される。即ち、撮影者によりモードが設定されなくても、自動的に音声認識部22dにて囁き声と通常発声を認識することができる。従って、撮影者が音声認識機能を利用するとき、撮影者の操作性を向上することができる(モード判定接話作用)。
【0071】
本実施形態では、撮影者の囁き声の特徴を学習し、囁き声音響モデルを変換する音響モデル変換部22fを備えている。従って、撮影者の囁き声の認識精度を向上することができる(学習作用)。なお、音響モデル変換部22fにより、撮影者の通常発声の認識精度も同様に向上することができる。
【0072】
本実施形態では、第1マイク群14Aは、少なくとも装置本体10Aに接して撮影者が発声する接話のときに用いられる。第2マイク群14Bは、第1マイク群14Aに入力された音と位相差が所定値以下となる位置に配置されている。本実施形態では、第2マイク群14Bは、第1マイク群14Aに入力された、地平線に対して水平方向の音と位相差が生じない位置に配置されている。音声抽出部22cにより、第1マイク群14Aに入力された第1音デジタル信号と第2マイク群14Bに入力された第2音デジタル信号とが減算される。そして、音声認識部22dにより、減算後の音声デジタル信号に基づいて囁き声が認識される。これにより、マイクロフォン14に入力された音から環境音を抑制することができる。従って、撮影者の囁き声の認識精度を向上することができる(位相差無し作用)。特に、撮像装置1Aでは撮影者がファインダ12を覗くという接話状態を利用するので、囁き声の認識精度の向上に有効的である。
【0073】
本実施形態では、上記の囁き声と同様に通常発声においても、第1音デジタル信号と第2音デジタル信号の位相差が所定値以下の場合、撮影者の通常発声の認識精度を向上することができる(位相差無し作用)。以下、通常発声の認識は、上記の囁き声の認識と同様であるため簡潔に説明する。通常発声においても、音声抽出部22cにより、第1音デジタル信号と第2音デジタル信号とが減算される。そして、音声認識部22dにより、減算後の音声デジタル信号に基づいて通常発声が認識される。これにより、マイクロフォン14に入力された音から環境音を抑制することができる。従って、撮影者の通常発声の認識精度を向上することができる(位相差無し作用)。
【0074】
本実施形態では、撮像装置1Aは撮像光学系11を備える。撮像装置1Aは、音声認識装置と音声処理装置を備える。即ち、撮像装置1Aに音声を認識可能な機能を持たせることができる。このため、撮像装置1Aを音声により操作することができる(撮像装置操作作用)。
【0075】
次に、
図8を参照して、第1実施形態の別の形態(変形例1-1)を示す。なお、第1実施形態と同様の構成はその説明を省略または簡略化する。なお、アイセンサ13を有していなくても良い。
【0076】
以下、
図8を参照して、音モジュール22のブロック構成について説明する。
【0077】
音モジュール22は、音声モード判定部22aと、音処理部22bと、音声抽出部22cと、音声認識部22d(認識部)と、コマンド出力部22e(出力部)と、音響モデル変換部22fと、音圧判定部22gと、を有する。なお、
図8に示す例では、本実施形態の音声認識装置は、マイクロフォン14と、音モジュール22と、記憶部21と、を備える。制御用プログラムとして、各部22a~22gの処理を実行するためのプログラムが記憶部21に格納されている。制御ユニット20は、プログラムを読み出して、RAMにて実行することにより、各部22a~22gの処理を行う。なお、本変形例では、静止画撮影時の音モジュール22が行う音声認識制御について説明する。また、音処理と音声抽出処理と音響モデル変換処理とは第1実施形態と同様である。
【0078】
音声モード判定部22aは、音声抽出部22cより入力された音声デジタル信号に含まれる音声の周波数特性に基づいて、音声認識部22dが有する囁き声モードまたは通常発声モードを判定する。音声モード判定部22aは、音声デジタル信号と共に判定したモードをモード信号として、音声認識部22dと音圧判定部22gとへ出力する。具体的には、音声モード判定部22aは、以下の音声モード判定処理を、音声抽出部22cから音声デジタル信号が入力される間に繰り返し行う。
【0079】
まず、音声モード判定部22aは、記憶部21に格納されているあらゆる言葉(単語や文章)の通常発声と囁き声との周波数特性データを読み込む。なお、音声デジタル信号のテキスト信号に従って出力される動作信号は、
図7(A)に示すように、ワード(単語や文章)が限定されている。このため、記憶部21に格納されている周波数特性データは
図7(A)に記載のワードに限定しても良い。これにより、音声モード判定が容易になると共に音声モード判定処理の速度が高速化できる。
【0080】
ここで、「周波数特性データ」は、あらゆる言葉につき多数の話者から取得した不特定囁き声の囁き声周波数特性と、あらゆる言葉につき多数の話者から取得した不特定通常発声の通常発声周波数特性と、であり、予め記憶部21に格納されている。
【0081】
次いで、音声モード判定部22aは、音声抽出部22cから入力された音声デジタル信号に含まれる音声の周波数特性に基づいて、音声デジタル信号が囁き声か否かを判定する。具体的には、音声モード判定部22aは、読み込んだ周波数特性データと音声デジタル信号に含まれる音声の周波数特性より、総合的な特徴判定を行い、音声デジタル信号に含まれる音声の周波数特性が囁き声の周波数特性か否かを判定する。上述したように囁き声の周波数特性は通常発声の周波数特性よりも低周波数(成分)が少ないという特徴等があるため、音声モード判定部22aは総合的な特徴判定を行う。なお、音声モード判定部22aは、アイセンサ13の検出信号に基づいてモードを判定しない。
【0082】
次いで、音声モード判定部22aは、囁き声の周波数特性の場合、囁き声モードと判定する。音声モード判定部22aは、囁き声ではない(通常発声)の周波数特性の場合、通常発声モードと判定する。そして、音声モード判定部22aは、音声デジタル信号と共に判定したモードをモード信号として、音声認識部22dと音圧判定部22gとへ出力する。
【0083】
音声認識部22dでは、音声デジタル信号が、音声抽出部22cではなく音声モード判定部22aより入力される点で第1実施形態と相違するが、その他は第1実施形態と同様である。
【0084】
音圧判定部22gは、音声デジタル信号の音圧を判定する。具体的には、音圧判定部22gは、以下の音圧判定処理を、音声モード判定部22aからモード信号と音声デジタル信号とが入力される間に繰り返し行う。
【0085】
まず、音圧判定部22gは、モード信号が、囁き声モードか否かを判定する。次いで、音圧判定部22gは、囁き声モードの場合、囁き声モードを音圧判定信号(音圧判定結果)としてコマンド出力部22eへ出力する。音圧判定部22gは、通常発声モードの場合、音声デジタル信号の音圧の高さを判定する。例えば、音声デジタル信号の音圧が、三段階(例えば、高、中、低である)のうちいずれに該当するか判定する。なお、音圧の高低の三段階は、予め実験やシミュレーション等に基づいて設定される。音圧判定部22gは、音圧の高さの判定後、通常発声モードと音圧の高さ結果とを音圧判定信号(音圧判定結果)としてコマンド出力部22eへ出力する。
【0086】
コマンド出力部22eは、音声認識部22dより入力されたテキスト信号に従って、動作信号を出力する。コマンド出力部22eは、音声認識部22dによるテキスト信号に従った動作信号の出力対象の程度が変更できる場合、音圧判定部22gより入力された音圧判定信号から予め設定された出力対象の程度に従って動作信号を出力する。具体的には、コマンド出力部22eは、以下のコマンド出力処理(出力処理)を、音声認識部22dからテキスト信号と、音圧判定部22gから音圧判定信号と、が入力される間に繰り返し行う。
【0087】
まず、コマンド出力部22eは、第1実施形態と同様に、
図7(A)のコマンドリストを読み込み、テキスト信号がワードと一致するか否かを判定する。コマンド出力部22eは、ワードと一致する場合には以下のように動作信号を出力して処理を終了し、ワードと一致しない場合には何の動作信号も出力しないで処理を終了する。
【0088】
次いで、コマンド出力部22eは、ワードと一致する場合、コマンドリストに記載の動作信号の出力対象の程度が変更できるか否かを判定する。例えば、程度変更が可能な場合とは、コマンドリストの程度変更の欄が可能の場合である。具体的には、ワードが「明るく(明るくして)」の場合であり、動作信号の出力対象は「露出値」になるので程度が変更できる。一方、程度変更が不可の場合とは、コマンドリストの程度変更の欄が不可の場合である。具体的には、ワードが「撮影(撮影して)」の場合であり、動作信号の出力対象は「シャッタ」になるので程度が変更できない。
【0089】
次いで、コマンド出力部22eは、程度変更が可能な場合、記憶部21に格納されている
図7(B)の程度変更リストを読み込む。次いで、コマンド出力部22eは、一致したワードと音圧判定信号とに基づいて、読み込んだ程度変更リストに従って、動作信号の出力対象の程度を判定する。例えば、コマンドを「明るく(明るくして)」とする場合について説明する。コマンド出力部22eは、音圧判定信号が囁き声モードの場合、露出の程度を「+1/3段」と判定する。例えば、コマンド出力部22eは、音圧判定信号が通常発声モードであって、音圧高さ結果が三段階のうち「高」の場合、露出の程度を「+3段」と判定する。
【0090】
次いで、コマンド出力部22eは、程度の判定後、コマンドリストと程度変更リストに記載の撮像装置1Aの動作に従って動作信号を例えば図略の各種のアクチュエータ等(例えば図略の露出アクチュエータ)へ出力して、処理を終了する。また、コマンド出力部22eは、ワードと一致する場合であって程度変更が不可の場合、コマンドリストの動作欄に記載の撮像装置1Aの動作信号を図略の各種のアクチュエータ等(例えば図略のシャッタアクチュエータ)へ出力して、処理を終了する。
【0091】
なお、囁き声でも音圧の違いを出すことができるため、囁き声において例えば三段階の音圧により、動作信号の出力対象の程度を変更しても良い。更に、音圧の段階を、二段階や四段階以上にしても良い。更にまた、音圧は撮影者により異なる場合が有るので、例えば初期設定されている各段階の音圧を撮影者独自の音圧に変更しても良い。
【0092】
次に、変形例(1-1)の作用効果について説明する。
【0093】
まず、本変形例の音声認識制御の作用効果を説明する。音処理部22bにおいて、マイクロフォン14に音が入力されると、音処理部22bにより音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、音声抽出部22cにおいて、音デジタル信号が入力されると、音声抽出部22cにより音デジタル信号から音声デジタル信号が抽出される(音声抽出処理)。次いで、音声モード判定部22aにおいて、音声デジタル信号が入力されると、音声モード判定部22aにより音声デジタル信号に含まれる音声の周波数特性に基づいて囁き声モードと通常発声モードの一方が判定される(モード判定処理)。次いで、音声認識部22dにおいて、モード信号と音声デジタル信号が入力されると、音声認識部22dにより文章または単語が認識される(音声認識処理)。音声認識処理と同時または音声認識処理の前後に、音圧判定部22gにおいて、モード信号と音声デジタル信号が入力されると、音圧判定部22gにより音声デジタル信号の音圧が判定される(音圧判定処理)。次いで、コマンド出力部22eにおいて、テキスト信号と音圧判定信号とが入力されると、コマンド出力部22eによりテキスト信号と音圧判定信号による動作信号の出力対象の程度に従って動作信号が出力される(コマンド出力処理)。そして、各種のアクチュエータ等は、入力された動作信号により動作する。このように、撮影者が発声する囁き声または通常発声を認識することができ、認識結果と出力対象の程度に従って動作信号を出力することができる。なお、第1実施形態と同様に、音響モデル変換処理により、撮影者の音声の認識精度を向上することができる。
【0094】
続いて、本変形例の撮像装置1Aの作用効果を説明する。
【0095】
本変形例では、音声モード判定部22aにより、アイセンサ13の検出信号は用いず、音声デジタル信号に含まれる音声の周波数特性に基づいて、囁き声の周波数特性の場合には囁き声モードと判定され、通常発声の周波数特性の場合には通常発声モードと判定される。即ち、撮影者によりモードが設定されなくても、音声認識部22dにて囁き声と通常発声を認識することができる。従って、撮影者が音声認識機能を利用するとき、撮影者の操作性を向上することができる(モード判定周波数作用)。
【0096】
本変形例では、音声認識部22dが認識する音声デジタル信号(音声)の音圧を判定する音圧判定部22gを有している。そして、コマンド出力部22eにより、音声認識部22dによるテキスト信号(認識結果)に従った動作信号(コマンド信号)の出力対象の程度が変更できる場合、音圧判定信号(音圧判定結果)により予め設定された出力対象の程度に従って動作信号が出力される。ここで、例えば、音声認識において、動作信号の出力対象の程度を変更する場合、「ちょっと」や「もっと」等の副詞を用いることがある。しかし、撮影者や装置の初期設定によって使用する副詞が異なる等の理由から、程度の変更には慣れが必要であり、撮影者が普段に使用する副詞を無意識に発声することもある。そこで、発明者らは、音声の認識による同じ単語等でもユーザが発声する囁き声や通常発声やこれらの音圧に着目する。そして、本変形例では、囁き声と通常発声と通常発声の音圧により予め設定された出力対象の程度に従って動作信号が出力される。従って、撮影者が音声認識機能を利用するとき、撮影者の操作性を向上することができる(程度変更作用)。
【0097】
なお、本変形例(1-1)では、第1実施形態と同様に、囁き声認識作用と囁き声音響モデル作用と音声認識作用と学習作用と位相差無し作用と撮像装置操作作用を奏する。
【0098】
次に、
図9を参照して、第1実施形態の別の形態(変形例1-2)を示す。なお、第1実施形態と同様の構成はその説明を省略または簡略化する。
【0099】
以下、
図9を参照して、音モジュール22のブロック構成について説明する。
【0100】
音モジュール22は、音声モード判定部22aと、音処理部22bと、音声抽出部22cと、音声認識部22d(認識部)と、コマンド出力部22e(出力部)と、音響モデル変換部22fと、音入力感度設定部22hと、プルーニング閾値判定部22iと、を有する。なお、
図9に示す例では、本実施形態の音声認識装置は、アイセンサ13と、マイクロフォン14と、音モジュール22と、記憶部21と、を備える。制御用プログラムとして、各部22a~22f,22h,22iの処理を実行するためのプログラムが記憶部21に格納されている。制御ユニット20は、プログラムを読み出して、RAMにて実行することにより、各部22a~22f,22h,22iの処理を行う。なお、本変形例では、静止画撮影時の音モジュール22が行う音声認識制御について説明する。また、音声抽出処理とコマンド出力処理と音響モデル変換処理とは第1実施形態と同様である。
【0101】
音処理部22bは、音デジタル信号を、音声抽出部22cと音声モード判定部22aと音入力感度設定部22hとプルーニング閾値判定部22iとへ出力する点で第1実施形態と相違するが、その他は第1実施形態と同様である。
【0102】
音入力感度設定部22hは、自動的にマイクロフォン14の感度を設定する。具体的には、音入力感度設定部22hは、マイクロフォン14に入力された環境音ボリュームが大きいほどマイクロフォン14の感度を低く設定する。具体的には、音入力感度設定部22hは、以下の音入力感度設定処理を、音処理部22bから音デジタル信号が入力される間に繰り返し行う。
【0103】
まず、音入力感度設定部22hは、音デジタル信号から、環境音ボリュームの大きさを判定する。例えば、音入力感度設定部22hは、第2音デジタル信号から、環境音ボリュームの大きさを判定する。具体的には、音入力感度設定部22hは、環境音ボリュームの大きさが、二十段階のうちいずれに該当するか判定する。なお、二十段階は、予め実験やシミュレーション等に基づいて設定される。
【0104】
次いで、音入力感度設定部22hは、環境音ボリュームの判定結果に基づいて、マイクロフォン14の感度を設定する。具体的には、音入力感度設定部22hは、判定結果の環境音ボリュームが大きいほどマイクロフォン14の感度を低く設定する。
【0105】
音声モード判定部22aは、環境音ボリュームに基づいて、自動的に囁き声モードまたは通常発声モードを仮判定する。次いで、音声モード判定部22aは、アイセンサ13の検出信号に基づいて、囁き声モードまたは通常発声モードを本判定する。音声モード判定部22aは、本判定したモードをモード信号として音声認識部22dへ出力する。具体的には、音声モード判定部22aは、以下の音声モード判定処理を、音処理部22bから音デジタル信号が入力され、アイセンサ13から検出信号が入力される間に繰り返し行う。
【0106】
まず、音声モード判定部22aは、音処理部22bから音デジタル信号が入力されると、環境音ボリュームがボリューム所定値より小さいか否かを判定する。例えば、音声モード判定部22aは、環境音が入力されやすい第2音デジタル信号から、環境音ボリュームがボリューム所定値より小さいか否かを判定する。ここで、ボリューム所定値について説明する。一般的に、環境音ボリュームが比較的大きいとユーザが発声する音声は無意識に大きくなり、環境音ボリュームが比較的小さいとユーザが発声する音声は無意識に小さくなる。例えば、会話の際、環境音ボリュームの大小に人間は反応して、発声する音声の大小も変わる。つまり、人間が発声する音声の大小は、環境音ボリュームの大小に左右される。このため、ボリューム所定値は、環境音ボリュームの大小に対する人間が発声する音声の大小について予め実験やシミュレーション等に基づいて設定される。
【0107】
次いで、音声モード判定部22aは、環境音ボリュームがボリューム所定値より小さい場合、囁き声モードと仮判定する。音声モード判定部22aは、囁き声モードと仮判定した後、アイセンサ13の検出信号に基づいて、音声認識部22dが有する囁き声モードまたは通常発声モードを本判定する。音声モード判定部22aは、アイセンサ13の検出信号が接眼状態の場合、囁き声モードと本判定する。音声モード判定部22aは、アイセンサ13の検出信号が離眼状態の場合、通常発声モードと本判定する。また、音声モード判定部22aは、環境音ボリュームがボリューム所定値より大きい場合、アイセンサ13の検出信号に関係なく、通常発声モードと本判定する。なお、接眼状態の場合と離眼状態の場合との詳細は第1実施形態と同様である。
【0108】
つまり、音声モード判定部22aは、環境音ボリュームがボリューム所定値より小さい場合、かつ、接眼状態の場合、囁き声モードと本判定する。また、音声モード判定部22aは、接眼状態または離眼状態にかかわらず、環境音ボリュームがボリューム所定値より大きい場合、通常発声モードと本設定する。また、環境音ボリュームがボリューム所定値より小さい場合であっても離眼状態の場合、通常発声モードと本設定する。そして、音声モード判定部22aは、本判定したモードをモード信号として音声認識部22dへ出力する。
【0109】
プルーニング閾値判定部22iは、自動的にプルーニング閾値を判定する。具体的には、プルーニング閾値判定部22iは、環境音ボリュームが大きいほどプルーニング閾値を大きく判定する。具体的には、プルーニング閾値判定部22iは、以下のプルーニング閾値判定処理を、音処理部22bから音デジタル信号が入力される間に繰り返し行う。
【0110】
ここで、プルーニング閾値について説明する。前提として、音声認識処理では、音声を音素に変換する過程にて仮説の演算が行われる。当該仮説の演算の際に、処理を高速化するために、仮説処理を間引くプルーニング(剪定、枝刈り)の処理が行われる。つまり、プルーニング閾値とは、音声認識部22dにおける音声認識時の仮説処理を間引く閾値である。プルーニングが厳しい(プルーニング閾値が小さい)と処理は高速になり、プルーニングが緩い(プルーニング閾値が大きい)と処理は低速になる。また、プルーニングが厳しすぎると、正解の仮説処理まで間引いてしまい、音声認識性能が低下する。環境音ボリュームが比較的小さい場合に、プルーニングが緩いと、不要な仮説の演算が行われることになる。このため、プルーニング閾値は、環境音ボリュームに基づいて適切に変更する。
【0111】
まず、プルーニング閾値判定部22iは、音デジタル信号から、環境音ボリュームの大きさを数値化する。例えば、プルーニング閾値判定部22iは、環境音が入力されやすい第2音デジタル信号から、環境音ボリュームの大きさを数値化する。
【0112】
次いで、プルーニング閾値判定部22iは、環境音ボリュームの数値に基づいて、プルーニング閾値を判定する。即ち、プルーニング閾値判定部22iは、環境音ボリュームの数値が大きいほどプルーニング閾値を大きく判定する。一方、プルーニング閾値判定部22iは、環境音ボリュームの数値が小さいほど、プルーニング閾値を小さく判定する。そして、プルーニング閾値判定部22iは、判定したプルーニング閾値をプルーニング閾値信号として音声認識部22dへ出力する。
【0113】
音声認識部22dは、音声モード判定部22aより入力されたモード信号に基づいて、囁き声モードまたは通常発声モードを設定する。音声認識部22dは、プルーニング閾値判定部22iより入力されたプルーニング閾値信号に基づいて、音声認識の際のプルーニング閾値を設定する。音声認識部22dは、音声抽出部22cより入力された音声デジタル信号に基づいて、設定したモードと設定したプルーニング閾値により音声を認識する。音声認識部22dの出力先は、第1実施形態と同様である。具体的には、音声認識部22dは、以下の音声認識処理を、音声モード判定部22aからモード信号と、プルーニング閾値判定部22iからプルーニング閾値信号と、音声抽出部22cから音声デジタル信号と、が入力される間に繰り返し行う。
【0114】
まず、音声認識部22dは、モード信号に基づいて、囁き声モードまたは通常発声モードを設定する。次いで、音声認識部22dは、プルーニング閾値信号に基づいて、音声認識の際のプルーニング閾値を設定する。音声認識処理のその他の処理は、第1実施形態と同様である。
【0115】
次に、変形例(1-2)の作用効果について説明する。
【0116】
まず、本変形例の音声認識制御の作用効果を説明する。音処理部22bにおいて、マイクロフォン14に音が入力されると、音処理部22bにより音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、音声抽出部22cにおいて、音デジタル信号が入力されると、音声抽出部22cにより音デジタル信号から音声デジタル信号が抽出される(音声抽出処理)。音処理よりも後であって音声認識処理よりも前に、以下の音入力感度設定処理とモード判定処理とプルーニング閾値判定処理とを行う。音入力感度設定部22hにおいて、音デジタル信号が入力されると、音入力感度設定部22hにより環境音ボリュームが大きいほどマイクロフォン14の感度が低く設定される(音入力感度設定処理)。音声モード判定部22aにおいて、音デジタル信号が入力されると、音声モード判定部22aにより環境音ボリュームに基づいて、囁き声モードと通常発声モードの一方が仮判定される(モード仮判定処理、モード判定処理)。次いで、音声モード判定部22aにおいて、アイセンサ13の検出信号が入力されると、音声モード判定部22aによりアイセンサ13の検出信号に基づいて囁き声モードと通常発声モードの一方が本判定される(モード本判定処理、モード判定処理)。プルーニング閾値判定部22iにおいて、音デジタル信号が入力されると、プルーニング閾値判定部22iにより環境音ボリュームが大きいほどプルーニング閾値が大きく判定される(プルーニング閾値判定処理)。次いで、音声認識部22dにおいて、モード信号とプルーニング閾値信号が入力されると、音声認識部22dにより文章または単語が認識される(音声認識処理)。次いで、コマンド出力部22eにおいて、テキスト信号が入力されると、コマンド出力部22eによりテキスト信号に従って動作信号が出力される(コマンド出力処理)。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、撮影者が発声する囁き声または通常発声を認識することができ、認識結果に従って動作信号を出力することができる。なお、第1実施形態と同様に、音響モデル変換処理により、撮影者の音声の認識精度を向上することができる。
【0117】
続いて、本変形例の撮像装置1Aの作用効果を説明する。
【0118】
本変形例では、音声モード判定部22aにより、マイクロフォン14に入力された環境音ボリュームに基づいて囁き声モードまたは通常発声モードが判定される。即ち、環境音ボリュームの大小に撮影者が無意識に反応して発声する音声の大小が変わっても、音声認識部22dにて囁き声と通常発声を認識することができる。従って、撮影者が音声認識機能を利用するとき、環境音ボリュームを考慮した囁き声と通常発声の認識が可能となる(モード判定環境音作用)。
【0119】
更に、本変形例では、環境音ボリュームに基づくモードの判定と合わせて、音声モード判定部22aにより、アイセンサ13の検出信号に基づいて、囁き声モードまたは通常発声モードが判定される。即ち、二段階にて囁き声モードまたは通常発声モードが判定されるので、撮影者が音声認識機能を利用するとき、より正しいモードが判定される。従って、撮影者の音声の認識精度を向上することができる。
【0120】
本変形例では、マイクロフォン14の感度を設定する音入力感度設定部22hを有している。そして、音入力感度設定部22hにより、環境音ボリュームが大きいほどマイクロフォン14の感度が低く設定される。即ち、環境音ボリュームが大きいほど、マイクロフォン14の感度が低く設定されるので、環境音ボリュームの大小に撮影者が無意識に反応して発声する音声が大きくなっても、音割れが生じることを抑制することができる。環境音ボリュームが小さいほど、マイクロフォン14の感度が高く設定されるので、環境音ボリュームの大小に撮影者が無意識に反応して発声する音声が小さくなっても、音声が入力される。従って、撮影者の音声の認識精度を向上することができる(マイク感度作用)。
【0121】
本変形例では、音声認識部22dにおける音声認識時の仮説処理を間引くプルーニング閾値を判定するプルーニング閾値判定部22iを有している。そして、プルーニング閾値判定部22iにより、環境音ボリュームが大きいほどプルーニング閾値が大きく判定される。即ち、環境音ボリュームが大きいほど、外乱が大きいということになる。このため、環境音ボリュームが大きいほど、プルーニング閾値を大きく判定すれば、音声認識時には正解の仮説を立てやすくなる。環境音ボリュームが小さいほど、外乱が小さいということになる。このため、環境音ボリュームが小さいほど、プルーニング閾値を小さく判定しても、音声認識時には正解の仮説を立てやすくなるので、音声認識性能への影響は小さく、音声認識処理も高速になる。このように、プルーニング閾値は、環境音ボリュームの大小に基づいて適切に変更される。従って、撮影者の音声の認識精度を向上することができる(プルーニング作用)。
【0122】
なお、本変形例(1-2)では、第1実施形態と同様に、囁き声認識作用と囁き声音響モデル作用と音声認識作用とモード判定接話作用と学習作用と位相差無し作用と撮像装置操作作用を奏する。
(第2実施形態)
【0123】
次に、
図10を参照して、第2実施形態の撮像装置1Bについて説明する。なお、第1実施形態と同様の構成はその説明を省略または簡略化する。なお、制御ユニット20のブロック構成は、第1実施形態の
図4と同様である。
【0124】
撮像装置1Bの装置本体10B(本体、筐体)は、第1実施形態と異なり、第1マイクロフォン14a(入力部、
図3等参照)と、第2マイクロフォン14b(入力部)と、第3マイクロフォン14c(入力部)と、第4マイクロフォン14d(入力部)と、を有する。その他のファインダ12と、操作部16と、制御ユニット20と、等は第1実施形態と同様に有する。以下において、第1マイクロフォン14a~第4マイクロフォン14dを特に区別しない場合には「マイクロフォン14」とも記載する。
【0125】
第1マイクロフォン14a~第4マイクロフォン14dのそれぞれには、撮影者が発声する音声と撮影者周囲の環境音との両方の音が入力される。第1マイクロフォン14a~第4マイクロフォン14dのそれぞれは、音をアナログ信号の音アナログ信号へ変換する。マイクロフォン14の指向性は、例えば、全ての方向から同じ感度で音が入力される無指向性(全指向性)である。第1マイクロフォン14a~第4マイクロフォン14dは、第1マイクロフォン14aを有する第1マイク群14A(第1入力群)と、第2マイクロフォン14bと第3マイクロフォン14cと第4マイクロフォン14dとを有する第2マイク群14B(第2入力群)と、に分けられる。第2マイクロフォン14b~第4マイクロフォン14dによりマイクロフォンアレイを構成する。第1マイク群14Aと第2マイク群14Bは、上下方向(垂直方向)において重ならない位置に配置されている。言い換えると、以下の通りである。まず、第2マイクロフォン14b~第4マイクロフォン14dの配置関係は、第2マイクロフォン14b~第4マイクロフォン14dを点と仮定し、当該三つの点を線分で結ぶと三角形を形成可能な位置に配置されている。そして、第1マイクロフォン14aは、上下方向(垂直方向)においてその三角形の外側の位置に配置されている。第1マイクロフォン14aの配置等は第1実施形態と同様である。第1マイク群14Aの第1マイクロフォン感度と第2マイク群14Bの第2マイクロフォン感度とは、異なる感度に設定されている。
【0126】
ここで、「マイクロフォンアレイ」とは、複数のマイクロフォンを平面上に配置して、各マイクロフォンに入力される音(詳細には音波の存在する平面の空間(音場))を処理することにより、水平方向(平面)における特定の方向の特定方向音を得ることができる装置である。そして、マイクロフォンアレイを用いて指向性を制御する公知のビームフォーミングにより特定方向音を強調または低減することができる。基本的には、複数のマイクロフォン同士の間に距離があるため、音源から各マイクロフォンへの音波には位相差が生じる。この音波の位相差の分だけ、音源に近いマイクロフォンに入力された一方の音波を遅延させる。そして、一方と他方の音波を加算または減算することにより、波の重ね合わせの原理により音の周波数によって特定方向音を強め合ったり打ち消しあったりすることができる。これにより、指向性を形成することができる。なお、指向性は周波数に依存する。
【0127】
第2マイク群14Bは、ファインダ12を撮影者が覗く部分よりも装置本体10Bの前側、かつ、撮像光学系11よりも上側に配置されている。三つの第2マイクロフォン14b~第4マイクロフォン14dは同一平面上に配置されている。第2マイクロフォン14bと第3マイクロフォン14cは、装置本体10Bの上面、かつ、撮像光学系11の左右位置に一つずつ配置されている。第4マイクロフォン14dは、装置本体10Bの上面であって、装置本体10Bの撮影モードダイヤル16bよりも後側、かつ、平面視の前後方向において第2マイクロフォン14bに一致する位置に配置されている。言い換えると、第2マイクロフォン14b~第4マイクロフォン14dの配置関係は、上述したように三角形を形成可能な位置に配置されている。即ち、第4マイクロフォン14dは、第2マイクロフォン14bと第3マイクロフォン14cとを結ぶ一直線上に配置されていない。このため、地平線に対する水平方向(角度360度)の音方向が検出できる。更に、第2マイク群14Bは、第1マイク群14Aに入力された音と位相差が生じる位置に配置されている。本実施形態において、第2マイク群14Bは、第1マイク群14Aに入力された、地平線に対して水平方向の音と位相差が生じる位置に配置されているものとする。なお、三つの第2マイクロフォン14b~第4マイクロフォン14dの配置が、互いに離れていればいるほど、地平線に対する水平方向の音の位相差が大きくなる。
【0128】
以下、
図11を参照して、音モジュール22のブロック構成について説明する。
【0129】
音モジュール22は、音声モード判定部22aと、音処理部22bと、音声抽出部22cと、音声認識部22d(認識部)と、コマンド出力部22e(出力部)と、音響モデル変換部22fと、を有する。更に、音モジュール22は、環境音抽出部221(動画用音抽出部)と、エンコード部222と、を有する。なお、
図11に示す例では、本実施形態の音声認識装置は、アイセンサ13と、マイクロフォン14と、音モジュール22と、記憶部21と、を備える。制御用プログラムとして、各部22a~22f,221,222の処理を実行するためのプログラムが記憶部21に格納されている。制御ユニット20は、プログラムを読み出して、RAMにて実行することにより、各部22a~22f,221,222の処理を行う。なお、第2実施形態では、静止画撮影時の音モジュール22が行う音声認識制御と、動画撮影時の音モジュール22が行う動画用音制御と、について説明する。先に、音声認識制御について説明する。また、音声認識処理とコマンド出力処理と音響モデル変換処理とは第1実施形態と同様である。
【0130】
音声モード判定部22aは、モード信号を音処理部22bと音声認識部22dへ出力する点で第1実施形態と相違するが、その他は第1実施形態と同様である。
【0131】
音処理部22bは、音アナログ信号を、音デジタル信号(音デジタルデータ、音)への変換の音処理を行う。音処理部22bは、音デジタル信号を音声抽出部22cへ出力し、音デジタル信号と音声モード判定部22aより入力されたモード信号を環境音抽出部221へ出力する。具体的には、音処理部22bは、以下の音処理を、マイクロフォン14に音が入力される間に繰り返し行う。なお、音処理は、第1マイクロフォン14a~第4マイクロフォン14dのそれぞれに入力された音について別々に行う。また、以下において、第1マイクロフォン14aに入力された音が、音処理された信号を「第1マイク音デジタル信号(第1マイク音デジタルデータ)」と記載する。第2マイクロフォン14bに入力された音が、音処理された信号を「第2マイク音デジタル信号(第2マイク音デジタルデータ)」と記載する。第3マイクロフォン14cに入力された音が、音処理された信号を「第3マイク音デジタル信号(第3マイク音デジタルデータ)」と記載する。第4マイクロフォン14dに入力された音が、音処理された信号を「第4マイク音デジタル信号(第4マイク音デジタルデータ)」と記載する。音デジタル信号は、第1マイク音デジタル信号~第4マイク音デジタル信号を特に区別しない場合のことである。
【0132】
音処理部22bは、第1実施形態と同様に、音アナログ信号を増幅し、次いで、音デジタル信号に変換する。そして、音処理部22bは、音処理した音デジタル信号を音声抽出部22cと環境音抽出部221へ出力する。なお、音処理部22bは、第1実施形態と異なり、DC成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減のノイズ除去(ノイズキャンセル)の処理は行わない。
【0133】
音声抽出部22cは、音処理部22bより入力された音デジタル信号から、環境音デジタル信号を抑制して、音声デジタル信号を抽出する。音声抽出部22cは、抽出した音声デジタル信号を音声認識部22dへ出力する。具体的には、音声抽出部22cは、以下の音声抽出処理を、音処理部22bから音デジタル信号が入力される間に繰り返し行う。
【0134】
第2マイク群14Bは、第1マイク群14Aに入力された、地平線に対して水平方向の音と位相差が生じる位置に配置されている。このため、音声抽出部22cは、第1マイク群14Aと第2マイク群14Bに入力された音の方向につき位相差を考慮して、第1マイク群14Aまたは第2マイク群14Bの一方に入力された音に位相遅延を与える。なお、第1実施形態と同様に、第1マイクロフォン感度と第2マイクロフォン感度が異なるので、音処理部22bから入力された第1音デジタル信号と第2音デジタル信号との環境音の環境音ボリュームの差を考慮する。このため、音声抽出部22cは、感度分差分を演算で補正する。
【0135】
まず、音声抽出部22cは、音の方向を検出する。音声抽出部22cは、第2音デジタル信号から、音の音方向を検出する。音方向を検出するための音は、例えば所定時点に入力された音である。第2マイク群14Bでは、第2マイクロフォン14b~第4マイクロフォン14dのそれぞれの間隔の距離に基づいて位相差が生じる。言い換えると、第2マイク音デジタル信号~第4マイク音デジタル信号のそれぞれにおいて、同じ音が入力されたとき位相差が生じる。この位相差により波の性質である重ね合わせの原理により、入力された音の周波数によって音波の強弱が生じる。このため、音がどの方向から到達したかを計算により、推定(検出)することができる。
【0136】
次いで、音声抽出部22cは、位相遅延を付加する。音方向から第1マイク群14Aと第2マイク群14Bに入った音の位相差を考慮して、音声抽出部22cは、先に音が到達した第1音デジタル信号と第2音デジタル信号のうち一方に位相遅延を与える。音の位相差は、地平線に対する水平方向の音の位相差である。ここで、
図12を一例として、位相遅延について説明する。撮影者が接話にて、マイクロフォン14へ音声が入力されたものと仮定する。そうすると、
図12(A)に示すように、音声は、第2マイク群14Bよりも先に第1マイク群14Aに到達する。このため、
図12(B)に示すように、先に到達した第1マイク群14Aの第1音デジタル信号に位相遅延を付加する。これにより、第1音デジタル信号と第2音デジタル信号では位相差が生じない音デジタル信号となる。
【0137】
次いで、音声抽出部22cは、第1音デジタル信号と第2音デジタル信号との環境音ボリュームを調整する。第1マイクロフォン感度と第2マイクロフォン感度は感度が異なるので、後で行う減算処理にて第1音デジタル信号と第2音デジタル信号との環境音が打ち消せるようにボリューム調整を行い、環境音のレベルを合わせ込む。そして、音声抽出部22cは、第1音デジタル信号と第2音デジタル信号との環境音のレベルを合わせ込む処理を行う。例えば、合わせ込む処理は、第1マイク群14Aと第2マイク群14Bとの配置関係と、第1マイクロフォン感度と第2マイクロフォン感度との感度の違いと、等から予め実験やシミュレーション等に基づいて設定される。また、第1マイク群14Aと第2マイク群14Bとに入った環境音は装置本体10Bの大きさにより回折現象が起こり、音の周波数特性に変化が生じる。この回折現象は環境音の方向に依存し、その方向における伝達関数を考慮することにより、音の周波数特性の変化を調整することできる。
【0138】
次いで、音声抽出部22cは、上記の処理を経た第1音デジタル信号と第2音デジタル信号について、第1実施形態と同様に減算処理を行う。なお、位相遅延を付加する処理を行っているため、第1実施形態の
図6と同様に、音声デジタル信号を抽出することができる。仮に環境音と音声が同じ位相でも、音声が打ち消されることはなく、環境音が打ち消される。
【0139】
次いで、音声抽出部22cは、抽出した音声デジタル信号について、第1実施形態の音処理にて記載したDC成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減のノイズ除去の処理を行う。そして、音声抽出部22cは、ノイズ除去した音声デジタル信号として音声認識部22dへ出力する。なお、上述したように地平線に対して水平方向の音の位相差を合わせた状態にて減算処理を行うことにより、音声認識が可能な音声デジタル信号を抽出することができる。
【0140】
続いて、動画用音制御について説明する。なお、静止画/動画切り換えレバー16cが動画撮影であり、動画撮影ボタン16eが操作されて動画の撮影が開始されると、動画用音制御が開始される。そして、動画撮影ボタン16eが操作されて動画の撮影が終了されると、動画用音制御が終了される。なお、動画撮影ボタン16eに限らず、撮影者が音声認識機能を利用して、動画を撮影しても良い。また、動画用音制御は、音声認識制御とは別のRAMにて実行しても良い。
【0141】
環境音抽出部221は、音処理部22bにより入力された音デジタル信号から、音声デジタル信号を抑制して、環境音デジタル信号(環境音デジタルデータ、環境音、動画用の動画用音)を抽出する。ここで、動画用の動画用音は、マイクロフォン14に入力された音のうち、音声を抑制した環境音である。環境音抽出部221は、抽出した環境音デジタル信号をエンコード部222へ出力する。具体的には、環境音抽出部221は、以下の環境音抽出処理を、音処理部22bから音デジタル信号が入力される間に繰り返し行う。
【0142】
第1マイク群14Aは、第2マイク群14Bに入力された、地平線に対して水平方向の音と位相差が生じる位置に配置されている。このため、環境音抽出部221は、第1マイク群14Aと第2マイク群14Bに入力される音の方向につき位相差を考慮して、第1マイク群14Aまたは第2マイク群14Bの一方に入力された音に位相遅延を与える。音の位相差は、地平線に対する水平方向の音の位相差である。また、環境音抽出部221は、音処理部22bよりより入力されたモード信号に基づいて、囁き声モードまたは通常発声モードを判定する。同様に、音処理部22bから入力された第1音デジタル信号と第2音デジタル信号との音声の音声ボリュームの差を考慮する。このため、環境音抽出部221は、音声ボリュームを調整する。なお、上述したように、各方向の音の位相差は、地平線に対する水平方向に限らず、上下方向やその他の方向にも生じる。
【0143】
まず、環境音抽出部221は、音方向の検出と、位相遅延の付加と、を音声抽出部22cと同様に行う。
【0144】
次いで、環境音抽出部221は、第1音デジタル信号と第2音デジタル信号との音声ボリュームを調整する。第1マイクロフォン感度と第2マイクロフォン感度は感度が異なるので、後で行う減算処理にて第1音デジタル信号と第2音デジタル信号との音声が打ち消せるようにボリューム調整を行い、音声のレベルを合わせ込む。そして、環境音抽出部221は、第1音デジタル信号と第2音デジタル信号との音声のレベルを合わせ込む処理を行う。例えば、合わせ込む処理は、第1マイク群14Aと第2マイク群14Bとの配置関係と、第1マイクロフォン感度と第2マイクロフォン感度との感度の違いと、等から予め実験やシミュレーション等に基づいて設定される。また、第1マイク群14Aと第2マイク群14Bとに入った音声は装置本体10Bの大きさにより回折現象が起こり、音の周波数特性に変化が生じる。この回折現象は音声の方向に依存し、その方向における伝達関数を考慮することにより、音の周波数特性の変化を調整することできる。
【0145】
次いで、環境音抽出部221は、上記の処理を経た第1音デジタル信号と第2音デジタル信号について、第1実施形態と同様に減算処理を行う。このとき、音声は音声の帯域成分(例えば200Hz~4KHz)が主であるため、その帯域に絞って減算することにより、必要以上に環境音に影響を与えずに済むことができる。なお、位相遅延を付加する処理を行っているため、環境音デジタル信号を抽出することができる。仮に環境音と音声が同じ位相でも、環境音が打ち消されることはなく、音声が打ち消される。なお、上述したように、環境音の抽出においても、音の成分のうち水平方向の成分は、上下方向等の他の方向の成分よりも多い。このため、環境音の抽出においても、地平線に対して水平方向の音の位相差を合わせた状態にて減算処理を行うことにより、必要以上に環境音に影響を与えずに、環境音デジタル信号を抽出することができる。
【0146】
次いで、環境音抽出部221は、抽出した環境音デジタル信号について、上述した音声抽出部22cと同様にノイズ除去の処理を行う。そして、環境音抽出部221は、ノイズ除去した音声デジタル信号としてエンコード部222へ出力する。
【0147】
エンコード部222は、環境音抽出部221より入力された環境音デジタル信号をエンコードして記憶部21へ記録する。具体的には、エンコード部222は、以下のエンコード処理を、環境音抽出部221から環境音デジタル信号が入力される間に繰り返し行う。
【0148】
まず、エンコード部222は、環境音デジタル信号を、非圧縮のWAVフォーマットや圧縮形式のAAC等に変換する。環境音デジタル信号からファイルへの変換は、予め設定されたフォーマットや形式に基づいて変換される。次いで、エンコード部222は、変換された環境音デジタル信号を映像データと同期して動画ファイルとしてエンコードする。そして、エンコード部222は、動画ファイルを記憶部21へ記録する。
【0149】
次に、第2実施形態の作用効果について説明する。
【0150】
まず、撮像装置1Bの音声認識制御の作用効果を説明する。音声モード判定部22aにおいて、アイセンサ13の検出信号が入力されると、音声モード判定部22aによりアイセンサ13の検出信号に基づいて囁き声モードと通常発声モードの一方が判定される(モード判定処理)。モード判定処理と同時またはモード判定処理の前後に、音処理部22bにおいて、マイクロフォン14に音が入力されると、音処理部22bにより音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、音声抽出部22cにおいて、音デジタル信号が入力されると、音声抽出部22cにより、第1音デジタル信号と第2音デジタル信号のうち一方に位相遅延を与え、音デジタル信号から音声デジタル信号が抽出される(音声抽出処理)。次いで、音声抽出部22cにより、抽出された音声デジタル信号についてノイズ除去の処理を行う(音声抽出処理)。次いで、音声認識部22dにおいて、モード信号と音声デジタル信号が入力されると、音声認識部22dにより文章または単語が認識される(音声認識処理)。次いで、コマンド出力部22eにおいて、テキスト信号が入力されると、コマンド出力部22eによりテキスト信号に従って動作信号が出力される(コマンド出力処理)。そして、各種のアクチュエータ等は、入力された動作信号により動作する。このように、撮影者が発声する囁き声または通常発声を認識することができ、認識結果に従って動作信号を出力することができる。なお、第1実施形態と同様に、音響モデル変換処理により、撮影者の音声の認識精度を向上することができる。
【0151】
次いで、撮像装置1Bの動画用音制御の作用効果を説明する。音処理部22bにおいて、マイクロフォン14に音が入力されると、音処理部22bにより音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、環境音抽出部221において、音デジタル信号が入力されると、環境音抽出部221により、第1音デジタル信号と第2音デジタル信号のうち一方に位相遅延を与え、音デジタル信号から環境音デジタル信号が抽出される(環境音抽出処理)。次いで、環境音抽出部221により、抽出された環境音デジタル信号についてノイズ除去の処理を行う(環境音抽出処理)。次いで、エンコード部222において、環境音デジタル信号が入力されると、エンコード部222により、環境音デジタル信号からファイルへ変換され、映像データと同期して動画ファイルとしてエンコードされる(エンコード処理)。そして、エンコード部222により動画ファイルが記憶部21へ記録される(エンコード処理)。
【0152】
続いて、撮像装置1Bの作用効果を説明する。
【0153】
本実施形態では、第1マイク群14Aは、少なくとも装置本体10Bに接して撮影者が発声する接話のときに用いられる。第2マイク群14Bは、同一平面上に配置された第2マイクロフォン14b~第4マイクロフォン14dを有する。第2マイク群14Bは、第1マイク群14Aに入力された音と位相差が生じる位置に配置されている。本実施形態では、第2マイク群14Bは、第1マイク群14Aに入力された、地平線に対して水平方向の音と位相差が生じる位置に配置されている。音声抽出部22cにより、第2マイク群14Bの第2マイクロフォン14b~第4マイクロフォン14dにそれぞれ入力された第2マイク音デジタル信号~第4マイク音デジタル信号から音方向が検出される。音声抽出部22cにより、音方向に基づいて第1マイク群14Aと第2マイク群14Bのうち先に音声が入力された第1マイク群14Aまたは第2マイク群14Bの一方に入力された音声に対して位相遅延が与えられる。音声抽出部22cにより、第1マイク群14Aに入力された第1音デジタル信号と第2マイク群14Bに入力された第2音デジタル信号とが減算される。そして、音声認識部22dにより、減算後の音声デジタル信号に基づいて囁き声が認識される。即ち、第1音デジタル信号と第2音デジタル信号に位相差が生じる場合であっても、位相を合わせることにより、囁き声が認識される。これにより、マイクロフォン14に入力された音から環境音を抑制することができる。従って、第1音デジタル信号と第2音デジタル信号に位相差が生じる場合であっても、撮影者の囁き声の認識精度を向上することができる(位相差有り作用)。特に、撮像装置1Aでは撮影者がファインダ12を覗くという接話状態を利用するので、囁き声の認識精度の向上に有効的である。
【0154】
本実施形態では、上記の囁き声と同様に通常発声においても、第1音デジタル信号と第2音デジタル信号に位相差が生じる場合であっても、撮影者の通常発声の認識精度を向上することができる(位相差有り作用)。以下、通常発声の認識は、上記の囁き声の認識と同様であるため簡潔に説明する。通常発声においても、音声抽出部22cにより、音方向に基づいて第1マイク群14Aと第2マイク群14Bのうち先に音声が入力された第1マイク群14Aまたは第2マイク群14Bの一方に入力された音声に対して位相遅延が与えられる。また、音声抽出部22cにより、第1音デジタル信号と第2音デジタル信号とが減算される。そして、音声認識部22dにより、減算後の音声デジタル信号に基づいて通常発声が認識される。即ち、第1音デジタル信号と第2音デジタル信号に位相差が生じる場合であっても、位相を合わせることにより、通常発声が認識される。これにより、マイクロフォン14に入力された音から環境音を抑制することができる。従って、第1音デジタル信号と第2音デジタル信号に位相差が生じる場合であっても、撮影者の通常発声の認識精度を向上することができる(位相差有り作用)。
【0155】
なお、本実施形態では、第1実施形態と同様に、囁き声認識作用と囁き声音響モデル作用と音声認識作用とモード判定接話作用と学習作用と撮像装置操作作用を奏する。
(第3実施形態)
【0156】
次に、第3実施形態の撮像装置1Cについて説明する。なお、第1実施形態と同様の構成はその説明を省略または簡略化する。なお、制御ユニット20のブロック構成は、第1実施形態の
図4と同様である。
【0157】
撮像装置1Cの装置本体10C(本体、筐体)は、第1実施形態および第2実施形態の第1マイクロフォン14aを有さない。撮像装置1Cの装置本体10Cは、第2実施形態の
図10に示すように、第2マイクロフォン14b(入力部)と、第3マイクロフォン14c(入力部)と、第4マイクロフォン14d(入力部)と、を有する。第2マイクロフォン14b~第4マイクロフォン14dによりマイクロフォンアレイを構成する。その他のファインダ12と、操作部16と、制御ユニット20と、等は第1実施形態と同様に有する。以下において、第2マイクロフォン14b~第4マイクロフォン14dを特に区別しない場合には「マイクロフォン14」とも記載する。なお、第2マイクロフォン14b~第4マイクロフォン14dは、第2実施形態と同様である。
【0158】
以下、
図13を参照して、音モジュール22のブロック構成について説明する。
【0159】
音モジュール22は、音声モード判定部22aと、音処理部22bと、音声抽出部22cと、音声認識部22d(認識部)と、コマンド出力部22e(出力部)と、音響モデル変換部22fと、を有する。更に、音モジュール22は、環境音抽出部221(動画用音抽出部)と、エンコード部222と、を有する。なお、
図13に示す例では、本実施形態の音声認識装置は、アイセンサ13と、マイクロフォン14と、音モジュール22と、記憶部21と、を備える。制御用プログラムとして、各部22a~22f,221,222の処理を実行するためのプログラムが記憶部21に格納されている。制御ユニット20は、プログラムを読み出して、RAMにて実行することにより、各部22a~22f,221,222の処理を行う。なお、第3実施形態では、静止画撮影時の音モジュール22が行う音声認識制御と、動画撮影時の音モジュール22が行う動画用音制御と、について説明する。先に、音声認識制御について説明する。また、音声認識処理と音響モデル変換処理とは第1実施形態と同様であり、エンコード処理は第2実施形態と同様である。
【0160】
音声モード判定部22aは、モード信号を音声認識部22dと音声抽出部22cへ出力する点で第1実施形態と相違するが、その他は第1実施形態と同様である。
【0161】
音処理部22bは、音アナログ信号を、音デジタル信号(音デジタルデータ、音)への変換の音処理を行う。音処理部22bは、音デジタル信号を音声抽出部22cと環境音抽出部221へ出力する。具体的には、音処理部22bは、以下の音処理を、マイクロフォン14に音が入力される間に繰り返し行う。なお、音処理は、第2マイクロフォン14b~第4マイクロフォン14dのそれぞれに入力された音について別々に行う。また、以下において、第2マイクロフォン14bに入力された音が、音処理された信号を「第2マイク音デジタル信号(第2マイク音デジタルデータ)」と記載する。第3マイクロフォン14cに入力された音が、音処理された信号を「第3マイク音デジタル信号(第3マイク音デジタルデータ)」と記載する。第4マイクロフォン14dに入力された音が、音処理された信号を「第4マイク音デジタル信号(第4マイク音デジタルデータ)」と記載する。音デジタル信号は、第2マイク音デジタル信号~第4マイク音デジタル信号を特に区別しない場合のことである。
【0162】
音処理部22bは、第1実施形態と同様に、音アナログ信号を増幅し、次いで、音デジタル信号に変換する。そして、音処理部22bは、音処理した音デジタル信号を音声抽出部22cと環境音抽出部221へ出力する。なお、音処理部22bは、第1実施形態と異なり、DC成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減のノイズ除去の処理は行わない。
【0163】
音声抽出部22cは、音声モード判定部22aより入力されたモード信号に基づいて、音処理部22bにより入力された音デジタル信号から、音声デジタル信号を抽出する。音声抽出部22cは、抽出した音声デジタル信号を音声認識部22dと環境音抽出部221へ出力する。具体的には、音声抽出部22cは、以下の音声抽出処理を、音声モード判定部22aからモード信号が入力され、音処理部22bから音デジタル信号が入力される間に繰り返し行う。
【0164】
まず、音声抽出部22cは、モード信号に基づいて、囁き声モードまたは通常発声モードを判定する。次いで、音声抽出部22cは、音デジタル信号から、上述した指向性制御(公知のビームフォーミング)により音声デジタル信号を抽出する。
図14を一例として、特定方向音声の範囲について説明する。音声抽出部22cは、囁き声モードの場合、
図14(A)に示す範囲231のように、接眼状態であるから装置本体10Cの近傍であって装置本体10Cの後方である音声の方向の特定方向音声(特定方向音)を平面の空間の囁き声デジタル信号として抽出する。音声抽出部22cは、通常発声モードの場合、
図14(B)に示す範囲232のように、離眼状態であるから装置本体10Cの遠方であって装置本体10Cの後方である音声の方向の特定方向音声(特定方向音)を平面の空間の通常発声デジタル信号として抽出する。なお、音声抽出部22cは、音声デジタル信号を抽出するとき、音声デジタル信号を抽出した部分の時間情報を、時間信号として抽出する。また、
図14(B)は一例であるから、範囲232に限られない。例えば、三脚に撮像装置1Cを設置して、自分の写真を撮影する(自撮り)シーンにおいて、音声抽出部22cは、以下のように特定方向音声を抽出する。音声抽出部22cは、自撮りシーンであって通常発声モードの場合、離眼状態であるから装置本体10Cの前方である特定の方向の特定方向音声(特定方向音)を平面の空間の通常発声デジタル信号として抽出する。
【0165】
次いで、音声抽出部22cは、抽出した音声デジタル信号について、第1実施形態の音処理にて記載したDC成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減のノイズ除去の処理を行う。そして、音声抽出部22cは、ノイズ除去した音声デジタル信号を音声認識部22dと環境音抽出部221へ出力する。なお、音声抽出部22cは、時間信号も音声認識部22dと環境音抽出部221へ出力する。
【0166】
コマンド出力部22eは、音声認識部22dより入力されたテキスト信号に従って、動作信号を出力する。具体的には、コマンド出力部22eは、以下のコマンド出力処理(出力処理)を、音声認識部22dからテキスト信号が入力される間に繰り返し行う。
【0167】
まず、コマンド出力部22eは、第1実施形態と同様に、
図7(A)のコマンドリストを読み込み、テキスト信号がワードと一致するか否かを判定する。次いで、コマンド出力部22eは、判定結果をワード判定信号として、環境音抽出部221へ出力する。その他については第1実施形態と同様であり、コマンド出力部22eは、ワードと一致する場合には動作信号を図略の各種のアクチュエータ等へ出力し、ワードと一致しない場合には何の動作信号も出力しない。ワードと一致しない場合のテキスト信号の内容は、例えば、撮影者と被写体との会話や撮影者の音声メモ等である。
【0168】
続いて、動画用音制御について説明する。なお、静止画/動画切り換えレバー16cが動画撮影であり、動画撮影ボタン16eが操作されて動画の撮影が開始されると、動画用音制御が開始される。そして、動画撮影ボタン16eが操作されて動画の撮影が終了されると、動画用音制御が終了される。なお、動画撮影ボタン16eに限らず、撮影者が音声認識機能を利用して、動画を撮影しても良い。また、動画用音制御は、音声認識制御とは別のRAMにて実行しても良い。
【0169】
環境音抽出部221は、音処理部22bより入力された音デジタル信号から、音声デジタル信号を抑制して、環境音デジタル信号(環境音デジタルデータ、環境音、動画用の動画用音)を抽出する。ここで、動画用の動画用音は、マイクロフォン14に入力された音のうち、音声を抑制した環境音である。環境音抽出部221は、環境音デジタル信号を抽出する際、音声抽出部22cより入力された音声デジタル信号と時間信号、および、コマンド出力部22eより入力されたワード判定信号から、音デジタル信号に含まれる音声デジタル信号を抑制する。そして、環境音抽出部221は、抽出した環境音デジタル信号をエンコード部222へ出力する。具体的には、環境音抽出部221は、以下の環境音抽出処理を、音処理部22bから音デジタル信号が入力され、音声抽出部22cから音声デジタル信号と時間信号が入力され、コマンド出力部22eからワード判定信号が入力される間に繰り返し行う。
【0170】
まず、環境音抽出部221は、音デジタル信号から、上述した指向性制御(公知のビームフォーミング)により特定音デジタル信号を抽出する。
図14を一例として、特定方向音の範囲について説明する。環境音抽出部221は、囁き声モードまたは通常発声モードにかかわらず、
図14に示す範囲330のように、装置本体10Cの前方である特定の方向の特定方向音を平面の空間の特定音デジタル信号として抽出する。
【0171】
次いで、環境音抽出部221は、ワード判定信号が、ワードと一致か否かを判定する。次いで、環境音抽出部221は、ワードと一致する場合(ワード一致)、音声デジタル信号と時間信号を用いて、抽出した特定音デジタル信号から音声デジタル信号を抑制する。詳述すると、環境音抽出部221は、時間信号に対応する音デジタル信号について、音声デジタル信号を減算する処理を行う。言い換えると、環境音抽出部221は、特定音デジタル信号から音声デジタル信号を抑制することにより、環境音デジタル信号を抽出する。このとき、音声は音声の帯域成分(例えば200Hz~4KHz)が主であるため、その帯域に絞って減算することにより、必要以上に環境音に影響を与えずに済むことができる。ワードと一致しない場合(ワード不一致)、音声デジタル信号は各種のアクチュエータ等を動作させるための音声デジタル信号(コマンドを実行させるためのコマンド用の音声デジタル信号)ではない。このため、環境音抽出部221は、特定音デジタル信号について音声デジタル信号を減算する処理を行わない。これにより、ワードと一致しない場合、特定音デジタル信号が環境音デジタル信号となる。次いで、環境音抽出部221は、環境音デジタル信号について、上述した音声抽出部22cと同様にノイズ除去の処理を行う。そして、環境音抽出部221は、ノイズ除去した環境音デジタル信号をエンコード部222へ出力する。なお、特定方向音を抽出する処理を行う前に、音デジタル信号から音声デジタル信号を減算する処理を行っても良い。
【0172】
次に、第3実施形態の作用効果について説明する。
【0173】
まず、撮像装置1Cの音声認識制御の作用効果を説明する。音声モード判定部22aにおいて、アイセンサ13の検出信号が入力されると、音声モード判定部22aによりアイセンサ13の検出信号に基づいて囁き声モードと通常発声モードの一方が判定される(モード判定処理)。モード判定処理と同時またはモード判定処理の前後に、音処理部22bにおいて、マイクロフォン14に音が入力されると、音処理部22bにより音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、音声抽出部22cにおいて、モード信号と音デジタル信号が入力されると、音声抽出部22cにより音デジタル信号から指向性制御よって音声デジタル信号が抽出される(音声抽出処理)。次いで、音声抽出部22cにより、抽出された音声デジタル信号についてノイズ除去の処理を行う(音声抽出処理)。次いで、音声認識部22dにおいて、モード信号と音声デジタル信号が入力されると、音声認識部22dにより文章または単語が認識される(音声認識処理)。次いで、コマンド出力部22eにおいて、テキスト信号が入力されると、コマンド出力部22eによりテキスト信号に従って動作信号が出力される(コマンド出力処理)。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、撮影者が発声する囁き声または通常発声を認識することができ、認識結果に従って動作信号を出力することができる。なお、第1実施形態と同様に、音響モデル変換処理により、撮影者の音声の認識精度を向上することができる。
【0174】
次いで、撮像装置1Cの動画用音制御の作用効果を説明する。音処理部22bにおいて、マイクロフォン14に音が入力されると、音処理部22bにより音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、環境音抽出部221において、音デジタル信号と音声デジタル信号と時間信号とワード判定信号とが入力されると、環境音抽出部221により、音デジタル信号から指向性制御によって特定音デジタル信号が抽出される(環境音抽出処理)。次いで、ワード一致の場合、環境音抽出部221により、時間信号に対応する特定音デジタル信号から音声デジタル信号が抑制されることにより環境音デジタル信号が抽出される(環境音抽出処理)。なお、ワード不一致の場合、環境音抽出部221により、特定音デジタル信号が環境音デジタル信号として抽出される(環境音抽出処理)。次いで、環境音抽出部221により、抽出された環境音デジタル信号についてノイズ除去の処理を行う(環境音抽出処理)。次いで、エンコード部222において、環境音デジタル信号が入力されると、エンコード部222により環境音デジタル信号からファイルへ変換され、映像データと同期して動画ファイルとしてエンコードされる(エンコード処理)。そして、エンコード部222により動画ファイルが記憶部21へ記録される(エンコード処理)。
【0175】
次いで、撮像装置1Cの作用効果を説明する。
【0176】
本実施形態では、第2マイクロフォン14b~第4マイクロフォン14dは、同一平面上に配置されている。第4マイクロフォン14dは、第2マイクロフォン14bと第3マイクロフォン14cとを結ぶ一直線上に配置されていない。音声抽出部22cにより、第2マイクロフォン14b~第4マイクロフォン14dのそれぞれに入力された第2マイク音デジタル信号~第4マイク音デジタル信号から、特定の方向の特定方向音声(音声デジタル信号)が抽出される。そして、音声認識部22dにより、抽出後の特定方向音声に基づいて音声が認識される。即ち、指向性制御により音デジタル信号から音声デジタル信号が抽出され、音声が認識される。従って、指向性制御により抽出された音声デジタル信号に基づいて音声の認識を行うことができる(平面の指向作用)。
【0177】
本実施形態では、第2マイクロフォン14b~第4マイクロフォン14dのそれぞれに入力された第2マイク音デジタル信号~第4マイク音デジタル信号から環境音デジタル信号を抽出する環境音抽出部221を有している。音声抽出部22cによる特定方向音声の抽出と環境音抽出部221による特定方向音の抽出との両方が同時に行われる。音声抽出部22cにより、第2マイクロフォン14b~第4マイクロフォン14dのそれぞれに入力された第2マイク音デジタル信号~第4マイク音デジタル信号から、音声の方向の特定方向音声が抽出される。そして、音声認識部22dにより、抽出後の特定方向音声から音声が認識される。環境音抽出部221により、第2マイクロフォン14b~第4マイクロフォン14dのそれぞれに入力された第2マイク音デジタル信号~第4マイク音デジタル信号から、特定の方向の特定方向音が抽出される。即ち、指向性制御により音デジタル信号から音声デジタル信号が抽出され、音声が認識される。同時に、指向性制御により音デジタル信号から環境音デジタル信号が抽出される。従って、指向性制御により音声デジタル信号と環境音デジタル信号とを同時に抽出することができ、抽出された音声デジタル信号から音声の認識を行うことができる(同時処理作用)。
【0178】
本実施形態では、コマンド出力部22eにより、テキスト信号がワードと一致するか否かが判定される。環境音抽出部221により、コマンド出力部22eより入力されたワード判定結果(ワード判定信号)がワード一致の場合、抽出された特定の方向の特定音デジタル信号(特定方向音)から音声抽出部22cより入力された音声デジタル信号(特定方向音声)が減算され、環境音デジタル信号(動画用音)が抽出される。環境音抽出部221により、コマンド出力部22eより入力されたワード判定信号がワード不一致の場合、抽出された特定の方向の特定音デジタル信号(特定方向音)が環境音デジタル信号(動画用音)として抽出される。即ち、例えば各種のアクチュエータ等を動作させるための音声デジタル信号である場合には、特定音デジタル信号から音声デジタル信号が抑制される。各種のアクチュエータ等を動作させるための音声デジタル信号ではない場合には、特定音デジタル信号から音声デジタル信号が抑制されず、特定音デジタル信号に音声デジタル信号が含められる。従って、撮影者が意図する動画用音を自動的に抽出することができる。
【0179】
なお、本実施形態では、第1実施形態と同様に、囁き声認識作用と囁き声音響モデル作用と音声認識作用とモード判定接話作用と学習作用と撮像装置操作作用を奏する。また、本実施形態では、撮像装置1Cは、音声認識装置と音声処理装置とを備える。即ち、撮像装置1Cに音声を認識可能な機能を持たせることができる。このため、撮像装置1Cを音声により操作することができる(撮像装置操作作用)。
(第4実施形態)
【0180】
次に、
図15を参照して、第4実施形態の撮像装置1Dについて説明する。なお、第1実施形態と同様の構成はその説明を省略または簡略化する。
【0181】
撮像装置1Dの装置本体10D(本体、筐体)は、第1マイクロフォン14a(入力部)と、第2マイクロフォン14b(入力部、
図1と
図10等参照)と、第3マイクロフォン14c(入力部、
図1と
図10等参照)と、第4マイクロフォン14d(入力部)と、有する。その他のファインダ12と、操作部16と、制御ユニット20と、等は第1実施形態と同様に有する。以下において、第1マイクロフォン14a~第4マイクロフォン14dを特に区別しない場合には「マイクロフォン14」とも記載する。
【0182】
撮像装置1Dの全方位(三次元)の音を再現するために、第1マイクロフォン14a~第4マイクロフォン14dを用いる。第4実施形態では、三次元サウンドフォーマットとしてAmbisonics(アンビソニックス)を適用する。三次元サウンドは、近年、VR(Virtual Reality)動画にて用いるような音の方向を自由に変えて再生する技術の総称であり、立体音響技術の一部である。Ambisonicsには、FOA(First Order Ambisonics)やHOA(High Order Ambisonics)等に分類されるフォーマットがある。FOAには、AmbiXやFuMa等がある。例えば、「AmbiX」とは、全方位の空間の音(詳細には音波の存在する空間(音場))を記録することにより、音の再生時に音源が存在する特定の方向の音を再現することができる技術である。また、全方位における特定の方向の音を強調または低減することができる。
【0183】
第1マイクロフォン14a~第4マイクロフォン14dのそれぞれには、撮影者が発声する音声と撮影者周囲の環境音との両方の音が入力される。第1マイクロフォン14a~第4マイクロフォン14dのそれぞれは、音をアナログ信号の音アナログ信号へ変換する。マイクロフォン14の指向性は、例えば、全ての方向から同じ感度で音が入力される無指向性(全指向性)である。第1マイクロフォン14a~第4マイクロフォン14dのそれぞれのマイクロフォン感度は同一である。なお、第1マイクロフォン14a~第4マイクロフォン14dのそれぞれのマイクロフォン感度は異ならせても良く、感度の違いによる調整は音処理部22b等により行えば良い。
【0184】
第1マイクロフォン14aは、第1実施形態と同様の位置に配置されている。第2マイクロフォン14bと第3マイクロフォン14cは、第2実施形態と同様の位置に配置されている。第4マイクロフォン14dは、
図15に示すように、装置本体10Dの後面かつ右端(グリップ部100側)に配置されている。
【0185】
第1マイクロフォン14a~第4マイクロフォン14dの位置関係について説明する。第1マイクロフォン14a~第4マイクロフォン14dをそれぞれ点と仮定し、当該四つの点を線分で結ぶと三角錐を形成可能な位置に配置されている。第1マイクロフォン14aは、第2マイクロフォン14bと第3マイクロフォン14cとを結ぶ一直線上に配置されていない。
【0186】
以下、
図16を参照して、制御ユニット20のブロック構成について説明する。
【0187】
制御ユニット20は、記憶部21と、音モジュール22と、撮像部23と、通信部24と、ジャイロセンサ25(傾きセンサ)と、を有する。なお、ジャイロセンサ25は第1実施形態と相違するが、その他の構成は第1実施形態と同様である。
【0188】
ジャイロセンサ25は、装置本体10Dの傾きすなわち装置本体10Dの角度(姿勢)や角速度や角加速度を検出する公知のセンサである。
【0189】
以下、
図17を参照して、音モジュール22のブロック構成について説明する。
【0190】
音モジュール22は、音声モード判定部22aと、音処理部22bと、音声抽出部22cと、音声認識部22d(認識部)と、コマンド出力部22e(出力部)と、音響モデル変換部22fと、変更部22jを有する。更に、音モジュール22は、環境音抽出部221(動画用音抽出部)と、エンコード部222と、を有する。なお、
図17に示す例では、本実施形態の音声認識装置は、アイセンサ13と、マイクロフォン14と、音モジュール22と、記憶部21と、ジャイロセンサ25と、を備える。制御用プログラムとして、各部22a~22f,22j,221,222の処理を実行するためのプログラムが記憶部21に格納されている。制御ユニット20は、プログラムを読み出して、RAMにて実行することにより、各部22a~22f,22j,221,222の処理を行う。なお、第4実施形態では、静止画撮影時の音モジュール22が行う音声認識制御と、動画撮影時の音モジュール22が行う動画用音制御について説明する。先に、音声認識制御について説明する。また、音声モード判定処理と音声認識処理と音響モデル変換処理とは第1実施形態と同様であり、コマンド出力処理とエンコード処理は第3実施形態と同様である。
【0191】
変更部22jは、ジャイロセンサ25の角度信号(傾き情報)等に基づいて、第1マイクロフォン14a~第4マイクロフォン14dのうち少なくとも一つのマイクロフォンを音声認識用に変更する。変更部22jは、撮影者がファインダ12を覗いている眼を判定する。変更部22jは、角度信号と眼の判定結果に基づいて、接話のときに撮影者の口に最も近い、第1マイクロフォン14a~第4マイクロフォン14dのうち一つのマイクロフォンを音声認識用に変更する。言い換えると、変更部22jは、角度信号と眼の判定結果に基づいて、接話のときにおける撮影者の口の位置を推定し、最も近い第1マイクロフォン14a~第4マイクロフォン14dのうち一つのマイクロフォンを音声認識用に変更する。変更部22jは、音声認識用に変更した一つのマイクロフォンの情報をマイクロフォン情報信号として、音処理部22bへ出力する。また、変更部22jは、角度信号を音処理部22bへ出力する。具体的には、変更部22jは、以下の変更処理を、角度信号が入力される間に繰り返し行う。
【0192】
まず、変更部22jは、ジャイロセンサ25の角度信号が横位置か否かを判定する。ここで、
図18を一例として横位置と縦位置を説明する。「横位置」とは、
図18(A)に示すように、ファインダ12が撮像光学系11よりも上側にある状態位置であり、撮影者が右眼でファインダ12を覗いている状態位置である。横位置ではないすなわち「縦位置」とは、例えば
図18(B)に示すように、グリップ部100が撮像光学系11よりも下側であり、撮影者が右眼でファインダ12を覗いている状態位置である。
【0193】
次いで、変更部22jは、撮影者がファインダ12を覗いている眼を判定する。例えば、撮影者が事前に登録(設定)する情報から、変更部22jは撮影者がファインダ12を覗いている眼を判定する。登録の情報は、撮影者がファインダ12を覗くとき頻繁に使用する眼であり、記憶部21に格納されている。変更部22jは、記憶部21に格納されている登録の情報を読み込んで、眼を判定する。なお、登録の情報は、
図18と同様に右眼とする。
【0194】
次いで、変更部22jは、角度信号が横位置であって目の判定が右眼の場合、第1マイクロフォン14aを接話のときに用いられる音声認識用に変更する。言い換えると、変更部22jは、撮影者の口に最も近い第1マイクロフォン14aを音声認識用に変更する。理由は、この場合、接話のとき、第1マイクロフォン14aと撮影者の口は装置本体10Dの前後方向において一致または略一致するからである。変更部22jは、角度信号が縦位置であって目の判定が右眼の場合、第4マイクロフォン14dを接話のときに用いられる音声認識用に変更する。言い換えると、変更部22jは、撮影者の口に最も近い第4マイクロフォン14dを音声認識用に変更する。理由は、横位置の場合と同様であり、接話のとき、第4マイクロフォン14dと撮影者の口は装置本体10Dの前後方向において一致または略一致するからである。なお、縦位置の場合、指向性も変更される。そして、変更部22jは、音声認識用に変更した一つのマイクロフォンをマイクロフォン情報信号として、音処理部22bへ出力する。本実施形態では、変更部22jは、「横位置」の接話のときに用いられる音声認識用に変更した第1マイクロフォン14aをマイクロフォン情報信号として、音処理部22bへ出力する。また、変更部22jは、「縦位置」の接話のときに用いられる音声認識用に変更した第4マイクロフォン14dをマイクロフォン情報信号として、音処理部22bへ出力する。なお、変更部22jは、横位置や縦位置にかかわらず、角度信号を音処理部22bへ出力する。
【0195】
音処理部22bは、音アナログ信号を、音デジタル信号(音デジタルデータ、音)への変換の音処理を行う。音処理部22bは、音デジタル信号を音声抽出部22cと環境音抽出部221へ出力する。更に、音処理部22bは、マイクロフォン情報信号と角度信号を音声抽出部22cへ出力し、角度信号を環境音抽出部221へ出力する。具体的には、音処理部22bは、以下の音処理を、マイクロフォン14に音が入力され、マイクロフォン情報信号と角度信号が入力される間に繰り返し行う。なお、音処理は、第1マイクロフォン14a~第4マイクロフォン14dのそれぞれに入力された音について別々に行う。また、以下において、第1マイクロフォン14aに入力された音が、音処理された信号を「第1マイク音デジタル信号(第1マイク音デジタルデータ)」と記載する。第2マイクロフォン14bに入力された音が、音処理された信号を「第2マイク音デジタル信号(第2マイク音デジタルデータ)」と記載する。第3マイクロフォン14cに入力された音が、音処理された信号を「第3マイク音デジタル信号(第3マイク音デジタルデータ)」と記載する。第4マイクロフォン14dに入力された音が、音処理された信号を「第4マイク音デジタル信号(第4マイク音デジタルデータ)」と記載する。音デジタル信号は、第1マイク音デジタル信号~第4マイク音デジタル信号を特に区別しない場合のことである。
【0196】
音処理部22bは、第1実施形態と同様に、音アナログ信号を増幅し、次いで、音デジタル信号に変換する。そして、音処理部22bは、音処理した音デジタル信号とマイクロフォン情報信号と角度信号を音声抽出部22cへ出力し、音処理した音デジタル信号と角度信号を環境音抽出部221へ出力する。なお、音処理部22bは、第1実施形態と異なり、DC成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減のノイズ除去の処理は行わない。
【0197】
音声抽出部22cは、角度信号に基づいて、指向性を切り替える。本実施形態では、縦位置の場合、角度信号に基づいて、指向性を切り替える。音声抽出部22cは、音声モード判定部22aより入力されたモード信号と変更部22jより入力されたマイクロフォン情報信号とに基づいて、音処理部22bより入力された音デジタル信号から、音声デジタル信号を抽出する。音声抽出部22cは、抽出した音声デジタル信号を音声認識部22dと環境音抽出部221へ出力する。具体的には、音声抽出部22cは、以下の音声抽出処理を、音声モード判定部22aからモード信号が入力され、音処理部22bから音デジタル信号マイクロフォン情報信号と角度信号が入力される間に繰り返し行う。
【0198】
音声デジタル信号は、以下の三つの方法のうち一つの方法にて抽出される。第1の抽出方法として、音声抽出部22cは、マイクロフォン情報信号に基づいて、第1マイク音デジタル信号~第4マイク音デジタル信号のうち音声認識用に変更されたマイクロフォンの信号を音声デジタル信号として抽出する。第2の抽出方法として、音声抽出部22cは、マイクロフォン情報信号に基づいて、音デジタル信号から上述した指向性制御(公知のビームフォーミング)により音声デジタル信号を抽出する。なお、第2の抽出方法では、角度信号と眼の判定結果に基づいて、撮影者の口の方向に指向性を変更して、音デジタル信号から上述した指向性制御により音声デジタル信号を抽出しても良い。第3の抽出方法として、音声抽出部22cは、第1マイク音デジタル信号~第4マイク音デジタル信号により音声の位置(撮影者の口の位置)を推定して、その音声の位置に基づいて音デジタル信号から音声デジタル信号を抽出する。以下、音声抽出部22cについて、第1の抽出方法と第2の抽出方法を詳述する。
【0199】
まず、音声抽出部22cは、音声モード判定部22aより入力されたモード信号に基づいて、囁き声モードまたは通常発声モードか判定する。囁き声モードの場合であって横位置の場合について説明する。次いで、第1の抽出方法では、音声抽出部22cは、第1マイク音デジタル信号を音声デジタル信号として抽出する。次に、第2の抽出方法では、音声抽出部22cは、マイクロフォン情報信号に基づいて、音デジタル信号から上述した指向性制御により音声デジタル信号を抽出する。
図19を一例として、特定方向音声の範囲について説明する。なお、
図19では、第4マイクロフォン14dを図示していないが、第4マイクロフォン14dに入力された音についても音声デジタル信号と特定音デジタル信号の抽出に用いるものとする。音声抽出部22cは、囁き声モードの場合であって横位置の場合、
図19(A)に示す範囲241のように、接眼状態であるから第1マイクロフォン14aの近傍であって装置本体10Dの後方である特定の方向の特定方向音声(特定方向音)を全方位の空間の音声デジタル信号として抽出する。言い換えると、音声抽出部22cは、第1マイクロフォン14aの近傍の音を音声デジタル信号として抽出する。
【0200】
また、囁き声モードの場合であって縦位置の場合について説明する。音声抽出部22cは、角度信号に基づいて指向性を切り替える。第1の抽出方法では、音声抽出部22cは、第4マイク音デジタル信号を音声デジタル信号として抽出する。次に、第2の抽出方法では、音声抽出部22cは、接眼状態であるから第4マイクロフォン14dの近傍であって装置本体10Dの後方である特定の方向の特定方向音声(特定方向音)を全方位の空間の音声デジタル信号として抽出する。言い換えると、音声抽出部22cは、第4マイクロフォン14dの近傍の音を音声デジタル信号として抽出する。
【0201】
通常発声モードの場合について説明する。通常発声モードでは、離眼状態であるからマイクロフォンを音声認識用に変更していないので、第2の抽出方法について説明する。音声抽出部22cは、
図19(B)に示す範囲242のように、離眼状態であるから装置本体10Dの遠方であって装置本体10Dの後方かつ下方である特定の方向の特定方向音声(特定方向音)を全方位の空間の音声デジタル信号として抽出する。なお、音声抽出部22cは、通常発声モードの場合であって縦位置の場合、角度信号に基づいて指向性を切り替える。また、通常発声モードの場合でも、囁き声モードのようにマイクロフォンを音声認識用に変更しても良く、第1の抽出方法は囁き声モードの場合と同様である。更に、
図19(B)は一例であるから、範囲242に限られない。例えば、三脚に撮像装置1Dを設置して、自分の写真を撮影する(自撮り)シーンにおいて、音声抽出部22cは、以下のように特定方向音声を抽出する。音声抽出部22cは、自撮りシーンであって通常発声モードの場合、離眼状態であるから装置本体10Dの前方である特定の方向の特定方向音声(特定方向音)を全方位の空間の音声デジタル信号として抽出する。
【0202】
音声抽出部22cは、音声デジタル信号を抽出するとき、音声デジタル信号を抽出した部分の時間情報を、時間信号として抽出する。
【0203】
次いで、音声抽出部22cは、抽出した音声デジタル信号について、第1実施形態の音処理にて記載したDC成分のカット、周波数特性の調整、ボリュームの調整および風切り音の低減のノイズ除去の処理を行う。そして、音声抽出部22cは、ノイズ除去した音声デジタル信号を音声認識部22dと環境音抽出部221へ出力する。なお、音声抽出部22cは、時間信号も音声認識部22dと環境音抽出部221へ出力する。
【0204】
続いて、動画用音制御について説明する。なお、静止画/動画切り換えレバー16cが動画撮影であり、動画撮影ボタン16eが操作されて動画の撮影が開始されると、動画用音制御が開始される。そして、動画撮影ボタン16eが操作されて動画の撮影が終了されると、動画用音制御が終了される。なお、動画撮影ボタン16eに限らず、撮影者が音声認識機能を利用して、動画を撮影しても良い。また、動画用音制御は、音声認識制御とは別のRAMにて実行しても良い。
【0205】
まず、環境音抽出部221は、囁き声モードまたは通常発声モードにかかわらず、第3実施形態と同様に、音処理部22bより入力された音デジタル信号から、音声デジタル信号を抑制する。即ち、環境音抽出部221は、ワード判定信号がワードと一致か否かを判定し、ワードと一致する場合、音デジタル信号から音声デジタル信号を減算する処理を行う。一方、環境音抽出部221は、ワードと一致しない場合、音デジタル信号から音声デジタル信号を減算する処理を行わない。
【0206】
次いで、環境音抽出部221は、音デジタル信号から音声デジタル信号を抑制した残りの音デジタル信号または音声デジタル信号を抑制しない音デジタル信号を、アンビソニックス化する処理を行う(アンビソニックスに変換する)。次いで、環境音抽出部221は、角度信号に基づいて、アンビソニックス化された音デジタル信号における音の再現方向を変更する。そして、環境音抽出部221は、アンビソニックス化され音の再現方向が変更された音デジタル信号から、環境音デジタル信号(環境音デジタルデータ、環境音、動画用の動画用音)を抽出する。例えば、環境音抽出部221は、アンビソニックス化され音の再現方向が変更された音デジタル信号から、
図19に示す範囲340のように、装置本体10Dの前方である特定の方向の音を全方位の空間の環境音デジタル信号として抽出する。このように、環境音抽出部221は、音デジタル信号から環境音デジタル信号を抽出する。その他のノイズ除去の処理やエンコード部222への出力の処理は、第3実施形態と同様である。なお、アンビソニックス化する処理を行った後に、音声デジタル信号を減算する処理を行っても良い。
【0207】
次に、第4実施形態の作用効果について説明する。
【0208】
まず、撮像装置1Dの音声認識制御の作用効果を説明する。音声モード判定部22aにおいて、アイセンサ13の検出信号が入力されると、音声モード判定部22aによりアイセンサ13の検出信号に基づいて囁き声モードと通常発声モードの一方が判定される(モード判定処理)。音処理の前に、変更部22jにおいて、角度信号と眼の判定結果に基づいて、接話のときに撮影者の口に最も近い、第1マイクロフォン14a~第4マイクロフォン14dのうち一つのマイクロフォンを音声認識用に変更する(変更処理)。次いで、モード判定処理と同時またはモード判定処理の前後に、音処理部22bにおいて、マイクロフォン14に音が入力されマイクロフォン情報信号と角度信号が入力されると、音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、音声抽出部22cにおいて、モード信号とマイクロフォン情報信号と角度信号と音デジタル信号が入力されると、音声抽出部22cにより音デジタル信号から第1~第3の抽出方法によって音声デジタル信号が抽出される(音声抽出処理)。次いで、音声抽出部22cにより、抽出された音声デジタル信号についてノイズ除去の処理を行う(音声抽出処理)。次いで、音声認識部22dにおいて、モード信号と音声デジタル信号が入力されると、音声認識部22dにより文章または単語が認識される(音声認識処理)。次いで、コマンド出力部22eにおいて、テキスト信号が入力されると、コマンド出力部22eによりテキスト信号に従って動作信号が出力される(コマンド出力処理)。そして、例えば各種のアクチュエータ等は、入力された動作信号により動作する。このように、撮影者が発声する囁き声または通常発声を認識することができ、認識結果に従って動作信号を出力することができる。なお、第1実施形態と同様に、音響モデル変換処理により、撮影者の音声の認識精度を向上することができる。
【0209】
次いで、撮像装置1Dの動画用音制御の作用効果を説明する。音処理の前に、変更部22jにおいて、ジャイロセンサ25の角度信号が入力される(変更処理)。次いで、音処理部22bにおいて、マイクロフォン14に音が入力されマイクロフォン情報信号と角度信号が入力されると、音処理部22bにより音アナログ信号が音デジタル信号へ変換される(音処理)。次いで、環境音抽出部221において、音デジタル信号と角度信号と音声デジタル信号と時間信号とワード判定信号とが入力されると、環境音抽出部221により、ワード判定信号がワードと一致か否かが判定される(環境音抽出処理)。次いで、ワード一致の場合、環境音抽出部221により、時間信号に対応する音デジタル信号から音声デジタル信号を減算する処理が行われる(環境音抽出処理)。なお、ワード不一致の場合、環境音抽出部221により、音デジタル信号から音声デジタル信号を減算する処理が行われない(環境音抽出処理)。次いで、環境音抽出部221により、音デジタル信号から音声デジタル信号を抑制した残りの音デジタル信号または音声デジタル信号を抑制しない音デジタル信号を、アンビソニックス化する処理が行われる(環境音抽出処理)。次いで、環境音抽出部221は、角度信号に基づいて、アンビソニックス化された音デジタル信号における音の再現方向を変更する(環境音抽出処理)。そして、環境音抽出部221により、アンビソニックス化され音の再現方向が変更された音デジタル信号から、特定の方向の環境音デジタル信号が抽出される(環境音抽出処理)。次いで、環境音抽出部221により、抽出された環境音デジタル信号についてノイズ除去の処理を行う(環境音抽出処理)。次いで、エンコード部222において、環境音デジタル信号が入力されると、エンコード部222により環境音デジタル信号からファイルへ変換され、映像データと同期して動画ファイルとしてエンコードされる(エンコード処理)。そして、エンコード部222により動画ファイルが記憶部21へ記録される(エンコード処理)。
【0210】
次いで、撮像装置1Dの作用効果を説明する。
【0211】
本実施形態では、第1マイクロフォン14a~第4マイクロフォン14dをそれぞれ点と仮定し、当該四つの点を線分で結ぶと三角錐を形成可能な位置に配置されている。音声抽出部22cにより、第1マイクロフォン14a~第4マイクロフォン14dのそれぞれに入力された第1マイク音デジタル信号~第4マイク音デジタル信号から、特定の方向の特定方向音声(音声デジタル信号)が抽出される。そして、音声認識部22dにより、抽出後の特定方向音声に基づいて音声が認識される。即ち、指向性制御により音デジタル信号から音声デジタル信号が抽出され(第2の抽出方法)、音声が認識される。従って、指向性制御により抽出された音声デジタル信号に基づいて音声の認識を行うことができる(立体の指向作用)。加えて、全方位の空間の音から音声デジタル信号が抽出されるため、平面の空間の音から音声デジタル信号が抽出されるよりも、撮影者の音声の認識精度を向上することができる。特に、通常発声モードの場合、撮影者の音声の認識精度を向上することができる。なお、第3の抽出方法により音デジタル信号から音声デジタル信号が抽出され、音声が認識されることも可能である。
【0212】
本実施形態では、第3実施形態と同様に、同時処理作用を奏する。加えて、全方位の空間の音から音声デジタル信号と環境音デジタル信号が抽出されるため、平面の空間の音から音声デジタル信号と環境音デジタル信号が抽出されるよりも、撮影者の音声の認識精度と動画用音の抽出精度を向上することができる。
【0213】
本実施形態では、第3実施形態と同様に、各種のアクチュエータ等を動作させるための音声デジタル信号である場合には、音デジタル信号から音声デジタル信号が抑制される。各種のアクチュエータ等を動作させるための音声デジタル信号ではない場合には、音デジタル信号から音声デジタル信号が抑制されず、音デジタル信号に音声デジタル信号を含められる。従って、撮影者が意図する動画用音を自動的に抽出することができる。
【0214】
本実施形態では、第1マイクロフォン14a~第4マイクロフォン14dと、装置本体10Dと、装置本体10Dの傾きを検出するジャイロセンサ25と、ジャイロセンサ25により検出された角度信号に基づいて、第1マイクロフォン14a~第4マイクロフォン14dのうち少なくとも一つのマイクロフォンを音声認識用に変更する変更部22jと、備えている。即ち、装置本体10Dの傾きが変更されると、角度信号に基づいて、少なくとも一つのマイクロフォンが音声認識用に変更されるので、音声が収音されやすくなる(第1の抽出方法)。従って、撮影者の音声の認識精度を向上することができる(音声認識用マイク変更作用)。
【0215】
本実施形態では、変更部22jにより、撮影者がファインダ12を覗いている眼が判定される。変更部22jにより、眼の判定結果と角度信号に基づいて、接話のときに撮影者の口に最も近い、第1マイクロフォン14a~第4マイクロフォン14dのうち一つのマイクロフォンが音声認識用に変更される。変更部22jにより、横位置の場合には、接話のときに撮影者の口に最も近い、第1マイクロフォン14a~第4マイクロフォン14dのうち第1マイクロフォン14aが音声認識用に変更される。また、変更部22jにより、縦位置の場合には、接話のときに撮影者の口に最も近い、第1マイクロフォン14a~第4マイクロフォン14dのうち第4マイクロフォン14dが音声認識用に変更される。即ち、接話のとき、撮影者の発声する囁き声が正確に抽出される(第1の抽出方法)。また、マイクロフォン14の数を増やさなくて良い。従って、マイクロフォン14の数を抑制しつつ、撮影者の囁き声の認識精度を向上することができる(接話時音声認識用マイク変更作用)。
【0216】
なお、本実施形態では、第1実施形態と同様に、囁き声認識作用と囁き声音響モデル作用と音声認識作用とモード判定接話作用と学習作用と撮像装置操作作用を奏する。また、本実施形態では、撮像装置1Dは、音声認識装置と音声処理装置とを備える。即ち、撮像装置1Dに音声を認識可能な機能を持たせることができる。このため、撮像装置1Dを音声により操作することができる(撮像装置操作作用)。
【0217】
上述した実施形態や一例では、囁き声モードと通常発声モードを一つずつ有する例を示したが、これに限られない。例えば、囁き声モードと通常発声モードを二つ以上ずつ有していても良い。ここで、囁き声と通常発声との違いほどではないが、ユーザの発声の強弱により音声の周波数特性等の特徴が変化する。このため、モードを増やすことにより、ユーザの音声の認識精度を向上することができる。なお、発声のボリュームが違う場合でも音素に変換することは可能である。この場合、プルーニングを比較的緩く設定しておけば、ユーザの音声の認識精度を維持することは可能である。
【0218】
上述した第1実施形態~第4実施形態では、音声モード判定部22aはアイセンサ13の検出信号に基づいて囁き声モードまたは通常発声モードを判定する例を示した。変形例(1-1)では、音声モード判定部22aは音声の周波数特性に基づいて囁き声モードまたは通常発声モードを判定する例を示した。変形例(1-2)では、音声モード判定部22aは、環境音ボリュームに基づいて囁き声モードまたは通常発声モードを仮判定した後、アイセンサ13の検出信号に基づいてモードを本判定する例を示した。しかし、これらに限られない。要するに、音声モード判定部22aは、少なくともアイセンサ13の検出信号と音声の周波数特性の一方に基づいてモードを判定すれば良く、これに加えて、環境音ボリュームに基づいて囁き声モードまたは通常発声モードを判定しても良い。このように、モードを判定しても、上述したモード判定周波数作用とモード判定接話作用とモード判定環境音作用を奏する。例えば、音声モード判定部22aは、アイセンサ13の検出信号と音声の周波数特性の両方に基づいてモードを判定する場合、アイセンサ13の検出信号に基づいてモードを仮判定した後、音声の周波数特性に基づいてモードを本判定する。また、変形例1-2では、仮判定と本判定の順序を入れ替え、アイセンサ13の検出信号に基づいてモードを仮判定した後、環境音ボリュームに基づいてモードを本判定しても良い。なお、音声モード判定部22aが音声の周波数特性に基づいて囁き声モードまたは通常発声モードを判定する場合、ファインダ12とアイセンサ13を有さなくても良い。
【0219】
上述した実施形態や一例では、自動的に、音声モード判定部22aは囁き声モードまたは通常発声モードを判定し、音声認識部22dはモード信号に基づいて囁き声モードまたは通常発声モードを設定する例を示したが、これに限られない。例えば、スイッチやボタンやタッチパネルの画面上において、ユーザの手動により囁き声モードまたは通常発声モードの設定が行われても良く、ファインダ12とアイセンサ13を有さなくても良い。
【0220】
上述した変形例(1-1)や一例では、音声モード判定部22aは、音声抽出部22cから入力されたあらゆる言葉の音声デジタル信号に含まれる音声の周波数特性に基づいて、囁き声モードまたは通常発声モードを判定する例を示した。しかし、これに限られない。例えば、音声認識制御の開始には、特定のトリガ―ワードの検出を必要としても良い。そして、音声モード判定部22aは、記憶部21に格納されているトリガ―ワードの通常発声と囁き声との周波数特性データを読み込む。次いで、音声モード判定部22aは、上述した変形例(1-1)に記載の処理を行い、トリガ―ワードが囁き声の周波数特性の場合、囁き声モードと判定する。また、音声モード判定部22aは、トリガ―ワードが囁き声ではない(通常発声の)周波数特性の場合、通常発声モードと判定する。そして、音声モード判定部22aは、音声デジタル信号と共に判定したモードをモード信号として、音声認識部22dと音圧判定部22gへ出力する。これにより、トリガーワードに続く音声も、トリガ―ワードと同様に囁き声または通常発声だと考えられるので、トリガーワードにより、囁き声モードまたは通常発声モードを判定する。この結果、音声モード判定がより一層容易になると共に音声モード判定処理の速度が高速化できる。なお、トリガ―ワードの検出によってモード判定処理を行った場合には、トリガ―ワードに続く音声についてモード判定処理を行わず、音声抽出処理からモード判定処理を介して音声認識処理へ進む。また、音声認識制御の開始は、上述した変形例(1-1)とトリガ―ワードを併用しても良く、トリガ―ワードの検出を必須の要件としなくても良い。
【0221】
上述した実施形態や変形例(1-2)では、接話検出部をアイセンサ13とする例を示したが、これに限られない。例えば、スイッチやボタンやタッチパネルの画面上において、ユーザの手動により接話と非接話を切り替えられても良く、ファインダ12とアイセンサ13を有さなくても良い。そして、音声モード判定部22aは手動の切り替えに基づいて、囁き声モードまたは通常発声モードを判定すれば良い。
【0222】
上述した実施形態や一例では、囁き声と通常発声の両方を音声認識する例を示したが、これに限られない。要するに、囁き声のみを音声認識することができれば良い。例えば、音声認識部22dは、囁き声モードに設定したときは囁き声を認識し、通常発声モードに設定したときは音声を認識しなくても良い。この他の例として、音声認識部22dは、接話のときに音声を認識し、非接話のときに音声を認識しなくても良い。この接話のときに音声を認識する場合、まず、音声認識部22dは、接話のとき、音声の周波数特性等に基づいて、音声デジタル信号が囁き声か否かを判定する。そして、音声認識部22dは、その判定結果より、囁き声または通常発声を認識すれば良い。
【0223】
上述した変形例(1-1)では、音圧判定部22gはモード信号を判定し通常発声モードの場合に音声デジタル信号の音圧を判定する例を示したが、これに限られない。例えば、音圧判定部22gは、モード信号に関わらず音声デジタル信号の音圧を判定しても良く、この音圧の判定を音声モード判定処理よりも前または同時に行っても良い。そして、コマンド出力部22eは、テキスト信号とモード信号と音圧判定信号(モード信号を含まない音圧の高さ結果)から、テキスト信号に従った動作信号の出力対象の程度が変更できる場合、音圧判定信号により予め設定された出力対象の程度に従って動作信号を出力すれば良い。このように構成しても、上述した程度変更作用を奏する。
【0224】
上述した変形例(1-1)や一例では、音圧判定部22gは音声デジタル信号の音圧を判定し、コマンド出力部22eはテキスト信号に従った動作信号の出力対象の程度が変更できる場合、音圧判定信号により予め設定された出力対象の程度に従って動作信号を出力する例を示した。この例を上述した実施形態や一例に適用しても良く、上述した程度変更作用を奏する。
【0225】
上述した変形例(1-2)では、音入力感度設定部22hは環境音ボリュームが大きいほどマイクロフォン14の感度を低く設定する(音入力感度設定処理)例を示した。プルーニング閾値判定部22iは環境音ボリュームが大きいほどプルーニング閾値を大きく判定する(プルーニング閾値判定処理)例を示した。しかし、これに限られない。例えば、どちらか一方のみの処理を行っても良い。また、音入力感度設定処理とプルーニング閾値判定処理との少なくとも一方を、上述した実施形態や一例に適用しても良く、上述したマイク感度作用とプルーニング作用を奏する。
【0226】
上述した第2実施形態では、音方向は、三つの第2マイク音デジタル信号~第4マイク音デジタル信号から検出する例を示したが、これに限られない。例えば、音方向は、第1マイク音デジタル信号を加えて4つの音デジタル信号から検出しても良い。これにより、地平線に対する水平方向に加え、水平方向と前後方向に垂直な上下方向の音方向も検出可能になる。
【0227】
上述した第2実施形態では、音から通常発声を認識する例として、音声認識部22dにより、減算後の音声デジタル信号に基づいて通常発声を認識する例を示したが、これに限られない。例えば、第3実施形態のように、音声抽出部22cにおいて音デジタル信号から指向性制御により通常発声デジタル信号を抽出し(
図14(B)参照)、音声認識部22dにより通常発声デジタル信号から通常発声を認識しても良い。
【0228】
上述した第2実施形態では、環境音抽出部221は減算処理によって音デジタル信号より音声デジタル信号を抑制して環境音デジタル信号を抽出する例を示したが、これに限られない。例えば、第3実施形態のように、コマンド出力部22eによりテキスト信号がワードと一致するか否かの判定結果に基づいて、減算処理を行うか否を判定しても良い。ワード一致との判定の場合には減算処理を行い、ワード不一致との判定の場合には減算処理を行わない。これにより、撮影者が意図する動画用音を自動的に抽出することができる。
【0229】
上述した第3実施形態~第4実施形態や一例では、コマンド出力部22eによりテキスト信号がワードと一致するか否かの判定結果に基づいて、音声デジタル信号の抑制の要否を決定する例を示したが、これに限られない。例えば、音声認識部22dにより音声が認識されたか否かの音声認識信号を環境音抽出部221へ出力しても良い。そして、環境音抽出部221は、音声認識信号が音声認識有りの場合には、ワード判定信号の入力後に、音声デジタル信号の抑制の要否を決定する。また、環境音抽出部221は、音声認識信号が音声認識無しの場合には、ワード判定信号の入力を待たずに、音声デジタル信号の抑制を行わないことを決定する。これにより、撮影者が意図する動画用音を自動的に抽出することができる。
【0230】
上述した実施形態や一例では、音アナログ信号を音デジタル信号に変換した後に、各処理を行う例を示したが、これに限られない。例えば、同様の各処理を行うことが可能なアナログ電気電子回路によって実現しても良い。
【0231】
上述した実施形態や一例では、マイクロフォン14は音をアナログ信号の音アナログ信号(音アナログデータ)へ変換する例を示したが、これに限られない。例えば、マイクロフォン14は音をデジタル信号の音デジタル信号(音デジタルデータ)へ変換しても良い。これにより、音処理部22bにおける音アナログ信号から音デジタル信号に変換する処理が不要となる。
【0232】
上述した第1実施形態とその変形例(1-1,1-2)では音処理において、上述した第2実施形態~第4実施形態では音声抽出処理と環境音抽出処理において、ノイズ除去の処理を行う例を示したが、これに限られない。要するに、ノイズ除去の処理は、音アナログ信号を音デジタル信号へ変換した後のタイミングであればいつでも良い。
【0233】
上述した第2実施形態~第4実施形態や一例では、音処理の後であってエンコード処理の前のリアルタイムに環境音抽出処理を行う例を示したが、これに限られない。例えば、音デジタル信号から環境音デジタル信号を抽出する必要が無ければ、リアルタイムにて環境音抽出処理を行わず後処理しても良い。後処理の場合、音処理の後に、音デジタル信号のままファイルへ変換し映像データと同期して動画ファイルとしてエンコードする。そして、動画ファイルを記憶部21へ記録する。また、音声デジタル信号をデータとして記憶部21へ記録する。ただし、音デジタル信号と音声デジタル信号の時間をタグ付けしておく。これにより、後処理を容易に行うことができる。
【0234】
上述した第3実施形態では、環境音抽出部221は指向性制御により装置本体10Cの前方である特定の方向の特定方向音を特定音デジタル信号として抽出する例を示した。また、上述した第4実施形態では、環境音抽出部221はアンビソニックス化され音の再現方向が変更された音デジタル信号から、装置本体10Dの前方である特定の方向の音を環境音デジタル信号として抽出する例を示した。しかし、これに限られない。例えば、指向性制御を行うことができるため、環境音抽出部221が抽出する特定の方向の音を、
図20(A)に示すような5.1ch等の公知のマルチサラウンドや
図20(B)に示すような音場情報と頭部伝達関数を用いた公知のバイノーラル化技術としても良い。5.1chサラウンドは、例えば
図20(A)に示す範囲351~355のように、装置本体10C,10Dの五つの方向に指向性を形成する特定の方向の音を特定音デジタル信号または環境音デジタル信号として抽出する。そして、残りの環境音抽出処理とエンコード処理を行うと共に、公知の方法により5.1chサラウンドを作成する。これにより、六つのスピーカを用いて、記憶部21に記録される動画ファイルを再生すると、聞いている人を取り囲むような音が再生される。また、バイノーラル化技術は、例えば
図20(B)に示す範囲361~364のように、装置本体10C,10Dの四つの方向に指向性を形成する特定の方向の音を特定音デジタル信号または環境音デジタル信号として抽出する。そして、残りの環境音抽出処理とエンコード処理を行うと共に、公知の方法によりバイノーラル化された音を作成する。これにより、ヘッドホンを用いて、記憶部21に記録される動画ファイルを再生すると、再生時に実際に発せられているような音(実際に近い音の定位)が再生される。
【0235】
上述した第4実施形態では、マイクロフォン14(三次元サウンドフォーマットの技術)と、ジャイロセンサ25と、変更部22jと、を備える例を示した。そして、第4実施形態では、装置本体10Dの傾きが変更されても、動画用音が再生されたとき、動画の録画時と再生時の音の向き(音の再現方向)が同一の状態で再生される例を示したが、これに限られない。例えば、撮像装置1Dが電子的に手振れを補正する電子手振れ補正機能を有する場合や、撮像装置1Dが自由視点動画(例えばVR(Virtual Reality)動画や360度動画等)の撮影が可能な装置である場合等がある。これらの場合でも、マイクロフォン14(三次元サウンドフォーマットの技術)と、ジャイロセンサ25と、変更部22jと、を備えることにより、映像方向と音の向きが同一の状態(一致した状態)で再生される。
【0236】
上述した第4実施形態では、変更部22jは登録の情報から眼を判定する例を示したが、これに限られない。例えば、変更部22jは、ディスプレイ15のタッチパネル静電容量の値から、撮影者がファインダ12を覗いている眼を判定しても良い。撮影者がファインダ12を覗いている眼によって、ディスプレイ15に被る撮影者の顔の面積が異なる。このため、ディスプレイ15に被る撮影者の顔の面積により、ディスプレイ15のタッチパネル静電容量の値が変化するので、眼の判定が可能となる。また、変更部22jは、音デジタル信号に含まれる音声デジタル信号の音源方向の解析結果から、撮影者がファインダ12を覗いている眼を判定しても良い。変更部22jは音デジタル信号に含まれる音声デジタル信号の音源方向を解析し、その解析の結果から音源方向を検知する。例えば、撮像装置の電源をONした状態で撮影者が音声認識機能の利用を開始した数回にて、音デジタル信号に含まれる音声デジタル信号の音源方向を解析し、解析の結果から音源方向を検知する。そして、検知した音源方向から、変更部22jは撮影者がファインダ12を覗いている眼を判定する。なお、撮像装置の電源をONした状態でのときに、常時、音源方向を検知すると、撮影者以外の人間の音声も解析してしまうので、撮影者が音声認識機能の利用を開始した数回にて、音源方向を検知する。なお、変更部22jは、登録の情報とタッチパネル静電容量の値と解析結果とのうち二つ以上を組み合わせて、眼を判定しても良い。このように構成しても、第4実施形態と同様の作用効果を奏する。
【0237】
上述した第4実施形態では、変更部22jによる音声認識用のマイクロフォンの変更は、登録の情報を右眼とし、
図18の横位置と縦位置との場合について音声認識用のマイクロフォンを変更する例を示したが、これに限られない。縦位置の場合については、
図18(B)の他に、
図21に示すように三つのパターンが想定される。三つのパターンにつき詳述すると、
図18(B)と同様にグリップ部100が撮像光学系11よりも下側であり、撮影者が左眼でファインダ12を覗いている状態位置のパターンである。更に、グリップ部100が撮像光学系11よりも上側にあり、撮影者が左眼と右眼の一方でファインダ12を覗いている状態位置のパターンである。三つのパターンでは、
図21に示すように、第4実施形態の装置本体10Dの前後方向において撮影者の口と一致または略一致するマイクロフォン14が無い状態である。なお、眼の判定は、上述した登録の情報とタッチパネル静電容量の値と解析結果のうち少なくとも一つにより行う。そして、
図21に示す三つのパターンの場合には、撮影者の口に最も近い、第1マイクロフォン14a~第4マイクロフォン14dのうち少なくとも一つのマイクロフォンを音声認識用に変更すれば良い。このように構成しても、第4実施形態と同様の作用効果を奏する。要するに、変更部22jによる音声認識用のマイクロフォンの変更は、上述したように、タッチパネル静電容量の値等による撮影者の顔の位置、撮影者の口の位置、装置本体の傾き情報、撮影者の眼の接眼状態に関する情報等から変更すれば良い。
【0238】
上述した第4実施形態や一例で示した、変更部22jによる変更処理は、上述した実施形態や一例に適用しても良く、上述した音声認識用マイク変更作用と接話時音声認識用マイク変更作用を奏する。また、上述した第4実施形態では、第1マイクロフォン14a~第4マイクロフォン14dのうち一つのマイクロフォンを音声認識用に変更する例を示したが、これに限らず、複数のマイクロフォンのうち二つ以上のマイクロフォンを音声認識用に変更しても良い。更に、例えば、第1実施形態~第3実施形態において、変更処理により一つのマイクロフォンを音声認識用に変更した(位置づけた)ことに加え、左右のチャンネルを他のマイクロフォンに変更しても(位置づけても)良い。これにより、装置本体10Dの傾きが変更されても、動画用音が再生されたとき、動画の録画時と再生時の音の向きが同一の状態で再生される。
【0239】
上述した第1実施形態とその変形例(1-1,1-2)では、第1マイク群14Aを一つの第1マイクロフォン14aとし、第2マイク群14Bを二つの第2マイクロフォン14bと第3マイクロフォン14cとする例を示したが、これに限られない。例えば、第1マイク群14Aを一つのマイクロフォンとし、第2マイク群14Bを三つのマイクロフォンとしても良い。例えば、第2マイク群14Bの三つのマイクロフォンは同一平面上に配置され、一つのマイクロフォンは残り二つのマイクロフォンを結ぶ一直線上に配置されないものとする。そして、三つのマイクロフォンの配置関係は、三つのマイクロフォンを点と仮定し、当該三つの点を線分で結ぶと三角形を形成可能な位置に配置される。そして、第1マイクロフォン14aは、上下方向(垂直方向)においてその三角形の内側の位置に配置されていれば良い。これにより、第2マイク群14Bは、第1マイク群14Aに入力された、地平線に対して水平方向の音と位相差が生じない位置に配置されることになる。このように構成しても、第1実施形態とその変形例(1-1,1-2)と同様の作用効果を奏する。その他の例として、第1マイク群14Aと第2マイク群14Bとを両方とも一つのマイクロフォンとしても良い。このように構成しても、第1実施形態とその変形例(1-1,1-2)と同様の作用効果を奏する。要するに、位相差無し作用を奏する構成とすれば良い。その他の例として、装置本体10Aに一つのマイクロフォンとしても良い。一つのマイクロフォンは、囁き声の認識を考慮すると、上述した第1実施形態とその変形例(1-1,1-2)の第1マイクロフォン14aの配置のように装置本体10Aの後面の配置が好ましい。一つのマイクロフォンの構成にしても、第1実施形態とその変形例(1-1,1-2)と同様の作用効果を奏するが、位相差無し作用は奏しない。
【0240】
上述した第1実施形態とその変形例(1-1,1-2)では、第2マイク群14Bは、第1マイク群14Aに入力された、地平線に対して水平方向の音と位相差が生じない位置に配置される例を示した。即ち、第1マイク群14Aと第2マイク群14Bは、上下方向(垂直方向)において重なる位置に配置されている例を示したが、これに限られない。要するに、第2マイク群14Bは、第1マイク群14Aに入力された音と位相差が所定値以下となる位置に配置されていれば良い。以下、これに該当する一例を説明する。まず、第1マイク群14Aは、装置本体10Aの前面であって、撮像光学系11よりも下側かつ左側に配置されている。また、第2マイク群14Bは、装置本体10Aの前面であって、撮像光学系11よりも上側、かつ、左右方向において撮像光学系11とグリップ部100との間に配置されている。即ち、第1マイク群14Aと第2マイク群14Bは、装置本体10Aの前面から見たとき(前面視では)、上下方向(垂直方向)において重ならない位置に配置されている。一方、第1マイク群14Aと第2マイク群14Bは、装置本体10Aの左側面または右側面から見たとき(側面視では)、上下方向(垂直方向)において重なる位置に配置されている。言い換えると、第1マイク群14Aと第2マイク群14Bは、撮像光学系11のレンズの光軸に直交する垂直面の位置に配置されている。このように、第1マイク群14Aと第2マイク群14Bを装置本体10Aに配置しても良い。これにより、第1マイク群14Aと第2マイク群14Bに入力された音の方向につき位相差は考慮しなくて良く、第1実施形態と同様に音声抽出処理等が行われれば良い。このように構成しても、第1実施形態とその変形例(1-1,1-2)と同様の作用効果を奏する。
【0241】
上述した第2実施形態では、第2マイク群14Bは、第1マイク群14Aに入力された、地平線に対して水平方向の音と位相差が生じる位置に配置される例を示した。即ち、第1マイク群14Aと第2マイク群14Bは、上下方向(垂直方向)において重ならない位置に配置されている例を示したが、これに限られない。要するに、第2マイク群14Bは、第1マイク群14Aに入力された音と位相差が生じる位置に配置されていれば良い。
【0242】
上述した第1実施形態とその変形例(1-1,1-2)と第2実施形態では、第2マイク群14Bは、第1マイク群14Aに入力された、地平線に対して水平方向の音と「位相差が生じない位置」または「位相差が生じる位置」に配置される例を示したが、これに限れない。上述したように、音の位相差は、地平線に対する水平方向に限らず、上下方向やその他の方向にも生じる。即ち、音の位相差は全方位(三次元)に生じる。このため、各方向に生じる位相差に対して、第2実施形態と同様に位相遅延を与えても良い。これにより、環境音がより打ち消された鮮明な音声デジタル信号と、音声がより打ち消された鮮明な環境音デジタル信号と、が抽出される。従って、撮影者の音声の認識精度や動画用音の抽出精度をより一層向上することができる。
【0243】
例えば、第2実施形態において、上下方向の位相差を考慮する場合について説明する。この場合、上下方向の位相遅延を付加する。撮影者がファインダ12を覗いている(接話の)とき、撮影者の口の位置が固定されるので、位相遅延の量も第1マイク群14Aと第2マイク群14Bの間隔でおおよそ決定される。このため、先に音が到達した第1音デジタル信号と第2音デジタル信号のうち一方に、第1マイク群14Aと第2マイク群14Bの間隔から決定される位相遅延を与える。音声は、第2マイク群14Bよりも先に第1マイク群14Aに到達する。このため、音声抽出部22cと環境音抽出部221は、第1音デジタル信号に上下方向の位相遅延を付加する。撮影者の撮像装置1Bの構え方や撮影者の顔の大きさ等により、撮影者の口の位置が変化することを考慮すると、位相遅延の量を微調整および操作して、音デジタル信号から環境音デジタル信号または音声デジタル信号を削減する量等を指標に微調整しても良い。このとき、撮像装置1Bを使用する撮影者の顔の大きさ等の撮影者情報を登録する等することにより、撮影者情報を参照して量を微調整しても良い。このように、水平方向の位相遅延に加え、上下方向の位相遅延を付加すれば、音声デジタル信号と環境音デジタル信号が鮮明になるので、撮影者の音声の認識精度や動画用音の抽出精度をより一層向上することができる。
【0244】
上述した第1実施形態とその変形例(1-1,1-2)では、音モジュール22が音声認識制御を行う例を示したが、これに限られない。即ち、音声認識制御に加え、動画用音を記憶部21へ記録しても良い。単に、動画用音を記憶部21へ記録しても良いし、第2実施形態や第3実施形態のように動画用音制御により動画用音を抽出しても良い。このように構成しても、第1実施形態とその変形例(1-1,1-2)と同様の作用効果を奏する。
【0245】
上述した第2実施形態では、第1マイク群14Aを一つの第1マイクロフォン14aとし、第2マイク群14Bを三つの第2マイクロフォン14b~第4マイクロフォン14dとする例を示したが、これに限られない。例えば、第1マイク群14Aを一つのマイクロフォンとし、第2マイク群14Bを二つのマイクロフォンとしても良い。第2マイク群14Bを二つのマイクロフォンとする一例として、
図10の第4マイクロフォン14dを削除する。言い換えると、二つのマイクロフォンは、同一平面上に配置され、左右方向において一直線上に配置されている。なお、
図10の第4マイクロフォン14dを削除しても、第2マイク群14Bは、第1マイク群14Aに入力された音と位相差が生じる位置に配置されることになる。第2マイク群14Bが二つのマイクロフォンの場合は、音方向の検出は角度180度になる。このため、第2マイク群14Bが
図10の第2マイクロフォン14bと第3マイクロフォン14cの二つとなると、装置本体10Bの前後方向から入力される音については以下の走査的手法を行う。以下、走査的手法の一例を示す。装置本体10Bの前後方向から入力される音については、その方向が前方向または後方向の二つ方向に絞られる。そして、前方向から入力された音と仮定して位相遅延を与える前方仮定処理と、後方向から入力された音と仮定して位相遅延を与える後方仮定処理と、を行う。即ち、音声抽出部22cは、一方から入力された音であることを仮定して位相遅延を与える処理を行う。そして、音声抽出部22cは、第2実施形態と同様に、各仮定処理に対し、環境音ボリュームの調整等を行い、減算処理を行う。これらの処理により、各仮定処理のうち一方の仮定処理された音については、環境音デジタル信号が抑制された音声デジタル信号が抽出される。また、これらの処理により、各仮定処理のうち他方の仮定処理された音については、環境音デジタル信号が抑制されていない音声デジタル信号が抽出される。この結果から、入力された音が、装置本体10Bの前後方向のどちらの方向から到達したかを、推定(検出)することができる。環境音の抽出についても、同様の走査的手法により環境音を抽出することができる。従って、第2マイク群14Bを二つのマイクロフォンとした場合であっても、音声認識制御と動画用音制御を行うことができる。このように構成しても、第2実施形態と同様の作用効果を奏する。そして、走査的手法により音デジタル信号から音声デジタル信号が抽出され、音声が認識される。同時に、走査的手法により音デジタル信号から環境音デジタル信号が抽出される。従って、走査的手法により音声デジタル信号と環境音デジタル信号とを同時に抽出することもでき、抽出された音声デジタル信号から音声の認識を行うことができる(同時処理作用)。なお、第2マイク群14Bの三つ以上のマイクロフォンが、同一平面上に配置され、前後方向や左右方向において一直線上に配置されている場合も同様である。なお、この場合でも、例えば三つのマイクロフォンのうち二つのマイクロフォンに入力される音から上述した走査的手法のように音方向を検出することできる。要するに、位相差有り作用を奏する構成とすれば良い。
【0246】
上述した第3実施形態では、三つの第2マイクロフォン14b~第4マイクロフォン14dを有する例を示したが、これに限られない。例えば、第2実施形態と同様に、四つの第1マイクロフォン14a~第4マイクロフォン14dを有していても良い。なお、第2マイク群14Bは、第1マイク群14Aに入力された音と位相差が生じる位置に配置されても、第1マイク群14Aに入力された音と位相差が所定値以下となる位置に配置されても良い。このとき、例えば、音声抽出部22cによる囁き声デジタル信号の抽出は、第1実施形態または第2実施形態と同様に行っても良く、上述した位相差有り作用または位相差無し作用を奏する。音声抽出部22cによる通常発声デジタル信号と環境音抽出部221による環境音デジタル信号との抽出は、第3実施形態と同様に行っても良い。また、例えば、二つのマイクロフォンとすることが可能である。二つのマイクロフォンとした場合であっても、上述したように音声認識制御と動画用音制御を行うことができる。なお、三つ以上のマイクロフォンが、同一平面上に配置され、前後方向や左右方向において一直線上に配置されている場合も同様である。
【0247】
上述した第1実施形態~第4実施形態と変形例(1-1,1-2)では、マイクロフォン14の数を三つ~四つとする例を示したが、これに限られない。マイクロフォン14の数は増やしても良い。例えば、
図21に示す三つのパターンのそれぞれにおいて、口に最も近い装置本体10Dの位置にマイクロフォンを追加しても良い。また、第1マイク群14Aの数を複数としても良い。マイクロフォンの数を増やせば増やすほど、撮影者の音声の認識精度や動画用音の抽出精度を向上することができる。更に、マイクロフォンを増やせば増やすほど空間的に周波数のサンプリング精度が上がり、音の方向の検出精度向上および指向性が強く形成できる。
【0248】
上述した実施形態や一例では、マイクロフォン14を各箇所に配置する例を示したが、これに限られない。例えば、第1マイクロフォン14aは、装置本体10A,10B,10Dの後面の中央部に配置されていても良いし、装置本体10A,10B,10Dの前面(例えば撮像光学系11よりも下側)に配置されていても良い。被写体側からの動画用音の抽出や自分の写真を撮影すること(自撮り)を考慮すれば、全てのマイクロフォンを装置本体10A~10Dの前面に配置(例えば撮像光学系11の周囲の位置)することが好ましい。また、変更部22jによる変更処理を有していれば、装置本体10A,10B,10Dにおける第1マイクロフォン14aの位置は限定されない。即ち、変更部22jにより、接話のときにユーザの口に最も近い、装置本体10A,10B,10Dに設けられたマイクロフォン14のうち少なくとも一つのマイクロフォンを音声認識用に変更すれば良い。また、例えば、第2マイクロフォン14bと第3マイクロフォン14cは、装置本体10A~10Dの左右方向において、装置本体10A~10Dの左端と右端に一つずつ配置されていても良いし、ファインダ12の左側面と右側面に一つずつ配置されていても良い(例えば
図2)。また、例えば、第4マイクロフォン14dは、装置本体10B~10Dの後面かつ左端に配置されていても良いし、装置本体10B~10Dの後面かつ上側の左端に配置されていても良いし、ファインダ12の側面に配置されていても良い(
図2参照)。なお、四つのマイクロフォンを有する場合、第4実施形態と同様に三角錐を形成可能な位置に配置されていれば、第4実施形態と同様にアンビソニックスを適用することができる。ここで、複数のマイクロフォンを各箇所に配置して、位相差無し作用、位相差有り作用、平面の指向作用または立体の指向作用を奏するためには、各作用を奏する位置に複数のマイクロフォンを配置すれば各マイクロフォンの位置はどこに配置されていても良い。
【0249】
上述した実施形態や一例では、マイクロフォン14の指向性を無指向性とする例を示したが、これに限られない。例えば、マイクロフォン14の指向性は、特定の方向の音を捉える単一指向性(例えば角度180度)としても良い。要するに、マイクロフォン14の指向性は、取付位置や入力される音や抽出する音に基づいて決定されれば良い。
【0250】
上述した実施形態や一例では、制御用プログラムは記憶部21に格納されている例を示したが、これに限られない。例えば、制御用プログラムは外部の記憶媒体に格納されていても良い。記憶媒体は、DVD(Digital Versatile Disc)、USB(Universal Serial Bus)外部記憶装置、メモリーカード等である。DVD等は、光学ディスクドライブ等を用いて制御ユニット20に接続する。そして、制御用プログラムが格納されているDVD等から、制御用プログラムを制御ユニット20に読み込んで、RAMにて実行しても良い。また、記憶媒体は、インターネット上のサーバ装置としても良い。そして、制御用プログラムが格納されているサーバ装置内から、通信部24を通じて、制御用プログラムを制御ユニット20に読み込んで、RAMにて実行しても良い。
【0251】
上述した実施形態や一例では、囁き声教師データと、囁き声音響モデルと、通常発声教師データと、通常発声音響モデルと、は記憶部21に格納されている例を示したが、これに限られない。なお、以下において、囁き声教師データと、囁き声音響モデルと、通常発声教師データと、通常発声音響モデルと、をまとめて「音響モデル等」と記載する。例えば、音響モデル等は外部の記憶媒体に格納されていても良い。記憶媒体は、DVD(Digital Versatile Disc)、USB(Universal Serial Bus)外部記憶装置、メモリーカード等である。DVD等は、光学ディスクドライブ等を用いて例えば制御ユニット20に接続する。そして、音響モデル等が格納されているDVD等から音響モデル等を読み込んでも良く、変換後の音響モデルをDVD等へ記録しても良い。また、記憶媒体は、インターネット上のサーバ装置としても良い。そして、音響モデル等が格納されているサーバ装置内から、通信部24を通じて、音響モデル等を読み込んでも良い。また、通信部24を通じて、変換後の音響モデルをサーバ装置内へ記録しても良い。更に、音響モデル変換部22fは撮像装置1A~1D内に備えている例を示したが、これに限られない。音響モデル変換部22f(プログラム含む)は、撮像装置1A~1D外としても良く、例えば電子計算機やクラウド(サーバ)が備えていても良い。そして、音響モデル変換処理は電子計算機やクラウド(サーバ)で行えば良い。
【0252】
上述した実施形態や一例では、本発明の音声認識装置、音声処理装置、音声処理方法、音声処理プログラム、および、撮像装置を、撮像装置1A~1Dに適用する例を示したが、これに限られない。例えば、本発明の音声認識装置と音声処理装置および方法と音声処理プログラムを、電子計算機(例えばスマートフォン)等に適用することができる。電子計算機(例えばスマートフォン)等は、マイクロフォン等を備え、少なくとも音声認識部22dとコマンド出力部22eを備える。また、電子計算機(例えばスマートフォン)等は、撮像光学系やファインダを備えていれば、本発明の撮像装置を適用しても良い。なお、上述した実施形態や一例では、装置本体10B,10Cの上面よりも上側にファインダ12を有する撮像装置1A~1Dに、本実施形態の音声認識装置、音声処理装置、音声処理方法、音声処理プログラム、および、撮像装置を適用する例を示したが、これに限られない。例えば、装置本体10Bの上面にファインダ12を有しないレンジファインダ型等の撮像装置に、本実施形態の音声認識装置、音声処理装置、音声処理方法、音声処理プログラム、および、撮像装置を適用しても良い。レンジファインダ型の場合、例えば
図10に示すように三つの第2マイクロフォン14b~第4マイクロフォン14dを装置本体10Bの上面に配置することが可能である。
【0253】
また、本発明の音声処理装置および方法と音声処理プログラムを、外部機器(例えば外部サーバや電子計算機等)に適用することができる。外部機器は、少なくとも音声認識部22dとコマンド出力部22eを備える。例えば、撮像装置1A~1Dは、マイクロフォン14を有し、通信部24により音アナログ信号を外部機器(例えば、外部サーバ)へ送信する。次いで、外部機器では、音モジュール22の音声認識処理(認識処理)やコマンド出力処理(出力処理)等の各処理が行われる。次いで、外部機器は、動作信号を一台以上の撮像装置1A~1Dへ送信する。次いで、撮像装置1A~1Dの例えば各種アクチュエータ等は、通信部24により受信した動作信号により動作する。このように、本実施形態の音声処理装置、音声処理方法、および、音声処理プログラムを、外部機器(例えば外部サーバや電子計算機等)に適用しても、少なくとも囁き声認識作用を奏する。その他の例として、一台の親撮像装置と複数台の子撮像装置により構成される親子撮像装置システムについて説明する。親撮像装置は、本発明の音声認識装置および音声処理装置の少なくとも一つを備える。親撮像装置は、マイクロフォンと音声認識部22dとコマンド出力部22eと通信部24を有する。複数台の子撮像装置のそれぞれは、通信部24を有し、マイクロフォンを有していても有していなくても良い。複数台の子撮像装置のそれぞれは、親撮像装置とは異なる位置に配置されている。そして、親撮像装置は、上記のように撮像装置と外部機器の機能を兼用する。このため、親撮像装置は、通信部24を通じて、動作信号を複数台の子撮像装置へ送信する。親撮像装置の例えば各種アクチュエータ等は、動作信号により動作する。一方、複数台の子撮像装置のそれぞれは親撮像装置からの動作信号を受信して、子撮像装置の例えば各種アクチュエータ等は通信部24により受信した動作信号により動作する。例えば、動作信号が「ピントを調整してから、静止画を撮影する」の場合、親撮像装置と複数台の子撮像装置は、静止画を撮影する撮像装置として機能する。つまり、複数台の子撮像装置を親撮像装置と連携させることができる。このため、親撮像装置と複数台の子撮像装置を一斉に動作させることができる。なお、親撮像装置は、本発明の音声処理装置を備え、複数台の子撮像装置のそれぞれは、通信部24とマイクロフォンを有する。そして、親撮像装置は、通信部24を通じて、子撮像装置から音声が入力されると、音声が認識され、認識結果に従ってコマンド信号を出力しても良い。このため、親撮像装置を介して、複数台の子撮像装置を連携させることができる。
【符号の説明】
【0254】
1A,1B,1C,1D 撮像装置(音声認識装置)
10A,10B,10C,10D 装置本体(本体)
12 ファインダ
13 アイセンサ(接話検出部)
14 マイクロフォン(入力部、音入力部)
14A 第1マイク群(第1入力群、第1音入力群)
14B 第2マイク群(第2入力群、第2音入力群)
14a 第1マイクロフォン(入力部、音入力部)
14b 第2マイクロフォン(入力部、音入力部)
14c 第3マイクロフォン(入力部、音入力部)
14d 第4マイクロフォン(入力部、音入力部)
20 制御ユニット
21 記憶部
22 音モジュール(音声処理装置)
22a 音声モード判定部
22b 音処理部
22c 音声抽出部
22d 音声認識部(認識部)
22e コマンド出力部(出力部)
22f 音響モデル変換部(囁き声音響モデル変換部)
22g 音圧判定部
22h 音入力感度設定部
22i プルーニング閾値判定部
22j 変更部
25 ジャイロセンサ(傾きセンサ)
221 環境音抽出部(動画用音抽出部)