IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特開2022-183849音声処理装置、制御方法、およびプログラム
<>
  • 特開-音声処理装置、制御方法、およびプログラム 図1
  • 特開-音声処理装置、制御方法、およびプログラム 図2
  • 特開-音声処理装置、制御方法、およびプログラム 図3
  • 特開-音声処理装置、制御方法、およびプログラム 図4
  • 特開-音声処理装置、制御方法、およびプログラム 図5
  • 特開-音声処理装置、制御方法、およびプログラム 図6
  • 特開-音声処理装置、制御方法、およびプログラム 図7
  • 特開-音声処理装置、制御方法、およびプログラム 図8
  • 特開-音声処理装置、制御方法、およびプログラム 図9
  • 特開-音声処理装置、制御方法、およびプログラム 図10
  • 特開-音声処理装置、制御方法、およびプログラム 図11
  • 特開-音声処理装置、制御方法、およびプログラム 図12
  • 特開-音声処理装置、制御方法、およびプログラム 図13
  • 特開-音声処理装置、制御方法、およびプログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022183849
(43)【公開日】2022-12-13
(54)【発明の名称】音声処理装置、制御方法、およびプログラム
(51)【国際特許分類】
   G10L 21/0232 20130101AFI20221206BHJP
   G10L 21/0208 20130101ALI20221206BHJP
   G10L 25/21 20130101ALI20221206BHJP
【FI】
G10L21/0232
G10L21/0208 100A
G10L25/21
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2021091350
(22)【出願日】2021-05-31
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100126240
【弁理士】
【氏名又は名称】阿部 琢磨
(74)【代理人】
【識別番号】100124442
【弁理士】
【氏名又は名称】黒岩 創吾
(72)【発明者】
【氏名】橋口 青惟
(57)【要約】
【課題】 効果的にノイズを低減する。
【解決手段】 音声処理装置は、第一のマイクと、第二のマイクと、第一のマイクから入力された音声信号を増幅する第一の増幅手段と、第二のマイクから入力された音声信号を増幅する第二の増幅手段と、第一の増幅手段から入力された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段と、第二の増幅手段から入力された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段と、第二の音声信号と、ノイズ源のノイズに係るパラメータとを用いてノイズデータを生成する生成手段と、第二の音声信号に基づき、第一の音声信号からノイズを低減する低減手段とを有第二の増幅手段は、ノイズ源の種類またはノイズ源からのノイズに基づいて、第二のマイクから入力された音声信号に対する増幅量を変更する。
【選択図】 図3
【特許請求の範囲】
【請求項1】
環境音を取得するための第一のマイクと、
ノイズ源からの音を取得するための第二のマイクと、
前記第一のマイクから入力された音声信号を増幅する第一の増幅手段と、
前記第二のマイクから入力された音声信号を増幅する第二の増幅手段と、
前記第一の増幅手段から入力された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段と、
前記第二の増幅手段から入力された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段と、
前記第二の音声信号と、前記ノイズ源のノイズに係るパラメータとを用いてノイズデータを生成する生成手段と、
前記第二の音声信号に基づき、前記第一の音声信号からノイズを低減する低減手段と、を有し、
前記第二の増幅手段は、前記ノイズ源の種類または前記ノイズ源からのノイズに基づいて、前記第二のマイクから入力された音声信号に対する増幅量を変更する
ことを特徴とする音声処理装置。
【請求項2】
前記第二の増幅手段は、前記ノイズ源からのノイズのレベルが所定の値以上である場合、前記増幅量を変更することを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記第二の増幅手段は、前記増幅量を所定の値以下となるように変更することを特徴とする請求項1または2に記載の音声処理装置。
【請求項4】
前記第二の増幅手段は、前記所定の値が前記ノイズ源に応じた値に設定された場合、前記ノイズ源からのノイズのレベルが所定の値以上である場合には、前記増幅量を前記ノイズ源に応じた値以下に設定することを特徴とする請求項3に記載の音声処理装置。
【請求項5】
前記第二の増幅手段は、前記第一のマイクから入力された音声信号のレベルが所定の閾値以下である場合、前記増幅量を変更することを特徴とする請求項1から4のいずれか1項に記載の音声処理装置。
【請求項6】
前記第一の増幅手段は、前記ノイズ源または前記ノイズ源からのノイズにかかわらず、前記第一のマイクから入力された音声信号を、所定量、増幅することを特徴とする請求項1から5のいずれか1項に記載の音声処理装置。
【請求項7】
前記ノイズ源は、光学レンズに含まれる駆動部材であり、
前記光学レンズを介して被写体を撮像する撮像手段をさらに有することを特徴とする請求項1から6のいずれか1項に記載の音声処理装置。
【請求項8】
前記第二の増幅手段は、前記光学レンズの種類に応じて、前記増幅量を変更することを特徴とする請求項7に記載の音声処理装置。
【請求項9】
前記ノイズ源のノイズが発生しているか否かに応じて、前記生成手段によって生成されるノイズデータを異ならせるように切り替える切替手段をさらに有することを特徴とする請求項1から8のいずれか1項に記載の音声処理装置。
【請求項10】
前記低減手段は、恒常的なノイズを低減するための第一の低減手段と、恒常的なノイズ以外のノイズを低減するための第二の低減手段とを有することを特徴とする請求項1から9のいずれか1項に記載の音声処理装置。
【請求項11】
前記生成手段は、前記第一の低減手段に用いられるノイズパラメータを生成する第一の生成手段と、前記第二の低減手段に用いられるノイズパラメータを生成する第二の生成手段とを有することを特徴とする請求項10に記載の音声処理装置。
【請求項12】
前記生成手段は、前記第一の低減手段に用いられるノイズパラメータを生成し、前記第二の低減手段に用いられるノイズパラメータは、記録手段にあらかじめ記録されたノイズパラメータであることを特徴とする請求項10に記載の音声処理装置。
【請求項13】
前記生成手段は、第一の種類のノイズに対応した第一のパラメータと、第二の種類のノイズに対応した第二のパラメータとを含む、複数の前記パラメータの少なくとも何れかと前記第二の音声信号とを用いて、前記ノイズデータを生成することを特徴とする請求項1から12のいずれか1項に記載の音声処理装置。
【請求項14】
前記生成手段は、前記第二の増幅手段の増幅量に応じて、前記ノイズパラメータを補正することを特徴とする請求項1から13のいずれか1項に記載の音声処理装置。
【請求項15】
第二の増幅手段における増幅量の最大値は、第一の増幅手段における増幅量であることを特徴とする請求項1から14のいずれか1項に記載の音声処理装置。
【請求項16】
前記音声処理装置において、前記第一のマイクの上方に環境音を入力するための穴が形成され、前記第二のマイクの上方には環境音を入力するための穴が形成されない
ことを特徴とする請求項1から15のいずれか1項に記載の音声処理装置。
【請求項17】
前記第一のマイクが2つある場合、前記第二のマイクは2つある前記第一のマイクのそれぞれの間に配置されることを特徴とする請求項1から16のいずれか1項に記載の音声処理装置。
【請求項18】
前記低減手段からの音声信号を逆フーリエ変換する第三の変換手段と、
前記第三の変換手段から出力された音声信号を記録する記録手段とをさらに有することを特徴とする請求項1から17のいずれか1項に記載の音声処理装置。
【請求項19】
環境音を取得するための第一のマイクと、
ノイズ源からの音を取得するための第二のマイクと、を有する音声処理装置の制御方法であって、
前記第一のマイクから入力された音声信号を増幅する第一の増幅ステップと、
前記第二のマイクから入力された音声信号を増幅する第二の増幅ステップと、
前記第一の増幅ステップにおいて増幅された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段と、
前記第二の増幅ステップにおいて増幅された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段と、
前記第二の音声信号と、前記ノイズ源のノイズに係るパラメータとを用いてノイズデータを生成する生成ステップと、
前記第二の音声信号に基づき、前記第一の音声信号からノイズを低減する低減ステップと、を有し、
前記第二の増幅ステップでは、前記ノイズ源の種類または前記ノイズ源からのノイズに基づいて、前記第二のマイクから入力された音声信号に対する増幅量を変更する
ことを特徴とする制御方法。
【請求項20】
コンピュータを請求項1から18のいずれか1項に記載の音声処理装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声データに含まれるノイズを低減可能な音声処理装置に関する。
【背景技術】
【0002】
音声処理装置の一例であるデジタルカメラは、動画データを記録する場合、周囲の音声も併せて記録することができる。また、デジタルカメラは、光学レンズを駆動することで、動画データの記録中に被写体に対してフォーカスを合わせるオートフォーカス機能を持つ。また、デジタルカメラは、動画の記録中に光学レンズを駆動することで、ズームを行う機能を持つ。
【0003】
このように、動画の記録中に光学レンズを駆動すると、動画とともに記録される音声に光学レンズの駆動音がノイズとして含まれることがある。以下、ノイズとして記録される光学レンズの駆動音を駆動ノイズという。これに対し、デジタルカメラは、駆動ノイズを収音した場合、駆動ノイズを低減して周囲の音声を記録することができる。特許文献1では、音量設定値に応じてアナログゲインのゲイン量を変更することで、音声の歪みや音割れを軽減することが開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2010-141571号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、例えば、レンズ交換式のデジタルカメラでは、装着される光学レンズによって駆動ノイズの大きさが異なる。また、例えば、レンズ駆動中においても、駆動ノイズが大きい期間と駆動ノイズが小さい区間とがある。このようなノイズに対して、一様に増幅処理を行うと、例えば、音声処理を行う際に音声信号の歪みが発生してしまうおそれや、量子化ノイズが発生してしまうおそれなど、音声信号の品質が低下してしまうおそれがある。
【0006】
そこで、本発明では、入力されるノイズに対する増幅処理を適切に制御することを目的とする。
【課題を解決するための手段】
【0007】
本発明の音声処理装置は、環境音を取得するための第一のマイクと、ノイズ源からの音を取得するための第二のマイクと、前記第一のマイクから入力された音声信号を増幅する第一の増幅手段と、前記第二のマイクから入力された音声信号を増幅する第二の増幅手段と、前記第一の増幅手段から入力された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段と、前記第二の増幅手段から入力された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段と、前記第二の音声信号と、前記ノイズ源のノイズに係るパラメータとを用いてノイズデータを生成する生成手段と、前記第二の音声信号に基づき、前記第一の音声信号からノイズを低減する低減手段と、を有し、前記第二の増幅手段は、前記ノイズ源の種類または前記ノイズ源からのノイズに基づいて、前記第二のマイクから入力された音声信号に対する増幅量を変更することを特徴とする。
【発明の効果】
【0008】
本発明の音声処理装置は、入力されるノイズに対する増幅処理を適切に制御することができる。
【図面の簡単な説明】
【0009】
図1】第一の実施例における撮像装置100の斜視図である。
図2】第一の実施例における撮像装置100の構成を示すブロック図である。
図3】第一の実施例における撮像装置100の音声入力部104の構成を示すブロック図である。
図4】第一の実施例における撮像装置100の音声入力部104におけるマイクの配置を示す図である。
図5】第一の実施例における増幅部202を説明するためのブロック図である。
図6】第一の実施例におけるレベル検出部204を用いて増幅量を変更した場合の制御を示すフローチャートである。
図7】第一の実施例におけるレンズ制御部102を用いて増幅量を変更した場合の制御を示すフローチャートである。
図8】第一の実施例におけるレベル検出部204およびレンズ制御部102を用いて増幅量を変更した場合の制御を示すフローチャートである。
図9】第一の実施例におけるノイズパラメータを示す図である。
図10】第一の実施例における、環境音がないと見なせる状況において駆動音が発生した場合における音声の周波数スペクトル、および、ノイズパラメータの周波数スペクトルを示す図である。
図11】第一の実施例における、環境音がある状況において駆動音が発生した場合における音声の周波数スペクトルを示す図である。
図12】第一の実施例における、ノイズデータ生成部206におけるノイズデータの生成処理方法を示すブロック図である。
図13】第一の実施例における、ノイズマイク201cにて収音された音声信号が、量子化ノイズの影響を受けた場合のノイズデータ生成部206におけるノイズデータの生成処理方法を示すブロック図である。
図14】第一の実施例における、ノイズマイク201cにて収音された音声信号が、量子化ノイズの影響を受けた場合における音声の周波数スペクトルを示す図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して本発明の実施例を詳細に説明する。
【0011】
[第一の実施例]
<撮像装置100の外観図>
図1(a)、(b)に本発明を適用可能な音声処理装置の一例としての撮像装置100の外観図の一例を示す。図1(a)は撮像装置100の前面斜視図の一例である。図1(b)は撮像装置100の背面斜視図の一例である。図1において、レンズマウント301には不図示の光学レンズが装着される。
【0012】
表示部107は画像データおよび文字情報等を表示する。表示部107は撮像装置100の背面に設けられる。ファインダー外表示部43は、撮像装置100の上面に設けられた表示部である。ファインダー外表示部43は、シャッター速度、絞り値等の撮像装置100の設定値を表示する。接眼ファインダー16は覗き込み型のファインダーである。ユーザは接眼ファインダー16内のフォーカシングスクリーンを観察することで、被写体の光学像の焦点および構図を確認することができる。
【0013】
レリーズスイッチ61はユーザが撮影指示を行うための操作部材である。モード切替スイッチ60はユーザが各種モードを切り替えるための操作部材である。メイン電子ダイヤル71は回転操作部材である。ユーザはこのメイン電子ダイヤル71を回すことで、シャッター速度、絞り値等の撮像装置100の設定値を変更することができる。レリーズスイッチ61、モード切替スイッチ60、メイン電子ダイヤル71は、操作部112に含まれる。
【0014】
電源スイッチ72は撮像装置100の電源のオンおよびオフを切り替える操作部材である。サブ電子ダイヤル73は回転操作部材である。ユーザは、サブ電子ダイヤル73によって表示部107に表示された選択枠の移動および再生モードにおける画像送りなどを行える。十字キー74は上、下、左、右部分をそれぞれ押し込み可能な十字キー(4方向キー)である。撮像装置100は十字キー74の押された部分(方向)に応じた処理を実行する。電源スイッチ72、サブ電子ダイヤル73、十字キー74は操作部112に含まれる。
【0015】
SETボタン75は押しボタンである。SETボタン75は、主に、ユーザが表示部107に表示された選択項目を決定するためなどに用いられる。LVボタン76はライブビュー(以下、LV)のオンおよびオフを切り替えるために使用されるボタンである。LVボタン76は、動画記録モードにおいては、動画撮影(記録)の開始および停止の指示に用いられる。拡大ボタン77は撮影モードのライブビュー表示において拡大モードのオンおよびオフ、並びに、拡大モード中の拡大率の変更を行うための押しボタンである。SETボタン75、LVボタン76、拡大ボタン77は操作部112に含まれる。
【0016】
拡大ボタン77は、再生モードにおいては表示部107に表示された画像データの拡大率を増加させるためのボタンとして機能する。縮小ボタン78は、表示部107において拡大表示された画像データの拡大率を低減させるためのボタンである。再生ボタン79は、撮影モードと再生モードとを切り替える操作ボタンである。撮像装置100は撮影モード中にユーザが再生ボタン79を押すと、撮像装置100が再生モードに移行し、記録媒体110に記録された画像データを表示部107に表示する。縮小ボタン78、再生ボタン79は、操作部112に含まれる。
【0017】
クイックリターンミラー12(以下、ミラー12)は、撮像装置100に装着された光学レンズから入射した光束を接眼ファインダー16側または撮像部101側のどちらかに入射するよう切り替えるためのミラーである。ミラー12は、露光、ライブビュー撮影、および動画撮影の際に、制御部111によって不図示のアクチュエータを制御されることによりアップダウンされる。ミラー12は通常時は接眼ファインダー16へと光束を入射させるように配されている。ミラー12は、撮影が行われる場合およびライブビュー表示の場合には、撮像部101に光束が入射するように上方に跳ね上がる(ミラーアップ)。またミラー12はその中央部がハーフミラーとなっている。ミラー12の中央部を透過した光束の一部は、焦点検出を行うための焦点検出部(不図示)に入射する。
【0018】
通信端子10は、撮像装置100に装着された光学レンズ300と撮像装置100とが通信を行う為の通信端子である。端子カバー40は外部機器との接続ケーブルと撮像装置100とを接続する接続ケーブル等のコネクタ(不図示)を保護するカバーである。蓋41は記録媒体110を格納したスロットの蓋である。レンズマウント301は不図示の光学レンズ300を取り付けることができる取り付け部である。
【0019】
Lマイク201aおよびRマイク201bはユーザの音声等を収音するためのマイクである。撮像装置100の背面から見て、左側にLマイク201aが、右側にRマイク201bが配置される。
【0020】
<撮像装置100の構成>
図2は本実施例における撮像装置100の構成の一例を示すブロック図である。
【0021】
光学レンズ300は、撮像装置100に着脱可能なレンズユニットである。例えば光学レンズ300はズームレンズまたはバリフォーカルレンズである。光学レンズ300は光学レンズ、光学レンズを駆動させるためのモータ、および後述する撮像装置100のレンズ制御部102と通信する通信部を有する。光学レンズ300は、通信部によって受信した制御信号に基づいて、光学レンズをモータによって移動させることで、被写体に対するフォーカスおよびズーミング、並びに、手ブレの補正ができる。
【0022】
撮像部101は、光学レンズ300を経て撮像面に結像された被写体の光学像を電気信号に変換するための撮像素子、および撮像素子で生成された電気信号から画像データまたは動画データを生成して出力する画像処理部とを有する。撮像素子は、例えばCCD(Charge Coupled Device)、およびCMOS(Complementary Metal Oxide Semiconductor)である。本実施例では、撮像部101において静止画像データや動画データを含む画像データを生成して撮像部101から出力する一連の処理を「撮影」という。撮像装置100では、画像データは、DCF(Design rule for Camera File system)規格に従って、後述する記録媒体110に記録される。
【0023】
レンズ制御部102は撮像部101から出力されたデータ、および後述する制御部111から出力された制御信号に基づいて、通信端子10を介して光学レンズ300に制御信号を送信し、光学レンズ300を制御する。
【0024】
情報取得部103は、撮像装置100の傾きおよび撮像装置100の筐体内の温度などを検出する。例えば情報取得部103は撮像装置100の傾きを加速度センサまたはジャイロセンサによって検出する。また、例えば情報取得部103は撮像装置100の筐体内の温度を温度センサによって検出する。
【0025】
音声入力部104は、マイクによって取得された音声から音声データを生成する。音声入力部104は、マイクによって撮像装置100の周辺の音声を取得し、取得された音声に対してアナログデジタル変換(A/D変換)、各種の音声処理を行い、音声データを生成する。本実施例では、音声入力部104はマイクを有する。音声入力部104の詳細な構成例については後述する。
【0026】
揮発性メモリ105は、撮像部101において生成された画像データ、並びに音声入力部104によって生成された音声データを一時的に記録する。また、揮発性メモリ105は、表示部107に表示される画像データの一時的な記録領域、および制御部111の作業領域等としても使用される。
【0027】
表示制御部106は、撮像部101から出力された画像データ、対話的な操作のための文字並びに、メニュー画面等を表示部107に表示するよう制御する。また、表示制御部106は静止画撮影および動画撮影の際、撮像部101から出力されたデジタルデータを逐次表示部107に表示するよう制御することで、表示部107を電子ビューファインダとして機能させることができる。例えば表示部107は、液晶ディスプレイまたは有機ELディスプレイである。また、表示制御部106は、撮像部101から出力された画像データおよび動画データ、対話的な操作のための文字、並びにメニュー画面等を、後述する外部出力部115を介して外部のディスプレイに表示させるよう制御することもできる。
【0028】
符号化処理部108は、揮発性メモリ105に一時的に記録された画像データおよび音声データをそれぞれ符号化することができる。例えば、符号化処理部108は、画像データをJPEG規格またはRAW画像フォーマットに従って符号化およびデータ圧縮された動画データを生成することができる。例えば、符号化処理部108は、動画データをMPEG2規格またはH.264/MPEG4-AVC規格に従って符号化およびデータ圧縮された動画データを生成することができる。また例えば、符号化処理部108は、音声データをAC3AAC規格、ATRAC規格、またはADPCM方式に従って符号化およびデータ圧縮された音声データを生成することができる。また、符号化処理部108は、例えばリニアPCM方式に従って音声データをデータ圧縮しないように符号化してもよい。
【0029】
記録制御部109は、データを記録媒体110に記録すること、および記録媒体110から読み出すことができる。例えば、記録制御部109は、符号化処理部108によって生成された静止画像データ、動画データ、および音声データを記録媒体110に記録すること、および記録媒体110から読み出すことができる。記録媒体110は例えばSDカード、CFカード、XQDメモリーカード、HDD(磁気ディスク)、光学式ディスク、および半導体メモリである。記録媒体110は、撮像装置100に着脱可能なように構成してもよいし、撮像装置100に内蔵されていてもよい。すなわち、記録制御部109は少なくとも記録媒体110にアクセスする手段を有していればよい。
【0030】
制御部111は、入力された信号、および後述のプログラムに従ってデータバス116を介して撮像装置100の各構成要素を制御する。制御部111は、各種制御を実行するためのCPU、ROM、およびRAMを有する。なお、制御部111が撮像装置100全体を制御する代わりに、複数のハードウェアが分担して撮像装置全体を制御してもよい。制御部111が有するROMには、各構成要素を制御するためのプログラムが格納されている。また制御部111が有するRAMは演算処理等に利用される揮発性メモリである。
【0031】
操作部112は、撮像装置100に対する指示をユーザから受け付けるためのユーザインタフェースである。操作部112は、例えば撮像装置100の電源をオン状態またはオフ状態にするための電源スイッチ72、撮影を指示するためのレリーズスイッチ61、画像データまたは動画データの再生を指示するための再生ボタン、およびモード切替スイッチ60等を有する。
【0032】
操作部112はユーザの操作に応じて、制御信号を制御部111に出力する。また、表示部107に形成されるタッチパネルも操作部112に含めることができる。なお、レリーズスイッチ61は、SW1およびSW2を有する。レリーズスイッチ61が、いわゆる半押し状態となることにより、SW1がオンとなる。これにより、AF(オートフォーカス)処理、AE(自動露出)処理、AWB(オートホワイトバランス)処理、EF(フラッシュプリ発光)処理等の撮像の準備動作を行うための準備指示を受け付ける。また、レリーズスイッチ61が、いわゆる全押し状態となることにより、SW2がオンとなる。このようなユーザ操作により、撮像動作を行うための撮像指示を受け付ける。また、操作部112は後述するスピーカ114から再生される音声データの音量を調整することができる操作部材(例えばボタン)を含む。
【0033】
音声出力部113は、音声データをスピーカ114、および外部出力部115に出力することができる。音声出力部113に入力される音声データは、記録制御部109により記録媒体110から読み出された音声データ、不揮発性メモリ117から出力される音声データ、および符号化処理部から出力される音声データである。スピーカ114は、音声データを再生することができる電気音響変換器である。
【0034】
外部出力部115は、画像データ、動画データ、および音声データなどを外部機器に出力することができる。外部出力部115は、例えば映像端子、マイク端子、およびヘッドホン端子等で構成される。
【0035】
データバス116は、音声データ、動画データ、および画像データ等の各種データ、各種制御信号を撮像装置100の各ブロックへ伝達するためのデータバスである。
【0036】
不揮発性メモリ117は不揮発性メモリであり、制御部111で実行される後述のプログラム等が格納される。また、不揮発性メモリ117には、音声データが記録されている。この音声データは例えば、被写体に合焦した場合に出力される合焦音、撮影を指示された場合に出力される電子シャッター音、撮像装置100を操作された場合に出力される操作音等の電子音の音声データである。
【0037】
<撮像装置100の動作>
これから、本実施例の撮像装置100の動作について説明する。
【0038】
本実施例の撮像装置100は、ユーザが電源スイッチ72を操作して電源をオンされたことに応じて、不図示の電源から、撮像装置の各構成要素に電力を供給する。例えば電源はリチウムイオン電池またはアルカリマンガン乾電池等の電池である。
【0039】
制御部111は、電力が供給されたことに応じてモード切替スイッチ60の状態に基づいて、例えば、撮影モードおよび再生モードのどのモードで動作するかを判断する。動画記録モードでは、制御部111は撮像部101から出力された動画データと音声入力部104から出力された音声データとを1つの音声付き動画データとして記録する。再生モードでは、制御部111は記録媒体110に記録された画像データまたは動画データを記録制御部109によって読み出し、表示部107に表示するよう制御する。
【0040】
まず、動画記録モードについて説明する。動画記録モードでは、まず制御部111は、撮像装置100を撮影待機状態に移行させるように制御信号を撮像装置100の各構成要素に送信する。例えば、制御部111は、撮像部101および音声入力部104に以下のような動作をさせるよう制御する。
【0041】
撮像部101は、光学レンズ300を経て撮像面に結像された被写体の光学像を電気信号に変換し、撮像素子で生成された電気信号から動画データを生成する。そして、撮像部101は動画データを表示制御部106に送信し、表示部107によって表示する。ユーザは表示部107に表示された動画データを見ながら撮影の準備を行うことができる。
【0042】
音声入力部104は、複数のマイクから入力されたアナログ音声信号をそれぞれA/D変換し、複数のデジタル音声信号を生成する。そして音声入力部104はその複数のデジタル音声信号から複数のチャンネルの音声データを生成する。音声入力部104は生成された音声データを音声出力部113に送信し、スピーカ114から音声データを再生させる。ユーザは、スピーカ114から再生された音声データを聞きながら、音声付き動画データに記録される音声データの音量を操作部112によって調整することができる。
【0043】
次に、ユーザによってLVボタン76が押下されたことに応じて、制御部111は、撮像装置100の各構成要素に撮影開始の指示信号を送信する。例えば、制御部111は、撮像部101、音声入力部104、符号化処理部108、および記録制御部109に以下のような動作をさせるよう制御する。
【0044】
撮像部101は、光学レンズ300を経て撮像面に結像された被写体の光学像を電気信号に変換し、撮像素子で生成された電気信号から動画データを生成する。そして、撮像部101は動画データを表示制御部106に送信し、表示部107によって表示する。また、また撮像部101は生成された動画データを揮発性メモリ105へ送信する。
【0045】
音声入力部104は、複数のマイクから入力されたアナログ音声信号をそれぞれA/D変換し、複数のデジタル音声信号を生成する。そして音声入力部104はその複数のデジタル音声信号からマルチチャンネルの音声データを生成する。そして、音声入力部104は生成された音声データを揮発性メモリ105へ送信する。
【0046】
符号化処理部108は、揮発性メモリ105に一時的に記録された動画データおよび音声データを読み出してそれぞれ符号化する。制御部111は、制御部111によって符号化された動画データおよび音声データからデータストリームを生成し、記録制御部109に出力する。記録制御部109は、UDFまたはFAT等のファイルシステムに従って、入力されたデータストリームを音声付き動画データとして記録媒体110に記録していく。
【0047】
撮像装置100の各構成要素は以上の動作を動画撮影中において継続する。
【0048】
そして、ユーザからLVボタン76が押下されたことに応じて、制御部111は、撮像装置100の各構成要素に撮影終了の指示信号を送信する。例えば、制御部111は撮像部101、音声入力部104、符号化処理部108、および記録制御部109に以下のような動作をさせるよう制御する。
【0049】
撮像部101は、動画データの生成を停止する。音声入力部104は、音声データの生成を停止する。
【0050】
符号化処理部108は、揮発性メモリ105に記録されている残りの動画データおよび音声データを読み出して符号化する。制御部111は、符号化処理部108によって符号化された動画データおよび音声データからデータストリームを生成し、記録制御部109に出力する。
【0051】
記録制御部109は、UDFまたはFAT等のファイルシステムに従って、データストリームを音声付き動画データのファイルとして記録媒体110に記録していく。そして、記録制御部109は、データストリームの入力が停止したことに応じて、音声付き動画データを完成させる。音声付き動画データの完成をもって、撮像装置100の記録動作は停止する。
【0052】
制御部111は、記録動作が停止したことに応じて、撮影待機状態に移行させるように制御信号を撮像装置100の各構成要素に送信する。これにより、制御部111は撮像装置100を撮影待機状態に戻るよう制御する。
【0053】
次に、再生モードについて説明する。再生モードでは、制御部111は、再生状態に移行させるように制御信号を撮像装置100の各構成要素に送信する。例えば、制御部111は符号化処理部108、記録制御部109、表示制御部106、および音声出力部113に以下のような動作をさせるよう制御する。
【0054】
記録制御部109は、記録媒体110に記録された音声付き動画データを読み出して読みだした音声付き動画データを符号化処理部108に送信する。
【0055】
符号化処理部108は、音声付き動画データから画像データ、および音声データを復号化する。符号化処理部108は、復号化された動画データを表示制御部106へ、復号化された音声データを音声出力部113へ、それぞれ送信する。
【0056】
表示制御部106は、復号化された画像データを表示部107によって表示する。音声出力部113は、復号化された音声データをスピーカ114によって再生する。
【0057】
以上のように、本実施例の撮像装置100は画像データ、および音声データを記録および再生することができる。
【0058】
本実施例では、音声入力部104は、マイクから入力された音声信号のレベルの調整処理等の音声処理を実行する。本実施例では、音声入力部104は動画記録が開始されたことに応じてこの音声処理を実行する。なお、この音声処理は、撮像装置100の電源がオンにされてから実行されてもよい。また、この音声処理は、撮影モードが選択されたことに応じて実行されてもよい。また、この音声処理は、動画記録モードおよび音声メモ機能等の音声の記録に関連するモードが選択されたことに応じて実行されてもよい。また、この音声処理は、音声信号の記録が開始したことに応じて実行されてもよい。
【0059】
<音声入力部104の構成>
図3は本実施例における音声入力部104の詳細な構成の一例を示すブロック図である。
【0060】
本実施例において、音声入力部104は、Lマイク201a、Rマイク201b、およびノイズマイク201cの3つのマイクを有する。Lマイク201aおよびRマイク201bはそれぞれ第一のマイクの一例である。本実施例では、撮像装置100は環境音をLマイク201aおよびRマイク201bによって収音し、Lマイク201aおよびRマイク201bから入力された音声信号をステレオ方式で記録する。例えば環境音は、ユーザの音声、動物の鳴き声、雨音、および楽曲等の撮像装置100の筐体外および光学レンズ300の筐体外において発生する音である。
【0061】
また、ノイズマイク201cは第2のマイクの一例である。ノイズマイク201cは、撮像装置100の筐体内、および光学レンズ300の筐体内で発生する、所定の騒音源(ノイズ源)からの駆動音等の騒音(ノイズ)を取得するためのマイクである。ノイズ源は例えば、超音波モータ(Ultrasonic Motor、以下USM)およびステッピングモータ(Stepper Motor、以下STM)などのモータに代表される駆動部材である。騒音(ノイズ)は例えば、USMおよびSTM等のモータの駆動によって発生する振動音である。例えば、モータは被写体に合焦するためのAF処理において駆動する。撮像装置100は撮像装置100の筐体内、および光学レンズ300の筐体内で発生する駆動音等の騒音(ノイズ)をノイズマイク201cによって取得し、取得したノイズの音声データを用いて、後述するノイズパラメータを生成する。なお、本実施例では、Lマイク201a、Rマイク201b、およびノイズマイク201cは無指向性のマイクである。本実施例における、Lマイク201a、Rマイク201b、およびノイズマイク201cの配置例は図4を用いて後述する。
【0062】
Lマイク201a、Rマイク201b、およびノイズマイク201cは、それぞれ取得した音声からアナログ音声信号を生成し、増幅部202に入力する。ここで、Lマイク201aから入力される音声信号をLch、Rマイク201bから入力される音声信号をRch、およびノイズマイク201cから入力される音声信号をNchと記載する。
【0063】
増幅部202は、Lマイク201a、Rマイク201b、およびノイズマイク201cから入力されたアナログ音声信号の振幅を増幅させる。本実施例では、Lマイク201a、Rマイク201b、およびノイズマイク201cから入力されたアナログ音声信号に対するゲイン(以下、増幅量A)は固定値(所定量)である。また、ノイズマイク201cから入力されたアナログ音声信号に対するゲイン(以下、増幅量B)は、レベル検出部204またはレンズ制御部102からの信号に応じて、適宜変更される。ノイズマイク201cから入力されたアナログ音声信号に対するゲインの変更方法についての詳細は、図5~8を用いて後述する。
【0064】
A/D変換部203は、増幅部202で増幅されたアナログ音声信号をデジタル音声信号に変換する。A/D変換部203は変換されたデジタル音声信号をFFT部205に出力する。本実施例においてA/D変換部203はサンプリング周波数を48kHz、およびビット深度を16bitとして標本化処理を実行することで、アナログ音声信号をデジタル音声信号に変換する。
【0065】
FFT部205は、A/D変換部203から入力された時間領域のデジタル音声信号に高速フーリエ変換処理を施し、周波数領域のデジタル音声信号に変換する。本実施例において、周波数領域のデジタル音声信号は、0Hzから48kHzまでの周波数帯域において、1024ポイントの周波数スペクトルを有する。また、周波数領域のデジタル音声信号は、0Hzからナイキスト周波数である24kHzまでの周波数帯域においては、513ポイントの周波数スペクトルを有する。本実施例では、撮像装置100は、FFT部205から出力された音声データのうち、0Hzから24kHzまでの513ポイントの周波数スペクトルを利用して、ノイズ低減の処理を行う。
【0066】
ここで、高速フーリエ変換されたLchの周波数スペクトルを、Lch_Before[0]~Lch_Before[512]の513ポイントの配列データで表す。これらの配列データを総称する場合、Lch_Beforeと記載する。また、高速フーリエ変換されたRchの周波数スペクトルを、Rch_Before[0]~Rch_Before[512]の513ポイントの配列データで表す。これらの配列データを総称する場合、Rch_Beforeと記載する。なお、Lch_Beforeおよび、Rch_Beforeはそれぞれ第1の周波数スペクトルデータの一例である。
【0067】
また、高速フーリエ変換されたNchの周波数スペクトルを、Nch_Before[0]~Nch_Before[512]の513ポイントの配列データで表す。これらの配列データを総称する場合、Nch_Beforeと記載する。なお、Nch_Beforeは第2の周波数スペクトルデータの一例である。
【0068】
ノイズデータ生成部206は、Nch_Beforeに基づいて、Lch_BeforeおよびRch_Beforeに含まれるノイズを低減するためのデータを生成する。本実施例では、ノイズデータ生成部206は、Lch_Before[0]~Lch_Before[512]に含まれるノイズをそれぞれ低減するためのNL[0]~NL[512]の配列データをノイズパラメータを用いて生成する。また、ノイズデータ生成部206は、Rch_Before[0]~Rch_Before[512]に含まれるノイズをそれぞれ低減するためのNR[0]~NR[512]の配列データを生成する。NL[0]~NL[512]の配列データにおける周波数のポイントは、Lch_Before[0]~Lch_Before[512]の配列データにおける周波数のポイントと同じである。また、NR[0]~NR[512]の配列データにおける周波数のポイントは、Rch_Before[0]~Rch_Before[512]の配列データにおける周波数のポイントと同じである。
【0069】
なお、NL[0]~NL[512]の配列データを総称する場合、NLと記載する。また、NR[0]~NR[512]を総称する場合、NRと記載する。NLおよびNRはそれぞれ第3の周波数スペクトルデータの一例である。
【0070】
また、ノイズデータ生成部206は、増幅量Aと増幅量Bとが異なる場合、増幅量Aと増幅量Bに基づいて、ノイズデータ生成部206で生成されたノイズパラメータを補正する。本実施形態では、ノイズデータ生成部206は、増幅量Aと増幅量Bとの差分から、ノイズデータ生成部206で生成されたノイズパラメータを補正する。
【0071】
ノイズパラメータ記録部207には、ノイズデータ生成部206がNch_BeforeからをNLおよびNRを生成するためのノイズパラメータが記録されている。ノイズパラメータ記録部207はノイズの種類に応じた複数種類のノイズパラメータを記録している。Nch_BeforeからNLを生成するためのノイズパラメータを総称する場合、PLxと記載する。Nch_BeforeからNRを生成するためのノイズパラメータを総称する場合、PRxと記載する。
【0072】
PLxおよびPRxはそれぞれNLおよびNRと同じ配列数を有する。例えば、PL1は、PL1[0]~PL1[512]の配列データである。また、PL1の周波数ポイントは、Lch_Beforeの周波数ポイントと同じである。また例えばPR1は、PR1[0]~PR1[512]の配列データである。PR1の周波数ポイントは、Rch_Beforeと同じ周波数ポイントである。ノイズパラメータは図5を用いて後述する。
【0073】
ノイズマイク201cは、ノイズパラメータ記録部207に記録されているノイズパラメータから、ノイズデータ生成部206において使用されるノイズパラメータを決定する。なお、本実施例では、ノイズパラメータ記録部207には、ノイズパラメータとして513ポイントの周波数スペクトルそれぞれに対する係数がすべて記録されている。しかし、513ポイントの全ての周波数に対する係数ではなく、少なくともノイズを低減するために必要な周波数ポイントの係数が記録されていればよい。例えば、ノイズパラメータ記録部207は、ノイズパラメータとして、典型的な可聴周波数と考えられている20Hz~20kHzの周波数スペクトルそれぞれに対する係数を記録し、他の周波数スペクトルの係数を記録しなくてもよい。また例えば、ノイズパラメータとして、係数の値がゼロである周波数スペクトルに対する係数はノイズパラメータ記録部207に記録されていなくてもよい。
【0074】
減算処理部208は、Lch_BeforeおよびRch_BeforeからNLおよびNRをそれぞれ減算する。例えば、減算処理部208はLch_BeforeからNLを減算するL減算器208a、およびRch_BeforeからNRを減算するR減算器208bを有する。L減算器208aはLch_BeforeからNLを減算し、Lch_After[0]~Lch_After[512]の513ポイントの配列データを出力する。R減算器208bはRch_BeforeからNRを減算し、Rch_After[0]~Rch_After[512]の513ポイントの配列データを出力する。本実施例では、減算処理部208はスペクトルサブトラクション法によって減算処理を実行する。
【0075】
iFFT部209は、減算処理部208から入力された周波数領域のデジタル音声信号を逆高速フーリエ変換(逆フーリエ変換)して時間領域のデジタル音声信号に変換する。
【0076】
音声処理部210は、イコライザ、オートレベルコントローラ、およびステレオ感の強調処理等の時間領域のデジタル音声信号に対する音声処理を実行する。音声処理部210は、音声処理を行った音声データを揮発性メモリ105へ出力する。
【0077】
なお、本実施例では撮像装置100は第一のマイクとして2つのマイクを有するが、撮像装置100は第一のマイクを1つのマイクまたは3つ以上のマイクとしてもよい。例えば撮像装置100は、音声入力部104に第一のマイクとして1つのマイクを有する場合、1つのマイクによって収音された音声データをモノラル方式で記録する。また例えば撮像装置100は、音声入力部104に第一のマイクとして3つ以上のマイクを有する場合、3つ以上のマイクによって収音された音声データをサラウンド方式で記録する。
【0078】
なお、本実施例では、Lマイク201a、Rマイク201b、およびノイズマイク201cは無指向性のマイクとしたが、これらのマイクは指向性マイクであってもよい。
【0079】
<音声入力部104のマイクの配置>
ここで、本実施例の音声入力部104のマイクの配置例を説明する。図4はLマイク201a、Rマイク201b、およびノイズマイク201cの配置例を示している。
【0080】
図4は、Lマイク201a、Rマイク201b、およびノイズマイク201cが取り付けられた撮像装置100の部分の断面図の一例である。この撮像装置100の部分は、外装部302、マイクブッシュ303、および固定部304により構成される。
【0081】
外装部302は、マイクに環境音を入力するための穴(以下、マイク穴という)を有する。本実施例では、マイク穴はLマイク201a、およびRマイク201bの上方に形成される。一方、ノイズマイク201cは、撮像装置100の筐体内および光学レンズ300の筐体内において発生する駆動音を取得するために設けられており、環境音を取得する必要はない。したがって、本実施例では、外装部302にはノイズマイク201cの上方にマイク穴は形成されない。
【0082】
撮像装置100の筐体内および光学レンズ300の筐体内において発生する駆動音は、マイク穴を介してLマイク201a、およびRマイク201bにより取得される。環境音が小さい状態で撮像装置100および光学レンズ300の筐体内において駆動音等が発生した場合、各マイクが取得する音声は、主としてこの駆動音となる。そのため、Lマイク201a、Rマイク201bからの音声レベルよりも、ノイズマイク201cからの音声レベルの方が大きい。つまり、この場合、各マイクから出力される音声信号のレベルの関係は、以下のようになる。
Lch≒Rch<Nch
また、環境音が大きくなると、ノイズマイク201cからの、撮像装置100または光学レンズ300で発生した駆動音の音声レベルよりも、Lマイク201a、Rマイク201bからの環境音の音声レベルの方が大きくなる。そのため、この場合、各マイクから出力される音声信号のレベルの関係は、以下のようになる。
Lch≒Rch>Nch
なお、本実施例では、外装部302に形成されるマイク穴の形状は楕円状であるが、円状または方形状等の他の形状でもよい。また、マイク201a上のマイク穴の形状とマイク201b上のマイク穴の形状とは、互いに異なっていてもよい。
【0083】
なお、本実施例では、ノイズマイク201cは、Lマイク201aとRマイク201bに近接するように配置される。また、本実施例では、ノイズマイク201cは、Lマイク201aとRマイク201bの間に、それぞれのマイクとほぼ等距離になるように配置される。これにより、撮像装置100の筐体内および光学レンズ300の筐体内において発生する駆動音等からノイズマイク201cによって生成される音声信号は、この駆動音等からLマイク201aおよびRマイク201bによって生成される音声信号と似た信号になる。
【0084】
マイクブッシュ303は、Lマイク201a、Rマイク201b、およびノイズマイク201cを固定するための部材である。固定部304は、マイクブッシュ303を外装部302に固定する部材である。
【0085】
なお、本実施例では、外装部302および固定部304はPC材等のモールド部材で構成される。また、外装部302および固定部304はアルミまたはステンレス等の金属部材で構成されてもよい。また、本実施例では、マイクブッシュ303は、エチレンプロピレンジエンゴム等のゴム材で構成される。
【0086】
<増幅量設定手段>
図5は、本実施例における増幅部202のブロック図の一例である。
【0087】
増幅部202は、環境音増幅部2021、雑音増幅部2022、および増幅量更新データを記憶する増幅量記憶部2023で構成される。
【0088】
環境音増幅部2021は、Lマイク201aおよびRマイク201bから入力された音声信号を増幅する。ここで、環境音増幅部2021におけるゲインは増幅量Aである。
【0089】
雑音増幅部2022は、ノイズマイク201cから入力された音声信号を増幅する。ここで、雑音増幅部2022におけるゲインは増幅量Bである。雑音増幅部2022は、レベル検出部204と、レンズ制御部102が検出した検出内容に応じて、ノイズマイク201cから入力された音声信号の増幅量を下げる。
【0090】
増幅量記憶部2023は、増幅量更新データを記憶するメモリである。
【0091】
レベル検出部204は、A/D変換部203で変換された音声信号の音圧に基づいて、レンズ制御部102は、撮像装置100に装着されたレンズのレンズ種別を判別する。
【0092】
<レベル検出部を用いた増幅量変更処理>
図6は、レベル検出部204を用いた場合における、増幅部202の増幅量変更処理の一例を示すフローチャートである。本フローチャートの処理は、操作部112によってユーザから動画記録を開始するための指示を受け付けたことにより開始される。例えば、制御部111は、レリーズスイッチ61が押下されたことを検出したことに応じて、動画記録を開始する。
【0093】
ステップS601では、制御部111は、撮像部101による撮像処理と、音声入力部104による音声処理を開始する。撮像処理によって得られた映像と、音声処理によって得られた音声と、は逐次記録媒体110に記録される。
【0094】
ステップS602では、音声入力部104は、増幅量Bを、増幅量記憶部2023に記憶されているゲインに設定する。なお、本実施例では、増幅量記憶部2023には、本フローチャートの開始時点において、所定の値(初期値)のゲインが記憶されている。本実施例では、この初期値は増幅量Aと等しい。
【0095】
ステップS603では、音声入力部104は、光学レンズ300が駆動しているか否かを判断する。例えば、音声入力部104は、レンズ制御部102から入力される信号に基づいて、光学レンズ300のモータが駆動を行っているかを判断する。光学レンズ300のモータが駆動を行っている場合におけるレンズ制御部102から入力される信号は、例えばAFやズーム等を示す信号を含む。光学レンズ300が駆動していると判断された場合、ステップS603の処理が実行される。光学レンズ300が駆動していないと判断された場合、ステップS608の処理が実行される。
【0096】
ステップS604では、レベル検出部204は、Lマイク201aおよびRマイク201bから入力された音声信号の振幅(音圧レベル)が所定のしきい値以上か否かを判断する。Lマイク201aおよびRマイク201bから入力された音声信号の振幅が所定のしきい値以上であると判断された場合、ステップS608の処理が実行される。Lマイク201aおよびRマイク201bから入力された音声信号の振幅が所定のしきい値未満であると判断された場合、ステップS605の処理が実行される。
【0097】
ステップS605では、レベル検出部204は、ノイズマイク201cから入力された音声信号の振幅を検出する。
【0098】
ステップS606では、レベル検出部204は、ステップS605において検出した音声信号の振幅が所定のしきい値以上か否かを判断する。ステップS605において検出した音声信号の振幅が所定のしきい値以上である場合、ステップS607の処理が実行される。ステップS605において検出した音声信号の振幅が所定のしきい値未満である場合、ステップS608の処理が実行される。
【0099】
ステップS607では、レベル検出部204は、ステップS605において検出した音声信号の振幅に基づいて増幅量Bを計算し、計算された増幅量Bを増幅量記憶部2023に記録する。本実施例では、光学レンズ300が駆動していない場合における増幅量Bを最大値とする。したがって、本ステップにおいて計算される増幅量Bは初期値よりも小さい値となる。
【0100】
ステップS608では、制御部111は、動画記録を終了するか否かを判断する。例えば、ユーザによってレリーズスイッチ61を押下された場合や記録媒体110の残り容量が僅少となった場合に、制御部111は動画記録を終了すると判断する。動画記録を終了すると判断された場合、本フローチャートの処理は終了する。動画記録を終了しないと判断された場合、ステップS603の処理に戻る。
【0101】
以上、レベル検出部204を用いた増幅量の変更方法について説明した。
【0102】
<レンズ制御部を用いた増幅量変更処理>
図7は、レンズ制御部102を用いた場合における、増幅部202の増幅量変更処理の一例を示すフローチャートである。本フローチャートの処理は、操作部112によってユーザから動画記録を開始するための指示を受け付けたことにより開始される。例えば、制御部111は、レリーズスイッチ61が押下されたことを検出したことに応じて、動画記録を開始する。
【0103】
ステップS701では、レンズ制御部102は、撮像装置100に装着された光学レンズ300の種類を判別する。ここで、レンズ制御部102は、判別された光学レンズ300が、駆動ノイズの大きいレンズか否かを判断する。判別された光学レンズ300が駆動ノイズの大きいレンズである場合、ステップS702の処理が実行される。判別された光学レンズ300が駆動ノイズの大きいレンズではない場合、ステップS703の処理が実行される。
【0104】
ステップS702では、音声入力部104は、レンズ制御部102から入力された光学レンズ300の種類に基づいて、増幅量Bを計算し、計算された増幅量Bを増幅量記憶部2023に記録する。本実施例では、駆動ノイズの小さい光学レンズ300に対する増幅量Bを最大値とする。したがって、本ステップにおいて計算される増幅量Bは最大値よりも小さい値となる。
【0105】
ステップS703では、レベル検出部204は、ステップS701において検出された光学レンズの種類に基づいて増幅量Bを計算し、計算された増幅量Bを増幅量記憶部2023に記録する。本実施例では、駆動ノイズが小さい種類の光学レンズが撮像装置100に装着されている場合における増幅量Bを最大値とする。
【0106】
ステップS704では、制御部111は、撮像部101による撮像処理と、音声入力部104による音声処理を開始する。撮像処理によって得られた映像と、音声処理によって得られた音声と、は逐次記録媒体110に記録される。
【0107】
ステップS705では、音声入力部104は、増幅量Bを、増幅量記憶部2023に記憶されているゲインに設定する。
【0108】
ステップS706では、制御部111は、動画記録を終了するか否かを判断する。例えば、ユーザによってレリーズスイッチ61を押下された場合や記録媒体110の残り容量が僅少となった場合に、制御部111は動画記録を終了すると判断する。動画記録を終了すると判断された場合、本フローチャートの処理は終了する。動画記録を終了しないと判断された場合、ステップS705の処理に戻る。
【0109】
以上、レンズ制御部102を用いた増幅量の変更方法について説明した。
【0110】
<レベル検出部およびレンズ制御部を用いた増幅量変更処理>
図8は、レベル検出部204とレンズ制御部102の両方を用いた場合における、増幅部202の増幅量変更処理の一例を示すフローチャートである。本フローチャートの処理は、操作部112によってユーザから動画記録を開始するための指示を受け付けたことにより開始される。例えば、制御部111は、レリーズスイッチ61が押下されたことを検出したことに応じて、動画記録を開始する。
【0111】
ステップS801では、レンズ制御部102は、撮像装置100に装着された光学レンズ300の種類を判別する。ここで、レンズ制御部102は、判別された光学レンズ300が、駆動ノイズの大きいレンズか否かを判断する。判別された光学レンズ300が駆動ノイズの大きいレンズである場合、ステップS802の処理が実行される。判別された光学レンズ300が駆動ノイズの大きいレンズではない場合、ステップS803の処理が実行される。
【0112】
ステップS802では、音声入力部104は、レンズ制御部102から入力された光学レンズ300の種類に基づいて、増幅量Bを計算し、計算された増幅量Bを増幅量記憶部2023に記録する。本実施例では、駆動ノイズの小さい光学レンズ300に対する増幅量Bを最大値とする。したがって、本ステップにおいて計算される増幅量Bは最大値よりも小さい値となる。
【0113】
ステップS803では、レベル検出部204は、ステップS801において検出された光学レンズの種類に基づいて増幅量Bを計算し、計算された増幅量Bを増幅量記憶部2023に記録する。本実施例では、駆動ノイズが小さい種類の光学レンズが撮像装置100に装着されている場合における増幅量Bを最大値とする。
【0114】
ステップS804では、制御部111は、撮像部101による撮像処理と、音声入力部104による音声処理を開始する。撮像処理によって得られた映像と、音声処理によって得られた音声と、は逐次記録媒体110に記録される。
【0115】
ステップS805では、音声入力部104は、増幅量Bを、増幅量記憶部2023に記憶されているゲインに設定する。
【0116】
ステップS806では、音声入力部104は、光学レンズ300が駆動しているか否かを判断する。例えば、音声入力部104は、レンズ制御部102から入力される信号に基づいて、光学レンズ300のモータが駆動を行っているかを判断する。光学レンズ300のモータが駆動を行っている場合におけるレンズ制御部102から入力される信号は、例えばAFやズーム等を示す信号を含む。光学レンズ300が駆動していると判断された場合、ステップS807の処理が実行される。光学レンズ300が駆動していないと判断された場合、ステップS811の処理が実行される。
【0117】
ステップS807では、レベル検出部204は、Lマイク201aおよびRマイク201bから入力された音声信号の振幅(音圧レベル)が所定のしきい値以上か否かを判断する。Lマイク201aおよびRマイク201bから入力された音声信号の振幅が所定のしきい値以上であると判断された場合、ステップS811の処理が実行される。Lマイク201aおよびRマイク201bから入力された音声信号の振幅が所定のしきい値未満であると判断された場合、ステップS808の処理が実行される。
【0118】
ステップS808では、レベル検出部204は、ノイズマイク201cから入力された音声信号の振幅を検出する。
【0119】
ステップS809では、レベル検出部204は、ステップS808において検出した音声信号の振幅が所定のしきい値以上か否かを判断する。ステップS808において検出した音声信号の振幅が所定のしきい値以上である場合、ステップS810の処理が実行される。ステップS808において検出した音声信号の振幅が所定のしきい値未満である場合、ステップS811の処理が実行される。
【0120】
ステップS810では、レベル検出部204は、ステップS808において検出した音声信号の振幅に基づいて増幅量Bを計算し、計算された増幅量Bを増幅量記憶部2023に記録する。本実施例では、ステップS803において設定された増幅量Bを最大値とする。したがって、本ステップにおいて計算される増幅量Bは、光学レンズ300に応じて設定された増幅量以下の値となる。
【0121】
以上、レベル検出部204およびレンズ制御部102を用いた増幅量の変更方法について説明した。
【0122】
このように、撮像装置100は、検出されたノイズのレベルまたは光学レンズに応じてノイズに対する増幅量を設定することで、入力されるノイズに対する増幅量を適切に制御できる。これにより、撮像装置100は、効果的にノイズを低減することが可能になる。
【0123】
なお、撮像装置100は、増幅量変更処理をレベル検出部204、レンズ制御部102、またはその両方を用いるかどうかについて、適宜判断してよい。
【0124】
<ノイズパラメータ>
図9はノイズパラメータ記録部207に記録されているノイズパラメータの一例である。ノイズパラメータは、撮像装置100の筐体内、および光学レンズ300の筐体内において発生した駆動音をノイズマイク201cが取得することにより生成した音声信号を補正するためのパラメータである。図5に示すように、本実施例では、ノイズパラメータ記録部207にはPLxおよびPRxが記録されている。本実施例では、駆動音の発生源は光学レンズ300の筐体内であるとして説明する。光学レンズ300の筐体内で発生した駆動音はレンズマウント301を介して撮像装置100の筐体内に伝達し、Lマイク201a、Rマイク201b、およびノイズマイク201cによって取得される。
【0125】
駆動音の種類によって、駆動音の周波数が異なる。そのため、本実施例では、撮像装置100は、駆動音(ノイズ)の種類に対応した複数のノイズパラメータを記憶する。そして、これら複数のノイズパラメータのうちの何れかを用いてノイズデータを生成する。本実施例では、撮像装置100は、恒常的なノイズとしてホワイトノイズに対するノイズパラメータを記録する。また、撮像装置100は、恒常的なノイズ以外のノイズも低減する。例えば、撮像装置100は、光学レンズ300内のギアがかみ合わさることによって発生する短期的なノイズに対するノイズパラメータを記録する。また、例えば、撮像装置100は、長期的なノイズとして、例えばレンズ300の筐体内における摺動音に対するノイズパラメータを記憶する。
【0126】
他にも、量子化ノイズとして、A/D変換部203が音声データをA/D変換する際に発生するノイズに対するノイズパラメータを記録する。
【0127】
撮像装置100は光学レンズ300の種類ごと、並びに、情報取得部103によって検出される撮像装置100の筐体内の温度および撮像装置100の傾きごとにノイズパラメータを記録してもよい。
【0128】
<ノイズデータの生成方法>
図10および図11を用いて、ノイズデータ生成部206におけるノイズデータの生成処理を説明する。ここではLchのデータに関するノイズデータの生成処理について説明するが、Rchのデータに関するノイズデータの生成方法も同様である。
【0129】
まず、環境音がないと見なせる状況において、ノイズパラメータを生成する処理について説明する。図10(a)は、環境音がないと見なせる状況において光学レンズ300の筐体内で駆動音が発生した場合におけるLch_Beforeの周波数スペクトルの一例である。図10(b)は、環境音がないと見なせる状況において光学レンズ300の筐体内で駆動音が発生した場合におけるNch_Beforeの周波数スペクトルの一例である。横軸は0ポイント目から512ポイント目までの周波数を示す軸、縦軸は周波数スペクトルの振幅を示す軸である。
【0130】
環境音がないと見なせる状況のため、Lch_BeforeおよびNch_Beforeでは、同じ周波数帯域の周波数スペクトルの振幅が大きくなる。また、光学レンズ300の筐体内において駆動音が発生しているため、同じ駆動音に対する各周波数スペクトルの振幅はLch_BeforeよりもNch_Beforeのほうが大きい傾向になる。
【0131】
図10(c)は本実施例におけるPLxの一例である。本実施例では、PLxは、Lch_Beforeの各周波数スペクトルの振幅をNch_Beforeの各周波数スペクトルの振幅で除算したことによって算出された各周波数スペクトルの係数である。この除算の結果を、Lch_Before/Nch_Beforeと記載する。すなわち、PLxはLch_BeforeおよびNch_Beforeの振幅の比である。ノイズパラメータ記録部207は、Lch_Before/Nch_Beforeの値をノイズパラメータPLxとして記録している。前述のように、同じ駆動音に対する周波数スペクトルの振幅はLch_BeforeよりもNch_Beforeのほうが大きい傾向にあるため、ノイズパラメータPLxの各係数の値は1よりも小さい値になる傾向になる。ただし、Nch_Before[n]の値が所定の閾値より小さい場合、ノイズパラメータ記録部207はPLx[n]=0としてノイズパラメータPLxを記録する。
【0132】
次に、生成されたノイズパラメータをNch_Beforeに適用する処理について説明する。図11(a)は環境音が存在している状況において光学レンズ300の筐体内で駆動音が発生した場合におけるLch_Beforeの周波数スペクトルの一例である。図11(b)は環境音が存在している状況において光学レンズ300の筐体内で駆動音が発生した場合におけるNch_Beforeの周波数スペクトルの一例である。横軸は0ポイント目から512ポイント目までの周波数を示す軸、縦軸は周波数スペクトルの振幅を示す軸である。
【0133】
図11(c)は環境音が存在している状況において光学レンズ300の筐体内で駆動音が発生した場合におけるNLの一例である。ノイズデータ生成部206は、Nch_Beforeの各周波数スペクトルと、PLxの各係数とを乗算し、NLを生成する。NLは、このように生成された周波数スペクトルである。
【0134】
図11(d)は環境音が存在している状況において光学レンズ300の筐体内で駆動音が発生した場合におけるLch_Afterの一例である。減算処理部208は、Lch_BeforeからNLを減算し、Lch_Afterを生成する。Lch_Afterは、このように生成された周波数スペクトルである。
【0135】
これにより、撮像装置100は、光学レンズ300の筐体内の駆動音が原因であるノイズを低減し、ノイズの少ない環境音を記録することができる。
【0136】
ここで、増幅部202がLマイク201aおよびRマイク201bから入力された音声信号とノイズマイク201cから入力された音声信号を、それぞれ異なる増幅量だけ増幅させた場合の、ノイズデータ生成部206におけるノイズデータの生成処理を説明する。
【0137】
ここではLchのデータに関するノイズデータの生成処理について説明するが、Rchのデータに関するノイズデータの生成方法も同様である。
【0138】
まず、雑音増幅部2022が増幅量記憶部2023で記憶されている増幅量に更新され、雑音増幅部2022の増幅量と環境音増幅部2021の増幅量の差異が生じた場合のノイズデータ作成方法について説明する。
【0139】
図12は、ノイズデータ生成部206の詳細を説明する図である。ノイズデータ生成部206は、増幅量比較部2061とPL減算器206aとPR減算器206bと生成部2062を有する。増幅量比較部2061は、雑音増幅部2022の増幅量から環境音増幅部2021の増幅量を減算し、PL減算器206aを用いて、PLxからその差分を減算する。例えば、初期値に対して雑音増幅部2022の増幅量が0.5倍に設定された場合、PL減算器206aでは、PLxを2.0(=1/0.5)倍にするような減算処理を行う。この処理により、生成部2062にて生成されるNLは、雑音増幅部2022の増幅量と環境音増幅部2021の増幅量の差異が補正されたパラメータとなる。
【0140】
次に、Nch_BeforeにA/D変換部203の量子化ノイズが存在する場合のノイズ生成方法について説明する。図13は、ノイズデータ生成部206の詳細を説明する図である。ノイズデータ生成部206は、量子化ノイズ比較部2063と、生成部2062を有する。
【0141】
この場合、ノイズデータ生成部206は量子化ノイズパラメータを用いてノイズデータを生成する。ここで、量子化ノイズパラメータとは、例えばA/D変換部203で音声信号が変換される際に発生する固有のノイズスペクトルを、ノイズパラメータ記録部207に記録したものである。本実施例では、量子化ノイズパラメータは、図9のPN1に示す。
【0142】
図14はNch_Beforeと量子化ノイズパラメータとの比較方法についての詳細を示した図である。図14(a)~図14(e)はすべて同じ時間軸で処理される周波数スペクトルである。
【0143】
図14(a)は光学レンズ300の筐体内で駆動音が発生した場合におけるNch_Beforeの周波数スペクトルの一例である。横軸は0ポイント目から512ポイント目までの周波数を示す軸、縦軸は周波数スペクトルの振幅を示す軸である。
【0144】
図14(b)はA/D変換部203で音声信号が変換される際に発生する量子化ノイズパラメータPN1の周波数スペクトルの一例である。
【0145】
図14(c)は、実際に光学レンズ300の筐体内で発生した駆動音の周波数スペクトルNoise_Lensの一例である。
【0146】
図14(d)は、減算処理部208にて減算処理を行うNch_Beforeの周波数スペクトルに対して、実際に光学レンズ300の筐体内で発生した駆動音の周波数スペクトルがどのくらい含まれているかを示した図である。すなわち、Nch_Beforeのうち、グレー表示が残っているサンプルは、量子化ノイズの影響を受けているサンプルであり、グレー表示が残っていないサンプルは、実際に光学レンズ300の筐体内で発生した駆動音を取得できているサンプルとなる。
【0147】
量子化ノイズ比較部2063は、量子化ノイズの影響を受けているサンプルにおけるノイズパラメータを0とする。例えば、量子化ノイズ比較部2063は、Nch_Beforeとノイズパラメータ記録部207に記録されている量子化ノイズとの、サンプルごとに振幅を比較し、振幅の差分がある閾値以下であれば、そのサンプルにおけるノイズパラメータは0とする。
【0148】
図14(e)は、量子化ノイズの影響を受けているサンプルにおけるノイズパラメータを0とした場合の生成部2062にて生成されるNLである。
【0149】
ノイズマイク201cが取得した音声データがA/D変換部203の量子化ノイズの影響を受けた場合、この処理によって量子化ノイズの影響を受けた帯域に対して減算処理部208による減算処理を行わないことが可能となる。
【0150】
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0151】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14