(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-26
(45)【発行日】2023-02-03
(54)【発明の名称】撮像装置
(51)【国際特許分類】
H04N 23/60 20230101AFI20230127BHJP
H04N 23/63 20230101ALI20230127BHJP
G10L 21/0272 20130101ALI20230127BHJP
G10L 21/0356 20130101ALI20230127BHJP
H04N 23/40 20230101ALI20230127BHJP
H04R 3/00 20060101ALI20230127BHJP
【FI】
H04N5/232 290
H04N5/232 930
G10L21/0272 100Z
G10L21/0356
H04N5/225 000
H04R3/00 320
(21)【出願番号】P 2019222866
(22)【出願日】2019-12-10
【審査請求日】2019-12-10
【審判番号】
【審判請求日】2022-05-26
(31)【優先権主張番号】P 2019046330
(32)【優先日】2019-03-13
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】100106518
【氏名又は名称】松谷 道子
(74)【代理人】
【識別番号】100132241
【氏名又は名称】岡部 博史
(74)【代理人】
【識別番号】100199314
【氏名又は名称】竹内 寛
(72)【発明者】
【氏名】春日井 宏樹
【合議体】
【審判長】五十嵐 努
【審判官】千葉 輝久
【審判官】木方 庸輔
(56)【参考文献】
【文献】特開2011-160044(JP,A)
【文献】特開2010-245695(JP,A)
【文献】特開2011-101110(JP,A)
【文献】特開2011-254400(JP,A)
【文献】特開2009-65587(JP,A)
【文献】国際公開第2013/146893(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N5/222-257
H04R3/00
G10L21/0272
G10L21/0356
(57)【特許請求の範囲】
【請求項1】
被写体像を撮像して画像データを生成する撮像部と、
前記撮像部による撮像中の音声を示す音声データを取得する音声取得部と、
前記撮像部によって生成された画像データに基づいて、被写体とその種別を検出する検出部と、
前記検出部によって検出された被写体の種別に基づいて、前記音声取得部によって取得された音声データを処理する音声処理部と、
ユーザによる自装置の操作に基づいて、
人物を示す第1の種別および前記
人物以外の被写体を示す第2の種別を含む複数の種別の中から、前記音声処理部による処理の対象とする対象種別を設定する操作部と、
前記画像データが示す画像及び前記検出部による被写体の検出結果を示す情報を表示する表示部とを備え、
前記操作部は、
動画撮影時において前記表示部によって表示された情報に基づき自装置におけるフォーカスの対象とする被写体を指定するユーザ操作に従って、前記ユーザ操作により前記フォーカスの対象として指定された被写体の種別を前記対象種別に設定し、
前記音声処理部は、前記画像データにおいて前記対象種別の被写体が検出されたときに取得された音声データにおいて前記対象種別に応じた音声を強調又は抑制するように、当該音声データを処理する
撮像装置。
【請求項2】
被写体像を撮像して画像データを生成する撮像部と、
前記撮像部による撮像中の音声を示す音声データを取得する音声取得部と、
前記撮像部によって生成された画像データに基づいて、被写体とその種別を検出する検出部と、
前記検出部によって検出された被写体の種別に基づいて、前記音声取得部によって取得された音声データを処理する音声処理部と、
ユーザによる自装置の操作に基づいて、第1の種別および前記第1の種別とは異なる第2の種別を含む複数の種別の中から、前記音声処理部による処理の対象とする対象種別を設定する操作部とを備えた撮像装置であって、
前記撮像装置は、前記被写体の種別に応じた動作モードを有し、
前記操作部は、前記撮像装置の動作モードを選択するユーザの操作に従って、前記対象種別を設定し、
前記音声処理部は、前記検出部によって前記対象種別とは別の種別の被写体が検出されたときに当該種別の音声を強調せず、前記画像データにおいて前記対象種別の被写体が検出されたときに取得された音声データにおいて前記対象種別に応じた音声を強調又は抑制するように、当該音声データを処理する
撮像装置。
【請求項3】
前記表示部は、前記対象種別を示す対象種別情報を表示する
請求項1に記載の撮像装置。
【請求項4】
前記第1及び第2の種別は、それぞれ人、人以外の動物、及び背景音を有する物体のうちのいずれかに関する種別に設定される
請求項1又は2に記載の撮像装置。
【請求項5】
前記音声処理部は、前記対象種別に応じた音声を強調する増幅率を、前記検出部が当該対象種別の被写体を検出したときから次第に増大させる
請求項1又は2に記載の撮像装置。
【請求項6】
前記音声処理部は、前記検出部が前記対象種別の被写体を検出した後に前記対象種別の被写体が検出されなくなったとき、前記増幅率を次第に減少させる
請求項5に記載の撮像装置。
【請求項7】
音を収音する収音部をさらに備え、
前記音声取得部は、前記収音部の収音結果を示す音声データを取得する
請求項1又は2に記載の撮像装置。
【請求項8】
前記検出部の検出結果に応じて前記収音部が収音する範囲を変更するビーム形成部をさらに備える
請求項7に記載の撮像装置。
【請求項9】
被写体像を撮像して画像データを生成する撮像部と、
前記撮像部による撮像中の音声を示す音声データを取得する音声取得部と、
前記撮像部によって生成された画像データに基づいて、被写体とその種別を検出する検出部と、
前記画像データが示す画像を表示する表示部と、
ユーザによる自装置の操作に基づいて、前記検出部によって検出された被写体の中から、前記画像におけるフォーカス対象の被写体を選択する操作部と、
前記操作部によって選択された被写体の種別に基づいて、前記音声取得部によって取得された音声データにおいて音声を強調又は抑制するように音声データを処理する音声処理部と、
前記音声処理部による処理の対象とする対象種別を示す対象種別情報を前記表示部に表示させる制御部とを備え、
前記制御部は、前記対象種別情報が、前記操作部においてユーザ操作により前記フォーカス対象に選択された被写体の種別を前記対象種別として示すように、前記表示部を制御する
撮像装置。
【請求項10】
前記制御部は、前記表示部にさらに、前記音声処理部が前記選択された被写体の音声を強調又は抑制するレベルを示す強調レベル情報を表示させる
請求項9に記載の撮像装置。
【請求項11】
前記フォーカス対象の被写体が変更される際に変更前後の被写体の種別が異なった場合、前記制御部は、変更後の種別を前記対象種別として示すように前記対象種別情報を更新して前記表示部に表示させる
請求項9又は10に記載の撮像装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声を取得しながら撮像を行う撮像装置に関する。
【背景技術】
【0002】
撮像装置による動画の撮影時などに、特定の被写体による音声を明瞭に収音するための技術が検討されている(例えば特許文献1)。
【0003】
特許文献1は、撮像部及びマイクロフォンアレイを備えた音声識別装置を開示している。この音声識別装置は、撮像部により生成された画像データから被写体画像の特徴情報を検出すると共に、マイクロフォンアレイにより生成された音声データから音声の特徴情報を検出している。この音声識別装置は、画像データから算出される被写体の距離等と音声データから算出される音源の距離等に基づいて、マイクロフォンアレイの指向特性を調整することにより、断続的に音声を発生する音源についても良好な音声を得ることを図っている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、撮影中のユーザは、動く被写体に対して目で追って撮影装置の向き等を変えることとなり、音声の検出結果に基づきマイクロフォンの指向性を追従させることは、精度良く行い難い。従来技術では、撮像装置において特定の被写体による音声を明瞭に得難いという問題があった。
【0006】
本開示は、ユーザの意図に沿って被写体による音声を明瞭に得ることを行い易くすることができる撮像装置を提供する。
【課題を解決するための手段】
【0007】
本開示の一態様に係る撮像装置は、撮像部と、音声取得部と、検出部と、音声処理部と、操作部とを備える。撮像部は、被写体像を撮像して画像データを生成する。音声取得部は、撮像部による撮像中の音声を示す音声データを取得する。検出部は、撮像部によって生成された画像データに基づいて、被写体とその種別を検出する。音声処理部は、検出部によって検出された被写体の種別に基づいて、音声取得部によって取得された音声データを処理する。操作部は、ユーザによる自装置の操作に基づいて、第1の種別および第1の種別とは異なる第2の種別を含む複数の種別の中から、音声処理部による処理の対象とする対象種別を設定する。音声処理部は、画像データにおいて対象種別の被写体が検出されたときに、取得された音声データにおいて対象種別に応じた音声を強調又は抑制するように、当該音声データを処理する。
【0008】
本開示の別の態様に係る撮像装置は、撮像部と、音声取得部と、検出部と、表示部と、操作部と、音声処理部と、制御部とを備える。撮像部は、被写体像を撮像して画像データを生成する。音声取得部は、撮像部による撮像中の音声を示す音声データを取得する。検出部は、撮像部によって生成された画像データに基づいて、被写体とその種別を検出する。表示部は、画像データが示す画像を表示する。操作部は、ユーザによる自装置の操作に基づいて、検出部によって検出された被写体の中から、画像におけるフォーカス対象の被写体を選択する。音声処理部は、操作部によって選択された被写体の種別に基づいて、音声取得部によって取得された音声データを処理する。制御部は、音声処理部による処理の対象とする対象種別としてフォーカス対象の被写体の種別を示す対象種別情報を表示部に表示させる。
【発明の効果】
【0009】
本開示に係る撮像装置によると、ユーザの意図に沿って被写体による音声を明瞭に得ることを行い易くすることができる。
【図面の簡単な説明】
【0010】
【
図1】本開示の実施の形態1に係るデジタルカメラの構成を示す図
【
図2】デジタルカメラにおける音声処理エンジンの構成を示すブロック図
【
図3】音声処理エンジンの音声抽出部における特定の種別のデータ例を説明した図
【
図4】音声抽出部における、
図3とは別の種別のデータ例を説明した図
【
図5】実施の形態1に係るデジタルカメラの人優先モードの概要を説明するための図
【
図6】実施の形態1に係るデジタルカメラの動作を例示するフローチャート
【
図7】デジタルカメラの人優先モードにおける「人」の移動時の動作例を説明した図
【
図8】実施の形態2に係るデジタルカメラのフォーカス優先モードの概要を説明するための図
【
図9】実施の形態2に係るデジタルカメラの動作を例示するフローチャート
【
図10】
図9に続くデジタルカメラの動作を例示するフローチャート
【
図11】フォーカス対象の被写体が移動する場合のデジタルカメラの動作例を説明した図
【
図12】フォーカス対象を変更するユーザ操作に対するデジタルカメラの動作例を説明した図
【
図13】実施の形態3に係るデジタルカメラの構成を示す図
【
図14】実施の形態3に係るデジタルカメラの動作を例示するフローチャート
【発明を実施するための形態】
【0011】
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、発明者(ら)は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。
【0012】
(実施の形態1)
実施の形態1では、本開示に係る撮像装置の一例として、画像認識技術と音声抽出技術とを連動させて人や動物やといった特定の種別の被写体による音声を明瞭に得るデジタルカメラについて説明する。
【0013】
〔1-1.構成〕
実施の形態1に係るデジタルカメラの構成について、
図1を用いて説明する。
【0014】
図1は、本実施形態に係るデジタルカメラ100の構成を示す図である。本実施形態のデジタルカメラ100は、イメージセンサ115と、画像処理エンジン120と、表示モニタ130と、コントローラ135とを備える。さらに、デジタルカメラ100は、バッファメモリ125と、カードスロット140と、フラッシュメモリ145と、操作部150と、通信モジュール155とを備える。また、デジタルカメラ100は、マイク160と、マイク用のアナログ/デジタル(A/D)コンバータ165と、音声処理エンジン170とを備える。また、デジタルカメラ100は、例えば光学系110及びレンズ駆動部112を備える。
【0015】
光学系110は、フォーカスレンズ、ズームレンズ、光学式手ぶれ補正レンズ(OIS)、絞り、シャッタ等を含む。フォーカスレンズは、イメージセンサ115上に形成される被写体像のフォーカス状態を変化させるためのレンズである。ズームレンズは、光学系で形成される被写体像の倍率を変化させるためのレンズである。フォーカスレンズ等は、それぞれ1枚又は複数枚のレンズで構成される。
【0016】
レンズ駆動部112は、光学系110におけるフォーカスレンズ等を駆動する。レンズ駆動部112はモータを含み、コントローラ135の制御に基づいてフォーカスレンズを光学系110の光軸に沿って移動させる。レンズ駆動部112においてフォーカスレンズを駆動する構成は、DCモータ、ステッピングモータ、サーボモータ、または超音波モータなどで実現できる。
【0017】
イメージセンサ115は、光学系110を介して形成された被写体像を撮像して、撮像データを生成する。撮像データは、イメージセンサ115による撮像画像を示す画像データを構成する。イメージセンサ115は、所定のフレームレート(例えば、30フレーム/秒)で新しいフレームの画像データを生成する。イメージセンサ115における、撮像データの生成タイミングおよび電子シャッタ動作は、コントローラ135によって制御される。イメージセンサ115は、CMOSイメージセンサ、CCDイメージセンサ、またはNMOSイメージセンサなど、種々のイメージセンサを用いることができる。
【0018】
イメージセンサ115は、動画像、静止画像の撮像動作、スルー画像の撮像動作等を実行する。スルー画像は主に動画像であり、ユーザが例えば静止画像の撮像のための構図を決めるために表示モニタ130に表示される。
スルー画像、動画像及び静止画像は、それぞれ本実施形態における撮像画像の一例である。イメージセンサ115は、本実施形態における撮像部の一例である。
【0019】
画像処理エンジン120は、イメージセンサ115から出力された撮像データに対して各種の処理を施して画像データを生成したり、画像データに各種の処理を施して、表示モニタ130に表示するための画像を生成したりする。各種処理としては、ホワイトバランス補正、ガンマ補正、YC変換処理、電子ズーム処理、圧縮処理、伸張処理等が挙げられるが、これらに限定されない。画像処理エンジン120は、ハードワイヤードな電子回路で構成してもよいし、プログラムを用いたマイクロコンピュータ、プロセッサなどで構成してもよい。
【0020】
本実施形態において、画像処理エンジン120は、撮像画像の画像認識によって人及び動物といった種々の種別の被写体の検出機能を実現する画像認識部122を含む。画像認識部122の詳細については後述する。
【0021】
表示モニタ130は、種々の情報を表示する表示部の一例である。例えば、表示モニタ130は、イメージセンサ115で撮像され、画像処理エンジン120で画像処理された画像データが示す画像(スルー画像)を表示する。また、表示モニタ130は、ユーザがデジタルカメラ100に対して種々の設定を行うためのメニュー画面等を表示する。表示モニタ130は、例えば、液晶ディスプレイデバイスまたは有機ELデバイスで構成できる。
【0022】
操作部150は、デジタルカメラ100の外装に設けられた操作釦や操作レバー等のハードキーの総称であり、使用者による操作を受け付ける。操作部150は、例えば、レリーズ釦、モードダイヤル、タッチパネルを含む。操作部150はユーザによる操作を受け付けると、ユーザ操作に対応した操作信号をコントローラ135に送信する。
【0023】
コントローラ135は、デジタルカメラ100全体の動作を統括制御する。コントローラ135はCPU等を含み、CPUがプログラム(ソフトウェア)を実行することで所定の機能を実現する。コントローラ135は、CPUに代えて、所定の機能を実現するように設計された専用の電子回路で構成されるプロセッサを含んでもよい。すなわち、コントローラ135は、CPU、MPU、GPU、DSU、FPGA、ASIC等の種々のプロセッサで実現できる。コントローラ135は1つまたは複数のプロセッサで構成してもよい。また、コントローラ135は、画像処理エンジン120などと共に1つの半導体チップで構成してもよい。
【0024】
バッファメモリ125は、画像処理エンジン120やコントローラ135のワークメモリとして機能する記録媒体である。バッファメモリ125は、DRAM(Dynamic Random Access Memory)などにより実現される。フラッシュメモリ145は不揮発性の記録媒体である。また、図示していないが、コントローラ135は各種の内部メモリを有してもよく、例えばROMを内蔵してもよい。ROMには、コントローラ135が実行する様々なプログラムが記憶されている。また、コントローラ135は、CPUの作業領域として機能するRAMを内蔵してもよい。
【0025】
カードスロット140は、着脱可能なメモリカード142が挿入される手段である。カードスロット140は、メモリカード142を電気的及び機械的に接続可能である。メモリカード142は、内部にフラッシュメモリ等の記録素子を備えた外部メモリである。メモリカード142は、画像処理エンジン120で生成される画像データなどのデータを格納できる。
【0026】
通信モジュール155は、通信規格IEEE802.11またはWi-Fi規格等に準拠した通信を行う通信モジュール(回路)である。デジタルカメラ100は、通信モジュール155を介して、他の機器と通信することができる。デジタルカメラ100は、通信モジュール155を介して、他の機器と直接通信を行ってもよいし、アクセスポイント経由で通信を行ってもよい。通信モジュール155は、インターネット等の通信ネットワークに接続可能であってもよい。
【0027】
マイク160は、音を収音する収音部の一例である。マイク160は、収音した音声を電気信号であるアナログ信号に変換して出力する。マイク160は、1つ又は複数のマイクロフォン素子から構成されてもよい。
【0028】
マイク用のA/Dコンバータ165は、マイク160からのアナログ信号をデジタル信号の音声データに変換する。マイク用のA/Dコンバータ165は、本実施形態における音声取得部の一例である。なお、マイク160は、デジタルカメラ100の外部にあるマイクロフォン素子を含んでもよい。この場合、デジタルカメラ100は音声取得部として、外部のマイク160に対するインタフェース回路を備える。
【0029】
音声処理エンジン170は、マイク用のA/Dコンバータ165等の音声取得部から出力された音声データを受信して、受信した音声データに対して種々の音声処理を施す。音声処理エンジン170は、本実施形態における音声処理部の一例である。音声処理エンジン170は、画像処理エンジン120と一体的に実装されてもよい。音声処理エンジン170の構成の詳細については後述する。
【0030】
〔1-1-1.画像認識部について〕
本実施形態における画像認識部122の詳細を、以下説明する。
【0031】
画像認識部122は、例えば畳み込みニューラルネットワーク等のニューラルネットワークによる学習済みモデルを採用する。画像認識部122は、イメージセンサ115からの撮像データを学習済みモデルに入力して、当該モデルによる画像認識処理を実行する。画像認識部122は、画像認識処理による被写体の種別の検出結果を示す検出情報を出力する。画像認識部122は、本実施形態における検出部の一例である。画像認識部122は、画像処理エンジン120とコントローラ135との協働によって構成されてもよい。
【0032】
画像認識部122の画像認識処理は、学習済みモデルに入力されたデータが示す画像において、予め設定された複数のカテゴリの何れかに分類される被写体が映っている領域を示す位置情報と対応するカテゴリとを関連付けて、検出情報として出力する。複数のカテゴリは、例えば「人」及び「動物」といった種別を含む。また、各カテゴリは更に細分化されてもよく、例えば、人の体、顔および瞳といった人の各部、並びに動物の体、顔および瞳といった動物の各部を含んでもよい。位置情報は、例えば処理対象の画像上の水平座標及び垂直座標で規定され、例えば検出された被写体を矩形状に囲む領域を示す(
図5など参照)。
【0033】
画像認識部122は、各カテゴリについて、予め設定された最大の個数までの被写体を同時に検出してもよい。また、上記の動物のカテゴリ(或いは種別)は、さらに、動物の種類に応じて分類されてもよい。例えば、犬、猫および鳥などのカテゴリが別々に設定されてもよいし、犬と猫を1つにまとめたカテゴリが設定されてもよい。以下では、デジタルカメラ100において予め設定された複数の種別が、第1の種別の一例として種別「人」と、第2の種別の一例として種別「猫」とを含む場合を説明する。
【0034】
以上のような画像認識部122の学習済みモデルは、例えば、各カテゴリの被写体が映った画像を正解とする正解ラベルを関連付けた画像データを教師データとして用いた教師あり学習によって得ることができる。学習済みモデルは、各カテゴリの検出結果に関する信頼度或いは尤度を生成してもよい。
【0035】
画像認識部122の学習済みモデルはニューラルネットワークに限らず、種々の画像認識に関する機械学習モデルであってもよい。また、画像認識部122は機械学習に限らず、種々の画像認識アルゴリズムを採用してもよい。また、画像認識部122は、例えば人の顔および瞳などの一部のカテゴリに対する検出がルールベースの画像認識処理によって行われるように構成されてもよい。
【0036】
〔1-1-2.音声処理エンジンについて〕
音声処理エンジン170の構成の詳細について、
図2~
図4を用いて説明する。
図2は、デジタルカメラ100における音声処理エンジン170の構成を示すブロック図である。
【0037】
音声処理エンジン170は、例えば機能的構成として、
図2に示すように、雑音抑圧部172と、音声抽出部174と、強調処理部176とを備える。音声処理エンジン170は、マイク用のA/Dコンバータ165から音声データAinを入力して、各種機能による音声処理を行う。音声抽出部174及び強調処理部176は、例えばコントローラ135によって制御される。
【0038】
雑音抑圧部172は、音声処理エンジン170に入力された音声データAinにおいて雑音を抑制する処理を行う。雑音抑圧部172による処理は、例えば風の音や、レンズ等の駆動音、ユーザ等がデジタルカメラ100に触れて生じる各種ハンドリング雑音といった所定の雑音を抑圧するために行われ、例えばルールベースのアルゴリズムで実装される。雑音抑圧部172は、処理した音声データA10を、音声抽出部174及び強調処理部176に出力する。雑音抑圧部172の処理後の音声データA10は、例えば音声抽出を行わずに動画を撮影する際に得られる動画音声を示す。
【0039】
音声抽出部174は、雑音抑圧部172からの動画音声の音声データA10において、特定の種別(以下「対象種別」という場合がある)の音声を抽出する処理を行って、抽出音声を示す音声データA11を出力する。音声抽出部174の処理は、例えばニューラルネットワーク等の機械学習による学習済みモデルによって実現される。以下では、畳み込みニューラルネットワーク(CNN)を用いる例を説明する。
【0040】
音声抽出部174のCNNは、例えば画像認識に用いられる場合と同様に、画像データを入力とする畳み込み層などを含む。本例において、音声抽出部174は、動画音声の音声データを画像データに変換する音声/画像変換部174aと、変換された画像データ上で特定の種別に対応する部分を識別するようにCNNによる処理を実行するCNN処理部175と、識別された部分の画像データを音声データに変換する画像/音声変換部174bとを備える。音声抽出部174は、例えば所定のフレーム周期で周期的に動作可能である。
【0041】
音声処理エンジン170には予め、対象種別として設定可能な複数の種別が設定されている。音声処理エンジン170における複数の種別は、例えば画像認識部122に予め設定された複数の種別と対応している。
図3は、音声抽出部174における特定の種別のデータ例を説明した図である。
【0042】
図3(A)は、種別「人」のデータ例として人の声の音声データA12による音声の波形を例示する。
図3(B)は、
図3(A)の変換後の画像データB12を例示する。音声データA12は、
図3(A)に例示するように、時間方向に沿って音声波形の振幅が規定される時系列データを構成する。音声/画像変換部174aは、例えば短時間フーリエ変換(STFT)等を演算して、音声データA12の変換後の画像データB12を生成する。
【0043】
図3(B)に示すように、変換後の画像データB12は、音声データA12のスペクトログラム或いは声紋画像を示し、時間方向Xに加えて周波数方向Yを有する。画像データB12の画素値は、(X,Y)座標で規定される音の成分の強さ(振幅)を示す。画像データB12の画像上の領域は、変換前の音声データA12において対応する時間区間及び周波数帯の成分を表す。
【0044】
図4は、
図3とは別の種別のデータ例を説明した図である。
図4(A)は、種別「猫」のデータ例として猫の鳴き声の音声データA13による音声の波形を例示する。
図4(B)は、
図4(A)の変換後の画像データB13を例示する。
図3(B),
図4(B)に示す画像データB12,B13間には、
図3(A),
図4(A)の音声データA12,A13における種別の違いに応じて、異なる特徴量が含まれる。CNN処理部175の機械学習によると、このような特徴量の識別方法が獲得される。
【0045】
例えば種々の種別による音声に応じた画像データB12,B13をラベル付けした教師となる画像データが、CNN処理部175の機械学習のための教師データベース(DB)40に格納される。CNN処理部175の学習済みモデルは、教師DB40を用いた教師あり学習において、画像データを入力すると特定の種別の識別情報を出力するように、CNNの重みパラメータ群を誤差逆伝播法で入力データと教師データの誤差を小さくするために調整することによって構成できる。なお、教師DB40では、画像データの代わりに音声データが格納されてもよい。この場合、教師DB40中の音声データに対しても音声/画像変換部174aの変換が適用可能である。
【0046】
CNN処理部175が出力する識別情報は、例えば、入力の画像データ上で特定の種別に対応すると識別された領域等を示す画像データを含み、又この識別の信頼度あるいは尤度を含んでもよい。CNN処理部175には、例えば上記のCNNに加えて又はこれに代えて、種別毎の音声に応じた画像データ等を生成する各種の生成モデルが含まれてもよい。CNN処理部175では、種別ごとに別々に機械学習された学習済みモデルを用いることができる。例えば、各種別の学習済みモデル或いは対応する重みパラメータ群は、フラッシュメモリ145において学習データベース(DB)45に格納され、特定の種別の音声抽出を実行するために用いる設定情報として適時、コントローラ135によってCNN処理部175に設定される。なお、CNN処理部175には、複数の種別を同時に識別する学習済みモデルを用いてもよい。
【0047】
図2に戻り、画像/音声変換部174bは、CNN処理部175によって識別された画像データに対して、例えば音声/画像変換部174aによるSTFTの逆変換を演算して、音声抽出部174における抽出結果を示す抽出音声の音声データA11を生成する。
【0048】
強調処理部176は、音声抽出部174からの抽出音声の音声データA11を入力する音声増幅部177と、雑音抑圧部172からの動画音声の音声データA10を入力する音声減衰部178と、音声増幅部177と音声減衰部178の出力を統合する音声結合部179とを備える。強調処理部176は、音声抽出部174による抽出音声が動画音声から強調されるように、抽出音声及び動画音声の各音声データA10,A11を処理して、音声処理エンジン170による処理結果の音声データAoutを出力する。
【0049】
音声増幅部177は、入力される音声データA11に対して、例えばコントローラ135によって設定されるゲインG1を乗じる乗算処理を行って、抽出音声を増幅する。音声減衰部178は、入力される音声データA10に対して、当該音声データA10が示す動画音声の音量と、音声結合部179による結合後の音声の音量とを同じにする値のゲインG0(<1)を乗じて、動画音声を抑圧する。音声結合部179は、増幅された抽出音声と抑圧された動画音声とを同期して合成し、処理結果の音声データAoutを生成する。
【0050】
なお、音声減衰部178のゲインG0は、強調処理部176において算出されてもよいし、コントローラ135によって設定されてもよい。音声増幅部177のゲインG1は、例えば1以下であってもよい。この場合であっても、動画音声の中に抽出音声と同じ音声が含まれていることから、抽出対象となった音声は、処理結果の音声データAoutにおいて動画音声中の分よりも増幅されることとなる。
【0051】
以上のような音声処理エンジン170において、音声抽出部174の機能はCNNに限らず、他のニューラルネットワークで実現されてもよいし、ニューラルネットワーク以外の種々の音声識別に関する機械学習モデルであってもよい。また、教師DB40等を用いた音声抽出部174の機械学習は、デジタルカメラ100への実装前に予め行われてもよい。この場合、デジタルカメラ100のフラッシュメモリ145には、学習結果の学習DB45が記録されれば、特に教師DB40は記録されなくてもよい。
【0052】
また、音声処理エンジン170においては、教師DB40のような種々の種別と対応付けた音声データ等を含むデータベースを用いて、音声抽出部174の抽出結果の補正が行われてもよい。例えば当該データベースをフラッシュメモリ145に格納しておき、音声処理エンジン170が音声抽出部174の抽出結果とデータベース中のデータとを照合してもよい。また、音声抽出部174等の機能は機械学習に限らず、種々の音声識別アルゴリズムにより実現されてもよく、上記のようなデータベースにおける検索が利用されてもよい。
【0053】
〔1-2.動作〕
以上のように構成されるデジタルカメラ100の動作について説明する。以下では、デジタルカメラ100による動画撮影時の動作を説明する。
【0054】
デジタルカメラ100は順次、光学系110を介して形成された被写体像をイメージセンサ115で撮像して撮像データを生成する。画像処理エンジン120は、イメージセンサ115により生成された撮像データに対して各種処理を施して画像データを生成し、バッファメモリ125に記録する。また、画像処理エンジン120の画像認識部122は、撮像データが示す画像に基づき、被写体の種別および領域を検出して、例えば検出情報D1をコントローラ135に出力する。
【0055】
以上の撮像動作と同時並行で、デジタルカメラ100は、マイク160において収音を行う。マイク用のA/Dコンバータ165から収音結果の音声データを音声処理エンジン170にて処理する。音声処理エンジン170は、処理後の音声データAoutをバッファメモリ125に記録する。
【0056】
コントローラ135は、バッファメモリ125を介して、画像処理エンジン120から受け付ける画像データと音声処理エンジン170から受け付ける音声データとの間で、同期を取って動画をメモリカード142に記録する。また、コントローラ135は逐次、表示モニタ130にスルー画像を表示させる。ユーザは、表示モニタ130のスルー画像により随時、撮影の構図等を確認することができる。動画撮影の動作は、操作部150におけるユーザの操作に応じて開始/終了される。
【0057】
以上のようなデジタルカメラ100の動画撮影は、「人」又は「動物」といった特定の種別の被写体に注目して行われる場合がある。この場合、音声についても、上記種別の発声を明瞭に収集したいとのニーズが考えられる。
【0058】
本実施形態のデジタルカメラ100は、画像処理エンジン120における画像認識部122の検出情報D1によって被写体の種別を検出し、画像認識で特定の種別の被写体が検出されたときに、音声処理エンジン170において当該種別に対する音声抽出の処理を実行する。このように、画像処理エンジン120の画像認識と音声処理エンジン170の音声抽出等とを連動させて、特定の種別の被写体による音声の抽出を精度良く実現する。
【0059】
以下では、上記のような特定の種別が「人」に設定された動作モード(以下「人優先モード」という)におけるデジタルカメラ100の動作例を説明する。
【0060】
〔1-2-1.人優先モードについて〕
図5は、デジタルカメラ100の人優先モードの概要を説明するための図である。人優先モードは、種別が「人」の被写体に注目して動画撮影等を行うための動作モードである。
【0061】
図5(A)は、人優先モードにおける表示モニタ130の表示の一例を示す。デジタルカメラ100のコントローラ135は、表示モニタ130にスルー画像と共に、スルー画像中で枠表示などにより、被写体が検出された検出領域R1を表示する。また、
図5の例において、表示モニタ130は、音声抽出アイコン5を表示している。音声抽出アイコン5は、音声抽出の対象とする種別を示す対象種別マーク5aと、抽出された音声が増幅されるレベルを示す増幅レベルバー5bとを含む。対象種別マーク5a(対象種別情報の一例)と増幅レベルバー5b(強調レベル情報の一例)とは、それぞれコントローラ135の制御によって表示される。人優先モードの音声抽出アイコン5では、対象種別マーク5aとして「人」のマークが表示される。
【0062】
人優先モードのデジタルカメラ100において、画像処理エンジン120の画像認識部122は、例えば種々の種別の被写体を検出する。
図5(A)の例では、被写体において、対象種別の人21,22と、対象種別とは別の種別の猫20とが、それぞれ検出されている。この際、画像認識による人21,22の検出に応じて、音声処理エンジン170の音声抽出部174が動作し、対象種別「人」に対する音声抽出の処理を開始する。
【0063】
図5(B)は、
図5(A)に対応した音声変化を例示するグラフである。
図5(B)において、横軸は時間を示し、縦軸は増幅(又は抑圧の)レベルを示す。曲線C1は抽出音声を表し、曲線C0は動画音声を表している。人21,22の何れかが発声して、種別「人」の音声が抽出されると、強調処理部176は抽出音声の増幅を行う。一方、「猫」の鳴き声は、音声抽出の対象とはならない。このように、ユーザが意図した対象種別「人」の音声が他の音声よりも優先して明瞭に得られる。
【0064】
また、音声処理エンジン170の強調処理部176は、
図5(B)の曲線C1に示すように、抽出音声を徐々に緩やかに増大させる。これにより、ユーザにとって強調後の音声が聴き難くなるような急激な音声変化を回避することができる。また、音声処理エンジン170は、強調処理部176による処理の前後で全音量を一定に保つように、抽出音声の増幅と、動画音声の抑圧とを行う。これにより、ユーザにとって強調後の音声をより聴き易くすることができる。また、ユーザは、抽出音声の増幅のレベルを、
図5(A)において増幅レベルバー5bで確認することができる。さらに、対象種別マーク5aにより、ユーザは現在の対象種別を確認でき、ユーザの意図に沿った音声強調を実現し易くすることができる。
【0065】
〔1-2-2.動作の詳細〕
以上のような人優先モードにおけるデジタルカメラ100の動作の詳細を、
図6~
図7を用いて説明する。ユーザは、例えば種別「人」の被写体による音声を明瞭に得たい意図があるときに、デジタルカメラ100の設定メニュー等においてタッチパネルや各種キーなどの操作部150にユーザ操作を入力して、デジタルカメラ100を人優先モードに設定できる。
【0066】
図6は、実施の形態1に係るデジタルカメラ100の動作を例示するフローチャートである。
図6に示すフローチャートは、例えばデジタルカメラ100が人優先モードに設定された状態で動画の撮影中に実行される。この状態で、表示モニタ130は、コントローラ135の制御により、種別「人」を示す対象種別マーク5a等を表示している。本フローチャートによる各処理は、例えば、デジタルカメラ100のコントローラ135によって実行される。なお、コントローラ135の代わりに、以下の各処理を実行させる機能が音声処理エンジン170に実装されてもよい。
【0067】
まず、コントローラ135は、画像処理エンジン120から検出情報D1を取得して、画像認識部122において種別が「人」の被写体が検出されたか否かを判断する(S1)。コントローラ135は、種別「人」の被写体が検出されるまで、例えば所定の周期でステップS1の判断を繰り返す(S1でNO)。当該周期は、例えば画像処理エンジン120における画像認識部122の動作周期である。
【0068】
ステップS1において、音声処理エンジン170は、音声抽出部174(
図2)の処理は実行せずに雑音抑圧部172の処理後の音声データA10を生成して、強調処理部176にて特に抑圧せずに(G0=1)、バッファメモリ125に出力する。
【0069】
画像認識において種別「人」の被写体が検出されたとき(S1でYES)、コントローラ135は、「人」を対象種別とする音声抽出を開始させるように、音声処理エンジン170を制御する(S2)。コントローラ135は、学習DB45を参照して、対象種別「人」の音声抽出を行うための設定情報を、音声処理エンジン170の音声抽出部174に設定する。また、コントローラ135は、例えば強調処理部176における音声増幅部177のゲインG1を初期値に設定する。ゲインG1の初期値は、ユーザが急激な音量変化とは感じないと想定される値に設定される。
【0070】
コントローラ135は、音声処理エンジン170の音声抽出部174において対象種別の音声が抽出されたか否かを判断する(S3)。ステップS3の判断は、例えば、音声抽出部174のCNN処理部175から出力される識別情報の信頼度に基づいて行われる。コントローラ135は、対象とする種別「人」の音声が抽出されたと判断するまで、例えば所定の周期でステップS1の判断を繰り返す(S3でNO)。当該周期は、例えば音声処理エンジン170における音声抽出部174の動作周期である。
【0071】
ステップS2後の音声処理エンジン170においては、音声抽出部174が対象種別の音声を抽出すると逐次、強調処理部176の音声増幅部177が抽出音声を増幅する。この際、音声増幅部177では順次、設定されたゲインG1が用いられる。例えばステップS3において抽出された音声には初期値のゲインG1が適用される。また、強調処理部176の音声減衰部178は、音声増幅部177に設定されたゲインG1に応じて、音量を維持する値のゲインG0を用いる。
【0072】
コントローラ135は、対象種別「人」の音声が抽出されたと判断したとき(S3でYES)、音声増幅部177のゲインG1を初期値から増大させる(S4)。これにより、次に抽出された音声には、増大されたゲインG1が適用される。ステップS4は、所定ピッチでゲインG1を増やしてもよいし、連続的に増やしてもよい。又、コントローラ135は、ステップS4において、ゲインG1の増大に応じて増幅レベルバー5bが示すレベルを上げるように表示モニタ130を制御する(
図5(A),(B)参照)。
【0073】
次に、コントローラ135は、画像認識部122から検出情報D1を再度取得して、現時点で対象種別「人」の被写体が検出されているか否かを判断する(S5)。ステップS5の判断は、ステップS1と同様に行われる。
【0074】
コントローラ135は、対象種別「人」の被写体が検出されていると判断すると(S5でYES)、現時点で音声抽出部174において対象種別の音声が抽出されたか否かを、ステップS3と同様に判断する(S6)。
【0075】
対象種別の音声が抽出されている場合(S6でYES)、コントローラ135は、音声増幅部177に設定されたゲインG1が最大値か否かを判断する(S7)。最大値は、例えばユーザにとって抽出音声が充分に強調されていると感じられる程度の値に設定される。設定済みのゲインG1が最大値に到っていない場合(S7でNO)、コントローラ135は再度、音声増幅部177のゲインG1を増大させて(S4)、ステップS5以降の処理を再度行う。これにより、新たに抽出された音声に対してさらに増大されたゲインG1が適用される。
【0076】
一方、ゲインG1が最大値である場合(S7でYES)、コントローラ135は、ステップS4の処理を行わずに、ステップS5以降の処理を再度行う。これにより、音声処理エンジン170において抽出音声を強調する増幅を、適切なゲインG1で維持することができる。
【0077】
また、コントローラ135は、現時点で種別が「人」の被写体が検出されていなかったり(S5でNO)、対象種別の音声が抽出されていなかったりすると(S6でNO)、音声増幅部177のゲインG1を減少させる(S8)。ステップS8の処理は、例えばステップS4と同じピッチで行われる。又、コントローラ135は、ステップS8において、ゲインG1の減少に応じて増幅レベルバー5bが示すレベルを下げるように表示モニタ130を制御する(
図7(A),(B)参照)。
【0078】
また、コントローラ135は、例えば減少させたゲインG1が最小値であるか否かを判断する(S9)。ゲインG1の最小値は、例えば初期値と同じ値であってもよい。コントローラ135は、ゲインG1が最小値に到っていない場合(S9でNO)、ステップS5以降の処理を再度行う。これにより、その後のステップS6において、音声抽出部174が対象種別の音声を抽出すると、減少させたゲインG1を適用して音声増幅が為される。一方、ゲインG1が最小値に到った場合(S9でYES)、コントローラ135は、音声抽出部174による音声抽出の処理を停止させて(S10)、ステップS1に戻る。
【0079】
以上の処理は、例えばデジタルカメラ100の人優先モードで動画の撮影中に繰り返し、実行される。動画の記録としては、音声処理後の音声データAoutが記録される。
【0080】
以上の処理によると、「人」のような特定の種別の画像認識に連動して、音声の抽出と、抽出された音声の増幅とが実行される。
【0081】
例えば
図5(B)の例では、時刻t1前には、種別「人」の被写体が検出されておらず(S1でNO)、音声の抽出及び増幅/抑圧も行われていない。このように、人優先モードであっても画像認識で種別「人」の被写体が検出されていなければ、対象種別についての音声処理を行わないことで、不必要に動画音声を小さくすることを回避できる。
【0082】
また、画像認識部122において種別「人」の被写体が検出され(S1でYES)、かつ音声抽出部174において象種別の音声が抽出され始めると(S3でYES)、コントローラ135は、音声増幅部177のゲインG1を次第に増大させる(S2~S7)。これにより、
図5(B)の時刻t1から抽出音声の強調が緩やかに進み、増幅開始のタイミング前後でもユーザにとって聴き易い音声を得ることができる。
【0083】
図7は、デジタルカメラ100の人優先モードにおける「人」の移動時の動作例を説明した図である。人優先モードのデジタルカメラ100においては、一人でも種別「人」の画像認識がされている限り、音声抽出が継続する。
【0084】
図7(A)は、
図5(A)の後の表示例を示す。
図7(B)は、
図7(A)に対応した音声変化を例示する。本例では、人21,22が一人も居なくなっており、画像認識において種別「人」が検出されなくなる(S5でNO)。この際、音声抽出は即座に停止されるのではなく、例えばコントローラ135が音声増幅部177のゲインG1を次第に減少させる(S7,S8)。
【0085】
図7(C)は、
図7(A)の後の表示例を示す。
図7(D)は、
図7(C)に対応した音声変化を例示する。
図7(C)の例では、
図7(A)の後に再度、人22が検出されており、音声増幅部177のゲインG1も再度、増大される(S4~S8)。以上のように、人22等の被写体が移動する状況であっても、抽出音声の変化を急激にすることなく、より明瞭な音声を得ることができる。
【0086】
以上の説明では、対象種別の音声を強調する例を説明したが、これに代えて対象種別の音声が抑制されるようにしてもよい。例えばユーザは、人の音声を抑制したい場合に、上述した人優先モードの代わりの動作モードを選択する。この動作モードでは、例えば、音声処理エンジン170が、
図6のフローチャートにおいて音声の増幅と抑圧とを入れ替えた処理を行うことにより、対象種別の音声を抑制できる。これにより、特定の種別の音声を抑制したいというようなユーザの意図に沿った音声の明瞭化を実現することができる。
【0087】
以上の説明では、対象種別が種別「人」である場合の動作例を説明したが、他の種別についても同様の動作が可能である。例えば、デジタルカメラ100は、画像認識部122及び音声処理エンジン170に設定可能な複数の種別の各々を対象種別として採用する動作モードを有してもよい。例えば、表示モニタ130において設定メニューに各動作モードの選択肢を表示した状態で操作部150からユーザ操作を入力して、ユーザ所望の対象種別に応じた動作モードが選択されてもよい。
【0088】
〔1-3.まとめ〕
以上のように、実施の形態1のデジタルカメラ100は、撮像部の一例としてイメージセンサ115と、音声取得部の一例としてマイク用のA/Dコンバータ165と、検出部の一例として画像認識部122と、音声処理部の一例として音声処理エンジン170と、操作部150とを備える。イメージセンサ115は、被写体像を撮像して画像データを生成する。マイク用のA/Dコンバータ165は、イメージセンサ115による撮像中の音声を示す音声データAinを取得する。画像認識部122は、イメージセンサ115によって生成された画像データに基づいて、被写体とその種別を検出する。音声処理エンジン170は、画像認識部122によって検出された被写体の種別に基づいて、取得された音声データAinを処理する。操作部150は、ユーザによるデジタルカメラ100の各種操作に基づいて、例えば人に関する第1の種別および第1の種別とは異なる第2の種別を含む複数の種別の中から、音声処理エンジン170による処理の対象とする対象種別を設定する。音声処理エンジン170は、画像データにおいて対象種別の被写体が検出されたときに(S1)、取得された音声データAinにおいて対象種別に応じた音声を強調又は抑制するように、音声抽出部174及び強調処理部176で当該音声データAinを処理する(S2~S4)。
【0089】
以上のデジタルカメラ100によると、イメージセンサ115による画像データの画像認識においてユーザ所望の対象種別に該当する特定の被写体が検出されたときに、特定の被写体の種別に応じた音声が強調又は抑制された音声データAoutが得られる。これにより、ユーザの意図に沿って特定の被写体による音声を明瞭に得やすくすることができる。
【0090】
本実施形態において、デジタルカメラ100は、画像データが示す画像を表示する表示部の一例として表示モニタ130をさらに備える。表示モニタ130は、対象種別を示す対象種別情報の一例である対象種別マーク5aを表示する。これにより、ユーザは、現在の対象種別を確認しながら動作の撮影等を行え、ユーザの意図に沿った被写体の音声取得を実現し易くできる。また、さらに表示モニタ130は、被写体の音声を強調又は抑制するレベルを示す強調レベル情報の一例である増幅レベルバー5bを表示させてもよい。
【0091】
本実施形態において、デジタルカメラ100は、ユーザの操作を入力する操作部150を備えている。音声処理エンジン170の処理対象となる対象種別は、操作部150におけるユーザの操作に基づき設定される。これにより、ユーザ所望の種別による音声を明瞭に得やすくすることができる。
【0092】
本実施形態において、デジタルカメラ100は、被写体の種別に応じた動作モードの一例として、種別「人」による人優先モードを有する。操作部150は、デジタルカメラ100の動作モードを選択するユーザの操作に従って、対象種別を設定する。例えば、人優先モードが選択されると対象種別は「人」に設定される。なお、このような動作モードは人優先モードに限らず、例えば種別「人」の代わりに「猫」など各種の動物の種別を優先する動作モードが用いられてもよい。
【0093】
本実施形態において、音声処理エンジン170は、対象種別に応じた音声を強調する増幅率であるゲインG1を、画像認識部122が当該対象種別の被写体を検出したとき(S2でYES)から次第に増大させる(S3~S7)。これにより、急激な音声変化を回避して、強調された抽出音声をユーザにとって聴き易くすることができる。
【0094】
本実施形態において、音声処理エンジン170は、画像認識部122が対象種別の被写体を検出した後に対象種別の被写体が検出されなくなったとき(S5でNO)、ゲインG1を次第に減少させる(S8,S9)。これにより、被写体が検出されているか否かによって抽出音声の強調を過度に変化させることを回避し、ユーザにとってより聴き易い音声を得ることができる。
【0095】
本実施形態において、音声処理エンジン170は、音声抽出部174及び強調処理部176において、対象種別に応じた音声を強調する処理前の音声データA10と処理後の音声データAoutとの間において音量を維持するように、音声減衰部178に入力された音声データA10を処理する。これにより、音声処理の前後で音量を変えないようにして、ユーザがより聴き易い音声を得られる。
【0096】
本実施形態において、デジタルカメラ100は、音を収音する収音部の一例としてマイク160をさらに備える。マイク用のA/Dコンバータ165は、マイク160の収音結果を示す音声データAinを取得する。なお、マイク160は、デジタルカメラ100内蔵に限らず、外部構成であってもよい。外部のマイク160を用いる場合であっても、収音結果の音声データを取得して、音声処理エンジン170の音声処理を、画像認識部122による検出結果に応じて行うことにより、デジタルカメラ100にて特定の種別の被写体による音声を明瞭に得ることができる。
【0097】
本実施形態のデジタルカメラ100は、イメージセンサ115(撮像部)と、マイク用のA/Dコンバータ165(音声取得部)と、画像認識部122(検出部)と、表示モニタ130(表示部)と、音声処理エンジン170(音声処理部)と、操作部150(操作部)と、コントローラ135(制御部)とを備える。本実施形態の操作部は、ユーザによる自装置の設定メニュー等の操作に基づいて、複数の種別の中から、音声処理部による処理の対象とする対象種別を設定する。制御部は、対象種別を示す対象種別情報の一例として対象種別マーク5aを表示部に表示させる。これによっても、ユーザは、現在の対象種別を確認しながら動作の撮影等を行え、ユーザの意図に沿って被写体による音声を明瞭に得ることを行い易くできる。
【0098】
(実施の形態2)
以下、
図8~
図12を用いて実施の形態2を説明する。実施の形態1では、デジタルカメラ100の人優先モードの動作例を説明したが、実施の形態2では、フォーカス優先モードの動作例を説明する。フォーカス優先モードは、デジタルカメラ100においてフォーカス対象として選択された被写体の種別を優先して、音声抽出を実行する動作モードである。
【0099】
以下、実施の形態1に係るデジタルカメラ100と同様の構成および動作の説明は適宜、省略して、本実施形態に係るデジタルカメラ100について説明する。
【0100】
〔2-1.フォーカス優先モードについて〕
図8は、デジタルカメラ100のフォーカス優先モードの概要を説明するための図である。本実施形態のデジタルカメラ100では、例えば表示モニタ130のスルー画像に被写体が映っている状態で、タッチパネルやキーなどの操作部150におけるユーザ操作により、フォーカス対象の被写体を選択可能である。
【0101】
図8(A)は、フォーカス選択前の表示例を示す。
図8(B)は、
図8(A)に対応した音声変化を例示する。
図8(C)は、フォーカス選択後の表示例を示す。
図8(D)は、
図8(B)に対応した音声変化を例示する。
【0102】
図8(A)の表示例では、実施形態1と同様の画像認識部122により、猫20と二人の人21,22とによる三つの被写体が検出されている。例えば、ユーザは、表示モニタ130において検出領域R1に対応する各被写体の周りの表示枠を視認して、フォーカス対象の被写体を選択できる。フォーカス対象の選択前には、特に音声抽出は行われず、
図8(B)の曲線C0に示すように動画音声が得られる。
【0103】
図8(C)の表示例は、
図8(A)の状態から一方の人21がフォーカス対象として選択された例を示す。表示モニタ130は、選択された人21の周りに、他の被写体20,22の表示枠とは別の表示態様で、フォーカス対象の表示枠F1を表示させる。また、レンズ駆動部112は、表示枠F1内の被写体に合焦するように、光学系110のフォーカスレンズを駆動する。
【0104】
図8(D)に示すように、本実施形態の音声処理エンジン170は、以上のような動作に連動して、フォーカス対象の被写体の種別に応じた音声を強調するための音声処理を行う。なお、本実施形態の音声処理エンジン170は、例えば音声抽出部174及び強調処理部176において複数種別の抽出音声を並列して処理可能に構成される。
【0105】
〔2-2.動作の詳細〕
以上のようなフォーカス優先モードにおけるデジタルカメラ100の動作の詳細を、
図9~
図12を用いて説明する。
図9,10は、本実施形態に係るデジタルカメラ100の動作を例示するフローチャートである。以下では、人優先モードの動作(
図6)と同様の説明は適宜、省略する。
【0106】
フォーカス優先モードのデジタルカメラ100において、コントローラ135は、
図6のステップS1の代わりに、画像認識部122による検出情報D1に基づいて、画像認識で検出された被写体があるか否かを判断する(S1A)。検出された被写体がある場合(S1AでYES)、コントローラ135は、操作部150におけるユーザ操作によって、フォーカス対象の被写体が選択されたか否かを判断する(S1B)。
【0107】
フォーカス対象の被写体が選択されると(S1BでYES)、コントローラ135は、選択された被写体の種別を対象種別として、
図6のステップS2と同様に音声処理エンジン170に音声抽出を開始させる(S2A)。このとき、コントローラ135は、対象種別マーク5aが、選択された被写体の種別を示すように音声抽出アイコン5を表示モニタ130に表示させる(
図8(C)参照)。又、増幅レベルバー5bの表示は、その後のステップS4,S8において実施形態1と同様にコントローラ135によってゲインG1に対応するように制御される。
【0108】
また、音声処理エンジン170による抽出音声の増幅(S3,S4)の後、コントローラ135は、
図6のステップS5の代わりに、操作部150においてフォーカス対象の被写体を変更するユーザ操作が行われたか否かを判断する(S5A)。
【0109】
フォーカス対象の変更がない場合(S5AでNO)、コントローラ135は、画像認識部122から再度、検出情報D1を取得して、フォーカス対象に選択された被写体が、現時点で検出されているか否かを判断する(S5B)。現時点の画像認識においてフォーカス対象の被写体が検出されていれば(S5BでYES)、コントローラ135は、ステップS6以降の処理を実施の形態1と同様に行う。フォーカス対象の被写体が移動する場合の動作例を、
図11に例示する。
【0110】
図11(A)は、
図8(C)の後の表示例を示す。
図11(B)は、
図11(A)に対応した音声変化を例示する。
図11(A)の例では、
図8(C)でフォーカス対象として選択された人21が移動して、表示モニタ130の画像に映らなくなっている。画像認識部122では、他の被写体20,22は検出されるものの、フォーカス対象として選択された人21は検出されなくなる。このように、フォーカス対象の被写体が検出されなくなると(S5BでNO)、例えば
図11(B)の曲線C1に示すように、コントローラ135は抽出音声のゲインG1を減らす(S8)。
【0111】
また、フォーカス対象を変更するユーザ操作があった場合(S5AでYES)の動作例を、
図12に例示する。
図12(A)は、
図11(A)の後の表示例を示す。
図12(B)は、
図12(A)に対応した音声変化を例示する。
図12(B)のグラフは、種別「猫」の抽出音声を示す曲線C2をさらに含む。ステップS5Aにおいて、コントローラ135は、例えばフォーカス対象の被写体の種別が変化した場合に「YES」に進む一方、変更前後でフォーカス対象の種別が変わらない場合は「NO」に進んでもよい。
【0112】
図12(A)の例では、猫20が新たなフォーカス対象として選択されており、種別「猫」の対象種別マーク5aが表示されている。フォーカス対象の種別の変更がある場合(S5AでYES)、コントローラ135は、例えば
図10に示すように、変更後のフォーカス対象の画像認識があるか否かを判断する(S20)。コントローラ135は、フォーカス対象の画像認識がある場合(S20でYES)、当該フォーカス対象の種別を対象種別として、音声処理エンジン170による音声抽出をステップS2Aと同様に開始させる(S21)。このとき、コントローラ135は、例えば
図11(A)で表示した対象種別マーク5aを、
図12(A)に示すように、新たな対象種別を示すよう更新する。
【0113】
コントローラ135は、音声抽出部174において、変更後の対象種別の音声が抽出されたか否かを、ステップS3と同様に判断する(S22)。例えば
図12(B)に示すように、猫20の鳴き声が発したときに種別「猫」の抽出音声が得られ、次第に増大される。このとき、変更前のフォーカス対象についての音声抽出は、即座には停止されない。
【0114】
以下、変更後の対象種別についての抽出音声のゲインを「G1a」と記し、変更前の対象種別についての抽出音声のゲインを「G1b」と記す。変更後の対象種別の音声が抽出されると(S22でYES)、変更後の対象種別のゲインG1aを増やし(S23)、変更前の対象種別のゲインG1bを減らす(S24)。また、動画音声のゲインG0は適宜、処理前後の音量が維持されるように、各ゲインG1a,G1bに応じて設定される。増幅レベルバー5bは、例えば変更後のゲインG1bに対応するように、コントローラ135によって制御される。
【0115】
コントローラ135は、変更前の対象種別のゲインG1bが最小値に到るまで(S25)、ステップS22~S25の処理を繰り返す(S25でNO)。コントローラ135は、当該ゲインG1bが最小値に到ると(S25でYES)、変更前の対象種別についての音声抽出を停止して(S26)、例えば
図9のステップS5Aに戻る。
【0116】
また、コントローラ135は、フォーカス対象の画像認識がない場合(S20でNO)、ステップS8に進む。これにより、画像認識および音声抽出の対象外の領域にフォーカスを合わすユーザの操作があった場合にも対処することができる。
【0117】
以上の処理によると、画像認識に加えてユーザによるフォーカス対象の選択に連動して、特定の被写体の音声を強調する音声処理を実現することができる。フォーカス対象を変更するユーザ操作があった場合(S5AでYES)の更なる動作例を、
図12に例示する。
図12(C)は、
図12(A)の後の表示例を示す。
図12(D)は、
図12(C)に対応した音声変化を例示する。
【0118】
図12(C)の例では、フォーカス対象が、猫20から人22に切り替えられている。このように、音声抽出の対象種別であった猫20が、画像認識において継続的に検出されていても(S5BでYES)、ユーザの操作によってフォーカス対象が人22に切り替えられると(S5AでYES)、フォーカスに連動して「人」を対象種別とする音声抽出が開始される(S21)。また、この際の音声変化も、
図12(D)に示すように緩やかに行われ、ユーザにとって聴きやすい音声を得ることができる。
【0119】
上記のステップS1B,S5Aにおいて、フォーカス対象の被写体を選択するユーザ操作としては、例えば表示モニタ130における被写体20~22毎の検出領域R1について、タッチパネルのタッチ操作、或いは各種キーによる選択操作が挙げられる。この他にも、デジタルカメラ100が自動的にデフォルトのフォーカス対象を選択する機能を利用したユーザ操作であってもよい。
【0120】
例えば、デジタルカメラ100のコントローラ135は、画像認識部122の検出情報D1に基づいて、画像全体における中央に位置したり、比較的大きく映っていたりする被写体をデフォルトのフォーカス対象に自動で選択してもよい。このような自動選択の機能を利用して、ユーザは、デジタルカメラ100を向ける方向を変えたり、ズーム値を変えたりする各種の操作を行うことにより、所望の被写体をデジタルカメラ100にフォーカス対象として選択させることができる。こうした選択の結果は、例えばフォーカス対象の表示枠F1の表示態様によって確認できる。この場合のステップS1B,S5Aでも、デジタルカメラ100では上記と同様に、フォーカス対象として選択された被写体の種別が、対象種別として設定できる。以上のようなユーザ操作に利用されるデジタルカメラ100の各部は、本実施形態における操作部の一例である。
【0121】
〔2-3.まとめ〕
以上のように、実施の形態2のデジタルカメラ100において、表示モニタ130は、画像認識部122による被写体の検出結果を示す情報をさらに表示する。本実施形態のデジタルカメラ100における操作部は、表示モニタ130によって表示された情報に基づきデジタルカメラ100におけるフォーカスの対象とする被写体を指定するユーザの操作に従って、対象種別を設定する。これにより、ユーザの操作に従い音声抽出の対象種別を動的に設定して、ユーザ所望の種別についての音声を明瞭に得ることができる。
【0122】
又、本実施形態においてデジタルカメラ100(撮像装置)は、イメージセンサ115(撮像部)と、マイク用のA/Dコンバータ165(音声取得部)と、画像認識部122(検出部)と、表示モニタ130(表示部)と、音声処理エンジン170(音声処理部)と、操作部150(操作部)と、コントローラ135(制御部)とを備える。本実施形態の操作部は、ユーザによる自装置の操作に基づいて、検出部によって検出された被写体の中から、画像におけるフォーカス対象の被写体を選択してもよい(S1B)。音声処理部は、操作部によって選択された被写体の種別に基づいて、音声取得部によって取得された音声データを処理する(S2A~S10)。制御部は、音声処理部による処理の対象とする対象種別としてフォーカス対象の被写体の種別を示す対象種別情報の一例として対象種別マーク5aを表示部に表示させる(S2A,
図8(C)等)。これにより、ユーザは、現在の対象種別を確認しながら動作の撮影等を行え、ユーザの意図に沿って被写体による音声を明瞭に得ることを行い易くできる。
【0123】
本実施形態において、制御部は、表示部にさらに、音声処理部が選択された被写体の音声を強調又は抑制するレベルを示す強調レベル情報の一例として増幅レベルバー5bを表示させる(S4,S8,
図8(C)等)。これにより、ユーザは、動画等の撮影中に得られる音声が強調または抑制される程度を確認でき、ユーザの意図に沿った音声取得を行い易くできる。
【0124】
本実施形態において、フォーカス対象の被写体が変更される際に変更前後の被写体の種別が異なった場合(S5BでYES)、制御部は、変更後の種別を対象種別として示すように対象種別情報を更新して表示部に表示させてもよい(S21,
図12(A),(C)等)。これにより、ユーザは、撮影中に動的に変化する対象種別を確認でき、ユーザの意図に沿った被写体の音声取得を行い易くできる。
【0125】
(実施の形態3)
以下、
図13~
図14を用いて実施の形態3を説明する。実施の形態1,2のデジタルカメラ100は、画像認識に連動して特定の種別の音声抽出を行った。実施の形態3では、さらに、画像認識に連動して収音の指向性を制御するデジタルカメラについて説明する。
【0126】
以下、実施の形態1,2に係るデジタルカメラ100と同様の構成および動作の説明は適宜、省略して、本実施形態に係るデジタルカメラについて説明する。
【0127】
〔3-1.構成〕
図13は、実施の形態3に係るデジタルカメラ100Aの構成を示す図である。本実施形態のデジタルカメラ100Aは、実施の形態1,2のデジタルカメラ100と同様の構成において、複数のマイク160Aを備え、さらにビーム形成部162を備え、収音される音声の指向性を生成する。本実施形態のマイク160Aは、例えば3個又はそれ以上のマイクロフォン素子を含み、素子間で互いに位置決めして配置される。
【0128】
ビーム形成部162は、例えばマイク160Aの各素子の遅延期間を調整する回路であり、マイク160Aで収音された音声を、所望の向き及び幅に形成する。ビーム形成部162によると、マイク160Aが収音する物理的な範囲を設定できる。ビーム形成部162は、マイク160A又はA/Dコンバータ165と一体的に構成されてもよいし、ビーム形成部162の機能が音声処理エンジン170に実装されてもよい。
【0129】
〔3-2.動作〕
図14は、実施の形態3に係るデジタルカメラ100Aの動作を例示するフローチャートである。本実施形態のデジタルカメラ100Aにおいて、コントローラ135は、実施の形態1,2と同様の処理に加えて、画像認識部122による検出情報D1に基づきマイク160Aの収音範囲を可変するビーム形成部162を制御する(S30,S31)。
図14では、フォーカス優先モード(
図9)において収音範囲が動的に設定される動作例を説明する。
【0130】
コントローラ135は、例えばフォーカス対象の被写体が選択されると(S1BでYES)、そのときの画像認識部122の検出情報D1に基づいて、マイク160Aが当該被写体の方向からの音を収音するようにビーム形成部162を制御する(S30)。ビーム形成部162は、検出情報D1における特定の被写体の検出領域R1の位置およびサイズに応じて、マイク160Aのビームを形成する。これにより、画像認識に応じた収音範囲においてマイク160Aの収音が行われ、当該収音範囲の音声データに対して対象種別の音声抽出が適用される(S2A)。
【0131】
また、コントローラ135は、フォーカス対象の画像認識が継続している場合(S5BでYES)も逐次、ステップS30と同様にビーム形成部162を制御してマイク160Aの収音範囲を動的に設定する(S31)。これにより、例えばフォーカス対象の被写体が移動したり、別の被写体に変更されたりすることに応じて、マイク160Aの収音範囲が変更される。
【0132】
以上の処理によると、画像認識部122の検出結果に応じてマイク160Aの収音範囲がフォーカス対象の被写体に向けられ、当該被写体からの音声をより明瞭に得ることができる。以上の説明では、ビーム形成部162によるマイク160Aの収音範囲の制御が、フォーカス優先モードで行われる例を説明したが、特にこれに限らず、人優先モードなど他の動作モードで行われてもよい。
【0133】
〔3-3.まとめ〕
以上のように、実施の形態3のデジタルカメラ100Aは、ビーム形成部162をさらに備える。ビーム形成部162は、画像認識部122の検出結果に応じてマイク160Aが収音する範囲を変更する。これにより、画像認識部122に検出された被写体からの音声をより明瞭に得ることができる。
【0134】
(他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態1~3を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
【0135】
上記の実施の形態1,2では、デジタルカメラ100の人優先モード及びフォーカス優先モードについて説明した。このような動作モードは、操作部150におけるユーザの操作によって設定可能であり、例えばデジタルカメラ100は表示モニタ130にメニュー画面を表示し、上記の動作モードを選択可能に構成されてもよい。
【0136】
上記の各実施形態においては、第1の種別の一例として種別「人」、及び第2の種別の一例として種別「猫」を例示したが、第1及び第2の種別は上記に限らず、様々な種別であってもよい。例えば、第2の種別は、「猫」に限らず「犬」或いは「鳥」など各種の動物であってもよいし、人以外の各種の動物を含む種別「動物」であってもよい。また、人又は動物に限らず、例えば列車或いは楽器といった特有の音を有する物体が、適宜種別に採用されてもよい。こうした物体からの音は、例えば背景音として強調/抑制の対象とされ得る。さらに、第1の種別は不特定の「人」に限らず、例えば特定の個人であってもよい。この場合、第2の種別は、第1の種別と異なる個人であってもよい。
【0137】
すなわち、本実施形態において、第1及び第2の種別は、それぞれ人、人以外の動物、および背景音を有する物体のうちの何れかに関する種々の種別に設定されてもよい。また、デジタルカメラ100に設定される複数の種別は、第1及び第2の種別以外の種別をさらに含んでもよい。
【0138】
以上のような様々な種別であっても、例えば機械学習において各々の種別に応じた画像と音声の学習用のデータセットを用意することにより、上記各実施形態と同様の動作が実現可能である。又、こうした様々な種別であっても、画像認識部122と音声処理エンジン170とに設定する種別を互い対応付けることにより、上記各実施形態と同様に、画像認識部122に連動して音声処理エンジン170で所望の種別の音声を強調/抑制できる。なお、画像認識部122と音声処理エンジン170とに設定される種別は必ずしも同一でなくてもよく、例えば画像認識部122に設定される種別が、音声処理エンジン170に設定される種別よりも細分化されていてもよい。又、画像認識部122に設定される種別の中に、特に音声処理の対象種別とせず、音声処理エンジン170に設定されない種別が含まれてもよい。
【0139】
上記の各実施形態において、対象種別情報の一例として対象種別マーク5aを例示し、強調レベル情報の一例として増幅レベルバー5bを例示した。本実施形態において、対象種別情報は、対象種別マーク5aに限らず、例えば対象種別の名称などの文字情報であってもよいし、サムネイル等の画像であってもよい。また、強調レベル情報も、増幅レベルバー5bに限らず、例えば強調または抑制のレベルを示す数字等の文字情報であってもよいし、円グラフ等のグラフであってもよい。また、対象種別情報と強調レベル情報とは、それぞれ独立したアイコンとして表示されてもよい。
【0140】
上記の各実施形態において、画像認識部122を備えるデジタルカメラ100を説明した。本実施形態において、画像認識部122は、外部サーバに設けられてもよい。この場合、デジタルカメラ100は、通信モジュール155を介して、外部サーバに撮像画像の画像データを送信し、外部サーバから画像認識部122による処理結果の検出情報D1を受信してもよい。このようなデジタルカメラ100においては、通信モジュール155が検出部として機能する。また、例えば音声抽出部174など音声処理エンジン170の機能についても、上記と同様に外部サーバで行われてもよい。
【0141】
また、上記の各実施形態では、光学系110及びレンズ駆動部112を備えるデジタルカメラ100を例示した。本実施形態の撮像装置は、光学系110及びレンズ駆動部112を備えなくてもよく、例えば交換レンズ式のカメラであってもよい。
【0142】
また、上記の各実施形態では、撮像装置の例としてデジタルカメラを説明したが、これに限定されない。本開示の撮像装置は、画像撮影機能を有する電子機器(例えば、ビデオカメラ、スマートフォン、タブレット端末等)であればよい。
【0143】
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
【0144】
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
【0145】
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
【産業上の利用可能性】
【0146】
本開示は、音声を取得しながら撮像を行う撮像装置に適用可能である。
【符号の説明】
【0147】
100,100A デジタルカメラ
115 イメージセンサ
120 画像処理エンジン
122 画像認識部
130 表示モニタ
135 コントローラ
150 操作部
160,160A マイク
162 ビーム形成部
165 マイク用のA/Dコンバータ
170 音声処理エンジン
172 雑音抑圧部
174 音声抽出部
176 強調処理部