(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024168219
(43)【公開日】2024-12-05
(54)【発明の名称】画像処理システム、画像処理方法、及びプログラム
(51)【国際特許分類】
H04N 23/60 20230101AFI20241128BHJP
G10L 25/51 20130101ALI20241128BHJP
G10L 21/0272 20130101ALI20241128BHJP
G06T 7/70 20170101ALI20241128BHJP
G09G 5/36 20060101ALI20241128BHJP
G09G 5/00 20060101ALI20241128BHJP
【FI】
H04N23/60 500
G10L25/51
G10L21/0272 100Z
G06T7/70
G09G5/36 400
G09G5/00 510Q
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023084704
(22)【出願日】2023-05-23
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】横山 秀磨
(72)【発明者】
【氏名】吉澤 明高
【テーマコード(参考)】
5C122
5C182
5L096
【Fターム(参考)】
5C122EA12
5C122EA42
5C122FH09
5C122FH11
5C122FH12
5C122FH14
5C122FJ04
5C122FJ12
5C122HA13
5C122HA35
5C122HA48
5C122HB01
5C182AB02
5C182AB08
5C182AC43
5C182BA01
5C182BA03
5C182BA04
5C182BA06
5C182BA35
5C182BA75
5C182BC26
5C182CB44
5C182CB47
5C182DA44
5L096AA06
5L096BA08
5L096DA01
5L096FA19
5L096FA69
5L096HA05
5L096HA08
5L096KA04
(57)【要約】
【課題】音声付き動画の品質の低下を抑制しつつ、音声付き動画から特定の被写体を削除することを可能にする技術を提供する。
【解決手段】音声データを伴う動画データの複数のフレームにおいて、第1の種別の被写体を検出する被写体検出手段と、前記複数のフレームのうちの前記第1の種別の被写体が検出された1以上のフレームから、前記第1の種別の被写体を削除する被写体削除手段と、前記音声データにおいて、前記第1の種別の被写体に対応する音声成分を検出する音声検出手段と、前記音声データから、前記第1の種別の被写体に対応する前記音声成分を削除する音声削除手段と、を備えることを特徴とする画像処理システムを提供する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
音声データを伴う動画データの複数のフレームにおいて、第1の種別の被写体を検出する被写体検出手段と、
前記複数のフレームのうちの前記第1の種別の被写体が検出された1以上のフレームから、前記第1の種別の被写体を削除する被写体削除手段と、
前記音声データにおいて、前記第1の種別の被写体に対応する音声成分を検出する音声検出手段と、
前記音声データから、前記第1の種別の被写体に対応する前記音声成分を削除する音声削除手段と、
を備えることを特徴とする画像処理システム。
【請求項2】
前記被写体検出手段は、前記複数のフレームのうちの第1のフレームの第1の領域の画像に基づいて、前記第1の領域に含まれる被写体の種別を識別し、
前記第1の種別は、前記第1の領域に含まれる前記被写体の前記種別である
ことを特徴とする請求項1に記載の画像処理システム。
【請求項3】
前記被写体検出手段は、前記第1の領域の画像を入力として第1の機械学習モデルを用いる推論を行うことにより、前記第1の領域に含まれる前記被写体の前記種別を識別する
ことを特徴とする請求項2に記載の画像処理システム。
【請求項4】
ユーザによる指示に従って、前記第1のフレームにおいて前記第1の領域を選択する領域選択手段
を更に備えることを特徴とする請求項2に記載の画像処理システム。
【請求項5】
前記第1の領域に含まれる前記被写体の、前記複数のフレームに亘る速度ベクトルを取得する被写体ベクトル取得手段と、
前記第1の領域に含まれる前記被写体に対応する音声成分の、前記複数のフレームに亘る速度ベクトルを取得する音声ベクトル取得手段と、
を更に備え、
前記音声検出手段は、前記第1の領域に含まれる前記被写体の前記速度ベクトルと、前記第1の領域に含まれる前記被写体に対応する前記音声成分の前記速度ベクトルとを照合することにより、前記音声データにおいて前記第1の種別の被写体に対応する前記音声成分を検出する
ことを特徴とする請求項2に記載の画像処理システム。
【請求項6】
前記音声検出手段は、前記音声データを入力として第2の機械学習モデルを用いる推論を行うことにより、前記音声データにおいて前記第1の種別の被写体に対応する前記音声成分を検出する
ことを特徴とする請求項1に記載の画像処理システム。
【請求項7】
前記音声検出手段は、前記音声データを入力として第2の機械学習モデルを用いる推論を行うことにより、前記音声データにおいて、各々が異なる種別の被写体に対応する複数の音声成分を検出し、
前記画像処理システムは、前記複数の音声成分のいずれかを選択する音声選択手段を更に備え、
前記第1の種別は、前記複数の音声成分のうちの前記選択された音声成分に対応する被写体の種別である
ことを特徴とする請求項1に記載の画像処理システム。
【請求項8】
画像処理システムが実行する画像処理方法であって、
音声データを伴う動画データの複数のフレームにおいて、第1の種別の被写体を検出する被写体検出工程と、
前記複数のフレームのうちの前記第1の種別の被写体が検出された1以上のフレームから、前記第1の種別の被写体を削除する被写体削除工程と、
前記音声データにおいて、前記第1の種別の被写体に対応する音声成分を検出する音声検出工程と、
前記音声データから、前記第1の種別の被写体に対応する前記音声成分を削除する音声削除工程と、
を備えることを特徴とする画像処理方法。
【請求項9】
コンピュータを、請求項1乃至7のいずれか1項に記載の画像処理システムの各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理システム、画像処理方法、及びプログラムに関する。
【背景技術】
【0002】
現在、音声付き動画を撮影する機能を備えるデジタルカメラやスマートフォンが普及している。ユーザが撮影した音声付き動画には、ユーザにとって不要な被写体が映り込んでしまうことがある。例えば、ユーザが人物を撮影したい場合に、ユーザにとって不要な車が映り込んでしまうことがある。
【0003】
また、現在、画像内の不要領域をその痕跡を残さないように消去する技術が知られている(特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
音声付き動画から、音声を発している被写体を削除した場合を考える。この場合、音声付き動画の再生時に、削除済みのため表示されない被写体に対応する音声成分が残った音声が再生されるため、ユーザが違和感を覚える可能性がある。このように、音声付き動画から、音声を発している被写体を削除すると、音声付き動画の品質が低下する。
【0006】
本発明はこのような状況に鑑みてなされたものであり、音声付き動画の品質の低下を抑制しつつ、音声付き動画から特定の被写体を削除することを可能にする技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明は、音声データを伴う動画データの複数のフレームにおいて、第1の種別の被写体を検出する被写体検出手段と、前記複数のフレームのうちの前記第1の種別の被写体が検出された1以上のフレームから、前記第1の種別の被写体を削除する被写体削除手段と、前記音声データにおいて、前記第1の種別の被写体に対応する音声成分を検出する音声検出手段と、前記音声データから、前記第1の種別の被写体に対応する前記音声成分を削除する音声削除手段と、を備えることを特徴とする画像処理システムを提供する。
【発明の効果】
【0008】
本発明によれば、音声付き動画の品質の低下を抑制しつつ、音声付き動画から特定の被写体を削除することが可能となる。
【0009】
なお、本発明のその他の特徴及び利点は、添付図面及び以下の発明を実施するための形態における記載によって更に明らかになるものである。
【図面の簡単な説明】
【0010】
【
図1A】画像処理システムのハードウェア構成を示す図。
【
図1B】第1の実施形態に係る画像処理システムの機能構成を示す図。
【
図2】第1の実施形態に係る画像処理システムが実行する画像処理のフローチャート。
【
図3A】第1の実施形態に係る、被写体の削除の例を説明する図。
【
図3B】第1の実施形態に係る、被写体の削除の例を説明する図。
【
図3C】第1の実施形態に係る、被写体の削除の例を説明する図。
【
図4A】第1の実施形態に係る、音声成分の削除の例を説明する図。
【
図4B】第1の実施形態に係る、音声成分の削除の例を説明する図。
【
図5】第2の実施形態に係る画像処理システムの機能構成を示す図。
【
図6】第2の実施形態に係る画像処理システムが実行する画像処理のフローチャート。
【
図7】第2の実施形態に係る、音声成分の分離の例を説明する図。
【発明を実施するための形態】
【0011】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0012】
[第1の実施形態]
●画像処理システムのハードウェア構成
図1Aは、画像処理システムのハードウェア構成を示す図である。
図1Aにおいて、情報処理装置100は、動画編集機能を備える装置であり、例えばパーソナルコンピュータ(PC)やスマートフォン等の装置である。情報処理装置100は、CPU101、ROM102、RAM103、HDD104、GPU105、ネットワーク通信部106、操作入力部108、表示部109、音声出力部110、及びデータ通信部111を有する。情報処理装置100のこれらの構成要素は、システムバス107を介して相互に接続されている。
【0013】
CPU101は、RAM103をワークエリアとして用い、ROM102又はHDD104に格納されたプログラムを実行することで、情報処理装置100の動作を統括的に制御する。CPU101が実行するプログラムには、動画編集アプリケーション・プログラムが含まれる。ROM102は、読み出し専用の不揮発性記憶媒体であり、ファームウェアなどのプログラムが格納されている。RAM103は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU101が情報を処理するときのワークエリアとして用いられる。HDD104は、情報の読み書きが可能な不揮発性の記憶媒体であり、OSや各種の制御プログラム、アプリケーション・プログラム、動画編集で使用する動画データや音声データ等が格納されている。
【0014】
GPU105は、CPU101と協働して、動画編集のための処理や、機械学習技術を用いる学習・推論等を実行する。一般的に、GPUはCPUと比べて、データをより多く並列処理することで効率的な演算を行うことができる。そのため、CPU101に加えてGPU105を用いる場合、ディープラーニングにおける学習済モデルを用いて複数回にわたり動画及び音声に関する推論を効率的に行うことができる。なお、後述する学習済モデルにおける推論処理は、CPU101又はGPU105の一方により行われてもよい。
【0015】
ネットワーク通信部106は、ネットワーク120を介してサーバ130と接続するためのインタフェースである。操作入力部108は、キーボード、マウス、及びタッチパネルなどを介して、ユーザからの操作を受け付ける。ユーザはその操作によって、動画編集アプリケーションを操作することができる。表示部109は、モニターやディスプレイであり、情報処理装置100のグラフィカルユーザインタフェース(GUI)を表示する。また、表示部109には、動画編集アプリケーションのGUIも表示され、ユーザはそのGUIを操作することで、動画編集が可能となる。音声出力部110は、スピーカ等の音声再生機器である。或いは、音声出力部110は、イヤホンやヘッドフォン等の音声再生機器と接続可能な出力端子であってもよい。ユーザは、音声出力部110を介して、動画編集アプリケーションにて再生された音声を聞き取ることが可能となる。
【0016】
データ通信部111は、USB、SD、PCIExpress、SATA等のインタフェースであり、USBメモリ、SDカード、SSDといった各種記録メディアとデータ通信が可能である。ユーザは、動画撮影により得られた動画データ及び音声データを、データ通信部111を介して取り込み、HDD104等に保存することが可能である。そして、ユーザは、HDD104等に保存した動画データ及び音声データを、動画編集アプリケーションで編集することが可能である。或いは、ユーザは、ネットワーク120を介して不図示のカメラ、PC、スマートフォン等の機器から動画データ及び音声データを取り込むことも可能である。動画データ及び音声データを情報処理装置100に取り込む方法は特に限定されない。
【0017】
サーバ130は、情報処理装置100の処理の一部を分担するためのサーバであり、例えばパーソナルコンピュータ(PC)等の装置である。本実施形態においてサーバ130が分担する処理は特に限定されないが、例えば、動画編集及び機械学習に関する処理であるが。
【0018】
サーバ130は、CPU131、ROM132、RAM133、HDD134、GPU135、及びネットワーク通信部136を有する。サーバ130のこれらの構成要素は、システムバス137を介して相互に接続されている。CPU131、ROM132、RAM133、HDD134、GPU135、及びネットワーク通信部136の機能はそれぞれ、情報処理装置100のCPU101、ROM102、RAM103、HDD104、GPU105、及びネットワーク通信部106と同様である。但し、一般的に、サーバ130は情報処理装置100より高機能・大容量のハードウェアリソースを有していることが多い。そのため、情報処理装置100だけではハードウェアリソースが不十分な場合に、サーバ130のハードウェアリソースを使用することで、効率的に処理を行うことが可能になる。しかし、情報処理装置100だけで全ての処理を完結させてもよい。従って、
図1Aに例示される画像処理システムは情報処理装置100及びサーバ130を含むが、本実施形態の画像処理システムは、サーバ130を含まなくてもよい。
【0019】
●画像処理システムの機能構成
図1Bは、
図1Aで示した画像処理システムのハードウェアがプログラム(ソフトウェア)と協働することで実現される機能構成を示す図である。
図1Bにおいて、画像処理システムは、領域選択部141、被写体種別判定部142、被写体ベクトル取得部143、被写体削除部144、音声種別判定部145、音声ベクトル取得部146、種別一致判定部147、音声削除部148を含む。また本実施形態のソフトウェアは動画編集アプリケーションを含む。CPU101がRAM103をワークエリアとしてROM102又はHDD104に格納されたプログラムを実行することで、動画編集アプリケーションが動作する。
【0020】
領域選択部141は、表示部109に表示された動画データの任意の1フレーム(領域選択フレーム)の画角内の任意の領域を選択する。例えば、領域選択部141は、操作入力部108を介したユーザによる指示に従って、ユーザが指定した領域を選択する。また、領域選択フレームは、例えば、動画データの中でユーザが指定したフレームである。
【0021】
被写体種別判定部142は、領域選択部141で選択された領域(選択領域)に含まれる被写体の種別(例えば、人、犬、自動車、又はその他)を判定し、判定された種別を示す情報を出力する。被写体の種別の判定は、例えば、選択領域の画像を入力として用い、入力画像に含まれる被写体の種別を識別するように構成された学習済モデル(第1の機械学習モデル)を用いる推論を行うことにより、実現される。
【0022】
本実施形態では、機械学習のために任意の既知の技術を用いることができる。例えば、被写体種別判定部142は、画像用学習済モデルを用いる。画像用学習済モデルの生成においては、識別対象となる画像を入力データとし、その入力データの画像の被写体種別の情報(例えば、人、犬、自動車、又はその他)を教師データとして、画像に対応する被写体の種別を出力する画像用学習済モデルが生成される。機械学習の具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシンなどが挙げられる。また、他のアルゴリズムとして、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習(ディープラーニング)も挙げられる。これらのアルゴリズムのうち利用できるものを適宜用いて、本実施形態に適用することができる。
【0023】
推論フェーズにおいて、画像用学習済モデルは、選択領域の画像を入力データとし、その画像に含まれる被写体の種別を示す情報(例えば、人、犬、自動車、又はその他)を出力する。
【0024】
なお、本実施形態において学習済モデルの生成、及び学習済モデルに基づく推論に使用するハードウェアは特に限定されないが、例えば、CPU101、GPU135、CPU131、及びGPU135の一部又は全部を用いてもよい。また、不図示の異なる装置を用いてもよい。
【0025】
被写体ベクトル取得部143は、被写体種別判定部142による種別の判定を通じて検出された被写体の速度ベクトルを算出する。例えば、被写体ベクトル取得部143は、領域選択フレームの前後数フレームにおいて被写体を追跡し、被写体の移動量から、被写体の速度ベクトルを算出する。被写体の追跡は、例えば、被写体種別判定部142と同様に、機械学習の技術を用いて各フレームにおける被写体を検出することにより行うことができる。或いは、機械学習の技術を使用せずに、フレーム間の画素値のパターンマッチングにより被写体の追跡を行ってもよい。被写体の速度ベクトルの算出に使用するハードウェアは特に限定されないが、例えば、CPU101、GPU135、CPU131、及びGPU135の一部又は全部を用いてもよい。
【0026】
被写体削除部144は、被写体種別判定部142により検出された被写体を領域選択フレームから削除する。また、領域選択フレームから被写体を単純に削除するだけだと、動画が不自然になるため、被写体削除部144は、被写体が削除される領域に対して、背景に同化する形で背景の補完を行う。また、被写体削除部144は、領域選択フレーム以外のフレームにおいても、対応する被写体が画角内に存在する場合には、同様に被写体の削除及び背景の補完を行う。被写体の削除に使用するハードウェアは特に限定されないが、例えば、CPU101、GPU135、CPU131、及びGPU135の一部又は全部を用いてもよい。
【0027】
音声種別判定部145は、被写体削除部144により被写体を削除したフレームに対応する音声データを解析し、音声データに含まれる音声の種別を示す情報(例えば、人、犬、自動車、又はその他)を出力する。音声の種別の判定は、例えば、音声データを入力として用い、入力音声データに含まれる各音声成分に対応する各被写体の種別を識別するように構成された学習済モデル(第2の機械学習モデル)を用いる推論を行うことにより、実現される。
【0028】
本実施形態では、機械学習のために任意の既知の技術を用いることができる。例えば、音声種別判定部145は、音声用学習済モデルを用いる。音声用学習済モデルの生成においては、識別対象となる音声を入力データとし、その入力データの音声に対応する被写体の種別の情報(例えば、人、犬、自動車、又はその他)を教師データとして、音声に対応する被写体の種別を出力する音声用学習済モデルを生成する。機械学習の具体的なアルゴリズムとしては、被写体種別判定部142の場合と同様に、様々なアルゴリズムを用いることができる。
【0029】
推論フェーズにおいて、音声用学習済モデルは、音声を入力データとし、その音声に含まれる各音声成分に対応する被写体の種別を示す情報(例えば、人、犬、自動車、又はその他)を出力する。
【0030】
なお、本実施形態において学習済モデルの生成、及び学習済モデルに基づく推論に使用するハードウェアは特に限定されないが、例えば、CPU101、GPU135、CPU131、及びGPU135の一部又は全部を用いてもよい。また、不図示の異なる装置を用いてもよい。
【0031】
音声ベクトル取得部146は、音声の位置や速度ベクトルを算出する。音声の位置や速度ベクトルの算出方法の例を以下に述べる。例えば音声データが2つのマイクを用いて収録されている場合、音声ベクトル取得部146は、被写体の音声の位置を、2つのマイクに到達する音の到達時間の差により特定する。その後、音声ベクトル取得部146は、被写体の音声の位置の移動と、音声データの時間軸により、被写体の音声の速度ベクトルを算出する。また、3つ以上のマイクを用いたマイクアレイや、指向性マイクを用いて音声データを収録することにより、音声発生源の位置や速度ベクトルをより算出し易いようにしてもよい。音声の速度ベクトルの算出に使用するハードウェアは特に限定されないが、例えば、CPU101、GPU135、CPU131、及びGPU135の一部又は全部を用いてもよい。また、不図示の異なる装置を用いてもよい。
【0032】
種別一致判定部147は、被写体種別判定部142で判定された被写体の種別と、音声種別判定部145で判定された音声の種別を照合して、削除される被写体の種別(例えば、人、犬、自動車、その他)と一致する種別の音声成分が存在するか判定する。また種別一致判定部147は、被写体ベクトル取得部143で算出された被写体の位置及び速度ベクトルと、音声ベクトル取得部146で算出された音声の位置及び速度ベクトルを照合して、削除される被写体の速度ベクトルと対応する音声の速度ベクトルがあるかを判定する。対応する音声の速度ベクトルがあった場合、音声ベクトル取得部146は、その音声(音声成分)を、削除される被写体と同一の種別であると判定することが可能である。これは、前述の画像用学習モデルや音声用学習モデルの学習が不十分等の理由で被写体の種別を正しく判別できなかった場合に、速度ベクトル算出という異なる機能を用いることで、削除される被写体に対応する音声成分を検出可能とするためである。また、種別一致判定部147は、速度ベクトルを用いず、被写体種別判定部142及び音声種別判定部145によって得られた種別情報のみを用いてもよい。或いは、被写体種別判定部142及び音声種別判定部145によって得られた種別情報を用いず、速度ベクトルのみを用いてもよい。このように、動画データから削除される被写体に対応する音声成分を識別する方法は特に限定されず、ここで説明した方法を含む様々な方法を用いることができる。
【0033】
音声削除部148は、種別一致判定部147で削除される被写体と対応すると判定された音声成分をその他の音声成分から分離して削除する。削除される被写体と対応する音声成分以外の音声成分は削除されない。音声成分の分離及び削除に関しては、任意の既知の技術を用いることができる。複数ある技術のうち一例を説明すると、音声削除部148は、音声種別判定部145に関して説明したものと同様の音声用学習済みモデルを用いて音声の種別を判定し、種別ごとに音声成分を分離する。このとき、音声削除部148は、音声データをフーリエ変換し、スペクトル情報として音声データを扱い、削除したい音声種別のスペクトルをマスクし、逆フーリエ変換をして音声データに戻すことで、特定の音声種別のみ削除された音声データを生成可能である。
【0034】
●画像処理の流れ
図2は、画像処理システムが実行する画像処理のフローチャートである。画像処理の対象は、音声データを伴う動画データである。前述の通り、音声データ及び動画データは、例えばHDD104に記録されている。情報処理装置100のユーザが、動画編集アプリケーションのユーザインタフェースにおいて、被写体を削除する機能を選択すると、本フローチャートの処理が開始する。
【0035】
なお、本フローチャートの全体制御は、CPU101により行われる。また、本フローチャートの各ステップの処理は、
図1Bに示す各部により行われる。
図1Bに示す各部の機能を実現するハードウェアは特に限定されず、技術的に可能である限り、例えば、CPU101、GPU135、CPU131、及びGPU135の一部又は全部により実現される。
【0036】
S201で、領域選択部141は、動画データの複数のフレームのうちの特定のフレーム(領域選択フレーム)において、特定の領域(選択領域)を選択する。選択領域は、例えばユーザが指定した領域である。
【0037】
S202で、被写体種別判定部142は、選択領域に含まれる被写体(対象被写体)の種別(第1の種別)を判定する。これにより、対象被写体が検出されると共に、その種別が識別される。加えて、被写体ベクトル取得部143が、対象被写体の、複数のフレームに亘る速度ベクトルを算出(取得)してもよい。
【0038】
S203で、被写体種別判定部142は、動画データの他のフレーム(領域選択フレーム以外のフレーム)において、対象被写体を検出する。
【0039】
S204で、被写体削除部144は、S201又はS202における被写体検出により対象被写体が検出された1以上のフレーム(対象フレーム)の各フレームから、対象被写体を削除する。対象被写体の削除に伴い、被写体削除部144は、削除された被写体の領域を背景に同化する形で補完を行う。例えば、500フレームある動画データの中で対象被写体が201番目~300番目のフレームの画角内に写っているとした場合に、201番目~300番目のフレームについて、対象被写体の削除及び背景の補完が行われる。
【0040】
S205で、音声種別判定部145は、音声データに含まれる音声の種別(各音声成分に対応する各被写体の種別)を判定する。加えて、音声ベクトル取得部146が、対象被写体に対応する音声成分の、複数のフレームに亘る速度ベクトルを算出(取得)してもよい。
【0041】
S206で、種別一致判定部147は、音声データにおいて対象被写体に対応する音声成分の検出を行い、対象被写体に対応する音声成分が存在するか否かを判定する。対象被写体に対応する音声成分が存在する場合、処理はS207に進み、そうでない場合、本フローチャートの処理は終了する。
【0042】
種別一致判定部147による音声検出(対象被写体に対応する音声成分の検出)は、S202で判定された対象被写体の種別と、S205で判定された音声の種別に基づいて行われる。例えば、対象被写体の種別が「自動車」であり、音声の種別が「自動車」及び「人」であった場合を考える。この場合、音声データの中に自動車に対応する音声成分が含まれており、自動車に対応する音声成分が、対象被写体に対応する音声成分として検出される。或いは、種別一致判定部147は、S202及びS205で判定された種別の代わりに、又はこれに加えて、S202及びS205で取得された速度ベクトルを用いて対象被写体に対応する音声成分を検出してもよい。速度ベクトルを用いる場合、種別一致判定部147は、対象被写体の速度ベクトルと、対象被写体に対応する音声成分の速度ベクトルとを照合することにより、音声データ(の各フレーム)において対象被写体に対応する音声成分を検出することができる。
【0043】
S207で、音声削除部148は、音声データから、対象被写体に対応する音声成分を分離して削除する。対象被写体に対応する音声成分以外の音声成分は、削除されない。
【0044】
なお、動画撮影時に対象被写体が画角に含まれていない場合であっても、対象被写体が撮像装置(カメラ)のマイクの近くで音声を発していれば、対象被写体の音声成分が音声データの中に記録される可能性がある。そのため、S203において対象被写体が検出されなかったフレームに対応する音声データについて、S206において対象被写体に対応する音声成分が検出される可能性がある。従って、S207において音声削除部148は、対象被写体が含まれていないフレームについても、対象被写体に対応する音声成分が存在すれば、その音声成分を音声データから削除することができる。例えば、500フレームある動画データの中で、対象被写体が201番目~300番目のフレームの画角内に写っており、対象被写体に対応する音声成分は101番目~400番目のフレームに対応する音声データの中に存在する場合を考える。この場合、S205で、音声種別判定部145が音声データの全体に対して音声の種別を判定する処理を行うと、101番目~400番目のフレームに対応する音声データの部分から、対象被写体に対応する音声成分が検出される。そこで、音声削除部148は、対象被写体に対応する音声成分が存在する101番目~400番目のフレームを対象として、対象被写体に対応する音声成分を削除することができる。
【0045】
また、対象被写体が存在しないフレームについての、対象被写体に対応する音声成分が存在するか否かを判断する際に、対象被写体が画角内に存在した期間を考慮してもよい。例えば、音声種別判定部145は、被写体が画角内に存在した期間の前後の期間に対応する音声データについて、所定期間ごとに音声の種別を判定してもよい。所定期間は、例えば、被写体が画角内に存在した期間の前後に、予め決められた長さの期間(例えば10フレーム期間)として設定される。音声種別判定部145は、対象被写体に対応する音声成分が存在しなくなるまで、被写体が画角内に存在した期間に近い期間から遠い期間に向かって、順に所定期間を設定することを繰り返してもよい。或いは、音声種別判定部145は、前述の被写体ベクトル取得部143や音声ベクトル取得部146で算出した速度ベクトルや、対象被写体の種別と同じ種別の被写体に対応する音声の音量の推移から、対象被写体に対応する音声成分が消失するフレームを予測する演算を行い、予測したフレームまでについて、音声成分の削除を行ってもよい。
【0046】
●対象被写体及び対応する音声成分の削除の例
図3A~
図3C、及び
図4A~
図4Bを参照して、対象被写体及び対応する音声成分の削除の例について説明する。
【0047】
図3Aは、動画データにおいて連続する3つのフレームの例を示す。これら3つのフレームにおいて、自動車301は、右から左へ向かって移動している。自動車301以外の被写体は静止している。
【0048】
図2のS210で、
図3Aの中段のフレーム(n番目のフレーム)が表示部109に表示されている状態で、ユーザが領域310を指定したものとする。領域選択部141は、ユーザによる領域310の指定に応じて、領域310を選択する。この処理は、
図2のS210に対応する。
【0049】
なお、
図3Aに示す領域310は矩形であるが、領域310の形状及び指定方法は特に限定されない。例えば、領域310は円形であってもよい。また、ユーザがフリーハンドで所望の領域を囲むことにより領域310を指定する構成を採用してもよい。
【0050】
被写体種別判定部142は、領域310に含まれる被写体の種別が自動車であると判定する。そして、被写体種別判定部142は、動画データの他のフレームにおいて、対象被写体である自動車を検出する。その結果、
図3Aの上段及び下段のフレームにおいても、自動車301が検出される。この処理は、
図2のS202~S203に対応する。
【0051】
次に、被写体削除部144は、
図3Bに示すように、自動車301が検出された各フレームから、自動車301を削除する。続いて、被写体削除部144は、
図3Cに示すように、削除される自動車301の領域を、背景に同化する形で補完する。この処理は、
図2のS204に対応する。
【0052】
図4Aは、
図3Aに示す3つのフレームに対応する音声データの概念図である。音声種別判定部145は、これら3つのフレームの音声データに含まれる音声の種別を判定する。そして、種別一致判定部147は、
図3Aの自動車301に対応する音声成分(自動車の音声401)を検出する。この処理は、
図2のS205~S206に対応する。
【0053】
次に、音声削除部148は、自動車301に対応する音声成分(自動車の音声401)を削除する。その結果、
図4Bに示すように、3つのフレームに対応する音声データは、自動車301に対応する音声成分を含まない一方で、犬及び人の音声成分は含んだ状態になる。この処理は、
図2のS207に対応する。
【0054】
なお、
図4Aに示す3つのフレーム以外のフレームにも自動車301に対応する音声成分が含まれている場合には、音声削除部148は、これらのフレームについても同様に、自動車301に対応する音声成分の削除を行う。
【0055】
●第1の実施形態のまとめ
以上説明したように、第1の実施形態によれば、音声データを伴う動画データから特定の被写体(第1の種別の被写体)が削除される場合、音声データから、削除される被写体に対応する音声成分が削除される。そのため、音声付き動画の再生時に、削除済みのため表示されない被写体に対応する音声成分が残った音声が再生されることを防止することができる。従って、本実施形態によれば、音声付き動画の品質の低下を抑制しつつ、音声付き動画から特定の被写体を削除することが可能となる。
【0056】
なお、上で
図2を参照して説明した画像処理の具体的な手順は、削除済みのため表示されない被写体に対応する音声成分が残った音声が再生されることを防止することを実現するための処理手順の一例に過ぎない。音声データを伴う動画データから特定の被写体を削除すると共に、削除される被写体に対応する音声成分を音声データから削除することを実現する任意の構成が、本実施形態の技術的思想の範囲に含まれる。従って、第1の実施形態をより一般化していうと、画像処理システムは、音声データを伴う動画データの複数のフレームにおいて、特定の被写体(第1の種別の被写体)を検出し、複数のフレームのうちの第1の種別の被写体が検出された1以上のフレームから、第1の種別の被写体を削除する。また、画像処理システムは、音声データにおいて、第1の種別の被写体に対応する音声成分を検出し、音声データから、第1の種別の被写体に対応する音声成分を削除する。
【0057】
[第2の実施形態]
第1の実施形態では、動画データから削除すべき被写体を先に決定した上で、その被写体に対応する音声成分を音声データから削除する構成について説明した。これに対し、第2の実施形態では、音声データから削除すべき音声成分を先に決定した上で、その音声成分に対応する被写体を動画データから削除する構成について説明する。なお、第2の実施形態において、画像処理システムのハードウェア構成(
図1A)を含む基本的な構成は、第1の実施形態と同様である。以下、主に第1の実施形態と異なる点について説明を行う。
【0058】
●画像処理システムの機能構成
図5は、
図1Aで示した画像処理システムのハードウェアがプログラム(ソフトウェア)と協働することで実現される機能構成を示す図である。
図5において、画像処理システムは、音声種別判定部501、音声選択部502、音声削除部503、被写体種別判定部504、種別一致判定部505、及び被写体削除部506を含む。
【0059】
音声種別判定部501は、音声種別判定部145と概ね同じ機能を備える。但し、音声種別判定部501は、音声データの全期間のうちのユーザが指定した期間、又は全期間について、音声データに含まれる音声の種別を判定し、種別を示す情報(例えば、人、犬、自動車、又はその他)を出力する。
【0060】
音声選択部502の機能については、
図6を参照して後述する。音声削除部503の機能は、音声削除部148と同様である。
【0061】
被写体種別判定部504は、被写体種別判定部142と概ね同じ機能を備える。但し、被写体種別判定部142は特定のフレームの特定の領域に含まれる被写体の種別を判定したが、被写体種別判定部504は、音声削除部503により削除された音声成分に対応する期間のフレーム全てを解析する。また、ユーザは領域指定を行わないため、被写体種別判定部504は、フレーム内の全ての画素を解析対象とし、フレーム内に含まれる各被写体の種別を含む情報(例えば、人、犬、自動車、又はその他)を出力する。
【0062】
種別一致判定部505の機能は、種別一致判定部147と同様である。被写体削除部506の機能は、被写体削除部144と同様である。
【0063】
●画像処理の流れ
図6は、画像処理システムが実行する画像処理のフローチャートである。画像処理の対象は、音声データを伴う動画データである。第1の実施形態と同様に、音声データ及び動画データは、例えばHDD104に記録されている。情報処理装置100のユーザが、動画編集アプリケーションのユーザインタフェースにおいて、被写体を削除する機能を選択すると、本フローチャートの処理が開始する。
【0064】
なお、本フローチャートの全体制御は、CPU101により行われる。また、本フローチャートの各ステップの処理は、
図5に示す各部により行われる。
図5に示す各部の機能を実現するハードウェアは特に限定されず、技術的に可能である限り、例えば、CPU101、GPU135、CPU131、及びGPU135の一部又は全部により実現される。
【0065】
S601で、音声種別判定部501は、音声データに含まれる音声の種別を判定し、種別ごとに音声成分を分離し、各音声成分の種別を表示部109に表示する。
【0066】
ここで
図7を参照して、S601における処理の例を説明する。
図7の上段は、処理対象の音声データの概念図である。「ALL」は全ての音声成分を含んだ音声データを概念的に示しており、横軸は時間、縦軸は音量を示している。
図7の下段は、分離された各音声成分の概念図である。種別を判定できない音声成分に関しては、「その他」の音声成分として分離される。以下では、音声データが、人A、人B、自動車A、犬A、及びその他の音声成分に分離された場合を例に説明を行う。
【0067】
S602で、音声選択部502は、S601において分離された複数の音声成分のうちの特定の種別に対応する特定の音声成分を選択する。ここで、音声選択部502は、ユーザにより指定された音声成分を選択してもよい。以下では、ユーザが自動車Aに対応する音声成分を指定した場合を例に説明を行う。また、500フレームある動画データにおいて、自動車Aに対応する音声成分が101番目~400番目のフレームに対応する音声データに含まれているものとする。
【0068】
S603で、音声削除部503は、S602で選択された音声成分(対象音声成分)を音声データから削除する。なお、選択された音声成分以外の音声成分は削除されない。例えば、101番目~400番目のフレームに対応する音声データに含まれる自動車Aに対応する音声成分が削除される。
【0069】
S604で、被写体種別判定部504は、動画データに含まれる被写体の種別を判定する。例えば、被写体種別判定部504は、削除された音声成分に対応する101番目~400番目のフレームを対象として、被写体の種別を判定する。本実施形態では、第1の実施形態と異なり、領域選択部141によるフレームの領域の選択は行われない。そのため、被写体種別判定部504は、各フレーム内の全ての画素を解析対象とし、解析したフレームに含まれる各被写体の種別を示す情報(例えば、人、犬、自動車、その他)を出力する。
【0070】
なお、S604において被写体の種別を判定する処理の対象は、削除された音声成分に対応するフレームに限定されない。例えば、被写体種別判定部504は、動画データの全フレームを対象として、被写体の種別を判定してもよい。
【0071】
S605で、種別一致判定部505は、S604における判定結果に基づき、対象音声成分の種別に対応する被写体が動画データの中に存在するか否かを判定する。例えば、自動車Aの音声成分が対象音声成分(S603で削除された音声成分)である場合、種別一致判定部505は、S604における判定結果の中に自動車が含まれているか否かを判定する。対象音声成分の種別に対応する被写体が動画データの中に存在する場合、処理はS606に進み、そうでない場合、本フローチャートの処理は終了する。
【0072】
S606で、被写体削除部506は、動画データの各フレーム(S604及びS605の処理を通じて対象音声成分の種別に対応する被写体が検出されたフレーム)から、対象音声成分の種別に対応する被写体を削除する。被写体の削除に伴い、被写体削除部506は、削除された被写体の領域を背景に同化する形で補完を行う。
【0073】
●第2の実施形態のまとめ
以上説明したように、第2の実施形態によれば、音声データにおいて特定の被写体(第1の種別の被写体)に対応する音声成分が選択され、選択された音声成分が音声データから削除される。また、削除される音声成分に対応する被写体が、音声データに対応する動画データから削除される。そのため、音声付き動画の再生時に、削除済みのため表示されない被写体に対応する音声成分が残った音声が再生されることを防止することができる。従って、本実施形態によれば、音声付き動画の品質の低下を抑制しつつ、音声付き動画から特定の被写体を削除することが可能となる。
【0074】
[その他の実施形態]
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0075】
[まとめ]
上述した実施形態は、少なくとも以下の各項目に示す発明を開示しているが、これらの発明に限定されない。
[項目1]
音声データを伴う動画データの複数のフレームにおいて、第1の種別の被写体を検出する被写体検出手段と、
前記複数のフレームのうちの前記第1の種別の被写体が検出された1以上のフレームから、前記第1の種別の被写体を削除する被写体削除手段と、
前記音声データにおいて、前記第1の種別の被写体に対応する音声成分を検出する音声検出手段と、
前記音声データから、前記第1の種別の被写体に対応する前記音声成分を削除する音声削除手段と、
を備えることを特徴とする画像処理システム。
[項目2]
前記被写体検出手段は、前記複数のフレームのうちの第1のフレームの第1の領域の画像に基づいて、前記第1の領域に含まれる被写体の種別を識別し、
前記第1の種別は、前記第1の領域に含まれる前記被写体の前記種別である
ことを特徴とする項目1に記載の画像処理システム。
[項目3]
前記被写体検出手段は、前記第1の領域の画像を入力として第1の機械学習モデルを用いる推論を行うことにより、前記第1の領域に含まれる前記被写体の前記種別を識別する
ことを特徴とする項目2に記載の画像処理システム。
[項目4]
ユーザによる指示に従って、前記第1のフレームにおいて前記第1の領域を選択する領域選択手段
を更に備えることを特徴とする項目2又は3に記載の画像処理システム。
[項目5]
前記第1の領域に含まれる前記被写体の、前記複数のフレームに亘る速度ベクトルを取得する被写体ベクトル取得手段と、
前記第1の領域に含まれる前記被写体に対応する音声成分の、前記複数のフレームに亘る速度ベクトルを取得する音声ベクトル取得手段と、
を更に備え、
前記音声検出手段は、前記第1の領域に含まれる前記被写体の前記速度ベクトルと、前記第1の領域に含まれる前記被写体に対応する前記音声成分の前記速度ベクトルとを照合することにより、前記音声データにおいて前記第1の種別の被写体に対応する前記音声成分を検出する
ことを特徴とする項目2乃至4のいずれか1項に記載の画像処理システム。
[項目6]
前記音声検出手段は、前記音声データを入力として第2の機械学習モデルを用いる推論を行うことにより、前記音声データにおいて前記第1の種別の被写体に対応する前記音声成分を検出する
ことを特徴とする項目1乃至4のいずれか1項に記載の画像処理システム。
[項目7]
前記音声検出手段は、前記音声データを入力として第2の機械学習モデルを用いる推論を行うことにより、前記音声データにおいて、各々が異なる種別の被写体に対応する複数の音声成分を検出し、
前記画像処理システムは、前記複数の音声成分のいずれかを選択する音声選択手段を更に備え、
前記第1の種別は、前記複数の音声成分のうちの前記選択された音声成分に対応する被写体の種別である
ことを特徴とする項目1に記載の画像処理システム。
[項目8]
画像処理システムが実行する画像処理方法であって、
音声データを伴う動画データの複数のフレームにおいて、第1の種別の被写体を検出する被写体検出工程と、
前記複数のフレームのうちの前記第1の種別の被写体が検出された1以上のフレームから、前記第1の種別の被写体を削除する被写体削除工程と、
前記音声データにおいて、前記第1の種別の被写体に対応する音声成分を検出する音声検出工程と、
前記音声データから、前記第1の種別の被写体に対応する前記音声成分を削除する音声削除工程と、
を備えることを特徴とする画像処理方法。
[項目9]
コンピュータを、項目1乃至7のいずれか1項に記載の画像処理システムの各手段として機能させるためのプログラム。
【0076】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【符号の説明】
【0077】
141…領域選択部、142…被写体種別判定部、143…被写体ベクトル取得部、144…被写体削除部、145…音声種別判定部、146…音声ベクトル取得部、147…種別一致判定部、148…音声削除部