特開2024-168219 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特開2024-168219画像処理システム、画像処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3A
3B
3C
4A
4B
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024168219

(43)【公開日】2024-12-05

(54)【発明の名称】画像処理システム、画像処理方法、及びプログラム

(51)【国際特許分類】

H04N 23/60 20230101AFI20241128BHJP

G10L 25/51 20130101ALI20241128BHJP

G10L 21/0272 20130101ALI20241128BHJP

G06T 7/70 20170101ALI20241128BHJP

G09G 5/36 20060101ALI20241128BHJP

G09G 5/00 20060101ALI20241128BHJP

【ＦＩ】

H04N23/60 500

G10L25/51

G10L21/0272 100Z

G06T7/70

G09G5/36 400

G09G5/00 510Q

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2023084704

(22)【出願日】2023-05-23

(71)【出願人】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110003281

【氏名又は名称】弁理士法人大塚国際特許事務所

(72)【発明者】

【氏名】横山秀磨

(72)【発明者】

【氏名】吉澤明高

【テーマコード（参考）】

5C122

5C182

5L096

【Ｆターム（参考）】

5C122EA12

5C122EA42

5C122FH09

5C122FH11

5C122FH12

5C122FH14

5C122FJ04

5C122FJ12

5C122HA13

5C122HA35

5C122HA48

5C122HB01

5C182AB02

5C182AB08

5C182AC43

5C182BA01

5C182BA03

5C182BA04

5C182BA06

5C182BA35

5C182BA75

5C182BC26

5C182CB44

5C182CB47

5C182DA44

5L096AA06

5L096BA08

5L096DA01

5L096FA19

5L096FA69

5L096HA05

5L096HA08

5L096KA04

(57)【要約】

【課題】音声付き動画の品質の低下を抑制しつつ、音声付き動画から特定の被写体を削除することを可能にする技術を提供する。
【解決手段】音声データを伴う動画データの複数のフレームにおいて、第１の種別の被写体を検出する被写体検出手段と、前記複数のフレームのうちの前記第１の種別の被写体が検出された１以上のフレームから、前記第１の種別の被写体を削除する被写体削除手段と、前記音声データにおいて、前記第１の種別の被写体に対応する音声成分を検出する音声検出手段と、前記音声データから、前記第１の種別の被写体に対応する前記音声成分を削除する音声削除手段と、を備えることを特徴とする画像処理システムを提供する。
【選択図】図２

【特許請求の範囲】

【請求項1】

音声データを伴う動画データの複数のフレームにおいて、第１の種別の被写体を検出する被写体検出手段と、
前記複数のフレームのうちの前記第１の種別の被写体が検出された１以上のフレームから、前記第１の種別の被写体を削除する被写体削除手段と、
前記音声データにおいて、前記第１の種別の被写体に対応する音声成分を検出する音声検出手段と、
前記音声データから、前記第１の種別の被写体に対応する前記音声成分を削除する音声削除手段と、
を備えることを特徴とする画像処理システム。

【請求項2】

前記被写体検出手段は、前記複数のフレームのうちの第１のフレームの第１の領域の画像に基づいて、前記第１の領域に含まれる被写体の種別を識別し、
前記第１の種別は、前記第１の領域に含まれる前記被写体の前記種別である
ことを特徴とする請求項１に記載の画像処理システム。

【請求項3】

前記被写体検出手段は、前記第１の領域の画像を入力として第１の機械学習モデルを用いる推論を行うことにより、前記第１の領域に含まれる前記被写体の前記種別を識別する
ことを特徴とする請求項２に記載の画像処理システム。

【請求項4】

ユーザによる指示に従って、前記第１のフレームにおいて前記第１の領域を選択する領域選択手段
を更に備えることを特徴とする請求項２に記載の画像処理システム。

【請求項5】

前記第１の領域に含まれる前記被写体の、前記複数のフレームに亘る速度ベクトルを取得する被写体ベクトル取得手段と、
前記第１の領域に含まれる前記被写体に対応する音声成分の、前記複数のフレームに亘る速度ベクトルを取得する音声ベクトル取得手段と、
を更に備え、
前記音声検出手段は、前記第１の領域に含まれる前記被写体の前記速度ベクトルと、前記第１の領域に含まれる前記被写体に対応する前記音声成分の前記速度ベクトルとを照合することにより、前記音声データにおいて前記第１の種別の被写体に対応する前記音声成分を検出する
ことを特徴とする請求項２に記載の画像処理システム。

【請求項6】

前記音声検出手段は、前記音声データを入力として第２の機械学習モデルを用いる推論を行うことにより、前記音声データにおいて前記第１の種別の被写体に対応する前記音声成分を検出する
ことを特徴とする請求項１に記載の画像処理システム。

【請求項7】

前記音声検出手段は、前記音声データを入力として第２の機械学習モデルを用いる推論を行うことにより、前記音声データにおいて、各々が異なる種別の被写体に対応する複数の音声成分を検出し、
前記画像処理システムは、前記複数の音声成分のいずれかを選択する音声選択手段を更に備え、
前記第１の種別は、前記複数の音声成分のうちの前記選択された音声成分に対応する被写体の種別である
ことを特徴とする請求項１に記載の画像処理システム。

【請求項8】

画像処理システムが実行する画像処理方法であって、
音声データを伴う動画データの複数のフレームにおいて、第１の種別の被写体を検出する被写体検出工程と、
前記複数のフレームのうちの前記第１の種別の被写体が検出された１以上のフレームから、前記第１の種別の被写体を削除する被写体削除工程と、
前記音声データにおいて、前記第１の種別の被写体に対応する音声成分を検出する音声検出工程と、
前記音声データから、前記第１の種別の被写体に対応する前記音声成分を削除する音声削除工程と、
を備えることを特徴とする画像処理方法。

【請求項9】

コンピュータを、請求項１乃至７のいずれか１項に記載の画像処理システムの各手段として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理システム、画像処理方法、及びプログラムに関する。

【背景技術】

【0002】

現在、音声付き動画を撮影する機能を備えるデジタルカメラやスマートフォンが普及している。ユーザが撮影した音声付き動画には、ユーザにとって不要な被写体が映り込んでしまうことがある。例えば、ユーザが人物を撮影したい場合に、ユーザにとって不要な車が映り込んでしまうことがある。

【0003】

また、現在、画像内の不要領域をその痕跡を残さないように消去する技術が知られている（特許文献１）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００７－２８６７３４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

音声付き動画から、音声を発している被写体を削除した場合を考える。この場合、音声付き動画の再生時に、削除済みのため表示されない被写体に対応する音声成分が残った音声が再生されるため、ユーザが違和感を覚える可能性がある。このように、音声付き動画から、音声を発している被写体を削除すると、音声付き動画の品質が低下する。

【0006】

本発明はこのような状況に鑑みてなされたものであり、音声付き動画の品質の低下を抑制しつつ、音声付き動画から特定の被写体を削除することを可能にする技術を提供することを目的とする。

【課題を解決するための手段】

【0007】

上記課題を解決するために、本発明は、音声データを伴う動画データの複数のフレームにおいて、第１の種別の被写体を検出する被写体検出手段と、前記複数のフレームのうちの前記第１の種別の被写体が検出された１以上のフレームから、前記第１の種別の被写体を削除する被写体削除手段と、前記音声データにおいて、前記第１の種別の被写体に対応する音声成分を検出する音声検出手段と、前記音声データから、前記第１の種別の被写体に対応する前記音声成分を削除する音声削除手段と、を備えることを特徴とする画像処理システムを提供する。

【発明の効果】

【0008】

本発明によれば、音声付き動画の品質の低下を抑制しつつ、音声付き動画から特定の被写体を削除することが可能となる。

【0009】

なお、本発明のその他の特徴及び利点は、添付図面及び以下の発明を実施するための形態における記載によって更に明らかになるものである。

【図面の簡単な説明】

【0010】

【図1A】画像処理システムのハードウェア構成を示す図。

【図1B】第１の実施形態に係る画像処理システムの機能構成を示す図。

【図2】第１の実施形態に係る画像処理システムが実行する画像処理のフローチャート。

【図3A】第１の実施形態に係る、被写体の削除の例を説明する図。

【図3B】第１の実施形態に係る、被写体の削除の例を説明する図。

【図3C】第１の実施形態に係る、被写体の削除の例を説明する図。

【図4A】第１の実施形態に係る、音声成分の削除の例を説明する図。

【図4B】第１の実施形態に係る、音声成分の削除の例を説明する図。

【図5】第２の実施形態に係る画像処理システムの機能構成を示す図。

【図6】第２の実施形態に係る画像処理システムが実行する画像処理のフローチャート。

【図7】第２の実施形態に係る、音声成分の分離の例を説明する図。

【発明を実施するための形態】

【0011】

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

【0012】

［第１の実施形態］
●画像処理システムのハードウェア構成
図１Ａは、画像処理システムのハードウェア構成を示す図である。図１Ａにおいて、情報処理装置１００は、動画編集機能を備える装置であり、例えばパーソナルコンピュータ（ＰＣ）やスマートフォン等の装置である。情報処理装置１００は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、ＨＤＤ１０４、ＧＰＵ１０５、ネットワーク通信部１０６、操作入力部１０８、表示部１０９、音声出力部１１０、及びデータ通信部１１１を有する。情報処理装置１００のこれらの構成要素は、システムバス１０７を介して相互に接続されている。

【0013】

ＣＰＵ１０１は、ＲＡＭ１０３をワークエリアとして用い、ＲＯＭ１０２又はＨＤＤ１０４に格納されたプログラムを実行することで、情報処理装置１００の動作を統括的に制御する。ＣＰＵ１０１が実行するプログラムには、動画編集アプリケーション・プログラムが含まれる。ＲＯＭ１０２は、読み出し専用の不揮発性記憶媒体であり、ファームウェアなどのプログラムが格納されている。ＲＡＭ１０３は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、ＣＰＵ１０１が情報を処理するときのワークエリアとして用いられる。ＨＤＤ１０４は、情報の読み書きが可能な不揮発性の記憶媒体であり、ＯＳや各種の制御プログラム、アプリケーション・プログラム、動画編集で使用する動画データや音声データ等が格納されている。

【0014】

ＧＰＵ１０５は、ＣＰＵ１０１と協働して、動画編集のための処理や、機械学習技術を用いる学習・推論等を実行する。一般的に、ＧＰＵはＣＰＵと比べて、データをより多く並列処理することで効率的な演算を行うことができる。そのため、ＣＰＵ１０１に加えてＧＰＵ１０５を用いる場合、ディープラーニングにおける学習済モデルを用いて複数回にわたり動画及び音声に関する推論を効率的に行うことができる。なお、後述する学習済モデルにおける推論処理は、ＣＰＵ１０１又はＧＰＵ１０５の一方により行われてもよい。

【0015】

ネットワーク通信部１０６は、ネットワーク１２０を介してサーバ１３０と接続するためのインタフェースである。操作入力部１０８は、キーボード、マウス、及びタッチパネルなどを介して、ユーザからの操作を受け付ける。ユーザはその操作によって、動画編集アプリケーションを操作することができる。表示部１０９は、モニターやディスプレイであり、情報処理装置１００のグラフィカルユーザインタフェース（ＧＵＩ）を表示する。また、表示部１０９には、動画編集アプリケーションのＧＵＩも表示され、ユーザはそのＧＵＩを操作することで、動画編集が可能となる。音声出力部１１０は、スピーカ等の音声再生機器である。或いは、音声出力部１１０は、イヤホンやヘッドフォン等の音声再生機器と接続可能な出力端子であってもよい。ユーザは、音声出力部１１０を介して、動画編集アプリケーションにて再生された音声を聞き取ることが可能となる。

【0016】

データ通信部１１１は、ＵＳＢ、ＳＤ、ＰＣＩＥｘｐｒｅｓｓ、ＳＡＴＡ等のインタフェースであり、ＵＳＢメモリ、ＳＤカード、ＳＳＤといった各種記録メディアとデータ通信が可能である。ユーザは、動画撮影により得られた動画データ及び音声データを、データ通信部１１１を介して取り込み、ＨＤＤ１０４等に保存することが可能である。そして、ユーザは、ＨＤＤ１０４等に保存した動画データ及び音声データを、動画編集アプリケーションで編集することが可能である。或いは、ユーザは、ネットワーク１２０を介して不図示のカメラ、ＰＣ、スマートフォン等の機器から動画データ及び音声データを取り込むことも可能である。動画データ及び音声データを情報処理装置１００に取り込む方法は特に限定されない。

【0017】

サーバ１３０は、情報処理装置１００の処理の一部を分担するためのサーバであり、例えばパーソナルコンピュータ（ＰＣ）等の装置である。本実施形態においてサーバ１３０が分担する処理は特に限定されないが、例えば、動画編集及び機械学習に関する処理であるが。

【0018】

サーバ１３０は、ＣＰＵ１３１、ＲＯＭ１３２、ＲＡＭ１３３、ＨＤＤ１３４、ＧＰＵ１３５、及びネットワーク通信部１３６を有する。サーバ１３０のこれらの構成要素は、システムバス１３７を介して相互に接続されている。ＣＰＵ１３１、ＲＯＭ１３２、ＲＡＭ１３３、ＨＤＤ１３４、ＧＰＵ１３５、及びネットワーク通信部１３６の機能はそれぞれ、情報処理装置１００のＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、ＨＤＤ１０４、ＧＰＵ１０５、及びネットワーク通信部１０６と同様である。但し、一般的に、サーバ１３０は情報処理装置１００より高機能・大容量のハードウェアリソースを有していることが多い。そのため、情報処理装置１００だけではハードウェアリソースが不十分な場合に、サーバ１３０のハードウェアリソースを使用することで、効率的に処理を行うことが可能になる。しかし、情報処理装置１００だけで全ての処理を完結させてもよい。従って、図１Ａに例示される画像処理システムは情報処理装置１００及びサーバ１３０を含むが、本実施形態の画像処理システムは、サーバ１３０を含まなくてもよい。

【0019】

●画像処理システムの機能構成
図１Ｂは、図１Ａで示した画像処理システムのハードウェアがプログラム（ソフトウェア）と協働することで実現される機能構成を示す図である。図１Ｂにおいて、画像処理システムは、領域選択部１４１、被写体種別判定部１４２、被写体ベクトル取得部１４３、被写体削除部１４４、音声種別判定部１４５、音声ベクトル取得部１４６、種別一致判定部１４７、音声削除部１４８を含む。また本実施形態のソフトウェアは動画編集アプリケーションを含む。ＣＰＵ１０１がＲＡＭ１０３をワークエリアとしてＲＯＭ１０２又はＨＤＤ１０４に格納されたプログラムを実行することで、動画編集アプリケーションが動作する。

【0020】

領域選択部１４１は、表示部１０９に表示された動画データの任意の１フレーム（領域選択フレーム）の画角内の任意の領域を選択する。例えば、領域選択部１４１は、操作入力部１０８を介したユーザによる指示に従って、ユーザが指定した領域を選択する。また、領域選択フレームは、例えば、動画データの中でユーザが指定したフレームである。

【0021】

被写体種別判定部１４２は、領域選択部１４１で選択された領域（選択領域）に含まれる被写体の種別（例えば、人、犬、自動車、又はその他）を判定し、判定された種別を示す情報を出力する。被写体の種別の判定は、例えば、選択領域の画像を入力として用い、入力画像に含まれる被写体の種別を識別するように構成された学習済モデル（第１の機械学習モデル）を用いる推論を行うことにより、実現される。

【0022】

本実施形態では、機械学習のために任意の既知の技術を用いることができる。例えば、被写体種別判定部１４２は、画像用学習済モデルを用いる。画像用学習済モデルの生成においては、識別対象となる画像を入力データとし、その入力データの画像の被写体種別の情報（例えば、人、犬、自動車、又はその他）を教師データとして、画像に対応する被写体の種別を出力する画像用学習済モデルが生成される。機械学習の具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシンなどが挙げられる。また、他のアルゴリズムとして、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習（ディープラーニング）も挙げられる。これらのアルゴリズムのうち利用できるものを適宜用いて、本実施形態に適用することができる。

【0023】

推論フェーズにおいて、画像用学習済モデルは、選択領域の画像を入力データとし、その画像に含まれる被写体の種別を示す情報（例えば、人、犬、自動車、又はその他）を出力する。

【0024】

なお、本実施形態において学習済モデルの生成、及び学習済モデルに基づく推論に使用するハードウェアは特に限定されないが、例えば、ＣＰＵ１０１、ＧＰＵ１３５、ＣＰＵ１３１、及びＧＰＵ１３５の一部又は全部を用いてもよい。また、不図示の異なる装置を用いてもよい。

【0025】

被写体ベクトル取得部１４３は、被写体種別判定部１４２による種別の判定を通じて検出された被写体の速度ベクトルを算出する。例えば、被写体ベクトル取得部１４３は、領域選択フレームの前後数フレームにおいて被写体を追跡し、被写体の移動量から、被写体の速度ベクトルを算出する。被写体の追跡は、例えば、被写体種別判定部１４２と同様に、機械学習の技術を用いて各フレームにおける被写体を検出することにより行うことができる。或いは、機械学習の技術を使用せずに、フレーム間の画素値のパターンマッチングにより被写体の追跡を行ってもよい。被写体の速度ベクトルの算出に使用するハードウェアは特に限定されないが、例えば、ＣＰＵ１０１、ＧＰＵ１３５、ＣＰＵ１３１、及びＧＰＵ１３５の一部又は全部を用いてもよい。

【0026】

被写体削除部１４４は、被写体種別判定部１４２により検出された被写体を領域選択フレームから削除する。また、領域選択フレームから被写体を単純に削除するだけだと、動画が不自然になるため、被写体削除部１４４は、被写体が削除される領域に対して、背景に同化する形で背景の補完を行う。また、被写体削除部１４４は、領域選択フレーム以外のフレームにおいても、対応する被写体が画角内に存在する場合には、同様に被写体の削除及び背景の補完を行う。被写体の削除に使用するハードウェアは特に限定されないが、例えば、ＣＰＵ１０１、ＧＰＵ１３５、ＣＰＵ１３１、及びＧＰＵ１３５の一部又は全部を用いてもよい。

【0027】

音声種別判定部１４５は、被写体削除部１４４により被写体を削除したフレームに対応する音声データを解析し、音声データに含まれる音声の種別を示す情報（例えば、人、犬、自動車、又はその他）を出力する。音声の種別の判定は、例えば、音声データを入力として用い、入力音声データに含まれる各音声成分に対応する各被写体の種別を識別するように構成された学習済モデル（第２の機械学習モデル）を用いる推論を行うことにより、実現される。

【0028】

本実施形態では、機械学習のために任意の既知の技術を用いることができる。例えば、音声種別判定部１４５は、音声用学習済モデルを用いる。音声用学習済モデルの生成においては、識別対象となる音声を入力データとし、その入力データの音声に対応する被写体の種別の情報（例えば、人、犬、自動車、又はその他）を教師データとして、音声に対応する被写体の種別を出力する音声用学習済モデルを生成する。機械学習の具体的なアルゴリズムとしては、被写体種別判定部１４２の場合と同様に、様々なアルゴリズムを用いることができる。

【0029】

推論フェーズにおいて、音声用学習済モデルは、音声を入力データとし、その音声に含まれる各音声成分に対応する被写体の種別を示す情報（例えば、人、犬、自動車、又はその他）を出力する。

【0030】

【0031】

音声ベクトル取得部１４６は、音声の位置や速度ベクトルを算出する。音声の位置や速度ベクトルの算出方法の例を以下に述べる。例えば音声データが２つのマイクを用いて収録されている場合、音声ベクトル取得部１４６は、被写体の音声の位置を、２つのマイクに到達する音の到達時間の差により特定する。その後、音声ベクトル取得部１４６は、被写体の音声の位置の移動と、音声データの時間軸により、被写体の音声の速度ベクトルを算出する。また、３つ以上のマイクを用いたマイクアレイや、指向性マイクを用いて音声データを収録することにより、音声発生源の位置や速度ベクトルをより算出し易いようにしてもよい。音声の速度ベクトルの算出に使用するハードウェアは特に限定されないが、例えば、ＣＰＵ１０１、ＧＰＵ１３５、ＣＰＵ１３１、及びＧＰＵ１３５の一部又は全部を用いてもよい。また、不図示の異なる装置を用いてもよい。

【0032】

種別一致判定部１４７は、被写体種別判定部１４２で判定された被写体の種別と、音声種別判定部１４５で判定された音声の種別を照合して、削除される被写体の種別（例えば、人、犬、自動車、その他）と一致する種別の音声成分が存在するか判定する。また種別一致判定部１４７は、被写体ベクトル取得部１４３で算出された被写体の位置及び速度ベクトルと、音声ベクトル取得部１４６で算出された音声の位置及び速度ベクトルを照合して、削除される被写体の速度ベクトルと対応する音声の速度ベクトルがあるかを判定する。対応する音声の速度ベクトルがあった場合、音声ベクトル取得部１４６は、その音声（音声成分）を、削除される被写体と同一の種別であると判定することが可能である。これは、前述の画像用学習モデルや音声用学習モデルの学習が不十分等の理由で被写体の種別を正しく判別できなかった場合に、速度ベクトル算出という異なる機能を用いることで、削除される被写体に対応する音声成分を検出可能とするためである。また、種別一致判定部１４７は、速度ベクトルを用いず、被写体種別判定部１４２及び音声種別判定部１４５によって得られた種別情報のみを用いてもよい。或いは、被写体種別判定部１４２及び音声種別判定部１４５によって得られた種別情報を用いず、速度ベクトルのみを用いてもよい。このように、動画データから削除される被写体に対応する音声成分を識別する方法は特に限定されず、ここで説明した方法を含む様々な方法を用いることができる。

【0033】

音声削除部１４８は、種別一致判定部１４７で削除される被写体と対応すると判定された音声成分をその他の音声成分から分離して削除する。削除される被写体と対応する音声成分以外の音声成分は削除されない。音声成分の分離及び削除に関しては、任意の既知の技術を用いることができる。複数ある技術のうち一例を説明すると、音声削除部１４８は、音声種別判定部１４５に関して説明したものと同様の音声用学習済みモデルを用いて音声の種別を判定し、種別ごとに音声成分を分離する。このとき、音声削除部１４８は、音声データをフーリエ変換し、スペクトル情報として音声データを扱い、削除したい音声種別のスペクトルをマスクし、逆フーリエ変換をして音声データに戻すことで、特定の音声種別のみ削除された音声データを生成可能である。

【0034】

●画像処理の流れ
図２は、画像処理システムが実行する画像処理のフローチャートである。画像処理の対象は、音声データを伴う動画データである。前述の通り、音声データ及び動画データは、例えばＨＤＤ１０４に記録されている。情報処理装置１００のユーザが、動画編集アプリケーションのユーザインタフェースにおいて、被写体を削除する機能を選択すると、本フローチャートの処理が開始する。

【0035】

なお、本フローチャートの全体制御は、ＣＰＵ１０１により行われる。また、本フローチャートの各ステップの処理は、図１Ｂに示す各部により行われる。図１Ｂに示す各部の機能を実現するハードウェアは特に限定されず、技術的に可能である限り、例えば、ＣＰＵ１０１、ＧＰＵ１３５、ＣＰＵ１３１、及びＧＰＵ１３５の一部又は全部により実現される。

【0036】

Ｓ２０１で、領域選択部１４１は、動画データの複数のフレームのうちの特定のフレーム（領域選択フレーム）において、特定の領域（選択領域）を選択する。選択領域は、例えばユーザが指定した領域である。

【0037】

Ｓ２０２で、被写体種別判定部１４２は、選択領域に含まれる被写体（対象被写体）の種別（第１の種別）を判定する。これにより、対象被写体が検出されると共に、その種別が識別される。加えて、被写体ベクトル取得部１４３が、対象被写体の、複数のフレームに亘る速度ベクトルを算出（取得）してもよい。

【0038】

Ｓ２０３で、被写体種別判定部１４２は、動画データの他のフレーム（領域選択フレーム以外のフレーム）において、対象被写体を検出する。

【0039】

Ｓ２０４で、被写体削除部１４４は、Ｓ２０１又はＳ２０２における被写体検出により対象被写体が検出された１以上のフレーム（対象フレーム）の各フレームから、対象被写体を削除する。対象被写体の削除に伴い、被写体削除部１４４は、削除された被写体の領域を背景に同化する形で補完を行う。例えば、５００フレームある動画データの中で対象被写体が２０１番目～３００番目のフレームの画角内に写っているとした場合に、２０１番目～３００番目のフレームについて、対象被写体の削除及び背景の補完が行われる。

【0040】

Ｓ２０５で、音声種別判定部１４５は、音声データに含まれる音声の種別（各音声成分に対応する各被写体の種別）を判定する。加えて、音声ベクトル取得部１４６が、対象被写体に対応する音声成分の、複数のフレームに亘る速度ベクトルを算出（取得）してもよい。

【0041】

Ｓ２０６で、種別一致判定部１４７は、音声データにおいて対象被写体に対応する音声成分の検出を行い、対象被写体に対応する音声成分が存在するか否かを判定する。対象被写体に対応する音声成分が存在する場合、処理はＳ２０７に進み、そうでない場合、本フローチャートの処理は終了する。

【0042】

種別一致判定部１４７による音声検出（対象被写体に対応する音声成分の検出）は、Ｓ２０２で判定された対象被写体の種別と、Ｓ２０５で判定された音声の種別に基づいて行われる。例えば、対象被写体の種別が「自動車」であり、音声の種別が「自動車」及び「人」であった場合を考える。この場合、音声データの中に自動車に対応する音声成分が含まれており、自動車に対応する音声成分が、対象被写体に対応する音声成分として検出される。或いは、種別一致判定部１４７は、Ｓ２０２及びＳ２０５で判定された種別の代わりに、又はこれに加えて、Ｓ２０２及びＳ２０５で取得された速度ベクトルを用いて対象被写体に対応する音声成分を検出してもよい。速度ベクトルを用いる場合、種別一致判定部１４７は、対象被写体の速度ベクトルと、対象被写体に対応する音声成分の速度ベクトルとを照合することにより、音声データ（の各フレーム）において対象被写体に対応する音声成分を検出することができる。

【0043】

Ｓ２０７で、音声削除部１４８は、音声データから、対象被写体に対応する音声成分を分離して削除する。対象被写体に対応する音声成分以外の音声成分は、削除されない。

【0044】

なお、動画撮影時に対象被写体が画角に含まれていない場合であっても、対象被写体が撮像装置（カメラ）のマイクの近くで音声を発していれば、対象被写体の音声成分が音声データの中に記録される可能性がある。そのため、Ｓ２０３において対象被写体が検出されなかったフレームに対応する音声データについて、Ｓ２０６において対象被写体に対応する音声成分が検出される可能性がある。従って、Ｓ２０７において音声削除部１４８は、対象被写体が含まれていないフレームについても、対象被写体に対応する音声成分が存在すれば、その音声成分を音声データから削除することができる。例えば、５００フレームある動画データの中で、対象被写体が２０１番目～３００番目のフレームの画角内に写っており、対象被写体に対応する音声成分は１０１番目～４００番目のフレームに対応する音声データの中に存在する場合を考える。この場合、Ｓ２０５で、音声種別判定部１４５が音声データの全体に対して音声の種別を判定する処理を行うと、１０１番目～４００番目のフレームに対応する音声データの部分から、対象被写体に対応する音声成分が検出される。そこで、音声削除部１４８は、対象被写体に対応する音声成分が存在する１０１番目～４００番目のフレームを対象として、対象被写体に対応する音声成分を削除することができる。

【0045】

また、対象被写体が存在しないフレームについての、対象被写体に対応する音声成分が存在するか否かを判断する際に、対象被写体が画角内に存在した期間を考慮してもよい。例えば、音声種別判定部１４５は、被写体が画角内に存在した期間の前後の期間に対応する音声データについて、所定期間ごとに音声の種別を判定してもよい。所定期間は、例えば、被写体が画角内に存在した期間の前後に、予め決められた長さの期間（例えば１０フレーム期間）として設定される。音声種別判定部１４５は、対象被写体に対応する音声成分が存在しなくなるまで、被写体が画角内に存在した期間に近い期間から遠い期間に向かって、順に所定期間を設定することを繰り返してもよい。或いは、音声種別判定部１４５は、前述の被写体ベクトル取得部１４３や音声ベクトル取得部１４６で算出した速度ベクトルや、対象被写体の種別と同じ種別の被写体に対応する音声の音量の推移から、対象被写体に対応する音声成分が消失するフレームを予測する演算を行い、予測したフレームまでについて、音声成分の削除を行ってもよい。

【0046】

●対象被写体及び対応する音声成分の削除の例
図３Ａ～図３Ｃ、及び図４Ａ～図４Ｂを参照して、対象被写体及び対応する音声成分の削除の例について説明する。

【0047】

図３Ａは、動画データにおいて連続する３つのフレームの例を示す。これら３つのフレームにおいて、自動車３０１は、右から左へ向かって移動している。自動車３０１以外の被写体は静止している。

【0048】

図２のＳ２１０で、図３Ａの中段のフレーム（ｎ番目のフレーム）が表示部１０９に表示されている状態で、ユーザが領域３１０を指定したものとする。領域選択部１４１は、ユーザによる領域３１０の指定に応じて、領域３１０を選択する。この処理は、図２のＳ２１０に対応する。

【0049】

なお、図３Ａに示す領域３１０は矩形であるが、領域３１０の形状及び指定方法は特に限定されない。例えば、領域３１０は円形であってもよい。また、ユーザがフリーハンドで所望の領域を囲むことにより領域３１０を指定する構成を採用してもよい。

【0050】

被写体種別判定部１４２は、領域３１０に含まれる被写体の種別が自動車であると判定する。そして、被写体種別判定部１４２は、動画データの他のフレームにおいて、対象被写体である自動車を検出する。その結果、図３Ａの上段及び下段のフレームにおいても、自動車３０１が検出される。この処理は、図２のＳ２０２～Ｓ２０３に対応する。

【0051】

次に、被写体削除部１４４は、図３Ｂに示すように、自動車３０１が検出された各フレームから、自動車３０１を削除する。続いて、被写体削除部１４４は、図３Ｃに示すように、削除される自動車３０１の領域を、背景に同化する形で補完する。この処理は、図２のＳ２０４に対応する。

【0052】

図４Ａは、図３Ａに示す３つのフレームに対応する音声データの概念図である。音声種別判定部１４５は、これら３つのフレームの音声データに含まれる音声の種別を判定する。そして、種別一致判定部１４７は、図３Ａの自動車３０１に対応する音声成分（自動車の音声４０１）を検出する。この処理は、図２のＳ２０５～Ｓ２０６に対応する。

【0053】

次に、音声削除部１４８は、自動車３０１に対応する音声成分（自動車の音声４０１）を削除する。その結果、図４Ｂに示すように、３つのフレームに対応する音声データは、自動車３０１に対応する音声成分を含まない一方で、犬及び人の音声成分は含んだ状態になる。この処理は、図２のＳ２０７に対応する。

【0054】

なお、図４Ａに示す３つのフレーム以外のフレームにも自動車３０１に対応する音声成分が含まれている場合には、音声削除部１４８は、これらのフレームについても同様に、自動車３０１に対応する音声成分の削除を行う。

【0055】

●第１の実施形態のまとめ
以上説明したように、第１の実施形態によれば、音声データを伴う動画データから特定の被写体（第１の種別の被写体）が削除される場合、音声データから、削除される被写体に対応する音声成分が削除される。そのため、音声付き動画の再生時に、削除済みのため表示されない被写体に対応する音声成分が残った音声が再生されることを防止することができる。従って、本実施形態によれば、音声付き動画の品質の低下を抑制しつつ、音声付き動画から特定の被写体を削除することが可能となる。

【0056】

なお、上で図２を参照して説明した画像処理の具体的な手順は、削除済みのため表示されない被写体に対応する音声成分が残った音声が再生されることを防止することを実現するための処理手順の一例に過ぎない。音声データを伴う動画データから特定の被写体を削除すると共に、削除される被写体に対応する音声成分を音声データから削除することを実現する任意の構成が、本実施形態の技術的思想の範囲に含まれる。従って、第１の実施形態をより一般化していうと、画像処理システムは、音声データを伴う動画データの複数のフレームにおいて、特定の被写体（第１の種別の被写体）を検出し、複数のフレームのうちの第１の種別の被写体が検出された１以上のフレームから、第１の種別の被写体を削除する。また、画像処理システムは、音声データにおいて、第１の種別の被写体に対応する音声成分を検出し、音声データから、第１の種別の被写体に対応する音声成分を削除する。

【0057】

［第２の実施形態］
第１の実施形態では、動画データから削除すべき被写体を先に決定した上で、その被写体に対応する音声成分を音声データから削除する構成について説明した。これに対し、第２の実施形態では、音声データから削除すべき音声成分を先に決定した上で、その音声成分に対応する被写体を動画データから削除する構成について説明する。なお、第２の実施形態において、画像処理システムのハードウェア構成（図１Ａ）を含む基本的な構成は、第１の実施形態と同様である。以下、主に第１の実施形態と異なる点について説明を行う。

【0058】

●画像処理システムの機能構成
図５は、図１Ａで示した画像処理システムのハードウェアがプログラム（ソフトウェア）と協働することで実現される機能構成を示す図である。図５において、画像処理システムは、音声種別判定部５０１、音声選択部５０２、音声削除部５０３、被写体種別判定部５０４、種別一致判定部５０５、及び被写体削除部５０６を含む。

【0059】

音声種別判定部５０１は、音声種別判定部１４５と概ね同じ機能を備える。但し、音声種別判定部５０１は、音声データの全期間のうちのユーザが指定した期間、又は全期間について、音声データに含まれる音声の種別を判定し、種別を示す情報（例えば、人、犬、自動車、又はその他）を出力する。

【0060】

音声選択部５０２の機能については、図６を参照して後述する。音声削除部５０３の機能は、音声削除部１４８と同様である。

【0061】

被写体種別判定部５０４は、被写体種別判定部１４２と概ね同じ機能を備える。但し、被写体種別判定部１４２は特定のフレームの特定の領域に含まれる被写体の種別を判定したが、被写体種別判定部５０４は、音声削除部５０３により削除された音声成分に対応する期間のフレーム全てを解析する。また、ユーザは領域指定を行わないため、被写体種別判定部５０４は、フレーム内の全ての画素を解析対象とし、フレーム内に含まれる各被写体の種別を含む情報（例えば、人、犬、自動車、又はその他）を出力する。

【0062】

種別一致判定部５０５の機能は、種別一致判定部１４７と同様である。被写体削除部５０６の機能は、被写体削除部１４４と同様である。

【0063】

●画像処理の流れ
図６は、画像処理システムが実行する画像処理のフローチャートである。画像処理の対象は、音声データを伴う動画データである。第１の実施形態と同様に、音声データ及び動画データは、例えばＨＤＤ１０４に記録されている。情報処理装置１００のユーザが、動画編集アプリケーションのユーザインタフェースにおいて、被写体を削除する機能を選択すると、本フローチャートの処理が開始する。

【0064】

なお、本フローチャートの全体制御は、ＣＰＵ１０１により行われる。また、本フローチャートの各ステップの処理は、図５に示す各部により行われる。図５に示す各部の機能を実現するハードウェアは特に限定されず、技術的に可能である限り、例えば、ＣＰＵ１０１、ＧＰＵ１３５、ＣＰＵ１３１、及びＧＰＵ１３５の一部又は全部により実現される。

【0065】

Ｓ６０１で、音声種別判定部５０１は、音声データに含まれる音声の種別を判定し、種別ごとに音声成分を分離し、各音声成分の種別を表示部１０９に表示する。

【0066】

ここで図７を参照して、Ｓ６０１における処理の例を説明する。図７の上段は、処理対象の音声データの概念図である。「ＡＬＬ」は全ての音声成分を含んだ音声データを概念的に示しており、横軸は時間、縦軸は音量を示している。図７の下段は、分離された各音声成分の概念図である。種別を判定できない音声成分に関しては、「その他」の音声成分として分離される。以下では、音声データが、人Ａ、人Ｂ、自動車Ａ、犬Ａ、及びその他の音声成分に分離された場合を例に説明を行う。

【0067】

Ｓ６０２で、音声選択部５０２は、Ｓ６０１において分離された複数の音声成分のうちの特定の種別に対応する特定の音声成分を選択する。ここで、音声選択部５０２は、ユーザにより指定された音声成分を選択してもよい。以下では、ユーザが自動車Ａに対応する音声成分を指定した場合を例に説明を行う。また、５００フレームある動画データにおいて、自動車Ａに対応する音声成分が１０１番目～４００番目のフレームに対応する音声データに含まれているものとする。

【0068】

Ｓ６０３で、音声削除部５０３は、Ｓ６０２で選択された音声成分（対象音声成分）を音声データから削除する。なお、選択された音声成分以外の音声成分は削除されない。例えば、１０１番目～４００番目のフレームに対応する音声データに含まれる自動車Ａに対応する音声成分が削除される。

【0069】

Ｓ６０４で、被写体種別判定部５０４は、動画データに含まれる被写体の種別を判定する。例えば、被写体種別判定部５０４は、削除された音声成分に対応する１０１番目～４００番目のフレームを対象として、被写体の種別を判定する。本実施形態では、第１の実施形態と異なり、領域選択部１４１によるフレームの領域の選択は行われない。そのため、被写体種別判定部５０４は、各フレーム内の全ての画素を解析対象とし、解析したフレームに含まれる各被写体の種別を示す情報（例えば、人、犬、自動車、その他）を出力する。

【0070】

なお、Ｓ６０４において被写体の種別を判定する処理の対象は、削除された音声成分に対応するフレームに限定されない。例えば、被写体種別判定部５０４は、動画データの全フレームを対象として、被写体の種別を判定してもよい。

【0071】

Ｓ６０５で、種別一致判定部５０５は、Ｓ６０４における判定結果に基づき、対象音声成分の種別に対応する被写体が動画データの中に存在するか否かを判定する。例えば、自動車Ａの音声成分が対象音声成分（Ｓ６０３で削除された音声成分）である場合、種別一致判定部５０５は、Ｓ６０４における判定結果の中に自動車が含まれているか否かを判定する。対象音声成分の種別に対応する被写体が動画データの中に存在する場合、処理はＳ６０６に進み、そうでない場合、本フローチャートの処理は終了する。

【0072】

Ｓ６０６で、被写体削除部５０６は、動画データの各フレーム（Ｓ６０４及びＳ６０５の処理を通じて対象音声成分の種別に対応する被写体が検出されたフレーム）から、対象音声成分の種別に対応する被写体を削除する。被写体の削除に伴い、被写体削除部５０６は、削除された被写体の領域を背景に同化する形で補完を行う。

【0073】

●第２の実施形態のまとめ
以上説明したように、第２の実施形態によれば、音声データにおいて特定の被写体（第１の種別の被写体）に対応する音声成分が選択され、選択された音声成分が音声データから削除される。また、削除される音声成分に対応する被写体が、音声データに対応する動画データから削除される。そのため、音声付き動画の再生時に、削除済みのため表示されない被写体に対応する音声成分が残った音声が再生されることを防止することができる。従って、本実施形態によれば、音声付き動画の品質の低下を抑制しつつ、音声付き動画から特定の被写体を削除することが可能となる。

【0074】

［その他の実施形態］
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【0075】

［まとめ］
上述した実施形態は、少なくとも以下の各項目に示す発明を開示しているが、これらの発明に限定されない。
［項目１］
音声データを伴う動画データの複数のフレームにおいて、第１の種別の被写体を検出する被写体検出手段と、
前記複数のフレームのうちの前記第１の種別の被写体が検出された１以上のフレームから、前記第１の種別の被写体を削除する被写体削除手段と、
前記音声データにおいて、前記第１の種別の被写体に対応する音声成分を検出する音声検出手段と、
前記音声データから、前記第１の種別の被写体に対応する前記音声成分を削除する音声削除手段と、
を備えることを特徴とする画像処理システム。
［項目２］
前記被写体検出手段は、前記複数のフレームのうちの第１のフレームの第１の領域の画像に基づいて、前記第１の領域に含まれる被写体の種別を識別し、
前記第１の種別は、前記第１の領域に含まれる前記被写体の前記種別である
ことを特徴とする項目１に記載の画像処理システム。
［項目３］
前記被写体検出手段は、前記第１の領域の画像を入力として第１の機械学習モデルを用いる推論を行うことにより、前記第１の領域に含まれる前記被写体の前記種別を識別する
ことを特徴とする項目２に記載の画像処理システム。
［項目４］
ユーザによる指示に従って、前記第１のフレームにおいて前記第１の領域を選択する領域選択手段
を更に備えることを特徴とする項目２又は３に記載の画像処理システム。
［項目５］
前記第１の領域に含まれる前記被写体の、前記複数のフレームに亘る速度ベクトルを取得する被写体ベクトル取得手段と、
前記第１の領域に含まれる前記被写体に対応する音声成分の、前記複数のフレームに亘る速度ベクトルを取得する音声ベクトル取得手段と、
を更に備え、
前記音声検出手段は、前記第１の領域に含まれる前記被写体の前記速度ベクトルと、前記第１の領域に含まれる前記被写体に対応する前記音声成分の前記速度ベクトルとを照合することにより、前記音声データにおいて前記第１の種別の被写体に対応する前記音声成分を検出する
ことを特徴とする項目２乃至４のいずれか１項に記載の画像処理システム。
［項目６］
前記音声検出手段は、前記音声データを入力として第２の機械学習モデルを用いる推論を行うことにより、前記音声データにおいて前記第１の種別の被写体に対応する前記音声成分を検出する
ことを特徴とする項目１乃至４のいずれか１項に記載の画像処理システム。
［項目７］
前記音声検出手段は、前記音声データを入力として第２の機械学習モデルを用いる推論を行うことにより、前記音声データにおいて、各々が異なる種別の被写体に対応する複数の音声成分を検出し、
前記画像処理システムは、前記複数の音声成分のいずれかを選択する音声選択手段を更に備え、
前記第１の種別は、前記複数の音声成分のうちの前記選択された音声成分に対応する被写体の種別である
ことを特徴とする項目１に記載の画像処理システム。
［項目８］
画像処理システムが実行する画像処理方法であって、
音声データを伴う動画データの複数のフレームにおいて、第１の種別の被写体を検出する被写体検出工程と、
前記複数のフレームのうちの前記第１の種別の被写体が検出された１以上のフレームから、前記第１の種別の被写体を削除する被写体削除工程と、
前記音声データにおいて、前記第１の種別の被写体に対応する音声成分を検出する音声検出工程と、
前記音声データから、前記第１の種別の被写体に対応する前記音声成分を削除する音声削除工程と、
を備えることを特徴とする画像処理方法。
［項目９］
コンピュータを、項目１乃至７のいずれか１項に記載の画像処理システムの各手段として機能させるためのプログラム。

【0076】

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

【符号の説明】

【0077】

１４１…領域選択部、１４２…被写体種別判定部、１４３…被写体ベクトル取得部、１４４…被写体削除部、１４５…音声種別判定部、１４６…音声ベクトル取得部、１４７…種別一致判定部、１４８…音声削除部

【図1A】