特許7534740 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ コッヘルインコーポレーテッドの特許一覧

特許7534740ビデオコンテンツから音楽データを検出する装置およびその制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-06

(45)【発行日】2024-08-15

(54)【発明の名称】ビデオコンテンツから音楽データを検出する装置およびその制御方法

(51)【国際特許分類】

G10L 25/81 20130101AFI20240807BHJP

G10L 25/30 20130101ALI20240807BHJP

【ＦＩ】

G10L25/81

G10L25/30

【請求項の数】 2

(21)【出願番号】P 2022570731

(86)(22)【出願日】2021-05-18

(65)【公表番号】

(43)【公表日】2023-07-20

(86)【国際出願番号】 KR2021006244

(87)【国際公開番号】W WO2021235846

(87)【国際公開日】2021-11-25

【審査請求日】2022-11-18

(31)【優先権主張番号】10-2020-0059429

(32)【優先日】2020-05-19

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】523439242

【氏名又は名称】コッヘルインコーポレーテッド

(74)【代理人】

【識別番号】110001139

【氏名又は名称】ＳＫ弁理士法人

(74)【代理人】

【識別番号】100130328

【弁理士】

【氏名又は名称】奥野彰彦

(74)【代理人】

【識別番号】100130672

【弁理士】

【氏名又は名称】伊藤寛之

(72)【発明者】

【氏名】ジョン、イルヨン

(72)【発明者】

【氏名】イム、ヒョンギ

(72)【発明者】

【氏名】ハン、ユンチャン

(72)【発明者】

【氏名】イ、スビン

(72)【発明者】

【氏名】パク、ジョンス

(72)【発明者】

【氏名】イ、ドンムン

【審査官】山下剛史

(56)【参考文献】

【文献】特開２００５－７１０９０（ＪＰ，Ａ）

【文献】特開２００２－６２８９２（ＪＰ，Ａ）

【文献】特表２００５－５１８５６０（ＪＰ，Ａ）

【文献】特開２０１１－８５８２４（ＪＰ，Ａ）

【文献】特開２００２－３０４１８５（ＪＰ，Ａ）

【文献】国際公開第２００９／０５０８７７（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ２１／００－２５／９３

(57)【特許請求の範囲】

【請求項1】

ビデオストリームとオーディオストリームを含むビデオコンテンツが入力される段階；
前記オーディオストリームから音楽データを検出する段階；および
前記オーディオストリームから検出された前記音楽データが除去されるように、前記オーディオストリームをフィルタリングする段階；を含み、
前記オーディオストリームから音楽データを検出する段階は、
前記オーディオストリームを音楽データと音声データに分離するための分離過程と、前記オーディオストリームから音楽データが存在する区間を検出するための検出過程を含み、
前記分離過程は予め学習された第１人工知能モデルによって遂行され、
前記第１人工知能モデルは、
ディープラーニングまたはマシンラーニングを遂行する人工ニューラルネットワークで構成され、
音楽（ｍｕｓｉｃ）または音声（ｖｏｉｃｅ）で識別されたトレーニングデータを利用して学習を遂行し、
学習結果に基づいて、前記オーディオストリームの予め設定された単位区間ごとに、音楽データに該当する確率と音声データに該当する確率を出力することを特徴とする、データ処理方法。

【請求項2】

前記検出過程は予め学習された第２人工知能モデルによって遂行され、
前記第２人工知能モデルは、
音楽を含んでいるかどうかが予め識別されたトレーニングデータを利用して学習するように構成されたことを特徴とする、請求項１に記載のデータ処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は音楽と音声が混合されたオーディオデータの処理方法に関する。

【背景技術】

【0002】

音源分離技術は多様な音で構成されたオーディオストリームを特定の基準に沿って複数のオーディオデータに区分するものである。例えば、音源分離技術はステレオ音楽で歌手の声のみを抽出したり、一つのマイクで録音された二つ以上のオーディオ信号をそれぞれ分離するために使われ得る。また、車両、携帯電話などの騒音の除去にも利用され得る。

【0003】

最近、音源分離技術に人工知能を導入する方法が紹介されている。代表的に、事前にトレーニングされた音声、雑音パターンや統計的なデータ情報を利用して音声の分離を遂行する方式がある。このような方式は急激に変化する雑音環境においても音声の分離が可能であり得る。

【0004】

一方、ビデオコンテンツ市場が成長するにつれて、ビデオコンテンツに含まれたデータの著作権に関連した問題点が引き起こされている。特に、ビデオコンテンツに著作権者の許諾を得ていない音楽が含まれている場合、該当ビデオコンテンツの流通が制限される問題が発生することにより、ビデオコンテンツで著作物データを分離させる要求が増加している。

【0005】

すなわち、ビデオコンテンツに著作物データが含まれているかどうかを確認したり、著作物データを原本ビデオコンテンツから分離または除去したり、該当著作物データをライセンスフリーデータに変更する作業が必要であるのが実情である。

【0006】

しかし、従来の映像編集過程によると、前記のような作業を編集者が直接ビデオをプレイしながら確認しなければならない煩雑さがある。最近動画プラットホームで処理されるデータの量を考慮する時、使用者が手動で著作物データを検閲する従来の方法では十分な量のビデオコンテンツを検閲し難い問題点が発生する。

【発明の概要】

【発明が解決しようとする課題】

【0007】

本発明の技術的課題は、任意のオーディオストリームから音楽データを抽出できるデータ処理装置およびその制御方法を提供することである。

【0008】

また、本発明の技術的課題は、別途のラベル（ｌａｂｅｌ）や、オーディオデータの区分を表すタグまたはログ情報を含まない任意のオーディオストリームから、人工知能モデルを利用して音楽データの存在の有無を判断できるデータ処理装置およびその制御方法を提供することである。

【0009】

また、本発明の技術的課題は、オーディオストリームとビデオストリームで構成されるビデオコンテンツの原本ファイルから音楽データを検出し、検出された音楽データを原本ファイルから除去できるデータ処理装置およびその制御方法を提供することである。

【0010】

また、本発明の技術的課題は、人工知能モデルを利用してオーディオストリーム内に音楽データが存在するかどうかと、音楽データが存在する時間領域を検出できるデータ処理装置およびその制御方法を提供することである。

【0011】

また、本発明の技術的課題は、オーディオストリーム内に著作物に該当する音楽データが含まれているかどうかを判断できるデータ処理装置およびその制御方法を提供することである。

【課題を解決するための手段】

【0012】

前記の目的を達成するために、本発明はビデオストリームとオーディオストリームを含むビデオコンテンツが入力される段階；前記オーディオストリームから音楽データを検出する段階；および前記オーディオストリームから検出された前記音楽データが除去されるように、前記オーディオストリームをフィルタリングする段階；を含むデータ処理方法を提供する。

【発明の効果】

【0013】

本発明によると、使用者がビデオコンテンツを直接スキャンせずとも、ビデオコンテンツ内に含まれた音楽データを検出できるため、ビデオコンテンツの編集を遂行する使用者の便宜を向上させ得る長所がある。

【0014】

また、膨大な量のビデオコンテンツに対して迅速に音楽データを検出できるため、映像編集に必要とされる費用を画期的に減少させることができる。

【0015】

また、本発明によると、データ処理装置が入力されたビデオコンテンツに含まれた著作物に対応する音楽データを削除したり、代替音楽に置き換えたりするため、ビデオコンテンツの所有者または流通者の便宜が向上し得る。

【図面の簡単な説明】

【0016】

【図1】本発明に係るデータ処理方法に関連した概念図である。

【図2】本発明に係るデータ処理装置の構成要素を示したブロック図である。

【図3】本発明に係るデータ処理方法の一実施例を示したフローチャートである。

【図4】本発明に係るデータ処理方法の一実施例を示したフローチャートである。

【発明を実施するための最良の形態】

【0017】

ビデオストリームとオーディオストリームを含むビデオコンテンツが入力される段階；
前記オーディオストリームから音楽データを検出する段階；および
前記オーディオストリームから検出された前記音楽データが除去されるように、前記オーディオストリームをフィルタリングする段階；を含む、データ処理方法。

【発明を実施するための形態】

【0018】

以下、添付された図面を参照して本明細書に開示された実施例を詳細に説明するものの、本明細書で使われる技術的用語は単に特定の実施例を説明するために使われたものであって、本明細書に開示された技術の思想を限定しようとするものではないことに留意されたい。

【0019】

まず、図１には本発明に係るデータ処理方法に関連した概念図が図示される。以下において、ビデオコンテンツ１はオーディオストリーム２とビデオストリーム３を含む動画ファイルと定義される。また、オーディオストリームは音楽データまたは／および非音楽データで構成され得る。

【0020】

前述した「音楽」という用語は、リズム（例えば、テンポ、拍子（ｍｅｔｅｒ）、および調音（ａｒｔｉｃｕｌａｔｉｏｎ））、音高（ｐｉｔｃｈ）（例えば、メロディとハーモニー）、強弱（ｄｙｎａｍｉｃｓ）（例えば、サウンドまたは音符のボリューム）などのうち一つ以上のエレメントによって特徴化されてもよく、楽器のサウンド、音声などを含んでもよい任意の類型のサウンドを指称してもよい。これに加え、本願での「著作物」とは、用語が固有のまたは独特の音楽著作物（ｍｕｓｉｃａｌｗｏｒｋ）または作曲物（ｃｏｍｐｏｓｉｔｉｏｎ）を指称し得、歌、チューン（ｔｕｎｅ）などのようなサウンドまたはオーディオ形態でこのような音楽著作物または作曲物の創作物または再現物を含んでもよい。さらに、「オーディオストリーム」という用語は、複数の音楽作品、環境サウンド、スピーチ、雑音などを含むこともできるサウンドストリームの一つ以上の部分を示す一つ以上の電気的信号またはデータのシーケンスを指称してもよい。

【0021】

図１を参照すると、本発明に係るデータ処理装置１００は、ビデオコンテンツに含まれたオーディオストリームをスキャンして、前記オーディオストリームに音楽データが含まれているかどうかを判別することができる。

【0022】

具体的には、データ処理装置１００は外部サーバーまたはデータ処理装置１００に搭載された人工知能モデルを利用して、オーディオストリームに音楽データが含まれているかどうかを判別することができる。この時、人工知能モデルはディープラーニングまたはマシンラーニングを遂行する人工ニューラルネットワークで構成され得る。

【0023】

図２は、本発明の一実施例に係るデータ処理装置を示すブロック図である。図２を参照すると、本発明のデータ処理装置１００は、入力部１１０、出力部１２０、メモリ１３０、通信部１４０、制御部１８０および電源供給部１９０で構成され得る。

【0024】

より具体的には、前記構成要素のうち通信部１４０は、データ処理装置１００と無線通信システムの間、データ処理装置１００と他のデータ処理装置１００の間、またはデータ処理装置１００と外部サーバーの間の無線通信を可能にする一つ以上のモジュールを含むことができる。また、前記通信部１４０は、データ処理装置１００を一つ以上のネットワークに連結する一つ以上のモジュールを含むことができる。

【0025】

入力部１１０は、映像信号入力のためのカメラまたは映像入力部、オーディオ信号入力のためのマイクロホン（ｍｉｃｒｏｐｈｏｎｅ）、またはオーディオ入力部、使用者から情報の入力を受けるための使用者入力部（例えば、タッチキー（ｔｏｕｃｈｋｅｙ）、プッシュキー（ｍｅｃｈａｎｉｃａｌｋｅｙ）等）を含むことができる。入力部１１０で収集した音声データやイメージデータは分析されて使用者の制御命令として処理され得る。

【0026】

出力部１２０は視覚、聴覚または触覚などに関連した出力を発生させるためのものであり、ディスプレイ部、音響出力部、ハプティックモジュール、光出力部のうち少なくとも一つを含むことができる。ディスプレイ部はタッチセンサと互いにレイヤ構造をなすか一体型で形成されることによって、タッチスクリーンを具現することができる。このようなタッチスクリーンは、データ処理装置１００と使用者間の入力インターフェースを提供する使用者入力装置として機能するとともに、データ処理装置１００と使用者間の出力インターフェースを提供することができる。

【0027】

メモリ１３０はデータ処理装置１００の多様な機能を支援するデータを保存する。メモリ１３０はデータ処理装置１００で駆動される多数の応用プログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍまたはアプリケーション（ａｐｐｌｉｃａｔｉｏｎ））、データ処理装置１００の動作のためのデータ、命令語を保存することができる。このような応用プログラムのうち少なくとも一部は、無線通信を通じて外部サーバーからダウンロードされ得る。また、このような応用プログラムのうち少なくとも一部は、データ処理装置１００の基本的な機能（例えば、電話着信、発信機能、メッセージ受信、発信機能）のために、出庫当時からデータ処理装置１００上に存在することができる。一方、応用プログラムはメモリ１３０に保存され、データ処理装置１００上に設置されて、制御部１８０によって前記電子機器制御装置の動作（または機能）を遂行するように駆動され得る。

【0028】

制御部１８０は前記応用プログラムに関連した動作の他にも、通常的にデータ処理装置１００の全般的な動作を制御する。制御部１８０は前記で詳擦した構成要素を通じて入力または出力される信号、データ、情報などを処理したりメモリ１３０に保存された応用プログラムを駆動することによって、使用者に適切な情報または機能を提供または処理することができる。

【0029】

また、制御部１８０はメモリ１３０に保存された応用プログラムを駆動するために、図２と共に詳擦した構成要素のうち少なくとも一部を制御することができる。さらに、制御部１８０は前記応用プログラムの駆動のために、データ処理装置１００に含まれた構成要素のうち少なくとも二つ以上を互いに組み合わせて動作させることができる。

【0030】

電源供給部１９０は制御部１８０の制御下で、外部の電源、内部の電源が印加されてデータ処理装置１００に含まれた各構成要素に電源を供給する。このような電源供給部１９０はバッテリーを含み、前記バッテリーは内蔵型バッテリーまたは取り替え可能な形態のバッテリーとなり得る。

【0031】

前記各構成要素のうち少なくとも一部は、以下で説明される多様な実施例に係る電子機器制御装置の動作、制御、または制御方法を具現するために互いに協力して動作することができる。また、前記電子機器制御装置の動作、制御、または制御方法は、前記メモリ１３０に保存された少なくとも一つの応用プログラムの駆動によって電子機器制御装置上で具現され得る。

【0032】

一例において、データ処理装置１００は別途の端末機の形態で具現されてもよい。すなわち、デスクトップコンピュータ、デジタルＴＶなどの端末機でもよく、移動可能な携帯電話、ノートパソコン、ＰＤＡ、タブレットＰＣ、ノートパソコン、ウェアラブルデバイスなどの移動端末機の形態で具現されてもよい。

【0033】

以下、図３および図４と関連して、本発明で提案する人工知能基盤の音楽データフィルタリング方法が説明される。

【0034】

まず、入力部１１０はオーディオストリームおよびビデオストリームのうち少なくとも一つを含むビデオコンテンツに関連した情報の入力を受けることができる（Ｓ３００）。入力部１１０はオーディオストリームに関連した情報の入力を受けることもある。

【0035】

また、通信部１４０はオーディオストリームおよびビデオストリームのうち少なくとも一つを含むビデオコンテンツに関連した情報を、外部サーバーまたは外部端末機から受信することができる。

【0036】

すなわち、ビデオコンテンツまたはオーディオストリームは、使用者によって直接アップロードされたファイルであってもよく、外部サーバーから受信したものであってもよい。

【0037】

制御部１８０は入力されたビデオコンテンツに含まれたオーディオストリームから音楽データを検出することができる（Ｓ３０１）。図４に図示された通り、前記音楽データを検出する段階（Ｓ３０１）は、オーディオストリームを音楽データと音声データに分離する過程（Ｓ３１１）と、前記オーディオストリームから音楽データが存在する区間を検出する過程（Ｓ３２１）を含むことができる。

【0038】

具体的には、オーディオストリームを音楽データと音声データに分離する過程（Ｓ３１１）は、予め学習された人工知能モデルによって遂行され得る。すなわち、制御部１８０は人工知能モデルを利用して、入力されたオーディオストリームを音楽データと音声データに区分することができる。

【0039】

例えば前記人工知能モデルは、オーディオストリームが入力され、入力されたオーディオストリームの予め設定された単位区間ごとに、音楽データに該当する確率と音声データに該当する確率をそれぞれ出力することができる。すなわち、制御部１８０は人工知能モデルの出力を利用して、入力されたオーディオストリームの単位区間ごとに、前記単位区間のオーディオが音楽データまたは音声データに該当するかどうかを判別することができる。

【0040】

この時、制御部１８０はオーディオストリームの物理的特性や、ビデオコンテンツの物理的特性に基づいて、前記単位区間を可変的に設定することができる。また、制御部１８０は入力部１１０に印加された使用者入力に基づいて、単位区間を可変的に設定することもできる。例えば、前記使用者入力は正確度、性能および処理速度のうち少なくとも一つに関連したものであり得る。

【0041】

他の例において、前記人工知能モデルは入力されたオーディオストリームのシーケンスにより可変的なエネルギー分布図を出力することもできる。この時、エネルギー分布図はオーディオストリームの一部分が音楽である確率および／または音声である確率に関連され得る。

【0042】

他の実施例として、制御部１８０は第１人工知能モデルを利用して、入力されたオーディオストリームを音楽データと非音楽データに区分し、前記区分された非音楽データを第３人工知能モデルを利用して音声データと非音声データに区分することができる。

【0043】

この時、非音声データとは、ノック音、動物のなき声のように、人間の音声に該当しないオーディオデータを意味する。また、第１人工知能モデルは音楽の有無を検出するための人工ニューラルネットワークであり、第３人工知能モデルは入力されたオーディオがどのような環境音であるかを判別するための人工ニューラルネットワークであり得る。

【0044】

もちろん、必要に応じて第１および第３人工知能モデルが統合されて構成されてもよく、この場合、統合された人工知能モデルは、オーディオ入力に対して音楽が含まれた複数のクラスまたはラベルに対応する確率値を出力することができる。

【0045】

次に、制御部１８０は対象区間を順次シフト（ｓｈｉｆｔ）させながら、前記対象区間に音楽が含まれているかどうかを判別することができる。

【0046】

例えば、前記対象区間の長さは１秒で設定され得る。また、制御部１８０は現在の区間と以前の区間が重なるように対象区間を０．５秒ずつシフトさせながら、対象区間に音楽が含まれているかどうかを判別することができる。

【0047】

前述した分離過程（Ｓ３１１）と比較して、検出過程（Ｓ３２１）は、音声と音楽が同時に存在する区間を感知できる点で差がある。また、制御部１８０は分離過程（Ｓ３１１）の遂行に利用される第１人工知能モデルと異なる第２人工知能モデルを利用して、検出過程（Ｓ３２１）を遂行できる。

【0048】

例えば、分離過程（Ｓ３１１）に利用される第１人工知能モデルは、音楽データと音声データでラベリング（ｌａｂｅｌｉｎｇ）されたトレーニングデータを利用して学習を遂行するように構成され得る。

【0049】

これとは異なり、検出過程（Ｓ３２１）に利用される第２人工知能モデルは、音楽が含まれたデータと、音楽が含まれていないデータでラベリングされたトレーニングデータを利用して学習を遂行するように構成され得る。より具体的には、検出過程（Ｓ３２１）に利用される第２人工知能モデルは、音楽が含まれた比重が基準値以上であるデータと、音楽が含まれた比重が基準値以下であるデータと、音楽が全く含まれていないデータでラベリングされたトレーニングデータを利用して学習を遂行するように構成され得る。

【0050】

前述した通り、制御部１８０は分離過程（Ｓ３１１）の遂行結果および検出過程（Ｓ３２１）の遂行結果のうち少なくとも一つを利用して、オーディオストリームから音楽データを検出することができる。一方、制御部１８０は分離過程（Ｓ３１１）の正確度が基準値以上である場合、検出過程（Ｓ３２１）を省略してもよい。

【0051】

一実施例において、制御部１８０は入力されたオーディオストリームのうち、分離過程（Ｓ３１１）を通じて音楽に区分された一部分に対してのみ前記検出過程（Ｓ３２１）を遂行してもよい。

【0052】

他の実施例において、制御部１８０は入力されたオーディオストリームのうち、分離過程（Ｓ３１１）を通じて出力された単位区間別確率に基づいて、前記検出過程（Ｓ３２１）を遂行する対象を決定することができる。

【0053】

他の実施例において、制御部１８０は分離過程（Ｓ３１１）と同様に、入力されたオーディオストリーム全体に対して前記検出過程（Ｓ３２１）を遂行してもよい。

【0054】

一方、制御部１８０は分離過程（Ｓ３１１）および検出過程（Ｓ３２１）のうち少なくとも一つを利用して、オーディオストリームの単位区間別に音楽データであるかどうかを検出した後、検出結果の区間連続性に基づいて、オーディオストリームの一部分を音楽データとして検出することができる。

【0055】

また、制御部１８０は検出された音楽データの変奏の様相を検出し、検出された変奏の様相に基づいて、一つの音楽データを複数の音楽データに分離させてもよい。例えば、互いに異なる音楽が連続的にストリーミングされて一つの音楽データとして検出された場合に、制御部１８０は音楽データの変奏の様相をモニタリングすることによって、前記音楽データを複数個に分離させることができる。

【0056】

前述した通り、音楽データが検出（Ｓ３０１）されると、制御部１８０は前記検出された音楽データがオーディオストリームから除去されるように、前記オーディオストリームに対してフィルタリングを遂行できる（Ｓ３０２）。

【0057】

具体的には、制御部１８０はオーディオストリームのうち音楽データとして検出された一部分を削除させることができる。

【0058】

他の例として、制御部１８０はオーディオストリームのうち音楽データとして検出された一部分を、前記音楽データとは異なる代替音楽データに変更させることができる。

【0059】

一実施例において、制御部１８０は検出された音楽データが著作物に該当するかどうかを判断し、判断結果により前記フィルタリング段階（Ｓ３０２）を遂行できる。すなわち、制御部１８０は音楽データが検出されても、前記検出された音楽データが著作物に該当しなければ、フィルタリング対象から除外することができる。オーディオストリームから複数の互いに異なる音楽データが検出される場合に、制御部１８０はそれぞれの音楽データに対して著作物の有無を判断することができる。

【0060】

フィルタリング段階（Ｓ３０２）が遂行されるにおいて、著作物であるかどうかを考慮するために、データ処理装置１００のメモリは著作物に関連した情報で構成される著作物データベースを保存することができる。すなわち、制御部１８０はメモリに予め保存された著作物データベースを利用して、検出された前記音楽データが著作物であるかどうかを判断することができる。また、制御部１８０は検出された音楽データが著作物であると判断されると、前記音楽データが除去されるようにオーディオストリームをフィルタリングすることができる。

【0061】

一方、制御部１８０は検出された音楽データの特性を考慮して、代替音楽データを決定することができる。例えば、前記特性は、ジャンル、雰囲気、組成、テンポ、ボリュームおよび音源の長さのうち少なくとも一つと関連され得る。

【0062】

一実施例において、制御部１８０は第４人工知能モデルを利用して、検出された音楽データのジャンルおよび／または雰囲気に関連した情報を分析し、分析結果に基づいて代替音楽データを選択することができる。

【0063】

すなわち、制御部１８０は音楽のジャンルや、雰囲気を分析するために設計された第４人工知能モデルを利用して、検出された音楽データのジャンルおよび雰囲気のうち少なくとも一つに関連した情報を検出することができる。特に、第４人工知能モデルは、音楽がどのようなジャンルであるか、またはどのような雰囲気であるかを、ラベリングされたトレーニングデータによって学習を遂行するように構成され得る。この時、第４人工知能モデルによって獲得された情報はフィーチャーベクトル（Ｆｅａｔｕｒｅｖｅｃｔｏｒ）の形態で構成され得る。

【0064】

また、制御部１８０は代替音楽候補群のフィーチャーベクトルと検出された音楽データのフィーチャーベクトルを比較して、検出された音楽データと代替音楽候補群の間の類似度を算出することができる。また、制御部１８０は算出された類似度に基づいて、複数の代替音楽データのうちいずれか一つを選択して、検出された音楽データを選択された代替音楽データに変更させることができる。

【0065】

他の実施例において、制御部１８０は検出された音楽データのボリュームの大きさに基づいて、代替音楽データに対する変換を遂行できる。具体的には、制御部１８０は検出された音楽データに対して、再設定された単位区間別にエネルギーレベルを算出することができる。例えば、制御部１８０は分離過程（Ｓ３１１）で適用された第１単位区間より短い区間で第２単位区間を設定し、前記第２単位区間ごとに検出された音楽データのエネルギーレベルを算出することができる。一例において、第２単位区間は０．２秒であり得る。

【0066】

制御部１８０は算出されたエネルギーレベルで構成されたベクトルによって定義されるローパスフィルタを代替音楽データに適用し、既存音楽データを前記適用結果に変更させることができる。

【0067】

一方、制御部１８０は検出された音楽データと対応するビデオストリームの一部分を分析し、分析結果に基づいて代替音楽データを決定してもよい。

【0068】

具体的には、制御部１８０は前記ビデオストリームの一部分に対して映像認識を遂行して少なくとも一つの客体を認識することができ、認識された客体の特性に基づいて代替音楽データを決定することができる。この時、客体の特性は、客体の数、客体別ラベルおよび客体の移動速度のうち少なくとも一つを含むことができる。

【0069】

また、制御部１８０は前記一部分の領域別色相と、色相の変化の程度を分析して代替音楽データを決定することができる。

【0070】

また、制御部１８０はフィルタリング段階（Ｓ３０２）が遂行された後、フィルタリングされたオーディオストリームを出力することができる（Ｓ３０３）。

【0071】

本発明に係るデータ処理装置１００は、フィルタリングされたオーディオストリームを含んだビデオコンテンツをメモリに保存されたファイル形式で出力してもよく、ディスプレイに直接出力させてもよい。一方、データ処理装置１００は外部サーバーまたは外部端末機にフィルタリングされたオーディオストリームを伝送してもよい。

【0072】

例えば、本発明に係るデータ処理装置１００は、動画ストリーミングプラットホームのサーバーに搭載され得る。この場合、使用者が該当プラットホームにビデオコンテンツをアップロードすると、データ処理装置１００はアップロードされたビデオコンテンツに対してフィルタリング段階（Ｓ３０２）を遂行した後、フィルタリング結果がプラットホーム上で出力されるようにプラットホーム制御装置にフィルタリング結果を伝送することができる。

【0073】

他の例において、制御部１８０は原本オーディオストリームから検出された音楽データを削除して、変更されたオーディオストリームを含むビデオコンテンツが出力されるように出力部１２０を制御することができる。また、制御部１８０は原本オーディオストリームで音楽データが削除された区間に関連した情報を、変更されたビデオコンテンツとともに出力することができる。

【0074】

例えば、変更されたビデオコンテンツファイルと別途のテキストファイルが出力され得る。他の例において、制御部１８０は動画プラットホームで提供するログを利用して音楽データが削除された区間に関連した情報を出力し、前記プラットホーム上で変更されたビデオコンテンツが出力されるように制御してもよい。

【0075】

他の実施例において、制御部１８０は原本ビデオコンテンツが検出された音楽データが存在する区間を基準としてパーシング（ｐａｒｓｉｎｇ）されて、複数のビデオコンテンツで出力されるように出力部１２０を制御することができる。

【0076】

【0077】

【0078】

【産業上の利用可能性】

【0079】

【0080】

【0081】

【図1】