IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 2nd Community株式会社の特許一覧

特許7160264音データ処理装置、音データ処理方法及び音データ処理プログラム
<>
  • 特許-音データ処理装置、音データ処理方法及び音データ処理プログラム 図1
  • 特許-音データ処理装置、音データ処理方法及び音データ処理プログラム 図2
  • 特許-音データ処理装置、音データ処理方法及び音データ処理プログラム 図3
  • 特許-音データ処理装置、音データ処理方法及び音データ処理プログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-17
(45)【発行日】2022-10-25
(54)【発明の名称】音データ処理装置、音データ処理方法及び音データ処理プログラム
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20221018BHJP
   G10L 19/00 20130101ALI20221018BHJP
【FI】
G10L21/0208 100Z
G10L19/00 312E
【請求項の数】 6
(21)【出願番号】P 2021531432
(86)(22)【出願日】2020-07-22
(86)【国際出願番号】 JP2020028476
(87)【国際公開番号】W WO2022018864
(87)【国際公開日】2022-01-27
【審査請求日】2021-06-01
(73)【特許権者】
【識別番号】520506936
【氏名又は名称】2nd Community株式会社
(74)【代理人】
【識別番号】110002516
【氏名又は名称】特許業務法人白坂
(72)【発明者】
【氏名】金 賢
【審査官】岩田 淳
(56)【参考文献】
【文献】国際公開第2013/051084(WO,A1)
【文献】特開2020-034624(JP,A)
【文献】特開2010-249940(JP,A)
【文献】米国特許出願公開第2018/0247662(US,A1)
【文献】中国特許出願公開第111354367(CN,A)
【文献】中国特許出願公開第108615535(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10G 1/00- 7/02
G10H 1/00- 7/12
G10K 15/00-15/12
G10L 13/00-13/10
19/00-99/00
G11B 20/10-20/16
H03G 1/00- 3/34
H04R 3/00- 3/14
(57)【特許請求の範囲】
【請求項1】
音のパートを記録した音データを取得する取得部と、
予め複数の音を学習して生成されたパート毎の学習モデルと、前記取得部によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部と、
前記除去部によってノイズが除去された各パートをミキシングするミキシング部と、を備え、
前記除去部は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する
音データ処理装置。
【請求項2】
前記除去部は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得する
請求項1に記載の音データ処理装置。
【請求項3】
前記ミキシング部は、
各パートの音データに対して音に関する所定の調整を施す第1調整部と、
第1調整部によって調整が施された各パートをミキシングするよう調整する第2調整部と、
を備える請求項1又は2に記載の音データ処理装置。
【請求項4】
前記第1調整部は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮調整のうち少なくとも1つの調整を行い、
第2調整部は、左右の出力バランス調整を行う
請求項3に記載の音データ処理装置。
【請求項5】
コンピュータが、
音のパートを記録した音データを取得する取得ステップと、
予め複数の音を学習して生成されたパート毎の学習モデルと、前記取得ステップによって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去ステップと、
前記除去ステップによってノイズが除去された各パートをミキシングするミキシングステップと、を実行し、
前記除去ステップは、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する
音データ処理方法。
【請求項6】
コンピュータに、
音のパートを記録した音データを取得する取得機能と、
予め複数の音を学習して生成されたパート毎の学習モデルと、前記取得機能によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去機能と、
前記除去機能によってノイズが除去された各パートをミキシングするミキシング機能と、を実現させ、
前記除去機能は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する
音データ処理プログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音データ処理装置、音データ処理方法及び音データ処理プログラムに関する。
【背景技術】
【0002】
従来から、マイクロフォンで集音することにより生成される音データには、集音環境において生じる雑音が記録される場合がある。特許文献1には、音データに含まれる雑音を除去することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2017-134321号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、相対的に長い時間をかけて集音した音データは、データのサイズが相対的に大きくなり、雑音を除去するためのソフトウェア又は装置によっては、雑音を除去する処理に時間がかかり、又は、処理能力を超えるために音データから雑音を除去できない場合があった。
【0005】
本発明は、音に含まれる雑音を除去することが可能な音データ処理装置、音データ処理方法及び音データ処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
一態様の音データ処理装置は音のパートを記録した音データを取得する取得部と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部と、除去部によってノイズが除去された各パートをミキシングするミキシング部と、を備え、除去部は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。
【0007】
一態様の音データ処理装置では、除去部は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
【0008】
一態様の音データ処理装置では、除去部は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得することとしてもよい。
【0009】
一態様の音データ処理装置では、ミキシング部は、各パートの音データに対して音に関する所定の調整を施す第1調整部と、第1調整部によって調整が施された各パートをミキシングするよう調整する第2調整部と、を備えることとしてもよい。
【0010】
一態様の音データ処理装置では、第1調整部は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮調整のうち少なくとも1つの調整を行い、第2調整部は、左右の出力バランス調整することとしてもよい。
【0011】
一態様の音データ処理方法では、コンピュータが、音のパートを記録した音データを取得する取得ステップと、予め複数の音を学習して生成されたパート毎の学習モデルと、取得ステップによって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去ステップと、除去ステップによってノイズが除去された各パートをミキシングするミキシングステップと、を実行し、除去ステップは、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。
【0012】
一態様の音データ処理プログラムは、コンピュータに、音のパートを記録した音データを取得する取得機能と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得機能によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去機能と、除去機能によってノイズが除去された各パートをミキシングするミキシング機能と、を実現させ、除去機能は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。
【発明の効果】
【0013】
一態様の音データ処理装置は、予め複数の音を学習して生成されたパート毎の学習モデルと、パート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行い、ノイズが除去された各パートをミキシングする。この場合、音データ処理装置は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。これにより、音データ処理装置は、音に含まれる雑音を除去することができる。
また、一態様の音データ処理方法及び音データ処理プログラムは、一態様の音データ処理装置と同様の効果を奏することができる。
【図面の簡単な説明】
【0014】
図1】音データ処理装置について説明するための図である。
図2】一実施形態に係る音データ処理装置について説明するためのブロック図である。
図3】トライアングルフィルタの一例について説明するための図である。
図4】一実施形態に係る音データ処理方法について説明するためのフローチャートである。
【発明を実施するための形態】
【0015】
以下、本発明の一実施形態について説明する。
本明細書では、「情報」の文言を使用しているが、「情報」の文言は「データ」と言い換えることができ、「データ」の文言は「情報」と言い換えることができる。
【0016】
図1は、音データ処理装置1について説明するための図である。
本実施形態の音データ処理装置1は、より簡単に楽曲を制作したいとの要望に基づき発明されたものである。音データ処理装置1、例えば、コンピュータ及びサーバ等の情報処理装置であってよい。
【0017】
音データ処理装置1は、音のパート(図1に例示する場合では、第1~3パート(複数のトラック))を記録した音データ(トラックデータ)を取得する。音のパートを記録した音データは、例えば、1又は複数の楽器毎に集音することにより生成された音データ(トラックデータ)、又は、1又は複数の音域(例えば、ソプラノ、アルト、テノール及びバス等)毎に集音することにより生成された音データ(トラックデータ)等である。音のパート(音データ)の数は、単数又は複数であってよい。音のパート(音データ)の数は、図1に例示する場合では3つのパート(第1~3パート)を記載するが、本発明はこの例示に限定されることはなく、2つ以下のパート数であってもよく、4つ以上のパート数であってもよい。すなわち、音データ処理装置1は、例えば、マルチトラック(又は、シングルトラック)の入力を受け付ける。
【0018】
音データ処理装置1は、深層学習等(一例として、Wave-U-net)を利用して予め音を学習した学習モデルと、音データとに基づいて、各パート(各トラック)からノイズを除去する。その後、音データ処理装置1は、ノイズが除去されたパート(トラック)それぞれに対して所定の調整(一例として、残響等の音に関連する調整)を加える。そして、音データ処理装置1は、ミキシングを行うことにより、マルチトラックをシングルトラックにして出力する。
【0019】
次に、音データ処理装置1について詳細に説明する。
図2は、一実施形態に係る音データ処理装置1について説明するためのブロック図である。
【0020】
音データ処理装置1は、マイク部16、通信部17、記憶部18、スピーカ部19、取得部12、除去部(ノイズキャンセラ)13、ミキシング部(ミキサ)14及び出力制御部15を備える。取得部12、除去部13、ミキシング部14及び出力制御部15は、音データ処理装置1の制御部11(例えば、演算処理装置等)の一機能として実現されてもよい。
【0021】
マイク部16は、音及び音声を集音する装置である。
【0022】
通信部17は、音データ処理装置1の外部に配される装置(例えば、サーバ100等)との間でデータの送受信を行うことが可能な装置である。
【0023】
記憶部18は、種々のデータ及びプログラムを記憶することが可能な装置である。
【0024】
スピーカ部19は、音及び音声を出力する装置である。
【0025】
取得部12は、音のパート(トラック)を記録した音データ(トラックデータ)を取得する。
取得部12は、マイク部16で集音されることにより生成された音データを取得することとしてもよい。又は、取得部12は、通信部17を介して、サーバ100に蓄積される音データを取得することとしてもよい。
取得部12は、例えば、複数の楽器及びボーカルを利用して1つの楽曲を制作するために、複数の音データ(トラックデータ)を取得する。音データは、異なる場所で生成されてもよい。取得部12は、例えば、同一の楽曲について、部屋Aにおいてユーザが楽器Aを利用して演奏すること基づいて生成された音データAと、部屋Aとは異なる部屋Bにおいてユーザが楽器Bを利用して演奏することに基づいて生成された音データBとを取得することとしてもよい。
なお、取得部12は、例えば、1つの音データ(トラックデータ)のみを取得することとしてもよい。取得部12は、1つの音データのみ取得する場合には、後述する第2調整部142は、ミキシングの処理を行わなくともよい。
【0026】
上述したように、音のパートを記録した音データは、例えば、1又は複数の楽器毎に集音することにより生成された音データ、又は、1又は複数の音域毎に集音することにより生成された音データ等である。具体的な音のパートの一例として、ギター、ボーカル、ドラム及びピアノ等のパートであってもよく、それらの例示を除く他の楽器のパートであってもよい。
【0027】
除去部13は、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部12によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う。除去部13は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得することとしてもよい。
【0028】
ここで、例えば、制御部11は、予め複数の音を学習して生成されたパート毎の学習モデルを生成する。例えば、制御部11は、ノイズが含まれる音を学習することにより、学習モデルを生成する。また、例えば、制御部11は、ノイズが含まれる音と、ノイズが含まれない音とを学習することにより、学習モデルを生成してもよい。具体的な一例として、制御部11は、ノイズが含まれる音として、室内の空調及び人の話し声等のノイズが含まれる音を学習することとしてもよい。制御部11は、ノイズが含まれる音を学習する場合、上述した一例に限らず、他のノイズが含まれる音を学習することとしてもよい。
制御部11は、パート毎(例えば、楽器及びボーカル毎)に少なくともノイズが含まれる音を学習することにより学習モデルを生成することとしてもよい。
【0029】
又は、学習モデルは、制御部11が生成するばかりでなく、音データ処理装置1の外部にあるサーバ100等によって生成されてもよい。この場合、除去部13は、通信部17を介して、サーバ100から学習モデルを取得する。
【0030】
除去部13は、具体的な一例として、Wave-U-net等の深層学習等を利用することにより、学習モデルと音データ(トラックデータ)とに基づいて、パート(トラック)それぞれからノイズを除去する。すなわち、除去部13は、マルチトラックの状態で、各パートからノイズを除去する。より具体的な一例として、除去部13は、Wave-U-netに音(波形)を入力することによりノイズを除去し、そのWave-U-netからノイズが除去された音(波形)を出力させる。
【0031】
ここで、パート(トラック)毎に学習モデルが生成されている場合には、除去部13は、音データ(トラックデータ)と、その音データに対応する学習モデルとに基づいて、パートからノイズを除去することとしてもよい。この場合、除去部13は、音データと共に、音データに記録される楽器又はボーカル等の種類の情報(種類情報)とが入力されることにより、種類情報に対応する楽器又はボーカルを学習した学習モデルを選択し、その音データと選択した学習モデルとに基づいて、パート(トラック)からノイズを除去することとしてもよい。種類情報は、例えば、音データに含まれていてもよく、又は、ユーザが入力装置等(図示せず)を操作することに基づいて除去部13に入力されてもよい。
【0032】
除去部13は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。この場合、除去部13は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
【0033】
取得部12によって取得される音データ(除去部13に入力される音データ)では、音データのサイズ(例えば、録音時間又は集音時間等)が相対的に長時間になる場合がある。録音時間又は集音時間等が相対的に長時間になる場合には、除去部13によってノイズを除去する際の処理能力を超える可能性がある。このため、除去部13は、例えば、各パート(各トラック)を所定時間毎に分割することとしてもよい。分割する時間及び分割のタイミングは、上述した所定時間毎に限定されず、除去部13のノイズ除去に関する処理能力等に応じて適宜設定されてもよい。すなわち、除去部13は、複数のパート(複数のトラック)それぞれを時間的に分割して、パート(トラック)毎に複数の分割パート(分割トラック)を生成する。この場合、例えば、除去部13は、時間的に隣接する分割トラックが時間的にオーバーラップする部分を有するように、分割することとしてもよい。除去部13は、分割パート(分割トラック)と、学習モデルとに基づいて、分割パートからノイズを除去する。
【0034】
その後、除去部13は、ノイズが除去された分割パートを、時間的な順に再度結合する。この際に、分割パート間(一方の分割パートと他方の分割パートとの間)で音の繋がりが不自然になる可能性がある。例えば、結合される分割パート間にノイズ(例えば、アーティファクトノイズ(Artifact noise)等)が入る可能性がある。人の会話(スピーチ)の場合には、分割パート間での音声の繋がりがユーザにとって不自然に感じない場合がある。一方、音楽の場合には、分割パート間での音の繋がりがユーザにとって不自然に感じる場合がある。このため、例えば、除去部13は、音データに音楽が記録されている場合に、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制するために、以下の処理を行うこととしてもよい。又は、例えば、除去部13は、音データに記録されている内容(音楽及び人の会話等)にかかわらず全ての場合に、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制するために、以下の処理を行うこととしてもよい。
【0035】
図3は、トライアングルフィルタの一例について説明するための図である。
例えば、除去部13は、結合する分割パート(分割トラック)間にトライアングルフィルタ(Triangle Filter)を適用して、時間的に隣接する分割パート(分割トラック)同士を結合する。すなわち、例えば、除去部13は、隣接する分割パートのオーバーラップする部分を、トライアングルフィルタを利用してユーザが違和感を生じないように結合する。より具体的には、図3に例示するように、除去部13は、時間的に隣接する分割パート(一方の分割パート201及び他方の分割パート202)を結合する際に、結合位置203における結合の重み204を最も重くし、その結合位置203から離れるに従って連続的に又は段階的に結合の重み204を軽くする。これによい、除去部13は、重みの重さに応じて音を重畳させる割合が変えることができ、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制することが可能になる。
【0036】
ミキシング部14は、除去部13によってノイズが除去された各パートをミキシングする。具体的には、ミキシング部14は、第1調整部141及び第2調整部142を備えることとしてもよい。
【0037】
第1調整部141は、各パートの音データに対して音に関する所定の調整を施す。第1調整部141は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮(コンプレッサ)調整のうち少なくとも1つの調整を行うこととしてもよい。各調整については、以下で説明する。
【0038】
第1調整部141は、レベル調整を行う場合、各トラックのバランスが取れるようにレベルを調整する。例えば、第1調整部141は、レベル調整を行うモデルパターンを複数記憶しておき、各トラックが入力されると、複数のモデルパターンのうち1つを選択して、選択したパターンに基づいて各トラックのレベルを調整することとしてもよい。より具体的な一例として、第1調整部141は、予め決められた基準でラウンドネスの調整を行うモデルパターン、及び、ラウドネスは調整せずに、複数のトラックのいずれかのトラックが他のトラックでかき消されないように調整するモデルパターン等の複数のモデルパターンを予め記憶する。例えば、第1調整部141は、ユーザによって複数のモデルパターンのうち1つが選択されることにより、選択されたモデルパターンに基づいて各トラックのレベルを調整する。
【0039】
第1調整部141は、イコライザ調整を行う場合、まず、予め楽曲のジャンル毎に音の周波数解析を行い、入力されたパートの音についてどのように周波数調整すれば、各パートとして入力された楽曲がその楽曲の属するジャンルらしくなるのかを計算する。一例として、第1調整部141は、各パート(楽曲)のジャンルが「ジャズ」の場合には、各パートの音周波数帯域をどのように調整すれば「ジャズ」らしくなるのか、周波数の調整量を計算する。一例として、第1調整部141は、「Automatic equalization of multi-channel audio using cross-adaptive methods」等の公知の方法を利用して、各パート(楽曲)のジャンルにふさわしい周波数の調整量を計算する。
【0040】
この場合、例えば、第1調整は、予め、ジャズ、クラシック、ロック、フォーク及び声楽等の複数の音楽ジャンルの周波数分布解析を行う。次に、例えば、第1調整部141は、各パートが入力された場合、それらのパートのジャンル(一例として、ジャズ)を取得し、各パートの音の周波数分布が予め解析された周波数分布に近づくように、各パートの音の周波数分布を調整する。
各パート(楽曲)のジャンルに関するジャンル情報は、上述した種類情報に含まれていてもよく、種類情報とは別に音データ(トラックデータ)に含まれていてもよい。また、ジャンル情報は、ユーザが入力装置(図示せず)を操作することに基づいて、ミキシング部14に入力されてもよい。
【0041】
第1調整部141は、残響効果調整を行う場合、例えば、機械学習又は深層学習等を利用することにより生成された学習モデルと、各パート(各トラック)とに基づいて、各パートに残響効果を加える。
ここで、制御部11は、例えば、残響を有する音を複数学習することに基づいて、学習モデルを生成することとしてもよい。又は、制御部11は、例えば、残響を有する音と、残響を有しない音とを学習することに基づいて、学習モデルを生成することとしてもよい。
又は、音データ処理装置1の外部にあるサーバ100が、上述した制御部11の場合と同様にして、学習モデルを生成することとしてもよい。この場合、第1調整部141は、通信部17を介してサーバ100から学習モデルを取得する。
【0042】
なお、第1調整部141は、残響効果調整を行う場合、音データ(トラックデータ)のサイズ(例えば、録音時間又は集音時間等)が相対的に長時間になる場合には、第1調整部141によって残響効果を加える調整の処理能力を超える可能性がある。この場合、上述した除去部13の場合と同様に、第1調整部141は、各パート(各トラック)を所定時間毎に分割して、パート(トラック)毎に複数の分割パート(分割トラック)を生成する。この場合、例えば、第1調整部141は、時間的に隣接する分割トラックが時間的にオーバーラップする部分を有するように、分割することとしてもよい。第1調整部141は、分割パート(分割トラック)と、学習モデルとに基づいて、分割パートに残響効果を加える。
【0043】
その後、第1調整部141は、残響効果が加えられた分割パートを、時間的な順に再度結合する。この際に、上述した除去部13の場合と同様に、結合される分割パート間にノイズ(例えば、アーティファクトノイズ(Artifact noise)等)が入る可能性がある。このため、第1調整部141は、上述した除去部13の場合と同様に、結合する分割パート(分割トラック)間にトライアングルフィルタ(Triangle Filter)を適用して、時間的に隣接する分割パート(分割トラック)同士を結合する。すなわち、例えば、第1調整部141は、隣接する分割パートのオーバーラップする部分を、トライアングルフィルタを利用してユーザが違和感を生じないように結合する。より具体的には、第1調整部141は、時間的に隣接する分割パート(一方の分割パート及び他方の分割パート)を結合する際に、結合位置における結合の重みを最も重くし、その結合位置から離れるに従って連続的に又は段階的に結合の重みを軽くする。これにより、第1調整部141は、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制することが可能になる。
【0044】
第1調整部141は、圧縮調整を行う場合、例えば、予め圧縮を行うためのモデルを取得し、そのモデルを利用して各パートに対する圧縮調整のパラメータを計算する。一例として、第1調整部141は、圧縮調整を最も行いたいハーモニック及びパーカッションの部分を横断的に考慮して、そのモデルを利用してパラメータを計算する。モデルは、例えば、「Intelligent Multitrack Dynamic Ramge Compression」等を利用した公知のモデルを利用することができる。第1調整部141は、そのモデルを利用することにより、圧縮調整を行う際のスレッショルド、アタック、ニー及びレシオ等のパラメータを得ることができる。より具体的には、第1調整部141は、モデルを利用して学習されたハーモニック及びパーカッションの重みに基づいて、スレッショルド、アタック、ニー及びレシオのパラメータを計算する。第1調整部141は、パート(トラック)に対して上述したパラメータを「重み」として適用することにより、圧縮調整を行う。
【0045】
第2調整部142は、第1調整部141によって調整が施された各パートをミキシングするよう調整する。第2調整部142は、左右の出力バランス調整(パニング調整)を行うこととしてもよい。
すなわち、上述した第1調整部141はマルチトラックで各調整を行う。第2調整部142は、第1調整部141によって各調整が行われたマルチトラックをミキシングしてシングルトラックにする。第2調整部142は、シングルトラックにする際、左右の出力バランスの調整(パニング調整)を行う。第2調整部142は、パニング調整を行う場合、例えば、各トラックが明確に聴こえるように、及び、ステレオチャンネルとして聴こえるように、各トラックの周波数帯を調整する。一例として、第2調整部142は、各トラックの音をマスキングする値及び各トラックの音を増幅する値を計算した後、その値に基づいて各トラックの音を調整してミキシングを行う。
なお、第2調整部142は、2チャンネルの出力(ステレオ出力)を行うデータを生成するばかりでなく、他のチャンネル数(一例として、5.1チャンネル等)の出力を行うデータを生成することとしてもよい。
【0046】
出力制御部15は、ミキシング部14から出力される音データをスピーカ部19から出力するように制御することとしてもよい。又は、出力制御部15は、ミキシング部14から出力される音データを記憶部18に記憶するように制御することとしてもよい。又は、出力制御部15は、ミキシング部14から出力される音データをサーバ100に送信するよう通信部17を制御することとしてもよい。スピーカ部19、記憶部18及び通信部17は、まとめて「出力部」と言い換えてもよい。
【0047】
次に、一実施形態に係る音データ処理方法について説明する。
図4は、一実施形態に係る音データ処理方法について説明するためのフローチャートである。
【0048】
ステップST101において、取得部12は、音のパート(トラック)を記録した音データ(トラックデータ)を取得する。取得部12は、例えば、マイク部16で集音されることにより生成された音データを取得することとしてもよい。又は、取得部12は、例えば、通信部17を介して、サーバ100に蓄積される音データを取得することとしてもよい。
【0049】
ステップST102において、除去部13は、パート毎の学習モデルと、ステップST101で取得された音データ(トラックデータ)とに基づいて、それぞれのパートの音からノイズを除去する。
ここで、例えば、制御部11は、ノイズが含まれる音を学習することにより、学習モデルを生成することとしてもよい。又は、例えば、制御部11は、ノイズが含まれる音と、ノイズが含まれない音とを学習することにより、学習モデルを生成してもよい。
又は、制御部11の代わりに、音データ処理装置1の外部にあるサーバ100、学習モデルを生成することとしてもよい。この場合、除去部13は、通信部17を介して、サーバ100から学習モデルを取得する。
【0050】
ここで、音データ(トラックデータ)のサイズが除去部13のノイズ除去の処理能力(例えば、音データと学習モデルとに基づいて、ノイズを除去する際の処理能力等)を越える可能性がある場合、除去部13は、各パート(各トラック)それぞれを複数に分割して、分割パート(分割トラック)を生成することとしてもよい。除去部13は、分割パート(分割トラック)と、学習モデルとに基づいて、分割パートの音からノイズを除去する処理を繰り返す。その後、除去部13は、ノイズが除去された複数の分割パート(分割トラック)を時間的に連続するように結合する。この場合、除去部13は、トライアングルフィルタを利用することとしてもよい。すなわち、除去部13は、時間的に隣接する分割パート(分割トラック)の結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
【0051】
ステップST103において、第1調整部141(ミキシング部14)は、ステップST102でノイズが除去された音データ(トラックデータ)に対して、音に関する所定の調整を施す。第1調整部141は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮(コンプレッサ)調整のうち少なくとも1つの調整を行うこととしてもよい。第1調整部141は、マルチトラックで各調整を行う。
【0052】
ステップST104において、第2調整部142(ミキシング部14)は、パニング調整を行う。
すなわち、第2調整部142は、各パートをミキシングすると共に、左右の出力バランス調整(パニング調整)を行う。第2調整部142は、ステップST103で各調整が行われたマルチトラックをミキシングしてシングルトラックにする。
【0053】
ステップST105において、出力制御部15は、ステップST104で生成されるシングルトラックのデータを出力するよう制御する。例えば、出力制御部15は、第2調整部142(ミキシング部14)から出力される音データをスピーカ部19から出力するように制御することとしてもよい。又は、例えば、出力制御部15は、第2調整部142(ミキシング部14)から出力される音データを記憶部18に記憶するように制御することとしてもよい。又は、例えば、出力制御部15は、第2調整部142(ミキシング部14)から出力される音データをサーバ100に送信するよう通信部17を制御することとしてもよい。
【0054】
次に、本実施形態の効果について説明する。
音データ処理装置1は、音のパートを記録した音データを取得する取得部12と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部12によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部13と、除去部13によってノイズが除去された各パートをミキシングするミキシング部14と、を備える。この場合、除去部13は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去されたトラックを時間的に連続するように結合する。
これにより、音データ処理装置1は、音に含まれる雑音を除去することができる。
【0055】
音データ処理装置1では、除去部13は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
これにより、音データ処理装置1は、除去部13によるノイズ除去の処理能力を超えるサイズの音データが入力される可能性があっても、音データを分割することによりノイズを除去することができる。
【0056】
音データ処理装置1では、除去部13は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得することとしてもよい。
これにより、音データ処理装置1は、例えば、深層学習等を利用して、音データからノイズを除去することができる。
【0057】
音データ処理装置1では、ミキシング部14は、各パートの音データに対して音に関する所定の調整を施す第1調整部141と、第1調整部141によって調整が施された各パートをミキシングするよう調整する第2調整部142と、を備えることとしてもよい。
これにより、音データ処理装置1は、ノイズが除去された音に対して音に関する所定の調整を行うことにより、容易に楽曲を作成することができる。
【0058】
音データ処理装置1では、第1調整部141は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮調整のうち少なくとも1つの調整を行うこととしてもよい。第2調整部142は、左右の出力バランス調整することとしてもよい。
これにより、音データ処理装置1は、楽曲の制作に必要な音に関する調整を行うことができるので、楽曲制作に関するユーザの利便性を向上できる。
【0059】
音データ処理方法では、コンピュータが、音のパートを記録した音データを取得する取得ステップと、予め複数の音を学習して生成されたパート毎の学習モデルと、取得ステップによって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去ステップと、除去ステップによってノイズが除去された各パートをミキシングするミキシングステップと、を実行する。この場合、除去ステップは、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去されたトラックを時間的に連続するように結合する。
これにより、音データ処理方法は、音に含まれる雑音を除去することができる。
【0060】
音データ処理プログラムは、コンピュータに、音のパートを記録した音データを取得する取得機能と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得機能によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去機能と、除去機能によってノイズが除去された各パートをミキシングするミキシング機能と、を実現させる。この場合、除去機能は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去されたトラックを時間的に連続するように結合する。
これにより、音データ処理プログラムは、音に含まれる雑音を除去することができる。
【0061】
上述した音データ処理装置1の各部は、コンピュータの演算処理装置等の機能として実現されてもよい。すなわち、音データ処理装置1の取得部12、除去部13、ミキシング部14(第1調整部141及び第調整部)並びに出力制御部15は、コンピュータの演算処理装置等による取得機能、除去機能、ミキシング機能(第1調整機能及び第調整機能)並びに出力制御機能としてそれぞれ実現されてもよい。
音データ処理プログラムは、上述した各機能をコンピュータに実現させることができる。音データ処理プログラムは、外部メモリ又は光ディスク等の、コンピュータで読み取り可能な非一時的な記録媒体に記録されていてもよい。
また、上述したように、音データ処理装置1の各部は、コンピュータの演算処理装置等で実現されてもよい。その演算処理装置等は、例えば、集積回路等によって構成される。このため、音データ処理装置1の各部は、演算処理装置等を構成する回路として実現されてもよい。すなわち、音データ処理装置1の取得部12、除去部13、ミキシング部14(第1調整部141及び第調整部)並びに出力制御部15は、コンピュータの演算処理装置等を構成する取得回路、除去回路、ミキシング回路(第1調整回路及び第調整回路)並びに出力制御回路として実現されてもよい。
また、音データ処理装置1のマイク部16、通信部17、記憶部18及びスピーカ部19は、例えば、演算処理装置等の機能を含むマイク機能、通信機能、記憶機能及びスピーカ機能として実現されもよい。また、音データ処理装置1のマイク部16、通信部17、記憶部18及びスピーカ部19は、例えば、集積回路等によって構成されることによりマイク回路、通信回路、記憶回路及びスピーカ回路として実現されてもよい。また、音データ処理装置1のマイク部16、通信部17、記憶部18及びスピーカ部19は、例えば、複数のデバイスによって構成されることによりマイク装置、通信装置、記憶装置及びスピーカ装置として構成されてもよい。
【符号の説明】
【0062】
1 音データ処理装置
11 制御部
12 取得部
13 除去部
14 ミキシング部
141 第1調整部
142 第2調整部
15 出力制御部
図1
図2
図3
図4