(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-03-01
(45)【発行日】2024-03-11
(54)【発明の名称】調整装置、およびプログラム
(51)【国際特許分類】
G10L 21/0332 20130101AFI20240304BHJP
G10L 21/034 20130101ALI20240304BHJP
【FI】
G10L21/0332
G10L21/034
(21)【出願番号】P 2023129498
(22)【出願日】2023-08-08
【審査請求日】2023-08-08
【早期審査対象出願】
(73)【特許権者】
【識別番号】523302533
【氏名又は名称】株式会社AZSTOKE
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】中島 健太郎
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2004-153509(JP,A)
【文献】特開2004-128923(JP,A)
【文献】特開2017-163448(JP,A)
【文献】特開2004-215102(JP,A)
【文献】特開平01-200709(JP,A)
【文献】特表2004-513552(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0316-21/0364
H04R 3/00
H03G 1/00-11/08
(57)【特許請求の範囲】
【請求項1】
ファイルに記録された複数フレームからなるオーディオ信号の信号レベルを、前記オーディオ信号のエンベロープに対応した離散的な調整ポイントにおいて調整する調整装置であって、
前記オーディオ信号のエンベロープを取得する取得手段と、
前記エンベロープを調整する調整手段と、
を有し、
前記調整手段は、
フレーム毎の前記エンベロープのピーク値を検出し、
前記複数フレームにおける前記検出されたピーク値の平均値である第1平均値を算出し、
前記第1平均値よりも高いピーク値の平均値である第2平均値を算出し、
前記検出されたピーク値のうち前記第2平均値よりも高いピーク値の平均値である第3平均値を算出し、
前記第3平均値よりも高いピーク値の信号レベルが前記第3平均値に近づくように前記エンベロープを調整する、
ことを特徴とする
調整装置。
【請求項2】
ファイルに記録された複数フレームからなるオーディオ信号の信号レベルを、前記オーディオ信号のエンベロープに対応した離散的な調整ポイントにおいて調整する調整装置であって、
前記オーディオ信号のエンベロープを取得する取得手段と、
前記エンベロープを調整する調整手段と、
を有し、
前記調整手段は、
フレーム毎の前記エンベロープのピーク値を検出し、
前記複数フレームにおける前記検出されたピーク値の平均値である第1平均値を算出し、
前記第1平均値よりも高いピーク値の平均値である第2平均値を算出し、
前記検出されたピーク値のうち前記第2平均値よりも高いピーク値の平均値である第3平均値を算出し、
前記第3平均値よりも高いピーク値の平均値である第4平均値を算出し、
前記第3平均値よりも高いピーク値の信号レベルが前記第3平均値と前記第4平均値との間の値になるように前記エンベロープを調整する、
ことを特徴とする
調整装置。
【請求項3】
前記調整手段は、更に、
前記オーディオ信号の開始から第1期間において、前記第1平均値より低く、かつ第1しきい値より高い前記エンベロープのピーク値が存在する場合、当該ピーク値の信号レベルを最大で第1調整量まで増加させる、
ことを特徴とする請求項1に記載の調整装置。
【請求項4】
前記第1しきい値は、ノイズレベルに相当するものとして予め定められた値である、ことを特徴とする請求項
3に記載の調整装置。
【請求項5】
前記調整手段は、更に、
前記オーディオ信号の開始から前記第1期間より長い第2期間において、前記第1平均値より低く、かつ前記第1しきい値より高い第2しきい値より高い前記エンベロープのピーク値が存在する場合、当該ピーク値の信号レベルを最大で前記第1調整量より小さい第2調整量まで増加させる、
ことを特徴とする請求項
3に記載の調整装置。
【請求項6】
前記調整手段は、更に、
前記第2期間の後において、前記第1平均値より低く、かつ前記第2しきい値より高い第3しきい値より高い前記エンベロープのピーク値が存在する場合、当該ピーク値の信号レベルを最大で前記第2調整量より小さい第3調整量まで増加させる、
ことを特徴とする請求項
5に記載の調整装置。
【請求項7】
前記調整手段は、更に、各フレームの所定位置を調整ポイントとして設定する、ことを特徴とする請求項1に記載の調整装置。
【請求項8】
前記調整手段は、前記調整手段により信号レベルが調整された後の前記オーディオ信号の、互いに隣り合う2つの調整ポイントにおける信号レベル差が所定のしきい値以下である場合、前記2つの調整ポイントのうちの1つを削除する、ことを特徴とする請求項
7に記載の調整装置。
【請求項9】
前記調整手段は、更に、
前記オーディオ信号の開始から第1期間において、前記第1平均値より低く、かつ第1しきい値より高い前記エンベロープのピーク値が存在する場合、当該ピーク値の信号レベルを最大で第1調整量まで増加させる、
ことを特徴とする請求項2に記載の調整装置。
【請求項10】
前記第1しきい値は、ノイズレベルに相当するものとして予め定められた値である、ことを特徴とする請求項9に記載の調整装置。
【請求項11】
前記調整手段は、更に、
前記オーディオ信号の開始から前記第1期間より長い第2期間において、前記第1平均値より低く、かつ前記第1しきい値より高い第2しきい値より高い前記エンベロープのピーク値が存在する場合、当該ピーク値の信号レベルを最大で前記第1調整量より小さい第2調整量まで増加させる、
ことを特徴とする請求項9に記載の調整装置。
【請求項12】
前記調整手段は、更に、
前記第2期間の後において、前記第1平均値より低く、かつ前記第2しきい値より高い第3しきい値より高い前記エンベロープのピーク値が存在する場合、当該ピーク値の信号レベルを最大で前記第2調整量より小さい第3調整量まで増加させる、
ことを特徴とする請求項11に記載の調整装置。
【請求項13】
前記調整手段は、更に、各フレームの所定位置を調整ポイントとして設定する、ことを特徴とする請求項2に記載の調整装置。
【請求項14】
前記調整手段は、前記調整手段により信号レベルが調整された後の前記オーディオ信号の、互いに隣り合う2つの調整ポイントにおける信号レベル差が所定のしきい値以下である場合、前記2つの調整ポイントのうちの1つを削除する、ことを特徴とする請求項13に記載の調整装置。
【請求項15】
コンピュータを、請求項1から
14のいずれか1項に記載の調整装置の各手段として機能させる、ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、調整装置、およびプログラムに関する。
【背景技術】
【0002】
オーディオ信号のダイナミックレンジが、スピーカ等の出力デバイスのダイナミックレンジよりも広い場合がある。この場合、オーディオ信号の信号レベルが低いところは聞き取ることができず、逆に信号レベルが高いところはクリップされてしまう可能性がある。そのため、オーディオ信号のダイナミックレンジを適切に圧縮する必要がある。そのようなダイナミックレンジの圧縮を行う処理はダイナミックレンジ・コンプレッション(あるいは単にコンプレッション)と呼ばれ、コンプレッションを行う調整装置はコンプレッサと呼ばれる。
【0003】
特許文献1には、オーディオ信号の信号レベルの平均パワーレベルおよび最大パワーレベルを用いて、信号レベルを自動調整する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
現状において、信号レベルの自動調整はトラック単位で一律に行われ、波形単位で自動調整が行われるわけではない。そのため、信号レベルの自動調整の結果は必ずしも満足のいくものではなく、最終的には、ユーザによる波形単位の手動調整が必須であり、手動調整に多大な労力を要していた。信号レベルの自動調整の改善が望まれている。
【0006】
本発明は、ユーザによる手動調整の労力を軽減するために有利な、信号レベルの自動調整の技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一側面によれば、ファイルに記録された複数フレームからなるオーディオ信号の信号レベルを、前記オーディオ信号のエンベロープに対応した離散的な調整ポイントにおいて調整する調整装置であって、前記オーディオ信号のエンベロープを取得する取得手段と、前記エンベロープを調整する調整手段と、を有し、前記調整手段は、フレーム毎の前記エンベロープのピーク値を検出し、前記複数フレームにおける前記検出されたピーク値の平均値である第1平均値を算出し、前記第1平均値よりも高いピーク値の平均値である第2平均値を算出し、前記第2平均値よりも高いピーク値のうちの少なくとも一部が抑制されるように前記エンベロープを調整する、ことを特徴とする調整装置が提供される。
【発明の効果】
【0008】
本発明によれば、ユーザによる手動調整の労力を軽減するために有利な、信号レベルの自動調整の技術を提供することができる。
【図面の簡単な説明】
【0009】
【
図1】実施形態に係る調整装置の構成を示すブロック図。
【
図3】オーディオ信号の波形および調整ポイントを例示する図。
【
図4】オーディオ信号の信号レベルの調整処理のフローチャート。
【
図5】オーディオ信号の信号レベルの調整処理のフローチャート。
【
図6】オーディオ信号の信号レベルの調整処理のフローチャート。
【
図7】信号レベルの自動調整が行われた後の波形および調整ポイントを例示する図。
【
図8】複数のファイルのオーディオ信号の波形および調整ポイントを例示する図。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴は任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
【0011】
図1には、実施形態に係る調整装置Cの構成を示すブロック図が示されている。調整装置Cは、ファイルに記録された複数フレームからなるオーディオ信号の信号レベルを、オーディオ信号のエンベロープに対応した離散的な調整ポイントにおいて調整する装置である。
【0012】
調整装置Cは、パーソナルコンピュータやワークステーション等のコンピュータ装置でありうる。調整装置Cは、装置全体の制御を司るCPU(中央処理装置)101、主記憶装置として機能すると共にCPU101のワークエリアを提供するRAM102、固定的なデータ及びプログラムを記憶するROM103を備える。また、調整装置Cは、オーディオインタフェース(I/F)104を備える。オーディオインタフェース104には、マイクロホンM、スピーカSが接続されうる。調整装置Cには、インタフェース(I/F)105を介して外部記憶装置110が接続される。外部記憶装置110は、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、またはそれらの組み合わせでありうる。なお、外部記憶装置110は、二次記憶装置として調整装置Cの内部に構成されてもよい。ネットワークインタフェース106は、ネットワークNと接続して通信を行う。調整装置Cは、例えば、ネットワークNを介して、サーバAと通信可能に接続されうる。
【0013】
調整装置Cには、インタフェース107を介して、キーボード、マウス等の入力装置が接続されうる。また、調整装置Cには、インタフェース108を介して、CD-ROMドライブ、DVDドライブ等の外部メディア装置Fが接続されうる。さらに、調整装置Cは、ビデオコントローラ109を備える。ビデオコントローラ109は、表示装置Dによる画像表示を制御する。
【0014】
調整装置Cを起動するためのブートプログラムはROM103に記憶されている。また、
図1に示すように、外部記憶装置110には、オペレーティングシステム(OS)111をはじめ、オーディオ信号処理を行うための信号処理プログラム112、1つ以上のオーディオファイル113がインストールされうる。オーディオファイル113は、ネットワークNを介してサーバA等の外部装置から供給されてもよいし、外部メディア装置Fに収容されたメディアから供給されてもよい。あるいは、オーディオファイル113は、マイクロホンMにより収音された音響から作成されたものであってもよい。
【0015】
一例において、オーディオファイル113のファイル形式は、パーソナルコンピュータにおいて一般的に利用されるWAVEファイル形式でありうる。WAVEファイルは、モノラル/ステレオの種別、サンプリング周波数、量子化ビット数等を情報を含むヘッダと、オーディオ信号のデータとを含みうる。なお、オーディオファイル113のファイル形式はWAVEファイル形式に限定されない。オーディオファイル113のファイル形式は、WAVEファイル形式以外の形式、例えば、AIFF、MP3、AAC等の形式であってもよい。
【0016】
図2には、CPU101によって信号処理プログラム112が実行され、処理対象のオーディオファイル113が読み込まれたときに表示装置Dに表示されるオーディオ信号の全区間の波形Wの例が示されている。表示される波形Wは時間領域波形であり、横軸は時間、縦軸は信号レベルである。
【0017】
一例において、オーディオ信号のコンプレッションを行うにあたり、オーディオ信号の波形Wの概形を示すエンベロープが取得されうる。調整装置としての調整装置Cは、エンベロープに対応した離散的な複数の位置に調整ポイントを設定しうる。
【0018】
図3には、波形Wとそのエンベロープに対する調整ポイントPの例が示されている。ユーザがエンベロープボタン32をマウスでクリックすることにより、波形Wに対するエンベロープ生成処理が実行される。エンベロープは、波形の概形を示すもので、波形の各ピークを結ぶことにより得られる。オーディオ信号を全波整流し、全波整流されたオーディオ信号のエンベロープを取得するようにしてもよい。その後、エンベロープ生成処理により生成されたエンベロープを表すエンベロープカーブが表示される。ユーザは、エンベロープカーブに対応した調整ポイントPを追加または移動してエンベロープカーブを調整することができる。例えば、ユーザは任意の調整ポイントPをマウスでドラッグすることにより当該位置の信号レベルを調整することができる。調整後の信号レベルに従い、波形Wの再レンダリングが行われてもよい。また、ユーザがオートコンプボタン33をクリックすることにより、信号レベルの自動調整(オートコンプ)が行われる(自動調整モード)。なお、
図3の例では、エンベロープボタン32およびオートコンプボタン33を有するGUIが提供されたが、それにかえて、プルダウンメニューが提供され、その中からエンベロープまたはオートコンプのファンクションが選択されうるようなGUIが提供されてもよい。
【0019】
図4には、調整装置Cによる、オーディオ信号の信号レベルを調整する調整処理のフローチャートが示されている。このフローチャートに対応するプログラムは信号処理プログラム112に含まれ、CPU101によって実行される。
【0020】
ステップS100で、CPU101は、処理対象として読み込んだオーディオファイルに含まれる複数フレームからなるオーディオ信号の、全体(全区間)のエンベロープを取得する。この処理は、オートコンプボタン33がクリックされたことに応じて自動的に行われてもよいし、エンベロープボタン32がクリックされたことに応じて行われるようにしてもよい。本実施形態において、以降の処理はこの取得されたエンベロープに対して行われる。
【0021】
ステップS200で、CPU101は、フレーム毎のエンベロープのピーク値を検出する。ここで、フレームとは、オーディオ信号(エンベロープ)の波形を所定時間長のセグメントに分割して得られる波形単位をいう。1フレームの時間長は、例えば10msでありうる。その後、CPU101は、オーディオ信号の全体(すなわち全フレーム)における検出されたピーク値の平均値(第1平均値)を算出する。次に、CPU101は、第1平均値より高いピーク値の平均値(第2平均値)を算出する。
【0022】
ステップS300で、CPU101は、第2平均値より高いピーク値のうちの少なくとも一部が抑制されるようにエンベロープを調整する。
【0023】
図5および
図6を参照して、ステップS200およびS300の詳細フローを説明する。
【0024】
ステップS200は、以下のステップS201~S203を含む。ステップS201で、CPU101は、フレーム毎にエンベロープのピーク値を検出する。フレームは、上記したように、オーディオ信号(エンベロープ)の波形を所定時間長のセグメントに分割して得られる波形単位であり、1フレームの長さは、例えば10msでありうる。一例において、1フレームを更に所定時間長(例えば1ms)のサブフレームに分割し、サブフレーム毎にピーク値を検出し、1フレーム内のピーク値の最大値を求めることにより、1フレームのピーク値を検出してもよい。
【0025】
ステップS202で、CPU101は、オーディオ信号(エンベロープ)の全体(すなわち全フレーム)における検出されたピーク値の平均値(第1平均値)を算出する。この第1平均値は、オーディオ信号における支配的な音量を表しうる。この第1平均値を超えるピークは、ダイナミックレンジを広げる方向に働いている。第1平均値を超えるピークには、不要にダイナミックレンジを広げる突発的なピークも含まれている可能性がある。以下の処理ではそのような突発的なピークを検出してその信号レベルを抑制する。ステップS203で、CPU101は、第1平均値より高いピーク値を検出し、それらの平均値(第2平均値)を算出する。
【0026】
ステップS300は、以下のステップS204~S205を含む。ステップS204では、CPU101は、第2平均値より高いピーク値を検出し、それらの平均値(第3平均値)を算出する。ここで、第3平均値を超えるピークは、ダイナミックレンジを過大にする突発的なピークであると判断される。そこで、ステップS205で、CPU101は、第3平均値より高いピーク値を、第3平均値に近づくように調整する。一例において、CPU101は、第3平均値より高いピーク値を、第3平均値に調整する。別の例において、CPU101は、第3平均値より高いピーク値を、ユーザにより事前に設定された調整値に調整することもできる。例えば、CPU101は、第3平均値より高いピーク値を検出し、それらの平均値(第4平均値)を算出する。そして、調整値を、第3平均値と第4平均値との間の値に設定するようにしてもよい。その場合、ユーザにより事前に設定される調整値は、例えば、第3平均値を0%、第4平均値を100%とするパーセント表示で示されてもよい。
【0027】
以下では、信号レベルの小さい部分を聞き取りやすくするための処理を行う。特に、オーディオ信号の開始直後の区間では聴感上の音が小さい傾向が強い。そこで、ステップS206で、CPU101は、オーディオ信号の開始から第1期間(例えば、0.1秒)において、第1平均値より低く、かつ第1しきい値より高いエンベロープのピーク値の存在をサーチする。ここで、第1しきい値は、例えばノイズレベルに相当するものとして予め定められた値である。そのようなピーク値がある場合、ステップS207で、CPU101は、当該ピーク値の信号レベルを最大で第1調整量(例えば7dB)まで増加させる。なお、第1しきい値および第1調整量は、ユーザが事前に任意に設定することができる。
【0028】
次に、ステップS208で、CPU101は、オーディオ信号の開始から、第1期間より長い第2期間(例えば、0.2秒)において、第1平均値より低く、かつ第1しきい値より高い第2しきい値より高いエンベロープのピーク値の存在をサーチする。そのようなピーク値がある場合、ステップS209で、CPU101は、当該ピーク値の信号レベルを最大で第1調整量より小さい第2調整量(例えば4dB)まで増加させる。なお、第2しきい値および第2調整量は、ユーザが事前に任意に設定することができる。
【0029】
次に、ステップS210で、CPU101は、第2期間の後において、第1平均値より低く、かつ第2しきい値より高い第3しきい値より高いエンベロープのピーク値の存在をサーチする。そのようなピーク値がある場合、ステップS211で、CPU101は、当該ピーク値の信号レベルを最大で第2調整量より小さい第3調整量(例えば2dB)まで増加させる。なお、第3しきい値および第3調整量は、ユーザが事前に任意に設定することができる。
【0030】
以上の処理により、聴感上優れた適切なダイナミックレンジ・コンプレッションが実現される。
【0031】
以上の処理により、CPU101は、オーディオ信号の信号レベルの調整を行うことができる。CPU101は、調整後の信号レベルに従い、オーディオ信号の波形の再レンダリングを行う。ステップS212では、CPU101は、信号レベルが調整されたオーディオ信号のエンベロープに対応した音量カーブを設定し、その音量カーブにおける各フレームの所定位置を調整ポイントに設定する。フレームの所定位置は、例えば、フレームの中央に設定されうる。あるいは、フレームの所定位置は、フレームの始端または終端に設定されてもよい。
【0032】
調整ポイントは、ユーザがマウスでドラッグして任意に手動調整を行うことができる位置である。ほとんどレベル差のない互いに隣り合う調整ポイントが提示されるのはあまり意味がない。また、自動調整後の出力音声をユーザが聴取することにより確認して微調整を行う場合、調整ポイントの数が多すぎると微調整がしにくくなる。そこで、ステップS213で、CPU101は、生成されたパラメータに基づいて信号レベルが調整された後のオーディオ信号の音量カーブに設定された複数の調整ポイントのうち、信号レベル差が所定のしきい値以下(例えば、0.5dB以下)である互いに隣り合う調整ポイントのペアがあるかをサーチする。そのようなペアがある場合、ステップS214で、CPU101は、当該ペアのうちの1つを削除する。
【0033】
図7には、信号レベルの自動調整が行われた後の波形Wおよび調整ポイントPの例が示されている。本実施形態による信号レベルの適切な自動調整により、ユーザによる手動調整の労力が軽減される。
【0034】
なお、
図3、
図7の例では、処理対象として読み込んだ1つのファイルに記録されたオーディオ信号が表示されているが、処理対象として事前に複数のファイルが読み込まれてもよい。
図8には、事前に読み込んだ複数のファイルのオーディオ信号T1、T2、T3の波形および調整ポイントの例が示されている。ユーザは、オーディオ信号T1、T2、T3のいずれかを指定して、調整装置Cに上述した信号レベルの調整処理を実行させることができる。
【0035】
本発明は、上述の実施形態で説明した調整装置の機能を実現するためのプログラムを、コンピュータに実行させることによっても実施されうる。
【0036】
発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。
【符号の説明】
【0037】
A:サーバ、C:調整装置、D:表示装置、K:入力装置、101:CPU、112:信号処理プログラム
【要約】 (修正有)
【課題】ユーザによる手動調整の労力を軽減するために有利な、信号レベルの自動調整の技術を提供する。
【解決手段】ファイルに記録された複数フレームからなるオーディオ信号の信号レベルを、前記オーディオ信号のエンベロープに対応した離散的な調整ポイントにおいて調整する調整装置が提供される。調整装置は、前記オーディオ信号のエンベロープを取得する取得手段と、前記エンベロープを調整する調整手段とを有する。前記調整手段は、フレーム毎の前記エンベロープのピーク値を検出し、前記複数フレームにおける前記検出されたピーク値の平均値である第1平均値を算出し、前記第1平均値よりも高いピーク値の平均値である第2平均値を算出し、前記第2平均値よりも高いピーク値のうちの少なくとも一部が抑制されるように前記エンベロープを調整する。
【選択図】
図4