IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社AZSTOKEの特許一覧

特許7461090音声処理装置、音声処理方法、およびプログラム
<>
  • 特許-音声処理装置、音声処理方法、およびプログラム 図1
  • 特許-音声処理装置、音声処理方法、およびプログラム 図2
  • 特許-音声処理装置、音声処理方法、およびプログラム 図3
  • 特許-音声処理装置、音声処理方法、およびプログラム 図4
  • 特許-音声処理装置、音声処理方法、およびプログラム 図5
  • 特許-音声処理装置、音声処理方法、およびプログラム 図6
  • 特許-音声処理装置、音声処理方法、およびプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-03-26
(45)【発行日】2024-04-03
(54)【発明の名称】音声処理装置、音声処理方法、およびプログラム
(51)【国際特許分類】
   H03G 3/02 20060101AFI20240327BHJP
   G10L 21/0316 20130101ALI20240327BHJP
   H04R 3/00 20060101ALI20240327BHJP
【FI】
H03G3/02 A
G10L21/0316
H04R3/00 310
【請求項の数】 9
(21)【出願番号】P 2023202151
(22)【出願日】2023-11-29
【審査請求日】2023-11-29
【早期審査対象出願】
(73)【特許権者】
【識別番号】523302533
【氏名又は名称】株式会社AZSTOKE
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】中島 健太郎
【審査官】大石 剛
(56)【参考文献】
【文献】米国特許出願公開第2015/0207478(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H03G 3/02
G10L 21/0316
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
音声を処理する音声処理装置であって、
音声の加工を行うためのソフトウェアであるミドルウェアと、音声の加工を行うための、前記ミドルウェアとは異なるソフトウェアであるデジタルオーディオワークステーション(DAW)とを記憶する記憶部と、
前記ミドルウェアおよび前記DAWを実行するプロセッサと、
を有し、
前記プロセッサは、前記DAW上で、
前記ミドルウェアで設定された音声ファイルに記録された音声がアウトプットに至るまでのパスを示すルーティング情報に基づいて、前記ミドルウェア上での前記音声の音量値の変化量を取得する、
ことを特徴とする音声処理装置。
【請求項2】
前記プロセッサは、前記DAW上で、更に、
前記取得された変化量に基づいて、前記音声の音量調整を行う、
ことを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記ミドルウェアにおいて、前記音声は階層構造で分類され、階層ごとに音量調整部が設けられており、
前記ルーティング情報は、前記音声の前記パスの情報と、前記パス上の各音量調整部での音量値の情報とを含み、
前記プロセッサは、前記DAW上で、
前記パス上の各音量調整部での音量値を合計して、前記ミドルウェア上での前記音声の音量値の総変化量を算出し、
前記算出された総変化量に基づいて、前記音声の音量調整を行う、
ことを特徴とする請求項2に記載の音声処理装置。
【請求項4】
前記プロセッサは、前記DAW上で、
文字列と音量値との対を1つのレコードとして含む音量テーブルから、前記音声ファイルのファイル名と部分一致する文字列を登録文字列として有するレコードの検索を行い、
前記検索により得られたレコードに記述された音量値と前記総変化量との差である最終音量値により、前記音声ファイルに記録された音声の音量調整を行う、
ことを特徴とする請求項3に記載の音声処理装置。
【請求項5】
前記総変化量を求める際の計算対象から除外するルーティングである対象外ルーティングを設定する設定手段を更に有することを特徴とする請求項4に記載の音声処理装置。
【請求項6】
前記総変化量を求める際の計算対象に加えられるべき、前記階層構造とは別の階層構造におけるルーティングである加算ルーティングを設定する設定手段を更に有することを特徴とする請求項4に記載の音声処理装置。
【請求項7】
前記音量値の尺度はラウドネス値である、ことを特徴とする請求項1に記載の音声処理装置。
【請求項8】
音声の加工を行うためのソフトウェアであるミドルウェアと、音声の加工を行うための、前記ミドルウェアとは異なるソフトウェアであるデジタルオーディオワークステーション(DAW)とを記憶する記憶部と、前記ミドルウェアおよび前記DAWを実行するプロセッサと、を有する音声処理装置によって実行される音声処理方法であって、
前記プロセッサが、前記DAWの実行中に、
前記ミドルウェアで設定された音声ファイルに記録された音声がアウトプットに至るまでのパスを示すルーティング情報を取得するステップと、
前記ミドルウェア上での前記音声の音量値の変化量を取得するステップと、
を有することを特徴とする音声処理方法。
【請求項9】
コンピュータに、請求項8に記載の音声処理方法の各ステップを実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置、音声処理方法、およびプログラムに関する。
【背景技術】
【0002】
複数の音声ファイルを扱うアプリケーションにおいては、多くの場合、各ファイルの音量は、それぞれ指定された音量に調整されていることが望ましい。例えば、ゲームにおいて、同じキャラクターの動作音(例えば歩行音)の音量が場面によって大きく異なると、ユーザに違和感を与えうる。そのため、開発者は、ゲームにインストールされる複数の音声ファイルの音量を調整する作業に多大な労力を割いている。
【0003】
従来、複数の音声ファイルに対する音量調整は、例えば次のような手順で行われていた。
(a)納品された複数の音声ファイルが記憶装置に保存される。
(b)基準音声ファイルと複数の音声ファイルのうちから選択された1つの音声ファイルとを聴き比べる。
(c)聴感上の音量が同じになるように音声ファイルの信号レベルを調整する。
(d)複数の音声ファイルのうちの未処理の音声ファイルについて、(b)、(c)を繰り返す。
【0004】
なお、上記工程(c)で行われる信号レベルの調整は、音声データ自体を変更することに限られない。例えば、特許文献1には、自動音量調整要素をオーディオデータと関連付けて記憶しておき、オーディオデータの再生時にその自動音量調整要素を用いて音量を調整することが記載されている。特許文献2には、音楽ファイルのファイル名に再生音量に関する再生制御識別子を付加し、音楽ファイルの再生時にその再生制御識別子を用いて音量を調整することが記載されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2003-243952号公報
【文献】特開2011-197664号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、例えばゲームで使用される音声ファイルの数は数万以上に及ぶ場合がある。そのような数の音声ファイルの音量を逐一調整するとなると、作業工数は膨大なものとなる。そのため、複数の音声ファイルに対する音量調整を自動化することで音量調整作業にかかる労力の軽減が望まれている。また、ゲーム開発においては、音声ファイルの制作、調整のために、ミドルウェア(オーディオミドルウェア)と、デジタルオーディオワークステーション(DAW)の、2つのソフトウェアが使用される。しかし、DAW上では、複数の音声ファイルがそれぞれミドルウェアでどのような音量調整がされてきたのかを把握することができず、ミドルウェアでの音量調整結果を考慮した音量調整を行うことができなかった。
本発明は、複数の音声ファイルに対する自動音量調整のために有利な技術を提供する。
【課題を解決するための手段】
【0007】
本発明の一側面によれば、音声を処理する音声処理装置であって、音声の加工を行うためのソフトウェアであるミドルウェアと、音声の加工を行うための、前記ミドルウェアとは異なるソフトウェアであるデジタルオーディオワークステーション(DAW)とを記憶する記憶部と、前記ミドルウェアおよび前記DAWを実行するプロセッサと、を有し、前記プロセッサは、前記DAW上で、前記ミドルウェアで設定された音声ファイルに記録された音声がアウトプットに至るまでのパスを示すルーティング情報に基づいて、前記ミドルウェア上での前記音声の音量値の変化量を取得する、ことを特徴とする音声処理装置が提供される。
【発明の効果】
【0008】
本発明によれば、複数の音声ファイルに対する自動音量調整のために有利な技術を提供することができる。
【図面の簡単な説明】
【0009】
図1】実施形態に係る音声処理装置の構成を示すブロック図。
図2】ラウドネステーブルの構造例を示す図。
図3】ラウドネス値の設定画面を例示する図。
図4】ミドルウェア上の音声の階層構造を説明する概念図。
図5】ミドルウェアによる音量値の変化量を取得するための設定画面を例示する図。
図6】音声処理方法のフローチャート。
図7】音声の波形の表示例を示す図。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴は任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
【0011】
図1には、実施形態に係る音声処理装置Cの構成を示すブロック図が示されている。音声処理装置Cは、ファイルに記録された音声信号を表示し、音声信号に対して信号レベルの調整等の各種処理を行う装置である。本明細書において、「音声」という用語は広義に理解されるべきである。「音声」は、人や動物が発した声のみならず、楽音、コンピュータ生成された効果音等をも含みうるものとする。すなわち、本明細書において、「音声」という用語は、「スピーチ」、「サウンド」、「オーディオ(音響)」を含むことを意図している。
【0012】
音声処理装置Cは、パーソナルコンピュータやワークステーション等のコンピュータ装置でありうる。音声処理装置Cは、装置全体の制御を司るCPU(中央処理装置)101、主記憶装置として機能すると共にCPU101のワークエリアを提供するRAM102、固定的なデータ及びプログラムを記憶するROM103を備える。また、音声処理装置Cは、オーディオインタフェース(I/F)104を備える。オーディオインタフェース104には、マイクロホンM、スピーカSが接続されうる。音声処理装置Cには、インタフェース(I/F)105を介して記憶装置(二次記憶装置)110(記憶部)が接続される。記憶装置110は、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、またはそれらの組み合わせでありうる。なお、記憶装置110は、音声処理装置Cの内部に構成されてもよいし、外部に構成されてもよい。ネットワークインタフェース106は、ネットワークNと接続して通信を行う。音声処理装置Cは、例えば、ネットワークNを介して、サーバAと通信可能に接続されうる。
【0013】
音声処理装置Cには、インタフェース107を介して、キーボード、マウス等の入力装置Kが接続されうる。また、音声処理装置Cには、インタフェース108を介して、CD-ROMドライブ、DVDドライブ等の外部メディア装置Fが接続されうる。さらに、音声処理装置Cは、ビデオコントローラ109を備える。ビデオコントローラ109は、表示装置(ディスプレイ)Dによる画像表示を制御する。入力装置KとディスプレイDとが一体化されたタッチパネル画面が構成されてもよい。
【0014】
音声処理装置Cを起動するためのブートプログラムはROM103に記憶されている。また、図1に示すように、記憶装置110には、オペレーティングシステム(OS)111や1つ以上の音声ファイル113がインストールされうる。音声ファイル113は、ネットワークNを介してサーバA等の外部装置から供給されてもよいし、外部メディア装置Fに収容されたメディアから供給されてもよい。あるいは、音声ファイル113は、マイクロホンMにより収音された音響から作成されたものであってもよい。また、記憶装置110には、後述するラウドネステーブル114も記憶される。
【0015】
音声ファイル113は、音声コンテンツが記録された音声ファイルである。一例において、音声ファイル113のファイル形式は、パーソナルコンピュータにおいて一般的に利用されるWAVEファイル形式でありうる。WAVEファイルは、ヘッダと、オーディオ信号のデータとを含みうる。ヘッダは、モノラル/ステレオの種別、サンプリング周波数、量子化ビット数等の情報を含みうる。なお、音声ファイル113のファイル形式はWAVEファイル形式に限定されない。音声ファイル113のファイル形式は、WAVEファイル形式以外の形式、例えば、AIFF、MP3、AAC等の形式であってもよい。
【0016】
一例として、音声処理装置Cがゲーム開発に使用されることを考える。ゲーム開発における音声の実装は、おおまかには、サウンドクリエーターが音声ファイルを制作し、プログラマーが、制作された音声がユーザ操作に合わせて再生されるようにゲームエンジンによりプログラミングを行う。音声ファイルの制作においては、ゲーム開発の大作化や複雑化に伴い、大きく2つのツールが使われるようになっている。1つは、多彩な音声ファイルを制作するためのDAW、もう1つは、音声のゲームエンジンへの組み込みの手間を省力化するためのミドルウェア(オーディオミドルウェア)である。DAWは、デジタルオーディオワークステーション(Digital Audio Workstation)の略語であり、音声制作を目的として音声の録音/編集などをできるようにしたソフトウェアである。ミドルウェアは、ゲームエンジンに渡す音声の再生、加工、管理を行うソフトウェアであり、DAWで再生させるオーディオデータを作成することができる。そのようなミドルウェアとしては、例えば、Audiokinetic社製のWwiseがある。したがって、音声処理装置Cの記憶装置110には、ミドルウェア115およびDAW112もインストールされている。CPU101は、ミドルウェアおよびDAWを実行するプロセッサとして機能しうる。DAWとミドルウェアは、両者間で音声ファイルの受け渡し処理を行うなどの連携処理が可能に構成されている。例えば、DAWで音声を作成して音声ファイルの書き出しを行い、DAWからミドルウェアに音声ファイルを移動し、ミドルウェアで音声ファイルをゲームエンジンに実装する、といった処理を行うことができる。また、DAWからミドルウェアに移動した音声の調整が必要な場合には、音声ファイルをミドルウェアからDAWに再び移動し、DAWで音声ファイルを調整することもできる。
【0017】
ゲームに実装される音声ファイルの数は数万以上に及ぶ場合がある。納品された初期の複数の音声ファイルの音量にはばらつきがあるため、音声ファイルごとの音量調整(信号レベルの調整))を行う必要がある。しかし、そのような数の音声ファイルの音量を逐一調整するとなると、作業工数は膨大なものとなる。
【0018】
ゲームに使用される音声には、キャラクターのセリフ音声、状況説明(成功、失敗など)音声、効果音、足音、爆破音、環境音、BGM等、多種多様な音声が含まれうる。本発明者は、そのような音声の内容と適切な音量値との間には関連があることに着目した。本実施形態では、音声ファイルの音声の内容に応じて音量値を決定する。
【0019】
ゲーム開発の分野においては、一般には、各音声ファイルは、音声の属性がある程度分かるように命名される。「属性」とは、例えば、キャラクター名、シーン名、動作名、セリフの内容等、音声の内容を特定しうるものをいう。ファイル名は、例えば、「キャラクター名+動作名」のように、複数の属性情報を含んでいてもよい。ゲーム開発においては、音声ファイルの命名規則が定められ、開発途中でそれが大幅に変更されることがないようにされるのが通常である。したがって、音声ファイルのファイル名から音声の内容を特定し、特定された音声の内容に応じて音量値を決定することが可能である。
【0020】
本実施形態では、DAW側で、各音声ファイルに記録された音声の音量調整を行うに際し、目標音量値が記述された音量テーブルが参照される。ここで、音量値について説明する。本実施形態では、音量値の尺度(指標)として、人間の聴覚特性が考慮されたラウドネス値が使用される。ラウドネス値は、例えばLUFS(Loudness Units Full Scale)またはLKFS(Loudness K-Weighted Full Scale)の単位で表される。したがって、本実施形態では、DAW側で、各音各音声ファイルに記録された音声のラウドネス調整を行うに際し、ターゲットラウドネス値が記述されたラウドネステーブル114が音量テーブルとして参照される。ラウドネステーブル114は、音声ファイルのファイル名の一部となりうる文字列と音量値であるラウドネス値(ターゲットラウドネス値)との対応関係が記述されたルックアップテーブルである。ラウドネステーブルは、「ラウドネスリスト」とよばれてもよい。図2には、ラウドネステーブル114の構造例が示されている。ラウドネステーブル114は、文字列(登録文字列)とラウドネス値(ターゲットラウドネス値)との対を1つのレコードとして含む。各レコードに記述された登録文字列は、音声ファイルのファイル名の一部となりうる文字列である。なお、本発明は、音量値の尺度にラウドネス値を用いることに限定されるものではない。音量値の尺度にはラウドネス値以外の尺度(例えば、RMS)が用いられてもよい。
【0021】
図3には、CPU101によるDAW112の実行時にディスプレイDに表示される、ラウドネス値の設定画面30の例が示されている。表示制御部としてのCPU101は、ディスプレイD上の設定画面30にラウドネステーブルの各レコードを編集可能に表示する。ユーザは、この設定画面30を介してラウドネステーブル114にレコードを追加登録することが可能である。ラウドネステーブル114に登録されているレコードの数は、レコード数表示窓31に表示される。追加ボタン32が押下(マウスによるクリック、タッチパネルを介したタップ操作)されたことに応じて、レコードを追加することができる。リスト35には、登録された各レコードの内容が表示される。リスト35における各レコードは、「検索」および「値」の欄を有する。「検索」欄には、検索されるべき登録文字列が、「値」欄には、登録文字列に対応するラウドネス値が表示される。全てのレコードがリスト35の表示領域に表示しきれない場合には、スクロールバー36を使用してスクロールさせることができる。
【0022】
ユーザは、ラウドネス設定欄33に、ラウドネス測定方法を指定することができる。ラウドネス測定方法としては、例えば、MaxMomentary、MaxShort-Term、Integratedがある。ラウドネス設定欄33では、これらのうちのいずれかを選択することができる。MaxMomentaryとは、音声波形の時間軸上を所定時間スライドさせて得られる複数の測定窓(400msec長)のそれぞれでラウドネス計算を行い、そのうちの最大値をラウドネス値として採用するものをいう。MaxShort-Termとは、時間軸上を所定時間スライドさせて得られる複数の測定窓(3sec長)のそれぞれでラウドネス計算を行い、そのうちの最大値をラウドネス値として採用するものをいう。Integratedとは、音源全体(1つの音声ファイルの音声全体)のラウドネスを計測するものをいう。図3の例では、MaxMomentaryが選択されている。さらに、上記した特定の測定窓長ではなく、任意の測定窓長さを指定できるようになっていてもよい。
【0023】
音声ファイルの音声に対してラウドネス調整が行われる前に、オプションとして、ダイナミックレンジ・コンプレッションが行われてもよい。音声ファイル間の再生音量のばらつきが大きい場合がある。そのまま音源の音量を調整しない場合には、ある音声の再生音量が小さすぎあるいは大きすぎとなり聞きにくい状況となりうる。そのため、各音源の信号レベルを揃える必要がある。ダイナミックレンジ・コンプレッションは、そのような音声間の信号レベルを一定に揃えるために実施される。ダイナミックレンジ・コンプレッションは、一般に、信号レベルのピークを含む部分を抑圧し、信号レベルの低い部分を増大させる処理を含む。ただし、信号レベルを単に一定にすればよいわけではない。人の発話音の場合、ある程度抑揚がないと圧縮された感じが強くなる。そのため、ダイナミックレンジ・コンプレッションでは、圧縮対象を定めるための信号レベルのスレッショルドが適切に設定される必要がある。
【0024】
ダイナミックレンジ・コンプレッションは、エンベロープ上に配置された複数の調整ポイントのうちの任意の調整ポイントを動かすことにより、ユーザが手動で行うこともできる(手動コンプ)。しかし、手動コンプを全ての音声に対して行うのには多大な労力を要する。そこで、音声ファイルの全体に対してダイナミックレンジ・コンプレッションを自動で行うことも可能である。ダイナミックレンジ・コンプレッションを自動で行うことを、ここでは「自動コンプ」と称する。
【0025】
自動コンプは、例えば次のような処理を含みうる。対象の音声ファイルの音声信号は複数のフレームで構成されている。まず、音声信号のエンベロープを取得する。次に、フレーム毎のエンベロープのピーク値を検出し、検出されたフレーム毎のピーク値の平均値(第1平均値)を算出する。次に、第1平均値よりも高いピーク値を検出し、それらの平均値(第2平均値)を算出する。そして、第2平均値よりも高いピーク値のうちの少なくとも一部が抑制されるようにエンベロープを調整する。例えば、第2平均値より高いピーク値を更に検出し、それらの平均値(第3平均値)を算出する。更に、第3平均値より高いピーク値を検出し、それらが第3平均値に近づくように調整する。なお、このような自動コンプの処理方法は一例にすぎず、他の処理方法によって実現されてもよい。
【0026】
本実施形態では、ユーザは、記憶装置110の作業用フォルダに格納された全ての音声ファイルに対して自動コンプを適用するかしないかを指定することができる。設定画面30には、自動コンプの実行を指示する自動コンプ設定欄34が設けられている。自動コンプ設定欄34には例えばラジオボタンまたはチェックボックスが用意されていて、そこを選択状態(ON)にすることで自動コンプの実行が指定される。図3の例では自動コンプ設定欄34がラジオボタンによりONにされている。この場合、音声ファイルの音声のダイナミックレンジ・コンプレッションが実行された後に、ラウドネス調整が行われる。
【0027】
設定画面30は、更に、記憶装置110の作業用フォルダに格納された、ラウドネス調整の対象とされる1つ以上の音声ファイルのファイル名を表示するファイル名表示欄37も有する。
【0028】
次に、ミドルウェア115上での音声ファイルの管理について説明する。個々の音声ファイルは、1つ以上の音声素材(記録された音の部分)を含みうる。1つの音声素材は「トラック」とも呼ばれる。ミドルウェアでは、音声(トラック)は階層構造で分類される。図4は、ミドルウェア上で管理される音声の階層構造Hの例を示す概念図である。インプット端子にトラックが入力され、全トラックがマスタートラックMSに集められてアウトプット端子から出力される。つまり、ゲームで再生される全ての音声は最終的にはマスタートラックMSを通過して出力される。インプット端子に入力されたトラックIN1、IN2、IN3個別に、エフェクトEおよび/または音量調整Vがかけられる。階層構造Hは、バス(Bus)トラックを含みうる。バストラックとは、1つ以上のトラックをまとめたトラックをいう。図4において、バストラックB1は、トラックIN1とトラックIN2を1つのトラックにまとめてマスタートラックMSに出力している。バスを使用することにより、複数トラックに対してまとめてエフェクトおよび/または音量調整をかけることができる。また、階層構造Hは、オグジュアリトラックを含みうる。オグジュアリトラックとは、あるトラックの複製を横流し(Send)したものである。図4において、オグジュアリトラックAUXは、トラックIN3を入力し、バストラックB2に出力している。バストラックB2は、トラックIN3を入力するとともに、オグジュアリトラックAUXを入力している。オグジュアリトラックは、例えば、エフェクト(リバーブ、ディレイなど)がかかったトラックとエフェクトがかかっていないトラックとを併存させる場合に使用される。
【0029】
ユーザは、不図示の階層構造設定画面を介して、階層構造を設計し、ミドルウェア上に登録されている音声ファイルの任意のトラックについて、階層構造におけるどのインプット端子に配置するかを決定することができる。これにより、各トラックについて、トラックが階層構造におけるインプットからアウトプットに至るまでのパスを示すルーティングが決定される。このように、階層構造Hの階層ごとに音量調整部が設けられており、トラックは各音量調整部を通過する度に音量調整を受けうる。ユーザは、設計した階層構造の階層ごとに適用するエフェクトおよび音量調整部の音量値を決定することができる。ミドルウェア上での音声の音量値の総変化量は、パス上の各音量調整部での音量値を合計することにより算出される。例えば、図4に示されているように、マスタートラックでのラウドネス値が-6dB、バストラックB1でのラウドネス値が+4dB、トラックIN1でのラウドネス値が+2dB、トラックIN2でのラウドネス値が-4dBに設定されたとする。この場合、トラックIN1のミドルウェア上でのラウドネス値の総変化量は、
(-6dB)+(+4dB)+(+2dB)=0dB
となる。また、トラックIN2のミドルウェア上でのラウドネス値の総変化量は、
(-6dB)+(+4dB)+(-4dB)=-6dB
となる。
【0030】
上記のようなミドルウェアでの階層構造の設計により、音声ファイルに記録された音声がアウトプットに至るまでのパスを示すルーティング情報が作成される。ルーティング情報は、音声ファイルに記録された音声がアウトプットに至るまでのパス(以下「ルーティング」という。)の情報と、パス上の各音量調整部での音量値の情報とを含みうる。
なお、上記説明では、1つの種類の階層構造Hの例を示したが、複数種類の階層構造がミドルウェア上に構築されうるように構成されていてもよい。
【0031】
上記したように、DAW上でのラウドネス調整は、ラウドネステーブルを参照して音声ファイルのファイル名に応じて決定されるラウドネス値を用いて行われる。しかし、従来、DAW側では、ミドルウェア上での各音声の音量調整履歴を把握することはできなかった。そのため、DAW側ではミドルウェアでの音量調整履歴を考慮することなくラウドネス調整が行われていた。
【0032】
本実施形態では、CPU101は、DAW上で、ミドルウェアで作成されたルーティング情報に基づいて、ミドルウェア上での音声のルーティングにおける音量値の変化量を取得する。そして、CPU101は、DAW上で、取得された変化量に基づいて音量調整を行う。図5には、CPU101によるDAW112の実行時にディスプレイDに表示される、ミドルウェア上での音量値の変化量を取得するための設定画面40の例が示されている。
設定画面40において、検索チェック欄41は、ミドルウェアの接続を設定する欄である。
上記したように、ミドルウェア上に複数種類の階層構造が構築される場合がある。検索パス設定欄44は、ミドルウェア上に複数種類の階層構造が構築されている場合に、どの階層構造を検索対象とするかを設定する欄である。
検知パス設定欄45は、検索パスの中で同一ファイル名の音声ファイルが複数見つかった場合に優先する階層を設定する欄である。
対象外ルーティング設定欄47は、ミドルウェア上での音量値の総変化量を求める際の計算対象から除外するルーティング(対象外ルーティング)を設定する欄であり、ユーザは、対象外ルーティングを特定する情報をルーティング指定欄48に指定することができる。
加算ルーティング設定欄49は、ミドルウェア上での音量値の総変化量を求める際の計算対象に加えられるべき、検索パス設定欄44で設定された階層構造とは別の階層構造におけるルーティング(加算ルーティング)を設定する欄であり、ユーザは、加算ルーティングを特定する情報を、ルーティング指定欄50に指定することができる。ルーティング内での音量調整以外にも、例えば、アップミックス(例:2.0ch→4.0ch)、ダウンミックス(例:4.0ch→2.0ch)、ゲイン(Gain)、リミッター(Limiter)、コンプ(Comp)等のエフェクターを利用した音量調整を行うなど、複数の例外がありうる。加算ルーティング設定欄49は、そのような例外的な対応のために用意されている。
ルーティング指定欄48、50が増えてそれらの全てを表示領域に表示しきれない場合には、スクロールバー51を使用してスクロールさせることができる。
【0033】
図6には、音声処理装置Cにおける音声処理方法のフローチャートが示されている。このフローチャートに対応するプログラムはDAW112に含まれており、DAW112を実行中のCPU101によって行われる。
【0034】
ステップS11で、CPU101は、ミドルウェアに登録されている音声ファイルを取得し、記憶装置110の所定の作業用フォルダに格納する。
【0035】
ステップS12で、CPU101は、取得した音声ファイルに対して自動コンプを実行する。ただし、このステップS12は、図3に示した設定画面30における自動コンプ設定欄34が選択状態されている場合のオプションである。自動コンプ設定欄34が選択状態されていない場合には、ステップS12はスキップされる。
【0036】
ステップS13で、CPU101は、取得した音声ファイルに対して、ファイル名と部分一致する文字列を登録文字列として有するレコードをラウドネステーブル114から検索する。CPU101は、この検索により得られたレコードに記述されたラウドネス値Rを取得する。
【0037】
ステップS14で、CPU101は、検索パス設定欄44で設定された検索パス以下に(すなわち、検索対象とする階層構造における少なくともいずれかのルーティングに)、音声ファイルがあるかを判定する。音声ファイルがあれば、処理はステップS15へ進む。ステップS15では、CPU101は、検索パス以下に音声ファイルが複数あるか否かを判定する。音声ファイルが複数ある場合、処理はステップS16へ進み、音声ファイルが1つのみの場合には処理はステップS18へ進む。
【0038】
ステップS16では、CPU101は、検知パス設定欄45で設定された優先階層に音声ファイルがあるか否かを判定する。検知パス設定欄45で設定された優先階層に音声ファイルがある場合には処理はステップS18に進み、そうでなければ処理はステップS17へ進む。ステップS17では、ステップS15で特定された複数の音声ファイルのうち1番目に検索されたの音声ファイルのパスのルーティング情報を取得する。
【0039】
ステップS18では、CPU101は、ステップS17で取得したルーティング情報を含む、ミドルウェア上での全ルーティング情報を取得する。ルーティング情報は、上記したように、ミドルウェアで設定された音声ファイルに記録された音声がアウトプットに至るまでのパスの情報と、パス上の各音量調整部での音量値の情報とを含みうる。
【0040】
ステップS19では、CPU101は、対象外ルーティング設定欄47で設定された対象外ルーティングを、後述のステップS21でラウドネス値の総変化量を求める際の計算対象から除外する。
【0041】
ミドルウェア上での音量値の総変化量を求める際の計算対象に加えられるべきルーティングは1つだけである。例えばエフェクトをかける際には、ルーティングを複数設定することが可能である。図4には、トラックIN3がオグジュアリトラックAUXを経由することでエフェクトがかけられた状態でバスB2へ入力されるルーティングと、トラックIN3が原音(Dry)の状態でバスB2へ入力されるルーティングとが併存する例が記載されている。この2つのルーティングのうち音量値を取得すべきルーティングは、トラックIN3が原音(Dry)の状態でバスB2へ入力されるルーティングである。したがってこの場合、トラックIN3がオグジュアリトラックAUXを経由してバスB2へ入力されるルーティングは、対象外ルーティングに設定されるべきである。しかし、ユーザが、そのようなルーティングを対象外ルーティングに設定することを忘れてしまう場合もありうる。そこで、ステップS20では、CPU101は、検索対象とするルーティングが1つであるか否かを判定する。検索対象とするルーティングは1つではない場合、ステップS26に進み、CPU101はエラー出力を行い、処理を終了する。検索対象とするルーティングが1つである場合、処理はステップS21へ進む。ステップS21では、CPU101は、ミドルウェア上でのラウドネス値の総変化量Tを算出する。総変化量Tは、検索パス設定欄44で設定された検索パスのうち音声ファイルがあるルーティングでのラウドネス値の変化量に、加算ルーティング設定欄49で設定されたルーティングにおけるラウドネス値の変化量を加算することにより得られる。ただし、ステップS14で、検索パス設定欄44で設定された検索パス以下に音声ファイルが存在しない場合は、ステップS25で、検索パスのラウドネス値の変化量は0とされる。
【0042】
ステップS22で、CPU101は、最終ラウドネス値FR(最終音量値)を算出する。最終ラウドネス値FRは、ステップS13でラウドネステーブルから得られたラウドネス値Rと、ステップS21で得られたラウドネス値の総変化量Tの差を計算することにより得られる。
【0043】
ステップS23で、CPU101は、ステップS22で算出された最終ラウドネス値FRにより対象音声ファイルに記録された音声のラウドネス調整を行う。ラウドネス調整は、例えば、ラウドネス設定欄33で指定されたラウドネス測定方法に従い対象音声ファイルの音声(ステップS12が実行された場合は、自動コンプが実行された後の対象音声ファイルの音声)のラウドネス値を測定し、その測定結果に基づいて、ラウドネス値がターゲットラウドネス値になるように音声のゲイン値を調整することにより行われる。
【0044】
ステップS24で、表示制御部としてのCPU101は、ステップS11で取得された音声ファイルの音声またはステップS12で自動コンプがかけられた音声の波形である第1波形(ラウドネス調整前の波形)と、ラウドネス調整後の音声の波形である第2波形とを、ディスプレイDの表示領域に表示させる。波形表示例については後述する。
【0045】
ミドルウェアに登録されている未処理の他の音声ファイルがある場合、処理はステップS11に戻り、次の音声ファイルについて処理が繰り返される。したがって、ミドルウェアに登録されている複数の音声ファイルがある場合、複数の音声ファイルのそれぞれに対して、ステップS13の検索からステップS23のラウドネス調整が順次に行われる。
【0046】
図7には、ステップS24の波形表示の例が示されている。ここでは、3つの音声ファイルが処理された場合の波形表示の例を示す。表示される波形は時間領域波形である。したがって、波形の横軸は時間軸であり、縦軸は信号レベルを示している。図7において、表示領域の上段には、第1音声ファイルの音声の自動コンプ後(ラウドネス調整前)の波形W11と、第2音声ファイルの音声の自動コンプ後(ラウドネス調整前)の波形W12と、第3音声ファイルの音声の自動コンプ後(ラウドネス調整前)の波形W13が、時間軸方向に沿って並べて配置される。波形W11、W12、W13のそれぞれには、信号レベルを調整するために自動コンプにおいて得られたエンベロープ上に離散的に配置された複数の調整ポイントPが表示されていてもよい。ユーザは、手動で、例えば、任意の調整ポイントをマウスでドラッグすることにより、当該位置の信号レベルを調整することができる。
【0047】
図7において、表示領域の下段には、第1音声ファイルの音声のラウドネス調整後の波形W21と、第2音声ファイルの音声のラウドネス調整後の波形W22と、第3音声ファイルの音声のラウドネス調整後の波形W23が、時間軸方向に沿って並べて配置されている。それぞれのラウドネス調整後の波形は、ステップS23でラウドネス調整が行われた音声を新たにファイルに書き出すことによって得られる。
【0048】
また、ここには、波形表示の対象となった音声ファイルのラウドネス値の情報が表示されうる。例えば、各波形の音声ファイルのファイル名、ミドルウェア上でのラウドネス値の総変化量T、ラウドネステーブルの検索により得られたラウドネス値R、および最終ラウドネス値FRが表示される。これによりユーザは、各音声ファイルが、ミドルウェアおよびDAWにおいてどのくらい音量調整がされたのかを把握することができる。また、本実施形態によれば、DAW上で、ミドルウェアでの音量調整履歴を考慮した音量調整を行うことができる。なお、上述した波形およびラウドネス値の情報の表示態様は一例にすぎないものであって、その他の表示態様が採用されてもよい。
【0049】
(その他の例)
図2に示されるように、ラウドネステーブル114における複数のレコードは、登録文字列の接頭辞の共通性によりグループ分けされている。接頭辞は、命名規則によって定められた、音声の属性を表す文字列でありうる。その場合、接頭辞が共通するということは、音声の属性が共通するということである。例えば、接頭辞「vo」は、キャラクターのボイスを表し、接頭辞「atk」は、攻撃(アタック)時の掛け声を表す、等である。図2の例では、複数のレコードは、「vo_」を接頭辞とするグループ1、「vo_atk」を接頭辞とするグループ2、「vo_dmg」を接頭辞とするグループ3、「vo_move」を接頭辞とするグループ4、「vo_cmm」を接頭辞とするグループ5に分類されている。
【0050】
ステップS13では、CPU101は、対象音声ファイルのファイル名と部分一致する接頭辞をラウドネステーブル114から検索してグループを特定し、特定されたグループの中から、ファイル名と部分一致する登録文字列を検索する。図2の例では、各グループは、接頭辞のみからなる文字列とラウドネス値との対が記述された代表レコードを含む。代表レコードは各グループの先頭行に存在している。
【0051】
ステップS13において、検索の結果、特定されたグループの中から代表レコード以外にファイル名と部分一致する登録文字列が見つからなかった場合、ステップS23では、当該代表レコードに記述されたラウドネス値によりラウドネス調整を行う。以下、具体例を説明する。ステップS13において、最初に対象音声ファイルのファイル名と部分一致する接頭辞を、各グループの先頭行に存在する代表レコードから検索する。例えば、接頭辞「vo_atk」が対象音声ファイルのファイル名と部分一致したとする。この場合、検索対象のグループをグループ2に限定する。そして、グループ2の中から、ファイル名と部分一致する登録文字列を検索する。グループ2には、代表レコード以外に、「vo_atk_charge」、「vo_atk_s」等を登録文字列とするレコードが含まれるが、このグループ2の中から代表レコード以外にファイル名と部分一致する登録文字列が見つからなかった場合、ステップS23では、代表レコード(登録文字列「vo_atk」)に対応するラウドネス値「-21」によりラウドネス調整を行う。
【0052】
以上の処理によれば、ラウドネステーブルの検索範囲を限定することができるため、検索速度が向上する。
【0053】
なお、図2の例では、「vo_」を接頭辞とするグループ1は、「vo_」とそれに続く他の文字列を接頭辞とするその他のグループの上位レイヤとしての位置づけである。対象音声ファイルのファイル名と部分一致する接頭辞が「vo_」のみである場合、ラウドネス値はグループ1の「vo_」に対応する「-23」となる。
【0054】
以上説明した実施形態によれば、文字列と音量値(ラウドネス値)との対を1つのレコードとして含む音量テーブル(ラウドネステーブル)から、音声ファイルのファイル名と部分一致する文字列を登録文字列として有するレコードの検索が行われる。そして、検索により得られたレコードに記述された音量値により音声ファイルに記録された音声の音量調整が行われる。音量テーブルが事前に作成されていれば、音量調整のための設定を別途行う必要がない。また、複数の音声ファイルを処理する場合、各音声ファイルに対して上記検索および音量調整が順次に行われる。このように複数の音声ファイルに対して自動的に音量調整が行われる。また、音量テーブルに含まれるレコードの数は複数の音声ファイルの数よりも大幅に少なく済む。よって、本実施形態によれば、複数の音声ファイルのそれぞれの音声を逐一調整していた従来技術と比べて、ユーザの作業工数は大幅に軽減される。さらに、本実施形態によれば、上述したように、ユーザは、各音声ファイルが、ミドルウェアおよびDAWにおいてどのくらい音量調整がされたのかを把握することができる。また、本実施形態によれば、DAW上で、ミドルウェアでの音量調整履歴を考慮した音量調整を行うことができる。
【0055】
なお、ラウドネステーブル114が記憶装置110に記憶されていることは必須ではない。例えば、ネットワークNを介して接続された外部装置(例えば、図1のサーバA)にラウドネステーブル114が記憶されており、音声処理装置CがネットワークNを経由して外部装置に記憶されたラウドネステーブル114を参照するようにしてもよい。
【0056】
本発明は、上述の実施形態で説明した音声処理方法の各ステップを実行させるためのプログラムを、コンピュータに実行させることによっても実施されうる。
【0057】
発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。
【符号の説明】
【0058】
A:サーバ、C:音声処理装置、D:ディスプレイ、K:入力装置、101:CPU、112:DAW、114:ラウドネステーブル、115:ミドルウェア
【要約】
【課題】複数の音声ファイルに対する自動音量調整のために有利な技術を提供する。
【解決手段】音声処理装置は、音声の加工を行うためのソフトウェアであるミドルウェアと、音声の加工を行うための、前記ミドルウェアとは異なるソフトウェアであるデジタルオーディオワークステーション(DAW)とを記憶する記憶部と、前記ミドルウェアおよび前記DAWを実行するプロセッサとを有し、前記プロセッサは、前記DAW上で、前記ミドルウェアで設定された音声ファイルに記録された音声がアウトプットに至るまでのパスを示すルーティング情報に基づいて、前記ミドルウェア上での前記音声の音量値の変化量を取得する。
【選択図】 図1
図1
図2
図3
図4
図5
図6
図7