特許7461090 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＡＺＳＴＯＫＥの特許一覧

特許7461090音声処理装置、音声処理方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-03-26

(45)【発行日】2024-04-03

(54)【発明の名称】音声処理装置、音声処理方法、およびプログラム

(51)【国際特許分類】

H03G 3/02 20060101AFI20240327BHJP

G10L 21/0316 20130101ALI20240327BHJP

H04R 3/00 20060101ALI20240327BHJP

【ＦＩ】

H03G3/02 A

G10L21/0316

H04R3/00 310

【請求項の数】 9

(21)【出願番号】P 2023202151

(22)【出願日】2023-11-29

【審査請求日】2023-11-29

【早期審査対象出願】

(73)【特許権者】

【識別番号】523302533

【氏名又は名称】株式会社ＡＺＳＴＯＫＥ

(74)【代理人】

【識別番号】110003281

【氏名又は名称】弁理士法人大塚国際特許事務所

(72)【発明者】

【氏名】中島健太郎

【審査官】大石剛

(56)【参考文献】

【文献】米国特許出願公開第２０１５／０２０７４７８（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０３Ｇ３／０２

Ｇ１０Ｌ２１／０３１６

Ｈ０４Ｒ３／００

(57)【特許請求の範囲】

【請求項1】

音声を処理する音声処理装置であって、
音声の加工を行うためのソフトウェアであるミドルウェアと、音声の加工を行うための、前記ミドルウェアとは異なるソフトウェアであるデジタルオーディオワークステーション（ＤＡＷ）とを記憶する記憶部と、
前記ミドルウェアおよび前記ＤＡＷを実行するプロセッサと、
を有し、
前記プロセッサは、前記ＤＡＷ上で、
前記ミドルウェアで設定された音声ファイルに記録された音声がアウトプットに至るまでのパスを示すルーティング情報に基づいて、前記ミドルウェア上での前記音声の音量値の変化量を取得する、
ことを特徴とする音声処理装置。

【請求項2】

前記プロセッサは、前記ＤＡＷ上で、更に、
前記取得された変化量に基づいて、前記音声の音量調整を行う、
ことを特徴とする請求項１に記載の音声処理装置。

【請求項3】

前記ミドルウェアにおいて、前記音声は階層構造で分類され、階層ごとに音量調整部が設けられており、
前記ルーティング情報は、前記音声の前記パスの情報と、前記パス上の各音量調整部での音量値の情報とを含み、
前記プロセッサは、前記ＤＡＷ上で、
前記パス上の各音量調整部での音量値を合計して、前記ミドルウェア上での前記音声の音量値の総変化量を算出し、
前記算出された総変化量に基づいて、前記音声の音量調整を行う、
ことを特徴とする請求項２に記載の音声処理装置。

【請求項4】

前記プロセッサは、前記ＤＡＷ上で、
文字列と音量値との対を１つのレコードとして含む音量テーブルから、前記音声ファイルのファイル名と部分一致する文字列を登録文字列として有するレコードの検索を行い、
前記検索により得られたレコードに記述された音量値と前記総変化量との差である最終音量値により、前記音声ファイルに記録された音声の音量調整を行う、
ことを特徴とする請求項３に記載の音声処理装置。

【請求項5】

前記総変化量を求める際の計算対象から除外するルーティングである対象外ルーティングを設定する設定手段を更に有することを特徴とする請求項４に記載の音声処理装置。

【請求項6】

前記総変化量を求める際の計算対象に加えられるべき、前記階層構造とは別の階層構造におけるルーティングである加算ルーティングを設定する設定手段を更に有することを特徴とする請求項４に記載の音声処理装置。

【請求項7】

前記音量値の尺度はラウドネス値である、ことを特徴とする請求項１に記載の音声処理装置。

【請求項8】

音声の加工を行うためのソフトウェアであるミドルウェアと、音声の加工を行うための、前記ミドルウェアとは異なるソフトウェアであるデジタルオーディオワークステーション（ＤＡＷ）とを記憶する記憶部と、前記ミドルウェアおよび前記ＤＡＷを実行するプロセッサと、を有する音声処理装置によって実行される音声処理方法であって、
前記プロセッサが、前記ＤＡＷの実行中に、
前記ミドルウェアで設定された音声ファイルに記録された音声がアウトプットに至るまでのパスを示すルーティング情報を取得するステップと、
前記ミドルウェア上での前記音声の音量値の変化量を取得するステップと、
を有することを特徴とする音声処理方法。

【請求項9】

コンピュータに、請求項８に記載の音声処理方法の各ステップを実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声処理装置、音声処理方法、およびプログラムに関する。

【背景技術】

【0002】

複数の音声ファイルを扱うアプリケーションにおいては、多くの場合、各ファイルの音量は、それぞれ指定された音量に調整されていることが望ましい。例えば、ゲームにおいて、同じキャラクターの動作音（例えば歩行音）の音量が場面によって大きく異なると、ユーザに違和感を与えうる。そのため、開発者は、ゲームにインストールされる複数の音声ファイルの音量を調整する作業に多大な労力を割いている。

【0003】

従来、複数の音声ファイルに対する音量調整は、例えば次のような手順で行われていた。
（ａ）納品された複数の音声ファイルが記憶装置に保存される。
（ｂ）基準音声ファイルと複数の音声ファイルのうちから選択された１つの音声ファイルとを聴き比べる。
（ｃ）聴感上の音量が同じになるように音声ファイルの信号レベルを調整する。
（ｄ）複数の音声ファイルのうちの未処理の音声ファイルについて、（ｂ）、（ｃ）を繰り返す。

【0004】

なお、上記工程（ｃ）で行われる信号レベルの調整は、音声データ自体を変更することに限られない。例えば、特許文献１には、自動音量調整要素をオーディオデータと関連付けて記憶しておき、オーディオデータの再生時にその自動音量調整要素を用いて音量を調整することが記載されている。特許文献２には、音楽ファイルのファイル名に再生音量に関する再生制御識別子を付加し、音楽ファイルの再生時にその再生制御識別子を用いて音量を調整することが記載されている。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２００３－２４３９５２号公報

【文献】特開２０１１－１９７６６４号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかし、例えばゲームで使用される音声ファイルの数は数万以上に及ぶ場合がある。そのような数の音声ファイルの音量を逐一調整するとなると、作業工数は膨大なものとなる。そのため、複数の音声ファイルに対する音量調整を自動化することで音量調整作業にかかる労力の軽減が望まれている。また、ゲーム開発においては、音声ファイルの制作、調整のために、ミドルウェア（オーディオミドルウェア）と、デジタルオーディオワークステーション（ＤＡＷ）の、２つのソフトウェアが使用される。しかし、ＤＡＷ上では、複数の音声ファイルがそれぞれミドルウェアでどのような音量調整がされてきたのかを把握することができず、ミドルウェアでの音量調整結果を考慮した音量調整を行うことができなかった。
本発明は、複数の音声ファイルに対する自動音量調整のために有利な技術を提供する。

【課題を解決するための手段】

【0007】

本発明の一側面によれば、音声を処理する音声処理装置であって、音声の加工を行うためのソフトウェアであるミドルウェアと、音声の加工を行うための、前記ミドルウェアとは異なるソフトウェアであるデジタルオーディオワークステーション（ＤＡＷ）とを記憶する記憶部と、前記ミドルウェアおよび前記ＤＡＷを実行するプロセッサと、を有し、前記プロセッサは、前記ＤＡＷ上で、前記ミドルウェアで設定された音声ファイルに記録された音声がアウトプットに至るまでのパスを示すルーティング情報に基づいて、前記ミドルウェア上での前記音声の音量値の変化量を取得する、ことを特徴とする音声処理装置が提供される。

【発明の効果】

【0008】

本発明によれば、複数の音声ファイルに対する自動音量調整のために有利な技術を提供することができる。

【図面の簡単な説明】

【0009】

【図1】実施形態に係る音声処理装置の構成を示すブロック図。

【図2】ラウドネステーブルの構造例を示す図。

【図3】ラウドネス値の設定画面を例示する図。

【図4】ミドルウェア上の音声の階層構造を説明する概念図。

【図5】ミドルウェアによる音量値の変化量を取得するための設定画面を例示する図。

【図6】音声処理方法のフローチャート。

【図7】音声の波形の表示例を示す図。

【発明を実施するための形態】

【0010】

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴は任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。

【0011】

図１には、実施形態に係る音声処理装置Ｃの構成を示すブロック図が示されている。音声処理装置Ｃは、ファイルに記録された音声信号を表示し、音声信号に対して信号レベルの調整等の各種処理を行う装置である。本明細書において、「音声」という用語は広義に理解されるべきである。「音声」は、人や動物が発した声のみならず、楽音、コンピュータ生成された効果音等をも含みうるものとする。すなわち、本明細書において、「音声」という用語は、「スピーチ」、「サウンド」、「オーディオ（音響）」を含むことを意図している。

【0012】

音声処理装置Ｃは、パーソナルコンピュータやワークステーション等のコンピュータ装置でありうる。音声処理装置Ｃは、装置全体の制御を司るＣＰＵ（中央処理装置）１０１、主記憶装置として機能すると共にＣＰＵ１０１のワークエリアを提供するＲＡＭ１０２、固定的なデータ及びプログラムを記憶するＲＯＭ１０３を備える。また、音声処理装置Ｃは、オーディオインタフェース（Ｉ／Ｆ）１０４を備える。オーディオインタフェース１０４には、マイクロホンＭ、スピーカＳが接続されうる。音声処理装置Ｃには、インタフェース（Ｉ／Ｆ）１０５を介して記憶装置（二次記憶装置）１１０（記憶部）が接続される。記憶装置１１０は、例えば、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、またはそれらの組み合わせでありうる。なお、記憶装置１１０は、音声処理装置Ｃの内部に構成されてもよいし、外部に構成されてもよい。ネットワークインタフェース１０６は、ネットワークＮと接続して通信を行う。音声処理装置Ｃは、例えば、ネットワークＮを介して、サーバＡと通信可能に接続されうる。

【0013】

音声処理装置Ｃには、インタフェース１０７を介して、キーボード、マウス等の入力装置Ｋが接続されうる。また、音声処理装置Ｃには、インタフェース１０８を介して、ＣＤ－ＲＯＭドライブ、ＤＶＤドライブ等の外部メディア装置Ｆが接続されうる。さらに、音声処理装置Ｃは、ビデオコントローラ１０９を備える。ビデオコントローラ１０９は、表示装置（ディスプレイ）Ｄによる画像表示を制御する。入力装置ＫとディスプレイＤとが一体化されたタッチパネル画面が構成されてもよい。

【0014】

音声処理装置Ｃを起動するためのブートプログラムはＲＯＭ１０３に記憶されている。また、図１に示すように、記憶装置１１０には、オペレーティングシステム（ＯＳ）１１１や１つ以上の音声ファイル１１３がインストールされうる。音声ファイル１１３は、ネットワークＮを介してサーバＡ等の外部装置から供給されてもよいし、外部メディア装置Ｆに収容されたメディアから供給されてもよい。あるいは、音声ファイル１１３は、マイクロホンＭにより収音された音響から作成されたものであってもよい。また、記憶装置１１０には、後述するラウドネステーブル１１４も記憶される。

【0015】

音声ファイル１１３は、音声コンテンツが記録された音声ファイルである。一例において、音声ファイル１１３のファイル形式は、パーソナルコンピュータにおいて一般的に利用されるＷＡＶＥファイル形式でありうる。ＷＡＶＥファイルは、ヘッダと、オーディオ信号のデータとを含みうる。ヘッダは、モノラル／ステレオの種別、サンプリング周波数、量子化ビット数等の情報を含みうる。なお、音声ファイル１１３のファイル形式はＷＡＶＥファイル形式に限定されない。音声ファイル１１３のファイル形式は、ＷＡＶＥファイル形式以外の形式、例えば、ＡＩＦＦ、ＭＰ３、ＡＡＣ等の形式であってもよい。

【0016】

一例として、音声処理装置Ｃがゲーム開発に使用されることを考える。ゲーム開発における音声の実装は、おおまかには、サウンドクリエーターが音声ファイルを制作し、プログラマーが、制作された音声がユーザ操作に合わせて再生されるようにゲームエンジンによりプログラミングを行う。音声ファイルの制作においては、ゲーム開発の大作化や複雑化に伴い、大きく２つのツールが使われるようになっている。１つは、多彩な音声ファイルを制作するためのＤＡＷ、もう１つは、音声のゲームエンジンへの組み込みの手間を省力化するためのミドルウェア（オーディオミドルウェア）である。ＤＡＷは、デジタルオーディオワークステーション（Digital Audio Workstation）の略語であり、音声制作を目的として音声の録音／編集などをできるようにしたソフトウェアである。ミドルウェアは、ゲームエンジンに渡す音声の再生、加工、管理を行うソフトウェアであり、ＤＡＷで再生させるオーディオデータを作成することができる。そのようなミドルウェアとしては、例えば、Audiokinetic社製のWwiseがある。したがって、音声処理装置Ｃの記憶装置１１０には、ミドルウェア１１５およびＤＡＷ１１２もインストールされている。ＣＰＵ１０１は、ミドルウェアおよびＤＡＷを実行するプロセッサとして機能しうる。ＤＡＷとミドルウェアは、両者間で音声ファイルの受け渡し処理を行うなどの連携処理が可能に構成されている。例えば、ＤＡＷで音声を作成して音声ファイルの書き出しを行い、ＤＡＷからミドルウェアに音声ファイルを移動し、ミドルウェアで音声ファイルをゲームエンジンに実装する、といった処理を行うことができる。また、ＤＡＷからミドルウェアに移動した音声の調整が必要な場合には、音声ファイルをミドルウェアからＤＡＷに再び移動し、ＤＡＷで音声ファイルを調整することもできる。

【0017】

ゲームに実装される音声ファイルの数は数万以上に及ぶ場合がある。納品された初期の複数の音声ファイルの音量にはばらつきがあるため、音声ファイルごとの音量調整（信号レベルの調整））を行う必要がある。しかし、そのような数の音声ファイルの音量を逐一調整するとなると、作業工数は膨大なものとなる。

【0018】

ゲームに使用される音声には、キャラクターのセリフ音声、状況説明（成功、失敗など）音声、効果音、足音、爆破音、環境音、ＢＧＭ等、多種多様な音声が含まれうる。本発明者は、そのような音声の内容と適切な音量値との間には関連があることに着目した。本実施形態では、音声ファイルの音声の内容に応じて音量値を決定する。

【0019】

ゲーム開発の分野においては、一般には、各音声ファイルは、音声の属性がある程度分かるように命名される。「属性」とは、例えば、キャラクター名、シーン名、動作名、セリフの内容等、音声の内容を特定しうるものをいう。ファイル名は、例えば、「キャラクター名＋動作名」のように、複数の属性情報を含んでいてもよい。ゲーム開発においては、音声ファイルの命名規則が定められ、開発途中でそれが大幅に変更されることがないようにされるのが通常である。したがって、音声ファイルのファイル名から音声の内容を特定し、特定された音声の内容に応じて音量値を決定することが可能である。

【0020】

本実施形態では、ＤＡＷ側で、各音声ファイルに記録された音声の音量調整を行うに際し、目標音量値が記述された音量テーブルが参照される。ここで、音量値について説明する。本実施形態では、音量値の尺度（指標）として、人間の聴覚特性が考慮されたラウドネス値が使用される。ラウドネス値は、例えばLUFS（Loudness Units Full Scale）またはLKFS（Loudness K-Weighted Full Scale）の単位で表される。したがって、本実施形態では、ＤＡＷ側で、各音各音声ファイルに記録された音声のラウドネス調整を行うに際し、ターゲットラウドネス値が記述されたラウドネステーブル１１４が音量テーブルとして参照される。ラウドネステーブル１１４は、音声ファイルのファイル名の一部となりうる文字列と音量値であるラウドネス値（ターゲットラウドネス値）との対応関係が記述されたルックアップテーブルである。ラウドネステーブルは、「ラウドネスリスト」とよばれてもよい。図２には、ラウドネステーブル１１４の構造例が示されている。ラウドネステーブル１１４は、文字列（登録文字列）とラウドネス値（ターゲットラウドネス値）との対を１つのレコードとして含む。各レコードに記述された登録文字列は、音声ファイルのファイル名の一部となりうる文字列である。なお、本発明は、音量値の尺度にラウドネス値を用いることに限定されるものではない。音量値の尺度にはラウドネス値以外の尺度（例えば、ＲＭＳ）が用いられてもよい。

【0021】

図３には、ＣＰＵ１０１によるＤＡＷ１１２の実行時にディスプレイＤに表示される、ラウドネス値の設定画面３０の例が示されている。表示制御部としてのＣＰＵ１０１は、ディスプレイＤ上の設定画面３０にラウドネステーブルの各レコードを編集可能に表示する。ユーザは、この設定画面３０を介してラウドネステーブル１１４にレコードを追加登録することが可能である。ラウドネステーブル１１４に登録されているレコードの数は、レコード数表示窓３１に表示される。追加ボタン３２が押下（マウスによるクリック、タッチパネルを介したタップ操作）されたことに応じて、レコードを追加することができる。リスト３５には、登録された各レコードの内容が表示される。リスト３５における各レコードは、「検索」および「値」の欄を有する。「検索」欄には、検索されるべき登録文字列が、「値」欄には、登録文字列に対応するラウドネス値が表示される。全てのレコードがリスト３５の表示領域に表示しきれない場合には、スクロールバー３６を使用してスクロールさせることができる。

【0022】

ユーザは、ラウドネス設定欄３３に、ラウドネス測定方法を指定することができる。ラウドネス測定方法としては、例えば、MaxMomentary、MaxShort-Term、Integratedがある。ラウドネス設定欄３３では、これらのうちのいずれかを選択することができる。MaxMomentaryとは、音声波形の時間軸上を所定時間スライドさせて得られる複数の測定窓（400msec長）のそれぞれでラウドネス計算を行い、そのうちの最大値をラウドネス値として採用するものをいう。MaxShort-Termとは、時間軸上を所定時間スライドさせて得られる複数の測定窓（3sec長）のそれぞれでラウドネス計算を行い、そのうちの最大値をラウドネス値として採用するものをいう。Integratedとは、音源全体（１つの音声ファイルの音声全体）のラウドネスを計測するものをいう。図３の例では、MaxMomentaryが選択されている。さらに、上記した特定の測定窓長ではなく、任意の測定窓長さを指定できるようになっていてもよい。

【0023】

音声ファイルの音声に対してラウドネス調整が行われる前に、オプションとして、ダイナミックレンジ・コンプレッションが行われてもよい。音声ファイル間の再生音量のばらつきが大きい場合がある。そのまま音源の音量を調整しない場合には、ある音声の再生音量が小さすぎあるいは大きすぎとなり聞きにくい状況となりうる。そのため、各音源の信号レベルを揃える必要がある。ダイナミックレンジ・コンプレッションは、そのような音声間の信号レベルを一定に揃えるために実施される。ダイナミックレンジ・コンプレッションは、一般に、信号レベルのピークを含む部分を抑圧し、信号レベルの低い部分を増大させる処理を含む。ただし、信号レベルを単に一定にすればよいわけではない。人の発話音の場合、ある程度抑揚がないと圧縮された感じが強くなる。そのため、ダイナミックレンジ・コンプレッションでは、圧縮対象を定めるための信号レベルのスレッショルドが適切に設定される必要がある。

【0024】

ダイナミックレンジ・コンプレッションは、エンベロープ上に配置された複数の調整ポイントのうちの任意の調整ポイントを動かすことにより、ユーザが手動で行うこともできる（手動コンプ）。しかし、手動コンプを全ての音声に対して行うのには多大な労力を要する。そこで、音声ファイルの全体に対してダイナミックレンジ・コンプレッションを自動で行うことも可能である。ダイナミックレンジ・コンプレッションを自動で行うことを、ここでは「自動コンプ」と称する。

【0025】

自動コンプは、例えば次のような処理を含みうる。対象の音声ファイルの音声信号は複数のフレームで構成されている。まず、音声信号のエンベロープを取得する。次に、フレーム毎のエンベロープのピーク値を検出し、検出されたフレーム毎のピーク値の平均値（第１平均値）を算出する。次に、第１平均値よりも高いピーク値を検出し、それらの平均値（第２平均値）を算出する。そして、第２平均値よりも高いピーク値のうちの少なくとも一部が抑制されるようにエンベロープを調整する。例えば、第２平均値より高いピーク値を更に検出し、それらの平均値（第３平均値）を算出する。更に、第３平均値より高いピーク値を検出し、それらが第３平均値に近づくように調整する。なお、このような自動コンプの処理方法は一例にすぎず、他の処理方法によって実現されてもよい。

【0026】

本実施形態では、ユーザは、記憶装置１１０の作業用フォルダに格納された全ての音声ファイルに対して自動コンプを適用するかしないかを指定することができる。設定画面３０には、自動コンプの実行を指示する自動コンプ設定欄３４が設けられている。自動コンプ設定欄３４には例えばラジオボタンまたはチェックボックスが用意されていて、そこを選択状態（ＯＮ）にすることで自動コンプの実行が指定される。図３の例では自動コンプ設定欄３４がラジオボタンによりＯＮにされている。この場合、音声ファイルの音声のダイナミックレンジ・コンプレッションが実行された後に、ラウドネス調整が行われる。

【0027】

設定画面３０は、更に、記憶装置１１０の作業用フォルダに格納された、ラウドネス調整の対象とされる１つ以上の音声ファイルのファイル名を表示するファイル名表示欄３７も有する。

【0028】

次に、ミドルウェア１１５上での音声ファイルの管理について説明する。個々の音声ファイルは、１つ以上の音声素材（記録された音の部分）を含みうる。１つの音声素材は「トラック」とも呼ばれる。ミドルウェアでは、音声（トラック）は階層構造で分類される。図４は、ミドルウェア上で管理される音声の階層構造Ｈの例を示す概念図である。インプット端子にトラックが入力され、全トラックがマスタートラックＭＳに集められてアウトプット端子から出力される。つまり、ゲームで再生される全ての音声は最終的にはマスタートラックＭＳを通過して出力される。インプット端子に入力されたトラックＩＮ１、ＩＮ２、ＩＮ３個別に、エフェクトＥおよび／または音量調整Ｖがかけられる。階層構造Ｈは、バス（Ｂｕｓ）トラックを含みうる。バストラックとは、１つ以上のトラックをまとめたトラックをいう。図４において、バストラックＢ１は、トラックＩＮ１とトラックＩＮ２を１つのトラックにまとめてマスタートラックＭＳに出力している。バスを使用することにより、複数トラックに対してまとめてエフェクトおよび／または音量調整をかけることができる。また、階層構造Ｈは、オグジュアリトラックを含みうる。オグジュアリトラックとは、あるトラックの複製を横流し（Ｓｅｎｄ）したものである。図４において、オグジュアリトラックＡＵＸは、トラックＩＮ３を入力し、バストラックＢ２に出力している。バストラックＢ２は、トラックＩＮ３を入力するとともに、オグジュアリトラックＡＵＸを入力している。オグジュアリトラックは、例えば、エフェクト（リバーブ、ディレイなど）がかかったトラックとエフェクトがかかっていないトラックとを併存させる場合に使用される。

【0029】

ユーザは、不図示の階層構造設定画面を介して、階層構造を設計し、ミドルウェア上に登録されている音声ファイルの任意のトラックについて、階層構造におけるどのインプット端子に配置するかを決定することができる。これにより、各トラックについて、トラックが階層構造におけるインプットからアウトプットに至るまでのパスを示すルーティングが決定される。このように、階層構造Ｈの階層ごとに音量調整部が設けられており、トラックは各音量調整部を通過する度に音量調整を受けうる。ユーザは、設計した階層構造の階層ごとに適用するエフェクトおよび音量調整部の音量値を決定することができる。ミドルウェア上での音声の音量値の総変化量は、パス上の各音量調整部での音量値を合計することにより算出される。例えば、図４に示されているように、マスタートラックでのラウドネス値が－６ｄＢ、バストラックＢ１でのラウドネス値が＋４ｄＢ、トラックＩＮ１でのラウドネス値が＋２ｄＢ、トラックＩＮ２でのラウドネス値が－４ｄＢに設定されたとする。この場合、トラックＩＮ１のミドルウェア上でのラウドネス値の総変化量は、
（－６ｄＢ）＋（＋４ｄＢ）＋（＋２ｄＢ）＝０ｄＢ
となる。また、トラックＩＮ２のミドルウェア上でのラウドネス値の総変化量は、
（－６ｄＢ）＋（＋４ｄＢ）＋（－４ｄＢ）＝－６ｄＢ
となる。

【0030】

上記のようなミドルウェアでの階層構造の設計により、音声ファイルに記録された音声がアウトプットに至るまでのパスを示すルーティング情報が作成される。ルーティング情報は、音声ファイルに記録された音声がアウトプットに至るまでのパス（以下「ルーティング」という。）の情報と、パス上の各音量調整部での音量値の情報とを含みうる。
なお、上記説明では、１つの種類の階層構造Ｈの例を示したが、複数種類の階層構造がミドルウェア上に構築されうるように構成されていてもよい。

【0031】

上記したように、ＤＡＷ上でのラウドネス調整は、ラウドネステーブルを参照して音声ファイルのファイル名に応じて決定されるラウドネス値を用いて行われる。しかし、従来、ＤＡＷ側では、ミドルウェア上での各音声の音量調整履歴を把握することはできなかった。そのため、ＤＡＷ側ではミドルウェアでの音量調整履歴を考慮することなくラウドネス調整が行われていた。

【0032】

本実施形態では、ＣＰＵ１０１は、ＤＡＷ上で、ミドルウェアで作成されたルーティング情報に基づいて、ミドルウェア上での音声のルーティングにおける音量値の変化量を取得する。そして、ＣＰＵ１０１は、ＤＡＷ上で、取得された変化量に基づいて音量調整を行う。図５には、ＣＰＵ１０１によるＤＡＷ１１２の実行時にディスプレイＤに表示される、ミドルウェア上での音量値の変化量を取得するための設定画面４０の例が示されている。
設定画面４０において、検索チェック欄４１は、ミドルウェアの接続を設定する欄である。
上記したように、ミドルウェア上に複数種類の階層構造が構築される場合がある。検索パス設定欄４４は、ミドルウェア上に複数種類の階層構造が構築されている場合に、どの階層構造を検索対象とするかを設定する欄である。
検知パス設定欄４５は、検索パスの中で同一ファイル名の音声ファイルが複数見つかった場合に優先する階層を設定する欄である。
対象外ルーティング設定欄４７は、ミドルウェア上での音量値の総変化量を求める際の計算対象から除外するルーティング（対象外ルーティング）を設定する欄であり、ユーザは、対象外ルーティングを特定する情報をルーティング指定欄４８に指定することができる。
加算ルーティング設定欄４９は、ミドルウェア上での音量値の総変化量を求める際の計算対象に加えられるべき、検索パス設定欄４４で設定された階層構造とは別の階層構造におけるルーティング（加算ルーティング）を設定する欄であり、ユーザは、加算ルーティングを特定する情報を、ルーティング指定欄５０に指定することができる。ルーティング内での音量調整以外にも、例えば、アップミックス（例：2.0ch→4.0ch）、ダウンミックス（例：4.0ch→2.0ch）、ゲイン（Gain）、リミッター（Limiter）、コンプ（Comp）等のエフェクターを利用した音量調整を行うなど、複数の例外がありうる。加算ルーティング設定欄４９は、そのような例外的な対応のために用意されている。
ルーティング指定欄４８、５０が増えてそれらの全てを表示領域に表示しきれない場合には、スクロールバー５１を使用してスクロールさせることができる。

【0033】

図６には、音声処理装置Ｃにおける音声処理方法のフローチャートが示されている。このフローチャートに対応するプログラムはＤＡＷ１１２に含まれており、ＤＡＷ１１２を実行中のＣＰＵ１０１によって行われる。

【0034】

ステップＳ１１で、ＣＰＵ１０１は、ミドルウェアに登録されている音声ファイルを取得し、記憶装置１１０の所定の作業用フォルダに格納する。

【0035】

ステップＳ１２で、ＣＰＵ１０１は、取得した音声ファイルに対して自動コンプを実行する。ただし、このステップＳ１２は、図３に示した設定画面３０における自動コンプ設定欄３４が選択状態されている場合のオプションである。自動コンプ設定欄３４が選択状態されていない場合には、ステップＳ１２はスキップされる。

【0036】

ステップＳ１３で、ＣＰＵ１０１は、取得した音声ファイルに対して、ファイル名と部分一致する文字列を登録文字列として有するレコードをラウドネステーブル１１４から検索する。ＣＰＵ１０１は、この検索により得られたレコードに記述されたラウドネス値Ｒを取得する。

【0037】

ステップＳ１４で、ＣＰＵ１０１は、検索パス設定欄４４で設定された検索パス以下に（すなわち、検索対象とする階層構造における少なくともいずれかのルーティングに）、音声ファイルがあるかを判定する。音声ファイルがあれば、処理はステップＳ１５へ進む。ステップＳ１５では、ＣＰＵ１０１は、検索パス以下に音声ファイルが複数あるか否かを判定する。音声ファイルが複数ある場合、処理はステップＳ１６へ進み、音声ファイルが１つのみの場合には処理はステップＳ１８へ進む。

【0038】

ステップＳ１６では、ＣＰＵ１０１は、検知パス設定欄４５で設定された優先階層に音声ファイルがあるか否かを判定する。検知パス設定欄４５で設定された優先階層に音声ファイルがある場合には処理はステップＳ１８に進み、そうでなければ処理はステップＳ１７へ進む。ステップＳ１７では、ステップＳ１５で特定された複数の音声ファイルのうち１番目に検索されたの音声ファイルのパスのルーティング情報を取得する。

【0039】

ステップＳ１８では、ＣＰＵ１０１は、ステップＳ１７で取得したルーティング情報を含む、ミドルウェア上での全ルーティング情報を取得する。ルーティング情報は、上記したように、ミドルウェアで設定された音声ファイルに記録された音声がアウトプットに至るまでのパスの情報と、パス上の各音量調整部での音量値の情報とを含みうる。

【0040】

ステップＳ１９では、ＣＰＵ１０１は、対象外ルーティング設定欄４７で設定された対象外ルーティングを、後述のステップＳ２１でラウドネス値の総変化量を求める際の計算対象から除外する。

【0041】

ミドルウェア上での音量値の総変化量を求める際の計算対象に加えられるべきルーティングは１つだけである。例えばエフェクトをかける際には、ルーティングを複数設定することが可能である。図４には、トラックＩＮ３がオグジュアリトラックＡＵＸを経由することでエフェクトがかけられた状態でバスＢ２へ入力されるルーティングと、トラックＩＮ３が原音（Ｄｒｙ）の状態でバスＢ２へ入力されるルーティングとが併存する例が記載されている。この２つのルーティングのうち音量値を取得すべきルーティングは、トラックＩＮ３が原音（Ｄｒｙ）の状態でバスＢ２へ入力されるルーティングである。したがってこの場合、トラックＩＮ３がオグジュアリトラックＡＵＸを経由してバスＢ２へ入力されるルーティングは、対象外ルーティングに設定されるべきである。しかし、ユーザが、そのようなルーティングを対象外ルーティングに設定することを忘れてしまう場合もありうる。そこで、ステップＳ２０では、ＣＰＵ１０１は、検索対象とするルーティングが１つであるか否かを判定する。検索対象とするルーティングは１つではない場合、ステップＳ２６に進み、ＣＰＵ１０１はエラー出力を行い、処理を終了する。検索対象とするルーティングが１つである場合、処理はステップＳ２１へ進む。ステップＳ２１では、ＣＰＵ１０１は、ミドルウェア上でのラウドネス値の総変化量Ｔを算出する。総変化量Ｔは、検索パス設定欄４４で設定された検索パスのうち音声ファイルがあるルーティングでのラウドネス値の変化量に、加算ルーティング設定欄４９で設定されたルーティングにおけるラウドネス値の変化量を加算することにより得られる。ただし、ステップＳ１４で、検索パス設定欄４４で設定された検索パス以下に音声ファイルが存在しない場合は、ステップＳ２５で、検索パスのラウドネス値の変化量は０とされる。

【0042】

ステップＳ２２で、ＣＰＵ１０１は、最終ラウドネス値ＦＲ（最終音量値）を算出する。最終ラウドネス値ＦＲは、ステップＳ１３でラウドネステーブルから得られたラウドネス値Ｒと、ステップＳ２１で得られたラウドネス値の総変化量Ｔの差を計算することにより得られる。

【0043】

ステップＳ２３で、ＣＰＵ１０１は、ステップＳ２２で算出された最終ラウドネス値ＦＲにより対象音声ファイルに記録された音声のラウドネス調整を行う。ラウドネス調整は、例えば、ラウドネス設定欄３３で指定されたラウドネス測定方法に従い対象音声ファイルの音声（ステップＳ１２が実行された場合は、自動コンプが実行された後の対象音声ファイルの音声）のラウドネス値を測定し、その測定結果に基づいて、ラウドネス値がターゲットラウドネス値になるように音声のゲイン値を調整することにより行われる。

【0044】

ステップＳ２４で、表示制御部としてのＣＰＵ１０１は、ステップＳ１１で取得された音声ファイルの音声またはステップＳ１２で自動コンプがかけられた音声の波形である第１波形（ラウドネス調整前の波形）と、ラウドネス調整後の音声の波形である第２波形とを、ディスプレイＤの表示領域に表示させる。波形表示例については後述する。

【0045】

ミドルウェアに登録されている未処理の他の音声ファイルがある場合、処理はステップＳ１１に戻り、次の音声ファイルについて処理が繰り返される。したがって、ミドルウェアに登録されている複数の音声ファイルがある場合、複数の音声ファイルのそれぞれに対して、ステップＳ１３の検索からステップＳ２３のラウドネス調整が順次に行われる。

【0046】

図７には、ステップＳ２４の波形表示の例が示されている。ここでは、３つの音声ファイルが処理された場合の波形表示の例を示す。表示される波形は時間領域波形である。したがって、波形の横軸は時間軸であり、縦軸は信号レベルを示している。図７において、表示領域の上段には、第１音声ファイルの音声の自動コンプ後（ラウドネス調整前）の波形Ｗ１１と、第２音声ファイルの音声の自動コンプ後（ラウドネス調整前）の波形Ｗ１２と、第３音声ファイルの音声の自動コンプ後（ラウドネス調整前）の波形Ｗ１３が、時間軸方向に沿って並べて配置される。波形Ｗ１１、Ｗ１２、Ｗ１３のそれぞれには、信号レベルを調整するために自動コンプにおいて得られたエンベロープ上に離散的に配置された複数の調整ポイントＰが表示されていてもよい。ユーザは、手動で、例えば、任意の調整ポイントをマウスでドラッグすることにより、当該位置の信号レベルを調整することができる。

【0047】

図７において、表示領域の下段には、第１音声ファイルの音声のラウドネス調整後の波形Ｗ２１と、第２音声ファイルの音声のラウドネス調整後の波形Ｗ２２と、第３音声ファイルの音声のラウドネス調整後の波形Ｗ２３が、時間軸方向に沿って並べて配置されている。それぞれのラウドネス調整後の波形は、ステップＳ２３でラウドネス調整が行われた音声を新たにファイルに書き出すことによって得られる。

【0048】

また、ここには、波形表示の対象となった音声ファイルのラウドネス値の情報が表示されうる。例えば、各波形の音声ファイルのファイル名、ミドルウェア上でのラウドネス値の総変化量Ｔ、ラウドネステーブルの検索により得られたラウドネス値Ｒ、および最終ラウドネス値ＦＲが表示される。これによりユーザは、各音声ファイルが、ミドルウェアおよびＤＡＷにおいてどのくらい音量調整がされたのかを把握することができる。また、本実施形態によれば、ＤＡＷ上で、ミドルウェアでの音量調整履歴を考慮した音量調整を行うことができる。なお、上述した波形およびラウドネス値の情報の表示態様は一例にすぎないものであって、その他の表示態様が採用されてもよい。

【0049】

（その他の例）
図２に示されるように、ラウドネステーブル１１４における複数のレコードは、登録文字列の接頭辞の共通性によりグループ分けされている。接頭辞は、命名規則によって定められた、音声の属性を表す文字列でありうる。その場合、接頭辞が共通するということは、音声の属性が共通するということである。例えば、接頭辞「vo」は、キャラクターのボイスを表し、接頭辞「atk」は、攻撃（アタック）時の掛け声を表す、等である。図２の例では、複数のレコードは、「vo_」を接頭辞とするグループ１、「vo_atk」を接頭辞とするグループ２、「vo_dmg」を接頭辞とするグループ３、「vo_move」を接頭辞とするグループ４、「vo_cmm」を接頭辞とするグループ５に分類されている。

【0050】

ステップＳ１３では、ＣＰＵ１０１は、対象音声ファイルのファイル名と部分一致する接頭辞をラウドネステーブル１１４から検索してグループを特定し、特定されたグループの中から、ファイル名と部分一致する登録文字列を検索する。図２の例では、各グループは、接頭辞のみからなる文字列とラウドネス値との対が記述された代表レコードを含む。代表レコードは各グループの先頭行に存在している。

【0051】

ステップＳ１３において、検索の結果、特定されたグループの中から代表レコード以外にファイル名と部分一致する登録文字列が見つからなかった場合、ステップＳ２３では、当該代表レコードに記述されたラウドネス値によりラウドネス調整を行う。以下、具体例を説明する。ステップＳ１３において、最初に対象音声ファイルのファイル名と部分一致する接頭辞を、各グループの先頭行に存在する代表レコードから検索する。例えば、接頭辞「vo_atk」が対象音声ファイルのファイル名と部分一致したとする。この場合、検索対象のグループをグループ２に限定する。そして、グループ２の中から、ファイル名と部分一致する登録文字列を検索する。グループ２には、代表レコード以外に、「vo_atk_charge」、「vo_atk_s」等を登録文字列とするレコードが含まれるが、このグループ２の中から代表レコード以外にファイル名と部分一致する登録文字列が見つからなかった場合、ステップＳ２３では、代表レコード（登録文字列「vo_atk」）に対応するラウドネス値「－２１」によりラウドネス調整を行う。

【0052】

以上の処理によれば、ラウドネステーブルの検索範囲を限定することができるため、検索速度が向上する。

【0053】

なお、図２の例では、「vo_」を接頭辞とするグループ１は、「vo_」とそれに続く他の文字列を接頭辞とするその他のグループの上位レイヤとしての位置づけである。対象音声ファイルのファイル名と部分一致する接頭辞が「vo_」のみである場合、ラウドネス値はグループ１の「vo_」に対応する「－２３」となる。

【0054】

以上説明した実施形態によれば、文字列と音量値（ラウドネス値）との対を１つのレコードとして含む音量テーブル（ラウドネステーブル）から、音声ファイルのファイル名と部分一致する文字列を登録文字列として有するレコードの検索が行われる。そして、検索により得られたレコードに記述された音量値により音声ファイルに記録された音声の音量調整が行われる。音量テーブルが事前に作成されていれば、音量調整のための設定を別途行う必要がない。また、複数の音声ファイルを処理する場合、各音声ファイルに対して上記検索および音量調整が順次に行われる。このように複数の音声ファイルに対して自動的に音量調整が行われる。また、音量テーブルに含まれるレコードの数は複数の音声ファイルの数よりも大幅に少なく済む。よって、本実施形態によれば、複数の音声ファイルのそれぞれの音声を逐一調整していた従来技術と比べて、ユーザの作業工数は大幅に軽減される。さらに、本実施形態によれば、上述したように、ユーザは、各音声ファイルが、ミドルウェアおよびＤＡＷにおいてどのくらい音量調整がされたのかを把握することができる。また、本実施形態によれば、ＤＡＷ上で、ミドルウェアでの音量調整履歴を考慮した音量調整を行うことができる。

【0055】

なお、ラウドネステーブル１１４が記憶装置１１０に記憶されていることは必須ではない。例えば、ネットワークＮを介して接続された外部装置（例えば、図１のサーバＡ）にラウドネステーブル１１４が記憶されており、音声処理装置ＣがネットワークＮを経由して外部装置に記憶されたラウドネステーブル１１４を参照するようにしてもよい。

【0056】

本発明は、上述の実施形態で説明した音声処理方法の各ステップを実行させるためのプログラムを、コンピュータに実行させることによっても実施されうる。

【0057】

発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。

【符号の説明】

【0058】

Ａ：サーバ、Ｃ：音声処理装置、Ｄ：ディスプレイ、Ｋ：入力装置、１０１：ＣＰＵ、１１２：ＤＡＷ、１１４：ラウドネステーブル、１１５：ミドルウェア

【要約】

【課題】複数の音声ファイルに対する自動音量調整のために有利な技術を提供する。
【解決手段】音声処理装置は、音声の加工を行うためのソフトウェアであるミドルウェアと、音声の加工を行うための、前記ミドルウェアとは異なるソフトウェアであるデジタルオーディオワークステーション（ＤＡＷ）とを記憶する記憶部と、前記ミドルウェアおよび前記ＤＡＷを実行するプロセッサとを有し、前記プロセッサは、前記ＤＡＷ上で、前記ミドルウェアで設定された音声ファイルに記録された音声がアウトプットに至るまでのパスを示すルーティング情報に基づいて、前記ミドルウェア上での前記音声の音量値の変化量を取得する。
【選択図】図１

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版