IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社AZSTOKEの特許一覧

特許7515220音声処理装置、音声処理方法、およびプログラム
<>
  • 特許-音声処理装置、音声処理方法、およびプログラム 図1
  • 特許-音声処理装置、音声処理方法、およびプログラム 図2
  • 特許-音声処理装置、音声処理方法、およびプログラム 図3
  • 特許-音声処理装置、音声処理方法、およびプログラム 図4
  • 特許-音声処理装置、音声処理方法、およびプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-07-04
(45)【発行日】2024-07-12
(54)【発明の名称】音声処理装置、音声処理方法、およびプログラム
(51)【国際特許分類】
   H04R 3/00 20060101AFI20240705BHJP
   G10L 21/0316 20130101ALI20240705BHJP
   H03G 3/02 20060101ALI20240705BHJP
【FI】
H04R3/00 310
G10L21/0316
H03G3/02 A
【請求項の数】 8
(21)【出願番号】P 2023202150
(22)【出願日】2023-11-29
【審査請求日】2023-11-29
【早期審査対象出願】
(73)【特許権者】
【識別番号】523302533
【氏名又は名称】株式会社AZSTOKE
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】中島 健太郎
【審査官】冨澤 直樹
(56)【参考文献】
【文献】特開2008-181581(JP,A)
【文献】米国特許出願公開第2011/0085676(US,A1)
【文献】特開2014-027648(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00-3/14
G10L 21/0316
H03G 1/00-3/34
H03G 5/00-99/00
H03F 1/00-3/45
H03F 3/50-3/72
G11B 20/10-20/16
G11B 27/00-27/06
H04N 5/50-5/63
H04N 5/91-5/956
(57)【特許請求の範囲】
【請求項1】
音声ファイルを取得する取得手段と、
文字列と音量値との対を1つのレコードとして含む音量テーブルから、前記取得された音声ファイルのファイル名と部分一致する文字列を登録文字列として有するレコードの検索を行う検索手段と、
前記検索により得られたレコードに記述された音量値により前記音声ファイルに記録された音声の音量調整を行う調整手段と、
を有し、
前記ファイル名は、音声の属性を表す文字列からなる部分を含み、前記検索手段は、前記ファイル名の前記部分と一致する文字列を登録文字列として有するレコードの検索を行う、ことを特徴とする音声処理装置。
【請求項2】
前記取得手段により複数の音声ファイルが取得された後、前記複数の音声ファイルのそれぞれに対して、前記検索および前記音量調整を順次に行う、ことを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記調整手段は、前記複数の音声ファイルそれぞれの音声に対して、
ダイナミックレンジ・コンプレッションを行い、
前記検索により得られたレコードに記録された前記音量値に基づいて、前記ダイナミックレンジ・コンプレッションが行われた音声の音量値を調整する、
ことを特徴とする請求項2に記載の音声処理装置。
【請求項4】
前記調整手段による調整前の前記音声の波形と、前記調整手段による調整後の前記音声の波形とをディスプレイに表示させる表示制御部を更に有することを特徴とする請求項3に記載の音声処理装置。
【請求項5】
前記表示制御部は、更に、前記ディスプレイに前記音量テーブルの各レコードを編集可能に表示する、ことを特徴とする請求項4に記載の音声処理装置。
【請求項6】
前記音量値の尺度はラウドネス値である、ことを特徴とする請求項1に記載の音声処理装置。
【請求項7】
取得手段が、音声ファイルを取得するステップと、
検索手段が、文字列と音量値との対を1つのレコードとして含む音量テーブルから、前記取得された音声ファイルのファイル名と部分一致する文字列を登録文字列として有するレコードの検索を行うステップと、
調整手段が、前記検索により得られたレコードに記述された音量値により前記音声ファイルの音声の音量調整を行うステップと、
を有し、
前記ファイル名は、音声の属性を表す文字列からなる部分を含み、前記検索手段は、前記ファイル名の前記部分と一致する文字列を登録文字列として有するレコードの検索を行う、ことを特徴とする音声処理方法。
【請求項8】
コンピュータを、請求項1からのいずれか1項に記載の音声処理装置の各手段として機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置、音声処理方法、およびプログラムに関する。
【背景技術】
【0002】
複数の音声ファイルを扱うアプリケーションにおいては、多くの場合、各ファイルの音量は、それぞれ指定された音量に調整されていることが望ましい。例えば、ゲームにおいて、同じキャラクターの動作音(例えば歩行音)の音量が場面によって大きく異なると、ユーザに違和感を与えうる。そのため、開発者は、ゲームにインストールされる複数の音声ファイルの音量を調整する作業に多大な労力を割いている。
【0003】
従来、複数の音声ファイルに対する音量調整は、例えば次のような手順で行われていた。
(a)納品された複数の音声ファイルが記憶装置に保存される。
(b)基準音声ファイルと複数の音声ファイルのうちから選択された1つの音声ファイルとを聴き比べる。
(c)聴感上の音量が同じになるように音声ファイルの信号レベルを調整する。
(d)複数の音声ファイルのうちの未処理の音声ファイルについて、(b)、(c)を繰り返す。
【0004】
なお、上記工程(c)で行われる信号レベルの調整は、音声データ自体を変更することに限られない。例えば、特許文献1には、自動音量調整要素をオーディオデータと関連付けて記憶しておき、オーディオデータの再生時にその自動音量調整要素を用いて音量を調整することが記載されている。特許文献2には、音楽ファイルのファイル名に再生音量に関する再生制御識別子を付加し、音楽ファイルの再生時にその再生制御識別子を用いて音量を調整することが記載されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2003-243952号公報
【文献】特開2011-197664号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、例えばゲームで使用される音声ファイルの数は数万以上に及ぶ場合がある。そのような数の音声ファイルの音量を逐一調整するとなると、作業工数は膨大なものとなる。そのため、複数の音声ファイルに対する音量調整作業にかかる労力の軽減が望まれている。
【課題を解決するための手段】
【0007】
本発明の一側面によれば、音声ファイルを取得する取得手段と、文字列と音量値との対を1つのレコードとして含む音量テーブルから、前記取得された音声ファイルのファイル名と部分一致する文字列を登録文字列として有するレコードの検索を行う検索手段と、前記検索により得られたレコードに記述された音量値により前記音声ファイルに記録された音声の音量調整を行う調整手段と、を有することを特徴とする音声処理装置が提供される。
【発明の効果】
【0008】
本発明によれば、複数の音声ファイルに対する音量調整作業にかかる労力の軽減に有利な技術を提供することができる。
【図面の簡単な説明】
【0009】
図1】実施形態に係る音声処理装置の構成を示すブロック図。
図2】ラウドネステーブルの構造例を示す図。
図3】設定画面を例示する図。
図4】音声処理方法のフローチャート。
図5】音声の波形の表示例を示す図。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴は任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
【0011】
図1には、実施形態に係る音声処理装置Cの構成を示すブロック図が示されている。音声処理装置Cは、ファイルに記録された音声信号を表示し、音声信号に対して信号レベルの調整等の各種処理を行う装置である。本明細書において、「音声」という用語は広義に理解されるべきである。「音声」は、人や動物が発した声のみならず、楽音、コンピュータ生成された効果音等をも含みうるものとする。すなわち、本明細書において、「音声」という用語は、「スピーチ」、「サウンド」、「オーディオ(音響)」を含むことを意図している。
【0012】
音声処理装置Cは、パーソナルコンピュータやワークステーション等のコンピュータ装置でありうる。音声処理装置Cは、装置全体の制御を司るCPU(中央処理装置)101、主記憶装置として機能すると共にCPU101のワークエリアを提供するRAM102、固定的なデータ及びプログラムを記憶するROM103を備える。また、音声処理装置Cは、オーディオインタフェース(I/F)104を備える。オーディオインタフェース104には、マイクロホンM、スピーカSが接続されうる。音声処理装置Cには、インタフェース(I/F)105を介して記憶装置(二次記憶装置)110(記憶部)が接続される。記憶装置110は、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、またはそれらの組み合わせでありうる。なお、記憶装置110は、音声処理装置Cの内部に構成されてもよいし、外部に構成されてもよい。ネットワークインタフェース106は、ネットワークNと接続して通信を行う。音声処理装置Cは、例えば、ネットワークNを介して、サーバAと通信可能に接続されうる。
【0013】
音声処理装置Cには、インタフェース107を介して、キーボード、マウス等の入力装置Kが接続されうる。また、音声処理装置Cには、インタフェース108を介して、CD-ROMドライブ、DVDドライブ等の外部メディア装置Fが接続されうる。さらに、音声処理装置Cは、ビデオコントローラ109を備える。ビデオコントローラ109は、表示装置(ディスプレイ)Dによる画像表示を制御する。入力装置KとディスプレイDとが一体化されたタッチパネル画面が構成されてもよい。
【0014】
音声処理装置Cを起動するためのブートプログラムはROM103に記憶されている。また、図1に示すように、記憶装置110には、オペレーティングシステム(OS)111をはじめ、オーディオ信号処理を行うための信号処理プログラム112、1つ以上の音声ファイル113がインストールされうる。音声ファイル113は、ネットワークNを介してサーバA等の外部装置から供給されてもよいし、外部メディア装置Fに収容されたメディアから供給されてもよい。あるいは、音声ファイル113は、マイクロホンMにより収音された音響から作成されたものであってもよい。また、記憶装置110には、後述するラウドネステーブル114も記憶される。
【0015】
音声ファイル113は、音声コンテンツが記録された音声ファイルである。一例において、音声ファイル113のファイル形式は、パーソナルコンピュータにおいて一般的に利用されるWAVEファイル形式でありうる。WAVEファイルは、ヘッダと、オーディオ信号のデータとを含みうる。ヘッダは、モノラル/ステレオの種別、サンプリング周波数、量子化ビット数等の情報を含みうる。なお、音声ファイル113のファイル形式はWAVEファイル形式に限定されない。音声ファイル113のファイル形式は、WAVEファイル形式以外の形式、例えば、AIFF、MP3、AAC等の形式であってもよい。
【0016】
本実施形態における音声処理装置Cの構成は概ね以上のとおりである。一例として、この音声処理装置Cがゲーム開発に使用されることを考える。ゲームに実装される音声ファイルの数は数万以上に及ぶ場合がある。納品された初期の複数の音声ファイルの音量にはばらつきがあるため、音声ファイルごとの音量調整(信号レベルの調整))を行う必要がある。しかし、そのような数の音声ファイルの音量を逐一調整するとなると、作業工数は膨大なものとなる。
【0017】
ゲームに使用される音声には、キャラクターのセリフ音声、状況説明(成功、失敗など)音声、効果音、足音、爆破音、環境音、BGM等、多種多様な音声が含まれうる。本発明者は、そのような音声の内容と適切な音量値との間には関連があることに着目した。本実施形態では、音声ファイルの音声の内容に応じて音量値を決定する。
【0018】
ゲーム開発の分野においては、一般には、各音声ファイルは、音声の属性がある程度分かるように命名される。「属性」とは、例えば、キャラクター名、シーン名、動作名、セリフの内容等、音声の内容を特定しうるものをいう。ファイル名は、例えば、「キャラクター名+動作名」のように、複数の属性情報を含んでいてもよい。ゲーム開発においては、音声ファイルの命名規則が定められ、開発途中でそれが大幅に変更されることがないようにされるのが通常である。したがって、音声ファイルのファイル名から音声の内容を特定し、特定された音声の内容に応じて音量値を決定することが可能である。
【0019】
本実施形態では、各音声ファイルに記録された音声の音量調整を行うに際し、目標音量値が記述された音量テーブルが参照される。ここで、音量値について説明する。本実施形態では、音量値の尺度(指標)として、人間の聴覚特性が考慮されたラウドネス値が使用される。ラウドネス値は、例えばLUFS(Loudness Units Full Scale)またはLKFS(Loudness K-Weighted Full Scale)の単位で表される。したがって、本実施形態では、各音声ファイルに記録された音声のラウドネス調整を行うに際し、ターゲットラウドネス値が記述されたラウドネステーブル114が音量テーブルとして参照される。ラウドネステーブル114は、音声ファイルのファイル名の一部となりうる文字列と音量値であるラウドネス値(ターゲットラウドネス値)との対応関係が記述されたルックアップテーブルである。ラウドネステーブルは、「ラウドネスリスト」とよばれてもよい。図2には、ラウドネステーブル114の構造例が示されている。ラウドネステーブル114は、文字列(登録文字列)とラウドネス値(ターゲットラウドネス値)との対を1つのレコードとして含む。各レコードに記述された登録文字列は、音声ファイルのファイル名の一部となりうる文字列である。なお、本発明は、音量値の尺度にラウドネス値を用いることに限定されるものではない。音量値の尺度にはラウドネス値以外の尺度(例えば、RMS)が用いられてもよい。
【0020】
図3には、ディスプレイDに表示される設定画面30の例が示されている。表示制御部としてのCPU101は、ディスプレイD上の設定画面30にラウドネステーブルの各レコードを編集可能に表示する。ユーザは、この設定画面30を介してラウドネステーブル114にレコードを追加登録することが可能である。ラウドネステーブル114に登録されているレコードの数は、レコード数表示窓31に表示される。追加ボタン32が押下(マウスによるクリック、タッチパネルを介したタップ操作)されたことに応じて、レコードを追加することができる。リスト35には、登録された各レコードの内容が表示される。リスト35における各レコードは、「検索」および「値」の欄を有する。「検索」欄には、検索されるべき登録文字列が、「値」欄には、登録文字列に対応するラウドネス値が表示される。全てのレコードがリスト35の表示領域に表示しきれない場合には、スクロールバー36を使用してスクロールさせることができる。
【0021】
ユーザは、ラウドネス設定欄33に、ラウドネス測定方法を指定することができる。ラウドネス測定方法としては、例えば、MaxMomentary、MaxShort-Term、Integratedがある。ラウドネス設定欄33では、これらのうちのいずれかを選択することができる。MaxMomentaryとは、音声波形の時間軸上を所定時間スライドさせて得られる複数の測定窓(400msec長)のそれぞれでラウドネス計算を行い、そのうちの最大値をラウドネス値として採用するものをいう。MaxShort-Termとは、時間軸上を所定時間スライドさせて得られる複数の測定窓(3sec長)のそれぞれでラウドネス計算を行い、そのうちの最大値をラウドネス値として採用するものをいう。Integratedとは、音源全体(1つの音声ファイルの音声全体)のラウドネスを計測するものをいう。図3の例では、MaxMomentaryが選択されている。さらに、上記した特定の測定窓長ではなく、任意の測定窓長さを指定できるようになっていてもよい。
【0022】
音声ファイルの音声に対してラウドネス調整が行われる前に、オプションとして、ダイナミックレンジ・コンプレッションが行われてもよい。音声ファイル間の再生音量のばらつきが大きい場合がある。そのまま音源の音量を調整しない場合には、ある音声の再生音量が小さすぎあるいは大きすぎとなり聞きにくい状況となりうる。そのため、各音源の信号レベルを揃える必要がある。ダイナミックレンジ・コンプレッションは、そのような音声間の信号レベルを一定に揃えるために実施される。ダイナミックレンジ・コンプレッションは、一般に、信号レベルのピークを含む部分を抑圧し、信号レベルの低い部分を増大させる処理を含む。ただし、信号レベルを単に一定にすればよいわけではない。人の発話音の場合、ある程度抑揚がないと圧縮された感じが強くなる。そのため、ダイナミックレンジ・コンプレッションでは、圧縮対象を定めるための信号レベルのスレッショルドが適切に設定される必要がある。
【0023】
ダイナミックレンジ・コンプレッションは、エンベロープ上に配置された複数の調整ポイントのうちの任意の調整ポイントを動かすことにより、ユーザが手動で行うこともできる(手動コンプ)。しかし、手動コンプを全ての音声に対して行うのには多大な労力を要する。そこで、音声ファイルの全体に対してダイナミックレンジ・コンプレッションを自動で行うことも可能である。ダイナミックレンジ・コンプレッションを自動で行うことを、ここでは「自動コンプ」と称する。
【0024】
自動コンプは、例えば次のような処理を含みうる。対象の音声ファイルの音声信号は複数のフレームで構成されている。まず、音声信号のエンベロープを取得する。次に、フレーム毎のエンベロープのピーク値を検出し、検出されたフレーム毎のピーク値の平均値(第1平均値)を算出する。次に、第1平均値よりも高いピーク値を検出し、それらの平均値(第2平均値)を算出する。そして、第2平均値よりも高いピーク値のうちの少なくとも一部が抑制されるようにエンベロープを調整する。例えば、第2平均値より高いピーク値を更に検出し、それらの平均値(第3平均値)を算出する。更に、第3平均値より高いピーク値を検出し、それらが第3平均値に近づくように調整する。なお、このような自動コンプの処理方法は一例にすぎず、他の処理方法によって実現されてもよい。
【0025】
本実施形態では、ユーザは、記憶装置110の作業用フォルダに格納された全ての音声ファイルに対して自動コンプを適用するかしないかを指定することができる。設定画面30には、自動コンプの実行を指示する自動コンプ設定欄34が設けられている。自動コンプ設定欄34には例えばラジオボタンまたはチェックボックスが用意されていて、そこを選択状態(ON)にすることで自動コンプの実行が指定される。図3の例では自動コンプ設定欄34がラジオボタンによりONにされている。この場合、音声ファイルの音声のダイナミックレンジ・コンプレッションが実行された後に、ラウドネス調整が行われる。
【0026】
設定画面30は、更に、記憶装置110の作業用フォルダに格納された、ラウドネス調整の対象とされる1つ以上の音声ファイルのファイル名を表示するファイル名表示欄37も有する。
【0027】
図4には、音声処理装置Cにおける音声処理方法のフローチャートが示されている。このフローチャートに対応するプログラムは信号処理プログラム112に含まれ、CPU101によって実行される。
【0028】
ステップS11で、CPU101は、1つ以上の音声ファイル113を取得し、記憶装置110の所定の作業用フォルダに格納する。一例において、音声ファイル113は、サーバA等の外部装置からネットワークNを介して取得されうる。あるいは、音声ファイル113は、外部メディア装置Fに収容されたメディアから取得されてもよい。あるいは、音声ファイル113は、マイクロホンMにより収音された音響から作成されることによって取得されてもよい。
【0029】
ステップS12で、CPU101は、記憶装置110の作業用フォルダに格納された1つ以上の音声ファイル113から処理対象とする1つの音声ファイル(対象音声ファイル)を取得し、RAM102にロードする。ステップS13で、CPU101は、対象音声ファイルに対して自動コンプを実行する。ただし、このステップS13は、図3に示した設定画面30における自動コンプ設定欄34が選択状態されている場合のオプションである。自動コンプ設定欄34が選択状態されていない場合には、ステップS13はスキップされる。
【0030】
ステップS14で、CPU101は、対象音声ファイルのファイル名と部分一致する文字列を登録文字列として有するレコードをラウドネステーブル114から検索する。
【0031】
ステップS15で、CPU101は、ステップS15での検索により得られたレコードに記述されたラウドネス値(ターゲットラウドネス値)により対象音声ファイルに記録された音声のラウドネス調整を行う。ラウドネス調整は、例えば、ラウドネス設定欄33で指定されたラウドネス測定方法に従い対象音声ファイルの音声(ステップS13が実行された場合は、自動コンプが実行された後の対象音声ファイルの音声)のラウドネス値を測定し、その測定結果に基づいて、ラウドネス値がターゲットラウドネス値になるように音声のゲイン値を調整することにより行われる。
【0032】
ステップS16で、表示制御部としてのCPU101は、ステップS12で取得された音声ファイルの音声またはステップS13で自動コンプがかけられた音声の波形である第1波形(ラウドネス調整前の波形)と、ラウドネス調整後の音声の波形である第2波形とを、ディスプレイDの表示領域に表示させる。波形表示例については後述する。
【0033】
ステップS17で、CPU101は、記憶装置110の作業用フォルダに格納されている未処理の音声ファイルがあるかを判定する。未処理のファイルがない場合、処理は終了となる。未処理の音声ファイルがある場合、ステップS12に戻り、次の音声ファイルについて処理が繰り返される。したがって、本実施形態によれば、ステップS11で複数の音声ファイルが取得され記憶装置110の作業用フォルダに格納された場合、複数の音声ファイルのそれぞれに対して、ステップS14の検索およびステップS15のラウドネス調整が順次に行われる。
【0034】
図5には、ステップS16の波形表示の例が示されている。ここでは、3つの音声ファイルが処理された場合の波形表示の例を示す。表示される波形は時間領域波形である。したがって、波形の横軸は時間軸であり、縦軸は信号レベルを示している。図5において、表示領域の上段には、第1音声ファイルの音声の自動コンプ後(ラウドネス調整前)の波形W11と、第2音声ファイルの音声の自動コンプ後(ラウドネス調整前)の波形W12と、第3音声ファイルの音声の自動コンプ後(ラウドネス調整前)の波形W13が、時間軸方向に沿って並べて配置される。波形W11、W12、W13のそれぞれには、信号レベルを調整するために自動コンプにおいて得られたエンベロープ上に離散的に配置された複数の調整ポイントPが表示されていてもよい。ユーザは、手動で、例えば、任意の調整ポイントをマウスでドラッグすることにより、当該位置の信号レベルを調整することができる。
【0035】
図5において、表示領域の下段には、第1音声ファイルの音声のラウドネス調整後の波形W21と、第2音声ファイルの音声のラウドネス調整後の波形W22と、第3音声ファイルの音声のラウドネス調整後の波形W23が、時間軸方向に沿って並べて配置されている。それぞれのラウドネス調整後の波形は、ステップS15でラウドネス調整が行われた音声を新たにファイルに書き出すことによって得られる。なお、上述した波形の表示態様は一例にすぎないものであって、その他の表示態様が採用されてもよい。
【0036】
(その他の例)
図2に示されるように、ラウドネステーブル114における複数のレコードは、登録文字列の接頭辞の共通性によりグループ分けされている。接頭辞は、命名規則によって定められた、音声の属性を表す文字列でありうる。その場合、接頭辞が共通するということは、音声の属性が共通するということである。例えば、接頭辞「vo」は、キャラクターのボイスを表し、接頭辞「atk」は、攻撃(アタック)時の掛け声を表す、等である。図2の例では、複数のレコードは、「vo_」を接頭辞とするグループ1、「vo_atk」を接頭辞とするグループ2、「vo_dmg」を接頭辞とするグループ3、「vo_move」を接頭辞とするグループ4、「vo_cmm」を接頭辞とするグループ5に分類されている。
【0037】
ステップS14では、CPU101は、対象音声ファイルのファイル名と部分一致する接頭辞をラウドネステーブル114から検索してグループを特定し、特定されたグループの中から、ファイル名と部分一致する登録文字列を検索する。図2の例では、各グループは、接頭辞のみからなる文字列とラウドネス値との対が記述された代表レコードを含む。代表レコードは各グループの先頭行に存在している。
【0038】
ステップS14において、検索の結果、特定されたグループの中から代表レコード以外にファイル名と部分一致する登録文字列が見つからなかった場合、ステップS15では、当該代表レコードに記述されたラウドネス値によりラウドネス調整を行う。以下、具体例を説明する。ステップS14において、最初に対象音声ファイルのファイル名と部分一致する接頭辞を、各グループの先頭行に存在する代表レコードから検索する。例えば、接頭辞「vo_atk」が対象音声ファイルのファイル名と部分一致したとする。この場合、検索対象のグループをグループ2に限定する。そして、グループ2の中から、ファイル名と部分一致する登録文字列を検索する。グループ2には、代表レコード以外に、「vo_atk_charge」、「vo_atk_s」等を登録文字列とするレコードが含まれるが、このグループ2の中から代表レコード以外にファイル名と部分一致する登録文字列が見つからなかった場合、ステップS15では、代表レコード(登録文字列「vo_atk」)に対応するラウドネス値「-21」によりラウドネス調整を行う。
【0039】
以上の処理によれば、ラウドネステーブルの検索範囲を限定することができるため、検索速度が向上する。
【0040】
なお、図2の例では、「vo_」を接頭辞とするグループ1は、「vo_」とそれに続く他の文字列を接頭辞とするその他のグループの上位レイヤとしての位置づけである。対象音声ファイルのファイル名と部分一致する接頭辞が「vo_」のみである場合、ラウドネス値はグループ1の「vo_」に対応する「-23」となる。
【0041】
以上説明した実施形態によれば、文字列と音量値(ラウドネス値)との対を1つのレコードとして含む音量テーブル(ラウドネステーブル)から、音声ファイルのファイル名と部分一致する文字列を登録文字列として有するレコードの検索が行われる。そして、検索により得られたレコードに記述された音量値により音声ファイルに記録された音声の音量調整が行われる。音量テーブルが事前に作成されていれば、音量調整のための設定を別途行う必要がない。また、複数の音声ファイルを処理する場合、各音声ファイルに対して上記検索および音量調整が順次に行われる。このように複数の音声ファイルに対して自動的に音量調整が行われる。また、音量テーブルに含まれるレコードの数は複数の音声ファイルの数よりも大幅に少なく済む。よって、本実施形態によれば、複数の音声ファイルのそれぞれの音声を逐一調整していた従来技術と比べて、ユーザの作業工数は大幅に軽減される。
【0042】
なお、ラウドネステーブル114が記憶装置110に記憶されていることは必須ではない。例えば、ネットワークNを介して接続された外部装置(例えば、図1のサーバA)にラウドネステーブル114が記憶されており、音声処理装置CがネットワークNを経由して外部装置に記憶されたラウドネステーブル114を参照するようにしてもよい。
【0043】
本発明は、上述の実施形態で説明した音声処理方法の各ステップを実行させるためのプログラムを、コンピュータに実行させることによっても実施されうる。
【0044】
発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。
【符号の説明】
【0045】
A:サーバ、C:音声処理装置、D:ディスプレイ、K:入力装置、101:CPU、112:信号処理プログラム、114:ラウドネステーブル
【要約】
【課題】複数の音声ファイルに対する音量調整作業にかかる労力の軽減に有利な技術を提供する。
【解決手段】音声処理装置は、音声ファイルを取得する取得手段と、文字列と音量値との対を1つのレコードとして含む音量テーブルから、前記取得された音声ファイルのファイル名と部分一致する文字列を登録文字列として有するレコードの検索を行う検索手段と、前記検索により得られたレコードに記述された音量値により前記音声ファイルに記録された音声の音量調整を行う調整手段とを有する。
【選択図】 図3
図1
図2
図3
図4
図5