IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社AZSTOKEの特許一覧

特許7436082音声処理方法、音声処理装置、およびプログラム
<>
  • 特許-音声処理方法、音声処理装置、およびプログラム 図1
  • 特許-音声処理方法、音声処理装置、およびプログラム 図2
  • 特許-音声処理方法、音声処理装置、およびプログラム 図3
  • 特許-音声処理方法、音声処理装置、およびプログラム 図4
  • 特許-音声処理方法、音声処理装置、およびプログラム 図5
  • 特許-音声処理方法、音声処理装置、およびプログラム 図6
  • 特許-音声処理方法、音声処理装置、およびプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-02-13
(45)【発行日】2024-02-21
(54)【発明の名称】音声処理方法、音声処理装置、およびプログラム
(51)【国際特許分類】
   H04R 3/00 20060101AFI20240214BHJP
   G10L 21/034 20130101ALI20240214BHJP
【FI】
H04R3/00
G10L21/034
【請求項の数】 14
(21)【出願番号】P 2023179015
(22)【出願日】2023-10-17
【審査請求日】2023-10-17
【早期審査対象出願】
(73)【特許権者】
【識別番号】523302533
【氏名又は名称】株式会社AZSTOKE
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】中島 健太郎
【審査官】冨澤 直樹
(56)【参考文献】
【文献】国際公開第2022/030259(WO,A1)
【文献】特開2020-067531(JP,A)
【文献】特開2013-235632(JP,A)
【文献】特開平10-254493(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00-3/12
G10K 15/02-15/04
G10L 19/00-99/00
G10H 1/00-7/12
(57)【特許請求の範囲】
【請求項1】
第1フォルダのフォルダパスである第1フォルダパスと、前記第1フォルダとは異なる第2フォルダのフォルダパスである第2フォルダパスとを取得する取得ステップと、
前記第1フォルダパスによって特定される前記第1フォルダに格納された第1音声ファイルに対応する第2音声ファイルを、前記第2フォルダパスによって特定される前記第2フォルダからファイル名に基づいて検索する検索ステップと、
前記第1音声ファイルの音声の波形である第1波形と、前記第2音声ファイルの音声の波形である第2波形とを、ディスプレイの表示領域に表示させる表示制御ステップと、
前記第2音声ファイルの音声の音量が前記第1音声ファイルの音声の音量に近づくように前記第2音声ファイルの音声を処理する処理ステップと、
を有し、
前記表示領域は、第1表示領域と、時間軸と平行な第1方向と直交する第2方向に前記第1表示領域と並列に配置された第2表示領域とを含み、
前記表示制御ステップは、
前記第1波形を前記第1表示領域内に表示させる第1ステップと、
前記第2波形を、前記第1方向に関して前記第1波形と重ならないように前記第2表示領域内に表示させる第2ステップと、
を含む、ことを特徴とする音声処理方法。
【請求項2】
前記第2ステップは、前記第2波形を、前記第1波形の終端から所定の時間インターバルを設けて前記第2表示領域内に表示させるステップを含む、ことを特徴とする請求項1に記載の音声処理方法。
【請求項3】
前記所定の時間インターバルを、ユーザにより指定された時間に設定する設定ステップを更に有する、ことを特徴とする請求項2に記載の音声処理方法。
【請求項4】
前記音量の尺度はラウドネス値である、ことを特徴とする請求項1に記載の音声処理方法。
【請求項5】
前記処理ステップは、
前記第2音声ファイルの音声のダイナミックレンジ・コンプレッションを行うステップと、
前記第1音声ファイルの音声のラウドネス値に基づいて、前記ダイナミックレンジ・コンプレッションが行われた前記第2音声ファイルの音声のラウドネス値を調整するステップと、
を含む、ことを特徴とする請求項4に記載の音声処理方法。
【請求項6】
前記第2表示領域内の前記第2波形の表示を、前記処理ステップで処理された前記第2音声ファイルの音声の波形によって更新するステップを更に有することを特徴とする請求項1に記載の音声処理方法。
【請求項7】
前記第1音声ファイルは、第1言語の音声が記録された音声ファイルであり、
前記第2音声ファイルは、前記第1言語とは異なる第2言語の音声が記録された音声ファイルであり、
前記第2言語の音声は、前記第1言語の音声に対する吹き替え音声である、
ことを特徴とする請求項1に記載の音声処理方法。
【請求項8】
前記第1フォルダに複数の第1音声ファイルが格納されている場合、前記複数の第1音声ファイルのそれぞれに対して、前記検索ステップおよび前記表示制御ステップが繰り返し実行され、
前記繰り返し実行された表示制御ステップにより、第1波形と第2波形が時間軸に沿って交互に並ぶように、複数の第1波形および複数の第2波形がそれぞれ前記第1表示領域内および前記第2表示領域内に表示される、
ことを特徴とする請求項1に記載の音声処理方法。
【請求項9】
前記検索ステップおよび前記表示制御ステップが繰り返し実行された後、前記複数の第1音声ファイルに対応する複数の第2音声ファイルに対して前記処理ステップが実行される、ことを特徴とする請求項8に記載の音声処理方法。
【請求項10】
前記処理ステップは、
前記複数の第2音声ファイルの音声のダイナミックレンジ・コンプレッションを行うステップと、
前記複数の第1音声ファイルの音声のラウドネス値に基づいて、前記ダイナミックレンジ・コンプレッションが行われた前記複数の第2音声ファイルの音声のラウドネス値を調整するステップと、
を含む、ことを特徴とする請求項9に記載の音声処理方法。
【請求項11】
前記表示領域は、前記第2方向に前記第1表示領域および前記第2表示領域と並列に配置された第3表示領域を更に含み、
前記表示制御ステップは、前記ダイナミックレンジ・コンプレッションおよび前記ラウドネス値の調整が行われた結果が反映された音声の波形である第3波形を、前記第1方向に関して前記第2波形と重なるように前記第3表示領域内に表示させる第3ステップを更に含む、
ことを特徴とする請求項10に記載の音声処理方法。
【請求項12】
前記第3表示領域内の前記第3波形の表示を、更にラウドネス値の調整が行われた前記複数の第2音声ファイルの音声の波形によって更新するステップを更に有することを特徴とする請求項11に記載の音声処理方法。
【請求項13】
第1フォルダのフォルダパスである第1フォルダパスと、前記第1フォルダとは異なる第2フォルダのフォルダパスである第2フォルダパスとを取得する取得手段と、
前記第1フォルダパスによって特定される前記第1フォルダに格納された第1音声ファイルに対応する第2音声ファイルを、前記第2フォルダパスによって特定される前記第2フォルダからファイル名に基づいて検索する検索手段と、
前記第1音声ファイルの音声の波形である第1波形と、前記第2音声ファイルの音声の波形である第2波形とを、ディスプレイの表示領域に表示させる表示制御手段と、
前記第2音声ファイルの音声の音量が前記第1音声ファイルの音声の音量に近づくように前記第2音声ファイルの音声を処理する処理手段と、
を有し、
前記表示領域は、第1表示領域と、時間軸と平行な第1方向と直交する第2方向に前記第1表示領域と並列に配置された第2表示領域とを含み、
前記表示制御手段は、前記第1波形を前記第1表示領域内に表示させ、前記第2波形を、前記第1方向に関して前記第1波形と重ならないように前記第2表示領域内に表示させるように、前記ディスプレイへの波形表示を制御する、
ことを特徴とする音声処理装置。
【請求項14】
コンピュータに、請求項1から12のいずれか1項に記載の音声処理方法における各ステップを実行させる、ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理方法、音声処理装置、およびプログラムに関する。
【背景技術】
【0002】
音声を提供する設備、サービスにおいては、多言語に対応することが求められる場合がある(例えば、特許文献1参照)。また、各種音声が再生されるサービスにおいて各音声素材の再生音量にばらつきがあると聴取者が聞きづらい等の状況が生じうる。そのため、各音声素材の再生音量を一定に揃えることが必要とされる。音量感のばらつきを小さくするための尺度として、ラウドネス値が用いられる(例えば特許文献2参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2018-060043号公報
【文献】特開2022-042892号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば、ゲーム開発の分野において、あるゲームを多言語化する場合、言語ごとに音量が大きく異ならないように信号レベルの調整を行う必要がある。ゲームでは多数の音声コンテンツがインストールされるため、各音声コンテンツについて言語間で音量が異ならないように調整する作業には多大な労力を要していた。
【0005】
本発明は、音声コンテンツの多言語化にかかる労力を軽減するために有利な技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一側面によれば、第1フォルダのフォルダパスである第1フォルダパスと、前記第1フォルダとは異なる第2フォルダのフォルダパスである第2フォルダパスとを取得する取得ステップと、前記第1フォルダパスによって特定される前記第1フォルダに格納された第1音声ファイルに対応する第2音声ファイルを、前記第2フォルダパスによって特定される前記第2フォルダからファイル名に基づいて検索する検索ステップと、前記第1音声ファイルの音声の波形である第1波形と、前記第2音声ファイルの音声の波形である第2波形とを、ディスプレイの表示領域に表示させる表示制御ステップと、前記第2音声ファイルの音声の音量が前記第1音声ファイルの音声の音量に近づくように前記第2音声ファイルの音声を処理する処理ステップと、を有し、前記表示領域は、第1表示領域と、時間軸と平行な第1方向と直交する第2方向に前記第1表示領域と並列に配置された第2表示領域とを含み、前記表示制御ステップは、前記第1波形を前記第1表示領域内に表示させる第1ステップと、前記第2波形を、前記第1方向に関して前記第1波形と重ならないように前記第2表示領域内に表示させる第2ステップと、を含む、ことを特徴とする音声処理方法が提供される。
【発明の効果】
【0007】
本発明によれば、音声コンテンツの多言語化にかかる労力を軽減するために有利な技術を提供することができる。
【図面の簡単な説明】
【0008】
図1】実施形態に係る音声処理装置の構成を示すブロック図。
図2】音声処理方法のフローチャート。
図3】音声処理方法のフローチャート。
図4】設定画面を例示する図。
図5】音声の波形の表示例を示す図。
図6】音声の波形の表示例を示す図。
図7】音声の波形の表示例を示す図。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴は任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
【0010】
図1には、実施形態に係る音声処理装置Cの構成を示すブロック図が示されている。音声処理装置Cは、ファイルに記録された音声信号を表示し、音声信号に対して信号レベルの調整等の各種処理を行う装置である。
【0011】
音声処理装置Cは、パーソナルコンピュータやワークステーション等のコンピュータ装置でありうる。音声処理装置Cは、装置全体の制御を司るCPU(中央処理装置)101、主記憶装置として機能すると共にCPU101のワークエリアを提供するRAM102、固定的なデータ及びプログラムを記憶するROM103を備える。また、音声処理装置Cは、オーディオインタフェース(I/F)104を備える。オーディオインタフェース104には、マイクロホンM、スピーカSが接続されうる。音声処理装置Cには、インタフェース(I/F)105を介して外部記憶装置110が接続される。外部記憶装置110は、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、またはそれらの組み合わせでありうる。なお、外部記憶装置110は、二次記憶装置として音声処理装置Cの内部に構成されてもよい。ネットワークインタフェース106は、ネットワークNと接続して通信を行う。音声処理装置Cは、例えば、ネットワークNを介して、サーバAと通信可能に接続されうる。
【0012】
音声処理装置Cには、インタフェース107を介して、キーボード、マウス等の入力装置が接続されうる。また、音声処理装置Cには、インタフェース108を介して、CD-ROMドライブ、DVDドライブ等の外部メディア装置Fが接続されうる。さらに、音声処理装置Cは、ビデオコントローラ109を備える。ビデオコントローラ109は、表示装置(ディスプレイ)Dによる画像表示を制御する。
【0013】
音声処理装置Cを起動するためのブートプログラムはROM103に記憶されている。また、図1に示すように、外部記憶装置110には、オペレーティングシステム(OS)111をはじめ、オーディオ信号処理を行うための信号処理プログラム112、1つ以上の音声ファイル113がインストールされうる。音声ファイル113は、ネットワークNを介してサーバA等の外部装置から供給されてもよいし、外部メディア装置Fに収容されたメディアから供給されてもよい。あるいは、音声ファイル113は、マイクロホンMにより収音された音響から作成されたものであってもよい。
【0014】
音声ファイル113は、音声コンテンツが記録された音声ファイルである。一例において、音声ファイル113のファイル形式は、パーソナルコンピュータにおいて一般的に利用されるWAVEファイル形式でありうる。WAVEファイルは、ヘッダと、オーディオ信号のデータとを含みうる。ヘッダは、モノラル/ステレオの種別、サンプリング周波数、量子化ビット数等の情報を含みうる。なお、音声ファイル113のファイル形式はWAVEファイル形式に限定されない。音声ファイル113のファイル形式は、WAVEファイル形式以外の形式、例えば、AIFF、MP3、AAC等の形式であってもよい。
【0015】
例えば、ゲーム開発の分野において、あるゲームを多言語化する場合、言語ごとに音量が大きく異ならないように信号レベルの調整を行う必要がある。本実施形態は、各音声コンテンツについて言語間で音量が異ならないように調整する作業を容易にするものである。本実施形態では、第1言語の音声が記録された音声ファイルに対応する第2言語の音声が記録された音声ファイルを自動的に検索し、両音声ファイルの音声の波形をディスプレイDの表示領域に表示し、音声処理を実行する。第2言語は第1言語とは異なる言語である。第1言語は例えば日本語であり、第2言語は例えば英語でありうる。もちろん第1言語および第2言語は特定の言語に限定されるものではなく任意の言語でありうる。第2言語の音声は、第1言語の音声に対する吹き替え音声である。
【0016】
図2には、音声処理装置Cにおける音声処理方法のフローチャートが示されている。このフローチャートに対応するプログラムは信号処理プログラム112に含まれ、CPU101によって実行される。
【0017】
ステップS11で、CPU101は、第1言語の音声が記録された1つ以上の音声ファイル(第1音声ファイル)が格納されている第1フォルダのフォルダパス(第1フォルダパス)を取得する。「フォルダパス」とは、ファイルシステム上の特定のフォルダ(ディレクトリ)の所在を示す情報をいう。第1フォルダパスは、図4に示されるような、ディスプレイDに表示される設定画面40を介してユーザにより指定される。ユーザは、設定画面40における第1言語フォルダパス指定欄41に対して第1フォルダパスを指定することができる。一例において、ユーザが第1言語フォルダパス指定欄41をマウスクリックすると、フォルダ選択用ダイアログが表示される。ユーザは、そのダイアログを介して第1フォルダパスを指定することができる。
【0018】
ステップS12で、CPU101は、第2言語の音声が記録された1つ以上の音声ファイル(第2音声ファイル)が格納されている第2フォルダのフォルダパス(第2フォルダパス)を取得する。第2フォルダパスは、第1フォルダパスの指定と同様、設定画面40を介してユーザにより指定される。ユーザは、設定画面40における第2言語フォルダパス指定欄42に対して第2フォルダパスを指定することができる。一例において、ユーザが第2言語フォルダパス指定欄42をマウスクリックすると、フォルダ選択用ダイアログが表示される。ユーザは、そのダイアログを介して第2フォルダパスを指定することができる。
【0019】
ステップS2で、CPU101は、第1フォルダパスによって特定される第1フォルダに格納されている第1音声ファイルに対応する第2音声ファイルを、第2フォルダパスによって特定される第2フォルダから検索する。一例において、検索はファイル名に基づいて行われる。例えば、第1音声ファイルと、当該第1音声ファイルの他言語バージョンである第2音声ファイルとには、同一のファイル名が付与される。この場合、第1フォルダに格納されている第1音声ファイルと同一のファイル名をもつ第2音声ファイルが、第2フォルダから検索されることになる。
【0020】
ステップS3で、CPU101は、第1音声ファイルの音声の波形である第1波形と、検索により得られた第2音声ファイルの音声の波形である第2波形とを、ディスプレイDの表示領域に表示させる表示制御を行う。図5には、第1波形および第2波形の表示例が示されている。表示される波形は時間領域波形である。したがって、波形の横軸は時間軸であり、縦軸は信号レベルを示している。ここで、時間軸と平行な方向を第1方向、第1方向と直交する方向を第2方向とする。ディスプレイDの表示領域Rは、第1表示領域R1と、第2方向に第1表示領域R1と並列に配置された第2表示領域R2とを含む。なお、表示領域R、第1表示領域R1、第2表示領域R2の枠線は、表示されてもよいし、表示されなくてもよい。表示制御手段としてのCPU101は、第1音声ファイルの音声の例えば全区間の波形である第1波形W1を第1表示領域R1内に表示させる(第1ステップ)。また、CPU101は、第2音声ファイルの音声の例えば全区間の波形である第2波形W2を第2表示領域R2内に表示させる(第2ステップ)。このとき、CPU101は、第2波形W2を、第1方向に関して第1波形W1と重ならないように第2表示領域R2内に表示させるように、ディスプレイDへの波形表示を制御する。例えば、第2波形W2は、図5に示すように、第1波形W1の終端から所定の時間インターバルGを設けて第2表示領域R2内に表示される。所定の時間インターバルGは、図4の設定画面40の波形間隔入力欄43においてユーザにより指定された時間に設定されうる(後述する図3のステップS13を参照)。
【0021】
ステップS4では、CPU101は、第2音声ファイルの音声の音量が第1音声ファイルの音量に近づくように第2音声ファイルの音声を処理する(音量調整処理)。第1言語の音声の収録環境と、吹き替え音声である第2言語の音声の収録環境は同じではないことが多い。よって一般には、第1言語の音声が記録された第1音声ファイルと、第1音声ファイルとは異なる環境で第2言語の音声が記録された第2音声ファイルは、別々のメディアで提供される。収録環境の違いは、知覚される再生音量の違いとなって現れる。したがって、第1音声ファイルの音声と第2音声ファイルの音声とを同じボリュームで再生した場合、知覚される再生音量に好ましくないばらつきが生じうる。本実施形態における音量調整処理では、第1言語の音声を主音声、第2言語の音声を副音声とし、副音声の音量レベルを主音声の音量レベルに対して正規化することを考える。
【0022】
本明細書において、「音量」の用語は広義に捉えられるべきである。音量の尺度としては、例えば、RMS(Root Mean Square)が使用されうる。あるいは、音量の尺度(指標)としては、人間の聴覚特性が考慮されたラウドネスが使用されうる。ラウドネス値は、例えばLUFS(Loudness Units Full Scale)またはLKFS(Loudness K-Weighted Full Scale)の単位で表される。本実施形態では、音量の尺度としてラウドネスが採用されることが想定されている。例えばゲーム開発の分野においては、音声コンテンツの音量がラウドネス規格等で定義されたLUFSレベル内に収まるように指定されている。ここでは、第1音声ファイルの音声の音量はそのような指定に従って調整がされているものとする。
【0023】
なお、図4の設定画面40では、ユーザは、ラウドネス設定欄45に、ラウドネスの測定方法を指定することができる。ラウドネスの測定方法として、例えば、MaxMomentary、MaxShort-Term、Integratedのうちのいずれかを選択することができる。MaxMomentaryとは、時間軸上を所定時間スライドさせて得られる複数の測定窓(400msec長)のそれぞれでラウドネス計算を行い、そのうちの最大値をラウドネス値として採用するものをいう。MaxShort-Termとは、時間軸上を所定時間スライドさせて得られる複数の測定窓(3sec長)のそれぞれでラウドネス計算を行い、そのうちの最大値をラウドネス値として採用するものをいう。Integratedとは、音源全体のラウドネスを計測するものをいう。図4の例では、MaxMomentaryが選択されている。さらに、上記した特定の測定窓長ではなく、任意の測定窓長さを指定できるようになっていてもよい。また、図4の設定画面40では、ユーザは、ターゲットラウドネス設定欄46に、ラウドネス調整の目標(ターゲット)を指定することができる。その選択肢としては、第1言語音声(第1音声ファイルの音声)、ラウドネス規格で定義されたラウドネス値等がありうる。図4の例では、第1言語音声が指定されている。この場合、音量調整処理(ステップS4)では、副音声である第2言語の音声のラウドネスが、主音声である第1言語の音声のラウドネスを基準に正規化される。なお、ラウドネス測定の詳細は、例えば特開2022-042892号公報(特許文献2)に記載されている。
【0024】
以上の処理によれば、第1言語の音声が記録された第1音声ファイルに対応する、第2言語の音声が記録された第2音声ファイルが自動的に検索され、第1音声ファイルの音声の波形である第1波形と第2音声ファイルの音声の波形である第2波形とが表示領域に並列に表示され、第2音声ファイルの音声のラウドネス値が第1音声ファイルの音声のラウドネス値と同等になるように調整される。
【0025】
第2音声ファイルの音声に対してラウドネス調整が行われる前に、オプションとして、ダイナミック・コンプレッションが行われてもよい。音声ファイル間の再生音量のばらつきが大きい場合がある。そのまま音源の音量を調整しない場合には、ある音声の再生音量が小さすぎあるいは大きすぎとなり聞きにくい状況となりうる。そのため、各音源の信号レベルを揃える必要がある。ダイナミックレンジ・コンプレッションは、そのような音声間の信号レベルを一定に揃えるために実施される。ダイナミックレンジ・コンプレッションは、一般に、信号レベルのピークを含む部分を抑圧し、信号レベルの低い部分を増大させる処理を含む。ただし、信号レベルを単に一定にすればよいわけではない。人の発話音の場合、ある程度抑揚がないと圧縮された感じが強くなる。そのため、ダイナミックレンジ・コンプレッションでは、圧縮対象を定めるための信号レベルのスレッショルドが適切に設定される必要がある。
【0026】
ダイナミックレンジ・コンプレッションは、エンベロープ上に配置された複数の調整ポイントのうちの任意の調整ポイントを動かすことにより、ユーザが手動で行うこともできる(手動コンプ)。しかし、手動コンプを全ての音声に対して行うのには多大な労力を要する。そこで、音声ファイルの全体に対してダイナミックレンジ・コンプレッションを自動で行うことも可能である。ダイナミックレンジ・コンプレッションを自動で行うことを、ここでは「自動コンプ」と称する。
【0027】
自動コンプは、例えば次のような処理を含みうる。対象の音声ファイルの音声信号は複数のフレームで構成されている。まず、音声信号のエンベロープを取得する。次に、フレーム毎のエンベロープのピーク値を検出し、検出されたフレーム毎のピーク値の平均値(第1平均値)を算出する。次に、第1平均値よりも高いピーク値を検出し、それらの平均値(第2平均値)を算出する。そして、第2平均値よりも高いピーク値のうちの少なくとも一部が抑制されるようにエンベロープを調整する。なお、このような自動コンプの処理方法は一例ですぎず、他の処理方法によって実現されてもよい。
【0028】
本実施形態では、ユーザは、第2音声ファイルに対して自動コンプを適用するかしないかを指定することができる。図4の設定画面40には、第2音声ファイルに対する自動コンプの実行を指示する自動コンプ設定欄44が設けられている。自動コンプ設定欄44には例えばチェックボックスが用意されていて、そこにチェックを入れることで自動コンプの実行が指定される。図4の例では自動コンプ設定欄44にチェックが入っている。この場合、ステップS4の音量調整処理では、第2音声ファイルの音声のダイナミックレンジ・コンプレッションが実行され、その後、第1音声ファイルの音声のラウドネス値に基づいて、ダイナミックレンジ・コンプレッションが行われた複数の第2音声ファイルの音声のラウドネス値が調整される。
【0029】
第2表示領域R2内の第2波形W2の表示は、ステップS4で処理された第2音声ファイルの音声の波形によって更新されうる。
【0030】
以上では、本発明の概略理解のために説明を簡単にするべく、1つの第1音声ファイルとそれに対応する1つの第2音声ファイルについて説明した。しかし実際には、第1フォルダには複数の第1音声ファイルが格納され、第2フォルダには複数の第2音声ファイルが格納されうる。以下では、複数の第1音声ファイルおよび複数の第2音声ファイルを自動で処理する音声処理方法について説明する。
【0031】
図3には、音声処理装置Cにおける、複数の音声ファイルを処理する音声処理方法のフローチャートが示されている。このフローチャートに対応するプログラムは信号処理プログラム112に含まれ、CPU101によって実行される。図3では、図2のフローチャートと同じ処理ブロックには同じ参照符号が付されている。それらの処理内容については適宜説明を省略または簡略化する。
【0032】
ステップS11で、CPU101は、第1言語の音声が記録された1つ以上の音声ファイル(第1音声ファイル)が格納されている第1フォルダのフォルダパス(第1フォルダパス)を取得する。第1フォルダパスは、図4に示されるような、ディスプレイDに表示される設定画面40を介してユーザにより指定される。ユーザは、設定画面40における第1言語フォルダパス指定欄41に対して第1フォルダパスを指定することができる。
【0033】
ステップS12で、CPU101は、第2言語の音声が記録された1つ以上の音声ファイル(第2音声ファイル)が格納されている第2フォルダのフォルダパス(第2フォルダパス)を取得する。第2フォルダパスは、第1フォルダパスの指定と同様、設定画面40を介してユーザにより指定される。ユーザは、設定画面40における第2言語フォルダパス指定欄42に対して第2フォルダパスを指定することができる。
【0034】
ステップS13で、CPU101は、図4の設定画面40の波形間隔入力欄43においてユーザにより指定された時間に基づいて、第1波形と第2波形との間の時間インターバル(波形間隔)を取得する。
【0035】
ステップS2で、CPU101は、第1フォルダパスによって特定される第1フォルダに格納されている第1音声ファイルに対応する第2音声ファイルを、第2フォルダパスによって特定される第2フォルダから検索する。図3の例では、ステップS2は、ステップS21~S23の処理を含む。ステップS21では、CPU101は、第1フォルダから複数の第1音声ファイルのうちの1つを取得(選択)する。ステップS22で、CPU101は、取得された第1音声ファイルと同一のファイル名をもつ第2音声ファイルを第2フォルダから検索する。第1音声ファイルと同一のファイル名をもつ第2音声ファイルが第2フォルダに存在する場合、処理はステップS3に進む。第1音声ファイルと同一のファイル名をもつ第2音声ファイルが第2フォルダにない場合、処理はステップS23に進む。
【0036】
ステップS3で、CPU101は、第1音声ファイルの音声の波形である第1波形と、検索により得られた第2音声ファイルの音声の波形である第2波形とを、ディスプレイDの表示領域に表示させる表示制御を行う。表示制御手段としてのCPU101は、図6に示すように、第1音声ファイルの音声の波形である第1波形W11を第1表示領域R1内に表示させる。また、CPU101は、第2音声ファイルの音声の波形である第2波形W21を第2表示領域R2内に表示させる。このとき、第2波形W21は、第1波形W11の終端からS13で取得された波形間隔に従う時間インターバルを設けて第2表示領域R2内に表示される。
【0037】
ステップS23で、CPU101は、第1フォルダ内に他の第1音声ファイルがあるかどうかを判定する。第1フォルダ内に他の第1音声ファイルがある場合、処理はステップS21に戻り、当該他の第1音声ファイルを対象として処理が繰り返される。CPU101は、図6に示すように、第1音声ファイルの音声の波形である第1波形W12を、第1表示領域R1内に表示させる。このとき、第1波形W12は、第2波形W21の終端からS13で取得された波形間隔に従う時間インターバルを設けて第1表示領域R1内に表示される。また、CPU101は、第2音声ファイルの音声の波形である第2波形W22を第2表示領域R2内に表示させる。このとき、第2波形W22は、第1波形W12の終端からS13で取得された波形間隔に従う時間インターバルを設けて第2表示領域R2内に表示される。図6には、第1フォルダ内に第1音声ファイルが3つある場合の表示例が示されている。この場合、第1波形W13は、第2波形W22の終端からS13で取得された波形間隔に従う時間インターバルを設けて第1表示領域R1内に表示される。また、第2波形W23は、第1波形W13の終端からS13で取得された波形間隔に従う時間インターバルを設けて第2表示領域R2内に表示される。
【0038】
ステップS23において、第1フォルダ内の全ての第1音声ファイルに対する検索および表示制御が完了したと判定された場合、処理はステップS4に進む。ステップS4では、CPU101は、表示された各第2音声ファイルの音声に対して音量調整処理を実行する。
【0039】
このように、第1フォルダに複数の第1音声ファイルが格納されている場合、当該複数の第1音声ファイルのそれぞれに対して、検索および表示制御が繰り返し実行される。繰り返し実行された表示制御ステップ(S3)により、第1波形と第2波形が時間軸に沿って交互に並ぶように、複数の第1波形(W11、W12、W13)および複数の第2波形(W21、W22、W23)がそれぞれ第1表示領域R1内および第2表示領域R2内に表示される。
【0040】
これにより、複数の第1音声ファイルに対応する複数の第2音声ファイルが自動的に検索され、それらの音声が並列に表示され、さらにラウドネス調整が行われる。従来、ユーザは、第1音声ファイルに対応する第2音声ファイルをファイルリストから探し出し、見つかった第2音声ファイルを1つずつ手動で指定して表示させる必要があった。そして、ユーザは、表示された第1波形と第2波形とを聴き比べてあるいは見比べて、主観的に音量調整のための操作を行う必要があった。本実施形態によれば、それらが全て自動化されるため、ユーザの作業負担を大幅に軽減することができる。
【0041】
第2音声ファイルの音声に対してラウドネス調整が行われる前に、オプションとして、ダイナミック・コンプレッションが行われてもよい。図4の自動コンプ設定欄44にチェックが入っている場合、ステップS4の音量調整処理では、複数の第2音声ファイルの音声のダイナミックレンジ・コンプレッション(自動コンプ)が実行され、その後、複数の第1音声ファイルの音声のラウドネス値に基づいて、ダイナミックレンジ・コンプレッションが行われた複数の第2音声ファイルの音声のラウドネス値が調整される。
【0042】
図7には、図6の変形例が示されている。図7において、表示領域Rは、第2方向に第1表示領域R1および第2表示領域R2と並列に配置された第3表示領域R3を更に含む。図7に示す例では、第3表示領域R3は、第2表示領域R2の下方に配置されている。CPU101は、複数の第2音声ファイルの音声に対してダイナミックレンジ・コンプレッション(自動コンプ)およびラウドネス値の調整が行われた後に新たに書き出して得られた複数の第3波形W31、W32、W33を、第1方向に関して複数の第2波形W21、W22、W23と重なるように第3表示領域R3内に表示させる(第3ステップ)。また、図7に示すように、複数の第2波形W21、W22、W23のそれぞれには、信号レベルを調整するために自動コンプにおいて得られたエンベロープ上に離散的に配置された複数の調整ポイントPが表示されていてもよい。ユーザは、手動で、例えば、任意の調整ポイントをマウスでドラッグすることにより、当該位置の信号レベルを調整することができる。手動で信号レベルが調整された場合、および/または、ラウドネス調整が再度行われた場合には、その結果が更に反映されるように第3表示領域R3の波形が更新されうる。なお、上述した波形の表示態様は一例にすぎないものであって、その他の表示態様が採用されてもよい。
【0043】
本発明は、上述の実施形態で説明した音声処理方法の各ステップを実行させるためのプログラムを、コンピュータに実行させることによっても実施されうる。
【0044】
発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。
【符号の説明】
【0045】
A:サーバ、C:音声処理装置、D:ディスプレイ、K:入力装置、101:CPU、112:信号処理プログラム
【要約】
【課題】音声コンテンツの多言語化にかかる労力を軽減するために有利な技術を提供する。
【解決手段】音声処理方法は、第1フォルダに格納された第1音声ファイルに対応する第2音声ファイルを、第2フォルダからファイル名に基づいて検索する検索ステップと、前記第1音声ファイルの音声の波形である第1波形と、前記第2音声ファイルの音声の波形である第2波形とを、ディスプレイの表示領域に表示させる表示制御ステップと、前記第2音声ファイルの音声の音量が前記第1音声ファイルの音声の音量に近づくように前記第2音声ファイルの音声を処理する処理ステップとを有する。前記表示領域は、第1表示領域と該第1表示領域と並列に配置された第2表示領域とを含み、前記表示制御ステップは、前記第1波形を前記第1表示領域内に表示させ、前記第2波形を、前記第1方向に関して前記第1波形と重ならないように前記第2表示領域内に表示させる。
【選択図】 図6
図1
図2
図3
図4
図5
図6
図7