特許第6671221号(P6671221)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人NHKエンジニアリングシステムの特許一覧

<>
  • 特許6671221-音声選択装置及びプログラム 図000015
  • 特許6671221-音声選択装置及びプログラム 図000016
  • 特許6671221-音声選択装置及びプログラム 図000017
  • 特許6671221-音声選択装置及びプログラム 図000018
  • 特許6671221-音声選択装置及びプログラム 図000019
  • 特許6671221-音声選択装置及びプログラム 図000020
  • 特許6671221-音声選択装置及びプログラム 図000021
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6671221
(24)【登録日】2020年3月5日
(45)【発行日】2020年3月25日
(54)【発明の名称】音声選択装置及びプログラム
(51)【国際特許分類】
   G10L 25/51 20130101AFI20200316BHJP
   G10L 25/24 20130101ALI20200316BHJP
【FI】
   G10L25/51
   G10L25/24
【請求項の数】5
【全頁数】20
(21)【出願番号】特願2016-77455(P2016-77455)
(22)【出願日】2016年4月7日
(65)【公開番号】特開2017-187686(P2017-187686A)
(43)【公開日】2017年10月12日
【審査請求日】2019年2月25日
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(73)【特許権者】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】清山 信正
(72)【発明者】
【氏名】齋藤 礼子
(72)【発明者】
【氏名】尾上 和穂
(72)【発明者】
【氏名】今井 篤
(72)【発明者】
【氏名】都木 徹
【審査官】 上田 雄
(56)【参考文献】
【文献】 特開2009−222993(JP,A)
【文献】 特開2008−096483(JP,A)
【文献】 特開2007−333603(JP,A)
【文献】 特開2015−057630(JP,A)
【文献】 今井 篤、外8名,テレビ音声へのオーバーラップを許容した音声補助情報サービスの検討,電子情報通信学会2016年総合大会講演論文集 基礎・境界/NOLTA,一般社団法人電子情報通信学会,2016年 3月 1日,p.322
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00−25/93
(57)【特許請求の範囲】
【請求項1】
番組音声に補完音声を付加して提示する際の前記補完音声を、複数の補完音声から選択する音声選択装置において、
1以上の所定数の番組音声データが格納された番組音声DB(データベース)と、
2以上の所定数の補完音声データが格納された補完音声DBと、
前記番組音声DBに格納された前記所定数の番組音声データのそれぞれについて、音響特徴量を算出すると共に、前記補完音声DBに格納された前記所定数の補完音声データのそれぞれについて、音響特徴量を算出する特徴量算出部と、
前記特徴量算出部により算出された前記所定数の番組音声データのそれぞれについての音響特徴量と、前記特徴量算出部により算出された前記所定数の補完音声データのそれぞれについての音響特徴量との間で類似度を算出する類似度算出部と、
前記補完音声データ毎に、前記類似度算出部により算出された、前記所定数の番組音声データのそれぞれについての音響特徴量と当該補完音声データの音響特徴量との間の前記類似度を加算し、総和を求める類似度加算部と、
前記類似度加算部により求めた前記補完音声データ毎の総和のうち、最小の総和を特定し、前記所定数の補完音声データから、前記最小の総和に対応する前記補完音声データを選択する選択部と、
を備えたことを特徴とする音声選択装置。
【請求項2】
請求項1に記載の音声選択装置において、
前記特徴量算出部は、
前記番組音声データ及び前記補完音声データのそれぞれについて、所定の長さのフレーム単位で音声データを切り出し、前記フレーム単位の音声データ毎に、周波数特性を求め、前記周波数特性に基づいて、メル周波数ケプストラム係数及び対数エネルギーからなる静的係数並びに前記静的係数の1次回帰係数及び2次回帰係数を含めたスペクトル特徴量を求め、前記スペクトル特徴量に基づきEMアルゴリズムを用いて、混合数分の混合重み及び前記混合数分のガウス分布からなるGMMパラメータを算出し、前記GMMパラメータから前記ガウス分布の平均ベクトルを抽出し、前記平均ベクトルを前記混合数分だけ結合したGMMスーパーベクトルを求め、前記GMMスーパーベクトルに基づいて、前記音響特徴量であるiベクトルを算出する、ことを特徴とする音声選択装置。
【請求項3】
請求項1に記載の音声選択装置において、
前記特徴量算出部は、
前記番組音声データ及び前記補完音声データのそれぞれについて、所定の長さのフレーム単位で音声データを切り出し、前記フレーム単位の音声データ毎に、基本周期候補を設定し、前記基本周期候補の周期性の程度を求めて前記基本周期候補から基本周期を抽出し、前記基本周期に基づいて、対数基本周波数並びに前記対数基本周波数の1次回帰係数及び2次回帰係数を含めたピッチ特徴量を求め、前記ピッチ特徴量に基づきEMアルゴリズムを用いて、混合数分の混合重み及び前記混合数分のガウス分布からなるGMMパラメータを算出し、前記GMMパラメータから前記ガウス分布の平均ベクトルを抽出し、前記平均ベクトルを前記混合数分だけ結合したGMMスーパーベクトルを求め、前記GMMスーパーベクトルに基づいて、前記音響特徴量であるiベクトルを算出する、ことを特徴とする音声選択装置。
【請求項4】
請求項1に記載の音声選択装置において、
前記特徴量算出部は、
前記番組音声データ及び前記補完音声データのそれぞれについて、所定の長さのフレーム単位で音声データを切り出し、前記フレーム単位の音声データ毎に、周波数特性を求め、前記周波数特性に基づいて、メル周波数ケプストラム係数及び対数エネルギーからなる静的係数並びに前記静的係数の1次回帰係数及び2次回帰係数を含めたスペクトル特徴量を求め、前記スペクトル特徴量に基づきEMアルゴリズムを用いて、混合数分の混合重み及び前記混合数分のガウス分布からなるGMMパラメータを算出し、前記GMMパラメータから前記ガウス分布の平均ベクトルを抽出し、前記平均ベクトルを前記混合数分だけ結合したGMMスーパーベクトルを求め、前記GMMスーパーベクトルに基づいて、前記音響特徴量である第1のiベクトルを算出し、
前記フレーム単位の音声データ毎に、基本周期候補を設定し、前記基本周期候補の周期性の程度を求めて前記基本周期候補から基本周期を抽出し、前記基本周期に基づいて、対数基本周波数並びに前記対数基本周波数の1次回帰係数及び2次回帰係数を含めたピッチ特徴量を求め、前記ピッチ特徴量に基づきEMアルゴリズムを用いて、混合数分の混合重み及び前記混合数分のガウス分布からなるGMMパラメータを算出し、前記GMMパラメータから前記ガウス分布の平均ベクトルを抽出し、前記平均ベクトルを前記混合数分だけ結合したGMMスーパーベクトルを求め、前記GMMスーパーベクトルに基づいて、前記音響特徴量である第2のiベクトルを算出し、
前記類似度算出部は、
前記特徴量算出部により算出された前記所定数の番組音声データのそれぞれについての第1のiベクトルと、前記特徴量算出部により算出された前記所定数の補完音声データのそれぞれについての第1のiベクトルとの間で類似度を算出し、
前記特徴量算出部により算出された前記所定数の番組音声データのそれぞれについての第2のiベクトルと、前記特徴量算出部により算出された前記所定数の補完音声データのそれぞれについての第2のiベクトルとの間の類似度を算出し、
前記類似度加算部は、
前記補完音声データ毎に、前記類似度算出部により算出された、前記所定数の番組音声データのそれぞれについての第1のiベクトルと当該補完音声データの第1のiベクトルとの間の前記類似度を加算し、第1の加算結果を求め、
前記補完音声データ毎に、前記類似度算出部により算出された、前記所定数の番組音声データのそれぞれについての第2のiベクトルと当該補完音声データの第2のiベクトルとの間の前記類似度を加算し、第2の加算結果を求め、
前記第1の加算結果及び前記第2の加算結果を重み付け加算し、前記総和を求める、ことを特徴とする音声選択装置。
【請求項5】
コンピュータを、請求項1から4までのいずれか一項に記載の音声選択装置として機能させるための音声選択プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、番組音声に解説音声を付加して解説付番組音声を生成する際に、番組音声に付加する解説音声を複数の解説音声から選択する音声選択装置及びプログラムに関する。
【背景技術】
【0002】
従来、テレビ放送における解説放送番組の制作では、番組の台本または脚本とは別に、視覚障害者のための情景描写または字幕の内容についての解説原稿が作成される。解説原稿は、台詞またはナレーション等の発声音が含まれる音声の区間(番組音声)に重ならないように、無音または背景音のみの区間(ポーズ区間)に、ナレータが解説音声として読み上げる原稿である。
【0003】
解説音声の録音時には、発声開始のタイミング及び発声速度を調整しなければならず、リハーサル等を含めて多くの時間と費用が必要となる。この問題を解決するため、解説放送番組の音声を短時間で、かつ低コストで制作する技術が開示されている(例えば、特許文献1を参照)。
【0004】
この技術では、番組音声と、番組の内容に関連するテキストとを入力し、音声合成によりテキストから解説音声を生成する。そして、番組音声からポーズ区間を検出し、ポーズ区間長に合うように解説音声を話速変換し、話速変換後の解説音声をポーズ区間に付加する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第4594908号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、前記特許文献1の技術では、番組音声からポーズ区間を正しく検出できない場合があり、適切なタイミング及び話速で解説音声を挿入することができず、結果として適切な解説音声を提供することができないという問題があった。
【0007】
この問題を解決するため、番組音声と解説音声とを重ねた状態の解説付番組音声を生成することが想定される。しかし、番組音声と解説音声とが類似しているときには、生成した解説付番組音声から解説音声の情報を聞き分けることが難しい。
【0008】
このように、テレビ放送の番組音声に対し、当該番組音声の情報を補完するための解説音声(以下、補完音声という。)を付加して解説付番組音声を生成する場合に、聞き分けることが可能な補完音声を適切に提供できない場合があるという問題があった。この問題を解決する手法は提案されていない。
【0009】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、番組音声に補完音声を付加して提示する際の補完音声であって、番組音声に対して聞き分けやすい補完音声を、複数の補完音声から選択可能な音声選択装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0010】
前記課題を解決するために、請求項1の音声選択装置は、番組音声に補完音声を付加して提示する際の前記補完音声を、複数の補完音声から選択する音声選択装置において、1以上の所定数の番組音声データが格納された番組音声DB(データベース)と、2以上の所定数の補完音声データが格納された補完音声DBと、前記番組音声DBに格納された前記所定数の番組音声データのそれぞれについて、音響特徴量を算出すると共に、前記補完音声DBに格納された前記所定数の補完音声データのそれぞれについて、音響特徴量を算出する特徴量算出部と、前記特徴量算出部により算出された前記所定数の番組音声データのそれぞれについての音響特徴量と、前記特徴量算出部により算出された前記所定数の補完音声データのそれぞれについての音響特徴量との間で類似度を算出する類似度算出部と、前記補完音声データ毎に、前記類似度算出部により算出された、前記所定数の番組音声データのそれぞれについての音響特徴量と当該補完音声データの音響特徴量との間の前記類似度を加算し、総和を求める類似度加算部と、前記類似度加算部により求めた前記補完音声データ毎の総和のうち、最小の総和を特定し、前記所定数の補完音声データから、前記最小の総和に対応する前記補完音声データを選択する選択部と、を備えたことを特徴とする。
【0011】
また、請求項2の音声選択装置は、請求項1に記載の音声選択装置において、前記特徴量算出部が、前記番組音声データ及び前記補完音声データのそれぞれについて、所定の長さのフレーム単位で音声データを切り出し、前記フレーム単位の音声データ毎に、周波数特性を求め、前記周波数特性に基づいて、メル周波数ケプストラム係数及び対数エネルギーからなる静的係数並びに前記静的係数の1次回帰係数及び2次回帰係数を含めたスペクトル特徴量を求め、前記スペクトル特徴量に基づきEMアルゴリズムを用いて、混合数分の混合重み及び前記混合数分のガウス分布からなるGMMパラメータを算出し、前記GMMパラメータから前記ガウス分布の平均ベクトルを抽出し、前記平均ベクトルを前記混合数分だけ結合したGMMスーパーベクトルを求め、前記GMMスーパーベクトルに基づいて、前記音響特徴量であるiベクトルを算出する、ことを特徴とする。
【0012】
また、請求項3の音声選択装置は、請求項1に記載の音声選択装置において、前記特徴量算出部が、前記番組音声データ及び前記補完音声データのそれぞれについて、所定の長さのフレーム単位で音声データを切り出し、前記フレーム単位の音声データ毎に、基本周期候補を設定し、前記基本周期候補の周期性の程度を求めて前記基本周期候補から基本周期を抽出し、前記基本周期に基づいて、対数基本周波数並びに前記対数基本周波数の1次回帰係数及び2次回帰係数を含めたピッチ特徴量を求め、前記ピッチ特徴量に基づきEMアルゴリズムを用いて、混合数分の混合重み及び前記混合数分のガウス分布からなるGMMパラメータを算出し、前記GMMパラメータから前記ガウス分布の平均ベクトルを抽出し、前記平均ベクトルを前記混合数分だけ結合したGMMスーパーベクトルを求め、前記GMMスーパーベクトルに基づいて、前記音響特徴量であるiベクトルを算出する、ことを特徴とする。
【0013】
また、請求項4の音声選択装置は、請求項1に記載の音声選択装置において、前記特徴量算出部が、前記番組音声データ及び前記補完音声データのそれぞれについて、所定の長さのフレーム単位で音声データを切り出し、前記フレーム単位の音声データ毎に、周波数特性を求め、前記周波数特性に基づいて、メル周波数ケプストラム係数及び対数エネルギーからなる静的係数並びに前記静的係数の1次回帰係数及び2次回帰係数を含めたスペクトル特徴量を求め、前記スペクトル特徴量に基づきEMアルゴリズムを用いて、混合数分の混合重み及び前記混合数分のガウス分布からなるGMMパラメータを算出し、前記GMMパラメータから前記ガウス分布の平均ベクトルを抽出し、前記平均ベクトルを前記混合数分だけ結合したGMMスーパーベクトルを求め、前記GMMスーパーベクトルに基づいて、前記音響特徴量である第1のiベクトルを算出し、前記フレーム単位の音声データ毎に、基本周期候補を設定し、前記基本周期候補の周期性の程度を求めて前記基本周期候補から基本周期を抽出し、前記基本周期に基づいて、対数基本周波数並びに前記対数基本周波数の1次回帰係数及び2次回帰係数を含めたピッチ特徴量を求め、前記ピッチ特徴量に基づきEMアルゴリズムを用いて、混合数分の混合重み及び前記混合数分のガウス分布からなるGMMパラメータを算出し、前記GMMパラメータから前記ガウス分布の平均ベクトルを抽出し、前記平均ベクトルを前記混合数分だけ結合したGMMスーパーベクトルを求め、前記GMMスーパーベクトルに基づいて、前記音響特徴量である第2のiベクトルを算出し、前記類似度算出部が、前記特徴量算出部により算出された前記所定数の番組音声データのそれぞれについての第1のiベクトルと、前記特徴量算出部により算出された前記所定数の補完音声データのそれぞれについての第1のiベクトルとの間で類似度を算出し、前記特徴量算出部により算出された前記所定数の番組音声データのそれぞれについての第2のiベクトルと、前記特徴量算出部により算出された前記所定数の補完音声データのそれぞれについての第2のiベクトルとの間の類似度を算出し、前記類似度加算部が、前記補完音声データ毎に、前記類似度算出部により算出された、前記所定数の番組音声データのそれぞれについての第1のiベクトルと当該補完音声データの第1のiベクトルとの間の前記類似度を加算し、第1の加算結果を求め、前記補完音声データ毎に、前記類似度算出部により算出された、前記所定数の番組音声データのそれぞれについての第2のiベクトルと当該補完音声データの第2のiベクトルとの間の前記類似度を加算し、第2の加算結果を求め、前記第1の加算結果及び前記第2の加算結果を重み付け加算し、前記総和を求める、ことを特徴とする。
【0014】
さらに、請求項5の音声選択プログラムは、コンピュータを、請求項1から4までのいずれか一項に記載の音声選択装置として機能させることを特徴とする。
【発明の効果】
【0015】
以上のように、本発明によれば、番組音声に補完音声を付加して提示する際の補完音声であって、番組音声に対して聞き分けやすい補完音声を、複数の補完音声から選択することが可能となる。したがって、選択した補完音声を番組音声に付加し、番組音声と補完音声とを同じタイミングで提示する場合であっても、これらの音声を聴く人は、番組音声と補完音声とを容易に区別することができ、聞き分けやすい補完音声を得ることができる。
【図面の簡単な説明】
【0016】
図1】本発明の実施形態による音声選択装置の構成例を示すブロック図である。
図2】実施例1の特徴量算出部の処理例を示すフローチャートである。
図3】ステップS213の処理により算出されるGMMパラメータλを説明する図である。
図4】ステップS214の処理により算出されるGMMスーパーベクトルMを説明する図である。
図5】実施例2の特徴量算出部の処理例を示すフローチャートである。
図6】実施例2の特徴量算出部による処理の事前処理として、音声フレームの区間判定の処理例を示すフローチャートである。
図7】前後の有声音区間の基本周期から、無音区間及び無声音区間の基本周期を求める例を説明する図である。
【発明を実施するための形態】
【0017】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、1以上の番組音声及び2以上の補完音声の音響的な特徴量をそれぞれ算出し、2以上の補完音声のそれぞれについて、1以上の番組音声との間の類似度を算出し、当該類似度の最も低い補完音声を2以上の補完音声から選択することを特徴とする。
【0018】
これにより、番組音声とは類似しない音響的な特徴を有する補完音声が選択される。したがって、番組音声と補完音声とを同時に提示する場合であっても、これらの音声を聴く人は、番組音声と補完音声とを容易に区別することができ、聞き分けやすい補完音声を得ることができる。
【0019】
〔音声選択装置〕
まず、本発明の実施形態による音声選択装置について説明する。図1は、本発明の実施形態による音声選択装置の構成例を示すブロック図である。この音声選択装置1は、番組音声DB(データベース)10−1〜10−N、特徴量算出部11−1〜11−N、補完音声DB20−1〜20−M、特徴量算出部21−1〜21−M、類似度算出部22−1〜22−M、類似度加算部23−1〜23−M及び選択部24を備えている。
【0020】
Nは1以上の整数であり、番組音声DB10−1〜10−Nに格納された番組音声についての話者(番組音声話者)の数に相当する。Mは2以上の整数であり、補完音声DB20−1〜20−Mに格納された補完音声についての話者(補完音声話者)の数に相当する。n=1,・・・,Nとし、m=1,・・・,Mとする。
【0021】
番組音声DB10−nは、ある番組音声話者による番組音声の音声波形のデータ(番組音声データ)が格納されたデータベースである。番組音声の音声波形のデータは、標本化周波数16kHz及び変換ビット数16ビットで標本化されているものとする。
【0022】
特徴量算出部11−nは、対応する番組音声DB10−nから、第n番目の番組音声話者による番組音声の音声波形のデータを読み出し、番組音声の音声波形のデータに基づいて、番組音声の音響的な特徴量(音響特徴量)を算出する。そして、特徴量算出部11−nは、第n番目の番組音声話者による番組音声の音響特徴量を、類似度算出部22−1〜22−Mに出力する。
【0023】
補完音声DB20−mは、ある補完音声話者による補完音声の音声波形のデータ(補完音声データ)が格納されたデータベースである。補完音声の音声波形のデータは、番組音声の音声波形のデータと同様に、標本化周波数16kHz及び変換ビット数16ビットで標本化されているものとする。補完音声の音声波形のデータは、例えば、番組音声に対して付加するために収録された実際の音声データであってもよいし、音声合成によって作成された音声データ(実際の補完音声データでない)、または音声合成用に利用する音声データベースに含まれる音声データであってもよい。
【0024】
特徴量算出部21−mは、対応する補完音声DB20−mから、第m番目の補完音声話者による補完音声の音声波形のデータを読み出し、補完音声の音声波形のデータに基づいて、補完音声の音響特徴量を算出する。そして、特徴量算出部21−mは、第m番目の補完音声話者による補完音声の音響特徴量を、対応する類似度算出部22−mに出力する。
【0025】
類似度算出部22−mは、特徴量算出部11−1〜11−Nから第1〜N番目の番組音声話者による番組音声の音響特徴量を入力すると共に、対応する特徴量算出部21−mから第m番目の補完音声話者による補完音声の音響特徴量を入力する。
【0026】
類似度算出部22−mは、第1番目の番組音声話者による番組音声の音響特徴量と、第m番目の補完音声話者による補完音声の音響特徴量との間の類似度を算出する。また、類似度算出部22−mは、同様に、第2〜N番目の番組音声話者による番組音声の音響特徴量のそれぞれと、第m番目の補完音声話者による補完音声の音響特徴量との間の類似度を算出する。そして、類似度算出部22−mは、第1〜N番目の番組音声話者による番組音声と第m番目の補完音声話者による補完音声との間のそれぞれの類似度を、対応する類似度加算部23−mに出力する。
【0027】
ここで、第n番目の番組音声話者による番組音声の音響特徴量をwinとし、第m番目の補完音声話者による補完音声の音響特徴量をwcmとし、類似度をコサイン類似度cos(win,wcm)とする。第n番目の番組音声話者による番組音声と第m番目の補完音声話者による補完音声との間のコサイン類似度cos(win,wcm)は、以下の式にて算出される。
【数1】
前記式(1)の右辺の分子は、win及びwcmの内積を示し、その分母は、win及びwcmにおけるそれぞれのノルムの乗算を示す。
【0028】
類似度加算部23−mは、対応する類似度算出部22−mから第1〜N番目の番組音声話者による番組音声と第m番目の補完音声話者による補完音声との間のそれぞれの類似度を入力する。そして、類似度加算部23−mは、第m番目の補完音声話者による補完音声について、それぞれの類似度を加算することで類似度の総和を求める。類似度加算部23−mは、第m番目の補完音声話者による補完音声について、第1〜N番目の番組音声話者による番組音声との間の類似度の総和(第m番目の補完音声話者による補完音声についての類似度の総和)を選択部24に出力する。
【0029】
ここで、第m番目の補完音声話者による補完音声についての類似度cos(win,wcm)の総和をsmとすると、当該総和smは、以下の式にて算出される。
【数2】
【0030】
選択部24は、類似度加算部23−1〜23−Mから類似度の総和をそれぞれ入力し、これらの類似度の総和のうち最小の類似度の総和を特定する。そして、選択部24は、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、最小の類似度の総和に対応する補完音声DB20(補完音声話者)を選択し、選択情報を出力する。
【0031】
ここで、最小の類似度の総和smに対応する補完音声DB20(補完音声話者)を補完音声DB20−c(補完音声話者c)とし、選択情報をc(1〜Mのうちのいずれかの値)とすると、選択情報cは、以下の式にて選択される。
【数3】
【0032】
以上のように、本発明の実施形態の音声選択装置1によれば、選択部24は、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、番組音声とは最も類似しない音響的な特徴を有する補完音声DB20−c(補完音声話者c)を選択する。選択された補完音声DB20−cは、番組音声に補完音声を付加して解説付番組音声を生成する際に用いられる。これにより、番組音声に補完音声を付加した結果、番組音声と補完音声とを同じタイミングで提示することになっても、これらの音声を聴く人は、番組音声と補完音声とを容易に区別することができ、聞き分けやすい補完音声を得ることができる。
【0033】
以下、本発明の実施形態による音声選択装置1について、実施例1〜3を挙げて具体的に説明する。特徴量算出部11−1〜11−N,21−1〜21−Mを総称して、特徴量算出部11,21と表記する。
【0034】
実施例1〜3において、特徴量算出部11,21が音響特徴量を算出する処理として、話者認識または話者照合の際に用いられるi-vector(iベクトル)の技術を利用する。i-vectorの詳細については、以下の文献を参照されたい。
[非特許文献1]
N. Dehak, P. Kenny, R. Dehak, P. Dumouchel and P. Ouellet, “Front-end factor analysis for speaker verification”, IEEE Trans. Audio Speech Lang. Process., 19, 788-798(2011)
【0035】
〔実施例1〕
まず、実施例1について説明する。実施例1は、声質の観点から、番組音声に対して聞き分けやすい補完音声を選択する例である。具体的には、実施例1は、メル周波数ケプストラム係数(MFCC)及び対数エネルギー(E)からなる静的係数並びにそれらの1次回帰係数及び2次回帰係数を含めたスペクトル特徴量を用いた音響特徴量に基づいて、複数の補完音声から1つの補完音声を選択する。
【0036】
特徴量算出部11,21は、音響特徴量として、スペクトル特徴量による混合ガウス分布モデル(GMM)を構成する平均ベクトルを混合数分だけ結合してGMMスーパーベクトルを求め、iベクトルを算出する。スペクトル特徴量の算出方法については、以下の文献を参照されたい。
[非特許文献2]
The HTK Book (for HTK Version 3.4) Cambridge University Engineering Department
【0037】
図2は、実施例1の特徴量算出部11,21の処理例を示すフローチャートである。特徴量算出部11,21は、番組音声DB10または補完音声DB20から話者の音声波形のデータを読み出し(ステップS201)、音声波形のデータから窓幅25ms及びシフト幅10msのフレームの音声データ(音声フレーム)を切り出す(ステップS202)。
【0038】
特徴量算出部11,21は、音声フレームに対し、プリエンファシス係数0.97にて高域強調(プリエンファシス)を行う(ステップS203)。そして、特徴量算出部11,21は、高域強調後の音声フレームに対し、窓幅25msのハミング窓の窓関数を掛け合わせ(ステップS204)、FFTポイント数1024の離散フーリエ変換(FFT)を行い、周波数特性を求める(ステップS205)。
【0039】
特徴量算出部11,21は、周波数特性にメルフィルターバンクを掛けることで、26チャンネルのフィルターバンク係数を求める(ステップS206)。そして、特徴量算出部11,21は、フィルターバンク係数に対して離散コサイン変換(DCT)を行うことで、12次元のメル周波数ケプストラム係数(MFCC)を算出する(ステップS207)。
【0040】
特徴量算出部11,21は、ステップS202から移行して、音声フレームに対し、対数エネルギー(E)を算出する(ステップS208)。
【0041】
特徴量算出部11,21は、12次元のメル周波数ケプストラム係数(MFCC)と対数エネルギー(E)を合わせた13次元の静的係数を設定する(ステップS209)。そして、特徴量算出部11,21は、これらの静的係数について、1次回帰係数である1次差分ΔMFCC,ΔE及び2次回帰係数である2次差分ΔMFCC,ΔEを算出する(ステップS210,ステップS211)。特徴量算出部11,21は、メル周波数ケプストラム係数(MFCC)、対数エネルギー(E)、1次差分ΔMFCC,ΔE、及び2次差分ΔMFCC,2次差分ΔEをスペクトル特徴量に設定する(ステップS212)。
【0042】
これにより、音声フレーム毎に、12個のメル周波数ケプストラム係数(MFCC)、1個の対数エネルギー(E)、12個の1次差分ΔMFCC、1個の1次差分ΔE、12個の2次差分ΔMFCC、及び1個の2次差分ΔEであるDF(=39)個の係数からなるスペクトル特徴量が得られる。
【0043】
特徴量算出部11,21は、EM(Expectation Maximization)アルゴリズムを用いて、音声フレーム毎に算出したDF(=39)個の係数からなるスペクトル特徴量(全ての音声フレームにおける係数)から、話者の音声波形のデータ全体に関するGMMパラメータλを算出する(ステップS213)。EMアルゴリズムを用いてGMMパラメータλを算出する手法の詳細については、以下の文献を参照されたい。
[非特許文献3]
REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9
【0044】
GMMパラメータλは、以下の式のとおり、混合数C(=512)個の混合重み、及び混合数C個のガウス分布から構成される。混合重みをWとする。ガウス分布は、D個の平均値からなる平均ベクトルμ、及びD個の分散値からなるベクトルσ2により表される。
【数4】
【0045】
図3は、ステップS213の処理により算出されるGMMパラメータλを説明する図である。前述のとおり、GMMパラメータλは、ステップS213の処理において、EMアルゴリズムを用いて、音声フレーム毎のDF(=39)個の係数からなるスペクトル特徴量(全ての音声フレームにおける係数)から算出される。
【0046】
図3に示すように、GMMパラメータλは、混合数C個における第0番目について、混合重みW(0)及びガウス分布からなる。この場合のガウス分布は、D個の平均値からなる平均ベクトルμ0(0),・・・,μ0(DF−1)、及びD個の分散値からなるベクトルσ02(0),・・・,σ02(DF−1)により表される。
【0047】
同様に、GMMパラメータλは、混合数C個における第(C−1)番目について、混合重みW(C−1)及びガウス分布からなる。この場合のガウス分布は、D個の平均値からなる平均ベクトルμC-1(0),・・・,μC-1(DF−1)、及びD個の分散値からなるベクトルσC-12(0),・・・,σC-12(DF−1)により表される。
【0048】
図2に戻って、特徴量算出部11,21は、ステップS213の後、GMMパラメータλからGMMスーパーベクトルMを求める(ステップS214)。具体的には、特徴量算出部11,21は、混合数C個の混合重み及び混合数C個のガウス分布(D個の平均値からなる平均ベクトルμ、及びD個の分散値からなるベクトルσ2)から構成されるGMMパラメータλにより平均ベクトルμのみを抽出する。そして、特徴量算出部11,21は、D個の平均値からなる平均ベクトルμを混合数C個だけ結合し、GMMスーパーベクトルMを求める。GMMスーパーベクトルMは、C・DF次元の実数のベクトルであり、以下のように表される。
【数5】
【0049】
図4は、ステップS214の処理により算出されるGMMスーパーベクトルMを説明する図である。図4に示すように、GMMスーパーベクトルMは、第0番目についてのD個の平均値からなる平均ベクトルμ0(0),・・・,μ0(DF−1)、・・・、及び、第(C−1)番目についてのD個の平均値からなる平均ベクトルμC-1(0),・・・,μC-1(DF−1)により構成される。
【0050】
図2に戻って、特徴量算出部11,21は、ステップS214の後、GMMスーパーベクトルMに基づいて、前述の非特許文献1に記載されている手法を用いて、次式を満たす音響特徴量であるiベクトル:wを算出する(ステップS215)。
【数6】
【0051】
また、iベクトル:wは、DT次元の実数のベクトルであり、以下のように表される。
【数7】
【0052】
ここで、mは、大量の不特定話者の音声データを用いて学習したGMMスーパーベクトルであり、Tは、低ランクの矩形行列(DT<<C・DF)である。矩形行列Tは、C・DF×DT次元の実数のベクトルであり、以下のように表される。
【数8】
【0053】
wは、平均ベクトルが0であり、共分散行列が単位行列Iであるガウス分布N(w;0,I)に従う。平均ベクトル0は、DT次元の実数のベクトルであり、以下のように表される。
【数9】
共分散行列Iは、DT×DT次元の実数のベクトルであり、以下のように表される。
【数10】
【0054】
尚、特徴量算出部11,21は、算出したiベクトル:wに対して、LDA(Linear Discrimination Analysis)やWCCN(Within-Class Covariance Normalization)等の処理にて、同一話者内の音響変動を補正する。後述する実施例2,3についても同様である。
【0055】
類似度算出部22−1〜22−M、類似度加算部23−1〜23−M及び選択部24の処理は、図1と同様である。
【0056】
以上のように、実施例1の特徴量算出部11,21は、番組音声DB10または補完音声DB20から読み出した音声の音声波形のデータについて、スペクトル特徴量による混合ガウス分布モデル(GMM)を構成する平均ベクトルμを混合数C分だけ結合してGMMスーパーベクトルMを求める。そして、特徴量算出部11,21は、GMMスーパーベクトルMに基づいて、スペクトル特徴量を用いた音響特徴量であるiベクトルを算出する。
【0057】
後段の選択部24は、特徴量算出部11,21にて算出されたiベクトルに基づき、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、番組音声と最も類似しない音響的な特徴を有する補完音声DB20−c(補完音声話者c)を選択する。
【0058】
ここで、補完音声DB20−c(補完音声話者c)は、スペクトル特徴量から算出された音響特徴量を指標として選択され、スペクトル特徴量には、音声の周波数成分が反映されている。また、声質は、音声の周波数成分により決定される。
【0059】
したがって、番組音声に補完音声を付加した結果、番組音声と補完音声とを同時に提示することになっても、これらの音声を聴く人は、番組音声と補完音声とを容易に区別することができ、話者の声質が聞き分けやすい補完音声を得ることができる。
【0060】
〔実施例2〕
次に、実施例2について説明する。実施例2は、声の高さの観点から、番組音声に対して聞き分けやすい補完音声を選択する例である。具体的には、実施例2は、対数基本周波数(LF0)並びにその1次回帰係数及び2次回帰係数を含めたピッチ特徴量を用いた音響特徴量に基づいて、複数の補完音声から1つの補完音声を選択する。
【0061】
特徴量算出部11,21は、音響特徴量として、ピッチ特徴量による混合ガウス分布モデル(GMM)を構成する平均ベクトルを混合数分だけ結合してGMMスーパーベクトルを求め、iベクトルを算出する。ピッチ特徴量の算出方法については、以下の文献を参照されたい。
[非特許文献4]
都木、清山、宮坂、「複数の窓幅から得られた自己相関関数を用いる音声基本周期抽出法」、電子情報通信学会論文誌 A Vol, J80-A No.9 pp.1341-1350 1997年9月
[非特許文献5]
清山、今井、三島、都木、宮坂、「高品質リアルタイム話速変換システムの開発」、電子情報通信学会論文誌 D-II Vol, J84-D-II No.6 pp.918-926 2001年6月
【0062】
図5は、実施例2の特徴量算出部11,21の処理例を示すフローチャートである。特徴量算出部11,21は、番組音声DB10または補完音声DB20から音声の音声波形のデータを読み出す(ステップS501)。そして、特徴量算出部11,21は、音声波形のデータに対し、カットオフ周波数1kHzで低域ろ波を行い、1/4のデシメーションを施す(ステップS502)。そして、特徴量算出部11,21は、低域ろ波及びデシメーション後の音声波形のデータから、所定の窓幅にて音声波形のフレームの音声データ(音声フレーム)を切り出す(ステップS503)。
【0063】
特徴量算出部11,21は、切り出した音声フレーム毎に、自己相関関数を算出し、それぞれ指定した範囲で複数個の極大点を求める。そして、特徴量算出部11,21は、複数個の極大点の周辺を4倍に内挿し、極大点のうち最大となる極大値をとる位置を、基本周期候補の位置に設定する(ステップS504)。
【0064】
特徴量算出部11,21は、基本周期候補の位置における自己相関関数の値を0次の自己相関関数の値で除算し、周期性の程度を示す値を求める(ステップS505)。そして、特徴量算出部11,21は、重み付けを行い、重み付け後の周期性の程度を示す値を加算し、加算結果を指標として、基本周期候補のうち最適なものを基本周期として選択する(ステップS506)。
【0065】
ここで、特徴量算出部11,21は、音声フレームが有声音区間の場合、その音声フレームの基本周期を求め、当該基本周期のみを用いて以下の処理を行うようにしてもよい。さらに、特徴量算出部11,21は、音声フレームが無声音区間または無音区間に含まれる場合、前後の有声音区間に含まれる音声フレームの基本周期を補間して基本周期を求め、当該基本周期も用いて以下の処理を行うようにしてもよい。詳細については後述する。
【0066】
特徴量算出部11,21は、基本周期の逆数を基本周波数(F0)とし、これに自然対数をとることで対数基本周波数(LF0)を算出する(ステップS507)。特徴量算出部11,21は、1次元の対数基本周波数(LF0)について、1次回帰係数である1次差分ΔLF0及び2次回帰係数である2次差分ΔLF0を算出する(ステップS508,ステップS509)。特徴量算出部11,21は、対数基本周波数(LF0)、1次差分ΔLF0及び2次差分ΔLF0をピッチ特徴量に設定する(ステップS510)。
【0067】
これにより、音声フレーム毎に、1個の対数基本周波数(LF0)、1個の1次差分ΔLF0、及び1個の2次差分ΔLF0であるDF(=3)個の係数からなるピッチ特徴量が得られる。
【0068】
特徴量算出部11,21は、EMアルゴリズムを用いて、音声フレーム毎に算出したDF(=3)個の係数からなるピッチ特徴量(全ての音声フレームにおける係数)から、話者の音声波形のデータ全体に関するGMMパラメータλを算出する(ステップS511)。そして、特徴量算出部11,21は、GMMパラメータλからGMMスーパーベクトルMを求める(ステップS512)。
【0069】
特徴量算出部11,21は、GMMスーパーベクトルMに基づいて、前述の非特許文献1に記載されている手法を用いて、音響特徴量であるiベクトル:wを算出する(ステップS513)。
【0070】
類似度算出部22−1〜22−M、類似度加算部23−1〜23−M及び選択部24の処理は、図1と同様である。
【0071】
以上のように、実施例2の特徴量算出部11,21は、番組音声DB10または補完音声DB20から読み出した音声の音声波形のデータについて、ピッチ特徴量による混合ガウス分布モデル(GMM)を構成する平均ベクトルμを混合数C分だけ結合してGMMスーパーベクトルMを求める。そして、特徴量算出部11,21は、GMMスーパーベクトルMに基づいて、ピッチ特徴量を用いた音響特徴量であるiベクトルを算出する。
【0072】
後段の選択部24は、特徴量算出部11,21にて算出されたiベクトルに基づき、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、番組音声と最も類似しない音響的な特徴を有する補完音声DB20−c(補完音声話者c)を選択する。
【0073】
ここで、補完音声DB20−c(補完音声話者c)は、ピッチ特徴量から算出された音響特徴量を指標として選択され、ピッチ特徴量は、音の高さを表す数値である。
【0074】
したがって、番組音声に補完音声を付加した結果、番組音声と補完音声とを同時に提示することになっても、これらの音声を聴く人は、番組音声と補完音声とを容易に区別することができ、話者の声の高さが聞き分けやすい補完音声を得ることができる。
【0075】
図5に示したとおり、特徴量算出部11,21は、音声フレームについて基本周期を求め、当該基本周期を用いて、対数基本周波数(LF0)等を算出し、音響特徴量であるiベクトル:wを算出する。この場合、特徴量算出部11,21は、有声音区間に含まれる音声フレームの基本周期のみを用いて、音響特徴量であるiベクトル:wを算出するようにしてもよい。また、特徴量算出部11,21は、前後の有声音区間に含まれる音声フレームの基本周期を補間することで、無声音区間及び無音区間の基本周期を求める。そして、特徴量算出部11,21は、有声音区間に含まれる音声フレームの基本周期、及び無声音区間及び無音区間の基本周期を用いて、音響特徴量であるiベクトル:wを算出するようにしてもよい。
【0076】
図6は、図5に示した処理の事前処理として、音声フレームの区間判定の処理例を示すフローチャートである。特徴量算出部11,21は、図5に示した処理の事前処理として、音声フレームが含まれる区間として、有声音区間、無声音区間及び無音区間を判定する。
【0077】
特徴量算出部11,21は、番組音声DB10または補完音声DB20から話者の音声波形のデータを読み出し(ステップS601)、音声波形のデータに対し、高域強調(プリエンファシス)を行う(ステップS602)。そして、特徴量算出部11,21は、高域強調後の音声波形のデータから所定の窓幅のフレームの音声データ(音声フレーム)を切り出す(ステップS603)。以下に示すステップS604〜ステップS612の処理は、音声フレーム毎に行われる。
【0078】
特徴量算出部11,21は、音声フレームのパワーを算出し(ステップS604)、音声フレームのパワーが予め設定された閾値よりも大きいか否かを判定する(ステップS605)。特徴量算出部11,21は、ステップS605において、音声フレームのパワーが閾値よりも大きいと判定した場合(ステップS605:Y)、音声フレームは有音区間に含まれるとし、ステップS607へ移行する。
【0079】
一方、特徴量算出部11,21は、ステップS605において、音声フレームのパワーが閾値よりも大きくないと判定した場合(ステップS605:N)、音声フレームは無音区間に含まれるとし、当該区間を無音区間に設定する(ステップS606)。
【0080】
特徴量算出部11,21は、ステップS605から移行して、音声フレームのパワーが閾値よりも大きい場合、音声フレームの零交叉数を算出する(ステップS607)。そして、特徴量算出部11,21は、音声フレームの零交叉数が予め設定された閾値よりも小さいか否かを判定する(ステップS608)。特徴量算出部11,21は、ステップS608において、音声フレームの零交叉数が閾値よりも小さいと判定した場合(ステップS608:Y)、音声フレームは非摩擦性区間に含まれるとし、ステップS610へ移行する。
【0081】
一方、特徴量算出部11,21は、ステップS608において、音声フレームの零交叉数が閾値よりも小さくないと判定した場合(ステップS608:N)、音声フレームは摩擦性区間に含まれるとし、当該区間を無声音区間に設定する(ステップS609)。
【0082】
特徴量算出部11,21は、ステップS608から移行して、音声フレームの零交叉数が閾値よりも小さい場合、音声フレームの自己相関関数を算出する(ステップS610)。そして、特徴量算出部11,21は、音声フレームの自己相関関数が予め設定された閾値よりも大きいか否かを判定する(ステップS611)。特徴量算出部11,21は、ステップS611において、音声フレームの自己相関関数が閾値よりも大きいと判定した場合(ステップS611:Y)、音声フレームは有声音区間に含まれるとし、当該区間を有声音区間に設定する(ステップS612)。
【0083】
一方、特徴量算出部11,21は、ステップS611において、音声フレームの自己相関関数が閾値よりも大きくないと判定した場合(ステップS611:N)、音声フレームは無声音区間に含まれるとし、当該区間を無声音区間に設定する(ステップS609)。
【0084】
これにより、音声フレームは、有声音区間、無声音区間または無音区間のうちのいずれの区間に含まれるか判定される。特徴量算出部11,21は、有声音区間に含まれる音声フレームの基本周期のみを用いて、音響特徴量であるiベクトル:wを算出する。また、特徴量算出部11,21は、前後の有声音区間に含まれる音声フレームの基本周期に基づいて、無声音区間または無音区間の基本周期を求め、この基本周期も用いて、音響特徴量であるiベクトル:wを算出するようにしてもよい。
【0085】
図7は、前後の有声音区間の基本周期から、無音区間及び無声音区間の基本周期を求める例を説明する図である。図7に示すように、時系列に、音声フレームの区間が判定されたとする。特徴量算出部11,21は、有声音区間について、当該有声音区間に含まれる音声フレームの基本周期を求める。また、特徴量算出部11,21は、無音区間(図7のαの箇所を参照)について、有声音区間に挟まれる当該無音区間に含まれる音声フレームの基本周期を、先行する有声音区間の終端近傍の基本周期と、後続する有声音区間の始端近傍の基本周期とを用いた補間処理にて算出する。無声音区間(図7のβを参照)についても同様である。
【0086】
〔実施例3〕
次に、実施例3について説明する。実施例3は、実施例1,2を組み合わせた例であり、声質及び声の高さの観点から、番組音声に対して聞き分けやすい補完音声を選択する。具体的には、実施例3は、実施例1のスペクトル特徴量を用いた音響特徴量、及び実施例2のピッチ特徴量を用いた音響特徴量に基づいて、複数の補完音声から1つの補完音声を選択する。
【0087】
特徴量算出部11,21は、実施例1と同様に、音響特徴量として、スペクトル特徴量による混合ガウス分布モデル(GMM)を構成する平均ベクトルを混合数分だけ結合してGMMスーパーベクトルを求め、iベクトルを算出する。また、特徴量算出部11,21は、実施例2と同様に、音響特徴量として、ピッチ特徴量による混合ガウス分布モデル(GMM)を構成する平均ベクトルを混合数分だけ結合してGMMスーパーベクトルを求め、iベクトルを算出する。
【0088】
具体的には、特徴量算出部11,21は、図2に示した処理を行うことで、スペクトル特徴量に基づいたiベクトル:wsを算出し、図5に示した処理を行うことで、ピッチ特徴量に基づいたiベクトル:wpを算出する。
【0089】
類似度算出部22−mは、特徴量算出部11−1〜11−Nから、第1〜N番目のスペクトル特徴量に基づいたiベクトル:ws及びピッチ特徴量に基づいたiベクトル:wpを入力する。また、類似度算出部22−mは、対応する特徴量算出部21−mから、第m番目のスペクトル特徴量に基づいたiベクトル:ws及びピッチ特徴量に基づいたiベクトル:wpを入力する。
【0090】
類似度算出部22−mは、スペクトル特徴量に基づいたiベクトル:ws及びピッチ特徴量に基づいたiベクトル:wpのそれぞれについて、第1〜N番目のiベクトル:wのそれぞれと、第m番目のiベクトル:wとの間の類似度を算出する。そして、類似度算出部22−mは、第1〜N番目の番組音声と第m番目の補完音声との間のそれぞれの類似度を、対応する類似度加算部23−mに出力する。
【0091】
類似度加算部23−mは、対応する類似度算出部22−mから、スペクトル特徴量に基づいたiベクトル:ws及びピッチ特徴量に基づいたiベクトル:wpのそれぞれについて、第1〜N番目の番組音声と第m番目の補完音声との間のそれぞれの類似度を入力する。そして、類似度加算部23−mは、スペクトル特徴量に基づいたiベクトル:ws及びピッチ特徴量に基づいたiベクトル:wpのそれぞれについて、類似度を加算することで類似度の総和を算出する。これにより、スペクトル特徴量を用いた音響特徴量における類似度の総和、及びピッチ特徴量を用いた音響特徴量における類似度の総和が得られる。類似度加算部23−mは、2つの算出結果を、予め設定された重み付け係数にて重み付け加算し、類似度の加算総和を求めて選択部24に出力する。
【0092】
ここで、スペクトル特徴量に基づいたiベクトル:wsについての前記式(1)(2)により得られた類似度の総和をsSmとする。また、ピッチ特徴量に基づいたiベクトル:wpについての前記式(1)(2)により得られた類似度の総和をsPmとする。重み付け係数をgとすると、類似度の総和sSm,sPmを重み付けして加算した結果である、類似度の加算総和sSPmは、以下の式で表される。
【数11】
【0093】
重み付け係数gは、以下の範囲の値をとる実数である。
【数12】
g=1.0の場合は実施例1を示し、g=0.0の場合は実施例2を示す。
【0094】
選択部24は、類似度加算部23−1〜23−Mから類似度の加算総和をそれぞれ入力し、これらの類似度の加算総和のうち最小の類似度の加算総和を特定する。そして、選択部24は、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、最小の類似度の加算総和に対応する補完音声DB20(補完音声話者)を選択し、選択情報を出力する。
【0095】
ここで、最小の類似度の加算総和sSPmに対応する補完音声DB20(補完音声話者)を補完音声DB20−c(補完音声話者c)とし、選択情報をc(1〜Nのうちのいずれかの値)とすると、選択情報cは、以下の式にて選択される。
【数13】
【0096】
以上のように、実施例3の特徴量算出部11,21は、音響特徴量として、スペクトル特徴量に基づいたiベクトルを算出すると共に、ピッチ特徴量に基づいたiベクトルを算出する。
【0097】
類似度算出部22−mは、スペクトル特徴量に基づいたiベクトル及びピッチ特徴量に基づいたiベクトルのそれぞれについて、第1〜N番目の番組音声と第m番目の補完音声との間のそれぞれの類似度を算出する。そして、類似度加算部23−mは、スペクトル特徴量に基づいたiベクトル及びピッチ特徴量に基づいたiベクトルのそれぞれについて、類似度を加算することで類似度の総和を算出し、2つの算出結果を重み付けして加算し、類似度の加算総和を求める。
【0098】
選択部24は、類似度の加算総和に基づいて、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、番組音声と最も類似しない音響的な特徴を有する補完音声DB20−c(補完音声話者c)を選択する。
【0099】
ここで、補完音声DB20−c(補完音声話者c)は、スペクトル特徴量から算出された音響特徴量及びピッチ特徴量から算出された音響特徴量を指標として選択される。また、前述のとおり、スペクトル特徴量には音声の周波数成分が反映されており、声質は、音声の周波数成分により決定される。また、音の高さは、ピッチ特徴量により決定される。
【0100】
したがって、番組音声に補完音声を付加した結果、番組音声と補完音声とを同時に提示することになっても、これらの音声を聴く人は、番組音声と補完音声とを容易に区別することができ、話者の声質及び声の高さが聞き分けやすい補完音声を得ることができる。
【0101】
特に、補完音声DB20−c(補完音声話者c)を選択する指標である類似度の加算総和には、スペクトル特徴量に基づいたiベクトル及びピッチ特徴量に基づいたiベクトルのそれぞれについての重み付けが反映される。つまり、声質を重視する場合は、スペクトル特徴量に基づいたiベクトルの重み付け係数を1.0に近づけることで、当該声質が反映された類似度の加算総和が算出される。また、声の高さを重視する場合は、ピッチ特徴量に基づいたiベクトルの重み付け係数を1.0に近づけることで、当該声の高さが反映された類似度の加算総和が算出される。したがって、番組音声に応じた重み付け係数を予め設定することで、番組音声に対し、一層聞き分けやすい補完音声を得ることができる。
【0102】
以上、実施例1〜3を挙げて本発明を説明したが、本発明は前記実施例1〜3に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、実施例1では、スペクトル特徴量に基づいた音響特徴量を算出し、実施例2では、ピッチ特徴量に基づいた音響特徴量を算出するようにした。また、実施例3では、スペクトル特徴量に基づいた音響特徴量、及びピッチ特徴量に基づいた音響特徴量を算出する。本発明は、音響特徴量の算出手法を、スペクトル特徴量に基づいた手法またはピッチ特徴量に基づいた手法に限定するものではなく、他の手法を用いるようにしてもよい。
【0103】
例えば、異なる3種類の手法を用いて異なる3種類の音響特徴量を算出する場合を想定する。特徴量算出部11,21は、第1〜3の手法を用いて、第1〜3のiベクトルをそれぞれ算出する。類似度算出部22−mは、第1〜3のiベクトルのそれぞれについて、第1〜N番目の番組音声と第m番目の補完音声との間のそれぞれの類似度を算出する。そして、類似度加算部23−mは、第1〜3のiベクトルのそれぞれについて、類似度を加算することで類似度の総和を算出し、3つの算出結果を重み付けして加算し、類似度の加算総和を求める。選択部24は、類似度の加算総和に基づいて、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、番組音声と最も類似しない音響的な特徴を有する補完音声DB20−c(補完音声話者c)を選択する。
【0104】
尚、本発明の実施形態による音声選択装置1のハードウェア構成としては、通常のコンピュータを使用することができる。音声選択装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声選択装置1に備えた特徴量算出部11−1〜11−N、特徴量算出部21−1〜21−M、類似度算出部22−1〜22−M、類似度加算部23−1〜23−M及び選択部24の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラム(音声選択プログラム)は、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0105】
1 音声選択装置
10−1〜10−N 番組音声DB
11−1〜11−N,21−1〜21−M 特徴量算出部
20−1〜20−M 補完音声DB
22−1〜22−M 類似度算出部
23−1〜23−M 類似度加算部
24 選択部
図1
図2
図3
図4
図5
図6
図7