(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-10
(45)【発行日】2022-11-18
(54)【発明の名称】音声特性処理装置、音声認識装置およびプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20221111BHJP
【FI】
G10L15/22 460Z
(21)【出願番号】P 2018091616
(22)【出願日】2018-05-10
【審査請求日】2021-04-01
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】所澤 愛子
(72)【発明者】
【氏名】佐藤 庄衛
【審査官】中村 天真
(56)【参考文献】
【文献】国際公開第2016/075780(WO,A1)
【文献】特開2002-341890(JP,A)
【文献】特表2018-537798(JP,A)
【文献】マテイアス・ガン・ダルハイマー,高木淳司,杵渕 聡,Qtプログラミング入門,第1版,株式会社オライリー・ジャパン,1999年11月27日,p.186-187
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
入力される音声の音響特徴量を取得し、前記音響特徴量の次元圧縮処理により音声特性情報を生成し、前記音声特性情報を出力する音声特性解析部と、
前記音響特徴量に少なくとも基づく音声認識処理により生成された認識単語列を取得するとともに、前記音声特性解析部が出力した音声特性情報を取得し、前記認識単語列と前記音声特性情報とを時間軸方向に対応付けし、対応付けされた前記音声特性情報に基づき前記認識単語列の文字属性を含む提示属性を用いて、前記認識単語列を提示する音声特性提示部と、
を具備し、
前記音声特性提示部は、前記音声特性情報を色相と彩度と明度の成分からなるHSV色空間内の色に写像することによって決定される文字フォントの色を前記提示属性として用いて、前記認識単語列を文字列として視覚的に出力するものであ
り、
前記音声特性提示部は、前記音声特性情報を写像することによって決定されたHSV色空間の座標値を、さらに、RGB(赤/緑/青)色空間の座標値またはCMYK(シアン/マゼンタ/イエロー/ブラック)色空間の座標値に変換して前記文字フォントの色とする、
音声特性処理装置。
【請求項2】
前記音声特性解析部は、前記入力される音声を基にFFTまたはDCTの処理を行うことによって前記音響特徴量を取得するとともに、t分布型確率的近傍埋め込みの処理によって前記音響特徴量の次元圧縮処理を行うものである、
請求項
1に記載の音声特性処理装置。
【請求項3】
音声を取得する音声取得部と、
前記音声を基に音響特徴量を作成する音響特徴量作成部と、
前記音響特徴量作成部が作成した前記音響特徴量に少なくとも基づいて認識単語列を出力する音声認識部と、
請求項1
または2に記載の音声特性処理装置と、
を具備する音声認識装置。
【請求項4】
コンピューターを、請求項1
または2に記載の音声特性処理装置として機能させるためのプログラム。
【請求項5】
コンピューターを、請求項
3に記載の音声認識装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声特性処理装置、音声認識装置およびプログラムに関する。
【背景技術】
【0002】
近年、音声認識処理に広く用いられている音響特徴量の一つにi-vectorがあり、多くの話者認識システムのベースとしても用いられている。このi-vectorは、発話内容の推定に用いられるだけではなく、声の知覚的特徴等のいわゆる話者性や環境音を表す特徴量としても用いられる。特に、音声認識処理により音響特徴量として得られたi-vector(ベクトル)を、コサイン類似度等を用いて分類することにより、話者を所定のグループに分類したり、話者の本人性を判定したりする手法が提案されている。
【0003】
話者識別の手法として様々な手法が提案されており、例えば、非特許文献1にはi-vectorを用いた話者認識の手法などについて記載されている。
【先行技術文献】
【非特許文献】
【0004】
【文献】小川哲司,塩田さやか,「解説 i-vectorを用いた話者認識」,日本音響学会誌,Vol.70,No. 6,pp. 332-339,2014年
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、音声認識結果の単語列が提示される状況においては、必ずしも話者を正確に識別することが求められているわけではない。例えば、インタビュー等の収録音声素材に音声認識技術を用いた書き起こしシステムを使用する状況では、インタビューを受ける人が複数(多数)である場合、インタビューを受ける人の音声ないしは音声認識結果が正確且つ完全に分類されていることが求められない場合もある。例えば、話者のおおよその傾向や、音声収録環境のおおよその傾向がわかれば、書き起こし作業をする上で、このような書き起こしシステムが出力する単語列からなる情報を話者ごとに識別するなどの視認性が向上する効果が期待できる。
一方、音声から求められた音響特徴量に基づいて話者性を解析し、そこから話者個人(例えば、「○○太郎」あるいは「××花子」と言った個人)を具体的に識別したり、話者グループ(例えば、男性話者あるいは女性話者といったグループ)に分類したりすることまでは求められない。その代わりに、音響特徴量が示すおおよその傾向を、音声認識結果である単語に関連付けて提示することや、大量の音声認識結果の単語列の中で、話者の移り変わりや、環境音の変化などを提示することも有用となる。そして、例えば、音声認識技術との組み合わせによるインタビューの書き起こしや会議の議事録などに上述した情報を付加できるようになることが望ましい。
【0006】
本発明は、上記の課題認識に基づいて行なわれたものであり、音声認識結果の単語列に関連付く音声特性を容易に把握することを可能とする音声特性処理装置、音声認識装置およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0007】
[1]上記の課題を解決するため、本発明の一態様による音声特性処理装置は、入力される音声の音響特徴量を取得し、前記音響特徴量の次元圧縮処理により音声特性情報を生成し、前記音声特性情報を出力する音声特性解析部と、前記音響特徴量に少なくとも基づく音声認識処理により生成された認識単語列を取得するとともに、前記音声特性解析部が出力した音声特性情報を取得し、前記認識単語列と前記音声特性情報とを時間軸方向に対応付けし、対応付けされた前記音声特性情報に基づき前記認識単語列の文字属性を含む提示属性を用いて、前記認識単語列を提示する音声特性提示部と、を具備するものである。
【0008】
[2]また、本発明の一態様は、上記の音声特性処理装置において、前記音声特性解析部が出力する前記音声特性情報は、5次元以下の次元数を有するベクトルの情報である、ことを特徴とする。
【0009】
[3]また、本発明の一態様は、上記の音声特性処理装置において、前記音声特性解析部が出力する前記音声特性情報は、2次元の次元数を有するベクトルの情報またはスカラー値の情報である、ことを特徴とする。
【0010】
[4]また、本発明の一態様は、上記の音声特性処理装置において、前記音声特性提示部は、前記音声特性情報に基づき決定される文字フォントの色と文字フォントのサイズと文字のフォントファミリーの種類との少なくともいずれかを前記提示属性として用いて、前記認識単語列を文字列として視覚的に出力するものである、ことを特徴とする。
【0011】
[5]また、本発明の一態様は、音声を取得する音声取得部と、前記音声を基に音響特徴量を作成する音響特徴量作成部と、前記音響特徴量作成部が作成した前記音響特徴量に少なくとも基づいて認識単語列を出力する音声認識部と、上記[1]から[4]までのいずれか一項に記載の音声特性処理装置と、を具備する音声認識装置である。
【0012】
[6]また、本発明の一態様は、コンピューターを、上記[1]から[4]までのいずれか一項に記載の音声特性処理装置として機能させるためのプログラムである。
【0013】
[7]また、本発明の一態様は、コンピューターを、上記[5]に記載の音声認識装置として機能させるためのプログラムである。
【発明の効果】
【0014】
本発明によれば、音声認識結果として得られる認識単語列を、その認識単語列が発話された時の音声特性に基づいて提示することが可能となる。
【図面の簡単な説明】
【0015】
【
図1】本発明の実施形態による音声認識装置(音声特性処理装置)の概略機能構成を示す機能ブロック図である。
【
図2】同実施形態における話者性解析部のより詳細な機能構成を示すブロック図である。
【
図3】同実施形態における話者性提示部のより詳細な機能構成を示すブロック図である。
【
図4】同実施形態による認識単語列記憶部が記憶する認識単語列のデータの構成例を示す概略図である。
【
図5】同実施形態による話者性情報記憶部が記憶する話者性情報のデータの構成例を示す概略図である。
【
図6】同実施形態による話者性付与認識単語列記憶部で記憶される話者性付与認識単語列のデータの構成例を示す概略図である。
【
図7】同実施形態による音声認識装置による処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0016】
次に、本発明の一実施形態について、図面を参照しながら説明する。
本実施形態による音声特性処理装置は、音声認識処理の対象となる音声の特性を解析し、この解析により音声特性を求め、求めた音声特性を用いて認識単語列を提示するものである。なお、認識単語列は、音声認識処理の結果から得られるものである。
【0017】
ここで、音声特性とは、音声の特徴を表す情報であって、話者特性である話者性と環境特性とを含むものをいう。この話者特性は、話者が属するグループとして、例えば、性別や、年齢層や、声の特徴による分類等を表すものである。後述するように、本実施形態における話者特性は、話者個人を明確に識別するものではない。また、話者特性は、上記のグループに対応する情報であるが、必ずしも特定のグループとして、例えば、男性、女性などといった明確な集合と関連付けられている必要はない。一方、環境特性とは、環境音の特性をいう。この環境音とは、音声のうち、話者が発する言語音声以外の要素を含む音声をいい、環境特性とは、環境音の分類を表す情報をいう。
【0018】
本実施形態において、上記の話者特性と環境特性とを明確に区別することは必ずしも必要ではない。話者特性も環境特性も、音響特徴量の一種として捉えることが可能である。以下において、話者特性と環境特性とを特に区別せず「音声特性」と呼ぶ場合がある。また、「音声特性」のことを便宜的に「話者性」と呼ぶ場合がある。
【0019】
図1は、本実施形態による音声認識装置2の概略の機能構成を示す機能ブロック図である。
図1に示すように、音声認識装置2は、音声取得部101と、音響特徴量作成部102と、短区間音響特徴量記憶部103と、長区間音響特徴量記憶部104と、音声認識部105と、認識単語列記憶部106と、話者性解析部107と、話者性情報記憶部108と、話者性提示部109とを含んで構成される。なお、上記構成のうちの、話者性解析部107と、話者性情報記憶部108と、話者性提示部109とを含んで構成される部分を音声特性処理装置1と呼ぶ場合もある。また、音声認識装置2自体を「音声特性処理装置」と呼んでもよい。
また、話者性解析部107は、「音声特性解析部」とも呼ばれる。また、話者性提示部109は、「音声特性提示部」とも呼ばれる。
また、話者性提示部109から出力される情報は、提示装置3において提示される。
ここに列挙した各機能部は、例えば、電子回路を用いて実現される。また、これらの各機能部は、必要に応じて、半導体メモリーや磁気ハードディスク装置などといった記憶手段を内部に備えてよい。また、各機能を、コンピューターおよびソフトウェアによって実現するようにしてもよい。
【0020】
音声取得部101は、外部から音声データとして音声を取得する。具体的には、音声取得部101は、外部から、適宜符号化された音声のデータを受信する。あるいは、音声取得部101が、マイクロフォン等から取得したアナログ音声波形をデジタル化し符号化することなどによって音声データを取得してもよい。
【0021】
音響特徴量作成部102は、音声取得部101が取得した音声データから音響特徴量を抽出し、音響特徴量のデータを出力する。なお、音響特徴量作成部102は、所定のサンプリングレート(例えば、16kHz(キロヘルツ))で得た値から、多次元の音響特徴量を生成し、解析する時間幅の長短で分けて、短区間音響特徴量と長区間音響特徴量の2種類の音響特徴量のデータを出力する。音響特徴量作成部102は、作成した短区間音響特徴量のデータと長区間音響特徴量のデータとを、それぞれ、短区間音響特徴量記憶部103と長区間音響特徴量記憶部104とに書き込む。なお、音響特徴量作成部102が行う音響特徴量の抽出の処理は、既存の技術により実現可能である。音響特徴量の計算手法としては、FFT、対数正規分布に従う変数の対数をとり、正規分布に従う変数に変換する対数変換、DCTなどを組み合わせる処理が広く知られている。
【0022】
音響特徴量の計算手法は、解析する時間幅の長短で分類することもできる。例えば、MFCC(メル周波数ケプストラム係数)は、音声認識分野で一般的に用いられている特徴量であり、1フレームの音声から計算される。ここで、1フレームは32ミリ秒程度の極めて短い時間区間である。つまり、MFCCは、短区間音響特徴量の一つである。1フレームの音声データだけではなく、その前後のフレームの音声データからの変化量を用いる場合もあるが、その場合にも、3フレームの短区間音響特徴量あるいは5フレームの短区間音響特徴量に分類できる。
いわゆる話者認識で用いられるi-vectorは、話者認識における長区間音響特徴量の代表例である。上述したMFCC等と比較して、i-vectorは、無音区間を開始点として次の無音区間までという非常に長い時間区間の音声データから作成される特徴量である。言い換えれば、無音区間から次の無音区間までの区間は、発話の頭から次の切れ目までの区間である。話者認識において、例えば、i-vectorは、100次元程度の次元数を持つベクトルが用いられる。なおi-vectorを求めるための計算は、例えば10フレーム(例えば、320ミリ秒)など、任意の時間範囲ごとに随時行われ、その各時点で特徴量が更新される。つまり、長区間音響特徴量は、300ミリ秒以上の時間区間ごとに計算され、更新される特徴量である。
【0023】
短区間音響特徴量記憶部103は、短区間音響特徴量のデータを記憶するものである。
長区間音響特徴量記憶部104は、長区間音響特徴量のデータを記憶するものである。
【0024】
音声認識部105は、短区間音響特徴量記憶部103に記憶された短区間音響特徴量および長区間音響特徴量記憶部104に記憶された長区間音響特徴量を読み出し、この長区間音響特徴量を音声認識処理して認識単語列を生成し、出力する。音声認識部105は、音声認識処理を行う際、適宜、発音辞書、音響モデル、言語モデル等のデータを参照する。発音辞書や音響モデルや言語モデルは、予めデータベース等に蓄積されている。つまり、音声認識部105は、一例として、短区間音響特徴量や長区間音響特徴量を音響モデルに適用し、最尤単語列を認識単語列として出力する。このとき、音声認識部105は、言語モデルや辞書にも基づいて最尤単語列を求めるようにしてもよい。音声認識部105は、音声認識処理の結果として得られた認識単語列を、認識単語列記憶部106に書き込む。
つまり、音声認識部105は、少なくとも、音響特徴量作成部102が作成した音響特徴量に基づいて、認識単語列を求め、出力する。
【0025】
認識単語列記憶部106は、音声認識部105から出力される単語列(認識単語列)を記憶する。認識単語列は、元の音声データの時系列と、時刻で対応付けることが可能なデータである。
【0026】
一般的な音声認識処理では短区間音響特徴量のみを用いる場合もあるが、本実施形態の特徴の一つは、長区間音響特徴量を用いて話者性を求めることである。
話者性解析部107は、長区間音響特徴量記憶部104から長区間音響特徴量のデータを読み出す。話者性解析部107は、長区間音響特徴量のデータを基に、話者性情報を算出する。話者性情報とは、その区間の音声データに対応する特徴の情報であり、話者の性別や、話者の年齢層(例えば、子ども、若者、老人など)や、周囲の環境音等に対応する情報である。話者性情報は、性別や年齢層だけでなく、話者が属する属性を表す他の情報を含む場合がある。話者性解析部107は、算出した話者性情報を、話者性情報記憶部108に書き込む。
より具体的な処理として、話者性解析部107は、音声認識処理に入力される音声の音響特徴量を取得して、その音響特徴量を次元圧縮する処理を行い、話者性情報(音声特性情報)を出力する。
なお、話者性解析部107のより詳細な構成については、後で別の図を参照しながら説明する。
【0027】
話者性情報記憶部108は、話者性解析部107によって算出された話者性情報を記憶するものである。
【0028】
話者性提示部109は、認識単語列記憶部106から読み出す認識単語列と、話者性情報記憶部108から読み出す話者性情報とを、同時に提示する。話者性提示部109は、認識単語列と話者性情報とを時間的に同期させながら提示する。ただし、認識単語列と話者性情報との同期のさせ方にはバリエーションがある。それらのバリエーションに関しては、後述する。話者性情報を視覚化して提示する場合、話者性提示部109は、単語列を表示する際の文字の色あるいは文字の背景色や、単語列あるいはその背景の明暗や、その他の文字表示属性(太字、斜字、文字サイズなど)で、話者性情報を表現する。
つまり、話者性提示部109は、音声認識処理の結果として得られた認識単語列を取得するとともに、話者性解析部107から出力される話者性情報(音声特性情報)を取得し、前記認識単語列と前記音声特性情報との間で時間軸方向の対応付けを行い、その認識単語列を、対応する話者性情報(音声特性情報)に基づく提示属性を用いて提示するものである。
【0029】
提示装置3は、例えば、液晶ディスプレイ装置、パーソナルコンピューター、タブレット端末、スマートフォン、腕時計型端末等、視覚あるいは聴覚等で情報を提示する機能を有する装置である。
【0030】
ここで、認識単語列と話者性情報とを時間的に同期させて提示する方法のバリエーションについて説明する。下で説明する提示方法の、いずれの方法を用いてもよい。
[提示方法1]オフライン処理
この提示方法は、例えば予め取得された音声に基づいて処理するオフライン処理を前提とする。この提示方法では、全時間区間の音声について、認識単語列と話者性情報との間の時間軸方向の対応付けを行ってから(即ち、話者性付与認識単語列を得てから)、一括で、話者性情報に基づく認識単語列の提示を行う。
[提示方法2]認識単語列先行型リアルタイム処理
この提示方法は、音声の取得と並行しながら音声認識処理および話者性情報の解析処理を行うオンライン処理を前提とする。つまり、音声は逐次的に音声認識装置2に入力される。そして、話者性提示部109は、認識単語列が得られ次第、その認識単語列に対応する話者性情報が取得できていない場合にも、まず認識単語列のみを提示する。そして、話者性提示部109は、話者性情報のない状態で(即ち、提示属性のない状態で)認識単語列を提示した後、話者性情報が算出され次第、話者性情報に基づく提示属性を用いて認識単語列を提示するよう、提示内容を更新する。
[提示方法3]リアルタイム表示
この提示方法も、上の「提示方法2」と同様に、音声の取得と並行しながら音声認識処理および話者性情報の解析処理を行うオンライン処理を前提とする。そして、この提示方法では、音声は逐次的に音声認識装置2に入力される。そして、話者性提示部109は、リアルタイムに認識単語列と話者性情報の両方を取得し、即ち話者性付与認識単語列の情報を得て、話者性情報に基づく提示属性を用いて認識単語列を提示する。
【0031】
具体例として、話者性提示部109は、話者性情報(音声特性情報)に基づき決定される文字フォントの色と文字フォントのサイズと文字のフォントファミリーの種類との少なくともいずれかを提示属性として用いて、認識単語列を文字列として視覚的に出力するものである。ここで、「文字列を視覚的に出力」とは、例えば液晶ディスプレイ装置等の表示装置に、文字列を表示したり、例えばインクジェットプリンターやレーザープリンターや3Dプリンター等を用いて文字列を印刷あるいは成形したりするものである。なお、提示属性は、ここに例示したものには限られない。
【0032】
図2は、話者性解析部107のより詳細な機能構成を示すブロック図である。図示するように、話者性解析部107は、比較対象長区間音響特徴量記憶部202と、次元圧縮部203とを含んで構成される。
【0033】
比較対象長区間音響特徴量記憶部202は、予め蓄積される大量の長区間音響特徴量のデータを記憶するものである。比較対象長区間音響特徴量記憶部202は、例えば、様々な状況等において予め取得され収集された音声データを基に抽出された長区間音響特徴量のデータを記憶する。比較対象長区間音響特徴量記憶部202が、例えば、過去の音声認識処理の際に抽出された長区間音響特徴量のデータを記憶するものであってもよい。比較対象長区間音響特徴量記憶部202が記憶する比較対象長区間音響特徴量のデータは、次元圧縮部203が長区間音響特徴量記憶部104から渡される長区間音響特徴量データの次元を圧縮する際の比較対象データとなる。比較対象長区間音響特徴量記憶部202に記憶される比較対象長区間音響特徴量のデータの種類は、話者性解析の対象として長区間音響特徴量記憶部104から渡される長区間音響特徴量のデータと同種のデータである。即ち、話者性解析の対象となる音響特徴量(長区間音響特徴量)のデータが、例えば、i-vectorのとき、比較対象として比較対象長区間音響特徴量記憶部202が記憶する音響特徴量のデータもi-vectorである。充分な量の比較対象長区間音響特徴量のデータを比較対象長区間音響特徴量記憶部202に蓄積しておくことにより、次元圧縮部203における適切な次元圧縮(主成分分析等の処理)が可能となる。
【0034】
次元圧縮部203は、長区間音響特徴量記憶部104から長区間音響特徴量のデータを読み出す。長区間音響特徴量のデータは、前述の通り、100次元程度の高次元のベクトルである。また、次元圧縮部203は、比較対象長区間音響特徴量記憶部202から比較対象長区間音響特徴量のデータを読み出す。そして、次元圧縮部203は、長区間音響特徴量を圧縮し、1次元または2次元のデータにする。1次元のデータは、スカラー値と捉えることもできるし、1次元のベクトルと捉えることもできる。ベクトルの次元圧縮のための既存技術としては様々な手法が存在するが、次元圧縮部203は、例えば、t-SNEを用いて、高次元の長区間音響特徴量データを2次元のデータに、次元圧縮する。t-SNEは、「t-Distributed Stochastic Neighbor Embedding」の略であり、確率分布を用いる手法である。つまり、t-SNEは、「t分布型確率的近傍埋め込み」の処理である。また、次元圧縮部203は、圧縮後の各次元の値の範囲が-1以上且つ+1以下になるように正規化する。
このように次元圧縮部203は、長区間音響特徴量データを、2次元の、各次元の成分が-1以上且つ+1以下の範囲に正規化されたデータに変換する。話者性解析部107が出力する話者性情報は、このように2次元の、各次元の成分の値の範囲の範囲が正規化されたデータである。
【0035】
なお、ここで、次元圧縮部203がt-SNEを用いて長区間音響特徴量のデータを2次元のデータに圧縮する例を説明したが、次元圧縮部203は、t-SNE以外の手法を用いて長区間音響特徴量の次元圧縮を行ってもよい。また、次元圧縮部203は、長区間音響特徴量のデータを1次元のデータに圧縮してもよい。それらの場合も、話者性解析部107は、圧縮後のデータを話者性情報として出力する。
【0036】
図3は、話者性提示部109のより詳細な機能構成を示すブロック図である。図示するように、話者性提示部109は、情報変換部303と、話者性付与認識単語列記憶部304と、出力部305と、を含んで構成される。
【0037】
情報変換部303は、認識単語列記憶部106から、認識単語列を読み出す。また、情報変換部303は、話者性情報記憶部108から話者性情報を読み出す。そして、情報変換部303は、認識単語列と話者性情報とを時間軸上で対応付ける。そして、情報変換部303は、話者性情報を付与した認識単語列を生成し、話者性付与認識単語列記憶部304に書き込む。
【0038】
その一例として、情報変換部303は、話者性情報に基づく文字表示属性(あるいは、書式)を、認識単語列に関連付ける。例えば、話者性情報が1次元の数値の情報である場合、情報変換部303は、話者性情報を、文字のフォントの書体(フォントファミリー)や、フォントサイズ(ポイント数、ピクセル数等)に変換する。そして、情報変換部303は、これらの、フォントの書体やフォントサイズを、認識単語列あるいはその部分列に関連付けて出力する。また、話者性情報が2次元の数値の情報である場合、情報変換部303は、話者性情報を、2次元平面上の色空間における特定の座標値に変換する。この座標値は、具体的な色を表す。そして、情報変換部303は、この座標値、または色を特定する情報を、認識単語列あるいはその部分列に関連付けて出力する。
以上のように、情報変換部303が話者性情報に基づく文字表示属性(フォントファミリー、フォントサイズ、色等)を単語列に関連付けて、話者性付与認識単語列として出力することにより、その単語列を特定の属性を有する文字で表示することが可能となる。
【0039】
情報変換部303が話者性情報を色に対応付ける処理の具体例は、つぎのとおりである。ここで、話者性情報は、正規化済みの2次元のベクトル(x,y)である。正規化されているため、-1.0≦x≦+1.0、且つ、-1.0≦y≦+1.0である。情報変換部303は、ベクトル(x,y)を、HSV色空間内の2次元平面に写像する。HSV色空間は、色相(Hue)、彩度(Saturation,Chroma)、明度(Value,Lightness,Brightness)の三つの成分からなる色空間である。本実施形態では、情報変換部303は、xおよびyの値を基に、下の式(1),(2),(3)を用いてH,V,Sの値を算出する。
H=(x+1.0)*180 ・・・(1)
V=(y+1.4)*25 ・・・(2)
S=100 ・・・(3)
なお、上記の数式において「*」(アスタリスク)は乗算の演算子である。算出されるH,V,Sの値の範囲は次の通りである。即ち、-1.0≦x≦+1.0であるため、式(1)より、0≦H≦360である。また、-1.0≦y≦+1.0であるため、式(2)より、10≦V≦60である。また、式(3)より、Sの値は100に固定される。
なお、情報変換部303が、上の計算で得られたH、S、Vの値を、さらに、RGB(赤/緑/青)の色空間の座標値や、CMYK(シアン/マゼンタ/イエロー/ブラック)の色空間の座標値に変換してもよい。
【0040】
ここでは、情報変換部303が、話者性情報である2次元ベクトルを基に、数式により認識単語列の提示属性(文字属性)を算出する例を示した。情報変換部303は、数式により提示属性を算出する代わりに、例えば、予め作成されている参照テーブル等をルックアップすることによって提示属性を決定するようにしてもよい。
【0041】
話者性付与認識単語列記憶部304は、認識単語列と話者性情報とを関連付けてなる話者性付与認識単語列の情報を記憶する。話者性付与認識単語列記憶部304が記憶する話者性情報は、次元圧縮されたベクトル(2次元ベクトル(x,y)等)であってもよく、そのベクトル値から変換された色空間における座標値であってもよく、また、それら両方であってもよい。
出力部305は、話者性付与認識単語列記憶部304から話者性付与認識単語列を読み出し、外部にその情報を提示する。具体的には、出力部305は、認識単語列を、関連付けられた文字表示属性を用いて画面に表示したり紙等に印刷したりする。
【0042】
次に、音声特性処理装置1が扱う主要なデータの構成について説明する。
図4は、認識単語列記憶部106が記憶する認識単語列のデータの構成例を示す概略図である。図示するように、認識単語列記憶部106が記憶するデータは、一例として表形式のデータであり、開始時刻と、時間長と、認識単語列の各項目を有する。開始時刻は、音声認識処理の基となった音声データの中の特定の時点を表す。開始時刻は、例えば絶対時刻あるいは相対時刻のいずれで表されてもよい。図示するデータ例では、開始時刻は、年月日および時分秒と、ミリ秒単位の数値とで表される。開始時刻は、その行の認識単語列の発話が音声データ内で開始された時刻を表す。時間長は、その行の認識単語列の発話が開始されてから終了するまでの時間長を表す。図示するデータ例では、終了時刻は、時分秒と、ミリ秒単位の数値とで表される。開始時刻と時間長とを加算すると、その行の認識単語列の終了時刻となる。認識単語列は、音声認識部105による音声認識処理の結果として得られた単語の列である。図示するデータでは、各行に便宜的に行番号を付与している。第1行目のデータでは、開始時刻が「2013/06/03 11:05:23.010」(2013年6月3日11時05分23秒010)であり、時間長が「00:00:02.340」(2.340秒)である。また、認識単語列は「こんにちは 先日 友人 と 話し て いたら いつも」である。第2行目以下においても同様である。
【0043】
図5は、話者性情報記憶部108が記憶する話者性情報のデータの構成例を示す概略図である。図示するように、話者性情報記憶部108が記憶するデータは、一例として表形式のデータであり、開始時刻と、時間長と、話者性情報の各項目を有する。開始時刻と時間長の各項目の表現形式は、それぞれ、
図4に示した認識単語列記憶部106のデータにおける開始時刻と時間長と同様である。また、話者性情報は、話者性解析部107によって求められた2次元のベクトルの形式で表されるデータを保持する。このベクトルにおける各要素の数値は、-1.0以上且つ+1.0以下の範囲に正規化されている。図示するデータでは、各行に便宜的に行番号を付与している。第1行目のデータでは、開始時刻が「2013/06/03 11:05:23.010」(2013年6月3日11時05分23秒010)であり、時間長が「00:00:00.320」(0.320秒)である。また、話者性情報は「(-0.56,+0.23)」である。第2行目以降も同様である。なお、
図5に示すデータ例では、各行における時間長の値は「00:00:00.320」(0.320秒)で一定である。
【0044】
図6は、話者性提示部109内の話者性付与認識単語列記憶部304に記憶される話者性付与認識単語列のデータの構成例を示す概略図である。図示するように、話者性付与認識単語列記憶部304が記憶するデータは、一例として表形式のデータであり、開始時刻と、時間長と、認識単語列と、話者性情報の各項目を有する。開始時刻と時間長と認識単語列の各項目それぞれの表現形式は、
図4に示した認識単語列記憶部106のデータにおける開始時刻と時間長と同様である。話者性付与認識単語列のデータにおいては、図示するように、認識単語列のデータの各行に、話者性情報が付与されている。話者性提示部109内の情報変換部303は、認識単語列のデータ(
図4)と話者性情報のデータ(
図5)とを基に、時間区間のマッチングを行い、認識単語列に対応する話者性情報を付与する。この情報変換部303の処理により、
図6のデータが生成される。なお、
図4および
図5で例示した通り、認識単語列のデータの1行分の時間区間は、話者性情報のデータの1行分の時間区間よりも長いことが通常である。これにより、話者性情報のデータの複数行に当たる時間区間が1行の認識単語列のデータに対応する時間区間に含まれる場合には、それら複数行の話者性情報を代表するベクトル値が、情報変換部303によって
図6のようなデータとして付与される。ここで、複数個の話者性情報(例えば、2次元ベクトル値)を代表するベクトル値(2次元ベクトル値)とは、例えば、それら複数の2次元ベクトル値の平均値や、中央値や、最頻値や、最初の時間区間の値などである。
【0045】
前述の出力部305は、
図6に例示した話者性付与認識単語列のデータに基づき、外部への提示を行う。具体的には、出力部305は、例えば、
図6のある行の認識単語列(文字列)を、その行の話者性情報によって特定される文字表示属性(例えば、文字の色や、文字のフォントサイズや、文字のフォントファミリー等)で表示する。
【0046】
なお、ここでは、発話分の1行ごとの単位で話者性情報に基づく提示属性を求め、その提示属性を用いて認識単語列を提示する例を説明した。なお、提示属性を決定する単位は、異なっていてもよい。例えば、単語ごとの単位で話者性情報に基づく提示属性を求め、その提示属性を用いて認識単語列を提示してもよい。また、文書ごと(文書全体)の単位で話者性情報に基づく提示属性を求め、その提示属性を用いて認識単語列を提示してもよい。
【0047】
次に、音声認識装置2の全体的な処理手順について説明する。
図7は、音声認識装置2による処理手順の一例を示すフローチャートである。なお、このフローチャートは、各ステップの処理を逐次的に実行する形態を示しているが、論理的に可能な限りにおいて、一部の複数のステップを並列して実行したり、順序を入れ替えて実行したりするようにしてもよい。また、前述の提示方法1から3までのいずれかの提示方法で処理を実行するために、提示方法に応じた変更をこのフローチャートで示す手順に加えてもよい。以下、このフローチャートに沿って説明する。
【0048】
ステップS11において、音声取得部101は、取得すべき未処理の音声があるか否かを判定する。未処理の音声がある場合(ステップS11:YES)には、次のステップS12に進む。未処理の音声がない場合(ステップS11:NO)には、音声認識装置2は、本フローチャート全体の処理を終了する。
【0049】
ステップS12において、音声取得部101は、所定の時間区間に相当する音声を取得する。
【0050】
ステップS13において、音響特徴量作成部102は、取得済みの音声のうち、音響特徴量がまだ作成されていない時間区間の音声について、音響特徴量を作成する。音響特徴量作成部102は、作成した音響特徴量のデータを、短区間音響特徴量記憶部103あるいは長区間音響特徴量記憶部104に、適宜書き込む。
【0051】
ステップS14において、音声認識部105は、作成された音響特徴量に少なくとも基づいて、音声認識処理を実行する。その結果、音声認識部105は、当該時間区間に対応する認識単語列を出力する。
【0052】
ステップS15において、話者性解析部107は、音響特徴量(特に、長区間音響特徴量)に基づいて、話者性を解析する。話者性解析部107は、その結果、話者性情報を生成し、話者性情報記憶部108に書き込む。
【0053】
ステップS16において、話者性提示部109は、認識単語列記憶部106から読み出した認識単語列と、話者性情報記憶部108から読み出した話者性情報とを、時間軸上で対応付ける。なお、本ステップにおける処理は、前述の提示方法1から3までのいずれの方法を用いるかに応じてバリエーションを有してもよい。
【0054】
ステップS17において、話者性提示部109は、話者性情報に基づく提示属性を用いて、認識単語列を提示する。なお、本ステップにおける処理も、前述の提示方法1から3までのいずれの方法を用いるかに応じてバリエーションを有してもよい。
ステップS17の処理が終了すると、次の時間区間の処理に移るために、ステップS11に戻る。
【0055】
以上説明したように、本実施形態によれば、音声認識処理の対象とする音声の音響特徴量のうちの特定の特徴量のデータを次元圧縮し、音声特性情報(話者性情報)を生成できる。また、音声認識処理の結果として得られる認識単語列を、その単語列が発話された時点の音声特性情報(話者性情報)に基づく属性で提示すすることができる。これにより、認識単語列と音声特性情報(話者性情報)とを併せて、視覚的にわかりやすい方法で出力することができる。
本実施形態による装置を使用するユーザーにとっては、例えば、音声認識結果に基づいて書き起こしテキストを作成する場合や、音声認識結果に基づいて議事録を作成する場合や、音声認識結果に基づいて映像コンテンツのための字幕を作成する場合などに、認識単語列と関連付けられる音声特性情報(話者性情報)を把握しやすい。つまり、ユーザーにとっては、認識単語列と音声特性情報(話者性情報)とを併せて視覚的に捉えることができ、作業効率が向上する。
【0056】
具体的には、例えば、大量の認識単語列の中から、ユーザーが特定の音声特性を有する箇所を探して、発見することが容易に行えるようになる。
また、大量の認識単語列の中において、話者の移り変わりや環境音の変化などを、視覚的に捉えることが可能となる。
【0057】
なお、上述した実施形態における音声認識装置あるいは音声特性処理装置の、少なくとも一部の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0058】
以上、一実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
上記実施形態においては、話者性解析部107における次元圧縮部203は、長区間音響特徴量記憶部104から渡される長区間音響特徴量を1次元または2次元のベクトル(各要素は、数値)に圧縮することとした。この変形例においては、次元圧縮部203は、長区間音響特徴量記憶部104から渡される長区間音響特徴量を3次元、4次元、または5次元のベクトルに圧縮する。この場合、話者性解析部107から出力される情報の次元数は多少多くなるが、元の長区間音響特徴量(例えば、i-vector)が100次元程度のベクトルであることと比較すると、5次元程度への次元圧縮であっても、情報の圧縮としては充分に意味がある。
【0059】
つまり、上記の実施形態では、話者性解析部107が出力する話者性情報(音声特性情報)は、2次元の次元数を有するベクトルの情報またはスカラー値(1次元のベクトルとも捉えられる)の情報であった。本変形例の場合を含めると、話者性解析部107が出力する話者性情報(音声特性情報)は、5次元以下の次元数を有するベクトルの情報である。
【0060】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0061】
本発明は、例えば、音声認識装置を用いた様々な業務システムに利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0062】
1 音声特性処理装置
2 音声認識装置(音声特性処理装置)
3 提示装置
101 音声取得部
102 音響特徴量作成部
103 短区間音響特徴量記憶部
104 長区間音響特徴量記憶部
105 音声認識部
106 認識単語列記憶部
107 話者性解析部(音声特性解析部)
108 話者性情報記憶部
109 話者性提示部(音声特性提示部)
202 比較対象長区間音響特徴量記憶部
203 次元圧縮部
303 情報変換部
304 話者性付与認識単語列記憶部
305 出力部