特許7175101 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7175101音声特性処理装置、音声認識装置およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-11-10

(45)【発行日】2022-11-18

(54)【発明の名称】音声特性処理装置、音声認識装置およびプログラム

(51)【国際特許分類】

G10L 15/22 20060101AFI20221111BHJP

【ＦＩ】

G10L15/22 460Z

【請求項の数】 5

(21)【出願番号】P 2018091616

(22)【出願日】2018-05-10

(65)【公開番号】P2019197167

(43)【公開日】2019-11-14

【審査請求日】2021-04-01

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100171446

【弁理士】

【氏名又は名称】高田尚幸

(74)【代理人】

【識別番号】100114937

【弁理士】

【氏名又は名称】松本裕幸

(74)【代理人】

【識別番号】100171930

【弁理士】

【氏名又は名称】木下郁一郎

(72)【発明者】

【氏名】所澤愛子

(72)【発明者】

【氏名】佐藤庄衛

【審査官】中村天真

(56)【参考文献】

【文献】国際公開第２０１６／０７５７８０（ＷＯ，Ａ１）

【文献】特開２００２－３４１８９０（ＪＰ，Ａ）

【文献】特表２０１８－５３７７９８（ＪＰ，Ａ）

【文献】マテイアス・ガン・ダルハイマー，高木淳司，杵渕聡，Ｑｔプログラミング入門，第1版，株式会社オライリー・ジャパン，1999年11月27日，p.186-187

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１７／２６

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

入力される音声の音響特徴量を取得し、前記音響特徴量の次元圧縮処理により音声特性情報を生成し、前記音声特性情報を出力する音声特性解析部と、
前記音響特徴量に少なくとも基づく音声認識処理により生成された認識単語列を取得するとともに、前記音声特性解析部が出力した音声特性情報を取得し、前記認識単語列と前記音声特性情報とを時間軸方向に対応付けし、対応付けされた前記音声特性情報に基づき前記認識単語列の文字属性を含む提示属性を用いて、前記認識単語列を提示する音声特性提示部と、
を具備し、
前記音声特性提示部は、前記音声特性情報を色相と彩度と明度の成分からなるＨＳＶ色空間内の色に写像することによって決定される文字フォントの色を前記提示属性として用いて、前記認識単語列を文字列として視覚的に出力するものであり、
前記音声特性提示部は、前記音声特性情報を写像することによって決定されたＨＳＶ色空間の座標値を、さらに、ＲＧＢ（赤／緑／青）色空間の座標値またはＣＭＹＫ（シアン／マゼンタ／イエロー／ブラック）色空間の座標値に変換して前記文字フォントの色とする、
音声特性処理装置。

【請求項2】

前記音声特性解析部は、前記入力される音声を基にＦＦＴまたはＤＣＴの処理を行うことによって前記音響特徴量を取得するとともに、ｔ分布型確率的近傍埋め込みの処理によって前記音響特徴量の次元圧縮処理を行うものである、
請求項１に記載の音声特性処理装置。

【請求項3】

音声を取得する音声取得部と、
前記音声を基に音響特徴量を作成する音響特徴量作成部と、
前記音響特徴量作成部が作成した前記音響特徴量に少なくとも基づいて認識単語列を出力する音声認識部と、
請求項１または２に記載の音声特性処理装置と、
を具備する音声認識装置。

【請求項4】

コンピューターを、請求項１または２に記載の音声特性処理装置として機能させるためのプログラム。

【請求項5】

コンピューターを、請求項３に記載の音声認識装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声特性処理装置、音声認識装置およびプログラムに関する。

【背景技術】

【0002】

近年、音声認識処理に広く用いられている音響特徴量の一つにｉ－ｖｅｃｔｏｒがあり、多くの話者認識システムのベースとしても用いられている。このｉ－ｖｅｃｔｏｒは、発話内容の推定に用いられるだけではなく、声の知覚的特徴等のいわゆる話者性や環境音を表す特徴量としても用いられる。特に、音声認識処理により音響特徴量として得られたｉ－ｖｅｃｔｏｒ（ベクトル）を、コサイン類似度等を用いて分類することにより、話者を所定のグループに分類したり、話者の本人性を判定したりする手法が提案されている。

【0003】

話者識別の手法として様々な手法が提案されており、例えば、非特許文献１にはｉ－ｖｅｃｔｏｒを用いた話者認識の手法などについて記載されている。

【先行技術文献】

【非特許文献】

【0004】

【文献】小川哲司，塩田さやか，「解説ｉ－ｖｅｃｔｏｒを用いた話者認識」，日本音響学会誌，Vol.70，No. 6，pp. 332-339，２０１４年

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、音声認識結果の単語列が提示される状況においては、必ずしも話者を正確に識別することが求められているわけではない。例えば、インタビュー等の収録音声素材に音声認識技術を用いた書き起こしシステムを使用する状況では、インタビューを受ける人が複数（多数）である場合、インタビューを受ける人の音声ないしは音声認識結果が正確且つ完全に分類されていることが求められない場合もある。例えば、話者のおおよその傾向や、音声収録環境のおおよその傾向がわかれば、書き起こし作業をする上で、このような書き起こしシステムが出力する単語列からなる情報を話者ごとに識別するなどの視認性が向上する効果が期待できる。
一方、音声から求められた音響特徴量に基づいて話者性を解析し、そこから話者個人（例えば、「○○太郎」あるいは「××花子」と言った個人）を具体的に識別したり、話者グループ（例えば、男性話者あるいは女性話者といったグループ）に分類したりすることまでは求められない。その代わりに、音響特徴量が示すおおよその傾向を、音声認識結果である単語に関連付けて提示することや、大量の音声認識結果の単語列の中で、話者の移り変わりや、環境音の変化などを提示することも有用となる。そして、例えば、音声認識技術との組み合わせによるインタビューの書き起こしや会議の議事録などに上述した情報を付加できるようになることが望ましい。

【0006】

本発明は、上記の課題認識に基づいて行なわれたものであり、音声認識結果の単語列に関連付く音声特性を容易に把握することを可能とする音声特性処理装置、音声認識装置およびプログラムを提供しようとするものである。

【課題を解決するための手段】

【0007】

［１］上記の課題を解決するため、本発明の一態様による音声特性処理装置は、入力される音声の音響特徴量を取得し、前記音響特徴量の次元圧縮処理により音声特性情報を生成し、前記音声特性情報を出力する音声特性解析部と、前記音響特徴量に少なくとも基づく音声認識処理により生成された認識単語列を取得するとともに、前記音声特性解析部が出力した音声特性情報を取得し、前記認識単語列と前記音声特性情報とを時間軸方向に対応付けし、対応付けされた前記音声特性情報に基づき前記認識単語列の文字属性を含む提示属性を用いて、前記認識単語列を提示する音声特性提示部と、を具備するものである。

【0008】

［２］また、本発明の一態様は、上記の音声特性処理装置において、前記音声特性解析部が出力する前記音声特性情報は、５次元以下の次元数を有するベクトルの情報である、ことを特徴とする。

【0009】

［３］また、本発明の一態様は、上記の音声特性処理装置において、前記音声特性解析部が出力する前記音声特性情報は、２次元の次元数を有するベクトルの情報またはスカラー値の情報である、ことを特徴とする。

【0010】

［４］また、本発明の一態様は、上記の音声特性処理装置において、前記音声特性提示部は、前記音声特性情報に基づき決定される文字フォントの色と文字フォントのサイズと文字のフォントファミリーの種類との少なくともいずれかを前記提示属性として用いて、前記認識単語列を文字列として視覚的に出力するものである、ことを特徴とする。

【0011】

［５］また、本発明の一態様は、音声を取得する音声取得部と、前記音声を基に音響特徴量を作成する音響特徴量作成部と、前記音響特徴量作成部が作成した前記音響特徴量に少なくとも基づいて認識単語列を出力する音声認識部と、上記［１］から［４］までのいずれか一項に記載の音声特性処理装置と、を具備する音声認識装置である。

【0012】

［６］また、本発明の一態様は、コンピューターを、上記［１］から［４］までのいずれか一項に記載の音声特性処理装置として機能させるためのプログラムである。

【0013】

［７］また、本発明の一態様は、コンピューターを、上記［５］に記載の音声認識装置として機能させるためのプログラムである。

【発明の効果】

【0014】

本発明によれば、音声認識結果として得られる認識単語列を、その認識単語列が発話された時の音声特性に基づいて提示することが可能となる。

【図面の簡単な説明】

【0015】

【図1】本発明の実施形態による音声認識装置（音声特性処理装置）の概略機能構成を示す機能ブロック図である。

【図2】同実施形態における話者性解析部のより詳細な機能構成を示すブロック図である。

【図3】同実施形態における話者性提示部のより詳細な機能構成を示すブロック図である。

【図4】同実施形態による認識単語列記憶部が記憶する認識単語列のデータの構成例を示す概略図である。

【図5】同実施形態による話者性情報記憶部が記憶する話者性情報のデータの構成例を示す概略図である。

【図6】同実施形態による話者性付与認識単語列記憶部で記憶される話者性付与認識単語列のデータの構成例を示す概略図である。

【図7】同実施形態による音声認識装置による処理手順の一例を示すフローチャートである。

【発明を実施するための形態】

【0016】

次に、本発明の一実施形態について、図面を参照しながら説明する。
本実施形態による音声特性処理装置は、音声認識処理の対象となる音声の特性を解析し、この解析により音声特性を求め、求めた音声特性を用いて認識単語列を提示するものである。なお、認識単語列は、音声認識処理の結果から得られるものである。

【0017】

ここで、音声特性とは、音声の特徴を表す情報であって、話者特性である話者性と環境特性とを含むものをいう。この話者特性は、話者が属するグループとして、例えば、性別や、年齢層や、声の特徴による分類等を表すものである。後述するように、本実施形態における話者特性は、話者個人を明確に識別するものではない。また、話者特性は、上記のグループに対応する情報であるが、必ずしも特定のグループとして、例えば、男性、女性などといった明確な集合と関連付けられている必要はない。一方、環境特性とは、環境音の特性をいう。この環境音とは、音声のうち、話者が発する言語音声以外の要素を含む音声をいい、環境特性とは、環境音の分類を表す情報をいう。

【0018】

本実施形態において、上記の話者特性と環境特性とを明確に区別することは必ずしも必要ではない。話者特性も環境特性も、音響特徴量の一種として捉えることが可能である。以下において、話者特性と環境特性とを特に区別せず「音声特性」と呼ぶ場合がある。また、「音声特性」のことを便宜的に「話者性」と呼ぶ場合がある。

【0019】

図１は、本実施形態による音声認識装置２の概略の機能構成を示す機能ブロック図である。図１に示すように、音声認識装置２は、音声取得部１０１と、音響特徴量作成部１０２と、短区間音響特徴量記憶部１０３と、長区間音響特徴量記憶部１０４と、音声認識部１０５と、認識単語列記憶部１０６と、話者性解析部１０７と、話者性情報記憶部１０８と、話者性提示部１０９とを含んで構成される。なお、上記構成のうちの、話者性解析部１０７と、話者性情報記憶部１０８と、話者性提示部１０９とを含んで構成される部分を音声特性処理装置１と呼ぶ場合もある。また、音声認識装置２自体を「音声特性処理装置」と呼んでもよい。
また、話者性解析部１０７は、「音声特性解析部」とも呼ばれる。また、話者性提示部１０９は、「音声特性提示部」とも呼ばれる。
また、話者性提示部１０９から出力される情報は、提示装置３において提示される。
ここに列挙した各機能部は、例えば、電子回路を用いて実現される。また、これらの各機能部は、必要に応じて、半導体メモリーや磁気ハードディスク装置などといった記憶手段を内部に備えてよい。また、各機能を、コンピューターおよびソフトウェアによって実現するようにしてもよい。

【0020】

音声取得部１０１は、外部から音声データとして音声を取得する。具体的には、音声取得部１０１は、外部から、適宜符号化された音声のデータを受信する。あるいは、音声取得部１０１が、マイクロフォン等から取得したアナログ音声波形をデジタル化し符号化することなどによって音声データを取得してもよい。

【0021】

音響特徴量作成部１０２は、音声取得部１０１が取得した音声データから音響特徴量を抽出し、音響特徴量のデータを出力する。なお、音響特徴量作成部１０２は、所定のサンプリングレート（例えば、１６ｋＨｚ（キロヘルツ））で得た値から、多次元の音響特徴量を生成し、解析する時間幅の長短で分けて、短区間音響特徴量と長区間音響特徴量の２種類の音響特徴量のデータを出力する。音響特徴量作成部１０２は、作成した短区間音響特徴量のデータと長区間音響特徴量のデータとを、それぞれ、短区間音響特徴量記憶部１０３と長区間音響特徴量記憶部１０４とに書き込む。なお、音響特徴量作成部１０２が行う音響特徴量の抽出の処理は、既存の技術により実現可能である。音響特徴量の計算手法としては、ＦＦＴ、対数正規分布に従う変数の対数をとり、正規分布に従う変数に変換する対数変換、ＤＣＴなどを組み合わせる処理が広く知られている。

【0022】

音響特徴量の計算手法は、解析する時間幅の長短で分類することもできる。例えば、ＭＦＣＣ（メル周波数ケプストラム係数）は、音声認識分野で一般的に用いられている特徴量であり、１フレームの音声から計算される。ここで、１フレームは３２ミリ秒程度の極めて短い時間区間である。つまり、ＭＦＣＣは、短区間音響特徴量の一つである。１フレームの音声データだけではなく、その前後のフレームの音声データからの変化量を用いる場合もあるが、その場合にも、３フレームの短区間音響特徴量あるいは５フレームの短区間音響特徴量に分類できる。
いわゆる話者認識で用いられるｉ－ｖｅｃｔｏｒは、話者認識における長区間音響特徴量の代表例である。上述したＭＦＣＣ等と比較して、ｉ－ｖｅｃｔｏｒは、無音区間を開始点として次の無音区間までという非常に長い時間区間の音声データから作成される特徴量である。言い換えれば、無音区間から次の無音区間までの区間は、発話の頭から次の切れ目までの区間である。話者認識において、例えば、ｉ－ｖｅｃｔｏｒは、１００次元程度の次元数を持つベクトルが用いられる。なおｉ－ｖｅｃｔｏｒを求めるための計算は、例えば１０フレーム（例えば、３２０ミリ秒）など、任意の時間範囲ごとに随時行われ、その各時点で特徴量が更新される。つまり、長区間音響特徴量は、３００ミリ秒以上の時間区間ごとに計算され、更新される特徴量である。

【0023】

短区間音響特徴量記憶部１０３は、短区間音響特徴量のデータを記憶するものである。
長区間音響特徴量記憶部１０４は、長区間音響特徴量のデータを記憶するものである。

【0024】

音声認識部１０５は、短区間音響特徴量記憶部１０３に記憶された短区間音響特徴量および長区間音響特徴量記憶部１０４に記憶された長区間音響特徴量を読み出し、この長区間音響特徴量を音声認識処理して認識単語列を生成し、出力する。音声認識部１０５は、音声認識処理を行う際、適宜、発音辞書、音響モデル、言語モデル等のデータを参照する。発音辞書や音響モデルや言語モデルは、予めデータベース等に蓄積されている。つまり、音声認識部１０５は、一例として、短区間音響特徴量や長区間音響特徴量を音響モデルに適用し、最尤単語列を認識単語列として出力する。このとき、音声認識部１０５は、言語モデルや辞書にも基づいて最尤単語列を求めるようにしてもよい。音声認識部１０５は、音声認識処理の結果として得られた認識単語列を、認識単語列記憶部１０６に書き込む。
つまり、音声認識部１０５は、少なくとも、音響特徴量作成部１０２が作成した音響特徴量に基づいて、認識単語列を求め、出力する。

【0025】

認識単語列記憶部１０６は、音声認識部１０５から出力される単語列（認識単語列）を記憶する。認識単語列は、元の音声データの時系列と、時刻で対応付けることが可能なデータである。

【0026】

一般的な音声認識処理では短区間音響特徴量のみを用いる場合もあるが、本実施形態の特徴の一つは、長区間音響特徴量を用いて話者性を求めることである。
話者性解析部１０７は、長区間音響特徴量記憶部１０４から長区間音響特徴量のデータを読み出す。話者性解析部１０７は、長区間音響特徴量のデータを基に、話者性情報を算出する。話者性情報とは、その区間の音声データに対応する特徴の情報であり、話者の性別や、話者の年齢層（例えば、子ども、若者、老人など）や、周囲の環境音等に対応する情報である。話者性情報は、性別や年齢層だけでなく、話者が属する属性を表す他の情報を含む場合がある。話者性解析部１０７は、算出した話者性情報を、話者性情報記憶部１０８に書き込む。
より具体的な処理として、話者性解析部１０７は、音声認識処理に入力される音声の音響特徴量を取得して、その音響特徴量を次元圧縮する処理を行い、話者性情報（音声特性情報）を出力する。
なお、話者性解析部１０７のより詳細な構成については、後で別の図を参照しながら説明する。

【0027】

話者性情報記憶部１０８は、話者性解析部１０７によって算出された話者性情報を記憶するものである。

【0028】

話者性提示部１０９は、認識単語列記憶部１０６から読み出す認識単語列と、話者性情報記憶部１０８から読み出す話者性情報とを、同時に提示する。話者性提示部１０９は、認識単語列と話者性情報とを時間的に同期させながら提示する。ただし、認識単語列と話者性情報との同期のさせ方にはバリエーションがある。それらのバリエーションに関しては、後述する。話者性情報を視覚化して提示する場合、話者性提示部１０９は、単語列を表示する際の文字の色あるいは文字の背景色や、単語列あるいはその背景の明暗や、その他の文字表示属性（太字、斜字、文字サイズなど）で、話者性情報を表現する。
つまり、話者性提示部１０９は、音声認識処理の結果として得られた認識単語列を取得するとともに、話者性解析部１０７から出力される話者性情報（音声特性情報）を取得し、前記認識単語列と前記音声特性情報との間で時間軸方向の対応付けを行い、その認識単語列を、対応する話者性情報（音声特性情報）に基づく提示属性を用いて提示するものである。

【0029】

提示装置３は、例えば、液晶ディスプレイ装置、パーソナルコンピューター、タブレット端末、スマートフォン、腕時計型端末等、視覚あるいは聴覚等で情報を提示する機能を有する装置である。

【0030】

ここで、認識単語列と話者性情報とを時間的に同期させて提示する方法のバリエーションについて説明する。下で説明する提示方法の、いずれの方法を用いてもよい。
［提示方法１］オフライン処理
この提示方法は、例えば予め取得された音声に基づいて処理するオフライン処理を前提とする。この提示方法では、全時間区間の音声について、認識単語列と話者性情報との間の時間軸方向の対応付けを行ってから（即ち、話者性付与認識単語列を得てから）、一括で、話者性情報に基づく認識単語列の提示を行う。
［提示方法２］認識単語列先行型リアルタイム処理
この提示方法は、音声の取得と並行しながら音声認識処理および話者性情報の解析処理を行うオンライン処理を前提とする。つまり、音声は逐次的に音声認識装置２に入力される。そして、話者性提示部１０９は、認識単語列が得られ次第、その認識単語列に対応する話者性情報が取得できていない場合にも、まず認識単語列のみを提示する。そして、話者性提示部１０９は、話者性情報のない状態で（即ち、提示属性のない状態で）認識単語列を提示した後、話者性情報が算出され次第、話者性情報に基づく提示属性を用いて認識単語列を提示するよう、提示内容を更新する。
［提示方法３］リアルタイム表示
この提示方法も、上の「提示方法２」と同様に、音声の取得と並行しながら音声認識処理および話者性情報の解析処理を行うオンライン処理を前提とする。そして、この提示方法では、音声は逐次的に音声認識装置２に入力される。そして、話者性提示部１０９は、リアルタイムに認識単語列と話者性情報の両方を取得し、即ち話者性付与認識単語列の情報を得て、話者性情報に基づく提示属性を用いて認識単語列を提示する。

【0031】

具体例として、話者性提示部１０９は、話者性情報（音声特性情報）に基づき決定される文字フォントの色と文字フォントのサイズと文字のフォントファミリーの種類との少なくともいずれかを提示属性として用いて、認識単語列を文字列として視覚的に出力するものである。ここで、「文字列を視覚的に出力」とは、例えば液晶ディスプレイ装置等の表示装置に、文字列を表示したり、例えばインクジェットプリンターやレーザープリンターや３Ｄプリンター等を用いて文字列を印刷あるいは成形したりするものである。なお、提示属性は、ここに例示したものには限られない。

【0032】

図２は、話者性解析部１０７のより詳細な機能構成を示すブロック図である。図示するように、話者性解析部１０７は、比較対象長区間音響特徴量記憶部２０２と、次元圧縮部２０３とを含んで構成される。

【0033】

比較対象長区間音響特徴量記憶部２０２は、予め蓄積される大量の長区間音響特徴量のデータを記憶するものである。比較対象長区間音響特徴量記憶部２０２は、例えば、様々な状況等において予め取得され収集された音声データを基に抽出された長区間音響特徴量のデータを記憶する。比較対象長区間音響特徴量記憶部２０２が、例えば、過去の音声認識処理の際に抽出された長区間音響特徴量のデータを記憶するものであってもよい。比較対象長区間音響特徴量記憶部２０２が記憶する比較対象長区間音響特徴量のデータは、次元圧縮部２０３が長区間音響特徴量記憶部１０４から渡される長区間音響特徴量データの次元を圧縮する際の比較対象データとなる。比較対象長区間音響特徴量記憶部２０２に記憶される比較対象長区間音響特徴量のデータの種類は、話者性解析の対象として長区間音響特徴量記憶部１０４から渡される長区間音響特徴量のデータと同種のデータである。即ち、話者性解析の対象となる音響特徴量（長区間音響特徴量）のデータが、例えば、ｉ－ｖｅｃｔｏｒのとき、比較対象として比較対象長区間音響特徴量記憶部２０２が記憶する音響特徴量のデータもｉ－ｖｅｃｔｏｒである。充分な量の比較対象長区間音響特徴量のデータを比較対象長区間音響特徴量記憶部２０２に蓄積しておくことにより、次元圧縮部２０３における適切な次元圧縮（主成分分析等の処理）が可能となる。

【0034】

次元圧縮部２０３は、長区間音響特徴量記憶部１０４から長区間音響特徴量のデータを読み出す。長区間音響特徴量のデータは、前述の通り、１００次元程度の高次元のベクトルである。また、次元圧縮部２０３は、比較対象長区間音響特徴量記憶部２０２から比較対象長区間音響特徴量のデータを読み出す。そして、次元圧縮部２０３は、長区間音響特徴量を圧縮し、１次元または２次元のデータにする。１次元のデータは、スカラー値と捉えることもできるし、１次元のベクトルと捉えることもできる。ベクトルの次元圧縮のための既存技術としては様々な手法が存在するが、次元圧縮部２０３は、例えば、ｔ－ＳＮＥを用いて、高次元の長区間音響特徴量データを２次元のデータに、次元圧縮する。ｔ－ＳＮＥは、「t-Distributed Stochastic Neighbor Embedding」の略であり、確率分布を用いる手法である。つまり、ｔ－ＳＮＥは、「ｔ分布型確率的近傍埋め込み」の処理である。また、次元圧縮部２０３は、圧縮後の各次元の値の範囲が－１以上且つ＋１以下になるように正規化する。
このように次元圧縮部２０３は、長区間音響特徴量データを、２次元の、各次元の成分が－１以上且つ＋１以下の範囲に正規化されたデータに変換する。話者性解析部１０７が出力する話者性情報は、このように２次元の、各次元の成分の値の範囲の範囲が正規化されたデータである。

【0035】

なお、ここで、次元圧縮部２０３がｔ－ＳＮＥを用いて長区間音響特徴量のデータを２次元のデータに圧縮する例を説明したが、次元圧縮部２０３は、ｔ－ＳＮＥ以外の手法を用いて長区間音響特徴量の次元圧縮を行ってもよい。また、次元圧縮部２０３は、長区間音響特徴量のデータを１次元のデータに圧縮してもよい。それらの場合も、話者性解析部１０７は、圧縮後のデータを話者性情報として出力する。

【0036】

図３は、話者性提示部１０９のより詳細な機能構成を示すブロック図である。図示するように、話者性提示部１０９は、情報変換部３０３と、話者性付与認識単語列記憶部３０４と、出力部３０５と、を含んで構成される。

【0037】

情報変換部３０３は、認識単語列記憶部１０６から、認識単語列を読み出す。また、情報変換部３０３は、話者性情報記憶部１０８から話者性情報を読み出す。そして、情報変換部３０３は、認識単語列と話者性情報とを時間軸上で対応付ける。そして、情報変換部３０３は、話者性情報を付与した認識単語列を生成し、話者性付与認識単語列記憶部３０４に書き込む。

【0038】

その一例として、情報変換部３０３は、話者性情報に基づく文字表示属性（あるいは、書式）を、認識単語列に関連付ける。例えば、話者性情報が１次元の数値の情報である場合、情報変換部３０３は、話者性情報を、文字のフォントの書体（フォントファミリー）や、フォントサイズ（ポイント数、ピクセル数等）に変換する。そして、情報変換部３０３は、これらの、フォントの書体やフォントサイズを、認識単語列あるいはその部分列に関連付けて出力する。また、話者性情報が２次元の数値の情報である場合、情報変換部３０３は、話者性情報を、２次元平面上の色空間における特定の座標値に変換する。この座標値は、具体的な色を表す。そして、情報変換部３０３は、この座標値、または色を特定する情報を、認識単語列あるいはその部分列に関連付けて出力する。
以上のように、情報変換部３０３が話者性情報に基づく文字表示属性（フォントファミリー、フォントサイズ、色等）を単語列に関連付けて、話者性付与認識単語列として出力することにより、その単語列を特定の属性を有する文字で表示することが可能となる。

【0039】

情報変換部３０３が話者性情報を色に対応付ける処理の具体例は、つぎのとおりである。ここで、話者性情報は、正規化済みの２次元のベクトル（ｘ，ｙ）である。正規化されているため、－１．０≦ｘ≦＋１．０、且つ、－１．０≦ｙ≦＋１．０である。情報変換部３０３は、ベクトル（ｘ，ｙ）を、ＨＳＶ色空間内の２次元平面に写像する。ＨＳＶ色空間は、色相(Hue)、彩度(Saturation，Chroma)、明度(Value，Lightness，Brightness)の三つの成分からなる色空間である。本実施形態では、情報変換部３０３は、ｘおよびｙの値を基に、下の式（１），（２），（３）を用いてＨ，Ｖ，Ｓの値を算出する。
Ｈ＝（ｘ＋１．０）＊１８０・・・（１）
Ｖ＝（ｙ＋１．４）＊２５・・・（２）
Ｓ＝１００・・・（３）
なお、上記の数式において「＊」（アスタリスク）は乗算の演算子である。算出されるＨ，Ｖ，Ｓの値の範囲は次の通りである。即ち、－１．０≦ｘ≦＋１．０であるため、式（１）より、０≦Ｈ≦３６０である。また、－１．０≦ｙ≦＋１．０であるため、式（２）より、１０≦Ｖ≦６０である。また、式（３）より、Ｓの値は１００に固定される。
なお、情報変換部３０３が、上の計算で得られたＨ、Ｓ、Ｖの値を、さらに、ＲＧＢ（赤／緑／青）の色空間の座標値や、ＣＭＹＫ（シアン／マゼンタ／イエロー／ブラック）の色空間の座標値に変換してもよい。

【0040】

ここでは、情報変換部３０３が、話者性情報である２次元ベクトルを基に、数式により認識単語列の提示属性（文字属性）を算出する例を示した。情報変換部３０３は、数式により提示属性を算出する代わりに、例えば、予め作成されている参照テーブル等をルックアップすることによって提示属性を決定するようにしてもよい。

【0041】

話者性付与認識単語列記憶部３０４は、認識単語列と話者性情報とを関連付けてなる話者性付与認識単語列の情報を記憶する。話者性付与認識単語列記憶部３０４が記憶する話者性情報は、次元圧縮されたベクトル（２次元ベクトル（ｘ，ｙ）等）であってもよく、そのベクトル値から変換された色空間における座標値であってもよく、また、それら両方であってもよい。
出力部３０５は、話者性付与認識単語列記憶部３０４から話者性付与認識単語列を読み出し、外部にその情報を提示する。具体的には、出力部３０５は、認識単語列を、関連付けられた文字表示属性を用いて画面に表示したり紙等に印刷したりする。

【0042】

次に、音声特性処理装置１が扱う主要なデータの構成について説明する。
図４は、認識単語列記憶部１０６が記憶する認識単語列のデータの構成例を示す概略図である。図示するように、認識単語列記憶部１０６が記憶するデータは、一例として表形式のデータであり、開始時刻と、時間長と、認識単語列の各項目を有する。開始時刻は、音声認識処理の基となった音声データの中の特定の時点を表す。開始時刻は、例えば絶対時刻あるいは相対時刻のいずれで表されてもよい。図示するデータ例では、開始時刻は、年月日および時分秒と、ミリ秒単位の数値とで表される。開始時刻は、その行の認識単語列の発話が音声データ内で開始された時刻を表す。時間長は、その行の認識単語列の発話が開始されてから終了するまでの時間長を表す。図示するデータ例では、終了時刻は、時分秒と、ミリ秒単位の数値とで表される。開始時刻と時間長とを加算すると、その行の認識単語列の終了時刻となる。認識単語列は、音声認識部１０５による音声認識処理の結果として得られた単語の列である。図示するデータでは、各行に便宜的に行番号を付与している。第１行目のデータでは、開始時刻が「２０１３／０６／０３１１：０５：２３．０１０」（２０１３年６月３日１１時０５分２３秒０１０）であり、時間長が「００：００：０２．３４０」（２．３４０秒）である。また、認識単語列は「こんにちは先日友人と話していたらいつも」である。第２行目以下においても同様である。

【0043】

図５は、話者性情報記憶部１０８が記憶する話者性情報のデータの構成例を示す概略図である。図示するように、話者性情報記憶部１０８が記憶するデータは、一例として表形式のデータであり、開始時刻と、時間長と、話者性情報の各項目を有する。開始時刻と時間長の各項目の表現形式は、それぞれ、図４に示した認識単語列記憶部１０６のデータにおける開始時刻と時間長と同様である。また、話者性情報は、話者性解析部１０７によって求められた２次元のベクトルの形式で表されるデータを保持する。このベクトルにおける各要素の数値は、－１．０以上且つ＋１．０以下の範囲に正規化されている。図示するデータでは、各行に便宜的に行番号を付与している。第１行目のデータでは、開始時刻が「２０１３／０６／０３１１：０５：２３．０１０」（２０１３年６月３日１１時０５分２３秒０１０）であり、時間長が「００：００：００．３２０」（０．３２０秒）である。また、話者性情報は「（－０．５６，＋０．２３）」である。第２行目以降も同様である。なお、図５に示すデータ例では、各行における時間長の値は「００：００：００．３２０」（０．３２０秒）で一定である。

【0044】

図６は、話者性提示部１０９内の話者性付与認識単語列記憶部３０４に記憶される話者性付与認識単語列のデータの構成例を示す概略図である。図示するように、話者性付与認識単語列記憶部３０４が記憶するデータは、一例として表形式のデータであり、開始時刻と、時間長と、認識単語列と、話者性情報の各項目を有する。開始時刻と時間長と認識単語列の各項目それぞれの表現形式は、図４に示した認識単語列記憶部１０６のデータにおける開始時刻と時間長と同様である。話者性付与認識単語列のデータにおいては、図示するように、認識単語列のデータの各行に、話者性情報が付与されている。話者性提示部１０９内の情報変換部３０３は、認識単語列のデータ（図４）と話者性情報のデータ（図５）とを基に、時間区間のマッチングを行い、認識単語列に対応する話者性情報を付与する。この情報変換部３０３の処理により、図６のデータが生成される。なお、図４および図５で例示した通り、認識単語列のデータの１行分の時間区間は、話者性情報のデータの１行分の時間区間よりも長いことが通常である。これにより、話者性情報のデータの複数行に当たる時間区間が１行の認識単語列のデータに対応する時間区間に含まれる場合には、それら複数行の話者性情報を代表するベクトル値が、情報変換部３０３によって図６のようなデータとして付与される。ここで、複数個の話者性情報（例えば、２次元ベクトル値）を代表するベクトル値（２次元ベクトル値）とは、例えば、それら複数の２次元ベクトル値の平均値や、中央値や、最頻値や、最初の時間区間の値などである。

【0045】

前述の出力部３０５は、図６に例示した話者性付与認識単語列のデータに基づき、外部への提示を行う。具体的には、出力部３０５は、例えば、図６のある行の認識単語列（文字列）を、その行の話者性情報によって特定される文字表示属性（例えば、文字の色や、文字のフォントサイズや、文字のフォントファミリー等）で表示する。

【0046】

なお、ここでは、発話分の１行ごとの単位で話者性情報に基づく提示属性を求め、その提示属性を用いて認識単語列を提示する例を説明した。なお、提示属性を決定する単位は、異なっていてもよい。例えば、単語ごとの単位で話者性情報に基づく提示属性を求め、その提示属性を用いて認識単語列を提示してもよい。また、文書ごと（文書全体）の単位で話者性情報に基づく提示属性を求め、その提示属性を用いて認識単語列を提示してもよい。

【0047】

次に、音声認識装置２の全体的な処理手順について説明する。
図７は、音声認識装置２による処理手順の一例を示すフローチャートである。なお、このフローチャートは、各ステップの処理を逐次的に実行する形態を示しているが、論理的に可能な限りにおいて、一部の複数のステップを並列して実行したり、順序を入れ替えて実行したりするようにしてもよい。また、前述の提示方法１から３までのいずれかの提示方法で処理を実行するために、提示方法に応じた変更をこのフローチャートで示す手順に加えてもよい。以下、このフローチャートに沿って説明する。

【0048】

ステップＳ１１において、音声取得部１０１は、取得すべき未処理の音声があるか否かを判定する。未処理の音声がある場合（ステップＳ１１：ＹＥＳ）には、次のステップＳ１２に進む。未処理の音声がない場合（ステップＳ１１：ＮＯ）には、音声認識装置２は、本フローチャート全体の処理を終了する。

【0049】

ステップＳ１２において、音声取得部１０１は、所定の時間区間に相当する音声を取得する。

【0050】

ステップＳ１３において、音響特徴量作成部１０２は、取得済みの音声のうち、音響特徴量がまだ作成されていない時間区間の音声について、音響特徴量を作成する。音響特徴量作成部１０２は、作成した音響特徴量のデータを、短区間音響特徴量記憶部１０３あるいは長区間音響特徴量記憶部１０４に、適宜書き込む。

【0051】

ステップＳ１４において、音声認識部１０５は、作成された音響特徴量に少なくとも基づいて、音声認識処理を実行する。その結果、音声認識部１０５は、当該時間区間に対応する認識単語列を出力する。

【0052】

ステップＳ１５において、話者性解析部１０７は、音響特徴量（特に、長区間音響特徴量）に基づいて、話者性を解析する。話者性解析部１０７は、その結果、話者性情報を生成し、話者性情報記憶部１０８に書き込む。

【0053】

ステップＳ１６において、話者性提示部１０９は、認識単語列記憶部１０６から読み出した認識単語列と、話者性情報記憶部１０８から読み出した話者性情報とを、時間軸上で対応付ける。なお、本ステップにおける処理は、前述の提示方法１から３までのいずれの方法を用いるかに応じてバリエーションを有してもよい。

【0054】

ステップＳ１７において、話者性提示部１０９は、話者性情報に基づく提示属性を用いて、認識単語列を提示する。なお、本ステップにおける処理も、前述の提示方法１から３までのいずれの方法を用いるかに応じてバリエーションを有してもよい。
ステップＳ１７の処理が終了すると、次の時間区間の処理に移るために、ステップＳ１１に戻る。

【0055】

以上説明したように、本実施形態によれば、音声認識処理の対象とする音声の音響特徴量のうちの特定の特徴量のデータを次元圧縮し、音声特性情報（話者性情報）を生成できる。また、音声認識処理の結果として得られる認識単語列を、その単語列が発話された時点の音声特性情報（話者性情報）に基づく属性で提示すすることができる。これにより、認識単語列と音声特性情報（話者性情報）とを併せて、視覚的にわかりやすい方法で出力することができる。
本実施形態による装置を使用するユーザーにとっては、例えば、音声認識結果に基づいて書き起こしテキストを作成する場合や、音声認識結果に基づいて議事録を作成する場合や、音声認識結果に基づいて映像コンテンツのための字幕を作成する場合などに、認識単語列と関連付けられる音声特性情報（話者性情報）を把握しやすい。つまり、ユーザーにとっては、認識単語列と音声特性情報（話者性情報）とを併せて視覚的に捉えることができ、作業効率が向上する。

【0056】

具体的には、例えば、大量の認識単語列の中から、ユーザーが特定の音声特性を有する箇所を探して、発見することが容易に行えるようになる。
また、大量の認識単語列の中において、話者の移り変わりや環境音の変化などを、視覚的に捉えることが可能となる。

【0057】

なお、上述した実施形態における音声認識装置あるいは音声特性処理装置の、少なくとも一部の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0058】

以上、一実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
上記実施形態においては、話者性解析部１０７における次元圧縮部２０３は、長区間音響特徴量記憶部１０４から渡される長区間音響特徴量を１次元または２次元のベクトル（各要素は、数値）に圧縮することとした。この変形例においては、次元圧縮部２０３は、長区間音響特徴量記憶部１０４から渡される長区間音響特徴量を３次元、４次元、または５次元のベクトルに圧縮する。この場合、話者性解析部１０７から出力される情報の次元数は多少多くなるが、元の長区間音響特徴量（例えば、ｉ－ｖｅｃｔｏｒ）が１００次元程度のベクトルであることと比較すると、５次元程度への次元圧縮であっても、情報の圧縮としては充分に意味がある。

【0059】

つまり、上記の実施形態では、話者性解析部１０７が出力する話者性情報（音声特性情報）は、２次元の次元数を有するベクトルの情報またはスカラー値（１次元のベクトルとも捉えられる）の情報であった。本変形例の場合を含めると、話者性解析部１０７が出力する話者性情報（音声特性情報）は、５次元以下の次元数を有するベクトルの情報である。

【0060】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【産業上の利用可能性】

【0061】

本発明は、例えば、音声認識装置を用いた様々な業務システムに利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。

【符号の説明】

【0062】

１音声特性処理装置
２音声認識装置（音声特性処理装置）
３提示装置
１０１音声取得部
１０２音響特徴量作成部
１０３短区間音響特徴量記憶部
１０４長区間音響特徴量記憶部
１０５音声認識部
１０６認識単語列記憶部
１０７話者性解析部（音声特性解析部）
１０８話者性情報記憶部
１０９話者性提示部（音声特性提示部）
２０２比較対象長区間音響特徴量記憶部
２０３次元圧縮部
３０３情報変換部
３０４話者性付与認識単語列記憶部
３０５出力部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版