特許第6565416号(P6565416)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ カシオ計算機株式会社の特許一覧

特許6565416音声検索装置、音声検索方法及びプログラム
<>
  • 特許6565416-音声検索装置、音声検索方法及びプログラム 図000007
  • 特許6565416-音声検索装置、音声検索方法及びプログラム 図000008
  • 特許6565416-音声検索装置、音声検索方法及びプログラム 図000009
  • 特許6565416-音声検索装置、音声検索方法及びプログラム 図000010
  • 特許6565416-音声検索装置、音声検索方法及びプログラム 図000011
  • 特許6565416-音声検索装置、音声検索方法及びプログラム 図000012
  • 特許6565416-音声検索装置、音声検索方法及びプログラム 図000013
  • 特許6565416-音声検索装置、音声検索方法及びプログラム 図000014
  • 特許6565416-音声検索装置、音声検索方法及びプログラム 図000015
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6565416
(24)【登録日】2019年8月9日
(45)【発行日】2019年8月28日
(54)【発明の名称】音声検索装置、音声検索方法及びプログラム
(51)【国際特許分類】
   G10L 15/00 20130101AFI20190819BHJP
   G10L 15/14 20060101ALI20190819BHJP
【FI】
   G10L15/00 200T
   G10L15/14 153
【請求項の数】7
【全頁数】16
(21)【出願番号】特願2015-144687(P2015-144687)
(22)【出願日】2015年7月22日
(65)【公開番号】特開2017-26792(P2017-26792A)
(43)【公開日】2017年2月2日
【審査請求日】2018年7月20日
(73)【特許権者】
【識別番号】000001443
【氏名又は名称】カシオ計算機株式会社
(74)【代理人】
【識別番号】100095407
【弁理士】
【氏名又は名称】木村 満
(72)【発明者】
【氏名】井手 博康
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特開2005−189363(JP,A)
【文献】 特開2006−58899(JP,A)
【文献】 特表2010−522923(JP,A)
【文献】 米国特許出願公開第2009/0210226(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
G06F 17/00
(57)【特許請求の範囲】
【請求項1】
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶手段と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶手段が記憶する第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
【請求項2】
検索対象の音声信号とクエリ音声信号とを比較する区間であるフレーム毎に、クエリ音声信号の特徴量を取得するクエリ特徴量取得手段と、
前記クエリ特徴量取得手段が取得したクエリ音声信号の特徴量に基づき、前記第1の確率を、音響モデルの音素の各状態と対応付けてフレーム毎に取得するクエリ出力確率取得手段と、
をさらに備えることを特徴とする請求項1に記載の音声検索装置。
【請求項3】
前記検索対象の音声信号におけるクエリ音声信号の発話時間長を有する区間である尤度取得区間を複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記クエリ音声信号が発せられている区間であることの尤もらしさを示す尤度を、前記第1の確率と前記第2の確率とに基づいて取得する尤度取得手段と、
をさらに備え、
前記区間指定手段は、前記検索対象の音声信号における前記尤度取得区間の先頭位置を変えて複数の尤度取得区間を指定し、
前記尤度取得手段は、前記複数の尤度取得区間のそれぞれについて尤度を取得し、
前記特定手段は、前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する、
ことを特徴とする請求項1又は2に記載の音声検索装置。
【請求項4】
前記複数の尤度取得区間のそれぞれについて、前記第1の確率と前記第2の確率とを前記尤度取得区間に含まれるフレーム毎に掛け合わせた第3の確率を取得する第2出力確率取得手段をさらに設け、
前記尤度取得手段は、前記第2出力確率取得手段がフレーム毎に取得した第3の確率の対数をとった値を加算して前記尤度取得区間の尤度を取得する、
ことを特徴とする請求項3に記載の音声検索装置。
【請求項5】
前記第2出力確率取得手段がフレーム毎に取得した第3の確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記N1と前記N2は0を含む自然数であって、前記N1と前記N2のいずれかは0ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した前記尤度取得区間の尤度を取得する、
ことを特徴とする請求項4に記載の音声検索装置。
【請求項6】
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶工程と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶工程において記憶した第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定工程と、
を含む音声検索方法。
【請求項7】
コンピュータを、
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶手段、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶手段が記憶する第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声検索装置、音声検索方法及びプログラムに関する。
【背景技術】
【0002】
音声検索では、検索対象とする検索語(クエリ)に対応する音声が発話されている箇所を音声信号の中から特定する検索技術を使用する。この音声検索技術では、高速かつ正確な音声検索を実現することが重要となる。
【0003】
上記音声検索技術の1つとして、非特許文献1は、検索対象の音声信号と検索するクエリ音声信号とを高速に比較する技術を開示している。非特許文献1が開示する技術では、検索対象の音声信号の特徴量とクエリ音声信号の特徴量とを高速に比較する。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Y.Zhang and J.Glass. “An inner−product lower−bound estimate for dynamic time warping,” in Proc. ICASSP,2011,pp.5660−5663.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献1が開示する技術では、検索対象音声の入力者とクエリ入力者とが同一人物である場合、発話内容が異なるにもかかわらず音響的特徴が近似するために、検索語と異なる発話内容の位置を誤って検出する場合が有り、検索精度が低くなるという問題がある。
【0006】
本発明は、以上のような課題を解決するためのものであり、検索対象音声の入力者とクエリ入力者とが同一人物である場合でも、より高精度に検索することが可能な音声検索装置、音声検索方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明に係る音声検索装置は、
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶手段と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶手段が記憶する第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段と、
を備えることを特徴とする。
【発明の効果】
【0008】
本発明によれば、クエリ入力者の音声が検索対象音声に一部含まれている場合でも、より高精度に検索することができる。
【図面の簡単な説明】
【0009】
図1】本発明の実施形態1に係る音声検索装置の物理構成を示す図である。
図2】本発明の実施形態1に係る音声検索装置の機能構成を示す図である。
図3】音素の状態について説明するための図である。
図4】検索インデクスについて説明するための図である。
図5】(a)は、検索対象の音声信号の波形図である。(b)は、検索対象の音声信号において設定されるフレームを示す図である。(c)は、検索対象の音声信号において指定される尤度取得区間を示す図である。
図6】(a)は、クエリ音声信号の波形図である。(b)は、クエリ音声信号において設定されるフレームを示す図である。
図7】クエリ音声信号の出力確率について説明するための図である。
図8】出力確率をLower−Bound化する例を示す図である。
図9】本発明の実施形態1に係る音声検索装置が実行する音声検索処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態に係る音声検索装置、音声検索方法及びプログラムについて、図面を参照しながら説明する。なお、図中同一又は相当する部分には同一符号を付す。
【0011】
(実施形態1)
実施形態1に係る音声検索装置100は、物理的には、図1に示すように、ROM(Read Only Memory)1と、RAM(Random Access Memory)2と、外部記憶装置3と、入力装置4と、出力装置5と、CPU(Central Processing Unit)6と、バス7と、を備える。
【0012】
ROM1は、音声検索プログラムを記憶する。RAM2は、CPU6のワークエリアとして使用される。
【0013】
外部記憶装置3は、例えば、ハードディスクから構成され、解析対象である音声信号、後述する検索インデックス、音響モデルをデータとして記憶する。
【0014】
入力装置4は、マイク等の音声入力装置から構成される。入力装置4は、ユーザが入力した検索語(クエリ音声信号)を音声データとしてCPU6に供給する。出力装置5は、例えば、スピーカ、液晶ディスプレイの画面を備える。出力装置5は、CPU6によって出力された音声データをスピーカから出力し、検索した検索語の音声信号における位置を画面に表示する。
【0015】
バス7は、ROM1、RAM2、外部記憶装置3、入力装置4、出力装置5、CPU6、を接続する。CPU6は、ROM1に記憶された音声検索プログラムをRAM2に読み出して、その音声検索プログラムを実行することにより、以下に示す機能を実現する。
【0016】
音声検索装置100は、機能的には、図2に示すように、音響モデル記憶部101と、出力確率記憶部102と、クエリ出力確率記憶部103と、クエリ音声信号取得部111と、フレーム列作成部112と、クエリ特徴量取得部113と、クエリ出力確率取得部114と、区間指定部115と、第2出力確率取得部116と、置換部117と、尤度取得部118と、繰り返し部119と、特定部120と、を備える。音響モデル記憶部101、出力確率記憶部102、クエリ出力確率記憶部103は、外部記憶装置3の記憶領域に構築されている。
【0017】
音響モデル記憶部101は、モノフォンモデルの音響モデルを記憶する。モノフォンモデルは、1音素毎に生成された音響モデルであり、隣接する音素に依存しない音響モデルである。音声検索装置100は、モノフォンモデルを一般的な方法で学習して、音響モデル記憶部101に予め記憶しておく。
【0018】
モノフォンモデルとして、例えば、一般的な音声認識で利用される音響モデルであるHMM(Hidden Markov Model;隠れマルコフモデル)を利用できる。HMMは、統計的な手法により音声信号からその音声信号を構成する音素を確率的に推定するためのモデルである。HMMには、時間的な状態の揺らぎを示す遷移確率と、各状態から入力された特徴量と一致する確率(出力確率)と、をパラメータとした標準パターンを用いる。
【0019】
音素とは、話者により発話された音声を構成する成分の単位である。例えば、「キゾクセイド」という単語は、「k,i,z,o,k,u,s,e,i,d,o」という11個の音素から構成される。音素は、さらに、複数の状態に分割される。
【0020】
状態とは、音素を構成する最小の時間単位である。各音素に定められた状態数が「3」である場合を例にとって説明する。例えば、音声「あ」の音素「a」は、図3に示すように、この音素の発声開始時を含む第1の状態「a1」と、中間状態である第2の状態「a2」と、発声終了時を含む第3の状態「a3」と、の3つの状態に分けられる。すなわち、1音素は3つの状態から構成される。全ての音素が3つの状態から構成されている場合、音響モデルで利用される全音素の数をmとすると、(m×3)個の状態が存在する。
【0021】
図2に戻って、出力確率記憶部102は、図4に示す検索インデックスを記憶する。検索インデックスとは、検索対象の音声信号に複数のフレームを設定し、そのフレームごとの音声の特徴量と音響モデルの音素の各状態の特徴量とが一致する確率である出力確率(第2の確率)を記憶したテーブルである。
【0022】
音素の各状態の特徴量は、音素の状態ごとに音声信号から抽出した音声の特徴を表す数値である。この特徴量は、音声データを周波数軸上に変換して得られる周波数軸系特徴パラメータと、音声データのエネルギーの2乗和やその対数を計算することにより得られるパワー系特徴パラメータと、を組み合わせることによって得られる。
【0023】
例えば周知のように、特徴量は、周波数軸系特徴パラメータ12成分(12次元)とパワー系特徴パラメータ1成分(1次元)、直前の時間窓の各成分との差分を取った周波数軸系特徴パラメータ12成分(12次元)とパワー系特徴パラメータ1成分(1次元)、及び、直前の時間窓の各成分との差分の差分を取った周波数軸系特徴パラメータ12成分(12次元)の、合計38成分を有する38次元ベクトル量として構成される。
【0024】
検索対象の音声信号は、例えばニュース放送等の音声、録音された会議の音声、録音された講演の音声、映画の音声等に係る音声信号である。
【0025】
フレームは、検索対象の音声信号とクエリ音声信号とを比較する時間窓である。本実施形態では、音素の状態ごとに検索対象の音声信号とクエリ音声信号とを比較して音声検出を行う。フレームの時間長には例えば、40msを用いる。
【0026】
検索対象の音声信号にフレームごとの区間を設定する方法について図5を参照して説明する。図5(a)は、先頭から末尾までの時間長Tの検索対象の音声信号の波形図である。縦軸は音声信号の強度を示し、横軸は時間を示す。図5(b)は、図5(a)に示す音声信号において設定されるフレームを示す。図5(b)に示すように、フレーム長tの区間を1シフト長Sずつシフトして、検索対象の音声信号にフレーム番号fからfの区間を設定する。フレーム番号fの区間は、音声信号の先頭から始まる時間長tの区間である。フレーム番号fの区間は、音声信号の先頭から1シフト長Sだけシフトした位置から始まる時間長tの区間である。以下同様に、シフト長Sずつシフトしてフレーム番号fまで設定される。
【0027】
シフト長Sは、検索の精度を決める長さである。シフト長Sは、フレーム長tより短い値に設定される固定値である。例えば、フレーム長をt=40msとした場合は、シフト長をS=10msのように設定する。
【0028】
検索インデックスは、検索対象の音声信号に設定したフレーム番号fからfの区間が、音響モデルの音素の各状態と一致する確率である出力確率(第2の確率)を音素の各状態と対応付けて記憶したテーブルである。この検索インデックスを作成するためには、まず、検索対象の音声信号の特徴量をフレーム番号fからfのフレーム毎に取得する。
【0029】
そして、取得した特徴量と音響モデルの音素の各状態の特徴量とを比較することにより、フレーム番号fからfのフレームに含まれる音声信号の特徴量が音響モデルの音素の各状態の特徴量と一致する確率である出力確率(第2の確率)をフレーム毎に取得し、音素の各状態と対応付けた検索インデックスとして出力確率記憶部102に記憶しておく。音素の種類がm種類であり、音素の状態数が3である検索インデックスの例を図4に示す。図4の1列目は、シフト長Sずつシフトして作成したフレームのフレーム番号を示す。フレームごとの特徴量が音素の各状態の特徴量と一致する確率をf(x,y,z)で表す。x(x=1〜N)はフレーム番号を示し、y(y=1〜m)は音素番号を示し、z(z=1〜3)は状態番号を示す。f(1,1,1)は、フレーム番号fのフレームに含まれる音声信号の特徴量が、音響モデルに含まれる音素1の状態1の特徴量と一致する確率を表す。フレーム番号fのフレームに含まれる音声信号の特徴量が、音響モデルに含まれる音素番号yの状態zの特徴量と一致する確率をf(x,y,z)で表す。
【0030】
図2に戻って、ユーザは、音声検索装置100に対して、検索対象の音声信号から目的の音声が発話されている部分を検索するための検索語(クエリ)を音声で入力し、クエリ音声信号取得部111は、入力装置4を介してユーザが入力したクエリ音声信号を音声データとして取得する。
【0031】
フレーム列作成部112は、クエリ音声信号取得部111が取得したクエリ音声信号をフレーム長ごとの区間に分割したフレーム列を作成する。クエリ音声信号のフレーム列について図6を参照して説明する。図6(a)は、先頭から末尾までの時間長Lのクエリ音声信号の波形図である。時間長Lはクエリ音声信号が発話される時間長(発話時間長)である。縦軸はクエリ音声信号の強度を示し、横軸は時間を示す。図6(b)は、図6(a)に示すクエリ音声信号において設定されるフレームを示す。フレーム列作成部112は、図6(b)に示すように、フレーム長tの区間を1シフト長Sずつシフトして、クエリ音声信号にフレーム番号gからgの区間を設定する。フレーム長tは、検索インデックスを作成した際に用いたフレーム長t(例えば、40ms)と同じにする。シフト長Sも検索インデックス作成時と同じシフト長Sとする。フレーム番号gの区間は、クエリ音声信号の先頭から始まる時間長tの区間である。フレーム番号gの区間は、クエリ音声信号の先頭から1シフト長Sだけシフトした位置から始まる時間長tの区間である。以下同様に、シフト長Sずつシフトしてフレーム番号gまで設定する。
【0032】
図2に戻って、クエリ特徴量取得部113は、フレーム列作成部112が作成したフレーム列を構成するフレーム(g〜g)ごとにクエリ音声信号の特徴量を取得する。特徴量の取得方法は、検索インデックス作成時と同じである。
【0033】
クエリ出力確率取得部114は、クエリ特徴量取得部113が取得した特徴量に基づいて、この特徴量が音響モデルに含まれる音素の各状態の特徴量と一致する確率(第1の確率)をフレーム(g〜g)ごとに取得し、音素の各状態と対応付けてクエリ出力確率記憶部103に記憶する。音素の種類がm種類であり、音素の状態数が3の場合を図7に示す。音素の種類数「m」と状態数「3」は、検索インデックスの作成時と同じ数とする。図7の1列目は、フレーム列作成部112が作成したフレーム列を構成するフレームのフレーム番号を示す。そして、フレーム列を構成するフレーム(g〜g)の特徴量が、音素の各状態の特徴量と一致する確率をg(a,y,z)で表す。a(a=1〜k)はクエリ音声信号のフレーム番号を示し、y(y=1〜m)は音素番号を示し、z(z=1〜3)は状態番号を示す。
【0034】
クエリ音声信号のフレーム数kは、クエリ音声信号の発話時間長Lとシフト長sを用いて、k=L/sで求めた値の小数点以下を切り捨てた自然数である。
【0035】
図2に戻って、区間指定部115は、音声信号からクエリ音声信号の発話時間長Lの区間を尤度取得区間として複数指定する。尤度取得区間は、その区間からクエリ音声信号が発せられている尤度を取得する区間である。尤度とは、検索対象の音声とクエリ音声信号との類似の度合いを示す指標である。図5を参照して説明する。区間指定部115は、まず、検索対象の音声信号の先頭フレームfから始まるクエリ音声信号の発話時間長Lの区間を第1尤度取得区間として指定する。本実施形態では、クエリ音声信号を構成するフレームのフレーム数をk個としているので、第1フレームfから第kフレームfの区間を第1尤度取得区間として指定する。
【0036】
次に、区間指定部115は、音声信号の第2フレームfから第(k+1)フレームfk+1の区間を第2尤度取得区間として指定する。以下同様に、第P尤度取得区間まで指定する。なお、検索対象の音声信号の中で指定可能な尤度取得区間の数Pは、音声信号の時間長Tと尤度取得区間の時間長(クエリ音声信号の発話時間長)Lとシフト長Sとを用いて、P=(T−L+S)/Sで求めた値の小数点以下を切り捨てた自然数である。
【0037】
図2に戻って、第2出力確率取得部116は、クエリ音声信号を構成する各フレームが検索対象の音声信号を構成する各フレームと一致する確率(第3の確率)を取得する。具体的には、クエリ音声信号の各フレームの特徴量が音素の各状態の特徴量と一致する確率(第1の確率)と、検索対象の音声信号の検索インデックスに記憶した確率(第2の確率)とを掛け合わせることにより、クエリ音声信号の各フレーム(g〜g)の特徴量が検索対象の音声信号の各フレーム(f〜f)の特徴量と一致する確率(第3の確率)を求める。
【0038】
図4図7を参照して具体的に説明する。区間指定部115が、音声信号の先頭フレームfから始まる第1尤度取得区間を指定すると、第2出力確率取得部116は、クエリ音声信号の先頭フレームgと音声信号の先頭フレームfについて音素の各状態の出力確率を掛け合わせることにより、クエリ音声信号の第1フレームgが検索対象の音声信号の第1フレームfと一致する確率を取得する。
【0039】
具体的には、第2出力確率取得部116は、クエリ音声信号の第1フレームgと音声信号の第1フレームfが、ともに音素1の状態1である確率P(1,1,1)を式(1)から求める。クエリ音声信号の第1フレームgと音声信号の第1フレームfが、ともに音素2の状態1である確率P(1,2,1)を式(2)から求める。以下同様にして、第2出力確率取得部116は、クエリ音声信号の第1フレームgと音声信号の第1フレームfが、ともに音素mの状態3である確率P(1,m,3)を式(3)から求める。
P(1,1,1)=f(1,1,1)×g(1,1,1) ・・・式(1)
P(1,2,1)=f(1,2,1)×g(1,2,1) ・・・式(2)
P(1,m,3)=f(1,m,3)×g(1,m,3) ・・・式(3)
【0040】
このように、第2出力確率取得部116は、クエリ音声信号の第1フレームgについて(m×3)個の確率(第3の確率)を取得する。そして、(m×3)個の確率を掛け合わせることにより、クエリ音声信号の第1フレームgが検索対象の音声信号の第1フレームfと一致する確率である出力確率P(1,1)を式(4)により取得する。
【0041】
【数1】
【0042】
次に、第2出力確率取得部116は、クエリ音声信号の第2フレームgと音声信号の第2フレームfに対応する音素の各状態の出力確率を掛け合わせることにより、クエリ音声信号の第2フレームgが検索対象の音声信号の第2フレームfと一致する確率を取得する。具体的には、第2出力確率取得部116は、クエリ音声信号の第2フレームgについて(m×3)個の出力確率を取得する。そして、(m×3)個の出力確率を掛け合わせることにより、クエリ音声信号の第2フレームgが検索対象の音声信号の第2フレームfと一致する確率である出力確率P(1,2)を式(5)により取得する。
【0043】
【数2】
【0044】
以下同様にして、第2出力確率取得部116は、クエリ音声信号の第kフレームgまでの出力確率P(1,k)を式(6)により取得する。
【0045】
【数3】
【0046】
クエリ音声信号が検索対象の音声信号の先頭フレームfから始まる場合について出力確率の取得が終わると、区間指定部115は、音声信号の第2フレームfから始まる第2尤度取得区間を指定する。第2出力確率取得部116は、クエリ音声信号の先頭フレームgを検索対象の音声信号の第2フレームfに合わせて同様の計算を行う。
【0047】
【数4】
【0048】
以下同様にして、第2出力確率取得部116は、第P尤度取得区間までの出力確率を求める。第2出力確率取得部116は、クエリ音声信号の先頭フレームgを検索対象の音声信号の第sフレームfに合わせた場合(第s尤度取得区間)のクエリ音声信号の第jフレームgの出力確率を式(8)にて求める。
【0049】
【数5】
【0050】
図2に戻って、置換部117は、第2出力確率取得部116が取得した出力確率のそれぞれを、そのフレームと隣接する前後数フレームの中で最大の出力確率に置換する。この置換処理は、Lower−Bound化と呼ばれる。
【0051】
具体的に図8を参照して、Lower−Bound化を説明する。図8において、実線はフレーム毎に取得された出力確率を示す。縦軸は出力確率の高さを下になるほど高くなるように示し、横軸は時間を示す。置換部117は、各フレームの出力確率を、そのフレームと、そのフレームの前のN1個のフレームと、そのフレームの後のN2個のフレームの中で最大の出力確率に置き換える。N1とN2は0を含む自然数であるが、N1とN2のいずれかは0ではないものとする。
【0052】
クエリ音声信号の先頭フレームgを音声信号の先頭フレームfに合わせた場合で、N1=N2=2として説明する。置換部117は、クエリ音声信号の第1フレームgの出力確率P(1,1)を、その前にフレームが無いので、自身の第1フレームgのP(1,1)とその後の第2フレームgのP(1,2)と第3フレームgのP(1,3)の中で最大の出力確率と置換する。置換部117は、クエリ音声信号の第2フレームgの出力確率P(1,2)を、その前の第1フレームgの(P1,1)と自身の第2フレームgのP(1,2)とその後の第3フレームgのP(1,3)と第4フレームgのP(1,4)の中で最大の出力確率と置換する。置換部117は、クエリ音声信号の第3フレームgの出力確率P(1,3)を、その前の第1フレームgのP(1,1)と第2フレームgのP(1,2)と、自身の第3フレームgのP(1,3)と、その後の第4フレームgのP(1,4)と第5フレームgのP(1,5)の中で最大の出力確率と置換する。このように、置換部117は、第kフレームまで置換処理を行う。置換の結果、図8に実線で示した出力確率は、破線で示したLower−Bound化後の出力確率のように、時間方向において値の変化が小さくなった出力確率に変換される。
【0053】
図2に戻って、尤度取得部118は、置換部117による置換後の出力確率に基づいて、区間指定部115が指定した尤度取得区間がクエリ音声信号が発せられている区間であることの尤もらしさを示す尤度を取得する。具体的には、尤度取得部118は、置換後の出力確率の対数をとって得られる値を、尤度取得区間の先頭から末尾までの全フレーム、この例ではkフレームにわたって加算することにより、この尤度取得区間の尤度を取得する。すなわち、出力確率が高いフレームを多く含む尤度取得区間ほど、尤度取得部118が取得する尤度は高くなる。
【0054】
繰り返し部119は、区間指定部115が指定する尤度取得区間の音声信号における指定区間を変えて、区間指定部115、第2出力確率取得部116、置換部117、及び尤度取得部118の処理を繰り返すように各部を制御する。1回目の処理では、検索対象の音声信号の第1フレームfから始まる第1尤度取得区間の尤度を求めたので、2回目は、検索対象の音声信号の第2フレームfから始まる第2尤度取得区間の尤度を求める。以後1フレームずつシフトして、第P尤度取得区間までの尤度を求める。
【0055】
特定部120は、尤度取得部118が取得したP個の尤度に基づいて、検索対象の音声信号の中からクエリ音声信号が発せられていると推定される推定区間を特定する。例えば、特定部120は、尤度取得部118が取得した尤度が高い順に尤度取得区間をソートし、尤度が高い順に所定の数の区間を、推定区間として特定する。もしくは、尤度が所定の閾値以上の区間を推定区間として特定する。特定部120が特定した区間の位置情報は、検索結果として、出力装置5が備える画面を介して外部に表示される。
【0056】
以上のような物理的構成及び機能的構成を有する音声検索装置100が実行する音声検索処理を、図9に示すフローチャートを参照して説明する。
【0057】
ユーザは、予め、音響モデルを音響モデル記憶部101に記憶しておく。また、検索対象の音声信号から図4に示す第2の確率を示す検索インデックスを作成し、出力確率記憶部102に記憶しておく。また、ユーザは、検索語(クエリ)を入力装置4から音声信号として入力する。ここでは、検索対象のクエリは、「キゾクセイド」とする。
【0058】
CPU6が、ROM1から音声検索プログラムを読み出して、音声検索プログラムを実行することにより、図9に示すフローチャートは開始する。ユーザが、検索対象のクエリ音声信号を入力装置4から入力するとクエリ音声信号取得部111はクエリ音声信号を音声データとして取得する。そして、フレーム列作成部112は、取得したクエリ音声信号をフレームごとに分割したフレーム列を作成する(ステップS10)。クエリ特徴量取得部113は、クエリ音声信号のフレーム列を構成するフレームごとに特徴量を取得する(ステップS11)。
【0059】
次に、クエリ出力確率取得部114は、クエリ音声信号のフレームごとに取得した特徴量が音響モデルの音素の各状態の特徴量と一致する確率(第1の確率)を取得し(ステップS12)、図7に示すように、取得した出力確率を音素の各状態と対応付けてクエリ出力確率記憶部103に記憶する。
【0060】
クエリ音声信号の出力確率(第1の確率)の取得が終わると、区間指定部115は、クエリ音声信号が検索対象の音声信号と一致する確率(第3の確率)を取得する尤度取得区間を複数設定し、尤度取得部118は、それぞれの尤度取得区間からクエリ音声信号が発せられている尤度を取得する。
【0061】
そのために、区間指定部115は、まず、検索インデックスの先頭フレームfから始まる第1尤度取得区間を指定する(ステップS13)。そして、第2出力確率取得部116は、式(4)によりクエリ音声信号の第1フレームgが検索対象の音声信号の第1フレームfと一致する確率(第3の確率)を求める。同様にして、第2出力確率取得部116は、クエリ音声信号の第kフレームgまでの出力確率(第3の確率)を式(6)により求める(ステップS14)。
【0062】
第2出力確率取得部116が出力確率を取得すると、置換部117は、フレーム毎に取得した出力確率を、そのフレームとそのフレーム前のN1個のフレームとそのフレーム後のN2個のフレームの、合計(1+N1+N2)個のフレームの中で最大の出力確率に置き換えることにより、Lower−Bound化処理を実行する(ステップS15)。
【0063】
尤度取得部118は、Lower−Bound化後の出力確率をフレームごとに対数をとって加算することにより、区間指定部115が指定した尤度取得区間の尤度を取得する(ステップS16)。尤度取得部118が尤度を取得すると、繰り返し部119は、検索対象の音声信号における全区間の尤度取得が終了したか否かを判別する(ステップS17)。
【0064】
全区間の尤度取得が終了していない場合(ステップS17;No)、繰り返し部119は、検索インデックスの位置を1フレーム進めた次の尤度取得区間を指定する(ステップS18)。そして、区間指定部115が新たに指定した尤度取得区間に対して上述したステップS14〜S16の処理を繰り返す。
【0065】
区間指定部115が第s尤度取得区間を指定すると、第2出力確率取得部116は、第s尤度取得区間に含まれるk個のフレームのそれぞれについて、式(8)により出力確率を求める(ステップS14)。そして、求めたフレーム毎の出力確率をLower−Bound化処理を実行する(ステップS15)。尤度取得部118は、Lower−Bound化後の出力確率をフレームごとに対数をとって加算することにより、区間指定部115が指定した尤度取得区間の尤度を取得する(ステップS16)。
【0066】
このように、繰り返し部119は、第P尤度取得区間までの尤度を順次取得するように、区間指定部115、第2出力確率取得部116、置換部117、尤度取得部118を制御する。
【0067】
最終的に、全区間の尤度取得が終了すると(ステップS17;YES)、音声検索装置100は、取得した尤度に基づいてクエリ音声信号に対応する区間を特定する処理(ステップS19)に移行する。特定部120は、例えば、尤度取得区間ごとに取得したP個の尤度を尤度が高い順にソートし、尤度が閾値以上である区間を検索結果の区間として特定する。特定部120がクエリ音声信号に対応する区間を特定すると、特定部120は、出力装置5を介して特定結果を出力する(ステップS20)。以上により、音声検索装置100が実行する音声検索処理は終了する。
【0068】
以上で説明したように、実施形態1に係る音声検索装置100は、検索対象の音声信号とクエリ音声信号の特徴量を音響モデルの特徴量と一致する確率に置き換えて比較する。これにより、それぞれの人に固有な音響的特徴による影響を低減できる。したがって、クエリ入力者の音声が検索対象音声に一部含まれている場合であっても、それぞれの人に固有な音響的特徴に起因する誤検索を低減し、検索精度を高めることが出来る。
【0069】
なお、以上の実施形態の説明では、音響モデルとしてモノフォンモデルを使用して音声検索する場合について説明した。しかし、本発明の用途はこれには限定されない。例えば、バイフォンモデルやトライフォンモデルを使用して音声検索する場合にも適用できる。
【0070】
また、以上の実施形態では、モノフォンモデルを用いた一次検索に本発明を適用した場合について説明したが、実施形態1のステップS20の後で、トライフォンモデルを用いた二次検索を行い、さらに検索精度を向上させてもよい。
【0071】
また、実施形態1の説明では、区間指定部115が1シフト長ずつ尤度取得区間の先頭位置をシフトさせ、シフトさせる毎に第3の確率を求め、Lower−Bound化処理(置換処理)を行い、尤度を取得する処理をP回繰り返す説明をした。しかし、区間指定部115が、最初に第1尤度取得区間から第P尤度取得区間を指定した後で、第3の確率の取得、Lower−Bound化処理、尤度取得処理を行うようにしてもよい。
【0072】
また、本実施形態では、各フレームの出力確率の対数をとって加算する処理を行う説明をしたが、各フレームの出力確率をかけ算する処理であるので、対数をとらずにそのまま出力確率のかけ算をしてもよいし、対数の代わりに近似式を用いてもよい。
【0073】
また、本発明に係る機能を実現するための構成を予め備えた音声検索装置として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る音声検索装置として機能させることもできる。すなわち、上記実施形態で例示した音声検索装置100による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するCPU等が実行できるように適用することで、本発明に係る音声検索装置100として機能させることができる。また、本発明に係る音声検索方法は、音声検索装置を用いて実施できる。
【0074】
また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体(CD−ROM(Compact Disc Read-Only Memory)、DVD(Digital Versatile Disc)、MO(Magneto Optical disc)等)に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。
【0075】
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
【0076】
(付記1)
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶手段と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶手段が記憶する第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
【0077】
(付記2)
検索対象の音声信号とクエリ音声信号とを比較する区間であるフレーム毎に、クエリ音声信号の特徴量を取得するクエリ特徴量取得手段と、
前記クエリ特徴量取得手段が取得したクエリ音声信号の特徴量に基づき、前記第1の確率を、音響モデルの音素の各状態と対応付けてフレーム毎に取得するクエリ出力確率取得手段と、
をさらに備えることを特徴とする付記1に記載の音声検索装置。
【0078】
(付記3)
前記検索対象の音声信号におけるクエリ音声信号の発話時間長を有する区間である尤度取得区間を複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記クエリ音声信号が発せられている区間であることの尤もらしさを示す尤度を、前記第1の確率と前記第2の確率とに基づいて取得する尤度取得手段と、
をさらに備え、
前記区間指定手段は、前記検索対象の音声信号における前記尤度取得区間の先頭位置を変えて複数の尤度取得区間を指定し、
前記尤度取得手段は、前記複数の尤度取得区間のそれぞれについて尤度を取得し、
前記特定手段は、前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する、
ことを特徴とする付記1又は2に記載の音声検索装置。
【0079】
(付記4)
前記複数の尤度取得区間のそれぞれについて、前記第1の確率と前記第2の確率とを前記尤度取得区間に含まれるフレーム毎に掛け合わせた第3の確率を取得する第2出力確率取得手段をさらに設け、
前記尤度取得手段は、前記第2出力確率取得手段がフレーム毎に取得した第3の確率の対数をとった値を加算して前記尤度取得区間の尤度を取得する、
ことを特徴とする付記3に記載の音声検索装置。
【0080】
(付記5)
前記第2出力確率取得手段がフレーム毎に取得した第3の確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記N1と前記N2は0を含む自然数であって、前記N1と前記N2のいずれかは0ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した前記尤度取得区間の尤度を取得する、
ことを特徴とする付記4に記載の音声検索装置。
【0081】
(付記6)
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶工程と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶工程において記憶した第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定工程と、
を含む音声検索方法。
【0082】
(付記7)
コンピュータを、
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶手段、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶手段が記憶する第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
【符号の説明】
【0083】
1…ROM、2…RAM、3…外部記憶装置、4…入力装置、5…出力装置、6…CPU、7…バス、100…音声検索装置、101…音響モデル記憶部、102…出力確率記憶部、103…クエリ出力確率記憶部、111…クエリ音声信号取得部、112…フレーム列作成部、113…クエリ特徴量取得部、114…クエリ出力確率取得部、115…区間指定部、116…第2出力確率取得部、117…置換部、118…尤度取得部、119…繰り返し部、120…特定部
図1
図2
図3
図4
図5
図6
図7
図8
図9