(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-04
(45)【発行日】2024-07-12
(54)【発明の名称】発話区間検出装置、発話区間検出方法、および発話区間検出プログラム
(51)【国際特許分類】
G10L 15/04 20130101AFI20240705BHJP
G10L 25/84 20130101ALI20240705BHJP
G06T 7/00 20170101ALI20240705BHJP
G06T 7/62 20170101ALI20240705BHJP
【FI】
G10L15/04 300Z
G10L25/84
G06T7/00 660A
G06T7/62
(21)【出願番号】P 2021526069
(86)(22)【出願日】2020-06-05
(86)【国際出願番号】 JP2020022334
(87)【国際公開番号】W WO2020250828
(87)【国際公開日】2020-12-17
【審査請求日】2023-05-09
(31)【優先権主張番号】P 2019108910
(32)【優先日】2019-06-11
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】100106518
【氏名又は名称】松谷 道子
(74)【代理人】
【識別番号】100132241
【氏名又は名称】岡部 博史
(72)【発明者】
【氏名】廣瀬 良文
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開平6-301393(JP,A)
【文献】特開2000-338987(JP,A)
【文献】特開2013-33103(JP,A)
【文献】国際公開第2019/049494(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34,25/00-25/93
G06T 7/00,7/62
(57)【特許請求の範囲】
【請求項1】
発話者の音声を含む音響データに基づいて前記発話者の第1の口唇形状を推定する第1の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇形状を推定する第2の口唇形状推定部と、
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置。
【請求項2】
前記第1の口唇形状推定部が、前記音響データから前記発話者の声道形状を推定し、その推定した声道形状に基づいて、前記第1の口唇形状を数値化した第1のパラメータとして口唇の開口度を算出し、
前記第2の口唇形状推定部が、前記画像データにおいて前記発話者の口唇領域を抽出し、抽出した口唇領域に基づいて、前記第2の口唇形状を数値化した第2のパラメータとして口唇の開口度を算出する、請求項1に記載の発話区間検出装置。
【請求項3】
前記第1の口唇形状推定部が、前記音響データから前記発話者の声道形状を推定し、その推定した声道形状に基づいて、前記第1の口唇形状を数値化した第1のパラメータとして口唇の開口度を算出し、
前記第2の口唇形状推定部が、前記画像データにおける前記発話者の口唇領域を抽出し、抽出した口唇領域に基づいて、前記第2の口唇形状を数値化した第2のパラメータとして口唇の動き量を算出する、請求項1に記載の発話区間検出装置。
【請求項4】
前記発話区間検出部が、前記第1のパラメータと前記第2のパラメータの相関の程度を示す相関値を算出し、算出された相関値が所定のしきい値に比べて大きい前記音響データの区間を前記発話区間として検出する、請求項2または3に記載の発話区間検出装置。
【請求項5】
前記画像データには前記発話者の身体の少なくとも一部分が写り、
前記画像データにおける前記発話者の前記身体の少なくとも一部分に基づいて前記発話者の運動量を算出する運動量算出部をさらに有し、
前記発話区間検出部が、前記運動量が所定のしきい運動量に比べて大きい場合、前記第1のパラメータを前記第2のパラメータに比べて大きく重み付けして前記相関値を算出する、請求項4に記載の発話区間検出装置。
【請求項6】
前記音響データのSN比を算出するSN比算出部をさらに有し、
前記発話区間検出部が、前記SN比が所定のしきいSN比に比べて低い場合、前記第2のパラメータを前記第1のパラメータに比べて大きく重み付けして前記相関値を算出する、請求項4に記載の発話区間検出装置。
【請求項7】
前記音響データを取得するマイクデバイスと、
前記画像データを取得するカメラと、をさらに有する、請求項1から6のいずれか一項に記載の発話区間検出装置。
【請求項8】
前記マイクデバイスが、指向性が異なる複数の指向性マイクを含むマイクアレイである、請求項7に記載の発話区間検出装置。
【請求項9】
発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出する発話区間検出方法であって、
前記音響データを取得し、
前記発話者の顔が少なくとも写る画像データを取得し、
前記音響データに基づいて前記発話者の第1の口唇形状の変化を推定し、
前記画像データに基づいて前記発話者の第2の口唇形状の変化を推定し、
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて、前記音響データにおける前記発話区間を検出する、発話区間検出方法。
【請求項10】
プロセッサを備える装置の記憶デバイスにインストールされ、前記プロセッサに、発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出させるための発話区間検出プログラムであって、
前記プロセッサに、
前記音響データに基づいて前記発話者の第1の口唇形状を推定させ、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇形状を推定させ、および
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて前記音響データにおいて前記発話区間を検出させるための発話区間検出プログラム。
【請求項11】
発話者の音声を含む音響データに基づいて前記発話者の第1の開口度を算出する第1の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の開口度を算出する第2の口唇形状推定部と、
前記第1の開口度の変化と前記第2の開口度の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置。
【請求項12】
発話者の音声を含む音響データに基づいて前記発話者の第1の口唇運動量を算出する第1の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇運動量を算出する第2の口唇形状推定部と、
前記第1の口唇運動量と第2の口唇運動量の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、発話者の音声を含む音響データにおいて、発話者が音声を発声している発話区間を検出するための装置、方法、およびプログラムに関する。
【背景技術】
【0002】
例えば、特許文献1には、カメラによって取得された画像(画像データ)に写る発話者の口唇形状の変化に基づいて、マイクによって集音された音響(音響データ)における発話者の音声の発話区間(発話区間)を検出する装置および方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載された装置および方法の場合、カメラの撮影範囲で発話者が、歩行している、頭部を動かしているなど運動している場合、そのカメラの撮影画像データにおける発話者の口唇領域を抽出する精度が低下する。その結果、発話者が音声を発声していない音響データの区間を発話区間として誤検出するなど、発話区間の検出精度が低下する可能性がある。
【0005】
そこで、本開示は、発話者の音声を含む音響データにおいて、発話者が音声を発声している発話区間を高い精度で検出することを課題とする。
【課題を解決するための手段】
【0006】
本開示の一態様によれば、
発話者の音声を含む音響データに基づいて前記発話者の第1の口唇形状を推定する第11の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇形状を推定する第2の口唇形状推定部と、
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置が提供される。
【0007】
また、本開示の別の態様によれば、
発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出する発話区間検出方法であって、
前記音響データを取得し、
前記発話者の顔が少なくとも写る画像データを取得し、
前記音響データに基づいて前記発話者の第1の口唇形状の変化を推定し、
前記画像データに基づいて前記発話者の第2の口唇形状の変化を推定し、
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて前記音響データにおける前記発話区間を検出する、発話区間検出方法が提供される。
【0008】
さらに、本開示のさらに別の態様によれば、
プロセッサを備える装置の記憶デバイスにインストールされ、前記プロセッサに、発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出させるための発話区間検出プログラムであって、
前記プロセッサに、
前記音響データに基づいて前記発話者の第1の口唇形状を推定させ、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇形状を推定させ、および
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて前記音響データにおいて前記発話区間を検出させるための発話区間検出プログラムが提供される。
【0009】
加えて、本開示の異なる態様によれば、
発話者の音声を含む音響データに基づいて前記発話者の第1の開口度を算出する第1の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の開口度を算出する第2の口唇形状推定部と、
前記第1の開口度の変化と前記第2の開口度の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置が提供される。
【0010】
さらに加えて、本開示のさらに異なる態様によれば、
発話者の音声を含む音響データに基づいて前記発話者の第1の口唇運動量を算出する第1の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇運動量を算出する第2の口唇形状推定部と、
前記第1の口唇運動量と第2の口唇運動量の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置が提供される。
【発明の効果】
【0011】
本開示によれば、発話者の音声を含む音響データにおいて、発話者が音声を発声している発話区間を高い精度で検出することができる。
【図面の簡単な説明】
【0012】
【
図1】本開示の一実施の形態に係る発話区間検出装置の構成を概略的に示す図
【
図3】発声中の声道の複数の領域における声道断面積の一例を示す図
【
図4】音響データに基づいて算出された口唇の開口度の変化を示す図
【
図5】発話者の口唇が写る画像データの一例を示す図
【
図7】画像データに基づいて算出された口唇の開口度の変化を示す図
【
図8】音響データにおいて発話区間を検出する一例のフローを示すフローチャート
【発明を実施するための形態】
【0013】
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
【0014】
なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。
【0015】
以下に、本開示の一実施の形態に係る発話区間検出装置について図面を参照しながら説明する。
【0016】
図1は、本開示の一実施の形態に係る発話区間検出装置の構成を概略的に示している。
【0017】
図1に示す本実施の形態に係る発話区間検出装置10は、マイクデバイス12によって取得された複数の発話者P1、P2の音声を含む音響データSdにおいて、発話者P1、P2それぞれが音声を発声している区間である発話区間を検出するように構成されている。そのために、発話区間出装置10は、カメラデバイス14によって取得され、複数の発話者P1、P2の顔が少なくとも写る画像データIdを使用するように構成されている。
【0018】
図1に示すように、本実施の形態に係る発話区間検出装置10には、マイクデバイス12とカメラデバイス14が接続される。発話区間検出装置10は、そのマイクデバイス12からの音響データSdが入力される音響データ入力部20と、カメラデバイス14からの画像データIdが入力される画像データ入力部22とを有する。
【0019】
また、発話区間検出装置10は、音響データ入力部20に入力された音響データSdに基づいて、発話者P1、P2の口唇形状(第1の口唇形状)を推定する第1の口唇形状推定部24と、画像データ入力部22に入力された画像データIdに基づいて、発話者P1、P2の口唇形状(第2の口唇形状)を推定する第2の口唇形状推定部26とを有する。さらに、発話区間検出装置10は、第1の口唇形状推定部24によって推定された口唇形状の変化と第2の口唇形状推定部26によって推定された口唇形状の変化に基づいて音響データSdにおける発話区間を検出する発話区間検出部28とを有する。
【0020】
本実施の形態の場合、発話区間検出装置10はさらに、検出した発話区間をユーザに対して出力する発話区間出力部30と、音響データSdのSN比を算出するSN比算出部32と、画像データIdに基づいて発話者P1、P2の運動量を算出する運動量算出部34とを有する。
【0021】
このような発話区間検出装置10は、例えば、CPUなどのプロセッサとハードディスクなどの記憶デバイスとを備えるパーソナルコンピュータによって実現される。この場合、発話区間検出装置10は、マイクデバイス12とカメラデバイス14に接続するための外部接続端子を備える、または、マイクデバイス12とカメラデバイス14を備えている。その記憶デバイスには、プロセッサを、第1の口唇形状推定部24、第2の口唇形状推定部26、発話区間検出部28、SN比算出部32、および運動量算出部34として機能させるための発話区間検出プログラムが保存されている。また、記憶デバイスには、音響データSd、画像データId、および発話区間を検出するために作成された中間データなどが記憶される。
【0022】
また例えば、発話区間検出装置10は、マイクデバイス12とカメラデバイス14とを一体的に備えるとともに、プロセッサとメモリなどの記憶デバイスとを備えるスマートフォンなどの携帯端末であってもよい。例えば、携帯端末を発話区間検出装置10として機能させるための発話区間検出プログラムが、携帯端末の記憶デバイスにインストールされる。
【0023】
マイクデバイス12は、発話者P1、P2が居る空間(例えば会議室)内の音響を集音し、その集音した音響を音響データSdとして発話区間検出装置10に出力する。マイクデバイス12は、
図2に示すように、音響データSdとして、波形データを出力する。なお、
図2に一例として示す音響データは、発話者が順番に「a」、「i」、「u」、「e」、「o」と発声している発話区間を含んでいる。また、ノイズが波形データ全体に重畳している。
【0024】
カメラデバイス14は、発話者P1、P2を撮影するデバイスであって、発話者P1、P2の顔が少なくとも撮影範囲に入るように設置されている。また、カメラデバイス14は、発話者P1、P2の顔が少なくとも写る複数の画像データIdを作成し、その作成した画像データIdを発話区間検出装置10に出力する。
【0025】
ここからは、
図1に示す本実施の形態に係る発話区間検出装置10の各構成要素の詳細について説明する。
【0026】
発話区間検出装置10の音響データ入力部20は、マイクデバイス12から音響データSdを受け取り、その音響データSdを第1の口唇形状推定部24とSN比算出部32とに出力する。
【0027】
発話区間検出装置10の第1の口唇形状推定部24は、音響データSdに基づいて、発話者の口唇形状を推定する。本実施の形態の場合、口唇形状を数値化したパラメータとして口唇の開口度が算出される。そのために、第1の口唇形状推定部24は、音響データSdに基づいて発話者の声道形状を分析する声道形状分析部24Aと、分析された声道形状に基づいて口唇の開口度を分析する開口度分析部24Bとを含んでいる。
【0028】
声道形状分析部24Aは、音響データSdと下記の数式1とを用いて声道形状を分析(算出)する。
【数1】
【0029】
数式1において、S(z)は、集音開始から経過時間tが経過したタイミングでの振幅S(t)をz変換して算出される。
【0030】
声道音源モデルとして線形予測モデル(LPCモデル)を用いた場合、音声波形(音声信号)のある標本値s(n)は、それより前のp個の標本値から予測される。標本値s(n)は、下記の数式2のように表すことができる。
【数2】
【0031】
p個の標本値に対する係数α
i(i=1~p)は、相関法や共分散法などを用いることによって算出することができる。数式1におけるA(z)は、このα
iを用いて、下記の数式3のように表すことができる。
【数3】
【0032】
U(z)は、同一タイミングでの音源信号u(t)のz変換であり、S(z)A(z)により算出することができる。
【0033】
以上の処理により集音開始から経過時間tが経過したタイミングでの声道形状1/A(z)が算出される。なお、本実施の形態の場合、声道形状1/A(z)には、PARCOR係数が用いられる。
【0034】
開口度分析部24Bは、声道形状分析部24Aによって分析された(算出された)声道形状1/A(z)、すなわちPARCOR係数と下記の数式4とを用いて声道断面積を分析(算出)する。
【数4】
【0035】
数式4において、kiはi次のPARCOR係数であって、Aiはi番目の声道断面積である。なお、AN+1=1である。
【0036】
図3は、発声中の声道の複数の領域における声道断面積の一例を示す図である。
【0037】
開口度分析部24Bは、
図3に示すように、まず、声門から口唇までの声道を11個の領域に分割し、口唇から数えてi番目の声道断面積A
iを算出する。A
1が口唇での声道断面積を示し、A
11が声門での声道断面積を示している。
【0038】
声道の各領域の声道断面積A
1~A
11を算出すると、開口度分析部24Bは、下記の数式5を用いて開口度Csを算出する。
【数5】
【0039】
数式5に示すように、開口度Csは、1番目(口唇)からT番目の領域それぞれについての声道断面積の和である。Tは1~5の範囲で設定され、本実施の形態の場合、T=3である。
【0040】
図4は、第1の口唇形状推定部24によって算出された、すなわち音響データSdに基づいて算出された口唇の開口度の変化を示す図である。なお、
図4に示す開口度の変化は、
図2に示す音響データに基づいて算出されたものである。
【0041】
図2および
図4を比較すると、相対的に大きく口をあけて発声する「a」および「e」のタイミングでは開口度Csは大きく算出され、相対的に小さく口を開けて発声する「i」、「u」、および「o」のタイミングでは開口度Csが小さく算出されている。また、発声していないタイミングでは、開口度Csは、実質的にゼロである。したがって、音響データSdに基づいて口唇の開口度Csが適切に算出されていることが分かる。ただし、本実施の形態のように、複数の発話者P1、P2の音声が音響データSdに含まれている場合、算出された開口度Csがいずれの発話者のものであるかはわからない。
【0042】
図1に戻って、第1の口唇形状推定部24によって算出された開口度Cs(そのデータ)は、詳細は後述する発話区間検出部28に出力される。
【0043】
発話区間検出装置10の画像データ入力部22は、カメラデバイス14から画像データIdを受け取り、その画像データIdを第2の口唇形状推定部26と運動量算出部34とに出力する。
【0044】
発話区間検出装置10の第2の口唇形状推定部26は、画像データIdに基づいて、発話者の口唇形状を推定する。本実施の形態の場合、口唇形状を数値化したパラメータとして口唇の開口度が算出される。そのために、第2の口唇形状推定部26は、画像データIdにおける発話者の口唇領域を抽出する口唇抽出部26Aと、抽出した口唇領域に基づいて口唇の開口度を算出する開口度算出部26Bとを含んでいる。
【0045】
口唇抽出部26Aは、画像データId内で発話者P1、P2の口唇が写る領域(口唇領域)を特定して抽出する。
【0046】
図5は、発話者の口唇が写る画像データの一例を示している。
【0047】
図5に示すように、口唇抽出部26Aは、画像データIdにおいて発話者P1、P2の口唇Lが写る口唇領域Lrを特定して抽出し、
図6に示すような口唇が全体にわたって写る口唇画像データLdを作成する。
【0048】
なお、カメラデバイス14と発話者P1、P2それぞれとの間の距離によって画像データIdにおける口唇の大きさが異なるため、作成された口唇画像データLdの大きさを正規化してもよい。その正規化のために、口唇画像データLdは、例えば、画像データIdにおける発話者P1、P2の顔が写る顔領域Frを特定して抽出し、その顔領域Frの大きさと基準の顔領域の大きさとの比率を算出し、その比率に基づいてリサイズされてもよい。
【0049】
開口度算出部26Bは、口唇抽出部26Aによって作成された口唇画像データLdに基づいて、口唇の開口度Ciを算出する。本実施の形態の場合、開口度Ciは、
図6に示すように、口唇画像データLdにおける上唇Ltと下唇Lbとの間の距離d1と口角間距離d2との積である。あるいは、単に上唇Ltと下唇Lbとの間の距離d1により開口度Ciとしてもよい。
【0050】
なお、上述したように、口唇画像データLdの大きさが正規化されている場合、口唇画像データLdにおいて上唇Ltと下唇Lbとに囲まれた領域内の画素数を、開口度Ciとして算出してもよい。
【0051】
図7は、口唇形状算出部26によって算出された、すなわち画像データIdに基づいて算出された口唇の開口度の変化を示す図である。なお、
図7に示す開口度の変化は、
図2に示す音響データSdと同期するカメラデバイス14の画像データ(動画データ)に基づいて算出されたものである。
【0052】
図2および
図7を比較すると、相対的に大きく口をあけて発声する「a」および「e」のタイミングでは開口度Ciは大きく算出され、相対的に小さく口を開けて発声する「i」、「u」、および「o」のタイミングでは開口度Ciが小さく算出されている。したがって、開口度Ciが適切に算出されていることが分かる。
【0053】
図1に戻って、第2の口唇形状推定部26によって算出された開口度Ci(そのデータ)は、発話区間検出部28に出力される。
【0054】
なお、本実施の形態のように、複数の発話者P1、P2がカメラデバイス14によって撮影される場合、発話者P1、P2それぞれの口唇の開口度Ciが算出される。
【0055】
発話区間検出部28は、第1の口唇形状推定部24によって算出された口唇の開口度Csと第2の口唇形状推定部26によって算出された口唇の開口度Ciとに基づいて、音響データSdにおける発話区間を検出する。そのために、発話区間検出部28は、相関値算出部28Aと、重み付け係数補正部28Bとを含んでいる。
【0056】
本実施の形態の場合、まず、発話区間検出部28の相関値算出部28Aは、下記の数式6を用いて開口度Csと開口度Ciの相関の程度を示す相関値Rを算出する。
【数6】
【0057】
数式6において、Cs(t)、Ci(t)、およびR(t)は、集音開始から経過時間tが経過したタイミングでの開口度Cs、Ci、およびRを示している。また、βおよびγは、重み付け係数(乗数)である。
【0058】
発話区間検出部28は、音響データSdにおいて、相関値R(t)が所定のしきい値に比べて大きいタイミングを含む区間を、発話者P1、P2が口唇を動かして音声を発声している発話区間として検出する。例えば、
図2に示すデータにおいては、集音開始をゼロ秒としたとき、約1.2~3.8秒の区間が発話区間として検出される。
【0059】
相関値R(t)の値が所定のしきい値に比べて大きい場合には、すなわち、開口度Cs、Ciの両方が大きい場合には、発話者P1、P2が口唇を動かして音声を発声している確度が高い。
【0060】
一方、相関値R(t)が所定のしきい値に比べて小さい場合、すなわち開口度Csおよび開口度Ciの少なくとも一方が小さい場合には、発話者P1、P2が口唇を動かして音声を発声している確度が低い。
【0061】
例えば、開口度Csが大きく、開口度Ciが小さい場合には、カメラデバイス14の撮影範囲にいない人物の音声、例えば、発話者が居る部屋の外から聞こえる第三者の音声、テレビやラジオなどから聞こえる第三者の音声などを、マイクデバイス12が集音している可能性がある。
【0062】
また例えば、開口度Csが小さく、開口度Ciが大きい場合には、発話者P1、P2が音声を発声することなく口唇を動かしている可能性がある。
【0063】
したがって、相関値R(t)を用いることにより、発話区間検出部28は、音響データSdにおいて発話者P1、P2が音声を発声している発話区間を高い確度で検出することができる。
【0064】
なお、
図1に示すように、複数の発話者P1、P2がカメラデバイス14によって撮影される場合、それぞれの開口度Ciを用いて相関値Rを算出することにより、発話者P1、P2それぞれの発話区間を高い確度で検出することができる。
【0065】
また、本実施の形態の場合、発話区間検出部28は、開口度Cs、Ciそれぞれの信頼度を考慮して相関値Rを算出するように構成されている。そのために、
図1に示すように、SN比算出部32と運動量算出部34が、発話区間検出装置10に含まれている。
【0066】
SN比算出部32は、音響データSdのSN比を算出し、その算出したSN比を発話区間検出部28に出力する。
【0067】
発話区間検出部28の重み付け係数補正部28Bは、SN比が所定のしきいSN比に比べて低い場合、相関値R(t)を算出するための上述の数式6において、開口度Ciを開口度Csに比べて重み付けする。すなわち、SN比が低い音響データSdに基づいて算出された開口度Csは信頼度が低いので、画像データIdに基づいて算出された開口度Ciを重み付けする。例えば、上述の数式6における開口度Csの乗数である重み付け係数βを小さくする補正するとともに、開口度Ciの乗数である重み付け係数γを大きく補正する。これにより、発話区間検出部28は、高い信頼度を備えた相関値R(t)を算出することができる。
【0068】
運動量算出部34は、画像データIdに写る発話者P1、P2の身体の少なくとも一部分に基づいて、発話者P1、P2の運動量を算出する。例えば、画像データIdにおける頭部の変位量を発話者P1、P2の運動量として、運動量算出部34は算出する。算出した運動量は、発話区間検出部28に出力される。
【0069】
発話区間検出部28の重み付け係数補正部28Bは、運動量が所定のしきい運動量に比べて大きい場合、相関値R(t)を算出するための上述の数式6において、開口度Csを開口度Ciに比べて重み付けする。すなわち、運動量が大きい場合には、画像データIdにおける口唇領域の抽出精度が低下し、そのような口唇領域に基づいて算出された開口度Ciは信頼度が低い。そのため、音響データSdに基づいて算出された開口度Csを重み付けする。例えば、上述の数式6における開口度Csの乗数である重み付け係数βを大きく補正するとともに、開口度Ciの乗数である重み付け係数γを小さく補正する。これにより、発話区間検出部28は、高い信頼度を備えた相関値R(t)を算出することができる。
【0070】
発話区間検出部28によって検出された発話区間は、発話区間出力部30を介してユーザに対して出力される。発話区間出力部30は、例えば、発話区間検出装置10に接続されたディスプレイなどの表示デバイスに、
図2に示す音響データSd(波形データ)を表示するとともに、発話区間検出部28によって検出された発話区間を表示する。また例えば、発話区間出力部30は、発話区間検出部28によって検出された発話区間の部分を音響データSdからトリミングし、音声データを作成し、その作成した音声データを出力する。
【0071】
ここからは、音響データにおいて発話区間を検出するフローについて
図8を参照しながら説明する。
【0072】
図8は、音響データにおいて発話区間を検出する一例のフローを示すフローチャートである。
【0073】
図8に示すように、発話区間検出装置10(その音響データ入力部20)は、ステップS100において、発話者P1、P2の音声を含む音響データSdを取得する。
【0074】
ステップS110において、発話区間検出装置10(その第1の口唇形状推定部24の声道形状分析部24A)は、ステップS100で取得した音響データSdに基づいて発話者P1、P2の声道形状を分析する。
【0075】
ステップS120において、発話区間検出装置10(その第1の口唇形状推定部24の開口度分析部24B)は、ステップS110で分析された声道形状に基づいて発話者P1、P2の口唇の開口度Csを分析する。
【0076】
続くステップS130において、発話区間検出装置10(その画像データ入力部22)は、発話者P1、P2の口唇が写る画像データIdを取得する。
【0077】
ステップS140において、発話区間検出装置10(その第2の口唇形状推定部26の口唇抽出部26A)は、ステップS130で取得した画像データIdにおいて口唇領域を特定して抽出する。
【0078】
ステップS150において、発話区間検出装置10(その第2の口唇形状推定部26の開口度算出部26B)は、ステップS140で抽出した口唇領域に基づいて発話者P1、P2の口唇の開口度Ciを算出する。
【0079】
ステップS160において、発話区間検出装置10は、SN比算出部32によって算出された音響データSdのSN比が所定のしきいSN比に比べて低いか否かを判定する。また、発話区間検出装置10は、運動量算出部34によって算出された発話者P1、P2の運動量が所定のしきい運動量に比べて大きいか否かを判定する。SN比が低いまたは運動量が大きい場合、ステップS170に進む。そうでない場合、ステップS170をスキップしてステップS180に進む。
【0080】
ステップS170において、SN比が低いまたは運動量が大きいため、発話区間検出装置10(その発話区間検出部28の重み付け係数補正部28B)は、相関値R(t)の算出式(数式6)の重み付け係数を補正する。
【0081】
ステップS180において、発話区間検出装置10(その発話区間検出部28の相関値算出部28A)は、相関値R(t)を算出する。
【0082】
ステップS190において、発話区間検出装置10(その発話区間検出部28)は、ステップS180で算出された相関値R(t)に基づいて、音響データSdにおける発話区間を検出する。
【0083】
ステップS200において、発話区間検出装置10(その発話区間出力部30)は、ステップS190で検出された発話区間をユーザに対して出力する。
【0084】
なお、音響データSdに基づいて開口度Csを算出するステップ(ステップS100~S120)の前にまたは同時に、画像データIdに基づいて開口度Ciを算出するステップ(ステップS130~S150)を実行してもよい。
【0085】
以上のような本実施の形態によれば、発話者の音声を含む音響データにおいて、発話者が音声を発声している発話区間を高い精度で検出することができる。
【0086】
具体的に説明すると、音響データにおける発話区間を判断するときに、音響データに基づいて推定された発話者の口唇形状(具体的には算出された開口度Cs)の変化と画像データに基づいて推定された発話者の口唇形状(具体的には算出された開口度Ci)の変化、すなわち2つの判断材料が用いられる。したがって、画像データに基づいて推定された発話者の口唇形状の変化のみを用いて音響データにおける発話区間を検出する場合に比べて、高い精度で発話区間を検出することができる。
【0087】
以上、上述の実施の形態を挙げて本開示を説明したが、本開示の実施の形態はこれに限定されない。
【0088】
例えば、上述の実施の形態の場合、数式6に示す算出式を用いて、音響データSdに基づいて算出された開口度Csと画像データIdに基づいて算出された開口度Ciとの相関を示す相関値Rが算出されている。しかしながら、相関値の算出式はこれに限らない。
【0089】
例えば、下記の数式7に示すように、相関値R(t)は、開口度Cs(t)、Ci(t)の和であってもよい。
【数7】
【0090】
また、下記の数式8に示すように、相関値Rは、開口度Cs、Ciを変数とするCORREL関数であってもよい。
【数8】
【0091】
数式8の算出式を用いる場合、まず、音響データSdが複数の区間に分割される。分割した各区間それぞれについて、相関値Rが算出される。そして、相関値Rが所定のしいき値に比べて高い少なくとも1つの区間が、発話区間として検出される。
【0092】
なお、開口度Cs、Ciの信頼度が高い場合、例えば、発話者が居る空間が静かである場合、画像データにおいて口唇領域を抽出する精度が高い場合(画像処理能力が高い場合)などの場合には、重み付け係数β、γの少なくとも一方を省略してもよい。
【0093】
また、上述の実施の形態の場合、音響データSdに基づいて算出された開口度Csと画像データIdに基づいて算出された開口度Ciの相関の程度を示す相関値Rを用いて、音響データSdにおける発話区間が検出されている。しかしながら、本開示の実施の形態はこれに限らない。
【0094】
例えば、
図4に示すような音響データSdに基づいて算出された開口度Csの波形と
図7に示すような画像データに基づいて算出された開口度Ciの波形とを比較し、それらの一致の程度に基づいて発話区間を検出してもよい。
【0095】
さらに、上述の実施の形態の場合、ノイズを含んだ状態の音響データSdに基づいて発話者の口唇形状が推定(具体的には開口度Csを算出)されている。これに代わって、ノイズフィルタなどによってノイズが除去された音響データを用いて発話者の口唇形状を推定してもよい。この場合、高い精度で口唇形状を推定することができる。また、
図1に示すSN比算出部32および重み付け係数補正部30Bを省略することができる。
【0096】
さらにまた、上述の実施の形態の場合、音響データSd全体にわたって、発話者の口唇形状が推定(具体的には開口度Csを算出)されている。すなわち、発話区間ではない範囲でも口唇形状が推定されている。これに代わって、口唇形状を推定する前に、音響データSdにおいて、発話区間が存在しうる範囲について見当をつけてもよい。例えば、音響データにおいて振幅が所定のしきい値に比べて大きい範囲に発話区間が存在しうると見当し、その範囲において口唇形状を推定してもよい。また例えば、音響データにおいて、周期性を有する範囲を発話区間が存在しうる範囲として見当してもよい。例えば自己相関関数が所定の値以上である範囲を、周期性を有する範囲としてもよい。
【0097】
加えて、上述の実施の形態の場合、1つのマイクデバイス12で、複数の発話者P1、P2の音声を集音している。そのため、複数の発話者の音声がオーバーラップしてマイクデバイス12に集音される可能性がある。この対処として、マイクデバイスは、指向性が異なる複数の指向性マイクを含むマイクアレイであってもよい。指向性マイクそれぞれが一人の発話者に向いて集音し、複数の指向性マイクそれぞれが音響データを取得する。複数の音響データそれぞれから発話者の口唇形状が推定される。
【0098】
加えてまた、上述の実施の形態の場合、音響データSdにおける発話区間は、音響データSdに基づいて算出された口唇の開口度Csと、画像データIdに基づいて算出された口唇の開口度Ciとを用いて検出される。しかしながら、本開示の実施の形態はこれに限らない。
【0099】
例えば、画像データにおける発話者の口唇領域を抽出し、抽出した口唇領域に基づいて、その発話者の口唇の動き量を算出してもよい。
図2に示すように、発話者が複数の音を発声する場合、その音と音の間で口唇形状が変化する。また、複数の音からなるフレーズの場合、フレーズの開始(最初の音の開始タイミング)と終了後(最後の音の終了タイミング)にも口唇形状が変化する。したがって、画像データに基づいて、口唇形状を数値化したパラメータとして例えば上唇に対する下唇の単位時間あたりの動き量を算出し、その算出した動き量の変化と音響データに基づいて算出された開口度とを用いて、発話区間を検出してもよい。
【0100】
また例えば、音響データから発話者の口唇の動き量を算出してもよい。
図2を用いて説明すると、発話者が音を発すると、その音の開始タイミングと終了タイミングとで振幅が大きく変化する。その振幅の単位時間あたりの変化量は、口唇の単位時間あたりの動き量とみなすことができる。したがって、音響データの振幅に基づいて、口唇形状を数値化したパラメータとして口唇の単位時間あたりの動き量を算出し、その算出した動き量の変化と画像データに基づいて算出された開口度とを用いて、発話区間を検出してもよい。
【0101】
さらに例えば、上述のように音響データに基づいて算出された口唇の動き量と画像データに基づいて算出された口唇の動き量とを用いて、音響データにおける発話区間を検出してもよい。
【0102】
すなわち、本開示のある実施の形態は、広義には、発話者の音声を含む音響データに基づいて発話者の第1の口唇形状を推定し、また、発話者の顔が少なくとも写る画像データに基づいて発話者の第2の口唇形状を推定し、第1の口唇形状の変化と第2の口唇形状の変化に基づいて音響データにおいて発話者が音声を発声している発話区間を検出するものである。
【0103】
なお、本実施の形態では開口度を線形予測分析に基づく声道形状により算出したが、これに限るものではなく、音声情報から口唇の開口度を算出する方法であればよい。例えば、ARX音声分析法により分析された伝達特性より開口度を算出するようにしてもよい。あるいは、発生された音声と口唇形状の関係をニューラルネット等の機械学習によりあらかじめ学習させておくことにより、音声から直接口唇形状を推定するようにしてもよい。
【0104】
また、開口度分析部24Bは音響データから発話者の開口度の特徴量として開口度の変化量を運動量として算出してもよい。具体的には運動量は開口度の時間差分により算出することができる。同様に開口度算出部26Bは画像データから発話者の口唇の動き量を運動量として算出してもよい。具体的には口唇抽出部26Aにより抽出した口唇形状の時間差分により運動量を算出する。音響データの振幅に基づいて、口唇形状を数値化したパラメータとして口唇の単位時間あたりの動き量を運動量として算出し、算出した運動量としての時間変化と、画像データに基づいて算出された口唇の動き量である運動量の時間変化とを用いて、発話区間検出部28は発話区間を検出してもよい。具体的には相関算出部28Aは、開口度分析部24Bにより算出された音響データに基づく口唇の運動量の時間変化と、開口度算出部26Bにより算出された画像データに基づく口唇の運動量の時間変化の相関を所定の時間幅で算出することにより、時間変化の連動性を算出するようにしてもよい。
【0105】
以上のように、本開示における技術の例示として、上述の実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
【0106】
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、前記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
【0107】
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
【産業上の利用可能性】
【0108】
本開示は、発話者の音声を含む音響データにおいて、その発話者が音声を発声している区間を特定する必要がある場合、例えば会議の議事録をとる必要がある場合などに適用可能である。