(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2020-515877(P2020-515877A)
(43)【公表日】2020年5月28日
(54)【発明の名称】ささやき声変換方法、装置、デバイス及び可読記憶媒体
(51)【国際特許分類】
G10L 15/02 20060101AFI20200501BHJP
G10L 21/007 20130101ALI20200501BHJP
G10L 15/25 20130101ALI20200501BHJP
G10L 15/16 20060101ALI20200501BHJP
G10L 25/30 20130101ALI20200501BHJP
【FI】
G10L15/02 300J
G10L21/007
G10L15/25
G10L15/16
G10L25/30
【審査請求】有
【予備審査請求】未請求
【全頁数】30
(21)【出願番号】特願2019-519686(P2019-519686)
(86)(22)【出願日】2018年6月15日
(85)【翻訳文提出日】2019年4月11日
(86)【国際出願番号】CN2018091460
(87)【国際公開番号】WO2019196196
(87)【国際公開日】20191017
(31)【優先権主張番号】201810325696.3
(32)【優先日】2018年4月12日
(33)【優先権主張国】CN
(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】518394983
【氏名又は名称】アイフライテック カンパニー,リミテッド
(74)【代理人】
【識別番号】110002860
【氏名又は名称】特許業務法人秀和特許事務所
(72)【発明者】
【氏名】パン,ジャ
(72)【発明者】
【氏名】リウ,コン
(72)【発明者】
【氏名】ワン,ハイクン
(72)【発明者】
【氏名】ワン,チグォ
(72)【発明者】
【氏名】フー,グォピン
(57)【要約】
本出願は、予めささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られるささやき声変換モデルに基づいて実現される、ささやき声変換方法、装置、デバイス及び可読記憶媒体を開示している。本出願では、ささやき声データに対応するささやき声の音響特徴量及び前記ささやき声データに対応する初期的な認識結果を取得し、さらにささやき声の音響特徴量及び初期的な認識結果を予め作成されたささやき声変換モデルに入力させて、出力された通常音声の音響特徴量を取得するようにしており、これによって、ささやき声を変換することが可能となる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することとを含み、
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプルし、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる、ことを特徴とするささやき声変換方法。
【請求項2】
さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することを含む、請求項1に記載の方法。
【請求項3】
前記ささやき声データに対応する初期的な認識結果を取得することは、
前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得することを含み、
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で、前記初期モデルをトレーニングすることによって得られる、請求項1に記載の方法。
【請求項4】
さらに、前記ささやき声データとマーチングする唇形画像データを取得することを含み、
そこで、前記ささやき声データに対応する初期的な認識結果を取得することは、さらに、
前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得することと、
前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とすることとを含み、
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる、請求項3に記載の方法。
【請求項5】
さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得ることと、
対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得することを含む、請求項4に記載の方法。
【請求項6】
前記ささやき声データに対応するささやき声の音響特徴量を取得することは、
前記ささやき声データをフレーム化して、複数フレームのささやき声データを得ることと、
フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得ることと、
各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出することとを含み、
ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を
含む、請求項1に記載の方法。
【請求項7】
前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得ることを含む、請求項1に記載の方法。
【請求項8】
前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させることと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得ることと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得ることと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とすることを含む、請求項1に記載の方法。
【請求項9】
前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、
前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることとを含む、請求項2に記載の方法。
【請求項10】
前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、
反復終了設定条件に達したか否かを判断することと、
YESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることと、
NOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すこととを含む、請求項2に記載の方法。
【請求項11】
ささやき声データに対応するささやき声の音響特徴量を取得するためのささやき声の音響特徴量取得手段と、
前記ささやき声データに対応する初期的な認識結果を取得するための初期的な認識結果取得手段と、
前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得するためのささやき音声変換処理手段とを備え、
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングするこ
とによって得られる、ことを特徴とするささやき声変換装置。
【請求項12】
さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定するための最終的な認識結果特定手段を備える、請求項11に記載の装置。
【請求項13】
前記初期的な認識結果取得手段は、
前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得するための第1の初期的な認識結果取得サブユニットを備え、
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる、請求項11に記載の装置。
【請求項14】
前記ささやき声データとマーチングする唇形画像データを取得するための唇形画像データ取得手段を備え、
そこで、前記初期的な認識結果取得手段は、さらに、
前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第2の初期的な認識結果取得サブユニットと、
前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第3の初期的な認識結果取得サブユニットとを備え、
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる、請求項13に記載の装置。
【請求項15】
さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得るための口唇検知手段と、
対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得するための画像処理手段とを備える、請求項14に記載の装置。
【請求項16】
前記ささやき声の音響特徴取得手段は、
前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るためのフレーム化処理手段と、
フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得るための予め重み付け処理手段と、
各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するスペクトル特徴量抽出手段とを備え、
ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を
含む、請求項11に記載の装置。
【請求項17】
前記ささやき声変換処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得るための再帰処理手段を備える、請求項11に記載の装置。
【請求項18】
前記ささやき声変換処理手段は、コーデック処理手段を備え、
前記コーデック処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第1のコーデック処
理サブユニットと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第2のコーデック処理サブユニットと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第3のコーデック処理サブユニットと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第4のコーデック処理サブユニットとを備える、請求項11に記載の装置。
【請求項19】
前記最終的な認識結果特定手段は、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、
前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第1の結果特定手段とを備える、請求項12に記載の装置。
【請求項20】
前記最終的な認識結果特定手段は、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、
反復終了設定条件に達したか否かを判断するための反復判断手段と、
前記反復判断手段による判断結果がYESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第2の結果特定手段と、
前記反復判断手段による判断結果がNOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すための第3の結果特定手段とを備える、請求項12に記載の装置。
【請求項21】
プログラムが記憶されているメモリーと、
前記プログラムが実行されると、請求項1〜10のいずれか1項に記載のささやき声変換方法の各ステップが実現されるためのプロセッサーとを備える、ことを特徴とするささやき声変換デバイス。
【請求項22】
コンピュータプログラムが記憶されている可読記憶媒体であって、
前記コンピュータプログラムがプロセッサーによって実行されると、請求項1〜10のいずれか1項に記載のささやき声変換方法の各ステップが実現される、ことを特徴とする可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2018年4月12日に中国専利局で出願された、出願番号が201810325696.3であって、発明の名称が「ささやき声変換方法、装置、デバイス及び可
読記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容は援用により本出願に組み込まれる。
【背景技術】
【0002】
音声認識は、機械学習手法によって機械にて音声から対応するテキストを自動的に変換させ、これで人間の聴覚のような機能をロボットに与える技術であって、人工知能の重要な構成部分とされている。人工知能技術の急速な進化や、各種のスマート端末機器の日々普及につれて、音声認識技術はヒューマン・コンピュータ・インタラクションにおける重要な一環として、各種のスマート端末に幅広く利用されてきて、ますます多くの人は音声で入力するようになってきた。
【0003】
音声は、通常音声とささやき声に分けられている。その中で、ささやき声とは、ユーザが内緒話をする時の音声であるのに対して、通常音声とは、ユーザが正常に話す時の音声である。通常音声とささやき声との発音方式が異なる。具体的に、通常音声が出されると、人の声帯は規則的かつ周期的な振動を呈しており、このような振動周波数は基本周波数と呼ばれる。一方、ささやき声で話した場合、声帯の振動は目立たず、不規則的かつランダムな振動を呈しており、即ち基本周波数がないものとされる。そこで、ささやき声の音量を無理やりに上げたとしても、通常音声と同じものにもならない。
【0004】
しかしながら、会議中やプライベートな会話などの場合は、音声入力機能を正常に使用したら不便になるため、多くの話者は小さな声で囁くことにしている。だが、こうしたら、話者の話を機械で精度よく認識できない問題が起こりうる。また、多くの失声患者の発音がささやき声に近い。そこで、従来より、ささやき声を通常音声に変換する技術の提案が求められるようになってきた。
【発明の概要】
【発明が解決しようとする課題】
【0005】
これに鑑みて、本出願は、ささやき声データの変換を精度よく実現できるささやき声変換方法、装置、デバイス及び可読記憶媒体を提供している。
【課題を解決するための手段】
【0006】
前記目的を達成するために、以下のような技術案を提供している。
【0007】
ささやき声データに対応するささやき声の音響特徴量及び前記ささやき声データに対応する初期的な認識結果を取得することと、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することとを含むささやき声変換方法である。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
【0008】
好ましくは、さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することを含む。
【0009】
好ましくは、前記ささやき声データに対応する初期的な認識結果を取得することは、前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得することを含む。
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる。
【0010】
好ましくは、さらに、前記ささやき声データとマーチングする唇形画像データを取得することを含む。
そこで、前記ささやき声データに対応する初期的な認識結果を取得することは、さらに、前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得することと、前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とすることとを含む。
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。
【0011】
好ましくは、さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得ることと、対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得することを含む。
【0012】
好ましくは、前記ささやき声データに対応するささやき声の音響特徴量を取得することは、前記ささやき声データをフレーム化して、複数フレームのささやき声データを得ることと、フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得ることと、各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出することとを含む。ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を含む。
【0013】
好ましくは、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得ることを含む。
【0014】
好ましくは、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させることと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得ることと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得ることと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な
認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とすることとを含む。
【0015】
好ましくは、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることとを含む。
【0016】
好ましくは、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、反復終了設定条件に達したか否かを判断することと、YESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることと、NOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すこととを含む。
【0017】
ささやき声データに対応するささやき声の音響特徴量を取得するためのささやき声の音響特徴量取得手段と、前記ささやき声データに対応する初期的な認識結果を取得するための初期的な認識結果取得手段と、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得するためのささやき音声変換処理手段とを備えるささやき声変換装置である。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
【0018】
好ましくは、さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定するための最終的な認識結果特定手段を備える。
【0019】
好ましくは、前記初期的な認識結果取得手段は、前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得するための第1の初期的な認識結果
取得サブユニットを備える。
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる。
【0020】
好ましくは、さらに、前記ささやき声データとマーチングする唇形画像データを取得するための唇形画像データ取得手段を備える。
そこで、前記初期的な認識結果取得手段は、さらに、前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第2の初期的な認識結果取得サブユニットと、前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第3の初期的な認識結果取得サブユニットとを備える。
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。
【0021】
好ましくは、さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得るための口唇検知手段と、対応するフレーム画像から前記口唇領域を抽出すると
共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得するための画像処理手段とを備える。
【0022】
好ましくは、前記ささやき声の音響特徴取得手段は、前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るためのフレーム化処理手段と、フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得るための予め重み付け処理手段と、各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するスペクトル特徴量抽出手段とを備え、ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を含む。
【0023】
好ましくは、前記ささやき声変換処理手段は、前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得るための再帰処理手段を備える。
【0024】
好ましくは、前記ささやき声変換処理手段は、コーデック処理手段を備える。前記コーデック処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第1のコーデック処理サブユニットと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第2のコーデック処理サブユニットと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第3のコーデック処理サブユニットと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第4のコーデック処理サブユニットとを備える。
【0025】
好ましくは、前記最終的な認識結果特定手段は、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第1の結果特定手段とを備える。
【0026】
好ましくは、前記最終的な認識結果特定手段は、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、反復終了設定条件に達したか否かを判断するための反復判断手段と、前記反復判断手段による判断結果がYESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第2の結果特定手段と、前記反復判断手段による判断結果がNOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すための第3の結果特定手段とを備える。
【0027】
プログラムが記憶されているメモリーと、前記プログラムが実行されると、前記に記載されたささやき声変換方法の各ステップが実現されるためのプロセッサーとを備えるささやき声変換デバイスである。
【0028】
コンピュータプログラムが記憶されている可読記憶媒体であって、前記コンピュータプログラムがプロセッサーによって実行されると、前記に開示されたささやき声変換方法の各ステップが実現される。
【発明の効果】
【0029】
前記の技術案から明らかなように、本出願の実施例に提供されるささやき声変換方法は、予めささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られるささやき声変換モデルに基づいて実現される。本出願では、ささやき声データに対応するささやき声の音響特徴量及び前記ささやき声データに対応する初期的な認識結果を取得し、さらにささやき声の音響特徴量及び初期的な認識結果を予め作成されたささやき声変換モデルに入力させて、出力された通常音声の音響特徴量を取得するようにしている。これによって、ささやき声を変換することが可能となるため、ユーザがささやき声で会話した場合においても、相手側から伝えられてきた内容を正確に理解することができる。
【図面の簡単な説明】
【0030】
本発明の実施例又は先行技術の技術案をより明確に説明するために、以下で、実施例又は先行技術を記述するのに使用される図面について簡単に説明する。以下の図面は、本発明の実施例に過ぎず、進歩性に値する労働を付することなく、この図面によって他の図面を得ることができることは、当業者にとっては明白であろう。
【0031】
【
図1】
図1は、本出願の実施例に係るささやき声変換方法のフローチャートである。
【
図2】
図2は、本出願の実施例に係るささやき声の音響特徴量を取得する方法のフローチャートである。
【
図3】
図3は、唇形認識モデルの構造模式図を示している。
【
図4】
図4は、再帰型ニューラルネットワークタイプのささやき声変換モデルの構造模式図を示している。
【
図5】
図5は、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルの構造模式図を示している。
【
図6】
図6は、本出願の実施例に係るもう一つのささやき声変換方法のフローチャートである。
【
図7】
図7は、本出願の実施例に係る更にもう一つのささやき声変換方法のフローチャートである。
【
図8】
図8は、本出願の実施例に係るささやき声変換装置の構造模式図である。
【
図9】
図9は、本出願の実施例に係るささやき声変換デバイスのハードウェア構造ブロック図である。
【発明を実施するための形態】
【0032】
以下にて、本出願の実施例における図面を参照しながら、本出願の実施例に係る技術案について明瞭かつ全体的に説明する。明らかなように、ここに記述される実施例は全ての実施例ではなく、本出願の一部分の実施例に過ぎない。本出願の実施例に基づいて、当業者が進歩性に値する労働を付することなく実施できるその他の実施例は、いずれも本出願の保護範囲に含まれるものとされている。
【0033】
続いて、
図1を参照しながら、本出願のささやき声変換方法について説明する。
図1に示すように、この方法は以下のステップを含む。
【0034】
ステップS100:ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得する。
【0035】
具体的には、このステップでは、外部から入力されたささやき声データに対応するささやき声の音響特徴量を直接に入手することができるし、ささやき声データに基づいて対応するささやき声の音響特徴量を特定することもできる。
【0036】
さらに、ささやき声データに対応する初期的な認識結果は、外部から入力されるものであってもよく、また、本出願のささやき声データに基づいて特定されることもできる。
【0037】
しかしながら、ささやき声データに対応する初期的な認識結果の正確度はそれほど高くなく、そのまま最終的な認識結果として取り扱うことができない場合がある。
【0038】
ささやき声データは、端末機器で収集可能となっている。端末機器は、スマートフォンやパソコンやタブレット端末などであってもよい。具体的に、端末機器に設けられたマイクを経由してささやき声データを収集することができる。
【0039】
ステップS110:前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得する。
【0040】
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプルし、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
【0041】
つまり、ささやき声変換モデルの訓練サンプルは、ささやき声訓練データに対応するささやき声の訓練音響特徴量及びささやき声訓練データの認識結果を含んでいてもよい。一方、サンプルラベルは、ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量を含んでいる。
【0042】
ここで、ささやき声訓練データと並行する通常音声データとは、ささやき声訓練データと通常音声データが、デバイスや環境、話速、気分などが同じである場合に同一の話者がそれぞれにささやき声と通常音声で話すことをいう。
【0043】
ささやき声訓練データの認識結果は、手動で付加されるものであってもよく、また、ステップS100と同様に、外部から導入されたささやき声訓練データに対応する初期的な認識結果を取得して、ささやき声訓練データの認識結果とすることもできる。
【0044】
本実施例では、ささやき声変換モデルは、ささやき声の音響特徴量及び初期的な認識結果に基づいて、ささやき声データに対応する通常音声の音響特徴量を予測でき、これによって、ささやき声を通常音声に変換できるため、ユーザーがささやき声で会話している場合においても、相手側から伝えられてきた内容を正確に理解することができる。
【0045】
本出願の一つの実施例では、前記ステップS100においてささやき声データに対応するささやき声の音響特徴量を取得する過程について説明する。
図2に示すように、この過程は、前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るステップS200と、フレームごとのささやき声データに対してプリエンファシス処理を行って、処理されたささやき声データを得るステップS210と、各フレームが処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するステップS220とを含む
。
【0046】
ここで、スペクトル特徴量は、メルフィルタバンクエネルギー特徴量(LogFilter Bank
Energy)と、メル周波数ケプストラム係数特徴量(Mel Frequency Cepstrum Coefficient, MFCC)と、知覚的線形予測係数特徴量(Perceptual Linear Predictive, PLP)とのうちのいずれか1種以上を含む。
【0047】
さらに、前記ステップS100においてささやき声音声データに対応する初期的な認識結果を取得する過程について説明する。本実施例には、それぞれに以下に示すような2種類の取得方式が開示されている。
【0048】
第1種の方式は、ささやき声認識モデルに基づいて実現される。
【0049】
本実施例においては、ささやき声音声認識モデルを予めトレーニングすることができる。このささやき声認識モデルは、通常音声認識モデルを初期モデルとして、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で、前記初期モデルをトレーニングすることによって得られる。
【0050】
その中で、通常音声認識モデルは、通常音声訓練データの認識結果がマークされた通常音声訓練音響特徴量でトレーニングすることによって得られる。
【0051】
本実施例では、ささやき声データの収集コストが高く、一般的に収集できたささやき声データが少ないことから、話す人や環境などの面において効果的にカバーすることはなかなか難しいため、ささやき声訓練データでカバーしきれない場合に、認識率が著しく低下してしまう点がある。これに基づいて、本出願で設計されるささやき声認識モデルは、通常音声認識モデルを適応することによって得る。具体的には、
まず、認識結果を手動で付した通常に話す時の通常音声データを大量に収集し、認識結果を手動で付したささやき声データを少量に収集する。
次に、通常音声データの通常音声の音響特徴量を抽出し、そしてささやき声データのささやき声の音響特徴量を抽出する。
続いて、通常音声の音響特徴量、及び通常音声データに手動で付した認識結果の両方で、通常音声認識モデルをトレーニングする。
最後に、訓練済みの通常音声認識モデルを初期モデルとして、ささやき声の音響特徴量、及び手動でささやき声データに付す認識結果の両方で、この初期モデルをトレーニングする。トレーニングした後、ささやき声認識モデルを得る。
【0052】
トレーニングすることで得られたささやき声認識モデルに対して、本実施例では、取得されたささやき声データに対応するささやき声の音響特徴量をこのささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得することができる。
【0053】
また、本実施例において、ささやき声データ及び対応する認識結果のみに基づいてささやき声認識モデルをトレーニングすることもできることは理解されるべきであろう。
【0054】
第2種の方式は、ささやき声認識モデル及び唇形認識モデルによって実現される。
【0055】
第1種の実現方式のうえで、本実施例では、さらに唇形認識過程を組み合わせて、ささやき声データに対応する初期的な認識結果を総合的に特定する。具体的には、
本実施例では、さらにささやき声データとマーチングする唇形画像データを取得することができる。この唇形画像データは、話者がささやき声で話している時の唇形が撮られた
唇形画像である。
【0056】
これに基づいて、本出願では、唇形認識モデルを予めトレーニングする。この唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。
【0057】
ささやき声データとマーチングする唇形画像データを前記唇形認識モデルに入力させることで、同モデルから出力された唇形認識結果を得る。
【0058】
さらに好ましくは、ささやき声データとマーチングする唇形画像データを取得した後、本実施例では、さらに唇形画像データに予め処理を行うと共に、予め処理された唇形画像データを唇形認識モデルの入力とすることができる。
【0059】
唇形画像に予め処理を行う過程は、以下のステップを含む。すなわち、
まず、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得る。
具体的には、口唇検知時に、物体検知技術、例えばFasterRCNNモデルなどを活用することができる。
さらに、対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得する。
【0060】
画像に正規化処理を施す過程中に、画像を所定のサイズ、例えば32*32ピクセル又はそ
の他のサイズに縮小することができる。この正規化処理方式には、従来の各種の画像スケーリング技術、例えば線形補間などを利用することができる。
【0061】
図3を参照して、唇形認識モデルの構造模式図を示している。
【0062】
予め処理された唇形画像系列をモデルの入力とする。まず、畳込み型ニューラルネットワークCNNを通過して各フレームの唇形画像の特徴表現を得る。ここで、畳込みニューラルネットワークの構造は制限されず、従来の画像識別中に常に採用されたVGG構造又は残余構造などが挙げられる。そして、再帰型ニューラルネットワークRNNを通過して唇形画像系列の特徴表現を形成し、さらにフィードフォワードニューラルネットワークFFNNを通過して出力層と接続させる。出力層は入力唇形画像系列に対応する音素系列又は音素状態系列である。
【0063】
図3に示されている出力層から出力される音素系列は、「zh、ong、g、uo」である。
【0064】
前記にて説明されたように唇形認識結果を取得するうえで、唇形認識結果と、ささやき声認識モデルから出力されたささやき声認識結果とを統合化し、この統合化された認識結果をささやき声データに対応する初期的な認識結果として取得する。
【0065】
その中で、唇形認識結果とささやき声認識モデルから出力されたささやき声認識結果とを統合化する過程には、従来のモデル統合手法、例えばROVER法(Recognizer output
voting error reduction; 多数決による認識誤り低減法)、またはその他の統合手法が用いられている。
【0066】
こうして唇形認識結果とささやき声認識結果を統合させることによって、ささやき声認識精度の向上が図れるので、特定されたささやき声データに対応する初期的な認識結果が更に正確になる。
【0067】
本出願のもう一つの実施例において、前記ステップS110、即ち、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得する実施過程について詳述する。
【0068】
本実施例には、2種類のささやき声変換モデルが提供されている。それぞれに以下の通りである。
【0069】
<第1種>
ささやき声変換モデルは再帰型ニューラルネットワークタイプである。
図4には、再帰型ニューラルネットワークタイプのささやき声変換モデルの構造模式図が示されている。
【0070】
入力層は2種類のデータを含み、それぞれは各フレームのささやき声の音響特徴量及び各フレームの初期的な認識結果である。
図4において、初期的な認識結果について、音素系列「zh、ong、g、uo」を例に説明する。
【0071】
出力層は、各フレームの通常音声の音響特徴量である。
【0072】
前記ささやき声変換モデルによって、本実施例は、前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させて、モデルから出力される通常音声の音響特徴量を得ることができる。
ここで、モデルに入力された初期的な認識結果は、ベクトル化された初期的な認識結果であってもよい。
【0073】
<第2種>
ささやき声変換モデルは、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルである。
図5には、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルの構造模式図が示されている。
【0074】
入力層は2種類のデータを含み、それぞれ各フレームのささやき声の音響特徴量x
1-x
s
及び各フレームの初期的な認識結果である。
図5において、初期的な認識結果について、音素系列「zh、ong、g、uo」を例に説明する。
【0075】
各フレームのささやき声の音響特徴量をコーディング層によってコーディングして、コーディングされたささやき声の音響特徴量h
ieを得る(ここで、i∈[1,s])。アテンション層は、コーディングされたささやき声の音響特徴量h
ie及び現時点tにおけるデコーディング層の隠れ層変数h
tdを用いることで、現時点t、各フレームのささやき声の音響特徴量の係数ベクトルα
tを求める。そして、係数ベクトルα
tと各フレームのコーディングされたささやき声の音響特徴量h
ieからなるベクトルとを乗算することで、現時点における重み付け後ささやき声の音響特徴量c
tを求める。コーディングされた初
期的な認識結果、現時点における重み付け後ささやき声の音響特徴量c
t及び前の時刻で
あるt-1におけるデコーディング層の出力y
t−1を現時点tにおけるデコーディング層の入力とし、現時点tにおけるデコーディング層の出力y
tを通常音声の音響特徴量とす
る。
【0076】
前記ささやき声変換モデルに基づいて、本実施例は以下のようなステップに従ってモデルによって通常音声の音響特徴量を特定することができる。
i)前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルに入力させる;
ここで、入力モデルの初期的な認識結果は、ベクトル化された初期的な認識結果であってもよい。
ii)ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得る;
iii)ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得る;
iv)ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、現時点におけるデコーディング層の出力を通常音声の音響特徴量とする。
【0077】
本出願の更にもう一つの実施例において、別種のささやき声変換方法について詳述する。
図6に示すように、この方法は、以下のステップを含む。即ち、
ステップS300:ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得する。
ステップS310:前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得する。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データで付された認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
【0078】
なお、本実施例におけるステップS300〜S310は、上述した実施例におけるステップS100〜S110とそれぞれに対応しているので、ここでは、具体的な説明について詳述せず、前記説明を参照すればよい。
【0079】
ステップS320:前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定する。
【0080】
本実施例では、通常音声の音響特徴量を取得後、さらにこの通常音声の音響特徴量に基づいて、ささやき声データの最終的な認識結果を特定する。この最終的な認識結果は、テキスト格式であってもよい。
【0081】
これに加えて、本出願では、さらに通常音声の音響特徴量に基づいて、通常音声を合成して出力するか、若しくはその他の代替方式とすることができ、具体的には適用上の要求に応じて選択できることは理解されるべきであろう。
【0082】
上述した実施例に比べて、本実施例には、通常音声の音響特徴量に基づいてささやき声データの最終的な認識結果を特定する過程が追加された。この最終的な認識結果は、記憶や記録などの用途として利用されうる。
【0083】
好ましくは、本実施例では、ステップS320において通常音声の音響特徴量に基づいて最終的な認識結果を特定した後、この最終的な認識結果を、上述した実施例において説明した唇形認識モデルから出力された唇形認識結果と統合させ、この統合結果を更新後の最終的な認識結果とすることができ、ことによって、最終的な認識結果の精度をさらに向上することが可能である。
【0084】
本出願の更にもう一つの実施例において、前記ステップS320、即ち前記通常音声の音響特徴量に基づいて前記ささやき声データの最終的な認識結果を特定するための2つの選択可能な実施形態について説明する。
【0085】
<第1種>
i)前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得る;
ii)前記通常音声認識結果を前記ささやき声データの最終的な認識結果とする。
ここで、通常音声認識モデルについて、前記説明を参照すればよい。この実施形態においては、通常音声認識モデルから出力された通常音声認識結果をそのまま最終的な認識結果としている。
【0086】
<第2種>
理解の便宜上、本実施例では、ささやき声変換方法の全工程を参照しながら、前記ステップS320の過程について解説する。
【0087】
図7を参照して、
図7は、本出願の実施例に係る更にもう一つのささやき声変換方法のフローチャートである。
図7に示すように、この方法は以下のステップを含む。すなわち、
ステップS400:ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を得る。
ステップS410:前記ささやき声音響特徴及び前記初期的な認識結果を予め作成されたささやき声認識モデルに入力させ、出力された通常音声の音響特徴量を得る。
【0088】
なお、本実施例におけるステップS400〜S410は、上述した実施例におけるステップS100〜S110とそれぞれに対応しているので、ここでは、具体的な説明について詳述せず、前記説明を参照すればよい。
【0089】
ステップS420:前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得る。
ステップS430:反復終了設定条件に達したか否かを判断する;YESであれば、下記のステップS440を実行する。NOであれば、下記のステップS450を実行する。
ステップS440:前記通常音声認識結果を前記ささやき声データの最終的な認識結果とする。
ステップS450:前記通常音声認識結果を前記初期的な認識結果とするとともに、ステップS410に戻る。
【0090】
第1種の実施形態に比べて、この実施形態においては、ささやき声変換モデルによる反復過程が追加され、即ち通常音声認識モデルから出力された通常音声認識結果をさらに初期的な認識結果とし、その後、反復終了設定条件に達するまでささやき声変換モデルに入力させて反復を行う。
【0091】
反復終了設定条件としては、例えばささやき声変換モデルの反復回数が回数閾値に達したとか、反復時間が時間閾値に達したとか、または、通常音声認識結果の信頼度収束状況が設定された収束条件に達したなど、複数種の条件が挙げられることは理解されるべきであろう。
【0092】
具体的な回数閾値、時間閾値は、実際の作業中に求められるシステム応答時間とコンピューティングリソースにより決定される。
【0093】
もちろん、反復回数が多くなるほど、得られる最終的な認識結果の精度が高いが、消費される時間やコンピューティングリソースも多くなることは理解されるべきであろう。
【0094】
以下にて、本出願の実施例に提供されるささやき声変換装置について詳述する。以下に記載されるささやき声変換装置と前記ささやき声変換方法は相互参照することができる。
【0095】
図8を参照して、
図8は、本出願の実施例に係るささやき声変換装置の構造模式図である。
図8に示すように、この装置は、ささやき声データに対応するささやき声の音響特徴量を取得するためのささやき声の音響特徴量取得手段11と、前記ささやき声データに対応する初期的な認識結果を取得するための初期的な認識結果取得手段12と、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得するためのささやき音声変換処理手段13とを備える。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
【0096】
好ましくは、前記初期的な認識結果取得手段は、前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得するための第1の初期的な認識結果
取得サブユニットを備える。
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる。
【0097】
好ましくは、本出願の装置は、さらに、前記ささやき声データとマーチングする唇形画像データを取得するための唇形画像データ取得手段を備える。
そこで、前記初期的な認識結果取得手段は、さらに、前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第2の初期的な認識結果取得サブユニットと、前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第3の初期的な認識結果取得サブユニットとを備える。
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。
【0098】
好ましくは、本出願に係る装置は、さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得るための口唇検知手段と、対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得するための画像処理手段とを備える。
【0099】
好ましくは、前記ささやき声の音響特徴取得手段は、前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るためのフレーム化処理手段と、フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得るための予め重み付け処理手段と、各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するスペクトル特徴量抽出手段とを備える。ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を含む。
【0100】
好ましくは、本実施例は、ささやき声変換処理手段の2つの選択可能な構造を開示している。
【0101】
一つ目は、ささやき声変換処理手段は、前記ささやき声の音響特徴量及び前記初期的な
認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、こうしてモデルから出力された通常音声の音響特徴量を得るための再帰処理手段を備える。
【0102】
二つ目は、ささやき声変換処理手段は、コーデック処理手段を備える。前記コーデック処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第1のコーデック処理サブユニットと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第2のコーデック処理サブユニットと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第3のコーデック処理サブユニットと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第4のコーデック処理サブユニットとを備える。
【0103】
好ましくは、本出願に係る装置は、さらに、前記通常音声の音響特徴量に基づいて前記ささやき声データの最終的な認識結果を特定するための最終的な認識結果特定手段を備える。
【0104】
好ましくは、本実施例は、最終的な認識結果特定手段の2つの選択可能な構造を開示している。
【0105】
一つ目は、最終的な認識結果特定手段は、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第1の結果特定手段とを備える。
【0106】
二つ目は、最終的な認識結果特定手段は、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、反復終了設定条件に達したか否かを判断するための反復判断手段と、前記反復判断手段による判断結果がYESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第2の結果特定手段と、前記反復判断手段による判断結果がNOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すための第3の結果特定手段とを備える。
【0107】
本出願の実施例に提供されるささやき声変換装置はささやき声変換デバイス、例えばPC端末や、クラウドプラットフォーム、サーバー及びサーバークラスタなどに使用されうる。好ましくは、
図9は、本出願の実施例に係るささやき声変換デバイスのハードウェア構造ブロック図を示している。
図9を参照して、ささやき声変換デバイスのハードウェア構造は、少なくとも1つのプロセッサー1と、少なくとも1つの通信用インターフェース2と、少なくとも1つのメモリー3と少なくとも1つの通信バス4とを含んでいてもよい。
【0108】
本出願の実施例では、プロセッサー1、通信用インターフェース2、メモリー3、通信バス4の数が少なくとも1本であって、かつプロセッサー1、通信用インターフェース2、メモリー3同士間の通信は通信バス4を介して行われる。
【0109】
プロセッサー1は1つの中央処理装置CPU、または特定の集積回路ASIC(Application Specific Integrated Circuit)であるか、若しくは、本発明の実施例を実施するた
めの1つまたは複数の集積回路などに配置されている。
【0110】
メモリー3は、高速RAMメモリーを含んでもよいし、さらに非揮発性メモリー(non-volatile memory)など、例えば少なくとも1つの磁気ディスクメモリーを含んでもよい
。
【0111】
その中で、メモリーにはプログラムが記憶されている。プロセッサーはメモリーに記憶されたプログラムを始動させることができる。前記プログラムは、ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することに用いられる。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
【0112】
好ましくは、前記プログラムの詳細な機能及び拡張機能については、前記説明を参照すればよい。
【0113】
本出願の実施例は、さらに、プロセッサーによって実行されるプログラムを記憶できる記憶媒体を提供している。
前記プログラムは、ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することに用いられる。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
【0114】
好ましくは、前記プログラムの詳細な機能及び拡張機能については、前記説明を参照すればよい。
【0115】
最後に、本文では、例えば第1、第2などの関係を示す術語は、1つの本体または操作を別の本体または操作から区分するために使われるだけであって、必ずしもこれらの本体または操作の間にはこのような実際の関係または順序があることを要求または意味しているとは限らない。しかも、「備える」、「含む」などの術語は、非排他的な包含関係を意味し、これによって一連の要素を含む過程や方法、物体または機器はそれらの要素のみならず、さらに明示されていないその他の要素を含むか、或いはこのような過程や方法、物体又は機器に備わる固有の要素をも含む。特別な制限がない場合に、「……を含む」という語句によって限定される要素について、前記要素を含む過程や方法、物体または機器の中には別の同じ要素が更に存在している状況は除外されない。
【0116】
本明細書における各実施例は、プログレッシブな方式で記述されている。各実施例において主に強調する点は、その他の実施例との相違点であり、各実施例の間の同一又は類似する部分は、互いに参照すれば理解できる。
【0117】
前記に開示された実施例に対する前記説明に基づいて、当業者は本発明を実現又は実施することができる。これらの実施例に対する様々な変更は、当業者には明白であろう。本文で定義される一般的な原理は、本発明の範囲及び趣旨から逸脱しない限り、その他の実施例によって実現されうる。したがって、本発明は、本文で示されるこれらの実施例に限定されず、本文が開示する原理及び新規性と一致する最も広範囲の要件を満足すべきである。
【手続補正書】
【提出日】2019年7月4日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することとを含み、
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプルし、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる、ことを特徴とするささやき声変換方法。
【請求項2】
さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することを含む、請求項1に記載の方法。
【請求項3】
前記ささやき声データに対応する初期的な認識結果を取得することは、
前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得することを含み、
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で、前記初期モデルをトレーニングすることによって得られる、請求項1に記載の方法。
【請求項4】
さらに、前記ささやき声データとマーチングする唇形画像データを取得することを含み、
そこで、前記ささやき声データに対応する初期的な認識結果を取得することは、さらに、
前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得することと、
前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とすることとを含み、
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる、請求項3に記載の方法。
【請求項5】
さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得ることと、
対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得することを含む、請求項4に記載の方法。
【請求項6】
前記ささやき声データに対応するささやき声の音響特徴量を取得することは、
前記ささやき声データをフレーム化して、複数フレームのささやき声データを得ることと、
フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得ることと、
各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出することとを含み、
ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を
含む、請求項1に記載の方法。
【請求項7】
前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得ることを含む、請求項1に記載の方法。
【請求項8】
前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させることと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得ることと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得ることと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とすることを含む、請求項1に記載の方法。
【請求項9】
前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、
前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることとを含む、請求項2に記載の方法。
【請求項10】
前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、
反復終了設定条件に達したか否かを判断することと、
YESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることと、
NOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すこととを含む、請求項2に記載の方法。
【請求項11】
ささやき声データに対応するささやき声の音響特徴量を取得するためのささやき声の音響特徴量取得手段と、
前記ささやき声データに対応する初期的な認識結果を取得するための初期的な認識結果取得手段と、
前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得するためのささやき音声変換処理手段とを備え、
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる、ことを特徴とするささやき声変換装置。
【請求項12】
さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定するための最終的な認識結果特定手段を備える、請求項11に記載の装置。
【請求項13】
前記初期的な認識結果取得手段は、
前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得するための第1の初期的な認識結果取得サブユニットを備え、
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる、請求項11に記載の装置。
【請求項14】
前記ささやき声データとマーチングする唇形画像データを取得するための唇形画像データ取得手段を備え、
そこで、前記初期的な認識結果取得手段は、さらに、
前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第2の初期的な認識結果取得サブユニットと、
前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第3の初期的な認識結果取得サブユニットとを備え、
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる、請求項13に記載の装置。
【請求項15】
さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得るための口唇検知手段と、
対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得するための画像処理手段とを備える、請求項14に記載の装置。
【請求項16】
前記ささやき声の音響特徴取得手段は、
前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るためのフレーム化処理手段と、
フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得るための予め重み付け処理手段と、
各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するスペクトル特徴量抽出手段とを備え、
ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を
含む、請求項11に記載の装置。
【請求項17】
前記ささやき声変換処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得るための再帰処理手段を備える、請求項11に記載の装置。
【請求項18】
前記ささやき声変換処理手段は、コーデック処理手段を備え、
前記コーデック処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第1のコーデック処理サブユニットと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第2のコーデック処理サブユニットと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第3のコーデック処理サブユニットと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第4のコーデック処理サブユニットとを備える、請求項11に記載の装置。
【請求項19】
前記最終的な認識結果特定手段は、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、
前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第1の結果特定手段とを備える、請求項12に記載の装置。
【請求項20】
前記最終的な認識結果特定手段は、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、
反復終了設定条件に達したか否かを判断するための反復判断手段と、
前記反復判断手段による判断結果がYESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第2の結果特定手段と、
前記反復判断手段による判断結果がNOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すための第3の結果特定手段とを備える、請求項12に記載の装置。
【請求項21】
プログラムが記憶されているメモリーと、
前記プログラムが実行されると、請求項1〜10のいずれか1項に記載のささやき声変
換方法の各ステップが実現されるためのプロセッサーとを備える、ことを特徴とするささやき声変換デバイス。
【請求項22】
コンピュータプログラムが記憶されている可読記憶媒体であって、
前記コンピュータプログラムがプロセッサーによって実行されると、請求項1〜10のいずれか1項に記載のささやき声変換方法の各ステップが実現される、ことを特徴とする可読記憶媒体。
【請求項23】
請求項1〜10のいずれか1項に記載のささやき声変換方法をコンピュータに実行させるためのコンピュータプログラム。
【国際調査報告】