IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 新▲東▼方教育科技集▲団▼有限公司の特許一覧

特許7097416アクセント検出方法、装置及び非一時的な記憶媒体
<>
  • 特許-アクセント検出方法、装置及び非一時的な記憶媒体 図1
  • 特許-アクセント検出方法、装置及び非一時的な記憶媒体 図2
  • 特許-アクセント検出方法、装置及び非一時的な記憶媒体 図3
  • 特許-アクセント検出方法、装置及び非一時的な記憶媒体 図4
  • 特許-アクセント検出方法、装置及び非一時的な記憶媒体 図5
  • 特許-アクセント検出方法、装置及び非一時的な記憶媒体 図6
  • 特許-アクセント検出方法、装置及び非一時的な記憶媒体 図7
  • 特許-アクセント検出方法、装置及び非一時的な記憶媒体 図8
  • 特許-アクセント検出方法、装置及び非一時的な記憶媒体 図9
  • 特許-アクセント検出方法、装置及び非一時的な記憶媒体 図10
  • 特許-アクセント検出方法、装置及び非一時的な記憶媒体 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-29
(45)【発行日】2022-07-07
(54)【発明の名称】アクセント検出方法、装置及び非一時的な記憶媒体
(51)【国際特許分類】
   G10L 25/60 20130101AFI20220630BHJP
   G10L 25/18 20130101ALI20220630BHJP
   G10L 25/90 20130101ALI20220630BHJP
   G10L 25/21 20130101ALI20220630BHJP
【FI】
G10L25/60
G10L25/18
G10L25/90
G10L25/21
【請求項の数】 18
(21)【出願番号】P 2020168966
(22)【出願日】2020-10-06
(65)【公開番号】P2021179590
(43)【公開日】2021-11-18
【審査請求日】2020-10-06
(31)【優先権主張番号】202010389701.4
(32)【優先日】2020-05-11
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520016251
【氏名又は名称】新▲東▼方教育科技集▲団▼有限公司
(74)【代理人】
【識別番号】110000291
【氏名又は名称】弁理士法人コスモス国際特許商標事務所
(72)【発明者】
【氏名】高 興龍
(72)【発明者】
【氏名】李 悦
(72)【発明者】
【氏名】瞿 ▲ウェイ▼
【審査官】大野 弘
(56)【参考文献】
【文献】特開2012-215668(JP,A)
【文献】特開2011-076068(JP,A)
【文献】特開2011-221157(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/60
G10L 25/18
G10L 25/90
G10L 25/21
(57)【特許請求の範囲】
【請求項1】
単語のオーディオデータを取得することと、
前記オーディオデータの韻律的特徴を抽出して、韻律的特徴ベクトルを得ることと、
前記オーディオデータに基づいてスペクトログラムを生成して、スペクトル特徴マトリックスを得ることと、
前記韻律的特徴ベクトルに対して平均分散正規化処理を行って、平均分散正規化された韻律的特徴ベクトルを得、前記スペクトル特徴マトリックスに対して平均分散正規化処理を行って、平均分散正規化された複数の周波数特徴ベクトルを含むスペクトル特徴マトリックスを得、前記平均分散正規化された韻律的特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスとに対してスティッチング操作を行って、第1の特徴マトリックスを得、前記第1の特徴マトリックスに対して冗長除去操作を行って第2の特徴マトリックスを得ることと、
分類器で前記第2の特徴マトリックスに対して分類処理を行って、前記オーディオデータのアクセント検出結果を得ることとを含み、
前記オーディオデータに基づいて前記スペクトログラムを生成して、前記スペクトル特徴マトリックスを得ることは、
前記単語及び前記オーディオデータに基づいて、前記単語に対応する前記オーディオデータにおける発音セグメントを確定することと、
前記オーディオデータにおける発音セグメントに対して、フレーム分割、周波数領域変換及びバックドメイン変換を順次に行って、前記スペクトログラムを得ることと、
前記スペクトログラムに基づいて、所定のバックドメインの周波数帯域範囲においてオリジナルスペクトル特徴マトリックスを抽出することと、
前記オリジナルスペクトル特徴マトリックスに対して次元変換操作を行って、前記スペクトル特徴マトリックスを得ることを含み、
前記平均分散正規化された韻律的特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスとに対してスティッチング操作を行って、前記第1の特徴マトリックスを得ることは、
前記平均分散正規化された韻律的特徴ベクトルに対して次元変換操作を行って、前記平均分散正規化されたスペクトル特徴マトリックスにおけるいずれの周波数特徴ベクトルの次元数と同じの第1の特徴ベクトルを得ることと、前記第1の特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスとに対してスティッチングを行って、前記第1の特徴マトリックスを得ることとを含み、前記第1の特徴マトリックスは、前記第1の特徴ベクトル及び前記平均分散正規化されたスペクトル特徴マトリックスにおける全ての周波数特徴ベクトルを含むこと、または、
前記平均分散正規化された韻律的特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスに含まれている前記複数の周波数特徴ベクトルに対してスティッチング操作を行って、前記第1の特徴マトリックスを得ることとを含む、
ことを特徴とする、コンピュータにより実行されるアクセント検出方法。
【請求項2】
前記第1の特徴マトリックスは、前記第1の特徴ベクトル及び前記平均分散正規化されたスペクトル特徴マトリックスにおける全ての前記複数の周波数特徴ベクトルを含む場合に、前記第1の特徴マトリックスに対して前記冗長除去操作を行って、前記第2の特徴マトリックスを得ることは、
前記第1の特徴マトリックスにおける前記第1の特徴ベクトルと前記第1の特徴マトリックスにおける各周波数特徴ベクトルの各コサイン類似度を算出することと、
前記各コサイン類似度におけるいずれのコサイン類似度が第1の所定値よりも大きいことに応じて、前記いずれのコサイン類似度に対応する前記第1の特徴マトリックスにおける周波数特徴ベクトルをオールゼロベクトルに設定するか又は前記いずれのコサイン類似度に対応する前記第1の特徴マトリックスにおける周波数特徴ベクトルを前記第1の特徴マトリックスから削除することにより、前記第2の特徴マトリックスを得ることとを含む
ことを特徴とする、請求項に記載のアクセント検出方法。
【請求項3】
前記平均分散正規化された韻律的特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスに含まれている前記複数の周波数特徴ベクトルに対してスティッチング操作を行って、前記第1の特徴マトリックスを得る場合に、前記第1の特徴マトリックスに対して前記冗長除去操作を行って、前記第2の特徴マトリックスを得ることは、
第1の重みマトリックスを取得することと、
前記第1の重みマトリックスを利用して前記第1の特徴マトリックスを処理して、前記第1の特徴マトリックスの次元数よりも小さい次元低減マトリックスを得ることと、
前記次元低減マトリックスに対して次元変換操作を行って、前記第1の特徴マトリックスの次元数と同じの第1の中間特徴マトリックスを得ることと、
前記第1の中間特徴マトリックスにおける各要素を所定区間に変換して、第2の中間特徴マトリックスを得ることと、
前記第2の中間特徴マトリックスにおけるいずれの要素が第2の所定値よりも小さいことに応じて、前記第2の中間特徴マトリックスにおける前記いずれの要素をゼロに設定して、前記第2の特徴マトリックスを得ることとを含む
ことを特徴とする、請求項1に記載のアクセント検出方法。
【請求項4】
前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、
前記単語に対応する単語時間長ガウス混合モデルを確定することと、
前記単語に対応する単語時間長ガウス混合モデルに基づいて、前記オーディオデータに対応する単語時間長尤度を抽出することとを含み、
前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記単語時間長尤度を含む
ことを特徴とする、請求項1~のいずれか1項に記載のアクセント検出方法。
【請求項5】
前記単語に対応する単語時間長ガウス混合モデルを確定することは、
前記オーディオデータに基づいて、前記オーディオデータに対応する単語時間長を得ることと、
前記単語の音素加重和を算出し、前記単語の音素加重和に基づいて、前記単語のタイプを確定することと、
前記単語のタイプに基づいて、前記単語に対応する単語時間長ガウス混合モデルを確定することとを含み、
前記単語に対応する単語時間長ガウス混合モデルに基づいて、前記オーディオデータに対応する前記単語時間長尤度を抽出することは、
前記オーディオデータに対応する単語時間長に基づいて、前記単語に対応する単語時間長ガウス混合モデルによって前記オーディオデータに対応する第1の確率密度値を算出することと、
前記オーディオデータに対応する前記第1の確率密度値に基づいて、前記オーディオデータに対応する前記単語時間長尤度を得ることとを含む
ことを特徴とする、請求項に記載のアクセント検出方法。
【請求項6】
前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、
前記単語に対応するアクセント時間長ガンマ混合モデルを確定することと、
前記単語に対応する前記アクセント時間長ガンマ混合モデルに基づいて、前記オーディオデータに対応するアクセント音節時間長尤度を抽出することとを含み、
前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記アクセント音節時間長尤度を含む
ことを特徴とする、請求項1~のいずれか1項に記載のアクセント検出方法。
【請求項7】
前記単語に対応するアクセント時間長ガンマ混合モデルを確定することは、
前記オーディオデータに基づいて、前記オーディオデータに対応する単語時間長及び前記単語におけるアクセント音節内の母音音素の音素時間長を得、得られた前記オーディオデータに対応する前記単語時間長及び前記単語における前記アクセント音節内の前記母音音素の音素時間長に基づいて、前記単語における前記アクセント音節内の前記母音音素の正規化音素時間長を確定することと、
前記単語における前記アクセント音節内の前記母音音素に基づいて、前記単語に対応する前記アクセント時間長ガンマ混合モデルを確定することとを含み、
前記単語に対応する前記アクセント時間長ガンマ混合モデルに基づいて、前記オーディオデータに対応する前記アクセント音節時間長尤度を抽出することは、
前記正規化音素時間長に基づいて、前記アクセント時間長ガンマ混合モデルによって前記オーディオデータに対応する第2の確率密度値を算出することと、
前記オーディオデータに対応する第2の確率密度値に基づいて、前記オーディオデータに対応する前記アクセント音節時間長尤度を得ることとを含む
ことを特徴とする、請求項に記載のアクセント検出方法。
【請求項8】
前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、
前記単語に対応する単語時間長ガウス混合モデルに基づいて、前記オーディオデータに対応する単語時間長尤度を抽出することと、
前記単語に対応するアクセント時間長ガンマ混合モデルに基づいて、前記オーディオデータに対応するアクセント音節時間長尤度を抽出することと、
前記オーディオデータに対応する前記単語時間長尤度及び前記オーディオデータに対応する前記アクセント音節時間長尤度に基づいて、前記オーディオデータに対応するアクセント音節と単語の時間長尤度の比の値を得ることとを含み、
前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記アクセント音節と単語の時間長尤度の比の値を含む
ことを特徴とする、請求項1~のいずれか1項に記載のアクセント検出方法。
【請求項9】
前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、
前記オーディオデータに対応する単語基本周波数傾きを抽出することを含み、
前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記単語基本周波数傾きを含む
ことを特徴とする、請求項1~のいずれか1項に記載のアクセント検出方法。
【請求項10】
前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、
前記オーディオデータに基づいて、前記単語におけるアクセント音節に対応するオーディオセグメントを確定することと、
前記単語における前記アクセント音節に対応する前記オーディオセグメントに対して、フレーム分割、周波数領域変換及びバックドメイン変換を順次に行い、所定のバックドメインの周波数帯域範囲において前記オーディオデータに対応するアクセント音節の短時間エネルギー分散を抽出することとを含み、
前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記アクセント音節の短時間エネルギー分散を含む
ことを特徴とする、請求項1~のいずれか1項に記載のアクセント検出方法。
【請求項11】
前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、
前記オーディオデータを前記単語のストレス母音及び非ストレス母音によって音節セグメント化して、ストレスオーディオセグメントを含むストレスオーディオグループ及び非ストレスオーディオセグメントを含む非ストレスオーディオグループを得ることと、
前記ストレスオーディオグループの平均基本周波数値及び前記非ストレスオーディオグループの平均基本周波数値を算出することと、
前記ストレスオーディオグループの前記平均基本周波数値及び前記非ストレスオーディオグループの前記平均基本周波数値に基づいて、前記オーディオデータに対応するストレスオーディオグループと非ストレスオーディオグループの平均基本周波数の比の値を得ることとを含み、
前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記ストレスオーディオグループと非ストレスオーディオグループの平均基本周波数の比の値を含む
ことを特徴とする、請求項1~10のいずれか1項に記載のアクセント検出方法。
【請求項12】
前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、
前記オーディオデータを前記単語のストレス母音及び非ストレス母音によって音節セグメント化して、ストレスオーディオセグメントを含むストレスオーディオグループ及び非ストレスオーディオセグメントを含む非ストレスオーディオグループを得ることと、
前記ストレスオーディオグループの平均エネルギー値及び前記非ストレスオーディオグループの平均エネルギー値を算出することと、
前記ストレスオーディオグループの前記平均エネルギー値及び前記非ストレスオーディオグループの前記平均エネルギー値に基づいて、前記オーディオデータに対応するストレスオーディオグループと非ストレスオーディオグループの平均エネルギーの比の値を得ることとを含み、
前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記ストレスオーディオグループと非ストレスオーディオグループの平均エネルギーの比の値を含む
ことを特徴とする、請求項1~11のいずれか1項に記載のアクセント検出方法。
【請求項13】
前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、
前記オーディオデータに基づいて、前記単語におけるアクセント音節に対応するオーディオセグメントを確定することと、
前記単語における前記アクセント音節に対応するオーディオセグメントに対して、フレーム分割、周波数領域変換及びバックドメイン変換を順次に行い、所定のバックドメインの周波数帯域範囲内の信号に対して時間領域変換を行って、中間波形を得ることと、
前記中間波形に対して経験的モード分解を行って、前記オーディオデータに対応する少なくとも1つのモード成分を得ることとを含み、
前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記少なくとも1つのモード成分を含む
ことを特徴とする、請求項1~12のいずれか1項に記載のアクセント検出方法。
【請求項14】
前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、
前記オーディオデータに対応する単語時間長と、単語エネルギーと、単語基本周波数とからなるグループのうちの少なくとも1つを抽出することを含み、
前記韻律的特徴ベクトルの要素は、前記単語時間長と、前記単語エネルギーと、前記単
語基本周波数とからなるグループのうちの少なくとも1つを含む
ことを特徴とする、請求項1~13のいずれか1項に記載のアクセント検出方法。
【請求項15】
前記分類器が畳み込みニューラルネットワークを含む
ことを特徴とする、請求項1~14のいずれか1項に記載のアクセント検出方法。
【請求項16】
単語のオーディオデータを取得するように配置される取得ユニットと、
前記オーディオデータの韻律的特徴を抽出して、韻律的特徴ベクトルを得るように配置される韻律的特徴抽出ユニットと、
前記単語及び前記オーディオデータに基づいて、前記単語に対応する前記オーディオデータにおける発音セグメントを確定し、 前記オーディオデータにおける発音セグメントに対して、フレーム分割、周波数領域変換及びバックドメイン変換を順次に行って、前記スペクトログラムを得、 前記スペクトログラムに基づいて、所定のバックドメインの周波数帯域範囲においてオリジナルスペクトル特徴マトリックスを抽出し、 前記オリジナルスペクトル特徴マトリックスに対して次元変換操作を行って、前記スペクトル特徴マトリックスを得るように構成されているスペクトルマトリックス抽出ユニットと、
前記韻律的特徴ベクトルに対して平均分散正規化処理を行って、平均分散正規化された韻律的特徴ベクトルを得、前記スペクトル特徴マトリックスに対して平均分散正規化処理を行って、平均分散正規化された複数の周波数特徴ベクトルを含むスペクトル特徴マトリックスを得、前記平均分散正規化された韻律的特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスとに対してスティッチング操作を行って、第1の特徴マトリックスを得、前記第1の特徴マトリックスに対して冗長除去操作を行って、第2の特徴マトリックスを得るように配置されるマトリックス演算ユニットと、
前記第2の特徴マトリックスに対して分類処理を行って、前記オーディオデータのアクセント検出結果を取得するように配置される分類ユニットとを備え
前記演算ユニットが、前記平均分散正規化された韻律的特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスとに対してスティッチング操作を行って、前記第1特徴マトリックスを得ることは、
前記平均分散正規化された韻律的特徴ベクトルに対して次元変換操作を行って、前記平均分散正規化されたスペクトル特徴マトリックスにおけるいずれの周波数特徴ベクトルの次元数と同じの第1の特徴ベクトルを得ることと、前記第1の特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスとに対してスティッチングを行って、前記第1の特徴マトリックスを得ることとを含み、前記第1の特徴マトリックスは、前記第1の特徴ベクトル及び前記平均分散正規化されたスペクトル特徴マトリックスにおける全ての周波数特徴ベクトルを含むこと、または、
前記平均分散正規化された韻律的特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスに含まれている前記複数の周波数特徴ベクトルに対してスティッチング操作を行って、前記第1の特徴マトリックスを得ることとを含む、
ことを特徴とする、アクセント検出装置。
【請求項17】
コンピュータ読み取り可能なプログラムを非一時的に記憶するように配置されるメモリと、
前記コンピュータ読み取り可能なプログラムを実行するように配置されるプロセッサとを備え、
前記コンピュータ読み取り可能なプログラムが前記プロセッサにより実行されるとき、請求項1~15のいずれか1項に記載のアクセント検出方法が実行される
ことを特徴とする、アクセント検出装置。
【請求項18】
コンピュータ読み取り可能なプログラムを非一時的に記憶する非一時的な記憶媒体であって、
前記コンピュータ読み取り可能なプログラムがコンピュータによって実行されるとき、請求項1~15のいずれか1項に記載のアクセント検出方法のプログラムが実行されることができる
ことを特徴とする、非一時的な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2020年5月11日付け出願の中国特許出願第202010389701.4号に基づく優先権を主張するものであり、その内容は、本願の一部として、上記の中国特許出願の全開示内容をここに引用される。
【0002】
本開示の実施例は、アクセント検出方法、アクセント検出装置及び非一時的な記憶媒体に関する。
【背景技術】
【0003】
英語の口語の学習では、各音節の発音の正確度は、話者の英語表現の標準度に直接に影響し、ここで、英語におけるアクセントの発音の正確度を把握することは、非常に重要な要素である。単語の発音が正しいか否かを判断することは、音節の発音だけでなくアクセントの位置にも依存する。アクセントの位置の正否は単語の意味や性質に影響を与えるため、アクセント検出も単語の発音の品質を評価する指標の一つとすべきである。以上のように、単語のアクセント検出は、口語の評価作業に不可欠な一環である。アクセント検出のフィードバックは、英語の学習者の口語能力を高めるための指導に役立ち、英語の学習者が正しい英語の発音を学習するのを助ける。
【発明の概要】
【0004】
本開示の少なくとも1つの実施例によれば、単語のオーディオデータを取得することと、前記オーディオデータの韻律的特徴を抽出して、韻律的特徴ベクトルを得ることと、前記オーディオデータに基づいてスペクトログラムを生成して、スペクトル特徴マトリックスを得ることと、前記韻律的特徴ベクトルと前記スペクトル特徴マトリックスとに対してスティッチング操作を行って第1の特徴マトリックスを得、前記第1の特徴マトリックスに対して冗長除去操作を行って第2の特徴マトリックスを得ることと、分類器で前記第2の特徴マトリックスに対して分類処理を行って、前記オーディオデータのアクセント検出結果を得ることとを含むアクセント検出方法を提供する。
【0005】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記韻律的特徴ベクトルと前記スペクトル特徴マトリックスとに対して前記スティッチング操作を行って、前記第1の特徴マトリックスを得ることは、前記韻律的特徴ベクトル及び前記スペクトル特徴マトリックスのそれぞれに対して平均分散正規化処理を行って、平均分散正規化された韻律的特徴ベクトル及び平均分散正規化されたスペクトル特徴マトリックスをそれぞれ得ることと、前記平均分散正規化された韻律的特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスとに対してスティッチング操作を行って、前記第1の特徴マトリックスを得ることとを含む。
【0006】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記平均分散正規化されたスペクトル特徴マトリックスは、複数の周波数特徴ベクトルを含み、前記平均分散正規化された韻律的特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスとに対してスティッチング操作を行って、前記第1の特徴マトリックスを得ることは、前記平均分散正規化された韻律的特徴ベクトルに対して次元変換操作を行って、前記平均分散正規化されたスペクトル特徴マトリックスにおけるいずれの周波数特徴ベクトルの次元数と同じの第1の特徴ベクトルを得ることと、前記第1の特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスとに対してスティッチングを行って、前記第1の特徴マトリックスを得ることとを含み、前記第1の特徴マトリックスは、前記第1の特徴ベクトル及び前記平均分散正規化されたスペクトル特徴マトリックスにおける全ての周波数特徴ベクトルを含む。
【0007】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記第1の特徴マトリックスに対して前記冗長除去操作を行って、前記第2の特徴マトリックスを得ることは、前記第1の特徴マトリックスにおける前記第1の特徴ベクトルと前記第1の特徴マトリックスにおける各周波数特徴ベクトルの各コサイン類似度を算出することと、前記各コサイン類似度におけるいずれのコサイン類似度が第1の所定値よりも大きいことに応じて、前記いずれのコサイン類似度に対応する前記第1の特徴マトリックスにおける周波数特徴ベクトルをオールゼロベクトルに設定するか又は前記いずれのコサイン類似度に対応する前記第1の特徴マトリックスにおける周波数特徴ベクトルを前記第1の特徴マトリックスから削除することにより、前記第2の特徴マトリックスを得ることとを含む。
【0008】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記平均分散正規化された韻律的特徴ベクトルと前記平均分散正規化されたスペクトル特徴マトリックスとに対して前記スティッチング操作を行って、前記第1の特徴マトリックスを得ることは、前記平均分散正規化された韻律的特徴ベクトルと、前記平均分散正規化されたスペクトル特徴マトリックスにおける各周波数特徴ベクトルとをそれぞれスティッチングして、前記第1の特徴マトリックスを得ることを含む。
【0009】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記第1の特徴マトリックスに対して前記冗長除去操作を行って、前記第2の特徴マトリックスを得ることは、第1の重みマトリックスを取得することと、前記第1の重みマトリックスを利用して前記第1の特徴マトリックスを処理して、前記第1の特徴マトリックスの次元数よりも小さい次元低減マトリックスを得ることと、前記次元低減マトリックスに対して次元変換操作を行って、前記第1の特徴マトリックスの次元数と同じの第1の中間特徴マトリックスを得ることと、前記第1の中間特徴マトリックスにおける各要素を所定区間に変換して、第2の中間特徴マトリックスを得ることと、前記第2の中間特徴マトリックスにおけるいずれの要素が第2の所定値よりも小さいことに応じて、前記第2の中間特徴マトリックスにおける前記いずれの要素をゼロに設定して、前記第2の特徴マトリックスを得ることとを含む。
【0010】
例えば、本開示のいくつかの実施例に係るアクセント検出方法は、トレーニングすべき第1の重みマトリックスに対してプレトレーニングを行って、前記第1の重みマトリックスを得ることをさらに含み、前記トレーニングすべき第1の重みマトリックスに対してプレトレーニングを行うことは、サンプル単語のサンプルオーディオデータを取得することと、前記サンプルオーディオデータに基づいて、前記サンプルオーディオデータに対応する第1の特徴マトリックスを得ることと、前記トレーニングすべき第1の重みマトリックスを利用して前記サンプルオーディオデータに対応する第1の特徴マトリックスを処理して、前記サンプルオーディオデータに対応する次元低減マトリックスを得ることと、トレーニングすべき第2の重みマトリックスを利用して前記サンプルオーディオデータに対応する次元低減マトリックスを処理して、前記サンプルオーディオデータに対応する第3の特徴マトリックスを得、前記サンプルオーディオデータに対応する第3の特徴マトリックスの次元数が前記サンプルオーディオデータに対応する第1の特徴マトリックスの次元数と同じであることと、前記サンプルオーディオデータに対応する第3の特徴マトリックス及び前記サンプルオーディオデータに対応する第1の特徴マトリックスに基づいて、損失関数によって損失値を算出することと、前記損失値に基づいて前記トレーニングすべき第2の重みマトリックス及び前記トレーニングすべき第1の重みマトリックスをそれぞれ修正することとを含む。
【0011】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、前記単語に対応する単語時間長ガウス混合モデルを確定することと、前記単語に対応する単語時間長ガウス混合モデルに基づいて、前記オーディオデータに対応する単語時間長尤度を抽出することとを含み、前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記単語時間長尤度を含む。
【0012】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記単語時間長ガウス混合モデルを構築することは、サンプル単語のサンプルオーディオデータを取得することと、前記サンプルオーディオデータに基づいて、前記サンプルオーディオデータに対応する単語時間長を得ることと、前記サンプル単語の音素加重和を算出し、前記サンプル単語の音素加重和に基づいて、前記サンプル単語のタイプを確定することと、各タイプの各サンプル単語のサンプルオーディオデータに対応する単語時間長に対して、前記各タイプに対応する単語時間長ガウス混合モデルを構築することとを含む。
【0013】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記単語に対応する単語時間長ガウス混合モデルを確定することは、前記オーディオデータに基づいて、前記オーディオデータに対応する単語時間長を得ることと、前記単語の音素加重和を算出し、前記単語の音素加重和に基づいて、前記単語のタイプを確定することと、前記単語のタイプに基づいて、前記単語に対応する単語時間長ガウス混合モデルを確定することとを含み、前記単語に対応する単語時間長ガウス混合モデルに基づいて、前記オーディオデータに対応する前記単語時間長尤度を抽出することは、前記オーディオデータに対応する単語時間長に基づいて、前記単語に対応する単語時間長ガウス混合モデルによって前記オーディオデータに対応する第1の確率密度値を算出することと、前記オーディオデータに対応する前記第1の確率密度値に基づいて、前記オーディオデータに対応する前記単語時間長尤度を得ることとを含む。
【0014】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、前記単語に対応するアクセント時間長ガンマ混合モデルを確定することと、前記単語に対応する前記アクセント時間長ガンマ混合モデルに基づいて、前記オーディオデータに対応するアクセント音節時間長尤度を抽出することとを含み、前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記アクセント音節時間長尤度を含む。
【0015】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記アクセント時間長ガンマ混合モデルを構築することは、サンプル単語のサンプルオーディオデータを取得することと、前記サンプルオーディオデータに基づいて、前記サンプルオーディオデータに対応する単語時間長及び前記サンプル単語における各音素の音素時間長を得、得られた前記サンプルオーディオデータに対応する単語時間長及び前記サンプル単語における各音素の音素時間長に基づいて、前記各音素の正規化音素時間長を確定することと、全ての前記正規化音素時間長をクラスタリングして、少なくとも1つの音素グループを得ることと、前記少なくとも1つの音素グループを問題セットとし、各種の音素に対して決定木クラスタリングを行って、前記各種の音素に対応するクラスタリング状態を得ることと、前記各種の音素に対応するクラスタリング状態に対して、前記各種の音素に対応するアクセント時間長ガンマ混合モデルを構築することとを含む。
【0016】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記単語に対応するアクセント時間長ガンマ混合モデルを確定することは、前記オーディオデータに基づいて、前記オーディオデータに対応する単語時間長及び前記単語におけるアクセント音節内の母音音素の音素時間長を得、得られた前記オーディオデータに対応する前記単語時間長及び前記単語における前記アクセント音節内の前記母音音素の音素時間長に基づいて、前記単語における前記アクセント音節内の前記母音音素の正規化音素時間長を確定することと、前記単語における前記アクセント音節内の前記母音音素に基づいて、前記単語に対応する前記アクセント時間長ガンマ混合モデルを確定することとを含み、前記単語に対応する前記アクセント時間長ガンマ混合モデルに基づいて、前記オーディオデータに対応する前記アクセント音節時間長尤度を抽出することは、前記正規化音素時間長に基づいて、前記アクセント時間長ガンマ混合モデルによって前記オーディオデータに対応する第2の確率密度値を算出することと、前記オーディオデータに対応する第2の確率密度値に基づいて、前記オーディオデータに対応する前記アクセント音節時間長尤度を得ることとを含む。
【0017】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、前記単語に対応する単語時間長ガウス混合モデルに基づいて、前記オーディオデータに対応する単語時間長尤度を抽出することと、前記単語に対応するアクセント時間長ガンマ混合モデルに基づいて、前記オーディオデータに対応するアクセント音節時間長尤度を抽出することと、前記オーディオデータに対応する前記単語時間長尤度及び前記オーディオデータに対応する前記アクセント音節時間長尤度に基づいて、前記オーディオデータに対応するアクセント音節と単語の時間長尤度の比の値を得ることとを含み、前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記アクセント音節と単語の時間長尤度の比の値を含む。
【0018】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、前記オーディオデータに対応する単語基本周波数傾きを抽出することを含み、前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記単語基本周波数傾きを含む。
【0019】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、前記オーディオデータに基づいて、前記単語におけるアクセント音節に対応するオーディオセグメントを確定することと、前記単語における前記アクセント音節に対応する前記オーディオセグメントに対して、フレーム分割、周波数領域変換及びバックドメイン変換を順次に行い、所定のバックドメインの周波数帯域範囲において前記オーディオデータに対応するアクセント音節の短時間エネルギー分散を抽出することとを含み、前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記アクセント音節の短時間エネルギー分散を含む。
【0020】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、前記オーディオデータを前記単語のストレス母音及び非ストレス母音によって音節セグメント化して、ストレスオーディオセグメントを含むストレスオーディオグループ及び非ストレスオーディオセグメントを含む非ストレスオーディオグループを得ることと、前記ストレスオーディオグループの平均基本周波数値及び前記非ストレス基本周波数グループの平均基本周波数値を算出することと、前記ストレスオーディオグループの前記平均基本周波数値及び前記非ストレス基本周波数グループの前記平均基本周波数値に基づいて、前記オーディオデータに対応するストレスオーディオグループと非ストレスオーディオグループの平均基本周波数の比の値を得ることとを含み、前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記ストレスオーディオグループと非ストレスオーディオグループの平均基本周波数の比の値を含む。
【0021】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、前記オーディオデータを前記単語のストレス母音及び非ストレス母音によって音節セグメント化して、ストレスオーディオセグメントを含むストレスオーディオグループ及び非ストレスオーディオセグメントを含む非ストレスオーディオグループを得ることと、前記ストレスオーディオグループの平均エネルギー値及び前記非ストレス基本周波数グループの平均エネルギー値を算出することと、前記ストレスオーディオグループの前記平均エネルギー値及び前記非ストレス基本周波数グループの前記平均エネルギー値に基づいて、前記オーディオデータに対応するストレスオーディオグループと非ストレスオーディオグループの平均エネルギーの比の値を得ることとを含み、前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記ストレスオーディオグループと非ストレスオーディオグループの平均エネルギーの比の値を含む。
【0022】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、前記オーディオデータに基づいて、前記単語におけるアクセント音節に対応するオーディオセグメントを確定することと、前記単語における前記アクセント音節に対応するオーディオセグメントに対して、フレーム分割、周波数領域変換及びバックドメイン変換を順次に行い、所定のバックドメインの周波数帯域範囲内の信号に対して時間領域変換を行って、中間波形を得ることと、前記中間波形に対して経験的モード分解を行って、前記オーディオデータに対応する少なくとも1つのモード成分を得ることとを含み、前記韻律的特徴ベクトルの要素は、前記オーディオデータに対応する前記少なくとも1つのモード成分を含む。
【0023】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記オーディオデータの韻律的特徴を抽出して、前記韻律的特徴ベクトルを得ることは、前記オーディオデータに対応する単語時間長と、単語エネルギーと、単語基本周波数とからなるグループのうちの少なくとも1つを抽出することを含み、前記韻律的特徴ベクトルの要素は、前記単語時間長と、前記単語エネルギーと、前記単語基本周波数とからなるグループのうちの少なくとも1つを含む。
【0024】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記オーディオデータに基づいて前記スペクトログラムを生成して、前記スペクトル特徴マトリックスを得ることは、前記単語及び前記オーディオデータに基づいて、前記単語に対応する前記オーディオデータにおける発音セグメントを確定することと、前記オーディオデータにおける発音セグメントに対して、フレーム分割、周波数領域変換及びバックドメイン変換を順次に行って、前記スペクトログラムを得ることと、前記スペクトログラムに基づいて、所定のバックドメインの周波数帯域範囲においてオリジナルスペクトル特徴マトリックスを抽出することと、前記オリジナルスペクトル特徴マトリックスに対して次元変換操作を行って、前記スペクトル特徴マトリックスを得ることとを含む。
【0025】
例えば、本開示のいくつかの実施例に係るアクセント検出方法において、前記分類器が畳み込みニューラルネットワークを含む。
【0026】
本開示の少なくとも1つの実施例によれば、単語のオーディオデータを取得するように配置される取得ユニットと、前記オーディオデータの韻律的特徴を抽出して、韻律的特徴ベクトルを得るように配置される韻律的特徴抽出ユニットと、前記オーディオデータに基づいてスペクトログラムを生成して、スペクトル特徴マトリックスを得るように配置されるスペクトルマトリックス抽出ユニットと、前記韻律的特徴ベクトルと前記スペクトル特徴マトリックスとに対してスティッチング操作を行って、第1の特徴マトリックスを得、前記第1の特徴マトリックスに対して冗長除去操作を行って、第2の特徴マトリックスを得るように配置されるマトリックス演算ユニットと、前記第2の特徴マトリックスに対して分類処理を行って、前記オーディオデータのアクセント検出結果を取得するように配置される分類ユニットとを備えるアクセント検出装置をさらに提供する。
【0027】
本開示の少なくとも1つの実施例によれば、コンピュータ読み取り可能な命令を非一時的に記憶するように配置されるメモリと、前記コンピュータ読み取り可能な命令を実行するように配置されるプロセッサとを備え、前記コンピュータ読み取り可能な命令が前記プロセッサにより実行されるとき、本開示のいずれかの実施例に係るアクセント検出方法が実行されるアクセント検出装置をさらに提供する。
【0028】
本開示の少なくとも1つの実施例によれば、コンピュータ読み取り可能な命令を非一時的に記憶する非一時的な記憶媒体であって、前記コンピュータ読み取り可能な命令がコンピュータによって実行されるとき、本開示のいずれかの実施例に係るアクセント検出方法の命令が実行されることができる非一時的な記憶媒体をさらに提供する。
【図面の簡単な説明】
【0029】
本開示の実施例の技術案をより明確に説明するために、以下の実施例の図面が簡単に説明され、以下の説明における図面は、本開示のいくつかの実施例にのみ関し、本開示を限定するものではないことが明らかであろう。
図1】本開示の少なくとも1つの実施例に係るアクセント検出方法のフローチャートである。
図2】本開示の少なくとも1つの実施例に係る単語時間長ガウス混合モデルを予め構築するフローチャートである。
図3】本開示の少なくとも1つの実施例に係るオーディオデータに対応する単語時間長尤度を抽出するフローチャートである。
図4】本開示の少なくとも1つの実施例に係るアクセント時間長ガンマ混合モデルを予め構築するフローチャートである。
図5】本開示の少なくとも1つの実施例に係る単語オーディオセグメント化の模式図である。
図6】本開示の少なくとも1つの実施例に係るオーディオデータに対応するアクセント音節時間長尤度を抽出するフローチャートである。
図7】本開示の少なくとも1つの実施例に係るスペクトル特徴マトリックスを抽出するフローチャートである。
図8】本開示の少なくとも1つの実施例に係る第1の重みマトリックスをプレトレーニングするフローチャートである。
図9】本開示の少なくとも1つの実施例に係るアクセント検出装置の模式的なブロック図である。
図10】本開示の少なくとも1つの実施例に係る他のアクセント検出装置の模式的なブロック図である。
図11】本開示の少なくとも1つの実施例に係る記憶媒体の模式図である。
【発明を実施するための形態】
【0030】
本開示の実施例の目的、技術案、および利点をより明確にするために、以下、本開示の実施例の技術案が、本開示の実施例の図面と併せて、明確かつ完全に説明される。明らかに、説明された実施例は、本開示の一部の実施例であり、すべての実施例ではない。説明された本開示の実施例に基づいて、発明的な労力を必要とすることなく当業者によって得られる他のすべての実施例は、本開示の保護範囲に属する。
【0031】
特に定義されない限り、本開示で使用される技術用語または科学用語は、本開示が属する技術分野の当業者によって理解される通常の意味である。本開示で使用される「第1の」、「第2の」および類似語は、任意の順序、数、または重要性を意味せず、異なる構成要素を区別するために使用されるだけである。「含む」または「備える」などの類似語は、単語の前に出現する要素または物体が、単語の後に出現する要素または物体およびその等価物を包含し、他の要素または物体を除外しないことを意味する。「接続される」または「連結される」などの類似の用語は、物理的または機械的接続に限定されず、直接的または間接的を問わず、電気的接続を含むことができる。「上」、「下」、「左」、「右」等は、相対的な位置関係を示すためのものに過ぎず、説明されるオブジェクトの絶対的な位置が変化すると、それに応じて相対的な位置関係も変化する可能性がある。
【0032】
以下、本開示を具体的な実施例のいくつかを用いて説明する。本開示は、本開示の実施例の以下の説明を明瞭かつ簡潔に確保するために、既知の機能および既知の構成要素の詳細な説明を省略する。本開示の実施例のいずれの構成要素が複数の図面に現れる場合、それらの構成要素は、各図面において同一又は類似の参照符号で表される。
【0033】
現在、英語発音のアクセント検出方法は、学習者の音声データから音節単位で韻律的特徴パラメータを抽出した後、これらの韻律的特徴パラメータに基づいて分類器によって学習者の音声データを分類検出し、関連するアクセント検出結果を取得することで、学習者のアクセントの発音が正確であるか否かを判断し、韻律的特徴には、一般的に、アクセント音節の時間長、アクセント音節のエネルギー、アクセント音節の基本周波数、メル周波数ケプストラム係数(Mel-Frequency Cepstral Coefficients、MFCC)、1次2次メル周波数ケプストラム係数などが含まれる。しかし、アクセント音節の時間長、アクセント音節のエネルギー、アクセント音節の基本周波数などの特徴は、主な注目点がアクセント音節セグメントにあり、実際に、単語がストレスされる場合、単語セグメント全体の特徴が変化し、これらの特徴の算出には完全性を欠き、そのため、識別性が大きく影響を受け、残響や背景雑音が大きい場合には効果が著しく低下する。一方、メル周波数ケプストラム係数( MFCC )、1次2次メル周波数ケプストラム係数などの非線形の音声特徴は、算出が比較的複雑であり、音節ストレスとの相関性が強くなく、分類検出結果の向上が限られる。
【0034】
本開示の少なくとも1つの実施例によれば、アクセント検出方法を提供する。該アクセント検出方法は、単語のオーディオデータを取得することと、前記オーディオデータの韻律的特徴を抽出して、韻律的特徴ベクトルを得ることと、前記オーディオデータに基づいてスペクトログラムを生成して、スペクトル特徴マトリックスを得ることと、前記韻律的特徴ベクトルと前記スペクトル特徴マトリックスとに対してスティッチング操作を行って、第1の特徴マトリックスを得、前記第1の特徴マトリックスに対して冗長除去操作を行って、第2の特徴マトリックスを得ることと、分類器で前記第2の特徴マトリックスを処理して、前記オーディオデータのアクセント検出結果を取得することとを含む。
【0035】
本開示のいくつかの実施例によれば、アクセント検出方法に対応するアクセント検出装置及び非一時的な記憶媒体をさらに提供する。
【0036】
本開示の実施例に係るアクセント検出方法は、韻律的特徴とスペクトル特徴とを組み合わせてアクセント検出を行うことにより、アクセント検出結果の正確度を向上させ、また、冗長除去操作によりアクセント検出方法のアクセント検出速度および効率を向上させることができる。
【0037】
なお、本開示の実施例において、「発音セグメント」は、オーディオデータにおける単語に対応するオーディオの時間長を表し、「オーディオセグメント」は、音節に対応するオーディオの時間長(音節時間長)または音素に対応するオーディオの時間長(音素時間長)を表す。
【0038】
以下、本開示の実施例及びその例について、図面を参照しながら詳細に説明する。ここで記載の具体的な実施例は、本開示を説明および解釈するためのものにすぎず、本開示を限定するものではないことが理解されるべきである。
【0039】
図1は、本開示の少なくとも1つの実施例に係るアクセント検出方法のフローチャートである。当該アクセント検出は、例えば、図1に示すように、ステップS100~S500を含む。
【0040】
ステップS100において、単語のオーディオデータを取得する。
【0041】
例えば、ステップS100において、該オーディオデータは、クライアントのオーディオ収取デバイスによって収集された音声を含んでもよく、機械的、電子的などの方法によって合成された音声を含んでもよく、本開示の実施例は、これに限定されない。例えば、クライアントは、スマートフォン、タブレット、パーソナルコンピュータ、PDA(Personal Digital Assistant)、ウェアラブルデバイス、頭部装着型ディスプレイデバイスなどを含むが、これらに限定されず、例えば、オーディオ収集デバイスは、クライアントに内蔵または外付けされるマイクロフォンを含むが、これらに限定されない。例えば、オーディオデータは、予め記録されても良いし、リアルタイムで記録されてもよく、本開示の実施例は、これに限定されない。
【0042】
例えば、いくつかの実施例では、該単語の正しい発音が既知であり、すなわち、該単語に含まれる母音音素および子音音素のタイプおよび数、アクセントの位置などが既知である。
【0043】
例えば、単語は、例えば、英単語などの外国語であってもよい。しかし、本開示はこれに限定されず、単語は中国語単語であってもよい。
【0044】
ステップS200において、オーディオデータの韻律的特徴を抽出して、韻律的特徴ベクトルを得る。
【0045】
例えば、ステップS200において、ステップS100で取得したオーディオデータの1つまたは複数の韻律的特徴を抽出し、該1つまたは複数の韻律的特徴に基づいて韻律的特徴ベクトル(例えば、1次元のベクトル又は複数の次元のベクトルを含む)を形成することができる。例えば、上記の韻律的特徴ベクトルは、列ベクトルで表現されてもよく、本開示の実施例は、これに限定されない。
【0046】
例えば、いくつかの実施例において、上記の韻律的特徴が単語時間長尤度を含み、即ち、上記の韻律的特徴ベクトルの要素がオーディオデータに対応する単語時間長尤度を含む。オーディオデータの韻律的特徴を抽出することは、単語に対応する単語時間長ガウス混合モデルを確定し、単語に対応する単語時間長ガウス混合モデル(Gaussian Mixed Model、GMM)に基づいて、オーディオデータに対応する単語時間長尤度を抽出することを含む。
【0047】
例えば、上記の単語時間長ガウス混合モデルは、予め構築されるものであってもよい。図2は本開示の少なくとも1つの実施例に係る単語時間長ガウス混合モデルを構築するフローチャートである。例えば、いくつかの実施例において、図2に示すように、上記の単語時間長ガウス混合モデルを構築することは、ステップS201~ステップS204を含む。
【0048】
ステップS201において、サンプル単語のサンプルオーディオデータを取得する。
【0049】
例えば、ステップS201において、サンプルオーディオデータの取得方式は、上記のステップS100におけるオーディオデータの取得方式と類似しても良く、ここで説明を省略する。
【0050】
例えば、上記のステップS100の単語と同様に、該サンプル単語の正しい発音が既知であり、すなわち、該サンプル単語が含む母音音素および子音音素のタイプおよび数、アクセント位置などが既知である。
【0051】
サンプル単語は、上述の単語時間長ガウス混合モデルの事前構築だけでなく、後続のアクセント時間長ガンマ混合モデルの事前構築及び第1の重みマトリックスのプレトレーニングなどにも使用可能であり、本開示の実施例は、これらに限定されないことが理解されるべきである。また、本開示の実施例では、対応する数学モデル構築プロセス(例えば、ガウス混合モデルの事前構築、アクセント時間長ガンマ混合モデルの事前構築)および/またはトレーニングプロセス(例えば、第1の重みマトリックスのプレトレーニング)などを実現するために、複数のサンプル単語が含まれ得ることが理解されるべきである。
【0052】
ステップS202において、サンプルオーディオデータに基づいて、サンプルオーディオデータに対応する単語時間長を得る。
【0053】
例えば、ステップS202において、所定の音響モデル(acoustic model)を利用して、サンプルオーディオデータをサンプル単語に強制的にアライメント(force alignment)することで、サンプル単語に対応するサンプルオーディオデータにおける発音セグメントを確定し、その発音セグメントの時間長をサンプルオーディオデータに対応する単語時間長としてもよい。
【0054】
例えば、一般的に、音響モデルは、大量の英語の発音者の録音トレーニングによって生成され、音響モデルによって入力音声が既知テキストに該当する可能性を算出することができ、さらに、入力音声を既知テキストに強制的にアライメントすることができる。ここで、「入力音声」は、上記のオーディオデータまたは上記のサンプルオーディオデータであってもよく、「既知テキスト」は、上記の単語または上記のサンプル単語であってもよい。例えば、音響モデルに関する技術と、強制アライメントに関する技術では、音声認識の分野における技術を参照することができるため、ここではその説明を省略する。
【0055】
なお、所定の音響モデルによって入力音声を既知テキストに強制的にアライメントすることにより、既知テキストの各音節(例えば、アクセント音節、非アクセント音節)と入力音声の部分音声(例えば、ある音声セグメント)との対応関係、および、既知テキストの各音節の各音素(例えば、母音音素、子音音素)と入力音声の部分音声(例えばある音声セグメント)との対応関係を確定することができる。
【0056】
ステップS203において、サンプル単語の音素加重和を算出し、サンプル単語の音素加重和に基づいて、サンプル単語のタイプを確定する。
【0057】
例えば、ステップS203において、母音の音素の重みをa、子音の音素の重みを1-aとし、サンプル単語の音素加重和を下記の式(1)によって算出することができる。
Wsum = Ceil(a*N1+(1-a)*N2) (1)
ここで、Wsumはサンプル単語の音素加重和を表し、N1はサンプル単語における母音音素数を表し、N2はサンプル単語における子音音素の数を表し、Ceil(・)はシーリング(Celling)関数を表す。
【0058】
例えば、母音音素の重みaの値の範囲は、必要に応じて設定されることができる。例えば、いくつかの実施例では、母音音素の重みaの値の範囲は、[0.6,0.8]に設定されてもよく、本開示の実施例は、これに限定されない。
【0059】
例えば、ステップS203では、複数のサンプル単語のそれぞれの音素加重和の値に応じて、複数のサンプル単語を1つまたは複数のタイプに区分しても良い。例えば、サンプル単語の音素加重和の値のセットが{Wsum_1,Wsum_2,…,Wsum_M}である場合、複数のサンプル単語をM個のタイプに区分することができ、ここで、1≦m≦Mである。m<Mの場合、あるタイプが、一般に、1つまたは複数の音素加重和の値に対応し得ることが理解されるべきである。例えば、いくつかの例では、m = M-2とし、この場合、Wsum_1とWsum_2は、同じタイプC1に対応可能であり、Wsum_3~Wsum_(M-2)は、それぞれ、1つのタイプ(C2~C(M-3))に対応可能であり、Wsum_(M-1)とWsum_Mは、同じタイプC(M-2)に対応可能であり、なお、上記のタイプの区分は例示的なものであり、本開示の実施例は、これに限定されない。例えば、いくつかの実施例では、mの値の範囲は、[1,8]に設定されてもよく、本開示の実施例は、これに限定されない。
【0060】
ステップS204において、各タイプの各サンプル単語のサンプルオーディオデータに対応する単語時間長に対して、各タイプに対応する単語時間長ガウス混合モデルを構築する。
【0061】
例えば、いくつかの実施例では、EM(Expectation Maximization)アルゴリズムまたは一般的に使用される他のアルゴリズムなどを使用して、各タイプに対応する単語時間長ガウス混合モデルを求める(すなわち、モデルのパラメータを求めるまたは推定する)ことができる。例えば、あるタイプに対応する単語時間長ガウス混合モデルは、以下のように表すことができる。
【数1】
【0062】
図3は本開示の少なくとも1つの実施例に係るにおけるオーディオデータに対応する単語時間長尤度を抽出するフローチャートである。例えば、いくつかの実施例において、図3に示すように、単語に対応する単語時間長ガウス混合モデルを確定することは、ステップS205~ステップS207を含む。
【0063】
ステップS205において、オーディオデータに基づいて、オーディオデータに対応する単語時間長を得る。
【0064】
例えば、ステップS205において、上記の所定の音響モデルを利用して、オーディオデータを単語に強制的にアライメントすることで、単語に対応するオーディオデータにおける発音セグメントを確定し、その発音セグメントの時間長を、オーディオデータに対応する単語時間長としてもよい。
【0065】
ステップS206において、単語の音素加重和を算出し、単語の音素加重和に基づいて、単語のタイプを確定する。
【0066】
ステップS207において、単語のタイプに基づいて、単語に対応する単語時間長ガウス混合モデルを確定する。
【0067】
例えば、ステップS206の具体的な実現方式及びプロセスは、上記のステップS203に関する説明を参照することができる。例えば、上記の式(1)によって単語の音素加重和を算出し、その単語の音素加重和に基づいて単語のタイプを確定するようにしてもよい。
【0068】
例えば、図3に示すように、単語に対応する単語時間長ガウス混合モデルに基づいて、オーディオデータに対応する単語時間長尤度を抽出することは、ステップS208~ステップS209を含む。
【0069】
ステップS208において、オーディオデータに対応する単語時間長に基づいて、単語に対応する単語時間長ガウス混合モデルによってオーディオデータに対応する第1の確率密度値を算出する。
【0070】
例えば、ステップS208において、オーディオデータに対応する単語時間長(ステップS205で得る)を、単語のタイプ(ステップS206で得る)に対応する単語時間長ガウス混合モデル(前記式(2)を参照する)に代入して、オーディオデータに対応する第1の確率密度値を得、即ち、p(x)がオーディオデータに対応する第1の確率密度値を表す。
【0071】
ステップS209において、オーディオデータに対応する第1の確率密度値に基づいて、オーディオデータに対応する単語時間長尤度を得る。
【0072】
例えば、ステップS209において、以下の式(3)によってオーディオデータに対応する単語時間長尤度を算出する。
F1 = arctan(log(p(x))) (3)
ここで、F1が単語時間長尤度を表し、log(・)は10を底とする対数関数を表し、arctan(・)は逆正接関数を表す。
【0073】
例えば、いくつかの実施例において、単語時間長尤度F1を韻律的特徴ベクトルの要素としてても良く、例えば、他の実施例において、単語時間長尤度F1に対して平均分散正規化処理を行って韻律的特徴ベクトルの要素としても良い。
【0074】
例えば、いくつかの実施例において、上記の韻律的特徴はアクセント音節時間長尤度をさらに含み、即ち、上記の韻律的特徴ベクトルの要素はオーディオデータに対応するアクセント音節時間長尤度をさらに含む。オーディオデータの韻律的特徴を抽出することは、単語に対応するアクセント時間長ガンマ混合モデルを確定し、アクセント時間長ガンマ(Gamma)混合モデルに基づいて、オーディオデータに対応するアクセント音節時間長尤度を抽出することを含んでもよい。
【0075】
図4は本開示の少なくとも1つの実施例に係るアクセント時間長ガンマ混合モデルを予め構築するフローチャートである。例えば、いくつかの実施例において、図4に示すように、上記のアクセント時間長ガンマ混合モデルを予め構築することは、ステップS211~ステップS215を含んでもよい。
【0076】
ステップS211において、サンプル単語のサンプルオーディオデータを取得する。
【0077】
例えば、ステップS211の具体的な実現方式及びプロセスは、上記のステップS201に関する説明を参照してもよく、ここで重複の説明を省略する。
【0078】
ステップS212において、サンプルオーディオデータに基づいて、サンプルオーディオデータに対応する単語時間長及びサンプル単語における各音素の音素時間長を得、得られたサンプルオーディオデータに対応する単語時間長及びサンプル単語における各音素の音素時間長に基づいて、各音素の正規化音素時間長を確定する。
【0079】
例えば、ステップS212において、サンプルオーディオデータに基づいてサンプルオーディオデータに対応する単語時間長を得る実現方式及びプロセスは、上記のステップS202に関する説明を参照しても良く、ここで重複の説明を省略する。
【0080】
例えば、いくつかの実施例において、所定の音響モデル(acoustic model)を利用して、サンプルオーディオデータをサンプル単語に強制的にアライメント(force alignment)することで、サンプル単語における各音素とサンプルオーディオデータのオーディオデータの一部(例えば、あるオーディオセグメント)との対応関係を確定し、各音素に対応するオーディオデータの一部の時間長を該各音素の音素時間長としても良い。
【0081】
図5は本開示の少なくとも1つの実施例に係る単語のオーディオセグメント化の模式図である。図5は、単語「congratulations」を例に挙げて、強制アライメント操作により、単語「congratulations」に対応するオーディオデータをセグメント化することで、単語「congratulations」に対応する単語時間長と、単語「congratulations」内の各音節に対応する音節時間長と、単語「congratulations」内の各音素に対応する音素時間長とを確定することができる。
【0082】
例えば、いくつかの実施例において、以下の式(4)でサンプル単語における各音素の正規化音素時間長を算出する。
ti = Ti/Tw (4)
ここで、tiがサンプル単語におけるいずれの音素の正規化音素時間長を表し、Tiがサンプル単語における当該いずれの音素の音素時間長を表し、Twがサンプル単語の単語時間長を示す。
【0083】
ステップS213において、全ての正規化音素時間長をクラスタリングして、少なくとも1つの音素グループを得る。
【0084】
例えば、いくつかの実施例では、K平均(K-Means)クラスタリングアルゴリズムまたは一般に使用される他のクラスタリングアルゴリズムなどを使用して、すべての正規化音素時間長をクラスタリングして、少なくとも1つの音素グループを得ることができる。例えば、実用上は、上記の少なくとも1つの音素グループは、通常、複数の音素グループを含み、各音素グループは、少なくとも1つの音素を含む。
【0085】
ステップS214において、少なくとも1つの音素グループを問題セットとし、各種の音素に対して決定木クラスタリングを行って、各種の音素に対応するクラスタリング状態を得る。
【0086】
例えば、いくつかの実施例では、サンプル単語が属する言語(例えば、英語、ドイツ語、中国語など)のうち、全てのタイプの音素の各々に対してそれぞれ決定木クラスタリングを行い、各種の音素に対応するクラスタリング状態を取得してもよい。
【0087】
例えば、いくつかの実施例において、ステップS214における決定木クラスタリングは、各種の音素について、1つの決定木を確立し、当該音素に対応するすべての正規化音素時間長データをルートノードに置き、ステップS213で得られた音素グループを問題セットとし、問題セットをホイールトレーニングし、ある問題が当該音素のルートノードでの正規化音素時間長データセットを最適に2分類にすることができる場合、そのデータセットを2つのタイプに分類するステップと、リーフノードの数が予め設定された閾値を満たすまで上記のプロセスを再帰的に行い、リーフノードの数が予め設定された閾値を満たすと、分割を停止し、決定木クラスタリングを完了し、リーフノードをクラスタリング状態とするステップとを含んでもよい。
【0088】
なお、上述の決定木クラスタリングのステップは例示的なものであり、当業者は実際の必要に応じて適切な方式及びステップを選択してステップS214における決定木クラスタリングを実現してもよい。
【0089】
ステップS215において、各種の音素に対応するクラスタリング状態に基づいて、各種の音素に対応するアクセント時間長ガンマ混合モデルを構築する。
【0090】
例えば、いくつかの実施例において、EMアルゴリズム又は他のアルゴリズムなどを使用して、各音素に対応するアクセント時間長ガンマ混合モデルを求める(すなわち、モデルのパラメータを求める又は推定する)ことができる。例えば、ある音素に対応するアクセント時間長ガンマ混合モデルは、以下の式で表す。
【数2】
【数3】
【0091】
図6は本開示の少なくとも1つの実施例に係るオーディオデータに対応するアクセント音節時間長尤度を抽出するフローチャートである。例えば、いくつかの実施例において、図6に示すように、単語に対応するアクセント時間長ガンマ混合モデルを確定することは、ステップS216~ステップS217を含む。
【0092】
ステップS216において、オーディオデータに基づいて、オーディオデータに対応する単語時間長及び単語におけるアクセント音節内の母音音素の音素時間長を得、得られたオーディオデータに対応する単語時間長及び単語におけるアクセント音節内の母音音素の音素時間長に基づいて、単語におけるアクセント音節内の母音音素の正規化音素時間長を確定する。
【0093】
例えば、ステップS216の具体的な実現方式及びプロセスは、上記のステップS212の記載を参照し、ここで重複の説明を省略する。単語が既知であるため、強制アライメント操作により、単語におけるアクセント音節に対応するオーディオデータ(例えば、あるオーディオセグメント)の一部を確定し、さらに、単語におけるアクセント音節内の母音音素に対応するオーディオデータの一部を確定することで、単語におけるアクセント音節内の母音音素に対応するオーディオデータの時間長の一部を単語におけるアクセント音節内の母音音素の音素時間長とし得ることが理解されるべきである。
【0094】
ステップS217において、単語におけるアクセント音節内の母音音素に基づいて、単語に対応するアクセント時間長ガンマ混合モデルを確定する。
【0095】
例えば、図6に示すように、単語に対応する前記アクセント時間長ガンマ混合モデルに基づいて、オーディオデータに対応するアクセント音節時間長尤度を抽出することは、ステップS218~S219を含む。
【0096】
ステップS218において、単語におけるアクセント音節内の母音音素の正規化音素時間長に基づいて、単語におけるアクセント音節内の母音音素に対応するアクセント時間長ガンマ混合モデルによって、オーディオデータに対応する第2の確率密度値を算出する。
【0097】
例えば、ステップS218において、単語におけるアクセント音節内の母音音素の正規化音素時間長(ステップS216で得る)を単語におけるアクセント音節内の母音音素(ステップS216で得る)に対応するアクセント時間長ガンマ混合モデル(上記の式(5)を参照する)に代入して、オーディオデータに対応する第2の確率密度値を得、即ちf(t)は、オーディオデータに対応する第2の確率密度値を示す。
【0098】
ステップS219において、オーディオデータに対応する第2の確率密度値に基づいて、オーディオデータに対応するアクセント音節時間長尤度を得る。
【0099】
例えば、ステップS219において、以下の式(7)によって、オーディオデータに対応するアクセント音節時間長尤度を算出する。
F2 = arctan(log(f(t))) (7)
ここで、F2はアクセント音節時間長尤度を表し、log(・)は10を底とする対数関数を表し、arctan(・)は逆正接関数を表す。
【0100】
例えば、いくつかの実施例において、アクセント音節時間長尤度F2をそのまま韻律的特徴ベクトルの要素としてもよく、例えば、他の実施例において、アクセント音節時間長尤度F2に対して平均分散正規化処理を行って韻律的特徴ベクトルの要素としてもよい。
【0101】
例えば、いくつかの実施例において、上記の韻律的特徴は、アクセント音節と単語の時間長尤度の比の値をさらに含み、即ち、上記の韻律的特徴ベクトルの要素は、アクセント音節と単語の時間長尤度の比の値をさらに含む。上記の単語時間長尤度とアクセント音節時間長尤度を抽出した上で、オーディオデータの韻律的特徴を抽出することは、オーディオデータに対応する単語時間長尤度及びオーディオデータに対応するアクセント音節時間長尤度に基づいて、オーディオデータに対応するアクセント音節と単語の時間長尤度の比の値を得る。
【0102】
例えば、いくつかの例において、以下の式(8)によって、オーディオデータに対応するアクセント音節と単語の時間長尤度の比の値を算出する。
F3 = F2/F1 (8)
ここで、F3は、アクセント音節と単語の時間長尤度の比の値を表す。
【0103】
例えば、いくつかの実施例において、アクセント音節と単語の時間長尤度の比の値F3をそのまま韻律的特徴ベクトルの要素としてもよく、例えば、他の実施例において、アクセント音節と単語の時間長尤度の比の値F3に対して平均分散正規化処理を行って韻律的特徴ベクトルの要素としてもよい。
【0104】
例えば、いくつかの実施例において、上記の韻律的特徴は、単語基本周波数傾きをさらに含み、即ち、上記の韻律的特徴ベクトルの要素は、単語基本周波数傾きをさらに含む。オーディオデータの韻律的特徴を抽出することは、オーディオデータに対応する単語基本周波数傾きを抽出することを含む。
【0105】
例えば、いくつかの実施例では、オーディオデータに対応する単語基本周波数傾きを抽出することは、オーディオデータをフレーム分割することと、自己相関アルゴリズムまたはケプストラムまたは一般的に使用される他のアルゴリズムなどを使用して各フレームの基本周波数値を算出することと、各フレームの基本周波数値に対して線形フィットを行って単語基本周波数傾きF4を得ることとを含む。
【0106】
例えば、いくつかの例では、各フレームの時間長は25ms~35msであり、フレームシフトは10ms~15msであり、本開示の実施例は、これに限定されない。例えば、自己相関アルゴリズム、ケプストラムなどの基本周波数値の算出方法は、音声認識の分野における関連技術を参照することができるため、ここで重複の説明を省略する。
【0107】
例えば、いくつかの実施例において、単語基本周波数傾きF4をそのまま韻律的特徴ベクトルの要素としてもよく、例えば、他の実施例において、単語基本周波数傾きF4に対して平均分散正規化処理を行って韻律的特徴ベクトルの要素としてもよい。
【0108】
例えば、いくつかの実施例において、上記の韻律的特徴は、アクセント音節の短時間エネルギー分散をさらに含み、即ち、上記の韻律的特徴ベクトルの要素がアクセント音節の短時間エネルギー分散をさらに含む。オーディオデータの韻律的特徴を抽出することは、オーディオデータに基づいて、単語におけるアクセント音節に対応するオーディオセグメントを確定することと、単語におけるアクセント音節に対応するオーディオセグメントに対して、フレーム分割、周波数領域変換及びバック(Bark)ドメイン変換を順次にを行い、所定のBarkドメイン周波数帯域範囲においてオーディオデータに対応するアクセント音節の短時間エネルギー分散を抽出することとを含む。
【0109】
例えば、いくつかの実施例において、強制アライメント動作によって、単語におけるアクセント音節に対応するオーディオデータ(例えば、あるオーディオデータセグメント)の一部を確定することができる。例えば、いくつかの実施例において、単語におけるアクセント音節に対応するオーディオセグメントは、複数のフレームに分割され、例えば、各フレームの時間長が25~35msであり、フレームシフトが10~15msとなり、本開示の実施例は、これに限定されない。例えば、いくつかの実施例では、フーリエ変換アルゴリズムなどを使用して、分割された各フレームを周波数領域変換し、その後、以下の式(9)によってバックドメイン変換を行う。
Bark = 8.7 + 14.2*log(f/1000) (9)
ここで、fBarkはBarkドメインにおける周波数を表し、fはBarkドメイン変換前の周波数(線形周波数領域における周波数)を表し、log(・)は10を底とした対数関数を表す。
【0110】
例えば、いくつかの実施例において、各フレームのエネルギーを所定のBarkドメインの周波数帯域範囲内で算出し、さらに各フレームのエネルギーの分散を算出することで、オーディオデータに対応するアクセント音節の短時間エネルギー分散F5を得ることができる。
【0111】
本発明者らは、研究において、50Hz未満の周波数帯域には、定周波雑音が混入しやすく、50 Hz未満の周波数帯域から抽出される特徴成分が定周波雑音による干渉を受けやすく、アクセント検出の正確度を高めるのに不利であり、500Hzよりも高い周波数帯域は、一般にエネルギーが低く、500Hzよりも高い周波数帯域から抽出される特徴成分が一般に不安定であり、アクセント検出の正確度を高めるのに不利であることを分かった。したがって、いくつかの例では、所定のBarkドメインの周波数帯域範囲は、[50Hz,500Hz]のBarkドメインの周波数チャネルを含んでもよい。上記の[50Hz,500Hz]のBarkドメインの周波数帯域範囲を利用することにより、Barkドメインの全周波数帯域範囲を利用する場合に比べて、演算量を低減することができ、演算効率を向上させることができることがわかる。なお、本開示の実施例はこれに限定されず、実用上、所定のBarkドメインの周波数帯域範囲は必要に応じて選択されてもよい。
【0112】
例えば、いくつかの実施例において、アクセント音節の短時間エネルギー分散F5をそのまま韻律的特徴ベクトルの要素としてもよく、例えば、他の実施例において、アクセント音節の短時間エネルギー分散F5に対して平均分散正規化処理を行って韻律的特徴ベクトルの要素としてもよい。
【0113】
例えば、いくつかの実施例において、上記の韻律的特徴は、ストレスオーディオグループと非ストレスオーディオグループの平均基本周波数の比の値をさらに含み、即ち、上記の韻律的特徴ベクトルの要素は、ストレスオーディオグループと非ストレスオーディオグループの平均基本周波数の比の値をさらに含む。オーディオデータの韻律的特徴を抽出することは、オーディオデータを単語のストレス母音及び非ストレス母音によって音節セグメント化して、ストレスオーディオセグメントを含むストレスオーディオグループ及び非ストレスオーディオセグメントを含む非ストレスオーディオグループを得ることと、ストレスオーディオグループの平均基本周波数値及び非ストレス基本周波数グループの平均基本周波数値を算出することと、ストレスオーディオグループの平均基本周波数値及び非ストレス基本周波数グループの平均基本周波数値に基づいて、オーディオデータに対応するストレスオーディオグループと非ストレスオーディオグループの平均基本周波数の比の値を得ることとを含む。
【0114】
例えば、いくつかの実施例において、強制アライメント操作により、オーディオデータを単語のストレス母音及び非ストレス母音によって音節セグメント化することができる。例えば、いくつかの例では、図5に示すように、単語「congratulations」を例に挙げると、強制アライメント操作により音節セグメント化した後、5つのオーディオセグメントを得、これら5つのオーディオセグメントは、それぞれ、音節「con」、「gra」、「tu」、「la」、「tions」に対応し、ここで、単語「congratulations」は、音節「la」でストレスされることにより、1つのストレスオーディオセグメント(「la」に対応)を含むストレスオーディオグループと、4つの非ストレスオーディオセグメント(「con」、「gra」、「tu」、「tions」にそれぞれ対応)を含む非ストレスオーディオグループとが得られる。
【0115】
例えば、いくつかの実施例において、自己相関アルゴリズムやケプストラム又は他のアルゴリズムなどを使用してストレスオーディオグループ/非ストレスオーディオグループ内の各オーディオセグメントの基本周波数値を算出し、次に、ストレスオーディオグループ/非ストレスオーディオグループの全てのオーディオセグメントの基本周波数値の平均を算出し、ストレスオーディオグループ/非ストレスオーディオグループの平均基本周波数値を得る。ストレスオーディオグループ/非ストレスオーディオグループに1つのオーディオセグメントのみが含まれる場合、当該オーディオセグメントの基本周波数値をそのままストレスオーディオグループ/非ストレスオーディオグループの平均基本周波数値とし得ることが理解されるべきである。
【0116】
例えば、いくつかの実施例において、ストレスオーディオグループの平均基本周波数値と非ストレス基本周波数グループの平均基本周波数値の比の値をオーディオデータに対応するストレスオーディオグループと非ストレスオーディオグループの平均基本周波数の比の値F6としてもよい。
【0117】
例えば、いくつかの実施例において、ストレスオーディオグループと非ストレスオーディオグループの平均基本周波数の比の値F6をそのまま韻律的特徴ベクトルの要素としてもよく、例えば、他の実施例において、ストレスオーディオグループと非ストレスオーディオグループの平均基本周波数の比の値F6に対して平均分散正規化処理を行って韻律的特徴ベクトルの要素としてもよい。
【0118】
例えば、いくつかの実施例において、上記の韻律的特徴は、ストレスオーディオグループと非ストレスオーディオグループの平均エネルギーの比の値をさらに含み、即ち、上記の韻律的特徴ベクトルの要素がストレスオーディオグループと非ストレスオーディオグループの平均エネルギーの比の値をさらに含む。オーディオデータの韻律的特徴を抽出することは、オーディオデータを単語のストレス母音及び非ストレス母音によって音節セグメント化して、ストレスオーディオセグメントを含むストレスオーディオグループ及び非ストレスオーディオセグメントを含む非ストレスオーディオグループを得ることと、ストレスオーディオグループの平均エネルギー値及び非ストレス基本周波数グループの平均エネルギー値を算出することと、ストレスオーディオグループの平均エネルギー値及び非ストレス基本周波数グループの平均エネルギー値に基づいて、オーディオデータに対応するストレスオーディオグループと非ストレスオーディオグループの平均エネルギーの比の値を得ることとを含む。
【0119】
例えば、いくつかの実施例において、強制アライメント操作により、オーディオデータを単語のストレス母音及び非ストレス母音によって音節セグメント化して、ストレスオーディオセグメントを含むストレスオーディオグループ及び非ストレスオーディオセグメントを含む非ストレスオーディオグループを得ることができる。例えば、当該ステップは、ストレスオーディオグループと非ストレスオーディオグループの平均基本周波数の比の値F6の抽出に関する操作の説明を参照し、ここで重複の説明を省略する。
【0120】
例えば、いくつかの実施例において、ストレスオーディオグループ/非ストレスオーディオグループの各オーディオセグメントの振幅値の2乗に対して積分し(又は合計)、当該各オーディオセグメント時間長で除算して、ストレスオーディオグループ/非ストレスオーディオグループの各オーディオセグメントの平均エネルギー値を得、次に、ストレスオーディオグループ/非ストレスオーディオグループ内の全てのオーディオセグメントの平均エネルギー値の平均を算出し、ストレスオーディオグループ/非ストレスオーディオグループの平均エネルギー値を得る。ストレスオーディオグループ/非ストレスオーディオグループに1つのオーディオセグメントのみが含まれる場合、当該オーディオセグメントの平均エネルギー値をそのままストレスオーディオグループ/非ストレスオーディオグループの平均エネルギー値とし得ることが理解されるべきである。
【0121】
例えば、いくつかの実施例において、ストレスオーディオグループの平均エネルギー値と非ストレス基本周波数グループの平均エネルギー値の比の値をオーディオデータに対応するストレスオーディオグループと非ストレスオーディオグループの平均エネルギーの比の値F7としてもよい。
【0122】
例えば、いくつかの実施例において、ストレスオーディオグループと非ストレスオーディオグループの平均エネルギーの比の値F7をそのまま韻律的特徴ベクトルの要素としてもよく、例えば、他の実施例において、ストレスオーディオグループと非ストレスオーディオグループの平均エネルギーの比の値F7に対して平均分散正規化処理を行って韻律的特徴ベクトルの要素としてもよい。
【0123】
例えば、いくつかの実施例において、上記の韻律的特徴は、前記少なくとも1つのモード成分をさらに含み、即ち、上記の韻律的特徴ベクトルの要素は、前記少なくとも1つのモード成分をさらに含む。オーディオデータの韻律的特徴を抽出することは、オーディオデータに基づいて、単語におけるアクセント音節に対応するオーディオセグメントを確定することと、単語におけるアクセント音節に対応するオーディオセグメントに対して、フレーム分割、周波数領域変換及びバックドメイン変換を順次に行い、所定のBarkドメインの周波数帯域範囲内の信号を時間領域変換を行って、中間波形を得ることと、中間波形に対して経験的モード分解(empirical mode decomposition、単にEMDともいう)を行って、オーディオデータに対応する少なくとも1つのモード成分を得ることとを含む。
【0124】
例えば、いくつかの実施例において、オーディオデータに基づいて単語におけるアクセント音節に対応するオーディオセグメントを確定することと、単語におけるアクセント音節に対応するオーディオセグメントに対して、フレーム分割、周波数領域変換及びバックドメイン変換を順次に行うこととは、いずれもオーディオデータに対応するアクセント音節の短時間エネルギー分散F5の抽出操作における関連の説明を参照することができ、ここでは重複の説明を省略する。
【0125】
例えば、いくつかの実施例において、所定のBarkドメインの周波数帯域範囲は、[50Hz,500Hz]のBarkドメインの周波数チャネルを含み、本開示の実施例は、これに限定されない。例えば、いくつかの実施例では、逆フーリエ変換アルゴリズムなどを使用し、所定のBarkドメインの周波数帯域範囲内の信号を時間領域変換して、中間波形を得てもよい。
【0126】
経験的モード分解方法の具体的な実現プロセスは、従来の時間周波数分析方法における関連の説明を参照することができ、ここでは詳しい説明を省略する。
【0127】
例えば、いくつかの実施例において、オーディオデータに対応する少なくとも1つのモード成分は、経験的モード分解によって得られた最初の3つのモード成分を含み、これら最初の3つのモード成分は、それぞれ第1のモード成分F8、第2のモード成分F9及び第3のモード成分F10と記述される。
【0128】
例えば、いくつかの実施例において、第1のモード成分F8、第2のモード成分F9及び第3のモード成分F10は、それぞれ、そのまま韻律的特徴ベクトルの要素とされてもよく、例えば、他の実施例において、第1のモード成分F8、第2のモード成分F9及び第3のモード成分F10に対してそれぞれ平均分散正規化処理を行って韻律的特徴ベクトルの要素をとしてもよい。
【0129】
なお、本開示において、例示的に、上記少なくとも1つのモード成分は、経験的モード分解によって得られる最初の3つのモード成分を含む。実際の必要に応じて、前記少なくとも1つのモード成分は、より多い又はより少ないモード成分を含んでもよく、それに応じて、韻律的特徴ベクトルの要素も、より多い又はより少ないモーダル成分を含んでもよく、本開示の実施例は、これに限定されない。
【0130】
例えば、いくつかの実施例において、オーディオデータの韻律的特徴を抽出することは、オーディオデータに対応する単語時間長と、単語エネルギーと、単語基本周波数とのうちの少なくとも1つを抽出することを含む。
【0131】
例えば、いくつかの例では、所定の音響モデルを利用して、オーディオデータを単語に強制的にアライメントすることにより、単語に対応するオーディオデータにおける発音セグメントを確定し、この発音セグメントの時間長を、オーディオデータに対応する単語時間長F11としてもよい。例えば、いくつかの例では、オーディオデータにおける発音セグメントの振幅値の2乗を積分(または合計)して、オーディオデータに対応する単語エネルギーF12を得る。例えば、いくつかの例では、自己相関アルゴリズムやケプストラム、または、他のアルゴリズムなどを使用して、オーディオデータにおける発音セグメントの基本周波数値を算出して、オーディオデータに対応する単語基本周波数F13を得てもよい。
【0132】
例えば、いくつかの実施例において、単語時間長F11、単語エネルギーF12及び単語基本周波数F13のそれぞれをそのまま韻律的特徴ベクトルの要素としてもよく、例えば、他の実施例において、単語時間長F11、単語エネルギーF12及び単語基本周波数F13に対してそれぞれ平均分散正規化処理を行って韻律的特徴ベクトルの要素としてもよい。
【0133】
例えば、いくつかの実施例において、オーディオデータの韻律的特徴を抽出することは、オーディオデータに対応する短時間平均ゼロ交差率、メル周波数ケプストラム係数、1次2次のメル周波数ケプストラム係数などのうちの少なくとも1つを抽出することをさらに含んでもよい。例えば、短時間平均ゼロ交差率、メル周波数ケプストラム係数、1次2次のメル周波数ケプストラム係数等の抽出方法は、音声認識分野の関連技術を参照すればよく、ここではその説明を省略する。
【0134】
例えば、いくつかの実施例では、ステップS200で得られた韻律的特徴ベクトルの要素は、上記の全ての韻律的特徴の1つ又は複数(全てを含む)を含んでもよい。例えば、いくつかの例において、ステップS200で得られた韻律的特徴ベクトルの要素は、単語時間長尤度F1、アクセント音節時間長尤度F2、アクセント音節と単語の時間長尤度の比の値F3、単語基本周波数傾きF4、アクセント音節の短時間エネルギー分散F5、ストレスオーディオグループと非ストレスオーディオグループの平均基本周波数の比の値F6、ストレスオーディオグループと非ストレスオーディオグループの平均エネルギーの比の値F7、第1のモード成分F8、第2のモード成分F9、第3のモード成分F10、単語時間長F11、単語エネルギーF12及び単語基本周波数F13を含み、なお、本開示の実施例はこれに限定されない。
【0135】
ステップS300において、オーディオデータに基づいてスペクトログラムを生成して、スペクトル特徴マトリックスを得る。
【0136】
例えば、いくつかの実施例では、短時間フーリエ変換アルゴリズムを使用して、オーディオデータに基づいてスペクトログラムを生成し、次に、生成したスペクトログラムに基づいて、スペクトログラム特徴マトリックスを得ることができる。なお、本開示の実施例は、これらに限定されない。
【0137】
図7は本開示の少なくとも1つの実施例に係るスペクトル特徴マトリックスを抽出するフローチャートである。例えば、いくつかの実施例において、図7に示すように、オーディオデータに基づいてスペクトログラムを生成し、スペクトル特徴マトリックスを得、即ち、ステップS300がステップS301~ステップS304を含む。
【0138】
ステップS301において、単語及び比オーディオデータに基づいて、単語に対応するオーディオデータにおける発音セグメントを確定する。
【0139】
例えば、いくつかの実施例において、所定の音響モデルによってオーディオデータと単語との強制的にアラインメントして、単語に対応するオーディオデータにおける発音セグメントを確定する。
【0140】
ステップS302において、オーディオデータにおける発音セグメントに対して、フレーム分割、周波数領域変換及びバックドメイン変換を順次に行って、スペクトログラムを得る。
【0141】
例えば、ステップS302におけるフレーム分割、周波数領域変換、バックドメイン変換などの動作の具体的な実現プロセス及び方法は、アクセント音節の短時間エネルギー分散を抽出する上記のステップにおける関連の説明を参照することができ、ここで重複の説明を省略する。
【0142】
ステップS303において、スペクトログラムに基づいて、所定のBarkドメイン周波数帯域範囲においてオリジナルスペクトル特徴マトリックスを抽出する。
【0143】
例えば、いくつかの実施例では、所定のBarkドメインの周波数帯域範囲は、[50Hz,500Hz]のBarkドメインの周波数チャネルを含み得るが、本開示はこれに限定されない。例えば、いくつかの実施例では、所定のBarkドメインの周波数帯域範囲においてスペクトログラムをサンプリングして、オリジナルスペクトル特徴マトリックスを得ることができる。
【0144】
例えば、いつかの実施例では、オリジナルスペクトル特徴マトリックスの次元数はA*B(A、Bは全て正の整数)であり、すなわち、オリジナルスペクトル特徴マトリックスはA*B個の要素を含む。ここで、Aの値は、所定のBarkドメインの周波数帯域範囲内のBarkドメインの周波数チャネルの数と相関し、例えば、64などの固定値に通常設定されてよく、Bは、ステップS302におけるフレーム分割操作に関連し、Bの値は、オーディオデータにおける発音セグメントを分割したフレーム数に等しい値であり、一般的に、異なる単語にとっては、その単語時間長(すなわち、発音セグメントの時間長)は異なるので、Bは、一般的に、変化する値である。このため、オリジナルスペクトル特徴マトリックスの次元数が一定にならず、統一の分類器モデルを構築してその後の分類処理を行うことが不利となる。この課題を解決するために、以下のステップS304を実行して、次元が固定であるスペクトル特徴マトリックスを得るようにしてもよい。
【0145】
ステップS304において、オリジナルスペクトル特徴マトリックスに対して次元変換操作を行って、スペクトル特徴マトリックスを得る。
【0146】
例えば、いくつかの実施例では、スペクトル特徴マトリックスの次元数はU*V(U、Vは全て正の整数)であり、すなわち、スペクトル特徴マトリックスはU*V個の要素を含む。例えば、補間やサンプリングなどによって次元変換操作を実行することができる。例えば、U>Aである場合、オリジナルスペクトル特徴マトリックスにおける各列ベクトルに対して補間することにより、列ベクトルの要素の数を増やすようにしてもよく、U<Aである場合、オリジナルスペクトル特徴マトリックスにおける各列ベクトルに対してサンプリングすることにより、列ベクトルの要素数を減らすようにしてもよく、U=Aである場合、列ベクトルの要素数をそのままとする。例えば、V>Bの場合、オリジナルスペクトル特徴マトリックスにおける各行ベクトルに対して補間することにより、行ベクトルの要素の数を増やすようにしてもく、U<Aである場合、オリジナルスペクトル特徴マトリックスにおける各行ベクトルをサンプリングすることにより、行ベクトルの要素数を減らすようにしてもく、U=Aである場合、行ベクトルの要素数をそのままとする。
【0147】
例えば、いくつかの実施例では、本開示の実施例に係るアクセント検出方法の検出正確度と検出効率の両方でバランスを取るために、スペクトル特徴マトリックスにおいて、U、Vの値の範囲を[150、250]に設定してもよい。なお、実用上、U、Vの値は必要に応じて設定できる。例えば、いくつかの実施例では、U及びVは両方とも200である。
【0148】
ステップS400において、韻律的特徴ベクトルとスペクトル特徴マトリックスとに対してスティッチング操作を行って、第1の特徴マトリックスを得、第1の特徴マトリックスに対して冗長除去操作を行って、第2の特徴マトリックスを得る。
【0149】
例えば、いくつかの実施例において、ステップS400は、韻律的特徴ベクトル(ステップS200で得る)及びスペクトル特徴マトリックス(ステップS300で得る)に対してそれぞれ平均分散正規化処理を行って、平均分散正規化された韻律的特徴ベクトル及び平均分散正規化されたスペクトル特徴マトリックスをそれぞれ対応して得、平均分散正規化された韻律的特徴ベクトルと平均分散正規化されたスペクトル特徴マトリックスとに対してスティッチング操作を行って、第1の特徴マトリックスを得ることを含む。
【0150】
例えば、本開示の実施例では、任意の変数yに対して、以下の式(10)によって平均分散正規化処理を行うことができる。
【数4】
【0151】
例えば、韻律的特徴ベクトルに対して平均分散正規化処理を行う時に、韻律的特徴ベクトルの各要素を変数yとし、韻律的特徴ベクトルにおける各要素の値の平均を
【数5】
例えば、スペクトル特徴マトリックスに対して平均分散正規化処理を行う時に、スペクトル特徴マトリックスにおける各要素を変数yとし、スペクトル特徴マトリックスにおける各要素が位置する行ベクトルの各要素の値の平均を
【数6】
【0152】
平均分散正規化された韻律的特徴ベクトルと、平均分散正規化されたスペクトル特徴マトリックスとでは、各要素の値が同じ桁数を持ち、これにより、その後の冗長除去操作が容易になることが理解されるべきである。また、平均分散正規化処理は、韻律的特徴ベクトルの次元数とスペクトル特徴マトリックスの次元数に影響を与えない。
【0153】
例えば、いくつかの実施例において、平均分散正規化されたスペクトル特徴マトリックスは、複数の周波数特徴ベクトルを含み、例えば、各周波数特徴ベクトルが列ベクトルである。平均分散正規化された韻律的特徴ベクトルと平均分散正規化されたスペクトル特徴マトリックスとに対してスティッチング操作を行って、第1の特徴マトリックスを得ることは、平均分散正規化された韻律的特徴ベクトルに対して次元変換操作を行って、第1の特徴ベクトルを取得し、ここで、第1の特徴ベクトルの次元数が平均分散正規化されたスペクトル特徴マトリックスにおけるいずれの周波数特徴ベクトルの次元数と同じであることと、第1の特徴ベクトルと平均分散正規化されたスペクトル特徴マトリックスとをスティッチングして、第1の特徴マトリックスを得ることとを含み、ここで、第1の特徴マトリックスは、第1の特徴ベクトル及び平均分散正規化されたスペクトル特徴マトリックスにおける全ての周波数特徴ベクトルを含む。
【0154】
例えば、韻律的特徴ベクトルの次元数Z*1(Zが正の整数であり、例えば、韻律的特徴ベクトルが上記の韻律的特徴F1~F13を含む場合、Zが13であってもよい)であり、平均分散正規化された韻律的特徴ベクトルの次元数がZ*1であり、スペクトル特徴マトリックスの次元数がU*V(U、Vが全て正の整数である)であり、平均分散正規化されたスペクトル特徴マトリックスがU*Vであり、周波数特徴ベクトルが列ベクトルで示し、そして、各周波数特徴ベクトルの次元数がU*1である。例えば、平均分散正規化された韻律的特徴ベクトルに対して次元変換操作を行って、第1の特徴ベクトルを得、ここで、第1の特徴ベクトルの次元数は、U*1であり、即ち、第1の特徴ベクトルの次元数は、平均分散正規化されたスペクトル特徴マトリックスにおけるいずれの周波数特徴ベクトルの次元数と同じである。例えば、ここの次元変換操作は、平均分散正規化された韻律的特徴ベクトルに対して三次スプライン補間を行うことにより、平均分散正規化された韻律的特徴ベクトルの次元数をU*1に拡張して、第1の特徴ベクトルを得ることを含む。
【0155】
例えば、第1の特徴ベクトルと平均分散正規化されたスペクトル特徴マトリックスとをスティッチングして、第1の特徴マトリックスを得、ここで、第1の特徴マトリックスの次元数がU*(V+1)であり、即ち、第1の特徴マトリックスは、第1の特徴ベクトル及び平均分散正規化されたスペクトル特徴マトリックスにおける全ての周波数特徴ベクトルを含む。
【0156】
例えば、この実施例において、第1の特徴マトリックスに対して冗長除去操作を行って、第2の特徴マトリックスを得ることは、第1の特徴マトリックスにおける第1の特徴ベクトルと第1の特徴マトリックスにおける各周波数特徴ベクトルの各コサイン類似度を算出することと、各コサイン類似度におけるいずれのコサイン類似度が第1の所定値よりも大きいことに応じて、いずれのコサイン類似度に対応する第1の特徴マトリックスにおける周波数特徴ベクトルを全セロベクトルに設定するか又はいずれのコサイン類似度に対応する第1の特徴マトリックスにおける周波数特徴ベクトルを第1の特徴マトリックスから削除することにより、第2の特徴マトリックスを得ることとを含む。
【0157】
例えば、いくつかの例において、以下の式(11)によって、2つのベクトルのコサイン類似度を算出する。
【数7】
【0158】
例えば、本開示の実施例において、第1の所定値は、必要に応じて設定されてもよい。例えば、いくつかの例では、第1の所定値の値の範囲は、[0.75,0.9]に設定されてもよく、本開示の実施例は、これに限定されない。例えば、いくつかの例では、第1の所定値は、0.75、0.8、0.85、又は0.9などに設定されてもよく、本開示の実施例は、これらに限定されない。
【0159】
例えば、いくつかの実施例において、平均分散正規化された韻律的特徴ベクトルと平均分散正規化されたスペクトル特徴マトリックスとに対してスティッチング操作を行って、第1の特徴マトリックスを得ることは、平均分散正規化された韻律的特徴ベクトルと平均分散正規化されたスペクトル特徴マトリックスにおける各周波数特徴ベクトルとをそれぞれスティッチングして、第1の特徴マトリックスを得ることを含む。
【0160】
例えば、平均分散正規化された韻律的特徴ベクトルの次元数がZ*1であり、平均分散正規化されたスペクトル特徴マトリックスがU*Vであり、平均分散正規化された韻律的特徴ベクトルと平均分散正規化されたスペクトル特徴マトリックスにおける各周波数特徴ベクトル(各周波数特徴ベクトルの次元数がU*1である)とをそれぞれスティッチングした後、得られた第1の特徴マトリックスの次元数が(U+Z)*Vである。
【0161】
例えば、この実施例において、第1の特徴マトリックスに対して冗長除去操作を行って、第2の特徴マトリックスを得ることは、第1の重みマトリックスを取得することと、前記第1の重みマトリックスを利用して第1の特徴マトリックスを処理して、第1の特徴マトリックスの次元数よりも小さい次元低減マトリックスを得ることと、次元低減マトリックスに対して次元変換操作を行って、第1の特徴マトリックスの次元数と同じの第1の中間特徴マトリックスを得ることと、第1の中間特徴マトリックスにおける各要素を所定区間に変換して、第2の中間特徴マトリックスを得ることと、第2の中間特徴マトリックスにおけるいずれの要素が第2の所定値よりも小さいことに応じて、第2の中間特徴マトリックスにおけるいずれの要素をゼロに設定して、第2の特徴マトリックスを得ることとを含む。
【0162】
例えば、いくつかの例では、第1の重みマトリックスの次元数はD*(U+Z)であり、第1の重みマトリックスと第1の特徴マトリックスとに対してマトリックス乗算を行って、次元低減マトリックスを得、得られた次元低減マトリックスの次元数はD*Vである。例えば、いくつかの例では、Dが(U+Z)よりも小さいため、次元低減マトリックスの次元数が第1の特徴マトリックスの次元数よりも小さい。なお、本開示の実施例において、Dの値は、実際の必要に応じて設定されてよい。例えば、いくつかの例では、Dの値の区間は、[8,12]に設定されてもよく、本開示の実施例は、これに限定されない。
【0163】
例えば、いくつかの例では、所定区間は、必要に応じて設定されてもよい。例えば、いくつかの例において、所定区間は、[-1,1]に設定されてもよく、本開示の実施例は、これに限定されない。例えば、いくつかの例において、所定区間が[ -1,1]である例を挙げ、以下の式(12)によって、第1の中間特徴マトリックスにおける各要素を所定区間[-1, 1]に変換することができる。
【数8】
ここで、rは、第1の中間特徴マトリックスのいずれの要素を表し、rmaxは、第1の中間特徴マトリックスの各要素の最大値を表し、rminは、第1の中間特徴マトリックスの各要素の最小値を表し、Rand(0, 0.1)は、区間[0, 0.1]におけるランダム数の生成関数(ランダム数を生成することができ、生成したランダム数が区間[0, 0.1]にある)を表し、
【数9】
【0164】
本開示の実施例は、第1の中間特徴マトリックスにおける各要素を所定区間に変換する方法を限定するものではなく、当業者は、実際の必要に応じて適切な数学モデルによって上記の変換プロセスを実行することができる。
【0165】
例えば、いくつかの例では、第2の所定値は、必要に応じて設定されてもよい。例えば、いくつかの例において、所定区間が[-1,1]に設定された場合、第2の所定値の値の区間は、例えば、[0.1,0.3]に設定されてもよく、本開示の実施例は、これに限定されない。例えば、いくつかの例では、第1の所定値は、0.1、0.15、0.2、0.25、又は0.3などに設定されてもよく、本開示の実施例は、これらに限定されない。一般的に、第2の所定値が所定区間にあることが理解されるべきである。
【0166】
例えば、この実施例において、アクセント検出方法は、トレーニングすべき第1の重みマトリックスに対してプレトレーニングを行って、第1の重みマトリックスを得ることをさらに含んでもよい。図8は本開示の少なくとも1つの実施例に係るトレーニングすべき第1の重みマトリックスに対してプレトレーニングを行うフローチャートである。例えば、図8に示すように、トレーニングすべき第1の重みマトリックスに対してプレトレーニングを行うことは、以下のステップS10~ステップS60を含む。
【0167】
ステップS10において、サンプル単語のサンプルオーディオデータを取得する。
【0168】
ステップS20において、サンプルオーディオデータに基づいて、サンプルオーディオデータに対応する第1の特徴マトリックスを得る。
【0169】
ステップS30において、トレーニングすべき第1の重みマトリックスを利用してサンプルオーディオデータに対応する第1の特徴マトリックスを処理して、サンプルオーディオデータに対応する次元低減マトリックスを得る。
【0170】
ステップS40において、トレーニングすべき第2の重みマトリックスを利用してサンプルオーディオデータに対応する次元低減マトリックスを処理して、サンプルオーディオデータに対応する第3の特徴マトリックスを得、ここで、サンプルオーディオデータに対応する第3の特徴マトリックスの次元数がサンプルオーディオデータに対応する第1の特徴マトリックスの次元数と同じである。
【0171】
ステップS50において、サンプルオーディオデータに対応する第3の特徴マトリックス及びサンプルオーディオデータに対応する第1の特徴マトリックスに基づいて、損失関数によって損失値を算出する。
【0172】
ステップS60において、損失値に基づいてトレーニングすべき第2の重みマトリックス及びトレーニングすべき第1の重みマトリックスをそれぞれ修正する。
【0173】
例えば、ステップS10の具体的な実現プロセス及び方法は、上記のステップS201に関する説明を参照することができ、ここで説明を省略する。
【0174】
例えば、ステップS20の具体的な実現プロセス及び方法は、上記のステップS200、ステップS300、ステップS400(得られた第1の特徴マトリックスの次元数が(U+Z)*Vである場合)の関連の説明を参照することができ、ここでのサンプル単語、サンプルオーディオデータを、上記のステップS200、ステップS300、ステップS400(得られた第1の特徴マトリックスの次元数が(U+Z)*Vである場合)における単語、オーディオデータとすればよい。
【0175】
例えば、ステップS30で、第1の重みマトリックスの次元数は、トレーニングすべき第1の重みマトリックスの次元数と同一であり、両方が共にD*(U+Z)である。トレーニングすべき第1の重みマトリックスとサンプルオーディオデータに対応する第1の特徴マトリックスとに対してマトリックス乗算を行って、得られたサンプルオーディオデータに対応する次元低減マトリックスの次元数はD*Vである。
【0176】
例えば、ステップS40において、トレーニングすべき第2の重みマトリックスの次元数が(U+Z)*Dであり、そして、トレーニングすべき第2の重みマトリックスとサンプルオーディオデータに対応する次元低減マトリックスとに対してマトリックス乗算を行って、得られたサンプルオーディオデータに対応する第3の特徴マトリックスの次元数が(U+Z)*Vであり、即ち、サンプルオーディオデータに対応する第3の特徴マトリックスの次元数は、サンプルオーディオデータに対応する第1の特徴マトリックスの次元数と同じである。
【0177】
例えば、ステップS50において、損失関数は、クロスエントロピー損失関数(Cross Entropy Loss Function)を含むが、これに限定されない。
【0178】
例えば、ステップS60において、損失関数によって算出された損失値に基づいて、最適化関数によってトレーニングすべき第2の重みマトリックスの要素の誤差値とトレーニングすべき第1の重みマトリックスの要素の誤差値とを算出し、当該トレーニングすべき第1の重みマトリックスの要素の誤差値に基づいて第1の重みマトリックスの要素を修正し、当該トレーニングすべき第2の重みマトリックスの要素の誤差値に基づいて第2の重みマトリックスの要素を修正してもよい。例えば、最適化関数としては、バッチグラデエントデリケート(batch gradient descent、BGD)アルゴリズム、確率的勾配降下(stochastic gradient descent、SGD)アルゴリズムなどによって、トレーニングすべき第2の重みマトリックスの要素の誤差値とトレーニングすべき第1の重みマトリックスの要素の誤差値を算出することができる。
【0179】
例えば、いくつかの実施例では、トレーニングすべき第1の重みマトリックスをプレトレーニングすることは、上記トレーニングすべき第の2重みマトリックス及びトレーニングすべき第1の重みマトリックスのトレーニングが所定条件を満たすか否かを判断し、所定条件を満たさない場合、上記トレーニングプロセス(即ち、ステップS10~ステップS60)を繰り返し実行し、所定条件を満たす場合、上記トレーニングプロセスを停止し、トレーニング済みの第1の重みマトリックス及び第2の重みマトリックスを得、ここで、トレーニング済みの第1の重みマトリックスを上記第1の重みマトリックスとすることを含む。例えば、一例において、上記の所定の条件は、連続する2つ(またはそれ以上)のサンプル単語のサンプルオーディオデータに対応する損失値がもはや著しく減少していないということである。例えば、他の例として、前記所定条件は、トレーニングすべき第2の重みマトリックス及びトレーニングすべき第1の重みマトリックスのトレーニング回数またはトレーニング周期が所定回数に達したということである。本開示は、これに限定されない。
【0180】
例えば、トレーニングすべき第2の重みマトリックスにおける要素の初期値はランダム値であってもよく、トレーニングすべき第1の重みマトリックスにおける要素の初期値はランダム値であってもよい。
【0181】
例えば、いくつかの実施例では、上述のプレトレーニングプロセスは、例えば、汎用なオートエンコーダによって実装されてもよく、本開示は、これに限定されない。
【0182】
なお、上記の実施例は、第2の重みマトリックスと第1の重みマトリックスのトレーニングプロセスを模式的に説明するにすぎない。当業者は、トレーニング段階では、多くのサンプル単語のサンプルオーディオデータを利用して、トレーニングすべき第2の重みマトリックスとトレーニングすべき第1の重みマトリックスとをトレーニングすることが必要であり、また、トレーニングすべき第2の重みマトリックスとトレーニングすべき第1の重みマトリックスの要素を修正するために、各サンプル単語のサンプルオーディオデータのトレーニングプロセスが数回も反復できることをわかるべきである。また、例えば、トレーニング段階では、トレーニングすべき第2の重みマトリックスの要素およびトレーニングすべき第1の重みマトリックスの要素を微調整(fine-tune)することにより、より最適なパラメータを取得することをさらに含む。
【0183】
上記のプレトレーニングプロセスは、第1の重みマトリックス及び第2の重みマトリックスをニューラルネットワークの重みパラメータマトリックスとすれば、ニューラルネットワークのトレーニングプロセスを参照できることが理解されるべきである。
【0184】
なお、本開示の実施例に係るアクセント検出方法では、ステップS400におけるスティッチング操作により、韻律的特徴とスペクトル特徴とを合わせてアクセント検出を行うことを可能にし、アクセント検出結果の正確度の向上に有利し、また、ステップS400における冗長除去操作により、アクセント検出方式のアクセント検出速度および効率を向上させることができる。
【0185】
ステップS500において、分類器で第2の特徴マトリックスを分類処理して、オーディオデータのアクセント検出結果を取得する。
【0186】
例えば、いくつかの実施例において、ステップS500における分類器には、畳み込みニューラルネットワークを含む分類器を採用してもよく、他の分類器(例えば、サポートベクターマシン(Support Vector Machine、SVM)分類器など)を採用してもよく、本開示の実施例は、これに限定されない。
【0187】
例えば、いくつかの実施例において、ステップS500における分類器には、畳み込みニューラルネットワーク及びsoftmax分類器を含む。第2の特徴マトリックスは、畳み込みニューラルネットワークとsoftmax分類器との順次処理を経て、オーディオデータのアクセント検出結果を得る。例えば、いくつかの例では、このsoftmax分類器は2分類に応用され、その出力結果が、オーディオデータのアクセント音節がストレスされるかどうかを表し、例えば、出力結果が1であれば、当該オーディオデータにおけるアクセント音節がストレスされることを表し、出力結果が0であれば、当該オーディオデータにおけるアクセント音節がストレスされないことを表すが、本開示の実施例は、それに限定されない。
【0188】
いくつかの実施例では、ステップS500における分類器は、トレーニングされた後、ステップS500における分類処理を実行するために使用され得ることが理解されるべきである
【0189】
なお、本開示の実施例において、分類器は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせなどの方式で実現されて、対応する処理プロセスを実行してもよい。
【0190】
なお、本開示の実施例において、上記のアクセント検出方法のフローは、より多くの又はより少ない操作を含んでもよく、これらの操作は、順次又は並列に実行されてもよい。以上説明したアクセント検出方法のフローは、特定の順序で説明した複数の動作を含むが、複数の動作の順序は限られるものではないことは明らかである。また、番号が異なっても本質上同一であるステップは、1回のみ実行してもよく、その実行結果は、後継の異なるステップに共通してもよく、もちろん必要なときに繰り返し実行してもよい。なお、上述したアクセント検出方法は、1回だけ実行してもよいし、所定の条件で複数回実行してもよい。
【0191】
本開示の実施例に係るアクセント検出方法は、韻律的特徴とスペクトル特徴を組み合わせてアクセント検出を行うことにより、アクセント検出結果の正確度を向上させることができ、また、冗長除去操作により、アクセント検出方法のアクセント検出速度および効率を向上させることができる。
【0192】
本開示の少なくとも1つの実施例によれば、また、アクセント検出装置を提供する。図9は本開示の少なくとも1つの実施例に係るアクセント検出装置の模式的なブロック図である。
【0193】
アクセント検出装置100は、例えば、図9に示すように、取得ユニット110と、韻律的特徴抽出ユニット120と、スペクトルマトリックス抽出ユニット130と、マトリックス演算ユニット140と、分類ユニット150とを備える。例えば、これらのユニットは、ハードウェア(例えば、回路)モジュール又はソフトウェアモジュール等により実現されてもよく、以下の実施例はこれと同じであり、説明を省略する。これらのユニットは、例えば、中央処理ユニット(CPU)、画像プロセッサ(GPU)、テンソルプロセッサ(TPU)、フィールドプログラマブルロジックゲートアレイ(FPGA)、またはデータ処理機能および/または命令実行機能を有する他の形態の処理ユニット、ならびに対応するコンピュータ命令によって実装され得る。
【0194】
例えば、取得ユニット110は、単語のオーディオデータを取得するように配置される。例えば、該取得ユニット110は、上記のアクセント検出方法におけるステップS100を実行し、その具体的な実現プロセス及び方法は、ステップS100の関連記載を参照し、ここで重複の説明を省略する。
【0195】
例えば、韻律的特徴抽出ユニット120は、オーディオデータの韻律的特徴を抽出して、韻律的特徴ベクトルを得るように配置される。例えば、当該韻律的特徴抽出ユニット120は、上記のアクセント検出方法におけるステップS200を実行し、その具体的な実現プロセス及び方法は、ステップS200の関連記載を参照し、ここで重複の説明を省略する。
【0196】
例えば、スペクトルマトリックス抽出ユニット130は、オーディオデータに基づいてスペクトログラムを生成して、スペクトル特徴マトリックスを得るように配置される。例えば、当該スペクトルマトリックス抽出ユニット130は、上記のアクセント検出方法におけるステップS300を実行し、その具体的な実現プロセス及び方法は、ステップS300の関連記載を参照し、ここで重複の説明を省略する。
【0197】
例えば、マトリックス演算ユニット140は、韻律的特徴ベクトルとスペクトル特徴マトリックスとに対してスティッチング操作を行って、第1の特徴マトリックスを得、第1の特徴マトリックスに対して冗長除去操作を行って、第2の特徴マトリックスを得るように配置される。例えば、当該マトリックス演算ユニット140は、上記のアクセント検出方法におけるステップS400を実行し、その具体的な実現プロセス及び方法は、ステップS400の関連記載を参照し、ここで重複の説明を省略する。
【0198】
例えば、分類ユニット150は、第2の特徴マトリックスに対して分類処理を行って、オーディオデータのアクセント検出結果を得るように配置される。例えば、当該分類ユニット150は、分類器を含む。例えば、当該分類ユニット150は、上記のアクセント検出方法におけるステップS500を実行し、その具体的な実現プロセス及び方法は、ステップS500の関連記載を参照し、ここで重複の説明を省略する。
【0199】
なお、本開示の実施例において、アクセント検出装置100は、より多く又は少ない回路やユニットを含んでもよいし、各回路やユニット間の接続関係は、限定されなく、実際の必要に応じて設定されてもよい。各回路の具体的な構成方式は限定されず、回路原理に応じてアナログデバイスで構成してもよいし、デジタルチップで構成してもよいし、その他適宜の方式で構成してもよい。
【0200】
図10は本開示の少なくとも1つの実施例に係る他のアクセント検出装置の模式的なブロック図である。例えば、図10に示すように、当該アクセント検出装置200は、メモリ210及びプロセッサ220を含む。
【0201】
例えば、メモリ210は、コンピュータ読み取り可能な命令を非一時的に記憶するものであり、プロセッサ220は、当該コンピュータ読み取り可能な命令を実行し、当該コンピュータ読み取り可能な命令がプロセッサ220により実行されるとき、本開示のいずれの実施例に係るアクセント検出方法が実行される。
【0202】
例えば、メモリ210とプロセッサ220とは、直接的又は間接的に互いに通信することができる。例えば、図10に示すように、いくつかの例では、アクセント検出装置200は、メモリ210とプロセッサ220とが互いに通信可能なシステムバス230をさらに備えてもよく、例えば、プロセッサ220は、システムバス230を介してメモリ210にアクセスすることができる。例えば、他の例では、メモリ210とプロセッサ220等の部品は、ネットワーク接続を介して通信してもよい。ネットワークは、無線ネットワーク、有線ネットワーク、及び/又は無線ネットワークと有線ネットワークとの任意の組み合わせを含み得る。ネットワークは、ローカルエリアネットワーク、インターネット、通信ネットワーク、インターネットおよび/または通信ネットワークに基づくもののインターネット(Internet of Things)、ならびに/または上記のネットワークの任意の組合せなどを含むことができる。有線ネットワークとしては、例えばツイストペア線、同軸ケーブル、光ファイバ伝送等の方式を用いて通信を行い、無線ネットワークとしては、例えば3G/4G/5G移動体通信ネットワーク、ブルートゥース、Zigbee、WiFi等の通信方式を用いることができる。本開示は、ネットワークのタイプ及び機能について、ここでは制限されない。
【0203】
例えば、プロセッサ220は、所望の機能を実現するように、アクセント検出装置の他の部品を制御してもよい。プロセッサ220は、中央処理ユニット(CPU)、テンソルプロセッサ(TPU)、またはグラフィックスプロセッサGPUなどのデータの処理能力および/またはプログラムの実行能力を有するデバイスであってもよい。中央処理ユニット(CPU)は、X86またはARMアーキテクチャなどであってもよい。GPUは、マザーボード上に直接に単独で組み込まれてもよいし、マザーボードのノースブリッジに内蔵されてもよい。GPUは、中央処理装置(CPU)に内蔵されていてもよい。
【0204】
例えば、メモリ210は、1つ又は複数のコンピュータプログラム製品の任意の組み合わせを含み、コンピュータプログラム製品は、揮発性メモリ及び/又は不揮発性メモリ等の様々な形態のコンピュータ読み取り可能な記憶媒体を含み得る。揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)および/またはキャッシュメモリなどを含んでもよい。不揮発性メモリは、例えば、リードオンリーメモリ(ROM)、ハードディスク、消去可能プログラマブルリードオンリーメモリ(EPROM)、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)、USBメモリ、フラッシュメモリ等を含み得る。
【0205】
例えば、メモリ210には、1つ又は複数のコンピュータ命令が記憶されることができ、プロセッサ220が前記コンピュータ命令を実行することにより、様々な機能を実行することができる。コンピュータ読み取り可能な記憶媒体には、様々なアプリケーションプログラム及び様々なデータ、例えば、韻律的特徴ベクトル、スペクトル特徴マトリックス、第1の特徴マトリックス、第2の特徴マトリックス、及びアプリケーションプログラムによって使用される及び/又は生成される様々なデータなどが記憶されていてもよい。
【0206】
例えば、メモリ210に記憶されたいくつかのコンピュータ命令がプロセッサ220によって実行されるとき、上述のアクセント検出方法における1つ又は複数のステップを実行してもよい。
【0207】
例えば、図10に示すように、アクセント検出装置200は、外部装置と通信可能な入力インタフェース240をさらに備えてもよい。例えば、入力インターフェース240は、外部のコンピュータ装置から、ユーザ等から命令を受信するために使用され得る。アクセント検出装置500は、アクセント検出装置200と1つ又は複数の外部機器とをお互いに接続する出力インタフェース250をさらに備えてもよい。例えば、アクセント検出装置200は、出力インタフェース250を介してアクセント検出結果等を表示させてもよい。入力インタフェース240及び出力インタフェース250を介してアクセント検出装置200と通信する外部装置は、ユーザとインタラクション可能の任意のタイプのユーザインターフェースを提供する環境に含まれてもよい。ユーザインターフェースのタイプの例としては、グラフィカルユーザインターフェース、自然なユーザインターフェースなどが挙げられる。例えば、グラフィカルユーザインターフェースは、キーボード、マウス、リモートコントローラといった入力デバイスを用いてユーザからの入力を受け付け、ディスプレイといった出力デバイスで出力することができる。さらに、自然なユーザインターフェースでは、キーボード、マウス、リモートコントローラといった入力装置によって課される制約を受けないように、ユーザがアクセント検出装置500とインタラクトすることを可能にしてもよい。逆に、自然なユーザインターフェースは、音声認識、タッチおよびスタイラス認識、スクリーン上およびその近傍でのジェスチャ認識、空中ジェスチャ、頭部および視線追跡、音声学及びセマンティクス、視覚、タッチ、ジェスチャ、ならびに機械のインテリジェンスなどに依存することができる。
【0208】
例えば、いくつかの実施例において、このアクセント検出装置200は、アクセント検出方法の実施例に記載のオーディオ収集装置をさらに含む。
【0209】
また、図10には、アクセント検出装置200を単一の系統として示しているが、アクセント検出装置200は分散型のシステムであってもよいし、クラウド施設(パブリッククラウド、プライベートクラウドを含み)であってもよいことは言うまでもない。従って、例えば、いくつかの機器は、ネットワーク接続を介して通信を行い、ともにアクセント検出装置200によって実行されるタスクを実行してもよい。例えば、いくつかの例では、単語のオーディオデータは、スマートフォンによって取得されサーバにアップロードされ、サーバがアクセント検出のプロセスを実行した後にアクセント検出結果をスマートフォンに返して、ユーザに提供してもよい。
【0210】
例えば、アクセント検出方法の具体的な処理については、上述したアクセント検出方法の実施例についての説明を参照することができ、ここでは重複の説明を省略する。
【0211】
例えば、いくつかの例では、このアクセント検出装置は、スマートフォン、タブレット、パーソナルコンピュータ、PDA(Personal Digital Assistant)、ウェアラブルデバイス、ヘッドマウントディスプレイ装置などを含んでもよいが、それらに限定されない。
【0212】
なお、本開示の実施例に係るアクセント検出装置は、例示的なものであり、限定されるものでなく、実際の応用の必要に応じて、他の通常の部品や構造を含んでもよく、例えば、アクセント検出装置の必要な機能を実現するために、当業者が具体的なアプリケーションシナリオに応じて他の通常の部品や構造を設けてもよく、本開示の実施例は、これに限定されない。
【0213】
本開示の実施例に係るアクセント検出装置の技術的効果は、上述した実施例におけるアクセント検出方法に関する説明を参照することができ、ここで説明は省略する。
【0214】
本開示の少なくとも1つの実施形態によれば、非一時的な記憶媒体がさらに提供される。図11は本開示の一実施例に係る非一時的な記憶媒体の模式図である。例えば、図11に示すように、この非一時的な記憶媒体300は、コンピュータ読み取り可能な命令301を非一時的に記憶し、コンピュータ読み取り可能な命令301が、コンピュータ(プロセッサを備え)によって実行されるとき、本開示の実施例のいずれかによって提供されるアクセント検出方法の命令が実行されることができる。
【0215】
例えば、1つ又は複数のコンピュータ命令が、非一時的な記憶媒体300に記憶され得る。非一時的な記憶媒体300に記憶されたコンピュータ命令のいくつかは、例えば、上述のアクセント検出方法の1つ又は複数のステップを実行するための命令であってもよい。
【0216】
例えば、非一時的な記憶媒体は、タブレットの記憶ユニット、パーソナルコンピュータのハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM)、コンパクトディスクリードオンリメモリ(CD-ROM)、フラッシュメモリ、又はそれらの記憶媒体の任意の組合せを含むことができ、他の適切な記憶媒体であってもよい。
【0217】
本開示の実施例に係る非一時的な記憶媒体に係る技術的効果は、上述の実施例におけるアクセント検出方法についての説明を参照することができるため、ここでは説明を省略する。
【0218】
本開示に関して、以下の点について、説明する必要がある。
【0219】
(1)本開示の実施形例の図面では、本開示の実施例に関連する構造のみに関し、他の構造は、一般的な設計を参照することができる。
【0220】
(2)矛盾しない限り、本開示の同一及び異なる実施例の特徴は、互いに組み合わされ得る。
【0221】
以上、本開示の具体的な実施形態のみが例示されたが、本開示の保護範囲はこれに限定されず、当業者であれば、本開示に開示された技術的範囲内において、容易に変更または置換を想到することができるものは、本開示の保護範囲に含まれるべきである。したがって、本開示の保護範囲は、特許請求の範囲の保護範囲によって定められるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11