(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023044240
(43)【公開日】2023-03-30
(54)【発明の名称】音声感情予測方法及びシステム
(51)【国際特許分類】
G06N 20/00 20190101AFI20230323BHJP
G06N 3/08 20230101ALI20230323BHJP
G10L 15/10 20060101ALI20230323BHJP
G10L 25/63 20130101ALI20230323BHJP
【FI】
G06N20/00
G06N3/08
G10L15/10 500N
G10L25/63
【審査請求】有
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021152163
(22)【出願日】2021-09-17
(71)【出願人】
【識別番号】521411725
【氏名又は名称】大連理工大学
【氏名又は名称原語表記】Dalian University of Technology
【住所又は居所原語表記】School of Computer Science and Technology, Dalian University of Technology, No.2 Linggong Road, Ganjingzi District, Dalian, Liaoning 116024, China
(74)【代理人】
【識別番号】100216471
【弁理士】
【氏名又は名称】瀬戸 麻希
(74)【代理人】
【識別番号】110002871
【氏名又は名称】弁理士法人坂本国際特許商標事務所
(72)【発明者】
【氏名】チャン、キャン
(72)【発明者】
【氏名】チャオ、ラシェン
(72)【発明者】
【氏名】チュウ、ドンシェン
(72)【発明者】
【氏名】ホウ、ヤキン
(57)【要約】 (修正有)
【課題】音声感情認識精度を向上させる音声感情の予測方法及びシステムを提供する。
【解決手段】方法は、感情音声データセットを収集し、トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得し、m番目の予測モデルの混同行列に従って対応するF1値ベクトルを決定し、予測待ちの感情音声信号セットを各予測モデルにそれぞれ入力し、感情予測ベクトルを構成し、m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn番目の予測値を乗算し、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し、和ベクトルを構成する。そして、和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むステップと、
前記データセットをトレーニングセットと検証セットに分割するステップと、
前記トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するステップと、
前記検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モデルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番目のF1値ベクトル、m∈[1、M]として記録するステップと、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力し、m番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、m番目の感情予測ベクトルとして記録するステップと、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであり、n∈[1、N]、Nは感情タイプの数を表すステップと、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し、各加算結果が和ベクトルを構成するステップと、
前記和ベクトル内の要素の最大値に対応する感情タイプを前記予測された感情タイプとして決定するステップと、を含むことを特徴とする音声感情の予測方法。
【請求項2】
M値は3であり、分類器モデルの3つの異なるタイプは、それぞれVGGモデル、ResNetモデル、およびXceptionモデルであることを特徴とする請求項1に記載の音声感情の予測方法。
【請求項3】
前記トレーニングセットにおける感情音声信号と前記検証セットにおける感情音声信号は、どちらも強化されたメルスペクトログラムであることを特徴とする請求項1に記載の音声感情の予測方法。
【請求項4】
前記予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトログラムであることを特徴とする請求項1に記載の音声感情の予測方法。
【請求項5】
前記強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化されたメルスペクトログラムであることを特徴とする請求項4に記載の音声感情の予測方法。
【請求項6】
感情音声データセットを収集するために使用され、前記データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むデータ収集モジュールと、
前記データセットをトレーニングセットと検証セットに分割するために使用されるデータセット分割モジュールと、
前記トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するために使用されるモデルトレーニングモジュールと、
前記検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モデルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番目のF1値ベクトルm∈[1,M]として記録するために使用されるF1値ベクトル決定モジュールと、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力するために使用され、m番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、m番目の感情予測ベクトルとして記録する感情予測ベクトル出力モジュールと、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであり、n∈[1、N]、Nは感情タイプの数を表すために使用されるF1値ベクトルと感情予測ベクトル乗算モジュールと、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し、各加算結果が和ベクトルを構成するために使用される和ベクトル決定モジュールと、
前記和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するために使用される感情タイプ決定モジュールと、を含むことを特徴とする音声感情予測システム。
【請求項7】
M値は3であり、分類器モデルの3つの異なるタイプは、それぞれVGGモデル、ResNetモデル、およびXceptionモデルであることを特徴とする請求項6に記載の音声感情予測システム。
【請求項8】
前記トレーニングセットにおける感情音声信号と前記検証セットにおける感情音声信号は、どちらも強化されたメルスペクトログラムであることを特徴とする請求項6に記載の音声感情予測システム。
【請求項9】
前記予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトログラムであることを特徴とする請求項6に記載の音声感情予測システム。
【請求項10】
前記強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化されたメルスペクトログラムであることを特徴とする請求項9に記載の音声感情予測システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号処理の技術分野、特に音声感情予測方法及びシステムに関する。
【背景技術】
【0002】
コンピュータは現代人の仕事や生活に欠かせないものになり、ますます重要な役割を果たしているため、人々は一般に、人間とコンピュータの相互作用が人間同士のコミュニケーションと同じくらい親切で自然で感情的なものになることを望んでいる。この目的を達成するために、音声感情認識は研究者の注目を集めている。現在、音声感情認識は、主に2つのカテゴリに分類される。1つは、従来の機械学習方法に基づき、音声感情を表すことができる効果的な特徴を抽出して分類器と組み合わせることによって認識される。もう1つは、深層学習に基づく音声感情認識方法である。これは、最初のタイプの方法よりもパフォーマンスが優れたエンドツーエンドの方法である。ただし、どの深層学習モデルを音声感情認識に使用しても、各モデルには独自の欠点があるため、単一のモデルで効果的な感情的特徴情報を包括的に学習することは困難である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明は、音声感情認識の精度を向上させる音声感情予測方法及びシステムを提供することを目的とする。
【課題を解決するための手段】
【0004】
上記の目的を達成するために、本発明は以下の解決手段を提供する。
【0005】
感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むステップと、
データセットをトレーニングセットと検証セットに分割するステップと、
トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するステップと、
検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モデルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番目のF1値ベクトルを、m∈[1、M]として記録するステップと、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力し、m番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、m番目の感情予測ベクトルとして記録するステップと、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであり、n∈[1、N]、Nは感情タイプの数を表すステップと、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し、各加算結果が和ベクトルを構成するステップと、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するステップと、を含む音声感情の予測方法。
【発明の効果】
【0006】
本発明によって提供される具体的な実施例によれば、本発明は、以下の技術的効果を開示する。
【0007】
本発明は、トレーニングセットに従ってそれぞれ異なる分類器モデルをトレーニングし、次に検証セットからそれぞれ各予測モデルのF1値ベクトルを取得し、それに対応して、F1値ベクトルのF1値を感情予測ベクトルの予測値と乗算する。最後に、各積ベクトルの各対応する乗算結果を加算して情報融合を実現し、異なる分類器の認識結果を融合することにより、音声感情認識の精度が向上する。
【図面の簡単な説明】
【0008】
【
図1】本発明の音声感情予測方法のプロセスの模式図である。
【
図2】本発明の実施例の音声感情予測方法のプロセスの模式図である。
【
図3】本発明のVGGモデルの構造の模式図である。
【
図4】本発明のResNetモデルの構造の模式図である。
【
図5】本発明のXceptionモデルの構造の模式図である。
【
図6】本発明の音声感情予測システムの構造の模式図である。
【発明を実施するための形態】
【0009】
本発明は、音声感情認識の精度を向上させる音声感情の予測方法及びシステムを提供することを目的とする。
【0010】
本発明の上記目的、特徴及び利点をより顕著で分かりやすくするために、以下に図面及び発明を実施するための形態を参照しながら本発明をさらに詳しく説明する。
【0011】
図1に示すように、音声感情予測方法は、
感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含み、
感情タイプは、中立、喜び、怒り、悲しみ、驚き、および恐れを含み、中立(Neutral)は感情がないことを意味するステップ101と、
データセットをトレーニングセットと検証セットに分割するステップ102と、
トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するステップ103と、
検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モデルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番目のF1値ベクトル、m∈[1、M]として記録するステップ104と、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力し、m番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、m番目の感情予測ベクトルとして記録するステップ105と、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであり、n∈[1、N]、Nは感情タイプの数を表すステップ106と、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し、各加算結果が和ベクトルを構成するステップ107と、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するステップ108と、を含む。
【0012】
M値は3であり、分類器モデルの3つの異なるタイプは、それぞれVGGモデル、ResNetモデル、およびXceptionモデルである。
【0013】
M値が3の場合、音声感情予測法は具体的に、
感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むステップと、
データセットをトレーニングセットと検証セットに分割するステップと、
トレーニングセットに従って、それぞれ第1分類器モデル、第2分類器モデル、および第3分類器モデルをトレーニングして、第1予測モデル、第2予測モデル、および第3予測モデルを取得し、第1分類器モデル、第2分類器モデル及び第3分類器モデルは異なるタイプの分類器であるステップと、
検証セットによれば、第1予測モデルの混同行列、第2予測モデルの混同行列、および第3予測モデルの混同行列をそれぞれ得て、第1予測モデルの混同行列に従ってF1値ベクトルを決定し、それを第1のF1値ベクトルとして記録し、第2予測モデルの混同行列に従ってF1値ベクトルを決定し、それを第2のF1値ベクトルとして記録し、第3予測モデルの混同行列に従ってF1値ベクトルを決定し、それを第3のF1値ベクトルとして記録するステップと、
予測待ちの感情音声信号セットを、それぞれ第1の予測モデル、第2の予測モデル、および第3の予測モデルに入力し、第1の予測モデルによって出力される感情予測タイプは、第1の感情予測ベクトルを構成し、第2の予測モデルによって出力される感情予測タイプは、第2の感情予測ベクトルを構成し、第3の感情予測タイプによって出力される感情予測タイプは、第3の感情予測ベクトルを構成するステップと、
第1のF1値ベクトルにおけるn番目のF1値に、第1の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算結果が第1の積ベクトルを構成し、第2のF1値ベクトルにおけるn番目のF1値に、第2の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算結果が第2の積ベクトルを構成し、第3のF1値ベクトルにおけるn番目のF1値に、第3の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算結果が第3の積ベクトルを構成し、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであるステップと、
第1の積ベクトルにおけるn番目の乗算結果、第2の積ベクトルにおけるn番目の乗算結果、および第3の積ベクトルにおけるn番目の乗算結果を加算し、各加算結果は和ベクトルを構成するステップと、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するステップと、を含む。
【0014】
トレーニングセットにおける感情音声信号と検証セットにおける感情音声信号は、どちらも強化されたメルスペクトログラムである。予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトログラムである。強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化されたメルスペクトログラムである。
【0015】
本発明は、最初に、トレーニングセット音声強化メルスペクトログラムからそれぞれ異なる基本分類器ネットワークモデルをトレーニングし、次に、検証セット音声強化メルスペクトログラムからそれぞれ各基本分類器ネットワークモデルのF1値ベクトルを取得し、かつそれをテスト音声と、各対応する基本分類器感情予測値ベクトルにおいて、ドット積演算し、最後に各基本モデルのドット積ベクトルを加算して情報融合を実現する。この方法は、異なる分類器の分類情報を使用し、各予測モデルの優勢相補を通じて感情認識の精度を向上させる。
【0016】
以下では、具体的な実施例を使用して、本発明の音声感情予測方法を説明する。
【0017】
本実施例では、7200個のCASIA中国語感情音声データを、トレーニングセット、検証セット、およびテストセットとして選択し、3つの比率は8:1:1で、認識される感情のタイプは6種類であった。
図2に示すように、音声感情予測法は、
トレーニングセットの感情音声から強化されたメルスペクトログラムを抽出し、VGG、ResNet、Xceptionの3つの基本的な分類ネットワークモデルをそれぞれトレーニングし、VGGモデル(VGG分類ネットワークモデル)、ResNetモデル(ResNet分類ネットワークモデル)、およびXception(Xception分類ネットワークモデル)モデルに対応する予測モデルを取得し、
VGGモデルの構造を
図3に、ResNetモデルの構造を
図4に、Xceptionモデルの構造を
図5に示したStep1と、
検証セットの感情音声から、強化されたメルスペクトログラムを抽出し、Step1でトレーニングされたVGG、ResNet、Xceptionの3つの基本的な分類器ネットワークモデルの入力として使用され、各予測モデルによって出力された検証セットの音声感情混同行列に従って、各基本分類器ネットワークモデルの下での検証セット音声のさまざまな感情のF1値ベクトルを取得したStep2と、
テストセットの感情音声から強化されたメルスペクトログラムを抽出し、それぞれStep1でトレーニングされたVGG、ResNet、Xceptionの3つの基本的な分類ネットワークモデルの入力とし、それぞれ異なるモデルのテストサンプルの感情予測ベクトルを取得し、次に各予測モデルの感情予測ベクトルと、Step2で取得された検証セットの各予測モデルでのF1値ベクトルに対してドット積演算を実行し、次に各予測モデルのドット積ベクトルを加算して和ベクトルを取得し、和ベクトル内の要素の最大値に対応する感情は、テスト音声の認識感情であった。ここで、其中,ドット積演算は、感情予測ベクトルのn番目の予測値にF1値ベクトルのn番目のF1値を乗算することを指し、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであったStep3と、を含む。
【0018】
トレーニングされたVGG、ResNet、Xceptionの3つの基本的な分類器の下でのテスト音声(テストセット)の感情予測ベクトルは、それぞれ
【数1】
であり、
ここで、Nは、感情の種類の数を示し、E
Vggは、第1の予測モデル(VGG予測モデル)によって出力された感情予測ベクトル、
【数2】
は、第1の予測モデルの第1種感情タイプの予測値、
【数3】
は、第1の予測モデルの第2種感情タイプの予測値、
【数4】
は、第1の予測モデルの第N種の感情タイプの予測値であった。
E
Resは、第2の予測モデル(ResNet予測モデル)によって出力された感情予測ベクトル、
【数5】
は、第2の予測モデルの第1種感情タイプの予測値、
【数6】
は、第2の予測モデルの第2種感情タイプの予測値、
【数7】
は、第2の予測モデルの第N種の感情タイプの予測値であった。
E
Xceは、第3の予測モデル(Xception予測モデル)によって出力された感情予測ベクトル、
【数8】
は、第3の予測モデルの第1種感情タイプの予測値、
【数9】
は、第3の予測モデルの第2種感情タイプの予測値、
【数10】
は、第3の予測モデルの第N種の感情タイプの予測値であった。
【0019】
トレーニングされたVGG、ResNet、Xceptionの3つの基本的な分類器の下での検証セットにおける感情音声信号のF1値ベクトルはそれぞれ
【数11】
であり、
F1
Vggは、検証セットに従って第1の予測モデルによって取得されたF1値ベクトル、
【数12】
は、第1の予測モデルの第1種感情タイプによって予測されたF1値、
【数13】
は、第1の予測モデルの第2種感情タイプによって予測されたF1値、
【数14】
は、第1の予測モデルの第N種の感情タイプによって予測されたF1値であった。
F1
Resは、検証セットに従って第2の予測モデルによって取得されたF1値ベクトル、
【数15】
は、第2の予測モデルの第1種感情タイプによって予測されたF1値、
【数16】
は、第2の予測モデルの第2種感情タイプによって予測されたF1値、
【数17】
は、第2の予測モデルの第N種の感情タイプによって予測されたF1値であった。
F1
Xceは、検証セットに従って第3の予測モデルによって取得されたF1値ベクトル、
【数18】
は、第3の予測モデルの第1種感情タイプによって予測されたF1値、
【数19】
は、第3の予測モデルの第2種感情タイプによって予測されたF1値、
【数20】
は、第3の予測モデルの第N種の感情タイプによって予測されたF1値であった。
【0020】
各予測モデルのF1値ベクトルと感情予測ベクトルに対してドット積演算を実行し、VGG、ResNet、Xceptionの3つの基本的な分類器の下でのドット積ベクトルを取得した。
【数21】
であり、
V
Vggは、第1の予測モデルによって対応するドット積ベクトル、V
Resは、第2の予測モデルに対応するドット積ベクトル、V
Xceは、第3の予測モデルに対応するドット積ベクトルであった。
【0021】
次に、VGG、ResNet、Xceptionの3つの基本的な分類器の下でのドット積ベクトルを加算して、和ベクトルを次のように取得した。
S=VXce+VRes+VXce(10)
ベクトルSに含まれる要素の数はN個であり、N個の要素の最大値要素に対応する感情は、テスト音声の認識感情であった。
【0022】
テストセットの実験結果を表1に示した。表1から、本発明の音声感情認識方法は、各単一分類器モデルよりも認識精度が高く、本発明による認識方法の性能が優れていることが分かる。
【0023】
【0024】
図6に示すように、音声感情予測システムは、
感情音声データセットを収集するために使用され、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むデータ収集モジュール201と、
データセットをトレーニングセットと検証セットに分割するために使用されるデータセット分割モジュール202と、
トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するために使用されるモデルトレーニングモジュール203と、
検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モデルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番目のF1値ベクトルとして記録するために使用されるF1値ベクトル決定モジュール204と、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力するために使用され、m番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、m番目の感情予測ベクトルとして記録する感情予測ベクトル出力モジュール205と、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであるために使用されるF1値ベクトルと感情予測ベクトルの乗算モジュール206と、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し、各加算結果が和ベクトルを構成するために使用される和ベクトル決定モジュール207と、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するために使用される感情タイプ決定モジュールと、を含む。
【0025】
M値は3であり、分類器モデルの3つの異なるタイプは、それぞれVGGモデル、ResNetモデル、およびXceptionモデルである。
【0026】
トレーニングセットにおける感情音声信号と検証セットにおける感情音声信号は、どちらも強化されたメルスペクトログラムである。予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトログラムである。強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化されたメルスペクトログラムである。
【0027】
本明細書では、特定の例を使用して、本発明の原理と実施形態を説明し、上記の実施例の説明は、本発明の方法とコアアイデアを理解するのを助けるためにのみ使用され、同時に、当業者にとって、本発明のアイデアによれば、発明を実施するための形態および応用範囲に変更がある。要約すると、本明細書の内容は、本発明の限定として解釈されるべきではない。
【手続補正書】
【提出日】2022-12-30
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
感情音声データセットを収集するために使用され、前記データセットの各サンプルは、感
情音声信号と、感情音声信号に対応する感情タイプを含むデータ収集モジュールと、
前記データセットをトレーニングセットと検証セットに分割するために使用されるデータ
セット分割モジュールと、
前記トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレー
ニングして、各分類器モデルに対応する予測モデルを取得するために使用されるモデルト
レーニングモジュールと、
前記検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モ
デルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番
目のF1値ベクトルm∈[1,M]として記録するために使用されるF1値ベクトル決定
モジュールと、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力するために使用され、m
番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、こ
れを、m番目の感情予測ベクトルとして記録する感情予測ベクトル出力モジュールと、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn
番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値
に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであり、n∈[1
、N]、Nは感情タイプの数を表すために使用されるF1値ベクトルと感情予測ベクトル
乗算モジュールと、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し
、各加算結果が和ベクトルを構成するために使用される和ベクトル決定モジュールと、
前記和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決
定するために使用される感情タイプ決定モジュールと、を含むことを特徴とする音声感情
予測システム。
【請求項2】
M値は3であり、分類器モデルの3つの異なるタイプは、それぞれVGGモデル、Res
Netモデル、およびXceptionモデルであることを特徴とする請求項1に記載の
音声感情予測システム。
【請求項3】
前記トレーニングセットにおける感情音声信号と前記検証セットにおける感情音声信号は
、どちらも強化されたメルスペクトログラムであることを特徴とする請求項1に記載の音
声感情予測システム。
【請求項4】
前記予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトロ
グラムであることを特徴とする請求項1に記載の音声感情予測システム。
【請求項5】
前記強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化さ
れたメルスペクトログラムであることを特徴とする請求項4に記載の音声感情予測システ
ム。