IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ レモン インコーポレイテッドの特許一覧

特表2024-507734音声類似度決定方法及び装置、プログラム製品
<>
  • 特表-音声類似度決定方法及び装置、プログラム製品 図1
  • 特表-音声類似度決定方法及び装置、プログラム製品 図2
  • 特表-音声類似度決定方法及び装置、プログラム製品 図3
  • 特表-音声類似度決定方法及び装置、プログラム製品 図4
  • 特表-音声類似度決定方法及び装置、プログラム製品 図5
  • 特表-音声類似度決定方法及び装置、プログラム製品 図6
  • 特表-音声類似度決定方法及び装置、プログラム製品 図7
  • 特表-音声類似度決定方法及び装置、プログラム製品 図8
  • 特表-音声類似度決定方法及び装置、プログラム製品 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-21
(54)【発明の名称】音声類似度決定方法及び装置、プログラム製品
(51)【国際特許分類】
   G10L 25/60 20130101AFI20240214BHJP
   G10L 25/30 20130101ALI20240214BHJP
   G10L 15/00 20130101ALI20240214BHJP
   G09B 5/04 20060101ALI20240214BHJP
   G09B 19/06 20060101ALI20240214BHJP
   G09B 19/04 20060101ALI20240214BHJP
【FI】
G10L25/60
G10L25/30
G10L15/00 200E
G09B5/04
G09B19/06
G09B19/04
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023547643
(86)(22)【出願日】2022-01-31
(85)【翻訳文提出日】2023-08-10
(86)【国際出願番号】 SG2022050048
(87)【国際公開番号】W WO2022169417
(87)【国際公開日】2022-08-11
(31)【優先権主張番号】202110179824.X
(32)【優先日】2021-02-07
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ANDROID
(71)【出願人】
【識別番号】521388058
【氏名又は名称】レモン インコーポレイテッド
【氏名又は名称原語表記】Lemon Inc.
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】シァ,ルイ
(72)【発明者】
【氏名】トゥ,ミン
(72)【発明者】
【氏名】ディン,チェン
(72)【発明者】
【氏名】ヂォン,ウェイミン
【テーマコード(参考)】
2C028
【Fターム(参考)】
2C028AA03
2C028AA06
2C028BA03
2C028BB07
2C028BC05
2C028BD01
(57)【要約】
本実施例により提供される音声類似度決定方法及び機器、プログラム製品は、音声技術に関し、当該方法は、デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得するステップであって、デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであるステップと、デモンストレーションオーディオに対応する標準的な発音特徴を取得して、評価オーディオの中に標準的な発音特徴に対応する評価発音特徴を抽出するステップであって、標準的な発音特徴が指定されたコンテンツの指定された言語における特定の発音を反映するために用いられるステップと、標準的な発音特徴と評価発音特徴との特徴差異を決定して、特徴差異に従って評価オーディオとデモンストレーションオーディオとの類似度を決定するステップと、を含む。本願に係る解決手段においては、評価オーディオの中にデモンストレーションオーディオに対応する標準的な発音特徴に対応する評価発音特徴を抽出することにより、リッスン・アンド・リピートの類似度分析機能を実現するためのモジュールはボリュームが比較的小さいようにすることができる。
【選択図】図2
【特許請求の範囲】
【請求項1】
音声インタラクションに基づく音声類似度決定方法であって、
デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得するステップであって、前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであるステップと、
前記デモンストレーションオーディオに対応する標準的な発音特徴を取得して、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するステップであって、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられるステップと、
前記標準的な発音特徴と前記評価発音特徴との特徴差異を決定して、前記特徴差異に従って前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するステップと、を含む、
ことを特徴とする音声インタラクションに基づく音声類似度決定方法。
【請求項2】
前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するステップは、
音声認識モデルのエンコーダに基づき、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記デモンストレーションオーディオに対応する標準的な発音特徴は、複数の参照発音特徴を融合させて得られたものであり、各参照発音特徴は、前記エンコーダを利用して各参照オーディオに対して特徴抽出を行うことで得られたものであり、各前記参照オーディオは、前記指定されたコンテンツを前記指定された言語で読み上げるオーディオであり、前記デモンストレーションオーディオは、前記参照オーディオのうちのいずれかのオーディオである、
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記標準的な発音特徴と前記評価発音特徴との特徴差異を決定して、前記特徴差異に従って前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するステップは、
前記標準的な発音特徴と前記評価発音特徴に従って、時間伸縮関数を決定するステップと、
前記時間伸縮関数、前記標準的な発音特徴、及び前記評価発音特徴に従って、複数のアライメントポイントの組み合わせを決定するステップであって、各前記アライメントポイントの組み合わせには、前記標準的な発音特徴における1つの標準的な特徴点及び前記評価発音特徴における1つの評価特徴点が含まれるステップと、
各前記アライメントポイントの組み合わせに含まれる標準的な特徴点と前記評価特徴点に従って、各前記アライメントポイントの組み合わせに対応する特徴差異を決定するステップと、
各前記アライメントポイントの組み合わせの特徴差異に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するステップと、を含む、
ことを特徴とする請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記方法は、
マッピング関数及び前記デモンストレーションオーディオに対応する設定情報を取得するステップであって、前記設定情報が評価オーディオの類似度と点数とのマッピング関係を指示するために用いられるステップと、
前記マッピング関数及び前記デモンストレーションオーディオに対応する設定情報に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を点数としてマッピングするステップと、をさらに含む、
ことを特徴とする請求項3に記載の方法。
【請求項6】
前記設定情報は、最大点数、最大点数に対応する類似度、最小点数、及び最小点数に対応する類似度を含む、
ことを特徴とする請求項5に記載の方法。
【請求項7】
前記最大点数に対応する類似度は、複数の参照類似度の平均値であり、各前記参照類似度は、各前記参照発音特徴と前記標準的な発音特徴との類似度である、
ことを特徴とする請求項6に記載の方法。
【請求項8】
前記最小点数に対応する類似度は、複数のホワイトノイズ類似度の平均値であり、各前記ホワイトノイズ類似度は、各ホワイトノイズ特徴と前記標準的な発音特徴との類似度であり、各前記ホワイトノイズ特徴は、前記エンコーダを利用して各プリセットホワイトノイズオーディオに対して特徴抽出を行うことで得られたものである、
ことを特徴とする請求項6に記載の方法。
【請求項9】
デモンストレーションオーディオを再生するステップの前に、
開始命令に応答して、サーバにデータリクエスト命令を送信するステップと、
前記エンコーダ、前記デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴を受信するステップと、をさらに含む、
ことを特徴とする請求項2、3、5~8のいずれか1項に記載の方法。
【請求項10】
前記音声認識モデルは、音声認識データを用いて初期モデルを訓練して得られたものであり、
発音特徴を抽出するための前記エンコーダは、複数の言語カテゴリのオーディオデータを利用して前記音声認識モデルにおけるエンコーダを訓練して得られたものである、
ことを特徴とする請求項2、3、5~9のいずれか1項に記載の方法。
【請求項11】
前記エンコーダは、3層の長短期記憶ネットワークである、
ことを特徴とする請求項2、3、5~10のいずれか1項に記載の方法。
【請求項12】
サーバに適用される、データリクエスト命令の処理方法であって、
データリクエスト命令を受信するステップと、
前記データリクエスト命令に従って、音声認識モデルに基づくエンコーダ、デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴をユーザ端末に送信するステップと、を含み、
前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであり、前記エンコーダが評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するために用いられ、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる、
ことを特徴とするデータリクエスト命令の処理方法。
【請求項13】
音声類似度決定装置であって、
デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得するための取得ユニットであって、前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオである取得ユニットと、
前記デモンストレーションオーディオに対応する標準的な発音特徴を取得して、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するための特徴抽出ユニットであって、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる特徴抽出ユニットと、
前記標準的な発音特徴と前記評価発音特徴との特徴差異を決定して、前記特徴差異に従って前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するための分析ユニットと、を含む、
ことを特徴とする音声類似度決定装置。
【請求項14】
サーバに配置されている、データリクエスト命令の処理装置であって、
データリクエスト命令を受信するための受信ユニットと、
前記データリクエスト命令に従って、音声認識モデルに基づくエンコーダ、デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴をユーザ端末に送信するための送信ユニットと、を含み、
前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであり、前記エンコーダが評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するために用いられ、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる、
ことを特徴とするデータリクエスト命令の処理装置。
【請求項15】
電子機器であって、
メモリと、
プロセッサと、
コンピュータプログラムと、を含み、
前記コンピュータプログラムが、前記メモリに記憶されており、前記プロセッサにより実行されて請求項1~11又は12のいずれか1項に記載の方法が実現されるように構成されている、ことを特徴とする電子機器。
【請求項16】
コンピュータプログラムが記憶されている、コンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサにより実行されて請求項1~11又は12のいずれか1項に記載の方法が実現される、ことを特徴とするコンピュータ可読記憶媒体。
【請求項17】
コンピュータプログラムを含む、コンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサにより実行されると、請求項1~11又は12のいずれか1項に記載の方法が実現される、コンピュータプログラム製品。
【請求項18】
コンピュータに請求項1~11又は12のいずれか1項に記載の方法を実行させる、ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施例は、音声技術に関し、特に、音声類似度決定方法及び装置、プログラム製品に関する。
【背景技術】
【0002】
オンラインで語学を学ぶことを選択するユーザは多い。例えば、言語学習ソフトウェアを使って語学を学ぶ。
【0003】
従来の技術における多くの言語学習ソフトウェアには、リッスン・アンド・リピートの類似度分析機能を実現するための分析モジュールが配置されており、ユーザは指定されたコンテンツを読み出すことができ、ソフトウェアは、ユーザが指定されたコンテンツを読んでいる際に生成されたオーディオを分析して、当該オーディオと指定されたコンテンツに対応する標準的なオーディオとの類似度を決定することができ、これによって、ユーザはリッスン・アンド・リピートの効果を知ることができる。
【0004】
しかし、従来の技術に提供される分析モジュールは、一般的に、1つの言語をのみ分析することができ、他の種類の言語のリッスン・アンド・リピートの類似度分析機能が追加されると、当該分析モジュールのボリュームが大きくなり、当該分析モジュールを実行するハードウェアデバイスは高く要求されるようになっている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示の実施例は、従来の技術においてリッスン・アンド・リピートの類似度分析機能を実現するモジュールのボリュームが大きいという問題を克服するために、音声類似度決定方法及び機器、プログラム製品を提供する。
【課題を解決するための手段】
【0006】
第1の態様では、本開示の実施例は、音声インタラクションに基づく音声類似度決定方法を提供し、前記方法は、
デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得するステップであって、前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであるステップと、
前記デモンストレーションオーディオに対応する標準的な発音特徴を取得して、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するステップであって、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられるステップと、
前記標準的な発音特徴と前記評価発音特徴との特徴差異を決定して、前記特徴差異に従って前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するステップと、を含む。
【0007】
第2の態様では、本開示の実施例は、サーバに適用される、データリクエスト命令の処理方法を提供し、前記方法は、
データリクエスト命令を受信するステップと、
前記データリクエスト命令に従って、音声認識モデルに基づくエンコーダ、デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴をユーザ端末に送信するステップと、を含み、
前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであり、前記エンコーダが評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するために用いられ、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる。
【0008】
第3の態様では、本開示の実施例は、音声類似度決定装置を提供し、前記装置は、
デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得するための取得ユニットであって、前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオである取得ユニットと、
前記デモンストレーションオーディオに対応する標準的な発音特徴を取得して、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するための特徴抽出ユニットであって、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる特徴抽出ユニットと、
前記標準的な発音特徴と前記評価発音特徴との特徴差異を決定して、前記特徴差異に従って前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するための分析ユニットと、を含む。
【0009】
第4の態様では、本開示の実施例は、サーバに配置されている、データリクエスト命令の処理装置を提供し、前記装置は、
データリクエスト命令を受信するための受信ユニットと、
前記データリクエスト命令に従って、音声認識モデルに基づくエンコーダ、デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴をユーザ端末に送信するための送信ユニットと、を含み、
前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであり、前記エンコーダが評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するために用いられ、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる。
【0010】
第5の態様では、本開示の実施例は、電子機器を提供し、前記電子機器は、
メモリと、
プロセッサと、
コンピュータプログラムと、を含み、
前記コンピュータプログラムが前記メモリに記憶されており、前記プロセッサにより実行されて第1の態様に記載されている音声インタラクションに基づく音声類似度決定方法又は第2の態様に記載されているデータリクエスト命令の処理方法が実現されるように構成されている。
【0011】
第6の態様では、本開示の実施例は、コンピュータプログラムが記憶されている、コンピュータ可読記憶媒体を提供し、前記コンピュータプログラムがプロセッサにより実行されて第1の態様に記載されている音声インタラクションに基づく音声類似度決定方法又は第2の態様に記載されているデータリクエスト命令の処理方法が実現される。
【0012】
第7の態様では、本開示の実施例は、コンピュータプログラムを含む、コンピュータプログラム製品を提供し、前記コンピュータプログラムがプロセッサにより実行されると、第1の態様に記載されている音声インタラクションに基づく音声類似度決定方法又は第2の態様に記載されているデータリクエスト命令の処理方法が実現される。
【0013】
第8の態様では、本開示の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサにより実行されると、第1の態様に記載されている音声インタラクションに基づく音声類似度決定方法又は第2の態様に記載されているデータリクエスト命令の処理方法が実現される。
【発明の効果】
【0014】
本実施例により提供される音声類似度決定方法及び機器、プログラム製品は、デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得するステップであって、デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであるステップと、デモンストレーションオーディオに対応する標準的な発音特徴を取得して、評価オーディオの中に標準的な発音特徴に対応する評価発音特徴を抽出するステップであって、標準的な発音特徴が指定されたコンテンツの指定された言語における特定の発音を反映するために用いられるステップと、標準的な発音特徴と評価発音特徴との特徴差異を決定して、特徴差異に従って評価オーディオとデモンストレーションオーディオとの類似度を決定するステップと、を含む。本願に係る解決手段においては、評価オーディオの中にデモンストレーションオーディオに対応する標準的な発音特徴に対応する評価発音特徴を抽出することにより、リッスン・アンド・リピートの類似度分析機能を実現するためのモジュールはボリュームが比較的小さいようにすることができる。また、デモンストレーションオーディオの標準的な発音特徴は指定されたコンテンツの指定された言語における特定の発音を反映することができるため、本解決手段は、計算のボリュームが小さいながらも、複数の言語カテゴリのリッスン・アンド・リピートの類似度分析の機能を提供することができる。
【図面の簡単な説明】
【0015】
以下、本開示の実施例や従来の技術における解決手段をより明瞭に説明するために、実施例又は従来の技術の記述において使用する必要がある図面を簡単に説明する。当然ながら、以下、記載する図面は本開示のいくつかの実施例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を想到しうる。
図1】1つの例示的な実施例に示される応用シーンの図である。
図2】本願の1つの例示的な実施例に示される音声インタラクションに基づく音声類似度決定方法のフローチャートである。
図3】本願の他の例示的な実施例に示される音声インタラクションに基づく音声類似度決定方法のフローチャートである。
図4】本願の1つの例示的な実施例に示されるユーザ端末の画面の概略図である。
図5】本願の1つの例示的な実施例に示されるデータリクエスト命令の処理方法のフローチャートである。
図6】本願の1つの例示的な実施例に示される音声インタラクションに基づく音声類似度決定装置の構造図である。
図7】本願の他の例示的な実施例に示される音声インタラクションに基づく音声類似度決定装置の構造図である。
図8】本願の1つの例示的な実施例に示されるデータリクエスト命令の処理装置の構造図である。
図9】本開示の実施例により提供される電子機器のハードウェアの構造概略図である。
【発明を実施するための形態】
【0016】
以下、本開示の実施例の目的、技術的解決手段及び利点をより明瞭にするために、本開示の実施例に係る図面を参照しながら、その技術的解決手段について明瞭、且つ完全に説明し、当然ながら、記載される実施例は本開示の実施例の一部にすぎず、そのすべての実施例ではない。当業者は、本開示における実施例に基づいて創造的な労働をすることなく、獲得されたその他のすべての実施例は、いずれも本開示の保護範囲に属する。
【0017】
図1は、1つの例示的な実施例に示される応用シーンの図である。
【0018】
図1に示すように、ユーザ端末は、1つのデモンストレーションオーディオ(図ではデモンストレーションオーディオのコンテンツを「XXX」で示す)を再生することができ、ユーザは、当該デモンストレーションオーディオをリッスン・アンド・リピートすることができる。
【0019】
ユーザはボタン11をクリックして、リッスン・アンド・リピートするオーディオ12を録音するようにユーザ端末を制御することができる。ユーザ端末は、録音したオーディオ12を分析して、当該オーディオ12とデモンストレーションオーディオとの類似度を決定することができ、これによって、ユーザはリッスン・アンド・リピート効果を知ることができる。
【0020】
しかし、従来の技術に提供される、リッスン・アンド・リピートの際に録音されたオーディオを分析して類似度を決定する解決手段においては、いずれも1種の言語のオーディオのみを分析することができる。例えば、ユーザが共通語でリッスン・アンド・リピートする際に生成されたオーディオのみに対して類似度分析を行ったり、ユーザが英語でリッスン・アンド・リピートする際に生成されたオーディオのみに対して類似度分析を行ったりすることができる。
【0021】
従来の技術により提供される解決手段に基づき、他のカテゴリの言語のリッスン・アンド・リピートの類似度分析機能を直接に追加すると、機能全体を実現する分析モジュールはボリュームが大きくなり、当該分析モジュールを実行するハードウェアデバイスが高く要求されている。
【0022】
例えば、異なる方言でリッスン・アンド・リピートして録音したオーディオを分析し、当該オーディオとデモンストレーションオーディオとの類似度を決定する必要がある場合、分析モジュールのボリュームが大きくなる。
【0023】
上記の技術的問題を解決するために、本願により提供される解決手段は、録音された評価オーディオを分析するとき、デモンストレーションオーディオに対応する標準的な発音特徴に対応する評価発音特徴を評価オーディオの中にのみ抽出し、これによりリッスン・アンド・リピートの類似度分析機能を実現するためのモジュールのボリュームを小さくすることができる。また、デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであり、標準的な発音特徴が指定されたコンテンツの指定された言語における特定の発音を反映するために用いられるため、本願に係る解決手段は、当該標準的な発音特徴及び抽出された評価発音特徴に基づいて評価オーディオとデモンストレーションオーディオとの類似度を決定することができ、そして、このような実施形態は、指定されたコンテンツが異なり且つ指定された言語が異なるデモンストレーションオーディオに適用されることができ、これによって、複数の言語カテゴリのリッスン・アンド・リピートの類似度分析の機能を提供することができる。
【0024】
図2は、本願の1つの例示的な実施例に示される音声インタラクションに基づく音声類似度決定方法のフローチャートである。
【0025】
図2に示すように、本願により提供される音声インタラクションに基づく音声類似度決定方法は、ステップ201~ステップ203を含む。
【0026】
ステップ201では、デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得し、デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオである。
【0027】
本願により提供される方法は、コンピューティング能力を備える電子機器により実行されることができ、当該電子機器は例えばユーザ端末とすることができ、当該ユーザ端末はマイクロフォンを備えるものとすることができる。当該ユーザ端末は例えば携帯電話、タブレットコンピュータなどのデバイスとすることができる。
【0028】
具体的には、ユーザ端末は、デモンストレーションオーディオを再生することができ、当該デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオである。例えば、文字コンテンツを予め設定することができ、当該文字コンテンツは、例えば「新年あけましておめでとうございます」など、必要に応じて設定されることができる。当該コンテンツを指定された言語で読み上げるオーディオを予め録音することができ、例えば、当該コンテンツを広東語で読み上げるオーディオを予め録音することができる。具体的に使用する言語も必要に応じて設定されることができる。
【0029】
さらに、当該デモンストレーションオーディオは、参照をユーザに提供するためのオーディオであるため、指定されたコンテンツを指定された言語で読み上げる参照オーディオを複数録音して、その中から必要に応じたデモンストレーションオーディオを選別してもよい。例えば、「新年あけましておめでとうございます」を広東語で読み上げる参照オーディオは、異なるデバイスを利用して、異なる環境下で録音され得る。
【0030】
実際に応用するとき、ユーザ端末は、デモンストレーションオーディオの再生完了後に、マイクロフォンをオンにして、ユーザの評価オーディオを取得してもよい。
【0031】
1つの実施形態では、ユーザ端末の画面に、評価オーディオの取得をトリガーするためのボタンを配置することができ、ユーザは、当該ボタンをクリックすることにより、マイクロフォンをオンにするようにユーザ端末をトリガーして、評価オーディオを取得することができる。
【0032】
他の実施形態では、ユーザ端末は、デモンストレーションオーディオ再生完了後に、マイクロフォンをオンにして、評価オーディオを取得することができる。
【0033】
ユーザは、デモンストレーションオーディオを聞いた後にリッスン・アンド・リピートすることができ、具体的には、指定されたコンテンツを指定された言語で読み上げることにより、ユーザ端末はユーザがデモンストレーションオーディオをリッスン・アンド・リピートする際に生成された評価オーディオを取得できるようにすることができる。
【0034】
1つの選択的な実施形態では、ユーザはさらに、リッスン・アンド・リピート完了の命令をユーザ端末に送信するようにユーザ端末を操作してもよい。例えば、ユーザ端末の画面においてリッスン・アンド・リピート完了を指示するためのボタンを表示することができ、ユーザは当該ボタンをクリックすることにより、リッスン・アンド・リピート完了の命令を送信することができる。他の実施形態では、ユーザはリッスン・アンド・リピートする際に、1つの予め設定されたボタンを長押しして、リッスン・アンド・リピート完了後に、当該リッスン・アンド・リピートボタンを解放することにより、リッスン・アンド・リピート完了の命令をユーザ端末に送信することができる。
【0035】
選択的には、ユーザ端末は、評価オーディオを取得する際に、当該評価オーディオを検出することにより、ユーザがリッスン・アンド・リピート完了したか否かを決定することもできる。例えば、オーディオのエネルギー値に応じて、ユーザがまだ継続的にリッスン・アンド・リピートしているか否かを決定することができる。
【0036】
ステップ202では、デモンストレーションオーディオに対応する標準的な発音特徴を取得して、評価オーディオの中に標準的な発音特徴に対応する評価発音特徴を抽出し、標準的な発音特徴が指定されたコンテンツの指定された言語における特定の発音を反映するために用いられる。
【0037】
具体的には、ユーザ端末は、デモンストレーションオーディオに対応する標準的な発音特徴を取得することができる。
【0038】
さらに、当該標準的な発音特徴は、サーバによりユーザ端末に送信されることができ、ユーザ端末は、受信した標準的な発音特徴を記憶して、評価オーディオを分析する際に、当該標準的な発音特徴を取得することができる。例えば、ユーザは、ユーザ端末を操作して、本願により提供される方法が設定されたアプリケーションを起動する際に、ユーザ端末は、サーバとインタラクションして、デモンストレーションオーディオ及びその対応する標準的な発音特徴をユーザ端末に送信するようにサーバにリクエストすることができる。
【0039】
実際に応用するとき、異なるデモンストレーションオーディオに対応する標準的な発音特徴も異なるため、ユーザ端末は、標準的な発音特徴を取得する際に、再生されるデモンストレーションオーディオに基づいて対応する標準的な発音特徴を取得することができる。
【0040】
標準的な発音特徴は、指定されたコンテンツ及び指定された言語に応じて予め設定されることができ、指定されたコンテンツの指定された言語における特定の発音を反映することができる。
【0041】
具体的には、指定されたコンテンツを指定された言語で読み上げる参照オーディオを複数予め録音して、そのうちのいずれかの参照オーディオをデモンストレーションオーディオとすることができる。指定されたコンテンツを指定された言語で読み上げる際の発音特徴を表すことができる各参照オーディオの参照発音特徴を抽出して、これらの参照発音特徴を融合させ、デモンストレーションオーディオに対応する標準的な発音特徴を得ることができ、当該標準的な発音特徴は複数の参照発音特徴を融合させて得られたものであるため、標準的な発音特徴は、指定されたコンテンツの指定された言語における特定の発音を表すことができる。
【0042】
さらに、ユーザ端末は、さらに、評価オーディオの中に標準的な発音特徴に対応する評価発音特徴を抽出することができる。このような実施形態では、評価オーディオの中に、標準的な発音特徴に対応する評価発音特徴を対象として絞って抽出することができ、評価オーディオのすべての特徴を抽出する必要がないため、処理すべきデータ量を低減し、評価オーディオの分析時に必要なハードウェア要件を減らすことができる。
【0043】
1つの実施形態では、各参照オーディオの参照発音特徴を抽出するとき、各参照オーディオの中のプリセットサンプリングポイントの特徴を収集することにより、標準的な発音特徴がこれらのプリセットサンプリングポイントの特徴を含むものになるようにすることができる。指定されたコンテンツを指定された言語で読み上げる際に当該言語の特徴点を有する発音位置に従って、参照オーディオの中のプリセットサンプリングポイントを決定することができる。
【0044】
このような実施形態では、デモンストレーションオーディオに対応するプリセットサンプリングポイントの位置に従って、評価オーディオの中に標準的な発音特徴に対応する評価発音特徴を抽出することができる。
【0045】
他の実施形態では、各参照オーディオの参照発音特徴を抽出するとき、各参照オーディオのプリセットカテゴリの特徴を収集することにより、標準的な発音特徴がこれらのプリセットカテゴリの特徴を含むものになるようにすることができる。指定されたコンテンツを指定された言語で読み上げる際に当該言語の特徴点を有する特徴に従って、参照オーディオのプリセットカテゴリの特徴を決定することができる。例えば、音調変化を表すための特徴であってもよいし、すべて又は一部の文字の読み方を表すための特徴であってもよい。
【0046】
このような実施形態では、デモンストレーションオーディオに対応するプリセットカテゴリの特徴に従って、評価オーディオの中に標準的な発音特徴に対応する評価発音特徴を抽出することができる。
【0047】
ステップ203では、標準的な発音特徴と評価発音特徴との特徴差異を決定して、特徴差異に従って評価オーディオとデモンストレーションオーディオとの類似度を決定する。
【0048】
ここで、ユーザ端末はさらに、標準的な発音特徴と評価発音特徴とを比較することにより、標準的な発音特徴と評価発音特徴との特徴差異を決定することができる。例えば、標準的な発音特徴における各特徴と評価発音特徴における各特徴とを比較することにより、標準的な発音特徴と評価発音特徴との特徴差異を得ることができる。
【0049】
例えば、標準的な発音特徴と評価発音特徴に対してアライメント処理を行うことができ、各アライメントポイントに含まれる標準的な発音特徴における第1の特徴と評価発音特徴における第2の特徴とを比較することにより、標準的な発音特徴と評価発音特徴との特徴差異を得ることができる。
【0050】
具体的には、さらに、特徴差異に従って評価オーディオとデモンストレーションオーディオとの類似度を決定することもできる。例えば、標準的な発音特徴と評価発音特徴との特徴差異に従って両者の特徴距離を決定して、当該特徴距離を評価オーディオとデモンストレーションオーディオとの類似度とすることができる。
【0051】
1つの選択的な実施形態では、ユーザ端末は、さらに、決定された類似度を点数又は評価コンテンツとしてマッピングして、当該点数を表示することにより、ユーザにリッスン・アンド・リピート効果を認識させることができる。例えば、類似度と点数又は評価コンテンツとのマッピング関係を予め設定することにより、決定された類似度に従って対応する点数又は評価コンテンツを決定することができる。
【0052】
本願により提供される音声インタラクションに基づく音声類似度決定方法は、デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得するステップであって、デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであるステップと、デモンストレーションオーディオに対応する標準的な発音特徴を取得して、評価オーディオの中に標準的な発音特徴に対応する評価発音特徴を抽出するステップであって、標準的な発音特徴が指定されたコンテンツの指定された言語における特定の発音を反映するために用いられるステップと、標準的な発音特徴と評価発音特徴との特徴差異を決定して、特徴差異に従って評価オーディオとデモンストレーションオーディオとの類似度を決定するステップと、を含む。本願に係る解決手段においては、評価オーディオの中にデモンストレーションオーディオに対応する標準的な発音特徴に対応する評価発音特徴を抽出することにより、リッスン・アンド・リピートの類似度分析機能を実現するためのモジュールはボリュームが比較的小さいようにすることができる。また、デモンストレーションオーディオの標準的な発音特徴は指定されたコンテンツの指定された言語における特定の発音を反映することができるため、本解決手段は、計算のボリュームが小さいながらも、複数の言語カテゴリのリッスン・アンド・リピートの類似度分析の機能を提供することができる。
【0053】
図3は、本願の他の例示的な実施例に示される音声インタラクションに基づく音声類似度決定方法のフローチャートである。
【0054】
図3に示すように、本願により提供される音声インタラクションに基づく音声類似度決定方法は、ステップ301~ステップ309を含む。
【0055】
ステップ301では、開始命令に応答して、サーバにデータリクエスト命令を送信する。
【0056】
ここで、本願により提供される方法は、コンピューティング能力を備える電子機器により実行されることができ、当該電子機器は、例えば、ユーザ端末とすることができ、当該ユーザ端末はマイクロフォンを備えるものとすることができる。当該ユーザ端末は例えば携帯電話、タブレットコンピュータなどのデバイスとすることができる。
【0057】
具体的には、ユーザは、ユーザ端末を操作して、リッスン・アンド・リピートの類似度分析機能を開始するための開始命令をユーザ端末に送信することができる。例えば、当該リッスン・アンド・リピートの類似度分析機能は、アプリケーション内の1つのアイテムとして、アプリケーション内に設定されることができ、当該アプリケーションはユーザ端末に搭載されることができる。この場合、ユーザは、ユーザ端末を操作して当該アプリケーションを開始し、当該アプリケーションの中にリッスン・アンド・リピートの類似度分析機能付きのアイテムを選択することにより、ユーザ端末に開始命令を送信することができる。
【0058】
さらに、ユーザ端末は、当該開始命令に応答して、サーバにデータリクエスト命令を送信することができる。当該データリクエスト命令は、リッスン・アンド・リピートの類似度分析機能を実現するデータをリクエストするために用いられる。
【0059】
ステップ302では、エンコーダ、デモンストレーションオーディオ、及びデモンストレーションオーディオに対応する標準的な発音特徴を受信する。
【0060】
実際に応用するとき、サーバは、ユーザ端末から送信されたデータリクエスト命令を受信した後、エンコーダ、デモンストレーションオーディオ、及びデモンストレーションオーディオに対応する標準的な発音特徴を当該ユーザ端末に送信することができる。
【0061】
ここで、サーバには、エンコーダ、デモンストレーションオーディオ、及びデモンストレーションオーディオに対応する標準的な発音特徴が予め設定されている。
【0062】
具体的には、サーバがユーザ端末に送信したエンコーダは、予め訓練して得られたものであってもよい。
【0063】
さらに、音声認識データを用いて初期モデルを訓練して、音声認識モデルを得ることができる。そして、複数の言語カテゴリのオーディオを利用して音声認識モデルにおけるエンコーダを訓練して、発音特徴を抽出するためのエンコーダを得る。
【0064】
実際に応用するとき、音声認識データは、テキストラベル付きのオーディオデータとすることができ、音声認識データを訓練して得られた音声認識モデルによって、一部のオーディオデータを処理し、当該オーディオデータに対応するテキストコンテンツを得ることができる。
【0065】
音声認識モデルにはエンコーダ(Encoder)を備え、エンコーダは、テキストと発音に関する情報を効果的に抽出することができるため、本願により提供される方法には、複数の言語カテゴリのオーディオデータを使用して音声認識モデルにおけるエンコーダを訓練し、発音特徴を抽出できるエンコーダを得る。
【0066】
ここで、複数の言語カテゴリのオーディオデータは複数の言語カテゴリのオーディオを含み、各オーディオは言語カテゴリラベル付きのものである。例えば、一部のオーディオで使われている言語は四川方言である場合、当該オーディオの言語カテゴリラベルは四川方言を表すラベルである。また、例えば、一部のオーディオで使われる言語は広東語である場合、当該オーディオの言語カテゴリラベルは広東語を表すラベルである。複数の言語カテゴリのオーディオデータを用いてエンコーダを訓練することで、当該エンコーダによる異なる言語カテゴリの発音特徴の区別度を向上させることができる。
【0067】
本願により提供される方法に必要なハードウェアリソースをさらに低減するためには、エンコーダは、3層の長短期記憶ネットワークの構成を使用することができ、各層のネットワークは512個のノードを設定することができる。
【0068】
具体的には、サーバにはいくつかのデモンストレーションオーディオ及びその対応する標準的な特徴情報を設定して、これらのデモンストレーションオーディオのうちのいずれか1つ又は複数をユーザ端末に送信するとともに、デモンストレーションオーディオに対応する標準的な特徴情報を送信することができる。
【0069】
さらに、デモンストレーションオーディオに対応する標準的な発音特徴は、複数の参照発音特徴を融合させて得られたものであり、各参照発音特徴は、エンコーダを使用して各参照オーディオに対して特徴抽出を行うことで得られたものであり、各参照オーディオは、指定されたコンテンツを指定された言語で読み上げるオーディオであり、デモンストレーションオーディオは、参照オーディオのうちのいずれかのオーディオである。
【0070】
このような実施形態では、指定されたコンテンツを指定された言語で読み上げる参照オーディオを複数予め録音することができる。そして、エンコーダを利用して各参照オーディオに対して特徴抽出を行い、各参照オーディオに対応する参照発音特徴を得る。続いて、各参照発音特徴を融合させて標準的な発音特徴を得る。
【0071】
参照オーディオは標準的な発音特徴を生成するためのものであるため、指定された言語を日常交流用言語として使っているユーザにより参照オーディオを録音することができる。これによって、標準的な発音特徴は、当該指定された言語の特徴点を正確に体現することができる。
【0072】
ステップ303では、デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得し、デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオである。
【0073】
具体的には、ユーザ端末は、デモンストレーションオーディオを受信した後、そのうちのいずれかのデモンストレーションオーディオを再生することができる。
【0074】
ステップ303は、ステップ201とは実現形態及び原理が類似するため、繰り返して説明しない。
【0075】
選択的には、ユーザ端末のユーザ画面においては、リッスン・アンド・リピートすべきコンテンツをユーザにプロンプトするために、デモンストレーションオーディオに対応する指定されたコンテンツをさらに表示してもよい。
【0076】
ユーザ端末は、デモンストレーションオーディオの再生完了後に、「リッスン・アンド・リピートしてください」など、リッスン・アンド・リピートするようにユーザにプロンプトするための音声コンテンツを再生することもできる。選択的には、ユーザ端末は、プロンプトコンテンツの再生完了後に、マイクロフォンをオンにして、ユーザの評価オーディオを取得してもよい。
【0077】
選択的には、ユーザ端末にカメラを搭載することで、ユーザ画像を取得して、ユーザ端末に表示してもよい。1つの選択的な実施形態では、ユーザ端末は、ユーザ画像を認識して、ユーザがリッスン・アンド・リピートを完了させたか否かを決定してもよい。
【0078】
ステップ304では、デモンストレーションオーディオに対応する標準的な発音特徴を取得し、標準的な発音特徴が指定されたコンテンツの指定された言語における特定の発音を反映するために用いられる。
【0079】
ステップ304は、ステップ202とは標準的な発音特徴を取得することの実現形態及び原理が類似するため、繰り返して説明しない。
【0080】
ステップ305では、音声認識モデルのエンコーダに基づき、評価オーディオの中に標準的な発音特徴に対応する評価発音特徴を抽出する。
【0081】
さらに、ユーザ端末は、サーバから送信された音声認識モデルのエンコーダを利用して、評価オーディオの中に標準的な発音特徴に対応する評価発音特徴を抽出することができる。
【0082】
実際に応用するとき、ユーザ端末は、評価オーディオをエンコーダに入力して、標準的な発音特徴に対応する評価発音特徴を得ることができる。
【0083】
ここで、エンコーダは、異なる言語カテゴリの発音特徴を区別することができるため、エンコーダは、評価オーディオの中に言語カテゴリに対応する評価発音特徴を抽出することができる。また、デモンストレーションオーディオに対応する標準的な発音特徴もエンコーダを利用して取得されたものであるため、同じエンコーダを利用して評価オーディオを処理することで、標準的な発音特徴に対応する評価発音特徴を得ることができる。
【0084】
具体的には、エンコーダを用いて評価オーディオの中に標準的な発音特徴に対応する評価発音特徴を抽出することにより、評価オーディオの中に、標準的な発音特徴に対応する評価発音特徴を対象として絞って抽出することができ、評価オーディオのすべての特徴を抽出する必要がないため、処理すべきデータ量を低減し、評価オーディオの分析時に必要なハードウェア要件を減らすことができる。
【0085】
ステップ306では、標準的な発音特徴と評価発音特徴に従って、時間伸縮関数を決定する。
【0086】
さらに、オーディオは時間的順序が付けられたデータであるため、デモンストレーションオーディオに対応する標準的な発音特徴も時間属性を有しているものであり、評価データから抽出された評価発音特徴もまた時間属性を有しているものである。したがって、標準的な発音特徴と評価発音特徴に従って、標準的な発音特徴と評価発音特徴との時間的対応関係を表すことができる時間伸縮関数を決定することができる。
【0087】
1つの実施形態では、評価発音特徴が標準的な発音特徴と時間軸上でアライメントするように、1つの時間伸縮関数を決定して、評価発音特徴の時間軸を標準的な発音特徴の時間軸上に非線形にマッピングすることができる。アライメントされた標準的な発音特徴はアライメントポイントに対応する第1の特徴を有し、アライメントされた評価発音特徴はアライメントポイントに対応する第2の特徴を有し、各アライメントポイントに対応する第1の特徴と第2の特徴との間は、ある程度の特徴差異が存在しており、当該時間伸縮関数は、各アライメントポイントに対応する特徴差異の和が最も小さいことを満たすことができる。
【0088】
実際に応用するとき、ユーザ端末は、標準的な発音特徴と評価発音特徴に従って上記の条件を満たす時間伸縮関数を決定することができる。
【0089】
ステップ307では、時間伸縮関数、標準的な発音特徴、及び評価発音特徴に従って、複数のアライメントポイントの組み合わせを決定し、各アライメントポイントの組み合わせには、標準的な発音特徴における1つの標準的な特徴点及び評価発音特徴における1つの評価特徴点が含まれる。
【0090】
ユーザ端末は、時間伸縮関数を決定した後、現在の時間伸縮関数及び標準的な発音特徴、評価発音特徴に基づき、複数のアライメントポイントの組み合わせを決定することができる。各アライメントポイントの組み合わせには、標準的な発音特徴における1つの標準的な特徴点及び評価発音特徴における1つの評価特徴点が含まれ、当該アライメントポイントの組み合わせにおける標準的な特徴点と評価特徴点は、同じ時点に対応する。
【0091】
ステップ308では、各アライメントポイントの組み合わせに含まれる標準的な特徴点と評価特徴点に従って、各アライメントポイントの組み合わせに対応する特徴差異を決定する。
【0092】
具体的には、各アライメントポイントの組み合わせについては、アライメントポイントの組み合わせにおける標準的な特徴点と評価特徴点との特徴差異を決定することができる。例えば、標準的な特徴点と評価特徴点との間の距離をアライメントポイントの組み合わせの特徴差異として計算することができる。
【0093】
ステップ309では、各アライメントポイントの組み合わせの特徴差異に従って、評価オーディオとデモンストレーションオーディオとの類似度を決定する。
【0094】
さらに、各アライメントポイントの組み合わせの特徴差異の和を、評価オーディオとデモンストレーションオーディオとの類似度とすることができる。まず特徴点をアライメントして、そして特徴を比較することにより、評価オーディオとデモンストレーションオーディオとの特徴差異を正確に決定して、この両者の類似度を正確に決定することができる。
【0095】
図4は、本願の1つの例示的な実施例に示される類似度の決定プロセスの概略図である。
【0096】
図4に示すように、ユーザ端末は、評価オーディオ41を取得することができ、デモンストレーションオーディオに対応する標準的な発音特徴42を取得することもできる。
【0097】
ユーザ端末は、評価オーディオ41をエンコーダ43に入力し、エンコーダ43は当該評価オーディオ41の中に標準的な発音特徴42に対応する評価発音特徴44を出力することができる。1つの実施形態では、評価オーディオ41をエンコーダ43に直接に入力することができ、他の実施形態では、まず評価オーディオ41に対してフィルタ処理を行い、そしてフィルタされたオーディオをエンコーダ43に入力することもできる。例えば、メルフィルタバンクを利用して評価オーディオ41を処理することができる。
【0098】
ユーザ端末はさらに、標準的な発音特徴42と評価発音特徴44とを比較して、評価オーディオ41とデモンストレーションオーディオとの類似度45を得ることもできる。
【0099】
ステップ310では、マッピング関数、及びデモンストレーションオーディオに対応する設定情報を取得し、設定情報が評価オーディオの類似度と点数とのマッピング関係を指示するために用いられる。
【0100】
ステップ311では、マッピング関数、及びデモンストレーションオーディオに対応する設定情報に基づき、評価オーディオとデモンストレーションオーディオとの類似度を点数としてマッピングする。
【0101】
実際に応用するとき、ユーザ端末はさらに、マッピング関数及びデモンストレーションオーディオに対応する設定情報を取得することもできる。
【0102】
1つの選択的な実施形態では、マッピング関数及びデモンストレーションオーディオに対応する設定情報は、ユーザ端末によって取得され得るように、サーバが送信したものとすることができる。例えば、サーバは、ユーザ端末にデモンストレーションオーディオを送信する際に、デモンストレーションオーディオに対応する設定情報に加えて、マッピング関数を同時に送信することができる。
【0103】
ユーザ端末は、受信したマッピング関数及びデモンストレーションオーディオに対応する設定情報を記憶して、類似度を点数としてマッピングする際に、これらの情報を取得することができる。
【0104】
サーバは、ユーザ端末にデモンストレーションオーディオを複数送信した場合、サーバはさらに、ユーザ端末に各デモンストレーションオーディオに対応する設定情報を送信することもできる。
【0105】
具体的には、設定情報は、評価オーディオの類似度と点数とのマッピング関係を指示するために用いられる。例えば、設定情報には、いくつかの点数に加えて、各点数に対応するマッピング関係が含まれ得る。マッピング関数は、これらの設定情報に基づいて、決定された類似度を点数としてマッピングすることができる。
【0106】
さらに、設定情報にはさらに、最大点数、最大点数に対応する類似度、最小点数、最小点数に対応する類似度が含まれ得る。例えば、最大点数は100で、最小点数は0であるようにすることができる。
【0107】
実際に応用するとき、マッピング関数は線形関数とすることができ、当該線形関数、最大点数、最大点数に対応する類似度、最小点数、及び最小点数に対応する類似度に基づき、決定された類似度を点数としてマッピングすることができる。線形関数に基づいて類似度を点数としてマッピングすることにより、データ処理量をさらに低減し、本願により提供される方法を実行するためのユーザ端末のハードウェア要件をさらに減らすことができる。
【0108】
本願により提供される方法には、異なるデモンストレーションオーディオに対応する設定情報が設定されており、設定情報には、最大点数及び最小点数が含まれる。各設定情報における最大点数を同じ値、例えばいずれも100に設定することができ、また、各設定情報における最小点数を同じ値、例えばいずれも0に設定することができ、このように、本願により提供される解決手段を用いて類似度を同じスケールの点数範囲内にマッピングすることができる。
【0109】
具体的には、ユーザ端末はさらに、決定された点数を表示することで、ユーザにリッスン・アンド・リピート効果を認識させることもできる。
【0110】
さらに、最大点数に対応する類似度は、複数の参照類似度の平均値であり、各参照類似度は、各参照発音特徴と標準的な発音特徴との類似度である。
【0111】
実際に応用するとき、各参照オーディオについては、対応する参照発音特徴を抽出することができ、エンコーダを利用して参照オーディオの参照発音特徴を抽出することができる。各参照発音特徴と標準的な発音特徴との参照類似度を決定することができ、例えば、動的時間伸縮法に基づいて各参照発音特徴と標準的な発音特徴との参照類似度を決定することができる。そして、これらの参照類似度の平均値を最大点数に対応する類似度として決定する。
【0112】
最小点数に対応する類似度は、複数のホワイトノイズ類似度の平均値であり、各ホワイトノイズ類似度は、各ホワイトノイズ特徴と標準的な発音特徴との類似度であり、各ホワイトノイズ特徴は、エンコーダを利用して各プリセットホワイトノイズオーディオに対して特徴抽出を行うことで得られたものである。
【0113】
具体的には、さらに、いくつかのホワイトノイズオーディオを予め用意して、いくつかのホワイトノイズオーディオに基づいて最小点数に対応する類似度を決定することもできる。エンコーダを利用して各ホワイトノイズオーディオのホワイトノイズ特徴を抽出し、そして、各ホワイトノイズ特徴と標準的な発音特徴とのホワイトノイズ類似度を決定して、複数のホワイトノイズ類似度の平均値を最小値に対応する類似度とすることができる。
【0114】
図5は、本願の1つの例示的な実施例に示されるデータリクエスト命令の処理方法のフローチャートである。
【0115】
図5に示すように、本願により提供されるデータリクエスト命令の処理方法は、ステップ501及びステップ502を含む。
ステップ501では、データリクエスト命令を受信する。
ステップ502では、データリクエスト命令に従って、音声認識モデルに基づくエンコーダ、デモンストレーションオーディオ、及びデモンストレーションオーディオに対応する標準的な発音特徴をユーザ端末に送信する。
【0116】
デモンストレーションオーディオは、指定されたコンテンツを指定された言語で読み上げるオーディオであり、エンコーダは、評価オーディオの中に標準的な発音特徴に対応する評価発音特徴を抽出するために用いられ、標準的な発音特徴が指定されたコンテンツの指定された言語における特定の発音を反映するために用いられる。
【0117】
本願により提供される方法は、ユーザ端末にデータを提供できるサーバ側に適用され得る。
【0118】
具体的には、ユーザ端末は、ユーザ操作に基づいて、サーバにデータリクエスト命令を送信することができる。サーバには、図2又は図3に示される実施例におけるエンコーダ、デモンストレーションオーディオ、及びデモンストレーションオーディオに対応する標準的な発音特徴が設定されており、サーバは、ユーザ端末から送信されたデータリクエスト命令を受信した後、エンコーダ、デモンストレーションオーディオ、及びデモンストレーションオーディオに対応する標準的な発音特徴をユーザ端末にフィードバックする。
【0119】
図6は、本願の1つの例示的な実施例に示される音声インタラクションに基づく音声類似度決定装置の構造図である。
【0120】
図6に示すように、本願により提供される音声インタラクションに基づく音声類似度決定装置600は、
デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得するための取得ユニット610であって、前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオである取得ユニット610と、
前記デモンストレーションオーディオに対応する標準的な発音特徴を取得して、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するための特徴抽出ユニット620であって、前記標準的な発音特徴が、前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる特徴抽出ユニット620と、
前記標準的な発音特徴と前記評価発音特徴との特徴差異を決定して、前記特徴差異に従って前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するための分析ユニット630と、を含む。
【0121】
本願により提供される音声インタラクションに基づく音声類似度決定装置は、図2に示される実施例に係るものと類似するため、繰り返して説明しない。
【0122】
図7は、本願の他の例示的な実施例に示される音声インタラクションに基づく音声類似度決定装置の構造図である。
【0123】
図7に示すように、本願により提供される音声インタラクションに基づく音声類似度決定装置700には、前記特徴抽出ユニット620は、具体的に、
音声認識モデルのエンコーダに基づき、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するために用いられる。
【0124】
選択的には、前記デモンストレーションオーディオに対応する標準的な発音特徴は、複数の参照発音特徴を融合させて得られたものであり、各参照発音特徴は、前記エンコーダを利用して各参照オーディオに対して特徴抽出を行うことで得られたものであり、各前記参照オーディオは、前記指定されたコンテンツを前記指定された言語で読み上げるオーディオであり、前記デモンストレーションオーディオは、前記参照オーディオのうちのいずれかのオーディオである。
【0125】
選択的には、分析ユニット630は、
前記標準的な発音特徴と前記評価発音特徴に従って、時間伸縮関数を決定するための関数決定モジュール631と、
前記時間伸縮関数、前記標準的な発音特徴、及び前記評価発音特徴に従って、複数のアライメントポイントの組み合わせを決定するためのアライメントモジュール632であって、各前記アライメントポイントの組み合わせには、前記標準的な発音特徴における1つの標準的な特徴点及び前記評価発音特徴における1つの評価特徴点が含まれるアライメントモジュール632と、
各前記アライメントポイントの組み合わせに含まれる標準的な特徴点と前記評価特徴点に従って、各前記アライメントポイントの組み合わせに対応する特徴差異を決定するための差異決定モジュール633と、
各前記アライメントポイントの組み合わせの特徴差異に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するための類似度決定モジュール634と、を含む。
【0126】
選択的には、前記装置はさらに、マッピングユニット640を含み、マッピングユニット640は、
マッピング関数及び前記デモンストレーションオーディオに対応する設定情報を取得し、前記設定情報が評価オーディオの類似度と点数とのマッピング関係を指示するために用いられることと、
前記マッピング関数及び前記デモンストレーションオーディオに対応する設定情報に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を点数としてマッピングすることと、に用いられる。
【0127】
選択的には、前記設定情報は、最大点数、最大点数に対応する類似度、最小点数、及び最小点数に対応する類似度を含む。
【0128】
選択的には、前記最大点数に対応する類似度は、複数の参照類似度の平均値であり、各前記参照類似度は、各前記参照発音特徴と前記標準的な発音特徴との類似度である。
【0129】
選択的には、前記最小点数に対応する類似度は、複数のホワイトノイズ類似度の平均値であり、各前記ホワイトノイズ類似度は、各ホワイトノイズ特徴と前記標準的な発音特徴との類似度であり、各前記ホワイトノイズ特徴は、前記エンコーダを利用して各プリセットホワイトノイズオーディオに対して特徴抽出を行うことで得られたものである。
【0130】
選択的には、前記装置は、取得ユニット610がデモンストレーションオーディオを再生する前に、
開始命令に応答して、サーバにデータリクエスト命令を送信することと、
前記エンコーダ、前記デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴を受信することと、に用いられる送受信ユニット650、をさらに含む。
【0131】
選択的には、前記音声認識モデルは、音声認識データを用いて初期モデルを訓練して得られたものであり、
発音特徴を抽出するための前記エンコーダは、複数の言語カテゴリのオーディオデータを利用して前記音声認識モデルにおけるエンコーダを訓練して得られたものである。
【0132】
選択的には、前記エンコーダは、3層の長短期記憶ネットワークである。
【0133】
本願により提供される音声インタラクションに基づく音声類似度決定装置は、図3に示される実施例に係るものと類似するため、繰り返して説明しない。
【0134】
図8は、本願の1つの例示的な実施例に示されるデータリクエスト命令の処理装置の構造図である。
【0135】
図示のように、本願により提供されるデータリクエスト命令の処理装置800はサーバに配置されており、前記装置は、
データリクエスト命令を受信するための受信ユニット810と、
前記データリクエスト命令に従って、音声認識モデルに基づくエンコーダ、デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴をユーザ端末に送信するための送信ユニット820と、を含み、
前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであり、前記エンコーダが評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するために用いられ、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる。
【0136】
本願により提供されるデータリクエスト命令の処理装置は、図5に示される実施例に係るものと類似するため、繰り返して説明しない。
【0137】
本願はさらに、コンピュータプログラムを含む、コンピュータプログラム製品を提供し、前記コンピュータプログラムがプロセッサにより実行されると、上記のいずれかの方法の実施例に係る技術的解決手段が実現される。
【0138】
本願はさらに、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサにより実行されると、上記のいずれかの方法の実施例に係る技術的解決手段が実現される。
【0139】
本実施例により提供される機器は、上記の方法の実施例に係る技術的解決手段を実行するために使用されることができ、その実現原理及び技術的効果が類似するため、本実施例はここで繰り返して説明しない。
【0140】
図9は、本開示の実施例を実現するために適した電子機器900の構造概略図を示しており、当該電子機器900は、端末機器又はサーバにすることができる。端末機器は、携帯電話、ノートブックコンピュータ、デジタル放送受信機、パーソナルデジタルアシスタント(Personal Digital Assistant、PDAと略称)、タブレットコンピュータ(Portable Android Device、PADと略称)、携帯型マルチメディアプレーヤー(Portable Media Player、PMPと略称)、車載端末(例えば、車載ナビゲーション端末)などの移動端末、及びデジタルTV、デスクトップコンピュータなどの固定端末を含むことができるが、それらに限定されない。図9に示される電子機器は単なる一例であり、本開示の実施例の機能及び使用範囲にいかなる制限も課すべきでない。
【0141】
図9に示すように、電子機器900は、処理装置(中央処理装置やグラフィックプロセッサなど)901を含むことができ、当該処理装置は、読み取り専用メモリ(Read Only Memory、ROMと略称)902に記憶されたプログラムまたは記憶装置908からランダムアクセスメモリ(Random Access Memory、RAMと略称)903にロードされたプログラムに従って、様々な適切な動作及び処理を実行することができる。RAM903には、電子機器900の操作に必要な様々なプログラム及びデータも記憶されている。処理装置901、ROM902及びRAM903は、バス904を介して互いに接続されている。入力/出力(Input/Output、I/Oと略称)インタフェース905もバス904に接続されている。
【0142】
通常、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロスコープなどを含む入力装置906と、液晶ディスプレイ(Liquid Crystal Display、LCDと略称)、スピーカー、バイブレータなどを含む出力装置907と、磁気テープやハードディスクなどを含む記憶装置908と、通信装置909とは、I/Oインタフェース905に接続されることができる。通信装置909は、電子機器900が他のデバイスと無線又は有線で通信してデータを交換することを可能にし得る。図9は、様々なデバイスを備える電子機器900を示すが、図示されたデバイスのすべてが実施又は配置される必要があるわけではないことを理解すべきである。代替的に、より多くの又は少ないデバイスが実施又は配置され得る。
【0143】
特に、本開示の実施例によれば、フローチャートを参照して説明されている上記のプロセスは、コンピュータソフトウェアプログラムとして実施されることができる。例えば、本開示の実施例は、コンピュータ可読媒体に搭載されているコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムがフローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信装置909を介してネットワークからダウンロード及びインストールされるか、または記憶装置908からインストールされるか、またはROM902からインストールされることができる。当該コンピュータプログラムは、処理装置901により実行されると、本開示の実施例に係る方法で限定されている上記の機能は実行される。
【0144】
なお、本開示に記載されたコンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記2つの任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁的、赤外線、又は半導体のシステム、装置又はデバイス、あるいは上記の任意の組み合わせにすることができるが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例として、1本又は複数のワイヤを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(Electrical Programmable Read Only Memory、EPROM又はフラッシュメモリと略称)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(Compact Disk Read Only Memory、CD-ROMと略称)、光ストレージデバイス、磁気メモリコンポーネント、または上記の任意の適切な組み合わせを含み得るが、それらに限定されない。本開示では、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスによって使用されるか、またはそれらに組み合わせて使用できるプログラムを含む又は記憶する任意の有形媒体であり得る。本開示では、コンピュータ可読信号媒体は、ベースバンドで、または搬送波の一部として伝播されるデータ信号を含むことができ、その中にコンピュータ可読プログラムコードが搭載されている。このような伝播されたデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがそれらに限定されない多くの形をとることができる。コンピュータ可読信号媒体は、さらに、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体にすることができ、当該コンピュータ可読信号媒体は、命令実行システム、装置、またはデバイスによって使用されるか、またはそれらに組み合わせて使用するためのプログラムを送信、伝播、または伝送することができる。コンピュータ可読媒体に含まれたプログラムコードは、電線、光ファイバケーブル、無線周波数(Radio Frequency、RFと略称)などを含むがそれらに限定されない任意の適切な媒体、または上記の任意の適切な組み合わせを使用して伝送されることができる。
【0145】
上記のコンピュータ可読媒体は、上記の電子機器に含まれていてもよく、または当該電子機器に組み立てられずに単独で存在していてもよい。
【0146】
上記のコンピュータ可読媒体には、1つ又は複数のプログラムが搭載されており、上記の1つ又は複数のプログラムは当該電子機器により実行されると、当該電子機器は、上記の実施例に示される方法を実行する。
【0147】
本開示の操作を実行するためのコンピュータプログラムコードは、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語又はそれに類似するプログラミング言語などの従来の手続き型プログラミング言語と、を含む1つ又は複数のプログラミング言語、あるいはそれらの組み合わせで書くことができる。プログラムコードは、完全にユーザのコンピュータ上で、一部はユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、一部はユーザのコンピュータ上で、一部はリモートコンピュータ上で、または完全にリモートコンピュータ又はサーバ上で実行できる。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(Local Area Network、LANと略称)やワイドエリアネットワーク(Wide Area Network、WANと略称)など、あらゆる種類のネットワークを介してユーザのコンピュータに接続されることができ、もしくは、外部コンピュータに接続されることもできる(例えば、インターネットサービスプロバイダーを使用してインターネット経由で接続する)。
【0148】
図面のフローチャート及びブロック図は、本開示の様々な実施例によるシステム、方法、及びコンピュータプログラム製品によって実現可能なアーキテクチャ、機能、及び操作を示している。これに関して、フローチャート又はブロック図の各ブロックは、指定される論理の機能を実現するための1つ又は複数の実行可能な命令を含むモジュール、グログラムセグメント、又はコードの一部を表すことができる。いくつかの代替の実現では、ブロックに示されている機能は、図に示されている順序と異なる順序で実行できることにも注意すべきである。例えば、連結して表示される2つのブロックは、実際には、基本的に並行して実行できるが、または、関連する機能に応じて、ブロックが逆の順序で実行される場合もある。なお、ブロック図及び/又はフローチャートの各ブロック、及びブロック図及び/又はフローチャートのブロックの組み合わせは、指定される機能又は操作を実行する専用のハードウェアベースのシステムを使用して実現することができ、または、専用のハードウェアとコンピュータ命令の組み合わせを使用して実現することもできる。
【0149】
本開示の実施例に記載されたユニットは、ソフトウェアで実現することができ、またはハードウェアで実現することもできる。ユニットの名称は、特定の状況下でのユニット自体を制限する目的ではない場合があり、例えば、取得ユニットは、「ユーザの評価オーディオを取得するユニット」と記載してもよい。
【0150】
本明細書で上記に説明された機能は、少なくとも部分的に、1つ又は複数のハードウェアロジックコンポーネントによって実行され得る。例えば、使用できるハードウェアロジックコンポーネントの例示的なタイプとして、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGAと略称)、特定用途向け集積回路(Application Specific Integrated Circuit、ASICと略称)、特定用途向け標準部品(Application Specific Standard Product、ASSPと略称)、システムオンチップ(System on chip、SOCと略称)、複雑なプログラマブルロジックデバイス(Complex Programming Logic Device、CPLDと略称)などを含むことができるが、それらに限定されない。
【0151】
本開示のコンテキストでは、機械可読媒体は、命令実行システム、装置、またはデバイスによって使用されるか、またはそれらに組み合わせて使用できるプログラムを含む又は記憶する有形媒体であり得る。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であり得る。機械可読媒体は、電気的、磁気的、光学的、電磁的、赤外線、又は半導体のシステム、装置又はデバイス、あるいは上記の任意の組み合わせにすることができるが、それらに限定されない。機械可読記憶媒体のより具体的な例として、1本又は複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光ストレージデバイス、磁気メモリコンポーネント、または上記の任意の適切な組み合わせを含み得る。
【0152】
第1の態様では、本開示の1つ又は複数の実施例によれば、音声インタラクションに基づく音声類似度決定方法を提供し、前記方法は、
デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得するステップであって、前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであるステップと、
前記デモンストレーションオーディオに対応する標準的な発音特徴を取得して、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するステップであって、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられるステップと、
前記標準的な発音特徴と前記評価発音特徴との特徴差異を決定して、前記特徴差異に従って前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するステップと、を含む。
【0153】
本開示の1つ又は複数の実施例によれば、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するステップは、
音声認識モデルのエンコーダに基づき、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するステップを含む。
【0154】
本開示の1つ又は複数の実施例によれば、前記デモンストレーションオーディオに対応する標準的な発音特徴は、複数の参照発音特徴を融合させて得られたものであり、各参照発音特徴は、前記エンコーダを利用して各参照オーディオに対して特徴抽出を行うことで得られたものであり、各前記参照オーディオは、前記指定されたコンテンツを前記指定された言語で読み上げるオーディオであり、前記デモンストレーションオーディオは、前記参照オーディオのうちのいずれかのオーディオである。
【0155】
本開示の1つ又は複数の実施例によれば、前記標準的な発音特徴と前記評価発音特徴との特徴差異を決定して、前記特徴差異に従って前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するステップは、
前記標準的な発音特徴と前記評価発音特徴に従って、時間伸縮関数を決定するステップと、
前記時間伸縮関数、前記標準的な発音特徴、及び前記評価発音特徴に従って、複数のアライメントポイントの組み合わせを決定するステップであって、各前記アライメントポイントの組み合わせには、前記標準的な発音特徴における1つの標準的な特徴点及び前記評価発音特徴における1つの評価特徴点が含まれるステップと、
各前記アライメントポイントの組み合わせに含まれる標準的な特徴点と前記評価特徴点に従って、各前記アライメントポイントの組み合わせに対応する特徴差異を決定するステップと、
各前記アライメントポイントの組み合わせの特徴差異に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するステップと、を含む。
【0156】
本開示の1つ又は複数の実施例によれば、前記方法は、
マッピング関数及び前記デモンストレーションオーディオに対応する設定情報を取得するステップであって、前記設定情報が評価オーディオの類似度と点数とのマッピング関係を指示するために用いられるステップと、
前記マッピング関数及び前記デモンストレーションオーディオに対応する設定情報に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を点数としてマッピングするステップと、をさらに含む。
【0157】
本開示の1つ又は複数の実施例によれば、前記設定情報は、最大点数、最大点数に対応する類似度、最小点数、及び最小点数に対応する類似度を含む。
【0158】
本開示の1つ又は複数の実施例によれば、前記最大点数に対応する類似度は、複数の参照類似度の平均値であり、各前記参照類似度は、各前記参照発音特徴と前記標準的な発音特徴との類似度である。
【0159】
本開示の1つ又は複数の実施例によれば、前記最小点数に対応する類似度は、複数のホワイトノイズ類似度の平均値であり、各前記ホワイトノイズ類似度は、各ホワイトノイズ特徴と前記標準的な発音特徴との類似度であり、各前記ホワイトノイズ特徴は、前記エンコーダを利用して各プリセットホワイトノイズオーディオに対して特徴抽出を行うことで得られたものである。
【0160】
本開示の1つ又は複数の実施例によれば、デモンストレーションオーディオを再生するステップの前に、前記方法は、
開始命令に応答して、サーバにデータリクエスト命令を送信するステップと、
前記エンコーダ、前記デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴を受信するステップと、をさらに含む。
【0161】
本開示の1つ又は複数の実施例によれば、前記音声認識モデルは、音声認識データを用いて初期モデルを訓練して得られたものであり、
発音特徴を抽出するための前記エンコーダは、複数の言語カテゴリのオーディオデータを利用して前記音声認識モデルにおけるエンコーダを訓練して得られたものである。
【0162】
本開示の1つ又は複数の実施例によれば、前記エンコーダは、3層の長短期記憶ネットワークである。
【0163】
第2の態様では、本開示の1つ又は複数の実施例によれば、サーバに適用される、データリクエスト命令の処理方法を提供し、前記方法は、
データリクエスト命令を受信するステップと、
前記データリクエスト命令に従って、音声認識モデルに基づくエンコーダ、デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴をユーザ端末に送信するステップと、を含み、
前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであり、前記エンコーダが評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するために用いられ、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる。
【0164】
第3の態様では、本開示の1つ又は複数の実施例によれば、音声類似度決定装置を提供し、前記装置は、
デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得するための取得ユニットであって、前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオである取得ユニットと、
前記デモンストレーションオーディオに対応する標準的な発音特徴を取得して、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するための特徴抽出ユニットであって、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる特徴抽出ユニットと、
前記標準的な発音特徴と前記評価発音特徴との特徴差異を決定して、前記特徴差異に従って前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するための分析ユニットと、を含む。
【0165】
本開示の1つ又は複数の実施例によれば、前記特徴抽出ユニットは、具体的に、
音声認識モデルのエンコーダに基づき、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するために用いられる。
【0166】
本開示の1つ又は複数の実施例によれば、前記デモンストレーションオーディオに対応する標準的な発音特徴は、複数の参照発音特徴を融合させて得られたものであり、各参照発音特徴は、前記エンコーダを利用して各参照オーディオに対して特徴抽出を行うことで得られたものであり、各前記参照オーディオは、前記指定されたコンテンツを前記指定された言語で読み上げるオーディオであり、前記デモンストレーションオーディオは、前記参照オーディオのうちのいずれかのオーディオである。
【0167】
本開示の1つ又は複数の実施例によれば、分析ユニットは、
前記標準的な発音特徴と前記評価発音特徴に従って、時間伸縮関数を決定するための関数決定モジュールと、
前記時間伸縮関数、前記標準的な発音特徴、及び前記評価発音特徴に従って、複数のアライメントポイントの組み合わせを決定するためのアライメントモジュールであって、各前記アライメントポイントの組み合わせには、前記標準的な発音特徴における1つの標準的な特徴点及び前記評価発音特徴における1つの評価特徴点が含まれるアライメントモジュールと、
各前記アライメントポイントの組み合わせに含まれる標準的な特徴点と前記評価特徴点に従って、各前記アライメントポイントの組み合わせに対応する特徴差異を決定するための差異決定モジュールと、
各前記アライメントポイントの組み合わせの特徴差異に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するための類似度決定モジュールと、を含む。
【0168】
本開示の1つ又は複数の実施例によれば、前記装置は、
マッピング関数及び前記デモンストレーションオーディオに対応する設定情報を取得し、前記設定情報が評価オーディオの類似度と点数とのマッピング関係を指示するために用いられることと、
前記マッピング関数及び前記デモンストレーションオーディオに対応する設定情報に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を点数としてマッピングすることと、に用いられるマッピングユニットをさらに含む。
【0169】
本開示の1つ又は複数の実施例によれば、前記設定情報は、最大点数、最大点数に対応する類似度、最小点数、及び最小点数に対応する類似度を含む。
【0170】
本開示の1つ又は複数の実施例によれば、前記最大点数に対応する類似度は、複数の参照類似度の平均値であり、各前記参照類似度は、各前記参照発音特徴と前記標準的な発音特徴との類似度である。
【0171】
本開示の1つ又は複数の実施例によれば、前記最小点数に対応する類似度は、複数のホワイトノイズ類似度の平均値であり、各前記ホワイトノイズ類似度は、各ホワイトノイズ特徴と前記標準的な発音特徴との類似度であり、各前記ホワイトノイズ特徴は、前記エンコーダを利用して各プリセットホワイトノイズオーディオに対して特徴抽出を行うことで得られたものである。
【0172】
本開示の1つ又は複数の実施例によれば、前記装置は、取得ユニットがデモンストレーションオーディオを再生する前に、
開始命令に応答して、サーバにデータリクエスト命令を送信することと、
前記エンコーダ、前記デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴を受信することと、に用いられる送受信ユニット、をさらに含む。
【0173】
本開示の1つ又は複数の実施例によれば、前記音声認識モデルは、音声認識データを用いて初期モデルを訓練して得られたものであり、
発音特徴を抽出するための前記エンコーダは、複数の言語カテゴリのオーディオデータを利用して前記音声認識モデルにおけるエンコーダを訓練して得られたものである。
【0174】
本開示の1つ又は複数の実施例によれば、前記エンコーダは、3層の長短期記憶ネットワークである。
【0175】
第4の態様では、本開示の1つ又は複数の実施例によれば、サーバに配置されている、データリクエスト命令の処理装置を提供し、前記装置は、
データリクエスト命令を受信するための受信ユニットと、
前記データリクエスト命令に従って、音声認識モデルのエンコーダ、デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴をユーザ端末に送信するための送信ユニットと、を含み、
前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであり、前記エンコーダが評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するために用いられ、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる。
【0176】
第5の態様では、本開示の1つ又は複数の実施例によれば、少なくとも1つのプロセッサとメモリとを含む、電子機器を提供し、
前記メモリがコンピュータ実行命令を記憶し、
前記少なくとも1つのプロセッサが前記メモリに記憶されたコンピュータ実行命令を実行すると、前記少なくとも1つのプロセッサが、第1の態様及び第1の態様の様々な可能な設計に記載されている音声インタラクションに基づく音声類似度決定方法又は第2の態様及び第2の態様の様々な可能な設計に記載されているデータリクエスト命令の処理方法を実行する。
【0177】
第6の態様では、本開示の1つ又は複数の実施例によれば、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にはコンピュータ実行命令が記憶されており、プロセッサが、前記コンピュータ実行命令を実行すると、第1の態様及び第1の態様の様々な可能な設計に記載されている音声インタラクションに基づく音声類似度決定方法又は第2の態様及び第2の態様の様々な可能な設計に記載されているデータリクエスト命令の処理方法を実現する。
【0178】
第7の態様では、本開示の1つ又は複数の実施例によれば、コンピュータプログラムを含む、コンピュータプログラム製品を提供し、前記コンピュータプログラムが、プロセッサにより実行されると、第1の態様及び第1の態様の様々な可能な設計に記載されている音声インタラクションに基づく音声類似度決定方法又は第2の態様及び第2の態様の様々な可能な設計に記載されているデータリクエスト命令の処理方法が実現される。
【0179】
第8の態様では、本開示の1つ又は複数の実施例によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサにより実行されると、第1の態様及び第1の態様の様々な可能な設計に記載されている音声インタラクションに基づく音声類似度決定方法又は第2の態様及び第2の態様の様々な可能な設計に記載されているデータリクエスト命令の処理方法が実現される。
【0180】
上記した説明は、本開示のいくつかの好ましい実施例に関する説明、及び適用される技術的原理に関する説明にすぎない。当業者は、本開示に係る開示範囲は、上記の技術的特徴の特定の組み合わせによって形成される解決手段に限定されず、上記の開示構想から逸脱することなく、上記の技術的特徴又はそれらの同等の特徴の任意の組み合わせによって形成される他の解決手段、例えば、上記特徴を、本開示で開示される(ただしこれに限定されない)同様の機能を有する技術的特徴に置き換えることによって形成される解決手段もカバーすべきであることを理解すべきである。
【0181】
なお、特定の順序で各操作について説明したが、これらの操作は示されている特定の順序又は順番に実行されることを要求するものと理解されるべきではない。マルチタスクや並列処理は、一定の環境下では有利である場合がある。同様に、上記の説明にはいくつかの具体的な実現の詳細が含まれるが、これらは本開示の範囲を限定するものとして解釈されるべきではない。個々の実施例のコンテキストにおいて説明される特定の特徴は、単一の実施例において組み合わせて実現されてもよい。逆に、単一の実施例のコンテキストにおいて説明される様々な特徴は、複数の実施例において、単独で又は任意の適切なサブ組み合わせで実現されてもよい。
【0182】
本主題は、構造的特徴及び/又は方法的論理動作に固有の言語を用いて説明されてきたが、添付の特許請求の範囲に限定される主題は、必ずしも上記の特定の特徴又は動作に限定されないことが理解されるべきである。逆に、上記の特定の特徴及び動作は、特許請求の範囲を実施するための例示的な形態にすぎない。
【0183】
本願は2021年2月7日に中国国家知識産権局に提出された、出願番号が202110179824.Xで、出願の名称が「音声類似度決定方法及び機器、プログラム製品」という中国特許出願の優先権を主張し、そのすべての内容は援用によって本願に組み合わせられる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【手続補正書】
【提出日】2023-08-10
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声インタラクションに基づく音声類似度決定方法であって、
デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得するステップであって、前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであるステップと、
前記デモンストレーションオーディオに対応する標準的な発音特徴を取得して、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するステップであって、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられるステップと、
前記標準的な発音特徴と前記評価発音特徴との特徴差異を決定して、前記特徴差異に従って前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するステップと、を含む、
ことを特徴とする音声インタラクションに基づく音声類似度決定方法。
【請求項2】
前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するステップは、
音声認識モデルのエンコーダに基づき、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記デモンストレーションオーディオに対応する標準的な発音特徴は、複数の参照発音特徴を融合させて得られたものであり、各参照発音特徴は、前記エンコーダを利用して各参照オーディオに対して特徴抽出を行うことで得られたものであり、各前記参照オーディオは、前記指定されたコンテンツを前記指定された言語で読み上げるオーディオであり、前記デモンストレーションオーディオは、前記参照オーディオのうちのいずれかのオーディオである、
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記標準的な発音特徴と前記評価発音特徴との特徴差異を決定して、前記特徴差異に従って前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するステップは、
前記標準的な発音特徴と前記評価発音特徴に従って、時間伸縮関数を決定するステップと、
前記時間伸縮関数、前記標準的な発音特徴、及び前記評価発音特徴に従って、複数のアライメントポイントの組み合わせを決定するステップであって、各前記アライメントポイントの組み合わせには、前記標準的な発音特徴における1つの標準的な特徴点及び前記評価発音特徴における1つの評価特徴点が含まれるステップと、
各前記アライメントポイントの組み合わせに含まれる標準的な特徴点と前記評価特徴点に従って、各前記アライメントポイントの組み合わせに対応する特徴差異を決定するステップと、
各前記アライメントポイントの組み合わせの特徴差異に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するステップと、を含む、
ことを特徴とする請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記方法は、
マッピング関数及び前記デモンストレーションオーディオに対応する設定情報を取得するステップであって、前記設定情報が前記評価オーディオと前記デモンストレーションオーディオとの類似度と点数とのマッピング関係を指示するために用いられるステップと、
前記マッピング関数及び前記デモンストレーションオーディオに対応する設定情報に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を点数としてマッピングするステップと、をさらに含む、
ことを特徴とする請求項3に記載の方法。
【請求項6】
前記設定情報は、最大点数、最大点数に対応する類似度、最小点数、及び最小点数に対応する類似度を含む、
ことを特徴とする請求項5に記載の方法。
【請求項7】
前記最大点数に対応する類似度は、複数の参照類似度の平均値であり、各前記参照類似度は、各前記参照発音特徴と前記標準的な発音特徴との類似度である、
ことを特徴とする請求項6に記載の方法。
【請求項8】
前記最小点数に対応する類似度は、複数のホワイトノイズ類似度の平均値であり、各前記ホワイトノイズ類似度は、各ホワイトノイズ特徴と前記標準的な発音特徴との類似度であり、各前記ホワイトノイズ特徴は、前記エンコーダを利用して各プリセットホワイトノイズオーディオに対して特徴抽出を行うことで得られたものである、
ことを特徴とする請求項6に記載の方法。
【請求項9】
デモンストレーションオーディオを再生するステップの前に、
開始命令に応答して、サーバにデータリクエスト命令を送信するステップと、
前記エンコーダ、前記デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴を受信するステップと、をさらに含む、
ことを特徴とする請求項2、3、5~8のいずれか1項に記載の方法。
【請求項10】
前記音声認識モデルは、音声認識データを用いて初期モデルを訓練して得られたものであり、
発音特徴を抽出するための前記エンコーダは、複数の言語カテゴリのオーディオデータを利用して前記音声認識モデルにおけるエンコーダを訓練して得られたものである、
ことを特徴とする請求項2、3、5~9のいずれか1項に記載の方法。
【請求項11】
前記エンコーダは、3層の長短期記憶ネットワークである、
ことを特徴とする請求項2、3、5~10のいずれか1項に記載の方法。
【請求項12】
サーバに適用される、データリクエスト命令の処理方法であって、
データリクエスト命令を受信するステップと、
前記データリクエスト命令に従って、音声認識モデルに基づくエンコーダ、デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴をユーザ端末に送信するステップと、を含み、
前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであり、前記エンコーダが評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するために用いられ、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる、
ことを特徴とするデータリクエスト命令の処理方法。
【請求項13】
音声類似度決定装置であって、
デモンストレーションオーディオを再生して、ユーザの評価オーディオを取得するための取得ユニットであって、前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオである取得ユニットと、
前記デモンストレーションオーディオに対応する標準的な発音特徴を取得して、前記評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するための特徴抽出ユニットであって、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる特徴抽出ユニットと、
前記標準的な発音特徴と前記評価発音特徴との特徴差異を決定して、前記特徴差異に従って前記評価オーディオと前記デモンストレーションオーディオとの類似度を決定するための分析ユニットと、を含む、
ことを特徴とする音声類似度決定装置。
【請求項14】
サーバに配置されている、データリクエスト命令の処理装置であって、
データリクエスト命令を受信するための受信ユニットと、
前記データリクエスト命令に従って、音声認識モデルに基づくエンコーダ、デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴をユーザ端末に送信するための送信ユニットと、を含み、
前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであり、前記エンコーダが評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するために用いられ、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる、
ことを特徴とするデータリクエスト命令の処理装置。
【請求項15】
電子機器であって、
メモリと、
プロセッサと、
コンピュータプログラムと、を含み、
前記コンピュータプログラムが、前記メモリに記憶されており、前記プロセッサにより実行されて請求項1~11又は12のいずれか1項に記載の方法が実現されるように構成されている、ことを特徴とする電子機器。
【請求項16】
コンピュータプログラムが記憶されている、コンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサにより実行されて請求項1~11又は12のいずれか1項に記載の方法が実現される、ことを特徴とするコンピュータ可読記憶媒体。
【請求項17】
コンピュータに請求項1~11又は12のいずれか1項に記載の方法を実行させる、ことを特徴とするコンピュータプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0015
【補正方法】変更
【補正の内容】
【0015】
以下、本開示の実施例や従来の技術における解決手段をより明瞭に説明するために、実施例又は従来の技術の記述において使用する必要がある図面を簡単に説明する。当然ながら、以下、記載する図面は本開示のいくつかの実施例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を想到しうる。
図1】1つの例示的な実施例に示される応用シーンの図である。
図2】本願の1つの例示的な実施例に示される音声インタラクションに基づく音声類似度決定方法のフローチャートである。
図3】本願の他の例示的な実施例に示される音声インタラクションに基づく音声類似度決定方法のフローチャートである。
図4本願の1つの例示的な実施例に示される類似度の決定プロセスの概略図である
図5】本願の1つの例示的な実施例に示されるデータリクエスト命令の処理方法のフローチャートである。
図6】本願の1つの例示的な実施例に示される音声インタラクションに基づく音声類似度決定装置の構造図である。
図7】本願の他の例示的な実施例に示される音声インタラクションに基づく音声類似度決定装置の構造図である。
図8】本願の1つの例示的な実施例に示されるデータリクエスト命令の処理装置の構造図である。
図9】本開示の実施例により提供される電子機器のハードウェアの構造概略図である。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0099
【補正方法】変更
【補正の内容】
【0099】
ステップ310では、マッピング関数、及びデモンストレーションオーディオに対応する設定情報を取得し、設定情報が評価オーディオとデモンストレーションオーディオとの類似度と点数とのマッピング関係を指示するために用いられる。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0105
【補正方法】変更
【補正の内容】
【0105】
具体的には、設定情報は、評価オーディオとデモンストレーションオーディオとの類似度と点数とのマッピング関係を指示するために用いられる。例えば、設定情報には、いくつかの点数に加えて、各点数に対応するマッピング関係が含まれ得る。マッピング関数は、これらの設定情報に基づいて、決定された類似度を点数としてマッピングすることができる。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0126
【補正方法】変更
【補正の内容】
【0126】
選択的には、前記装置はさらに、マッピングユニット640を含み、マッピングユニット640は、
マッピング関数及び前記デモンストレーションオーディオに対応する設定情報を取得し、前記設定情報が前記評価オーディオと前記デモンストレーションオーディオとの類似度と点数とのマッピング関係を指示するために用いられることと、
前記マッピング関数及び前記デモンストレーションオーディオに対応する設定情報に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を点数としてマッピングすることと、に用いられる。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0140
【補正方法】変更
【補正の内容】
【0140】
図9は、本開示の実施例を実現するために適した電子機器900の構造概略図を示しており、当該電子機器900は、端末機器又はサーバにすることができる。端末機器は、携帯電話、ノートブックコンピュータ、デジタル放送受信機、パーソナルデジタルアシスタント(Personal Digital Assistant、PDAと略称)、タブレットコンピュータ(Portable Android Device、PADと略称)、携帯型マルチメディアプレーヤー(Portable Multimedia Player、PMPと略称)、車載端末(例えば、車載ナビゲーション端末)などの移動端末、及びデジタルTV、デスクトップコンピュータなどの固定端末を含むことができるが、それらに限定されない。図9に示される電子機器は単なる一例であり、本開示の実施例の機能及び使用範囲にいかなる制限も課すべきでない。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0144
【補正方法】変更
【補正の内容】
【0144】
なお、本開示に記載されたコンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記2つの任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁的、赤外線、又は半導体のシステム、装置又はデバイス、あるいは上記の任意の組み合わせにすることができるが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例として、1本又は複数のワイヤを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(Erasable Programmable Read Only Memory、EPROM又はフラッシュメモリと略称)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(Compact Disk Read Only Memory、CD-ROMと略称)、光ストレージデバイス、磁気メモリコンポーネント、または上記の任意の適切な組み合わせを含み得るが、それらに限定されない。本開示では、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスによって使用されるか、またはそれらに組み合わせて使用できるプログラムを含む又は記憶する任意の有形媒体であり得る。本開示では、コンピュータ可読信号媒体は、ベースバンドで、または搬送波の一部として伝播されるデータ信号を含むことができ、その中にコンピュータ可読プログラムコードが搭載されている。このような伝播されたデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがそれらに限定されない多くの形をとることができる。コンピュータ可読信号媒体は、さらに、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体にすることができ、当該コンピュータ可読信号媒体は、命令実行システム、装置、またはデバイスによって使用されるか、またはそれらに組み合わせて使用するためのプログラムを送信、伝播、または伝送することができる。コンピュータ可読媒体に含まれたプログラムコードは、電線、光ファイバケーブル、無線周波数(Radio Frequency、RFと略称)などを含むがそれらに限定されない任意の適切な媒体、または上記の任意の適切な組み合わせを使用して伝送されることができる。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0150
【補正方法】変更
【補正の内容】
【0150】
本明細書で上記に説明された機能は、少なくとも部分的に、1つ又は複数のハードウェアロジックコンポーネントによって実行され得る。例えば、使用できるハードウェアロジックコンポーネントの例示的なタイプとして、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGAと略称)、特定用途向け集積回路(Application Specific Integrated Circuit、ASICと略称)、特定用途向け標準部品(Application Specific Standard Product、ASSPと略称)、システムオンチップ(System on chip、SOCと略称)、複雑なプログラマブルロジックデバイス(Complex Programmable Logic Device、CPLDと略称)などを含むことができるが、それらに限定されない。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0156
【補正方法】変更
【補正の内容】
【0156】
本開示の1つ又は複数の実施例によれば、前記方法は、
マッピング関数及び前記デモンストレーションオーディオに対応する設定情報を取得するステップであって、前記設定情報が前記評価オーディオと前記デモンストレーションオーディオとの類似度と点数とのマッピング関係を指示するために用いられるステップと、
前記マッピング関数及び前記デモンストレーションオーディオに対応する設定情報に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を点数としてマッピングするステップと、をさらに含む。
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0168
【補正方法】変更
【補正の内容】
【0168】
本開示の1つ又は複数の実施例によれば、前記装置は、
マッピング関数及び前記デモンストレーションオーディオに対応する設定情報を取得し、前記設定情報が前記評価オーディオと前記デモンストレーションオーディオとの類似度と点数とのマッピング関係を指示するために用いられることと、
前記マッピング関数及び前記デモンストレーションオーディオに対応する設定情報に従って、前記評価オーディオと前記デモンストレーションオーディオとの類似度を点数としてマッピングすることと、に用いられるマッピングユニットをさらに含む。
【手続補正11】
【補正対象書類名】明細書
【補正対象項目名】0175
【補正方法】変更
【補正の内容】
【0175】
第4の態様では、本開示の1つ又は複数の実施例によれば、サーバに配置されている、データリクエスト命令の処理装置を提供し、前記装置は、
データリクエスト命令を受信するための受信ユニットと、
前記データリクエスト命令に従って、音声認識モデルに基づくエンコーダ、デモンストレーションオーディオ、及び前記デモンストレーションオーディオに対応する標準的な発音特徴をユーザ端末に送信するための送信ユニットと、を含み、
前記デモンストレーションオーディオが、指定されたコンテンツを指定された言語で読み上げるオーディオであり、前記エンコーダが評価オーディオの中に前記標準的な発音特徴に対応する評価発音特徴を抽出するために用いられ、前記標準的な発音特徴が前記指定されたコンテンツの前記指定された言語における特定の発音を反映するために用いられる。
【手続補正書】
【提出日】2023-08-14
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図3
【補正方法】変更
【補正の内容】
図3
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】図7
【補正方法】変更
【補正の内容】
図7
【国際調査報告】