(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022127584
(43)【公開日】2022-08-31
(54)【発明の名称】音声処理方法、装置、電子機器および読み取り可能な記憶媒体
(51)【国際特許分類】
H04R 3/00 20060101AFI20220824BHJP
【FI】
H04R3/00 320
【審査請求】有
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022008378
(22)【出願日】2022-01-24
(31)【優先権主張番号】202110195343.8
(32)【優先日】2021-02-19
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】リ、ジンラン
(72)【発明者】
【氏名】ワン、リウフェン
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA30
5D220BB01
5D220BB04
(57)【要約】 (修正有)
【課題】音声処理方法、装置、電子機器及び読み取り可能な記憶媒体を提供する
【解決手段】方法は、第1のオーディオ信号を収集するステップと、予め設定されたアルゴリズムを使用して前記第1のオーディオ信号を処理し、第2のオーディオ信号を取得するステップと、前記第1の機器が前記第2のオーディオ信号を音声処理するように、前記第2のオーディオ信号を第1の機器に送信するステップと、を含む。
【効果】第1の機器に外部接続された音声処理機器を介してオーディオ信号の収集を行い、第1の機器自体でオーディオ信号の収集を行う必要がなく音声処理を実現することができ、第1の機器が音声処理を行う時のステップを簡略化し、第1の機器の音声処理効率を向上させる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音声処理方法であって、
第1のオーディオ信号を収集するステップと、
予め設定されたアルゴリズムを使用して前記第1のオーディオ信号を処理し、第2のオーディオ信号を取得するステップと、
第1の機器が前記第2のオーディオ信号を音声処理するように、前記第2のオーディオ信号を前記第1の機器に送信するステップと、を含む、
音声処理方法。
【請求項2】
前記第1のオーディオ信号を収集するステップは、
前記第1の機器によって送信された録音命令を受信した後、第1のオーディオ信号の収集を開始するステップを含み、
前記録音命令は、前記第1の機器によって前記第1の機器が予め設定されたアプリケーションを開いたことを検出した時に音声処理機器に送信される、
請求項1に記載の音声処理方法。
【請求項3】
前記第1の機器によって送信された制御命令を受信するステップであって、前記制御命令には集音の角度範囲が含まれるステップと、
前記制御命令に含まれる前記角度範囲に基づいて、集音方向を調整するステップと、をさらに含む、
請求項1または2に記載の音声処理方法。
【請求項4】
前記第1の機器によって送信された第3のオーディオ信号を受信するステップと、
前記第3のオーディオ信号を第2の機器に送信して再生するステップと、をさらに含む、
請求項1から3のいずれか一項に記載の音声処理方法。
【請求項5】
音声処理装置であって、
第1のオーディオ信号を収集するための収集ユニットと、
予め設定されたアルゴリズムを使用して前記第1のオーディオ信号を処理し、第2のオーディオ信号を取得するための処理ユニットと、
第1の機器が前記第2のオーディオ信号を音声処理するように、前記第2のオーディオ信号を前記第1の機器に送信するための送信ユニットと、を含む、
音声処理装置。
【請求項6】
前記収集ユニットが第1のオーディオ信号を収集する時、具体的に、
前記第1の機器によって送信された録音命令を受信した後、第1のオーディオ信号の収集を開始することを実行し、
前記録音命令は、前記第1の機器によって前記第1の機器が予め設定されたアプリケーションを開いたことを検出した時に音声処理機器に送信される、
請求項5に記載の音声処理装置。
【請求項7】
調整ユニットをさらに含み、
前記調整ユニットは、
前記第1の機器によって送信された制御命令を受信し、前記制御命令には集音の角度範囲が含まれ、
前記制御命令に含まれる前記角度範囲に基づいて、集音方向を調整することを実行するために用いられる、
請求項5または6に記載の音声処理装置。
【請求項8】
再生ユニットをさらに含み、
前記再生ユニットは、
前記第1の機器によって送信された第3のオーディオ信号を受信し、
前記第3のオーディオ信号を第2の機器に送信して再生することを実行するために用いられる、
請求項5から7のいずれか一項に記載の音声処理装置。
【請求項9】
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1から4のいずれか一項に記載の音声処理方法を実行する、
電子機器。
【請求項10】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1から4のいずれか一項に記載の音声処理方法を実行させる、
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項11】
プロセッサによって実行される時に請求項1から4のいずれか一項に記載の音声処理方法を実現する、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、データ処理技術の分野に関し、特に、音声処理技術の分野に関する。音声処理方法、装置、電子機器および読み取り可能な記憶媒体を提供する。
【背景技術】
【0002】
スマートフォン、タブレットコンピュータなどの現在の端末機器は、すべて、内蔵のマイクロフォンを介してオーディオ信号を収集する。端末機器の内蔵のマイクロフォンは、集音距離が限られており、他のノイズの干渉を受けやすくなる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本出願は、端末機器が音声処理を行う時のステップを簡略化し、端末機器の音声処理の効率を向上させるための音声処理方法、装置、電子機器および読み取り可能な記憶媒体を提供する。
【課題を解決するための手段】
【0004】
本出願の第1の態様によれば、音声処理方法を提供し、音声処理方法は、第1のオーディオ信号を収集するステップと、予め設定されたアルゴリズムを使用して第1のオーディオ信号を処理し、第2のオーディオ信号を取得するステップと、第1の機器が第2のオーディオ信号を音声処理するように、第2のオーディオ信号を第1の機器に送信するステップと、を含む。
【0005】
本出願の第2の態様によれば、音声処理装置を提供し、音声処理装置は、第1のオーディオ信号を収集するための収集ユニットと、予め設定されたアルゴリズムを使用して第1のオーディオ信号を処理し、第2のオーディオ信号を取得するための処理ユニットと、第1の機器が第2のオーディオ信号を音声処理するように、第2のオーディオ信号を第1の機器に送信するための送信ユニットと、を含む。
【0006】
本出願の第3の態様によれば、電子機器を提供し、電子機器は、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されたメモリと、を含み、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶されており、命令が少なくとも一つのプロセッサにより実行されると、少なくとも一つのプロセッサが方法を実行する。
【0007】
本出願の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに方法を実行させる。
【0008】
本出願の第5の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラム製品は、コンピュータプログラムを含み、コンピュータプログラムがプロセッサによって実行される時に方法を実現する。
【0009】
上記の技術案から分かるように、第1の機器に外部接続された音声処理機器を介してオーディオ信号の収集を行い、第1の機器自体でオーディオ信号の収集を行う必要がなく音声処理を実現することができ、第1の機器が音声処理を行う時のステップを簡略化し、第1の機器の音声処理効率を向上させる。
【0010】
本明細書で説明された内容は、本出願の実施例のキーまたは重要な特徴を特定することを意図しておらず、本出願の範囲を制限するためにも使用されないことを理解されたい。本出願の他の特徴は、以下の明細書を通じて容易に理解できる。
【図面の簡単な説明】
【0011】
図面は、本出願をより良く理解するためのものであり、本出願を限定しない。
【
図5】本出願の実施例の音声処理方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、図面に基づいて、本出願の例示な実施例を表現する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。類似として、簡明のために、以下の表現では、よく知られた機能と構造の表現は省略される。
【0013】
図1は本出願の第1の実施例による概略図である。
図1に示すように、本実施例の音声処理方法は音声処理機器で実行され、具体的には、以下のようなステップを含むことができる。
S101、第1のオーディオ信号を収集する。
S102、予め設定されたアルゴリズムを使用して第1のオーディオ信号を処理し、第2のオーディオ信号を取得する。
S103、第1の機器が第2のオーディオ信号を音声処理するように、第2のオーディオ信号を第1の機器に送信する。
【0014】
本実施例の音声処理方法の実行主体は、第1の機器に接続された音声処理機器であり、当該音声処理機器は、収集された第1のオーディオ信号に基づいて第2のオーディオ信号を取得した後、当該第2のオーディオ信号をそれに接続された第1の機器に送信して、第1の機器が受信された第2のオーディオ信号を音声処理するようにすることによって、第1の機器自体でオーディオ信号の収集を行う必要がなく音声処理を実現することができ、第1の機器が音声処理を行う時のステップを簡略化し、第1の機器の音声処理効率を向上させる。
【0015】
本実施例の第1の機器は、スマートフォン、パーソナルコンピュータ、スマートスピーカー、スマート家電、車載デバイスなどのスマートデバイスであってもよく、すなわち、本実施例は、スマートデバイスおよびそれに外部接続された音声処理機器を介して音声処理を実現する。
【0016】
本実施例の音声処理機器は、S101を実行して第1のオーディオ信号を収集する前に、第1の機器との間の通信接続を確立することをさらに含み、確立された通信接続は、有線接続であってもよく、例えば、3.5mmの4セグメントのオーディオケーブルを介して音声処理機器を第1の機器に接続し、無線接続であってもよく、例えば、ブルートゥース(登録商標)またはWiFiを介して音声処理機器を第1の機器に接続する。
【0017】
本実施例の音声処理機器は、自体のスイッチを介してオンまたはオフを行うことができ、音声処理機器がオン状態にある前またはオン状態にあった後、第1の機器との間の有線接続または無線接続を確立し、第1のオーディオ信号を収集する。
【0018】
本実施例の音声処理機器は、第1の機器との通信接続を確立した後、第1のオーディオ信号とする機器周辺のオーディオ信号の収集をすぐ開始することができる。音声処理機器は第1の機器に外部接続されているため、音声処理機器は第1の機器から遠く離れた位置に配置されて、第1の機器のファーフィールドオーディオ収集を実現することができる。
【0019】
また、本実施例の音声処理機器は、S101を実行して第1のオーディオ信号を収集する時、使用できる選択可能な実施形態は、第1の機器によって送信された録音命令を受信した後、第1のオーディオ信号の収集を開始し、当該録音命令は、第1の機器が予め設定されたアプリケーションを開いたことを検出した時に音声処理機器に送信される。
【0020】
本実施例の第1の機器によって開かれる予め設定されたアプリケーションは、録音アプリケーション、翻訳アプリケーション、および音声認識アプリケーションなどのうちの一つであってもよく、第1の機器が音声処理機器によって収集されたオーディオ信号に対する録音、翻訳、認識などの異なる音声処理を実現することを理解することができる。
【0021】
したがって、本実施例の音声処理機器は、特定のシナリオでのみオーディオ信号の収集を開始することを実現することができ、第1の機器がオーディオ信号を取得する必要がない時に誤った収集によって引き起こされるリソースの浪費を回避し、音声処理機器がオーディオ信号を収集する時の精度を向上させる。
【0022】
本実施例の音声処理機器は、S101を実行して第1のオーディオ信号を収集した後、S102を実行して予め設定されたアルゴリズムを使用して収集された第1のオーディオ信号を処理し、処理後の第2のオーディオ信号を取得する。
【0023】
本実施例の音声処理機器でS102を実行するために使用される予め設定されたアルゴリズムは、エコー消去アルゴリズム、ビームフォーミングアルゴリズム、音源定位アルゴリズム、固定ビーム利得方法アルゴリズム、固定ビームノイズ抑制アルゴリズム、残響除去アルゴリズムなどのアルゴリズムのうちの少なくとも一つを含むが、これらに限定されない。
【0024】
つまり、本実施例の音声処理機器は、第1のオーディオ信号を収集して取得した後も、一連の信号処理アルゴリズムによって当該第1のオーディオ信号を処理し、高い信号対雑音比、高精細度を有する第2のオーディオ信号を取得し、第1の機器自体が受信されたオーディオ信号を処理する必要があるステップを回避し、第1の機器が音声処理を行う効率を向上させることができる。
【0025】
また、本実施例の音声処理機器は、S102を実行して第2のオーディオ信号を取得した後、さらに、取得された第2のオーディオ信号に対してデジタルからアナログへの変換を行って、第2のオーディオ信号のフォーマットをデジタル信号からアナログ信号に変換した後に第1の機器に送信することができる。
【0026】
本実施例の音声処理機器は、S102を実行して第2のオーディオ信号を取得した後、S103を実行して取得された第2のオーディオ信号を第1の機器に送信して、第1の機器が受信された第2のオーディオ信号に基づいて対応する音声処理を行うようにする。
【0027】
本実施例の第1の機器が第2のオーディオ信号に基づいて行われる音声処理は、録音、翻訳、認識のうちの一つなどの固定タイプの音声処理であってもよい。
【0028】
また、本実施例の第1の機器が第2のオーディオ信号に基づいて行われる音声処理は、第1の機器によって開かれるアプリケーションに対応することもでき、第1の機器が録音アプリケーションを開いた場合、第1の機器は受信された第2のオーディオ信号を記憶し、第1の機器が翻訳アプリケーションを開いた場合、第1の機器は受信された第2のオーディオ信号を翻訳して翻訳結果を取得し、第1の機器が認識アプリケーションを開いた場合、第1の機器は受信された第2のオーディオ信号を認識して認識結果を取得する。
【0029】
本実施例の音声処理機器は、第1の機器によって送信された制御命令を受信し、当該制御命令に音声処理機器を制御して集音を行うための角度範囲が含まれ、当該制御命令は、ユーザが第1の機器を介して送信し、受信された制御命令に基づいて集音方向を調整し、すなわち、制御命令に含まれる角度範囲に基づいてマイクロフォンアレイの集音方向を調整することを含むこともできる。
【0030】
例えば、音声処理機器のマイクロフォンアレイは、全方向360°方向の集音を行うことができ、第1の機器によって送信された制御命令に含まれる角度範囲が0°~180°である場合、音声処理機器は、マイクロフォンアレイを制御して前方に位置し、時計回りの方向0°~180°範囲内の音のみを収集する。
【0031】
つまり、本実施例の音声処理機器は、第1の機器によって送信された制御命令に基づいて集音方向を調整することもでき、音声処理機器の指向性集音を実現し、他の方向におけるノイズ干渉を回避し、収集された第1のオーディオ信号の精度をさらに向上させる。
【0032】
本実施例で提供される上記の方法により、第1の機器に外部接続された音声処理機器でオーディオ信号の収集を行うことを実現することにより、第1の機器が音声処理を行う時のステップを簡略化し、第1の機器が音声処理を行う効率を向上させる。
【0033】
図2は本出願の第2の実施例による概略図である。
図2に示すように、本実施例の音声処理機器によって実行される音声処理方法は、さらに、以下のようなステップを含むことができる。
S201、第1の機器によって送信された第3のオーディオ信号を受信する。
S202、第3のオーディオ信号を第2の機器に送信して再生する。
【0034】
つまり、本実施例の音声処理機器が第1の機器との通信接続を確立した上で、第2の機器との通信接続を確立することもでき、第1の機器によって送信されたオーディオ信号を第2の機器に送信して再生を行う目的を実現することができる。
【0035】
本実施例の第2の機器は、スマートスピーカー、スマート家電などの端末機器であってもよく、音声処理機器はS202を実行して第3のオーディオ信号を第2の機器に送信する前に、第2の機器との間の通信接続を確立するステップをさらに含み、確立された通信接続は、有線接続であってもよく、無線接続であってもよく、本出願は通信接続の方式に対して限定されない。
【0036】
本実施例の音声処理機器はS201を実行して第1の機器によって送信された第3のオーディオ信号を受信した後に、当該第3のオーディオ信号に基づいて収集されたオーディオ信号に対してエコー消去処理を行うこともでき、音声処理機器によって収集されたオーディオ信号の精度を向上させることができる。
【0037】
また、本実施例の音声処理機器はS202を実行して第3のオーディオ信号を第2の機器に送信する前に、第3のオーディオ信号を変換することもでき、すなわち、第3のオーディオ信号のフォーマットをアナログ信号からデジタル信号に変換し、変換後のオーディオ信号を第2の機器に送信することができる。
【0038】
図3は本出願の第3の実施例による概略図である。
図3は本実施例の音声処理機器300のアーキテクチャ図を示す。
図3に示すように、本実施例の音声処理機器300は、電源モジュール301、マイクロフォンアレイモジュール302、信号処理モジュール303、変換モジュール304、およびインターフェースモジュール305を含み、
その中の電源モジュール301は充電器、充電可能なリチウム電池、および電圧変換チップを含み、ユーザは電源モジュールのスイッチによって音声処理機器のオンまたはオフを実現することができ、マイクロフォンアレイモジュール302は複数のデジタル/アナログマイクロフォンを含み、それは全方向360°方向のオーディオ信号の収集を行うことができ、信号処理モジュール303は信号プロセッサとフラッシュメモリを含み、フラッシュメモリは予め設定されたアルゴリズムを記憶し、信号プロセッサは記憶された予め設定されたアルゴリズムに基づいて収集されたオーディオ信号を処理し、変換モジュール304はデジタルからアナログへの変換器とアナログからデジタルへの変換器を含み、デジタルからアナログへの変換器は、オーディオ信号をアナログ信号に変換するために用いられ、アナログからデジタルへの変換器は、オーディオ信号をデジタル信号に変換するために用いられ、インターフェースモジュール305は、充電インターフェース、録音インターフェース、および再生インターフェースを含み、録音インターフェースは第1の機器に接続され、再生インターフェースは第2の機器に接続される。
【0039】
図4は本出願の第4の実施例による概略図である。
図4に示すように、本実施例の音声処理機器にある音声処理装置400は、
第1のオーディオ信号を収集するための収集ユニット401と、
予め設定されたアルゴリズムを使用して第1のオーディオ信号を処理し、第2のオーディオ信号を取得するための処理ユニット402と、
第1の機器が第2のオーディオ信号を音声処理するように、第2のオーディオ信号を第1の機器に送信するための送信ユニット403と、を含む。
【0040】
本実施例の収集ユニット401は、第1のオーディオ信号を収集する前に、第1の機器との間の通信接続を確立することをさらに含み、確立された通信接続は、有線接続であってもよく、無線接続であってもよい。
【0041】
本実施例の収集ユニット401は、第1の機器と通信接続を確立した後、すぐ、機器周辺のオーディオ信号を第1のオーディオ信号として収集することを開始することができる。音声処理機器は第1の機器に外部接続されているため、音声処理機器は第1の機器から遠く離れた位置に配置されて、第1の機器のファーフィールドオーディオ収集を実現することができる。
【0042】
また、本実施例の収集ユニット401は、第1のオーディオ信号を収集する時、使用できる選択可能な実施形態は、第1の機器によって送信された録音命令を受信した後、第1のオーディオ信号の収集を開始し、当該録音命令は、第1の機器が予め設定されたアプリケーションを開いたことを検出した時に音声処理機器に送信される。
【0043】
したがって、本実施例の収集ユニット401は、特定のシナリオでのみオーディオ信号の収集を開始することを実現することができ、第1の機器がオーディオ信号を取得する必要がない時に誤った収集によって引き起こされるリソースの浪費を回避し、音声処理機器がオーディオ信号を収集する時の精度を向上させる。
【0044】
本実施例の音声処理機器は、収集ユニット401で第1のオーディオ信号を収集した後、処理ユニット402で予め設定されたアルゴリズムを使用して収集された第1のオーディオ信号を処理し、処理後の第2のオーディオ信号を取得する。
【0045】
本実施例の処理ユニット402によって使用される予め設定されたアルゴリズムは、エコー消去アルゴリズム、ビームフォーミングアルゴリズム、音源定位アルゴリズム、固定ビーム利得方法アルゴリズム、固定ビームノイズ抑制アルゴリズム、残響除去アルゴリズムなどのアルゴリズムのうちの少なくとも一つを含むが、これらに限定されない。
【0046】
つまり、本実施例の音声処理機器は、第1のオーディオ信号を収集して取得した後、さらに、処理ユニット402で一連の信号処理アルゴリズムによって当該第1のオーディオ信号を処理し、高い信号対雑音比、高精細度を有する第2のオーディオ信号を取得し、第1の機器自体が受信されたオーディオ信号を処理する必要があるステップを回避し、第1の機器が音声処理を行う効率を向上させることができる。
【0047】
また、本実施例の処理ユニット402は、第2のオーディオ信号を取得した後、さらに、取得された第2のオーディオ信号に対してデジタルからアナログへの変換を行って、第2のオーディオ信号のフォーマットをデジタル信号からアナログ信号に変換した後に第1の機器に送信することができる。
【0048】
本実施例の音声処理機器は、処理ユニット402で第2のオーディオ信号を取得した後、送信ユニット403で取得された第2のオーディオ信号を第1の機器に送信して、第1の機器が受信された第2のオーディオ信号に基づいて対応する音声処理を行うようにする。
【0049】
本実施例の音声処理機器にある音声処理装置400は、調整ユニット404を含むこともでき、調整ユニット404は、第1の機器によって送信された制御命令を受信し、当該制御命令には音声処理機器を制御して集音を行う時の角度範囲が含まれ、当該制御命令は、ユーザが第1の機器を介して送信し、受信された制御命令に基づいて集音方向を調整し、すなわち、制御命令に含まれる角度範囲に基づいてマイクロフォンアレイの集音方向を調整することを実行するために用いられる。
【0050】
つまり、本実施例の音声処理機器は、さらに、第1の機器によって送信された制御命令に基づいて調整ユニット404で集音方向を調整し、音声処理機器の指向性集音を実現し、他の方向におけるノイズ干渉を回避し、収集された第1のオーディオ信号の精度をさらに向上させることができる。
【0051】
本実施例の音声処理機器にある音声処理装置400は、再生ユニット405を含むこともでき、再生ユニット405は、第1の機器によって送信された第3のオーディオ信号を受信し、第3のオーディオ信号を第2の機器に送信して再生することを実行するために用いられる。
【0052】
つまり、本実施例の音声処理機器が第1の機器との通信接続を確立した上で、さらに、再生ユニット405と第2の機器が通信接続を確立することによって、第1の機器によって送信されたオーディオ信号を第2の機器に送信して再生を行う目的を実現することができる。
【0053】
本実施例の再生ユニット405は、第1の機器によって送信された第3のオーディオ信号を受信した後、さらに、当該第3のオーディオ信号に基づいて収集されたオーディオ信号に対してエコー消去処理を行うこともでき、音声処理機器によって収集されたオーディオ信号の精度を向上させることができる。
【0054】
また、本実施例の再生ユニット405は、第3のオーディオ信号を第2の機器に送信する前に、第3のオーディオ信号を変換することもでき、すなわち、第3のオーディオ信号のフォーマットをアナログ信号からデジタル信号に変換し、変換後のオーディオ信号を第2の機器に送信することができる。
【0055】
本出願の実施例によれば、本出願は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラム製品をさらに提供する。
【0056】
図5に示すように、本出願の実施例の音声処理方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
【0057】
図5に示すように、機器500はコンピューティングユニット501を含み、コンピューティングユニット501は、読み取り専用メモリ(ROM)502に記憶されているコンピュータプログラムまたは記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM503には、機器500が動作するに必要な様々なプログラムとデータも記憶することができる。コンピューティングユニット501、ROM 502、およびRAM503は、バス504を介してお互いに接続される。入出力(I/O)インターフェース505もバス504に接続される。
【0058】
機器500内の複数のコンポーネントは、I/Oインターフェース505に接続されており、キーボード、マウスなどの入力ユニット506と、様々なタイプのディスプレイ、スピーカなどの出力ユニット507と、ディスク、光ディスクなどの記憶ユニット508と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット509と、を含む。通信ユニット509は、機器500が、インターネットなどのコンピュータネットワーク、および/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
【0059】
コンピューティングユニット501は、様々な処理とコンピューティング能力を備える汎用および/または専用の処理コンポーネントである。コンピューティングユニット501のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)コンピューティングチップ、様々な機械学習モデルアルゴリズムを実行するコンピューティングユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。コンピューティングユニット501は、音声処理方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、音声処理方法は、記憶ユニット508などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。
【0060】
いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM502および/または通信ユニット509を介して機器500にロードおよび/またはインストールされる。コンピュータプログラムがRAM503にロードされてコンピューティングユニット501によって実行される場合、上記の音声処理方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、コンピューティングユニット501は、他の任意の適切な方式(例えば、ファームウェアによって)を介して音声処理方法を実行するように構成されることができる。
【0061】
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
【0062】
本出願の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。
【0063】
本出願の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM またはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。
【0064】
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0065】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
【0066】
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムの中の一つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、または「VPS」と略称する)に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。
【0067】
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
【0068】
上記の具体的な実施方式は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。