(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-22
(45)【発行日】2024-12-02
(54)【発明の名称】音声処理方法、音声処理装置およびヒューマンコンピュータインタラクションシステム
(51)【国際特許分類】
G10L 25/84 20130101AFI20241125BHJP
G10L 25/18 20130101ALI20241125BHJP
G10L 15/16 20060101ALI20241125BHJP
【FI】
G10L25/84
G10L25/18
G10L15/16
(21)【出願番号】P 2021569116
(86)(22)【出願日】2020-05-18
(86)【国際出願番号】 CN2020090853
(87)【国際公開番号】W WO2020238681
(87)【国際公開日】2020-12-03
【審査請求日】2023-03-01
(31)【優先権主張番号】201910467088.0
(32)【優先日】2019-05-31
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】521507084
【氏名又は名称】京▲東▼科技控股股▲フン▼有限公司
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】李 ▲蕭▼▲蕭▼
【審査官】渡部 幸和
(56)【参考文献】
【文献】特表2017-538137(JP,A)
【文献】米国特許出願公開第2018/0068653(US,A1)
【文献】特開2018-109760(JP,A)
【文献】特表2018-513398(JP,A)
【文献】特開2016-161823(JP,A)
【文献】特開2006-039484(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
音声処理方法であって、
音声フレームの特徴情報に従って、機械学習モデルを利用して、処理対象の音声内の音声フレームが候補文字に属する確率を決定するステップと、
前記音声フレームの最大確率パラメータに対応する候補文字が空白文字か非空白文字かを判定するステップであって、前記最大確率パラメータは、前記音声フレームが前記候補文字に属する確率の最大値である、ステップと、
前記音声フレームの前記最大確率パラメータに対応する前記候補文字が非空白文字である場合、前記最大確率パラメータを前記処理対象の音声に存在する有効な確率と決定するステップと、
前記処理対象の音声に存在する有効な確率に従って、前記処理対象の音声が有効な発話かノイズかを判定するステップと、を含
み、
前記処理対象の音声に存在する有効な確率に従って、前記処理対象の音声が有効な発話かノイズかを判定するステップが、
前記有効な確率の加重和に従って、前記処理対象の音声の信頼レベルを算出するステップと、
前記信頼レベルに従って、前記処理対象の音声が有効な発話かノイズかを判定するステップと、を含む
音声処理方法。
【請求項2】
前記有効な確率の加重和に従って、前記処理対象の音声の信頼レベルを算出するステップが、
前記有効な確率の前記加重和および前記有効な確率の数に従って、前記信頼レベルを算出するステップであって、前記信頼レベルが前記有効な確率の前記加重和と正の相関があり、前記有効な確率の数と負の相関がある、ステップ、を含む、
請求項
1に記載の音声処理方法。
【請求項3】
前記処理対象の音声が有効な確率を有しない場合、前記処理対象の音声をノイズと判定するステップをさらに含む、請求項1に記載の音声処理方法。
【請求項4】
前記特徴情報が、スライドウィンドウにより前記音声フレームに対して短時間フーリエ変換を行うことで得られた、異なる周波数におけるエネルギー分布情報である、
請求項1から
3のいずれか一項に記載の音声処理方法。
【請求項5】
前記機械学習モデルが、畳み込みニューラルネットワーク層、リカレントニューラルネットワーク層、全結合層およびソフトマックス層を順次に含む、
請求項1から4のいずれか一項に記載の音声処理方法。
【請求項6】
前記畳み込みニューラルネットワーク層が二層構造を有する畳み込みニューラルネットワークであり、前記リカレントニューラルネットワーク層が単層構造を有する双方向リカレントニューラルネットワークである、
請求項
5に記載の音声処理方法。
【請求項7】
前記機械学習モデルが、
トレーニングデータからの異なる長さを有する複数のラベル付けされた発話セグメントをトレーニングサンプルとして抽出するステップであって、前記トレーニングデータがカスタマーサービスシーンで取得された音声ファイルおよび、それに対応する手動でラベル付けされたテキストである、ステップと、
コネクションニスト時系列分類(CTC)関数を損失関数として利用することで前記機械学習モデルをトレーニングするステップと、によってトレーニングされる、
請求項1から
3のいずれか一項に記載の音声処理方法。
【請求項8】
前記判定の結果が有効な発話である場合、前記有効な確率に対応する前記候補文字に従って、前記処理対象の音声に対応するテキスト情報を決定するステップと、
前記判定の結果がノイズである場合、前記処理対象の音声を破棄するステップと、をさらに含む、
請求項1から
3のいずれか一項記載の音声処理方法。
【請求項9】
自然言語処理方法を利用して、前記テキスト情報に対して意味理解を実行するステップと、
前記意味理解の結果に従って、前記処理対象の音声に対応する出力対象の発話信号を決定するステップと、をさらに含む、請求項
8に記載の音声処理方法。
【請求項10】
前記信頼レベルは前記処理対象の音声内の音声フレームが前記候補文字に属する前記最大確率パラメータの前記加重和と正の相関があり、前記空白文字に対応する最大確率パラメータの重みが0であり、前記非空白文字の最大確率パラメータの重みが1であり、
前記信頼レベルは、前記非空白文字に対応する最大確率パラメータの数と負の相関がある、請求項
2に記載の音声処理方法。
【請求項11】
前記機械学習モデルの第1のエポックがサンプル長さの昇順でトレーニングされる、請求項
7に記載の音声処理方法。
【請求項12】
前記機械学習モデルが順番的バッチ正規化の方法を使用してトレーニングされる、請求項
5に記載の音声処理方法。
【請求項13】
ヒューマンコンピュータインタラクションシステムであって、
ユーザによって送信された処理対象の音声を受信するように構成された受信装置と、
請求項1から
9のいずれか一項に記載の音声処理方法を実行するように構成されたプロセッサと、
前記処理対象の音声に対応する発話信号を出力するように構成された出力装置と、を備える、ヒューマンコンピュータインタラクションシステム。
【請求項14】
音声処理装置であって、
各フレームの特徴情報に従って、処理対象の音声内の前記各フレームが機械学習モデルを利用して候補文字に属する確率を決定するように構成された確率決定部と、
前記各フレームの最大確率パラメータに対応する候補文字が空白文字か非空白文字かを判定するように構成された文字判定部であって、前記最大確率パラメータは、前記各フレームが前記候補文字に属する確率の最大値である、文字判定部と、
前記各フレームの前記最大確率パラメータに対応する前記候補文字が非空白文字である場合、前記最大確率パラメータを前記処理対象の有効な確率と決定するように構成された有効性決定部と、
前記処理対象の音声の有効な確率に従って、前記処理対象の音声が有効な発話かノイズかを判定するように構成されたノイズ判定部と、を備え、
前記ノイズ判定部は、前記有効な確率の加重和に従って、前記処理対象の音声の信頼レベルを算出し、前記信頼レベルに従って、前記処理対象の音声が有効な発話かノイズかを判定する、
音声処理装置。
【請求項15】
音声処理装置であって、
メモリと、
前記メモリと結合されたプロセッサであって、前記プロセッサが、前記メモリの装置に記憶された命令に基づき、請求項1から
12のいずれか一項に記載の音声処理方法を実行するように構成されたプロセッサと、を備える、
音声処理装置。
【請求項16】
プロセッサによって実行されるとき、請求項1から
12のいずれか一項に記載の音声処理方法を実装するコンピュータプログラムをその上に記憶した非一時的コンピュータ可読記憶媒体。
【請求項17】
プロセッサによって実行されるとき、前記プロセッサに請求項1から
12のいずれか一項に記載の音声処理方法を実行させる命令を含む、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2019年5月31日に出願された中国特許出願第201910467088.0号に基づき、その優先権を主張するものであり、その開示内容は全体として本出願に組み込まれる。
【0002】
本開示は、コンピュータ技術の分野に関連し、特に、音声処理方法、音声処理装置、ヒューマンコンピュータインタラクションシステムおよび非一時的コンピュータ可読記憶媒体に関する。
【背景技術】
【0003】
近年、絶え間ない発展とともに、大きな進歩がヒューマンコンピュータ知的インタラクション技術に遂げられている。知的発話インタラクション技術は顧客サービスのシーンでますます適用されている。
【0004】
しかし、ユーザの周囲には様々なノイズ(例えば、ユーザの周囲の人の声、環境の雑音、話者の咳など)が存在することが多い。このようなノイズは、発話認識後に無意味なテキストの一部として誤認識され、それにより意味理解の妨げとなり、その結果、自然言語処理は合理的な対話プロセスを確立することができない。従って、雑音はヒューマンコンピュータの知的インタラクションプロセスを大きく妨げている。
【0005】
関連技術において、一般的に、音声信号のエネルギーに従って、音声ファイルがノイズか、有効な発話かが決定されている。
【発明の概要】
【課題を解決するための手段】
【0006】
本開示のいくつかの実施形態に従って、音声フレームの特徴情報に従って、機械学習モデルを利用し、処理対象の音声内の音声フレームが候補文字に属する確率を決定するステップと、音声フレームの最大確率パラメータに対応する候補文字が空白文字か非空白文字かを判定するステップであって、最大確率パラメータは、音声フレームが候補文字に属する確率の最大値である、ステップと、音声フレームの最大確率パラメータに対応する候補文字が非空白文字である場合、最大確率パラメータを処理対象の音声に存在する有効な確率と決定するステップと、処理対象の音声に存在する有効な確率に従って、処理対象の音声が有効な発話かノイズかを判定するステップと、を含む、音声処理方法が提供される。
【0007】
いくつかの実施形態において、処理対象の音声に存在する全部の有効な確率に従って、処理対象の音声が有効な発話かノイズかを判定するステップが、有効な確率の加重和に従って、処理対象の音声の信頼レベルを算出するステップと、信頼レベルに従って、処理対象の音声が有効な発話かノイズかを判定するステップと、を含む。
【0008】
いくつかの実施形態において、有効な確率の加重和に従って、処理対象の音声の信頼レベルを算出するステップが、有効な確率の加重和および有効な確率の数に基づいて、信頼レベルを算出するステップであって、信頼レベルが有効な確率の加重和と正の相関があり、有効な確率の数と負の相関がある、ステップ、を含む。
【0009】
いくつかの実施形態において、処理対象の音声が有効な確率を有しない場合、処理対象の音声がノイズと判定される。
【0010】
いくつかの実施形態において、特徴情報が、スライドウィンドウにより音声フレームに対して短時間フーリエ変換を行うことで得られる。
【0011】
いくつかの実施形態において、機械学習モデルが、畳み込みニューラルネットワーク層、リカレントニューラルネットワーク層、全結合層およびソフトマックス層を順次に含む。
【0012】
いくつかの実施形態において、畳み込みニューラルネットワーク層が二層構造を有する畳み込みニューラルネットワークであり、リカレントニューラルネットワーク層が単層構造を有する双方向リカレントニューラルネットワークである。
【0013】
いくつかの実施形態において、機械学習モデルが、トレーニングデータからの異なる長さを有する複数のラベル付けされた発話セグメントをトレーニングサンプルとして抽出するステップであって、トレーニングデータがカスタマーサービスシーンで取得された音声ファイルおよび、それに対応する手動でラベル付けされたテキストである、ステップと、コネクションニスト時系列分類(CTC)関数を損失関数として利用することで機械学習モデルをトレーニングするステップと、によってトレーニングされる。
【0014】
いくつかの実施形態において、音声処理方法は、判定の結果が有効な発話である場合、機械学習モデルに決定された有効な確率に対応する候補文字に従って、処理対象の音声に対応するテキスト情報を決定するステップと、判定の結果がノイズである場合、処理対象の音声を破棄するステップと、をさらに含む。
【0015】
いくつかの実施形態において、音声処理方法は、自然言語処理方法を用いて、テキスト情報に対して意味理解を実行するステップと、意味理解の結果に従って、処理対象の音声に対応する出力対象の発話信号を決定するステップと、をさらに含む。
【0016】
いくつかの実施形態において、信頼レベルは処理対象の音声内の音声フレームが候補文字に属する最大確率パラメータの加重和と正の相関があり、空白文字に対応する最大確率パラメータの重みが0であり、非空白文字の最大確率パラメータの重みが1である。
【0017】
いくつかの実施形態において、信頼レベルは、非空白文字に対応する最大確率パラメータの数と負の相関がある。
【0018】
いくつかの実施形態において、機械学習モデルの第1のエポックがサンプル長さの昇順でトレーニングされる。
【0019】
いくつかの実施形態において、機械学習モデルが順番的バッチ正規化の方法を使用してトレーニングされる。
【0020】
本開示の他の実施形態によって、音声処理装置が、処理対象の音声の中の各フレームの特徴情報に従って、機械学習モデルを利用して各フレームが候補文字に属する確率を決定するように構成される確率決定部と、各フレームの最大確率パラメータに対応する候補文字が空白文字か非空白文字かを判定するように構成された文字判定部であって、最大確率パラメータは、各フレームが候補文字に属する確率の最大値である、文字判定部と、各フレームの最大確率パラメータに対応する候補文字が非空白文字である場合、最大確率パラメータを有効な確率と決定するように構成された有効性決定部と、有効な確率に従って、処理対象の音声が有効な発話かノイズかを判定するように構成されたノイズ判定部と、を備える音声処理装置が提供される。
【0021】
本開示の他の実施形態によって、メモリと、メモリと結合されたプロセッサを備える音声処理装置であって、プロセッサが、メモリの装置に記憶された命令に基づき、上記のいずれの実施形態に記載の音声処理方法を実行するように構成される音声処理装置が提供される。
【0022】
本開示の他の実施形態によって、ユーザからの処理対象の音声を受信するように構成された受信装置と、上記いずれの実施形態に記載の音声処理方法を実行するように構成されたプロセッサと、処理対象の音声に対応する発話信号を出力するように構成された出力装置と、を備える、ヒューマンコンピュータインタラクションシステムが提供される。
【0023】
本開示の更なる他の実施形態によって、プロセッサによって実行されるとき上記のいずれの実施形態に記載の音声処理方法を実装するコンピュータプログラムをその上に記憶した非一時的コンピュータ可読記憶媒体が提供される。
【0024】
本開示の更なる他の実施形態によって、プロセッサによって実行されるとき、プロセッサに上記のいずれの実施形態に記載の音声処理方法を実行させる命令を含む、コンピュータプログラムが提供される。
【0025】
本明細書の一部を構成する添付の図面は、本開示の実施形態を示しており、本明細書とともに本開示の原理を説明する役割を果たしている。
【0026】
本開示は、添付の図面を参照した下記の詳細な説明によって、より明確に理解されることができる。
【図面の簡単な説明】
【0027】
【
図1】本開示のいくつかの実施形態による音声処理方法のフロー図を示す図である。
【
図2】いくつかの実施形態による
図1のステップ110の概略図を示す図である。
【
図3】いくつかの実施形態による
図1のステップ150のフロー図を示す図である。
【
図4】本開示のいくつかの実施形態による音声処理装置のブロック図を示す図である。
【
図5】本開示の他の実施形態による音声処理のブロック図を示す図である。
【
図6】本開示の更なる他の実施形態による音声処理のブロック図を示す図である。
【発明を実施するための形態】
【0028】
次に、本開示の実施形態の種々の変形が、添付の図面を参照して詳細に説明される。特に指定がない限り、これらの実施形態に記載された構造とステップの関連の変更、数式および数値は、本開示の範囲を限定するものではないことが理解されるべきである。
【0029】
一方、図面に示されている部分の寸法は、説明を容易にするために、実際の縮尺に合わせて描かれていないことが理解されるべきである。
【0030】
以下、少なくとも一つの例示的な実施形態の説明は、本質的に単なる例であり、本開示およびその適用または使用を制限することを決して意図していない。
【0031】
関連技術における当業者にとって知られている技術、方法、および装置は、詳細に説明されていない場合があるが、適切な場合に本明細書の一部となることが意図されている。
【0032】
本明細書に例示され、議論されるすべての例において、任意の特定の値は、単位例示的なものとして解釈されるべきであり、限定的なものではない。したがって、例示的な実施形態の他の例は、異なる値を有することができる。
【0033】
類似的な参照番号や文字は、以下の図面において類似的な項目を参照しているため、ある項目がある図面において定義される場合、以降の図面でさらに議論する必要はないことが注意されるべきである。
【0034】
本開示の発明者は、上記の関連技術領域において、異なるユーザに係る発話スタイル、発話ボリューム、および周囲の環境が大きく異なるため、エネルギー判定閾値の設定が困難であり、結果としてノイズ判定の精度が低い、という問題点を見つけた。
【0035】
この観点から、本開示は、ノイズ判定の精度を向上させることができる音声処理技術ソリューションを提供する。
【0036】
図1は、本開示のいくつかの実施形態による音声処理方法のフロー図を示している。
【0037】
図1に示すように、前述の方法は、各フレームが候補文字に属する確率を決定するステップ110と、対応する候補文字が非空白文字か否かを判定するステップ120と、有効な確率として決定されるステップ140と、有効な発話かノイズかを判定するステップ150とを備える。
【0038】
ステップ110において、処理対象の音声内の各フレームの特徴情報に従って、機械学習モデルを利用して、各フレームが候補文字に属する確率は決定される。例えば、処理対象の音声は、カスタマーサービスシーンの中の8KHzのサンプリングレートとともに、16bitのPCM(Pulse Code Modulation)形式の音声ファイルであることが可能である。
【0039】
いくつかの実施形態において、処理対象はTフレーム{1,2,...t...T}を有し、Tは正の整数であり、tはTより小さい正の整数である。処理対象の音声の特徴情報はX={x1,x2,...xt,...xT}であり、xtはt番目のフレームの特徴情報である。
【0040】
いくつかの実施形態において、候補文字セットは、一般的な漢字、英字、アラビア数字、句読点等の非空白文字、および空白文字<blank>を備え得る。例えば、候補文字セットはW={w1,w2,...wi,...wI}であり、Iは正の整数であり、iはIより小さい正の整数であり、wiはi番目の候補文字である。
【0041】
いくつかの実施形態において、処理対象の音声内のt番目のフレームが候補文字に属する確率分布はPt(W|X)={pt(w1|X),pt(w2|X),......pt(wi|X)......pt(wI|X)}であり、pt(wi|X)はt番目のフレームがwiに属する確率である。
【0042】
例えば、候補文字セットの中の文字は、応用シーン(例えば、eコマースの顧客サービスシーン、日常コミュニケーションシーン等)に応じて獲得および構成されることができる。空白文字は無意味な文字であり、処理対象の音声の現在のフレームが、候補文字セットの中の実際的な意味を有する任意の非空白文字に対応できないことを指す。
【0043】
いくつかの実施形態において、各フレームが候補文字に属する確率は、
図2に示す実施形態によって決定されることができる。
【0044】
図2は、いくつかの実施形態による
図1のステップ110の概略図を示している。
【0045】
図2に示すように、処理対象の音声の特徴情報は、特徴抽出モジュールによって抽出されることができる。例えば、処理対象の音声の各フレームの特徴情報は、スライドウィンドウによって抽出されることができる。例えば、スライドウィンドウ内の信号に対して短時間フーリエ変換を行うことで取得された異なる周波数でのエネルギー分布情報(スペクトログラム)を特徴情報とする。スライドウィンドウのサイズは20ms、スライディングステップは10ms、獲得された特徴情報は81次元のベクトルであることが可能である。
【0046】
いくつかの実施形態において、候補文字に属する各フレームの確率、すなわち候補文字セット内の候補文字に関する各フレームの確率分布を決定するために、抽出された特徴情報は、機械学習モデルに入力されることができる。例えば、機械学習モデルは、二層構造を有する畳み込みニューラルネットワーク(CNN,Convolutional Neural Networks)、単層構造を有する双方向リカレントニューラルネットワーク(RNN,Recurrent Neural Network)、単層構造を有する全結合層(FC,Full Connected layer)およびソフトマックス層を備えることができる。CNNは、RNNの計算量を減軽するために、ストライド(Stride)処理方式を採用することができる。
【0047】
いくつかの実施形態において、候補文字セット内に2748個候補文字が存在し、それに伴い、機械学習モデルの出力は2748次元のベクトル(このベクトルにおいて、各要素はそれぞれ一つの候補文字の確率に対応する)である。例えば、前述のベクトルの最後の次元は、<空白>の文字の確率であることが可能である。
【0048】
いくつかの実施形態において、カスタマーサービスシーンで取得された音声ファイルおよびそれに対応する手動でラベル付けされたテキストは、トレーニングデータとして使用されることができる。例えば、トレーニングサンプルは、トレーニングデータから抽出された、異なる長さ(例えば、1秒から10秒)を有する複数のラベル付けされた発話セグメントであることが可能である。
【0049】
いくつかの実施形態において、コネクションニスト時系列分類(CTC,Connectionist Temporal Classification)関数は、損失関数として利用されることができる。CTC関数は、機械学習モデルの出力にスパーススパイク特徴を持たせることができ、すなわち、多数のフレームの最大確率パラメータに対応する候補文字は空白文字であり、且つ、少数のフレームの最大確率パラメータに対応する候補文字のみが非空白文字である。このようにして、システムの処理効率を向上させることができる。
【0050】
いくつかの実施形態において、機械学習モデルは、SortaGradによってトレーニングされることができ、すなわち、第1のエポックはサンプル長さの昇順でトレーニングされ、その結果、トレーニングの収束率が改善される。例えば、20個エポックのトレーニングの後、検証セットで最も良い性能を有するモデルは、最後の機械学習モデルとして選択されることができる。
【0051】
いくつかの実施形態において、RNNトレーニングの速度および精度を向上させるために、順番的バッチ正規化の方法が使用されることができる。
【0052】
確率分布が決定された後に、ノイズ判定は
図1のステップを通じて継続される。
【0053】
ステップ120において、各フレームの最大確率パラメータに対応する候補文字が空白文字か非空白文字かが判定される。最大確率パラメータは、各フレームが候補文字に属する確率である。例えば、pt(w1|X),pt(w2|X),......pt(wi|X)......pt(wI|X)の内の最大値は、t番目のフレームの最大確率パラメータである。
【0054】
最大確率パラメータに対応する候補文字が非空白文字である場合、ステップ140が実行される。いくつかの実施形態において、最大確率パラメータに対応する候補文字が空白文字である場合、ステップ130が、最大確率パラメータを非有効な確率として決定するように実行される。
【0055】
ステップ130において、最大確率パラメータは非有効な確率として決定される。
【0056】
ステップ140において、最大確率パラメータは有効な確率として決定される。
【0057】
ステップ150において、有効な確率に従って、処理対象の音声は有効な発話かノイズかが判定される。
【0058】
いくつかの実施形態において、ステップ150は
図3に示した実施形態によって実行されることができる。
【0059】
図3は、いくつかの実施形態による
図1の中のステップ150のフロー図を例示している。
【0060】
図3に示すように、ステップ150は、信頼レベルを算出するステップ1510と、有効な発話かノイズかを判定するステップ1520とを備える。
【0061】
ステップ1510において、処理対象の音声の信頼レベルは、有効な確率の加重和に従って算出される。例えば、信頼レベルは、有効な確率の加重和および有効な確率の数に従って算出されることができる。信頼レベルは、有効な確率の加重和と正の相関があり、且つ、有効な確率の数と負の相関がある。
【0062】
いくつかの実施形態において、信頼レベルは、
【数1】
によって算出されることができる。ここで、関数Fは、
【数2】
として定義される。
【数3】
は、w
iを変数としたP
t(W|X)の最大値を意味し、且つ、
【数4】
は、P
t(W|X)の最大値が取得される場合、変数w
iの値を意味する。
【0063】
上式において、分子は、処理対象の音声内の各フレームが候補文字に属する最大確率パラメータの加重和であり、空白文字(すなわち、非有効な確率)に対応する最大確率パラメータの重みは0であり、非空白文字に対応する最大確率パラメータ(すなわち、有効な確率)の重みは1であり、且つ分母は、非空白文字に対応する最大確率パラメータの数である。例えば、処理対象の音声は有効な確率を有しない場合(すなわち、分母は0である)、対象の音声はノイズと判定される(すなわち、α=0と定義される)。
【0064】
いくつかの実施形態において、異なる重み(例えば、重みは0より大きい)は、有効な確率に対応する非空白文字によって(例えば、特定の意味、応用シーン、対話の重要性等に従い)設定されることもできる。その結果、ノイズ判定の精度を向上させる。
【0065】
ステップ1520において、信頼レベルに従って、処理対象の音声は有効な発話か、またはノイズかが判定される。例えば、上記の場合において、信頼レベルは大きいほど、処理対象の音声は発話が有効な発話と判定される可能性は大きい。従って、信頼レベルが閾値と等しい、または閾値より大きい場合、処理対象の発話は有効な発話と判定されることができる。信頼レベルが閾値より小さい場合、処理対象の発話はノイズと判定される。
【0066】
いくつかの実施形態において、判定の結果が有効な発話である場合、機械学習モデルを利用して決定された有効な確率に対する候補文字に従い、処理対象の音声に対応するテキスト情報は決定されることができる。このようにして、処理対象の音声のノイズの判定および発話の認識は同時に完成されることができる。
【0067】
いくつかの実施形態において、コンピュータは、決定されたテキスト情報に対して意味理解(例えば、自然言語処理)のような後続処理を実行し、処理対象の音声の意味をコンピュータに理解させることができる。例えば、意味理解に基づき、発話合成を行った後に、発話信号が出力されることができる。その結果、ヒューマンコンピュータ知的コミュニケーションを実現する。例えば、意味理解に対応する応答テキストは、意味理解の結果に基づいて生成されることができ、発話信号は応答テキストに応じて合成されることができる。
【0068】
いくつかの実施形態において、判定結果がノイズである場合、処理対象の音声は、後続処理が行わずに直接的に破棄されることができる。このようにして、意味理解、発話合成等のような後続処理に対する悪影響が有効的に低減されることができ、その結果、発話の認識とシステムの処理効率が向上される。
【0069】
上記の実施形態において、処理対象の音声の有効性は、処理対象の音声内の各フレームに対応する候補文字が非空白文字である確率に従って決定され、処理対象の音声はノイズかが判定される。このようにして、処理対象の音声の意味に基づいて実行されるノイズ判定は、異なる発話環境および異なるユーザの発話の音量に上手く適応することができ、その結果、ノイズ判定の精度を向上させることができる。
【0070】
図4は本開示のいくつかの実施形態によって音声処理装置のブロック図を示している。
【0071】
図4に示すように、音声処理装置4は、確率決定部41、文字判定部42、有効性決定部43、およびノイズ判定部44を含む。
【0072】
確率決定部41は、処理対象の音声内の各フレームの特徴情報に従って機械学習モデルを利用して、各フレームが候補文字に属する確率を決定する。例えば、特徴情報は、スライドウィンドウにより音声フレームに対して短時間フーリエ変換を行うことで取得される。機械学習モデルは、畳み込みニューラルネットワーク層、リカレントニューラルネットワーク層、全結合層およびソフトマックス層を順次に含む。
【0073】
文字判定部42は、各フレームの最大確率パラメータに対応する候補文字が空白文字か非空白文字かを判定する。最大確率パラメータは、各フレームが候補文字に属する確率の最大値である。
【0074】
各フレームの最大確率パラメータに対応する候補文字が非空白文字である場合、有効性決定部43は、最大確率パラメータを有効な確率として決定する。いくつかの実施形態において、各フレームの最大確率パラメータに対応する候補文字が空白文字である場合、有効性決定部43は、最大確率パラメータを非有効な確率として決定する。
【0075】
ノイズ判定部44は、有効な確率に基づいて処理対象の音声が有効な発話かノイズかを判定する。例えば、処理対象の音声が有効な確率を有しない場合、処理対象の音声はノイズとして判定される。
【0076】
いくつかの実施形態において、ノイズ判定部44は、有効な確率の加重和に従って処理対象の音声の信頼レベルを算出する。ノイズ判定部44は、信頼レベルに従って処理対象の音声が有効な発話かノイズかを判定する。例えば、ノイズ判定部44は、有効な確率の加重和および有効な確率の数に従って信頼レベルを算出する。信頼レベルは、有効な確率の加重和と正の相関があり、有効な確率の数と負の相関がある。
【0077】
いくつかの実施形態において、信頼レベルは、処理対象の音声内の音声フレームが候補文字に属する最大確率パラメータの加重和と正の相関があり、空白文字に対応する最大確率パラメータの重みは0であり、非空白文字の最大確率パラメータの重みは1である。
【0078】
信頼レベルは、非空白文字に対応する最大確率パラメータの数と負の相関がある。
【0079】
いくつかの実施形態において、機械学習モデルの第1のエポックはサンプル長さの昇順でトレーニングされる。
【0080】
いくつかの実施形態において、機械学習モデルは順番的バッチ正規化の方法を使用してトレーニングされる。
【0081】
上記の実施形態において、処理対象の音声の有効性は、処理対象の音声の各フレームに対応する候補文字が非空白文字である確率に従って決定され、処理対象の音声がノイズであると判定される。このようにして、処理対象の音声の意味に基づいて実行されるノイズ判定は、異なる発話環境および異なるユーザの発話の音量に上手く適応することができ、その結果、ノイズ判定の精度を向上させることができる。
【0082】
図5は、本開示のいくつかの実施形態によるブロック図を示している。
【0083】
図5に示すように、本実施形態の音声処理装置5は、メモリ51およびメモリ51と結合されたプロセッサ52とを備え、プロセッサ52は、メモリ51に記憶された命令に基づき、本開示のいずれの実施形態による音声処理方法を実行するように構成される。
【0084】
その中のメモリ51は、例えば、システムメモリ、固定された非一時的な記憶媒体などで構成されることができる。システムメモリは、その上に、例えば、オペレーティングシステム、アプリケーション、ブートローダ、データベース、および他のプログラムなどを記憶している。
【0085】
図6は、本開示の更なる他の実施形態による音声処理のブロック図を例示している。
【0086】
図6に示すように、本開示の音声処理方法装置6は、メモリ610とメモリ610に結合されたプロセッサ620とを備え、プロセッサ620は、メモリ610に記憶された命令に基づき、本開示のいずれの実施形態による音声処理方法を実行するように構成される。
【0087】
メモリ610は、例えば、システムメモリ、固定された非一時的な記憶媒体などで構成されることができる。例えば、システムメモリは、その上にオペレーティングシステム、アプリケーション、ブートローダ、および他のプログラムなどを記憶している。
【0088】
音声処理装置6は、インプット/アウトプットインタフェース630、ネットワークインターフェース640およびストレージインターフェース650等をさらに備える。これらのインプット/アウトプットインタフェース630、ネットワークインターフェース640、ストレージインターフェース650およびメモリ610は、例えば、バス660を介してプロセッサ620と接続することができる。ここで、インプット/アウトプットインタフェース630は、ディスプレイ、マウス、キーボード、タッチパネル、マイクおよびスピーカ等のようなインプット/アウトプットデバイスのための接続インターフェースを提供する。ネットワークインターフェース640は、各種のネットワークデバイスのための接続インターフェースを提供する。ストレージインターフェース650は、SDカードやUSBフラッシュディスク等のような外部記憶装置用の接続インターフェースを提供する。
【0089】
本開示の更なる他の実施形態によって、提供されるヒューマンコンピュータインタラクションシステムは、ユーザから処理対象の音声を受信するように構成された受信装置と、上記のいずれの実施形態による音声処理方法を実行するように構成されたプロセッサと、処理対象の音声に対応する発話信号を出力するように構成された出力装置とを備える。
【0090】
当業者によって理解されるように、本開示の実施形態は、方法、システム、またはコンピュータプログラム製品として提供されることができる。よって、本開示は、ハードウェア全体の実施形態、ソフトウェア全体の実施形態、またはソフトウェアおよびハードウェアを組み合わせた実施形態の形態を取ることができる。さらに、本開示は、具現化されたコンピュータ使用可能なプログラムコードを有する、一つまたはそれ以上のコンピュータ使用可能な非一時的記憶媒体(ディスクメモリ、CD-ROM、光学メモリなどを含むが、これに限定されない)上に実装されたコンピュータプログラム製品の形態を取ることができる。
【0091】
ここまで、本開示による音声処理方法、音声処理装置、ヒューマンコンピュータインタラクションシステム、および非一時的コンピュータ可読記憶媒体が詳細に説明された。本開示の概念が不明瞭になるのを避けるために、当技術分野でよく知られているいくつかの詳細な内容は、説明されていない。当業者は、前述の説明を考慮して、本明細書に開示された技術的解決手段をどのように実施するかを十分に理解することができる。
【0092】
本開示の方法及びシステムは、多くの方法で実施されることができる。例えば、本開示の方法及びシステムは、ソフトウェア、ハードウェア、ファームウェア、又はソフトウェア、ハードウェア、及びファームウェアの任意の組合せで実装されることができる。本方法の上記の一連のステップは、あくまでも例示するためのものであり、本開示の方法のステップは、特に明記しない限り、具体的に説明された順序に限定されるものではない。さらに、いくつかの実施形態において、本開示は、記録媒体に記録されたプログラムとして実装されることもでき、これらのプログラムは、本開示による方法を実装するための機械可読命令を備える。従って、本開示は、本開示による方法を実行するためのプログラムをその上に記憶した記録媒体も対象とする。
【0093】
本開示のいくつかの特定の実施形態が例示によって詳細に説明されたが、上記の例はあくまでも例示するためのものであり、本開示の範囲を限定することを意図していないことは当業者に理解されるはずである。本開示の範囲及び精神から逸脱しない場合、上記実施形態に変更を加えることができることは、当業者に理解されるはずである。本開示の範囲は、添付の特許請求の範囲によって定義される。
【符号の説明】
【0094】
41 確率決定部
42 文字判定部
43 有効性決定部
44 ノイズ判定部
51 メモリ
52 プロセッサ
610 メモリ
620 プロセッサ
630 インプット/アウトプットインタフェース
640 ネットワークインターフェース
650 ストレージインターフェース
660 バス