IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッドの特許一覧

<>
  • 特許-オーディオ処理方法、装置及び記憶媒体 図1
  • 特許-オーディオ処理方法、装置及び記憶媒体 図2
  • 特許-オーディオ処理方法、装置及び記憶媒体 図3
  • 特許-オーディオ処理方法、装置及び記憶媒体 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-27
(45)【発行日】2022-11-07
(54)【発明の名称】オーディオ処理方法、装置及び記憶媒体
(51)【国際特許分類】
   G10L 15/04 20130101AFI20221028BHJP
   G10L 15/10 20060101ALI20221028BHJP
   G10L 15/20 20060101ALI20221028BHJP
【FI】
G10L15/04 300Z
G10L15/10 200W
G10L15/20 370Z
【請求項の数】 10
(21)【出願番号】P 2019563781
(86)(22)【出願日】2019-10-09
(65)【公表番号】
(43)【公表日】2022-01-06
(86)【国際出願番号】 CN2019110213
(87)【国際公開番号】W WO2021031308
(87)【国際公開日】2021-02-25
【審査請求日】2019-11-18
(31)【優先権主張番号】201910760806.3
(32)【優先日】2019-08-16
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517188574
【氏名又は名称】ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッド
【氏名又は名称原語表記】BEIJING XIAOMI MOBILE SOFTWARE CO.,LTD.
【住所又は居所原語表記】No. 018, Floor 8, Building 6, Yard 33, Middle Xierqi Road, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100107489
【弁理士】
【氏名又は名称】大塩 竹志
(72)【発明者】
【氏名】路康虹
(72)【発明者】
【氏名】▲楊▼瑞
(72)【発明者】
【氏名】▲馮▼小川
(72)【発明者】
【氏名】崔世起
(72)【発明者】
【氏名】▲韓▼▲偉▼
(72)【発明者】
【氏名】秦斌
(72)【発明者】
【氏名】王▲剛▼
(72)【発明者】
【氏名】李丹
【審査官】中村 天真
(56)【参考文献】
【文献】特開2019-207329(JP,A)
【文献】国際公開第2019/107145(WO,A1)
【文献】国際公開第2019/031268(WO,A1)
【文献】特開2017-078869(JP,A)
【文献】特開2019-117623(JP,A)
【文献】特開2019-101385(JP,A)
【文献】堀田尚希 他,"音声発話の誤分割修復のための修復必要性の判定",第70回言語・音声理解と対話処理研究会資料,2014年02月26日,pp.45-52,特に、「1 はじめに」~「4 決定木による修復必要性の判定」
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
(57)【特許請求の範囲】
【請求項1】
オーディオ処理方法であって、前記オーディオ処理方法は、電子機器に適用され、前記オーディオ処理方法は、
ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得するステップと、
前記第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、前記第2オーディオデータを取得するステップであって、前記第2オーディオデータの取得が開始される時点は、時間差の分だけ、前記第1オーディオデータの取得が終了される時点よりも後である、ステップと、
前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップと
を含み、
前記オーディオ処理方法は、
前記時間差を決定するステップをさらに含み、
前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
前記時間差が第1所定期間以上であれば、前記第1オーディオデータが完全に入力されたか否かを検出するステップと、
前記第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータと前記第2オーディオデータとをスプライシングできるか否かを判断するステップと、
前記第1オーディオデータと前記第2オーディオデータとをスプライシングできる場合、前記第1オーディオデータと前記第2オーディオデータとをスプライシングして、ターゲットオーディオデータを得るステップと
を含む、オーディオ処理方法。
【請求項2】
前記オーディオ処理方法は、
前記第1オーディオデータが完全に入力された場合、前記第1オーディオデータ及び前記第2オーディオデータをそれぞれ前記ターゲットオーディオデータとして決定するステップをさらに含む、請求項1に記載のオーディオ処理方法。
【請求項3】
前記オーディオ処理方法は、
前記ターゲットオーディオデータに対して音響エコー除去処理を行うステップと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るステップと、
前記応答情報を出力するステップと
をさらに含む、請求項1又は請求項2に記載のオーディオ処理方法。
【請求項4】
前記オーディオ処理方法は、
検出対象のオーディオデータを取得するステップと、
前記検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するステップと、
前記検出対象オーディオデータに前記ウェイクアップ情報が含まれている場合、前記ターゲットアプリケーションに対してウェイクアップ処理を行うステップと
をさらに含み、
前記オーディオデータは、音声データを含む、請求項1又は請求項2に記載のオーディオ処理方法。
【請求項5】
オーディオ処理装置であって、前記オーディオ処理装置は、
ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得するように構成される第1オーディオ取得モジュールと、
前記第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、前記第2オーディオデータを取得するように構成される第2オーディオ取得モジュールであって、前記第2オーディオデータの取得が開始される時点は、時間差の分だけ、前記第1オーディオデータの取得が終了される時点よりも後である、第2オーディオ取得モジュールと、
前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るように構成される第1オーディオ決定モジュールと
を備え、
前記オーディオ処理装置は、
前記時間差を決定するように構成される時間決定モジュールをさらに備え、
前記第1オーディオ決定モジュールは、
前記時間差が第1所定期間以上であれば、前記第1オーディオデータが完全に入力されたか否かを検出することと、
前記第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータと前記第2オーディオデータとをスプライシングできるか否かを判断することと、
前記第1オーディオデータと前記第2オーディオデータとをスプライシングできる場合、前記第1オーディオデータと前記第2オーディオデータとをスプライシングして、ターゲットオーディオデータを得ることと
を行うように構成される、オーディオ処理装置。
【請求項6】
前記オーディオ処理装置は、
前記第1オーディオデータが完全に入力された場合、前記第1オーディオデータ及び前記第2オーディオデータをそれぞれ前記ターゲットオーディオデータとして決定するように構成される第2オーディオ決定モジュールをさらに備える、請求項5に記載のオーディオ処理装置。
【請求項7】
前記オーディオ処理装置は、
前記ターゲットオーディオデータに対して音響エコー除去処理を行うように構成される音響エコー除去モジュールと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るように構成される応答モジュールと、
前記応答情報を出力するように構成される出力モジュールと
をさらに備える、請求項5又は請求項6に記載のオーディオ処理装置。
【請求項8】
前記オーディオ処理装置は、
検出対象のオーディオデータを取得するように構成される第3オーディオ取得モジュールと、
前記検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するように構成される情報決定モジュールと、
前記検出対象オーディオデータに前記ウェイクアップ情報が含まれている場合、前記ターゲットアプリケーションに対してウェイクアップ処理を行うように構成されるウェイクアップモジュールと
をさらに備え、
前記オーディオデータは、音声データを含む、請求項5又は請求項6に記載のオーディオ処理装置。
【請求項9】
オーディオ処理装置であって、
プロセッサと、
前記プロセッサによって実行可能な命令を記憶するように構成されるメモリと
を備え、
前記プロセッサは、請求項1~4のいずれか1項に記載のオーディオ処理方法を実行するように構成される、オーディオ処理装置。
【請求項10】
非一時的なコンピュータ読み取り可能な記憶媒体であって、前記記憶媒体には、命令が記憶されており、
前記命令は、オーディオ処理装置のプロセッサによって実行されると、請求項1~4のいずれか1項に記載のオーディオ処理方法を実行することを前記オーディオ処理装置に行わせる、非一時的なコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、出願番号201910760806.3、出願日2019年08月16日の中国特許出願に基づいて提案しており、該中国特許出願の優先権を主張し、該中国特許出願の全内容が参照により本願に組み込まれる。
【0002】
本開示は、情報技術分野に関し、特にオーディオ処理方法、装置及び記憶媒体に関する。
【背景技術】
【0003】
現在、音声を通じたヒューマンコンピュータインタラクションのインタラクション方式が注目を集めており、インターネット産業にわたって音声インタラクションが可能な応用方式及び応用場面の検討が積極的に進められており、且つ、スマートスピーカー、音声アシスタントなど、音声インタラクションに基づく多数の製品が販売され始める。その中でも、音声アシスタントは、ほぼすべてのメーカーの新製品発表会の焦点になり、ある程度ユーザーの消費選択に影響を与える。しかしながら、ユーザーが音声アシスタントとインタラクションを行うときには、会話プロセスが複雑であり且つ順調さが不十分であるという問題がある。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示は、オーディオ処理方法、装置及び記憶媒体を提供する。
【0005】
本開示の実施例の第1態様によれば、オーディオ処理方法を提供し、前記方法は、電子機器に適用され、
ターゲットアプリケーションをウェイクアップ(wake-up)した後、第1オーディオ信号に対応する第1オーディオデータを取得するステップと、
前記第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、前記第2オーディオデータを取得するステップと、
前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップと、を含む。
【0006】
いくつかの実施例において、前記方法は、
前記第1オーディオデータの取得終了と前記第2オーディオデータの取得開始との間の時間差を決定するステップをさらに含み
前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
前記時間差が第1所定期間以上であれば、前記第1オーディオデータ及び前記第2オーディオデータに基づいて、前記ターゲットオーディオデータを得るステップを含む。
【0007】
いくつかの実施例において、前記時間差が第1所定期間以上であれば、前記第1オーディオデータ及び前記第2オーディオデータに基づいて、前記ターゲットオーディオデータを得るステップは、
前記時間差が第1所定期間以上であれば、前記第1オーディオデータが完全に入力されたか否かを検出するステップと、
前記第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータ及び前記第2オーディオデータに基づいて、前記ターゲットオーディオデータを得るステップと、を含む。
【0008】
いくつかの実施例において、前記第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータ及び前記第2オーディオデータに基づいて、前記ターゲットオーディオデータを得るステップは、
第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータと前記第2オーディオデータをスプライシングできるか否かを判断するステップと、
前記第1オーディオデータと前記第2オーディオデータをスプライシングできる場合、前記第1オーディオデータと前記第2オーディオデータをスプライシングして、ターゲットオーディオデータを得るステップと、を含む。
【0009】
いくつかの実施例において、前記方法は、
前記第1オーディオデータが完全に入力された場合、前記第1オーディオデータ及び前記第2オーディオデータをそれぞれ前記ターゲットオーディオデータとして決定するステップをさらに含む。
【0010】
いくつかの実施例において、前記方法は、
前記ターゲットオーディオデータに対して音響エコー除去処理を行うステップと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るステップと、
前記応答情報を出力するステップと、をさらに含む。
【0011】
いくつかの実施例において、前記方法は、
検出対象のオーディオデータを取得するステップと、
前記検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するステップと、
前記検出対象オーディオデータに前記ウェイクアップ情報が含まれている場合、前記ターゲットアプリケーションに対してウェイクアップ処理を行うステップと、をさらに含み、
前記オーディオデータは、音声データを含む。
【0012】
本開示の実施例の第2態様によれば、オーディオ処理装置を提供し、該オーディオ処理装置は、
ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得するように構成される第1オーディオ取得モジュールと、
前記第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、前記第2オーディオデータを取得するように構成される第2オーディオ取得モジュールと、
前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るように構成される第1オーディオ決定モジュールと、を備える。
【0013】
いくつかの実施例において、前記装置は、
前記第1オーディオデータの取得終了と前記第2オーディオデータの取得開始との間の時間差を決定するように構成される時間決定モジュールをさらに備え、
前記第1オーディオ決定モジュールは、
前記時間差が第1所定期間以上であれば、前記第1オーディオデータ及び前記第2オーディオデータに基づいて、前記ターゲットオーディオデータを得るように構成されるオーディオ決定サブモジュールを備える。
【0014】
いくつかの実施例において、前記オーディオ決定サブモジュールは、具体的には、
前記時間差が第1所定期間以上であれば、前記第1オーディオデータが完全に入力されたか否かを検出し、
前記第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータ及び前記第2オーディオデータに基づいて、前記ターゲットオーディオデータを得るように構成される。
【0015】
いくつかの実施例において、前記オーディオ決定サブモジュールは、さらに、具体的には、
第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータと前記第2オーディオデータをスプライシングできるか否かを判断し、
前記第1オーディオデータと前記第2オーディオデータをスプライシングできる場合、前記第1オーディオデータと前記第2オーディオデータをスプライシングして、ターゲットオーディオデータを得るように構成される。
【0016】
いくつかの実施例において、前記装置は、
前記第1オーディオデータが完全に入力された場合、前記第1オーディオデータ及び前記第2オーディオデータをそれぞれ前記ターゲットオーディオデータとして決定するように構成される第2オーディオ決定モジュールをさらに備える。
【0017】
いくつかの実施例において、前記装置は、
前記ターゲットオーディオデータに対して音響エコー除去処理を行うように構成される音響エコー除去モジュールと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るように構成される応答モジュールと、
前記応答情報を出力するように構成される出力モジュールと、をさらに備える。
【0018】
いくつかの実施例において、前記装置は、
検出対象のオーディオデータを取得するように構成される第3オーディオ取得モジュールと、
前記検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するように構成される情報決定モジュールと、
前記検出対象オーディオデータに前記ウェイクアップ情報が含まれている場合、前記ターゲットアプリケーションに対してウェイクアップ処理を行うように構成されるウェイクアップモジュールと、をさらに備え、
前記オーディオデータは、音声データを含む。
【0019】
本開示の実施例の第3態様によれば、オーディオ処理装置を提供し、該オーディオ処理装置は、
プロセッサと、
プロセッサにより実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、上記第1態様におけるオーディオ処理方法のステップを実現するために実行されるように構成される。
【0020】
本開示の実施例の第4態様によれば、前記記憶媒体における命令がオーディオ処理装置のプロセッサにより実行されるとき、上記第1態様におけるオーディオ処理方法を前記装置に実行させる非一時的なコンピュータ可読記憶媒体を提供する。
【発明の効果】
【0021】
本開示の実施例による技術案は、以下の有益な効果を有する。
【0022】
本開示の実施例では、ターゲットアプリケーションをウェイクアップした後、第1オーディオデータを取得する過程において、第2オーディオデータが検出された場合、第1オーディオデータ及び第2オーディオデータに対して分析及び処理を行って、ターゲットオーディオデータを得て、持続的な会話の過程では、複数のオーディオデータをそれぞれ直接処理することができ、受信したオーディオデータに対して応答した後に次のオーディオデータを処理する場合に比べて、ターゲットアプリケーションを再度ウェイクアップする必要がなく、それによって、対話プロセスを簡素化させるとともに、音声インタラクションのプロセスをより順調にし、さらに、第1オーディオデータと第2オーディオデータを結合して、ターゲットオーディオデータを得て、ターゲットオーディオデータに対してオーディオ応答を行うことによって、ユーザーの本格なニーズをより正確に把握し、個別に第1オーディオデータ及び第2オーディオデータに応答することによる応答エラーの確率を減少させ、このため、オーディオ応答の正確率も向上させる。
【0023】
なお、以上の一般的な説明及び以下の詳細な説明は、解釈するための例示的なものに過ぎず、本開示を制限するものではない。
【図面の簡単な説明】
【0024】
ここでの図面は、明細書に組み込まれて本明細書の一部を構成し、本開示に適した実施例が示されて、明細書とともに本開示の原理を解釈する。
【0025】
図1】例示的な一実施例によるオーディオ処理方法のフローチャートの1つである。
図2】例示的な一実施例によるオーディオ処理方法の別の模式的なフローチャートである。
図3】例示的な一実施例によるオーディオ処理装置のブロック図である。
図4】例示的な一実施例によるオーディオ処理装置のハードウェア構造のブロック図である。
【発明を実施するための形態】
【0026】
ここで例示的な実施例を詳細に説明し、その例は図面に示されている。以下の説明においては、図面を言及する場合、特に断らない限り、異なる図面における同じ数字は、同じ又は類似した要素を表す。以下の例示的な実施例に説明される実施形態は、本開示と一致するすべての実施形態ではない。添付した特許請求の範囲に詳細に記載された、本開示のいくつかの態様と一致する装置及び方法の例に過ぎない。
【0027】
図1は、例示的な一実施例によるオーディオ処理方法のフローチャートの1つであり、図1に示すように、該方法は、電子機器に適用され、電子機器は、携帯端末及び固定端末を備え、たとえば、携帯電話、タブレット、ポケットコンピュータ、ノード型コンピュータ、デスクトップコンピュータ、ウェアラブルモバイルデバイス、スマートスピーカーなどである。該方法は、ステップ101~ステップ103を含む。
【0028】
ステップ101では、ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得する。
【0029】
ターゲットアプリケーションは、電子機器にインストール可能でありユーザーと音声インタラクションを行うためのアプリケーションであり、たとえば、音声アシスタントなどである。第1オーディオ信号は、電子機器が備える音収集コンポーネントによって収集される音声信号、たとえば、ユーザーからの音声信号を含み得る。第1オーディオデータは、第1オーディオ信号をデジタル化処理したオーディオデータである。
【0030】
電子機器が備えるオーディオ収集コンポーネントによってオーディオ信号を収集し、オーディオ信号をデジタル化処理して、オーディオデータを得ることができる。ここで、オーディオ収集コンポーネントは、電子機器が備えるオーディオ収集用のコンポーネントであってもよく、電子機器が携帯電話である場合を例にすると、オーディオ収集コンポーネントは、携帯電話のマイクロフォンであり得る。
【0031】
本開示の実施例では、音声ウェイクアップ方式でターゲットアプリケーションをウェイクアップし、ターゲットアプリケーションをウェイクアップした後、ターゲットアプリケーションに基づいてオーディオデータを取得することができる。
【0032】
たとえば、電子機器が備えるオーディオ収集コンポーネントによりユーザーからの音声信号が受信されると、該音声信号に対してデジタル化処理を行って、音声データを得る。音声データに予め設定されたウェイクアップ単語があるか否かを検出し、音声データにウェイクアップ単語が含まれている場合、ターゲットアプリケーションをウェイクアップする。ここで、ウェイクアップ単語は、ユーザーにより必要に応じて設定されるものであってもよく、たとえば、ウェイクアップ単語を「小愛同学」に設定する。
【0033】
ステップ102では、第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、第2オーディオデータを取得する。
【0034】
該第2オーディオデータは、第1オーディオデータと同じであってもよく、第1オーディオデータと異なってもよい。第1オーディオデータを取得する過程において取得されるオーディオデータであれば、第2オーディオデータとすることができる。
【0035】
ステップ103では、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得る。
【0036】
ターゲットアプリケーションは、異なる時刻にそれぞれ第1オーディオデータ及び第2オーディオデータを取得した後、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得て、ターゲットオーディオデータに基づいて対応した応答を行うことができる。
【0037】
ターゲットオーディオデータは、第1オーディオデータ、第2オーディオデータ、第1オーディオデータと第2オーディオデータをスプライシングしてなる第3オーディオデータのうちの少なくとも1つを含む。ターゲットオーディオデータが第1オーディオデータと第2オーディオデータをスプライシングしてなる第3オーディオデータである場合を例にすると、第1オーディオデータに含まれる内容が「今日の天気は」、第2オーディオデータに含まれる内容が「晴れ」であれば、第3オーディオデータであるターゲットオーディオデータに含まれる内容は、「今日の天気は晴れです」となる。
【0038】
本開示の実施例では、ターゲットアプリケーションをウェイクアップした後、第1オーディオデータを取得する過程において、第2オーディオデータが検出された場合、第1オーディオデータ及び第2オーディオデータの両方に対して分析及び処理を行って、ターゲットオーディオデータを取得しうる。持続的な会話の過程では、それぞれ複数のオーディオデータに対して同時に直接処理を行うことができ、ターゲットアプリケーションを再度ウェイクアップする必要がなく、それによって、対話プロセスを簡素化させるとともに、音声インタラクションのプロセスをより順調にする。
【0039】
前記第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
前記第1オーディオデータの第1セマンティックコンテンツ及び前記第2オーディオデータの第2セマンティックコンテンツに基づいて、前記ターゲットオーディオデータを得るステップを含む。
【0040】
たとえば、前記第1セマンティックコンテンツと前記第2セマンティックコンテンツが互いを補完する場合、前記第1オーディオデータと前記第2オーディオデータを組みわせて前記ターゲットオーディオデータを得ることができ、ユーザーが第1音声信号を送信した後、途中で一時停止し又は中断されるため、第2オーディオ信号で補充する必要がある場合は、このような応用場面である。
【0041】
ここで、第1セマンティックコンテンツが「してください」、第2セマンティックコンテンツが「目覚まし時計を設定する」である場合を例にすると、第1セマンティックコンテンツ及び第2セマンティックコンテンツについてセマンティック分析を行い、第1セマンティックコンテンツと第2セマンティックコンテンツが互いを補完すると決定する。次に、第1オーディオデータと第2オーディオデータを組み合わせてターゲットオーディオデータを得る。それによって、ユーザーの最終ニーズが「目覚まし時計を設定してください」であると決定できる。
【0042】
さらに、たとえば、第1セマンティックコンテンツと前記第2セマンティックコンテンツが互いに矛盾する場合、前記第2オーディオデータを前記ターゲットオーディオデータとすることができ、このような応用場面は、ユーザーからの第1オーディオ信号エラーを第2オーディオ信号で校正する場面である。
【0043】
第1セマンティックコンテンツが「武漢の今日の天気は」、第2セマンティックコンテンツが「いいえ、北京の今日の天気を確認したいです」である場合を例にする。第1セマンティックコンテンツ及び第2セマンティックコンテンツについてセマンティック分析を行ったところ、第1オーディオデータ及び第2オーディオデータがすべて天気のお問い合わせであることが分かった。第1セマンティックコンテンツと第2セマンティックコンテンツには相関性があるが、第1オーディオデータが武漢の天気のお問い合わせであるのに対して、第2オーディオデータが北京の天気のお問い合わせであり、両方が互いに矛盾し、且つ分析したところ第1セマンティックコンテンツがエラーであることがわかった。この場合、ターゲットアプリケーションは、第1オーディオデータを処理しなくてもよいと判定し、第2オーディオデータをターゲットオーディオデータとして決定し、第2オーディオデータに対応する応答情報を出力する。
【0044】
また、たとえば、第1セマンティックコンテンツ及び前記第2セマンティックコンテンツが互いに独立したものであり、意味的には補完と矛盾がない場合、前記第1オーディオデータと第2オーディオデータを2つのターゲットオーディオデータとし、それぞれオーディオ応答を行う必要がある。ユーザーが急いでいる又は発話速度が高い場合、2つの完全に別々の音声信号を短時間で送信する場合は、このような応用場面である。
【0045】
ここで、第1セマンティックコンテンツが「武漢の今日の天気は」、第2セマンティックコンテンツが「目覚まし時計を設定してください」である場合を例にすると、第1セマンティックコンテンツ及び第2セマンティックコンテンツについてセマンティック分析を行ったところ、第1セマンティックコンテンツと第2セマンティックコンテンツには相関性がなく、且つ第1オーディオデータ及び第2オーディオデータがそれぞれユーザーの2つの異なるニーズを反映することが分かった。この場合、第1セマンティックコンテンツと前記第2セマンティックコンテンツが互いに独立し、すなわち、意味的には補完と矛盾がないと決定し、前記第1オーディオデータと第2オーディオデータを2つのターゲットオーディオデータとし、それぞれオーディオ応答を行い、且つ第1オーディオデータと第2オーディオデータに対応する応答情報をそれぞれ出力する必要がある。
【0046】
本開示の実施例における技術案は、受信したオーディオデータに対して応答した後に次のオーディオデータを処理する場合に比べて、ターゲットアプリケーションを再度ウェイクアップする必要がなく、それによって、対話プロセスを簡素化させるとともに、音声インタラクションのプロセスをより順調にし、さらに、第1オーディオデータと第2オーディオデータを結合してターゲットオーディオデータを得て、ターゲットオーディオデータに対してオーディオ応答を行うことによって、ユーザーの本格なニーズをより正確に把握し、個別に第1オーディオデータ及び第2オーディオデータに応答することによる応答エラーの確率を減少させ、このため、オーディオ応答の正確率も向上させる。
【0047】
別の好ましい実施例では、該方法は、
第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差を決定するステップをさらに含み、
この場合、ステップ103は、
第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差が第1所定期間以上であれば、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップを含む。
【0048】
オーディオデータを取得する過程において、ユーザーが少し一時停止することがある。この場合、ターゲットアプリケーションは、停止前後に取得したオーディオデータをそれぞれ第1オーディオデータと第2オーディオデータとすることがある。
【0049】
第1オーディオデータ及び第2オーディオデータを取得する時刻が異なり、且つ第2オーディオデータが第1オーディオデータ終了後に取得されるため、電子機器は、第1オーディオデータの取得が終了する終了時刻と第2オーディオデータの取得を開始させる開始時刻とをそれぞれ取得し、次に、該終了時刻及び開始時刻に基づいて時間差を得ることができる。
【0050】
次に、得られた時間差を設定された第1所定期間と比較し、時間差が第1所定期間以上であれば、ユーザーが話している途中に少し停止するのではないと判定する。このような場合には、ターゲットオーディオデータを得るには、第1オーディオデータ及び第2オーディオデータへのさらなる判断及び処理が必要とされる。たとえば、第1オーディオデータ及び第2オーディオデータをそれぞれターゲットオーディオデータとし、又は第1オーディオデータと第2オーディオデータをスプライシングして、ターゲットオーディオデータを得る。
【0051】
第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差が第1所定期間未満であれば、ユーザーが話している途中に少し停止すると判定する。この場合、第1オーディオデータと第2オーディオデータを直接スプライシングして完全なオーディオデータとし、この完全なオーディオデータをターゲットオーディオデータとすることができる。
【0052】
本開示の実施例では、ターゲットオーディオデータを得る前に、第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差を判定し、次に、第1オーディオデータ及び第2オーディオデータに対するさらなる処理が必要であるか否かを決定し、このようにして、取得されたオーディオデータに対して不要な処理を行うことを減少できる。
【0053】
ほかの好ましい実施例では、時間差が第1所定期間以上であれば、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
時間差が第1所定期間以上であれば、第1オーディオデータが完全に入力されたか否かを検出するステップと、
第1オーディオデータが完全に入力されていない場合、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップと、を含む。
【0054】
第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差が第1所定期間以上であれば、第1オーディオデータが完全に入力されたか否かをさらに検出する。第1オーディオデータが完全に入力されたか否かを検出することは、第1音声データの第1セマンティックコンテンツを取得することと、前記第1セマンティックコンテンツについてセマンティック分析を行って、セマンティック分析結果を得ることと、セマンティック分析結果に基づいて第1オーディオデータが完全に入力されたか否かを決定することと、を含む。
【0055】
たとえば、第1オーディオデータの第1セマンティックコンテンツが「設定してください」である。第1セマンティックコンテンツを分析した結果、第1セマンティックコンテンツにはいくつかの単語が含まれているが、第1セマンティックコンテンツに含まれる単語だけではユーザーのニーズを特定できない。それによって、第1セマンティックコンテンツのユーザーが音声信号を送信する過程に停止し又は中断される可能性があることが分かり、第1音声データが完全に入力されていないと判定できる。
【0056】
別の実施例では、第1音声データが完全ではなく、且つユーザーのさらなるオーディオ信号の入力が検出されない場合、ターゲットアプリケーションは、コンテクストを考慮して第1オーディオデータについて対応する応答情報を送信できる。たとえば、第1オーディオデータの第1セマンティックコンテンツが「設定してください」である場合、ターゲットアプリケーションによる応答情報は、「何を設定してほしいですか」であってもよい。
【0057】
ここで、自然言語処理(NLP:Natural Language Processing)技術によって第1オーディオデータが完全に入力されたか否かを検出できる。
【0058】
ほかの好ましい実施例では、第1オーディオデータが完全に入力されていない場合、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
第1オーディオデータが完全に入力されていない場合、第1オーディオデータと第2オーディオデータをスプライシングできるか否かを判断するステップと、
第1オーディオデータと第2オーディオデータをスプライシングできる場合、第1オーディオデータと第2オーディオデータをスプライシングして、ターゲットオーディオデータを得るステップと、を含む。
【0059】
たとえば、第1オーディオデータに含まれる内容が「今日の天気は」、第2オーディオデータに含まれる内容が「晴れ」である場合、第3オーディオデータであるターゲットオーディオデータに含まれる内容は、「今日の天気は晴れです」となる。
【0060】
ほかの好ましい実施例では、該方法は、第1オーディオデータが完全に入力された場合、第1オーディオデータ及び第2オーディオデータをそれぞれターゲットオーディオデータとして決定するステップをさらに含む。
【0061】
ここで、第1オーディオデータが完全に入力された場合、ターゲットアプリケーションが第1オーディオデータについて対応する応答情報を取得できると決定し、この場合、直接第1オーディオデータをターゲットオーディオデータとして決定できる。同様に、第2オーディオデータが完全に入力された場合、第2オーディオデータをターゲットオーディオデータとして決定できる。このようにして、ターゲットアプリケーションは、第1オーディオデータ及び第2オーディオデータに対応する応答情報をそれぞれ取得できる。
【0062】
ほかの好ましい実施例では、該方法は、
ターゲットオーディオデータに対して音響エコー除去処理を行うステップと、音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るステップと、応答情報を出力するステップと、をさらに含む。
【0063】
オーディオ処理には、電子機器が電子機器自体からのオーディオ信号(音楽、メッセージトーン)などを録音することがあり、この場合、ターゲットオーディオデータに対して音響エコー除去処理を行い、エコー処理後のターゲットオーディオデータ応答情報を得ることが必要とされ、それによって、電子機器からのオーディオ信号の干渉を減少させて、ターゲットアプリケーションが出力した応答情報の正確性及び安定性を確保できる。
【0064】
ここで、自動音声認識(Automatic Speech Recognition:ASR)技術及び音響エコー除去(Acoustic Echo Cancellation:AEC)技術によってターゲットオーディオデータに対して音響エコー除去処理を実施できる。
【0065】
別の実施例では、環境騒音、環境におけるヒトの音声(ユーザー又は他人がターゲットアプリケーション以外のために発音する音)などを録音する確率を減少させるために、ASR技術及びNLP技術によりターゲットオーディオデータを処理することで、ターゲットアプリケーション以外のための音をシールドしてもよい。
【0066】
ほかの好ましい実施例では、該方法は、
検出対象のオーディオデータを取得するステップと、出対象のオーディオデータにターゲットアプリケーションをウェイクアップするウェイクアップ情報が含まれているか否かを決定するステップと、検出対象のオーディオデータにウェイクアップ情報が含まれている場合、ターゲットアプリケーションに対してウェイクアップ処理を行うステップと、をさらに含み、オーディオデータは、音声データを含む。
【0067】
電子機器が備えるオーディオ収集コンポーネントによってオーディオ信号を収集し、オーディオ信号をデジタル化処理して、オーディオデータを得ることができ、ここで、オーディオ収集コンポーネントは、電子機器が備えるオーディオ収集用のコンポーネントであってもよく、電子機器が携帯電話である場合を例にすると、オーディオ収集コンポーネントは、携帯電話のマイクロフォンであり得る。
【0068】
検出対象のオーディオデータは、収集したユーザーの音声信号をデジタル化処理して得た音声データを含み、ウェイクアップ情報は、予め設定されたウェイクアップ単語であり、ターゲットアプリケーションは、電子機器にインストールされてユーザーと音声インタラクションを行うためのアプリケーション、たとえば、音声アシスタントであってもよい。
【0069】
具体的には、電子機器が備えるオーディオ収集コンポーネントによりユーザーからの音声信号が受信されると、該音声信号に対してデジタル化処理を行って、音声データを得て、音声データに予め設定されたウェイクアップ単語があるか否かを検出する。ここで、ウェイクアップ単語は、ユーザーにより必要に応じて設定されるものであってもよく、たとえば、ウェイクアップ単語を「小愛同学」に設定する。
【0070】
ウェイクアップ処理とは、ターゲットアプリケーションがスリープ状態から作動状態に入るように制御することを意味し、ターゲットアプリケーションをウェイクアップした後、ターゲットアプリケーションによってオーディオデータを処理できる。別の実施例では、アイコン、ショートカットキーなどによってユーザーが入力したウェイクアップ操作を受信して、ターゲットアプリケーションをウェイクアップすることもできる。
【0071】
ほかの好ましい実施例では、携帯電話にインストールされる音声アシスタントを例にして、ユーザーは、携帯電話の音声アシスタントと音声インタラクションをする際に、まず、所定命令を通じて音声アシスタントをウェイクアップし、ウェイクアップ後に話し始め、音声アシスタントは、ユーザーが話している内容に応じた応答を行う。
【0072】
所定命令は、所定の音声命令、携帯電話におけるアイコンに対するトリガー命令、携帯電話におけるショートカットキーに対するトリガー命令のうちの少なくとも1つを含む。ここで、ユーザーが音声アシスタントに対して今日及び明日の天気のお問い合わせをする場合を例にして、主な会話の内容は、以下のとおりである。
ユーザー:小愛同学(ここで音声命令を通じて音声アシスタントをウェイクアップするが、アイコン、ショートカットキーをクリックするなどのほかの方式で音声アシスタントをウェイクアップしてもよい)
小愛:はい/プロンプトトーン(応答プロンプト)
ユーザー:今日の天気は、
小愛:今日の天気は、……(今日の天気を放送する)
ユーザー:小愛同学(ここで音声命令を通じて音声アシスタントをウェイクアップするが、アイコン、ショートカットキーをクリックするなどのほかの方式で音声アシスタントをウェイクアップしてもよい)
小愛:はい/プロンプトトーン(応答プロンプト)
ユーザー:明日は、
小愛:明日の北京の天気は……(明日の天気を放送する)
【0073】
別の実施例では、ユーザーは、まず、所定命令を通じて音声アシスタントをウェイクアップし、ウェイクアップ後に話し始め、音声アシスタントは、ユーザーが1つのセンテンスを終了した後に話し続ける可能性があると予備判出すると、回答終了後にマイクロフォンを自動的にウェイクアップして、ユーザーからの次の命令を受信する。ここで、ユーザーが音声アシスタントを通じて目覚まし時計を設定する場合を例にして、主な会話の内容は、以下のとおりである。
ユーザー:小愛同学(ここで音声命令を通じて音声アシスタントをウェイクアップするが、アイコン、ショートカットキーをクリックするなどのほかの方式で音声アシスタントをウェイクアップしてもよい)
小愛:はい/プロンプトトーン(応答プロンプト)
ユーザー:目覚まし時計を設定したいですが
小愛:目覚まし時計を何時に設定しますか?
ユーザー:夜の7時
小愛:目覚まし時計を夜の7時に設定しました。
【0074】
図2は、例示的な一実施例によるオーディオ処理方法の別の模式的なフローチャートであり、図2に示すように、該方法は、主に、ステップ201~ステップ212を含む。
【0075】
ステップ201では、検出対象のオーディオデータを取得し、検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定する。
【0076】
電子機器が備えるオーディオ収集コンポーネントによってオーディオ信号を収集し、オーディオ信号をデジタル化処理して、オーディオデータを得ることができ、ここで、オーディオ収集コンポーネントは、電子機器が備えるオーディオ収集用のコンポーネントであってもよく、電子機器が携帯電話である場合を例にすると、オーディオ収集コンポーネントは、携帯電話のマイクロフォンであり得る。
【0077】
検出対象のオーディオデータは、収集したユーザーの音声信号をデジタル化処理して得た音声データを含み、ウェイクアップ情報は、予め設定されたウェイクアップ単語であり、ターゲットアプリケーションは、電子機器にインストールされてユーザーと音声インタラクションを行うためのアプリケーション、たとえば、音声アシスタントであってもよい。
【0078】
たとえば、電子機器が備えるオーディオ収集コンポーネントによりユーザーからの音声信号が受信されると、該音声信号に対してデジタル化処理を行って、音声データを得て、音声データに予め設定されたウェイクアップ単語があるか否かを検出する。ここで、ウェイクアップ単語は、ユーザーにより必要に応じて設定されるものであってもよく、たとえば、動単語を「小愛同学」に設定する。
【0079】
ステップ202では、検出対象のオーディオデータにウェイクアップ情報が含まれている場合、ターゲットアプリケーションに対してウェイクアップ処理を行う。
【0080】
ウェイクアップ処理とは、ターゲットアプリケーションがスリープ状態から作動状態に入るように制御することを意味し、ターゲットアプリケーションをウェイクアップした後、ターゲットアプリケーションによってオーディオデータを処理できる。別の実施例では、アイコン、ショートカットキーなどによってユーザーが入力したウェイクアップ操作を受信して、ターゲットアプリケーションをウェイクアップすることもできる。
【0081】
ステップ203では、ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得する。
【0082】
第1オーディオデータは、第1オーディオ信号をデジタル化処理したデータであり、第1オーディオ信号は、音収集コンポーネントによって収集されたユーザーからの音声信号であってもよい。
【0083】
ステップ204では、第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、第2オーディオデータを取得する。
【0084】
ステップ205では、第1オーディオデータの取得終了と第2オーディオ信号に対応する第2オーディオデータの取得開始との間の時間差を決定する。
【0085】
ステップ206では、第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差が第1所定期間以上であるか否かを判断する。
【0086】
別の実施例では、第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差が第1所定期間未満であれば、直接第1オーディオデータと第2オーディオデータをターゲットオーディオデータにスプライシングする。
【0087】
第1オーディオデータの取得終了と第2オーディオデータの取得開始との間に時間差があり、且つターゲットアプリケーションは、第1オーディオデータ及び第2オーディオデータが完全に独立した2つのデータであるか、相関性を有する2つのデータであるかを判定できないため、正確に応答できない。
【0088】
本開示の実施例では、ターゲットオーディオデータを得る前に、第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差を判定し、次に、第1オーディオデータ及び第2オーディオデータに対するさらなる処理が必要であるか否かを決定し、このようにして、取得されたオーディオデータに対して不要な処理を行うことを減少できるだけでなく、また、より正確な応答情報が得られ得る。
【0089】
ステップ207では、時間差が第1所定期間以上であれば、第1オーディオデータが完全に入力されたか否かを検出する。
【0090】
ここで、NLP技術によって第1オーディオデータが完全に入力されたか否かを検出できる。第1オーディオデータが完全に入力されたと検出すると、第1オーディオデータに対応する応答情報を得て、該応答情報を出力する。
【0091】
ステップ208では、第1オーディオデータが完全に入力されていない場合、第1オーディオデータと第2オーディオデータをスプライシングできるか否かを判断する。
【0092】
ステップ209では、第1オーディオデータと第2オーディオデータをスプライシングできる場合、第1オーディオデータと第2オーディオデータをスプライシングして、ターゲットオーディオデータを得る。
【0093】
ステップ210では、第1オーディオデータが完全に入力された場合、第1オーディオデータ及び第2オーディオデータをそれぞれターゲットオーディオデータとして決定する。
【0094】
ステップ211では、ターゲットオーディオデータに基づいて、応答情報を得る。
【0095】
ステップ212では、応答情報を出力する。
【0096】
ほかの好ましい実施例では、受信したインタラクション終了命令に基づいて、ターゲットアプリケーションとユーザーとの間のインタラクションを終了させる。ここで、音声方式でインタラクション終了命令を入力するが、アイコン、ショートカットキーなどをクリックするなどのほかの方式でインタラクション終了命令を入力してもよい。
【0097】
本開示の実施例では、ターゲットアプリケーションをウェイクアップした後、ユーザーは、いつでもターゲットアプリケーションと直接会話することができ、このようにすると、ターゲットアプリケーションは、持続的な会話の過程においても、ユーザーが入力した各オーディオ信号にタイムリーに応答できる。たとえば、ユーザーが音楽を聴くときに、ターゲットアプリケーションにより提供された音楽の内容が好きではない場合、「別の歌に変更してください」を話せばよく、ユーザーが連続的にターゲットアプリケーションへ音声信号を送信する場合、ターゲットアプリケーションは、音声信号を連続的に受信して、対応する応答を行うことができ、ターゲットアプリケーションを再度ウェイクアップする必要がなく、また、ターゲットアプリケーションが既に受信した音声信号に対する応答情報の出力を終了するまで持つ必要もない。
【0098】
図3は、例示的な一実施例によるオーディオ処理装置のブロック図である。図3に示すように、該オーディオ処理装置300は、主に、
ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得するように構成される第1オーディオ取得モジュール301と、
第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、第2オーディオデータを取得するように構成される第2オーディオ取得モジュール302と、
第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るように構成される第1オーディオ決定モジュール303と、を備える。
【0099】
ほかの好ましい実施例では、装置300は、
第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差を決定するように構成される時間決定モジュールをさらに備え、
第1オーディオ決定モジュールは、
時間差が第1所定期間以上であれば、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るオーディオ決定サブモジュールを備える。
【0100】
ほかの好ましい実施例では、オーディオ決定サブモジュールは、具体的には、
時間差が第1所定期間以上であれば、第1オーディオデータが完全に入力されたか否かを検出し、
第1オーディオデータが完全に入力されていない場合、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るように構成される。
【0101】
ほかの好ましい実施例では、オーディオ決定サブモジュールは、さらに、具体的に、
第1オーディオデータが完全に入力されていない場合、第1オーディオデータと第2オーディオデータをスプライシングできるか否かを判断し、
第1オーディオデータと第2オーディオデータをスプライシングできる場合、第1オーディオデータと第2オーディオデータをスプライシングして、ターゲットオーディオデータを得るように構成される。
【0102】
ほかの好ましい実施例では、装置300は、
第1オーディオデータが完全に入力された場合、第1オーディオデータ及び第2オーディオデータをそれぞれターゲットオーディオデータとして決定するように構成される第2オーディオ決定モジュールをさらに備える。
【0103】
ほかの好ましい実施例では、装置300は、
ターゲットオーディオデータに対して音響エコー除去処理を行うように構成される音響エコー除去モジュールと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るように構成される応答モジュールと、
応答情報を出力するように構成される出力モジュールと、をさらに備える。
【0104】
ほかの好ましい実施例では、装置300は、
検出対象のオーディオデータを取得するように構成される第3オーディオ取得モジュールと、
検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するように構成される情報決定モジュールと、
検出対象のオーディオデータにウェイクアップ情報が含まれている場合、ターゲットアプリケーションに対してウェイクアップ処理を行うように構成されるウェイクアップモジュールと、をさらに備え、
オーディオデータは、音声データを含む。
【0105】
上記実施例における装置については、その各モジュールが操作を実行する具体的な方式は、該方法に係る実施例において詳細に説明したが、ここで詳しく説明しない。
【0106】
図4は、例示的な一実施例によるオーディオ処理装置400のハードウェア構造のブロック図である。たとえば、装置400は、モバイル電話、計算機、デジタル放送端末、メッセージ受送信機器、ゲームコンソール、タブレット機器、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどであってもよい。
【0107】
図4に示すように、装置400は、処理コンポーネント402、メモリ404、電力コンポーネント406、マルチメディアコンポーネント408、オーディオコンポーネント410、入力/出力(I/O)インターフェース412、センサーコンポーネント414、及び通信コンポーネント416のうちの1つ又は複数のコンポーネントを備えてもよい。
【0108】
処理コンポーネント402は、通常、装置400全体の操作、たとえば、表示、電話の発呼、データ通信、カメラ操作や記録操作に係る操作を制御する。処理コンポーネント402は、命令を実行して上記方法のすべて又は一部のステップを完了するために、1つ又は複数のプロセッサ420を備えてもよい。そのほか、処理コンポーネント402は、ほかのコンポーネントと容易にインタラクションできるように、1つ又は複数のモジュールを備えてもよい。たとえば、処理コンポーネント402は、マルチメディアコンポーネント408と容易にインタラクションするように、マルチメディアモジュールを備えてもよい。
【0109】
メモリ404は、装置400での操作をサポートするように各種のタイプのデータを記憶するように構成される。これらデータの例には、装置400において運行する任意のアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオなどが含まれる。メモリ404は、任意のタイプの揮発性又は不揮発性記憶機器又はこれらの組み合わせによって実現でき、たとえば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクである。
【0110】
電力コンポーネント406は、装置400のさまざまなコンポーネントに電力を供給する。電力コンポーネント406は、電源管理システム、1つ又は複数の電源、及び装置400の生成、管理及び電力配分に係るコンポーネントを備えてもよい。
【0111】
マルチメディアコンポーネント408は、前記装置400とユーザーの間で1つの出力インターフェースを提供する画面を備える。いくつかの実施例において、画面は、液晶ディスプレイ(LCD)及びタッチパネル(TP)を備えてもよい。画面がタッチパネルを備える場合、画面は、タッチスクリーンとなり、ユーザーからの入力信号を受信する。タッチパネルは、タッチ、スライド及びタッチパネルにおけるジェスチャーを検知するように1つ又は複数のタッチセンサーを備える。前記ジェスチャーセンサーは、ジェスチャー又はスライドの動作のエッジを検知するだけでなく、前記ジェスチャー又はスライド操作に係る持続時間及び圧力を検出できる。いくつかの実施例において、マルチメディアコンポーネント408は、1つのフロントカメラ及び/又はバックカメラを備える。装置400が操作モード、たとえば撮影モード又はビデオモードである場合、フロントカメラ及び/又はバックカメラは、外部のマルチメディアデータを受信できる。フロントカメラ及びバックカメラは、それぞれ固定した光学レンズシステムであるか、又は焦点距離及び光学ズーム能力を有するようにしてもよい。
【0112】
オーディオコンポーネント410は、オーディオ信号を出力及び/又は入力するように構成される。たとえば、オーディオコンポーネント410は、1つのマイクロフォン(MIC)を備え、装置400が操作モード、たとえば発呼モード、記録モード及び音声認識モードである場合、マイクロフォンは、外部のオーディオ信号を受信するように構成される。受信したオーディオ信号がさらにメモリ404に記憶され又は通信コンポーネント416を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント410は、オーディオ信号を出力するためのスピーカーをさらに備える。
【0113】
I/Oインターフェース412は、処理コンポーネント402と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらボタンには、ホームページボタン、音量ボタン、スタートボタン及びロックボタンが含まれるが、これらに制限されない。
【0114】
センサーコンポーネント414は、装置400のさまざまな状態を評価するために1つ又は複数のセンサーを備える。たとえば、センサーコンポーネント414は、装置400のオン/オフ状態、装置400のモニターやキーパッドなどのコンポーネントの相対位置を検出することができ、センサーコンポーネント414は、また、装置400又は装置400の1つのコンポーネントの位置変化、ユーザーと装置400の接触の有無、装置400の方位又は加速/減速や装置400の温度変化を検出できる。センサーコンポーネント414は、いずれの物理的接触がない場合に付近の物体の存在を検出するための近接センサーを備えてもよい。センサーコンポーネント414は、画像形成用途用のために、たとえばCMOS又はCCD画像センサーなどの光センサーを備えてもよい。いくつかの実施例において、該センサーコンポーネント414は、加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを備えてもよい。
【0115】
通信コンポーネント416は、装置400とほかの機器との有線又は無線通信を容易に実施するように構成される。装置400は、通信規格に基づく無線ネットワーク、たとえばWiFi、2G又は3G、又はこれらの組み合わせにアクセスすることができる。例示的な一実施例では、通信コンポーネント416は、放送チャンネルを介して外部の放送管理システムからの放送信号又は放送関連情報を受信する。例示的な一実施例では、前記通信コンポーネント416は、近距離通信を促進するために、近距離無線通信(NFC)モジュールをさらに備える。たとえば、NFCモジュールは、RF識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術やほかの技術によって実現できる。
【0116】
例示的な実施例では、装置400は、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又はほかの電子素子により実現でき、上記方法を実行する。
【0117】
例示的な実施例では、命令を含む非一時的なコンピュータ可読記憶媒体、たとえば命令を含むメモリ404をさらに提供し、上記命令は、装置400のプロセッサ420により実行されて上記方法を完成できる。たとえば、前記非一時的なコンピュータ可読記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピー(登録商標)ディスクや光データ記憶機器などであってもよい。
【0118】
非一時的なコンピュータ可読記憶媒体であって、前記記憶媒体における命令が電子機器のプロセッサにより実行されるとき、電子機器にオーディオ処理の方法の1つを実行させ、前記方法は、
ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得するステップと、
前記第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、前記第2オーディオデータを取得するステップと、
前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップと、を含む。
【0119】
当業者が明細書を読んで、ここで開示された発明を実施することによって、本開示のほかの実施形態を容易に相当し得る。本開示は、本開示的の任意の変形、用途又は適応変化を含むことを意図し、これら変形、用途又は適応変化は、本開示の一般的な原理を遵守し、かつ本開示で開示されていない本技術分野における公知常識又は慣用の技術的手段を含む。明細書及び実施例は、例示的なものに過ぎず、本開示の実際な範囲及び趣旨は、以下の特許請求の範囲により限定される。
【0120】
なお、本開示は、以上説明し図示した詳細な構成に制限されず、その範囲から逸脱せずにさまざまな修正及び変化を行うことができる。本開示の範囲は、添付した特許請求の範囲のみにより限定される。
図1
図2
図3
図4