(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-08
(45)【発行日】2024-02-19
(54)【発明の名称】音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体
(51)【国際特許分類】
G10L 15/22 20060101AFI20240209BHJP
A63F 13/424 20140101ALI20240209BHJP
A63F 13/80 20140101ALI20240209BHJP
G06F 3/16 20060101ALI20240209BHJP
G10L 15/00 20130101ALI20240209BHJP
G10L 15/20 20060101ALI20240209BHJP
G10L 21/0208 20130101ALI20240209BHJP
【FI】
G10L15/22 453
A63F13/424
A63F13/80 A
G06F3/16 630
G06F3/16 650
G10L15/00 200A
G10L15/20 370D
G10L21/0208
(21)【出願番号】P 2019133295
(22)【出願日】2019-07-19
【審査請求日】2019-07-19
【審判番号】
【審判請求日】2021-05-24
(31)【優先権主張番号】201811053135.9
(32)【優先日】2018-09-10
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(73)【特許権者】
【識別番号】521235408
【氏名又は名称】シャンハイ シャオドゥ テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】100108833
【氏名又は名称】早川 裕司
(74)【代理人】
【識別番号】100162156
【氏名又は名称】村雨 圭介
(72)【発明者】
【氏名】杜 浜源
(72)【発明者】
【氏名】張 岩
(72)【発明者】
【氏名】袁 鵬
(72)【発明者】
【氏名】田 龍龍
(72)【発明者】
【氏名】常 良玉
【合議体】
【審判長】千葉 輝久
【審判官】木方 庸輔
【審判官】川崎 優
(56)【参考文献】
【文献】国際公開第2015/098079(WO,A1)
【文献】特開平8-263258(JP,A)
【文献】特開2019-92147(JP,A)
【文献】内藤謙一,「機能は作るな!APIで呼び出せ!」「Part1実践!WebAPIで4つのアプリを開発しよう 画像から顔を認識する「性別」や「年齢」、「笑顔度」も判定 オープンデータを取得する 取得したデータを基にグラフを描画 音声データからテキストを作成する テキストからキーワードも抽出 ブログに記事投稿 MovableTypeのAPIで外部から記事を投稿」,日経ソフトウエア,日本,日経BP社,2017年4月24日,第20巻,第7号,10~26ページ
【文献】飯塚直、「はじめてのスマートスピーカーGoogleHome、AmazonEcho、IFTTTで音声アプリ開発!」「第4章Alexaスキルの開発AmazonEchoで遊べる鳥の鳴き声クイズを作ろう!」,WEB+DB PRESS,日本,株式会社技術評論社,2018年7月7日,第105巻,92~100ページ
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00 - 25/93
(57)【特許請求の範囲】
【請求項1】
取得したユーザのオーディオデータをサーバに送信するステップと、
前記サーバから返信された構造化データを受信するステップであって、前記構造化データは、前記サーバが前記オーディオデータに対して音声理解処理を行うことによって得られるものであり、前記音声理解処理は、前記サーバが前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得する処理であって、前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得する前記処理は、前記オーディオデータにおけるオーディオ特徴を抽出して、抽出したオーディオ特徴を復号処理し、前記オーディオデータに対応する文字情報を取得する処理を含む処理と、前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得する処理であって、前
記自然言語処
理は、
前記文字情報に対して、情報フィルタリング、自動要約、情報抽出、テキストマイニング
などを行う処理
であり、前
記語義解
釈は、
前記自然言語処理の結果に対して、ユーザ操作意図を理解し、前記ユーザ操作意図を有する解析コンテンツを取得する処理
である処理と、モデル処理により前記解析コンテンツを分類する処理であって、モデル処理により前記解析コンテンツを分類する前記処理は、モデルで解析コンテンツと機械コマンド情報との間の対応関係を確立し、前記対応関係が、ユーザ操作意図を有する複数の解析コンテンツと1つの機械コマンド情報との間の対応関係を含み、前記モデルで前記解析コンテンツを分類することにより、前記ユー
ザ操作意図を前記機械コマンド情報に対応付け、さらに前記機械コマンド情報を前記構造化データとする処理と、を含み、前記解析コンテンツと前記構造化データとが多対1の関係であり、前記構造化データが、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すためのものであるステップと、
実行しているゲーム及び前記構造化データに基づいて操作コマンドを生成し、前記ゲームが前記操作コマンドに対応する操作を実行するように制御するステップと、を含むことを特徴とする音声インタラクション方法。
【請求項2】
前記ゲームの起動が検出されると、前記ゲームと音声スマートインタラクションシステムとの間の接続を確立し、前記ゲームと前記音声スマートインタラクションシステムとの間のバインディングを完了するステップをさらに含むことを特徴とする請求項1に記載の音声インタラクション方法。
【請求項3】
取得したユーザのオーディオデータをサーバに送信するステップは、
前記音声スマートインタラクションシステムにより、前記オーディオデータを前記サーバに送信して語義理解を行うことを含むことを特徴とする請求項2に記載の音声インタラクション方法。
【請求項4】
スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力した前記オーディオデータを受信するステップをさらに含むことを特徴とする請求項1に記載の音声インタラクション方法。
【請求項5】
取得したユーザのオーディオデータをサーバに送信するステップの前に、前記オーディオデータに対してエコー除去及び/又はノイズ低減処理を行い、処理後のオーディオデータを取得するステップをさらに含むことを特徴とする請求項1~4のいずれか1項に記載の音声インタラクション方法。
【請求項6】
実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するステップは、
前記音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び前記構造化データに基づいて、前記構造化データに対応する操作コマンドを決定することと、
前記操作コマンドに基づいて前記ゲームが対応する操作を実行するように制御することと、を含むことを特徴とする請求項2に記載の音声インタラクション方法。
【請求項7】
端末機器から送信されたオーディオデータを受信するステップと、
前記オーディオデータに対して音声理解処理を行い、前記オーディオデータに対応する構造化データを取得するステップと、
前記構造化データを前記端末機器に返信するステップと、を含み、
前記オーディオデータに対して音声理解処理を行い、前記オーディオデータに対応する構造化データを取得するステップは、
前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得する処理であって、前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得する前記処理は、前記オーディオデータにおけるオーディオ特徴を抽出して、抽出したオーディオ特徴を復号処理し、前記オーディオデータに対応する文字情報を取得する処理を含む処理と、
前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得する処理であって、前
記自然言語処
理は、
前記文字情報に対して、情報フィルタリング、自動要約、情報抽出、テキストマイニング
などを行う処理
であり、前
記語義解
釈は、
前記自然言語処理の結果に対して、ユーザ操作意図を理解し、前記ユーザ操作意図を有する解析コンテンツを取得する処理
である処理と、
モデル処理により前記解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための前記構造化データを取得する処理であって、モデル処理により前記解析コンテンツを分類し、前記構造化データを取得する前記処理は、モデルで解析コンテンツと機械コマンド情報との間の対応関係を確立し、前記対応関係が、ユーザ操作意図を有する複数の解析コンテンツと1つの機械コマンド情報との間の対応関係を含み、前記モデルで前記解析コンテンツを分類することにより、前記ユー
ザ操作意図を前記機械コマンド情報に対応付け、さらに前記機械コマンド情報を前記構造化データとする処理を含む処理と、を含み、
前記解析コンテンツと前記構造化データとが多対1の関係であることを特徴とする音声インタラクション方法。
【請求項8】
取得したユーザのオーディオデータをサーバに送信するための送信モジュールと、
前記サーバから返信された構造化データを受信するための受信モジュールであって、前記構造化データは、前記サーバが前記オーディオデータに対して音声理解処理を行うことによって得られるものであり、前記音声理解処理は、前記サーバが前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得する処理であって、前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得する前記処理は、前記オーディオデータにおけるオーディオ特徴を抽出して、抽出したオーディオ特徴を復号処理し、前記オーディオデータに対応する文字情報を取得する処理を含む処理と、前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得する処理であって、前
記自然言語処
理は、
前記文字情報に対して、情報フィルタリング、自動要約、情報抽出、テキストマイニング
などを行う処理
であり、前
記語義解
釈は、
前記自然言語処理の結果に対して、ユーザ操作意図を理解し、前記ユーザ操作意図を有する解析コンテンツを取得する処理
である処理と、モデル処理により前記解析コンテンツを分類する処理であって、モデル処理により前記解析コンテンツを分類する前記処理は、モデルで解析コンテンツと機械コマンド情報との間の対応関係を確立し、前記対応関係が、ユーザ操作意図を有する複数の解析コンテンツと1つの機械コマンド情報との間の対応関係を含み、前記モデルで前記解析コンテンツを分類することにより、前記ユー
ザ操作意図を前記機械コマンド情報に対応付け、さらに前記機械コマンド情報を前記構造化データとする処理と、を含み、前記解析コンテンツと前記構造化データとが多対1の関係であり、前記構造化データが、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すためのものである受信モジュールと、
実行しているゲーム及び前記構造化データに基づいて操作コマンドを生成し、前記ゲームが前記操作コマンドに対応する操作を実行するように制御するための処理モジュールと、を含むことを特徴とする端末機器。
【請求項9】
前記処理モジュールはさらに、
前記ゲームの起動が検出されると、前記ゲームと音声スマートインタラクションシステムとの間の接続を確立し、前記ゲームと前記音声スマートインタラクションシステムとの間のバインディングを完了するために用いられることを特徴とする請求項8に記載の端末機器。
【請求項10】
前記送信モジュールは、
音声スマートインタラクションシステムにより、前記オーディオデータを前記サーバに送信して語義理解を行うために用いられることを特徴とする請求項8に記載の端末機器。
【請求項11】
前記受信モジュールはさらに、
スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力した前記オーディオデータを受信するために用いられることを特徴とする請求項8に記載の端末機器。
【請求項12】
前記処理モジュールは、
前記オーディオデータに対してエコー除去及び/又はノイズ低減処理を行い、処理後のオーディオデータを取得するために用いられることを特徴とする請求項8に記載の端末機器。
【請求項13】
前記処理モジュールは、
音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び前記構造化データに基づいて、前記構造化データに対応する操作コマンドを決定し、
前記操作コマンドに基づいて前記ゲームが対応する操作を実行するように制御するために用いられることを特徴とする請求項8に記載の端末機器。
【請求項14】
端末機器から送信されたオーディオデータを受信するための受信モジュールと、
前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する構造化データを取得するための処理モジュールと、
前記構造化データを前記端末機器に返信するための送信モジュールと、を含み、
前記処理モジュールは、
前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得するために用いられ、前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得する前記処理は、前記オーディオデータにおけるオーディオ特徴を抽出して、抽出したオーディオ特徴を復号処理し、前記オーディオデータに対応する文字情報を取得する処理を含み、
前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得するために用いられ、前
記自然言語処
理は、
前記文字情報に対して、情報フィルタリング、自動要約、情報抽出、テキストマイニング
などを行う処理
であり、前
記語義解
釈は、
前記自然言語処理の結果に対して、ユーザ操作意図を理解し、前記ユーザ操作意図を有する解析コンテンツを取得する処理
であり、
モデル処理により前記解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための前記構造化データを取得するために用いられ、モデル処理により前記解析コンテンツを分類し、前記構造化データを取得する前記処理は、モデルで解析コンテンツと機械コマンド情報との間の対応関係を確立し、前記対応関係が、ユーザ操作意図を有する複数の解析コンテンツと1つの機械コマンド情報との間の対応関係を含み、前記モデルで前記解析コンテンツを分類することにより、前記ユー
ザ操作意図を前記機械コマンド情報に対応付け、さらに前記機械コマンド情報を前記構造化データとする処理を含み、
前記解析コンテンツと前記構造化データとが多対1の関係であることを特徴とするサーバ。
【請求項15】
受信器、送信器、少なくとも1つのプロセッサ、メモリ及びコンピュータプログラムを含む端末機器であって、
前記メモリはコンピュータ実行コマンドを記憶し、
前記少なくとも1つのプロセッサが前記メモリに記憶された前記コンピュータ実行コマンドを実行することにより、前記少なくとも1つのプロセッサは請求項1~6のいずれか1項に記載の音声インタラクション方法を実行することを特徴とする端末機器。
【請求項16】
受信器、送信器、メモリ、少なくとも1つのプロセッサ及びコンピュータプログラムを含むサーバであって、
前記メモリはコンピュータ実行コマンドを記憶し、
前記少なくとも1つのプロセッサが前記メモリに記憶された前記コンピュータ実行コマンドを実行することにより、前記少なくとも1つのプロセッサは請求項7に記載の音声インタラクション方法を実行することを特徴とするサーバ。
【請求項17】
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサが前記コンピュータ実行コマンドを実行する時、請求項1~6のいずれか1項に記載の音声インタラクション方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項18】
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサが前記コンピュータ実行コマンドを実行する時、請求項7に記載の音声インタラクション方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施例は、音声インタラクション技術の分野に関し、特に音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
時代の流れとして、テレビ画面の解像度が大幅に向上し、優れた解像度によりテレビがビデオ画面を再生する時には非常に大きな利点を有する。テレビは、テレビ番組を見る単なるツールとしての役割だけでなく、ビデオ、娯楽、ゲーム、テレビ番組のプラットフォームとしても発達している。
【0003】
従来の技術において、デュアルオペレーティングシステム(Duer Operating System、DuerOS)を搭載するテレビには、スマートインタラクション対話システムが集積されており、ユーザは人間の言語でスマートテレビと自然にインタラクションすることができる。同時に、テレビ(Television、TV)側は画面が大きいという特徴を有し、ゲームをするのにも非常に適している。
【0004】
しかしながら、現在、テレビ利用シーンでは、リモートコントローラキーを使ってゲームをプレイすることへの反応性がよくない。対話型インタラクションにより適するいくつかのゲームは、従来の技術においては不十分なゲーム体験になってしまい、娯楽性及び利便性の面でユーザのニーズをうまく満たすことができていない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の実施例は、上記のような対話効果が低く、ユーザ体験及び利便性が低いという問題を解決する、音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体を提供する。
【課題を解決するための手段】
【0006】
第1の態様では、本発明の実施例は、取得したユーザのオーディオデータをサーバに送信するステップと、前記サーバから返信された、前記サーバが前記オーディオデータを識別した後に取得される構造化データを受信するステップと、実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するステップと、を含むことを特徴とする音声インタラクション方法を提供する。
【0007】
1つの具体的な実施形態において、前記方法は、前記ゲームの起動が検出されると、前記ゲームと音声スマートインタラクションシステムとの間の接続を確立し、前記ゲームと前記音声スマートインタラクションシステムとの間のバインディングを完了するステップをさらに含む。
【0008】
さらに、取得したユーザのオーディオデータをサーバに送信するステップは、前記音声スマートインタラクションシステムにより、前記オーディオデータを前記サーバに送信して語義理解を行うことを含む。
【0009】
1つの具体的な実施形態において、前記方法は、スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力した前記オーディオデータを受信するステップをさらに含む。
【0010】
さらに、取得したユーザのオーディオデータをサーバに送信するステップの前に、前記オーディオデータに対してエコー除去及び/又はノイズ低減処理を行い、処理後のオーディオデータを取得するステップを含む。
【0011】
さらに、実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するステップは、前記音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び前記構造化データに基づいて、前記構造化データに対応する操作コマンドを決定することと、前記操作コマンドに基づいて前記ゲームが対応する操作を実行するように制御することと、を含む。
【0012】
第2の態様では、本発明の実施例は、端末機器から送信されたオーディオデータを受信するステップと、前記オーディオデータに対して語義理解処理を行い、前記オーディオデータに対応する構造化データを取得するステップと、前記構造化データを前記端末機器に返信するステップと、を含むことを特徴とする音声インタラクション方法を提供する。
【0013】
さらに、前記オーディオデータに対して語義理解処理を行い、前記オーディオデータに対応する構造化データを取得するステップは、前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得することと、前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得することと、モデル処理により前記解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための前記構造化データを取得することと、を含む。
【0014】
第3の態様では、本発明の実施例は、取得したユーザのオーディオデータをサーバに送信するための送信モジュールと、前記サーバから返信された、前記サーバが前記オーディオデータを識別した後に取得される構造化データを受信するための受信モジュールと、実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するための処理モジュールと、を含むことを特徴とする端末機器を提供する。
【0015】
1つの具体的な実施形態において、前記処理モジュールはさらに、前記ゲームの起動が検出されると、前記ゲームと音声スマートインタラクションシステムとの間の接続を確立し、前記ゲームと前記音声スマートインタラクションシステムとの間のバインディングを完了するために用いられる。
【0016】
1つの具体的な実施形態において、前記送信モジュールは、前記音声スマートインタラクションシステムにより、前記オーディオデータを前記サーバに送信して語義理解を行うために用いられる。
【0017】
1つの具体的な実施形態において、前記受信モジュールはさらに、スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力した前記オーディオデータを受信するために用いられる。
【0018】
1つの具体的な実施形態において、前記処理モジュールは具体的には、前記オーディオデータに対してエコー除去及び/又はノイズ低減処理を行い、処理後のオーディオデータを取得し、前記処理後のオーディオデータに対して特徴抽出を行ってオーディオ特徴を取得し、且つ前記オーディオ特徴を復号し、前記文字情報を取得するために用いられる。
【0019】
1つの具体的な実施形態において、前記処理モジュールは具体的には、前記音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び前記構造化データに基づいて、前記構造化データに対応する操作コマンドを決定し、前記操作コマンドに基づいて前記ゲームを対応する操作を実行するように制御するために用いられる。
【0020】
第4の態様では、本発明の実施例は、端末機器から送信されたオーディオデータを受信するための受信モジュールと、前記オーディオデータに対して音声理解処理を行い、前記オーディオデータに対応する構造化データを取得するための処理モジュールと、前記構造化データを前記端末機器に返信するための送信モジュールと、を含むことを特徴とするサーバを提供する。
【0021】
1つの具体的な実施形態において、前記処理モジュールは具体的には、前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得し、前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得し、モデル処理により前記解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための前記構造化データを取得するために用いられる。
【0022】
第5の態様では、本発明の実施例は、受信器、送信器、少なくとも1つのプロセッサ、メモリ及びコンピュータプログラムを含む端末機器を提供し、前記メモリはコンピュータ実行コマンドを記憶し、前記少なくとも1つのプロセッサが前記メモリに記憶された前記コンピュータ実行コマンドを実行することにより、前記少なくとも1つのプロセッサは第1の態様に記載の音声インタラクション方法を実行する。
【0023】
第6の態様では、本発明の実施例は、受信器、送信器、メモリ、プロセッサ及びコンピュータプログラムを含むサーバを提供し、前記メモリはコンピュータ実行コマンドを記憶し、前記プロセッサが前記メモリに記憶されたコンピュータ実行コマンドを実行することにより、前記少なくとも1つのプロセッサは第2の態様に記載の音声インタラクション方法を実行する。
【0024】
第7の態様では、本発明の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサが前記コンピュータ実行コマンドを実行する時、第1の態様に記載の音声インタラクション方法を実現する。
【0025】
第8の態様では、本発明の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサが前記コンピュータ実行コマンドを実行する時、第2の態様に記載の音声インタラクション方法を実現する。
【発明の効果】
【0026】
本実施例は、音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体を提供する。当該方法は、取得したユーザのオーディオデータをサーバに送信して語義理解を行い、構造化データを取得し、且つサーバから返信された構造化データを受信し、実行しているゲーム及び構造化データに基づいてゲームが対応する操作を実行するように制御することを含む。本実施例は、音声識別及び語義理解技術を使用し、端末機器とサーバとの通信によりユーザが対話型インタラクションでゲームを完了する操作を実現し、ユーザのゲーム体験を強化し、娯楽性及び利便性を向上させる。
【図面の簡単な説明】
【0027】
本発明の実施例又は従来技術の技術的解決手段をより明確に説明するため、以下に実施例又は従来技術の記述において必要な図面を用いて簡単に説明を行う。当然ながら、以下に記載する図面は本発明のいくつかの実施例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を想到しうる。
【
図1】本発明の実施例に係る音声インタラクション方法の応用シーンの概略図である。
【
図2】本発明の実施例に係る音声インタラクション方法の実施例1のインタラクションフローチャートである。
【
図3】本発明の実施例に係る音声インタラクション方法の実施例2のインタラクションフローチャートである。
【
図4】本発明の実施例に係る音声インタラクション方法の実施例3のインタラクションフローチャートである。
【
図5】本発明の実施例に係る音声インタラクション方法の実施例4のインタラクションフローチャートである。
【
図6】本発明の実施例に係る音声識別のフローチャートである。
【
図7】本発明の実施例に係る語義理解のフローチャートである。
【
図8】本発明の実施例に係る音声インタラクション方法の実施例5の概略
図1である。
【
図9】本発明の実施例に係る音声インタラクション方法の実施例5の概略
図2である。
【
図10】本発明の実施例に係る端末機器の構造概略図である。
【
図11】本発明の実施例に係るサーバの構造概略図である。
【
図12】本発明の実施例に係る端末機器のハードウェア構造概略図である。
【
図13】本発明の実施例に係るサーバのハードウェア構造概略図である。
【発明を実施するための形態】
【0028】
本発明の実施例の目的、技術的解決手段及び利点をより明瞭にするために、以下、本発明の実施例に係る図面を参照しながら、その技術的解決手段について説明する。当然のことながら、記載される実施例は本発明の実施例の一部にすぎず、その全ての実施例ではない。当業者は、本発明における実施例に基づいて創造的な労働をすることなく、取得されたその他の全ての実施例は、いずれも本発明の保護範囲に属する。
【0029】
従来の技術において、例えばデュアルオペレーティングシステム(Duer Operating System、DuerOS)を搭載するテレビは、スマートインタラクション対話システムが搭載され、ユーザは人間の言語でスマートテレビと自然にインタラクションすることができる。同時に、テレビ(Television、TV)側は画面が大きいという特徴を有し、ゲームにも非常に好適である。しかしながら、現在のテレビ利用シーンでは、リモートコントローラキーを使ってゲームをプレイする体験がよくない。対話型インタラクションにより適するいくつかのゲーム、例えばマージャン、ポーカーは、従来の技術におけるゲーム体験が悪く、娯楽性及び利便性がユーザのニーズをうまく満たすことができない。
【0030】
上記存在する問題に対して、本発明は、音声インタラクション方法、機器及び記憶媒体を提供する。ゲームとスマートテレビのスマートインタラクションシステムを組み合わせて、異なる手段で表現された同一のゲームの用語を識別することができ、ゲームの体験を大幅に向上させることにより、スマートテレビを音声インタラクションゲームのプラットフォームとして発展することができる。以下、いくつかの具体的な実施例により解決手段を詳細に説明する。
【0031】
図1は本発明の実施例に係る音声インタラクション方法の応用シーンの概略図であり、
図1に示すように、本実施例に係るシステムは端末機器01及びサーバ02を含む。そのうち、端末機器01は、スマートテレビ、コンピュータ、携帯電話、タブレットコンピュータなどであってよい。本実施例は、端末機器01の実施形態を特に限定せず、端末機器01は有線又は無線の手段でネットワークに接続され、データインタラクションを行うことができればよい。サーバ02は、語義理解処理を実現するために用いられ、語義を理解するクラウドプラットフォームである。
【0032】
1つの具体的な実施形態において、ユーザは音声リモートコントローラ、端末機器01に設置された音声収集装置、又は他のスマート機器により端末機器01にオーディオデータ(即ち音声)を入力し、端末機器01はオーディオデータに基づいてサーバ02に送信することができ、サーバ02によりオーディオデータに対して音声理解処理を行い、対応する構造化データを取得し、さらに構造化データを端末機器01に送信し、端末機器01は構造化データに基づいて実行しているアプリケーションを制御するか又はゲームを対応する操作を実行するように制御する。
【0033】
1つの具体的な実施形態において、上記実施例における音声識別過程は、端末機器01で完了されてもよく、具体的なステップは、端末機器01が、オーディオデータを取得し、オーディオデータに対して音声識別を行い、且つそれを文字情報に変換し、さらに文字情報に対して音声理解処理を行い、対応する構造化データを取得し、且つ構造化データに基づいて端末機器01で実行しているアプリケーションを制御するか又はゲームを対応する操作を実行するように制御することである。
【0034】
1つの具体的な実施形態において、端末機器01に音声スマートインタラクションシステムが設置され、例えば、音声スマートインタラクションシステムは、デュアルオペレーティングシステム(Duer Operating System、DuerOS)であってよい。
【0035】
図2は本発明の実施例に係る音声インタラクション方法の実施例1のインタラクションフローチャートであり、
図2に示すように、解決手段は上記
図1に示すシーンに用いられ、音声インタラクション方法の具体的な実施ステップは以下のとおりである。
【0036】
S101で、取得したユーザのオーディオデータをサーバに送信する。
【0037】
本ステップにおいて、ユーザは音声収集装置により端末機器にオーディオデータを入力することができ、音声収集装置はユーザの音声をオーディオデータとして入力し、端末機器は取得したオーディオデータをサーバに送信して語義解析理解を行う。サーバにとっては、端末機器から送信されたオーディオデータを受信し、後続にオーディオデータに対して語義理解を行って、ユーザが表現しようとする制御コマンドを理解することができる。
【0038】
解決手段の1つの具体的な実施形態において、音声収集装置は、端末機器に設置された音声収集装置、例えばマイクロフォンなどであってもよく、その他のスマート機器であってもよい。端末機器がスマートテレビである時、音声収集装置は、音声リモートコントローラであってもよい。
【0039】
選択的に、本ステップではユーザが入力したオーディオデータに対して識別処理を行い、文字情報を取得し、且つ文字情報に対して語義理解を行う過程は端末機器により実行されてもよく、例えば、端末機器は、オフライン状態にあっても、ユーザの意図を正確に識別することができる。
【0040】
S102で、オーディオデータに対して語義理解処理を行い、オーディオデータに対応する構造化データを取得する。
【0041】
本ステップにおいて、サーバは、端末機器から送信されたオーディオデータを受信した後、オーディオデータに対して語義理解を行い、ユーザの操作意図を決定する必要がある。同じタイプの意図について様々なユーザ表現形態が存在するため、ユーザが入力したオーディオデータと操作意図との間は多対1の関係であり、操作意図の識別結果はサーバにおいて構造化データとして具現化される。
【0042】
サーバは、ユーザの操作意図に対応する構造化データを取得するために、オーディオデータを解析処理する必要があり、サーバは、オーディオデータにおける音声の周波数、振幅、音色などの特徴及び音声中の文字情報を組み合わせることによりユーザの操作意図を識別することができ、且つ、操作意図を構造化データに変換する。サーバは、さらに、オーディオデータ中の音声を文字情報に直接変換して、文字情報に対してキーワードなどに基づいて語義理解を行ってユーザの操作意図を取得し、操作意図を構造化データに変換してもよく、本解決手段はこれについて限定しない。
【0043】
S103で、構造化データを端末機器に返信する。
【0044】
本ステップにおいて、サーバは、端末機器から送信されたオーディオデータを解析処理することにより、ユーザが表現するコンテンツを理解し、つまりオーディオデータに対応する構造化データを取得し、構造化データを端末機器に返信する必要があり、それにより端末機器が音声スマートインタラクションシステム及びゲームアプリケーションを対応する操作を実行するように制御し、したがって、サーバが構造化データを端末機器に返信する必要があり、端末機器が構造化データを受信する。
【0045】
S104で、実行しているゲーム及び構造化データに基づいてゲームを対応する操作を実行するように制御する。
【0046】
本ステップにおいて、端末機器は、サーバから返信された構造化データを受信した後、構造化コマンドに基づいて現在実行しているゲームを制御する必要があり、したがって、端末機器は具体的に制御しようとするゲームを決定し、且つゲームに基づいて構造化データを操作コマンドに生成し、現在実行しているゲームを、操作コマンドに基づいて対応する操作を実行するように制御する。
【0047】
解決手段の実施形態において、ユーザ表現と構造化データとの間に多対1のマッピング関係が存在し、ユーザが表現するコンテンツに対して上記のような識別、解析、分類を行った後、対応する構造化データを取得し、構造化データを操作コマンドに生成し、ゲームにおいて操作コマンドを実行すれば、ユーザが音声インタラクションの手段でゲームをすることを実現することができる。
【0048】
本実施例に係る音声インタラクション方法は、ユーザが入力したオーディオデータをサーバに送信して語義理解を行い、且つサーバから返信された構造化データを受信し、実行しているゲーム及び構造化データに基づいてゲームを対応する操作を実行するように制御する。本実施例は、音声識別及び語義理解技術を使用し、端末機器とサーバとの通信によりユーザが対話型インタラクションでゲームを完了する操作を実現し、ユーザのゲーム体験を強化し、娯楽性及び利便性を向上させる。
【0049】
図3は本発明の実施例に係る音声インタラクション方法の実施例2のインタラクションフローチャートであり、
図3に示すように、上記実施例に基づいて、音声インタラクション方法の別の具体的な実施形態は、S201~S205を含む。
【0050】
S201で、ゲームの起動が検出されると、ゲームと音声スマートインタラクションシステムとの間の接続を確立し、ゲームと音声スマートインタラクションシステムとの間のバインディングを完了する。
【0051】
本ステップにおいて、音声スマートインタラクションシステムは、ゲームの起動を検出した直後、ゲームのアプリケーションプログラムと接続を確立し、バインディングを行うことにより、ゲームのアプリケーションプログラムに対してコマンドを伝達し、且つゲームのアプリケーションプログラムは、実行された結果を音声スマートインタラクションシステムに返信することができる。
【0052】
S202で、音声スマートインタラクションシステムにより、オーディオデータをサーバに送信して語義理解を行う。
【0053】
本ステップにおいて、音声スマートインタラクションシステムは応用シーンに応じて、受信したオーディオデータに対してエコー除去及びノイズ低減を行うか、又はそのうち1つの処理を行い、処理後のオーディオデータをサーバに送信して、サーバが完了した語義理解をより正確にする。
【0054】
選択的に、上記エコー除去は、エコー除去(Acoustic Echo Cancellation、AEC)アルゴリズムを用いて実現することができ、オーディオデータのノイズ低減処理についてノイズ低減処理(Noise Suppression、NS)アルゴリズムを用いて環境ノイズを除去することができる。
【0055】
S203で、オーディオデータに対して語義理解処理を行い、オーディオデータに対応する構造化データを取得する。
【0056】
本ステップにおいて、サーバは、端末機器から送信されたオーディオデータを受信した後、オーディオデータに対して語義理解を行い、ユーザの操作意図を決定する必要がある。同じタイプの意図について様々なユーザ表現形態が存在するため、ユーザが入力したオーディオデータと操作意図との間は多対1の関係であり、操作意図の識別結果はサーバにおいて構造化データとして具現化される。
【0057】
サーバは、ユーザの操作意図に対応する構造化データを取得するために、オーディオデータを解析処理する必要があり、サーバは、オーディオデータにおける音声の周波数、振幅、音色などの特徴及び音声中の文字情報を組み合わせることによりユーザの操作意図を識別することができ、且つ、操作意図を構造化データに変換する。サーバは、さらに、オーディオデータ中の音声を文字情報に直接変換して、文字情報に対してキーワードなどに基づいて語義理解を行ってユーザの操作意図を取得し、操作意図を構造化データに変換してもよく、本解決手段はこれについて限定しない。
【0058】
S204で、構造化データを端末機器に返信する。
【0059】
本ステップにおいて、サーバは、端末機器から送信されたオーディオデータを解析処理することにより、ユーザが表現するコンテンツを理解し、つまりオーディオデータに対応する構造化データを取得し、構造化データを端末機器に返信する必要があり、それにより端末機器が音声スマートインタラクションシステム及びゲームアプリケーションを対応する操作を実行するように制御し、したがって、サーバが構造化データを端末機器に返信する必要があり、端末機器が構造化データを受信する。
【0060】
S205で、実行しているゲーム及び構造化データに基づいてゲームを対応する操作を実行するように制御する。
【0061】
本ステップにおいて、端末機器は、サーバから返信された構造化データを受信した後、構造化コマンドに基づいて現在実行しているゲームを制御する必要があり、したがって、端末機器は具体的に制御しようとするゲームを決定し、且つゲームに基づいて構造化データを操作コマンドに生成し、現在実行しているゲームを、操作コマンドに基づいて対応する操作を実行するように制御する。
【0062】
解決手段の実施形態において、ユーザ表現と構造化データとの間に多対1のマッピング関係が存在し、ユーザが表現するコンテンツに対して上記のような識別、解析、分類を行った後、対応する構造化データを取得し、構造化データを操作コマンドに生成し、ゲームにおいて操作コマンドを実行すれば、ユーザが音声インタラクションの手段でゲームをすることを実現することができる。
【0063】
図4は本発明の実施例に係る音声インタラクション方法の実施例3のインタラクションフローチャートであり、
図4に示すように、上記いずれかの実施例に基づいて、音声インタラクション方法の実施過程において、サーバは、オーディオデータに対して理解処理を行い、対応する構造化データを取得する必要があり、その過程は具体的にはS301~S303で実施されることができる。
【0064】
S301で、オーディオデータに対して識別処理を行い、オーディオデータに対応する文字情報を取得する。
【0065】
本ステップにおいて、まず、オーディオデータに対して音声識別を行う前に、異なる応用シーンに応じて、受信したオーディオデータに対してエコー除去及びノイズ低減、又はそのうち1つの処理を行い、さらに処理後のオーディオデータに対して音声識別を行い、音声識別の過程は主に、オーディオデータにおけるオーディオ特徴を抽出し、そして、抽出したオーディオ特徴を復号処理し、最終的に対応する文字情報を取得することを含む。
【0066】
S302で、文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得する。
【0067】
本ステップにおいて、オーディオデータから変換された文字情報に基づいて、情報フィルタリング、自動要約、情報抽出、テキストマイニングなどの技術手段により、モデルで自然言語処理の過程を完了し、さらにそれに対して語義解釈を行い、文字情報に含まれるユーザの操作意図を理解し、ユーザ操作意図を有する解析コンテンツを取得する。
【0068】
S303で、モデル処理により解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための構造化データを取得する。
【0069】
本ステップにおいて、モデルで解析コンテンツと機械コマンド情報との間の対応関係を確立し、この対応関係は、一般的にユーザ操作意図を有する複数の解析コンテンツと1つの機械コマンド情報との間の対応関係であり、したがって、モデルに基づいて解析コンテンツを分類し、構造化データを取得することができ、構造化データは、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表し、さらに機械コマンド情報を端末機器に返信し、それに、対応するコマンド操作を完了させることができ、これは構造化データ返信とも呼ばれる。
【0070】
図5は本発明の実施例に係る音声インタラクション方法の実施例4のインタラクションフローチャートであり、
図5に示すように、上記いずれかの実施例に基づいて、音声インタラクション方法の実施過程において、端末機器はサーバから返信された構造化データを受信し、構造化データに基づいてゲームを実行するように制御する過程は、具体的にはS401~S402で実施されてよい。
【0071】
S401で、音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び構造化データに基づいて、構造化データに対応する操作コマンドを決定する。
【0072】
本ステップにおいて、構造化データを返信した後、音声スマートインタラクションシステムは、構造化データにおける機械コマンド情報に基づいて、現在実行しているゲームに対応する操作コマンドを決定し、現在実行しているゲームは、ゲームを起動する時に、音声スマートインタラクションシステムとバインディングするゲームであってもよく、音声スマートインタラクションシステムが構造化データ返信を受信した後に検出した実行しているゲームであってもよい。
【0073】
S402で、操作コマンドに基づいてゲームを対応する操作を実行するように制御する。
【0074】
本ステップにおいて、操作コマンドの指示に基づいて、ゲームを対応する操作を実行するように制御すれば、ユーザの操作意図を実現することができる。
【0075】
上記いくつかの実施例に基づいて、以下、端末機器がテレビであり、サーバがテレビにデータ解析処理を提供するクラウドサーバ(クラウド、クラウドプラットフォームとも呼ばれる)であることを例として、音声インタラクション方法を詳細に説明する。
【0076】
図6は本発明の実施例に係る音声識別のフローチャートであり、
図6に示すように、音声識別過程は、オーディオデータを収集し、収集したオーディオデータに対して特徴抽出を行い、収集したオーディオ特徴を一定のデコーダに置いて復号して音声識別結果を取得することを含む。
【0077】
1.オーディオデータの収集過程において、録音機器の性能が高いほど、音源から機器までの距離が短くなり、単一のマイクロフォンではなく、効果的なマイクロフォンアレイを使用すると、取得したオーディオデータの特徴がより完全になり、識別に対してより有利になり、例えば、遠距離場(>5メートル)ウェイクアップ又は識別をサポートしようとする場合、マイクロフォンアレイを使用する性能は、単一のマイクロフォンの性能より遥かに優れる。
【0078】
2.収集したオーディオデータに対する特徴抽出について、まず、収集したオーディオデータを直接識別することができず、具体的な応用シーンに応じてオーディオデータに対してエコー除去及びノイズ低減、又はそのうち1つの処理を行う必要があり、例えば、ハンズフリー又は会議応用のシーンで、スピーカの音声は、複数回マイクロフォンにフィードバックされ、この時にマイクロフォンが収集したオーディオデータに音響エコーが存在し、AECアルゴリズムを用いてエコー除去を行う必要がある。例えば、走行する車両において収集したオーディオデータは一定のノイズを有し、この時にオーディオデータに対してノイズ低減アルゴリズムを行って環境ノイズを除去する必要がある。
【0079】
3.デコーダの復号過程において、音響モデル、言語モデル及び発音辞書を使用し、音響モデルの主な役割は、オーディオ特徴を音節に変換することであり、言語モデルの主な役割は音節をテキストに変換することであり、発音辞書は、音節からテキストまでのマッピングテーブルを提供する。
【0080】
図7は本発明の実施例に係る語義理解のフローチャートであり、
図7に示すように、語義理解は、自然言語処理、語義解析、解析コンテンツ分類及び構造化データ返信を含む。
【0081】
ユーザの話を音声識別により文字に変換した後、ユーザが表現するコンテンツを処理する必要があり、このような処理は自然言語処理と呼ばれ、自然言語処理を行った後、語義解析によりユーザの話を解析し、解析したコンテンツを取得し、そして、モデル処理により、クラウドは、解析したコンテンツを分類処理し、分類処理した後ユーザの操作意図を機械コマンド情報に対応付け、さらに機械コマンド情報を構造化データとしてテレビに返信し、テレビは、構造化データを処理し、且つ対応する操作を実行する。
【0082】
図8は本発明の実施例に係る音声インタラクション方法の実施例5の概略
図1であり、
図8に示すように、ここでマージャンゲームを例として説明する。
【0083】
マージャンゲームを例として説明すると、マージャンゲームにログインする場合、まず、ゲームアプリケーションプログラムは、スマートテレビ側の音声スマートインタラクションシステムとバインディングを行う。スマートテレビ側は、クラウドからのコマンドを受信すると、コマンドがマージャンゲームのコマンドであるか否かを判断し、そうであれば、ゲームコマンドをマージャンゲームに伝達する。マージャンゲームは、異なるコマンドに基づいて対応する操作を実行し、且つ実行した結果を音声スマートインタラクションシステムに返信する。マージャンゲームを終了する場合、マージャンゲームアプリケーションプログラムとスマートインタラクションシステムの接続を切断することができ、即ちスマートインタラクションシステムとアンバインディングするか、又はゲームを終了する前にアンバインディング操作を実行し、スマートインタラクションシステムとのアンバインディングを完了した後、マージャンゲームの終了を完了する。
【0084】
1つの具体的な実施形態において、上記解決手段に記載の実施例は
図9に示す解決手段により実現されてもよく、
図9は本発明の実施例に係る音声インタラクション方法の実施例5の概略
図2である。
【0085】
図9と
図8に示す解決手段の違いは、クラウドがオーディオデータに対して音声識別処理を行うことに用いられてもよく、この時に音声スマートインタラクションシステムが取得したオーディオデータストリームをクラウドに伝送すればよく、クラウドによりオーディオデータに対して音声識別処理及び語義理解処理を行うことである。
【0086】
図10は本発明の実施例に係る端末機器の構造概略図である。
図7に示すように、端末機器10は、取得したユーザのオーディオデータをサーバに送信するための送信モジュール12と、サーバから返信された、サーバがオーディオデータを識別した後に取得される構造化データを受信するための受信モジュール13と、実行しているゲーム及び構造化データに基づいてゲームが対応する操作を実行するように制御するための処理モジュール11と、を含む。
【0087】
1つの具体的な実施形態において、処理モジュール11はさらに、ゲームの起動が検出されると、ゲームと音声スマートインタラクションシステムとの間の接続を確立し、ゲームと音声スマートインタラクションシステムとの間のバインディングを完了するために用いられる。
【0088】
1つの具体的な実施形態において、送信モジュール12は具体的には、音声スマートインタラクションシステムにより、オーディオデータをサーバに送信して語義理解を行うために用いられる。
【0089】
1つの具体的な実施形態において、受信モジュール13はさらに、スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力したオーディオデータを受信するために用いられる。
【0090】
1つの具体的な実施形態において、処理モジュール11は具体的には、オーディオデータに対してエコー除去及び/又はノイズ低減処理を行い、処理後のオーディオデータを取得し、処理後のオーディオデータに対して特徴抽出を行ってオーディオ特徴を取得し、且つオーディオ特徴を復号し、文字情報を取得するために用いられる。
【0091】
1つの具体的な実施形態において、処理モジュール11は具体的には、音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び構造化データに基づいて、構造化データに対応する操作コマンドを決定し、操作コマンドに基づいてゲームを対応する操作を実行するように制御するために用いられる。
【0092】
本実施例に係る機器は、上記方法を端末機器側に応用する実施例の技術的解決手段を実行するために用いられることができ、その実現原理及び技術的効果は類似し、本実施例では説明を省略する。
【0093】
図11は本発明の実施例に係るサーバの構造概略図である。
図11に示すように、サーバ20は、端末機器から送信されたオーディオデータを受信するための受信モジュール21と、オーディオデータに対して音声理解処理を行い、オーディオデータに対応する構造化データを取得するための処理モジュール22と、構造化データを端末機器に返信するための送信モジュール23と、を含む。
【0094】
1つの具体的な実施形態において、処理モジュール22は具体的には、オーディオデータに対して識別処理を行い、オーディオデータに対応する文字情報を取得し、文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得し、モデル処理により解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための構造化データを取得するために用いられる。
【0095】
本実施例に係る機器は、上記方法をサーバ側に応用する実施例の技術的解決手段を実行するために用いられることができ、その実現原理及び技術的効果は類似し、本実施例では説明を省略する。
【0096】
図12は本発明の実施例に係る端末機器のハードウェア構造概略図である。
図9に示すように、本実施例の端末機器60は、プロセッサ601及びメモリ602を含む。
【0097】
そのうちメモリ602は、コンピュータ実行コマンドを記憶するために用いられる。
【0098】
プロセッサ601は、メモリに記憶されたコンピュータ実行コマンドを実行することにより、上記実施例における端末機器が実行する各ステップを実現するために用いられる。具体的には、方法の実施例の関連する説明を参照することができる。
【0099】
選択的に、メモリ602は独立してもよく、プロセッサ601と集積されてもよい。
【0100】
メモリ602が独立して設置される場合、端末機器は、さらにバス603を含み、メモリ602及びプロセッサ601を接続するために用いられる。
【0101】
図13は本発明の実施例に係るサーバのハードウェア構造概略図である。
図10に示すように、本実施例のサーバ70は、プロセッサ701及びメモリ702を含む。
【0102】
そのうち、メモリ702は、コンピュータ実行コマンドを記憶するために用いられる。
【0103】
プロセッサ701は、メモリに記憶されたコンピュータ実行コマンドを実行することにより、上記実施例におけるサーバが実行する各ステップを実現するために用いられる。具体的には、方法の実施例の関連する説明を参照することができる。
【0104】
選択的に、メモリ702は独立していてもよく、プロセッサ701と集積されてもよい。
【0105】
メモリ702が独立して設置される場合、サーバは、さらにバス703を含み、メモリ702及びプロセッサ701を接続するために用いられる。
【0106】
本発明の実施例は、さらに、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサがコンピュータ実行コマンドを実行する時、上記のような端末機器側の音声インタラクション方法を実現する。
【0107】
本発明の実施例は、さらに、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサがコンピュータ実行コマンドを実行する時、上記のようなサーバ側の音声インタラクション方法を実現する。
【0108】
本発明に係るいくつかの実施例において、開示された機器及び方法は、他の方式で実現することができると理解すべきである。例えば、以上に説明された機器の実施例は例示的なものにすぎない。例えば、モジュールの分割は、論理機能上の分割にすぎず、実際に実施する際に別の形態で分割してもよく、例えば、複数のモジュールを別のシステムに組み合わせもしくは集積させたり、又は一部の特徴を反映させず、実行しなかったりしてもよい。また、説明又は検討した互いの結合又は直接的な結合又は通信接続は、いくつかのインタフェース、装置又はモジュールを用いる間接的接続又は通信接続としてもよく、電気的形態、機械的形態又はその他の形態としてもよい。
【0109】
分離される部品として説明されるモジュールは、物理的に分離されるものでもよければ、分離されないものであってもよい。モジュールとして示される部品は、物理的なユニットであってもよいが、物理的なユニットでなくてもよい。即ち、同一の場所に設けられるものであってもよいが、複数のネットワークユニットに配置されるものであってもよい。必要に応じて、一部のモジュールだけを用いるか、又は全てのモジュールを使用して本実施例の目的を達成することができる。
【0110】
また、本発明の各実施例において、各機能モジュールが1つの処理ユニットに集積されてもよいが、各モジュールが単独で物理的な部品として存在するか、又は2つ以上のモジュールが1つのユニットに集積されてもよい。上記モジュールからなるユニットはハードウェアの形で実現されてもよく、ハードウェアとソフトウェア機能ユニットの形で実現されてもよい。
【0111】
上記のソフトウェア機能モジュールの形で実現された集積されたモジュールは、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。上記ソフトウェア機能モジュールは記憶媒体に記憶され、コンピュータ設備(例えばパソコン、サーバ、又はネットワーク設備など)又はプロセッサ(英語:processor)に本願の各実施例の方法の一部のステップを実行させるのに用いる若干のコマンドを含む。
【0112】
上記プロセッサは中央処理ユニット(英語:Central Processing Unit、略称:CPU)であってもよく、他の汎用プロセッサ、デジタル信号プロセッサ(英語:Digital Signal Processor、略称:DSP)、特定用途向け集積回路(英語:Application Specific Integrated Circuit、略称:ASIC)などであってもよいと理解されるべきである。汎用プロセッサはマイクロプロセッサであってもよく、又はプロセッサは任意の従来のプロセッサなどであってもよい。本発明に開示された方法を組み合わせるステップは、ハードウェアプロセッサによる実行完了、又はプロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせによる実行完了と直接具体化されることができる。
【0113】
メモリは高速RAMメモリを含んでよく、さらに不揮発性記憶NVM、例えば少なくとも1つの磁気ディスクメモリを含んでよく、さらにUSBフラッシュドライブ、モバイルハードディスクドライブ、リードオンリーメモリ、磁気ディスク又はコンパクトディスクなどであってもよい。
【0114】
バスは、業界標準アーキテクチャ(Industry Standard Architecture、ISA)バス、ペリフェラルコンポーネント(Peripheral Component、PCI)バス又は拡張された業界標準アーキテクチャ(Extended Industry Standard Architecture、EISA)バスなどであってよい。バスはアドレスバス、データバス、コントロールバスなどに分けることができる。理解を容易にするために、本願の図面におけるバスは1本のバス又は1種のバスのみに限定されない。
【0115】
上記記憶媒体は任意のタイプの揮発性又は不揮発性記憶機器又はそれらの組み合わせで実現されてよく、例えばスタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブルROM(EEPROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又はコンパクトディスクであってよい。記憶媒体は汎用又は専用のコンピュータがアクセス可能な任意の利用可能な媒体であってもよい。
【0116】
例示的な記憶媒体は、プロセッサに結合されており、それによりプロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができる。当然のことながら、記憶媒体はプロセッサの構成部分であってもよい。プロセッサ及び記憶媒体は特定用途向け集積回路(Application Specific Integrated Circuits、略称:ASIC)に配置されてもよい。当然のことながら、プロセッサ及び記憶媒体は分離された構成要素として電子機器又は主制御機器に存在してもよい。
【0117】
当業者であれば、上記各方法の実施例を実現する全て又は一部のステップはプログラムコマンドに関連するハードウェアにより完了することができると理解すべきである。前述のプログラムはコンピュータ読み取り可能な記憶媒体に記憶することができる。プログラムを実行する場合、上記各方法の実施例を含むステップを実行し、前述の記憶媒体は、ROM、RAM、磁気ディスク又はコンパクトディスクなどのプログラムコードが記憶できる様々な媒体を含む。
【0118】
最後に説明すべきものとして、以上の各実施例は、本発明の技術的解決手段を説明するためのものであって、これを制限するものではなく、前述の各実施例を参照しながら本発明を詳細に説明するが、当業者であれば、依然として前述の各実施例に記載の技術的解決手段を修正するか、又はそのうちの一部又は全ての技術的特徴に対して同等置換を行うことができ、これらの修正又は置換は、対応する技術的解決手段の本質を本発明の各実施例の技術的解決手段の範囲から逸脱しないと理解すべきである。