IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2022-101663ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム
<>
  • 特開-ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図1
  • 特開-ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図2
  • 特開-ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図3
  • 特開-ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図4
  • 特開-ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図5
  • 特開-ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022101663
(43)【公開日】2022-07-06
(54)【発明の名称】ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム
(51)【国際特許分類】
   G10L 15/10 20060101AFI20220629BHJP
   G10L 13/00 20060101ALI20220629BHJP
   G10L 15/00 20130101ALI20220629BHJP
   G10L 15/22 20060101ALI20220629BHJP
【FI】
G10L15/10 500T
G10L13/00 100M
G10L15/00 200T
G10L15/22 460Z
G10L15/10 500Z
【審査請求】有
【請求項の数】30
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2022071651
(22)【出願日】2022-04-25
(31)【優先権主張番号】202110948729.1
(32)【優先日】2021-08-18
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100163511
【弁理士】
【氏名又は名称】辻 啓太
(72)【発明者】
【氏名】ウー ジェン
(72)【発明者】
【氏名】グウア ジアシャン
(72)【発明者】
【氏名】ワン シャオ
(72)【発明者】
【氏名】スー シャンズ
(72)【発明者】
【氏名】リュウ ビン
(72)【発明者】
【氏名】ワン ジャウェイ
(72)【発明者】
【氏名】ワン ダン
(72)【発明者】
【氏名】ヤン ソン
(72)【発明者】
【氏名】ハオ ジンハオ
(72)【発明者】
【氏名】ウー ユーファン
(72)【発明者】
【氏名】チュウ チン
(72)【発明者】
【氏名】チャン ビンチー
(72)【発明者】
【氏名】フー シャオイン
(72)【発明者】
【氏名】ウー スーユアン
(72)【発明者】
【氏名】リー チャオ
(72)【発明者】
【氏名】ガオ コン
(72)【発明者】
【氏名】ジア レイ
(57)【要約】      (修正有)
【課題】音声インタラクションの効率を向上させ、ユーザのインタラクティブ体験を向上させるヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。
【解決手段】ヒューマンコンピュータインタラクション方法は、音声コマンドを取得するステップと、音声コマンドに対して音声認識を行い、対応する音声テキストを確定するステップと、予め設定された情報送信条件を満たすことに応答して、音声テキストをクラウドに送信するステップと、クラウドから返された、音声コマンドに対応するリソースを受信するステップと、リソースに基づいて、音声コマンドに応答するステップと、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
音声コマンドを取得することと、
前記音声コマンドに対して音声認識を行い、対応する音声テキストを確定することと、
予め設定された情報送信条件を満たすことに応答して、前記音声テキストをクラウドに送信することと、
クラウドから返された、前記音声コマンドに対応するリソースを受信することと、
前記リソースに基づいて前記音声コマンドに応答することと、
を含むヒューマンコンピュータインタラクション方法。
【請求項2】
前記音声テキストに対して意図認識を行い、ユーザの意図を判断することと、
前記ユーザの意図がクライアントへの制御指示であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定することと、
をさらに含む請求項1に記載のヒューマンコンピュータインタラクション方法。
【請求項3】
クラウドとのネットワーク接続状態を確定することと、
前記ネットワーク接続状態が異常であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定することと、
をさらに含む請求項1に記載のヒューマンコンピュータインタラクション方法。
【請求項4】
前記リソースは応答テキストを含み、
前記リソースに基づいて前記音声コマンドに応答することは、前記応答テキストに対して音声合成を行い、合成した音声を出力することを含む、
請求項1に記載のヒューマンコンピュータインタラクション方法。
【請求項5】
前記リソースはクエリ結果を含み、
前記リソースに基づいて前記音声コマンドに応答することは、前記クエリ結果に対応するページを表示することを含む、
請求項1に記載のヒューマンコンピュータインタラクション方法。
【請求項6】
予め設定された情報送信条件を満たさないことに応答して、履歴応答テキストに基づいて前記音声コマンドに対応する応答テキストを生成することをさらに含む、請求項4に記載のヒューマンコンピュータインタラクション方法。
【請求項7】
前記音声コマンドに対して音声認識を行い、対応する音声テキストを確定することは、
前記音声コマンドがヒューマンコンピュータインタラクションコマンドであるか否かを判断することと、
前記音声コマンドがヒューマンコンピュータインタラクションコマンドであると判断したことに応答して、前記音声コマンドに対して音声認識を行い、対応する音声テキストを確定することと、
を含む請求項1に記載のヒューマンコンピュータインタラクション方法。
【請求項8】
前記音声コマンドがヒューマンコンピュータインタラクションコマンドであるか否かを判断することは、
前記音声コマンドのテキスト情報に対して意味解析および意図認識を行い、ユーザの意図を判断することと、
前記テキスト情報が文に属する確率を確定することと、
前記テキスト情報に対応するテキスト長を確定することと、
前記音声コマンドの音響情報に対応する音節の音響信頼度および前記音響情報に対応する文全体の音響信頼度を確定することと、
前記ユーザの意図、前記確率、前記テキスト長、前記音節の音響信頼度、および前記文全体の音響信頼度のうちの少なくとも1つに基づいて、前記音声コマンドがヒューマンコンピュータインタラクションコマンドに属するか否かを判断することと、
を含む請求項7に記載のヒューマンコンピュータインタラクション方法。
【請求項9】
前記音声コマンドに対して音声認識を行い、対応する音声テキストを確定することは、
前記音響情報に対応する音響信頼度と予め設定された信頼度閾値とに基づいて、前記音声コマンドにおける明確なテキストおよび不明確なテキストを確定することと、
前記明確なテキストおよび前記不明確なテキストに基づいてプロンプト情報を生成して出力することと、
前記プロンプト情報に対応する応答音声を受信することと、
前記応答音声におけるクラリフィケーションテキストを認識することと、
前記明確なテキストおよび前記クラリフィケーションテキストに基づいて、対応する音声テキストを確定することと、
を含む請求項8に記載のヒューマンコンピュータインタラクション方法。
【請求項10】
予め設定された情報送信条件を満たすことに応答して、前記音声テキストをクラウドに送信することは、
前記音声コマンドの音声認識プロセスにおいて、認識されたテキストをクラウドに送信することを含む請求項1に記載のヒューマンコンピュータインタラクション方法。
【請求項11】
前記音声コマンドの音声認識プロセスにおいて、認識されたテキストをクラウドに送信することは、
前記音声コマンドの音声認識プロセスにおいて、認識されたテキストが予め設定された条件を満たすか否かを判断することと、
前記認識されたテキストが予め設定された条件を満たすことに応答して、認識されたテキストをクラウドに送信することと、
を含む請求項10に記載のヒューマンコンピュータインタラクション方法。
【請求項12】
前記音声コマンドの認識プロセスにおいて、クラウドから送信された中間リソースを受信したことに応答して、前記中間リソースを表示することをさらに含む、請求項10または11に記載のヒューマンコンピュータインタラクション方法。
【請求項13】
音声コマンドを取得するように構成される音声取得ユニットと、
前記音声コマンドに対して音声認識を行い、対応する音声テキストを確定するように構成される音声認識ユニットと、
予め設定された情報送信条件を満たすことに応答して、前記音声テキストをクラウドに送信するように構成されるテキスト送信ユニットと、
クラウドから返された、前記音声コマンドに対応するリソースを受信するように構成されるリソース受信ユニットと、
前記リソースに基づいて、前記音声コマンドに応答するように構成されるコマンド応答ユニットと、
を備えるヒューマンコンピュータインタラクション装置。
【請求項14】
前記音声テキストに対して意図認識を行い、ユーザの意図を確定し、
前記ユーザの意図がクライアントへの制御指示であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定するように構成される条件判断ユニットをさらに備える請求項13に記載のヒューマンコンピュータインタラクション装置。
【請求項15】
クラウドとのネットワーク接続状態を確定し、前記ネットワーク接続状態が異常であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定するように構成される条件判断ユニットをさらに備える請求項13に記載のヒューマンコンピュータインタラクション装置。
【請求項16】
前記リソースは応答テキストを含み、
前記コマンド応答ユニットは、前記応答テキストに対して音声合成を行い、合成した音声を出力するように構成される、
請求項13に記載のヒューマンコンピュータインタラクション装置。
【請求項17】
前記リソースはクエリ結果を含み、
前記コマンド応答ユニットは、前記クエリ結果に対応するページを表示するようにさらに構成される、
請求項13に記載のヒューマンコンピュータインタラクション装置。
【請求項18】
予め設定された情報送信条件を満たさないことに応答して、履歴応答テキストに基づいて前記音声コマンドに対応する応答テキストを生成するように構成されるテキスト生成ユニットをさらに備える請求項16に記載のヒューマンコンピュータインタラクション装置。
【請求項19】
前記ヒューマンコンピュータインタラクション装置は、前記音声コマンドがヒューマンコンピュータインタラクションコマンドであるか否かを判断するように構成されるコマンド判断ユニットをさらに備え、
前記音声認識ユニットは、前記音声コマンドがヒューマンコンピュータインタラクションコマンドであると判断したことに応答して、前記音声コマンドに対して音声認識を行い、対応する音声テキストを確定するようにさらに構成される、
請求項13に記載のヒューマンコンピュータインタラクション装置。
【請求項20】
前記コマンド判断ユニットは、さらに
前記音声コマンドのテキスト情報に対して意味解析および意図認識を行い、ユーザの意図を判断し、
前記テキスト情報が文に属する確率を確定し、
前記テキスト情報に対応するテキスト長を確定し、
前記音声コマンドの音響情報に対応する音節の音響信頼度および前記音響情報に対応する文全体の音響信頼度を確定し、
前記ユーザの意図、前記確率、前記テキスト長、前記音節の音響信頼度、および前記文全体の音響信頼度のうちの少なくとも1つに基づいて、前記音声コマンドがヒューマンコンピュータインタラクションコマンドに属するか否かを判断するように構成される、
請求項19に記載のヒューマンコンピュータインタラクション装置。
【請求項21】
前記音声認識ユニットは、さらに
前記音響情報に対応する音響信頼度と予め設定された信頼度閾値とに基づいて、前記音声コマンドにおける明確なテキストおよび不明確なテキストを確定し、
前記明確なテキストおよび前記不明確なテキストに基づいてプロンプト情報を生成して出力し、
前記プロンプト情報に対応する応答音声を受信し、
前記応答音声におけるクラリフィケーションテキストを認識し、
前記明確なテキストおよび前記クラリフィケーションテキストに基づいて、対応する音声テキストを確定するように構成される、
請求項20に記載のヒューマンコンピュータインタラクション装置。
【請求項22】
前記テキスト送信ユニットは、前記音声コマンドの音声認識プロセスにおいて、認識されたテキストをクラウドに送信するようにさらに構成される、
請求項20に記載のヒューマンコンピュータインタラクション装置。
【請求項23】
前記テキスト送信ユニットは、
前記音声コマンドの音声認識プロセスにおいて、認識されたテキストが予め設定された条件を満たすか否かを判断し、
前記認識されたテキストが予め設定された条件を満たすことに応答して、認識されたテキストをクラウドに送信するようにさらに構成される、
請求項20に記載のヒューマンコンピュータインタラクション装置。
【請求項24】
前記コマンド応答ユニットは、
前記音声コマンドの認識プロセスにおいて、クラウドから送信された中間リソースを受信したことに応答して、前記中間リソースを表示するようにさらに構成される、
請求項22または23に記載のヒューマンコンピュータインタラクション装置。
【請求項25】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが格納され、前記コマンドが前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~11のいずれか1項に記載のヒューマンコンピュータインタラクション方法を実行させる、電子機器。
【請求項26】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが格納され、前記コマンドが前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項12に記載のヒューマンコンピュータインタラクション方法を実行させる、電子機器。
【請求項27】
コンピュータコマンドが格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータコマンドはコンピュータに請求項1~11のいずれか1項に記載のヒューマンコンピュータインタラクション方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
【請求項28】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが格納され、前記コマンドが前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項12に記載のヒューマンコンピュータインタラクション方法を実行させる、電子機器。
【請求項29】
プロセッサによって実行されると、請求項1~11のいずれか1項に記載のヒューマンコンピュータインタラクション方法が実現されるコンピュータプログラム。
【請求項30】
プロセッサによって実行されると、請求項12に記載のヒューマンコンピュータインタラクション方法が実現されるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願はは、コンピュータ技術分野に関し、具体的に深層学習、音声などの人工知能分野に関し、特にヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。
【背景技術】
【0002】
音声認識技術の急速な発展に伴い、音声認識技術は人々の生活に入りつつある。スマート音声インタラクションは、発話することでフィードバック結果を得ることができる、音声入力に基づく新たなインタラクションモードである。スマート音声インタラクションシステムの家庭、車載、ロボット、携帯電話への応用が人々の生活をより便利にする。スマートネットワーク端末にスマート音声インタラクションシステムを統合することで、運転手は音声でスマートネットワーク端末を操作して、ナビゲーション、マルチメディア、車載設定、電話をかけることおよび電話に応答することなど、以前に手動でボタンをタッチして実行する必要のある動作は、現在音声で実現することができるようになった。音声インタラクションの効果が高まりつつあることで、ユーザにもより良いインタラクティブ体験をもたらすことができる。
【発明の概要】
【0003】
本出願は、ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。
【0004】
第1の態様によれば、音声コマンドを取得することと、音声コマンドに対して音声認識を行い、対応する音声テキストを確定することと、予め設定された情報送信条件を満たすことに応答して、音声テキストをクラウドに送信することと、クラウドから返された、音声コマンドに対応するリソースを受信することと、リソースに基づいて音声コマンドに応答することと、を含むヒューマンコンピュータインタラクション方法を提供する。
【0005】
第2の態様によれば、音声コマンドを取得するように構成される音声取得ユニットと、音声コマンドに対して音声認識を行い、対応する音声テキストを確定するように構成される音声認識ユニットと、予め設定された情報送信条件を満たすことに応答して、音声テキストをクラウドに送信するように構成されるテキスト送信ユニットと、クラウドから返された、音声コマンドに対応するリソースを受信するように構成されるリソース受信ユニットと、リソースに基づいて、音声コマンドに応答するように構成されるコマンド応答ユニットと、を備えるヒューマンコンピュータインタラクション装置を提供する。
【0006】
第3の態様によれば、少なくとも1つのプロセッサと、上記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能なコマンドが格納され、コマンドが少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1の態様に記載のヒューマンコンピュータインタラクション方法を実行させる、電子機器を提供する。
【0007】
第4の態様によれば、コンピュータコマンドが格納されている非一時的コンピュータ可読記憶媒体であって、上記コンピュータコマンドは第1の態様に記載のヒューマンコンピュータインタラクション方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
【0008】
第5の態様によれば、プロセッサによって実行されると、第1の態様に記載のヒューマンコンピュータインタラクション方法が実現されるコンピュータプログラムを提供する。
【0009】
本出願の技術によれば、音声インタラクションの効率を向上させることができ、ユーザのインタラクティブ体験を向上させることができる。
【0010】
なお、発明の概要に記載された内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解される。
【図面の簡単な説明】
【0011】
図面は本出願をよりよく理解するために用いられ、本出願に対する限定ではない。
図1】本出願の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。
図2】本出願に係るヒューマンコンピュータインタラクション方法の一実施形態のフローチャートである。
図3】本出願に係るヒューマンコンピュータインタラクション方法の一応用シーンの概略図である。
図4】本出願に係るヒューマンコンピュータインタラクション方法のもう一つの実施形態を示すフローチャートである。
図5】本出願に係るヒューマンコンピュータインタラクション装置の一実施形態を示す構造概略図である。
図6】本出願の実施形態に係るヒューマンコンピュータインタラクション方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下は図面を参照して本出願の例示的な実施形態を説明し、ここでは理解を助けるために、本出願の実施形態の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることは自明である。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
【0013】
なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本出願を詳細に説明する。
【0014】
図1に示すように、システムアーキテクチャ100は、インテリジェント端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、インテリジェント端末装置101、102、103とサーバ105との間で通信リンクを提供するための媒体として使用される。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
【0015】
ユーザは、メッセージを送受信するために、インテリジェント端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをしてもよい。インテリジェント端末装置101、102、103には、音声認識アプリケーション、音声生成アプリケーションなど、様々な通信クライアントアプリケーションをインストールしてもよい。また、インテリジェント端末装置101、102、103には、画像採集装置、マイクアレイ、スピーカ等を搭載してもよい。
【0016】
インテリジェント端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。インテリジェント端末装置101、102、103がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、車載コンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。インテリジェント端末装置101、102および103がソフトウェアである場合、上記の電子機器にインストールされてもよい。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
【0017】
サーバ105は、様々なサービスを提供するサーバ、例えば、インテリジェント端末装置101、102、103をサポートするバックエンドサーバであってもよい。バックエンドサーバは、音声処理モデルをインテリジェント端末装置101、102、103に提供し、処理結果を取得してインテリジェント端末装置101、102、103にフィードバックすることができる。
【0018】
なお、サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ105がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
【0019】
なお、本出願の実施形態によって提供されるヒューマンコンピュータインタラクション方法は、一般的にインテリジェント端末装置101、102、103によって実行される。それに応じて、ヒューマンコンピュータインタラクション装置は、一般的にインテリジェント端末装置101、102、103に配置される。
【0020】
図1におけるインテリジェント端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要に応じて、インテリジェント端末装置、ネットワークおよびサーバの数を任意に加減してもよい。
【0021】
次に、本出願に係るヒューマンコンピュータインタラクション方法の一実施形態のフロー200を示す図2を参照する。この実施形態のヒューマンコンピュータインタラクション方法は、次のステップを含む。
【0022】
ステップ201では、音声コマンドを取得する。
【0023】
本実施形態では、ヒューマンコンピュータインタラクション方法の実行主体は、様々な方法で音声コマンドを取得することができる。例えば、通信可能に接続されたマイクロフォンを介してユーザの音声を集音し、音声コマンドを得ることができる。あるいは、ユーザの音声コマンドをソーシャルプラットフォームを介して取得してもよい。
【0024】
ステップ202では、音声コマンドに対して音声認識を行い、対応する音声テキストを確定する。
【0025】
実行主体は、音声コマンドを取得した後、音声コマンドに対して音声認識を行い、対応する音声テキストを確定することができる。ここで、実行主体は、予めトレーニングされたニューラルネットワークまたは既存の音声認識アルゴリズムを用いて音声認識を行っていてもよい。上記音声認識アルゴリズムまたはニューラルネットワークは、1つのモジュールに統合されていてもよく、実行主体は、上記モジュールを呼び出すことにより、上記音声認識アルゴリズムまたはニューラルネットワークを利用してもよい。
【0026】
ステップ203では、予め設定された情報送信条件を満たすことに応答して、音声テキストをクラウドに送信する。
【0027】
実行主体は、予め設定された情報送信条件を満たすか否かを検出し、満たす場合、音声テキストをクラウドに送信することができる。ここで、予め設定された情報送信条件は、情報送信に適した条件であってもよく、例えば、ネットワーク環境が良好であること、ネットワークからリソースを取得する必要があること、音声テキストの長さが長すぎること等を含むが、これらに限定されない。同様に、実行主体は、予め情報非送信条件を設定しておき、情報非送信条件が満たされた場合に音声テキストをクラウドに送信しないようにしてもよい。情報非送信条件が満たされない場合、実行主体は音声テキストをクラウドに送信してもよい。
【0028】
ステップ204では、クラウドから返された、音声コマンドに対応するリソースを受信する。
【0029】
本実施形態では、クラウドは、上記音声テキストを受信すると、対応する業務ロジックに基づいて、音声コマンドに対応するリソースを取得することができる。上記リソースは、ドキュメント、リンク、テキスト等であってもよい。実行主体は、上記リソースを取得するために、予め設定された時間帯内にリソース取得要求をクラウドに連続して送信してもよい。クラウドが予め設定された時間を超えても実行主体にリソースをフィードバックしない場合、実行主体は、エラーメッセージを端末に返送してもよい。
【0030】
ステップ205では、上記リソースに基づいて音声コマンドに応答する。
【0031】
実行主体は、上記リソースを受信すると、音声コマンドに応答することができる。例えば、上記リソースがドキュメントを含む場合、実行主体は、上記ドキュメントを表示するように端末を制御してもよい。応答時には、実行主体は予め設定された音声、例えば「はい、今すぐクエリします」または「少々お待ちください」を先に再生してもよい。
【0032】
次に、本出願に係るヒューマンコンピュータインタラクション方法の一応用シーンの概略図を示す図3を参照する。図3の応用シーンでは、ユーザは車両を運転して走行する過程中に車載端末と音声インタラクションを行う。ユーザは、「XXの歌曲YYを再生する」という音声コマンドを発話する。車載端末は、まず音声コマンドに対して音声認識を行い、「XXの歌曲YYを再生する」という音声テキストを得る。そして、車載端末は、ローカルキャッシュに上記歌曲が含まれていないと判断すると、予め設定された情報送信条件が満たされたと判断し、上記音声テキストをクラウドに送信する。クラウドは、上記音声テキストを受信すると、車載端末に歌曲のリンクを返送し、車載端末は、上記リンクを介して歌曲を取得して再生する。
【0033】
本出願の上記実施形態に係るヒューマンコンピュータインタラクション方法は、音声インタラクションの効率を向上させ、ユーザのインタラクティブ体験を向上させることができるとともに、音声をクラウドにアップロードする必要がなく、ユーザのプライバシーを保護することができる。
【0034】
次に、本出願に係るヒューマンコンピュータインタラクション方法のもう一つの実施形態のフロー400を示す図4を参照する。図4に示すように、本実施形態に係る方法は以下のステップを含んでもよい。
【0035】
ステップ401では、音声コマンドを取得する。
【0036】
本実施形態のいくつかのオプション的な実施形態において、実行主体は、音声コマンドを取得した後、音声の品質を向上させるために、まず音声コマンドの音響エコー除去(AEC、Acoustic Echo Cancellation)および音声区間検出(VAD、Voice Activity Detection)を行っていてもよい。
【0037】
ステップ402では、音声コマンドに対して音声認識を行い、対応する音声テキストを確定する。
【0038】
本実施形態では、実行主体は、音声テキストを確定した後、ステップ4031および4032により、予め設定された情報送信条件を満たすか否かを判断してもよい。
【0039】
ステップ4031では、音声テキストに対して意図認識を行い、ユーザの意図を判断し、ユーザの意図がクライアントへの制御指示であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定する。
【0040】
本実施形態では、実行主体は、既存の意図認識アルゴリズムを用いて音声テキストに対して意図認識を行い、ユーザの意図を判断することができる。ユーザの意図が「音楽をオンにする」または「写真を開く」などのような、クライアントへの制御指示である場合、実行主体は、このコマンドをクラウドに送信する必要がないと判断し、予め設定された情報送信条件を満たさないと判定してもよい。これにより、クラウドで処理する必要のないコンテンツをクラウドに送信する必要がなくなり、ネットワーク帯域の占有を低減するとともに、ネットワークが存在しない場合またはネットワークが不安定な場合に音声コマンドが全く処理できない状況を回避することができる。
【0041】
本実施形態のいくつかのオプション的な実施形態において、実行主体は、音声コマンドに対応する音声テキストを確定する前に、まず、音声コマンドがヒューマンコンピュータインタラクションコマンドであるか否かを判断してもよい。ここで、ヒューマンコンピュータインタラクションコマンドとは、人とインテリジェント端末装置との間のインタラクションコマンドを指す。音声コマンドがヒューマンコンピュータインタラクションコマンドであれば、実行主体は音声コマンドに対して、対応するテキストを確定することができる。音声コマンドがヒューマンコンピュータインタラクションコマンドでなければ、音声コマンドを無視してもよい。
【0042】
本実施形態のいくつかのオプション的な実施形態において、実行主体は、図4には示されていないが、テキスト情報に対して意味解析および意図認識を行ってユーザの意図を判断するステップと、テキスト情報が文に属する確率を判定するステップと、テキスト情報に対応するテキスト長を確定するステップと、音響情報に対応する音節の音響信頼度および音響情報に対応する文全体の音響信頼度(acoustic confidence of an entire sentence)を確定するステップと、ユーザの意図、確率、テキスト長、音節の音響信頼度および文全体の音響信頼度のうちの少なくとも1つに基づいて音声コマンドがヒューマンコンピュータインタラクションコマンドに属するか否かを判断するステップとにより、音声コマンドがヒューマンコンピュータインタラクションコマンドに属するか否かを判断してもよい。
【0043】
本実施形態では、実行主体はまず、様々な既存のアルゴリズムを用いて音声コマンドを解析してもよい。例えば、まず意図認識アルゴリズムを用いてテキスト情報に対して意味解析および意図認識を行い、ユーザの意図を判断してもよい。あるいは、予めトレーニングされた言語モデルを用いて、対象音声コマンドに対応するテキストが文に属する確率を確定してもよい。ここで、実行主体は、上記テキストを言語モデルの出力としてもよく、言語モデルの出力は、上記テキストが文に属する確率を示す数値であってもよい。例えば「北京の天気はどうですか」という言語モデルのスコアは「びえいはこのわたしひと」という文字列よりも高く、文の長さが同じであるが、前者の言語モデルのスコアはより高く、より高いスコアのテキストはヒューマンコンピュータインタラクションコマンドに属する可能性が高い。
【0044】
実行主体は、テキスト情報のテキスト長を確定することもできる。一般に、複数人が同時に発話する場合には、認識されたテキスト長が長く、意味上に意味のないテキストであり、その場合にはヒューマンコンピュータインタラクションコマンドではない確率が高い。
【0045】
音節の音響信頼度とは、音響学の観点から、出力された認識結果の各文字が正確である確率を指す。例えば、認識結果が「一時停止」である場合、ユーザが真のデバイスに対して「一時停止」と言った時、音節信頼度は「一時:0.99、停止:0.98」というスコアを与え、1単語あたりのスコアは高い。雑音を「一時停止」と認識された場合、音節信頼度は「一時:0.32、停止:0.23」というスコアを与え、1単語あたりのスコアは低い。大部分の音節のスコアが高い場合、対象音声コマンドがヒューマンコンピュータインタラクションコマンドである確率が高い。逆にヒューマンコンピュータインタラクションコマンドではない。実行主体は、予めトレーニングされた音節ループネットワーク(syllable loop network)を用いて音節の音響信頼度を求めることができる。上記音節ループネットワークは、音声と音節の音響信頼度との対応関係を表すものである。
【0046】
文全体の音響信頼度は、音響学の観点から、現在の認識結果が正しいと判定される確率である。スコアが高いほど、ヒューマンコンピュータインタラクションコマンドである確率が高く、逆も同様である。
【0047】
実行主体は、履歴音声コマンドがヒューマンコンピュータインタラクションコマンドに属する状況を取得してもよい。
【0048】
実行主体は、上記の各情報を[0,1]の間の値にマッピングしてもよい。マッピングに際しては、上記の各情報を符号化し、コードに基づいてマッピングを行うことができる。そして、実行主体は、得られた各数値を予めトレーニングされたネットワークの入力層に一括して入力し、隠れ層の計算を経て、最終的にsoftmax計算により最終的な出力スコア(0~1の間)を得ることができ、スコアが高いほど、ヒューマンコンピュータインタラクションコマンドである確率が高い。上記のネットワークは、DNN(Deep Neural Networks,ディープニューラルネットワーク)であってもよいし、LSTM(Long Short-Term Memory,長短期記憶ネットワーク)、Transformerモデル(論文「 Attention is All You Need」で提案されたモデル)などの構成であってもよい。実行主体は、上記スコアと予め設定された閾値とを比較し、上記予め設定された閾値よりも大きければ、対象音声コマンドがヒューマンコンピュータインタラクションコマンドに属するとみなすことができる。そうでなければヒューマンコンピュータインタラクションコマンドに属さない。
【0049】
本実施形態のいくつかのオプション的な実施形態において、音声コマンドに対して音声認識を行う際に、ユーザの音声を正確に認識できない場合がある。この場合、実行主体は、音響情報に対応する音響信頼度および予め設定された信頼度閾値に基づいて、音声コマンドにおける明確なテキスト(definite text)および不明確なテキスト(indefinite text)を確定し、明確なテキストおよび不明確なテキストに基づいて、プロンプト情報を生成して出力し、プロンプト情報に対応する応答音声を受信し、応答音声におけるクラリフィケーションテキスト(clarification text)を認識し、明確なテキストおよびクラリフィケーションテキストに基づいて、対応する音声テキストを確定することにより、音声テキストを確定することができる。
【0050】
本実施態様では、実行主体は、音響情報に対応する音響信頼度と予め設定された信頼度閾値とを比較することができ、音響信頼度が上記信頼度閾値以上であれば、音節を正確に認識できると判定することができる。音響信頼度が上記信頼度閾値よりも小さければ、音節を正しく認識できないと判定できる。実行主体は、正しく認識された音節に対応する文字を明確なテキストとして構成することができる。正しく認識されなかった音節に対応する文字を不明確なテキストとして構成することができる。実行主体は、明確なテキストおよび不明確なテキストに基づいて、プロンプト情報を生成し、上記プロンプト情報を出力することができる。例えば、実行主体が取得した明確なテキストは「聞きたい」と「歌曲」であり、不明確なテキストは歌手の名前を示す「XXX」である。実行主体は、プロンプト情報が「誰の歌曲を聴きたいか」であると判定することができる。実行主体は、上記プロンプト情報を出力した後、プロンプト情報に対応するユーザの応答音声を受信することができる。上記応答音声を受信すると、応答音声におけるクラリフィケーションテキストを認識することができる。例えば、応答音声が「張三」であれば、クラリフィケーションテキストは「張三」となる。実行主体は、上記明確なテキストおよびクラリフィケーションテキストに基づいて音声テキストを確定することができる。具体的には、実行主体は、不明確なテキストの位置に上記クラリフィケーションテキストを入れ替え、上記クラリフィケーションテキストと明確なテキストとを組み合わせて音声テキストを得ることができる。
【0051】
ステップ4032では、クラウドとのネットワーク接続状態を判断し、ネットワーク接続状態が異常であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定する。
【0052】
本実施形態では、実行主体は、音声テキストを確定した後に、クラウドとのネットワーク接続状態を検出することもできる。ネットワーク接続状態が不良またはネットワーク接続状態が異常である場合に、予め設定された情報送信条件を満たさないと判定することができる。ここで、ネットワーク接続状態が不良であることとは、ネットワーク帯域幅が予め設定された閾値よりも小さいことをいい、ネットワーク接続状態が異常であることとは、ネットワークが接続されていないこと、またはネットワークがとぎれながら接続することをいう。
【0053】
ステップ404では、予め設定された情報送信条件を満たさないことに応答して、履歴応答テキストに基づいて音声コマンドに対応する応答テキストを生成する。
【0054】
本実施形態では、予め設定された情報送信条件を満たさない場合、実行主体は、音声テキストをクラウドに送信する必要がなく、クラウドからのリソースを受信することができない。このとき、実行主体は、履歴応答テキストに基づいて音声コマンドに対応する応答テキストを生成することができる。ここで、履歴応答テキストは、履歴音声コマンドに対してクラウドから受信した応答テキストであってもよい。実行主体は、現在の音声コマンドと履歴音声コマンドとの類似度に基づいて、履歴応答テキストの中から1つの応答テキストを選択して現在の音声コマンドとしてもよい。
【0055】
ステップ405では、予め設定された情報送信条件を満たすことに応答して、音声テキストをクラウドに送信する。
【0056】
本実施形態のいくつかのオプション的な実施形態において、実行主体は、音声コマンドの音声認識プロセスにおいて、予め設定された情報送信条件を満たす場合に、認識されたテキストをクラウドに送信するようにしてもよい。
【0057】
本実施形態によれば、実行主体は認識しながら送信することができ、クラウドで認識されたテキストを迅速に受信することができ、それによって情報クエリの効率を向上することができる。
【0058】
本実施形態のいくつかのオプション的な実施形態において、実行主体は、認識プロセスにおいて、認識されたテキストが予め設定された条件を満たすか否かを判断してもよい。ここで、予め設定された条件とは、認識されたテキストに含まれる単語の数が予め設定された閾値よりも多いこと、または、認識されたテキストが履歴音声テキストにヒットした数が予め設定された閾値よりも多いことなどであってもよい。ここで、履歴音声テキストにヒットしたとは、認識されたテキストが履歴音声テキストの一部であることを意味してもよい。例えば、履歴音声テキストが「北京の天気はどうですか」、認識されたテキストが「北京の天気」であれば、認識されたテキストが履歴音声テキストにヒットしたと判定する。認識されたテキストが予め設定された条件を満たす場合、実行主体は、その時点で情報クエリまたは検索の効率を向上することができると判定し、認識されたテキストをクラウドに送信することができる。実行主体が1単語認識するごとにクラウドに送信すると、クラウドと実行主体とのインタラクションの回数が増えるだけでなく、認識されたテキスト情報が少なすぎると、クラウドでの検索またはクエリの結果の精度が低下し、リソースが無駄になることが理解できる。
【0059】
ステップ406では、クラウドから返された、音声コマンドに対応するリソースを受信する。
【0060】
本実施形態では、音声テキストをクラウドに送信することにより、クラウドがリアルタイムに更新したネットワーク環境を利用してリソースの取得または話し方の生成を行うことができ、業務ロジックの柔軟な調整更新を保証することができる。
【0061】
ステップ4071では、応答テキストを音声合成し、合成した音声を出力する。
【0062】
本実施形態では、クラウドから返されたリソースに応答テキストが含まれていたり、実行主体自身が応答テキストを生成したりすると、さらに応答テキストを音声合成して合成した音声を出力することができる。音声合成する際には、既存の音声合成アルゴリズムを用いて実現することができる。そして、再生のために合成した音声を出力する。
【0063】
ステップ4072では、クエリ結果に対応するページを表示する。
【0064】
本実施形態では、クラウドから返されたリソースにクエリ結果が含まれている場合、実行主体は、クエリ結果に対応するページを表示することができる。上記クエリ結果は、天気のクエリ結果であってもよいし、道路状況のクエリ結果等であってもよい。上記ページは、クエリ結果に対応するカードであってもよく、例えば、天気を表示するカードであってもよい。あるいは、実行主体は、上記クエリ結果に基づいて、対応するページの動的効果を確定してもよい。例えば、天気のクエリ結果が「濃霧」であれば、霧が立ちこめる効果をカードに表示してもよい。
【0065】
本実施形態のいくつかのオプション的な実施形態において、実行主体が音声コマンドの認識中にクラウドから送信された中間リソースを受信すると、上記中間リソースを表示してもよい。これにより、ユーザが中間リソースを手軽に見ることができ、ヒューマンコンピュータインタラクション効率を向上し、ユーザ体験を向上できる。
【0066】
本出願の上記実施形態に係るヒューマンコンピュータインタラクション方法は、クライアントのローカルで音声コマンドを解析し、予め設定された情報送信条件が満たされた場合にのみクラウドにテキストを送信し、クライアントとクラウドとの間の上り・下りの通信内容は、より大きな帯域幅を必要とするオーディオストリームから、より小さな帯域幅を必要とするテキスト内容に変更し、通信リソースの占有を減少した。また、上り・下りの通信内容が少なくなったため、上り・下りの通信にかかる時間が減り、ユーザはより早くシステムからの回答を受信でき、ユーザ体験が良くなった。
【0067】
さらに図5を参照すると、上記の各図に示された方法の実施態様として、本出願は、ヒューマンコンピュータインタラクション装置の一実施形態を提供し、当該装置の実施形態は、図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
【0068】
図5に示すように、本実施形態に係るヒューマンコンピュータインタラクション装置500は、音声取得ユニット501と、音声認識ユニット502と、テキスト送信ユニット503と、リソース受信ユニット504と、コマンド応答ユニット505とを備える。
【0069】
音声取得ユニット501は、音声コマンドを取得するように構成される。
【0070】
音声認識ユニット502は、音声コマンドに対して音声認識を行い、対応する音声テキストを確定するように構成される。
【0071】
テキスト送信ユニット503は、予め設定された情報送信条件を満たすことに応答して音声テキストをクラウドに送信するように構成される。
【0072】
リソース受信ユニット504は、クラウドから返された、音声コマンドに対応するリソースを受信するように構成される。
【0073】
コマンド応答ユニット505は、リソースに基づいて音声コマンドに応答するように構成される。
【0074】
本実施形態のいくつかのオプション的な実施形態において、装置500は、前記音声テキストに対して意図認識を行いユーザの意図を判断し、前記ユーザの意図がクライアントへの制御指示であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定するように構成される条件判断ユニット(図5に示されていない)をさらに備えてもよい。
【0075】
本実施形態のいくつかのオプション的な実施形態において、上記装置500は、クラウドとのネットワーク接続状態を判断し、前記ネットワーク接続状態が異常であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定するように構成される条件判断ユニット(図5に示されていない)をさらに備えてもよい。
【0076】
本実施形態のいくつかのオプション的な実施形態において、リソースは応答テキストを含み、コマンド応答ユニット505は、前記応答テキストを音声合成して合成した音声を出力するようにさらに構成されてもよい。
【0077】
本実施形態のいくつかのオプション的な実施形態において、リソースはクエリ結果を含む。コマンド応答ユニット505は、前記クエリ結果に対応するページを表示するようにさらに構成されてもよい。
【0078】
本実施形態のいくつかのオプション的な実施形態において、装置500は、予め設定された情報送信条件を満たさないことに応答して、履歴応答テキストに基づいて前記音声コマンドに対応する応答テキストを生成するように構成されるテキスト生成ユニット(図5に示されていない)をさらに備えてもよい。
【0079】
本実施形態のいくつかのオプション的な実施形態において、装置500は、音声コマンドがヒューマンコンピュータインタラクションコマンドであるか否かを判断するように構成されるコマンド判断ユニット(図5に示されていない)をさらに備えてもよい。音声認識ユニット502は、音声コマンドがヒューマンコンピュータインタラクションコマンドであると判定したことに応答して、音声コマンドに対して音声認識を行い、対応する音声テキストを確定するようにさらに構成されてもよい。
【0080】
本実施形態のいくつかのオプション的な実施形態において、コマンド判断ユニットは、テキスト情報に対して意味解析および意図認識を行い、ユーザの意図を判断し、テキスト情報が文に属する確率を確定し、テキスト情報に対応するテキスト長を確定し、音響情報に対応する音節の音響信頼度および音響情報に対応する文全体の音響信頼度を確定し、ユーザの意図、確率、テキスト長、音節の音響信頼度、および文全体の音響信頼度のうちの少なくとも1つに基づいて、音声コマンドがヒューマンコンピュータインタラクションコマンドに属するか否かを判断するようにさらに構成される。
【0081】
本実施形態のいくつかのオプション的な実施形態において、音声認識ユニット502は、音響情報に対応する音響信頼度および予め設定された信頼度閾値に基づいて、音声コマンドにおける明確なテキストおよび不明確なテキストを確定し、明確なテキストおよび不明確なテキストに基づいて、プロンプト情報を生成して出力し、プロンプト情報に対応する応答音声を受信し、応答音声におけるクラリフィケーションテキストを認識し、明確なテキストおよびクラリフィケーションテキストに基づいて、対応する音声テキストを確定するようにさらに構成されてもよい。
【0082】
本実施形態のいくつかのオプション的な実施形態において、テキスト送信ユニット503は、音声コマンドの音声認識プロセスにおいて、認識されたテキストをクラウドに送信するようにさらに構成されてもよい。
【0083】
本実施形態のいくつかのオプション的な実施形態において、テキスト送信ユニット503は、音声コマンドの音声認識プロセスにおいて、認識されたテキストが予め設定された条件を満たすか否かを判断し、認識されたテキストが予め設定された条件を満たすと判定したことに応答して、認識されたテキストをクラウドに送信するようにさらに構成されてもよい。
【0084】
本実施形態のいくつかのオプション的な実施形態において、コマンド応答ユニット505は、音声コマンドの認識プロセス中に、クラウドから送信された中間リソースを受信したことに応答して、中間リソースを表示するようにさらに構成されてもよい。
【0085】
ヒューマンコンピュータインタラクション装置500に記載のユニット501~ユニット505はそれぞれ、図2を参照して記述した方法の各ステップに対応することを理解すべきである。したがって、ヒューマンコンピュータインタラクション方法について上記で記述した動作および特徴は、装置500およびその中に含まれたユニットに同じく適用可能であり、ここではその説明を省略する。
【0086】
本出願の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連する法律法規の規定に準拠し、且つ公序良俗に反しない。
【0087】
本出願の実施形態によれば、本出願はさらに電子機器、読み取り可能な記憶媒体およびコンピュータプログラムを提供する。
【0088】
図6は、本出願の実施形態に係るヒューマンコンピュータインタラクション方法に係る電子機器600のブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本出願の実施形態を限定することを意図するものではない。
【0089】
図6に示すように、電子機器600は、読み出し専用メモリ(ROM)602に格納されているコンピュータプログラムまたはメモリ608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行可能なプロセッサ601を備える。RAM603には、電子機器600の動作に必要な様々なプログラムおよびデータがさらに格納可能である。プロセッサ601、ROM602およびRAM603は、バス604を介して互いに接続されている。I/Oインターフェース(入/出力インターフェース)605もバス604に接続されている。
【0090】
電子機器600において、キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどのメモリ608と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット609とを含む複数のコンポーネントは、I/Oインターフェース605に接続されている。通信ユニット609は、電子機器600がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
【0091】
プロセッサ601は、処理および演算能力を有する様々な汎用および/または専用処理モジュールであってもよい。プロセッサ601のいくつかの例示としては、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々なプロセッサ、デジタル信号プロセッサ(DSP)、およびあらゆる適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。プロセッサ601は、上述した各方法およびヒューマンコンピュータインタラクション方法のような処理を実行する。例えば、いくつかの実施形態では、ヒューマンコンピュータインタラクション方法は、メモリ608などの機械可読記憶媒体に有形に含まれたコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM602および/または通信ユニット609を介して電子機器600にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM603にロードされ、プロセッサ601によって実行されると、上述したヒューマンコンピュータインタラクション方法における1つまたは複数のステップを実行できる。あるいは、他の実施形態では、プロセッサ601は、他のあらゆる適切な形態によって(例えば、ファームウェアを介して)ヒューマンコンピュータインタラクション方法を実行するように構成されていてもよい。
【0092】
ここで説明したシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実装され得る。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、当該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよびコマンドを受信することができ、且つデータおよびコマンドを当該記憶システム、当該少なくとも1つの入力装置および当該少なくとも1つの出力装置に伝送することを含み得る。
【0093】
本出願の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成され得る。上記プログラムコードは、コンピュータプログラムとしてパッケージ化されてもよい。これらのプログラムコードまたはコンピュータプログラムは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサ601によって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
【0094】
本出願のコンテキストでは、機械可読記憶媒体は、有形の媒体であってもよく、コマンド実行システム、装置または機器が使用するため、またはコマンド実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読記憶媒体は、機械可読信号記憶媒体または機械可読記憶媒体であり得る。機械可読記憶媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD?ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
ユーザとのやりとりを行うために、ここで記述したシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが当該キーボードおよび当ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
【0095】
ここで記述したシステムおよび技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで記述したシステムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む計算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
【0096】
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、従来の物理ホストとVPS(VPS、Virtual Private Server)サービスにおける管理の難度が大きく、ビジネス拡張性が弱いという欠陥を解決したクラウドコンピューティングサービスシステムにおけるホスト製品である。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。
【0097】
上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行っていてもよいことを理解すべきである。例えば、本出願に記載された各ステップは、本出願に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。
【0098】
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
【外国語明細書】