特開2022-101663 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン　バイドゥ　ネットコム　サイエンス　アンド　テクノロジー　カンパニー　リミテッドの特許一覧

特開2022-101663ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022101663

(43)【公開日】2022-07-06

(54)【発明の名称】ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム

(51)【国際特許分類】

G10L 15/10 20060101AFI20220629BHJP

G10L 13/00 20060101ALI20220629BHJP

G10L 15/00 20130101ALI20220629BHJP

G10L 15/22 20060101ALI20220629BHJP

【ＦＩ】

G10L15/10 500T

G10L13/00 100M

G10L15/00 200T

G10L15/22 460Z

G10L15/10 500Z

【審査請求】有

【請求項の数】30

【出願形態】ＯＬ

【外国語出願】

【公開請求】

(21)【出願番号】P 2022071651

(22)【出願日】2022-04-25

(31)【優先権主張番号】202110948729.1

(32)【優先日】2021-08-18

(33)【優先権主張国・地域又は機関】CN

(71)【出願人】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】100147485

【弁理士】

【氏名又は名称】杉村憲司

(74)【代理人】

【識別番号】230118913

【弁護士】

【氏名又は名称】杉村光嗣

(74)【代理人】

【識別番号】100163511

【弁理士】

【氏名又は名称】辻啓太

(72)【発明者】

【氏名】ウージェン

(72)【発明者】

【氏名】グウアジアシャン

(72)【発明者】

【氏名】ワンシャオ

(72)【発明者】

【氏名】スーシャンズ

(72)【発明者】

【氏名】リュウビン

(72)【発明者】

【氏名】ワンジャウェイ

(72)【発明者】

【氏名】ワンダン

(72)【発明者】

【氏名】ヤンソン

(72)【発明者】

【氏名】ハオジンハオ

(72)【発明者】

【氏名】ウーユーファン

(72)【発明者】

【氏名】チュウチン

(72)【発明者】

【氏名】チャンビンチー

(72)【発明者】

【氏名】フーシャオイン

(72)【発明者】

【氏名】ウースーユアン

(72)【発明者】

【氏名】リーチャオ

(72)【発明者】

【氏名】ガオコン

(72)【発明者】

【氏名】ジアレイ

(57)【要約】（修正有）

【課題】音声インタラクションの効率を向上させ、ユーザのインタラクティブ体験を向上させるヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。
【解決手段】ヒューマンコンピュータインタラクション方法は、音声コマンドを取得するステップと、音声コマンドに対して音声認識を行い、対応する音声テキストを確定するステップと、予め設定された情報送信条件を満たすことに応答して、音声テキストをクラウドに送信するステップと、クラウドから返された、音声コマンドに対応するリソースを受信するステップと、リソースに基づいて、音声コマンドに応答するステップと、を含む。
【選択図】図２

【特許請求の範囲】

【請求項1】

音声コマンドを取得することと、
前記音声コマンドに対して音声認識を行い、対応する音声テキストを確定することと、
予め設定された情報送信条件を満たすことに応答して、前記音声テキストをクラウドに送信することと、
クラウドから返された、前記音声コマンドに対応するリソースを受信することと、
前記リソースに基づいて前記音声コマンドに応答することと、
を含むヒューマンコンピュータインタラクション方法。

【請求項2】

前記音声テキストに対して意図認識を行い、ユーザの意図を判断することと、
前記ユーザの意図がクライアントへの制御指示であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定することと、
をさらに含む請求項１に記載のヒューマンコンピュータインタラクション方法。

【請求項3】

クラウドとのネットワーク接続状態を確定することと、
前記ネットワーク接続状態が異常であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定することと、
をさらに含む請求項１に記載のヒューマンコンピュータインタラクション方法。

【請求項4】

前記リソースは応答テキストを含み、
前記リソースに基づいて前記音声コマンドに応答することは、前記応答テキストに対して音声合成を行い、合成した音声を出力することを含む、
請求項１に記載のヒューマンコンピュータインタラクション方法。

【請求項5】

前記リソースはクエリ結果を含み、
前記リソースに基づいて前記音声コマンドに応答することは、前記クエリ結果に対応するページを表示することを含む、
請求項１に記載のヒューマンコンピュータインタラクション方法。

【請求項6】

予め設定された情報送信条件を満たさないことに応答して、履歴応答テキストに基づいて前記音声コマンドに対応する応答テキストを生成することをさらに含む、請求項４に記載のヒューマンコンピュータインタラクション方法。

【請求項7】

前記音声コマンドに対して音声認識を行い、対応する音声テキストを確定することは、
前記音声コマンドがヒューマンコンピュータインタラクションコマンドであるか否かを判断することと、
前記音声コマンドがヒューマンコンピュータインタラクションコマンドであると判断したことに応答して、前記音声コマンドに対して音声認識を行い、対応する音声テキストを確定することと、
を含む請求項１に記載のヒューマンコンピュータインタラクション方法。

【請求項8】

前記音声コマンドがヒューマンコンピュータインタラクションコマンドであるか否かを判断することは、
前記音声コマンドのテキスト情報に対して意味解析および意図認識を行い、ユーザの意図を判断することと、
前記テキスト情報が文に属する確率を確定することと、
前記テキスト情報に対応するテキスト長を確定することと、
前記音声コマンドの音響情報に対応する音節の音響信頼度および前記音響情報に対応する文全体の音響信頼度を確定することと、
前記ユーザの意図、前記確率、前記テキスト長、前記音節の音響信頼度、および前記文全体の音響信頼度のうちの少なくとも１つに基づいて、前記音声コマンドがヒューマンコンピュータインタラクションコマンドに属するか否かを判断することと、
を含む請求項７に記載のヒューマンコンピュータインタラクション方法。

【請求項9】

前記音声コマンドに対して音声認識を行い、対応する音声テキストを確定することは、
前記音響情報に対応する音響信頼度と予め設定された信頼度閾値とに基づいて、前記音声コマンドにおける明確なテキストおよび不明確なテキストを確定することと、
前記明確なテキストおよび前記不明確なテキストに基づいてプロンプト情報を生成して出力することと、
前記プロンプト情報に対応する応答音声を受信することと、
前記応答音声におけるクラリフィケーションテキストを認識することと、
前記明確なテキストおよび前記クラリフィケーションテキストに基づいて、対応する音声テキストを確定することと、
を含む請求項８に記載のヒューマンコンピュータインタラクション方法。

【請求項10】

予め設定された情報送信条件を満たすことに応答して、前記音声テキストをクラウドに送信することは、
前記音声コマンドの音声認識プロセスにおいて、認識されたテキストをクラウドに送信することを含む請求項１に記載のヒューマンコンピュータインタラクション方法。

【請求項11】

前記音声コマンドの音声認識プロセスにおいて、認識されたテキストをクラウドに送信することは、
前記音声コマンドの音声認識プロセスにおいて、認識されたテキストが予め設定された条件を満たすか否かを判断することと、
前記認識されたテキストが予め設定された条件を満たすことに応答して、認識されたテキストをクラウドに送信することと、
を含む請求項１０に記載のヒューマンコンピュータインタラクション方法。

【請求項12】

前記音声コマンドの認識プロセスにおいて、クラウドから送信された中間リソースを受信したことに応答して、前記中間リソースを表示することをさらに含む、請求項１０または１１に記載のヒューマンコンピュータインタラクション方法。

【請求項13】

音声コマンドを取得するように構成される音声取得ユニットと、
前記音声コマンドに対して音声認識を行い、対応する音声テキストを確定するように構成される音声認識ユニットと、
予め設定された情報送信条件を満たすことに応答して、前記音声テキストをクラウドに送信するように構成されるテキスト送信ユニットと、
クラウドから返された、前記音声コマンドに対応するリソースを受信するように構成されるリソース受信ユニットと、
前記リソースに基づいて、前記音声コマンドに応答するように構成されるコマンド応答ユニットと、
を備えるヒューマンコンピュータインタラクション装置。

【請求項14】

前記音声テキストに対して意図認識を行い、ユーザの意図を確定し、
前記ユーザの意図がクライアントへの制御指示であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定するように構成される条件判断ユニットをさらに備える請求項１３に記載のヒューマンコンピュータインタラクション装置。

【請求項15】

クラウドとのネットワーク接続状態を確定し、前記ネットワーク接続状態が異常であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定するように構成される条件判断ユニットをさらに備える請求項１３に記載のヒューマンコンピュータインタラクション装置。

【請求項16】

前記リソースは応答テキストを含み、
前記コマンド応答ユニットは、前記応答テキストに対して音声合成を行い、合成した音声を出力するように構成される、
請求項１３に記載のヒューマンコンピュータインタラクション装置。

【請求項17】

前記リソースはクエリ結果を含み、
前記コマンド応答ユニットは、前記クエリ結果に対応するページを表示するようにさらに構成される、
請求項１３に記載のヒューマンコンピュータインタラクション装置。

【請求項18】

予め設定された情報送信条件を満たさないことに応答して、履歴応答テキストに基づいて前記音声コマンドに対応する応答テキストを生成するように構成されるテキスト生成ユニットをさらに備える請求項１６に記載のヒューマンコンピュータインタラクション装置。

【請求項19】

前記ヒューマンコンピュータインタラクション装置は、前記音声コマンドがヒューマンコンピュータインタラクションコマンドであるか否かを判断するように構成されるコマンド判断ユニットをさらに備え、
前記音声認識ユニットは、前記音声コマンドがヒューマンコンピュータインタラクションコマンドであると判断したことに応答して、前記音声コマンドに対して音声認識を行い、対応する音声テキストを確定するようにさらに構成される、
請求項１３に記載のヒューマンコンピュータインタラクション装置。

【請求項20】

前記コマンド判断ユニットは、さらに
前記音声コマンドのテキスト情報に対して意味解析および意図認識を行い、ユーザの意図を判断し、
前記テキスト情報が文に属する確率を確定し、
前記テキスト情報に対応するテキスト長を確定し、
前記音声コマンドの音響情報に対応する音節の音響信頼度および前記音響情報に対応する文全体の音響信頼度を確定し、
前記ユーザの意図、前記確率、前記テキスト長、前記音節の音響信頼度、および前記文全体の音響信頼度のうちの少なくとも１つに基づいて、前記音声コマンドがヒューマンコンピュータインタラクションコマンドに属するか否かを判断するように構成される、
請求項１９に記載のヒューマンコンピュータインタラクション装置。

【請求項21】

前記音声認識ユニットは、さらに
前記音響情報に対応する音響信頼度と予め設定された信頼度閾値とに基づいて、前記音声コマンドにおける明確なテキストおよび不明確なテキストを確定し、
前記明確なテキストおよび前記不明確なテキストに基づいてプロンプト情報を生成して出力し、
前記プロンプト情報に対応する応答音声を受信し、
前記応答音声におけるクラリフィケーションテキストを認識し、
前記明確なテキストおよび前記クラリフィケーションテキストに基づいて、対応する音声テキストを確定するように構成される、
請求項２０に記載のヒューマンコンピュータインタラクション装置。

【請求項22】

前記テキスト送信ユニットは、前記音声コマンドの音声認識プロセスにおいて、認識されたテキストをクラウドに送信するようにさらに構成される、
請求項２０に記載のヒューマンコンピュータインタラクション装置。

【請求項23】

前記テキスト送信ユニットは、
前記音声コマンドの音声認識プロセスにおいて、認識されたテキストが予め設定された条件を満たすか否かを判断し、
前記認識されたテキストが予め設定された条件を満たすことに応答して、認識されたテキストをクラウドに送信するようにさらに構成される、
請求項２０に記載のヒューマンコンピュータインタラクション装置。

【請求項24】

前記コマンド応答ユニットは、
前記音声コマンドの認識プロセスにおいて、クラウドから送信された中間リソースを受信したことに応答して、前記中間リソースを表示するようにさらに構成される、
請求項２２または２３に記載のヒューマンコンピュータインタラクション装置。

【請求項25】

少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが格納され、前記コマンドが前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１～１１のいずれか１項に記載のヒューマンコンピュータインタラクション方法を実行させる、電子機器。

【請求項26】

少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが格納され、前記コマンドが前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１２に記載のヒューマンコンピュータインタラクション方法を実行させる、電子機器。

【請求項27】

コンピュータコマンドが格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータコマンドはコンピュータに請求項１～１１のいずれか１項に記載のヒューマンコンピュータインタラクション方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。

【請求項28】

少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが格納され、前記コマンドが前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１２に記載のヒューマンコンピュータインタラクション方法を実行させる、電子機器。

【請求項29】

プロセッサによって実行されると、請求項１～１１のいずれか１項に記載のヒューマンコンピュータインタラクション方法が実現されるコンピュータプログラム。

【請求項30】

プロセッサによって実行されると、請求項１２に記載のヒューマンコンピュータインタラクション方法が実現されるコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本出願はは、コンピュータ技術分野に関し、具体的に深層学習、音声などの人工知能分野に関し、特にヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。

【背景技術】

【0002】

音声認識技術の急速な発展に伴い、音声認識技術は人々の生活に入りつつある。スマート音声インタラクションは、発話することでフィードバック結果を得ることができる、音声入力に基づく新たなインタラクションモードである。スマート音声インタラクションシステムの家庭、車載、ロボット、携帯電話への応用が人々の生活をより便利にする。スマートネットワーク端末にスマート音声インタラクションシステムを統合することで、運転手は音声でスマートネットワーク端末を操作して、ナビゲーション、マルチメディア、車載設定、電話をかけることおよび電話に応答することなど、以前に手動でボタンをタッチして実行する必要のある動作は、現在音声で実現することができるようになった。音声インタラクションの効果が高まりつつあることで、ユーザにもより良いインタラクティブ体験をもたらすことができる。

【発明の概要】

【0003】

本出願は、ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。

【0004】

第１の態様によれば、音声コマンドを取得することと、音声コマンドに対して音声認識を行い、対応する音声テキストを確定することと、予め設定された情報送信条件を満たすことに応答して、音声テキストをクラウドに送信することと、クラウドから返された、音声コマンドに対応するリソースを受信することと、リソースに基づいて音声コマンドに応答することと、を含むヒューマンコンピュータインタラクション方法を提供する。

【0005】

第２の態様によれば、音声コマンドを取得するように構成される音声取得ユニットと、音声コマンドに対して音声認識を行い、対応する音声テキストを確定するように構成される音声認識ユニットと、予め設定された情報送信条件を満たすことに応答して、音声テキストをクラウドに送信するように構成されるテキスト送信ユニットと、クラウドから返された、音声コマンドに対応するリソースを受信するように構成されるリソース受信ユニットと、リソースに基づいて、音声コマンドに応答するように構成されるコマンド応答ユニットと、を備えるヒューマンコンピュータインタラクション装置を提供する。

【0006】

第３の態様によれば、少なくとも１つのプロセッサと、上記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも１つのプロセッサによって実行可能なコマンドが格納され、コマンドが少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに第１の態様に記載のヒューマンコンピュータインタラクション方法を実行させる、電子機器を提供する。

【0007】

第４の態様によれば、コンピュータコマンドが格納されている非一時的コンピュータ可読記憶媒体であって、上記コンピュータコマンドは第１の態様に記載のヒューマンコンピュータインタラクション方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。

【0008】

第５の態様によれば、プロセッサによって実行されると、第１の態様に記載のヒューマンコンピュータインタラクション方法が実現されるコンピュータプログラムを提供する。

【0009】

本出願の技術によれば、音声インタラクションの効率を向上させることができ、ユーザのインタラクティブ体験を向上させることができる。

【0010】

なお、発明の概要に記載された内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解される。

【図面の簡単な説明】

【0011】

図面は本出願をよりよく理解するために用いられ、本出願に対する限定ではない。

【図1】本出願の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。

【図2】本出願に係るヒューマンコンピュータインタラクション方法の一実施形態のフローチャートである。

【図3】本出願に係るヒューマンコンピュータインタラクション方法の一応用シーンの概略図である。

【図4】本出願に係るヒューマンコンピュータインタラクション方法のもう一つの実施形態を示すフローチャートである。

【図5】本出願に係るヒューマンコンピュータインタラクション装置の一実施形態を示す構造概略図である。

【図6】本出願の実施形態に係るヒューマンコンピュータインタラクション方法を実現するための電子機器のブロック図である。

【発明を実施するための形態】

【0012】

以下は図面を参照して本出願の例示的な実施形態を説明し、ここでは理解を助けるために、本出願の実施形態の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることは自明である。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。

【0013】

なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本出願を詳細に説明する。

【0014】

図１に示すように、システムアーキテクチャ１００は、インテリジェント端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含んでもよい。ネットワーク１０４は、インテリジェント端末装置１０１、１０２、１０３とサーバ１０５との間で通信リンクを提供するための媒体として使用される。ネットワーク１０４は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。

【0015】

ユーザは、メッセージを送受信するために、インテリジェント端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と情報のやり取りをしてもよい。インテリジェント端末装置１０１、１０２、１０３には、音声認識アプリケーション、音声生成アプリケーションなど、様々な通信クライアントアプリケーションをインストールしてもよい。また、インテリジェント端末装置１０１、１０２、１０３には、画像採集装置、マイクアレイ、スピーカ等を搭載してもよい。

【0016】

インテリジェント端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。インテリジェント端末装置１０１、１０２、１０３がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、車載コンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。インテリジェント端末装置１０１、１０２および１０３がソフトウェアである場合、上記の電子機器にインストールされてもよい。それは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。

【0017】

サーバ１０５は、様々なサービスを提供するサーバ、例えば、インテリジェント端末装置１０１、１０２、１０３をサポートするバックエンドサーバであってもよい。バックエンドサーバは、音声処理モデルをインテリジェント端末装置１０１、１０２、１０３に提供し、処理結果を取得してインテリジェント端末装置１０１、１０２、１０３にフィードバックすることができる。

【0018】

なお、サーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ１０５がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。

【0019】

なお、本出願の実施形態によって提供されるヒューマンコンピュータインタラクション方法は、一般的にインテリジェント端末装置１０１、１０２、１０３によって実行される。それに応じて、ヒューマンコンピュータインタラクション装置は、一般的にインテリジェント端末装置１０１、１０２、１０３に配置される。

【0020】

図１におけるインテリジェント端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要に応じて、インテリジェント端末装置、ネットワークおよびサーバの数を任意に加減してもよい。

【0021】

次に、本出願に係るヒューマンコンピュータインタラクション方法の一実施形態のフロー２００を示す図２を参照する。この実施形態のヒューマンコンピュータインタラクション方法は、次のステップを含む。

【0022】

ステップ２０１では、音声コマンドを取得する。

【0023】

本実施形態では、ヒューマンコンピュータインタラクション方法の実行主体は、様々な方法で音声コマンドを取得することができる。例えば、通信可能に接続されたマイクロフォンを介してユーザの音声を集音し、音声コマンドを得ることができる。あるいは、ユーザの音声コマンドをソーシャルプラットフォームを介して取得してもよい。

【0024】

ステップ２０２では、音声コマンドに対して音声認識を行い、対応する音声テキストを確定する。

【0025】

実行主体は、音声コマンドを取得した後、音声コマンドに対して音声認識を行い、対応する音声テキストを確定することができる。ここで、実行主体は、予めトレーニングされたニューラルネットワークまたは既存の音声認識アルゴリズムを用いて音声認識を行っていてもよい。上記音声認識アルゴリズムまたはニューラルネットワークは、１つのモジュールに統合されていてもよく、実行主体は、上記モジュールを呼び出すことにより、上記音声認識アルゴリズムまたはニューラルネットワークを利用してもよい。

【0026】

ステップ２０３では、予め設定された情報送信条件を満たすことに応答して、音声テキストをクラウドに送信する。

【0027】

実行主体は、予め設定された情報送信条件を満たすか否かを検出し、満たす場合、音声テキストをクラウドに送信することができる。ここで、予め設定された情報送信条件は、情報送信に適した条件であってもよく、例えば、ネットワーク環境が良好であること、ネットワークからリソースを取得する必要があること、音声テキストの長さが長すぎること等を含むが、これらに限定されない。同様に、実行主体は、予め情報非送信条件を設定しておき、情報非送信条件が満たされた場合に音声テキストをクラウドに送信しないようにしてもよい。情報非送信条件が満たされない場合、実行主体は音声テキストをクラウドに送信してもよい。

【0028】

ステップ２０４では、クラウドから返された、音声コマンドに対応するリソースを受信する。

【0029】

本実施形態では、クラウドは、上記音声テキストを受信すると、対応する業務ロジックに基づいて、音声コマンドに対応するリソースを取得することができる。上記リソースは、ドキュメント、リンク、テキスト等であってもよい。実行主体は、上記リソースを取得するために、予め設定された時間帯内にリソース取得要求をクラウドに連続して送信してもよい。クラウドが予め設定された時間を超えても実行主体にリソースをフィードバックしない場合、実行主体は、エラーメッセージを端末に返送してもよい。

【0030】

ステップ２０５では、上記リソースに基づいて音声コマンドに応答する。

【0031】

実行主体は、上記リソースを受信すると、音声コマンドに応答することができる。例えば、上記リソースがドキュメントを含む場合、実行主体は、上記ドキュメントを表示するように端末を制御してもよい。応答時には、実行主体は予め設定された音声、例えば「はい、今すぐクエリします」または「少々お待ちください」を先に再生してもよい。

【0032】

次に、本出願に係るヒューマンコンピュータインタラクション方法の一応用シーンの概略図を示す図３を参照する。図３の応用シーンでは、ユーザは車両を運転して走行する過程中に車載端末と音声インタラクションを行う。ユーザは、「ＸＸの歌曲ＹＹを再生する」という音声コマンドを発話する。車載端末は、まず音声コマンドに対して音声認識を行い、「ＸＸの歌曲ＹＹを再生する」という音声テキストを得る。そして、車載端末は、ローカルキャッシュに上記歌曲が含まれていないと判断すると、予め設定された情報送信条件が満たされたと判断し、上記音声テキストをクラウドに送信する。クラウドは、上記音声テキストを受信すると、車載端末に歌曲のリンクを返送し、車載端末は、上記リンクを介して歌曲を取得して再生する。

【0033】

本出願の上記実施形態に係るヒューマンコンピュータインタラクション方法は、音声インタラクションの効率を向上させ、ユーザのインタラクティブ体験を向上させることができるとともに、音声をクラウドにアップロードする必要がなく、ユーザのプライバシーを保護することができる。

【0034】

次に、本出願に係るヒューマンコンピュータインタラクション方法のもう一つの実施形態のフロー４００を示す図４を参照する。図４に示すように、本実施形態に係る方法は以下のステップを含んでもよい。

【0035】

ステップ４０１では、音声コマンドを取得する。

【0036】

本実施形態のいくつかのオプション的な実施形態において、実行主体は、音声コマンドを取得した後、音声の品質を向上させるために、まず音声コマンドの音響エコー除去（ＡＥＣ、ＡｃｏｕｓｔｉｃＥｃｈｏＣａｎｃｅｌｌａｔｉｏｎ）および音声区間検出（ＶＡＤ、ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）を行っていてもよい。

【0037】

ステップ４０２では、音声コマンドに対して音声認識を行い、対応する音声テキストを確定する。

【0038】

本実施形態では、実行主体は、音声テキストを確定した後、ステップ４０３１および４０３２により、予め設定された情報送信条件を満たすか否かを判断してもよい。

【0039】

ステップ４０３１では、音声テキストに対して意図認識を行い、ユーザの意図を判断し、ユーザの意図がクライアントへの制御指示であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定する。

【0040】

本実施形態では、実行主体は、既存の意図認識アルゴリズムを用いて音声テキストに対して意図認識を行い、ユーザの意図を判断することができる。ユーザの意図が「音楽をオンにする」または「写真を開く」などのような、クライアントへの制御指示である場合、実行主体は、このコマンドをクラウドに送信する必要がないと判断し、予め設定された情報送信条件を満たさないと判定してもよい。これにより、クラウドで処理する必要のないコンテンツをクラウドに送信する必要がなくなり、ネットワーク帯域の占有を低減するとともに、ネットワークが存在しない場合またはネットワークが不安定な場合に音声コマンドが全く処理できない状況を回避することができる。

【0041】

本実施形態のいくつかのオプション的な実施形態において、実行主体は、音声コマンドに対応する音声テキストを確定する前に、まず、音声コマンドがヒューマンコンピュータインタラクションコマンドであるか否かを判断してもよい。ここで、ヒューマンコンピュータインタラクションコマンドとは、人とインテリジェント端末装置との間のインタラクションコマンドを指す。音声コマンドがヒューマンコンピュータインタラクションコマンドであれば、実行主体は音声コマンドに対して、対応するテキストを確定することができる。音声コマンドがヒューマンコンピュータインタラクションコマンドでなければ、音声コマンドを無視してもよい。

【0042】

本実施形態のいくつかのオプション的な実施形態において、実行主体は、図４には示されていないが、テキスト情報に対して意味解析および意図認識を行ってユーザの意図を判断するステップと、テキスト情報が文に属する確率を判定するステップと、テキスト情報に対応するテキスト長を確定するステップと、音響情報に対応する音節の音響信頼度および音響情報に対応する文全体の音響信頼度（ａｃｏｕｓｔｉｃｃｏｎｆｉｄｅｎｃｅｏｆａｎｅｎｔｉｒｅｓｅｎｔｅｎｃｅ）を確定するステップと、ユーザの意図、確率、テキスト長、音節の音響信頼度および文全体の音響信頼度のうちの少なくとも１つに基づいて音声コマンドがヒューマンコンピュータインタラクションコマンドに属するか否かを判断するステップとにより、音声コマンドがヒューマンコンピュータインタラクションコマンドに属するか否かを判断してもよい。

【0043】

本実施形態では、実行主体はまず、様々な既存のアルゴリズムを用いて音声コマンドを解析してもよい。例えば、まず意図認識アルゴリズムを用いてテキスト情報に対して意味解析および意図認識を行い、ユーザの意図を判断してもよい。あるいは、予めトレーニングされた言語モデルを用いて、対象音声コマンドに対応するテキストが文に属する確率を確定してもよい。ここで、実行主体は、上記テキストを言語モデルの出力としてもよく、言語モデルの出力は、上記テキストが文に属する確率を示す数値であってもよい。例えば「北京の天気はどうですか」という言語モデルのスコアは「びえいはこのわたしひと」という文字列よりも高く、文の長さが同じであるが、前者の言語モデルのスコアはより高く、より高いスコアのテキストはヒューマンコンピュータインタラクションコマンドに属する可能性が高い。

【0044】

実行主体は、テキスト情報のテキスト長を確定することもできる。一般に、複数人が同時に発話する場合には、認識されたテキスト長が長く、意味上に意味のないテキストであり、その場合にはヒューマンコンピュータインタラクションコマンドではない確率が高い。

【0045】

音節の音響信頼度とは、音響学の観点から、出力された認識結果の各文字が正確である確率を指す。例えば、認識結果が「一時停止」である場合、ユーザが真のデバイスに対して「一時停止」と言った時、音節信頼度は「一時：０．９９、停止：０．９８」というスコアを与え、１単語あたりのスコアは高い。雑音を「一時停止」と認識された場合、音節信頼度は「一時：０．３２、停止：０．２３」というスコアを与え、１単語あたりのスコアは低い。大部分の音節のスコアが高い場合、対象音声コマンドがヒューマンコンピュータインタラクションコマンドである確率が高い。逆にヒューマンコンピュータインタラクションコマンドではない。実行主体は、予めトレーニングされた音節ループネットワーク（ｓｙｌｌａｂｌｅｌｏｏｐｎｅｔｗｏｒｋ）を用いて音節の音響信頼度を求めることができる。上記音節ループネットワークは、音声と音節の音響信頼度との対応関係を表すものである。

【0046】

文全体の音響信頼度は、音響学の観点から、現在の認識結果が正しいと判定される確率である。スコアが高いほど、ヒューマンコンピュータインタラクションコマンドである確率が高く、逆も同様である。

【0047】

実行主体は、履歴音声コマンドがヒューマンコンピュータインタラクションコマンドに属する状況を取得してもよい。

【0048】

実行主体は、上記の各情報を［０，１］の間の値にマッピングしてもよい。マッピングに際しては、上記の各情報を符号化し、コードに基づいてマッピングを行うことができる。そして、実行主体は、得られた各数値を予めトレーニングされたネットワークの入力層に一括して入力し、隠れ層の計算を経て、最終的にｓｏｆｔｍａｘ計算により最終的な出力スコア（０～１の間）を得ることができ、スコアが高いほど、ヒューマンコンピュータインタラクションコマンドである確率が高い。上記のネットワークは、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ディープニューラルネットワーク）であってもよいし、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ，長短期記憶ネットワーク）、Ｔｒａｎｓｆｏｒｍｅｒモデル（論文「ＡｔｔｅｎｔｉｏｎｉｓＡｌｌＹｏｕＮｅｅｄ」で提案されたモデル）などの構成であってもよい。実行主体は、上記スコアと予め設定された閾値とを比較し、上記予め設定された閾値よりも大きければ、対象音声コマンドがヒューマンコンピュータインタラクションコマンドに属するとみなすことができる。そうでなければヒューマンコンピュータインタラクションコマンドに属さない。

【0049】

本実施形態のいくつかのオプション的な実施形態において、音声コマンドに対して音声認識を行う際に、ユーザの音声を正確に認識できない場合がある。この場合、実行主体は、音響情報に対応する音響信頼度および予め設定された信頼度閾値に基づいて、音声コマンドにおける明確なテキスト（ｄｅｆｉｎｉｔｅｔｅｘｔ）および不明確なテキスト（ｉｎｄｅｆｉｎｉｔｅｔｅｘｔ）を確定し、明確なテキストおよび不明確なテキストに基づいて、プロンプト情報を生成して出力し、プロンプト情報に対応する応答音声を受信し、応答音声におけるクラリフィケーションテキスト（ｃｌａｒｉｆｉｃａｔｉｏｎｔｅｘｔ）を認識し、明確なテキストおよびクラリフィケーションテキストに基づいて、対応する音声テキストを確定することにより、音声テキストを確定することができる。

【0050】

本実施態様では、実行主体は、音響情報に対応する音響信頼度と予め設定された信頼度閾値とを比較することができ、音響信頼度が上記信頼度閾値以上であれば、音節を正確に認識できると判定することができる。音響信頼度が上記信頼度閾値よりも小さければ、音節を正しく認識できないと判定できる。実行主体は、正しく認識された音節に対応する文字を明確なテキストとして構成することができる。正しく認識されなかった音節に対応する文字を不明確なテキストとして構成することができる。実行主体は、明確なテキストおよび不明確なテキストに基づいて、プロンプト情報を生成し、上記プロンプト情報を出力することができる。例えば、実行主体が取得した明確なテキストは「聞きたい」と「歌曲」であり、不明確なテキストは歌手の名前を示す「ＸＸＸ」である。実行主体は、プロンプト情報が「誰の歌曲を聴きたいか」であると判定することができる。実行主体は、上記プロンプト情報を出力した後、プロンプト情報に対応するユーザの応答音声を受信することができる。上記応答音声を受信すると、応答音声におけるクラリフィケーションテキストを認識することができる。例えば、応答音声が「張三」であれば、クラリフィケーションテキストは「張三」となる。実行主体は、上記明確なテキストおよびクラリフィケーションテキストに基づいて音声テキストを確定することができる。具体的には、実行主体は、不明確なテキストの位置に上記クラリフィケーションテキストを入れ替え、上記クラリフィケーションテキストと明確なテキストとを組み合わせて音声テキストを得ることができる。

【0051】

ステップ４０３２では、クラウドとのネットワーク接続状態を判断し、ネットワーク接続状態が異常であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定する。

【0052】

本実施形態では、実行主体は、音声テキストを確定した後に、クラウドとのネットワーク接続状態を検出することもできる。ネットワーク接続状態が不良またはネットワーク接続状態が異常である場合に、予め設定された情報送信条件を満たさないと判定することができる。ここで、ネットワーク接続状態が不良であることとは、ネットワーク帯域幅が予め設定された閾値よりも小さいことをいい、ネットワーク接続状態が異常であることとは、ネットワークが接続されていないこと、またはネットワークがとぎれながら接続することをいう。

【0053】

ステップ４０４では、予め設定された情報送信条件を満たさないことに応答して、履歴応答テキストに基づいて音声コマンドに対応する応答テキストを生成する。

【0054】

本実施形態では、予め設定された情報送信条件を満たさない場合、実行主体は、音声テキストをクラウドに送信する必要がなく、クラウドからのリソースを受信することができない。このとき、実行主体は、履歴応答テキストに基づいて音声コマンドに対応する応答テキストを生成することができる。ここで、履歴応答テキストは、履歴音声コマンドに対してクラウドから受信した応答テキストであってもよい。実行主体は、現在の音声コマンドと履歴音声コマンドとの類似度に基づいて、履歴応答テキストの中から１つの応答テキストを選択して現在の音声コマンドとしてもよい。

【0055】

ステップ４０５では、予め設定された情報送信条件を満たすことに応答して、音声テキストをクラウドに送信する。

【0056】

本実施形態のいくつかのオプション的な実施形態において、実行主体は、音声コマンドの音声認識プロセスにおいて、予め設定された情報送信条件を満たす場合に、認識されたテキストをクラウドに送信するようにしてもよい。

【0057】

本実施形態によれば、実行主体は認識しながら送信することができ、クラウドで認識されたテキストを迅速に受信することができ、それによって情報クエリの効率を向上することができる。

【0058】

本実施形態のいくつかのオプション的な実施形態において、実行主体は、認識プロセスにおいて、認識されたテキストが予め設定された条件を満たすか否かを判断してもよい。ここで、予め設定された条件とは、認識されたテキストに含まれる単語の数が予め設定された閾値よりも多いこと、または、認識されたテキストが履歴音声テキストにヒットした数が予め設定された閾値よりも多いことなどであってもよい。ここで、履歴音声テキストにヒットしたとは、認識されたテキストが履歴音声テキストの一部であることを意味してもよい。例えば、履歴音声テキストが「北京の天気はどうですか」、認識されたテキストが「北京の天気」であれば、認識されたテキストが履歴音声テキストにヒットしたと判定する。認識されたテキストが予め設定された条件を満たす場合、実行主体は、その時点で情報クエリまたは検索の効率を向上することができると判定し、認識されたテキストをクラウドに送信することができる。実行主体が１単語認識するごとにクラウドに送信すると、クラウドと実行主体とのインタラクションの回数が増えるだけでなく、認識されたテキスト情報が少なすぎると、クラウドでの検索またはクエリの結果の精度が低下し、リソースが無駄になることが理解できる。

【0059】

ステップ４０６では、クラウドから返された、音声コマンドに対応するリソースを受信する。

【0060】

本実施形態では、音声テキストをクラウドに送信することにより、クラウドがリアルタイムに更新したネットワーク環境を利用してリソースの取得または話し方の生成を行うことができ、業務ロジックの柔軟な調整更新を保証することができる。

【0061】

ステップ４０７１では、応答テキストを音声合成し、合成した音声を出力する。

【0062】

本実施形態では、クラウドから返されたリソースに応答テキストが含まれていたり、実行主体自身が応答テキストを生成したりすると、さらに応答テキストを音声合成して合成した音声を出力することができる。音声合成する際には、既存の音声合成アルゴリズムを用いて実現することができる。そして、再生のために合成した音声を出力する。

【0063】

ステップ４０７２では、クエリ結果に対応するページを表示する。

【0064】

本実施形態では、クラウドから返されたリソースにクエリ結果が含まれている場合、実行主体は、クエリ結果に対応するページを表示することができる。上記クエリ結果は、天気のクエリ結果であってもよいし、道路状況のクエリ結果等であってもよい。上記ページは、クエリ結果に対応するカードであってもよく、例えば、天気を表示するカードであってもよい。あるいは、実行主体は、上記クエリ結果に基づいて、対応するページの動的効果を確定してもよい。例えば、天気のクエリ結果が「濃霧」であれば、霧が立ちこめる効果をカードに表示してもよい。

【0065】

本実施形態のいくつかのオプション的な実施形態において、実行主体が音声コマンドの認識中にクラウドから送信された中間リソースを受信すると、上記中間リソースを表示してもよい。これにより、ユーザが中間リソースを手軽に見ることができ、ヒューマンコンピュータインタラクション効率を向上し、ユーザ体験を向上できる。

【0066】

本出願の上記実施形態に係るヒューマンコンピュータインタラクション方法は、クライアントのローカルで音声コマンドを解析し、予め設定された情報送信条件が満たされた場合にのみクラウドにテキストを送信し、クライアントとクラウドとの間の上り・下りの通信内容は、より大きな帯域幅を必要とするオーディオストリームから、より小さな帯域幅を必要とするテキスト内容に変更し、通信リソースの占有を減少した。また、上り・下りの通信内容が少なくなったため、上り・下りの通信にかかる時間が減り、ユーザはより早くシステムからの回答を受信でき、ユーザ体験が良くなった。

【0067】

さらに図５を参照すると、上記の各図に示された方法の実施態様として、本出願は、ヒューマンコンピュータインタラクション装置の一実施形態を提供し、当該装置の実施形態は、図２に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。

【0068】

図５に示すように、本実施形態に係るヒューマンコンピュータインタラクション装置５００は、音声取得ユニット５０１と、音声認識ユニット５０２と、テキスト送信ユニット５０３と、リソース受信ユニット５０４と、コマンド応答ユニット５０５とを備える。

【0069】

音声取得ユニット５０１は、音声コマンドを取得するように構成される。

【0070】

音声認識ユニット５０２は、音声コマンドに対して音声認識を行い、対応する音声テキストを確定するように構成される。

【0071】

テキスト送信ユニット５０３は、予め設定された情報送信条件を満たすことに応答して音声テキストをクラウドに送信するように構成される。

【0072】

リソース受信ユニット５０４は、クラウドから返された、音声コマンドに対応するリソースを受信するように構成される。

【0073】

コマンド応答ユニット５０５は、リソースに基づいて音声コマンドに応答するように構成される。

【0074】

本実施形態のいくつかのオプション的な実施形態において、装置５００は、前記音声テキストに対して意図認識を行いユーザの意図を判断し、前記ユーザの意図がクライアントへの制御指示であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定するように構成される条件判断ユニット（図５に示されていない）をさらに備えてもよい。

【0075】

本実施形態のいくつかのオプション的な実施形態において、上記装置５００は、クラウドとのネットワーク接続状態を判断し、前記ネットワーク接続状態が異常であると判断したことに応答して、予め設定された情報送信条件を満たさないと判定するように構成される条件判断ユニット（図５に示されていない）をさらに備えてもよい。

【0076】

本実施形態のいくつかのオプション的な実施形態において、リソースは応答テキストを含み、コマンド応答ユニット５０５は、前記応答テキストを音声合成して合成した音声を出力するようにさらに構成されてもよい。

【0077】

本実施形態のいくつかのオプション的な実施形態において、リソースはクエリ結果を含む。コマンド応答ユニット５０５は、前記クエリ結果に対応するページを表示するようにさらに構成されてもよい。

【0078】

本実施形態のいくつかのオプション的な実施形態において、装置５００は、予め設定された情報送信条件を満たさないことに応答して、履歴応答テキストに基づいて前記音声コマンドに対応する応答テキストを生成するように構成されるテキスト生成ユニット（図５に示されていない）をさらに備えてもよい。

【0079】

本実施形態のいくつかのオプション的な実施形態において、装置５００は、音声コマンドがヒューマンコンピュータインタラクションコマンドであるか否かを判断するように構成されるコマンド判断ユニット（図５に示されていない）をさらに備えてもよい。音声認識ユニット５０２は、音声コマンドがヒューマンコンピュータインタラクションコマンドであると判定したことに応答して、音声コマンドに対して音声認識を行い、対応する音声テキストを確定するようにさらに構成されてもよい。

【0080】

本実施形態のいくつかのオプション的な実施形態において、コマンド判断ユニットは、テキスト情報に対して意味解析および意図認識を行い、ユーザの意図を判断し、テキスト情報が文に属する確率を確定し、テキスト情報に対応するテキスト長を確定し、音響情報に対応する音節の音響信頼度および音響情報に対応する文全体の音響信頼度を確定し、ユーザの意図、確率、テキスト長、音節の音響信頼度、および文全体の音響信頼度のうちの少なくとも１つに基づいて、音声コマンドがヒューマンコンピュータインタラクションコマンドに属するか否かを判断するようにさらに構成される。

【0081】

本実施形態のいくつかのオプション的な実施形態において、音声認識ユニット５０２は、音響情報に対応する音響信頼度および予め設定された信頼度閾値に基づいて、音声コマンドにおける明確なテキストおよび不明確なテキストを確定し、明確なテキストおよび不明確なテキストに基づいて、プロンプト情報を生成して出力し、プロンプト情報に対応する応答音声を受信し、応答音声におけるクラリフィケーションテキストを認識し、明確なテキストおよびクラリフィケーションテキストに基づいて、対応する音声テキストを確定するようにさらに構成されてもよい。

【0082】

本実施形態のいくつかのオプション的な実施形態において、テキスト送信ユニット５０３は、音声コマンドの音声認識プロセスにおいて、認識されたテキストをクラウドに送信するようにさらに構成されてもよい。

【0083】

本実施形態のいくつかのオプション的な実施形態において、テキスト送信ユニット５０３は、音声コマンドの音声認識プロセスにおいて、認識されたテキストが予め設定された条件を満たすか否かを判断し、認識されたテキストが予め設定された条件を満たすと判定したことに応答して、認識されたテキストをクラウドに送信するようにさらに構成されてもよい。

【0084】

本実施形態のいくつかのオプション的な実施形態において、コマンド応答ユニット５０５は、音声コマンドの認識プロセス中に、クラウドから送信された中間リソースを受信したことに応答して、中間リソースを表示するようにさらに構成されてもよい。

【0085】

ヒューマンコンピュータインタラクション装置５００に記載のユニット５０１～ユニット５０５はそれぞれ、図２を参照して記述した方法の各ステップに対応することを理解すべきである。したがって、ヒューマンコンピュータインタラクション方法について上記で記述した動作および特徴は、装置５００およびその中に含まれたユニットに同じく適用可能であり、ここではその説明を省略する。

【0086】

本出願の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連する法律法規の規定に準拠し、且つ公序良俗に反しない。

【0087】

本出願の実施形態によれば、本出願はさらに電子機器、読み取り可能な記憶媒体およびコンピュータプログラムを提供する。

【0088】

図６は、本出願の実施形態に係るヒューマンコンピュータインタラクション方法に係る電子機器６００のブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および／または要求した本出願の実施形態を限定することを意図するものではない。

【0089】

図６に示すように、電子機器６００は、読み出し専用メモリ（ＲＯＭ）６０２に格納されているコンピュータプログラムまたはメモリ６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行可能なプロセッサ６０１を備える。ＲＡＭ６０３には、電子機器６００の動作に必要な様々なプログラムおよびデータがさらに格納可能である。プロセッサ６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。Ｉ／Ｏインターフェース（入／出力インターフェース）６０５もバス６０４に接続されている。

【0090】

電子機器６００において、キーボード、マウスなどの入力ユニット６０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット６０７と、磁気ディスク、光ディスクなどのメモリ６０８と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット６０９とを含む複数のコンポーネントは、Ｉ／Ｏインターフェース６０５に接続されている。通信ユニット６０９は、電子機器６００がインターネットなどのコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。

【0091】

プロセッサ６０１は、処理および演算能力を有する様々な汎用および／または専用処理モジュールであってもよい。プロセッサ６０１のいくつかの例示としては、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々なプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、およびあらゆる適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。プロセッサ６０１は、上述した各方法およびヒューマンコンピュータインタラクション方法のような処理を実行する。例えば、いくつかの実施形態では、ヒューマンコンピュータインタラクション方法は、メモリ６０８などの機械可読記憶媒体に有形に含まれたコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ＲＯＭ６０２および／または通信ユニット６０９を介して電子機器６００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされ、プロセッサ６０１によって実行されると、上述したヒューマンコンピュータインタラクション方法における１つまたは複数のステップを実行できる。あるいは、他の実施形態では、プロセッサ６０１は、他のあらゆる適切な形態によって（例えば、ファームウェアを介して）ヒューマンコンピュータインタラクション方法を実行するように構成されていてもよい。

【0092】

ここで説明したシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実装され得る。これらの各実施形態は、１つまたは複数のコンピュータプログラムに実装され、当該１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および／または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置および少なくとも１つの出力装置からデータおよびコマンドを受信することができ、且つデータおよびコマンドを当該記憶システム、当該少なくとも１つの入力装置および当該少なくとも１つの出力装置に伝送することを含み得る。

【0093】

本出願の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語のあらゆる組み合わせで作成され得る。上記プログラムコードは、コンピュータプログラムとしてパッケージ化されてもよい。これらのプログラムコードまたはコンピュータプログラムは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサ６０１によって実行されると、フローチャートおよび／またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。

【0094】

本出願のコンテキストでは、機械可読記憶媒体は、有形の媒体であってもよく、コマンド実行システム、装置または機器が使用するため、またはコマンド実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読記憶媒体は、機械可読信号記憶媒体または機械可読記憶媒体であり得る。機械可読記憶媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ?ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
ユーザとのやりとりを行うために、ここで記述したシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実装することができ、ユーザが当該キーボードおよび当ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。

【0095】

ここで記述したシステムおよび技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバ）に実施されてもよく、またはミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）に実施されてもよく、またはフロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで記述したシステムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む計算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）およびインターネットなどを含む。

【0096】

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント－サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、従来の物理ホストとＶＰＳ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスにおける管理の難度が大きく、ビジネス拡張性が弱いという欠陥を解決したクラウドコンピューティングサービスシステムにおけるホスト製品である。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。

【0097】

上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行っていてもよいことを理解すべきである。例えば、本出願に記載された各ステップは、本出願に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。

【0098】

上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【外国語明細書】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版