IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特表2022-539634ユーザインタラクション方法、装置、機器および媒体
<>
  • 特表-ユーザインタラクション方法、装置、機器および媒体 図1
  • 特表-ユーザインタラクション方法、装置、機器および媒体 図2
  • 特表-ユーザインタラクション方法、装置、機器および媒体 図3a
  • 特表-ユーザインタラクション方法、装置、機器および媒体 図3b
  • 特表-ユーザインタラクション方法、装置、機器および媒体 図4
  • 特表-ユーザインタラクション方法、装置、機器および媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-13
(54)【発明の名称】ユーザインタラクション方法、装置、機器および媒体
(51)【国際特許分類】
   G06F 16/53 20190101AFI20220906BHJP
   G06F 3/01 20060101ALI20220906BHJP
   G06Q 50/10 20120101ALI20220906BHJP
   G06T 7/00 20170101ALI20220906BHJP
   G06T 7/20 20170101ALI20220906BHJP
   G06V 10/764 20220101ALI20220906BHJP
【FI】
G06F16/53
G06F3/01 510
G06Q50/10
G06T7/00 660A
G06T7/20 300B
G06V10/764
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021538657
(86)(22)【出願日】2020-12-01
(85)【翻訳文提出日】2021-06-30
(86)【国際出願番号】 CN2020133080
(87)【国際公開番号】W WO2021232744
(87)【国際公開日】2021-11-25
(31)【優先権主張番号】202010437954.4
(32)【優先日】2020-05-21
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】▲趙▼ ▲暁▼昆
(72)【発明者】
【氏名】秦 志▲偉▼
(72)【発明者】
【氏名】宋 ▲くん▼
【テーマコード(参考)】
5E555
5L049
5L096
【Fターム(参考)】
5E555AA46
5E555AA48
5E555AA76
5E555BA02
5E555BA03
5E555BA05
5E555BA06
5E555BA38
5E555BB02
5E555BB03
5E555BB05
5E555BB06
5E555BB38
5E555BC04
5E555CA24
5E555CA42
5E555CB02
5E555CB67
5E555CC03
5E555DA01
5E555DB18
5E555DB53
5E555DB57
5E555DC13
5E555DC85
5E555DD06
5E555EA03
5E555EA05
5E555EA11
5E555EA14
5E555EA19
5E555EA22
5E555EA27
5E555FA00
5L049CC11
5L096BA18
5L096CA02
5L096GA51
5L096KA04
5L096KA15
5L096MA07
(57)【要約】
本発明は、ユーザインタラクション方法、装置、機器および媒体を開示し、人工知能分野に関する。具体的な実現形態として、ユーザの現在の顔表情情報を取得し、前記現在の顔表情情報に基づいて前記ユーザの現在の笑顔レベルを確定し、前記現在の笑顔レベルに基づいて対応するインタラクション動作を実行する。
【特許請求の範囲】
【請求項1】
ユーザの現在の顔表情情報を取得することと、
前記現在の顔表情情報に基づいて前記ユーザの現在の笑顔レベルを確定することと、
前記現在の笑顔レベルに基づいて対応するインタラクション動作を実行することとを含むことを特徴とする、
ユーザインタラクション方法。
【請求項2】
前記現在の顔表情情報に基づいて前記ユーザの現在の笑顔レベルを確定することは、
前記現在の顔表情情報に基づいて現在の表情係数を確定することと、
前記現在の表情係数に基づいて前記ユーザの現在の笑顔レベルを確定することとを含むことを特徴とする、
請求項1に記載の方法。
【請求項3】
前記現在の表情係数に基づいて前記ユーザの現在の笑顔レベルを確定することは、
前記ユーザに対応する笑顔開始側閾値を取得することと、
前記現在の表情係数および前記笑顔開始側閾値に基づいて前記ユーザの現在の笑顔レベルを確定することとを含むことを特徴とする、
請求項2に記載の方法。
【請求項4】
前記ユーザに対応する笑顔開始側閾値を取得することは、
前記ユーザの履歴表情係数を取得することと、
前記履歴表情係数を用いて前記ユーザに対応する笑顔閾値認識モデルをトレーニングすることと、
前記笑顔閾値認識モデルのトレーニング結果に基づいて前記ユーザに対応する笑顔開始側閾値を取得することと、を含み、
前記トレーニング結果は、少なくとも2つの笑顔分類の表情係数範囲を含むことを特徴とする、
請求項3に記載の方法。
【請求項5】
前記笑顔閾値認識モデルのトレーニング結果に基づいて前記ユーザに対応する笑顔開始側閾値を取得することは、
前記トレーニング結果における表情係数の値が最も小さい笑顔分類を通常表情クラスとして確定することと、
前記通常表情クラスに対応する表情係数範囲の最大値を前記ユーザに対応する笑顔開始側閾値として確定することとを含むことを特徴とする、
請求項4に記載の方法。
【請求項6】
前記現在の表情係数および前記笑顔開始側閾値に基づいて前記ユーザの現在の笑顔レベルを確定することは、
前記笑顔開始側閾値に基づいて少なくとも2つのプリセット笑顔レベルに対応するレベル値の区間を確定することと、
前記現在の表情係数および前記少なくとも2つのプリセット笑顔レベルに対応するレベル値の区間に基づいて前記ユーザの現在の笑顔レベルを確定することとを含むことを特徴とする、
請求項3に記載の方法。
【請求項7】
前記現在の顔表情情報に基づいて現在の表情係数を確定することは、
前記現在の顔表情情報を表情認識モデルに入力し、現在の表情係数を出力して取得することを含むことを特徴とする、
請求項2に記載の方法。
【請求項8】
ユーザの現在の顔表情情報を取得することは、
拡張現実ARエンジンによって、設定頻度でユーザの顔表情データを前記ユーザの現在の顔表情情報としてリアルタイムに収集することを含むことを特徴とする、
請求項1に記載の方法。
【請求項9】
対応するインタラクション動作を実行することは、
対応する「いいね」をクリックした効果の画面を表示すること、および/または、
対応するユーザフィードバック情報の統計を行うことを含むことを特徴とする、
請求項1に記載の方法。
【請求項10】
ユーザの現在の顔表情情報を取得するように構成される表情取得モジュールと、
前記現在の顔表情情報に基づいて前記ユーザの現在の笑顔レベルを確定するように構成されるレベル確定モジュールと、
前記現在の笑顔レベルに基づいて対応するインタラクション動作を実行するように構成される動作実行モジュールとを備えることを特徴とする、
ユーザインタラクション装置。
【請求項11】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが請求項1~9のいずれか1項に記載の方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行されることを特徴とする、
電子機器。
【請求項12】
請求項1~9のいずれか1項に記載の方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2020年5月21日に中国専利局に提出された出願番号がCN202010437954.4である中国特許出願に対して優先権を主張するものであり、該出願の全ての内容を引用により本発明に援用する。
【0002】
本発明は、コンピュータ技術に関し、例えば、人工知能分野に関し、具体的には、ユーザインタラクション方法、装置、機器および媒体に関する。
【背景技術】
【0003】
スマート機器の普及に伴い、ユーザは、毎日、スマート機器を介して大量の情報とインタラクションする。ユーザがスマート機器を使用して行う様々なインタラクション動作のうち、ほとんどのインタラクション動作はユーザが手動で行う必要があり、例えば、「いいね」をクリックする動作、情報をフィードバックする動作等は、ユーザがスマート機器のディスプレイに表示されたコントロールを手動でタッチまたはクリックして対応するインタラクション動作を行う必要がある。
【0004】
関連技術において、ユーザは、スマート機器のディスプレイに表示されたインタラクションコントロールを指でクリックするかまたはカーソルを制御してクリックすることでユーザインタラクション動作を行うことしかができないため、インタラクション動作のトリガ要求が高くなり、ユーザがインタラクション動作を行いにくく、ユーザインタラクション体験を低減する。
【発明の概要】
【発明が解決しようとする課題】
【0005】
以下は、本文について詳細に説明する主題の概要である。本概要は、特許請求の範囲を制限するものではない。
【0006】
本発明の実施例は、ユーザインタラクション方法、装置、機器および媒体を提供する。
【課題を解決するための手段】
【0007】
本発明は、
ユーザの現在の顔表情情報を取得することと、
前記現在の顔表情情報に基づいて前記ユーザの現在の笑顔レベルを確定することと、
前記現在の笑顔レベルに基づいて対応するインタラクション動作を実行することと、を含む、
ユーザインタラクション方法を提供する。
【0008】
本発明は、
ユーザの現在の顔表情情報を取得するように構成される表情取得モジュールと、
前記現在の顔表情情報に基づいて前記ユーザの現在の笑顔レベルを確定するように構成されるレベル確定モジュールと、
前記現在の笑顔レベルに基づいて対応するインタラクション動作を実行するように構成される動作実行モジュールと、を備える、
ユーザインタラクション装置を更に提供する。
【0009】
本発明は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本発明の実施例におけるいずれか1項に記載の方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器を更に提供する。
【0010】
本発明は、
本発明の実施例におけるいずれか1項に記載の方法を前記コンピュータに実行させるためのコンピュータ命令が記憶されていることを特徴とする、
非一時的なコンピュータ可読記憶媒体を更に提供する。
【発明の効果】
【0011】
図面および詳細な説明を閲読し理解することで、他の態様も理解できる。
【図面の簡単な説明】
【0012】
図面は本形態をより良く理解するためのものであり、本発明を限定するものではない。
【0013】
図1】本発明の実施例によるユーザインタラクション方法のフローチャートである。
図2】本発明の実施例による別のユーザインタラクション方法のフローチャートである。
図3a】本発明の実施例による更なるユーザインタラクション方法のフローチャートである。
図3b】本発明の実施例による「いいね」をクリックするインタラクション過程の模式図である。
図4】本発明の実施例によるユーザインタラクション装置の構造模式図である。
図5】本発明の実施例のユーザインタラクション方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら本発明の例示的な実施例について説明する。なお、矛盾しない限り、本発明における実施例と実施例における特徴は、互いに任意に組み合わせることができる。同様に、以下の説明において、公知されている機能および構造の説明は、明確かつ簡潔にするために省略している。
【0015】
本発明の実施例によれば、本発明は、ユーザインタラクション方法を提供する。
【0016】
図1に示すように、本発明の実施例によるユーザインタラクション方法のフローチャートである。本実施例は、ユーザ表情を利用して「いいね」をクリックするインタラクションを行う場合に適用でき、該方法は、ユーザインタラクション装置により実行でき、該装置は、ソフトウェアおよび/またはハードウェアにより実現でき、且つ、一般的に、コンピュータ、携帯電話等の電子機器に集積できる。
【0017】
具体的には、図1に示すように、該方法は、ステップS110、ステップS120およびステップS130を含む。
【0018】
ステップS110において、ユーザの現在の顔表情情報を取得する。
【0019】
顔表情において、微笑みは、自然かつ明確な称賛の意味を表す表情である。ユーザは情報を受信する時、微笑みで該情報の正方向作用をフィードバックすることが多い。これに基づき、本実施例は、ユーザの現在の顔表情情報を取得し、現在の笑顔レベルを確定することにより、対応する「いいね」をクリックするインタラクション動作を行い、ユーザの「いいね」をクリックするインタラクションのニーズがあるアプリケーションに適用できる。
【0020】
本実施例において、ユーザの現在の顔表情情報は、ユーザの現在の顔表情をデータ化した後に取得した情報であってもよい。具体的には、ユーザの現在の顔表情情報を取得する方式は、カメラ等のローカルまたは外部接続画像収集機器を利用してユーザ面部の画像または映像をリアルタイムに収集することを含んでもよいが、これらに限定されない。
【0021】
例示的には、ユーザが電子機器上でユーザの「いいね」をクリックするインタラクションのニーズがあるアプリケーションをクリックして起動すると、機器のカメラを起動し、プリセット収集頻度でユーザの顔の画像データを該ユーザの現在の顔表情情報としてリアルタイムに収集する。
【0022】
ステップS120において、現在の顔表情情報に基づいてユーザの現在の笑顔レベルを確定する。
【0023】
本実施例において、異なる笑顔程度は、ユーザの異なる称賛程度を表すことができるため、複数の笑顔レベルを設定してもよく、異なる笑顔レベルがユーザの異なる笑顔程度に対応する。例えば、プリセット笑顔レベルは、笑顔無しレベルおよび笑顔ありレベルという2つのレベルを含んでもよく、また、プリセット笑顔レベルは、笑顔無しレベル、微笑みレベル、笑いレベルおよび大笑いレベルという4つのレベルを含んでもよく、もちろん、以上は例に過ぎず、実際の必要に応じて他の笑顔レベルを設定してもよく、ここでは限定しない。
【0024】
例示的には、統一的な指標パラメータを用いて現在の顔表情情報に対して笑顔程度の量子化を行い、更に、量子化した後に取得した指標パラメータ値に基づいて現在の顔表情情報が対応して属する現在の笑顔レベルを確定することができる。
【0025】
本実施例において、異なる笑顔レベルを設定することの有益な効果は、ユーザの現在の笑顔レベルを確定することにより、ユーザの異なる称賛程度を反映し、更にインタラクションの精度を高め、インタラクション動作の多様性を増加することである。
【0026】
ステップS130において、現在の笑顔レベルに基づいて対応するインタラクション動作を実行する。
【0027】
本実施例において、異なる笑顔レベルに対し、異なるインタラクション動作を対応して実行することができ、ここで、インタラクション動作は、UI(User Interface、ユーザインタフェース)インタラクション動作、およびバックエンド論理動作等を含んでもよいが、これらに限定されない。
【0028】
異なる笑顔レベルが異なるインタラクション動作に対応するため、ユーザは、リアルタイムな表情表出により、ユーザの「いいね」をクリックした対象に対する嗜好度をリアルかつ客観的に反応し、対応するフィードバックインタラクション動作を自動的に実行することができ、これにより、両手をフリーにすることができ、表情認識の能力によりインタラクション過程を行い、インタラクションにおける革新を実現するとともに、ユーザインタラクションのコストを低減し、インタラクション過程の面白味を高め、ユーザが好きな対象を積極的にフィードバックすることを促進し、ユーザインタラクション体験を向上させ、インタラクション結果情報の統計を促進する。
【0029】
好ましくは、対応するインタラクション動作を実行することは、対応する「いいね」をクリックした効果の画面を表示すること、および/または、対応するユーザフィードバック情報の統計を行うことを含む。
【0030】
例示的には、異なる笑顔レベルに対応する「いいね」をクリックするインタラクション動作は、「いいね」をクリックした対象の表示画面で異なる「いいね」をクリックした効果の画面を対応して表示することであってもよい。1つの具体的な例において、ユーザの現在の笑顔レベルが微笑みである場合、現在の「いいね」をクリックした対象の表示画面で1つの小さいハートが表示され、ユーザの現在の笑顔レベルが笑いである場合、現在の「いいね」をクリックした対象の表示画面で複数の小さいハートが表示され、ユーザの現在の笑顔レベルが大笑いである場合、「いいね」をクリックした対象の表示画面の全画面で1つの大きなハートが表示され、ユーザの現在の笑顔レベルが笑顔無しである場合、「いいね」をクリックした対象の表示画面でハートのアニメーション効果が表示されない。このように、「いいね」をクリックする過程の面白味を増加し、ユーザが「いいね」をクリックするインタラクションを行う積極性を増加する。
【0031】
また、異なる笑顔レベルに対し、本実施例は、それらを対応して異なるユーザフィードバック情報として統計することもでき、例えば、ユーザの現在の笑顔レベルが微笑みである場合、ユーザの「いいね」をクリックした対象に対する嗜好度が一般的であるとフィードバックされ、ユーザの現在の笑顔レベルが笑いである場合、ユーザの「いいね」をクリックした対象に対する嗜好度が好きであるとフィードバックされ、ユーザの現在の笑顔レベルが大笑いである場合、ユーザの「いいね」をクリックした対象に対する嗜好度が非常に好きであるとフィードバックされ、ユーザの現在の笑顔レベルが笑顔無しである場合、ユーザの「いいね」をクリックした対象に対する嗜好度が好きでないとフィードバックされる。このように、ユーザが手動でフィードバック動作を行う必要がなくても、良質な情報を統計することができる。
【0032】
本実施例の技術案によれば、ユーザの現在の顔表情情報を取得し、該現在の顔表情情報に基づいてユーザの現在の笑顔レベルを確定し、更に、ユーザの現在の笑顔レベルに基づいて対応するインタラクション動作を実行することにより、関連技術におけるユーザが手動でインタラクション動作を行う必要があるため、ユーザインタラクション動作をしにくく、ユーザインタラクション体験が低いという問題を解決し、ユーザの異なる程度のインタラクション動作に対するトリガ要求を達成し、ユーザが異なる程度のインタラクション動作を行うことを容易にし、更に、ユーザインタラクション体験の効果を向上させる。
【0033】
上記実施例の基に、好ましくは、ユーザの現在の顔表情情報を取得することは、拡張現実ARエンジンによって、設定頻度でユーザの顔表情データをユーザの現在の顔表情情報としてリアルタイムに収集することを含む。
【0034】
例示的には、ユーザの現在の顔表情情報を取得する過程において、AR(Augmented Reality、拡張現実)エンジンによりユーザの顔モデルをリアルタイムに収集するとともに、設定されたサンプリング頻度でユーザの顔表情の画像データをユーザの現在の顔表情情報としてリアルタイムに収集することができる。
【0035】
ARエンジンによってユーザの顔表情データを収集することのメリットは、収集精度を高め、ユーザの笑顔認識をより正確にすることができるため、インタラクション結果の正確性および信頼性を向上させることができることである。
【0036】
本発明の実施例によれば、本発明は、ユーザインタラクション方法を更に提供する。
【0037】
図2に示すように、本発明の実施例による別のユーザインタラクション方法のフローチャートである。本実施例は、上記任意の実施例を細分化し、前記現在の顔表情情報に基づいて前記ユーザの現在の笑顔レベルを確定することを、前記現在の顔表情情報に基づいて現在の表情係数を確定することと、前記現在の表情係数に基づいて前記ユーザの現在の笑顔レベルを確定することとに細分化する。
【0038】
具体的には、図2に示すように、本方法は、ステップS210、ステップS220、ステップS230およびステップS240を含む。
【0039】
ステップS210において、ユーザの現在の顔表情情報を取得する。
【0040】
ステップS220において、現在の顔表情情報に基づいて現在の表情係数を確定する。
【0041】
上記実施例の基に、本実施例は、具体的に、表情係数を用いてユーザの現在の顔表情情報に対して笑顔程度の量子化を行う。ここで、表情係数の値の範囲は、例えば、[0,1]であってよい。
【0042】
例示的には、異なる顔表情情報に基づいて異なる表情係数を取得することができる。例えば、現在の顔表情情報におけるユーザの口角の上がり程度を検出することにより、ユーザの現在の表情係数を確定することができる。ユーザの口角の上がり程度が大きければ大きいほど、ユーザの笑顔程度が大きいことを意味し、この場合、取得された現在の表情係数も大きくなることを確定する。1つの実際の例において、ユーザの微笑みの場合、取得された現在の顔表情情報における口角の上がり程度が小さく、取得された現在の表情係数が小さいことを確定し、ユーザの笑いまたは大笑いの場合、取得された現在の顔表情情報における口角の上がり程度が大きく、取得された現在の表情係数が大きいことを確定する。
【0043】
好ましくは、現在の顔表情情報に基づいて現在の表情係数を確定することは、現在の顔表情情報を表情認識モデルに入力し、現在の表情係数を出力して取得することを含む。
【0044】
ここで、表情認識モデルは、AI(Artificial Intelligence、人工知能)表情認識モデルのようなトレーニングされたニューラルネットワークモデルであってもよい。1つの具体的な例において、ARエンジンは、一定のサンプリングレートで顔情報を収集し、顔モデルを構築し、顔モデルをAI表情認識モデルにより分析処理し、AI表情認識モデルは、ARエンジンが生成した顔モデルとプリセット無表情顔モデルと比較することにより、表情係数を出力して取得する。
【0045】
表情認識モデルを利用して顔表情情報を認識することの有益な効果は、認識過程を簡略化し、認識精度を高め、認識のロバスト性を強化することである。
【0046】
ステップS230において、現在の表情係数に基づいてユーザの現在の笑顔レベルを確定する。
【0047】
本実施例において、異なる笑顔レベルは、異なる表情係数の値の区間に対応でき、例えば、笑顔無しレベルに対応する表情係数の値の区間は[0,2.5)に設定でき、微笑みレベルに対応する表情係数の値の区間は[2.5,5)に設定でき、笑いレベルに対応する表情係数の値の区間は[5,7.5)に設定でき、大笑いレベルに対応する表情係数の値の区間は[7.5,1]に設定できる。
【0048】
例示的には、現在の表情係数を確定した後、現在の表情係数の値が位置する値の区間に基づき、現在の表情係数値が属する笑顔レベル、即ち、ユーザの現在の笑顔レベルを確定することができる。1つの実際の例において、現在の表情係数の値を0.3と確定し、微笑みレベルに対応する表情係数の値の区間が[2.5,5)である場合、ユーザの現在の笑顔レベルが微笑みレベルであることを確定できる。
【0049】
ステップS240において、現在の笑顔レベルに基づいて対応するインタラクション動作を実行する。
【0050】
本実施例の技術案によれば、ユーザの現在の顔表情情報に基づいて現在の表情係数を確定し、更に、現在の表情係数に基づいてユーザの現在の笑顔レベルを確定し、最後に、現在の笑顔レベルに基づいて対応するインタラクション動作を実行し、表情係数を用いて現在の顔表情情報に対して笑顔程度の量子化を行うことにより、笑顔レベルの区分を容易にし、笑顔認識結果の精度を高める。
【0051】
本発明の実施例によれば、本発明は、ユーザインタラクション方法を更に提供する。
【0052】
図3aに示すように、本発明の実施例による更なるユーザインタラクション方法のフローチャートである。本実施例は、上記任意の実施例を細分化し、前記現在の表情係数に基づいて前記ユーザの現在の笑顔レベルを確定することを、前記ユーザに対応する笑顔開始側閾値を取得することと、前記現在の表情係数および前記笑顔開始側閾値に基づいて前記ユーザの現在の笑顔レベルを確定することとに細分化する。
【0053】
具体的には、図3aに示すように、本方法は、ステップ310、ステップS320、ステップS330、ステップS340およびステップS350を含む。
【0054】
ステップS310において、ユーザの現在の顔表情情報を取得する。
【0055】
ステップS320において、現在の顔表情情報に基づいて現在の表情係数を確定する。
【0056】
ステップS330において、ユーザに対応する笑顔開始側閾値を取得する。
【0057】
本実施例において、笑顔開始側閾値は、笑顔ありと判定された場合と笑顔無しと判定された場合との間の表情係数の境界値であってもよく、即ち、表情係数が該笑顔開始側閾値以下である場合、笑顔ありと判定し、そうでなければ、笑顔無しと判定する。上記実施例の基に、本実施例は、異なるユーザに対して異なる笑顔開始側閾値を設定するため、ユーザの現在の笑顔レベルを確定する時、まず、該ユーザに対応する個性化の笑顔開始側閾値を取得し、該ユーザに対応する笑顔レベルの個性化の値の区間を確定することができる。
【0058】
異なるユーザの通常での口角の上がり弧度が異なるため、笑顔表情を表現する時、口角の上がり開始弧度は異なり、例えば、ある人は表情が豊かで、通常で口角の上がり弧度が大きく、ある人は軽軽しくしゃべったり笑ったりせず、通常で口角の上がり弧度が小さく、更に上がりがない。従って、本実施例は、笑顔認識の正確性を向上させるために、異なるユーザに対して異なる笑顔開始側閾値を設定する。
【0059】
好ましくは、ユーザに対応する笑顔開始側閾値を取得することは、ユーザの履歴表情係数を取得し、履歴表情係数を用いてユーザに対応する笑顔閾値認識モデルをトレーニングし、少なくとも2つの笑顔分類の表情係数範囲を含む笑顔閾値認識モデルのトレーニング結果に基づいてユーザに対応する笑顔開始側閾値を取得することを含む。
【0060】
本実施例において、履歴表情係数は、ユーザが該アプリケーションを使用する過程において、ユーザの表情データを継続して収集し、該ユーザの履歴顔表情情報を取得し、該履歴顔表情情報に基づいて確定して取得した表情係数であってもよい。ここで、履歴表情係数を取得する方式は、平常時に収集して取得した該ユーザの複数の履歴顔表情情報を順に表情認識モデルに入力し、複数の表情係数を出力して取得することを含んでもよいが、これらに限定されない。
【0061】
例示的には、ユーザの履歴表情係数を取得した後、該履歴表情係数を用いてユーザに対応する笑顔閾値認識モデルに対して教師なしトレーニングを行うことができ、ここで、笑顔閾値認識モデルは、プリセットニューラルネットワーク分類モデルであってもよく、トレーニングにより入力された履歴表情係数を徐々に少なくとも2つの笑顔分類にクラスタリングし、モデルが収束してから、少なくとも2つの笑顔分類に対応する表情係数範囲を取得することができ、更に、該少なくとも2つの笑顔分類に対応する表情係数範囲に基づき、ユーザに対応する笑顔開始側閾値を取得することができる。異なる笑顔分類に対応する表情係数範囲の間が不連続である可能性があるため、笑顔開始側閾値を取得する方式は、表情係数の値が最も小さい笑顔分類に対応する表情係数範囲の最大値、および表情係数の値がやや大きな笑顔分類に対応する表情係数範囲の最小値を取得し、該最大値と最小値との間のある値を笑顔開始側閾値として確定することを含んでもよいが、これらに限定されない。もちろん、表情係数が最も小さい笑顔分類に対応する表情係数範囲のみに基づいてユーザに対応する笑顔開始側閾値を確定してもよく、ここでは限定しない。
【0062】
本実施例において、取得した履歴表情係数を用いてユーザに対応する笑顔閾値認識モデルをトレーニングし、更に、継続して修正されている該ユーザに対応する笑顔開始側閾値を取得することの有益な効果は、異なるユーザの個性化の笑顔の特徴に対して異なる笑顔開始側閾値を設定し、異なるユーザの笑顔に対する認識精度を高め、笑顔認識のロバスト性を向上させることである。
【0063】
好ましくは、笑顔閾値認識モデルのトレーニング結果に基づいてユーザに対応する笑顔開始側閾値を取得することは、トレーニング結果における表情係数の値が最も小さい笑顔分類を、通常表情クラスとして確定することと、通常表情クラスに対応する表情係数範囲の最大値を、ユーザに対応する笑顔開始側閾値として確定することとを含む。
【0064】
本実施例において、トレーニング結果における表情係数の値が最も小さい笑顔分類を、ユーザが笑わない時の分類、即ち、通常表情クラスとすることができ、該通常表情クラスで対応して収集された顔表情画像において、ユーザは明らかな笑顔がなく、ユーザの顔表情がユーザの通常表情であると考えられるため、通常表情クラスに対応する表情係数範囲の最大値を、ユーザに対応する笑顔開始側閾値として確定することができる。
【0065】
例示的には、トレーニング結果における表情係数の値が最も小さい笑顔分類に対応する表情係数範囲の最大値を、ユーザに対応する笑顔開始側閾値とすることの有益な効果は、他の笑顔分類の表情係数範囲に注目する必要がなく、モデルのクラスタリング効果が良くなくても、笑顔開始側閾値の確定結果に大きく影響することがなく、笑顔閾値認識モデルのトレーニング過程を簡略化するとともに、笑顔開始側閾値の正確性も確保し、笑顔開始側閾値の取得のリアルタイム性を向上させる。
【0066】
ステップS340において、現在の表情係数および笑顔開始側閾値に基づいてユーザの現在の笑顔レベルを確定する。
【0067】
本実施例において、該ユーザに対応する笑顔開始側閾値を取得した後、該笑顔開始側閾値と合わせて笑顔レベルを再区分し、更に、現在の表情係数に基づき、現在の表情係数が属する笑顔レベルを該ユーザの現在の笑顔レベルとして確定する。
【0068】
好ましくは、現在の表情係数および笑顔開始側閾値に基づいてユーザの現在の笑顔レベルを確定することは、笑顔開始側閾値に基づいて少なくとも2つのプリセット笑顔レベルに対応するレベル値の区間を確定することと、現在の表情係数および少なくとも2つのプリセット笑顔レベルに対応するレベル値の区間に基づいてユーザの現在の笑顔レベルを確定することとを含む。
【0069】
例示的には、少なくとも2つのプリセット笑顔レベルに対応するレベル値の区間を確定する時、笑顔開始側閾値を、笑顔無しレベル以外の最初のプリセット笑顔レベルの開始側閾値とし、その後、これを基準とし、プリセット区間間隔で他の笑顔レベルの開始側閾値を確定し、更に各プリセット笑顔レベルのレベル値の区間を取得することができる。例えば、笑顔開始側閾値を微笑みレベルの開始側閾値とし、その後、固定した区間間隔で各笑顔レベルの開始側閾値を設定する。1つの実際の例として、笑顔開始側閾値が0.2である場合、笑顔無しレベルのレベル値の区間は[0,0.2)で、微笑みレベルのレベル値の区間は[0.2,0.4)であり、以降は同様にする。もちろん、非等量区間間隔等の他の方式を用いて笑顔レベルに対応するレベル値の区間を確定してもよく、ここでは限定しない。
【0070】
本実施例は、ユーザの個性化の笑顔開始側閾値を取得することにより、プリセット笑顔レベルの個性化のレベル値の区間を確定し、このような設定のメリットは、各ユーザの間の笑顔の違いに基づいて異なるレベル区間を区分することができ、最後に認識した現在の笑顔レベルをより正確にし、笑顔認識の正確性を向上させることである。
【0071】
ステップS350において、現在の笑顔レベルに基づいて対応するインタラクション動作を実行する。
【0072】
本実施例の技術案によれば、上記実施例の基に、ユーザに対応する笑顔開始側閾値を取得し、現在の表情係数および笑顔開始側閾値に基づいてユーザの現在の笑顔レベルを確定することにより、笑顔認識の正確性を向上させ、笑顔認識のロバスト性を強化する。
【0073】
上記各実施例の基に、1つの具体的な例子として、具体的なインタラクション過程の模式図は図3bに示すように、ここで、ARエンジン301は、プリセットサンプリングレートでユーザの顔表情データを収集し、顔モデルを構築し、顔モデルをAI表情認識モデル302に伝送するように設定される。AI表情認識モデル302は、受信した顔モデルを分析し、現在の笑顔表情係数を出力して取得し、現在の笑顔表情係数を、いいねインタラクションモジュール303および笑顔閾値認識モデル304に伝送するように設定される。笑顔閾値認識モデル304は、プリセット閾値よりも小さい現在の笑顔表情係数を通常表情係数としてモデルのトレーニングを行い、該ユーザの笑顔開始側閾値を継続して修正するように設定される。いいねインタラクションモジュール303は、現在の笑顔表情係数および笑顔開始側閾値に基づいてユーザの現在の笑顔レベルを確定し、笑顔レベルに基づいて対応する「いいね」をクリックするインタラクション動作を実行し、現在の対応するコンテンツに対して「いいね」をクリックするように設定される。
【0074】
本発明の実施例によれば、本発明は、ユーザインタラクション装置を更に提供する。
【0075】
図4に示すように、本発明の実施例によるユーザインタラクション装置の構造模式図である。該装置は、ソフトウェアおよび/またはハードウェアの方式で実現され、本発明のいずれかの実施例に係るユーザインタラクション方法を実行することができる。具体的には、ユーザインタラクション装置400は、表情取得モジュール401と、レベル確定モジュール402と、動作実行モジュール403とを備える。
【0076】
ここで、表情取得モジュール401は、ユーザの現在の顔表情情報を取得するように構成される。
【0077】
レベル確定モジュール402は、前記現在の顔表情情報に基づいて前記ユーザの現在の笑顔レベルを確定するように構成される。
【0078】
動作実行モジュール403は、前記現在の笑顔レベルに基づいて対応するインタラクション動作を実行するように構成される。
【0079】
好ましくは、レベル確定モジュール402は、
前記現在の顔表情情報に基づいて現在の表情係数を確定するように構成される現在係数確定サブモジュールと、
前記現在の表情係数に基づいて前記ユーザの現在の笑顔レベルを確定するように構成される現在レベル確定サブモジュールと、
を備えてもよい。
【0080】
好ましくは、現在レベル確定サブモジュールは、
前記ユーザに対応する笑顔開始側閾値を取得するように構成される開始側閾値取得ユニットと、
前記現在の表情係数および前記笑顔開始側閾値に基づいて前記ユーザの現在の笑顔レベルを確定するように構成される笑顔レベル確定ユニットと、
を備えてもよい。
【0081】
好ましくは、開始側閾値取得ユニットは、
前記ユーザの履歴表情係数を取得するように構成される履歴係数取得サブユニットと、
前記履歴表情係数を用いて前記ユーザに対応する笑顔閾値認識モデルをトレーニングするように構成される認識モデルトレーニングサブユニットと、
少なくとも2つの笑顔分類の表情係数範囲を含む前記笑顔閾値認識モデルのトレーニング結果に基づいて前記ユーザに対応する笑顔開始側閾値を取得するように構成される笑顔閾値取得サブユニットと、
を備えてもよい。
【0082】
好ましくは、笑顔閾値取得サブユニットは、具体的に、
前記トレーニング結果における表情係数の値が最も小さい笑顔分類を、通常表情クラスとして確定し、
前記通常表情クラスに対応する表情係数範囲の最大値を、前記ユーザに対応する笑顔開始側閾値として確定する、
ように構成され得る。
【0083】
好ましくは、笑顔レベル確定ユニットは、
前記笑顔開始側閾値に基づいて少なくとも2つのプリセット笑顔レベルに対応するレベル値の区間を確定するように構成されるレベル区間確定サブユニットと、
前記現在の表情係数および前記少なくとも2つのプリセット笑顔レベルに対応するレベル値の区間に基づいて前記ユーザの現在の笑顔レベルを確定するように構成されるユーザレベル確定サブユニットと、
を備えてもよい。
【0084】
好ましくは、現在係数確定サブモジュールは、具体的に、
前記現在の顔表情情報を表情認識モデルに入力し、現在の表情係数を出力して取得するように構成され得る。
【0085】
好ましくは、表情取得モジュール401は、具体的に、
拡張現実ARエンジンによって、設定頻度でユーザの顔表情データを前記ユーザの現在の顔表情情報としてリアルタイムに収集するように構成され得る。
【0086】
好ましくは、動作実行モジュール403は、具体的に、
対応する「いいね」をクリックした効果の画面を表示し、および/または、
対応するユーザフィードバック情報の統計を行う、
ように構成され得る。
【0087】
本発明の実施例に係るユーザインタラクション装置は、本発明のいずれかの実施例に係るユーザインタラクション方法を実行でき、方法の実行に対応する機能モジュールおよび有益な効果を有する。
【0088】
本発明の実施例によれば、本発明は、電子機器および可読記憶媒体を更に提供する。
【0089】
図5に示すように、本発明の実施例によるユーザインタラクション方法の電子機器のブロック図である。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような各形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェララブル機器および他の類似する計算装置のような各形式の移動装置を表すこともできる。本発明に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本発明に記載または要求される本発明の実現を限定するものではない。
【0090】
図5に示すように、該電子機器は、1つまたは複数のプロセッサ501と、メモリ502と、各コンポーネントを接続するための高速インタフェースおよび低速インタフェースを含むインタフェースとを備える。各コンポーネントは、異なるバスで互に接続され、共通のマザーボードに取り付けられるかまたは必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、メモリ内またはメモリ上に記憶されて外部の入力/出力装置(例えば、インタフェースにカップリングされた表示機器)にGUIのグラフィクス情報を表示するための命令を含む。他の実施形態において、必要がある場合、複数のプロセッサおよび複数本のバスと、複数のメモリとを共に使用することができる。それと同様に、複数の電子機器に接続することができ、各機器は、一部の必要な動作(例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとする)を提供する。図5において、1つのプロセッサ501を例とする。
【0091】
メモリ502は、本発明に係る非一時的なコンピュータ可読記憶媒体である。ここで、本発明に係るユーザインタラクション方法を前記少なくとも1つのプロセッサに実行させるために、前記メモリには少なくとも1つのプロセッサにより実行可能な命令が記憶されている。本発明の非一時的なコンピュータ可読記憶媒体はコンピュータ命令を記憶し、該コンピュータ命令は、本発明に係るユーザインタラクション方法をコンピュータに実行させることに用いられる。
【0092】
メモリ502は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラムおよびモジュール、例えば、本発明の実施例における音声パケットの推奨方法に対応するプログラム命令/モジュール(例えば、図4に示す表情取得モジュール401、レベル確定モジュール402および動作実行モジュール403)を記憶するように構成されてもよい。プロセッサ501は、メモリ502に記憶された非一時的なソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの各機能アプリケーションおよびデータ処理を実行し、即ち、上記方法実施例におけるユーザインタラクション方法を実現する。
【0093】
メモリ502は、プログラム記憶エリアおよびデータ記憶エリアを備えてもよく、ここで、プログラム記憶エリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは、ユーザインタラクション方法の電子機器の使用により作成されたデータ等を記憶することができる。また、メモリ502は、高速ランダムアクセスメモリを含んでもよく、少なくとも1つの磁気ディスク記憶機器、フラッシュメモリ、または他の非一時的な固体記憶機器のような非一時的なメモリを更に含んでもよい。いくつかの実施例において、メモリ502は、プロセッサ501に対してリモートに設けられたメモリを含むことが好ましく、これらのリモートメモリは、ネットワークを介してユーザインタラクション方法の電子機器に接続することができる。上記ネットワークの実例は、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびその組み合わせを含んでもよいが、それらに限定されない。
【0094】
ユーザインタラクション方法の電子機器は、入力装置503と、出力装置504とを更に備えてもよい。プロセッサ501、メモリ502、入力装置503および出力装置504は、バスまたは他の方式で接続することができ、図5において、バスを介して接続することを例とする。
【0095】
入力装置503は、入力された数字または文字情報を受信し、ユーザインタラクション方法の電子機器のユーザ設定および機能制御に関連するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、インジケータ、1つまたは複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置504は、表示機器、補助照明装置(例えば、LED)、および触覚フィードバック装置(例えば、振動モータ)等を含んでもよい。該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態において、表示機器はタッチパネルであってもよい。
【0096】
ここで説明するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現できる。これらの各実施形態は以下を含んでもよい。1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも1つの入力装置、および該少なくとも1つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。
【0097】
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、且つ、高度なプロセスまたはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語を用いてこれらの計算プログラムを実施することができる。本発明に使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理機器(PLD))を意味し、機械可読信号としての機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
【0098】
ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置(例えば、マウスまたはトラックボール)とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するために使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、且つ、任意の形式(音入力、音声入力または、触覚入力を含む)でユーザからの入力を受信することができる。
【0099】
ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、または中間コンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ)、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ブロックチェーンネットワーク、およびインターネットを含む。
【0100】
コンピュータシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント-サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。
【0101】
本発明の実施例による技術案は、ユーザの現在の顔表情情報を取得し、該現在の顔表情情報に基づいてユーザの現在の笑顔レベルを確定し、更に、ユーザの現在の笑顔レベルに基づいて対応するインタラクション動作を実行することにより、関連技術におけるユーザが手動でインタラクション動作を行う必要があるため、ユーザインタラクション動作をしにくく、ユーザインタラクション体験が低いという問題を解決し、ユーザの異なる程度のインタラクション動作に対するトリガ要求を達成し、ユーザが異なる程度のインタラクション動作を行うことを容易にし、更に、ユーザインタラクション体験の効果を向上させる。
【0102】
上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本発明に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望する結果を達成できる限り、本発明はここで限定しない。
【0103】
上記具体的な実施形態は、本発明の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本発明の精神および原則内で行われる任意の修正、均等置換および改良等は、いずれも本発明の保護範囲内に含まれているべきである。
【0104】
なお、以上の実施例により本発明について詳細に説明したが、本発明は以上の実施例に限定されず、本発明の思考から逸脱しない前提で、より多くの他の等価な実施例を更に含んでもよく、本発明の範囲は添付の特許請求の範囲によって決定される。
図1
図2
図3a
図3b
図4
図5
【国際調査報告】