(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-02-24
(45)【発行日】2022-03-04
(54)【発明の名称】端末装置に適用される情報生成方法および装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20220225BHJP
G06Q 30/02 20120101ALI20220225BHJP
【FI】
G06T7/00 660B
G06Q30/02 398
【外国語出願】
(21)【出願番号】P 2019105064
(22)【出願日】2019-06-05
【審査請求日】2019-08-07
(31)【優先権主張番号】201810778514.8
(32)【優先日】2018-07-16
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100099623
【氏名又は名称】奥山 尚一
(74)【代理人】
【識別番号】100107319
【氏名又は名称】松島 鉄男
(74)【代理人】
【識別番号】100125380
【氏名又は名称】中村 綾子
(74)【代理人】
【識別番号】100142996
【氏名又は名称】森本 聡二
(74)【代理人】
【識別番号】100166268
【氏名又は名称】田中 祐
(74)【代理人】
【識別番号】100170379
【氏名又は名称】徳本 浩一
(74)【代理人】
【識別番号】100180231
【氏名又は名称】水島 亜希子
(74)【代理人】
【識別番号】100096769
【氏名又は名称】有原 幸一
(72)【発明者】
【氏名】リウ,カン
(72)【発明者】
【氏名】リウ,ジエン
【審査官】小池 正彦
(56)【参考文献】
【文献】特開2017-199148(JP,A)
【文献】特開2015-064513(JP,A)
【文献】特開2004-227158(JP,A)
【文献】特開2015-002477(JP,A)
【文献】特開2012-058476(JP,A)
【文献】特開2007-181070(JP,A)
【文献】特開2016-042346(JP,A)
【文献】米国特許出願公開第2013/0290108(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06Q 30/02
(57)【特許請求の範囲】
【請求項1】
端末装置に適用される情報生成方法であって、
ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップであって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続されているステップと、
取得されたビデオフレーム画像を処理対象画像として記憶するステップと、
前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するステップであって、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現するように構成され、前記処理対象画像に複数のユーザのユーザ画像が含まれるステップと、
第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第1端末装置に送信するステップと
を含み、
前記第1端末装置は、
前記複数のユーザのユーザ属性情報に基づいて、前記複数のユーザの視聴者構成を解析するステップと、
前記解析された視聴者構成に基づいて、大多数のユーザの特徴に適する、ターゲットスクリーンに再生されるコンテンツを決定するステップと
を
実行するように配置される、端末装置に適用される情報生成方法。
【請求項2】
前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含む請求項
1に記載の方法。
【請求項3】
前記ユーザ属性情報は、更にユーザ画像情報を含み、
前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップを更に含む請求項
2に記載の方法。
【請求項4】
前記抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップは、
抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定することを含む請求項
3に記載の方法。
【請求項5】
前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するステップを更に含む請求項
4に記載の方法。
【請求項6】
前記得られたユーザ属性情報を前記第1端末装置に送信するステップは、
パッケージ化されたJsonデータフォーマットのユーザ属性情報を前記第1端末装置に送信することを含む請求項
5に記載の方法。
【請求項7】
前記ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップは、
前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得することを含む請求項1~
6のいずれか1項に記載の方法。
【請求項8】
端末装置に適用される情報生成装置であって、
ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するように構成される取得ユニットであって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続される取得ユニットと、
取得されたビデオフレーム画像を処理対象画像として記憶するように構成される記憶ユニットと、
前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するように構成される入力ユニットであって、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現するように構成され、前記処理対象画像に複数のユーザのユーザ画像が含まれる入力ユニットと、
第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第1端末装置に送信するように構成される送信ユニットと
を備え、
前記複数のユーザのユーザ属性情報に基づいて、前記複数のユーザの視聴者構成を解析する
ステップと、
前記解析された視聴者構成に基づいて、大多数のユーザの特徴に適する、ターゲットスクリーンに再生されるコンテンツを決定す
るステップと
を
実行するように配置される、端末装置に適用される情報生成装置。
【請求項9】
前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含む請求項
8に記載の装置。
【請求項10】
前記ユーザ属性情報は、更にユーザ画像情報を含み、
前記装置は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するように構成される抽出ユニットを更に備える請求項
9に記載の装置。
【請求項11】
前記抽出ユニットは、更に抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定するように構成される請求項
10に記載の装置。
【請求項12】
前記装置は、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するように構成されるパッケージ化ユニットを更に備える請求項
11に記載の装置。
【請求項13】
前記送信ユニットは、更にパッケージ化されたJsonデータフォーマットのユーザ属性情報を前記第1端末装置に送信するように構成される請求項
12に記載の装置。
【請求項14】
前記取得ユニットは、更に前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように構成される請求項
8~13のいずれか1項に記載の装置。
【請求項15】
端末装置であって、
1つまたは複数のプロセッサと、
1つまたは複数のプログラムが記憶される記憶装置と、を備え、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~
7のいずれか1項に記載の方法を実現させる、端末装置。
【請求項16】
コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1~
7のいずれか1項に記載の方法を実現する、コンピュータ可読媒体。
【請求項17】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1~
7のいずれか一項に記載の方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施例は、コンピュータの技術分野に関し、具体的に端末装置に適用される情報生成方法および装置に関する。
【背景技術】
【0002】
現在、ビデオ情報を再生するための多数のオフライン電子スクリーンがある。例えば、エレベータ、地下鉄車内、バス車内、タクシー、POS(Point of Sale,販売時点情報管理)機、トレッドミル、チケット機に設置された電子スクリーンなどが挙げられる。更に例えば、大学のキャンパスや商業施設に設置されたLED(Light Emitting Diode,発光ダイオード)大画面などが挙げられる。
【0003】
しかしながら、従来のオフライン電子スクリーン上で再生されているビデオ情報の大部分は、電子スクリーンの前にいるユーザ向けにリアルタイムにカスタマイズされるものではない。
【発明の概要】
【0004】
本発明の実施例は、端末装置に適用される情報生成方法および装置を提出した。
【0005】
第1態様では、本発明の実施例は、端末装置に適用される情報生成方法であって、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップであって、ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、端末装置とターゲットカメラとが有線またはローカルエリアネットワークで接続されているステップと、取得されたビデオフレーム画像を処理対象画像として記憶するステップと、画像とユーザ属性情報との間の対応関係を表現するための事前訓練されたユーザ属性認識モデルに、処理対象画像を入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するステップと、を含む端末装置に適用される情報生成方法を提供する。
【0006】
いくつかの実施例では、該方法は、第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を第1端末装置に送信するステップを更に含む。
【0007】
いくつかの実施例では、ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含む。
【0008】
いくつかの実施例では、ユーザ属性情報は、更にユーザ画像情報を含み、方法は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップを更に含む。
【0009】
いくつかの実施例では、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップは、抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定することを含む。
【0010】
いくつかの実施例では、前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するステップを更に含む。
【0011】
いくつかの実施例では、得られたユーザ属性情報を第1端末装置に送信するステップは、パッケージ化されたJsonデータフォーマットのユーザ属性情報を第1端末装置に送信することを含む。
【0012】
いくつかの実施例では、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップは、ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得することを含む。
【0013】
第2態様では、本発明の実施例は、端末装置に適用される情報生成装置であって、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するように構成される取得ユニットであって、ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、端末装置とターゲットカメラとが有線またはローカルエリアネットワークで接続される取得ユニットと、取得されたビデオフレーム画像を処理対象画像として記憶するように構成される記憶ユニットと、画像とユーザ属性情報との間の対応関係を表現するための事前訓練されたユーザ属性認識モデルに、処理対象画像を入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するように構成される入力ユニットと、を備える端末装置に適用される情報生成装置を提供する。
【0014】
いくつかの実施例では、該装置は、第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を第1端末装置に送信するように構成される送信ユニットを更に備える。
【0015】
いくつかの実施例では、ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含む。
【0016】
いくつかの実施例では、ユーザ属性情報は、更にユーザ画像情報を含み、該装置は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するように構成される抽出ユニットを更に備える。
【0017】
いくつかの実施例では、抽出ユニットは、更に抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定するように構成される。
【0018】
いくつかの実施例では、該装置は、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するように構成されるパッケージ化ユニットを更に備える。
【0019】
いくつかの実施例では、送信ユニットは、更にパッケージ化されたJsonデータフォーマットのユーザ属性情報を第1端末装置に送信するように構成される。
【0020】
いくつかの実施例では、取得ユニットは、更にターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように構成される。
【0021】
第3態様では、本発明の実施例は、端末装置であって、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶される記憶装置と、を備え、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに第1態様のいずれかの実施態様に記載の方法を実現させる、端末装置を提供する。
【0022】
第4態様では、本発明の実施例は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、該コンピュータプログラムが1つまたは複数のプロセッサによって実行されると、第1態様のいずれかの実施態様に記載の方法を実現する、コンピュータ可読記憶媒体を提供する。
【0023】
本発明の実施例によって提供された端末装置に適用される情報生成方法および装置は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得し、ここで、ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、端末装置とターゲットカメラとが有線またはローカルエリアネットワークで接続されており、次に、取得されたビデオフレーム画像を処理対象画像として記憶し、最後に、処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得し、ここで、ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現する。それによって、ターゲットスクリーンの前にいる視聴者をリアルタイムにローカル解析し、視聴者のユーザ属性情報を取得することが可能となり、後続のターゲットスクリーンの再生コンテンツのカスタマイズに対して参照基準を提供することができ、そして、ターゲットスクリーンの現在の視聴者のために再生コンテンツをカスタマイズすることが可能であり、ターゲットスクリーンで再生されるビデオの再生効果が向上され、リモートネットワーク環境の制御不能性が低減された。
【図面の簡単な説明】
【0024】
本発明の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施例に係る詳細な説明を読むことにより、より明らかになるであろう。
【0025】
【
図1】本発明の一実施例を適用可能な例示的なシステムアーキテクチャを示す図である。
【
図2】本発明に係る端末装置に適用される情報生成方法の一実施例のフローチャートである。
【
図3】本発明に係る端末装置に適用される情報生成方法の応用シナリオの概略図である。
【
図4】本発明に係る端末装置に適用される情報生成方法のもう一つの実施例を示すフローチャートである。
【
図5】本発明に係る端末装置に適用される情報生成装置の一実施例を示す構造概略図である。
【
図6】本発明の実施例を達成するための端末装置に適用されるコンピュータシステムの構造概略図である。
【発明を実施するための形態】
【0026】
以下、図面及び実施例を参照しながら本発明をより詳細に説明する。ここで説明する具体的な実施例は、関連する発明を説明するためのものに過ぎず、当該発明を限定するものではないことが理解される。なお、説明の便宜上、図面には発明に関連する部分のみが示されている。
【0027】
なお、本発明の実施例及び実施例における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面及び実施例を参照しながら本発明を詳細に説明する。
【0028】
図1は、本発明に係る端末装置に適用される情報生成方法または端末装置に適用される情報生成装置の実施例が適用可能な例示的なシステムアーキテクチャ100を示している。
【0029】
図1に示すように、システムアーキテクチャ100は、端末装置101、ネットワーク102、カメラ103、及び電子スクリーン104を含んでもよい。ネットワーク102は、端末装置101と、カメラ103との間で通信リンクの媒体を提供するために使用される。ネットワーク102は、有線(例えば、ユニバーサルシリアルバスインターフェースデータライン)接続またはローカルエリアネットワーク接続を含んでもよい。カメラ103の撮影範囲は、電子スクリーン104の前方領域をカバーしており、すなわちカメラ103は電子スクリーン104の前方にいる視聴者を撮影することができる。
【0030】
ユーザは、メッセージを受信するために、端末装置101を使用してネットワーク102を介してカメラ103と情報のやり取りをすることができる。端末装置101には、顔認識アプリケーション、顔検出アプリケーション、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントコミュニケーションツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションをインストールすることができる。
【0031】
端末装置101は、ハードウェアでもソフトウェアでもよい。端末装置101がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置101がソフトウェアである場合は、上記の電子機器に搭載されてもよい。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、情報生成サービスを提供するためのもの)として実現されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
【0032】
電子スクリーン104は、ビデオ情報を再生することができる。電子スクリーン104によって再生されるビデオ情報は、電子スクリーンからローカルに取得されてもよいし、クラウドサーバから取得されてもよい。
【0033】
なお、本発明の実施例によって提供される端末装置に適用される情報生成方法は、通常に端末装置101によって実行され、これに応じて、端末装置に適用される情報生成装置は、通常、端末装置101に配置される。
【0034】
図1の端末装置、ネットワーク、カメラおよび電子スクリーンの数は単なる例示的なものであると理解される。実施の必要性に応じて、端末装置、ネットワーク、カメラおよび電子スクリーンの数を任意に加減してもよい。
【0035】
次に、本発明に係る端末装置に適用される情報生成方法の一実施例のフローチャート200を示す
図2を参照する。当該端末装置に適用される情報生成方法は、次のステップを含む。
【0036】
ステップ201:ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得する。
【0037】
本実施例では、端末装置に適用される情報生成方法の実行主体(例えば、
図1に示す端末装置)は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得することができる。ここで、ターゲットカメラの撮影範囲は、ターゲットスクリーンの前方領域をカバーしている。前記実行主体とターゲットカメラとは、有線またはローカルエリアネットワークで接続することができる。前記実行主体とターゲットカメラとは、有線またはローカルエリアネットワークで接続することができるので、前記実行主体はターゲットカメラによって取得されたビデオフレーム画像を外部ネットワークの接続状態に依存せずにリアルタイムに取得することができ、外部ネットワークに接続する必要がないので、ビデオフレーム画像の取得プロセスは、外部によって攻撃されることなく安全に行うことができる。
【0038】
前記実行主体とターゲットカメラとが有線で接続されている場合、前記実行主体は、ターゲットカメラによって取得されたビデオフレーム画像を有線接続でリアルタイムに取得することができる。
【0039】
前記実行主体とターゲットカメラとがローカルエリアネットワークを介して接続されている場合、前記実行主体は、ターゲットカメラによって取得されたビデオフレーム画像をローカルエリアネットワーク接続でリアルタイムに取得することができる。
【0040】
本実施例のいくつかの任意選択実施態様では、ステップ201はまた、ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように実行されてもよい。従来のカメラの取得頻度が通常に高く、連続する数フレーム以内にカメラによって取得されたビデオフレームの画像がそれほど変化していないので、ユーザ属性情報を得るためにターゲットカメラによって取得された画像をフレーム毎に処理解析すれば、コンピューティングリソースの無駄に繋がり、従って、当該任意選択実施態様により、ビデオフレーム画像取得の頻度を減らし、更にビデオフレーム画像取得のリアルタイム性能を改善し、必要なコンピューティングリソースを減らすことができる。
【0041】
ステップ202:取得されたビデオフレーム画像を処理対象画像として記憶する。
【0042】
本実施例では、前記実行主体(例えば、
図1に示す端末装置)は、ステップ201においてリアルタイムに取得されたビデオフレーム画像を処理対象画像として記憶することが可能である。ここで、ステップ201でリアルタイムに取得されたビデオフレーム画像を処理対象画像として前記実行主体のメモリに記憶してもよいし、ステップ201でリアルタイムに取得されたビデオフレーム画像を処理対象画像として前記実行主体のハードディスクに記憶してもよい。
【0043】
ステップ203:処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得する。
【0044】
本実施例では、端末装置に適用される情報生成方法の実行主体は、ステップ202で記憶された処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得することができる。なお、処理対象画像にユーザ画像が含まれていない場合には、得られるユーザ属性情報がゼロとなり、処理対象画像に少なくとも1つのユーザ画像が含まれている場合には、少なくとも1つのユーザ属性情報が得られる。
【0045】
ここで、ユーザ属性情報は、ユーザ属性を記述するために用いられる。
【0046】
本実施例のいくつかの任意選択実施態様では、ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含んでもよい。例えば、頭部姿勢情報は、頭部の左右回転角度、上下回転角度および前後回転角度を含んでもよい。眼部情報は、眼部の位置および眼部のサイズを含んでもよい。鼻部情報は、鼻の位置および鼻のサイズを含んでもよい。耳部情報は、耳部の位置および耳部のサイズを含んでもよい。口部情報は口部の位置および口部の大きさを含んでもよい。顔面表情情報は、喜び、悲しみ、怒り、驚きなどを含んでもよい。
【0047】
なお、ここでは、ユーザ属性認識モデルは、画像とユーザ属性情報との対応関係を表現している。
【0048】
本実施例のいくつかの任意選択実施態様では、ユーザ属性認識モデルは、以下の訓練ステップによって事前に取得されることが可能である。
【0049】
第1ステップ:初期ユーザ属性認識モデルのモデル構造情報を確定する。
【0050】
初期ユーザ属性認識モデルは、ユーザ属性を識別するための様々な種類のモデルを含むことができるので、ユーザ属性を識別するためのモデルの種類が異なると、確定する必要があるモデル構造情報も異なることが理解される。任意選択で、初期ユーザ属性認識モデルは畳み込みニューラルネットワークであってもよい。畳み込みニューラルネットワークが多層ニューラルネットワークであり、各層が複数の二次元平面からなり、各平面が複数の独立したニューロンからなるので、ここでは畳み込みニューラルネットワークの種類に対応する初期のユーザ属性認識モデルにはどの層(たとえば、畳み込み層、プーリング層、活性化関数層など)が含まれるか、層間の接続順序、および各層に含まれるパラメータ(例えば、ウェイト(weight)、バイアス(bias)、畳み込みステップサイズ)などを確定する必要がある。これらのうち、畳み込み層は画像特徴の抽出に使用可能である。各畳み込み層について、畳み込みカーネルの数、各畳み込みカーネルのサイズ、各畳み込みカーネル内の各ニューロンのウェイト、各畳み込みカーネルに対応するオフセット項、および2回の隣接する畳み込み間のステップサイズ、パディング必要性、パディングピクセル数、およびパディング値(通常はパディング値が0である)などを確定することが可能である。プーリング層を使用することにより、入力情報をダウンサンプリング(Down Sample)し、データとパラメータの量を圧縮し、過剰適合を低減することができる。プール層ごとに、該プール層のプール方法を確定することができる(例えば、領域平均値または領域最大値をとる)。活性化関数層は、入力情報に対して非線形計算を実行するために使用される。活性化関数層ごとに、特定の活性化関数を確定することができる。例えば、活性化関数は、ReLUおよびReLUの様々な変形活性化関数、シグモイド(Sigmoid)関数、Tanh(双曲線正接)関数、Maxout関数などであってもよい。実際には、畳み込みニューラルネットワーク(Convolutional Neural Network,CNN)は、フィードフォワードニューラルネットワークであり、その人工ニューロンは、カバレッジの一部における周囲の要素に応答可能であり、画像処理に対して優れた性能を発揮できるので、畳み込みニューラルネットワークを利用して画像特徴の抽出を実行することができ、画像特徴は画像の様々な基本要素(例えば、色、線、紋理など)であってもよい。
【0051】
任意選択で、初期ユーザ属性認識モデルは、Adaboostアルゴリズム、変形可能パーツモデル(DPM,Deformable Part Model)、深層畳み込みニューラルネットワーク、再帰型ニューラルネットワーク(Recursive Neural Network)、リカレントニューラルネットワーク(Recurrent Neural Network, RNN)のうちの少なくとも1つを更に含んでもよい。それに応じて、異なるモデルに対応して、確定されるべきモデル構造情報も異なる。
【0052】
第2ステップ:初期ユーザ属性認識モデルのモデルパラメータを初期化することができる。
【0053】
実際には、初期ユーザ属性認識モデルの各モデルパラメータは、いくつかの異なる小さな乱数で初期化することができる。「小さな乱数」を使用することにより、モデルが過大な重みにより飽和状態になることで訓練が失敗してしまうことを防止でき、「異なる」乱数の使用により、モデルが正常に学習できることが確保される。
【0054】
第3ステップ:訓練サンプル集合を取得することができる。
【0055】
ここで、訓練サンプルは、サンプル画像と、該サンプル画像に対応する注釈情報とを含み、該サンプル画像に対応する注釈情報は、該サンプル画像に含まれる各ユーザ画像に対応するユーザのユーザ属性情報を含むことができる。
【0056】
第4ステップ:訓練サンプル中のサンプル画像および注釈情報をそれぞれユーザ属性認識モデルの入力および望ましい出力とし、初期ユーザ属性認識モデルを機械学習法によって訓練することができる。
【0057】
ここで、訓練ステップの実行主体は、訓練サンプル集合内の訓練サンプルのサンプル画像を初期ユーザ属性認識モデルに入力し、該サンプル画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得し、該訓練サンプル中の注釈情報を初期ユーザ属性認識モデルの望ましい出力とし、初期ユーザ属性認識モデルを機械学習法によって訓練することができる。具体的には、予め設定された損失関数を用いて、得られたユーザ属性情報と該訓練サンプル中の注釈情報との間の差分を算出し、例えばL2ノルムを損失関数として使用し、得られたユーザ属性情報と該訓練サンプル中の注釈情報との間の差分を算出してもよい。そして、算出された差分に基づいて、初期ユーザ属性認識モデルのパラメータを調整する、事前設定された訓練終了条件が満たされた場合に訓練を終了することができる。例えば、ここで、事前設定された訓練終了条件は、訓練時間が所定の期間を超えたこと、訓練回数が所定の回数を超えたこと、算出された差分が所定の差分閾値よりも小さいことのうちの少なくとも1つを含むことができる。
【0058】
ここで、生成されたユーザ属性情報と該訓練サンプル内の注釈情報との間の差分に基づいて、初期ユーザ属性認識モデルのモデルパラメータを様々な実現方法で調整してもよい。例えば、BP(Back Propagation,誤差逆伝播)アルゴリズムまたはSGD(Stochastic Gradient Descent,確率的勾配降下)アルゴリズムを使用して、初期ユーザ属性認識モデルのモデルパラメータを調整することができる。
【0059】
第5ステップ:訓練によって得られた初期ユーザ属性認識モデルを事前訓練されたユーザ属性認識モデルとして確定する。
【0060】
ここで、訓練ステップの実行主体は、上述した実行主体と同一であってもよい。このように、前記実行主体は、訓練ステップを実行してユーザ属性認識モデルを取得した後、前記訓練によって取得されたユーザ属性認識モデルをローカルに格納することができる。
【0061】
ここで、訓練ステップの実行主体は、上述した実行主体と異なっていてもよく、このようにすると、訓練ステップの実行主体は、訓練ステップを実行してユーザ属性認識モデルを取得した後、前記訓練によって取得されたユーザ属性認識モデルを前記実行主体に送信して、それによって、前記実行主体は、受信されたユーザ属性認識モデルをローカルに格納することができる。
【0062】
次に、
図3を参照し、
図3は、本実施例に係る端末装置に適用される情報生成方法の応用シナリオの概略図である。
図3の応用シナリオでは、カメラ301が電子スクリーン302の前にいる視聴者303のビデオ情報を取り込み、端末装置304がカメラ301に有線で接続されている。端末装置304は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得し、取得されたビデオフレーム画像を処理対象画像305として記憶し、処理対象画像305を事前訓練されたユーザ属性認識モデル306に入力して、視聴者303それぞれのユーザ属性情報307を取得する。
【0063】
本発明の上記実施例によって提供された方法は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得し、次に、取得されたビデオフレーム画像を処理対象画像として記憶し、最後に、処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得する。それによって、ターゲットスクリーンの前にいる視聴者をリアルタイムにローカル解析し、視聴者のユーザ属性情報を取得することが可能となり、後続のターゲットスクリーンの再生コンテンツのカスタマイズに対して参照基準を提供することができ、そして、ターゲットスクリーンの現在の視聴者のために再生コンテンツをカスタマイズすることが可能であり、ターゲットスクリーンで再生されるビデオの再生効果が向上され、リモートネットワーク環境の制御不能性が低減された。
【0064】
更に、端末装置に適用される情報生成方法のもう一つの実施例のフロー400を示す
図4を参照する。当該端末装置に適用される情報生成方法のフロー400は、次のステップを含む。
【0065】
ステップ401:ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得する。
【0066】
ステップ402:取得されたビデオフレーム画像を処理対象画像として記憶する。
【0067】
ステップ403:処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得する。
【0068】
本実施例では、ステップ401、ステップ402およびステップ403の具体的な操作は、
図2に示す実施例のステップ201、ステップ202およびステップ203の操作と実質的に同じであり、ここではこれ以上くどくど述べない。
【0069】
ステップ404:得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定する。
【0070】
本実施例では、端末装置に適用される情報生成方法の実行主体(例えば、
図1に示す端末装置)は、ステップ403で得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定することができる。
【0071】
任意選択で、抽出されたユーザ画像を該ユーザ属性情報のうちのユーザ画像情報として確定することができる。
【0072】
任意選択で、更に抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定することができる。
【0073】
ステップ405:第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を第1端末装置に送信する。
【0074】
本実施例では、端末装置に適用される情報生成方法の実行主体(例えば、
図1に示す端末装置)は、第1端末装置によって送信されたユーザ属性情報取得要求を受信した後、得られたユーザ属性情報を第1端末装置に送信することができる。ここで、第1端末装置は、前記実行主体とネットワークを介して接続されるとともに前記実行主体とは異なる電子機器であってもよい。
【0075】
ここで、ユーザ属性情報取得要求は様々な形態の要求であってもよい。例えば、HTTP(Hypertext Transfer Protocol,ハイパーテキスト・トランスファー・プロトコル)要求、FTP(File Transfer Protocol,ファイル・トランスファー・プロトコル)要求、Socket(ソケット)要求などであってもよい。これに対応して、前記実行主体は他の電子機器に対して対応する形式のサービスを提供する場合がある。例えば、前記実行主体がHTTPサービスを提供する場合、ユーザ属性情報取得要求はHTTP要求であってもよい。前記実行主体がFTPサービスを提供する場合、ユーザ属性情報取得要求はFTP要求であってもよい。前記実行主体がSocketサービスを提供する場合、ユーザ属性情報取得要求はSocket要求であってもよい。
【0076】
第1端末装置は、前記実行主体にユーザ属性情報取得要求を送信して、前記実行主体によって送信されたユーザ属性情報を取得することで、得られたユーザ属性情報を利用することができる。
【0077】
一例として、第1端末装置は、受信した各ユーザ属性情報を表示することができる。例えば、第1端末装置は、受信した各ユーザ情報のうちのユーザ画像情報に基づいてユーザ画像を生成して表示し、表示されたユーザ画像の周囲において対応するユーザ属性情報のうちの他の属性情報、例えば性別、年齢などを提示してもよい。
【0078】
別の例として、第1端末装置はまた、受信した各ユーザ属性情報を解析して、ターゲットスクリーンに再生するビデオを決定することができる。例えば、受信した各ユーザ情報を解析することによって、ターゲットスクリーンの視聴者のうちの男性の数が女性の数より多いか、または全てが男性である場合、車の広告、スポーツ番組、金融番組など、男性向けのビデオをターゲットスクリーンに再生するように決定する。ターゲットスクリーンの視聴者のうちの女性の数が男性の数より多いか、または全てが女性である場合、化粧品の広告、家政番組、感情番組など、女性向けのビデオをターゲットスクリーンに再生するように決定する。また、例えば、受信した各ユーザ情報を解析することによって、ターゲットスクリーンの80%を超える視聴者が22~30歳であることがわかる場合、求人広告、職場体験番組、不動産賃貸および販売広告など、22~30歳のユーザ向けの番組をターゲットスクリーンに再生するように決定する。
【0079】
本実施例のいくつかの任意選択実施態様では、前記実行主体は、更にステップ405の前に、ステップ404の後に、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化することができる。従って、ステップ405では、前記実行主体は、第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、パッケージ化されたJsonデータフォーマットのユーザ属性情報を第1端末装置に送信することができる。
【0080】
図4から分かるように、
図2の対応する実施例に比して、本実施例の端末装置に適用される情報生成方法のフロー400には、第1端末装置によって送信されたユーザ属性情報取得要求を受信した後、得られたユーザ属性情報を第1端末装置に送信することが追加されている。従って、本実施例で説明した技術案は、ターゲットスクリーンにいる視聴者のユーザ属性情報を外部の電子機器に提供することができ、それによって他の電子機器にユーザ属性情報を提供するサービスを実現することができる。
【0081】
更に
図5を参照すると、上記の図に示された方法の実施態様として、本発明は、端末装置に適用される情報生成装置の一実施例を提供し、該装置の実施例は、
図2に示された方法の実施例に対応しており、該装置は、具体的に様々な電子機器に適用することができる。
【0082】
図5に示すように、本実施例の端末装置に適用される情報生成装置500は、取得ユニット501、記憶ユニット502および入力ユニット503を備える。ここで、取得ユニット501は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するように構成される取得ユニット501であって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続される。記憶ユニット502は、取得されたビデオフレーム画像を処理対象画像として記憶するように構成される。入力ユニット503は、前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するように構成され、ここで、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現するためのものである。
【0083】
本実施例では、端末装置に適用される情報生成装置500の取得ユニット501、記憶ユニット502および入力ユニット503の具体的な処理及びそれらの技術的効果は、それぞれ
図2の対応する実施例におけるステップ201、ステップ202及びステップ203の関連する説明を参照することができ、ここではこれ以上くどくど述べない。
【0084】
本実施例のいくつかの任意選択実施態様では、前記装置500は、第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第1端末装置に送信するように構成される送信ユニット(
図5では図示せず)を更に備えてもよい。
【0085】
本実施例のいくつかの任意選択実施態様では、前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含んでもよい。
【0086】
本実施例のいくつかの任意選択実施態様では、前記ユーザ属性情報は、更にユーザ画像情報を含み、前記装置500は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するように構成される抽出ユニット(
図5では図示せず)を更に備えてもよい。
【0087】
本実施例のいくつかの任意選択実施態様では、前記抽出ユニットは、更に抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定するように構成されてもよい。
【0088】
本実施例のいくつかの任意選択実施態様では、前記装置は、更に得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するように構成されるパッケージ化ユニット(
図5では図示せず)を更に備えてもよい。
【0089】
本実施例のいくつかの任意選択実施態様では、前記送信ユニットは、更にパッケージ化されたJsonデータフォーマットのユーザ属性情報を前記第1端末装置に送信するように構成されてもよい。
【0090】
本実施例のいくつかの任意選択実施態様では、前記取得ユニット501は、更に前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように構成されてもよい。
【0091】
なお、本発明の実施例によって提供された端末装置に適用される情報生成装置における各ユニットの実現の詳細および技術的効果は、本発明の他の実施例の説明を参照することができ、ここではこれ以上くどくど述べない。
【0092】
以下、本発明の実施例を実現するための端末装置に適用されるコンピュータシステム600の構造概略図を示す
図6を参照する。
図6に示す端末装置は、一例に過ぎず、本発明の実施例の機能および使用範囲を限定するものではない。
【0093】
図6に示すように、コンピュータシステム600は、読み出し専用メモリ(ROM,Read Only Memory)602に記憶されているプログラムまたは記憶部608からランダムアクセスメモリ(RAM,Random Access Memory)603にロードされたプログラムによって様々な適当な動作および処理を実行することができる中央処理装置(CPU,Central Processing Unit)601を備える。RAM603には、システム600の動作に必要な様々なプログラムおよびデータが更に格納されている。CPU601、ROM602及びRAM603は、バス604を介して互いに接続されている。入力/出力(I/O,Input/Output)インターフェース605もバス604に接続されている。
【0094】
キーボード、マウスなどを含む入力部606、陰極線管(CRT,Cathode Ray Tube)、液晶ディスプレイ(LCD,Liquid Crystal Display)など及びスピーカなどを含む出力部607、ハードディスクなどを含む記憶部608、並びにLAN(ローカルエリアネットワーク,Local Area Network)カード、モデムなどを含むネットワークインターフェースカードの通信部609を含む構成要素は、I/Oインターフェース605に接続されている。通信部609は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ610は、必要に応じてI/Oインターフェース605に接続される。リムーバブルメディア611は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどが挙げられ、必要に応じてドライバ610に取り付けられ、それによって、リムーバブルメディア611から読み出されたコンピュータプログラムが所望により記憶部608にインストールされる。
【0095】
特に、本発明の実施例によれば、上記のフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施例は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは、通信部609を介してネットワークからダウンロードされてインストールされることが可能であり、および/またはリムーバブルメディア611からインストールされることも可能である。該コンピュータプログラムが中央処理装置(CPU)601によって実行されると、本発明の方法で限定された上記の機能を実行する。注意すべきなのは、本発明に記載したコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置もしくはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1本または複数の導線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本発明において、コンピュータ可読記憶媒体は、命令実行システム、装置もしくはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを包含または格納する任意の有形の媒体であってもよい。本発明において、コンピュータ可読信号媒体は、ベースバンド内で、またはキャリアの一部として伝送される、コンピュータ可読プログラムコードが担持されたデータ信号を含んでもよい。このような伝送されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。コンピュータ可読信号媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。該コンピュータ可読媒体は、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝送または転送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、無線、有線、光ケーブル、RFなど、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。
【0096】
本発明の動作を実行するためのコンピュータプログラムコードは、1種以上のプログラミング言語、またはそれらの組み合わせで作成されることができ、前記プログラミング言語は、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータ上で実行され、部分的にユーザのコンピュータ上で実行され、独立したソフトウェアパッケージとして実行され、一部がユーザのコンピュータ上で一部がリモートコンピュータ上で実行され、または完全にリモートコンピュータ若しくはサーバ上で実行されてもよい。リモートコンピュータに関わる場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができ、または外部のコンピュータに接続されることができる(例えばインターネットサービスプロバイダによりインターネットで接続される)。
【0097】
図面におけるフローチャート及びブロック図は、本発明の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメントもしくはコードの一部を表してもよく、該モジュール、プログラムセグメントもしくはコードの一部は、規定されたロジック機能を達成するための1つ以上の実行可能な命令を含む。なお、いくつかの代替実施態様において、ブロック内に示された機能は、図面に示された順番とは異なるもので実行されてもよい。例えば、連続して示された2つのブロックは、実際には関連する機能に応じて、ほぼ並行に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、並びに、ブロック図および/またはフローチャートにおけるブロックの組み合わせは、規定された機能もしくは動作を実行する、ハードウェアに基づく専用システムで実現されてもよく、または、専用ハードウェアとコンピュータ命令との組み合わせで実行されてもよい。
【0098】
本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「プロセッサは、取得ユニットと、記憶ユニットと、入力ユニットとを備える」と記載されてもよい。ここで、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、取得ユニットは、「ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するユニット」として記載されてもよい。
【0099】
一方、本発明は、コンピュータ可読媒体を更に提供し、該コンピュータ可読媒体は、前記実施例に記載された装置に含まれるものであってもよく、独立に存在して該装置に組み立てられていないものであってもよい。前記コンピュータ可読媒体は、1つまたは複数のプログラムが記憶されており、前記1つまたは複数のプログラムが該装置によって実行されると、該装置は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得し、ここで、ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、端末装置とターゲットカメラとが有線またはローカルエリアネットワークで接続されており、取得されたビデオフレーム画像を処理対象画像として記憶し、処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得し、ここで、ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現する。
【0100】
以上の記載は、本発明の好ましい実施例、および使用される技術的原理に関する説明に過ぎない。本発明に係る発明の範囲が、上記の技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上記の本発明の趣旨を逸脱しない範囲で、上記の技術的特徴又はそれらの同等の特徴を任意に組み合わせてなる他の技術案も含むべきであることを、当業者に理解されたい。例えば、上記の特徴と、本発明に開示された(これに限定されない)類似の機能を有する技術的特徴とを互いに置き換えてなる技術案が挙げられる。
なお、出願当初の特許請求の範囲の記載は以下の通りである。
請求項1:
端末装置に適用される情報生成方法であって、
ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップであって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続されているステップと、
取得されたビデオフレーム画像を処理対象画像として記憶するステップと、
前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するステップであって、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現するステップと、
を含む端末装置に適用される情報生成方法。
請求項2:
前記方法は、第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第1端末装置に送信するステップを更に含む、請求項1に記載の方法。
請求項3:
前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含む請求項2に記載の方法。
請求項4:
前記ユーザ属性情報は、更にユーザ画像情報を含み、
前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップを更に含む請求項3に記載の方法。
請求項5:
前記抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップは、
抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定することを含む請求項4に記載の方法。
請求項6:
前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するステップを更に含む請求項5に記載の方法。
請求項7:
前記得られたユーザ属性情報を前記第1端末装置に送信するステップは、
パッケージ化されたJsonデータフォーマットのユーザ属性情報を前記第1端末装置に送信することを含む請求項6に記載の方法。
請求項8:
前記ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップは、
前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得することを含む請求項1~7のいずれか1項に記載の方法。
請求項9:
端末装置に適用される情報生成装置であって、
ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するように構成される取得ユニットであって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続される取得ユニットと、
取得されたビデオフレーム画像を処理対象画像として記憶するように構成される記憶ユニットと、
前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するように構成される入力ユニットであって、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現する入力ユニットと、を備える端末装置に適用される情報生成装置。
請求項10:
前記装置は、第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第1端末装置に送信するように構成される送信ユニットを更に備える、請求項9に記載の装置。
請求項11:
前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含む請求項10に記載の装置。
請求項12:
前記ユーザ属性情報は、更にユーザ画像情報を含み、
前記装置は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するように構成される抽出ユニットを更に備える請求項11に記載の装置。
請求項13:
前記抽出ユニットは、更に抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定するように構成される請求項12に記載の装置。
請求項14:
前記装置は、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するように構成されるパッケージ化ユニットを更に備える請求項13に記載の装置。
請求項15:
前記送信ユニットは、更にパッケージ化されたJsonデータフォーマットのユーザ属性情報を前記第1端末装置に送信するように構成される請求項14に記載の装置。
請求項16:
前記取得ユニットは、更に前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように構成される請求項9~15のいずれか1項に記載の装置。
請求項17:
端末装置であって、
1つまたは複数のプロセッサと、
1つまたは複数のプログラムが記憶される記憶装置と、を備え、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~8のいずれか1項に記載の方法を実現させる、端末装置。
請求項18:
コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1~8のいずれか1項に記載の方法を実現する、コンピュータ可読媒体。