特許第6826087号(P6826087)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッドの特許一覧

<>
  • 特許6826087-顔情報を取得するための方法および装置 図000002
  • 特許6826087-顔情報を取得するための方法および装置 図000003
  • 特許6826087-顔情報を取得するための方法および装置 図000004
  • 特許6826087-顔情報を取得するための方法および装置 図000005
  • 特許6826087-顔情報を取得するための方法および装置 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6826087
(24)【登録日】2021年1月18日
(45)【発行日】2021年2月3日
(54)【発明の名称】顔情報を取得するための方法および装置
(51)【国際特許分類】
   G10L 15/00 20130101AFI20210121BHJP
   G06T 7/00 20170101ALI20210121BHJP
   G10L 15/10 20060101ALI20210121BHJP
   G06F 3/16 20060101ALI20210121BHJP
   G06F 16/903 20190101ALI20210121BHJP
   G06F 16/909 20190101ALI20210121BHJP
【FI】
   G10L15/00 200T
   G06T7/00 P
   G10L15/10 200W
   G06F3/16 650
   G06F16/903
   G06F16/909
【請求項の数】13
【外国語出願】
【全頁数】17
(21)【出願番号】特願2018-188877(P2018-188877)
(22)【出願日】2018年10月4日
(65)【公開番号】特開2019-91015(P2019-91015A)
(43)【公開日】2019年6月13日
【審査請求日】2018年11月1日
(31)【優先権主張番号】201711137585.1
(32)【優先日】2017年11月16日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】513224353
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
(74)【代理人】
【識別番号】110000796
【氏名又は名称】特許業務法人三枝国際特許事務所
(72)【発明者】
【氏名】ガオ レイレイ
(72)【発明者】
【氏名】ルアン シューアン
(72)【発明者】
【氏名】チャン ツィケ
(72)【発明者】
【氏名】ワン フェイ
(72)【発明者】
【氏名】リー ジン
(72)【発明者】
【氏名】ジアン シャンタオ
(72)【発明者】
【氏名】リュウ ユエ
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2006−165822(JP,A)
【文献】 特表2017−517780(JP,A)
【文献】 特開2003−076990(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00
G06F 3/16
G06F 16/903
G06F 16/909
G06T 7/00
G10L 15/10
(57)【特許請求の範囲】
【請求項1】
顔情報を取得するためのコンピューターにより実施される方法であって、
処理待ち音声情報及び処理待ち画像を取得し、前記処理待ち音声情報に対して音声認識を行ってクエリ情報を取得するステップであって、前記処理待ち画像は、複数の顔画像を含み、前記クエリ情報は、前記処理待ち画像における指定された顔画像の顔情報をクエリすることを示すためのものである、ステップと、
前記クエリ情報に対して語義認識を行って、顔情報をクエリするためのキーワードセットを取得するステップと、
前記処理待ち画像に対して顔認識を行って、前記処理待ち画像中の各顔画像を確定するステップと、
各顔画像に対応する顔情報をクエリするステップと、
前記処理待ち画像を走査して、前記処理待ち画像中の各顔画像の座標情報を取得するステップと、
各顔画像の座標情報に基づいて、前記処理待ち画像をm行n列のグリッドに分割するステップであって、各グリッド中の顔画像は1つを越えない、ステップと、
各顔画像の存在するグリッドの行番号及び/又は列番号を当該顔画像の位置情報とするステップと、
前記キーワードセットにおけるキーワードに基づいて、前記クエリ情報に対応する顔画像の前記処理待ち画像における目標位置情報を確定するステップと、
前記目標位置情報に対応する顔画像を、前記処理待ち音声情報に対応する目標顔画像として、前記目標顔画像の顔情報を取得するステップと、
を含む操作をプロセッサーに実行させることを特徴とする方法。
【請求項2】
前記クエリ情報に対して語義認識を行って、顔情報をクエリするためのキーワードセットを取得するステップは、
前記クエリ情報に対して語義認識を行って語義認識情報を取得し、前記語義認識情報をフレーズに分割して、少なくとも1つのフレーズを含むフレーズセットを取得するステップと、
前記処理待ち画像における顔画像を確定するための少なくとも1つのキーワードを前記フレーズセットから選別し、少なくとも1つのキーワードを組み合わせてキーワードセットを形成するステップであって、前記キーワードは、位置キーワードを含む、ステップと、
を含むことを特徴とする請求項1に記載の方法。
【請求項3】
各顔画像に対応する顔情報をクエリするステップにおいて、各顔画像に対応する個人情報をクエリして、前記個人情報を当該顔画像に対応する顔情報とし、前記個人情報は、氏名と性別を含む、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記方法は、前記目標顔画像を表示するステップをさらに含み、
前記目標顔画像を表示するステップは、
顔画像に対応する位置情報を前記処理待ち画像の各顔画像の位置に表示するステップと、
ユーザにより目標顔画像の位置情報が選択された選択情報に応じて、前記処理待ち画像において、前記選択情報の示す位置情報に対応する目標顔画像を強調表示するステップと、
を含むことを特徴とする請求項1に記載の方法。
【請求項5】
前記方法は、
ユーザにより目標顔画像が確定された確定情報に応じて、前記確定情報の示す目標顔画像の顔情報を表示及び/又は再生するステップをさらに含む
ことを特徴とする請求項4に記載の方法。
【請求項6】
顔情報を取得するための装置であって、
処理待ち音声情報及び処理待ち画像を取得し、前記処理待ち音声情報に対して音声認識を行ってクエリ情報を取得する情報取得ユニットであって、前記処理待ち画像は、複数の顔画像を含み、前記クエリ情報は、前記処理待ち画像における指定された顔画像の顔情報をクエリすることを示すためのものである、情報取得ユニットと、
前記クエリ情報に対して語義認識を行って、顔情報をクエリするためのキーワードセットを取得するキーワード取得ユニットと、
前記処理待ち画像に対して顔認識を行って、前記処理待ち画像中の各顔画像を確定する顔認識ユニットと、
各顔画像に対応する顔情報をクエリする顔情報生成ユニットと、
前記処理待ち画像を走査して、前記処理待ち画像中の各顔画像の座標情報を取得する座標情報取得ユニットと、
各顔画像の座標情報に基づいて、前記処理待ち画像をm行n列のグリッドに分割するグリッド生成ユニットであって、各グリッド中の顔画像は1つを越えない、グリッド生成ユニットと、
各顔画像の存在するグリッドの行番号及び/又は列番号を当該顔画像の位置情報とする位置情報設定ユニットと、
前記キーワードセットにおけるキーワードに基づいて、前記クエリ情報に対応する顔画像の前記処理待ち画像における目標位置情報を確定する目標位置情報確定ユニットと、
前記目標位置情報に対応する顔画像を、前記処理待ち音声情報に対応する目標顔画像として、前記目標顔画像の顔情報を取得する顔情報取得ユニットと、
を含むことを特徴とする装置。
【請求項7】
前記キーワード取得ユニットは、
前記クエリ情報に対して語義認識を行って語義認識情報を取得し、前記語義認識情報をフレーズに分割して、少なくとも1つのフレーズを含むフレーズセットを取得するフレーズセット取得サブユニットと、
前記処理待ち画像における顔画像を確定するための少なくとも1つのキーワードを前記フレーズセットから選別し、少なくとも1つのキーワードを組み合わせてキーワードセットを形成するキーワード取得サブユニットであって、前記キーワードは、位置キーワードを含む、キーワード取得サブユニットと、
を含むことを特徴とする請求項6に記載の装置。
【請求項8】
顔情報生成ユニットは、各顔画像に対応する個人情報をクエリして、個人情報を当該顔画像に対応する顔情報とし、前記個人情報は、氏名と性別を含む、
ことを特徴とする請求項6に記載の装置。
【請求項9】
前記装置は、前記目標顔画像を表示する表示ユニットをさらに含み、
前記表示ユニットは、
顔画像に対応する位置情報を前記処理待ち画像の各顔画像の位置に表示する位置情報表示サブユニットと、
ユーザにより目標顔画像の位置情報が選択された選択情報に応じて、前記処理待ち画像において、前記選択情報の示す位置情報に対応する目標顔画像を強調表示する目標顔画像表示サブユニットと、
を含むことを特徴とする請求項6に記載の装置。
【請求項10】
前記装置は、
ユーザにより目標顔画像が確定された確定情報に応じて、前記確定情報の示す目標顔画像の顔情報を、表示及び/又は再生するユニットを、
さらに含むことを特徴とする請求項9に記載の装置。
【請求項11】
一つまたは複数のプロセッサと、
一つまたは複数のプログラムが記憶されているメモリと、を含み、
前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサにより実行されると、前記一つまたは複数のプロセッサに請求項1ないし請求項5のいずれか一項に記載の方法を実行させる
ことを特徴とするサーバ。
【請求項12】
コンピュータプログラムが記憶されており、前記プログラムがプロセッサにより実行されると、請求項1ないし請求項5のいずれか一項に記載の方法を実現させる
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項13】
プロセッサにより実行されると、請求項1ないし請求項5のいずれか一項に記載の方法を実現させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理の技術分野に関し、具体的に音声認識の技術分野に関し、特に、顔情報を取得するための方法および装置に関する。
【背景技術】
【0002】
人工知能の発達と音声認識技術の改善が続いていると伴に、音声によるデータ処理がますます知能化になっている。人々は、過去に手作業で行うなければならないデータ処理を音声で行うことができる。これにより、情報を取得する様々な方法を人々に提供し、情報を取得する効率が向上されている。例えば、ユーザは、端末に音声情報を送信することにより、表示された画像における顔情報を照会するように端末に指示することができる。端末が音声情報に基づいて画像における一つの顔画像の顔情報を返して、音声により画像中の顔情報を取得する過程が完了される。
【発明の開示】
【発明が解決しようとする課題】
【0003】
本発明の目的は、顔情報を取得するための方法および装置を提供することにある。
【0004】
第一の態様において、本発明の実施形態は、顔情報を取得するための方法を提供する。上記方法は、処理待ち音声情報及び処理待ち画像を取得し、上記処理待ち音声情報に対して音声認識を行ってクエリ情報を取得するステップであって、上記処理待ち画像は、複数の顔画像を含み、上記クエリ情報は、上記処理待ち画像における指定された顔画像の顔情報をクエリすることを示すためのものである、ステップと、上記クエリ情報に対して語義認識を行って、顔情報をクエリするためのキーワードセットを取得するステップと、上記処理待ち画像に対して画像処理を行って、上記処理待ち画像中の顔情報を取得するステップと、上記キーワードセットに基づいて、上記顔情報から上記処理待ち音声情報に対応する顔情報を取得するステップと、を含む。
【0005】
一部の実施形態様において、上記クエリ情報に対して語義認識を行って、顔情報をクエリするためのキーワードセットを取得するステップは、上記クエリ情報に対して語義認識を行って語義認識情報を取得し、上記語義認識情報をフレーズに分割して、少なくとも1つのフレーズを含むフレーズセットを取得するステップと、上記処理待ち画像における顔画像を確定するための少なくとも1つのキーワードを上記フレーズセットから選別し、少なくとも1つのキーワードを組み合わせてキーワードセットを形成するステップであって、上記キーワードは、位置キーワードを含む、ステップと、を含む。
【0006】
一部の実施形態様において、上記処理待ち画像に対して画像処理を行って、上記処理待ち画像中の顔情報を取得するステップは、上記処理待ち画像に対して顔認識を行って、上記処理待ち画像中の各顔画像を確定するステップと、各顔画像に対応する個人情報をクエリして、個人情報を当該顔画像に対応する顔情報とするステップであって、上記個人情報は、氏名と性別を含む、ステップと、を含む。
【0007】
一部の実施形態様において、上記処理待ち画像に対して画像処理を行って、上記処理待ち画像中の顔情報を取得するステップは、上記処理待ち画像を走査して、上記処理待ち画像中の各顔画像の座標情報を取得するステップをさらに含む。
【0008】
一部の実施形態様において、上記キーワードセットに基づいて、上記顔情報から上記処理待ち音声情報に対応する顔情報を取得するステップは、各顔画像の座標情報に基づいて、当該顔画像の上記処理待ち画像における位置情報を設定するステップと、上記キーワードセットにおけるキーワードに基づいて、上記クエリ情報に対応する顔画像の上記処理待ち画像における目標位置情報を確定するステップと、上記目標位置情報に対応する顔画像を、上記処理待ち音声情報に対応する目標顔画像として、上記目標顔画像の顔情報を取得するステップと、を含む。
【0009】
一部の実施形態様において、各顔画像の座標情報に基づいて、顔画像の上記処理待ち画像における位置情報を設定するステップは、各顔画像の座標情報に基づいて、上記処理待ち画像をm行n列のグリッドに分割するステップであって、各グリッド中の顔画像は1つを越えない、ステップと、各顔画像の存在するグリッドの行番号及び/又は列番号を当該顔画像の位置情報とするステップと、を含む。
【0010】
一部の実施形態様において、上記方法は、上記目標顔画像を表示するステップをさらに含み、上記目標顔画像を表示するステップは、顔画像に対応する位置情報を上記処理待ち画像の各顔画像の位置に表示するステップと、ユーザにより目標顔画像の位置情報が選択された選択情報に応じて、上記処理待ち画像において、上記選択情報の示す位置情報に対応する目標顔画像を強調表示するステップと、を含む。
【0011】
一部の実施形態様において、上記方法は、ユーザにより目標顔画像が確定された確定情報に応じて、上記確定情報の示す目標顔画像の顔情報を、表示及び/又は再生するステップをさらに含む。
【0012】
第二の態様において、本発明の実施形態は、顔情報を取得するための装置を提供する。上記装置は、処理待ち音声情報及び処理待ち画像を取得し、上記処理待ち音声情報に対して音声認識を行ってクエリ情報を取得する情報取得ユニットであって、上記処理待ち画像は、複数の顔画像を含み、上記クエリ情報は、上記処理待ち画像における指定された顔画像の顔情報をクエリすることを示すためのものである、情報取得ユニットと、上記クエリ情報に対して語義認識を行って、顔情報をクエリするためのキーワードセットを取得するキーワード取得ユニットと、上記処理待ち画像に対して画像処理を行って、上記処理待ち画像中の顔情報を取得する顔情報生成ユニットと、上記キーワードセットに基づいて、上記顔情報から上記処理待ち音声情報に対応する顔情報を取得する顔情報取得ユニットと、を含む。
【0013】
一部の実施形態様において、上記キーワード取得ユニットは、上記クエリ情報に対して語義認識を行って語義認識情報を取得し、上記語義認識情報をフレーズに分割して、少なくとも1つのフレーズを含むフレーズセットを取得するフレーズセット取得サブユニットと、上記処理待ち画像における顔画像を確定するための少なくとも1つのキーワードを上記フレーズセットから選別し、少なくとも1つのキーワードを組み合わせてキーワードセットを形成するキーワード取得サブユニットであって、上記キーワードは、位置キーワードを含む、キーワード取得サブユニットと、を含む。
【0014】
一部の実施形態様において、上記顔情報生成ユニットは、上記処理待ち画像に対して顔認識を行って、上記処理待ち画像中の各顔画像を確定する顔認識サブユニットと、各顔画像に対応する個人情報をクエリして、個人情報を当該顔画像に対応する顔情報とする顔情報生成サブユニットであって、上記個人情報は、氏名と性別を含む、顔情報生成サブユニットと、を含む。
【0015】
一部の実施形態様において、上記顔情報生成ユニットは、上記処理待ち画像を走査して、上記処理待ち画像中の各顔画像の座標情報を取得するユニットを、さらに含む。
【0016】
一部の実施形態様において、上記顔情報取得ユニットは、各顔画像の座標情報に基づいて、顔画像の上記処理待ち画像における位置情報を設定する位置情報設定サブユニットと、上記キーワードセットにおけるキーワードに基づいて、上記クエリ情報に対応する顔画像の上記処理待ち画像における目標位置情報を確定する目標位置情報確定サブユニットと、上記目標位置情報に対応する顔画像を、上記処理待ち音声情報に対応する目標顔画像として、上記目標顔画像の顔情報を取得する顔情報取得サブユニットと、を含む。
【0017】
一部の実施形態様において、上記位置情報設定サブユニットは、各顔画像の座標情報に基づいて、上記処理待ち画像をm行n列のグリッドに分割するグリッド生成ユニットであって、各グリッド中の顔画像は1つを越えない、グリッド生成モジュールと、各顔画像の存在するグリッドの行番号及び/又は列番号を当該顔画像の位置情報とする位置情報設定モジュールと、を含む。
【0018】
一部の実施形態様において、上記装置は、上記目標顔画像を表示する表示ユニットをさらに含み、上記表示ユニットは、顔画像に対応する位置情報を上記処理待ち画像の各顔画像の位置に表示する位置情報表示サブユニットと、ユーザにより目標顔画像の位置情報が選択された選択情報に応じて、上記処理待ち画像において、上記選択情報の示す位置情報に対応する目標顔画像を強調表示する目標顔画像表示サブユニットと、を含む。
【0019】
一部の実施形態様において、上記装置は、ユーザにより目標顔画像が確定された確定情報に応じて、上記確定情報の示す目標顔画像の顔情報を、表示及び/又は再生するユニットを、さらに含む。
【0020】
第三の態様において、本発明の実施形態は、一つまたは複数のプロセッサと、一つまたは複数のプログラムが記憶されているメモリと、を含み、上記一つまたは複数のプログラムが上記一つまたは複数のプロセッサにより実行されると、上記一つまたは複数のプロセッサに第一の態様に記載の方法を実行させるサーバを提供する。
【0021】
第四の態様において、本発明の実施形態は、コンピュータプログラムが記憶されており、上記プログラムがプロセッサにより実行されると、第一の態様に記載の方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。
【0022】
本発明により提供される顔情報を取得するための方法および装置は、まず、処理待ち音声情報及び処理待ち画像を取得し、上記処理待ち音声情報に対して音声認識を行ってクエリ情報を取得する。ここで、上記処理待ち画像は、複数の顔画像を含む。そして、受信されたクエリ情報に対して語義認識を行って、顔情報をクエリするためのキーワードセットを取得する。ここで、キーワードを用いて処理待ち画像における顔画像に対して位置決めをすることができる。その後、処理待ち画像に対して画像処理を行って、上記処理待ち画像中の顔情報を取得する。最後に、キーワードセットを用いて、顔情報から処理待ち音声情報に対応する顔情報を取得する。これにより、処理待ち画像に含まれている複数の顔画像に対する認識を実現し、且つ、キーワードを用いて顔情報を確定することで、音声による顔画像の取得精度を向上させることができる。
【図面の簡単な説明】
【0023】
以下の図面による非限定的な実施例についての詳細な説明を読み、参照することにより、本願の他の特徴、目的及び利点がより明らかになる。
図1】本発明が適用される例示的なシステムアーキテクチャ図である。
図2】本発明による顔情報を取得するための方法の一実施形態のフロー図である。
図3】本発明による顔情報を取得するための方法の応用シナリオの概略図である。
図4】本発明による顔情報を取得するための装置の一実施形態の概略構成図である。
図5】本発明を実現するのに適するサーバのコンピュータシステムの構成を示すブロック図である。
【発明を実施するための形態】
【0024】
以下、図面と実施例を参照しながら、本願を詳細に説明する。ここで記載される具体的な実施例は、関連の発明を解釈するのみに用いられ、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。
【0025】
なお、矛盾が生じない限り、本願における実施例及び実施例における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施例を併せて本願を詳しく説明する。
【0026】
図1は、本発明が適用される顔情報を取得するの方法または装置の実施形態の例示的なシステムアーキテクチャ100を示す。
【0027】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103と、ネットワーク104と、サーバ105とを備えても良い。ネットワーク104は、端末装置101、102、103とサーバ105の間に通信リンクの媒体を提供する。ネットワーク104は、各種の接続タイプ、例えば有線、無線通信リンク又は光ファイバ、ケーブルなどを含んでも良い。
【0028】
ユーザは、端末装置101、102、103を使用してネットワーク104を介してサーバ105とインタラクションすることにより、メッセージなどを送受信することができる。端末装置101、102、103には、例えば画像閲覧アプリケーション、音声処理アプリケーション、検索アプリケーション、音声認識アプリケーション、画像処理アプリケーションなどの各種のデータ処理アントアプリがインストールされても良い。
【0029】
端末装置101、102、103は、オーディオ再生デバイスを有し且つオーディオ再生をサポートする各種の電子デバイスであっても良い。スマートスピーカ、知能ロボット、スマートフォーン、タブレット、ノードパソコン及びディスクトップコンピュータなどを含むが、それらに限定されない。
【0030】
サーバ105は、端末装置101、102、103から送信された顔画像をクエリするサーバなどの、様々なサービスを提供するサーバであってもよい。サーバは、受信された顔画像をクエリして、顔画像に対応する個人情報を取得し、当該個人情報を端末装置に返送する。
【0031】
なお、本発明の一実施形態に係る顔情報を取得するための方法は、一般に、端末装置101、102、103によって実行される。これに対応して、顔情報を取得するための装置は、一般的に端末装置101、102、103に設置される。
【0032】
理解すべきなのは、図1における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎない。実現の必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを備えることができる。
【0033】
さらに図2を参照すると、本発明に係る顔情報を取得するための方法の一実施形態のフロー200が示されている。顔情報を取得するための方法は、以下のステップを含む。
【0034】
ステップ201において、処理待ち音声情報及び処理待ち画像を取得し、上記処理待ち音声情報に対して音声認識を行ってクエリ情報を取得する。
【0035】
本実施形態において、顔情報を取得するための方法を適用した電子機器(例えば、図1に示す端末装置101、102、103)は、有線接続手段又は無線接続手段で、ユーザによるウェブブラウジングの端末からウェブブラウジング要求を受信することができる。注意すべきなのは、上記無線接続手段は、3G/4G接続、WiFi接続、ブルートゥース(登録商標)接続、WiMAX接続、Zigbee接続、UWB(ultra wideband)接続、及び他の既知又は将来に開発される無線接続手段を含んでも良いが、それらに限定されない。
【0036】
従来技術において、画像内の顔情報を音声で取得する場合、まず、音声をテキスト情報に変換した後、テキスト情報に顔を認識する意図があるか否かを判断し、当該意図があると、画像内の一つの顔画像の顔情報を返す。従来技術において、画像中の顔情報を音声で取得することができるが、画像中に複数の顔画像が存在する時、顔画像中のどの顔情報が必要かを確定することができない場合が多い。このため、画像に複数の顔画像が存在する場合に、従来の方法では正確な顔情報を音声で取得することができない場合が多い。
【0037】
このような従来の問題点を解決するために、本発明において、ユーザは、音声情報を利用して処理待ち画像の顔情報を取得する場合、処理待ち音声情報を端末装置101、102、103に送信し、端末装置101、102、103は、処理待ち音声情報とそれに対応する処理待ち画像を取得し、処理待ち音声情報に対して音声認識を行ってクエリ情報を取得することができる。ここで、上記処理待ち画像は、複数の顔画像を含み、上記クエリ情報は、上記処理待ち画像における指定された顔画像の顔情報をクエリすることを示すためのものである。例えば、処理待ち画像に複数の顔画像が存在する場合、処理待ち音声情報に対応するクエリ情報は、「一番左の女性は誰ですか」であることができる。
【0038】
ステップ202において、上記クエリ情報に対して語義認識を行って、顔情報をクエリするためのキーワードセットを取得する。
【0039】
クエリ情報を取得した後、クエリ情報に対して語義認識を行う必要がある。上記「一番左の女性は誰ですか」とのクエリ情報を一例として、当該クエリ情報に対して語義認識を行った後に取得された情報は、「一番左の女性の顔画像の顔情報を取得する」ことであることができる。情報から顔情報に関連するキーワードを選別し、キーワードを組み合わせてキーワードセットとする。
【0040】
本実施形態の一部の選択可能な実施形態において、上記クエリ情報に対して語義認識を行って、顔情報をクエリするためのキーワードセットを取得するステップは、以下の手順を含んでもよい。
【0041】
まず、上記クエリ情報に対して語義認識を行って語義認識情報を取得し、上記語義認識情報をフレーズに分割して、少なくとも1つのフレーズを含むフレーズセットを取得する。
【0042】
処理待ち画像においてユーザの処理したい顔画像の顔情報を確定するために、クエリ情報に対して語義認識を行ってて語義認識情報を取得する。そして、語義認識情報をフレーズに分割し、少なくとも1つのフレーズを含むフレーズセットを取得する。また、上記「一番左の女性は誰ですか」とのクエリ情報を一例として、対応する語義認識情報は、「一番左の女性の顔画像の顔情報を取得する」ことであってもよい。語義認識情報をフレーズに分割したフレーズセットは、「一番左」、「女性」、「の」、「顔画像」、「顔情報」、「取得」などのフレーズを含むことができる。
【0043】
次に、上記フレーズセットから、上記処理待ち画像内の顔画像を確定するための少なくとも1つのキーワードを選別し、少なくとも1つのキーワードを組み合わせてキーワードセットを形成する。
【0044】
フレーズセットを取得した後、取得されたフレーズセットから顔画像を確定するための少なくとも1つのキーワードを選択することができる。ここで、上記キーワードは、位置キーワードを含むが、数字キーワードまたは性別キーワードを含んでもよい。例えば、位置キーワードは、「一番左」、「一番右」、「中間位置」などであってもよい。数字キーワードは、「最初のもの」、「最後のもの」などであってもよい。性別キーワードは、「女性」、「男性」であってもよい。上記フレーズセットを例として、当該フレーズセットにおいて、「一番左」および「女性」とのフレーズがキーワードであり、「一番左」および「女性」をキーワードとしてキーワードセットに組み合わる。
【0045】
ステップ203において、上記処理待ち画像に対して画像処理を行って、上記処理待ち画像中の顔情報を取得する。
【0046】
本発明によれば、処理待ち画像に複数の顔画像が含まれ、処理待ち画像に対して画像処理を行うことにより、処理待ち画像から顔画像を認識して、顔情報を取得することができる。
【0047】
本実施形態の一部の実施形態において、上記処理待ち画像に対して画像処理を行って、上記処理待ち画像中の顔情報を取得するステップは、以下の手順を含んでもよい。
【0048】
まず、上記処理待ち画像に対して顔認識を行って、上記処理待ち画像中の各顔画像を確定する。
【0049】
顔認識方法によって、上記処理待ち画像に対してデータ処理を行うことにより、処理待ち画像に含まれている顔画像を認識することができる。
【0050】
次に、各顔画像に対応する個人情報をクエリし、その個人情報を顔画像に対応する顔情報とする。
【0051】
顔画像を取得した後に、ローカルまたはサーバ105から、その顔画像に対応する個人情報をクエリすることができる。その後、個人情報を当該顔画像の顔情報として利用することができる。ここで、上記個人情報は、氏名、性別、職業、家族メンバーなどを含んでもよい。
【0052】
本実施形態の一部の実施形態において、上記処理待ち画像に対して画像処理を行って、上記処理待ち画像中の顔情報を取得するステップは、上記処理待ち画像を走査して、上記処理待ち画像中の各顔画像の座標情報を取得するステップをさらに含んでもよい。
【0053】
処理待ち画像における顔画像の位置を定量的に確定するために、処理待ち画像を走査して、各顔画像の座標情報を取得してもよい。顔画像は、通常、一定の画像領域を占めるため、ここでの座標情報は、顔画像に対応する画素の座標値で構成されてもよい。
【0054】
ステップ204において、上記キーワードセットに基づいて、顔情報から上記処理待ち音声情報に対応する顔情報を取得する。
【0055】
キーワードセットが取得された後、キーワードセット内の各キーワードを用いて顔情報を選別し、キーワードセット内のキーワードの全部に該当する顔情報を取得することができる。
【0056】
また、上記キーワードセットを例として、当該キーワードセットは、「一番左」と「女性」の2つのキーワードからなる。処理待ち画像が複数の顔画像を含む場合に、「一番左」と「女性」の2つのキーワードに基づいて、まず、処理待ち画像中の、全部の女性の顔画像を確定し、その後、全部の女性の顔画像における、「一番左」の女性の顔画像の顔情報を取得する。
【0057】
本実施形態の一部の実施形態において、上記キーワードセットに基づいて、顔情報から上記処理待ち音声情報に対応する顔情報を取得する処理は、以下の手順を含んでもよい。
【0058】
まず、各顔画像の座標情報に基づいて、顔画像の上記処理待ち画像における位置情報を設定する。
【0059】
上記説明からわかるように、顔画像の座標情報は、処理待ち画像における顔画像の位置を確定することができる。しかしながら、実際において、通常、ユーザは顔画像の画素の座標値を知ることが不可能である。したがって、座標情報を対応する位置情報として設定してもよい。位置情報は、「左上」、「右上」などで表すことができ、他の形の情報で表すこともできる。
【0060】
次に、上記キーワードセットにおけるキーワードに基づいて、上記クエリ情報に対応する顔画像の上記処理待ち画像における目標位置情報を確定する。
【0061】
各顔画像の位置情報が確定された後、キーワードセットにおけるキーワードと顔画像の位置情報とをマッチングして、キーワードとマッチングする位置情報を確定する。すなわち、当該位置情報に対応する顔画像が、クエリ情報によって検索される顔画像であり、当該顔画像の位置情報が、目標位置情報である。
【0062】
そして、上記目標位置情報に対応する顔画像を、上記処理待ち音声画像に対応する目標顔画像として、目標顔画像の顔情報を取得する。
【0063】
目標位置情報が確定された後、当該目標位置情報に対応する顔画像が、処理待ち音声画像によって検索される目標顔画像であり、当該目標顔画像の顔情報が、処理待ち音声画像によって検索される顔情報である。
【0064】
本実施形態の一部の実施形態において、上記各顔画像の座標情報に基づいて、顔画像の上記処理待ち画像における位置情報を設定するステップは、以下の手順を含んでもよい。
【0065】
まず、各顔画像の座標情報に基づいて、上記処理待ち画像をm行n列のグリッドに分割する。
【0066】
顔画像の座標情報が座標値で構成されて、ユーザが使用するのに不便になる。処理待ち画像に含まれる顔画像の数は一般的にあまり多くない。したがって、本実施形態では、処理待ち画像をm行n列のグリッドに分割してもよい。ここで、各グリッド内の顔画像は、一つを超えない。このようにして、グリッドを用いて顔画像の位置きめを実現することができる。
【0067】
次に、各顔画像の存在するグリッドの行番号及び/又は列番号を顔画像の位置情報として設定する。
【0068】
m行n列のグリッドが形成された後、各グリッドは、対応する行番号及び対応する列番号を有することができる。実際の状況に応じて、グリッドの行番号および/または列番号を顔画像の位置情報として設定することができる。例えば、顔画像が1行に並んでいる場合に、グリッドの列番号を顔画像の位置情報としてもよい。顔画像が1列に並んでいる場合に、グリッドの行番号を顔画像の位置情報としてもよい。
【0069】
本実施形態の一部の選択可能な実施態様では、上記方法は、上記目標顔画像を表示するステップをさらに含んでもよい。上記目標顔画像を表示するステップは、以下の手順を含んでもよい。
【0070】
まず、顔画像に対応する位置情報を上記処理待ち画像の各顔画像の位置に表示する。
【0071】
顔画像の位置情報が確定された後、ユーザが選択しやすいように、位置情報を対応する顔画像に表示することができる。
【0072】
次に、ユーザにより目標顔画像の位置情報が選択された選択情報に応じて、上記処理待ち画像において、上記選択情報の示す位置情報に対応する目標顔画像を強調表示する。
【0073】
ユーザにより目標顔画像の位置情報が選択された後に、その位置情報に対応する目標顔画像を強調表示して、ユーザが現在選択されている目標顔画像を取得することができるようにする。ユーザは、現在の目標顔画像が自分の望む顔画像ではないことが分かった場合に、音声情報やボタンを用いて目標顔画像を再選択することができる。
【0074】
本実施形態の一部の選択可能な実施形態において、上記方法は、ユーザにより目標顔画像が確定された確定情報に応じて、上記確定情報の示す目標顔画像の顔情報を表示及び/又は再生するステップをさらに含んでもよい。
【0075】
現在選択されている目標顔画像が強調表示された後、ユーザは目標顔画像をさらに確定することができる。端末装置101、102、103は、確定情報が受信されると、目標顔画像の顔情報を映像や画像で表示してもよく、目標顔画像の顔情報を音声で再生してもよい。なお、本実施形態の方法は、複数の顔画像から目標顔画像の顔情報を取得してもよく、実際の状況に応じて複数の顔画像の顔情報を同時に取得してもよい。
【0076】
さらに図3を参照すると、図3は、本実施形態に係る顔情報を取得するための方法の適用シナリオの概略図である。図3の適用シナリオにおいて、ユーザは、端末装置102で複数の顔画像を含む処理待ち画像を見る場合、処理待ち音声情報を端末装置102に送信する。端末装置102は、処理待ち音声情報と処理待ち画像とを同時に取得し、処理待ち音声情報に対応するクエリ情報を取得する。そして、端末装置102は、クエリ情報からキーワードセットを確定し、その後、端末装置102により処理待ち画像に対して画像処理を行って処理待ち画像中の顔情報を確定し、最後に、キーワードセットを用いて顔情報を取得する。
【0077】
上記各実施形態により提供される顔情報を取得するための方法は、処理待ち音声情報と処理待ち画像とを取得し、処理待ち画像に含まれている複数の顔画像を認識する。ここで、処理待ち画像に複数の顔画像を含み、受信されたクエリ情報に対して意味的に認識を行って、顔情報をクエリするためのキーワードセットを取得し、キーワードを用いて処理待ち画像中の顔画像の位置決めを実現することができる。その後、処理待ち画像に対して画像処理を行って処理待ち画像中の顔情報を取得する。最後に、キーワードセットを用いて、顔情報から処理待ち音声情報に対応する顔情報を取得する。これにより、処理待ち画像に含まれている複数の顔画像の認識を実現し、キーワードを用いて顔情報を確定して、音声による顔画像の取得精度を向上させることができる。
【0078】
さらに図4を参照すると、各図に示される方法の実現として、本発明は、顔情報を取得するための装置の実施形態を提供し、装置の実施形態は、図2に示される方法の実施形態に対応し、この装置は、具体的に様々な電子機器に適用することができる。
【0079】
図4に示すように、本実施形態に係る顔情報を取得するための装置400は、情報取得ユニット401と、キーワード取得ユニット402と、顔情報生成ユニット403と、顔情報取得ユニット404とを含む。情報取得ユニット401は、処理待ち音声情報および処理待ち画像を取得し、処理待ち音声情報に対して音声認識を行って、クエリ情報を取得するように構成される。上記処理待ち画像は、複数の顔画像を含み、上記クエリ情報は、上記処理待ち画像における指定された顔画像の顔情報をクエリすることを示すためのものである。キーワード取得ユニット402は、上記クエリ情報に対して意味的に認識を行って、顔情報をクエリするためのキーワードセットを取得するように構成される。顔情報生成ユニット403は、処理待ち画像に対して画像処理を行って、上記処理待ち画像における顔情報を取得するように構成される。顔情報取得ユニット404は、上記キーワードセットを用いて顔情報から処理待ち音声情報に対応する顔情報を取得するように構成される。
【0080】
本実施形態の一部の実施形態において、キーワード取得ユニット402は、フレーズセット取得サブユニット(図示せず)とキーワード取得サブユニット(図示せず)とを含んでもよい。上記フレーズセット取得サブユニットは、上記クエリ情報に対して語義認識を行って語義認識情報を取得し、上記語義認識情報をフレーズに分割して、少なくとも1つのフレーズを含むフレーズセットを取得するように構成される。上記キーワード取得ユニットは、上記処理待ち画像における顔画像を確定するための少なくとも1つのキーワードを上記フレーズセットから選別し、少なくとも1つのキーワードを組み合わせてキーワードセットを形成するように構成され、ここで、上記キーワードは、位置キーワードを含む。
【0081】
本実施形態の一部の実施形態において、顔情報生成ユニット403は、顔認識サブユニット(図示せず)と顔情報生成サブユニット(図示せず)を含んでもよい。顔認識サブユニットは、上記処理待ち画像に対して顔認識を行って、上記処理待ち画像中の各顔画像を確定するように構成される。顔情報生成部は、各顔画像に対応する個人情報をクエリして、個人情報を当該顔画像に対応する顔情報とするように構成され、ここで、上記個人情報は、氏名と性別を含む。
【0082】
本実施形態の一部の実施形態において、上記顔情報生成ユニット403は、上記処理待ち画像を走査して、上記処理待ち画像中の各顔画像の座標情報を取得するユニットをさらに含むように構成されている。
【0083】
本実施形態の一部の実施形態において、上記顔情報取得ユニット404は、位置情報設定サブユニット(図示せず)と、目標位置情報確定サブユニット(図示せず)と、顔情報取得サブユニット(図示せず)とを含んでもよい。位置情報設定サブユニットは、各顔画像の座標情報に基づいて、顔画像の上記処理待ち画像における位置情報を設定するように構成される。目標位置情報確定サブユニットは、上記キーワードセットにおけるキーワードに基づいて、上記クエリ情報に対応する顔画像の上記処理待ち画像における目標位置情報を確定するように構成される。顔情報取得サブユニットは、上記目標位置情報に対応する顔画像を、上記処理待ち音声情報に対応する目標顔画像として、上記目標顔画像の顔情報を取得するように構成される。
【0084】
本実施形態の一部の実装形態において、上記位置情報設定サブユニットは、グリッド生成モジュール(図示せず)と位置情報設定モジュール(図示せず)とを含んでもよい。上記グリッド生成モジュールは、各顔画像の座標情報に基づいて、上記処理待ち画像をm行n列のグリッドに分割するように構成され、ここで、各グリッド中の顔画像は1つを越えない。上記位置情報設定モジュールは、各顔画像の存在するグリッドの行番号及び/又は列番号を当該顔画像の位置情報とする。
【0085】
本実施形態の一部の実施形態において、上記顔情報を取得するための装置400は、上記目標顔画像を表示する表示ユニット(図示せず)をさらに含んでもよい。上記表示ユニットは、位置情報表示サブユニット(図示せず)と、目標顔画像表示サブユニットとを含んでもよい。上記位置情報表示サブユニットは、顔画像に対応する位置情報を上記処理待ち画像の各顔画像の位置に表示するように構成されて、上記目標顔画像表示サブユニットは、ユーザにより目標顔画像の位置情報が選択された選択情報に応じて、上記処理待ち画像において、上記選択情報の示す位置情報に対応する目標顔画像を強調表示するように構成されている。
【0086】
本実施形態の一部の実施形態において、上記顔情報を取得するための装置400は、ユーザにより目標顔画像が確定された確定情報に応じて、上記確定情報の示す目標顔画像の顔情報を、表示及び/又は再生するユニットを、さらに含んでもよい。
【0087】
本実施形態は、一つまたは複数のプロセッサと、一つまたは複数のプログラムが記憶されているメモリと、を含み、上記一つまたは複数のプログラムが上記一つまたは複数のプロセッサにより実行されると、上記一つまたは複数のプロセッサに上記顔情報を取得するための方法を実行させるサーバを、さらに提供する。
【0088】
本実施形態は、コンピュータプログラムが記憶されており、上記プログラムがプロセッサにより実行されると、上記顔情報を取得するための方法を実現させるコンピュータ読み取り可能な記憶媒体を、さらに提供する。
【0089】
以下、図5を参照すると、本発明の一実施形態を実現するのに適するサーバのコンピュータシステム500の概略構成図を示す。図5に示すサーバは、あくまでも一例であり、本発明の本実施形態の機能及び利用範囲を限定するものではない。
【0090】
図5に示されたように、コンピュータシステム500は、読み出し専用メモリ(ROM、Read Only Memory)502に記憶されているプログラム又は記憶部506からランダムアクセスメモリ(RAM、Random Access Memory)503にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置(CPU、Central Processing Unit)501を備える。RAM503には、システム500の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU501、ROM502およびRAM503は、バス504を介して互いに接続されている。入力/出力(I/O、Input/Output)インターフェース505もバス504に接続されている。
【0091】
I/Oインターフェース505には、キーボード、マウス等からなる入力部506と、陰極線管(CRT)、液晶表示装置(LCD)、スピーカ等からなる出力部507と、ハードディスク等からなる記憶部508と、LANカードやモデム等のネットワークインターフェースカードからなる通信部509とを備えている。通信部509は、インターネットなどのネットワークを介した通信処理を行う。ドライブ510は、必要に応じてI/Oインターフェース505に接続される。リムーバブルメディア511は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライブ510に取り付けられるので、ドライブ510から読み出されたコンピュータプログラムが必要に応じて記憶部508にインストールされる。
【0092】
特に、本発明の実施形態によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムで実施することができる。例えば、本発明の一実施形態は、機械可読媒体に有形に埋め込まれたコンピュータプログラムを含むコンピュータプログラム製品を含む。コンピュータプログラムは、フローチャートに示されるような方法を実行するためのプログラムコードを含む。このような実施形態において、このコンピュータプログラムは、通信部509を介してネットワークからダウンロードされインストールされてもよく、リムーバブルメディア511からインストールされてもよい。このコンピュータプログラムが中央処理装置(CPU)501によって実行されると、本発明の方法によって定義される上記機能を実現する。
【0093】
なお、本発明のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは上記両者の任意の組合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラミング読取専用メモリ(EPROM又はフラッシュ)、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ(CD−ROM)、光学記憶素子、磁気記憶素子、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンドによりシステム、サーバ又は部品の使用を実行し、或いはそれらに組合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号、光信号又は上記任意の適当の組合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンドによりシステム、サーバ又は部品の使用を実行し又はそれらと組合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、RFなど、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。
【0094】
図面におけるフローチャート及びブロック図は、本願の各実施例によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って確定される。注意すべきなのは、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組合わせで実現されても良い。
【0095】
本発明の実施例に説明されたユニットはソフトウェアの手段で実現されても良く、ハードウェアの手段で実現されても良い。説明されたユニットは、プロセッサに設置されても良い。例えば、情報取得ユニット、キーワード取得ユニット、顔情報生成ユニットおよび顔情報取得ユニットを含むプロセッサとして記載されても良い。なお、これらユニットの名称は、ある場合に当該ユニットの自身に対する限定とされない。例えば、顔情報取得ユニットを「顔情報を取得するためのユニット」と記載されても良い。
【0096】
他の局面として、本発明は更にコンピュータ読取可能な媒体を提供した。当該コンピュータ読取可能な媒体は、上記実施形態に説明された装置に含まれたものであっても良く、当該装置に実装されずに別途に存在するものであっても良い。上記コンピュータ読取可能な媒体に一つ又は複数のプログラムがロードされる。上記一つ又は複数のプログラムが当該装置により実行されると、当該装置は、処理待ち音声情報と処理待ち画像とを取得し、上記処理待ち音声情報に対して音声認識を行ってクエリ情報を取得する。ここで、上記処理待ち画像は、複数の顔画像を含み、上記クエリ情報は、上記処理待ち画像における指定された顔画像の顔情報をクエリすることを示す。そして、上記クエリ情報に対して語義認識を行って、顔情報をクエリするためのキーワードセットを取得し、上記処理待ち画像に対して画像処理を行って、上記処理待ち画像中の顔情報を取得する。上記キーワードセットに基づいて、上記顔情報から上記処理待ち音声情報に対応する顔情報を取得する。
【0097】
以上の記載は、本願の好ましい実施例、及び使われている技術的原理の説明に過ぎない。当業者は、本願に係る保護範囲が、上記の技術特徴による特定お組合せからなる技術方案に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、上記技術特徴又は均等の特徴の任意の組合せからなる他の技術方案も含まれることを理解している。例えば、上記特徴と、本願に開示された類似の機能を持っている技術特徴(これらに限定されていない)とを互いに置き換えてなる技術方案も含まれる。
図1
図2
図3
図4
図5