特許第6927495号(P6927495)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社テイクアンドシーの特許一覧 ▶ 株式会社カラーチップスの特許一覧

<>
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000002
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000003
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000004
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000005
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000006
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000007
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000008
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000009
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000010
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000011
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000012
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000013
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000014
  • 特許6927495-人物評価装置、プログラム、及び、方法 図000015
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6927495
(24)【登録日】2021年8月10日
(45)【発行日】2021年9月1日
(54)【発明の名称】人物評価装置、プログラム、及び、方法
(51)【国際特許分類】
   G10L 25/51 20130101AFI20210823BHJP
   G06Q 10/06 20120101ALI20210823BHJP
   G10L 25/18 20130101ALI20210823BHJP
   G10L 25/21 20130101ALI20210823BHJP
   G06T 7/00 20170101ALI20210823BHJP
   G10L 25/60 20130101ALI20210823BHJP
【FI】
   G10L25/51
   G06Q10/06
   G10L25/18
   G10L25/21
   G06T7/00 660A
   G10L25/60
【請求項の数】9
【全頁数】21
(21)【出願番号】特願2017-237950(P2017-237950)
(22)【出願日】2017年12月12日
(65)【公開番号】特開2019-105729(P2019-105729A)
(43)【公開日】2019年6月27日
【審査請求日】2020年7月13日
(73)【特許権者】
【識別番号】513061574
【氏名又は名称】株式会社テイクアンドシー
(73)【特許権者】
【識別番号】307009791
【氏名又は名称】株式会社カラーチップス
(74)【代理人】
【識別番号】100110777
【弁理士】
【氏名又は名称】宇都宮 正明
(74)【代理人】
【識別番号】100110858
【弁理士】
【氏名又は名称】柳瀬 睦肇
(74)【代理人】
【識別番号】100100413
【弁理士】
【氏名又は名称】渡部 温
(72)【発明者】
【氏名】阿野 武士
【審査官】 上田 雄
(56)【参考文献】
【文献】 特許第6042015(JP,B1)
【文献】 特開2006−154213(JP,A)
【文献】 特開2006−079533(JP,A)
【文献】 特開平10−301594(JP,A)
【文献】 特開2005−107088(JP,A)
【文献】 国際公開第2009/091029(WO,A1)
【文献】 特開2005−242567(JP,A)
【文献】 特開2010−256391(JP,A)
【文献】 特開平09−147119(JP,A)
【文献】 特開2017−151694(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00−25/93
G06Q 10/00−10/10
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する音声処理部と、
前記複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて前記被検者の音声に関する評価を行う際に、いずれかの周波数領域において音圧が閾値を超えるデータブロックに対して、全ての周波数領域において音圧が閾値以下であるデータブロックの得点よりも高い得点を与え、音圧が閾値を超えて極大となる周波数帯域の数が所定の値を超えるデータブロックに対して、音圧が閾値を超えて極大となる周波数帯域の数が所定の値以下であるデータブロックの得点よりも高い得点を与えて、所定数のデータブロックの得点の合計値又は平均値に基づいて前記被検者の音声に関するランクを判定する音声解析部と、
を備える人物評価装置。
【請求項2】
前記被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、前記被検者の顔において認識される複数の特徴点を抽出し、前記複数の特徴点の座標を求める画像処理部と、
所定数のフレームにおける前記複数の特徴点の座標に基づいて前記被検者の顔の動き量を算出し、評価期間における前記被検者の顔の動き量の統計処理に基づいて前記被検者の視覚的な評価を行う画像解析部と、
をさらに備える、請求項1記載の人物評価装置。
【請求項3】
前記画像解析部が、前記動画像データによって表される前記被検者の画像における特定の部位の位置に基づいて定められる第1の軸、前記第1の軸に略直交する第2の軸、又は、前記第1及び第2の軸に略直交する第3の軸を回転中心とする前記被検者の顔の動き量を算出する、請求項記載の人物評価装置。
【請求項4】
前記画像解析部が、前記所定数のフレームにおける前記被検者の顔の向きを表す量の分散値を前記被検者の顔の動き量として算出し、前記評価期間における前記分散値の確率分布に基づいて前記被検者の視覚的評価に関するランクを判定する、請求項又は記載の人物評価装置。
【請求項5】
前記音声解析部による評価結果と前記画像解析部による評価結果とに基づいて前記被検者の人物評価を行う総合評価部をさらに備える、請求項のいずれか1項記載の人物評価装置。
【請求項6】
被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する手順(a)と、
前記複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて前記被検者の音声に関する評価を行う際に、いずれかの周波数領域において音圧が閾値を超えるデータブロックに対して、全ての周波数領域において音圧が閾値以下であるデータブロックの得点よりも高い得点を与え、音圧が閾値を超えて極大となる周波数帯域の数が所定の値を超えるデータブロックに対して、音圧が閾値を超えて極大となる周波数帯域の数が所定の値以下であるデータブロックの得点よりも高い得点を与えて、所定数のデータブロックの得点の合計値又は平均値に基づいて前記被検者の音声に関するランクを判定する手順(b)と、
をCPUに実行させる人物評価プログラム。
【請求項7】
前記被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、前記被検者の顔において認識される複数の特徴点を抽出し、前記複数の特徴点の座標を求める手順(c)と、
所定数のフレームにおける前記複数の特徴点の座標に基づいて前記被検者の顔の動き量を算出し、評価期間における前記被検者の顔の動き量の統計処理に基づいて前記被検者の視覚的な評価を行う手順(d)と、
手順(b)における評価結果と手順(d)における評価結果とに基づいて前記被検者の人物評価を行う手順(e)と、
をさらにCPUに実行させる、請求項記載の人物評価プログラム。
【請求項8】
被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成するステップ(a)と、
前記複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて前記被検者の音声に関する評価を行う際に、いずれかの周波数領域において音圧が閾値を超えるデータブロックに対して、全ての周波数領域において音圧が閾値以下であるデータブロックの得点よりも高い得点を与え、音圧が閾値を超えて極大となる周波数帯域の数が所定の値を超えるデータブロックに対して、音圧が閾値を超えて極大となる周波数帯域の数が所定の値以下であるデータブロックの得点よりも高い得点を与えて、所定数のデータブロックの得点の合計値又は平均値に基づいて前記被検者の音声に関するランクを判定するステップ(b)と、
を備える人物評価方法。
【請求項9】
前記被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、前記被検者の顔において認識される複数の特徴点を抽出し、前記複数の特徴点の座標を求めるステップ(c)と、
所定数のフレームにおける前記複数の特徴点の座標に基づいて前記被検者の顔の動き量を算出し、評価期間における前記被検者の顔の動き量の統計処理に基づいて前記被検者の視覚的な評価を行うステップ(d)と、
ステップ(b)における評価結果とステップ(d)における評価結果とに基づいて前記被検者の人物評価を行うステップ(e)と、
をさらに備える、請求項記載の人物評価方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人物を評価するために用いられる人物評価装置、並びに、そのような人物評価装置において用いられる人物評価プログラム及び人物評価方法等に関する。
【背景技術】
【0002】
例えば、企業が新たな社員を採用する際には、多数の応募者の人物評価を行って採用すべき応募者を選考するために、採用担当者が多大な労力と時間を費やしている。また、採用担当者によって評価基準が異なることもあり、応募者の人物評価のために客観的な評価基準を設けることが要望されている。そこで、応募者の人物評価を行う際に参考となる情報が応募者の音声又は動画像に基づいて得られれば、採用担当者の選考業務が効率化されると共に、評価基準の客観性を向上させることができる。
【0003】
一方、電話やインターネットを介して不特定多数の人とコミュニケーションをとる場合においても、コミュニケーションの相手が信頼できるか否かを判断できるツールが求められている。関連する技術として、特許文献1には、コミュニケーションの相手が信頼できるか否かを判断できる仕組みのないコミュニティーにおいて、利用者が安心してコミュニケーションを行うための人物評価装置が開示されている。
【0004】
この人物評価装置は、統一された評価尺度に準じた評価内容ごとに、学習用データに含まれる特徴語と該特徴語に対するスコアとが対応付けられた辞書を構築する辞書構築手段と、学習用データを構成する複数のユーザーのデータ(例えば、記事)及び上記辞書を参照することにより、複数のユーザーの識別情報及び基礎値に基づくユーザー単位の評価を行う評価手段とを備えている。
【0005】
辞書には、統一された評価尺度を用いて、学習用データ中の特徴語と、その出現頻度に応じたスコアとが、評価内容ごとに登録されている。また、学習用データを構成するデータに対する評価は、上記辞書を参照しながら、ユーザーの識別情報に基づいて行われる。従って、特許文献1によれば、ユーザーが入力するデータが集まるインターネットコミュニティーの利用者に関して、データ単位のみならず人単位で高精度な評価を行うことができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2006−190196号公報(段落0002−0008、図1
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1において人物評価を行うためには、複数のユーザーが作成した記事等が必要となる。しかしながら、例えば、ユーザーが作成した記事にユーザー本来の思想や思考が反映されていない場合や、ユーザーが記事を作成する際に他人の記事を盗用したような場合には、正確な人物評価を行うことができない。
【0008】
そこで、上記の点に鑑み、本発明の第1の目的は、人物評価の対象となる被検者の音声に基づいて、あるいは、被検者の動画像及び音声に基づいて、被検者の人物評価を行う際に参考となる情報を提供できる人物評価装置を提供することである。さらに、本発明の第2の目的は、そのような人物評価装置において用いられる人物評価プログラム及び人物評価方法等を提供することである。
【課題を解決するための手段】
【0009】
以上の課題の少なくとも一部を解決するため、本発明の第1の観点に係る人物評価装置は、被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する音声処理部と、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行う際に、いずれかの周波数領域において音圧が閾値を超えるデータブロックに対して、全ての周波数領域において音圧が閾値以下であるデータブロックの得点よりも高い得点を与え、音圧が閾値を超えて極大となる周波数帯域の数が所定の値を超えるデータブロックに対して、音圧が閾値を超えて極大となる周波数帯域の数が所定の値以下であるデータブロックの得点よりも高い得点を与えて、所定数のデータブロックの得点の合計値又は平均値に基づいて被検者の音声に関するランクを判定する音声解析部とを備える。
【0010】
また、本発明の第1の観点に係る人物評価プログラムは、被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する手順(a)と、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行う際に、いずれかの周波数領域において音圧が閾値を超えるデータブロックに対して、全ての周波数領域において音圧が閾値以下であるデータブロックの得点よりも高い得点を与え、音圧が閾値を超えて極大となる周波数帯域の数が所定の値を超えるデータブロックに対して、音圧が閾値を超えて極大となる周波数帯域の数が所定の値以下であるデータブロックの得点よりも高い得点を与えて、所定数のデータブロックの得点の合計値又は平均値に基づいて被検者の音声に関するランクを判定する手順(b)とをCPUに実行させる。
【0011】
また、本発明の第1の観点に係る人物評価方法は、被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成するステップ(a)と、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行う際に、いずれかの周波数領域において音圧が閾値を超えるデータブロックに対して、全ての周波数領域において音圧が閾値以下であるデータブロックの得点よりも高い得点を与え、音圧が閾値を超えて極大となる周波数帯域の数が所定の値を超えるデータブロックに対して、音圧が閾値を超えて極大となる周波数帯域の数が所定の値以下であるデータブロックの得点よりも高い得点を与えて、所定数のデータブロックの得点の合計値又は平均値に基づいて被検者の音声に関するランクを判定するステップ(b)とを備える。
【0012】
本発明の第1の観点によれば、被検者の音声を収録して得られる音声データからデータブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成して、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行う際に、データブロックに与える得点に基づいて被検者の音声に関するランクを判定することにより、人物評価の対象となる被検者の音声に基づいて、被検者の人物評価を行う際に参考となる情報を提供することができる。
【0013】
本発明の第2の観点に係る人物評価装置は、本発明の第1の観点に係る人物評価装置において、被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、被検者の顔において認識される複数の特徴点を抽出し、複数の特徴点の座標を求める画像処理部と、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行う画像解析部と、音声解析部による評価結果と画像解析部による評価結果とに基づいて被検者の人物評価を行う総合評価部とをさらに備える。
【0014】
また、本発明の第2の観点に係る人物評価プログラムは、本発明の第1の観点に係る人物評価プログラムにおいて、被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、被検者の顔において認識される複数の特徴点を抽出し、複数の特徴点の座標を求める手順(c)と、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行う手順(d)と、手順(b)における評価結果と手順(d)における評価結果とに基づいて被検者の人物評価を行う手順(e)とをさらにCPUに実行させる。
【0015】
また、本発明の第2の観点に係る人物評価方法は、本発明の第1の観点に係る人物評価方法において、被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、被検者の顔において認識される複数の特徴点を抽出し、複数の特徴点の座標を求めるステップ(c)と、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行うステップ(d)と、ステップ(b)における評価結果とステップ(d)における評価結果とに基づいて被検者の人物評価を行うステップ(e)とをさらに備える。
【0016】
本発明の第2の観点によれば、被検者の顔を撮像して得られる動画像データから被検者の顔において認識される複数の特徴点の座標を求めて、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行うことにより、人物評価の対象となる被検者の動画像及び音声に基づいて、被検者の人物評価を行う際に参考となる情報を提供することができる。
【図面の簡単な説明】
【0017】
図1】本発明の一実施形態に係る人物評価装置の構成例を示すブロック図。
図2】音声データによって表される音声波形の例を示す図。
図3】声紋データによって表される音圧分布の例を示す図。
図4】声紋データに基づく音声の評価例を説明するための図。
図5】第1の軸を回転中心とする被検者の顔の動き量を算出するために用いられる画像の例を示す図。
図6】第1の軸を回転中心とする被検者の顔の動きによる第1の三角形と第2の三角形との高さの比の変化を説明するための図。
図7】第2の軸を回転中心とする被検者の顔の動き量を算出するために用いられる画像の例を示す図。
図8】第2の軸を回転中心とする被検者の顔の動きによる第1の三角形と第2の三角形との面積比の変化を説明するための図。
図9】第3の軸を回転中心とする被検者の顔の動き量を算出するために用いられる画像の例を示す図。
図10】評価期間における被検者の顔の向きを表す量の分散値の確率分布の例を示す図。
図11】被検者の人物評価を行うために用いられるマッピングエリアの例を示す図。
図12】本発明の一実施形態に係る人物評価方法を示すフローチャート。
図13】動画像データの処理フローの例を示すフローチャート(前半)。
図14】動画像データの処理フローの例を示すフローチャート(後半)。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、同一の構成要素には同一の参照符号を付して、重複する説明を省略する。
<人物評価装置>
図1は、本発明の一実施形態に係る人物評価装置の構成例を示すブロック図である。人物評価装置としては、例えば、パーソナルコンピューター、タブレット端末、又は、スマートフォン等を使用することができる。以下においては、一例として、人物評価装置としてパーソナルコンピューターを使用する場合について説明する。
【0019】
図1に示すように、この人物評価装置は、操作部10と、表示部20と、入出力インターフェース30と、ネットワークインターフェース40と、CPU(中央演算装置)50と、メモリー60と、格納部70とを含んでいる。入出力インターフェース30〜格納部70は、バスラインを介して互いに接続されている。なお、図1に示す構成要素の一部を省略又は変更しても良いし、あるいは、図1に示す構成要素に他の構成要素を付加しても良い。
【0020】
操作部10は、キーボードやマウス等で構成され、各種の命令やデータを入力するために用いられる。表示部20は、例えば、LCD(液晶表示装置)等を含み、操作画面や評価画面等を表示する。入出力インターフェース30は、操作部10及び表示部20に接続されており、操作部10を用いて入力される各種の命令やデータをCPU50又はメモリー60に供給し、CPU50によって生成される表示データを表示部20に供給する。
【0021】
また、入出力インターフェース30は、外部から音声データ又は動画像データを入力したり、USB(ユニバーサルシリアルバス)メモリー等の周辺機器との間でデータのシリアル転送を行うことが可能である。さらに、入出力インターフェース30は、アナログの音声信号又は画像信号をデジタルの音声データ又は動画像データに変換するアナログ/デジタル変換器を含んでも良い。
【0022】
ネットワークインターフェース40は、CPU50をLAN又はインターネット等のネットワークに接続する。CPU50は、格納部70に格納されているソフトウェアに従って、各種の演算やデータ処理を行う。メモリー60は、入出力インターフェース30から供給される各種の命令やデータ、ネットワークインターフェース40から供給されるデータ、及び、CPU50によって生成又は処理されるデータ等を一時的に記憶する。
【0023】
格納部70は、各種のデータや、CPU50に動作を行わせるための各種のソフトウェア等を記録媒体に格納する。記録媒体としては、内蔵のハードディスクの他に、外付けハードディスク、フレキシブルディスク、MO、MT、CD−ROM、DVD−ROM、又は、各種のメモリー等を用いることができる。
【0024】
ここで、CPU50とソフトウェア(人物評価プログラムを含む)とによって、音声処理部51と、音声解析部52と、画像処理部53と、画像解析部54と、総合評価部55とが、機能ブロックとして構成される。
【0025】
図1に示す人物評価装置には、人物評価の対象となる被検者の音声を収録して得られる音声データが供給される。あるいは、被検者の顔を撮像して得られる動画像データが音声データと共に供給される。その場合には、動画像データと音声データとが結合されていても良い。あるいは、入出力インターフェース30のアナログ/デジタル変換器が、人物評価装置に供給されるアナログの音声信号又は画像信号をデジタルの音声データ又は動画像データに変換しても良い。
【0026】
例えば、マイクロフォン、携帯電話機(スマートフォン等)、タブレット端末、ビデオカメラ、又は、スカイプ(Skype)等を用いて得られる音声データ又は動画像データ等が、リアルタイムで人物評価装置に供給されても良い。あるいは、音声レコーダー又はビデオムービー等に予め記録された音声データ又は動画像データ等が、バッチ処理で人物評価装置に供給されても良い。
【0027】
<音声処理>
入出力インターフェース30又はネットワークインターフェース40等から供給される音声データ又は動画像データは、生データ格納部71に格納される。音声処理部51は、生データ格納部71から音声データを読み出して音声データを取得する。
【0028】
図2は、音声データによって表される音声波形の例を示す図である。図2において、横軸は、時間[秒]を表しており、縦軸は、音声波形の振幅を表している。例えば、音声評価のために、収録開始後5秒〜35秒の30秒間の評価期間における音声を表す音声データが用いられる。なお、音声データにおける音声波形の振幅は、ピーク値等に基づいて正規化されても良い。
【0029】
図1に示す音声処理部51は、人物評価の対象となる被検者の音声を収録して得られる音声データを単位時間(例えば、約0.07秒)当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する。なお、音声データのデータブロックは、一般的には、音声データのフレームに相当するものであるが、本願においては、画像データのフレームと区別するために、音声データについてはデータブロックという用語が用いられる。
【0030】
図3は、声紋データによって表される音圧分布の例を示す図である。図3において、横軸は、2×時間[秒]を表す時間軸であり、縦軸は、周波数を対数表示で表す周波数軸である。図3においては、各々の周波数領域における明度が音圧[dB]を表しており、音圧が高い周波数領域ほど白に近く表示されている。あるいは、時間軸及び周波数軸に直交する音圧軸が音圧[dB]を表す3次元表示が用いられても良い。
【0031】
ここで、音声データに基づいて声紋データを生成する手法の一例について説明する。図1に示す音声処理部51は、音声データによって表される音声波形にハミング窓をかけることにより、時系列の音声データを所定の時間毎に区切って、時間軸に沿った複数のデータブロックを作成する。例えば、サンプリング周波数が約44kHzである場合に、1つのデータブロックが、2048サンプルの音声データを含んでいる。なお、連続する2つのデータブロックの各々が、オーバーラップする複数のサンプルを含んでも良い。
【0032】
次に、音声処理部51は、データブロック毎に音声データをフーリエ変換することにより、複数の周波数成分を抽出する。例えば、音声処理部51は、音声データに高速フーリエ変換(FFT)処理を施しても良い。フーリエ変換によって求められる周波数成分は複素数であるので、音声処理部51は、各々の周波数成分の絶対値を求める。
【0033】
音声処理部51は、それらの周波数成分の絶対値に、オクターブ毎の周波数領域の窓、又は、メル尺度(音高の知覚的尺度)に基づいて定められた周波数領域の窓をかけて積分することにより、各窓の周波数帯域における積分値を求め、さらに、積分値の対数をとって音圧[dB]を求める。それにより、周波数領域の窓が20個であれば、20個の周波数帯域における音圧が得られる。
【0034】
<音声解析>
音声処理部51は、このようにして生成された声紋データを声紋データ格納部72に格納する。音声解析部52は、声紋データ格納部72から声紋データを読み出して、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行う。
【0035】
例えば、音声解析部52は、いずれかの周波数領域において音圧が閾値を超えるか否かに応じてデータブロックを分類し、さらに、いずれかの周波数領域において音圧が閾値を超えるデータブロックを、音圧が閾値を超えて極大となる周波数帯域の数に応じて分類する。
【0036】
図4は、声紋データに基づく音声の評価例を説明するための図である。図4(A)〜図4(D)は、4種類の声紋データによって表される音圧分布の例を示している。図3及び図4において、各データブロックにおける黒い周波数領域は、音圧が閾値(例えば、15dB)以下の周波数領域であり、その周波数成分が無声又はノイズであると判定される。
【0037】
図4(A)及び図4(B)に示すように、被検者が流暢に話して音声の途切れが少ない場合には、いずれかの周波数領域において音圧が閾値を超えるデータブロックの割合が大きくなる。特に、図4(A)に示すように、被検者の音声において倍音の伸びが豊かで声紋の縞模様が多く、輪郭がはっきりして明るく良く通る声質の場合には、音圧が閾値を超えて極大となる周波数帯域が多くなる。
【0038】
一方、図4(C)及び図4(D)に示すように、被検者が言葉に詰まって音声が途切れがちな場合には、全ての周波数領域において音圧が閾値以下であるデータブロックの割合が大きくなる。特に、図4(D)に示すように、被検者の音声において倍音の伸びが不足して声紋の縞模様が少なく、輪郭がぼけたような暗くてこもった声質の場合には、音圧が閾値を超えて極大となる周波数帯域が少なくなる。
【0039】
そこで、音声解析部52は、全ての周波数領域において音圧が閾値以下であるデータブロックに対して得点S0を与え、いずれかの周波数領域において音圧が閾値を超えるデータブロックに対して、全ての周波数領域において音圧が閾値以下であるデータブロックの得点S0よりも高い得点を与える。
【0040】
さらに、音声解析部52は、いずれかの周波数領域において音圧が閾値を超えるデータブロックについて、音圧が閾値を超えて極大となる周波数帯域の数を求める。図3及び図4を参照すると、各データブロックにおいて、ある周波数領域の明るさがその上下両側の周波数領域の明るさよりも明るい場合には、その周波数領域において音圧が極大となっている。
【0041】
あるいは、時間軸及び周波数軸に直交する音圧軸が音圧[dB]を表す3次元表示が用いられる場合に、各データブロックにおいて、ある周波数領域の音圧がその上下両側の周波数領域の音圧よりも高く、音圧が高音圧側に凸である場合には、その周波数領域において音圧が極大となっている。
【0042】
音声解析部52は、いずれかの周波数領域において音圧が閾値を超えるデータブロックの内で、音圧が閾値を超えて極大となる周波数帯域の数が所定の値以下であるデータブロックに対して得点S1を与え、音圧が閾値を超えて極大となる周波数帯域の数が所定の値を超えるデータブロックに対して得点S1よりも高い得点S2を与える。
【0043】
次に、音声解析部52は、所定数のデータブロックの得点の合計値又は平均値に基づいて被検者の音声に関するランクを判定する。例えば、得点S0のデータブロックの数N0と、得点S1のデータブロックの数N1と、得点S2のデータブロックの数N2とを用いて、所定数(N個)のデータブロックの得点の平均値AVEが、次式(1)によって表される。
AVE=(S0×N0+S1×N1+S2×N2)/N ・・・(1)
ここで、N0〜N2はゼロ以上の整数であり、Nは3以上の整数であって、次式(2)が成立する。
N=N0+N1+N2 ・・・(2)
例えば、式(1)において、S0=0、S1=1、S2=3〜5としても良い。
【0044】
音声解析部52は、所定数のデータブロックの得点の合計値又は平均値を、予め設定された少なくとも1つの基準値と比較して、被検者の音声に関するランクを判定しても良い。そのために、学習データ格納部73には、例えば、インターシップ応募者等の疑似被検者の音声を収録して得られた音声データと、実際に評価者がその音声を評価して判定したランク等を表す評価データとが、判定学習データとして予め格納されている。音声解析部52は、判定学習データを用いて機械学習を行うAI(人工知能)として機能することにより、判定学習データに近い判定結果が得られるように少なくとも1つの基準値を設定して、被検者の音声に関するランクを判定しても良い。
【0045】
例えば、音声解析部52は、被検者の音声を4段階で評価する場合に、平均値AVEを第1〜第3の基準値と比較する。音声解析部52は、平均値AVEが第1の基準値以下の場合に、その被検者の音声をランクRA0(極めて悪い音声)と判定し、平均値AVEが第1の基準値よりも大きく第2の基準値以下の場合に、その被検者の音声をランクRA1(悪い音声)と判定する。また、音声解析部52は、平均値AVEが第2の基準値よりも大きく第3の基準値以下の場合に、その被検者の音声をランクRA2(普通の音声)と判定し、平均値AVEが第3の基準値よりも大きい場合に、その被検者の音声をランクRA3(良い音声)と判定する。
【0046】
なお、評価期間に相当する音声データにおいて音声が収録されている期間が一定の期間(例えば15秒)に達しないような場合には、音声解析部52は、その被検者の音声をランクRA0と判定しても良い。音声解析部52は、このようにして得られた音声評価結果を表す音声評価データを評価データ格納部74に格納する。
【0047】
<画像処理>
生データ格納部71に動画像データが格納された場合には、画像処理部53が、生データ格納部71から動画像データを読み出して動画像データを取得する。例えば、動画像データは、1秒間に24フレームの画像を表しており、視覚的評価のために、撮像開始後5秒〜60秒の55秒間の評価期間における画像を表す動画像データが用いられる。
【0048】
画像処理部53は、被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、被検者の顔において認識される複数の特徴点を抽出し、複数の特徴点の座標を求める。ここで、画像処理の一種である顔認識処理の一例について説明する。
【0049】
まず、画像処理部53は、1フレームの動画像データによって表される画像(以下においては、「入力画像」ともいう)における被検者の顔の位置を検出する。例えば、画像処理部53は、OpenCV等のソフトウェアを用いて、被検者の顔の位置や領域等を検出することができる。
【0050】
次に、画像処理部53は、1フレームの動画像データと、学習データ格納部73に予め格納されている顔認識学習データとを用いて、入力画像における被検者の顔を認識する。この顔認識処理においては、例えば、アクティブ・アピアランス・モデル(AAM)が用いられる。その後、画像処理部53は、被検者の顔を認識できたか否かを判定する。
【0051】
被検者の顔を認識できた場合に、画像処理部53は、被検者の顔において認識される複数の特徴点を抽出し、入力画像における複数の特徴点の座標を求める。さらに、画像処理部53は、複数の特徴点の座標を、フレーム番号と共に座標データ格納部75に格納する。なお、画像処理部53は、入力画像における複数の特徴点の座標をピクセル番号として求めても良い。
【0052】
<顔認識処理の詳細>
学習データ格納部73には、例えば、標準的な人間の顔又はその模型等を用いて予め撮影された画像を表す画像データと、その画像において設定された複数の特徴点の座標とが、顔認識学習データとして予め格納されている。画像処理部53は、顔認識学習データに基づいて、被検者の顔を撮像して得られる画像データに顔認識処理を施すことにより、被検者の顔から複数の特徴点を抽出し、それらの特徴点の座標を求める。
【0053】
上記の顔認識処理において用いることができるアクティブ・アピアランス・モデルとは、対象となる物体の画像を形状(shape)とテクスチャー(appearance)とに分けて、それぞれを主成分分析(principal component analysis)によって次元圧縮することにより、少ないパラメーターで対象の形状の変化とテクスチャーの変化とを表現できるようにしたモデルである。形状及びテクスチャーの情報は、低次元のパラメーターで表現することができる。
【0054】
アクティブ・アピアランス・モデルにおいて、全特徴点を並べた形状ベクトルxは、予め顔認識学習データから求められた平均形状ベクトルuと、平均形状ベクトルuからの偏差を主成分分析して得られる固有ベクトル行列Pとを用いて、次式(3)によって表される。
x=u+P ・・・(3)
ここで、bは、パラメーターベクトルであり、形状パラメーターと呼ばれる。
【0055】
また、正規化されたテクスチャーの輝度値を並べたアピアランスベクトルgは、予め顔認識学習データから求められた平均アピアランスベクトルvと、平均アピアランスベクトルvからの偏差を主成分分析して得られる固有ベクトル行列Pとを用いて、次式(4)によって表される。
g=v+P ・・・(4)
ここで、bは、パラメーターベクトルであり、アピアランスパラメーターと呼ばれる。形状パラメーターb及びアピアランスパラメーターbは、平均からの変化を表すパラメーターであり、これらを変化させることによって、形状及びアピアランスを変化させることができる。
【0056】
また、形状とアピアランスとの間に相関があることから、形状パラメーターb及びアピアランスパラメーターbをさらに主成分分析することにより、形状とアピアランスとの両方を制御する低次元のパラメーターベクトル(以下においては、「結合パラメーター」ともいう)cを用いて、形状ベクトルx(c)及びテクスチャーベクトルg(c)が、次式(5)及び(6)によって表される。
x(c)=u+P−1c ・・・(5)
g(c)=v+Pc ・・・(6)
ここで、Wは、形状ベクトルとアピアランスベクトルとの単位の違いを正規化する行列であり、Qは、形状に関する固有ベクトル行列であり、Qは、アピアランスに関する固有ベクトル行列である。このようにして、結合パラメーターcを制御することによって、形状とアピアランスとを同時に扱い、対象の変化を表現することが可能となる。
【0057】
次に、対象が、画像中のどこに、どんなサイズで、どんな向きで存在するかという広域的な変化に関するパラメーター(以下においては、「姿勢パラメーター」ともいう)qを考慮する。姿勢パラメーターqは、次式(7)によって表される。
q=[roll scale trans_x trans_y] ・・・(7)
ここで、rollは、画像平面に対するモデルの回転角度を表し、scaleは、モデルのサイズを表し、trans_x及びtrans_yは、それぞれx軸方向及びy軸方向におけるモデルの平行移動量を表している。
【0058】
アクティブ・アピアランス・モデルにおいて、モデルの探索とは、モデルを結合パラメーターc及び姿勢パラメーターqによって局所的及び広域的に変化させて対象の画像を生成し、生成された画像と入力画像とを比較して、誤差が最小となるような結合パラメーターc及び姿勢パラメーターqを求めることである。アクティブ・アピアランス・モデルによれば、対象の方向の変化に対して頑健かつ高速に特徴点を抽出することが可能である。
【0059】
具体的には、ある結合パラメーターc'及び姿勢パラメーターq'に対して、結合パラメーターc'から得られる形状パラメーターb'と姿勢パラメーターq'とによって形状Xを変形する関数をW(X;q',b')とする。また、入力画像Imgと形状Xとが与えられたときに形状X内の輝度値を求める関数をI(Img,X)とすると、モデルの探索における誤差値Erは、次式(8)によって表される。
Er=[(v+Pc')−I(Img,W(X;q',b'))]
・・・(8)
【0060】
例えば、被検者の顔を構成するK個の形状X(1)、X(2)、・・・、X(K)についてそれぞれの誤差値が求められる場合に(Kは自然数)、それぞれの誤差値をEr(1)、Er(2)、・・・、Er(K)とすると、顔認識処理における認識誤差を表す指標であるフィット率Frは、次式(9)によって表される。
Fr=(Er(1)+Er(2)+・・・+Er(K))/K ・・・(9)
従って、誤差値Er又はフィット率Frが小さくなるような結合パラメーターc及び姿勢パラメーターqを決定することにより、高精度な顔認識処理を行うことができる。
【0061】
次に、画像処理部53は、入力画像における顔認識の結果として求められた被検者の顔のフィット率が予め設定された閾値以下であるか否かを判定する。画像処理部53は、フィット率が閾値以下である場合に、被検者の顔を認識できたと判定し、フィット率が閾値を超えた場合に、被検者の顔を認識できなかったと判定する。
【0062】
<画像解析>
画像解析部54は、座標データ格納部75から所定数のフレームにおける複数の特徴点の座標を読み出して、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行う。動画像データが1秒間に24フレームの画像を表す場合に、所定数のフレームは、1秒間に相当する24フレームでも良い。
【0063】
例えば、画像解析部54は、動画像データによって表される被検者の画像における特定の部位の位置に基づいて定められる第1の軸、第1の軸に略直交する第2の軸、又は、第1及び第2の軸に略直交する第3の軸を回転中心とする被検者の顔の動き量を算出しても良い。その場合に、被検者の顔の動き量は、所定数のフレームにおける被検者の顔の向きの変化に基づいて算出される。
【0064】
図5は、第1の軸を回転中心とする被検者の顔の動き量を算出するために用いられる画像の例を示す図である。この例において、第1の軸は、被検者の右目頭と左目頭とを結ぶ線(図中のX軸)に平行な軸である。例えば、第1の軸を回転中心とする被検者の顔の動き量を算出するために、被検者の右目頭と左目頭との中点に位置する特徴点P0と、被検者の鼻の右端に位置する特徴点P1と、被検者の鼻の左端に位置する特徴点P2と、被検者の右口角と左口角との中点に位置する特徴点P3とが用いられる。
【0065】
図5に示すように、特徴点P0〜P2によって図中上側の第1の三角形が形成され、特徴点P1〜P3によって図中下側の第2の三角形が形成される。ビデオカメラ等の撮像素子から見た第1の三角形と第2の三角形との面積又は高さの比の値が、第1の軸を回転中心とする動きにおける被検者の顔の向きを表す量として用いられる。
【0066】
図6は、第1の軸を回転中心とする被検者の顔の動きによる第1の三角形と第2の三角形との高さの比の変化を説明するための図である。図6の左側に示すように、被検者がビデオカメラ等の撮像素子の前面に顔を向けている場合に、撮像素子から見た第1の三角形の高さH1と第2の三角形の高さH2との比の値H1/H2がAであるものとする。
【0067】
一方、図6の右側に示すように、被検者がうなずく等してビデオカメラ等の撮像素子の前面よりも下側に顔を向けている場合には、第2の三角形が第1の三角形よりも撮像素子の前面から遠くなると共に角度が変化するので、撮像素子から見た第1の三角形の高さH1'と第2の三角形の高さH2'との比の値H1'/H2'がA'(A'>A)になる。なお、画像解析部54は、第1の三角形及び第2の三角形の高さ等をピクセル数として求めても良い。それにより、距離の算出が簡単になる。
【0068】
図7は、第2の軸を回転中心とする被検者の顔の動き量を算出するために用いられる画像の例を示す図である。この例において、第2の軸は、被検者の右目頭と左目頭との中点と右口角と左口角との中点とを結ぶ線(図中のY軸)に平行な軸である。例えば、第2の軸を回転中心とする被検者の顔の動き量を算出するために、被検者の鼻の右端に位置する特徴点P1と、被検者の鼻の左端に位置する特徴点P2と、被検者の右口角に位置する特徴点P4と、被検者の左口角に位置する特徴点P5と、被検者の右目頭に位置する特徴点P6と、被検者の左目頭に位置する特徴点P7とが用いられる。
【0069】
図7に示すように、特徴点P1、P4、P6によって図中左側の第1の三角形が形成され、特徴点P2、P5、P7によって図中右側の第2の三角形が形成される。ビデオカメラ等の撮像素子から見た第1の三角形と第2の三角形との面積の比の値が、第2の軸を回転中心とする動きにおける被検者の顔の向きを表す量として用いられる。
【0070】
図8は、第2の軸を回転中心とする被検者の顔の動きによる第1の三角形と第2の三角形との面積比の変化を説明するための図である。図8の左側に示すように、被検者がビデオカメラ等の撮像素子の前面に顔を向けている場合に、撮像素子から見た第1の三角形の面積S1と第2の三角形の面積S2との比の値S1/S2がBであるものとする。
【0071】
一方、図8の右側に示すように、被検者がビデオカメラ等の撮像素子の前面よりも右側に顔を向けている場合には、第1の三角形が第2の三角形よりも撮像素子の前面から遠くなると共に角度が変化するので、撮像素子から見た第1の三角形の面積S1'と第2の三角形の面積S2'との比の値S1'/S2'がB'(B'<B)になる。
【0072】
図9は、第3の軸を回転中心とする被検者の顔の動き量を算出するために用いられる画像の例を示す図である。この例において、第3の軸は、図中のX軸及びY軸に直交するZ軸に平行な軸である。例えば、第3の軸を回転中心とする被検者の顔の動き量を算出するために、被検者の右目頭に位置する特徴点P6と、被検者の左目頭に位置する特徴点P7とが用いられる。
【0073】
図9に示すように、被検者の右目頭に位置する特徴点P6と左目頭に位置する特徴点P7とを結ぶ線(図中の実線)と、X軸に平行な線(図中の破線)とがなす角度θ、又は、角度θの三角関数値(sinθ、cosθ、tanθ等)が、第3の軸を回転中心とする動きにおける被検者の顔の向きを表す量として用いられる。
【0074】
再び図1を参照すると、画像解析部54は、所定数のフレームにおける被検者の顔の向きを表す量の分散値を被検者の顔の動き量として算出し、評価期間における分散値の確率分布に基づいて被検者の視覚的評価に関するランクを判定する。例えば、1つの分散値を算出するために24フレームを1ブロックとして扱う場合に、連続する2つのブロックの各々が、オーバーラップする12フレームを含んでも良い。
【0075】
所定数(L個)のフレームについて、X軸に平行な第1の軸を回転中心とする動きにおける被検者の顔の向きを表す量X(i)の分散値Vは、次式(10)で定義される(Lは2以上の整数)。
=(1/L)Σ(X(i)−E ・・・(10)
ここで、i=1〜Lであり、Eは、L個のフレームにおけるX(i)の平均値である。
【0076】
例えば、評価期間における24×55フレームの動画像データに基づいて、複数の分散値Vが得られる。画像解析部54は、評価期間における複数の分散値Vを、その大きさに応じてM個の階級に分類することにより(Mは2以上の整数)、第j番目の階級に属する分散値V(j)の存在確率P(j)を求める(j=1〜M)。
【0077】
同様に、L個のフレームについて、Y軸に平行な第2の軸を回転中心とする動きにおける被検者の顔の向きを表す量Y(i)の分散値Vは、次式(11)で定義される。
=(1/L)Σ(Y(i)−E ・・・(11)
ここで、i=1〜Lであり、Eは、L個のフレームにおけるY(i)の平均値である。画像解析部54は、評価期間における複数の分散値Vを、その大きさに応じてM個の階級に分類することにより、第j番目の階級に属する分散値V(j)の存在確率P(j)を求める(j=1〜M)。
【0078】
また、L個のフレームについて、Z軸に平行な第3の軸を回転中心とする動きにおける被検者の顔の向きを表す量Z(i)の分散値Vは、次式(12)で定義される。
=(1/L)Σ(Z(i)−E ・・・(12)
ここで、i=1〜Lであり、Eは、L個のフレームにおけるZ(i)の平均値である。画像解析部54は、評価期間における複数の分散値Vを、その大きさに応じてM個の階級に分類することにより、第j番目の階級に属する分散値V(j)の存在確率P(j)を求める(j=1〜M)。
【0079】
図10は、評価期間における被検者の顔の向きを表す量の分散値の確率分布の例を示す図である。図10において、横軸は、3種類の分散値V(j)、V(j)、V(j)を階級値50刻みで表しており、縦軸は、その存在確率P(j)、P(j)、P(j)を表している。なお、3種類の分散値を1つの図に表示するために、3種類の分散値は位置をずらして表示されている。それらの内の少なくとも1種類の分散値が、被検者の顔の動き量として用いられる。
【0080】
図1に示す画像解析部54は、例えば、評価期間に相当する動画像データにおいて被検者の顔の特徴点の座標を求めることができた割合が一定の割合(例えば60%)に達しない場合に、その被検者の画像をランクRV0(未評価)と判定する。一方、画像解析部54は、被検者の顔の特徴点の座標を求めることができた割合が一定の割合以上である場合に、被検者の顔の動き量に応じて、その被検者の画像をランクRV1以上の複数のランクのいずれかに分類する。
【0081】
一般に、被検者が言葉に詰まって考えながら話す場合には、顔の動きが止まりがちになり、被検者が説得力を持って流暢に話す場合には、顔の動きが活発になる。そこで、画像解析部54は、被検者の顔の動き量が所定の基準量よりも総体的に小さければ、その被検者の画像をランクRV1(小さい動き)と判定し、被検者の顔の動き量が基準量よりも総体的に大きければ、その被検者の画像をランクRV2(大きい動き)と判定しても良い。
【0082】
例えば、画像解析部54は、少なくとも1種類の分散値の確率分布を、予め設定された基準量の確率分布と比較して、被検者の視覚的評価に関するランクを判定しても良い。そのために、学習データ格納部73には、例えば、インターシップ応募者等の疑似被検者の顔を撮像して得られた動画像データと、実際に評価者がその画像を評価して判定したランク等を表す評価データとが、判定学習データとして予め格納されている。画像解析部54は、判定学習データを用いて機械学習を行うAI(人工知能)として機能することにより、判定学習データに近い判定結果が得られるように基準量の確率分布や比較方法を設定して、被検者の視覚的評価に関するランクを判定しても良い。
【0083】
あるいは、画像解析部54は、少なくとも1つの階級に属する分散値V(j)、V(j)、V(j)の合計値又は平均値を被検者の顔の動き量として求め、被検者の顔の動き量が所定の基準量よりも小さければ、その被検者の画像をランクRV1(小さい動き)と判定し、被検者の顔の動き量が基準量よりも大きければ、その被検者の画像をランクRV2(大きい動き)と判定しても良い。
【0084】
なお、評価期間に相当する動画像データにおいて被検者の顔が録画されている期間が一定の期間(例えば15秒)に達しないような場合には、画像解析部54は、その被検者の画像をランクRV0と判定しても良い。画像解析部54は、このようにして得られた視覚的評価結果を表す視覚的評価データを評価データ格納部74に格納する。
【0085】
<総合評価>
同一被検者の音声評価データ及び視覚的評価データが評価データ格納部74に格納された場合に、総合評価部55は、評価データ格納部74から音声評価データ及び視覚的評価データを読み出して、音声解析部52による評価結果と画像解析部54による評価結果とに基づいて被検者の人物評価を行う。例えば、総合評価部55は、音声評価における複数のランクと視覚的評価における複数のランクとに基づいて2次元状に配列された複数のマッピングエリアを用いて被検者の人物評価を行う。
【0086】
図11は、被検者の人物評価を行うために用いられるマッピングエリアの例を示す図である。図11に示すように、音声評価は、ランクRA0(極めて悪い音声)と、ランクRA1(悪い音声)と、ランクRA2(普通の音声)と、ランクRA3(良い音声)とに分かれている。一方、視覚的評価は、ランクRV0(未評価)と、ランクRV1(小さい動き)と、ランクRV2(大きい動き)とに分かれている。
【0087】
例えば、音声評価がランクRA0又はRA1であるエリア0〜5と、音声評価がランクRA2であって視覚的評価がランクRV1であるエリア7とが、不合格エリアに設定される。なお、音声評価がランクRA2であっても視覚的評価がランクRV0であるエリア6は、さらなる人間チェックが必要とされる人間チェックエリアに設定される。一方、音声評価がランクRA2であって視覚的評価がランクRV2であるエリア8と、音声評価がランクRA3であるエリア9〜11とは、合格エリアに設定される。
【0088】
図1に示す総合評価部55は、音声評価データによって表される被検者の音声に関するランクと、視覚的評価データによって表される被検者の視覚的評価に関するランクとに基づいて、図11に示すエリア0〜11の内の1つを選択することにより、被検者の人物評価を行う。総合評価部55は、このようにして得られた人物評価結果を表す人物評価データを評価データ格納部74に格納する。
【0089】
<人物評価方法>
次に、本発明の一実施形態に係る人物評価装置において用いられる人物評価方法について、図1図12を参照しながら説明する。図12は、本発明の一実施形態に係る人物評価方法を示すフローチャートである。なお、互いに独立な処理については、それらを並列に行っても良い。
【0090】
図12に示すステップS11において、音声処理部51が、被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する。
【0091】
ステップS12において、音声解析部52が、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行う。それにより、被検者の音声に関するランクが判定される。
【0092】
ステップS13において、画像処理部53が、被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、被検者の顔において認識される複数の特徴点を抽出し、複数の特徴点の座標を求める。
【0093】
ステップS14において、画像解析部54が、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行う。それにより、被検者の視覚的評価に関するランクが判定される。
【0094】
ステップS15において、総合評価部55が、ステップS12における評価結果とステップS14における評価結果とに基づいて被検者の人物評価を行う。その際に、総合評価部55は、例えば、図11に示すようなマッピングエリアを用いて、被検者の音声に関するランクと被検者の視覚的評価に関するランクとに基づいて被検者の人物評価を行う。
【0095】
<動画像データの処理フロー>
図13及び図14は、動画像データの処理フローの例を示すフローチャートである。この例において、動画像データは、1秒間に24フレームの画像を表している。
図13に示すステップS21において、画像処理部53が、被検者の視覚的評価のために人物評価装置に供給される動画像データを格納する生データ格納部71から、撮像開始後5秒〜60秒の55秒間の評価期間における画像を表す動画像データを取得して、フレーム番号nを1に設定する。
【0096】
ステップS22において、画像処理部53が、第nフレームの動画像データに対して顔認識処理を施すことにより、被検者の顔において認識される複数の特徴点を抽出し、それらの特徴点の座標を求める。さらに、ステップS23において、画像処理部53が、複数の特徴点の座標を、フレーム番号と共に座標データ格納部75に格納する。
【0097】
ステップS24において、画像処理部53が、フレーム番号nが1320(=24×55)であるか、又は、第nフレームが動画像データの最終フレームであるか否かを判定する。フレーム番号nが1320よりも小さく、第nフレームが動画像データの最終フレームでない場合には、画像処理部53が、フレーム番号nをインクリメントして(n+1)とし、処理がステップS22に戻る。一方、フレーム番号nが1320であるか、又は、第nフレームが動画像データの最終フレームである場合には、処理がステップS25〜S27のいずれかに移行する。あるいは、ステップS25〜S27が順次処理されても良いし、並列処理されても良い。
【0098】
ステップS25において、画像解析部54が、座標データ格納部75から各フレームにおける複数の特徴点の座標を読み出して、第1の軸を回転中心とする被検者の顔の動き量を算出するために必要な第1の三角形及び第2の三角形の面積又は高さをフレーム毎に求める。その後、処理がステップS28(図14)に移行する。
【0099】
ステップS26において、画像解析部54が、座標データ格納部75から各フレームにおける複数の特徴点の座標を読み出して、第2の軸を回転中心とする被検者の顔の動き量を算出するために必要な第1の三角形及び第2の三角形の面積をフレーム毎に求める。その後、処理がステップS28(図14)に移行する。
【0100】
ステップS27において、画像解析部54が、座標データ格納部75から各フレームにおける複数の特徴点の座標を読み出して、第3の軸を回転中心とする被検者の顔の動き量を算出するために、被検者の顔の向きを表す量として、左右の目頭を結ぶ線の角度等をフレーム毎に求める。その後、処理がステップS29(図14)に移行する。
【0101】
図14に示すステップS28において、画像解析部54が、被検者の顔の向きを表す量として、第1の三角形と第2の三角形との面積又は高さの比の値をフレーム毎に求める。その後、処理がステップS29に移行する。
【0102】
ステップS29において、画像解析部54が、24フレーム(1秒間)における被検者の顔の向きを表す量の分散値を被検者の顔の動き量として算出する。さらに、ステップS30において、画像解析部54が、評価期間(55秒間)において得られる複数の分散値を、その大きさに応じて複数の階級に分類することにより、各々の分散値の存在確率を求める。
【0103】
ステップS31において、画像解析部54が、評価期間における分散値の確率分布に基づいて被検者の視覚的評価に関するランクを判定する。それにより、評価期間に相当する動画像データにおいて被検者の顔の特徴点の座標を求めることができた割合が一定の割合以上である場合に、被検者の顔の動き量に応じて、その被検者の画像が複数のランクのいずれかに分類される。
【0104】
以上説明したように、本発明の一実施形態によれば、被検者の音声を収録して得られる音声データからデータブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成して、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行うことにより、人物評価の対象となる被検者の音声に基づいて、被検者の人物評価を行う際に参考となる情報を提供することができる。
【0105】
さらに、被検者の顔を撮像して得られる動画像データから被検者の顔において認識される複数の特徴点の座標を求めて、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行うことにより、人物評価の対象となる被検者の動画像及び音声に基づいて、被検者の人物評価を行う際に参考となる情報を提供することができる。
【0106】
以上説明した実施形態における判定方法は一例である。本発明は、それらの実施形態に限定されるものではなく、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。
【産業上の利用可能性】
【0107】
本発明は、人物を評価するために用いられる人物評価装置等において利用することが可能である。
【符号の説明】
【0108】
10…操作部、20…表示部、30…入出力インターフェース、40…ネットワークインターフェース、50…CPU、51…音声処理部、52…音声解析部、53…画像処理部、54…画像解析部、55…総合評価部、60…メモリー、70…格納部、71…生データ格納部、72…声紋データ格納部、73…学習データ格納部、74…評価データ格納部、75…座標データ格納部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14