IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ レノボ・シンガポール・プライベート・リミテッドの特許一覧

特許7250101画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム
<>
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図1
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図2
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図3
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図4
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図5
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図6
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図7
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図8
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図9
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図10
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図11
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図12
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図13
  • 特許-画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-03-23
(45)【発行日】2023-03-31
(54)【発明の名称】画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システム
(51)【国際特許分類】
   H04N 7/15 20060101AFI20230324BHJP
   G06T 7/00 20170101ALI20230324BHJP
   G06T 7/62 20170101ALI20230324BHJP
   G06T 3/40 20060101ALI20230324BHJP
【FI】
H04N7/15
G06T7/00 660A
G06T7/62
G06T3/40 700
【請求項の数】 15
(21)【出願番号】P 2021196770
(22)【出願日】2021-12-03
【審査請求日】2021-12-03
(73)【特許権者】
【識別番号】505205731
【氏名又は名称】レノボ・シンガポール・プライベート・リミテッド
(74)【代理人】
【識別番号】100112737
【弁理士】
【氏名又は名称】藤田 考晴
(74)【代理人】
【識別番号】100136168
【弁理士】
【氏名又は名称】川上 美紀
(74)【代理人】
【識別番号】100140914
【弁理士】
【氏名又は名称】三苫 貴織
(74)【代理人】
【識別番号】100172524
【弁理士】
【氏名又は名称】長田 大輔
(72)【発明者】
【氏名】塚本 泰史
(72)【発明者】
【氏名】王 梓
【審査官】川中 龍太
(56)【参考文献】
【文献】国際公開第2010/070820(WO,A1)
【文献】特開2008-005122(JP,A)
【文献】特開2005-094696(JP,A)
【文献】米国特許出願公開第2018/0289334(US,A1)
【文献】特開2002-277933(JP,A)
【文献】特開2015-046090(JP,A)
【文献】米国特許第11165992(US,B1)
【文献】中国特許出願公開第113206971(CN,A)
【文献】米国特許出願公開第2015/0042748(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/14 - 7/15
H04N 5/91
G06T 7/00
G06T 7/62
G06T 3/40
(57)【特許請求の範囲】
【請求項1】
プロセッサと、
前記プロセッサによって実行されるように構成されたプログラムを記憶するメモリと、
を備え、
前記プログラムは、
画像データを取得し、
前記画像データに含まれる人物の顔領域を特定し、
特定した顔領域の所定高さ位置における横幅の寸法を横幅寸法として検出し、
年齢と顔領域の横幅基準値とが関連付けられた基準情報から前記人物の年齢に対応する横幅基準値を特定し、
特定された前記横幅基準値に前記横幅寸法を近づけるように前記画像データを調整し、
調整後の前記画像データを出力するための命令を含む画像処理装置。
【請求項2】
画像データを取得する画像取得部と、
前記画像データに含まれる人物の顔領域を特定する顔領域特定部と、
特定された顔領域の所定高さ位置における横幅の寸法を横幅寸法として検出する寸法検出部と、
年齢と顔領域の横幅基準値とが関連付けられた基準情報から前記人物の年齢に対応する横幅基準値を特定する基準値特定部と、
特定された横幅基準値に前記横幅寸法を近づけるように前記画像データを調整する画像調整部と、
調整後の前記画像データを出力する出力部と
を具備する画像処理装置。
【請求項3】
前記画像調整部は、今回検出された前記横幅寸法及び直近に検出された所定数の前記横幅寸法を統計的に処理することにより代表的な横幅寸法を演算し、前記代表的な横幅寸法が前記横幅基準値となるような調整比率を演算し、演算した調整比率を用いて前記画像データを拡大又は縮小させる請求項2に記載の画像処理装置。
【請求項4】
前記画像データから前記人物の年齢を推定する属性推定部を備え、
前記基準値特定部は、推定された前記年齢に対応する前記横幅基準値を前記基準情報から特定する請求項2又は3に記載の画像処理装置。
【請求項5】
前記基準値特定部は、今回推定された年齢と直近に推定された所定数の年齢を統計的に処理することにより代表的な年齢を演算し、前記代表的な年齢に対応する前記横幅基準値を前記基準情報から特定する請求項4に記載の画像処理装置。
【請求項6】
前記基準情報は、性別に応じてそれぞれ設けられている請求項2又は3に記載の画像処理装置。
【請求項7】
前記画像データから前記人物の年齢及び性別を推定する属性推定部を備え、
前記基準値特定部は、推定された年齢及び性別に対応する前記横幅基準値を前記基準情報から特定する請求項6に記載の画像処理装置。
【請求項8】
前記寸法検出部は、前記画像データにおける人物の高さの寸法を高さ寸法として検出し、
前記基準情報は、年齢と横幅基準値と人物の高さ基準値とが関連付けられており、
前記基準値特定部は、前記基準情報から前記人物の年齢に対応する横幅基準値と高さ基準値とを特定し、
前記画像調整部は、前記高さ寸法が特定された前記高さ基準値に近づくように前記画像データを調整する請求項2から7のいずれかに記載の画像処理装置。
【請求項9】
前記画像調整部は、調整後の前記画像データにおいて、高さ方向に不足する画素が生じた場合には、不足した画素を周囲の画素情報から推測して補充する請求項8に記載の画像処理装置。
【請求項10】
コンピュータを請求項1から9のいずれかに記載の画像処理装置として機能させるためのプログラム。
【請求項11】
請求項1から9のいずれかに記載の画像処理装置を備える情報処理装置。
【請求項12】
画像データを取得する工程と、
前記画像データに含まれる人物の顔領域を特定する工程と、
特定された顔領域の所定高さ位置における横幅の寸法を横幅寸法として検出する工程と、
年齢と顔領域の横幅基準値とが関連付けられた基準情報から前記人物の年齢に対応する横幅基準値を特定する工程と、
特定された横幅基準値に前記横幅寸法を近づけるように前記画像データを調整する工程と、
調整後の前記画像データを出力する工程と
をコンピュータが実行する画像処理方法。
【請求項13】
複数の情報処理装置と、
複数の前記情報処理装置から調整後の前記画像データを受信するビデオ会議サーバと
を備え、
各前記情報処理装置は、請求項1から9のいずれかに記載の画像処理装置を備え、
前記ビデオ会議サーバは、各前記情報処理装置から受信した前記画像データを共通の背景下に配置する画像合成部を備えるビデオ会議システム。
【請求項14】
ビデオ会議の複数の参加者の画像データを受信する受信部と、
各前記画像データに含まれる参加者の顔領域を特定する顔領域特定部と、
特定された顔領域の所定高さ位置における横幅の寸法を横幅寸法として検出する寸法検出部と、
各前記画像データにおいて検出された複数の横幅寸法を統計的に処理することにより、基準となる横幅基準値を演算し、各前記画像データにおける各前記横幅寸法を前記横幅基準値に近づけるように、各前記画像データを調整する画像調整部と、
各前記画像データを共通のバーチャル背景に配置する画像合成部と
を備えるビデオ会議サーバ。
【請求項15】
各前記画像データの輝度ヒストグラムを演算する輝度演算部と、
複数の前記画像データ間の輝度ヒストグラムのばらつきが小さくなるように、各前記画像データの輝度を調整する輝度調整部と
を備え、
前記画像合成部は、輝度調整後の各前記画像データを前記共通の背景下に配置する請求項14に記載のビデオ会議サーバ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システムに関するものである。
【背景技術】
【0002】
近年、ビデオ会議が頻繁に行われるようになり、これに伴いビデオ会議に関する様々なアプリケーションツールが提案されている。その中の一つに、ビデオ会議に参加している参加者を共通の背景下に配置することにより、参加者があたかも共通の空間に集まってミーティングやセミナーの傍聴を行っているような感覚を参加者に与えることのできる技術が提案されている。例えば、ズーム ビデオ コミュニケーションズ インコーポレイテッド社が提供する「イマーシブビュー(immersive view)」では、ホストが予め準備された複数の背景の中から好みの背景を選択でき、選択した背景の中に参加者の画像を手動で配置することができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、ビデオ会議の各参加者から送信される画像内における各参加者の顔を含む体の大きさ、顔の大きさ、顔の高さ位置は、さまざまである。このため、各参加者から受信した画像データをそのまま配置しようとすると、図14に例示するように、参加者間で顔の位置や高さが不揃いとなり、全体として違和感のある画像となる可能性があった。
【0004】
本発明は、このような事情に鑑みてなされたものであって、共通の背景に配置される参加者の顔の大きさのばらつきを低減することのできる画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システムを提供することを目的とする。
【課題を解決するための手段】
【0005】
本発明の第一態様は、プロセッサと、前記プロセッサによって実行されるように構成されたプログラムを記憶するメモリと、を備え、前記プログラムは、画像データを取得し、前記画像データに含まれる人物の顔領域を特定し、特定した顔領域の所定高さ位置における横幅の寸法を横幅寸法として検出し、年齢と顔領域の横幅基準値とが関連付けられた基準情報から前記人物の年齢に対応する横幅基準値を特定し、特定された前記横幅基準値に前記横幅寸法を近づけるように前記画像データを調整し、調整後の前記画像を出力するための命令を含む画像処理装置である。
【0006】
本発明の第二態様は、画像データを取得する画像取得部と、前記画像データに含まれる人物の顔領域を特定する顔領域特定部と、特定された顔領域の所定高さ位置における横幅の寸法を横幅寸法として検出する寸法検出部と、年齢と顔領域の横幅基準値とが関連付けられた基準情報から前記人物の年齢に対応する横幅基準値を特定する基準値特定部と、特定された横幅基準値に前記横幅寸法を近づけるように前記画像データを調整する画像調整部と、調整後の前記画像データを出力する出力部とを具備する画像処理装置である。
【0007】
本発明の第三態様は、コンピュータを上記画像処理装置として機能させるためのプログラムである。
【0008】
本発明の第四態様は、上記画像処理装置を備える情報処理装置である。
【0009】
本発明の第五態様は、画像データを取得する工程と、前記画像データに含まれる人物の顔領域を特定する工程と、特定された顔領域の所定高さ位置における横幅の寸法を横幅寸法として検出する工程と、年齢と顔領域の横幅基準値とが関連付けられた基準情報から前記人物の年齢に対応する横幅基準値を特定する工程と、特定された横幅基準値に前記横幅寸法を近づけるように前記画像データを調整する工程と、調整後の前記画像データを出力する工程とをコンピュータが実行する画像処理方法である。
【0010】
本発明の第六態様は、複数の情報処理装置と、複数の前記情報処理装置から調整後の前記画像データを受信するビデオ会議サーバとを備え、各前記情報処理装置は、上記記載の画像処理装置を備え、前記ビデオ会議サーバは、各前記情報処理装置から受信した前記画像データを共通の背景下に配置する画像合成部を備えるビデオ会議システムである。
【0011】
本発明の第七態様は、ビデオ会議の複数の参加者の画像データを受信する受信部と、各前記画像データに含まれる参加者の顔領域を特定する顔領域特定部と、特定された顔領域の所定高さ位置における横幅の寸法を横幅寸法として検出する寸法検出部と、各前記画像データにおいて検出された複数の横幅寸法を統計的に処理することにより、基準となる横幅基準値を演算し、各前記画像データにおける各前記横幅寸法を前記横幅基準値に近づけるように、各前記画像データを調整する画像調整部と、各前記画像データを共通のバーチャル背景に配置する画像合成部とを備えるビデオ会議サーバである。
【発明の効果】
【0012】
本発明によれば、共通の背景に配置される参加者の顔の大きさのばらつきを低減することができるという効果を奏する。
【図面の簡単な説明】
【0013】
図1】本発明の第1実施形態に係るビデオ会議システムのシステム構成を概略的に示したシステム構成図である。
図2】本発明の第1実施形態に係る情報処理装置の一例としての概略外観図である。
図3】本発明の第1実施形態に係る情報処理装置のハードウェア構成の一例を示した概略構成図である。
図4】本発明の第1実施形態に係る情報処理装置が備える画像処理機能の一例を示した機能ブロック図である。
図5】本発明の第1実施形態に係る寸法検出部によって検出される横幅寸法と高さ寸法について説明するための図である。
図6】身長、腸骨棘高、右足長、頭囲のそれぞれについての1歳から20歳までの成長曲線を示した図である。
図7】本発明の第1実施形態に係る画像調整部による調整処理について説明するための図である。
図8】本発明の第1実施形態に係る画像処理方法の処理手順の一例を示したフローチャートである。
図9】本発明の第1実施形態に係るビデオ会議サーバのハードウェア構成の一例を示した概略構成図である。
図10】本発明の第1実施形態に係るビデオ会議サーバが備える機能の一例を示した機能ブロック図である。
図11】本発明の第1実施形態に係るビデオ会議システムにおいて、各情報処理装置のディスプレイに表示される画像の一例を示した図である。
図12】本発明の第2実施形態に係るビデオ会議サーバが備える機能の一例を示した機能ブロック図である。
図13】本発明の第3実施形態に係るビデオ会議サーバが備える機能の一例を示した機能ブロック図である。
図14】本発明の課題を説明するための図である。
【発明を実施するための形態】
【0014】
〔第1実施形態〕
以下に、本発明に係る画像処理装置、情報処理装置、ビデオ会議サーバ、及びビデオ会議システムの第1実施形態について、図面を参照して説明する。
【0015】
図1は、本発明の第1実施形態に係るビデオ会議システム1のシステム構成を概略的に示したシステム構成図である。図1に示すように、ネットワーク8には、複数の情報処理装置10及びビデオ会議サーバ50が接続されている。情報処理装置10の一例として、ノートPC、タブレット端末、スマートフォンなどが挙げられる。以下説明の便宜上、情報処理装置10としてノートPCを例示して説明する。
なお、図1に示した例では、3台の情報処理装置10が図示されているが、情報処理装置の接続台数はこれに限られない。
【0016】
図2は、本発明の第1実施形態に係る情報処理装置10の一例としての概略外観図である。図2に示すように、情報処理装置10は、いずれも略直方体である本体側筐体2及びディスプレイ側筐体3を備える。本体側筐体2は、入力デバイス4を備える。入力デバイス4は、使用者が入力操作を行うための使用者インターフェースであり、文字、コマンド等を入力する各種キーより構成されるキーボードや、画面上のカーソルを移動させたり、各種メニューを選択するタッチパッド等を備えている。
【0017】
ディスプレイ側筐体3は、画像を表示するディスプレイ5を備える。本実施形態において、ディスプレイ5は、LCD(Liquid Crystal Display)を例示するが、LCDに限らず有機EL(Electroluminescence)ディスプレイ等の他の表示機器、又はタッチパネルとされてもよい。LCDは、入力される表示データをビデオ信号に変換し、変換したビデオ信号に応じた各種情報を表示画面に表示する。
【0018】
本体側筐体2及びディスプレイ側筐体3は、それぞれの端部で一対の連結部6によって連結されている。連結部6は、ヒンジであり、本体側筐体2及びディスプレイ側筐体3を開閉可能に支持している。
【0019】
また、ディスプレイ側筐体3は、画像を取得するためのカメラ7を備える。カメラ7は、例えば、ディスプレイ側筐体3に設けられた表示画面の上方(連結部6で連結された側部と反対側の側部)の中央部に配置され、前方の人物(例えば、利用者の顔)を撮像可能とされている。
【0020】
図3は、本実施形態に係る情報処理装置10のハードウェア構成の一例を示した概略構成図である。図3に示すように、情報処理装置10は、上述した入力デバイス4、ディスプレイ5、カメラ7に加えて、CPU(プロセッサ)11、メインメモリ12、記憶部13、外部インターフェース14、通信インターフェース15、スピーカ16、及びマイク17などを備えている。これら各部は直接的にまたはバスを介して間接的に相互に接続されており互いに連携して各種処理を実行する。
【0021】
CPU11は、例えば、バスを介して接続された記憶部13に格納されたOS(Operating System)により情報処理装置10全体の制御を行うとともに、記憶部13に格納された各種プログラムを実行することにより各種処理を実行する。CPU11は、複数設けられており、互いに協働して処理を実現させてもよい。
【0022】
メインメモリ12は、キャッシュメモリ、RAM(Random Access Memory)等の書き込み可能なメモリで構成され、CPU11の実行プログラムの読み出し、実行プログラムによる処理データの書き込み等を行う作業領域として利用される。
【0023】
記憶部13は、非一時的な記録媒体(non-transitory computer readable storage medium)である。記憶部13の一例として、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリなどが挙げられる。記憶部13は、例えば、Windows(登録商標)、iOS(登録商標)、Android(登録商標)等の情報処理装置10全体の制御を行うためのOS、BIOS(Basic Input/Output System)、周辺機器類をハードウェア操作するための各種デバイスドライバ、各種アプリケーションソフトウェア、及び各種データやファイル等を格納する。また、記憶部13には、各種処理を実現するためのプログラムや、各種処理を実現するために必要とされる各種データが格納されている。記憶部13は、複数設けられていてもよく、各記憶部13に上述したようなデータが分割されて格納されていてもよい。
【0024】
外部インターフェース14は、外部機器と接続するためのインターフェースである。外部機器の一例として、外部モニタ、USBメモリ、外付けHDD、外付けカメラ等が挙げられる。なお、図1に示した例では、外部インターフェースは、1つしか図示されていないが、複数の外部インターフェースを備えていてもよい。
【0025】
通信インターフェース15は、ネットワークに接続して他の装置と通信を行い、情報の送受信を行うためのインターフェースとして機能する。例えば、通信インターフェース15は、有線又は無線により他の装置と通信を行う。無線通信として、Bluetooth(登録商標)、Wi-Fi、3G、4G、5G、LTE、無線LANなどの回線を通じた通信が挙げられる。有線通信の一例として、有線LAN(Local Area Network)などの回線を通じた通信が挙げられる。
【0026】
スピーカ16及びマイク17については周知の構成であるため、ここでの詳細な説明は省略する。
【0027】
ビデオ会議サーバ50は、いわゆるコンピュータであり、上述した情報処理装置10と同様に、CPU、メインメモリ、記憶部、通信インターフェースなどを備えている。なお、ビデオ会議サーバ50についての詳細は後述する。
【0028】
次に、本実施形態に係る情報処理装置10が有する機能の一例について図を参照して説明する。図4は、本実施形態に係る情報処理装置10が備える画像処理機能の一例を示した機能ブロック図である。
【0029】
後述する各種機能を実現するための一連の処理は、一例として、プログラムの形式で各情報処理装置10が備える記憶部13などに記憶されており、このプログラムをCPU(プロセッサ)11がメインメモリ12に読み出して、情報の加工・演算処理を実行することにより、各種機能が実現される。なお、プログラムは、記憶部13に予めインストールされている形態や、他のコンピュータ読み取り可能な記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等が適用されてもよい。コンピュータ読み取り可能な記憶媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等である。
【0030】
図4に示すように、情報処理装置10の画像処理部(画像処理装置)20は、画像取得部21、顔領域特定部22、寸法検出部23、属性推定部24、パラメータ記憶部25、基準情報記憶部26、基準値特定部27、画像調整部28、及び出力部29を備えている。
【0031】
画像取得部21は、例えば、カメラ7によって撮像された画像データを取得する。具体的には、画像取得部21は、カメラ7によって所定のフレームレートで撮像された画像データを次々と取得する。
【0032】
顔領域特定部22は、入力された画像データに含まれる人物(例えば、ビデオ会議の参加者)の顔領域を特定する。人物の顔領域の特定は、公知の技術を適宜採用することにより実現可能である。例えば、画像内における顔の特徴量を抽出することで顔領域を特定する。また、この顔領域特定部22は、顔領域における眉毛、目、鼻、口などについても特定することができるように構成されていてもよい。
【0033】
寸法検出部23は、例えば、図5に示すように、顔領域特定部22によって特定された顔領域の所定高さ位置における横幅の寸法を横幅寸法L1として検出する。例えば、本実施形態では、図5に示すように、所定高さ位置として、耳の所定の部位(例えば、耳珠(trugs))の位置を採用するが、この例に限定されない。例えば、耳の位置、眉毛、瞳孔の位置などを高さ位置として採用してもよい。
【0034】
また、寸法検出部23は、図5に示すように、顔領域特定部22によって特定された顔領域の情報に基づいて、人物の高さの寸法を高さ寸法L2として検出する。例えば、本実施形態では、所定高さ位置として、耳の所定の部位(例えば、耳珠(trugs))の位置を採用するが、この例に限定されない。例えば、耳の位置、眉毛、瞳孔の位置などを高さ位置として採用してもよい。
【0035】
ここで、顔の横幅や頭囲は、体の他の部位に比べて年齢や性別によるばらつきが小さいことが学術論文などにおいて発表されている。例えば、”Static adult human physical characteristics of the adult head, from pages 72-75 of Poston, Alan. (April 2000) Department of Defense Human Factors Engineering Technical Advisory Group (DOD HFE TAG)” (https://de.wikipedia.org/wiki/Datei:HeadAnthropometry.JPG)には、ある統計の結果、男性の顔の横幅の平均値は14.5cm、女性の顔の横幅の平均値は13.3cmであり、男女比で0.8cm程度しか変わらないことが開示されている。また、実践女子大学 生活科学部 生活環境学科の「第20回 こどもの成長と衣服 高部恵子」「https://www.jissen.ac.jp/kankyo/lib-lec20.html」に開示されている工技院資料の百分率成長曲線(男、1978-81)には、身長、腸骨棘高、右足長、頭囲のそれぞれについての1歳から20歳までの成長曲線が開示されている(例えば、図6参照)。
【0036】
上述した統計結果から、顔の横幅や頭囲については年齢及び性別によるばらつきが他の部位に比べて極めて小さいことがわかる。すなわち、図6に示した成長曲線によれば、すでに1歳において成人の頭囲の約80%に相当する値を示しており、また、13歳以降は、年齢による値の違いがほとんどないことがわかる。発明者らは、このような新たな知見から、カメラ7から入力された画像データにおいて、顔の横幅を年齢に応じた値に調整すれば、ビデオ会議に参加している参加者間の顔の大きさを自然な大きさに調整できるとの着想を得た。
【0037】
属性推定部24は、顔領域特定部22によって特定された顔領域の画像に基づいて人物の年齢及び性別を推定する。人物の年齢及び性別を推定する手法については公知の手法を適宜採用することが可能である。例えば、顔画像の特徴量を抽出し、さらに、予め登録されている年齢(年代)および性別を識別するための特徴量とから類似度を計算し、類似度の値に基づいて、年齢及び性別を推定する。年齢及び性別を推定する手法の一例として、例えば、特許第5287333号公報に記載されている技術を採用することが可能である。
【0038】
パラメータ記憶部25は、同じ画像データにおいて検出された横幅寸法及び推定された年齢及び性別を1つのデータセットとして記憶する。例えば、パラメータ記憶部25は、新しい順に所定数(所定数≧2)のデータセットを格納するバッファメモリである。パラメータ記憶部25は、一例として、FIFO(First In First Out)メモリによって実現される。これにより、パラメータ記憶部25には、直近に検出された所定数のデータセットが格納されることとなる。
【0039】
基準情報記憶部26には、年齢と顔領域の横幅基準値L1_refと人物の高さ基準値L2_refとが関連付けられた基準情報が格納されている。この基準情報は、性別に応じてそれぞれ設けられている。年齢は、10代、20代、30代などのように年代別に区分されていてもよく、年代毎に横幅基準値及び高さ基準値が関連付けられていてもよい。
【0040】
基準値特定部27は、パラメータ記憶部25に格納されている所定数のデータセットから年齢の情報を取得し、これらを統計的に処理することにより、代表的な年齢を特定する。換言すると、基準値特定部27は、時系列の複数の画像データにおいて推定された複数の年齢を統計的に処理することにより代表的な年齢を演算する。代表的な年齢の一例として、平均年齢、年齢分布のパーセンタイル50%の年齢などが挙げられる。
【0041】
また、基準値特定部27は、パラメータ記憶部25に格納されている所定数のデータセットから性別の情報を取得し、これらを統計的に処理することにより、代表的な性別を特定する。例えば、基準値特定部27は、パラメータ記憶部25から読みだした所定数の性別のうち、数の多い性別を代表的な性別として特定する。
基準値特定部27は、特定した性別に対応する基準情報を用いて、代表的な年齢に対応する横幅基準値L1_ref及び高さ基準値L2_refを特定する。
【0042】
画像調整部28は、画像データの横幅寸法L1が基準値特定部27によって特定された横幅基準値L1_refに近づくように、画像データを調整する。
例えば、画像調整部28は、パラメータ記憶部25に格納されている所定数のデータセットから横幅寸法を取得する。換言すると、画像調整部28は、時系列の複数の画像データにおいて検出された複数の横幅寸法を統計的に処理することにより代表的な横幅寸法を演算する。代表的な横幅寸法の一例として、平均値、横幅寸法のパーセンタイル50%の値などが挙げられる。そして、画像調整部28は、代表的な横幅寸法が横幅基準値となるような調整比率(拡大縮小比率)を演算し、演算した調整比率を用いて画像データを縮小又は拡大する。このように、直近に検出された所定数の横幅寸法を用いて調整比率を演算することにより、調整比率の変化を滑らかにすることができる。
【0043】
更に、画像調整部28は、画像データにおける人物の高さ寸法L2が基準値特定部27によって特定された高さ基準値L2_refに近づくように、画像データにおける人物の高さ位置を調整する。例えば、画像調整部28は、画像データにおける人物の高さ寸法L2が高さ基準値L2_refと一致するようにクリッピングする。
これにより、例えば、図5に示した画像データは、図7に示すように、人物の横幅寸法が横幅基準値L1_refになるように調整されるとともに、人物の高さ寸法が高さ基準値L2_refになるように高さ位置が調整される。
【0044】
また、画像調整部28は、図7に示すように、人物の高さ位置を調整することにより、調整後の画像データにおいて、高さ方向に不足する画素Pxが生じた場合には、不足した画素Pxを周囲の画素情報から推測して補充する。
【0045】
出力部29は、画像調整部28によって調整された画像データを出力する。出力部29は、例えば、調整後の画像データをネットワーク8を介してビデオ会議サーバ50に送信する。
【0046】
次に、情報処理装置10によって実行される画像処理方法について図8を参照して説明する。図8は、画像処理方法の処理手順の一例を示したフローチャートである。以下の一連の処理は、記憶部13に記憶されているプログラムをCPU(プロセッサ)11がメインメモリ12に読み出して、情報の加工・演算処理を実行することにより実行される。
【0047】
例えば、情報処理装置10がネットワーク8を介してビデオ会議サーバ50と接続し、カメラ機能がオンにされると、カメラ7によって画像データが取得され、取得された画像データが随時出力される。
画像処理部(画像処理装置)20は、カメラ7から出力された画像データを取得すると(SA1)、取得した画像データに含まれる人物の顔領域を特定する(SA2)。続いて、特定した顔領域の所定高さ位置、例えば、耳珠(trugs)の位置における横幅の寸法を横幅寸法L1として検出するとともに、画像データに含まれる人物の高さ寸法L2を検出する(SA3)。
【0048】
続いて、画像データの人物の顔領域の特徴量に基づいて人物の年齢(年代)及び性別を推定する(SA4)。続いて、ステップSA3で検出した横幅寸法L1及び高さ寸法L2並びにステップSA4で検出した人物の年齢及び性別を一つのデータセットとして、パラメータ記憶部25に格納する(SA5)。これにより、すでにパラメータ記憶部25に格納されていた一番古いデータセットが消去されるとともに、上述した最新のデータセットがパラメータ記憶部25に格納されることとなる。
【0049】
次に、パラメータ記憶部25に格納されている所定数のデータセットから年齢の情報を取得し、これらを統計的に処理することにより、代表的な年齢を特定する。また、同様に、パラメータ記憶部25に格納されている所定数のデータセットから性別の情報を取得し、これらを統計的に処理することにより、代表的な性別を特定する(SA6)。
【0050】
続いて、代表的な性別に対応する基準情報を用いて、代表的な年齢に対応する横幅基準値L1_ref及び高さ基準値L2_refを特定する(SA7)。
【0051】
次に、パラメータ記憶部25に格納されている所定数のデータセットから横幅寸法L1を取得し、これらを統計的に処理することにより代表的な横幅寸法を演算する。同様に、パラメータ記憶部25に格納されている所定数のデータセットから高さ寸法L2を取得し、これらを統計的に処理することにより代表的な高さ寸法を演算する(SA8)。
【0052】
続いて、代表的な横幅寸法が横幅基準値L1_refとなるような調整比率(拡大縮小比率)を算出し(SA9)、算出した調整比率及び高さ基準値L2_refに基づいてステップSA1で入力された画像データを調整する(SA10)。具体的には、算出した調整比率に基づいて当該画像データを拡大又は縮小するとともに、当該画像データにおける人物の高さが高さ基準値L2_refに近づくように、人物の高さ位置を調整する。これにより、例えば、図5に示した画像データは、図7に示すように、人物の顔の横幅寸法L1が横幅基準値L1_refとなるように拡大又は縮小されるとともに、人物の高さ寸法L2が高さ基準値L2_refとなるように高さ位置が調整される。また、図7に示すように、調整後の画像データにおいて、高さ方向に不足する画素Pxが生じた場合には、不足した画素Pxを周囲の画素情報から推測して補充する。
【0053】
このようにして画像の調整が完了すると、調整後の画像データを出力する(SA11)。調整後の画像データは、ビデオ会議サーバ50(図1参照)へ送信される。
そして、上記の如き処理を画像データを取得するたびに行うことにより、人物の大きさ及び高さ位置が調整された画像データが継続的にビデオ会議サーバ50に送信されることとなる。
【0054】
ビデオ会議サーバ50(図1参照)は、各情報処理装置10から画像データを受信すると、受信した画像データを共通のバーチャル背景下に配置する。ここで、各情報処理装置10から受信する画像データは、それぞれ人物(参加者)の顔の横幅や高さ位置が調整された画像とされているので、共通の背景に配置した際に、統一感が生まれ、違和感のない合成画像を作成することが可能となる。
【0055】
以下、ビデオ会議サーバ50について図面を参照して説明する。
図9は、本実施形態に係るビデオ会議サーバ50のハードウェア構成の一例を示した概略構成図である。図9に示すように、ビデオ会議サーバ50は、コンピュータであり、CPU(プロセッサ)51、メインメモリ52、記憶部53、外部インターフェース54、通信インターフェース55などを備えている。また、ビデオ会議サーバ50は、入力デバイス、ディスプレイを備えていてもよい。
上述した各部は直接的にまたはバスを介して間接的に相互に接続されており互いに連携して各種処理を実行する。これら各構成については、上述した情報処理装置10と同様であるため、ここでの詳細な説明は省略する。
【0056】
図10は、ビデオ会議サーバ50が備える機能の一例を示した機能ブロック図である。後述する各種機能を実現するための一連の処理は、一例として、プログラムの形式でビデオ会議サーバ50が備える記憶部53などに記憶されており、このプログラムをCPU(プロセッサ)51がメインメモリ52に読み出して、情報の加工・演算処理を実行することにより、各種機能が実現される。なお、プログラムは、記憶部53に予めインストールされている形態や、他のコンピュータ読み取り可能な記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等が適用されてもよい。コンピュータ読み取り可能な記憶媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等である。
【0057】
図10に示すように、ビデオ会議サーバ50は、受信部61、輝度演算部62、輝度調整部63、画像合成部64、及び送信部65を備えている。
【0058】
受信部61は、各情報処理装置10から送信された画像データを受信する。
輝度演算部62は、各情報処理装置10から受信した各画像データについて輝度ヒストグラムを演算する。
輝度調整部63は、複数の画像データの輝度ヒストグラムのばらつきが小さくなるように、各画像データの輝度を調整する。例えば、各画像データの輝度ヒストグラムのパーセンタイル50%の輝度が一致するように、各画像データの輝度を調整する。これにより、画像データ間の輝度のばらつきを軽減することができる。
【0059】
画像合成部64は、輝度調整後の各画像データを共通のバーチャル背景下に配置し、合成画像を作成する。共通のバーチャル背景に画像データを配置させる処理は、所定のアルゴリズムに従って自動的に行われてもよいし、ビデオ会議のホスト(いずれか1つの情報処理装置10)からの入力指令に基づいて配置することとしてもよい。
送信部65は、合成画像を各情報処理装置10に送信する。
【0060】
次に、本実施形態におけるビデオ会議システム1の動作について簡単に説明する。
例えば、各情報処理装置10の入力デバイス4を各ユーザ(参加者)が操作することにより、ビデオ会議が開始され、カメラ機能がオンにされると、カメラ7によりユーザの画像データが取得され、画像処理部20に入力される。画像処理部20は、カメラ7から入力される画像データに対して上述した画像処理を実行する。これにより、ユーザの年齢に応じて画像データにおける顔の横幅寸法及び高さ寸法が調整され、調整後の画像データがビデオ会議サーバ50に送信される。
【0061】
ビデオ会議サーバ50は、各情報処理装置10から画像データをそれぞれ受信すると、受信したこれら画像データの輝度調整を行い、輝度調整後の画像データを共通のバーチャル背景に配置することにより、合成画像を作成する。そして、作成した合成画像を各情報処理装置10に送信する。これにより、各情報処理装置10のディスプレイ5には、例えば、図11に示すように、共通のバーチャル背景に各参加者が配置された画像が表示されることとなる。このとき、各参加者の顔の大きさは、年齢に応じた横幅に調整され、また、各参加者の画像の輝度は、ばらつきが低減されるように調整されている。これにより、全体として統一感のあるイマーシブビューを各参加者に提供することができる。
【0062】
以上説明してきたように、本実施形態に係る画像処理部(画像処理装置)20、情報処理装置10、ビデオ会議サーバ50、及びビデオ会議システム1によれば、以下の作用効果を奏する。
【0063】
画像処理部20は、カメラ7によって撮像された画像データに含まれる人物の顔領域を特定し、特定した顔領域の所定高さ位置における横幅寸法L1及び人物の高さ寸法L2を検出し、年齢に応じた横幅基準値L1_ref及び高さ基準値L2_refを取得し、取得した横幅基準値L1_ref及び高さ基準値L2_refに横幅寸法及び高さ寸法が近づくように画像データを調整する。また、調整後の画像データに不足画素が生じていた場合には、不足した画素を周囲の画素情報から推測して補充する。これにより、顔の大きさや人物の高さが年齢に応じて規格化された画像を出力することができる。
【0064】
また、画像を調整する際には、今回検出された横幅寸法だけでなく、直近に検出された所定数の横幅寸法を統計的に処理することにより、代表的な横幅寸法を演算し、代表的な横幅寸法が横幅基準値になるような調整比率を演算し、演算した調整比率を用いて画像データを拡大又は縮小させる。このように、直近に検出された複数の横幅寸法も加味して調整比率を算出することにより、調整比率の変化を滑らかにすることが可能となり、時間軸上における画像の変化を抑制することが可能となる。上記統計的処理の一例として、平均化処理、正規化処理などが挙げられる。
【0065】
また、人物の年齢を画像データから推定し、推定した年齢に基づいて横幅基準値及び高さ基準値を特定するので、ユーザが年齢を入力する手間を省略することが可能となる。
【0066】
また、今回推定された年齢と直近に推定された所定数の年齢を統計的に処理することにより代表的な年齢を演算し、代表的な年齢に対応する横幅基準値及び高さ基準値を基準情報から特定する。これにより、横幅基準値の変化を滑らかにすることが可能となる。
【0067】
基準情報は、性別に応じてそれぞれ設けられているので、性別も加味した自然な人物の大きさになるように画像データを調整することが可能となる。
【0068】
なお、上述した実施形態では、顔の横幅と人物の高さの両方を調整することとしたがこれに限られない。例えば、顔の横幅のみを調整することとし、人物の高さ位置については調整しないような構成としてもよい。
【0069】
本実施形態では、所定数の横幅寸法L1を統計的に処理することにより代表的な横幅寸法を演算し、演算した横幅寸法と横幅基準値L1_refとを用いて調整比率を算出していたが、この例に限定されない。例えば、パラメータ記憶部25には、1つのデータセットのみが格納されるような構成とし、最新の横幅寸法L1と横幅基準値L1_refとを用いて調整比率を算出することとしてもよい。
【0070】
人物の高さ寸法L2についても同様に、最新の高さ寸法L2と高さ基準値L2_refを用いて画像データを調整することとしてもよい。
本実施形態では、所定数の年齢を統計的に処理することにより代表的な年齢を演算し、演算した年齢から横幅基準値及び高さ基準値を特定していたがこの例に限定されない。例えば、最新の年齢に基づいて横幅基準値及び高さ基準値を特定することとしてもよい。
【0071】
本実施形態では、属性推定部24が画像データから人物の年齢及び性別を推定していたがこの例に限定されない。例えば、年齢及び性別については、画像データから推定するのではなく、情報処理装置10が備える記憶部13にユーザ情報として登録されているユーザの年齢情報及び性別情報を取得することとしてもよい。
【0072】
本実施形態では、性別に応じて基準情報を設けていたがこの例に限定されない。例えば、基準情報は性別に応じて設けられておらず、性別にかかわらずに共通の基準情報を用いて横幅基準値などを特定することとしてもよい。
【0073】
本実施形態において、画像処理部20は、カメラ7と一体化されていてもよく、カメラ7と画像処理部20とが一体化されたカメラモジュールとして提供されてもよい。この場合、カメラモジュールから出力された画像データは、その画像データに含まれる人物の大きさがすでに規格化されているため、情報処理装置10は、カメラモジュールから出力される画像データをビデオ会議サーバ50に送信することとなる。
【0074】
〔第2実施形態〕
次に、本発明の第2実施形態に係る画像処理装置、情報処理装置、ビデオ会議サーバ50a、及びビデオ会議システムについて説明する。
上述した実施形態では、各情報処理装置10が画像処理部20を備えていたが、本実施形態では、情報処理装置ではなく、ビデオ会議サーバが画像処理部20を備えている点が上述した第1実施形態と異なる。以下、上述した第1実施形態と共通する構成については同一の符号を付して説明を省略し、異なる点について主に説明する。
【0075】
図12は、本実施形態に係るビデオ会議サーバ50aが備える機能の一例を示した機能ブロック図である。図12に示すように、ビデオ会議サーバ50aは、受信部61によって受信された各情報処理装置10からの画像データにおける人物の大きさ及び位置を調整するための画像処理部20を備えている。この画像処理部20の詳細な機能や処理手順の一例は、上述した実施形態で述べた通りである。
【0076】
画像処理部20による調整後の画像データは、輝度演算部62に出力され、輝度調整のための処理が更に行われる。ここで、輝度調整とサイズ調整とはどちらを先に行ってもよい。例えば、輝度調整部63によって輝度が調整された後の各画像データを画像処理部20に入力することとしてもよい。
【0077】
また、輝度調整は省略することとしてもよい。この場合、図12において、輝度演算部62及び輝度調整部63が省略された構成とされる。これにより、画像処理部20によって調整された画像データが画像合成部64に入力されることとなり、入力された画像データが共通の背景に配置されることとなる。
【0078】
〔第3実施形態〕
次に、本発明の第3実施形態に係る画像処理装置、情報処理装置、ビデオ会議サーバ50b、及びビデオ会議システムについて説明する。
上述した第2実施形態では、ビデオ会議サーバ50bが基準情報を用いて各情報処理装置から受信した画像データの人物の大きさ及び高さ位置を規格化することとしたが、本実施形態に係るビデオ会議サーバ50bは、画像データの調整方法が上述した第2実施形態と異なる。具体的には、本実施形態では、ビデオ会議サーバ50bが各情報処理装置からの画像データを取得することができることを利用し、各情報処理装置から受信した複数の画像データに基づいて横幅基準値を導出する。
以下、上述した第2実施形態と共通する構成については同一の符号を付して説明を省略し、異なる点について主に説明する。
【0079】
図13は、本実施形態に係るビデオ会議サーバ50bが備える機能の一例を示した機能ブロック図である。図13に示すように、ビデオ会議サーバ50bは、受信部61、顔領域特定部71、寸法検出部72、画像調整部73、輝度演算部62、輝度調整部63、画像合成部64、及び送信部65を備えている。
【0080】
受信部61は、各情報処理装置10から送信される画像データを受信する。
顔領域特定部71は、各画像データに含まれる人物(参加者)の顔領域を特定する。なお、顔領域特定部71は、上述した顔領域特定部22と同様の機能であるため、詳細は省略する。
寸法検出部72は、特定された顔領域の所定高さ位置における横幅の寸法を横幅寸法として検出する。これにより、各画像データにおける顔の横幅寸法が検出される。
【0081】
画像調整部73は、各画像データにおいて検出された複数の横幅寸法を統計的に処理することにより、基準となる横幅基準値を取得する。例えば、画像調整部73は、横幅寸法の平均値を横幅基準値として取得する。また、画像調整部73は、横幅寸法の分布(ばらつき)の所定のパーセンタイル(例えば、50%)の値を横幅基準値として取得してもよいし、横幅寸法の最大値を横幅基準値として取得してもよい。
【0082】
続いて、画像調整部73は、各画像データにおける各横幅寸法を横幅基準値に近づけるように、各画像データを調整する。すなわち、各画像データにおける人物(参加者)の横幅寸法と横幅基準値とから調整比率を演算し、演算した調整比率に基づいて画像データを拡大縮小させる。これにより、各情報処理装置10から受信した各画像データにおける人物の顔の大きさのばらつきを低減させることが可能となる。
【0083】
調整後の画像データは、輝度演算部62及び輝度調整部63によって輝度調整された後に、画像合成部64によって共通のバーチャル背景下に配置される。合成画像は、送信部65によって各情報処理装置10に送信される。
【0084】
なお、上記説明では、顔の横幅寸法を調整する場合について説明したが、顔の横幅だけでなく、人物の高さ寸法についても同様の手法によって調整することとしてもよい。すなわち、各画像データにおける人物の高さ寸法を検出し、検出した複数の高さ寸法を統計的に処理することにより、基準となる高さ基準値を取得する。例えば、高さ寸法の平均値を高さ基準値として取得する。また、高さ寸法の分布(ばらつき)の所定のパーセンタイル(例えば、50%)の値を高さ基準値として取得してもよいし、高さ寸法の最大値を高さ基準値として取得してもよい。
【0085】
そして、各画像データにおける各高さ寸法を高さ基準値に近づけるように、各画像データを調整する。具体的には、各画像データにおける人物(参加者)の高さ寸法が高さ基準値と一致するように、画像データにおける人物の高さ位置を調整する。これにより、各情報処理装置10から受信した各画像データにおける人物の高さ位置のばらつきを低減させることができる。
【0086】
なお、第3実施形態に係るビデオ会議サーバ50bは、上述した第1実施形態に係る情報処理装置10と組み合わせて利用することが可能である。この場合、各情報処理装置10からはすでに規格化された画像データを受信することとなる。そして、更にビデオ会議サーバ50bにおいて、上述した画像調整を行うことにより、各画像データにおける人物の横幅や高さ位置を統一させることが可能となる。
【0087】
以上、本発明について実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施形態に多様な変更又は改良を加えることができ、該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。
また、上記実施形態で説明した処理の流れも一例であり、本発明の主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
【0088】
例えば、上述した各実施形態では、ビデオ会議サーバを設けていたが、ビデオ会議サーバの機能の全部又は一部をビデオ会議のホストとなる情報処理装置10が備えていてもよい。
【符号の説明】
【0089】
1 :ビデオ会議システム
4 :入力デバイス
5 :ディスプレイ
7 :カメラ
8 :ネットワーク
10 :情報処理装置
11 :CPU
12 :メインメモリ
13 :記憶部
14 :外部インターフェース
15 :通信インターフェース
16 :スピーカ
17 :マイク
20 :画像処理部
21 :画像取得部
22 :顔領域特定部
23 :寸法検出部
24 :属性推定部
25 :パラメータ記憶部
26 :基準情報記憶部
27 :基準値特定部
28 :画像調整部
29 :出力部
50 :ビデオ会議サーバ
50a :ビデオ会議サーバ
50b :ビデオ会議サーバ
51 :CPU
52 :メインメモリ
53 :記憶部
54 :外部インターフェース
55 :通信インターフェース
61 :受信部
62 :輝度演算部
63 :輝度調整部
64 :画像合成部
65 :送信部
71 :顔領域特定部
72 :寸法検出部
73 :画像調整部
L1 :横幅寸法
L1_ref :横幅基準値
L2 :高さ寸法
L2_ref :高さ基準値
【要約】
【課題】共通の背景に配置される参加者の顔の大きさのばらつきを低減すること。
【解決手段】画像処理部20は、画像データを取得する画像取得部21と、画像データに含まれる人物の顔領域を特定する顔領域特定部22と、特定された顔領域の所定高さ位置における横幅の寸法を横幅寸法として検出する寸法検出部23と、年齢と顔領域の横幅基準値とが関連付けられた基準情報から人物の年齢に対応する横幅基準値を特定する基準値特定部27と、特定された横幅基準値に横幅寸法を近づけるように画像データを調整する画像調整部28と、調整後の画像データを出力する出力部29とを備える。
【選択図】図4
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14