(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023154542
(43)【公開日】2023-10-20
(54)【発明の名称】画像処理システム、画像処理方法、及び画像処理プログラム
(51)【国際特許分類】
G06T 1/00 20060101AFI20231013BHJP
H04N 7/15 20060101ALI20231013BHJP
H04N 21/258 20110101ALI20231013BHJP
G06T 7/00 20170101ALI20231013BHJP
G06T 5/50 20060101ALI20231013BHJP
【FI】
G06T1/00 340A
H04N7/15
H04N21/258
G06T7/00 660A
G06T5/50
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022063919
(22)【出願日】2022-04-07
(71)【出願人】
【識別番号】000005049
【氏名又は名称】シャープ株式会社
(74)【代理人】
【識別番号】100167302
【弁理士】
【氏名又は名称】種村 一幸
(74)【代理人】
【識別番号】100135817
【弁理士】
【氏名又は名称】華山 浩伸
(72)【発明者】
【氏名】古市 岳
【テーマコード(参考)】
5B057
5C164
5L096
【Fターム(参考)】
5B057CA01
5B057CA08
5B057CA12
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB16
5B057CD11
5B057CD14
5B057CE08
5B057CE17
5B057DA16
5B057DB02
5B057DB06
5B057DB09
5B057DC03
5B057DC08
5B057DC09
5B057DC25
5B057DC40
5C164FA10
5C164MC04S
5C164SB01S
5C164SC11P
5C164VA13S
5C164VA35
5C164YA08
5L096AA02
5L096AA06
5L096DA01
5L096EA33
5L096FA06
5L096FA32
5L096FA64
5L096FA66
5L096FA67
5L096FA69
5L096GA38
5L096GA51
5L096HA11
(57)【要約】
【課題】ユーザーの顔の一部が覆われている場合でもユーザーの顔全体を把握することが可能な画像処理システム、画像処理方法、及び画像処理プログラムを提供する。
【解決手段】画像処理システムは、被写体の顔画像を含む撮像画像を取得する取得処理部と、前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定処理部と、前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定処理部と、複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記属性に対応する前記部分画像を選択する選択処理部と、前記部分画像に基づいて前記顔画像に対応する出力画像を生成する生成処理部と、前記出力画像を出力する出力処理部と、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
被写体の顔画像を含む撮像画像を取得する取得処理部と、
前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定処理部と、
前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定処理部と、
複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定処理部により推定される前記属性に対応する前記部分画像を選択する選択処理部と、
前記選択処理部により選択される前記部分画像に基づいて前記被覆領域の画像を変更して、前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成処理部と、
前記生成処理部により生成される前記出力画像を出力する出力処理部と、
を備える画像処理システム。
【請求項2】
前記生成処理部は、前記被覆領域を前記選択処理部により選択される前記部分画像に変更して前記出力画像を生成する、
請求項1に記載の画像処理システム。
【請求項3】
前記推定処理部は、前記属性として、前記顔の向き、前記顔の骨格、前記被写体の年齢、前記被写体の性別、及び前記被写体の頭の骨格の少なくともいずれかを推定する、
請求項1又は請求項2に記載の画像処理システム。
【請求項4】
前記部分画像は、顔のうち少なくとも口元を含む画像である、
請求項1又は請求項2に記載の画像処理システム。
【請求項5】
前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に基づいて顔の表情を推定し、前記選択処理部により選択される前記部分画像における前記口元の口角を、推定した前記表情に基づいて変換する変換処理部をさらに備える、
請求項4に記載の画像処理システム。
【請求項6】
前記変換処理部は、前記被写体の前記顔画像と、前記被写体の発話音声とに基づいて前記顔の表情を推定する、
請求項5に記載の画像処理システム。
【請求項7】
前記選択処理部により選択される前記部分画像に基づいて、前記取得処理部により取得される前記撮像画像に含まれる前記顔画像の顔の向きに合致する画像である補間画像を生成する補間処理部をさらに備え、
前記生成処理部は、前記被覆領域を前記補間処理部により補間される前記補間画像に変更して前記出力画像を生成する、
請求項1又は請求項2に記載の画像処理システム。
【請求項8】
前記選択処理部により選択される前記部分画像の色を、前記撮像画像に含まれる前記顔画像の顔の色に合わせて調整する調整処理部をさらに備え、
前記生成処理部は、前記被覆領域を前記調整処理部により前記顔の色が調整された前記部分画像に変更して前記出力画像を生成する、
請求項1又は請求項2に記載の画像処理システム。
【請求項9】
一又は複数のプロセッサーが、
被写体の顔画像を含む撮像画像を取得する取得ステップと、
前記取得ステップにより取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定ステップと、
前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定ステップと、
複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定ステップにおいて推定される前記属性に対応する前記部分画像を選択する選択ステップと、
前記選択ステップにおいて選択される前記部分画像に基づいて、前記取得ステップにおいて取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成ステップと、
前記生成ステップにより生成される前記出力画像を出力する出力ステップと、
を実行する画像処理方法。
【請求項10】
被写体の顔画像を含む撮像画像を取得する取得ステップと、
前記取得ステップにより取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定ステップと、
前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定ステップと、
複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定ステップにおいて推定される前記属性に対応する前記部分画像を選択する選択ステップと、
前記選択ステップにおいて選択される前記部分画像に基づいて、前記取得ステップにおいて取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成ステップと、
前記生成ステップにより生成される前記出力画像を出力する出力ステップと、
を一又は複数のプロセッサーに実行させるための画像処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理システム、画像処理方法、及び画像処理プログラムに関する。
【背景技術】
【0002】
近年、互いに離れた場所においてネットワークを介して音声、映像、ファイルなどを送受信して会議を行うテレビ会議システム(オンライン会議システム)が利用されている。例えば前記テレビ会議システムでは、会議に参加するユーザーの顔画像が互いの端末(ユーザー端末)に表示される。従来、前記テレビ会議システムにおいて、ユーザーの顔画像を他のモデル画像に切り替えてユーザー端末に表示させる技術が提案されている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、テレビ会議において、ユーザーがマスクを着用して会議に参加する場合がある。この場合、ユーザーの表情を他のユーザーが読み取ることが困難になり、コミュニケーションを取り難くなる問題が生じる。また、聴覚障害者は、相手方がマスクを着用していると口の動きを把握することができずコミュニケーションを取り難くなる問題が生じる。このように、コミュニケーションを図る様々な場面において、ユーザーの顔全体を把握できることが望ましい。
【0005】
本発明の目的は、ユーザーの顔の一部が覆われている場合でもユーザーの顔全体を把握することが可能な画像処理システム、画像処理方法、及び画像処理プログラムを提供することにある。
【課題を解決するための手段】
【0006】
本発明の一の態様に係る画像処理システムは、被写体の顔画像を含む撮像画像を取得する取得処理部と、前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定処理部と、前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定処理部と、複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定処理部により推定される前記属性に対応する前記部分画像を選択する選択処理部と、前記選択処理部により選択される前記部分画像に基づいて前記被覆領域の画像を変更して、前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成処理部と、前記生成処理部により生成される前記出力画像を出力する出力処理部と、を備える。
【0007】
本発明の他の態様に係る画像処理方法は、一又は複数のプロセッサーが、被写体の顔画像を含む撮像画像を取得する取得ステップと、前記取得ステップにより取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定ステップと、前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定ステップと、複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定ステップにおいて推定される前記属性に対応する前記部分画像を選択する選択ステップと、前記選択ステップにおいて選択される前記部分画像に基づいて、前記取得ステップにおいて取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成ステップと、前記生成ステップにより生成される前記出力画像を出力する出力ステップと、を実行する画像処理方法である。
【0008】
本発明の他の態様に係る画像処理プログラムは、被写体の顔画像を含む撮像画像を取得する取得ステップと、前記取得ステップにより取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定ステップと、前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定ステップと、複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定ステップにおいて推定される前記属性に対応する前記部分画像を選択する選択ステップと、前記選択ステップにおいて選択される前記部分画像に基づいて、前記取得ステップにおいて取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成ステップと、前記生成ステップにより生成される前記出力画像を出力する出力ステップと、を一又は複数のプロセッサーに実行させるための画像処理プログラムである。
【発明の効果】
【0009】
本発明によれば、ユーザーの顔の一部が覆われている場合でもユーザーの顔全体を把握することが可能な画像処理システム、画像処理方法、及び画像処理プログラムを提供することができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本発明の実施形態に係る会議システムの概略構成を示す模式図である。
【
図2】
図2は、本発明の実施形態に係る会議システムの構成を示す機能ブロック図である。
【
図3】
図3は、本発明の実施形態に係るサンプル画像情報の一例を示す図である。
【
図4】
図4は、本発明の実施形態に係るサンプル画像の一例を示す図である。
【
図5】
図5は、本発明の実施形態に係る撮影画像の一例を示す図である。
【
図6】
図6は、本発明の実施形態に係る出力画像の生成手順の一例を示す図である。
【
図7】
図7は、本発明の実施形態に係る補間画像の色の調整方法の一例を示す図である。
【
図8】
図8は、従来の会議システムに係るユーザー端末の表示画面の一例を示す図である。
【
図9】
図9は、本発明の実施形態に係る会議システムに係るユーザー端末の表示画面の一例を示す図である。
【
図10】
図10は、本発明の実施形態に係る会議システムで実行される会議処理の手順の一例を説明するためのフローチャートである。
【発明を実施するための形態】
【0011】
以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定するものではない。
【0012】
本発明に係る画像処理システムは、例えば、複数のユーザー端末を利用してテレビ会議を実現する会議システムに適用される。前記会議システムは、例えば異なる場所(自宅、会議室など)において複数のユーザーが参加するテレビ会議(Web会議)に適用することができる。本実施形態に係る会議システムは、本発明の画像処理システムの一例である。例えば本実施形態に係る会議システムでは、複数の会議室のそれぞれに、会議に参加するユーザーが利用するユーザー端末(ノートパソコン、スマートフォンなど)などが配置される。また、前記会議システムは、前記テレビ会議を実行するための汎用ソフトウェアである会議アプリケーションによりテレビ会議サービスを提供する会議サーバーなどを備える。
【0013】
[会議システム10]
図1は、本発明の実施形態に係る会議システム10の概略構成を示す模式図である。会議システム10は、会議サーバー1と、ユーザー端末2とを含んでいる。会議システム10は、複数のユーザーが参加するテレビ会議(Web会議)を支援するシステムである。
【0014】
図1には、会議室R1及び会議室R2を示している。
図1では、ユーザーAが会議室R1で会議に参加し、ユーザーBが会議室R2で会議に参加して、ユーザーA及びユーザーBによりテレビ会議を行う例を示している。会議室R1にはユーザーAが所持するユーザー端末2Aが配置され、会議室R2にはユーザーBが所持するユーザー端末2Bが配置されている。各会議室に、ユーザー端末2の表示画面を表示するディスプレイが配置されてもよい。
【0015】
会議システム10は、各ユーザー端末2にインストールされた会議アプリケーションを実行することにより、会議室R1及び会議室R2においてテレビ会議を行うことが可能になる。前記会議アプリケーションは汎用ソフトウェアであり、同一の会議に参加する複数のユーザーは共通の前記会議アプリケーションを選択して前記テレビ会議を実行する。
【0016】
各ユーザー端末2は、カメラ24(
図2参照)、マイク及びスピーカー(不図示)を備えており、会議システム10は、ユーザー端末2間で音声及びカメラ映像を双方向通信可能に構成されている。なお、カメラ、マイク、及びスピーカーは、ユーザー端末2とは別の機器で構成され、当該機器が会議室に設置されてもよい。
【0017】
会議サーバー1は、例えば1台又は複数台のサーバー装置(例えばクラウドサーバー)で構築される。会議サーバー1は、会議スケジュールを管理する管理サーバーの機能を備えてもよい。
【0018】
会議サーバー1及びユーザー端末2は、ネットワークN1を介して互いに接続されている。ネットワークN1は、インターネット、LAN、WAN、又は公衆電話回線などの通信網である。
【0019】
[会議サーバー1]
図2に示すように、会議サーバー1は、制御部11、記憶部12、操作表示部13、通信部14などを備える。会議サーバー1は、1台又は複数台の仮想サーバー(クラウドサーバー)であってもよいし、1台又は複数台の物理サーバーであってもよい。
【0020】
通信部14は、会議サーバー1を有線又は無線でネットワークN1に接続し、ネットワークN1を介して他の機器(例えばユーザー端末2など)との間で所定の通信プロトコルに従ったデータ通信を実行するための通信部である。
【0021】
操作表示部13は、各種の情報を表示する液晶ディスプレイ又は有機ELディスプレイのような表示部と、操作を受け付けるマウス、キーボード、又はタッチパネルなどの操作部とを備えるユーザーインターフェースである。
【0022】
記憶部12は、各種の情報を記憶するHDD(Hard Disk Drive)、SSD(Solid State Drive)、又はフラッシュメモリーなどの不揮発性の記憶部である。記憶部12には、制御部11に後述の会議処理(
図10参照)を実行させるための会議処理プログラムなどの制御プログラムが記憶されている。例えば、前記会議処理プログラムは、CD又はDVDなどのコンピュータ読取可能な記録媒体に非一時的に記録され、会議サーバー1が備えるCDドライブ又はDVDドライブなどの読取装置(不図示)で読み取られて記憶部12に記憶される。なお、前記会議処理プログラムは、クラウドサーバーから配信されて記憶部12に記憶されてもよい。
【0023】
また、記憶部12には、テレビ会議サービスを実行させるためのテレビ会議プログラムが記憶されている。前記テレビ会議プログラムは、ユーザー端末2にインストールされた会議アプリケーションの実行に応じて前記テレビ会議を実行させる。本実施形態の会議サーバー1は、汎用ソフトウェアのテレビ会議サービスを提供するものとする。
【0024】
また、記憶部12には、前記会議アプリケーションを利用可能なユーザーに関するユーザー情報(ユーザーID、パスワードなど)が記憶されている。
【0025】
また、記憶部12には、ユーザーが開催するテレビ会議の開催概要に関する会議情報が記憶されている。例えば、テレビ会議の開催者であるユーザーAは、自身のユーザー端末2Aにおいて前記会議アプリケーションにログインしてテレビ会議の会議情報を登録する。前記会議情報には、テレビ会議の開催日時、開催場所(会議室ID)、会議名、参加者、会議資料などの情報が含まれる。
【0026】
また、記憶部12には、被写体の顔画像の一部(例えばマスク領域)を置き換える置き換え用のサンプル画像を含むサンプル画像情報D1が記憶されている。
図3は、サンプル画像情報D1の一例を示す図である。前記サンプル画像は、本発明の部分画像の一例である。
【0027】
図3に示すように、サンプル画像情報D1には、サンプル画像ごとに、サンプル画像ID、顔の向き、性別、年齢、骨格、サンプル画像の情報が関連付けられて登録されている。前記サンプル画像は、例えば、口元を含む顔の部分画像である。前記サンプル画像IDは、サンプル画像の識別情報である。前記顔の向き(角度)は、サンプル画像の顔の向き(正面、上向き、下向き、左向き、右向きなど)を示す情報である。前記性別は、サンプル画像の顔の性別(男性又は女性)を示す情報である。前記年齢は、サンプル画像の顔の年齢(10代、20代、30代、40代、50代など)を示す情報である。前記骨格は、サンプル画像の顔又は頭の骨格タイプ(卵型、四角型、丸型など)を示す情報である。前記サンプル画像は、サンプル画像の画像データである。
【0028】
サンプル画像情報D1には、不特定多数の人物の顔画像から抽出された複数の部分画像(口元画像)の情報が予め登録されている。
図4には、サンプル画像の一例を示している。
【0029】
制御部11は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサーである。前記ROMは、前記CPUに各種の処理を実行させるためのBIOS及びOSなどの制御プログラムを予め記憶する。前記RAMは、各種の情報を記憶し、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部11は、前記ROM又は記憶部12に予め記憶された各種の制御プログラムを前記CPUで実行することにより会議サーバー1を制御する。
【0030】
具体的に、制御部11は、
図2に示すように、取得処理部111、検出処理部112、推定処理部113、選択処理部114、変換処理部115、補間処理部116、調整処理部117、生成処理部118、出力処理部119などの各種の処理部を含む。なお、制御部11は、前記会議処理プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部11に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。
【0031】
取得処理部111は、被写体の顔画像を含む撮像画像を取得する。具体的には、会議が開始されると、ユーザー端末2Aはカメラ24が撮像したユーザーAの撮像画像を会議サーバー1に送信し、ユーザー端末2Bはカメラ24が撮像したユーザーBの撮像画像を会議サーバー1に送信する。取得処理部111は、ユーザー端末2AからユーザーAの撮像画像を取得し、ユーザー端末2BからユーザーBの撮像画像を取得する。また、取得処理部111は、所定のフレームレートで各ユーザー端末2から前記撮像画像を順次取得する。
【0032】
図5には、ユーザーAの顔画像を含む撮像画像Pa1の一例を示している。また、
図5に示す撮像画像Pa1には、マスク画像M1が含まれている。
【0033】
検出処理部112は、取得処理部111により取得される前記撮像画像から顔画像を検出する。また、検出処理部112は、前記撮像画像に顔画像が含まれるか否かを判定する。具体的には、検出処理部112は、周知のディープラーニングによる顔検出技術(MTCNNなど)を利用して、顔器官(両目、鼻、両口角、顔の輪郭など)の位置、顔の向き(角度)などを特定し、前記撮像画像に顔画像を検出する。
【0034】
また、検出処理部112は、検出した前記顔画像からマスク領域(マスク画像)を検出する。具体的には、検出処理部112は、前記顔画像において口元、鼻周辺の色情報からマスクの有無を判定する。例えば、検出処理部112は、HSVなどの色空間において肌色から大きく異なる場合に「マスク有り」と判定し、肌色から大きく異ならない場合に「マスク無し」と判定する。より具体的には、HSVにおいて肌色は、色相(H)が0~40の範囲であり、彩度(S)が15~40の範囲であるため、検出処理部112は、前記顔画像の色が当該範囲内である場合に「マスク無し」と判定し、当該範囲外である場合に「マスク有り」と判定する。検出処理部112は、本発明の判定処理部の一例である。
図5に示す撮像画像Pa1の場合、検出処理部112は、マスク画像M1(
図5参照)及びマスク領域Am(
図6参照)を検出する。前記マスク領域は、本発明の被覆領域の一例である。
【0035】
推定処理部113は、検出処理部112により検出される前記顔画像にマスク領域(
図6のマスク領域Am)が含まれる場合に被写体(ユーザー)の顔の属性を推定する。具体的には、推定処理部113は、前記属性として、顔の向き、顔の骨格、被写体の年齢、被写体の性別、及び被写体の頭の骨格の少なくともいずれかを推定する。
【0036】
例えば、推定処理部113は、検出処理部112が顔画像を検出する際に特定した顔の向き(角度)を取得する。また、推定処理部113は、検出処理部112が検出した顔画像において両目、鼻、口角、顔の輪郭の位置関係により、ディープラーニングにより顔の向きを推定してもよい。
【0037】
また、推定処理部113は、検出処理部112が検出した顔画像においてディープラーニングにより性別及び年齢を推定する。
【0038】
また、推定処理部113は、検出処理部112が検出した顔画像において頭の横幅、縦の長さ、形状に基づいて頭の骨格(骨格タイプ)を推定する。例えば、推定処理部113は、検出処理部112が検出した顔画像から取得された顔器官(両目、鼻、両口角、顔の輪郭)の位置情報から頭の横幅、縦の長さ、顔の輪郭により頭の骨格をタイプ分けする。例えば、推定処理部113は、予め性別、年齢層ごとに標準的な顔の大きさを求め、それに対し、顔の横幅、縦の長さがどれくらいかに応じて、横長か縦長(面長)かを求め、更に顔の輪郭情報から卵型、四角型などにタイプ分けする。
【0039】
また例えば、推定処理部113は、サンプル画像情報D1(
図3参照)に予め登録された複数のサンプル画像と、ユーザーの発話音声(発話内容、音の強弱など)とを用いて、学習モデルにより前記顔画像の顔の表情を推定する。
【0040】
選択処理部114は、複数の顔のそれぞれの属性に対応する複数のサンプル画像を予め記憶する記憶部12(サンプル画像情報D1(
図3参照))において、推定処理部113により推定される前記属性に対応するサンプル画像を選択する。例えば、選択処理部114は、サンプル画像情報D1から、推定処理部113が推定した顔の向き(角度)、性別、年齢、頭の骨格に合致するサンプル画像を選択する。例えば、推定処理部113は、前記顔画像について、性別を「女性」、年齢を「20代」、骨格を「卵型」、顔の向きを「右方向に20度」とそれぞれ推定した場合に、サンプル画像情報D1において、これらの推定結果に合致する、「女性」、「20代」、「卵型」に分類され、かつ、右方向20度を囲む角度(例えば、15度~30度)のサンプル画像を選択する。選択処理部114は、前記属性に対応する1つのサンプル画像を選択してもよいし、複数のサンプル画像を選択してもよい。
【0041】
図5に示す撮像画像Pa1の場合、選択処理部114は、
図6に示す1つのサンプル画像P1を選択する。
【0042】
変換処理部115は、選択処理部114により選択される前記サンプル画像における口元の口角を、推定処理部113により推定される表情に基づいて変換する。具体的には、変換処理部115は、顔の向きが正面のサンプル画像の口角を、推定処理部113が推定した前記表情に合わせて変換する。なお、変換処理部115は、ユーザーが発話するごとに、口角を変換する処理を実行する。
【0043】
例えば、変換処理部115は、推定された前記表情が「普通」の表情である場合には、口角を変更しない。また、変換処理部115は、推定された前記表情が「驚き」の表情である場合には、口角を上下方向に広げる。また、変換処理部115は、推定された前記表情が「楽しい」表情である場合には、口角を上げる。また、変換処理部115は、推定された前記表情が「悲しみ」の表情である場合には、口角を下げる。また、変換処理部115は、推定された前記表情が「怒り」の表情である場合には、口角を横に広げる。また、変換処理部115は、推定された前記表情が「喜び」の表情である場合には、口角を「楽しい」の場合の口角よりもさらに上げる。
【0044】
また、変換処理部115は、選択処理部114により選択されたサンプル画像ごとに、正面のサンプル画像に対して施した前記口角処理と同様の処理を行う。例えば、変換処理部115は、口角を上げる際にその量をy1とした場合、サンプル画像が真横の向きの場合には、口角を同じ量y1だけ上げ、サンプル画像が上向きの場合には、その角度に応じてた量(y1よりも小さい量)だけ口角を上げる。
【0045】
なお、変換処理部115は、サンプル画像において変換した口角の位置を算出して記憶する。
【0046】
補間処理部116は、選択処理部114により選択される前記サンプル画像に基づいて、検出処理部112により検出される前記顔画像の顔の向きに合致する画像である補間画像を生成する。
【0047】
例えば、推定処理部113により推定された顔の向き(角度)が20度で、選択処理部114により選択されたサンプル画像が顔の向き15度の画像と30度の画像である場合、補間処理部116は、正面における3次元座標からそれぞれの顔角度における2次元座標への射影変換行列を、それぞれの角度差を重み係数で乗算し、加算して得られた補間射影変換行列を用いることで、所望の顔角度(例えば20度)の画像を求めることができる。
【0048】
より具体的には、予め用意されている各顔角度のサンプル画像は、平均的な顔形状の正面における顔器官の3次元座標から射影変換を行うことにより求められる。具体的には、平均的な顔形状の正面における顔器官の3次元座標をS、特定の顔角度における顔器官の2次元座標をA、3次元座標Sから二次元座標Aに射影変換する射影変換行列をMとすると、A=M×Sが成り立つ。そして、その射影変換行列MはM=A×(ST(SST)-1)で求めることができる。この射影変換行列を各性別、年齢、骨格分類の顔角度ごとに保持し、所望の顔角度において、それを包括する角度での線形補間により射影変換行列を求めることができる。さらに、補間により求められた射影変換行列Mによる顔の輪郭が撮影した顔画像の輪郭に合うよう、別途、射影変換行列M´を求め、それを補間により求められた射影変換行列Mに乗算することで、所望の顔角度および顔の輪郭が合う最適な射影変換行列M″(M″=M×M´)が求まり、所望の顔画像を生成することができる。
【0049】
なお、補間処理部116は、選択処理部114により選択される前記サンプル画像の顔の向きが、検出処理部112により検出される前記顔画像の顔の向きと一致する場合には、前記補間画像を生成する処理を省略する。
【0050】
調整処理部117は、選択処理部114により選択されるサンプル画像の色を、前記顔画像の顔の色に合わせて調整する。具体的には、調整処理部117は、カメラ24により撮影された状態の顔画像の明るさ、肌の色合いなどに合わせて、補間処理部116により生成された補間画像の口元の明るさ及び色合いを調整する。これにより、全体的な明るさや色の違いを軽減させる。なお、前記補間画像の生成処理が省略される場合は、調整処理部117は、検出処理部112が検出した顔画像に対して、口元の明るさ及び色合いを調整する処理を実行する。
【0051】
生成処理部118は、選択処理部114により選択されるサンプル画像に基づいて、取得処理部111により取得される撮像画像に含まれる顔画像に対応する出力画像を生成する。具体的には、生成処理部118は、前記サンプル画像に基づいてマスク領域Amの画像(マスク画像M1)を変更して、検出処理部112により検出された前記顔画像に対応する出力画像を生成する。例えば、生成処理部118は、前記サンプル画像を、検出処理部112により検出されたマスク領域Amに合成して出力画像を生成する。
図5に示す撮像画像Pa1の場合、生成処理部118は、
図6に示すように、サンプル画像P1を、撮像画像Pa1のマスク領域Amに合成して出力画像Pa2を生成する。
【0052】
また、補間処理部116が前記補間画像を生成した場合には、生成処理部118は、マスク領域Amを補間処理部116により補間された前記補間画像に変更して出力画像を生成する。例えば、生成処理部118は、補間処理部116により補間された前記補間画像を、検出処理部112により検出されたマスク領域Amに合成して前記出力画像を生成する。
【0053】
また、調整処理部117が前記補間画像を色調整した場合には、生成処理部118は、調整処理部117により顔の色が調整された前記補間画像を、検出処理部112により検出されたマスク領域Amに合成して前記出力画像を生成する。
【0054】
また、生成処理部118は、変換処理部115が算出した口角の位置と、補間画像における口角位置の位置とを一致させて前記出力画像を生成する。このとき、生成処理部118は、顔画像と補間画像との境界が目立たないようにするために、マスク有りの画像(撮像画像Pa1)におけるマスク領域Amの境界はその周辺の肌色の平均値に置き換え、その周辺の平均肌色とマスク無しの画像(サンプル画像)とはマスク領域Amの境界から閾値までの距離に応じて
図7に示す曲線により重み係数を変えて合成を行ってもよい。
図7に示すグラフにおいて、重み係数「0」は、マスク領域Amの境界周辺の肌色の平均値を示し、重み係数「1」は、マスク無し画像(サンプル画像)の肌色を示している。
【0055】
出力処理部119は、生成処理部118により生成される出力画像を出力する。具体的には、出力処理部119は、ユーザー端末2AからユーザーAの撮像画像Pa1(
図5参照)を取得した場合に、撮像画像Pa1に基づいて生成された出力画像Pa2(
図6参照)をユーザー端末2A及びユーザー端末2Bのそれぞれに出力する。
【0056】
図8には、従来の構成により出力される出力画像を示し、
図9には、本実施形態の構成により出力される出力画像を示している。従来の構成では、ユーザー端末2Bに、ユーザーAがマスクを着用した顔画像が表示される。これに対して、本実施形態の構成によれば、ユーザー端末2Bに、ユーザーAがマスクを着用していない顔画像が表示される。このため、ユーザーBは、ユーザーAの表情を読み取ることができるため、コミュニケーションが取り易くなる。すなわち、ユーザーBは、ユーザーAの顔全体を把握し易くなる。
【0057】
[ユーザー端末2]
図2に示すように、ユーザー端末2は、制御部21、記憶部22、操作表示部23、カメラ24、及び通信部25などを備える。ユーザー端末2は、例えばパーソナルコンピューター、タブレット端末、スマートフォンなどの情報処理装置である。また、ユーザー端末2は、マイク及びスピーカーを備えてもよい。
【0058】
通信部25は、ユーザー端末2を有線又は無線でネットワークN1に接続し、ネットワークN1を介して会議サーバー1などの外部機器との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。
【0059】
カメラ24は、被写体(ユーザー)を撮像してデジタル画像データとして出力するデジタルカメラである。カメラ24により撮像された画像データは制御部21に送信される。制御部21は、前記画像データを会議サーバー1に送信する。
【0060】
操作表示部23は、各種のウェブページなどの情報を表示する液晶ディスプレイ又は有機ELディスプレイのような表示部と、操作を受け付けるマウス、キーボード、又はタッチパネルのような操作部とを備えるユーザーインターフェースである。
【0061】
記憶部22は、各種の情報を記憶するHDD、SSD又はフラッシュメモリーなどの不揮発性の記憶部である。例えば、記憶部22には、ブラウザプログラム等の制御プログラムが記憶される。具体的に、前記ブラウザプログラムは、HTTP(Hypertext Transfer Protocol)などの通信プロトコルに従って会議サーバー1などの外部装置との間で通信処理を制御部21に実行させるための制御プログラムである。
【0062】
制御部21は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサーである。前記ROMは、前記CPUに各種の処理を実行させるためのBIOS及びOSなどの制御プログラムが予め記憶された不揮発性の記憶部である。前記RAMは、各種の情報を記憶する揮発性又は不揮発性の記憶部であり、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部21は、前記ROM又は記憶部22に予め記憶された各種の制御プログラムを前記CPUで実行することによりユーザー端末2を制御する。
【0063】
具体的に、制御部21は、記憶部22に記憶されている前記ブラウザプログラムに従って各種の処理を実行することによりブラウザ処理部211として機能する。ブラウザ処理部211は、会議サーバー1からネットワークN1を介して提供されるウェブページ(会議ページ)を操作表示部23に表示させ、操作表示部23に対する操作を会議サーバー1に入力するブラウザ処理を実行することが可能である。すなわち、ユーザー端末2は、制御部21によって前記ブラウザプログラムが実行されることにより、会議サーバー1の操作用端末として機能することが可能である。なお、制御部21に含まれる一部又は全部の処理部は電子回路で構成されていてもよい。
【0064】
例えば、ユーザー端末2は、会議サーバー1で提供されるテレビ会議サービスに対応する会議ページ(
図9参照)のデータを取得して、操作表示部23に表示させる。ユーザーは、ユーザー端末2を操作することにより、テレビ会議を行うことができる。
【0065】
[会議処理]
以下、
図10を参照しつつ、会議システム10において実行される会議処理の手順の一例について説明する。
【0066】
なお、本発明は、前記会議処理に含まれる一又は複数のステップを実行する会議方法(本発明の画像処理方法の一例)の発明として捉えることができる。また、ここで説明する前記会議処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記会議処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。
【0067】
さらに、ここでは会議サーバー1の制御部11が前記会議処理における各ステップを実行する場合を例に挙げて説明するが、他の実施形態では、一又は複数のプロセッサーが前記会議処理における各ステップを分散して実行してもよい。
【0068】
例えば、制御部11は、会議が開始されると前記会議処理の実行を開始する。ここでは、ユーザーA及びユーザーBがテレビ会議を行う場合(
図1参照)を例に挙げて説明する。
【0069】
先ず、ステップS1において、制御部11は、ユーザー端末2AからユーザーAの撮像画像を取得し、ユーザー端末2BからユーザーBの撮像画像を取得する。
【0070】
次に、ステップS2において、制御部11は、取得した前記撮像画像において顔画像を検出したか否かを判定する。例えば、制御部11は、周知の顔検出技術(MTCNNなど)を利用して、顔器官(両目、鼻、両口角、顔の輪郭など)の位置、顔の向きなどを特定して、前記撮像画像に顔画像が含まれるか否かを判定する。制御部11は、前記撮像画像に顔画像が含まれると判定すると(S2:Yes)、処理をステップS3に移行させる(
図5参照)。一方、制御部11は、前記撮像画像に顔画像が含まれないと判定すると(S2:No)、処理をステップS21に移行させる。
【0071】
ステップS3において、制御部11は、検出した前記顔画像にマスク領域Am(マスク画像M1)が含まれるか否かを判定する。例えば、制御部11は、前記顔画像において口元、鼻周辺の色情報からマスク領域Am(マスク画像M1)の有無を判定する(
図5及び
図6参照)。制御部11は、マスク領域Am(マスク画像M1)を検出すると(S3:Yes)、処理をステップS4に移行させる。一方、制御部11は、マスク領域Am(マスク画像M1)を検出しない場合(S3:No)、処理をステップS21に移行させる。
【0072】
ステップS4において、制御部11は、前記顔画像の属性を推定する。具体的には、制御部11は、顔の向き、顔の骨格、被写体の年齢、被写体の性別、及び被写体の頭の骨格の少なくともいずれかの属性を推定する。制御部11は、周知のディープラーニングにより前記属性を推定することが可能である。また、制御部11は、前記顔画像の顔の表情を推定する。
【0073】
次にステップS5において、制御部11は、サンプル画像情報D1(
図3参照)から、推定した前記属性に対応するサンプル画像を選択する。例えば、制御部11は、前記顔画像について、性別を「女性」、年齢を「20代」、骨格を「卵型」、顔の向きを「右方向に20度」とそれぞれ推定した場合に、サンプル画像情報D1において、これらの推定結果に合致する、「女性」、「20代」、「卵型」に分類され、かつ、右方向20度を囲む角度(例えば、15度及び30度)のサンプル画像(例えばサンプル画像P1)を選択する。
【0074】
次にステップS6において、制御部11は、選択した前記サンプル画像における口元の口角を、ステップS4で推定した表情に基づいて変換する。具体的には、制御部11は、正面のサンプル画像の口角を、推定した前記表情に合わせて変換する。また、制御部11は、選択した前記サンプル画像ごとに、正面のサンプル画像において施した前記口角処理と同様の処理を行う。このようにして、制御部11は、ユーザーの表情に応じた複数の前記サンプル画像を生成する。
【0075】
次にステップS7において、制御部11は、前記サンプル画像に基づいて、ステップS2で検出した前記顔画像の顔の向きに合致する補間画像を生成する。例えば、ステップS4で推定した顔の向き(角度)が20度の場合、制御部11は、ステップS5で選択した顔の向きが15度のサンプル画像と30度のサンプル画像とに基づいて、顔の向きが20度の補間画像を生成する。
【0076】
次にステップS8において、制御部11は、生成した前記補間画像の色を、ステップS2で検出した前記顔画像の顔の色に合わせて調整する。具体的には、制御部11は、カメラ24により撮影された状態の顔画像の明るさ、肌の色合いなどに合わせて、前記補間画像の口元の明るさ及び色合いを調整する。
【0077】
次にステップS9において、制御部11は、ステップS3で検出したマスク領域Amを、ステップS7で生成した前記補間画像に変更して出力画像を生成する。例えば、制御部11は、ステップS8で色調整した前記補間画像を、マスク領域Amに合成して出力画像Pa2を生成する(
図6参照)。
【0078】
最後にステップS10において、制御部11は、生成した前記出力画像を出力する。具体的には、制御部11は、ユーザー端末2AからユーザーAの撮像画像Pa1(
図5参照)を取得した場合に、撮像画像Pa1に基づいて生成した出力画像Pa2(
図6参照)をユーザー端末2A及びユーザー端末2Bのそれぞれに出力する(
図9参照)。
【0079】
なお、ステップS2において制御部11が顔画像を検出しない場合(S2:No)、又は、ステップS3において制御部11がマスク領域Amを検出しない場合(S3:No)には、ステップS21において、制御部11は、ステップS1において取得した前記撮像画像を出力する。例えば、制御部11は、ユーザー端末2BからユーザーBの撮像画像Pbを取得した場合に、撮像画像Pbをそのままユーザー端末2A及びユーザー端末2Bのそれぞれに出力する(
図9参照)。
【0080】
制御部11は、会議が開始されてから会議が終了するまで、上述の処理を繰り返し実行する。
【0081】
以上説明したように、本実施形態に係る会議システム10は、被写体の顔画像を含む撮像画像を取得し、取得した前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域(例えばマスク領域)が含まれるか否かを判定する。また、会議システム10は、前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定し、複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部12(サンプル画像情報D1)において、推定した前記属性に対応する前記部分画像を選択する。また、会議システム10は、選択した前記部分画像に基づいて前記被覆領域の画像を変更して、前記撮像画像に含まれる前記顔画像に対応する出力画像を生成し、生成した前記出力画像を出力する。
【0082】
上記構成によれば、撮像画像において顔画像を検出し、顔画像に被覆領域が含まれる場合に、前記撮像画像を、被覆領域を顔画像の属性(特徴)に合った部分画像(サンプル画像)に置き換えて出力することができる。例えば、マスクを着用しているユーザーAの顔画像をマスク無しの顔画像に置き換えて相手のユーザーBに出力することができる。よって、ユーザーBは、ユーザーAの表情を読み取ることができるため、コミュニケーションが取り易くなる。すなわち、ユーザーBは、ユーザーAの顔全体を把握し易くなる。
【0083】
本発明の画像処理システムは、会議システム10に限定されず、他の分野に適用することもできる。例えば、ユーザーAがオンライン形式で講演、セミナーなどを実施する場合において、聴講者のユーザー端末に対して前記サンプル画像に基づいて生成された出力画像を送信することができる。また、聴覚障害者がマスクを着用する相手方(ユーザーA)とコミュニケーションを図る場合に、聴覚障害者のユーザー端末に対して前記サンプル画像に基づいて生成された出力画像を送信することができる。これにより、聴覚障害者は、相手方の顔全体を把握することができるためコミュニケーションを取り易くなる。
【0084】
また、本発明の被覆領域は、マスク領域に限定されず、ユーザーの体の一部が被覆された領域であればよい。例えば、ユーザーが手袋を着用している場合に、手のサンプル画像に置き換えてユーザーの手の画像を出力してもよい。
【0085】
また、本発明の画像処理システムは、会議サーバー1単体で構成されてもよいし、会議サーバー1とユーザー端末2とで構成されてもよい。また、本発明の画像処理システムは、ユーザー端末2単体で構成されてもよい。この場合、ユーザー端末2は、
図2に示す制御部11の各処理部を備えて構成される。
【0086】
[発明の付記]
以下、上述の実施形態から抽出される発明の概要について付記する。なお、以下の付記で説明する各構成及び各処理機能は取捨選択して任意に組み合わせることが可能である。
【0087】
<付記1>
被写体の顔画像を含む撮像画像を取得する取得処理部と、
前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定処理部と、
前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定処理部と、
複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定処理部により推定される前記属性に対応する前記部分画像を選択する選択処理部と、
前記選択処理部により選択される前記部分画像に基づいて前記被覆領域の画像を変更して、前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成処理部と、
前記生成処理部により生成される前記出力画像を出力する出力処理部と、
を備える画像処理システム。
【0088】
<付記2>
前記生成処理部は、前記被覆領域を前記選択処理部により選択される前記部分画像に変更して前記出力画像を生成する、
請求項1に記載の画像処理システム。
【0089】
<付記3>
前記推定処理部は、前記属性として、前記顔の向き、前記顔の骨格、前記被写体の年齢、前記被写体の性別、及び前記被写体の頭の骨格の少なくともいずれかを推定する、
付記1又は付記2に記載の画像処理システム。
【0090】
<付記4>
前記部分画像は、顔のうち少なくとも口元を含む画像である、
付記1~付記3のいずれかに記載の画像処理システム。
【0091】
<付記5>
前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に基づいて顔の表情を推定し、前記選択処理部により選択される前記部分画像における前記口元の口角を、推定した前記表情に基づいて変換する変換処理部をさらに備える、
付記4に記載の画像処理システム。
【0092】
<付記6>
前記変換処理部は、前記被写体の前記顔画像と、前記被写体の発話音声とに基づいて前記顔の表情を推定する、
付記5に記載の画像処理システム。
【0093】
<付記7>
前記選択処理部により選択される前記部分画像に基づいて、前記取得処理部により取得される前記撮像画像に含まれる前記顔画像の顔の向きに合致する画像である補間画像を生成する補間処理部をさらに備え、
前記生成処理部は、前記被覆領域を前記補間処理部により補間される前記補間画像に変更して前記出力画像を生成する、
付記1~付記6のいずれかに記載の画像処理システム。
【0094】
<付記8>
前記選択処理部により選択される前記部分画像の色を、前記撮像画像に含まれる前記顔画像の顔の色に合わせて調整する調整処理部をさらに備え、
前記生成処理部は、前記被覆領域を前記調整処理部により前記顔の色が調整された前記部分画像に変更して前記出力画像を生成する、
付記1~付記7のいずれかに記載の画像処理システム。
【符号の説明】
【0095】
1 :会議サーバー
2 :ユーザー端末
10 :会議システム
11 :制御部
24 :カメラ
111 :取得処理部
112 :検出処理部
113 :推定処理部
114 :選択処理部
115 :変換処理部
116 :補間処理部
117 :調整処理部
118 :生成処理部
119 :出力処理部
Am :マスク領域
M1 :マスク画像
D1 :サンプル画像情報
P1 :サンプル画像