(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-16
(45)【発行日】2024-12-24
(54)【発明の名称】画像処理装置および画像処理方法
(51)【国際特許分類】
G06T 1/00 20060101AFI20241217BHJP
G06T 1/40 20060101ALI20241217BHJP
G06T 7/00 20170101ALI20241217BHJP
H04N 7/14 20060101ALI20241217BHJP
H04M 1/00 20060101ALI20241217BHJP
【FI】
G06T1/00 340A
G06T1/40
G06T7/00 660A
H04N7/14
H04M1/00 R
(21)【出願番号】P 2020135645
(22)【出願日】2020-08-11
【審査請求日】2023-02-16
(73)【特許権者】
【識別番号】000002945
【氏名又は名称】オムロン株式会社
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】堀 貴裕
【審査官】大西 宏
(56)【参考文献】
【文献】特開2005-124161(JP,A)
【文献】特開2005-148916(JP,A)
【文献】特開2011-198178(JP,A)
【文献】特開2013-141104(JP,A)
【文献】特開2013-171470(JP,A)
【文献】特開2013-172166(JP,A)
【文献】特開2013-218530(JP,A)
【文献】特開2013-257844(JP,A)
【文献】特開2015-176252(JP,A)
【文献】特開2016-177829(JP,A)
【文献】特開2017-033372(JP,A)
【文献】特開2018-018367(JP,A)
【文献】特開2019-201360(JP,A)
【文献】特開2020-013563(JP,A)
【文献】特許第5950486(JP,B1)
【文献】米国特許出願公開第2009/0147141(US,A1)
【文献】米国特許出願公開第2020/0004333(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/14 - 7/173
H04M 1/00
G06T 1/00 - 1/40
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
ユーザの
顔の撮像画像および前記ユーザの
顔の基準画像の特徴量を抽出する抽出部と、
前記ユーザの
顔の撮像画像の特徴量と前記ユーザの
顔の基準画像の特徴量とを照合した結果に基づいて、前記ユーザの
顔の撮像画像に対する補正処理を有効にするか無効にするかを判定する判定部と、
前記補正処理を有効にすると判定した場合に、前記ユーザの
顔の撮像画像の補正画像を生成する補正部と、
前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの
顔の撮像画像を出力する出力部と、
を備え、
前記ユーザの
顔の基準画像は、前記ユーザの身だしなみが整っていない状態の画像であることを特徴とする画像処理装置。
【請求項2】
前記特徴量は、前記ユーザの眉及び頬の少なくとも一方の部位の特徴量である
ことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記特徴量は、Haar-like特徴量、カラーヒストグラム、カラーモーメントのうち少なくともいずれかの特徴量を含む
ことを特徴とする請求項1または2に記載の画像処理装置。
【請求項4】
前記特徴量は、前記ユーザの身だしなみが整った状態の画像および前記ユーザの身だしなみが整っていない状態の画像を学習させた学習モデルを使用したアルゴリズムによって算出される
ことを特徴とする請求項1から3のいずれか1項に記載の画像処理装置。
【請求項5】
前記判定部は、前記ユーザの
顔の撮像画像の特徴量と前記ユーザの
顔の基準画像の特徴量との一致度を算出して、前記一致度が所定の閾値未満である場合に前記補正処理を
無効にし、前記一致度が所定の閾値以上である場合に前記補正処理を
有効にすると判定する
ことを特徴とする請求項1から4のいずれか1項に記載の画像処理装置。
【請求項6】
前記補正部は、前記一致度に応じて前記ユーザの
顔の撮像画像に対する補正量を変化させることを特徴とする請求項5に記載の画像処理装置。
【請求項7】
前記補正部は、前記ユーザの
顔の撮像画像および前記ユーザの
顔の基準画像に基づいて、前記補正画像を生成する
ことを特徴とする請求項1から6のいずれか1項に記載の画像処理装置。
【請求項8】
前記補正部は、前記ユーザの
顔の撮像画像および前記ユーザの
顔の基準画像を学習させたGAN(Generative Adversarial Network)により、前記補正画像を生成する
ことを特徴とする請求項7に記載の画像処理装置。
【請求項9】
前記補正部は、前記ユーザの
顔の基準画像の
眉、目、口または顔全体を切り出し、前記ユーザの
顔の撮像画像の対応する部位を切り出した画像で置き換えることにより、前記補正画像を生成する
ことを特徴とする請求項7に記載の画像処理装置。
【請求項10】
前記補正部は、前記ユーザの顔の撮像画像に対し、顔の特徴情報に基づいてノイズを除去するフィルタ処理または彩度調整をすることにより前記補正画像を生成する
ことを特徴とする請求項1から6のいずれか1項に記載の画像処理装置。
【請求項11】
前記判定部は、前記補正処理を有効にするか無効にするかを、前記ユーザの顔の撮像画像の所定のフレーム数ごとに判定する
ことを特徴とする請求項1から10のいずれか1項に記載の画像処理装置。
【請求項12】
前記ユーザの顔の撮像画像を撮像する撮像部を、さらに備える
ことを特徴とする請求項1から11のいずれか1項に記載の画像処理装置。
【請求項13】
ユーザの
顔の撮像画像および前記ユーザの
顔の基準画像の特徴量を抽出する抽出ステップと、
前記ユーザの
顔の撮像画像の特徴量と前記ユーザの
顔の基準画像の特徴量とを照合した結果に基づいて、前記ユーザの
顔の撮像画像に対する補正処理を有効にするか無効にするかを判定する判定ステップと、
前記補正処理を有効にすると判定した場合に、前記ユーザの
顔の撮像画像の補正画像を生成する補正ステップと、
前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの
顔の撮像画像を出力する出力ステップと、
を含み、
前記ユーザの
顔の基準画像は、前記ユーザの身だしなみが整っていない状態の画像であることを特徴とする画像処理方法。
【請求項14】
請求項13に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置および画像処理方法に関する。
【背景技術】
【0002】
近年、リモートワークを導入する企業が増加し、オンライン会議またはビデオ通話の機会が増えてきている。オンライン会議またはビデオ通話の際、通話者の表情を確認するためには、映像を有効にすることが望ましい。映像を有効にする場合、通話者は、女性であれば化粧、男性であれば髭剃り等、通話に適した身だしなみに整えるために手間がかかる。これに対し、ビデオ通話のための映像を、通話に適した状態に補正する技術が提案されている。例えば、特許文献1は、画像データを伴うデータ通信において、瞬きの回数または眼球の充血度により使用者の疲労度を判定し、一定以上の疲労度の場合は予め取り込んでいた画像と合成する技術を開示する。また、特許文献2は、ユーザが事前に決定した「相手に見せてもよい映像」から、映像通信に利用する映像を選択または加工して出力する技術を開示する。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2001-016564号公報
【文献】特開2012-142925号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ビデオ通話のための映像は、通話者の疲労度を判定するだけでは、身だしなみが整った状態であるにもかかわらず、不要な補正がされる可能性がある。また、通信用の映像を、相手に見せてもよい映像から常時選択または加工する場合、通信用の映像は、身だしなみが整っているか否かに関わらず補正される可能性がある。さらに、相手に見せてもよい映像をユーザが事前に決定しておくことは、手間がかかる場合があり、使い勝手が最適とは言えない。
【0005】
本発明は、一側面では、ビデオ通話の通話者の身だしなみが整っていない場合に、通話者の撮像画像を補正する技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、上記目的を達成するために、以下の構成を採用する。
【0007】
本開示の第一側面は、ユーザの撮像画像およびユーザの基準画像の特徴量を抽出する抽出部と、ユーザの撮像画像の特徴量とユーザの基準画像の特徴量とを照合した結果に基づいて、ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定部と、補正処理を有効にすると判定した場合に、ユーザの撮像画像の補正画像を生成する補正部と、補正処理を有効にすると判定された場合は、補正画像を出力し、補正処理を無効にすると判定された場合は、補正されていないユーザの撮像画像を出力する出力部と、を備えることを特徴とする画像処理装置を提供する。
【0008】
「基準画像」は、例えば、ユーザの身だしなみが整った状態の画像である。画像処理装置は、ユーザの撮像画像と基準画像とを照合した結果に基づいて、撮像画像を補正するか否かを判定することができる。画像処理装置は、補正をするか否かの判定に応じて自動で撮像画像を補正するため、ユーザは、身だしなみの状態を気にしたり、画像の補正を指示
するための特別な操作をしたりすることなく、ビデオ通話に臨むことができる。
【0009】
特徴量は、ユーザの顔で変化を捉えやすい部位の特徴量であってもよい。撮像画像および基準画像から、ユーザの顔で変化を捉えやすい部位の特徴量を抽出することで、画像処理装置は、同一のユーザ間で照合した場合に、撮像画像の身だしなみが整っているか否か、すなわち、補正処理を無効にするか否かを精度良く判定することができる。
【0010】
特徴量は、Haar-like特徴量、カラーヒストグラム、カラーモーメントのうち少なくともいずれかの特徴量を含むものであってもよい。また、特徴量は、身だしなみが整った状態の画像および身だしなみが整っていない状態の画像を学習させた学習モデルを使用したアルゴリズムによって算出されてもよい。画像処理装置は、各種の特徴量またはこれらの組み合わせた特徴量を使用して補正処理を有効にするか否かを判定することができる。
【0011】
判定部は、ユーザの撮像画像の特徴量とユーザの基準画像の特徴量との一致度を算出して、一致度が所定の閾値未満である場合に補正処理を有効にし、一致度が所定の閾値以上である場合に補正処理を無効にすると判定してもよい。画像処理装置は、ユーザの撮像画像と基準画像との一致度に基づいて、撮像画像を補正するか否かを判定し、自動で撮像画像を補正することができる。これにより、ユーザは、身だしなみの状態を気にしたり、画像の補正を指示するための特別な操作をしたりすることなく、ビデオ通話に臨むことができる。
【0012】
補正部は、一致度に応じてユーザの撮像画像に対する補正量を変化させてもよい。撮像画像と登録画像との一致度に応じて補正量を変化させることで、ユーザは、身だしなみがある程度整っている場合には、不要な補正を抑制することができる。
【0013】
補正部は、ユーザの撮像画像およびユーザの基準画像に基づいて、補正画像を生成してもよい。例えば、補正部は、ユーザの撮像画像およびユーザの基準画像を学習させたGAN(Generative Adversarial Network、敵対的生成ネットワーク)により、補正画像を生成してもよい。また、補正部は、ユーザの基準画像の一部または顔全体を切り出し、ユーザの撮像画像の対応する部位を切り出した画像で置き換えることにより、補正画像を生成してもよい。ユーザの撮像画像および基準画像に基づいて補正画像を生成することで、画像処理装置は、基準画像により近い補正画像を生成することができる。
【0014】
補正部は、ユーザの撮像画像に対し、顔の特徴情報に基づいてノイズを除去するフィルタ処理または彩度調整をすることにより補正画像を生成してもよい。画像処理装置は、各種の顔の特徴情報に基づいて、基準画像を使用せずに補正画像を生成することができるため、ユーザは、基準画像を用意する手間を省くことができる。
【0015】
判定部は、補正処理を有効にするか無効にするかを、ユーザの撮像画像の所定のフレーム数ごとに判定してもよい。画像処理装置は、ビデオ通話中に口紅などの化粧が落ちた場合にも撮像画像を補正することができるため、ユーザは、身だしなみの崩れを気にすることなく通話を継続できる。
【0016】
画像処理装置は、ユーザの撮像画像を撮像する撮像部を、さらに備えてもよい。画像処理装置は、撮像部と一体に構成されることにより、簡易な構成とすることができる。
【0017】
本発明の第二側面は、ユーザの撮像画像およびユーザの基準画像の特徴量を抽出する抽出ステップと、ユーザの撮像画像の特徴量とユーザの基準画像の特徴量とを照合した結果
に基づいて、ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定ステップと、補正処理を有効にすると判定した場合に、ユーザの撮像画像の補正画像を生成する補正ステップと、補正処理を有効にすると判定された場合は、補正画像を出力し、補正処理を無効にすると判定された場合は、補正されていないユーザの撮像画像を出力する出力ステップと、を含むことを特徴とする人体検出方法を提供する。
【発明の効果】
【0018】
本発明によれば、ビデオ通話の通話者の身だしなみが整っていない場合に、通話者の撮像画像を補正することができる。
【図面の簡単な説明】
【0019】
【
図1】
図1は、実施形態に係る画像処理装置の適用例を説明する図である。
【
図2】
図2は、画像処理装置の機能構成を例示する図である。
【
図3】
図3は、画像補正処理を例示するフローチャートである。
【
図4】
図4は、顔の特徴量を抽出する第1の例を示す図である。
【
図5】
図5は、顔の特徴量を抽出する第2の例を示す図である。
【
図6】
図6は、撮像画像の補正処理の例を示す図である。
【発明を実施するための形態】
【0020】
以下、本発明の一側面に係る実施の形態を、図面に基づいて説明する。
【0021】
<適用例>
図1は、実施形態に係る画像処理装置の適用例を説明する図である。画像処理装置は、カメラから入力されるカメラ画像(撮像画像)と、予めDB(データベース)に登録されている登録画像(基準画像)とを取得し、各画像から特徴を抽出する。登録画像は、例えば、ユーザの身だしなみが整った状態の画像であり、撮像画像を補正するか否かを判定するための基準となる画像である。
【0022】
画像処理装置は、カメラ画像と登録画像との特徴量を照合し、一致度を評価する。一致度が所定の閾値以上である場合、画像処理装置は、ユーザの身だしなみが整っていると判断し、カメラ画像に対する補正処理を無効にする。一致度が所定の閾値未満である場合、画像処理装置は、ユーザの身だしなみが整っていないと判断して補正処理を有効にする。このように、画像処理装置は、カメラ画像の特徴量と登録画像の特徴量とを照合した結果に基づいて、カメラ画像に対する補正処理を有効にするか無効にするかを判定する。
【0023】
画像処理装置は、補正処理を有効にした場合、ユーザのカメラ画像を補正して表示画像(補正画像)を生成し、通話相手が通話に使用する他のコンピュータに送信して表示させる。また、補正画像は画像処理装置のディスプレイに表示されてもよい。表示画像は、ユーザの身だしなみが整った状態の登録画像に基づいて生成することができる。これにより、ユーザは、身だしなみが整っていない場合に、特別な操作をしなくても補正された画像が表示されるため、身だしなみの状態を気にすることなく、ビデオ通話に臨むことができる。
【0024】
<実施形態>
(装置構成)
図2を参照して、画像処理装置1の機能構成の一例について説明する。
図2は、画像処理装置1の機能構成を例示する図である。画像処理装置1は、撮像部10、登録画像データベース11、特徴抽出部12、補正判定部13、補正処理部14、出力部15を含む。
【0025】
撮像部10は、通話者であるユーザを撮像する。登録画像データベース11は、ユーザ
の撮像画像を補正するか否かを判定するための基準となる登録画像(基準画像)を格納する。登録画像データベース11は、各ユーザに対し、複数の登録画像を格納してもよい。登録画像は、例えば、ユーザが画像処理装置1で初めて通話した際の撮像画像とすることができる。また、登録画像は、ユーザが表示装置に表示された画像を確認しながら選択した画像としてもよい。なお、登録画像データベース11は、ユーザの登録画像に限られず、身だしなみが整った状態での特徴量の情報を保持するものであってもよい。
【0026】
特徴抽出部12(抽出部)は、ユーザの撮像画像および登録画像から特徴量を抽出する。特徴量は、例えば、Haar-like特徴量、カラーヒストグラム、カラーモーメントである。また、特徴抽出部12は、これらの組み合わせを、補正処理を有効にするか無効にするかを判定するための特徴量としてもよい。
【0027】
補正判定部13(判定部)は、特徴抽出部12が抽出した特徴量に基づいて、撮像画像に対する補正処理を有効にするか否かを判定する。具体的には、補正判定部13は、ユーザの撮像画像の特徴量と、ユーザの登録画像の特徴量とを照合し、一致度を算出する。
【0028】
例えば、補正判定部13は、眉と額側の肌との境界周辺のHaar-like特徴量を、撮像画像および登録画像のそれぞれで算出し、「(登録画像の特徴量-各特徴量の差分)/登録画像の特徴量」を一致度として算出することができる。補正判定部13は、眉と額側の肌との境界以外にも、複数部位でHaar-like特徴量を算出し、これらの平均値を一致度としてもよい。
【0029】
補正判定部13は、一致度が所定の閾値(例えば、80%)以上である場合、ユーザの撮像画像に対する補正処理を無効にすると判定し、一致度が所定の閾値未満である場合、補正処理を有効にすると判定することができる。
【0030】
補正処理部14(補正部)は、補正判定部13が補正処理を有効にすると判定した場合に、ユーザの撮像画像を補正する。補正処理部14は、例えば、ユーザの身だしなみが整った画像および整っていない画像を学習させたGAN(Generative Adversarial Network)により、補正画像を生成することができる。また、補正処理部14は、登録画像の一部または顔全体を切り出し、ユーザの撮像画像の対応する部位を、切り出した画像で置き換えて合成することにより、補正画像を生成することも可能である。さらに、補正処理部14は、ユーザの撮像画像に対してノイズを除去するフィルタ処理または彩度調整をすることにより、補正画像を生成することも可能である。
【0031】
出力部15は、通話者であるユーザの画像を出力する。出力部15が出力した映像は、他のコンピュータに送信される。また、出力部15が出力した映像は、画像処理装置1の表示装置に表示されてもよい。出力部15は、補正判定部13がユーザの撮像画像に対する補正処理を有効にすると判定した場合は、補正後のユーザの撮像画像(補正画像)を出力し、補正処理を無効にすると判定した場合は、ユーザの撮像画像を補正せずに出力する。補正判定部13が補正処理を有効にすると判定した場合、出力部15は、通話相手が通話に使用するタブレット端末等の電子機器に、補正後のユーザの撮像画像を送信して表示させる。
【0032】
本実施形態の画像処理装置1は、パーソナルコンピュータ、サーバコンピュータ、タブレット端末、スマートフォンのような汎用的なコンピュータでもよく、オンボードコンピュータのように組み込み型のコンピュータでもよい。画像処理装置1は、CPU(プロセッサ)、RAM(メモリ)、不揮発性のストレージ(HDD、SSDなど)、入力装置(タッチパネルなど)、通信装置(有線又は無線のLANモジュールなど)を有する。また、画像処理装置1は、レンズおよび撮像素子(CCDやCMOSなどのイメージセンサ)
を含む撮像装置、表示装置(液晶モニタなど)などのハードウェア資源も有する。
【0033】
プロセッサは、ストレージに格納されたプログラムをRAMに展開して実行することにより、
図2で説明する各機能部の機能を実現する。なお、画像処理装置1の実現方法はこれに限られない。画像処理装置1は、例えば、複数台のコンピュータ装置による分散コンピューティングにより実現されてもよく、各機能部の一部をクラウドサーバにより実現されてもよい。また、画像処理装置1の各機能部の一部は、FPGAまたはASICなどの専用のハードウェア装置によって実現されてもよい。
【0034】
(画像補正処理)
図3に沿って画像補正処理の全体的な流れを説明する。
図3は、画像補正処理を例示するフローチャートである。画像補正処理は、例えば、ユーザが、画像処理装置1で通話に使用するアプリケーションを起動することにより開始される。なお、
図3に示す画像補正処理は、カメラ画像(撮像画像)のフレームごとに実行される処理である。
【0035】
S101では、特徴抽出部12は、撮像部10で撮像されたユーザのカメラ画像を取得する。特徴抽出部12は、カメラ画像の1フレームごとにS102の処理に進む。以下、各処理の説明で、カメラ画像は、撮像部10から受信するデータの1フレームの画像であるものとして説明する。
【0036】
S102では、特徴抽出部12は、カメラ画像が、特徴量を評価するタイミングの画像であるか否かを判定する。特徴量を評価するタイミングは、例えば、特徴抽出部12が、各フレームのうち最初に人の顔を認識したタイミングとすることができる。なお、特徴量を評価するタイミングは、最初に人の顔を認識したタイミングに限られず、所定のフレーム数(例えば、30フレーム)ごと、または所定時間(例えば、5分)ごとのように所定の間隔としてもよい。カメラ画像が、特徴量を評価するタイミングの画像である場合(S102:Yes)、処理はS103に進む。カメラ画像が、特徴量を評価するタイミングの画像でない場合(S102:No)、処理はS108に進む。
【0037】
S103では、特徴抽出部12は、カメラ画像の特徴量を抽出する。また、登録画像データベース11からユーザの登録画像を取得し、登録画像の特徴量を抽出する。ここで、
図4および
図5を用いて、特徴量の抽出について説明する。
【0038】
・特徴量抽出の第1の例
図4は、顔の特徴量を抽出する第1の例を示す図である。
図4の例は、ユーザ固有の経年変化しにくい特徴点を選択し、特徴点の周辺でHaar-like特徴量を抽出する例である。
図4(A)のカメラ画像および
図4(B)の登録画像に示す丸印は、ユーザ固有の経年変化しにくい特徴点を示す。
【0039】
図4(A)は、カメラ画像とともに、ユーザの左目周辺の領域でHaar-like特徴量を算出した結果を示す。
図4(A)は、エッジを識別する矩形パターン(上下または左右に2分割をして一方が白、他方が黒のフィルタ)等を使用してHaar-like特徴量を算出した例を示す。算出されたHaar-like特徴量は、算出された値に応じた濃淡の矩形により表されている。ユーザの左目の目尻401aでのHaar-like
特徴量は、グレー401bで示される。
【0040】
図4(B)は、登録画像とともに、ユーザの左目周辺の領域でHaar-like特徴量を算出した結果を示す。Haar-like特徴量は、
図4(A)と同様に算出されたものとする。算出されたHaar-like特徴量は、算出された値に応じた濃淡の矩形により表されている。ユーザの左目の目尻402aでのHaar-like特徴量は、図
4(A)の401bよりも濃いグレー402bで示される。このように、登録画像では、アイライン等のメイクアップによる濃淡差により、カメラ画像よりもHaar-like特徴量が大きくなるため、402bは401bよりも濃くなる。
【0041】
図4に示す第1の例では、カメラ画像と登録画像との一致度は、例えば、丸印で示す特徴点のそれぞれにおけるHaar-like特徴量の一致度に基づいて算出することができる。カメラ画像と登録画像との一致度は、各特徴点での一致度の合計値または平均値としてもよい。各特徴点での一致度は、例えば、(X-|X-Y|)/X(ただし、X:登録画像の特徴点でのHaar-like特徴量、Y:カメラ画像の対応する特徴点でのHaar-like特徴量)として算出することができる。
【0042】
なお、ユーザ固有の経年変化しにくい特徴点で特徴量を照合する方法は、顔認証のアルゴリズムを用いて実現することも可能である。補正判定部13は、S104およびS105の判定処理で、顔認証アルゴリズムによって本人であるか否かを示すスコアを算出し、カメラ画像と登録画像との一致度として使用することができる。
【0043】
・特徴量抽出の第2の例
図5は、顔の特徴量を抽出する第2の例を示す図である。
図5の例は、同一ユーザ間で変化を捉えやすい特徴点を選択し、特徴点の周辺でHaar-like特徴量を抽出する例である。
図5(A)のカメラ画像および
図5(B)の登録画像に示す丸印は、同一ユーザ間で変化を捉えやすい特徴点を示す。
【0044】
図5(A)は、カメラ画像とともに、ユーザの左頬周辺の領域でHaar-like特徴量を算出した結果を示す。
図5(A)は、エッジを識別する矩形パターン(上下または左右に2分割をして一方が白、他方が黒のフィルタ)等を使用してHaar-like特徴量を算出した例を示す。算出されたHaar-like特徴量は、算出された値に応じた濃淡の矩形により表されている。ユーザの左頬の中央501aでのHaar-like
特徴量は、白501bで示される。
【0045】
図5(B)は、登録画像とともに、ユーザの左頬周辺の領域でHaar-like特徴量を算出した結果を示す。Haar-like特徴量は、
図5(A)と同様に算出されたものとする。算出されたHaar-like特徴量は、算出された値に応じた濃淡の矩形により表されている。ユーザの左頬の中央502aでのHaar-like特徴量は、グ
レー502bで示される。このように、登録画像では、頬紅等のメイクアップによる濃淡差により、カメラ画像よりもHaar-like特徴量が大きくなるため、502bは401bよりも濃くなる。
【0046】
図5に示す第2の例では、カメラ画像と登録画像との一致度は、例えば、丸印で示す特徴点のそれぞれにおけるHaar-like特徴量の一致度に基づいて、
図4の第1の例と同様に算出することができる。なお、女性の頬または男性の髭のように、身だしなみを整える前後で色が変化する部位で抽出する特徴量は、Haar-like特徴量に限られず、カラーヒストグラム、カラーモーメント等の特徴量、またはこれらを組み合わせた特徴量であってもよい。
【0047】
第2の例では、同一ユーザ間で変化を捉えやすい特徴点での特徴量を照合するため、補正判定部13は、身だしなみが整っているか否かを精度良く判定することができる。同一ユーザ間で変化を捉えやすい特徴点は、女性の場合は、眉、目尻、頬、口等の部位、男性の場合は、髭が生える口周り等の部位から選択すればよい。男女の性別によって照合する特徴点の部位を変えることで、身だしなみが整っているか否かは、より精度良く判定することが可能となる。
【0048】
・特徴量抽出の第3の例
顔の特徴量を抽出する第3の例として、CNN(Convolution Neural Network)等のディープラーニングにより生成された学習モデルを使用する例について説明する。第3の例で使用する学習モデルは、例えば、CNNに、身だしなみが整っている画像および身だしなみが整っていない画像を学習させて生成したモデルである。CNNに学習させる画像は、ユーザ本人以外の画像であってもよく、ユーザ本人の画像を含んでもよい。特徴抽出部12は、生成された学習モデルを使用して、CNNのアリゴリズムにより登録画像(身だしなみが整っている画像)およびカメラ画像のスコアを特徴量として抽出する。補正判定部13は、S104およびS105の判定処理で、登録画像のスコアとカメラ画像のスコアとの一致度に基づいて、カメラ画像に対する補正処理を有効にするか無効にするかを判定することができる。
【0049】
図3に戻り、S104では、補正判定部13は、S103で抽出されたカメラ画像の特徴量と登録画像の特徴量とを照合する。具体的には、補正判定部13は、カメラ画像の特徴量と登録画像の特徴量とに基づいて、カメラ画像と登録画像との一致度を算出する。カメラ画像と登録画像との一致度は、上記の第1の例から第3の例で説明したように、各画像から抽出する特徴量の種類に応じた方法で算出される。
【0050】
S105では、補正判定部13は、S104で算出したカメラ画像と登録画像との一致度が、所定の閾値以上であるか否かを判定する。一致度が所定の閾値以上である場合(S105:Yes)、処理はS107に進む。一致度が所定の閾値未満である場合(S105:No)、処理はS106に進む。
【0051】
S106では、カメラ画像と登録画像との一致度が所定の閾値未満であるため、補正判定部13は、補正フラグをオン(ON)に設定し、カメラ画像の補正処理を有効にする。S107では、カメラ画像と登録画像との一致度が所定の閾値以上であるため、補正判定部13は、補正フラグをオフ(OFF)に設定し、カメラ画像の補正処理を無効にする。
【0052】
補正フラグは、補正処理部14が、ユーザの撮像画像に対する補正処理を実行するか否かを決定するためのフラグである。S106で補正フラグがオンに設定されると、後のフレームに対してS107で補正フラグがオフに設定されるまで、補正処理は有効となる。特徴量を評価するタイミングが通話の最初だけである場合、最初に補正フラグがオンに設定されると、補正処理部14は、通話が終了するまでカメラ画像の補正処理を継続する。
【0053】
これに対し、S107で補正フラグがオフに設定されると、後のフレームに対してS106で補正フラグがオンに設定されるまで、補正処理は無効となる。特徴量を評価するタイミングが通話の最初だけである場合、最初に補正フラグがオフに設定されると、カメラ画像は補正されずに表示装置に表示される。
【0054】
また、特徴量を評価するタイミングが、所定のフレーム数ごとである場合、S106で補正フラグがオンに設定されると、次に特徴量を評価するタイミングになるまで、カメラ画像の補正処理は有効となる。反対に、S107で補正フラグがオフに設定されると、次に特徴量を評価するタイミングになるまで、カメラ画像の補正処理は無効となり、カメラ画像は補正されずに表示装置に表示される。
【0055】
S108では、補正処理部14は、補正フラグがオン(ON)であるか否かを判定する。補正フラグがオンである場合(S108:Yes)、処理はS109に進む。補正フラグがオフである場合(S108:No)、補正処理部14はカメラ画像を補正せずに出力部15に出力し、処理はS110に進む。
【0056】
S109では、補正処理部14は、ユーザのカメラ画像を補正して補正画像を生成する。ここで、補正処理部14が、補正画像を生成する3つの方法について説明する。1つ目および2つ目の方法は、カメラ画像および登録画像に基づいて補正画像を生成する方法である。3つ目の方法は、予め用意された顔の特徴情報に基づいてカメラ画像を補正することにより、補正画像を生成する方法である。
【0057】
1つ目の方法は、ユーザの身だしなみが整った画像と整っていない画像とを学習させたGANによって補正画像を生成する方法である。GANは、例えば、補正フラグがオフの場合のカメラ画像を、身だしなみが整った画像のデータとして学習させることができる。また、GANは、補正フラグがオンの場合のカメラ画像を、身だしなみが整っていない画像のデータとして学習させることができる。補正処理部14は、学習済みのGANにより、身だしなみが整った補正画像を生成することができる。
【0058】
2つ目の方法は、ユーザの登録画像の一部または顔全体を切り出し、ユーザの撮像画像の対応する部位を、登録画像から切り出した画像に置き換えて、補正画像を生成する方法である。
図1を用いて、2つ目の方法を具体的に説明する。
図1の例では、補正処理部14は、登録画像の眉、目、口の画像を切り出す。補正処理部14は、カメラ画像での眉、目、口を、登録画像から切り出した眉、目、口の画像に置き換えて、補正画像を生成することができる。
【0059】
なお、カメラ画像の一部を登録画像から切り出した画像に置き換えてこれらの画像を合成する際、カメラ画像と登録画像との一致度に応じて、補正量(ここでは、合成する割合)を変化させてもよい。例えば、補正処理部14は、一致度が高くなるにつれて補正量を減らし、一致度が低くなるにつれて補正量を増やせばよい。
【0060】
また、ユーザは、登録画像の顔全体を切り出して置換するのか、一部を切り出して置換するのかを設定できるようにしてもよい。また、登録画像の一部を切り出す場合、ユーザは、顔のどの部位を切り出して置換するのかを設定できるようにしてもよい。
【0061】
3つ目の方法は、登録画像は使用せずに、予め登録画像データベース11等に格納された顔の特徴情報に基づいてカメラ画像を補正し、補正画像を生成する方法である。顔の特徴情報は、例えば、メイクアップを施した場合の眉、口、頬、肌の色または明るさ等の情報である。顔の特徴情報は、例えば、仕事用、プライベート用などビデオ通話のシーンに応じて複数のパターンが用意されてもよい。ユーザは、ビデオ通話のシーンに応じて登録画像用意する手間を省くことができる。
【0062】
図6を用いて、3つ目の方法を具体的に説明する。
図6の例では、補正処理部14は、カメラ画像での頬のシミを、ノイズを除去するフィルタ処理により除去している。また、補正処理部14は、顔の特徴情報に基づいて、眉、口、頬、肌の彩度調整をすることにより、補正画像(表示画像)を生成することができる。なお、フィルタ処理または彩度調整をする場合に、カメラ画像と登録画像との一致度に応じて補正量を変化させてもよい。
【0063】
図3に戻り、S110では、出力部15は、補正処理部14から出力された映像を出力する。すなわち、出力部15は、補正フラグがオンに設定されている場合、補正処理部14が生成した補正画像を出力する。また、出力部15は、補正フラグがオフに設定されている場合、補正されていないユーザのカメラ画像を出力する。出力部15が出力した映像は、他のコンピュータに送信され表示される。また、出力部15が出力した映像は、表示装置に表示される。
【0064】
画像処理装置1は、ユーザが通話を終了するまでの間、フレームごとに上記の処理を繰り返す。ユーザが通話を終了すると、S101でカメラ画像は取得されなくなり、
図3に示す画像補正処理は終了する。
【0065】
(作用効果)
上記の実施形態において、画像処理装置1は、カメラ画像(撮像画像)と、身だしなみが整っている登録画像を取得し、各画像から特徴量を抽出して一致度を評価する。画像処理装置1は、一致度が所定の閾値以上であれば、身だしなみが整っていると判定し補正処理を無効にする。また、画像処理装置1は、一致度が所定の閾値未満であれば、身だしなみが整っていないと判定し、補正処理を有効にする。これにより、通話者(ユーザ)は、身だしなみの状態を気にしたり、画像の補正を指示するための特別な操作をしたりすることなく、ビデオ通話に臨むことができる。
【0066】
<その他>
上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。
【0067】
例えば、上記の実施形態では、補正判定部13は、カメラ画像と登録画像との特徴量を照合し、一致度を評価するがこれに限られない。補正判定部13は、カメラ画像の特徴量と登録画像の特徴量との差分を評価して、差分が所定の閾値以上の場合に補正処理を有効にし、差分が所定の閾値未満の場合に補正処理を無効にしてもよい。
【0068】
また、例えば、上記の実施形態では、補正判定部13は、カメラ画像と身だしなみが整った状態の画像との一致度が所定の閾値以上の場合に、補正処理を無効にするがこれに限られない。登録画像データベース11に身だしなみが整っていない状態の画像をユーザの基準画像として格納してもよい。この場合、補正判定部13は、カメラ画像と身だしなみが整っていない状態の画像との一致度が所定の閾値未満の場合に補正処理を無効にし、一致度が所定の閾値以上の場合に補正処理を有効にするようにしてもよい。
【0069】
<付記1>
(1)ユーザの撮像画像および前記ユーザの基準画像の特徴量を抽出する抽出部(12)と、
前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量とを照合した結果に基づいて、前記ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定部(13)と、
前記補正処理を有効にすると判定した場合に、前記ユーザの撮像画像の補正画像を生成する補正部(14)と、
前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの撮像画像を出力する出力部(15)と、
を備えることを特徴とする画像処理装置(1)。
【0070】
(2)ユーザの撮像画像および前記ユーザの基準画像の特徴量を抽出する抽出ステップと(S103)、
前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量とを照合した結果に基づいて、前記ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定ステップと(S104~S107)、
前記補正処理を有効にすると判定した場合に、前記ユーザの撮像画像の補正画像を生成する補正ステップと(S108、S109)、
前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの撮像画像を出力する出力ステップと(S110)、
を含むことを特徴とする画像処理方法。
【符号の説明】
【0071】
1:画像処理装置、10:撮像部、11:登録画像データベース、12:特徴抽出部、13:補正判定部、14:補正処理部、15:出力部