(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024096194
(43)【公開日】2024-07-12
(54)【発明の名称】画像処理装置、カメラ装置、および画像処理方法
(51)【国際特許分類】
H04N 7/15 20060101AFI20240705BHJP
G06T 7/00 20170101ALI20240705BHJP
G06V 40/16 20220101ALI20240705BHJP
【FI】
H04N7/15
G06T7/00 660A
G06V40/16 B
【審査請求】有
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2024069591
(22)【出願日】2024-04-23
(62)【分割の表示】P 2023010697の分割
【原出願日】2018-09-21
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】田中 良
(72)【発明者】
【氏名】佐藤 航一郎
(72)【発明者】
【氏名】大泉 好史
(72)【発明者】
【氏名】西 和子
(57)【要約】
【課題】複数の会議参加者が表示された画像から各会議参加者の感情を直感的に読み取ることができる画像処理装置および画像処理方法を提供する。
【解決手段】画像処理装置は、複数の会議参加者を撮影した画像データを取得する画像データ取得部と、前記画像データ取得部で取得した画像データから、各会議参加者の顔画像を検出する顔画像検出部と、検出した顔画像に基づいて各参加者の感情を推定する感情推定部と、推定した感情に基づいて各参加者の顔画像の表示態様を変更する表示態様変更部と、を備え、前記表示態様変更部により前記表示態様が変更された画像は、遠隔会議を構成する複数の画像処理装置の全てにおいて共通する。
【選択図】
図9
【特許請求の範囲】
【請求項1】
複数の会議参加者を撮影した画像データを取得する画像データ取得部と、
前記画像データ取得部で取得した画像データから、各会議参加者の顔画像を検出する顔画像検出部と、
検出した顔画像に基づいて各参加者の感情を推定する感情推定部と、
推定した感情に基づいて各参加者の顔画像の表示態様を変更する表示態様変更部と、
を備え、
前記表示態様変更部により前記表示態様が変更された画像は、遠隔会議を構成する複数の画像処理装置の全てにおいて共通する、
画像処理装置。
【請求項2】
検出した顔画像に基づいて各参加者の表情を推定する表情推定部を備え、
前記感情推定部は、前記表情推定部で推定した表情に基づいて前記感情を推定する、
請求項1に記載の画像処理装置。
【請求項3】
前記顔画像とともに前記遠隔会議に関連するコンテンツが前記画像に表示される、
請求項1または請求項2に記載の画像処理装置。
【請求項4】
前記画像データ取得部は、前記遠隔会議の複数の拠点から前記画像データを取得する、
請求項1乃至請求項3のいずれか1項に記載の画像処理装置。
【請求項5】
前記表示態様変更部は、前記推定した感情に基づいて、前記画像における前記顔画像の表示位置を変更する、
請求項1乃至請求項4のいずれか1項に記載の画像処理装置。
【請求項6】
前記表示態様変更部は、前記推定した感情に基づいて、前記顔画像にアニメーションを付加する、
請求項1乃至請求項5のいずれか1項に記載の画像処理装置。
【請求項7】
前記表示態様変更部は、前記推定した感情に基づいて、前記顔画像の色を変更する、
請求項1乃至請求項6のいずれか1項に記載の画像処理装置。
【請求項8】
全ての会議参加者の顔画像の大きさは同じである、
請求項1乃至請求項7のいずれか1項に記載の画像処理装置。
【請求項9】
請求項1乃至請求項8のいずれか1項に記載の画像処理装置と、
前記画像データを取得するためのカメラと、
を備えたカメラ装置。
【請求項10】
複数の会議参加者を撮影した画像データを取得することと、
取得した画像データから、各会議参加者の顔画像を検出することと、
検出した顔画像に基づいて各参加者の感情を推定することと、
推定した感情に基づいて各参加者の顔画像の表示態様を変更することと、
を備え、
前記表示態様変更部により前記表示態様が変更された画像は、遠隔会議を構成する複数の画像処理装置の全てにおいて共通する、
画像処理方法。
【請求項11】
検出した顔画像に基づいて各参加者の表情を推定し、
推定した表情に基づいて前記感情を推定する、
請求項10に記載の画像処理方法。
【請求項12】
前記顔画像とともに前記遠隔会議に関連するコンテンツを前記画像に表示する、
請求項10または請求項11に記載の画像処理方法。
【請求項13】
前記遠隔会議の複数の拠点から前記画像データを取得する、
請求項10乃至請求項12のいずれか1項に記載の画像処理方法。
【請求項14】
前記推定した感情に基づいて、前記画像における前記顔画像の表示位置を変更する、
請求項10乃至請求項13のいずれか1項に記載の画像処理方法。
【請求項15】
前記推定した感情に基づいて、前記顔画像にアニメーションを付加する、
請求項10乃至請求項14のいずれか1項に記載の画像処理方法。
【請求項16】
前記推定した感情に基づいて、前記顔画像の色を変更する、
請求項10乃至請求項15のいずれか1項に記載の画像処理方法。
【請求項17】
全ての会議参加者の顔画像の大きさは同じである、
請求項10乃至請求項16のいずれか1項に記載の画像処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、カメラで撮影した画像を処理する画像処理装置、カメラ装置、および画像処理方法に関する。
【背景技術】
【0002】
遠隔地間をネットワークで接続して遠隔会議を行なう場合、1つのカメラで複数の会議参加者を撮影することがある。しかし、1つのカメラで複数の会議参加者を撮影すると、各会議参加者の顔画像が小さくなる。したがって、会議参加者は、それぞれの表情を読み取りにくくなる。
【0003】
そこで、例えば特許文献1では、複数の会議参加者を同時に撮影した画像から個々の会議参加者の画像を切り出すが開示されている。
【0004】
また、特許文献2には、複数の拠点、複数の会議参加者、および資料を一つの画面に示する構成が開示されている。
【0005】
また、特許文献3には、魚眼レンズの画像を平面画像に変換する構成が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】国際公開第2018/061173号
【特許文献2】特開2011-61314号公報
【特許文献3】特開2015-19162号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
会議では、会議参加者の表情および感情を読み取ることでスムーズなコミュニケーションを行うことができる。しかし、複数の会議参加者が表示された画像から各会議参加者の感情を読み取るのは難しい。
【0008】
そこで、本発明の一実施形態の目的は、複数の会議参加者が表示された画像から各会議参加者の感情を直感的に読み取ることができる画像処理装置、カメラ装置および画像処理方法を提供することにある。
【課題を解決するための手段】
【0009】
画像処理装置は、複数の会議参加者を撮影した画像データを取得する画像データ取得部と、前記画像データ取得部で取得した画像データから、各会議参加者の顔画像を検出する顔画像検出部と、検出した顔画像に基づいて各参加者の感情を推定する感情推定部と、推定した感情に基づいて各参加者の顔画像の表示態様を変更する表示態様変更部と、を備え、前記表示態様変更部により前記表示態様が変更された画像は、遠隔会議を構成する複数の画像処理装置の全てにおいて共通する。
【発明の効果】
【0010】
本発明の一実施形態によれば、複数の会議参加者が表示された画像から各会議参加者の感情を直感的に読み取ることができる。
【図面の簡単な説明】
【0011】
【
図1】画像処理装置を含むカメラ装置の構成を示すブロック図である。
【
図2】画像処理装置の動作を示すフローチャートである。
【
図3】画像処理機能(画像処理装置)を示すブロック図である。
【
図4】カメラ11が撮影した画像の一例を示す図である。
【
図6】遠隔会議を構成する複数の画像処理装置のそれぞれの処理の流れを示した図である。
【
図7】画像処理装置の動作を示すフローチャートである。
【
図8】顔画像とともに会議に関連するコンテンツを画像に表示する例を示す図である。
【
図9】表情推定部、感情推定部、および表示態様変更部をさらに備えた画像処理機能を示すブロック図である。
【
図10】画像処理装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0012】
本実施形態の画像処理装置は、複数の会議参加者を撮影した画像データを取得する画像データ取得部と、前記画像データ取得部で取得した画像データから、各会議参加者の顔画像を検出する顔画像検出部と、検出した顔画像を切り出して1つの画像に再構成する画像構成部と、検出した顔画像に基づいて各参加者の感情を推定する感情推定部と、推定した感情に基づいて各参加者の顔画像の表示態様を変更する表示態様変更部と、を備えている。
【0013】
本実施形態の画像処理装置は、複数の会議参加者を同時に撮影した画像から個々の会議参加者の顔画像を切り出して1つの画像に再構成することで、各会議参加者の表情を読み取り易くする。さらに、画像処理装置は、会議参加者の感情により顔画像を変化させるため、より直感的に各会議参加者の感情を読み取ることができる。例えば、画像処理装置は、楽しいと感じている参加者の顔画像を揺れる様に表示させる。揺れるという画像変化を見た参加者は、当該顔画像に対応する参加者が楽しい感情を抱いていると直感的に認識することができる。なお、前記表示態様変更部は、前記推定した感情に基づいて、前記画像における前記顔画像の表示位置を変更してもよいし、前記推定した感情に基づいて、前記顔画像にアニメーションを付加してもよい。また、前記表示態様変更部は、前記推定した感情に基づいて顔画像の色を変更してもよい。なお、色の変更には、色相の変更、明暗の変更、彩度の変更、およびトーンの変更等を含む。
【0014】
また、画像処理装置は、検出した顔画像に基づいて各会議参加者の表情を推定する表情推定部を備えていてもよい。この場合、前記感情推定部は、前記表情推定部で推定した表情に基づいて前記感情を推定する。表情は、感情を表すための一つの指標である。表情と感情は密接に関連する。よって、画像処理装置は、顔画像からまず表情を推定し、推定した表情に基づいて感情を推定することで、より精度よく感情を推定することができる。
【0015】
また、前記画像は、前記顔画像とともに前記会議に関連するコンテンツ(例えば共有資料)を前記画像に表示してもよい。
【0016】
会議参加者は、話者と聴者とを含む。話者は、プレゼンテーション資料等のコンテンツを用いて会話を行なう。この様なコンテンツは、例えばプロジェクター用のスクリーンまたはモニタに表示される。話者および聴者は、スクリーンまたはモニタを見ながら会議を行なう。聴者は、スクリーンを見るため、同じ室内にいる話者の表情とコンテンツとを同時に見ることが難しい。話者も、同じ室内にいる聴者の表情とコンテンツとを同時に見ることが難しい。
【0017】
しかし、上述の様に、画像処理装置は、個々の会議参加者の顔画像とコンテンツとを1つの画像として再構成する。そのため、会議参加者は、互いの表情を見ながら会話を行なうことができるため、スムーズな会議を行なうことができる。
【0018】
また、前記画像は、遠隔会議を構成する複数の画像処理装置の全てにおいて共通であってもよい。つまり、全ての拠点において、同じ画像が表示されてもよい。通常、遠隔会議では、遠端側の画像を大きく表示し、近端側の画像を小さく表示する。この場合、参加者は、ある拠点とある拠点とで会話しているという意識が強くなる。しかし、本実施形態の画像処理装置は、個々の参加者の顔画像を切り出して再構成された1つの画像を全ての拠点において共有し、全ての拠点において同じ画像を表示する。したがって、参加者は、遠端側か近端側かを意識することなく、同じ場にいて会議を行なっているように認識しやすくなる。
【0019】
以下、本実施形態の具体的構成について説明する。
図1は、画像処理装置10を含むカメラ装置1の構成を示すブロック図である。
図2は、画像処理装置10の動作を示すフローチャートである。
【0020】
カメラ装置1は、カメラ11、CPU12、DSP13、メモリ14、ユーザインタフェース(UI)15、スピーカ(SP)16、マイク(MIC)17、および通信インタフェース(I/F)18を備えている。カメラ装置1は、例えばパーソナルコンピュータ等の情報処理装置により実現される。
【0021】
図3は、画像処理装置10に対応する機能的ブロック図である。これら機能的構成は、CPU12およびDSP13等のハードウェアがメモリ14からプログラムを読み出して実行することにより実現される。つまり、画像処理装置10は、CPU12およびDSP13等のハードウェアがメモリ14からプログラムを読み出して実行することにより実現される。
【0022】
画像処理装置10は、画像データ取得部100、顔画像検出部101、および画像構成部102を備えている。画像データ取得部100は、カメラ11から画像データを受信する(S11)。
【0023】
カメラ11は、プロジェクターのスクリーンと同様に、室内の壁等に設置される。カメラ11は、複数の参加者を撮影するように構成されている。したがって、カメラ11は、複数の遠隔会議参加者を撮影した画像データを生成する。カメラ11は、画像データ取得部の一例である。なお、画像処理装置10およびカメラ11はカメラ装置1として一体である必要はなく、それぞれ別の装置であってもよい。この場合、画像処理装置10は、USB等の通信I/Fを介して、カメラから画像データを受信する。この場合、USB等の通信I/Fが画像データ取得部を構成する。
【0024】
顔画像検出部101は、受信した画像データから、各遠隔会議参加者の顔画像を検出する(S12)。顔画像の検出手法は、どの様な手法でもよい。例えば、顔画像検出部101は、受信した画像データから顔画像の特徴量を抽出し、顔画像のデータベースとテンプレートマッチングすることにより、顔画像を検出する。顔画像検出部101は、ニューラルネットワークにより顔画像を検出してもよい。また、顔画像検出部101は、ディープラーニング等の学習処理を組み合わせてもよい。
【0025】
顔画像の検出結果を示す情報は、画像構成部102に出力される。画像構成部102は、顔画像の検出結果に基づいて、受信した画像データから、顔画像を切り出す(S13)。
【0026】
図4は、カメラ11が撮影した画像の一例を示す図である。
図4の画像の例では、3名の会議参加者が含まれている。したがって、顔画像検出部101は、3名の会議参加者のそれぞれの顔画像を検出する。画像構成部102は、検出した3名の会議参加者の顔画像を切り出す。画像構成部102は、切り出した顔画像(以下、個別顔画像と称する。)をそれぞれ拡大し、1つの画像として再構成する(S14)。
【0027】
画像構成部102は、再構成した画像データを通信I/F18を介して出力する(S15)。例えば、再構成した画像データは、例えばプロジェクタまたはモニタ等の表示装置に出力する。
【0028】
これにより、
図5に示す様に、プロジェクタのスクリーンまたはモニタには、全ての会議参加者の顔画像が1つの画像に表示される。よって、会議参加者は、それぞれの表情を読み取り易くなり、感情も読み取り易くなる。
【0029】
なお、遠隔会議を構成する場合には、画像構成部102は、個別顔画像を通信I/F18を介してパケットデータとして他装置に送信する。この場合、通信I/F18は、パケット送信部を構成する。また、画像構成部102は、通信I/F18を介して、他装置から出力された個別顔画像をパケットデータとして受信する。この場合、通信I/F18は、パケット受信部を構成する。画像構成部102は、自装置で切り出した個別顔画像と、他装置から受信した個別顔画像と、をそれぞれ拡大して合成して、1つの画像として再構成する。
【0030】
図6は、遠隔会議を構成する複数の画像処理装置10のそれぞれの処理の流れを示した図である。
図7は、画像処理装置10の動作を示すフローチャートである。
図7において、
図2のフローチャートと共通する処理は同一の符号を付し、説明を省略する。
【0031】
複数の画像処理装置10において、それぞれの画像構成部102は、それぞれのカメラ11で撮影した画像から顔画像を切り出す(S13)。それぞれの画像構成部102は、個別顔画像を通信I/F18を介して送受信する(S21)。画像構成部102は、自装置で切り出した個別顔画像と、他装置から受信した個別顔画像と、をそれぞれ拡大して合成して、1つの画像として再構成する(S22)。再構成した画像データは、例えばプロジェクタまたはモニタ等の表示装置に出力する(S23)。
【0032】
このようにして、遠隔会議を構成する各拠点のスクリーンまたはモニタには、遠隔会議の全ての参加者の顔画像が1つの画像に表示される。よって、会議参加者は、それぞれの表情を読み取り易くなり、感情も読み取り易くなる。なお、個別顔画像を拡大することは必須ではない。全ての会議参加者が1つの画像に表示されるだけでも、1つの画面を見るだけで全ての会議参加者の顔を見ることができるため、従来よりもそれぞれの表情を読み取り易くなり、感情も読み取り易くなる。
【0033】
なお、S14の処理において、画像構成部102は、個別顔画像とともに会議に関連するコンテンツ(例えば共有資料)を画像に表示してもよい。例えば、
図8に示す様に、遠隔会議を構成する画像処理装置のうち一部の装置が共有資料を送信する。画像構成部102は、S14の処理において、送受信した共有資料を含めた画像を再構成する。
【0034】
これにより、会議参加者は、互いの表情を見ながら会話を行い、かつ共有資料も同時に見ることができるため、よりスムーズな会議を行なうことができる。
【0035】
なお、再構成した画像は、遠隔会議を構成する全ての画像処理装置10において共通してもよいし、近端側の会議参加者を大きくしてもよい。ただし、全ての拠点において同じ画像を表示することで、会議参加者は、遠端側か近端側かを意識することなく、同じ場にいて会議を行なっているように認識しやすくなる。
【0036】
また、各会議参加者の画像も、全て同じ大きさで表示してもよいし、近端側の会議参加者を大きく、遠端側の会議参加者を小さく表示してもよい。また、話者を検出して、話者の個別顔画像を大きく表示してもよい。
【0037】
また、画像処理は、個々の拠点の装置において行う必要はなく、サーバで行ってもよい。各拠点の装置は、カメラ11で撮影した画像データをサーバに送信する。サーバは、個別顔画像を切り出して、1つの画像に再構成する。サーバは、再構成した画像データを個々の拠点に配信する。また、例えば個別顔画像の切り出しを個々の拠点の装置が行ってもよい。サーバは、各拠点の装置から個別顔画像を受信し、1つの画像に再構成する。
【0038】
図9は、さらに、表情推定部103、感情推定部104、および表示態様変更部105を備えた画像処理装置10の機能的ブロック図である。
図10は、画像処理装置10の動作を示すフローチャートである。
図10において、
図2のフローチャートと共通する処理は同一の符号を付し、説明を省略する。
【0039】
図9に示す各構成も、CPU12およびDSP13等のハードウェアがメモリ14からプログラムを読み出して実行することにより実現される。
【0040】
表情推定部103は、画像構成部102から個別顔画像を受信する(S21)。表情推定部103は、個別顔画像に基づいて各参加者の表情を推定する(S22)。表情推定の手法は、どの様な手法でもよい。例えば、表情推定部103は、受信した画像データから顔画像の特徴量を抽出し、各種の表情に対応する顔画像のデータベースとテンプレートマッチングすることにより、表情を推定する。表情は、例えば、笑い、驚き、泣き、怒り、暗い、明るい、あるいは緊張等の表情が含まれる。また、表情には、無表情も含まれる。表情推定部103は、ニューラルネットワークにより表情を推定してもよい。また、表情推定部103は、ディープラーニング等の学習処理を組み合わせてもよい。
【0041】
推定された表情を示す情報は、感情推定部104に出力される。感情推定部104は、表情推定部103で推定された表情に基づいて、各参加者の感情を推定する(S23)。感情推定の手法も、どの様な手法でもよい。例えば、感情推定部104は、表情と感情とを対応付けた感情データベースを参照して、受信した表情にマッチングする感情を選択する。感情は、例えば、楽しい、真剣、退屈、感動、興奮、悲しみ、怒り、諦め、驚き、嫌悪、恐怖、困惑あるいは満足等の様々な感情が含まれる。例えば、怒りまたは驚きは、表情と感情が一致する。また、笑いの表情、または明るい表情は、喜びの感情と相関は高い。また、感情推定部104は、視線に関する情報に基づいて感情を推定してもよい。感情推定部104は、画像構成部102から個別顔画像を受信して、視線情報を抽出する。視線が正面を向いている場合には、真剣さが高く、視線が他の方向を向いている場合には、怠惰な感情であると推定することができる。
【0042】
なお、表情推定部103による表情推定結果に基づいて感情を推定することは必須ではない。例えば、感情推定部104は、受信した画像データから顔画像の特徴量を抽出し、各種の表情に対応する顔画像のデータベースとテンプレートマッチングすることにより、感情を直接的に推定してもよい。ただし、表情は、感情を推定するための1つの指標である。したがって、感情推定部104は、表情推定部103による表情推定結果に基づいて感情を推定することにより、より高精度に感情を推定することができる。
【0043】
また、感情推定部104は、ニューラルネットワークにより感情を推定してもよいし、ディープラーニング等の学習処理を組み合わせてもよい。
【0044】
感情推定部104の推定結果は、表示態様変更部105に出力される。表示態様変更部105は、画像構成部102から画像データを受信する(S25)。表示態様変更部105は、感情推定部104で推定した感情に基づいて各参加者の顔画像の表示態様を変更する(S26)。表示態様の変更は、色を変更する、位置を変更する、大きさを変更する、またはアニメーションを付加する、等が含まれる。
【0045】
例えば、
図11の例では、表示態様変更部105は、楽しい感情を持つ会議参加者の画像に対して、揺らすアニメーションを付加している。なお、感情の度合いに応じてアニメーションの強弱を変更してもよい。
【0046】
また、表示態様変更部105は、話者等の真剣な感情を持つ会議参加者の画像を大きくし、退屈な感情を持つ会議参加者の画像を小さくしてもよい。また、表示態様変更部105は、話者等の真剣な感情を持つ会議参加者を上方向に移動し、退屈な感情を持つ会議参加者の画像を下方向に移動してもよい。
【0047】
また、表示態様変更部105は、似た感情を持つ会議参加者の画像同士を近づけてもよい。例えば、表示態様変更部105は、真剣な感情の持つ会議参加者同士を近づける、退屈な感情を持つ会議参加者同士を近づける。
【0048】
あるいは、表示態様変更部105は、楽しい感情を持つ会議参加者および真剣な感情を持つ会議参加者の画像を明るく表示し、退屈の感情を持つ会議参加者の画像を暗く表示してもよい。つまり、表示態様変更部105は、感情に応じて色を変更してもよい。
【0049】
なお、
図9乃至
図11に示した例では、画像構成部102による個別顔画像の再構成は必須ではない。画像構成部102は、複数の会議参加者を撮影した画像をそのまま出力し、表示態様変更部105は、複数の会議参加者を撮影した画像において、各会議参加者の画像の表示態様を変更するだけでもよい。この様に、個別顔画像の再構成を行なわなくとも、会議参加者は、複数の会議参加者が表示された画像から各会議参加者の感情を直感的に読み取ることができる。
【0050】
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【符号の説明】
【0051】
1…カメラ装置
10…画像処理装置
11…カメラ
12…CPU
13…DSP
14…メモリ
15…ユーザインタフェース(UI)
16…スピーカ(SP)
17…マイク(MIC)
18…通信I/F
101…顔画像検出部
102…画像構成部
103…表情推定部
104…感情推定部
105…表示態様変更部