(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023139983
(43)【公開日】2023-10-04
(54)【発明の名称】撮影装置、撮影方法、及びプログラム
(51)【国際特許分類】
H04N 23/60 20230101AFI20230927BHJP
H04N 23/698 20230101ALI20230927BHJP
H04N 23/611 20230101ALI20230927BHJP
H04N 7/15 20060101ALI20230927BHJP
H04N 5/262 20060101ALI20230927BHJP
G06T 3/00 20060101ALI20230927BHJP
【FI】
H04N5/232 290
H04N5/232 300
H04N5/232 380
H04N5/232 190
H04N7/15
H04N5/262 080
G06T3/00 710
G06T3/00 780
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022045808
(22)【出願日】2022-03-22
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】桑田 耕司
【テーマコード(参考)】
5B057
5C023
5C122
5C164
【Fターム(参考)】
5B057CA12
5B057CA16
5B057CB12
5B057CB16
5B057CD12
5B057CE09
5B057CE10
5B057DA08
5B057DB02
5B057DC30
5C023AA14
5C023BA01
5C023BA11
5C023CA01
5C023DA08
5C122EA33
5C122FA02
5C122FH06
5C122FH11
5C122FH18
5C122FJ01
5C122FJ09
5C122GA01
5C122GA23
5C122HA13
5C122HA35
5C122HB01
5C122HB05
5C122HB09
5C164FA10
5C164VA04P
5C164VA35P
5C164VA51P
(57)【要約】
【課題】本開示は、歪補正による画像の違和感を抑制することを目的とする。。
【解決手段】本開示は、映像配信用の画像を出力する撮影装置(600)であって、撮像して得られた魚眼画像からパノラマ画像を生成するパノラマ画像生成手段(21)と、前記パノラマ画像における人物の所定部分の位置を検知することで、前記人物の位置を特定する位置特定手段(23)と、元画像の各画素の座標を所定位置に変換するための複数種類の変換マップのうち、前記人物の所定部分の位置に応じて所定の変換マップを用いた変換後の画像を前記映像配信用の画像にレイアウトするレイアウト手段(25)と、を有することを特徴とする撮影装置である。
【選択図】
図5
【特許請求の範囲】
【請求項1】
映像配信用の画像を出力する撮影装置であって、
撮像して得られた魚眼画像からパノラマ画像を生成するパノラマ画像生成手段と、
前記パノラマ画像における人物の所定部分の位置を検知することで、前記人物の位置を特定する位置特定手段と、
元画像の各画素の座標を所定位置に変換するための複数種類の変換マップのうち、前記人物の所定部分の位置に応じて所定の変換マップを用いた変換後の画像を前記映像配信用の画像にレイアウトするレイアウト手段と、
を有することを特徴とする撮影装置。
【請求項2】
請求項1に記載の撮影装置であって、
前記複数種類の変換マップを記憶する記憶手段を有することを特徴する撮影装置。
【請求項3】
前記位置特定手段は、前記パノラマ画像における前記人物の所定部分の位置を検知すると共に、収音されることで得られたビームフォーミング情報に基づいて、前記人物の位置を特定することを特徴とする請求項1又は2に記載の撮影装置。
【請求項4】
前記位置特定手段は、前記パノラマ画像から前記人物が動いている領域を検知することで、前記人物の位置を特定することを特徴とする請求項3に記載の撮影装置。
【請求項5】
前記人物の所定部分は、当該人物の顔又は頭部であることを特徴とする請求項1乃至4のいずれか一項に記載の撮影装置。
【請求項6】
前記変換マップは、前記魚眼画像生成手段におけるレンズ射影方式と、前記パノラマ画像生成手段の入出画像の解像度によって作成されたこと特徴とする請求項1乃至5のいずれか一項に記載の撮影装置。
【請求項7】
前記複数種類の変換マップは、アスペクト比の最適化の基準位置が異なることを特徴とする請求項1乃至6いずれか一項に記載の撮影装置。
【請求項8】
前記レイアウト手段は、前記パノラマ画像及び前記変換後の画像を前記映像配信用の画像にレイアウトすることを特徴とする請求項1乃至7のいずれか一項に記載の撮影装置。
【請求項9】
映像配信用の画像を出力する撮影装置が実行する撮影方法であって、
前記撮影装置は、
撮像して得られた魚眼画像からパノラマ画像を生成し、
前記パノラマ画像における人物の所定部分の位置を検知することで、前記人物の位置を特定し、
元画像の各画素の座標を所定位置に変換するための複数種類の変換マップのうち、前記人物の所定部分の位置に応じて所定の変換マップを用いた変換後の画像を前記映像配信用の画像にレイアウトする、
ことを特徴とする撮影方法。
【請求項10】
映像配信用の画像を出力するコンピュータに、
撮像して得られた魚眼画像からパノラマ画像を生成させ、
前記パノラマ画像における人物の所定部分の位置を検知することで、前記人物の位置を特定させ、
元画像の各画素の座標を所定位置に変換するための複数種類の変換マップのうち、前記人物の所定部分の位置に応じて所定の変換マップを用いた変換後の画像を前記映像配信用の画像にレイアウトさせる、
ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、撮影装置、撮影方法、及びプログラムに関する。
【背景技術】
【0002】
ビデオ会議等の映像配信に用いられる撮影装置において、超広角(魚眼)レンズを用いて撮影された超広角(魚眼)画像を矩形のパノラマ(魚眼であれば360°パノラマ)画像に展開する技術が知られている。ビデオ会議の場合は、パノラマ映像にすることで参加者全員を同時に撮影及び把握できるようにするわけだが、さらに音声Beamformingや人物(顔)検知手段を用いて、パノラマ映像の中から発話者をCloseUP表示する技術が、既に知られている。
【0003】
また、特許文献1には、魚眼映像(画像)の画像処理方法に関して、被写体の中心位置をパノラマ展開の基準位置とすることで、補正後の違和感を抑制するための制御手段が開示されている。特許文献1に開示の発明は、魚眼映像の中心部からその端部(周辺部)に向けての歪度合いの違いを考慮した補正方法を提供することで、被写体の補正後の画像の違和感を抑制することができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、複数の参加者がいるようなビデオ会議等の映像配信に適用するには、パノラマ表示しながら複数の被写体に対し違和感抑制処理を行う必要があるが、特許文献1に開示の発明では、パノラマ展開の基準位置を固定してしまうため、被写体が複数となる場合、歪補正(Affine変換)による画像の違和感が生じるという課題が生じてしまう。
【0005】
本発明は上述の課題に鑑みてなされたもので、歪補正による画像の違和感を抑制することを目的とする。
【課題を解決するための手段】
【0006】
請求項1に係る発明は、映像配信用の画像を出力する撮影装置であって、撮像して魚眼画像を生成する魚眼画像生成手段と、前記魚眼画像からパノラマ画像を生成するパノラマ画像生成手段と、前記パノラマ画像における人物の所定部分の位置を検知することで、前記人物の位置を特定する位置特定手段と、元画像の各画素の座標を所定位置に変換するための複数種類の変換マップのうち、前記人物の所定部分の位置に応じて所定の変換マップを用いた変換後の画像を前記映像配信用の画像にレイアウトするレイアウト手段と、を有することを特徴とする撮影装置である。
【発明の効果】
【0007】
以上説明したように本発明によれば、歪補正による画像の違和感を抑制することができるという効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】実施形態に係る映像配信システムの全体構成図である。
【
図2】任意の拠点における撮影装置の使用イメージ図である。
【
図3】(a)は魚眼レンズの平面図、(b)は魚眼画像の概念図である。
【
図4】撮影装置の撮影対象範囲(垂直方向)を示す図である。
【
図5】撮影装置600及び通信端末200のハードウェア構成図である。
【
図6】一般的な映像処理部220が実行するパノラマ及びCloseUP映像出力の処理手順をブロック図形式で表した図である。
【
図7】本実施形態の映像処理部20が実行するパノラマ及びCloseUP映像出力の処理手順をブロック図形式で表した図である。
【
図8】変換マップの概念図を示し、(a)は変換マップの入力例を示した図、(b)は変換マップの出力例を示した図である。
【
図9】変換マップにおける座標情報を示した図である。
【
図10】(a)は座標情報で表した変換マップの入力例を示した図、(b)は座標情報で表した変換マップの出力例を示した図である。
【
図11】本実施形態の映像処理部の処理手順を示したフローチャート図である。
【
図12】第1の拠点における表示装置590Aに表示される表示画像を示す図である。
【
図13】(a)はパノラマ映像に対して本実施形態の複数種類の変換マップを用いて表示画像を生成する処理を示す概念図、(b)は一の変換マップを用いて画像変換する処理を示す概念図、(b)は他の変換マップを用いて画像変換する処理を示す概念図である。
【
図14】パノラマ映像に対して一般的な方法で表示画像を生成する処理を示す概念図である。
【発明を実施するための形態】
【0009】
以下、図面を用いて、本発明に係る実施形態を説明する。
【0010】
〔全体構成〕
図1は、実施形態に係る映像配信システムの全体構成図である。
【0011】
図1に示すように、本実施形態の通信システム1は、第1の拠点(拠点α)に設置された通信端末200A、表示装置590A、及び撮影装置600Aと、第2の拠点(拠点β)に設置された通信端末200B、表示装置590B、及び撮影装置600Bと、クラウド上の通信管理サーバ300と、によって構築されている。また、通信端末200Aは、PCやテレビ会議端末等であり、インターネット等の通信ネットワーク400を介して通信管理サーバ300と通信可能である。同様に、通信端末200Bは、PCやテレビ会議端末等であり、通信ネットワーク400を介して通信管理サーバ300と通信可能である。これにより、通信端末200Aと通信端末200Bは、通信管理サーバを介して通信可能である。
【0012】
なお、以降、通信端末200A及び通信端末200Bの総称を「通信端末200」と示す。表示装置590A及び表示装置590Bの総称を「表示装置590」と示す。撮影装置600A及び撮影装置600Bの総称を「撮影装置600」と示す。
【0013】
表示装置590は、ディスプレイ、電子黒板等である。また、表示装置590は、表示部の一例である。表示部には、表示装置590だけでなく、プロジェクタで映し出されるスクリーン(プロジェクションマッピングの被表示対象も含む)が含まれる。
【0014】
また、
図1では、2つの拠点が示されているが3つ以上の拠点で通信することも可能である。この場合、通信端末200、表示装置590、及び撮影装置600は、拠点の数に応じて増える。
【0015】
拠点αの撮影装置600Aは周囲を撮影して得た映像データ及び周囲の音を収音して得た音データを通信端末200Aに送信する。この送信方法は、有線でも無線でもよい。同様に、拠点βの撮影装置600Bは周囲を撮影して得た映像データ及び周囲の音を収音して得た音データを、通信端末200Bに送信する。
【0016】
また、拠点αの通信端末200Aは、撮影装置600Aから出力された映像データ及び音データを取得して、通信管理サーバ300に送信し、通信管理サーバ300は相手先である拠点βの通信端末200Bに映像データ及び音データを転送する。同様に、拠点αの通信端末200Bは、撮影装置600Bから出力された映像データ及び音データを取得して、通信管理サーバ300に送信し、通信管理サーバ300は相手先である拠点αの通信端末200Aに映像データ及び音データを転送する。
【0017】
更に、拠点αでは、通信端末200Aが拠点βの通信端末200Bから送られて来た映像データ及び音データを表示装置590Aに送信し、表示装置590Aは拠点β側の映像及び音を出力する。同様に、拠点βでは、通信端末200Bが拠点αの通信端末200Aから送られて来た映像データ及び音データを表示装置590Bに送信し、表示装置590Aは拠点α側の映像及び音を出力する。
【0018】
〔使用イメージ〕
図2は、任意の拠点における撮影装置の使用イメージ図である。
【0019】
図2に示すように、例えば、任意の拠点の会議に4名が参加し、机250の上に撮影装置600が設置されている。撮影装置600には、後述する魚眼レンズFLが設けられており、周囲360の撮影が可能である。表示装置590には、他拠点の映像及び音が出力される。
【0020】
〔撮影装置の撮像対象範囲〕
続いて、
図3及び
図4を用いて、撮影装置600の撮影対象範囲について説明する。
図3において、(a)は魚眼レンズの平面図、(b)は魚眼画像の概念図である。
図4は、撮影装置の撮影対象範囲(垂直方向)を示す図である。
【0021】
図3(a)に示すように、撮影装置600のレンズは、画角180°以上の魚眼レンズFLが設けられている。また、
図3(b)に示すように、魚眼画像(映像)のうち中央は無効領域とし、ドーナツ領域を有効領域とする。
【0022】
そして、ドーナツ領域の撮像対象範囲は、側面から見ると
図4に示すような範囲となる。天井方向の画像はカットされ、床方向は撮像範囲から外れる。それでも、人物の存在する範囲はカバー可能であるため、机を使って会議している参加者の頭部(又は顔)及び胸部を撮影することができる。
【0023】
〔ハードウェア構成〕
続いて、
図5を用いて、通信端末200及び撮影装置600のハードウェア構成について説明する。
図5は、撮影装置600及び通信端末200のハードウェア構成図である。なお、
図5には、撮影装置600、端末装置210、及び表示装置590のタッチパネル部41が示され、それ以外の構成は通信端末200の構成である。
【0024】
図5に示すように、通信端末200は、カメラMd(モジュール)10、映像処理部20、映像CODEC部30、映像出力処理部40、マイクアレイ50、音声出力部60、音声処理部70、ネットワーク処理部80、全体処理部90、操作部100、RAM(Random Access Memory)26、ROM(Read Only Memory)(またはSSD(Solid State Drive))22、録画処理部120、およびCapture処理部150を備える。
【0025】
なお、カメラMd10は、外付けの汎用カメラを接続する構成でもよい。
【0026】
カメラMdカメラMd10は、「撮像装置」の一例である。カメラMd10は、会議シーン等を撮像する。カメラMd10は、レンズ11、撮像部12(イメージセンサ)、およびDSP(Digital Signal Processor)13を有する。撮像部12は、レンズ11を介して集光された映像を電気信号に変換することにより、映像データ(RAWデータ)を生成する。DSP13は、撮像部12から出力された映像データ(RAWデータ)に対して、ベイヤー変換、3A制御、等の公知のカメラ映像処理を行うことにより、映像データ(YUV(輝度信号(Y)、輝度信号と青色成分の差(U)、輝度信号と赤色成分の差(V))データ)を生成する。
なお、レンズ11であるが本発明で適用されるレンズは超広角(魚眼)レンズを前提とする。
【0027】
映像処理部20、それに付属するRAM26、ROM(SSD)27についての詳細は、後述する。
【0028】
映像CODEC部30は、「符号化部」の一例である。映像CODEC部30は、他の通信端末200との間で送受信される映像データ(映像ストリームデータ)の符号化および復号化を行う。例えば、映像CODEC部30は、動画Endocerによって、映像処理部20から出力された映像データを符号化し、符号化された映像データを、ネットワーク処理部80を介して、他の通信端末200へ送信する。
【0029】
あるいは、映像出力処理部40でレイアウト処理された映像データを符号化し、符号化された映像データを、ネットワーク処理部80を介して、他の通信端末200へ送信する。
【0030】
また、例えば、映像CODEC部30は、他の通信端末200から送信された映像データ(他の通信端末200で符号化された映像データ)を、ネットワーク処理部80を介して取得し、動画Dedocerによって、当該映像データを復号化する。そして、映像CODEC部30は、復号された映像データを、映像出力処理部40へ出力する。映像CODEC部30は、例えば、H.264/265等の圧縮規格を用いた、CODEC回路またはソフトウェアによって構成される。
【0031】
映像出力処理部40は、映像データに基づく映像を、タッチパネル部41が備えるディスプレイに表示させる。ディスプレイは外付けの一般的なモニタでもよい。
(a) 例えば、映像出力処理部40は、映像CODEC部30で復号化された映像データに基づく映像(すなわち、他拠点の映像)を、タッチパネル部41が備えるディスプレイに表示させる。他拠点映像は複数のケースもある。
(b) また、例えば、映像出力処理部40は、カメラMd10から出力された映像データに基づく映像(すなわち、自拠点の映像)を、タッチパネル部41が備えるディスプレイに表示させる。カメラMd10からの映像は、映像処理部20で発話者CloseUP処理された映像になることもある。
(c) また、例えば、映像出力処理部40は、Capture処理部150から出力された映像データに基づく映像(すなわち、外部HostPCで表示されている資料画面等の映像)を、タッチパネル部41が備えるディスプレイに表示させる。
【0032】
以上、上記(a),(b),(c)のように、表示させる映像は多岐にわたるが、これらのビデオ会議にかかわる映像を一つのフレーム収める必要があるため、映像出力処理部40内でレイアウト処理を行う。各表示映像を単純に並べて表示することもあれば、あるいは共有資料を大きく映して各拠点の参加者映像をPicture In Picture形式で表示させることもある。
レイアウトは、表示中の映像特性やその時のレイアウトに応じて、随時レイアウトを変更させる。
【0033】
マイクアレイ50は、マイクロフォンアレイ51およびA/Dコンバータ52を有する。マイクロフォンアレイ51は、ビデオ会議の参加者の音声を集音し、音声信号(アナログ信号)を出力する。A/Dコンバータ52は、マイクロフォンアレイ51から出力された音声の音声信号(アナログ信号)をデジタル信号に変換して、変換後の音声信号(デジタル信号)を音声処理部70へ出力する。
【0034】
音声出力部60は、D/Aコンバータ62およびスピーカ61を有する。D/Aコンバータ62は、他の通信端末200から送信された音声信号(デジタル信号)をアナログ信号に変換する。スピーカ61は、D/Aコンバータ62による変換後の音声信号(アナログ信号)が供給されることにより、他拠点において集音されたビデオ会議の参加者の音声を出力する。
【0035】
音声処理部70は、他の通信端末200から受信された映像データを構成する音声データに対して、所定の音声処理(例えば、コーデック処理、ノイズキャンセル(NC)等)を行う。そして、音声処理部70は、音声処理後の音声データを、音声出力部60へ出力する。同時に、音声処理部70は、音声出力部60に出力する音声データを把握しながら、マイクアレイ50に回り込んで入力される音声データに対するエコーキャンセル(EC)処理を行う。また、音声処理部70は、他の通信端末200へ送信される映像データを構成する音声データに対して、所定の音声処理(例えば、コーデック処理、ノイズキャンセル(NC)等)を行う。そして、音声処理部70は、音声処理後の音声データを、ネットワーク処理部80へ出力する。
【0036】
また、音声処理部70は、ビームフォーミング機能により音の方向を特定し、その情報をもとに映像処理部20で発話者CloseUP映像が生成される。
【0037】
ネットワーク処理部80は、映像CODEC部(エンコーダ)30から出力された符号化済みの映像データを、通信ネットワーク400を介して、送信先の他の通信端末200へ送信する。また、ネットワーク処理部80は、他の通信端末200から送信された符号化済みの映像データを、通信ネットワーク400を介して受信する。そして、ネットワーク処理部80は、当該映像データを、映像CODEC部(エンコーダ)30へ出力する。また、ネットワーク処理部80は、符号化パラメータ(QP値、等)を決めるための、ネットワークの帯域をモニタする機能(ネットワーク状態検知部)を有する。また、ネットワーク処理部80は、符号化パラメータ(QP値、等)や送信モードの設定を最適化するための、相手局の機能や性能に関する情報を取得する機能(相手局機能判別部)を有する。
【0038】
全体処理部90は、通信端末200の全体の制御を行う。全体処理部90は、CPU(Central Processing Unit)、ROM、RAM、SSD等を備えて構成されている。例えば、全体処理部90は、オペレータの指示に従って、各モジュールおよび各ブロックのモード設定、ステータス管理等を行う。また、全体処理部90は、システムメモリ(RAM)の使用権およびシステムバスのアクセス権限の調停機能等を有する。
【0039】
また、全体処理部90は、カメラMd10の撮影モードの設定を行う。カメラMd10の撮影モードの設定は、環境に応じて自動的に設定される自動設定項目(例えば、測光条件等)と、オペレータの操作入力により手動的に設定される手動設定項目とを含み得る。
【0040】
また、全体処理部90は、映像出力処理部40で行われるレイアウト処理に関する設定を行う。共有資料を優先的に表示するためのPicture In Picture表示にする、あるいは、特定の拠点を大きく映す、等のあらかじめ決められている表示フォーマットを選択・設定する。
これらの設定は、オペレータによる操作部100の操作によって行われ、通信端末200が備えるメモリ(RAM)に記憶される。そして、これらの設定は、映像処理部20によって使用される。
【0041】
操作部100は、各種入力デバイス(例えば、タッチパネル、操作ボタン、リモコン等)を備える。操作部100は、オペレータによる各種入力デバイスに操作により、各種入力(例えば、各種設定、会議参加者の呼び出し等)を受け付ける。
【0042】
録画処理部120は、音声処理部70から出力される音声データと、映像出力処理部40で生成された映像データと、を組み合わせて録画データを構成させ、SSDに保管する。
SSDは録画処理部に内蔵するSSDでもよいし、外部デバイス(SDカードや外付けSSD)でもよい。外部デバイスを活用する場合は、接続に必要なSDIO(Secure Digital Input/Output)やUSB(Universal Serial Bus)-I/Fを装置内に搭載する。
【0043】
Capture処理部150は、外部PCから入力された映像をCaptureして、後段ユニット(本件では、映像出力処理部40)に転送する。同時に、資料共有のホスト拠点となっている場合は、映像CODEC部30へ転送する。そこで静止画Endocerによって、映像データを符号化し、符号化された映像データを、ネットワーク処理部80を介して、他の通信端末200へ送信する。
・PCから転送されてくる映像は、ここでは資料(画面)共有用の画像という扱いなので、カメラMd映像のような動画としては扱わない。よって、フレームレートにも上限を設ける(すなわち、改頁(更新)検出の間隔をある程度確保する)。
・なお、PC上で再生している動画を、フレームレートの制約を設けず通常の動画として転送したい場合は、カメラMdからの入力映像を無効にすればよい。システムの動作モード指定時にそのような設定をCapture制御部にインプットする。
【0044】
続いて、映像処理部20について説明する。映像処理部20は、カメラMd10から出力された映像データ(YUVデータ)に対し、目的に応じて各種映像処理を行う。そのため、映像処理部20は、Affine変換(Dewarp/歪補正)部21、Croping処理+変倍処理部22、顔検知/人物検知部23、動き/非動き判定部24、及びOverlay部25を有している。なお、各部21~25は、ハードウェアだけでなく、ソフトウェアによっても実現可能である。
【0045】
Affine変換部21は、カメラMd(モジュール)10から転送されてくる超広角(魚眼)映像に対して所定の歪補正処理を行う。補正内容は、RAM26から読み込んだ補正Mapに従って出力映像を生成する。
【0046】
Croping処理+変倍処理部22は、カメラMd10から出力された映像データを構成するフレーム画像から、あるいは、Affine変換部21で生成されたパノラマ映像から、特定のエリアをCropping(切り出し)して、出力形式に合わせてCroppingエリアを変倍する。但し、本実施形態を適用した処理手順では、このモジュールでのCroping処理+変倍処理は行わない。同等の処理を可能とする変換Mapを用意することで、Affine変換部21でCroping処理+変倍処理同等の処理が行えるためである。
【0047】
顔検知/人物検知部23は、カメラMd10から出力された映像データを構成するフレーム画像から、あるいは、Affine変換部21で生成されたパノラマ映像(画像)から人物の所定部分の一例である顔(又は頭部)が存在する領域(エリア)を検知する。音声処理部70から転送されるビームフォーミング情報(指向性が高められた音データ)と人物検知の結果のうち、少なくとも人物検知の結果から発話中の人物を特定する。
【0048】
動き/非動き判定部24は、カメラMd10から出力された映像データを構成するフレーム画像(本実施形態では、Affine変換部21が出力したパノラマ画像)から、人物が動いている領域を検知する。顔検知/人物検知の検知精度を向上させる補助情報となることがある。
【0049】
Overlay部25は、Affine変換部で生成された複数の画像を映像配信用の(フレーム)画像にレイアウトする。
【0050】
なお、映像処理部20は、各種映像処理を行う際に、RAM26をバッファ(ワークメモリ)として使用する。ROM27は、Affine処理用に用意された複数種類の変換Map(マップ)があらかじめ格納している。使用される変換Mapはその都度必要部分のみがRAM26に展開される。
【0051】
〔一般的な映像処理部での処理〕
続いて、
図6を用いて、一般的な映像処理部220の処理について説明する。
図6は、一般的な映像処理部220が実行するパノラマ及びCloseUP映像出力の処理手順をブロック図形式で表した図である。
【0052】
以下に、映像処理部220の処理を説明する。
(1)まず、映像処理部220は、カメラMd10から魚眼映像を入力I/Fを介して取得し、RAM26に格納する。
(2)入力I/FからDewarp処理部(Affine変換処理部)に(1)で取得した魚眼映像データが転送される。
・同時にRAM26に展開済みの変換MapのデータがDewarp処理部に転送される。
・Dewarp処理部は、この変換Mapに従って、魚眼映像をパノラマ矩形へ変形させる。
・変換Mapは、カメラMd内のレンズ射影方式と、Dewarp処理部の入出力映像の解像度に従って前もって作成されたものである。
(3)Dewarp処理されたパノラマ映像データは、再びRAM26に格納される。
(4)上記(3)で取得したパノラマ映像データはCropping処理部(+変倍処理部)に転送される。
・パノラマ映像は、人物検知に必要となる必要最低限の解像度に落としてから、人物検知部に転送される。
・人物検知部は、上記で取得したデータから人物が存在するエリアを特定し、ビームフォーミング情報とのAND条件で話者位置を特定する。
・人物検知部は、上記で得た人物及び話者の存在するエリア情報(座標情報)をCropping処理部に返す。
・Cropping処理は、上記で得た座標情報に従って、パノラマ映像の中から該当箇所をCropping+変倍処理を行う。ここで変倍処理を行う理由は以下の2点である。
【0053】
1つ目は、人物検知した際の人物の大きさと最終出力映像のレイアウト及び解像度によって変倍処理が必要になるためである。検知した人物の大きさはカメラMdと人物との距離によって異なる。
【0054】
2つ目は、パノラマ映像も最終出力映像のレイアウト及び解像度に従って縮小する必要が生ずるためである。
・OverLay部はCroppingした人物映像とパノラマ映像のレイアウト処理を行う。
(5)OverLay部は、パノラマ映像とCloseUP映像がフレーム内にレイアウトしてから、RMA26に再び戻す。
(6)出力I/Fを介して、上記(5)で取得された最終表示用映像データが映像CODEC部30に転送される。
・同時に、映像出力処理部40へ転送される。
【0055】
以上が、一般的な映像処理部220の処理であるが、以下のような問題が生じる。
【0056】
まず、一般のカメラMdの場合、上記のような画像加工を行わないため、カメラMdが出力する映像がそのまま映像CODEC部30に転送される。そのため、
図6の(2)~(5)までの処理が必要ないため、映像の転送遅延はほとんど気にする必要はない。逆に言えばパノラマCloseUP映像は遅延時間が大きくなるわけである。
【0057】
また、パノラマ映像の上部と下部とでは、元画像となる魚眼映像に当てはめると円周の大きさが異なるため、パノラマ上部ほど元画像に対しての伸長率が大きくなっている。この伸長率の違いにより、人の顔の位置によってはアスペクト比が異なるなどの違和感が発生してしまう。
【0058】
〔本実施形態の映像処理部での処理〕
続いて、
図7乃至
図11を用いて、本実施形態の映像処理部20の処理について説明する。
図7は、本実施形態の映像処理部20が実行するパノラマ及びCloseUP映像出力の処理手順をブロック図形式で表した図である。
図11は、本実施形態の映像処理部の処理手順を示したフローチャート図である。
図12は、第1の拠点における表示装置590Aに表示される表示画面を示す図である。
【0059】
以下に、映像処理部20の処理を説明する。なお、
図11の処理に関して
図7のブロック形式で表した処理を同時に説明する。
S0:通信端末200の初期化処理が行われてから、映像配信(映像通話)がスタートする。
S1:(1)まず、映像処理部20は、カメラMd10から魚眼映像を入力I/Fを介して取得し、RAM26に格納する。
S2:(2)Affine変換処理(Dewarp/歪補正)部21は、RAM26から魚眼画像データを取得する。
・同時にAffine変換処理部21は、RAM26に展開済みの変換Mapデータを取得する。なお、撮影装置600の起動直後はデフォルトレイアウトに従った変換Mapが展開されているものとする。
【0060】
<変換Mapの説明>
ここで、
図8乃至
図10を用いて、本実施形態の変換Mapを説明する。
図8は変換マップの概念図を示し、(a)は変換マップの入力例を示した図、(b)は変換マップの出力例を示した図である。
図9は、変換マップにおける座標情報を示した図である。
図10において、(a)は座標情報で表した変換マップの入力例を示した図、(b)は座標情報で表した変換マップの出力例を示した図である。
【0061】
図8(b)の出力画像の画素(0,0)は、歪補正前では、
図8(a)の元画像の画素座標(a0,b0)に存在する。
図8(b)の出力画像の画素(1,0)は、歪補正前では、
図8(a)の元画像の画素座標(a1,b0)に存在する。この要領で、出力画像の全画素について、変換前の元画像の座標情報を一覧にしたものを「変換Map」という。即ち、「変換Map」は、変換前の元画像の各画素の座標を変換後の画像の所定位置に変換するための座標情報である。複数種類の変換Mapは、アスペクト比の最適化の基準位置が異なる。
【0062】
また、
図9に示すように、出力映像の画素数(解像度)が、m x n 画素の場合、mxn個の座標情報が設定される。
・出力映像の座標(0,0)の画素は、変換前元画像の座標(a0,b0)の画素値を参照して出力画素値が生成される。
・出力映像の座標(1,0)の画素は、変換前元画像の座標(a1,b0)の画素値を参照して出力画素値が生成される。
・以降、同じ要領で繰り返す。最後は、出力映像の座標(m,n)の画素は、変換前元画像の座標(an,bn)の画素値を参照して出力画素値が生成される。
【0063】
変換Mapの座標情報は、元画像の変換形状及び撮影装置600のレンズ特性を示すパラメータに合わせて、前もって生成される。このパラメータは撮影装置600の内のRAM26又はROM27等に記憶しておけばよい。また、上記座標情報は必ずしも整数値の座標になるとは限らないため、
図10のように、周辺画素を参照画素として補間処理を行って出力画素値を生成する。
【0064】
例えば、
図10に示すように、画素a1'周囲の4画素を距離に応じて重み付けをして計算することで、画素A1のデータが生成される。また、画素a2'周囲の4画素を距離に応じて重み付けをして計算することで、画素A2のデータが生成される。以降、全画素について上記処理が繰り返される。なお、この補間方法はあくまでも一例である。
【0065】
続いて、
図7に戻り、変換Mapは最終出力映像のレイアウトに合わせて、複数種類の変換Mapが転送される。
【0066】
最終出力映像レイアウトが
図7の例の場合は、以下の複数種類の変換Mapが転送される。
→変換Mapa:人物AのCloseUP映像を生成するための変換Map
→変換Mapb:人物BのCloseUP映像を生成するための変換Map
→変換Mapc:人物CのCloseUP映像を生成するための変換Map
→変換Mapd:最終出力映像のパノラマ映像を生成するための変換Map
→変換Mapx:人物検知に必要となる必要最低限の解像度に解像度を落としたパノラマ映像を生成するための変換Map(Affine変換部にあらかじめ常駐しておく)
・Affine変換処理部21は、これらの変換Mapに従って、魚眼映像をパノラマ矩形へ変形させる。同時CloseUp矩形へ変形させる(変換MapによるAffine変換処理は結果的にCropping処理も兼ねることになるため、一般的な映像処理部220に比べて処理時間が短縮できる)。
・変換Mapは、カメラMd10内のレンズ射影方式と、Affine変換処理部21の入出力映像(画像)の解像度に従って前もって作成されたものである。
・また、CloseUPされる被写体のエリアによっても変換Mapは異なったものとなる。
S3:Affine変換処理部は、(2)で取得した魚眼映像を、(2')で取得された変換Mapに従って、画像の加工処理を行う。
→変換Mapaに従って、人物AのCloseUP映像の生成
→変換Mapbに従って、人物BのCloseUP映像の生成
→変換Mapaに従って、人物CのCloseUP映像の生成
→変換Mapaに従って、最終出力映像のパノラマ映像の生成
これにより後述のステップS21,S4へ進む。両者は並列に処理される。
S4:ステータスが変換Map更新中である場合は、何もせず終了。そうでない場合は、S5に進む。
S5:ステータスを変換Map更新中にする。
S6:(3)変換Mapxで生成されたパノラマ映像は顔検知/人物検知部23へ転送される。
S7:顔検知/人物検知部23は、ステップS6で取得した映像データから人物の所定部分が存在する領域を特定し、ここでは、ビームフォーミング情報とのAND条件で話者位置を特定する。
S8:顔検知/人物検知部23は、上記で得た人物及び話者の存在する領域(エリア)情報(座標情報)をもとに、ROM27の変換Mapの中から最適な所定の変換Mapを選択する(フィードバック)。なお、変換Mapは、撮影装置600内で記憶されていなくてもよい。例えば、通信端末200のメモリ又は通信管理サーバ300のメモリに記憶されていても良い。なお、ROM27、通信端末200のメモリ、通信管理サーバ300は、記憶手段の一例である。
・この場合、ROM27に展開されている各種変換Mapのいずれかが選択され、その選択された所定の変換Mapの中から必要なエリア(出力映像の表示領域(Window)の大きさに合わせて)のみが抜粋される。
S9:(4)上記ステップS8で選定された所定の変換MapはRAM26に転送される。次回のAffine変換処理はこの更新された変換Mapに従って実行される。ただし、所定の変換Mapが前回と同じままの場合は、(4)の処理は省略される。
S10:ステータスとしては、変換Mapの更新中を解除し、変換Mapの更新処理は終了する。
【0067】
なお、ステップS5~S9の処理(変換Map更新)は毎フレームで行う必要はなく、一定の時間間隔を置いてから繰り返される。
S21:(5)上記(2')の変換Mapa、変換Mapb、変換Mapc、変換Mapdで生成された画像は、フレーム全体の画像として、RAM26に戻される。
S22:(6)映像処理部20は、出力I/Fを介して、ステップS21で取得された最終表示用映像データを映像CODEC部30に転送する。同時に、映像処理部20は、ステップS21で取得された最終表示用映像データを映像出力処理部40に転送する。
S23:会議等の映像通話が継続中の場合は、ステップS1に戻る。
【0068】
以上のようにして、ステップS1~S3、及びステップS21~S23の処理は、毎フレームで実行される。
【0069】
また、
図11に示す処理により生成されたフレーム全体の画像のデータは、他拠点の通信端末600に送信されることで、他拠点の表示装置590には、
図12に示されるような表示画像410が表示される。表示画像410の上部の表示領域420には、パノラマ360°映像が表示され、表示画像410の下部の表示領域431,432,433には、左から右にかけて、現在発話中の人物のCloseUP映像、前回発話した人物のCloseUP映像、前々回発話した人物のCloseUP映像が表示される。
【0070】
<複数種類の変換Mapの使い分け>
ここで、
図13を用いて、複数種類の変換Mapを個別に使い分ける必要性について説明する。
図13において、(a)は本実施形態の複数種類の変換マップを用いて表示画像を生成する処理を示す概念図、(b)は一の変換マップを用いて画像変換する処理を示す概念図、(b)は他の変換マップを用いて画像変換する処理を示す概念図である。
【0071】
CloseUP映像はパノラマ全体とのつながりや連続性を維持する必要がないため、変倍率が同じであっても、以下の例のように、それぞれを被写体のエリア位置に合わせて、変倍率以外の条件に基づいてその都度使い分けたほうが、変換後の形状的な違和感を軽減できる。
・同じドーナツエリアに対しても上部(円の中心寄り)のアスペクト比を最適化した変換Mapを用いることで、
図13の人物Bの映像を生成
・同じドーナツエリアに対しても中部(中心寄りでもなく、外周寄りでもない)のアスペクト比を最適化した変換Mapを用いることで、
図13の人物Aの映像を生成
・同じドーナツエリアに対しても下部(円の外周寄り)のアスペクト比を最適化した変換Mapを用いることで、
図7の人物Dの映像を生成
例えば、
図13(b)に示すように、顔(頭部)の高さ位置が上部領域に位置する場合、B方式の変換Mapを用いることで、上部領域のアスペクト比を最適にする。但し、下部領域は細くなる。また、例えば、
図13(c)に示すように、顔(頭部)の高さ位置が中央部領域に位置する場合、D方式の変換Mapを用いることで、中央部領域のアスペクト比を最適にする。但し、上部領域及び下部領域は太くなる。
【0072】
このように、映像処理部20は、顔(頭部)の位置を検知して、同じ変倍率でも顔(頭部)の位置のアスペクト比が最適となるような所定の変換Mapを選択する。
【0073】
〔実施形態の主な効果〕
以上説明したように、本実施形態によれば、歪補正による画像の違和感を抑制しつつ、出力する画像の生成に要する時間を短縮することができるという効果を奏する。
【0074】
以下の効果について詳細に説明する。
(1)時間短縮(遅延時間の低減)
最終出力映像の要件に合わせて、要件ごとに最適化された変換Mapを複数用意して、変換処理に要する時間を短縮可能にすることで、パノラマ+CloseUP映像が出力されるまでの遅延時間を低減することができるという効果を奏する。
【0075】
一般的なパノラマCloseUP処理方法は、大きく分けて以下の2段階の処理を実行することで最終表示画像を生成する(
図6、
図14参照)。なお、
図14は、パノラマ映像に対して一般的なの方法で表示画像を生成する処理を示す概念図である。
S101:魚眼映像をパノラマ映像に変換(この処理自体にも画像の圧縮慎重処理が伴う)
S102:パノラマ映像から該当箇所を抽出及び変倍
これに対して本実施形態では、前準備として、CloseUP領域(エリア)及びCloseUP表示レイアウトによって映像の変倍率は動的に変化するため、変倍率毎に複数種類の変換Mapを用意しておく。そして、本実施形態の映像処理部20は、1段階の処理で、CloseUP画像の必要変倍率に応じて該当する所定の変換Mapを選択し、その変換Mapから対象エリアのみを展開処理を行い表示画像にレイアウトする。即ち、映像処理部20は、CloseUP処理専用の複数種類の変換Mapを用意して、超広角映像(魚眼映像)から直接CloseUP領域を生成できるようにすることで、上記のステップS101とステップS102の処理を同時に行うようにする。
【0076】
また、基本的に必要な演算量は、表示映像の画素数にほぼ比例する。また、途中の中間映像を省略しているため、演算量及び映像出力までの遅延時価が半減できる。更に、画素同士の補間処理が半減できるため、画質劣化を低減できる。
(2)歪補正(Affine変換)による画像の違和感の回避(特にCloseUP映像)
パノラマ映像生成用の変換Mapとは別に、CloseUPされる各被写体のエリア毎に最適化された複数種類の変換Mapを用いて歪補正+変倍処理を行うことで、歪補正(Affine変換)による画像の違和感を回避することができるという効果を奏する。
【0077】
本実施形態の映像処理部20は、CloseUPしたい被写体の領域(エリア)に合わせた歪補正用変換Mapをその都度用意する。ここでいう領域とは、レンズのどの位置に映っているかを意味する。例えば、魚眼レンズの中心部領域に映っている画像と、円周近辺部領域に映っている画像とでは、歪具合が異なるため歪補正用変換Mapのパラメータも異なったものになる。また、その変換Mapはパノラマ映像生成用の変換Mapとは違うものであり、全体最適なパノラマ変換Mapとは異なり特定領域に最適化された変換Mapである。
【0078】
換言すると、上記の実施形態は、超広角映像(魚眼映像の場合はドーナツエリア)を全体最適なパノラマ映像に展開する際、個々のCloseUP画像は変倍率が異なるため、変倍率毎の変換Mapを用意した事例である。しかし、CloseUP画像はパノラマ全体とのつながりや連続性を維持する必要がないため、変倍率が同じであっても、CloseUPしたい被写体の領域に合わせた歪補正用変換Mapをその都度用意する(ここでいうエリアとは、レンズのどの位置に映っているかを意味する。例えば、魚眼レンズの中心エリアに映っている画像と、円周近辺エリアに映っている画像とでは、歪具合が異なるため歪補正用変換Mapのパラメータも異なったものになる)。また、その変換Mapはパノラマ映像生成用の変換Mapとは違うものであり、全体最適なパノラマ変換Mapとは異なり特定エリアに最適化された変換Mapとなる。
【0079】
〔その他の適用例〕
以上、本発明の実施形態について説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【0080】
また、上記実施形態は魚眼映像を例に説明してきたが、魚眼以外の超広角カメラによる歪補正やパノラマ映像(360°パノラマに限定する必要はない)についても同様の考え方が適用できる。
【0081】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0082】
また、映像処理部20の各部21~25は、プログラムの実行によりコンピュータが実現することも可能である。また、このプログラムは、(非一時的な)記録媒体に記録して、提供することも可能である。
【符号の説明】
【0083】
1 通信システム
20 映像処理部
21 Affine変換(Dewarp/歪補正)部(パノラマ画像生成手段の一例)
22 Croping処理+変倍処理部
23 顔検知/人物検知部(位置特定手段の一例)
24 動き/非動き判定部(位置特定手段の一例)
25 Overlay部(レイアウト手段の一例)
26 RAM
27 ROM(記憶手段の一例)
200 通信端末
300 通信管理サーバ
590 表示装置
600 撮影装置(表示部の一例)
【先行技術文献】
【特許文献】
【0084】