(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024130685
(43)【公開日】2024-09-30
(54)【発明の名称】表示方法、表示処理装置およびプログラム
(51)【国際特許分類】
H04N 7/15 20060101AFI20240920BHJP
G09G 5/00 20060101ALI20240920BHJP
G09G 5/37 20060101ALI20240920BHJP
G09G 5/377 20060101ALI20240920BHJP
H04N 21/431 20110101ALI20240920BHJP
H04N 7/18 20060101ALI20240920BHJP
G06T 19/00 20110101ALI20240920BHJP
【FI】
H04N7/15
G09G5/00 510A
G09G5/00 550C
G09G5/37 320
G09G5/37 600
G09G5/377 100
H04N21/431
H04N7/18 U
G06T19/00 600
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023040546
(22)【出願日】2023-03-15
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】鵜飼 訓史
【テーマコード(参考)】
5B050
5C054
5C164
5C182
【Fターム(参考)】
5B050AA10
5B050BA11
5B050DA04
5B050EA09
5B050EA19
5B050EA27
5B050FA05
5C054CC02
5C054CF06
5C054EA01
5C054EA05
5C054FC12
5C054FC15
5C054FE12
5C054FE18
5C054FF03
5C054HA25
5C164FA10
5C164UB88P
5C164VA07P
5C182AB04
5C182AC03
5C182AC39
5C182AC43
5C182BA03
5C182BA04
5C182BA06
5C182BA14
5C182BA27
5C182BA35
5C182BA54
5C182BC16
5C182CB04
5C182CB45
5C182CB47
5C182CB54
5C182DA32
(57)【要約】
【課題】ある空間において、イベントの使用範囲が容易に理解できる表示方法を提供する。
【解決手段】表示方法は、カメラ映像を受け付けて、イベントの使用領域を示す領域情報を受け付けて、前記領域情報に対応する、ある水平面上の境界画像を前記カメラ映像に重畳して表示する。
【選択図】
図5
【特許請求の範囲】
【請求項1】
カメラ映像を受け付けて、
イベントの使用領域を示す領域情報を受け付けて、
前記領域情報に対応する、ある水平面上の境界画像を前記カメラ映像に重畳して表示する、
表示方法。
【請求項2】
前記水平面は、床面を含む、
請求項1に記載の表示方法。
【請求項3】
前記使用領域は、マイクの収音範囲に対応する
請求項1または請求項2に記載の表示方法。
【請求項4】
前記カメラ映像から人物を認識し、
認識した人物のうち、前記使用領域に属する人物と、属さない人物とを異なる態様で表示する、
請求項1または請求項2に記載の表示方法。
【請求項5】
前記カメラ映像のうち、前記使用領域の外をマスクする、
請求項1または請求項2に記載の表示方法。
【請求項6】
前記使用領域は、所定の平面図形により指定される、
請求項1または請求項2に記載の表示方法。
【請求項7】
前記平面図形における、奥行き、角度または幅を指定する
請求項6に記載の表示方法。
【請求項8】
前記水平面は、床面、天井面、または顔の高さの面を示す境界線で表される、
請求項1または請求項2に記載の表示方法。
【請求項9】
カメラ映像を受け付けて、
イベントの使用領域を示す領域情報を受け付けて、
前記領域情報に対応する、ある水平面上の境界画像を前記カメラ映像に重畳して表示器に表示する、
プロセッサを備えた表示処理装置。
【請求項10】
前記水平面は、床面を含む、
請求項9に記載の表示処理装置。
【請求項11】
前記使用領域は、マイクの収音範囲に対応する
請求項9または請求項10に記載の表示処理装置。
【請求項12】
前記プロセッサは、
前記カメラ映像から人物を認識し、
認識した人物のうち、前記使用領域に属する人物と、属さない人物とを異なる態様で表示する、
請求項9または請求項10に記載の表示処理装置。
【請求項13】
前記プロセッサは、前記カメラ映像のうち、前記使用領域の外をマスクする、
請求項9または請求項10に記載の表示処理装置。
【請求項14】
前記使用領域は、所定の平面図形により指定される、
請求項9または請求項10に記載の表示処理装置。
【請求項15】
カメラ映像を受け付けて、
イベントの使用領域を示す領域情報を受け付けて、
前記領域情報に対応する、ある水平面上の境界画像を前記カメラ映像に重畳して表示器に表示する、
処理を情報処理装置に実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、表示方法、表示処理装置およびプログラムに関する。
【背景技術】
【0002】
特許文献1には、表示装置にアイコンを表示して話者位置を表示することで、話者の位置を可視化するカーオーディオが開示されている。
【0003】
特許文献2には、マイクロフォン17A及び17Bにて車内で話者の音声を収音し、入力音圧レベルを表す画像データと2つのマイクロフォン17A及び17Bによる指向性を表す画像データをデータメモリ14から読み出して、それらの画像データからドット展開した表示データを生成してディスプレイ15上に表示する車載収音装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006-126424号公報
【特許文献2】特開2006-201286号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の技術は、使用範囲を表示するものではない。
【0006】
本開示のひとつの態様は、ある空間において、イベントの使用範囲が容易に理解できる表示方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
表示方法は、カメラ映像を受け付けて、イベントの使用領域を示す領域情報を受け付けて、前記領域情報に対応する、ある水平面上の境界画像を前記カメラ映像に重畳して表示する。
【発明の効果】
【0008】
本発明の一実施形態によれば、イベントの使用範囲が容易に理解できる。
【図面の簡単な説明】
【0009】
【
図1】表示処理装置1の構成を示すブロック図である。
【
図2】本実施形態の表示方法によりOSDで表示器5に表示される映像の一例である。
【
図3】表示方法の動作を示すフローチャートである。
【
図4】本実施形態の表示方法によりOSDで表示器5に表示される映像の一例である。
【
図5】本実施形態の表示方法によりOSDで表示器5に表示される映像の一例である。
【
図6】変形例1に係る表示器5に表示される映像の一例である。
【
図7】変形例2に係る表示器5に表示される映像の一例である。
【
図8】変形例3に係る表示器5に表示される映像の一例である。
【
図9】変形例4に係る表示器5に表示される映像の一例である。
【
図10】変形例5に係る表示器5に表示される映像の一例である。
【発明を実施するための形態】
【0010】
図1は、表示処理装置1の構成を示すブロック図である。表示処理装置1は、パーソナルコンピュータ(PC)3および表示器5に接続される。表示処理装置1およびPC3は、例えばUSBケーブルを介して接続される。表示処理装置1および表示器5は、例えばHDMI(登録商標)ケーブルを介して接続される。
【0011】
PC3は、汎用の情報処理装置であり、例えば、映像信号および音信号を送受信する遠隔会議用アプリケーションプログラムを実行する。なお、本実施形態において、信号とはデジタル信号を意味する。
【0012】
表示器5は、LCDまたはOLED等の表示装置からなる。表示器5は、PC3で実行される上記遠隔会議用アプリケーションプログラムに関する映像を表示する。
【0013】
表示処理装置1は、カメラ11、プロセッサ12、フラッシュメモリ14、RAM15、ユーザインタフェース(I/F)16、スピーカ17、6個のマイク18A~18F、および通信I/F19を備えている。
【0014】
カメラ11、スピーカ17、およびマイク18A~18Fは、例えば表示器5の上または下に配置される。カメラ11は、表示器5の前に居る利用者を撮影したカメラ映像を取得する。マイク18A~18Fは、表示器5の前に居る利用者の音声を取得する。スピーカ17は、表示器5の前に居る利用者に対して、音声を出力する。なお、マイクの数は6個に限らない。マイクは、1つのマイクであってもよい。本実施形態のマイクの数は6個であり、アレイマイクを構成する。プロセッサ12は、マイク18A~18Fで取得した音信号にビームフォーミング処理を施す。
【0015】
プロセッサ12は、フラッシュメモリ14から動作用のプログラムをRAM15に読み出すことにより、表示処理装置1の動作を統括的に制御する制御部として機能する。例えば、フラッシュメモリ14は、プログラム141を記憶している。プロセッサ12は、プログラム141により、本発明の表示方法を実行する。なお、プログラム141は自装置のフラッシュメモリ14に記憶しておく必要はない。プロセッサ12は、例えばサーバ等から都度プログラム141をダウンロードしてRAM15に読み出してもよい。
【0016】
プロセッサ12は、USBケーブルを介してPC3から映像信号を受信する。当該映像信号は、上記遠隔会議用アプリケーションプログラムに関する映像である。プロセッサ12は、受信した映像信号を、HDMI(登録商標)ケーブルを介して表示器5に転送する。また、プロセッサ12は、カメラ11から取得したカメラ映像を、上記遠隔会議用アプリケーションプログラムに関する映像に重畳し、表示器5上にOSD(On-Screen Display)で表示する。また、プロセッサ12は、カメラ11から取得したカメラ映像に係る映像信号を通信I/F19を介してPC3に出力する。プロセッサ12は、マイク18A~18Fで取得した音信号にビームフォーミング処理を施し、ビームフォーミング処理後の音信号を通信I/F19に出力する。
【0017】
プロセッサ12は、ビームフォーミング処理等の指向性処理を施すことで、イベントの使用領域外の音声を収音しないようにマスク処理を施す。ビームフォーミングは、例として、それぞれの会議参加者の方向に向けた遅延和型収音ビーム出力を加算する処理、それぞれの会議参加者の方向に利得が一定の拘束を付けて全体パワーを最小化する最小分散(MinimumVariance)処理、会議参加者の方向に向けた遅延和型収音ビーム出力の加算と会議参加者の方向に死角を形成するブロッキング行列(Block Matrix,BM)の出力とを利用するサイドローブキャンセラ(Generalized Sidelobe Canceller, GSC)処理、帯域ごとに分割された遅延和型収音ビーム出力とマイク装置の出力とのパワーを比較し、分割された遅延和型収音ビーム出力の方が一定以上小さい時のみその分割された遅延和型収音ビーム出力を減衰し、分割された遅延和型収音ビーム出力を再統合するバイナリマスク処理、独立成分分析(ICA)等の音源分離方法で収音信号から音源を分離し、分離された各音源信号の到来方向を逆射影法(ProjectionBack)で判定し、会議参加者の方向から来た音源信号のみをミックスする処理等が挙げられる。
【0018】
通信I/F19は、PC3に映像信号および音信号を出力する。PC3の遠隔会議用アプリケーションプログラムは、通信I/F19から出力された映像信号および音信号を、他の装置に送信する。また、PC3の遠隔会議用アプリケーションプログラムは、他の装置から映像信号および音信号を受信する。PC3は、受信した映像信号および音信号を通信I/F19に出力する。
【0019】
プロセッサ12は、通信I/F19から受信した映像信号を、HDMI(登録商標)ケーブルを介して表示器5に転送する。また、プロセッサ12は、通信I/F19から受信した音信号をスピーカ17に出力する。これにより、表示処理装置1は、遠隔地との音声会話を行うためのコミュニケーションシステムとして機能する。
【0020】
図2は、本実施形態の表示方法によりOSDで表示器5に表示される映像の一例である。
図3は、本実施形態の表示方法の動作を示すフローチャートである。
【0021】
プロセッサ12は、まずカメラ11からカメラ映像を受け付ける(S11)。
図2の例では、カメラ11は、机の長手方向(奥行き方向)に沿って居る複数の人物の顔画像を撮影している。カメラ11は、机を短手方向に挟んで左側および右側に居る4人の人物A1~A3およびA5、および机よりも遠い位置に居る人物A4を撮影している。
【0022】
次に、プロセッサ12は、イベントの使用領域を示す領域情報を受け付ける(S12)。
図4は、表示器5に表示されるGUIの一例を示す図である。プロセッサ12は、OSDで、表示器5に
図4の様なGUIを表示する。
図4の例では、プロセッサ12は、カメラ映像の下に使用領域を受け付けるためのインタフェースを表示し、右下の位置に、室内を模した2次元平面画像を表示している。また、プロセッサ12は、机および人物を模した平面画像も表示している。
【0023】
プロセッサ12は、ユーザI/F16を介して、イベントの使用領域を受け付ける。ユーザI/F16は、マウス、キーボード、あるいは表示器5に重畳されたタッチパネルからなる。ユーザは、
図4の例では、奥行き(Max distance)、左方向の幅(Left)、右方向の幅(Right)を数値で指定することで、イベントの使用領域を入力する。また、ユーザは、ユーザI/F16を用いて、
図4に示す2次元平面画像において所定の平面図形を描画指定することで、イベントの使用領域を入力してもよい。
【0024】
プロセッサ12は、受け付けた領域情報に基づいて、使用領域外の音声を収音しないようにビームフォーミング処理を施す(S13)。これにより、プロセッサ12は、指定された使用領域内で収音された音声に係る音信号をPC3に出力する。
【0025】
プロセッサ12は、受け付けた領域情報に対応する、ある水平面上の境界画像をカメラ映像に重畳する(S14)。
図5は、本実施形態の表示方法によりOSDで表示器5に表示される映像の一例である。
図5の例では、プロセッサ12は、使用領域と、床面および天井面と、の境界を示す境界線を表示している。
【0026】
水平面は、カメラ11の高さ(Camera Height)、仰角(Camera Angle)に基づいて求められる。
図4,
図5の例では、カメラ映像の下に使用領域を受け付けるためのインタフェースを表示している。ユーザは、ユーザI/F16を介して、カメラ11の高さおよび仰角の数値を入力する。あるいは、カメラ11は、LiDAR(Light Detection and Ranging)等の測距センサ、およびジャイロセンサ等の角度センサにより、カメラ11の高さおよび仰角を自動検出してもよい。
【0027】
プロセッサ12は、受け付けたカメラ11の仰角に基づいて、カメラ映像の消失点を求める。例えば、仰角0°である場合、カメラ映像内の中央に消失点が求められる。仰角が小さくなる(マイナス)方向では、カメラ映像内の消失点が上方向になり、仰角が大きくなる(プラス)方向では、カメラ映像内の消失点が下方向になる。当該消失点から放射状に引かれる直線は、床面または天井面等の、実空間内の水平面に平行する直線になる。プロセッサ12は、受け付けたカメラ11の高さに応じて、床面および天井面の高さに対応する直線を選択して、使用領域との境界画像として表示する。
【0028】
また、プロセッサ12は、受け付けた距離、左方向の幅、および右方向の幅に基づいて、使用領域のうち奥行き方向の境界画像を長方形で表示する。これにより、
図5に示す様に、使用領域に対応する仮想的な直方体の面を示す様な境界画像が構成される。
【0029】
そのため、利用者は、オープンスペース等の同じ空間内で会議の使用領域と非使用領域が混在する場合でも、OSDで表示器5に表示される映像を見ることで、自身が使用領域(この場合、マイクの収音範囲)に属するか否か、容易に判断することができる。特に、会議の開催者等の管理者が使用範囲を設定した場合、管理者以外の利用者でも使用領域を容易に判断することができるという新たな顧客体験を得ることができる。
【0030】
なお、
図5の例では、プロセッサ12は、カメラ映像から人物を認識し、認識した人物のうち、使用領域に属する人物と、属さない人物とを異なる態様で表示している。
図5の例では、人物A1、人物A2、および人物A5は、使用領域に属し、人物A3および人物A4は、使用領域に属さない。したがって、プロセッサ12は、人物A1、人物A2、および人物A5に境界画像の直線を被せない様に表示し、人物A3および人物A4には、境界画像の直線を被せて表示している。これにより、利用者は、表示器5に表示される映像を見ることで、自身が使用領域(この場合、マイクの収音範囲)に属するか否か、さらに容易に判断することができる。
【0031】
この場合、プロセッサ12は、まずカメラ映像に人物が含まれるか否かを判定する。プロセッサ12は、例えば画像セグメンテーション処理を行なうことにより、1つの人物を描画している複数のピクセルを特定する。画像セグメンテーション処理は、例えばニューラルネットワーク等を用いた所定のアルゴリズムを用いることにより、人物と背景の境界を認識する処理である。例えば
図5の例では、プロセッサ12は、5人の人物A1~A5を認識する。プロセッサ12は、認識した人物の画像の大きさに基づいて各人物との距離を求める。フラッシュメモリ14には、予め人物の画像の大きさと距離との関係を示したテーブルまたは関数等が記憶されている。プロセッサ12は、認識した人物の画像の大きさと、フラッシュメモリ14に記憶されているテーブルを比較し、人物との距離を求める。
【0032】
また、距離の推定手法は、上記例に限らない。例えば、カメラ11がステレオカメラである(2つ以上のカメラを備える)場合、プロセッサ12は、2つのカメラの距離および2つの画像の視差に基づいて、各人物の距離を求めることができる。また、プロセッサ12は、LiDAR等の測距センサを用いて各人物の距離を求めてもよい。
【0033】
プロセッサ12は、求めた距離が使用領域内である場合、当該人物に境界画像の直線を被せない様に表示する。プロセッサ12は、求めた距離が使用領域外である場合、当該人物には、境界画像の直線を被せて表示する。
【0034】
(変形例1)
図6は、変形例1に係る表示器5に表示される映像の一例である。変形例1では、プロセッサ12は、
図6に示す様に、使用領域に属さない人物の画像にマスク処理を施してもよい。マスク処理は、例えば、ぼかし、塗りつぶし、あるいは別画像への置換等の処理を含む。
【0035】
これにより、プロセッサ12は、会議参加者以外の人物の画像を出力しないようにでき、非参加者のプライバシーを保ちながら違和感の無い画像を出力することができる。
【0036】
(変形例2)
図7は、変形例2に係る表示器5に表示される映像の一例である。変形例2では、プロセッサ12は、
図7に示す様に、カメラ映像のうち、使用領域の外をマスクする。マスク処理は、例えば、ぼかし、塗りつぶし、あるいは別画像への置換等の処理を含む。プロセッサ12は、使用領域に対応する仮想的な直方体の面を、例えば
図7に示す様に塗りつぶす処理を行う。
【0037】
これにより、利用者は、使用領域に対応する仮想的な直方体の面を容易に認識することができ、自身が使用領域(この場合、マイクの収音範囲)に属するか否か、さらに容易に判断することができる。また、利用者は、仮想的な室内で会議を行っている様に知覚することができる。さらに、プロセッサ12は、会議参加者以外の人物の画像を出力しないようにでき、非参加者のプライバシーを保ちながら違和感の無い画像を出力することができる。
【0038】
(変形例3)
図8は、変形例3に係る表示器5に表示される映像の一例である。変形例3では、プロセッサ12は、床面および天井面の高さに加えて、さらに顔の高さに対応する直線を、使用領域との境界画像として表示する。一般に、顔の高さは、0.6~1.8m程度の高さである。顔の高さは、利用者からユーザI/F16を介して受け付けてもよいし、例えば1.2m程度に予め決定しておいてもよい。
【0039】
これにより、利用者は、表示器5に表示される映像を見ることで、自身が使用領域(この場合、マイクの収音範囲)に属するか否か、さらに容易に判断することができる。
【0040】
(変形例4)
図9は、変形例4に係る表示器5に表示される映像の一例である。変形例4では、プロセッサ12は、床面に対応する直線のみ、使用領域との境界画像として表示する。この様に、水平面として床面との境界画像を表示するだけでも、利用者は、表示器5に表示される映像を見ることで、自身が使用領域(この場合、マイクの収音範囲)に属するか否か、容易に判断することができる。
【0041】
(変形例5)
図10は、変形例5に係る表示器5に表示される映像の一例である。上記実施形態では、使用領域は、平面視して矩形状であったが、変形例5の使用領域は平面視して扇形状である。
【0042】
ユーザは、
図10の例では、奥行き(Max distance)、左方向の角度(Left Angle)、および右方向の角度(Right Angle)を指定することで、イベントの使用領域を入力する。あるいは、ユーザは、ユーザI/F16を用いて、
図10に示す2次元平面画像において扇形の平面図形を描画指定することで、イベントの使用領域を入力してもよい。
【0043】
変形例5においても、プロセッサ12は、床面および天井面と、使用領域との境界画像をカメラ映像に重畳して表示する。プロセッサ12は、受け付けた距離、左方向の角度、および右方向の角度に基づいて、使用領域のうち奥行き方向の境界画像を曲線で表示し、左右方向の境界画像を直線で表示する。これにより、
図10に示す様に、使用領域に対応する仮想的な柱状体の境界画像が構成される。
【0044】
この場合も、利用者は、表示器5に表示される映像を見ることで、自身が使用領域(この場合、マイクの収音範囲)に属するか否か、容易に判断することができる。
【0045】
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【0046】
例えば、本発明においてビームフォーミング処理は必須ではない。使用領域とは、マイクの収音範囲に限らない。
図6および
図7で示した様な、画像がマスクされる領域も使用領域の一例である。また、イベントとは会議に限らない。イベントは、例えばゲームあるいは遠隔地間で行う合奏等も含む。また、イベントは、ホームシアターを含む。ホームシアターは、指向性の強い音声ビームを出力する場合がある。この場合、使用領域は、当該音声ビームの到達範囲に対応する。
【符号の説明】
【0047】
1 :表示処理装置
5 :表示器
11 :カメラ
12 :プロセッサ
14 :フラッシュメモリ
15 :RAM
16 :ユーザI/F
17 :スピーカ
18A :マイク
18B :マイク
18C :マイク
18D :マイク
18E :マイク
18F :マイク
19 :通信I/F
141 :プログラム