(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-06
(45)【発行日】2024-12-16
(54)【発明の名称】映像通話装置、及びそれに用いる制御装置、制御方法
(51)【国際特許分類】
H04N 7/14 20060101AFI20241209BHJP
G10L 15/28 20130101ALI20241209BHJP
G10L 15/22 20060101ALI20241209BHJP
【FI】
H04N7/14 110
G10L15/28 400
G10L15/22 460Z
(21)【出願番号】P 2021008730
(22)【出願日】2021-01-22
【審査請求日】2023-04-10
(73)【特許権者】
【識別番号】501009849
【氏名又は名称】株式会社日立エルジーデータストレージ
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】春名 史雄
(72)【発明者】
【氏名】畑木 道生
【審査官】醍醐 一貴
(56)【参考文献】
【文献】特開2009-194857(JP,A)
【文献】特開2010-176224(JP,A)
【文献】特開平10-051889(JP,A)
【文献】米国特許第09621795(US,B1)
【文献】米国特許出願公開第2019/0332247(US,A1)
【文献】国際公開第2011/013605(WO,A1)
【文献】特開2020-136693(JP,A)
【文献】MIKI LIU, 他5名,ReactionBot: Exploring the Effects of Expression-Triggered Emoji in Text Messages,Proceedings of the ACM on Human-Computer Interaction,Vol. 2, No. CSCW, Article 110,2018年11月,PP.1-5,[令和6年6月14日検索], インターネット<URL:https://dl.acm.org/doi/pdf/10.1145/3274379>
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
H04M 3/38-3/58
H04N 7/14-7/173
H04N 21/00-21/858
H04L 13/00-13/18
H04L 61/00-65/80
(57)【特許請求の範囲】
【請求項1】
映像情報を取得する撮像部と音声を取得する音声取得部を有する映像通話装置であって、
前記音声取得部は複数のマイクから成るマイクアレイであって、
前記撮像部からの映像情報又は情報通信網経由で外部から配信される映像情報を表示するディスプレイと、
制御装置を有し、
前記制御装置は、
前記映像情報に複数の人の映像情報を含む場合において、前記映像情報
から人の顔検知を行うことにより、複数の人を識別し、識別した複数の人のそれぞれに対して人物IDを割り当て、前記人物IDに対して前記映像情報から前記人物IDに対応する人の画面上の位置を示す付属角度を付属させ、前記マイクアレイが集音した発声音から
前記発声音の位置を示す音声角度を検出する人物位置特定部と、
前記映像情報から
前記人物IDごとに前記人物IDに対応する人の感情を検知する人物特徴検知部と、
前記マイクアレイが集音した発声音
であって、前記人物IDに付属させた前記付属角度と一致した前記音声角度が検出された前記発声音のみをテキストに変換する音声認識部と、
前記付属角度が前記音声角度に一致している前記人物ID毎に、前記音声認識部で変換されたテキストを表示させる吹き出し画像を生成する吹き出し画像生成部
であって、前記人物特徴検知部で前記人の感情を検知した結果に応じて、前記吹き出し画像に表示させるテキストのフォントを変更すること、及び、前記吹き出し画像に表示させるテキストに絵文字を追加することの少なくとも何れかを行う前記吹き出し画像生成部と、
前記付属角度が前記音声角度に一致している前記人物ID毎に、前記人物IDに対応する人の画像の近傍に
前記人物IDに対応する前記吹き出し画像を合成する合成表示部
と、
を備え
る、
映像通話装置。
【請求項2】
映像情報を取得する撮像部と音声を取得する音声取得部を有する映像通話装置であって、
前記音声取得部は複数のマイクから成るマイクアレイであって、
前記撮像部からの映像情報又は情報通信網経由で外部から配信される映像情報を表示するディスプレイと、
制御装置を有し、
前記制御装置は、
前記映像情報に複数の人の映像情報を含む場合において、前記映像情報
から人の顔検知を行うことにより、複数の人を識別し、識別した複数の人のそれぞれに対して人物IDを割り当て、前記人物IDに対して前記映像情報から前記人物IDに対応する人の画面上の位置を示す付属角度を付属させ、前記マイクアレイが集音した発声音から
前記発声音の位置を示す音声角度を検出する人物位置特定部と、
前記映像情報から
前記人物IDごとに前記人物IDに対応する人の感情を含む人の特徴を検知する人物特徴検知部と、
前記マイクアレイが集音した発声音
であって、前記人物IDに付属させた前記付属角度と一致した前記音声角度が検出された前記発声音のみをテキストに変換する音声認識部と、
前記付属角度が前記音声角度に一致している前記人物ID毎に、前記音声認識部で変換されたテキストを表示させる吹き出し画像を生成する吹き出し画像生成部
であって、前記人物特徴検知部で人の特徴を検知した結果に応じて、前記吹き出し画像又は前記吹き出し画像に表示させるテキストのフォントを変更し、前記人物特徴検知部で人の感情を検知した結果に応じて、前記テキストに絵文字を追加する前記吹き出し画像生成部と、
前記付属角度が前記音声角度に一致している前記人物ID毎に、前記人物IDに対応する人の画像の近傍に
前記人物IDに対応する前記吹き出し画像を合成する合成表示部
と、
を備え
る、
映像通話装置。
【請求項3】
請求項1に記載の映像通話装置であって、
前記制御装置は、
前記人物位置特定部が人の位置の移動を検出した場合は前記合成表示部が移動した人の近傍に前記吹き出し画像を合成することを特徴とする映像通話装置。
【請求項4】
映像情報を取得する撮像部と音声を取得する複数のマイクから成るマイクアレイを有する映像通話装置を制御する制御装置であって、
前記映像情報に複数の人の映像情報を含む場合において、前記映像情報
から人の顔検知を行うことにより、複数の人を識別し、識別した複数の人のそれぞれに対して人物IDを割り当て、前記人物IDに対して前記映像情報から前記人物IDに対応する人の画面上の位置を示す付属角度を付属させ、前記マイクアレイが集音した発声音から
前記発声音の位置を示す音声角度を検出する人物位置特定部と、
前記映像情報から
前記人物IDごとに前記人物IDに対応する人の感情を検知する人物特徴検知部と、
前記マイクアレイが集音した発声音
であって、前記人物IDに付属させた前記付属角度と一致した前記音声角度が検出された前記発声音のみをテキストに変換する音声認識部と、
前記付属角度が前記音声角度に一致している前記人物ID毎に、前記音声認識部で変換されたテキストを表示させる吹き出し画像を生成する吹き出し画像生成部
であって、前記人物特徴検知部で前記人の感情を検知した結果に応じて、前記吹き出し画像に表示させるテキストのフォントを変更すること、及び、前記吹き出し画像に表示させるテキストに絵文字を追加することの少なくとも何れかを行う前記吹き出し画像生成部と、
前記付属角度が前記音声角度に一致している前記人物ID毎に、前記人物IDに対応する人の画像の近傍に
前記人物IDに対応する前記吹き出し画像を合成する合成表示部
と、
を備え
る、
制御装置。
【請求項5】
映像情報を取得する撮像部と音声を取得する複数のマイクから成るマイクアレイを有する映像通話装置を制御する制御装置であって、
前記映像情報に複数の人の映像情報を含む場合において、前記映像情報
から人の顔検知を行うことにより、複数の人を識別し、識別した複数の人のそれぞれに対して人物IDを割り当て、前記人物IDに対して前記映像情報から前記人物IDに対応する人の画面上の位置を示す付属角度を付属させ、前記マイクアレイが集音した発声音から
前記発声音の位置を示す音声角度を検出する人物位置特定部と、
前記映像情報から
前記人物IDごとに前記人物IDに対応する人の感情を含む人の特徴を検知する人物特徴検知部と、
前記マイクアレイが集音した発声音
であって、前記人物IDに付属させた前記付属角度と一致した前記音声角度が検出された前記発声音のみをテキストに変換する音声認識部と、
前記付属角度が前記音声角度に一致している前記人物ID毎に、前記音声認識部で変換されたテキストを表示させる吹き出し画像を生成する吹き出し画像生成部
であって、前記人物特徴検知部で人の特徴を検知した結果に応じて、前記吹き出し画像又は前記吹き出し画像に表示させるテキストのフォントを変更し、前記人物特徴検知部で人の感情を検知した結果に応じて、前記テキストに絵文字を追加する前記吹き出し画像生成部と、
前記付属角度が前記音声角度に一致している前記人物ID毎に、前記人物IDに対応する人の画像の近傍に
前記人物IDに対応する前記吹き出し画像を合成する合成表示部
と、
を備え
る、
制御装置。
【請求項6】
請求項
4に記載の制御装置であって、
前記人物位置特定部が人の位置の移動を検出した場合は前記合成表示部が移動した人の近傍に前記吹き出し画像を合成することを特徴とする制御装置。
【請求項7】
映像情報を取得する撮像部と音声を取得する複数のマイクから成るマイクアレイを有する映像通話装置を制御する制御方法であって、
前記映像情報に複数の人の映像情報を含む場合において、前記映像情報
から人の顔検知を行うことにより、複数の人を識別し、識別した複数の人のそれぞれに対して人物IDを割り当て、前記人物IDに対して前記映像情報から前記人物IDに対応する人の画面上の位置を示す付属角度を付属させ、前記マイクアレイが集音した発声音から
前記発声音の位置を示す音声角度を検出し、
前記映像情報から
前記人物IDごとに前記人物IDに対応する人の感情を検知し、
前記マイクアレイが集音した発声音
であって、前記人物IDに付属させた前記付属角度と一致した前記音声角度が検出された前記発声音のみをテキストに変換し、
前記付属角度が前記音声角度に一致している前記人物ID毎に、前記変換されたテキストを表示させる吹き出し画像を生成し、
前記検知した人の感情に
応じて、前記吹き出し画像に表示させるテキストのフォントを変更すること、及び、前記吹き出し画像に表示させるテキストに絵文字を追加することの少なくとも何れかを行
い、
前記付属角度が前記音声角度に一致している前記人物ID毎に、前記人物IDに対応する人の画像の近傍に前記人物IDに対応する前記吹き出し画像を合成する、
制御方法。
【請求項8】
映像情報を取得する撮像部と音声を取得する複数のマイクから成るマイクアレイを有する映像通話装置を制御する制御方法であって、
前記映像情報に複数の人の映像情報を含む場合において、前記映像情報
から人の顔検知を行うことにより、複数の人を識別し、識別した複数の人のそれぞれに対して人物IDを割り当て、前記人物IDに対して前記映像情報から前記人物IDに対応する人の画面上の位置を示す付属角度を付属させ、前記マイクアレイが集音した発声音から
前記発声音の位置を示す音声角度を検出し、
前記映像情報から
前記人物IDごとに前記人物IDに対応する人の感情を含む人の特徴を検知し、
前記マイクアレイが集音した発声音
であって、前記人物IDに付属させた前記付属角度と一致した前記音声角度が検出された前記発声音のみをテキストに変換し、
前記付属角度が前記音声角度に一致している前記人物ID毎に、前記変換されたテキストを表示させる吹き出し画像を生成し、
発声した人の画像の近傍に前記吹き出し画像を合成し、
前記検知した人の特徴に
応じて前記吹き出し画像又は前記吹き出し画像に表示させるテキストのフォントを変更し、
人の感情を検知した結果に
応じて前記テキストに絵文字を追加
し、
前記付属角度が前記音声角度に一致している前記人物ID毎に、前記人物IDに対応する人の画像の近傍に前記人物IDに対応する前記吹き出し画像を合成する、
制御方法。
【請求項9】
請求項
7に記載の制御方法であって、
前記人の位置の移動を検出した場合は移動した人の近傍に前記吹き出し画像を合成することを特徴とする制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テレビ会議やテレビ電話などの映像通話装置に関する。
【背景技術】
【0002】
近年、新型コロナウイルス(COVID-19)の世界的拡大により、人々のコミュニケーションのあり方が大きく変化している。すなわち、人との接触を出来る限り避けるため、企業においては会議にWeb会議やテレビ会議を利用し、また個人においてもスマートフォンなどを利用したテレビ電話などオンラインで遠隔地の親類や友人とコミュニケーションを取る手法が広まっている。
【0003】
テレビ会議やテレビ電話などの映像通話装置は、テレビやパソコン、スマートフォンなどを利用し、インターネット回線を介して遠隔地に居る利用者をカメラで撮影してディスプレイに表示すると共に、会話をマイクで取得して各利用者へスピーカーで配信することで、会議やコミュニケーションを円滑に行うものである。
【0004】
このような映像通話装置では、参加者が複数人の場合、誰が何を話しているのか判らない場面も見受けられる。また聴覚が不自由な参加者などにはスピーカーからの音声では聞き辛い場合も考えられる。
【0005】
本技術分野における先行技術文献として特許文献1がある。特許文献1には、発声者を発声者近傍に配置した個別の指向性マイクで特定し、その発声内容をテキスト化した後、表示している人物の近傍に発声内容を吹き出しとして合成表示させることが記載されている。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1では合成表示させる吹き出し画像が画一的な例しか記載しておらず、業務用途で使うようなテレビ会議では問題ないが、個人で使うようなテレビ電話や近年普及しつつあるオンライン飲み会などのカジュアルな場でのツールとしては訴求性に欠けるという課題がある。また、発声者を個別の指向性マイクで特定しているため、発声者が移動した場合は指向性マイクの範囲外になり、正常に発声音を取得できない可能性があるという課題がある。
【0008】
本発明は上記課題に鑑みなされたもので、その目的は、テレビ電話などのオンラインコミュニケーションにおいて、会話を視覚的に楽しむことができる映像通話装置を提供することである。
【課題を解決するための手段】
【0009】
本発明は、その一例を挙げるならば、映像情報を取得する撮像部と音声を取得する複数のマイクから成るマイクアレイを有する映像通話装置を制御する制御装置であって、映像情報とマイクアレイが集音した発声音から人の位置を検出する人物位置特定部と、映像情報から人の特徴を検知する人物特徴検知部と、マイクアレイが集音した発声音をテキストに変換する音声認識部と、音声認識部で変換されたテキストを表示させる吹き出し画像を生成する吹き出し画像生成部と、発声した人の画像の近傍に吹き出し画像を合成する合成表示部を備え、人物特徴検知部で人の特徴を検知した結果により吹き出し画像生成部で吹き出し画像又は吹き出し画像に表示させるテキストのフォントを変更する構成とする。
【発明の効果】
【0010】
本発明によれば、テレビ電話などのオンラインコミュニケーションにおいて、会話を視覚的に楽しむことができる映像通話装置を提供することができる。
【図面の簡単な説明】
【0011】
【
図1】実施例1における映像通話装置を含むシステム全体の構成を示すブロック図である。
【
図2】実施例1における制御装置の機能ブロック図である。
【
図3】実施例1における制御装置の処理フローチャートである。
【
図4】実施例1における映像通話装置の表示画像の一例を示す図である。
【
図5】実施例1における映像通話装置の表示画像の一例を示す図である。
【
図6A】実施例1におけるマイクによる人物位置検知の原理を説明する図である。
【
図6B】実施例1におけるマイクによる人物位置検知の原理を説明する他の図である。
【
図7】実施例1における映像通話装置の表示画像の一例を示す図である。
【
図8】実施例1における映像通話装置の表示画像の一例を示す図である。
【
図9】実施例1における映像通話装置の表示画像の一例を示す図である。
【
図10】実施例1における映像通話装置の表示画像の一例を示す図である。
【
図11A】実施例2における映像通話装置の表示画像の一例を示す図である。
【
図11B】実施例2における映像通話装置の表示画像の一例を示す図である。
【
図12】実施例3における映像通話装置の表示画像の一例を示す図である。
【
図13A】実施例3におけるマイクによる人物位置検知の原理を説明する図である。
【
図13B】実施例3におけるマイクによる人物位置検知の原理を説明する他の図である。
【
図13C】実施例3におけるマイクによる人物位置検知の原理を説明する他の図である。
【
図14】実施例3における映像通話装置の表示画像の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施例について、図面を用いて説明する。
【実施例1】
【0013】
図1は、本実施例における映像通話装置を含むシステム全体の構成を示すブロック図である。
【0014】
図1において、映像通話装置1は、制御装置10とディスプレイ11とカメラ12とマイク13とスピーカー14から構成される。映像通話装置1は利用者毎に複数個存在し、例えば
図1では3個の映像通話装置1が存在し、それぞれの映像通話装置1はインターネットやイントラネットなどの情報通信網2で接続されている。映像通話装置1と情報通信網2は図示していない有線LAN(Local Area Network)や無線LANなどを経由して接続される。
【0015】
実際の映像通話装置1の実現手段としては、例えばノートパソコンやスマートフォンであれば制御装置10とディスプレイ11とカメラ12とマイク13とスピーカー14をすべて内蔵している場合が多い。デスクトップパソコンであれば、本体が制御装置10であり、その他のディスプレイ11とカメラ12とマイク13とスピーカー14はそれぞれ個別に準備すればよい。制御装置10はデスクトップパソコン以外でも安価なSBC(Single Board Computer)や専用のテレビ会議端末機でもよい。
【0016】
映像通話装置1の動作を説明する。制御装置10は図示しないCPU(Central Processing Unit)、SDRAM(Synchronous Dynamic Random Access Memory)などの揮発性メモリ、HDD(Hard Disk)やSSD(Solid State Drive)、フラッシュメモリなどの不揮発性記憶媒体などで構成されている。パソコンであればマザーボードに相当する。カメラ12は映像通話装置1近傍に居る利用者を撮影する撮像部であって、撮影した映像情報を制御装置10へ出力する。カメラ12の種類としては通常の2次元カメラや撮影した物の距離も測定可能は3次元カメラでもよい。マイク13は映像通話装置1近傍に居る利用者が発声する音声を取得する音声取得部であって、取得した音声データを制御装置10へ出力する。マイク13の種類としては大型のダイナミックマイク、コンデンサマイクや、小型のMEMSマイクなどがあり、後述するが利用者の位置を検出するためには2個以上の複数のマイクから成るマイクアレイを使用する。ディスプレイ11は情報通信網2経由で送られる他所の映像通話装置1から送られる映像データを表示すると共に、必要に応じて利用者自身の近影画像をリアルタイムで合成して表示することもできる。スピーカー14は情報通信網2経由で送られる他所の映像通話装置1から送られる音声データを再生する。
【0017】
次に
図2から
図10を用いて映像通話装置1の動作を詳細に説明する。
図2は制御装置10で実現する各機能をブロック図化した機能ブロック図である。ハードウェアとしては図示しない前述のCPU、揮発性メモリ、不揮発性記憶媒体などで構成され、CPUは不揮発性記憶媒体内に記憶されたプログラムを揮発性メモリに展開しながら実行する。
図3は制御装置10の処理フローチャートである。すなわち、制御装置10の処理は、不揮発性記憶媒体内に記憶されたプログラムにより実行される。
【0018】
以下、
図3のフローチャートに従い、
図2も併用して映像通話装置1の動作を説明する。ここでは例えば、映像通話装置1が2個のシステムで、一方に3人の親子家族、もう一方に祖父母がテレビ電話を行っている場合を想定する。
【0019】
図3において、S101は、各映像通話装置1の電源が投入され、情報通信網2を経由してディスプレイ11に各映像通話装置1の近傍に居る利用者を撮影した映像データを表示している状態である。すなわち、
図4のように祖父母側のディスプレイ11には3人の親子家族の近影が表示されている状態である。この段階では3人の親子はまだなにも発声していない。
【0020】
S102は「人物位置検知(カメラ)」処理である。
図2において、親子家族側のカメラ12で撮影された映像から人物位置特定部101により、
図5に示すように人物の顔を検知し、個別にID属性を振り分ける。人物の顔検知は人物位置特定部101によるAI処理にて行う。AI処理による人物の顔検知は公知の技術であるため処理内容は省略する。
図5の例では父親をID1、子供をID2、母親をID3と割り振る。またそのIDの画面上の位置をID属性に付属させる。位置は例えば画面中央からの角度情報とし、画面中央を0°、左側をマイナス、右側をプラスとする。例えば父親のID1には-30°、子供のID2には0°、母親のID3には+30°を付属させる。カメラ12による角度情報の計算は、カメラ12のレンズ画角(field of view)が決まっていれば一義的に計算ができる。カメラ12の撮影画像の左右端が
図2のように最大±60°であれば、画像上の配置によって±60°の間の位置を線形で決めることができ、例えば画面中心なら0°、中心と左右端のちょうど真ん中であれば±30°などと計算できる。
【0021】
S103は「発声有無」判別処理である。
図2において、親子家族側のマイク13で集音された音声の有無を音声取得生成部103により判別し、音声が有ればS104処理へ進み、音声が無ければS102処理へ戻る。また音声があった場合、祖父母側の音声取得生成部103へ音声データを情報通信網2経由で送信し、祖父母側のスピーカー14で音声を再生させる。
【0022】
S104は「音声位置検知(マイク)」処理である。親子家族側のマイク13で集音された音声データから、人物位置特定部101により、その音声データが発声された位置を特定する。位置を特定するためには2個以上のマイクがあれば、各マイクに到達する音声の遅延時間から各マイクに対する角度を計算することができ、当該角度から映像通話装置1と発声した利用者の相対角度情報を計算することが可能となる。
【0023】
図6Aに2個のマイクによる利用者の角度計算方法の具体例を示す。画面左から発声する父親ID1を例とする。
図6Aではマイク13aと13bの2個のマイクを所定の距離にある線L1上に距離d0(m)で配置している。父親ID1が画面左側から発声した時、マイク13aに比べ13bの音声取得開始時間にΔt(sec)の遅延時間があったとする。Δt(sec)の遅延時間は、発声点からマイク13aと13bの距離差に起因するので、その距離差d1は、音速×Δtで計算できる。気温20℃での音速は343.5(m/sec)であることが知られており、例えばΔtが145.56e-6(sec)だった場合、d1=343.5×145.56e-6=0.05(m)と計算できる。
【0024】
図6A中の角度α1は、父親ID1とマイク13bとの距離がマイク13aと13b間の距離に比べて十分長いと考えると90度と近似できる。すると、α‘=αと近似でき、角度α=アークSIN(d1/d0)と計算できる。2個のマイク間の距離d0を0.1(m)とすると、角度α=アークSIN(0.05/0.1)=30°となり、父親ID1は左側なので-30°と計算できる。
【0025】
また、
図6Bに2個のマイクによる利用者の角度計算方法の他の例を示す。
図6Bにおいては、所定の距離にある線L1上と、線L1から距離d2離れた線L2上に、マイク13aと13bがそれぞれ配置されている。また、線L1上において、マイク13aとマイク13bの線L1上に投映した位置は距離d0(m)離れている。父親ID1が画面左側から発声した時、マイク13bに比べ13aの音声取得開始時間にΔt(sec)の遅延時間があったとする。Δt(sec)の遅延時間は、発声点からマイク13bと13aの距離差に起因するので、その距離差d1は、音速×Δtで計算できる。
図6B中の角度α1を90度と近似すると、角度α2=アークSIN(d1/d3)と計算できる。d3はd0とd2から計算でき、α3も計算でき、よって、角度αも計算できる。
【0026】
図3に戻って、S105は「カメラ&音声位置一致」判別処理である。ここではS102で取得した人物IDの付属角度と、S104で計算した音声角度が一致しているかを判別し、一致していればS106処理へ進み、一致していなければS102処理へ戻る。一致しない例としては、カメラ12の撮影画面内に居ない人物の発声や周りの物音などを取得した場合が考えられる。また本実施例のように撮影画面内に複数人物が居る場合はカメラ12と音声の角度が一致している人物IDにのみ、以降の処理を行う。
【0027】
S106は「音声テキスト変換」処理である。S105で人物IDと角度が一致した音声データから親子家族側の音声認識部104によりテキスト変換を行う。音声のテキスト変換技術は公知の技術であるので、ここでは処理内容は省略する。音声のテキスト変換は
図2に示す音声認識部104で行うこともができるが、登録単語の制限数や処理速度に問題がある場合、インターネット上の音声認識クラウドサービスを利用してもよい。
【0028】
図7は音声テキスト変換後の例である。父親ID1は「かあさんはんとしぶりだね」と発音した結果「母さん半年ぶりだね」とテキスト変換する。子供ID2は「おばあちゃんげんきー」と発音した結果「おばあちゃん元気―」とテキスト変換する。母親ID3は「おかあさんごぶさたしています」と発音した結果「お母さんご無沙汰しています」とテキスト変換する。
【0029】
S107は「性別・年齢・感情検知」処理である。S102で割り振った人物のIDごとに、
図2に示す親子家族側の人物特徴感情検出部102によるAI処理を用いてその性別・年齢・感情を判断し、IDごとにその属性を記録する。
図5を例にすると、ID1は男性・40代・喜びの感情と検知する。ID2は男性・10代・喜びの感情と検知する。ID3は女性・40代・喜びの感情と検知する。AI処理による人物の性別・年齢・感情検知は公知の技術であるため処理内容は省略する。
【0030】
S108は「吹き出し選択」処理である。S107で設定したID毎の性別・年齢・感情情報を元に
図2に示す親子家族側の吹き出し・フォント生成部105により表示させるテキストの吹き出しを変更する。
【0031】
図7は変更前の吹き出し例で、例えば特徴のない四角の吹き出し画像である。仮に「性別・年齢・感情検知」の情報が有られなかった場合は例えばこの四角の吹き出し画像を使用する。
図8は変更後の吹き出し例で、男性・40代なら例えば角が丸い四角の吹き出し画像、女性・40代なら例えば全体が丸い吹き出し画像、子供なら例えば雲のような吹き出し画像と設定しておく。また
図9のようにID毎の感情により吹き出しを変えてもよい。右が「楽しい」時の吹き出しの例、左が「悲しい」時の吹き出しの例である。これらの設定は使用者があらかじめ複数の吹き出し画像から選択しておくことができる。
【0032】
S109は「フォント選択」処理である。
図2に示す親子家族側の吹き出し・フォント生成部105により表示させるテキストのフォントを変更する。
図7は変更前のフォント例で、例えば明朝体である。
図8は変更後のフォント例で、40代なら例えばゴシック体、子供なら例えばポップ体と設定しておく。この設定は使用者があらかじめ複数のフォントから選択しておくことができる。
【0033】
S110は「絵文字挿入部」処理である。
図2に示す親子家族側の吹き出し・フォント生成部105によりテキストに絵文字を挿入する。ID毎の感情情報を元に、例えば「楽しい」「悲しい」に対応する絵文字をあらかじめ登録しておき、テキストの最後に挿入させる。挿入の有無も使用者があらかじめ設定できる。
図9は右が「楽しい」時の絵文字115の例、左が「悲しい」時の絵文字116の例である。
【0034】
S111は「人物吹き出し合成部」処理である。S106からS110で選択した吹き出し画像、テキスト内容、フォント、絵文字の情報は情報通信網2経由で祖父母側の映像通話装置1に送信され、祖父母側の合成・表示部106で親子の各ID映像に近接して祖父母側のディスプレイ11に合成表示させる。また必要に応じて、
図10のように、
図2に示す親子家族側の合成・表示部106でも同じように各ID映像に近接して合成表示させ、さらに祖父母側の画像とピクチャーインピクチャーで親子家族側のディスプレイ11に合成表示させてもよい。
【0035】
S102からS111を処理した後は、またS102に戻り一連の処理を繰り返し実行する。また、S102からS111で処理された合成映像は情報通信網2を経由して他の映像通話装置1へ送信される。
【0036】
なお、吹き出し画像は発声が終了した後、表示させておくか消すかは利用者があらかじめ設定することができる。また次に発声した場合、前のテキストに追加していくか、あるいは前のテキストを消すかも利用者があらかじめ設定することができる。さらに前のテキストに追加していく場合、どのくらいのテキスト数を残すかを利用者があらかじめ設定することができる。
【0037】
また、本実施例では情報通信網2に接続された複数の映像通話装置1が存在する場合を想定したが、これに限らず、1つの映像通話装置1だけが存在し、カメラ12で撮影した映像を自身のディスプレイ11に表示し、発声した情報を吹き出し画像として合成することもできる。例えば、ファーストフード店での無人の注文決済端末に本実施例の構成を適用し、利用者は商品の注文や決済方法を声で行い、その情報を吹き出し画像で表示させることで、利用者が意図した注文や決済方法であるかを吹き出し画像で確認することができる。
【0038】
また、マイクにより取得した人の声の周波数から人の属性(男性、女性等)を判断し、それをカメラによる属性判断に補足的に利用してもよい。
【0039】
以上のように、本実施例によれば、個人用途のテレビ会議やテレビ電話などのオンラインコミュニケーションにおいて、表示させる個人毎の特徴や感情により合成表示させる吹き出しやテキストのフォントなどを変更することで、カジュアルな場でのツールとして場を盛り上げたり、会話を視覚的に楽しむことができる映像通話装置を提供できる。また、例えば、オンライン帰省のためにテレビ電話を利用して、聴覚が不自由な祖父母に孫との会話を視覚的に楽しんでもらうなどが可能となる。
【実施例2】
【0040】
本実施例では、利用者がテレビ電話などのオンラインコミュニケーション中に移動した場合の処理につき説明する。
【0041】
図11A、11Bは、本実施例における具体例を示す図である。本実施例における映像通話装置1は実施例1の
図2と同じである。また実行される処理のフローチャートも実施例1の
図3と同じである。
【0042】
図11Aは実施例1の
図8と同じ状況で、父親をID1、子供をID2、母親をID3とID属性が割り振られ、3人がそれぞれ発声した吹き出し画像が人物の近傍に合成されているものとする。ここで
図11Bのように父親ID1が右の方へ移動し、さらに子供ID2と母親ID3が左に移動した場合を想定する。
【0043】
図3のフローチャートのS111の「人物吹き出し合成部」処理において、各IDの人物が移動した場合、合成・表示部106で、そのIDの人物の近傍に常に寄りそうように吹き出し画像を合成するようにする。その結果、
図11Bのように父親ID1の吹き出し画像も父親ID1と同じように右に移動し、子供ID2と母親ID3の吹き出し画像も左に移動することができる。
【0044】
なお、利用者が移動した場合に吹き出し画像も追従させるか否かは利用者があらかじめ設定することができる。追従させない場合は、各IDの人物の移動を検知した場合、吹き出し画像を消去させればよい。
【0045】
また、本実施例では、実施例1の人の特徴に応じた吹き出し画像の変更を行なってもよいし、行わなくてもよい。
【0046】
以上のように、本実施例によれば、テレビ電話などのオンラインコミュニケーションにおいて、利用者が移動したとしても吹き出し画像も追従させることで、視覚的に利用者の過去の発言を見やすくする効果が期待できる。
【実施例3】
【0047】
本実施例では、複数の利用者が奥行き方向に重なった場合の処理につき説明する。
【0048】
図12のように、父親ID1が奥で子供ID2が手前の角度α上に重なった場合を想定する。実施例1の構成では、カメラ12による人物ID検知はカメラ12に3次元カメラを使用すれば利用者が重なっていても検知可能である。一方、音声は実施例1の
図6Aのように利用者に対しマイク13aと13bの2個のマイクが所定の距離にある線L1上に配置されている場合、父親ID1と子供ID2の発声はどちらも角度αからとなり、発声結果をIDに振り分けることができない。また、
図6Bのように、2個のマイク13aと13bが前後左右に異なる位置に配置されても、マイク13aと13bを結ぶ線上に父親ID1と子供ID2が並んでしまうと、同様に父親ID1と子供ID2を差別化できず、発声結果をIDに振り分けることができない。
【0049】
この課題を解決するため、本実施例ではマイク13を3つ配置するようにした。以下、3個のマイクによる利用者の角度計算方法の具体例を示す。
【0050】
図13Aは、3個のマイク13a、13b、13cのうち2個のマイク13a、13bが父親ID1と子供ID2を結ぶ延長線上にない場合を示している。
図13Aにおいて、
図6Bと同様に、所定の距離にある線L1上と、線L1から距離d2離れた線L2上に、マイク13aと13bがそれぞれ配置されている。また、線L1上において、マイク13aとマイク13bの線L1上に投映した位置は距離d0離れている。
【0051】
この時、父親ID1と子供ID2の距離の違いにより、マイク13aとマイク13bの間の音声到達時間差に比例して父親ID1からの音声の距離差d3と子供ID2からの音声の距離差d4に差が生じる。具体的には、例えば、子供ID2からの音声に関して、
図13A中の角度α1は90度と近似でき、角度α2=アークSIN(d4/d5)と計算できる。d5はd0とd2から計算でき、よって、子供ID2から発声された位置を特定する角度β1も計算できる。同様に、父親ID1から発声された位置を特定する角度β2も計算できる。
【0052】
つぎに、2個のマイク13a、13b結ぶ延長線上に父親ID1と子供ID2が移動して並んだ場合は、マイク13aと13bで、父親ID1と子供ID2を差別化できない。その場合は、
図13Bに示すように、父親ID1と子供ID2を結ぶ延長線上にないマイク13cを利用することで、父親ID1と子供ID2を差別化できる。すなわち、
図13Bにおいて、マイク13bとマイク13cの間の音声到達時間差に比例して父親ID1からの音声の距離差d3と子供ID2からの音声の距離差d4に差が生じる。例えば、子供ID2からの音声に関して、角度α1は90度と近似でき、子供ID2から発声された位置を特定する角度β1=アークCOS(d4/d2)と計算できる。同様に、父親ID1から発声された位置を特定する角度β2も計算できる。
【0053】
図13Cは、3個のマイク13a、13b、13cが所定の距離にある線L1上に配置されている場合を示している。
図13Cにおいて、例えば、マイク13bとマイク13cを用いると、マイク13bとマイク13cの間の音声到達時間差に比例して父親ID1からの音声の距離差d3と子供ID2からの音声の距離差d4に差が生じる。例えば、子供ID2からの音声に関して、
図13Cにおいて、角度α1は90度と近似でき、子供ID2から発声された位置を特定する角度β1=アークSIN(d4/d0)と計算できる。同様に、父親ID1から発声された位置を特定する角度β2も計算できる。
【0054】
このように、マイクが最低3個あれば、どのような配置であっても複数人の発声された位置を特定する幾何学的な角度を検知可能である。
【0055】
以上のように、検出した角度β1、β2の違いにより、発声結果を父親ID1と子供ID2のどちらに振り分けるかを決定する。すなわち、カメラ12により父親ID1と子供ID2のどちらが近いかが判別できる。一方、使用するマイクの配置に応じて角度β1とβ2のどちらが幾何学的に発声距離が近いかは判るので、それらの発声結果をIDに振り分けることができる。これらの結果から
図14のように父親ID1と子供ID2の吹き出しを上記関連付けに基づいて合成する。
【0056】
以上のように、本実施例によれば、複数の利用者が奥行き方向に重なった場合でも、その位置に応じて吹き出し画像を合成する効果が期待できる。
【0057】
以上実施例について説明したが、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【符号の説明】
【0058】
1:映像通話装置、2:情報通信網、10:制御装置、11:ディスプレイ、12:カメラ、13:マイク、14:スピーカー、101:人物位置特定部、102:人物特徴感情検出部、103:音声取得生成部、104:音声認識部、105:吹き出し・フォント生成部、106:合成・表示部、115、116:絵文字