特許7599968 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立エルジーデータストレージの特許一覧

特許7599968映像通話装置、及びそれに用いる制御装置、制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6A
6B
7
8
9
10
11A
11B
12
13A
13B
13C
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-06

(45)【発行日】2024-12-16

(54)【発明の名称】映像通話装置、及びそれに用いる制御装置、制御方法

(51)【国際特許分類】

H04N 7/14 20060101AFI20241209BHJP

G10L 15/28 20130101ALI20241209BHJP

G10L 15/22 20060101ALI20241209BHJP

【ＦＩ】

H04N7/14 110

G10L15/28 400

G10L15/22 460Z

【請求項の数】 9

(21)【出願番号】P 2021008730

(22)【出願日】2021-01-22

(65)【公開番号】P2022112784

(43)【公開日】2022-08-03

【審査請求日】2023-04-10

(73)【特許権者】

【識別番号】501009849

【氏名又は名称】株式会社日立エルジーデータストレージ

(74)【代理人】

【識別番号】110001689

【氏名又は名称】青稜弁理士法人

(72)【発明者】

【氏名】春名史雄

(72)【発明者】

【氏名】畑木道生

【審査官】醍醐一貴

(56)【参考文献】

【文献】特開２００９－１９４８５７（ＪＰ，Ａ）

【文献】特開２０１０－１７６２２４（ＪＰ，Ａ）

【文献】特開平１０－０５１８８９（ＪＰ，Ａ）

【文献】米国特許第０９６２１７９５（ＵＳ，Ｂ１）

【文献】米国特許出願公開第２０１９／０３３２２４７（ＵＳ，Ａ１）

【文献】国際公開第２０１１／０１３６０５（ＷＯ，Ａ１）

【文献】特開２０２０－１３６６９３（ＪＰ，Ａ）

【文献】MIKI LIU, 他5名，ReactionBot: Exploring the Effects of Expression-Triggered Emoji in Text Messages，Proceedings of the ACM on Human-Computer Interaction，Vol. 2, No. CSCW, Article 110，2018年11月，PP.1-5，[令和6年6月14日検索], インターネット<URL:https://dl.acm.org/doi/pdf/10.1145/3274379>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１７／２６

Ｈ０４Ｍ３／３８－３／５８

Ｈ０４Ｎ７／１４－７／１７３

Ｈ０４Ｎ２１／００－２１／８５８

Ｈ０４Ｌ１３／００－１３／１８

Ｈ０４Ｌ６１／００－６５／８０

(57)【特許請求の範囲】

【請求項1】

映像情報を取得する撮像部と音声を取得する音声取得部を有する映像通話装置であって、
前記音声取得部は複数のマイクから成るマイクアレイであって、
前記撮像部からの映像情報又は情報通信網経由で外部から配信される映像情報を表示するディスプレイと、
制御装置を有し、
前記制御装置は、
前記映像情報に複数の人の映像情報を含む場合において、前記映像情報から人の顔検知を行うことにより、複数の人を識別し、識別した複数の人のそれぞれに対して人物ＩＤを割り当て、前記人物ＩＤに対して前記映像情報から前記人物ＩＤに対応する人の画面上の位置を示す付属角度を付属させ、前記マイクアレイが集音した発声音から前記発声音の位置を示す音声角度を検出する人物位置特定部と、
前記映像情報から前記人物ＩＤごとに前記人物ＩＤに対応する人の感情を検知する人物特徴検知部と、
前記マイクアレイが集音した発声音であって、前記人物ＩＤに付属させた前記付属角度と一致した前記音声角度が検出された前記発声音のみをテキストに変換する音声認識部と、
前記付属角度が前記音声角度に一致している前記人物ＩＤ毎に、前記音声認識部で変換されたテキストを表示させる吹き出し画像を生成する吹き出し画像生成部であって、前記人物特徴検知部で前記人の感情を検知した結果に応じて、前記吹き出し画像に表示させるテキストのフォントを変更すること、及び、前記吹き出し画像に表示させるテキストに絵文字を追加することの少なくとも何れかを行う前記吹き出し画像生成部と、
前記付属角度が前記音声角度に一致している前記人物ＩＤ毎に、前記人物ＩＤに対応する人の画像の近傍に前記人物ＩＤに対応する前記吹き出し画像を合成する合成表示部と、
を備える、
映像通話装置。

【請求項2】

映像情報を取得する撮像部と音声を取得する音声取得部を有する映像通話装置であって、
前記音声取得部は複数のマイクから成るマイクアレイであって、
前記撮像部からの映像情報又は情報通信網経由で外部から配信される映像情報を表示するディスプレイと、
制御装置を有し、
前記制御装置は、
前記映像情報に複数の人の映像情報を含む場合において、前記映像情報から人の顔検知を行うことにより、複数の人を識別し、識別した複数の人のそれぞれに対して人物ＩＤを割り当て、前記人物ＩＤに対して前記映像情報から前記人物ＩＤに対応する人の画面上の位置を示す付属角度を付属させ、前記マイクアレイが集音した発声音から前記発声音の位置を示す音声角度を検出する人物位置特定部と、
前記映像情報から前記人物ＩＤごとに前記人物ＩＤに対応する人の感情を含む人の特徴を検知する人物特徴検知部と、
前記マイクアレイが集音した発声音であって、前記人物ＩＤに付属させた前記付属角度と一致した前記音声角度が検出された前記発声音のみをテキストに変換する音声認識部と、
前記付属角度が前記音声角度に一致している前記人物ＩＤ毎に、前記音声認識部で変換されたテキストを表示させる吹き出し画像を生成する吹き出し画像生成部であって、前記人物特徴検知部で人の特徴を検知した結果に応じて、前記吹き出し画像又は前記吹き出し画像に表示させるテキストのフォントを変更し、前記人物特徴検知部で人の感情を検知した結果に応じて、前記テキストに絵文字を追加する前記吹き出し画像生成部と、
前記付属角度が前記音声角度に一致している前記人物ＩＤ毎に、前記人物ＩＤに対応する人の画像の近傍に前記人物ＩＤに対応する前記吹き出し画像を合成する合成表示部と、
を備える、
映像通話装置。

【請求項3】

請求項１に記載の映像通話装置であって、
前記制御装置は、
前記人物位置特定部が人の位置の移動を検出した場合は前記合成表示部が移動した人の近傍に前記吹き出し画像を合成することを特徴とする映像通話装置。

【請求項4】

映像情報を取得する撮像部と音声を取得する複数のマイクから成るマイクアレイを有する映像通話装置を制御する制御装置であって、
前記映像情報に複数の人の映像情報を含む場合において、前記映像情報から人の顔検知を行うことにより、複数の人を識別し、識別した複数の人のそれぞれに対して人物ＩＤを割り当て、前記人物ＩＤに対して前記映像情報から前記人物ＩＤに対応する人の画面上の位置を示す付属角度を付属させ、前記マイクアレイが集音した発声音から前記発声音の位置を示す音声角度を検出する人物位置特定部と、
前記映像情報から前記人物ＩＤごとに前記人物ＩＤに対応する人の感情を検知する人物特徴検知部と、
前記マイクアレイが集音した発声音であって、前記人物ＩＤに付属させた前記付属角度と一致した前記音声角度が検出された前記発声音のみをテキストに変換する音声認識部と、
前記付属角度が前記音声角度に一致している前記人物ＩＤ毎に、前記音声認識部で変換されたテキストを表示させる吹き出し画像を生成する吹き出し画像生成部であって、前記人物特徴検知部で前記人の感情を検知した結果に応じて、前記吹き出し画像に表示させるテキストのフォントを変更すること、及び、前記吹き出し画像に表示させるテキストに絵文字を追加することの少なくとも何れかを行う前記吹き出し画像生成部と、
前記付属角度が前記音声角度に一致している前記人物ＩＤ毎に、前記人物ＩＤに対応する人の画像の近傍に前記人物ＩＤに対応する前記吹き出し画像を合成する合成表示部と、
を備える、
制御装置。

【請求項5】

映像情報を取得する撮像部と音声を取得する複数のマイクから成るマイクアレイを有する映像通話装置を制御する制御装置であって、
前記映像情報に複数の人の映像情報を含む場合において、前記映像情報から人の顔検知を行うことにより、複数の人を識別し、識別した複数の人のそれぞれに対して人物ＩＤを割り当て、前記人物ＩＤに対して前記映像情報から前記人物ＩＤに対応する人の画面上の位置を示す付属角度を付属させ、前記マイクアレイが集音した発声音から前記発声音の位置を示す音声角度を検出する人物位置特定部と、
前記映像情報から前記人物ＩＤごとに前記人物ＩＤに対応する人の感情を含む人の特徴を検知する人物特徴検知部と、
前記マイクアレイが集音した発声音であって、前記人物ＩＤに付属させた前記付属角度と一致した前記音声角度が検出された前記発声音のみをテキストに変換する音声認識部と、
前記付属角度が前記音声角度に一致している前記人物ＩＤ毎に、前記音声認識部で変換されたテキストを表示させる吹き出し画像を生成する吹き出し画像生成部であって、前記人物特徴検知部で人の特徴を検知した結果に応じて、前記吹き出し画像又は前記吹き出し画像に表示させるテキストのフォントを変更し、前記人物特徴検知部で人の感情を検知した結果に応じて、前記テキストに絵文字を追加する前記吹き出し画像生成部と、
前記付属角度が前記音声角度に一致している前記人物ＩＤ毎に、前記人物ＩＤに対応する人の画像の近傍に前記人物ＩＤに対応する前記吹き出し画像を合成する合成表示部と、
を備える、
制御装置。

【請求項6】

請求項４に記載の制御装置であって、
前記人物位置特定部が人の位置の移動を検出した場合は前記合成表示部が移動した人の近傍に前記吹き出し画像を合成することを特徴とする制御装置。

【請求項7】

映像情報を取得する撮像部と音声を取得する複数のマイクから成るマイクアレイを有する映像通話装置を制御する制御方法であって、
前記映像情報に複数の人の映像情報を含む場合において、前記映像情報から人の顔検知を行うことにより、複数の人を識別し、識別した複数の人のそれぞれに対して人物ＩＤを割り当て、前記人物ＩＤに対して前記映像情報から前記人物ＩＤに対応する人の画面上の位置を示す付属角度を付属させ、前記マイクアレイが集音した発声音から前記発声音の位置を示す音声角度を検出し、
前記映像情報から前記人物ＩＤごとに前記人物ＩＤに対応する人の感情を検知し、
前記マイクアレイが集音した発声音であって、前記人物ＩＤに付属させた前記付属角度と一致した前記音声角度が検出された前記発声音のみをテキストに変換し、
前記付属角度が前記音声角度に一致している前記人物ＩＤ毎に、前記変換されたテキストを表示させる吹き出し画像を生成し、
前記検知した人の感情に応じて、前記吹き出し画像に表示させるテキストのフォントを変更すること、及び、前記吹き出し画像に表示させるテキストに絵文字を追加することの少なくとも何れかを行い、
前記付属角度が前記音声角度に一致している前記人物ＩＤ毎に、前記人物ＩＤに対応する人の画像の近傍に前記人物ＩＤに対応する前記吹き出し画像を合成する、
制御方法。

【請求項8】

映像情報を取得する撮像部と音声を取得する複数のマイクから成るマイクアレイを有する映像通話装置を制御する制御方法であって、
前記映像情報に複数の人の映像情報を含む場合において、前記映像情報から人の顔検知を行うことにより、複数の人を識別し、識別した複数の人のそれぞれに対して人物ＩＤを割り当て、前記人物ＩＤに対して前記映像情報から前記人物ＩＤに対応する人の画面上の位置を示す付属角度を付属させ、前記マイクアレイが集音した発声音から前記発声音の位置を示す音声角度を検出し、
前記映像情報から前記人物ＩＤごとに前記人物ＩＤに対応する人の感情を含む人の特徴を検知し、
前記マイクアレイが集音した発声音であって、前記人物ＩＤに付属させた前記付属角度と一致した前記音声角度が検出された前記発声音のみをテキストに変換し、
前記付属角度が前記音声角度に一致している前記人物ＩＤ毎に、前記変換されたテキストを表示させる吹き出し画像を生成し、
発声した人の画像の近傍に前記吹き出し画像を合成し、
前記検知した人の特徴に応じて前記吹き出し画像又は前記吹き出し画像に表示させるテキストのフォントを変更し、
人の感情を検知した結果に応じて前記テキストに絵文字を追加し、
前記付属角度が前記音声角度に一致している前記人物ＩＤ毎に、前記人物ＩＤに対応する人の画像の近傍に前記人物ＩＤに対応する前記吹き出し画像を合成する、
制御方法。

【請求項9】

請求項７に記載の制御方法であって、
前記人の位置の移動を検出した場合は移動した人の近傍に前記吹き出し画像を合成することを特徴とする制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、テレビ会議やテレビ電話などの映像通話装置に関する。

【背景技術】

【0002】

近年、新型コロナウイルス（COVID-19）の世界的拡大により、人々のコミュニケーションのあり方が大きく変化している。すなわち、人との接触を出来る限り避けるため、企業においては会議にWeb会議やテレビ会議を利用し、また個人においてもスマートフォンなどを利用したテレビ電話などオンラインで遠隔地の親類や友人とコミュニケーションを取る手法が広まっている。

【0003】

テレビ会議やテレビ電話などの映像通話装置は、テレビやパソコン、スマートフォンなどを利用し、インターネット回線を介して遠隔地に居る利用者をカメラで撮影してディスプレイに表示すると共に、会話をマイクで取得して各利用者へスピーカーで配信することで、会議やコミュニケーションを円滑に行うものである。

【0004】

このような映像通話装置では、参加者が複数人の場合、誰が何を話しているのか判らない場面も見受けられる。また聴覚が不自由な参加者などにはスピーカーからの音声では聞き辛い場合も考えられる。

【0005】

本技術分野における先行技術文献として特許文献１がある。特許文献１には、発声者を発声者近傍に配置した個別の指向性マイクで特定し、その発声内容をテキスト化した後、表示している人物の近傍に発声内容を吹き出しとして合成表示させることが記載されている。

【先行技術文献】

【特許文献】

【0006】

【文献】特開２００９－１９４８５７号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、特許文献１では合成表示させる吹き出し画像が画一的な例しか記載しておらず、業務用途で使うようなテレビ会議では問題ないが、個人で使うようなテレビ電話や近年普及しつつあるオンライン飲み会などのカジュアルな場でのツールとしては訴求性に欠けるという課題がある。また、発声者を個別の指向性マイクで特定しているため、発声者が移動した場合は指向性マイクの範囲外になり、正常に発声音を取得できない可能性があるという課題がある。

【0008】

本発明は上記課題に鑑みなされたもので、その目的は、テレビ電話などのオンラインコミュニケーションにおいて、会話を視覚的に楽しむことができる映像通話装置を提供することである。

【課題を解決するための手段】

【0009】

本発明は、その一例を挙げるならば、映像情報を取得する撮像部と音声を取得する複数のマイクから成るマイクアレイを有する映像通話装置を制御する制御装置であって、映像情報とマイクアレイが集音した発声音から人の位置を検出する人物位置特定部と、映像情報から人の特徴を検知する人物特徴検知部と、マイクアレイが集音した発声音をテキストに変換する音声認識部と、音声認識部で変換されたテキストを表示させる吹き出し画像を生成する吹き出し画像生成部と、発声した人の画像の近傍に吹き出し画像を合成する合成表示部を備え、人物特徴検知部で人の特徴を検知した結果により吹き出し画像生成部で吹き出し画像又は吹き出し画像に表示させるテキストのフォントを変更する構成とする。

【発明の効果】

【0010】

本発明によれば、テレビ電話などのオンラインコミュニケーションにおいて、会話を視覚的に楽しむことができる映像通話装置を提供することができる。

【図面の簡単な説明】

【0011】

【図1】実施例１における映像通話装置を含むシステム全体の構成を示すブロック図である。

【図2】実施例１における制御装置の機能ブロック図である。

【図3】実施例１における制御装置の処理フローチャートである。

【図4】実施例１における映像通話装置の表示画像の一例を示す図である。

【図5】実施例１における映像通話装置の表示画像の一例を示す図である。

【図6A】実施例１におけるマイクによる人物位置検知の原理を説明する図である。

【図6B】実施例１におけるマイクによる人物位置検知の原理を説明する他の図である。

【図7】実施例１における映像通話装置の表示画像の一例を示す図である。

【図8】実施例１における映像通話装置の表示画像の一例を示す図である。

【図9】実施例１における映像通話装置の表示画像の一例を示す図である。

【図10】実施例１における映像通話装置の表示画像の一例を示す図である。

【図11A】実施例２における映像通話装置の表示画像の一例を示す図である。

【図11B】実施例２における映像通話装置の表示画像の一例を示す図である。

【図12】実施例３における映像通話装置の表示画像の一例を示す図である。

【図13A】実施例３におけるマイクによる人物位置検知の原理を説明する図である。

【図13B】実施例３におけるマイクによる人物位置検知の原理を説明する他の図である。

【図13C】実施例３におけるマイクによる人物位置検知の原理を説明する他の図である。

【図14】実施例３における映像通話装置の表示画像の一例を示す図である。

【発明を実施するための形態】

【0012】

以下、本発明の実施例について、図面を用いて説明する。

【実施例1】

【0013】

図１は、本実施例における映像通話装置を含むシステム全体の構成を示すブロック図である。

【0014】

図１において、映像通話装置１は、制御装置１０とディスプレイ１１とカメラ１２とマイク１３とスピーカー１４から構成される。映像通話装置１は利用者毎に複数個存在し、例えば図１では３個の映像通話装置１が存在し、それぞれの映像通話装置１はインターネットやイントラネットなどの情報通信網２で接続されている。映像通話装置１と情報通信網２は図示していない有線ＬＡＮ（Local Area Network）や無線LANなどを経由して接続される。

【0015】

実際の映像通話装置１の実現手段としては、例えばノートパソコンやスマートフォンであれば制御装置１０とディスプレイ１１とカメラ１２とマイク１３とスピーカー１４をすべて内蔵している場合が多い。デスクトップパソコンであれば、本体が制御装置１０であり、その他のディスプレイ１１とカメラ１２とマイク１３とスピーカー１４はそれぞれ個別に準備すればよい。制御装置１０はデスクトップパソコン以外でも安価なＳＢＣ（Single Board Computer）や専用のテレビ会議端末機でもよい。

【0016】

映像通話装置１の動作を説明する。制御装置１０は図示しないＣＰＵ（Central Processing Unit）、ＳＤＲＡＭ(Synchronous Dynamic Random Access Memory)などの揮発性メモリ、ＨＤＤ（Hard Disk）やＳＳＤ（Solid State Drive）、フラッシュメモリなどの不揮発性記憶媒体などで構成されている。パソコンであればマザーボードに相当する。カメラ１２は映像通話装置１近傍に居る利用者を撮影する撮像部であって、撮影した映像情報を制御装置１０へ出力する。カメラ１２の種類としては通常の２次元カメラや撮影した物の距離も測定可能は３次元カメラでもよい。マイク１３は映像通話装置１近傍に居る利用者が発声する音声を取得する音声取得部であって、取得した音声データを制御装置１０へ出力する。マイク１３の種類としては大型のダイナミックマイク、コンデンサマイクや、小型のＭＥＭＳマイクなどがあり、後述するが利用者の位置を検出するためには２個以上の複数のマイクから成るマイクアレイを使用する。ディスプレイ１１は情報通信網２経由で送られる他所の映像通話装置１から送られる映像データを表示すると共に、必要に応じて利用者自身の近影画像をリアルタイムで合成して表示することもできる。スピーカー１４は情報通信網２経由で送られる他所の映像通話装置１から送られる音声データを再生する。

【0017】

次に図２から図１０を用いて映像通話装置１の動作を詳細に説明する。図２は制御装置１０で実現する各機能をブロック図化した機能ブロック図である。ハードウェアとしては図示しない前述のＣＰＵ、揮発性メモリ、不揮発性記憶媒体などで構成され、ＣＰＵは不揮発性記憶媒体内に記憶されたプログラムを揮発性メモリに展開しながら実行する。図３は制御装置１０の処理フローチャートである。すなわち、制御装置１０の処理は、不揮発性記憶媒体内に記憶されたプログラムにより実行される。

【0018】

以下、図３のフローチャートに従い、図２も併用して映像通話装置１の動作を説明する。ここでは例えば、映像通話装置１が２個のシステムで、一方に３人の親子家族、もう一方に祖父母がテレビ電話を行っている場合を想定する。

【0019】

図３において、Ｓ１０１は、各映像通話装置１の電源が投入され、情報通信網２を経由してディスプレイ１１に各映像通話装置１の近傍に居る利用者を撮影した映像データを表示している状態である。すなわち、図４のように祖父母側のディスプレイ１１には３人の親子家族の近影が表示されている状態である。この段階では３人の親子はまだなにも発声していない。

【0020】

Ｓ１０２は「人物位置検知（カメラ）」処理である。図２において、親子家族側のカメラ１２で撮影された映像から人物位置特定部１０１により、図５に示すように人物の顔を検知し、個別にＩＤ属性を振り分ける。人物の顔検知は人物位置特定部１０１によるＡＩ処理にて行う。ＡＩ処理による人物の顔検知は公知の技術であるため処理内容は省略する。図５の例では父親をＩＤ１、子供をＩＤ２、母親をＩＤ３と割り振る。またそのＩＤの画面上の位置をＩＤ属性に付属させる。位置は例えば画面中央からの角度情報とし、画面中央を０°、左側をマイナス、右側をプラスとする。例えば父親のＩＤ１には－３０°、子供のＩＤ２には０°、母親のＩＤ３には＋３０°を付属させる。カメラ１２による角度情報の計算は、カメラ１２のレンズ画角（field of view）が決まっていれば一義的に計算ができる。カメラ１２の撮影画像の左右端が図２のように最大±６０°であれば、画像上の配置によって±６０°の間の位置を線形で決めることができ、例えば画面中心なら０°、中心と左右端のちょうど真ん中であれば±３０°などと計算できる。

【0021】

Ｓ１０３は「発声有無」判別処理である。図２において、親子家族側のマイク１３で集音された音声の有無を音声取得生成部１０３により判別し、音声が有ればＳ１０４処理へ進み、音声が無ければＳ１０２処理へ戻る。また音声があった場合、祖父母側の音声取得生成部１０３へ音声データを情報通信網２経由で送信し、祖父母側のスピーカー１４で音声を再生させる。

【0022】

Ｓ１０４は「音声位置検知（マイク）」処理である。親子家族側のマイク１３で集音された音声データから、人物位置特定部１０１により、その音声データが発声された位置を特定する。位置を特定するためには２個以上のマイクがあれば、各マイクに到達する音声の遅延時間から各マイクに対する角度を計算することができ、当該角度から映像通話装置１と発声した利用者の相対角度情報を計算することが可能となる。

【0023】

図６Ａに２個のマイクによる利用者の角度計算方法の具体例を示す。画面左から発声する父親ＩＤ１を例とする。図６Ａではマイク１３ａと１３ｂの２個のマイクを所定の距離にある線Ｌ１上に距離ｄ０（ｍ）で配置している。父親ＩＤ１が画面左側から発声した時、マイク１３ａに比べ１３ｂの音声取得開始時間にΔｔ（ｓｅｃ）の遅延時間があったとする。Δｔ（ｓｅｃ）の遅延時間は、発声点からマイク１３ａと１３ｂの距離差に起因するので、その距離差ｄ１は、音速×Δｔで計算できる。気温２０℃での音速は３４３．５（ｍ／ｓｅｃ）であることが知られており、例えばΔｔが１４５．５６ｅ－６（ｓｅｃ）だった場合、ｄ１＝３４３．５×１４５．５６ｅ－６＝０．０５（ｍ）と計算できる。

【0024】

図６Ａ中の角度α１は、父親ＩＤ１とマイク１３ｂとの距離がマイク１３ａと１３ｂ間の距離に比べて十分長いと考えると９０度と近似できる。すると、α‘＝αと近似でき、角度α＝アークＳＩＮ（ｄ１／ｄ０）と計算できる。２個のマイク間の距離ｄ０を０．１（ｍ）とすると、角度α＝アークＳＩＮ（０．０５／０．１）＝３０°となり、父親ＩＤ１は左側なので－３０°と計算できる。

【0025】

また、図６Ｂに２個のマイクによる利用者の角度計算方法の他の例を示す。図６Ｂにおいては、所定の距離にある線Ｌ１上と、線Ｌ１から距離ｄ２離れた線Ｌ２上に、マイク１３ａと１３ｂがそれぞれ配置されている。また、線Ｌ１上において、マイク１３ａとマイク１３ｂの線Ｌ１上に投映した位置は距離ｄ０（ｍ）離れている。父親ＩＤ１が画面左側から発声した時、マイク１３ｂに比べ１３ａの音声取得開始時間にΔｔ（ｓｅｃ）の遅延時間があったとする。Δｔ（ｓｅｃ）の遅延時間は、発声点からマイク１３ｂと１３ａの距離差に起因するので、その距離差ｄ１は、音速×Δｔで計算できる。図６Ｂ中の角度α１を９０度と近似すると、角度α２＝アークＳＩＮ（ｄ１／ｄ３）と計算できる。ｄ３はｄ０とｄ２から計算でき、α３も計算でき、よって、角度αも計算できる。

【0026】

図３に戻って、Ｓ１０５は「カメラ＆音声位置一致」判別処理である。ここではＳ１０２で取得した人物ＩＤの付属角度と、Ｓ１０４で計算した音声角度が一致しているかを判別し、一致していればＳ１０６処理へ進み、一致していなければＳ１０２処理へ戻る。一致しない例としては、カメラ１２の撮影画面内に居ない人物の発声や周りの物音などを取得した場合が考えられる。また本実施例のように撮影画面内に複数人物が居る場合はカメラ１２と音声の角度が一致している人物ＩＤにのみ、以降の処理を行う。

【0027】

Ｓ１０６は「音声テキスト変換」処理である。Ｓ１０５で人物ＩＤと角度が一致した音声データから親子家族側の音声認識部１０４によりテキスト変換を行う。音声のテキスト変換技術は公知の技術であるので、ここでは処理内容は省略する。音声のテキスト変換は図２に示す音声認識部１０４で行うこともができるが、登録単語の制限数や処理速度に問題がある場合、インターネット上の音声認識クラウドサービスを利用してもよい。

【0028】

図７は音声テキスト変換後の例である。父親ＩＤ１は「かあさんはんとしぶりだね」と発音した結果「母さん半年ぶりだね」とテキスト変換する。子供ＩＤ２は「おばあちゃんげんきー」と発音した結果「おばあちゃん元気―」とテキスト変換する。母親ＩＤ３は「おかあさんごぶさたしています」と発音した結果「お母さんご無沙汰しています」とテキスト変換する。

【0029】

Ｓ１０７は「性別・年齢・感情検知」処理である。Ｓ１０２で割り振った人物のＩＤごとに、図２に示す親子家族側の人物特徴感情検出部１０２によるＡＩ処理を用いてその性別・年齢・感情を判断し、ＩＤごとにその属性を記録する。図５を例にすると、ＩＤ１は男性・４０代・喜びの感情と検知する。ＩＤ２は男性・１０代・喜びの感情と検知する。ＩＤ３は女性・４０代・喜びの感情と検知する。ＡＩ処理による人物の性別・年齢・感情検知は公知の技術であるため処理内容は省略する。

【0030】

Ｓ１０８は「吹き出し選択」処理である。Ｓ１０７で設定したＩＤ毎の性別・年齢・感情情報を元に図２に示す親子家族側の吹き出し・フォント生成部１０５により表示させるテキストの吹き出しを変更する。

【0031】

図７は変更前の吹き出し例で、例えば特徴のない四角の吹き出し画像である。仮に「性別・年齢・感情検知」の情報が有られなかった場合は例えばこの四角の吹き出し画像を使用する。図８は変更後の吹き出し例で、男性・４０代なら例えば角が丸い四角の吹き出し画像、女性・４０代なら例えば全体が丸い吹き出し画像、子供なら例えば雲のような吹き出し画像と設定しておく。また図９のようにＩＤ毎の感情により吹き出しを変えてもよい。右が「楽しい」時の吹き出しの例、左が「悲しい」時の吹き出しの例である。これらの設定は使用者があらかじめ複数の吹き出し画像から選択しておくことができる。

【0032】

Ｓ１０９は「フォント選択」処理である。図２に示す親子家族側の吹き出し・フォント生成部１０５により表示させるテキストのフォントを変更する。図７は変更前のフォント例で、例えば明朝体である。図８は変更後のフォント例で、４０代なら例えばゴシック体、子供なら例えばポップ体と設定しておく。この設定は使用者があらかじめ複数のフォントから選択しておくことができる。

【0033】

Ｓ１１０は「絵文字挿入部」処理である。図２に示す親子家族側の吹き出し・フォント生成部１０５によりテキストに絵文字を挿入する。ＩＤ毎の感情情報を元に、例えば「楽しい」「悲しい」に対応する絵文字をあらかじめ登録しておき、テキストの最後に挿入させる。挿入の有無も使用者があらかじめ設定できる。図９は右が「楽しい」時の絵文字１１５の例、左が「悲しい」時の絵文字１１６の例である。

【0034】

Ｓ１１１は「人物吹き出し合成部」処理である。Ｓ１０６からＳ１１０で選択した吹き出し画像、テキスト内容、フォント、絵文字の情報は情報通信網２経由で祖父母側の映像通話装置１に送信され、祖父母側の合成・表示部１０６で親子の各ＩＤ映像に近接して祖父母側のディスプレイ１１に合成表示させる。また必要に応じて、図１０のように、図２に示す親子家族側の合成・表示部１０６でも同じように各ＩＤ映像に近接して合成表示させ、さらに祖父母側の画像とピクチャーインピクチャーで親子家族側のディスプレイ１１に合成表示させてもよい。

【0035】

Ｓ１０２からＳ１１１を処理した後は、またＳ１０２に戻り一連の処理を繰り返し実行する。また、Ｓ１０２からＳ１１１で処理された合成映像は情報通信網２を経由して他の映像通話装置１へ送信される。

【0036】

なお、吹き出し画像は発声が終了した後、表示させておくか消すかは利用者があらかじめ設定することができる。また次に発声した場合、前のテキストに追加していくか、あるいは前のテキストを消すかも利用者があらかじめ設定することができる。さらに前のテキストに追加していく場合、どのくらいのテキスト数を残すかを利用者があらかじめ設定することができる。

【0037】

また、本実施例では情報通信網２に接続された複数の映像通話装置１が存在する場合を想定したが、これに限らず、１つの映像通話装置１だけが存在し、カメラ１２で撮影した映像を自身のディスプレイ１１に表示し、発声した情報を吹き出し画像として合成することもできる。例えば、ファーストフード店での無人の注文決済端末に本実施例の構成を適用し、利用者は商品の注文や決済方法を声で行い、その情報を吹き出し画像で表示させることで、利用者が意図した注文や決済方法であるかを吹き出し画像で確認することができる。

【0038】

また、マイクにより取得した人の声の周波数から人の属性（男性、女性等）を判断し、それをカメラによる属性判断に補足的に利用してもよい。

【0039】

以上のように、本実施例によれば、個人用途のテレビ会議やテレビ電話などのオンラインコミュニケーションにおいて、表示させる個人毎の特徴や感情により合成表示させる吹き出しやテキストのフォントなどを変更することで、カジュアルな場でのツールとして場を盛り上げたり、会話を視覚的に楽しむことができる映像通話装置を提供できる。また、例えば、オンライン帰省のためにテレビ電話を利用して、聴覚が不自由な祖父母に孫との会話を視覚的に楽しんでもらうなどが可能となる。

【実施例2】

【0040】

本実施例では、利用者がテレビ電話などのオンラインコミュニケーション中に移動した場合の処理につき説明する。

【0041】

図１１Ａ、１１Ｂは、本実施例における具体例を示す図である。本実施例における映像通話装置１は実施例１の図２と同じである。また実行される処理のフローチャートも実施例１の図３と同じである。

【0042】

図１１Ａは実施例１の図８と同じ状況で、父親をＩＤ１、子供をＩＤ２、母親をＩＤ３とＩＤ属性が割り振られ、３人がそれぞれ発声した吹き出し画像が人物の近傍に合成されているものとする。ここで図１１Ｂのように父親ＩＤ１が右の方へ移動し、さらに子供ＩＤ２と母親ＩＤ３が左に移動した場合を想定する。

【0043】

図３のフローチャートのＳ１１１の「人物吹き出し合成部」処理において、各ＩＤの人物が移動した場合、合成・表示部１０６で、そのＩＤの人物の近傍に常に寄りそうように吹き出し画像を合成するようにする。その結果、図１１Ｂのように父親ＩＤ１の吹き出し画像も父親ＩＤ１と同じように右に移動し、子供ＩＤ２と母親ＩＤ３の吹き出し画像も左に移動することができる。

【0044】

なお、利用者が移動した場合に吹き出し画像も追従させるか否かは利用者があらかじめ設定することができる。追従させない場合は、各ＩＤの人物の移動を検知した場合、吹き出し画像を消去させればよい。

【0045】

また、本実施例では、実施例１の人の特徴に応じた吹き出し画像の変更を行なってもよいし、行わなくてもよい。

【0046】

以上のように、本実施例によれば、テレビ電話などのオンラインコミュニケーションにおいて、利用者が移動したとしても吹き出し画像も追従させることで、視覚的に利用者の過去の発言を見やすくする効果が期待できる。

【実施例3】

【0047】

本実施例では、複数の利用者が奥行き方向に重なった場合の処理につき説明する。

【0048】

図１２のように、父親ＩＤ１が奥で子供ＩＤ２が手前の角度α上に重なった場合を想定する。実施例１の構成では、カメラ１２による人物ＩＤ検知はカメラ１２に３次元カメラを使用すれば利用者が重なっていても検知可能である。一方、音声は実施例１の図６Ａのように利用者に対しマイク１３ａと１３ｂの２個のマイクが所定の距離にある線Ｌ１上に配置されている場合、父親ＩＤ１と子供ＩＤ２の発声はどちらも角度αからとなり、発声結果をＩＤに振り分けることができない。また、図６Ｂのように、２個のマイク１３ａと１３ｂが前後左右に異なる位置に配置されても、マイク１３ａと１３ｂを結ぶ線上に父親ＩＤ１と子供ＩＤ２が並んでしまうと、同様に父親ＩＤ１と子供ＩＤ２を差別化できず、発声結果をＩＤに振り分けることができない。

【0049】

この課題を解決するため、本実施例ではマイク１３を３つ配置するようにした。以下、３個のマイクによる利用者の角度計算方法の具体例を示す。

【0050】

図１３Ａは、３個のマイク１３ａ、１３ｂ、１３ｃのうち２個のマイク１３ａ、１３ｂが父親ＩＤ１と子供ＩＤ２を結ぶ延長線上にない場合を示している。図１３Ａにおいて、図６Ｂと同様に、所定の距離にある線Ｌ１上と、線Ｌ１から距離ｄ２離れた線Ｌ２上に、マイク１３ａと１３ｂがそれぞれ配置されている。また、線Ｌ１上において、マイク１３ａとマイク１３ｂの線Ｌ１上に投映した位置は距離ｄ０離れている。

【0051】

この時、父親ＩＤ１と子供ＩＤ２の距離の違いにより、マイク１３aとマイク１３bの間の音声到達時間差に比例して父親ＩＤ１からの音声の距離差ｄ３と子供ＩＤ２からの音声の距離差ｄ４に差が生じる。具体的には、例えば、子供ＩＤ２からの音声に関して、図１３Ａ中の角度α１は９０度と近似でき、角度α２＝アークＳＩＮ（ｄ４／ｄ５）と計算できる。ｄ５はｄ０とｄ２から計算でき、よって、子供ＩＤ２から発声された位置を特定する角度β１も計算できる。同様に、父親ＩＤ１から発声された位置を特定する角度β２も計算できる。

【0052】

つぎに、２個のマイク１３ａ、１３ｂ結ぶ延長線上に父親ＩＤ１と子供ＩＤ２が移動して並んだ場合は、マイク１３ａと１３ｂで、父親ＩＤ１と子供ＩＤ２を差別化できない。その場合は、図１３Ｂに示すように、父親ＩＤ１と子供ＩＤ２を結ぶ延長線上にないマイク１３ｃを利用することで、父親ＩＤ１と子供ＩＤ２を差別化できる。すなわち、図１３Ｂにおいて、マイク１３ｂとマイク１３ｃの間の音声到達時間差に比例して父親ＩＤ１からの音声の距離差ｄ３と子供ＩＤ２からの音声の距離差ｄ４に差が生じる。例えば、子供ＩＤ２からの音声に関して、角度α１は９０度と近似でき、子供ＩＤ２から発声された位置を特定する角度β１＝アークＣＯＳ（ｄ４／ｄ２）と計算できる。同様に、父親ＩＤ１から発声された位置を特定する角度β２も計算できる。

【0053】

図１３Ｃは、３個のマイク１３ａ、１３ｂ、１３ｃが所定の距離にある線Ｌ１上に配置されている場合を示している。図１３Ｃにおいて、例えば、マイク１３ｂとマイク１３ｃを用いると、マイク１３ｂとマイク１３ｃの間の音声到達時間差に比例して父親ＩＤ１からの音声の距離差ｄ３と子供ＩＤ２からの音声の距離差ｄ４に差が生じる。例えば、子供ＩＤ２からの音声に関して、図１３Ｃにおいて、角度α１は９０度と近似でき、子供ＩＤ２から発声された位置を特定する角度β１＝アークＳＩＮ（ｄ４／ｄ０）と計算できる。同様に、父親ＩＤ１から発声された位置を特定する角度β２も計算できる。

【0054】

このように、マイクが最低３個あれば、どのような配置であっても複数人の発声された位置を特定する幾何学的な角度を検知可能である。

【0055】

以上のように、検出した角度β１、β２の違いにより、発声結果を父親ＩＤ１と子供ＩＤ２のどちらに振り分けるかを決定する。すなわち、カメラ１２により父親ＩＤ１と子供ＩＤ２のどちらが近いかが判別できる。一方、使用するマイクの配置に応じて角度β１とβ２のどちらが幾何学的に発声距離が近いかは判るので、それらの発声結果をＩＤに振り分けることができる。これらの結果から図１４のように父親ＩＤ１と子供ＩＤ２の吹き出しを上記関連付けに基づいて合成する。

【0056】

以上のように、本実施例によれば、複数の利用者が奥行き方向に重なった場合でも、その位置に応じて吹き出し画像を合成する効果が期待できる。

【0057】

以上実施例について説明したが、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

【符号の説明】

【0058】

１：映像通話装置、２：情報通信網、１０：制御装置、１１：ディスプレイ、１２：カメラ、１３：マイク、１４：スピーカー、１０１：人物位置特定部、１０２：人物特徴感情検出部、１０３：音声取得生成部、１０４：音声認識部、１０５：吹き出し・フォント生成部、１０６：合成・表示部、１１５、１１６：絵文字

【図1】