特許7467635 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キム、ギョンチョルの特許一覧

特許7467635使用者端末、ビデオ通話装置、ビデオ通話システム、及びその制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-04-05

(45)【発行日】2024-04-15

(54)【発明の名称】使用者端末、ビデオ通話装置、ビデオ通話システム、及びその制御方法

(51)【国際特許分類】

H04N 7/15 20060101AFI20240408BHJP

G10L 21/0308 20130101ALI20240408BHJP

G10L 15/00 20130101ALI20240408BHJP

【ＦＩ】

H04N7/15

G10L21/0308 Z

G10L15/00 200C

【請求項の数】 2

(21)【出願番号】P 2022535531

(86)(22)【出願日】2020-12-07

(65)【公表番号】

(43)【公表日】2023-02-15

(86)【国際出願番号】 KR2020017727

(87)【国際公開番号】W WO2021118179

(87)【国際公開日】2021-06-17

【審査請求日】2022-06-24

(31)【優先権主張番号】10-2019-0162502

(32)【優先日】2019-12-09

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】522229961

【氏名又は名称】キム、ギョンチョル

【氏名又は名称原語表記】ＫＩＭ，ＫｙｕｎｇＣｈｅｏｌ

【住所又は居所原語表記】２０７－１４０２３５９，Ｓｕｙｅｏｎｇ－ｒｏ，Ｓａｎｇｄａｎｇ－ｇｕＣｈｅｏｎｇｊｕ－ｓｉＣｈｕｎｇｃｈｅｏｎｇｂｕｋ－ｄｏ２８７４６，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】100130111

【弁理士】

【氏名又は名称】新保斉

(72)【発明者】

【氏名】キム、ギョンチョル

【審査官】富樫明

(56)【参考文献】

【文献】特開２０１１－２０９７３１（ＪＰ，Ａ）

【文献】特開２００８－１６０２３２（ＪＰ，Ａ）

【文献】韓国公開特許第１０－２０１０－００２６７０１（ＫＲ，Ａ）

【文献】米国特許出願公開第２００９／０３０３１９９（ＵＳ，Ａ１）

【文献】特開２０１６－０９１０５７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ７／１４－７／１５

Ｇ１０Ｌ２１／０３０８

Ｇ１０Ｌ１５／００

(57)【特許請求の範囲】

【請求項1】

通信網を介して複数の使用者端末間にビデオ通話サービスを支援する通信部と、
前記複数の使用者端末のそれぞれから収集されるビデオ通話関連動画ファイルを用いて映像ファイルと音声ファイルを生成し、前記映像ファイルと音声ファイルを用いて使用者のそれぞれに対する原語情報を抽出する抽出部と、
前記原語情報から翻訳情報を生成する翻訳部と、
前記ビデオ通話関連動画に、前記抽出した原語情報及び翻訳情報がマッピングされた通訳翻訳動画の送信を制御する制御部と、を含み、
前記原語情報は、音声原語情報及びテキスト原語情報を含み、
前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報を含み、
前記抽出部は、
前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出し、
前記抽出した音声原語情報を特定の人物情報にマッピングして保存し、
前記マッピングは、抽出部が特定の音声を送信した使用者端末を識別してから、当該使用者端末に対して既に設定されたＩＤまたは使用者が、既に設定したニックネームを前記音声原語情報にマッピングすることであり、
また、前記抽出部は、
抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成し、
前記映像ファイルに対して映像処理プロセスを適用して映像ファイル上に手話パターンが存在するか否かを判断し、手話パターンが存在したら検出した手話パターンに基づき、テキスト原語情報を生成し、
前記翻訳部は、
前記抽出部が前記音声ファイルに対して周波数帯域分析プロセスを適用することにより分析した音声の特性に基づき、既に設定された音声のうち発話者の音声に類似した音声で音声翻訳情報を生成し、
前記音声の特性には、音声の性別、年齢、発音のトーン、発音のアクセントを含む
ことを特徴とするビデオ通話装置。

【請求項2】

通信網を介して複数の使用者端末からビデオ通話関連動画ファイルを受信するステップと、
前記ビデオ通話関連動画ファイルから生成した映像ファイルと音声ファイルを用いて、通話者のそれぞれに関する原語情報を抽出するステップと、
前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成するステップと、
前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報がマッピングされた通訳翻訳動画が送信されるように制御するステップと、を含み、
前記原語情報は、音声原語情報及びテキスト原語情報を含み、
前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報を含み、
前記原語情報を抽出するステップは、
前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出し、
前記抽出した音声原語情報を特定の人物情報にマッピングして保存し、
前記マッピングは、抽出部が特定の音声を送信した使用者端末を識別してから、当該使用者端末に対して既に設定されたＩＤまたは使用者が、既に設定したニックネームを前記音声原語情報にマッピングすることであり、
また、前記原語情報を抽出するステップは、
抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成し、
前記映像ファイルに対して映像処理プロセスを適用して映像ファイル上に手話パターンが存在するか否かを判断し、手話パターンが存在したら検出した手話パターンに基づき、テキスト原語情報を生成するステップを含み、
前記翻訳情報を生成するステップは、
前記抽出するステップにおいて、前記音声ファイルに対して周波数帯域分析プロセスを適用することにより分析した音声の特性に基づき、既に設定された音声のうち発話者の音声に類似した音声で音声翻訳情報を生成し、
前記音声の特性には、音声の性別、年齢、発音のトーン、発音のアクセントを含む
ことを特徴とするビデオ通話装置の制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

１対１ビデオ通話のみならず、多者間にビデオ通話を進めるうち、リアルタイムの原文／翻訳サービスを提供する使用者端末、ビデオ通話装置、ビデオ通話システム、及びその制御方法に関する。

【背景技術】

【0002】

ＩＴ技術の発達につれて、使用者間にビデオ通話がしばしば行われており、特に、全世界の多様な国々の人がビジネスの目的のみならず、コンテンツの共有、趣味生活の共有等を目的としてビデオ通話サービスを用いている。

【0003】

ただし、全てのビデオ通話の度に、通訳者と一緒にいながらビデオ通話をすることは、費用的や時間的で困難であり、そのため、ビデオ通話に対するリアルタイムの原文／翻訳サービスを提供する方法についての研究が進められている。

【発明の概要】

【発明が解決しようとする課題】

【0004】

多様な言語を使う通話者間に原文／翻訳サービスをリアルタイムで提供することにより、意思交換、意思把握をさらに円滑に行い、音声及びテキストのうち少なくとも一つによって原文／翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に意思交換、意思把握をさらに円滑に行い、電子黒板機能、テキスト送信機能、発言権設定機能等のように意思疎通をさらに円滑に行うことができる多様な機能を支援することを目的とする。

【課題を解決するための手段】

【0005】

一局面によるビデオ通話装置は、通信網を介して複数の使用者端末間にビデオ通話サービスを支援する通信部と、前記複数の使用者端末のそれぞれから収集されるビデオ通話関連動画ファイルを用いて映像ファイルと音声ファイルを生成し、前記映像ファイルと音声ファイルのうち少なくとも一つから原語情報を抽出する抽出部と、前記原語情報から翻訳情報を生成する翻訳部と、前記ビデオ通話関連動画に、前記抽出した原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画の送信を制御する制御部と、を含んでもよい。

【0006】

また、前記原語情報は、音声原語情報及びテキスト原語情報のうち少なくとも一つを含み、前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報のうち少なくとも一つを含んでもよい。

【0007】

また、前記抽出部は、前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出し、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成してもよい。

【0008】

また、前記抽出部は、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出してもよい。

【0009】

一局面による使用者端末は、通信網を介してビデオ通話サービスを支援する端末通信部と、ビデオ通話関連動画ファイルに原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を提供し、少なくとも一つのビデオ通話関連設定命令と、少なくとも一つの翻訳関連設定命令との入力が可能なアイコンを提供するように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御する端末制御部と、を含んでもよい。

【0010】

また、前記少なくとも一つのビデオ通話関連設定命令は、ビデオ通話者の発言権を設定可能な発言権設定命令、ビデオ通話者数設定命令、黒板活性化命令、及びテキスト送信命令のうち少なくとも一つを含んでもよい。

【0011】

また、前記端末制御部は、前記発言権設定命令の入力可否により、前記通訳翻訳動画の提供方法が変更されるか、または発言権を持った通話者に関する情報が含まれたポップアップメッセージを提供するように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御してもよい。

【0012】

また、前記端末制御部は、前記テキスト送信命令を入力されると、予め設定された領域に仮想キーボードが提供されるように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御してもよい。

【0013】

一局面によるビデオ通話装置は、通信網を介して複数の使用者端末からビデオ通話関連動画ファイルを受信するステップと、前記ビデオ通話関連動画ファイルから生成した映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出するステップと、前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成するステップと、前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画が送信されるように制御するステップと、を含んでもよい。

【0014】

また、前記抽出するステップは、前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出するステップと、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成するステップと、を含んでもよい。

【発明の効果】

【0015】

一実施形態による使用者端末、ビデオ通話装置、それを含むビデオ通話システム、及びその制御方法は、多様な言語を使う通話者間に原文／翻訳サービスをリアルタイムで提供することにより、意思交換、意思把握をさらに円滑に行うようにする。

【0016】

他の一実施形態による使用者端末、ビデオ通話装置、それを含むビデオ通話システム、及びその制御方法は、音声及びテキストのうち少なくとも一つによって原文／翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に意思交換、意思把握をさらに円滑に行うようにする。

【0017】

一実施形態による使用者端末、ビデオ通話装置、それを含むビデオ通話システム、及びその制御方法は、電子黒板機能、テキスト送信機能、発言権設定機能等のように意思疎通をさらに円滑に行うことができる多様な機能を支援することにより、さらに効率的なビデオ通話が進められるようにする。

【図面の簡単な説明】

【0018】

【図1】一実施形態による多様な種類の使用者端末について説明するための図である。

【図2】一実施形態によるビデオ通話システムの構成を概略的に示す図である。

【図3】一実施形態による二人の通話者間のビデオ通話中、ディスプレイ上に表示されるユーザーインターフェース画面を概略的に示す図である。

【図4】一実施形態による五人の通話者間のビデオ通話中、ディスプレイ上に表示されるユーザーインターフェース画面を概略的に示す図である。

【図5】一実施形態による五人の通話者のうちの一人が発言権を持つとき、ディスプレイ上に表示されるユーザーインターフェース画面を概略的に示す図である。

【図6】一実施形態による各種設定命令を入力されるように構成されたユーザーインターフェース画面を示す図である。

【図7】一実施形態によるビデオ通話装置の動作フローチャートを概略的に示す図である。

【発明を実施するための形態】

【0019】

図１は、一実施形態による多様な種類の使用者端末について説明するための図であり、図２は、一実施形態によるビデオ通話システムの構成を概略的に示す図である。また、図３は、一実施形態による二人の通話者間のビデオ通話中、ディスプレイ上に表示されるユーザーインターフェース画面を概略的に示す図であり、図４は、一実施形態による五人の通話者間のビデオ通話中、ディスプレイ上に表示されるユーザーインターフェース画面を概略的に示す図である。また、図５は、一実施形態による五人の通話者のうちの一人が発言権を持つとき、ディスプレイ上に表示されるユーザーインターフェース画面を概略的に示す図であり、図６は、一実施形態による各種設定命令を入力されるように構成されたユーザーインターフェース画面を示す図である。以下、説明の重複を防ぐために一緒に説明する。

【0020】

以下で説明される使用者端末は、各種演算処理が可能なプロセッサが内蔵されており、ディスプレイ及びスピーカーが内蔵されており、使用者のビデオ通話サービスを支援する全ての機器を含む。例えば、使用者端末は、図１に示すデスクトップパソコンＳ１、タブレットパソコンＳ２等を含み、以外にも、図１に示すスマートフォンＳ３、使用者の身体に脱着可能な時計やめがね型のウェアラブル端末Ｓ４等のように携帯可能なモバイル端末だけでなく、図１に示すＴＶＳ５（スマートテレビ、ＩＰＴＶ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌＴｅｌｅｖｉｓｉｏｎ）等を含む)等を含むが、制限はない。

【0021】

以下、説明の便宜のために、上述した多様な種類の使用者端末のうち、スマートフォン形態の使用者端末を一例として説明するが、これに限定されるものではなく、制限はない。また、以下、説明の便宜上、使用者端末を用いてビデオ通話サービスを利用する者を使用者または通話者と混用して指称する。

【0022】

一方、以下で説明されるビデオ通話装置は、通信網を介して、各種データを送受信可能な通信モジュール、及び各種演算処理が可能なプロセッサが内蔵されている全ての機器を含む。例えば、ビデオ通話装置は、上述したラップトップパソコン、デスクトップパソコン、タブレットパソコン、スマートフォン、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ウェアラブル端末だけでなく、スマートテレビ、ＩＰＴＶ等を含み、以外にも、通信モジュール及びプロセッサが内蔵されたサーバー等を含んでもよく、制限はない。

【0023】

図２を参照すると、ビデオ通話システム１は、使用者端末２００－１、…、２００－ｎ：２００（ｎ≧１）と使用者端末２００との間のビデオ通話を支援し、ビデオ通話に対する原文／翻訳サービスを提供するビデオ通話装置１００を含む。

【0024】

図２を参照すると、ビデオ通話装置１００は、通信網を介して、使用者端末２００間のビデオ通話サービスを支援する通信部１１０、通信部１１０を介して受信されるビデオ通話に関する動画ファイルを用いて、映像ファイル及び音声ファイルを生成した後、それに基づき、原語情報を抽出する抽出部１２０、原語情報を翻訳して翻訳情報を生成する翻訳部１３０、及びビデオ通話装置１００内の構成要素の全般的な動作を制御して翻訳情報を提供する制御部１４０を含んでもよい。

【0025】

ここで、通信部１１０、抽出部１２０、翻訳部１３０、及び制御部１４０は、それぞれ別途に実現されるか、あるいは、少なくとも一つは、一つのシステムオンチップ（ＳｙｓｔｅｍＯｎａＣｈｉｐ、ＳＯＣ）で統合して実現されてもよい。ただし、ビデオ通話装置１００内にシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに限定されず、実現方法には制限がない。以下、ビデオ通話装置１００の構成要素について具体的に説明する。

【0026】

通信部１１０は、無線通信網または有線通信網を介して外部機器と各種データをやりとりすることができる。ここで、無線通信網は、データが含まれた信号を無線でやりとりする通信網を意味する。

【0027】

例えば、通信部１１０は、３Ｇ（３Ｇｅｎｅｒａｔｉｏｎ）、４Ｇ（４Ｇｅｎｅｒａｔｉｏｎ）、５Ｇ（５Ｇｅｎｅｒａｔｉｏｎ）等のような通信方式により、基地局を経て、デバイス間に無線信号を送受信することができ、以外にも、無線ラン（ＷｉｒｅｌｅｓｓＬＡＮ）、ワイファイ（Ｗｉ－Ｆｉ）、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ）、ジグビー（Ｚｉｇｂｅｅ）、ＷＦＤ（Ｗｉ－ＦｉＤｉｒｅｃｔ）、ＵＷＢ（Ｕｌｔｒａｗｉｄｅｂａｎｄ）、赤外線通信（ＩｒＤＡ；ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、ＢＬＥ（ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ）、ＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）等のような通信方式を通じて、所定の距離以内の端末とデータが含まれた無線信号を送受信することができる。

【0028】

また、有線通信網は、データが含まれた信号を有線でやりとりする通信網を意味する。例えば、有線通信網は、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）、ＰＣＩ－ｅｘｐｒｅｓｓ、ＵＳＢ（ＵｎｉｖｅｒｓｅＳｅｒｉａｌＢｕｓ）等を含むが、これに限定されるものではない。以下で説明される通信網は、無線通信網と有線通信網の全てを含む。

【0029】

通信部１１０は、ビデオ通話サービスを介して、ビデオ通話中の使用者端末２００からビデオ通話関連動画ファイルを受信することができる。ビデオ通話関連動画ファイルは、ビデオ通話中に使用者端末２００から受信されるデータであり、視覚的な情報を提供する映像情報と聴覚的な情報を提供する音声情報が含まれてもよい。

【0030】

制御部１４０は、使用者端末２００の要請により、通信部１１０を制御してビデオ通話を支援するにあたって、ビデオ通話関連動画ファイルのみを送信してもよく、ビデオ通話関連動画ファイルに原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画ファイルを送信してもよく、以外にも、電子黒板機能によって作成されたイメージファイルを送信するか、またはテキスト機能をよって作成されたテキストファイルを送信してもよいなど、通話者間の意思疎通のために必要な多様なファイル等を送信してもよい。制御部１４０についての具体的な説明は、後述する。

【0031】

図２を参照すると、ビデオ通話装置１００には、抽出部１２０が設けられてもよい。抽出部１２０は、通信部１１０から受信したビデオ通話関連動画ファイルを用いて、映像ファイルと音声ファイルを生成することができる。

【0032】

映像ファイルと音声ファイルには、言語情報が含まれ、実施形態による抽出部1２０は、映像ファイルと音声ファイルから原語情報を抽出することができる。以下で説明される原語情報は、動画内に含まれた音声、手話等のような意思疎通手段から抽出された情報であって、原語情報は、音声またはテキストとして抽出されてもよい。

【0033】

以下、説明の便宜上、音声で構成された原語情報を音声原語情報とし、テキストで構成された原語情報をテキスト原語情報とする。例えば、ビデオ通話関連動画に写っている人物（通話者）が英語で「Ｈｅｌｌｏ」という音声を発話した場合、音声原語情報は、通話者が発話した音声の「Ｈｅｌｌｏ」であり、テキスト原語情報は、「Ｈｅｌｌｏ」のテキストそのものを意味する。以下、まず、音声ファイルから音声原語情報を抽出する方法について説明する。

【0034】

映像ファイル内には、多様な通話者の音声が混ざっていることがあり、このような多様な音声を一度に提供すれば、使用者が混乱するおそれがあり、翻訳することも困難である。これにより、抽出部１２０は、周波数帯域分析プロセスにより、音声ファイルから通話者のそれぞれに関する音声原語情報を抽出する。

【0035】

音声は、性別、年齢、発音のトーン、発音のアクセント等により、個人毎に異なり、よって、周波数帯域を分析すると、音声を発話した人物を区別することができる。これにより、抽出部１２０は、音声ファイルの周波数帯域を分析し、分析の結果に基づき、動画内に登場する登場人物別に音声を分離することにより、音声原語情報を抽出することができる。

【0036】

抽出部１２０は、音声原語情報をテキストに変換したテキスト原語情報を生成してから、音声原語情報及びテキスト原語情報を通話者別にわけて保存してもよい。

【0037】

音声ファイルの周波数帯域を分析する方法及び音声原語情報をテキスト原語情報に変換する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、ビデオ通話装置１００内に既に保存されていてもよく、抽出部１２０は、既に保存されたデータを用いて原語情報を分離生成してもよい。

【0038】

一方、ビデオ通話中に特定の通話者は、手話を使ってもよい。この場合、音声ファイルから音声原語情報を抽出してから、音声原語情報からテキスト原語情報を生成するような上述の方法とは異なり、抽出部１２０は、映像ファイルから直ちにテキスト原語情報を抽出してもよい。以下、映像ファイルからテキスト原語情報を抽出する方法について説明する。

【0039】

抽出部１２０は、映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、検出された手話パターンに基づき、テキスト原語情報を生成してもよい。

【0040】

映像処理プロセスの適用可否は、自動または手動で設定されてもよい。例えば、通信部１１０を介して、使用者端末２００から手話翻訳要請命令を入力された場合、抽出部１２０が映像処理プロセスにより手話パターンを検出してもよい。また他の例として、抽出部１２０は、自動で映像ファイルに対して映像処理プロセスを適用して、映像ファイル上に手話パターンが存在するか否かを判断してもよいなど、制限はない。

【0041】

映像処理プロセスにより手話パターンを検出する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、ビデオ通話装置１００内に既に保存されていてもよく、抽出部１２０は、既に保存されたデータを用いて、映像ファイル上に含まれた手話パターンを検出し、検出した手話パターンからテキスト原語情報を生成してもよい。
抽出部１２０は、原語情報を特定の人物情報にマッピングして保存してもよい。

【0042】

例えば、抽出部１２０は、特定の音声を送信した使用者端末２００を識別してから、当該使用者端末２００に対して既に設定されたＩＤまたは使用者（通話者）が、既に設定したニックネーム等を原語情報にマッピングすることにより、複数の使用者が同時に音声を発話しても、どの通話者がどんな発言をしたかを、視聴者が正確に把握することができるようにする。

【0043】

また他の例として、一つのビデオ通話関連動画ファイル内に複数の通話者が含まれた場合、抽出部１２０は、予め設定された方法により、またはビデオ通話関連動画ファイルから検出される通話者の特性により、適応的に人物情報を設定してもよい。一実施形態として、抽出部１２０は、周波数帯域分析プロセスにより、音声を発話した登場人物の性別、年齢等を把握し、把握の結果に基づき、最も適合すると判断される登場人物の名前を任意で設定してマッピングしてもよい。

【0044】

制御部１４０は、通信部１１０を制御して、使用者端末2００に人物情報をマッピングした原語情報及び翻訳情報を送り出し、よって、使用者は、さらに容易に発言者が誰であるかを識別することができる。制御部１４０についての具体的な説明は、後述する。

【0045】

図２を参照すると、ビデオ通話装置１００には、翻訳部１３０が設けられてもよい。翻訳部１３０は、原語情報を通話者の希望の言語で翻訳して、翻訳情報を生成することができる。通話者から入力された言語で翻訳情報を生成するにあたって、翻訳部１３０は、翻訳結果をテキストで生成してもよく、音声で生成してもよい。実施形態によるビデオ通話システム１は、原語情報及び翻訳情報のそれぞれを音声またはテキストで提供することにより、聴覚障害者と視覚障害者もビデオ通話サービスを利用できるという長所がある。

【0046】

以下、説明の便宜上、原語情報を使用者の要請した言語で翻訳したものを翻訳情報とし、翻訳情報も原語情報のように音声またはテキストの形態で構成されてもよい。このとき、テキストで構成された翻訳情報についてはテキスト翻訳情報とし、音声で構成された翻訳情報については音声翻訳情報とする。

【0047】

音声翻訳情報は、特定の音声でダビングされた音声情報であり、翻訳部１３０は、予め設定された音声または使用者の設定したトーンでダビングした音声翻訳情報を生成することができる。使用者毎に聴取しようとするトーンは異なり得る。例えば、特定の使用者は、男性の声のトーンの音声翻訳情報を希望し、他の使用者は、女性の声のトーンの音声翻訳情報を希望し得る。これにより、翻訳部１３０は、使用者の視聴をさらに楽にするために、多様なトーンで音声翻訳情報を生成してもよい。あるいは、翻訳部１３０は、発話者の音声を分析した結果に基づき、発話者の音声に類似した音声のトーンで音声翻訳情報を生成するなど、制限はない。実施形態によるビデオ通話装置１００は、音声翻訳情報を提供することにより、視覚障害者もさらに容易にビデオ通話サービスの提供を受けることができる。

【0048】

翻訳方法及び翻訳時に用いられる音声トーンの設定方法は、アルゴリズムまたはプログラム形態のデータがビデオ通話装置１００内に既に保存されてもよく、翻訳部１３０は、既に保存されたデータを用いて翻訳を行ってもよい。
図２を参照すると、ビデオ通話装置１００には、ビデオ通話装置１００内の構成要素の全般的な動作を制御する制御部１４０が設けられてもよい。

【0049】

制御部１４０は、各種演算処理が可能なＭＣＵ（ＭｉｃｒｏＣｏｎｔｒｏｌＵｎｉｔ）のようなプロセッサ、ビデオ通話装置１００の動作を制御するための制御プログラム、あるいは制御データを記憶するかまたはプロセッサが出力する制御命令データや映像データを仮に記憶するメモリで実現されてもよい。

【0050】

このとき、プロセッサ及びメモリは、ビデオ通話装置１００に内蔵されたシステムオンチップに集積されてもよい。ただし、ビデオ通話装置１００に内蔵されたシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されない。

【0051】

メモリは、ＳＲＡＭ、ＤＲＡＭ等の揮発性メモリ（一時保存メモリとも称する)、及びフラッシュメモリ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌＹＭｅｍｏｒｙ）等の不揮発性メモリを含んでもよい。ただし、これに限定されるものではなく、当業界に知られている任意の別の形態で実現されてもよい。

【0052】

一実施形態として、不揮発性メモリには、ビデオ通話装置１００の動作を制御するための制御プログラム及び制御データが保存されてもよく、揮発性メモリには、不揮発性メモリから制御プログラム及び制御データを読み込んで仮に保存されるか、プロセッサが出力する制御命令データ等が仮に保存されてもよいなど、制限はない。

【0053】

制御部１４０は、メモリに保存されたデータに基づき、制御信号を生成し、生成した制御信号により、ビデオ通話装置１００内の構成要素の全般的な動作を制御することができる。

【0054】

例えば、制御部１４０は、制御信号を介して通信部１１０を制御して、ビデオ通話を支援してもよい。また、制御部１４０は、制御信号を介して、抽出部１２０がビデオ通話に関するファイル、例えば、ビデオ通話関連動画ファイルから映像ファイルと音声ファイルを生成し、映像ファイルと音声ファイルのうち少なくとも一つから原語情報を抽出するように制御してもよい。

【0055】

制御部１４０は、複数の使用者端末から受信したビデオ通話関連動画ファイルに、原語情報及び翻訳情報のうち少なくとも一つをマッピングした通訳翻訳動画を使用者端末別に生成し、これを送信することにより、多様な国の使用者間に意思疎通を円滑に行うようにすることができる。
このとき、通訳翻訳動画には、原語情報または翻訳情報のみがマッピングされていてもよく、原語情報及び翻訳情報が一緒にマッピングされていてもよい。

【0056】

例えば、通訳翻訳動画内にテキスト原語情報及びテキスト翻訳情報のみがマッピングされている場合、通訳翻訳動画には、通話者が発話する度に、当該発話に関するテキスト原語情報とテキスト翻訳情報が字幕として含まれてもよい。また他の例として、通訳翻訳動画内に音声翻訳情報及びテキスト翻訳情報のみがマッピングされている場合、通訳翻訳動画には、通話者が発話する度に、特定国の言語で翻訳された音声翻訳情報がダビングされて含まれてもよく、テキスト翻訳情報が字幕として含まれてもよい。

【0057】

一方、制御部１４０は、通信部１１０を介して使用者端末２００から受信した設定命令または予め設定された方法に基づき、ビデオ通話サービス及び原文／翻訳サービスを提供する方法を変更することができる。

【0058】

例えば、通信部１１０を介して使用者端末２００からビデオ通話者数設定命令を受信した場合、制御部１４０は、当該命令に応じて、使用者端末２００の接続を制限することができる。

【0059】

また他の例として、通信部１１０を介して使用者端末２００から別途のテキストデータまたはイメージデータが受信されると、制御部１４０は、受信したテキストデータまたはイメージデータを通訳翻訳動画ファイルと一緒に送信することにより、通話者間に意見交換がさらに確実に行われるようにすることができる。

【0060】

また他の例として、通信部１１０を介して使用者端末２００から発言権設定命令、例えば、発言制限命令または発言順序に関する命令が受信されると、制御部１４０は、当該命令に応じて、複数の使用者端末２００のうち、発言権のある使用者端末に関する通訳翻訳動画のみを送信してもよい。あるいは、制御部１４０は、当該命令に応じて、発言権に関する内容が含まれたポップアップメッセージを通訳翻訳動画と一緒に送信してもよいなど、実現方法に制限はない。

【0061】

使用者端末２００には、後述するように、ビデオ通話サービス及び翻訳サービスを支援し、上述したサービスを支援するにあたって、使用者個々人の性向に合わせた多様な設定が可能なアプリケーションが予め保存されてもよく、使用者は、当該アプリケーションを用いて、多様な設定が可能である。以下、使用者端末２００について説明する。

【0062】

図２を参照すると、使用者端末２００は、使用者に各種情報を視覚的に提供するディスプレイ２１０－１、…、２１０－ｎ：２１０、使用者に各種情報を聴覚的に提供するスピーカー２２０－１、…、２２０－ｎ：２２０、通信網を介して、外部機器と各種データをやりとりする端末通信部２３０－１、…、２３０－ｎ：２３０、使用者端末１００内の構成要素の全般的な動作を制御してビデオ通話サービスを支援する端末制御部２４０－１、…、２４０－ｎ：２４０を含んでもよい（ｎ≧１）。

【0063】

ここで、端末通信部2３０、端末制御部2４０は、それぞれ別途で実現されるか、または一つのシステムオンチップで統合して実現されてもよいなど、実現方法には制限がない。以下、使用者端末１００のそれぞれの構成要素について説明する。

【0064】

使用者端末２００には、使用者に各種情報を視覚的に提供するディスプレイ２１０が設けられてもよい。一実施形態によれば、ディスプレイ２１０は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）、ＰＤＰ（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ）、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）等で実現されてもよいが、これらに限らず、制限はない。一方、ディスプレイ２１０がタッチスクリーンパネル（ＴｏｕｃｈＳｃｒｅｅｎＰａｎｅｌ、ＴＳＰ）タイプで実現された場合は、使用者は、ディスプレイ２１０の特定領域をタッチすることにより、各種説明命令を入力することができる。

【0065】

ディスプレイ２１０は、ビデオ通話に関する動画を表示するだけでなく、ディスプレイ２１０上に表示されたユーザーインターフェースを介して、各種制御命令を入力されてもよい。

【0066】

以下で説明されるユーザーインターフェースは、使用者と使用者端末２００との間の各種情報、命令の交換動作がさらに便利に行われるように、ディスプレイ２１０上に表示される画面をグラフィックで実現したグラフィックユーザーインターフェースであってもよい。

【0067】

例えば、グラフィックユーザーインターフェースは、ディスプレイ２１０を介して表示される画面の一部領域には、使用者から各種制御命令を容易に入力されるためのアイコン、ボタン等が表示され、他の一部領域には、少なくとも一つのウィジェットを介して各種情報が表示されるように実現されてもよいなど、制限はない。

【0068】

例えば、ディスプレイ２１０上には、図３に示すように、ビデオ通話中の通話者及び相手通話者に関する動画が表示され、翻訳命令を入力可能なアイコンＩ１、各種設定命令を入力されるアイコンＩ２、ビデオ通話サービスの状態に関する情報を提供するエモティコンＩ３、及び原語／翻訳情報Ｍを提供するように構成されたグラフィックユーザーインターフェースが表示されてもよい。

【0069】

端末制御部２４０は、制御信号を介して、ディスプレイ２１０上に、図３に示すようなグラフィックユーザーインターフェースが表示されるように制御する。ユーザーインターフェースを構成するウィジェット、アイコン、エモティコン等の表示方法、配置方法等は、アルゴリズムまたはプログラム形態のデータで実現され、使用者端末２００内のメモリまたはビデオ通話装置１００内のメモリに予め保存されてもよい。これにより、端末制御部２４０は、予め保存されたデータを用いて制御信号を生成し、生成した制御信号を介して、グラフィックユーザーインターフェースが表示されるように制御する。端末制御部１４０についての具体的な説明は、後述する。

【0070】

一方、図２を参照すると、使用者端末２００には、各種サウンドを出力可能なスピーカー２２０が設けられてもよい。スピーカー２２０は、使用者端末２００の一面に設けられ、ビデオ通話関連動画ファイルに含まれた各種サウンドを出力するなど、出力可能なサウンドの種類には、制限がない。スピーカー２２０は、既に公知された多様な種類のサウンド出力装置により実現され、制限はない。
使用者端末２００には、通信網を介して、外部機器と各種データをやりとりする端末通信部２３０が設けられてもよい。

【0071】

端末通信部２３０は、無線通信網または有線通信網を介して、外部機器と各種データをやりとりすることができる。ここで、無線通信網及び有線通信網についての具体的な説明は、上述しているので、省略する。

【0072】

端末通信部２３０は、ビデオ通話装置１００を介して、他の使用者端末とビデオ通話に関する動画ファイル、通訳翻訳動画ファイル等をリアルタイムでやりとりし、ビデオ通話サービスを提供することができる。
図２を参照すると、使用者端末２００には、使用者端末２００の全般的な動作を制御する端末制御部２４０が設けられてもよい。

【0073】

端末制御部２４０は、各種演算処理が可能なＭＣＵのようなプロセッサ、使用者端末２００の動作を制御するための制御プログラム、あるいは制御データを記憶するかまたはプロセッサが出力する制御命令データや映像データを仮に記憶するメモリで実現されてもよい。

【0074】

このとき、プロセッサ及びメモリは、使用者端末２００に内蔵されたシステムオンチップに集積されてもよい。ただし、使用者端末２００に内蔵されたシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されない。

【0075】

メモリは、ＳＲＡＭ、ＤＲＡＭ等の揮発性メモリ（一時保存メモリとも称する)、及びフラッシュメモリ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ等の不揮発性メモリを含んでもよい。ただし、これに限定されるものではなく、当業界に知られている任意の別の形態で実現されてもよい。

【0076】

一実施形態として、不揮発性メモリには、使用者端末２００の動作を制御するための制御プログラム及び制御データが保存されてもよく、揮発性メモリには、不揮発性メモリから制御プログラム及び制御データを読み込んで仮に保存されるか、プロセッサが出力する制御命令データ等が仮に保存されてもよいなど、制限はない。

【0077】

端末制御部２４０は、メモリに保存されたデータに基づき、制御信号を生成し、生成した制御信号により、使用者端末２００内の構成要素の全般的な動作を制御することができる。

【0078】

例えば、端末制御部２４０は、制御信号を介して、ディスプレイ２１０上に多様な情報が表示されるように制御することができる。端末通信部２3０を介して、ビデオ通話装置１００から一人の通話者に関する通訳翻訳動画を受信すると、端末制御部２４０は、図３に示すように、ディスプレイ２１０上にビデオ通話中の相手方に関する通訳翻訳動画を表示することができる。

【0079】

また、端末制御部２４０は、ビデオ通話サービスに対する各種設定命令を入力されるユーザーインターフェースが、ディスプレイ２１０上に表示されるように制御し、当該ユーザーインターフェースから入力された設定命令に基づき、ユーザーインターフェースの構成を変更することができる。

【0080】

例えば、使用者が、図３に示すアイコンＩ２をクリックした場合、端末制御部１４０は、ビデオ通話関連通訳翻訳動画が表示される領域が、図４に示すように縮小し、使用者から各種設定命令を入力されるアイコンが示されるように構成されたユーザーインターフェースが、ディスプレイ21０上に表示されるように制御することができる。

【0081】

具体的に、図４を参照すると、端末制御部１４０は、ビデオ通話者招待命令、翻訳語選択命令、発言権設定命令、電子黒板命令、キーボード活性化命令、字幕設定命令、その他の設定命令等を入力されるアイコンが含まれたユーザーインターフェースが、ディスプレイ２１０上に表示されるように制御することができるが、入力可能な設定命令が上述した例に限定されるものではない。

【0082】

実施形態によるビデオ通話システム１は、１対１ビデオ通話のみならず、多者間のビデオ通話サービスを提供することができる。よって、使用者が、ビデオ通話者招待アイコンをクリックして、他の使用者を招待する場合、端末制御部２４０は、招待した使用者の人数に合わせて、ビデオ通話関連動画が表示される領域をさらに分割することができる。一実施形態として、使用者が一人の通話者とビデオ通話を進行中、二人の通話者をさらに招待して、計三人の通話者とビデオ通話をするようになる場合、端末制御部２４０は、図５に示すように、第１～３領域（Ｒ１、Ｒ２、Ｒ３）に三人の通話者のそれぞれに関する動画が表示され、第１～３領域（Ｒ１、Ｒ２、Ｒ３）に通話者別の原語／翻訳情報（Ｍ１、Ｍ２、Ｍ３）がそれぞれ表示されるように構成されたユーザーインターフェースを、ディスプレイ２１０上に表示することができる。このとき、一人の通話者がさらに招待される場合、端末制御部２４０は、第４領域（Ｒ４）に新たに追加された通話者の動画と原語／翻訳情報を表示することができるなど、制限はない。

【0083】

一方、使用者が発言権設定アイコンをクリックして発言権と関連した設定を行った場合、端末制御部２４０は、多様な方法により、発言権を持った使用者に間する動画が強調されるように表示することができる。

【0084】

例えば、端末制御部２４０は、図６に示すように、発言権を持った通話者に関する動画が拡大されながら、発言権を持った使用者に関する原語／翻訳情報（Ｍ１）のみを提供するユーザーインターフェースが、ディスプレイ２１０上に表示されるように制御することができる。また他の例として、端末制御部２４０は、発言権を持った通話者に関する動画及び原語／翻訳情報のみを提供するように、ユーザーインターフェースを変更して、ディスプレイ２１０上に表示することもできるなど、端末制御部２４０は、多様な方法により、発言権を持った通話者と発言権を持たない通話者を区別するように、ユーザーインターフェースを変更することができ、制限はない。

【0085】

上述したユーザーインターフェースを構成する方法の場合、プログラムまたはアルゴリズム形態のデータで実現されて、使用者端末２００内に予め保存されるか、またはビデオ通話装置１００内に予め保存されてもよい。ビデオ通話装置２００内に予め保存された場合、端末制御部２４０は、端末通信部２3０を介して、ビデオ通話装置１００から前記データを受信した後、これに基づき、ディスプレイ２１０上にユーザーインターフェースが表示されるように制御することができる。以下、ビデオ通話装置の動作について簡単に説明する。
図７は、一実施形態によるビデオ通話装置の動作フローチャートを概略的に示す図である。

【0086】

ビデオ通話装置は、通信網を介して、複数の使用者端末間を連結して、ビデオ通話サービスを提供することができ、この場合、使用者端末を介して、ビデオ通話関連動画ファイルを受信することができる。ビデオ通話関連動画ファイルは、使用者端末に内蔵されたカメラ及びマイクのうち少なくとも一つを用いて生成されたデータであって、上述したカメラ及びマイクのうち少なくとも一つにより使用者の意思疎通が保存されたデータを意味する。

【0087】

ビデオ通話装置は、使用者端末のそれぞれから受信したビデオ通話関連動画ファイルに基づき、使用者端末のそれぞれに関する映像ファイルと音声ファイルを生成し７００、生成した映像ファイル及び音声ファイルのうち少なくとも一つを用いて、使用者端末のそれぞれに関する原語情報を抽出することができる７１０。

【0088】

ここで、原語情報とは、ビデオ通話関連動画内に保存された意思疎通を音声及びテキストのうち少なくとも一つの形態で示した情報であって、特定国の言語で翻訳する前の情報に相当する。

【0089】

ビデオ通話装置は、ビデオ通話関連動画内に登場する通話者が使用する意思疎通手段により、映像ファイル及び音声ファイルの全部を用いるか、または一つのみを用いて原語情報を抽出することができる。

【0090】

例えば、ビデオ通話関連動画内に登場する通話者のいずれか一人が音声を用いてビデオ通話を行うとともに、他の通話者は、手話を用いてビデオ通話を行う場合、ビデオ通話装置は、映像ファイルから手話パターンを識別して原語情報を抽出し、音声ファイルからは音声を識別して原語情報を抽出することができる。

【0091】

また他の例として、通話者が音声のみを用いてビデオ通話中の場合、ビデオ通話装置は、音声ファイルのみを用いて原語情報を抽出し、また他の例として、通話者が手話のみを用いて対話中の場合、ビデオ通話装置は、映像ファイルのみを用いて原語情報を抽出することができる。

【0092】

ビデオ通話装置は、通話者の要請により、原語情報を用いて翻訳情報を生成した後７２０、通信網を介して、原語情報及び翻訳情報のうち少なくとも一つを提供することができる７３０。例えば、ビデオ通話装置は、ビデオ通話関連動画に原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を送信することにより、通話者間の意思疎通が円滑に行われるようにする。

【0093】

明細書に記載された実施形態と図面に示された構成は、開示された発明の好適な一例に過ぎず、本出願の出願時点において、本明細書の実施形態と図面を代替可能な様々な変形例があり得る。

【0094】

また、本明細書で用いられた用語は、実施形態を説明するために用いられたものであって、開示された発明を制限及び／または限定しようとする意図ではない。単数の表現は、文脈からみて、明らかに異なる意味を有さない限り、複数の表現を含む。本明細書において、「含む」または「備える」のような用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せを指すためのものであり、一つまたはそれ以上の他の特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せの存在または付加可能性を予め排除するものではない。

【0095】

また、本明細書で用いられた「第１」、「第２」等のように序数を含む用語は、多様な構成要素を説明するために用いられるが、前記構成要素は、前記用語により限定されず、前記用語は、一つの構成要素を他の構成要素から区別する目的でのみ用いられる。例えば、本発明の権利範囲を逸脱しない範囲内で、第１構成要素は第２構成要素と命名されてもよく、同様に、第２構成要素も第１構成要素と命名されてもよい。「及び／または」との用語は、複数の関連して記載された項目の組合せまたは複数の関連して記載された項目のうちのいずれかの項目を含む。

【0096】

また、本明細書の全体で用いられる「～部（ｕｎｉｔ）」、「～器」、「～ブロック（ｂｌｏｃｋ）」、「～部材（ｍｅｍｂｅｒ）」、「～モジュール（ｍｏｄｕｌｅ）」等の用語は、少なくともいずれか一つの機能や動作を処理する単位を意味してもよい。例えば、ソフトウェア、ＦＰＧＡまたはＡＳＩＣのようなハードウェアを意味してもよい。しかし、「～部」、「～器」、「～ブロック」、「～部材」、「～モジュール」等がソフトウェアまたはハードウェアに限定される意味ではなく、「～部」、「～器」、「～ブロック」、「～部材」、「～モジュール」等は、接近できる保存媒体に保存され、一つまたはそれ以上のプロセッサにより行われる構成であってもよい。

【符号の説明】

【0097】

１冷蔵庫
２０、３０貯蔵室
２１、２２貯蔵室ドア
１６０ディスプレイ

【図1】