(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-05
(45)【発行日】2024-04-15
(54)【発明の名称】使用者端末、放送装置、それを含む放送システム、及びその制御方法
(51)【国際特許分類】
H04N 7/15 20060101AFI20240408BHJP
G10L 15/00 20130101ALI20240408BHJP
G10L 13/00 20060101ALI20240408BHJP
G10L 25/18 20130101ALI20240408BHJP
G06F 40/58 20200101ALI20240408BHJP
G06Q 50/00 20240101ALI20240408BHJP
【FI】
H04N7/15
G10L15/00 200C
G10L13/00 100G
G10L25/18
G06F40/58
G06Q50/00 300
(21)【出願番号】P 2022535547
(86)(22)【出願日】2020-12-07
(86)【国際出願番号】 KR2020017734
(87)【国際公開番号】W WO2021118180
(87)【国際公開日】2021-06-17
【審査請求日】2022-06-24
(31)【優先権主張番号】10-2019-0162503
(32)【優先日】2019-12-09
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】522229961
【氏名又は名称】キム、ギョン チョル
【氏名又は名称原語表記】KIM, Kyung Cheol
【住所又は居所原語表記】207-1402 359,Suyeong-ro,Sangdang-gu Cheongju-si Chungcheongbuk-do 28746,Republic of Korea
(74)【代理人】
【識別番号】100130111
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】キム、ギョン チョル
【審査官】富樫 明
(56)【参考文献】
【文献】特開2011-209731(JP,A)
【文献】特開2008-160232(JP,A)
【文献】韓国公開特許第10-2010-0026701(KR,A)
【文献】米国特許出願公開第2009/0303199(US,A1)
【文献】特開2016-091057(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/14-7/15
G10L 15/00
G10L 13/00
G10L 25/18
G06F 40/58
G06Q 50/00
(57)【特許請求の範囲】
【請求項1】
通信網を介してチャットルームに接続した使用者端末間のビデオ通話を支援する通信部と、
前記通信部から受信されるビデオ通話関連動画ファイルを用いて映像ファイルと音声ファイルを生成し、前記映像ファイルと音声ファイ
ルを用いて、通話者のそれぞれに関する原語情報を抽出する抽出部と、
前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成する翻訳部と、
前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画が、前記チャットルームに接続した使用者端末及び視聴者端末に送信されるように制御する制御部と、を含
み、
前記原語情報は、音声原語情報及びテキスト原語情報を含み、
前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報を含み、
前記抽出部は、
前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出し、
前記抽出した音声原語情報を特定の人物情報にマッピングして保存し、
前記マッピングは、抽出部が特定の音声を送信した使用者端末を識別してから、当該使用者端末に対して既に設定されたIDまたは使用者が、既に設定したニックネームを前記音声原語情報にマッピングすることであり、
また、前記抽出部は、
抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成し、
前記映像ファイルに対して映像処理プロセスを適用して映像ファイル上に手話パターンが存在するか否かを判断し、手話パターンが存在したら検出した手話パターンに基づき、テキスト原語情報を生成し、
前記翻訳部は、
前記抽出部が前記音声ファイルに対して周波数帯域分析プロセスを適用することにより分析した音声の特性に基づき、既に設定された音声のうち発話者の音声に類似した音声で音声翻訳情報を生成し、
前記音声の特性には、音声の性別、年齢、発音のトーン、発音のアクセントを含む
ことを特徴とするビデオ通話装置。
【請求項2】
ビデオ通話関連動画ファイルを受信するステップと、
前記ビデオ通話関連動画ファイルから生成した映像ファイルと音声ファイ
ルを用いて、通話者のそれぞれに関する原語情報を抽出するステップと、
前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成するステップと、
前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を、チャットウィンドウに接続中の端末に送信されるように制御するステップと、を含
み、
前記原語情報は、音声原語情報及びテキスト原語情報を含み、
前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報を含み、
前記原語情報を抽出するステップは、
前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出し、
前記抽出した音声原語情報を特定の人物情報にマッピングして保存し、
前記マッピングは、抽出部が特定の音声を送信した使用者端末を識別してから、当該使用者端末に対して既に設定されたIDまたは使用者が、既に設定したニックネームを前記音声原語情報にマッピングすることであり、
また、前記原語情報を抽出するステップは、
抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成し、
前記映像ファイルに対して映像処理プロセスを適用して映像ファイル上に手話パターンが存在するか否かを判断し、手話パターンが存在したら検出した手話パターンに基づき、テキスト原語情報を生成するステップを含み、
前記翻訳情報を生成するステップは、
前記抽出するステップにおいて、前記音声ファイルに対して周波数帯域分析プロセスを適用することにより分析した音声の特性に基づき、既に設定された音声のうち発話者の音声に類似した音声で音声翻訳情報を生成し、
前記音声の特性には、音声の性別、年齢、発音のトーン、発音のアクセントを含む
ことを特徴とするビデオ通話装置の制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
ビデオ通話コンテンツをリアルタイムで放送するにあたって、翻訳サービスを提供する使用者端末、放送装置、それを含む放送システム、及びその制御方法に関する。
【背景技術】
【0002】
IT技術の発達につれて、使用者間にビデオ通話がしばしば行われており、特に、全世界の多様な国々の人がビジネスの目的のみならず、コンテンツの共有、趣味生活の共有等を目的としてビデオ通話サービスを用いている。
【0003】
ただし、全てのビデオ通話の度に、通訳者と一緒にいながらビデオ通話をすることは、費用的や時間的で困難であり、そのため、ビデオ通話に対するリアルタイムの原文/翻訳サービスを提供する方法についての研究が進められている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
通話者だけでなく、視聴者に原文/翻訳サービスをリアルタイムで提供することにより、意思交換、意思把握をさらに円滑に行い、音声及びテキストのうち少なくとも一つによって原文/翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に意思交換、意思把握をさらに円滑に行うようにすることを目的とする。
【課題を解決するための手段】
【0005】
一局面による放送装置は、通信網を介してチャットルームに接続した使用者端末間のビデオ通話を支援する通信部と、前記通信部から受信されるビデオ通話関連動画ファイルを用いて映像ファイルと音声ファイルを生成し、前記映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出する抽出部と、前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成する翻訳部と、前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画が、前記チャットルームに接続した使用者端末及び視聴者端末に送信されるように制御する制御部と、を含んでもよい。
【0006】
また、前記原語情報は、音声原語情報及びテキスト原語情報のうち少なくとも一つを含み、前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報のうち少なくとも一つを含んでもよい。
【0007】
また、前記抽出部は、前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出し、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成してもよい。
【0008】
また、前記抽出部は、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出してもよい。
【0009】
一局面による使用者端末は、通信網を介してビデオ通話サービスを支援する端末通信部と、ビデオ通話関連動画ファイルに原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を提供し、少なくとも一つのビデオ通話関連設定命令と、少なくとも一つの翻訳関連設定命令との入力が可能なアイコンを提供するように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御する端末制御部と、を含んでもよい。
【0010】
また、前記少なくとも一つのビデオ通話関連設定命令は、ビデオ通話者の発言権を設定可能な発言権設定命令、ビデオ通話者数設定命令、視聴者数設定命令、及びテキスト送信命令のうち少なくとも一つを含んでもよい。
【0011】
また、前記端末制御部は、前記発言権設定命令の入力可否により、前記通訳翻訳動画の提供方法が変更されるか、または発言権を持った通話者に関する情報が含まれたポップアップメッセージを提供するように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御してもよい。
【0012】
一局面による放送装置の制御方法は、ビデオ通話関連動画ファイルを受信するステップと、前記ビデオ通話関連動画ファイルから生成した映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出するステップと、前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成するステップと、前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を、チャットウィンドウに接続中の端末に送信されるように制御するステップと、を含んでもよい。
【0013】
また、前記抽出するステップは、前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出するステップと、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成するステップと、を含んでもよい。
【0014】
また、前記抽出するステップは、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出するステップを含んでもよい。
【発明の効果】
【0015】
一実施形態による使用者端末、放送装置、それを含む放送システム、及びその制御方法は、通話者だけでなく、視聴者に原文/翻訳サービスをリアルタイムで提供することにより、意思交換、意思把握をさらに円滑に行うようにする。
【0016】
他の一実施形態による使用者端末、放送装置、それを含む放送システム、及びその制御方法は、音声及びテキストのうち少なくとも一つによって原文/翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に意思交換、意思把握をさらに円滑に行うようにする。
【図面の簡単な説明】
【0017】
【
図1】一実施形態によるビデオ通話放送システムの構成を概略的に示す図である。
【
図2】一実施形態によるビデオ通話放送システムの制御ブロック図を概略的に示す図である。
【
図3】一実施形態によるビデオ通話中、ディスプレイ上に表示されるユーザーインターフェース画面を示す図である。
【
図4】一実施形態による各種設定命令を入力されるように構成されたユーザーインターフェース画面を示す図である。
【
図5】他の実施形態による発言権により構成が変更されるユーザーインターフェース画面を示す図である。
【
図6】また他の実施形態による発言権により構成が変更されるユーザーインターフェース画面を示す図である。
【
図7】一実施形態による放送装置の動作フローチャートを概略的に示す図である。
【発明を実施するための形態】
【0018】
以下で説明される使用者端末は、各種演算処理が可能なプロセッサが内蔵されており、通信モジュールが内蔵されており、通信網を介してビデオ通話サービスが可能な全ての機器を含む。
【0019】
例えば、使用者端末は、ラップトップ(laptop)、デスクトップ(desk top)、タブレットパソコン(tablet PC)だけでなく、スマートフォン、PDA(Personal Digital Assistant)のようなモバイル端末、及び使用者の身体に脱着可能な時計やめがね型のウェアラブル端末だけでなく、スマートテレビ、IPTV(Internet Protocol Television)等を含み、制限はない。以下、説明の便宜上、使用者端末を用いてビデオ通話サービスを利用する者を使用者または通話者と混用して指称する。
【0020】
以下で説明される視聴者は、ビデオ通話に直接的に参与するよりは、ビデオ通話を視聴しようとする者であって、以下で説明される視聴者端末は、上述した使用者端末として利用可能な機器の全てを含む。一方、以下では、使用者端末及び視聴者端末を区別して説明する必要がない場合、端末と呼ぶことにする。
【0021】
また、以下で説明される放送装置は、通信モジュールが内蔵されており、通信網を介してビデオ通話サービスを提供することができ、各種演算処理が可能なプロセッサが内蔵されている全ての機器を含む。
【0022】
例えば、放送装置は、上述したラップトップ(laptop)、デスクトップ(desk top)、タブレットパソコン(tablet PC)、スマートフォン、PDA(Personal Digital Assistant)のようなモバイル端末、及びウェアラブル端末だけでなく、スマートテレビ、IPTV(Internet Protocol Television)により実現可能である。以外にも、放送装置は、通信モジュール及びプロセッサが内蔵されたサーバーによっても実現可能であり、制限はない。以下、放送装置について、さらに具体的に説明する。
【0023】
以下、説明の便宜のために、
図1に示すように、スマートフォン形態の使用者端末及び視聴者端末を例とし、サーバー形態の放送装置を例として説明しているが、上述のように、使用者端末、視聴者端末、及び放送装置の形態がこれに限定されるものではなく、制限はない。
【0024】
図1は、一実施形態によるビデオ通話放送システムの構成を概略的に示す図であり、
図2は、一実施形態によるビデオ通話放送システムの制御ブロック図を概略的に示す図である。また、
図3は、一実施形態によるビデオ通話中、ディスプレイ上に表示されるユーザーインターフェース画面を示す図であり、
図4は、一実施形態による各種設定命令を入力されるように構成されたユーザーインターフェース画面を示す図である。また、
図5及び
図6は、相違した実施形態による発言権により構成が変更されるユーザーインターフェース画面を示す図である。以下、説明の重複を防ぐために一緒に説明する。
【0025】
図1及び
図2を参照すると、放送システム1は、使用者端末100-1、…、100-n:100(n≧1)、視聴者端末200-1、…、200-n:200(m≧1)、使用者端末100と視聴者端末200との間の連結を支援し、ビデオ通話関連動画ファイル、及びビデオ通話関連動画ファイルから抽出した原語情報及び翻訳情報を一緒に送り出すことにより、翻訳サービスを提供する放送装置300を含む。以下、放送装置300について、さらに具体的に説明する。
【0026】
図2を参照すると、放送装置300は、通信網を介して、外部端末とデータをやりとりするとともに、外部端末間のビデオ通話サービスを支援する通信部310と、通信部310から受信されるビデオ通話関連動画ファイルを用いて、映像ファイル及び音声ファイルを生成した後、それに基づき、原語情報を抽出する抽出部320、原語情報を翻訳して翻訳情報を生成する翻訳部330、及び放送装置300内の構成要素の全般的な動作を制御してビデオ通話に対する放送サービスを提供するとともに、翻訳サービスを提供する制御部340を含んでもよい。
【0027】
ここで、通信部310、抽出部320、翻訳部330、及び制御部340は、それぞれ別途に実現されるか、あるいは、少なくとも一つは、一つのシステムオンチップ(System On a Chip、SOC)で統合して実現されてもよい。ただし、放送装置300内にシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに限定されず、実現方法には制限がない。以下、放送装置300の構成要素について具体的に説明する。
【0028】
通信部310は、無線通信網または有線通信網を介して外部機器と各種データをやりとりすることができる。ここで、無線通信網は、データが含まれた信号を無線でやりとりする通信網を意味する。
【0029】
例えば、通信部310は、3G(3Generation)、4G(4Generation)、5G(5Generation)等のような通信方式により、基地局を経て、端末間に無線信号を送受信することができ、以外にも、無線ラン(Wireless LAN)、ワイファイ(Wi-Fi)、ブルートゥース(登録商標)(Bluetooth)、ジグビー(Zigbee)、WFD(Wi-Fi Direct)、UWB(Ultra wideband)、赤外線通信(IrDA;Infrared Data Association)、BLE(Bluetooth Low Energy)、NFC(Near Field Communication)等のような通信方式を通じて、所定の距離以内の端末とデータが含まれた無線信号を送受信することができる。
【0030】
また、有線通信網は、データが含まれた信号を有線でやりとりする通信網を意味する。例えば、有線通信網は、PCI(Peripheral Component Interconnect)、PCI-express、USB(Universe Serial Bus)等を含むが、これに限定されるものではない。以下で説明される通信網は、無線通信網と有線通信網の全てを含む。
【0031】
通信部310は、ビデオ通話サービスを提供するために、通信網を介して、使用者端末100間に連結されるようにしてもよく、ビデオ通話を視聴可能に視聴者端末200を連結してもよい。
【0032】
例えば、ビデオ通話をリアルタイムでストリーミングするために、使用者が集まってチャットルームを作成した場合、当該チャットルームには視聴者が接続することができる。この場合、通信部310は、通信網を介して、使用者間にビデオ通話が円滑に行われるようにするだけでなく、ビデオ通話コンテンツを視聴者に送信することにより、リアルタイムのビデオ通話放送サービスが行われるようにする。
【0033】
具体的な例として、制御部340は、通信部310を介して、使用者端末200から受信したチャットルームの生成要請によりチャットルームを生成してから、チャットルームに接続した視聴者端末300でもビデオ通話を視聴可能なように、通信部310を制御することもできる。制御部340についての具体的な説明は、後述する。
【0034】
図2を参照すると、放送装置300には、抽出部320が設けられてもよい。抽出部320は、通信部310から受信されるビデオ通話関連動画ファイルを用いて、映像ファイルと音声ファイルを生成することができる。ビデオ通話関連動画ファイルは、ビデオ通話中に使用者端末200から受信されるデータであり、視覚的な情報を提供する映像情報と聴覚的な情報を提供する音声情報が含まれてもよい。例えば、ビデオ通話関連動画ファイルは、使用者端末100に内蔵されたカメラ及びマイクのうち少なくとも一つを用いて、通話者の意思疎通を保存したファイルを意味してもよい。
【0035】
ビデオ通話中に出る全ての言語に対して翻訳サービスを提供するためには、まず、原語の認識が求められる。これにより、抽出部320は、ビデオ通話関連動画ファイルを映像ファイルと音声ファイルに分離して生成してから、映像ファイル及び音声ファイルのうち少なくとも一つから原語情報を抽出する。
【0036】
以下で説明される原語情報は、ビデオ通話関連動画内に含まれた音声、手話等のような意思疎通手段から抽出された情報であって、原語情報は、音声またはテキストとして抽出されてもよい。
【0037】
以下、説明の便宜上、音声で構成された原語情報を音声原語情報とし、テキストで構成された原語情報をテキスト原語情報とする。例えば、ビデオ通話関連動画に写っている人物(通話者)が英語で「Hello」という音声を発話した場合、音声原語情報は、通話者が発話した音声の「Hello」であり、テキスト原語情報は、「Hello」のテキストそのものを意味する。以下、まず、音声ファイルから音声原語情報を抽出する方法について説明する。
【0038】
音声ファイル内には、多様な使用者の音声が入っていることがあり、このような多様な音声が同時に出力されると、識別し難く、これにより、翻訳の正確度も低くなり得る。このため、抽出部320は、音声ファイルに対して周波数帯域分析プロセスを適用して、使用者(通話者)のそれぞれに関する音声原語情報を抽出してもよい。
【0039】
音声は、性別、年齢、発音のトーン、発音のアクセント等により、個人毎に異なり、周波数帯域を分析すると、当該特性を把握することにより、音声別に個別的な識別が可能である。これにより、抽出部320は、音声ファイルの周波数帯域を分析し、分析の結果に基づき、ビデオ通話中に登場する通話者のそれぞれに対する音声を分離することにより、音声原語情報を抽出することができる。
【0040】
抽出部320は、音声原語情報に対して音声認識プロセスを適用することにより、音声をテキストに変換したテキスト原語情報を生成することができる。抽出部320は、音声原語情報及びテキスト原語情報を通話者別にわけて保存してもよい。
【0041】
周波数帯域分析プロセスにより、使用者のそれぞれに関する音声原語情報を抽出する方法、及び音声認識プロセスにより、音声原語情報からテキスト原語情報を生成する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、放送装置300内に既に保存されていてもよく、抽出部320は、既に保存されたデータを用いて原語情報を分離して生成してもよい。
【0042】
一方、ビデオ通話中に特定の通話者は、手話を使ってもよい。この場合、音声ファイルから音声原語情報を抽出してから、音声原語情報からテキスト原語情報を生成するような上述の方法とは異なり、抽出部320は、映像ファイルから直ちにテキスト原語情報を抽出してもよい。以下、映像ファイルからテキスト原語情報を抽出する方法について説明する。
【0043】
抽出部320は、映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、検出された手話パターンに基づき、テキスト原語情報を生成してもよい。
【0044】
映像処理プロセスの適用可否は、自動または手動で設定されてもよい。例えば、通信部310を介して、使用者端末100から手話翻訳要請命令を入力された場合、抽出部320が映像処理プロセスにより手話パターンを検出してもよい。また他の例として、抽出部320は、自動で映像ファイルに対して映像処理プロセスを適用して、映像ファイル上に手話パターンが存在するか否かを判断してもよいなど、制限はない。
【0045】
映像処理プロセスにより手話パターンを検出する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、放送装置300内に既に保存されていてもよく、抽出部320は、既に保存されたデータを用いて、映像ファイル上に含まれた手話パターンを検出し、検出した手話パターンからテキスト原語情報を生成してもよい。
抽出部320は、原語情報を特定の人物情報にマッピングして保存してもよい。
【0046】
例えば、抽出部320は、特定の音声を送信した使用者端末100を識別してから、当該使用者端末100に対して既に設定されたIDまたは使用者(通話者)が、既に設定したニックネーム等を原語情報にマッピングすることにより、複数の使用者が同時に音声を発話しても、どの使用者がどんな発言をしたかを、視聴者が正確に把握することができるようにする。
【0047】
また他の例として、一つのビデオ通話関連動画ファイル内に複数の通話者が含まれた場合、抽出部320は、予め設定された方法により、またはビデオ通話関連動画ファイルから検出される通話者の特性により、適応的に人物情報を設定してもよい。一実施形態として、抽出部320は、周波数帯域分析プロセスにより、音声を発話した登場人物の性別、年齢等を把握し、把握の結果に基づき、最も適合すると判断される登場人物の名前を任意で設定してマッピングしてもよい。
【0048】
制御部340は、通信部310を制御して、使用者端末100及び視聴者端末200に人物情報をマッピングした原語情報及び翻訳情報を送り出し、よって、使用者及び視聴者は、さらに容易に発言者が誰であるかを識別することができる。制御部340についての具体的な説明は、後述する。
【0049】
図2を参照すると、放送装置300には、翻訳部330が設けられてもよい。翻訳部330は、原語情報を使用者または視聴者の希望の言語で翻訳して、翻訳情報を生成することができる。使用者または視聴者から入力された言語で翻訳情報を生成するにあたって、翻訳部330は、翻訳結果をテキストで生成してもよく、音声で生成してもよい。実施形態による放送システム1は、原語情報及び翻訳情報のそれぞれを音声またはテキストで提供することにより、聴覚障害者と視覚障害者もビデオ通話サービスを利用できるだけでなく、視聴まで可能にするという長所がある。
【0050】
以下、説明の便宜上、原語情報を使用者または視聴者の要請した言語で翻訳したものを翻訳情報とし、翻訳情報も原語情報のように音声またはテキストの形態で構成されてもよい。このとき、テキストで構成された翻訳情報についてはテキスト翻訳情報とし、音声で構成された翻訳情報については音声翻訳情報とする。
【0051】
音声翻訳情報は、特定の音声でダビングされた音声情報であり、翻訳部330は、予め設定された音声または使用者の設定したトーンでダビングした音声翻訳情報を生成することができる。使用者毎に聴取しようとするトーンは異なり得る。例えば、特定の視聴者は、男性の声のトーンの音声翻訳情報を希望し、他の視聴者は、女性の声のトーンの音声翻訳情報を希望し得る。これにより、翻訳部330は、視聴者の視聴をさらに楽にするために、多様なトーンで音声翻訳情報を生成してもよい。あるいは、翻訳部330は、発話者の音声を分析した結果に基づき、発話者の音声に類似した音声のトーンで音声翻訳情報を生成するなど、制限はない。
【0052】
翻訳方法及び翻訳時に用いられる音声トーンの設定方法は、アルゴリズムまたはプログラム形態のデータが放送装置300内に既に保存されてもよく、翻訳部330は、既に保存されたデータを用いて翻訳を行ってもよい。
図2を参照すると、放送装置300には、放送装置300内の構成要素の全般的な動作を制御する制御部340が設けられてもよい。
【0053】
制御部340は、各種演算処理が可能なMCU(Micro Control Unit)のようなプロセッサ、放送装置300の動作を制御するための制御プログラム、あるいは制御データを記憶するかまたはプロセッサが出力する制御命令データや映像データを仮に記憶するメモリで実現されてもよい。
【0054】
このとき、プロセッサ及びメモリは、放送装置300に内蔵されたシステムオンチップに集積されてもよい。ただし、放送装置300に内蔵されたシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されない。
【0055】
メモリは、SRAM、DRAM等の揮発性メモリ(一時保存メモリとも称する)、及びフラッシュメモリ、ROM(Read Only Memory)、 EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read OnlY Memory)等の不揮発性メモリを含んでもよい。ただし、これに限定されるものではなく、当業界に知られている任意の別の形態で実現されてもよい。
【0056】
一実施形態として、不揮発性メモリには、放送装置300の動作を制御するための制御プログラム及び制御データが保存されてもよく、揮発性メモリには、不揮発性メモリから制御プログラム及び制御データを読み込んで仮に保存されるか、プロセッサが出力する制御命令データ等が仮に保存されてもよいなど、制限はない。
【0057】
制御部340は、メモリに保存されたデータに基づき、制御信号を生成し、生成した制御信号により、放送装置300内の構成要素の全般的な動作を制御することができる。
【0058】
例えば、制御部340は、制御信号を介して通信部310を制御して、ビデオ通話を支援してもよい。また、制御部340は、制御信号を介して、抽出部320がビデオ通話に関するファイル、例えば、動画ファイルから映像ファイルと音声ファイルを生成し、映像ファイルと音声ファイルのうち少なくとも一つから原語情報を抽出するように制御してもよい。
【0059】
制御部340は、通信部310を制御して、ビデオ通話関連動画ファイルに、原語情報及び翻訳情報のうち少なくとも一つをマッピングした通訳翻訳動画を、ビデオ通話中の他の使用者端末とチャットルームに接続中の視聴者端末200、すなわち、チャットルームに接続中の端末に送信することにより、多様な国の通話者、視聴者間において意思疎通が円滑に行われるようにすることができる。
上述のように、通訳翻訳動画には、原語情報または翻訳情報のみがマッピングされていてもよく、原語情報及び翻訳情報が一緒にマッピングされていてもよい。
【0060】
例えば、通訳翻訳動画内にテキスト原語情報及びテキスト翻訳情報のみがマッピングされている場合、通訳翻訳動画には、通話者が発話する度に、当該発話に関するテキスト原語情報とテキスト翻訳情報が字幕として含まれてもよい。また他の例として、通訳翻訳動画内に音声翻訳情報及びテキスト翻訳情報がマッピングされている場合、通訳翻訳動画には、通話者が発話する度に、特定国の言語で翻訳された音声翻訳情報がダビングされて含まれてもよく、テキスト翻訳情報が字幕として含まれてもよい。
【0061】
一方、制御部340は、通信部310を介して使用者端末200から受信した設定命令または予め設定された方法に基づき、ビデオ通話サービス及び翻訳サービスを提供する方法を変更することができる。
【0062】
例えば、通信部310を介して使用者端末100からビデオ通話者数設定命令または視聴者数設定命令を受信した場合、制御部340は、当該命令に応じて、チャットルームへの使用者端末100及び視聴者端末200の接続を制限することができる。
【0063】
また他の例として、通信部310を介して使用者端末100または視聴者端末200から別途のテキストデータまたはイメージデータが受信されると、制御部340は、受信したテキストデータまたはイメージデータを原語/翻訳情報と一緒に送り出すことにより、使用者及び視聴者間に意見交換がさらに確実に行われるようにすることができる。
【0064】
また他の例として、通信部310を介して使用者端末100から発言権設定命令、例えば、発言制限命令または発言順序に関する命令が受信されると、制御部340は、当該命令に応じて、複数の使用者端末100のうち、発言権のある使用者端末に関する通訳翻訳動画のみを送信してもよい。あるいは、制御部340は、当該命令に応じて、発言権に関する内容が含まれたポップアップメッセージを通訳翻訳動画と一緒に送信してもよいなど、実現方法に制限はない。
【0065】
使用者端末100及び視聴者端末200には、後述するように、ビデオ通話サービス及び翻訳サービスを支援し、上述したサービスを支援するにあたって、使用者及び視聴者個々人の性向に合わせた多様な設定が可能なアプリケーションが予め保存されてもよく、使用者及び視聴者は、当該アプリケーションを用いて、多様な設定が可能である。以下、使用者端末100について説明する。
【0066】
図2を参照すると、使用者端末100は、使用者に各種情報を視覚的に提供するディスプレイ110、使用者に各種情報を聴覚的に提供するスピーカー120、通信網を介して、外部機器と各種データをやりとりする端末通信部130、使用者端末100内の構成要素の全般的な動作を制御してビデオ通話サービスを支援する端末制御部140を含んでもよい。
【0067】
ここで、端末通信部130、端末制御部140は、それぞれ別途で実現されるか、または一つのシステムオンチップで統合して実現されてもよいなど、実現方法には制限がない。以下、使用者端末100のそれぞれの構成要素について説明する。
【0068】
使用者端末100には、使用者に各種情報を視覚的に提供するディスプレイ110が設けられてもよい。一実施形態によれば、ディスプレイ110は、LCD(Liquid Crystal Display)、LED(Light Emitting Diode)、PDP(Plasma Display Panel)、OLED(Organic Light Emitting Diode)、CRT(Cathode Ray Tube)等で実現されてもよいが、これらに限らず、制限はない。一方、ディスプレイ110がタッチスクリーンパネル(Touch Screen Panel、TSP)タイプで実現された場合は、使用者は、ディスプレイ110の特定領域をタッチすることにより、各種説明命令を入力することができる。
【0069】
ディスプレイ110は、ビデオ通話に関する動画を表示するだけでなく、ディスプレイ110上に表示されたユーザーインターフェースを介して、各種制御命令を入力されてもよい。
【0070】
以下で説明されるユーザーインターフェースは、使用者と使用者端末100との間の各種情報、命令の交換動作がさらに便利に行われるように、ディスプレイ110上に表示される画面をグラフィックで実現したグラフィックユーザーインターフェースであってもよい。
【0071】
例えば、グラフィックユーザーインターフェースは、ディスプレイ110を介して表示される画面上において、一部領域には、使用者から各種制御命令を容易に入力されるためのアイコン、ボタン等が表示され、また、他の一部領域には、少なくとも一つのウィジェットを介して各種情報が表示されるように実現されてもよいなど、制限はない。
【0072】
例えば、ディスプレイ110上には、
図3に示すように、ビデオ通話中の他の四人の使用者に関する動画が、一定の領域に分割して表示されるように構成されており、翻訳命令を入力可能なアイコンI1、ビデオ通話サービスの状態に関する情報を提供するエモティコンI2、接続中の視聴者数を知らせるエモティコンI3、各種設定命令を入力可能なアイコンI4が含まれるように構成されたグラフィックユーザーインターフェースが表示されてもよい。
【0073】
端末制御部140は、制御信号を介して、ディスプレイ110上に、
図3に示すようなグラフィックユーザーインターフェースが表示されるように制御する。ユーザーインターフェースを構成するウィジェット、アイコン、エモティコン等の表示方法、配置方法等は、アルゴリズムまたはプログラム形態のデータで実現され、使用者端末100内のメモリまたは放送装置300内のメモリに予め保存されてもよく、端末制御部140は、予め保存されたデータを用いて制御信号を生成し、生成した制御信号を介して、グラフィックユーザーインターフェースが表示されるように制御する。端末制御部140についての具体的な説明は、後述する。
【0074】
一方、
図2を参照すると、使用者端末100には、各種サウンドを出力可能なスピーカー120が設けられてもよい。スピーカー120は、使用者端末100の一面に設けられ、ビデオ通話に関する動画ファイルに含まれた各種サウンドを出力する。スピーカー120は、既に公知された多様な種類のサウンド出力装置により実現され、制限はない。
使用者端末100には、通信網を介して、外部機器と各種データをやりとりする端末通信部130が設けられてもよい。
【0075】
端末通信部130は、無線通信網または有線通信網を介して、外部機器と各種データをやりとりすることができる。ここで、無線通信網及び有線通信網についての具体的な説明は、上述しているので、省略する。
【0076】
端末通信部130は、通信網を介して、放送装置300と連結され、チャットルームを作成することができ、チャットルームに接続した他の使用者端末と、ビデオ通話に関する動画ファイルをリアルタイムでやりとりし、ビデオ通話サービスを提供するだけでなく、チャットルームに接続した視聴者端末300にも、ビデオ通話に関する動画ファイルを送信することにより、放送サービスを提供することができる。
図2を参照すると、使用者端末100には、使用者端末100の全般的な動作を制御する端末制御部140が設けられてもよい。
【0077】
端末制御部140は、各種演算処理が可能なMCUのようなプロセッサ、使用者端末100の動作を制御するための制御プログラム、あるいは制御データを記憶するかまたはプロセッサが出力する制御命令データや映像データを仮に記憶するメモリで実現されてもよい。
【0078】
このとき、プロセッサ及びメモリは、使用者端末100に内蔵されたシステムオンチップに集積されてもよい。ただし、使用者端末100に内蔵されたシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されない。
【0079】
メモリは、SRAM、DRAM等の揮発性メモリ(一時保存メモリとも称する)、及びフラッシュメモリ、ROM、 EPROM、EEPROM等の不揮発性メモリを含んでもよい。ただし、これに限定されるものではなく、当業界に知られている任意の別の形態で実現されてもよい。
【0080】
一実施形態として、不揮発性メモリには、使用者端末100の動作を制御するための制御プログラム及び制御データが保存されてもよく、揮発性メモリには、不揮発性メモリから制御プログラム及び制御データを読み込んで仮に保存されるか、プロセッサが出力する制御命令データ等が仮に保存されてもよいなど、制限はない。
【0081】
端末制御部140は、メモリに保存されたデータに基づき、制御信号を生成し、生成した制御信号により、使用者端末100内の構成要素の全般的な動作を制御することができる。
【0082】
例えば、端末制御部140は、制御信号を介して、ディスプレイ110上に多様な情報が表示されるように制御してもよい。端末通信部130を介して、四人の使用者から、映像ファイルに原語情報及び翻訳情報のうち少なくとも一つがマッピングされた動画ファイルをそれぞれ受信すると、端末制御部140は、
図3に示すように、ディスプレイ上に、四つの画面に分割して、使用者のそれぞれに関する動画ファイルが表示されるように制御してもよい。
【0083】
また、端末制御部140は、ビデオ通話サービスに対する各種設定命令を入力されるユーザーインターフェースが、ディスプレイ110上に表示されるように制御し、当該ユーザーインターフェースから入力された設定命令に基づき、ユーザーインターフェースの構成を変更することができる。
【0084】
例えば、使用者が、
図3に示すアイコンI4をクリックした場合、端末制御部140は、ディスプレイ110上にビデオ通話関連動画が表示される領域が、
図4に示すように縮小し、使用者から各種設定命令を入力されるアイコンが示されるように構成されたユーザーインターフェースが表示されるように制御することができる。具体的に、
図4を参照すると、端末制御部140は、ビデオ通話者招待命令、視聴者招待命令、翻訳語選択命令、発言権設定命令、チャットウィンドウ活性化命令、字幕設定命令、通話者数設定命令、視聴者数設定命令、その他の設定命令等を入力されるアイコンが含まれたユーザーインターフェースが、ディスプレイ110上に表示されるように制御することができ、入力可能な設定命令が上述した例に限定されるものではない。
【0085】
一実施形態として、使用者がビデオ通話者招待アイコンをクリックして他の使用者を招待する場合、端末制御部140は、招待した使用者数に合わせて、ビデオ通話関連動画が表示される領域をさらに分割してもよい。
【0086】
他の一実施形態として、使用者が発言権設定アイコンをクリックする場合、端末制御部140は、多様な方法により、発言権を持った使用者に間する動画が強調されるように表示してもよい。
【0087】
例えば、端末制御部140は、
図5に示すように、発言権を持った使用者に関する通訳翻訳動画が、他の使用者に関する動画よりも大きく設定されるように実現されたユーザーインターフェースが、ディスプレイ110上に表示されるように制御してもよい。また他の例として、端末制御部140は、
図6に示すように、発言権を持った使用者に関する通訳翻訳動画のみがディスプレイ110上に表示されるように制御してもよい。
【0088】
以外にも、端末制御部140は、多様な方法により、発言権を持つ使用者に関する動画と発言権を持たない使用者に関する動画が異なって表示されるように制御してもよいなど、制限はない。
【0089】
上述したユーザーインターフェースを構成する方法の場合、プログラムまたはアルゴリズム形態のデータで実現されて、使用者端末100内に予め保存されるか、または放送装置300内に予め保存されてもよい。放送装置300内に予め保存された場合、端末制御部140は、端末通信部110を介して、放送装置300から前記データを受信した後、これに基づき、ディスプレイ110上にユーザーインターフェースが表示されるように制御することができる。
【0090】
視聴者端末200の場合、使用者端末100と構成が同一であるので、これについての具体的な説明を省略する。一方、視聴者端末200と使用者端末100のディスプレイ上に表示されるユーザーインターフェースは同じであるかまたは異なってもよい。例えば、視聴者端末200の視聴者は、ビデオ通話に参与することができないので、ビデオ通話者招待命令を入力可能なアイコンは、ユーザーインターフェース上から除外されてもよい。
【0091】
以外にも、視聴者端末200上で実現されるユーザーインターフェースと使用者端末100上で実現されるユーザーインターフェースは、使用者または視聴者の便宜を考慮して異なって構成されてもよく、制限はない。以下、放送装置の動作について、簡単に説明する。
図7は、一実施形態による放送装置の動作フローチャートを概略的に示す図である。
【0092】
放送装置は、使用者端末と視聴者端末との間を連結して、ビデオ通話サービスを提供することができる。よって、放送装置は、ビデオ通話サービスの提供中、ビデオ通話中の使用者端末からビデオ通話データを収集することができる。ビデオ通話データは、使用者端末に内蔵されたカメラ及びマイクのうち少なくとも一つを用いて生成されたデータであって、上述したカメラ及びマイクのうち少なくとも一つを用いて使用者の意思疎通が保存されたデータを意味する。
【0093】
放送装置は、ビデオ通話関連動画から映像ファイルと音声ファイルをそれぞれ分離して生成し700、生成した映像ファイル及び音声ファイルのうち少なくとも一つを用いて、使用者のそれぞれに関する原語情報を抽出することができる710。
【0094】
ここで、原語情報とは、ビデオ通話関連動画内に保存された意思疎通手段を音声及びテキストのうち少なくとも一つの形態で示した情報であって、特定国の言語で翻訳する前の情報に相当する。
【0095】
放送装置は、ビデオ通話関連動画内に登場する通話者が使用する意思疎通手段により、映像ファイル及び音声ファイルの全部を用いるか、または一つのみを用いて原語情報を抽出することができる。
【0096】
例えば、ビデオ通話関連動画内に登場する通話者のいずれか一人が音声を用いてビデオ通話を行うとともに、他の通話者は、手話を用いてビデオ通話を行う場合、放送装置は、映像ファイルから手話パターンを、音声ファイルから音声を識別して原語情報を抽出することができる。
【0097】
また他の例として、通話者が音声のみを用いてビデオ通話中の場合、放送装置は、音声ファイルのみを用いて原語情報を抽出し、また他の例として、通話者が手話のみを用いて対話中の場合、放送装置は、映像ファイルのみを用いて原語情報を抽出することができる。
【0098】
放送装置は、原語情報から、通話者または視聴者の要請により、個別的に翻訳情報を生成し720、チャットルームに接続中の端末、使用者端末及び視聴者端末の全部に、原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を送信することができる。
【0099】
放送装置は、自体的に原語情報を翻訳して翻訳情報を生成してもよく、演算過負荷を防止するために、翻訳プロセスを処理する外部サーバに原語情報を送信し、翻訳情報を受信して提供してもよいなど、実現形態には制限がない。
【0100】
放送装置は、原語情報及び翻訳情報のうち少なくとも一つを送信することができる730。このとき、放送装置は、ビデオ通話関連動画に原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を送信することにより、通話者間の意思疎通が円滑に行われるだけでなく、視聴者も、通話者間の意見を正確に把握できるようにする。
【0101】
また、上述のように、実施形態によるユーザーインターフェースは、テキスト送信機能を支援し、通話者または視聴者が自身の意見をテキストで送信することにより、意思疎通がさらに円滑に行われるようにし、以外にも、発言権設定機能を支援して、円滑な意見交換が行われるのを助けることができる。
【0102】
明細書に記載された実施形態と図面に示された構成は、開示された発明の好適な一例に過ぎず、本出願の出願時点において、本明細書の実施形態と図面を代替可能な様々な変形例があり得る。
【0103】
また、本明細書で用いられた用語は、実施形態を説明するために用いられたものであって、開示された発明を制限及び/または限定しようとする意図ではない。単数の表現は、文脈からみて、明らかに異なる意味を有さない限り、複数の表現を含む。本明細書において、「含む」または「備える」のような用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せを指すためのものであり、一つまたはそれ以上の他の特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せの存在または付加可能性を予め排除するものではない。
【0104】
また、本明細書で用いられた「第1」、「第2」等のように序数を含む用語は、多様な構成要素を説明するために用いられるが、前記構成要素は、前記用語により限定されず、前記用語は、一つの構成要素を他の構成要素から区別する目的でのみ用いられる。例えば、本発明の権利範囲を逸脱しない範囲内で、第1構成要素は第2構成要素と命名されてもよく、同様に、第2構成要素も第1構成要素と命名されてもよい。「及び/または」との用語は、複数の関連して記載された項目の組合せまたは複数の関連して記載された項目のうちのいずれかの項目を含む。
【0105】
また、本明細書の全体で用いられる「~部(unit)」、「~器」、「~ブロック(block)」、「~部材(member)」、「~モジュール(module)」等の用語は、少なくともいずれか一つの機能や動作を処理する単位を意味してもよい。例えば、ソフトウェア、FPGAまたはASICのようなハードウェアを意味してもよい。しかし、「~部」、「~器」、「~ブロック」、「~部材」、「~モジュール」等がソフトウェアまたはハードウェアに限定される意味ではなく、「~部」、「~器」、「~ブロック」、「~部材」、「~モジュール」等は、接近できる保存媒体に保存され、一つまたはそれ以上のプロセッサにより行われる構成であってもよい。
【符号の説明】
【0106】
1 放送システム
100 使用者端末
200 視聴者端末
300 放送装置