(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-10
(45)【発行日】2024-07-19
(54)【発明の名称】使用者端末、及びその制御方法
(51)【国際特許分類】
H04N 21/488 20110101AFI20240711BHJP
G06F 40/58 20200101ALI20240711BHJP
G10L 15/00 20130101ALI20240711BHJP
【FI】
H04N21/488
G06F40/58
G10L15/00 200C
(21)【出願番号】P 2022535548
(86)(22)【出願日】2020-12-07
(86)【国際出願番号】 KR2020017742
(87)【国際公開番号】W WO2021118184
(87)【国際公開日】2021-06-17
【審査請求日】2022-06-24
(31)【優先権主張番号】10-2019-0162504
(32)【優先日】2019-12-09
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】522229961
【氏名又は名称】キム、ギョン チョル
【氏名又は名称原語表記】KIM, Kyung Cheol
【住所又は居所原語表記】207-1402 359,Suyeong-ro,Sangdang-gu Cheongju-si Chungcheongbuk-do 28746,Republic of Korea
(74)【代理人】
【識別番号】100130111
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】キム、ギョン チョル
【審査官】富樫 明
(56)【参考文献】
【文献】特開2016-091057(JP,A)
【文献】特開2008-160232(JP,A)
【文献】韓国公開特許第10-2010-0026701(KR,A)
【文献】特開2012-059121(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00-21/858
G06F 40/58
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出する抽出部と、
前記原語情報を、選択された言語により翻訳した翻訳情報を生成する翻訳部と、
前記原語情報及び翻訳情報のうち少なくとも一つを提供する制御部と、を含む使用者端末において、
前記原語情報は、テキスト原語情報を含み、
前記抽出部は、
前記抽出した原語情報を前記テキスト原語情報から検出された人物名
である人物情報とマッピングして保存する
ことを特徴とする使用者端末。
【請求項2】
前記原語情報は、音声原語情報及びテキスト原語情報のうち少なくとも一つを含み、
前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報のうち少なくとも一つを含む
請求項1に記載の使用者端末。
【請求項3】
前記抽出部は、
前記音声ファイルに対して周波数帯域分析プロセスを適用して、登場人物のそれぞれに関する音声原語情報を抽出し、
前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成する
請求項1に記載の使用者端末。
【請求項4】
前記抽出部は、
前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出する
請求項1に記載の使用者端末。
【請求項5】
前記抽出部は、
周波数帯域分析プロセスにより、前記音声ファイルに登場する登場人物の年齢及び性別のうち少なくとも一つを判断し、判断の結果に基づいて設定した人物情報を、前記原語情報にマッピングして保存する
請求項1に記載の使用者端末。
【請求項6】
動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出するステップと、
前記原語情報を、選択された言語により翻訳した翻訳情報を生成するステップと、
前記原語情報及び翻訳情報のうち少なくとも一つを提供するステップと、を含む使用者端末の制御方法において、
前記原語情報は、テキスト原語情報を含み、
前記抽出するステップは、
前記抽出した原語情報を前記テキスト原語情報から検出された人物名
である人物情報とマッピングして保存するステップをさらに含む
ことを特徴とする使用者端末の制御方法。
【請求項7】
前記抽出するステップは、
前記動画ファイル内に含まれた意思疎通手段により、映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出するステップ
を含む
請求項6に記載の使用者端末の制御方法。
【請求項8】
前記抽出するステップは、
前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関
する音声原語情報を抽出するステップと、
前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成するステップと、を含む
請求項6に記載の使用者端末の制御方法。
【請求項9】
前記抽出するステップは、
前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出するステップを含む
請求項6に記載の使用者端末の制御方法。
【請求項10】
前記抽出するステップは、
周波数帯域分析プロセスにより、前記音声ファイルに登場する登場人物の年齢及び性別のうち少なくとも一つを判断し、判断の結果に基づいて設定した人物情報を、前記原語情報にマッピングして保存するステップをさらに含む
請求項6に記載の使用者端末の制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
動画に対する翻訳サービスを提供する使用者端末、及びその制御方法に関する。
【背景技術】
【0002】
IT技術の発達につれて、多様な種類の動画コンテンツの送信/共有が、使用者間に容易に行われており、特に、グローバルトレンドに合わせて、使用者は、韓国内の動画コンテンツのみならず、多様な言語で作製された海外の動画コンテンツを送信/共有していることが実情である。
【0003】
ただし、多くの動画コンテンツが作製されているため、全ての動画コンテンツに対して翻訳が行われてはおらず、よって、使用者の便宜性を増大させるために、リアルタイムの翻訳サービスを提供する方法についての研究が進められている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
使用者好みの動画コンテンツに対する原文提供サービスだけでなく、翻訳提供サービスをリアルタイムで提供することにより、使用者がさらに容易に動画コンテンツを楽しめ、動画コンテンツに多様な意思疎通手段が含まれていても、全て翻訳が可能であり、音声及びコンテンツのうち少なくとも一つによって翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に動画コンテンツを楽しめるようにすることを目的とする。
【課題を解決するための手段】
【0005】
一局面による使用者端末は、動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出する抽出部と、前記原語情報を、選択された言語により翻訳した翻訳情報を生成する翻訳部と、前記原語情報及び翻訳情報のうち少なくとも一つを提供する制御部と、を含んでもよい。
【0006】
また、前記原語情報は、音声原語情報及びテキスト原語情報のうち少なくとも一つを含み、前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報のうち少なくとも一つを含んでもよい。
【0007】
また、前記抽出部は、前記音声ファイルに対して周波数帯域分析プロセスを適用して、登場人物のそれぞれに関する音声原語情報を抽出し、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成してもよい。
【0008】
また、前記抽出部は、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出してもよい。
【0009】
また、前記抽出部は、周波数帯域分析プロセスにより、前記音声ファイルに登場する登場人物の年齢及び性別のうち少なくとも一つを判断し、判断の結果に基づいて設定した人物情報を、前記原語情報にマッピングして保存してもよい。
【0010】
一局面による使用者端末の制御方法は、動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出するステップと、前記原語情報を、選択された言語により翻訳した翻訳情報を生成するステップと、前記原語情報及び翻訳情報のうち少なくとも一つを提供するステップと、を含んでもよい。
【0011】
また、前記抽出するステップは、前記動画ファイル内に含まれた意思疎通手段により、映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出するステップを含んでもよい。
【0012】
また、前記抽出するステップは、前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出するステップと、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成するステップと、を含んでもよい。
【0013】
また、前記抽出するステップは、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出するステップを含んでもよい。
【0014】
また、前記抽出するステップは、周波数帯域分析プロセスにより、前記音声ファイルに登場する登場人物の年齢及び性別のうち少なくとも一つを判断し、判断の結果に基づいて設定した人物情報を、前記原語情報にマッピングして保存するステップをさらに含んでもよい。
【発明の効果】
【0015】
一実施形態による使用者端末、及びその制御方法は、使用者好みの動画コンテンツに対する原文提供サービスだけでなく、翻訳提供サービスをリアルタイムで提供することにより、使用者がさらに容易に動画コンテンツを楽しむことができる。
【0016】
他の一実施形態による使用者端末、及びその制御方法は、動画コンテンツに多様な意思疎通手段が含まれていても、全て翻訳が可能であり、音声及びコンテンツのうち少なくとも一つによって翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に動画コンテンツを楽しむことができる。
【図面の簡単な説明】
【0017】
【
図1】一実施形態による使用者端末の外観を概略的に示す図である。
【
図2】一実施形態による使用者端末の制御ブロック図を概略的に示す図である。
【
図3】一実施形態によるディスプレイ上に表示されるユーザーインターフェース画面を示す図である。
【
図4】一実施形態によるディスプレイから原語情報を提供するユーザーインターフェース画面を示す図である。
【
図5】他の実施形態によるディスプレイから原語情報及び翻訳情報のうち少なくとも一つを提供するユーザーインターフェース画面を示す図である。
【
図6】また他の実施形態によるディスプレイから原語情報及び翻訳情報のうち少なくとも一つを提供するユーザーインターフェース画面を示す図である。
【
図7】一実施形態による使用者端末の動作フローチャートを概略的に示す図である。
【発明を実施するための形態】
【0018】
図1は、一実施形態による使用者端末の外観を概略的に示す図であり、
図2は、一実施形態による使用者端末の制御ブロック図を概略的に示す図である。また、
図3は、一実施形態によるディスプレイ上に表示されるユーザーインターフェース画面を示す図であり、
図4は、一実施形態によるディスプレイから原語情報を提供するユーザーインターフェース画面を示す図である。また、
図5及び
図6は、相違した実施形態によるディスプレイから原語情報及び翻訳情報のうち少なくとも一つを提供するユーザーインターフェース画面を示す図である。以下、説明が重複することを防ぐために一緒に説明する。
【0019】
以下で説明される使用者端末は、各種演算処理が可能なプロセッサが内蔵されており、ディスプレイ及びスピーカーが内蔵されており、動画ファイルを再生可能な全ての機器を含む。
【0020】
例えば、使用者端末は、ラップトップ(laptop)、デスクトップ(desk top)、タブレットパソコン(tablet PC)だけでなく、スマートフォン、PDA(Personal Digital Assistant)のようなモバイル端末、及び使用者の身体に脱着可能な時計やめがね型のウェアラブル端末だけでなく、スマートテレビ、IPTV(Internet Protocol Television)等を含み、制限はない。以下、説明の便宜のために、上述した多様な種類の使用者端末のうち、スマートフォン形態の使用者端末を一例として説明するが、これに限定されるものではなく、制限はない。
【0021】
図1及び
図2を参照すると、使用者端末100は、使用者から各種命令を入力される入力部100、使用者に各種情報を視覚的に提供するディスプレイ120、使用者に各種情報を聴覚的に提供するスピーカー130、通信網を介して、外部機器と各種データをやりとりする通信部140、動画ファイルから生成した映像ファイルと音声ファイルのうち少なくとも一つを用いて原語情報を抽出する抽出部150、使用者が要請した言語で原語情報を翻訳して翻訳情報を生成する翻訳部160、使用者端末100内の構成要素の全般的な動作を制御して、原語情報及び翻訳情報のうち少なくとも一つを提供することにより、原文/翻訳サービスを提供する制御部170を含んでもよい。
【0022】
ここで、通信部140、抽出部150、翻訳部160、及び制御部170は、それぞれ別途に実現されるか、あるいは、通信部140、抽出部150、翻訳部160、及び制御部170のうち少なくとも一つは、一つのシステムオンチップ(System On a Chip、SOC)で統合して実現されてもよいなど、実現方法には制限がない。ただし、使用者端末100内にシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されず、実現方法には制限がない。以下、使用者端末100のそれぞれの構成要素について、説明する。
【0023】
まず、
図1及び
図2を参照すると、使用者端末100には、使用者から各種制御命令を入力される入力部110が設けられてもよい。例えば、入力部110は、
図1に示すように、ハードキータイプとして使用者端末100の一面に設けられてもよい。以外にも、ディスプレイ120がタッチスクリーンタイプで実現される場合、ディスプレイ120は、入力部110の機能を代わりに行うことができる。
【0024】
入力部110は、使用者から各種制御命令を入力される。例えば、入力部110は、使用者から動画再生命令を入力されるだけでなく、使用者から翻訳を希望する言語に対する設定命令、原文抽出命令、及び翻訳サービス実行命令等を入力され得る。以外にも、入力部110は、原語情報及び翻訳情報に対する保存命令を入力されるなど、多様な制御命令を入力され、制御部170は、入力された制御命令により、使用者端末100内の構成要素の動作を制御することができる。原語情報及び翻訳情報についての具体的な説明は、後述する。
【0025】
図1及び
図2を参照すると、使用者端末100には、使用者に各種情報を視覚的に提供するディスプレイ120が設けられてもよい。ディスプレイ120は、
図1に示すように、使用者端末100の一面に設けられてもよいが、これに限定されず、制限はない。
【0026】
一実施形態によれば、ディスプレイ120は、LCD(Liquid Crystal Display)、LED(Light Emitting Diode)、PDP(Plasma Display Panel)、OLED(Organic Light Emitting Diode)、CRT(Cathode Ray Tube)等で実現されてもよいが、これらに限らず、制限はない。一方、上述のように、ディスプレイ120がタッチスクリーンパネル(Touch Screen Panel、TSP)タイプで実現された場合は、入力部110の機能を代わりに行うこともできる。
【0027】
タッチスクリーンパネルタイプで実現された場合、ディスプレイ120は、使用者が要請した動画を表示するだけでなく、ディスプレイ120上に表示されるユーザーインターフェースを介して、各種制御命令を入力され得る。
【0028】
以下で説明されるユーザーインターフェースは、使用者と使用者端末100との間の各種情報、命令の交換動作がさらに便利に行われるように、ディスプレイ110上に表示される画面をグラフィックで実現したグラフィックユーザーインターフェースであってもよい。
【0029】
例えば、グラフィックユーザーインターフェースは、ディスプレイ120を介して表示される画面上において、特定領域には、使用者から各種制御命令を容易に入力されるためのアイコン、ボタン等が表示され、他の領域には、少なくとも一つのウィジェットを介して各種情報が表示されるように実現されてもよいなど、制限はない。
【0030】
図3を参照すると、ディスプレイ120上には、動画再生命令を入力可能なアイコンI1、翻訳命令を入力可能なアイコンI2、及び上述した命令以外に、各種設定命令を入力可能なアイコンI3が含まれたグラフィックユーザーインターフェースが表示されてもよい。
【0031】
制御部170は、制御信号を介して、ディスプレイ120上に、
図3に示すようなグラフィックユーザーインターフェースが表示されるように制御する。ユーザーインターフェースを構成するウィジェット、アイコン等の表示方法、配置方法等は、アルゴリズムまたはプログラム形態のデータで実現され、使用者端末100内のメモリに予め保存されてもよく、制御部170は、予め保存されたデータを用いて制御信号を生成し、生成した制御信号を介して、グラフィックユーザーインターフェースが表示されるように制御する。制御部170についての具体的な説明は、後述する。
【0032】
一方、
図2を参照すると、使用者端末100には、各種サウンドを出力可能なスピーカー130が設けられてもよい。スピーカー130は、使用者端末100の一面に設けられ、動画ファイルに含まれた各種サウンドを出力する。スピーカー130は、既に公知された多様な種類のサウンド出力装置により実現され、制限はない。
使用者端末100には、通信網を介して、外部機器と各種データをやりとりする通信部140が設けられてもよい。
【0033】
通信部140は、無線通信網または有線通信網を介して、外部機器と各種データをやりとりすることができる。ここで、無線通信網は、データが含まれた信号を無線でやりとりする通信網を意味する。
【0034】
例えば、通信部140は、3G(3Generation)、4G(4Generation)、5G(5Generation)等のような通信方式により、基地局を経て、端末間に無線信号を送受信することができ、以外にも、無線ラン(Wireless LAN)、ワイファイ(Wi-Fi)、ブルートゥース(登録商標)(Bluetooth)、ジグビー(Zigbee)、WFD(Wi-Fi Direct)、UWB(Ultra wideband)、赤外線通信(IrDA;Infrared Data Association)、BLE(Bluetooth Low Energy)、NFC(Near Field Communication)等のような通信方式を通じて、所定の距離以内の端末とデータが含まれた無線信号を送受信することができる。
【0035】
また、有線通信網は、データが含まれた信号を有線でやりとりする通信網を意味する。例えば、有線通信網は、PCI(Peripheral Component Interconnect)、PCI-express、USB(Universe Serial Bus)等を含むが、これに限定されるものではない。以下で説明される通信網は、無線通信網と有線通信網の全てを含む。
【0036】
通信部140は、通信網を介して、外部に位置したサーバーから動画をダウンロードされるだけでなく、動画内に含まれた国の言語に基づいて翻訳された情報を動画と一緒に外部端末に送信することもできるなど、送受信可能なデータには、制限がない。
図2を参照すると、使用者端末100には、抽出部150が設けられてもよい。
【0037】
翻訳サービスを提供するためには、まず、原語の認識が求められる。これにより、抽出部150は、動画ファイルを映像ファイルと音声ファイルに分離して生成してから、映像ファイル及び音声ファイルのうち少なくとも一つから原語情報を抽出することができる。
【0038】
以下で説明される原語情報は、動画内に含まれた音声、手話等のような意思疎通手段から抽出された情報を意味し、原語情報は、音声またはテキストの形態で抽出されてもよい。以下、説明の便宜上、音声で構成された原語情報を音声原語情報とし、テキストで構成された原語情報をテキスト原語情報とする。例えば、動画に登場する人物が英語で「Hello」という音声を発話する場合、音声原語情報は、通話者が発話した音声の「Hello」であり、テキスト原語情報は、音声認識プロセスにより、音声の「Hello」を認識してから、認識の結果に基づいて変換した「Hello」のテキストそのものを意味する。
【0039】
一方、意思疎通手段、例えば、意思疎通手段が音声であるかまたは手話であるかにより、原語情報を抽出する方法が異なり得る。以下では、まず、登場人物の音声が入った音声ファイルから音声原語情報を抽出する方法について説明する。
【0040】
音声ファイル内には、多様な登場人物の音声が入っていることがあり、このような多様な音声が同時に出力されると、識別し難く、これにより、翻訳の正確度も低くなり得る。これにより、抽出部150は、音声ファイルに対して周波数帯域分析プロセスを適用して、登場人物のそれぞれに関する音声原語情報を抽出することができる。
【0041】
音声は、性別、年齢、発音のトーン、発音のアクセント等により、個人毎に異なり、周波数帯域を分析すると、当該特性を把握することにより、音声別に個別的な識別が可能である。これにより、抽出部150は、音声ファイルの周波数帯域を分析し、分析の結果に基づき、動画内に登場する登場人物のそれぞれに対する音声を分離することにより、音声原語情報を抽出することができる。
【0042】
抽出部150は、音声原語情報に対して音声認識プロセスを適用することにより、音声をテキストに変換したテキスト原語情報を生成することができる。抽出部150は、音声原語情報及びテキスト原語情報を通話者別にわけて保存してもよい。
【0043】
周波数帯域分析プロセスにより、登場人物別に音声原語情報を抽出する方法、及び音声認識プロセスにより、音声原語情報からテキスト原語情報を生成する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、使用者端末100内に既に保存されていてもよく、抽出部150は、既に保存されたデータを用いて原語情報を分離して生成してもよい。
【0044】
一方、動画内に登場する人物が、手話を使ってもよい。この場合、音声ファイルから音声原語情報を抽出してから、音声原語情報からテキスト原語情報を生成するような上述の方法とは異なり、抽出部150は、映像ファイルから直ちにテキスト原語情報を抽出することができる。以下、映像ファイルからテキスト原語情報を抽出する方法について説明する。
【0045】
抽出部150は、映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、検出された手話パターンに基づき、テキスト原語情報を生成してもよい。映像処理プロセスの適用可否は、自動または手動で設定されてもよい。例えば、入力部110またはディスプレイ120を介して、使用者から手話翻訳要請命令を入力されると、抽出部150が映像処理プロセスにより手話パターンを検出してもよい。また他の例として、抽出部150は、自動で映像ファイルに対して映像処理プロセスを適用してもよいなど、制限はない。
【0046】
映像処理プロセスにより手話パターンを検出する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、使用者端末100内に既に保存されていてもよく、抽出部150は、既に保存されたデータを用いて、映像ファイル上に含まれた手話パターンを検出し、検出した手話パターンからテキスト原語情報を生成してもよい。
【0047】
抽出部150は、原語情報を人物情報にマッピングして保存してもよい。人物情報は、予め設定された方法により、任意で設定されるか、または動画ファイルから検出される登場人物の特性により、適応的に設定されてもよい。
【0048】
例えば、抽出部150は、周波数帯域分析プロセスにより、音声を発話した登場人物の性別、年齢等を把握し、把握の結果に基づき、最も適合すると判断される登場人物の名前を任意で設定してマッピングしてもよい。
【0049】
一実施形態として、周波数帯域分析プロセスにより音声を分析した結果、第1登場人物は、20代男性であると把握され、第2登場人物は、40代女性であると把握されると、抽出部150は、第1登場人物に関する原語情報については、人物情報をを「ミンス」と、第2登場人物に関する原語情報については、人物情報を「ミザ」と設定してマッピングしてもよい。
また他の例として、制御部170は、テキスト原語情報から検出された人物名を人物情報として設定してもよいなど、人物情報設定方法には、制限がない。
【0050】
制御部170は、ディスプレイ120及びスピーカー130から原語情報を提供するとき、マッピングした人物情報を一緒に表示してもよく、翻訳情報を提供するときにも、マッピングした人物情報を一緒に表示してもよい。例えば、制御部170は、
図6に示すように、自体的に設定した人物情報、原語情報、及び翻訳情報が一緒に提供されるように構成されたユーザーインターフェースがディスプレイ120上に表示されるように制御してもよい。
【0051】
一方、マッピングされた人物情報は、使用者が変更してもよく、マッピングされる人物情報が上述の内容に限定されるものではない。例えば、使用者は、入力部110及びタッチスクリーンタイプで実現されたディスプレイ120を介して、希望の人物情報を設定してもよいなど、制限はない。
【0052】
図2を参照すると、使用者端末100には、翻訳部160が設けられてもよい。翻訳部160は、原語情報を、使用者の希望の言語で翻訳して、翻訳情報を生成することができる。使用者から入力された国の言語で原語情報を翻訳するにあたって、翻訳部160は、翻訳結果をテキストで生成してもよく、音声で生成してもよい。以下、説明の便宜上、原語情報が他の国の言語で翻訳された情報を翻訳情報とし、翻訳情報も原語情報のように音声またはテキストの形態で構成されてもよい。このとき、テキストで構成された翻訳情報についてはテキスト翻訳情報とし、音声で構成された翻訳情報については音声翻訳情報とする。
【0053】
音声翻訳情報は、特定の音声でダビングされた音声情報であり、翻訳部160は、予め設定された音声または使用者の設定したトーンでダビングした音声翻訳情報を生成することができる。使用者毎に聴取しようとするトーンは異なり得る。例えば、特定の使用者は、男性の声のトーンの音声翻訳情報を希望し、他の使用者は、女性の声のトーンの音声翻訳情報を希望し得る。または、翻訳部160は、上述した周波数帯域分析プロセスにより識別された登場人物の性別に合わせて、適応的にトーンを設定してもよい。
【0054】
翻訳方法及び翻訳時に用いられる音声トーンの設定方法は、アルゴリズムまたはプログラム形態のデータが使用者端末100内に既に保存されてもよく、翻訳部160は、既に保存されたデータを用いて翻訳を行ってもよい。
図2を参照すると、使用者端末100には、使用者端末100の全般的な動作を制御する制御部170が設けられてもよい。
【0055】
制御部170は、各種演算処理が可能なMCU(Micro Control Unit)のようなプロセッサ、使用者端末100の動作を制御するための制御プログラム、あるいは制御データを記憶するかまたはプロセッサが出力する制御命令データや映像データを仮に記憶するメモリで実現されてもよい。
【0056】
このとき、プロセッサ及びメモリは、使用者端末100に内蔵されたシステムオンチップに集積されてもよい。ただし、使用者端末100に内蔵されたシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されない。
【0057】
メモリは、SRAM、DRAM等の揮発性メモリ(一時保存メモリとも称する)、及びフラッシュメモリ、ROM(Read Only Memory)、 EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read OnlY Memory)等の不揮発性メモリを含んでもよい。ただし、これに限定されるものではなく、当業界に知られている任意の別の形態で実現されてもよい。
【0058】
一実施形態として、不揮発性メモリには、使用者端末100の動作を制御するための制御プログラム及び制御データが保存されてもよく、揮発性メモリには、不揮発性メモリから制御プログラム及び制御データを読み込んで仮に保存されるか、プロセッサが出力する制御命令データ等が仮に保存されてもよいなど、制限はない。
【0059】
制御部170は、メモリに保存されたデータに基づき、制御信号を生成し、生成した制御信号により、使用者端末100内の構成要素の全般的な動作を制御することができる。
【0060】
制御部170は、制御信号を介して、ディスプレイ120上に多様な情報が表示されるように制御することができる。例えば、制御部170は、制御信号を介して、ディスプレイ120上に、使用者が再生を要請した動画を再生してもよい。一実施形態として、使用者が、
図3に示すアイコンI2をタッチすると、制御部170は、使用者端末100の構成要素を制御し、使用者が設定した国の言語で翻訳されたテキスト翻訳情報及び音声翻訳情報のうち少なくとも一つを提供してもよい。
【0061】
例えば、制御部170は、ディスプレイ120上に、動画と一緒にテキスト翻訳情報が表示されるように制御してもよく、制御部170は、スピーカー130から音声翻訳情報が送り出されるように制御してもよい。
【0062】
制御部170が、原語情報及び翻訳情報を提供する方法は様々である。例えば、制御部170は、
図4に示すように、動画にテキスト原語情報を字幕でマッピングさせてから、ディスプレイ120上に表示されるように制御してもよい。
【0063】
また他の例として、制御部170は、
図5に示すように、動画にテキスト原語情報及びテキスト翻訳情報を字幕でマッピングさせてから、ディスプレイ120上に一緒に表示されるように制御してもよい。以外にも、制御部170は、テキスト原語情報がまず表示されてから、予め設定された間隔後に、テキスト翻訳情報が字幕で表示されるように制御してもよい。
【0064】
また他の例として、制御部170は、動画において登場人物が発話する度に、音声原語情報がスピーカー130から出力されてから、予め設定された間隔後に、特定音声でダビングされた音声翻訳情報が出力されるように制御してもよく、このとき、音声原語情報と音声翻訳情報の出力サイズを異なって制御してもよいなど、原文/翻訳サービスを提供する方法には、制限がない。
【0065】
上述した動画ファイルを映像ファイルと音声ファイルに分離して生成するプロセス、映像ファイルと音声ファイルから原語情報を抽出するプロセス、原語情報から翻訳情報を生成するプロセスは、使用者端末100で直接行ってもよいが、演算処理の過負荷を防ぐために、外部に設けられた装置で別途に行われてもよい。この場合、外部に設けられた装置は、使用者端末100から翻訳命令を伝達されると、上述したプロセスを行ってから、結果物を使用者端末100に送信してもよいなど、制限はない。
以下、動画に対する翻訳サービスを支援する使用者端末の動作について、簡単に説明する。
図7は、一実施形態による使用者端末の動作フローチャートを概略的に示す図である。
【0066】
図7を参照すると、使用者端末は、動画ファイルを映像ファイルと音声ファイルに分離して生成することができる700。ここで、動画ファイルは、使用者端末に既に保存されているファイルであってもよく、通信網を介して、リアルタイムでストリーミング中のファイルであってもよいなど、制限はない。
【0067】
例えば、使用者端末は、内臓されたメモリに保存された動画ファイルを読み込み、これに基づき、映像ファイル及び音声ファイルを生成してもよく、また他の例として、使用者端末は、通信網を介して、リアルタイムで動画ファイルデータを受信し、これに基づき、映像ファイル及び音声ファイルを生成してもよい。
使用者端末は、映像ファイル及び音声ファイルのうち少なくとも一つを用いて、原語情報を抽出することができる710。
【0068】
ここで、原語情報とは、原本の動画ファイル内に含まれた意思疎通手段を音声及びテキストのうち少なくとも一つの形態で示した情報であって、特定国の言語で翻訳する前の情報に相当する。
【0069】
使用者端末は、動画内に登場する人物が使用する意思疎通手段により、映像ファイル及び音声ファイルの全部を用いるか、または一つのみを用いて原語情報を抽出することができる。
【0070】
例えば、動画内に登場する人物のいずれか一人が音声を用いて対話をするとともに、他の通話者は、手話を用いて対話をしている場合、使用者端末は、映像ファイルから手話パターンを、音声ファイルから音声を識別して原語情報を抽出することができる。
【0071】
また他の例として、動画内に登場する人物が音声のみを用いて対話中の場合、使用者端末は、音声ファイルのみを用いて原語情報を抽出し、また他の例として、動画内に登場する人物が手話のみを用いて対話中の場合、使用者端末は、映像ファイルのみを用いて原語情報を抽出することができる。
使用者端末は、原語情報を用いて翻訳情報を生成することができる720。
【0072】
このとき、使用者端末は、自体的に原語情報を翻訳して翻訳情報を生成してもよく、演算過負荷を防止するために、実施形態による翻訳サービスを提供する外部サーバに原語情報を送信し、翻訳情報を受信して提供してもよいなど、実現形態には制限がない。
【0073】
以外にも、使用者端末は、動画ファイルに、原語情報及び翻訳情報をマッピングさせてから、通信網を介して、外部端末と共有することにより、他の使用者と一緒にコンテンツを楽しむことができる。
【0074】
使用者端末は、原語情報及び翻訳情報のうち少なくとも一つを、動画と一緒に提供してもよく、提供方法には、上述のように、制限がない。実施形態による使用者端末は、多様な国の言語で作製された動画コンテンツを、使用者がさらに容易に楽しめるようにするとともに、効果的な言語教育が可能であるという長所がある。
【0075】
明細書に記載された実施形態と図面に示された構成は、開示された発明の好適な一例に過ぎず、本出願の出願時点において、本明細書の実施形態と図面を代替可能な様々な変形例があり得る。
【0076】
また、本明細書で用いられた用語は、実施形態を説明するために用いられたものであって、開示された発明を制限及び/または限定しようとする意図ではない。単数の表現は、文脈からみて、明らかに異なる意味を有さない限り、複数の表現を含む。本明細書において、「含む」または「備える」のような用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せを指すためのものであり、一つまたはそれ以上の他の特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せの存在または付加可能性を予め排除するものではない。
【0077】
また、本明細書で用いられた「第1」、「第2」等のように序数を含む用語は、多様な構成要素を説明するために用いられるが、前記構成要素は、前記用語により限定されず、前記用語は、一つの構成要素を他の構成要素から区別する目的でのみ用いられる。例えば、本発明の権利範囲を逸脱しない範囲内で、第1構成要素は第2構成要素と命名されてもよく、同様に、第2構成要素も第1構成要素と命名されてもよい。「及び/または」との用語は、複数の関連して記載された項目の組合せまたは複数の関連して記載された項目のうちのいずれかの項目を含む。
【0078】
また、本明細書の全体で用いられる「~部(unit)」、「~器」、「~ブロック(block)」、「~部材(member)」、「~モジュール(module)」等の用語は、少なくともいずれか一つの機能や動作を処理する単位を意味してもよい。例えば、ソフトウェア、FPGAまたはASICのようなハードウェアを意味してもよい。しかし、「~部」、「~器」、「~ブロック」、「~部材」、「~モジュール」等がソフトウェアまたはハードウェアに限定される意味ではなく、「~部」、「~器」、「~ブロック」、「~部材」、「~モジュール」等は、接近できる保存媒体に保存され、一つまたはそれ以上のプロセッサにより行われる構成であってもよい。
【符号の説明】
【0079】
100 使用者端末
110 入力部
120 ディスプレイ