(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-25
(45)【発行日】2023-05-08
(54)【発明の名称】字幕生成方法および字幕生成装置
(51)【国際特許分類】
H04N 21/235 20110101AFI20230426BHJP
H04N 21/233 20110101ALI20230426BHJP
H04H 20/28 20080101ALI20230426BHJP
H04H 60/02 20080101ALI20230426BHJP
H04H 60/35 20080101ALI20230426BHJP
H04H 60/58 20080101ALI20230426BHJP
【FI】
H04N21/235
H04N21/233
H04H20/28
H04H60/02
H04H60/35
H04H60/58
(21)【出願番号】P 2021113781
(22)【出願日】2021-07-08
(62)【分割の表示】P 2019103517の分割
【原出願日】2019-06-03
【審査請求日】2021-07-08
(31)【優先権主張番号】10-2018-0064266
(32)【優先日】2018-06-04
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】519199657
【氏名又は名称】エヌシーソフト・コーポレイション
【氏名又は名称原語表記】NCSOFT CORPORATION
【住所又は居所原語表記】(SAMSEONG‐DONG) 509, TEHERAN‐RO, GANGNAM‐GU, SEOUL 06169, REPUBLIC OF KOREA
(74)【代理人】
【識別番号】110001818
【氏名又は名称】弁理士法人R&C
(72)【発明者】
【氏名】ビョンジュ・キム
(72)【発明者】
【氏名】ソンヒ・ソ
(72)【発明者】
【氏名】ウィジュン・ソン
(72)【発明者】
【氏名】スンジュン・アン
(72)【発明者】
【氏名】スンヨン・ユン
【審査官】川中 龍太
(56)【参考文献】
【文献】特表2005-512231(JP,A)
【文献】特開2004-253923(JP,A)
【文献】米国特許出願公開第2007/0208569(US,A1)
【文献】特開2003-066991(JP,A)
【文献】特開2005-065252(JP,A)
【文献】特開2011-209731(JP,A)
【文献】特開2016-110645(JP,A)
【文献】韓国公開特許第10-2018-0038318(KR,A)
【文献】中国特許出願公開第104853257(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 - 21/858
H04H 20/00 - 60/98
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
放送データに含まれた話し手の音声に対応する字幕テキストを生成する段階と、
前記放送データに含まれた前記話し手の音声のうちの一部を用いて音声基準情報を生成する段階と、
前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストについての字幕スタイル情報を生成する段階と、
前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストを変更する段階と、を含み、
前記音声基準情報は、前記放送データに含まれた前記話し手の音声のうち、一部の音声状態に関する情報を含み、
前記音声状態は、音声の大きさ、音色および感情のうち、少なくとも1つを含む字幕生成方法。
【請求項2】
前記字幕スタイル情報は、前記字幕テキストのサイズ、色、フォント、出力位置、回転および特殊効果のうち、少なくとも1つを制御するための制御情報を含む請求項1に記載の字幕生成方法。
【請求項3】
前記字幕テキストを変更する段階は、
前記字幕テキストに既設定された字を追加するか、
前記字幕テキストに特殊文字を追加するか、
前記字幕テキストに含まれた1つ以上の単語を連関単語として変更するか、
または前記字幕テキストに含まれた1つ以上の単語を繰り返し追加する請求項
1に記載の字幕生成方法。
【請求項4】
前記話し手の音声および前記音声基準情報に基づいて、画面スタイル情報を生成する段階をさらに含む請求項1に記載の字幕生成方法。
【請求項5】
前記画面スタイル情報は、前記字幕テキストが表示される映像画面の画面スタイルを制御するための制御情報を含む請求項
4に記載の字幕生成方法。
【請求項6】
前記画面スタイル情報は、前記字幕テキストが表示される映像画面のサイズ、色、揺れおよび特殊効果のうち、少なくとも1つを制御するための制御情報を含む請求項
4に記載の字幕生成方法。
【請求項7】
前記字幕スタイル情報を生成する段階は、前記字幕テキストの文章、単語または字の単位として前記字幕スタイル情報を生成する請求項1に記載の字幕生成方法。
【請求項8】
前記字幕スタイル情報を生成する段階は、前記音声基準情報に基づいて、前記話し手の音声についての音声状態の変化を判断し、前記音声状態の変化に基づいて、前記字幕スタイル情報を生成する請求項1に記載の字幕生成方法。
【請求項9】
通信インターフェースと、プロセッサーを含み、
前記プロセッサーは、
放送データに含まれた話し手の音声に対応する字幕テキストを生成し、
前記放送データに含まれた前記話し手の音声のうちの一部を用いて音声基準情報を生成し、
前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストについての字幕スタイル情報を生成し、
前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストを変更し、
前記音声基準情報は、前記放送データに含まれた前記話し手の音声のうち、一部の音声状態に関する情報を含み、
前記音声状態は、音声の大きさ、音色および感情のうち、少なくとも1つを含む字幕生成装置。
【請求項10】
前記字幕スタイル情報は、前記字幕テキストのサイズ、色、フォント、出力位置、回転および特殊効果のうち、少なくとも1つを制御するための制御情報を含む請求項
9に記載の字幕生成装置。
【請求項11】
前記プロセッサーは、
前記字幕テキストに既設定された字を追加するか、
前記字幕テキストに特殊文字を追加するか、
前記字幕テキストに含まれた1つ以上の単語を連関単語として変更するか、
または前記字幕テキストに含まれた1つ以上の単語を繰り返し追加する請求項
9に記載の字幕生成装置。
【請求項12】
前記プロセッサーは、前記話し手の音声および前記音声基準情報に基づいて、画面スタイル情報を生成する請求項
9に記載の字幕生成装置。
【請求項13】
前記画面スタイル情報は、前記字幕テキストが表示される映像画面の画面スタイルを制御するための制御情報を含む請求項
12に記載の字幕生成装置。
【請求項14】
前記画面スタイル情報は、前記字幕テキストが表示される映像画面のサイズ、色、揺れおよび特殊効果のうち、少なくとも1つを制御するための制御情報を含む請求項
12に記載の字幕生成装置。
【請求項15】
前記プロセッサーは、前記字幕テキストの文章、単語または字の単位として前記字幕スタイル情報を生成する請求項
9に記載の字幕生成装置。
【請求項16】
前記プロセッサーは、前記音声基準情報に基づいて、前記話し手の音声についての音声状態の変化を判断し、前記音声状態の変化に基づいて、前記字幕スタイル情報を生成する請求項
9に記載の字幕生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下の説明は、字幕生成方法および字幕生成装置に関する。より具体的には、音声情報に基づいて字幕を生成する方法および装置に関する。
【背景技術】
【0002】
最近、ニュース、スポーツ、ゲーム、使用者制作コンテンツ(User Generated Contents:UGC)、およびテレプレゼンス(Telepresence)などのように様々な産業分野でストリーミングサービス(Streaming Service)が多く使用されている。
【0003】
また、スマートフォンを通じて様々な分野の放送を提供する個人放送の制作者によって放送サービスの提供も活性化されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
個人放送の制作者や放送サービスのプロバイダは、視聴者の放送への興味を誘発するために様々な試みをしており、その一環として放送字幕を制作することもある。
【課題を解決するための手段】
【0005】
本発明の一態様による字幕生成方法は、放送データに含まれた話し手の音声に対応する字幕テキストを生成する段階と、前記放送データに含まれた前記話し手の音声のうちの一部を用いて音声基準情報を生成する段階と、前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストについての字幕スタイル情報を生成する段階と、を含む。
【0006】
前記字幕スタイル情報は、前記字幕テキストのサイズ、色、フォント、出力位置、回転および特殊効果のうち、少なくとも1つを制御するための制御情報を含み得る。
【0007】
前記字幕生成方法は、前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストを変更する段階をさらに含み得る。
【0008】
前記字幕テキストを変更する段階は、前記字幕テキストに既設定された字を追加するか、前記字幕テキストに特殊文字を追加するか、前記字幕テキストに含まれた1つ以上の単語を連関単語として変更するか、または前記字幕テキストに含まれた1つ以上の単語を繰り返し追加し得る。
【0009】
前記字幕生成方法は、前記話し手の音声および前記音声基準情報に基づいて、画面スタイル情報を生成する段階をさらに含み、前記字幕情報は、前記画面スタイル情報をさらに含み得る。
【0010】
前記画面スタイル情報は、前記字幕テキストが表示される映像画面のサイズ、色、揺れ、および特殊効果のうち、少なくとも1つを制御するための制御情報を含み得る。
【0011】
前記字幕スタイル情報を生成する生成段階は、前記字幕テキストの文章、単語、または文字の単位として前記字幕スタイル情報を生成し得る。
【0012】
前記音声基準情報は、前記放送データに含まれた前記話し手の音声のうち、一部の音声状態に関する情報を含み、前記音声状態は、音声の大きさ、音色、および感情のうち、少なくとも1つを含み得る。
【0013】
前記字幕スタイル情報を生成する段階は、前記音声基準情報に基づいて、前記話し手の音声についての音声状態の変化を判断し、前記音声状態の変化に基づいて、前記字幕スタイル情報を生成し得る。
【0014】
本発明の一態様による字幕生成装置は、通信インターフェースと、プロセッサーとを含み、前記プロセッサーは、放送データに含まれた話し手の音声に対応する字幕テキストを生成し、前記放送データに含まれた前記話し手の音声のうちの一部を用いて音声基準情報を生成し、前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストについての字幕スタイル情報を生成する。
【0015】
前記字幕スタイル情報は、前記字幕テキストのサイズ、色、フォント、出力位置、回転、および特殊効果のうち、少なくとも1つを制御するための制御情報を含み得る。
【0016】
前記プロセッサーは、前記話し手の音声および前記音声基準情報に基づいて、前記字幕テキストを変更し得る。
【0017】
前記プロセッサーは、前記字幕テキストに既設定された字を追加するか、前記字幕テキストに特殊文字を追加するか、前記字幕テキストに含まれた1つ以上の単語を連関単語として変更するか、または前記字幕テキストに含まれた1つ以上の単語を繰り返し追加し得る。
【0018】
前記プロセッサーは、前記話し手の音声および前記音声基準情報に基づいて、画面スタイル情報を生成し得る。
【0019】
前記画面スタイル情報は、前記字幕テキストが表示される映像画面のサイズ、色、揺れ、および特殊効果のうち、少なくとも1つを制御するための制御情報を含み得る。
【0020】
前記プロセッサーは、前記字幕テキストの文章、単語、または文字の単位として前記字幕スタイル情報を生成し得る。
【0021】
前記音声基準情報は、前記放送データに含まれた前記話し手の音声のうち、一部の音声状態に関する情報を含み、前記音声状態は、音声の大きさ、音色、および感情のうち、少なくとも1つを含み得る。
【0022】
前記プロセッサーは、前記音声基準情報に基づいて、前記話し手の音声についての音声状態の変化を判断し、前記音声状態の変化に基づいて、前記字幕スタイル情報を生成し得る。
【図面の簡単な説明】
【0023】
【
図1】一実施例による字幕生成のためのシステムの構成を示した図面。
【
図2】一実施例による字幕生成サーバーの構成を示した図面。
【
図3】一実施例による字幕生成方法を示したフローチャート。
【
図4】一実施例による音声基準情報の例示を示した図面。
【
図5】一実施例による字幕スタイル変更の例示を示した図面。
【
図6】一実施例による画面スタイル変更の例示を示した図面。
【
図7】一実施例による字幕テキスト変更方法を示したフローチャート。
【
図8】一実施例による字幕テキスト変更の例示を示した図面。
【
図9】他の一実施例による字幕生成方法を行う使用者端末の構成を示した図面。
【
図10】例示的な実施例で使用されるのに適切なコンピューティング装置を含むコンピューティング環境を例示して説明するためのブロック図。
【発明を実施するための形態】
【0024】
以下で、添付された図面を参照して実施例を詳細に説明する。各図面に提示された同じ参照符号は、同じ部材を示す。以下で説明する実施例には、様々な変更が加えられ得る。
以下で説明する実施例は、実施形態について限定するものではなく、これらについてのすべての変更、均等物ないし代替物を含むものと理解されるべきである。
【0025】
実施例で使用した用語は、単に特定の実施例を説明するために使用されたものであって、実施例を限定しようとする意図ではない。単数の表現は、文脈上明らかに別の方法で意味しない限り、複数の表現を含む。本明細書における、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、動作、構成要素、部品またはこれらを組み合わせたものが存在することを指定しようとするものであって、1つまたはそれ以上の他の特徴や数字、動作、構成要素、部品またはこれらを組み合わせたものなどの存在または付加の可能性を予め排除しないものと理解されるべきである。
【0026】
別の方法で定義されない限り、技術的または科学的な用語を含んでここで使用されるすべての用語は、実施例が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に使用される辞書に定義されているような用語は、関連技術の文脈上有する意味と一致する意味を有するものと解釈されるべきであり、本出願で明らかに定義しない限り、理想的または過度に形式的な意味に解釈されない。
【0027】
また、添付図面を参照して説明することにおいて、図面符号にかかわらず、同じ構成要素は同じ参照符号を付与し、これについての重複する説明は省略する。実施例を説明することにおいて、係る公知技術についての具体的な説明が実施例の要旨を不必要にぼかすことができると判断される場合、その詳細な説明を省略する。
【0028】
図1は、一実施例による字幕生成システム10の構成を示した図面である。
【0029】
図1を参照すると、一実施例による字幕生成システム10は、サーバー100、放送端末200、使用者端末300を含む。
【0030】
字幕生成システム10内に含まれた様々な個体(Entities)間の通信は、有/無線ネットワーク(図示せず)を介して行われ得る。有/無線ネットワークは、標準通信技術および/またはプロトコルが使用され得る。
【0031】
放送端末200は、ゲーム、食べ物、ニュース、教育、コンサルティングなどの独自の制作されたコンテンツを放送するか、またはスポーツ、選挙などの他の放送主体によって事前制作されたコンテンツを中継放送し得る。
【0032】
使用者端末300は、放送端末200によって制作および/または中継される放送を視聴するか、または放送でチャット、後援などを行う視聴者の端末であり得る。
【0033】
使用者端末300は、様々な形で実装できるが、一例として、スマートフォンのようなモバイル端末、スマートパッドのようなパッド型端末、ラップトップコンピューターなどの各種形のコンピューター、ウェアラブルデバイス、TV端末などの形で実装できる。
【0034】
サーバー100は、放送プラットフォームのための様々な機能を提供できる。サーバー100が提供する放送は、リアルタイム放送のほかに事前制作放送、VOD(Video On Demand)なども含み得る。
【0035】
また、放送端末200および使用者端末300は、それぞれサーバー100を介して放送プラットフォームの機能の提供を受けるための視聴者アカウントおよび放送主体アカウントを意味し得る。
【0036】
一実施例による字幕生成システム10は、放送字幕を自動的に生成して使用者に提供できる。そして、話し手の音声状態に応じて、放送字幕や放送画面に様々な効果を付加する機能を提供できる。
【0037】
サーバー100は、放送端末200によって制作および/または中継される放送データを放送端末200から受信する。放送データは、放送のためのビデオファイル、オーディオファイル、各種設定ファイルなどを含み得る。
【0038】
サーバー100は、放送端末200から受信された放送データを使用者端末300に送信する。このとき、サーバー100は、放送端末200から受信された放送データをそのまま使用者端末300に送信するか、またはリアルタイム放送、事前制作放送、VODなどの放送形式に当たるデータに変換して送信できる。また、実施例に応じて、サーバー100は、使用者端末300に送信する放送データについて映像編集、画質改善、ビージー追加などの様々な種類の処理を行った後に使用者端末300に送信できる。
【0039】
一方、サーバー100は、放送データから放送音声の字幕を自動的に生成し得る。例えば、サーバー100は、放送データに含まれたオーディオファイルから音声を抽出し、抽出された音声を認識して当該音声についての字幕テキストを生成し得る。
【0040】
また、サーバー100は、抽出された音声についての状態情報に基づいて、字幕テキストのスタイル(例えば、字幕テキストのサイズ、色、フォントなど)および放送画面のスタイル(例えば、放送画面のサイズ、色、動きなど)のうち、少なくとも1つを変更し得る。
【0041】
使用者端末300は、サーバー100から受信された放送データおよび字幕データを画面に出力できる。
【0042】
一実施例において、使用者端末300は、サーバー100から一部支援を受けて字幕を直接生成するか、またはサーバー100との通信なしに独自に字幕を生成し得る。これについては、以下の
図9で具体的に説明する。
【0043】
図2は、一実施例によるサーバー100の構成を示した図面である。
【0044】
図2を参照すると、一実施例によるサーバー100は、少なくとも1つのプロセッサによって動作し、字幕テキスト生成部110、音声状態分析部130、音声基準情報生成部150、字幕情報生成部170を含み得る。
【0045】
一実施例において、字幕テキスト生成部110、音声状態分析部130、音声基準情報生成部150および字幕情報生成部170は、物理的に区分された1つ以上の装置を用いて実装するか、または1つ以上のプロセッサーまたは1つ以上のプロセッサーおよびソフトウェアの結合によって実装でき、図示された例とは異なり、具体的な動作において明確に区分されないこともある。
【0046】
字幕テキスト生成部110は、放送端末200から受信された放送データに含まれた話し手の音声に対応する字幕テキストを生成する。
【0047】
具体的に、字幕テキスト生成部110は、音声認識技術を用いて放送端末200から受信された放送データ(映像ファイルまたはオーディオファイル)に含まれた話し手の音声を認識し、認識された音声に対応する字幕テキストを生成し得る。このとき、字幕テキスト生成部110は、音声認識の結果が不正確な部分についてはこれを示す表示(例えば、「???」または「ooo」)を追加して字幕テキストを生成し得る。
【0048】
一方、字幕テキスト生成部110は、生成された字幕テキストを字幕情報生成部170に提供する。字幕情報生成部170は、字幕テキストを含む字幕情報を生成し、使用者端末300に送信することになる。
【0049】
音声状態分析部130は、放送データ(映像ファイルまたはオーディオファイル)に含まれた話し手の音声についての音声状態を分析できる。このとき、音声状態は、音声の大きさ、音色の感情のうち、少なくとも1つを含み得る。一方、音声状態分析部130は、音声状態を分析するために様々な音声分析技術を活用し得る。
【0050】
音声基準情報生成部150は、放送データに含まれた話し手の音声のうちの一部を用いて音声基準情報を生成する。
【0051】
一実施例によると、音声基準情報生成部150は、放送データに含まれた話し手の音声のうち、一定時間の間に発話した音声についての音声状態に基づいて、音声基準情報を生成し得る。例えば、音声基準情報生成部150は、放送開始の時点から既設定された時間の間に発話した話し手の音声状態、または、放送端末200または使用者端末300の要請によって設定された時間の間に発話した話し手の音声状態に基づいて、音声基準情報を生成する。
【0052】
一方、音声基準情報は、話し手の音声状態についての基準となる情報であって、話し手が普段に発話する音声の音声状態に関する情報であり得る。一実施例において、サーバー100は、音声基準情報に基づいて、音声状態の変化を感知し、字幕のスタイルおよび/または映像画面のスタイルを変更させ得る。
【0053】
字幕情報生成部170は、話し手の音声および音声基準情報に基づいて、字幕テキストについての字幕スタイル情報を生成する。
【0054】
具体的に、字幕情報生成部170は、音声基準情報をもとに現在認識した音声(対象音声)の字幕テキストに適用する字幕スタイルを決定し得る。字幕スタイルは、字幕テキストを飾るための情報であって、字幕テキストのデザイン様式に該当する。
【0055】
一実施例によると、字幕情報生成部170は、話し手の音声および音声基準情報をもとに字幕テキストが表示される映像画面についての画面スタイルを決定し得る。画面スタイルは、字幕テキストが出力される時点の映像画面を飾るための情報である。
【0056】
また、一実施例によると、字幕情報生成部170は、話し手の音声および音声基準情報をもとに音声の字幕テキストを変更し得る。例えば、字幕情報生成部170は、話し手の音声についての音声状態に応じて、字幕テキストに特定の文字または特殊文字などを追加させるか、または字幕テキストの特定の文字を他の文字に変更し得る。
【0057】
一方、字幕情報生成部170は、通信部(図示せず)を介して、字幕テキストおよび字幕スタイル情報を含む字幕情報を使用者端末300に送信できる。このとき、実施例に応じて、字幕情報は、画面スタイル情報をさらに含み得る。
【0058】
一方、字幕情報を受信した使用者端末300は、字幕スタイル情報に基づいて、字幕テキストに適用される字幕スタイルを確認し、確認された字幕スタイルを字幕テキストに適用して使用者端末300の画面に出力する。このために、使用者端末300には、字幕スタイル情報に基づいて、字幕テキストのサイズ、色、フォントなどを変更し得るデザイン様式を保存できる。
【0059】
また、一実施例によると、使用者端末300は、受信された字幕情報に画面スタイル情報が含まれている場合、画面スタイル情報に基づいて、画面スタイルを確認し、確認された画面スタイルに基づいて、字幕テキストが出力される映像画面を制御できる。
【0060】
一方、実施例に応じて、字幕情報生成部170は、字幕テキストに字幕スタイルを適用した後、字幕スタイルで飾られた字幕レイヤー(字幕画面)を使用者端末300に送信できる。この場合、使用者端末300は、受信された字幕レイヤー(字幕画面)を字幕が表示される映像にオーバーレイできる。
【0061】
図3は、一実施例による字幕生成方法を示したフローチャートである。
【0062】
図3を参照すると、一実施例による字幕生成方法は、サーバー100で行われる字幕生成方法であって、字幕テキスト抽出動作201、音声状態分析動作203、音声基準情報生成動作205、字幕スタイル情報生成動作207、画面スタイル情報生成動作209、字幕情報送信動作211を含む。
【0063】
説明に先立って、一実施例では、一人の話し手を基準に説明するが、多数の話し手が存在する場合にサーバー100は、話し手ごとに字幕生成方法を行って、話し手ごとに字幕情報を生成し得る。
【0064】
まず、字幕テキスト生成部110は、音声認識技術を用いて放送端末200から受信された放送データ(映像ファイルまたはオーディオファイル)に含まれた話し手の音声に対応する字幕テキストを生成する(201)。
【0065】
このとき、前述したように、字幕テキスト生成部110は、音声認識の結果が不正確な部分についてはこれを示す表示(例えば、「???」または「ooo」)を含む字幕テキストを生成し得る。
【0066】
字幕テキスト生成部110は、生成された字幕テキストを字幕情報生成部170に提供し、字幕情報生成部170は、字幕テキストを含む字幕情報を生成して使用者端末300に送信できる。
【0067】
以後、音声状態分析部130は、放送データ(映像ファイルまたはオーディオファイル)に含まれた話し手の音声についての音声状態を分析する(203)。このとき、音声状態は、音声の大きさ(例えば、デシベル)、音色(例えば、柔らかさ、粗さ、遅さ、速さ)、話し手の感情(例えば、喜び、驚き、悲しみ、怒り)などを含み得る。一方、音声状態分析部130は、音声状態分析のために、様々な音声分析技術を用い得る。
【0068】
以後、音声基準情報生成部150は、放送データに含まれた話し手の音声のうちの一部を用いて音声基準情報を生成する(205)。
【0069】
音声基準情報は、話し手の音声状態を判断するための1つの基準となる情報であって、話し手が普段に発話する音声の音声状態に関する情報であり得る。すなわち、音声基準情報は、例えば、話し手が普段に発話する音声の大きさ、音色、感情などを含む情報であり得る。
【0070】
一方、音声基準情報生成部150は、例えば、放送データに含まれた話し手の音声のうち、放送開始の時点から既設定された時間の間に発話した話し手の音声を音声基準情報を生成するための基準音声として用い得る。他の例として、音声基準情報生成部150は、放送データに含まれた話し手の音声のうち、放送端末200または使用者端末300の要請によって設定された時間の間に発話した話し手の音声を基準音声として用い得る。また他の例として、音声基準情報生成部150は、例えば、放送データに含まれた話し手の音声のうち、放送中の特定イベント(例えば、インターミッション、広告など)が起こる時間に発話した話し手の音声を基準音声として用い得る。このように音声基準情報生成部150は、実施例に応じて、様々な時間、条件で発話した話し手の音声を基準音声として用い得る。
【0071】
図4は、一実施例による音声基準情報の例示を示した図面である。
【0072】
図4を参照すると、一実施例による音声基準情報は、基準音声の音声状態に関する情報を含み得る。図面で音声基準情報として、基準音声の大きさが「40デシベル」、音色が「 柔らかさ」、感情が「中立」で生成されていることが分かる。
【0073】
また、
図3を参照すると、一実施例におけるサーバー100は、音声基準情報に基づいて、話し手の音声についての音声状態の変化を感知し、字幕のスタイルおよび映像画面のスタイルのうち、少なくとも1つを変更させ得る。すなわち、サーバー100は、現在認識した話し手の音声(対象音声)についての音声状態と音声基準情報との間の差を用いて字幕スタイルおよび画面スタイルのうち、少なくとも1つを変更し得る。
【0074】
具体的に、字幕情報生成部170は、放送データに含まれた話し手の音声および音声基準情報をもとに字幕スタイル情報を生成する(207)。
【0075】
字幕スタイル情報は、字幕テキストのサイズ、色、フォント、出力位置、回転、および特殊効果のうち、少なくとも1つを制御するための情報である。
【0076】
字幕情報生成部170は、現在認識した音声(対象音声)についての音声状態と音声基準情報との間の差に基づいて、対象音声のテキスト字幕についての字幕スタイル情報を生成し得る。
【0077】
例えば、字幕情報生成部170は、対象音声の大きさを音声基準情報に含まれた基準音声の大きさと比較して対象音声の大きさが既設定された大きさほど増加するたびに、字幕テキストのサイズを1ポイント大きく設定し得る。逆に、字幕情報生成部170は、対象音声の大きさを音声基準情報に含まれた基準音声の大きさと比較して対象音声の大きさが既設定された大きさほど減少するたびに、字幕テキストのサイズを1ポイント小さく設定し得る。
【0078】
他の例として、字幕情報生成部170は、対象音声の感情が音声基準情報に含まれた基準音声の感情と異なる場合には、字幕テキストの色を異にして設定し得る。すなわち、字幕テキストの色を対象音声の感情が「怒り」であれば赤い色、「楽しさ」であれば青い色、「恐れ」であれば黒い色、「悲しみ」であれば灰色で設定し得る。ここで説明する感情についての色は、1つの例示に過ぎず、管理者の設定などに応じていつでも変更し得ることは自明であろう。
【0079】
また他の例として、字幕情報生成部170は、対象音声の音色が音声基準情報に含まれた基準音声の音色と異なる場合、字幕テキストのフォントを異にして設定し得る。すなわち、対象音声の音色が「柔らかさ」であれば明朝体、「粗さ」であればヘッドライン体、「遅さ」であればグンソ体、「速さ」であればゴシック体で設定し得る。ここで説明する音色についてのフォントは、1つの例示に過ぎない。
【0080】
また他の例として、字幕情報生成部170は、対象音声の大きさおよび感情を音声基準情報に含まれた基準音声の大きさおよび感情と比較し、字幕テキストの出力位置、回転、特殊効果のうち、少なくとも1つを設定し得る。このとき、特殊効果は、字幕テキストのサイズの変化、色の変化、揺れ、フェードイン/アウト、動きのような様々な視覚的効果を含み得る。
【0081】
図5は、一実施例による字幕スタイル変更の例示を示した図面である。
【0082】
一実施例において、字幕情報生成部170は、対象音声についての状態情報の組み合わせで字幕テキストのスタイルを多様に変更するように、字幕スタイル情報を生成し得る。
すなわち、対象音声の大きさと音色の差を用いるか、音色と感情の差を用いるか、または大きさと感情の差を用いて字幕テキストのスタイルを多様に変更し得る。
【0083】
そして、字幕情報生成部170は、字幕スタイル情報をスクリプト形式で生成し得、スクリプト形式のほかに様々なプログラミング言語の形式で生成し得る。
【0084】
また、字幕情報生成部170は、字幕テキストの文章、単語、または文字の単位として前記字幕スタイル情報を生成し得る。
【0085】
また、
図3を参照すると、字幕情報生成部170は、放送データに含まれた話し手の音声および音声基準情報をもとに画面スタイル情報を生成する(209)。
【0086】
画面スタイル情報は、字幕テキストが表示される映像画面のサイズ、色、揺れ、および特殊効果のうち、少なくとも1つを制御するための情報である。
【0087】
字幕情報生成部170は、現在認識した音声(対象音声)についての音声状態と音声基準情報との間の差に基づいて、対象音声に対応する字幕テキストが出力される時点の映像画面のスタイル(デザイン)を制御する画面スタイル情報を生成する。
【0088】
例えば、字幕情報生成部170は、対象音声の大きさが音声基準情報に含まれた基準音声の大きさと比較して既設定された大きさほど増加するたびに、映像画面のサイズを10ピクセル大きく設定し得る。逆に、字幕情報生成部170は、対象音声の大きさを音声基準情報に含まれた基準音声の大きさと比較して対象音声の大きさが既設定された大きさほど減少するたびに、映像画面のサイズを10ピクセル小さく設定し得る。
【0089】
他の例として、字幕情報生成部170は、対象音声の感情が音声基準情報に含まれた基準音声の感情と異なる場合、映像画面の背景色を異にして設定し得る。すなわち、映像画面の背景色を対象音声の感情が「怒り」であればかば色、「楽しさ」であれば空色、「恐れ」であれば紫色、「悲しみ」であれば灰色で設定し得る。
【0090】
他の一例として、字幕情報生成部170は、対象音声の大きさおよび感情を音声基準情報に含まれた基準音声の大きさおよび感情と比較し、映像画面の揺れおよび特殊効果のうち、少なくとも1つを設定し得る。特殊効果は、映像画面のサイズの変化、色の変化、揺れ、フェードイン/アウト、動きのような様々な視覚的効果を含み得る。
【0091】
図6は、一実施例による画面スタイル変更の例示を示した図面である。
【0092】
一実施例によると、字幕情報生成部170は、対象音声の状態情報の組み合わせで映像画面のスタイルを多様に変更するように、画面スタイル情報を生成し得る。
【0093】
一方、字幕情報生成部170は、画面スタイル情報をスクリプト形式で生成し得るが、スクリプト形式のほかにも様々なプログラミング言語の形式で生成し得る。
【0094】
また、
図3を参照すると、字幕情報生成部170は、字幕テキストおよび字幕スタイル情報を含む字幕情報を生成し、通信部(図示せず)を介して使用者端末300に送信する(211)。
【0095】
このとき、実施例に応じて、字幕情報は、画面スタイル情報をさらに含み得る。
【0096】
一方、使用者端末300は、受信された字幕情報を用いて字幕テキストを字幕スタイル情報に応じて出力できる。
【0097】
また、使用者端末300は、受信された字幕情報に画面スタイル情報が含まれている場合、映像画面を画面スタイル情報に応じて出力できる。
【0098】
一方、一実施例によると、字幕情報生成部170は、対象音声の音声状態と音声基準情報を用いて対象音声に対応する字幕テキストのスタイルを変更するか、または映像画面のスタイルを変更させ得る。
【0099】
また、一実施例によると、字幕情報生成部170は、音声基準情報をもとに字幕テキスト自体を変更し得る。
【0100】
図7は、一実施例による字幕テキスト変更方法を示したフローチャートである。
【0101】
図7を参照すると、一実施例による字幕テキスト変更方法は、音声基準情報を用いた字幕テキスト変更動作401、変更された字幕テキストを含む字幕情報生成動作403を含む。
【0102】
まず、字幕情報生成部170は、現在認識した音声(対象音声)についての音声状態と音声基準情報との間の差に基づいて、対象音声に対応するテキスト字幕を変更する。
【0103】
テキスト字幕変更の一例としては、(i)字幕テキストに既設定された文字を追加するか、(ii)字幕テキストに特殊文字を追加するか、(iii)字幕テキストに含まれた1つ以上の単語を連関単語として変更するか、または(iv)字幕テキストに含まれた1つ以上の文字を繰り返し追加することを含み得る。
【0104】
例えば、字幕情報生成部170は、対象音声の感情が音声基準情報に含まれた基準音声の感情と異なる場合、字幕テキストに既設定された特殊文字を追加し得る。すなわち、対象音声の感情が「怒り」であれば感嘆符(!)を、「楽しさ」であればハート
を、「悲しみ」であれば泣きを表すエモティコンや文字
を字幕テキストに追加し得る。
【0105】
他の例として、字幕情報生成部170は、対象音声の音色が音声基準情報に含まれた基準音声の音色と異なる場合、字幕テキストに既設定された文字を追加し得る。すなわち、対象音声の音色が「柔らかさ」であれば「柔らかく」という文字を、「粗さ」であれば「粗く」という文字を追加し得る。
【0106】
また他の例として、字幕情報生成部170は、対象音声の音色が音声基準情報に含まれた基準音声の音色と異なる場合、字幕テキストに含まれた1つ以上の文字を繰り返し追加するか、特殊文字を追加するか、または字幕テキストに含まれた1つ以上の単語を連関単語として変更し得る。具体的な例として、字幕情報生成部170は、対象音声(「go」)の音色が「速さ」であれば字幕テキストである「go」を2回繰り返し追加して「go
go go」に変更し得る。また、字幕情報生成部170は、対象音声(「go」)の音色が「遅さ」であれば波文字(~)を追加して(「go~」)に変更し得る。
【0107】
図8は、一実施例による字幕テキストの追加方法の例示を示した図面である。
【0108】
一方、一実施例において、字幕情報生成部170が、対象音声についての状態情報の組み合わせで字幕テキストを多様に変更し得ることは自明である。
【0109】
また、
図7を参照すると、字幕情報生成部170は、変更された字幕テキストを含む字幕情報を生成する(403)。
【0110】
これによって、使用者端末300は、変更された字幕テキストを画面に出力し、変更された字幕を使用者に提供する。
【0111】
以上では、字幕情報生成部170が対象音声の音声状態と音声基準情報を用いて、字幕スタイル、画面スタイルおよび字幕テキストの変更を設定し得ることを説明した。単に、字幕情報生成部170は、対象音声の音声状態の変化に応じて字幕スタイル、画面スタイル、字幕テキストの変更のうち、1つ以上を設定し得る。
【0112】
一方、他の実施例において、使用者端末300は、サーバー100から一部支援を受けて字幕を直接生成するか、またはサーバー100との通信なしに独自に字幕を生成し得る。
【0113】
例えば、サーバー100は、字幕テキストのみを生成して使用者端末300に提供し、字幕スタイルの情報、画面スタイルの情報は、使用者端末300で生成し得る。他の例として、使用者端末300で字幕スタイルの情報、画面スタイルの情報を生成するだけでなく、字幕テキストも生成し得る。
【0114】
図9は、他の一実施例による字幕生成方法を行う使用者端末300の構成を示した図面であって、他の一実施例による使用者端末300は、字幕テキストを生成し、字幕スタイルの情報および画面スタイルの情報のうち、少なくとも1つを生成する。
【0115】
図9を参照すると、他の実施例による使用者端末300は、少なくとも1つの字幕情報生成部によって動作し、字幕テキスト生成部310、音声状態分析部330、音声基準情報生成部350、および字幕情報生成部370を含み得る。
【0116】
一実施例において、字幕テキスト生成部310、音声状態分析部330、音声基準情報生成部350および字幕情報生成部370は、物理的に区分された1つ以上の装置を用いて実装するか、または1つ以上のプロセッサーまたは1つ以上のプロセッサーおよびソフトウェアの結合によって実装でき、図示された例とは異なり、具体的な動作において明確に区分されないこともある。
【0117】
使用者端末300に含まれた字幕テキスト生成部310、音声状態分析部330、音声基準情報生成部350、字幕情報生成部370は、それぞれ前述したサーバー100に含まれた字幕テキスト生成部110、音声状態分析部130、音声基準情報生成部150および字幕情報生成部170と同じ機能を行うことができる。
【0118】
一方、使用者端末300は、
図3で前述した字幕生成方法を行って字幕テキスト、字幕スタイルの情報、画面スタイルの情報を含む字幕情報を生成し、字幕情報を用いて字幕テキストを画面に出力して使用者に提供する。
【0119】
図10は、例示的な実施例で使用されるのに適切なコンピューティング装置を含むコンピューティング環境を例示して説明するためのブロック図である。図示された実施例において、各コンポーネントは、以下に記述されたものに加えて、異なる機能および能力を有することができ、以下に記述されていないものに加えて、追加的なコンポーネントを含み得る。
【0120】
図示されたコンピューティング環境1000は、コンピューティング装置12を含む。
一実施例において、コンピューティング装置12は、
図1に図示されたサーバー100、放送端末200または使用者端末300に含まれる1つ以上のコンポーネントであり得る。
【0121】
コンピューティング装置12は、少なくとも1つのプロセッサー14、コンピューター判読可能保存媒体16および通信バス18を含む。プロセッサー14は、コンピューティング装置12が前述の例示的な実施例に基づいて動作するようにできる。例えば、プロセッサー14は、コンピューター判読可能保存媒体16に保存された1つ以上のプログラムを行うことができる。前記1つ以上のプログラムは、1つ以上のコンピューター実行可能命令語を含み得、前記コンピューター実行可能命令語は、プロセッサー14によって実行される場合、コンピューティング装置12が例示的な実施例による動作を遂行するように構成できる。
【0122】
コンピューター判読可能保存媒体16は、コンピューター実行可能命令語ないしプログラムコード、プログラムデータおよび/または他の適切な形態の情報を保存するように構成される。コンピューター判読可能保存媒体16に保存されたプログラム20は、プロセッサー14によって実行可能な命令語の集合を含む。一実施例において、コンピューター判読可能保存媒体16は、メモリー(ランダムアクセスメモリーのような揮発性メモリー、非揮発性メモリー、またはこれらの適切な組み合わせ)、1つ以上の磁気ディスク保存デバイス、光学ディスク保存デバイス、 フラッシュメモリーデバイス、その他にコンピューティング装置12によってアクセスされ、必要な情報を保存できる他の形態の保存媒体、またはこれらの適切な組み合わせであり得る。
【0123】
通信バス18は、プロセッサー14、コンピューター判読可能保存媒体16を含み、コンピューティング装置12の他の様々なコンポーネントを相互接続する。
【0124】
コンピューティング装置12はまた、1つ以上の入出力装置24のためのインターフェースを提供する1つ以上の入出力インターフェース22および1つ以上のネットワーク通信インターフェース26を含み得る。入出力インターフェース22およびネットワーク通信インターフェース26は、通信バス18に接続される。入出力装置24は、入出力インターフェース22を介してコンピューティング装置12の他のコンポーネントに接続できる。例示的な入出力装置24は、ポインティング装置(マウスまたはトラックパッドなど)、キーボード、タッチ入力装置(タッチパッドまたはタッチスクリーンなど)、音声または音入力装置、様々な種類のセンサー装置および/または撮影装置のような入力装置、および/またはディスプレー装置、プリンター、スピーカーおよび/またはネットワークカードのような出力装置を含み得る。例示的な入出力装置24は、コンピューティング装置12を構成する一コンポーネントとして、コンピューティング装置12の内部に含み得、コンピューティング装置12とは区別される別の装置として、コンピューティング装置12と接続できる。
【0125】
以上で説明された実施例は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素およびソフトウェア構成要素の組み合わせとして実装できる。例えば、実施例で説明された装置、方法および構成要素は、例えば、字幕情報生成部、コントローラー、中央処理装置(Central Processing Unit:CPU)、グラフィックプロセッシングユニット(Graphics Processing Unit:GPU)、ALU(Arithmetic Logic Unit)、デジタル信号字幕情報生成部(Digital Signal Processor)、マイクロコンピューター、FPGA(Field Programmable Gate Array)、PLU(Programmable Logic Unit)、マイクロ字幕情報生成部、注文型集積回路(Application Specific Integrated Circuits:ASICS)、または命令(Instruction)を実行して応答できる他の任意の装置のように、1つ以上の汎用コンピューターまたは特殊目的のコンピューターを用いて実装できる。
【0126】
実施例による方法は、様々なコンピューターの手段を介して実行できるプログラム命令の形で実装してコンピューター判読可能な媒体に記録され得る。前記コンピューター判読可能な媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含み得る。前記媒体に記録されるプログラム命令は、実施例のために特別に設計されて構成されたものであるか、またはコンピューターソフトウェアの当業者に公知の使用可能なものであり得る。コンピューター判読可能な記録媒体の例には、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体(Magnetic Media)と、CD-ROM、DVDのような光記録媒体(Optical Media)と、フロプティカルディスク(Floptical Disk)のような磁気-光媒体(Magneto-Optical Media)と、ロム(ROM)、ラム(RAM)、フラッシュメモリーのなどようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例には、コンパイラーによって作られる機械語コードだけでなく、インタープリターなどを使用してコンピューターによって実行できる高級言語コードを含む。前記ハードウェア装置は、実施例の動作を行うために1つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。
【0127】
以上のように、たとえ限られた図面によって実施例が説明されたとしても、当該の技術分野で通常の知識を有する者であれば、前記の記載から様々な修正および変形が可能である。例えば、説明された技術が説明された方法とは異なる手順に行われたり、および/または説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形で結合または組み合わされたり、他の構成要素または均等物によって代置されたり置換されても適切な結果が達成され得る。したがって、他の実装、他の実施例および特許請求の範囲と均等なものなども後述する特許請求の範囲に属する。