(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0013】
以下に添付図面を参照して、本発明に係る表示態様決定装置、表示装置、表示態様決定方法及びプログラムの実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。
【0014】
[第一実施形態]
図1は、第一実施形態に係る表示システムの構成例を示すブロック図である。表示システム1は、映像に含まれる音声の単語ごとの使用頻度に応じて単語の表示態様を決定する。表示システム1は、データベース管理装置10と、表示態様決定装置20と、表示装置30とを備える。
【0015】
データベース管理装置10は、表示システム1の処理に使用するデータベースを管理する。データベース管理装置10は、例えば、映像コンテンツの配信事業者の設備に設置される。データベース管理装置10は、例えば、CPU(Central Processing Unit)や映像処理用プロセッサなどで構成された演算処理装置(制御部)である。データベース管理装置10は、図示しない記憶部に記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。データベース管理装置10は、一または複数の装置で構成されていてもよい。データベース管理装置10は、通信部11と、単語使用頻度データベース(以下、単に「データベース」という。)12と、データベース生成部13とを有する。データベース管理装置10は、データベース12を管理する。
【0016】
通信部11は、表示態様決定装置20と有線または無線により通信する。通信部11は、表示態様決定装置20との間でデータを送受信する。
【0017】
図2を参照して、データベース12について説明する。
図2は、第一実施形態に係る単語使用頻度情報データベースの構成例を示す図である。データベース12は、単語ごとの使用頻度を示す使用頻度情報を記憶する。単語は、主に、名詞、動詞とし、助詞、接続詞などは含めないものとする。使用頻度情報とは、例えば、新聞、テレビまたはラジオを含む情報媒体、ホームページまたはソーシャルネットワーキングサービス(Social Networking Service、SNS)を含むインターネットを介して公開されている情報における、単語ごとの使用頻度を示す情報である。使用頻度は、「高」と「低」、または、使用されている回数で示される。本実施形態では、使用頻度は、「高」または「低」とする。例えば、一般的によく使用されている単語は、使用頻度が「高」である。例えば、一般的によく使用されていない単語は、使用頻度が「低」である。
【0018】
データベース生成部13は、データベース12を作成する。より詳しくは、データベース生成部13は、例えば、情報媒体またはインターネット上の情報に基づいて、単語ごとの使用頻度を取得して、データベース12に記憶する。データベース生成部13は、例えば、情報媒体またはインターネット上の情報の更新頻度に応じて、データベース12を更新する。
【0019】
表示態様決定装置20は、映像に含まれる音声を表すテキストデータに含まれる単語ごとの使用頻度を取得し、使用頻度に応じて単語の表示態様を決定する。表示態様決定装置20は、例えば、配信事業者の設備に設置される。表示態様決定装置20は、例えば、CPU(Central Processing Unit)や映像処理用プロセッサなどで構成された演算処理装置(制御部)である。表示態様決定装置20は、図示しない記憶部に記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。表示態様決定装置20は、一または複数の装置で構成されていてもよい。本実施形態では、表示態様決定装置20は、通信部21と、映像データ取得部22と、音声認識処理部23と、データベース参照部24と、決定部25とを有する。
【0020】
通信部21は、データベース管理装置10及び表示装置30と有線または無線により通信する。通信部21は、データベース管理装置10及び表示装置30との間でデータを送受信する。
【0021】
映像データ取得部22は、音声を含む映像の映像データを取得する。映像データ取得部22は、取得した映像データを音声認識処理部23に出力する。
【0022】
映像データは、映像のデータである。映像データは、録画開始から録画終了までの映像を一つの単位とする。映像データは、例えば、毎秒、数10フレームの画像から構成される動画像である。
【0023】
音声データは、映像に含まれる音声のデータである。音声データは、一つの映像データに一つまたは複数が対応する。本実施形態では、音声データと映像データとは、一対一で対応する。音声データは、例えば、話者もしくは被撮影物の変化、または、句読点、語尾もしくは無声部分によって区切ってもよい。
【0024】
音声認識処理部23は、映像データ取得部22が取得した映像に含まれる音声を認識する音声認識処理を実行して、音声を表すテキストデータを生成する。音声認識処理の方法は、公知のいずれの方法でもよく、限定されない。音声認識処理部23は、生成したテキストデータを映像データに付加して決定部25に出力する。
【0025】
テキストデータは、映像に含まれる音声を表すテキストのデータである。言い換えると、テキストデータは、音声に対応した字幕を生成するための文字情報である。テキストデータは、音声をそのまま文字に書き起こしたものと、音声を翻訳して文字に書き起こしたものとを含む。テキストデータは、一つの音声データに一つまたは複数が対応する。本実施形態では、テキストデータは、音声データの区切りごとに生成される。
【0026】
テキストデータは、映像及び音声に対応して表示を開始するタイミングと終了するタイミングとを含む表示タイミング情報を有する。例えば、表示タイミング情報は、映像及び音声の開始時間をゼロとした経過時間、映像の先頭のフレームを1フレーム目とするフレーム数、または、映像データに設けられたスタンプ位置情報によって示す。
【0027】
図3、
図4を用いて、表示タイミングについて説明する。
図3は、第一実施形態に係る表示システムが生成・表示する字幕の表示タイミングの一例を説明する図である。
図4は、第一実施形態に係る表示システムが生成・表示する字幕の表示タイミングの他の例を説明する図である。
【0028】
図3に示すように、例えば、テレビのいわゆる収録放送のように、撮影済みの映像に対して、後から字幕を生成する場合、表示タイミングは、対応する音声の再生タイミングに合わせることが好ましい。
図3に示す例では、1番目の字幕の表示タイミングは時間T11から時間T12までであり、表示時間はA1である。2番目の字幕の表示タイミングは時間T12から時間T13までであり、表示時間はA2である。3番目の字幕の表示タイミングは時間T13から時間T14までであり、表示時間はA3である。
【0029】
図4に示すように、例えば、テレビのいわゆる生放送のように、撮影した映像に対して、リアルタイムで字幕を生成する場合、表示タイミングは、字幕を生成するのに時間を要するため、対応する音声の再生タイミングから遅延時間ΔT1遅延させる。
図4に示す例では、1番目の字幕の表示タイミングは時間T22から時間T23までであり、表示時間はA1である。時間T22は、映像及び音声の再生を開始する時間T21から遅延時間ΔT1遅延した時間である。2番目の字幕の表示タイミングは時間T23から時間T24までであり、表示時間はA2である。3番目の字幕の表示タイミングは時間T24から時間T26までであり、表示時間はA3である。時間T26は、映像及び音声の再生を終了する時間T25から遅延時間ΔT1遅延した時間である。
【0030】
遅延時間ΔT1は、映像に含まれる音声からテキストデータを生成する処理に要する時間以上の長さとする。例えば、遅延時間ΔT1は、数10秒程度である。
【0031】
さらに、本実施形態では、音声認識処理部23は、音声の区切りを検出してテキストデータに区切位置情報を付加するものとする。例えば、音声認識処理部23は、話者が変わったことを認識して音声の区切りを検出してもよい。例えば、音声認識処理部23は、句読点または語尾または無声部分を認識して音声の区切りを検出してもよい。例えば、音声認識処理部23は、映像解析処理によって、被撮影物の変化を認識することで映像の区切りを認識して音声の区切りを検出してもよい。
【0032】
区切位置情報は、テキストデータの中で区切ることが可能な位置を示す。言い換えると、区切位置情報は、テキストデータに基づいて字幕を生成する際に、字幕の区切り位置として使用することが可能である。
【0033】
データベース参照部24は、データベース管理装置10のデータベース12を参照する。より詳しくは、データベース参照部24がデータベース12の使用頻度情報を参照して、テキストデータに含まれる単語ごとの使用頻度を取得する。
【0034】
決定部25は、映像データ取得部22が取得した映像データから音声認識処理部23が生成したテキストデータと、データベース参照部24が参照した使用頻度情報とに基づいて、映像に含まれる音声を表すテキストデータに含まれる単語ごとの使用頻度を取得し、使用頻度に応じて単語ごとの表示態様を決定する。決定部25は、使用頻度の低い単語の可読性を向上するように表示態様を決定する。使用頻度が低く、耳慣れていない、または、見慣れていない単語は、使用頻度が高く、耳慣れた、または、見慣れた単語に比べて可読性が低いためである。決定部25は、決定結果である単語ごとの表示態様を示す表示態様情報をテキストデータに付加する。
【0035】
表示態様とは、単語の表示時間と単語の表示色と単語の表示の大きさと単語の表示速度との少なくともいずれかである。表示態様が単語の表示時間である場合、使用頻度が低い単語の表示時間を、使用頻度が高い単語の表示時間より長くする。表示態様が単語の表示色である場合、使用頻度が低い単語の表示色を、使用頻度が高い単語の表示色より視認性を高くする。表示態様が単語の表示の大きさである場合、使用頻度が低い単語の表示の大きさを、使用頻度が高い単語の表示の大きさより大きくする。表示態様が単語の表示速度である場合、使用頻度が低い単語の表示速度を、使用頻度が高い単語の表示速度より遅くする。なお、単語の表示速度については後述する。
【0036】
本実施形態では、表示態様は、単語の表示時間である。例えば、表示時間は、秒数でもよい。例えば、表示時間は、当該単語の表示時間をどの程度長くするかを示す情報でもよい。例えば、表示時間は、当該単語の表示時間を長くするか否かの情報でもよい。本実施形態では、表示時間は、秒数とする。本実施形態では、表示時間は、使用頻度が高い単語を「3秒」、使用頻度が低い単語を「5秒」とする。
【0037】
本実施形態では、決定部25は、音声認識処理部23が生成したテキストデータに含まれる単語を抽出する。そして、決定部25は、テキストデータと使用頻度情報とに基づいて、単語ごとの使用頻度を取得する。そして、決定部25は、使用頻度に応じて単語の表示時間を決定する。本実施形態では、決定部25は、使用頻度が低い単語の表示時間が、使用頻度が高い単語の表示時間より長くなるように決定する。決定部25は、単語ごとの表示時間を表示時間情報としてテキストデータに付加する。
【0038】
さらに、決定部25は、テキストデータ全体の表示時間を決定してもよい。本実施形態では、決定部25は、使用頻度が低い単語を含むテキストデータの表示時間が、使用頻度が高い単語のみで構成されたテキストデータの表示時間より長くなるように決定する。例えば、テキストデータに含まれる単語の中で、最長の表示時間を、テキストデータの表示時間としてもよい。決定部25は、テキストデータの表示時間を表示時間情報としてテキストデータに付加する。
【0039】
さらにまた、決定部25は、テキストデータが区切位置情報を有する場合、区切り位置で区切ったテキストデータの表示時間を決定してもよい。決定部25は、区切り位置で区切ったテキストデータの表示時間を表示時間情報としてテキストデータに付加する。
【0040】
表示装置30は、音声を含む映像と字幕とを表示・再生する。表示装置30は、例えば、CPU(Central Processing Unit)や映像処理用プロセッサなどで構成された演算処理装置(制御部)である。表示装置30は、図示しない記憶部に記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。表示装置30は、一または複数の装置で構成されていてもよい。表示装置30は、通信部31と、表示部32と、表示用映像データ取得部33と、字幕生成部34と、表示制御部35とを備える。
【0041】
通信部31は、表示態様決定装置20と有線または無線により通信する。通信部31は、表示態様決定装置20から表示用映像データを受信する。
【0042】
表示部32は、映像と字幕とを表示可能である。表示部32は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)または有機EL(Organic Electro−Luminescence)ディスプレイなどを含むディスプレイである。表示部32は、表示制御部35から出力された映像信号に基づいて、映像と字幕とを表示する。
【0043】
表示用映像データ取得部33は、表示態様決定装置20から表示用映像データを取得する。表示用映像データ取得部33は、取得した表示用映像データを字幕生成部34と表示制御部35とに出力する。
【0044】
図5を用いて、表示用映像データについて説明する。
図5は、第一実施形態に係る表示システムの表示態様決定装置によって生成された表示用映像データの一例を示す図である。表示用映像データは、例えば、映像データと音声データとテキストデータと表示時間情報とを含む。
図5に示す例では、1つの表示用映像データは、テキストデータ_1ないしテキストデータ_jを含む。さらに、表示用映像データは、表示時間情報として、テキストデータ_1に含まれる単語_11ないし単語_1iとその表示時間_11ないし表示時間_1iと、テキストデータ_jに含まれる単語_j1ないし単語_jiとその表示時間_j1ないし表示時間_jiとを含む。
【0045】
字幕生成部34は、表示用映像データ取得部33が取得した表示用映像データに基づいて字幕データを生成する。本実施形態では、字幕データは、テキストデータを一段で表示するデータである。字幕データは、テキストデータに対応する文字情報と表示時間情報とに加えて、例えば、フォントと表示サイズと表示色と表示速度との少なくともいずれかを含んでもよい。字幕生成部34は、テキストデータが区切位置情報を含む場合、テキストデータを区切った字幕データを生成してもよい。字幕生成部34は、表示部32の画面サイズに応じて、テキストデータを区切ったり、複数段に分けたりして字幕データを生成してもよい。
【0046】
表示制御部35は、表示用映像データ取得部33が取得した表示用映像データと、字幕生成部34が生成した字幕データとを表示部32に表示させる制御をする。より詳しくは、表示制御部35は、表示用映像データに含まれる表示用映像と字幕データに含まれる文字情報とを表示部32に表示させる。表示制御部35は、字幕データが区切位置情報を含む場合、区切位置情報に基づいて区切った字幕を表示してもよい。表示制御部35は、表示部32のサイズに応じて、テキストデータを区切ったり、複数段に分けたりした字幕を表示してもよい。
【0047】
次に、データベース管理装置10が行う処理について説明する。
【0048】
データベース管理装置10は、データベース生成部13によって、データベース12を生成する。データベース管理装置10は、データベース生成部13によって、情報媒体またはインターネットを介して公開されている情報に基づいて、単語ごとの使用頻度を取得してデータベース12に記憶する。データベース管理装置10は、データベース生成部13によって、例えば、情報媒体またはインターネット上の情報の更新頻度に応じて、データベース12を更新する。
【0049】
次に、
図6を用いて、表示態様決定装置20が行う処理の方法及び作用について説明する。
図6は、第一実施形態に係る表示システムの表示態様決定装置が行う処理の一例を示すフローチャートである。
【0050】
表示態様決定装置20は、映像データ取得部22によって、映像データを取得する(ステップS11)。
【0051】
表示態様決定装置20は、音声認識処理部23によって、映像データに音声認識処理を実行する(ステップS12)。より詳しくは、表示態様決定装置20は、音声認識処理部23によって、映像データに音声認識処理を実行して、映像に含まれる音声を表すテキストデータを生成する。本実施形態では、テキストデータは、表示タイミング情報と区切位置情報とを含む。
【0052】
表示態様決定装置20は、映像データにテキストデータを付加する(ステップS13)。
【0053】
表示態様決定装置20は、単語ごとの表示時間を決定する(ステップS14)。より詳しくは、表示態様決定装置20は、決定部25によって、音声認識処理部23が生成したテキストデータに含まれる単語を抽出する。そして、表示態様決定装置20は、決定部25によって、テキストデータと使用頻度情報とに基づいて、単語ごとの使用頻度を取得する。そして、表示態様決定装置20は、決定部25によって、使用頻度に応じて単語の表示時間を決定する。そして、本実施形態では、表示態様決定装置20は、決定部25によって、区切り位置で区切ったテキストごとの表示時間を決定する。
【0054】
表示態様決定装置20は、テキストデータに表示時間情報を付加する(ステップS15)。より詳しくは、表示態様決定装置20は、決定部25によって、単語ごとの表示時間を表示時間情報としてテキストデータに付加する。本実施形態では、表示態様決定装置20は、決定部25によって、区切り位置で区切ったテキストごとの表示時間を表示時間情報としてテキストデータに付加する。
【0055】
表示態様決定装置20は、映像データの終了か否かを判定する(ステップS16)。表示態様決定装置20は、映像データの終了であると判定した場合(ステップS16でYes)、処理を終了する。表示態様決定装置20は、映像データの終了ではないと判定した場合(ステップS16でNo)、ステップS11の処理を再度実行する。
【0056】
図7、
図8を用いて、表示態様決定装置20が行う処理について説明する。
図7は、第一実施形態に係る表示システムの表示態様決定装置によって決定された表示時間の一例を示す図である。
図8は、第一実施形態に係る表示システムの表示態様決定装置によって決定された表示時間の他の例を示す図である。
【0057】
例えば、映像に「新しく□□道路が開通しました 所要時間が大幅に短縮されることになります」という音声が含まれている場合について説明する。ステップS11において、映像データが取得される。ステップS12において、音声認識処理が実行されて、音声を表すテキストデータが生成される。本実施形態では、無声部分が認識されて、「新しく□□道路が開通しました」と「所要時間が大幅に短縮されることになります」とに区切られた2つのテキストデータが生成される。また、2つのテキストデータの表示タイミング情報が生成される。さらに、無音部分を区切り位置とする区切位置情報が生成される。ステップS13において、表示タイミング情報と区切位置情報とを含むテキストデータが映像データに付加される。
【0058】
ステップS14において、テキストデータ「新しく□□道路が開通しました」について、単語ごとの表示時間が決定される。より詳しくは、まず、
図7に示すように、テキストデータから、単語として、「新しく」、「□□道路」、「が」、「開通しました」が抽出される。そして、データベース参照部24を介して、データベース12から各単語ごとの使用頻度を取得する。「新しく」と「開通しました」の使用頻度は、「高」と取得される。「□□道路」の使用頻度は、「低」と取得される。そして、使用頻度が高い単語の表示時間を「3秒」とし、使用頻度が低い単語の表示時間を「5秒」と決定する。
【0059】
テキストデータ「所要時間が大幅に短縮されることになります」についても、同様に、
図8に示すように、単語ごとに使用頻度に応じた表示時間が決定される。
【0060】
さらに、決定された単語ごとの表示時間に基づいて、テキストデータ全体の表示時間を決定して、テキストデータに付加してもよい。本実施形態では、テキストデータに含まれる単語の中で、最長の表示時間をテキストデータの表示時間とする。この場合、
図7に示すテキストデータの表示時間は「5秒」と決定され、
図8に示すテキストデータの表示時間は「3秒」と決定される。
【0061】
ステップS15において、テキストデータに決定した表示時間情報を付加して、表示用映像データを生成する。
【0062】
このように、表示態様決定装置20は、映像に含まれる音声に対応したテキストデータの単語の使用頻度に応じて表示時間を決定する。
【0063】
単語の表示時間については、上述の通り説明したが、ここで、単語の表示速度について説明する。単語の表示速度とは、単位時間あたりの、表示部32に表示する単語を含むテキストの位置の変化量である。例えば、表示部32にテキストを表示する場合、テキストが右から左へ移動しながら表示する場合が有り得る。そこで、決定部25は、音声認識処理部23が生成したテキストデータに含まれる単語を抽出する。そして、決定部25は、テキストデータと使用頻度情報とに基づいて、単語ごとの使用頻度を取得する。そして、決定部25は、使用頻度に応じて単語の表示速度を決定する。つまり、決定部25は、データベース参照部24を介して、例えば、「新しく」と「開通しました」の使用頻度は、「高」と取得される。「□□道路」の使用頻度は、「低」と取得する。使用頻度が高い単語を含む表示速度を「並」とし、使用頻度が低い単語の表示速度を「遅い」と決定する。そして、テキストデータに含まれる単語の中で、最長の表示速度をテキストデータの表示速度とする。さらに、決定された単語ごとの表示速度に基づいて、テキストデータ全体の表示速度を決定して、テキストデータに付加する。
図7の例では、テキストデータの表示速度は「遅い」と決定され、
図8の例では、テキストデータの表示速度は「並」と決定される。なお、テキストデータの表示速度の「並」は、例えば、テキストが画面の一端から現れ始めることで表示された時点から、画面の他端へ抜け切ることで表示されなくなった時点までの時間を3秒とし、テキストデータの表示速度の「遅い」は、上述の時間を5秒とする。
【0064】
次に、
図9を用いて、表示装置30が行う処理の方法及び作用について説明する。
図9は、第一実施形態に係る表示システムの表示装置が行う処理の一例を示すフローチャートである。
【0065】
表示装置30は、表示用映像データ取得部33によって、表示用映像データを取得する(ステップS21)。
【0066】
表示装置30は、字幕生成部34によって、字幕を生成する(ステップS22)。より詳しくは、表示装置30は、字幕生成部34によって、表示用映像データに含まれるテキストデータに基づいて字幕データを生成する。本実施形態では、字幕は、テキストデータをそのまま表示する。表示装置30は、字幕生成部34によって、表示用映像データに含まれるテキストデータが区切位置情報を含む場合、区切位置情報に基づいて区切った字幕データを生成してもよい。表示装置30は、字幕生成部34によって、例えば、表示部32のサイズに応じて区切った字幕データを生成してもよい。
【0067】
表示装置30は、表示制御部35によって、字幕付きの映像を表示部32に表示させる(ステップS23)。より詳しくは、表示装置30は、表示制御部35によって、表示用映像データと字幕データとを、表示タイミング情報に従って表示させる。
【0068】
表示装置30は、表示用映像データの終了か否かを判定する(ステップS24)。表示装置30は、表示用映像データの終了であると判定した場合(ステップS24でYes)、処理を終了する。表示装置30は、表示用映像データの終了ではないと判定した場合(ステップS24でNo)、ステップS21の処理を再度実行する。
【0069】
図3、
図4を用いて、表示装置30が行う処理について説明する。
【0070】
図3を用いて、例えば、テレビの収録放送の場合の字幕の表示タイミングについて説明する。映像と音声と1番目の字幕との表示・再生を時間T11から開始する。時間T12において、1番目の字幕の表示を終了して、2番目の字幕の表示を開始する。時間T13において、2番目の字幕の表示を終了して、3番目の字幕の表示を開始する。時間T14において、映像と音声と3番目の字幕との表示・再生が終了する。このように、収録放送の場合、映像と音声と字幕とは、時間のズレなく表示・再生される。
【0071】
図4を用いて、例えば、テレビのいわゆる生放送の場合の字幕の表示タイミングについて説明する。映像と音声との表示・再生を時間T21から開始する。時間T21から遅延時間ΔT1遅延した時間T22において、1番目の字幕の表示を開始する。時間T23において、1番目の字幕の表示を終了して、2番目の字幕の表示を開始する。時間T24において、2番目の字幕の表示を終了して、3番目の字幕の表示を開始する。時間T25において、映像と音声との表示・再生が終了する。時間T25から遅延時間ΔT1遅れた時間T26において、3番目の字幕の表示・再生が終了する。このように、生放送の場合、映像及び音声と、字幕とが遅延時間ΔT1ズレて表示・再生される。
【0072】
このように、表示装置30は、表示態様決定装置20によって、単語の使用頻度に応じて表示時間が決定された字幕を表示する。
【0073】
このようにして、例えば、映像コンテンツの配信事業者の設備に設置された表示態様決定装置20によって、映像に含まれる音声の単語ごとの使用頻度に応じて単語ごとの表示時間を決定して、映像を視聴するユーザの表示装置30に表示用映像データを配信する。表示装置30は、決定された表示時間に基づいて字幕を生成し、映像とともに表示する。
【0074】
上述したように、本実施形態は、映像に含まれる音声に対応したテキストデータの単語ごとの使用頻度に応じて、単語ごとの表示時間を決定する。そして、本実施形態は、決定された表示時間に基づいて生成された字幕を表示する。本実施形態によれば、使用頻度が低い単語を含む字幕の表示時間を、使用頻度が高い単語のみで構成された字幕の表示時間より長くすることができる。このように、本実施形態は、使用頻度が低く、耳慣れていない、または、見慣れていない単語を含む字幕の可読性を向上することができる。
【0075】
[第二実施形態]
図10、
図11を参照しながら、本実施形態に係る表示システム1について説明する。
図10は、第二実施形態に係る表示システムが生成・表示する字幕の表示タイミングの一例を説明する図である。
図11は、第二実施形態に係る表示システムの表示装置が行う処理の一例を示すフローチャートである。表示システム1は、基本的な構成は第一実施形態の表示システム1と同様である。以下の説明においては、表示システム1と同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。本実施形態の表示システム1は、表示装置30の字幕生成部34における処理が、第一実施形態と異なる。
【0076】
字幕生成部34は、テキストデータの表示タイミング情報と表示時間情報とに基づいて、字幕に遅延が生じると判定する場合、複数の字幕が表示されるように字幕データを生成する。本実施形態では、字幕に遅延が生じると判定する場合、複数の字幕が複数段で表示されるように字幕データを生成する。
【0077】
字幕の遅延とは、ある字幕の表示タイミングと、他の字幕の表示タイミングとの少なくとも一部が重複していることをいう。または、字幕の遅延とは、字幕の表示時間が映像及び音声の再生時間に対してあらかじめ設定された字幕の表示可能時間を超過する場合、または、映像及び音声に対する字幕の表示タイミングが閾値以上のズレを生じる場合、をいう。本実施形態では、ある字幕の表示タイミングに、前の字幕の表示タイミングが終了していないことをいう。
【0078】
図10を用いて字幕の遅延について説明する。一例として、テレビのいわゆる生放送の場合の字幕の表示タイミングについて説明する。
図10は、2番目の字幕に使用頻度が低い単語が含まれ、表示時間B2が表示時間B1、表示時間B3より長く設定されていることによって、字幕の遅延が発生している例を示す。時間T32は、映像及び音声の再生を開始する時間T31から遅延時間ΔT1遅延した時間である。1番目の字幕の表示タイミングは時間T32から時間T33までであり、表示時間はB1である。2番目の字幕の表示タイミングは時間T33から時間T35までであり、表示時間はB2である。3番目の字幕の表示タイミングは時間T35より早い時間T34から時間T36までであり、表示時間はB3である。2番目の字幕と3番目の字幕の表示タイミングの一部が重複している。
【0079】
図11に示すフローチャートのステップS31、ステップS35ないしステップS37の処理は、
図9に示すフローチャートのステップS21、ステップS22ないしステップS24の処理と同様の処理を行う。
【0080】
表示装置30は、字幕の遅延があるか否かを判定する(ステップS32)。表示装置30は、ある字幕の表示タイミングと他の字幕の表示タイミングとの少なくとも一部が重複しているとき、字幕の遅延があると判定し(ステップS32でYes)、ステップS33に進む。表示装置30は、ある字幕の表示タイミングと他の字幕の表示タイミングとが重複していないとき、字幕の遅延がないと判定し(ステップS32でNo)、ステップS35に進む。
【0081】
表示装置30は、字幕の遅延があると判定した場合(ステップS32でYes)、字幕生成部34によって、複数段の字幕を生成する(ステップS33)。より詳しくは、表示装置30は、字幕生成部34によって、表示タイミングが重複すると判定した字幕を二段で表示するように字幕データを生成する。
図10に示す例では、3番目の字幕の表示タイミングになると、2番目の字幕と3番目の字幕とを二段で表示する字幕データを生成する。
【0082】
表示装置30は、表示制御部35によって、複数段の字幕付きの映像を表示部32に表示させる(ステップS34)。より詳しくは、表示装置30は、表示制御部35によって、表示用映像データと複数の字幕データとを、表示タイミング情報に従って表示させる。
【0083】
上述したように、本実施形態は、字幕に遅延が生じたとき、複数の字幕を表示する。これにより、本実施形態は、使用頻度が低い単語の表示時間を使用頻度が高い単語の表示時間より長くすることによる字幕の表示の遅延の発生を抑制することができる。本実施形態は、複数の字幕を表示することで、可読性を保つことができる。本実施形態によれば、各字幕を決定された表示時間の間、映像とともに表示するので、各字幕の可読性を保つことができる。
【0084】
[第三実施形態]
図12、
図13を参照しながら、本実施形態に係る表示システム1について説明する。
図12は、第三実施形態に係る表示システムが生成・表示する字幕の表示タイミングの一例を説明する図である。
図13は、第三実施形態に係る表示システムの表示装置が行う処理の一例を示すフローチャートである。表示システム1は、基本的な構成は第一実施形態と第二実施形態の表示システム1と同様である。本実施形態の表示システム1は、表示装置30の字幕生成部34における処理が、第一実施形態と第二実施形態と異なる。
【0085】
字幕生成部34は、テキストデータの表示タイミング情報と表示時間情報とに基づいて、字幕に遅延が生じると判定する場合、表示可能時間D内に収まるように調整した字幕データを生成する。字幕生成部34は、字幕に遅延が生じると判定する場合、一つまたは複数の字幕の表示時間を短縮する。字幕生成部34は、字幕に遅延が生じると判定する場合、使用頻度の高い単語のみで構成された字幕の表示時間を短縮してもよい。本実施形態では、字幕生成部34は、字幕に遅延が生じると判定する場合、使用頻度の高い単語のみで構成された字幕の表示時間を短縮する。
【0086】
本実施形態では、字幕の表示時間が表示可能時間Dを超過する場合をいう。表示可能時間Dは、映像に対して字幕を表示することが可能な最長の長さである。表示可能時間Dは、映像の長さなどに応じて設定される。例えば、表示可能時間Dは、映像の長さと同じ時間である。
【0087】
図12を用いて字幕の遅延について説明する。一例として、テレビのいわゆる生放送の場合の字幕の表示タイミングについて説明する。
図12は、1番目の字幕と2番目の字幕に使用頻度が低い単語が含まれ、表示時間C1、表示時間C2が表示時間C3より長く設定されていることによって、字幕の遅延が発生している例を示す。時間T42は、映像及び音声の再生を開始する時間T41から遅延時間ΔT1遅延した時間である。1番目の字幕の表示タイミングは時間T42から時間T43までであり、表示時間はC1である。2番目の字幕の表示タイミングは時間T43から時間T44までであり、表示時間はC2である。3番目の字幕の表示タイミングは時間T44から時間T46までであり、表示時間はC3+C4である。1番目の字幕から3番目の字幕の表示時間の合計は、表示可能時間Dを超過している。
【0088】
図13に示すフローチャートのステップS41、ステップS45ないしステップS47の処理は、
図9に示すフローチャートのステップS21、ステップS22ないしステップS24の処理と同様の処理を行う。
【0089】
表示装置30は、字幕の遅延があるか否かを判定する(ステップS42)。表示装置30は、字幕の表示時間が表示可能時間Dを超過するとき、字幕の遅延があると判定し(ステップS42でYes)、ステップS43に進む。表示装置30は、字幕の表示時間が表示可能時間Dを超過していないとき、字幕の遅延がないと判定し(ステップS42でNo)、ステップS45に進む。
【0090】
表示装置30は、字幕の遅延があると判定した場合(ステップS42でYes)、字幕生成部34によって、表示可能時間D内に収まるように調整した字幕を生成する(ステップS43)。より詳しくは、表示装置30は、字幕生成部34によって、表示時間を短縮した字幕データを生成する。本実施形態では、表示装置30は、字幕生成部34によって、使用頻度の高い単語のみで構成された3番目の字幕の表示時間を短縮する。
図12に示す例では、3番目の字幕の表示タイミングを時間T44から時間T45までに短縮して、表示時間をC3とする。言い換えると、3番目の字幕の表示時間のC4に相当する長さを短縮する。
【0091】
表示装置30は、表示制御部35によって、表示可能時間D内に収まるように調整した字幕付きの映像を表示部32に表示させる(ステップS44)。より詳しくは、表示装置30は、表示制御部35によって、表示用映像データと複数の字幕データとを、表示タイミング情報に従って表示させる。
【0092】
上述したように、本実施形態は、字幕に遅延が生じたとき、表示可能時間D内に収まるように調整した字幕を表示する。これにより、本実施形態は、使用頻度が低い単語の表示時間を使用頻度が高い単語の表示時間より長くすることによる字幕の表示の遅延の発生を抑制することができる。本実施形態によれば、字幕に遅延が生じたときでも、表示する字幕が増えないので、映像の視認性及び字幕の可読性を保つことができる。
【0093】
これまで本発明に係る表示システム1について説明したが、上述した実施形態以外にも種々の異なる形態にて実施されてよいものである。
【0094】
図示した表示システム1の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていなくてもよい。すなわち、各装置の具体的形態は、図示のものに限られず、各装置の処理負担や使用状況などに応じて、その全部または一部を任意の単位で機能的または物理的に分散または統合してもよい。
【0095】
図14を用いて、表示システム1の他の構成である表示システム1Aについて説明する。
図14は、表示システムの構成例の他の例を示すブロック図である。表示システム1Aは、データベース管理装置10と、表示装置30と、音声認識装置40と、表示態様決定装置50とを備える。データベース管理装置10と表示装置30とは、第一実施形態と同様の構成である。音声認識装置40は、第一実施形態の表示態様決定装置20の有する音声認識処理の機能を有する。音声認識装置40は、通信部41と、映像データ取得部42と、音声認識処理部43とを有する。表示態様決定装置50は、第一実施形態の表示態様決定装置20の有する音声認識処理の機能以外の機能を有する。表示態様決定装置50は、通信部51と、データベース参照部52と、決定用映像データ取得部53と、決定部54とを有する。表示態様決定装置50は、音声認識装置40からテキストデータが付加された映像データを取得して、単語ごとの使用頻度に応じた表示時間の決定を行う。このような構成によれば、例えば、映像コンテンツの配信事業者の設備に設置された音声認識装置40によって、映像に含まれる音声を認識して、表示態様決定装置50によって、音声の単語ごとの使用頻度に応じて単語ごとの表示時間を決定して、映像を視聴するユーザの表示装置30に表示用映像データを配信する。表示装置30は、決定された表示時間に基づいて字幕を生成して、映像とともに表示する。
【0096】
図15を用いて、表示システム1の他の構成である表示システム1Bについて説明する。
図15は、表示システムの構成例の他の例を示すブロック図である。表示システム1Bは、データベース管理装置10と、表示装置60とを備える。データベース管理装置10は、第一実施形態と同様の構成である。表示装置60は、第一実施形態の表示態様決定装置20と表示装置30との機能を有する。言い換えると、表示装置60は、第一実施形態の表示装置30の機能を有する表示態様決定装置20である。または、言い換えると、表示装置60は、第一実施形態の表示態様決定装置20の機能を有する表示装置30である。表示装置60は、通信部61と、映像データ取得部62と、音声認識処理部63と、データベース参照部64と、決定部65と、表示部66と、字幕生成部67と、表示制御部68とを有する。このような構成によれば、例えば、映像を視聴するユーザの表示装置60によって、映像に含まれる音声の単語ごとの使用頻度に応じて単語ごとの表示時間を決定して、決定された表示時間に基づいて字幕を生成して、映像とともに表示する。
【0097】
図16を用いて、表示システム1の他の構成である表示システム1Cについて説明する。
図16は、表示システムの構成例の他の例を示すブロック図である。表示システム1Cは、第一実施形態のデータベース管理装置10と表示態様決定装置20と表示装置30との機能を有する表示装置70である。言い換えると、表示装置70は、第一実施形態のデータベース管理装置10と表示装置30の機能を有する表示態様決定装置20である。または、言い換えると、表示装置70は、第一実施形態のデータベース管理装置10と表示態様決定装置20の機能を有する表示装置30である。表示装置70は、データベース71と、データベース生成部72と、映像データ取得部73と、音声認識処理部74と、データベース参照部75と、決定部76と、表示部77と、字幕生成部78と、表示制御部79とを有する。このようにして、例えば、映像を視聴するユーザの表示装置70は、単語ごとの使用頻度を記憶しているデータベース71に基づいて、映像に含まれる音声の単語ごとの使用頻度に応じて単語ごとの表示時間を決定して、決定された表示時間に基づいて字幕を生成して、映像とともに表示する。
【0098】
表示システム1の構成は、例えば、ソフトウェアとして、メモリにロードされたプログラムなどによって実現される。上記実施形態では、これらのハードウェアまたはソフトウェアの連携によって実現される機能ブロックとして説明した。すなわち、これらの機能ブロックについては、ハードウェアのみ、ソフトウェアのみ、または、それらの組み合わせによって種々の形で実現できる。
【0099】
データベース12は、各単語について、例えば、ジャンル、年代、国・地域を含む属性分類ごとの使用頻度を示す使用頻度情報を記憶してもよい。これにより、同じ単語であっても属性分類ごとの使用頻度を記憶することができる。映像に含まれる音声の単語ごとの使用頻度を取得する際に、映像の属性分類に対応する単語の使用頻度を取得することができる。これにより、より適切に字幕の表示時間を決定することができる。
【0100】
第一実施形態において、決定部25がテキストごとの表示時間を決定するものとして説明したが、表示装置30がテキストごとの表示時間を決定してもよい。
【0101】
上記に記載した構成要素には、当業者が容易に想定できるもの、実質的に同一のものを含む。さらに、上記に記載した構成は適宜組み合わせが可能である。また、本発明の要旨を逸脱しない範囲において構成の種々の省略、置換または変更が可能である。