(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024069065
(43)【公開日】2024-05-21
(54)【発明の名称】字幕データ生成装置及び字幕データ生成プログラム
(51)【国際特許分類】
H04N 21/235 20110101AFI20240514BHJP
H04N 21/258 20110101ALI20240514BHJP
H04N 21/81 20110101ALI20240514BHJP
【FI】
H04N21/235
H04N21/258
H04N21/81
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022179848
(22)【出願日】2022-11-09
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】阿部 晋矢
(72)【発明者】
【氏名】藤井 翔子
(72)【発明者】
【氏名】小松 佑人
(72)【発明者】
【氏名】藤沢 寛
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA04
5C164MA06P
5C164SB07P
5C164SC11P
5C164YA08
5C164YA11
(57)【要約】
【課題】コンテンツの視聴者の個人属性及び再生状況に応じて、適切にふりがなを付与できる字幕データ生成装置を提供すること。
【解決手段】字幕データ生成装置1は、字幕を構成する単語ごとに、漢字部分それぞれの読み、及び漢字の難易度データを含む漢字情報を検索し、当該漢字部分と紐づけて抽出するデータ抽出部12と、視聴者の個人属性データ及び再生状況データを取得する視聴情報取得部13と、個人属性データ及び再生状況データ、並びに難易度データを入力とした学習データを用いて、漢字部分にふりがなを提示すべきか否かを学習した学習済みモデルを取得するモデル取得部14と、新たな字幕情報に対して、学習済みモデルにより、ふりがなを提示すべき漢字部分を特定した、当該漢字部分の読みを含む字幕表を生成する字幕表生成部15と、字幕表を、指定されたフォーマットの字幕データに変換するフォーマット変換部16と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
コンテンツに対応した時系列の字幕情報に対して、字幕を構成する単語ごとに、漢字部分それぞれの読み、及び漢字の難易度データを含む漢字情報を検索し、当該漢字部分と紐づけて抽出するデータ抽出部と、
前記コンテンツの視聴者の個人属性データ、及び再生状況データを取得する視聴情報取得部と、
機械学習用のコンテンツの字幕情報に対して、当該字幕情報の漢字部分それぞれにふりがなを提示して欲しいか否かの回答を当該コンテンツの視聴者それぞれから取得し、当該コンテンツの視聴者の前記個人属性データ及び前記再生状況データ、並びに前記難易度データを入力、前記回答を出力とした学習データを用いて、前記漢字部分にふりがなを提示すべきか否かを学習した学習済みモデルを取得するモデル取得部と、
新たなコンテンツの字幕情報における漢字部分それぞれの前記難易度データ、並びに当該コンテンツの視聴者の前記個人属性データ及び前記再生状況データを、前記学習済みモデルに入力することで、ふりがなを提示すべき漢字部分を特定した、当該漢字部分の読みを含む字幕表を生成する字幕表生成部と、
前記字幕表を、指定されたフォーマットの字幕データに変換するフォーマット変換部と、を備える字幕データ生成装置。
【請求項2】
前記字幕情報及び前記漢字情報は、Resource Description Framework(RDF)で記述される請求項1に記載の字幕データ生成装置。
【請求項3】
前記字幕情報及び前記漢字情報は、RDFで記述され、
前記データ抽出部は、前記字幕情報及び前記漢字情報へアクセス可能なリンクが付加された所定フォーマットの字幕データを受け付ける請求項1に記載の字幕データ生成装置。
【請求項4】
前記難易度データは、漢字の難易度、画数、又は当て字か否かの区分のうち、少なくともいずれかを含む請求項1から請求項3のいずれかに記載の字幕データ生成装置。
【請求項5】
前記個人属性データは、年齢である請求項1から請求項3のいずれかに記載の字幕データ生成装置。
【請求項6】
前記再生状況データは、前記コンテンツの音声と字幕とが同一言語であるか否かを示す請求項1から請求項3のいずれかに記載の字幕データ生成装置。
【請求項7】
前記視聴情報取得部は、前記コンテンツの再生音量が所定未満の場合、音声言語に関わらず、音声と字幕とが異なる言語であると判定する請求項6に記載の字幕データ生成装置。
【請求項8】
前記学習済みモデルは、ロジスティック回帰モデル、決定木モデル、ランダムフォレストモデル、勾配ブースティングモデルの少なくともいずれかである請求項1から請求項3のいずれかに記載の字幕データ生成装置。
【請求項9】
前記データ抽出部は、1つの単語に含まれる連続した複数の漢字を1つの漢字部分とし、
前記フォーマット変換部は、前記連続した漢字に対して、熟語ルビを設定する請求項1から請求項3のいずれかに記載の字幕データ生成装置。
【請求項10】
請求項1から請求項3のいずれかに記載の字幕データ生成装置としてコンピュータを機能させるための字幕データ生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画又は音声コンテンツにおける字幕データを生成するための装置及びプログラムに関する。
【背景技術】
【0002】
従来、テレビの放送番組やインターネットを経由した動画配信などのサービスが広く利用されている。これらの動画サービスでは、マルチメディアサービスを提供しており、主となる動画及び音声データの他に、音声の発話情報などを補助又は補完する字幕データが多く提供されている。字幕データは、映像及び音声とは別に、テキストデータの形で放送又は配信され、テレビ受信機又は動画配信サービスの専用アプリケーションなどでコンテンツを再生する際、定められた提示時刻に従って同期されて視聴者に提示される。
【0003】
字幕データの方式は、放送及び通信のそれぞれで標準規格が定められている。放送の標準規格としては、非特許文献1のARIB-TTMLがある。ARIB-TTMLは、新衛星4K8K放送などに広く利用されている。
一方、通信の標準規格としては、非特許文献2のTTML Profiles for Internet Media Subtitles and Captions(IMSC)がある。IMSCは、主にインターネットでの動画配信向けに用意された標準であるが、放送での利用も広がっており、米国のATSC 3.0では、放送字幕の符号化方式としてIMSCが採用されている(非特許文献3参照)。その他にも、非特許文献4のWebVTTがあり、主にインターネットでの動画配信向けに広く利用されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2017-204695号公報
【特許文献2】特開平11-39298号公報
【特許文献3】特開2005-176083号公報
【非特許文献】
【0005】
【非特許文献1】デジタル放送におけるマルチメディア符号化方式(第2世代), ARIB STD-B62, 一般社団法人電波産業会
【非特許文献2】TTML Profiles for Internet Media Subtitles and Captions 1.2, W3C Recommendation 04 August 2020, <https://www.w3.org/TR/ttml-imsc1.2/>
【非特許文献3】ATSC Standard: Captions and Subtitles, Doc. A/343:2022-02, ATSC, Washington, DC, Feb. 2022.
【非特許文献4】WebVTT: The Web Video Text Tracks Format, W3C Candidate Recommendation 4 April 2019, <https://www.w3.org/TR/webvtt1/>
【非特許文献5】小林正幸, 西川俊, 三好茂樹, 石原保志, “学年別ルビ付加機能を有するソフトウェアを利用した発話内容提示システムの構築と評価,” 映像情報メディア学会誌, vol.62, no.4, pp.595-605, 2008.
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、例えば非特許文献5において、講義の発話内容に対して学年別のルビを付加して提示するシステムが提案されているように、放送又は通信の動画コンテンツに付加される字幕についても、例えば、ふりがなを出す文字の選択など、個人に合わせて表示内容を変更した方が理解しやすい。
しかしながら、現状のARIB-TTML、IMSC、WebVTTは、データの構成上、個人に合わせた字幕の変更を実現したい場合、例えば、異なる言語のデータを事前に用意して視聴者が選択するなど、全ての個人向けに多数のデータを事前に用意しないと対応できなかった。
【0007】
また、特許文献1では、放送局で使用されるベースバンド信号に含まれている字幕データから、放送と同時に通信用の字幕データをリアルタイムに生成する装置が提案されている。これにより、視聴者の受信端末へ向けて、ARIB-TTML又はWebVTTなどの標準フォーマットへの変換は可能であるが、字幕の内容は固定的で視聴者に合わせた字幕内容への変更はできない。
【0008】
また、一般的な文書にふりがなを付与する手法として、例えば、特許文献2では、Webページなどの電子的なテキストについて、利用者の識字レベルに合わせて必要な漢字にふりがなを付与する技術が提案されている。しかしながら、この技術は、音声が含まれる動画への字幕を対象としたものではないため、例えば、字幕と同時に音声で内容が説明されるような再生状況は考慮されていない。さらに、事前に設定された識字レベルに対応して一意にふりがなを付与すべき漢字が決定されるため、視聴者の利用状況などに合わせて、ふりがなを付与すべき漢字を予測することはできなかった。
【0009】
また、例えば、特許文献3において、映像及び音声が含まれる動画へのふりがなの付与を考えた字幕のデータベースを構築する技術が提案されているが、これは、時系列メタデータを作成するための技術であり、この時系列メタデータのみで視聴者に合わせたふりがなを付与することはできなかった。
このように、従来の技術では、視聴者の状況に合わせて字幕を変更することが難しかった。
【0010】
本発明は、コンテンツに付与する字幕に対し、視聴者の個人属性及び再生状況に応じて、適切にふりがなを付与できる字幕データ生成装置及び字幕データ生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明に係る字幕データ生成装置は、コンテンツに対応した時系列の字幕情報に対して、字幕を構成する単語ごとに、漢字部分それぞれの読み、及び漢字の難易度データを含む漢字情報を検索し、当該漢字部分と紐づけて抽出するデータ抽出部と、前記コンテンツの視聴者の個人属性データ、及び再生状況データを取得する視聴情報取得部と、機械学習用のコンテンツの字幕情報に対して、当該字幕情報の漢字部分それぞれにふりがなを提示して欲しいか否かの回答を当該コンテンツの視聴者それぞれから取得し、当該コンテンツの視聴者の前記個人属性データ及び前記再生状況データ、並びに前記難易度データを入力、前記回答を出力とした学習データを用いて、前記漢字部分にふりがなを提示すべきか否かを学習した学習済みモデルを取得するモデル取得部と、新たなコンテンツの字幕情報における漢字部分それぞれの前記難易度データ、並びに当該コンテンツの視聴者の前記個人属性データ及び前記再生状況データを、前記学習済みモデルに入力することで、ふりがなを提示すべき漢字部分を特定した、当該漢字部分の読みを含む字幕表を生成する字幕表生成部と、前記字幕表を、指定されたフォーマットの字幕データに変換するフォーマット変換部と、を備える。
【0012】
前記字幕情報及び前記漢字情報は、Resource Description Framework(RDF)で記述されてもよい。
【0013】
前記字幕情報及び前記漢字情報は、RDFで記述され、前記データ抽出部は、前記字幕情報及び前記漢字情報へアクセス可能なリンクが付加された所定フォーマットの字幕データを受け付けてもよい。
【0014】
前記難易度データは、漢字の難易度、画数、又は当て字か否かの区分のうち、少なくともいずれかを含んでもよい。
【0015】
前記個人属性データは、年齢であってもよい。
【0016】
前記再生状況データは、前記コンテンツの音声と字幕とが同一言語であるか否かを示す値であってもよい。
【0017】
前記視聴情報取得部は、前記コンテンツの再生音量が所定未満の場合、音声言語に関わらず、音声と字幕とが異なる言語であると判定してもよい。
【0018】
前記学習済みモデルは、ロジスティック回帰モデル、決定木モデル、ランダムフォレストモデル、勾配ブースティングモデルの少なくともいずれかであってもよい。
【0019】
前記データ抽出部は、1つの単語に含まれる連続した複数の漢字を1つの漢字部分とし、前記フォーマット変換部は、前記連続した漢字に対して、熟語ルビを設定してもよい。
【0020】
本発明に係る字幕データ生成プログラムは、前記字幕データ生成装置としてコンピュータを機能させるためのものである。
【発明の効果】
【0021】
本発明によれば、コンテンツに付与する字幕に対し、視聴者の個人属性及び再生状況に応じて、適切にふりがなを付与できる。
【図面の簡単な説明】
【0022】
【
図1】実施形態における字幕データ生成装置の機能構成を示す図である。
【
図2】実施形態における時系列の字幕データの概要を例示する図である。
【
図3】実施形態における字幕データに対応した単語データの概要を例示する図である。
【
図4】実施形態における時系列RDFデータを例示する図である。
【
図5】実施形態における単語RDFデータを例示する図である。
【
図6】実施形態における学習データの一部を例示する図である。
【
図7】実施形態において予測する視聴者の個人属性データ及び再生状況データを例示する図である。
【
図8】実施形態における学習済みのロジスティック回帰モデルによる予測結果を示す図である。
【
図9】実施形態における予測結果に基づいて得られた字幕表を示す図である。
【
図10】実施形態において生成された字幕ファイルの一部を例示する第1の図である。
【
図11】実施形態における拡張IMSCにより記述された時系列字幕情報を例示する図である。
【
図12】実施形態における学習済みの決定木モデルによる予測結果を示す図である。
【
図13】実施形態において生成された字幕ファイルの一部を例示する第2の図である。
【発明を実施するための形態】
【0023】
以下、本発明の実施形態の一例について説明する。
本実施形態の字幕データ生成装置は、動画又は音声のコンテンツと同時に利用する字幕データを、字幕標準に準拠しつつ、視聴者個人の利用状況に最適化して配信又は放送するための装置である。
本実施形態では、オリジナルの字幕データを時系列メタデータとして用意し、これを個人属性データ及び再生状況データと組み合わせることで、ふりがなを付与すべき漢字を予測することで、視聴者個人にとって適切なふりがなを付与した字幕が生成される。
【0024】
ここで、字幕の多様化に向けた情報表記の手法として、例えば、Resource Description Framework(RDF)が利用できる。
RDFは、トリプル(triple)と呼ばれる3つのデータの組により、主語(subject)、述語(predicate)、目的語(object)の関係性を記述し、Uniform Resource Identifier (URI)で示される情報の関係を有向グラフにより表す枠組みである。
また、RDFで表されたデータから必要な情報を抽出するためのクエリ言語として、SPARQLがある。
【0025】
本実施形態では、字幕情報を時系列メタデータとして表記する手法の一例として、RDFを用いる。これにより、字幕データ生成装置は、自身が保持するRDFデータの検索と共に、RDFの特性によりインターネット上の他のRDF形式のオープンデータとも連携する。
なお、メタデータの構造は、RDFには限られず、例えばRelational Database(RDB)など、条件を満たす情報を検索可能な各種のデータ構造が用いられてもよい。
【0026】
図1は、本実施形態における字幕データ生成装置1の機能構成を示す図である。
字幕データ生成装置1は、制御部10及び記憶部20の他、各種の入出力インタフェースなどを備えた情報処理装置(コンピュータ)である。
【0027】
字幕データ生成装置1は、字幕情報を表す時系列のRDFデータと、個人データ及び再生状況データとを組み合わせることで、個人に合わせたふりがなを付与した字幕データを出力する。
なお、字幕データ生成装置1は、放送局などのコンテンツ配信側のサーバであってよいが、これには限られず、コンテンツの受信端末が字幕データ生成装置1の機能を備えた構成であってもよい。
【0028】
制御部10は、字幕データ生成装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
記憶部20は、ハードウェア群を字幕データ生成装置1として機能させるための各種プログラム(字幕データ生成プログラム)、及び各種データの記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスクドライブ(HDD)などであってよく、複数のデバイスで構成されてもよい。
【0029】
制御部10は、クエリ生成部11と、データ抽出部12と、視聴情報取得部13と、モデル取得部14と、字幕表生成部15と、フォーマット変換部16とを備える。
記憶部20は、字幕データ生成プログラムの他、時系列データ保持部21と、抽出データ保持部22とを備える。
【0030】
クエリ生成部11は、RDFデータを抽出するためのクエリとなるSPARQL文を生成し、データ抽出部12に提供する。
【0031】
データ抽出部12は、クエリ生成部11により生成されたSPARQL文に基づいて、時系列データ保持部21に記憶されている字幕情報としての時系列RDFデータ、及びアクセス可能なその他RDFデータから必要な情報を抽出し、抽出データ保持部22に記憶する。
具体的には、データ抽出部12は、コンテンツに対応した時系列の字幕情報のそれぞれに対して、字幕を構成する単語ごとに、漢字部分それぞれの読み、及び漢字の難易度データを含む漢字情報を検索し、この漢字部分と紐づけて抽出する。
難易度データは、漢字の読みの難しさに関連するデータであり、例えば、漢字の難易度レベル、画数、又は当て字か否かの区分などであってよい。
【0032】
ここで、字幕データ生成装置1が受信端末において構成される場合、時系列RDFデータは、例えば放送などで番組全体のデータを含んだ形で提供されることが想定される。このため、時系列RDFデータは、時系列データ保持部21に保存される。
なお、時系列RDFデータの取得経路は限定されず、コンテンツの一部として放送又は通信により全体が受信されてもよいが、字幕情報に時系列RDFへのリンクが記述されていてもよい。
【0033】
また、時系列RDFデータからデータを抽出する際は、RDFデータの特徴である、外部のRDFデータとの組み合わせが利用可能である。すなわち、データ抽出部12は、時系列RDFデータのみでは情報が足りない場合、例えば単語情報など、その他RDFデータと組み合わせた上でデータを抽出する。
【0034】
なお、字幕情報及び漢字情報は、RDFで記述され(時系列RDFデータ及びその他RDFデータ)、データ抽出部12は、これらのRDFデータへアクセス可能なリンクが付加(拡張)された標準フォーマットの字幕データを受け付けてもよい。
【0035】
視聴情報取得部13は、コンテンツの視聴者の個人属性データ、及び再生状況データを取得する。
ここで、個人属性データは、視聴者の識字レベルに関連する属性であり、例えば、年齢であってよい。
【0036】
また、再生状況データは、コンテンツ再生時の映像と音声との関連を示すデータであり、例えば、コンテンツの音声と字幕とが同一言語であるか否かを示すデータであってよい。この場合、視聴情報取得部13は、コンテンツの再生音量が所定未満のときは、音声から字幕の読みを推定できないことから、音声言語に関わらず、音声と字幕とが異なる言語であると判定してもよい。
【0037】
モデル取得部14は、機械学習用のサンプルコンテンツ、あるいは、過去に視聴したコンテンツの字幕情報に対して、漢字部分それぞれにふりがなを提示して欲しいか否かのアンケートに対する回答をこのコンテンツの視聴者それぞれから取得する。そして、モデル取得部14は、これら視聴者の個人属性データ及び再生状況データ、並びに漢字の難易度データを入力とし、取得した回答を出力(正解ラベル)とする学習データを用いて、漢字部分それぞれにふりがなを提示すべきか否かを予測するための学習モデルを学習する。
あるいは、モデル取得部14は、外部装置で同手法により生成された学習済みモデルを取得してもよい。例えば、字幕データ生成装置1が受信端末において構成された場合に、放送局などの所定の配信サーバから学習済みモデルを受信することができる。
【0038】
ここで、学習モデルは限定されないが、例えば、ロジスティック回帰モデル、決定木モデル、あるいは、ランダムフォレストモデル又は勾配ブースティングモデルなどに代表される決定木のアンサンブル学習モデルが適用可能である。
【0039】
字幕表生成部15は、新たなコンテンツの字幕情報における漢字部分それぞれの難易度データ、並びにコンテンツの視聴者の個人属性データ及び再生状況データを、モデル取得部14により取得された学習済みモデルに入力することで、ふりがなを提示すべき漢字部分を特定する。そして、字幕表生成部15は、特定した漢字部分の読みを含む字幕表を生成する。
【0040】
フォーマット変換部16は、字幕表生成部15により生成された字幕表を、指定されたARIB-TTML、IMSC、WebVTTなどの字幕フォーマットに合わせて整形し、指定されたフォーマットの字幕ファイルに変換して出力する。
【0041】
字幕データがコンテンツ配信側のサーバで生成された場合、生成された個人向けの字幕データは、少なくとも共通部分を除く一部を受信端末が通信で取得することができる。
あるいは、受信端末で字幕データを動的に生成する場合は、関連データ(時系列RDFデータ及びその他RDFデータ)全て、又はそのリンク情報が放送又は通信で送信されてよい。
【0042】
ここで、データ抽出部12は、1つの単語に含まれる連続した複数の漢字を1つの漢字部分としてもよく、この場合、フォーマット変換部16は、この連続した漢字に対して、熟語ルビを設定する。
【0043】
[実施例1]
機械学習モデルの一例として、ロジスティック回帰モデルを用いた学習により字幕を生成した場合を例示する。
【0044】
図2は、本実施形態における時系列の字幕データの概要を例示する図である。
コンテンツの字幕データは、提示する時系列の内容ごとに、提示時間(開始時間及び終了時間)が設定され、複数行にわたる場合には、各行の内容が行番号と共に設定される。
このような時系列の字幕データだけでは足りない情報を補うため、その他のデータとして、次のような単語データが利用される。
【0045】
図3は、本実施形態における字幕データに対応した単語データの概要を例示する図である。
ここでは、字幕に含まれる漢字に関する情報として、ふりがなとして提示される「読み」、難易度のレベルを示す数値である「難易度」、当て字か否かを示す論理値である「当て字」、「難易度補足」、「画数」などが取得されている。
なお、「難易度補足」には、例えば、漢検(登録商標)での級、又は学習する学年など、難易度を説明する情報が含まれる。
【0046】
図4は、本実施形態における時系列RDFデータを例示する図である。
ここでは、TurtleによりRDF記述した字幕情報の一部を示している。
コンテンツ<#Content1>には、ウェブサイトschemaで定義されたurl、caption(字幕)、name(名前)が記述されている。
【0047】
さらに、最初の字幕の1行目である<#Caption1-1>には、schemaで定義されたstartTime(開始時刻)、endTime(終了時刻)、position(位置)、hasPart(部分)が記述され、部分にあたる<#term1-1-1>には、<#term>(単語)及びposition(位置)が記述されている。
また、2行目の字幕<#Caption1-2>は、positionが2となり、各部分<#term1-2-1>, <#term1-2-2>, …に対して、position(位置)が1, 2, …の<#term>(単語)がそれぞれ記述されている。
【0048】
図5は、本実施形態における単語RDFデータを例示する図である。
ここでは、
図4と同様にTurtleによりRDF記述した単語データの一部を示している。
各単語には、schemaで定義されたname(名前)と共に、漢字が含まれる場合には、<読み>の他、難易度データとして<難易度>、<当て字>、<画数>が記述されている。
なお、この例では、難易度補足情報は、schemaで定義されたdescriptionに記述されている。
【0049】
また、単語が例えば<#遅く>のように漢字かな交じりの場合、又は複数の漢字に読みと共に分割できる場合には、schemaで定義されたhasPart(部分)により、<#遅く1>と<#遅く2>のように分割されてもよい。
【0050】
図6は、本実施形態における学習データの一部を例示する図である。
視聴者から得られる学習データを構成するデータには、コンテンツの視聴者それぞれの個人属性データである年齢、及び音声と字幕とが同一言語か否かを示す再生状況データに紐づけて、コンテンツに含まれる漢字にそれぞれ、ふりがなを付与すべきか否かを示すデータ(1又は0)が設定されている。
【0051】
ここでは、
図6のデータと
図3及び
図5に示した単語データをもとに、ロジスティック回帰モデルにより学習を行った。検証のため、学習データをホールドアウト法により8割の学習データと2割の検証データとに分割して、学習済みモデルを生成した後、その効果を検証した。
【0052】
ステップワイズ法により変数を選択し、ロジスティック回帰モデルを用いると、ある漢字iについてふりがなを付与すべき確率p
iについて次の学習済みモデルを得た。
【数1】
ここで、x
1は年齢、x
2は音声と字幕とが同一言語か否か、x
3は難易度、x
4は当て字か否かをそれぞれ表す変数である。このとき、検証データによる正解率は88.4%であった。
【0053】
次に、この学習済みモデルをもとに、新たな視聴者に対しふりがなを付与すべき漢字を予測する手順を示す。
【0054】
図7は、本実施形態において予測する視聴者の個人属性データ及び再生状況データを例示する図である。
この例では、「○田△郎」の個人属性データである年齢(34歳)と、再生状況データである音声と字幕とが同一言語か否かを示す値(TRUE)とに基づき、字幕に含まれる漢字にふりがなを付与するか否かが決定される。
【0055】
なお、字幕データ生成装置1が個人情報を取得する方法は限定されない。例えば、視聴者がサービスにログインすることにより、アカウント情報が提供されてもよいし、Personal Data Store(PDS)などの仕組みにより個人が許諾した個人データが提供されてもよい。
【0056】
図8は、本実施形態における学習済みのロジスティック回帰モデルによる予測結果を示す図である。
視聴者の個人属性データ及び再生状況データと共に、字幕に含まれる漢字の情報を学習済みモデルに入力することで、ふりがなを付与すべきか否かを示す予測値が出力される。
ロジスティック回帰モデルでは、確率で予測値が出力されるため、ここでは、閾値を0.5として、予測値が閾値以上の場合にふりがなを付与するべきと決定した。
【0057】
図9は、本実施形態における予測結果に基づいて得られた字幕表を示す図である。
ここでは、
図2に示した字幕の各行に関する時系列の字幕表を示しており、時刻情報(開始時刻、終了時刻)及び行番号に対して、単語又はその部分ごとにふりがな(ルビ)が必要か否かの値と、ふりがなとして提示する「読み」とが記述されている。
なお、字幕表は、表形式で例示したが、これには限られず、例えば、オブジェクト指向プログラミング言語のオブジェクトであってもよいし、RDBとしてテーブルを分けて字幕表が用意されてもよい。
【0058】
字幕データ生成装置1は、このように生成された字幕表をもとに、指定された所定のフォーマットで字幕ファイルを出力する。
図10は、本実施形態において生成された字幕ファイルの一部を例示する第1の図である。
ここでは、フォーマットとしてIMSCが指定された場合を示しており、ふりがなを付与すべきと決定された漢字(例えば、「密林」)のみがその読み(例えば、「ジャングル」)と共に、タグ<span tts:ruby="container">内に記述されている。
【0059】
[実施例2]
機械学習モデルの一例として、決定木モデルを用いた学習により字幕を生成した場合を例示する。
また、ここでは、字幕情報が拡張IMSCにより提供されていることとする。この場合、単語RDFデータを取得し字幕情報と対応付けるため、同内容の時系列RDFデータへのリンクが記述される。
【0060】
図11は、本実施形態における拡張IMSCにより記述された時系列字幕情報を例示する図である。
字幕情報の内容は実施例1と同一であるが、
図4に示した時系列字幕情報のRDF記述へのリンクが<example:rdf>要素の<src>属性に記述されている。
また、単語RDFデータを検索するためのキーが<span example:rdfurl>に記述されている。
【0061】
これにより、データ抽出部12は、このリンク(URI)を起点として、時系列RDFデータに加えて、単語RDFデータを検索できる。
あるいは、単語RDFデータのリンクについても、時系列RDFデータと同様に字幕情報(拡張IMSC)に記述されていてもよい。
【0062】
なお、本実施形態の字幕データ生成方法を実行できない既存の受信端末などは、標準フォーマット(IMSC)の拡張部分、例えば<span example:rdfurl>などの非対応のタグを無視して処理するので、下方互換性のある記述となっている。
【0063】
ここでは、実施例1と同様に、
図6の学習データと
図3及び
図5に示した単語データをもとに、決定木モデルにより学習を行った。検証のため、学習データをホールドアウト法により8割の学習データと2割の検証データとに分割して、学習済みモデルを生成した後、その効果を検証した。
【0064】
木の深さを4とし、決定木モデルにより、漢字の難易度、画数、視聴者の年齢、及び音声と字幕とが同一言語か否か、を説明変数とした学習済みモデルが得られた。このとき、検証データによる正解率は87.8%であった。
【0065】
図12は、本実施形態における学習済みの決定木モデルによる予測結果を示す図である。
実施例1と同様に、
図7の視聴者の個人属性データ及び再生状況データと共に、字幕に含まれる漢字の情報を学習済みモデルに入力することで、ふりがなを付与すべきか否かを示す予測値が出力される。
【0066】
字幕データ生成装置1は、この予測結果から生成された字幕表をもとに、指定された所定のフォーマットで字幕ファイルを出力する。
図13は、本実施形態において生成された字幕ファイルの一部を例示する第2の図である。
ここでは、フォーマットとしてWebVTTが指定された場合を示しており、ふりがなを付与すべきと決定された漢字(例えば、「密林」)及びその読み(例えば、「ジャングル」)がタグ<ruby>内に記述されている。
【0067】
[実施例3]
実施例2の決定木を拡張し、決定木のアンサンブル学習モデルとして、例えば、ランダムフォレストモデル、又は勾配ブースティングモデルが用いられてもよい。
【0068】
実施例2と同じく、
図6の学習データと
図3及び
図5に示した単語データをもとに、ランダムフォレストモデルにより学習を行った。検証のため、学習データをホールドアウト法により8割の学習データと2割の検証データとに分割して、学習済みモデルを生成した後、その効果を検証した。
木の深さを4として得られた学習済みモデルにおいて、検証データによる正解率は89.6%に上昇した。
また、実施例2と同様に、
図7の視聴者の個人属性データ及び再生状況データと共に、字幕に含まれる漢字の情報を学習済みモデルに入力することで、ふりがなを付与すべきか否かを示す予測値が
図12と同様に出力された。
【0069】
[実施例4]
実施例3と同じく、
図6の学習データと
図3及び
図5に示した単語データをもとに、勾配ブースティングモデルにより学習を行った。検証のため、学習データをホールドアウト法により8割の学習データと2割の検証データとに分割して、学習済みモデルを生成した後、その効果を検証した。
木の深さを6とし、XGBoostを適用した学習済みの勾配ブースティングモデルにおいて、検証データによる正解率は92.1%に上昇した。
また、実施例2と同様に、
図7の視聴者の個人属性データ及び再生状況データと共に、字幕に含まれる漢字の情報を学習済みモデルに入力することで、ふりがなを付与すべきか否かを示す予測値が
図12と同様に出力された。
【0070】
以上のように、実施形態によれば、コンテンツに対応した時系列の字幕情報に対して、字幕を構成する単語ごとに、漢字部分それぞれの読み、及び漢字の難易度データを含む漢字情報を検索し、この漢字部分と紐づけて抽出し、さらに、コンテンツの視聴者の個人属性データ、及び再生状況データを取得する。そして、字幕データ生成装置1は、個人属性データ及び再生状況データ、並びに難易度データを入力とし正解ラベルが付与された学習データによる学習済みモデルを用いて、新たなコンテンツの字幕情報において、ふりがなを提示すべき漢字部分を特定した字幕表を生成すると、この字幕表を、指定されたフォーマットの字幕データに変換する。
これにより、字幕データ生成装置1は、時系列の字幕情報及び漢字情報をもとに、個人属性データ及び再生状況データに応じて視聴者個人に合わせたふりがなの要不要を機械学習により予測し、字幕データを出力できる。したがって、字幕データ生成装置1は、字幕データの標準に準拠しつつ、個人に合わせて適切にふりがなを付与した字幕表現が可能となる。
【0071】
また、字幕情報がRDFで記述されることにより、同様にRDFで記述されたインターネット上のオープンデータとの接続が容易となる。特に、字幕と関連する単語情報がRDFで記述されることにより、外部データを組み合わせて効率的にシステムを構成することができる。
さらに、字幕情報及び漢字情報がRDFで記述されたうえで、字幕データ生成装置1は、これらのRDFデータへアクセス可能なリンクが付加(拡張)された標準フォーマットの字幕データを受け付けてもよい。これにより、本実施形態の字幕生成方法を実行できない受信端末であっても、処理できない拡張タグを無視するので、デフォルトの字幕提示が可能であり、下方互換性が確保される。
【0072】
字幕データ生成装置1は、難易度データとして、漢字の難易度、画数、又は当て字か否かの区分などを用い、また、個人属性データとして、年齢などを用いることで、容易に取得可能な情報を入力として、機械学習モデルにより適切な予測結果を得られる。
【0073】
さらに、字幕データ生成装置1は、再生状況データとして、コンテンツの音声と字幕とが同一言語であるか否かの区分を用いることで、字幕に含まれる漢字の読みを視聴者が音声から特定、又は予想できる状況にあるかどうかを判断材料にでき、この結果、状況に応じた適切なふりがなを付与できる。
また、字幕データ生成装置1は、コンテンツの再生音量が所定未満の場合、音声言語に関わらず、音声と字幕とが異なる言語であると判定することで、視聴者が漢字の読みのヒントとなる音声を聞きやすい状況か否かを判断でき、より適切に状況に応じたふりがなを付与できる。
【0074】
字幕データ生成装置1は、機械学習モデルとして、例えば、ロジスティック回帰モデル、決定木モデル、ランダムフォレストモデル、勾配ブースティングモデルなどを採用して、高精度な予測結果を得られる。
【0075】
また、字幕データ生成装置1は、1つの単語に含まれる連続した複数の漢字を1つの漢字部分とし、フォーマット変換部は、連続した漢字に対して、熟語ルビを設定してもよい。これにより、字幕データ生成装置1は、例えば、「渋谷」のふりがなを「渋(しぶ)谷」のように一部の漢字に対してのみとせず、「渋谷(しぶや)」と全体に付与するなど、ふりがなの有無を判断する区切りを調整したり、熟字訓と同様にふりがなの表示位置を調整したりできる。
【0076】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
【0077】
本実施形態では、主に字幕データ生成装置の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、字幕データを生成するための方法、又はプログラムとして構成されてもよい。
【0078】
さらに、字幕データ生成装置の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
【0079】
ここでいう「コンピュータシステム」とは、OSや周辺機器などのハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROMなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。
【0080】
さらに「コンピュータで読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【符号の説明】
【0081】
1 字幕データ生成装置
10 制御部
11 クエリ生成部
12 データ抽出部
13 視聴情報取得部
14 モデル取得部
15 字幕表生成部
16 フォーマット変換部
20 記憶部
21 時系列データ保持部
22 抽出データ保持部