IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7606866ジャンル別テキスト収集装置およびそのプログラム
<>
  • 特許-ジャンル別テキスト収集装置およびそのプログラム 図1
  • 特許-ジャンル別テキスト収集装置およびそのプログラム 図2
  • 特許-ジャンル別テキスト収集装置およびそのプログラム 図3
  • 特許-ジャンル別テキスト収集装置およびそのプログラム 図4
  • 特許-ジャンル別テキスト収集装置およびそのプログラム 図5
  • 特許-ジャンル別テキスト収集装置およびそのプログラム 図6
  • 特許-ジャンル別テキスト収集装置およびそのプログラム 図7
  • 特許-ジャンル別テキスト収集装置およびそのプログラム 図8
  • 特許-ジャンル別テキスト収集装置およびそのプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-18
(45)【発行日】2024-12-26
(54)【発明の名称】ジャンル別テキスト収集装置およびそのプログラム
(51)【国際特許分類】
   G06F 16/30 20190101AFI20241219BHJP
   G06F 16/35 20190101ALI20241219BHJP
   G06F 16/783 20190101ALI20241219BHJP
   G06F 40/216 20200101ALI20241219BHJP
【FI】
G06F16/30
G06F16/35
G06F16/783
G06F40/216
【請求項の数】 6
(21)【出願番号】P 2020204235
(22)【出願日】2020-12-09
(65)【公開番号】P2022091412
(43)【公開日】2022-06-21
【審査請求日】2023-11-02
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】三島 剛
(72)【発明者】
【氏名】小森 智康
(72)【発明者】
【氏名】佐藤 裕明
【審査官】松尾 真人
(56)【参考文献】
【文献】特開2012-038239(JP,A)
【文献】特開2012-216974(JP,A)
【文献】特開2008-022292(JP,A)
【文献】特開2010-011038(JP,A)
【文献】特開2018-180472(JP,A)
【文献】特開2002-125169(JP,A)
【文献】望月 源,日本語:数億語のコーパスを作って調べてみるとみえてくる頻出語、頻出表現,平成29年度東京外国語大学オープンアカデミー「コーパスから見えることば・文化・社会」,東京外国語大学語学研究所,2019年03月,pp.103-125,Internet<URL:https://www.tufs.ac.jp/common/fs/ilr/images/publications/201903_06_mochizuki.pdf>
【文献】安藤 慎太郎,テレビ録画とその字幕を利用した大規模日本語音声コーパスの構築,情報処理学会 研究報告 音声言語情報処理(SLP) 2020-SLP-134 [online],情報処理学会,2020年11月25日,Internet<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=208157&file_id=1&file_no=1>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/20-40/58
(57)【特許請求の範囲】
【請求項1】
デジタル放送に多重化されている字幕テキストからジャンル別のテキストを収集するジャンル別テキスト収集装置であって、
前記デジタル放送を受信し、復調する放送受信手段と、
前記放送受信手段で復調された信号から、前記字幕テキストと前記字幕テキストを提示する時間情報とを含む字幕情報を抽出する字幕情報抽出手段と、
前記復調された信号から、放送番組のEPG情報を抽出するEPG情報抽出手段と、
前記EPG情報から、前記放送番組の時間情報およびジャンルを特定する番組情報特定手段と、
前記字幕情報から、前記放送番組の時間情報で特定される時間区間の字幕テキストを抽出し、前記放送番組のジャンルと対応付けてジャンル別テキストとするテキスト抽出手段と、を備え
前記ジャンルは、上位の項目で分類した上位分類と前記上位分類を細分化した下位分類とで構成され、前記EPG情報には、前記放送番組ごとに前記ジャンルが1または複数設定され、
前記番組情報特定手段は、前記上位分類のみを前記ジャンルとして特定し、前記EPG情報に前記ジャンルが複数設定されている場合、前記放送番組に設定されている最も多い前記上位分類を前記ジャンルとして特定することを特徴とするジャンル別テキスト収集装置。
【請求項2】
前記番組情報特定手段は、前記放送番組に設定されている最も多い前記上位分類の数が同じである場合、前記EPG情報において最初に出現する前記上位分類を前記ジャンルとして特定することを特徴とする請求項に記載のジャンル別テキスト収集装置。
【請求項3】
前記テキスト抽出手段は、前記字幕テキストから、発話テキスト以外のメタ情報を削除することを特徴とする請求項1または請求項2に記載のジャンル別テキスト収集装置。
【請求項4】
前記番組情報特定手段は、前記EPG情報において前記放送番組が再放送であると判定した場合、当該放送番組を時間情報およびジャンルを特定する対象から除外することを特徴とする請求項1から請求項のいずれか一項に記載のジャンル別テキスト収集装置。
【請求項5】
前記番組情報特定手段は、前記EPG情報において前記放送番組が字幕放送であると判定した場合にのみ当該放送番組の時間情報およびジャンルを特定することを特徴とする請求項1から請求項のいずれか一項に記載のジャンル別テキスト収集装置。
【請求項6】
コンピュータを、請求項1から請求項のいずれか一項に記載のジャンル別テキスト収集装置として機能させるためのジャンル別テキスト収集プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ジャンル別にテキストデータを収集するジャンル別テキスト収集装置およびそのプログラムに関する。
【背景技術】
【0002】
音声認識における言語モデルの構築や自然言語処理の解析には、大量の自然言語文(以下、テキストコーパス)が必要となる。このテキストコーパスを得る手法として、Webページに掲載されているテキストデータを収集する手法がある。この手法は、インターネット上にテキストデータを含めた大量の情報が開示され、かつ、そのほとんどが自由に参照できる状態にあるため、テキストコーパスを得る目的でしばしば活用される。
【0003】
例えば、特許文献1には、事前に収集した音声認識対象のテキストコーパスから、単語セットを選定し、その単語セットを検索エンジンの検索クエリとすることで、インターネットから音声認識対象に関連するテキストデータを収集する手法が開示されている。
【0004】
また、他の手法として、特許文献2には、複数の自然言語文を含むテキストコーパスから、事前に準備した単語列テンプレートに合致した単語列を抽出し、変換規則を用いて、目的に沿った形式の単語列に変換することで、特定用途向けのテキストデータを収集する手法が開示されている。
【0005】
また、特許文献3には、放送番組の字幕を、言語モデルの学習データとして収集する手法が開示されている。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2012-83543号公報
【文献】特開2012-78647号公報
【文献】特開2019-8315号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1に開示されている手法は、単語セットを選定するための文字列の文書形式を人手で作成する必要がある。そのため、この手法は、ジャンル別にテキストデータを収集するために、ジャンルごとに個別に文書形式を作成する手間が生じる。また、この手法は、収集するテキストデータが文書形式や検索エンジンの精度に依存してしまうという問題がある。
【0008】
特許文献2に開示されている手法も、単語例テンプレートや変形規則を人手で作成する必要があり手間がかかるとともに、収集したテキストデータが単語例テンプレートや変形規則の特性に依存してしまうという問題がある。
【0009】
また、特許文献3に開示されている手法は、放送番組の字幕から大量にテキストデータを収集することができる。しかし、放送番組は、ニュース、情報、ドラマ、アニメ等、様々なジャンルがある。そのため、この手法は、人手を介して、放送番組をジャンル別に選定する必要があり、大量にジャンル別のテキストデータを収集することは困難であった。
【0010】
本発明は、このような問題に鑑みてなされたものであり、ジャンルを特定するための文書形式、テンプレート等への依存をなくし、ジャンル別のテキストデータを精度よく大量に収集することが可能なジャンル別テキスト収集装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0011】
前記課題を解決するため、本発明に係るジャンル別テキスト収集装置は、デジタル放送に多重化されている字幕テキストからジャンル別のテキストを収集するジャンル別テキスト収集装置であって、放送受信手段と、字幕情報抽出手段と、EPG情報抽出手段と、番組情報特定手段と、テキスト抽出手段と、を備える構成とした。
【0012】
かかる構成において、ジャンル別テキスト収集装置は、放送受信手段によって、デジタル放送を受信し、TS(トランスポートストリーム)信号に復調する。
そして、ジャンル別テキスト収集装置は、字幕情報抽出手段によって、放送受信手段で復調されたTS信号から、字幕テキストと字幕テキストを提示する時間情報とを含む字幕情報を抽出する。なお、字幕情報は、TS信号に多重化され、そのデータ形式は、ARIB(一般社団法人電波産業会)において規格化されている。そのため、字幕情報抽出手段は、TS信号のデータ形式を解析することで、多重化されている字幕情報を抽出することができる。
【0013】
また、ジャンル別テキスト収集装置は、EPG情報抽出手段によって、TS信号から、放送番組のEPG情報を抽出する。EPG情報は、電子番組表を生成するための情報であって、放送番組の時間情報、ジャンル等が設定されている。このEPG情報も字幕情報と同様、TS信号に多重化され、そのデータ形式は、ARIBにおいて規格化されている。そのため、EPG情報抽出手段は、TS信号のデータ形式を解析することで、多重化されているEPG情報を抽出することができる。
【0014】
そして、ジャンル別テキスト収集装置は、番組情報特定手段によって、EPG情報から、放送番組の時間情報およびジャンルを特定する。なお、ジャンルは、各放送局で設定される情報であるが、放送内容を特定する情報であるため、放送局間での差は生じにくい。そのため、EPG情報から抽出するジャンルは、抽出するテキストに対して、精度の高い情報となる。
なお、ジャンルは、上位の項目で分類した上位分類と上位分類を細分化した下位分類とで構成される。そこで、番組情報特定手段は、上位分類のみをジャンルとして特定する。また、EPG情報には、放送番組ごとにジャンルが1または複数設定されている。そこで、番組情報特定手段は、EPG情報にジャンルが複数設定されている場合、放送番組に設定されている最も多い上位分類をジャンルとして特定する。
【0015】
そして、ジャンル別テキスト収集装置は、テキスト抽出手段によって、字幕情報から、放送番組の時間情報で特定される時間区間の字幕テキストを抽出し、放送番組のジャンルと対応付けてジャンル別テキストとする。
【0016】
これによって、ジャンル別テキスト収集装置は、EPG情報に基づいて、ジャンル別に字幕のテキストを放送信号から抽出することができる。
なお、ジャンル別テキスト収集装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。
【発明の効果】
【0017】
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、EPG情報に設定されている放送番組のジャンルおよび時間情報に基づいて、ジャンル別に字幕のテキストを大量に収集することができる。
これによって、本発明は、音声認識、自然言語処理等で必要となるジャンルに分類された精度の高いテキストコーパスを、人手による手間を省いて取得することができる。
【図面の簡単な説明】
【0018】
図1】本発明の実施形態に係るジャンル別テキスト収集装置の構成を示すブロック構成図である。
図2】トランスポートストリーム(TS)信号の概略の構成を示すデータ構成図である。
図3】字幕情報抽出手段におけるTS信号から抽出する字幕情報の一例を示す図である。
図4】EPG情報抽出手段におけるTS信号から抽出するEPG情報の一例を示す図である。
図5】ジャンルの分類を説明するための説明図である。
図6】字幕テキスト抽出手段における字幕情報からジャンル別に字幕テキストを抽出する例を説明するための説明図である。
図7】整形手段における正規表現フィルタ処理の処理内容を説明するための説明図である。
図8】本発明の実施形態に係るジャンル別テキスト収集装置の全体動作を示すフローチャートである。
図9図8のジャンル特定の詳細動作を示すフローチャートである。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態について図面を参照して説明する。
<ジャンル別テキスト収集装置の構成>
図1を参照して、本発明の実施形態に係るジャンル別テキスト収集装置1の構成について説明する。
【0020】
ジャンル別テキスト収集装置1は、デジタル放送に多重化されている字幕テキストからジャンル別のテキストを収集するものである。
図1に示すように、ジャンル別テキスト収集装置1は、放送受信手段10と、放送情報抽出手段11と、記憶手段12と、番組情報特定手段13と、テキスト抽出手段14と、を備える。
【0021】
放送受信手段10は、デジタル放送の放送波を受信し、復調するものである。なお、放送波は、地上デジタル放送、衛星放送、ケーブル放送等、無線、有線を問わない。
放送受信手段10は、デジタル放送の放送波を受信し、復号することで、MPEG-2トランスポートストリーム信号(以下、TS信号という)の放送信号に変換するテレビチューナである。
【0022】
図2に示すように、TS信号は、映像・音声情報200、字幕情報201、EPG情報202、データ放送情報203等が多重化されている。なお、TS信号は、ARIB(一般社団法人電波産業会)において規格化されている信号であるため、ここでは詳細な説明は省略する。
放送受信手段10は、放送波から、指定されたチャンネルの放送信号を復調する。復調するチャンネル数は、1つに限定されるものではなく、放送受信手段10は、複数のチューナとして構成してもよい。
【0023】
なお、ジャンル別テキスト収集装置1は、後記する放送情報抽出手段11において、字幕情報およびEPG情報のみを利用する。そのため、放送受信手段10は、受信する放送形態がフルセグメント放送に限定されず、扱う情報量が少なく、CAS(Conditional Access System:限定受信システム)によるコピー制御等が不要で、安価に入手が可能なワンセグメント放送に対応するテレビチューナであっても構わない。
【0024】
放送受信手段10は、復調したTS信号を放送情報抽出手段11に出力する。なお、複数のチャンネルを受信する場合、放送受信手段10は、チャンネルごとにTS信号を放送情報抽出手段11に出力する。
【0025】
放送情報抽出手段11は、放送受信手段10で復調されたTS信号から、指定された時間区間の字幕情報およびEPG情報を抽出するものである。
指定される時間区間は、ユーザがテキストを収集したい時間区間であって、収集開始時刻(例えば、年月日時分秒で指定)と、収集終了時刻(例えば、年月日時分秒で指定)とで外部から指定される。または、この時間区間は、外部スイッチ等で、開始を指示されてから、終了を指示されるまでの区間であってもよい。または、この時間区間は、開始の指示と時間長を指定されることとしてもよい。
【0026】
この時間区間の長さは、1日、1週間、1か月、1年等、自由に設定することができる。なお、放送情報抽出手段11は、図示を省略した計時手段(タイマ)を備え、時間区間の計時を行う。
図1に示すように、放送情報抽出手段11は、字幕情報抽出手段110と、EPG情報抽出手段111と、を備える。
【0027】
字幕情報抽出手段110は、TS信号から、字幕テキストと字幕テキストを提示する時間情報とを含む字幕情報を抽出するものである。
字幕情報抽出手段110は、TS信号を解析し、指定された時間区間の字幕情報を抽出する。図3に、字幕情報抽出手段110が抽出する字幕情報の一例を示す。
【0028】
図3に示すように、字幕情報抽出手段110が抽出する字幕情報は、日付300、開始時刻301および字幕テキスト302である。
日付300は、対応する字幕テキスト302をテレビ画面上に提示する日付(年/月/日)である。
開始時刻301は、対応する字幕テキスト302をテレビ画面上に提示する時刻(時:分:秒)である。
字幕テキスト302は、対応する日付300および開始時刻301にテレビ画面上に提示する字幕の文字列である。
例えば、図3の例では、日付(2020/07/08)の開始時刻(06:00:12)には、「今や時代の先端をゆくメガロポリスに。」が、字幕として使用されることを表している。
【0029】
字幕情報抽出手段110は、抽出した字幕情報を記憶手段12に書き込み記憶する。なお、複数のチャンネルに対応したTS信号の場合、字幕情報抽出手段110は、それぞれのTS信号から字幕情報を抽出し、記憶手段12に記憶する。複数のチャンネルで字幕情報を抽出する場合、字幕情報抽出手段110は、チャンネルごとに記憶領域を分けて記憶手段12に記憶することとしてもよいし、チャンネルを区別することなく記憶することとしてもよい。
【0030】
EPG情報抽出手段111は、TS信号から、放送番組のEPG(Electronic Program Guide:電子番組表)情報を抽出するものである。
EPG情報抽出手段111は、TS信号を解析し、指定された時間区間のEPG情報を抽出する。図4に、EPG情報抽出手段111が抽出するEPG情報の一例を示す。
【0031】
図4に示すように、EPG情報抽出手段111が抽出するEPG情報は、日付400、開始時刻401、時間長402、ジャンル識別子403およびタイトル404である。
日付400は、対応するタイトル404の放送番組が放送される日付(年/月/日)である。
開始時刻401は、対応するタイトル404の放送番組が放送される時刻(時:分:秒)である。
時間長402は、対応するタイトル404の放送番組の番組時間長(時:分:秒)である。
【0032】
ジャンル識別子403は、対応するタイトル404の放送番組のジャンルを示す識別子である。ジャンルは、放送番組の内容を分野別に識別するもので、ニュース、スポーツ、ドラマ等である。ここでは、ジャンル識別子を上位の項目で分類した上位分類と、上位分類を細分化した下位分類とで構成されるものとする。例えば、上位分類が“スポーツ”の場合、下位分類は“野球”,“サッカー”等である。ここでは、ジャンル識別子403を16進数2桁で表し、上位桁を上位分類、下位桁を下位分類とする識別子とする。
なお、図4に示すように、1つの放送番組に対して複数のジャンル識別子が設定される場合がある。
【0033】
タイトル404は、放送番組の番組名である。なお、タイトル404は、放送番組が字幕放送である場合、予め定めた文字(ここでは[字])が付加されている。また、タイトル404は、放送番組が再放送である場合、予め定めた文字(ここでは[再])が付加されている。
例えば、日付(2020/07/08)の開始時刻(06:00:00)には、時間長30分(00:30:00)、ジャンル識別子が“0x25”,“0xa0”,“0x86”であるタイトル“2度目のタイ「バンコク編」[字]”が放送されることを示している。
【0034】
ここで、図5を参照して、ジャンル識別子について詳細に説明する。
ジャンル識別子には、ARIBが規定する標準規格(ARIB STD-B10)を用いることができる。
図5は、ARIB STD-B10 第2部 付録Hで規定しているジャンルの分類項目を示している。
【0035】
ジャンル大分類500は、ジャンルの上位分類を示し、ジャンル中分類501は、ジャンル大分類500をさらに分類した下位分類を示す。ここでは、ARIBの用語に合わせて、上位分類をジャンル大分類、下位分類をジャンル中分類と呼ぶ。
ジャンル大分類500は16進数2桁の上位桁の値、ジャンル中分類501は下位桁の値でそれぞれ予め定めた値が定義されている。
【0036】
例えば、上位桁の値であるジャンル大分類500の値“0x0”は“ニュース/報道”、“0x1”は“スポーツ”を示している。
また、ジャンル大分類500の値“0x2”の“情報/ワイドショー”の下位桁の値であるジャンル中分類501の値“0x0”は“芸能・ワイドショー”、“0x1”は“ファッション”を示している。
【0037】
ジャンル大分類500を上位桁(上位4ビット)、ジャンル中分類501を下位桁(下位4ビット)とする16進数2桁(8ビット)の値をジャンル識別子とする。
例えば、ジャンル識別子“0x21”は、“情報/ワイドショー”+“ファッション”のジャンルを示す。
図1に戻って、ジャンル別テキスト収集装置1の構成について説明を続ける。
【0038】
EPG情報抽出手段111は、抽出したEPG情報を記憶手段12に書き込み記憶する。なお、複数のチャンネルに対応したTS信号の場合、EPG情報抽出手段111は、それぞれのTS信号からEPG情報を抽出し、記憶手段12に記憶する。複数のチャンネルでEPG情報を抽出する場合、EPG情報抽出手段111は、チャンネルごとに記憶領域を分けて記憶手段12に記憶することとしてもよいし、チャンネルを区別することなく記憶することとしてもよい。
【0039】
なお、字幕情報抽出手段110およびEPG情報抽出手段111は、それぞれ、既存の手法で各情報を抽出することができる。例えば、プログラミング言語pythonのライブラリであるariblib(参考:https://pypi.org/project/ariblib/)を用いることができる。
【0040】
放送情報抽出手段11は、指定された時間区間の字幕情報およびEPG情報を抽出後、抽出を完了した旨(抽出完了通知)を番組情報特定手段13に通知する。なお、この通知は、ユーザが番組情報特定手段13に指示する場合、必須ではない。
【0041】
記憶手段12は、放送情報抽出手段11で抽出された字幕情報(図3参照)およびEPG情報(図4参照)を記憶するものである。
この記憶手段12は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。
【0042】
番組情報特定手段13は、EPG情報から、放送番組の時間情報およびジャンルを特定するものである。この番組情報特定手段13は、放送情報抽出手段11から抽出完了通知が通知された段階、あるいは、ユーザから指示された段階で動作する。
番組情報特定手段13は、記憶手段12に記憶されているEPG情報(図4参照)から、放送番組ごとにジャンルを特定するとともに、放送番組の時間情報(ここでは、日付、開始時刻、時間長)を特定する。
【0043】
なお、番組情報特定手段13は、予め設定された分類基準で、放送番組のジャンルを特定する。分類基準は、ジャンルをジャンル大分類(上位分類)で分類するか、ジャンル中分類(下位分類)で分類するか否かである。
【0044】
設定された分類基準がジャンル大分類(上位分類)である場合、番組情報特定手段13は、ジャンル識別子のジャンル大分類の値(上位桁)をジャンルの値とする。
また、設定された分類基準がジャンル中分類(下位分類)である場合、番組情報特定手段13は、ジャンル識別子そのものをジャンルの値とする。
以下、分類基準がジャンル大分類である場合と、ジャンル中分類である場合とに分けて具体的に説明する。
【0045】
(分類基準がジャンル大分類〔上位分類〕の場合)
分類基準がジャンル大分類(上位分類)である場合、番組情報特定手段13は、放送番組に設定されているジャンル識別子のジャンル中分類である下位桁(下位4ビット)を削除し、ジャンル大分類の上位桁(上位4ビット)を識別子とする。
この識別子が放送番組に1つであれば、番組情報特定手段13は、その識別子を放送番組のジャンルとする。
【0046】
一方、1つの放送番組にジャンル識別子が複数設定され、同じジャンル大分類の上位桁(上位4ビット)の識別子が複数存在する場合、番組情報特定手段13は、その識別子の出現頻度を累計し、最大頻度の識別子を放送番組のジャンルとする。なお、最大頻度の識別子が複数存在する場合、番組情報特定手段13は、EPG情報に設定されているジャンル識別子の順番で最初に出現する識別子を放送番組のジャンルとする。
これによって、放送番組にジャンル識別子が複数設定されている場合でも、この放送番組の主だったジャンルを特定することができる。
【0047】
ただし、最大頻度の識別子が複数存在する場合、番組情報特定手段13は、ジャンルを1つに特定せずに、複数の識別子のジャンルごとに、同じ放送番組の時間情報を対応付けることとしてもよい。
【0048】
(分類基準がジャンル中分類〔下位分類〕の場合)
分類基準がジャンル中分類(下位分類)である場合、番組情報特定手段13は、放送番組に設定されているジャンル識別子を放送番組のジャンルとする。
なお、1つの放送番組にジャンル識別子が複数設定されている場合、番組情報特定手段13は、EPG情報に設定されているジャンル識別子の順番で最初に出現するジャンル識別子を放送番組のジャンルとする。
【0049】
ただし、1つの放送番組にジャンル識別子が複数設定されている場合、番組情報特定手段13は、ジャンルを1つに特定せずに、複数のジャンルごとに、同じ放送番組の時間情報を対応付けることとしてもよい。
このように、番組情報特定手段13は、EPG情報から、放送番組に対応するジャンルを特定し、放送番組のジャンルと時間情報とを、テキスト抽出手段14に出力する。
【0050】
なお、番組情報特定手段13は、EPG情報において放送番組が再放送であると判定した場合、当該放送番組を時間情報およびジャンルを特定する対象から除外することとしてもよい。例えば、番組情報特定手段13は、EPG情報(図4)を参照し、タイトル404に再放送を示す予め定めた文字(ここでは[再])が設定されているか否かにより、放送番組が再放送か否かを判定することができる。
このように、再放送の放送番組を、テキスト抽出を行う対象から除外することで、同じジャンルでの二重のテキスト抽出を防止することができる。
【0051】
また、番組情報特定手段13は、EPG情報において放送番組が字幕放送であると判定した場合にのみ当該放送番組の時間情報およびジャンルを特定することとしてもよい。なお、字幕放送ではない放送番組で時間情報およびジャンルを特定しても、字幕情報が存在しないだけで、後段の処理には影響がない。
【0052】
テキスト抽出手段14は、字幕情報から、放送番組の時間情報で特定される時間区間の字幕テキストを抽出し、放送番組のジャンルと対応付けてジャンル別テキストとして出力するものである。
図1に示すように、テキスト抽出手段14は、字幕テキスト抽出手段140と、整形手段141と、を備える。
【0053】
字幕テキスト抽出手段140は、番組情報特定手段13で特定された放送番組のジャンルごとに、放送番組の時間情報に対応する字幕テキストを字幕情報から抽出するものである。
字幕テキスト抽出手段140は、番組情報特定手段13で特定された番組情報に基づいて、記憶手段12に記憶されている字幕情報から、放送番組のジャンルごとに、放送番組の時間情報で特定される時間区間の字幕テキストを抽出する。
【0054】
例えば、図6に示すような字幕情報が記憶手段12に記憶され、番組情報特定手段13から、ジャンルとして0x02(ジャンル大分類〔上位分類〕)と、時間情報として日付(2020/07/08),開始時刻(06:00:00),時間長(00:30:00)とが通知されたする。
この場合、字幕テキスト抽出手段140は、日付300が2020年7月8日で、開始時刻301が6時から30分間の字幕テキスト302を、ジャンル0x02(情報/ワイドショー)に対応する字幕テキストとして抽出する。他のジャンル0x08(ドキュメンタリ/教養)についても同様である、
【0055】
このように、記憶手段12に記憶される字幕情報には、時間情報(日付300,開始時刻301)に対応付けて字幕テキスト302が対応付けられているため、字幕テキスト抽出手段140は、番組情報特定手段13から通知されるジャンルおよび時間情報から、ジャンルに対応する字幕テキストを抽出することができる。
字幕テキスト抽出手段140は、抽出したジャンル別の字幕テキストを整形手段141に出力する。
【0056】
整形手段141は、字幕テキスト抽出手段140で抽出されたジャンル別の字幕テキストから、発話テキスト以外のテキスト(メタ情報)を削除することで、字幕テキストを整形したテキストに変換するものである。
【0057】
字幕に用いられるメタ情報は、話者表記、情景表記等、一定のパターンに集約されている。そのため、整形手段141は、予め定めた正規表現フィルタ処理を行うことで、字幕テキストを整形することができる。
【0058】
図7を参照して、整形手段141の正規表現フィルタ処理の一例について説明する。
図7(a)は、話者表記を削除する例である。例えば、“アナ≫”のように、“話者”+”≫”については、整形手段141は、文頭から”≫”の直前までのテキストを話者と判定し、文頭から”≫”を削除する。
図7(b)は、情景表記を削除する例である。例えば、(拍手と歓声)のように丸括弧に囲まれた情景表記文字列については、整形手段141は、丸括弧とともに情景表記文字列を削除する。
【0059】
図7(c)は、分断された文節を連結する例である。字幕の場合、場面によって一文の字幕が分断され、次文節に続く表記として、例えば、[⇒]が用いられる。この場合、整形手段141は、“[⇒]”を読点“、”に置換することで、文節を連結する。
図7(d)は、背景音表記を削除する例である。例えば、字幕では、背景音として、電話が鳴っている音を示す記号600、背景で誰かが話している音声を示す記号601等が用いられる。この場合、整形手段141は、背景音を示す記号600,601を削除する。
これによって、整形手段141は、字幕テキストを、字幕特有の表記をなくした発話内容のみのテキストに変換することができる。
図1に戻って、ジャンル別テキスト収集装置1の構成について説明を続ける。
【0060】
整形手段141は、ジャンル別に整形したテキストをジャンル別テキストとして出力する。なお、整形手段141の出力先は、直接接続された、あるいは、ネットワークを介して接続された記憶装置(不図示)等である。
【0061】
以上説明したように構成することで、ジャンル別テキスト収集装置1は、放送波を受信するだけで、EPG情報に基づいて、字幕のテキストから、ジャンル別テキストを収集することができる。
また、ジャンルは放送規格に基づいて定められているため、放送局ごとの差が生じにくく、ジャンル別テキスト収集装置1は、言語モデルや自然言語処理の学習に利用可能な良質なテキストコーパスを、ジャンルごとに大量に収集することができる。
【0062】
なお、ジャンル別テキスト収集装置1は、コンピュータを、前記した各手段として機能させるためのプログラム(ジャンル別テキスト収集プログラム)で動作させることができる。
【0063】
<ジャンル別テキスト収集装置の動作>
次に、図8図9を参照(構成については適宜図1参照)して、本発明の実施形態に係るジャンル別テキスト収集装置1の動作について説明する。
【0064】
(全体動作)
まず、図8を参照して、ジャンル別テキスト収集装置1の全体動作について説明する。
ステップS1において、放送受信手段10は、デジタル放送の放送波を受信し、TS信号に復調する。このとき、放送受信手段10は、指定されたチャンネルの放送信号を復調するが、そのチャンネル数は、1または複数である。
【0065】
ステップS2において、放送情報抽出手段11の字幕情報抽出手段110は、ステップS1で復調されたTS信号を解析し、指定された時間区間の間、TS信号から字幕情報を抽出する。ここでは、字幕情報抽出手段110は、図3に示すように、TS信号から、日付300、開始時刻301および字幕テキスト302を抽出し、記憶手段12に記憶する。
【0066】
ステップS3において、放送情報抽出手段11のEPG情報抽出手段111は、ステップS1で復調されたTS信号を解析し、指定された時間区間の間、TS信号からEPG情報を抽出する。ここでは、EPG情報抽出手段111は、図4に示すように、TS信号から日付400、開始時刻401、時間長402、ジャンル識別子403およびタイトル404を抽出し、記憶手段12に記憶する。
なお、ステップS2,S3は、この順に動作させる必要はなく、ステップS3,S2の順、あるいは、ステップS2,S3を並列に動作させてもよい。
【0067】
ステップS4において、放送情報抽出手段11は、指定された時間区間が完了したか否かを判定する。
ここで、まだ、指定された時間区間が完了していない場合(ステップS4でNo)、ジャンル別テキスト収集装置1は、ステップS2に戻って動作を継続する。
【0068】
一方、指定された時間区間が完了した場合(ステップS4でYes)、ステップS5において、番組情報特定手段13は、ステップS3で記憶手段12に記憶されたEPG情報から、放送番組ごとのEPG情報を読み出す。
【0069】
ステップS6において、番組情報特定手段13は、予め設定された分類基準で放送番組のジャンルを特定する。このステップS6のジャンル特定の詳細動作について、後記する(図9参照)。
【0070】
ステップS7において、テキスト抽出手段14の字幕テキスト抽出手段140は、ステップS5で読み出された放送番組ごとのEPG情報に含まれる時間情報(ここでは、日付、開始時刻、時間長)に対応する字幕テキストを、ステップS2で記憶手段12に記憶された字幕情報から抽出する。
【0071】
ステップS8において、テキスト抽出手段14の整形手段141は、ステップS7で抽出された字幕テキストを、予め定めた正規表現フィルタ処理を行うことで整形する。
ステップS9において、整形手段141は、整形したテキストをステップS6で特定されたジャンルとともにジャンル別テキストとして出力する。
【0072】
ステップS10において、番組情報特定手段13は、記憶手段12にまだ読み出されていない放送番組のEPG情報が存在するか否かを判定する。
ここで、まだ読み出されていない放送番組のEPG情報が存在する場合(ステップS10でYes)、ジャンル別テキスト収集装置1は、ステップS5に戻って動作を継続する。
一方、EPG情報をすべて読み出した場合(ステップS10でNo)、ジャンル別テキスト収集装置1は、動作を終了する。
【0073】
(ジャンル特定動作)
次に、図9を参照して、番組情報特定手段13が行うステップS6(図8)の動作についてさらに詳細に説明する。
【0074】
ステップS61において、番組情報特定手段13は、予め設定された分類基準により、ジャンルを、ジャンル大分類(上位分類)で分類するか、ジャンル中分類(下位分類)で分類するかを判定する。
ここで、ジャンル中分類(下位分類)で分類する場合(ステップS61でNo)、番組情報特定手段13は、ステップS63に動作を進める。
【0075】
一方、ジャンル大分類(上位分類)で分類する場合(ステップS61でYes)、ステップS62において、番組情報特定手段13は、ジャンル識別子の下位桁を削除する。
ステップS63において、番組情報特定手段13は、放送番組に設定されているジャンル識別子が1つか否かを判定する。
【0076】
ここで、ジャンル識別子が1つの場合(ステップS63でYes)、ステップS64において、番組情報特定手段13は、そのジャンル識別子(ジャンル大分類の場合、上位桁)を、放送番組のジャンルと特定する。
【0077】
一方、ジャンル識別子が複数の場合(ステップS63でNo)、ステップS65において、番組情報特定手段13は、複数のジャンル識別子(ジャンル大分類の場合、上位桁)の出現頻度を累計する。
ステップS66において、番組情報特定手段13は、ステップS65で累計した最大頻度のジャンル識別子(ジャンル大分類の場合、上位桁)が1つか否かを判定する。
ここで、最大頻度のジャンル識別子が1つの場合(ステップS66でYes)、ステップS67において、番組情報特定手段13は、最大頻度のジャンル識別子(ジャンル大分類の場合、上位桁)を、放送番組のジャンルと特定する。
【0078】
一方、最大頻度のジャンル識別子が複数の場合(ステップS66でNo)、ステップS68において、番組情報特定手段13は、放送番組に設定されているEPG情報で最初に出現するジャンル識別子(ジャンル大分類の場合、上位桁)を、放送番組のジャンルと特定する。
【0079】
ステップS64,S67,S68の後、番組情報特定手段13は、ステップS6の動作を終了し、ステップS7(図8)に移行する。
以上の動作により、ジャンル別テキスト収集装置1は、放送波を受信するだけで、EPG情報に基づいて、字幕のテキストから、ジャンル別テキストを収集することができる。
【符号の説明】
【0080】
1 ジャンル別テキスト収集装置
10 放送受信手段
11 放送情報抽出手段
110 字幕情報抽出手段
111 EPG情報抽出手段
12 記憶手段
13 番組情報特定手段
14 テキスト抽出手段
140 字幕テキスト抽出手段
141 整形手段
図1
図2
図3
図4
図5
図6
図7
図8
図9