特許7196656 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7196656クレジット区間特定装置、クレジット区間特定方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-12-19

(45)【発行日】2022-12-27

(54)【発明の名称】クレジット区間特定装置、クレジット区間特定方法及びプログラム

(51)【国際特許分類】

G06F 16/75 20190101AFI20221220BHJP

G06F 16/738 20190101ALI20221220BHJP

H04N 21/442 20110101ALI20221220BHJP

G10L 15/10 20060101ALI20221220BHJP

G10L 15/00 20130101ALI20221220BHJP

H04N 17/00 20060101ALI20221220BHJP

【ＦＩ】

G06F16/75

G06F16/738

H04N21/442

G10L15/10 200W

G10L15/10 200B

G10L15/00 200T

H04N17/00 N

【請求項の数】 5

(21)【出願番号】P 2019020322

(22)【出願日】2019-02-07

(65)【公開番号】P2020129165

(43)【公開日】2020-08-27

【審査請求日】2021-05-28

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】大石康智

(72)【発明者】

【氏名】川西隆仁

(72)【発明者】

【氏名】柏野邦夫

【審査官】木村大吾

(56)【参考文献】

【文献】国際公開第２００８／０５０７１８（ＷＯ，Ａ１）

【文献】特開２００８－１０８１６６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｌ１５／００

Ｇ０６Ｌ１５／１０

Ｈ０４Ｎ１７／００

Ｈ０４Ｎ２１／４４２

(57)【特許請求の範囲】

【請求項1】

第１の音声信号から、それぞれが前記第１の音声信号の一部であり、相互に時間方向にずれを有する複数の第１の部分音声信号を抽出する抽出部と、
前記各第１の部分音声信号にクレジットが含まれるか否かを、第２の音声信号から抽出される各第２の部分音声信号のうち予め設定された語句を含む前記第２の部分音声信号と、前記語句を含まない前記第２の部分音声信号とに基づいて音声信号とクレジットの有無との関係を学習した識別器を用いて判定することで、前記第１の音声信号におけるクレジットの区間を特定する特定部と、
を有することを特徴とするクレジット区間特定装置。

【請求項2】

前記第２の部分音声信号が前記語句を含むか否かは、当該第２の部分音声信号を対象とした音声認識に基づき判定される、
ことを特徴とする請求項１記載のクレジット区間特定装置。

【請求項3】

前記抽出部は、前記第１の音声信号に対応する第１の映像信号から、前記各第１の部分音声信号に対応する複数の第１の静止画を抽出し、
前記特定部は、前記第１の部分音声信号及び前記第１の静止画の各ペアにクレジットが含まれるか否かを、前記第２の音声信号に対応する第２の映像信号から抽出される、前記各第２の部分音声信号に対応する第２の静止画のうち、前記第２の部分音声信号に対応する前記第２の静止画と当該第２の部分音声信号とに基づいて音声信号及び静止画のペアとクレジットの有無との関係を学習した識別器を用いて判定することで、前記第１の音声信号及び前記第１の映像信号におけるクレジットの区間を特定する、
ことを特徴とする請求項１又は２記載のクレジット区間特定装置。

【請求項4】

第１の音声信号から、それぞれが前記第１の音声信号の一部であり、相互に時間方向にずれを有する複数の第１の部分音声信号を抽出する抽出手順と、
前記各第１の部分音声信号にクレジットが含まれるか否かを、第２の音声信号から抽出される各第２の部分音声信号のうち予め設定された語句を含む前記第２の部分音声信号と、前記語句を含まない前記第２の部分音声信号とに基づいて音声信号とクレジットの有無との関係を学習した識別器を用いて判定することで、前記第１の音声信号におけるクレジットの区間を特定する特定手順と、
をコンピュータが実行することを特徴とするクレジット区間特定方法。

【請求項5】

請求項１乃至３いずれか一項記載のクレジット区間特定装置としてコンピュータを機能させることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、クレジット区間特定装置、クレジット区間特定方法及びプログラムに関する。

【背景技術】

【0002】

従来、テレビ放送等について、いずれの企業がいずれの番組のスポンサーであるかを調査することに経済的な価値が認められている。

【0003】

このような調査は、テレビ放送等における提供クレジットの表示を目視で見つけ出し、当該提供クレジットから企業名を書き起こすことで行われている。なお、提供クレジットとは、放送番組のスポンサーのロゴの表示やナレーション（例えば、「この番組は、ＸＸＸとご覧のスポンサーの提供でお送りします」等）をいう。

【先行技術文献】

【非特許文献】

【0004】

【文献】［online］、インターネット＜ＵＲＬ：http://www.jppanet.or.jp/documents/video.html＞

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、提供クレジットが表示される区間は、放送時間の約１％程度に過ぎない。したがって、上記のような調査においては提供クレジットの区間を特定するためのテレビ放送等の視聴作業に多くの時間が費やされてしまう。

【0006】

なお、上記では、説明の便宜上、提供クレジットを例として記載したが、例えば、特定のコマーシャル等、提供クレジットだけでなく、他のクレジットの区間を特定したい場合にも同様の課題が生じる。

【0007】

本発明は、上記の点に鑑みてなされたものであって、クレジットの区間の特定を効率化することを目的とする。

【課題を解決するための手段】

【0008】

そこで上記課題を解決するため、クレジット区間特定装置は、第１の音声信号から、それぞれが前記第１の音声信号の一部であり、相互に時間方向にずれを有する複数の第１の部分音声信号を抽出する抽出部と、前記各第１の部分音声信号にクレジットが含まれるか否かを、第２の音声信号から抽出される各第２の部分音声信号のうち予め設定された語句を含む前記第２の部分音声信号と、前記語句を含まない前記第２の部分音声信号とに基づいて音声信号とクレジットの有無との関係を学習した識別器を用いて判定することで、前記第１の音声信号におけるクレジットの区間を特定する特定部と、を有する。

【発明の効果】

【0009】

クレジットの区間の特定を効率化することができる。

【図面の簡単な説明】

【0010】

【図1】第１の実施の形態における提供クレジット区間特定装置１０のハードウェア構成例を示す図である。

【図2】第１の実施の形態における提供クレジット区間特定装置１０の機能構成例を示す図である。

【図3】第１の実施の形態における学習処理の処理手順の一例を説明するためのフローチャートである。

【図4】第１の実施の形態における正例の音声セグメントの抽出例を示す図である。

【図5】第１の実施の形態における識別器のモデル例を示す図である。

【図6】第１の実施の形態における提供クレジットの検出処理の処理手順の一例を説明するためのフローチャートである。

【図7】第１の実施の形態における検出用音声信号からの音声セグメントの抽出例を示す図である。

【図8】第２の実施の形態における提供クレジット区間特定装置１０の機能構成例を示す図である。

【図9】第２の実施の形態における学習処理の処理手順の一例を説明するためのフローチャートである。

【図10】第２の実施の形態における正例の音声セグメント及び静止画のペアの抽出例を示す図である。

【図11】第２の実施の形態における識別器のモデル例を示す図である。

【図12】第２の実施の形態における提供クレジットの検出処理の処理手順の一例を説明するためのフローチャートである。

【図13】第２の実施の形態における検出用音声信号からの音声セグメントの抽出例を示す図である。

【図14】各実施形態の評価結果の一例を示す図である。

【発明を実施するための形態】

【0011】

以下、図面に基づいて本発明の実施の形態を説明する。図１は、第１の実施の形態における提供クレジット区間特定装置１０のハードウェア構成例を示す図である。図１の提供クレジット区間特定装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有するコンピュータである。

【0012】

提供クレジット区間特定装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0013】

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って提供クレジット区間特定装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

【0014】

図２は、第１の実施の形態における提供クレジット区間特定装置１０の機能構成例を示す図である。図２において、提供クレジット区間特定装置１０は、学習データ生成部１１、学習部１２、検出用データ生成部１３、提供クレジット区間推定部１４及び時刻情報出力部１５等を有する。これら各部は、提供クレジット区間特定装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。提供クレジット区間特定装置１０は、また、正解記憶部１２１、関連語句記憶部１２２及びパラメータ記憶部１２３等を利用する。これら各記憶部は、例えば、補助記憶装置１０２、又は提供クレジット区間特定装置１０にネットワークを介して接続可能な記憶装置等を用いて実現可能である。

【0015】

正解記憶部１２１には、或る期間に放送された学習用のＴＶ放送（以下、「学習用ＴＶ放送」という。）の音声信号（以下、「学習用音声信号」という。）について、提供クレジットの区間（以下、「提供クレジット区間」という。）を示す時刻データ（開始時刻、終了時刻）が記憶されている。なお、提供クレジット区間は、例えば、予めユーザによる目視等によって確認されてもよい。

【0016】

関連語句記憶部１２２には、提供クレジットの表示時のアナウンス（提供クレジット表示の際に流れるアナウンス）に含まれ、提供クレジット表示に関連する関連語句が記憶されている。関連語句の一例として、「ご覧の」、「スポンサー」、「提供」、「お送り（お送りします／お送りしました）」等の語句が挙げられる。また、企業名を示す語句等が関連語句とされてもよい。なお、関連語句は、例えば、予めユーザにより設定される。

【0017】

パラメータ記憶部１２３には、音声信号における提供クレジットの有無を識別する識別器のパラメータが記憶される。識別器は、学習用音声信号から抽出される複数の音声信号（後述の「音声セグメント」）と提供クレジット有無との関連付けを学習したモデルである。

【0018】

以下、提供クレジット区間特定装置１０が実行する処理手順について説明する。図３は、第１の実施の形態における学習処理の処理手順の一例を説明するためのフローチャートである。

【0019】

ステップＳ１０１において、学習データ生成部１１は、学習用音声信号から、正例の音声セグメント（学習用音声信号において提供クレジットを含むと推定される部分（部分音声信号））を抽出する。

【0020】

具体的には、学習データ生成部１１は、正解記憶部１２１に記憶されている時刻データに基づいて、学習用音声信号における提供クレジット区間を特定する。なお、提供クレジット区間は、複数有ってもよい。学習データ生成部１１は、学習用音声信号のうち、特定した各提供クレジット区間を対象として音声認識を実行し、提供クレジット区間ごとに音声認識結果（テキストデータ）を生成する。学習データ生成部１１は、各テキストデータについて、関連語句記憶部１２２に記憶されているいずれかの関連語句を含む部分を特定し、学習用音声信号において当該部分に対応する音声信号を正例の音声セグメントとして抽出する。例えば、関連語句を中心とした前後Ｎ秒間の部分が正例の音声セグメントとして抽出される。本実施の形態では、Ｎ＝３とする。但し、Ｎは、他の値であってもよい。

【0021】

図４は、第１の実施の形態における正例の音声セグメントの抽出例を示す図である。図４では、学習用音声信号のうち、「ご覧のスポンサーの提供でお送りしました」の部分が提供クレジット区間に対応し、このうち「ご覧」、「スポンサー」、「提供」、「送り」が関連語句である例が示されている。したがって、これらの関連語句を中心とした前後３秒間の音声信号が正例の音声セグメントとして抽出されている。

【0022】

続いて、学習データ生成部１１は、学習用音声信号における提供クレジット区間以外のランダムな部分から、負例の音声セグメントを抽出する（Ｓ１０２）。負例の音声セグメントの長さは正例の音声セグメントの長さ（６秒間）と同じである。また、負例の音声セグメントの個数は、正例の音声セグメントの個数と同数であるのが望ましい。

【0023】

続いて、学習部１２は、ステップＳ１０１において抽出された正例の音声セグメントと、ステップＳ１０２において抽出された負例の音声セグメントとを用いて、提供クレジット区間に関する識別器の学習を行う（Ｓ１０３）。

【0024】

具体的には、学習部１２は、正例又は負例の各音声セグメントを周波数分析し（例えば、窓長２５ｍｓ、窓シフト長１０ｍｓ）、４０個のメルフィルタバンク処理を施すことで、６００×４０のメルスペクトログラムを取得する。学習部１２は、音声セグメントごとに、当該音声セグメントに関して取得されたメルスペクトログラムを入力特徴量として、当該音声セグメントに提供クレジットが有るか無いか（当該音声セグメントに提供クレジットが含まれるか否か）を２クラス識別（検出）する識別器を学習する。すなわち、正例の音声セグメントについては、提供クレジットが有ることが学習され、負例の音声セグメントについては、提供クレジットが無いことが学習される。識別器としては、例えば、畳み込みニューラルネットワークが利用されてもよいし、ＳＶＭ（support vector machine）などの他の識別器が利用されてもよい。

【0025】

図５は、第１の実施の形態における識別器のモデル例を示す図である。図５には、畳み込みニューラルネットワークを利用した例が示されている。

【0026】

続いて、学習部１２は、学習された識別器のパラメータをパラメータ記憶部１２３に記憶する（Ｓ１０４）。

【0027】

図６は、第１の実施の形態における提供クレジットの検出処理の処理手順の一例を説明するためのフローチャートである。図６の処理手順は、図３の処理手順が実行済みであることが前提となる。

【0028】

ステップＳ２０１において、検出用データ生成部１３は、提供クレジットの検出用のＴＶ放送（以下、「検出用ＴＶ放送」という。）の音声信号（以下、「検出用音声信号」という。）から、窓長２Ｎ秒、窓シフト長１秒で音声セグメントを抽出する。本実施の形態においてＮ＝３であるため、１秒ずつずれた（相互に時間方向にずれを有する）６秒間の複数の音声セグメントが抽出される。

【0029】

図７は、第１の実施の形態における検出用音声信号からの音声セグメントの抽出例を示す図である。図７では、１秒ずつずれを有する６秒間の音声信号が音声セグメントとして抽出される例が示されている。なお、図７では、便宜上、検出用音声信号の途中までの音声セグメントの抽出例が示されているが、検出用音声信号の全部について、音声セグメントの抽出が行われる。

【0030】

続いて、提供クレジット区間推定部１４は、ステップＳ２０１において抽出された各音声セグメントを周波数分析し（例えば、窓長２５ｍｓ、窓シフト長１０ｍｓ）、４０個のメルフィルタバンク処理を施すことで、６００×４０のメルスペクトログラムを各音声セグメントの特徴量として取得する（Ｓ２０２）。

【0031】

続いて、提供クレジット区間推定部１４は、パラメータ記憶部１２３に記憶されているパラメータを用いて、図３の処理手順によって学習された識別器を復元（生成）する（Ｓ２０３）。

【0032】

続いて、提供クレジット区間推定部１４は、ステップＳ２０１において抽出された音声セグメントごとに、ステップＳ２０２において取得された特徴量を当該識別器に入力して、各音声セグメントにおける提供クレジットの有無（各音声セグメントに提供クレジットが含まれるか否か）を判定する（Ｓ２０４）。例えば、提供クレジット区間推定部１４は、識別器の出力値が所定の閾値以上である音声セグメントについては提供クレジット有り「１」と判定し、当該出力値が閾値よりも小さい音声セグメントについては提供クレジット無し「０」と判定する。提供クレジット区間推定部１４は、判定結果を音声セグメントの時系列順に配列することで、提供クレジットの有無を時系列的に示すバイナリ時系列信号を生成する。

【0033】

続いて、提供クレジット区間推定部１４は、当該バイナリ時系列信号において、提供クレジット表示ありと判定された音声セグメントが所定時間以上連続する区間を、提供クレジットが表示された提供クレジット表示区間として検出（特定）する（Ｓ２０５）。具体的には、提供クレジット区間推定部１４は、ノイズ除去を目的として、バイナリ時系列信号に対して中央値フィルタを適用する。提供クレジット区間推定部１４は、中央値フィルタ処理後の時系列信号において、提供クレジット表示有りと判定された音声セグメントが所定時間以上連続する区間（信号「１」が所定時間以上（例えば、音声セグメントの長さ（６秒）×Ｍ以上（Ｍ≧２））連続して並ぶ区間）を、提供クレジット表示区間として検出（特定）する。本実施の形態のように、音声セグメントが１秒間隔で（すなわち、１秒のずれを有するように）作成された場合、例えば、３００番目から３１０番目に信号「１」が連続して並んでいれば、提供クレジット区間推定部１４は、５分００秒から５分１０秒の区間を提供クレジット表示区間として検出（特定）する。

【0034】

続いて、時刻情報出力部１５は、検出され提供クレジット表示区間の時刻情報（開始時刻及び終了時刻）を出力する（Ｓ２０６）。

【0035】

なお、上記では、ＴＶ放送の音声信号を例として説明したが、例えば、ラジオ放送の音声信号における提供クレジットの区間の特定について第１の実施の形態が特定されてもよい。また、特定のコマーシャル（ＣＭ）等、提供クレジットだけでなく、他のクレジットの区間の特定について第１の実施の形態が適用されてもよい。この場合、特定のＣＭに含まれている語句が、関連語句として関連語句記憶部１２２に記憶されればよい。

【0036】

上述したように、第１の実施の形態によれば、クレジットの区間の特定を効率化することができる。

【0037】

次に、第２の実施の形態について説明する。第２の実施の形態では第１の実施の形態と異なる点について説明する。第２の実施の形態において特に言及されない点については、第１の実施の形態と同様でもよい。

【0038】

図８は、第２の実施の形態における提供クレジット区間特定装置１０の機能構成例を示す図である。図８において、図２と同一部分又は対応する部分には同一符号を付し、その説明は適宜省略する。

【0039】

正解記憶部１２１には、学習用ＴＶ放送の映像信号（すなわち、学習用音声信号に対応する（同期した）映像信号。以下、「学習用映像信号」という）及び音声信号（学習用音声信号）に対して、提供クレジット区間の時刻データ（開始時刻、終了時刻）が記憶されている。

【0040】

パラメータ記憶部１２３には、映像信号及び音声信号のペアについて、提供クレジットの有無を識別する識別器のパラメータが記憶される。

【0041】

図９は、第２の実施の形態における学習処理の処理手順の一例を説明するためのフローチャートである。

【0042】

ステップＳ１０１ａにおいて、学習データ生成部１１は、正例の音声セグメント（学習用音声信号において提供クレジットを含む部分）を学習用音声信号から抽出すると共に、当該音声セグメントにおいて関連語句の時刻に対応する静止画を学習用映像信号から抽出する。したがって、正例の音声セグメントと静止画のペアが抽出される。正例の音声セグメントの抽出方法は第１の実施の形態と同様でよい。正例の静止画としては、学習用映像信号において、正例の音声セグメントにおける関連語句の時刻のフレーム（静止画）が抽出されればよい。なお、１つの音声セグメントに対して複数のフレーム（静止画）が抽出されてもよい。

【0043】

図１０は、第２の実施の形態における正例の音声セグメント及び静止画のペアの抽出例を示す図である。図１０における学習用音声信号は、図４における学習用音声信号と同じである。したがって、図１０では、図４と同じ音声セグメントが抽出されている。但し、図１０では、各音声セグメントにおいて関連語句の出現する時刻における静止画が学習用映像信号から抽出されている。なお、図１０において、各音声セグメントと静止画との位置関係は、当該音声セグメントに対する当該静止画のタイミングとは無関係である。

【0044】

続いて、学習データ生成部１１は、学習用音声信号における提供クレジット区間以外の部分から負例の音声セグメントを抽出し、学習用映像信号において当該音声セグメントの中心時刻に対応する静止画を負例の静止画として抽出する（Ｓ１０２ａ）。したがって、負例の音声セグメントと静止画とのペアが抽出される。なお、負例の音声セグメントの抽出方法は、第１の実施の形態と同様でよい。

【0045】

続いて、学習部１２は、ステップＳ１０１ａにおいて抽出された正例の音声セグメント及び静止画のペアと、ステップＳ１０２ａにおいて抽出された負例の音声セグメント及び静止画のペアとを用いて、提供クレジットに関する識別器（これら各ペアと提供クレジットの有無との関連付け）の学習を行う（Ｓ１０３ａ）。

【0046】

具体的には、学習部１２は、正例又は負例の各音声セグメントを周波数分析し（例えば、窓長２５ｍｓ、窓シフト長１０ｍｓ）、４０個のメルフィルタバンク処理を施すことで、６００×４０のメルスペクトログラムを取得する。学習部１２は、音声セグメントごとに、当該音声セグメントに関して取得されたメルスペクトログラムと、当該音声セグメントに対応する静止画とのペアを入力特徴量として、当該ペアに提供クレジットが有るか無いか（当該ペアに提供クレジットが含まれているか否か）を２クラス識別（検出）する識別器を学習する。識別器としては、例えば、畳み込みニューラルネットワークが利用されてもよいし、ＳＶＭなどの他の識別器が利用されてもよい。

【0047】

図１１は、第２の実施の形態における識別器のモデル例を示す図である。図１１には、畳み込みニューラルネットワークを利用した例が示されている。

【0048】

続いて、学習部１２は、学習された識別器のパラメータをパラメータ記憶部１２３に記憶する（Ｓ１０４ａ）。

【0049】

図１２は、第２の実施の形態における提供クレジットの検出処理の処理手順の一例を説明するためのフローチャートである。図１２中、図６と同一ステップには同一ステップ番号を付し、その説明は適宜省略する。図１２の処理手順は、図９の処理手順が実行済みであることが前提となる。

【0050】

ステップＳ２０１ａにおいて、検出用データ生成部１３は、窓長２Ｎ秒、窓シフト長１秒で音声セグメントを検出用音声信号から抽出すると共に、各音声セグメントの中心時刻（３秒目）の静止画を、検出用ＴＶ放送の映像信号（すなわち、検出用音声信号に対応する（同期した）映像信号）から抽出する。

【0051】

図１３は、第２の実施の形態における検出用音声信号からの音声セグメント及び静止画の抽出例を示す図である。図１３では、１秒ずつずれを有する６秒間の音声信号が音声セグメントとして抽出され、各音声セグメントの中心時刻における静止画が検出用映像信号から抽出される例が示されている。

【0052】

続いて、第１の実施の形態と同様に、各音声セグメントの特徴量（６００×４０のメルスペクトログラム）が取得される（Ｓ２０２）。

【0053】

続いて、提供クレジット区間推定部１４は、パラメータ記憶部１２３に記憶されているパラメータを用いて、図９の処理手順によって学習された識別器を復元（生成）する（Ｓ２０３ａ）。

【0054】

続いて、提供クレジット区間推定部１４は、ステップＳ２０１ａにおいて抽出された音声セグメント及び静止画のペアごとに、当該音声セグメントからステップＳ２０２において取得された特徴量と当該静止画とのペアを当該識別器に入力して、各ペアにおける提供クレジットの有無を判定する（Ｓ２０４ａ）。なお、提供クレジットの有無の判定方法は、第１の実施の形態と同様でよい。その結果、提供クレジットの有無を時系列的に示すバイナリ時系列信号が生成される。

【0055】

以降（Ｓ２０５、Ｓ２０５）は、第１の実施の形態と同様でよい。

【0056】

図１４は、各実施形態の評価結果の一例を示す図である。図１４には、地上波５局の１週間分の放送について学習し、別の１週間における地上波５局の放送について提供クレジットの区間を特定した際の評価結果（再現率）が示されている。ここで、再現率とは、正解の区間（提供クレジットが実際に表示された区間）に対して、提供クレジット区間特定装置１０が、提供クレジットの区間であると判定した区間の割合をいう。例えば、放送の開始から１１秒目から２０秒目１０秒間が正解の区間である場合に、１２秒目から２０秒目の９秒間が提供クレジットの区間として特定された場合には、再現率は９÷１０＝０．９となる。

【0057】

また、図１４の横軸において「音声」は、音声信号のみを利用した場合、すなわち、第１の実施の形態に対応し、「画像＋音声」は、音声信号と映像信号を利用した場合、すなわち、第２の実施の形態に対応する。

【0058】

図１４によれば、「音声」及び「画像＋音声」のいずれについても高い再現率が得られている。また、「音声」の場合よりも「画像＋音声」の方が、高い再現率が得られていることが分かる。このことから、第２の実施の形態によれば、第１の実施の形態よりも高精度に提供クレジットの区間を特定できることが分かる。

【0059】

なお、上記各実施の形態は、インターネット等において配信される動画におけるクレジットの区間の特定に適用されてもよい。

【0060】

なお、上記各実施の形態において、提供クレジット区間特定装置１０は、クレジット区間特定装置の一例である。検出用データ生成部１３は、抽出部の一例である。提供クレジット区間推定部１４は、特定部の一例である。検出用音声信号は、第１の音声信号の一例である。検出用音声信号から抽出される音声セグメントは、第１の部分音声信号の一例である。学習用音声信号は、第２の音声信号の一例である。学習用音声信号から抽出される音声セグメントは、第２の部分音声信号の一例である。検出用映像信号は、第１の映像信号の一例である。検出用映像信号から抽出される静止画は、第１の静止画の一例である。学習用映像信号は、第２の映像信号の一例である。学習用映像信号から抽出される静止画は、第２の静止画の一例である。

【0061】

以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0062】

１０提供クレジット区間特定装置
１１学習データ生成部
１２学習部
１３検出用データ生成部
１４提供クレジット区間推定部
１５時刻情報出力部
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
１２１正解記憶部
１２２関連語句記憶部
１２３パラメータ記憶部
Ｂバス

【図1】