(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022131963
(43)【公開日】2022-09-07
(54)【発明の名称】要約生成装置及び要約生成方法
(51)【国際特許分類】
H04N 21/8549 20110101AFI20220831BHJP
H04N 21/442 20110101ALI20220831BHJP
H04N 21/466 20110101ALI20220831BHJP
G06F 16/783 20190101ALI20220831BHJP
【FI】
H04N21/8549
H04N21/442
H04N21/466
G06F16/783
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021031239
(22)【出願日】2021-02-26
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 公開の事実1:令和2(2020)年6月8日に、2020年度人工知能学会全国大会(第34回)論文のウェブサイト(https://drive.google.com/file/d/1GF6q7bimI8W7tTXw2DtJWb50gu1l_q1v/view?usp=sharing)に掲載 公開の事実2:令和2(2020)年9月1日に、電子情報通信学会メディアエクスペリエンス・バーチャル環境基礎(MVE研究会)論文集のウェブサイト(https://www.ieice.org/ken/user/index.php?cmd=login&back_url= https%3A%2F%2Fwww.ieice.org%2Fken%2Fpaper%2F20200908w1zT%2F)に掲載
(71)【出願人】
【識別番号】399030060
【氏名又は名称】学校法人 関西大学
(71)【出願人】
【識別番号】593006630
【氏名又は名称】学校法人立命館
(74)【代理人】
【識別番号】100111567
【弁理士】
【氏名又は名称】坂本 寛
(72)【発明者】
【氏名】山西 良典
(72)【発明者】
【氏名】西原 陽子
【テーマコード(参考)】
5B175
5C164
【Fターム(参考)】
5B175DA04
5B175FB01
5C164GA06
5C164MC03P
5C164UB41P
5C164UC01P
5C164YA21
(57)【要約】
【課題】中断位置に応じて理解されやすい要約を生成できる要約生成装置を提供する。
【解決手段】要約生成装置10は、対象コンテンツの要約を生成する要約生成装置であって、プロセッサ11を備え、プロセッサは、対象コンテンツの再生中断位置から対象コンテンツにおける第1の範囲を決定し(第1の決定処理111)、対象コンテンツにおける要約の構成文を抽出する範囲であって、第1の範囲とは少なくとも一部が異なる第2の範囲に含まれる文の指標値を、第1の範囲から算出し(算出処理113)、指標値に基づいて第2の範囲から要約の構成文を抽出する(抽出処理114)、ように構成されている。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象コンテンツの要約を生成する要約生成装置であって、
プロセッサを備え、
前記プロセッサは、
前記対象コンテンツの再生中断位置から前記対象コンテンツにおける第1の範囲を決定し、
前記再生中断位置から決定される、前記対象コンテンツにおける前記要約の構成文を抽出する範囲であって、前記第1の範囲とは少なくとも一部が異なる第2の範囲に含まれる文の指標値を、前記第1の範囲から算出し、
前記指標値に基づいて前記第2の範囲から前記要約の構成文を抽出する、ように構成されている
要約生成装置。
【請求項2】
前記指標値は、前記第1の範囲に含まれる語句に基づいて得られる値を含む
請求項1に記載の要約生成装置。
【請求項3】
前記第1の範囲は、前記再生中断位置より後の範囲であって、前記再生中断位置から決定される前記対象コンテンツの予想再生範囲である
請求項1又は2に記載の要約生成装置。
【請求項4】
前記第2の範囲は、前記要約が第1の要約か第2の要約かによって決定され、
前記第1の要約は、前記再生中断位置よりも後を含まない範囲を前記第2の範囲として生成される要約であり、
前記第2の要約は、前記再生中断位置よりも後を含む範囲を前記第2の範囲として生成される要約である
請求項1~3のいずれか一項に記載の要約生成装置。
【請求項5】
前記要約の構成文を抽出することは、前記指標値に基づいて、前記構成文に含まれる複数の文を、前記第2の範囲から逐次抽出することで、逐次抽出された前記文を有する部分集合を生成することを含み、
前記指標値は、前記第2の範囲に含まれる文と前記部分集合との類似度を含む
請求項1~4のいずれか一項に記載の要約生成装置。
【請求項6】
前記部分集合は、前記対象コンテンツに予め用意されている要約から抽出された文を含む
請求項5に記載の要約生成装置。
【請求項7】
前記プロセッサは、さらに、
前記対象コンテンツに基づいて参照用コンテンツを選択するよう構成されており、
前記第2の範囲から前記要約の構成文を抽出することは、
前記参照用コンテンツに対応付けられた抽出用データを参照して、前記第2の範囲から前記要約の前記構成文を抽出することを含む
請求項1~6のいずれか一項に記載の要約生成装置。
【請求項8】
対象コンテンツの要約を生成する要約生成方法であって、
前記対象コンテンツの再生中断位置から前記対象コンテンツにおける第1の範囲を決定し、
前記対象コンテンツにおける前記要約の構成文を抽出する範囲であって、前記第1の範囲とは少なくとも一部が異なる第2の範囲に含まれる文の指標値を、前記第1の範囲から算出し、
前記指標値に基づいて前記第2の範囲から前記要約の構成文を抽出する、ことを含む
要約生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、要約生成装置及び要約生成方法に関する。
【背景技術】
【0002】
ドラマや小説や漫画などのストーリー性があるコンテンツは、再生を中断した後に再開する際、以前の再生内容を忘れていることがある。その点、時系列に沿った複数のエピソードから構成され、エピソードの冒頭に前回エピソードまでのあらすじや、次回エピソードの予告などが再生されることがある。
【0003】
昨今、ドラマなどストーリー性があるコンテンツの再生がテレビなどの受動的な形態から、いわゆるサブスクリプションサービスなどの再生期間に対して課金され、オンラインなどによる主体的な形態に変化している。
【0004】
このような形態でコンテンツを再生する場合、エピソードの冒頭にのみ要約が提示される従来のスタイルでは、エピソード途中の中断位置から再生を再開する場合に要約が提示されない。そのため、再生を再開する際に適した要約とならない場合がある。
【0005】
この点、例えば、特開2007-336085号公報(以下、特許文献1)は、コンテンツの再生を中断した位置以降の予告を生成する方法を開示している。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【0007】
しかしながら、任意の中断位置から再生が再開される場合、中断位置によっては、単に、以前の再生範囲から抽出した文や、以降の範囲から抽出した文だけでは理解されやすい要約とならない場合もある。そのため、中断位置に応じて理解されやすい要約を生成できる要約生成装置及び要約生成方法であることが望まれる。
【0008】
ここで、要約生成装置は対象コンテンツの要約を生成する要約生成装置であって、プロセッサを備える。プロセッサは、対象コンテンツの中断位置から第1の範囲を決定し、再生中断位置から決定される、要約の構成文を抽出する範囲である第2の範囲に含まれる文の指標値を、第1の範囲から算出し、指標値に基づいて第2の範囲から要約の構成文を抽出する、ように構成されている。
【0009】
また、要約生成方法は対象コンテンツの要約を生成する方法であって、対象コンテンツの中断位置から第1の範囲を決定し、要約の構成文を抽出する範囲である第2の範囲に含まれる文の指標値を第1の範囲から算出し、指標値に基づいて第2の範囲から要約の構成文を抽出する、ことを含む。
【0010】
更なる詳細は、後述の実施形態として説明される。
【図面の簡単な説明】
【0011】
【
図1】
図1は、第1の実施の形態に係る要約生成装置の構成、及び、第1の実施の形態に係る要約生成方法によって実行される処理の一例を表した概略図である。
【
図2】
図2は、要約生成装置によって要約を生成する対象のコンテンツの構成を説明するための図である。
【
図3】
図3は、コンテンツの要約を生成する範囲を決定する方法を説明するための図である。
【
図4】
図4は、要約構成文の抽出処理を説明するための図である。
【
図5】
図5は、第1の実施の形態に係る要約生成方法の一例を表したフローチャートである。
【
図6】
図6は、第2の実施の形態に係る要約生成装置の構成、及び、第2の実施の形態に係る要約生成方法によって実行される処理の一例を表した概略図である。
【
図7】
図7は、第2の実施の形態に係る要約生成方法の一例を表したフローチャートである。
【
図8】
図8は、コンテンツに用意されている部分要約をゴールドスタンダードとして利用して対象範囲の要約を生成する方法の具体例を説明するための図である。
【
図9】
図9は、コンテンツに用意されている部分要約をゴールドスタンダードとして利用して対象範囲の要約を生成する方法の具体例を説明するための図である。
【
図10】
図10は、コンテンツに用意されている部分要約をゴールドスタンダードとして利用して対象範囲の要約を生成する方法の具体例を説明するための図である。
【
図11】
図11は、第3の実施の形態に係る要約生成装置の構成、及び、第3の実施の形態に係る要約生成方法によって実行される処理の一例を表した概略図である。
【
図12】
図12は、あるコンテンツについて生成された部分要約の構成文の、コンテンツにおける出現分布の一例を表した図である。
【発明を実施するための形態】
【0012】
<1.要約生成装置及び要約生成方法の概要>
【0013】
(1)ある実施の形態に従う要約生成装置は、対象コンテンツの要約を生成する要約生成装置であって、プロセッサを備え、プロセッサは、対象コンテンツの再生中断位置から対象コンテンツにおける第1の範囲を決定し、再生中断位置から決定される、対象コンテンツにおける要約の構成文を抽出する範囲であって、第1の範囲とは少なくとも一部が異なる第2の範囲に含まれる文の指標値を、第1の範囲から算出し、指標値に基づいて第2の範囲から要約の構成文を抽出する、ように構成されている。
【0014】
対象コンテンツは、ストーリー性を有するものであって、時系列に再生される。例えば、映画やドラマやアニメーションなどの動画、小説などの文学作品、講演や授業などのパフォーマンス、などが相当する。再生される要素は、テキスト、楽曲、画像などを含むが、ここでは、テキストに着目する。テキストは、セリフであっても、文章や名詞であってもよい。テキストには、同時に再生される楽曲や画像が付加されていてもよい。
【0015】
要約は、コンテンツのある範囲(以下、要約対象範囲)のストーリーを短く編集したものである。要約は、第1の要約か第2の要約かである。第1の要約はいわゆるあらすじであり、第2の要約はいわゆる予告である。第1の要約は、再生を開始する時点(以下、開始位置)より前の範囲を紹介する要約を指す。第2の要約は、開始位置より後の範囲を紹介する要約を指す。第2の要約には、開始位置より先の内容が含まれていてもよい。
【0016】
第1の範囲は、第2の範囲に含まれる文の指標値を算出するために用いられる範囲であって、対象コンテンツ内の範囲である。第1の範囲は、例えば、予想再生範囲である。予想再生範囲は、再生中断位置より後の範囲であって、再生中断位置から所定の範囲である。所定の範囲は、予め設定された範囲であってよい。所定の範囲は、ユーザの属性や、対象コンテンツの属性や、ユーザの再生傾向などから決定されてもよい。ユーザの再生傾向は、例えば、ユーザの再生行動などである。又は、一般的な再生量の平均値が用いられてもよい。
【0017】
再生中断位置は、再生が中断された位置である。一例として、再生中断位置は、再生の開始位置と一致する。その場合、中断位置は、要約生成する基準となる位置である。
【0018】
第2の範囲は、要約対象範囲であって、再生中断位置に基づいて決定される。第2の範囲は第1の範囲と異なっていてもよいし、一致していてもよいし、少なくとも一部が重複していてもよい。
【0019】
要約対象範囲は、例えば、ストーリーの最初から、再生中断位置を基準として決定される予想再生範囲の終了までの範囲である。予想再生範囲は、ユーザの視聴・読書行動、一般的視聴読書の平均量、又は、提供者の規定、などにより定められる。要約対象範囲を適切に設定することによって、より理解されやすい要約を生成することができる。
【0020】
指標値は、第2の範囲に含まれる文について、第1の範囲から算出される値であって、例えば、重要度を含む。第1の範囲から算出される指標値に基づいて第2の範囲から要約の構成文を抽出することで、生成される要約は、再生中断位置から決定される第1の範囲を考慮した文を含むものとなる。これにより、再生を再開する際に適した要約を生成することができるようになる。
【0021】
(2)好ましくは、指標値は、第1の範囲に含まれる語句に基づいて得られる値を含む。第1の範囲に含まれる語句に基づいて得られる値は、例えば、重要度である。これにより、生成される要約は、第1の範囲に含まれる語句に基づいて得られる値を考慮した文を含むものとなる。
【0022】
(3)好ましくは、第1の範囲は、再生中断位置より後の範囲であって、再生中断位置から決定される対象コンテンツの予想再生範囲である。これにより、中断後に再開される再生内容を考慮した要約を生成することができるようになる。
【0023】
(4)好ましくは、第2の範囲は、要約が第1の要約か第2の要約かによって決定され、第1の要約は、再生中断位置よりも後を含まない範囲を第2の範囲として生成される要約であり、第2の要約は、再生中断位置よりも後を含む範囲を第2の範囲として生成される要約である。第1の要約はあらすじであって、第2の要約は予告である。これにより、第1の要約には、再生中断位置までの範囲から抽出された文が含まれる。そのため、ユーザに再生中断位置までの内容が思い出させ、再生意欲を高める要約が生成されるようになる。また、第2の要約には、再生中断位置以降の文が含まれる。そのため、ユーザの再生意欲を高める要約が生成されるようになる。
【0024】
(5)好ましくは、要約の構成文を抽出することは、指標値に基づいて、構成文に含まれる複数の文を第2の範囲から逐次抽出することで、逐次抽出された文を有する部分集合を生成することを含み、指標値は、第2の範囲に含まれる文と部分集合との類似度を含む。このとき、指標値に基づいて抽出することが、類似度が高い文を抽出することである場合、構成文が内容の統一性ある文の集合となり、要約文の内容が明確になりやすい。また、指標値に基づいて抽出することが、類似度が低い文を抽出することである場合、構成文が多様性ある文の集合となり、バランスよい内容の要約になりやすい。
【0025】
(6)好ましくは、部分集合は、対象コンテンツに予め用意されている要約から抽出された文を含む。これにより、対象コンテンツに予め用意されている要約の構成文を利用して要約が生成されることになる。そのため、構成文のすべての文を指標値に基づいて抽出するより処理が容易になる。
【0026】
(7)好ましくは、プロセッサは、さらに、対象コンテンツに基づいて参照用コンテンツを選択するよう構成されており、第2の範囲から要約の構成文を抽出することは、参照用コンテンツに対応付けられた抽出用データを参照して、第2の範囲から要約の構成文を抽出することを含む。参照用コンテンツは対象コンテンツとは異なるコンテンツであって、要約が用意されているコンテンツである。抽出用データは、参照用コンテンツに用意されている要約の構成文の、参照用コンテンツでの位置の傾向を表したデータである。抽出用データを用いて、第2の範囲から要約の構成文を抽出することで、対象コンテンツの要約を容易に生成できるとともに、参照用コンテンツと同程度に理解されやすい要約を生成することができる。
【0027】
(8)ある実施の形態に従う要約生成方法は対象コンテンツの要約を生成する方法であって、(1)~(7)に記載の要約生成装置において対象コンテンツの要約を生成する方法である。これにより、(1)~(7)に記載の要約生成装置により生成される要約が得られる。
【0028】
<2.要約生成方法及び要約生成装置の例>
【0029】
[第1の実施の形態]
【0030】
本実施の形態に係る要約生成装置10は、コンテンツの要約を生成する。本実施の形態において扱うコンテンツは、ストーリー性を有するものであって、時系列に再生される。例えば、映画やドラマやアニメーションなどの動画、小説などの文学作品、講演や授業などのパフォーマンス、などが相当する。再生される要素は、テキスト、楽曲、画像などを含むが、ここでは、テキストに着目する。テキストは、セリフであっても、文章や名詞であってもよい。テキストには、同時に再生される楽曲や画像が付加されていてもよい。
【0031】
要約は、コンテンツのある範囲(以下、要約対象範囲)のストーリーを短く編集したものである。要約は、あらすじ(第1の要約)か予告(第2の要約)かである。あらすじは、再生を開始する時点(以下、開始位置)より前の範囲を紹介する要約を指す。予告は、開始位置より後の範囲を紹介する要約を指す。予告には、開始位置より先の内容が含まれていてもよい。
【0032】
図1を参照して、要約生成装置10は、プロセッサ11とメモリ12とを有するコンピュータで構成される。プロセッサ11は、例えば、CPUである。メモリ12は、フラッシュメモリ、EEPROM、ROM、RAMなどを含む。または、メモリ12は、一次記憶装置であってもよいし、二次記憶装置であってもよい。
【0033】
メモリ12は、プロセッサ11で実行される生成プログラム121を記憶している。プロセッサ11は、生成プログラム121を実行することによって、要約生成処理を実行する。要約生成処理は、要約を生成する対象のコンテンツ(以下、対象コンテンツ)の要約を生成するための処理を指す。
【0034】
メモリ12は、さらに、1又は複数のコンテンツ情報122を記憶している。コンテンツ情報122は、対象コンテンツに関する情報であって、要約生成基準位置に関する情報を含む。一例として、要約生成基準位置は中断位置とし、その場合、コンテンツ情報122は中断位置情報21を含む。以降の説明では、中断位置は開始位置と一致するものとする。
【0035】
コンテンツ情報122は、1又は複数の要約情報22を含んでもよい。要約情報22は、対象コンテンツに対して予め用意された要約であって、詳細は後述する。
【0036】
なお、コンテンツ情報122は、すべて、又は、少なくとも一部が、
図11のサーバ30等の要約生成装置10の外部装置に記憶されていてもよい。その場合、要約生成装置10は必要に応じて外部装置にアクセスし、コンテンツ情報122を読み出して用いる。又は、要約生成装置10がサーバ30を有していてもよい。
【0037】
図1は、実施の形態に係る要約生成装置10が、コンテンツの再生装置15も兼ねている例を示している。なお、要約生成装置10が再生装置15を兼ねることは必須ではない。要約生成装置10は、再生装置15に搭載されたり、再生装置15から直接又は間接的に必要な情報を取得したりするものであってもよいし、独立した装置であってもよい。
【0038】
図1の場合、要約生成装置10は、再生に関するユーザ操作などを受け付ける操作部17を有する。また、要約生成装置10は、コンテンツを再生する再生装置15を有する。
【0039】
プロセッサ11は、操作部17から入力される操作信号に従って、再生装置15で指定されたコンテンツを再生させる再生処理116を実行する。再生装置15は、プロセッサ11からの制御信号に従って指定されたコンテンツを再生する。
【0040】
再生処理116は、コンテンツの再生が中断された位置を示す中断位置情報21を、再生されたコンテンツのコンテンツ情報122として、メモリ12に格納する処理を含む。これにより、再生装置15でコンテンツの再生が中断されると、そのコンテンツについての中断位置情報21がメモリ12に記憶される。
【0041】
要約生成装置10は、ディスプレイ14を有していてもよい。ディスプレイ14は、生成された要約を出力する出力装置の一例である。出力装置は、ディスプレイ14に替えて、又は、加えて、スピーカなどの他の形態の出力を行うものであってもよい。要約生成装置10がコンテンツの再生装置も兼ねる場合、ディスプレイ14は、再生されたコンテンツの出力装置の一例でもある。
【0042】
要約生成装置10は、インターネットなどのネットワークを介して他の装置と通信可能な通信装置13を有していてもよい。一例として、通信装置13によって、生成された要約を他の装置に出力してもよい。その場合、通信装置13も、生成された要約を出力する出力装置の一例である。また、コンテンツ情報122が他の装置に記憶されおり、要約生成装置10は、通信装置13が他の装置にアクセスすることによって、コンテンツ情報122を他の装置から読み出してもよい。
【0043】
対象コンテンツは、一例として、
図2に示されたように、1又は複数のシーズン(期)で構成されていてもよい。各シーズンは1つのストーリーを構成し、1又は複数のシーズンで、全体として大きなストーリーを構成してもよい。
【0044】
各シーズンは、一例として、複数のエピソード(話)に区分されていてもよい。エピソードは、1つの完結したストーリーであって、対象コンテンツは、ストーリーごとに再生されることが想定されている。具体的には、シーズン1は、複数のエピソードEP11,EP12,…EP1nを含む。シーズン2は、複数のエピソードEP21,EP22,…EP2nを含む。各エピソードは、1又は複数の、音声又は文字である文Qを含む。
【0045】
対象コンテンツには、エピソードごとに、部分要約が用意されていてもよい。部分要約は、以前のエピソードを要約対象範囲とした要約を指す。具体的に、エピソードEP12はエピソードEP11を要約対象範囲とした部分要約AB12を含み、エピソードEP1nはエピソードEP11~EP1(n-1)を要約対象範囲とした部分要約AB1nを含む。
【0046】
なお、対象コンテンツに部分要約が用意されている例については第2の実施の形態以降で用い、第1の実施の形態においては、対象コンテンツに部分要約が用意されていない、又は、用意されている部分要約を用いないものとする。
【0047】
対象コンテンツが想定通りエピソード単位で再生される場合、部分要約は、エピソードの再生に先立って再生される。そのため、ユーザは、エピソードの再生に先立って前エピソードまでのあらすじを確認できる。
【0048】
詳細には、部分要約の構成文CS1,CS2,CS3…は、部分要約を構成する構成単位であって、要約対象範囲に含まれる文Qから抽出されたものである。具体的には、部分要約AB12の構成文CS1,CS2,CS3…は、エピソードEP11から抽出された1又は複数の文qの集合(以下、部分集合とも称する)である。
【0049】
図1を参照して、要約生成装置10のプロセッサ11が実行する要約生成処理は、第1の決定処理111を含む。第1の決定処理111は、対象コンテンツにおける予想再生範囲(第1の範囲)を中断位置から決定することを含む。予想再生範囲は、中断位置より後の範囲であって、中断位置から所定の範囲である。所定の範囲は、予め設定された範囲であってよい。他の例として、所定の範囲は、ユーザの属性や、対象コンテンツの属性や、ユーザの再生傾向などから決定されてもよい。ユーザの再生傾向は、例えば、ユーザの再生行動などである。又は、一般的な再生量の平均値が用いられてもよい。
【0050】
要約生成処理は、第2の決定処理112を含む。第2の決定処理112は、対象コンテンツについて要約対象範囲(第2の範囲)を決定することを含む。要約対象範囲は、予想再生範囲とは少なくとも一部が異なっていてもよい。少なくとも一部が異なることは、全く異なる範囲であってもよいし、一部範囲が重複していてもいい。
【0051】
要約対象範囲は、少なくとも中断位置に基づいて決定される。好ましくは、要約対象範囲は、中断位置と、生成する要約があらすじであるのか予告であるのかと、の両方に基づいて決定される。要約対象範囲の決定方法について、
図3を用いて説明する。
【0052】
図3において、矢印は対象コンテンツであるコンテンツCを表しており、矢印の方向、つまり、左から右に時系列に沿って再生されることを示している。
図3の矢印の始点である位置P0は、コンテンツCのあるシーズンの開始位置に相当する。つまり、
図3は、コンテンツCのあるシーズンの最初からの再生の様子を示している。
図3に表された部分要約ABn,ABn+1はコンテンツCに用意されていなくてもよい。第1の実施の形態においては、これら部分要約はコンテンツCに含まれないものとする。
【0053】
位置P1はエピソードnの開始位置であり、位置P4はエピソードnの終了位置である。位置P2は、コンテンツCのコンテンツ情報122に含まれる中断位置情報21に示される中断位置に相当する位置であって、次回の開始位置に相当する。コンテンツCの中断位置P2から位置P3までの範囲H3が、第1の決定処理111によって決定された予想再生範囲とする。
【0054】
第2の決定処理112において、プロセッサ11は、中断位置P2に基づいて要約対象範囲を決定する。この例では、プロセッサ11は、中断位置と、生成する要約があらすじであるのか予告であるのかと、の両方に基づいて要約対象範囲を決定する。
【0055】
生成する要約が予告の場合、一例として、プロセッサ11は、シーズンの開始位置P0から、中断位置P2から後の位置P3までの範囲H4を要約対象範囲とする。予告の他の例として、プロセッサ11は、予想再生範囲と一致した、位置P2から位置P3までの範囲H3を要約対象範囲としてもよい。すなわち、要約が予告の場合、要約対象範囲に中断位置P2より前の範囲を含んでもよいし、後の範囲のみであってもよい。これにより、生成される予告には、予想再生範囲から抽出された文も含まれる。そのため、ユーザは、予想再生範囲の内容が想像され、再生意欲が高められる。
【0056】
なお、位置P3が位置P4に近づきすぎると、つまり、エピソード結末までを要約対象範囲とすると、そのエピソードの結末が予告に含まれる可能性が高まる。すなわち、いわゆるネタバレになってしまう可能性がある。そのため、好ましくは、要約が予告の場合の要約対象範囲は、エピソードの終了の位置P4より前の位置までの範囲とする。
【0057】
生成する要約があらすじの場合、一例として、プロセッサ11は、シーズンの開始位置P0から中断位置P2までの範囲H5を要約対象範囲とする。これにより、生成されるあらすじには、中断位置P2までの範囲から抽出された文も含まれる。そのため、ユーザは、中断位置P2までの内容が思い出され、再生意欲が高められる。
【0058】
プロセッサ11の実行する要約生成処理は、抽出処理114を含む。抽出処理114は、要約対象範囲から要約の構成文として文を抽出することを含む。抽出処理114において、プロセッサ11は、選択処理111によって選択した参照用コンテンツの抽出用データ34を用いる。
【0059】
要約生成処理は、算出処理113を含む。算出処理113は、要約対象範囲に含まれる各文の指標値を、予想再生範囲から算出することを含む。指標値は、予想再生範囲に含まれる語句に基づいて得られる値を含む。予想再生範囲に含まれる語句に基づいて得られる値は、例えば、重要度である。具体的に、プロセッサ11は、予想再生範囲に含まれる語句を用いて、要約対象範囲に含まれる各文の指標値を算出する。
【0060】
ここでの重要度は、要約対象範囲に含まれる各文に含まれる語句について、予想再生範囲における重要性を表す値である。重要度の具体的な算出方法は限定されない。重要度は、一例として、語句の出現頻度であってもよい。例えば、要約対象範囲に含まれる各文に含まれる語句について、予想再生範囲における出現頻度が高いほど、その文の重要度が高いと算出されてもよい。
【0061】
又、出現頻度に替えて、あるいは加えて、語句の再生状況で重要度が算出されてもよい。語句の再生状況は、要約対象範囲に含まれる各文に含まれる語句について、予想再生範囲における再生での音声や背景音の盛り上がり(音量や音域など)、映像の明暗や色合いの変化、映像内の特定のオブジェクトなどを指す。
【0062】
他の例として、重要度の算出にいわゆるページランクの考え方が用いられてもよい。すなわち、要約対象範囲に含まれる各文に含まれる語句について、予想再生範囲においてより参照される語句ほど、その文の重要度が高いと算出する。算出には、予め記憶している関数が用いられてもよい。また、他の例として、重要度の算出に、予想再生範囲における他の語句への関連性の高さを用いてもよいし、それらを組み合わせて用いてもよい。
【0063】
好ましくは、指標値は、部分集合との類似度を含む。部分集合は、一例として、後述する抽出処理114によって構成文とする複数の文を要約対象範囲から逐次抽出する際に、逐次抽出された文の集合を指す。類似度は、一例として、部分集合に対する類似度である。この場合、指標値は、一例として、重要度と類似度とを用いて算出されるMMR(Maximal Marginal Relevance:周辺関連性最大化)スコアである。
【0064】
プロセッサ11は、要約対象範囲に含まれる各文qについての重要度I(q)と、部分集合kに対する類似度Sim(q,k)と、を用いて、下の式(1)で各文qのMMRスコアMMR(q)を算出する。なお、係数λは、0以上、1以下の値である。一例として、係数λは0.5とする。
MMR(q)=λI(q)-(1-λ)Sim(q,k) …(1)
【0065】
式(1)に示されるように、MMRスコアは、係数λが1に近い程、重要度を重視する値になり、係数λが0に近い程、類似度を重視する値になる。重要度を重視する場合、予想再生範囲における重要度の高い語句を含む文ほどMMRスコアが大きくなる。一方、類似度を重視する場合、部分集合に対する類似度が低い文ほどMMRスコアが大きくなる。
【0066】
後述する抽出処理114にてMMRスコアの高い文を抽出する場合、予想再生範囲における重要度の高い語句を含み、部分集合とは類似しない文が抽出されやすくなる。その結果、構成文が、予想再生範囲と関連し、かつ、多様性ある文の集合となり得る。
【0067】
要約生成処理は、抽出処理114を含む。抽出処理114は、要約対象範囲に含まれる各文の指標値に基づいて、要約対象範囲から文を要約の構成文として抽出することを含む。構成文として用いる文の数は予め規定されているものとする。その場合、一例として、プロセッサ11は、要約対象範囲に含まれる文のうちの指標値の高い文から順に、規定数までの文を構成文として抽出する。
【0068】
図4を用いて抽出処理114の具体例を説明する。
図4の例では、指標値としてMMRスコアを用いるものとする。要約対象範囲に文q1~文q4が含まれているとする。算出処理113では、予想再生範囲に含まれる語句に基づいて文q1~文q4それぞれの重要度が算出される。
【0069】
図4を参照して、構成文として1つの文も抽出されていない抽出処理114の開始時には、部分集合は0であるため、部分集合に対する文q1~文q4それぞれの類似度は0と算出される。従って、このとき文q1~文q4それぞれのMMRスコアは重要度と一致する。各MMRスコアの大小関係がq2>q3>q1>q4である場合、抽出処理114においては、MMRスコアの最も高い文q2が構成文として抽出される(ステップS1)。
【0070】
文q2が抽出されると、抽出後の要約対象範囲に含まれる文q1,q3,q4それぞれについて、部分集合との類似度が算出される。ここでの部分集合は、文q2となる。算出された類似度を用いて文q1,q3,q4それぞれのMMRスコアが算出される(ステップS2)。各MMRスコアの大小関係がq4>q3>q1である場合、抽出処理114においては、MMRスコアの最も高い文q4が構成文として抽出される(ステップS3)。
【0071】
抽出処理114においてプロセッサ11は上の処理を規定数の文が抽出されるまで繰り返す。これにより、予想再生範囲に関連した文が構成文として抽出されるとともに、要約全体の複数の文の関連も考慮して抽出される。MMRスコアを指標値として用いる場合、類似度については先に抽出された文からなる部分集合に対して低い文が抽出されやすいため、バランスのよい内容の要約が生成される可能性が高い。
【0072】
なお、MMRスコアは、重要度と類似度とを用いた指標値の一例である。他の例として、下の式(2)のように、類似度を重要度に加えて得られる指標値Ivを用いてもよい。
Iv(q)=λI(q)+(1-λ)Sim(q,k) …(2)
【0073】
後述する抽出処理114にて指標値Ivの高い文を抽出する場合、予想再生範囲における重要度の高い語句を含み、部分集合とは類似する文が抽出されやすくなる。その結果、構成文が、予想再生範囲と関連し、かつ、内容に統一性ある文の集合となり得る。
【0074】
要約生成処理は、生成処理115を含む。生成処理115は、抽出処理114で構成文として抽出された文を配置することを含む。ここでは、配置の方法は特定の方法に限定されない。一例として、要約対象範囲での出現順に応じて配置する方法であってよい。他の例として、算出された指標値の大きさによって配置する方法であってよい。
【0075】
なお、このとき、プロセッサ11は、複数の文の間の類似性や対比などを用いて、複数の文をグループ化し、グループ単位で配置するようにしてもよい。これにより、対話のような複数の文がグループ化されている場合に、それらを用いて自然な要約が生成されるようになる。
【0076】
図5を用いて、本実施の形態に係る要約生成方法について説明する。
図5のフローチャートに表された処理は、本実施の形態に係る要約生成方法に従った要約生成処理であって、プロセッサ11が生成プログラム121を実行することに実現される。
図5の処理は、再生装置15が対象コンテンツを再生する際や、要約の提示を指示するユーザ操作を受け付けたときなどに開始される。
【0077】
図5を参照して、プロセッサ11は、対象コンテンツのコンテンツ情報122から中断位置を読み取り、中断位置に基づいて予想再生範囲を決定する(ステップS101)。ステップS101では、一例として、プロセッサ11は、中断位置から予め設定された範囲を予想再生範囲とする。
【0078】
また、プロセッサ11は、中断位置と、生成する要約があらすじであるのか予告であるのかと、の両方に基づいて要約対象範囲を決定する(ステップS103)。ステップS101とステップS103とは処理順はいずれが先であってもよい。
【0079】
プロセッサ11は、ステップS101で決定した予想再生範囲に含まれる語句に基づいて、ステップS103で決定した要約対象範囲に含まれる各文の重要度を算出する(ステップS105)。また、プロセッサ11は、要約構成文としてすでに抽出した文を部分集合として、要約対象範囲に含まれる文のうちの要約構成文として抽出されていない各文について、部分集合に対する類似度を算出する(ステップS107)。
【0080】
プロセッサ11は、ステップS105で算出された重要度とステップS107で算出された類似度とを上記の式(1)に代入することで、要約対象範囲に含まれる文のうちの要約構成文として抽出されていない各文について、指標値の一例としてMMRスコアを算出する(ステップS109)。そして、プロセッサ11は、MMRスコアの最も高い文を構成文として抽出する(ステップS111)。
【0081】
構成文として抽出された文が規定数に達していない場合(ステップS113でNO)、プロセッサ11は、上記のステップS107~S111を繰り返す。これにより、構成文とする文が逐次抽出される。構成文として1文が抽出される度に部分集合となる文が増加し、それに伴って未抽出の文の類似度が算出し直される。そのため、構成文として1文が抽出される度にMMRスコアが変化する。
【0082】
構成文として抽出された文が規定数に達すると(ステップS113でYES)、プロセッサ11は、抽出された文を配置することで要約を生成する(ステップS115)。
【0083】
[第2の実施の形態]
【0084】
第2の実施の形態に係る要約生成装置10は、要約生成処理において、対象コンテンツに用意されている部分要約を利用して要約を生成する。第2の実施の形態において、プロセッサ11は、部分要約にシルバースタンダードサマリーアルゴリズム(SSSA)を応用する。SSSAの適用に関しては、山西良典、西原陽子、及び金田大地,”部分要約とSilver Standard Summary Algorithm の応用による小説の次回予告生成”,[online],令和2年6月9日,人工知能学会,[令和2年6月9日検索],インターネット<URL:https://doi.org/10.11517/pjsai.JSAI2020.0_3K5OS5b01>に開示されている。
【0085】
SSSAを適用した処理において、プロセッサ11は、対象コンテンツに用意されている部分要約をゴールドスタンダードとして利用する。この場合、
図6に表されたように、第2の実施の形態において、要約生成処理は、さらに、第3の決定処理117を含む。第3の決定処理117は、中断位置に基づいて、対象コンテンツに用意されている複数の部分要約のうちの、要約の生成に用いる部分要約をゴールドスタンダードと決定することを含む。
【0086】
第3の決定処理117において、プロセッサ11は、中断位置と、生成する要約があらすじであるか予告であるかと、に応じたゴールドスタンダード決定範囲内にある位置に対応付けられた部分要約を、ゴールドスタンダードと決定する。これにより、開始位置が中断位置に近いエピソードに対応した部分要約がゴールドスタンダードと決定される。具体例として、中断位置の属するエピソードの次のエピソードに対応した部分要約が挙げられる。生成する要約が予告である場合、一例として、ゴールドスタンダード決定範囲は中断位置から先の範囲とする。
【0087】
第3の決定処理117は、中断位置と、生成する要約があらすじであるか予告であるかと、に応じて、ゴールドスタンダードからシルバースタンダード要約を決定することを含む。シルバースタンダード要約は、ゴールドスタンダードの構成文のうちの、要約の生成に用いる文を指す。一例として、プロセッサ11は、ゴールドスタンダードの構成文のうちの、対象コンテンツにおける出現位置が中断位置からシルバースタンダード要約決定範囲内にある文をシルバースタンダード要約に決定する。生成する要約が予告である場合、一例として、シルバースタンダード要約決定範囲は中断位置から先の範囲とする。
【0088】
第2の実施の形態に係る制御方法を、
図7を用いて説明する。また、第2の実施の形態に係る制御方法の具体例について、
図3、
図8~
図10を用いて説明する。
図8~
図10は、「銀河鉄道の夜」(宮沢賢治「銀河鉄道の夜」青空文庫より引用)を対象コンテンツCとして要約を生成する例を表している。最左列の文番号は、冒頭からすべての文に順に割り当てた番号である。ここでは、要約対象範囲が中断位置より後の範囲を含む予告を生成する場合を説明する。
【0089】
図7のフローチャートは、第1の実施の形態に係る要約生成方法の具体例を表した
図5のフローチャートに加えて、ステップS201,S203の処理が異なっている。すなわち、第2の実施の形態に係る要約生成方法では、プロセッサ11は、対象コンテンツに用意されている部分要約のうちの、要約の生成に用いる部分要約をゴールドスタンダードとして決定し(ステップS201)、その構成文の中から、要約の生成に用いる文をシルバースタンダード要約として決定する(ステップS203)。
【0090】
図3の例の場合、コンテンツCの位置P1には、エピソードnに対応した部分要約ABnが配置されている。位置P4には、次のエピソードn+1に対応した部分要約ABn+1が配置されている。これら部分要約ABn,ABn+1は、コンテンツCのコンテンツ情報122に含まれる要約情報22に示されている。
【0091】
部分要約ABnの要約対象範囲は範囲H1である。すなわち、この例の部分要約ABnは、位置P0から位置P1までを要約対象範囲とした、エピソードnのあらすじである。部分要約ABn+1の要約対象範囲は範囲H2である。すなわち、この例の部分要約ABn+1は、位置P0から位置P4までを要約対象範囲とした、エピソードn+1のあらすじである。
【0092】
生成する要約が予告である場合、一例として、ゴールドスタンダード決定範囲は中断位置から先の範囲H6とする。この場合、第3の決定処理117において、中断位置P2から範囲H6にある位置に対応付けられた部分要約をゴールドスタンダードと決定するとすると、
図3の例の場合、プロセッサ11は、エピソードnが終了する位置P4に対応付けられた部分要約をゴールドスタンダードと決定する。
【0093】
生成する要約が予告である場合、一例として、シルバースタンダード要約決定範囲は中断位置から先の範囲H6とする。この場合、プロセッサ11は、ゴールドスタンダードの構成文のうちの、対象コンテンツにおける出現位置が中断位置から先の範囲H6内にある文をシルバースタンダード要約に決定する。なお、ここでは一例として、ゴールドスタンダードとする部分要約を決定する範囲と、ゴールドスタンダードの構成文のうちのシルバースタンダード要約に決定する範囲と、が同じ範囲H6としているが、これら範囲は異なってもよい。
【0094】
図8を参照して、「銀河鉄道の夜」(宮沢賢治「銀河鉄道の夜」青空文庫より引用)が文番号130まで読了されているとする。この場合、コンテンツ情報122に、文番号130が中断位置P2として記憶される。
【0095】
文番号130の属するエピソードnの終了が文番号191である場合、文番号192が次のエピソードn+1の開始位置である位置P4となる。この場合、例えば、
図8に示されたように、文番号192の直前に、エピソードn+1に対応した部分要約ABn+1が配置されている。
【0096】
部分要約ABn+1の要約対象範囲である範囲H2は文番号1から文番号191である。部分要約ABn+1に対応した位置P4は、中断位置P2から後の範囲H6に含まれている。そのため、プロセッサ11は第3の決定処理117において、部分要約ABn+1をゴールドスタンダートと決定する。
【0097】
図9は、部分要約ABn+1の構成文の具体例を表している。
図9を参照して、部分要約ABn+1は、一例として、範囲H2(文番号1~191)から抽出された、文番号5,21,31,55,120,163,170,191の8つの文を構成文としている。
【0098】
このとき、文番号5,21,31,55,120であるグループK1は中断位置P2以前から抽出され、文番号163,170,191であるグループK2は位置P2より後から抽出されている。すなわち、グループK2は中断位置P2から後の範囲H6に含まれた文のグループであり、グループK1は含まれていない文のグループである。そのため、プロセッサ11は第3の決定処理117において、グループK2をシルバースタンダード要約と決定する。
【0099】
第2の実施の形態に係る要約生成方法においても、以降は、第1の実施の形態に係る要約生成方法と同様にしてプロセッサ11は要約を生成する。すなわち、
図7を参照して、プロセッサ11は、ステップS203で決定されたシルバースタンダード要約(グループK2:文番号163,170,191)を部分集合とし、要約対象範囲に含まれる文のうちの要約構成文として抽出されていない各文について、部分集合に対する類似度を算出する(ステップS107)。
【0100】
なお、ここでの他の例として、プロセッサ11は、シルバースタンダード要約とされなかった1又は複数の文(例えばグループK1:文番号5,21,31,55,120)や、ゴールドスタンダードである部分要約の構成文すべて(例えば、グループK1+K2:文番号5,21,31,55,120,163,170,191)を部分集合として、要約対象範囲に含まれる文のうちの要約構成文として抽出されていない各文について、この部分集合に対する類似度を算出してもよい。
【0101】
プロセッサ11は、重要度と類似度とを用いて、要約対象範囲に含まれる文のうちの要約構成文として抽出されていない各文についてMMRスコアを算出する(ステップS109)。そして、プロセッサ11は、MMRスコアの最も高い文を構成文として抽出する(ステップS111)。
【0102】
構成文として抽出された文が規定数に達していない場合(ステップS113でNO)、プロセッサ11は、上記のステップS107~S111を繰り返す。
【0103】
一例として、要約対象範囲から、読み終わりの位置である文番号130より後の文番号131,132,133,134,138を抽出したとする。予告を生成する場合、
図10に表されたように、プロセッサ11は、シルバースタンダード要約とした文番号163,170,191(グループK2)に、新たに抽出された文番号131,132,133,134,138(グループK3)を加えて要約の構成文とする。
【0104】
なお、
図10において、予告としての要約の構成文には、中断位置P2より前の文と後の文との両方が含まれてもよい。言い換えると、予告としての要約の構成文は中断位置P2より後の文ばかりに限定されない。例えば、中断位置P2より後の文が1つでも構成文に含まれる場合には、その要約を予告として取り扱ってもよい。
【0105】
このようにゴールドスタンダードを利用することにより、構成文のすべての文を抽出するよりも抽出する文の数が少なくなり、処理が容易になる。すなわち、ステップS107~S113を繰り返す回数を低減できる。また、ゴールドスタンダードからシルバースタンダード要約を決定して部分集合として用いることで、より適した内容の要約を生成することができる。
【0106】
[第3の実施の形態]
【0107】
第3の実施の形態に係る要約生成装置10は、要約生成処理において、参照用コンテンツを用いる。参照用コンテンツは、対象コンテンツの要約の構成文を抽出する際に参照する、対象コンテンツ以外のコンテンツであって、要約が用意されているコンテンツを指す。
【0108】
一例として、参照用コンテンツとして用いられるコンテンツに関する情報を、要約生成装置10は、他の装置から取得するものとする。
図11は、第3の実施の形態に係る要約生成装置10を表した図である。
図11に表されたように、第3の実施の形態に係る要約生成装置10は、通信装置13によって他の装置としてサーバ30と通信可能とする。
【0109】
サーバ30は、複数のコンテンツそれぞれに対応付けられたコンテンツデータ31A,31B,・・・31を記憶している。コンテンツデータ31A,31B,・・・31は、要約生成装置10のプロセッサ11で実行される要約生成処理にて用いられる。コンテンツデータ31がコンテンツに対応付けられていることは、コンテンツデータ31がコンテンツそのものを含むものでなくてもよく、コンテンツを指す名称や識別子などの情報を含むことを指す。
【0110】
なお、サーバ30は、
図11の例では要約生成装置10の外部装置であって、通信装置13がネットワーク70を介してアクセスする装置であるものとしている。しかしながら、他の例として、サーバ30は要約生成装置10に搭載される記憶装置であってもよい。
【0111】
コンテンツデータ31は、それぞれ、属性32を含む。属性32は、コンテンツのストーリーの特性を表す情報であって、一例として、ストーリー全体の文を単語ベクトル化した値である。また、属性32は、ストーリー全体の文を単語ベクトル化した値に変えて、又は、加えて、ジャンル、脚本家、シーズン番号、再生対象者の特性、などのメタ情報であってもよい。
【0112】
参照用コンテンツとして利用可能なコンテンツデータ31は、部分要約33を含んでいる。
図11では、コンテンツデータ31が、複数の部分要約33A,33B,33C,・・・を含んでいる場合を示している。部分要約33A,33B,33C,・・・は、コンテンツのエピソードごとに用意されており、以前のエピソードを要約対象範囲とした要約を指す。
【0113】
コンテンツデータ31は、それぞれ、抽出用データ34を含む。抽出用データ34は、1又は複数の部分要約33A,33B,33C,・・・それぞれの構成文の、コンテンツでの位置の傾向を表したデータである。抽出用データ34について、具体的に、
図12を用いて説明する。
【0114】
図12は、実際のコンテンツA,Bにおける、部分要約の構成文とした文の、コンテンツA,Bにおける分布を表した図である。
図12の横軸はエピソードナンバーEPを指し、縦軸は構成文とした文の要約対象範囲からの抽出位置PPを指している。
図12では、エピソードごとに、対応する部分要約の構成文とした文それぞれの抽出位置PPをプロットしている。
【0115】
コンテンツA,Bは、3シーズン以上が放映されている世界的に人気が高い連続ドラマである。
図12は、コンテンツA,Bの全シーズンのうちの3シーズンまでを用い、3シーズン分のすべてのエピソードそれぞれの部分要約の構成文とした文の、要約対象範囲からの抽出位置PPを表している。部分要約は、各エピソードの開始から3分以内の文を用いている。
【0116】
構成文として抽出された文qの抽出位置PP(q)は、下の手順で得られる。すなわち、下の式(3)によって、文qを抽出したエピソードeに含まれる全文(個数Ne)中の出現位置を正規化した値EPe(q)を得る。
EPe(q)=Pe(q)/Ne …(3)
【0117】
次に、値EPe(q)を用いて、下の式(4)で定義される絶対位置AP(q)を得る。
AP(q)=EPe(q)+(e-1) …(4)
【0118】
そして、下の式(5)で定義される、過去相対位置である抽出位置PP(q)を得る。過去相対位置は、文qを構成要素とする部分要約の対象のエピソードナンバーe’を1とした場合の、文qの相対的な位置を表したものである。
PP(q)=AP(q)/(e’-1) …(5)
【0119】
一例として、エピソードナンバー3に対応した部分要約の構成文について絶対位置APが1.4591であった場合、式(5)より抽出位置PP=0.7295が得られる。抽出位置PPを過去相対位置で表すことによって、シーズンの開始から部分要約の位置までの範囲での相対的な位置関係を考慮することが可能となる。これにより、文の抽出位置について、コンテンツを超えた比較考察が可能になる。
【0120】
発明者らは、コンテンツA,Bを含め、それぞれ、3シーズン以上が放映されている世界的に人気が高い連続ドラマである複数のコンテンツについて、コンテンツA,Bと同様に、部分要約の構成文とした文の、コンテンツにおける分布を調べた。
【0121】
その結果、発明者らは、
図12に示されるように、複数コンテンツに共通して、シーズン1については、抽出位置PPが0.0と1.0とに集中している傾向に気付いた。抽出位置PPは、値が小さいほど(0に近いほど)、抽出位置が要約対象範囲の最初、つまり、シーズンの最初に近い。値が大きいほど(1に近いほど)、抽出位置が要約対象範囲の最後、つまり、対応するエピソードの直前のエピソードの最後に近いことを表している。そのため、複数コンテンツに共通して、シーズン1については、部分要約の構成文とした文が、要約対象範囲の序盤と終盤とに偏る傾向にあると考察された(考察1)。
【0122】
また、発明者らは、複数コンテンツに共通して、0.0と1.0との中間付近に、抽出位置PPのプロットが右下がりに連続して存在していることに気付いた。これは、各部分要約が、該当するシーズンの同一の位置の文を構成文として用いる傾向にあると考察された(考察2)。つまり、複数コンテンツに共通して、特定の重要度の高い文を各部分要約で用いる傾向にあると考察された。
【0123】
また、発明者らは、
図12に示されたように、コンテンツA,Bで、シーズン1~シーズン3それぞれの抽出位置PPの分布傾向が異なる場合があることに気付いた。これは、部分要約の構成文とする文の抽出傾向が、コンテンツごと、及び、又は、シーズンごとに異なる場合があると考察された(考察3)。
【0124】
発明者らは、考察1,2より、要約対象範囲を序盤、中盤、終盤の3つに区分して、部分要約ごとに、構成文とした全文の、各区分における抽出割合を抽出用データ34として用いるものとした。一例として、序盤s、中盤c、終盤eは、それぞれ、シーズンの開始から20%、60%、及び20%の範囲とする。
【0125】
図12において点線で示されている、コンテンツAのエピソード50に着目すると、エピソード50に対応する部分要約の構成文とされた文は、要約対象範囲の序盤sに50%、中盤cに30%、及び、終盤eに20%存在していることが読み取られる。すなわち、コンテンツAのエピソード50に対応した部分要約は、シーズン3の開始からエピソード49の最後までの範囲の序盤sから50%、中盤cから30%、及び、終盤eから20%の文が構成文として抽出されて生成されたものであることが読み取られる。
【0126】
抽出用データ34は、各エピソードに対応した部分要約の構成文とした文の、各区分からの抽出割合を表す。つまり、抽出用データ34は、コンテンツの部分要約の構成文とした文の、コンテンツにおける相対的な位置の傾向を表したデータと言える。
【0127】
抽出用データ34は、一例として、
図13に示されたような表形式で示すことができる。すなわち、
図13を参照して、コンテンツAの抽出用データ34は、コンテンツAのシーズン3までについて、すべてのエピソード1~69について、部分要約の構成文とした文の、要約対象範囲の序盤s、中盤c、終盤eそれぞれの抽出割合を示している。例えば、エピソード50については、序盤s、中盤c、終盤eそれぞれに50%、30%、20%が規定されている。
【0128】
また、発明者らは、考察3より、対象コンテンツに適したコンテンツを参照用コンテンツとして、要約生成処理に用いるものとした。そのため、
図11に示されたように、サーバ30には複数のコンテンツデータ31A,31B,・・・31が記憶され、それぞれに、抽出用データ34が含まれている。
【0129】
図11を参照して、第3の実施の形態において、要約生成処理は、さらに、選択処理118を含む。選択処理118は、参照用コンテンツを選択することを含む。参照用コンテンツは、一例として、サーバ30に記憶されているコンテンツデータ31A,31B,…31の中から選択される。
【0130】
選択処理118では、コンテンツデータ31に含まれる属性32に基づき、対象コンテンツとストーリーの特性が関連あるコンテンツデータ31が選択される。選択処理118では、一例として、ストーリー全体の文を単語ベクトル化した値が、対象コンテンツのその値から所定範囲にあるコンテンツが参照用コンテンツとして抽出される。また、他の例として、ジャンル、脚本家、シーズン番号、及び、再生対象者の特性、のうちのいずれか、あるいは、少なくとも1つについて、一致、もしくは近似したコンテンツが参照用コンテンツとして抽出されてもよい。
【0131】
第3の実施の形態では、抽出処理114において、プロセッサ11は、参照用コンテンツに対応付けられた抽出用データ34を用いて、対象コンテンツから要約の構成文とする文を抽出する。詳しくは、プロセッサ11は、参照用コンテンツに対応付けられた抽出用データ34に示される、該当するエピソードの要約についての、要約対象範囲の序盤s、中盤c、終盤eそれぞれの抽出割合を参照する。該当するエピソードは、位置P2近傍に開始位置があるエピソードであって、
図6の例の場合、例えばエピソードn+1である。また、この例の場合、エピソードnであってもよい。
【0132】
該当するエピソードn+1の要約ABn+1についての要約対象範囲の序盤s、中盤c、終盤eそれぞれの抽出割合が、
図13に示された50%、30%、20%であるものとする。この場合、プロセッサ11は、対象コンテンツについてこの割合を適用して、MMRスコアに基づいて文を抽出する。この例の場合、構成文とする文の数を10とした場合、要約対象範囲の序盤s、中盤c、終盤eそれぞれから5、3、及び、2の文をMMRスコアに基づいて抽出する。
【0133】
これにより、対象コンテンツについて、ストーリーの特性が関連ある参照用コンテンツに用意されている部分要約と同様の傾向で要約対象範囲から文が抽出して要約が生成される。そのため、要約を容易に生成することができる。
【0134】
第3の実施の形態に係る要約生成装置10は、要約生成処理において、さらに、配置用データを用いてもよい。配置用データは、要約が用意されているコンテンツにおいて、構成文とした文のコンテンツ中での位置の順序と、部分要約における配置順序との不一致の評価値である。配置用データ35は、例えば、ジャロ・ウィンクラー距離とする。
【0135】
この場合、
図11に表されたように、コンテンツデータ31は、それぞれ、配置用データ35を含んでいる。コンテンツAの配置用データ35は、例えば、コンテンツAのシーズン3までについて、すべてのエピソード1~69について、部分要約の構成文とした文の、要約対象範囲の序盤s、中盤c、終盤eそれぞれの抽出割合を示している。例えば、エピソード50については、序盤s、中盤c、終盤eそれぞれに50%、30%、20%が規定されている。
【0136】
発明者らは、部分要約の構成文とされた文の、部分要約における配置順序がコンテンツ中での位置の順序とは異なっている、つまり、不一致の場合があることに気付いた。そこで、コンテンツAを含む複数コンテンツについて、部分要約における配置順序と、コンテンツにおける出現順との不一致を表す指標値としてジャロ・ウィンクラー距離を算出し、検証した。ジャロ・ウィンクラー距離は、1に近い方が、部分要約における配置順序がコンテンツ中での位置の順序と近い、つまり、不一致が小さいことを示している。
【0137】
発明者らは、多数の作品を調査し、シーズンごとのジャロ・ウィンクラー距離の平均値を求めたところ、ほとんどの作品が0.65~0.85になることがわかった。これは、部分要約においてコンテンツとは異なる順序で文が配置されている場合が多いことを示している。
【0138】
部分要約における配置順序とコンテンツにおける出現順との不一致が大きいほど、要約によってコンテンツの内容が完全には理解されにくくなる。逆に、不一致が小さいほど、コンテンツの内容が理解されやすくなると考えられる。そのため、コンテンツの属性に応じて使い分けられていることが考えられる。
【0139】
すなわち、サスペンスなどの、要約によってコンテンツの内容が完全に理解されない方が好まれるコンテンツのカテゴリの場合、要約対象範囲などによって、適切な不一致とすることで、内容の理解と再生意欲とのバランスが図られると考察された。そこで、第3の実施の形態に係る要約生成装置10では、コンテンツごとに用意された配置用データ35を、対象コンテンツの要約の生成に用いてもよい。
【0140】
配置用データ35は、一例として、
図14に示されたような表形式で示すことができる。
図14の配置用データ35は、一例として、コンテンツA、B、Cのシーズン1、2、3および全シーズン、それぞれの配置用データ(ジャロ・ウィンクラー距離)を示している。ジャロ・ウィンクラー距離は、コンテンツ中での文の位置の順序と、部分要約における配置順序とが完全に一致する場合は1、全く類似しない場合は0となる。なお、
図14の配置用データ35の例では、配置用データの値がシーズンごとに示されているが、コンテンツごとに1つ示されるものでもよい。
【0141】
第3の実施の形態に係る要約生成装置10では、対象コンテンツに関連するコンテンツの配置用データを、構成文として抽出された文の配置に用いる。一例として、参照用コンテンツの配置用データを用いる。又は、第3の実施の形態に係る要約生成方法においては、抽出された文の要約における配置順序を、対象コンテンツにおける出現順と一致させるか、関連するコンテンツの配置用データを用いた配置とするか、を選択可能としてもよい。選択は、例えば、要約生成者によって行われるものであってもよい。
【0142】
具体的には、生成処理115において、プロセッサ11は、構成文として抽出された複数の文を、配置用データ35に基づいて配置する。一例として、プロセッサ11は、抽出された複数の文を、ジャロ・ウィンクラー距離が参照用コンテンツの配置用データ35に示されるジャロ・ウィンクラー距離と同一、又は、所定範囲内の値となるように並べ替える。これにより、要約から対象コンテンツの内容の把握されやすさが参照用コンテンツのそれと同じようにすることができる。
【0143】
<3.付記>
本発明は、上記実施形態に限定されるものではなく、様々な変形が可能である。例えば、第1の実施の形態~第3の実施の形態のうちの少なくとも2つが組み合わされてもよい。
【符号の説明】
【0144】
10 :要約生成装置
11 :プロセッサ
12 :メモリ
13 :通信装置
14 :ディスプレイ
15 :再生装置
17 :操作部
21 :中断位置情報
22 :要約情報
30 :サーバ
31 :コンテンツデータ
31A :コンテンツデータ
31B :コンテンツデータ
32 :属性
33 :部分要約
33B :部分要約
33C :部分要約
34 :抽出用データ
35 :配置用データ
70 :ネットワーク
111 :選択処理
112 :第2の決定処理
113 :算出処理
114 :抽出処理
115 :生成処理
116 :再生処理
117 :第3の決定処理
118 :選択処理
121 :生成プログラム
122 :コンテンツ情報
AB12 :部分要約
AB1n :部分要約
ABn :部分要約
C :コンテンツ
CS1 :構成文
CS2 :構成文
CS3 :構成文
EP10 :エピソード
EP11 :エピソード
EP12 :エピソード
EP1n :エピソード
EP21 :エピソード
EP22 :エピソード
H1 :範囲
H2 :範囲
H3 :範囲
H4 :範囲
H5 :範囲
H6 :範囲
K1 :グループ
K2 :グループ
K3 :グループ
P0 :開始位置
P2 :中断位置
PP :抽出位置
q :文
q1 :文
q2 :文
q3 :文
q4 :文