IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 学校法人成蹊学園の特許一覧

特開2023-71111対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム
<>
  • 特開-対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム 図1
  • 特開-対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム 図2
  • 特開-対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム 図3
  • 特開-対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム 図4
  • 特開-対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム 図5
  • 特開-対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム 図6
  • 特開-対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム 図7
  • 特開-対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム 図8
  • 特開-対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム 図9
  • 特開-対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム 図10
  • 特開-対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム 図11
  • 特開-対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023071111
(43)【公開日】2023-05-22
(54)【発明の名称】対話映像要約装置、対話映像要約方法、および、対話映像要約プログラム
(51)【国際特許分類】
   H04N 5/76 20060101AFI20230515BHJP
   H04N 5/93 20060101ALI20230515BHJP
【FI】
H04N5/76
H04N5/93
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021183726
(22)【出願日】2021-11-10
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】397038037
【氏名又は名称】学校法人成蹊学園
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】高山 千尋
(72)【発明者】
【氏名】石井 亮
(72)【発明者】
【氏名】永徳 真一郎
(72)【発明者】
【氏名】中野 有紀子
(72)【発明者】
【氏名】二瓶 芙巳雄
【テーマコード(参考)】
5C053
【Fターム(参考)】
5C053HA40
(57)【要約】
【課題】対話映像データにおける話者の発話に対する聴者の反応を把握しやすい要約を作成する。
【解決手段】要約装置10は、対話映像データを発話ごとに分割し、前記発話それぞれが対話における反応の発話か否かを推定する。また、要約装置10は、発話ごとの重要度を推定する。そして、要約装置10は、対話映像データの発話ごとの重要度の高さと、発話それぞれが所定値以上の重要度の発話に対する反応の発話か否かとに基づき、重要度が高い発話と所定値以上の重要度の発話の反応の発話とを選択し、選択した発話を用いて対話映像データの要約映像を生成する。
【選択図】図1
【特許請求の範囲】
【請求項1】
対話映像データの入力を受け付ける対話映像入力部と、
前記対話映像データを発話ごとに分割し、前記発話それぞれが対話における反応の発話か否かを推定する対話行為推定部と、
前記発話ごとの重要度を推定する重要度推定部と、
前記発話ごとの重要度の高さと、前記発話それぞれが所定値以上の重要度の発話に対する反応の発話か否かとに基づき、前記対話映像データに含まれる発話から、前記重要度が高い発話と所定値以上の重要度の発話の反応の発話とを選択し、前記選択した発話を用いて前記対話映像データの要約映像を生成する要約映像生成部と、
前記生成した要約映像を出力する要約映像出力部と
を備えることを特徴とする対話映像要約装置。
【請求項2】
前記発話の重要度の高さと、前記発話が所定値以上の重要度の発話に対する反応の発話か否かとに基づき、前記発話ごとに前記発話を前記要約映像の生成に用いるかの評価値である要約評価値を算出する要約評価値算出部をさらに備え、
前記要約映像生成部は、
算出された前記発話の要約評価値の大きさに基づき、前記要約映像の生成に用いる発話を選択する
ことを特徴とする請求項1に記載の対話映像要約装置。
【請求項3】
利用者から、前記要約映像の生成における対話の雰囲気理解の重視度の入力を受け付ける重視度入力部をさらに備え、
前記要約評価値算出部は、
入力された前記対話の雰囲気理解の重視度の大きさが大きいほど、前記発話が前記反応の発話である場合に前記要約評価値に加算する値を大きくする
ことを特徴とする請求項2に記載の対話映像要約装置。
【請求項4】
前記重視度入力部は、さらに、
利用者から、前記要約映像の生成における内容理解の重視度の入力を受け付け、
前記要約評価値算出部は、
入力された前記内容理解の重視度が高いほど、前記発話の重要度に応じて前記要約評価値に加算する値を大きくする
ことを特徴とする請求項3に記載の対話映像要約装置。
【請求項5】
前記重視度入力部は、さらに、
利用者から、前記要約映像の生成における再生時間の重視度の入力を受け付け、
前記要約映像生成部は、さらに、
入力された前記再生時間の重視度が高いほど、生成する前記要約映像の再生時間を所定の基準値よりも短くする
ことを特徴とする請求項3に記載の対話映像要約装置。
【請求項6】
前記対話映像データを序盤、中盤および終盤に分割する対話分割部をさらに備え、
前記要約評価値算出部は、
前記発話が前記序盤または終盤の発話である場合、前記発話の重要度に応じて前記要約評価値に加算する値をさらに大きくする
ことを特徴とする請求項4に記載の対話映像要約装置。
【請求項7】
対話映像要約装置により実行される対話映像要約方法であって、
対話映像データの入力を受け付ける工程と、
前記対話映像データを発話ごとに分割し、前記発話それぞれが対話における反応の発話か否かを推定する工程と、
前記発話ごとの重要度を推定する工程と、
前記発話ごとの重要度の高さと、前記発話それぞれが所定値以上の重要度の発話に対する反応の発話か否かとに基づき、前記対話映像データに含まれる発話から、前記重要度が高い発話と所定値以上の重要度の発話の反応の発話とを選択し、前記選択した発話を用いて前記対話映像データの要約映像を生成する工程と、
前記生成した要約映像を出力する工程と
を含むことを特徴とする対話映像要約方法。
【請求項8】
対話映像データの入力を受け付ける工程と、
前記対話映像データを発話ごとに分割し、前記発話それぞれが対話における反応の発話か否かを推定する工程と、
前記発話ごとの重要度を推定する工程と、
前記発話ごとの重要度の高さと、前記発話それぞれが所定値以上の重要度の発話に対する反応の発話か否かとに基づき、前記対話映像データに含まれる発話から、前記重要度が高い発話と所定値以上の重要度の発話の反応の発話とを選択し、前記選択した発話を用いて前記対話映像データの要約映像を生成する工程と、
前記生成した要約映像を出力する工程と
をコンピュータに実行させることを特徴とする対話映像要約プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話映像要約装置、対話映像要約方法、および、対話映像要約プログラムに関する。
【背景技術】
【0002】
従来、複数の話者の対話映像データにおいて、議論を構造化したり、要約したりする技術がある。この技術は、対話映像データの内容把握には有用である。ここで、ユーザが、対話映像データの要約を視聴する際、上記の内容把握のみならず、話者の発話に対する聴者の反応(例えば、賛成/判定の程度)を把握することも重要である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2012-044390号公報
【特許文献2】特許第5898117号公報
【特許文献3】特許第6689773号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、従来の対話映像データの要約技術は、内容把握には有用であるが、話者の発話に対する聴者の反応を分かりやすく伝えるものではないという問題があった。そこで、本発明は、前記した問題を解決し、対話映像データにおける話者の発話に対する聴者の反応を把握しやすい要約を作成することを課題とする。
【課題を解決するための手段】
【0005】
前記した課題を解決するため、対話映像データの入力を受け付ける対話映像入力部と、前記対話映像データを発話ごとに分割し、前記発話それぞれが対話における反応の発話か否かを推定する対話行為推定部と、前記発話ごとの重要度を推定する重要度推定部と、前記発話ごとの重要度の高さと、前記発話それぞれが所定値以上の重要度の発話に対する反応の発話か否かとに基づき、前記対話映像データに含まれる発話から、前記重要度が高い発話と所定値以上の重要度の発話の反応の発話とを選択し、前記選択した発話を用いて前記対話映像データの要約映像を生成する要約映像生成部と、前記生成した要約映像を出力する要約映像出力部とを備えことを特徴とする。
【発明の効果】
【0006】
本発明によれば、対話映像データにおける話者の発話に対する聴者の反応を把握しやすい要約を作成することができる。
【図面の簡単な説明】
【0007】
図1図1は、対話映像要約装置(要約装置)の構成例を示す図である。
図2図2は、図1の要約装置が、利用者から要約観点の入力を受け付ける際に表示するユーザインタフェースの例を示す図である。
図3図3は、図1の情報抽出部が実行する処理手順の例を示すフローチャートである。
図4図4は、図1の要約評価値算出部に入力される情報の例を示す図である。
図5図5は、図1の要約評価値算出部による要約評価値の算出手順の例を示すフローチャートである。
図6図6は、図1の要約評価値算出部からの出力結果の例を示す図である。
図7図7は、図1の要約装置が実行する処理手順の例を示すフローチャートである。
図8図8は、図1の要約映像生成部が対話映像データから要約映像に用いる発話を選択する処理の例を示すフローチャートである。
図9図9は、図1の要約映像生成部により選択された発話の例を示す図である。
図10図10は、図1の要約映像生成部が再生リストの発話時間の重なりを解消する処理の例を示すフローチャートである。
図11図11は、図1の要約映像生成部により連結された情報の例を示す図である。
図12図12は、対話映像要約プログラムを実行するコンピュータの構成例を示す図である。
【発明を実施するための形態】
【0008】
以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、本実施形態に限定されない。
【0009】
[概要]
本実施形態の対話映像要約装置(要約装置)の概要を説明する。要約装置は、入力された対話映像データを構成する各発話が、対話を進める発話であるか発話に対する反応かを推定する。また、要約装置は、各発話の重要度も推定する。そして、要約装置は、上記の推定の結果に基づき、対話映像データにおける重要な発話と、重要な発話に対する聴者の反応をまとめた要約映像を生成する。
【0010】
これにより要約装置は、対話映像データにおける話者の発話に対する聴者の反応を把握しやすい要約映像を生成することができる。
【0011】
[構成例]
まず、図1を用いて、要約装置10の構成例を説明する。要約装置10は、要約観点入力部11と、対話映像入力部12と、情報抽出部13と、対話分割部14と、対話行為推定部15と、重要度推定部16と、要約評価値算出部17と、要約映像生成部18と、要約映像出力部19とを備える。
【0012】
[要約観点入力部]
要約観点入力部11は、要約装置10の利用者から、対話映像データの要約において重視する観点の入力を受け付ける。ここでの観点は、例えば、要約映像の再生時間、内容把握(内容理解)、雰囲気把握(雰囲気理解)等である。また、要約観点入力部11は、例えば、上記の観点ごとの重視する程度の値の入力も受け付ける(例えば、0.0-1.0の値の範囲。値が高いほど重視される度合いが高い)。
【0013】
例えば、要約観点入力部11は、要約映像の再生時間の短さをどの程度重視するか、要約映像の内容の理解しやすさをどの程度重視するか、要約映像における対話の雰囲気をどの程度重視するかを示す情報の入力を受け付ける。
【0014】
ここで、観点ごとの重視する程度の値は、利用者がすべての観点に最大値を設定することはできないものとし、一つの観点の値を高く設定すると、他の観点の値が相対的に低くなるように設定されてもよい。例えば、要約観点入力部11は、図2に示すユーザインタフェースにより、利用者から観点ごとに重視する程度の値の入力を受け付けてもよい。
【0015】
[対話映像入力部]
対話映像入力部12は、音響情報と、話者を映した映像情報とを含む対話映像データの入力を受け付ける。
【0016】
[情報抽出部]
情報抽出部13は、入力された対話映像データから、発話ごとの、音響情報、映像情報、話者分離された発話内容の言語情報、話者および聴者の身振り、頭部運動等の非言語情報(例えば、身体関節の時間単位の3次元座標等)等を抽出する。
【0017】
例えば、情報抽出部13は、発話ごとの言語情報を抽出する際、図3に示すように対話映像データの発話区間の認識を行い(S1)、発話区間ごとの話者分離を行い(S2)、話者ごとの音声認識を行う(S3)。
【0018】
[対話分割部]
図2の説明に戻る。対話分割部14は、対話映像入力部12より、対話映像データ全体の時間(対話全体の時間)を取得し、その時間を、序盤、中盤、終盤に分割する。
【0019】
対話分割部14は、例えば、上記のように対話全体の時間を三等分し、それぞれを序盤、中盤、終盤としてもよいし、三等分した上で、序盤の「始めましょう」というキーワードや、終盤の「そろそろ~しますか」、「まとめると」等のキーワードの出現時間位置に基づいて、序盤、中盤、終盤に分割する位置を調整してもよい。
【0020】
対話分割部14は、情報抽出部13により抽出された情報(対話映像情報)に、上記の序盤、中盤、終盤の情報を付与して、対話行為推定部15と重要度推定部16へ出力する。
【0021】
[対話行為推定部]
対話行為推定部15は、対話映像データの発話単位の意図(対話行為)を推定する。対話行為は、例えば、発話が対話を進める発話か、対話における反応の発話か否か等であり、例えば、SWBD-DAMSL(文献1参照)、ISO 24617-2等の分類を利用することができる。例えば、対話行為推定部15は、対話分割部14から出力された、音響情報、映像情報、言語情報、非言語情報を使って対話行為を推定する。
【0022】
文献1:Daniel Jurafsky, Elizabeth Shriberg, and Debra Biasca. Switchboard SWBD-DAMSL Shallow-Discourse Function Annotation Coders Manual, Draft 13. Technical report, Institute of Cognitive Science Technical Report, 1997.
【0023】
また、対話行為推定部15は、対話行為の推定に、書き起こしのデータを対象に、以下の文献2に記載の学習・推定方法を利用することができる。
【0024】
文献2:特開2020-173608号公報
【0025】
ここでは、ISO-24617-2を例にとって説明する。ISO-24617-2では、発話ごとに、対話行為として、機能を分類する次元(Dimension)とそのサブカテゴリの機能(DSF:Dimension Specific Function)が設定される。対話の要約においては、特に対話を進めるTaskの次元と、発話に対する反応を示すAuto-Feedbackの次元を対象とする。
【0026】
対話行為推定部15は、例えば、文献2に記載の学習済みモデルを使って、発話ごとに次元と機能を推定し、その推定結果を対話行為情報として、要約評価値算出部17へ出力する。
【0027】
[重要度推定部]
重要度推定部16は、対話映像入力部12から出力された、音響情報、映像情報、言語情報、非言語情報を使って、発話単位の重要度を推定する。ここでの重要度の推定には、例えば、既存の学習済みモデル(例えば、以下の文献3、文献4参照)を利用することができる。そして、重要度推定部16は、推定した発話ごとの重要度(例えば、0.0~1.0の値)を出力する。
【0028】
文献3:二瓶他、言語・非言語情報に基づく議論要約のための重要発話推定、電子情報通信学会論文誌 A 2019, J102-A, pp.35-47.
【0029】
文献4:二瓶他、マルチモーダル情報に基づく重要発話推定モデルを搭載した議論要約ブラウザの有効性の検証、ヒューマンインタフェース学会論文誌 22(2). DOI: https://doi.org/10.11184/his.22.2_137
【0030】
[要約評価値算出部]
要約評価値算出部17は、対話映像データの発話のうち、要約映像に含めるべき発話を評価するための評価値(要約評価値)を算出する。
【0031】
例えば、要約評価値算出部17は、対話行為推定部15から出力された発話ごとの対話行為情報と、重要度推定部16から出力された映像情報、言語情報、重要度情報と、要約観点入力部11から出力された再生時間、内容理解、雰囲気理解それぞれの重視する程度の情報とに基づいて、要約評価値(例えば、0以上の数値)を算出する。
【0032】
要約評価値の算出処理の一例を図4および図5を用いて説明する。まず、要約評価値算出部17は、対話行為推定部15および重要度推定部16から出力された情報(図4参照)を用いて、以下の式(1)により、発話ごとの要約評価値を算出する(図5のS11)。
【0033】
要約評価値=重要度*(発話位置の重みづけ)…式(1)
【0034】
ただし、要約評価値算出部17は、発話位置(例えば、序盤、中盤、終盤)ごとに、掛け合わせる重みづけを変えるものとする(例えば、序盤:1.0、中盤:0.8、終盤:1.0)。また、式(1)における重要度は、重要度推定部16から出力された重要度情報に示される値を用いる。
【0035】
このようにすることで要約評価値算出部17は、発話の重要度と、対話映像データにおける当該発話の発話位置(例えば、対話の序盤、中盤、終盤)とを考慮して、当該発話の要約評価値を算出することができる。これにより、要約映像生成部18は、要約映像に、例えば、重要度が高く、かつ、対話の序盤(例えば、対話の発端)および終盤(例えば、対話の結論)に登場する発話を優先的に組み込むことができる。その結果、要約映像生成部18は、利用者にとって、対話の内容が理解しやすい要約映像を生成することができる。
【0036】
次に、要約評価値算出部17は、要約観点入力部11から出力された内容重視度(内容理解を重視する程度)の値を使って、以下の式(2)により、上記の要約評価値を更新する(図5のS12)。
【0037】
要約評価値=要約評価値*(内容重視度+1)…式(2)
【0038】
このようにすることで要約評価値算出部17は、対話映像データにおいて重要度の高い発話に、高い要約評価値を付与することができる。また、要約評価値算出部17が、利用者がどの程度、対話の内容の理解を重視するかにより、重要度の値の重み付けの調整を行うことができる。これにより、要約映像生成部18は、利用者が所望する程度に重要度の高い発話を優先的に組み込んだ要約映像を生成することができる。
【0039】
さらに、要約評価値算出部17は、重要な発話の直後の発話の要約評価値を高く設定する。例えば、要約評価値算出部17は、対話映像データのすべての発話のうち、重要度がある閾値以上の発話の終了時刻から所定時間以内に発話された発話(例えば、重要度が0.8以上の発話の終了時刻から3秒以内に開始された発話)に対して、以下の式(3)で要約評価値を更新する。なお、式(3)における「雰囲気重視度」は、要約観点入力部11から出力された雰囲気理解を重視する程度を示す値である。
【0040】
要約評価値=要約評価値*(雰囲気重視度/2+1)…式(3)
【0041】
例えば、要約評価値算出部17は、図5のS13に示すように、重要度が0.8以上の発話の3秒後までの間に開始する発話のうち、対話行為推定部15によりAuto-Feedbackに分類された発話の要約評価値を、上記の式(3)により更新する。
【0042】
このようにすることで要約評価値算出部17は、重要度の高い発話に対する反応の発話に対し高い要約評価値を付与することができる。これにより、要約映像生成部18は、重要度の高い発話の反応の発話を、より優先的に組み込んだ要約映像を生成することができる。その結果、利用者にとって、発話に対する聴者の反応が分かりやすい要約映像を生成することができる。
【0043】
なお、要約評価値算出部17は、重要度が所定の閾値以上の発話(高重要度の発話)以降に発話されるすべての発話に対して、減衰関数を用いた計算式で要約評価値を更新してもよい。例えば、要約評価値算出部17は、以下の式(4)により要約評価値を更新してもよい。
【0044】
要約評価値=要約評価値*(雰囲気重視度+1)*F(t)…式(4)
【0045】
ただし、式(4)におけるF(t)は減衰関数、tは高重要度の発話からの経過時間である。
【0046】
例えば、要約評価値算出部17は、重要度が0.8以上となる時刻tAのある発話Aについて、発話A以降の時刻tBの発話Bに対して、減衰指数関数e-(tB-tA)を掛ける。そして、要約評価値算出部17は、重要度が0.8以上となる発話の出現の度に、それ以降の発話に対して同様の処理を行う。
【0047】
このようにすることで要約評価値算出部17は、重要度の高い発話の直後の発話ほど高い要約評価値を付与することができる。つまり、要約評価値算出部17は、重要度の高い発話の反応である可能性の高い発話ほど高い要約評価値を付与することができる。これにより、要約映像生成部18は、要約映像に、重要度の高い発話の反応である可能性の高い発話を優先的に組み込むことができる。その結果、利用者にとって、発話に対する聴者の反応が分かりやすい要約映像を生成することができる。
【0048】
要約評価値算出部17により算出された要約評価値の例を図6に示す。なお、各観点を重視する度合いは、再生時間:0.2、内容把握:0.4、雰囲気把握:0.8である。
【0049】
例えば、図6に示すように、話者Dが開始時刻110.00~終了時刻120.00に発話した「焼き鳥はどうでしょうかね?」は、重要度が0.88であり、次元(Dimension)はTask、DSFはInform/Answerであり、発話時間は10.00である場合の要約評価値は1.23である。また、話者Bが開始時刻121.00~終了時刻122.50に発話した「焼き鳥」は、重要度が0.50であり、次元(Dimension)はTask、DSFはauto positive、発話時間は1.50である場合の要約評価値は0.98である。
【0050】
[要約映像生成部]
要約映像生成部18は、要約評価値算出部17により算出された要約評価値と、対話映像データの再生時間の情報と、要約観点入力部11で受け付けた再生時間の重視度の情報とに基づき、対話分割部14から出力された対話映像データの一部を間引いた映像(要約映像)を生成する。
【0051】
要約映像生成部18は、発話ごとの重要度の高さと、発話それぞれが所定値以上の重要度の発話に対する反応の発話か否かとに基づき、対話映像データに含まれる発話から、重要度が高い発話と所定値以上の重要度の発話の反応の発話とを選択する。そして、要約映像生成部18は、選択した発話を用いて対話映像データの要約映像を生成する。要約映像生成部18が行う要約映像の生成処理の詳細は後記する。
【0052】
[要約映像出力部]
要約映像出力部19は、要約映像生成部18により生成された要約映像を出力する。例えば、要約映像出力部19は、要約映像生成部18により生成された要約映像を外部装置に出力する。
【0053】
以上説明した要約装置10によれば、利用者が、対話映像データにおける話者の発話に対する聴者の反応を把握しやすい要約映像を生成することができる。また、要約装置10は、利用者が重視したい観点を反映した要約映像を生成することができる。
【0054】
[処理手順の例]
次に、図7を用いて、要約装置10が実行する処理手順の例を説明する。まず、要約装置10の要約観点入力部11は、利用者から、対話映像データの要約観点の入力を受け付ける(S21)。例えば、要約観点入力部11は、利用者から、各要約観点の重視度(例えば、再生時間の重視度、内容理解の重視度、雰囲気理解の重視度)の入力を受け付ける。
【0055】
また、対話映像入力部12は、要約対象の対話映像データの入力を受け付ける(S22)。そして、情報抽出部13は、S22で入力された対話映像データから、発話ごとの音響情報、映像情報、話者分離された発話内容の言語情報、話者および聴者の身振り、頭部運動等の非言語情報等を抽出する(S23:情報の抽出)。
【0056】
S23の後、対話分割部14は、対話映像データの分割を行う(S24)。例えば、対話分割部14は、対話映像入力部12より、対話映像データ全体の時間を取得し、その時間を、序盤、中盤、終盤に分割する。そして、対話分割部14は、S23で情報抽出部13により抽出された情報(対話映像情報)に、上記の序盤、中盤、終盤の情報を付与して出力する。
【0057】
S24の後、対話行為推定部15は、情報抽出部13により出力された、発話ごとの対話映像情報(例えば、音響情報、映像情報、言語情報、非言語情報)を用いて、発話単位の対話行為を推定する(S25)。例えば、対話行為推定部15は、対話分割部14から出力された発話ごとの対話映像情報を用いて、当該発話が、対話を進める発話か、対話における反応の発話か否かを推定する。
【0058】
また、S24の後、重要度推定部16は、対話映像入力部12から出力された、音響情報、映像情報、言語情報、非言語情報を使って、発話単位の重要度を推定する(S26)。そして、重要度推定部16は、映像情報、言語情報、推定した重要度を示す重要度情報を出力する。
【0059】
要約評価値算出部17は、S25で対話行為推定部15から出力された発話ごとの対話行為情報と、S26で重要度推定部16から出力された映像情報、言語情報、重要度情報と、S21で要約観点入力部11から出力された要約観点(特に、内容理解の重視度、雰囲気理解の重視度)とに基づいて、発話ごとの要約評価値を算出する(S27)。
【0060】
S27の後、要約映像生成部18は、S21で入力された要約観点(特に、再生時間の重視度)およびS27で算出された要約評価値を用いて要約映像を生成する(S28)。まず、要約映像生成部18は、要約映像の再生時間の重視度に応じて、要約映像の再生時間を短く設定する。そして、要約映像生成部18は、要約映像の再生時間内で、要約評価値が高い発話を優先的に選択し、その選択した発話を用いて要約映像を生成する。その後、要約映像出力部19は、S28で生成した要約映像を出力する(S29)。
【0061】
要約装置10が上記の処理を実行することで、利用者が、対話データにおける話者の発話に対する聴者の反応を把握しやすい要約映像を生成することができる。また、要約装置10は、利用者が重視したい観点を反映した要約映像を生成することができる。
【0062】
[要約映像の生成処理の詳細]
次に、図7のS28における要約映像の生成処理を詳細に説明する。まず、図8を用いて要約映像生成部18が対話映像データから要約映像に用いる発話を選択する処理を説明する。
【0063】
まず、要約映像生成部18は、出力する要約映像長(要約映像の再生時間)を定める(S31)。
【0064】
例えば、要約映像生成部18は、対話分割部14から対話全体の時間(例えば、20分)を取得する。そして、要約映像生成部18は、要約観点入力部11で受け付けた再生時間の重視度(例えば、0.2)を使って、要約映像の長さの基準値(例えば、対話映像データの再生時間の50%)からどの程度短くあるいは長く要約するべきかを設定する。例えば、要約映像生成部18は、以下の式(5)により要約映像長を算出する。
【0065】
要約映像長=対話全体の時間*基準値*(1-再生時間の重視度/2)…式(5)
【0066】
次に、要約映像生成部18は、出力する要約映像に残す区間を選択する。区間の選択においては、各区間の再生時間を足し合わせた合計再生時間が上記の要約映像長に収まり、かつ、要約映像長内の要約評価値の合計が最大になるようにするナップザック問題として取り扱うことができる。選択の方法は、例えば、合計再生時間が所定の時間に収まるように要約評価値の高い順に区間を選択していく、貪欲法等があげられる。
【0067】
まず、要約映像生成部18は、空のリスト(再生リスト)を作成する(S32)。次に、要約映像生成部18は、要約評価値算出部17の出力(出力リスト)について、空か否かを判定する(S33)。出力リストが空である場合(S33でYes)、処理を終了する。
【0068】
一方、出力リストが空でない場合(S33でNo)、要約映像生成部18は、出力リストから要約評価値が最も高い発話を選択する(S34)。なお、ここで選択した発話を選択発話と呼ぶ。
【0069】
S34の後、要約映像生成部18は、選択発話の時間と再生リストにあるすべての発話の時間の合計を足し合わせた時間が、S31で算出した要約映像長よりも短いか否かを判定する(S35:選択発話の時間+再生リストの全再生時間<要約映像長?)。
【0070】
ここで、選択発話の時間と再生リストにあるすべての発話の時間の合計を足し合わせた時間が、要約映像長よりも短い場合(S35でYes)、処理を終了する。
【0071】
一方、選択発話の時間と再生リストにあるすべての発話の時間の合計を足し合わせた時間が、要約映像長よりも長い場合(S35でNo)、要約映像生成部18は、再生リストに選択発話を加え(S36)、出力リストから選択発話を取り除く(S37)。そして、S33へ戻る。
【0072】
そして、要約映像生成部18は、S33以降の処理を、出力リストのすべての発話に対して繰り返す。その後、要約映像生成部18は最終的に残った再生リストを要約映像に残す区間のリスト(再生リスト)とする。
【0073】
このようにすることで要約映像生成部18は、設定された要約映像長におさまるように対話映像データの発話を選択することができる。
【0074】
例えば、要約映像生成部18は、設定された要約映像長におさまるように、図9に示す各発話(話者Aの「他にありますか?」、話者Dの「焼き鳥とかはどうでしょうか?」、話者Bの「焼き鳥」、および、話者Aの「いいですね」)を選択することができる。
【0075】
次に、図10を用いて、要約映像生成部18が、再生リストの発話時間の重なりを解消する処理を説明する。
【0076】
再生リスト中の各発話の中には、開始時刻と終了時刻との間に重なりがある場合がある。この場合、要約映像生成部18は、発話同士を連結し、新たな発話区間としてマージリストへ追加する。マージリストの作成方法としては、例えば、要約映像生成部18が、各発話の開始時刻および終了時刻を順番に比較していく方法が挙げられる。
【0077】
まず、要約映像生成部18は、空のリスト(マージリスト)を作成する(S41)。次に、要約映像生成部18は、再生リストが空であれば(S42でYes)、処理を終了する。
【0078】
一方、再生リストが空でなければ(S42でNo)、要約映像生成部18は、再生リストから再生開始時刻が最も早い発話を選択する(S43)。ここで選択した発話を「選択発話:前」と呼ぶ。
【0079】
S43の後、再生リストが1行のみの場合は(S44でYes)、要約映像生成部18は、選択発話:前をマージリストへ追加し(S55)、処理を終了する。
【0080】
一方、再生リストが1行のみではない場合(S44でNo)、要約映像生成部18は、再生リストから再生開始時刻が二番目に早い発話を選択する(S45)。ここで選択した発話を「選択発話:後」と呼ぶ。
【0081】
S45の後、選択発話:後の開始時刻が選択発話:前の終了時刻より後の場合(S46でYes)、要約映像生成部18は、選択発話:前をマージリストに追加する(S47)。そして、要約映像生成部18は、再生リストから選択発話:前を取り除いた上で(S48)、S42へ戻る。
【0082】
一方、選択発話:後の開始時刻が選択発話:前の終了時刻より前か同じ場合(S46でNo)、S51へ進む。ここで、選択発話:後の終了時刻が選択発話:前の終了時刻より後である場合(S51でYes)、要約映像生成部18は、選択発話:前の終了時刻を選択発話:後の終了時刻で上書きする(S52)。そして、S53へ進む。一方、選択発話:後の終了時刻が選択発話:前の終了時刻と同じか早い場合は(S51でNo)、S52の処理をスキップしてS53へ進む。
【0083】
その後、要約映像生成部18は、選択発話:後の開始時刻、終了時刻以外の項目を、選択発話:前へ連結する(S53)。このときの連結は文字列の連結でもよい。そして、要約装置10は、再生リストから選択発話:後を取り除き(S54)、S42へ戻る。
【0084】
例えば、要約映像生成部18が上記の処理を行うことにより、例えば、図9において発話時間が重なる話者Bの「焼き鳥」および話者Aの「いいですね」の各項目の情報を連結し、図11に示す情報を得る。そして、要約映像生成部18は、図11に示す発話の映像区間(開始時刻、終了時刻)に基づいて、対話映像入力部12から出力された音響情報、映像情報をカット・連結し、一つの要約映像を生成する。
【0085】
要約映像生成部18が上記の処理を行うことで、対話映像データの要約映像を生成することができる。
【0086】
[システム構成等]
また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0087】
また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0088】
[プログラム]
前記した要約装置10は、パッケージソフトウェアやオンラインソフトウェアとしてプログラム(対話映像要約プログラム)を所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を要約装置10として機能させることができる。ここで言う情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等の端末等がその範疇に含まれる。
【0089】
図12は、対話映像要約プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0090】
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0091】
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の要約装置10が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、要約装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
【0092】
また、上述した実施形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
【0093】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【符号の説明】
【0094】
10 要約装置(対話映像要約装置)
11 要約観点入力部
12 対話映像入力部
13 情報抽出部
14 対話分割部
15 対話行為推定部
16 重要度推定部
17 要約評価値算出部
18 要約映像生成部
19 要約映像出力部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12