特許第6087704号(P6087704)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6087704コミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラム
<>
  • 特許6087704-コミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラム 図000005
  • 特許6087704-コミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラム 図000006
  • 特許6087704-コミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラム 図000007
  • 特許6087704-コミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラム 図000008
  • 特許6087704-コミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラム 図000009
  • 特許6087704-コミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラム 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6087704
(24)【登録日】2017年2月10日
(45)【発行日】2017年3月1日
(54)【発明の名称】コミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20170220BHJP
【FI】
   G06F17/30 310Z
【請求項の数】11
【全頁数】19
(21)【出願番号】特願2013-82179(P2013-82179)
(22)【出願日】2013年4月10日
(65)【公開番号】特開2014-206773(P2014-206773A)
(43)【公開日】2014年10月30日
【審査請求日】2016年2月2日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100122426
【弁理士】
【氏名又は名称】加藤 清志
(72)【発明者】
【氏名】小林 亮博
(72)【発明者】
【氏名】帆足 啓一郎
【審査官】 川▲崎▼ 博章
(56)【参考文献】
【文献】 柴田 正啓、金 淵培,シーン記述に基づく映像の要約再生,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1996年 3月15日,Vol.95、No.584,p.27−32
【文献】 早川 和宏、杉崎 正之、大久保 雅且、田中 一男,テキスト情報に基づくビデオ映像の構造化ブラウザ,第56回(平成10年前期)全国大会講演論文集(3)データベースとメディア ネットワーク,日本,社団法人情報処理学会,1998年 3月17日,p.3−181、3−182
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
コミュニケーションに利用するコンテンツとして、発話を含むマルチメディアコンテンツから当該コミュニケーションに適したシーンを提供するコミュニケーションサービス提供装置において、
前記発話を含むマルチメディアコンテンツを、一発話単位に発話シーンとして切り分け、発話テキストを抽出する発話シーン抽出手段と、
前記発話シーン抽出手段で抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習する発話学習手段と、
前記発話学習手段で学習した発話モデルを記憶する発話モデル記憶手段と、
前記コミュニケーションの発話履歴を記憶するコミュニケーション履歴記憶手段と、
前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションにおける次発話に適した発話シーンを推定する次発話シーン推定手段と、
を備えるコミュニケーションサービス提供装置。
【請求項2】
前記発話シーン抽出手段で抽出された各発話シーンに対し、当該各発話シーンの属性情報をタグとして付与するタグ付与手段と、
前記発話シーン抽出手段で抽出された各発話シーンに対応付けて、前記タグ付与手段で当該各発話シーンに付与されたタグを記憶するタグ記憶手段と、
を備え、
前記発話学習手段が、コンテンツ上のある区間の前記発話シーンの系列に対応する前記タグ付与手段で付与されたタグの系列を状態タグシーケンス、前記区間の次の発話シーンに付与されたタグを行動タグノードとして、状態タグシーケンスから行動タグノードへのマップを前記発話モデルとして学習し、
前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションの次発話に適したシーンに付与されるタグを推定する次シーンタグ推定手段と、
前記次シーンタグ推定手段で推定されたタグと前記タグ記憶手段に記憶されているタグとに基づいて、前記次発話に適した発話シーンを検索する同タグシーン検索手段と、
を備えることを特徴とする請求項1に記載のコミュニケーションサービス提供装置。
【請求項3】
前記属性情報は、前記発話シーンの発話テキスト、当該発話シーンに登場するキャラクタの感情、当該発話シーンの構成要素を少なくとも含むことを特徴とする請求項2に記載のコミュニケーションサービス提供装置。
【請求項4】
前記発話シーン抽出手段が、話し言葉および効果音を前記発話テキストとして抽出することを特徴とする請求項1から請求項3のいずれかに記載のコミュニケーションサービス提供装置。
【請求項5】
前記発話学習手段が、コンテンツ毎に、前記発話シーン抽出手段で抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習し、
前記発話モデル記憶手段が、前記コンテンツ毎に、前記発話学習手段で生成された発話モデルを記憶し、
ユーザ毎に、ユーザが利用したマルチメディアコンテンツの履歴を記憶する利用履歴記憶手段と、
前記コミュニケーションを行っているユーザについて、前記利用履歴記憶手段に記憶されている履歴からコンテンツ候補を抽出するコンテンツ候補抽出手段と、
前記発話モデル記憶手段に記憶された複数の発話モデルから、前記コンテンツ候補抽出手段で抽出されたコンテンツ候補に対応付けて記憶されている発話モデルを選択する発話モデル選択手段と、
を備え、
前記次発話シーン推定手段が、前記コミュニケーションの次発話に適したシーンを、前記発話モデル選択手段で選択された発話モデルの中から前記コミュニケーション履歴記憶手段に記憶されている当該コミュニケーションの発話履歴に基づいて、前記次発話に適した発話シーンを推定することを特徴とする請求項1から請求項4のいずれかに記載のコミュニケーションサービス提供装置。
【請求項6】
前記利用履歴記憶手段に記憶されている履歴に基づいて、各マルチメディアコンテンツを基底とし当該各マルチメディアコンテンツの利用回数を係数とするコンテンツ履歴ベクトルを、ユーザ毎に生成するコンテンツ履歴ベクトル生成手段と、
前記コンテンツ履歴ベクトル生成手段で生成されたコンテンツ履歴ベクトルに基づいて、前記コミュニケーションを行っているユーザとの距離が小さいユーザをコンテンツ類似ユーザとして抽出するコンテンツ類似ユーザ抽出手段と、
を備え、
前記コンテンツ候補抽出手段が、前記コンテンツ類似ユーザ抽出手段により求められた前記コンテンツ類似ユーザに基づいて、利用履歴記憶手段に記憶されている履歴からコンテンツ候補を抽出することを特徴とする請求項5に記載のコミュニケーションサービス提供装置。
【請求項7】
ユーザ毎に発話履歴を記憶する発話履歴記憶手段と、
前記発話履歴記憶手段に記憶されている発話履歴に基づいて、各単語を基底とし当該各単語の出現頻度を係数とする発話履歴ベクトルを、ユーザ毎に生成する発話履歴ベクトル生成手段と、
前記発話履歴ベクトル生成手段で生成された発話履歴ベクトルに基づいて、前記コミュニケーションを行っているユーザとの距離が小さいユーザを発話類似ユーザとして抽出する発話類似ユーザ抽出手段と、
を備え、
前記コンテンツ候補抽出手段が、前記発話類似ユーザ抽出手段により求められた前記発話類似ユーザに基づいて、前記利用履歴記憶手段に記憶されている履歴からコンテンツ候補を抽出することを特徴とする請求項5または請求項6に記載のコミュニケーションサービス提供装置。
【請求項8】
前記次発話シーン推定手段で前記コミュニケーションにおける次発話に適した複数の発話シーンが推定された場合に、当該複数の発話シーンに対し、前記コミュニケーションを行っているユーザから受け付けたテキストに基づいて画像検索を行い、当該次発話に適した発話シーンの候補を絞りこむ絞り込み手段を備えることを特徴とする請求項1から請求項7のいずれかに記載のコミュニケーションサービス提供装置。
【請求項9】
前記次発話シーン推定手段で前記コミュニケーションにおける次発話に適すると推定された発話シーンの中から、前記コミュニケーションを行っているユーザが選択した発話シーンの権利を当該ユーザが有するか否かの認証を行う認証手段を備え、
前記認証手段で認証できた場合に、前記コミュニケーションを行っている他のユーザに前記ユーザが選択した発話シーンを送信することを特徴とする請求項1から請求項8のいずれかに記載のコミュニケーションサービス提供装置。
【請求項10】
コミュニケーションに利用するコンテンツとして、発話を含むマルチメディアコンテンツから当該コミュニケーションに適したシーンを提供するコミュニケーションサービス提供装置におけるコミュニケーションサービス提供方法であって、
前記コミュニケーションサービス提供装置は、発話シーン抽出手段、発話学習手段、発話モデル記憶手段、前記コミュニケーションの発話履歴を記憶するコミュニケーション履歴記憶手段、および次発話シーン推定手段を備え、
前記発話シーン抽出手段が、前記発話を含むマルチメディアコンテンツを、一発話単位に発話シーンとして切り分け、発話テキストを抽出する第1のステップと、
前記発話学習手段が、前記第1のステップで抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習する第2のステップと、
前記発話モデル記憶手段が、前記第2のステップで学習した発話モデルを記憶する第3のステップと、
前記次発話シーン推定手段が、前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションにおける次発話に適した発話シーンを推定する第4のステップと、
を備えるコミュニケーションサービス提供方法。
【請求項11】
コミュニケーションに利用するコンテンツとして、発話を含むマルチメディアコンテンツから当該コミュニケーションに適したシーンを提供するコミュニケーションサービス提供装置におけるコミュニケーションサービス提供方法をコンピュータに実行させるためのプログラムであって、
前記コミュニケーションサービス提供装置は、発話シーン抽出手段、発話学習手段、発話モデル記憶手段、前記コミュニケーションの発話履歴を記憶するコミュニケーション履歴記憶手段、および次発話シーン推定手段を備え、
前記発話シーン抽出手段が、前記発話を含むマルチメディアコンテンツを、一発話単位に発話シーンとして切り分け、発話テキストを抽出する第1のステップと、
前記発話学習手段が、前記第1のステップで抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習する第2のステップと、
前記発話モデル記憶手段が、前記第2のステップで学習した発話モデルを記憶する第3のステップと、
前記次発話シーン推定手段が、前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションにおける次発話に適した発話シーンを推定する第4のステップと、
をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コミュニケーションに適する一シーンを、発話を含むマルチメディアコンテンツから推定するコミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラムに関する。
【背景技術】
【0002】
一般的に映像コンテンツや漫画コンテンツは、登場するキャラクタの発話により構成されている。そのため、これらのコンテンツでのキャラクタの発話を、コミュニケーションにおいてユーザが自分の発話として利用することが可能であり、コミュニケーションとこれらのコンテンツとの親和性は高い。既に、インターネット上の掲示板サービス等では、コンテンツホルダーに無許可で、ユーザが、これらのコンテンツの一シーンを画像やテキストの形にてコミュニケーションに利用するケースが見られる。
【0003】
しかしながら、膨大なコンテンツの無数のシーンの中から、ユーザがコミュニケーションの展開に合致したシーンを見つけ出し、コミュニケーションに利用することは大きな労力を伴っていた。特に、漫画コンテンツは一ページに複数のコマが存在し、複数の発話が存在するため、ユーザが一シーン(一コマ)を切り出し、自分の発話としてコミュニケーションに利用することが困難であった。
【0004】
そこで、特許文献1に記載の技術では、マンガのページを画像処理してコマの枠線を認識することで一ページを複数のコマに分割して、一コマを一コンテンツとすることより、コマ単位でデータを利用することを可能にしている。また、同文献では、吹き出し中のテキストを抽出することでコマ(コンテンツ)の検索を容易にしている。
【0005】
一方、コンテンツを検索するシステムとしては、Google(登録商標)の画像検索が有名である(例えば、非特許文献1参照)。Googleの画像検索では、コンテンツに含まれる画像の周囲に存在するテキスト(見出し・画像タイトル・解説文等)と画像URLとを関連付けてインデックスを作成することで、テキストから画像を検索することが可能である。更に、画像そのものの特徴を抽出し、画像間を関連付けることによって、検索の機能を向上させる技術も提案されている(例えば、非特許文献2参照)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2011−238043号公報
【非特許文献】
【0007】
【非特許文献1】https://www.google.co.jp/imghp[2013年4月4日検索]
【非特許文献2】Yushi Jing,and Shumeet Baluja,「PageRank for Product Image Search」,WWW 2008/Refereed Track:Rich Media,2008.[2013年4月4日検索]
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上述した技術を用いて映像コンテンツや漫画コンテンツの一シーンをコミュニケーションに利用する場合、一シーン中に含まれるテキストを用いて検索を行い、検索で得られた大量の候補からユーザが適切なシーンを選択する作業が必要となる。そのため、スムーズなコミュニケーションは困難であり、コミュニケーションのリアルタイム性が失われてしまうという問題点があった。特に、携帯電話上の狭い画面では、検索で得られた大量の候補から適切なシーンを選択することは困難であり、スムーズなコミュニケーションは不可能に近かった。
【0009】
そこで本発明は、上記課題に鑑みて、コミュニケーションにおける次の発話に適したシーンを、発話を含むマルチメディアコンテンツから推定するコミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【0011】
(1) 本発明は、コミュニケーションに利用するコンテンツとして、発話を含むマルチメディアコンテンツから当該コミュニケーションに適したシーンを提供するコミュニケーションサービス提供装置において、前記発話を含むマルチメディアコンテンツを、一発話単位に発話シーンとして切り分け、発話テキストを抽出する発話シーン抽出手段と、前記発話シーン抽出手段で抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習する発話学習手段と、前記発話学習手段で学習した発話モデルを記憶する発話モデル記憶手段と、前記コミュニケーションの発話履歴を記憶するコミュニケーション履歴記憶手段と、前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションにおける次発話に適した発話シーンを推定する次発話シーン推定手段と、を備えるコミュニケーションサービス提供装置を提案している。
【0012】
(2) 本発明は、(1)のコミュニケーションサービス提供装置について、前記発話シーン抽出手段で抽出された各発話シーンに対し、当該各発話シーンの属性情報をタグとして付与するタグ付与手段と、前記発話シーン抽出手段で抽出された各発話シーンに対応付けて、前記タグ付与手段で当該各発話シーンに付与されたタグを記憶するタグ記憶手段と、を備え、前記発話学習手段が、コンテンツ上のある区間の前記発話シーンの系列に対応する前記タグ付与手段で付与されたタグの系列を状態タグシーケンス、前記区間の次の発話シーンに付与されたタグを行動タグノードとして、状態タグシーケンスから行動タグノードへのマップを前記発話モデルとして学習し、前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションの次発話に適したシーンに付与されるタグを推定する次シーンタグ推定手段と、前記次シーンタグ推定手段で推定されたタグと前記タグ記憶手段に記憶されているタグとに基づいて、前記次発話に適した発話シーンを検索する同タグシーン検索手段と、を備えることを特徴とするコミュニケーションサービス提供装置を提案している。
【0013】
(3) 本発明は、(2)のコミュニケーションサービス提供装置について、前記属性情報は、前記発話シーンの発話テキスト、当該発話シーンに登場するキャラクタの感情、当該発話シーンの構成要素を少なくとも含むことを特徴とするコミュニケーションサービス提供装置を提案している。
【0014】
(4) 本発明は、(1)から(3)のコミュニケーションサービス提供装置について、前記発話シーン抽出手段が、話し言葉および効果音を前記発話テキストとして抽出することを特徴とするコミュニケーションサービス提供装置を提案している。
【0015】
(5) 本発明は、(1)から(4)のコミュニケーションサービス提供装置について、発話学習手段が、コンテンツ毎に、前記発話シーン抽出手段で抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習し、前記発話モデル記憶手段が、前記コンテンツ毎に、前記発話学習手段で生成された発話モデルを記憶し、ユーザ毎に、ユーザが利用したマルチメディアコンテンツの履歴を記憶する利用履歴記憶手段と、前記コミュニケーションを行っているユーザについて、前記利用履歴記憶手段に記憶されている履歴からコンテンツ候補を抽出するコンテンツ候補抽出手段と、前記発話モデル記憶手段に記憶された複数の発話モデルから、前記コンテンツ候補抽出手段で抽出されたコンテンツ候補に対応付けて記憶されている発話モデルを選択する発話モデル選択手段と、を備え、前記次発話シーン推定手段が、前記コミュニケーションの次発話に適したシーンを、前記発話モデル選択手段で選択された発話モデルの中から前記コミュニケーション履歴記憶手段に記憶されている当該コミュニケーションの発話履歴に基づいて、前記次発話に適した発話シーンを推定することを特徴とするコミュニケーションサービス提供装置を提案している。
【0016】
(6) 本発明は、(5)のコミュニケーションサービス提供装置について、前記利用履歴記憶手段に記憶されている履歴に基づいて、各マルチメディアコンテンツを基底とし当該各マルチメディアコンテンツの利用回数を係数とするコンテンツ履歴ベクトルを、ユーザ毎に生成するコンテンツ履歴ベクトル生成手段と、前記コンテンツ履歴ベクトル生成手段で生成されたコンテンツ履歴ベクトルに基づいて、前記コミュニケーションを行っているユーザとの距離が小さいユーザをコンテンツ類似ユーザとして抽出するコンテンツ類似ユーザ抽出手段と、を備え、前記コンテンツ候補抽出手段が、前記コンテンツ類似ユーザ抽出手段により求められた前記コンテンツ類似ユーザに基づいて、利用履歴記憶手段に記憶されている履歴からコンテンツ候補を抽出することを特徴とするコミュニケーションサービス提供装置を提案している。
【0017】
(7) 本発明は、(5)または(6)のコミュニケーションサービス提供装置について、ユーザ毎に発話履歴を記憶する発話履歴記憶手段と、前記発話履歴記憶手段に記憶されている発話履歴に基づいて、各単語を基底とし当該各単語の出現頻度を係数とする発話履歴ベクトルを、ユーザ毎に生成する発話履歴ベクトル生成手段と、前記発話履歴ベクトル生成手段で生成された発話履歴ベクトルに基づいて、前記コミュニケーションを行っているユーザとの距離が小さいユーザを発話類似ユーザとして抽出する発話類似ユーザ抽出手段と、を備え、前記コンテンツ候補抽出手段が、前記発話類似ユーザ抽出手段により求められた前記発話類似ユーザに基づいて、前記利用履歴記憶手段に記憶されている履歴からコンテンツ候補を抽出することを特徴とするコミュニケーションサービス提供装置を提案している。
【0018】
(8) 本発明は、(1)から(7)のコミュニケーションサービス提供装置について、前記次発話シーン推定手段で前記コミュニケーションにおける次発話に適した複数の発話シーンが推定された場合に、当該複数の発話シーンに対し、前記コミュニケーションを行っているユーザから受け付けたテキストに基づいて画像検索を行い、当該次発話に適した発話シーンの候補を絞り込み手段を備えることを特徴とするコミュニケーションサービス提供装置を提案している。
【0019】
(9) 本発明は、(1)から(8)のコミュニケーションサービス提供装置について、前記次発話シーン推定手段で前記コミュニケーションにおける次発話に適すると推定された発話シーンの中から、前記コミュニケーションを行っているユーザが選択した発話シーンの権利を当該ユーザが有するか否かの認証を行う認証手段を備え、前記認証手段で認証できた場合に、前記コミュニケーションを行っている他のユーザに前記ユーザが選択した発話シーンを送信することを特徴とするコミュニケーション提供装置を提案している。
【0020】
(10) 本発明は、コミュニケーションに利用するコンテンツとして、発話を含むマルチメディアコンテンツから当該コミュニケーションに適したシーンを提供するコミュニケーションサービス提供装置におけるコミュニケーションサービス提供方法であって、前記コミュニケーションサービス提供装置は、発話シーン抽出手段、発話学習手段、発話モデル記憶手段、前記コミュニケーションの発話履歴を記憶するコミュニケーション履歴記憶手段、および次発話シーン推定手段を備え、前記発話シーン抽出手段が、前記発話を含むマルチメディアコンテンツを、一発話単位に発話シーンとして切り分け、発話テキストを抽出する第1のステップと、前記発話学習手段が、前記第1のステップで抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習する第2のステップと、前記発話モデル記憶手段が、前記第2のステップで学習した発話モデルを記憶する第3のステップと、前記次発話シーン推定手段が、前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションにおける次発話に適した発話シーンを推定する第4のステップと、を備えるコミュニケーションサービス提供方法を提案している。
【0021】
(11) 本発明は、コミュニケーションに利用するコンテンツとして、発話を含むマルチメディアコンテンツから当該コミュニケーションに適したシーンを提供するコミュニケーションサービス提供装置におけるコミュニケーションサービス提供方法をコンピュータに実行させるためのプログラムであって、前記コミュニケーションサービス提供装置は、発話シーン抽出手段、発話学習手段、発話モデル記憶手段、前記コミュニケーションの発話履歴を記憶するコミュニケーション履歴記憶手段、および次発話シーン推定手段を備え、前記発話シーン抽出手段が、前記発話を含むマルチメディアコンテンツを、一発話単位に発話シーンとして切り分け、発話テキストを抽出する第1のステップと、前記発話学習手段が、前記第1のステップで抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習する第2のステップと、前記発話モデル記憶手段が、前記第2のステップで学習した発話モデルを記憶する第3のステップと、前記次発話シーン推定手段が、前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションにおける次発話に適した発話シーンを推定する第4のステップと、をコンピュータに実行させるためのプログラムを提案している。
【発明の効果】
【0022】
本発明によれば、コミュニケーションにおける次の発話に適したシーンを、発話を含むマルチメディアコンテンツから推定することができる。
【図面の簡単な説明】
【0023】
図1】本発明の第1の実施形態に係るコミュニケーションサービス提供装置の構成を示す図である。
図2】本発明の第1の実施形態に係る認証部による発話シーンの認証例を示す図である。
図3】本発明の第1の実施形態に係る発話モデル作成処理フローを示す図である。
図4】本発明の第1の実施形態に係る次発話シーン推定処理フローを示す図である。
図5】本発明の第2の実施形態に係るコミュニケーションサービス提供装置の構成を示す図である。
図6】本発明の第3の実施形態に係るコミュニケーションサービス提供装置の構成を示す図である。
【発明を実施するための形態】
【0024】
以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【0025】
<第1の実施形態>
<コミュニケーションサービス提供装置の構成>
図1は、本発明の第1の実施形態に係るコミュニケーションサービス提供装置100の構成を示す図である。本実施形態に係るコミュニケーションサービス提供装置100は、発話を含むマルチメディアコンテンツ(以下、簡略化のためコンテンツという)の各シーンの発話から作成した発話モデルに基づいて、コミュニケーションにおける次発話に適したシーンをコンテンツの各シーンの中から推定する装置である。
【0026】
なお、ここで、コミュニケーションとは、ネットワークを介して行われるコミュニケーションであって、例えば、LINE(登録商標)、Twitter(登録商標)、Facebook(登録商標)等である。また、本実施形態においてコミュニケーションサービス提供装置100は、ユーザ端末やコミュニケーションサービスを提供するサーバから独立した装置とするが、ユーザ端末やサーバがその機能を備えることにより実現してもよい。
【0027】
コミュニケーションサービス提供装置100は、コミュニケーションにおける次発話に適すると推定したシーンを、コミュニケーションを行うユーザに提供することができ、ユーザはコンテンツのシーンをコミュニケーションに容易に利用することが可能となる。また、ユーザに提示されるシーンが予め絞り込まれているので、ユーザはシーンの選択が容易になり、その結果、スムーズなコミュニケーションが可能となる。
【0028】
図1に示すように、本実施形態に係るコミュニケーションサービス提供装置100は、発話シーン抽出部110、発話学習部120、発話モデル記憶部130、コミュニケーション履歴記憶部140、次発話シーン推定部150、絞り込み部160、および認証部170から構成される。
【0029】
発話シーン抽出部110は、発話を含むコンテンツを1発話単位に発話シーンとして切り分け、切り分けた発話シーンから発話テキストを抽出する。ここで、発話を含むコンテンツとは、発話を含む画像からなるコンテンツであって、例えば、映像コンテンツや漫画コンテンツである。また、映像コンテンツとは、映画、アニメーション、ドラマ等である。
【0030】
具体的には、発話シーン抽出部110は、コンテンツが映像コンテンツの場合には、発話毎に、発話時の画像を1発話シーンとして切り分け、切り分けた発話シーンに対応する発話をテキストに変換する。また、漫画コンテンツの場合には、特許文献1に記載の技術を用いて、1コマを1発話シーンとして切り分け、切り分けた発話シーンから発話テキストを抽出する。
【0031】
ここで、非特許文献2に代表されるような既存の対話システムにおいては、言いよどみや言い直しといった話し言葉、および擬音やフィラーといった効果音は、無意味な発話として、発話テキストには含めていなかった。しかし、本発明においては、話し言葉および効果音も発話テキストに含める。話し言葉および効果音によって感情や発話シーンの状況を表すことができるので、コミュニケーションに適した発話シーンを推定する際に意味を持つからである。
【0032】
発話シーン抽出部110が、発話シーンに切り分け、発話シーンから発話テキストを抽出するコンテンツは、コミュニケーションの次発話に適した発話シーンを推定するに用いる発話モデルを作成する際に、ネットワークを介してコンテンツサーバから任意または所定の条件で取得したコンテンツや、コミュニケーションサービス提供装置100の管理者等から入力されたコンテンツである。
【0033】
発話学習部120は、発話シーン抽出部110で抽出した発話テキストを、抽出元の発話シーンの時系列順に並べた列を発話のシークエンスとして扱い、コンテンツ上のある区間の発話シーンから抽出された発話テキストの系列を状態シーケンスとして、ある区間の次の発話シーンを行動ノードとして、状態シーケンスから行動ノードへのマップを発話モデルとして学習する。
【0034】
あるコンテンツについて、発話シーンの時系列がA、B、C、Dであって、各発話シーンの発話テキストが順にa、b、c、dである場合には、例えば、発話モデルはa→b→c→Dで表すことができる。
【0035】
発話モデル記憶部130は、発話学習部120で生成された発話モデルを記憶する。なお、発話モデルは、各コンテンツについて1つずつ作成されてもよいし、ユーザの利用頻度が高い複数のコンテンツや任意の複数のコンテンツから1つ作成されてもよい。また、発話モデルは、定期的に作成されてもよいし、コミュニケーションサービス提供装置100の管理者等の指示に応じて作成されてもよい。
【0036】
コミュニケーション履歴記憶部140は、コミュニケーションを行っている1以上のユーザの発話履歴を記憶する。具体的には、発話をしたユーザを識別するユーザ識別情報とユーザの発話のテキストとを対応付けて、コミュニケーション毎に記憶する。なお、発話履歴記憶部330は、ユーザが発話を行う毎にコミュニケーションが行われているサーバから取得して記憶してもよいし、コミュニケーションが行われているサーバを介してユーザから発話シーンの提供依頼があった際に、そのサーバが蓄積している発話履歴を取得して記憶してもよい。このとき、同じ1以上のユーザが行った過去の発話履歴を取得してもよい。
【0037】
次発話シーン推定部150は、コミュニケーションにおける次発話に適した発話シーンを、コミュニケーションにおけるそれまでの発話履歴を記憶しているコミュニケーション履歴記憶部140と発話モデルを記憶している発話モデル記憶部130とに基づいて、推定する。なお、次発話シーン推定部150は、次発話シーン要求を受け付けたことに応じて、コミュニケーションにおける次発話に適した発話シーンを推定する。ここで、次発話シーン要求は、ユーザが自発的に行ってもよいし、一のユーザの発話が終わったことに応じて自動的にされてもよい。
【0038】
コミュニケーションにおける次発話に適したシーンの推定方法としては、例えば、コミュニケーションにおけるそれまでの発話履歴と発話モデルの発話テキストとの単語のマッチングにより直前の発話に適した発話シーンを推定し、直前の発話に適すると推定された発話シーンの次シーンを次発話に適したシーンとして推定する方法がある。具体的は、各シーンとその前後のシーンに含まれる発話テキストから単語を抽出し、直前の発話テキストとマッチする単語が多いシーンの次シーンを次発話に適したシーンとして推定する。なお、直前の発話は1つとは限らず、直前の2つの発話や3つの発話であってもよい。
【0039】
次発話シーン推定部150は、発話モデルとコミュニケーションにおけるそれまでの発話履歴とを利用して、次発話に適した発話シーンを推定することにより、直前の発話が同じであってもそれまでのコミュニケーションの流れが異なる場合には、コミュニケーションの流れに適した異なる発話シーンを推定することが可能となる。また、発話学習部120で、非特許文献2に提案されている技術を用いて、コンテンツのキャラクタ間の発話のやりとりから発話モデルを学習すると、次発話シーン推定部150は、複数ターンからなるコミュニケーションに対しても次発話に適した発話シーンを推定することが可能となる。
【0040】
次発話シーン推定部150で、コミュニケーションにおける次発話に適すると推定された発話シーンを、コミュニケーションを行っているユーザに提供することにより、ユーザは次発話に合った発話シーンを容易に利用することができ、発話シーンを利用したスムーズなコミュニケーションが可能となる。
【0041】
絞り込み部160は、次発話シーン推定部150で複数の発話シーンが推定された場合に、ユーザから受け付けたテキストに基づいて画像検索を行い、次発話シーンとしてユーザに提供する発話シーンの絞り込みを行う。それにより、ユーザに提供される発話シーンの数を絞り込むことができ、よりスムーズなコミュニケーションが可能になる。絞り込み部160が行う画像検索としては、例えば、非特許文献1に記載の技術を用いることができる。
【0042】
なお、ユーザが次発話を行う前に次発話のキーワード等を入力することによって、ユーザに提供する発話シーンの絞り込みを行ってもよいし、ユーザが次発話の文字を入力する毎に発話シーンの候補の絞り込みを行ってもよい。
【0043】
認証部170は、次発話シーン推定部150で推定された発話シーンの中から、コミュニケーションを行っているユーザが選択した発話シーンの権利を、ユーザが有するか否かの認証を行う。認証部170は、認証できた場合には、コミュニケーションを行っている他のユーザにユーザが選択した発話シーンを送信し、一方、認証できなかった場合には、権利を有さない旨や権利の購入を促す通知等を行う。
【0044】
本発明では、コンテンツ全体だけでなく、発話シーン単位やチャプタ単位等によってコンテンツを細分化した一部についても権利を定義することができるものとする。それにより、必要な部分だけの権利取得が可能となり、ユーザの要望に柔軟に対応することが可能となる。
【0045】
図2を用いて、認証部170による発話シーンの認証例について説明する。なお、本説明において、コミュニケーションサービスを提供するサービスサーバがコミュニケーションサービス提供装置100の機能を備えているとする。
【0046】
(a)は、次発話シーンとして、サービスサーバが提供している発話シーン、または、発話シーンを含むチャプタやコンテンツを利用する場合の認証方法である。
【0047】
まず、サービスサーバは、次発話シーン推定部150で推定された発話シーンの中から、発話ユーザから次発話シーンとして利用する発話シーンの選択を受け付ける。次に、サービスサーバは、ユーザが選択した発話シーン、または、その発話シーンを含むチャプタやコンテンツのコンテンツ識別情報、発話ユーザおよび受話ユーザの少なくとも一方のユーザ識別情報等をコンテンツホルダーに送付する。次に、コンテンツホルダーは、サービスサーバから受信した情報に基づいて、ユーザが選択した発話シーン、または、その発話シーンを含むチャプタやコンテンツの権利情報をサービスサーバに送信する。
【0048】
そして、サービスサーバは、コンテンツホルダーから受信した権利情報に基づいて、発話ユーザが選択した発話シーンの権利を有しているか否かを判断する。発話ユーザが選択した発話シーンの権利を有している場合には、受話ユーザに発話シーンを送信する。一方、発話ユーザが選択した発話シーンの権利を有していない場合には、サービスサーバは、権利購入に必要な料金を発話ユーザに請求し、発話ユーザから支払われたことに応じて、サービスサーバは、受話ユーザに発話シーンを送信する。併せて、サービスサーバは、料金の支払いがあった発話シーンの権利情報をコンテンツホルダーに送信する。
【0049】
(b)は、発話ユーザの端末に権利を保有している、発話シーン、または、発話シーンを含むチャプタやコンテンツを利用する場合の認証方法である。
【0050】
まず、発話ユーザのユーザ端末は、次発話シーン推定部150で推定された発話シーンの中から発話ユーザが選択した発話シーンの権利を自端末に保持している場合には、保持するDRM情報、発話ユーザおよび受話ユーザの少なくとも一方のユーザ識別情報等をサービスサーバに送信する。次に、サービスサーバは、受信したDRM情報、発話ユーザおよび受話ユーザの識別情報等をコンテンツホルダーに送信する。次に、コンテンツホルダーは、サービスサーバから受信した情報に基づいて、ユーザが選択した発話シーン、または、その発話シーンを含むチャプタやコンテンツの権利情報をサービスサーバに送信する。
【0051】
次に、サービスサーバは、コンテンツホルダーから受信した権利情報に基づいて、ユーザが選択した発話シーンについて、発話ユーザが受話ユーザに送信するのに必要な権利を有しているか否かを判断する。発話ユーザが選択した発話シーンについて必要な権利を有している場合には、受話ユーザに発話シーンを送信する。一方、発話ユーザが選択した発話シーンについて必要な権利を有していない場合には、サービスサーバは、権利購入に必要な料金を発話ユーザに請求し、発話ユーザから支払われたことに応じて、サービスサーバは、受話ユーザに発話シーンを送信する。併せて、サービスサーバは、料金の支払いがあった発話シーンの権利情報をコンテンツホルダーに送信する。
【0052】
なお、コミュニケーションサービス提供装置100に認証部170を備えず、次発話シーン推定部150で推定された発話シーンの中から発話ユーザが選択した発話シーンの権利の認証を既存のシステムを用いて行ってもよい。既存のシステムにて、発話ユーザが選択した発話シーンの権利の認証が行われるとコンテンツホルダーからサービスサーバにコンテンツが送信され、サービスサーバは、受信したコンテンツを受話ユーザにコンテンツを送信する。
【0053】
<コミュニケーションサービス処理フロー>
本発明の第1の実施形態に係るコミュニケーションサービス処理は、発話モデル作成処理と、次発話シーン推定処理とからなる。図3は、本発明の第1の実施形態に係る発話モデル作成処理フローを示す図である。
【0054】
まず、ステップS1において、発話シーン抽出部110が、コンテンツを1発話単位に発話シーンに切り分ける。
【0055】
次に、ステップS2において、発話シーン抽出部110が、ステップS1で切り分けられた発話シーンから発話テキストを抽出する。
【0056】
次にステップS3において、発話シーン抽出部110が、ステップS1で切り分けた全ての発話シーンから発話テキストを抽出したか否か判断する。全ての発話シーンから発話テキストを抽出した場合(YES)には、ステップS4に処理を進め、全ての発話シーンから発話テキストを抽出していない場合(NO)には、ステップS2に処理を戻す。
【0057】
次に、ステップS4において、ステップS1で切り分けられた発話シーンと、ステップS2で抽出された発話テキストから発話モデルを学習する。
【0058】
次に、ステップS5において、ステップS4で学習した発話モデルを発話モデル記憶部130に記憶する。
【0059】
図4は、本発明の第1の実施形態に係る次発話シーン推定処理フローを示す図である。
【0060】
まず、ステップS11において、次発話シーン推定部150が、コミュニケーション履歴記憶部140からコミュニケーションにおける発話履歴を取得する。
【0061】
次に、ステップS12において、次発話シーン推定部150が、発話モデル記憶部130から発話モデルを取得する。
【0062】
次に、ステップS13において、次発話シーン推定部150が、ステップS11で取得した発話履歴と、ステップS12で取得した発話モデルとに基づいて、コミュニケーションにおける次発話に適した発話シーンを推定する。
【0063】
以上、説明したように、本実施形態によれば、コミュニケーションにおける次の発話に適したシーンを、発話を含むマルチメディアコンテンツから学習した発話モデルとコミュニケーションの発話履歴とに基づいて、推定することができる。その結果、コミュニケーションにおける次発話に適すると推定された発話シーンを、コミュニケーションを行っているユーザに提供することにより、ユーザは次発話に合った発話シーンを容易に利用することができ、発話シーンを利用したスムーズなコミュニケーションが可能となる。
【0064】
<第2の実施形態>
図5を用いて、本発明の第2の実施形態について説明する。なお、本実施形態におけるコミュニケーションサービス提供装置は、発話シーンの属性情報に基づいて、コミュニケーションのおける次発話シーンを推定する。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
【0065】
<コミュニケーションサービス提供装置の構成>
図5は、本発明の第2の実施形態に係るコミュニケーションサービス提供装置200の構成を示す図である。図5に示すように、本実施形態において、コミュニケーションサービス提供装置200は、発話シーン抽出部110、タグ付与部210、タグ記憶部220、発話学習部121、発話モデル記憶部130、コミュニケーション履歴記憶部140、次発話シーンタグ推定部230、および同タグシーン検索部240から構成される。
【0066】
タグ付与部210は、発話シーン抽出部110で抽出された各発話シーンに対し、各発話シーンの属性情報をタグとして付与する。ここで、各発話シーンの属性情報には、発話シーンの発話テキスト、発話シーンに登場するキャラクタの感情、発話シーンの構成要素を少なくとも含む。また、発話シーンの構成要素とは、ストーリーの段階(例えば、起承転結のいずれか)、登場しているキャラクタ、キャラクタの位置やサイズといった画面構成、学校や海辺といった背景である。属性情報は、発話シーンの画像解析等により自動的に取得してもよいし、発話シーンから人手により取得してもよい。
【0067】
タグ記憶部220は、発話シーン抽出部110で抽出された各発話シーンに対応付けて、タグ付与部210で各発話シーンに付与されたタグを記憶する。
【0068】
発話学習部121は、コンテンツ上のある区間の発話シーンの時系列に対応する、タグ付与部210で付与されたタグの時系列を状態タグシーケンス、区間の次の発話シーンに付与されたタグを行動タグノードとして、状態タグシーケンスから行動タグノードへのマップを発話モデルとして学習する。
【0069】
次発話シーンタグ推定部230は、コミュニケーションにおける次発話に適したシーンに付与されるタグを、コミュニケーションにおけるそれまでの発話履歴を記憶している発話履歴記憶部330と発話モデルを記憶している発話モデル記憶部130とに基づいて、推定する。なお、次発話シーン推定部150は、発話シーン要求を受け付けたことに応じて、コミュニケーションにおける次発話に適したシーンを推定する。ここで、発話シーン要求は、ユーザが自発的に行ってもよいし、一のユーザの発話が終わったことに応じて自動的にされてもよい。
【0070】
同タグシーン検索部240は、次発話シーンタグ推定部230で推定されたタグと一致するタグを、タグ記憶部220に記憶されているタグから検索する。そして、同タグシーン検索部240は、検索されたタグが付与されている発話シーンを次発話に適した発話シーンとして推定する。それにより、コミュニケーションにおける次発話に適する発話シーンを、発話シーンの属性情報のタグから推定することができる。
【0071】
以上、説明したように、本実施形態によれば、コミュニケーションにおける次発話に適する発話シーンを、発話シーンの属性情報から推定する。それにより、属性情報は発話シーンを抽象化した情報であるので、コミュニケーションの流れに最も合っている発話シーンだけでなく、だいたい合っている発話シーンも次発話に適した発話シーンとして推定することができる。その結果、ユーザの予想と異なる発話シーンも提供され、コミュニケーションに用いる発話シーンの選択肢の幅を広げることができる。
【0072】
<第3の実施形態>
図6を用いて、本発明の第3の実施形態について説明する。なお、本実施形態におけるコミュニケーションサービス提供装置は、複数の発話モデルの中から、特定のコンテンツから生成された発話モデルを選択し、選択した発話モデルから次発話シーンを推定する。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
【0073】
<コミュニケーションサービス提供装置の構成>
図6は、本発明の第3の実施形態に係るコミュニケーションサービス提供装置300の構成を示す図である。図6に示すように、本実施形態において、コミュニケーションサービス提供装置300は、発話シーン抽出部110、発話学習部122、発話モデル記憶部132、利用履歴記憶部310、コンテンツ履歴ベクトル生成部320、発話履歴記憶部330、発話履歴ベクトル生成部340、類似ユーザ抽出部350、コンテンツ候補抽出部360、発話モデル選択部370、および次発話シーン推定部152から構成される。
【0074】
発話学習部122は、コンテンツ毎に、発話シーン抽出部110で抽出した発話テキストを、抽出元の発話シーンの時系列順に並べた列を発話のシークエンスとして扱い、コンテンツ上のある区間の発話シーンから抽出された発話テキストの系列を状態シーケンスとして、ある区間の次の発話シーンを行動ノードとして、状態シーケンスから行動ノードへのマップを発話モデルとして学習する。
【0075】
発話モデル記憶部132は、発話学習部122で生成されたコンテンツ毎の発話モデルを、コンテンツ毎に記憶する。なお、発話モデルは、定期的に作成されてもよいし、コミュニケーションサービス提供装置300の管理者等の指示に応じて作成されてもよい。
【0076】
利用履歴記憶部310は、ユーザ毎に、ユーザが利用したコンテンツの履歴を記憶する。利用履歴記憶部310は、例えば、ユーザの識別情報に対応付けてコンテンツの識別情報と利用回数とを記憶している。
【0077】
コンテンツ履歴ベクトル生成部320は、利用履歴記憶部310に記憶されている履歴に基づいて、各コンテンツを基底とし各コンテンツの利用回数を係数とするコンテンツ履歴ベクトルを、ユーザ毎に生成する。コンテンツ履歴ベクトルは(1)式で表すことができる。
【0078】
【数1】
【0079】
発話履歴記憶部330は、ユーザ毎に発話履歴を記憶する。具体的には、発話履歴記憶部330は、ユーザの識別情報に対応付けて、ユーザが過去に行ったコミュニケーションにおける発話を記憶している。
【0080】
発話履歴ベクトル生成部340は、発話履歴記憶部330に記憶されている発話履歴に基づいて、各単語を基底とし各単語の出現頻度を係数とする発話履歴ベクトルを、ユーザ毎に生成する。発話履歴ベクトルは(2)式で表すことができる。
【0081】
【数2】
【0082】
類似ユーザ抽出部350は、コンテンツ履歴ベクトル生成部320で生成されたコンテンツ履歴ベクトルに基づいて、コミュニケーションを行っているユーザとの距離が小さいユーザを類似ユーザとして抽出する。具体的には、(3)式により、他ユーザとの類似度を算出し、最も類似度の小さいユーザをコンテンツ類似ユーザとする。
【0083】
【数3】
【0084】
また、類似ユーザ抽出部350は、発話履歴ベクトル生成部340で生成された発話履歴ベクトルに基づいて、コミュニケーションを行っているユーザとの距離が小さいユーザを類似ユーザとして抽出する。具体的には、発話履歴ベクトルに基づいて類似ユーザを抽出する場合と同様に(3)式により、他ユーザとの類似度を算出し、最も類似度の小さいユーザを発話類似ユーザとする。
【0085】
コンテンツ候補抽出部360は、コミュニケーションを行っているユーザについて、利用履歴記憶部310に記憶されている履歴からコンテンツ候補を抽出する。具体的には、コンテンツ候補抽出部360は利用履歴記憶部310に記憶されている履歴に基づいて、コミュニケーションを行っているユーザの利用頻度が高いコンテンツを抽出する。
【0086】
また、コンテンツ候補抽出部360は、類似ユーザ抽出部350により求められたコンテンツ類似ユーザに基づいて、利用履歴記憶部310に記憶されている履歴からコンテンツ候補を抽出する。具体的には、コンテンツ候補抽出部360は利用履歴記憶部310に記憶されている履歴に基づいて、コンテンツ類似ユーザの利用頻度が高いコンテンツを抽出する。
【0087】
更に、コンテンツ候補抽出部360は、類似ユーザ抽出部350により求められた発話類似ユーザに基づいて、利用履歴記憶部310に記憶されている履歴からコンテンツ候補を抽出する。具体的には、コンテンツ候補抽出部360は利用履歴記憶部310に記憶されている履歴に基づいて、発話類似ユーザの利用頻度が高いコンテンツを抽出する。
【0088】
発話モデル選択部370は、発話モデル記憶部130に記憶された複数の発話モデルから、コンテンツ候補抽出部360で抽出されたコンテンツ候補に対応付けて記憶されている発話モデルを選択する。
【0089】
次発話シーン推定部152は、コミュニケーションにおける次発話に適した発話シーンを、コミュニケーションにおけるそれまでの発話履歴を記憶している発話履歴記憶部330と、発話モデル選択部370で選択された発話モデルを記憶している発話モデル記憶部130とに基づいて、推定する。なお、次発話シーン推定部152は、発話シーン要求を受け付けたことに応じて、コミュニケーションにおける次発話に適した発話シーンを推定する。ここで、発話シーン要求は、ユーザが自発的に行ってもよいし、一のユーザの発話が終わったことに応じて自動的にされてもよい。コミュニケーションにおける次発話に適したシーンの推定方法については、第1の実施形態と同様である。
【0090】
以上、説明したように、本実施形態によれば、ユーザが良く利用するコンテンツはユーザが好むコンテンツであって、コミュニケーションに利用する可能性が高い。そのため、ユーザが良く利用するコンテンツから学習された発話モデルを次発話シーンの推定に用いることで、ユーザが良く利用するコンテンツに含まれる発話シーンを次発話に適した発話シーンとしてユーザに提示でき、次発話に適した発話シーンの推定精度を向上させることができる。
【0091】
また、利用しているコンテンツや発話がユーザと類似する類似ユーザが良く利用するコンテンツから学習された発話モデルを次発話シーンの推定に用いることで、ユーザが利用していないコンテンツや利用頻度の少ないが、ユーザの好みに合うと推定されるコンテンツに含まれる発話シーンを次発話に適した発話シーンとしてユーザに提示できるので、ユーザの予想と異なる発話シーンも提供され、ユーザの選択肢の幅を広げることができる。
【0092】
なお、コミュニケーションサービス提供装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを機器に読み込ませ、実行することによって本発明のコミュニケーションサービス提供装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
【0093】
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
【0094】
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0095】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0096】
100 コミュニケーションサービス提供装置
110 発話シーン抽出部
120 発話学習部
130 発話モデル記憶部
140 コミュニケーション履歴記憶部
150 次発話シーン推定部
160 絞り込み部
170 認証部
図1
図2
図3
図4
図5
図6